Apache Tika

Apache Tika est un toolkit développé par la fondation Apache qui permet de détecter, d'extraire des métadonnées, et de structurer le contenu textuel de nombreux types de documents (gzip, .mid, .pdf, tar, zip...)[4].

Apache Tika

Informations
Développé par	Apache Software Foundation
Première version	22 mars 2007[1]
Dernière version	2.4.0 (2 mai 2022)[2]^,[3]
Dépôt	gitbox.apache.org/repos/asf/tika.git
Écrit en	Java
Environnement	Machine virtuelle Java
Formats lus	Classes Java, Waveform Audio File Format, Au, Audio Interchange File Format, Standard MIDI File (d), Microsoft Compressed HTML, Directory Interchange Format (d), DWG, EPUB, Portable Executable, Executable and Linkable Format, XCOFF (en), Adobe Type 1 Printer Font Metrics (d), TrueType, Better Portable Graphics, Apple Icon Image, Portable Network Graphics, Wireless Application Protocol Bitmap Format, Windows bitmap, XCF, .psd, TIFF, WebP sans pertes (d), JPEG File Interchange Format (JFIF), Mbox, Office Open XML, TNEF, MPEG-1/2 Audio Layer 3, MPEG-4 Part 14, 3GPP (d), 3GPP2 (d), Fichier Quicktime (en), Advanced Video Coding (d), netCDF, OpenDocument, Portable Document Format, Zlib, GZIP (en), bzip2 (d), bzip Archive (d), XZ, tar, JAR, ZIP, cpio, 7z, RAR, Rich Text Format, texte brut, Flash Video, Native FLAC (d), Kate (d), Ogg, Opus, Speex, Theora, Vorbis et AppleSingle (d)
Licence	Licence Apache version 2.0
Site web	tika.apache.org

Ce projet dépendant de l'Apache Software Foundation, était auparavant un sous-projet de Apache Lucene.

Usages notables

Tika est utilisé combiné à Solr par environ 400 journalistes pour analyser les 11,5 millions de documents divulgués lors des Panama Papers[5]^,[6].

« https://projects.apache.org/json/projects/tika.json » (consulté le 8 avril 2020)
« https://gitbox.apache.org/repos/asf?p=tika.git;a=tag;h=c8f969818d0d797b09b79eb6d7364ef20e29b23c », 2 mai 2022 (consulté le 27 mai 2022)
(en) « Apache Tika 2.4.0 released », 2 mai 2022 (consulté le 27 mai 2022)
http://www.ibm.com/developerworks/opensource/tutorials/os-apache-tika/index.html
(en) Thomas Brewster, « From Encrypted Drives To Amazon's Cloud -- The Amazing Flight Of The Panama Papers », sur Forbes, 5 avril 2016 (consulté le 15 avril 2016)
Reynald Fléchaux, « Linkurious : la start-up du Big Data qui surfe sur les Panama Papers », sur Silicon.fr, 6 acril 2016 (consulté le 19 décembre 2018)

Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.