Apache Tika
Apache Tika est un toolkit développé par la fondation Apache qui permet de détecter, d'extraire des métadonnées, et de structurer le contenu textuel de nombreux types de documents (gzip, .mid, .pdf, tar, zip...)[4].
Pour les articles homonymes, voir Tika.
Apache Tika

Ce projet dépendant de l'Apache Software Foundation, était auparavant un sous-projet de Apache Lucene.
Usages notables
Tika est utilisé combiné à Solr par environ 400 journalistes pour analyser les 11,5 millions de documents divulgués lors des Panama Papers[5],[6].
Références
- « https://projects.apache.org/json/projects/tika.json » (consulté le )
- « https://gitbox.apache.org/repos/asf?p=tika.git;a=tag;h=c8f969818d0d797b09b79eb6d7364ef20e29b23c », (consulté le )
- (en) « Apache Tika 2.4.0 released », (consulté le )
- http://www.ibm.com/developerworks/opensource/tutorials/os-apache-tika/index.html
- (en) Thomas Brewster, « From Encrypted Drives To Amazon's Cloud -- The Amazing Flight Of The Panama Papers », sur Forbes, (consulté le )
- Reynald Fléchaux, « Linkurious : la start-up du Big Data qui surfe sur les Panama Papers », sur Silicon.fr, 6 acril 2016 (consulté le )
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.