Apache Impala

Apache Impala est un moteur de requêtes SQL open source de Cloudera (MPP) pour les données stockées dans des clusters d'ordinateurs exécutant Apache Hadoop[2].

Apache Impala

Informations
Développé par	Cloudera et Apache Software Foundation
Dernière version	3.4.0 (22 avril 2020)[1]
Dépôt	github.com/apache/impala
État du projet	en développement
Écrit en	C++, Java et Python
Système d'exploitation	Multiplateforme
Environnement	Machine virtuelle Java
Licence	Licence Apache
Site web	impala.apache.org

Description

Cloudera Impala est un moteur de requête qui s'exécute sur Apache Hadoop.

Impala apporte la technologie évolutive et parallèle des bases de données Hadoop, permettant aux utilisateurs d'émettre des requêtes SQL faibles latences aux données stockées dans le HDFS et Apache HBase sans nécessiter le déplacement des données ou transformation. Impala est intégré avec Hadoop pour utiliser les mêmes fichiers et formats de données, ainsi que les frameworks de sécurité et management de ressource utilisés par MapReduce, Apache Hive, Apache Pig et autres logiciels Hadoop[3].

Impala est favorisée par les analystes et les data scientists pour effectuer des analyses sur des données stockées dans Hadoop via des outils de SQL ou des outils de business intelligence. Le résultat est un traitement massif sur les données et des requêtes interactives qui peuvent-être effectuées sur le même système en utilisant les mêmes données et méta-données – en évitant de migrer l'ensemble de données dans les systèmes spécialisés ou sur des formats propriétaires tout simplement pour effectuer des analyses.

Fonctionnalités :

Support HDFS et Apache HBase,
Lecture des formats Hadoop, y compris les formats texte, LZO, SequenceFile, Avro, RCFile, et Parquet,
Support Hadoop security (authentication Kerberos),
Autorisation fine basée sur les rôles avec Apache Sentry,
Utilisation des meta-datas, driver ODBC, et syntaxe SQL de Apache Hive.

Au début de 2013, un format de fichier en colonnes appelé Parquet a été annoncé pour les architectures y compris Impala. En décembre 2013, Amazon Web Services a annoncé un soutien pour Impala. Au début de 2014, MapR ajouté le support pour Impala. En 2015, un autre format appelé Kudu a été annoncé, que Cloudera a propose de donner à la Fondation Apache Software avec Impala. En octobre 2016, Impala devient un projet Apache Incubator.

Historique

Le projet a été annoncé en octobre 2012, en bêta-test public et est devenu effectivement disponible en mai 2013[4].

En novembre 2015, Cloudera annonce vouloir donner Impala à la Apache Software Foundation[5].

Voir aussi

Presto — Moteur de requêtes SQL open source créé par Facebook et soutenu par Teradata. Optimisé d'analyse interactive pour architecture temps réel distribuée
Dremel — est un outil similaire proposé par Google
Apache Drill — Projet open source similaire inspiré de Dremel
Cloudera — La distribution Hadoop initiatrice du projet Cloudera Impala
Hadoop
Presto
Catégorie:Écosystème Hadoop

Références

« Release 3.4.0 », 22 avril 2020 (consulté le 23 avril 2020)
« Cloudera Impala » (consulté le 14 mars 2014)
(en) Timothy Prickett Morgan, « Cloudera revs up Impala SQL for Hadoop », The Register, 30 avril 2013 (consulté le 26 janvier 2016)
Yves Grandmontagne, « Big Data : Impala de Cloudera interroge Hadoop en temps réel », Silicon.fr, 31 octobre 2012 (consulté le 26 janvier 2016)
(en) Andrew Brust, « Impala, Kudu, and the Apache Incubator's four-month Big Data binge », ZDNet, 1^er décembre 2015 (consulté le 26 janvier 2016)

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Cloudera Impala » (voir la liste des auteurs).

Liens externes

Cloudera Impala site du projet
Impala GitHub code source du projet
Impala Project Page site web du projet

Portail de l’informatique
Portail des données
Portail des bases de données

Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.

[wikidata-24bdce28c6e3519fd938f3e74d92868c9f59e954-1] « Release 3.4.0 », 22 avril 2020 (consulté le 23 avril 2020)

[Cloudera_Impala-2] « Cloudera Impala » (consulté le 14 mars 2014)

[3] (en) Timothy Prickett Morgan, « Cloudera revs up Impala SQL for Hadoop », The Register, 30 avril 2013 (consulté le 26 janvier 2016)

[4] Yves Grandmontagne, « Big Data : Impala de Cloudera interroge Hadoop en temps réel », Silicon.fr, 31 octobre 2012 (consulté le 26 janvier 2016)

[5] (en) Andrew Brust, « Impala, Kudu, and the Apache Incubator's four-month Big Data binge », ZDNet, 1^er décembre 2015 (consulté le 26 janvier 2016)