Préparation des données

La préparation de données est un processus qui précède celui de l'analyse de données. Il est constitué de plusieurs tâches comme la collecte de données, le nettoyage de données, l'enrichissement de données ou encore la fusion de données.

Au cours de la préparation des données, les données dites « brutes » sont soumises à différents traitements afin de les rendre exploitables pour l'étape d'Exploration de données, au cours de laquelle le but sera d'extraire des connaissances à partir des données via la construction de modèles.

La préparation des données une étape clé car la fiabilité de l'analyse des données dépend en très grande partie de la qualité des données.

Enjeux

Les données à disposition des entreprises sont souvent désordonnées et de mauvaise qualité, ce qui représente un frein dans le processus car il est nécessaire de passer beaucoup de temps à améliorer ces données avant de passer à l’analyse.

La capacité des entreprises à utiliser des outils permettant de réduire considérablement le temps lié à la préparation des donnés représente un réel enjeu dans un marché qui dépassera le milliard de dollars en 2023[1].

Les entreprises doivent gérer un nombre de plus en plus important de données et les traiter dans des délais qui sont également de plus en plus cours. Avec les changements de plus en plus fréquents liés aux comportements des utilisateurs, il faut sans cesse remettre à jour les données pour avoir une compréhension et une confiance en elles à chaque instant.

Une entreprise qui maîtrise le processus de préparation des données, et dispose d'outils performants et permettant l'automatisation du processus est assurée d’avoir des meilleurs résultats lors de l’analyse de ses données. Le but des entreprises est d'avoir à leur disposition des données correctes, fiables et cohérentes avec le temps, qui permettront par exemple de traduire des réels besoins chez les clients et donc de mieux cibler les offres qu'elle va leur proposer pour maximiser ses profits.

De plus, avoir une maîtrise et une bonne compréhension de ses données représente un enjeu crucial pour les entreprises, car cela leur permet d’avoir plus de confiance vis-à-vis des données, et d'être donc plus confiantes dans les choix stratégiques comme la prise de décisions financières.

Problématiques

Le but du processus de préparation de données est l’obtention de données fiables, en quantité et en qualité, cohérentes et structurées afin que l’analyse soit la plus performante possible.

Cependant, les problématiques liées à la préparation des données que rencontrent les chercheurs sont proportionnelles à la quantité des données avec lesquelles ils doivent travailler.

Parmi ces problématiques on peut citer entre autres :

  • Comment exploiter au mieux les données ?
  • Comment enrichir ses données avec des données cohérentes ?
  • Comment s’assurer de la qualité des données ?
  • Comment nettoyer les données ?
  • Comment mettre à jour les données et les modèles ?
  • Comment rendre le processus plus rapide ?
  • Comment réduire les coûts liés au processus de préparation des données ?

D'après Forbes[2], le processus de préparation des données est la partie la moins agréable du travail pour 76 % des experts en méga-données. De plus, ils passeraient près de 80 % de leurs temps à préparer et manager les données pour l'analyse, ce qui met en avant le fait que le processus de préparation des données est un processus long est fastidieux, et nécessite donc des outils pour soulager les personnes qui travaillent avec.

Histoire

Le processus de préparation des données est associé historiquement à celui de l'Analyse des données. Dès lors que des personnes vont collecter des données afin d'en faire une analyse, il est question de préparation des données.

Ingestion des données

L'ingestion des données désigne l'étape du processus de préparation des données pendant laquelle les données provenant d'une ou plusieurs sources vont être placées dans un espace de stockage.

Le but est de permettre aux équipes d'avoir accès à ces données pour pouvoir les utiliser, les organiser ou encore les analyser. La plupart des espaces de stockage des données sont des entrepôts de données. Ils permettent de collecter et d'ordonner les données Ils sont composés de données hétérogènes, et fournissent une base à l'entreprise pour la prise de décisions. Les entrepôts de données différent d'autres solutions de stockage de données comme les lacs de données de par la nature des données qui y sont stockées. En effet, les lacs de données permettent par exemple le stockage de données homogènes.

Amélioration des données

Dans la quasi-totalité des projets, l'équipe responsable devra passer par une phase d'amélioration des données. Ce processus peut comporter plusieurs étapes pendant lesquelles les données vont subir plusieurs traitements afin de construire une base de données plus fiable et plus pertinente par rapport aux besoins de l'équipe d'analyse.

Nettoyage des données

Le processus de nettoyage de données est fondamental à la préparation des données. Il permet d'en améliorer la qualité en supprimant ou en modifiant les données erronées. Le but de cette opération est d'éviter de retrouver dans la base de données des données incorrectes. Les données peuvent être incorrectes pour plusieurs raisons :

  • erreurs de saisies ;
  • erreurs lexicales ;
  • erreurs de formats ;
  • doublons ;
  • données manquante ;
  • erreurs sémantiques.

Le nettoyage des données est une étape cruciale dans la préparation des données car toute erreur liée aux données se répercutera inévitablement dans leur analyse. L'augmentation de la quantité des données provoquent une augmentation des données incorrectes, ce qui oblige les entreprises à adopter une multitudes de méthodes afin de les éliminer. Parmi ces méthodes, on peut citer l'audit de données, l'élimination des doublons par algorithme ou encore l'analyse syntaxique.

Enrichissement des données

L’enrichissement des données signifie une fusion entre les données interne à l’entreprise et des données provenant d’une ou de plusieurs sources externes. Il arrive très souvent que les organisations aient recours à des données externes lors de la préparation des données.

Le but de cet enrichissement est la possibilité de faire des décisions plus pertinentes.

Par exemple, si une entreprise possède des données de consommation sur ses clients, l’ajout de données externes pourra permettre un meilleur profilage des clients, et donc de proposer des offres plus pertinentes pour ces derniers, et donc maximiser les gains de l'entreprise.

Les données brutes détenues initialement par l’entreprise ne sont souvent pas suffisantes, et l'enrichissement des données devient une réelle nécessité dans la plupart des cas.

Cependant, il ne faut pas ajouter des données juste pour ajouter des données, il est nécessaire que les données ajoutées soient pertinentes et qu'elles ajoutent une vraie complémentarité par rapport à l'existant.

L’enrichissement des données peut constituer un réel défi à part entière pour les entreprises. En effet, enrichir une base de données requiert d’avoir au préalable une base de données dont les données sont de qualité.

Cela signifie que l'entreprise doit au préalable disposer de données en quantité suffisantes et nettoyées. De plus, il faut prendre en compte le risque inhérent de la fusion des bases de données.

Premièrement, il peut y avoir un souci de fiabilité. Les données externes peuvent comporter des erreurs, c’est pour cela qu’il faut faire attention aux sources et effectuer un travail de vérification sur celles-ci.

Ensuite, les données peuvent suivre des schémas différents et êtres soumises à des réglés différentes. La fusion des données nécessitera une transformation des données au préalable pour les mettre sous le même format.

Un autre problème à prendre en compte concerne les coûts des sources extérieures. En effet, les « data as a service » sont des solutions permettant aux organisations d'avoir un accès à des bases de données contre un abonnement.

L’enrichissement des données est un processus qui nécessite d’être maintenu dans le temps avec des données qui permettent de traduire une situation à un instant précis. Le véritable enjeu de l'enrichissement des données ne réside pas dans le fait de construire la base de données la plus volumineuse, mais dans le fait de réussir à capturer les données les plus pertinentes pour l'étude.

Dans un monde où les comportements et les habitudes des consommateurs changent en permanence, il faut que les entreprises aient au préalable déterminé quelles étaient les données en leur possession, et quelles données ils leur manquait pour effectuer leur analyse de la meilleure des manières.

Transcription des données

Lors de la collecte de données, chaque donnée qui peut améliorer le niveau de précision est importante pour le chercheur. La variété des données oblige les entreprises à ne plus se reposer uniquement sur leurs méthodes traditionnelles, mais plutôt de remettre à jour en permanence leurs processus de préparation des données. La multiplicité des canaux d'informations génèrent des problèmes liés à la nature des données.

De nombreuses données ne sont pas représentées sous la forme de données quantitatives, c'est-à-dire sous la forme de nombres ou de pourcentages, mais peuvent se trouver sous une forme qualitative.

Les données qualitatives sont des données qui sont présentes dans les discours, les reportages, les articles et traduisent une pensée, un comportement, une culture ou tout autre information qui est plus difficile d'extraire[3].

Une étape de transcription des données est requise pendant laquelle il faudra capturer l'essence du document à travers des données que les chercheurs utiliseront pendant leurs analyses.

C'est une étape qui est fondamentale car de nombreuses informations sont contenues dans les données qualitatives et permettent aux entreprises d'avoir une meilleure compréhension de phénomènes économiques et sociaux.

À l'ère des réseaux sociaux, la capacité des entreprises à capturer les données présentes sur ces canaux de communications représente un réel enjeu.

Mise à jour des données

Un des problèmes liés aux données possédées par les entreprises, indépendamment du niveau de précision des données extraites, est le fait qu'elles ne sont pertinentes que par rapport à une date précise et un contexte en particulier. Les données peuvent devenir très rapidement obsolètes et peuvent devenir un frein voir une source de conflit si elles ne sont pas actualisées en temps voulu.

La réelle difficulté réside dans la capacité à enrichir en temps voulu la base de données déjà existante avec des données pertinentes aux analyses.

Outils

Les outils constituent un point essentiel lors de la préparation des données. Les feuilles de calcul restent à ce jour une solution abordable pour la visualisation des données, mais également pour effectuer des calculs et procéder à l'analyse des données[4].

Ce type de solution est plutôt réservé au petites entreprises ne possédants pas les mêmes budgets que d'autres entreprises possédants des départements complets pour s'occuper de cette tâche.

De plus, certaines entreprises procèdent encore au nettoyage manuellement, ce qui peut poser plusieurs problèmes. Par exemple, le fait que les bases de données soient très volumineuses rend la correction manuelles des données très pénibles et faillible. De plus cette solution nécessite beaucoup de temps pour la personne responsable, et donc moins de temps à l'analyse des données.

Pour pallier ces problèmes, les entreprises se tournent vers plusieurs outils, libres de droits ou non, adaptés à leurs besoins et à leurs ambitions.

Outils open source

De nombreux outils libres de droits permettent la structuration et le traitement des données. Ces outils permettent entre autres la conversion des données sous un autre format, la fusion de larges volumes de données ou encore le nettoyage des données.

Parmi ces outils libres de droit on peut citer :

Outils payants

  • Alteryx
  • Trifacta
  • Paxata

Pipelines

Avec la multiplication des données et des sources de données, les entreprises ont besoin d'outils fiables qui permettent d'automatiser le processus d'extraction des données.

Une pipeline fait référence à l'ensemble des étapes pendant lesquelles les données vont transiter de leurs sources d'origine vers un système, ou vers d'autres sources de données.

Les pipelines sont des outils puissants car elles permettent d'automatiser le processus de transfert des données, et donc un gain de temps pour les personnes responsables.

Les pipelines peuvent avoir un processus de traitement des données, cependant ce n'est pas toujours le cas.

Pipelines ETL

Les pipelines d'extraction, de transformation et de chargement (extract-transform-load), sont une sous-catégorie de pipelines.

Ces pipelines différent du fait que les données vont passer par plusieurs étapes dans lesquelles elles vont subir un processus de transformation. Traditionnellement, les pipelines ETL vont proposer les processus suivants :

  • l'extraction des données ;
  • la transformation des données suivant un modèle de données ;
  • le chargement dans l'espace de stockage.

Les données en sortie de la pipeline sont considérées comme pré-traitées et prêtes à subir une nouvelle phase de traitement ou bien à être analysées[5].

L'avantage des pipelines ETL par rapport aux pipelines classiques réside dans le fait que l'étape de transformation des données peut être effectuée suivant les standards de l'entreprise, et construire des données structurées.

Lacs de données

Les entreprises utilisent des données de plus en plus nombreuses, sous des formats de plus en plus divers et de plus en plus rapidement[6].

Cela peut poser de réels problèmes car la préparation des données a un coût, et celui-ci augmente de plus en plus avec le nombre de données à stocker.

Les lacs de données sont une solution à l'ère du big data.

En effet, les lacs de données sont des espaces de stockages qui contiennent une très grande quantité de données brutes, stockées pour une durée indéterminée sous leurs format d'origine.

Les données y sont stockées sans que l'entreprise n'ait de réelles connaissances à propos de la valeur de celles-ci.

La grande différence avec les entrepôts de données réside dans le fait que les données n'y sont soumises à aucune règles en termes de schéma de données.

Au lieu de placer chaque données dans des espaces de stockages spécialisés, l'intégralité des données sera stockée dans les lacs sous leurs formats originaux ce qui permet de réduire en grande partie les coûts liés à la transformation des données.

De plus, les lacs centralisent l'endroit de stockage de l'ensemble des informations, et facilitent donc l'accès par les équipes de recherche aux données.

Pour travailler dans les lacs avec les données, les experts utilisent des applications possédant des interfaces graphiques utilisateurs et des outils pour la préparation des données.

On considère qu'un lac de données possède au minimum quatre fonctionnalités basiques qui sont[7] :

  • l'ingestion de données ;
  • le stockage des données ;
  • le traitement des données ;
  • la visualisation des données.

Ainsi les lacs de données proposent de nombreux avantages pour le processus de préparation des données en augmentant sa rapidité et en réduisant les coûts.

Gouvernance des données

Un des points majeurs de la préparation des données concerne le problème lié à la gouvernance des données. En effet, si on laisse les données être manipulées par plusieurs utilisateurs lors du processus de préparation des données, on prend le risque d'ajouter à la base de données des données dites chaotiques.

La gouvernance des données doit permettre d’assurer la qualité des données ainsi que celle des modèles, et vérifier que leurs contenus respectent les standards de l’organisation[4].

Il faut voir la gouvernance des données comme le management de l'ensemble des données accessibles par l'entreprise.

Elle doit permettre aux utilisateurs de répondre aux questions suivantes[8] :

  • Que savons nous de ces données ?
  • D'où proviennent ces données ?
  • Est-ce que ces données adhères aux règles de l'entreprise ?

Elle doit permettre une meilleure compréhension commune des données à l'ensemble des personnes impliquées dans le processus.

Le développement de la gouvernance des données peut se faire via l'implémentation de règles de sécurité ou l'utilisation de métadonnées comme la création de catalogue de données.

Gouvernance appliquée aux lacs de données

Un des problèmes lié à l'utilisation des lacs de données concerne le risque de ne pas être capable de trouver, de comprendre ou de faire confiance aux données requises[9].

L'une des raisons qui peut expliquer ce phénomène est lié au fait que les données sont encore dans leurs formats d'origine. En effet, quand les experts en méga-données recherchent des données dans les lacs, ils peuvent rencontrer des problèmes de compréhension vis-à-vis de ces données.

C'est une situation qu'il faut éviter le plus possible pour éviter de freiner le processus de préparation de données, et qui peut représenter un problème à long terme pour les entreprises.

Pour pallier ce problème, il est nécessaire d'ajouter aux données un contexte permettant d'identifier les données et d'expliquer la raison de leurs présence dans le lac, mais également à qui les données sont destinées et leurs significations.

La gouvernance des données permet de mettre en place des outils comme les catalogues de données qui permettent de données plus de sens aux données et de les rendre plus accessibles.

Les catalogues de données rendent les utilisateurs plus confiants envers les données et s'assure du respect des règles organisationnelles des projets concernant les données.

Perspectives

Avec la place de plus en plus importante qu'occupe l'intelligence artificielle et plus précisément l'apprentissage automatique dans l'analyse de données, de nouveaux outils de plus en plus performants proposent des solutions pour faciliter le processus de préparation des données.

Par exemple, le nettoyage des données peut être effectué via l'apprentissage automatique, qui en s'appuyant sur les données existantes, va créer des modèles afin de prédire la correspondance des nouvelles données avec les formats et règles des données existantes.

Plus il y aura de données dans la base de données, plus l'algorithme sera fiable et pourra repérer les données cohérentes[10].

Un des problèmes concerne le fait que parmi les chercheurs, la raison la plus fréquente qui explique les freins à l'amélioration de la préparation des données concerne le budget accordé.

À l'ère du big data, où les données sont une ressource essentielles au développement de l'entreprise, il est très fort probable que les entreprises qui survivront le mieux seront celles qui exploiteront au mieux leurs données en accordant de l'importance au processus de préparation des données.

Notes et références

  1. (en-US) rschmelzer, « Data Engineering, Preparation, and Labeling for AI 2019 », sur Cognilytica, (consulté le )
  2. (en) Gil Press, « Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task, Survey Says », sur Forbes (consulté le )
  3. (en) Eleanor McLellan, Kathleen M. MacQueen, Judith L. Neidig, Beyond the Qualititative Interview : Data Preparation and Transcription
  4. (en) David Stodder, Improving Data Preparation for Business Analytics
  5. (en) Sai Kumar Devulapalli, « Simplifying Data Analytics Pipelines using a Data Lake », sur CIO, (consulté le )
  6. (en) Huang Fuang, Managing Data Lakes in Big Data Era, What’s a data lake and why has it became popular in data management ecosystem
  7. (en) Alice LaPlante, Ben Sharma, Architecting Data Lakes : Data Management Architectures for Advanced Business Use Cases
  8. (en-US) « Data Governance », sur www.ibm.com (consulté le )
  9. (en) Paul Brunet, « Data lakes: Just a swamp without data governance and catalog », sur InfoWorld, (consulté le )
  10. (en) Michael Zammuto, « You won’t clean all that data, so let AI clean it for you », sur CIO, (consulté le )

Voir aussi

  • Portail des probabilités et de la statistique
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.