Data profiling

Le profiling est le processus qui consiste à récolter les données dans les différentes sources de données existantes (bases de données, fichiers,...) et à collecter des statistiques et des informations sur ces données. C'est ainsi très proche de l'analyse des données.

Objectifs

Le profiling a pour objectif :

  • d'identifier les données réutilisables pour d'autres fins ;
  • d'avoir des mesures sur la qualité des données et sur la conformité par rapport aux standards de l'entreprise ;
  • d'évaluer les risques engendrés par l'intégration de ces données dans de nouvelles applications ;
  • d'évaluer si les métadonnées décrivent correctement les données sources ;
  • d'avoir une bonne compréhension de l'enjeu des données sources sur les projets à venir afin d'anticiper de mauvaises surprises. La découverte tardive de problèmes de données peut entrainer des dépassements de délais et de budget sur un projet, ex. : avoir à modifier le format d'un code à des centaines d'endroits sur son projet mais aussi éventuellement sur des projets connexes en cours développement, avoir à reconstruire les référentiels associés, avoir à rediscuter et à revalider des documents contractuels…
  • d'avoir une vue globale des données pour permettre la gestion des données de référence ou la gouvernance des données afin de renforcer la qualité des données.

Notes et références

    Lien externe

    • Portail de l’informatique
    Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.