Web des données
Le Web des données (linked data, en anglais) est une initiative du W3C (Consortium World Wide Web) visant à favoriser la publication de données structurées sur le Web, non pas sous la forme de silos de données isolés les uns des autres, mais en les reliant entre elles pour constituer un réseau global d'informations.
Il s'appuie sur les standards du Web, tels que HTTP et URI - mais plutôt qu'utiliser ces standards uniquement pour faciliter la navigation par les êtres humains, le Web des données les étend pour partager l'information également entre machines. Cela permet d'interroger automatiquement les données, quels que soient leurs lieux de stockage, et sans avoir à les dupliquer[1].
Tim Berners-Lee, directeur du W3C, a inventé et défini le terme linked data ou « données liées »[2] et son synonyme web of data au sein d'un ouvrage portant sur l'avenir du Web sémantique[3].
Principes
Tim Berners-Lee a défini quatre piliers pour soutenir l'initiative « Web des données » :
- utiliser des adresses URI uniques pour identifier les choses ;
- utiliser des adresses URI HTTP qui existent sur le Web (des URL, donc). Une Erreur HTTP 404 indique simplement que l’adresse URI utilisée n’est pas documentée explicitement ;
- fournir à travers l’adresse URI des renseignements exploitables, lisibles par les humains et par les machines, en s’appuyant sur des formats ouverts comme RDF ou SparQL. Par exemple en utilisant le mécanisme de redirection HTTP (code 302) et la variable User-Agent contenue dans les en-têtes des requêtes HTTP, un serveur peut afficher une page en XML ou RDF pour une machine ou une page HTML pour le navigateur d'une personne ;
- mailler l’adresse URI initiale en lui associant des adresses URI externes et ce pour améliorer la découverte d'autres informations sur le Web.
Composants
- Uniform Resource Identifier (URI)
- Hypertext Transfer Protocol (HTTP)
- Modèle de données qui utilise des termes en vocabulaire contrôlé et des définitions d'ensembles de données exprimés dans les formats de la Sérialisation du Resource Description Framework comme JSON-LD, RDFa, Extensible Markup Language, Resource Description Framework, Notation3, Turtle (syntaxe).
Données ouvertes liées
Une donnée ouverte liée est une donnée liée en Open data. Tim Berners-Lee donne la plus claire définition des données ouvertes liées pour les différencier du web des données.
Une Donnée Ouverte est une Donnée Liée qui est publiée sous une licence ouverte, ce qui n'entrave pas sa réutilisation gratuitement.
- Tim Berners-Lee, Données Liées
DBpedia et Wikidata sont des exemples de grands ensembles de données ouvertes liées.
Histoire
Le terme "donnée ouverte liée" est utilisé depuis , quand la liste de diffusion "Linking Open Data" a été créée. La liste de diffusion a été initialement hébergée par le projet SIMILE au Massachusetts Institute of Technology.
Jeux de données
- DBpedia – un projet universitaire et communautaire d'exploration et extraction automatiques de données dérivées de Wikipédia
- FOAF – une ontologie RDF permettant de décrire des personnes et les relations qu’elles entretiennent entre elles
- GeoNames – une base de données géographiques gratuite et accessible par Internet sous une licence Creative Commons
- Global Research Identifier Database (en) (GRID) – une bases de données internationale de près de 90 000 institutions qui font de la recherche universitaire
- UMBEL (en)
- Wikidata – une base de connaissances libre éditée de manière collaborative et hébergée par la Wikimedia Foundation
Web des données et bibliothèques
En France, le terme Web des données est de plus en plus utilisé par la communauté professionnelle de la bibliothéconomie[4].
Pour les bibliothèques, il est nécessaire de participer au web des données afin de gagner en visibilité et afin de rendre ces données exploitables dans d'autres contextes. Le web des données permet ainsi de décloisonner les données des catalogues, afin qu'elles soient plus accessibles aux usagers et ceux en devenir. Il permet entre autres de relier des données d'archives, de musées ou des biographies à des textes présents dans le catalogue, offrant ainsi au chercheur une information plus complète[5].
Le programme Transition bibliographique lancé en 2015 par l’Agence bibliographique de l’enseignement supérieur (Abes) et la Bibliothèque nationale de France (BnF) contribue à l'améliorer de l’exposition des données bibliographiques et d’autorités dans le web de données en leur appliquant le modèle FRBR puis IFLA LRM et en adoptant de nouvelles règles de catalogage dérivées de Ressources : description et accès (RDA)[6].
Notes et références
- (en) Bizer, Heath, Berners-Lee, « Linked Data - The Story So Far », (consulté le )
- OQLF terminologie : Données Liées
- (en) Tim Berners-Lee, « Linked Data - Design Issues », W3C, (consulté le )
- (en) Bibliothèque nationale de France, « Web sémantique, Web de données », BnF, (consulté le )
- Bibliothèque nationale de France, « BnF - Web sémantique, web de données : définitions », sur www.bnf.fr (consulté le )
- « Contexte et enjeux », sur transition-bibliographique.fr (consulté le )
Articles connexes
Liens externes
En 2019, deux MOOC sur le web de données, dont les enseignants sont Fabien Gandon, Olivier Corby et Catherine Faron Zucker, sont proposés par l'INRIA:
- Portail d’Internet
- Portail du Web sémantique