Preservation Metadata: Implementation Strategies
PREservation Metadata: Implementation Strategies (PREMIS, Métadonnées de préservation : Stratégies d'implémentation) est le standard de facto des métadonnées pour la préservation numérique[1].
Principes
Les métadonnées de préservation numérique (en) définissent les informations nécessaires pour garantir sur le long terme l'intégrité, la compréhensibilité, l'utilisabilité et l'authenticité des objets numériques. Elles sont particulièrement importantes pour les entrepôts numériques, qui gèrent et préservent des objets informationnels sur une longue période. Le simple stockage d'objets numériques sur un support de données ne suffit pas pour les garder utilisables ; ils doivent être gérés dans un entrepôt où ils seront protégés contre les dommages accidentels ou intentionnels et où un environnement informatique complet permet leur consultation et leur utilisation[2].
Les objets informationnels ont des métadonnées descriptives, c'est-à-dire des informations sur l'objet utilisées pour identifier et retrouver l'objet numérique. Ces métadonnées ne sont cependant pas suffisantes pour préserver les objets numériques sur le long terme. Par exemple, le format de l'objet numérique peut devenir obsolète et inutilisable par les futures applications logicielles. Cette évolution oblige soit à migrer l'objet dans un format plus récent (migration), soit à reproduire l'expérience d'origine avec une technologie plus récente (émulation). Les deux stratégies nécessitent des informations supplémentaires pour être mises en œuvre, telles que des métadonnées techniques sur les fichiers d'origine, les matériels et logiciels grâce auxquels on les restitue et les actions qui ont affecté l'objet numérique au fil du temps. Les métadonnées de préservation sont donc définies comme un sous-ensemble des métadonnées descriptives, techniques, de structure et de provenance nécessaire pour entreprendre les activités de pérennisation de l'information numérique[3].
PREMIS est conçu pour s'appliquer quel que soit le type de contenu des objets numériques. Il laisse de ce fait en dehors de son périmètre les informations spécifiques à un type de contenu donné (image fixe ou animée, son, texte, etc.)[4].
Historique
Le besoin d'un standard de métadonnées pour assurer la préservation à long terme des ressources numériques, en constante augmentation, apparaît à la fin des années 1990. En mars 2000, le groupe de travail Preservation Metadata Framework (PMF), initiative conjointe de l'Online Computer Library Center (OCLC) et le Research Libraries Group (RLG) réunit des experts d'institutions patrimoniales et des développeurs de standards pour combler cette lacune. Leur rapport, A Metadata Framework to Support the Preservation of Digital Objects, publié en juin 2002, se présentait sous la forme d'une liste d'éléments de métadonnées prototypes. Afin de compléter ce rapport par des instructions à une mise en œuvre pratique, un nouveau groupe de travail, nommé « Preservation Metadata: Implementation Strategies » est invité en 2003 à approfondir les conclusions du groupe PMF et à développer un dictionnaire listant les métadonnées de base pour les objets numériques archivés, ainsi qu'à proposer de bonnes pratiques de création, gestion et utilisation de métadonnées dans un système de préservation numérique. Le groupe PREMIS est « chargé de définir un ensemble d'unités sémantiques, indépendantes de questions de mise en œuvre technique, orientées vers la pratique et susceptibles d'être nécessaires à la plupart des entrepôts numériques »[5].
Le groupe de travail PREMIS initial était composé de plus de trente représentants internationaux des secteurs culturel, gouvernemental et privé[6]. Il cherchait à comprendre comment les institutions de conservation mettaient en œuvre des métadonnées de préservation. Une enquête a été menée auprès de 70 organisations considérées comme actives ou intéressées par la préservation numérique. En décembre 2004, le groupe de travail PREMIS a publié son rapport, Mise en œuvre des référentiels de préservation des matériaux numériques: pratique actuelle et tendances émergentes dans la communauté du patrimoine culturel.
En mai 2005, PREMIS a publié la première version de son Dictionnaire de données pour les métadonnées de préservation : rapport final du groupe de travail PREMIS. Ce rapport de 237 pages comprend le dictionnaire de données lui-même, mais aussi un texte d'accompagnement conséquent détaillant le contexte, le modèle de données, l'approfondissement de certains sujets, un glossaire, des exemples d'utilisation.[7].
PREMIS est maintenu par un groupe international d'experts, le PREMIS Editorial Committee[8]. Son site web et tous les contenus associés sont hébergés par la Bibliothèque du Congrès.
La version 3.0 actuelle de PREMIS a été publiée en juin 2015[9].
Modèle de données
Le modèle de données PREMIS se compose de quatre Entités liées entre elles.
- L'Objet de la préservation (Object) comprend quatre catégories : le Fichier (File), qui comprend éventuellement des Flux de données (Bitstream) et constitue, seul ou avec d'autres Fichiers, une Représentation (Representation) d’une Entité intellectuelle (Intellectual entity).
- Un Événement (Event), décrivant une action ayant affecté l'Objet et pouvant avoir un impact sur sa préservation.
- Un Agent (Agent) impliqué dans un Événement.
- Une déclaration de Droits (Rights statement) indiquant ce que l'institution de conservation a le droit d'entreprendre pour assurer la préservation de l'Objet. Ces droits sont basés sur le droit de la propriété intellectuelle, une licence, un contrat ou une politique de l'institution de conservation.
Chaque unité sémantique du dictionnaire de données est classée dans l'un de ces domaines[10].
Une Entité intellectuelle est un type d'objet. C'est un ensemble de contenus qui constitue une unité intellectuelle distincte et cohérente, telle qu'un livre ou une base de données. Il peut s'agir d'objets composés contenant d'autres Entités intellectuelles. Les métadonnées descriptives sont généralement associées à ce niveau du modèle. Compte tenu de la multiplicité de formats de métadonnées descriptives (Dublin Core, EAD, etc.), PREMIS laisse les implémenteurs choisir le format qui leur convient pour la description du contenu intellectuel[11] en permettant d'insérer des métadonnées d'autres formats dans des éléments d'extensibilité.Le même mécanisme est proposé pour intégrer des métadonnées techniques spécifiques à un type de contenu donné. Jusqu'alors hors du périmètre de PREMIS, l'Entité intellectuelle a été intégrée depuis la version 3.0 du dictionnaire de données afin de pouvoir de décrire des Environnements matériels ou logiciels nécessaires pour restituer le contenu de certains Objets.
Chaque Entité intellectuelle peut avoir plusieurs Représentations numériques, elles-mêmes constituées d'un ou plusieurs fichiers[12] (par exemple, un livre numérisé peut avoir une Représentation constituée d'une série de fichiers images et d'une autre constituée d'un fichier PDF). Le Flux de données donne la possibilité aux implémenteurs de décrire finement plusieurs contenus au sein d'un même Fichier, par exemple pour détailler les caractéristiques du flux audio et du flux vidéo d'un fichier audiovisuel.
Les Événements sont liés aux Objets dans la mesure où ils impliquent des actions qui ont un effet sur eux. Enfin, les Agents (qui peuvent être une personne physique, une organisation, un outil matériel ou logiciel) peuvent être décrits en tant qu'ayant été impliqués dans des Événements de préservation ou à des Droits[12], qu'ils aient octroyé le droit à l'institution de conservation d'effectuer certaines actions, ou qu'ils en soient les bénéficiaires.
Enfin, le développement de l'Entité de déclaration de Droits à partir de la version 2 du dictionnaire de données répond à une prise de conscience et à une préoccupation accrues pour les contraintes juridiques pesant sur les activités de préservation numérique, qu'elles soient liées au droit de propriété intellectuelle, à un contrat de cession de droits ou à une politique de l'institution. L'Entité comprend également des éléments pour décrire les actions autorisées : par exemple, l'unité sémantique 4.1.6.1, act, « l'action que l'entrepôt numérique est autorisé à entreprendre » inclut des valeurs suggérées telles que répliquer, migrer et supprimer[13].
PREMIS et l'OAIS
Le rapport du PMF et le dictionnaire de données PREMIS s'appuient sur le modèle de référence OAIS (Open Archival Information System). La norme OAIS fournit un modèle conceptuel sous la forme d'une typologie des objets informationnels, des paquets d'objets archivés et des métadonnées associées. Le dictionnaire de données PREMIS se présente comme une implémentation d'OAIS car il tente d'aligner le modèle conceptuel OAIS avec des éléments spécifiques de métadonnées de préservation. Le dictionnaire de données et l'OAIS diffèrent parfois dans la terminologie, mais ces différences sont indiquées dans le glossaire. Les différences reflètent généralement le fait que les unités sémantiques PREMIS tentent d'appliquer les notions génériques de l'OAIS aux réalités concrètes des activités de préservation numérique[14].
Dictionnaire de données
Le dictionnaire de données PREMIS est une liste d'éléments de métadonnées (semaintic units) utiles à l'activité de préservation numérique. Il présente une structure hiérarchique, assez influencée par son implémentation traditionnelle arborescente en XML, qui distingue les éléments conteneurs (semantic containers) et les éléments composants (semantic components). Par exemple, 1.3 preservationLevel, comprend quatre composants sémantiques, tels que 1.3.1 preservationLevelValue et 1.3.2 preservationLevelRole[15].
Chaque unité sémantique du dictionnaire de données PREMIS comprend douze attributs. En plus du nom et de la définition de l'unité, les attributs enregistrent des éléments tels que la justification de l'unité, des notes d'utilisation et des exemples de la manière dont la valeur peut être remplie. Les unités sémantiques de l'entité Objet lient trois attributs (applicabilité, répétabilité et caractère obligatoire) à la catégorie de l'Objet (Entité intellectuelle, Représentation, Fichier ou Flux de données).
De nombreuses unités sémantiques ayant vocation à avoir des valeurs prises dans un vocabulaire contrôlé, le PREMIS Editorial Committee a développé une liste de vocabulaires[16] hébergés par la Bibliothèque du Congrès sur son site id.loc.gov, qui diffuse les ontologies et les thésaurus maintenus par elle.
Expressions et conformité de PREMIS
Le standard PREMIS est conçu pour être indépendant de toute problématique d’implémentation technique[4]. Cependant, le PREMIS Editorial Committee met à disposition des utilisateurs deux modalités d’expression :
- un schéma XSD pour exprimer PREMIS en XML,
- une ontologie OWL permettant d’exposer les métadonnées de préservation conformément aux principes du web sémantique.
Les utilisateurs de PREMIS peuvent développer une autre expression. En outre, seule l'Entité Objet est obligatoire, les autres peuvent être utilisées ou non, selon les besoins de l'implémenteur. Une implémentation de PREMIS est jugée "conforme" si elle est en mesure de fournir au minimum l'ensemble des unités sémantiques obligatoires pour la ou les Entité(s) choisies par l'implémenteur, sous une forme structurée[17].
PREMIS a été conçu pour être implémenté soit indépendamment, soit comme format complémentaire du format METS[18]. Sa complémentarité a également été pensée avec les formats de métadonnées techniques maintenus par la Bibliothèque du Congrès : MIX[19], textMD[20], audioMD et videoMD[21].
Voir également
- Archivage électronique
- Description archivistique
- Métadonnées
- Métadonnées de préservation (en)
- Bibliothèque numérique
- Protocole pour la collecte des métadonnées (OAI-PMH)
- Norme d'encodage et de transmission des métadonnées (METS)
- Dublin Core, une norme ISO de métadonnées descriptives
Références
- PREMIS Data Dictionary (full document), Version 3.0 https://www.loc.gov/standards/premis/v3/premis-3-0-final.pdf
- Dappert, Angela; Guenther, Rebecca Squire; Peyrard, Sébastien (2016). Digital Preservation Metadata for Practitioners. doi:10.1007/978-3-319-43763-7. (ISBN 978-3-319-43761-3).
- Library of Congress. "PREMIS for Digital Preservation". http://www.digitalpreservation.gov/series/challenge/premis.html, 2010.
- Bibliothèque nationale de France, « PREMIS : PREservation Metadata Implementation Strategies », sur www.bnf.fr (consulté le )
- Caplan, P. & Guenther, R. (2005). Practical preservation: The PREMIS experience. Library Trends, 54, (1), 111-124.
- « PREMIS Preservation Metadata Maintenance Activity », US Library of Congress (consulté le )
- PREMIS Preservation Metadata Maintenance Activity(Library of Congress) https://www.loc.gov/standards/premis/
- (en) « PREMIS Editorial Committee Members », sur Preservation Metadata Maintenance Activity, (consulté le )
- PREMIS Editorial Committee. (2015). PREMIS Data Dictionary for Preservation Metadata, Version 3.0. URL accessed November 11, 2015.
- PREMIS Editorial Committee. (2008). PREMIS Data Dictionary for Preservation Metadata, Version 2.0., 5-6. URL accessed April 28, 2008.
- PREMIS Editorial Committee. (2008). PREMIS Data Dictionary for Preservation Metadata, Version 2.0., 23-4. URL accessed April 28, 2008.
- PREMIS Editorial Committee. (2008). PREMIS Data Dictionary for Preservation Metadata, Version 2.0., 6. URL accessed April 28, 2008.
- PREMIS Editorial Committee. (2008). PREMIS Data Dictionary for Preservation Metadata, Version 2.0., 6, 181. URL accessed April 28, 2008.
- Library of Congress. "PREMIS Data Dictionary". https://www.loc.gov/standards/premis/v2/premis-2-0.pdf, p.3
- PREMIS Editorial Committee. (2008). PREMIS Data Dictionary for Preservation Metadata, Version 2.0., 22-194. URL accessed April 28, 2008.
- (en) PREMIS Editorial Committee, « Preservation Vocabularies », sur id.loc.gov (consulté le )
- (en) PREMIS Editorial Committee, « Conformant Implementation of the PREMIS Data Dictionary », (consulté le )
- (en) PREMIS Editorial Committee, « Using PREMIS with METS »
- (en) Bibliothèque du Congrès, « NISO Metadata for Images in XML Schema »
- (en) Bibliothèque du Congrès, « Technical Metadata for Text »
- (en) Bibliothèque du Congrès, « Technical Metadata for Audio and Video »
Liens externes
- Priscilla Caplan (trad. Louise Fauduet, Clément Oury, Sébastien Peyrard, Jean-Philippe Tramoni), « Comprendre PREMIS », (consulté le )
- Portail de l’informatique