Données de la recherche
Les données de la recherche sont l’ensemble des informations collectées, produites et utilisées par la recherche scientifique.
Elles peuvent recouvrir différents types de données selon le point de vue adopté. Ainsi, elles sont abordées différemment par les différents métiers qui composent et participent à la recherche scientifique : les métiers de la recherche proprement dit (ingénieurs de recherche, enseignants-chercheurs, gestionnaires de laboratoires), les métiers de l’information scientifique et technique (IST) (archivistes, bibliothécaires, documentalistes) et ceux qui viennent en support à l’activité de recherche (informaticiens). Ces données de la recherche sont aujourd’hui très largement produites sur support numérique.
Définitions
Terme apparu dans le domaine des archives dans les années 2010, en même temps que s’accroissaient les volumes de données produites par les chercheurs sur support informatique, les « données de la recherche » sont, pour les archivistes de la Section Aurore de l’AAF, « l’ensemble des informations, spécimens et matériaux produits, recueillis et documentés par les chercheurs, et qui sont collectées et exploitées à des fins de recherche et de preuve par les chercheurs et leurs équipes. » A ce titre, « elles constituent, sur le long terme, une partie des archives de la recherche. » L’AAF précise ainsi que « les archives de la recherche englobent l’ensemble des documents et données produits ou reçus dans le cadre du processus de recherche ». Autrement dit, ces données de la recherche couvrent donc aussi bien l’activité de recherche au sein des laboratoires et des équipes de recherche que l’administration et le financement des projets de recherche, et les fonctions supports de la recherche (archives, documentation, informatique). L’AAF ajoute que « les données de la recherche sont, aujourd’hui, en grande partie électroniques, mais peuvent exister aussi sur d’autres supports. »
Selon l'OCDE : « Les données de la recherche sont définies comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche. »[1].
Enjeux des données de la recherche
Dans un monde de plus en plus informatisé et globalisé et avec des équipes de recherche de plus en plus internationales, la gestion et l’ouverture des données de la recherche au plus grand nombre, est une préoccupation qui a pris de l’ampleur depuis les années 2010, notamment dans le secteur public (loi numérique, RGPD, open data, open access).
Dans le monde de l’enseignement supérieur et de la recherche, la gestion et l’ouverture des données de la recherche au plus grand nombre se trouvent à mi-chemin entre les mouvements d’ouverture des données publiques (open data) et le mouvement de libre accès aux publications scientifiques (open access).
Par ailleurs, la gestion et la valorisation des données de la recherche sont préconisées par les bailleurs de fonds comme l’Union Européenne. A ce titre, la Commission Européenne a lancé un projet pilote sur les données de la recherche au sein de son programme de financement de la recherche scientifique baptisé « Horizon 2020 » ou « H 2020 ». Les bénéficiaires de ces financements publics sont incités à élaborer un plan de gestion des données ou Data Management Plan (DMP).
Parallèlement, les institutions d’enseignement supérieur et de recherche sont confrontées à une augmentation exponentielle de la production des données et aux problématiques des coûts de stockage, de partage et de sécurisation des données. Au regard de ces enjeux, les données de la recherche ont un intérêt crucial : elles ont valeur de preuves scientifiques pour la validation des résultats, de pièces justificatives des sommes engagées vis-à-vis des bailleurs, et de preuves d’antériorité pour les inventions protégées par des brevets. A plus long terme, elles serviront à écrire l’histoire des avancées scientifiques pour les générations futures.
L’ensemble de ces enjeux sont aujourd’hui, en 2019, largement pris en considération par les équipes de recherche et les métiers de l’information scientifique et technique (IST) (archivistes, documentalistes, bibliothécaires).
Rôle de l'archiviste dans la gestion du cycle de vie des données de la recherche
L’archiviste peut mettre en œuvre différentes compétences au service d’un projet de gestion des données de la recherche, et intervenir sur tout le cycle de vie des données, depuis leur production jusqu’à leur destruction ou leur conservation pérenne.
Dans le cadre de cette mission, l’archiviste doit faire preuve de diplomatie, d’affirmation de soi, de patience, de persévérance, et doit savoir travailler de manière transversale.
L’archiviste mettra en œuvre les compétences techniques suivantes :
- Création des données : l’archiviste analyse les processus de création des données et le cycle de vie des données, et met en place une politique de records management.
- Traitement des données : l’archiviste cherche à définir et compléter les métadonnées et déterminer les formats pérennes à utiliser.
- Analyse : l’archiviste définit les durées de conservation et les sorts finaux des données.
- Conservation : l’archiviste évalue et sélectionne les données à conserver et celles à détruire.
- Partage : les données de la recherche conservées sont mises à la disposition de la communauté scientifique, en respectant le cadre législatif, réglementaire et normatif applicable aux données.
- Réutilisation : l’archiviste accompagne les chercheurs dans la rédaction d’un plan de gestion des données (Data Management Plan ou DMP)
Étapes d'intervention de l'archiviste
Il existe de nombreuses occasions pour l’intervention d’un archiviste dans la gestion des données. Certains moments sont certainement plus appréciables pour l’archiviste, mais n’oublions pas pour autant les autres, parfois plus propices.
À tout moment, l’archiviste peut :
- Informer et sensibiliser les chercheurs et personnels administratifs coordinateurs de projets de la possibilité de faire appel à l’expertise de l’archiviste pour la définition de leurs projets.
- Faire connaître ses domaines d’expertises et ses services : aide au montage d’un Data Management Plan ou DMP, pérennité et interopérabilité des données électroniques et des systèmes, mise en place de bonnes pratiques, classement et description des données, , etc.
- Effectuer un rappel à chaque période d’appels à projets.
- Se tenir à jour des évènements et calendriers de la vie scientifique de son établissement.
Avant la création des données :
- Contacter les porteurs de projets pour les informer de la possibilité de travailler avec un archiviste, par exemple pour établir un DMP.
- Apporter une expertise en matière de bonnes pratiques (structuration, formats, , etc.) lors de l’organisation ou du démarrage du projet.
Pendant la phase de production et de gestion des données :
- Définir une durée de conservation et un sort à réserver à chaque jeu de données, en prévision de l’archivage en fin de projet de recherche (en fonction de la politique définie pour l’ensemble des archives).
- Trois mois avant la fin du projet : définir le moment adéquat pour procéder à l’archivage, ainsi que ces modalités.
Après la phase de production des données (fin d’un projet, fermeture d’une unité de recherche, déménagement, départ en retraite d'un chercheur) :
- Procéder à l’archivage.
Interlocuteurs de l'archiviste
Les données de la recherche concernent, en plus des métiers de la recherche, les métiers qui viennent en appui à celle-ci, tels que la documentation, les archives et l’informatique. Chacun de ces métiers a un rôle à jouer dans le cycle de vie des données. L’archiviste apporte son expertise pour leur gestion, leur conservation voire leur communication. Dans le cadre d’un tel projet, l’archiviste prendra soin d’informer et de sensibiliser à la gestion des archives les différents interlocuteurs avec qui il sera en lien.
- Les chercheurs et personnels de recherche (ingénieurs de recherche, enseignants-chercheurs, chercheurs, doctorants, post-doctorants, étudiants en Master Recherche, gestionnaires de laboratoires) : l’archiviste peut accompagner les chercheurs pour la définition de métadonnées, de formats, des durées de conservation, la sélection des données ainsi que l’archivage pérenne. Il peut également leur fournir une aide pour rédiger un « plan de gestion de données » ou DMP.
- Les ingénieurs projets : ils accompagnent les chercheurs dans la rédaction de réponses aux appels à projets et de livrables. L’archiviste peut aider l’ingénieur-projet à comprendre les enjeux liés à la gestion des données dans Horizon 2020 et l’accompagner pour la rédaction du plan de gestion des données.
- Les juristes et les spécialistes de la valorisation « brevets » : ils renseignent l’archiviste sur la valeur probante des différents documents juridiques produits par les chercheurs (brevets, enveloppes Soleau, contrats de licences, contrats de transferts de technologies et documents associés).
- Les qualiticiens : ils accompagnent les chercheurs dans la description normalisée des métadonnées et la gestion documentaire. L’archiviste peut nouer des liens avec les qualiticiens et travailler à une approche commune en matière de gestion des données.
- Les professionnels de l’Information scientifique et technique (IST) (documentalistes et bibliothécaires) : l’archiviste peut collaborer avec les professionnels de l’IST afin d’apporter ses compétences en matière de gestion des données.
- Les Délégués à la Protection des Données (DPD ou DPO pour Data Protection Officer) ou Correspondants Informatique et Libertés (CIL) : l’archiviste peut échanger avec le DPD pour définir les durées de conservation et les sorts finaux des données à caractère personnel et sécuriser leur conservation au cours du projet.
- Les informaticiens (Direction des Systèmes d’Information ou DSI) et Responsables de la Sécurité des Systèmes d’Information (RSSI) : l’archiviste peut collaborer avec les informaticiens au sujet des solutions de stockage proposées, de l’archivage pérenne et de la sécurité des données.
Projets et structures portant sur les données de la recherche
En France
- BeQuali (Banque d'enquêtes qualitatives en sciences humaines et sociales) propose un catalogue d’enquêtes de sciences humaines et sociales réalisées à partir de méthodes qualitatives (observations, entretiens, focus groups, etc.). Son portail met à disposition de la communauté scientifique, sous réserve d’autorisation, des matériaux bruts et toute une documentation restituant le contexte de leur production. BeQuali s’inscrit dans une démarche de préservation des données de la recherche et propose des ressources et outils communs pour l'enseignement des méthodes et la production de nouvelles recherches[2].
- Huma-Num est une très grande infrastructure de recherche (TGIR) visant à faciliter le tournant numérique de la recherche en sciences humaines et sociales. Elle développe également un dispositif technologique permettant le traitement, la conservation, l'accès et l'interopérabilité des données de la recherche dans l'ensemble des disciplines des sciences humaines et sociales. Ce dispositif est composé d'une grille de services dédiés[3], d'une plateforme d'accès unifié (Isidore) et d'une procédure d'archivage à long terme (Nakala). La TGIR Huma-Num propose en outre des guides de bonnes pratiques technologiques généralistes à destination des chercheurs. Elle peut mener ponctuellement des actions d'expertise et de formation. Elle porte la participation de la France dans le programme Dariah[4] en coordonnant les contributions nationales. La TGIR Huma-Num est portée par l'Unité Mixte de Services 3598 associant le CNRS, l'Université d'Aix-Marseille et le Campus Condorcet.
- Progedo[5] est une TGIR chargée d’impulser et structurer une politique publique des données pour la recherche en sciences sociales. Elle intéresse particulièrement la recherche en droit, économie, géographie, gestion, histoire, sciences politiques et sociologie. L’objectif central de la politique scientifique est le développement de la culture des données dans les communautés de recherche en sciences humaines et sociales en France. Ses missions constituantes sont les suivantes :
- le développement d’un dispositif d’archivage, de documentation et de mise à disposition des données de son périmètre, comprenant un dispositif d’accès sécurisé à distance pour les données confidentielles
- la participation à la production de grandes enquêtes pluridisciplinaires d’intérêt national retenues sur la feuille de route des infrastructures européennes (ESFRI),
- l’animation d’une dynamique nationale autour des compétences de l’infrastructure.
En Europe et à l'étranger
- H 2020 (Horizon 2020) : Le programme Horizon 2020 regroupe les financements de l’Union européenne en matière de recherche et d’innovation pour la période 2014-2020 et s‘articule de trois grandes priorités : l’excellence scientifique, la primauté industrielle et les défis sociétaux. Ce programme est entré en vigueur le 1er janvier 2014. Avec ce programme, l’Union Européenne finance des projets de recherche résolument interdisciplinaires, susceptibles de répondre aux grands défis économiques et sociaux. Il couvre l’ensemble de la chaîne de l’innovation, depuis l’idée jusqu’au marché. Ce programme a donné lieu à la production de nombreuses données statistiques, regroupées dans la base E-Corda.
Notes et références
- « Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics » [PDF], Paris, (consulté le )
- « beQuali - index », sur bequali.fr (consulté le )
- http://www.huma-num.fr/services-et-outils
- http://dariah.eu/ Dariah
- Progedo (PROduction et GEstion des DOnnées)
Articles connexes
Liens externes
- Les Correspondants IST-SHS de l'Institut des sciences humaines et sociales du Centre national de la recherche scientifique ont publié une série de billets sur la gestion des données de la recherche sur leur site collaboratif : http://corist-shs.cnrs.fr/gestion_donnees_recherche_guideetformation_9
- Aide à la décision
- Portail des sciences
- Sciences de l’information et bibliothèques