
Formation pour les étudiants, enseignants et chercheurs
Focus sur : l'Open Access et les données de la recherche
Les données de la recherche et l'open Access
Données de la recherche (Research data) : « enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche.» (OCDE, 2007).
Jeu de données (Dataset) : « agrégation, sous une forme lisible, de données brutes ou érivées présentant une certaine unité, rassemblées pour former un ensemble cohérent. (Gaillard, 2014).
Enjeux : scientifiques, économiques, sociétaux
- Répondre à des défis scientifiques complexes, des enjeux de société, qui supposent transdisciplinarité, collaboration des équipes, partage, ouverture et mutualisation des informations, des données et des compétences
- Accroître la visibilité, l’utilisation et l’impact de la recherche au sein et hors de la communauté scientifique
- Favoriser la participation des citoyens et de la société civile : libre accès pour tous aux connaissances
- Faire évoluer le système de l'édition scientifique en permettant aux chercheurs de se réapproprier la diffusion de leur production scientifique
- Satisfaire aux conditions de financement des bailleurs et justifier de l'utilisation des fonds publics
- Assurer la continuité de la recherche, en permettant la réutilisation des données de recherches antérieures, ainsi que la reproductibilité des expériences, le tout dans un souci d'économie, de retour sur investissement et d'innovation
- Assurer la sécurité des données de la recherche et leur archivage à long terme
- Prendre en compte la nécessité de l'interopérabilité des données
Typologie des données de la recherche
Les identifiants chercheursjouent un rôle important dans la construction de l’identité numérique. Ils sont le point d’entrée pour permettre au chercheur d’être unique et dans le même temps de communiquer sur ses activités.
Types de données | Exemples |
Données d'observation, d'enquêtes : capturées ou collectées en temps réel, uniques et impossibles à reproduire | enquête sur le niveau de vie de la Banque Mondiale, relevés de concentration de phytoplanctons, ... |
Données expérimentales : obtenues à partir d'équipements de laboratoire, potentiellement reproductibles, parfois coûteuses | Chronogrammes, puces à ADN, cinétique chimique, ... |
Données computationnelles ou de simulation : générées par des modèles informatiques ou de simulation, potentiellement reproductibles | Modèle météorologique, modèle de simuations sismiques, modèle bio-économique, ... |
Cycle de vie de la donnée
La représentation du cycle de vie des données de la recherche est une aide à la gestion des données. Ce cycle doit être décliné dans un Plan de Gestion de Données au début de tout projet nécessitant la création et/ou la manipulation de données. En effet, au-delà du choix de la plateforme, la gestion du cycle de vie des données est un enjeu majeur pour le stockage, la conservation, la pérennisation et la réutilisation de ces données.
Les étapes de gestion des données
1. Décrire les données et privilégier les formats non propriétaires
Le contexte de la production des données de recherche doit être documenté de manière précise et intelligible sous la forme d’un document et de métadonnées, précisant la paternité,le contenu des données, la méthodologie et les contraintes ou limites.
Métadonnées Littéralement, une métadonnée est une donnée sur une donnée. les métadonnées sont en ensemble structuré servant à décrire une ressource quel que soit son support. |
2. Sélectionner les données à conserver à long terme
En s'appuyant sur les critères NERC par exemple.
3. Organiser et stocker les données
Conserver les données mais aussi les métadonnées et les logiciels dans un entrepôt de confiance (trusted repository). A minima : 3 copies sur 2 supports différents dont 1 copie à distance.
4. Choisir les licences pour la réutilisation des données
Exemple : Licences CC, ODbL, ...
5. Partager et réutiliser les données
Définir la période d'embargo, prendre en compte les exigences des finaceurs, attribuer un identifiant pérenne pour les données de la recherche (DOI).
Attribution d'un DOI (Digital Object Identifier)
Permet l'identification unique et pérenne d'un objet numérique et sa citation |
Le plan de gestion des données (PGD)
Le plan de gestion des données (ou Data Management Plan – DMP) est un document formalisé, rédigé au démarrage d’un projet de recherche, qui couvre tout le cycle de vie des données. Il décrit la façon dont les données seront obtenues, traitées, organisées, stockées, sécurisées, préservées, partagées… au cours et à l’issue du projet et aide à la mise en place de bonnes pratiques de gestion. Le PGD n’est pas un document figé, il évolue et est mis à jour pendant toute la durée du projet de recherche.
Pourquoi rédiger un PGD ?
- Pour identifier les risques liés à la gestion des données, assurer la sécurité et la préservation des données sur le long terme
- Pour identifier les responsabilités, les rôles de chacun dans la gestion des données, planifier les ressources et compétences nécessaires à cette gestion
- Pour donner accès à des données fiables afin d’assurer la reproductibilité de la recherche et permettre à d’autres de comprendre et d’utiliser les données
- Pour répondre aux exigences des financeurs comme : Research Councils (Etats-Unis), National Science Foundation (NSF), National Institutes of Health (NIH), Horizon 2020, Australian Research Council (ARC), National Health and Medical Research Council (NHMRC)
Trame d'un PGD
Exemple de trame d'un Plan de Gestion de Données | |
Informations administratives |
|
Collection de données |
|
Documentation et Métadonnées |
|
Ethique et Cadre légal |
Ethique :
|
Stockage, sauvegarde et sécurité |
Stockage et sauvegarde :
|
Sélection et conservation |
|
Partage des données |
|
Responsabilités et moyenss |
|
La trame de plan présentée ci-dessus est une adaptation de : Checklist for a Data Management Plan. V.4.0. Edinburgh, UK: Digital Curation Centre (DCC), 2014, téléchargeable au format pdf sur http://www.dcc.ac.uk/resources/data-management-plans. |
Exemples de modèles de plans de gestion de données :
- BBSRC Data Sharing Policy : Version 1.2. Biotechnology and Biological Sciences Research Council, 2016, 15 p. http://www.bbsrc.ac.uk/about/policies-standards/data-sharing-policy/
- ESRC Research Funding Guide. Economic and Social Research Council (ESRC), 2016 http://www.esrc.ac.uk/funding/guidance-for-grant-holders/research-data-policy/
- Full Data Management Plan Template. Natural Environment Research Council (NERC), 2012, 3 p. (.doc) http://www.nerc.ac.uk/research/sites/data/dmp/
- Guidelines on FAIR Data Management in Horizon 2020 : Version 3.0. European Commission, 2016, 12 p. http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-data-mgt_en.pdf
- Réaliser un Plan de Gestion de données. Université Paris Diderot, 2015, 30 p. http://www.univ-paris-diderot.fr/DocumentsFCK/recherche/Realiser_un_DMP_V1.pdf
-
UCCC's DMPTool. University of California Curation Center (UCCC), US, 2014. https://dmptool.org/
Valorisation et réutilisation des données
Le statut juridique des données de la recherche
A l'heure actuelle, l'environnement juridique entourant les données reste flou. Les données brutes ne sont a priori pas protégées par le droit d'auteur. Sous certaines conditions, le droit protégeant les bases de données peut s'appliquer.
Il est donc important de protéger ses données par des licences prédéfinies.
Un jeu de données peut être protégé par une licence Creative
Commons, une Licence ouverte ou une licence de l’OKF
La valorisation des données de la recherche
Les différents modes de publication de données | |
Publier dans un entrepôt
Privilégier un « entrepôt de confiance » certifié qui répond aux critères de qualité : |
L’entrepôt de données est un réservoir constitué majoritairement de données de recherche, brutes ou élaborées, qui sont décrites par des métadonnées de façon à pouvoir être retrouvées.
|
Publier des données comme matériel supplémentaire d'un article | Supplementary material, supplemental data etc. : fichier contenant des données complémentaires à la publication. La plupart des revues préconisent un entrepôt. |
Publier des données dans un Data Paper |
Le data paper est un type de publication citable au même titre que les publications classiques : Dans une revue classique (type d'article : data paper). Ex. : Ecology… Dans un data journal (revue qui contient exclusivement des data papers) Ex. : Scientific Data, Biodiversity Data Journal, Gigascience… |
Publier dans le Web des données | Schéma de déploiement à 5 étoiles voir le site http://5stardata.info/en/ |
La réutilisation des données et le droit d'auteur
La citation des données permet d'assurer une meilleure visibilité à l'auteur des données, facilite la diffusion de ces données, assure leur pérennité et permet de vérifier et valider les résultats de recherche.
Les standards de citation de jeux de données
5 champs sont obligatoires :
- Auteur
- Année de Publication
- Titre
- Editeur
- Numéro d'identification (DOI)
D’autres éléments peuvent les compléter :
- Version
- Type de données
Remarques : La revue ou l'entrepôt du jeu de données peuvent recommander un format de citation Le service DOI Citation formatter de Datacite vous permet de générer automatiquement une citation à partir d'un DOI http://crosscite.org/citeproc/ Exemple : Claire Loison. (2015). Hydrated DPPC, MD simulation trajectory and related files for UA charmm36 model by Lee et al 2014. Zenodo. http://doi.org/10.5281/zenodo.16978 |
Bibliographie et liens utiles
Bibliographie
• Dekkers M., Loutas N., De Keyzer M., Goedertier S. (2013). Licences pour les données et les métadonnées. Module de formation 2.5. PWC
http://fr.slideshare.net/OpenDataSupport/licences-pour-les-donnes-et-les-
mtadonnes
• Dzale E., L'Hostis D. (2015). Open Science. Gestion et partage des données de la recherche. Journée de Formation Agropolis, 2015/04/01, Montpellier (France). Diaporama : 211 slides.
http://prodinra.inra.fr/record/280536
• OCDE. (2007). Principes et lignes directrices de l'OCDE pour l'accès aux données de la recherche financée sur fonds publics. 29 p. Version. 1.0 11 December 2013 http://www.oecd.org/fr/sti/sci-tech/38500823.pdf
• Silvy C. (2015). De l’Open Access à l’Open Data : Enjeux et perspectives. Séminaire CBGP, 2015/01/06, Montpellier (France). Diaporama : 100 slides
http://www.ist.agropolis.fr/les-formations/tutoriels/item/de-l-open-access-a-
l-open-data-enjeux-et-perspectives
Webographie
Sites d'information sur les données de la recherche :
• Plateforme d'information officielle du Ministère de l'Enseignement Supérieur et de la Recherche http://www.donneesdelarecherche.fr/
• Gestion et partage des données scientifiques, INRA Science & impact https://www6.inra.fr/datapartage/
• Gestion des données de la recherche - CIRAD-CoopIST, mise à jour avril 2015 http://coop-ist.cirad.fr/gestion-de-l-information/gestion-des-donnees-de-la- recherche
Tutoriels, modules d'autoformation :
• INIST-CNRS. (2014). Une introduction à la gestion et au partage des données de la recherche. Module de sensibilisation en ligne http://www.inist.fr/donnees/co/Donnees_recherche_web.html
• Cosserat F., Ciolek-Figiel A. (2016) Gestion et diffusion des données de la recherche. Stage URFIST 2016/05/12. Diaporama : 129 slides http://www.sites.univ-rennes2.fr/urfist/ressources/gestion-et-diffusion-des- donnees-de-la-recherche?destination=ressources
- Groupe(s) de travail
- Contact(s)
- Création Octobre 2016 - Mise à jour janvier 2021