Une définition mise à jour
Mises à jour en 2021, les Recommandation du Conseil concernant l'accès aux données de recherche provenant de financements publics de l'OCDE définissent les données de recherche provenant de fonds publics [comme des] :
"documents factuels (tels que des notes numériques, des documents textuels, des images et des sons) résultant d'une recherche partiellement ou totalement financée par des fonds publics, utilisés comme sources primaires pour la recherche scientifique et communément acceptés dans la communauté scientifique comme nécessaires pour valider les résultats de la recherche. Ce terme ne couvre pas les carnets de laboratoire, les analyses préliminaires ou les ébauches d'articles scientifiques, les plans de recherches futures, les examens par les pairs, les communications personnelles avec des collègues ou les objets physiques, (par exemple, les échantillons de laboratoire, les souches de bactéries ou les animaux de laboratoire)."
Par extension, cette définition peut inclure "d'autres objets numériques pertinents pour la recherche provenant de fonds publics : métadonnées, algorithmes, flux de travail, modèles et logiciels (y compris le code) résultant d'une recherche financée partiellement ou entièrement par des fonds publics, qui sont utilisés dans un contexte de recherche et de développement.
- Algorithmes : les étapes et les règles de calcul à suivre pour effectuer des calculs ou d'autres opérations de résolution de problèmes, notamment par un ordinateur.
- Code : code source, c'est-à-dire un ensemble d'instructions de programme informatique lisibles par l'homme qui exprime un algorithme de manière à ce qu'il puisse être exécuté par un ordinateur.
- Logiciel : désigne à la fois le code et les fichiers exécutables et les bibliothèques qui sont produits à partir du code source.
- Processus : description précise des étapes d'une méthode utilisée pour générer des résultats de recherche à l'aide de ressources analogiques (telles que des protocoles cliniques ou des entretiens anthropologiques) et numériques (telles que des données et du code, y compris les paramètres, les graines de nombres aléatoires, les dépendances des données et des logiciels, et les séquences d'invocation du code). Les descriptions de flux de travail scientifiques sont souvent interprétées et exécutées par un logiciel de gestion de flux de travail qui gère l'accès et l'exécution du code, l'accès et le déplacement des données, la journalisation et le traitement des erreurs."
Les données de recherche à l'UNIL
À l'UNIL, selon la directive 4.5 de la Direction, les données de recherche sont des enregistrements utilisés comme sources principales pour la recherche scientifique.
Elles comprennent en particulier, mais pas exclusivement :
- les données primaires : données originales (mesure, texte, image, son, vidéo, questionnaires, etc.) collectées ou générées dans le but de mener à bien un projet de recherche ;
- les données existantes rassemblées ou copiées à des fins d’utilisation immédiate ou future pour des projets (en particulier données administratives ou statistiques, contenus numérisés de collections, données disponibles dans les bases de données expressément mises à disposition d’une communauté de chercheurs) - les données ou contenus originaux ne sont pas visés par la présente directive ;
- toute nouvelle donnée résultant du traitement (analyse, agrégation, transformation, etc.) des données primaires.
Ne sont pas considérés comme données de recherche :
- les fichiers rassemblant des éléments constitutifs de la publication des recherches, (textes formant le coeur de la publication, ainsi que les annexes – tableaux, graphiques, images, etc.).
- les fichiers générés par l’administration du projet (rapports scientifiques, financiers) ou la communication médiatique liée à un projet.
Afin de favoriser leur publication et/ou leur partage en accès ouvert éventuel, les données de recherche sont organisées et gérées selon les standards internationaux spécifiques à chaque domaine en vue du respect des principes FAIR (Findable, Accessible, Interoperable, Re-usable) soutenus notamment par le Fonds National Suisse.
Cycle de vie des données
Les données de recherche ont une longue durée de vie, souvent plus longue que la période comprise entre leur création et la rédaction de la publication scientifique pour laquelle elles ont été créées. La fonction et la valeur des données changent d'une phase à l'autre du cycle. La notion de cycle de vie des données de recherche est un outil qui peut être utilisé pour cartographier différentes phases et voir comment elles se connectent l'une à l'autre. L'utilisation d'un cycle de vie permet de passer d'une perspective à court terme à une perspective à long terme dans la gestion des données.
Élaboré par UK Data Archive, le modèle de référence du cycle de vie des données de recherche "Research Data Lifecycle" définit 6 principales étapes : Création des données ; Traitement des données ; Analyse des données ; Préparer les données pour la préservation ; Accès aux données ; Réutilisation des données.
Chacune de ces étapes est composée de plusieurs actions à réaliser pour assurer une gestion adéquate des données de recherche.
Uniris a développé une vision similaire basée également sur 6 phases :
- Gestion planification du projet (DMP)
- Collecte ou création des données
- Organisation et analyse
- Préservation et curation
- Archivage et partage (publication)
- Réutilisation des données
La prise en compte de ces 6 phases permet la réalisation des aspects suivants :
- Stockage sécurisé durant la phase active
- Stockage intermédiaire (Long term storage) des données organisées et documentées
- Archivage sur un dépôt FAIR et non commercial, et partage (Open research Data)
Un distinction s'opère entre les données actives de recherche, la préservation d’une partie de ces données (conservation à long terme) et l'archivage/partage pérenne des données.
- les données actives de recherche sont les données en cours d’utilisation par le chercheur ;
- les données conservées à long terme sont des données qui ont déjà été analysées et qui sont là pour consultation et/ou utilisation dans le cadre d’une autre recherche, ou qui n'ont pas été encore exploitées lors de la première recherche ;
- les données qui sont archivées de façon pérenne et partagées via un dépôt de données FAIR et non commercial, le sont pour permettre leur accessibilité et leur réutilisation dans le temps et répondre ainsi aux enjeux de l'Open research Data.
Types de données de recherche
Les données de recherche sont nombreuses, variées et très hétérogènes. Elles peuvent être distinguées en cinq catégories (André, 2014) :
- Données d’observation
- Données expérimentales
- Données computationnelles, de modèles ou de simulations
- Données dérivées ou compilées
- Données de référence ou canoniques
Selon leur contexte de création (capture ou production), leur exploitation, leur analyse et les traitements qu’elles subissent, les données de recherche peuvent être de différente nature :
- Brutes, dérivées, formatées, nettoyées, primaires, secondaires, traitées, etc.
Contenues dans divers supports :
- Carnets de laboratoire, documents électroniques, papier, logiciels, programmes informatiques, etc.
De tous types :
- Archives, audio, vidéo, bases de données, codes sources, géospatiales, images, photographies, langages de programmation, matérielles et physiques, modèles, visualisations, 3D, numériques, textuelles, numérisations, scans, qualitatives, quantitatives, statistiques, etc.