Le SIB et d'autres infrastructures de premier plan ainsi que des experts en information sur la biodiversité mettront à disposition gratuitement des connaissances essentielles sur les espèces de notre planète dans des formats FAIR, lisibles par machine et compatibles avec l'intelligence artificielle. La « feuille de route de Disentis » vise à extraire et à relier les données et les connaissances sur la biodiversité contenues dans environ 500 millions de pages de publications scientifiques d'ici 2035.
La feuille de route de Disentis a été signée à ce jour par 24 collections d'histoire naturelle, infrastructures de recherche, éditeurs de revues et réseaux mondiaux pour la biodiversité de premier plan, ainsi que par 38 experts individuels issus des cinq continents. Outre le SIB, on compte parmi les signataires le Muséum national d'histoire naturelle de Paris, les Jardins botaniques royaux de Kew, le Global Biodiversity Information Facility, Pensoft Publishers et la communauté Biodiversity Information Standards.
Améliorer la découverte, l'accès et la réutilisation des données sur la biodiversité
Au cours des 300 dernières années, les scientifiques ont collecté une multitude de données sur le monde naturel, notamment des descriptions d'espèces, leur répartition et des informations sur les facteurs de changement environnemental. Ces données sont essentielles pour enrayer la crise actuelle de la biodiversité, mettre en œuvre des approches « One Health » et former des modèles d'IA précis. Cependant, une grande partie de ces connaissances n'est pas entièrement ouverte, accessible et/ou connectée. Cela constitue un obstacle majeur au progrès scientifique, à l'élaboration de politiques fondées sur des données probantes et à la prise de décisions éclairées.
La feuille de route de Disentis a été signée à ce jour par 24 collections d'histoire naturelle, infrastructures de recherche, éditeurs de revues et réseaux mondiaux pour la biodiversité de premier plan, ainsi que par 38 experts individuels issus des cinq continents. Outre le SIB, on compte parmi les signataires le Muséum national d'histoire naturelle de Paris, les Jardins botaniques royaux de Kew, le Global Biodiversity Information Facility, Pensoft Publishers et la communauté Biodiversity Information Standards.
La feuille de route de Disentis est un plan décennal visant à « libérer » ces données issues des publications scientifiques. Le SIB a contribué à sa rédaction, en est signataire et soutiendra sa mise en œuvre dans le cadre d'une collaboration internationale. La feuille de route s'inscrit dans le cadre plus large des travaux de notre groupe Environmental Bioinformatics visant à intégrer les connaissances sur la biodiversité et l'environnement provenant de multiples sources afin de permettre des analyses plus pertinentes. Elle soutient également notre mission qui consiste à libérer le potentiel des données biologiques afin de favoriser l'innovation pour un avenir meilleur.
Un cadre scientifique ouvert reliant les nouvelles données sur les espèces aux connaissances publiées
Le projet extraira des informations d'articles PDF numérisés à l'aide de technologies d'exploration de texte et de workflows d'annotation, tels que ceux développés par Plazi, un référentiel de littérature taxonomique numérique travaillant en étroite collaboration avec le groupe SIB Text Mining. Les données sur la biodiversité issues de publications scientifiques sont mises à la disposition de tous sur le référentiel de littérature sur la biodiversité Zenodo hébergé par le CERN. La bibliothèque numérique peut ensuite alimenter d'autres plateformes servant de sources complémentaires essentielles pour la recherche actuelle sur la biodiversité, notamment la ressource Biodiversity PMC et d'autres infrastructures de données ouvertes et interconnectées. Ce processus permet de rendre accessibles en temps quasi réel et pour une longue durée les données sur les nouvelles espèces et l'emplacement physique des spécimens cités et stockés.
Les objectifs spécifiques de la feuille de route pour 2035 sont les suivants :
- tous les principaux bailleurs de fonds publics de la recherche sur la biodiversité et les éditeurs universitaires encouragent et permettent la publication de données conformes aux principes FAIR (faciles à trouver, accessibles, interopérables et réutilisables) ;
- les publications axées sur la biodiversité seront accessibles dans des formats exploitables par des machines, toutes les parties non protégées par le droit d'auteur des articles étant versées dans des référentiels de données publics ;
- les recherches publiées sur la biodiversité seront « entièrement prêtes pour l'IA », c'est-à-dire librement accessibles pour la formation à l'IA et correctement étiquetées pour être intégrées dans des modèles d'apprentissage automatique, dans des cadres éthiques et juridiques appropriés ;
- des financements spécifiques provenant de subventions pour la recherche et les infrastructures seront réservés pour garantir l'accès aux données et aux connaissances sur la biodiversité.
Le « Biodiversity Libroscope » final comblera un besoin crucial en matière de services et d'outils documentaires de nouvelle génération fournissant des données de haute qualité et d'autres objets de recherche (tels que des images, des références et des caractéristiques taxonomiques) sur les taxons biologiques, leurs relations entre eux et avec l'environnement, ainsi que leur impact et leur importance pour la conservation de la nature, les services écosystémiques et les populations.
Les experts en science des données s'associent aux éditeurs et aux professionnels de la biodiversité
La feuille de route de Disentis est le résultat d'un symposium sur les connaissances en matière de biodiversité qui s'est tenu en août 2024 et qui a réuni des experts de premier plan dans les domaines de la biodiversité, de la science ouverte et de la gestion des données, notamment des représentants du SIB, qui ont apporté leur expertise en bioinformatique sur l'infrastructure des données, l'extraction et la mise en relation d'informations, les considérations juridiques et l'utilisation en aval des données.
Le symposium et la feuille de route font suite à la Déclaration de Bouchout pour une gestion ouverte des connaissances sur la biodiversité, signée en 2014 par plus de 300 institutions et experts mondiaux de la biodiversité.