Des informations biologiques importantes, notamment la diversité dite « cryptique » et les variations intra-espèces susceptibles d’influencer la résilience, seront exploitées et intégrées dans un cadre de modélisation visant à évaluer la richesse et la répartition des espèces. Dirigée par le SIB, cette collaboration financée par le FNS développe et évalue des approches de modélisation qui combinent les données traditionnelles sur la présence des espèces avec trois types de données supplémentaires : la génomique, les traits extraits de la littérature et les changements taxonomiques au fil du temps. L'objectif est de fournir une base factuelle plus large pour la recherche sur la biodiversité – et de permettre des recommandations plus adaptées en matière de protection et de restauration de l'environnement.
Améliorer les modèles de biodiversité grâce à des données auparavant cloisonnées
Les évaluations de la biodiversité éclairent les politiques et les actions de conservation en fournissant des informations essentielles sur la répartition des espèces, l’évolution de leurs aires de répartition et les populations les plus menacées. Ces évaluations utilisent des modèles pour extrapoler les données issues d’études de terrain à des habitats et des écosystèmes plus vastes. Ces modèles combinent généralement la présence des espèces avec des facteurs environnementaux, ce qui signifie qu’ils ne prennent pas en compte les espèces non encore décrites, ni les caractéristiques biologiques clés susceptibles d’influencer la résilience à long terme des espèces, telles que la diversité génétique et les différences entre les populations. Ils sont également affectés par des incertitudes découlant, par exemple, de l’évolution des définitions des espèces à mesure que de nouvelles connaissances sont acquises, ainsi que par l’existence d’espèces « cryptiques » difficiles à distinguer sur le plan morphologique.
Les données génomiques, les connaissances publiées sur les espèces et les archives taxonomiques historiques peuvent combler ces lacunes, mais elles sont actuellement fragmentées, non interopérables ou difficiles d’accès. Le nouveau projet permettra de surmonter ce défi. Deux groupes du SIB et leur partenaire Plazi exploiteront les données issues de ces sources pour certaines espèces en Suisse et en Europe, puis intégreront ces données à des données de présence et environnementales dans un cadre de modélisation partagé. Les résultats visent à aider les décideurs politiques et les professionnels de la conservation à cibler plus précisément leurs efforts de protection, et à fournir aux chercheurs une base factuelle plus riche pour des études ultérieures.
Ce travail s'appuie sur l'expertise du SIB en matière de données sur la biodiversité, d'exploration de textes basée sur l'IA et de modélisation statistique, et contribue à la réalisation des objectifs stratégiques du SIB visant à développer des outils pour relever les défis environnementaux et à soutenir les efforts nationaux en faveur de la protection de l'environnement.
Analyser les génomes, explorer la littérature et cartographier les changements taxonomiques
Les groupes d’espèces choisis – oiseaux, chauves-souris et poissons en Suisse, et papillons, bourdons et amphipodes d’eau douce en Europe – représentent un éventail des connaissances disponibles, allant de vastes séries de données à long terme à des études plus sporadiques. Afin de générer les nouvelles données d’entrée pour la modélisation, le projet va :
- Caractériser la diversité génétique des espèces, la structure des populations et les indicateurs de résilience à l’aide de données génomiques issues à la fois de banques de séquences d’ADN établies et de banques à usage général. La mobilisation de ces dernières – qui peuvent être difficiles à trouver et à réutiliser – nécessitera dans un premier temps d’identifier et de cataloguer les ensembles de données pertinents. Ces ensembles de données seront également préparés pour être déposés dans des banques de séquences établies lorsque cela sera possible, afin d’améliorer encore leur accessibilité et leur utilisation pour la modélisation et la recherche.
- Extraire de la littérature les données sur les caractéristiques des espèces, telles que le cycle de vie, les préférences en matière d’habitat et les interactions avec d’autres espèces. Ces informations seront extraites à l’aide de l’exploration de textes assistée par l’IA et du traitement du langage naturel, à partir d’articles scientifiques et de registres taxonomiques existants lisibles par machine (Biodiversity PMC, développé par un groupe du SIB ; TreatmentBank, développé par Plazi). Les guides de terrain et les monographies disposant des droits d'accès appropriés seront également numérisés, convertis en formats lisibles par machine et analysés.
- Quantifier l'incertitude taxonomique. Lorsque des espèces sont scindées, fusionnées ou reclassées, les données issues de différentes décennies peuvent faire référence à des noms scientifiques et à des concepts qui ont depuis changé – voire à plusieurs espèces. Ces changements seront cartographiés dans l'ensemble des enregistrements taxonomiques à l'aide de l'outil SynoSpecies de Plazi. Dans la mesure du possible, l'ambiguïté restante sera représentée par des indices d'incertitude taxonomique.
Les modèles intégrant les nouvelles données seront comparés à des modèles de référence utilisant uniquement des données sur la présence des espèces et des données environnementales, les résultats étant examinés par des experts du domaine. Cette comparaison permettra d'évaluer dans quelle mesure chaque type de données améliore les performances du modèle.
Favoriser les mesures de conservation et la poursuite des recherches
Les résultats du modèle devraient permettre d'identifier les points chauds de biodiversité, les populations vulnérables et les réactions prévues aux changements environnementaux parmi les groupes d'espèces sélectionnés. Les ensembles de données, les annotations de traits, les flux de travail et le code seront mis à disposition en libre accès, dans le respect des licences, des droits sur les données et des contraintes de confidentialité, afin de soutenir la poursuite des recherches sur la biodiversité et l'extension du cadre de modélisation à de nouvelles espèces.