Peer Bork, alors directeur général par intérim du Laboratoire européen de biologie moléculaire (EMBL), a prononcé un discours liminaire lors de l'édition 2025 de l'événement phare biennal du SIB, la [BC]2 Basel Computational Biology Conference.
Peer est décédé en janvier 2026. Nous avons eu l'honneur de nous entretenir avec ce bioinformaticien de renommée mondiale à la fin de l'année dernière sur le rôle des données dans la recherche et l'innovation en sciences de la vie. Cette interview est publiée en hommage à sa vision.
Le SIB : Au cours des 30 dernières années, les sciences de la vie sont devenues l'un des plus grands producteurs de mégadonnées. Cela signifie-t-il que les biologistes doivent désormais également être des scientifiques spécialisés dans les données ?
Peer Bork : La biologie moderne est une science axée sur les données, de sorte que la plupart des biologistes doivent être capables de comprendre, d'analyser et de travailler avec des données.
La plupart travaillent avec de grands ensembles de données et des outils spécialisés, de sorte que la bioinformatique et la science des données sont devenues essentielles dans ce domaine. Bien sûr, cela signifie également que les ressources de données et le soutien de spécialistes des données sont essentiels pour la recherche et la découverte en biologie. Sans cela, les biologistes ne seraient pas en mesure de partager, d'accéder ou d'analyser de grands volumes de données afin d'acquérir de nouvelles connaissances et de développer des solutions aux défis mondiaux.
Enfin, l'IA, qui va révolutionner la biologie comme d'autres disciplines scientifiques, repose sur les données. Il est donc important que les chercheurs conçoivent leurs expériences de manière à créer des données « prêtes pour l'IA ».
Le SIB : Le rôle essentiel des ressources de données pour la recherche et l'innovation est-il bien compris et soutenu par les gouvernements et les organismes de financement de la science ?
P.B. : La dure réalité est que sans ressources de données, les sciences de la vie seraient paralysées. Ces ressources sont aussi importantes que les laboratoires, les instruments et même l'électricité, mais elles sont rarement reconnues à leur juste valeur et sont souvent considérées comme acquises.
Alors que les volumes de données générés et les demandes qui en découlent sur les infrastructures de données continuent d'augmenter, le défi – et l'opportunité – consiste à aller au-delà du soutien à court terme des projets et à mettre en place des mécanismes de financement durables et une reconnaissance appropriée, au niveau national et au-delà.
Le SIB et EMBL : moteurs de l'innovation, de la puissance économique et du bien-être
Tout comme le SIB, l'EMBL permet la recherche en sciences de la vie et son application à la médecine, à l'agriculture, à l'industrie et à la société en fournissant des données, des outils et des connaissances biologiques librement accessibles. Le SIB collabore avec l'EMBL sur des ressources de données d'importance mondiale, notamment UniProt, la principale base de connaissances mondiale sur la séquence et la fonction des protéines, et STRING, une base de connaissances sur les interactions protéine-protéine, qui font toutes deux partie du portefeuille de ressources du SIB.
En savoir plus sur les avantages d'UniProt pour la science et la société
Le SIB : Les ressources en matière de données biologiques, qui étaient auparavant partagées entre les scientifiques à l'aide de courriels et de disquettes, sont désormais librement accessibles en ligne via des infrastructures de recherche telles que l'EMBL-EBI, le SIB et ELIXIR. Selon vous, quel sera l'aspect le plus important de leur prochaine grande évolution ?
P.B. : Le paysage des données biologiques est fragmenté : il existe une multitude de types de données, de producteurs et de formats qui ne « communiquent » pas toujours entre eux. Il faut beaucoup d'efforts pour rendre les données FAIR, c'est-à-dire faciles à trouver, accessibles, interopérables et réutilisables. En résumé, FAIR signifie que les données sont produites une seule fois, puis réutilisées à l'infini par des scientifiques du monde entier afin d'acquérir de nouvelles connaissances. Les données FAIR, lisibles par machine, sont essentielles pour tirer parti des puissantes technologies d'IA.
Mais aucune organisation ni aucun pays ne peut y parvenir seul. Les données FAIR sont un travail d'équipe. Nous avons besoin de ressources centralisées et fédérées qui peuvent communiquer entre elles. Même les ressources centralisées telles que celles fournies par le SIB ou l'EMBL (voir encadré), entre autres, ne peuvent pas capturer les énormes quantités de données générées, qui doivent être contrôlées et conservées. Il est donc également nécessaire de disposer de connaissances spécialisées dans ce domaine, détenues par des communautés d'experts à travers le monde. Il s'agit d'un exercice de construction de communautés et d'infrastructures.
Le SIB et EMBL : moteurs de l'innovation, de la puissance économique et du bien-être
Tout comme le SIB, l'EMBL permet la recherche en sciences de la vie et son application à la médecine, à l'agriculture, à l'industrie et à la société en fournissant des données, des outils et des connaissances biologiques librement accessibles. Le SIB collabore avec l'EMBL sur des ressources de données d'importance mondiale, notamment UniProt, la principale base de connaissances mondiale sur la séquence et la fonction des protéines, et STRING, une base de connaissances sur les interactions protéine-protéine, qui font toutes deux partie du portefeuille de ressources du SIB.
En savoir plus sur les avantages d'UniProt pour la science et la société
Le SIB : Compte tenu du nombre considérable de ressources de données disponibles et de la création continue de nouvelles bases de données et de nouveaux outils logiciels, comment les institutions, les organismes de financement et les gouvernements peuvent-ils s'assurer que les bonnes ressources sont maintenues et développées ?
P.B. : Pour tirer parti de la puissance des ressources de données ouvertes, nous avons besoin d'efforts coordonnés de la part des bailleurs de fonds, des gouvernements et des instituts scientifiques. Ensemble, nous devons d'abord reconnaître que l'infrastructure des données biologiques est aussi importante pour la science que les routes ou l'électricité le sont pour la société.
Nous devons également développer des modèles de financement stables et à long terme, partager les responsabilités au niveau international et mettre en place davantage de mécanismes incitatifs pour les scientifiques qui partagent leurs données de recherche de manière FAIR.
Des organisations telles que l'infrastructure européenne des sciences de la vie ELIXIR et la Global Biodata Coalition accomplissent déjà un travail précieux en rassemblant les communautés, en identifiant les ressources de données essentielles et en collaborant avec les bailleurs de fonds pour assurer leur avenir. Mais il nous reste encore un long chemin à parcourir pour sécuriser ces ressources essentielles et les exploiter de manière à apporter des avantages réels à la science, aux soins de santé et à la vie quotidienne.
Le SIB : Pouvez-vous donner un exemple de la manière dont des ressources interopérables et fédérées permettent de mettre en œuvre des initiatives de nouvelle génération dans le domaine des sciences de la vie ?
P.B. : Un exemple récent de l'EMBL et de ses partenaires est le TREC, qui signifie TRaversing Ecosystems. Il s'agit d'une étude à grande échelle des écosystèmes et de leur réponse à l'environnement, des molécules aux communautés, qui a achevé la partie échantillonnage de sa première expédition le long des côtes européennes. En collaboration avec nos partenaires, nous avons développé de nouvelles normes d'échantillonnage et recueilli des échantillons biologiques et des données environnementales dans 115 sites. Les énormes volumes de données collectées, qui seront rendus publics, peuvent être utilisés pour comprendre et développer des solutions à des défis majeurs, tels que la pollution environnementale, la perte de biodiversité, le réchauffement climatique et l'acidification des océans.
Les données brutes de différents types sont stockées dans des bases de données publiques, et les données dérivées sont intégrées et hébergées par un hub de données et un portail dédié, ce qui constitue un exemple d'interaction entre des ressources fédérées et centralisées. Pour intégrer les données, divers outils sont utilisés, dont certains ont été co-développés et pris en charge par le SIB, tels que STRING et mOTUs.
La première expédition TREC était une collaboration entre la Fondation Tara Océan, le Centre européen de ressources biologiques marines et de nombreux instituts et stations marines à travers l'Europe. Il s'agit d'une initiative ambitieuse visant à rapprocher la biologie moléculaire des sciences environnementales. À l'avenir, nous nous appuierons sur cette initiative en appliquant les mêmes principes de collecte, de stockage et d'analyse standardisés des données, par exemple aux écosystèmes d'eau douce.
La biologie moléculaire touche tous les êtres vivants et présente un énorme potentiel pour contribuer à d'autres domaines des sciences de la vie, de la santé humaine à l'agriculture et à la sécurité alimentaire, en passant par les sciences environnementales et bien d'autres encore. Les possibilités sont vraiment infinies.
Reference(s)
Peer Bork s'exprimant lors de la conférence 2025 [BC]2 Basel Computational Biology Conference. Crédit : le SIB