Peer Bork, alors directeur général par intérim du Laboratoire européen de biologie moléculaire (EMBL), a prononcé un discours liminaire lors de l’édition 2025 de l’événement phare biennal du SIB, la [BC]2 Basel Computational Biology Conference.
Peer est décédé en janvier 2026. Nous avons eu l’honneur de nous entretenir avec ce bioinformaticien de renommée mondiale à la fin de l’année dernière au sujet du rôle des données dans la recherche et l’innovation en sciences de la vie. Cette interview est publiée en hommage à sa vision.
Le SIB : Au cours des 30 dernières années, les sciences de la vie sont devenues l’un des plus grands producteurs de mégadonnées. Cela signifie-t-il que les biologistes doivent désormais être aussi des scientifiques des données ?
Peer Bork : La biologie moderne est une science fondée sur les données, de sorte que la plupart des biologistes doivent être capables de comprendre, d’analyser et de travailler avec des données.
La plupart travaillent avec de grands ensembles de données et des outils spécialisés, de sorte que la bioinformatique et la science des données sont devenues essentielles dans ce domaine. Bien sûr, cela signifie également que les ressources de données biologiques et le soutien de spécialistes des données sont indispensables à la recherche et aux découvertes en biologie. Sans elles, les biologistes ne seraient pas en mesure de partager, d’accéder ou d’analyser de grands volumes de données pour acquérir de nouvelles connaissances et développer des solutions aux défis mondiaux.
Enfin, l'IA – qui va révolutionner la biologie comme d'autres disciplines scientifiques – repose sur les données ; il est donc important que les chercheurs conçoivent leurs expériences de manière à générer des données « prêtes pour l'IA ».
Le SIB : Le rôle essentiel des ressources de données pour la recherche et l’innovation est-il bien compris et soutenu par les gouvernements et les organismes de financement de la science ?
P.B. : La dure réalité est que sans ressources de données, les sciences de la vie seraient paralysées. Ces ressources sont aussi importantes que les laboratoires, les instruments et même l’électricité, mais elles bénéficient rarement de la même reconnaissance et sont souvent considérées comme acquises.
Alors que les volumes de données générés et les exigences qui en découlent pour les infrastructures de données ne cessent d’augmenter, le défi – et l’opportunité – consiste à aller au-delà du soutien à court terme aux projets et à mettre en place des mécanismes de financement durables ainsi qu’une reconnaissance appropriée, à l’échelle nationale et au-delà.
Le SIB et EMBL : moteurs de l'innovation, de la puissance économique et du bien-être
Tout comme le SIB, l'EMBL permet la recherche en sciences de la vie et son application à la médecine, à l'agriculture, à l'industrie et à la société en fournissant des données, des outils et des connaissances biologiques librement accessibles. Le SIB collabore avec l'EMBL sur des ressources de données d'importance mondiale, notamment UniProt, la principale base de connaissances mondiale sur la séquence et la fonction des protéines, et STRING, une base de connaissances sur les interactions protéine-protéine, qui font toutes deux partie du portefeuille de ressources du SIB.
En savoir plus sur les avantages d'UniProt pour la science et la société
Le SIB : Les ressources de données biologiques sont passées d’un partage entre scientifiques individuels via e-mail et disquettes à une mise à disposition ouverte en ligne via des infrastructures de recherche telles que l’EMBL-EBI, le SIB et ELIXIR. Selon vous, quel est l’aspect le plus important de leur prochaine grande évolution ?
P.B. : Le paysage des données biologiques est fragmenté : il existe une multitude de types de données, de producteurs et de formats qui ne « communiquent » pas toujours entre eux. Il faut déployer beaucoup d’efforts pour rendre les données FAIR – ce qui signifie « Findable, Accessible, Interoperable et Reusable » (facilement trouvables, accessibles, interopérables et réutilisables). En résumé, « FAIR » signifie que les données sont produites une seule fois, puis réutilisées à l’infini par des scientifiques du monde entier pour acquérir de nouvelles connaissances. Des données FAIR et lisibles par machine sont essentielles pour tirer parti des puissantes technologies d’IA.
Le SIB et EMBL : moteurs de l'innovation, de la puissance économique et du bien-être
Tout comme le SIB, l'EMBL permet la recherche en sciences de la vie et son application à la médecine, à l'agriculture, à l'industrie et à la société en fournissant des données, des outils et des connaissances biologiques librement accessibles. Le SIB collabore avec l'EMBL sur des ressources de données d'importance mondiale, notamment UniProt, la principale base de connaissances mondiale sur la séquence et la fonction des protéines, et STRING, une base de connaissances sur les interactions protéine-protéine, qui font toutes deux partie du portefeuille de ressources du SIB.
En savoir plus sur les avantages d'UniProt pour la science et la société
Mais aucune organisation ni aucun pays ne peut y parvenir seul. Les données FAIR sont un travail d’équipe. Nous avons besoin à la fois de ressources centralisées et fédérées capables de communiquer entre elles. Même les ressources centralisées, telles que celles fournies par le SIB ou l’EMBL (voir encadré) entre autres, ne peuvent pas capturer les quantités massives de données générées, qui doivent faire l’objet d’un contrôle qualité et d’une curation. Il est donc également nécessaire de disposer de connaissances spécialisées dans le domaine, détenues par des communautés d’experts à travers le monde. C’est un exercice de construction de communautés et d’infrastructures.
SIB : Compte tenu du nombre considérable de ressources de données disponibles – et du fait que de nouvelles bases de données et de nouveaux outils logiciels continuent d’être créés –, comment les institutions, les organismes de financement et les gouvernements peuvent-ils s’assurer que les bonnes ressources sont maintenues et développées ?
P.B. : Pour tirer parti de la puissance des ressources de données ouvertes, nous avons besoin d’efforts coordonnés de la part des bailleurs de fonds, des gouvernements et des instituts scientifiques. Ensemble, nous devons d’abord reconnaître que l’infrastructure des données biologiques est aussi importante pour la science que les routes ou l’électricité le sont pour la société.
Nous devons également mettre en place des modèles de financement stables et à long terme, un partage des responsabilités au niveau international et davantage de mécanismes d’incitation pour les scientifiques qui partagent leurs données de recherche selon les principes FAIR.
Des organisations telles que l'infrastructure européenne des sciences de la vie ELIXIR et la Global Biodata Coalition accomplissent déjà un travail précieux pour rassembler les communautés, identifier les ressources de données essentielles et collaborer avec les bailleurs de fonds afin d'assurer leur avenir. Mais il nous reste encore un long chemin à parcourir pour sécuriser ces ressources essentielles et les exploiter de manière à apporter de réels bénéfices à la science, aux soins de santé et à la vie quotidienne.
Le SIB : Pouvez-vous donner un exemple de la manière dont des ressources interopérables et fédérées permettent de mettre en œuvre des initiatives de nouvelle génération dans le domaine des sciences de la vie ?
P.B. : Un exemple récent de l’EMBL et de ses partenaires est le TREC, qui signifie TRaversing Ecosystems. Il s’agit d’une étude à grande échelle des écosystèmes et de leur réponse à l’environnement, des molécules aux communautés, qui a achevé la partie échantillonnage de sa première expédition le long des côtes européennes. En collaboration avec nos partenaires, nous avons développé de nouvelles normes d’échantillonnage et recueilli des échantillons biologiques et des données environnementales provenant de 115 sites. Les vastes volumes de données collectées, qui seront rendus publics, peuvent être utilisés pour comprendre et développer des solutions aux grands défis, tels que la pollution environnementale, la perte de biodiversité, le réchauffement climatique et l’acidification des océans.
Les données brutes de différents types sont stockées dans des bases de données publiques, tandis que les données dérivées sont intégrées et hébergées par un hub de données et un portail dédié – ce qui illustre l'interaction entre les ressources fédérées et centralisées. Pour intégrer les données, divers outils sont utilisés, dont certains ont été co-développés et sont soutenus par le SIB, tels que STRING et mOTUs.
La première expédition TREC était le fruit d’une collaboration avec la Fondation Tara Ocean, le Centre européen des ressources biologiques marines et de nombreux instituts et stations marines à travers l’Europe. Il s’agit d’une initiative ambitieuse visant à rapprocher la biologie moléculaire des sciences de l’environnement. À l’avenir, nous nous appuierons sur cette initiative en appliquant les mêmes principes de collecte, de stockage et d’analyse standardisés des données, par exemple aux écosystèmes d’eau douce.
La biologie moléculaire touche tous les êtres vivants et recèle un énorme potentiel pour contribuer à d’autres domaines des sciences de la vie, de la santé humaine à l’agriculture et à la sécurité alimentaire, en passant par les sciences de l’environnement et bien au-delà. Les possibilités sont véritablement infinies.
Reference(s)
Peer Bork s'exprimant lors de la conférence 2025 [BC]2 Basel Computational Biology Conference. Crédit : le SIB