L'outil MetaGraph permet d'effectuer des recherches parmi des millions d'enregistrements publiés sur l'ADN, l'ARN et les protéines en quelques secondes. Développé par les scientifiques du SIB à l'ETH Zurich, cet outil surmonte les limites actuelles de l'analyse de volumes considérables de données de séquençage biologique, ce qui accélérera considérablement la recherche en sciences de la vie et l'innovation biomédicale. Cette étape importante dans le domaine de la génomique computationnelle a été publiée dans Nature.

Recherche en texte intégral au lieu de télécharger des ensembles de données complets

Plus de 100 millions de gigaoctets (100 pétaoctets) de séquences d'ADN, d'ARN et de protéines sont stockés dans des bases de données publiques à travers le monde, soit environ autant que l'ensemble des textes disponibles sur Internet. Cette vaste collection de données est une mine d'or pour la recherche dans les domaines du traitement des maladies, de l'écologie, des nouvelles biotechnologies, etc. Cependant, l'accès et l'analyse de données à cette échelle constituent un défi majeur. Les méthodes actuelles sont souvent lentes, nécessitent une puissance de calcul et d'autres ressources considérables, et ne sont pas suffisamment évolutives pour permettre des recherches à haut débit.

MetaGraph surmonte ces limites. Développé par le groupe Biomedical Informatics au SIB de l'ETH Zurich, cet outil fonctionne de la même manière qu'un moteur de recherche Internet classique : les chercheurs saisissent le texte d'une séquence et, en quelques secondes ou minutes, obtiennent une liste de toutes les séquences correspondantes dans les bases de données publiques.

Un catalyseur pour les avancées biomédicales

L'article publié ce mois-ci dans Nature démontre que MetaGraph est non seulement rapide, mais aussi précis et efficace. Pour démontrer sa faisabilité pratique, les auteurs ont utilisé cet outil pour indexer la moitié de tous les ensembles de données de séquences disponibles dans le monde, à travers l'arbre de la vie, soit 18 millions d'échantillons uniques de génomes et de transcriptomes et 210 milliards de résidus d'acides aminés provenant des archives UniProt (UniParc). Selon Gunnar Rätz, l'autre moitié devrait suivre d'ici la fin de l'année.

L'article fournit également des cas d'utilisation pratiques pour illustrer comment une recherche à l'échelle du pétaoctet peut catalyser les progrès biomédicaux, tels que la lutte contre la résistance aux antimicrobiens. MetaGraph étant disponible en open source, il pourrait également intéresser les entreprises pharmaceutiques qui disposent de grandes quantités de données de recherche internes.

Une solution novatrice pour les analyses de séquences à l'échelle péta

MetaGraph fonctionne en indexant les données et en les présentant sous forme compressée. Pour ce faire, il utilise des graphiques mathématiques complexes qui améliorent la structure des données, à l'instar des tableurs tels qu'Excel.

Si l'utilisation d'index pour rendre consultables de grandes quantités de données est une pratique courante dans la recherche en informatique, les chercheurs ont ajouté deux nouveaux aspects : la mise en relation complexe des données brutes et des métadonnées, et la compression des données d'un facteur d'environ 300. À l'instar d'un résumé de livre, les données compressées ne contiennent plus tous les mots, mais tous les principaux éléments de l'histoire et les liens restent intacts.

Grâce à ces innovations, MetaGraph est relativement rentable : la représentation de toutes les séquences biologiques publiques tiendrait sur quelques disques durs d'ordinateur, et les requêtes volumineuses pourraient coûter aussi peu que 74 cents par mégabase. La méthodologie permet également une évolutivité, un avantage clé par rapport aux autres outils de recherche d'ADN actuellement à l'étude. MetaGraph peut notamment s'adapter facilement aux progrès rapides actuels en matière de représentation des séquences biologiques, ce qui garantit son utilité à long terme.

Reference(s)

Karasikov, M., Mustafa, H., Danciu, D. et al. Recherche efficace et précise dans des référentiels de séquences à l'échelle du pétaoctet. Nature ( 2025).