Des milliers de marqueurs génétiques ont déjà été associés de manière fiable à des traits humains complexes, tels que la maladie d'Alzheimer, le cancer, l'obésité ou la taille. Pour découvrir ces associations, les chercheurs doivent comparer les génomes de nombreux individus à des millions d'emplacements génétiques ou marqueurs, ce qui nécessite des technologies de génotypage rentables. Une nouvelle méthode statistique, développée par le groupe d'Olivier Delaneau au SIB Institut Suisse de Bioinformatique et à l'Université de Lausanne (UNIL), offre des possibilités révolutionnaires. Pour moins d'un dollar de coût informatique, GLIMPSE est capable de déduire statistiquement un génome humain complet à partir d'une très petite quantité de données. Cette méthode offre une première alternative réaliste aux approches actuelles qui s'appuient sur un ensemble prédéfini de marqueurs génétiques, et permet ainsi une inclusion plus large des populations sous-représentées. L'étude, qui suggère un changement de paradigme pour la génération de données dans la recherche biomédicale, est publiée dans Nature Genetics.
Génotypage et études d'association génétique
Les marqueurs génétiques sont des séquences d'ADN très courtes dans le génome, telles que les polymorphismes nucléotidiques simples (SNP), connus pour varier d'un individu à l'autre. La procédure permettant de les déterminer pour un individu s'appelle le génotypage. Jusqu'à présent, le génotypage reposait principalement sur la technologie des puces à SNP, qui cible des panels de marqueurs prédéfinis. Ces ensembles de marqueurs prédéfinis sont couramment utilisés pour trouver des associations entre des marqueurs génétiques et des traits complexes dans le cadre d'études d'association pangénomique (GWAS), qui contiennent les dossiers médicaux et les données génétiques de milliers de participants. Cependant, les puces à SNP, bien que relativement rapides et peu coûteuses, présentent également des inconvénients majeurs, car les variants nouveaux ou rares, tels que ceux présents dans les populations peu étudiées (voir ci-dessous), peuvent passer inaperçus.
Une approche rentable pour étudier les marqueurs génétiques
Le séquençage du génome entier à faible couverture (LC-WGS), suivi d'une imputation génotypique, est une méthode qui permet de déduire statistiquement l'ensemble du génome à partir d'un séquençage très limité. Elle a été proposée comme une alternative moins biaisée et plus puissante aux puces SNP (voir encadré), mais son coût informatique élevé l'a empêchée de se généraliser. L'équipe de scientifiques dirigée par Olivier Delaneau, chef de groupe au SIB et à l'UNIL, a développé un logiciel open source, appelé GLIMPSE, qui permet enfin de surmonter ces problèmes. « GLIMPSE offre un cadre 10 à 1 000 fois plus rapide, et donc moins coûteux, que les autres méthodes LC-WGS, tout en étant beaucoup plus précis pour les marqueurs génétiques rares », explique Olivier Delaneau. « GLIMPSE est capable d'améliorer considérablement un génome à faible couverture sur des millions de marqueurs pour moins d'un dollar de coût informatique, ce qui en fait la première véritable alternative aux puces SNP ».
Des données impartiales à des soins de santé impartiaux
Les études d'association pangénomique ont jusqu'à présent principalement porté sur les Européens : 80 % des participants aux GWAS sont des personnes d'origine européenne, alors qu'elles ne représentent que 16 % de la population mondiale. Il s'agit là d'un enjeu éthique important en termes d'inclusivité des soins de santé et d'accès équitable aux bénéfices de la recherche biomédicale, car la manière dont les marqueurs génétiques contribuent à la susceptibilité aux maladies varie selon les populations humaines. Le LC-WGS contourne naturellement le biais inhérent aux ensembles de marqueurs génétiques préétablis (SNP arrays). Il peut donc être appliqué avec succès à des populations sous-représentées, comme le montre cette étude menée sur une population afro-américaine à titre de preuve de concept. « Outre le fait de lever les obstacles financiers pour permettre des études GWAS basées sur le LC-WGS, ce qui est vraiment passionnant dans cette approche, c'est qu'elle permet aux chercheurs de découvrir efficacement des associations dans des populations peu étudiées », explique Simone Rubinacci, chercheur postdoctoral dans le groupe d'Olivier Delaneau et premier auteur de l'article.
Tirer parti des génomes déjà séquencés
« Notre idée de départ était la suivante : pouvons-nous exploiter la richesse des génomes séquencés pour améliorer ceux qui viennent d'être séquencés ? En d'autres termes, faire plus avec moins : c'est exactement ce que fait GLIMPSE », explique Diogo Ribeiro, chercheur postdoctoral dans le groupe d'Olivier Delaneau et coauteur de l'article. Comment cela fonctionne-t-il ? En partant du principe que nous partageons tous des ancêtres communs relativement récents, dont nous avons hérité de petites portions d'ADN. En bref, GLIMPSE exploite de vastes collections de génomes humains qui ont été séquencés avec une grande précision (WGS à haute couverture) afin d'identifier les portions d'ADN communes aux génomes nouvellement séquencés. GLIMPSE peut ainsi combler de manière fiable les lacunes des données à faible couverture.
Un nouveau paradigme pour les futures études génomiques aux applications multiples
Disponible dans le cadre d'une suite d'outils open source, GLIMPSE ouvre la voie à une large adoption du séquençage génomique complet à faible couverture, favorisant ainsi un changement de paradigme dans la génération de données pour les futures études génomiques. Depuis la première version préliminaire du logiciel en avril 2020, des recherches sont déjà en cours pour utiliser cet outil, par exemple pour reconstruire le génome de personnes ayant vécu il y a des milliers d'années à partir d'ADN ancien, ou celui de patients atteints de COVID-19 à partir de prélèvements nasopharyngés de SARS-CoV-2 dans le cadre d'une étude GWAS.
Lire le communiqué de presseen français ou en allemand
Lisez les articles consacrés à cette actualité dans la presse : CQFD RTS (radio, en français) ; Heidi.news (en ligne, en français).