Tausende genetische Marker wurden bereits eindeutig mit komplexen menschlichen Merkmalen wie Alzheimer, Krebs, Fettleibigkeit oder Körpergröße in Verbindung gebracht. Um diese Zusammenhänge zu entdecken, müssen Forscher die Genome vieler Menschen an Millionen von genetischen Positionen oder Markern vergleichen und benötigen daher kostengünstige Genotypisierungstechnologien. Eine neue statistische Methode, die von der Gruppe um Olivier Delaneau am SIB Swiss Institute of Bioinformatik und der Universität Lausanne (UNIL) entwickelt wurde, bietet bahnbrechende Möglichkeiten. Für weniger als 1 US-Dollar an Rechenkosten kann GLIMPSE aus einer sehr geringen Datenmenge statistisch ein vollständiges menschliches Genom ableiten. Die Methode bietet eine erste realistische Alternative zu aktuellen Ansätzen, die auf einem vordefinierten Satz genetischer Marker basieren, und ermöglicht so eine breitere Einbeziehung unterrepräsentierter Bevölkerungsgruppen. Die Studie, die einen Paradigmenwechsel für die Datengenerierung in der biomedizinischen Forschung nahelegt, wurde in Nature Genetics veröffentlicht.
Genotypisierung und genetische Assoziationsstudien
Genetische Marker sind sehr kurze DNA-Sequenzen im Genom, wie beispielsweise Einzelnukleotid-Polymorphismen (SNP), von denen bekannt ist, dass sie sich zwischen Individuen unterscheiden. Das Verfahren zu ihrer Bestimmung bei einem Individuum wird als Genotypisierung bezeichnet. Bislang stützte sich die Genotypisierung hauptsächlich auf die SNP-Array-Technologie, die auf vordefinierte Markerpanels abzielt. Solche vordefinierten Markersätze werden routinemäßig verwendet, um in genomweiten Assoziationsstudien (GWAS), die medizinische Daten und genetische Informationen von Tausenden von Teilnehmern enthalten, Zusammenhänge zwischen genetischen Markern und komplexen Merkmalen zu finden. SNP-Arrays sind zwar relativ schnell und kostengünstig, haben jedoch auch erhebliche Nachteile, da neue oder seltene Varianten, wie sie beispielsweise in wenig untersuchten Populationen vorkommen (siehe unten), unentdeckt bleiben können.
Ein kostengünstiger Ansatz zur Untersuchung genetischer Marker
Die Low-Coverage-Whole-Genome-Sequenzierung (LC-WGS) mit anschließender Genotyp-Imputation ist eine Methode, mit der sich aus einem sehr geringen Sequenzierungsaufwand statistisch ein gesamtes Genom ableiten lässt. Sie wurde als weniger verzerrte und leistungsfähigere Alternative zu SNP-Arrays (siehe Kasten) vorgeschlagen, konnte sich jedoch aufgrund der hohen Rechenkosten nicht als weit verbreitete Alternative durchsetzen. Das Wissenschaftlerteam unter der Leitung von Olivier Delaneau, Gruppenleiter bei SIB und UNIL, hat eine Open-Source-Software namens GLIMPSE entwickelt, die diese Probleme endlich überwindet. „GLIMPSE bietet einen Rahmen, der 10- bis 1000-mal schneller und damit kostengünstiger ist als andere LC-WGS-Methoden und gleichzeitig viel genauer für seltene genetische Marker“, erklärt Olivier Delaneau. „GLIMPSE ist in der Lage, ein Genom mit geringer Abdeckung an Millionen von Markern für weniger als 1 US-Dollar an Rechenkosten erheblich zu verbessern und ist damit die erste echte Alternative zu SNP-Arrays.“
Von unvoreingenommenen Daten zu einer unvoreingenommenen Gesundheitsversorgung
Genomweite Assoziationsstudien haben sich bislang hauptsächlich auf Europäer konzentriert: 80 % aller GWAS-Teilnehmer sind Personen europäischer Abstammung, obwohl diese nur 16 % der Weltbevölkerung ausmachen. Dies ist eine wichtige ethische Frage im Hinblick auf die Inklusivität im Gesundheitswesen und den gleichberechtigten Zugang zu den Vorteilen der biomedizinischen Forschung, da genetische Marker je nach Bevölkerungsgruppe unterschiedlich zur Anfälligkeit für Krankheiten beitragen. LC-WGS umgeht auf natürliche Weise die Verzerrung, die mit vorab festgelegten Sätzen von genetischen Markern (SNP-Arrays) verbunden ist. Es kann daher erfolgreich auf unterrepräsentierte Bevölkerungsgruppen angewendet werden, wie in dieser Studie für eine afroamerikanische Bevölkerungsgruppe als Proof-of-Concept gezeigt wurde. „Neben der Überwindung der finanziellen Hürden für GWAS-Studien auf Basis von LC-WGS ist das wirklich Spannende an diesem Ansatz, dass er es Forschern ermöglicht, effizient Zusammenhänge in bisher wenig untersuchten Bevölkerungsgruppen aufzudecken“, sagt Simone Rubinacci, Postdoktorand in der Gruppe von Olivier Delaneau und Erstautor der Studie.
Nutzung bereits sequenzierter Genome
„Unser ursprünglicher Gedanke war: Können wir den Reichtum an sequenzierten Genomen nutzen, um neu sequenzierte Genome zu verbessern? Mit anderen Worten: mehr für weniger – genau das ist es, was GLIMPSE leistet“, erklärt Diogo Ribeiro, Postdoktorand in der Gruppe von Olivier Delaneau und Mitautor der Studie. Wie funktioniert das? Ausgehend von der Idee, dass wir alle relativ junge gemeinsame Vorfahren haben, von denen wir kleine Teile unserer DNA geerbt haben. Kurz gesagt, GLIMPSE durchsucht große Sammlungen von menschlichen Genomen, die sehr genau sequenziert wurden (High-Coverage-WGS), um DNA-Abschnitte zu identifizieren, die mit neu sequenzierten Genomen übereinstimmen. Auf diese Weise kann GLIMPSE die Lücken in den Daten mit geringer Abdeckung zuverlässig füllen.
Ein neues Paradigma für zukünftige Genomstudien mit weitreichenden Anwendungsmöglichkeiten
GLIMPSE wird als Teil einer Open-Source-Toolsuite zur Verfügung gestellt und ebnet den Weg für eine breite Anwendung von WGS mit geringer Abdeckung, wodurch ein Paradigmenwechsel in der Datengenerierung für zukünftige Genomstudien gefördert wird. Seit der ersten Veröffentlichung der Software als Preprint im April 2020 wird das Tool bereits in laufenden Forschungsprojekten eingesetzt, beispielsweise zur Rekonstruktion der Genome von Menschen, die vor Tausenden von Jahren gelebt haben, anhand von alter DNA oder von COVID-19-Patienten anhand von SARS-CoV-2-Nasopharynxabstrichen im Rahmen einer GWAS-Studie.
Lesen Sie die Pressemitteilungauf Französisch oder Deutsch
Lesen Sie die Berichterstattung zu dieser Geschichte in der Presse: CQFD RTS (Radio, auf Französisch); Heidi.news (online, auf Französisch).