Das Tool MetaGraph kann Millionen von veröffentlichten DNA-, RNA- und Protein-Datensätzen in Sekundenschnelle durchsuchen. Das von Wissenschaftlern des SIB an der ETH Zürich entwickelte Tool überwindet die derzeitigen Grenzen bei der Analyse riesiger Mengen biologischer Sequenzierungsdaten und wird damit die Life-Science-Forschung und biomedizinische Innovationen erheblich beschleunigen. Dieser wichtige Meilenstein in der computergestützten Genomik wurde in Nature veröffentlicht.

Volltextsuche statt Herunterladen ganzer Datensätze

Über 100 Millionen Gigabyte (100 Petabyte) an DNA-, RNA- und Proteinsequenzen sind in öffentlichen Datenbanken auf der ganzen Welt gespeichert – etwa so viel wie der gesamte Text im Internet. Diese riesige Datensammlung ist eine Fundgrube für die Forschung in den Bereichen Krankheitsbehandlung, Ökologie, neue Biotechnologien und mehr. Der Zugriff auf und die Analyse von Daten in dieser Größenordnung stellen jedoch eine große Herausforderung dar. Die derzeitigen Methoden sind oft langsam, erfordern enorme Rechenleistung und andere Ressourcen und sind für Hochdurchsatz-Suchen nicht skalierbar.

MetaGraph überwindet diese Einschränkungen. Das von das SIB Biomedical Informatics Group an der ETH Zürich entwickelte Tool funktioniert wie eine normale Internet-Suchmaschine: Forscher geben den Text einer Sequenz ein und erhalten innerhalb von Sekunden oder Minuten eine Liste aller übereinstimmenden Sequenzen in öffentlichen Sequenzdatenbanken.

Ein Katalysator für biomedizinische Fortschritte

Der in diesem Monat veröffentlichte Nature-Artikel zeigt, dass MetaGraph nicht nur schnell, sondern auch genau und effizient ist. Um seine praktische Anwendbarkeit zu demonstrieren, haben die Autoren das Tool verwendet, um unglaubliche 50 % aller weltweit verfügbaren Sequenzdatensätze aus dem Stammbaum des Lebens zu indexieren – darunter 18 Millionen einzigartige Genom- und Transkriptomproben und 210 Milliarden Aminosäurereste aus dem UniProt-Archiv (UniParc). Laut Gunnar Rätsch soll die verbleibende Hälfte bis Ende des Jahres folgen.

Der Artikel enthält auch praktische Anwendungsfälle, die veranschaulichen, wie eine solche Suche im Petabyte-Maßstab biomedizinische Fortschritte vorantreiben kann, beispielsweise bei der Bekämpfung von Antibiotikaresistenzen. Da MetaGraph als Open Source verfügbar ist, könnte es auch für Pharmaunternehmen interessant sein, die über große Mengen interner Forschungsdaten verfügen.

Eine neuartige Lösung für Sequenzanalysen im Petabereich

MetaGraph indexiert die Daten und präsentiert sie in komprimierter Form. Dies wird mithilfe komplexer mathematischer Graphen erreicht, die die Struktur der Daten verbessern – ähnlich wie Tabellenkalkulationsprogramme wie Excel.

Während die Verwendung von Indizes zur Durchsuchbarkeit großer Datenmengen in der Informatikforschung Standard ist, fügten die Forscher zwei neue Aspekte hinzu: die komplexe Verknüpfung von Rohdaten und Metadaten sowie die Datenkomprimierung um einen Faktor von etwa 300. Ähnlich wie bei einer Buchzusammenfassung enthalten die komprimierten Daten nicht mehr jedes einzelne Wort, aber alle wichtigen Handlungsstränge und Zusammenhänge bleiben erhalten.

Dank dieser Innovationen ist MetaGraph vergleichsweise kostengünstig: Die Darstellung aller öffentlichen biologischen Sequenzen würde auf wenige Computerfestplatten passen, und große Abfragen könnten schon ab 74 Cent pro Megabase kosten. Die Methodik ermöglicht auch Skalierbarkeit, ein entscheidender Vorteil gegenüber anderen DNA-Suchwerkzeugen, die derzeit erforscht werden. Insbesondere kann sich MetaGraph leicht an die aktuellen rasanten Fortschritte bei der Darstellung biologischer Sequenzen anpassen, was seine langfristige Nutzbarkeit gewährleistet.

Reference(s)

Karasikov, M., Mustafa, H., Danciu, D. et al. Effiziente und genaue Suche in Sequenz-Repositorien im Petabyte-Maßstab. Nature ( 2025).