Lo strumento MetaGraph è in grado di effettuare ricerche in milioni di record pubblicati relativi a DNA, RNA e proteine in pochi secondi. Sviluppato dagli scienziati al SIB presso il Politecnico federale di Zurigo, lo strumento supera gli attuali limiti nell'analisi di grandi volumi di dati di sequenziamento biologico, accelerando in modo significativo la ricerca nel campo delle scienze della vita e l'innovazione biomedica. Questo importante traguardo nel campo della genomica computazionale è stato pubblicato su Nature.

Ricerca full-text invece di scaricare interi set di dati

Oltre 100 milioni di gigabyte (100 petabyte) di sequenze di DNA, RNA e proteine sono archiviati in banche dati pubbliche in tutto il mondo, una quantità pari a quella di tutti i testi presenti su Internet. Questa vasta raccolta di dati è una miniera d'oro per la ricerca nel campo delle cure mediche, dell'ecologia, delle nuove biotecnologie e altro ancora. Tuttavia, accedere e analizzare dati su questa scala rappresenta una sfida importante. I metodi attuali sono spesso lenti, richiedono un'enorme potenza di calcolo e altre risorse e non sono sufficientemente scalabili per ricerche ad alta produttività.

MetaGraph supera queste limitazioni. Sviluppato dal gruppo Biomedical Informatics del SIB dell'ETH di Zurigo, lo strumento funziona allo stesso modo di un normale motore di ricerca su Internet: i ricercatori inseriscono il testo di una sequenza e, in pochi secondi o minuti, ottengono un elenco di tutte le sequenze corrispondenti presenti nelle banche dati pubbliche.

Un catalizzatore per i progressi nel campo biomedico

L'articolo pubblicato questo mese su Nature dimostra che MetaGraph non è solo veloce, ma anche accurato ed efficiente. Per dimostrarne la fattibilità pratica, gli autori hanno utilizzato lo strumento per indicizzare ben la metà di tutti i set di dati di sequenze disponibili in tutto il mondo, nell'ambito dell'albero della vita, comprendenti 18 milioni di campioni unici di genomi e trascrittomi e 210 miliardi di residui amminoacidici provenienti dall'archivio UniProt (UniParc). Secondo Gunnar Rätz, la restante metà dovrebbe seguire entro la fine dell'anno.

L'articolo fornisce anche casi d'uso pratici per illustrare come una ricerca su scala petabase possa catalizzare i progressi biomedici, come la lotta alla resistenza antimicrobica. Dato che MetaGraph è disponibile come open source, potrebbe anche essere di interesse per le aziende farmaceutiche che dispongono di grandi quantità di dati di ricerca interni.

Una soluzione innovativa per analisi di sequenze su scala peta

MetaGraph funziona indicizzando i dati e presentandoli in forma compressa. Ciò è possibile grazie all'uso di complessi grafici matematici che migliorano la struttura dei dati, in modo simile ai programmi di foglio elettronico come Excel.

Sebbene l'uso di indici per rendere ricercabili grandi quantità di dati sia una pratica standard nella ricerca informatica, i ricercatori hanno aggiunto due nuovi aspetti: il collegamento complesso di dati grezzi e metadati e la compressione dei dati di circa 300 volte. Analogamente al riassunto di un libro, i dati compressi non contengono più ogni singola parola, ma tutte le trame principali e le connessioni rimangono intatte.

Grazie a queste innovazioni, MetaGraph è relativamente conveniente: la rappresentazione di tutte le sequenze biologiche pubbliche potrebbe stare su pochi dischi rigidi di computer e le query di grandi dimensioni potrebbero costare solo 74 centesimi per megabase. La metodologia consente anche la scalabilità, un vantaggio chiave rispetto ad altri strumenti di ricerca del DNA attualmente in fase di studio. In particolare, MetaGraph può facilmente adattarsi ai rapidi progressi attuali nella rappresentazione delle sequenze biologiche, garantendo la sua utilità a lungo termine.

Reference(s)

Karasikov, M., Mustafa, H., Danciu, D. et al. Ricerca efficiente e accurata in archivi di sequenze su scala petabyte. Nature ( 2025).