Migliaia di marcatori genetici sono già stati associati in modo significativo a tratti umani complessi, come il morbo di Alzheimer, il cancro, l'obesità o l'altezza. Per scoprire queste associazioni, i ricercatori devono confrontare i genomi di molti individui in milioni di posizioni genetiche o marcatori e quindi necessitano di tecnologie di genotipizzazione convenienti. Un nuovo metodo statistico, sviluppato dal gruppo di Olivier Delaneau al SIB Istituto Svizzero di Bioinformatica e all'Università di Losanna (UNIL), offre possibilità rivoluzionarie. Con un costo di calcolo inferiore a 1 dollaro, GLIMPSE è in grado di dedurre statisticamente un genoma umano completo da una quantità molto ridotta di dati. Il metodo offre una prima alternativa realistica agli attuali approcci che si basano su un insieme predefinito di marcatori genetici e consente quindi una più ampia inclusione delle popolazioni sottorappresentate. Lo studio, che suggerisce un cambiamento di paradigma per la generazione di dati nella ricerca biomedica, è pubblicato su Nature Genetics.
Genotipizzazione e studi di associazione genetica
I marcatori genetici sono sequenze di DNA molto brevi nel genoma, come i polimorfismi a singolo nucleotide (SNP), noti per variare da individuo a individuo. La procedura per determinarli per un individuo è chiamata genotipizzazione. Finora, la genotipizzazione si è basata principalmente sulla tecnologia SNP array che prende di mira pannelli predefiniti di marcatori. Tali insiemi di marcatori predefiniti vengono utilizzati abitualmente per trovare associazioni tra marcatori genetici e tratti complessi negli studi di associazione genomica (GWAS), che contengono cartelle cliniche e dati genetici di migliaia di partecipanti. Tuttavia, gli array SNP, sebbene relativamente veloci ed economici, presentano anche importanti svantaggi, poiché le varianti nuove o rare, come quelle presenti in popolazioni poco studiate (leggi sotto), possono passare inosservate.
Un approccio economicamente vantaggioso per l'analisi dei marcatori genetici
Il sequenziamento dell'intero genoma a bassa copertura (LC-WGS) seguito dall'imputazione del genotipo è un metodo che consente di dedurre statisticamente l'intero genoma a partire da un sequenziamento molto limitato. È stato proposto come alternativa meno distorta e più potente agli array SNP (vedi riquadro), ma il suo elevato costo computazionale ne ha impedito una diffusione su larga scala. Il team di scienziati guidato da Olivier Delaneau, Group Leader al SIB e UNIL, ha sviluppato un software open source, chiamato GLIMPSE, che finalmente supera questi problemi. «GLIMPSE fornisce un framework che è da 10 a 1000 volte più veloce, e quindi più economico, rispetto ad altri metodi LC-WGS, pur essendo molto più accurato per i marcatori genetici rari», spiega Olivier Delaneau. "GLIMPSE è in grado di migliorare notevolmente un genoma a bassa copertura su milioni di marcatori con un costo computazionale inferiore a 1 dollaro, rendendolo la prima vera alternativa agli array SNP".
Da dati imparziali a un'assistenza sanitaria imparziale
Gli studi di associazione genomica hanno finora riguardato principalmente gli europei: l'80% dei partecipanti ai GWAS sono individui di origine europea, che tuttavia rappresentano solo il 16% della popolazione mondiale. Si tratta di una questione etica importante in termini di inclusività sanitaria e accesso equo ai benefici della ricerca biomedica, poiché il modo in cui i marcatori genetici contribuiscono alla suscettibilità alle malattie varia tra le diverse popolazioni umane. L'LC-WGS aggira naturalmente il bias inerente ai set prestabiliti di marcatori genetici (array SNP). Può quindi essere applicato con successo a popolazioni sottorappresentate, come dimostrato in questo studio su una popolazione afroamericana come prova di concetto. "Oltre ad abbattere la barriera finanziaria per consentire studi GWAS basati su LC-WGS, ciò che è davvero entusiasmante di questo approccio è che consente ai ricercatori di scoprire in modo efficiente le associazioni in popolazioni poco studiate", afferma Simone Rubinacci, ricercatore post-dottorato nel gruppo di Olivier Delaneau e primo autore dell'articolo.
Sfruttando i genomi già sequenziati
“Il nostro pensiero iniziale era: possiamo sfruttare la ricchezza dei genomi sequenziati per migliorare quelli appena sequenziati? In altre parole, ottenere di più con meno: questo è esattamente ciò che fa GLIMPSE”, spiega Diogo Ribeiro, ricercatore post-dottorato nel gruppo di Olivier Delaneau e coautore dell'articolo. Come funziona? Partendo dall'idea che tutti condividiamo antenati comuni relativamente recenti, dai quali abbiamo ereditato piccole porzioni del nostro DNA. In breve, GLIMPSE analizza grandi raccolte di genomi umani che sono stati sequenziati in modo molto accurato (WGS ad alta copertura) per identificare porzioni di DNA condivise con genomi appena sequenziati. In questo modo, GLIMPSE è in grado di colmare in modo affidabile le lacune nei dati a bassa copertura.
Un nuovo paradigma per i futuri studi genomici con applicazioni di ampia portata
Disponibile come parte di una suite di strumenti open source, GLIMPSE apre la strada all'adozione su larga scala del WGS a bassa copertura, promuovendo un cambiamento paradigmatico nella generazione di dati per i futuri studi genomici. Dalla prima versione del software come preprint nell'aprile 2020, la ricerca in corso ha già iniziato a utilizzare lo strumento, ad esempio per ricostruire i genomi di persone vissute migliaia di anni fa a partire da DNA antico, o di pazienti COVID-19 a partire da tamponi nasofaringei SARS-CoV-2 nell'ambito di uno studio GWAS.
Leggi il comunicato stampain francese o tedesco
Leggi la copertura di questa notizia sulla stampa: CQFD RTS (radio, in francese); Heidi.news (online, in francese).