Un collettivo scientifico, guidato dall'Earth BioGenome Project, mira a sequenziare e assemblare i genomi di 1,8 milioni di specie animali, vegetali e altri eucarioti entro il 2035. L'iniziativa produrrà dati liberamente accessibili, supportati da infrastrutture cloud pubbliche e disponibili per i ricercatori di tutto il mondo. Questi genomi di riferimento sono fondamentali per sviluppare strategie di conservazione efficaci e combattere il declino della biodiversità. Il SIB contribuisce con la sua vasta esperienza nella scienza dei dati per garantire lo sviluppo delle migliori pratiche, la fornitura di infrastrutture computazionali, la diffusione dei risultati e la formazione.
Sequenziamento per preservare meglio la biodiversità
Negli ultimi anni la biodiversità sta diminuendo a un ritmo allarmante, principalmente a causa delle attività umane. La produzione del genoma di riferimento di una specie offre le basi per acquisire conoscenze preziose sulla sua storia evolutiva, sulla diversità genetica e sugli adattamenti unici. Queste informazioni sono fondamentali per sviluppare strategie di conservazione più efficaci, come l'identificazione di individui geneticamente rilevanti per i programmi di riproduzione, il ripristino della diversità genetica e la comprensione delle vulnerabilità alle malattie e ai cambiamenti ambientali.
Il Progetto Earth BioGenome (EBP) mira a sequenziare, catalogare e caratterizzare i genomi di tutta la biodiversità eucariotica della Terra. Per ottimizzare i processi di assemblaggio del genoma e definire le migliori pratiche, due progetti sul genoma – il Vertebrate Genomes Project (VGP) e European Reference Genome Atlas (ERGA) – hanno unito le forze con la piattaforma Galaxy. In qualità di uno dei partner coordinatori, il gruppo di Environmental Bioinformatics del SIB offre la propria esperienza nello sviluppo delle migliori pratiche, nella fornitura di infrastrutture computazionali, nella diffusione e nella formazione.
Informazioni sul framework Galaxy
Galaxy è una piattaforma open source basata sul web per l'analisi di dati biologici che consente agli utenti di eseguire flussi di lavoro complessi su migliaia di set di dati e terabyte di informazioni tramite un'interfaccia grafica utente o in modo programmatico tramite script di interfaccia di programmazione delle applicazioni. Le principali istanze Galaxy globali negli Stati Uniti, nell'Unione Europea e in Australia sono liberamente accessibili ai ricercatori di tutto il mondo e supportate da infrastrutture cloud pubbliche, in modo che gli utenti non debbano installare alcun strumento né procurarsi alcuna infrastruttura.
Una pipeline per democratizzare la genomica della biodiversità
I ricercatori si sono riuniti per sviluppare una pipeline digitale all'interno dell'ecosistema Galaxy, una piattaforma open source per l'analisi dei dati FAIR, al fine di generare assemblaggi genomici di riferimento quasi completi. Per semplificare il processo di assemblaggio e garantire la qualità, questo flusso di lavoro bioinformatica include funzioni di controllo qualità estese in ogni fase. In futuro, l'integrazione di tecnologie di sequenziamento complementari renderà la pipeline ancora più efficace nella generazione di genomi di riferimento completi e accurati per un'ampia varietà di specie.
Informazioni sul framework Galaxy
Galaxy è una piattaforma open source basata sul web per l'analisi di dati biologici che consente agli utenti di eseguire flussi di lavoro complessi su migliaia di set di dati e terabyte di informazioni tramite un'interfaccia grafica utente o in modo programmatico tramite script di interfaccia di programmazione delle applicazioni. Le principali istanze Galaxy globali negli Stati Uniti, nell'Unione Europea e in Australia sono liberamente accessibili ai ricercatori di tutto il mondo e supportate da infrastrutture cloud pubbliche, in modo che gli utenti non debbano installare alcun strumento né procurarsi alcuna infrastruttura.
In una recente pubblicazione, gli autori descrivono l'approccio come progettato per essere utile a tutti i livelli di competenza degli utenti e in tutti gli scenari di analisi. A tal fine, hanno creato tutorial dedicati distribuiti tramite il portale Galaxy Training Network. Questi tutorial forniscono una panoramica approfondita del processo di assemblaggio e includono una versione semplificata progettata per facilitare l'uso immediato dei flussi di lavoro.
Per Robert Waterhouse, direttore del gruppo di Environmental Bioinformatics al SIB e presidente dell'ERGA, questa collaborazione "ha riunito bioinformatici ed esperti di genomica per costruire flussi di lavoro all'avanguardia nell'assemblaggio e nel controllo di qualità del genoma e renderli liberamente accessibili ai ricercatori di tutto il mondo".
Reference(s)
Larivière, D., Abueg, L., Brajuka, N. et al. Assemblaggio e valutazione del genoma di riferimento scalabile, accessibile e riproducibile in Galaxy. Nat Biotechnol 42, 367–370 (2024).
Didascalia dell'immagine: Albero filogenetico e statistiche di assemblaggio dei genomi assemblati utilizzando la pipeline di assemblaggio Galaxy.