L'epigenomica, lo studio dell'insieme completo delle modificazioni epigenetiche sul materiale genetico di una cellula, ha subito una profonda rivoluzione dei big data negli ultimi anni. Per consentire la ricerca e le scoperte a valle sfruttando al meglio i dati generati, il gruppo di lavoroEpigenomics mira a proporre raccomandazioni su come raggiungere gli obiettivi dei principi FAIR, dalla visualizzazione dei dati all'annotazione dei metadati e al benchmarking degli strumenti di analisi. Il gruppo riunisce membri del SIB provenienti da una vasta gamma di discipline quali l'epigenetica, la trascrittomica, le strutture centrali e il benchmarking.

Promuovere l'uso e l'analisi dei dati liberamente disponibili attraverso i principi FAIR

Le nuove tecnologie di sequenziamento ad alta velocità hanno rivoluzionato il campo dell'epigenomica, a partire da circa 15 anni fa. Test come ChIP-seq, ATAC-seq, MNase-seq o CAGE-seq producono mappe genomiche dei siti di legame dei fattori di trascrizione, delle modificazioni post-traduzionali degli istoni, delle regioni cromatiniche aperte, dei nucleosomi e dei siti di inizio della trascrizione con una risoluzione pari o vicina alla coppia di basi. Di conseguenza, eventi di regolazione genica precedentemente nascosti che avvengono lungo i cromosomi sono diventati improvvisamente visibili. È già stata generata un'incredibile quantità di dati pubblici, che continua a crescere in modo esponenziale. Nonostante l'accesso illimitato ai dati, questi sono ancora fortemente sottoutilizzati e sottoanalizzati. L'attenzione di questo gruppo si concentra quindi su questioni relative all'usabilità, all'interoperabilità, alla visualizzazione e alla riproducibilità dei dati, in breve sui principi FAIR. Le tre aree descritte di seguito saranno considerate prioritarie.

Informazioni sui focus group al SIB

I focus group mirano a promuovere lo scambio di conoscenze e la collaborazione nella comunità dei 900 membri Il SIB su argomenti scientifici specifici e/o trasversali, dal sequenziamento di singole cellule all'uguaglianza, alla diversità e all'inclusione. Visualizza tutti i focus group

Visualizzazione dei dati, un'iniziativa dell'hub SIB Epigenomics Track

I biologi che studiano la regolazione genica sono spesso interessati solo a regioni genomiche molto ristrette, all'interno delle quali devono accedere ed esplorare diversi tipi di dati provenienti da molti laboratori diversi. E, se possibile, con pochi clic del mouse. Purtroppo, i dati epigenomici pubblici sono organizzati in modo tale da rendere difficile questo compito. Si presentano sotto forma di file enormi contenenti dati relativi all'intero genoma, ma provenienti da un unico esperimento. Per ovviare a questo ostacolo, il gruppo sostiene la possibilità di rendere i dati epigenomici visualizzabili tramite gli hub di tracciamentoUCSC, parallelamente al deposito dei dati grezzi in un archivio pubblico. Gli hub di tracciamento, in combinazione con i formati Big Data indicizzati, consentono un'integrazione facile e rapida dei dati provenienti da tutto il mondo in un'unica finestra del browser. L'iniziativa proposta mira a incoraggiare i ricercatori svizzeri nel campo dell'epigenomica a rendere disponibili i propri dati come track hub, fornendo consulenza e supporto tecnico attraverso la formazione e il trasferimento di know-how da persona a persona. Poiché le strutture centrali di bioinformatica potrebbero potenzialmente svolgere un ruolo fondamentale in questo sforzo, il gruppo sta cercando di stabilire collaborazioni con tali entità.

Combattere la crisi dei metadati con raccomandazioni per l'annotazione dei campioni

I dati epigenomici sono facilmente accessibili, i formati utilizzati sono generalmente standardizzati ed esiste già una vasta gamma di metodi e risorse software potenti per analizzare i dati. Tuttavia, esistono notevoli carenze e disparità per quanto riguarda la qualità e la completezza dei metadati. E senza sapere con certezza cosa rappresentano i dati contenuti in un determinato file, non è possibile ottenere alcuna informazione biologica, nemmeno con gli algoritmi più sofisticati. "La crisi dei metadati è dovuta, da un lato, alla mancanza di incentivi per i produttori di dati ad annotare correttamente i propri dati e, dall'altro, a controlli di qualità insufficienti e a sforzi di curazione dei dati lungo i canali di diffusione dei dati, ad esempio da parte del personale dei repository di dati o degli editori di riviste", spiega Philipp Bucher, presidente del Focus Group. La situazione è ulteriormente aggravata dalla scarsità o dall'assenza di standard di rappresentazione dei metadati (ontologie) accettati dalla comunità per le regioni genomiche regolatorie e, in misura minore, per i tipi di cellule e le condizioni fisiologiche. Il Focus Group sull'epigenomica mira a diventare un forum per discutere e affrontare le difficoltà in questo settore tra esperti di diversi campi. Un obiettivo specifico è quello di elaborare raccomandazioni per l'annotazione dei set di dati epigenomici ampiamente supportate dai gruppi del SIB e non solo. Poiché molti aspetti della crisi dei metadati nell'epigenomica si estendono ad altri campi dell'omica, in particolare alla trascrittomica, il gruppo accoglie con favore la partecipazione e l'interazione con i produttori di dati, gli utenti di dati e i biocuratori dei campi affini.

Facilitare l'analisi dei dati attraverso il benchmarking, la condivisione dei protocolli e gli strumenti

I ricercatori interessati ad analizzare i propri dati o quelli pubblici si trovano di fronte al paradosso della scelta. Sono già disponibili numerosi programmi pubblici e risorse web, e ne vengono rilasciati di nuovi continuamente. Come scegliere gli strumenti di bioinformatica migliori per un determinato compito? Testare un nuovo metodo è spesso un'operazione che richiede molto tempo e che può portare a risultati deludenti. L'attenzione del gruppo in questo settore è rivolta al benchmarking e allo scambio di esperienze dirette tra gli utenti di strumenti di bioinformatica, sia a livello di singole fasi di elaborazione (ad esempio, individuazione dei picchi) che di pipeline di analisi complete (ad esempio, dalla lettura delle sequenze alla rete di regolazione genica). Vengono inoltre discussi temi relativi alla riproducibilità computazionale e alla corretta implementazione dei flussi di lavoro. L'obiettivo è quello di creare una comunità di persone interessate a condividere le loro esperienze e il loro know-how e di costruire un'infrastruttura a questo scopo. Ciò può includere la creazione di set di dati di riferimento e l'organizzazione di eventi di benchmarking, oltre all'utilizzo di mezzi di comunicazione standard come teleconferenze o mailing list. In questo ambito è incoraggiata la partecipazione e l'interazione con esperti di altri settori, come il benchmarking e la riproducibilità computazionale.

Membri coordinatori del Focus Group:

Sei un membro del SIB e sei interessato a partecipare? Contatta Philipp Bucher.