L'espressione o meno di un gene in un organismo dipende da una serie di processi interdipendenti. Tra questi, il legame di un fattore di trascrizione a una breve sequenza genomica, denominata appropriatamente "motivo di legame del fattore di trascrizione" o TFBM, avvia la trascrizione. Poiché i dati sperimentali non sono sempre disponibili, i modelli computazionali aiutano i ricercatori a prevedere la posizione e la sequenza di questi siti di legame nei genomi. Ma quanto sono efficaci questi modelli? Per rispondere a questa domanda, un team internazionale guidato da ricercatori al SIB, dell'EPFL e dell'Accademia Russa delle Scienze ha intrapreso uno studio comparativo completo.
Affrontare la "maledizione della scelta" dei ricercatori
"I ricercatori oggi si trovano di fronte a una vera e propria 'maledizione della scelta': esistono fino a 10 motivi alternativi, e spesso dissimili, per lo stesso fattore di trascrizione", afferma Philipp Bucher, responsabile del gruppo al SIB e coautore dello studio. "La necessità di informazioni affidabili sull'accuratezza dei modelli che prevedono i siti di legame dei fattori di trascrizione è quindi ancora più urgente".
In un articolo pubblicato su Genome Biology, gli scienziati hanno affrontato la questione dell'accuratezza dei motivi di legame dei fattori di trascrizione confrontando 4972 motivi provenienti da tre diverse risorse su 3161 set di dati sperimentali relativi ai fattori di trascrizione umani generati con tre diverse tecnologie.

Risultati e protocolli in libero accesso
La serie completa di oltre 15 milioni di valori prestazionali risultanti da questo studio di benchmarking "tutti contro tutti" è disponibile gratuitamente nell'archivio ad accesso libero Zenodo. Per facilitare la riproducibilità computazionale, i protocolli di benchmarking sono stati containerizzati come immagini docker e resi disponibili al pubblico su GitHub.
Verso una migliore previsione degli effetti delle mutazioni sulle malattie
I risultati di questo studio aiuteranno i ricercatori a valutare criticamente le ricerche pubblicate basate sulle previsioni dei siti di legame dei fattori di trascrizione. Consentiranno inoltre di selezionare sottoinsiemi di motivi ottimali per casi d'uso particolari. «A lungo termine, speriamo che i protocolli computazionali sviluppati per il nostro lavoro di benchmarking portino a un miglioramento significativo degli strumenti di bioinformatica per prevedere gli effetti delle mutazioni genetiche regolatorie in vari contesti patologici», conclude Bucher.
Reference(s)
Ambrosini G et al. Approfondimenti ottenuti da uno studio comparativo completo sui motivi di legame dei fattori di trascrizione. Genome Biology, 11 maggio 2020