Il SIB Resource Bgee è un database che consente di recuperare e confrontare i modelli di espressione genica di diverse specie animali. Fornisce una risposta intuitiva alla domanda "dove viene espresso un gene?" e supporta la ricerca nel campo del cancro e dell'agricoltura, nonché della biologia evolutiva. In occasione della sua ultima versione, Marc Robinson-Rechavi e Frédéric Bastian, co-responsabili del team Bgee, ci raccontano come il database si è evoluto nel corso degli anni e ci illustrano alcune delle sue caratteristiche più recenti e gli sviluppi futuri.

Cos'è Bgee?

Frédéric Bastian: Bgee è un atlante integrato e di curazione che ci permette di recuperare i modelli di espressione genica in diverse specie animali e di fare trascrizione comparativa. Dà una risposta intuitiva alla domanda "dove si esprime un gene?" Una caratteristica importante di Bgee è che si basa esclusivamente sui dati curati relativi all'espressione genica di individui selvatici sani (ad esempio, non include dati relativi a knock-out genici, trattamenti o malattie) per fornire una base di riferimento comparabile dell'espressione genica normale.

Come può essere utilizzato Bgee nella ricerca?

Frédéric Bastian: Le sue applicazioni spaziano dal recupero di informazioni su un singolo gene agli studi di genomica funzionale che analizzano le funzioni normali dei geni o l'evoluzione dell'espressione genica. Viene anche utilizzato nella ricerca sul cancro per caratterizzare l'espressione genica sana e nel settore agricolo, ad esempio per studiare le variazioni dell'espressione genica tra diverse razze di animali da allevamento.

Puoi citare un esempio particolarmente interessante di uno studio che utilizza Bgee?

Marc Robinson-Rechavi: Un articolo pubblicato su NAR nel 2020 ha utilizzato Bgee per studiare come l'espressione genica fosse presumibilmente controllata nell'antenato di tutte le specie vertebrate. Alcune delle conclusioni, come l'importanza degli elementi regolatori conservati coinvolti nello sviluppo del sistema nervoso, sono state tratte grazie agli strumenti unici forniti da Bgee. In particolare, i confronti dell'espressione genica consentono di studiare i modelli di espressione genica tra le specie, e TopAnat è uno strumento che permette di eseguire analisi di arricchimento simili ai test di arricchimento della gene ontology utilizzando termini anatomici mappati ai geni in base ai modelli di espressione. L'approccio utilizzato in questo studio potrebbe, ad esempio, aiutare a stabilire le priorità delle varianti di sequenza nelle sequenze genomiche complete dei pazienti affetti da malattie genetiche.

Dalla versione 1 alla versione 14: quali sono le principali modifiche apportate a Bgee dal suo lancio?

Marc Robinson-Rechavi: La parola chiave in questo caso è integrazione dei dati. Nella sua versione iniziale, Bgee includeva dati EST (Expressed Sequence Tags) relativi a sole quattro specie. Da allora, è cresciuto fino a includere dati RNA-Seq, Affymetrix e di ibridazione in situ relativi a 29 specie. Ciò è stato possibile grazie all'approccio unico di Bgee, che integra e armonizza i set di dati, rendendoli comparabili tra esperimenti e specie.

Frédéric Bastian: Sebbene originariamente accessibile solo attraverso il suo sito web, volevamo rendere possibile l'integrazione di Bgee nelle pipeline di analisi a valle. Abbiamo quindi sviluppato diversi pacchetti Bioconductor R e strumenti basati sul web per eseguire analisi di arricchimento dell'espressione genica e recuperare annotazioni dei dati di espressione, consentendo agli utenti di rilevare i geni attivamente espressi nei propri set di dati RNA-Seq o scRNA-Seq. Riteniamo che questi sviluppi rendano Bgee uno strumento davvero versatile, che può essere utilizzato per rispondere a nuove domande di ricerca utilizzando analisi dell'espressione genica in un'ampia gamma di specie animali.

Cosa differenzia Bgee da altre risorse simili?

Marc Robinson-Rechavi: Bgee si differenzia dalle altre risorse perché integra completamente i dati provenienti da più set di dati e più tecnologie utilizzando metodi qualitativi (chiamate di presenza/assenza di espressione) e quantitativi (statistiche non parametriche che producono "punteggi" di espressione); insieme forniscono un'unica risposta alla domanda "dove viene espresso questo gene?"

Inoltre, sono state curate le relazioni di omologia anatomica tra le specie per consentire il confronto dell'espressione genica tra specie diverse: le informazioni sull'espressione genica nel polmone umano sono ora comparabili a quelle sulla vescica natatoria del pesce zebra. Ciò è essenziale non solo per studiare l'evoluzione dei geni, ma anche in altri campi come le applicazioni biomediche.

Qual è attualmente la funzionalità più interessante di Bgee?

Frédéric Bastian: Sicuramente lo strumento di confronto dell'espressione genica! Utilizzando la curazione dell'omologia anatomica negli animali, questa funzione consente il confronto automatico dell'espressione genica all'interno e tra le specie. L'utente può inserire un elenco di geni e Bgee identificherà le condizioni in cui l'espressione di un gene è più conservata. Ad esempio, inserendo l'elenco degli ortologhi del gene cerebrale SRRM4, Bgee identifica correttamente specifiche strutture del sistema nervoso come gli organi con l'espressione più conservata nei vertebrati.

Pensando al futuro: come pensi che continuerà ad evolversi Bgee?

Frédéric Bastian: Il rilascio della versione 15 di Bgee, previsto per aprile 2021, integrerà i dati RNA-Seq a singola cellula (scRNA-Seq), nonché RNA-Seq da altre 60 specie. Si tratta di un passo importante che consentirà un livello di dettaglio senza precedenti nella descrizione dei modelli di espressione genica. I dati di ricerca devono essere interoperabili per far progredire le scienze della vita. Bgee facilita questo processo poiché sia i ricercatori che i set di dati pubblicati traggono vantaggio dai suoi strumenti e dalle sue funzioni di integrazione: i dati rimangono disponibili senza soluzione di continuità per i ricercatori, sia per analisi all'interno di una singola specie, sia per trascrizione comparativa su più specie.

Cosa significa essere una risorsa al SIB?

Marc Robinson-Rechavi: Essendo una risorsa SIB, Bgee beneficia della rete delle migliori risorse individuate e supportate da SIB. Ciò consente lo scambio di dati e conoscenze con risorse importanti, quali UniProtKB/SwissProt, STRING e SwissOrthology. Ha inoltre accesso alla gamma di competenze degli esperti SIB, in particolare nel campo della biocurazione. Bgee beneficia anche del supporto di SIB nel miglioramento dell'esperienza utente, nella diffusione delle informazioni e nella richiesta di sovvenzioni da parte delle principali agenzie di finanziamento.

Frédéric Bastian: Più in generale, promuovendo la sua cultura dell'eccellenza nella scienza dei dati, il SIB motiva il team di Bgee a perseguire il suo obiettivo di produrre risultati di altissimo livello e qualità. Ciò si riflette in modo molto pragmatico nei nostri standard di annotazione, nelle pratiche di codifica e nella garanzia della qualità dei dati.

Quale caratteristica sorprendente vorresti integrare prossimamente in Bgee?

Frédéric Bastian: Uno strumento per eseguire analisi di espressione differenziale sull'integrazione di tutti i dati in Bgee, consentendo il confronto di qualsiasi condizione (ad esempio tipo di dati, specie o tessuto). Con una funzione di questo tipo, sarebbe possibile, ad esempio, recuperare i geni più importanti in un organo rispetto a tutti gli altri organi, o i geni che presentano la maggior parte delle variazioni tra diversi ceppi della stessa specie, oppure studiare i cambiamenti nel livello di espressione durante l'evoluzione genica tra le specie. In realtà abbiamo già qualcosa in cantiere per questo!

Esplora Bgee su EXPASY, il portale delle risorse al SIB 

Reference(s)

Bastian et al., La suite Bgee: atlante integrato e curato dell'espressione genica e trascrittomica comparativa negli animali, Nucleic Acids Research, 2020.