Rispondere a domande biologiche con query federate su più database
"Se si desidera rispondere a domande biologiche complesse, spesso è necessario combinare dati sparsi sul web". In questo in silico talk, Tarcisio Mendes de Farias al SIB dell'Università di Losanna presenta un approccio - e uno strumento - per affrontare questa sfida. Chiamata BioQuery, l'interfaccia che ha sviluppato con i suoi colleghi consente ai biologi di eseguire rapidamente query predefinite in linguaggio naturale su più fonti di dati, da un unico punto di accesso. Al momento, lo strumento, descritto in un articolo pubblicato sulla rivista Database, si basa sull'integrazione dei dati provenienti da diversi database leader, tra cui SIB Resources, e fornisce già agli utenti nuove informazioni biologiche.
Informazioni sulla serie di conferenze in silico – Le ultime novità nel campo della bioinformatica dagli scienziati del SIB
La serie di conferenze online in silico talks ha lo scopo di informare bioinformatici, scienziati biologici e medici sugli ultimi progressi compiuti dagli scienziati dello SIB su una vasta gamma di argomenti relativi a metodi, ricerca e risorse nel campo della bioinformatica. Iscriviti alla mailing list di in silico talks per rimanere aggiornato sugli ultimi sviluppi, ottenere approfondimenti esclusivi sui recenti articoli scientifici e scoprire come questi progressi potrebbero aiutarti nel tuo lavoro o nella tua ricerca.
I complessi database di bioinformatica contengono enormi quantità di conoscenze che possono essere recuperate con un approfondito know-how tecnico. Il recente studio qui presentato consente un facile accesso alla ricchezza di informazioni complementari contenute in diverse risorse, attraverso query modificabili in linguaggio naturale.
Un esempio? Nel suo intervento, Tarcisio prende l'esempio di una tipica domanda di ricerca che potrebbe porsi un biologo molecolare che studia un certo tipo di tumore al cervello: "Quali sono i geni umani associati alla malattia, per i quali esistono ortologhi nel ratto e che sono espressi nel suo cervello?
La risposta a questa domanda le consentirebbe infatti di: 1) identificare tutti i geni coinvolti nella malattia nell'uomo - un'informazione disponibile in UniProtKB, 2) scoprire quali sono i geni "corrispondenti" (ortologhi) in una specie modello come il ratto - un'informazione disponibile in OMA, e da questi, 3) identificare quelli che sono specificamente espressi nel suo cervello - un'informazione disponibile in Bgee.
Ascoltate Tarcisio mentre presenta l'approccio che lui e i suoi colleghi hanno adottato per integrare i dati provenienti da queste diverse risorse e vedete in azione lo strumento che hanno sviluppato, che consente ai ricercatori di porre questa stessa domanda senza bisogno di conoscenze tecniche approfondite e di ottenere la risposta in breve tempo.
Lo studio è stato realizzato grazie al progetto BioSODA, sostenuto dal Programma nazionale di ricerca «Big Data» (PNR 75)
Reference(s)
Sima A C, Mendes de Farias T et al. Abilitazione delle query semantiche nei database bioinformatici federati. Database (2019).
Mendes de Farias T et al. VoIDext: Vocabolario e modelli per migliorare l'interoperabilità dei set di dati con collegamenti virtuali. In: Verso sistemi Internet significativi: Conferenze OTM 2019. OTM 2019. Appunti di lezione in Informatica, vol. 11877. Springer, Cham.