Répondre à des questions biologiques à l'aide de requêtes fédérées dans plusieurs bases de données

« Pour répondre à des questions biologiques complexes, il est souvent nécessaire de combiner des données dispersées sur le web ». Dans cet in silico talk, Tarcisio Mendes de Farias, du SIB à l'Université de Lausanne, présente une approche - et un outil - pour relever ce défi. Baptisée BioQuery, l'interface qu'il a développée avec ses collègues permet aux biologistes d'exécuter rapidement des requêtes prédéfinies en langage naturel sur plusieurs sources de données, à partir d'un point d'entrée unique. Actuellement, l'outil, décrit dans un article publié dans la revue Database, s'appuie sur l'intégration de données provenant de plusieurs bases de données de premier plan, dont les ressources du SIB, et fournit déjà aux utilisateurs de nouvelles informations biologiques.
À propos de la série in silico talks - Les dernières avancées en bioinformatique par les scientifiques du SIB
La série in silico talks a pour but d'informer les bioinformaticiens, les spécialistes des sciences de la vie et les cliniciens des dernières avancées réalisées par les scientifiques du SIB sur un large éventail de sujets liés aux méthodes, à la recherche et aux ressources en bioinformatique. Restez au courant des derniers développements, obtenez des informations exclusives sur les articles récents et découvrez comment ces avancées pourraient vous aider dans votre travail ou votre recherche en vous inscrivant à la liste de diffusion in silico talks.
Les bases de données complexes en bioinformatique contiennent d'énormes quantités de connaissances qui peuvent être récupérées grâce à un savoir-faire technique approfondi. L'étude récente présentée ici permet d'accéder facilement à la richesse des informations complémentaires contenues dans différentes ressources, grâce à des modèles de requêtes modifiables en langage naturel.
Un exemple ? Dans son exposé, Tarcisio prend l'exemple d'une question de recherche typique qu'un biologiste moléculaire étudiant un certain type de cancer du cerveau pourrait se poser : « Quels sont les gènes humains associés à cette maladie, pour lesquels il existe des orthologues chez le rat et qui sont exprimés dans son cerveau ? ».
La réponse à cette question lui permettrait en effet : 1) identifier tous les gènes impliqués dans la maladie chez l'homme - une information disponible dans UniProtKB, 2) trouver quels sont les gènes « correspondants » (orthologues) chez une espèce modèle telle que le rat - une information disponible dans OMA, et à partir de ceux-ci, 3) identifier ceux qui sont spécifiquement exprimés dans son cerveau - une information disponible dans Bgee.
Écoutez Tarcisio présenter l'approche qu'il a adoptée avec ses collègues pour intégrer les données issues de ces différentes ressources, et découvrez l'outil qu'ils ont développé, qui permet aux chercheurs de poser cette même question sans connaissances techniques approfondies et d'obtenir une réponse en peu de temps.
Cette étude a été réalisée dans le cadre du projet BioSODA, soutenu par le Programme national de recherche « Big Data » (PNR 75)
Reference(s)
Sima A C, Mendes de Farias T et al. Permettre les requêtes sémantiques dans les bases de données bioinformatiques fédérées. Base de données (2019).
Mendes de Farias T et al. VoIDext : Vocabulaire et modèles pour améliorer l'interopérabilité des ensembles de données grâce à des liens virtuels. Dans : On the Move to Meaningful Internet Systems : OTM 2019 Conferences. OTM 2019. Lecture Notes in Computer Science, vol. 11877. Springer, Cham.