Beantwortung biologischer Fragen mit föderierten Abfragen über Datenbanken hinweg

«Um komplexe biologische Fragen zu beantworten, muss man oft Daten kombinieren, die über das Internet verstreut sind.» In diesem in silico talk präsentiert Tarcisio Mendes de Farias von der SIB an der Universität Lausanne einen Ansatz – und ein Tool – für diese Herausforderung. Die von ihm und seinen Kollegen entwickelte Schnittstelle namens BioQuery ermöglicht es Biologen, vordefinierte Abfragen in natürlicher Sprache schnell und über mehrere Datenquellen hinweg von einem einzigen Einstiegspunkt aus durchzuführen. Derzeit stützt sich das Tool, das in einem Artikel in der Fachzeitschrift Database beschrieben wird, auf die Integration von Daten aus mehreren führenden Datenbanken, darunter SIB Resources, und liefert den Nutzern bereits neue biologische Erkenntnisse.
Über die in silico talks-Reihe - Das Neueste aus der Bioinformatik von SIB-Wissenschaftlern
Mit der Online-Reihe in silico talks möchten wir Bioinformatiker, Biowissenschaftler und Kliniker über die neuesten Fortschritte der SIB-Wissenschaftler zu einem breiten Spektrum von Bioinformatik-Methoden, -Forschung und -Ressourcen informieren. Bleiben Sie auf dem Laufenden, erhalten Sie exklusive Einblicke in die neuesten Veröffentlichungen und erfahren Sie, wie diese Fortschritte Ihnen bei Ihrer Arbeit oder Forschung helfen können, indem Sie sich in die in silico talks-Mailingliste eintragen.
Komplexe Datenbanken der Bioinformatik enthalten enorme Mengen an Wissen, das mit fundiertem technischem Know-how abgerufen werden kann. Die hier vorgestellte aktuelle Studie ermöglicht einen einfachen Zugang zu den vielfältigen ergänzenden Informationen, die in verschiedenen Ressourcen enthalten sind, und zwar durch editierbare Abfragevorlagen in natürlicher Sprache.
Ein Beispiel? In seinem Vortrag nimmt Tarcisio das Beispiel einer typischen Forschungsfrage, die sich ein Molekularbiologe stellen könnte, der eine bestimmte Art von Hirntumor untersucht: „Welche menschlichen Gene sind mit dieser Krankheit assoziiert, für welche Orthologe gibt es bei Ratten und welche davon werden im Gehirn exprimiert?“.
Die Antwort auf diese Frage würde es ihr ermöglichen: 1) alle Gene zu identifizieren, die an der Krankheit beim Menschen beteiligt sind – eine Information, die in UniProtKB verfügbar ist, 2) herauszufinden, welche die „entsprechenden” (orthologen) Gene in einer Modellspezies wie der Ratte sind – eine Information, die in OMA verfügbar ist, und daraus 3) diejenigen zu identifizieren, die spezifisch in ihrem Gehirn exprimiert werden – eine Information, die in Bgee verfügbar ist.
Hören Sie Tarcisio zu, wie er den Ansatz vorstellt, den er und seine Kollegen gewählt haben, um die Daten aus diesen verschiedenen Quellen zu integrieren, und sehen Sie das von ihnen entwickelte Tool in Aktion, mit dem Forscher ohne tiefgreifende technische Kenntnisse genau diese Frage stellen und in kurzer Zeit eine Antwort erhalten können.
Die Studie wurde im Rahmen des BioSODA-Projekts durchgeführt, das vom Nationalen Forschungsprogramm «Big Data» (NRP75) unterstützt wird
Reference(s)
Sima A C, Mendes de Farias T et al. Ermöglichen semantischer Abfragen über verbundene Bioinformatik-Datenbanken hinweg. Datenbank (2019).
Mendes de Farias T et al. VoIDext: Vokabular und Muster zur Verbesserung interoperabler Datensätze mit virtuellen Verknüpfungen. In: Auf dem Weg zu sinnvollen Internetsystemen: OTM 2019-Konferenzen. OTM 2019. Vorlesungsskript in Informatik, Band 11877. Springer, Cham.