Ein einziger Zugangspunkt zu den umfangreichen Informationen, die in ergänzenden Datenressourcen enthalten sind

Beantwortung biologischer Fragen mit föderierten Abfragen über Datenbanken hinweg

03 Juni 2020

«Um komplexe biologische Fragen zu beantworten, muss man oft Daten kombinieren, die über das Internet verstreut sind.» In diesem in silico talk präsentiert Tarcisio Mendes de Farias von der SIB an der Universität Lausanne einen Ansatz – und ein Tool – für diese Herausforderung. Die von ihm und seinen Kollegen entwickelte Schnittstelle namens BioQuery ermöglicht es Biologen, vordefinierte Abfragen in natürlicher Sprache schnell und über mehrere Datenquellen hinweg von einem einzigen Einstiegspunkt aus durchzuführen. Derzeit stützt sich das Tool, das in einem Artikel in der Fachzeitschrift Database beschrieben wird, auf die Integration von Daten aus mehreren führenden Datenbanken, darunter SIB Resources, und liefert den Nutzern bereits neue biologische Erkenntnisse.

Über die in silico talks-Reihe - Das Neueste aus der Bioinformatik von SIB-Wissenschaftlern

Mit der Online-Reihe in silico talks möchten wir Bioinformatiker, Biowissenschaftler und Kliniker über die neuesten Fortschritte der SIB-Wissenschaftler zu einem breiten Spektrum von Bioinformatik-Methoden, -Forschung und -Ressourcen informieren. Bleiben Sie auf dem Laufenden, erhalten Sie exklusive Einblicke in die neuesten Veröffentlichungen und erfahren Sie, wie diese Fortschritte Ihnen bei Ihrer Arbeit oder Forschung helfen können, indem Sie sich in die in silico talks-Mailingliste eintragen.

Sprecher

Name:

Tarcisio Mendes de Farias

Institute:

SIB Schweizerisches Institut für Bioinformatik

Group:

Vital-IT

Tarcisio Mendes de Farias ist wissenschaftlicher Mitarbeiter im Bgee-Team am SIB Swiss Institute of Bioinformatik. Er hat einen Doktortitel in Informatik im Rahmen eines Industrieprogramms, an dem die Universität Burgund und das Unternehmen ACTIVe3D - Sopra Steria in Frankreich beteiligt waren. Außerdem war er als F&E-Produktmanager bei Dassault Systèmes tätig. Im Jahr 2019 schloss er ein zweieinhalbjähriges Postdoktorat in den Labors von C. Dessimoz und M. Robinson-Rechavi in der Schweiz ab. Er hat einen Master-Abschluss in Informations- und Kommunikationstechnologien der Technischen Universität Compiègne in Frankreich und einen Abschluss in Computertechnik der Universität Pernambuco in Brasilien. Derzeit interessiert er sich vor allem für Forschungsprojekte zu Datenintegration und Interoperabilität in den Lebenswissenschaften, zur Verarbeitung natürlicher Sprache und zu Ontologien zur Beschreibung biologischer und biomedizinischer Kenntnisse.

Video

Duration:

11 Minuten 46 Sekunden

Lizenz:

Dieses Video ist unter der Creative Commons Lizenz CC-BY-4.0 verfügbar

Komplexe Datenbanken der Bioinformatik enthalten enorme Mengen an Wissen, das mit fundiertem technischem Know-how abgerufen werden kann. Die hier vorgestellte aktuelle Studie ermöglicht einen einfachen Zugang zu den vielfältigen ergänzenden Informationen, die in verschiedenen Ressourcen enthalten sind, und zwar durch editierbare Abfragevorlagen in natürlicher Sprache.

Ein Beispiel? In seinem Vortrag nimmt Tarcisio das Beispiel einer typischen Forschungsfrage, die sich ein Molekularbiologe stellen könnte, der eine bestimmte Art von Hirntumor untersucht: „Welche menschlichen Gene sind mit dieser Krankheit assoziiert, für welche Orthologe gibt es bei Ratten und welche davon werden im Gehirn exprimiert?“.

Die Antwort auf diese Frage würde es ihr ermöglichen: 1) alle Gene zu identifizieren, die an der Krankheit beim Menschen beteiligt sind – eine Information, die in UniProtKB verfügbar ist, 2) herauszufinden, welche die „entsprechenden” (orthologen) Gene in einer Modellspezies wie der Ratte sind – eine Information, die in OMA verfügbar ist, und daraus 3) diejenigen zu identifizieren, die spezifisch in ihrem Gehirn exprimiert werden – eine Information, die in Bgee verfügbar ist.

Hören Sie Tarcisio zu, wie er den Ansatz vorstellt, den er und seine Kollegen gewählt haben, um die Daten aus diesen verschiedenen Quellen zu integrieren, und sehen Sie das von ihnen entwickelte Tool in Aktion, mit dem Forscher ohne tiefgreifende technische Kenntnisse genau diese Frage stellen und in kurzer Zeit eine Antwort erhalten können.

Die Studie wurde im Rahmen des BioSODA-Projekts durchgeführt, das vom Nationalen Forschungsprogramm «Big Data» (NRP75) unterstützt wird

Reference(s)

Sima A C, Mendes de Farias T et al. Ermöglichen semantischer Abfragen über verbundene Bioinformatik-Datenbanken hinweg. Datenbank (2019).

DOI:

10.1093

Mendes de Farias T et al. VoIDext: Vokabular und Muster zur Verbesserung interoperabler Datensätze mit virtuellen Verknüpfungen. In: Auf dem Weg zu sinnvollen Internetsystemen: OTM 2019-Konferenzen. OTM 2019. Vorlesungsskript in Informatik, Band 11877. Springer, Cham.

DOI:

10.1007