Können Technologien wie ChatGPT Life-Science-Forscher bei der Erforschung von Daten unterstützen, mit denen sie nicht vertraut sind? Dieser Frage ist unsere neue Abteilung für Wissensrepräsentation anhand konkreter Beispiele aus den führenden offenen Datenbanken und Softwaretools von SIB nachgegangen. Sie zeigen das Potenzial von dialogorientierter KI zur Beschreibung von Datensätzen sowie zur Generierung und Erklärung komplexer Abfragen über Datensätze hinweg, d. h. über föderierte Wissensgraphen. Erfahren Sie, wie diese Technologien Life-Science-Forschern helfen können, von der Fülle offener Daten zu profitieren, wie sie dazu beitragen können, diese Daten FAIR (Findable, Accessible, Interoperable und Reusable) zu machen, und warum dabei dennoch Vorsicht geboten ist.
Was sind Wissensgraphen?
Ein Wissensgraph ist eine Art von Graphdatenbank, die Informationen über Entitäten (z. B. Proteine, Gene, Organe) und deren Beziehungen untereinander (z. B. „wird exprimiert in“, „kodiert für“) speichert. Entitäten werden durch Knoten dargestellt, Beziehungen zwischen Entitäten durch Kanten. Wissensgraphen ermöglichen es Benutzern, komplexe Daten besser zu verstehen. Sie ermöglichen die Verknüpfung verschiedener interoperabler Datenbanken, beispielsweise durch die Durchführung von Verbundabfragen, um neue biologische Erkenntnisse zu gewinnen.
Demokratisierung des Zugangs zu Wissensrepräsentation
„Wissensgraphen sind eine einfache, aber leistungsstarke Methode, um Informationen auf intuitive Weise zu organisieren und zu verknüpfen”, sagt Ana Claudia Sima, die zusammen mit Tarcisio Mendes de Farias die neue Abteilung Knowledge Representation innerhalb der Vital-IT-Gruppe der SIB leitet. „In den letzten Jahren haben sie zunehmend Einzug in Wissenschaft und Industrie gehalten und finden in einer Vielzahl von Anwendungen Verwendung, darunter Suchmaschinen, verbesserte Diagnostik oder die Umwidmung von Medikamenten“, erklärt sie. Das Abrufen von Informationen aus Wissensgraphen übersteigt jedoch noch immer die Fachkenntnisse der meisten Nutzer, da es Kenntnisse in technischen Abfragesprachen erfordert. Gemeinsam hat das Team einen Artikel verfasst, in dem es über die Rolle von Chatbots mit künstlicher Intelligenz (KI) wie ChatGPT bei der Erleichterung des Datenzugriffs auf komplexe Wissensgraphen reflektiert.
Konversations-KI, um Daten näher an die Nutzer zu bringen
Mithilfe einiger der führenden Open-Science-Datenbanken und -Software von SIB (Bgee, OMA und UniProt) zeigt das Team, wie ein KI-Chatbot genutzt werden kann, um die FAIRifizierung von Datensätzen zu beschleunigen, indem sowohl vorhandene öffentliche Dokumentationen als auch Expertenbeiträge genutzt werden. Beispielsweise trägt er durch die genaue Zusammenfassung von Datensätzen in einer für Endnutzer verständlichen Beschreibung auf hoher Ebene zur Auffindbarkeit von Daten bei. Durch die Generierung von Verbundabfragen über öffentliche Wissensgraphen auf der Grundlage von Fragen in natürlicher Sprache, die von Benutzern eingegeben werden (z. B. „Gib mir eine Liste der mit Krebs assoziierten menschlichen Gene und ihrer Orthologe, die im Rattengehirn exprimiert werden”), erleichtert er den Zugang und die Wiederverwendung. Das Team diskutiert auch die Grenzen der aktuellen Technologien für dialogorientierte KI und mahnt zur Vorsicht bei deren Einsatz.
Die vorläufige Übersicht, die im Preprint vorgestellt wird, wurde bei einem Workshop zu semantischen Web-Lösungen für die Analyse biomedizinischer Daten angenommen, soll auf weitere Anwendungsfälle ausgeweitet und in den kommenden Monaten in der Bioinformatik-Community diskutiert werden.
entdecken Sie den wachsenden Katalog interoperabler Wissensgraphen zur Bioinformatik bei SIB.
Erfahren Sie mehr über das Serviceangebot von SIB im Bereich FAIRification
Reference(s)
Sima A.C. und de Farias T.M., Zum Potenzial von Chatbots mit künstlicher Intelligenz für die Datenexploration in föderierten Wissensgraphen der Bioinformatik, SeWebMeDa’23: 6. Workshop zu semantischen Weblösungen für die Analyse großer biomedizinischer Datenmengen. Vorabdruck verfügbar auf arXiv.