Ein maßgeschneidertes generatives KI-Tool, das in Expasy, das Schweizer Portal für Bioinformatik-Ressourcen, integriert ist, ermöglicht Forschern das schnellere und einfachere Abrufen und Zusammenstellen von Informationen aus SIB-Datenbanken. ExpasyGPT liefert schnelle und präzise Antworten, ermöglicht neue Erkenntnisse durch komplexe Datenbankabfragen und macht biologische und bioinformatische Entdeckungen einem breiteren Publikum zugänglich. Seine leistungsstarken Funktionen basieren auf der Expertise der SIB in den Bereichen Large Language Models (LLMs) und Wissensrepräsentation.

Die von SIB-Gruppen entwickelten Ressourcen im Bereich Bioinformatik werden von Forschern und Klinikern weltweit genutzt, um das Leben zu erforschen und globale Herausforderungen anzugehen, von der Diagnose von Krankheiten über die Entwicklung wirksamer Medikamente bis hin zur Züchtung neuer Nutzpflanzen und zum Schutz der Biodiversität. Diese Ressourcen sind auch eine wertvolle Quelle für frei zugängliches und zuverlässiges biologisches Wissen für Lehrer, Studenten und die breite Öffentlichkeit.

Erfahren Sie, wie SIB erstklassige Biodatenressourcen fördert

Ermöglichung komplexer Abfragen in Schweizer Life-Science-Datenbanken

Expasy ist ein leistungsstarkes Suchportal für über 160 hochwertige, offene Datenbanken und Softwaretools, die von SIB Groups entwickelt wurden. Diese umfassenden Ressourcen decken eine Vielzahl von Biomolekülen und biologischen Prozessen ab, bieten aktuelle Kenntnisse aus den Lebenswissenschaften und ermöglichen Forschern den Austausch, die Analyse und die Interpretation von Biodaten.

Die von SIB-Gruppen entwickelten Ressourcen im Bereich Bioinformatik werden von Forschern und Klinikern weltweit genutzt, um das Leben zu erforschen und globale Herausforderungen anzugehen, von der Diagnose von Krankheiten über die Entwicklung wirksamer Medikamente bis hin zur Züchtung neuer Nutzpflanzen und zum Schutz der Biodiversität. Diese Ressourcen sind auch eine wertvolle Quelle für frei zugängliches und zuverlässiges biologisches Wissen für Lehrer, Studenten und die breite Öffentlichkeit.

Erfahren Sie, wie SIB erstklassige Biodatenressourcen fördert

Mit der Stichwortsuche von Expasy können Nutzer bereits jetzt bequem relevante Informationen aus allen SIB-Ressourcen abrufen und anzeigen – beispielsweise verfügbare Daten zu einem bestimmten Organismus oder Gen oder Tools für einen bestimmten Anwendungsfall –, ohne Kenntnisse über das Ressourcen-Ökosystem zu benötigen.

ExpasyGPT, das in einer Beta-Version veröffentlicht wurde, ist der nächste Schritt zur Beschleunigung biologischer und bioinformatischer Entdeckungen auf Expasy. Durch Fragen in natürlicher Sprache können Nutzer nun:

  • erkenntnisse aus SIB-Datenbanken gewinnen, die mit der Stichwortsuche nicht möglich sind;
  • innerhalb von Sekunden komplexe datenbankübergreifende Abfragen erstellen und ausführen;
  • große Datenmengen aus mehreren Datenbanken ohne manuelle Prozesse zusammenstellen;
  • genauere Informationen zu SIB-Ressourcen erhalten als über allgemeine LLM-Tools wie ChatGPT.

Diese Funktionen – kombiniert mit einer benutzerfreundlichen Chat-Oberfläche – sorgen für eine erhebliche Zeitersparnis. Außerdem erleichtern sie die Daten- und Ressourcensuche für Nutzer mit begrenzten Kenntnissen in Bioinformatik oder einem bestimmten biologischen Fachgebiet.

ExpasyGPT wurde von verschiedenen Teams aus dem SIB-Netzwerk mit Fachkenntnissen in den Bereichen Wissensrepräsentation und generative KI entwickelt. Das Tool ist das neueste Beispiel für unsere Arbeit, die Grenzen der Datenwissenschaft zu erweitern, Innovationen in den Lebenswissenschaften voranzutreiben und sicherzustellen, dass biologisches Wissen zum Nutzen von Wissenschaft und Gesellschaft allgemein zugänglich ist.

Probieren Sie ExpasyGPT aus

Die sechs SIB-Datenbanken sind:

Alle sechs sind SIB-Ressourcen, und vier davon sind als grundlegend wichtig für die internationale Life-Science-Community anerkannt : drei als ELIXIR Core Data Resource und vier als Global Core Biodata Resource.

Durch Wissensrepräsentation miteinander verbundene Datenbanken

Die Wissenschaftler von SIB hatten bereits Standardvokabulare oder „Ontologien” implementiert, um SIB-Ressourcen anhand von Schlüsselwörtern zu beschreiben. Unsere Fokusgruppe „Semantic Web” erweiterte dies durch die Erstellung von Ontologien zur Beschreibung der Beziehungen zwischen verschiedenen Arten biologischer Daten. Die Fokusgruppe strukturierte diese Informationen, die als Metadaten bezeichnet werden, und eine Reihe von SIB-Datenbanken (siehe Kasten) als Wissensgraphen.

Die sechs SIB-Datenbanken sind:

Alle sechs sind SIB-Ressourcen, und vier davon sind als grundlegend wichtig für die internationale Life-Science-Community anerkannt : drei als ELIXIR Core Data Resource und vier als Global Core Biodata Resource.

Diese Graphen bilden ein integriertes, maschinenlesbares Netzwerk verknüpfter Daten, das Informationen aus verschiedenen Datenbanken nahtlos miteinander verbindet – beispielsweise die Beziehung zwischen einem bestimmten Protein, einem Zelltyp und einer Krankheit. Diese Wissensrepräsentation ermöglicht es, komplexere Informationen aus Datenbanken abzurufen, als dies mit Stichwortsuchen in Texten möglich ist, und bildet eine Säule von ExpasyGPT.

Weitere Informationen zur Wissensrepräsentation

Artikel über das semantische Web der SIB-Daten lesen

Mehr als ein Chatbot dank maßgeschneiderter generativer KI

Das Tool basiert außerdem auf Large Language Models, einer neuen Art generativer KI, die Fragen in natürlicher Sprache schnell beantworten kann. Die Knowledge Representation Unit der Vital-IT Computational Biology-Gruppe von SIB hat mit Unterstützung unseres Biodata Resources-Teams ein LLM mit den oben beschriebenen Wissensgraphen und 1.000 Beispiel-Datenbankabfragen verbunden. Dadurch verfügt das Tool über ein hohes Maß an Fachwissen und liefert genauere Antworten als ChatGPT und andere allgemein trainierte LLMs. Darüber hinaus muss ExpasyGPT dank der Integration in die Wissensgraphen nicht ständig neu trainiert werden, um mit den großen Mengen an neuen Daten und Informationen, die kontinuierlich in die SIB-Datenbanken aufgenommen werden, auf dem neuesten Stand zu bleiben.

Die Antworten von ExpasyGPT können zwei Formen annehmen: direkte Antworten auf allgemeine Fragen zu SIB-Ressourcen und den Code für sogenannte SPARQL-Abfragen, um komplexe Informationen aus mehreren Datenbanken abzurufen und zusammenzustellen. Letzteres ist eine besonders leistungsstarke Funktion. SPARQL-Abfragen liefern tiefere Einblicke als die Suche nach Stichwörtern in Datenbanken und vermeiden die manuelle Zusammenstellung von Daten aus verschiedenen Quellen, können jedoch selbst für Experten schwierig und zeitaufwändig zu schreiben sein.

Artikel über LLM-basierte SPARQL-Abfragegenerierung lesen

Artikel über die Beispielabfragen der Datenbank lesen

Entdecken Sie generative KI-Projekte bei SIB

Transparente Antworten und eine benutzerfreundliche Oberfläche

Das Informationstechnologie-Team von SIB hat einen nutzerorientierten Designansatz gewählt, um die dritte Säule von ExpasyGPT zu entwickeln: eine intuitive Chat-Oberfläche, die in Expasy integriert ist. Die Benutzer erhalten eine Erklärung, wie SPARQL-Abfragen generiert wurden, und können die zugrunde liegenden Quellen und die Argumentation hinter jeder Antwort leicht einsehen. Bei Bedarf fordert das Tool weitere Informationen an. Darüber hinaus können Benutzer generierte SPARQL-Abfragen automatisch direkt aus dem Chat ausführen und bei Bedarf weiter bearbeiten.

Artikel über SPARQL-Abfrageeditor-Schnittstellen lesen

Erfahren Sie mehr über die Entwicklungvon ExpasyGPT

Aufbauend auf der Beta-Version

Diese erste Version von ExpasyGPT liefert die besten Ergebnisse für die sechs oben aufgeführten Datenbanken. Weitere SIB-Datenbanken, die mit SPARQL abgefragt werden können, werden in Kürze ebenfalls integriert, darunter die Swiss Pathogen Surveillance Platform. Langfristig sollen alle auf Expasy katalogisierten Datenbanken und Software-Tools integriert, die Ergebnisse für allgemeine biologische und bioinformatische Abfragen verbessert und die Benutzerfreundlichkeit optimiert werden. Darüber hinaus ist das System vollständig quelloffen und kann mit jedem Wissensgraphen von Interesse wiederverwendet werden