Manchmal als Bedrohung, manchmal als Chance gesehen, hat das Aufkommen generativer KI tiefgreifende Auswirkungen auf unsere Gesellschaft und Wissenschaft. Die Wissenschaftler von SIB sind sich dieser Herausforderungen bewusst und gehen sie aktiv an.
Die Anwendungen generativer KI in der Bioinformatik umfassen bereits eine Vielzahl von Themen. Eine Botschaft zieht sich jedoch durch alle Beispiele: Es gibt keine Einheitsmodelle, und es muss sorgfältig abgewogen werden, ob der Nutzen die Kosten überwiegt. Der Weg zu einer vertrauenswürdigen und ethischen KI ist in der Tat mit Herausforderungen gepflastert, von Ungenauigkeiten und toxischen Vorurteilen bis hin zu Auswirkungen auf die Umwelt. SIB ist das ideale Umfeld, in dem Fachwissen und hochwertige Daten zusammenkommen, um KI-Modelle zu entwickeln, die sowohl der Forschung als auch der Gesellschaft zugutekommen.
Bedarf an großen Mengen hochwertiger Daten
Um genaue Vorhersagen und Ergebnisse zu erzielen, aber auch um Verzerrungen zu vermeiden, die zu Ungleichheiten und ethischen Problemen führen können, müssen Modelle auf der Grundlage zuverlässiger, strukturierter und gekennzeichneter Daten trainiert werden.
Die Demokratisierung von Daten, um sie für Menschen und Maschinen zugänglich und verständlich zu machen, steht im Mittelpunkt unserer Arbeit. Wir tun dies, indem wir sicherstellen, dass unsere Datensätze den FAIR-Prinzipien (Findable, Accessible, Interoperable and Reusable) entsprechen, beispielsweise durch Wissensgraphen, d. h. Karten, die zeigen, wie verschiedene Wissenselemente miteinander verbunden sind (z. B. eine Spezies, ihre Gene, Proteine und deren Bioaktivität), wodurch wir Beziehungen besser verstehen und nützliche Erkenntnisse leichter finden können.
Die Schweizer KI-Initiative zielt darauf ab, den neuen Supercomputer Alps des Nationalen Supercomputing Centre zu nutzen, um akademische Instanzen von ChatGPT-ähnlichen Modellen zu entwickeln. Wissenschaftler des SIB, darunter die Gruppe von Fabio Rinaldi, unsere Abteilung für Wissensrepräsentation und die Swiss-Prot-Gruppe, tragen Daten und Anwendungsfälle zu dem Projekt bei, beispielsweise die universelle Proteinkenntnisdatenbank UniProt. Die Einbeziehung solcher maßgeblicher Wissensquellen wird dazu beitragen, Fortschritte auf dem Weg zu einer vertrauenswürdigen KI zu gewährleisten.
Auswirkungen auf die Umwelt
Je größer das Modell, desto mehr Rechenleistung und Zeit sind für die Ausführung erforderlich, was sich deutlich auf unseren CO2-Fußabdruck auswirkt.
Unsere Teams optimieren die Modelle, um je nach Bedarf die beste Passform zu gewährleisten, von domänenspezifischen Modellen, die auf Datensätzen wie PubMed mit relativ wenigen Parametern trainiert wurden, bis hin zu allgemeinen Sprachmodellen wie GPT-4 mit viel größeren Trainingsdatensätzen und viel mehr Parametern. Eine SIB-weite Fokusgruppe befasst sich außerdem speziell mit der Untersuchung der Umweltauswirkungen unserer IT-Aktivitäten.
Das passende Modell finden
Forscher müssen sich in einem Labyrinth aus immer vielfältigeren LLM-Modellen zurechtfinden, die jeweils ihre Besonderheiten und früheren Trainingssätze haben.
Die von SIB-Experten durchgeführten Benchmark-Tests von Modellen in bestimmten Bereichen (z. B. Biodiversität, Proteine und Klinik) dienen Forschern weltweit als Orientierungshilfe.
Halluzinationen
Wir alle haben Fehler in den Antworten von ChatGPT gesehen. Diese sind jedoch möglicherweise nicht offensichtlich, wenn Sie kein Experte auf diesem Gebiet sind.
Kritische Bewertungen werden von den Fachexperten des SIB vorgenommen, die sich mit der Bewertung der Modelle bestens auskennen und in der Lage sind, Fehler in den Antworten zu interpretieren und zu erkennen. Dazu werden beispielsweise spezifische Tests entwickelt, um die Ergebnisse des Modells zu überprüfen, wie z. B. das Abgleichen von aus dem LLM extrahierten biochemischen Reaktionen mit bekannten Reaktionen, um Halluzinationen zu identifizieren.
Datenschutzbedenken bei sensiblen Daten
Der unerwünschte Zugriff Dritter auf sensible Daten wie personenbezogene Informationen ist ein besorgniserregender Aspekt der weit verbreiteten Nutzung von LLMs.
Die SIB-Gruppe von Janna Hastings, die mit sensiblen klinischen Daten (z. B. historischen klinischen Notizen) arbeitet, richtet beispielsweise lokale Instanzen von Open-Source-Modellen ein, damit Kliniker die Technologie für Studien in der Praxis nutzen können, ohne sensible Informationen öffentlich weiterzugeben.
Interdisziplinäre Zusammenarbeit zwischen Modellentwicklern und Fachexperten
Um die Erklärbarkeit und Genauigkeit von LLMs zu verbessern, ist es entscheidend, dass Entwickler und Fachexperten Hand in Hand arbeiten.
Als Bioinformatiker und Bioinformatiker verfügen wir sowohl über das biologische Fachwissen als auch über die Fähigkeit, zu beurteilen, welche Algorithmen in einem bestimmten Kontext geeignet sind. Dies macht uns zu strategischen Partnern im Dialog mit LLM-Ingenieuren zu Themen aus den Lebenswissenschaften.