Generative KI kombiniert mit Bioinformatik: vielfältige Anwendungsmöglichkeiten
Was passiert, wenn generative KI anhand wissenschaftlicher Texte aus der biologischen Fachliteratur, Datenbanken, genetischen Sequenzen oder Codes trainiert wird? Entdecken Sie die Anwendungen, die unsere Wissenschaftler entwickelt haben, um die Forschung voranzutreiben, Werkzeuge zu verbessern und zu innovieren und Entdeckungen in verschiedenen Bereichen der Lebenswissenschaften zu beschleunigen. Diese neuen Technologien bringen jedoch auch Herausforderungen und Nachteile mit sich. Erfahren Sie, wie die Experten von SIB diese angehen.
Beispiele aus dem medizinischen Bereich:
Über generative KI und LLMs
Generative künstliche Intelligenz (KI) umfasst Systeme, die in der Lage sind, neue Inhalte zu erstellen, von Texten und Bildern bis hin zu Videos, Musik und vielem mehr. Large Language Models (LLMs), eine Schlüsselart der generativen KI, werden auf umfangreichen Textdaten trainiert, einschließlich genetischer Sequenzen oder informatischem Code, um neue Inhalte zusammenzufassen, zu generieren und vorherzusagen. Modelle wie ChatGPT und BioBERT sind ein Beispiel dafür, wobei ChatGPT sich durch die Generierung von Text für Chatbots und kreatives Schreiben auszeichnet, während BioBERT sich auf biomedizinische Texte konzentriert (d. h. auf diese vortrainiert ist). LLMs verwenden Deep-Learning-Techniken, insbesondere Transformatoren, um Sprachmuster aus umfangreichen Datensätzen zu analysieren und zu verstehen und das nächste „Wort“ oder die nächste Wortfolge auf der Grundlage des Kontexts vorherzusagen.
schnelle Generierung von maßgeschneiderten Antikörpern zur Bekämpfung von Krankheiten
Monoklonale Antikörper sind spezielle Proteine, die im Labor hergestellt werden. Durch das Klonen eines einzigen Typs von Immunzellen ist es möglich, eine große Menge identischer Antikörper zu erhalten, die ihr Ziel mit hoher Präzision erkennen und binden können. Zu diesen Zielen gehören zum Beispiel Keime oder kranke Zellen. Ihre herkömmliche Entdeckung ist jedoch sehr zeitaufwändig. Die SIB-Gruppe von Andrea Cavalli arbeitet an AntibodyGPT, einem Sprachmodell zur Vorhersage der chemischen Struktur eines Antikörpers mit einer gewünschten Eigenschaft, um ihre Entwicklung zu beschleunigen.
Über generative KI und LLMs
Generative künstliche Intelligenz (KI) umfasst Systeme, die in der Lage sind, neue Inhalte zu erstellen, von Texten und Bildern bis hin zu Videos, Musik und vielem mehr. Large Language Models (LLMs), eine Schlüsselart der generativen KI, werden auf umfangreichen Textdaten trainiert, einschließlich genetischer Sequenzen oder informatischem Code, um neue Inhalte zusammenzufassen, zu generieren und vorherzusagen. Modelle wie ChatGPT und BioBERT sind ein Beispiel dafür, wobei ChatGPT sich durch die Generierung von Text für Chatbots und kreatives Schreiben auszeichnet, während BioBERT sich auf biomedizinische Texte konzentriert (d. h. auf diese vortrainiert ist). LLMs verwenden Deep-Learning-Techniken, insbesondere Transformatoren, um Sprachmuster aus umfangreichen Datensätzen zu analysieren und zu verstehen und das nächste „Wort“ oder die nächste Wortfolge auf der Grundlage des Kontexts vorherzusagen.
Beantwortung medizinischer Fragen in der Radioonkologie
In einer explorativen Studie, an der die SIB-Gruppe von Janna Hastings beteiligt war, wurde die bemerkenswerte Fähigkeit von ChatGPT zur Beantwortung von Fragen im medizinischen Bereich im speziellen Fall der Strahlentherapie getestet. Es antwortete genau auf die meisten Multiple-Choice-Fragen (94%), aber weniger genau auf offene Antworten, wie sie von Onkologen bewertet wurden (48%). Diese Inkonsistenz macht solche Modelle ungeeignet als eigenständige Quelle medizinischer Informationen, aber ihre Sprachfähigkeiten machen sie zu einer aufregenden neuen Benutzerschnittstelle für Datenbanken und Richtlinien.

Die verborgene Rolle der RNA bei Krebs entschlüsseln
Die SIB-Gruppe von Raphaëlle Luisier arbeitet mit Experten für natürliche Sprachverarbeitung am SIB und am IDIAP zusammen, um RNA zu untersuchen, also Moleküle, die genetische Anweisungen tragen und bei der Herstellung von Proteinen in lebenden Zellen helfen. Sie interessieren sich für Teile der RNA, die nicht direkt für Proteine kodieren, und dafür, wie sie sich auf komplexe menschliche Erkrankungen wie Neurodegeneration und Krebs auswirken. Beim Melanom, einer Art von Hautkrebs, wirken einige Behandlungen, insbesondere die BRAF-Inhibitoren, auf Dauer nicht gut, und die RNA könnte eine Rolle spielen.
Beispiele aus dem Bereich der Biologie:
Verstehen, wie Insekten ihre Haut abwerfen
Gliederfüßer wie Insekten und Spinnen sind die vielfältigsten Lebewesen der Erde, die für die Natur, die Landwirtschaft und die Gesundheit lebenswichtig sind. Die periodische Häutung ihrer äußeren Schale ist der Schlüssel zu ihrer Anpassungsfähigkeit. Um diesen Prozess zu untersuchen, fehlt jedoch eine integrierte Referenz für die Benennung von Gliederfüßern. Im Rahmen einer Sinergia-Kollaboration haben die SIB-Gruppen von Marc Robinson-Rechavi und Frédéric Bastian sowie von Robert Waterhouse die Daten zu den Artnamen mit Sequenzdaten aus verschiedenen öffentlichen Datenbanken unter Verwendung generativer KI-Methoden in die MoultDB-Ressource integriert, die als Referenz für das Feld dient.

Konversation mit komplexen biologischen Datenbanken
Können ChatGPT-ähnliche Technologien Forscher in den Biowissenschaften bei der Erkundung von Daten unterstützen, mit denen sie nicht vertraut sind? Diese Frage untersuchte unser neues Referat Wissensrepräsentation anhand konkreter Beispiele aus den führenden offenen Datenbanken und Softwaretools des SIB. Sie zeigten das Potenzial der konversationellen KI für die Beschreibung biologischer Datensätze sowie für die Erstellung und Erläuterung komplexer Abfragen in diesen Datensätzen. Zu den Vorteilen gehört die Nutzung des Reichtums an offenen Daten, doch die Autoren betonten auch, dass dabei Vorsicht geboten ist.
Lesen Sie die Nachricht „Biologischen Daten Bedeutung verleihen: Wissensgraphen treffen auf ChatGPT“
Generative KI und Biokuration: ein positiver Kreislauf
Das Zusammenspiel zwischen den Möglichkeiten der KI, insbesondere der LLM, und der Bedeutung des menschlichen Fachwissens lässt sich gut am Beispiel der Biokuration veranschaulichen, bei der das SIB anerkanntermaßen führend ist. Biokuration ist die Kunst der fachkundigen Extraktion von Wissen aus der biologischen und biomedizinischen Literatur, um eine genaue, zuverlässige und aktuelle Enzyklopädie zu erstellen, die der Wissenschaft im Allgemeinen dient.

Vorhersage von Proteinstruktur, -funktion und -sequenz mit Hilfe hochwertiger Daten
Die Funktion eines Proteins ist eine zentrale Information für das Verständnis molekularer Prozesse, die bei Krankheiten, der Entwicklung von Medikamenten oder der enzymatischen Aktivität eine Rolle spielen. Diese Funktion ergibt sich aus der 3D-Struktur des Proteins, die ihrerseits durch die Sequenz der Aminosäuren bestimmt wird. Heute können generative KI-Modelle zur Vorhersage verwendet werden:
- Die Struktur eines Proteins anhand seiner Sequenz, die zur Entwicklung neuer Medikamente verwendet werden kann, die das Protein binden.
- Die Funktion eines Proteins anhand seiner Sequenz, was dazu beitragen könnte, ein neu zusammengesetztes Genom, den Bauplan des Lebens, mit Anmerkungen zu versehen.
- Eine Proteinsequenz, die eine bestimmte Funktion ausüben könnte, z. B. den Abbau eines Umweltschadstoffs.
Zu diesem Zweck werden viele Modelle, von Google DeepMinds AlphaFold bis ProtGPT2, auf der universellen Protein-Wissensdatenbank UniProt trainiert, die vom SIB mitentwickelt wurde und in der Proteine umfassend und zuverlässig kuratiert sind.