Peer Bork, damals Interimsdirektor des Europäischen Molekularbiologischen Laboratoriums (EMBL), hielt eine Grundsatzrede auf der [BC]2 Basel Computational Biology Conference, der alle zwei Jahre stattfindenden Leitveranstaltung des SIB im Jahr 2025.
Peer verstarb im Januar 2026. Wir fühlen uns geehrt, Ende letzten Jahres mit dem weltweit renommierten Bioinformatiker über die Rolle von Daten in der Life-Science-Forschung und -Innovation gesprochen zu haben. Dieses Interview wird als Hommage an seine Vision veröffentlicht.

SIB: In den letzten 30 Jahren haben sich die Lebenswissenschaften zu einem der größten Produzenten von Big Data entwickelt. Bedeutet dies, dass Biologen nun auch Datenwissenschaftler sein müssen?

Peer Bork: Die moderne Biologie ist eine datengesteuerte Wissenschaft, daher müssen die meisten Biologen in der Lage sein, Daten zu verstehen, zu analysieren und mit ihnen zu arbeiten.
Die meisten arbeiten mit großen Datensätzen und Spezialwerkzeugen, sodass Bioinformatik und Datenwissenschaft zu zentralen Bereichen dieses Fachgebiets geworden sind. Das bedeutet natürlich auch, dass Biodatenressourcen und die Unterstützung durch Datenspezialisten für die biologische Forschung und Entdeckung unerlässlich sind. Ohne diese könnten Biologen keine großen Datenmengen austauschen, darauf zugreifen oder analysieren, um neue Erkenntnisse zu gewinnen und Lösungen für globale Herausforderungen zu entwickeln.
Schließlich ist auch die KI, die die Biologie ebenso wie andere wissenschaftliche Disziplinen revolutionieren wird, auf Daten angewiesen. Daher ist es für Forscher wichtig, Experimente so zu konzipieren, dass „KI-fähige” Daten entstehen.

SIB: Wird die wesentliche Rolle von Datenressourcen für Forschung und Innovation von Regierungen und wissenschaftlichen Förderorganisationen verstanden und unterstützt?

P.B.: Die harte Wahrheit ist, dass ohne Datenressourcen die Lebenswissenschaften zum Erliegen kommen würden. Diese Ressourcen sind genauso wichtig wie Labore, Instrumente und sogar Strom, doch sie erhalten selten die gleiche Anerkennung und werden oft als selbstverständlich angesehen.
Da das Datenvolumen und der damit verbundene Bedarf an Dateninfrastruktur weiter steigen, besteht die Herausforderung – und die Chance – darin, über die kurzfristige Projektförderung hinauszugehen und nachhaltige Finanzierungsmechanismen sowie eine angemessene Anerkennung auf nationaler und internationaler Ebene zu etablieren.

SIB und EMBL: Motor für Innovation, Wirtschaftskraft und Wohlstand

Wie das SIB muss auch EMBL die Forschung im Bereich der Biowissenschaften und deren Umsetzung in Medizin, Landwirtschaft, Industrie und Gesellschaft, indem es frei zugängliche biologische Daten, Werkzeuge und Kenntnisse bereitstellt. Das SIB arbeitet mit dem EMBL bei weltweit wichtigen Datenressourcen zusammen – darunter UniProt, der weltweit führenden Wissensdatenbank für Proteinsequenzen und -funktionen, und STRING, einer Wissensdatenbank für Protein-Protein-Interaktionen, die beide Teil des SIB-Ressourcenportfolios sind.

Erfahren Sie mehr über die Vorteile von UniProt für Wissenschaft und Gesellschaft.

SIB: Biodatenressourcen werden heute nicht mehr nur zwischen einzelnen Wissenschaftlern per E-Mail und Disketten ausgetauscht, sondern sind über Forschungsinfrastrukturen wie EMBL-EBI, SIB und ELIXIR online frei verfügbar. Was ist Ihrer Meinung nach der wichtigste Aspekt ihrer nächsten großen Entwicklung?

P.B.: Die Landschaft der biologischen Daten ist fragmentiert: Es gibt eine Vielzahl von Datentypen, Produzenten und Formaten, die nicht immer miteinander „kommunizieren”. Es erfordert viel Aufwand, Daten FAIR zu machen – was für „Findable, Accessible, Interoperable and Reusable” (auffindbar, zugänglich, interoperabel und wiederverwendbar) steht. Kurz gesagt bedeutet FAIR, dass Daten einmal erstellt und dann immer wieder von Wissenschaftlern weltweit wiederverwendet werden, um neue Erkenntnisse zu gewinnen. FAIR-konforme, maschinenlesbare Daten sind entscheidend für die Nutzung leistungsstarker KI-Technologien.
Aber keine einzelne Organisation oder kein einzelnes Land kann dies alleine leisten. FAIR-Daten sind eine Teamleistung. Wir brauchen sowohl zentralisierte als auch föderierte Ressourcen, die miteinander kommunizieren können. Selbst zentralisierte Ressourcen, wie sie unter anderem von SIB oder EMBL (siehe Kasten) bereitgestellt werden, können die riesigen Datenmengen, die generiert werden und einer Qualitätskontrolle und Kuratierung unterzogen werden müssen, nicht erfassen. Daher besteht auch Bedarf an spezialisiertem Fachwissen, das von Expertengemeinschaften auf der ganzen Welt gepflegt wird. Es handelt sich um eine Aufgabe, die den Aufbau von Gemeinschaften und Infrastrukturen erfordert.

SIB und EMBL: Motor für Innovation, Wirtschaftskraft und Wohlstand

Wie das SIB muss auch EMBL die Forschung im Bereich der Biowissenschaften und deren Umsetzung in Medizin, Landwirtschaft, Industrie und Gesellschaft, indem es frei zugängliche biologische Daten, Werkzeuge und Kenntnisse bereitstellt. Das SIB arbeitet mit dem EMBL bei weltweit wichtigen Datenressourcen zusammen – darunter UniProt, der weltweit führenden Wissensdatenbank für Proteinsequenzen und -funktionen, und STRING, einer Wissensdatenbank für Protein-Protein-Interaktionen, die beide Teil des SIB-Ressourcenportfolios sind.

Erfahren Sie mehr über die Vorteile von UniProt für Wissenschaft und Gesellschaft.

SIB: Angesichts der enormen Menge an verfügbaren Datenressourcen – und der Tatsache, dass ständig neue Datenbanken und Softwaretools entstehen – wie können Institutionen, Förderorganisationen und Regierungen sicher sein, dass die richtigen Ressourcen gepflegt und weiterentwickelt werden?

P.B.: Um das Potenzial offener Datenressourcen voll auszuschöpfen, brauchen wir koordinierte Anstrengungen von Geldgebern, Regierungen und wissenschaftlichen Einrichtungen. Gemeinsam müssen wir zunächst einmal erkennen, dass die Biodateninfrastruktur für die Wissenschaft genauso wichtig ist wie Straßen oder Strom für die Gesellschaft.
Außerdem müssen wir langfristige, stabile Finanzierungsmodelle, eine gemeinsame internationale Verantwortung und mehr Anreizmechanismen für Wissenschaftler entwickeln, die ihre Forschungsdaten auf FAIR-Weise teilen.
Organisationen wie die europäische Life-Science-Infrastruktur ELIXIR und die Global Biodata Coalition leisten bereits wertvolle Arbeit, indem sie Communities zusammenbringen, wichtige Datenressourcen identifizieren und mit Geldgebern zusammenarbeiten, um deren Zukunft zu sichern. Aber wir haben noch einen langen Weg vor uns, um diese wichtigen Ressourcen zu sichern und so zu nutzen, dass sie echte Vorteile für Wissenschaft, Gesundheitswesen und Alltag bringen.

SIB: Können Sie ein Beispiel dafür nennen, wie interoperable, föderierte Ressourcen Initiativen der nächsten Generation im Bereich der Biowissenschaften ermöglichen?

P.B.: Ein aktuelles Beispiel von EMBL und Partnern ist TREC, was für TRaversing Ecosystems. Dabei handelt es sich um eine groß angelegte Studie über Ökosysteme und ihre Reaktion auf die Umwelt, von Molekülen bis hin zu Gemeinschaften, deren erste Expedition entlang der europäischen Küsten bereits abgeschlossen ist. Zusammen mit unseren Partnern haben wir neue Probenahmenstandards entwickelt und biologische Proben und Umweltdaten von 115 Standorten gesammelt. Die riesigen Datenmengen, die öffentlich zugänglich gemacht werden, können genutzt werden, um Lösungen für große Herausforderungen wie Umweltverschmutzung, Verlust der biologischen Vielfalt, globale Erwärmung und Versauerung der Ozeane zu finden und zu entwickeln.
Die Rohdaten verschiedener Art werden in öffentlichen Datenbanken gespeichert, und die abgeleiteten Daten werden in einem Data Hub und einem speziellen Portal integriert und gehostet – ein Beispiel für das Zusammenspiel zwischen föderierten und zentralisierten Ressourcen. Zur Integration der Daten werden verschiedene Tools verwendet, darunter einige, die von SIB mitentwickelt und unterstützt werden, wie z. B. STRING und mOTUs.
Die erste TREC-Expedition war eine Zusammenarbeit mit der Tara Ocean Foundation, dem European Marine Biological Resource Centre und vielen Instituten und Meeresstationen in ganz Europa. Es handelt sich um eine ehrgeizige Initiative, um die Molekularbiologie näher an die Umweltwissenschaften heranzuführen. In Zukunft werden wir auf dieser Initiative aufbauen, indem wir die gleichen Prinzipien der standardisierten Datenerfassung, -speicherung und -analyse beispielsweise auf Süßwasserökosysteme anwenden.
Die Molekularbiologie betrifft alle Lebewesen und hat ein enormes Potenzial, zu anderen Bereichen der Lebenswissenschaften beizutragen, von der menschlichen Gesundheit über die Landwirtschaft und Ernährungssicherheit bis hin zu den Umweltwissenschaften und darüber hinaus. Die Möglichkeiten sind wirklich unbegrenzt.

Siehe EMBL-Würdigung von Peer Bork

Reference(s)

Peer Bork spricht auf der [BC]2 Basel Computational Biology Conference 2025. Bildquelle: SIB