Die SIB-Ressource Bgee ist eine Datenbank zum Abruf und Vergleich von Genexpressionsmustern verschiedener Tierarten. Sie liefert eine intuitive Antwort auf die Frage „Wo wird ein Gen exprimiert?“ und unterstützt die Forschung in den Bereichen Krebs und Landwirtschaft sowie in der Evolutionsbiologie. Anlässlich der neuesten Version erzählenMarc Robinson-Rechavi und Frédéric Bastian, die das Bgee-Team gemeinsam leiten, wie sich die Datenbank im Laufe der Jahre entwickelt hat, und geben einen Einblick in einige der neuesten Funktionen und zukünftigen Entwicklungen.
Was ist Bgee?
Frédéric Bastian: Bgee ist ein integrierter, kuratierter Expressionsatlas, mit dem wir Genexpressionsmuster bei mehreren Tierarten abrufen und vergleichende Transkriptomiken durchführen können. Er liefert eine intuitive Antwort auf die Frage „Wo wird ein Gen exprimiert?“. Ein wichtiges Merkmal von Bgee ist, dass es ausschließlich auf kuratierten gesunden Wildtyp-Expressionsdaten basiert (d. h. keine Daten aus Gen-Knockouts, Behandlungen oder Krankheiten), um eine vergleichbare Referenzbasis für die normale Genexpression zu bieten.
Wie kann Bgee in der Forschung eingesetzt werden?
Frédéric Bastian: Die Anwendungsmöglichkeiten reichen vom Abruf von Informationen zu einem einzelnen Gen bis hin zu funktionellen Genomstudien, bei denen normale Genfunktionen oder die Entwicklung der Genexpression untersucht werden. Außerdem wird es in der Krebsforschung zur Charakterisierung der gesunden Genexpression und im Agrarbereich beispielsweise zur Untersuchung von Unterschieden in der Genexpression zwischen verschiedenen Nutztierrassen eingesetzt.
Können Sie ein besonders spannendes Beispiel für eine Studie mit Bgee nennen?
Marc Robinson-Rechavi: In einem 2020 in NAR veröffentlichten Artikel wurde Bgee verwendet, um zu untersuchen, wie die Genexpression bei den Vorfahren aller Wirbeltierarten vermutlich gesteuert wurde. Einige der Schlussfolgerungen – wie beispielsweise die Bedeutung konservierter regulatorischer Elemente, die an der Entwicklung des Nervensystems beteiligt sind – konnten dank der einzigartigen Werkzeuge von Bgee gezogen werden. Insbesondere ermöglichen die Vergleiche der Genexpression die Untersuchung von Genexpressionsmustern zwischen Arten, und TopAnat ist ein Werkzeug zur Durchführung von Anreicherungsanalysen ähnlich den Genontologie-Anreicherungstests, wobei anatomische Begriffe verwendet werden, die anhand von Expressionsmustern auf Gene abgebildet wurden. Der in dieser Studie verwendete Ansatz könnte beispielsweise dazu beitragen, Sequenzvarianten in Gesamtgenomsequenzen von Patienten mit genetischen Erkrankungen zu priorisieren.
Von v1 bis v14: Was sind die wichtigsten Änderungen, die seit der Einführung von Bgee vorgenommen wurden?
Marc Robinson-Rechavi: Datenintegration ist hier das Schlüsselwort. In seiner ersten Version enthielt Bgee EST-Daten (Expressed Sequence Tags) von nur vier Arten. Seitdem wurde es um RNA-Seq-, Affymetrix- und In-situ-Hybridisierungsdaten von 29 Arten erweitert. Möglich wurde dies durch den einzigartigen Ansatz von Bgee, Datensätze zu integrieren und zu harmonisieren, sodass sie zwischen Experimenten und Arten vergleichbar sind.
Frédéric Bastian: Ursprünglich war Bgee nur über seine Website zugänglich, aber wir wollten es möglich machen, Bgee in nachgelagerte Analyse-Pipelines einzubetten. Dazu haben wir mehrere Bioconductor-R-Pakete und webbasierte Tools entwickelt, mit denen Genexpressionsanreicherungsanalysen durchgeführt und Expressionsdatenannotationen abgerufen werden können, sodass Benutzer Gene erkennen können, die in ihren eigenen RNA-Seq- oder scRNA-Seq-Datensätzen aktiv exprimiert werden. Wir glauben, dass diese Entwicklungen Bgee zu einem wirklich vielseitigen Tool machen, mit dem sich neue Forschungsfragen mithilfe von Genexpressionsanalysen bei einer Vielzahl von Tierarten beantworten lassen.

Was unterscheidet Bgee von anderen, ähnlichen Ressourcen?
Marc Robinson-Rechavi: Bgee unterscheidet sich von anderen Ressourcen durch die vollständige Integration von Daten aus mehreren Datensätzen und verschiedenen Technologien unter Verwendung qualitativer (Angaben zum Vorhandensein/Fehlen von Expression) und quantitativer Methoden (nichtparametrische Statistiken, die Expressionswerte liefern), wodurch eine einzige Antwort auf die Frage „Wo wird dieses Gen exprimiert?“ gegeben wird.
Darüber hinaus wurden anatomische Homologien zwischen Arten kuratiert, um Vergleiche der Genexpression zwischen verschiedenen Arten zu ermöglichen: Informationen zur Genexpression in der menschlichen Lunge sind nun mit denen zur Schwimmblase von Zebrafischen vergleichbar. Dies ist nicht nur für die Erforschung der Genentwicklung von Bedeutung, sondern auch für andere Bereiche wie biomedizinische Anwendungen.
Welche Funktion in Bgee ist derzeit am spannendsten?
Frédéric Bastian: Das ist definitiv das Tool zum Vergleich der Genexpression! Anhand kuratierter anatomischer Homologien bei Tieren ermöglicht diese Funktion den automatischen Vergleich der Genexpression innerhalb und zwischen Arten. Ein Benutzer kann eine Genliste eingeben, und Bgee identifiziert die Bedingungen, unter denen die Expression eines Gens am besten konserviert ist. Bei Eingabe der Liste der Orthologe des Gehirngens SRRM4 identifiziert Bgee beispielsweise bestimmte Strukturen des Nervensystems als die Organe mit der am besten konservierten Expression bei Wirbeltieren.
Ein Blick in die Zukunft: Wie wird sich Bgee Ihrer Meinung nach weiterentwickeln?
Frédéric Bastian: Die für April 2021 geplante Veröffentlichung der Version 15 von Bgee wird Einzelzell-RNA-Seq-Daten (scRNA-Seq) sowie RNA-Seq von 60 weiteren Arten integrieren. Dies ist ein wichtiger Schritt, der eine bisher unerreichte Detailgenauigkeit bei der Beschreibung von Genexpressionsmustern ermöglichen wird. Forschungsdaten müssen interoperabel sein, um die Lebenswissenschaften voranzubringen. Bgee erleichtert diesen Prozess, da sowohl Forscher als auch veröffentlichte Datensätze von seinen Tools und Integrationsfunktionen profitieren: Die Daten bleiben für Forscher nahtlos verfügbar, entweder für Analysen innerhalb einer einzigen Spezies oder für vergleichende Transkriptomik über mehrere Spezies hinweg.
Was bedeutet es, eine SIB-Ressource zu sein?
Marc Robinson-Rechavi: Als SIB-Ressource profitiert Bgee vom Netzwerk der besten Ressourcen, die von SIB identifiziert und unterstützt werden. Dies ermöglicht den Austausch von Daten und Wissen mit wichtigen Ressourcen wie UniProtKB/SwissProt, STRING und SwissOrthology. Außerdem hat sie Zugang zum Kompetenzspektrum der SIB-Experten, insbesondere im Bereich der Biokuration. Bgee profitiert auch von der Unterstützung der SIB bei der Verbesserung der Benutzerfreundlichkeit, der Verbreitung von Informationen und der Beantragung von Fördermitteln bei wichtigen Förderagenturen.
Frédéric Bastian: Ganz allgemein motiviert die SIB durch die Förderung ihrer Kultur der Exzellenz in der Datenwissenschaft das Bgee-Team, sein Ziel zu verfolgen, Ergebnisse auf höchstem Niveau und in bester Qualität zu erzielen. Dies spiegelt sich sehr pragmatisch in unseren Annotationsstandards, Codierungspraktiken und der Qualitätssicherung der Daten wider.
Welche auffällige Funktion würdest du gerne als Nächstes in Bgee integrieren?
Frédéric Bastian: Ein Tool zur Durchführung differentieller Expressionsanalysen über die Integration aller Daten in Bgee, das den Vergleich beliebiger Bedingungen (z. B. Datentyp, Spezies oder Gewebe) ermöglicht. Mit einer solchen Funktion wäre es beispielsweise möglich, die wichtigsten Gene in einem Organ im Vergleich zu allen anderen Organen zu ermitteln, die Gene mit den größten Variationen zwischen verschiedenen Stämmen derselben Spezies zu identifizieren oder Veränderungen des Expressionsniveaus während der Genentwicklung zwischen Spezies zu untersuchen. Wir haben tatsächlich etwas in dieser Richtung in der Pipeline!
Reference(s)
Bastian et al., Die Bgee-Suite: Integrierter kuratierter Expressionsatlas und vergleichende Transkriptomik bei Tieren, Nucleic Acids Research, 2020.