Le SIB Resource Bgee est une base de données permettant de rechercher et de comparer les profils d'expression génétique de plusieurs espèces animales. Il apporte une réponse intuitive à la question « où s'exprime un gène ? » et soutient la recherche dans les domaines du cancer, de l'agriculture et de la biologie évolutive. À l'occasion de sa dernière version, Marc Robinson-Rechavi et Frédéric Bastian, co-responsables de l'équipe Bgee, nous expliquent comment la base de données a évolué au fil des ans et nous présentent certaines de ses dernières fonctionnalités ainsi que ses développements futurs.
Qu'est-ce que Bgee ?
Frédéric Bastian : Bgee est un atlas d'expression intégré et organisé qui nous permet de retrouver les profils d'expression génique chez plusieurs espèces animales et de réaliser des analyses transcriptomiques comparatives. Il apporte une réponse intuitive à la question « où s'exprime un gène ? ». Une caractéristique importante de Bgee est qu'il repose exclusivement sur des données d'expression saines et validées de types sauvages (c'est-à-dire aucune donnée provenant de gènes knock-out, de traitements ou de maladies) afin de fournir une base de référence comparable de l'expression génique normale.
Comment Bgee peut-il être utilisé dans la recherche ?
Frédéric Bastian : Ses applications vont de la recherche d'informations sur un gène unique à des études de génomique fonctionnelle portant sur les fonctions normales des gènes ou l'évolution de l'expression génétique. Il est également utilisé dans la recherche sur le cancer pour caractériser l'expression génétique saine et dans le domaine agricole, par exemple pour étudier les variations de l'expression génétique entre différentes races d'animaux d'élevage.
Pouvez-vous citer un exemple particulièrement intéressant d'étude utilisant Bgee ?
Marc Robinson-Rechavi : Un article publié dans NAR en 2020 a utilisé Bgee pour étudier comment l'expression génique était supposée être contrôlée chez l'ancêtre de toutes les espèces vertébrées. Certaines des conclusions, telles que l'importance des éléments régulateurs conservés impliqués dans le développement du système nerveux, ont été tirées grâce aux outils uniques fournis par Bgee. En particulier, les comparaisons d'expression génique permettent d'étudier les profils d'expression génique entre les espèces, et TopAnat est un outil permettant d'effectuer des analyses d'enrichissement similaires aux tests d'enrichissement en ontologie génique en utilisant des termes anatomiques mappés à des gènes par des profils d'expression. L'approche utilisée dans cette étude pourrait, par exemple, aider à hiérarchiser les variants de séquence dans les séquences du génome complet de patients atteints de maladies génétiques.
De la v1 à la v14 : quelles sont les principales modifications apportées à Bgee depuis sa création ?
Marc Robinson-Rechavi : L'intégration des données est le mot clé ici. Dans sa version initiale, Bgee ne comprenait que les données EST (Expressed Sequence Tags) de quatre espèces. Depuis, il s'est enrichi et comprend désormais les données RNA-Seq, Affymetrix et d'hybridation in situ de 29 espèces. Cela a été rendu possible grâce à l'approche unique de Bgee, qui consiste à intégrer et harmoniser les ensembles de données afin de les rendre comparables entre les expériences et les espèces.
Frédéric Bastian : Alors qu'il n'était initialement accessible que via son site web, nous voulions permettre l'intégration de Bgee dans des pipelines d'analyse en aval. Nous avons donc développé plusieurs paquets R Bioconductor et des outils web pour effectuer des analyses d'enrichissement de l'expression génique et récupérer des annotations de données d'expression, permettant ainsi aux utilisateurs de détecter les gènes activement exprimés dans leurs propres ensembles de données RNA-Seq ou scRNA-Seq. Nous pensons que ces développements font de Bgee un outil véritablement polyvalent, qui peut être utilisé pour répondre à de nouvelles questions de recherche à l'aide d'analyses de l'expression génique chez un large éventail d'espèces animales.

Qu'est-ce qui différencie Bgee des autres ressources similaires ?
Marc Robinson-Rechavi : Bgee se différencie des autres ressources en intégrant complètement les données issues de multiples ensembles de données et de multiples technologies à l'aide de méthodes qualitatives (appels de présence/absence d'expression) et quantitatives (statistiques non paramétriques produisant des « scores » d'expression) ; ensemble, elles fournissent une réponse unique à la question « où ce gène est-il exprimé ? ».
De plus, les relations d'homologie anatomique entre les espèces ont été répertoriées afin de permettre des comparaisons de l'expression génique entre différentes espèces : les informations sur l'expression génique dans les poumons humains sont désormais comparables à celles sur la vessie natatoire chez le poisson zèbre. Cela est essentiel non seulement pour étudier l'évolution des gènes, mais aussi dans d'autres domaines tels que les applications biomédicales.
Quelle fonctionnalité de Bgee vous intéresse le plus actuellement ?
Frédéric Bastian : C'est sans aucun doute l'outil de comparaison de l'expression génétique ! Grâce à l'homologie anatomique des animaux, cette fonctionnalité permet la comparaison automatique de l'expression génique au sein d'une même espèce et entre différentes espèces. L'utilisateur peut entrer une liste de gènes, et Bgee identifie les conditions dans lesquelles l'expression d'un gène est la plus conservée. Par exemple, lorsque l'on entre la liste des orthologues du gène cérébral SRRM4, Bgee identifie correctement les structures spécifiques du système nerveux comme les organes présentant l'expression la plus conservée chez les vertébrés.
En pensant à l'avenir, comment voyez-vous l'évolution de Bgee ?
Frédéric Bastian : La version 15 de Bgee, prévue pour avril 2021, intégrera les données RNA-Seq unicellulaires (scRNA-Seq), ainsi que les données RNA-Seq provenant de 60 espèces supplémentaires. Il s'agit d'une avancée majeure qui permettra d'atteindre un niveau de détail sans précédent dans la description des profils d'expression génétique. Les données de recherche doivent être interopérables pour faire progresser les sciences de la vie. Bgee facilite ce processus puisque les chercheurs et les ensembles de données publiés bénéficient de ses outils et de ses fonctions d'intégration : les données restent facilement accessibles aux chercheurs, que ce soit pour des analyses au sein d'une même espèce ou pour des analyses transcriptomiques comparatives entre plusieurs espèces.
Que signifie être une ressource SIB ?
Marc Robinson-Rechavi : En tant que ressource SIB, Bgee bénéficie du réseau des meilleures ressources identifiées et soutenues par le SIB. Cela permet l'échange de données et de connaissances avec des ressources majeures telles que UniProtKB/SwissProt, STRING et SwissOrthology. Elle a également accès à l'éventail de compétences des experts du SIB, notamment en biocuration. Bgee bénéficie également du soutien du SIB pour améliorer l'expérience utilisateur, diffuser l'information et solliciter des subventions auprès des principaux organismes de financement.
Frédéric Bastian : Plus généralement, en promouvant sa culture d'excellence en science des données, le SIB motive l'équipe du Bgee à poursuivre son objectif de produire des résultats du plus haut niveau et de la meilleure qualité. Cela se reflète de manière très pragmatique dans nos normes d'annotation, nos pratiques de codage et notre assurance qualité des données.
Quelle fonctionnalité remarquable aimeriez-vous intégrer prochainement dans Bgee ?
Frédéric Bastian : Un outil permettant d'effectuer des analyses d'expression différentielle sur l'intégration de toutes les données dans Bgee, permettant ainsi la comparaison de n'importe quelle condition (par exemple, type de données, espèce ou tissu). Grâce à cette fonctionnalité, il serait par exemple possible de récupérer les gènes les plus importants dans un organe par rapport à tous les autres organes, ou les gènes présentant le plus de variations entre différentes souches d'une même espèce, ou encore d'étudier les changements de niveau d'expression au cours de l'évolution génétique entre les espèces. Nous travaillons d'ailleurs actuellement sur un projet dans ce domaine !
Reference(s)
Bastian et al., The Bgee suite : atlas d'expression intégré et transcriptomique comparative chez les animaux, Nucleic Acids Research, 2020.