L'épigénomique, qui étudie l'ensemble des modifications épigénétiques du matériel génétique d'une cellule, a connu une profonde révolution liée au big data au cours des dernières années. Afin de permettre la recherche et les découvertes en aval en tirant le meilleur parti des données générées, le groupe de réflexion surl'épigénomique vise à proposer des recommandations sur la manière d'atteindre les objectifs des principes FAIR, de la visualisation des données à l'annotation des métadonnées et à l'évaluation comparative des outils d'analyse. Il rassemble des membres du SIB issus de diverses disciplines telles que l'épigénétique, la transcriptomique, les infrastructures communes et l'évaluation comparative.
Encourager l'utilisation et l'analyse des données librement accessibles grâce aux principes FAIR
Les nouvelles technologies de séquençage à haut débit ont révolutionné le domaine de l'épigénomique il y a environ 15 ans. Des tests tels que ChIP-seq, ATAC-seq, MNase-seq ou CAGE-seq permettent de cartographier à l'échelle du génome les sites de liaison des facteurs de transcription, les modifications post-traductionnelles des histones, les régions de chromatine ouverte, les nucléosomes et les sites de début de transcription avec une résolution au niveau de la paire de bases ou proche de celle-ci. En conséquence, des événements de régulation génétique auparavant cachés qui se produisent le long des chromosomes sont soudainement devenus visibles. Une incroyable richesse de données publiques a déjà été générée et continue de croître de manière exponentielle. Malgré un accès illimité à ces données, elles sont encore largement sous-utilisées et sous-analysées. Ce groupe se concentre donc sur les questions liées à l'utilisabilité, l'interopérabilité, la visualisation et la reproductibilité des données, en bref sur les principes FAIR. Les trois domaines décrits ci-dessous seront examinés en priorité.
À propos des groupes de discussion du SIB
Les groupes de réflexion visent à favoriser les échanges de connaissances et les collaborations au sein de la communauté des 900 membres du SIB, autour de thèmes scientifiques spécifiques et/ou transversaux, allant du séquençage unicellulaire à l'égalité, la diversité et l'inclusion. Voir tous les groupes de réflexion
La visualisation des données, une initiative du hub épigénomique du SIB
Les biologistes qui étudient la régulation génétique ne s'intéressent souvent qu'à des régions génomiques très restreintes, au sein desquelles ils doivent accéder à divers types de données provenant de nombreux laboratoires différents. Et si possible, en quelques clics. Malheureusement, les données épigénomiques publiques sont organisées d'une manière qui rend cela difficile. Elles se présentent sous forme de fichiers volumineux contenant des données pour l'ensemble du génome, mais provenant d'une seule expérience. Pour remédier à ce problème, le groupe préconise de rendre les données épigénomiques consultables via les hubs de pistesUCSC, parallèlement au dépôt des données brutes dans un référentiel public. Les hubs de pistes, associés à des formats Big Data indexés, permettent une intégration facile et rapide, à la volée, de données provenant du monde entier dans une seule fenêtre de navigateur. L'initiative proposée vise à encourager les chercheurs suisses en épigénomique à mettre leurs propres données à disposition sous forme de hubs de données, en leur fournissant des conseils et un soutien technique par le biais de formations et de transferts de savoir-faire interpersonnels. Les infrastructures centrales de bioinformatique pouvant jouer un rôle central dans cette entreprise, le groupe cherche à établir des collaborations avec de telles entités.
Lutter contre les crises liées aux métadonnées grâce à des recommandations pour l'annotation d'échantillons
Les données épigénomiques sont facilement accessibles, les formats utilisés sont généralement standardisés et il existe déjà une panoplie de méthodes et de logiciels puissants pour analyser les données. Cependant, il existe des lacunes et des disparités importantes en matière de qualité et d'exhaustivité des métadonnées. Et sans savoir avec certitude ce que représentent les données contenues dans un fichier donné, il est impossible d'obtenir des informations biologiques, même avec les algorithmes les plus sophistiqués. « La crise des métadonnées est due, d'une part, à un manque d'incitations pour les producteurs de données à annoter correctement leurs données et, d'autre part, à l'insuffisance des contrôles de qualité et des efforts de curation des données tout au long des canaux de diffusion, par exemple de la part du personnel des référentiels de données ou des rédacteurs de revues », explique Philipp Bucher, président du groupe de réflexion. La situation est encore aggravée par la rareté ou l'absence de normes de représentation des métadonnées (ontologies) acceptées par la communauté pour les régions génomiques réglementées et, dans une moindre mesure, pour les types de cellules et les conditions physiologiques. Le groupe de réflexion sur l'épigénomique vise à devenir un forum de discussion et de résolution des problèmes dans ce domaine entre experts de divers domaines. L'un des objectifs spécifiques est de formuler des recommandations pour l'annotation des ensembles de données épigénomiques largement soutenues par les groupes SIB et au-delà. Comme de nombreux aspects de la crise des métadonnées en épigénomique s'étendent à d'autres domaines de l'omique, en particulier la transcriptomique, le groupe encourage la participation et les interactions avec les producteurs de données, les utilisateurs de données et les biocurateurs de domaines connexes.
Faciliter l'analyse des données grâce à l'analyse comparative, au partage de protocoles et à des outils
Les chercheurs qui souhaitent analyser leurs propres données ou des données publiques sont confrontés à un paradoxe du choix. Il existe déjà de nombreux programmes publics et ressources web, et de nouveaux apparaissent sans cesse. Comment choisir les meilleurs outils bioinformatiques pour une tâche particulière ? Tester une nouvelle méthode est souvent un exercice fastidieux qui aboutit à une déception. Dans ce domaine, le groupe se concentre sur l'évaluation comparative et l'échange d'expériences de première main entre les utilisateurs d'outils bioinformatiques, tant au niveau des étapes de traitement individuelles (par exemple, la recherche de pics) que des pipelines d'analyse complets (par exemple, de la lecture de séquences au réseau de régulation génétique). Les questions liées à la reproductibilité informatique et au déploiement approprié des flux de travail sont également abordées. L'objectif est de créer une communauté de personnes intéressées par le partage de leur expérience et de leur savoir-faire, et de mettre en place une infrastructure à cette fin. Cela peut inclure la création d'ensembles de données de référence et l'organisation d'événements de benchmarking, en plus de l'utilisation de moyens de communication standard tels que les téléconférences ou les listes de diffusion. La participation et les interactions avec des experts d'autres domaines tels que le benchmarking et la reproductibilité computationnelle sont encouragées ici.
Membres coordinateurs du groupe de discussion :
- Philipp Bucher, président (responsable du groupe)
- Laurent Falquet, coprésident (chef de groupe)
- Michael Stadler, coprésident (chef de groupe)
Vous êtes membre du SIB et souhaitez rejoindre le groupe ? Contactez Philipp Bucher.