L'expression ou non d'un gène dans un organisme dépend d'un certain nombre de processus interdépendants. Parmi ceux-ci, la liaison d'un facteur de transcription à une courte séquence génomique, appelée à juste titre « motif de liaison du facteur de transcription » ou TFBM, déclenche la transcription. Comme les données expérimentales ne sont pas toujours disponibles, des modèles computationnels aident les chercheurs à prédire l'emplacement et la séquence de ces sites de liaison dans les génomes. Mais quelle est la performance de ces modèles ? Une étude comparative exhaustive visant à répondre à cette question a été menée par une équipe internationale dirigée par des chercheurs du SIB, de l'EPFL et de l'Académie russe des sciences.

Aborder le « dilemme du choix » des chercheurs

« Les chercheurs sont aujourd'hui confrontés à un véritable « dilemme du choix » : il existe jusqu'à 10 motifs alternatifs, souvent dissemblables, pour un même facteur de transcription », explique Philipp Bucher, chef de groupe au SIB et coauteur principal de l'étude. « Il est donc d'autant plus urgent de disposer d'informations fiables sur la précision des modèles prédisant les sites de liaison des facteurs de transcription. »
Dans un article publié dans Genome Biology, les scientifiques ont abordé la question de la précision des motifs de liaison des facteurs de transcription en comparant 4972 motifs provenant de trois ressources différentes sur 3161 ensembles de données expérimentales pour des facteurs de transcription humains générés à l'aide de trois technologies différentes.

Résultats et protocoles en libre accès

L'ensemble complet de plus de 15 millions de valeurs de performance issues de cette étude comparative « tous contre tous » est disponible gratuitement dans le référentiel en libre accès Zenodo. Afin de faciliter la reproductibilité des calculs, les protocoles de benchmarking ont été conteneurisés sous forme d'images Docker et mis à la disposition du public sur GitHub.

Vers une meilleure prédiction des effets des mutations sur les maladies

Les résultats de cette étude aideront les chercheurs à évaluer de manière critique les recherches publiées basées sur les prédictions des sites de liaison des facteurs de transcription. Ils leur permettront également de sélectionner les sous-ensembles de motifs optimaux pour des cas d'utilisation particuliers. « À long terme, nous espérons que les protocoles informatiques développés dans le cadre de notre effort d'analyse comparative conduiront à une amélioration significative des outils bioinformatiques permettant de prédire les effets des mutations génétiques régulatrices dans divers contextes pathologiques », conclut Bucher.

Reference(s)

Ambrosini G et al. Enseignements tirés d'une étude comparative exhaustive sur les motifs de liaison des facteurs de transcription. Genome Biology, 11 mai 2020