L'IA générative combinée à la bioinformatique : un large éventail d'applications
Que se passe-t-il lorsque l'IA générative est entraînée à partir de textes scientifiques issus de la littérature biologique, de bases de données, de séquences génétiques ou de codes ? Découvrez ses applications développées par nos scientifiques pour stimuler la recherche, améliorer et innover les outils, et accélérer les découvertes dans différents domaines des sciences de la vie. Ces nouvelles technologies s'accompagnent également de défis et de lacunes. Découvrez comment les experts du SIB les abordent.
Exemples dans le domaine médical :
De l'IA générative et des LLM
L'intelligence artificielle (IA) générative englobe des systèmes capables de créer de nouveaux contenus, qu'il s'agisse de textes, d'images, de vidéos, de musique et bien plus encore. Les grands modèles de langage (LLM), un type clé d'IA générative, sont entraînés sur de vastes données textuelles, y compris des séquences génétiques ou du code informatique, pour résumer, générer et prédire de nouveaux contenus. Des modèles tels que ChatGPT et BioBERT en sont l'illustration, ChatGPT excellant dans la génération de textes pour les chatbots et l'écriture créative, tandis que BioBERT se concentre sur (c'est-à-dire qu'il est pré-entraîné sur) le texte biomédical. Les LLM utilisent des techniques d'apprentissage profond, en particulier des transformateurs, pour analyser et comprendre les modèles de langage à partir de vastes ensembles de données, et pour prédire le prochain « mot » ou la prochaine séquence de mots sur la base du contexte.
génération rapide d'anticorps personnalisés pour lutter contre les maladies
Les anticorps monoclonaux sont des protéines spéciales produites en laboratoire. En clonant un seul type de cellule immunitaire, il est possible d'obtenir une grande quantité d'anticorps identiques capables de reconnaître et de se lier à leur cible avec une grande précision. Ces cibles comprennent, par exemple, des germes ou des cellules malades. Cependant, leur découverte traditionnelle prend beaucoup de temps. Le SIB Group d'Andrea Cavalli travaille sur AntibodyGPT, un modèle de langage permettant de prédire la structure chimique d'un anticorps ayant une propriété souhaitée, afin d'accélérer leur développement.
De l'IA générative et des LLM
L'intelligence artificielle (IA) générative englobe des systèmes capables de créer de nouveaux contenus, qu'il s'agisse de textes, d'images, de vidéos, de musique et bien plus encore. Les grands modèles de langage (LLM), un type clé d'IA générative, sont entraînés sur de vastes données textuelles, y compris des séquences génétiques ou du code informatique, pour résumer, générer et prédire de nouveaux contenus. Des modèles tels que ChatGPT et BioBERT en sont l'illustration, ChatGPT excellant dans la génération de textes pour les chatbots et l'écriture créative, tandis que BioBERT se concentre sur (c'est-à-dire qu'il est pré-entraîné sur) le texte biomédical. Les LLM utilisent des techniques d'apprentissage profond, en particulier des transformateurs, pour analyser et comprendre les modèles de langage à partir de vastes ensembles de données, et pour prédire le prochain « mot » ou la prochaine séquence de mots sur la base du contexte.
Répondre aux questions médicales en radio-oncologie
Dans le cadre d'une étude exploratoire impliquant le SIB Group de Janna Hastings, la remarquable capacité du ChatGPT à répondre à des questions dans le domaine médical a été testée dans le cas spécialisé de la radiothérapie. Il a répondu avec précision à la plupart des questions à choix multiples (94 %), mais moins bien aux réponses ouvertes, telles qu'évaluées par les oncologues (48 %). Une telle incohérence rend ces modèles inadaptés en tant que source autonome d'informations médicales, mais leurs capacités linguistiques en font une nouvelle interface utilisateur passionnante pour les bases de données et les directives.

Déchiffrer le rôle caché de l'ARN dans le cancer
Le groupe du SIB de Raphaëlle Luisier fait équipe avec des experts en traitement du langage naturel du SIB et de l'IDIAP pour étudier l'ARN, des molécules qui portent les instructions génétiques et contribuent à la fabrication des protéines dans les cellules vivantes. Ils s'intéressent aux parties de l'ARN qui ne codent pas directement pour les protéines, et à la manière dont elles affectent des troubles humains complexes, tels que la neurodégénérescence et le cancer. Dans le cas du mélanome, un type de cancer de la peau, certains traitements ne fonctionnent pas bien au fil du temps, en particulier les médicaments appelés inhibiteurs de BRAF, et l'ARN pourrait y jouer un rôle.
Exemples dans le domaine de la biologie :
Comprendre comment les insectes se débarrassent de leur peau
Les arthropodes, tels que les insectes et les araignées, sont les créatures les plus diverses de la Terre, vitales pour la nature, l'agriculture et la santé. La mue périodique de leur enveloppe extérieure, appelée mue, est un élément clé de leur adaptabilité. Cependant, pour étudier ce processus, il manque une référence intégrée pour la dénomination des arthropodes. Dans le cadre d'une collaboration Sinergia, les groupes SIB de Marc Robinson-Rechavi et Frédéric Bastian et de Robert Waterhouse ont intégré des données de noms d'espèces avec des données de séquences provenant de différentes bases de données publiques en utilisant des méthodes d'IA générative dans la ressource MoultDB, qui sert de référence dans le domaine.

Converser avec des bases de données biologiques complexes
Les technologies de type ChatGPT peuvent-elles aider les chercheurs en sciences de la vie à explorer des données qu'ils ne connaissent pas ? C'est la question sur laquelle s'est penchée notre nouvelle unité de représentation des connaissances, à travers des exemples concrets tirés des principales bases de données ouvertes et des principaux outils logiciels du SIB. Ils ont montré le potentiel de l'IA conversationnelle pour décrire des ensembles de données biologiques, ainsi que pour générer et expliquer des requêtes complexes à travers eux. Si les avantages comprennent l'exploitation de la richesse des données ouvertes, les auteurs ont également souligné qu'il fallait faire preuve de prudence dans le processus.
IA générative et biocuration : un cycle vertueux
L'interaction entre les possibilités offertes par l'IA, et les LLM en particulier, et l'importance de l'expertise humaine est bien illustrée dans le contexte de la biocuration, où le SIB est un leader reconnu. La biocuration est l'art d'extraire de manière experte des connaissances de la littérature biologique et biomédicale pour construire une encyclopédie précise, fiable et à jour au service de la science au sens large.

Prédire la structure, la fonction et la séquence des protéines grâce à des données de haute qualité
La fonction d'une protéine est une information essentielle pour comprendre les processus moléculaires impliqués dans les maladies, le développement de médicaments ou l'activité enzymatique. Cette fonction résulte de la structure 3D de la protéine, elle-même déterminée par sa séquence d'acides aminés. Aujourd'hui, des modèles génératifs d'intelligence artificielle peuvent être utilisés pour prédire la structure d'une protéine à partir de sa séquence :
- La structure d'une protéine à partir de sa séquence, ce qui pourrait être utilisé pour concevoir de nouveaux médicaments qui la lient.
- La fonction d'une protéine à partir de sa séquence, ce qui pourrait aider à annoter un génome nouvellement assemblé, le plan de la vie.
- Une séquence de protéine qui pourrait remplir une fonction spécifique, telle que la dégradation d'un polluant environnemental.
Pour cela, de nombreux modèles, d'AlphaFold de Google DeepMind à ProtGPT2, sont formés sur la base de connaissances universelle des protéines UniProt, codéveloppée par le SIB, et où les protéines sont curées de manière extensive et fiable.