Un outil d'IA générative personnalisé intégré à Expasy, le portail suisse de ressources en bioinformatique, permet aux chercheurs de récupérer et de compiler des informations provenant des bases de données du SIB plus rapidement et plus facilement que jamais. ExpasyGPT fournit des réponses rapides et précises, permet d'obtenir de nouvelles informations grâce à des requêtes complexes dans les bases de données et rend les découvertes biologiques et bioinformatiques plus largement accessibles. Ses puissantes capacités proviennent de l'expertise du SIB dans les modèles linguistiques à grande échelle (LLM) et la représentation des connaissances.

Les ressources bioinformatiques développées par les groupes SIB sont utilisées par des chercheurs et des cliniciens du monde entier pour étudier la vie et relever des défis mondiaux, du diagnostic des maladies au développement de médicaments efficaces, en passant par la sélection de nouvelles cultures et la protection de la biodiversité. Ces ressources constituent également une source précieuse de connaissances biologiques ouvertes et fiables pour les enseignants, les étudiants et le grand public.

Découvrez comment le SIB favorise le développement de ressources biodatographiques de classe mondiale

Permettre des requêtes complexes dans les bases de données suisses sur les sciences de la vie

Expasy est un puissant portail de découverte pour plus de 160 bases de données ouvertes et outils logiciels de haute qualité développés par les groupes SIB. Couvrant une grande variété de biomolécules et de processus biologiques, ces ressources complètes fournissent des connaissances actualisées en sciences de la vie et permettent aux chercheurs de partager, d'analyser et d'interpréter des données biologiques.

Les ressources bioinformatiques développées par les groupes SIB sont utilisées par des chercheurs et des cliniciens du monde entier pour étudier la vie et relever des défis mondiaux, du diagnostic des maladies au développement de médicaments efficaces, en passant par la sélection de nouvelles cultures et la protection de la biodiversité. Ces ressources constituent également une source précieuse de connaissances biologiques ouvertes et fiables pour les enseignants, les étudiants et le grand public.

Découvrez comment le SIB favorise le développement de ressources biodatographiques de classe mondiale

La recherche par mot-clé d'Expasy permet déjà aux utilisateurs de retrouver et de visualiser facilement des informations pertinentes dans toutes les ressources du SIB, telles que les données disponibles pour un organisme ou un gène particulier, ou les outils adaptés à un cas d'utilisation spécifique, sans avoir besoin de connaître l'écosystème des ressources.

ExpasyGPT, disponible en version bêta, est la prochaine étape dans l'accélération des découvertes biologiques et bioinformatiques sur Expasy. Grâce à des questions en langage naturel, les utilisateurs peuvent désormais :

  • extraire des informations des bases de données SIB qui ne sont pas accessibles via la recherche par mots-clés ;
  • générer et exécuter des requêtes complexes entre plusieurs bases de données en quelques secondes ;
  • compiler de grandes quantités de données provenant de plusieurs bases de données sans aucun processus manuel ;
  • obtenir des informations plus précises sur les ressources SIB qu'avec des outils LLM généraux tels que ChatGPT.

Ces fonctionnalités, associées à une interface de chat conviviale, permettent un gain de temps considérable. Elles facilitent également la découverte de données et de ressources pour les utilisateurs ayant une expérience limitée en bioinformatique ou dans un domaine biologique spécifique.

ExpasyGPT a été développé par différentes équipes du réseau SIB possédant une expertise en représentation des connaissances et en IA générative. Cet outil est le dernier exemple en date de notre travail visant à repousser les limites de la science des données, à accélérer l'innovation dans les sciences de la vie et à garantir que les connaissances biologiques soient largement accessibles au profit de la science et de la société.

Essayez ExpasyGPT

L'ensemble des six bases de données SIB est le suivant :

  • Bgee (modèles d'expression génétique)
  • Cellosaurus (lignées cellulaires)
  • OMA (gènes apparentés entre espèces)
  • Rhea (réactions biochimiques)
  • SwissLipids (lipides)
  • UniProt (séquences protéiques et informations fonctionnelles).

Ces six ressourcessont toutes des ressources SIB, et quatre d'entre elles sont reconnues comme étant d'une importance fondamentale pour la communauté internationale des sciences de la vie: trois en tant que ressources ELIXIR Core Data Resource et quatre en tant que ressources Global Core Biodata Resource.

Bases de données interconnectées grâce à la représentation des connaissances

Les scientifiques du SIB avaient déjà mis en place des vocabulaires standard, ou « ontologies », pour décrire les ressources du SIB à l'aide de mots-clés. Notre groupe de travail sur le web sémantique a étendu cette approche en créant des ontologies pour décrire les relations entre différents types de données biologiques. Le groupe de travail a ensuite structuré ces informations, appelées métadonnées, et un ensemble de bases de données SIB (voir encadré) sous forme de graphiques de connaissances.

L'ensemble des six bases de données SIB est le suivant :

  • Bgee (modèles d'expression génétique)
  • Cellosaurus (lignées cellulaires)
  • OMA (gènes apparentés entre espèces)
  • Rhea (réactions biochimiques)
  • SwissLipids (lipides)
  • UniProt (séquences protéiques et informations fonctionnelles).

Ces six ressourcessont toutes des ressources SIB, et quatre d'entre elles sont reconnues comme étant d'une importance fondamentale pour la communauté internationale des sciences de la vie: trois en tant que ressources ELIXIR Core Data Resource et quatre en tant que ressources Global Core Biodata Resource.

Ces graphes forment un réseau intégré et lisible par machine de données liées qui interconnecte de manière transparente les informations stockées dans différentes bases de données, telles que la relation entre une protéine spécifique, un type de cellule et une maladie. Cette représentation des connaissances permet de récupérer des informations plus complexes à partir de bases de données et entre celles-ci que ce qui est possible avec des recherches par mots-clés dans du texte, et constitue l'un des piliers d'Expasygpt.

En savoir plus sur la représentation des connaissances

Lire l'article sur le SIB Le web sémantique des données

Plus qu'un simple chatbot grâce à une IA générative personnalisée

L'outil s'appuie également sur les modèles linguistiques à grande échelle (Large Language Models), un type récent d'IA générative capable de répondre rapidement à des questions en langage naturel. L'unité de représentation des connaissances du groupe Vital-IT Computational Biology du SIB, avec le soutien de notre équipe Biodata Resources, a connecté un LLM aux graphes de connaissances décrits ci-dessus ainsi qu'à 1 000 exemples de requêtes de base de données. Cela confère à l'outil un haut niveau de connaissances spécialisées, ce qui lui permet de fournir des réponses plus précises que ChatGPT et d'autres LLM formés de manière générale. De plus, l'intégration d'ExpasygPT aux graphes de connaissances signifie qu'il n'a pas besoin d'être constamment réentraîné pour rester à jour avec les grandes quantités de nouvelles données et informations qui sont continuellement ajoutées aux bases de données du SIB.

Les réponses d'ExpasyGPT prennent deux formes : des réponses directes à des questions générales sur les ressources du SIB et le code pour les requêtes SPARQL permettant de récupérer et de compiler des informations complexes à partir de plusieurs bases de données. Cette dernière fonction est particulièrement puissante. Les requêtes SPARQL permettent d'obtenir des informations plus approfondies que la recherche de mots-clés dans des bases de données et évitent la compilation manuelle de données provenant de différentes sources, mais leur rédaction peut s'avérer difficile et fastidieuse, même pour des experts.

Lire l'article sur la génération de requêtes SPARQL basée sur le LLM

Lire l'article sur les exemples de requêtes dans la base de données

Découvrez les projets d'IA générative au SIB

Des réponses transparentes et une interface conviviale

L'équipe Informatique du SIB a adopté une approche centrée sur l'utilisateur pour développer le troisième pilier d'ExpasyGPT, une interface de chat intuitive intégrée à Expasy. Les utilisateurs reçoivent une explication sur la manière dont les requêtes SPARQL ont été générées et peuvent facilement consulter les sources sous-jacentes et le raisonnement derrière chaque réponse. L'outil demandera également des informations supplémentaires si nécessaire. De plus, les utilisateurs peuvent exécuter automatiquement les requêtes SPARQL générées directement à partir du chat, ainsi que les modifier si nécessaire.

Lire l'article sur les interfaces d'éditeur de requêtes SPARQL

En savoir plus sur le développementd'Expasygpt

Basé sur la version bêta

Cette première version d'ExpasyGPT fonctionne mieux pour les six bases de données mentionnées ci-dessus. D'autres bases de données du SIB pouvant être interrogées à l'aide de SPARQL seront bientôt intégrées, comme la plateforme suisse de surveillance des agents pathogènes. À plus long terme, il est prévu d'intégrer toutes les bases de données et tous les outils logiciels répertoriés sur Expasy, d'améliorer les résultats pour les requêtes générales en biologie et en bioinformatique et d'optimiser l'expérience utilisateur. De plus, le système est entièrement open source et peut être réutilisé avec n'importe quel graphe de connaissances intéressant