Les technologies telles que ChatGPT peuvent-elles aider les chercheurs en sciences de la vie à explorer des données qui leur sont peu familières ? C'est la question que notre nouvelle unité Knowledge Representation a étudiée à l'aide d'exemples concrets tirés des principales bases de données ouvertes et des outils logiciels du SIB. Ces exemples montrent le potentiel de l'IA conversationnelle pour décrire des ensembles de données, mais aussi pour générer et expliquer des requêtes complexes sur plusieurs ensembles de données, c'est-à-dire des graphes de connaissances fédérés. Découvrez comment ces technologies peuvent aider les chercheurs en sciences de la vie à tirer parti de la richesse des données ouvertes, comment elles peuvent contribuer à rendre ces données FAIR (faciles à trouver, accessibles, interopérables et réutilisables) et pourquoi la prudence reste de mise dans ce processus.

Que sont les graphes de connaissances ?

Un graphe de connaissances est un type de base de données graphique qui stocke des informations sur des entités (par exemple, des protéines, des gènes, des organes) et leurs relations entre elles (par exemple, « est exprimé dans », « code pour »). Les entités sont représentées par des nœuds et les relations entre les entités par des arêtes. Les graphes de connaissances permettent aux utilisateurs de mieux comprendre des données complexes. Ils permettent de relier diverses bases de données interopérables, par exemple en effectuant des requêtes fédérées entre elles afin de révéler de nouvelles informations biologiques.

Démocratisation de l'accès à la représentation des connaissances

« Les graphes de connaissances constituent un moyen simple mais puissant d'organiser et de relier des informations de manière intuitive », explique Ana Claudia Sima, qui dirige la nouvelle unité Représentation des connaissances avec Tarcisio Mendes de Farias, au sein du groupe Vital-IT du SIB. « Ces dernières années, ils ont été de plus en plus adoptés dans le monde universitaire et industriel, avec un large éventail d'applications, notamment dans les moteurs de recherche, l'amélioration des diagnostics ou la réorientation des médicaments », explique-t-elle. Cependant, la récupération d'informations à partir de graphes de connaissances dépasse encore les compétences de la plupart des utilisateurs, car elle nécessite une bonne connaissance des langages techniques de requête. L'équipe a co-rédigé un article dans lequel elle réfléchit au rôle des chatbots basés sur l'intelligence artificielle (IA), tels que ChatGPT, dans la facilitation de l'accès aux données des graphes de connaissances complexes.

L'IA conversationnelle pour rapprocher les données des utilisateurs

À l'aide de certaines des principales bases de données et logiciels Open Science du SIB (Bgee, OMA et UniProt), l'équipe montre comment un chatbot IA peut être utilisé pour accélérer la FAIRification des ensembles de données, en tirant parti à la fois de la documentation publique existante et de l'apport d'experts. Par exemple, en résumant avec précision les ensembles de données dans une description de haut niveau, compréhensible pour les utilisateurs finaux, il contribue à la trouvabilité des données. Et en générant des requêtes fédérées à travers des graphiques de connaissances publics à partir de questions en langage naturel fournies par les utilisateurs (par exemple « Donnez-moi la liste des gènes humains associés au cancer et leurs orthologues exprimés dans le cerveau du rat »), il facilite l'accessibilité et la réutilisation. L'équipe discute également des limites des technologies actuelles d'IA conversationnelle et de la prudence à exercer lors de leur utilisation.
La présentation préliminaire fournie dans le pré-print a été acceptée lors d'un atelier sur les solutions du web sémantique pour l'analyse des données biomédicales. Elle sera développée pour inclure davantage de cas d'utilisation et discutée au sein de la communauté bioinformatique dans les mois à venir.

  Explorez le catalogue croissant de graphes de connaissances bioinformatiques interopérables au SIB   

  En savoir plus sur l'offre de services du SIB en matière de FAIRification

Reference(s)

Sima A.C. et de Farias T.M., « On the potential of artificial intelligence chatbots for data exploration of federated bioinformatics knowledge graphs », SeWebMeDa’23 : 6e atelier sur les solutions web sémantiques pour l'analyse de données biomédicales à grande échelle. Prépublication disponible sur arXiv.