Considérée tantôt comme une menace, tantôt comme une opportunité, l'avènement de l'IA générative a un impact profond sur notre société et la science. Les scientifiques du SIB sont conscients des défis à relever et s'y attellent activement.
Les applications de l'IA générative en bioinformatique couvrent déjà un large éventail de domaines. Cependant, un message ressort clairement de ces exemples : il n'existe pas de modèle universel et il convient d'être prudent afin de s'assurer que les avantages l'emportent sur les coûts. La route vers une IA fiable et éthique est en effet semée d'embûches, allant des inexactitudes et des biais toxiques à l'impact environnemental. Le SIB est l'environnement idéal où l'expertise dans le domaine et des données de haute qualité se rejoignent pour aboutir à des modèles d'IA qui profitent à la fois à la recherche et à la société.
Besoin de grandes quantités de données de haute qualité
Pour générer des prédictions et des résultats précis, mais aussi pour éviter les biais pouvant entraîner des inégalités et des problèmes éthiques, les modèles doivent être entraînés à partir de données fiables, structurées et étiquetées.
La démocratisation des données afin de les rendre accessibles et compréhensibles tant par les humains que par les machines est au cœur de notre travail. Pour ce faire, nous veillons à ce que nos ensembles de données respectent les principes FAIR (Findable, Accessible, Interoperable and Reusable), notamment grâce à des graphiques de connaissances, c'est-à-dire des cartes montrant comment différentes connaissances sont reliées entre elles (par exemple, une espèce, ses gènes, ses protéines et leur bioactivité), ce qui nous aide à comprendre les relations et à trouver plus facilement des informations utiles.
L'initiative suisse en matière d'IA vise à tirer parti du nouveau supercalculateur Alps du Centre national de supercalcul pour créer des instances académiques de modèles similaires à ChatGPT. Les scientifiques du SIB, notamment le groupe de Fabio Rinaldi, notre unité Knowledge Representation et le groupe Swiss-Prot, contribuent au projet en fournissant des données et des cas d'utilisation, tels que la base de connaissances universelle sur les protéines UniProt. L'intégration de telles sources de connaissances faisant autorité contribuera à garantir des progrès vers une IA fiable.
Impact sur l'environnement
Plus le modèle est grand, plus il nécessite de puissance de calcul et de temps d'exécution, ce qui a un impact significatif sur notre empreinte carbone.
Nos équipes affinent les modèles afin de garantir la meilleure adéquation possible aux besoins, qu'il s'agisse de modèles spécifiques à un domaine, formés sur des ensembles de données tels que PubMed avec relativement peu de paramètres, ou de modèles linguistiques généraux tels que GPT-4 avec des ensembles de données d'entraînement beaucoup plus importants et beaucoup plus de paramètres. Un groupe de réflexion à l'échelle du SIB est également dédié à l'étude de l'impact environnemental de notre activité informatique.
Trouver le modèle approprié
Les chercheurs doivent s'y retrouver dans un labyrinthe de modèles LLM de plus en plus diversifiés, chacun avec ses spécificités et ses ensembles de training antérieurs.
L'analyse comparative réalisée par les experts du SIB entre les modèles dans des domaines spécifiques (par exemple, la biodiversité, les protéines et le domaine clinique) sert de guide aux chercheurs du monde entier.
Hallucinations
Nous avons tous constaté des erreurs dans les réponses de ChatGPT. Mais celles-ci peuvent ne pas être évidentes si vous n'êtes pas un expert en la matière.
Les évaluations critiques sont effectuées par les experts du domaine du SIB, qui excellent dans l'évaluation des modèles et qui sont capables d'interpréter et de détecter les erreurs dans leurs réponses. Cela se fait, par exemple, en développant des tests spécifiques pour vérifier les résultats du modèle, tels que la mise en correspondance des réactions biochimiques extraites du LLM avec celles déjà connues afin d'identifier les hallucinations.
Préoccupations relatives à la confidentialité des données sensibles
L'accès indésirable de tiers à des données sensibles telles que les informations personnelles est un aspect préoccupant de l'utilisation généralisée des LLMs.
Le groupe SIB de Janna Hastings, qui travaille avec des données cliniques sensibles (par exemple, des notes cliniques historiques), met par exemple en place des instances locales de modèles open source afin de permettre aux cliniciens d'utiliser cette technologie pour des études concrètes, sans partager publiquement des informations sensibles.
Travail interdisciplinaire entre les développeurs de modèles et les experts du domaine
Pour améliorer la compréhensibilité et la précision des LLMs, il est essentiel que les développeurs et les experts du domaine travaillent main dans la main.
En tant que bioinformaticiens et biologistes computationnels, nous disposons à la fois de l'expertise dans le domaine biologique et de la capacité à évaluer quels algorithmes sont appropriés dans un contexte donné. Cela fait de nous des partenaires stratégiques dans le dialogue avec les ingénieurs LLM sur des sujets liés aux sciences de la vie.