A volte vista come una minaccia, altre volte come un'opportunità, l'avvento dell'IA generativa sta avendo un impatto profondo sulla nostra società e sulla scienza. Gli scienziati del SIB sono consapevoli delle sfide e le stanno affrontando attivamente.

Le applicazioni dell'IA generativa in bioinformatica coprono già un'ampia varietà di argomenti. Tuttavia, un messaggio accomuna tutti questi esempi: non esistono modelli validi per tutti i casi e occorre prestare attenzione per garantire che i benefici superino i costi. Il percorso verso un'intelligenza artificiale affidabile ed etica è infatti costellato di sfide, dalle imprecisioni e dai pregiudizi tossici all'impatto ambientale. Il SIB è l'ambiente ideale in cui le competenze specifiche e i dati di alta qualità si uniscono per dare vita a modelli di intelligenza artificiale che apportano benefici sia alla ricerca che alla società.

Necessità di grandi quantità di dati di alta qualità

Per generare previsioni e risultati accurati, ma anche per evitare pregiudizi che possono portare a disuguaglianze e questioni etiche, i modelli devono essere addestrati su dati affidabili, strutturati ed etichettati.
Democratizzare i dati per renderli accessibili e comprensibili sia agli esseri umani che alle macchine è al centro del nostro lavoro. Lo facciamo assicurandoci che i nostri set di dati seguano i principi FAIR (Findable, Accessible, Interoperable and Reusable), ad esempio attraverso grafici di conoscenza, ovvero mappe che mostrano come diverse parti di conoscenza sono collegate tra loro (ad esempio una specie, i suoi geni, le proteine e la loro bioattività), aiutandoci a comprendere le relazioni e a trovare più facilmente informazioni utili.

L'iniziativa svizzera sull'intelligenza artificiale mira a sfruttare il nuovo supercomputer Alps del Centro nazionale di supercalcolo per costruire istanze accademiche di modelli simili a ChatGPT. Gli scienziati del SIB, tra cui il gruppo di Fabio Rinaldi, la nostra unità di rappresentazione della conoscenza e il gruppo UniProt, stanno contribuendo al progetto con dati e casi d'uso, come la banca dati universale sulle proteine UniProt. L'integrazione di tali fonti autorevoli di conoscenza contribuirà a garantire progressi verso un'IA affidabile.

Impatto ambientale

Più grande è il modello, maggiore è la potenza di calcolo e il tempo necessario per l'esecuzione, con un impatto significativo sulla nostra impronta di carbonio.

I nostri team ottimizzano i modelli per garantire la migliore adattabilità in base alle esigenze, dai modelli specifici per dominio addestrati su set di dati come PubMed con parametri relativamente pochi, ai modelli linguistici generali come GPT-4 con set di dati di addestramento molto più grandi e molti più parametri. Un focus group a livello del SIB è inoltre dedicato allo studio dell'impatto ambientale della nostra attività IT.

Trovare il modello appropriato

I ricercatori devono districarsi in un labirinto di modelli LLM sempre più diversificati, ciascuno con le proprie specificità e i propri set di addestramento precedenti.

Il benchmarking effettuato dagli esperti del SIB tra modelli in domini specifici (ad esempio biodiversità, proteine e clinica) funge da guida per i ricercatori di tutto il mondo.

Leggi la pubblicazione

Allucinazioni

Abbiamo tutti assistito a errori nelle risposte di ChatGPT. Tuttavia, questi potrebbero non essere evidenti se non si è esperti in materia.

Le valutazioni critiche vengono effettuate dagli esperti di settore del SIB, che eccellono nella valutazione dei modelli e sono in grado di interpretare e individuare gli errori nelle loro risposte. Ciò avviene, ad esempio, sviluppando test specifici per verificare i risultati del modello, come la mappatura delle reazioni biochimiche estratte dall'LLM su quelle conosciute per identificare le allucinazioni.

Preoccupazioni relative alla privacy dei dati sensibili

L'accesso indesiderato da parte di terzi a dati sensibili come le informazioni personali è un aspetto preoccupante dell'uso diffuso dei modelli di linguaggio large (LLM).

Il SIB di Janna Hastings, che lavora con dati clinici sensibili (ad esempio, note cliniche storiche), sta ad esempio creando istanze locali di modelli open source per consentire ai medici di utilizzare la tecnologia per studi nel mondo reale, senza condividere pubblicamente informazioni sensibili.

Lavoro interdisciplinare tra sviluppatori di modelli ed esperti del settore

Per migliorare la spiegabilità e l'accuratezza dei modelli LLM, è fondamentale che gli sviluppatori e gli esperti del settore lavorino fianco a fianco.

In qualità di bioinformatici e biologi computazionali, abbiamo sia la competenza nel campo biologico sia la capacità di valutare quali algoritmi siano appropriati in un determinato contesto. Questo ci rende partner strategici nel dialogo con gli ingegneri LLM su argomenti di scienze della vita.