Vai al contenuto principale

Traduzione automatica

Questo contenuto è stato tradotto automaticamente. Può contenere errori o non riflettere lo stile editoriale dell'istituto. In caso di dubbio, consultare la versione originale in inglese.

L'intelligenza artificiale ha vinto i suoi primi premi Nobel, anche per strumenti rivoluzionari nel campo delle scienze della vita, e l'IA generativa è sempre più potente e diffusa. SIB sta catalizzando, facilitando e sfruttando questi e altri progressi trasformativi nell'IA.

Le competenze e i dati di SIB fondamentali per il modello di IA vincitore del premio Nobel

AlphaFold è stato premiato con il Premio Nobel per la Chimica 2024 per la sua capacità di prevedere le strutture tridimensionali delle proteine a partire dalla loro sequenza aminoacidica. Il modello è stato sviluppato sulla base di decenni di esperienza nel campo della bioinformatica, incluse tre risorse aperte e iniziative sviluppate e co-sviluppate dagli scienziati del SIB:

  • Il modello di IA ha imparato a identificare le relazioni tra le sequenze aminoacidiche e le strutture tridimensionali analizzando centinaia di milioni di sequenze proteiche di alta qualità in UniProt. Le annotazioni degli esperti sulla struttura delle proteine hanno inoltre aiutato gli sviluppatori di AlphaFold a comprendere e ottimizzare le prestazioni del modello.
  • La sua impressionante accuratezza è stata dimostrata per la prima volta dal CASP, un concorso globale che si tiene ogni due anni e che verifica l'accuratezza dei metodi computazionali rispetto a strutture proteiche determinate sperimentalmente, inedite e molto complesse. Il leader del gruppo SIB Torsten Schwede è membro del comitato organizzativo del CASP dal 2011.
  • L'applicabilità di AlphaFold a tutte le proteine umane è stata successivamente confermata utilizzando i dati di CAMEO, che esegue lo stesso test di accuratezza del CASP, ma su un insieme più ampio di proteine pubblicato settimanalmente.

Scopri come gli scienziati del SIB hanno mappato l'universo delle proteine dai dati di AlphaFold

Protein structure predicted by AlphaFold

Struttura proteica prevista da AlphaFold (blu) e sperimentalmente (verde)

Fornitura di dati di formazione di altissimo livello attraverso database curati

I database curati da SIB forniscono dati e conoscenze altamente affidabili dai quali i modelli di IA possono imparare a riconoscere modelli e fare previsioni rilevanti. Uno di questi, UniProt, è stato fondamentale per l'addestramento di AlphaFold (vedi riquadro). Molti altri sono disponibili e vengono utilizzati in applicazioni di IA per affrontare sfide complesse nel campo delle scienze della vita.

Le competenze e i dati di SIB fondamentali per il modello di IA vincitore del premio Nobel

AlphaFold è stato premiato con il Premio Nobel per la Chimica 2024 per la sua capacità di prevedere le strutture tridimensionali delle proteine a partire dalla loro sequenza aminoacidica. Il modello è stato sviluppato sulla base di decenni di esperienza nel campo della bioinformatica, incluse tre risorse aperte e iniziative sviluppate e co-sviluppate dagli scienziati del SIB:

  • Il modello di IA ha imparato a identificare le relazioni tra le sequenze aminoacidiche e le strutture tridimensionali analizzando centinaia di milioni di sequenze proteiche di alta qualità in UniProt. Le annotazioni degli esperti sulla struttura delle proteine hanno inoltre aiutato gli sviluppatori di AlphaFold a comprendere e ottimizzare le prestazioni del modello.
  • La sua impressionante accuratezza è stata dimostrata per la prima volta dal CASP, un concorso globale che si tiene ogni due anni e che verifica l'accuratezza dei metodi computazionali rispetto a strutture proteiche determinate sperimentalmente, inedite e molto complesse. Il leader del gruppo SIB Torsten Schwede è membro del comitato organizzativo del CASP dal 2011.
  • L'applicabilità di AlphaFold a tutte le proteine umane è stata successivamente confermata utilizzando i dati di CAMEO, che esegue lo stesso test di accuratezza del CASP, ma su un insieme più ampio di proteine pubblicato settimanalmente.

Scopri come gli scienziati del SIB hanno mappato l'universo delle proteine dai dati di AlphaFold

Protein structure predicted by AlphaFold

Struttura proteica prevista da AlphaFold (blu) e sperimentalmente (verde)

  • Trasformare i dati in conoscenze pronte per l'IA
    I nostri database sono aperti, FAIR e leggibili da macchine, grazie a dati armonizzati, metadati ricchi e un rigoroso controllo di qualità.
    I database curati da esperti includono inoltre informazioni rilevanti e continuamente aggiornate provenienti dalla letteratura scientifica e da altre fonti. I nostri biocuratori annotano le sequenze proteiche in UniProt, ad esempio, con conoscenze sulla struttura, la funzione e altro ancora delle proteine.
    Questa codifica esplicita di informazioni complesse in formati leggibili da macchine è essenziale per i progressi dell'IA nel campo scientifico.
    • Una ricca quantità di dati di addestramento disponibili gratuitamente
      SIB co-sviluppa database aperti e curati che coprono biomolecole e processi in tutto l'albero della vita.
      Ne sono un esempio l'espressione genica (Bgee), le linee cellulari (Cellosaurus), i carboidrati (Glyco@Expasy), le reazioni (Rhea), le interazioni proteiche (STRING), i lipidi (SwissLipids), i genomi dei patogeni (SPSP), gli ortologhi (SwissOrthology), le sequenze e le strutture proteiche (UniProt, Swiss-Model) e le funzioni geniche (Gene Ontology).
  • Formazione su dati sensibili
    Sviluppiamo anche metodi etici e sicuri per l'analisi AI di dati umani che non possono essere condivisi apertamente. L'analisi federata, ad esempio, consente di accedere ai dati rilevanti in un ambiente sicuro senza condividere alcuna informazione personale. 
    Gli scienziati del SIB stanno adottando questo approccio in diverse iniziative, tra cui l'iniziativa internazionale iCARE4CVD per la prevenzione e il trattamento personalizzati delle malattie cardiovascolari (per saperne di più) e BioMedIT, l'ambiente di ricerca affidabile dello Swiss Personalized Health Network (SPHN; per saperne di più).

Ottenere informazioni utili attraverso la rappresentazione della conoscenza

Un singolo database è molto più potente quando le conoscenze in esso contenute sono collegate ad altri database. Gli scienziati della SIB colmano il divario tra i silos di dati di diversi campi e paesi sviluppando e implementando sistemi per rappresentare formalmente le conoscenze, come vocabolari standardizzati per rappresentare entità biologiche e le loro relazioni (ad esempio geni, proteine, metaboliti, specie, malattie).

Ciò consente all'intelligenza artificiale e ai ricercatori di recuperare ed elaborare efficacemente dati provenienti da diverse fonti, scoprire connessioni tra questi dati e ottenere così una visione olistica e integrata di sistemi biologici complessi.

Alcuni esempi includono:

  • lo sviluppo di scoperte basate sull'IA nell'intera raccolta dei risultati della ricerca europea, attraverso il progetto Data Commons dell'European Open Science Cloud (EOSC) (per saperne di più);
  • abilitare l'oncologia di precisione basata sull'IA convertendo le linee guida PDF non strutturate per la cura del cancro in procedure di trattamento strutturate e interoperabili e creando uno strumento di IA per analizzare le procedure e i dati clinici storici al fine di prevedere il trattamento migliore per i singoli pazienti, nell'ambito del progetto AI Tumor Board con ospedali svizzeri;
  • promuovere la consultazione assistita dall'intelligenza artificiale delle conoscenze botaniche curate, collegando i dati chimici sulle piante a informazioni quali le interazioni tra le specie e le caratteristiche nell'ambito dell'iniziativa Digital Botanical Gardens.

Maggiori informazioni sulla rappresentazione della conoscenza sono disponibili su SIB.

Garantire risultati affidabili attraverso il benchmarking

Come possono gli sviluppatori di IA – e gli utenti dei loro modelli – avere fiducia nelle previsioni dell'IA? E come possono i ricercatori sapere quale strumento di IA è il migliore per un determinato compito? L'esperienza di benchmarking di SIB ha risposto a queste domande per AlphaFold (vedi riquadro sopra) e consente una valutazione rigorosa e una messa a punto di molte altre analisi computazionali e di IA.

I nostri scienziati:

  • forniscono set di dati di riferimento gold standard che fungono da input standardizzati per il confronto tra strumenti di IA, da risultati target rispetto ai quali valutare le previsioni e da risorse per la messa a punto di modelli per campi specifici o per la valutazione della qualità dei dati prima delle analisi;
  • sviluppano strumenti software di benchmarking per valutare le prestazioni dell'IA rispetto ai dati di riferimento o ad altri modelli, evidenziare le aree di miglioramento e aiutare i ricercatori a selezionare il modello più adatto alle loro esigenze.

Gli esempi includono strumenti e set di dati per valutare le previsioni relative al ripiegamento e all'interazione delle proteine (CAMEO e CASP; vedi riquadro sopra), la qualità del proteoma (SwissOrthology) e la qualità del genoma e del metagenoma (BUSCO e LEMMI); un set di dati per mettere a punto modelli di IA generativa (vedi sotto) per la curatela di dati specializzati (EnzChemRED); e un sistema che garantisce un benchmarking riproducibile e neutrale degli strumenti di biologia computazionale secondo i principi FAIR (Findable, Accessible, Interoperable and Reusable) (Omnibenchmark).

Di IA generativa e LLM

L'IA generativa comprende sistemi in grado di creare nuovi contenuti, da testi e immagini a video, musica e molto altro ancora. I modelli linguistici di grandi dimensioni (LLM), un tipo fondamentale di IA generativa, vengono addestrati su dati testuali estesi, tra cui sequenze genetiche o codici informatici, per riassumere, generare e prevedere nuovi contenuti. Modelli come ChatGPT e BioBERT ne sono un esempio: ChatGPT eccelle nella generazione di testi per chatbot e nella scrittura creativa, mentre BioBERT si concentra sui testi biomedici (ovvero è pre-addestrato su tali testi). Gli LLM utilizzano tecniche di deep learning, in particolare i trasformatori, per analizzare e comprendere i modelli linguistici da vasti set di dati e per prevedere la "parola" o la sequenza di parole successiva in base al contesto.

Accelerare le scoperte nel campo delle scienze della vita grazie all'intelligenza artificiale generativa

ChatGPT e una vasta gamma di altri modelli di IA generativa stanno rivoluzionando non solo la nostra vita quotidiana, ma anche la scienza. SIB sta abbracciando questa rivoluzione in diversi ambiti, dalle applicazioni cliniche alla generazione di conoscenze biologiche.

Di IA generativa e LLM

L'IA generativa comprende sistemi in grado di creare nuovi contenuti, da testi e immagini a video, musica e molto altro ancora. I modelli linguistici di grandi dimensioni (LLM), un tipo fondamentale di IA generativa, vengono addestrati su dati testuali estesi, tra cui sequenze genetiche o codici informatici, per riassumere, generare e prevedere nuovi contenuti. Modelli come ChatGPT e BioBERT ne sono un esempio: ChatGPT eccelle nella generazione di testi per chatbot e nella scrittura creativa, mentre BioBERT si concentra sui testi biomedici (ovvero è pre-addestrato su tali testi). Gli LLM utilizzano tecniche di deep learning, in particolare i trasformatori, per analizzare e comprendere i modelli linguistici da vasti set di dati e per prevedere la "parola" o la sequenza di parole successiva in base al contesto.

Alcuni esempi:

  • l'accelerazione delle scoperte biologiche e bioinformatiche con ExpasyGPT, uno strumento di IA generativa personalizzato integrato in Expasy, il portale svizzero di risorse bioinformatiche, che consente ai ricercatori di recuperare e compilare informazioni dai database SIB in modo più rapido e semplice che mai (per saperne di più);
  • generazione rapida di anticorpi personalizzati per combattere le malattie attraverso AntibodyGPT, che accelera il processo tradizionalmente lento di scoperta degli anticorpi monoclonali prevedendo le strutture degli anticorpi con le proprietà desiderate;
  • testare la capacità di ChatGPT di rispondere a domande mediche nella radioterapia (leggi la pubblicazione);
  • decifrazione del ruolo nascosto dell'RNA nel cancro attraverso l'esperienza nell'elaborazione del linguaggio naturale;
  • comprensione del processo di muta degli insetti integrando i dati relativi ai nomi delle specie con i dati di sequenza provenienti da diversi database pubblici utilizzando metodi di IA generativa nella risorsa MoultDB, che funge da riferimento per il settore.

Scopri come gli esperti SIB affrontano le sfide con l'IA generativa

IA generativa e biocurazione: un circolo virtuoso

L'interazione tra le possibilità offerte dall'intelligenza artificiale, e in particolare dai modelli di linguaggio grande (LLM), e l'importanza delle competenze umane è ben illustrata nel contesto della biocurazione, settore in cui il SIB è leader riconosciuto. La biocurazione è l'arte di estrarre con competenza conoscenze dalla letteratura biologica e biomedica per costruire un'enciclopedia accurata, affidabile e aggiornata al servizio della scienza in generale.

Approfondimenti sull'intelligenza artificiale affidabile