Uno strumento di IA generativa personalizzato integrato in Expasy, il portale svizzero di risorse bioinformatiche, consente ai ricercatori di recuperare e compilare informazioni dai database del SIB in modo più rapido e semplice che mai. ExpasyGPT fornisce risposte rapide e accurate, consente nuove intuizioni attraverso query complesse sui database e rende le scoperte biologiche e bioinformatiche più ampiamente accessibili. Le sue potenti capacità derivano dall'esperienza del SIB nei modelli linguistici di grandi dimensioni (LLM) e nella rappresentazione della conoscenza.

Le risorse di bioinformatica sviluppate dai gruppi del SIB sono utilizzate da ricercatori e medici di tutto il mondo per studiare la vita e affrontare sfide globali, dalla diagnosi delle malattie allo sviluppo di farmaci efficaci, dalla coltivazione di nuove colture alla protezione della biodiversità. Queste risorse sono anche una preziosa fonte di conoscenze biologiche affidabili e liberamente accessibili per insegnanti, studenti e il grande pubblico.

Scopri come Il SIB promuove risorse di biodati di livello mondiale

Consentire query complesse nei database svizzeri dedicati alle scienze della vita

Expasy è un potente portale di ricerca che raccoglie oltre 160 database aperti e strumenti software di alta qualità sviluppati dai gruppi Il SIB. Queste risorse complete, che coprono un'ampia varietà di biomolecole e processi biologici, forniscono conoscenze aggiornate nel campo delle scienze della vita e consentono ai ricercatori di condividere, analizzare e interpretare i dati biologici.

Le risorse di bioinformatica sviluppate dai gruppi del SIB sono utilizzate da ricercatori e medici di tutto il mondo per studiare la vita e affrontare sfide globali, dalla diagnosi delle malattie allo sviluppo di farmaci efficaci, dalla coltivazione di nuove colture alla protezione della biodiversità. Queste risorse sono anche una preziosa fonte di conoscenze biologiche affidabili e liberamente accessibili per insegnanti, studenti e il grande pubblico.

Scopri come Il SIB promuove risorse di biodati di livello mondiale

La ricerca per parole chiave di Expasy consente già agli utenti di recuperare e visualizzare comodamente le informazioni rilevanti in tutte le risorse del SIB, come i dati disponibili per un particolare organismo o gene, o gli strumenti per un caso d'uso specifico, senza bisogno di alcuna conoscenza dell'ecosistema delle risorse.

ExpasyGPT, rilasciato in versione beta, è il passo successivo per accelerare le scoperte biologiche e bioinformatica su Expasy. Attraverso domande in linguaggio naturale, gli utenti possono ora:

  • estrarre informazioni dai database del SIB che non sono possibili tramite la ricerca per parole chiave;
  • generare ed eseguire query complesse tra database diversi in pochi secondi;
  • compilare grandi quantità di dati da più database senza alcun processo manuale;
  • ottenere informazioni più accurate sulle risorse del SIB rispetto agli strumenti LLM generici come ChatGPT.

Queste funzionalità, combinate con un'interfaccia di chat intuitiva, consentono un notevole risparmio di tempo. Inoltre, rendono la scoperta di dati e risorse ancora più facile per gli utenti con esperienza limitata nella bioinformatica o in un campo biologico specifico.

ExpasyGPT è stato realizzato da diversi team della rete Il SIB con competenze nella rappresentazione della conoscenza e nell'IA generativa. Lo strumento è l'ultimo esempio del nostro lavoro volto a superare i confini della scienza dei dati, accelerare l'innovazione nel campo delle scienze della vita e garantire che le conoscenze biologiche siano ampiamente accessibili a beneficio della scienza e della società.

Prova ExpasyGPT

Il set di sei database del SIB è composto da:

Tutte e sei sono risorse SIB e quattro sono riconosciute come fondamentali per la comunità internazionale delle scienze della vita: tre come ELIXIR Core Data Resource e quattro come Global Core Biodata Resource.

Database interconnessi attraverso la rappresentazione della conoscenza

Gli scienziati del SIB avevano già implementato vocabolari standard, o "ontologie", per descrivere le risorse del SIB attraverso parole chiave. Il nostro focus group sul Web semantico ha ampliato questo approccio creando ontologie per descrivere le relazioni tra diversi tipi di dati biologici. Il focus group ha quindi strutturato queste informazioni, chiamate metadati, e una serie di database al SIB (vedi riquadro) come grafici di conoscenza.

Il set di sei database del SIB è composto da:

Tutte e sei sono risorse SIB e quattro sono riconosciute come fondamentali per la comunità internazionale delle scienze della vita: tre come ELIXIR Core Data Resource e quattro come Global Core Biodata Resource.

Questi grafici formano una rete integrata e leggibile da computer di dati collegati che interconnette senza soluzione di continuità le informazioni memorizzate in diversi database, come la relazione tra una proteina specifica, un tipo di cellula e una malattia. Questa rappresentazione della conoscenza consente di recuperare informazioni più complesse dai database e tra di essi rispetto a quanto sia possibile con le ricerche per parole chiave nel testo, e costituisce uno dei pilastri di ExpasyGPT.

Maggiori informazioni sulla rappresentazione della conoscenza

Leggi l'articolo sul SIB Semantic Web of data

Più di un chatbot grazie all'IA generativa personalizzata

Lo strumento si basa anche sui Large Language Models, un recente tipo di IA generativa in grado di rispondere rapidamente a domande in linguaggio naturale. L'unità di rappresentazione della conoscenza del gruppo di Vital-ITComputational biology di SIB, con il supporto del nostro team Biodata Resources, ha collegato un LLM ai grafici di conoscenza sopra descritti e a 1.000 query di database campione. Ciò conferisce allo strumento un elevato livello di conoscenza specialistica, il che significa che fornisce risposte più accurate rispetto a ChatGPT e ad altri LLM con formazione generica. Inoltre, l'integrazione di ExpasyGPT con i grafici di conoscenza significa che non necessita di un costante Training per rimanere al passo con le grandi quantità di nuovi dati e informazioni che vengono continuamente aggiunti ai database del SIB.

Le risposte di ExpasyGPT assumono due forme: risposte dirette a domande generali sulle risorse del SIB e il codice per le cosiddette query SPARQL per recuperare e compilare informazioni complesse da più database. Quest'ultima è una funzione particolarmente potente. Le query SPARQL estraggono informazioni più approfondite rispetto alla ricerca di parole chiave nei database ed evitano la compilazione manuale di dati provenienti da fonti diverse, ma possono essere difficili e richiedere molto tempo per essere scritte, anche per gli esperti.

Leggi l'articolo sulla generazionedi query SPARQL basata su LLM

Leggi l'articolo sulle query di database di esempio

Esplora i progetti di IA generativa al SIB

Risposte trasparenti e un'interfaccia intuitiva

Il team Information Technology di Il SIB ha adottato un approccio di progettazione incentrato sull'utente per sviluppare il terzo pilastro di ExpasyGPT, un'interfaccia di chat intuitiva integrata in Expasy. Gli utenti ricevono una spiegazione su come sono state generate le query SPARQL e possono facilmente visualizzare le fonti sottostanti e il ragionamento alla base di ciascuna risposta. Lo strumento richiederà anche ulteriori informazioni, se necessario. Inoltre, gli utenti possono eseguire automaticamente le query SPARQL generate direttamente dalla chat, nonché modificarle ulteriormente se lo desiderano.

Leggi l'articolo sulle interfacce dell'editor di query SPARQL

Maggiori informazioni sullo sviluppo di ExpasyGPT

Basato sulla versione beta

Questa prima versione di ExpasyGPT offre prestazioni ottimali per i sei database sopra elencati. Presto saranno integrati anche altri database del SIB interrogabili tramite SPARQL, come la Swiss Pathogen Surveillance Platform. Il lavoro a lungo termine prevede l'integrazione di tutti i database e gli strumenti software catalogati su Expasy, il miglioramento dei risultati per le query biologiche e bioinformatiche generali e l'ottimizzazione dell'esperienza utente. Inoltre, il sistema è completamente open source e può essere riutilizzato con qualsiasi grafico di conoscenza di interesse