Le tecnologie come ChatGPT possono aiutare i ricercatori nel campo delle scienze della vita a esplorare dati che non conoscono bene? È questa la domanda che la nostra nuova unità di rappresentazione della conoscenza ha cercato di rispondere, attraverso esempi concreti tratti dai principali database aperti e strumenti software al SIB. Questi esempi mostrano il potenziale dell'IA conversazionale nel descrivere set di dati, nonché nel generare e spiegare query complesse su set di dati, ovvero grafici di conoscenza federati. Scoprite come queste tecnologie possono aiutare i ricercatori nel campo delle scienze della vita a trarre vantaggio dalla ricchezza dei dati aperti, come possono contribuire a rendere questi dati FAIR (Findable, Accessible, Interoperable, and Reusable, ovvero reperibili, accessibili, interoperabili e riutilizzabili) e i motivi per cui è comunque necessario prestare attenzione durante il processo.

Cosa sono i grafici di conoscenza

Un grafico di conoscenza è un tipo di database grafico che memorizza informazioni su entità (ad esempio proteine, geni, organi) e le loro relazioni reciproche (ad esempio "è espresso in", "codifica per"). Le entità sono rappresentate da nodi e le relazioni tra le entità da bordi. I grafici di conoscenza consentono agli utenti di comprendere meglio dati complessi. Rendono possibile collegare vari database interoperabili, ad esempio eseguendo query federate su di essi per rivelare nuove informazioni biologiche.

Democratizzare l'accesso alla rappresentazione della conoscenza

"I grafici di conoscenza sono un modo semplice ma potente per organizzare e collegare le informazioni in modo intuitivo", afferma Ana Claudia Sima, che guida la nuova unità di rappresentazione della conoscenza insieme a Tarcisio Mendes de Farias, nell'ambito del gruppo Vital-IT di al SIB. "Negli ultimi anni, hanno visto una crescente adozione nel mondo accademico e industriale, con una vasta gamma di applicazioni che includono motori di ricerca, diagnostica migliorata o riproposizione di farmaci", spiega. Tuttavia, il recupero di informazioni dai grafici di conoscenza è ancora al di là delle competenze della maggior parte degli utenti, poiché richiede familiarità con i linguaggi tecnici di interrogazione. Il team ha collaborato alla stesura di un articolo in cui riflette sul ruolo dei chatbot di intelligenza artificiale (AI), come ChatGPT, nel facilitare l'accesso ai dati di grafici di conoscenza complessi.

L'intelligenza artificiale conversazionale per avvicinare i dati agli utenti

Utilizzando alcuni dei principali database e software Open Science di Il SIB (Bgee, OMA e UniProt), il team mostra come un chatbot basato sull'intelligenza artificiale possa essere utilizzato per accelerare la FAIRificazione dei set di dati, sfruttando sia la documentazione pubblica esistente che il contributo di esperti. Ad esempio, riassumendo accuratamente i set di dati in una descrizione di alto livello, comprensibile per gli utenti finali, contribuisce alla reperibilità dei dati. Inoltre, generando query federate attraverso grafici di conoscenza pubblici basati su domande in linguaggio naturale fornite dagli utenti (ad esempio "Forniscimi l'elenco dei geni umani associati al cancro e dei loro ortologhi espressi nel cervello dei ratti"), facilita l'accessibilità e il riutilizzo. Il team discute anche i limiti delle attuali tecnologie di IA conversazionale e la cautela da esercitare nel loro utilizzo.
La panoramica preliminare fornita nella pre-pubblicazione è stata accettata in un workshop sulle soluzioni del Web semantico per l'analisi dei dati biomedici, sarà ulteriormente ampliata ad altri casi d'uso e discussa nella comunità bioinformatica nei prossimi mesi.

esplora il catalogo in continua crescita di grafici di conoscenza bioinformatica interoperabili al SIB

scopri di più sull'offerta di servizi di il SIB in materia di FAIRification

Reference(s)

Sima A.C. e de Farias T.M., Sul potenziale dei chatbot basati sull'intelligenza artificiale per l'esplorazione dei dati dei grafici di conoscenza bioinformatica federati, SeWebMeDa'23: 6° workshop sulle soluzioni web semantiche per l'analisi di dati biomedici su larga scala. Preprint disponibile su arXiv.