Peer Bork, allora direttore generale ad interim del Laboratorio europeo di biologia molecolare (EMBL), ha tenuto un discorso programmatico all'edizione 2025 dell'evento biennale di punta del SIB, la [BC]2 Basel Computational Biology Conference.
Peer è scomparso nel gennaio 2026. Siamo onorati di aver potuto parlare con il bioinformatico di fama mondiale alla fine dello scorso anno sul ruolo dei dati nella ricerca e nell'innovazione nel campo delle scienze della vita. Questa intervista è pubblicata in omaggio alla sua visione.
Il SIB: Negli ultimi 30 anni, le scienze della vita sono diventate uno dei maggiori produttori di big data. Questo significa che ora anche i biologi devono essere data scientist?
Peer Bork: La biologia moderna è una scienza basata sui dati, quindi la maggior parte dei biologi deve essere in grado di comprendere, analizzare e lavorare con i dati.
La maggior parte lavora con grandi set di dati e strumenti specialistici, quindi la bioinformatica e la scienza dei dati sono diventate fondamentali in questo campo. Naturalmente, ciò significa anche che le risorse dati e il supporto degli specialisti dei dati sono essenziali per la ricerca e la scoperta in biologia. Senza di essi, i biologi non sarebbero in grado di condividere, accedere o analizzare grandi volumi di dati per ottenere nuove conoscenze e sviluppare soluzioni alle sfide globali.
Infine, l'intelligenza artificiale, che rivoluzionerà la biologia come altre discipline scientifiche, si basa sui dati, quindi è importante che i ricercatori progettino esperimenti in modo tale da creare dati "pronti per l'intelligenza artificiale".
Il ruolo essenziale delle risorse dati per la ricerca e l'innovazione è ben compreso e sostenuto dai governi e dagli enti di finanziamento della scienza?
P.B.: La dura verità è che senza risorse dati, le scienze della vita si fermerebbero. Queste risorse sono importanti quanto i laboratori, gli strumenti e persino l'elettricità, eppure raramente ricevono lo stesso riconoscimento e sono spesso date per scontate.
Poiché i volumi di dati generati e le conseguenti richieste di infrastrutture di dati continuano ad aumentare, la sfida – e l'opportunità – è quella di andare oltre il sostegno a progetti a breve termine e stabilire meccanismi di finanziamento sostenibili e un adeguato riconoscimento, a livello nazionale e oltre.
Il SIB ed EMBL: promuovere l'innovazione, la forza economica e il benessere
Come il SIB, EMBL consente la ricerca nel campo delle scienze della vita e la sua applicazione alla medicina, all'agricoltura, all'industria e alla società, fornendo dati biologici, strumenti e conoscenze disponibili liberamente. Il SIB collabora con EMBL su risorse dati di importanza globale, tra cui UniProt, la principale banca dati mondiale sulle sequenze e le funzioni delle proteine, e STRING, una banca dati sulle interazioni proteina-proteina, entrambe parte del portafoglio di risorse del SIB.
Maggiori informazioni sui vantaggi di UniProt per la scienza e la società
Il SIB: Le risorse di biodati sono passate dall'essere condivise tra singoli scienziati tramite e-mail e floppy disk, all'essere disponibili online tramite infrastrutture di ricerca come EMBL-EBI, il SIB ed ELIXIR. Qual è secondo lei l'aspetto più importante della loro prossima grande evoluzione?
P.B.: Il panorama dei dati biologici è frammentato: esistono una moltitudine di tipi di dati, produttori e formati che non sempre "comunicano" tra loro. Ci vuole un grande sforzo per rendere i dati FAIR, ovvero reperibili, accessibili, interoperabili e riutilizzabili. In poche parole, FAIR significa che i dati vengono prodotti una sola volta e poi riutilizzati più volte dagli scienziati di tutto il mondo per ottenere nuove conoscenze. I dati FAIR leggibili da macchine sono fondamentali per sfruttare le potenti tecnologie di intelligenza artificiale.
Ma nessuna organizzazione o paese può farlo da solo. I dati FAIR sono un gioco di squadra. Abbiamo bisogno di risorse centralizzate e federate in grado di comunicare tra loro. Anche le risorse centralizzate, come quelle fornite da SIB o EMBL (vedi riquadro), non sono in grado di catturare le enormi quantità di dati generati, che devono essere sottoposti a controlli di qualità e curati. È quindi necessario anche il contributo di conoscenze specialistiche di settore detenute da comunità di esperti in tutto il mondo. Si tratta di un esercizio di costruzione di comunità e infrastrutture.
Il SIB ed EMBL: promuovere l'innovazione, la forza economica e il benessere
Come il SIB, EMBL consente la ricerca nel campo delle scienze della vita e la sua applicazione alla medicina, all'agricoltura, all'industria e alla società, fornendo dati biologici, strumenti e conoscenze disponibili liberamente. Il SIB collabora con EMBL su risorse dati di importanza globale, tra cui UniProt, la principale banca dati mondiale sulle sequenze e le funzioni delle proteine, e STRING, una banca dati sulle interazioni proteina-proteina, entrambe parte del portafoglio di risorse del SIB.
Maggiori informazioni sui vantaggi di UniProt per la scienza e la società
Il SIB: Data l'enorme quantità di risorse dati disponibili e il continuo sviluppo di nuovi database e strumenti software, come possono le istituzioni, gli enti finanziatori e i governi essere sicuri che le risorse giuste vengano mantenute e ulteriormente sviluppate?
P.B.: Per sfruttare il potere delle risorse dati aperti, abbiamo bisogno di uno sforzo coordinato da parte dei finanziatori, dei governi e degli istituti scientifici. Insieme, dobbiamo prima di tutto riconoscere che le infrastrutture di biodati sono importanti per la scienza quanto le strade o l'elettricità lo sono per la società.
Dobbiamo anche sviluppare modelli di finanziamento stabili e a lungo termine, una responsabilità internazionale condivisa e maggiori meccanismi di incentivazione per gli scienziati che condividono i loro dati di ricerca in modo FAIR.
Organizzazioni come l'infrastruttura europea per le scienze della vita ELIXIR e la Global Biodata Coalition stanno già svolgendo un lavoro prezioso nel riunire le comunità, identificare le risorse dati critiche e collaborare con i finanziatori per garantirne il futuro. Ma abbiamo ancora molta strada da fare per garantire queste risorse dati critiche e sfruttarle in modo da offrire vantaggi reali alla scienza, alla sanità e alla vita quotidiana.
Il SIB: Può fornire un esempio di come le risorse interoperabili e federate consentano iniziative di scienze della vita di nuova generazione?
P.B.: Un esempio recente dell'EMBL e dei suoi partner è TREC, che sta per TRaversing Ecosystems. Si tratta di uno studio su larga scala degli ecosistemi e della loro risposta all'ambiente, dalle molecole alle comunità, che ha completato la parte di campionamento della sua prima spedizione lungo le coste europee. Insieme ai nostri partner, abbiamo sviluppato nuovi standard di campionamento e raccolto campioni biologici e dati ambientali da 115 località. Gli enormi volumi di dati raccolti, che saranno resi pubblici, possono essere utilizzati per comprendere e sviluppare soluzioni per sfide importanti, come l'inquinamento ambientale, la perdita di biodiversità, il riscaldamento globale e l'acidificazione degli oceani.
I dati grezzi di vario tipo sono archiviati in banche dati pubbliche, mentre i dati derivati sono integrati e ospitati da un hub dei dati e da un portale dedicato, che costituisce un esempio dell'interazione tra risorse federate e centralizzate. Per integrare i dati vengono utilizzati vari strumenti, tra cui alcuni sviluppati e supportati in collaborazione con il SIB, come STRING e mOTUs.
La prima spedizione TREC è stata una collaborazione con la Tara Ocean Foundation, il Centro europeo di risorse biologiche marine e molti istituti e stazioni marine in tutta Europa. Si tratta di un'iniziativa ambiziosa volta ad avvicinare la biologia molecolare alle scienze ambientali. In futuro, svilupperemo questa iniziativa applicando gli stessi principi di raccolta, archiviazione e analisi standardizzata dei dati, ad esempio, agli ecosistemi d'acqua dolce.
La biologia molecolare riguarda tutti gli esseri viventi e ha un enorme potenziale per contribuire ad altri settori delle scienze della vita, dalla salute umana all'agricoltura e alla sicurezza alimentare, alle scienze ambientali e oltre. Le possibilità sono davvero infinite.
Reference(s)
Peer Bork interviene alla Basel Computational Biology Conference[BC]2 del 2025. Crediti: il SIB