Regole eque per la condivisione dei dati di sequenze: nuova tabella di marcia in Nature Microbiology

Combinare apertura e correttezza nelle scienze della vita ad alta intensità di dati

30.09.2025
Copyright: University of Duisburg-Essen

Illustrazione metaforica dell'identificatore di riutilizzo dei dati: le informazioni genetiche nelle banche dati pubbliche sono collegate ai loro autori e riutilizzate in modo equo da altri ricercatori.

I dataset di DNA e RNA presenti negli archivi pubblici si stanno espandendo a un ritmo senza precedenti, creando un atlante globale della diversità microbica. Se da un lato l'accesso aperto continua a far progredire la ricerca, dall'altro presenta un dilemma: i dati faticosamente raccolti sono spesso resi disponibili in tutto il mondo prima che i ricercatori che li hanno generati possano pubblicare i propri risultati. In risposta, un consorzio internazionale di oltre 230 scienziati, guidato dal professor Alexander Probst dell'Università di Duisburg-Essen, ha pubblicato su Nature Microbiology una tabella di marcia per promuovere una gestione più equa dei dati di sequenza pubblici.

"I dati aperti sono il carburante della scienza moderna, soprattutto nell'era dei Big Data e del data mining", afferma il professor Alexander Probst, docente di metagenomica ambientale presso l'Università di Duisburg-Essen e il Centro di ricerca One Health Ruhr. "Ma la raccolta, l'elaborazione e l'analisi dei campioni richiede spesso mesi di lavoro. Questo contributo non deve rimanere senza riconoscimento".

L'accordo di Fort Lauderdale del 2003 prevedeva già che i dati sulle sequenze di DNA e RNA fossero resi pubblici entro 24 ore dalla loro generazione. All'epoca i volumi erano ancora gestibili e l'accesso aperto è diventato rapidamente un motore del progresso scientifico.

Oggi, invece, il sequenziamento ad alta velocità produce volumi così vasti da riempire intere server farm. In microbiologia, ciò ha permesso la creazione di atlanti digitali della diversità, costruiti a partire da campioni spesso raccolti durante ardue spedizioni e attraverso un meticoloso lavoro di laboratorio, spesso svolto da ricercatori alle prime armi. Una volta caricati, questi dati sono immediatamente accessibili in tutto il mondo, spesso molto prima che i raccoglitori originali abbiano avuto la possibilità di pubblicare i propri risultati.

Per allentare questa tensione, il team di autori ha sviluppato una tabella di marcia che cerca di bilanciare l'apertura e l'equità nelle scienze della vita ad alta intensità di dati. L'accesso aperto rimane il principio guida, ma ora è integrato da un codice d'onore che stabilisce regole più chiare per il riutilizzo.

Al centro delle raccomandazioni c'è l'introduzione di un "Data Reuse Information (DRI) Tag" per i set di dati, collegato all'identificativo digitale del ricercatore ORCID, che attribuisce in modo inequivocabile i contributi a una o più persone. I ricercatori che forniscono il proprio identificativo segnalano di fatto: contattateci prima di riutilizzare questi dati. Se l'identificatore è assente, i dati sono considerati liberamente riutilizzabili. Per il materiale non accompagnato da una pubblicazione formale, i raccoglitori originali dei dati dovrebbero essere coinvolti attivamente.

"L'accesso aperto rimane essenziale", sottolinea Probst. "Il valore di avere dati immediatamente disponibili è particolarmente evidente in tempi di pandemia. Senza di essi, il rapido sviluppo globale dei vaccini contro la SARS-CoV-2 non sarebbe stato possibile. Il nostro obiettivo è ora quello di stabilire pratiche quotidiane più eque che garantiscano a coloro che raccolgono i dati di essere riconosciuti e inclusi nei nuovi progetti".

La tabella di marcia è il risultato di ampie discussioni con diverse centinaia di ricercatori in tutto il mondo. Tra le basi c'è un'indagine internazionale sostenuta dalla professoressa Anke Heyder (Ruhr University Bochum). Lo studio è stato coordinato dal professor Alexander Probst insieme alla dottoressa Christina Moraru e al dottor André Soares (entrambi dell'Università di Duisburg-Essen), al professor Folker Meyer (Institute for Artificial Intelligence in Medicine/University Medicine Essen), alla professoressa Laura A. Hug (Università di Waterloo, Canada) e al professor Roland Hatzenpichler (Montana State University, USA).

Nell'ambito del Centro di ricerca collaborativa RESIST, che ha sostenuto l'iniziativa, il team di ricerca sull'acqua dell'Università di Duisburg-Essen sarà il primo a implementare la roadmap. "Qui studiamo come i fiumi rispondono a fattori di stress come gli inquinanti o le specie invasive. Abbiamo già raccolto più di 34 terabyte di dati di sequenza, non solo per singoli organismi, ma per intere comunità. Con questo livello di densità di dati, RESIST è il banco di prova perfetto per stabilire la nuova routine di gestione dei dati di ricerca", afferma Probst.

Nota: questo articolo è stato tradotto utilizzando un sistema informatico senza intervento umano. LUMITOS offre queste traduzioni automatiche per presentare una gamma più ampia di notizie attuali. Poiché questo articolo è stato tradotto con traduzione automatica, è possibile che contenga errori di vocabolario, sintassi o grammatica. L'articolo originale in Inglese può essere trovato qui.

Pubblicazione originale

Altre notizie dal dipartimento scienza

Le notizie più lette

Altre notizie dagli altri portali