"Un motore di ricerca del DNA" cerca tra milioni di dati in pochi secondi
Ciò può accelerare in modo significativo la ricerca sulla resistenza agli antibiotici e sugli agenti patogeni sconosciuti
Annunci
È possibile identificare malattie ereditarie rare nei pazienti e individuare mutazioni specifiche nelle cellule tumorali - Il sequenziamento del DNA ha rivoluzionato la ricerca biomedica decenni fa. Negli ultimi anni, i nuovi metodi di sequenziamento (sequenziamento di nuova generazione) hanno portato a numerose scoperte scientifiche. Nel 2020/2021, ad esempio, hanno permesso la rapida decodifica e il monitoraggio globale del genoma della SARS-CoV-2.
Nel frattempo, sempre più ricercatori rendono pubblici i risultati del DNA sequenziato. Ciò ha dato luogo alla creazione di enormi volumi di dati, che vengono archiviati in database centrali come l'americano SRA (Sequence Read Archive) o l'europeo ENA (European Nucleotide Archive). Vi sono conservati circa 100 petabyte di dati, una quantità pari all'incirca a tutti i testi presenti su Internet, dato che un petabyte equivale a un milione di gigabyte.
Finora, gli scienziati biomedici hanno avuto bisogno di un'enorme potenza di calcolo e di altre risorse per cercare tra questa quantità di sequenze di DNA e confrontarle con le proprie sequenze, rendendo la ricerca efficiente in queste montagne di dati una pura impossibilità. Gli informatici del Politecnico di Zurigo hanno ora risolto questo problema.
Ricerca full-text invece di scaricare interi set di dati
Gli scienziati hanno sviluppato un metodo che abbrevia e facilita notevolmente la ricerca. Lo strumento digitale "MetaGraph" cerca i dati grezzi di tutte le sequenze di DNA o RNA memorizzate nei database, proprio come un motore di ricerca Internet convenzionale. Dopo aver inserito una sequenza di loro interesse come testo completo in una maschera di ricerca, i ricercatori possono scoprire in pochi secondi o minuti, a seconda della domanda, dove è già apparsa.
"È una sorta di Google per il DNA", come sintetizza il professor Gunnar Rätsch, data scientist presso il Dipartimento di Informatica del Politecnico di Zurigo. Finora i ricercatori dovevano cercare i metadati descrittivi nelle banche dati. Per accedere ai dati grezzi, dovevano scaricare i rispettivi set di dati. Queste ricerche erano incomplete, lunghe e costose.
"MetaGraph" è relativamente favorevole in termini di costi, come affermano i ricercatori nel loro studio. La rappresentazione di tutte le sequenze biologiche pubbliche starebbe in pochi dischi rigidi di computer, mentre le ricerche più ampie non dovrebbero costare più di 0,74 dollari per megabase.
Poiché il motore di ricerca del DNA sviluppato dai ricercatori dell'ETH è preciso ed efficiente, può contribuire ad accelerare la ricerca genetica, ad esempio nel caso di agenti patogeni poco studiati o di nuove pandemie. In questo modo, lo strumento potrebbe diventare un catalizzatore nella ricerca sulla resistenza agli antibiotici: ad esempio, identificando i geni di resistenza o i virus utili che possono distruggere i batteri - noti come batteriofagi - nei database.
Compressione di un fattore 300
Nello studio pubblicato l'8 ottobre sulla rivista Nature, i ricercatori dell'ETH dimostrano come funziona MetaGraph: lo strumento indicizza i dati e li presenta in forma compressa. Ciò avviene attraverso complessi grafici matematici che migliorano la struttura dei dati, in modo simile a programmi di fogli di calcolo come Excel. "Dal punto di vista matematico, si tratta di un'enorme matrice con milioni di colonne e trilioni di righe", come afferma Rätsch.
L'idea di rendere ricercabili grandi quantità di dati con l'aiuto di indici è una pratica standard nella ricerca informatica. La novità del lavoro dei ricercatori dell'ETH, tuttavia, è il complesso collegamento tra dati grezzi e metadati e la compressione di circa 300 volte, simile a un riassunto di un libro: non contiene più ogni parola, ma tutte le trame e le connessioni principali rimangono intatte - più compatte, ma senza alcuna perdita di informazioni.
"Stiamo spingendo i limiti del possibile per mantenere gli insiemi di dati il più compatti possibile senza perdere le informazioni necessarie", afferma il dottor André Kahles, che, come Rätsch, è membro del gruppo di informatica biomedica del Politecnico di Zurigo. A differenza di altre maschere di ricerca del DNA attualmente in fase di studio, l'approccio dei ricercatori del Politecnico è scalabile. Ciò significa che maggiore è la quantità di dati interrogati, minore è la potenza di calcolo aggiuntiva richiesta dallo strumento.
Metà dei dati sono già disponibili
I ricercatori dell'ETH hanno presentato MetaGraph per la prima volta nel 2020 e da allora lo hanno continuamente migliorato. Lo strumento è già disponibile per le interrogazioni. Fornisce un motore di ricerca full-text per milioni di sequenze di DNA e RNA, nonché di proteine di virus, batteri, funghi, piante, animali ed esseri umani. Attualmente è indicizzata poco meno della metà dei set di dati di sequenza disponibili in tutto il mondo. Secondo Gunnar Rätsch, il resto dovrebbe seguire entro la fine dell'anno. Dato che MetaGraph è disponibile come open source, potrebbe essere interessante anche per le aziende farmaceutiche che dispongono di grandi quantità di dati di ricerca interni.
Kahles ritiene addirittura possibile che il motore di ricerca del DNA venga un giorno utilizzato da privati: "Agli inizi, nemmeno Google sapeva esattamente a cosa servisse un motore di ricerca. Se il rapido sviluppo del sequenziamento del DNA continuerà, potrebbe diventare di uso comune identificare con maggiore precisione le piante del proprio balcone".
Nota: questo articolo è stato tradotto utilizzando un sistema informatico senza intervento umano. LUMITOS offre queste traduzioni automatiche per presentare una gamma più ampia di notizie attuali. Poiché questo articolo è stato tradotto con traduzione automatica, è possibile che contenga errori di vocabolario, sintassi o grammatica. L'articolo originale in Inglese può essere trovato qui.