"Um motor de busca de ADN" pesquisa milhões de registos de dados em segundos

Isto pode acelerar significativamente a investigação sobre a resistência aos antibióticos e os agentes patogénicos desconhecidos

13.10.2025
AI-generated image

Os conjuntos de dados de ADN podem ser pesquisados rapidamente utilizando uma função de pesquisa simples na ferramenta "MetaGraph" (imagem simbólica).

É possível identificar doenças hereditárias raras em doentes e detetar mutações específicas em células tumorais - a sequenciação do ADN revolucionou a investigação biomédica há décadas. Nos últimos anos, os novos métodos de sequenciação (sequenciação de nova geração), em particular, resultaram em numerosos avanços científicos. Em 2020/2021, por exemplo, permitiram a descodificação rápida e a monitorização global do genoma do SARS-CoV-2.

Entretanto, cada vez mais investigadores estão a disponibilizar publicamente os resultados do ADN sequenciado. Este facto deu origem à criação de enormes volumes de dados, que são armazenados em bases de dados centrais como o SRA (Sequence Read Archive) americano ou o ENA (European Nucleotide Archive) europeu. Estão aí armazenados cerca de 100 petabytes de dados - aproximadamente a mesma quantidade de todo o texto da Internet, sendo um petabyte equivalente a um milhão de gigabytes.

Até à data, os cientistas biomédicos têm necessitado de uma enorme capacidade de computação e de outros recursos para pesquisar esta quantidade de sequências de ADN e compará-las com as suas próprias sequências - o que torna a pesquisa eficiente em tais montanhas de dados uma impossibilidade absoluta. Os cientistas informáticos da ETH Zurich resolveram agora este problema.

Pesquisa de texto completo em vez de descarregar conjuntos de dados inteiros

Os cientistas desenvolveram um método que encurta e facilita muito esta pesquisa. A ferramenta digital "MetaGraph" pesquisa os dados em bruto de todas as sequências de ADN ou ARN armazenadas nas bases de dados - tal como um motor de busca convencional da Internet. Depois de introduzirem uma sequência que lhes interessa como texto integral numa máscara de pesquisa, os investigadores podem descobrir em segundos ou minutos, dependendo da consulta, onde é que ela já apareceu.

"É uma espécie de Google para o ADN", como resume o Professor Gunnar Rätsch, cientista de dados do Departamento de Informática da ETH Zurich. Até agora, os investigadores tinham de procurar metadados descritivos nas bases de dados. Para aceder aos dados em bruto, tinham de descarregar os respectivos conjuntos de dados. Estas pesquisas eram incompletas, demoradas e dispendiosas.

O "MetaGraph" é comparativamente favorável em termos de custos, como referem os investigadores no seu estudo. A representação de todas as sequências biológicas públicas caberia em alguns discos rígidos de computador, enquanto as pesquisas de maior dimensão não deveriam custar mais de 0,74 dólares por megabase.

Como o motor de busca de ADN que os investigadores do ETH desenvolveram é preciso e eficiente, pode ajudar a acelerar a investigação genética - por exemplo, no caso de agentes patogénicos pouco estudados ou de novas pandemias. Desta forma, a ferramenta pode tornar-se um catalisador na investigação sobre a resistência aos antibióticos: por exemplo, identificando genes de resistência ou vírus úteis que podem destruir bactérias - conhecidos como bacteriófagos - nas bases de dados.

Compressão por um fator de 300

No estudo publicado a 8 de outubro na revista Nature, os investigadores da ETH demonstram como funciona o MetaGraph: a ferramenta indexa os dados e apresenta-os de forma comprimida. Isto é conseguido através de gráficos matemáticos complexos que melhoram a estrutura dos dados - semelhante a programas de folha de cálculo como o Excel. "Matematicamente, trata-se de uma enorme matriz com milhões de colunas e triliões de linhas", afirma Rätsch.

A ideia de tornar grandes quantidades de dados pesquisáveis com a ajuda de índices é uma prática corrente na investigação em ciências informáticas. No entanto, o que é novo no trabalho dos investigadores da ETH é a ligação complexa de dados brutos e metadados e a compressão por um fator de cerca de 300, semelhante a um resumo de um livro: já não contém todas as palavras, mas todas as histórias e ligações principais permanecem intactas - mais compacto, mas sem qualquer perda relevante de informação.

"Estamos a ultrapassar os limites do possível para manter os conjuntos de dados tão compactos quanto possível sem perder a informação necessária", afirma o Dr. André Kahles, que, tal como Rätsch, é membro do Grupo de Informática Biomédica da ETH Zurich. Em contraste com outras máscaras de pesquisa de ADN atualmente em investigação, a abordagem dos investigadores do ETH é escalável. Isto significa que quanto maior for a quantidade de dados consultados, menor será o poder de computação adicional necessário para a ferramenta.

Metade dos dados já está disponível atualmente

Os investigadores da ETH apresentaram o MetaGraph pela primeira vez em 2020 e têm-no melhorado continuamente desde então. A ferramenta já está disponível para consultas. Fornece um mecanismo de pesquisa de texto completo para milhões de conjuntos de sequências de DNA e RNA, bem como proteínas de vírus, bactérias, fungos, plantas, animais e humanos. Atualmente, estão indexados pouco menos de metade dos conjuntos de dados de sequências disponíveis em todo o mundo. De acordo com Gunnar Rätsch, os restantes deverão ser indexados até ao final do ano. Dado que o MetaGraph está disponível em código aberto, poderá também interessar às empresas farmacêuticas que possuem grandes quantidades de dados internos de investigação.

Kahles acredita mesmo que é possível que o motor de busca de ADN venha um dia a ser utilizado por particulares: "Nos primeiros tempos, nem mesmo o Google sabia exatamente para que servia um motor de busca. Se o rápido desenvolvimento da sequenciação do ADN continuar, pode tornar-se comum identificar as plantas da sua varanda com maior precisão".

Observação: Este artigo foi traduzido usando um sistema de computador sem intervenção humana. A LUMITOS oferece essas traduções automáticas para apresentar uma gama mais ampla de notícias atuais. Como este artigo foi traduzido com tradução automática, é possível que contenha erros de vocabulário, sintaxe ou gramática. O artigo original em Inglês pode ser encontrado aqui.

Publicação original

Outras notícias do departamento ciência

Notícias mais lidas

Mais notícias de nossos outros portais