"Un buscador de ADN" busca entre millones de registros de datos en segundos
Esto puede acelerar significativamente la investigación sobre la resistencia a los antibióticos y patógenos desconocidos
Es posible identificar enfermedades hereditarias raras en pacientes y detectar mutaciones específicas en células tumorales: la secuenciación del ADN revolucionó la investigación biomédica hace décadas. En los últimos años, los nuevos métodos de secuenciación (secuenciación de nueva generación), en particular, han dado lugar a numerosos avances científicos. En 2020/2021, por ejemplo, permitieron descifrar rápidamente el genoma del SARS-CoV-2 y realizar un seguimiento global del mismo.
Mientras tanto, cada vez más investigadores ponen a disposición del público los resultados del ADN secuenciado. Esto ha dado lugar a la creación de enormes volúmenes de datos, que se almacenan en bases de datos centrales como la estadounidense SRA (Sequence Read Archive) o la europea ENA (European Nucleotide Archive). Allí se almacenan unos 100 petabytes de datos, aproximadamente la misma cantidad que todo el texto de Internet, ya que un petabyte equivale a un millón de gigabytes.
Hasta la fecha, los científicos biomédicos han necesitado una enorme potencia de cálculo y otros recursos para buscar entre esta cantidad de secuencias de ADN y compararlas con sus propias secuencias, lo que hace que la búsqueda eficiente en semejantes montañas de datos sea una pura imposibilidad. Los informáticos de la ETH de Zúrich han resuelto este problema.
Búsqueda de texto completo en lugar de descargar conjuntos de datos enteros
Los científicos han desarrollado un método que acorta y facilita enormemente esta búsqueda. La herramienta digital "MetaGraph" busca en los datos brutos de todas las secuencias de ADN o ARN almacenadas en las bases de datos, igual que un buscador convencional de Internet. Tras introducir una secuencia que les interese como texto completo en una máscara de búsqueda, los investigadores pueden averiguar en cuestión de segundos o minutos, dependiendo de la consulta, dónde ha aparecido ya.
"Es una especie de Google para el ADN", resume el profesor Gunnar Rätsch, científico de datos del Departamento de Informática de la ETH de Zúrich. Hasta ahora, los investigadores tenían que buscar metadatos descriptivos en las bases de datos. Para acceder a los datos en bruto, tenían que descargar los respectivos conjuntos de datos. Estas búsquedas eran incompletas, largas y caras.
"MetaGraph" es comparativamente favorable en términos de costes, como afirman los investigadores en su estudio. La representación de todas las secuencias biológicas públicas cabría en unos pocos discos duros de ordenador, mientras que las consultas más amplias no deberían costar más de 0,74 dólares por megabase.
Como el motor de búsqueda de ADN que han desarrollado los investigadores de la ETH también es preciso y eficiente, puede contribuir a acelerar la investigación genética, por ejemplo, en el caso de patógenos poco investigados o nuevas pandemias. De este modo, la herramienta podría convertirse en un catalizador de la investigación sobre la resistencia a los antibióticos: por ejemplo, identificando en las bases de datos genes de resistencia o virus útiles capaces de destruir bacterias, conocidos como bacteriófagos.
Compresión por un factor de 300
En el estudio publicado el 8 de octubre en la revista Nature, los investigadores de la ETH demuestran cómo funciona MetaGraph: la herramienta indexa los datos y los presenta comprimidos. Esto se consigue mediante complejos gráficos matemáticos que mejoran la estructura de los datos, de forma similar a programas de hojas de cálculo como Excel. "Matemáticamente hablando, se trata de una enorme matriz con millones de columnas y billones de filas", como afirma Rätsch.
La idea de facilitar la búsqueda de grandes cantidades de datos con la ayuda de índices es una práctica habitual en la investigación informática. Lo novedoso del trabajo de los investigadores de la ETH, sin embargo, es la compleja vinculación de datos brutos y metadatos y la compresión por un factor de unos 300, similar al resumen de un libro: ya no contiene todas las palabras, pero todas las líneas argumentales y conexiones principales permanecen intactas: más compacto, pero sin pérdida relevante de información.
"Estamos sobrepasando los límites de lo posible para mantener los conjuntos de datos lo más compactos posible sin perder la información necesaria", afirma el Dr. André Kahles, que, al igual que Rätsch, es miembro del Grupo de Informática Biomédica de la ETH de Zúrich. A diferencia de otras máscaras de búsqueda de ADN que se están investigando actualmente, el método de los investigadores de la ETH es escalable. Esto significa que cuanto mayor sea la cantidad de datos consultados, menos potencia de cálculo adicional necesitará la herramienta.
La mitad de los datos ya están disponibles
Los investigadores de la ETH presentaron MetaGraph por primera vez en 2020 y desde entonces no han dejado de mejorarla. La herramienta ya está disponible para consultas. Ofrece un motor de búsqueda de texto completo para millones de conjuntos de secuencias de ADN y ARN, así como de proteínas de virus, bacterias, hongos, plantas, animales y humanos. En la actualidad, están indexados algo menos de la mitad de los conjuntos de datos de secuencias disponibles en todo el mundo. Según Gunnar Rätsch, el resto debería estarlo a finales de año. Dado que MetaGraph está disponible como código abierto, también podría interesar a las empresas farmacéuticas que tienen grandes cantidades de datos internos de investigación.
Kahles cree incluso que es posible que el motor de búsqueda de ADN sea utilizado algún día por particulares: "Al principio, ni siquiera Google sabía exactamente para qué servía un motor de búsqueda. Si continúa el rápido desarrollo de la secuenciación del ADN, podría llegar a ser habitual identificar las plantas de tu balcón con mayor precisión."
Nota: Este artículo ha sido traducido utilizando un sistema informático sin intervención humana. LUMITOS ofrece estas traducciones automáticas para presentar una gama más amplia de noticias de actualidad. Como este artículo ha sido traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática. El artículo original en Inglés se puede encontrar aquí.