Los modelos de lenguaje químico no necesitan entender de química
Un estudio demuestra que los modelos de transformador utilizados en química sólo aprenden correlaciones estadísticas
Los modelos lingüísticos también se utilizan ahora en las ciencias naturales. En química se emplean, por ejemplo, para predecir nuevos compuestos biológicamente activos. Los modelos de lenguaje químico (CLM) deben entrenarse exhaustivamente. Sin embargo, durante el entrenamiento no adquieren necesariamente conocimientos sobre las relaciones bioquímicas. En su lugar, extraen conclusiones basadas en similitudes y correlaciones estadísticas, como demuestra un reciente estudio de la Universidad de Bonn. Los resultados se publican ahora en la revista Patterns.

Representación esquemática de un modelo transformador para predecir nuevos compuestos a partir de datos de secuencias de proteínas.
J. P. Roth und J. Bajorath
Los grandes modelos lingüísticos suelen ser asombrosamente buenos en lo que hacen, ya sea demostrar teoremas matemáticos, componer música o redactar eslóganes publicitarios. Pero, ¿cómo llegan a sus resultados? ¿Entienden realmente lo que constituye una sinfonía o un buen chiste? No es tan fácil responder a esa pregunta. "Todos los modelos lingüísticos son una caja negra", subraya el profesor Jürgen Bajorath. "Es difícil mirar dentro de sus cabezas, metafóricamente hablando".
Sin embargo, Jürgen Bajorath, científico especializado en quimioinformática del Instituto Lamarr de Aprendizaje Automático e Inteligencia Artificial de la Universidad de Bonn, ha intentado hacer precisamente eso. En concreto, él y su equipo se han centrado en una forma especial de algoritmo de IA: el CLM transformador. Este modelo funciona de forma similar a ChatGPT, Google Gemini y el "Grok" de Elon Musk, que se entrenan utilizando grandes cantidades de texto, lo que les permite generar frases de forma independiente. Los CLM, en cambio, suelen basarse en muchos menos datos. Adquieren sus conocimientos a partir de representaciones y relaciones moleculares, por ejemplo, las llamadas cadenas SMILES. Se trata de cadenas de caracteres que representan las moléculas y su estructura como una secuencia de letras y símbolos.
Manipulación sistemática de los datos de entrenamiento
En la investigación farmacéutica, los científicos intentan a menudo identificar sustancias que puedan inhibir determinadas enzimas o bloquear receptores. Los CLM pueden utilizarse para predecir moléculas activas a partir de las secuencias de aminoácidos de las proteínas diana. "Utilizamos el diseño molecular basado en secuencias como sistema de prueba para entender mejor cómo llegan los transformadores a sus predicciones", explica Jannik Roth, estudiante de doctorado que trabaja con Bajorath. "Tras la fase de entrenamiento, si se introduce una nueva enzima en un modelo de este tipo, puede que produzca un compuesto capaz de inhibirla. Pero, ¿significa eso que la IA ha aprendido los principios bioquímicos que subyacen a dicha inhibición?".
Los CLM se entrenan utilizando pares de secuencias de aminoácidos de proteínas diana y sus respectivos compuestos activos conocidos. Para responder a su pregunta de investigación, los científicos manipularon sistemáticamente los datos de entrenamiento. "Por ejemplo, inicialmente sólo alimentamos el modelo con familias específicas de enzimas y sus inhibidores", explica Bajorath. "Cuando utilizamos una nueva enzima de la misma familia para probarla, el algoritmo sugirió un inhibidor plausible". Sin embargo, la situación fue diferente cuando los investigadores utilizaron en la prueba una enzima de una familia distinta, es decir, una que realiza una función diferente en el organismo. En este caso, el CLM no logró predecir correctamente los compuestos activos.
Regla estadística
"Esto sugiere que el modelo no ha aprendido principios químicos de aplicación general, es decir, cómo suele funcionar químicamente la inhibición enzimática", afirma el científico. En su lugar, las sugerencias se basan únicamente en correlaciones estadísticas, es decir, en patrones en los datos. Por ejemplo, si la nueva enzima se parece a una secuencia de entrenamiento, es probable que actúe un inhibidor similar. En otras palabras, enzimas similares tienden a interactuar con compuestos similares. "Una regla empírica de este tipo basada en una similitud estadísticamente detectable no es necesariamente mala", subraya Bajorath, que dirige el área "IA en Ciencias de la Vida y Salud" del Instituto Lamarr. "Al fin y al cabo, también puede ayudar a identificar nuevas aplicaciones para sustancias activas ya existentes".
Sin embargo, los modelos utilizados en el estudio carecían de conocimientos bioquímicos a la hora de estimar las similitudes. Consideraban que las enzimas (o receptores y otras proteínas) eran similares si coincidían en un 50-60 por ciento de su secuencia de aminoácidos, y en consecuencia sugerían inhibidores similares. Los investigadores podían aleatorizar y mezclar las secuencias a voluntad, siempre que se conservaran suficientes aminoácidos originales. Sin embargo, a menudo sólo se necesitan partes muy específicas de una enzima para que realice su tarea. Un solo cambio de aminoácido en una región de este tipo puede hacer que una enzima deje de funcionar. Otras zonas son más importantes para la integridad estructural y menos relevantes para funciones específicas. "Durante su entrenamiento, los modelos no aprendieron a distinguir entre las partes de la secuencia funcionalmente importantes y las que no lo son", subraya Bajorath.
Los modelos se limitan a repetir lo que han leído antes
Los resultados del estudio muestran, por tanto, que los CLM transformadores entrenados para el diseño de compuestos basados en secuencias carecen de una comprensión química más profunda, al menos para este sistema de prueba. En otras palabras, se limitan a recapitular, con pequeñas variaciones, lo que ya han recogido en un contexto similar en algún momento. "Esto no significa que sean inadecuados para la investigación de fármacos", subraya Bajorath, que también es miembro del Área de Investigación Transdisciplinar (TRA) "Modelización" de la Universidad de Bonn. "Es muy posible que sugieran fármacos que realmente bloqueen determinados receptores o inhiban enzimas". Sin embargo, esto no se debe seguramente a que entiendan tan bien la química, sino a que reconocen similitudes en representaciones moleculares basadas en textos y correlaciones estadísticas que permanecen ocultas para nosotros. Esto no desacredita sus resultados. Pero tampoco hay que sobreinterpretarlos".
Nota: Este artículo ha sido traducido utilizando un sistema informático sin intervención humana. LUMITOS ofrece estas traducciones automáticas para presentar una gama más amplia de noticias de actualidad. Como este artículo ha sido traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática. El artículo original en Inglés se puede encontrar aquí.