Os modelos de linguagem química não precisam de compreender a química

Um estudo prova que os modelos de transformadores utilizados em química aprendem apenas correlações estatísticas

17.10.2025
Gregor Hübl/University of Bonn

Dr. Jürgen Bajorath e o estudante de doutoramento Jannik P. Roth da Life Science Informatics da Universidade de Bona.

Os modelos linguísticos estão agora a ser utilizados também nas ciências naturais. Na química, são utilizados, por exemplo, para prever novos compostos biologicamente activos. Os modelos de linguagem química (CLM) devem ser treinados exaustivamente. No entanto, não adquirem necessariamente conhecimentos sobre as relações bioquímicas durante o treino. Em vez disso, tiram conclusões com base em semelhanças e correlações estatísticas, como demonstra um estudo recente da Universidade de Bona. Os resultados foram agora publicados na revista Patterns.

J. P. Roth und J. Bajorath

Representação esquemática de um modelo transformador para a previsão de novos compostos a partir de dados de sequências de proteínas.

Os grandes modelos linguísticos são muitas vezes surpreendentemente bons naquilo que fazem, quer se trate de provar teoremas matemáticos, de compor música ou de redigir slogans publicitários. Mas como é que chegam aos seus resultados? Será que compreendem realmente o que constitui uma sinfonia ou uma boa piada? Não é assim tão fácil responder a esta pergunta. "Todos os modelos linguísticos são uma caixa negra", sublinha o Prof. Dr. Jürgen Bajorath. "É difícil olhar para dentro das suas cabeças, metaforicamente falando".

No entanto, Jürgen Bajorath, cientista de quiminformática no Instituto Lamarr de Aprendizagem Automática e Inteligência Artificial da Universidade de Bona, tentou fazer exatamente isso. Mais concretamente, ele e a sua equipa concentraram-se numa forma especial de algoritmo de IA: o CLM transformador. Este modelo funciona de forma semelhante ao ChatGPT, ao Google Gemini e ao "Grok" de Elon Musk, que são treinados com grandes quantidades de texto, o que lhes permite gerar frases de forma autónoma. Os CLM, por outro lado, baseiam-se normalmente em muito menos dados. Adquirem o seu conhecimento a partir de representações e relações moleculares, por exemplo, as chamadas cadeias de caracteres SMILES. Trata-se de cadeias de caracteres que representam as moléculas e a sua estrutura como uma sequência de letras e símbolos.

Manipulação sistemática dos dados de treino

Na investigação farmacêutica, os cientistas tentam frequentemente identificar substâncias que possam inibir determinadas enzimas ou bloquear receptores. Os MVC podem ser utilizados para prever moléculas activas com base nas sequências de aminoácidos das proteínas alvo. "Utilizámos o desenho molecular baseado na sequência como um sistema de teste para compreender melhor como os transformadores chegam às suas previsões", explica Jannik Roth, um estudante de doutoramento que trabalha com Bajorath. "Após a fase de treino, se introduzirmos uma nova enzima nesse modelo, ele pode produzir um composto capaz de a inibir. Mas será que isso significa que a IA aprendeu os princípios bioquímicos subjacentes a essa inibição?"

Os CLM são treinados utilizando pares de sequências de aminoácidos de proteínas alvo e os respectivos compostos activos conhecidos. Para responder à sua questão de investigação, os cientistas manipularam sistematicamente os dados de treino. "Por exemplo, inicialmente só alimentámos o modelo com famílias específicas de enzimas e respectivos inibidores", explica Bajorath. "Quando utilizámos uma nova enzima da mesma família para fins de teste, o algoritmo sugeriu um inibidor plausível." No entanto, a situação foi diferente quando os investigadores utilizaram no teste uma enzima de uma família diferente, ou seja, uma enzima que desempenha uma função diferente no organismo. Neste caso, o CLM não conseguiu prever corretamente os compostos activos.

Regra de ouro estatística

"Isto sugere que o modelo não aprendeu princípios químicos de aplicação geral, ou seja, como a inibição enzimática funciona quimicamente", diz o cientista. Em vez disso, as sugestões baseiam-se apenas em correlações estatísticas, ou seja, em padrões nos dados. Por exemplo, se a nova enzima se assemelhar a uma sequência de treino, um inibidor semelhante será provavelmente ativo. Por outras palavras, enzimas semelhantes tendem a interagir com compostos semelhantes. Esta regra geral baseada na semelhança estatisticamente detetável não é necessariamente uma coisa má", sublinha Bajorath, que lidera a área "IA em Ciências da Vida e Saúde" no Instituto Lamarr. "Afinal, também pode ajudar a identificar novas aplicações para substâncias activas existentes".

No entanto, os modelos utilizados no estudo careciam de conhecimentos bioquímicos para estimar as semelhanças. Consideravam que as enzimas (ou receptores e outras proteínas) eram semelhantes se correspondessem a 50-60% da sua sequência de aminoácidos e, consequentemente, sugeriam inibidores semelhantes. Os investigadores podiam aleatorizar e baralhar as sequências à vontade, desde que mantivessem um número suficiente de aminoácidos originais. No entanto, muitas vezes apenas partes muito específicas de uma enzima são necessárias para que esta desempenhe a sua função. Uma única alteração de aminoácidos numa dessas regiões pode tornar uma enzima disfuncional. Outras áreas são mais importantes para a integridade estrutural e menos relevantes para funções específicas. "Durante o seu treino, os modelos não aprenderam a distinguir entre partes da sequência funcionalmente importantes e não importantes", sublinha Bajorath.

Os modelos limitam-se a repetir o que leram anteriormente

Os resultados do estudo mostram, por conseguinte, que os modelos CLM de transformadores treinados para a conceção de compostos com base em sequências carecem de uma compreensão química mais profunda, pelo menos para este sistema de teste. Por outras palavras, limitam-se a recapitular, com pequenas variações, o que já aprenderam num contexto semelhante. "Isto não significa que não sejam adequados para a investigação de medicamentos", sublinha Bajorath, que também é membro da Área de Investigação Transdisciplinar (TRA) "Modelação" da Universidade de Bona. "É bem possível que sugiram medicamentos que bloqueiem efetivamente certos receptores ou inibam enzimas". No entanto, isso não se deve certamente ao facto de compreenderem tão bem a química, mas sim ao facto de reconhecerem semelhanças em representações moleculares baseadas em texto e correlações estatísticas que permanecem ocultas para nós. Este facto não desacredita os seus resultados. No entanto, também não devem ser interpretados de forma exagerada".

Observação: Este artigo foi traduzido usando um sistema de computador sem intervenção humana. A LUMITOS oferece essas traduções automáticas para apresentar uma gama mais ampla de notícias atuais. Como este artigo foi traduzido com tradução automática, é possível que contenha erros de vocabulário, sintaxe ou gramática. O artigo original em Inglês pode ser encontrado aqui.

Publicação original

Outras notícias do departamento ciência

Notícias mais lidas

Mais notícias de nossos outros portais