Os colectivos de IA humana fazem os diagnósticos médicos mais precisos
O estudo destaca o potencial para uma maior segurança dos doentes e cuidados de saúde mais equitativos
Anúncios
A inteligência artificial (IA) pode apoiar eficazmente os médicos na realização de diagnósticos. Comete erros diferentes dos humanos - e esta complementaridade representa uma força até agora inexplorada. Uma equipa internacional liderada pelo Instituto Max Planck para o Desenvolvimento Humano demonstrou agora sistematicamente, pela primeira vez, que a combinação de conhecimentos humanos com modelos de IA conduz a diagnósticos abertos mais precisos.
Os erros de diagnóstico estão entre os problemas mais graves da prática médica quotidiana. Os sistemas de IA - especialmente os modelos de linguagem de grande dimensão (LLM) como o ChatGPT-4, o Gemini ou o Claude 3 - oferecem novas formas de apoiar eficazmente os diagnósticos médicos. No entanto, estes sistemas também implicam riscos consideráveis - por exemplo, podem "alucinar" e gerar informações falsas. Além disso, reproduzem preconceitos sociais ou médicos existentes e cometem erros que muitas vezes são desconcertantes para os humanos.
Uma equipa de investigação internacional, liderada pelo Instituto Max Planck para o Desenvolvimento Humano e em colaboração com parceiros do Projeto de Diagnóstico Humano (São Francisco) e do Instituto de Ciências e Tecnologias Cognitivas do Conselho Nacional de Investigação Italiano (CNR-ISTC Roma), investigou a melhor forma de colaboração entre humanos e IA.
O resultado: os colectivos de diagnóstico híbridos - grupos constituídos por peritos humanos e sistemas de IA - são significativamente mais precisos do que os colectivos constituídos apenas por humanos ou IA. Isto aplica-se particularmente a questões de diagnóstico complexas e abertas, com inúmeras soluções possíveis, em vez de simples decisões de sim/não. "Os nossos resultados mostram que a cooperação entre humanos e modelos de IA tem um grande potencial para melhorar a segurança dos doentes", afirma o autor principal Nikolas Zöller, investigador de pós-doutoramento no Centro de Racionalidade Adaptativa do Instituto Max Planck para o Desenvolvimento Humano.
Simulações realistas utilizando mais de 2 100 vinhetas clínicas
Os investigadores utilizaram dados do Human Diagnosis Project, que fornece vinhetas clínicas - pequenas descrições de casos clínicos - juntamente com os diagnósticos corretos. Utilizando mais de 2.100 destas vinhetas, o estudo comparou os diagnósticos efectuados por profissionais médicos com os de cinco modelos de IA líderes. Na experiência central, foram simulados vários colectivos de diagnóstico: indivíduos, colectivos humanos, modelos de IA e colectivos mistos de humanos e IA. No total, os investigadores analisaram mais de 40 000 diagnósticos. Cada um foi classificado e avaliado de acordo com as normas médicas internacionais (SNOMED CT).
Os seres humanos e as máquinas complementam-se mutuamente - mesmo nos seus erros
O estudo mostra que a combinação de vários modelos de IA melhorou a qualidade do diagnóstico. Em média, os colectivos de IA tiveram um desempenho superior a 85% dos diagnosticadores humanos. No entanto, houve vários casos em que os humanos tiveram um melhor desempenho. Curiosamente, quando a IA falhava, os humanos sabiam frequentemente o diagnóstico correto.
A maior surpresa foi o facto de a combinação dos dois mundos ter conduzido a um aumento significativo da precisão. Até mesmo a adição de um único modelo de IA a um grupo de diagnosticadores humanos - ou vice-versa - melhorou substancialmente o resultado. Os resultados mais fiáveis resultaram de decisões colectivas que envolveram vários humanos e várias IA.
A explicação é que os humanos e a IA cometem erros sistematicamente diferentes. Quando a IA falha, um profissional humano pode compensar o erro - e vice-versa. Esta chamada complementaridade de erros torna os colectivos híbridos tão poderosos. "Não se trata de substituir os humanos por máquinas. Pelo contrário, devemos encarar a inteligência artificial como uma ferramenta complementar que desenvolve todo o seu potencial na tomada de decisões colectivas", afirma o coautor Stefan Herzog, investigador principal do Instituto Max Planck para o Desenvolvimento Humano.
No entanto, os investigadores também sublinham as limitações do seu trabalho. O estudo considerou apenas vinhetas de casos baseados em texto - e não pacientes reais em contextos clínicos reais. A questão de saber se os resultados podem ser transferidos diretamente para a prática continua a ser uma questão a abordar em estudos futuros. Do mesmo modo, o estudo centrou-se apenas no diagnóstico e não no tratamento, e um diagnóstico correto não garante necessariamente um tratamento ótimo.
Também permanece incerto o modo como os sistemas de apoio baseados em IA serão aceites na prática pelo pessoal médico e pelos doentes. Os riscos potenciais de preconceito e discriminação, tanto por parte da IA como dos seres humanos, em especial no que diz respeito às diferenças étnicas, sociais ou de género, requerem igualmente mais investigação.
Vasta gama de aplicações para colectivos híbridos homem-IA
O estudo faz parte do projeto Hybrid Human Artificial Collective Intelligence in Open-Ended Decision Making (HACID), financiado pelo programa Horizonte Europa, que visa promover o desenvolvimento de futuros sistemas de apoio à decisão clínica através da integração inteligente da inteligência humana e da inteligência artificial. Os investigadores vêem um potencial especial nas regiões onde o acesso aos cuidados médicos é limitado. Os colectivos híbridos homem-IA poderiam dar um contributo crucial para uma maior equidade nos cuidados de saúde nessas áreas.
"A abordagem também pode ser transferida para outras áreas críticas - como o sistema jurídico, a resposta a catástrofes ou a política climática - em qualquer lugar onde sejam necessárias decisões complexas e de alto risco. Por exemplo, o projeto HACID está também a desenvolver ferramentas para melhorar a tomada de decisões em matéria de adaptação climática", afirma Vito Trianni, coautor e coordenador do projeto HACID.
Observação: Este artigo foi traduzido usando um sistema de computador sem intervenção humana. A LUMITOS oferece essas traduções automáticas para apresentar uma gama mais ampla de notícias atuais. Como este artigo foi traduzido com tradução automática, é possível que contenha erros de vocabulário, sintaxe ou gramática. O artigo original em Inglês pode ser encontrado aqui.
Publicação original
Nikolas Zöller, Julian Berger, Irving Lin, Nathan Fu, Jayanth Komarneni, Gioele Barabucci, Kyle Laskowski, Victor Shia, Benjamin Harack, Eugene A. Chu, Vito Trianni, Ralf H. J. M. Kurvers, Stefan M. Herzog; "Human–AI collectives most accurately diagnose clinical vignettes"; Proceedings of the National Academy of Sciences, Volume 122, 2025-6-13