ChatGPT aconselha a ir ao médico com demasiada frequência por queixas inofensivas

Demasiado cauteloso para os cuidados de saúde: os pontos fracos do ChatGPT quando se trata de questões de saúde

05.05.2026

Imagem do símbolo

AI-generated image

Anúncios

Tecnologia avançada de desenvolvimento de linhas celulares CHO para implementação interna

Filtração de fluxo tangencial de utilização única à escala comercial para bioprocessamento automatizado

Filtração de alto desempenho de grau de esterilização para solventes e formulações oleosas

A inteligência artificial (IA) também está a ser cada vez mais utilizada para questões de saúde. Muitas pessoas utilizam ferramentas como o ChatGPT para categorizar as queixas e avaliar se precisam de ajuda médica imediata, se devem procurar aconselhamento médico ou se podem esperar para ver. Com versões especificamente posicionadas para o sector dos cuidados de saúde, como o ChatGPT Health nos EUA, é fácil criar a impressão de uma adequação profissional específica. No entanto, a fiabilidade das recomendações do ChatGPT só foi investigada até agora de forma limitada.

Num novo estudo do Departamento de Ergonomia da Universidade Técnica de Berlim, os investigadores analisaram a exatidão com que o ChatGPT classifica as queixas de saúde em diferentes versões do modelo, a evolução do desempenho ao longo do tempo e se inputs idênticos geram recomendações consistentes. O resultado: atualmente, o ChatGPT só é adequado, de forma limitada, para uma avaliação inicial digital e para a gestão independente do paciente.

22 versões do modelo, 45 casos reais, 9.900 avaliações

"A principal diferença em relação aos nossos estudos anteriores é a análise longitudinal. Anteriormente, apenas um ou dois modelos eram analisados. Agora, testámos todos os modelos disponíveis ao longo do tempo e analisámos a forma como mudaram efetivamente", afirma o líder do estudo, Dr. Marvin Kopka. "Isto também foi importante para nós porque há sempre relatos de que os novos modelos alcançam resultados quase perfeitos em testes de admissão médica ou em testes de conhecimentos. Isto leva rapidamente à conclusão de que também fornecem recomendações médicas fiáveis aos doentes. No entanto, de acordo com o nosso estudo, não é exatamente esse o caso".

Para o estudo "Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice", publicado na revista "Communications Medicine", a equipa de investigação testou 22 versões do modelo ChatGPT utilizando casos reais de 45 doentes. Estes incluíam quadros clínicos como "uma tensão de curta duração num tendão/ligamento no dia anterior" ou "problemas digestivos simples/diarreia durante um dia sem mais sintomas". Cada caso foi introduzido dez vezes por modelo. Isto resultou num total de 9.900 avaliações individuais. Os modelos tinham de decidir se um caso devia ser classificado como uma emergência, um caso para esclarecimento médico ou um caso para autocuidado.

A exatidão quase não aumenta

A avaliação mostra que: Inicialmente, a exatidão aumentou significativamente com as primeiras versões do modelo. No entanto, desde a terceira geração de modelos (gpt-4), apenas se registaram pequenas melhorias. O melhor modelo testado alcançou uma exatidão de 74%. Apesar de os modelos mais recentes recomendarem mais frequentemente os autocuidados, o desempenho global nesta área continua a ser limitado.

Pontos fracos específicos para queixas inofensivas

Os modelos testados foram particularmente bons no reconhecimento de casos que requerem tratamento. No entanto, a maior parte dos erros ocorreu em casos em que os autocuidados teriam sido suficientes: 70% de todos os erros ocorreram neste grupo. Nem um único dos 13 casos de autocuidado foi corretamente resolvido por todos os modelos em todas as execuções.

Apenas alguns modelos, como o o4, o3 ou o GPT 5, recomendaram alguma vez o autocuidado. Para todos os outros modelos testados, o esclarecimento médico foi recomendado em todos os casos. Este facto é problemático, porque uma parte significativa das queixas não é realmente perigosa, desaparece por si própria ou pode ser tratada pelo doente.

O estudo revela assim um padrão estrutural: quase todos os modelos tendem a classificar as queixas como exigindo mais tratamento por precaução do que seria medicamente necessário.

Os investigadores referem-se a este padrão como um comportamento de triagem conservador. "Nós próprios ficámos surpreendidos com a clareza dos resultados", afirma o Dr. Marvin Kopka. "Porque mostram explicitamente que as questões relevantes para os doentes não são automaticamente respondidas de forma mais adequada pelos modelos mais recentes. Melhores resultados de testes ou exames não significam necessariamente maiores benefícios práticos nos cuidados de saúde."

O benefício prático é crucial

"Na nossa opinião, o fator decisivo não é apenas se um modelo classifica corretamente os casos individuais, mas qual o benefício prático que as recomendações têm na vida quotidiana. Se um sistema aconselha o esclarecimento médico de um grande número de queixas como medida de precaução, isso tem inicialmente um efeito positivo para os utilizadores - mas deixa de oferecer um verdadeiro apoio à tomada de decisões se a recomendação for quase sempre a mesma", afirma o Dr. Marvin Kopka.

O mesmo input, nem sempre a mesma recomendação

Há ainda outro problema: os modelos nem sempre dão respostas coerentes. Dependendo do modelo, registaram-se por vezes flutuações significativas com dados idênticos. Os modelos mais recentes apresentavam menos casos que nunca eram resolvidos corretamente, mas ao mesmo tempo mais casos com recomendações incoerentes ao longo de várias execuções. Isto foi particularmente evidente no GPT 5: em 42% de todos os casos, as recomendações eram por vezes corretas e por vezes incorrectas quando o mesmo caso era introduzido várias vezes - apesar de ter exatamente a mesma entrada.

A experiência mostrou que a precisão pode ser melhorada se a mesma pergunta for feita várias vezes e o nível de urgência mais baixo for selecionado de entre várias respostas. Desta forma, a exatidão global aumentou em média quatro pontos percentuais e a exatidão dos casos de autocuidado aumentou mesmo 14 pontos percentuais. No entanto, os investigadores sublinham expressamente que esta não é uma recomendação para os utilizadores finais, uma vez que, na pior das hipóteses, as emergências podem ser ignoradas.

Relevância para o debate sobre os cuidados primários

Os resultados também são relevantes para a política de saúde, diz Kopka. Na Alemanha, está a decorrer um intenso debate sobre um sistema de cuidados primários e formas de gestão digital dos doentes. O estudo da TU sugere que os modelos linguísticos gerais, como o ChatGPT, não são atualmente uma ferramenta adequada para este fim. Se um sistema, na prática, aconselhar predominantemente os pacientes a procurar esclarecimentos médicos, não haverá praticamente nenhum efeito de controlo real - a utilização desnecessária de medicamentos pode até aumentar.

Maior potencial em aplicações com garantia de qualidade

"Por isso, atualmente, vemos o potencial dos modelos linguísticos de grande dimensão menos utilizado nas janelas de conversação dos fabricantes do que na integração significativa em aplicações com garantia de qualidade, ou seja, em aplicações de verificação de sintomas. Neste caso, poderiam ajudar a preparar a informação de uma forma compreensível, explicar as recomendações e orientar melhor as pessoas através dos percursos de cuidados existentes - desde que a garantia de qualidade médica tenha lugar em segundo plano", afirma Marvin Kopka.

Limitações do estudo

Os investigadores sublinham também que este estudo se centrou na representatividade da população. Uma vez que as emergências reais são raras na vida quotidiana e, por conseguinte, ocorrem com menos frequência quando se utiliza o ChatGPT, o conjunto de dados também continha apenas algumas emergências e examinou principalmente as decisões a favor ou contra a procura de ajuda médica. A exatidão do reconhecimento de emergências reais deve ser investigada em estudos futuros.

Observação: Este artigo foi traduzido usando um sistema de computador sem intervenção humana. A LUMITOS oferece essas traduções automáticas para apresentar uma gama mais ampla de notícias atuais. Como este artigo foi traduzido com tradução automática, é possível que contenha erros de vocabulário, sintaxe ou gramática. O artigo original em Alemão pode ser encontrado aqui.

Publicação original

Marvin Kopka, Longqi He, Markus A. Feufel; "Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice"; Communications Medicine, Volume 6, 2026-2-25

https://www.bionity.com/pt/noticias/1188630/chatgpt-aconselha-a-ir-ao-medico-com-demasiada-frequencia-por-queixas-inofensivas.html

Publicação original

Marvin Kopka, Longqi He, Markus A. Feufel; "Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice"; Communications Medicine, Volume 6, 2026-2-25

Organizações

TU Berlin

Anúncios

Cromatografia de membrana de permuta aniónica de alta recuperação para purificação de vectores lentivirais

Centrifugação suave em contrafluxo para resultados superiores de processamento de células

Colunas de vidro robustas para aplicações MPLC exigentes

Mais do departamento ciência Assine o newsletter

Receba o setor de ciências biológicas em sua caixa de entrada

ChatGPT aconselha a ir ao médico com demasiada frequência por queixas inofensivas

Demasiado cauteloso para os cuidados de saúde: os pontos fracos do ChatGPT quando se trata de questões de saúde

22 versões do modelo, 45 casos reais, 9.900 avaliações

A exatidão quase não aumenta

Pontos fracos específicos para queixas inofensivas

O benefício prático é crucial

O mesmo input, nem sempre a mesma recomendação

Relevância para o debate sobre os cuidados primários

Maior potencial em aplicações com garantia de qualidade

Limitações do estudo

Publicação original

Outras notícias do departamento ciência

Um novo estudo destaca o otimismo da sociedade em relação à ciência revolucionária e a ansiedade crescente quanto à rapidez com que o mundo está a mudar

Os alimentos podem ajudar a manter a diversidade no intestino

Os alimentos ultra-processados prejudicam a sua concentração mesmo que tenha uma alimentação saudável

Sistema laser inovador faz avançar o método de microscopia para revelar mundos celulares ocultos

O stress oxidativo desacelera o cérebro, mas o travão pode ser novamente libertado

A reciclagem biológica de resíduos electrónicos revela um grande potencial

Melhorar o bem-estar dos animais no laboratório: a IA ajuda a detetar melhor a dor

A descoberta de uma nova vulnerabilidade no linfoma agressivo pode mudar a terapia futura

As memórias formam-se numa folha em branco?

Estudo conclui que o tratamento de amendoins com plasma frio pode torná-los menos alergénicos

Como é que os agentes patogénicos mudam para "perigosos"

Células imunitárias no nariz retardam o vírus da gripe

Fábrica de células para o sistema imunitário: novo método torna os macrófagos escaláveis para a investigação

Novo alvo celular previne a infeção por hepatite E

Mais eficazes, mais duradouros e feitos a partir de extractos naturais: a nova geração de protectores solares

Quando as moléculas reagem: um novo software visualiza os processos biológicos em movimento

Tumor cerebral espalhado no cérebro vivo observado em direto pela primeira vez

Ferramenta de IA pode acelerar a descoberta de medicamentos

O café tem um efeito positivo no eixo intestino-cérebro

Os modelos linguísticos da IA superam os dos médicos especialistas

Receba o setor de ciências biológicas em sua caixa de entrada

Notícias mais lidas

Experiência falhada de cientistas de Cambridge leva a descoberta surpreendente do desenvolvimento de medicamentos

43% da população mundial afetada: Novo medicamento derrota bactéria causadora de cancro no estômago

Hóquei microbiano: cientistas da ISTA descobrem como as bactérias fazem girar pequenos discos e criam materiais invulgares

A Evonik reforça as capacidades biotecnológicas para o fabrico de substâncias medicamentosas com um novo investimento na Eslováquia

A Lonza tornar-se-á um CDMO puro após a venda da sua maior divisão

A Anaveon contrata um ex-executivo da CureVac para liderar a ação no domínio da imunologia

Os fungos usam o "botão de arranque" para obter gelo das bactérias

A VTU Engineering Germany tem um novo diretor-geral

Mais notícias de nossos outros portais

Crise no Médio Oriente provoca escassez histórica de matérias-primas e aumentos drásticos de preços

Alho selvagem: cuidado com a confusão

A descoberta do armazenamento de energia resolve o problema do carregamento rápido

Uma nova abordagem de investigação melhora a estabilidade do sabor do óleo de linhaça e prolonga o seu prazo de validade

A nano-lasanha: novos materiais 2D ganham impulso

A Danone e a Arcor criam uma empresa comum no sector dos lacticínios na Argentina

A Evonik reorganiza a sua liderança executiva: o CEO mantém-se, o CFO entra

Robôs humanóides, IA & co.: a transformação digital da indústria entra na próxima ronda

Bomba de vácuo sem motor: Películas finas - o material de que são feitas as novas bombas

Uma referência para a produção de produtos químicos: a BASF inaugura a unidade de produção de Verbund, na China, à escala mundial

Do laboratório para a indústria: a impressão 3D acelera o futuro das baterias de lítio

Tornar as células solares de perovskite finalmente resistentes às intempéries e adequadas para utilização prática

O processo eletroquímico permite a recuperação de matérias-primas valiosas