ChatGPT aconselha a ir ao médico com demasiada frequência por queixas inofensivas
Demasiado cauteloso para os cuidados de saúde: os pontos fracos do ChatGPT quando se trata de questões de saúde
Anúncios
A inteligência artificial (IA) também está a ser cada vez mais utilizada para questões de saúde. Muitas pessoas utilizam ferramentas como o ChatGPT para categorizar as queixas e avaliar se precisam de ajuda médica imediata, se devem procurar aconselhamento médico ou se podem esperar para ver. Com versões especificamente posicionadas para o sector dos cuidados de saúde, como o ChatGPT Health nos EUA, é fácil criar a impressão de uma adequação profissional específica. No entanto, a fiabilidade das recomendações do ChatGPT só foi investigada até agora de forma limitada.
Num novo estudo do Departamento de Ergonomia da Universidade Técnica de Berlim, os investigadores analisaram a exatidão com que o ChatGPT classifica as queixas de saúde em diferentes versões do modelo, a evolução do desempenho ao longo do tempo e se inputs idênticos geram recomendações consistentes. O resultado: atualmente, o ChatGPT só é adequado, de forma limitada, para uma avaliação inicial digital e para a gestão independente do paciente.
22 versões do modelo, 45 casos reais, 9.900 avaliações
"A principal diferença em relação aos nossos estudos anteriores é a análise longitudinal. Anteriormente, apenas um ou dois modelos eram analisados. Agora, testámos todos os modelos disponíveis ao longo do tempo e analisámos a forma como mudaram efetivamente", afirma o líder do estudo, Dr. Marvin Kopka. "Isto também foi importante para nós porque há sempre relatos de que os novos modelos alcançam resultados quase perfeitos em testes de admissão médica ou em testes de conhecimentos. Isto leva rapidamente à conclusão de que também fornecem recomendações médicas fiáveis aos doentes. No entanto, de acordo com o nosso estudo, não é exatamente esse o caso".
Para o estudo "Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice", publicado na revista "Communications Medicine", a equipa de investigação testou 22 versões do modelo ChatGPT utilizando casos reais de 45 doentes. Estes incluíam quadros clínicos como "uma tensão de curta duração num tendão/ligamento no dia anterior" ou "problemas digestivos simples/diarreia durante um dia sem mais sintomas". Cada caso foi introduzido dez vezes por modelo. Isto resultou num total de 9.900 avaliações individuais. Os modelos tinham de decidir se um caso devia ser classificado como uma emergência, um caso para esclarecimento médico ou um caso para autocuidado.
A exatidão quase não aumenta
A avaliação mostra que: Inicialmente, a exatidão aumentou significativamente com as primeiras versões do modelo. No entanto, desde a terceira geração de modelos (gpt-4), apenas se registaram pequenas melhorias. O melhor modelo testado alcançou uma exatidão de 74%. Apesar de os modelos mais recentes recomendarem mais frequentemente os autocuidados, o desempenho global nesta área continua a ser limitado.
Pontos fracos específicos para queixas inofensivas
Os modelos testados foram particularmente bons no reconhecimento de casos que requerem tratamento. No entanto, a maior parte dos erros ocorreu em casos em que os autocuidados teriam sido suficientes: 70% de todos os erros ocorreram neste grupo. Nem um único dos 13 casos de autocuidado foi corretamente resolvido por todos os modelos em todas as execuções.
Apenas alguns modelos, como o o4, o3 ou o GPT 5, recomendaram alguma vez o autocuidado. Para todos os outros modelos testados, o esclarecimento médico foi recomendado em todos os casos. Este facto é problemático, porque uma parte significativa das queixas não é realmente perigosa, desaparece por si própria ou pode ser tratada pelo doente.
O estudo revela assim um padrão estrutural: quase todos os modelos tendem a classificar as queixas como exigindo mais tratamento por precaução do que seria medicamente necessário.
Os investigadores referem-se a este padrão como um comportamento de triagem conservador. "Nós próprios ficámos surpreendidos com a clareza dos resultados", afirma o Dr. Marvin Kopka. "Porque mostram explicitamente que as questões relevantes para os doentes não são automaticamente respondidas de forma mais adequada pelos modelos mais recentes. Melhores resultados de testes ou exames não significam necessariamente maiores benefícios práticos nos cuidados de saúde."
O benefício prático é crucial
"Na nossa opinião, o fator decisivo não é apenas se um modelo classifica corretamente os casos individuais, mas qual o benefício prático que as recomendações têm na vida quotidiana. Se um sistema aconselha o esclarecimento médico de um grande número de queixas como medida de precaução, isso tem inicialmente um efeito positivo para os utilizadores - mas deixa de oferecer um verdadeiro apoio à tomada de decisões se a recomendação for quase sempre a mesma", afirma o Dr. Marvin Kopka.
O mesmo input, nem sempre a mesma recomendação
Há ainda outro problema: os modelos nem sempre dão respostas coerentes. Dependendo do modelo, registaram-se por vezes flutuações significativas com dados idênticos. Os modelos mais recentes apresentavam menos casos que nunca eram resolvidos corretamente, mas ao mesmo tempo mais casos com recomendações incoerentes ao longo de várias execuções. Isto foi particularmente evidente no GPT 5: em 42% de todos os casos, as recomendações eram por vezes corretas e por vezes incorrectas quando o mesmo caso era introduzido várias vezes - apesar de ter exatamente a mesma entrada.
A experiência mostrou que a precisão pode ser melhorada se a mesma pergunta for feita várias vezes e o nível de urgência mais baixo for selecionado de entre várias respostas. Desta forma, a exatidão global aumentou em média quatro pontos percentuais e a exatidão dos casos de autocuidado aumentou mesmo 14 pontos percentuais. No entanto, os investigadores sublinham expressamente que esta não é uma recomendação para os utilizadores finais, uma vez que, na pior das hipóteses, as emergências podem ser ignoradas.
Relevância para o debate sobre os cuidados primários
Os resultados também são relevantes para a política de saúde, diz Kopka. Na Alemanha, está a decorrer um intenso debate sobre um sistema de cuidados primários e formas de gestão digital dos doentes. O estudo da TU sugere que os modelos linguísticos gerais, como o ChatGPT, não são atualmente uma ferramenta adequada para este fim. Se um sistema, na prática, aconselhar predominantemente os pacientes a procurar esclarecimentos médicos, não haverá praticamente nenhum efeito de controlo real - a utilização desnecessária de medicamentos pode até aumentar.
Maior potencial em aplicações com garantia de qualidade
"Por isso, atualmente, vemos o potencial dos modelos linguísticos de grande dimensão menos utilizado nas janelas de conversação dos fabricantes do que na integração significativa em aplicações com garantia de qualidade, ou seja, em aplicações de verificação de sintomas. Neste caso, poderiam ajudar a preparar a informação de uma forma compreensível, explicar as recomendações e orientar melhor as pessoas através dos percursos de cuidados existentes - desde que a garantia de qualidade médica tenha lugar em segundo plano", afirma Marvin Kopka.
Limitações do estudo
Os investigadores sublinham também que este estudo se centrou na representatividade da população. Uma vez que as emergências reais são raras na vida quotidiana e, por conseguinte, ocorrem com menos frequência quando se utiliza o ChatGPT, o conjunto de dados também continha apenas algumas emergências e examinou principalmente as decisões a favor ou contra a procura de ajuda médica. A exatidão do reconhecimento de emergências reais deve ser investigada em estudos futuros.
Observação: Este artigo foi traduzido usando um sistema de computador sem intervenção humana. A LUMITOS oferece essas traduções automáticas para apresentar uma gama mais ampla de notícias atuais. Como este artigo foi traduzido com tradução automática, é possível que contenha erros de vocabulário, sintaxe ou gramática. O artigo original em Alemão pode ser encontrado aqui.