ChatGPT aconseja ir al médico con demasiada frecuencia por molestias inofensivas
Demasiado prudente para la sanidad: los puntos débiles del ChatGPT en materia sanitaria
Anuncios
La inteligencia artificial (IA) también se utiliza cada vez más para cuestiones de salud. Muchas personas utilizan herramientas como ChatGPT para clasificar las dolencias y evaluar si necesitan ayuda médica de inmediato, si deben buscar consejo médico o si pueden esperar y ver qué pasa. Con versiones específicamente posicionadas para el sector sanitario, como ChatGPT Health en EE.UU., es fácil crear la impresión de una especial idoneidad profesional. Sin embargo, hasta ahora sólo se ha analizado de forma limitada la fiabilidad real de las recomendaciones de ChatGPT.
Por ello, en un nuevo estudio del Departamento de Ergonomía de la Universidad Técnica de Berlín, los investigadores han analizado la precisión con la que ChatGPT clasifica los problemas de salud en diferentes versiones del modelo, cómo ha cambiado el rendimiento con el tiempo y si entradas idénticas generan recomendaciones coherentes. El resultado: ChatGPT sólo es adecuado hasta cierto punto para la evaluación inicial digital y la gestión independiente de pacientes.
22 versiones del modelo, 45 casos reales, 9.900 evaluaciones
"La principal diferencia con nuestros estudios anteriores es el análisis longitudinal. Antes sólo se analizaban uno o dos modelos. Ahora hemos probado todos los modelos disponibles a lo largo del tiempo y hemos analizado cómo han cambiado realmente", afirma el Dr. Marvin Kopka, director del estudio. "Esto también era importante para nosotros porque siempre hay informes de que los nuevos modelos obtienen resultados casi perfectos en las pruebas de acceso a la medicina o en las pruebas de conocimientos. Esto lleva rápidamente a la conclusión de que también proporcionan recomendaciones médicas fiables a los pacientes. Sin embargo, según nuestro estudio, este no es precisamente el caso".
Para el estudio "Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice", publicado en la revista "Communications Medicine", el equipo de investigación probó 22 versiones del modelo ChatGPT utilizando casos reales de 45 pacientes. Entre ellos figuraban cuadros clínicos como "una distensión tendinosa/ligamentosa de corta duración el día anterior" o "simples problemas digestivos/diarrea durante un día sin más síntomas". Cada caso se introdujo diez veces por modelo. El resultado fue un total de 9.900 evaluaciones individuales. Los modelos tenían que decidir si un caso debía clasificarse como urgencia, caso de aclaración médica o caso de autocuidado.
La precisión apenas aumenta
La evaluación lo demuestra: Al principio, la precisión aumentó considerablemente con las primeras versiones del modelo. Sin embargo, a partir de la tercera generación de modelos (gpt-4), las mejoras han sido mínimas. El mejor modelo probado alcanzó una precisión del 74%. Aunque los modelos más recientes recomendaban con más frecuencia el autocuidado, el rendimiento global en este ámbito seguía siendo limitado.
Puntos débiles en las quejas inofensivas
Los modelos probados fueron especialmente buenos a la hora de reconocer los casos que requerían tratamiento. Sin embargo, la mayoría de los errores se produjeron en casos en los que el autocuidado habría sido suficiente: el 70% de todos los errores pertenecían a este grupo. Ni uno solo de los 13 casos de autocuidado fue resuelto correctamente por todos los modelos en todas las ejecuciones.
Sólo algunos modelos, como o4, o3 o GPT 5, recomendaron en algún momento el autocuidado. En todos los demás modelos probados, se recomendó de forma generalizada la aclaración médica. Esto es problemático porque una proporción significativa de las dolencias no son realmente peligrosas, desaparecen por sí solas o pueden ser tratadas por el paciente.
El estudio revela así un patrón estructural: casi todos los modelos tienden a clasificar las dolencias como dolencias que requieren más tratamiento como precaución del que sería médicamente necesario.
Los investigadores denominan a este patrón comportamiento de triaje conservador. "Nos sorprendió la claridad de los resultados", afirma Marvin Kopka. "Porque muestran explícitamente que las preguntas relevantes para los pacientes no se responden automáticamente mejor con modelos más nuevos. Mejores resultados en las pruebas o exámenes no implican necesariamente mayores beneficios prácticos en la asistencia."
El beneficio práctico es decisivo
"En nuestra opinión, el factor decisivo no es sólo si un modelo categoriza correctamente los casos individuales, sino qué beneficio práctico tienen realmente las recomendaciones en la vida cotidiana. Si un sistema aconseja una aclaración médica para un gran número de dolencias como medida de precaución, esto tiene inicialmente un efecto positivo para los usuarios, pero deja de ofrecer un apoyo real a la toma de decisiones si la recomendación es casi siempre la misma", afirma el Dr. Marvin Kopka.
La misma información, pero no siempre la misma recomendación
También hay otro problema: los modelos no siempre dan respuestas coherentes. Dependiendo del modelo, a veces había fluctuaciones significativas con datos idénticos. Los modelos más recientes tenían menos casos que nunca se resolvían correctamente, pero al mismo tiempo más casos con recomendaciones incoherentes a lo largo de varias ejecuciones. Esto fue especialmente evidente en el GPT 5: en el 42% de los casos, las recomendaciones eran a veces correctas y a veces incorrectas cuando se introducía el mismo caso varias veces, a pesar de tener exactamente las mismas entradas.
El experimento demostró que se puede mejorar la precisión si se formula la misma pregunta varias veces y se selecciona el nivel de urgencia más bajo entre varias respuestas. De este modo, la precisión global aumentó una media de cuatro puntos porcentuales, y la de los casos de autocuidado incluso 14 puntos porcentuales. Sin embargo, los investigadores subrayan expresamente que no se trata de una recomendación para los usuarios finales, ya que en el peor de los casos podrían pasarse por alto urgencias.
Relevancia para el debate sobre atención primaria
Los resultados también son relevantes para la política sanitaria, afirma Kopka. En Alemania hay un intenso debate sobre un sistema de atención primaria y formas de gestión digital del paciente. El estudio de la TU sugiere que los modelos lingüísticos generales como ChatGPT no son actualmente una herramienta adecuada para este fin por sí solos. Si en la práctica un sistema aconseja predominantemente a los pacientes que busquen aclaraciones médicas, apenas se produce un efecto de control real, e incluso puede aumentar la utilización innecesaria de servicios médicos.
Más potencial en aplicaciones de calidad garantizada
"Por tanto, actualmente vemos el potencial de los grandes modelos lingüísticos menos en las ventanas de chat de los fabricantes que en una integración significativa en aplicaciones de calidad garantizada, es decir, en aplicaciones de comprobación de síntomas. Allí podrían ayudar a preparar la información de forma comprensible, explicar las recomendaciones y guiar mejor a las personas a través de las vías de atención existentes, siempre que la garantía de calidad médica tenga lugar en un segundo plano", afirma Marvin Kopka.
Limitaciones del estudio
Los investigadores también señalan que este estudio se centraba en la representatividad de la población. Dado que las emergencias reales son poco frecuentes en la vida cotidiana y, por tanto, también se producen con menos frecuencia cuando se utiliza ChatGPT, el conjunto de datos también contenía sólo unas pocas emergencias y examinaba principalmente las decisiones a favor o en contra de buscar ayuda médica. La precisión en el reconocimiento de emergencias reales debería investigarse en estudios posteriores.
Nota: Este artículo ha sido traducido utilizando un sistema informático sin intervención humana. LUMITOS ofrece estas traducciones automáticas para presentar una gama más amplia de noticias de actualidad. Como este artículo ha sido traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática. El artículo original en Alemán se puede encontrar aquí.