ChatGPT aconseja ir al médico con demasiada frecuencia por molestias inofensivas

Demasiado prudente para la sanidad: los puntos débiles del ChatGPT en materia sanitaria

05.05.2026

Imagen del símbolo

AI-generated image

Anuncios

ERP optimizado para el sector de las ciencias de la vida

Inactivación continua de virus a bajo pH para el bioprocesamiento integrado

Plataforma avanzada de gestión y automatización de datos de bioprocesos

La inteligencia artificial (IA) también se utiliza cada vez más para cuestiones de salud. Muchas personas utilizan herramientas como ChatGPT para clasificar las dolencias y evaluar si necesitan ayuda médica de inmediato, si deben buscar consejo médico o si pueden esperar y ver qué pasa. Con versiones específicamente posicionadas para el sector sanitario, como ChatGPT Health en EE.UU., es fácil crear la impresión de una especial idoneidad profesional. Sin embargo, hasta ahora sólo se ha analizado de forma limitada la fiabilidad real de las recomendaciones de ChatGPT.

Por ello, en un nuevo estudio del Departamento de Ergonomía de la Universidad Técnica de Berlín, los investigadores han analizado la precisión con la que ChatGPT clasifica los problemas de salud en diferentes versiones del modelo, cómo ha cambiado el rendimiento con el tiempo y si entradas idénticas generan recomendaciones coherentes. El resultado: ChatGPT sólo es adecuado hasta cierto punto para la evaluación inicial digital y la gestión independiente de pacientes.

22 versiones del modelo, 45 casos reales, 9.900 evaluaciones

"La principal diferencia con nuestros estudios anteriores es el análisis longitudinal. Antes sólo se analizaban uno o dos modelos. Ahora hemos probado todos los modelos disponibles a lo largo del tiempo y hemos analizado cómo han cambiado realmente", afirma el Dr. Marvin Kopka, director del estudio. "Esto también era importante para nosotros porque siempre hay informes de que los nuevos modelos obtienen resultados casi perfectos en las pruebas de acceso a la medicina o en las pruebas de conocimientos. Esto lleva rápidamente a la conclusión de que también proporcionan recomendaciones médicas fiables a los pacientes. Sin embargo, según nuestro estudio, este no es precisamente el caso".

La empresa derivada de Charité quiere avanzar en la patología impulsada por la IA

Aignostics recauda 5 millones de euros en la ronda de semillas

Leer noticia

Para el estudio "Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice", publicado en la revista "Communications Medicine", el equipo de investigación probó 22 versiones del modelo ChatGPT utilizando casos reales de 45 pacientes. Entre ellos figuraban cuadros clínicos como "una distensión tendinosa/ligamentosa de corta duración el día anterior" o "simples problemas digestivos/diarrea durante un día sin más síntomas". Cada caso se introdujo diez veces por modelo. El resultado fue un total de 9.900 evaluaciones individuales. Los modelos tenían que decidir si un caso debía clasificarse como urgencia, caso de aclaración médica o caso de autocuidado.

La precisión apenas aumenta

La evaluación lo demuestra: Al principio, la precisión aumentó considerablemente con las primeras versiones del modelo. Sin embargo, a partir de la tercera generación de modelos (gpt-4), las mejoras han sido mínimas. El mejor modelo probado alcanzó una precisión del 74%. Aunque los modelos más recientes recomendaban con más frecuencia el autocuidado, el rendimiento global en este ámbito seguía siendo limitado.

Puntos débiles en las quejas inofensivas

Los modelos probados fueron especialmente buenos a la hora de reconocer los casos que requerían tratamiento. Sin embargo, la mayoría de los errores se produjeron en casos en los que el autocuidado habría sido suficiente: el 70% de todos los errores pertenecían a este grupo. Ni uno solo de los 13 casos de autocuidado fue resuelto correctamente por todos los modelos en todas las ejecuciones.

Sólo algunos modelos, como o4, o3 o GPT 5, recomendaron en algún momento el autocuidado. En todos los demás modelos probados, se recomendó de forma generalizada la aclaración médica. Esto es problemático porque una proporción significativa de las dolencias no son realmente peligrosas, desaparecen por sí solas o pueden ser tratadas por el paciente.

El estudio revela así un patrón estructural: casi todos los modelos tienden a clasificar las dolencias como dolencias que requieren más tratamiento como precaución del que sería médicamente necesario.

Los investigadores denominan a este patrón comportamiento de triaje conservador. "Nos sorprendió la claridad de los resultados", afirma Marvin Kopka. "Porque muestran explícitamente que las preguntas relevantes para los pacientes no se responden automáticamente mejor con modelos más nuevos. Mejores resultados en las pruebas o exámenes no implican necesariamente mayores beneficios prácticos en la asistencia."

El beneficio práctico es decisivo

"En nuestra opinión, el factor decisivo no es sólo si un modelo categoriza correctamente los casos individuales, sino qué beneficio práctico tienen realmente las recomendaciones en la vida cotidiana. Si un sistema aconseja una aclaración médica para un gran número de dolencias como medida de precaución, esto tiene inicialmente un efecto positivo para los usuarios, pero deja de ofrecer un apoyo real a la toma de decisiones si la recomendación es casi siempre la misma", afirma el Dr. Marvin Kopka.

La misma información, pero no siempre la misma recomendación

También hay otro problema: los modelos no siempre dan respuestas coherentes. Dependiendo del modelo, a veces había fluctuaciones significativas con datos idénticos. Los modelos más recientes tenían menos casos que nunca se resolvían correctamente, pero al mismo tiempo más casos con recomendaciones incoherentes a lo largo de varias ejecuciones. Esto fue especialmente evidente en el GPT 5: en el 42% de los casos, las recomendaciones eran a veces correctas y a veces incorrectas cuando se introducía el mismo caso varias veces, a pesar de tener exactamente las mismas entradas.

El experimento demostró que se puede mejorar la precisión si se formula la misma pregunta varias veces y se selecciona el nivel de urgencia más bajo entre varias respuestas. De este modo, la precisión global aumentó una media de cuatro puntos porcentuales, y la de los casos de autocuidado incluso 14 puntos porcentuales. Sin embargo, los investigadores subrayan expresamente que no se trata de una recomendación para los usuarios finales, ya que en el peor de los casos podrían pasarse por alto urgencias.

Relevancia para el debate sobre atención primaria

Los resultados también son relevantes para la política sanitaria, afirma Kopka. En Alemania hay un intenso debate sobre un sistema de atención primaria y formas de gestión digital del paciente. El estudio de la TU sugiere que los modelos lingüísticos generales como ChatGPT no son actualmente una herramienta adecuada para este fin por sí solos. Si en la práctica un sistema aconseja predominantemente a los pacientes que busquen aclaraciones médicas, apenas se produce un efecto de control real, e incluso puede aumentar la utilización innecesaria de servicios médicos.

Más potencial en aplicaciones de calidad garantizada

"Por tanto, actualmente vemos el potencial de los grandes modelos lingüísticos menos en las ventanas de chat de los fabricantes que en una integración significativa en aplicaciones de calidad garantizada, es decir, en aplicaciones de comprobación de síntomas. Allí podrían ayudar a preparar la información de forma comprensible, explicar las recomendaciones y guiar mejor a las personas a través de las vías de atención existentes, siempre que la garantía de calidad médica tenga lugar en un segundo plano", afirma Marvin Kopka.

Limitaciones del estudio

Los investigadores también señalan que este estudio se centraba en la representatividad de la población. Dado que las emergencias reales son poco frecuentes en la vida cotidiana y, por tanto, también se producen con menos frecuencia cuando se utiliza ChatGPT, el conjunto de datos también contenía sólo unas pocas emergencias y examinaba principalmente las decisiones a favor o en contra de buscar ayuda médica. La precisión en el reconocimiento de emergencias reales debería investigarse en estudios posteriores.

Nota: Este artículo ha sido traducido utilizando un sistema informático sin intervención humana. LUMITOS ofrece estas traducciones automáticas para presentar una gama más amplia de noticias de actualidad. Como este artículo ha sido traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática. El artículo original en Alemán se puede encontrar aquí.

Publicación original

Marvin Kopka, Longqi He, Markus A. Feufel; "Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice"; Communications Medicine, Volume 6, 2026-2-25

https://www.bionity.com/es/noticias/1188630/chatgpt-aconseja-ir-al-medico-con-demasiada-frecuencia-por-molestias-inofensivas.html

Publicación original

Marvin Kopka, Longqi He, Markus A. Feufel; "Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice"; Communications Medicine, Volume 6, 2026-2-25

Temas

inteligencia artificial salud

Ver todos

Organizaciones

TU Berlin

Anuncios

Máxima capacidad de unión en cromatografía de intercambio iónico

Preparación automatizada de muestras de mAb de alto rendimiento para el desarrollo de líneas celulares

Pipeteado de 96 canales con precisión certificada ISO para flujos de trabajo de alto rendimiento

Lucha contra el cáncer: últimos avances y progresos

Descubra las noticias sobre el cáncer

Más del departamento ciencias Suscribirse al boletín

Reciba la industria de las ciencias biológicas en su bandeja de entrada

ChatGPT aconseja ir al médico con demasiada frecuencia por molestias inofensivas

Demasiado prudente para la sanidad: los puntos débiles del ChatGPT en materia sanitaria

22 versiones del modelo, 45 casos reales, 9.900 evaluaciones

La empresa derivada de Charité quiere avanzar en la patología impulsada por la IA

La precisión apenas aumenta

Puntos débiles en las quejas inofensivas

El beneficio práctico es decisivo

La misma información, pero no siempre la misma recomendación

Relevancia para el debate sobre atención primaria

Más potencial en aplicaciones de calidad garantizada

Limitaciones del estudio

Publicación original

Muestras de sangre del zoológico ayudan a predecir enfermedades en humanos

Más noticias del departamento ciencias

Un nuevo estudio pone de manifiesto el optimismo de la sociedad ante los avances científicos y la creciente ansiedad por la rapidez con que cambia el mundo

Los alimentos pueden ayudar a mantener la diversidad intestinal

Los alimentos ultraprocesados dañan tu concentración aunque comas sano

Un innovador sistema láser avanza en el método de microscopía para revelar mundos celulares ocultos

El estrés oxidativo ralentiza el cerebro, pero el freno puede volver a soltarse

El reciclado biológico de residuos electrónicos muestra un gran potencial

Mejorar el bienestar animal en el laboratorio: la IA ayuda a detectar mejor el dolor

El descubrimiento de una nueva vulnerabilidad en el linfoma agresivo podría cambiar la terapia futura

¿Se forman los recuerdos sobre una pizarra en blanco?

Un estudio revela que tratar los cacahuetes con plasma frío podría hacerlos menos alergénicos

Cómo los patógenos pasan a ser "peligrosos

Las células inmunitarias de la nariz frenan el virus de la gripe

Fábrica de células para el sistema inmunitario: un nuevo método hace que los macrófagos sean escalables para la investigación

Una nueva diana celular previene la infección por hepatitis E

Más eficaces, duraderos y a partir de extractos naturales: así es la nueva generación de protectores solares

Cuando las moléculas reaccionan: un nuevo software visualiza los procesos biológicos en movimiento

Tumor cerebral diseminado en el cerebro vivo observado en directo por primera vez

Una herramienta de IA podría acelerar el descubrimiento de fármacos

El café tiene un efecto positivo sobre el eje intestino-cerebro

Los modelos lingüísticos de IA superan a los médicos especialistas

Reciba la industria de las ciencias biológicas en su bandeja de entrada

Noticias más leídas

El primer "mapa proteínico" de las neuronas que inician el dolor revela nuevas dianas farmacológicas

El consumo de edulcorantes artificiales por parte de los padres podría afectar al metabolismo de sus hijos

Primeros pasos hacia la terapia celular de los trastornos cerebrales

¿Cuántos años tenemos realmente?

Los hongos utilizan el "botón de inicio" para el hielo de las bacterias

El avance de las enzimas de ingeniería ofrece una solución sostenible para el reciclado de plásticos de poliuretano

Un experimento fallido de científicos de Cambridge da lugar a un sorprendente avance en el desarrollo de fármacos

Más protección inmunitaria, menos dominio: ¿una nueva fase en el desarrollo de la corona?

Nuevo enfoque de la insuficiencia cardíaca: investigadores de Gotinga descubren un "interruptor" genético

Más noticias de nuestros otros portales

Un proceso electroquímico permite recuperar valiosas materias primas

¿Cómo de fresco es este pescado?

Hidrógeno verde sólo a partir del sol y el agua, sin electrolizadores ni electricidad

Ajo silvestre: cuidado con la confusión

Un gran avance permite reciclar plásticos acrílicos sin fin y sin costes medioambientales

Disminuye el consumo de zumo de fruta y aumenta el de verdura

Los científicos descubren una nueva forma en que los metales se unen al oxígeno, lo que podría abrir un "nuevo capítulo" en la química

Científicos del sector alimentario desarrollan un nuevo antimicrobiano para la limpieza y desinfección de equipos de procesado de alimentos secos

Mejores plásticos reciclados gracias a la inteligencia artificial

Desarrollan un revestimiento de barrera biodegradable para envases de papel

Una nueva empresa pretende sustituir los combustibles fósiles en el calentamiento de procesos industriales

Los investigadores convierten en hidrógeno limpio el ácido recuperado de las baterías de coche y los residuos plásticos

Un descubrimiento casual en el laboratorio hace que una empresa reciba una subvención de la OTAN

Mecanismo de itinerancia revelado en bromoformo

Lucha contra el cáncer: últimos avances y progresos