ChatGPT conseille trop souvent de consulter un médecin en cas de troubles bénins

Trop prudent pour les soins : faiblesses de ChatGPT pour les questions de santé

05.05.2026
AI-generated image

Image symbolique

L'intelligence artificielle (IA) est de plus en plus utilisée pour les questions de santé. De nombreuses personnes utilisent des outils tels que ChatGPT pour classer les troubles et évaluer s'ils ont besoin d'une aide médicale immédiate, s'ils doivent demander un avis médical ou s'ils peuvent d'abord attendre. Avec des versions spécialement positionnées pour le secteur de la santé, comme ChatGPT Health aux États-Unis, il est facile de donner l'impression d'une compétence professionnelle particulière. Cependant, la fiabilité des recommandations de ChatGPT n'a été que peu étudiée jusqu'à présent.

Dans une nouvelle étude menée par le département des sciences du travail de l'Université technique de Berlin, des chercheurs ont donc analysé la précision avec laquelle ChatGPT classe les problèmes de santé dans différentes versions du modèle, comment la performance a évolué au fil du temps et si des entrées identiques génèrent des recommandations cohérentes. Résultat : ChatGPT n'est actuellement que partiellement adapté à l'évaluation numérique initiale et à l'orientation autonome des patients.

22 versions de modèles, 45 cas réels, 9 900 évaluations

"La principale différence avec nos études précédentes est l'analyse longitudinale. Jusqu'à présent, seuls un ou deux modèles étaient étudiés. Maintenant, nous avons testé tous les modèles disponibles au fil du temps et analysé comment ils ont réellement évolué", explique le Dr Marvin Kopka, responsable de l'étude. "C'était également important pour nous, car il y a toujours des informations selon lesquelles de nouveaux modèles obtiennent des résultats presque parfaits lors des examens d'admission des médecins ou des tests de connaissances. On en déduit alors rapidement qu'ils donnent également des recommandations médicales fiables aux patients. Or, selon notre étude, c'est précisément ce qui n'est pas vrai".

Pour l'étude "Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice", parue dans le journal "Communications Medicine", l'équipe de recherche a testé 22 versions du modèle ChatGPT sur la base de cas réels de 45 patients*. Parmi ceux-ci figuraient des pathologies telles que "une surcharge de courte durée des tendons/ligaments la veille" ou encore "de simples problèmes de digestion/diarrhée depuis un jour sans autres symptômes". Chaque cas a été saisi dix fois par modèle. Au total, cela a donné lieu à 9 900 évaluations individuelles. Les modèles devaient à chaque fois décider si un cas devait être classé comme une urgence, un cas nécessitant une consultation médicale ou un cas nécessitant des soins personnels.

La précision n'augmente plus guère

L'évaluation montre que : La précision a d'abord nettement augmenté avec les premières versions de modèles. Mais depuis la troisième génération de modèles (gpt-4), il n'y a plus eu que de légères améliorations. Le meilleur modèle testé a atteint une précision de 74 pour cent. Certes, les modèles plus récents recommandaient plus souvent l'autosuffisance, mais dans l'ensemble, la performance dans ce domaine restait limitée.

Des faiblesses particulières pour les troubles bénins

Les modèles testés se sont montrés particulièrement performants dans l'identification des cas nécessitant un traitement. En revanche, la plupart des erreurs se sont produites dans des cas où l'autosuffisance aurait été suffisante : 70 % de toutes les erreurs concernaient ce groupe. Aucun des 13 cas d'autosuffisance n'a été résolu correctement par l'ensemble des modèles dans tous les passages.

Seuls quelques modèles, comme o4, o3 ou GPT 5, ont recommandé l'autosuffisance. Pour tous les autres modèles testés, il a été systématiquement conseillé de consulter un médecin. C'est problématique, car une grande partie des troubles n'est en fait pas dangereuse, disparaît d'elle-même ou peut être traitée par le patient lui-même.

L'étude révèle ainsi un modèle structurel : presque tous les modèles ont tendance à considérer, par précaution, que les troubles nécessitent un traitement plus important que ce qui serait médicalement nécessaire.

Les chercheurs qualifient ce modèle de comportement de triage conservateur. "Nous avons nous-mêmes été surpris par la clarté des résultats", explique le Dr Marvin Kopka. "Car ils montrent explicitement que les questions pertinentes pour les patients* ne sont pas automatiquement mieux traitées par les nouveaux modèles. De meilleurs résultats de tests ou d'examens ne signifient justement pas nécessairement une utilité pratique plus élevée dans les soins".

Ce qui est décisif, c'est l'utilité pratique

"De notre point de vue, ce qui est décisif, ce n'est pas seulement de savoir si un modèle classe correctement certains cas, mais quelle est l'utilité pratique réelle des recommandations au quotidien. Si un système conseille à titre préventif de consulter un médecin pour un grand nombre de troubles, cela semble d'abord sûr pour les utilisateurs* - mais il n'offre en fait plus de véritable aide à la décision si la recommandation est presque toujours la même", explique le Dr Marvin Kopka.

Même saisie, pas toujours la même recommandation

A cela s'ajoute un autre problème : les modèles ne répondent pas toujours de manière cohérente. En cas d'entrées identiques, des variations parfois importantes ont été observées selon les modèles. Les modèles les plus récents ont certes plus rarement des cas qui n'ont jamais été résolus correctement, mais en même temps plus souvent des cas avec des recommandations incohérentes sur plusieurs passages. Cela s'est avéré particulièrement évident avec le GPT 5 : dans 42 pour cent de tous les cas, les recommandations étaient tantôt correctes, tantôt erronées lors de la saisie répétée du même cas - malgré une saisie exactement identique.

L'expérience a certes montré que la précision pouvait être améliorée si la même question était posée plusieurs fois et si le niveau d'urgence le plus bas était ensuite sélectionné parmi plusieurs réponses. De cette manière, la précision globale a augmenté en moyenne de quatre points de pourcentage, et même de 14 points de pourcentage pour les cas d'autosuffisance. Les chercheurs soulignent toutefois expressément qu'il ne s'agit pas d'une recommandation pour les utilisateurs finaux, car dans le pire des cas, des urgences pourraient être oubliées.

Pertinence pour le débat sur les soins primaires

Selon Kopka, les résultats sont également pertinents pour la politique de santé. En Allemagne, on discute intensivement d'un système de soins primaires et de formes de gestion numérique des patients. L'étude de la TU suggère que les modèles linguistiques généraux tels que ChatGPT ne constituent pas actuellement un instrument approprié utilisable seul. Si un système conseille principalement de consulter un médecin dans la pratique, il n'y a guère d'effet de pilotage réel - le recours inutile à un médecin peut même augmenter.

Potentiel plutôt dans les applications dont la qualité est garantie

"C'est pourquoi nous voyons actuellement le potentiel des grands modèles linguistiques moins dans une utilisation dans la fenêtre de chat des fabricants que dans une intégration judicieuse dans des applications d'assurance qualité, c'est-à-dire dans les applications Symptom-Checker. Ils pourraient y aider à présenter les informations de manière compréhensible, à expliquer les recommandations et à mieux guider les personnes à travers les voies de soins existantes - à condition que l'assurance qualité médicale soit effectuée en arrière-plan", explique Marvin Kopka.

Limites de l'étude

Les chercheurs soulignent en même temps que l'accent de cette étude a été mis sur la représentativité de la population. Étant donné que les urgences réelles sont rares dans la vie quotidienne et qu'elles surviennent par conséquent moins souvent lors de l'utilisation de ChatGPT, l'ensemble des données ne contenait que peu d'urgences et examinait principalement les décisions pour ou contre la recherche d'une aide médicale. La précision de l'identification des urgences réelles devrait faire l'objet d'études supplémentaires.

Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Allemand peut être trouvé ici.

Publication originale

Autres actualités du département science

Plus actualités de nos autres portails

Si près que même
les molécules
deviennent rouges...