ChatGPT conseille trop souvent de consulter un médecin en cas de troubles bénins

Trop prudent pour les soins : faiblesses de ChatGPT pour les questions de santé

05.05.2026

Image symbolique

AI-generated image

Annonces

Profilage Métabolique Spatial

Filtration de qualité stérilisante haute performance pour les solvants et les formulations huileuses

Filtration à flux tangentiel à usage unique à l'échelle commerciale pour le biotraitement automatisé

L'intelligence artificielle (IA) est de plus en plus utilisée pour les questions de santé. De nombreuses personnes utilisent des outils tels que ChatGPT pour classer les troubles et évaluer s'ils ont besoin d'une aide médicale immédiate, s'ils doivent demander un avis médical ou s'ils peuvent d'abord attendre. Avec des versions spécialement positionnées pour le secteur de la santé, comme ChatGPT Health aux États-Unis, il est facile de donner l'impression d'une compétence professionnelle particulière. Cependant, la fiabilité des recommandations de ChatGPT n'a été que peu étudiée jusqu'à présent.

Dans une nouvelle étude menée par le département des sciences du travail de l'Université technique de Berlin, des chercheurs ont donc analysé la précision avec laquelle ChatGPT classe les problèmes de santé dans différentes versions du modèle, comment la performance a évolué au fil du temps et si des entrées identiques génèrent des recommandations cohérentes. Résultat : ChatGPT n'est actuellement que partiellement adapté à l'évaluation numérique initiale et à l'orientation autonome des patients.

22 versions de modèles, 45 cas réels, 9 900 évaluations

"La principale différence avec nos études précédentes est l'analyse longitudinale. Jusqu'à présent, seuls un ou deux modèles étaient étudiés. Maintenant, nous avons testé tous les modèles disponibles au fil du temps et analysé comment ils ont réellement évolué", explique le Dr Marvin Kopka, responsable de l'étude. "C'était également important pour nous, car il y a toujours des informations selon lesquelles de nouveaux modèles obtiennent des résultats presque parfaits lors des examens d'admission des médecins ou des tests de connaissances. On en déduit alors rapidement qu'ils donnent également des recommandations médicales fiables aux patients. Or, selon notre étude, c'est précisément ce qui n'est pas vrai".

Dépistage des maladies mentales : un exercice d'équilibre

Quel est le meilleur moyen d'atteindre les personnes qui ont besoin d'un traitement ?

Lire le actualité

Pour l'étude "Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice", parue dans le journal "Communications Medicine", l'équipe de recherche a testé 22 versions du modèle ChatGPT sur la base de cas réels de 45 patients*. Parmi ceux-ci figuraient des pathologies telles que "une surcharge de courte durée des tendons/ligaments la veille" ou encore "de simples problèmes de digestion/diarrhée depuis un jour sans autres symptômes". Chaque cas a été saisi dix fois par modèle. Au total, cela a donné lieu à 9 900 évaluations individuelles. Les modèles devaient à chaque fois décider si un cas devait être classé comme une urgence, un cas nécessitant une consultation médicale ou un cas nécessitant des soins personnels.

La précision n'augmente plus guère

L'évaluation montre que : La précision a d'abord nettement augmenté avec les premières versions de modèles. Mais depuis la troisième génération de modèles (gpt-4), il n'y a plus eu que de légères améliorations. Le meilleur modèle testé a atteint une précision de 74 pour cent. Certes, les modèles plus récents recommandaient plus souvent l'autosuffisance, mais dans l'ensemble, la performance dans ce domaine restait limitée.

Des faiblesses particulières pour les troubles bénins

Les modèles testés se sont montrés particulièrement performants dans l'identification des cas nécessitant un traitement. En revanche, la plupart des erreurs se sont produites dans des cas où l'autosuffisance aurait été suffisante : 70 % de toutes les erreurs concernaient ce groupe. Aucun des 13 cas d'autosuffisance n'a été résolu correctement par l'ensemble des modèles dans tous les passages.

Seuls quelques modèles, comme o4, o3 ou GPT 5, ont recommandé l'autosuffisance. Pour tous les autres modèles testés, il a été systématiquement conseillé de consulter un médecin. C'est problématique, car une grande partie des troubles n'est en fait pas dangereuse, disparaît d'elle-même ou peut être traitée par le patient lui-même.

L'étude révèle ainsi un modèle structurel : presque tous les modèles ont tendance à considérer, par précaution, que les troubles nécessitent un traitement plus important que ce qui serait médicalement nécessaire.

Les chercheurs qualifient ce modèle de comportement de triage conservateur. "Nous avons nous-mêmes été surpris par la clarté des résultats", explique le Dr Marvin Kopka. "Car ils montrent explicitement que les questions pertinentes pour les patients* ne sont pas automatiquement mieux traitées par les nouveaux modèles. De meilleurs résultats de tests ou d'examens ne signifient justement pas nécessairement une utilité pratique plus élevée dans les soins".

Ce qui est décisif, c'est l'utilité pratique

"De notre point de vue, ce qui est décisif, ce n'est pas seulement de savoir si un modèle classe correctement certains cas, mais quelle est l'utilité pratique réelle des recommandations au quotidien. Si un système conseille à titre préventif de consulter un médecin pour un grand nombre de troubles, cela semble d'abord sûr pour les utilisateurs* - mais il n'offre en fait plus de véritable aide à la décision si la recommandation est presque toujours la même", explique le Dr Marvin Kopka.

Même saisie, pas toujours la même recommandation

A cela s'ajoute un autre problème : les modèles ne répondent pas toujours de manière cohérente. En cas d'entrées identiques, des variations parfois importantes ont été observées selon les modèles. Les modèles les plus récents ont certes plus rarement des cas qui n'ont jamais été résolus correctement, mais en même temps plus souvent des cas avec des recommandations incohérentes sur plusieurs passages. Cela s'est avéré particulièrement évident avec le GPT 5 : dans 42 pour cent de tous les cas, les recommandations étaient tantôt correctes, tantôt erronées lors de la saisie répétée du même cas - malgré une saisie exactement identique.

L'expérience a certes montré que la précision pouvait être améliorée si la même question était posée plusieurs fois et si le niveau d'urgence le plus bas était ensuite sélectionné parmi plusieurs réponses. De cette manière, la précision globale a augmenté en moyenne de quatre points de pourcentage, et même de 14 points de pourcentage pour les cas d'autosuffisance. Les chercheurs soulignent toutefois expressément qu'il ne s'agit pas d'une recommandation pour les utilisateurs finaux, car dans le pire des cas, des urgences pourraient être oubliées.

Pertinence pour le débat sur les soins primaires

Selon Kopka, les résultats sont également pertinents pour la politique de santé. En Allemagne, on discute intensivement d'un système de soins primaires et de formes de gestion numérique des patients. L'étude de la TU suggère que les modèles linguistiques généraux tels que ChatGPT ne constituent pas actuellement un instrument approprié utilisable seul. Si un système conseille principalement de consulter un médecin dans la pratique, il n'y a guère d'effet de pilotage réel - le recours inutile à un médecin peut même augmenter.

Potentiel plutôt dans les applications dont la qualité est garantie

"C'est pourquoi nous voyons actuellement le potentiel des grands modèles linguistiques moins dans une utilisation dans la fenêtre de chat des fabricants que dans une intégration judicieuse dans des applications d'assurance qualité, c'est-à-dire dans les applications Symptom-Checker. Ils pourraient y aider à présenter les informations de manière compréhensible, à expliquer les recommandations et à mieux guider les personnes à travers les voies de soins existantes - à condition que l'assurance qualité médicale soit effectuée en arrière-plan", explique Marvin Kopka.

Limites de l'étude

Les chercheurs soulignent en même temps que l'accent de cette étude a été mis sur la représentativité de la population. Étant donné que les urgences réelles sont rares dans la vie quotidienne et qu'elles surviennent par conséquent moins souvent lors de l'utilisation de ChatGPT, l'ensemble des données ne contenait que peu d'urgences et examinait principalement les décisions pour ou contre la recherche d'une aide médicale. La précision de l'identification des urgences réelles devrait faire l'objet d'études supplémentaires.

Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Allemand peut être trouvé ici.

Publication originale

Marvin Kopka, Longqi He, Markus A. Feufel; "Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice"; Communications Medicine, Volume 6, 2026-2-25

https://www.bionity.com/fr/news/1188630/chatgpt-conseille-trop-souvent-de-consulter-un-medecin-en-cas-de-troubles-benins.html

Publication originale

Marvin Kopka, Longqi He, Markus A. Feufel; "Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice"; Communications Medicine, Volume 6, 2026-2-25

Sujets

intelligence artificielle santé

Afficher plus

Organisations

TU Berlin

Annonces

Plate-forme avancée de gestion des données et d'automatisation des bioprocédés

Technologie TFF avancée pour une concentration et un traitement améliorés des anticorps monoclonaux

Microscope d’imagerie confocal Raman 3D

Si près que même
les molécules
deviennent rouges...

Fabricant de spectromètres NIR

Plus dans le département science S'abonner à la newsletter

Recevez les dernières actualités du secteur des sciences de la vie

ChatGPT conseille trop souvent de consulter un médecin en cas de troubles bénins

Trop prudent pour les soins : faiblesses de ChatGPT pour les questions de santé

22 versions de modèles, 45 cas réels, 9 900 évaluations

Dépistage des maladies mentales : un exercice d'équilibre

La précision n'augmente plus guère

Des faiblesses particulières pour les troubles bénins

Ce qui est décisif, c'est l'utilité pratique

Même saisie, pas toujours la même recommandation

Pertinence pour le débat sur les soins primaires

Potentiel plutôt dans les applications dont la qualité est garantie

Limites de l'étude

Publication originale

Comment les agents autonomes d'IA vont changer la recherche sur le cancer

Autres actualités du département science

Une nouvelle étude met en évidence l'optimisme de la société à l'égard des percées scientifiques et l'inquiétude croissante face à la rapidité avec laquelle le monde évolue

L'alimentation peut contribuer à maintenir la diversité dans l'intestin

Les aliments ultra-transformés nuisent à votre concentration, même si vous mangez sainement

Un système laser innovant fait progresser la méthode de microscopie pour révéler les mondes cellulaires cachés

Le stress oxydatif ralentit le cerveau, mais le frein peut être relâché

Le recyclage biologique des déchets électroniques présente un grand potentiel

Améliorer le bien-être des animaux en laboratoire : l'IA permet de mieux détecter la douleur

La découverte d'une nouvelle vulnérabilité dans le lymphome agressif pourrait modifier la thérapie future

Les souvenirs se forment-ils à partir d'une ardoise vierge ?

Une étude révèle que le traitement des arachides par plasma froid pourrait les rendre moins allergènes

Comment les agents pathogènes passent en mode "dangereux

Les cellules immunitaires du nez ralentissent le virus de la grippe

Une nouvelle cible cellulaire prévient l'infection par l'hépatite E

Usine cellulaire pour le système immunitaire : une nouvelle méthode rend les macrophages extensibles pour la recherche

Plus efficaces, plus durables et à base d'extraits naturels : la nouvelle génération d'écrans solaires

Quand les molécules réagissent : un nouveau logiciel permet de visualiser les processus biologiques en mouvement

Une tumeur cérébrale se propageant dans un cerveau vivant observé en direct pour la première fois

Un outil d'IA pourrait accélérer la découverte de médicaments

Le café a un effet positif sur l'axe intestin-cerveau

Les modèles linguistiques de l'IA surpassent les médecins spécialistes

Recevez les dernières actualités du secteur des sciences de la vie

Actualités les plus lues

La protéine clé SYFO2 permet l'"autofécondation" des légumineuses

Le microbiote tumoral : une nouvelle frontière dans la biologie du cancer

Evotec lance une transformation stratégique avec un objectif d'économies de 75 millions d'euros

Des bactéries bourdons renforcent la vitamine B2 dans les boissons au soja

Un complexe de cuivre tue les cellules cancéreuses 100 fois plus efficacement que les médicaments de chimiothérapie conventionnels

Une percée enzymatique offre une solution durable pour le recyclage du plastique polyuréthane

La pénurie d'hélium menace la production de médicaments

Nouveaux biomarqueurs pour la détection du cancer

Plus actualités de nos autres portails

L'usine chimique DOMO de Leuna sauvée

Des chercheurs transforment de l'acide de batterie de voiture récupéré et des déchets plastiques en hydrogène propre

Une avancée permet un recyclage sans fin des plastiques acryliques, sans coût pour l'environnement

Des muscles artificiels contrôlés par la lumière

La crise du Moyen-Orient déclenche des pénuries historiques de matières premières et des flambées de prix spectaculaires

Endress+Hauser franchit pour la première fois la barre des quatre milliards d'euros

L'usure des pneus représente un tiers du plastique marin : des chercheurs et une start-up développent des solutions contre les microplastiques

L'industrie chimique allemande enregistre une baisse de son chiffre d'affaires et de l'emploi

Un régulateur pour la supraconductivité non conventionnelle

Un fleuron de la production chimique : BASF inaugure le site mondial de Verbund en Chine

Si près que même les molécules deviennent rouges...

Si près que même
les molécules
deviennent rouges...