Les collectifs humains-IA établissent les diagnostics médicaux les plus précis

L'étude met en évidence le potentiel d'amélioration de la sécurité des patients et de l'équité des soins de santé

24.06.2025
Computer-generated image

Image symbolique

L'intelligence artificielle (IA) peut aider efficacement les médecins à poser des diagnostics. Elle commet des erreurs différentes de celles des humains, et cette complémentarité représente une force jusqu'ici inexploitée. Une équipe internationale dirigée par l'Institut Max Planck pour le développement humain vient de démontrer systématiquement pour la première fois que la combinaison de l'expertise humaine et des modèles d'IA permet d'obtenir les diagnostics ouverts les plus précis.

Les erreurs de diagnostic comptent parmi les problèmes les plus graves de la pratique médicale quotidienne. Les systèmes d'IA, en particulier les grands modèles de langage (LLM) tels que ChatGPT-4, Gemini ou Claude 3, offrent de nouveaux moyens de soutenir efficacement les diagnostics médicaux. Cependant, ces systèmes comportent également des risques considérables - par exemple, ils peuvent "halluciner" et générer de fausses informations. En outre, ils reproduisent des préjugés sociaux ou médicaux existants et commettent des erreurs qui laissent souvent les humains perplexes.

Une équipe de recherche internationale, dirigée par l'Institut Max Planck pour le développement humain et en collaboration avec des partenaires du Human Diagnosis Project (San Francisco) et de l'Institut des sciences et technologies cognitives du Conseil national de la recherche italien (CNR-ISTC Rome), a étudié comment les humains et l'IA peuvent collaborer au mieux.

Résultat : les collectifs de diagnostic hybrides - groupes composés d'experts humains et de systèmes d'IA - sont nettement plus précis que les collectifs composés uniquement d'humains ou d'IA. Cela vaut en particulier pour les questions diagnostiques complexes et ouvertes, qui comportent de nombreuses solutions possibles, plutôt que pour les simples décisions de type oui/non. "Nos résultats montrent que la coopération entre les humains et les modèles d'IA a un grand potentiel pour améliorer la sécurité des patients", explique l'auteur principal, Nikolas Zöller, chercheur postdoctoral au Centre pour la rationalité adaptative de l'Institut Max Planck pour le développement humain.

Des simulations réalistes à partir de plus de 2 100 vignettes cliniques

Les chercheurs ont utilisé les données du Human Diagnosis Project, qui fournit des vignettes cliniques - de courtes descriptions d'études de cas médicaux - accompagnées des diagnostics corrects. À l'aide de plus de 2 100 de ces vignettes, l'étude a comparé les diagnostics posés par des professionnels de la santé à ceux de cinq grands modèles d'IA. Dans l'expérience centrale, différents collectifs de diagnostic ont été simulés : des individus, des collectifs humains, des modèles d'IA et des collectifs mixtes humains-IA. Au total, les chercheurs ont analysé plus de 40 000 diagnostics. Chaque diagnostic a été classé et évalué selon les normes médicales internationales (SNOMED CT).

Les humains et les machines se complètent, même dans leurs erreurs

L'étude montre que la combinaison de plusieurs modèles d'IA améliore la qualité des diagnostics. En moyenne, les collectifs d'IA ont obtenu de meilleurs résultats que 85 % des diagnosticiens humains. Toutefois, dans de nombreux cas, les humains ont obtenu de meilleurs résultats. Il est intéressant de noter que lorsque l'IA échoue, les humains connaissent souvent le bon diagnostic.

La plus grande surprise a été de constater que la combinaison des deux mondes a entraîné une augmentation significative de la précision. Même l'ajout d'un seul modèle d'IA à un groupe de diagnosticiens humains - ou vice versa - a considérablement amélioré le résultat. Les résultats les plus fiables proviennent de décisions collectives impliquant plusieurs humains et plusieurs IA.

L'explication réside dans le fait que les humains et l'IA commettent des erreurs systématiquement différentes. Lorsque l'IA échoue, un professionnel humain peut compenser l'erreur, et vice versa. C'est cette complémentarité des erreurs qui rend les collectifs hybrides si puissants. "Il ne s'agit pas de remplacer les humains par des machines. Nous devrions plutôt considérer l'intelligence artificielle comme un outil complémentaire qui déploie tout son potentiel dans la prise de décision collective", explique Stefan Herzog, coauteur de l'étude et chercheur principal à l'Institut Max Planck pour le développement humain.

Toutefois, les chercheurs soulignent également les limites de leur travail. L'étude n'a porté que sur des vignettes de cas basées sur des textes, et non sur des patients réels dans des environnements cliniques réels. La question de savoir si les résultats peuvent être transposés directement dans la pratique reste une question à laquelle de futures études devront répondre. De même, l'étude s'est concentrée uniquement sur le diagnostic, et non sur le traitement, et un diagnostic correct ne garantit pas nécessairement un traitement optimal.

On ne sait pas non plus comment les systèmes d'aide basés sur l'IA seront acceptés dans la pratique par le personnel médical et les patients. Les risques potentiels de partialité et de discrimination de la part de l'IA et des humains, notamment en ce qui concerne les différences ethniques, sociales ou de genre, doivent également faire l'objet de recherches plus approfondies.

Un large éventail d'applications pour les collectifs hybrides homme-IA

L'étude fait partie du projet HACID (Hybrid Human Artificial Collective Intelligence in Open-Ended Decision Making), financé par Horizon Europe, qui vise à promouvoir le développement de futurs systèmes d'aide à la décision clinique grâce à l'intégration intelligente de l'intelligence humaine et de l'intelligence machine. Les chercheurs voient un potentiel particulier dans les régions où l'accès aux soins médicaux est limité. Les collectifs hybrides homme-AI pourraient apporter une contribution cruciale à une plus grande équité en matière de soins de santé dans ces régions.

"L'approche peut également être transférée à d'autres domaines critiques, tels que le système juridique, la réponse aux catastrophes ou la politique climatique, partout où des décisions complexes et à haut risque sont nécessaires. Par exemple, le projet HACID développe également des outils pour améliorer la prise de décision en matière d'adaptation climatique", explique Vito Trianni, co-auteur et coordinateur du projet HACID.

Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Anglais peut être trouvé ici.

Publication originale

Autres actualités du département science

Actualités les plus lues

Plus actualités de nos autres portails