L'« empreinte digitale » hospitalière permet à l'IA de détecter les erreurs de diagnostic concernant les tissus cancéreux

L'origine d'un échantillon ne doit pas influencer le résultat : critère d'évaluation d'une IA clinique fiable

29.06.2026
AI-generated image

Image symbolique

Une nouvelle étude menée par des chercheurs du projet BIFOLD à l'Université technique de Berlin (TU Berlin), en collaboration avec la société berlinoise spécialisée dans l'IA Aignostics, l'Université Ludwig-Maximilian (LMU) de Munich et l’Institut néerlandais du cancer (NKI), montre que les modèles d’IA actuels utilisés en pathologie peuvent souvent être influencés par l’hôpital d’origine de l’échantillon de tissu à analyser. L’équipe a développé « PathoROB », la première échelle d’évaluation au monde permettant de mesurer et de réduire ce problème. PathoROB est d’ores et déjà largement utilisé et influence ainsi la prochaine génération de modèles d’IA destinés à la pathologie. L’étude vient d’être publiée dans Nature Communications.

L’intelligence artificielle a pour but d’aider les médecins à diagnostiquer et à caractériser le cancer plus rapidement et avec plus de précision. Les « modèles de base » (Foundation Models) – de vastes systèmes d’IA pré-entraînés sur des millions d’images microscopiques de tissus – sont de plus en plus utilisés dans les processus cliniques pour la détection du cancer, la classification des maladies et la prédiction des biomarqueurs. La nouvelle étude menée par cette équipe de recherche interdisciplinaire met désormais en évidence une faille critique de ces modèles : chaque laboratoire de pathologie laisse une signature subtile sur ses coupes tissulaires, sous forme de différences dans la préparation, la coloration et la numérisation des biopsies. Ces différences sont sans importance sur le plan médical, mais elles sont visibles pour les systèmes d’IA et les modèles les intègrent. Les chercheurs ont démontré que les modèles de base actuels sont capables, à partir des représentations de caractéristiques qu’ils ont apprises, d’identifier l’hôpital d’origine d’une coupe tissulaire avec une précision comprise entre 88 et 98 %. Dans certains cas, la « carte » interne des données d’un modèle était organisée en premier lieu en fonction des hôpitaux, et seulement ensuite selon que le tissu était sain ou cancéreux.

Des « empreintes » d’hôpitaux cachées dans les modèles

Les conséquences peuvent être graves. Dans un exemple particulièrement frappant, un modèle d’IA a appris à utiliser la signature de l’hôpital comme raccourci pour ses décisions. Il a ainsi classé à tort un échantillon de tissu clairement malin comme sain – simplement parce que l’échantillon provenait d’un hôpital qui, par le passé, n’avait envoyé presque que des échantillons sains et que le modèle avait donc associé à du tissu sain.

Afin de quantifier ce problème, les chercheurs ont développé PathoROB, la première échelle d’évaluation accessible au public qui aborde spécifiquement la robustesse des modèles de base en pathologie face aux variations techniques. Il regroupe quatre ensembles de données comprenant environ 100 000 échantillons de tissu, 28 classes biologiques et 34 centres médicaux. De plus, il introduit un nouvel « indice de robustesse » qui quantifie dans quelle mesure la représentation interne d’un modèle est déterminée par la biologie et non par des artefacts hospitaliers.

Appliqué à 20 modèles de base largement utilisés, PathoROB a mis en évidence des lacunes pour chacun d’entre eux. Les modèles de plus grande taille, entraînés sur des données plus variées, ainsi que ceux combinant des données d’images et des rapports textuels (modèles vision-langage), ont obtenu les meilleurs résultats. Les chercheurs ont également testé différentes méthodes a posteriori de « robustification » et ont constaté que celles-ci pouvaient réduire considérablement le risque de telles erreurs – même si ce n’est pas encore de manière totale. Ce processus ne nécessite pas de réentraînement coûteux du modèle sous-jacent.

« Les modèles de base pour la pathologie évoluent à un rythme effréné, ce qui est extrêmement passionnant. Nos résultats montrent toutefois qu’une bonne performance sur un benchmark standard ne suffit pas pour faire confiance à un modèle en milieu clinique », explique Julius Hense, co-auteur principal de l’étude et chercheur au BIFOLD et à l’Université technique de Berlin. « PathoROB offre aux développeurs et aux utilisateurs cliniques un outil leur permettant de vérifier si un modèle a réellement appris des relations biologiques ou s’il s’est contenté de reconnaître de quel hôpital provient un échantillon. »

Façonner la prochaine génération d’IA en pathologie

PathoROB transforme d’ores et déjà la manière dont l’IA est développée et comparée en pathologie. Le modèle de base de nouvelle génération d’Aignostics, « Atlas 2 », développé en collaboration avec la Mayo Clinic aux États-Unis, a été expressément conçu pour résoudre les conflits d’objectifs entre performance et robustesse mis en évidence par PathoROB. De plus, PathoROB s’impose de plus en plus comme la référence en matière de robustesse des modèles de base. De nouveaux modèles, ou encore des plateformes telles que « Histoboard », présentent désormais leurs résultats PathoROB comme l’un des critères d’évaluation permettant de comparer directement entre eux les modèles d’IA en pathologie.

Grâce à la mise à disposition en open access de l’échelle d’évaluation, des ensembles de données et du code source, les chercheurs espèrent faire de l’évaluation de la robustesse une composante à part entière de la validation des modèles de base biomédicaux – avant que ceux-ci ne soient utilisés pour soutenir les décisions cliniques et, par conséquent, influencer potentiellement les traitements des patients.

Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Allemand peut être trouvé ici.

Publication originale

Autres actualités du département science

Actualités les plus lues

Plus actualités de nos autres portails

Si près que même
les molécules
deviennent rouges...