L’impronta digitale ospedaliera porta l’intelligenza artificiale a formulare diagnosi errate sul tessuto tumorale

L'origine di un campione non deve influenzare il risultato: criteri di valutazione per un'IA clinica affidabile

29.06.2026
AI-generated image

Immagine simbolica

Un nuovo studio condotto dai ricercatori del BIFOLD presso il Politecnico di Berlino, in collaborazione con l’azienda berlinese specializzata in intelligenza artificiale Aignostics, l’Università Ludwig-Maximilians (LMU) di Monaco e l’Istituto olandese per la ricerca sul cancro (NKI), dimostra che gli attuali modelli di IA per la patologia possono spesso essere influenzati già dalla provenienza del campione di tessuto da esaminare, ovvero dall’ospedale. Il team ha sviluppato «PathoROB», il primo standard di valutazione al mondo per misurare e ridurre questo problema. PathoROB è già ampiamente utilizzato e sta influenzando la prossima generazione di modelli di IA per la patologia. Lo studio è stato ora pubblicato su Nature Communications.

L’intelligenza artificiale ha lo scopo di aiutare i medici a diagnosticare e caratterizzare il cancro in modo più rapido e preciso. I cosiddetti «modelli di base» – grandi sistemi di IA preaddestrati su milioni di immagini microscopiche di tessuti – vengono sempre più utilizzati nei flussi di lavoro clinici per l’individuazione del cancro, la classificazione delle malattie e la previsione dei biomarcatori. Il nuovo studio del team di ricerca interdisciplinare mette ora in luce un punto debole critico di questi modelli: ogni laboratorio di patologia lascia una sottile impronta sulle proprie sezioni di tessuto, sotto forma di differenze nella preparazione, nella colorazione e nella digitalizzazione delle biopsie. Queste differenze sono irrilevanti dal punto di vista medico, ma visibili ai sistemi di IA, che le interiorizzano. I ricercatori hanno dimostrato che gli attuali modelli di base (Foundation Models), sulla base delle rappresentazioni delle caratteristiche apprese, sono in grado di identificare l’ospedale di provenienza di una sezione di tessuto con una precisione compresa tra l’88 e il 98 per cento. In alcuni casi, la «mappa» interna dei dati di un modello era organizzata in primo luogo in base agli ospedali e solo in secondo luogo in base al fatto che il tessuto fosse sano o canceroso.

«Impronte» ospedaliere nascoste nei modelli

Le conseguenze possono essere gravi. In un esempio particolarmente significativo, un modello di IA ha imparato a utilizzare la firma dell’ospedale come scorciatoia per le proprie decisioni. Di conseguenza, ha erroneamente classificato un campione di tessuto chiaramente maligno come sano – semplicemente perché il campione proveniva da un ospedale che in passato aveva inviato quasi esclusivamente campioni sani e che il modello aveva quindi associato a tessuto sano.

Per rendere misurabile questo problema, i ricercatori hanno sviluppato PathoROB, il primo metro di valutazione disponibile al pubblico che affronta specificamente la robustezza dei modelli di base in patologia di fronte alle variazioni tecniche. Esso riunisce quattro set di dati con circa 100.000 campioni di tessuto, 28 classi biologiche e 34 centri medici. Inoltre, introduce un nuovo «indice di robustezza» che quantifica in che misura la rappresentazione interna di un modello sia determinata dalla biologia e non da artefatti ospedalieri.

Applicato a 20 modelli di base ampiamente diffusi, PathoROB ha individuato carenze in ciascuno di essi. I modelli più grandi, addestrati su dati più diversificati, così come quelli che combinano dati visivi con referti testuali (modelli vision-language), hanno ottenuto i risultati migliori. I ricercatori hanno inoltre testato diverse tecniche a posteriori di «robustificazione» e hanno constatato che queste possono ridurre significativamente il rischio di tali errori, sebbene non in modo completo. Ciò non richiede un costoso riaddestramento del modello sottostante.

«I modelli di base per la patologia si stanno evolvendo rapidamente, e questo è estremamente entusiasmante. I nostri risultati dimostrano tuttavia che un’ottima prestazione su un benchmark standard non è sufficiente per fidarsi di un modello nell’uso clinico», afferma Julius Hense, coautore principale dello studio e ricercatore presso BIFOLD e il Politecnico di Berlino. «PathoROB offre a sviluppatori e utenti clinici uno strumento per verificare se un modello abbia effettivamente appreso le relazioni biologiche o se si sia limitato a riconoscere da quale ospedale provenga un campione.»

Plasmare la prossima generazione di IA per la patologia

PathoROB sta già oggi cambiando il modo in cui l’IA per la patologia viene sviluppata e confrontata. Il modello di base di nuova generazione di Aignostics, «Atlas 2», sviluppato in collaborazione con la Mayo Clinic negli Stati Uniti, è stato espressamente progettato per affrontare i conflitti di obiettivi tra prestazioni e robustezza individuati da PathoROB. Inoltre, PathoROB si sta affermando sempre più come metro di riferimento per la robustezza dei modelli di base. Nuovi modelli o piattaforme come «Histoboard» presentano ormai i propri risultati PathoROB come uno dei parametri di valutazione per confrontare direttamente tra loro i modelli di IA per la patologia.

Grazie alla disponibilità aperta del parametro di valutazione, dei set di dati e del codice sorgente, i ricercatori sperano di rendere la valutazione della robustezza una componente fissa della validazione dei modelli di base biomedici, prima che questi vengano utilizzati a supporto delle decisioni cliniche e, di conseguenza, possano potenzialmente influenzare i trattamenti dei pazienti.

Nota: questo articolo è stato tradotto utilizzando un sistema informatico senza intervento umano. LUMITOS offre queste traduzioni automatiche per presentare una gamma più ampia di notizie attuali. Poiché questo articolo è stato tradotto con traduzione automatica, è possibile che contenga errori di vocabolario, sintassi o grammatica. L'articolo originale in Tedesco può essere trovato qui.

Pubblicazione originale

Altre notizie dal dipartimento scienza

Le notizie più lette

Altre notizie dagli altri portali