I collettivi umano-AI fanno le diagnosi mediche più accurate
Lo studio evidenzia il potenziale per una maggiore sicurezza dei pazienti e un'assistenza sanitaria più equa
L'intelligenza artificiale (AI) può supportare efficacemente i medici nella formulazione delle diagnosi. Commette errori diversi da quelli dell'uomo e questa complementarietà rappresenta un punto di forza finora non sfruttato. Un team internazionale guidato dall'Istituto Max Planck per lo Sviluppo Umano ha ora dimostrato sistematicamente per la prima volta che la combinazione di competenze umane e modelli di IA porta alle diagnosi aperte più accurate.
Gli errori diagnostici sono tra i problemi più gravi nella pratica medica quotidiana. I sistemi di intelligenza artificiale, in particolare i modelli linguistici di grandi dimensioni (LLM) come ChatGPT-4, Gemini o Claude 3, offrono nuovi modi per supportare in modo efficiente le diagnosi mediche. Tuttavia, questi sistemi comportano anche notevoli rischi: ad esempio, possono avere "allucinazioni" e generare false informazioni. Inoltre, riproducono pregiudizi sociali o medici esistenti e commettono errori che spesso lasciano perplessi gli esseri umani.
Un team di ricerca internazionale, guidato dal Max Planck Institute for Human Development e in collaborazione con i partner dello Human Diagnosis Project (San Francisco) e dell'Istituto di Scienze e Tecnologie della Cognizione del Consiglio Nazionale delle Ricerche (CNR-ISTC Roma), ha studiato come gli esseri umani e le IA possano collaborare al meglio.
Il risultato: i collettivi diagnostici ibridi - gruppi composti da esperti umani e sistemi di IA - sono significativamente più accurati dei collettivi composti esclusivamente da umani o IA. Questo vale in particolare per le domande diagnostiche complesse e aperte con numerose soluzioni possibili, piuttosto che per le semplici decisioni "sì/no". "I nostri risultati dimostrano che la cooperazione tra esseri umani e modelli di IA ha un grande potenziale per migliorare la sicurezza dei pazienti", afferma l'autore principale Nikolas Zöller, ricercatore post-dottorato presso il Center for Adaptive Rationality del Max Planck Institute for Human Development.
Simulazioni realistiche con oltre 2.100 vignette cliniche
I ricercatori hanno utilizzato i dati dello Human Diagnosis Project, che fornisce vignette cliniche - brevi descrizioni di casi medici - insieme alle diagnosi corrette. Utilizzando più di 2.100 di queste vignette, lo studio ha confrontato le diagnosi effettuate da medici professionisti con quelle di cinque modelli di IA leader del settore. Nell'esperimento centrale sono stati simulati diversi collettivi diagnostici: individui, collettivi umani, modelli di IA e collettivi misti umani-AI. In totale, i ricercatori hanno analizzato più di 40.000 diagnosi. Ogni diagnosi è stata classificata e valutata secondo gli standard medici internazionali (SNOMED CT).
Gli esseri umani e le macchine si completano a vicenda, anche nei loro errori
Lo studio dimostra che la combinazione di più modelli di IA ha migliorato la qualità diagnostica. In media, i collettivi di IA hanno superato l'85% dei diagnostici umani. Tuttavia, ci sono stati numerosi casi in cui gli esseri umani hanno ottenuto risultati migliori. È interessante notare che quando l'IA ha fallito, gli esseri umani hanno spesso conosciuto la diagnosi corretta.
La sorpresa più grande è stata che la combinazione dei due mondi ha portato a un aumento significativo dell'accuratezza. Anche l'aggiunta di un singolo modello di IA a un gruppo di diagnostici umani, o viceversa, ha migliorato sostanzialmente il risultato. I risultati più affidabili sono stati ottenuti grazie a decisioni collettive che hanno coinvolto più persone e più IA.
La spiegazione è che gli esseri umani e l'IA commettono errori sistematicamente diversi. Quando l'IA fallisce, un professionista umano può compensare l'errore e viceversa. Questa cosiddetta complementarità degli errori rende i collettivi ibridi così potenti. "Non si tratta di sostituire gli esseri umani con le macchine. Piuttosto, dovremmo considerare l'intelligenza artificiale come uno strumento complementare che dispiega tutto il suo potenziale nel processo decisionale collettivo", afferma il coautore Stefan Herzog, ricercatore senior presso il Max Planck Institute for Human Development.
Tuttavia, i ricercatori sottolineano anche i limiti del loro lavoro. Lo studio ha preso in considerazione solo vignette di casi basati sul testo, non pazienti reali in contesti clinici reali. Se i risultati possano essere trasferiti direttamente alla pratica rimane una questione da affrontare in studi futuri. Inoltre, lo studio si è concentrato esclusivamente sulla diagnosi, non sul trattamento, e una diagnosi corretta non garantisce necessariamente un trattamento ottimale.
Resta inoltre incerto il modo in cui i sistemi di supporto basati sull'IA saranno accettati nella pratica dal personale medico e dai pazienti. Anche i potenziali rischi di pregiudizio e discriminazione da parte dell'IA e degli esseri umani, in particolare in relazione alle differenze etniche, sociali o di genere, richiedono ulteriori ricerche.
Ampia gamma di applicazioni per i collettivi ibridi uomo-IA
Lo studio fa parte del progetto Hybrid Human Artificial Collective Intelligence in Open-Ended Decision Making (HACID), finanziato da Horizon Europe, che mira a promuovere lo sviluppo di futuri sistemi di supporto alle decisioni cliniche attraverso l'integrazione intelligente dell'intelligenza umana e della macchina. I ricercatori vedono un potenziale particolare nelle regioni in cui l'accesso alle cure mediche è limitato. I collettivi ibridi uomo-Io potrebbero contribuire in modo decisivo a una maggiore equità sanitaria in queste aree.
"L'approccio può essere trasferito anche ad altre aree critiche, come il sistema legale, la risposta ai disastri o la politica climatica, ovunque sia necessario prendere decisioni complesse e ad alto rischio. Ad esempio, il progetto HACID sta sviluppando strumenti per migliorare il processo decisionale nell'adattamento al clima", afferma Vito Trianni, coautore e coordinatore del progetto HACID.
Nota: questo articolo è stato tradotto utilizzando un sistema informatico senza intervento umano. LUMITOS offre queste traduzioni automatiche per presentare una gamma più ampia di notizie attuali. Poiché questo articolo è stato tradotto con traduzione automatica, è possibile che contenga errori di vocabolario, sintassi o grammatica. L'articolo originale in Inglese può essere trovato qui.
Pubblicazione originale
Nikolas Zöller, Julian Berger, Irving Lin, Nathan Fu, Jayanth Komarneni, Gioele Barabucci, Kyle Laskowski, Victor Shia, Benjamin Harack, Eugene A. Chu, Vito Trianni, Ralf H. J. M. Kurvers, Stefan M. Herzog; "Human–AI collectives most accurately diagnose clinical vignettes"; Proceedings of the National Academy of Sciences, Volume 122, 2025-6-13