ChatGPT consiglia di andare dal medico troppo spesso per disturbi innocui

Troppo prudente per la sanità: i punti deboli di ChatGPT quando si tratta di questioni sanitarie

05.05.2026
AI-generated image

Immagine simbolo

L'intelligenza artificiale (AI) è sempre più utilizzata anche per le questioni di salute. Molte persone utilizzano strumenti come ChatGPT per classificare i disturbi e valutare se hanno bisogno di assistenza medica immediata, se devono chiedere un parere medico o se possono aspettare e vedere. Con versioni specificamente posizionate per il settore sanitario, come ChatGPT Health negli Stati Uniti, è facile creare l'impressione di una particolare idoneità professionale. Tuttavia, l'affidabilità delle raccomandazioni di ChatGPT è stata finora analizzata solo in misura limitata.

In un nuovo studio del Dipartimento di Ergonomia dell'Università Tecnica di Berlino, i ricercatori hanno quindi analizzato l'accuratezza con cui ChatGPT classifica i disturbi di salute nelle diverse versioni del modello, come le prestazioni sono cambiate nel tempo e se input identici generano raccomandazioni coerenti. Il risultato: ChatGPT è attualmente adatto solo in misura limitata alla valutazione iniziale digitale e alla gestione indipendente del paziente.

22 versioni del modello, 45 casi reali, 9.900 valutazioni

"La differenza principale rispetto ai nostri studi precedenti è l'analisi longitudinale. In precedenza erano stati analizzati solo uno o due modelli. Ora abbiamo testato tutti i modelli disponibili nel corso del tempo e abbiamo analizzato come sono cambiati", spiega il Dr. Marvin Kopka, responsabile dello studio. "Questo è stato importante per noi anche perché ci sono sempre notizie di nuovi modelli che ottengono risultati quasi perfetti nei test di ammissione a medicina o nei test di conoscenza. Questo porta rapidamente alla conclusione che essi forniscono anche raccomandazioni mediche affidabili per i pazienti. Tuttavia, secondo il nostro studio, non è proprio così".

Per lo studio "Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice", pubblicato sulla rivista "Communications Medicine", il team di ricerca ha testato 22 versioni del modello ChatGPT utilizzando casi reali di 45 pazienti. Questi includevano immagini cliniche come "uno stiramento di breve durata di un tendine/ligamento il giorno prima" o "semplici problemi digestivi/diarrea per un giorno senza ulteriori sintomi". Ogni caso è stato inserito dieci volte per modello. Il risultato è stato un totale di 9.900 valutazioni individuali. I modelli dovevano decidere se un caso dovesse essere classificato come un'emergenza, un caso da chiarire con un medico o un caso da curare da soli.

L'accuratezza aumenta appena

La valutazione mostra che: L'accuratezza è inizialmente aumentata in modo significativo con le prime versioni del modello. Dalla terza generazione di modelli (gpt-4), tuttavia, i miglioramenti sono stati minimi. Il miglior modello testato ha raggiunto un'accuratezza del 74%. Sebbene i modelli più recenti raccomandino più frequentemente l'autocura, le prestazioni complessive in quest'area sono rimaste limitate.

Particolari debolezze per i disturbi innocui

I modelli testati sono stati particolarmente bravi a riconoscere i casi che richiedono un trattamento. Tuttavia, la maggior parte degli errori si è verificata in casi in cui l'autocura sarebbe stata sufficiente: il 70% di tutti gli errori rientrava in questo gruppo. Nessuno dei 13 casi di autocura è stato risolto correttamente da tutti i modelli in tutte le esecuzioni.

Solo alcuni modelli, come o4, o3 o GPT 5, hanno consigliato l'autocura. Per tutti gli altri modelli testati, il chiarimento medico è stato sempre raccomandato. Questo è problematico perché una parte significativa dei disturbi non sono effettivamente pericolosi, passano da soli o possono essere trattati dal paziente.

Lo studio rivela quindi un modello strutturale: quasi tutti i modelli tendono a classificare i disturbi che richiedono un trattamento precauzionale superiore a quello necessario dal punto di vista medico.

I ricercatori definiscono questo modello come comportamento di triage conservativo. "Siamo rimasti sorpresi dalla chiarezza dei risultati", afferma il dottor Marvin Kopka. "Perché mostrano esplicitamente che le domande rilevanti per i pazienti non ricevono automaticamente risposte migliori dai modelli più recenti. Risultati migliori di test o esami non significano necessariamente maggiori vantaggi pratici nell'assistenza".

Il beneficio pratico è cruciale

"A nostro avviso, il fattore decisivo non è solo se un modello classifica correttamente i singoli casi, ma quale beneficio pratico hanno le raccomandazioni nella vita quotidiana. Se un sistema consiglia un chiarimento medico per un gran numero di disturbi come misura precauzionale, questo ha inizialmente un effetto positivo per gli utenti, ma non offre più un reale supporto decisionale se la raccomandazione è quasi sempre la stessa", afferma il dottor Marvin Kopka.

Stesso input, non sempre la stessa raccomandazione

C'è anche un altro problema: i modelli non danno sempre risposte coerenti. A seconda del modello, si sono verificate fluttuazioni significative con input identici. I modelli più recenti presentavano un minor numero di casi che non venivano mai risolti correttamente, ma allo stesso tempo un maggior numero di casi con raccomandazioni incoerenti nel corso di diverse esecuzioni. Ciò è stato particolarmente evidente nel GPT 5: nel 42% di tutti i casi, le raccomandazioni erano a volte corrette e a volte errate quando lo stesso caso veniva inserito più volte, nonostante gli stessi input.

L'esperimento ha dimostrato che l'accuratezza può essere migliorata se la stessa domanda viene posta più volte e il livello di urgenza più basso viene poi selezionato tra le varie risposte. In questo modo, l'accuratezza complessiva è aumentata in media di quattro punti percentuali e l'accuratezza dei casi di autocura è aumentata addirittura di 14 punti percentuali. Tuttavia, i ricercatori sottolineano espressamente che non si tratta di una raccomandazione per gli utenti finali, poiché nel peggiore dei casi le emergenze potrebbero essere trascurate.

Rilevanza per il dibattito sulle cure primarie

I risultati sono rilevanti anche per la politica sanitaria, afferma Kopka. In Germania è in corso un intenso dibattito sul sistema di cure primarie e sulle forme di gestione digitale dei pazienti. Lo studio della TU suggerisce che i modelli linguistici generali come ChatGPT non sono attualmente uno strumento adatto a questo scopo. Se nella pratica un sistema consiglia prevalentemente ai pazienti di chiedere chiarimenti medici, non c'è quasi nessun effetto di controllo reale - il ricorso a cure mediche non necessarie potrebbe addirittura aumentare.

Maggiore potenziale nelle applicazioni con garanzia di qualità

"Attualmente, quindi, vediamo il potenziale dei modelli linguistici di grandi dimensioni non tanto nelle finestre di chat dei produttori, quanto nell'integrazione significativa in applicazioni di qualità garantita, ad esempio nelle applicazioni di controllo dei sintomi. In questo caso, potrebbero aiutare a preparare le informazioni in modo comprensibile, a spiegare le raccomandazioni e a guidare meglio le persone attraverso i percorsi di cura esistenti, a condizione che la garanzia di qualità medica avvenga in background", afferma Marvin Kopka.

Limiti dello studio

I ricercatori sottolineano che lo studio si è concentrato sulla rappresentatività della popolazione. Poiché le emergenze reali sono rare nella vita di tutti i giorni e quindi si verificano meno frequentemente quando si utilizza ChatGPT, il set di dati conteneva solo poche emergenze e ha esaminato principalmente le decisioni a favore o contro la richiesta di aiuto medico. L'accuratezza del riconoscimento delle emergenze reali dovrebbe essere analizzata in ulteriori studi.

Nota: questo articolo è stato tradotto utilizzando un sistema informatico senza intervento umano. LUMITOS offre queste traduzioni automatiche per presentare una gamma più ampia di notizie attuali. Poiché questo articolo è stato tradotto con traduzione automatica, è possibile che contenga errori di vocabolario, sintassi o grammatica. L'articolo originale in Tedesco può essere trovato qui.

Pubblicazione originale

Altre notizie dal dipartimento scienza

Altre notizie dagli altri portali