ChatGPT consiglia di andare dal medico troppo spesso per disturbi innocui

Troppo prudente per la sanità: i punti deboli di ChatGPT quando si tratta di questioni sanitarie

05.05.2026

Immagine simbolo

AI-generated image

Annunci

Centrifugazione delicata in controcorrente per risultati superiori nel trattamento delle cellule

Preparazione automatizzata di campioni di mAb ad alta produttività per lo sviluppo di linee cellulari

Pipettaggio a 96 canali con precisione certificata ISO per flussi di lavoro ad alta produttività

L'intelligenza artificiale (AI) è sempre più utilizzata anche per le questioni di salute. Molte persone utilizzano strumenti come ChatGPT per classificare i disturbi e valutare se hanno bisogno di assistenza medica immediata, se devono chiedere un parere medico o se possono aspettare e vedere. Con versioni specificamente posizionate per il settore sanitario, come ChatGPT Health negli Stati Uniti, è facile creare l'impressione di una particolare idoneità professionale. Tuttavia, l'affidabilità delle raccomandazioni di ChatGPT è stata finora analizzata solo in misura limitata.

In un nuovo studio del Dipartimento di Ergonomia dell'Università Tecnica di Berlino, i ricercatori hanno quindi analizzato l'accuratezza con cui ChatGPT classifica i disturbi di salute nelle diverse versioni del modello, come le prestazioni sono cambiate nel tempo e se input identici generano raccomandazioni coerenti. Il risultato: ChatGPT è attualmente adatto solo in misura limitata alla valutazione iniziale digitale e alla gestione indipendente del paziente.

22 versioni del modello, 45 casi reali, 9.900 valutazioni

"La differenza principale rispetto ai nostri studi precedenti è l'analisi longitudinale. In precedenza erano stati analizzati solo uno o due modelli. Ora abbiamo testato tutti i modelli disponibili nel corso del tempo e abbiamo analizzato come sono cambiati", spiega il Dr. Marvin Kopka, responsabile dello studio. "Questo è stato importante per noi anche perché ci sono sempre notizie di nuovi modelli che ottengono risultati quasi perfetti nei test di ammissione a medicina o nei test di conoscenza. Questo porta rapidamente alla conclusione che essi forniscono anche raccomandazioni mediche affidabili per i pazienti. Tuttavia, secondo il nostro studio, non è proprio così".

Per lo studio "Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice", pubblicato sulla rivista "Communications Medicine", il team di ricerca ha testato 22 versioni del modello ChatGPT utilizzando casi reali di 45 pazienti. Questi includevano immagini cliniche come "uno stiramento di breve durata di un tendine/ligamento il giorno prima" o "semplici problemi digestivi/diarrea per un giorno senza ulteriori sintomi". Ogni caso è stato inserito dieci volte per modello. Il risultato è stato un totale di 9.900 valutazioni individuali. I modelli dovevano decidere se un caso dovesse essere classificato come un'emergenza, un caso da chiarire con un medico o un caso da curare da soli.

L'accuratezza aumenta appena

La valutazione mostra che: L'accuratezza è inizialmente aumentata in modo significativo con le prime versioni del modello. Dalla terza generazione di modelli (gpt-4), tuttavia, i miglioramenti sono stati minimi. Il miglior modello testato ha raggiunto un'accuratezza del 74%. Sebbene i modelli più recenti raccomandino più frequentemente l'autocura, le prestazioni complessive in quest'area sono rimaste limitate.

Particolari debolezze per i disturbi innocui

I modelli testati sono stati particolarmente bravi a riconoscere i casi che richiedono un trattamento. Tuttavia, la maggior parte degli errori si è verificata in casi in cui l'autocura sarebbe stata sufficiente: il 70% di tutti gli errori rientrava in questo gruppo. Nessuno dei 13 casi di autocura è stato risolto correttamente da tutti i modelli in tutte le esecuzioni.

Solo alcuni modelli, come o4, o3 o GPT 5, hanno consigliato l'autocura. Per tutti gli altri modelli testati, il chiarimento medico è stato sempre raccomandato. Questo è problematico perché una parte significativa dei disturbi non sono effettivamente pericolosi, passano da soli o possono essere trattati dal paziente.

Lo studio rivela quindi un modello strutturale: quasi tutti i modelli tendono a classificare i disturbi che richiedono un trattamento precauzionale superiore a quello necessario dal punto di vista medico.

I ricercatori definiscono questo modello come comportamento di triage conservativo. "Siamo rimasti sorpresi dalla chiarezza dei risultati", afferma il dottor Marvin Kopka. "Perché mostrano esplicitamente che le domande rilevanti per i pazienti non ricevono automaticamente risposte migliori dai modelli più recenti. Risultati migliori di test o esami non significano necessariamente maggiori vantaggi pratici nell'assistenza".

Il beneficio pratico è cruciale

"A nostro avviso, il fattore decisivo non è solo se un modello classifica correttamente i singoli casi, ma quale beneficio pratico hanno le raccomandazioni nella vita quotidiana. Se un sistema consiglia un chiarimento medico per un gran numero di disturbi come misura precauzionale, questo ha inizialmente un effetto positivo per gli utenti, ma non offre più un reale supporto decisionale se la raccomandazione è quasi sempre la stessa", afferma il dottor Marvin Kopka.

Stesso input, non sempre la stessa raccomandazione

C'è anche un altro problema: i modelli non danno sempre risposte coerenti. A seconda del modello, si sono verificate fluttuazioni significative con input identici. I modelli più recenti presentavano un minor numero di casi che non venivano mai risolti correttamente, ma allo stesso tempo un maggior numero di casi con raccomandazioni incoerenti nel corso di diverse esecuzioni. Ciò è stato particolarmente evidente nel GPT 5: nel 42% di tutti i casi, le raccomandazioni erano a volte corrette e a volte errate quando lo stesso caso veniva inserito più volte, nonostante gli stessi input.

L'esperimento ha dimostrato che l'accuratezza può essere migliorata se la stessa domanda viene posta più volte e il livello di urgenza più basso viene poi selezionato tra le varie risposte. In questo modo, l'accuratezza complessiva è aumentata in media di quattro punti percentuali e l'accuratezza dei casi di autocura è aumentata addirittura di 14 punti percentuali. Tuttavia, i ricercatori sottolineano espressamente che non si tratta di una raccomandazione per gli utenti finali, poiché nel peggiore dei casi le emergenze potrebbero essere trascurate.

Rilevanza per il dibattito sulle cure primarie

I risultati sono rilevanti anche per la politica sanitaria, afferma Kopka. In Germania è in corso un intenso dibattito sul sistema di cure primarie e sulle forme di gestione digitale dei pazienti. Lo studio della TU suggerisce che i modelli linguistici generali come ChatGPT non sono attualmente uno strumento adatto a questo scopo. Se nella pratica un sistema consiglia prevalentemente ai pazienti di chiedere chiarimenti medici, non c'è quasi nessun effetto di controllo reale - il ricorso a cure mediche non necessarie potrebbe addirittura aumentare.

Maggiore potenziale nelle applicazioni con garanzia di qualità

"Attualmente, quindi, vediamo il potenziale dei modelli linguistici di grandi dimensioni non tanto nelle finestre di chat dei produttori, quanto nell'integrazione significativa in applicazioni di qualità garantita, ad esempio nelle applicazioni di controllo dei sintomi. In questo caso, potrebbero aiutare a preparare le informazioni in modo comprensibile, a spiegare le raccomandazioni e a guidare meglio le persone attraverso i percorsi di cura esistenti, a condizione che la garanzia di qualità medica avvenga in background", afferma Marvin Kopka.

Limiti dello studio

I ricercatori sottolineano che lo studio si è concentrato sulla rappresentatività della popolazione. Poiché le emergenze reali sono rare nella vita di tutti i giorni e quindi si verificano meno frequentemente quando si utilizza ChatGPT, il set di dati conteneva solo poche emergenze e ha esaminato principalmente le decisioni a favore o contro la richiesta di aiuto medico. L'accuratezza del riconoscimento delle emergenze reali dovrebbe essere analizzata in ulteriori studi.

Nota: questo articolo è stato tradotto utilizzando un sistema informatico senza intervento umano. LUMITOS offre queste traduzioni automatiche per presentare una gamma più ampia di notizie attuali. Poiché questo articolo è stato tradotto con traduzione automatica, è possibile che contenga errori di vocabolario, sintassi o grammatica. L'articolo originale in Tedesco può essere trovato qui.

Pubblicazione originale

Marvin Kopka, Longqi He, Markus A. Feufel; "Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice"; Communications Medicine, Volume 6, 2026-2-25

https://www.bionity.com/it/notizie/1188630/chatgpt-consiglia-di-andare-dal-medico-troppo-spesso-per-disturbi-innocui.html

Pubblicazione originale

Marvin Kopka, Longqi He, Markus A. Feufel; "Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice"; Communications Medicine, Volume 6, 2026-2-25

Organizzazioni

TU Berlin

Annunci

Robuste colonne in vetro per applicazioni MPLC esigenti

Massima capacità di legame nella cromatografia a scambio ionico

Cromatografia su membrana a scambio anionico ad alto recupero per la purificazione di vettori lentivirali

Altro dal dipartimento scienza Iscriviti alla newsletter

Ricevi il settore delle scienze della vita nella tua casella di posta elettronica

ChatGPT consiglia di andare dal medico troppo spesso per disturbi innocui

Troppo prudente per la sanità: i punti deboli di ChatGPT quando si tratta di questioni sanitarie

22 versioni del modello, 45 casi reali, 9.900 valutazioni

L'accuratezza aumenta appena

Particolari debolezze per i disturbi innocui

Il beneficio pratico è cruciale

Stesso input, non sempre la stessa raccomandazione

Rilevanza per il dibattito sulle cure primarie

Maggiore potenziale nelle applicazioni con garanzia di qualità

Limiti dello studio

Pubblicazione originale

Altre notizie dal dipartimento scienza

Un nuovo studio evidenzia l'ottimismo della società nei confronti delle scoperte scientifiche e la crescente ansia per la velocità con cui il mondo sta cambiando

Il cibo può aiutare a mantenere la diversità nell'intestino

I cibi ultraprocessati danneggiano la concentrazione anche se si mangia sano

Un innovativo sistema laser fa progredire il metodo di microscopia per rivelare mondi cellulari nascosti

Lo stress ossidativo rallenta il cervello, ma il freno può essere sbloccato di nuovo

Il riciclo biologico dei rifiuti elettronici mostra un grande potenziale

Migliorare il benessere degli animali in laboratorio: l'intelligenza artificiale aiuta a rilevare meglio il dolore

La scoperta di una nuova vulnerabilità nel linfoma aggressivo potrebbe cambiare la terapia futura

I ricordi si formano su una lavagna vuota?

Secondo uno studio, il trattamento delle arachidi con plasma freddo potrebbe renderle meno allergeniche

Come i patogeni passano a "pericolosi"

Le cellule immunitarie del naso rallentano il virus dell'influenza

Fabbrica di cellule per il sistema immunitario: un nuovo metodo rende i macrofagi scalabili per la ricerca

Un nuovo bersaglio cellulare previene l'infezione da epatite E

Più efficaci, più duraturi e a base di estratti naturali: la nuova generazione di creme solari

Quando le molecole reagiscono: un nuovo software visualizza i processi biologici in movimento

Tumore cerebrale diffuso nel cervello vivente osservato per la prima volta dal vivo

Uno strumento di intelligenza artificiale potrebbe accelerare la scoperta di farmaci

Il caffè ha un effetto positivo sull'asse intestino-cervello

I modelli linguistici dell'intelligenza artificiale superano i medici specialisti

Ricevi il settore delle scienze della vita nella tua casella di posta elettronica

Le notizie più lette

Evotec lancia la trasformazione strategica con un obiettivo di risparmio di 75 milioni di euro

La carenza di elio mette a rischio la produzione farmaceutica

Un complesso di rame uccide le cellule tumorali in modo 100 volte più efficace dei farmaci chemioterapici convenzionali

Evotec riceverà circa 100 milioni di dollari nell'ambito dell'acquisizione di Tubulis

Le uistitì geneticamente modificate come modello per la sordità umana

Altre notizie dagli altri portali

Un fiore all'occhiello per la produzione chimica: BASF inaugura il sito di Verbund in Cina su scala mondiale

Aglio selvatico: attenzione alla confusione

Fornitura sostenibile di materie prime: il nuovo processo FlashPhos converte i fanghi di depurazione in fosforo per uso industriale

Insegnare ai robot a raccogliere gli asparagi

Salvato l'impianto chimico DOMO di Leuna

L'Associazione di qualità per l'acqua minerale biologica elegge la nuova leadership duale

hubergroup aumenta i prezzi in Europa a causa del conflitto in Medio Oriente

Vion raggiunge un accordo sulla vendita di due siti tedeschi

Una svolta per la sovranità delle risorse in Europa: tozero lancia la produzione di litio e altre materie prime critiche

La crisi del Medio Oriente provoca una storica carenza di materie prime e una drastica impennata dei prezzi

Gli scienziati scoprono un nuovo modo in cui i metalli legano l'ossigeno, dando forse inizio a un "nuovo capitolo" della chimica

L'azienda di AI Synera riceve 35 milioni di euro

Robot umanoidi, AI & co.: la trasformazione digitale dell'industria entra nella fase successiva

Come conservare l'idrogeno?