Salute 14 Aprile 2026 11:46

Dottor AI: promosso sulla diagnosi finale, bocciato sul ragionamento clinico

Un maxi studio su 21 modelli di intelligenza artificiale mostra che l’AI può arrivare a diagnosi finali corrette in molti casi, ma fatica ancora nelle fasi iniziali del ragionamento clinico. Il limite principale riguarda la diagnosi differenziale

di Isabella Faggiano

Dottor AI: promosso sulla diagnosi finale, bocciato sul ragionamento clinico

L’intelligenza artificiale generativa continua a crescere in precisione, soprattutto quando deve arrivare a una diagnosi finale a partire da informazioni complete. Ma quando il quadro clinico è ancora incompleto, ed è necessario ragionare tra ipotesi diverse, le difficoltà emergono con chiarezza. È quanto evidenzia un ampio studio internazionale, pubblicato su Jama Network open, che ha valutato 21 modelli linguistici di nuova generazione su 29 casi clinici standardizzati, ricostruendo passo dopo passo il percorso diagnostico tipico della pratica medica.

Diagnosi finale spesso corretta, ma il percorso è fragile

I risultati mostrano un dato ricorrente: quando tutte le informazioni sono disponibili, i modelli riescono spesso a identificare la diagnosi corretta, con livelli di accuratezza elevati. Tuttavia, nelle fasi iniziali del ragionamento clinico – quelle in cui il medico costruisce le possibili ipotesi diagnostiche – le prestazioni crollano. In particolare, la diagnosi differenziale risulta l’anello più debole: nella maggior parte dei casi i modelli non riescono a costruire un elenco adeguato di possibili diagnosi alternative.

Il problema non è “sapere”, ma “ragionare”

Lo studio sottolinea un punto chiave: l’AI non fallisce tanto nel riconoscere la risposta finale corretta, quanto nel processo che porta a quella risposta. È proprio questa fase intermedia, fatta di incertezza, confronto tra ipotesi e progressiva riduzione del dubbio clinico, a rappresentare oggi il limite più evidente dei modelli linguistici. Come osservano i ricercatori, il ragionamento clinico non è una sequenza lineare di informazioni, ma un processo dinamico che gli attuali sistemi di AI non riescono ancora a replicare in modo affidabile.

Il nuovo indice che misura il ragionamento clinico

Per valutare meglio queste differenze, i ricercatori hanno sviluppato un nuovo indicatore, il PrIME-LLM, che non si limita a misurare l’accuratezza finale, ma valuta l’intero percorso decisionale: dalla diagnosi differenziale alla gestione del paziente. Questo approccio ha permesso di evidenziare un aspetto spesso nascosto dai test tradizionali: modelli molto accurati nel risultato finale possono comunque avere gravi fragilità nel ragionamento intermedio.

Differenze tra modelli e miglioramenti graduali

Tra i 21 sistemi testati, i modelli più recenti e ottimizzati per il ragionamento hanno ottenuto risultati migliori rispetto alle versioni precedenti. In generale, però, il divario tra diagnosi finale e diagnosi differenziale resta costante in tutti i sistemi analizzati, segnalando un limite strutturale più che tecnologico. Le prestazioni migliorano anche quando vengono forniti dati più completi, come esami di laboratorio o immagini diagnostiche, ma il problema si ripresenta quando le informazioni sono iniziali e incomplete.

Una promessa ancora da completare

Secondo gli autori, l’intelligenza artificiale in medicina può rappresentare un supporto importante, ma non può sostituire il ragionamento clinico umano. Il rischio, sottolineano, è confondere l’accuratezza della risposta finale con la capacità di ragionamento complesso. Proprio per questo, l’uso clinico di questi strumenti richiede ancora supervisione stretta e un impiego mirato, soprattutto nelle fasi a minore incertezza diagnostica. L’AI medica compie passi avanti importanti, ma il cuore della diagnosi – la gestione dell’incertezza – resta ancora una competenza umana. Il futuro, più che nella sostituzione del medico, sembra andare verso un’integrazione guidata, dove la tecnologia affianca e non sostituisce il ragionamento clinico.

Iscriviti alla Newsletter di Sanità Informazione per rimanere sempre aggiornato

GLI ARTICOLI PIU’ LETTI

Advocacy e Associazioni

Sclerosi multipla, dall’ascolto dei pazienti alle politiche pubbliche: nasce la roadmap 2030 per cure, diritti e progetto di vita

Diagnosi precoce, ricerca, presa in carico integrata, lavoro, caregiver e piena attuazione della riforma della disabilità. Alla vigilia della Giornata Mondiale della Sclerosi Multipla, AISM, FI...

di Isabella Faggiano

Advocacy e Associazioni

Essere caregiver nella disabilità, una sfida che cambia con l’età. Ligabue (CARER ETS): “Nessuna famiglia deve sentirsi sola”

Dal rapporto con i social media all’educazione sessuale, fino all'invecchiamento delle persone con disabilità e dei loro familiari: al Caregiver Day il confronto sulle nuove sfide della c...

di Isabella Faggiano

Nutri e Previeni

Pane di grano “gluten free”, dal Cnr una nuova frontiera per i celiaci

Un prototipo di pane di frumento con glutine sotto i 20 ppm apre nuove prospettive per l’alimentazione senza glutine. La tecnologia enzimatica sviluppata dal Cnr consente di mantenere gusto e pr...

di I.F.

One Health

Hantavirus, cosa c’è da sapere sul virus al centro del focolaio della nave da Crociera

Dopo il focolaio registrato sulla nave MV Hondius cresce l’attenzione sull’hantavirus, responsabile di casi gravi e di alcuni decessi. L'Iss fa il punto su cosa c'è da sapere, come ...

di Redazione

Salute

Ovaio policistico, cambia nome la sindrome che colpisce 170 milioni di donne: riconosciuto il ruolo endocrino-metabolico

La sindrome dell’ovaio policistico (PCOS) cambia ufficialmente nome e diventa “Sindrome Metabolica Ovarica Poliendocrina” (PMOS). La decisione, pubblicata su The Lancet e guidata dal...

di Isabella Faggiano