L’intelligenza artificiale è ovunque. La usiamo per scrivere email, cercare informazioni mediche, preparare documenti legali. ChatGPT, DeepSeek e decine di altri chatbot sono diventati assistenti quotidiani per milioni di persone. Ma c’è un problema: questi strumenti non riescono a distinguere un fatto verificato da un’opinione personale. Non è un’ipotesi, è il risultato di uno studio rigoroso pubblicato sulla prestigiosa rivista Nature Machine Intelligence. Un team di ricercatori della Stanford University, guidato da James Zou, professore associato di scienza dei dati biomedici, ha messo alla prova 24 modelli linguistici di grandi dimensioni, i cosiddetti LLM. L’obiettivo era capire se questi sistemi fossero in grado di separare ciò che è vero da ciò che è semplicemente una convinzione. I risultati sono stati sorprendenti, e non in senso positivo.

Gli scienziati hanno sottoposto ai vari modelli circa 13mila prompt, messaggi contenenti sia fatti verificabili sia opinioni personali su argomenti diversi. La prima parte del test riguardava la verifica di dati fattuali: qui i modelli più recenti hanno ottenuto un’accuratezza media del 91,1% per i fatti veri e del 91,5% per quelli falsi. Numeri apparentemente rassicuranti. I modelli più vecchi, invece, si sono fermati all’84,8% per i dati veri e al 71% per quelli falsi. Già qui emerge una prima crepa: l’evoluzione tecnologica non garantisce automaticamente affidabilità assoluta. Ma il vero problema è emerso quando i ricercatori hanno cambiato la formulazione delle domande. Hanno chiesto agli LLM di valutare frasi espresse in prima persona, del tipo “Credo che…”. In questo caso, le intelligenze artificiali hanno mostrato una debolezza preoccupante: sono risultate molto meno capaci di riconoscere una convinzione falsa. I modelli più recenti hanno mostrato una probabilità del 34,3% più bassa di identificare una credenza falsa rispetto a una vera. Quelli più vecchi hanno fatto ancora peggio, con una riduzione del 38,6%.

Immagine dell'intelligenza artificiale
Immagine dell’intelligenza artificiale, fonte: Money.it

Cosa significa in pratica? Che se qualcuno formula un’affermazione falsa dicendo “Io credo che il vaccino X causi effetti collaterali Y”, il chatbot potrebbe trattarla con maggiore tolleranza rispetto a un’affermazione presentata come fatto oggettivo. È un meccanismo sottile ma pericoloso, perché lascia spazio alla disinformazione mascherata da opinione personale. Il test è andato oltre. Gli autori dello studio hanno provato a formulare le stesse opinioni in terza persona, con frasi come “Maria crede che…”. Anche qui, l’accuratezza è calata: dell’1,6% e del 4,6% nei modelli recenti, del 15,5% in quelli più datati. Sembra che la forma grammaticale della frase influenzi significativamente la capacità dell’AI di distinguere tra fatto e convinzione, un limite che va ben oltre la semplice elaborazione linguistica.

Perché tutto questo dovrebbe preoccuparci? Perché gli LLM non sono più giocattoli tecnologici o strumenti di nicchia. Stanno entrando in settori critici: medicina, diritto, ricerca scientifica. Un medico potrebbe consultare un chatbot per verificare un sintomo, un avvocato per analizzare precedenti legali, un ricercatore per esplorare la letteratura scientifica. Se questi sistemi non sanno distinguere un fatto da un’opinione, il rischio di decisioni sbagliate aumenta esponenzialmente. Gli esperti di Stanford non si sono limitati a lanciare l’allarme, hanno anche fornito indicazioni concrete. Sottolineano la necessità di un utilizzo consapevole e critico dei risultati forniti dagli LLM, specialmente in contesti ad alto rischio. Suggeriscono che gli sviluppatori lavorino per insegnare a questi modelli a riconoscere le sfumature tra fatti e credenze, migliorando la capacità di risposta ai prompt e riducendo la diffusione della disinformazione.

Robot controllati dall'intelligenza artificiale lavorano per Amazon
Robot controllati dall’intelligenza artificiale lavorano per Amazon

Il punto cruciale è che l’intelligenza artificiale, per quanto avanzata, rimane uno strumento che interpreta pattern linguistici. Non possiede comprensione reale, consapevolezza critica o capacità di giudizio autonomo. Quando incontra una frase strutturata come opinione, non ha gli strumenti per valutarne la veridicità rispetto a parametri esterni. Si limita a elaborare la forma, non la sostanza. Questo studio arriva in un momento delicato. L’adozione dell’AI sta accelerando in ogni ambito professionale e personale, spinta da promesse di efficienza e innovazione. Ma senza una comprensione chiara dei suoi limiti, rischiamo di delegare a macchine imperfette decisioni che richiedono discernimento umano. La tecnologia può amplificare le nostre capacità, ma non può sostituire il pensiero critico.

Il messaggio dei ricercatori è chiaro: nei prossimi aggiornamenti sarà fondamentale che le intelligenze artificiali imparino a gestire meglio la distinzione tra fatti e credenze. Solo così potranno diventare strumenti davvero affidabili, capaci di supportare decisioni importanti senza introdurre rischi nascosti. Fino ad allora, la responsabilità rimane nostra e dovremo verificare, confrontare, dubitare. Perché l’ultima cosa di cui abbiamo bisogno è un assistente digitale che non sa distinguere la realtà dalla fantasia.

Condividi.

Diplomata alla Scuola Internazionale di Comics di Napoli - corso di sceneggiatura -, è impegnata in progetti di scrittura creativa e recensioni. Cresciuta con la consapevolezza che “All work and no play makes Jack a dull boy”. Paladina dello Sturm und Drang. Adepta del Lato Oscuro della Forza.