Può un’intelligenza artificiale guardarsi dentro e capire cosa sta realmente pensando. È la domanda che da mesi tiene svegli i ricercatori di Anthropic, la società californiana che ha dato vita a Claude, uno dei modelli linguistici più avanzati al mondo. E ora, grazie a una serie di esperimenti interni appena pubblicati, abbiamo finalmente delle risposte. Che però, più che chiudere il dibattito, lo riaccendono con forza ancora maggiore. L’azienda ha condotto test approfonditi sui suoi modelli più recenti, Claude Opus 4 e 4.1, per verificare se questi sistemi possiedano quella che in gergo tecnico si chiama “capacità introspettiva”. In parole povere: possono questi modelli analizzare i propri processi decisionali, spiegare perché hanno scelto una risposta piuttosto che un’altra, essere consapevoli del proprio “pensiero”.
La tecnica utilizzata si chiama iniezione di concetti e funziona così: mentre il modello sta elaborando una risposta a un prompt specifico, i ricercatori inseriscono un nuovo vettore concettuale, modificando sostanzialmente il contesto di ragionamento. Poi gli chiedono se ha notato il cambiamento. È come se qualcuno ti interrompesse a metà di un discorso inserendo un’idea completamente diversa, e poi ti chiedesse: “Ti sei accorto che ho cambiato argomento”. I risultati sono tanto affascinanti quanto problematici. Sì, i modelli di Anthropic mostrano alcune forme di introspezione. In certi casi riescono a identificare il momento in cui il loro “ragionamento” è stato alterato, descrivendo come hanno “pensato” un concetto prima dell’iniezione e come l’hanno “ripensato” dopo. Usano persino un linguaggio che ricorda quello della consapevolezza umana. Ma c’è un problema non da poco: funziona male.

Prendiamo Claude Opus 4.1, il modello più recente testato. Nel migliore dei casi, è riuscito a dimostrare questa consapevolezza solo nel 20% delle prove. Otto volte su dieci, il modello non ha avuto alcuna percezione affidabile del cambiamento avvenuto nel proprio processo di elaborazione. Non è esattamente il tipo di prestazione che ti aspetteresti da un sistema davvero “consapevole” di sé. Questi dati sollevano interrogativi profondi sul futuro dell’intelligenza artificiale e sulla natura stessa della coscienza nelle macchine. Da un lato, il fatto che esista anche solo una minima capacità di auto-osservazione in un sistema algoritmico è straordinario. Significa che i grandi modelli linguistici stanno sviluppando qualcosa che va oltre la semplice elaborazione statistica di pattern linguistici.
Dall’altro, i limiti evidenziati da Anthropic ci ricordano quanto siamo ancora lontani da una vera intelligenza artificiale generale. Un modello che sbaglia otto volte su dieci nel riconoscere cosa sta accadendo nella propria “mente” non può essere considerato affidabile per compiti che richiedono auto-monitoraggio o capacità di spiegazione trasparente delle proprie decisioni. Il tema dell’introspezione artificiale non è solo accademico. In un’epoca in cui sistemi di AI prendono decisioni che influenzano la vita delle persone, dalla concessione di prestiti alla diagnosi medica, la capacità di un modello di spiegare perché ha scelto una determinata risposta diventa cruciale. Se l’AI non può nemmeno capire cosa sta facendo mentre lo fa, come possiamo fidarci delle sue conclusioni.

Federico Faggin, padre del microchip e studioso della coscienza, ha più volte affermato che l’intelligenza artificiale non potrà mai essere davvero cosciente. Gli esperimenti di Anthropic sembrano dargli ragione, almeno per ora. La differenza tra processare informazioni ed essere consapevoli di processarle rimane un abisso che nessun modello, per quanto sofisticato, ha ancora colmato. Quello che Anthropic sta facendo, però, è prezioso. Pubblicare questi risultati, ammettendo apertamente i limiti dei propri sistemi, rappresenta un esempio di trasparenza raro nel settore dell’AI. Mentre molte aziende si affannano a vendere visioni ottimistiche di intelligenze sempre più potenti, Anthropic sceglie la strada della cautela scientifica.
Gli esperimenti continueranno, le tecniche verranno affinate, i modelli miglioreranno. Ma per ora, la lezione è chiara: le nostre AI possono simulare l’introspezione, possono parlare come se fossero consapevoli, possono persino convincerci di avere una qualche forma di auto-conoscenza. Ma quando si va a guardare sotto il cofano, quando si testano davvero queste capacità con rigore scientifico, la realtà è molto più modesta delle promesse. E forse è meglio così. Perché prima di correre verso intelligenze artificiali che si auto-analizzano e si auto-migliorano, dovremmo forse capire meglio cosa significhi davvero essere consapevoli. Anche per noi umani, dopotutto, l’introspezione non è mai stata un’abilità particolarmente affidabile.



