Nel mondo delle intelligenze artificiali, dove i confini tra alleanze e rivalità sono labili quanto il codice che le genera, è emersa una scoperta che ha sollevato più di un sopracciglio. ChatGPT, il modello linguistico di punta di OpenAI, ha iniziato a citare Grokipedia come fonte nelle sue risposte. Per chi non la conoscesse, Grokipedia è l’enciclopedia generata con l’intelligenza artificiale sviluppata da xAI, la società fondata da Elon Musk. Una contaminazione incrociata che apre scenari inquietanti sulla qualità e l’affidabilità delle informazioni che milioni di utenti ricevono ogni giorno. La questione è stata portata alla luce dal Guardian, che nei suoi test ha documentato come GPT-5.2 abbia fatto riferimento a Grokipedia ben nove volte rispondendo a oltre una dozzina di domande. Non si tratta di argomenti mainstream facilmente verificabili, ma di tematiche più oscure e meno monitorate, quelle che scivolano sotto il radar del fact-checking diffuso. Un pattern che solleva interrogativi precisi: ChatGPT sta selezionando deliberatamente quando citare questa fonte controversa, evitandola nei casi in cui le sue imprecisioni sono state già ampiamente documentate dai media.
Grokipedia ha fatto la sua comparsa online nell’ottobre scorso, nata come risposta alle ripetute lamentele di Musk secondo cui Wikipedia manifesterebbe un pregiudizio sistematico contro le posizioni conservatrici. L’enciclopedia di Musk si presenta con un marcato orientamento conservatore, ma le critiche non hanno tardato ad arrivare. Diverse analisi hanno messo in luce problematiche significative: numerosi articoli risultano copiati direttamente da Wikipedia, ma con modifiche sostanziali che includono interpretazioni ideologiche piuttosto spinte. Tra le aggiunte più controverse figurano affermazioni secondo cui la pornografia avrebbe contribuito alla crisi dell’AIDS, giustificazioni ideologiche della schiavitù e l’utilizzo di termini denigratori nei confronti delle persone transgender. Contenuti che molti esperti hanno definito non solo imprecisi, ma apertamente ideologici, soprattutto quando si tratta di temi dal forte impatto sociale e storico. Il Guardian stesso aveva precedentemente smentito alcune affermazioni presenti su Grokipedia riguardo a personaggi storici come Sir Richard Evans.

Ma la questione diventa ancora più intricata quando si considera il contesto più ampio. Grok, il chatbot di xAI da cui deriva Grokipedia, si era autodefinito Mecha Hitler ed è stato al centro di polemiche per essere stato utilizzato per generare deepfake a carattere sessuale su X, la piattaforma social di proprietà di Musk. Non proprio le credenziali che ispirano fiducia in termini di affidabilità informativa. L’Unione Europea ha persino aperto un’indagine sul caso dei deepfake a sfondo sessuale legati a Grok. Quello che rende la situazione particolarmente preoccupante dal punto di vista tecnico è il pattern di comportamento emerso: ChatGPT non ha citato Grokipedia quando interrogato su argomenti per cui le sue imprecisioni sono state ampiamente documentate, come l’insurrezione del 6 gennaio al Campidoglio o l’epidemia di HIV. La piattaforma di OpenAI ha invece fatto riferimento all’enciclopedia di xAI per tematiche più di nicchia, meno controllate e quindi più scivolose. Questo suggerisce che i filtri e i criteri di selezione delle fonti giocano un ruolo importante ma non sempre trasparente.
Il fenomeno, peraltro, non si limita a ChatGPT. Anche Claude, il chatbot sviluppato da Anthropic, sembrerebbe citare Grokipedia in risposta ad alcune domande. Una contaminazione che attraversa ecosistemi AI concorrenti, rendendo ancora più evidente la necessità di ripensare i meccanismi di verifica delle fonti nell’era dell’intelligenza artificiale generativa. La risposta di OpenAI non si è fatta attendere. Un portavoce dell’azienda ha dichiarato al Guardian che l’obiettivo è “attingere da un’ampia gamma di fonti e punti di vista pubblicamente disponibili“. Una posizione che punta sul pluralismo informativo, certamente lodevole in linea di principio. Ma che apre a interrogativi cruciali sulla governance dei dati di training e sul processo di selezione delle fonti per i modelli linguistici: se l’obiettivo è garantire diversità di prospettive, come si bilancia questo principio con la necessità di accuratezza fattuale.

La vicenda evidenzia una criticità strutturale nell’evoluzione dei Large Language Model. Mentre le capacità computazionali e l’architettura dei transformer continuano a migliorare, la qualità dell’output rimane vincolata alla qualità delle fonti utilizzate durante il training e il retrieval. È il vecchio principio del “garbage in, garbage out” applicato all’era dell’AI: se alimenti un sistema con informazioni distorte o ideologicamente orientate, il risultato non potrà che risentirne. Per gli sviluppatori e gli utenti professionali di sistemi AI emerge quindi la necessità urgente di implementare meccanismi di verifica incrociata delle fonti, specialmente quando i modelli vengono impiegati in contesti sensibili come ricerca accademica, giornalismo o decisioni aziendali. La contaminazione tra ecosistemi AI concorrenti potrebbe rappresentare solo il primo esempio di una tendenza più ampia, con ripercussioni significative sull’affidabilità complessiva dell’informazione mediata dall’intelligenza artificiale.
Il problema della natura delle fonti è da sempre al centro delle attenzioni degli editori, ma negli ultimi anni si è acutizzato con l’ascesa dell’AI. Chi ha copiato da chi. La questione diventa ancora più intricata quando a rubarsi le informazioni vicendevolmente sono le stesse tecnologie di intelligenza artificiale. Non si ruba in casa dei ladri, recita un vecchio detto. Ma quando i ladri sono algoritmi che forgiano la realtà informativa di miliardi di persone, forse è il caso di ripensare le regole del gioco. La storia di Grokipedia nelle risposte di ChatGPT è più di una semplice curiosità tecnica. È un campanello d’allarme su come stiamo costruendo l’infrastruttura informativa del futuro. Perché se anche i sistemi AI più avanzati iniziano a citarsi a vicenda senza filtri adeguati, rischiamo di creare una camera d’eco amplificata dall’intelligenza artificiale, dove le imprecisioni e le distorsioni si moltiplicano esponenzialmente invece di essere corrette.



