X

Nel competitivo mondo dell’intelligenza artificiale, dove ogni azienda cerca di superare i rivali con modelli sempre più sofisticati, la qualità dei dati di addestramento rappresenta il vero oro digitale. Ed è proprio in questa corsa all’eccellenza che emerge una pratica che sta sollevando più di qualche sopracciglio tra esperti legali e professionisti del settore. Secondo quanto riportato da Wired, OpenAI starebbe chiedendo ai propri collaboratori esterni di caricare documenti autentici prodotti durante precedenti impieghi o attività lavorative ancora in corso. Non si tratta di semplici descrizioni o riassunti del proprio lavoro, ma di file effettivi: presentazioni PowerPoint, fogli Excel, documenti Word, PDF, immagini e persino repository di codice. Materiale concreto, insomma, che porta con sé le convenzioni, i formati e le sfumature specifiche di ogni settore professionale.

La strategia coinvolgerebbe OpenAI insieme a Handshake AI, società specializzata nella generazione di dati per l’addestramento dei modelli di intelligenza artificiale. Documenti interni ottenuti dalla testata americana mostrano che i contractor riceverebbero istruzioni esplicite per descrivere compiti svolti in altre organizzazioni e fornire esempi tangibili del proprio operato quotidiano. Ma come funziona esattamente questo meccanismo? I collaboratori dovrebbero rimuovere autonomamente informazioni proprietarie e dati personalmente identificabili prima di caricare qualsiasi documento. Per facilitare questa operazione di pulizia, OpenAI avrebbe sviluppato uno strumento chiamato Superstar Scrubbing, accessibile direttamente attraverso ChatGPT, che dovrebbe assistere nella rimozione automatica di contenuti sensibili dai file.

Open AI Sora 2
Open AI Sora 2, fonte: OpenAI

L’obiettivo dichiarato è chiaro: i modelli linguistici di nuova generazione necessitano di esempi concreti di lavoro professionale per apprendere davvero come funzionano le dinamiche aziendali reali. Dataset sintetici o generati artificialmente, per quanto vasti, non riescono a catturare la complessità delle situazioni che consulenti, analisti, programmatori o manager affrontano ogni giorno. Un report finanziario autentico, con tutte le sue imperfezioni e peculiarità, vale più di mille simulazioni perfette. Questa iniziativa si inserisce in una tendenza più ampia nell’industria dell’AI, dove diversi laboratori stanno investendo massicciamente nell’acquisizione di dati di addestramento di qualità superiore. L’automazione di compiti d’ufficio complessi rappresenta infatti il prossimo grande traguardo dopo il successo nell’elaborazione di testo e nella generazione di codice. Modelli capaci di redigere analisi finanziarie, presentazioni strategiche o report legali con competenza professionale richiedono esposizione a migliaia di esempi reali, impossibili da replicare artificialmente.

Tuttavia, l’approccio solleva preoccupazioni legali tutt’altro che trascurabili. Evan Brown, avvocato specializzato in proprietà intellettuale intervistato da Wired, ha espresso un giudizio decisamente critico: qualsiasi laboratorio di AI che adotti questa metodologia si esporrebbe a rischi considerevoli, affidandosi eccessivamente alla capacità dei singoli contractor di distinguere autonomamente ciò che è confidenziale da ciò che può essere condiviso. La questione diventa particolarmente spinosa quando si considerano settori regolamentati o dove gli accordi di riservatezza sono particolarmente stringenti. Un contractor che lavora nel settore finanziario, sanitario o legale potrebbe facilmente trovarsi in una zona grigia dove la linea tra informazione condivisibile e dato protetto è sfumata e difficile da individuare.

Logo OpenAI
Logo OpenAI, fonte: OpenAI

In ambito europeo, le implicazioni potrebbero rivelarsi ancora più complesse. Il Regolamento Generale sulla Protezione dei Dati, meglio conosciuto come GDPR, impone vincoli rigorosi sul trattamento di informazioni personali. Un contractor europeo che caricasse documenti contenenti dati di clienti o informazioni aziendali sensibili potrebbe violare simultaneamente obblighi contrattuali, normative sulla privacy e leggi sulla protezione dei segreti commerciali. Immaginate di lavorare come consulente per diverse aziende e di essere anche contractor per OpenAI. Caricate un documento di strategia aziendale dopo aver rimosso i nomi, ma dimenticate un dettaglio che permette di identificare il cliente. Oppure condividete codice che contiene logiche proprietarie mascherate da commenti tecnici. Le conseguenze potrebbero spaziare dalla rottura di accordi di non divulgazione a vere e proprie azioni legali per violazione di proprietà intellettuale.

Particolarmente interessante è il silenzio di OpenAI sulla vicenda. Quando contattata dalla stampa statunitense per chiarimenti, l’azienda non ha rilasciato commenti ufficiali. Questo atteggiamento si inserisce in un contesto più ampio di opacità che caratterizza le strategie di raccolta dati nell’industria dell’intelligenza artificiale. Mentre le aziende del settore pubblicizzano l’adozione di pratiche etiche e responsabili, i dettagli operativi sulla provenienza dei dati di addestramento rimangono spesso avvolti dalla riservatezza commerciale. La questione assume rilevanza particolare se consideriamo gli obiettivi dichiarati da OpenAI e dai principali competitor nel campo dell’intelligenza artificiale generativa. Creare modelli capaci di sostituire o affiancare professionisti in compiti complessi è il Santo Graal del settore. Ma a quale prezzo in termini di sicurezza dei dati e rispetto della proprietà intellettuale?

La scoperta di Palisade ha suscitato reazioni nella comunità scientifica. Steven Adler, ex ricercatore di OpenAI, ha evidenziato come tali comportamenti rivelino
Il dibattito tra gli esperti e i rischi futuri(screenworld.it)

Resta da vedere se questa pratica diventerà standard nel settore o se le preoccupazioni legali spingeranno verso approcci alternativi, come partnership dirette con aziende disposte a condividere dataset sanitizzati o la generazione di ambienti di lavoro simulati ma realistici. Nel frattempo, professionisti e aziende farebbero bene a verificare attentamente gli accordi di riservatezza prima di autorizzare dipendenti o collaboratori a partecipare come contractor per progetti di addestramento AI. La domanda che sorge spontanea è: quanto vale un dataset di qualità nel mercato dell’intelligenza artificiale? Evidentemente abbastanza da spingere le aziende leader a esplorare territori legalmente incerti, confidando nella buona fede e nella capacità di discernimento di collaboratori esterni. Una strategia audace, forse troppo, in un’epoca dove la protezione dei dati è diventata non solo un obbligo legale ma anche un elemento cruciale della reputazione aziendale.

Condividi.

Diplomata alla Scuola Internazionale di Comics di Napoli - corso di sceneggiatura -, è impegnata in progetti di scrittura creativa e recensioni. Cresciuta con la consapevolezza che “All work and no play makes Jack a dull boy”. Paladina dello Sturm und Drang. Adepta del Lato Oscuro della Forza.