L'intelligenza artificiale di 4 aziende ruba dati su Reddit (che nel frattempo vende al miglior offerente)

Reddit ha deciso di passare alle maniere forti. La piattaforma social ha depositato una causa presso il tribunale distrettuale degli Stati Uniti contro quattro aziende accusate di scraping non autorizzato dei suoi dati. Vuole, quindi, bloccare chi cerca di aggirare le regole e sfruttare gratuitamente il tesoro di informazioni generato dai suoi utenti, senza pagare un centesimo.

Secondo quanto riportato dal New York Times, le quattro società finite nel mirino legale di Reddit sono SerpApi, la start-up lituana Oxylabs, la compagnia russa AWMProxy e Perplexity, una società di San Francisco che sviluppa un motore di ricerca basato sull’intelligenza artificiale. Le prime tre avrebbero venduto i dati raschiati da Reddit a giganti dell’AI come OpenAI e Meta, mentre Perplexity li avrebbe utilizzati direttamente per alimentare il proprio prodotto.

Ma cosa rende questi dati così preziosi da scatenare una battaglia legale. Reddit è diventato negli ultimi anni una miniera d’oro per l’intelligenza artificiale. Le sue bacheche tematiche, moderate e curate da esseri umani, contengono discussioni autentiche, consigli pratici, opinioni non filtrate e conoscenze specifiche su praticamente ogni argomento immaginabile. Non sorprende quindi che Reddit sia oggi la fonte più citata dalle risposte generate dall’AI, superando persino Wikipedia e altre enciclopedie online. Il valore commerciale di questo ecosistema è esploso negli ultimi anni. Nel secondo trimestre del 2025, Reddit ha registrato un aumento del 24% anno su anno nella categoria Altri ricavi, generando 35 milioni di dollari principalmente attraverso accordi di licenza dei dati con progetti di intelligenza artificiale. La piattaforma ha già stretto partnership ufficiali con colossi come Google e OpenAI, monetizzando legalmente il contenuto creato dalla sua community.

Ed è proprio qui che nasce il problema. Per mantenere alto il valore dell’esclusività e continuare a convincere le aziende a pagare per accedere ai suoi dati, Reddit deve assicurarsi che nessuno possa ottenerli gratuitamente attraverso scorciatoie tecniche. Nel 2023 la piattaforma aveva già aumentato significativamente i costi per l’accesso alle sue API, costringendo gli sviluppatori a pagare cifre considerevoli per integrare i dati Reddit nei loro sistemi. Tuttavia, alcune aziende hanno trovato un escamotage ingegnoso. Invece di pagare l’accesso diretto all’API di Reddit, hanno cominciato a raschiare le conversazioni della piattaforma attraverso i risultati di Google. In pratica, sfruttando il fatto che Google indicizza pubblicamente i contenuti di Reddit, queste società hanno bypassato le protezioni tecniche e i termini di servizio della piattaforma, raccogliendo massicciamente dati senza autorizzazione e senza compenso.

La causa legale depositata da Reddit chiede un’ingiunzione permanente contro queste quattro società, oltre a danni finanziari sostanziali. Ma c’è un obiettivo ancora più grande in gioco: stabilire un precedente legale chiaro che possa rafforzare le protezioni dei dati per tutte le piattaforme social. Reddit spera che questa battaglia in tribunale possa chiarire una volta per tutte che lo scraping non autorizzato, anche quando condotto attraverso risultati di ricerca pubblici, costituisce una violazione dei diritti di proprietà intellettuale. La posta in gioco è altissima. Con l’esplosione dell’intelligenza artificiale generativa, la domanda di dati di addestramento di qualità è letteralmente schizzata alle stelle. I modelli linguistici più avanzati hanno bisogno di conversazioni autentiche, dialoghi contestualizzati e interazioni genuine per imparare a comunicare in modo naturale. E dove trovare tutto questo se non sui social network, dove miliardi di persone condividono quotidianamente pensieri, esperienze e conoscenze.

Per Reddit, proteggere i propri dati non è solo una questione di principio, ma una necessità economica vitale. Se le aziende AI potessero semplicemente scaricare gratuitamente tutto ciò di cui hanno bisogno, nessuno sarebbe più disposto a pagare decine di milioni per accordi di licenza ufficiali. Il modello di business crollerebbe, privando la piattaforma di una fonte di reddito sempre più importante, soprattutto dopo la quotazione in borsa che ha aumentato la pressione per dimostrare nuovi flussi di entrate sostenibili. Questa battaglia legale rappresenta anche un banco di prova per capire come evolverà il rapporto tra piattaforme di contenuti generati dagli utenti e industria dell’intelligenza artificiale. Serviranno normative più chiare, standard condivisi e probabilmente altri processi per definire i confini di ciò che è lecito e ciò che costituisce appropriazione indebita nell’era dell’AI.

L’intelligenza artificiale di 4 aziende ruba dati su Reddit (che nel frattempo vende al miglior offerente)

I chatbot AI insegnano agli adolescenti come pianificare attacchi violenti: l’inchiesta shock

L’attacco che svuota il tuo conto bancario: Apple corre ai ripari per iPhone vecchi con un nuovo aggiornamento

Il tuo Android può essere sbloccato in 60 secondi: ecco come scoprire se sei a rischio e come proteggerti

L’intelligenza artificiale di 4 aziende ruba dati su Reddit (che nel frattempo vende al miglior offerente)

Post correlati

I chatbot AI insegnano agli adolescenti come pianificare attacchi violenti: l’inchiesta shock

L’attacco che svuota il tuo conto bancario: Apple corre ai ripari per iPhone vecchi con un nuovo aggiornamento

Il tuo Android può essere sbloccato in 60 secondi: ecco come scoprire se sei a rischio e come proteggerti