A volte le catastrofi nascono dai gesti più banali. Un copia-incolla fatto di fretta, magari sotto pressione per rispettare una deadline. Eppure quel gesto, replicato attraverso repository e team di sviluppo, ha creato un effetto domino devastante nell’ecosistema dell’intelligenza artificiale. Meta, Nvidia, Microsoft: nomi che evocano potenza tecnologica e risorse infinite, tutti colpiti dalla stessa vulnerabilità critica. Una falla che consente l’esecuzione di codice da remoto, il tipo di minaccia che fa tremare qualsiasi responsabile della sicurezza informatica. La scoperta arriva da Oligo Security, un team di ricercatori che ha identificato vulnerabilità nei principali framework di inferenza AI. Ma cos’è esattamente un framework di inferenza? Pensatelo come il motore che fa girare i modelli di intelligenza artificiale già addestrati, quello che prende un algoritmo “imparato” e lo applica a dati nuovi nel mondo reale. È l’infrastruttura invisibile ma cruciale che sta dietro a ogni chatbot, ogni sistema di raccomandazione, ogni analisi predittiva che usiamo quotidianamente.

Secondo Avi Lumelsky, ricercatore di Oligo Security, il problema risiede in una combinazione letale: l’uso non autenticato di ZeroMQ abbinato alla deserializzazione tramite Python pickle. Per chi non mastica codice tutti i giorni, traducendo: ZeroMQ è una libreria di messaggistica velocissima, una specie di “socket potenziato” che fa comunicare diverse parti di un’applicazione. Python pickle, invece, è una libreria per serializzare dati, notoriamente pericolosa quando esposta a informazioni non affidabili. Metterle insieme senza autenticazione è come lasciare la porta di casa aperta con un cartello “Entrate pure”. La storia inizia nel Llama Stack di Meta, dove una funzione riceveva dati attraverso il metodo recv-pyobj di ZeroMQ per poi passarli direttamente a pickle.loads di Python. Un attaccante poteva inviare codice malevolo attraverso socket non autenticati ed eseguirlo sui server. Semplice, devastante, efficace.

Chattare con l'intelligenza artificiale
Chattare con l’intelligenza artificiale

Ma qui arriva il colpo di scena: quella stessa vulnerabilità si è propagata come un virus attraverso l’intero ecosistema AI. I ricercatori l’hanno battezzata “ShadowMQ”, e il nome non è casuale. Lo stesso pattern vulnerabile identificato in Meta è stato replicato quasi identicamente in Nvidia TensorRT-LLM, vLLM, SGLang e Modular Max Server. In alcuni casi, nel codice sorgente sono stati trovati commenti espliciti tipo “codice preso da vLLM”. Una testimonianza involontaria di come la pratica del riuso acritico abbia diffuso la vulnerabilità come un incendio in una foresta secca. Non stiamo parlando di bug indipendenti scoperti per caso in progetti separati. Questa è contaminazione seriale del codice sorgente che ha attraversato le barriere aziendali, i team di sviluppo, persino i confini tra open source e progetti proprietari. Una carenza strutturale nella sicurezza dell’infrastruttura AI enterprise, dove i server di inferenza gestiscono dati sensibili, modelli proprietari del valore di milioni di dollari e informazioni dei clienti.

L’impatto potenziale fa impressione. Oligo ha identificato migliaia di socket ZeroMQ esposti su Internet pubblico, alcuni collegati a cluster di inferenza reali in produzione. Un attaccante che sfruttasse queste vulnerabilità potrebbe eseguire codice arbitrario su cluster GPU costosissimi, elevare i propri privilegi, sottrarre modelli proprietari o installare mining software per criptovalute. L’infrastruttura AI aziendale, spesso considerata un asset strategico protetto come Fort Knox, si trasforma improvvisamente in un vettore di attacco critico. Meta ha ricevuto la segnalazione della vulnerabilità, catalogata come CVE-2024-50050, nel settembre 2024 e ha reagito rapidamente sostituendo l’uso di pickle con serializzazione basata su JSON, più sicura. A cascata sono stati identificati e risolti problemi analoghi: vLLM ha ricevuto la sua CVE-2025-30165, Nvidia la CVE-2025-23254, Modular Max Server la CVE-2025-60455. Tutti i vendor coinvolti hanno implementato patch e logiche alternative per neutralizzare la falla.

Condivisione dei propri dati da OpenAI
Condivisione dei propri dati da OpenAI, fonte: Wired Italia

La diffusione di SGLang risulta particolarmente preoccupante considerando chi lo usa: xAI di Elon Musk, AMD, Nvidia, Intel, LinkedIn, Cursor, Oracle Cloud e Google Cloud. Non stiamo parlando di startup in un garage, ma di infrastrutture AI su larga scala in contesti enterprise ad altissima sensibilità. La superficie di attacco esposta è considerevolmente ampia, coinvolgendo colossi del cloud computing e dell’hardware che gestiscono dati di milioni di utenti. Oligo raccomanda l’aggiornamento immediato alle versioni corrette: Meta Llama Stack v0.0.41, Nvidia TensorRT-LLM 0.18.2, vLLM v0.8.0 e Modular Max Server v25.6 o successive. Ma il patching non basta. I ricercatori suggeriscono un cambio di paradigma nelle pratiche di sviluppo: evitare completamente pickle con dati non fidati, implementare autenticazione HMAC e TLS per tutte le comunicazioni ZeroMQ, e soprattutto rafforzare la formazione dei team di sviluppo sui rischi legati alla deserializzazione.

Come hanno sottolineato i ricercatori di Oligo, nell’ultimo anno hanno continuato a trovare vulnerabilità simili in framework AI ampiamente utilizzati, evidenziando un vuoto strutturale nella sicurezza dell’ecosistema di inferenza. La domanda che sorge spontanea è inquietante: se pratiche di sviluppo inadeguate possono propagarsi attraverso il semplice copia-incolla di codice non verificato, quale livello di audit e revisione viene effettivamente applicato prima che questi framework vengano adottati in produzione da aziende che gestiscono dati critici. La velocità di sviluppo nell’IA sta creando un debito di sicurezza sistemico che l’industria dovrà affrontare con crescente urgenza. Mentre tutti corrono per essere i primi a lanciare il modello più potente, la chatbot più intelligente, l’assistente più capace, qualcuno si sta fermando a verificare che le fondamenta siano solide? La pressione per accelerare il time-to-market sembra prevalere sulla verifica rigorosa della sicurezza del codice, una dinamica pericolosa in un settore che gestisce quantità crescenti di dati sensibili.

Condividi.

Diplomata alla Scuola Internazionale di Comics di Napoli - corso di sceneggiatura -, è impegnata in progetti di scrittura creativa e recensioni. Cresciuta con la consapevolezza che “All work and no play makes Jack a dull boy”. Paladina dello Sturm und Drang. Adepta del Lato Oscuro della Forza.