Visual ingredients: la nuova arma di Google per creare video AI da tre semplici foto (addio ai prompt complicati)

Seguici su

Google ha appena alzato l’asticella nel campo della generazione video basata sull’intelligenza artificiale. L’app Gemini si arricchisce di una funzione che potrebbe cambiare radicalmente il modo in cui creiamo contenuti audiovisivi: i visual ingredients, letteralmente “ingredienti visivi”, pensati per rendere il processo non solo più intuitivo, ma soprattutto più accessibile anche a chi non ha dimestichezza con la scrittura di prompt articolati. Fino a oggi, ottenere risultati complessi nella generazione video richiedeva una certa maestria nella formulazione dei comandi testuali. Bisognava descrivere minuziosamente ogni dettaglio: l’ambientazione, i personaggi, lo stile visivo, l’atmosfera. Un processo che, per quanto affascinante, poteva trasformarsi in un esercizio di frustrazione quando le parole non riuscivano a tradurre fedelmente la visione che avevamo in mente. Ora questo paradigma cambia.

Con i visual ingredients, gli utenti possono caricare fino a tre immagini di riferimento che fungono da guida per Veo, il modello di generazione video integrato nell’app Gemini. Questi “ingredienti” funzionano in modo simile a quelli già presenti nello strumento Flow e permettono di comunicare all’intelligenza artificiale elementi specifici come personaggi, oggetti, stili artistici o ambientazioni senza dover ricorrere a descrizioni testuali complesse. Il meccanismo è elegante nella sua semplicità: invece di scrivere “un personaggio con capelli biondi, occhi azzurri, vestito con una giacca di pelle nera in uno scenario urbano notturno illuminato da luci al neon”, basta caricare un’immagine del personaggio, una foto dell’ambientazione desiderata e magari un riferimento stilistico. Veo si occupa del resto, interpretando questi input visivi e traducendoli in sequenze video coerenti.

Chattare con l'intelligenza artificiale — Chattare con l’intelligenza artificiale

Ma quali sono i vantaggi concreti di questo approccio? Google ne identifica tre principali, ciascuno pensato per risolvere problematiche specifiche della generazione video AI. Il primo riguarda la coerenza dei personaggi. Uno dei problemi più frustranti nelle AI generative è la difficoltà di mantenere l’aspetto di un soggetto invariato tra scene diverse. Con i visual ingredients, Veo può ancorare l’aspetto dei personaggi alle immagini di riferimento fornite, garantendo continuità narrativa ed evitando quei cambiamenti indesiderati che spezzano l’immersione dello spettatore. Il secondo beneficio riguarda il trasferimento dello stile. Immaginate di voler applicare a un video l’estetica di un dipinto impressionista, oppure la texture e l’illuminazione di una fotografia vintage. Caricando un’immagine di riferimento che rappresenta quello stile, Veo può replicare texture, luci e impostazioni artistiche nelle sequenze generate, ottenendo un’estetica uniforme e personalizzata che sarebbe difficilissimo da ottenere solo con descrizioni testuali.

Il terzo vantaggio supporta il world-building, elemento cruciale per chi lavora su progetti narrativi complessi. Gli utenti possono modellare ambienti, oggetti e atmosfere in base a uno stile o a un immaginario preciso, costruendo mondi visivi coerenti partendo da riferimenti iconografici invece che da lunghe descrizioni scritte. Google ha condiviso un esempio pratico che dimostra l’efficacia di questa integrazione. Nel video di dimostrazione, i personaggi presenti nelle tre immagini fornite vengono inseriti nella scena e agiscono esattamente come indicato dal prompt testuale accompagnatorio. Il risultato mostra come l’approccio ibrido, immagini più istruzioni testuali brevi, permetta di sostituire descrizioni complesse con un flusso di lavoro più immediato, riducendo il rischio di malintesi da parte dell’AI e migliorando complessivamente la qualità dei risultati.

Il futuro dell'intelligenza artificiale — Il futuro dell’intelligenza artificiale

Questa combinazione rappresenta un punto d’incontro intelligente tra precisione visiva e flessibilità narrativa. Le immagini forniscono l’ancoraggio estetico e concettuale, mentre il prompt testuale può concentrarsi sulle azioni, sui movimenti e sugli elementi dinamici della scena, senza doversi perdere in dettagli descrittivi che un’immagine comunica istantaneamente. L’aggiornamento è attualmente in fase di distribuzione e raggiungerà la disponibilità completa entro la prossima settimana. C’è però un dettaglio importante da sottolineare: la funzione sarà inizialmente riservata agli abbonati Google AI Plus, Pro e Ultra. Una scelta comprensibile dal punto di vista commerciale, considerando la potenza computazionale richiesta dalla generazione video AI, ma che lascia fuori gli utenti della versione gratuita, almeno in questa prima fase.

Visual ingredients: la nuova arma di Google per creare video AI da tre semplici foto (addio ai prompt complicati)

Ghost Font, il carattere che il cervello umano legge in un istante ma mette in crisi ChatGPT, Gemini e le altre AI

WhatsApp cambia per sempre: adesso puoi nascondere il numero di telefono (e prenotare il tuo nome utente)

Samsung brevetta uno smartphone che sembra un mattone: quando si apre diventa qualcosa di inaspettato

Visual ingredients: la nuova arma di Google per creare video AI da tre semplici foto (addio ai prompt complicati)

Post correlati

Ghost Font, il carattere che il cervello umano legge in un istante ma mette in crisi ChatGPT, Gemini e le altre AI

WhatsApp cambia per sempre: adesso puoi nascondere il numero di telefono (e prenotare il tuo nome utente)

Samsung brevetta uno smartphone che sembra un mattone: quando si apre diventa qualcosa di inaspettato