Veo è un modello di intelligenza artificiale generativa per la creazione di video a partire da input testuali o visuali. Sviluppato da Google DeepMind e lanciato nel maggio 2024, è stato concepito per produrre video di qualità elevata, coerenti con prompt complessi e dotati di naturalezza visiva.
Nel dicembre 2024 è stato introdotto Veo 2, con capacità migliorate: supporto fino a 4K, gestione avanzata della fisica e del linguaggio cinematografico per movimenti realistici e controlli di camera.
Veo 3: la svolta dell’audio 🔊
La vera innovazione arriva con Veo 3, annunciato il 20 maggio 2025, un anno dopo la nascita di Veo. Non solo genera immagini in movimento, ma produce anche audio completamente sincronizzato: dialoghi, suoni ambientali, effetti sonori e musiche originali per accompagnare i video.
Questo upgrade segna, come afferma Demis Hassabis (Amministratore delegato di Google DeepMind), la fine dell’“era del cinema muto” per l’AI. L’inizio di una nuova era cinematografica dell’AI che rivoluzionerà le grandi produzioni ma anche la pubblicità e marketing.
Possiamo dire che da maggio 2025 è iniziata l’era nuova dove non è più possibile distinguere il reale dall’irreale. Oramai il passo è stato fatto e vedremo cosa comporterà. Sicuramente ci aspettano mesi rivoluzionari con impatti sull’economia, sul lavoro e sulla società non indifferenti.
Funzionalità tecniche
- Diffusione latente multimodale: combina diffusione su latenti video e audio, sfruttando descrizioni testuali e immagini
- Qualità e fedeltà: risoluzione Full HD (1080p) e fino a 4K nelle versioni precedenti, con movimento realistico, continuità di scene e sincronizzazione del labiale .
- Controlli cinematografici: permette prompt con specifiche su stile (low‑angle, shallow depth of field, tipo di lente) e cinematografia
- Accessibilità: disponibile su Vertex AI, VideoFX, e su app come Gemini (pro/ultra plan), e in piattaforme sperimentali come Flow per uso professionale
Sicurezza e watermarking
Per prevenire usi illegittimi, Veo e Veo 3 integrano tecnologie di watermark invisibile (SynthID) e visibile, filtri per contenuti sensibili (violenza, deepfake di personaggi pubblici/ecc.) e red‑teaming pre‑rilascio.
Tuttavia, nonostante i blocchi su prompt violenti o sensibili, rimane il rischio di deepfake realistici, specie in contesti politicamente delicati.


I commenti sono chiusi.