In occasione della conferenza Google I/O 2026, Google ha presentato Gemini Omni, una nuova famiglia di modelli multimodali capace di generare video combinando testo, immagini, audio e video in input. Un passo significativo verso l'obiettivo di un'AI in grado di "creare qualsiasi cosa da qualsiasi input", come evidenziato dall'amministratore delegato Sundar Pichai.

Gemini Omni: video intelligenti con comprensione multimodale

L'innovazione chiave di Gemini Omni risiede nella sua capacità di ragionare sugli input, non solo di unirli. Il sistema produce video coerenti e di alta qualità, dimostrando comprensione di fisica, cultura, storia e scienza.

Un esempio è la generazione di un video in stile stop-motion con narrazione vocale, partendo da un prompt come "a claymation explainer of protein folding", spiegando il ripiegamento delle proteine. Inoltre, Gemini Omni semplifica l'editing fotografico tramite comandi in linguaggio naturale, richiamando strumenti precedenti come Nano Banana.

Rollout: Gemini Omni Flash oggi, Omni Pro in futuro

La versione iniziale, Gemini Omni Flash, è già disponibile tramite l'app Gemini, YouTube Shorts e lo studio creativo AI Flow. Flash genera video fino a 10 secondi, un limite dettato da scelte di design e abitudini d'uso, con estensioni future. Google ha annunciato il modello Omni Pro, più potente e destinato a usi professionali e aziendali, che sarà reso disponibile via API nelle prossime settimane, ampliando le opportunità per sviluppatori e creativi.

Avatar digitali e autenticità garantita da SynthID

Gemini Omni offre la creazione di avatar digitali personalizzati. Gli utenti devono completare un onboarding specifico, registrando voce e pronunciando numeri, per generare un'identità digitale utilizzabile nei video. Per contrastare i deepfake, ogni video generato da Gemini Omni include un watermark digitale SynthID. Questo contrassegno, invisibile ma verificabile, assicura tracciabilità e autenticità dei contenuti dall'AI di Google.

API per sviluppatori: attesa e stato attuale

Sebbene l'introduzione delle API di Gemini Omni sia attesa nelle prossime settimane, al momento non sono documentate sui canali ufficiali di Google. Non sono disponibili pubblicamente dettagli come ID del modello, documentazione degli endpoint o informazioni su prezzi e limiti.

Si consiglia agli sviluppatori di attendere conferme ufficiali; l'unica opzione per funzionalità simili rimane Veo 3.1 tramite Gemini API o Vertex AI.

L'impatto di Gemini Omni su consumatori e imprese

A livello consumer, Omni Flash mira a democratizzare la creazione di contenuti: meme personalizzati, avatar parlanti e scene coinvolgenti. Nel contesto professionale, le API e la futura versione Omni Pro promettono una rivoluzione nei flussi di lavoro, con produzione video più agile, integrazione multimodale e automazione della sintesi visiva e sonora per branding, pubblicità e storytelling. Il watermark SynthID è cruciale per l'affidabilità dei contenuti AI, aspetto cruciale nel dibattito su trasparenza e responsabilità.

In sintesi, Gemini Omni segna l'inizio di una nuova generazione di intelligenza artificiale generativa, non più limitata a testo o immagini, ma capace di una produzione audiovisiva simbiotica, pronta a esplorare nuove frontiere creative. L'attesa per le API è alta per svelarne il pieno potenziale.