Microsoft: lo foto "parlano" e "cantano" con l'AI di VASA-1

VASA-1 è un nuovo progetto di Microsoft finalizzato a sfruttare le Intelligenze Artificiali Generative per animare le immagini fotografiche. Parliamo nello specifico di "Lifelike Audio-Driven Talking Faces" generate in tempo reale, quindi date l’immagine di un volto e un clip audio la piattaforma è in grado di creare un video dove la persona ritratta parla o canta.

?? Microsoft Research just announced VASA-1.

All it needs is a picture and audio to create these talking videos!

Look at this real-time demo: pic.twitter.com/dmEIWid3XE

— Alvaro Cintas (@dr_cintas) April 18, 2024

Una caratterisitica interessante di VASA-1 riguarda il fatto che esso non riproduce soltanto i movimenti delle labbra sincronizzandoli con l’audio, riesce anche a riprodurre (abbastanza) fedelmente diverse espressioni facciali nonché i movimenti della testa. I risultati ottenuti sarebbero stati nettamente superiori rispetto ai metodi utilizzati fino ad ora per ottenere i medesimi output.

Microsoft Announced VASA-1

It getting crazy literally. Imagine a single portrait picture that can change everything from expression to voice acting.

AI is unstoppable pic.twitter.com/H3CeB0GOCj

— Sumon Kais (@sumonkais) April 18, 2024

Come specificato dai portavoce della Casa di Redmond, il metodo utilizzato non offre soltanto un’alta qualità nel rendering video, con dinamiche realistiche del viso e della testa, ma supporta anche la generazione online di video da 512×512 px, fino a 40 FPS, con una latenza iniziale trascurabile. La resa dei filmati è quindi estremamente naturale.

Microsoft acaba de lanzar VASA-1.

Esta IA puede hacer que una sola imagen cante y hable…

Vídeos AI ultrarrealistas a partir de una foto… pic.twitter.com/GWLWf23C7L

— Miguel | El Maestro de la IA (@MiguelMaestroIA) April 18, 2024

Il progetto è stato sviluppato a partire da un modello a diffusione, come per esempio quello di DALL·E 3, che ha la particolarità di accettare dei segnali opzionali come delle condizioni. Si pensi ad esempio la direzione principale dello sguardo, alla distanza della testa da un punto di osservazione e agli offset emotivi (i cambiamenti di espressione in reazione agli input).

Un’altra particolarità di VASA-1 riguarda il fatto che esso è in grado di gestire gli input di immagini e audio anche se questi non sono stati previsti durante le sessioni di addestramento del modello. Esso è stato in grado ad esempio di animare immagini artistiche o far parlare i soggetti in lingue diverse dall’Inglese anche se questi dati non erano presenti nel training set.

Per restare sempre aggiornato seguici su Google News! Seguici

Microsoft: lo foto "parlano" e "cantano" con l’AI di VASA-1

Leggi anche...

Windows 11 ha una nuova sezione “Aggiornamenti app” nelle Impostazioni

Windows 11: centinaia di milioni di PC non sono compatibili

Windows 11: PowerToys porta il copia e incolla con l’AI in locale

Notepad supporta le tabelle su Windows 11

Microsoft presenta un Windows 365 pensato per gli agenti AI

Windows 11: gli utenti criticano taskbar fissa e obbligo dell’account