L'intelligenza artificiale DeepMind di Google può ora produrre colonne sonore complete per i video

Martina
02 luglio 2024, martedì

Condividi questo articolo su

L'intelligenza artificiale DeepMind di Google sta rapidamente avanzando nelle sue capacità e nella sua creatività. I recenti aggiornamenti di Google evidenziano che il modello tecnologico può ora generare musica per accompagnare i formati video, creando intere colonne sonore.

Un numero illimitato di colonne sonore per un'ampia gamma di ingressi video

Analogamente alla produzione di altri contenuti creativi, il processo di generazione di video-audio (V2A) utilizza suggerimenti testuali in linguaggio naturale - in combinazione con pixel video - per generare ricchi paesaggi sonori per il video. Google abbina la sua tecnologia V2A a modelli di generazione video come Veo per creare riprese che includono una colonna sonora drammatica, effetti sonori realistici o persino dialoghi che corrispondono ai personaggi e al loro tono di voce.

Inoltre, la tecnologia può generare colonne sonore per filmati piuttosto tradizionali, come film muti, materiale d'archivio e altro ancora. Questo apre un mondo di possibilità per l'espressione creativa.

Come spiega Google, il modello V2A è stato progettato per essere efficace e facile da usare, offrendo un maggiore controllo creativo. L'utente può optare per un "prompt positivo", che serve a guidare l'output generato verso i suoni desiderati, oppure per un "prompt negativo", che delinea le caratteristiche che i suoni non dovrebbero avere. Inoltre, il V2A può generare una quantità illimitata di colonne sonore per qualsiasi ingresso video.

Come funziona effettivamente il V2A?

Nel suo comunicato stampa, Google ha rivelato che i suoi ricercatori e ricercatrici hanno sperimentato "approcci autoregressivi e di diffusione per scoprire l'architettura AI più scalabile". L'approccio basato sulla diffusione per la generazione dell'audio ha fornito i risultati più realistici per quanto riguarda la sincronizzazione delle informazioni audio e video.

Per generare un paesaggio sonoro, il sistema V2A inizia "codificando l'input video in una rappresentazione compressa". Il modello di diffusione affina poi iterativamente l'audio dal rumore casuale, un processo guidato dall'input visivo e dai suggerimenti in linguaggio naturale, ottenendo un audio sincronizzato e realistico che si allinea strettamente con il suggerimento. Infine, l'uscita audio viene decodificata, trasformata in una forma d'onda audio, combinata con i dati video.

Per garantire un'uscita audio di qualità superiore e consentire la generazione di suoni specifici, il team di sviluppo ha aggiunto ulteriori informazioni al processo di formazione. Questo include annotazioni generate dall'intelligenza artificiale con trascrizioni dei dialoghi parlati e descrizioni dettagliate del suono.

Inoltre, durante l'elaborazione di video, audio e annotazioni aggiuntive, la tecnologia V2A impara ad associare meglio gli eventi audio a specifiche scene visive, rispondendo ai dati forniti nelle trascrizioni o nelle annotazioni.

Ricerca futura per superare i limiti attuali

Come sostiene Google, il suo modello V2A si distingue dai suoi concorrenti soprattutto perché è in grado di comprendere bene i pixel grezzi e di creare un'uscita audio senza una richiesta di testo (una funzione che è opzionale per gli/le utenti). Tuttavia, l'azienda non nega le limitazioni esistenti nella sua tecnologia, che vengono affrontate in ulteriori ricerche.

Tali limitazioni sono per lo più legate alla forte dipendenza della qualità dell'output audio dalla qualità dell'input video. Attualmente, tutte le distorsioni e gli artefatti presenti nel video fornito che esulano dal processo di addestramento del modello possono portare a un calo sostanziale della qualità audio. Inoltre, il miglioramento della sincronizzazione labiale per i video che coinvolgono il parlato rimane un obiettivo per la ricerca futura.