Industry news

DeepMind AI do Google agora pode produzir trilhas sonoras completas para vídeo

Martina
02 julho 2024, terça-feira

Compartilhar artigo no

A DeepMind AI do Google está avançando rapidamente em suas capacidades e criatividade. Atualizações recentes do Google destacam que o modelo tecnológico agora pode gerar música para acompanhar vídeos, criando trilhas sonoras inteiras.

Um número ilimitado de trilhas sonoras para uma ampla variedade de vídeos

Da mesma forma que a produção de outros conteúdos criativos, o processo de geração de vídeo para áudio (V2A) utiliza prompts de texto em linguagem natural — em combinação com pixels de vídeo — para gerar paisagens sonoras ricas para o vídeo. O Google combina sua tecnologia V2A com modelos de geração de vídeo como o Veo para criar cenas que incluem uma trilha sonora dramática, efeitos sonoros realistas ou até mesmo diálogos que combinem com os personagens e seu tom de voz.

Além disso, a tecnologia pode gerar trilhas sonoras para filmagens bastante tradicionais, como filmes mudos, material de arquivo e muito mais. Isso abre um mundo de possibilidades de expressão criativa.

Conforme explica o Google, o modelo V2A foi projetado para ser eficaz e fácil de usar, oferecendo aos criadores um controle criativo aprimorado. Os usuários podem optar por um ‘prompt positivo’, que serve para orientar a saída gerada em direção aos sons desejados, ou um ‘prompt negativo’, que descreve como os sons não deveriam ser. Além disso, o V2A pode gerar uma quantidade ilimitada de trilhas sonoras para qualquer entrada de vídeo.

Como o V2A realmente funciona?

Em seu comunicado à imprensa, o Google revelou que seus pesquisadores experimentaram “abordagens autorregressivas e de difusão para descobrir a arquitetura de IA mais escalável”. A abordagem baseada em difusão para geração de áudio supostamente forneceu os resultados mais realistas em relação à sincronização de informações de áudio e vídeo.

Para gerar uma paisagem sonora, o sistema V2A começa 'codificando a entrada de vídeo em uma representação compactada'. O modelo de difusão então refina iterativamente o áudio a partir de ruído aleatório - um processo guiado pela entrada visual e comandos de linguagem natural, resultando em áudio sincronizado e realista, que se alinha estreitamente com o prompt. Finalmente, a saída de áudio é decodificada, transformada em forma de onda de áudio e combinada com os dados de vídeo.

Para garantir uma saída de áudio de maior qualidade e permitir a geração de sons específicos, a equipe de desenvolvimento adicionou mais informações ao processo de treinamento. Isso inclui anotações geradas por IA com transcrições de diálogos falados e descrições detalhadas de som.

Além disso, ao treinar vídeo, áudio e anotações adicionais, a tecnologia V2A aprende melhor a associar eventos de áudio a cenas visuais específicas, ao mesmo tempo que responde aos dados fornecidos nas transcrições ou anotações.

Pesquisas futuras para combater limitações

Como afirma o Google, seu modelo V2A se destaca de seus concorrentes principalmente porque pode compreender bem os pixels brutos e criar uma saída de áudio sem prompt de texto (um recurso opcional para os usuários). Ainda assim, a empresa não nega as limitações existentes em sua tecnologia que estão sendo abordadas em pesquisas futuras.

Tais limitações estão principalmente relacionadas à alta dependência da qualidade da saída de áudio da qualidade da entrada de vídeo. Atualmente, quaisquer distorções e artefatos no vídeo fornecido que estejam fora do processo de treinamento do modelo podem levar a uma queda substancial na qualidade do áudio. Além disso, melhorar a sincronização labial para vídeos que envolvem fala continua sendo foco para pesquisas futuras.