Skip to main content
Todos os artigos do blog

DeepMind AI do Google agora pode produzir trilhas sonoras completas para vídeo

  • Martina
  • 02 julho 2024, terça-feira
Compartilhar artigo no

A DeepMind AI do Google está avançando rapidamente em suas capacidades e criatividade. Atualizações recentes do Google destacam que o modelo tecnológico agora pode gerar música para acompanhar vídeos, criando trilhas sonoras inteiras.

Um número ilimitado de trilhas sonoras para uma ampla variedade de vídeos

Da mesma forma que a produção de outros conteúdos criativos, o processo de geração de vídeo para áudio (V2A) utiliza prompts de texto em linguagem natural — em combinação com pixels de vídeo — para gerar paisagens sonoras ricas para o vídeo. O Google combina sua tecnologia V2A com modelos de geração de vídeo como o Veo para criar cenas que incluem uma trilha sonora dramática, efeitos sonoros realistas ou até mesmo diálogos que combinem com os personagens e seu tom de voz.

Além disso, a tecnologia pode gerar trilhas sonoras para filmagens bastante tradicionais, como filmes mudos, material de arquivo e muito mais. Isso abre um mundo de possibilidades de expressão criativa.

Conforme explica o Google, o modelo V2A foi projetado para ser eficaz e fácil de usar, oferecendo aos criadores um controle criativo aprimorado. Os usuários podem optar por um ‘prompt positivo’, que serve para orientar a saída gerada em direção aos sons desejados, ou um ‘prompt negativo’, que descreve como os sons não deveriam ser. Além disso, o V2A pode gerar uma quantidade ilimitada de trilhas sonoras para qualquer entrada de vídeo.

Como o V2A realmente funciona?

Em seu comunicado à imprensa, o Google revelou que seus pesquisadores experimentaram “abordagens autorregressivas e de difusão para descobrir a arquitetura de IA mais escalável”. A abordagem baseada em difusão para geração de áudio supostamente forneceu os resultados mais realistas em relação à sincronização de informações de áudio e vídeo.

Para gerar uma paisagem sonora, o sistema V2A começa 'codificando a entrada de vídeo em uma representação compactada'. O modelo de difusão então refina iterativamente o áudio a partir de ruído aleatório - um processo guiado pela entrada visual e comandos de linguagem natural, resultando em áudio sincronizado e realista, que se alinha estreitamente com o prompt. Finalmente, a saída de áudio é decodificada, transformada em forma de onda de áudio e combinada com os dados de vídeo.

Para garantir uma saída de áudio de maior qualidade e permitir a geração de sons específicos, a equipe de desenvolvimento adicionou mais informações ao processo de treinamento. Isso inclui anotações geradas por IA com transcrições de diálogos falados e descrições detalhadas de som.

Além disso, ao treinar vídeo, áudio e anotações adicionais, a tecnologia V2A aprende melhor a associar eventos de áudio a cenas visuais específicas, ao mesmo tempo que responde aos dados fornecidos nas transcrições ou anotações.

Pesquisas futuras para combater limitações

Como afirma o Google, seu modelo V2A se destaca de seus concorrentes principalmente porque pode compreender bem os pixels brutos e criar uma saída de áudio sem prompt de texto (um recurso opcional para os usuários). Ainda assim, a empresa não nega as limitações existentes em sua tecnologia que estão sendo abordadas em pesquisas futuras.

Tais limitações estão principalmente relacionadas à alta dependência da qualidade da saída de áudio da qualidade da entrada de vídeo. Atualmente, quaisquer distorções e artefatos no vídeo fornecido que estejam fora do processo de treinamento do modelo podem levar a uma queda substancial na qualidade do áudio. Além disso, melhorar a sincronização labial para vídeos que envolvem fala continua sendo foco para pesquisas futuras.

Pronto para divulgar sua música?

Distribua sua música para o maior número de plataformas de streaming e lojas do mundo.

Comece agora
Compartilhar artigo no
Newsletter iMusician

Tudo que você precisa. Tudo em um só lugar.

Receba dicas sobre como ter sucesso como artista, receba descontos para distribuição de música e as últimas notícias da iMusician diretamente na sua caixa de entrada! Tudo que você precisa para crescer sua carreira musical.