Noticias del Sector Musical

DeepMind AI de Google ahora puede producir bandas sonoras completas para video

Martina
02 julio 2024, martes

Comparte este artículo en

La IA DeepMind de Google está avanzando rápidamente en sus capacidades y creatividad. Actualizaciones recientes de Google destacan que el modelo tecnológico ahora puede generar música para acompañar formatos de vídeo, creando bandas sonoras completas.

Un número ilimitado de bandas sonoras para una amplia gama de entradas de vídeo

De manera similar a la producción de otro contenido creativo, el proceso de generación de video a audio (V2A) utiliza indicaciones de texto en lenguaje natural, en combinación con píxeles de video, para generar ricos paisajes sonoros para el video. Google combina su tecnología V2A con modelos de generación de vídeo como Veo para crear tomas que incluyen una partitura dramática, efectos de sonido realistas o incluso diálogos que coinciden con los personajes y su tono de voz.

Además, la tecnología puede generar bandas sonoras para metraje bastante tradicional, como películas mudas, material de archivo y más. Esto abre un mundo de posibilidades para la expresión creativa.

Como explica Google, el modelo V2A ha sido diseñado para ser eficaz y fácil de usar, ofreciendo a los creadores un control creativo mejorado. Los usuarios pueden optar por un "mensaje positivo", que sirve para guiar la salida generada hacia los sonidos deseados, o un "mensaje negativo", que describe cómo no deberían ser los sonidos. Además, el V2A puede generar una cantidad ilimitada de bandas sonoras para cualquier entrada de vídeo.

¿Cómo funciona realmente el V2A?

En su comunicado de prensa, Google reveló que sus investigadores experimentaron con "enfoques autorregresivos y de difusión para descubrir la arquitectura de IA más escalable". El enfoque basado en difusión para la generación de audio supuestamente proporcionó los resultados más realistas con respecto a la sincronización de información de audio y video.

Para generar un paisaje sonoro, el sistema V2A comienza "codificando la entrada de vídeo en una representación comprimida". Luego, el modelo de difusión refina iterativamente el audio a partir del ruido aleatorio, un proceso guiado por la entrada visual y las indicaciones del lenguaje natural, lo que da como resultado un audio sincronizado y realista que se alinea estrechamente con el mensaje. Finalmente, la salida de audio se decodifica, se transforma en una forma de onda de audio y se combina con los datos de video.

Para asegurar una salida de audio de mayor calidad y permitir generar sonidos específicos, el equipo de desarrollo agregó más información al proceso de capacitación. Esto incluye anotaciones generadas por IA con transcripciones de diálogos hablados y descripciones detalladas del sonido.

Además, al entrenar video, audio y anotaciones adicionales, la tecnología V2A aprende mejor a asociar eventos de audio con escenas visuales específicas, mientras responde a los datos proporcionados en las transcripciones o anotaciones.

Investigaciones futuras para luchar contra las limitaciones

Como afirma Google, su modelo V2A se destaca de sus competidores principalmente porque puede comprender bien los píxeles sin procesar y crear una salida de audio sin mensaje de texto (una característica que es opcional para los usuarios). Aún así, la empresa no niega las limitaciones existentes en su tecnología que se están abordando en futuras investigaciones.

Estas limitaciones están relacionadas principalmente con la alta dependencia de la calidad de la salida de audio de la calidad de la entrada de vídeo. Actualmente, cualquier distorsión y artefacto en el vídeo proporcionado que esté fuera del proceso de entrenamiento del modelo puede provocar una caída sustancial en la calidad del audio. Además, mejorar la sincronización de labios en videos que involucran habla sigue siendo un foco de investigación futura.