Industrie Musicale

L'IA DeepMind de Google peut désormais produire des bandes-son complètes pour les vidéos

Martina
02 juillet 2024, mardi

Partager cet article sur

L'IA DeepMind de Google progresse rapidement dans ses capacités et sa créativité. Des mises à jour récentes de Google soulignent que le modèle technologique peut désormais générer de la musique pour accompagner des formats vidéo, créant ainsi des bandes-son entières.

Une infinité de bandes-son pour une multitude de vidéos

De la même manière que pour les autres types de contenus, le processus de création “vidéo à audio” (V2A) utilise des instructions écrites en langage naturel — combinées avec des pixels vidéo — pour produire des paysages sonores riches qui accompagnent les vidéos. Google associe sa technologie V2A à des modèles de création vidéo tels que Veo pour générer des scènes incluant une bande sonore spécifique, des effets sonores réalistes, voire même des dialogues attribués aux personnages et adaptés à leur intonation.

En plus de ça, cette technologie peut générer des bandes sonores pour des séquences plus traditionnelles comme les films muets, des documents d'archives, etc., ce qui ouvre un monde de possibilités énorme pour s’exprimer créativement.

Comme l'explique Google, le modèle V2A a été conçu pour être efficace et facile à utiliser afin d’offrir aux créateur·rice·s un contrôle artistique optimal. Les utilisateur·rice·s peuvent opter pour une « invite positive », qui vise à orienter le résultat généré vers les sons souhaités, ou pour une « invite négative », qui précise quels sons ne doivent pas être utilisés. De plus, le V2A peut générer un nombre illimité de bandes-son pour n'importe quelle vidéo.

Comment fonctionne le V2A ?

Dans son communiqué de presse, Google a annoncé que ses chercheur·euse·s avaient exploré des « approches autorégressives et de diffusion afin de trouver l'architecture IA la plus évolutive ». L'approche basée sur la diffusion pour la génération audio aurait fourni les résultats les plus réalistes en ce qui concerne la synchronisation de l'audio et de la vidéo.

Pour générer un paysage sonore, le système V2A commence par « encoder l'entrée vidéo dans une représentation compressée ». Le modèle de diffusion affine ensuite itérativement le son à partir de bruits aléatoires - un processus guidé par l'entrée visuelle et les invites en langage naturel, ce qui permet d'obtenir un son synchronisé et réaliste qui correspond étroitement à l'invite. Enfin, la sortie audio est décodée, transformée en forme d'onde audio et combinée aux données vidéo.

Pour garantir une meilleure qualité audio et permettre de générer des sons spécifiques, l'équipe de développement a ajouté davantage d'informations au processus de formation. Il s'agit notamment d'annotations générées par l'IA avec des transcriptions de dialogues parlés et des descriptions détaillées de sons.

De plus, en entraînant la vidéo, l'audio et les annotations supplémentaires, la technologie V2A apprend à mieux associer les événements audio à des scènes visuelles spécifiques, tout en répondant aux données fournies dans les transcriptions ou les annotations.

Futures recherches pour combattre les limitations

Comme l'affirme Google, son modèle V2A se distingue de la concurrence principalement grâce à sa capacité à comprendre les pixels bruts et à créer une sortie audio sans invite textuelle (une fonction qui est facultative pour les utilisateur·rice·s). Toutefois, l'entreprise ne nie pas qu’il existe des limites à cette technologie, qui font l'objet de recherches plus approfondies.

Ces limitations sont principalement liées à la forte dépendance de la qualité de la sortie audio par rapport à la qualité de l'entrée vidéo. Actuellement, toutes les distorsions et tous les artefacts de la vidéo fournie qui ne font pas partie du processus d'apprentissage du modèle peuvent entraîner une baisse substantielle de la qualité audio. Par ailleurs, l'amélioration de la synchronisation des lèvres et bouches pour les vidéos comportant des paroles reste un axe de recherche pour l'avenir.