Industrie-News

Googles DeepMind KI kann jetzt komplette Soundtracks für Videos produzieren

Martina
02 Juli 2024, Dienstag

Teile diesen Artikel auf

Googles DeepMind KI macht rasante Fortschritte in ihren Fähigkeiten und ihrer Kreativität. Jüngste Updates von Google zeigen, dass das Technologiemodell jetzt auch Musik zu Videoformaten generieren und so ganze Soundtracks erstellen kann.

Eine unbegrenzte Anzahl von Soundtracks für eine breite Palette von Video-Inputs

Ähnlich wie bei der Produktion anderer kreativer Inhalte werden bei der Erzeugung von Video-to-Audio (V2A) natürlichsprachliche Texteingaben - in Kombination mit Videopixeln - verwendet, um reichhaltige Geräuschkulissen für das Video zu erzeugen. Google kombiniert seine V2A-Technologie mit Videogenerierungsmodellen wie Veo, um Aufnahmen zu erstellen, die eine dramatische Musik, realistische Soundeffekte oder sogar Dialoge enthalten, die zu den jeweiligen Charakteren und ihrem Tonfall passen.

Außerdem kann die Technologie Soundtracks für eher traditionelles Filmmaterial wie Stummfilme, Archivmaterial und mehr erstellen. Das eröffnet eine Welt voller kreativer Ausdrucksmöglichkeiten.

Wie Google erklärt, wurde das V2A-Modell so konzipiert, dass es effektiv und einfach zu bedienen ist und den Schöpfern eine größere kreative Kontrolle bietet. Nutzer*innen können sich entweder für einen "positiven Prompt" entscheiden, der den generierten Output in Richtung der gewünschten Klänge lenkt, oder für einen "negativen Prompt", der vorgibt, wie die Klänge nicht sein sollen. Außerdem kann der V2A eine unbegrenzte Anzahl von Soundtracks für jeden Video-Input erzeugen.

Wie funktioniert die V2A eigentlich?

In der Pressemitteilung von Google heißt es, dass die Forscher mit "autoregressiven und diffusionsbasierten Ansätzen experimentiert haben, um die am besten skalierbare KI-Architektur zu finden". Der diffusionsbasierte Ansatz für die Audioerzeugung lieferte Berichten zufolge die realistischsten Ergebnisse bei der Synchronisierung von Audio- und Videoinformationen.

Um eine Geräuschkulisse zu erzeugen, beginnt das V2A-System mit der "Codierung des Videoinputs in eine komprimierte Darstellung". Das Diffusionsmodell verfeinert dann iterativ den Ton aus zufälligem Rauschen - ein Prozess, der durch den visuellen Input und die natürlichsprachlichen Aufforderungen gesteuert wird und zu einem synchronisierten, realistischen Ton führt, der eng mit der Aufforderung übereinstimmt. Schließlich wird die Audioausgabe dekodiert, in eine Audiowellenform umgewandelt und mit den Videodaten kombiniert.

Um eine hochwertigere Audioausgabe zu gewährleisten und die Erzeugung spezifischer Klänge zu ermöglichen, hat das Entwicklungsteam weitere Informationen in den Trainingsprozess integriert. Dazu gehören KI-generierte Annotationen mit Transkripten gesprochener Dialoge und detaillierte Beschreibungen von Geräuschen.

Durch das Training von Video, Audio und den zusätzlichen Anmerkungen lernt die V2A-Technologie außerdem, Audioereignisse besser mit bestimmten visuellen Szenen in Verbindung zu bringen und auf die Daten in den Transkripten oder Anmerkungen zu reagieren.

Künftige Forschung zur Überwindung von Einschränkungen

Wie Google behauptet, hebt sich sein V2A-Modell vor allem dadurch von seinen Konkurrenten ab, dass es rohe Pixel gut verstehen und eine Audioausgabe ohne Textaufforderung erstellen kann (ein Feature, das für Nutzer*innen optional ist). Das Unternehmen leugnet jedoch nicht, dass es bei seiner Technologie Einschränkungen gibt, die in der weiteren Forschung angegangen werden.

Diese Einschränkungen hängen vor allem damit zusammen, dass die Qualität der Audioausgabe stark von der Qualität des Videoinputs abhängt. Derzeit können alle Verzerrungen und Artefakte im bereitgestellten Video, die außerhalb des Trainingsprozesses des Modells liegen, zu einer erheblichen Verschlechterung der Audioqualität führen. Darüber hinaus bleibt die Verbesserung der Lippensynchronisation für Videos mit Sprache ein Schwerpunkt für zukünftige Forschung.

Entdecke unsere Abos im brandneuen Look!

Erhalte noch mehr Flexibilität zu niedrigeren Preisen!

Mehr erfahren

Teile diesen Artikel auf

Martina

Martina ist eine in Berlin ansässige Musikjournalistin und Spezialistin für digitale Inhalte. Sie begann im Alter von sechs Jahren Geige zu spielen und war zehn Jahre lang in der klassischen Musik tätig. Heute schreibt sie über Musik, die Industrie, Streaming und faire Bedingungen für Künstler*innen.

KI vs. Musikindustrie: Die Aufkommen des KI-Stimmenklonens

Artikel lesen

KI Tools für Musiker*innen