KI vs. Musikindustrie: Die Aufkommen des KI-Stimmenklonens

Martina
12 Oktober 2023, Donnerstag

Teile diesen Artikel auf

AI-Stimmenklonungstechnologie hat in den letzten Monaten stark zugenommen und zeigt ihre Kraft in verschiedenen Bereichen, einschließlich der Musikindustrie. Obwohl wir das Thema bereits in unserem vorherigen Artikel über KI und Musik behandelt haben, finden wir, dass es einen eigenen Beitrag verdient, der tiefer auf die Auswirkungen und damit verbundenen Bedenken für unabhängige Künstler*innen eingeht. Lasst uns gleich eintauchen!

Die Technologie der KI-Stimmenklonung

Unabhängig von der Kontroverse um die Stimmenklonung stellt die Technologie eine bemerkenswerte Errungenschaft im Bereich der künstlichen Intelligenz dar. Obwohl wir nicht auf die Details eingehen werden, haben wir uns entschlossen, die Grundlagen der Funktionsweise der Technologie zu skizzieren. Im Wesentlichen verwendet die Stimmenklonung raffinierte Lernalgorithmen, um bestimmte menschliche Stimmen zu replizieren.

Was dieser innovativen Methode zugrunde liegt, ist das Training neuronaler Netzwerke, das durch umfangreiche Mengen aufgezeichneter Sprachdaten gesteuert wird. KI-Modelle werden darauf trainiert, unzählige stimmliche Nuancen, Intonationen, Tonlagen, Akzente oder Geschwindigkeiten zu beherrschen, um eine synthetisierte Sprache zu übernehmen, die die Stimme des Ursprungssprechers so genau wie möglich imitiert.

Eine wesentliche Rolle spielen auch Deep-Learning-Architekturen namens Generative Adversarial Networks (GANs), die die Interaktion zwischen Generator- und Diskriminatornetzwerken vermitteln. Wie der Name schon sagt, zielen Generatoren darauf ab, synthetische Stimmen zu erzeugen, während Diskriminatoren deren Authentizität gegenüber echter menschlicher Sprache bewerten. Die Interaktion zwischen den beiden Netzwerken erzeugt einen wiederholten Zyklus von Erstellung, Bewertung und Verfeinerung, durch den die KI-Stimmenklontechnologie ständig weiterentwickelt wird.

DALL E 2023 10 12 15 15 05 a robot who imitates someone elses voice

AI-Stimmenklonung in der Musik

Am Anfang dieses Artikels haben wir erwähnt, dass Stimmenklonungsdienste in verschiedenen Bereichen und Branchen genutzt werden. Beispielsweise für die Entwicklung personalisierter und menschenähnlicher virtueller Assistenten, die Erstellung viraler Social-Media-Beiträge oder die Ermöglichung hochwertiger Kommunikation für Menschen, die ihre Fähigkeit zu sprechen verloren haben.

Was den Einsatz von Stimmenklonung in der Musikindustrie von ihrem Einsatz in anderen Bereichen unterscheidet, ist, dass für Musiker*innen ihre Stimmen ein heiliger Bestandteil ihrer Kunst und ihres Berufs sind. Tatsächlich können wir argumentieren, dass die Stimme in diesem Zusammenhang ein Kommunikationswerkzeug, ein Musikinstrument und ein Monetarisierungsinstrument in einem ist.

Einige besondere Beispiele brachten die Kunst der Stimmenklonung ins Rampenlicht. Bereits 2021 sorgte Capitol Record für Schlagzeilen, als sie ihre Entscheidung bekannt gaben, den vollständig KI-gesprochenen Rapper FN Meka unter Vertrag zu nehmen. Kurz darauf entdeckten Fans, dass FN Mekas Stimme einem menschlichen Synchronsprecher gehörte, der weder für seine Arbeit noch für sein Talent genannt oder entschädigt wurde.

Dies löste eine Kontroverse aus, die durch die öffentliche Persönlichkeit des virtuellen Künstlers, die als unterstützend für rassistische Stereotypen und kulturelle Aneignung der schwarzen Kultur angesehen wurden, weiter angeheizt wurde. Kein Wunder also, dass der Künstler nur 10 Tage nach der Unterzeichnung vom Label fallen gelassen wurde.

Please accept marketing cookies to view this content.

Du erinnerst dich wahrscheinlich auch an das Lied ‘heart on my sleeve’, das Anfang dieses Jahres viral ging, weil es 'realistisch klingende' Vocals von Drake und The Weeknd enthielt, die von KI generiert wurden. Der Song wurde von einem TikTok-Benutzer namens ghostwriter977 geschrieben und produziert, der ihn selbst auf Streaming-Plattformen wie Spotify, Apple Music oder YouTube veröffentlichte.

Das Ergebnis? Der Track generierte Millionen von Ansichten auf TikTok und Tausende von Streams auf verschiedenen Plattformen. Und obwohl Universal Music Group ihn schließlich entfernte, wurde er zu einem entscheidenden Fall in den heutigen Diskussionen über die Legalität von KI-generierter Musik auf Streaming-Plattformen und die Einführung entsprechender Urheberrechtsgesetze.

Zuletzt tauchte im Internet ein neuer Trennungssong auf, der die Stimme von Taylor Swift nutzt und von KI generiert wurde. Er imitiert, wie ihr Song klingen könnte, nachdem ihre angebliche neue Beziehung in der Zukunft auseinandergefallen ist. Die Texte wurden angeblich von einem menschlichen TikTok-Benutzer namens Will King verfasst, wurden jedoch von einem anderen Benutzer mithilfe von Audio-Bearbeitungssoftware und Tools weiterbearbeitet, um die endgültige KI-generierte Version des Songs zu erstellen.

Nach nur einem Tag auf YouTube erzielte der Song fast 60.000 Aufrufe und erhielt größtenteils positive Bewertungen, wobei Zuschauer vorschlugen, den Song auch auf anderen Streaming-Plattformen zu veröffentlichen.

Einfluss der KI-Stimmenklonung auf das Leben von Musiker*innen

1. Abnahme des Werts menschlich erzeugter Arbeit

Unabhängig davon, wie extrem talentiert, erfahren und geschickt sie ist, würde Swift höchstwahrscheinlich eine gewisse Zeit benötigen, um den Song fertigzustellen (oder ihren eigenen Song über ihr eigenes Leben ohne Einfluss von anderen zu schreiben). Vergessen wir auch nicht die finanzielle Investition, die nötig wäre, um den Song aufzunehmen und zu produzieren. Letztendlich würde dies auf alle Musiker*innen zutreffen, die eine erhebliche Zeit, Geld und angemessene Werkzeuge benötigen würde, um Musik für die Veröffentlichung vorzubereiten.

Ein ideales KI-Tool würde nur eine Anfrage, einen Klick und maximal einige Minuten benötigen, um den Song zu schreiben, zu produzieren und die Vocals dafür zu generieren. Heutzutage würde man realistischerweise mehr als ein KI-Tool benötigen, um den Song von Grund auf zu erstellen, aber selbst dann würde der kreative Prozess billiger, weniger zeitaufwendig und zugänglicher als der von Menschen sein.

Das soll keineswegs menschenerzeugte Arbeit verurteilen und KI um jeden Preis verteidigen, aber letztendlich könnte dies für bestimmte Personen in der Musikindustrie zu einem Gedankenprozess werden, wenn keine Regulierungen und Beschränkungen festgelegt werden. Dadurch könnten Musikproduktion und -konsum von KI-generierten Tracks dominiert werden, und menschengemachte Musik könnte in den Hintergrund treten.

Zusätzlich dazu, dass die KI-Stimmenklontechnologie sich ständig verbessert und allmählich die Kunst der Nachahmung beherrscht, könnten auch Fans weniger dagegen sein, KI-generierte Musik anstelle des Originalwerks des Künstlers zu kaufen. Dies zeigt sich anhand der oben genannten Fälle. Sowohl die Songs von Drake & The Weeknd als auch von Taylor Swift haben immense Popularität erlangt, und Fans fordern, dass die Songs fertiggestellt und auf Streaming-Plattformen veröffentlicht werden. Dies könnte letztendlich zu einem Rückgang der Musikverkäufe, Verlust von Streams und somit zu erheblichen Einnahmeeinbußen für Künstler führen.

Einige behaupten, dass solche Veränderungen auch Auswirkungen auf Live-Auftritte haben könnten, während andere betonen, dass KI niemals die menschliche Verbindung ersetzen oder sogar imitieren kann, die ein wesentlicher Bestandteil jedes Konzerts ist. Das laufende ABBA Voyage Virtual Concert Residency in London, das voraussichtlich bis Ende 2024 dauern wird, könnte darauf hinweisen, dass diese Sorgen berechtigt sind. Der virtuelle Auftritt findet jedoch nur statt, weil sich die originalen Bandmitglieder entschieden haben, nicht mehr auf Tour zu gehen.

2. Identitätsdiebstahl

Die Stimmenklonung könnte nicht nur von anderen genutzt werden, um Musik mit deinem geklonten Gesang zu verkaufen (und dabei dein Talent und deine Leistungsfähigkeiten zu zeigen), sondern auch, um deine Identität zu stehlen und deine Stimme in Situationen zu verwenden, in die du nicht involviert sein möchtest. Dies könnte über den Bereich der Musikschöpfung hinausgehen und verschiedene betrügerische Aktivitäten umfassen.

Man könnte argumentieren, dass dies nur Künstlern passieren könnte, die weltweite Berühmtheit und kommerziellen Erfolg genießen. Mit der leicht zugänglichen Technologie könnte jedoch wirklich jeder mit einer Stimme betroffen sein. Die Konsequenzen könnten brutal sein, insbesondere in der heutigen Ära von Social Media, großer technologischer Fortschritte (einschließlich Deepfakes) und übermäßigem Teilen von Informationen, wo Authentizität und Wahrheit schwieriger zu erkennen sind und kleinste Verfehlungen (ob wahr oder nicht) schwer bestraft werden können.

Letztendlich könnte dies zu physischem und psychischem Schaden für Musiker, Fans und im Falle von betrügerischen und kriminellen Fällen auch für die Öffentlichkeit führen. Menschen können leicht manipuliert werden und werfen anderen Schatten zu oder "canceln" sie für Dinge, die sie vielleicht nicht einmal begangen haben.

3. Neue kreative und innovative Möglichkeiten

Es ist wichtig zu beachten, dass die Stimmenklonung sowie andere KI-Technologien nicht zwangsläufig schlecht sind. Sie können als Quellen neuer Möglichkeiten für Künstler*innen und Mittel zur Verbesserung ihrer Kunst betrachtet werden. Durch den Einsatz von KI-Tools können Musiker neue Wege und Formen finden, sich auszudrücken, indem sie bisher unentdeckte Klänge, Instrumente und Synergien wählen.

Bei Konzerten und anderen Live-Auftritten können KI-Tools als leistungsstarkes Unterhaltungsmittel dienen und einzigartige Erlebnisse schaffen, ohne notwendigerweise den Hauptkünstler zu ersetzen. Eine solche Show könnte große Aufmerksamkeit auf sich ziehen, was zu einem weiteren Wachstum des Publikums und einer Steigerung der Ticketverkäufe führen könnte.

Zusätzlich dazu könnte die KI-Technologie mehr Menschen ermöglichen, ihre Musik unabhängig zu produzieren und zu veröffentlichen, wodurch die finanzielle Abhängigkeit von Plattenlabels verringert wird und die Musikindustrie allmählich umgestaltet wird (sowie die Art und Weise, wie Menschen ihre Leidenschaft für Musik zu einem professionellen Beruf machen).

Die ultimative Wahrheit über technologische Entwicklungen ist, dass sie (fast immer) zunächst darauf abzielen, bestehende menschliche Fähigkeiten und Kreativität zu verbessern und zu ergänzen, nicht sie zu ersetzen. Das ist jedoch nur möglich, wenn relevante Urheberrechtsgesetze und Vorschriften erlassen werden. Und wie steht es um die aktuellen Urheberrechtsgesetze und die Verwendung von KI, könnten Sie fragen? Schauen wir uns das an.

DALL E 2023 10 12 15 15 29 a robot who sings

Stimmenklonung durch KI und Urheberrechtsschutz menschlicher Arbeit

Wir beginnen damit zu sagen, dass die KI-Technologie seit Jahren in Entwicklung ist, es jedoch so wirkt, als ob individuelle Tools und Plattformen über Nacht zu einem integralen Bestandteil unseres täglichen Lebens geworden sind. Eines Tages hatten wir keine Ahnung, was ChatGPT war, und am nächsten Tag haben wir es aktiv in der Arbeit, in Schulen und auch in unserem Privatleben genutzt. Es ist daher kein Wunder, dass wir aus gesetzlicher Sicht mit diesen schnellen Veränderungen noch Schritt halten müssen.

Aktuelle Urheberrechtsgesetze konzentrieren sich fast ausschließlich auf den Schutz 'fixierter', greifbarer kreativer Ausdrücke wie Melodien, Texte, Tonaufnahmen von Liedern und Kunstwerke. 'Unfassbare' Elemente, einschließlich der menschlichen Stimme, bleiben weitgehend ungeschützt. Insbesondere in den USA ist der eigentumsrechtliche Schutz der menschlichen Stimme nicht im föderalen Urheberrechtsgesetz enthalten, da die Stimmgeräusche nicht als 'fixiert' betrachtet werden, wie es das Gesetz verlangt.

Zusätzlich erlauben 'faire Richtlinien' in den USA die begrenzte Verwendung urheberrechtlich geschützten Materials ohne die Notwendigkeit der Erlaubnis der Urheberrechtsinhaber. Allerdings wurde bisher nicht definiert, was eine 'begrenzte faire Verwendung' ist, insbesondere im Kontext der KI-Technologie.

Die EU hat hingegen Anreize gezeigt, das Urheberrecht zu reformieren, um die entsprechenden Probleme in der virtuellen Welt zu lösen. Im Jahr 2021 brachte die Europäische Kommission das AI-Gesetz heraus, das die Nutzung und Entwicklung von KI sowohl durch Leitlinien für Entwickler als auch Benutzer regeln soll. Obwohl der aktuelle Entwurf des AI-Gesetzes Transparenz und Datenverwaltung vorschreibt, wurde er dafür kritisiert, generative KI Anwendungen in den Bereichen Video- und Audioinhalt nicht ausreichend anzusprechen.

Eine solche Beschwerde wurde von der UVA, einer globalen Koalition von 35 europäischen Synchronsprecher-Gilden, Verbänden und Gewerkschaften, vorgebracht. Diese hat sich mit Organisationen aus der Schweiz, den USA und Asien zusammengeschlossen, um sicherzustellen, dass der Einsatz von KI in der Synchronisation und Sprachaufnahme keinen Schaden an künstlerischem Erbe und menschlicher Kreativität verursacht.

Dies geschah letztendlich, nachdem berichtet wurde, dass einige Skyrim-Mods (ein Videospiel) KI verwendet haben, um pornografischen Inhalt mit den Stimmen der Charaktere ohne Zustimmung der Schauspieler zu erstellen. Wie später gezeigt wurde, ist eine solche Praxis angeblich nicht durch die jeweiligen Urheberrechtsgesetze verboten.

Sind Ähnlichkeitsgesetze die Lösung?

Während der Hauptfokus auf dem Schutz auf Urheberrechtsgesetze gerichtet ist, haben viele Insider der Musikindustrie die Bedeutung sogenannter Ähnlichkeitsgesetze betont. Ihrer Meinung nach basiert die Ähnlichkeit eines Künstlers auf seiner Stimme, und solche Gesetze würden Musiker vor unautorisiertem Gebrauch ihrer Stimme schützen.

Insider haben enthüllt, dass geklonte Inhalte oder Inhalte, die wie die Ausgabe eines bestimmten Künstlers klingen, insofern heikel sind, als dass sie nicht aus einer direkten Kopie des tatsächlichen Schaffens des Künstlers bestehen. Man könnte behaupten, dass ein geklonter Song (oder ein Song mit KI-generierten Stimmen) nur eine Abwandlung des Originals ist, was für Urheberrechtsinhaber ein sehr schwerwiegender Einwand ist. Schließlich gab es schon mehrere Fälle von Künstlern, die Ideen anderer Menschen ausgeliehen haben, um Musik zu komponieren und Songs zu schreiben.

Allerdings wurden die Ansprüche bezüglich Urheberrechtsverletzungen in den bisherigen Urheberrechtsklagen der Musikindustrie im Wesentlichen auf die Melodie der Lieder gerichtet - nicht darauf, dass jemand die Stimme eines anderen imitiert oder den allgemeinen Stil. Die grundlegende Idee der Ähnlichkeitsgesetze ist, dass der Schöpfer nicht nur die entsprechenden Rechte an seinem Werk hat, sondern auch das Recht hat, seinen Ruf zu kontrollieren und seine Identität zu monetarisieren.

In der Vergangenheit drehten sich die bekanntesten Gerichtsverfahren im Zusammenhang mit Ähnlichkeits- und Persönlichkeitsrechten um die unbefugte Verwendung von individuellen Bildern und anderem Inhalt in Videospielen. Dies war auch der Fall bei der US-amerikanischen Band No Doubt, die Klage gegen den Videospielhersteller Activision einreichte und behauptete, dass ihre Ähnlichkeit dazu benutzt wurde, Musik in dem Spiel Band Hero ohne ihre Zustimmung zu spielen.

Ob Ähnlichkeitsgesetze der Schlüssel zum rechtlichen Schutz von Musikern gegen unautorisierte KI-generierte Inhalte sind, bleibt eine Frage, da weitere Diskussionen zu diesem Thema stattfinden müssen. Was bereits klar ist, ist jedoch, dass ein moderner rechtlicher Ansatz, der darauf abzielt, mit der sich ständig weiterentwickelnden KI-Landschaft in der Musik umzugehen, eine absolute Notwendigkeit ist, um Werke, Talente und Identitäten von Künstler*innen zu schützen.