Audio Deepfake | Jay Z spicht Hamlet, Dylan singt "Baby One More Time" und US-Präsidenten tragen "Fuck the Police" vor. - Atomlabor Blog

Jay Z rappt Shakespeare,

Dylan singt einen Britney Spears Song und 6 amerikanische Präsidenten sprechen N.W.A.s "Fuck The Police" nach. Was ist da los? Nun die künstliche Intelligenz kann nicht nur Bilder geschickt manipulieren, sondern durch neuronale Netzwerke auch Stimmen nachmachen und neue bzw. andere Inhalte vortragen lassen, als die Besitzer der Stimme es vielleicht vorbringen würden. Das Ganze nennt man dann Audio Deepfake und das bedeutet, sie sind vollständig computergeneriert, wobei ein Text-2-Speech Element verwendet wird. Die Sprachmuster wurden vorher ausgelesen und durch KI auf den neuen Text übertragen. Verrückte Welt oder? Dabei wurden komplexe Reden, der jeweiligen Protagonisten, im Vorfeld in ein Programm eingelesen und in einzelne Fragmente zerlegt. Das hört sich "out of PC" schon sehr gut an und kann durch manuelle Bearbeitung noch auf ein realistischeres Niveau gebracht werden. Beängstigend.

Urheberrecht oder nicht, das ist hier die Frage.

Zwei der Videos mit der synthetisierten Stimme von Jay Z. wurden durch einen Urheberrechtsanspruch seiner Plattenfirma vom Netz genommen, aber wieder eingestellt. Wie Andy Baio (Technik Autor u.a. von WIRED) anmerkt, sind diese Deepfakes daher auch rechtlich interessant:

Mit diesen Takedowns erhob Roc Nation zwei Ansprüche:
1. Diese Videos stellen eine verletzende Nutzung des Urheberrechts von Jay-Z dar.
2. Die Videos "benutzen unrechtmäßig eine KI, um die Stimme des Mandanten zu imitieren".

Aber ist eines von beiden wahr? Denn mit einer so neuen Technologie befinden wir uns in unerprobten juristischen Gewässern. Die Originalstimme von Jay-Z wurde ja nicht benutzt, sondern eine computergenerierte Stimme. Die Audioclips der Vokalsynthese wurden durch das Training eines Modells mit einem großen Umfang von Hörbeispielen und Texttranskriptionen erstellt. In diesem Fall speiste man Jay-Z-Lieder und -Text in Tacotron 2 ein, eine von Google entwickelte neuronale Netzwerkarchitektur.

Handelt es sich also im eigentlichen Sinne um eine Urheberrechtsverletzung? Ich würde sagen, nein.

Denn ein Stimmimitator darf ja auch Stars imitieren, warum also kein Computerprogramm? Das wird juristisch noch eine sehr interessante Sache werden und kann mal wieder positiv und negativ Auswirkungen haben - halt wie bei jedem technischen Fortschritt. Jemanden Dinge in den Mund legen, ist nahezu für jeden möglich, der ein wenig technisch versiert ist.

Wie fortgeschritten diese Technik schon ist, kann man sich auf dem aktuellen Google-Paper anhören. Die Stimmausgabe ist mittlerweile schon sehr natürlich geworden. Betonungen sitzen, Stimmhöhen und Pausen sind perfekt gesetzt. Es ist noch nicht lange her, da hat Google im eigenen Sprachassistenten "Google Assistant", welcher in den hauseigenen Smart-Home-Equipments zum Einsatz kommen, das Sprachmodell geupdatet und in Deutschland jeweils eine männliche und eine neue weibliche Stimme veröffentlicht. Der Output im Vergleich zur vorherigen Version war schon beeindruckend. Wohin die Reise geht, kann man sich also ausmalen.

Wenn man jetzt solche Vocals hat, dann fehlt eigentlich nur der passende Beat und schon hat man neue Songs am Start, ohne selbst tätig werden zu müssen. Wird das die Zukunft der Musik?