Die Anfänge der KI-gestützten Musikproduktion: Die Zukunft der generativen KI im Blick

Die rasante Entwicklung der generativen künstlichen Intelligenz, insbesondere durch das Aufkommen von Diensten wie Udio, wird die Musikproduktionslandschaft revolutionieren. Da diese Technologien immer zugänglicher und ausgereifter werden, haben sie das Potenzial, die Musikproduktion zu demokratisieren und die Rolle der menschlichen Schöpfer neu zu gestalten.

Michael G Wagner Michael G Wagner
Veröffentlichung
Lesezeit
12 Minuten
Artikel anhören
Loading the Elevenlabs Text to Speech AudioNative Player...

Ich bin spät dran mit der Einreichung dieses Artikels. Als ich ursprünglich gebeten wurde, etwas für Sounding Future zu schreiben, war ich sehr begeistert. Ich trage gerne zur Schaffung von Wissen und Verständnis bei. Schließlich bin ich Lehrer an einer forschungsintensiven Universität, und das schon fast mein ganzes Leben lang. Und jetzt komme ich zu spät, um meine Arbeit einzureichen.

Und ja, natürlich gibt es die üblichen Verdächtigen: ein extrem anspruchsvoller Job, die Tatsache, dass ich mich dummerweise dazu entschlossen habe, einen YouTube-Kanal über räumliches Audio zu betreiben, für den ich mich zwinge, jede Woche ein neues Video zu erstellen. Und dann sind da noch all die persönlichen Dinge, die erledigt und organisiert werden müssen. Wie wahrscheinlich alle von Ihnen da draußen, mache ich eine Menge Dinge und manchmal fallen Dinge durch die Maschen.

Aber dieses Mal ist der Grund für meine Verspätung ein anderer, und er ist so tiefgreifend, wie er nur sein kann. In diesem Augenblick geschehen Dinge, die die Musik für immer verändern werden, und zwar auf eine Weise, die wir noch nicht einmal ansatzweise verstehen. Und obendrein geschehen sie in einer Geschwindigkeit, wie wir sie noch nie erlebt haben. Diese Entwicklungen werden einen massiven Einfluss auf alles haben, was wir tun, sowohl beruflich als auch persönlich.

Ich spreche natürlich über den Aufstieg der generativen künstlichen Intelligenz. 

Udio ist hier

Und so geht es los: In den letzten Tagen konnte ich mich nicht dazu durchringen, die Verbindung zu udio.com zu unterbrechen. Für diejenigen unter Ihnen, die diesen Dienst noch nicht kennen: Udio ist eine neue Plattform zur Musikproduktion, die generative künstliche Intelligenz nutzt, um Musik mit sehr wenig menschlichem Zutun zu produzieren.

Udio ist nicht das erste System dieser Art. Vor nicht allzu langer Zeit machte ein anderer Dienst namens Suno die Runde, der recht gut funktioniert. Außerdem gibt es all die experimentellen KI-Musiksysteme, die es schon seit Jahrzehnten gibt. Nicht zu vergessen die Systeme, die derzeit von den großen KI-Unternehmen und -Organisationen entwickelt werden, darunter OpenAI, Stability AI und ähnliche.

Aber Udio ist anders. Es wurde nicht nur von einer Gruppe äußerst fähiger Ingenieure und Musikprofis gegründet und von einer der einflussreichsten Risikokapitalfirmen unterstützt, sondern ist auch extrem gut in dem, was es tut. Die Qualität der Musik, die Udio produziert, ist zwar nicht perfekt, aber etwas, das ich im Bereich der generativen künstlichen Intelligenz frühestens in 5 Jahren erwartet hätte.

In den letzten paar Tagen sahen meine Abende in etwa so aus: Ich setze mich an meinen Computer, um meine E-Mails zu checken. Dann beschließe ich, Udio zu öffnen, um ein paar Minuten herumzuspielen – und etwa 5 Stunden später habe ich mit ein bisschen Remixing und Remastering (dazu später mehr) einen Track, der besser und professioneller klingt als alles, was ich je zuvor gemacht habe.

An dieser Stelle sollte ich vielleicht ein wenig über meinen Hintergrund erzählen, denn obwohl ich mich als leidenschaftlichen "Schlafzimmerproduzenten" bezeichnen würde, bin ich kein Profi im herkömmlichen Sinne.

Mein Fachwissen liegt eher im Bereich der digitalen Medien im Allgemeinen. Ich begann als angewandter Mathematiker, wurde dann zum Informatiker und von dort aus zum Ausbilder für Spieldesign und schließlich durch Game-Audio zu dem, was manche für einen Experten für räumliches Audio halten. Irgendwo in meinem Lebenslauf finden Sie sogar Forschungspublikationen über künstliche Intelligenz, die ich während meiner Informatikzeit vor fast 30 Jahren geschrieben habe.

Mit anderen Worten: Ich weiß zwar eine Menge, aber meine praktischen Fähigkeiten in der Musikproduktion reichen ganz sicher nicht an die Fähigkeiten professioneller Produzenten und Toningenieure heran, die ihr Handwerk über Jahre, wenn nicht Jahrzehnte entwickelt haben.

Aber genau an dieser Stelle wird es interessant. Bei meinem Kenntnisstand ist Udio ein echter Game-Changer. Es ermöglicht mir, Songs zu erstellen, die für meinen persönlichen Geschmack "gut und professionell genug" klingen. Und das kann ich als einigermaßen qualifizierter Hobby-Produzent am Ende eines arbeitsreichen Tages tun. 

Disruptive Innovation

Man könnte sagen, dass Udio der erste Dienst ist, der wirklich in der Lage ist, die Musikproduktion vollständig zu demokratisieren. Sicher, es mangelt noch an Qualität, und daher kann es nicht mit professionell produzierter Musik mithalten. Aber in einer Zeit, in der die meisten Menschen Songs auf ihren mobilen Geräten hören, oft sogar ohne Kopfhörer, ist es wichtig, sich daran zu erinnern, dass es für die meisten Musikkonsumenten einfach gut genug ist.

In seinem bahnbrechenden Werk "The Innovator's Dilemma" beschreibt der Harvard-Business-School-Forscher Clayton Christensen das Konzept der disruptiven Innovation als "einen Prozess, bei dem ein Produkt oder eine Dienstleistung zunächst in einfachen Anwendungen am unteren Ende eines Marktes Fuß fasst und dann unaufhaltsam in den Markt vordringt und schließlich etablierte Wettbewerber verdrängt".1

Udio ist das perfekte Beispiel dafür, wie sich generative künstliche Intelligenz im Bereich der Musikproduktion am unteren Ende des Marktes etabliert. Aber das ist erst der Anfang. Es besteht kaum ein Zweifel daran, dass sich diese Innovationen so unaufhaltsam auf dem Markt ausbreiten werden, wie Christensen es vorhersagt, und schließlich Konkurrenten und sogar aktuelle Produktionsverfahren verdrängen.

Aus diesem Grund habe ich beschlossen, meinen ursprünglichen Plan, über räumliches Audio zu schreiben, aufzugeben und stattdessen über generative künstliche Intelligenz in der Musikproduktion zu sprechen. Mein Plan ist es, dies auf eine Art und Weise zu tun, die für jeden leicht zugänglich ist, unabhängig von seinen Vorkenntnissen über künstliche Intelligenz oder sogar Computer im Allgemeinen. Denn während die zugrundeliegende Mathematik komplex ist, sind es die Grundprinzipien dieser Systeme nicht. 

Neuronale Netze

Im Mittelpunkt der neu entstehenden Technologie der künstlichen Intelligenz stehen die Prinzipien der neuronalen Netze. Die Grundlagen sind denkbar einfach. Ein neuronales Netz zielt darauf ab, die Funktionsweise unseres Gehirns zu imitieren, insbesondere wie Neuronen mit anderen Neuronen interagieren, um Informationen in unserem Kopf zu verarbeiten. Einfach ausgedrückt ist ein Neuron in einem neuronalen Netz ein Rechenobjekt, das eine Eingabe empfängt und diese Eingabe an andere Neuronen im Netz weitergibt.

Es führt dazu sehr einfache Berechnungen durch und gibt dabei unterschiedliche Mengen der eingehenden Informationen an andere Neuronen weiter. Wie viel Information weitergegeben wird, wird durch die Parameter des Neurons bestimmt.

Informationen, die in das neuronale Netz eingegeben werden, werden zunächst in digitale Informationen umgewandelt, die dann an die Neuronen der Eingabeschicht des Netzes weitergeleitet werden. Die Informationen werden dann durch das Netz geleitet und erzeugen schließlich eine Ausgabe an den Neuronen, die die Ausgabeschicht bilden.

Die Qualität der Ausgabe hängt natürlich von den Parametern der Neuronen ab. Wenn die Parameter willkürlich gewählt werden, wird die Ausgabe höchstwahrscheinlich wenig Sinn ergeben. Wenn die Parameter jedoch sorgfältig gewählt werden, ist zu erwarten, dass das neuronale Netz die Eingabe sinnvoll verarbeitet.

Training ist dann der Prozess, durch den diese Parameter für eine bestimmte Aufgabe optimiert werden, die das neuronale Netz lösen soll. Einfach ausgedrückt: Während des Trainings erhält das Netz viele Eingaben zusammen mit den erwarteten Ausgaben, und die Parameter werden dann so angepasst, dass bei der nächsten Präsentation einer dieser Eingaben das Netz etwas produziert, das der erwarteten Ausgabe nahekommt.

Es gibt verschiedene Begriffe, die für diesen Prozess verwendet werden. Je nachdem, wie der Prozess aufgebaut ist, wird er als Maschinelles Lernen, Deep Learning oder etwas Ähnliches bezeichnet. Für diese Diskussion ist es nicht notwendig, die Nuancen zwischen diesen Begriffen zu verstehen. Es reicht aus, die grundlegende Funktionsweise eines neuronalen Netzes zu verstehen und wie es trainiert wird.

Es gibt einen wichtigen Aspekt, den ich hier hinzufügen muss. Während des Trainingsprozesses werden die Parameter des Netzes angepasst, aber die Daten, die zu diesem Zweck verwendet werden, werden nie in das Netz eingespeist. Bei korrektem Training ist das Netz in der Lage, eine Eingabe zu verarbeiten und eine entsprechende Ausgabe zu erzeugen, aber weder die Eingabe noch die Ausgabe werden in den Parametern des Netzes gespeichert.

Aber neuronale Netze gibt es schon sehr lange, was ist also das Besondere daran und warum sind sie plötzlich so wichtig geworden?

Die Antwort auf diese Frage ist eine Frage des Maßstabs und der Entwicklung, die die Computer im Laufe der Jahrzehnte genommen haben. Als ich vor fast 30 Jahren mit neuronalen Netzen arbeitete, konnten wir neuronale Netze mit ein paar Dutzend Parametern simulieren. Das Problem, das uns daran hinderte, die Skalierbarkeit zu erhöhen, waren die mathematischen Berechnungen, die zur Anpassung der Parameter während des Trainings erforderlich waren. Damals waren die Computer nicht schnell genug, um während des Trainings mit einer größeren Anzahl von Parametern zu arbeiten.

Dies hat sich drastisch geändert. Moderne neuronale Netze arbeiten mit Milliarden und manchmal Billionen von Parametern. ChatGPT beispielsweise arbeitet Berichten zufolge auf der Grundlage eines Netzwerks mit 1,7 Billionen Parametern. Im Vergleich dazu benötigt das menschliche Gehirn nach unseren derzeitigen Erkenntnissen etwa 700 Billionen Parameter, um seine Arbeit zu verrichten. Mit anderen Worten: Die Komplexität von neuronalen Netzen erreicht allmählich den prozentualen Bereich der Komplexität des menschlichen Gehirns.

An dieser Stelle muss ich hinzufügen, dass die Geschichte etwas komplizierter ist, als wenn man nur die Anzahl der Parameter vergleicht. Das menschliche Gehirn ist auch in Bezug auf die Art und Weise, wie die Neuronen miteinander verbunden sind, wesentlich komplexer. Und wir müssen uns auch bewusst sein, dass wir noch nicht vollständig verstehen, wie genau das Gehirn Informationen verarbeitet. Aber es ist dennoch bemerkenswert, dass neuronale Netze diesen Grad an Komplexität erreicht haben. 

Sushi – Japan + Germany = Bratwurst

Die vielleicht größte Triebkraft in der sich ständig beschleunigenden Entwicklung der generativen künstlichen Intelligenz ist die Entdeckung der Generative Pre-trained Transformers oder GPTs. Ich verwende hier absichtlich den Begriff "Entdeckung", denn obwohl wir offensichtlich sehr gut verstehen, wie diese Technologie funktioniert, wissen wir nur sehr wenig darüber, warum sie funktioniert. Sie funktioniert einfach, und zwar extrem gut.

Die Technologie selbst ist sehr mathematisch und kann im Rahmen dieses Artikels nicht erklärt werden. Der Mathematik-YouTuber 3blue1brown [3] hat kürzlich ein sehr gut gemachtes Einführungsvideo über die Funktionsweise von GPTs veröffentlicht. Ich empfehle jedem, der daran interessiert ist, mehr zu erfahren, sein Video anzusehen. 

Video URL
But what is a GPT? Visual intro to transformers | Chapter 5, Deep Learning

Im Wesentlichen ist ein GPT ein extrem großes neuronales Netz, das in der Regel viele Milliarden Parameter enthält und eine ganz besondere Netzstruktur aufweist. Es funktioniert durch die Umwandlung von Inhalten in kontextbezogene Informationen. Dazu zerlegt es zunächst alle Inhalte, die es empfängt, in kleine Inhaltseinheiten, sogenannte Token, und wandelt diese Token dann in eine mathematische Darstellung um, die den Kontext dieser Token in irgendeiner Weise einschließt.

In dem obigen Video gibt 3blue1brown ein Beispiel, das dies meiner Meinung nach am besten erklärt. Es stellt sich heraus, dass, wenn man die mathematische Beschreibung des Begriffs "Sushi" in einem gut trainierten GPT nimmt, die mathematische Beschreibung von "Japan" abzieht und die mathematische Beschreibung von "Deutschland" hinzufügt, man am Ende eine mathematische Beschreibung von etwas erhält, das der mathematischen Beschreibung von "Bratwurst" erstaunlich nahekommt.

Das GPT hat irgendwie gelernt, wie diese Konzepte miteinander zusammenhängen. Es ist wichtig zu wiederholen, dass dies unerwartet ist und wir derzeit nicht wissen, warum ein GPT dazu in der Lage ist. Wir wissen, wie es das tut, aber nicht warum.

GPTs können als fortgeschrittene Mustererkennungssysteme betrachtet werden. In ihrer häufigsten Anwendung werden sie verwendet, um fortgeschrittene Chatbots wie ChatGPT oder Claude zu erzeugen. Die Funktionsweise besteht darin, dass das GPT die Eingabeaufforderung zusammen mit einer so genannten Systemaufforderung verarbeitet, die zusätzliche, für den Benutzer unsichtbare Informationen liefert, und das GPT dann einfach versucht, das wahrscheinlichste nächste Wort zu identifizieren.

Sie tut dies dann wiederholt, Wort für Wort, und erzeugt so einen zusammenhängenden Text und Sinn. Und ja, wir wissen nicht genau, warum sie dazu in der Lage ist, und das ist ebenso erstaunlich wie rätselhaft.

Da GPTs den Kontext aus dem Inhalt extrahieren und dadurch die Bedeutung interpretieren können, finden sie in vielen kreativen Disziplinen Anwendung. Sie sind die zugrundeliegende Technologie, die viele generative KI-Systeme antreibt, darunter Systeme für Bilderstellung, Videoproduktion, Spieldesign, Animation und vieles mehr. Und, wie bei Udio zu sehen, können sie auch in der Musikproduktion eingesetzt werden. 

Die aufkommende Ära des Content-Remixing

Womit wir wieder bei unserem Ausgangspunkt wären. Die Musik wird sich für immer verändern, und zwar in einer Weise, die wir noch gar nicht begreifen können. Aber was bedeutet das für die Menschen, die derzeit in diesem Bereich arbeiten?

Die bedauerliche Antwort ist, dass wir, da wir nicht vollständig verstehen, warum diese Technologie überhaupt funktioniert, auch nicht wirklich wissen, wo ihre Grenzen liegen und wie weit sie sich möglicherweise entwickeln kann. Eine Sache wird jedoch immer deutlicher. Und zwar, dass unabhängig davon, wie gut diese Systeme in Zukunft funktionieren werden, der Mensch immer das Bedürfnis haben wird, sich mit seiner Arbeit aus der Fülle der KI-generierten Artefakte hervorzuheben.

Je mehr Menschen Zugang zu KI-gestützten Produktionsworkflows wie dem von Udio haben werden, desto wertvoller werden Menschen mit fortgeschrittenen Fähigkeiten. Und diese fortgeschrittenen Fähigkeiten werden differenziertes und kritisches Denken erfordern. Künftige Fachleute werden verstehen müssen, wo die KI gut war und wo sie versagt hat.

Und vor allem müssen sie verstehen, wie etwas, was die KI nicht geschafft hat, mit traditionellen Methoden behoben werden kann. Ich habe vor kurzem ein YouTube-Video veröffentlicht, in dem ich dies als die "Rückkehr des wahren Künstlers" bezeichnet habe.

Die Art und Weise, wie ich Udio verwende, unterscheidet sich von der, wie die meisten Leute es jetzt verwenden. Ich erstelle nicht einfach einen Musiktitel und poste ihn dann in den sozialen Medien. Stattdessen entwickle ich eine musikalische Idee mit Udio als meinem KI-Kollaborateur. Wenn Udio und ich fertig sind, lade ich die Audiodaten herunter, übertrage sie in meine DAW und mische sie nach meinen Vorstellungen ab, um das Endergebnis zu erhalten.

In seiner aktuellen Version hat Udio noch viele Probleme. Es verwässert in der Regel Transienten, neigt dazu, bei der Entwicklung einer musikalischen Idee inkonsistent zu sein, und erzeugt manchmal störende digitale Artefakte, um nur einige zu nennen. Aber all diese Probleme lassen sich durch Nachbearbeitung und Post-Processing beheben.

Und das gilt nicht nur für KI-generierte Musik. Das Gleiche gilt auch für alles andere im Bereich der generativen KI, seien es Texte, Bilder, Videos, Musik oder andere Formen von Medien, die durch generative künstliche Intelligenz erzeugt werden können. Je mehr traditionelle Produktionsabläufe durch künstliche Intelligenz automatisiert werden, desto mehr werden wir in eine Ära übergehen, in der der Großteil unserer Arbeit aus dem Remixen und Remastering von Inhalten besteht, die durch KI generiert wurden.

Es ist klar, dass generative KI die Landschaft der Musikproduktion und vieler anderer kreativer Bereiche grundlegend umgestalten wird. Der Aufstieg von Diensten wie Udio deutet auf eine Zukunft hin, in der KI ein integraler Bestandteil des kreativen Prozesses wird und den Zugang zu leistungsstarken Werkzeugen demokratisiert und neue Ausdrucksformen ermöglicht.

Es ist jedoch wichtig zu erkennen, dass die Rolle der menschlichen Schöpfer nicht abnehmen, sondern sich vielmehr weiterentwickeln wird. Da die KI immer mehr schwere Arbeiten übernimmt, wird der wahre Wert der menschlichen Kunst in unserer Fähigkeit liegen, das von diesen Systemen erzeugte Rohmaterial zu kuratieren, zu verfeinern und neu zu mischen. Wir werden neue Fähigkeiten entwickeln und uns an neue Arbeitsabläufe anpassen müssen, aber damit werden wir auch ungeahnte Möglichkeiten des kreativen Ausdrucks freisetzen.

Der Weg, der vor uns liegt, ist ungewiss, aber eines ist klar: Die Zukunft der Musik wird durch das Zusammenspiel von menschlichem Einfallsreichtum und künstlicher Intelligenz geprägt sein.

Und diese Zukunft zeichnet sich bereits vor unseren Augen ab.

Michael G Wagner

Ich bin Professor für digitale Medien und Leiter der Abteilung für digitale Medien am Antoinette Westphal College of Media Arts & Design an der Drexel University. Derzeit bin ich auch Programmdirektor des PhD-Studiengangs "Digitale Medien" sowie des eSports-Nebenfachs für Studierende. Vor meiner Tätigkeit an der Drexel University hatte ich akademische Lehr-, Forschungs- und Managementpositionen an der Technischen Universität Wien, Österreich, am Department of Computer Science der Arizona State University, an der Donau-Universität Krems, Österreich, und an der KPH Wien/Krems, Österreich, inne, wo ich als Rektor tätig war. Meine Arbeit konzentriert sich auf Theorie und Praxis der pädagogischen Nutzung digitaler Medien, immersives Audio, Computerspiele und Blockchain-Technologie.

Originalsprache: English
Artikelübersetzungen erfolgen maschinell und redigiert.