Geschätzte Lesezeit: 2 Minuten
Microsoft DeepSinger: KI lernt mehrsprachigen Gesang im Internet

Microsoft DeepSinger: KI lernt mehrsprachigen Gesang im Internet  ·  Quelle: Gerd Altmann / Pixabay

Sprachsynthese ist im Grunde so alt wie Computer- und Softwaretechnologie. Irgendwann wurde den künstlichen Stimmen dann noch das Singen beigebracht und mit Anwendungen wie Auto-Tune schließlich der menschliche Gesang „perfektioniert“. In den letzten Jahren hielten dann maschinelles Lernen (Stichwort: Künstliche Intelligenz) und vergleichbare Methoden Einzug in die Musikwelt. Künstlicher Gesang ist also nicht wirklich etwas komplett Neuartiges, wird aber konsequent weiter erforscht und verfeinert. Forscher von Microsoft arbeiten aktuell an dem Projekt DeepSinger, das sich ebenfalls mit artifiziellem Gesang beschäftigt. DeepSinger lernt von Songs, die das System im Internet findet.

Microsoft DeepSinger

Mit Data-Mining sorgt das SVS (Singing Voice Synthesis) System für permanenten Nachschub von Lehrmaterial. Musik-Websites dienen als Quelle, welche genau das sind, wollen die Wissenschaftler nicht verraten. Ich tippe mal, dass YouTube auf jeden Fall dabei ist – vielleicht hat DeepSinger sogar schon ein Titel von deiner Band benutzt! Eine Live-Aufnahme wird es aber definitiv nicht sein, denn beim Suchen filtert das System solche Stücke durch Analyse der Metadaten bereits im Vorfeld heraus. Auch mehrstimmige Gesänge kommen nicht in die Auswahl.

Für die Analyse des Materials muss DeepSinger einige Sachen erledigen. Dazu gehört als erster Schritt das Trennen von Gesang und Hintergrundmusik. Dafür benutzt das System den Wissenschaftlern zufolge Spleeter, eine Open-Source-Anwendung, die sich genau auf diese Aufgabe konzentriert. Außerdem normalisiert DeepSinger den extrahierten Gesang auf eine einheitliche Lautstärke. Als weiteren Schritt muss das SVS-System Text und Vocals präzise aneinander ausrichten. Dann können die Daten gefiltert und das Modellieren des Gesangs (basierend auf FastSpeech) gelernt werden. Klingt irgendwie auch ein bisschen gruselig, oder?

Im Gegensatz zu bisherigen Ansätzen, müssen im Vorfeld keine Sängerinnen und Sänger in ein Studio geholt und aufwendig aufgenommen werden. Das erspart Kosten. Weiterhin ermöglicht SVS mehrsprachigen Gesang – aktuell unterstützt das System die Sprachen Englisch, Chinesisch und Kantonesisch.

Auf GitHub gibt es bereits Hörproben der Ergebnisse, die schon ziemlich überzeugend klingen – wenn diese wieder zusammen mit Musik laufen würden. Der pure „Gesang“ klingt so ein bisschen wie eine schlechte MP3. Vielleicht werden diese Glitches in der Stimme ja bald zu einem neuen Stilmittel?

Ich bin schon gespannt, was uns DeepSinger zukünftig beschert. Deep Fakes bekannter Künstler und Künstlerinnen gibt es ja jetzt schon, demnächst wird da bestimmt noch mehr kommen. Anwälte können sich jetzt schon die Hände reiben. Vielleicht erwarten uns bald neue Songs von Frank Sinatra oder Freddy Mercury? In der Spiele-Branche kann ich mir diese Technologie auch sehr gut vorstellen. Produkte wie Vocaloid werden sich hier bestimmt auch einiges abgucken. Wäre auf jeden Fall schön, wenn auch DeepSinger Open Source bleibt, wenn schon so viele Lösungen aus diesem Bereich zum Einsatz kommen.

Weitere Infos