Microsoft DeepSinger: KI lernt mehrsprachigen Gesang im Internet

15. Juli 2020 von Dirk | Geschätzte Lesezeit: 2 Minuten

Microsoft DeepSinger: KI lernt mehrsprachigen Gesang im Internet · Quelle: Gerd Altmann / Pixabay

Previous Next

Sprachsynthese ist im Grunde so alt wie Computer- und Softwaretechnologie. Irgendwann wurde den künstlichen Stimmen dann noch das Singen beigebracht und mit Anwendungen wie Auto-Tune schließlich der menschliche Gesang „perfektioniert“. In den letzten Jahren hielten dann maschinelles Lernen (Stichwort: Künstliche Intelligenz) und vergleichbare Methoden Einzug in die Musikwelt. Künstlicher Gesang ist also nicht wirklich etwas komplett Neuartiges, wird aber konsequent weiter erforscht und verfeinert. Forscher von Microsoft arbeiten aktuell an dem Projekt DeepSinger, das sich ebenfalls mit artifiziellem Gesang beschäftigt. DeepSinger lernt von Songs, die das System im Internet findet.

Microsoft DeepSinger

Mit Data-Mining sorgt das SVS (Singing Voice Synthesis) System für permanenten Nachschub von Lehrmaterial. Musik-Websites dienen als Quelle, welche genau das sind, wollen die Wissenschaftler nicht verraten. Ich tippe mal, dass YouTube auf jeden Fall dabei ist – vielleicht hat DeepSinger sogar schon ein Titel von deiner Band benutzt! Eine Live-Aufnahme wird es aber definitiv nicht sein, denn beim Suchen filtert das System solche Stücke durch Analyse der Metadaten bereits im Vorfeld heraus. Auch mehrstimmige Gesänge kommen nicht in die Auswahl.

Für die Analyse des Materials muss DeepSinger einige Sachen erledigen. Dazu gehört als erster Schritt das Trennen von Gesang und Hintergrundmusik. Dafür benutzt das System den Wissenschaftlern zufolge Spleeter, eine Open-Source-Anwendung, die sich genau auf diese Aufgabe konzentriert. Außerdem normalisiert DeepSinger den extrahierten Gesang auf eine einheitliche Lautstärke. Als weiteren Schritt muss das SVS-System Text und Vocals präzise aneinander ausrichten. Dann können die Daten gefiltert und das Modellieren des Gesangs (basierend auf FastSpeech) gelernt werden. Klingt irgendwie auch ein bisschen gruselig, oder?

Im Gegensatz zu bisherigen Ansätzen, müssen im Vorfeld keine Sängerinnen und Sänger in ein Studio geholt und aufwendig aufgenommen werden. Das erspart Kosten. Weiterhin ermöglicht SVS mehrsprachigen Gesang – aktuell unterstützt das System die Sprachen Englisch, Chinesisch und Kantonesisch.

Auf GitHub gibt es bereits Hörproben der Ergebnisse, die schon ziemlich überzeugend klingen – wenn diese wieder zusammen mit Musik laufen würden. Der pure „Gesang“ klingt so ein bisschen wie eine schlechte MP3. Vielleicht werden diese Glitches in der Stimme ja bald zu einem neuen Stilmittel?

Ich bin schon gespannt, was uns DeepSinger zukünftig beschert. Deep Fakes bekannter Künstler und Künstlerinnen gibt es ja jetzt schon, demnächst wird da bestimmt noch mehr kommen. Anwälte können sich jetzt schon die Hände reiben. Vielleicht erwarten uns bald neue Songs von Frank Sinatra oder Freddy Mercury? In der Spiele-Branche kann ich mir diese Technologie auch sehr gut vorstellen. Produkte wie Vocaloid werden sich hier bestimmt auch einiges abgucken. Wäre auf jeden Fall schön, wenn auch DeepSinger Open Source bleibt, wenn schon so viele Lösungen aus diesem Bereich zum Einsatz kommen.

Weitere Infos

5 Antworten zu “Microsoft DeepSinger: KI lernt mehrsprachigen Gesang im Internet”

Lornik sagt:

15. Juli 2020 um 16:15

Na mal sehen. da ja 90% Prozent der Musik ja heute nur noch aus „Rap“ besteht glaub ich das der Deep-Singer ja eher Deep-Rappen wird.

Antworten

Der Sandmann sagt:

15. Juli 2020 um 21:52

Schön, dann können unsere Handys doch bald maßgeschneiderte Lieder zum einschlafen vorsingen.

Antworten

Liesl sagt:

16. Juli 2020 um 3:10

Im Rap wird auch ganz besonders viel dumm gebabbelt, ob die Software auch sowas hin bekommt bleibt aber wirklich sehr fraglich.

Antworten

Tomstone sagt:

16. Juli 2020 um 21:49

Hi!
Englisch, Chinesisch? Also exakt die Sprachen, die von Unternehmen genutzt werden, die sich einen Sch…dreck um Urheberrechte kümmern. Und nun ihre Kopiergeräte auf Vocals eichen um damit Content zu generieren, den sie dann verkaufen können. Oder habe ich da was falsch verstanden, lieber Dieb-Singer?
gruß,
Tom

Antworten

Liesl sagt:

17. Juli 2020 um 5:54

Diese Seufzer was da raus kommen bringen mich eher zum Lachen. Aber Microsoft kann ja gerne weiter Forschung machen, viel Spaß!

Antworten

Schreibe einen Kommentar Antworten abbrechen