KI-Trainingsdaten 2026: The Atlantic zeigt, wessen Musik in Suno und Udio gelandet ist – eure ist dabei!
Was The Atlantics AI-Watchdog-Recherche über Suno, Udio und Google offenlegt
The Atlantic hat im Rahmen seines „AI Watchdog“-Projekts vier durchsuchbare Datenbanken veröffentlicht, die zusammen mehr als 20 Millionen Songs umfassen, die irgendwo im Umfeld von KI-Musikgeneratoren wie Suno, Udio und Googles Lyria kursieren. Wer wissen will, ob der eigene Name oder die eigene Band irgendwo in diesen KI-Trainingsdaten auftaucht, kann das jetzt kostenlos selbst nachschauen. Klingt erstmal nach einer guten Nachricht für Transparenz. Ist es auch, nur eben nicht ganz so beruhigend, wie man zunächst denken könnte.
Das Wichtigste in Kürze
- The Atlantic hat im Rahmen seines „AI Watchdog“-Projekts vier durchsuchbare Datenbanken mit über 20 Millionen Songs auf KI-Trainingsdaten veröffentlicht
- Die gemeinnützige Organisation LAION hat den größten Datensatz mit 12,3 Millionen Tracks von YouTube zusammengestellt
- Die Datensätze enthalten meist nur Links zu Songs, nicht die eigentlichen Audiodateien
- Bekannte Namen wie Taylor Swift und Bad Bunny tauchen genauso auf wie unabhängige elektronische Producer sind im Pool der KI-Trainingsdaten
- Die großen Musiklabels verklagen Suno und Udio bereits seit Juni 2024 wegen massenhafter Urheberrechtsverletzung
- Google verweist bei eigenen KI-Modellen auf die YouTube-Nutzungsbedingungen
- Im Suno-Verfahren steht eine zentrale Anhörung zum Thema KI-Trainingsdaten für Juli 2026 an
KI-Trainingsdaten: Alles zur Atlantic-Recherche zu Suno, Udio und Google
Über 20 Millionen Songs in den KI-Trainingsdaten
Hinter der Recherche steckt Alex Reisner, der für The Atlantic schon länger Trainingsdatensätze von KI-Modellen aufspürt, vorher ging es um Bücher und Forschungsartikel, jetzt um Musik. Das Ergebnis sind vier Datenbanken unterschiedlicher Größe. Der größte Datensatz stammt von der deutschen gemeinnützigen Organisation LAION und umfasst 12.320.916 Musiktitel von YouTube, zusammen 91 Jahre Spielzeit. Ein zweiter Datensatz kommt auf rund 9 Millionen Tracks, zwei kleinere liegen bei jeweils etwa 100.000 Songs, einer davon basiert auf dem Free Music Archive, einem Projekt, das ursprünglich der Radiosender WFMU gestartet hat.
Wichtig dabei: Die meisten dieser Datensätze enthalten gar nicht die Audiodateien selbst, sondern nur Links zu YouTube oder Spotify. Automatisierte Tools nutzen diese Links aber trotzdem zum Herunterladen, teilweise inklusive Umgehung von Logins, Werbung und allem, was Künstlern eigentlich Geld einbringen sollte. Mit Klagen oder klaren Regeln gegen dieses Scraping sieht es bisher dünn aus.
Das Besondere an Reisners Arbeit ist, dass die Suche komplett kostenlos und ohne Paywall funktioniert. Einfach Künstlername eingeben, fertig. Das allein unterscheidet die Recherche von der bisherigen Debatte, die meistens sehr abstrakt blieb.
Wer schon alles in den Datensätzen auftaucht
Klar, ganz oben in den Schlagzeilen bei den KI-Trainingsdaten stehen die großen Namen. Taylor Swift und Bad Bunny tauchen auf, das verwundert wenig bei Datensätzen dieser Größe. Spannender für mich und sicher auch für die Gearnews-Community sind aber die Fälle aus der elektronischen Musikszene.
Der Berliner Musiker Hainbach hat laut eigenen Angaben 151 Songs allein in einem der Datensätze gefunden. Die Breakcore-Producerin sophia_hjkl postete, dass 138 ihrer Tracks über zwei Datensätze verteilt auftauchen, nach eigener Aussage praktisch ihr komplettes Schaffen zwischen 2017 und 2024.
Den eigenen Künstlernamen einzutippen dauert keine zwei Minuten und liefert sofort eine Antwort. Ich würde das direkt mal aus reiner Neugier ausprobieren. Falls ihr nichts findet, heißt das allerdings nicht automatisch Entwarnung, dazu gleich mehr. Spoiler: Mehrere meiner Musikprojekte tauchen dort übrigens ebenso mit etlichen Songs auf.
Die Klagen gegen Suno und Udio wegen KI-Trainingsdaten
Schon im Juni 2024 berichteten wir darüber, dass die großen Labels eine Klage gegen Suno und Udio prüfen, mittlerweile ist daraus ein ganzes Bündel an Verfahren geworden. Die RIAA reichte damals im Namen von Universal Music Group, Sony Music und Warner Music Group Klage wegen massenhafter Urheberrechtsverletzung ein, inzwischen sprechen Branchenmedien von mindestens einem Dutzend Klagen gegen die beiden Unternehmen. Erst vor wenigen Wochen wollten Universal und Sony zusätzlich über 61.000 weitere Aufnahmen in ihre Klage gegen Suno aufnehmen. Stand heute haben sich aber Warner mit Suno und Universal mit Udio bereits außergerichtlich geeinigt.
Suno verteidigt sich mit dem Fair-Use-Argument, das Training eines generativen Modells an urheberrechtlich geschützten Aufnahmen sei eine transformative Nutzung im Sinne von 17 U.S.C. § 107. Die zentrale Anhörung im Verfahren soll im Juli 2026 vor Richterin Denise Casper im Bundesgericht von Massachusetts stattfinden. Udio hat in den Sony-Klageschriften eingeräumt, öffentlich verfügbares Audiomaterial fürs Training genutzt zu haben, bestreitet aber, dass das eine Rechtsverletzung darstellt. Entschieden ist bei alldem noch rein gar nichts.
Googles Antwort: KI-Trainingsdaten über die eigenen Nutzungsbedingungen
Bei Google läuft die Argumentation etwas anders. Zur Veröffentlichung von Lyria 3 gab es ein Statement zu verantwortungsvoller Nutzung, mit Schutzmechanismen gegen direkte Künstlerimitation, einer Wasserzeichen-Technik namens SynthID und allgemeinen Formulierungen zu geistigem Eigentum und Datenschutz. So weit, so erwartbar.
Entscheidend ist aber ein anderer Satz aus demselben Statement: Google trainiere mit „Material, das YouTube und Google laut unseren Nutzungsbedingungen, Partnerverträgen und geltendem Recht nutzen dürfen“. Übersetzt heißt das ziemlich wahrscheinlich: Musik, die irgendwann von euch selbst oder eurem Label auf YouTube hochgeladen wurde, womöglich auch über einen Distributor, ohne dass ihr beim Klick auf „Akzeptieren“ jemals an KI-Training gedacht habt.
Als Musiker gegen genau diese Praxis klagten, wollte Google die Klage abweisen lassen, ohne zu bestätigen oder zu dementieren, ob konkrete Songs verwendet wurden, mit dem Argument, die Nutzungsbedingungen würden das ohnehin erlauben. Fairerweise muss man sagen: Das separate Projekt Magenta RealTime 2 von Googles Magenta-Team soll laut eigenen Angaben mit lizenziertem Stock-Audio und MIDI-Daten trainiert worden sein, nicht mit gescraptem Nutzermaterial. Nicht jedes Google-Modell läuft also über denselben Weg.
Meine Meinung: Transparenz nur dort, wo sie nicht freiwillig war
Mal ehrlich, das Ganze ist ja nur sichtbar geworden, weil diese vier Datensätze öffentlich kursierten und sich Forscher daran bedient haben. Die Unternehmen, die ihre Trainingsquellen komplett geheim halten, kommen in dieser Recherche gar nicht vor, einfach weil niemand reingucken konnte. Reisner selbst bezeichnet das zu Recht als nur die Spitze des Eisbergs.
Das ToS-Argument (Terms of Service) von Google ist juristisch clever, fühlt sich für mich aber trotzdem ziemlich dünn an. Niemand, der 2015 ein Demo auf YouTube hochgeladen hat, dachte dabei an „Trainingsmaterial für ein KI-Musikmodell“. In der Debatte um diese Datensätze wird auch ein anderer Punkt aufgeworfen, den ich nicht übergehen will: Welche Genres in solchen Trainingsdaten besonders stark vertreten sind, hängt eng damit zusammen, wessen kulturelle Arbeit am Ende die emotionale Substanz dieser Modelle liefert, eine Debatte, die unter anderem Musikerinnen wie SZA öffentlich angestoßen haben.
Und dann ist da noch die Qualitätsfrage. Wenn man sich anschaut, wofür dieses ganze Trainingsmaterial am Ende sorgen soll, wirkt der Aufwand fast absurd. TechCrunch berichtete im Februar von tschechischen Eiskunstläufern, die zu einem KI-generierten Cover von „You Get What You Give“ tanzten, bei dem Text und Phrasierung komplett aneinander vorbeiliefen. Zwanzig Millionen geschürfte Songs für so etwas. Das passt für mich einfach nicht zusammen. Oder was meint ihr dazu?
Was Producer und Musiker jetzt tun können
Der naheliegendste Schritt: Sucht euren eigenen Namen oder den eurer Band hier in Reisners Tool, kostet nichts und dauert noch nicht einmal eine Minute. Wer nichts findet, ist trotzdem nicht automatisch außen vor, schließlich decken die vier Datensätze nur ab, was Forscher öffentlich auftreiben konnten. Wie viel an unsichtbaren, nicht offengelegten Trainingsdaten noch dazukommt, weiß aktuell niemand genau.
Rechtlich bleibt die Lage in der Schwebe, solange die Verfahren gegen Suno und Udio laufen. Wer selbst mit KI-Musiktools arbeitet, sollte sich außerdem bewusst sein, dass die Modelle laut früheren Untersuchungen teils Ergebnisse erzeugen können, die geschützter Musik in Melodie, Akkorden oder Stil erstaunlich nahekommen, das hatten wir schon bei den ersten Klagen gegen Suno und Udio thematisiert.
Fazit zum Thema KI-Trainingsdaten
Die vier Datensätze von The Atlantic machen aus einer bisher abstrakten Debatte etwas ziemlich Konkretes. Statt „KI-Unternehmen nutzen vielleicht geschützte Musik“ steht jetzt da: Diese Songs und diese Künstler lassen sich jetzt in Sekunden durchsuchen, für jeden, der einen Namen eintippt. An der rechtlichen Lage rund um diese KI-Trainingsdaten hat sich dadurch leider noch nichts verändert, die Klagen laufen weiter, die Anhörung im Suno-Verfahren steht erst im Juli 2026 an. Wir werden das Ganze Spektakel natürlich weiterhin beobachten.
Aber für jeden einzelnen Musiker, der jetzt seinen Namen eintippt und plötzlich eine Liste mit eigenen Songs sieht, ist das eben kein abstraktes Branchenthema mehr. Wie seht ihr das, würdet ihr selbst nachschauen wollen, ob eure Musik dort gelandet ist? Schreibt es uns gerne in die Kommentare.
Weitere Informationen
- The Atlantic: The Millions of Songs Mashed Into AI-Generated Music
- CDM: Music in training sets is the new Spotify Wrapped
- Udio & Suno KI: 3 Musiklabels planen Klage
- Weitere News zu Künstlicher Intelligenz
