Geschätzte Lesezeit: 3 Minuten
Adobe VoCo MAX Event Praesentation Audio Editing

VoCo - Wörter in Aufnahmen einfach ersetzen, auch wenn sie nie gesagt wurden  ·  Quelle: Youtube / Adobe Creative

Auf Adobes YouTube-Kanal gibt es einen Videomitschnitt vom letzten MAX Event, der Hausmesse aus San Diego. Was da gezeigt wurde, könnte richtig zukunftsträchtig sein und könnte Adobe wieder einen ernsthaften Platz in der Audio- und Post-Pro Welt bescheren. Allerdings könnte es auch den einen oder anderen arbeitslos werden lassen.

Project VoCo

Das ist doch mal cool: Adobe hat eine Technik vorgestellt, mit der man Sprachaufnahmen von Menschen in der gleichen Stimme (Phonetik) etwas sagen lassen kann, auch wenn es nie aus dessen Mündern kam. Adobe VoCo analysiert beispielsweise einen Satz und erkennt das gesprochene Wort. Zumindest in der Demo auf dem Event klappt das gut. Dann schiebt man die Wörter im Texteditor einfach hin und her und der Satz verändert sich. So weit, so langweilig. Aber man kann auch einfach Wörter löschen und ersetzen. Ziemlich cool, oder? Nicht?

Missbrauch der Technik

Ich fühle, wie bei einigen hier die Alarmglocken schellen – so auch bei mir. Zu Recht! Denn diese Technik lässt sich auch missbrauchen und man kann „ganz schnell“ Menschen Worte in den Mund legen, die sie nie gesagt haben. Egal ob lustig, polemisch, beleidigend oder gar illegal. Und damit kann man mit ein paar Klicks Leben zerstören.

Adobe arbeitet an einem Wasserzeichen, das durch VoCo bearbeitete Aufnahmen erkennbar macht. Wie genau, wird nicht verraten und ist auch noch in der Entwicklung. Man braucht auch ca. 20 Minuten Audiomaterial einer Person, damit man Wörter „dazuerfinden“ kann. Zumindest so, dass es authentisch klingt. Danach könnte VoCo vermutlich aber alles sagen. Wasserzeichen hin oder her – nicht jeder wird aufgenommenes Audio gleich mal analysieren.

In der Demonstration bei Adobe wird gezeigt, wie der eine Moderator statt „I kissed my dogs and my wife“ einfach gesagt hat „I kissed Jordan three times“. Jordan ist die andere Moderatorin. Da ist es noch lustig aufgezogen, aber wenn es beispielsweise jemand einem anderen als angeblichen „Handymitschnitt“ eines Telefonats vorspielt, dann ist schnell Polen offen und mindestens zwei Lebenswege sinnlos ge- oder gar zerstört. Think about it!

Aktuell mache ich mir bei dem gezeigten Stand keine Gedanken über „echte“ Fälschungen, dazu hört es sich noch zu künstlich an.

Arbeitslose Audiomenschen und Videospiele

Auf der anderen Seite ist das aber auch ziemlich sinnvoll einsetzbar. Beispielsweise bei Hörbüchern. Ich liebe die Stimme von David Nathan (deutsche Synchronstimme von Johnny Depp) und auch seine Hörbücher, kann aber manch anderen Vorleser nicht ab. Also „einfach“ mit VoCo neu vorlesen lassen. Aber damit würde keiner Geld verdienen und ich würde Herrn Nathan beispielsweise in den Ruin treiben.

Re-Recording und ADR wären auch betroffen. Sowohl die Schauspieler bzw. Voice Artists und die „Aufnehmer“. Warum teuer einen Sprecher bestellen und Studioräume mieten, wenn man es einfach am Rechner erstellen kann. Da verdient dann wohl nur noch einer am ganzen Prozess.

Aber es gibt auch noch gute Einsatzmöglichkeiten, wie einer in den YouTube-Kommentaren mitgeteilt hatte: In Rollenspielen am Computer, wo viel gesprochen wird. Auch der Hauptcharakter wird angesprochen. Wenn der aber selbst benannt ist, dann gibt es das Wort einfach nicht voraufgenommen. „Deathmaster_3000_The_Brütal_Slayer, wir brauchen mehr Schwerter, wenn wir die Eindringlinge besiegen wollen!“ :)

Neue Technik und dann?

Was meint ihr? Hat Adobe da etwas sehr Interessantes oder etwas Gefährliches in der Mache? Ich denke schon lange, dass Audiobearbeitung endlich mal auf den neusten Stand der Technik gehoben werden sollte. Fotografen sind durch Photoshop (und andere Bildbearbeiter) ja auch nicht plötzlich arbeitslos geworden – und wenn doch, waren sie vielleicht einfach nur schlecht. Alle anderen wissen die Features für sich zu nutzen. Wird das bald auch der Audiobranche blühen? Oder blüht meine Phantasie gerade nur zu viel?

Video (ab 3:40 wird’s spannender)

11 Antworten zu “Adobe VoCo – Photoshop für Audio?”

  1. rbschu sagt:

    Schrecklich. Ich habe noch nie von einer bahnbrechenden Erfindung gehört, die nicht anschließend massiv mißbraucht wurde. Sogar Dürrenmatt hat eine Komödie diesem Themenkreis gewidmet („Die Physiker“).

  2. Alexander Déboir sagt:

    Also in Spiinagefilmen babs die Technik bereits seit Jahrzehnten und ich war stets gespannt darauf, wann es eine Stimmensimulation tatsächlich geben wird. Natürlich fallen einem erst einmal Dinge wie Scherzanrufe an …. Pizza bestellen mit der Stimme der Merkel :D

    Aber auch brauchbares….zb das Aufnehmen eigener Gedichtzeilen mit Stimme von Johnny Depp, Robert DeNiro etc
    Vertonung von Fanhörspielen mit anderen Stimmen….aber da frag ich mich, wie es vom Urheberrecht bzw geistigem Eigentum aussieht? Würde sowas greifen, falls es gelingen sollte zb Hörspiele mit bekannten Sprechern zu kreieren, die aber tatsächlich garnicht involviert waren?

    Ich entsinne mich, wie man damals Anrufbeantwirtersprüche von Stars kaufen konnte…..könnte nun wieder im kommen sein :)

    Was gibt es noch, was mir spontan einfällg…
    Gibt es noch aks Sicherheitssystem irgendwo Stimmerkennung die man damit quasi simulieren könnte, um eine Tür aufzubekommen?? Aber glaub diese Technik ist durch Augenscans etc ohnehin veraltet.

    • gearnews sagt:

      Echt, Augenscans sind veraltet? Ich glaube, Stimme ist dann auch weg, weil man ja alles so oder so aufnehmen kann und das schon lange qualitativ hochwertig (wiedergeben) konnte. Fingerabdruck ist ja auch schon ausgehebelt. Ohrscans waren doch mal in den Medien.

      • Augenscans kann man mit guten Fotos umgehen.
        Bei 40MP oder mehr mit großem Chip, Teleobjektiv, gutem Licht, Fokus auf die Iris etc., auch aus der Ferne.
        Es gibt noch die Thermografie, wo die Adernstruktur in der Hand, die Wärmeverteilung im Gesicht etc. analysiert wird.

        Und aktuell sogar eine Methode über die Gehirnwellen.
        Ist nur etwas unpraktisch sich vorher so eine Messkappe mit evtl. 64 Kontakten, Gel etc. aufzusetzen…

        „Ohrscans“?
        Nicht dieser Verbrecher die mit einem Gutachten jemand unschuldig ins Gefängnis brachte?!?

  3. vaikl sagt:

    Spracherkennung gibt es in alltagstauglicher Qualität mit Siri und Cortana, Sprachbearbeitung bis hin zur „echten“ Fälschung mit Celemony Melodyne, Antares AutoTune und div. kleineren DAW-Tools schon seit vielen Jahren auf dem Markt. Was bitte ist jetzt an dieser „Clip-Schnibbelmaschine“ von Adobe so „neu“??? Forensiker lachen sich jetzt schon tot über dieser „Endzeitszenarien“, die die Medien in Unkentnnis des Marktes wieder mal aufbauschen müssen.

    • gearnews sagt:

      Und? Du bist Forensiker? Kannst du uns eine frei verfügbare Software nenne, mit der Jeder mit Copy&Paste Audio fälschen könnte? Mit deinen genannten Tools könnte ich das nicht so einfach machen.

    • Robert Greiner sagt:

      Hast du dir das Video nicht richtig angesehen? Wenn die Software mit genügend Originalmaterial gefüttert wurde kann man Text einfach eingeben und das Audio wird quasi aus dem Nichts erzeugt.

      Was das mit Spracherkennung oder Tonhöhenkorrektur gemein hat ist mir nicht klar.

    • @ vaikl

      Worüber „lachen“ Forensiker?
      Etwa „Experten“ die glauben sie könnten immer Echt und Falsch trennen?
      Da gibt es diese Witzfiguren in Wiesbaden beim BKA, die sich einbilden sie könnten anhand von Text, Satzbau, Wortwahl, Fehlern (alles digital, nicht handschriftlich) etc. „beweisen“ dass eine Person die einen Text schrieb, auch für den anderen Verantwortlich ist.
      Dabei scheint so eine Art Arroganz und Selbstüberschätzung die Basis zu bilden. Der Glaube, ja der Wille etwas ganz besonderes zu machen, eine „Fähigkeit“ zu haben.
      Vergleichbar mit dem Typ der behauptete er könne jeden Menschen an der Ohrform erkennen und einen Mann mit seinem „Gutachten“ unschuldig für einen Banküberfall in Gefängnis brachte.
      Zugleich der Glaube kein „normaler Bürger“ wäre in der Lage sie in die Irre zu führen.
      Dass also jemand online, auf Flugblättern etc. den Stil eines Verhassten kopiert, um diesen damit für Meinungsdelikte (StGB 86, 90, 90a, 103, 130, 140, 166, 185, 186, 187, 188, 189, 192) ins Visier der Justiz zu bringen. Gesetze die eigentlich nicht mal existieren sollten (Das Komitee für Sicherheit und Zusammenarbeit in Europa, „KSZE“ kritisierte diese Gesetze als Verstoß gegen das Menschenrecht auf Meinungsfreiheit…).

      P.S.:
      Ich meine mich zu erinnern, dass es auch schon eine Software gibt, die die Handschrift einer Person kopiert?
      Nicht so wie „Meine Handschrift“ von Data Becker, sondern die Buchstaben, das Schriftbild varriert leicht, wie bei richtiger Schrift.

  4. Robert Greiner sagt:

    Technisch echt abgefahren und sehr interessant. Die Ideen zu sowas gibt es sicher schon lange. Das sowas gerade in diesen „post-faktischen“ Zeiten rauskommt ist jedoch gruselig.

    Da können die digitale Wasserzeichen und Detektoren erfinden wie sie lustig sind. Eh das überprüft wurde kann schon soviel Schaden angerichtet worden sein. Jede Gruppe von Extremisten und Verschwörungstheoretikern kann sich seinen eigenen „Beweise“ und Propaganda bauen. Und wir wissen alle wie gerne man da „Fakten“ überprüft.

  5. Mario Paler sagt:

    Ich klammere mal die ganzen Bedenken aus und versinke in himmlisches schwelgen, wenn ich daran denke jemals ein Hörbuch mit Barry White’s Stimme zu hören oder Michael Jackson, Frank Sinatra, Elvis… ach, das wäre schön… was wäre damit nicht alles möglich.

  6. Warum sollten die ein Wasserzeichen entwickeln, wenn Sie nicht planen es jemals zu verkaufen?:

    „Beta Testing #VoCo
    „For the record, as awesome as the VoCo demo was, it’s still a research prototype and has not yet been planned for release in any product.“

    Irgendwer behauptete wohl es würde über „Unhörbare Frequenzen“ ein Wasserzeichen eingebaut, dass sich nicht entfernen ließe.
    Aber gerade „Unhörbare Frequenzen“ sollten sich doch leicht entfernen lassen.
    Einfach alles unter und über 20Hz-20.000Hz löschen.
    Oder auch unter und über dem Spektrum der Stimme um die es geht.

    Dann evtl. das Ganze noch aus einem Lautsprecher heraus mit einem 08/15-Mikrofon aufnehmen, evtl. vor einer Tonkulisse (Straße, Party…)…

    Ob da noch was vom „Wasserzeichen“ übrig bleibt?

    Ähnlich bei Fotos.
    Experten sehen sich Fotos genaz genau an, Artefeakte etc..
    Was aber, wenn Ich das Bild auf eine Leinwand projiziere, und abfotografieren, evtl. extra „unperfekt“.

    Bei Spielen gibt es eine Technologie, da wird erst sehr hoch auflösend gerendert, um das Ergebnis dann in der Auflösung zu verringern.
    Das soll realistischer aussehen als würde man direkt in der Zielauflösung rendern.
    Man kennt ja den Realismus einer Foto oder Videoauflösung der Realität im Vergleich mit vielfach höher aufgelöstem Videospiel.

    Stichwort „Hörbuch“:
    Dann gibt es bald eine Hörbuchversion von „Mein Kampf“, gesprochen von Adolf Hitler „persönlich“.
    Evtl. ja in jeder belibiegen Sprache, als wäre es die Muttersprache?!?
    Mein Kampf auf Türkisch mit Hitlers Stimme, das würde wohl ein großer Erfolg…
    Der Text ist frei, und Hitlers Stimme wohl auch, wer als Erster kommt, verdient als Erstes…

    Es gab auch Computerspiele, eines wo man auch Verhöre führen muss, auf die Mimik achten während man aber zuhört, die aber nicht deutsch vertont wurden.
    Für nicht wenige ein Grund es NICHT zu kaufen. Wie soll man das Stressfrei machen, wenn man Untertitel lesen muss?!
    Das O-Ton-Geso, äh Freaks wollen nicht verstehen, dass nicht jeder Englisch so flüssig wie eine Muttersprache versteht… Gerne sollte sofort ein Gesetz erlassen werden nach der Englisch Amtsprache Nummer 1 wird, und Kinder Englisch als Muttersprache 1 neben Muttersprache 2, Deutsch lernen.
    Und wenn nicht, gibt es Stress mit dem Jugendamt…

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.