Adobe VoCo MAX Event Praesentation Audio Editing

VoCo - Wörter in Aufnahmen einfach ersetzen, auch wenn sie nie gesagt wurden  ·  Quelle: Youtube / Adobe Creative

Auf Adobes YouTube-Kanal gibt es einen Videomitschnitt vom letzten MAX Event, der Hausmesse aus San Diego. Was da gezeigt wurde, könnte richtig zukunftsträchtig sein und könnte Adobe wieder einen ernsthaften Platz in der Audio- und Post-Pro Welt bescheren. Allerdings könnte es auch den einen oder anderen arbeitslos werden lassen.

Project VoCo

Das ist doch mal cool: Adobe hat eine Technik vorgestellt, mit der man Sprachaufnahmen von Menschen in der gleichen Stimme (Phonetik) etwas sagen lassen kann, auch wenn es nie aus dessen Mündern kam. Adobe VoCo analysiert beispielsweise einen Satz und erkennt das gesprochene Wort. Zumindest in der Demo auf dem Event klappt das gut. Dann schiebt man die Wörter im Texteditor einfach hin und her und der Satz verändert sich. So weit, so langweilig. Aber man kann auch einfach Wörter löschen und ersetzen. Ziemlich cool, oder? Nicht?

Missbrauch der Technik

Ich fühle, wie bei einigen hier die Alarmglocken schellen – so auch bei mir. Zu Recht! Denn diese Technik lässt sich auch missbrauchen und man kann „ganz schnell“ Menschen Worte in den Mund legen, die sie nie gesagt haben. Egal ob lustig, polemisch, beleidigend oder gar illegal. Und damit kann man mit ein paar Klicks Leben zerstören.

Adobe arbeitet an einem Wasserzeichen, das durch VoCo bearbeitete Aufnahmen erkennbar macht. Wie genau, wird nicht verraten und ist auch noch in der Entwicklung. Man braucht auch ca. 20 Minuten Audiomaterial einer Person, damit man Wörter „dazuerfinden“ kann. Zumindest so, dass es authentisch klingt. Danach könnte VoCo vermutlich aber alles sagen. Wasserzeichen hin oder her – nicht jeder wird aufgenommenes Audio gleich mal analysieren.

In der Demonstration bei Adobe wird gezeigt, wie der eine Moderator statt „I kissed my dogs and my wife“ einfach gesagt hat „I kissed Jordan three times“. Jordan ist die andere Moderatorin. Da ist es noch lustig aufgezogen, aber wenn es beispielsweise jemand einem anderen als angeblichen „Handymitschnitt“ eines Telefonats vorspielt, dann ist schnell Polen offen und mindestens zwei Lebenswege sinnlos ge- oder gar zerstört. Think about it!

Aktuell mache ich mir bei dem gezeigten Stand keine Gedanken über „echte“ Fälschungen, dazu hört es sich noch zu künstlich an.

Arbeitslose Audiomenschen und Videospiele

Auf der anderen Seite ist das aber auch ziemlich sinnvoll einsetzbar. Beispielsweise bei Hörbüchern. Ich liebe die Stimme von David Nathan (deutsche Synchronstimme von Johnny Depp) und auch seine Hörbücher, kann aber manch anderen Vorleser nicht ab. Also „einfach“ mit VoCo neu vorlesen lassen. Aber damit würde keiner Geld verdienen und ich würde Herrn Nathan beispielsweise in den Ruin treiben.

Re-Recording und ADR wären auch betroffen. Sowohl die Schauspieler bzw. Voice Artists und die „Aufnehmer“. Warum teuer einen Sprecher bestellen und Studioräume mieten, wenn man es einfach am Rechner erstellen kann. Da verdient dann wohl nur noch einer am ganzen Prozess.

Aber es gibt auch noch gute Einsatzmöglichkeiten, wie einer in den YouTube-Kommentaren mitgeteilt hatte: In Rollenspielen am Computer, wo viel gesprochen wird. Auch der Hauptcharakter wird angesprochen. Wenn der aber selbst benannt ist, dann gibt es das Wort einfach nicht voraufgenommen. „Deathmaster_3000_The_Brütal_Slayer, wir brauchen mehr Schwerter, wenn wir die Eindringlinge besiegen wollen!“ :)

Neue Technik und dann?

Was meint ihr? Hat Adobe da etwas sehr Interessantes oder etwas Gefährliches in der Mache? Ich denke schon lange, dass Audiobearbeitung endlich mal auf den neusten Stand der Technik gehoben werden sollte. Fotografen sind durch Photoshop (und andere Bildbearbeiter) ja auch nicht plötzlich arbeitslos geworden – und wenn doch, waren sie vielleicht einfach nur schlecht. Alle anderen wissen die Features für sich zu nutzen. Wird das bald auch der Audiobranche blühen? Oder blüht meine Phantasie gerade nur zu viel?

Video (ab 3:40 wird’s spannender)

11
Hinterlasse einen Kommentar

6 Comment threads
5 Thread replies
0 Followers
 
Most reacted comment
Hottest comment thread
7 Comment authors
  Subscribe  
neuste älteste beste Bewertung
Benachrichtige mich zu:
rbschu

Schrecklich. Ich habe noch nie von einer bahnbrechenden Erfindung gehört, die nicht anschließend massiv mißbraucht wurde. Sogar Dürrenmatt hat eine Komödie diesem Themenkreis gewidmet („Die Physiker“).

Alexander Déboir

Also in Spiinagefilmen babs die Technik bereits seit Jahrzehnten und ich war stets gespannt darauf, wann es eine Stimmensimulation tatsächlich geben wird. Natürlich fallen einem erst einmal Dinge wie Scherzanrufe an …. Pizza bestellen mit der Stimme der Merkel :D Aber auch brauchbares….zb das Aufnehmen eigener Gedichtzeilen mit Stimme von Johnny Depp, Robert DeNiro etc Vertonung von Fanhörspielen mit anderen Stimmen….aber da frag ich mich, wie es vom Urheberrecht bzw geistigem Eigentum aussieht? Würde sowas greifen, falls es gelingen sollte zb Hörspiele mit bekannten Sprechern zu kreieren, die aber tatsächlich garnicht involviert waren? Ich entsinne mich, wie man damals Anrufbeantwirtersprüche… Read more »

gearnews

Echt, Augenscans sind veraltet? Ich glaube, Stimme ist dann auch weg, weil man ja alles so oder so aufnehmen kann und das schon lange qualitativ hochwertig (wiedergeben) konnte. Fingerabdruck ist ja auch schon ausgehebelt. Ohrscans waren doch mal in den Medien.

Augenscans kann man mit guten Fotos umgehen.
Bei 40MP oder mehr mit großem Chip, Teleobjektiv, gutem Licht, Fokus auf die Iris etc., auch aus der Ferne.
Es gibt noch die Thermografie, wo die Adernstruktur in der Hand, die Wärmeverteilung im Gesicht etc. analysiert wird.

Und aktuell sogar eine Methode über die Gehirnwellen.
Ist nur etwas unpraktisch sich vorher so eine Messkappe mit evtl. 64 Kontakten, Gel etc. aufzusetzen…

„Ohrscans“?
Nicht dieser Verbrecher die mit einem Gutachten jemand unschuldig ins Gefängnis brachte?!?

vaikl

Spracherkennung gibt es in alltagstauglicher Qualität mit Siri und Cortana, Sprachbearbeitung bis hin zur „echten“ Fälschung mit Celemony Melodyne, Antares AutoTune und div. kleineren DAW-Tools schon seit vielen Jahren auf dem Markt. Was bitte ist jetzt an dieser „Clip-Schnibbelmaschine“ von Adobe so „neu“??? Forensiker lachen sich jetzt schon tot über dieser „Endzeitszenarien“, die die Medien in Unkentnnis des Marktes wieder mal aufbauschen müssen.

gearnews

Und? Du bist Forensiker? Kannst du uns eine frei verfügbare Software nenne, mit der Jeder mit Copy&Paste Audio fälschen könnte? Mit deinen genannten Tools könnte ich das nicht so einfach machen.

Robert Greiner

Hast du dir das Video nicht richtig angesehen? Wenn die Software mit genügend Originalmaterial gefüttert wurde kann man Text einfach eingeben und das Audio wird quasi aus dem Nichts erzeugt.

Was das mit Spracherkennung oder Tonhöhenkorrektur gemein hat ist mir nicht klar.

@ vaikl Worüber „lachen“ Forensiker? Etwa „Experten“ die glauben sie könnten immer Echt und Falsch trennen? Da gibt es diese Witzfiguren in Wiesbaden beim BKA, die sich einbilden sie könnten anhand von Text, Satzbau, Wortwahl, Fehlern (alles digital, nicht handschriftlich) etc. „beweisen“ dass eine Person die einen Text schrieb, auch für den anderen Verantwortlich ist. Dabei scheint so eine Art Arroganz und Selbstüberschätzung die Basis zu bilden. Der Glaube, ja der Wille etwas ganz besonderes zu machen, eine „Fähigkeit“ zu haben. Vergleichbar mit dem Typ der behauptete er könne jeden Menschen an der Ohrform erkennen und einen Mann mit seinem… Read more »

Robert Greiner

Technisch echt abgefahren und sehr interessant. Die Ideen zu sowas gibt es sicher schon lange. Das sowas gerade in diesen „post-faktischen“ Zeiten rauskommt ist jedoch gruselig.

Da können die digitale Wasserzeichen und Detektoren erfinden wie sie lustig sind. Eh das überprüft wurde kann schon soviel Schaden angerichtet worden sein. Jede Gruppe von Extremisten und Verschwörungstheoretikern kann sich seinen eigenen „Beweise“ und Propaganda bauen. Und wir wissen alle wie gerne man da „Fakten“ überprüft.

Mario Paler

Ich klammere mal die ganzen Bedenken aus und versinke in himmlisches schwelgen, wenn ich daran denke jemals ein Hörbuch mit Barry White’s Stimme zu hören oder Michael Jackson, Frank Sinatra, Elvis… ach, das wäre schön… was wäre damit nicht alles möglich.

Warum sollten die ein Wasserzeichen entwickeln, wenn Sie nicht planen es jemals zu verkaufen?: „Beta Testing #VoCo „For the record, as awesome as the VoCo demo was, it’s still a research prototype and has not yet been planned for release in any product.“ Irgendwer behauptete wohl es würde über „Unhörbare Frequenzen“ ein Wasserzeichen eingebaut, dass sich nicht entfernen ließe. Aber gerade „Unhörbare Frequenzen“ sollten sich doch leicht entfernen lassen. Einfach alles unter und über 20Hz-20.000Hz löschen. Oder auch unter und über dem Spektrum der Stimme um die es geht. Dann evtl. das Ganze noch aus einem Lautsprecher heraus mit einem… Read more »