Videos gehören längst zum medialen Mainstream unserer Tage – und laufen allen anderen Darstellungsformen im Digitalen zunehmend den Rang ab. Youtube, TikTok und selbst das als reiner Fotokanal gestartete Instagram: Videos sind in und sagen mehr als viele Worte. Mehr als 70 Prozent der Marketingverantwortlichen im B2B-Bereich und zwei Drittel der B2C-Marketingchefs halten Videos nach neuesten Umfragen für ein ideal geeignetes Mittel, um Zielgruppen jeden Alters zu erreichen. Wäre da nicht ein kleines, aber sehr feines Problem: das teils babylonische Sprachwirrwarr auf der Welt.

Händische Übersetzung kostet Zeit – und viel Geld

Das Übersetzen von selbst kurzen Videos ist wegen der sich überlagernden Musik- und Tonspuren kein Selbstläufer, sondern ein aufwendiger und damit kostspieliger technischer Prozess. Daher wollten wir es genauer wissen: Wer übersetzt schneller, genauer und kostengünstiger – Mensch oder Maschine? Die Ergebnisse sind überraschend.

Zum Vergleich wurde ein Videoausschnitt eines Films aus den 1950er-Jahren mit dem Titel „Flucht in die Zukunft – In die Welt der Kunststoffe“ genommen. Aufgabe war es, diesen in sechs Sprachen – Deutsch, Französisch, Spanisch, Italienisch, Portugiesisch und Ukrainisch – zu übersetzen und zu vertonen. Besondere Herausforderung: Die Originalvertonung sollte nicht hörbar sein, die Originalatmosphäre hingegen schon. Weibliche und männliche Stimmen sollten zu hören sein, inklusive Untertiteln.

Premiumagenturen enttäuschen auf breiter Front

Bei den menschlichen Übersetzungsprofis fiel die Wahl auf die drei Premiumagenturen Pioneer Film GmbH aus Deutschland, Hispano Language Advisory aus Argentinien und ITC Translations aus Nordamerika. Die Ergebnisse waren ernüchternd: ein Angebot über mehr als 5.000 US-Dollar. Beim zweiten Anbieter die Aussage, dass er die Originalsounds und die Vertonung nicht trennen könne und daher die Audiofiles benötige – die uns nicht vorliegen. Der dritte angefragte Dienstleister sagte von sich aus gleich ganz ab.

Im nächsten Schritt versuchten wir unser Probe-Glück bei den automatischen Übersetzungsdiensten, im konkreten Fall bei Rev, Verbit, Papercup, Maestra und vidby. 

Rev bot überraschenderweise gar keine Vertonung, sondern nur Transkription an. Bei Verbit und Papercup wird Vertonung hingegen angeboten. Die Anmeldung funktioniert bei beiden Anbietern allerdings nur für Unternehmen, nicht für Privatpersonen. Bei Maestra ging die Registrierung dagegen schnell. Die Übersetzung in jede Sprache dauerte rund drei bis sieben Minuten. Allerdings mussten wir den Schauspielern verschiedene Stimmen selbst zuweisen. Doch das kann gerade nicht Sinn einer vollautomatischen Lösung sein. Der Preis von sechs US-Dollar war dagegen überzeugend.

99 Prozent Genauigkeit binnen 24 Stunden

Beim Schweizer Anbieter vidby lief die Anmeldung ähnlich unkompliziert. Es gibt Support-Optionen via Messenger und ein Live-Demo-Angebot. Die Bedienung der Software läuft intuitiv und ist für jeden halbwegs computerfitten Content-Creator problemlos machbar. Die User können zwischen einer unfassbar großen Zahl an Sprachen und verschiedenen Varianten wählen: Sehr günstig war die vollautomatische Variante, die eine Genauigkeit von bis zu 80 Prozent bietet das zum Preis von 31,50 US-Dollar. Die noch genauere 99-Prozent-Version kostete 60,67 US-Dollar für diese Film und sieht eine Anlieferung der fertigen Übersetzung binnen maximal 24 Stunden vor. Dabei bearbeitet nochmals ein Editor das Transkript. Dies kann man auf Wunsch auch selbst tun und senkt den Preis auf diese Weise auf 31,50 US-Dollar. 

Insgesamt brauchte es bei vidby nur fünf Minuten, um eine Bestellung abzuschließen. Der Zeitrahmen vom Zeitpunkt der Zahlung bis zum Erhalt des Transkripts zur optionalen Bestätigung betrug acht Stunden. Nach der Bestätigung des Transkripts dauerte es zehn Minuten, um das Video in sechs Sprachen zu vertonen. Vidby hat es zudem geschafft, die Originalsprache herauszuschneiden und die Hintergrundgeräusche zu behalten.

Bereits hohe Qualität bei Video-Übersetzungen mit KI

Zusammenfassend lässt sich sagen, dass die menschlichen Übersetzungsangebote für den alltäglichen Gebrauch kaum nutzbar waren. Sie waren kostenintensiv, umständlich und langsam. Bei der automatisierten Variante stachen die Anbieter vidby und Maestra heraus, wobei vidby bei der Qualität und Auswahlmöglichkeiten die Nase vorn hatte. 

Klares Fazit: Die im Englischen „Dubbing“ genannte Synchronisation via KI wird sich durchsetzen. Die Systeme weisen schon heute eine erstaunliche Qualität auf. In wenigen Jahren wird diese Qualität kaum zu toppen sein. Selbst die Simultanübersetzung scheint nicht mehr weit entfernt. Mensch vs. Maschine – das Duell scheint in Kürze entschieden zu sein …