Wie Unbabels Sprachpipeline alles in menschengemachter Qualität übersetzt

9 min read
Unbabel Translation

In einem Markt mit 38 Milliarden USD pro Jahr für Übersetzungs- und Lokalisierungsdienstleistungenist der größte Akteur ein Militärunternehmen, das 730.000.000 USD pro Jahr umsetzt. Der Rest der Top 10 erwirtschaftet zwischen 80 und 430 Millionen USD pro Jahr.

Es ist ein sehr stark fragmentierter Markt, mit ausgesprochen vielen Akteuren, die alle mit ähnlichen Geschäftsmodellen arbeiten – auf der einen Seite stehen die Marktplätze, die Kundenanforderungen bearbeiten, auf der anderen Seite gibt es große Pools von professionellen Übersetzern, die auf der Grundlage ihrer Fähigkeiten, Erfahrungen und Honorare Angebote unterbreiten. Sobald der Zuschlag für ein Angebot gewonnen ist, wird sich jeder Übersetzer daran machen, seine Fähigkeiten einzusetzen, um einen Teil des Textinhalts in einer bestimmten Zeiteinheit zu bearbeiten. Sie benötigen weitere Sprachen? Stellen Sie mehr Übersetzer ein.

So haben die Dinge bisher immer funktioniert. Doch die neuere Geschichte hat gezeigt, dass das, was nicht skalierbar ist, auch nicht nachhaltig ist. Und sobald man einen neuen Weg findet, Dinge zu erledigen, eröffnen sich riesige neue Märkte mit noch ungenutztem Potenzial.

Translation Market

Für Unbabel ist das Übersetzen, wie es derzeit existiert, ein Teil des Problems.

Wie übersetzt man alles?

Was wäre, wenn Sie alle Informationen der Welt in jede Sprache übersetzen wollten und das auch noch fast im selben Augenblick? Nicht nur rechtliche Dokumente, Geschäftsbedingungen und Produktkataloge, sondern auch jede E-Mail, jede Chat-Unterhaltung, jeden Untertitel, einfach jeden denkbaren Inhalt.

Um dieser Herausforderung gerecht zu werden, muss man grundsätzlich überdenken, wie Übersetzung funktioniert. Man darf sie nicht als Problem vom Typ „mehr Menschen darauf ansetzen” sehen, sondern als ein Software-Problem, bei dem ein Prozess definiert und fortlaufend optimiert werden kann, um ein Ergebnis von höherer Qualität zu erreichen.

Einige Technologie-Unternehmen sehen bereits die Welt auf diese Art und Weise, aber sie erkennen nicht, dass die Notwendigkeit der meisten Unternehmen und Organisationen darin besteht, die gewaltige Kluft zu überbrücken zwischen fortgeschrittensten Maschinenübersetzungen und dem, was so klingt, als sei es auf die „altmodische Weise” gemacht, nämlich durch einen lebendigen Menschen.

Um ernst genommen zu werden, brauchen moderne Unternehmen eine Lösung, die den Rahmenkontext von Ton, Stil und Subtext versteht und die Fehler, die in der Eile der vollständigen Automatisierung übersehen wurden, erkennt.

Schuhmacher vs. Schuhe herstellen

Um zu verstehen, was Unbabel mit Übersetzungen macht, denken Sie an die Schuhmacherei im 18. Jahrhundert.

In der ganzen Menschheitsgeschichte wurden Schuhe einzeln von Hand gefertigt. Auf dieser sehr persönlichen Ebene wurde jedes Paar für seinen Besitzer mit großem Aufwand an Zeit und Energie in Handarbeit hergestellt. Das war somit eine Dienstleistung, die nur von einem kleinen Prozentsatz der Bevölkerung erbracht wurde.

Aber ab Mitte des 18. Jahrhunderts wurde Schuhherstellung in nie dagewesenem Umfang kommerzialisiert. Schuhfabriken schossen aus dem Boden, um die Menschen der neuen Industriewelt mit Schuhen zu versorgen, mit Tausenden von Schuhmachern, die rund um die Uhr arbeiteten, um der Nachfrage gerecht zu werden (ähnlich wie die große Zahl von Übersetzungsagenturen, die oben erwähnt wurden).

Die Napoleonischen Kriege trieben die Mechanisierung des Produktionsprozesses voran und der berühmte englische Ingenieur Marc Brunel entwickelte Maschinen für die Massenproduktion von Stiefeln für die Soldaten der britischen Armee. Ein Besucher seiner Fabrik in Battersea schrieb Folgendes:

„Jeder Schritt wird dabei durch die eleganteste und präziseste Maschinerie durchgeführt … alle Details werden durch die geniale Anwendung mechanischer Kräfte durchgeführt; und alle Teile zeichnen sich durch Präzision, Gleichheit und Genauigkeit aus. Da jeder Mensch lediglich einen Schritt in diesem Prozess durchführt, ohne wissen zu müssen, was andere vor oder nach ihm tun, sind die angestellten Personen keine Schuhmacher, sondern verwundete Soldaten, welche in wenigen Stunden ihre Aufgaben erlernen können.”

Wenn Sie Sprachbarrieren vollständig beseitigen möchten, wenn Sie es ermöglichen möchten, dass jeder in jeder Sprache verstanden wird, in jedem Medium, dann müssen Sie das theoretische Problem der Übersetzung auf einem viel höheren Niveau abhandeln, das mehr umfasst als nur „mehr Menschen”.

Sie müssen das Problem in eine Serie von Schritten mit präziser, einheitlicher und genauer Arbeit durch Maschinen aufteilen, die in bestimmten Abständen von Menschenhand gesteuert wird, aber nicht unbedingt von den Experten, die diese Arbeit früher vollständig selbst getan haben.

Ein bisschen wie die Schuhfabrik von Brunel.

Unbabels Sprachen-Pipeline

Die Qualität bei Unbabel ist nicht durch die Qualität der einzelnen Übersetzer selbst garantiert – diese kann auch auf einem professionellen Niveau stark variieren und ist von Natur aus anfällig für menschliche Fehler (da unsere Übersetzer nun einmal Menschen sind) -, sondern durch die Qualität der ganzen Pipeline, die die Arbeit in präzisen, einheitlichen und genauen Schritten erledigt.

Menschliche Arbeit ist nach wie vor erforderlich, dies aber an unkritischen Stellen, an denen Menschen die Arbeit der Maschine korrigieren und bearbeiten, anstatt mit der gesamten Arbeit beauftragt zu werden. Dies beseitigt die Abhängigkeit von Menschen, steigert aber deren Wert insgesamt erheblich im Hinblick auf Qualitätskorrekturen und ermöglicht einen exponentiell höheren Durchsatz von Inhalten.

Unbabel gibt den Inhalt eines Textes in einer Quellsprache in die Pipeline und liefert dem Kunden dann eine Version auf einem hohen Niveau in einer oder allen von 27 weiteren Zielsprachen.

Bei näherer Betrachtung gibt es eine Reihe weiterer Schritte, die zwischen A und B durchgeführt werden.

Translation Pipeline

Auftrag

Ein Auftrag ist ein Text, der übersetzt werden muss. Es könnte eine Kundendienst-E-Mail von einer Plattform wie Salesforce, Zendesk oder Freshdesk sein oder eine von Millionen von Produktbeschreibungen auf einer globalen E-Commerce-Plattform oder Untertitel für Hunderte von Stunden an Videomaterial.

Jeder Inhaltstyp hat seinen eigenen individuellen Standarddurchlauf in der Pipeline, mit unterschiedlichen Prioritätsgewichtungen auf Aspekte wie Qualität und Geschwindigkeit, aber der Gesamtprozess ist im Großen und Ganzen für alle Texte gleich.

Vorbereitung

In dieser Phase analysiert Unbabel den Quelltext und entdeckt und bestimmt dabei eine Reihe von Faktoren, welche die Reise des Textes durch die Pipeline beeinflussen.

Zunächst wird eine Reihe von Maßnahmen in Abhängigkeit von dem Unbabel-Kunden vorgenommen, von dem der Text stammt. Benutzerdefinierte Glossare und Styleguides, die ein Teil des Texteinspeisungs-Prozesses sind, werden automatisch mit den entsprechenden Aufträgen verbunden und sensible Daten wie Kreditkartennummern werden gehasht und anonymisiert.

Verfeinerte Analysen der Quellsprache werden durchgeführt, die schwer zu übersetzende Elemente wie Orte, Namen und Adressen entdecken und den Schwierigkeitsgrad des gesamten Textes auf Basis des verwendeten Wortschatzes, der Satzlängen und anderer grammatischer Muster einschätzen.

Aus diesen Daten in Verbindung mit weiteren Erkenntnissen im Hinblick auf den Ton des Dokuments (formell vs. informell) wird ein Modell erstellt. Außerdem wird das Thema des Textes ermittelt, was die Weiterleitung des Inhalts an bestimmte Redakteure anhand der von ihnen erklärten Interessen (Reisen, Sport, Medizin, Unterhaltung, etc.) erlaubt.

Unbabels Angepasste Maschinenübersetzung

Adapted Machine Translation

Sobald die Vorbereitung abgeschlossen ist, ist der erste Teil der Übersetzungsarbeit getan, und zwar vollständig mit der Maschine. Zu Beginn prüft Unbabel sein Translation Memory – ein riesiger, dynamischer Datenspeicher, der sicherstellt, dass wenn ein voller Satz schon einmal für einen Kunden oder eine Domain erstellt wurde, dieser abgerufen und erneut benutzt wird. Dies erlaubt eine potenzielle Verbesserung der Liefergeschwindigkeit und der Übersetzungskonsistenz (obwohl es später durch menschliche Redakteure immer noch angepasst werden kann, falls der Kontext nicht stimmen sollte).

Der nächste Schritt wird über den Maschinen-Übersetzungs-Verteiler ausgeführt, der die am besten geeigneten spezialisierten MT-Engines auswählt, basierend auf dem Inhalt, der Domain und dem Kunden (eine Kunden-E-Mail hat gegenüber Produktbeschreibungen von handgefertigten Luxus-Uhren unterschiedliche Anforderungen).

Die maschinenübersetzten Inhalte gehen dann in die Automatische Nachbearbeitung, mit deren Hilfe Unbabel in der Lage ist, diese Übersetzungen automatisch zu verbessern, indem die Nachbearbeitungssoftware vom menschlichen Netzwerk lernt, was in der Vergangenheit bereits erarbeitet wurde. Dadurch entsteht eine neue Version für die Qualitätsbewertung (durch die Nutzung unseres preisgekrönten Qualitätsbewertungssystems) und Weiterverteilung an die richtigen Menschen in der Unbabel-Gemeinschaft.

Auswahl der Redakteure

Editor Selection

Unbabel hat eine weltweite Gemeinschaft von 50.000 Menschen, die mit der Überprüfung der Ergebnisse dieser angepassten maschinellen Übersetzung betraut sind. Aber wie kann man wissen, wer welche Aufgabe bekommt?

Es gibt mehrere Kriterien für die Auswahl von Redakteuren, aber die wesentlichen sind: wer ist verfügbar, wie hoch sind diejenigen für einen bestimmten Inhaltstyp bewertet und wie dringend ist die anstehende Aufgabe zu erledigen.

Die Aufgaben-Priorität wird durch Kundenverträge und andere Faktoren beurteilt und in eine grüne und eine rote Warteschlange eingeordnet. Alle Aufgaben beginnen in der grünen Warteschlange und in einer idealen Welt gibt es keine rote Warteschlange, aber diese ist dazu da, um die Datensicherung und Redundanz zu gewährleisten, damit die Lieferfristen eingehalten werden.

Smart editor selection

Darüber hinaus haben wir Tests durchgeführt, die zeigen, dass Redakteure, die Texte bekommen, die ihren Interessen entsprechen, eine bessere Leistung bei den Aufgaben erbringen.

Smartcheck

Smartcheck

Sobald die richtigen Leute die richtigen Aufgaben erhalten haben, macht sich Unbabel daran, ihnen dabei zu helfen, die bestmögliche Arbeit in der kürzestmöglichen Zeit zu leisten.

Unbabels Smartcheck ist wie eine Turbo-Version der Grammatik-Korrektur, die man in gewöhnlichen Textverarbeitungsprogrammen findet. Es prüft eine Reihe möglicher Fehler mit hilfreichen Anregungen für Ein-Klick-Korrekturen, einschließlich Rechtschreibung, Ton, lexikalischer Konsistenz (Übereinstimmung von Subjekt und Verb; Übereinstimmung von Pronomen; Geschlecht, usw.) und spezifischeren Vorschriften im Zusammenhang mit den vom Kunden gestellten Anforderungen.

Es ist ineffizient, jeden Redakteur jeden Style-Guide der Kunden lesen zu lassen, deshalb legt Smartcheck automatisch Tipps über den gesamten Text und ermöglicht auf diese Weise, schnell und einfach nicht-grammatikalische Fehler zu korrigieren, wie zum Beispiel subjektive vs. objektive Nuancen oder das Schreiben von Zahlen als Wörter statt als Ziffern.

Unbabels Selbstlernendes Netzwerk

Network

Die Magie dieses gesamten Prozesses besteht darin, dass die Ergebnisse des Systems umso besser werden, je mehr Unbabel übersetzt. Maschinenübersetzungs-Engines können immer wieder neu trainiert werden, Translation Memories können vergrößert werden und die Automatische Nachbearbeitung verbessert sich mit jedem neuen Text.

Je mehr man in die Pipeline hineingibt, desto besser wird sie.

Internationale Unternehmen wie Pinterest, Skyscanner, Under Armour, Trello und Oculus VR vertrauen darauf, dass Unbabels Unternehmens-Plattform neue Märkte erschließt und entwickelt.

Um eine Demo zu vereinbaren, nehmen Sie noch heute Kontakt mit uns auf!.

ArtboardFacebook iconInstagram iconLinkedIn iconUnbabel BlogTwitter iconYouTube icon