Ein nähere Blick auf die preisgekrönten Bewertungssysteme für Übersetzungsqualität von Unbabel

6 min read

Wir haben große Pläne für Unbabel um hochwertige, menschliche Übersetzungen im Maßstab maschineller Übersetzungen zu liefern. Aber woher wissen wir, dass wir einen guten Job erledigen? 

Für uns ist Qualität eine Mischung aus einem guten Originaltext, mit dem man arbeiten kann, ihn in unseren domänen angepasste, maschinelle Übersetzung einzugeben, und dann diese Ausgaben an eine kuratierte Gemeinschaft von Redakteuren intelligent zu verteilen, die wir mit Werkzeugen und Hilfsmitteln unterstützen, die es ihnen ermöglichen, den Inhalt so schnell wie möglich zu überprüfen, nachzubearbeiten und zu genehmigen.

Als Erstes sind hier die verschiedenen Wege, über die wir unsere Sprachenpipeline messen, kontrollieren und optimieren.

Qualitätsüberprüfung und Anmerkungen

Wir führen regelmäßige Qualitätsbefragungen unserer Kunden durch und werten wöchentlich gemessene Daten, testen Hypothesen aus und führen tiefe Analysen an den Stellen durch, wo unsere Pipelines fehlerhafter als gewöhnlich sind. Wir verwenden hier den Industriestandard – das metrische System. MQM oder mehrdimensionale Qualitätsmetrikum unsere Leistung mit Dritten und Open-Source-Übersetzungs-Bibliotheken objektiv vergleichen zu können. 

Unser Anmerkungsprozess wird durch einen Pool von Spezialisten mit Spezialisierungen in Translationswissenschaften und Linguistik durchgeführt, die einen umfassenden Bestand von Wissen innerhalb unserer Plattform aufbauen können, was die Gesamtqualität steigert und die Durchlaufzeit bis zur Auslieferung verringert. 

Anpassung an Kundenwünsche

Bei Unbabel erstellen und pflegen wir für jeden Clienten Glossare und stellen ausserdem sicher, dass spezifische Anweisungen, Markenrichtlinien und Umgangstöne eingehalten werden. Die Editoren in unserer Community können auf diese Informationen neben den Übersetzungsaufgaben zugreifen, um mehr Kontext zu erhalten, wenn sie an spezifischer Kundenkommunikation arbeiten, wodurch eine noch höhere Qualität und schnellere Durchlaufzeit gewährleistet wird. 

Editor-Bewertung und Editor-Tools

Unterstützt durch Mitarbeiter unserer Community und der akademischen Welt, führen wir kontinuierlich Bewertungen unserer Community mit linguistischem Feedback durch. Wir erstellen für unsere Editoren Trainingsaufgaben als Bezugspunkt, die eigentlichen Aufgaben ähneln und um sprachliche Richtlinien produzieren, um der Gemeinschaft beizubringen, häufige Fehler zu vermeiden. 

Mit der Hilfe von Forschern aus dem Bereich der natürlichen Sprachbearbeitung und anderen Spezialisten dieses Feldes können wir Werkzeuge entwickeln wie den Smartcheck, welcher der Gemeinschaft unserer Editoren Warnhinweise gibt und Vorschläge macht, um ihnen beim Korrekturlesen zu helfen ((stelle dir eine leistungsstarke, mehrsprachige Version der Rechtschreibprüfung vor). 

Unbabels mehrfach ausgezeichnetes Qualitätsbewertungssystem

Eine der wichtigsten Komponente der Unbabel Übersetzungs-Pipeline ist unser Qualitätsschätzungssystem, welches die Worte identifiziert, die falsch sind, um einen automatischen Qualitätsfaktor für einen übersetzten Satz zu bieten, was den menschlichen Post-Editoren ermöglicht, die Satzteilen, die geändert werden müssen, besondere
Aufmerksamkeit zu widmen. 

Stellen wir unseinen Ausgangssatz vor wie „Hey there, I am sorry about that!“ (ein echtes Beispiel aus unserer Zendesk Integration). 

Stelle dir jetzt eine automatische Übersetzung dieses Satzes in eine Zielsprache wie Portugiesisch vor Hey lá, eu sou pesaroso sobre aquele!“ (leider auch ein echtes Beispiel in diesem Fall eine sehr ungenaue und allzu wörtliche portugiesisch Übersetzung, abgerufen durch ein beliebtes MT-System). 

Für dieses Beispiel markiert unser System alle Nicht-Zeichensetzungs Wörter als falsch und weist einen sehr niedrigen Wert von 0,222 zu. 

Warum interessieren wir uns überhaupt für Qualitätseinschätzung? Erstens gibt es Beweise dafür, dass Qualitätseinschätzung die Arbeit der menschlichen Post-Redakteure viel einfacher macht. Das Aufzeigen falscher Wörter hilft ihnen bestimmte Teile von Sätzen zu beachten, die höchstwahrscheinlich korrigiert werden müssen.

Zweitens erlaubt es die Erfassung von Sätzen, die noch nicht so weit fertig sind, um an unsere Kunden geliefert zu werden, wenn der automatische Qualitätsfaktor unter einem Schwellenwert liegt und ein Mensch benötigt wird um ihn zu korrigieren. Das bringt Unbabel auf die richtige Spur um beständig qualitativ hochwertige Übersetzungen liefern zu können.

Qualitätseinschätzung ist eine der wichtigsten gemeinsamen Aufgaben in der jährlichen Kampagne der Konferenz/Workshop über maschinelle Übersetzung ((WMT). Jedes Jahr bewerten und vergleichen diese Kampagnen die besten Systeme weltweit, sowohl aus der Wissenschaft als auch aus der Industrie. 2016 stellten wir ein Team zusammen (einschließlich Chris Hokamp, ein Doktorand an der Dublin City University, bei uns im Rahmen des EU-geförderten Praktikums EXPERT Netzwerk) und beteiligte sich zum ersten Mal in der Wortebenen Spur.

Unser System gewann den Wettbewerb haushoch, (mit einem F1-Score von 49,5% (gegenüber 41,1%, der von dem besten nicht-Unbabel System erlangt wurde), welches ein feature-bastiertes lineares Modell mit syntaktischen Features, mit drei unabhängigen neuronalen Netzwerk-Systemen, zusammen kombiniert.

Diese Ergebnisse waren sehr ermutigend, aber das Problem war bei weitem noch nicht gelöst. Wenn es so wäre, dann wäre das Problem der maschinellen Übersetzung fast gelöst, da man eine Abfrage in einem Qualitätsschätzungssystem machen könnte, um aus einer langen Liste möglicher Übersetzungen die Beste auszuwählen.

Unseren eigenen Weltrekord mit automatischem Post-Editing schlagen 

Wie könnten wir uns also noch weiter verbessern? Eine weitere Technologie die wir bei Unbabel nutzen, ist automatisches Post-Editing (APE), dessen Ziel es ist, Fehler nicht zu erfassen oder die Qualität der MT zu beurteilen, sondern eine Übersetzung automatisch zu korrigieren

In unserem oben gennanten Beispiel würde die Umwandlung in ein gutes Ergebnis vom eher fehlerhaften Hey lá, eu sou pesaroso sobre aquele!“ in so etwas wie Olá, peço desculpa pelo sucedido.“ bedeuten.

In Anbetracht der natürlichen Ähnlichkeit zwischen der Qualitätsschätzung und automatischen Post-Editing Aufgaben, haben wir beschlossen, unsere Bemühungen zusammenzufassen, um zu sehen, wo wir unter Verwendung der Ausgabe eines automatischen Post-Editing-Systems als zusätzliches Merkmal, eine bessere Qualitätsschätzung erreichen könnten.

Um die Hypothese zu testen, haben wir unsmit Marcin Junczys-Dowmunt, von der Adam-Mickiewicz-Universität (AMU), dem Team, dass die automatische Post-Editing Aufgabe des WMT 2016gewonnen hat, und die durch die Erstellung zusätzlicher Daten durch die Nutzung von Round-Trip-Übersetzungen“und durch das Kombinieren von ein- und zweisprachigen Maschinenübersetzungssystemen mit log-linearem Model äußerst erfolgreich waren.

Die Ergebnisse überschritten unsere besten Erwartungen: durch die Kombination des AMU automatischen Post-Editing-Systems mit unserem bisherigen Qualitätseinschätzungssystem durch die sogenannte „stacked ensembling“ Technik waren die Ergebnisse eklatant: wir verbesserten unsere bisher beste Wortebene-Punktzahl von 49,5% auf einen neuen Stand der Technik, 57,5% (eine absolute Verbesserung von 8 Prozentpunkten). 

Außerdem konnten wir ein Qualitätsbewertungssystem für Sätze bauen, durch den Erhalt eines Pearson Korrelationsergebnis von 65,6%, ein absoluter Gewinn von über 13% im Vergleich zu dem bisher besten von Yandex entwickelten System.

Unser anhaltender Erfolg bedeutet hier, dass wir Qualitätsschätzung in der Praxis anwendbar machen, Nachbearbeitungszeiten reduzieren und schnelle, qualitativ hochwertige Übersetzungen für Unbabel-Kunden garantieren können. 


Das Unbabel KI Forschungsteam (André Martins, Ramon Astudillo und Fábio Kepler)leitete die Qualitätsschätzungs-Experimente.

Die vollständigen Details findest du in unserem TACL Arbeit( hier kannst du einen Entwurf sehen), die erst kürzlich zur Veröffentlichung ausgewählt wurde: André F.T. Martins, Marcin Junczys-Dowmunt, Fabio N. Kepler, Ramon Astudillo, Chris Hokamp. Pushing the Limits of Translation Quality Estimation.“

In Transaktionen des Vereins für Computerlinguistik, 2017 (erscheint in Kürze).

Dr. Helena Moniz leitet das Qualitätsteam bei Unbabel täglich.

ArtboardFacebook iconInstagram iconLinkedIn iconUnbabel BlogTwitter iconYouTube icon