Viele große Unternehmen wie Google, Microsoft, Yahoo, Yandex, eBay und Amazon entwickeln und trainieren allgemeine maschinelle Übersetzungssysteme (MÜ), die Abermilliarden Datenpunkte verwenden (wie das gesamte World Wide Web), um die Bedeutung von Online-Inhalten in einer anderen Sprache besser zu verstehen.

Wenn Sie die MÜ-Welt aufmerksam beobachten, haben Sie in letzter Zeit vielleicht gelesen, dass diese Unternehmen vor Kurzem alle ein Upgrade auf „Neurale-MÜ“ vorgenommen haben. Allerdings ist MÜ für allgemeine Themenfelder ≠ Business-MÜ.

Die Qualität hat sich durchaus verbessert. Dennoch verhält sich ein allgemeines MÜ-System wie ein Fisch auf dem Trockenen, wenn es in einem anderen Themenbereich eingesetzt wird, als dem in dem es trainiert wurde (typischerweise Zeitungsartikel, Parlamentsprotokolle usw.). Wenn Sie mit einem solchen System E-Mails, Chat-Gespräche internationaler Kunden oder wichtige Geschäftsinformationen wie Produktbeschreibungen übersetzen, kann dies kurzerhand zu Verwirrung führen.

Sprachebenen werden verwechselt, Eigennamen falsch übersetzt, Markenbegriffe, die unverändert bleiben sollten, werden durcheinander gebracht und zahlreiche weitere Fehler werden automatisch am laufenden Band produziert, sodass sich die Inhalte nicht zum Einsatz für geschäftliche Zwecke eignen.

Es besteht kein Zweifel daran, dass neuronale Netzwerke MÜ erheblich verbessern (vor allem hinsichtlich der Sprachgewandtheit), aber es herrscht nach wie vor eine große Kluft zwischen der Qualität, die solche Systeme bieten, und der Qualität, die heutzutage von multinationalen Unternehmen erwartet wird.

Die Leistung von Unbabels MÜ für spezifische Themenfelder

Um den hohen Standards dieser Unternehmen gerecht zu werden, finden wir uns zunächst mit den Grenzen maschineller Übersetzung ab und passen sie unserem Workflow (MÜ + menschliche Lektoren) entsprechend an. Es gibt Belege dafür, dass eine bessere MÜ weniger Nachbearbeitung nach sich zieht und somit letztendlich Geschwindigkeit und Qualität von Übersetzungen verbessert.

Maria at Unbabel

Vor Kurzem wurde eine Reihe von Experimenten durchgeführt und die an Themenfelder angepasste maschinelle Übersetzung von Unbabel mit allgemeinen MÜ-Systemen (mit und ohne neuraler MÜ) in 5 beliebten Sprachpaaren (Englisch ins Spanische, Französische, Portugiesische, Italienische und Deutsche) verglichen.

Wir verwenden den BLEU-Score, die übliche automatische Metrik zur MÜ-Evaluierung, um unsere Leistung unter Verwendung von Kundenanfragen von Unbabel für Zendesk und von Unbabel für die Salesforce-Service-Cloud zu vergleichen:

Die an Themenfelder angepasste MÜ von Unbabel erreicht durchweg und manchmal deutlich bessere Werte als andere Systeme, was unsere Hypothese bestätigt, dass das Training unserer Systeme mit Kundenanfragen besonders wertvoll ist. Für die Wissenschaftsgemeinde ist das nichts Neues, aber es könnte eine neue Erkenntnis für Teile der Geschäftswelt sein.

Wir stellen unsere Glossars-Erstell-Funktion so ein, dass die Anweisungen des Kunden diese gegebenenfalls außer Kraft setzen. Unsere Systeme werden auf den jeweiligen Kunden angepasst, um sicherzustellen, dass stilistische Leitfäden, Markenbegriffe und andere Metadaten beachtet werden. Beispielsweise möchte Pinterest nicht, dass das Wort „Pin“ ins Spanische mit „Alfiler“ übersetzt wird.

Gleichwohl sollte man Folgendes bekräftigen: Dies ist bloß der erste Schritt, um unseren Kunden das zu bieten, was sie benötigen. Bei Unbabel sind wir fest davon überzeugt, dass man das Übersetzen nur „lösen“ kann, indem man künstliche Intelligenz mit menschlicher Arbeit kombiniert.

André and Ramon at Unbabel

Sobald das System fertig wird, werden die Arbeitsergebnisse im nächsten Schritt in intelligent zusammengestellten Jobs an unsere 45.000 mobilen Linguisten verteilt, welche die Inhalte nachbearbeiten, um diesen die menschliche Qualität zu geben, die unsere Kunden erwarten. Darauf gehen wir in einem gesonderten Beitrag ein.


Danksagungen:

Unbabels Leiter des Forschungsteams, Dr. André Martins, leitete die Experimente mit Unterstützung von Maria Braga und Catarina Cruz Silva.

Anmerkungen:

  • Wir haben einige grundlegende Maßnahmen zur Vermeidung häufiger Fallstricke ergriffen und darauf geachtet, dass sich kein Satzpaar in diesem Datensatz mit dem Trainingsdatensatz für unser MÜ-System überschneidet
  • Unser Vergleich begünstigt das System von Google geringfügig, da die Referenzübersetzungen für diese Experimente durch menschliche Nachbearbeitung von Google-Translate-Übersetzungen erstellt wurden (daher der Stern in den Diagrammen)
  • Wir zeigen keine Google-Neural-MÜ für Italienisch an, da diese in deren Premium-API derzeit nicht angeboten wird.