Es war 1954 und die Zukunft war klar: menschliche Übersetzer wären in ein paar Jahren veraltet sein.

Zumindest haben die IBM-Forscher bei der ersten öffentlichen Demonstration ihres maschinellen Übersetzungs-Systems stolz erklärt .

Jetzt wissen wir, wie weit von der Wahrheit entfernt diese Aussage war und ist. Aber schon früh in der Geschichte der maschinellen Übersetzung, in den Nachkriegsjahren, war es nicht nur unbändiger Optimismus.

In der Tat, 1947, sagte der amerikanische Wissenschaftler und MT-Pionier Warren Weaver:

Man wundert natürlich, ob das Problem der Übersetzung in der Kryptographie möglicherweise als Problem behandelt werden kann. Wenn ich mir einen Artikel in russischer Sprache anschaue, sage ich: Das ist wirklich in Englisch geschrieben, aber es ist in einigen seltsamen Symbolen codiert. Ich werde jetzt mit der Dekodierung fortfahren. ‘

Ein paar Jahre später, folgte Weaver diesem Beispiel: “Keine vernünftige Person denkt, dass eine maschinelle Übersetzung jemals Eleganz und Stil erreichen kann.”

Die Sache ist, Übersetzung erfordert mehr als eine Dekodierung. Wenn du jemals versucht hast, Gedichte oder Literatur mit einem MT-Service zu übersetzen, kann das Ergebnis aussehen, als würdest du geheime Nachrichten dekodieren.

Und deshalb spielt der Mensch eine Schlüsselrolle. Unser einzigartiges Wissen über die Welt ist für die Übersetzung von entscheidender Bedeutung. Wir Menschen verstehen den Kontext eines Gesprächs, den kulturellen Hintergrund, die verborgenen Bedeutungen. Maschinen haben noch kein solches Wissen. Unser CEO, Vasco Pedro, bringt es auf den Punkt:Systeme werden darauf trainiert, parallele Sätze zu lesen. Der Papagei ist vielleicht dazu in der Lage, aber er wird nie wirklich verstehen, was er sagt.

Dies erklärt, warum die außergewöhnlichen Entwicklungen in MT in den letzten Jahren noch nicht das Niveau erreicht haben, auf dem die Menschen zuverlässig genug sind, um es unbeeinflußt von Menschen zu verarbeiten. Hier kommt die Qualitätsschätzung (QE) ins Spiel.

Wir bei Unbabel haben den Stand der Technik in QE vorangetrieben, um schnelle und genaue Übersetzungen für viele unserer Kunden, darunter Unternehmen wie Booking.com, Microsoft, Skyscanner und Pinterest, zu liefern.

Weil QE eine so wichtige Rolle in unserem Geschäft spielt, habe ich mich entschieden, diesen Artikel zu schreiben, um zu erklären, warum ich glaube, dass QE wirklich das fehlende Glied in der Übersetzung ist und wie OpenKiwi (unser brandneues Open-Source-Framework für QE) dazu beitragen wird, die MT mit menschlicher Energie zu verbessern.

Was ist eine Schätzung der Qualität der Übersetzung?

Bevor wir uns näher mit den Möglichkeiten von QE befassen, um automatisierte Übersetzungen zu verbessern, ist es wichtig, genau zu verstehen, worüber wir sprechen.

Qualitätsschätzung ist das, was wir verwenden zur Beurteilung der Qualität eines Übersetzungssystems ohne Zugriff auf Referenzübersetzungen. In anderen Worten, sein Ziel ist herauszufinden, wie gut oder schlecht eine Übersetzung ist, ohne menschliches Zutun.

Es kann für viele verschiedene Zwecke eingesetzt werden:

  • Um einen Endbenutzer über die Zuverlässigkeit der übersetzten Inhalte zu informieren;
  • Um zu entscheiden, ob eine Übersetzung zur Veröffentlichung bereit ist oder ob sie einer menschlichen Nachbearbeitung bedarf;
  • Um die Wörter hervorzuheben, die geändert werden müssen.

Bei Unbabel verwenden wir QE, um sicherzustellen, dass eine Übersetzung, die nicht gut genug ist, um sie auszuliefern, von unserer zweisprachigen Community von über 100,000 Übersetzern überprüft wird. Sie können die Fehler schnell korrigieren und unseren Kunden qualitativ hochwertige Übersetzungen anbieten. Je mehr wir übersetzen, desto mehr lernt das System und desto weniger Fehler wird es in Zukunft machen.

Eine gute QE entlastet daher die menschlichen Übersetzer. Mit einem automatisierten System, das Fehler aufzeigt, noch bevor der menschliche Prozess beginnt, sind die Übersetzer auf die Bereiche eines Inhalts konzentrieren, die am wahrscheinlichsten Aufmerksamkeit erfordern.

In den letzten Jahren haben wir die bemerkenswerten Dinge miterlebt, die Technologie und Community gemeinsam erreichen können. Wir möchten die Community noch tiefer in unsere Technologie und Prozesse einbetten, mit OpenKiwi, einem kollaborativen Framework für die Qualitätsbewertung.

Open Source Framework for Quality Estimation

OpenKiwi: ein Open-Source-Framework für die maschinelle Übersetzung Community

Bei Unbabel, laufen unsere maschinelle Übersetzungs Modelle in Produktionssystemen für 14 Sprachpaare, wobei sich Abdeckung und Leistung im Laufe der Zeit verbessern, da die täglich von unseren menschlichen Übersetzern anfallenden Datenmengen zunehmen. Diese Kombination aus KI und Menschen macht unsere Übersetzungspipeline besser und schneller.

Unsere preisgekrönten Qualitätsschätzungssysteme standen externen Forschern jedoch nicht zur Verfügung und das begrenzte die Dinge, die wir gemeinsam erreichen konnten. Wir bei Unbabel glauben fest an reproduzierbare und kollaborative Forschung. Wir wollen, dass alle Mitglieder der AI-Forschungsgemeinschaft von unseren Erkenntnissen profitieren, und wir wollen, dass wir gemeinsam bauen, gedeihen und experimentieren können.

Das hat uns inspiriert, OpenKiwi zu realisieren.

OpenKiwi ist ein Open-Source-Framework, das die besten Qualitätsschätzungssysteme implementiert, wodurch das Experimentieren und Durchlaufen dieser Modelle mit dem gleichen Framework und das Entwickeln neuer Modelle vereinfacht werden. Durch die Kombination dieser Modelle können wir Spitzenergebnisse bei der Qualitätsschätzung auf Wortebene erzielen.

Die Kraft des Open-Sourcing

Nun fragen viele Leute vielleicht, warum wir einen Open-Source-Rahmen schaffen mussten, anstatt unsere QE-Technologie für uns zu behalten. Wenn es etwas gibt, woran wir glauben, dann ist es Zusammenarbeit.

Vor nicht allzu langer Zeit war die Eintrittsbarriere für grundlegende Softwareprojekte extrem hoch. Es könnte Monate dauern, die Ergebnisse einer Forschungsarbeit zu reproduzieren, nur weil der zugrunde liegende Code, der im Projekt verwendet wurde, nicht ohne weiteres verfügbar war.

Open-Sourcing-Software bietet eine Reihe von Vorteilen, die weit über die wahrgenommenen Nachteile hinausgehen. Indem wir anderen Zugriff auf das bieten, was wir gebaut haben, können wir nicht nur eine größere Expertengemeinschaft werden und mit uns zusammenzuarbeiten, sondern auch weitere und schnellere Verbesserungen gemeinsam vornehmen. In Open-Source-Lösungen werden selbst kleinste Probleme erkannt, gekennzeichnet und schneller behoben.

Sieh dir die maschinelle Übersetzung selbst an. Als Bereich hat MT enorm von Open-Source-Software wie Moses, OpenNMT und Marian und vielen anderen profitiert. Diese Projekte haben es geschafft, eine große Gemeinschaft von Mitwirkenden zusammenzubringen, die den neuesten Stand der maschinellen Übersetzung vorantreiben, sowohl aus der Industrie als auch aus der Wissenschaft. Wir tragen auch zu einigen dieser Projekte bei. Das ist toll!

In der Qualitätsschätzung gab es jedoch nichts Äquivalentes. Dort gibt es nur sehr wenige Open-Source-Initiativen, die nur von wenigen akademischen Gruppen genutzt werden, und sie haben nie die gleiche Wirkung erzielt. Dies ist die Lücke, die wir jetzt mit OpenKiwi füllen.

Ich bin zuversichtlich, dass wir OpenKiwi der Community zur Verfügung stellen und zu einem größeren Gesamtbild beitragen und die Zukunft der Übersetzung gestalten werden.

Bei allen Durchbrüchen bleibt die maschinelle Übersetzung – zumindest momentan – hochmechanisch. In Verbindung mit durchdachten Daten und menschlichen Redakteuren, die ihre Sprache in- und auswendig kennen, ist die maschinelle Übersetzung in der Lage, den Zugang zu verbessern, die Beziehungen zwischen Konsumenten und Unternehmen zu verbessern und ein weltweites Verständnis zu schaffen.