Als Kind dachte ich, ich würde Mathematiker oder Physiker werden. Ich verstand sehr früh, dass ich in einem dieser Bereiche studieren und forschen oder sogar Lehrer werden wollte. Ich wusste nicht, was KI war. Tatsächlich hatte ich in den ersten Jahren als Informatik-Student oft das Gefühl, ich sollte auf Mathematik umsteigen. Ich bin froh, dass ich es nicht getan habe.

Meine Großmutter versteht allerdings nicht so recht, was ich beruflich mache, denn dazu muss man das Internet nutzen. Wenn du das nicht tust und ich dir sage, dass wir bei Unbabel Computer dazu bringen, menschliche Handlungen automatisch auszuführen, würdest du wahrscheinlich nur da sitzen und mich verständnislos anschauen.

In gewisser Weise bin ich nicht ganz woanders gelandet, als ich es mir als Kind vorgestellt hatte. Ich meine, dieses ganze Feld der maschinellen Übersetzung begann nach dem Zweiten Weltkrieg mit Warren Weaver, nachdem der Mathematiker Allen Turing den Enigma-Code geknackt hatte.

Die Idee ist, dass wir Sprache als Code verwenden können. Der Unterschied besteht darin, dass die Codes formal und eindeutig sind. Und was das Übersetzen so schwer macht, ist die Mehrdeutigkeit.

Der Stand der maschinellen Übersetzung

Einige Leute haben ein gewisses Wissen darüber, was Unbabel tut: Wir übersetzen einen Text in einer bestimmten Sprache in eine andere Sprache. Wiederum andere wissen nicht einmal, was künstliche Intelligenz ist. Manche mögen denken, dass jegliche KI eben „Roboterdinge“ tut, das ist aber nicht der Fall. Die KI imitiert in gewisser Weise menschliches Verhalten, und in manchen Dingen ist es sogar besser als die Menschen .

Beginnen wir mit den Grundlagen: Was machen maschinelle Lernsysteme? Du präsentierst ihnen ein Quellobjekt, in diesem Fall einen Satz und bittest sie, etwas vorherzusagen, einen Zielsatz.

Die Schwierigkeit bei der Übersetzung ist, dass es keinen Goldstandard gibt. Ein Goldstandard steht für die tatsächliche Wahrheit. Wenn du versuchst, eine Maschine dazu zu bringen, Bilder zu erkennen, indem du fragst, ob dies eine Katze oder ein Hund ist, gibt es eine goldene Wahrheit, weil ein bestimmtes Bild das eine oder das andere wäre. Bei der maschinellen Übersetzung gibt es dies nicht, da du 20 verschiedene Übersetzungen haben kannst, die gleich gut sind. Es ist von Anfang an ein viel schwierigeres Problem. Was ist eine gute Übersetzung und was nicht? Hinzu kommt, dass die Sprache sehr vieldeutig ist. Wörter können in verschiedenen Zusammenhängen sehr unterschiedliche Bedeutungen haben. Das Übersetzungsproblem ist also weitgehend ungelöst.

Wenn du dich eingehender mit maschineller Übersetzung befasst, wirst du feststellen, dass es nicht viel besser ist als vor ein paar Jahren, trotz der Meinung der meisten Menschen. Frühere Ausgaben statistischer maschineller Übersetzungen schienen sehr unnatürlich oder roboterhaft. Heute klingen sie vielleicht flüssiger, aber sie sind weniger geeignet als die vorherigen, die normalerweise den richtigen Inhalt hatten, obwohl es schwieriger sein könnte, es zu verstehen. Maschinelle Übersetzungen können heutzutage inhaltlich katastrophal scheitern, klingen aber immer noch flüssig. Insgesamt ist es ein besseres System.

Die maschinelle Übersetzung hat einen Punkt erreicht, an dem man zumindest den Kern des Textes verstehen kann. Es wird fließender, obwohl die Modelle noch sehr einfach sind und wenig Sprachkenntnisse haben. Sie arbeiten immer noch hauptsächlich mit einer Art Satz pro Satz Technik. Wer also der Meinung ist, dass maschinelle Übersetzung gelöst ist, hat sie offensichtlich nicht verwendet.

Für Unbabel als Unternehmen, das seine mehrsprachigen Support-Lösungen an große Unternehmen verkauft, die täglich mit Tausenden oder Millionen von Kunden interagieren, stellt dies ein Problem dar, da die meisten Leute bei maschineller Übersetzungsofort an die Fehler denken, die durch sie entstehen. Man kann sich nicht einfach Geschichten ausdenken, um den Eindruck zu erwecken, dass maschinelle Übersetzung perfekt ist. Es erfordert immer noch einen Menschen in der Schleife, der ihm das gewisse Extra an Qualität verleiht.

Im Chat gibt es zum Beispiel eine Person, die tatsächlich mit der anderen Person spricht, was bedeutet, dass sie Fehler viel schneller beheben können. Wenn du etwas sagst, das keinen Sinn ergibt, könnte die Person am anderen Ende sagen: „Was? Ich habe das nicht verstanden“, und dann versuchst du die Übersetzung erneut.

Dies bedeutet im Grunde, dass du deine eigene Qualitätsschätzung bist, denn am Ende des Tages möchtest du einen Dialog, der funktioniert.

Die Bedeutung der Qualitätsschätzung

Qualitätsschätzung – was wir verwenden, um die Qualität eines Übersetzungssystems ohne Zugang zu Referenzübersetzungen oder menschlichem Eingreifen zu bewerten – ist das Geheimnis der maschinellen Übersetzung. Tatsächlich haben einige Leute behauptet, es könnte das Problem: „Welche Übersetzung ist die Richtige?“ lösen, denn jetzt haben wir ein System, das beurteilt, wie gut oder schlecht eine Übersetzung ist. Das bedeutet nicht unbedingt, dass eine Übersetzung die richtige ist, aber es ist eine korrekte Übersetzung.

Die Qualitätsschätzung leidet jedoch unter den gleichen Schwierigkeiten wie die maschinelle Übersetzung, was bedeutet, dass du von ihr das gleiche Maß an Genauigkeit erwarten kannst. Das größte Problem bei der maschinellen Übersetzung ist, dass sie immer Fehler macht, weil Sprache sehr schwer zu verstehen ist. Entweder aufgrund von Modellen, die aufgrund der Rechenleistung zu einfach sind, oder aufgrund der Tatsache, dass ein maschinelles Lernsystem Fehler macht, liegen die besten Aktien bei etwa 90 Prozent. Das mag viel erscheinen, aber wenn du darüber nachdenkst, bedeutet das, dass jeder zehnte Satz falsch sein wird.

Die Qualitätsschätzung versucht, die falschen Sätze vorherzusagen oder zumindest zu beurteilen, ob ein Fehler kritisch ist oder nicht. Grundsätzlich können wir maschinelle Übersetzungen mit einem viel höheren Maß an Vertrauen einsetzen.

Bei Unbabel haben wir viel Zeit damit verbracht, das Problem der Qualitätsschätzung zu lösen. Das grundlegende KI-Team ist dasjenige, das sich hauptsächlich darauf konzentriert hat, neue Modelle zu entdecken. Dann wird viel Arbeit in die angewandte KI und Produktion gesteckt, um Fragen zu beantworten wie:

  • Wie läuft das in der Pipeline?
  • Ist es skalierbar? Müssen wir das Ziel ändern?
  • Wie funktioniert das mit unseren praktischen Daten?
  • Wie macht man die Adaption dieser Modelle?

Da die grundlegende KI hauptsächlich mit allgemeinen Domänendaten funktioniert, muss die angewandte KI diese erfassen und sicherstellen, dass sie mit unserer Realität von Chats oder Tickets funktioniert, ob sie mit differenzierten Tönen funktioniert oder nicht. Es gibt die Forschung, dann werden die Ergebnisse in das Produkt eingearbeitet.

Wir glauben fest an unsere Qualitätssicherungssysteme. Wir glauben auch an reproduzierbare und kollaborative Forschung. Aus diesem Grund haben wir vor einigen Monaten Open Kiwi entwickelt – ein Open-Source-Framework, das die besten Qualitätsschätzungssysteme implementiert, sodass es wirklich einfach ist, mit diesen Modellen unter demselben Framework zu experimentieren und zu iterieren, sowie auch neue Modelle zu entwickeln.

Wir waren wahrscheinlich eines der ersten Unternehmen, das begonnen hat, Qualitätsschätzungen in der Produktion anzuwenden, und wir haben sehr lange zu diesem Thema geforscht. Dies bedeutet, dass wir bessere Modelle und ein besseres Verständnis für das Problem haben als andere Unternehmen oder Forscher, die an der Qualitätsschätzung arbeiten.

Und die Auszeichnungen gehen an…

Aus diesem Grund war ich sehr glücklich, dass wir unseren Titel des besten globalen maschinellen Übersetzungsqualitätsschätzungssystem auf der Weltkonferenz der maschinellen Übersetzung zu Beginn dieses Jahres wieder erlangen konnten. Darüber hinaus haben wir den Wettbewerb für die automatische Nachbearbeitung gewonnen.

Es war aus zwei Gründen sehr wichtig für uns. Der erste ist die Auswirkung der Qualitätsschätzung auf unsere Produktionspipeline, die Rendite, die wir daraus ziehen. Dabei spielt es keine Rolle, ob wir diesen oder einen anderen Wettbewerb gewinnen.

Andererseits bedeutet der Gewinn solcher prestigeträchtigen Auszeichnungen die Anerkennung der Marke Unbabel, die für die Aufmerksamkeit von Kunden und Investoren von entscheidender Bedeutung ist. Es ist auch eine wichtige Anerkennung für das KI-Team, dessen Arbeit manchmal schwer zu verstehen und zu würdigen ist. KI ist ein sehr hohes Risiko, eine hohe Belohnung. Man kann ein Jahr lang arbeiten und nichts erreichen. Zum Beispiel hat die ganze Arbeit, die wir an unserer menschlichen Qualitätsschätzung geleistet haben, nicht funktioniert, weil wir einfach nicht die richtigen Werkzeuge dafür hatten.

Und deswegen sind diese Auszeichnungen gut für die Anerkennung, um das Bewusstsein für den Namen Unbabel in Wirtschaft und Wissenschaft zu stärken, aber sie sind auch gut für die Moral. Unbabel ist eine reine KI-Firma. Wir verwenden nicht nur KI, sondern bauen und entdecken KI, die es noch nicht gibt. Und dafür öffentlich anerkannt zu sein, bedeutet alles für mich. Ich denke, dass ich als 9-jähriger angehender Mathematiker stolz darauf wäre.