Eine unserer wichtigsten Aufgaben bei Unbabel ist es, qualitativ hochwertige Übersetzungen abzuliefern. Aber woher wissen wir, ob eine bestimmte Übersetzung von hoher Qualität ist? Unterschiedliche Menschen haben möglicherweise unterschiedliche Auffassungen darüber, was eine gute Übersetzung ausmacht. Sogar eine einzelne Person kann eine unterschiedliche Wahrnehmung derselben Übersetzung haben, wenn sie im Abstand weniger Wochen jeweils dazu aufgefordert wird, diese zu bewerten. Viele Faktoren tragen zur subjektiven Natur des Übersetzens bei: Die Sprache der Menschen wird durch den Ort, an dem sie aufgewachsen sind, die Sprache ihrer Eltern, die Bücher, die sie lesen,… und einfach auch durch die alltägliche Kommunikation geprägt.

Ich bin selbst professioneller Übersetzer und mir fiel es manchmal nicht leicht, bei meiner Arbeit als Rezensent bei großen Übersetzungsprojekten zu unterscheiden, was falsch war und was nur so geschrieben wurde, wie ich es nicht geschrieben hätte. Tatsächlich mag das, was ich als idiomatisch empfinde, von anderen möglicherweise nicht als idiomatisch empfunden werden, selbst wenn wir aus demselben Land stammen – die Anderen repräsentieren möglicherweise eine andere Region, Generation oder Gesellschaftsschicht.

Ich stellte fest, dass mir Anweisungen mit konkreten Beispielen für die Art von Änderungen, die beim Überprüfen nicht erforderlich waren, dabei halfen, den Spielraum für meine Arbeit besser zu verstehen. Dies gilt auch für mein vollständiges Bewusstsein der Projektspezifikationen und insbesondere für das Verstehen, wer die Zielgruppe der Übersetzung ist, damit ich keine Zeit damit verbringen musste, Änderungen vorzunehmen, welche die Qualität der Übersetzung objektiv nicht verbessern.

Diese inhärente Subjektivität – denn schließlich gibt es keine Übersetzung, die einzig richtig wäre – stellt uns vor große Herausforderungen, wenn das Ziel darin besteht, die Qualität der von unseren maschinellen Übersetzungssystemen erstellten und von unserer Redaktionsgemeinschaft perfektionierten Übersetzungen zu verbessern.

Mehrdimensionale Qualitätsmetriken: ein Modell

Es ist doch mit Sicherheit sehr einfach, eine schlechte Übersetzung zu erkennen, nicht wahr? Wir haben alle über die Fehltritte maschineller Übersetzungssysteme gelacht, zum Beispiel, als Google Translate „Ooga Booga Wooga“ für Somali hielt, oder als ein Hotel in der Hauptstadt des irakischen Kurdistan versuchte, die an einem Buffet gereichte Option „Fleischbällchen“ zu übersetzen – wofür es in der arabischen Sprache kein direktes Äquivalent gab, worauf der Begriff als ميت بول transliteriert und von dieser besorgniserregenden englischen Übersetzung begleitet wurde: „Paul is Dead.“

Aber die maschinelle Übersetzungstechnologie hat sich in den letzten Jahren enorm verbessert und es wird immer schwieriger, derart auffällige Fehler zu finden. Oft sind diese viel subtiler. Wenn Du beispielsweise „Lo pillaron conduciendo a 120 km/h“ in die Benutzeroberfläche eines kostenlosen Online-Maschinen-Übersetzungssystems eingibst, lautet die Übersetzung: „Er wurde beim Fahren mit 70 Meilen pro Stunde erwischt“. Das sieht gut aus! Es konvertiert sogar die Einheiten. Aber 120 km/h entsprechen eigentlich eher 75 Meilen pro Stunde. Diese Fehlübersetzung kann die Qualität der endgültigen Übersetzung erheblich beeinträchtigen.

Es ist nicht ungewöhnlich, dass die neueste neuronale maschinelle Übersetzung Texte erzeugt, die sehr gut lesbar sind, aber eine andere Bedeutung als der Originaltext haben. Aber wir sind nicht ohne Tadel – Irren ist (auch) menschlich und selbst erfahrene Übersetzer machen manchmal Fehler.

Um also Verbesserungspotenziale sowohl in unserer maschinellen Übersetzung als auch in unserer Redaktionsgemeinschaft zu identifizieren und beide zu Spitzenleistungen anzuspornen, benötigen wir eine effektive und präzise Methode zur Bewertung der Übersetzungsqualität. Für uns ist dies das Modell MQM (Multidimensional Quality Metrics) , das im Rahmen des EU-finanzierten Projekts QTLaunchPad entwickelt wurde, um globale Sprachbarrieren abzubauen.

MQM bietet ein umfassendes, hierarchisches, flexibles und standardisiertes System, mit dem wir Probleme mit der Übersetzungsqualität lokalisieren und beheben können. Insbesondere bietet MQM eine umfassende Typologie von Problemen, eine Reihe von Schweregraden und einen Bewertungsmechanismus zur Quantifizierung der Übersetzungsqualität.

Basierend auf den spezifischen Anforderungen eines Übersetzungsprojekts, wie dem Zweck oder der Zielgruppe des Textes, können wir mit MQM eine benutzerdefinierte Qualitätsmetrik definieren, die entweder auf mehr oder weniger Detailgenauigkeit ausgerichtet ist. Dies ist nützlich in Fällen, in denen ein Kunde nicht an bestimmten Problemen interessiert ist, z. B. an Problemen im Zusammenhang mit der Zeichensetzung. In diesem Fall können wir MQM so einstellen, dass diese Probleme nicht berücksichtigt werden. Mit MQM können wir messen, worauf es unseren Kunden ankommt und den Qualitätsbegriff auf diese Kunden zuschneiden.

Unser Ansatz

Wenn eine Qualitätsmetrik definiert wurde, nehmen erfahrene Linguisten Fehleranmerkungen auf unserem eigenen Annotationstool vor. Der Annotationsprozess umfasst für jeden aufgetretenen Fehler zunächst das Hervorheben der Fehlerspanne. Anschließend wird der Fehler anhand der in einer solchen benutzerdefinierten Metrik enthaltenen Liste der Fehler klassifiziert und ihm schließlich ein Schweregrad zugewiesen. Bei Unbabel verwenden wir eine MQM-konforme Metrik mit den folgenden Hauptkategorien, die jeweils eigene Unterkategorien enthalten:

Präzision

Diese Dimension beschreibt Fehler, die damit zu tun haben, wie gut die Übersetzung die Bedeutung des Ausgangstextes vermittelt. Es gibt einige berüchtigte Präzisionsprobleme, die zu Verwirrung geführt haben… oder Ausgelassenheit. Zum Beispiel, als Steven Seymour, der Übersetzer des US-Präsidenten Carter bei einem Besuch in Polen im Jahre 1977, dessen Freude, dort zu verweilen, mit „es ist mir eine Freude, nach Polens Geschlechtsteilen zu greifen“ übersetzte, wie das Time Magazine berichtete. In diesem Fall erlitt lediglich die Reputation Carters – und die des Übersetzers – Schaden, doch diese Fehler können zu schwerwiegenden Kommunikationszusammenbrüchen führen und haben möglicherweise, wie manche behaupten mögen, sogar zum Zusammenbruch der politischen Beziehungen in Kriegszeiten beigetragen.

Sprachkompetenz

Flüssiges Sprechen hat damit zu tun, wie natürlich der Text in der Zielsprache klingt. Probleme mit flüssigem Sprechen können bei allen Inhalten auftreten, nicht nur bei Übersetzungen. So manche Filmtitel weisen eine Reihe von Problemen mit der Sprachkompetenz auf, von denen einige definitiv beabsichtigt sind.

Stil

Stilprobleme treten dann auf, wenn die Übersetzung die angegebenen Anforderungen bezüglich Register oder Terminologie nicht erfüllt. Es wird als sehr beleidigend empfunden, wenn die Höflichkeitsstufe bei der Ansprache eines japanischen Kunden falsch ist. Probleme mit der Terminologie fallen ebenfalls in diese Kategorie: Beispielsweise kann die Verwendung von Mülleimer anstelle von Papierkorb in einem MacOs-Kontext zu Missverständnissen bei der Bereitstellung von technischem Support führen.

Zusätzlich zu der Kategorisierung von Problemen entsprechend der oben genannten drei Kategorien und deren Unterkategorien, weisen unsere Sprachexperten jedem Problem einen der folgenden drei Schweregrade zu: geringfügig, schwer und entscheidend.

Geringfügige Fehler wirken sich nicht auf die Intention oder die Verständlichkeit des Inhalts aus, können diesen jedoch weniger ansprechend machen. Zum Beispiel wird in der spanischen Sprache empfohlen, einen Prozentsatz wie 20 % mit 20 % zu übersetzen, wobei zwischen der Ziffer und dem Symbol ein Leerzeichen steht. Wenn eine Übersetzung dies nicht berücksichtigt, kann es sich dabei dennoch um eine zweckmäßige und verständliche Übersetzung handeln.

Schwere Fehler beeinträchtigen die Intention oder die Verständlichkeit des Inhalts. Ein Beispiel für einen schweren Fehler wäre etwa ein Grammatikfehler, der das Verstehen eines Satzes erschwert, wobei die Absicht des Ausgangstextes in der Übersetzung jedoch beibehalten wird. Stelle dir eine Unterhaltung im Chat vor, in welcher der Schlusssatz lautet: „Lass mich wissen, ob es sonst noch etwas gibt, womit ich dich kann, jederzeit!“

Entscheidende Fehler unterscheiden sich von schweren Fehlern dahingehend, dass sie zu negativen Ergebnissen führen. Sie machen die Übersetzung unbrauchbar und können gesundheitliche, sicherheitstechnische, rechtliche oder finanzielle Folgen haben oder als beleidigend angesehen werden. Beispiel: Stelle dir vor, du gibst einem Kunden informationen zur Garantie, dass das (US-) englische Original das Ablaufdatum mit 11/12/20 (12. November 2020) angibt. Wenn die Übersetzung ins Spanische 11/12/20 (11. Dezember 2020) ist, kann der Kunde seine gesetzlichen Gewährleistungsrechte verlieren, weil er der Ansicht ist, dass er mehr Zeit hat, einen Anspruch geltend zu machen, als er tatsächlich hat.

Jeder der oben genannten Schweregrade ist mit Strafpunkten verknüpft, die dann durch die Gesamtzahl der zu übersetzenden Wörter dividiert werden. Dann berücksichtigt eine einfache Formel die Anzahl und den Schweregrad der Fehler wie auch die Länge des Texts und gibt uns ein numerisches Maß für die Übersetzungsqualität, basierend auf den Spezifikationen, die zu Beginn des Projekts festgelegt wurden.

Es wird stetig besser

Da MQM stark standardisiert ist, trägt die Verwendung einer MQM-konformen Metrik dazu bei, die Subjektivität bei der Beurteilung der Übersetzungsqualität zu mildern. Aber wie viele Angehörige der Wissenschaft und Industrie wissen, lässt keine Metrik die Subjektivität vollständig verschwinden.

Wenn wir zum Beispiel „Ich liebe Lissabon“ im Quelltext haben und in der Übersetzung „ lissabon“ ohne Großbuchstaben L steht, welche Art von Fehler liegt dann hier vor? Handelt es sich dabei um einen Fehler hinsichtlich des Objektes oder um ein Großschreibungsfehler?

Wir arbeiten stets daran, diese unvermeidliche Subjektivität zu reduzieren, indem wir den Annotierungsvorgang dadurch steuern, dass wir den Linguisten umfangreiche Annotierungsrichtlinien und Schulungsmaterialien mit Beispielen zur Verfügung stellen. Wir stehen in ständigem Kontakt mit ihnen, um sie bei der Beseitigung von Zweifeln zu unterstützen, sobald diese auftauchen, oder um Probleme zu klären. Diese Interaktionen tragen wiederum dazu bei, unsere Leitlinien zu optimieren, damit diese im Laufe der Zeit besser und klarer werden.

Insgesamt hat sich MQM als sehr nützliches Modell zur systematischen Bewertung der Übersetzungsqualität erwiesen, indem es uns erlaubt, komplexe sprachliche Probleme zu identifizieren und darauf zu reagieren. Unabhängig davon, wie viele Formeln und Leitlinien wir entwickeln, um den Prozess zu steuern, die besondere Art und Weise, wie wir Sprache verwenden, ihre Subjektivität und ihre Macken bedeuten, dass das Übersetzen immer zum Teil Wissenschaft und zum Teil Kunst sein wird. Und wir würden es nicht anders haben wollen.