Es gibt dieses Sprichwort, dass wenn du 10 verschiedenen Übersetzern denselben Text gibst, so werden sie 10 verschiedene, aber gleichermaßen richtige Übersetzungen erarbeiten. Schließlich ist Sprache sehr subjektiv. Wenn es also um Übersetzungen geht, gibt es keine einzige allgemeingültige Antwort. Und so haben Linguisten natürlich sehr starke Meinungen darüber, welche Übersetzung die ursprüngliche Bedeutung der Botschaft am besten zum Ausdruck bringt.

Da wir die höchste Übersetzungsqualität anstreben, stellt dies eine große Herausforderung für uns dar. Dasselbe gilt für die Annotation von Übersetzungsfehlern. Annotatoren stimmen nicht immer überein, und zwar nicht, weil ein Übersetzungsfehler falsch kategorisiert wurde, sondern weil ein und derselbe Fehler je nach Betrachtungsweise unterschiedlich eingestuft werden kann. Wie können wir also jemals hoffen, unsere Modelle so zu trainieren, dass sie genau sind, wenn wir uns nicht einmal über das, was falsch ist, einigen können? Und könnte diese Meinungsvielfalt eine gute Sache sein?

Betreutes Lernen braucht Beispiele!

Zunächst müssen wir einen Schritt zurücktreten: Warum interessieren wir uns für die Aussagen der Annotatoren?

Der Grund ist einfach: Derzeit sind fast alle KI-Methoden, die erfolgreich sind, kontrollierte Methoden. Das heißt, sie lernen aus Beispielen. Für die Bilderkennung sind Beispiele Bilder, die mit beschrifteten Begrenzungskästen versehen sind (dieser Teil des Bildes ist eine Katze, dieser Teil des Bildes ist ein Hund usw.), für die Spracherkennung sind die Beispiele Sprachaufnahmen mit ihrer Texttranskription und für die maschinelle Übersetzung (MT) sind dies Sätze mit Beispielübersetzungen.

Einige Aufgaben erfordern die Klassifizierung von Wörtern oder ganzen Sätzen in feste Klassen – die Herausforderung bei der Named Entity Recognition (NER) besteht darin, Teile des Satzes zu erkennen, die bestimmte Klassen von Interesse wie Ort, Name, Datum anzeigen.

Ein Beispiel für den Datentyp, der bei der Named Entity Recognition (NER) verwendet wird: LOC ist Standort, ORG ist Organisation und GPE ist geopolitische Einheit. Beachte, dass eine Entität aus mehreren Wörtern bestehen kann. (Bild von Huggingface, entnommen aus https://twitter.com/huggingface/status/1230870653194121216)

Diese betitelten Daten sind die Grundlage jeder in der realen Welt erfolgreichen maschinellen Lernanwendung, denn diese Beispiele trainieren nicht nur Modelle – sie bewerten auch, ob die Modelle die jeweilige Aufgabe wirklich gelernt haben. Schließlich möchten wir nicht, dass sie die gezeigten Beispiele kopieren, sondern dass sie auf die nicht sichtbaren Fälle verallgemeinern. Aus diesem Grund halten wir immer eine Reihe von Beispielen bereit, die später zum Testen der Modelle verwendet werden.

Wichtig ist, dass diese Beispiele von uns Menschen geliefert werden! Wir erstellen die Beispielübersetzungen sorgfältig, wir entscheiden über die Kategorien für die Bilder, wir wählen die Systematik der Klassen, die in das NER-System eingehen. Wir können diese Bemühungen, den Prozess der Erstellung von Beispielen mit Beschriftungen, Annotationen nennen und die Person, die dies tut, als Annotator bezeichnen.

Bei Unbabel verwenden wir den Multidimensional Quality Metrics Framework (MQM), um die Qualität unserer Übersetzungen zu bewerten. Die Annotatoren sind ein großer Teil des Prozesses – sie markieren Übersetzungsfehler, ein Prozess, der für jeden aufgetretenen Übersetzungsfehler die Spannweite des Fehlers hervorhebt, ihn aus der Liste der Probleme klassifiziert und ihm schließlich einen Schweregrad zuweist (klein, groß und kritisch). Dies ist eine zweisprachige Anstrengung – der Annotator muss also beide Sprachen beherrschen.

Ihre Aufgaben sind unterschiedlich schwierig: Einige davon sind winzig kleine Fehleranmerkungen, beispielsweise wenn sie bewerten, ob Wörter falsch oder zu wörtlich übersetzt sind. Aber manchmal gibt es Fehlerannotationen auf einer höheren Ebene, z.B. wenn sie beurteilen, ob dieser Satz eine bessere Übersetzung als dieser andere Satz ist (Rangfolge) oder ob dieser Satz 9/10, dieser andere aber ein 3/10 ist (direkte Bewertung) darstellt. In einigen Fällen, insbesondere wenn es um Situationen geht, in denen sie eine direkte Bewertung vorgenommen haben, ist es vielleicht schwer zu verstehen, was das Urteil des Annotators beeinflusst hat.

Denn die Sache ist die: Annotatoren sind nicht immer einer Meinung. Wenn wir neue Annotatoren an Bord nehmen, ist es nicht ungewöhnlich, dass es Meinungsverschiedenheiten gibt. Ein Annotator mag behaupten, es sei ein kleiner Fehler, ein anderer, es sei ein großer und einer wiederum mag behaupten, es sei ein kritischer Fehler! Und diese Kommentatoren sind bereits hoch qualifiziert, es ist eben einfach keine leichte Aufgabe.

Meinungsverschiedenheiten gibt es aus verschiedenen Gründen. Zunächst einmal ist die Aufgabe der Annotatoren von Natur aus subjektiv. Annotatoren können einfach unterschiedliche Präferenzen haben: Einige bevorzugen Übersetzungen, die eine größere grammatikalische Gewandtheit aufweisen, während andere mehr Wert auf die Erhaltung der Bedeutung in der Übersetzung legen.

Aber es gibt auch andere Gründe. Trotz größter Bemühungen und ständiger Abstimmung sind die Anweisungen nicht immer ganz klar – wir können nicht alle Fälle vorhersagen, in denen ein bestimmtes Tag verwendet werden sollte, außerdem ist die Sprache mehrdeutig und stellt eine Herausforderung dar, wenn man versucht, sie zu klassifizieren.

Und außerdem machen Menschen Fehler. Und zwar eine Menge. Sie sind ebenfalls bekanntlich mit Vorurteilen behaftet, sowohl auf individueller Ebene (z.B. bevorzugen sie durchweg eine Leseart bzw. Interpretation gegenüber der anderen) als auch auf Gruppenebene im eher soziokulturellen Sinne des Begriffs.

Schließlich kann auch die Qualität eines kompetenten Annotators variieren. Versuch einfach mal, einen Sprachtest in deiner Muttersprache durchzuführen, wenn du müde oder abgelenkt bist.

Obwohl Meinungsverschiedenheiten etwas normales sind, können sie sicherlich zu einem Problem werden. Wenn sie sich nicht einmal über die Schwere eines Fehlers einig sind, wie können wir dann wissen, was es für einer ist?

Messung der (Nicht-) Übereinstimmung

Zunächst einmal könnten wir Merkmale des Annotationsprozesses nutzen, um die Qualität zu messen. Aber das kann problematisch sein. Nimm als Beispiel die Zeit, die der Annotator benötigt, um die Aufgabe zu erledigen – eine sehr einfach zu beschaffende Größe. Wir gehen davon aus, dass ein schneller Annotator wahrscheinlich hastig und daher fehleranfällig ist, während ein Annotator, der sich etwas mehr Zeit nimmt, einfach gründlich ist. Es könnte aber auch sein, dass der schnelle Annotator nur erfahren und effizient ist, während der langsame Kommentator eher schleppend vorankommt.

Es ist sehr schwierig, Annotatoren allein durch einfache Funktionen zu unterscheiden. Wenn die Metadaten jedoch aussagekräftiger für die Aufgabe sind, wie z.B. das Verhalten der Tastenanschläge eines Editors, dann können sie die Qualität sehr gut vorhersagen, wie der Translator2Vec, ein bei Unbabel entwickeltes Modell, zeigt!

Anstatt Verhaltensdaten zu betrachten, können wir die Vorhersagen selbst betrachten. Wenn wir mehrere Urteile über denselben Gegenstand sammeln, können wir etwas mehr tun, als nur zu charakterisieren – wir können vergleichen! Und hier kommt das Inter-Annotation-Abkommen (IAA) ins Spiel. Die Übereinstimmung zwischen den Annotatoren wird normalerweise mit Statistiken gemessen, die – in einer einzigen Zahl – den Grad der Übereinstimmung zwischen verschiedenen Annotatoren zusammenfassen. Nimm die grobe Vereinbarung, d.h. die Anzahl der Male, in denen sich die Annotatoren über ihre Beurteilung einig sind. Dies stellt ein Problem dar: Wenn die Leute oft genug zufällige Kennzeichnungen auswählen, werden sie irgendwann zwangsläufig zustimmen. Und das wollen wir nicht mit einrechnen. Genau deshalb erfreut sich Cohens Kappa einer viel größeren Beliebtheit: Es korrigiert gegen diese Zufallsvereinbarungen.

Dieser Gedanke kann noch weiter ausgeweitet werden, um die Konsistenz eines Annotators, oder anders gesagt, der Intra-Annotator-Vereinbarung, zu messen. Wenn es mehrere Urteile derselben Person zum selben Thema gibt – vorzugsweise mit einer gewissen Zeit dazwischen – dann können die gleichen Metriken wie oben verwendet werden, um den Annotator an sich selbst zu messen.

Letztendlich können diese Größen dir helfen, die Qualität deiner Daten in den Griff zu bekommen. Sie bieten dir ein Maß, das dich bei der Entscheidungsfindung unterstützen kann: Musst du bestimmte Annotatoren herabstufen? Musst du bestimmte Beispiele verwerfen? Aber lass dich nicht täuschen: Alle Metriken weisen Fehler auf und Cohens Kappa ist keine Ausnahme.

Wir sind uns einig, dass wir uns nicht einig sind?

Sollten wir Unterschiede im Urteilsvermögen immer bestrafen? Einige Datenkennzeichnungsaufgaben sind von Natur aus mehrdeutig und bei diesen kann Uneinigkeit etwas aussagen. Betrachte dieses Beispiel:

Unbabel-Beispiel für MQM-Annotationen auf Englisch-Deutsch von zwei verschiedenen Annotatoren. Gelb ist ein kleiner Fehler, rot ein kritischer Fehler. Das Beispiel stammt aus einem intern verwendeten Testbatch, das zum Training und zur Bewertung von Annotatoren verwendet wurde. (Die Visualisierung wurde mit einer Adaption von Displacy erstellt).

Der Quellensatz lautet: „Könntest du mir auch die neue E-Mail-Adresse nennen, die ich deinem Kontohinzufügen soll? Der MQM der ersten Anmerkung beträgt 40, während der MQM des zweiten Satzes 70 beträgt. Es ist klar, dass die Annotatoren unterschiedliche Ansätze verfolgen, mit einem klaren Übereinstimmungspunkt (dem Wort neue) und einer großen Meinungsverschiedenheit: Beim letzten Teil des Satzes.

In diesem Beispiel bevorzugen wir die zweite Annotation. Der erste Annotator behauptet, dass der letzte Teil des Satzes unverständlich ist, was nach den MQM-Richtlinien bedeutet, dass die genaue Art des Fehlers nicht bestimmt werden kann, sondern dass er eine große Unterbrechung beim fließenden Sprechen verursacht. Dies ist ein Fehler, den du auf eine verstümmelte Folge von Zeichen und Zahlen anwenden würdest, wie in „Die Bremse von dieser 14 િસ S149235-Teilenummer“.”, was nicht unbedingt das ist, was im obigen Satz passiert.

Aber wir könnten argumentieren, dass es hier eine interessante Frage gibt. Wenn der letzte Abschnitt der Übersetzung so viele Fehler enthält, dass es fast unmöglich ist, sie zu verstehen, stellt dies dann nicht eine ,,große Unterbrechung des Sprachflusses” dar?

Dieses Beispiel stammt aus einem Experiment, in dem wir Annotatoren vergleichen und ausrichten. Da beide Annotatoren kompetent sind und die Ursache für ihre Meinungsverschiedenheiten verstanden werden kann, ist der Schritt, der auf die obige Beobachtung folgt, ein Schritt der Kalibrierung: Es muss sichergestellt werden, dass alle Annotatoren auf der gleichen Seite stehen – bei uns und miteinander.

Das Chaos umarmen

Wenn wir uns mit dieser Art von Meinungsverschiedenheiten befassen, können wir immer ein paar Dinge tun, um sie zu entschärfen. Manchmal kann man die Uneinigkeit verringern, indem man einfach mehr Anleitung gibt. Hier geht es darum, mehr Arbeitsstunden zu investieren, um zu verstehen, welche Kennzeichnungen und welche Aufgaben die Meinungsverschiedenheiten verursachen, und die Lösung kann das Überdenken von Kennzeichnungen, Tools, Anreizen und Schnittstellen umfassen. Dies ist ein bewährter Ansatz hier bei Unbabel.

Oder du bittest andere Experten darum, deine Daten zu reparieren. Als dies kürzlich für einen klassischen und immer noch verwendeten NER-Datensatz durchgeführt wurde, fanden die Forscher in mehr als 5 Prozent des Testsatzes Kennzeichnungsfehler. Das klingt vielleicht nicht sehr bedeutsam, aber das ist eine ziemlich große Zahl für einen Datensatz, bei dem der Status der automatischen Methoden eine Leistung von über 93 Prozent erreicht!

Ein interessanter Ansatz ist das Zusammenführen von Urteilen – Wenn du mehrere Annotationen zu demselben Datenelement erhalten kannst, warum versucht man nicht, sie zu einer zu kombinieren?

Wir verlassen uns in der Regel auf Experten, weil wir glauben, dass diese genauer, gründlicher und letztendlich zuverlässiger sind. Da sich die von uns verwendeten Kommentare mit einer spezialisierten Klassifikation von Fehlern befassen und ein hohes Maß an Sprachverständnis erfordern, um korrekt verwendet werden zu können, sind wir auf hoch qualifizierte Annotatoren angewiesen.

Aber hier ist das Faszinierende: Für einige Aufgaben, die keine sehr spezielle Typologie verwenden oder eine spezielle Art von Wissen voraussetzen, ist das aggregierte Urteil mehrerer Laien ebenso zuverlässig wie das einzelne Urteil eines Experten. Mit anderen Worten: Aus genügend Laien wird im Durchschnitt ein Experte. Und die Zahl der dafür erforderlichen Laien kann überraschend gering sein. Es ist diese Art von kollektivem Wissen, die zum Beispiel Wikipedia aufgebaut hat.

Nimm die Aufgabe der Erkennung von Textual Entailment (RTE). Textual Entailment (TE) ist eine logische Beziehung zwischen zwei Textfragmenten – die Beziehung gilt immer dann, wenn die Wahrheit eines Satzes aus einem anderen folgt. Zum Beispiel: Der ,,Einbruch der Rohölpreise” bedeutet, dass ,,dieÖlpreise sinken“; es bedeutet nicht, dass,,die Regierung die Ölpreise erhöhen wird” (nach Snow et al., 2018)

Aggregieren der Urteile mehrerer Laien in die Qualität des Urteils eines einzelnen Experten (überarbeitet von Snow et al., 2008)

Hier sehen wir, wie die Aggregation des Urteils dieser Laien die Genauigkeit der Anmerkungen verbessern kann (black line). Und wir können sie noch weiter steigern, indem wir jedes Urteil der Laien mit einer automatisch ermittelten Punktzahl abwägen, die aus ihrer Übereinstimmung mit einem Experten berechnet werden kann, wodurch ihre Vorurteile effektiv korrigiert werden, wie die blaue Linie zeigt.

Anstatt deine Annotatoren nach ihrem Vertrauen zu gewichten, kannst du auch versuchen, deine Beispiele nach ihrer Schwierigkeit zu gewichten. Zum Beispiel indem du den einfachen Beispielen weniger Bedeutung beimisst – oder noch rigoroser: Indem du sie ganz weglässt. Das Schöne an den beiden oben genannten Ansätzen ist, dass die Modelle selbst zur Identifizierung dieser Kandidaten verwendet werden können.

Alles in allem ist es schwierig, jede Unklarheit zu beseitigen. Nimm die Übersetzung: Für einen einzelnen Satz gibt es mehrere (möglicherweise sehr viele) gültige Übersetzungen, von denen jede einen anderen Aspekt der Übersetzungsqualität priorisiert. Denke nur an die mehrfachen Übersetzungen eines Romans zwischen Übersetzern oder sogar über Jahrzehnte hinweg. Dies wird explizit bei der Bewertung von Übersetzungssystemen berücksichtigt, wo es als beste Praxis gilt, bei der Verwendung einer automatischen Metrik immer mehrere gültige Referenzübersetzungen zu berücksichtigen . Bei der Ausbildung von Modellen der maschinellen Übersetzung bleibt dagegen die Frage offen, wie die Vielfalt gefördert werden kann, oder allgemeiner ausgedrückt: Wie mit der grundlegenden Unsicherheit bei der Übersetzungsaufgabe umgegangen werden kann.

Es stellt sich heraus, dass zu viel Übereinstimmung auch nicht gut für deine Modelle ist. Wenn dies geschieht, können die Annotatoren beginnen, einfache Muster zu hinterlassen, die so genannten ,,Annotator-Artefakte”, die von den Modellen leicht aufgenommen werden können. Das Problem wird durch Merkmale im Eingabebeispiel verursacht, die stark mit der Ausgabekennzeichnung korrelieren, aber nichts Wesentliches über die Aufgabe erfassen. Wenn zum Beispiel alle Bilder von Wölfen im Training Schnee zeigen und alle Bilder von Huskys nicht, dann ist dies sehr leicht zu erfassen – und ebenso leicht zu täuschen. Die Modelle scheitern, vorausgesetzt, dass der Mangel an Schnee das ist, was einen Husky auszeichnet. In der Praxis wird das Erlernen dieser Art von Beziehung eine Verallgemeinerung auf Beispiele, die diesen Zusammenhang nicht zeigen, verhindern. Und diese Verallgemeinerung ist genau das, wonach wir suchen.

Irgendwann muss man sich das Chaos zu eigen machen. Die Vielfalt der Daten ist eine gute Sache, und wir sollten sie schätzen. Unter diesem Gesichtspunkt ist die Nichtübereinstimmung von Annotatoren ein Signal, kein Rauschen. Wir könnten sogar Mehrdeutigkeit zu einem expliziten Merkmal unserer Modelle machen – ein Ansatz, der erfolgreich bei der Qualitätsschätzung von maschineller Übersetzung angewendet wurde.

Wenn du diesen Schritt weitergehst, kannst du entscheiden, einen Datensatz zu erstellen, der absichtlich Mehrdeutigkeiten enthält. Anstatt eine einzelne Kennzeichnung für Datenpunkte bereitzustellen, können die Annotatoren mehrere Labels bereitstellen, und anstelle eines einzelnen Annotators pro Element fordern sie Bewertungen von mehreren Annotatoren an. Diese Vielzahl von Beurteilungen ermöglicht es dir, einen Datensatz mit mehreren korrekten Antworten zu erstellen, die jeweils durch eine Uneinigkeitsbewertung gewichtet werden, die das Vertrauen in diese Bezeichnung anzeigt.

Nimm das obige Beispiel, das die Ergebnisse dieser Bemühungen zeigt. Die Aufgabe besteht darin, die mehreren plausiblen Wortsinne („Frames“) zu erkennen und man bekommt ein Gefühl für die Unsicherheit, die jedes Element umgibt. Diese Unsicherheit wird durch die den Klassen und den Sätzen zugewiesenen Gewichtung ausgedrückt (Dumitrache et al., 2019). Die Bewertung der Kennzeichnung ist der Grad, auf dem sich die Annotatoren bei dieser einzelnen Kennzeichnung geeinigt haben, gewichtet nach der Qualität des Annotators, und die Satzbewertung ist der Grad, auf dem sich alle Annotatoren bei allen Kennzeichnungen im Satz geeinigt haben.

Anca Dumitrache und ihre Kollegen fanden in ihrer Forschung „viele Beispiele, bei denen sich die Semantik einzelner Frames ausreichend überlappt, um sie zu akzeptablen Alternativen für die Interpretation eines Satzes zu machen.“ Sie argumentiert, dass das Ignorieren dieser Mehrdeutigkeit ein übermäßig willkürliches Ziel für das Training und die Bewertung von Verarbeitungssystemen für natürliche Sprachen schafft: „Wenn Menschen nicht zustimmen können, warum sollten wir dann erwarten, dass die Antwort einer Maschine anders ist?“

Und in der Tat entwickelt sich unsere Forschung ständig in diese Richtung. Diese Vielfalt an Annotationen hilft uns tatsächlich dabei, bessere Kenzeichnungen, bessere Werkzeuge und schließlich bessere Modelle für maschinelles Lernen zu entwickeln. Und während jemand, der ziemlich gut organisiert ist, dies normalerweise nicht zugeben würde, muss man manchmal einfach aufhören, sich Sorgen zu machen und lernen, das Chaos anzunehmen.

Quellen

  • Lora Aroyo, Chris Welty, 2015, ,,Truth Is a Lie: Crowd Truth and the Seven Myths of Human Annotation”, Association for the Advancement of Artifical Intelligence, https://www.aaai.org/ojs/index.php/aimagazine/article/view/2564
  • Trevor Cohn, Lucia Specia, 2013, ,,Modelling Annotator Bias with Multi-task Gaussian Processes: An Application to Machine Translation Quality Estimation”, Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), https://www.aclweb.org/anthology/P13-1004
  • Anca Dumitrache, Lora Aroyo, Chris Welty, 2019, ,,A Crowdsourced Frame Disambiguation Corpus with Ambiguity”, https://arxiv.org/pdf/1904.06101.pdf
  • Mor Geva, Yoav Goldberg, Jonathan Berant, 2019, „Are We Modeling the Task or the Annotator? An Investigation of Annotator Bias in Natural Language Understanding Datasets”, Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, https://www.aclweb.org/anthology/D19-1107.pdf
  • Suchin Gururangan, Swabha Swayamdipta, Omer Levy, Roy Schwartz, Samuel R. Bowman, Noah A. Smith, 2018„Annotation Artifacts in Natural Language Inference Data“, Proceedings of NAACL-HLT 2018, https://www.aclweb.org/anthology/N18-2017.pdf
  • Emily K. Jamison und Iryna Gurevych, 2015, „Noise or additional information? Leveraging crowdsource annotation item agreement for natural language tasks.”, Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, https://www.aclweb.org/anthology/D15-1035.pdf
  • Rabeeh Karimi Mahabadi, James Henderson, 2019, ,,Simple but Effective Techniques to Reduce Dataset Biases”, https://arxiv.org/pdf/1909.06321.pdf
  • Ronan Le Bras, Swabha Swayamdipta, Chandra Bhagavatula, Rowan Zellers, Matthew E. Peters, Ashish Sabharwal, Yejin Choi, 2020, ,,Adversarial Filters of Dataset Biases”, https://arxiv.org/pdf/2002.04108.pdf
  • Rion Snow, Brendan O’Connor, Daniel Jurafsky, Andrew Ng, 2008, „Cheap and Fast – But is it Good?” Evaluating Non-Expert Annotations for Natural Language Tasks”, Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing https://www.aclweb.org/anthology/D08-1027.pdf
  • Zihan Wang, Jingbo Shang, Liyuan Liu, Lihao Lu, Jiacheng Liu, Jiawei Han, 2019, ,,CrossWeigh: Training Named Entity Tagger from Imperfect Annotations”, Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, https://www.aclweb.org/anthology/D19-1519.pdf