Würdest du KI dein Leben anvertrauen?

In KI-Forschungskreisen gibt es eine ziemlich berühmte Geschichte über ein neuronales Netzwerkmodell, das darauf trainiert wurde, zwischen Wölfen und Huskys zu unterscheiden. Das Modell lernte, sie erfolgreich zu identifizieren und erreichte eine hohe Genauigkeit, wenn für dessen Training nicht verwendet Bilder gezeigt wurden.

Es stellte sich jedoch schnell heraus, dass etwas schief lief – einige sehr klare Bilder wurden falsch klassifiziert. Als sie untersuchten, warum das neuronale Netzwerk so große Fehler machte, fanden die Forscher heraus, dass das Modell ein Bild anhand einer Schneedecke klassifizieren konnte – alle im Training verwendeten Bilder von Wölfen hatten Schnee im Hintergrund, während die Bilder mit Huskys keinen Schnee hatten. Es war nicht überraschend, dass das Modell versagte.

Nun stell dir vor, wir möchten streunende Schlittenhunde in freier Wildbahnfangen können, also reparieren wir das Modell irgendwie und bringen ihm bei, korrekt zwischen Wölfen und Schlittenhunden unabhängig von der Hintergrundfarbe zu unterscheiden. Wir binden es in Geräte mit Kameras ein, die wir dann unter Freiwilligen und Freunden teilen. Wir vertrauen darauf, dass unser Modell nicht besagt, dass es ein Husky ist, als es tatsächlich ein Wolf ist, aber wie sicher sind wir, dass nichts anderes das Modell stören wird? Was passiert, wenn das Modell einen Kojoten sieht? Wird es als Wolf basierend auf der Größe klassifizieren? Was ist mit einem Fuchs? Einem Bär? Riskieren wir es, unseren Freunden zu sagen, dass sie sich nähern sollen, in der Hoffnung, dass der Streuner tatsächlich ein Bär ist, bevor sie mit einem saftigen Steak aus dem Auto steigen?

Maschinelles Lernen, was?

Techniken des maschinellen Lernens, insbesondere neuronale Netze haben mit einer Vielzahl von Problemen, einschließlich notorisch schwieriger Probleme wie Übersetzung und Spracherkennung, enorme Erfolge erzielt. Ihre Nützlichkeit ist unbestreitbar und als solche sind sie in einer Vielzahl von Anwendungen allgegenwärtig geworden.

Trotz einer Reihe von Durchbrüchen in den letzten 12 Jahren besteht die derzeitige Praxis in der KI-Forschungsgemeinschaft darin, stufenweise Forschung zu betreiben. Verbesserungen an KI-Systemen werden erzielt, indem größere Modelle und mehr Daten verwendet werden, wie meine Kollegin Catarina dies in einem früheren Artikelaufgedeckt hat. Leistungszuwächse sind gering und die Existenz von Anzeigetafeln hat das Üben gefördert.

Diese Anzeigetafeln bieten öffentliche Datensätze für verschiedene Aufgaben der Verarbeitung natürlicher Sprache (NLP), wie z. B. Fragen beantworten, Empfindungsanalyse, semantische Ähnlichkeit, usw. Dies ist tatsächlich eine großartige Initiative, da sie Forscher dazu anregt, vergleichbare Systeme zu bauen. Dadurch stimmen Forscher ihre Systeme jedoch zu sehr auf diese Datensätze ab. Nicht, dass dies vorher nicht passiert wäre, aber inmitten des ganzen KI-Rummels ist dies völlig aus dem Ruder gelaufen.

Wie beim Rätsel zwischen Wolf und Husky besteht das Problem darin, dass immer mehr Modelle eine höhere Leistung erzielen, indem sie Eigenheiten in den Daten lernen. Neuronale Modelle sind wie Black Boxes, was es schwierig macht, zu überprüfen, ob das Modell die Daten löst, anstatt die Aufgabe zu lösen. Es scheinen sich nicht genug Leute zu viel Sorgen zu machen und so werden diese Modelle vorzeitig auf Anwendungsfälle im wirklichen Leben angewendet und bis jemand merkt, dass der Schnee ein Faktor ist, ist der Schaden angerichtet.

Es gibt zwei Hauptursachen für diese Überoptimierungsprobleme.

1. Optimieren für das Falsche

Modelle sind für eine Metrik optimiert, die einfach und schnell zu berechnen ist und die bis zu einem gewissen Grad mit dem gewünschten Ziel (oder „Erfolgsmaß“) korreliert. Das Problem der Abbildung eines gewünschten Ziels auf eine leicht messbare Größe ist seit Jahrzehnten in mehreren Disziplinen bekannt, insbesondere im Jahr 1975, als der Ökonom Charles Goodhart ein Papier über Wirtschaftsregulierung, welches das bekannt gewordene Goodhartsche Gesetz populär machte, veröffentlichte:

“Wenn eine Kennzahl zu einer Metrik wird, ist sie keine gute Kennzahl mehr.”

Weniger eingängig: „Jede beobachtete statistische Regelmäßigkeit neigt dazu, zusammenzubrechen, wenn Druck zu Kontrollzwecken ausgeübt wird.“ Unabhängig von der Formulierung impliziert das Gesetz, dass wenn unsere Leistung in Bezug auf eine bestimmte Anzahl gemessen wird, optimieren wir diese Anzahl. Mit anderen Worten, wir spielen mit der Metrik.

Goodhartsches Gesetz, SKETCHPLANATIONS

Neuronale Netzwerkmodelle machen am Ende dasselbe. Die Metrik, für die sie optimiert sind, ist nur ein Proxy für das tatsächliche Maß der Leistung. Es gibt keine Garantie dafür, dass das Modell der erwarteten Leistung in der realen Welt entsprechen wird.

Neuronale maschinelle Übersetzungsmodelle sind beispielsweise für BLEU optimiert. Hierbei handelt es sich um eine Metrik, welche die Ausgabe des Modells Wort für Wort mit einer Referenzübersetzung vergleicht. In der realen Welt kommt es auf eine fließende und genaue Übersetzung an, auch wenn sie anders formuliert ist als der ursprüngliche Satz.

2. Optimieren mit nicht repräsentativen Daten

Wie in der Schneeerkennungsgeschichte können leistungsstarke Modelle eine höhere (metrische) Leistung erzielen, indem sie die Eigenheiten in den Trainingsdaten lernen. Echte Daten können jedoch etwas anders sein und nicht dieselben Eigenheiten oder Häufigkeiten von Begriffen, Klassen, Hintergründen, usw. enthalten. Beim Einsatz in Szenarien im wirklichen Leben werden solche Modelle zwangsläufig auf die Darstellung, die sie aus den Trainingsdaten gelernt haben, ausgerichtet sein. Ein Wolf in einer grünen Landschaft wird leicht zu einem Husky.

Wenn nicht repräsentative Daten fürs Training verwendet werden, manchmal ohne Berücksichtigung der Art und Weise, wie die Trainingsdaten erfasst wurden oder woher sie stammen, kann es sehr problematisch sein, ein Modell auf andere Situationen anzuwenden, als diejenigen, die es kennt. Das Modell wird befangen. Und obwohl diese bedingungslos erlernte Tendenz in dieser besonderen Situation nicht so problematisch erscheint (es sei denn natürlich, jemand wird zerfleischt), ist es beängstigend, über die Auswirkungen nachzudenken, wenn es um Kreditanträge, Steuergutschriften für Wohnimmobilien oder sogar Bewerbungsgespräche geht.

Im vergangenen Jahr entschied das kalifornische Staatsgericht, dass es zu viel menschliche Befangenheit bei der Entscheidung über die Höhe der Kaution gab. Mit dem Argument, diese Voreingenommenheit zu beseitigen, verabschiedeten sie ein Gesetz, das die Verwendung eines Algorithmus vorschreibt, um das Risiko zu bewerten, dass eine Person nicht vor Gerichterscheint und gingen davon aus, dass dies eine objektive Sichtweise ergibt. Aber woher kommen die Trainingsdaten für diesen Algorithmus? Höchstwahrscheinlich aus historischen Aufzeichnungen, welche die gleiche Voreingenommenheit enthalten, die der Algorithmus vermeiden soll.

In die Wildnis

Neuronale Netze sind zuversichtlich in ihren Vorhersagen, auch wenn dies überhaupt keinen Sinn ergibt.

Auch nach dem Reparieren des Wolf-gegen-Husky-Modells hatten wir noch ein Problem. Was wird es vorhersagen, wenn ein Bild eines Kojoten, eines Fuchses oder sogar eines Bären ihm eingegeben wird?

Wir wissen, dass unser Wolf-gegen-Husky-Modell keinen Bären kennt, wenn es einen sieht. Es wird versuchen, es als Wolf oder Husky zu klassifizieren. Das Problem bei neuronalen Modellen im Allgemeinen ist jedoch, dass die Wahrscheinlichkeit, die sie einer bestimmten Ausgabe zuweisen, nicht das Vertrauen, das sie in diese Vorhersage haben, widerspiegelt. Wahrscheinlichkeiten können nicht als Konfidenzschätzungen herangezogen werden. Neuronale Netze sind in ihren Vorhersagen zuversichtlich, selbst wenn dies überhaupt keinen Sinn ergibt und wenn sich die Eingabe wesentlich davon unterscheidet, was das Modell während des Trainings sah. Wenn das Modell auf das Bild eines Bären trifft, kann die Ausgabe zwischen 100% Wolf und 100% Husky liegen. Wäre es nicht eine Erleichterung, wenn unser Modell 50% / 50% ausgeben würde? Wir könnten dann alle Vorsichtsmaßnahmen treffen, um nicht näher zu kommen.

Wir möchten, dass unsere Modelle beim Umgang mit Daten in Regionen, die sie noch nicht gesehen haben, eine hohe Unsicherheit aufweisen.“Wir möchten, dass sie in der Produktion” elegant “scheitern”, wie Anant Jain in seinem Beitrag zu “Medium” schrieb. Dadurch können wir den Vorhersagen unseres Modells vertrauen.

Leider besteht die derzeitige Praxis darin, einem Modell zu vertrauen, das auf der Leistung, die es unter einer einzelnen Metrik gegenüber einem nicht repräsentativen Datensatzerzielt basiert.

Gibt es Hoffnung?

Keines dieser Probleme kann leicht gelöst werden. Sie erfordern Aufwand und Zeit von Forschern, Ingenieuren, Aufsichtsbehörden, Entscheidungsträgern und politischen Entscheidungsträgern. Aber es gibt Hoffnung.

Um eine Überanpassung an eine einzelne Proxy-Metrik zu vermeiden, die nicht das tatsächlich gewünschte Maß widerspiegelt, können wir Modelle mithilfe von ergänzenden Metriken trainieren. Das beste Modell sollte das sein, das alle gleich gut abschneiden. Darüber hinaus sollten wir erhebliche Anstrengungen unternehmen, um die Leistung in der realen Welt regelmäßig zu messen, auch wenn dies nur für einige Teilbeispiele gilt (da dies normalerweise manuelle Arbeit erfordert).

Um die implizite Voreingenommenheit so weit wie möglich zu verringern, werden repräsentativere Trainingsdaten natürlich hilfreich sein. Zu wissen, welche Daten repräsentativer sind, ist jedoch selbst eine Herausforderung. Was wirklich hilfreich wäre, Modelle zu haben, die erklärbar sind oder die eine Erklärung für ihre Vorhersage ausgeben können. Dies ist genau das, was uns ermöglichen würde, die Wolf-Schnee-Voreingenommenheit sofort zu lokalisieren.

Wenn du dich darauf verlassen kannst, welche Modelle dies vorhersagen, kannst du die KI sicherer anwenden. Der Mensch könnte eingreifen, als ein bestimmtes Konfidenzlimit nicht erreicht wird, sodass die Modelle ihre großartige Arbeit im Umgang mit den Daten, auf die sie wirklich zugeschnitten sind, leisten können.

Bei Unbabel begegnen wir ständig Huskys, Wölfen und Bären. Indem wir den Menschen auf dem Laufenden halten, die Fehler unserer Modelle beheben und die tatsächliche Qualität unserer Produkte bewerten, können wir unsere Modelle ständig verbessern und auch wie wir sie automatisch bewerten.

Interpretieren unseres VP der Sprachtechnologien, Alon Lavie:

Die wichtigste praktische Tatsache für uns ist, dass die experimentellen Ergebnisse, die wir erhalten, sich nicht so verallgemeinern lassen, wie wir annehmen und für unser Übersetzungsszenario in der Praxis tatsächlich nicht repräsentativ sind. Das passiert die ganze Zeit.

KI bleibt hier und wir haben bereits viele Vorteile daraus gezogen. Wir haben jedoch einen Wendepunkt erreicht, an dem neuronale Netzwerke so weit verbreitet sind, dass wir verantwortungsbewusster sein müssen, wie wir sie trainieren. Wir sehen immer mehr Wölfe, der Schnee schmilzt und unsere Freunde sind da draußen. Vielleicht sollten wir uns darauf konzentrieren, das zu reparieren, was kaputt ist, bevor es zu spät ist.