Größer, stärker, schneller – im Rennen um die Vorherrschaft der KI ist es oft schwer, das Gefühl abzuschütteln, dass wir schnelle Siege über alles andere bevorzugen.

KI ist uns nicht fremd, und viele der Technologien, die wir täglich einsetzen, basieren darauf und lassen uns gute Erfahrungen sammeln – von grundlegenden Empfehlungssystemen, die unsere Einkäufe steuern, bis hin zu komplexeren Gesichtserkennungssystemen in jedem Bild, das wir online veröffentlichen. Und in den letzten Jahren haben wir den Aufstieg von Deep Learning und neuronalen Netzen erlebt, die die Leistung mit erstaunlicher Geschwindigkeit steigern. Die Verarbeitung natürlicher Sprachen war keine Ausnahme und vor ungefähr drei Jahren haben Forscher diese Modelle erfolgreich auf die maschinelle Übersetzung angewendet. Diese verbreitete sich schon bald, als sowohl Google als auch Microsoft behaupteten, menschliche Parität erreicht zu haben.

Was ist also das Problem? Diese Modelle benötigen Daten. Viele, Unmengen von Daten. Auch außergewöhnlich große Rechenressourcen, die auf speziellen Einheiten, so genannten GPUs, vorkommen und viel mehr Energie verbrauchen als herkömmliche CPUs. Laut einem Bericht der Internationalen Energieagentur machten Datenzentren allein schätzungsweise 1% des weltweiten Strombedarfs in 2017 aus und verbrauchten rund 195 TWh. Und obwohl derselbe Bericht vorhersagt, dass die Nachfrage nach mehr Rechenleistung und einer höheren Arbeitsbelastung in Rechenzentren durch Effizienzsteigerungen bei einer Reihe von Komponenten dieser Einheiten ausgeglichen wird, sollten wir den Energieverbrauch der aktuellen Deep-Learning-Techniken nicht ignorieren.

Kann es eine verantwortliche KI geben?

Der CO2-Fußabdruck der KI

Auf der einen Seite treibt sich die KI selbst voran, um effizienter denn je zu sein. Nehmen wir zum Beispiel DeepMind und Huawei, bahnbrechende Kühltechnologien für Rechenzentren, oder Google, das TPU entwickelt hat, ein Gerät, das es Unternehmen ermöglicht, ihre Modelle schneller und effizienter zu trainieren.

Die Branche ist aber ebenso Teil des Problems. In einer Vergleichsstudie wies OpenAI auf einen Trend hin, dass die für Trainingsläufe verwendete Rechenleistung mit einer Verdoppelungszeit von 3,5 Monaten zunahm (nur um eine Vorstellung von der Größenordnung zu bekommen, Moore’s Law hatte eine Verdoppelungszeit von 18 Monaten). Und bei diesen Zahlen fangen einige an, sich doch zu wundern. Erst letzten August bei der ACL 2019 in Florenz präsentierte die Forscherin Emma Strubell einen Artikel mit dem Titel „ Überlegungen zu Energie und Politik für Deep Learning in NLP“, die ein bisschen kontrovers aufgenommen wurde.

In ihrer Studie stellte sie die Verbrauchskosten für das Training verschiedener hochmoderner Modelle vor und verglich sie mit Beispielen wie dem Fußabdruck eines von New York nach San Francisco reisenden Flugpassagiers, der Durschnittslebensdauer eines Autos oder sogar der Dauer eines durchschnittlichen menschlichen Lebens. Strubell weist insbesondere auf die Auswirkungen des massiven Hyperparametertunings und der Architektursuche, den Techniken zur Exploration hin, die als Grenze eines Brute-Force-Ansatz betrachtet werden können, um das beste Modell für eine bestimmte Aufgabe zu finden. Diese Werte übertreffen alle anderen um ein Vielfaches.

Selbst wenn wir bedenken, dass wir einfach auf Hubs umsteigen könnten, die größtenteils oder vollständig mit erneuerbaren Energien betrieben werden – von denen wir wissen, dass dies derzeit nicht der Fall ist – sind diese Zahlen definitiv ein Aha-Erlebnis.

Wie sind wir soweit gekommen?

Die meisten NLP-Aufgaben begannen in den letzten zehn Jahren von den klassischen Recurrent Neural Networks zu profitieren. Die ,,Wiederholung” ergibt sich aus der Funktionsweise dieser Modelle: Sie verbrauchen ein Wort nach dem anderen, erzeugen einen Zustand oder eine Leistung, die für die Aufgabe erforderlich ist, und leiten diese (n) erneut an das Modell weiter, um die nächste zu generieren. Dies ist ein teurer Mechanismus, der im Vergleich zu typischen Modellen, die in anderen Bereichen verwendet werden, in Bezug auf die Trainingszeit langsamer sein kann – insbesondere, wenn wir sehr lange Sequenzen zulassen.

Bei der maschinellen Übersetzung kam dann ein neuer Mechanismus hinzu – ,,Aufmerksamkeit“. Diese neue Methode stellte den Forschern ein Werkzeug zur Verfügung, um die Ergebnisse besser zu verstehen, indem sie erfuhren, nach welchen Quellwörtern ein Modell sucht, um die einzelnen Zielwörter zu generieren. Insbesondere musste die Aufmerksamkeit nicht sequenziell auf die Eingabe verwendet werden, und so wuchs sie schnell zu einer Reihe von Methoden und Anwendungen heran. Es dauerte nicht lange, bis die Gemeinschaft entschied, dass dies alles war, was sie brauchte, und so sahen wir den Aufstieg der Transformatoren, die, anstatt sich auf Wiederholungen zu verlassen, auf diesen Mechanismus aufbauen und ihn mit einem einfacheren, nicht wiederkehrenden neuronalen Netzwerk kombinieren. Diese Modelle, auch wenn sie größer waren, konnten bei einer Reihe von Aufgaben mit einer deutlich reduzierten Anzahl von FLOPs (Floating Point Operations pro Sekunde, ein übliches Maß für die Messung der Effizienz beim Einsatz von GPUs) bessere Ergebnisse erzielen, was ressourcenmäßig gesehen sogar positiv war.

Schließlich wandten sich die Forscher der Vorbereitung einiger grundlegender Bausteine von NLP-Modellen zu. Sie taten dies, indem sie große Mengen an schriftlichem Text sammelten, der, anstatt Bezeichnungen oder Parallelsätze in anderen Sprachen zu erfordern, direkt und unbeaufsichtigt verwendet werden konnte. Durch einfaches Betrachten des Textes und der natürlichen Art und Weise der Satzbildung und des gemeinsamen Erscheinungsbildes der Worte, konnten sie eine bessere Darstellung von Wörtern trainieren. Anstatt eine Aufgabe direkt zu lösen und alles Erforderliche erlernen zu lassen, konnten diese Darstellungen direkt in andere Modelle eingebunden werden, die für nachfolgende Aufgaben verwendet werden. Dies nennt man Vorbildung von Sprachmodellen, und mit skurrilen Namen wie ELMo, BERT, Ernie2.0 und RoBERTa (und den weniger amüsanten GPT und XLNet) begannen diese die Aufgaben der Sprachmodellierung und Sprachgenerierung zu dominieren und erforderten große Datenmengen und in einigen Fällen eine große Anzahl von Ressourcen.

Mit diesen neuen Modellen stieg die Notwendigkeit, schnell Verbesserungen aufzuzeigen und den Titel ,,State-of-the-Art” zu erringen und die Anzahl der Veröffentlichungen auf den letzten paar Konferenzen, bei denen Ergebnisse mit einem massiven Betrag von Ressourcen erzielt wurden, begann zu steigen.

Bei den meisten Veröffentlichungen (mit Ausnahme derjenigen, in denen nicht über die verwendeten Ressourcen berichtet wird) wird immer häufiger festgestellt, dass Schulungen mit Dutzenden von GPUs über mehrere Tage oder sogar Wochen hinweg durchgeführt wurden. Bei GPT beispielsweise mussten für das Modell acht GPUs einen ganzen Monat lang trainiert werden. GPT-2, der Nachfolger, verfügt über zehnmal so viele Parameter und wurde auf zehnmal so viele Daten trainiert. Diese Forschung hat mehrere Experimente durchgeführt, um mit einem Gesamttraining von mehr als drei Monaten eine moderate Verbesserung auf 512 GPUs zu erreichen.

Viele Forscher diskutieren die Relevanz von State-of-the-Art, wenn sie nur mit brachialer Gewalt erreicht wird, und diskutieren die Auswirkungen von Ranglisten, die sich nur mit einer einzigen Metrik befassen, die optimiert wird. Es wird immer weniger deutlich, ob diese Verbesserungen durch die Methoden oder nur durch die bloße Anzahl von Rechenleistung und Ressourcen erzielt werden. Und wenn wir nicht sagen können, woher die Verbesserungen kommen, dann ist es fair, den Prozess in Frage zu stellen, mit dessen Hilfe diese Veröffentlichungen für führende Konferenzen ausgewählt werden.

Eine Krise der Reproduzierbarkeit

Selbst unter Berücksichtigung der Energiekosten und des Fußabdrucks wiesen diese Modelle andere Probleme auf. Massive Ressourcen sind nicht nur aus energetischer Sicht teuer. Sie sind tatsächlich teuer. Und in der Regel verfügen nur große Forschungsgruppen oder Unternehmen über das Kapital, um diese Art von Experimenten durchzuführen.

Es gibt noch andere Barrieren als die Menge an Ressourcen und die Forscher haben diese Krise der Reproduzierbarkeit kritisiert und auf eine Reihe beunruhigender Trends hingewiesen, darunter das Versäumnis, zwischen Verbesserungen aus der Architektur und dem Tuning zu unterscheiden. Einige Forscher haben sich für eine bessere Berichterstattung mit Haushaltsberichten und Checklisten für die Reproduzierbarkeit ausgesprochen, um die Transparenz zu erhöhen. NeurIPS zum Beispiel forderte die Forscher auf, ihre eigenen Checklisten einzureichen.

Diese Gruppen machen geltend, dass diese Modelle wiederverwendbar sind. Diese Gruppen machen geltend, dass diese Modelle wiederverwendbar sind. Wenn Open-Sourcing-Lösungen verwendet werden, wie dies heute bei vielen Unternehmen der Fall ist, können diese einfach für nachfolgende Experimente oder Aufgaben angeschlossen und unverändert verwendet werden, und kleinere Unternehmen müssen sie nicht auf ihrer Seite reproduzieren. Aber so einfach ist es nie. Diese Modelle sind nicht narrensicher und wir alle kennen die Mängel der KI, insbesondere wenn es um Voreingenommenheit geht. Wie meine Kollegin Christine kürzlich schrieb, müssen wir über die Daten nachdenken, die wir in unsere Modelle einspeisen und unsere Vorurteile verstärken können und ,,zu einerDiskriminierung in Einstellungsverfahren, bei Kreditanträgen und sogar im Strafrechtssystem führen können.„Es ist also ziemlich mutig anzunehmen, dass diese Modelle niemals überarbeitet werden müssen.

Auf dem Weg zu einer verantwortungsbewussten KI

Wenn wir über KI sprechen, stellen sich die meisten Menschen entweder eine Utopie oder ein apokalyptisches Szenario vor. In der Regel letzteres. Angesichts der Tatsache, dass die tatsächliche Künstliche Intelligenz noch lange nicht geknackt ist, könnten wir größere Sorgen haben. Als KI-Forscher müssen wir diese Diskussion vorantreiben und über die Auswirkungen unserer Arbeit nachdenken. Wir müssen über den CO2-Fußabdruck der Modelle nachdenken, die wir trainieren, insbesondere in einer Zeit, in der Millionen junger Menschen streiken und unsere Regierungen unter Druck setzen, die globale Erwärmung zu bekämpfen.

Für Strubell können wir verantwortungsbewusster werden und die Fairness in der NLP-Forschung durch eine Reihe von Bemühungen verbessern, indem wir rechentechnisch gesehen effiziente Hardware und Algorithmen priorisieren und sogar bessere Hyperparametertuning-Techniken bevorzugen; und indem wir das durchgesetzte Budget bekanntgeben, ein wesentlicher Teil der Entwirrung dieser hochmodernen Ansprüche.

Es gibt aber noch andere Dinge, die wir tun könnten. Wir könnten uns stärker auf Forschungsrichtungen konzentrieren, bei denen die Effizienz von Natur aus im Vordergrund steht, z. B. Datenauswahl- und Datenbereinigungsbereiche, Szenarien mit geringen Ressourcen. Und vielleicht ist es an der Zeit, dass große Konferenzen die Führung bei der Durchsetzung dieser Werte übernehmen, indem sie beispielsweise den Fußabdruck eines Modells in den Ranglisten abwägen.

Es gibt keine schnelle Lösung, aber viele dieser kleinen Änderungen könnten hilfreich sein. Und allein die Tatsache, dass diese Themen immer mehr Beachtung finden, ist ein positiver Indikator dafür, dass wir als Gemeinschaft auf bessere Lösungen hinarbeiten sollten.