Ich habe neulich mit meiner Großmutter telefoniert, als sie mir sagte: „Ich weiß nicht, was du beruflich machst, aber ich bin mit allem einverstanden, was es auch sein mag, solange du glücklich bist.“

In der heutigen Zeit kann es schwierig sein, deiner Großmutter zu erklären, was du beruflich machst. Es gibt Jobs, die immer noch relativ einfach zu definieren sind: Wenn du Architekt bist, entwirfst du Häuser. Wenn du Ingenieur bist, baust du sie. Es gibt aber auch eine Reihe von technischen Rollen, die für jemanden, der nicht in ihrer Umgebung aufgewachsen ist, schwer zu fassen sind. Für meine Großmutter ist es leicht zu verstehen, dass mein Job irgendetwas mit Schreiben zu tun hat, aber sie versteht die Internet-Seite der Dinge nicht, ganz zu schweigen davon, was die Geschäftsaktivität von Unbabel ist.

Als ich Yoav Goldberg, leitender Dozent am Institut für Informatik der Bar Ilan Universität, fragte, wie er seiner Großmutter seinen Job erklären würde, erwartete ich, dass er Schwierigkeiten haben würde, eine Erklärung zu finden, die für den Durchschnittsbürger leicht zu verstehen wäre. Er drückte es jedoch ganz einfach aus, dass seine Aufgabe darin besteht, „Computer dazu zu bringen, etwas Halb-Kluges mit Sprache zu tun, das darauf hindeutet, dass ein gewisses Verständnis stattgefunden hat“.

Aber was genau macht ein leitender Dozent in Informatik täglich?

Yoav Goldberg hat seine Zeit zwischen zwei verschiedenen Arbeitsbereichen aufgeteilt. Das Erste ist zu verstehen, wie Deep Learning-Modelle Dinge lernen und was sie lernen können oder nicht, was für ihn ein wichtiges Thema ist, da „niemand wirklich versteht, was genau geschieht“. Das zweite Arbeitsfeld besteht darin, herauszufinden, wie man Komponenten oder Werkzeuge für die Verarbeitung natürlicher Sprache erschafft, die für Personen und Unternehmen nützlich sind, deren Kerngeschäft nicht in der NLP liegt und die keine Experten auf diesem Gebiet sind, die diese Werkzeuge aber dennoch benötigen, um Sprache auf irgendeine Weise zu verarbeiten.

Obwohl er an der Anwendung von NLP in der Wirtschaft interessiert ist, ist er der Ansicht, dass im Allgemeinen eine Trennung zwischen Wissenschaft und Industrie besteht. Der erste Ansatz konzentriert sich auf das Erkennen und Lösen neuer Probleme, während der Zweite auf die Umsetzung dieser Ergebnisse in die Praxis abzielt. In einigen Fällen ist es möglich, akademische Forschung zu betreiben und sie in verschiedenen Branchen anzuwenden. Wie Yoav Goldberg jedoch erklärt, führt diese Forschung nur zu einem sehr geringen Teil zur Entwicklung eines Produkts.

Ich denke, dass wir uns aus akademischer Sicht nicht genug auf Dinge konzentrieren, auf die wir uns wirklich konzentrieren sollten, wie etwa Werte oder andere Metriken, die leicht zu optimieren sind, aber nicht mit dem, was du tatsächlich willst, verbunden sind.

Obwohl es sich nicht direkt um sein Forschungsgebiet handelt, ist Goldberg der Ansicht, dass die maschinelle Übersetzung derzeit wahrscheinlich die beste verfügbare Technologie ist, die im Zusammenhang mit seinen Untersuchungen in NLP steht. Es ist diejenige, die am besten funktioniert und die wir am häufigsten in Unternehmen angewendet sehen. Der Grund dafür ist seiner Meinung nach, dass man mit Sprache ziemlich viel anfangen kann, ohne sie in vollem Umfang zu erfassen. Es geht einfach darum, eine Eingabe in einer Sprache in eine Ausgabe in einer anderen Sprache umzuwandeln. Du musst nicht verstehen, was sich in der Mitte befindet.

Dies macht es einfach, die maschinelle Übersetzung so leistungsfähig zu machen, dass sie nützlich ist. Aber wenn sie fehlschlägt, muss man eingreifen, um zu verstehen, warum. In einem Artikel, welchen er im Jahr 2017 schrieb, gab Yoav Goldberg an, viel Respekt vor der Sprache zu haben, im Gegensatz zu “Deep Learning-Leuten, die dies scheinbar nicht haben”. Aus seiner Sicht gaben Forscher auf diesem Gebiet an, Sprachprobleme gelöst zu haben, die sie offensichtlich nicht gelöst hatten.

Sie haben den Eindruck vermittelt, dass es ihnen nicht wirklich wichtig war, wie die Daten aussahen. Du musst nur einige Zahlen eingeben, ohne die Feinheiten der Sprache wirklich zu schätzen.

Eine dieser Feinheiten ist der Kontext. Wenn du zum Beispiel in einer Zeitung etwas liest wie „wenn die Preise steigen, passiert etwas“, dann werden nicht die Preise im Allgemeinen steigen, sondern die Preise von etwas, das vielleicht im Titel oder irgendwo anders im Text aufgeführt wird. In diesem speziellen Satz ist es nicht klar, aber jeder, der ihn liest, versteht, was es ist. Maschinen tun das nicht.

Yoav Goldberg ist derzeit führend in der Erforschung der Lösung dieses Problems. Es ist sehr herausfordernd, weil es viele Möglichkeiten gibt, wie Menschen beim Sprechen oder Schreiben Informationen weglassen. Ein anderes Beispiel lautet: “Nein, danke, ich hatte bereits fünf.” Es sind fünf von etwas, das der Sprecher zuvor hatte, aber das Substantiv fehlt nach der Zahl. Die Art und Weise, wie Forscher damit umgehen, besteht darin, verschiedene Kontexte zu isolieren und an jedem von ihnen separat zu arbeiten. Goldbergs Team hat ein System entwickelt, das bereits relativ gut auf diese Art von Kontext schließen kann, aber es gibt noch viele andere Kontexte, die berücksichtigt und bearbeitet werden müssen.

Wenn Yoav Goldberg über die Zukunft der NLP-Untersuchung und -Anwendung nachdenkt, werden wir wahrscheinlich in fünf oder sogar zehn Jahren noch neuronale Netze verwenden. Sie funktionieren gut und es gibt im Moment keine bessere Technologie. Es gibt jedoch ein häufiges Problem bei neuronalen Netzen: Sie funktionieren, wenn du über genügend Daten verfügst, und sie funktionieren nicht, wenn du nicht über genügend Daten verfügst.

Bei den Domänen, für die einfach nicht genügend Daten verfügbar sind, geht es darum, dass sie mit weniger Daten und nur wenigen Beispielen funktionieren, aber wir dennoch versuchen, sie zu verallgemeinern, damit die Systeme eine gute Leistung erbringen. Dies ist ein Trend, dem Forscher in den kommenden Jahren wahrscheinlich weiterhin folgen werden.

Was die maschinelle Übersetzung angeht, so glaubt Yoav Goldberg nicht, dass Menschen jemals völlig außer Acht gelassen werden, vor allem, weil neuronale Systeme noch nicht wissen, ob sie Fehler machen. Sie verstehen die Sprache einfach nicht wie Menschen.

Aber Yoav Goldberg ist auch nicht daran interessiert, dass sie sie verstehen.

Ich bin nicht vom Streben nach Intelligenz getrieben, sondern von Fragen wie: “Wie ist Sprache strukturiert und wie können wir damit nützliche Dinge tun?”

Dies sind die Fragen, die ihn während seiner 20-jährigen Karriere geleitet haben – Fragen, die er als Kind, das zum Zauberer oder Superhelden werden wollte, nicht wirklich hat kommen sehen. Er hat viele Videospiele gespielt und war immer neugierig, wie man einen Befehl eingibt, um Dinge geschehen zu lassen. Er sagt auch, dass ihm die Sprache bis zu einem gewissen Grad immer wichtig war.

Vielleicht wäre es leichter, einem älteren Verwandeten Zauberer, Superheld oder sogar Reality-TV-Star (vor ein paar Jahren hatte er die Möglichkeit, an der israelischen Version von Beauty and the Geek teilzunehmen, lehnte jedoch die Einladung ab) zu erklären, doch leitender Dozent für Informatik macht irgendwie mehr Sinn.