André Martins, Research Director von Unbabel, wurde mit einem renommierten European Research Council (ERC) Starting Grant für sein vorgeschlagenes 5-jähriges Forschungsprojekt DeepSPIN – Deep Structured Prediction in Natural Language Processing ausgezeichnet.

Mit einer Vielzahl an neuen Sprachschnittstellen, wie digitalen Assistenten, Messenger-Apps und Kundenservice-Bots, auf dem Vormarsch, hat André zu Recht gesagt, dass diese neuen Technologien noch einen langen Weg vor sich haben:

Trotz der vielen Durchbrüche in der Verarbeitung natürlicher Sprache, der maschinellen Übersetzung und der Spracherkennung, fehlen den tiefen neuronalen Netzen gegenwärtig die wichtigsten strukturellen Mechanismen zur Lösung komplexer Aufgaben in der realen Welt.

Zum Beispiel produzieren Übersetzungssysteme Wort für Wort, wodurch tendenziell Fehler entstehen können. Und selbst wenn sie eine fließende Ausgabe erzeugen, fehlen immer noch zu oft Informationen aus dem Quelltext. Obendrein sind aktuelle neuronale Netze nicht in der Lage, komplex zu denken, ihr Training erfordert zu viel Überwachung und ihre Entscheidungen sind für den Menschen nicht interpretierbar.

Wenn wir wollen, dass AI und Menschen zusammenarbeiten, muss dies behoben werden.

Wir brauchen eine neue Generation von Modellen, Methoden und Algorithmen für den maschinellen Lernprozess, die die Struktur der natürlichen Sprache berücksichtigen, um tiefe Einsichten in die Welt um uns herum zu ermöglichen.

Mit einer Finanzierung von 1,44 Millionen Euro will André drei Postdoktoranden und drei Doktoranden für einen Zeitraum von fünf Jahren einstellen, um den neuesten Stand der Forschung in den Bereichen Deep Learning, maschinelle Übersetzung und Qualität der Übersetzungen zu erreichen.

André setzte sich mit uns zusammen, um über mehr Details des Projekts zu berichten:

[mkdf_separator class_name=”” type= “normal” position=”center” color=”” border_style = “” width=”” thickness=”” top_margin=”” bottom_margin = “”]

Fragen & Antworten mit Unbabel Forschungsleiter André Martins

Sie sagten, dass “Deep Learning das Gebiet der Verarbeitung natürlicher Sprache revolutioniert”. Wie kommt das? Können Sie erklären, was Deep-Learning ist?

Sicher! Deep Learning ist eine Sammlung statistischer Lernmethoden, mit denen Maschinen lernen und ihre Leistung verbessern können, da mehr Daten durch sie übertragen werden. Was Deep Learning von anderen Methoden unterscheidet, ist seine Fähigkeit, interne Repräsentationen zu erlernen.

Neuronale Netze sind das bekannteste Beispiel: Sie bestehen aus mehreren Einheiten (künstliche Neuronen genannt), die in mehreren Schichten miteinander verbunden sind; verschiedene Ebenen erfassen unterschiedliche Repräsentationsebenen (von Wörtern über syntaktische Phrasen bis hin zu semantischen Konzepten).

In den letzten zwei bis drei Jahren haben diese Modelle neue Durchbrüche bei Verarbeitungsaufgaben für natürliche Sprachen wie maschinelle Übersetzung, Spracherkennung und Beantwortung von Fragen erreicht.

In den letzten Jahren haben wir den Aufstieg von digitalen Assistenten wie Amazons Alexa oder Apples Siri, Kundenservice-Bots und Messenger-Apps gesehen. Was denken Sie über die Entwicklung dieser Technologien? Wie weit sind wir von menschenähnlichen Werkzeugen entfernt? Warum?

Diese Technologien haben sich in den letzten Jahren stark weiterentwickelt und sind nun endlich nützlich geworden. Jedoch sind sie immer noch sehr, sehr weit davon entfernt, „menschenähnlich“ zu sein.

Sie können oft fließend klingen und viele tägliche Aufgaben automatisieren und anpassen, aber nur ein paar Versuche der Interaktion zeigen uns schon, dass diese Werkzeuge nicht in der Lage sind, kompliziertere Aufgaben zu lösen. Dazu brauchen wir im Moment eine Verbindung von AI und Mensch.

Sie sagen, dass sich dieses Forschungsprojekt auf die Zusammenführung von Deep Learning und strukturierter Vorhersage konzentriert, um anspruchsvolle Aufgaben in der Verarbeitung natürlicher Sprache zu lösen, einschließlich maschineller Übersetzung, Qualitätsschätzung und syntaktischer Analyse. Können Sie erklären, was Sie damit meinen?

Die Sprache ist voller Struktur: Wir bilden Wörter aus Morphemen, die wir dann zu Phrasen zusammenfassen, die wiederum Sätze bilden, und so weiter.

Das Verständnis dieser syntaktischen Struktur ist der Schlüssel zum Verständnis der Bedeutung eines Satzes, wie in Als sie aß kam die Pizza. Da, die Pizza essen ein so gängiger Satz ist, können wir leicht zu einer falschen Interpretation gelangen. Trotz der jüngsten Fortschritte im Bereich des Deep Learning für die Verarbeitung natürlicher Sprache sind die bestehenden Methoden immer noch nicht in der Lage, mit dieser Struktur umzugehen oder sie zu verstehen.

Zum Beispiel erzeugen maschinelle Übersetzungssysteme typischerweise Wörter von links nach rechts, was sie auch sehr anfällig für Fehler macht. In diesem Projekt werden wir eine neue Generation von Deep-Learning-Methoden entwickeln, die speziell auf die Entdeckung und den Umgang mit Strukturen ausgerichtet sind.

Darüber hinaus wollen wir, dass diese Systeme für den Menschen verständlich sind: Wenn sie denken, dass eine Übersetzung von schlechter Qualität ist, möchten wir, dass sie eine Begründung für diese Entscheidung liefern und die Wörter, die falsch übersetzt wurden, markieren. Dies wird es für Menschen und AI einfacher machen, gemeinsam zu arbeiten.

Können Sie Beispiele für die schwierigsten Aufgaben in der Verarbeitung natürlicher Sprache nennen?

Jede Aufgabe, die ein Verständnis der Sprache erfordert (ein stärkerer Begriff als Verarbeitung), ist äußerst schwierig. Heutzutage können wir immer besser in der Spracherkennung arbeiten. Aber wie schafft man es, dass Maschinen Menschen verstehen und ihnen helfen können, Probleme zu lösen? Dazu benötigen wir maschinelle Übersetzung (um Sprachbarrieren zu beseitigen), Beantwortung von Fragen (um Menschen bei der Suche nach Informationen zu helfen) und zielorientierte Dialogsysteme (interaktiv mit Menschen zu arbeiten, um Aufgaben wie die Buchung eines Fluges zu meistern). Das sind wirklich schwierige Aufgaben.

Was erhoffen Sie sich erreicht zu haben, wenn diese Studie 2003 zu Ende geht?

Ich hoffe auf eine Reihe von Deep-Learning 2.0 Methoden, die (i) Strukturen in Sprache verarbeiten und identifizieren können, (ii) für Menschen interpretierbar sind und (iii) dateneffizient sind, auch für Sprachen mit geringen Ressourcen. Mit diesen Zutaten können wir wirklich einen Quantensprung in Richtung mehrsprachige Kommunikation machen!

Das Projekt wird durchgeführt, in Zusammenarbeit mit Unbabel, dem Institut für Telekommunikation, und derTechnischen Hochschule (IST) der Universität Lissabon

Wenn Sie Interesse haben, an diesem Projekt teilzunehmen und sich bewerben möchten, lesen Sie die vollständige Projektbeschreibung hier.