„Ich mag meinen Kaffee wie meinen Krieg. Kalt.”

Einige Jahre, nachdem zwei Wissenschaftler der Universität Washington ein Programm geschrieben hatte, das am Ende eines Satzes in 72% der Fälle korrekterweise ,,das ist, was sie sagte” hinzufügte, beschlossen Forscher der Universität Edinburgh, es zu versuchen. Sie trainierten ein Modell auf große Mengen von Sprachdaten hin, um Witze nach der,,Ich mag mein X wie ich mein Y, Z”-Struktur zu erstellen, wobei sie Witze wie den obigen produzierten, oder den weit weniger lustigen ,,Ich mag meine Frauen wie meine Kamera… bereit zum Blitzen”.

Sicher, es sieht aus wie ein Witz aus und klingt wie ein Witz, aber viele argumentieren, dass ihm der grundlegende Teil des Witzes fehlt – es ist einfach nicht lustig.

Es stellt sich heraus, dass Computer zwar bei vielen Aufgaben unendlich besser sind als wir, aber nicht so gut darin sind, Witze zu machen. Das hat die Forscher jedoch nicht davon abgehalten, Komik generierende Algorithmen zu entwickeln. Und so angenehm es auch sein muss, einer Maschine zuzuschauen, die um einen anständigen Witz kämpft, der Grund, warum so viele Akademiker und Wissenschaftler die faszinierende Welt des Computerhumors erforschen, ist nicht nur eine Laune der Natur.

Entwickler, Wissenschaftler, Produktmanager und Wissenschaftler arbeiten alle daran, Interaktionen zwischen Mensch und Maschine so natürlich und persönlich wie ein Gespräch zwischen zwei Freunden zu gestalten und dafür müssen sie sich mit der Verarbeitung natürlicher Sprache befassen und Computern beibringen, die Strukturen unserer Sprache zu verarbeiten, zu analysieren und zu replizieren. Und das ist keine leichte Aufgabe. In einem Handbuch der Mathematischen Linguistik heißt es in der Tat: „Diese Aufgaben sind so schwierig, dass Turing zu Recht eine fließende Konversation in natürlicher Sprache zum Kernstück seines Intelligenztests machen könnte”.

Obwohl man es nicht unbedingt nach einer Reihe ,,Die lustigsten Heimvideos” auf Youtube sagen würde, ist Humor eine der raffiniertesten Formen menschlicher Intelligenz – skatologisch gesehen. Dies liegt zum Teil daran, dass in der humorvollen Sprache normalerweise komplexe, mehrdeutige und inkongruente Ausdrücke verwendet werden, die eine tiefe semantische Interpretation erfordern.

Und deshalb fehlt es an Forschungen zur tiefen Modellierung von Humor – er ist zu komplex oder, wie Forscher es nennen, KI-vollständig – eine Kategorie, die den schwierigsten KI-Problemen vorbehalten ist, bei denen die Lösung des jeweiligen Rechenproblems ebenso schwierig ist wie die Lösung der zentralen Frage der künstlichen Intelligenz.

Den Witz finden

Wir haben seit Tausenden von Jahren versucht von Aristoteles über Freud, Kierkegaard bis Monty Python, eine Formel zu knacken, die Humor erklären kann. Die erste Theorie des Humors (oder besser gesagt die erste, die wir kennen) stammt aus dem antiken Griechenland. Die als Überlegenheitstheorie bekannte Theorie besagt, dass der Humor aus dem Unglück anderer entsteht. Es ist zwar eine perfekte Erklärung dafür, warum wir kichern, wenn jemand auf dem Bürgersteig ausrutscht, aber es erklärt andereseits nur wenig. Viel später, im frühen 20th-Jahrhundert, kommt dann Freudsche Erleichterungstheorie. Er behauptet, Humor sei eine Befreiung von unseren angesammelten inneren Wünschen ist, dass dies geschieht, wenn das Bewusstsein die Äußerungen von Gedanken zulässt, die normalerweise verboten waren. Großartig für schmutzigen, sarkastischen oder feindseligen Humor, aber dennoch fallen nicht alle Witze unter diese Kategorie.

In den 70er Jahren schlossen sich dann Linguisten hinter der Inkongruenztheorie zusammen: Die von den Philosophen Kant und Schopenhauer verbreitete Idee, dass wir über Verletzungen unserer Erwartungen lachen. Ein Witz ist daher ein zweiteiliges Unterfangen – er erfordert eine Organisation, eine Schaffung von Erwartungen und eine Pointe, wenn diese Erwartung untergraben wird.

Diese Theorie war eine der ersten, auf die Didi Yang, Assistenzprofessorin an der School of Interactive Computing der Georgia Tech, stieß. Zurück im Jahr 2015, als sie an der Carnegie Mellon war, wunderte sich Yang immer über Humor. Nicht, dass sie sich sehr für Witze interessiert: ,,Ich bin keine humorvolle Person, aber ich mag Humor.” Humor ist ein entscheidender Bestandteil des Verständnisses der menschlichen Kommunikation. ,,Ich denke, wenn unsere Computer Humor verstehen, können sie die wahre Bedeutung der menschlichen Sprache besser verstehen”, sagte sie. ,,Wenn man an all diese Gesprächsmittel wie Google Assistant, Alexa oder Siri denkt, könnten sie, wenn sie ein besseres Verständnis von Humor hätten, bessere Entscheidungen treffen, um die Benutzererfahrung zu verbessern”.

Humor könnte ihr beim Aufbau intelligenter Systeme helfen, die natürliche, einfühlsame Mensch-Computer-Interaktionen ermöglichen. Deshalb führte sie ein unabhängiges Forschungsprojekt durch, in dem sie versuchte, Computermodelle zu erstellen, um die Strukturen hinter Humor zu entdecken, ihn zu erkennen und sogar zu erkennen, welche Wörter in einem Satz Humor hervorrufen.

Yang tauchte tief in die linguistischen Theorien des Humors ein und identifizierte mehrere semantische Strukturen für jede einzelne, mit denen sie die Modelle trainieren konnte. Eine davon war die Theorie der Inkongruenz – was erklärt, warum wir Bilder von Affen in Anzügen und mit Aktentaschen lustig finden oder, um einen anderen Witz mit Affenmotiven zu zitieren: ,,Warum ist der Affe vom Baum gefallen? Weil er tot war.”

Die latenten Strukturen hinter Humor

In ihrer Forschung untersuchte Yang mehrere latente Strukturen hinter Humor, die nicht nur in der Theorie der Inkongruenz vorhanden sind, sondern auch in drei anderen:

  • Mehrdeutigkeit. Humor und Mehrdeutigkeit kommen oft zusammen, wenn ein Zuhörer eine Bedeutung erwartet, aber gezwungen ist, eine andere zu verwenden.

Hast du von dem Kerl gehört, dessen ganze linke Seite abgeschnitten wurde? Er ist jetzt in Ordnung.

  • Phonetischer Stil. Einige sprachliche Studien zeigen, dass die phonetischen Eigenschaften von Witzen – Alliteration, Wortwiederholung, Reim – genauso wichtig sein können, wenn nicht sogar mehr als der Inhalt selbst. Viele Einzeiler haben einen gewissen komischen Effekt, auch wenn der Witz nicht unbedingt lustig ist. Beispielsweise:

Wenn Du ein Einkaufszentrum gesehen hast, hast du alle gesehen.

  • Zwischenmenschlicher Effekt – Diese Theorie erklärt, dass Humor im Wesentlichen mit Gefühl und Subjektivität verbunden ist, insbesondere in Kontexten, die von Feindseligkeit geprägt sind. Das ist der Grund, warum Sätze wie der folgende irgendwie lustig sind, obwohl man argumentieren könnte, dass es dort kaum Raffinesse gibt.

Dein Dorf hat angerufen. Sie wollen ihren Idioten zurückhaben.

Um eine automatische Erkennung der Extraktion von Humor und Humorankern durchzuführen – Wörter wie ,,Klopf, Klopf”, die Hinweise auf eine humorvolle Interaktion geben – benötigte Yang einen Datensatz mit sowohl humorvollen als auch nicht humorvollen Beispielen. ,,Es war nicht einfach, Nachforschungen anzustellen”, sagte Yang. ,,Es war ein relativ wenig erforschtes Thema. Wir haben viel Zeit damit verbracht, die Daten zu beschaffen. Sie benutzte ,,Pun of the Day ” – die größte Sammlung humorvoller Wortspiele im Internet – und den 16000 Einzeiler-Datensatz. Als Kontrollgruppe verwendete sie Schlagzeilen von AP News, der New York Times, Yahoo! Antwort und Sprichwort.

Um die Anker zu identifizieren – die Worte, die den Witz auslösen – analysierten Yang und ihre Kollegen jeden Einzeiler, der die Kriterien für eine der humorvollen Strukturen von erfüllte. Lies den folgenden Witz:

Ich bin froh, dass ich Gebärdensprache kenne; sie ist ziemlich handlich.

Die menschlichen Anker sind nicht die Wörter wie ,,kennen” oder ,,bin” und nicht die Paare ,,wissen” und ,,ziemlich handlich”. Vielmehr ist es die Kombination aus „Gebärdensprache“ und „ziemlich handlich“, die den Witz ermöglicht – egal wie trocken er ist. Jedem der Ankerkandidaten wird ein vorhergesagter Humorwert zugewiesen, der dann von einem auf alle Datenpunkte trainierten Humorerkennungssichter berechnet wird.

Die Humorankerkandidaten, die die höchste Punktzahl liefern, werden dann als Ankersatz zurückgegeben. Die Ergebnisse waren vielversprechend – sie verwendeten andere Methoden zur Erkennung von Humor, wie ,,Bag of Words”, ,,Language Model” und Word2Vec, als Basislinien und erzielten bessere Ergebnisse.

Aber es gibt noch viel zu tun. Zumal es beim Humor nicht nur um die Worte geht.

Es dreht sich alles um T * I * M * I * N * G *

Es gibt einen alten Witz, der ungefähr so lautet:

,,Frag mich nach dem Geheimnis guten Komik.”
,,Was ist die Sekunde -“
“Timing!”

Wir haben alle gesehen, wie derselbe Witz wunderschön klingt, wenn bestimmte Komiker ihn sagen, nur um dann in einem fehlgeleiteten Versuch, bei einem Familientreffen lustig zu sein, lahm zu klingen, wenn man ihn nachplappert. Aber wie Rhodri Marsden einmal betonte: „Das liegt an einer Kombination aus Ruf, Dynamik, Präsenz und Timing.„Aus offensichtlichen Gründen ist es nicht so einfach, Modelle zu trainieren, das Timing zu erkennen, als sie zu bitten, am Ende eines bestimmten Satzes ein einfaches „das hat sie gesagt “zu erkennen.

Dennoch gibt es einige interessante Studien dazu. Amruta Purandare und Diane Litman vom Intelligent Systems Program der University of Pittsburgh haben 2 Stunden Audio aus insgesamt 75 Szenen von sechs verschiedenen Friends-Episoden analysiert und jede Wendung eines Sprechers markiert, auf die ein eingespielter Lacher folgt.

Sie untersuchten bestimmte akustische und sprachliche Merkmale wie Tempo, Tonhöhe, Anzahl der Wörter und wie oft bestimmte Wörter wiederholt werden. Ihre Analyse bestätigte etwas, das wir schon immer gewusst haben – es gibt signifikante Unterschiede in diesen prosodischen Merkmalen von humorvoller und nicht humorvoller Sprache, die über verschiedene Geschlechter und Sprecher hinweg konsistent sind. Bei lustigeren Interaktionen haben Sprecher tendenziell ein höheres Tempo, eine höhere Tonhöhe und Energie, was mit früheren Untersuchungen übereinstimmt, welche zeigen, dass diese Merkmale mit positiven emotionalen Zuständen wie Selbstvertrauen verbunden sind, die eher in humorvollen Kommunikationen auftreten.

Es zeigte sich auch, dass Chandler, nicht überraschend, die lustigeren Interaktionen in diesen 75 Szenen hat (22,8% aller Witze sind seine) und dass eingespielte Lacher – deren Popularität seit den 80ern und 90ern dankenswerterweise zurückgegangen ist – tatsächlich für etwas gut sind.

Die Forschung im Bereich rechnergestützten Humor befindet sich noch in einem sehr frühen Stadium, aber Computer scheinen darin immer besser zu werden. Es liegt noch ein langer Weg vor uns, aber zum Glück ist dieser Weg mit schlechten Wortspielen und kitschigen Einzeilern gepflastert. Und während die Jury noch unschlüssig ist, ob „ich meinen Kaffee mag, wie ich meinen Krieg mag. Kalt.” lustig ist oder nicht, so finde ich den Witz lustig. Ich bin eine Frau mit einfachem Geschmack. Wenn es wie ein Witz aussieht und wie ein Witz klingt, ist es wahrscheinlich einer.