Chatbots – ohne gesunden Menschenverstand?

Kann Google Meena bald mehr?

Diptychon des Federico da Montefeltro mit seiner Gattin Battista Sforza (Piero della Francesca)

Moderne Chatbots sind in der Regel hochspezialisiert – sie funktionieren gut, solange sich die Benutzer nicht zu weit inhaltlich von ihrer erwarteten Nutzung entfernen. Um eine Vielzahl von Konversationsthemen besser handhaben zu können, erforscht die Open-Domain-Dialogforschung einen komplementären Ansatz, bei dem versucht wird, einen Chatbot zu entwickeln, der nicht spezialisiert ist, aber dennoch über praktisch alles plaudern kann, was ein Benutzer wünscht. Abgesehen davon, dass ein solcher Gesprächsagent ein faszinierendes Forschungsproblem darstellt, könnte er zu vielen interessanten Anwendungen führen, wie z.B. zur weiteren Humanisierung der Computerinteraktionen, zur Verbesserung der Fremdsprachenpraxis und zur Herstellung verwandter interaktiver Film- und Videospielfiguren.

Die derzeitigen Open-Domain-Chatroboter haben jedoch einen kritischen Fehler – sie machen oft keinen Sinn. Sie sagen manchmal Dinge, die im Widerspruch zu dem stehen, was bisher gesagt wurde, oder es fehlt ihnen an gesundem Menschenverstand und Grundwissen über die Welt. Außerdem geben Chatbots oft Antworten, die nicht spezifisch für den aktuellen Kontext sind. Zum Beispiel ist “Ich weiß es nicht” eine vernünftige Antwort auf jede Frage, aber sie ist nicht spezifisch. Gegenwärtige Chatbots tun dies viel öfter als Menschen, weil es viele mögliche Benutzereingaben abdeckt.

Ein Gespräch zwischen Meena (links) und einer Person (rechts). Quelle: https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

Meena
Meena ist ein durchgehendes, neuronales Gesprächsmodell, das lernt, auf einen gegebenen Gesprächskontext vernünftig zu reagieren. Das Trainingsziel besteht darin, die Ratlosigkeit, die Unsicherheit bei der Vorhersage des nächsten Zeichens (in diesem Fall des nächsten Wortes in einem Gespräch) zu minimieren. Im Mittelpunkt steht die Evolved Transformer seq2seq architecture, eine Transformer-Architektur, die durch die evolutionäre neuronale Architektursuche zur Verbesserung der Perplexität entdeckt wurde.

Google scheit auf dem Weg zu sein das zu lösen: In “Auf dem Weg zu einem menschenähnlichen Open-Domain-Chatbot” stellen wir Meena vor, ein 2,6 Milliarden Parameter umfassendes, durchgehend trainiertes neuronales Konversationsmodell. Wir zeigen, dass Meena Gespräche führen kann, die sinnvoller und spezifischer sind als bestehende Chatbots auf dem neuesten Stand der Technik. Solche Verbesserungen spiegeln sich in einer neuen menschlichen Beurteilungsmetrik wider, die wir für Open-Domain-Chatbots vorschlagen, genannt Sensibilitäts- und Spezifizitätsdurchschnitt (SSA), die grundlegende, aber wichtige Attribute für menschliche Konversation erfasst. Bemerkenswert ist, dass wir zeigen, dass Perplexität, eine automatische Metrik, die für alle neuronalen Konversationsmodelle leicht verfügbar ist, in hohem Maße mit SSA korreliert.

Konkret hat Meena einen einzelnen Evolved-Transformer-Encoder-Block und 13 Evolved-Transformer-Decoder-Blöcke, wie unten dargestellt. Der Kodierer ist für die Verarbeitung des Gesprächskontextes verantwortlich, um Meena dabei zu helfen, zu verstehen, was in dem Gespräch bereits gesagt wurde. Der Decoder verwendet dann diese Informationen, um eine tatsächliche Antwort zu formulieren. Durch die Abstimmung der Hyperparameter entdeckten wir, dass ein leistungsfähigerer Decoder der Schlüssel zu einer höheren Gesprächsqualität ist.

Example of Meena encoding a 7-turn conversation context and generating a response, “The Next Generation”.

Gespräche, die für das Training verwendet werden, sind als Baumfäden organisiert, wobei jede Antwort im Faden als eine Gesprächsreihe betrachtet wird. Wir extrahieren jedes Konversationstrainingsbeispiel mit sieben Windungen des Kontexts als einen Pfad durch einen Baumfaden. Wir wählen sieben als eine gute Balance zwischen einem langen Kontext, der lang genug ist, um ein Gesprächsmodell zu trainieren, und der Anpassung von Modellen innerhalb von Gedächtnisbeschränkungen (längere Kontexte benötigen mehr Gedächtnis).

Das Meena-Modell hat 2,6 Milliarden Parameter und wird auf 341 GB Text trainiert, der aus öffentlich zugänglichen Social-Media-Gesprächen gefiltert wurde. Im Vergleich zu einem bestehenden generativen Modell auf dem neuesten Stand der Technik, OpenAI GPT-2, hat Meena eine 1,7-mal größere Modellkapazität und wurde auf 8,5-mal mehr Daten trainiert.

Menschliche Bewertungsmetrik: Durchschnittliche Sensibilität und Spezifizität (SSA)
Vorhandene menschliche Bewertungsmetriken für die Chatbot-Qualität sind in der Regel komplex und führen nicht zu einer konsistenten Übereinstimmung zwischen den Gutachtern. Dies hat uns dazu motiviert, eine neue menschliche Beurteilungsmetrik, den Sensibilitäts- und Spezifizitätsdurchschnitt (SSA), zu entwickeln, die grundlegende, aber wichtige Attribute für natürliche Unterhaltungen erfasst.

Zur Berechnung des SSA haben wir Freiformgespräche mit den getesteten Chatrobotern – Meena und anderen bekannten Open-Domain-Chatrobotern, insbesondere Mitsuku, Cleverbot, XiaoIce und DialoGPT – geführt. Um die Konsistenz zwischen den Auswertungen zu gewährleisten, beginnt jedes Gespräch mit der gleichen Begrüßung: “Hallo! Für jede Äußerung beantworten die Mitarbeiter in der Menge zwei Fragen: “Macht es Sinn?” und “Ist es spezifisch? Der Evaluator wird gebeten, mit gesundem Menschenverstand zu beurteilen, ob eine Antwort im Kontext völlig vernünftig ist. Wenn irgendetwas abwegig erscheint – verwirrend, unlogisch, aus dem Zusammenhang gerissen oder sachlich falsch – dann sollte es als “macht keinen Sinn” bewertet werden. Wenn die Antwort sinnvoll ist, wird die Äußerung dann bewertet, um festzustellen, ob sie für den gegebenen Kontext spezifisch ist. Wenn zum Beispiel A sagt: “Ich liebe Tennis”, und B antwortet: “Das ist schön”, dann sollte die Äußerung als “nicht spezifisch” bewertet werden. Diese Antwort könnte in Dutzenden von verschiedenen Kontexten verwendet werden. Aber wenn B antwortet: “Ich auch, ich kann nicht genug von Roger Federer bekommen!”, dann wird sie als “spezifisch” markiert, da sie sich eng auf das bezieht, was diskutiert wird.

Für jeden Chatbot sammeln wir zwischen 1600 und 2400 individuelle Gesprächsrunden durch etwa 100 Gespräche. Jede Modellantwort wird von Crowworkern beschriftet, um anzuzeigen, ob sie sinnvoll und spezifisch ist. Die Sensibilität eines Chatbots ist der Anteil der Antworten, die als “sensibel” bezeichnet werden, und Spezifität ist der Anteil der Antworten, die als “spezifisch” gekennzeichnet sind. Der Durchschnitt aus diesen beiden ist der SSA-Wert. Die untenstehenden Ergebnisse zeigen, dass Meena in Bezug auf die SSA-Werte weitaus besser abschneidet als die bestehenden Chatbots auf dem neuesten Stand der Technik und die Lücke zur menschlichen Leistung schließt.

Durchschnittliche Sensibilität und Spezifizität (SSA) von Meena im Vergleich zum Menschen, Mitsuku, Cleverbot, XiaoIce und DialoGPT.

Automatische Metriken: Ratlosigkeit
Forscher haben lange nach einer automatischen Bewertungsmetrik gesucht, die mit einer genaueren, menschlichen Bewertung korreliert. Dies würde eine schnellere Entwicklung von Dialogmodellen ermöglichen, aber bisher war es schwierig, eine solche automatische Metrik zu finden. Überraschenderweise entdecken wir in unserer Arbeit, dass Perplexität, eine automatische Metrik, die für jedes neuronale Seq2seq-Modell leicht verfügbar ist, eine starke Korrelation mit menschlicher Bewertung, wie z.B. dem SSA-Wert, aufweist. Perplexität misst die Unsicherheit eines Sprachmodells. Je geringer die Perplexität, desto sicherer ist das Modell bei der Erzeugung des nächsten Tokens (Zeichen, Unterwort oder Wort). Konzeptionell stellt die Perplexität die Anzahl der Wahlmöglichkeiten dar, aus denen das Modell bei der Erzeugung des nächsten Tokens zu wählen versucht.

Während der Entwicklung haben wir acht verschiedene Modellversionen mit unterschiedlichen Hyperparametern und Architekturen verglichen, z.B. die Anzahl der Schichten, die Aufmerksamkeitsköpfe, die Gesamtzahl der Trainingsschritte, ob wir den Evolved Transformer oder den regulären Transformer verwenden und ob wir mit harten Etiketten oder mit Destillation trainieren. Wie in der Abbildung unten dargestellt, ist der SSA-Score für das Modell mit einem starken Korrelationskoeffizienten (R2 = 0,93) umso besser, je geringer die Perplexität ist.

Interaktives SSA vs. Perplexität. Jeder blaue Punkt ist eine andere Version des Meena-Modells. Es wird eine Regressionslinie aufgetragen, die die starke Korrelation zwischen SSA und Perplexität zeigt. Die gestrichelten Linien entsprechen der SSA-Leistung von Menschen, anderen Bots, Meena (Basis), unserem durchgehend trainierten Modell, und schließlich dem vollständigen Meena mit Filtermechanismus und abgestimmter Dekodierung.

Unser bestes end-to-end trainiertes Meena-Modell, das als Meena (Basis) bezeichnet wird, erreicht eine Perplexität von 10,2 (kleiner ist besser), was einem SSA-Wert von 72% entspricht. Im Vergleich zu den SSA-Ergebnissen anderer Chabots ist unser SSA-Wert von 72% nicht weit entfernt von den 86% SSA-Wert, die eine Durchschnittsperson erreicht. Die Vollversion von Meena, die über einen Filtermechanismus und eine abgestimmte Dekodierung verfügt, verbessert den SSA-Wert weiter auf 79%.

Zukünftige Forschung & Herausforderungen
Wie bereits befürwortet, werden wir auch weiterhin unser Ziel verfolgen, die Ratlosigkeit neuronaler Konversationsmodelle durch Verbesserungen bei Algorithmen, Architekturen, Daten und Berechnungen zu verringern.

Während wir uns in dieser Arbeit ausschließlich auf die Sinnhaftigkeit und Spezifität konzentriert haben, sind auch andere Attribute wie Persönlichkeit und Faktizität in späteren Arbeiten bedenkenswert. Auch die Behandlung von Sicherheit und Verzerrungen in den Modellen ist für uns ein wichtiger Schwerpunktbereich, und angesichts der damit verbundenen Herausforderungen veröffentlichen wir derzeit keine externe Forschungsdemo. Wir evaluieren jedoch die Risiken und Vorteile, die mit der Externalisierung des Modell-Checkpoints verbunden sind, und werden ihn möglicherweise in den kommenden Monaten zur Verfügung stellen, um die Forschung in diesem Bereich voranzubringen.

Danksagungen zu diesem Artikel laut  ai.googleblog.com
Mehrere Mitglieder leisteten einen immensen Beitrag zu diesem Projekt: David So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu. Dank auch an Quoc Le, Samy Bengio und Christine Robson für ihre Unterstützung in der Führung. Dank an die Personen, die Feedback zu den Entwürfen des Papiers gegeben haben: Anna Goldie, Abigail See, YizheZhang, Lauren Kunze, Steve Worswick, Jianfeng Gao, Daphne Ippolito, Scott Roy, Ilya Sutskever, Tatsu Hashimoto, Dan Jurafsky, Dilek Hakkani-tur, Noam Shazeer, Gabriel Bender, Prajit Ramachandran, Rami Al-Rfou, Michael Fink, Mingxing Tan, Maarten Bosma und Adams Yu. Danke auch an die vielen Freiwilligen, die geholfen haben, Gespräche untereinander und mit verschiedenen Chatbots zu sammeln. Schließlich Dank an Noam Shazeer, Rami Al-Rfou, Khoa Vo, Trieu H. Trinh, Ni Yan, Kyu Jin Hwang und dem Google Brain-Team für ihre Hilfe bei diesem Projekt.

Quelle des ursprünglichen Beitrags: https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

Übersetzung: DeepL