Affective Computing
Affective Computing (auch: Emotions-KI, Sentimentanalyse) ist eine Technologie durch Einsatz von Künstlicher Intelligenz menschliche Affekte und Emotionen durch Computer zu erkennen.
Die Fähigkeit, menschliche Affekte zu erkennen und auszudrücken, ist eine der wichtigsten Eigenschaften des Menschen. Mithilfe maschineller Lerntechniken, wie der Spracherkennung, der Verarbeitung natürlicher Sprache (Computerlinguistik) oder der Erkennung von Gesichtsausdrücken, erfolgt das Erkennen menschlicher Emotionen durch die Extraktion aussagekräftiger Muster aus den gesammelten Daten, wie die der Sprache und Gesichter. Es ist ein interdisziplinäres Gebiet, das Informatik, Psychologie und Kognitionswissenschaft umfasst.
Entwicklung
Der Begriff »Affective Computing« stammt von Rosalind Picard, die als eine der ersten sich mit diesem Gebiet befasste und die Möglichkeit sah, das von Paul Ekman entwickelte Facial Action Coding System zur Beschreibung von Gesichtsausdrücken mit Rechnern zu automatisieren. Laut Ekman schlüpfen, selbst wenn Personen ihre emotionale Kommunikation zu zensieren oder zu kontrollieren versuchen, »Leaks« durch die Maschen der Kontrolle.[1]
Picard stellte sich einen Computer als »affektiven Spiegel« vor, der einen als Coach auf ein Vorstellungsgespräch oder eine Verabredung vorbereiten könne und z. B. auf aggressive Untertöne aufmerksam machen könne. Oder auch als ein Feedback für Spieleentwickler über das Frustationslevel der Spieler. Ihre Arbeiten über »Affective Computing« veröffentlichte sie 1995 in einem Report[2] und 2000 in dem Buch, Affective Computing.[3]
Zusammen mit Rana el Kaliouby gründete Picard 2009 das Unternehmen »Affectiva«, das auf einer im Media Lab des Massachusetts Institute of Technology entwickelten Technologie gegründet wurde.[4] Unter Leitung von Kaliouby wendete es sich zum Überwachungskapitalismus hin. Kaliouby meint, wir werden das pausenlose Scannen von Emotionen irgendwann genauso hinnehmen wie das Setzen von Cookies beim Surfen im Web. »Affectiva« bietet »Emotion als Dienstleistung«, bei der man eine Auswertung von eingesandten Videos oder Fotos erhält.[1]
2015 erhielt das Start-up Realeyes von der Europäischen Kommission Fördermittel für das Projekt »SEWA: Automatic Sentiment Analysis in the Wild«, welches die Emotionen des Betrachters von Content erkennen kann, und ob er ihm gefällt. 2016 bekam Realeyes dafür den Innovationspreis der Kommission. In der Produktbeschreibung von SEWA steht, dass solche Technologien sogar Verhaltensindikatoren vermessen können, die zu subtil oder flüchtig sind, um von menschlichen Augen oder Ohren gemessen zu werden.[1]
2014 erhielt Facebook ein Patent für »Emotionserkennung«, um das Interesse des Nutzers am dargestellten Content erkennen zu können.[1]
Eine Firma namens Emoshape produziert einen Mikrochip, von dem sie behauptet er könne mit einer Wahrscheinlichkeit bis zu 98 % zwölf Emotionen klassifizieren, was es seiner künstlichen Intelligenz erlaube, 64 Billionen möglicher Zustände zu erfahren.[1]
Die EU-Kommission möchte mit „iBorderCtrl“ Affective Computing für eine Art Lügendetektor einsetzen mit denen Einreisende in die EU überprüft werden sollen.[5]
Auf den „International Conference on Affective Computing and Intelligent Interaction“ findet seit 2005 zweijährlich ein internationaler Erfahrungsaustausch über Affective Computing statt.[6][7]
Methodik der Emotionserkennung
Der emotionale Zustand eines Menschen, der aus seiner Wahrnehmung, seinem Denken und Fühlen resultiert, kann von einer anderen Person nicht direkt beobachtet werden. Was wir beobachten, sind Symptome des emotionalen Zustandes der anderen Person, die von der Sprache bis zu Gesten (der Körpersprache) reichen. Insbesondere der Gesichtsausdruck (Mimik) ist eine sehr wichtige kommunikative Quelle in den zwischenmenschlichen Beziehungen. Sie ergänzt die von der Sprache ausgehende Symptomatik und gibt dem Zuhörer zusätzliche Hinweise über die Bedeutung der gesprochenen Wörter.[2]
Nach einer Studie des US-amerikanischen Psychologieprofessors Albert Mehrabian sind die Worte jedoch nur zu 7 % für den Gesamteindruck verantwortlich, den ein Mensch auf seinen Gesprächspartner mache. Zu 38 % zähle der Tonfall der Stimme und zu 55 % die Körpersprache.
Der Stimme können wir die emotionalen Zustände einer Person entnehmen, die durch Glück, Angst, Freude oder Trauer geprägt ist. Vokale Emotionen können auch von kleinen Kindern verstanden werden, bevor sie verstehen, was gesagt wurde.
Zur Frage: Kann die Maschine Gefühle erkennen? Antwortet Rosalind Picard: „Maschinen erkennen Emotionen, unsere tiefen Gefühle können sie nicht erfassen.“ Neurologische Studien weisen darauf hin, Emotionen nehmen ihren eigenen speziellen Weg zum motorischen System, d. h. der Wille und die Emotionen gehen getrennte Wege. Der Muskel, der diese Vertiefung am unteren Augenlid erzeugt, gehorcht nicht dem Willen; er wird nur durch ein echtes Gefühl, durch Emotion ins Spiel gebracht.
Der Designer und Ingenieur Claude Toussaint des Pflegeroboters Navel:[8] „Das System kann nur Signale wahrnehmen. Es kann zum Beispiel nicht unterscheiden, ob das Lachen ein Ausdruck von Freude oder eine Übersprungshandlung ist. Wir Menschen haben da ein sehr viel breiteres Verständnis von Kontext.“[9]
Die gesammelten Daten, z. B. der Gesichtserkennung, bestehen jeweils aus einer Kombination von einem erfassten emotionalen Gesichtsausschnitt (z. B. Freude) und dem zugeordneten Emotionsmerkmal (Freude). Mit der Summe der Gesichtsausschnitte eines Emotionsmerkmals entstehen Erkennungsmuster von Gesichtern, hier mit dem Merkmal Freude. Mit der Zunahme erfasster Daten steigt die Verlässlichkeit des Systems einen emotionalen Gesichtsausdruck zu erkennen. Die Erkennungstiefe von Emotion durch das System bleibt – unabhängig von dem Umfang der erfassten Daten – auf der Ebene der Kombination von Abbildung und Merkmalzuordnung bestehen. Die ungleich größere Tiefe, die ein Mensch mit seinem Erfahrungshintergrund bei der Erkennung der Freude im Gesicht eines anderen Menschen besitzt, hat das System nicht.
Gesichtsausdrücke
Die meisten heutigen Ansätze, Gesichtsausdrücke zu erkennen, basierend auf dem „Facial Action Coding System“ des Psychologen Paul Ekman.[10] So werden Aufmerksamkeitsmuskel, Muskel der Lust, Muskel der Verachtung oder des Zweifels und Muskel der Freude unterschieden. Die unterschiedlichen Gesichtsausdrücke werden in Gesichtsausdrucksparametern kodiert, die dann von Computern gelesen und erkannt werden können.
Die Gesichtsausdrucksparameter werden in sieben universelle emotionale Ausdrücke eingeteilt: glücklich, wütend, Angst, Ekel, traurig, Überraschung und neutral. Die Daten werden experimentell ermittelt und stehen in drei öffentlichen Gesichtsbilddatenbanken JAFFE,[11] MMI[12] und CK+[13] zur Verfügung.[14]
Nach Rana el Kaliouby sind die Gesichtszüge, die Stimme und die Wortwahl eines Menschen die wichtigsten Ausdrucksformen für die Maschinen, um zu lernen, Emotionen zu erkennen oder zu vermitteln. Unser Gesicht ist einer der wirksamsten Kanäle, um soziale und emotionale Zustände zu vermitteln. Die Wissenschaft unterteilt die Gesichtsmuskelbewegungen dabei in 45 sogenannte Action Units, also Signale, die ausgelesen werden können. Mit denen lässt sich ein Algorithmus programmieren, der die wichtigsten Regungen erkennt.
»Affectiva« hat eine Datenbank für solche Signale erarbeitet, in der knapp drei Millionen Videos von Gesichtern ausgewertet wurden und diese in mehr als zwölf Milliarden emotionale Datenpunkte zerlegt.[9] Ursprünglich war die Technologie, auf der »Affectiva« basiert, für Menschen mit Autismus gedacht, die Schwierigkeiten haben, emotionale Reaktionen zu zeigen. Das mathematische Modell war daher auf die Erkennung schwer wahrnehmbarer Veränderungen im Ausdruck hin entwickelt worden.[4]
Emotionserkennung in der Stimme
Emotionen wirken sich in der Stimme auf die Tonhöhe, das Timing, die Stimmqualität und die Artikulation aus. Befindet sich eine Person beispielsweise in einem Zustand von Angst, Wut oder Freude, wird das sympathische Nervensystem erregt. Dies führt zu einer erhöhten Herzfrequenz, höherem Blutdruck, Veränderungen in der Tiefe der Atembewegungen, Mundtrockenheit und gelegentlichem Muskelzittern. Die resultierende Sprache wird schneller und lauter, es wird präziser ausgesprochen mit einer höheren durchschnittlichen Tonhöhe und einem breiteren Tonhöhenbereich.
Im Gegensatz dazu ist das parasympathische Nervensystem aktiver, wenn eine Person müde, gelangweilt oder traurig ist. Dies führt zu einer verringerten Herzfrequenz, einem niedrigeren Blutdruck und einer erhöhten Speichelbildung. Die resultierende Sprache ist typischerweise langsamer, tiefer, undeutlicher und mit wenig Hochfrequenzenergie. Stimmparameter, Tonhöhenvariablen und Sprechgeschwindigkeit werden dementsprechend durch Mustererkennungstechniken analysiert und in Datenbanken erfasst.
Die bislang entwickelten Stimmenkennungssysteme verwenden unterschiedliche Variationen und Kombinationen der akustischen Merkmale mit unterschiedlichen Arten von Lernalgorithmen. Ihre Leistungsfähigkeit erreichen einen Erkennungsgrad von bis zu 80 %. Dagegen können Menschen den emotionalen Zustand eines Sprechers allein nicht vergleichbar zuverlässig anhand der Sprache erkennen.[15][16]
Stimmungsanalyse von Textdaten
Die Stimmungsanalyse von Textdaten (auch als Stimmungserkennung oder Sentiment-Analyse bezeichnet) ist die automatische Auswertung von Texten mit dem Ziel, eine geäußerte Haltung (Stimmung) des Verfassers erkennen. Dabei sind zwei Bereiche der Verarbeitung der natürlichen Sprache zu unterscheiden:
- Die Stimmungsanalyse ist ein Mittel zur Beurteilung, ob Daten positiv, negativ oder neutral sind.
- Die Emotionserkennung dient der Identifizierung verschiedener menschlicher Emotionstypen wie z. B. wütend, fröhlich oder deprimiert.
Textverarbeitung: Die auszuwertenden Texte, in denen die Menschen ihre Gefühle und Emotionen äußern, liegen in der Regel höchst unstrukturiert vor, was die Analyse von Stimmungen und Emotionen für Maschinen erschwert. Die Vorverarbeitung und Datenbereinigung der Texte ist daher für die Datenqualität der Auswertung erheblich. Dafür wird das auszuwertende Dokument in Blöcke zerlegt, die als Token bezeichnet werden. Weiterhin werden unnötige Wörter wie Artikel und einige Präpositionen, die nicht zur Emotionserkennung und Stimmungsanalyse beitragen, entfernt. In einem Lexikon-basierten Ansatz wird ein Wörterbuch geführt, in dem jedem positiven und negativen Wort ein Stimmungswert zugeordnet wird. So wird dem Wort eine Zählung von 0 zugewiesen, wenn es nicht im vordefinierten Wörterbuch vorhanden ist, andernfalls eine Zählung von größer oder gleich 1, je nachdem, wie oft es im Satz vorkommt. Die Summe oder der Mittelwert der Stimmungswerte ist dann ein Maß für die Stimmung eines Satzes oder Dokuments, d. h., die Maschine interpretiert einen Text in Zahlen.[17]
Auf Grundlage von vorverarbeiteten Texten, zu denen die Haltungen bekannt sind, können Algorithmen für weitere Begriffe lernen, welcher Tendenz sie zuzuordnen sind.
Unternehmen nutzen die Sentiment-Analyse, um Kundennachrichten, Call-Center-Interaktionen, Online-Bewertungen und Beiträge in sozialen Medien zu bewerten. Auch lässt sich verfolgen, wie sich die Einstellung gegenüber Unternehmen, Produkten oder Dienstleistungen verändert.[18]
Korrekturprogramme wie Grammarly und DeepL können einen Text erfassen, ob er förmlich, jovial, ärgerlich oder liebevoll wirkt. Will man den Ton ändern, kann man das eingeben, und das Programm macht Vorschläge, wie man mit Wortwahl, Grammatik und Syntax die emotionale Wirkung verändert.[9]
Anwendungen
Die Emotionserkennung im Auto, auch als Mobilitäts-KI bezeichnet, erweitert die Müdigkeitserkennung, die es in manchen Marken bereits serienmäßig gibt, indem Sensoren Lenk- und Pedalverhalten auswerten und den Faktor Zeit dazu nehmen. Errechnet das System Ermüdungserscheinungen, gibt es ein Warnsignal und auf dem Armaturenbrett blinkt eine Kaffeetasse mit der Hinweismeldung auf, es sei nun mal Zeit für eine Pause. Mit der Emotionserkennung werden so ziemlich alle emotionalen Faktoren erfasst, die als Verkehrsgefährdung gelten. Von der Müdigkeit über die Unkonzentriertheit und Ablenkungen bis zum Zorn. Dafür beobachten Kameras im Innenraum nicht nur den Menschen auf dem Fahrersitz, sondern auch die auf dem Beifahrersitz und auf der Rückbank. Ein Viertel aller Unfälle soll auf solche Fahrerschwächen zurückgehen.[9]
Um die Unfallzahlen und die im Straßenverkehr verunglückten Verkehrsteilnehmer nachhaltig zu reduzieren, schreibt die EU vom 6. Juli 2022 weitere Assistenzsysteme in Pkw vor.[19] Danach müssen Neuwagen mit einer Sicherheitstechnologie wie der „Fahrerraumüberwachung“ ausgestattet sein. Die Aufzeichnung von Augen- bzw. Lidbewegungen und/oder der Lenkbewegungen spielt dabei eine große Rolle. Diese Daten sollen kontinuierlich aufgezeichnet und vorgehalten werden. Allerdings dürfen sie nur in dem geschlossenen System verarbeitet und zu keiner Zeit an Dritte weitergegeben werden.[20]
Callcenter nutzen die Anwendungen der Emotionserkennung, um die Belastung ihres Personals zu minimieren. Spracherkennungsprogramme können einer Kundenbetreuerin zum Beispiel signalisieren, dass ein Anrufer sehr wütend ist. Die Programme bieten auch gleich eine Anleitung an, wie man so ein Servicegespräch deeskaliert.
Identifizierung der Stimmung von Tweets im Zusammenhang mit COVID-19-Impfstoffen
Um die Wahrnehmungen, Bedenken und Emotionen in der öffentlichen Diskussion im Zusammenhang mit COVID-19-Impfstoffen auch im Laufe der Zeit besser zu verstehen, wurde eine Stimmungs- und Emotionsanalyse anhand von Tweets zu COVID-19-Impfstoffen zwischen dem 1. November 2020 und dem 31. Januar 2021 durchgeführt. Dabei wurden nur Tweets verwendet, die die Schlüsselwörter Impfung, Impfungen, Impfstoff, Impfstoffe, Immunisierung, impfen und geimpft enthielten.[21]
Von insgesamt 2.678.372 COVID-19-Impfstoff-bezogenen Tweets war die Stimmung zu
- 42,8 % positiv
- 26,9 % neutral
- 30,3 % negativ.
Auf Länderebene unterschieden sich die geposteten Tweets deutlich (bezogen auf Sentiment-Score: positiv ≥ 0,05, neutral −0,05 < bis < 0,05 oder negativ ≤ −0,05):
- Die Vereinigten Arabischen Emiraten zeigten den höchsten Sentiment-Score von 0,162,
- für die Vereinigten Staaten betrug der Wert 0,089 und
- für Brasilien wurde mit −0,002 der niedrigste Wert ermittelt.
Eine zunehmend positive Stimmung in Bezug auf COVID-19-Impfstoffe und das vorherrschende Gefühl des Vertrauens, das in der Diskussion in den sozialen Medien gezeigt wird, kann auf eine höhere Akzeptanz von COVID-19-Impfstoffen im Vergleich zu früheren Impfstoffen hindeuten.[22]
Kritik
Der israelische Historiker Yuval Noah Harari warnt:
„Wir müssen uns darüber im Klaren sein, dass Wut, Freude, Langeweile und Liebe biologische Phänomene sind, genau wie Fieber und Husten. Denn dieselbe Technologie, die Husten identifiziert, könnte auch Lachen identifizieren. Wenn Unternehmen und Regierungen damit beginnen, unsere biometrischen Daten massenhaft zu sammeln, können sie uns viel besser kennenlernen, als wir uns selbst kennen, und sie können dann nicht nur unsere Gefühle vorhersagen, sondern auch unsere Gefühle manipulieren und uns alles verkaufen, was sie wollen - sei es ein Produkt oder einen Politiker. Eine biometrische Überwachung würde die Datenhacking-Strategien von Cambridge Analytica wie ein Überbleibsel aus der Steinzeit aussehen lassen. Stellen wir uns einmal Nordkorea im Jahr 2030 vor, wenn jeder Bürger rund um die Uhr ein biometrisches Armband tragen muss. Wenn man sich dann eine Rede des ‚Obersten Führers’ anhört und das Armband die verräterischen Zeichen von Wut auffängt, ist man erledigt.“[23]
Patrick Breyer kritisiert im Zusammenhang mit der geplanten „iBorderCtrl“:
„Systeme zur Erkennung auffälligen Verhaltens erzeugen schrittweise eine gleichförmige Gesellschaft passiver Menschen, die bloß nicht auffallen wollen. Eine solche tote Überwachungsgesellschaft ist nicht lebenswert.“[24]
Shoshana Zuboff warnt vor dem Überwachungskapitalismus:
„Überwachungskapitalisten wissen alles über uns; ihre Aktivitäten sind jedoch so angelegt, dass sie für uns nicht erkennbar sind. Sie häufen immense Domänen neuen Wissens über uns an, nur dass dieses Wissen nicht für uns ist; es dient zwar der Vorhersage unserer Zukunft, nur eben für anderer Leute Profit.
Ihren Ursprung hatten diese Operationen in dem Verhaltensüberschuss, der aus unserem Online-Verhalten – Browsing, Suche, Social Media – gewonnen wurde, sie erfassen heute jedoch jede Bewegung, jedes Gespräch, jeden Gesichtsausdruck, jeden Laut, jeden Text, jedes Bild. … auch tiefer in unsere intime Erfahrungswelt: unsere Stimmen, Gesichter, Persönlichkeiten und Emotionen.“[25]
Rechtslage
Zum Schutz natürlicher Personen bei der Anwendung von KI-Systemen fordert der Entwurf in der KI-Verordnung der Europäischen Kommission (April 2021) in Artikel 52, Transparenzpflichten für bestimmte KI-Systeme:[26]
1. Anbieter stellen sicher, dass KI-Systeme, die für die Interaktion mit natürlichen Personen bestimmt sind, so konzipiert und entwickelt werden, dass natürliche Personen darüber informiert werden, dass sie mit einem KI-System interagieren, es sei denn, dies ist aus den Umständen und dem Kontext der Nutzung offensichtlich.
2. Nutzer eines Emotionserkennungssystems oder eines biometrischen Kategorisierungssystems müssen die natürlichen Personen, die diesem ausgesetzt sind, über die Funktionsweise des Systems informieren.
Siehe auch
Literatur
- Albert Mehrabian: Silent messages : implicit communication of emotions and attitudes. Wadsworth Pub., Belmont, Calif. 1981, ISBN 0-534-00910-7.
- Rosalind W. W. Picard: Affective Computing. MIT Press, 2000, ISBN 0-262-66115-2.
- Shoshana Zuboff: Das Zeitalter des Überwachungskapitalismus. Frankfurt/New York 2018, ISBN 978-3-593-50930-3.
- Gerardus Blokdyk: Affective Computing A Complete Guide. – 2020 Edition.
- Shaundra B. Daily, Melva T. James, David Cherry, John J. Porter, Shelby S. Darnell, Joseph Isaac, Tania Roy: Chapter 9 – Affective Computing: Historical Foundations, Current Applications, and Future Trends. In: Myounghoon Jeon (Hrsg.): Emotions and Affect in Human Factors and Human-Computer Interaction. Academic Press, 2017, ISBN 978-0-12-801851-4, S. 213–231, doi:10.1016/B978-0-12-801851-4.00009-4.
- X. Hu et al.: Ten challenges for EEG-based affective computing. In: Brain Science Advances. Band 5, Nr. 1, 2019, S. 1–20. doi:10.1177/2096595819896200.
Einzelnachweise
- Zuboff, S. 326–331 f.
- Rosalind W. Picard: Affective Computing, In M.I.T Media Laboratory Perceptual Computing Section Technical Report No. 321.
- Rosalind W. Picard: Affective Computing, MIT Press, 24. Juli 2000.
- Jim Kerstetter: Building better Super Bowl ads by watching you watch them, in CNET, 2. Februar 2013.
- patrick-breyer.de
- First International Conference, ACII 2005, Beijing, China, Proceedings, 22.–24. Oktober 2005.
- International Conference on Affective Computing and Intelligent Interaction (ACII), 10th ACII 2022: Nara, Japan.
- Navel – der soziale Roboter
- Andrian Kreye, Felix Hunger: Mensch wie geht es dir? Künstliche Intelligenz - Über empathische Roboter und die Entschlüsselung unserer Gefühle. In: Süddeutsche Zeitung. 21. Januar 2023.
- P. Ekman, W. Friesen: Facial Action Coding System. Consulting Psychologists Press, 1977.
- JAFFE (Japanese Female Facial Expression).
- MMI Facial Expression Database.
- CK+ (Extended Cohn-Kanade dataset)
- Sajjad Muhammad: Facial appearance and texture feature-based robust facial expression recognition framework for sentiment knowledge discovery, Springer, März 2018.
- C. Breazeal, L. Aryananda: Recognition of Affective Communicative Intent in Robot-Directed Speech. Artificial Intelligence Laboratory, Massachusetts Institute of Technology, Cambridge.
- D. Neiberg, K. Elenius, K. Laskowski: Emotion Recognition in Spontaneous Speech Using GMMs. In: Proceedings of Interspeech. 2006.
- Pansy Nandwani, Rupali Verma: A review on sentiment analysis and emotion detection from text, Springer-Verlag, 28. August 2021.
- Maria Korolov: Was ist eine Sentiment Analysis? In: Computerwoche. 17. Januar 2022.
- Verordnung über die Typgenehmigung von Kraftfahrzeugen und Kraftfahrzeuganhängern sowie von Systemen, Bauteilen und selbstständigen technischen Einheiten für diese Fahrzeuge, VERORDNUNG (EU) 2019/2144 DES EUROPÄISCHEN PARLAMENTS UND DES RATES, 27. November 2019.
- Fahrassistenzsysteme - Pflicht ab dem 6. Juli 2022, TÜV Nord.
- Siru Liu, Jialin Liu: Public attitudes toward COVID-19 vaccines on English-language Twitter: A sentiment analysis. National Library of Medicine, 17. August 2021.
- Joanne Chen Lyu et al.: COVID-19 Vaccine-Related Discussion on Twitter: Topic Modeling and Sentiment Analysis. National Library of Medicine, 29. Juni 2021.
- Klaus Schwab, Thierry Malleret: Covid-19: Der Grosse Umbruch. Cologny 2020, S. 199 f.
- Patrick Breyer: Pressebriefing: Transparenzklage gegen geheime EU-Überwachungsforschung „iBorderCtrl“. 15. Dezember 2021.
- Shoshana Zuboff: Surveillance Capitalism – Überwachungskapitalismus - Essay. In: Aus Politik und Zeitgeschichte. Bundeszentrale für politische Bildung, 7. Juni 2019.
- Proposal for a Regulation laying down harmonised rules on artificial intelligence, European Commission, 21 April 2021.