Limites des DataSets basés sur les émotions universelles de Paul Ekman

L

La reconnaissance automatique des émotions via le Speech Emotion Recognition (SER = audio) et la Facial Emotion Recognition (FER = image) repose souvent sur des jeux de données labellisés avec les émotions dites « universelles » de Paul Ekman : joie, tristesse, colère, peur, surprise, et dégoût. Bien que ces émotions soient utiles pour des analyses générales (dans le marketing par exemple), leur pertinence dans des contextes de recherche comme par exemple les discours politiques nécessite une analyse plus nuancée de la place des émotions.

Ainsi, on peut se poser la question de savoir si la catégorisation de Paul Ekman servant à entraîner des modèles de reconnaissance des émotions est réellement pertinente. N’est-ce pas une forme de réduction de la complexité humaine que de vouloir développer des modèles d’IA de reconnaissance des émotions à partir du modèle de Paul Ekman ?

Dans ce cadre, nous verrons que les catégories d’analyse mises en œuvre par Marion Ballet, structurées autour de quatre registres émotionnels spécifiques (peur, indignation, espoir, compassion), et qui sont également contextualisées au regard du thème du discours, semblent bien plus pertinentes que les émotions universelles de Ekman.

Faisons un petit tour dans le voyage des émotions 😉

 

Les émotion « universelles » de Paul Ekman

Paul Ekman a défini six émotions dites « universelles » : la joie, la tristesse, la colère, la peur, la surprise et le dégoût.
Chacune de ces émotions peut être associée à une gamme d’émotions synonymes ou proches, qui reflètent des nuances contextuelles ou culturelles.
Pour la joie, des émotions comme le bonheur, la satisfaction, l’euphorie, la plénitude, la sérénité en sont des expressions ou variantes.

Émotions faciales, d’après les travaux de Paul Ekman

 

La tristesse inclut des nuances telles que la mélancolie, le désespoir, la déception, le chagrin, la lamentation, la peine
La colère s’étend à des émotions comme la frustration, l’irritation, l’exaspération, l’indignation, la fureur, le mécontentement
En ce qui concerne la peur, elle englobe des états émotionnels tels que l’anxiété, la terreur, l’inquiétude, l’effroi, l’angoisse, la crainte, la panique et l’horreur…
La surprise, peut se décliner en stupeur, étonnement, sidération, émerveillement
Enfin, le dégoût regroupe des émotions proches comme la répulsion, l’aversion, le rejet, l’antipathie...

Mais ce sont ici des extrapolations… et les principaux modèles de Deep Learning qui analysent les émotions (que ce soit dans le cadre de l’image ou de l’audio) sont construits et entraînés à partir d’un jeu de données labellisé/étiqueté avec des catégories d’émotions provenant du modèle d’Ekman.
Cette catégorisation des données (les 6 émotions de Paul Ekman), qui sert souvent de base pour apprendre à « coder » et « entraîner » les modèles d’IA, n’a qu’un intérêt limité pour la recherche en Sciences Humaines et Sociales, car elle repose sur des émotions qui néglige leur contextualisation et leur construction sociale.

Paul Eckman lui-même passé au crible d’un script de reconnaissance des émotions 😉

 

On pourra toutefois citer plusieurs datasets de qualité reposant sur l’entraînement de la reconnaissance des émotions à partir des catégories de Paul Ekman (FER2013DeepFace, RAVDESS, IOMECAP…).

Toutefois, les émotions universelles d’Ekman ont été critiquées pour leur simplification des dynamiques émotionnelles humaines et ne sont pas les plus appropriées à des contextes tels que les discours politiques, qui mobilisent des émotions complexes et parfois stratégiquement construites. De plus, les modèles SER pré-entraînés sur des bases de données (ex. : IEMOCAP, RAVDESS) s’appuient sur des scénarios artificiels (des acteurs lisant des phrases), souvent éloignés des interactions réelles, bien qu’ils s’appuient sur une méthodologie précise, incluant par exemple une répartition homme/femme.

Ces données ne tiennent pas complètement compte de la richesse des registres émotionnels utilisés dans des discours tels que ceux des discours politiques.

 

Apports de la typologie de Marion Ballet

Alors si on fait abstraction de ces « supers modèles d’IA » et que l’on remonte le temps…, Marion Ballet à en 2014 fait l’analyse des discours politique sous l’angle des émotions et avec une double approches : les émotions dans les discours en les croisant avec le contexte d’évocation (économie, sécurité…) Dans son analyse que l’on retrouve dans cet article scientifique « Pour une analyse émotionnelle des discours politiques : L’exemple des campagnes présidentielles françaises (1981-2012) ». Recherches en Communication, 2014, elle propose une typologie des émotions qui se distingue par quatre registres : la peur, l’indignation, l’espoir et la compassion.
Ces registres, incluent des nuances émotionnelles spécifiques telles que la crainte et l’anxiété pour la peur, ou la confiance et l’optimisme pour l’espoir, sont particulièrement mieux adaptés au contexte des discours politiques contrairement aux émotions dites « universelles » de Ekman. Oui mais voilà … problème…, il n’existe pas de jeux de données en français reprenant cette typologie d’émotion qui plus est doublement annoté par le contexte d’évocation.

Cette typologie offrirait une base pertinente pour l’entraînement de modèles de reconnaissance des émotions. Contrairement aux émotions universelles traditionnellement utilisées dans les modèles d’intelligence artificielle, la typologie proposée par Marion Ballet permettrait de saisir des nuances plus fines dans les discours politiques.

En l’intégrant par apprentissage supervisé dans les systèmes d’IA, les chercheurs pourraient développer des outils plus performants pour analyser les interactions émotionnelles.

Le choix a ici été fait de centrer l’analyse sur quatre registres émotionnels particuliers, à la fois politiquement pertinents (Robin, 2004 ; Ambroise-Rendu & Delporte, 2008 ; Traïni, 2008) et suffisamment communs pour être partagés par les candidats, par les électeurs auxquels ils s’adressent, mais aussi par le chercheur qui entend les analyser. Chacun de ces registres comporte une gamme d’émotions variées : la peur inclut par exemple la crainte, l’inquiétude, l’anxiété, l’indignation : la colère, le mécontentement, voire dans certains cas la honte (Braud, 2007) ; l’espoir : la confiance, l’optimisme, mais aussi le sentiment d’être rassuré(e), etc.

 

De plus, l’émotion qualifiée de « neutre », qui figure souvent dans les jeux de données, pose un défi conceptuel. Elle n’est pas définie par Ekman et semble être une catégorie « valise ». Elle est fréquemment utilisée dans les datasets pour représenter des états où aucune émotion claire ou dominante n’est exprimée…

La seconde difficulté inhérente à la méthode quantitative choisie consiste à catégoriser les stimuli sur lesquels sont construites les rhétoriques émotionnelles, de sorte qu’il soit possible de classer les occurrences affectives non seulement par registre (peur, indignation, espoir ou compassion) mais également par thématique. Les grands thèmes de campagne à partir desquelles se structurent les controverses électorales apparaissent comme des catégories pertinentes, par exemple : l’économie, les questions sociales, les institutions et la vie politique, la sécurité des biens et des personnes, la sécurité extérieure du pays et les Affaires étrangères, les enjeux des droits de l’Homme et des discriminations, l’Europe, l’environnement, l’immigration, l’éducation et la recherche. (p. 149)

 

Réflexion « épistémologique »

Les datasets fondés sur les émotions universelles de Paul Ekman constituent un point de départ utile pour tester les modèles de deep learning. Toutefois, il est essentiel d’adapter cette approche au contexte spécifique de la recherche. Dans le cadre d’une approche multimodale en Sciences Humaines et Sociales (SHS), visant à synchroniser l’image, le texte et l’audio pour explorer comment ces différentes couches contribuent à une analyse fine, les modèles d’IA basés sur la reconnaissance des émotions offrent des possibilités intéressantes
Cependant, bien que cette approche systématique facilite l’automatisation et la standardisation de l’analyse, elle risque également de réduire la richesse interprétative en imposant des catégories émotionnelles préexistantes et souvent trop génériques. Cela constitue en quelque sorte une forme de régression dans l’analyse, où le chercheur devient dépendant de la machine, elle-même entraînée sur des données peu adaptées à ses hypothèses.

La synchronisation de ces trois couches – image, texte et audio – pourrait être plus pertinente si elle n’était pas contrainte par la catégorisation d’Ekman dans le cadre de la reconnaissance des émotions. Une solution serait de construire un jeu de données spécifiquement adapté à la prédiction des émotions dans un contexte donné. Bien que cette option soit envisageable, elle présente l’inconvénient d’être un processus long et laborieux.

Une autre approche, complémentaire, consisterait à extraire uniquement les données brutes et multidimensionnelles, laissant au chercheur la possibilité d’interpréter les résultats et d’identifier les dynamiques émotionnelles complexes qui échappent souvent aux cadres prédéfinis.
Cette démarche permettrait de replacer le scientifique au centre de l’analyse et de privilégier une exploration contextuelle et nuancée.

Par analogie, une telle méthodologie pourrait s’inspirer des travaux de Gregory Bateson. À travers sa méthode d’observation participante et l’utilisation de la (chrono)photographie, Bateson a révélé le concept de « double bind » en privilégiant une approche contextuelle et holistique.
De la même manière, en permettant une observation fine des données sans imposer des catégories rigides, il devient possible d’ouvrir de nouvelles perspectives dans l’analyse des émotions, en capturant leur complexité et leur variabilité contextuelle.

Ainsi, en combinant la puissance des outils d’intelligence artificielle pour collecter, traiter et synchroniser des données ET avec l’intuition et la réflexion critique du scientifique, il devient possible de dépasser les limitations inhérentes aux systèmes standardisés.

A propos de l'auteur

Stéphane Meurisse

Ajouter un commentaire

Stéphane Meurisse