Sorry, you need to enable JavaScript to visit this website.

Développement d'un Système IA Empathique pour la Santé et l'Espace

Soumis par dpalicepeio le

Projet AudEeKA

Le projet "AudEeKA" (Auditive Emotionserkennung für empathische KI-Assistenten) vise à développer un système d'intelligence artificielle capable de reconnaître en continu et de manière fiable les états affectifs humains. L'objectif principal est de créer un assistant IA empathique fonctionnant sur des appareils légers et à faibles ressources, permettant une utilisation en temps réel. Le système s'appuie sur une approche multimodale, combinant des signaux vocaux avec une gamme de signaux physiologiques (biosignaux) pour évaluer les émotions et le niveau de stress.

Les applications principales se situent dans le secteur de la santé, où des facteurs tels que des emplois du temps chargés et la numérisation croissante réduisent l'empathie dans la communication médecin-patient. AudEeKA vise à soutenir le personnel médical en fournissant des évaluations de l'état émotionnel des patients, à améliorer les soins médicaux à distance (télémédecine) et à surveiller la santé émotionnelle des astronautes lors de missions spatiales de longue durée.

Les principaux défis du projet incluent la rareté des ensembles de données (datasets) réalistes, les limitations des modèles d'apprentissage automatique "lourds" inadaptés aux appareils à faibles ressources, et la grande variabilité interindividuelle de l'expression émotionnelle. Pour surmonter ces obstacles, le projet prévoit de créer un nouvel ensemble de données, d'explorer des approches de fusion de données et de mettre en œuvre des techniques d'apprentissage continu pour personnaliser le système à chaque utilisateur. L'architecture proposée intègre de manière synergique la détection du stress à long et court terme avec la classification des émotions.

--------------------------------------------------------------------------------

1. Contexte et Objectifs du Projet

1.1. Problématique dans le Secteur de la Santé

Le système de santé fait face à une pression croissante due à l'augmentation du nombre de patients, à la charge administrative et à la diminution du personnel. En Allemagne, le temps moyen qu'un médecin consacre à chaque patient est d'environ sept minutes et demie. Cet environnement stressant entraîne une réduction de l'empathie, un facteur pourtant essentiel à l'efficacité des rencontres avec les patients et à l'obtention de résultats positifs en matière de santé. Parallèlement, l'essor des diagnostics assistés par IA et la numérisation tendent à négliger les "facteurs humains" comme l'empathie et la gestion du stress.

1.2. Cas d'Usage

Le projet AudEeKA répond à plusieurs besoins critiques :

  • Soutien au personnel médical : Aider les médecins à évaluer l'état émotionnel et situationnel des patients, en leur signalant par exemple lorsqu'un patient est en détresse émotionnelle et nécessite plus de temps.
  • Soins médicaux à distance : Compenser la difficulté d'évaluer l'état émotionnel des patients en télémédecine, où l'impression générale peut être absente ou déformée par les outils de communication.
  • Vols spatiaux habités de longue durée : Surveiller la santé émotionnelle, qui est directement liée au succès de la mission, dans un contexte où les soins médicaux et psychologiques sont limités.

1.3. Objectif Principal et Contraintes

L'objectif final d'AudEeKA est de développer un système fiable de reconnaissance continue des émotions en collectant des signaux physiologiques multimodaux. Le système doit répondre à des contraintes strictes :

  • Faibles ressources : Il doit pouvoir fonctionner sur des appareils portables de type "edge computing" ou dans des environnements avec une puissance de calcul et une alimentation limitées.
  • Temps réel : Le calcul doit être suffisamment rapide pour être utilisé en direct lors d'une conversation.

2. Approche et Sous-Objectifs Techniques

Pour atteindre son objectif principal, le projet est divisé en plusieurs sous-objectifs interdépendants.

  • Reconnaissance des Émotions par la Parole (SER) : Utiliser les signaux vocaux comme première modalité pour la classification des émotions.
  • Détection et Classification du Stress : Intégrer la détection du stress (notamment le stress à long terme) à l'aide de biosignaux et potentiellement de la parole. Le stress est considéré comme un contexte essentiel pour évaluer la gravité d'un affect exprimé.
  • Détection des Émotions par Signaux Physiologiques : Incorporer des biosignaux supplémentaires (ex: ECG, EDA, BVP) pour améliorer la précision de la reconnaissance émotionnelle.
  • Apprentissage Continu : Mettre en œuvre une approche permettant au système de s'adapter aux particularités individuelles, surmontant ainsi le problème du modèle unique ("one-size-fits-all").
  • Création d'un Ensemble de Données : Développer un nouvel ensemble de données qui combine la parole, le stress et les biosignaux pour répondre aux besoins spécifiques du projet.

3. Défis et Difficultés Majeures

3.1. Limitations des Ensembles de Données Existants

La performance des modèles de reconnaissance d'émotions dépend fortement de la qualité des données d'entraînement, qui présentent plusieurs lacunes :

  • Caractère "joué" : De nombreux datasets de parole contiennent des émotions simulées par des acteurs, qui se transposent mal aux situations réelles.
  • Sources d'émotion non naturelles : Les datasets physiologiques utilisent souvent des stimuli artificiels (images, jeux, musique) pour provoquer des émotions, ce qui ne reflète pas la complexité du monde réel.
  • Hétérogénéité des étiquettes : Les stratégies d'étiquetage varient considérablement (ex: émotions de base contre échelle valence-excitation), ce qui complique la comparaison et l'intégration des modèles.
  • Absence de multimodalité adéquate : Il n'existe pas, à la connaissance des auteurs, d'ensemble de données combinant la parole, les biosignaux et des annotations de stress.

3.2. Contraintes de Ressources et Modèles de Calcul

La tendance actuelle dans la recherche sur la reconnaissance d'émotions est d'utiliser des modèles d'apprentissage profond (Deep Learning) complexes et "lourds" (LSTM, DNN, TCN). Ces modèles sont trop coûteux en ressources pour être déployés sur les appareils légers visés par AudEeKA. Le projet doit donc se concentrer sur des méthodes moins coûteuses comme les machines à vecteurs de support (SVM), k-plus proches voisins (k-NN) ou l'analyse discriminante linéaire (LDA).

3.3. Variabilité Interindividuelle et Contextuelle

L'expression des émotions n'est pas universelle. Elle est influencée par des facteurs tels que la culture, le genre et l'âge. De plus, dans des environnements professionnels comme la santé ou les missions spatiales, les individus ont tendance à modérer leurs expressions émotionnelles et à utiliser des schémas de parole spécifiques, ce qui complique davantage la reconnaissance. Un modèle unique est donc irréaliste.

4. Recherches Connexes et Analyses Initiales

4.1. État de l'Art de la Reconnaissance Multimodale

La plupart des approches multimodales existantes combinent la parole avec le texte ou les signaux visuels. L'exploitation combinée de la parole et d'autres biosignaux (ECG, EDA, EMG, etc.) reste peu explorée. Le projet AudEeKA évite délibérément les signaux visuels (visage, posture) en raison des problèmes de confidentialité qu'ils soulèvent. Le tableau ci-dessous résume quelques approches multimodales pertinentes.

RéférenceAnnéeModalitésModèles
Kim, Andre [7]2006Parole, BVP, EMG, SC, RSP, TempLDA, k-NN, MLP
Chao, Linlin, et al. [8]2015Audio, Vidéo, ECG, EDALSTM
Ranganathan, et al. [9]2016Visage, Corps, Voix, Signaux PhysiologiquesSVM, DBN
Guo, Jiang, Shao [10]2020Parole, EEG, ECGPNN, SVM, ELM
Bakhshi, Chalup [11]2021Signaux audio, ECG, HRVDNN
Wang, Wang, et al. [12]2022EDA, SC, Parole, EEGLDA, TCN, ELM, MLP

4.2. Résultats des Tests Préliminaires

Des tests initiaux ont été menés sur la base de données de parole émotionnelle Emo-DB en utilisant un classificateur MLP (Perceptron Multicouche) et deux ensembles de caractéristiques d'Opensmile : emobase (988 caractéristiques) et Compare2016 (6373 caractéristiques). L'évaluation par validation croisée de type "Leave-One-Out" (un sujet entier est utilisé comme ensemble de test à chaque itération) a permis de simuler un scénario plus réaliste.

Les principaux enseignements sont les suivants :

  • Impact de la taille de l'ensemble de caractéristiques : Les ensembles de caractéristiques plus grands (Compare2016) ont abouti à de meilleurs taux de reconnaissance (précision médiane d'environ 81%) et à moins de valeurs aberrantes que les ensembles plus petits (emobase, précision médiane d'environ 77%).
  • Variabilité interindividuelle : Les résultats varient fortement d'une personne à l'autre, ce qui confirme qu'un modèle unique est peu performant en pratique.
  • Confusion entre émotions : Certaines émotions sont fréquemment confondues. Par exemple, avec l'ensemble Compare2016, la joie ("Happy") a été incorrectement identifiée comme de la colère ("Anger") dans 27% des cas. La peur ("Fear") et le dégoût ("Disgust") ont également montré des taux de reconnaissance plus faibles, tandis que l'ennui ("Bored") et la tristesse ("Sad") ont été mieux reconnus (plus de 70% de précision).

5. Architecture Système Proposée

L'architecture envisagée pour le système AudEeKA repose sur une approche de fusion au niveau des caractéristiques (feature-level fusion), qui s'est avérée efficace dans des contextes similaires. Le système est modulaire et conçu pour intégrer les différents sous-objectifs.

Le schéma de l'architecture (basé sur la Figure 5 de la source) montre trois modèles parallèles alimentés par des caractéristiques extraites des signaux de parole et/ou multimodaux :

  1. Modèle 1 : Détecte le stress à long terme.
  2. Modèle 2 : Détecte le stress à court terme.
  3. Modèle 3 : Effectue la classification des émotions.

Une synergie est prévue entre les modèles : les résultats de la détection de stress peuvent être utilisés comme entrée pour les autres classifications afin d'améliorer la précision globale. Cette architecture est flexible et peut être adaptée pour une fusion au niveau de la décision (decision-level fusion).

6. Conclusion et Prochaines Étapes

Le projet AudEeKA aborde des défis complexes mais offre des avantages potentiels majeurs pour le secteur de la santé et au-delà. Les premières analyses confirment la complexité de la reconnaissance des émotions et soulignent la nécessité d'une approche personnalisée et multimodale.

Les prochaines étapes consisteront à :

  • Implémenter et comparer différents classificateurs, ensembles de caractéristiques et stratégies de fusion (caractéristiques vs. décision).
  • Créer un ensemble de données dédié pour entraîner et valider l'approche intégrée de reconnaissance des émotions et du stress.
  • Effectuer des tests rigoureux pour évaluer la performance du système en conditions réelles, incluant des bruits de fond variés et des utilisateurs de différents âges, genres et origines culturelles.
  • Optimiser les algorithmes pour garantir des classifications rapides et précises tout en minimisant l'utilisation des ressources.