[Seminar] Joint Attention for Dimensional Emotion Recognition using Audio Visual Fusion

Le prochain séminaire LIVIA se tiendra le Mercredi 2 novembre à 12h00 en mode hybride.

Titre: Attention conjointe pour la reconnaissance dimensionnelle des émotions à l'aide de la fusion audiovisuelle
par Gnana Praveen Rajasekar, Ph.D. candidat au LIVIA

Abstract:
La reconnaissance automatique des émotions (ER) a récemment suscité beaucoup d'intérêt en raison de son potentiel dans de nombreuses applications du monde réel. Dans ce contexte, il a été démontré que les approches multimodales améliorent les performances (par rapport aux approches unimodales) en combinant des sources d'informations diverses et complémentaires, offrant une certaine robustesse aux modalités bruyantes et manquantes. Nous nous concentrons sur l'ER dimensionnelle basée sur la fusion de modalités faciales et vocales extraites de vidéos, où des relations audiovisuelles (AV) complémentaires sont explorées pour prédire les états émotionnels d'un individu dans l'espace valence-excitation. La plupart des techniques de fusion de pointe reposent sur des réseaux récurrents ou des mécanismes d'attention conventionnels qui ne tirent pas efficacement parti de la nature complémentaire des modalités AV. Pour résoudre ce problème, nous introduisons un modèle inter-attentionnel conjoint pour la fusion AV qui extrait les caractéristiques saillantes à travers les modalités AV, ce qui permet de tirer efficacement parti des relations intermodales, tout en conservant les relations intramodales. En particulier, il calcule les poids d'attention croisée basés sur la corrélation entre la représentation des caractéristiques conjointes et celle des modalités individuelles. En déployant la représentation conjointe des caractéristiques AV dans le module d'attention croisée, il permet de tirer simultanément parti des relations intra et intermodales, améliorant ainsi considérablement les performances du système par rapport au module d'attention croisée vanille. L'efficacité de notre approche proposée est validée expérimentalement sur des vidéos difficiles des ensembles de données RECOLA et AffWild2. Les résultats indiquent que notre modèle de fusion AV interattentionnelle conjointe fournit une solution rentable qui peut surpasser les approches de pointe, même lorsque les modalités sont bruyantes ou absentes.

https://arxiv.org/pdf/2209.09068.pdf

* En personne: ETS-LIVIA, local A-3600.
* Lien de zoom: https://etsmtl.zoom.us/j/84820130813