
Stage M 2 : Développement d’un prototype d’IA multimodale pour l’analyse des émotions en contexte de médiation pédagogique et culturelle H/F
- Sur site
- Quetigny, Bourgogne-Franche-Comté, France
- Recherche
Description de l'offre d'emploi
Intégrer Linéact au sein de CESI pour un stage de recherche serait une formidable opportunité de contribuer à des projets innovants, tout en approfondissant mes compétences dans un environnement à la pointe de la transformation numérique et de l’industrie 4.0.
Description
La reconnaissance automatique des émotions constitue un axe central de l’IA affective, avec des applications croissantes dans les interactions humain–machine, le bien-être et l’éducation. Elle repose sur l’analyse de différentes modalités expressives, notamment la voix et les expressions faciales, dont la complémentarité a été largement démontrée dans la littérature scientifique.
Les travaux récents menés au sein du laboratoire CESI LINEACT ont contribué au développement de modèles avancés de reconnaissance des états affectifs à partir de données audiovisuelles en conditions réelles, en abordant notamment :
la fusion multimodale et la robustesse des modèles face à des données imparfaites ou partielles [8, 9, 10].
Cependant, la majorité des travaux existants reposent sur des bases de données collectées en environnements contrôlés, alors que les modèles sont amenés à être utilisés dans des contextes réels plus complexes. L’étude de la robustesse et des capacités de généralisation des approches multi- modales, via des prototypes expérimentaux appliqués à des situations pédagogiques et culturelles, constitue encore un défi scientifique important.
Ce stage s’inscrit dans les travaux de recherche menés au sein du laboratoire CESI LINEACT sur l’IA affective et l’analyse multimodale des émotions en conditions réelles. Il s’articule avec le projet S’ÉMOUVOIR, lauréat de l’AAP RITM-BFC 2025, monté en collaboration avec l’OCIM (Université Bourgogne Europe), en tant que cadre expérimental destiné à l’évaluation et à l’illustration des approches développées. Le projet S’ÉMOUVOIR offre en particulier un contexte applicatif original, lié à des situations de médiation pédagogique et culturelle impliquant des étudiants, permettant d’explorer les dynamiques émotionnelles associées à des expériences d’apprentissage incarnées et sensibles.
Objectifs du stage
L’objectif du stage est double :
Scientifique :
concevoir et étudier des approches d’apprentissage profond multimodales pour la recon- naissance des émotions à partir de signaux audiovisuels en contexte réel ;
analyser les limites des modèles existants et proposer des améliorations méthodologiques (fusion, temporalité, robustesse) adaptées à ce type de données ;
Expérimental et applicatif :
développer un prototype expérimental permettant de tester ces approches dans le cadre du projet S’ÉMOUVOIR ;
produire des analyses quantitatives et qualitatives des dynamiques émotionnelles obser- vées, destinées à nourrir la réflexion pédagogique et scientifique ;
Les travaux réalisés auront vocation à être valorisés scientifiquement (communications dans des conférences internationales et/ou articles), en continuité avec les axes de recherche du laboratoire.
Missions
Le ou la stagiaire mènera un travail de recherche appliquée structuré autour des étapes suivantes :
étude approfondie de l’état de l’art sur la reconnaissance audiovisuelle des émotions et la fusion multimodale ;
conception, entraînement et évaluation de modèles d’apprentissage profond pour la recon- naissance des émotions à partir des modalités audio et visuelle (réseaux convolutifs, modèles séquentiels et architectures de type Transformer) ;
exploration de stratégies de fusion multimodale et d’analyse temporelle adaptées à des inter- actions naturelles ;
implémentation d’un prototype logiciel de recherche permettant :
l’analyse émotionnelle des sessions ;
la visualisation et la synthèse des résultats (évolution temporelle, émotions dominantes, indicateurs d’engagement) ;
exploitation des données audiovisuelles dans un cadre strictement éthique, avec consentement éclairé des participants et respect du RGPD ;
analyse critique des résultats, comparaison des approches et discussion des limites ;
Livrables et valorisation
un prototype expérimental de reconnaissance audiovisuelle des émotions ;
un rapport de recherche détaillant les modèles proposés, les résultats et les perspectives ;
une contribution à la valorisation scientifique du projet (article, communication ou pré-publication).
Contexte
Présentation du laboratoire
CESI LINEACT (UR 7527), Laboratoire d'Innovation Numérique pour les Entreprises et les Apprentissages au service de la Compétitivité des Territoires, anticipe et accompagne les mutations technologiques des secteurs et des services liés à l’industrie et au BTP. La proximité historique de CESI avec les entreprises est un élément déterminant pour nos activités de recherche, et a conduit à concentrer les efforts sur une recherche appliquée proche de l’entreprise et en partenariat avec elles. Une approche centrée sur l’humain et couplée à l’utilisation des technologies, ainsi que le maillage territorial et les liens avec la formation, ont permis de construire une recherche transversale ; elle met l’humain, ses besoins et ses usages, au centre de ses problématiques et aborde l’angle technologique au travers de ces apports.
Sa recherche est organisée selon deux équipes scientifiques interdisciplinaires et plusieurs domaines applicatifs.
L’équipe 1 "Apprendre et Innover" relève principalement des Sciences cognitives, Sciences sociales et Sciences de gestion, Sciences et techniques de la formation et celles de l’innovation. Les principaux objectifs scientifiques visés sont la compréhension des effets de l'environnement, et plus particulièrement des situations instrumentées par des objets techniques (plateformes, ateliers de prototypage, systèmes immersifs...) sur les processus d'apprentissage, de créativité et d’innovation.
L’équipe 2 "Ingénierie et Outils Numériques" relève principalement des Sciences du Numérique et de l'Ingénierie. Les principaux objectifs scientifiques portent sur la modélisation, la simulation, l’optimisation et le pilotage de composants, systèmes et processus complexes et des interactions Humains-systèmes dans des systèmes cyber-physiques et jumeaux numériques.
Ces deux équipes développent et croisent leurs recherches dans les domaines applicatifs de l'Industrie du Futur, de la Ville du Futur et des services numériques, soutenues par des plateformes de recherche, principalement celle de Rouen dédiée à l’Usine du Futur et celles de Nanterre dédiée à l’Usine et au Bâtiment du Futur.
Pré-requis du poste
Profil recherché :
Étudiant·e en Master 2 ou école d’ingénieurs (informatique, IA, data science ou domaine proche) ;
solides bases en apprentissage automatique et deep learning ;
excellente maîtrise de Python et d’au moins une bibliothèque de deep learning (PyTorch ou TensorFlow) ;
intérêt marqué pour la recherche, l’IA affective et les interactions humain–machine ;
autonomie, esprit critique et capacité à s’inscrire dans un travail scientifique.
Gratification à 15% du plafond horaire de la Sécurité Sociale
Date de début : Février 2026
Votre candidature devra comporter :
Un Curriculum-Vitae ;
Une lettre de motivation pour le sujet ;
Notes du parcours (Licence ou autre) et du master en cours ;
Lettres de recommandation si disponibles.
Références
Yassine El Boudouri et Amine Bohi. « EmoNeXt : an Adapted ConvNeXt for Facial Emo- tion Recognition ». In : 25th IEEE International Workshop on Multimedia Signal Processing. 2023.
Amine Bohi, Yassine El Boudouri et Imad Sfeir. « A novel deep learning approach for facial emotion recognition : application to detecting emotional responses in elderly individuals with Alzheimer’s disease ». In : Neural Computing and Applications 37.6 (2025), p. 5235- 5253.
Varsha Devi, Amine Bohi et Pardeep Kumar. « AGCD-Net : Attention Guided Context Debiasing Network for Emotion Recognition ». In : Image Analysis and Processing – ICIAP 2025. Sous la dir. d’Emanuele Rodolà, Fabio Galasso et Iacopo Masi. Cham : Springer Nature Switzerland, 2026, p. 533-545. isbn : 978-3-032-10185-3.
Mohamed Ala Yahyaoui et al. « Multi-face emotion detection for effective Human-Robot Interaction ». In : arXiv preprint arXiv :2501.07213 (2025).
Aafaf Ridouan, Amine Bohi et Youssef Mourchid. « Improving pain classification using spatio-temporal deep learning approaches with facial expressions ». In : Seventeenth Interna- tional Conference on Machine Vision (ICMV 2024). T. 13517. SPIE. 2025, p. 82-89.
Leila Ben Letaifa, Maria Ines Torres et Raquel Justo. « Adding dimensional features for emotion recognition on speech ». In : International Conference on Advanced Technologies for Signal and Image Processing. 2020.
Leila Ben Letaifa et M. Inés Torres. « Perceptual Borderline for Balancing Multi-Class Spontaneous Emotional Data ». In : IEEE Access 9 (2021), p. 55939-55954.
Nesrine Farhat et al. « CG-MER : A Card Game-based Maultimodal dataset for Emotion Recognition. » In : 16th International Conference on Machine Vision. 2023.
Leila Ben Letaifa, Amine Bohi et Rim Slama. « The CG-MER dyadic multimodal dataset for spontaneous french conversations : annotation, analysis and assessment benchmark ». In : Journal on Multimodal User Interfaces 19.4 (2025), p. 451-463.
Cristina Palmero et al. « Exploring emotion expression recognition in older adults interacting with a virtual coach ». In : IEEE Transactions on Affective Computing (2025).
ou
C'est fait !
Votre candidature a été envoyée avec succès !
