Où docteurs et entreprises se rencontrent
Menu
Connexion

Développement d’une plateforme pour l’annotation automatique multimodale des interactions conversationnelles en face-à-face (plateforme PANAMIC)

ABG-135218 Stage master 2 / Ingénieur 6 mois 700 euros
22/01/2026
Laboratoire Parole et Langage
Aix-en-Provence Provence-Alpes-Côte d'Azur France
  • Science de la donnée (stockage, sécurité, mesure, analyse)
  • Sciences de l’ingénieur
Traitement Automatique des Langues, Linguistique Interactionnelle, Intelligence Artificielle, Machine Learning, Ingénierie Logicielle
28/02/2026

Établissement recruteur

Le Laboratoire Parole et Langage est une Unité Mixte de Recherche rattachée au CNRS et à Aix-Marseille Université. Le LPL accueille une équipe internationale et interdisciplinaire composée de phonéticiens, linguistes, informaticiens, psychologues, neuroscientifiques, physiciens et médecins. Il a pour objectif principal d’étudier les mécanismes impliqués dans la production, la perception et la compréhension de la parole et du langage.

Description

1 Résumé du stage :

Ce stage vise à concevoir une application clé en main permettant l’annotation automatique et multimodale d’interactions conversationnelles en face-à-face, à partir d’enregistrements audio et vidéo. L’outil intégrera des technologies existantes pour transcrire et analyser la parole spontanée, aligner phonétiquement les transcriptions, et annoter les expressions faciales (sourires, regard, gestes), tout en restant accessible aux non-experts. S’inscrivant dans le projet PANAMIC, financé par l’institut Carnot Cognition, cette plateforme en Python permettra de constituer des corpus riches pour la recherche en linguistique, le développement d’agents conversationnels et l’entraînement de modèles d’intelligence artificielle. 

2 Calendrier et rémunération :

Le stage durera six mois de début février 2026 jusqu’à fin juillet. Le stage se déroulera dans les locaux du LPL. La gratification durant les 6 mois de stage est de 700 euros nets par mois. Un emploi d’Ingénieur d’Étude en CDD (3 mois) est prévu à l’issue du stage (début septembre à fin novembre 2026, salaire net avant impôt, 2000 euros).

3 Description du stage :

L’objectif du stage est de fournir une application qui effectue automatiquement l’annotation multimodale d’une interaction conversationnelle en face-à-face à partir des enregistrements audio et vidéo de cette conversation.

Il s’agit d’une part de concevoir et développer une chaine de traitement complète du flux audio (transcription automatique de la parole, alignement au niveau des phonèmes, tokenization, analyse syntaxique…) et d’autre part un ensemble d’annotations mimo-gestuelles spécifiques (annotation automatique de l’intensité des sourires, de la direction du regard, …).

L’outil sera conçu comme une application clé en main destinée à des utilisateurs non-experts dans le domaine de la modélisation ou de l’apprentissage automatique (milieu industriel, linguistes…).

Parmi les traitements automatiques qui seront proposés, certaines solutions issues de l’Apprentissage Automatique sont déjà développées et validées. Il s’agira alors d’intégrer et d’interfacer ces technologies existantes dans la plateforme. Pour d’autres annotations, des prototypes nécessitant une phase d’implémentation préalable seront utilisés.

Pour le signal de parole, il s’agira dans un premier temps de fournir une transcription automatique d’une conversation en français. Les trois systèmes WavToVec[1] (Meta AI Research), Whisper[8] (OpenIA) et Vosk[7] seront évalués et adaptés pour traiter au mieux des conversations libres contenant des disfluences (pauses remplies, amorces, répétition, …), des rires, et d’autres phénomènes caractéristiques de la parole spontanée.

Dans un deuxième temps, la transcription sera alignée temporellement sur le signal acoustique au niveau des phonèmes en intégrant dans la plateforme l’outil SPAAS[2]. Dans un troisième temps, l’annotation syntaxique proposée par MarsaTag[3] sera intégrée. SPPAS et MarsaTag proposent chacun une variété importante de pistes d’annotations en sortie avec un large choix de schémas d’encodage et de formats de sortie compatibles avec les logiciels standards d’édition et d’annotation du signal audio et vidéo (Praat, Elan…). 

Parallèlement, l’analyse des expressions faciales et des données gestuelles sera réalisée à partir des sorties de la boîte à outils OpenFace[4]. Certains modules déjà développés par notre équipe comme l’outil d’annotation automatique des sourires SMAD[5] seront intégrés dans la plateforme. D’autres niveaux d’annotations mimo-gestuelles (hochements de tête, changement de direction du regard, blink…) qui sont à l’état de prototype seront ajoutés à la plateforme après une étape de validation.

La plateforme sera programmée en Python et les codes sources seront déposés sur un gitlab à accès restreint partagé par le LPL et le LIA. La plateforme est destinée à être distribuée en standalone via une procédure d’installation du type PyInstaller ou Docker.

4 Contexte et objectif scientifique :

Ce stage s’inscrit dans le projet PANAMIC (Plateforme pour l’ANnotation Automatique Multimodale des Interactions Conversationnelles en face-à-face), un projet financé par le programme de ressourcement 2026 de l’institut Carnot Cognition. La mission des instituts Carnot est de favoriser l’innovation par un partenariat laboratoire-entreprise. L’équipe projet est composée de Gilles Pouchoulin (collaborateur) et Stéphane Rauzy (porteur) du Laboratoire Parole et Langage (LPL) en partenariat avec Stéphane Huet (collaborateur) du Laboratoire d’Informatique d’Avignon (LIA). L’objectif du projet PANAMIC est de fournir un outil pour mieux comprendre, modéliser et prédire la dynamique des interactions conversationnelles. Il s’agit de développer une application qui effectue automatiquement l’annotation multimodale des interactions conversationnelles en face-à-face. La multimodalité concerne d’une part le traitement du flux de parole des locuteurs et d’autre part l’analyse de l’information visuelle filmée.

Cette application permettra d’automatiser l’enrichissement d’enregistrements audio-vidéo d’interactions conversationnelles avec un jeu d’annotations multimodales variées. Cette automatisation permettra la constitution à grande échelle de corpus richement annotés. Ces données pourront être utilisées dans trois directions. Elles permettront aux linguistes de mieux comprendre les phénomènes complexes et la dynamique qui régissent les interactions conversationnelles. Elles serviront à la communauté développant les agents conversationnels à développer la nouvelle génération d’interfaces, en affinant leurs modèles afin de proposer des agents virtuels plus performants. Enfin, cette grande masse d’annotations pourra servir comme données d’apprentissage à la nouvelle génération d’algorithmes de l’Intelligence Artificielle (i.e. Deep Learning, Big Data).  

 

[1] Alexei Baevski, Henri Zhou, Abdelrahman Mohamed, Michael Auli. Wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations, 2022, https://arxiv.org/abs/2006.11477

[2] Brigitte Bigi. SPPAS : un outil "user-friendly" pour l'alignement texte/son. Jep-Tal-Recital, 2012. ⟨hal-01510441⟩, website : https://sppas.org/

[3] Stéphane Rauzy, Grégoire Montcheuil, Philippe Blache. MarsaTag, a tagger for French written texts and speech transcriptions. Second Asian Pacific Corpus linguistics Conference, 2014. ⟨hal-01500736⟩, website : https://github.com/srauzy/MarsaTag

[4] Jiewen Hu, Leena Mathur, Paul Pu Liang, Louis-Philippe Morency, OpenFace 3.0: A Lightweight Multitask System for Comprehensive Facial Behavior Analysis, (2025),  ArXiv, https://doi.org/10.48550/arXiv.2506.02891

[5] Stéphane Rauzy, Mary Amoyal. Automatic tool to annotate smile intensities in conversational face-to-face interactions. Gesture, 2023, ⟨10.1075/gest.22012.rau⟩. ⟨hal-04194987⟩, website : https://github.com/srauzy/HMAD

[6] Auriane Boudin, Roxane Bertrand, Stéphane Rauzy, Matthis Houlès, Thierry Legou, Magalie Ochs, Philippe Blache. SMYLE: A new multimodal resource of talk-in-interaction including neuro-physiological signal. ICMI ’23 Companion, 2023, 10.1145/3610661.3616188. hal-04195031

[7] Aniket Abhishek Soni, Improving Speech Recognition Accuracy Using Custom Language Models with the Vosk Toolkit (2025), ArXiv, https://arxiv.org/abs/2503.21025

[8] Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever, Robust Speech Recognition via Large-Scale Weak Supervision (2022),  ArXiv, https://doi.org/10.48550/arXiv.2212.04356

 

Profil

Stage de Master 2 en Sciences des Données, Machine Learning, Traitement Automatique des Langues, etc.

  • Compétences attendues :
  • Maîtrise de python
  • Mise en production d'applications
  • Connaissances en Machine Learning

Prise de fonction

09/02/2026
Partager via
Postuler
Fermer

Vous avez déjà un compte ?

Nouvel utilisateur ?