Interactions vocales homme-robot efficaces
ABG-132653 | Sujet de Thèse | |
25/06/2025 | Financement public/privé |

- Informatique
Description du sujet
Doctorat d'informatique - Établissement délivrant le diplôme : ENSAM
Contexte scientifique
Avec le vieillissement de la population, la robotique d’assistance est en plein essor. Les robots ont un rôle à jouer, mais doivent pour cela disposer de fonctionnalités robustes et transparentes pour être largement adoptés. Dans ces conditions, le moyen d’interaction naturel est la voix. La reconnaissance vocale en particulier permet de transcrire les requêtes utilisateurs en langage naturel, puis de les convertir en actions pour répondre aux sollicitations. Cette composante vocale renferme d’autres informations à exploiter en vue d’enrichir les services d’un tel système robotique. En particulier, la voix permet d’identifier l’émetteur d’une requête énoncée à l’oral afin d’en personnaliser la réponse. L’onde sonore donne également au robot la possibilité de localiser la source d’émission et de se diriger vers l’interlocuteur afin d’engager l’interaction. Tous ces traitements requièrent une plateforme de calculs robuste et son exploitation adaptative selon la localisation du robot, les conditions réseau et l’occupation des ressources. De plus, les opérations d’inférence sont gourmandes en ressources et réduisent d’autant l’exécution de fonctionnalités annexes, ou peuvent être perturbés par des opérations critiques. Notre plateforme de services autour de la voix, dénommée Vo-CAIRbot (Voice Control And Interaction for assistive RoBotics Operations in multi-user environments) devra alors combiner robustesse et performance pour être viable et assurer un haut niveau de qualité d’expérience (QoE) auprès d’un public en perte d’autonomie.
Sujet de thèse
L’intégration réussie de solutions de robotique d’assistance repose pour partie sur la capacité et fluidité d’interaction avec les acteurs humains. Y aboutir se traduit par des flottes de robots en mesure de réagir avec transparence et robustesse aux sollicitations utilisateur. Cela n’est pas anodin car lié à la puissance de calcul embarquée pour atteindre des temps de réponse satisfaisants. Aussi, concevoir un robot capable de s’intégrer dans un environnement humain et de répondre efficacement aux sollicitations requiert des briques de base solides et optimisées. Pour un public en perte d’autonomie la voix constitue un relais de communication important avec des systèmes robotisés. Au delà du langage naturel, l’information vocale embarque des caractéristiques supplémentaires exploitables pour fournir une offre de services enrichie. Nous explorons trois pans essentiels d’interactions à la voix pour faciliter l’acceptation des robots d’assistance et simplifier leur utilisation :
— L’onde sonore peut alors être exploitée pour fournir une information de localisation [8, 7, 3], utile aux besoins de communication visuelle avec les personnes. Cette information est combinée avec une technique de localisation indoor pré-existante pour calculer un emplacement dans la zone d’intérêt considérée. En effet, un réseau de microphone embarqué permet d’identifier la source d’émanation d’une commande vocale et de s’y rendre de manière itérative.
— L’interaction vocale avec un robot repose sur la transcription et l’interprétation de la parole du locuteur [6]. Ces opérations mobilisent des modèles d’apprentissage profond de grande complexité, conçus pour prendre en compte les variabilités acoustiques, prosodiques et linguistiques inhérentes à la parole humaine. Toutefois, leur intégration sur des plateformes robotiques aux ressources limitées impose des contraintes strictes en termes de calcul et de mémoire, nécessitant l’adoption de techniques d’optimisation avancées visant à réduire leur taille et leur charge computationnelle sans compromettre les performances [4].
— L’empreinte vocale propre aux individus est alors également exploitable pour simplifier et personnaliser les interactions. En effet, dans un contexte multi-utilisateurs, cette information permet au robot de localiser la personne qui parle et d’interagir avec elle.
Nous nous proposons d’investiguer les techniques d’IA temps-réel capables de répondre à nos problèmes. La complexité des calculs combinée aux contraintes de l’environnement d’exécution, l’exigence de réactivité et la confidentialité des échanges nécessitent des approches originales pour accélérer les traitements de machine learning. En effet, les robots embarquent une puissance de calcul limitée, soumise à un taux d’occupation variable et à une enveloppe énergétique contrainte. En réponse, nous mobiliserons des infrastructures d’edge computing pour atteindre un haut niveau de qualité d’expérience (QoE).
Plusieurs approches, basées sur une répartition optimale des calculs, seront alors à investiguer en plus des traditionnelles techniques d’élagage, de quantification [5] et de distillation de connaissances. On s’intéressera notamment aux techniques de partitionnement pour répartir efficacement les opérations d’inférence sur les périphériques edge [2]. Tenir compte de l’état de l’infrastructure est alors essentiel pour arriver à maintenir un haut niveau de performances et affecter une charge de travail adéquate aux nœuds de calcul. Pour maximiser les performances, il est alors crucial d’exploiter au mieux la localité des données et d’éviter des transmissions coûteuses. De plus, l’exécution concurrente de certaines opérations sur des périphériques hétérogènes par nature, via, par exemple, du parallélisme de tenseur ou du parallélisme en pipeline, en contextes multi-utilisateurs, sera également investigué. Finalement, les phases d’entraînement pourront s’appuyer sur des techniques d’apprentissage fédérées, déjà largement investiguées dans nos travaux [1].
Pour résumer, l’objectif de la thèse est alors de répondre aux cas d’usage énoncés, pour implémenter une plateforme d’interaction vocale, dotée des services suivants :
- Localisation de l’émetteur d’un signal vocal.
- Reconnaissance vocale et transcription en langage naturel.
- Identification de l’interlocuteur.
Ces services devront concilier un haut niveau de performances afin de fournir la meilleure expérience utilisateur.
Programme de travail
Le programme de travail prévisionnel est énuméré ci-dessous :
- Inscription ED 432, état de l’art, définition d’une méthodologie de recherche.
- Conception de modèles d’IA performants pour la localisation et la séparation des voix puis soumission de papier.
- Développement de modèles d’IA performants pour la reconnaissance vocale et soumission de papier.
- Proposition de méthodes innovantes d’optimisation des modèles d’IA et d’optimisation des calculs et soumission de papier.
- Intégration des modèles IA dans le robot TIAGO++, soumission d’article. Rédaction du manuscrit de thèse, présentation des résultats, soutenance.
Production scientifique/technique attendue
Les travaux donneront lieu à des publications dans des conférences et journaux internationaux de premier rang. La thèse aboutira sur le développement de nouveaux services d’assistance robotique basés sur la voix.
Références
[1] Ahmed-Rafik-El Mehdi Baahmed, Jean-François Dollinger, Mohamed-El-Amine Brahmia et Mourad Zghal. “Hyperparameter Impact on Computational Efficiency in Federated Edge Learning”. In : 2024 International Wireless Communications and Mobile Computing (IWCMC). 2024, p. 0849-0854.
[2] Chenghao Hu et Baochun Li. “When the Edge Meets Transformers: Distributed Inference with Transformer Models”. In : 2024 IEEE 44th International Conference on Distributed Computing Systems (ICDCS). IEEE. 2024, p. 82-92.
[3] LI Jie, ZHAO Jing, DING Yuehua, LI Yifang et CHEN Fangjiong. “An Improved co-Prime Parallel Array With Conjugate Augmentation for 2-D DOA Estimation”. In : IEEE Sensors Journal 21.20 (2021), p. 23400-23411.
[4] Leila Ben Letaifa et Jean-Luc Rouas. “Towards Green AI: Assessing the Robustness of Conformer and Transformer Models under Compression”. In : Proceedings of the 32nd European Signal Processing Conference EUSIPCO 2024. IEEE, 2024, p. 336-340.
[5] Mouaad Oujabour, Leila Ben Letaifa, Jean-François Dollinger et Jean-Luc Rouas. “Adaptive Compression of Supervised and Self-Supervised Models for Green Speech Recognition”. In : IEEE International Conference on Acoustics, Speech, and Signal Processing ICASSP. 2025.
[6] Jinchuan Tian, Jiatong Shi, William Chen, Siddhant Arora, Yoshiki Masuyama, Takashi Maekaku, Yihan Wu, Junyi Peng, Shikhar Bharadwaj, Yiwen Zhao, Samuele Cornell, Yifan Peng, Xiang Yue, Chao-Han Huck Yang, Graham Neubig et Shinji Watanabe. ESPnet-SpeechLM: An Open Speech Language Model Toolkit. 2025.
[7] DING Yuehua, DOLLINGER Jean-François, VAUCHEY Vincent et ZGHAL Mourad. “Double-Layer Soft Data Fusion for Indoor Robot WiFi-Visual Localization”. In : IEEE Sensors Journal, early access (2025).
[8] DING Yuehua, DOLLINGER Jean-François, VAUCHEY Vincent et ZGHAL Mourad. “WiFi-Visual data fusion for indoor robot localization”. In : 2024 IEEERAS 23rd International Conference on Humanoid Robots (Humanoids), Nancy, France. 2024, p. 135-140
Prise de fonction :
Nature du financement
Précisions sur le financement
Présentation établissement et labo d'accueil
CESI LINEACT (UR 7527), Laboratoire d'Innovation Numérique pour les Entreprises et les Apprentissages au service de la Compétitivité des Territoires, anticipe et accompagne les mutations technologiques des secteurs et des services liés à l’industrie et au BTP. La proximité historique de CESI avec les entreprises est un élément déterminant pour nos activités de recherche, et a conduit à concentrer les efforts sur une recherche appliquée proche de l’entreprise et en partenariat avec elles. Une approche centrée sur l’humain et couplée à l’utilisation des technologies, ainsi que le maillage territorial et les liens avec la formation, ont permis de construire une recherche transversale ; elle met l’humain, ses besoins et ses usages, au centre de ses problématiques et aborde l’angle technologique au travers de ces apports.
Sa recherche est organisée selon deux équipes scientifiques interdisciplinaires et deux domaines applicatifs.
- L’équipe 1 ''Apprendre et Innover'' relève principalement des Sciences cognitives, Sciences sociales et Sciences de gestion, Sciences et techniques de la formation et celles de l’innovation. Les principaux objectifs scientifiques visés sont la compréhension des effets de l'environnement, et plus particulièrement des situations instrumentées par des objets techniques (plateformes, ateliers de prototypage, systèmes immersifs...) sur les processus d'apprentissage, de créativité et d’innovation.
- L’équipe 2 ''Ingénierie et Outils Numériques'' relève principalement des Sciences du Numérique et de l'Ingénierie. Les principaux objectifs scientifiques portent sur la modélisation, la simulation, l’optimisation et l’analyse de données de systèmes cyber physiques. Les travaux de recherche portent également sur les outils d’aide à la décision associés et sur l’étude des interactions humains-systèmes notamment à travers les jumeaux numériques couplés à des environnements virtuels ou augmentés.
CESI LINEACT (UR 7527), Laboratoire d'Innovation Numérique pour les Entreprises et les Apprentissages au service de la Compétitivité des Territoires, anticipe et accompagne les mutations technologiques des secteurs et des services liés à l’industrie et au BTP. La proximité historique de CESI avec les entreprises est un élément déterminant pour nos activités de recherche, et a conduit à concentrer les efforts sur une recherche appliquée proche de l’entreprise et en partenariat avec elles. Une approche centrée sur l’humain et couplée à l’utilisation des technologies, ainsi que le maillage territorial et les liens avec la formation, ont permis de construire une recherche transversale ; elle met l’humain, ses besoins et ses usages, au centre de ses problématiques et aborde l’angle technologique au travers de ces apports. Sa recherche est organisée selon deux équipes scientifiques interdisciplinaires et deux domaines applicatifs.
- L’équipe 1 ''Apprendre et Innover'' relève principalement des Sciences cognitives, Sciences sociales et Sciences de gestion, Sciences et techniques de la formation et celles de l’innovation. Les principaux objectifs scientifiques visés sont la compréhension des effets de l'environnement, et plus particulièrement des situations instrumentées par des objets techniques (plateformes, ateliers de prototypage, systèmes immersifs...) sur les processus d'apprentissage, de créativité et d’innovation.
- L’équipe 2 ''Ingénierie et Outils Numériques'' relève principalement des Sciences du Numérique et de l'Ingénierie. Les principaux objectifs scientifiques portent sur la modélisation, la simulation, l’optimisation et l’analyse de données de systèmes cyber physiques. Les travaux de recherche portent également sur les outils d’aide à la décision associés et sur l’étude des interactions humains-systèmes notamment à travers les jumeaux numériques couplés à des environnements virtuels ou augmentés.
Ces deux équipes développent et croisent leurs recherches dans les deux domaines applicatifs de l'Industrie du Futur et de la Ville du Futur, soutenues par des plateformes de recherche, principalement celle de Rouen dédiée à l’Usine du Futur et celles de Nanterre dédiée à l’Usine et au Bâtiment du Futur.
Ces deux équipes développent et croisent leurs recherches dans les deux domaines applicatifs de l'Industrie du Futur et de la Ville du Futur, soutenues par des plateformes de recherche, principalement celle de Rouen dédiée à l’Usine du Futur et celles de Nanterre dédiée à l’Usine et au Bâtiment du Futur.
Site web :
Intitulé du doctorat
Pays d'obtention du doctorat
Etablissement délivrant le doctorat
Ecole doctorale
Profil du candidat
Compétences scientifiques et techniques dans un ou plusieurs de ces domaines :
— Solide compétence mathématique surtout en optimisation convexe et non-convexe, matrice, probabilité.
— Maîtrise des principales techniques d’IA. Une expérience avec Pytorch ou tensorflow serait appréciable.
— Solide niveau en programmation et réseaux.
— Appétence pour le calcul haute performance.
— Intérêt en traitement d’antennes (par exemple estimation DoA, formation de voies).
Compétences linguistiques et relationnelles :
— Bon niveau en anglais à l’écrit et à l’oral.
— Etre autonome, avoir un esprit d’initiative et de curiosité.
— Savoir travailler en équipe et avoir un bon relationnel.
— Etre rigoureux
Vous avez déjà un compte ?
Nouvel utilisateur ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
TotalEnergies
SUEZ
PhDOOC
Nokia Bell Labs France
CESI
Généthon
Laboratoire National de Métrologie et d'Essais - LNE
Tecknowmetrix
ANRT
MabDesign
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
Groupe AFNOR - Association française de normalisation
Institut Sup'biotech de Paris
ADEME
Ifremer
MabDesign
Aérocentre, Pôle d'excellence régional
ONERA - The French Aerospace Lab
CASDEN