Interactions vocales homme-robot efficaces

Vous êtes*	↓ ↓
E-mail*	↓ ↓

Description du sujet

Doctorat d'informatique - Établissement délivrant le diplôme : ENSAM

Contexte scientifique

Avec le vieillissement de la population, la robotique d’assistance est en plein essor. Les robots ont un rôle à jouer, mais doivent pour cela disposer de fonctionnalités robustes et transparentes pour être largement adoptés. Dans ces conditions, le moyen d’interaction naturel est la voix. La reconnaissance vocale en particulier permet de transcrire les requêtes utilisateurs en langage naturel, puis de les convertir en actions pour répondre aux sollicitations. Cette composante vocale renferme d’autres informations à exploiter en vue d’enrichir les services d’un tel système robotique. En particulier, la voix permet d’identifier l’émetteur d’une requête énoncée à l’oral afin d’en personnaliser la réponse. L’onde sonore donne également au robot la possibilité de localiser la source d’émission et de se diriger vers l’interlocuteur afin d’engager l’interaction. Tous ces traitements requièrent une plateforme de calculs robuste et son exploitation adaptative selon la localisation du robot, les conditions réseau et l’occupation des ressources. De plus, les opérations d’inférence sont gourmandes en ressources et réduisent d’autant l’exécution de fonctionnalités annexes, ou peuvent être perturbés par des opérations critiques. Notre plateforme de services autour de la voix, dénommée Vo-CAIRbot (Voice Control And Interaction for assistive RoBotics Operations in multi-user environments) devra alors combiner robustesse et performance pour être viable et assurer un haut niveau de qualité d’expérience (QoE) auprès d’un public en perte d’autonomie.

Sujet de thèse

L’intégration réussie de solutions de robotique d’assistance repose pour partie sur la capacité et fluidité d’interaction avec les acteurs humains. Y aboutir se traduit par des flottes de robots en mesure de réagir avec transparence et robustesse aux sollicitations utilisateur. Cela n’est pas anodin car lié à la puissance de calcul embarquée pour atteindre des temps de réponse satisfaisants. Aussi, concevoir un robot capable de s’intégrer dans un environnement humain et de répondre efficacement aux sollicitations requiert des briques de base solides et optimisées. Pour un public en perte d’autonomie la voix constitue un relais de communication important avec des systèmes robotisés. Au delà du langage naturel, l’information vocale embarque des caractéristiques supplémentaires exploitables pour fournir une offre de services enrichie. Nous explorons trois pans essentiels d’interactions à la voix pour faciliter l’acceptation des robots d’assistance et simplifier leur utilisation :

— L’onde sonore peut alors être exploitée pour fournir une information de localisation [8, 7, 3], utile aux besoins de communication visuelle avec les personnes. Cette information est combinée avec une technique de localisation indoor pré-existante pour calculer un emplacement dans la zone d’intérêt considérée. En effet, un réseau de microphone embarqué permet d’identifier la source d’émanation d’une commande vocale et de s’y rendre de manière itérative.

— L’interaction vocale avec un robot repose sur la transcription et l’interprétation de la parole du locuteur [6]. Ces opérations mobilisent des modèles d’apprentissage profond de grande complexité, conçus pour prendre en compte les variabilités acoustiques, prosodiques et linguistiques inhérentes à la parole humaine. Toutefois, leur intégration sur des plateformes robotiques aux ressources limitées impose des contraintes strictes en termes de calcul et de mémoire, nécessitant l’adoption de techniques d’optimisation avancées visant à réduire leur taille et leur charge computationnelle sans compromettre les performances [4].

— L’empreinte vocale propre aux individus est alors également exploitable pour simplifier et personnaliser les interactions. En effet, dans un contexte multi-utilisateurs, cette information permet au robot de localiser la personne qui parle et d’interagir avec elle.

Nous nous proposons d’investiguer les techniques d’IA temps-réel capables de répondre à nos problèmes. La complexité des calculs combinée aux contraintes de l’environnement d’exécution, l’exigence de réactivité et la confidentialité des échanges nécessitent des approches originales pour accélérer les traitements de machine learning. En effet, les robots embarquent une puissance de calcul limitée, soumise à un taux d’occupation variable et à une enveloppe énergétique contrainte. En réponse, nous mobiliserons des infrastructures d’edge computing pour atteindre un haut niveau de qualité d’expérience (QoE).

Plusieurs approches, basées sur une répartition optimale des calculs, seront alors à investiguer en plus des traditionnelles techniques d’élagage, de quantification [5] et de distillation de connaissances. On s’intéressera notamment aux techniques de partitionnement pour répartir efficacement les opérations d’inférence sur les périphériques edge [2]. Tenir compte de l’état de l’infrastructure est alors essentiel pour arriver à maintenir un haut niveau de performances et affecter une charge de travail adéquate aux nœuds de calcul. Pour maximiser les performances, il est alors crucial d’exploiter au mieux la localité des données et d’éviter des transmissions coûteuses. De plus, l’exécution concurrente de certaines opérations sur des périphériques hétérogènes par nature, via, par exemple, du parallélisme de tenseur ou du parallélisme en pipeline, en contextes multi-utilisateurs, sera également investigué. Finalement, les phases d’entraînement pourront s’appuyer sur des techniques d’apprentissage fédérées, déjà largement investiguées dans nos travaux [1].

Pour résumer, l’objectif de la thèse est alors de répondre aux cas d’usage énoncés, pour implémenter une plateforme d’interaction vocale, dotée des services suivants :

Localisation de l’émetteur d’un signal vocal.
Reconnaissance vocale et transcription en langage naturel.
Identification de l’interlocuteur.

Ces services devront concilier un haut niveau de performances afin de fournir la meilleure expérience utilisateur.

Programme de travail

Le programme de travail prévisionnel est énuméré ci-dessous :

Inscription ED 432, état de l’art, définition d’une méthodologie de recherche.
Conception de modèles d’IA performants pour la localisation et la séparation des voix puis soumission de papier.
Développement de modèles d’IA performants pour la reconnaissance vocale et soumission de papier.
Proposition de méthodes innovantes d’optimisation des modèles d’IA et d’optimisation des calculs et soumission de papier.
Intégration des modèles IA dans le robot TIAGO++, soumission d’article. Rédaction du manuscrit de thèse, présentation des résultats, soutenance.

Production scientifique/technique attendue

Les travaux donneront lieu à des publications dans des conférences et journaux internationaux de premier rang. La thèse aboutira sur le développement de nouveaux services d’assistance robotique basés sur la voix.

Références

[1] Ahmed-Rafik-El Mehdi Baahmed, Jean-François Dollinger, Mohamed-El-Amine Brahmia et Mourad Zghal. “Hyperparameter Impact on Computational Efficiency in Federated Edge Learning”. In : 2024 International Wireless Communications and Mobile Computing (IWCMC). 2024, p. 0849-0854.

[2] Chenghao Hu et Baochun Li. “When the Edge Meets Transformers: Distributed Inference with Transformer Models”. In : 2024 IEEE 44th International Conference on Distributed Computing Systems (ICDCS). IEEE. 2024, p. 82-92.

[3] LI Jie, ZHAO Jing, DING Yuehua, LI Yifang et CHEN Fangjiong. “An Improved co-Prime Parallel Array With Conjugate Augmentation for 2-D DOA Estimation”. In : IEEE Sensors Journal 21.20 (2021), p. 23400-23411.

[4] Leila Ben Letaifa et Jean-Luc Rouas. “Towards Green AI: Assessing the Robustness of Conformer and Transformer Models under Compression”. In : Proceedings of the 32nd European Signal Processing Conference EUSIPCO 2024. IEEE, 2024, p. 336-340.

[5] Mouaad Oujabour, Leila Ben Letaifa, Jean-François Dollinger et Jean-Luc Rouas. “Adaptive Compression of Supervised and Self-Supervised Models for Green Speech Recognition”. In : IEEE International Conference on Acoustics, Speech, and Signal Processing ICASSP. 2025.

[6] Jinchuan Tian, Jiatong Shi, William Chen, Siddhant Arora, Yoshiki Masuyama, Takashi Maekaku, Yihan Wu, Junyi Peng, Shikhar Bharadwaj, Yiwen Zhao, Samuele Cornell, Yifan Peng, Xiang Yue, Chao-Han Huck Yang, Graham Neubig et Shinji Watanabe. ESPnet-SpeechLM: An Open Speech Language Model Toolkit. 2025.

[7] DING Yuehua, DOLLINGER Jean-François, VAUCHEY Vincent et ZGHAL Mourad. “Double-Layer Soft Data Fusion for Indoor Robot WiFi-Visual Localization”. In : IEEE Sensors Journal, early access (2025).

[8] DING Yuehua, DOLLINGER Jean-François, VAUCHEY Vincent et ZGHAL Mourad. “WiFi-Visual data fusion for indoor robot localization”. In : 2024 IEEERAS 23rd International Conference on Humanoid Robots (Humanoids), Nancy, France. 2024, p. 135-140

Prise de fonction :

01/09/2025

Nature du financement

Financement public/privé

Précisions sur le financement

Co-financement CESI région EST et Région Grand Est.

Présentation établissement et labo d'accueil

CESI de Strasbourg

CESI LINEACT (UR 7527), Laboratoire d'Innovation Numérique pour les Entreprises et les Apprentissages au service de la Compétitivité des Territoires, anticipe et accompagne les mutations technologiques des secteurs et des services liés à l’industrie et au BTP. La proximité historique de CESI avec les entreprises est un élément déterminant pour nos activités de recherche, et a conduit à concentrer les efforts sur une recherche appliquée proche de l’entreprise et en partenariat avec elles. Une approche centrée sur l’humain et couplée à l’utilisation des technologies, ainsi que le maillage territorial et les liens avec la formation, ont permis de construire une recherche transversale ; elle met l’humain, ses besoins et ses usages, au centre de ses problématiques et aborde l’angle technologique au travers de ces apports.

Sa recherche est organisée selon deux équipes scientifiques interdisciplinaires et deux domaines applicatifs.

- L’équipe 1 ''Apprendre et Innover'' relève principalement des Sciences cognitives, Sciences sociales et Sciences de gestion, Sciences et techniques de la formation et celles de l’innovation. Les principaux objectifs scientifiques visés sont la compréhension des effets de l'environnement, et plus particulièrement des situations instrumentées par des objets techniques (plateformes, ateliers de prototypage, systèmes immersifs...) sur les processus d'apprentissage, de créativité et d’innovation.
- L’équipe 2 ''Ingénierie et Outils Numériques'' relève principalement des Sciences du Numérique et de l'Ingénierie. Les principaux objectifs scientifiques portent sur la modélisation, la simulation, l’optimisation et l’analyse de données de systèmes cyber physiques. Les travaux de recherche portent également sur les outils d’aide à la décision associés et sur l’étude des interactions humains-systèmes notamment à travers les jumeaux numériques couplés à des environnements virtuels ou augmentés.

CESI LINEACT (UR 7527), Laboratoire d'Innovation Numérique pour les Entreprises et les Apprentissages au service de la Compétitivité des Territoires, anticipe et accompagne les mutations technologiques des secteurs et des services liés à l’industrie et au BTP. La proximité historique de CESI avec les entreprises est un élément déterminant pour nos activités de recherche, et a conduit à concentrer les efforts sur une recherche appliquée proche de l’entreprise et en partenariat avec elles. Une approche centrée sur l’humain et couplée à l’utilisation des technologies, ainsi que le maillage territorial et les liens avec la formation, ont permis de construire une recherche transversale ; elle met l’humain, ses besoins et ses usages, au centre de ses problématiques et aborde l’angle technologique au travers de ces apports. Sa recherche est organisée selon deux équipes scientifiques interdisciplinaires et deux domaines applicatifs.

- L’équipe 1 ''Apprendre et Innover'' relève principalement des Sciences cognitives, Sciences sociales et Sciences de gestion, Sciences et techniques de la formation et celles de l’innovation. Les principaux objectifs scientifiques visés sont la compréhension des effets de l'environnement, et plus particulièrement des situations instrumentées par des objets techniques (plateformes, ateliers de prototypage, systèmes immersifs...) sur les processus d'apprentissage, de créativité et d’innovation.
- L’équipe 2 ''Ingénierie et Outils Numériques'' relève principalement des Sciences du Numérique et de l'Ingénierie. Les principaux objectifs scientifiques portent sur la modélisation, la simulation, l’optimisation et l’analyse de données de systèmes cyber physiques. Les travaux de recherche portent également sur les outils d’aide à la décision associés et sur l’étude des interactions humains-systèmes notamment à travers les jumeaux numériques couplés à des environnements virtuels ou augmentés.

Ces deux équipes développent et croisent leurs recherches dans les deux domaines applicatifs de l'Industrie du Futur et de la Ville du Futur, soutenues par des plateformes de recherche, principalement celle de Rouen dédiée à l’Usine du Futur et celles de Nanterre dédiée à l’Usine et au Bâtiment du Futur.
Ces deux équipes développent et croisent leurs recherches dans les deux domaines applicatifs de l'Industrie du Futur et de la Ville du Futur, soutenues par des plateformes de recherche, principalement celle de Rouen dédiée à l’Usine du Futur et celles de Nanterre dédiée à l’Usine et au Bâtiment du Futur.

Site web :

https://strasbourg.cesi.fr/

Intitulé du doctorat

Doctorat d'informatique

Pays d'obtention du doctorat

France

Etablissement délivrant le doctorat

ECOLE NATIONALE SUPERIEURE DES ARTS ET METIERS

Ecole doctorale

Sciences pour l'Ingénieur - SMI

Profil du candidat

Compétences scientifiques et techniques dans un ou plusieurs de ces domaines :

— Solide compétence mathématique surtout en optimisation convexe et non-convexe, matrice, probabilité.

— Maîtrise des principales techniques d’IA. Une expérience avec Pytorch ou tensorflow serait appréciable.

— Solide niveau en programmation et réseaux.

— Appétence pour le calcul haute performance.

— Intérêt en traitement d’antennes (par exemple estimation DoA, formation de voies).

Compétences linguistiques et relationnelles :

— Bon niveau en anglais à l’écrit et à l’oral.

— Etre autonome, avoir un esprit d’initiative et de curiosité.

— Savoir travailler en équipe et avoir un bon relationnel.

— Etre rigoureux

Date limite de candidature

31/07/2025

Réf ABG-132653	Sujet de Thèse
25/06/2025		Financement public/privé

Vous avez déjà un compte ?

Nouvel utilisateur ?