Apprentissage des modèles de langues audio par interaction multimodale // Grounding a Multimodal Speech Language Model Through Physical and Social Interaction
ABG-133323
ADUM-67045 |
Sujet de Thèse | |
05/09/2025 | Autre financement public |
Université Grenoble Alpes
Saint Martin d'Hères cedex - Auvergne-Rhône-Alpes - France
Apprentissage des modèles de langues audio par interaction multimodale // Grounding a Multimodal Speech Language Model Through Physical and Social Interaction
- Informatique
parole, IA, sciences cognitives, multimodalité, robotique sociale, interaction
speech, AI, cognition, multimodal, social robotics, interaction
speech, AI, cognition, multimodal, social robotics, interaction
Description du sujet
Ce projet de thèse vise s'inscrit dans la ligne de recherche sur l'IA développementale qui vise d'une part à améliorer les intelligences artificielles conversationnelles en s'inspirant de l'acquisition du langage chez le jeune enfant, et d'autre part à étudier, par le biais de la modélisation et la simulation, certains des mécanismes cognitifs qui sous-tendent l'acquisition du langage et de la parole. Dans ce projet, nous nous intéressons aux Speech Language Models (SpeechLMs) sans texte — des modèles génératifs de la parole qui apprennent directement à partir du signal, sans supervision textuelle, à l'image des enfants qui acquièrent le langage avant l'apprentissage de la lecture.
Le projet de thèse portera spécifiquement sur la manière dont l'ancrage des SpeechLMs dans une interaction multimodale — à la fois physique et sociale — peut améliorer leurs capacités d'apprentissage du langage.
La thèse poursuivra les objectifs scientifiques suivants :
1. Étudier comment les entrées multimodales (par exemple les indices visuels, prosodiques ou contextuels) peuvent soutenir la segmentation du flux audio et l'acquisition d'un lexique. Alors que les LLMs sont efficaces sur des données textuelles, la segmentation et l'ancrage du langage restent des problèmes ouverts pour la parole brute.
2. Analyser le rôle de l'interaction communicative multimodale dans l'apprentissage ancré du sens des mots, en mettant l'accent sur le niveau lexical.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
This PhD position aims to advance conversational AI by drawing inspiration from infant language acquisition. It explores textless Speech Language Models (SpeechLMs) — generative speech models that learn without textual supervision, mimicking how children acquire language before literacy.
The specific PhD project will investigate how grounding SpeechLMs in multimodal interaction — both physical and social — can improve their language learning capabilities.
The PhD project will pursue the following goals:
1) Investigate how multimodal inputs (e.g., visual, prosodic, contextual cues) support audio stream segmentation and lexicon acquisition. While LLMs perform well with textual input, segmentation and grounding remain unsolved for raw speech.
2) Study the role of multimodal communicative interaction in the grounded learning of word meanings, with an emphasis on the lexical level.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/12/2025
Le projet de thèse portera spécifiquement sur la manière dont l'ancrage des SpeechLMs dans une interaction multimodale — à la fois physique et sociale — peut améliorer leurs capacités d'apprentissage du langage.
La thèse poursuivra les objectifs scientifiques suivants :
1. Étudier comment les entrées multimodales (par exemple les indices visuels, prosodiques ou contextuels) peuvent soutenir la segmentation du flux audio et l'acquisition d'un lexique. Alors que les LLMs sont efficaces sur des données textuelles, la segmentation et l'ancrage du langage restent des problèmes ouverts pour la parole brute.
2. Analyser le rôle de l'interaction communicative multimodale dans l'apprentissage ancré du sens des mots, en mettant l'accent sur le niveau lexical.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
This PhD position aims to advance conversational AI by drawing inspiration from infant language acquisition. It explores textless Speech Language Models (SpeechLMs) — generative speech models that learn without textual supervision, mimicking how children acquire language before literacy.
The specific PhD project will investigate how grounding SpeechLMs in multimodal interaction — both physical and social — can improve their language learning capabilities.
The PhD project will pursue the following goals:
1) Investigate how multimodal inputs (e.g., visual, prosodic, contextual cues) support audio stream segmentation and lexicon acquisition. While LLMs perform well with textual input, segmentation and grounding remain unsolved for raw speech.
2) Study the role of multimodal communicative interaction in the grounded learning of word meanings, with an emphasis on the lexical level.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/12/2025
Nature du financement
Autre financement public
Précisions sur le financement
ANR Financement d'Agences de financement de la recherche
Présentation établissement et labo d'accueil
Université Grenoble Alpes
Etablissement délivrant le doctorat
Université Grenoble Alpes
Ecole doctorale
220 EEATS - Electronique, Electrotechnique, Automatique, Traitement du Signal
Profil du candidat
Nous recherchons un·e candidat·e au doctorat motivé·e, possédant une solide formation dans un ou plusieurs des domaines suivants :
- traitement de la parole, traitement du langage naturel (NLP), vision par ordinateur, apprentissage automatique
- bonnes compétences en programmation (notamment avec la bibliothèque PyTorch)
- intérêt pour les liens entre intelligence artificielle et cognition humaine
Une expérience préalable avec les modèles de langage (LLM), les modèles de la parole (SpeechLMs), les algorithmes d'apprentissage par renforcement (RL) ou les plateformes robotiques est un atout, mais n'est pas obligatoire.
We are seeking a motivated PhD candidate with a strong background in one or more of the following areas: - Speech processing, NLP, computer vision, machine learning - Solid programming skills (including the PyTorch library) Interest in connecting AI with human cognition - Prior experience with LLM, SpeechLMs, RL algorithms, or robotic platforms is a plus, but not mandatory.
We are seeking a motivated PhD candidate with a strong background in one or more of the following areas: - Speech processing, NLP, computer vision, machine learning - Solid programming skills (including the PyTorch library) Interest in connecting AI with human cognition - Prior experience with LLM, SpeechLMs, RL algorithms, or robotic platforms is a plus, but not mandatory.
30/09/2025
Postuler
Fermer
Vous avez déjà un compte ?
Nouvel utilisateur ?
Besoin d'informations sur l'ABG ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
Groupe AFNOR - Association française de normalisation
ANRT
MabDesign
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
Généthon
Tecknowmetrix
Aérocentre, Pôle d'excellence régional
Ifremer
SUEZ
CASDEN
PhDOOC
CESI
Nokia Bell Labs France
Laboratoire National de Métrologie et d'Essais - LNE
Institut Sup'biotech de Paris
ONERA - The French Aerospace Lab
TotalEnergies
ADEME
MabDesign