Where PhDs and companies meet
Menu
Login

Apprentissage des modèles de langues audio par interaction multimodale // Grounding a Multimodal Speech Language Model Through Physical and Social Interaction

ABG-133323
ADUM-67045
Thesis topic
2025-09-05 Other public funding
Université Grenoble Alpes
Saint Martin d'Hères cedex - Auvergne-Rhône-Alpes - France
Apprentissage des modèles de langues audio par interaction multimodale // Grounding a Multimodal Speech Language Model Through Physical and Social Interaction
  • Computer science
parole, IA, sciences cognitives, multimodalité, robotique sociale, interaction
speech, AI, cognition, multimodal, social robotics, interaction

Topic description

Ce projet de thèse vise s'inscrit dans la ligne de recherche sur l'IA développementale qui vise d'une part à améliorer les intelligences artificielles conversationnelles en s'inspirant de l'acquisition du langage chez le jeune enfant, et d'autre part à étudier, par le biais de la modélisation et la simulation, certains des mécanismes cognitifs qui sous-tendent l'acquisition du langage et de la parole. Dans ce projet, nous nous intéressons aux Speech Language Models (SpeechLMs) sans texte — des modèles génératifs de la parole qui apprennent directement à partir du signal, sans supervision textuelle, à l'image des enfants qui acquièrent le langage avant l'apprentissage de la lecture.

Le projet de thèse portera spécifiquement sur la manière dont l'ancrage des SpeechLMs dans une interaction multimodale — à la fois physique et sociale — peut améliorer leurs capacités d'apprentissage du langage.

La thèse poursuivra les objectifs scientifiques suivants :
1. Étudier comment les entrées multimodales (par exemple les indices visuels, prosodiques ou contextuels) peuvent soutenir la segmentation du flux audio et l'acquisition d'un lexique. Alors que les LLMs sont efficaces sur des données textuelles, la segmentation et l'ancrage du langage restent des problèmes ouverts pour la parole brute.
2. Analyser le rôle de l'interaction communicative multimodale dans l'apprentissage ancré du sens des mots, en mettant l'accent sur le niveau lexical.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

This PhD position aims to advance conversational AI by drawing inspiration from infant language acquisition. It explores textless Speech Language Models (SpeechLMs) — generative speech models that learn without textual supervision, mimicking how children acquire language before literacy.
The specific PhD project will investigate how grounding SpeechLMs in multimodal interaction — both physical and social — can improve their language learning capabilities.

The PhD project will pursue the following goals:
1) Investigate how multimodal inputs (e.g., visual, prosodic, contextual cues) support audio stream segmentation and lexicon acquisition. While LLMs perform well with textual input, segmentation and grounding remain unsolved for raw speech.
2) Study the role of multimodal communicative interaction in the grounded learning of word meanings, with an emphasis on the lexical level.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/12/2025

Funding category

Other public funding

Funding further details

ANR Financement d'Agences de financement de la recherche

Presentation of host institution and host laboratory

Université Grenoble Alpes

Institution awarding doctoral degree

Université Grenoble Alpes

Graduate school

220 EEATS - Electronique, Electrotechnique, Automatique, Traitement du Signal

Candidate's profile

Nous recherchons un·e candidat·e au doctorat motivé·e, possédant une solide formation dans un ou plusieurs des domaines suivants : - traitement de la parole, traitement du langage naturel (NLP), vision par ordinateur, apprentissage automatique - bonnes compétences en programmation (notamment avec la bibliothèque PyTorch) - intérêt pour les liens entre intelligence artificielle et cognition humaine Une expérience préalable avec les modèles de langage (LLM), les modèles de la parole (SpeechLMs), les algorithmes d'apprentissage par renforcement (RL) ou les plateformes robotiques est un atout, mais n'est pas obligatoire.
We are seeking a motivated PhD candidate with a strong background in one or more of the following areas: - Speech processing, NLP, computer vision, machine learning - Solid programming skills (including the PyTorch library) Interest in connecting AI with human cognition - Prior experience with LLM, SpeechLMs, RL algorithms, or robotic platforms is a plus, but not mandatory.
2025-09-30
Partager via
Apply
Close

Vous avez déjà un compte ?

Nouvel utilisateur ?