Où docteurs et entreprises se rencontrent
Menu
Connexion

Apprentissage des modèles de langues audio par interaction multimodale // Grounding a Multimodal Speech Language Model Through Physical and Social Interaction

ABG-133323
ADUM-67045
Sujet de Thèse
05/09/2025 Autre financement public
Université Grenoble Alpes
Saint Martin d'Hères cedex - Auvergne-Rhône-Alpes - France
Apprentissage des modèles de langues audio par interaction multimodale // Grounding a Multimodal Speech Language Model Through Physical and Social Interaction
  • Informatique
parole, IA, sciences cognitives, multimodalité, robotique sociale, interaction
speech, AI, cognition, multimodal, social robotics, interaction

Description du sujet

Ce projet de thèse vise s'inscrit dans la ligne de recherche sur l'IA développementale qui vise d'une part à améliorer les intelligences artificielles conversationnelles en s'inspirant de l'acquisition du langage chez le jeune enfant, et d'autre part à étudier, par le biais de la modélisation et la simulation, certains des mécanismes cognitifs qui sous-tendent l'acquisition du langage et de la parole. Dans ce projet, nous nous intéressons aux Speech Language Models (SpeechLMs) sans texte — des modèles génératifs de la parole qui apprennent directement à partir du signal, sans supervision textuelle, à l'image des enfants qui acquièrent le langage avant l'apprentissage de la lecture.

Le projet de thèse portera spécifiquement sur la manière dont l'ancrage des SpeechLMs dans une interaction multimodale — à la fois physique et sociale — peut améliorer leurs capacités d'apprentissage du langage.

La thèse poursuivra les objectifs scientifiques suivants :
1. Étudier comment les entrées multimodales (par exemple les indices visuels, prosodiques ou contextuels) peuvent soutenir la segmentation du flux audio et l'acquisition d'un lexique. Alors que les LLMs sont efficaces sur des données textuelles, la segmentation et l'ancrage du langage restent des problèmes ouverts pour la parole brute.
2. Analyser le rôle de l'interaction communicative multimodale dans l'apprentissage ancré du sens des mots, en mettant l'accent sur le niveau lexical.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

This PhD position aims to advance conversational AI by drawing inspiration from infant language acquisition. It explores textless Speech Language Models (SpeechLMs) — generative speech models that learn without textual supervision, mimicking how children acquire language before literacy.
The specific PhD project will investigate how grounding SpeechLMs in multimodal interaction — both physical and social — can improve their language learning capabilities.

The PhD project will pursue the following goals:
1) Investigate how multimodal inputs (e.g., visual, prosodic, contextual cues) support audio stream segmentation and lexicon acquisition. While LLMs perform well with textual input, segmentation and grounding remain unsolved for raw speech.
2) Study the role of multimodal communicative interaction in the grounded learning of word meanings, with an emphasis on the lexical level.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/12/2025

Nature du financement

Autre financement public

Précisions sur le financement

ANR Financement d'Agences de financement de la recherche

Présentation établissement et labo d'accueil

Université Grenoble Alpes

Etablissement délivrant le doctorat

Université Grenoble Alpes

Ecole doctorale

220 EEATS - Electronique, Electrotechnique, Automatique, Traitement du Signal

Profil du candidat

Nous recherchons un·e candidat·e au doctorat motivé·e, possédant une solide formation dans un ou plusieurs des domaines suivants : - traitement de la parole, traitement du langage naturel (NLP), vision par ordinateur, apprentissage automatique - bonnes compétences en programmation (notamment avec la bibliothèque PyTorch) - intérêt pour les liens entre intelligence artificielle et cognition humaine Une expérience préalable avec les modèles de langage (LLM), les modèles de la parole (SpeechLMs), les algorithmes d'apprentissage par renforcement (RL) ou les plateformes robotiques est un atout, mais n'est pas obligatoire.
We are seeking a motivated PhD candidate with a strong background in one or more of the following areas: - Speech processing, NLP, computer vision, machine learning - Solid programming skills (including the PyTorch library) Interest in connecting AI with human cognition - Prior experience with LLM, SpeechLMs, RL algorithms, or robotic platforms is a plus, but not mandatory.
30/09/2025
Partager via
Postuler
Fermer

Vous avez déjà un compte ?

Nouvel utilisateur ?