Alignement de representation avec les humains des modeles vision-langage-action pour les taches hierarchiques // Human representation alignement of vision language action models for hierarchical tasks
| ABG-134079 ADUM-67806 | Sujet de Thèse | |
| 29/10/2025 | Contrat doctoral | 
				École nationale supérieure de techniques avancées			
			
		
					Palaiseau					 - Ile-de-France					 - France				
							
					Alignement de representation avec les humains des modeles vision-langage-action pour les taches hierarchiques // Human representation alignement of vision language action models for hierarchical tasks				
			
					modele vision language action, modele de fondation, apprentissage robotique, apprentissage par imitation, apprentissage par reinforcement
vision language action model, foundation model, robot learning, imitation learning, reinforcement learning
			vision language action model, foundation model, robot learning, imitation learning, reinforcement learning
Description du sujet
				Alors que les avancées des modeles vision langage impactent la robotique car ils sont exploités pour la planification des taches compositionnelles, ils butent contre le manque d'incarnation des actions physiques des LLMs et de leur mauvais capacité pour la planification long-terme afin d'accomplir des taches compositionnelles. Une autre limitation des modeles de fondation est le manque en robotique de bases de données massives pour l'apprentissage d'action incarnée multi-taches. De plus, plus la complexité des taches augmente, plus la taille des bases de données doit augmenter, exponentiellement. En fait, en apprentissage non-fini, l'ensemble des taches et les changement d'environnement, par définition, rendent impossible l'apprentissage d'une base de donnée pré-définie, aussi grande soit-elle.
Dans cette thèse theorique, en adoptant la perspective de l'apprentissage continu, nous proposons de nous attaquer à la limitation des bases de données prédéfinies avec les mécanismes d'apprentissage bio-inspirés :
- l'apprentissage par renforcement par motivation intrinsèque pour collecter des données de manière efficace
- l'apprentissage hiérarchique pour mettre à profit l'apprentissage par transfert à partir de taches simples pour construire des taches de plus en plus complexes
- l'apprentissage par imitation actif pour exploiter l'expertise humaine, en particulier les compositions haut niveau de taches.
Cette thèse a pour but d'apporter les bases theoriques pour aligner aux representations des humains, des modeles de fondation robotique multi-modales adaptatif de tache en incorporant la proprioception, la vision, le langage et l'apprentissage auto-supervisé, permettant aux robots de généraliser des taches primitives pour améliorer en taches compositionnelles, pour l'apprentissage non-fini dans in environnement incarné.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
While robots are expected to carry out complex tasks in the embodied [Varela et al. 1991] open-ended
environment [Doncieux et al. 2018], the state of the art in robotics can not yet generalise from
primitive tasks to solve tasks higher in complexity, and results show only success for a limited number
of tasks.
While the breakthrough of Vision Language Models (VLMs) impact robotics as they are harvested to
give task planning for compositional tasks, they are challenged with the lack of grounding of physical
actions of LLMs and the poor capabilities for long-term planning for long-horizon tasks. Another
limitation of foundation models is the lack in robotics of a large dataset for multi-task embodied action learning. Moreover, as the complexity of tasks grows, the need for very large datasets grows.
Actually, in open-ended learning, the set of tasks and the environment changes by definition make it
impossible to learn from a pre-defined dataset, however large it may be.
In this theoretical thesis, adopting the continual learning perspective, we propose to tackle the limitation of
predefined datasets with bio-inspired learning mechanisms :
• intrinsically-motivated reinforcement learning to collect efficiently data and learn from scarce data
• hierarchical learning to leverage transfer learning from simple tasks to build more complex
tasks
• active imitation learning to harness human expertise, especially for high-level task composition.
This thesis aims to study the theoretical bases to align with human representation, multi-modal, task-adaptive robotic foundation models by incorporating
proprioception, vision, language and self-supervised learning, allowing robots to generalize from primitive tasks to upscale to complex tasks, for open-ended learning in an embodied
environment.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2025
			Dans cette thèse theorique, en adoptant la perspective de l'apprentissage continu, nous proposons de nous attaquer à la limitation des bases de données prédéfinies avec les mécanismes d'apprentissage bio-inspirés :
- l'apprentissage par renforcement par motivation intrinsèque pour collecter des données de manière efficace
- l'apprentissage hiérarchique pour mettre à profit l'apprentissage par transfert à partir de taches simples pour construire des taches de plus en plus complexes
- l'apprentissage par imitation actif pour exploiter l'expertise humaine, en particulier les compositions haut niveau de taches.
Cette thèse a pour but d'apporter les bases theoriques pour aligner aux representations des humains, des modeles de fondation robotique multi-modales adaptatif de tache en incorporant la proprioception, la vision, le langage et l'apprentissage auto-supervisé, permettant aux robots de généraliser des taches primitives pour améliorer en taches compositionnelles, pour l'apprentissage non-fini dans in environnement incarné.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
While robots are expected to carry out complex tasks in the embodied [Varela et al. 1991] open-ended
environment [Doncieux et al. 2018], the state of the art in robotics can not yet generalise from
primitive tasks to solve tasks higher in complexity, and results show only success for a limited number
of tasks.
While the breakthrough of Vision Language Models (VLMs) impact robotics as they are harvested to
give task planning for compositional tasks, they are challenged with the lack of grounding of physical
actions of LLMs and the poor capabilities for long-term planning for long-horizon tasks. Another
limitation of foundation models is the lack in robotics of a large dataset for multi-task embodied action learning. Moreover, as the complexity of tasks grows, the need for very large datasets grows.
Actually, in open-ended learning, the set of tasks and the environment changes by definition make it
impossible to learn from a pre-defined dataset, however large it may be.
In this theoretical thesis, adopting the continual learning perspective, we propose to tackle the limitation of
predefined datasets with bio-inspired learning mechanisms :
• intrinsically-motivated reinforcement learning to collect efficiently data and learn from scarce data
• hierarchical learning to leverage transfer learning from simple tasks to build more complex
tasks
• active imitation learning to harness human expertise, especially for high-level task composition.
This thesis aims to study the theoretical bases to align with human representation, multi-modal, task-adaptive robotic foundation models by incorporating
proprioception, vision, language and self-supervised learning, allowing robots to generalize from primitive tasks to upscale to complex tasks, for open-ended learning in an embodied
environment.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2025
Nature du financement
				Contrat doctoral			
			Précisions sur le financement
				Allocation doctorale AMX*Concours IPP ou école membre*Concours pour un contrat doctoral*Financement CSC*			
		Présentation établissement et labo d'accueil
				École nationale supérieure de techniques avancées			
			Etablissement délivrant le doctorat
							École nationale supérieure de techniques avancées						
					
											Ecole doctorale
							626 Ecole Doctorale de l'Institut Polytechnique de Paris						
									Profil du candidat
				Master in machine learning or robotics
Master in machine learning or robotics
							Master in machine learning or robotics
						01/04/2026					
				
			
	Postuler
    
        
  
          
  
    
        
	
Fermer
		Vous avez déjà un compte ?
Nouvel utilisateur ?
								Besoin d'informations sur l'ABG ?
                                
                            
					
							Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
 Institut Sup'biotech de Paris Institut Sup'biotech de Paris
 Aérocentre, Pôle d'excellence régional Aérocentre, Pôle d'excellence régional
 Nokia Bell Labs France Nokia Bell Labs France
 ANRT ANRT
 TotalEnergies TotalEnergies
 MabDesign MabDesign
 SUEZ SUEZ
 PhDOOC PhDOOC
 ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
 Tecknowmetrix Tecknowmetrix
 CESI CESI
 Généthon Généthon
 ONERA - The French Aerospace Lab ONERA - The French Aerospace Lab
 Laboratoire National de Métrologie et d'Essais - LNE Laboratoire National de Métrologie et d'Essais - LNE
 MabDesign MabDesign
 Ifremer Ifremer
 ADEME ADEME
 Groupe AFNOR - Association française de normalisation Groupe AFNOR - Association française de normalisation
 CASDEN CASDEN



