Apprentissage sensorimoteur profond, auto-supervisé et actif de représentations d'objets manipulables // Deep active self-supervised sensorimotor learning of manipulable object representations
ABG-131818
ADUM-65945 |
Sujet de Thèse | |
10/05/2025 | Autre financement public |
Université Grenoble Alpes
Grenoble Cedex 9 - Auvergne-Rhône-Alpes - France
Apprentissage sensorimoteur profond, auto-supervisé et actif de représentations d'objets manipulables // Deep active self-supervised sensorimotor learning of manipulable object representations
- Psychologie, neurosciences
contingences sensorimotrice, apprentissage actif, apprentissage auto-supervisé, modèle d'espace d'état, modèle graphique, manipulation d'objet
sensorimotor contingencies, active learning, self-supervised learning, state space model, graphical model, object manipulation
sensorimotor contingencies, active learning, self-supervised learning, state space model, graphical model, object manipulation
Description du sujet
Le sujet porte sur l'apprentissage de représentations à partir de séquences d'interaction avec l'environnement. Nous nous appuierons en particulier sur la théorie des contingences sensorimotrices [3,4] afin que l'action structure à la fois les représentations apprises mais également la dynamique de l'interaction. Dans ce cadre, nous voulons apprendre des structures prédictives du monde, permettant de définir de manière auto-supervisée les objets comme graphes d'interactions potentielles [5]. Durant la thèse, les problématiques suivantes seront abordées :
- Comment intégrer l'action dans les modèles existants d'apprentissage profond auto-supervisé (par exemple Transformer ou State Space Models) et quelle est son influence sur les structures et les capacités prédictives du modèle.
- Comment apprendre des structures spatio-temporelles pouvant correspondre à des notions de proto-objets. Des approches hybrides couplant des graphes et de l'apprentissage profond seront étudiées, en particulier pour apprendre des structures multi-échelles, localement organisées et globalement reliées. Ces représentations pourront également servir de signal de supervision pour les approches auto-supervisées utilisées pour l'apprentissage multimodal effectué dans une autre partie du projet.
- Comment obtenir des méthodes efficaces en termes de temps d'apprentissage et de données utilisées. En effet, l'utilisation de l'action requiert un simulateur qui induit des temps de calculs plus importants que l'utilisation d'une base de données. La possibilité de faire du pré apprentissage hors ligne (par exemple avec des comportements aléatoires pré enregistrés) sera étudiée. De plus, des mécanismes d'apprentissage actifs (par un choix d'action opportun pour obtenir une information utile) seront proposés afin de réduire la quantité de données d'apprentissage nécessaires pour atteindre un certain niveau de performance. Ces mécanismes, par la formalisation d'hypothèses testables sur l'environnement, permettront également de réduire la taille des représentations (en ne conservant que les sous parties prédictibles des entrées). Ces recherches pourront également être couplées avec des mécanismes de choix de politiques explorées dans une autre partie du projet.
Ces différentes pistes seront testées dans des environnements simples (comme nous l'avons fait avec Tetris [6]), ou dans un environnement de simulation robotique avec des objets aux formes et propriétés simples (en lien avec les autres recherches menées dans le projet MeSMRise).
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
The proposal deals with the learning of representations from sequences of interaction with the environment. In particular, we will draw on sensorimotor contingency theory [3,4] to ensure that action structures both the representations learned and the dynamics of interaction. Within this framework, we aim to learn predictive structures of the world, enabling self-supervised definition of objects as graphs of potential interactions [5]. During the PhD thesis, the following issues will be addressed:
- How to integrate action into existing self-supervised deep learning models (e.g. Transformer or State Space Models) and what is its influence on the structures and predictive capabilities of the model.
- How to learn spatio-temporal structures that may correspond to notions of proto-objects. Hybrid approaches combining graphs and deep learning will be studied, in particular to learn multiscale, locally organized and globally connected structures. These representations could also serve as a supervisory signal for the self-supervised approaches used for multimodal learning in another part of the project.
- How to obtain efficient methods in terms of learning time and data used. In practice, the use of action requires a simulator which induces longer computation times than the use of datasets. The possibility of offline pre-learning (e.g. with pre-recorded random behaviors) will be investigated. In addition, active learning mechanisms (by choosing the right action to obtain useful information) will be proposed to reduce the amount of training data required for a given performance. By formalizing testable hypotheses about the environment, these mechanisms will also help to reduce the size of representations (by retaining only predictable sub-parts of the inputs). This research could also be coupled with policy choice mechanisms explored in another part of the project.
These different directions will be tested in simple environments (as we have done with Tetris [6]), or in a robotic simulation environment with objects of simple shapes and properties (in line with other research carried out in the MeSMRise project).
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2025
WEB : https://projet.liris.cnrs.fr/mesmrise
- Comment intégrer l'action dans les modèles existants d'apprentissage profond auto-supervisé (par exemple Transformer ou State Space Models) et quelle est son influence sur les structures et les capacités prédictives du modèle.
- Comment apprendre des structures spatio-temporelles pouvant correspondre à des notions de proto-objets. Des approches hybrides couplant des graphes et de l'apprentissage profond seront étudiées, en particulier pour apprendre des structures multi-échelles, localement organisées et globalement reliées. Ces représentations pourront également servir de signal de supervision pour les approches auto-supervisées utilisées pour l'apprentissage multimodal effectué dans une autre partie du projet.
- Comment obtenir des méthodes efficaces en termes de temps d'apprentissage et de données utilisées. En effet, l'utilisation de l'action requiert un simulateur qui induit des temps de calculs plus importants que l'utilisation d'une base de données. La possibilité de faire du pré apprentissage hors ligne (par exemple avec des comportements aléatoires pré enregistrés) sera étudiée. De plus, des mécanismes d'apprentissage actifs (par un choix d'action opportun pour obtenir une information utile) seront proposés afin de réduire la quantité de données d'apprentissage nécessaires pour atteindre un certain niveau de performance. Ces mécanismes, par la formalisation d'hypothèses testables sur l'environnement, permettront également de réduire la taille des représentations (en ne conservant que les sous parties prédictibles des entrées). Ces recherches pourront également être couplées avec des mécanismes de choix de politiques explorées dans une autre partie du projet.
Ces différentes pistes seront testées dans des environnements simples (comme nous l'avons fait avec Tetris [6]), ou dans un environnement de simulation robotique avec des objets aux formes et propriétés simples (en lien avec les autres recherches menées dans le projet MeSMRise).
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
The proposal deals with the learning of representations from sequences of interaction with the environment. In particular, we will draw on sensorimotor contingency theory [3,4] to ensure that action structures both the representations learned and the dynamics of interaction. Within this framework, we aim to learn predictive structures of the world, enabling self-supervised definition of objects as graphs of potential interactions [5]. During the PhD thesis, the following issues will be addressed:
- How to integrate action into existing self-supervised deep learning models (e.g. Transformer or State Space Models) and what is its influence on the structures and predictive capabilities of the model.
- How to learn spatio-temporal structures that may correspond to notions of proto-objects. Hybrid approaches combining graphs and deep learning will be studied, in particular to learn multiscale, locally organized and globally connected structures. These representations could also serve as a supervisory signal for the self-supervised approaches used for multimodal learning in another part of the project.
- How to obtain efficient methods in terms of learning time and data used. In practice, the use of action requires a simulator which induces longer computation times than the use of datasets. The possibility of offline pre-learning (e.g. with pre-recorded random behaviors) will be investigated. In addition, active learning mechanisms (by choosing the right action to obtain useful information) will be proposed to reduce the amount of training data required for a given performance. By formalizing testable hypotheses about the environment, these mechanisms will also help to reduce the size of representations (by retaining only predictable sub-parts of the inputs). This research could also be coupled with policy choice mechanisms explored in another part of the project.
These different directions will be tested in simple environments (as we have done with Tetris [6]), or in a robotic simulation environment with objects of simple shapes and properties (in line with other research carried out in the MeSMRise project).
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2025
WEB : https://projet.liris.cnrs.fr/mesmrise
Nature du financement
Autre financement public
Précisions sur le financement
ANR Financement d'Agences de financement de la recherche
Présentation établissement et labo d'accueil
Université Grenoble Alpes
Etablissement délivrant le doctorat
Université Grenoble Alpes
Ecole doctorale
216 ISCE - Ingénierie pour la Santé la Cognition et l'Environnement
Profil du candidat
Compétences techniques
• Forte compétences algorithmiques et de programmations (par ex. Python, R);
• Environnements de simulation (par ex. ROS);
• IA / apprentissage automatique / apprentissage profond (par ex. PyTorch/Tensorflow);
• Modèles graphiques (par ex. théorie des graphes, probabilité);
• Parallélisme et optimisation (principalement logicielle);
• Analyse de données / statistiques;
• Compétences écrites et orales en anglais scientifique;
• Gestionnaire de version (par ex. Git) et pratiques de science ouverte.
Compétences interpersonnelles
• Rigueur scientifique et méthodologique, comprenant l'algorithmique, la programmation et l'évaluation;
• Travail d'équipe interdisciplinaire et intérêt dans la modélisation de la cognition naturelle;
• Capacité à interagir en présentiel et distanciel avec les différents membres du consortium;
• Autonomie et proactivité dans les activités et compte rendus de recherche.
Technical skills • Strong algorithmic and programming skills (e.g., Python, R); • Simulation environments (e.g., ROS); • AI / machine learning / deep learning techniques (e.g., using PyTorch/Tensorflow); • Graphical models (e.g., graph theory, probabilistic); • Parallelism and optimization (mainly software-based); • Data analysis / statistics; • Writing and oral skills in scientific English; • Distributed version control systems (e.g., git) and Open Science practices. Interpersonal skills • Scientific and methodological rigor, including algorithms, programming and evaluation; • Interdisciplinary teamwork and scientific interest in natural intelligence modeling; • Ability to interact face-to-face and remotely with different members of the consortium; • Autonomy and proactivity in research activities and reporting.
Technical skills • Strong algorithmic and programming skills (e.g., Python, R); • Simulation environments (e.g., ROS); • AI / machine learning / deep learning techniques (e.g., using PyTorch/Tensorflow); • Graphical models (e.g., graph theory, probabilistic); • Parallelism and optimization (mainly software-based); • Data analysis / statistics; • Writing and oral skills in scientific English; • Distributed version control systems (e.g., git) and Open Science practices. Interpersonal skills • Scientific and methodological rigor, including algorithms, programming and evaluation; • Interdisciplinary teamwork and scientific interest in natural intelligence modeling; • Ability to interact face-to-face and remotely with different members of the consortium; • Autonomy and proactivity in research activities and reporting.
25/05/2025
Postuler
Fermer
Vous avez déjà un compte ?
Nouvel utilisateur ?
Besoin d'informations sur l'ABG ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
MabDesign
TotalEnergies
CASDEN
Tecknowmetrix
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
PhDOOC
CESI
ANRT
SUEZ
Institut Sup'biotech de Paris
MabDesign
ONERA - The French Aerospace Lab
ADEME
Ifremer
Aérocentre, Pôle d'excellence régional
Généthon
Groupe AFNOR - Association française de normalisation
Laboratoire National de Métrologie et d'Essais - LNE
Nokia Bell Labs France