Vous êtes*	↓ ↓
E-mail*	↓ ↓

Retourner à la recherche

Justification visuelle du raisonnement spatio-temporel dans les modèles multimodaux vision-langage // Grounding and reasoning over space and time in Vision-Language Models (VLM)

Réf ABG-132788	Sujet de Thèse
05/07/2025		Financement public/privé

CEA Paris-Saclay Laboratoire Vision et Apprentissage pour l’analyse de scènes

Lieu de travail

Saclay

Intitulé du sujet

Justification visuelle du raisonnement spatio-temporel dans les modèles multimodaux vision-langage // Grounding and reasoning over space and time in Vision-Language Models (VLM)

Champs scientifiques

Science de la donnée (stockage, sécurité, mesure, analyse)

Mots clés

Data intelligence dont Intelligence Artificielle / Défis technologiques / Informatique et logiciels / Sciences pour l’ingénieur

Description du sujet

Les modèles vision-langage (VLMs) récents, comme BLIP, LLaVA et Qwen-VL, ont montré de bonnes performances sur des tâches multimodales, mais présentent encore des lacunes en raisonnement spatio-temporel. Les benchmarks actuels confondent souvent raisonnement visuel et connaissances générales, et ne sollicitent que peu de raisonnement complexe. De plus, ces modèles peinent à interpréter les relations spatiales fines et les scènes dynamiques, en raison d’une mauvaise exploitation des caractéristiques visuelles. Pour y remédier, des travaux récents (SpatialRGPT, SpaceVLLM, VPD, ST-VLM) ont introduit des innovations telles que l’intégration de graphes 3D, des requêtes spatio-temporelles ou l’apprentissage par instructions cinématiques. Cette thèse s’inscrit dans cette lignée en proposant une nouvelle approche pour améliorer le raisonnement spatio-temporel des VLMs grâce à des techniques avancées de représentation des données et d’architecture, avec des applications en robotique, analyse vidéo et compréhension d’environnements dynamiques.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Recent Vision-Language Models (VLMs) like BLIP, LLaVA, and Qwen-VL have achieved impressive results in multimodal tasks but still face limitations in true spatial and temporal reasoning. Many current benchmarks conflate visual reasoning with general knowledge and involve shallow reasoning tasks. Furthermore, these models often struggle with understanding complex spatial relations and dynamic scenes due to suboptimal visual feature usage. To address this, recent approaches such as SpatialRGPT, SpaceVLLM, VPD, and ST-VLM have introduced techniques like 3D scene graph integration, spatio-temporal queries, and kinematic instruction tuning to improve reasoning over space and time. This thesis proposes to build on these advances by developing new instruction-tuned models with improved data representation and architectural innovations. The goal is to enable robust spatio-temporal reasoning for applications in robotics, video analysis, and dynamic environment understanding.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département Intelligence Ambiante et Systèmes Interactifs (LIST)
Service : Service Intelligence Artificielle pour le Langage et la Vision
Laboratoire : Laboratoire Vision et Apprentissage pour l’analyse de scènes
Date de début souhaitée : 01-10-2025
Ecole doctorale : Sciences et Technologies de l’Information et de la Communication (STIC)
Directeur de thèse : LOESCH Angélique
Organisme : CEA
Laboratoire : DRT/DIASI//LVA
URL : https://kalisteo.cea.fr/
URL : https://scholar.google.com/citations?user=5fE1oWwAAAAJ&hl=en

Nature du financement

Financement public/privé

Précisions sur le financement

Présentation établissement et labo d'accueil

CEA Paris-Saclay Laboratoire Vision et Apprentissage pour l’analyse de scènes

Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département Intelligence Ambiante et Systèmes Interactifs (LIST)
Service : Service Intelligence Artificielle pour le Langage et la Vision

Profil du candidat

Ingénieur ou Master en Informatique, Science des données ou IA

Partager via

Postuler

Fermer

Vous avez déjà un compte ?

Nouvel utilisateur ?

Civilité*	↓ ↓
Prénom*	↓ ↓
Nom*	↓ ↓
E-mail*	↓ ↓
Confirmez votre e-mail*	↓ ↓
Mot de passe*	8 caractères minimum, avec au moins un chiffre, une lettre minuscule et une lettre majuscule. ↓ ↓
Confirmez votre mot de passe*	↓ ↓