Justification visuelle du raisonnement spatio-temporel dans les modèles multimodaux vision-langage // Grounding and reasoning over space and time in Vision-Language Models (VLM)
ABG-132788 | Thesis topic | |
2025-07-05 | Public/private mixed funding |
CEA Paris-Saclay Laboratoire Vision et Apprentissage pour l’analyse de scènes
Saclay
Justification visuelle du raisonnement spatio-temporel dans les modèles multimodaux vision-langage // Grounding and reasoning over space and time in Vision-Language Models (VLM)
- Data science (storage, security, measurement, analysis)
Data intelligence dont Intelligence Artificielle / Défis technologiques / Informatique et logiciels / Sciences pour l’ingénieur
Topic description
Les modèles vision-langage (VLMs) récents, comme BLIP, LLaVA et Qwen-VL, ont montré de bonnes performances sur des tâches multimodales, mais présentent encore des lacunes en raisonnement spatio-temporel. Les benchmarks actuels confondent souvent raisonnement visuel et connaissances générales, et ne sollicitent que peu de raisonnement complexe. De plus, ces modèles peinent à interpréter les relations spatiales fines et les scènes dynamiques, en raison d’une mauvaise exploitation des caractéristiques visuelles. Pour y remédier, des travaux récents (SpatialRGPT, SpaceVLLM, VPD, ST-VLM) ont introduit des innovations telles que l’intégration de graphes 3D, des requêtes spatio-temporelles ou l’apprentissage par instructions cinématiques. Cette thèse s’inscrit dans cette lignée en proposant une nouvelle approche pour améliorer le raisonnement spatio-temporel des VLMs grâce à des techniques avancées de représentation des données et d’architecture, avec des applications en robotique, analyse vidéo et compréhension d’environnements dynamiques.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Recent Vision-Language Models (VLMs) like BLIP, LLaVA, and Qwen-VL have achieved impressive results in multimodal tasks but still face limitations in true spatial and temporal reasoning. Many current benchmarks conflate visual reasoning with general knowledge and involve shallow reasoning tasks. Furthermore, these models often struggle with understanding complex spatial relations and dynamic scenes due to suboptimal visual feature usage. To address this, recent approaches such as SpatialRGPT, SpaceVLLM, VPD, and ST-VLM have introduced techniques like 3D scene graph integration, spatio-temporal queries, and kinematic instruction tuning to improve reasoning over space and time. This thesis proposes to build on these advances by developing new instruction-tuned models with improved data representation and architectural innovations. The goal is to enable robust spatio-temporal reasoning for applications in robotics, video analysis, and dynamic environment understanding.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département Intelligence Ambiante et Systèmes Interactifs (LIST)
Service : Service Intelligence Artificielle pour le Langage et la Vision
Laboratoire : Laboratoire Vision et Apprentissage pour l’analyse de scènes
Date de début souhaitée : 01-10-2025
Ecole doctorale : Sciences et Technologies de l’Information et de la Communication (STIC)
Directeur de thèse : LOESCH Angélique
Organisme : CEA
Laboratoire : DRT/DIASI//LVA
URL : https://kalisteo.cea.fr/
URL : https://scholar.google.com/citations?user=5fE1oWwAAAAJ&hl=en
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Recent Vision-Language Models (VLMs) like BLIP, LLaVA, and Qwen-VL have achieved impressive results in multimodal tasks but still face limitations in true spatial and temporal reasoning. Many current benchmarks conflate visual reasoning with general knowledge and involve shallow reasoning tasks. Furthermore, these models often struggle with understanding complex spatial relations and dynamic scenes due to suboptimal visual feature usage. To address this, recent approaches such as SpatialRGPT, SpaceVLLM, VPD, and ST-VLM have introduced techniques like 3D scene graph integration, spatio-temporal queries, and kinematic instruction tuning to improve reasoning over space and time. This thesis proposes to build on these advances by developing new instruction-tuned models with improved data representation and architectural innovations. The goal is to enable robust spatio-temporal reasoning for applications in robotics, video analysis, and dynamic environment understanding.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département Intelligence Ambiante et Systèmes Interactifs (LIST)
Service : Service Intelligence Artificielle pour le Langage et la Vision
Laboratoire : Laboratoire Vision et Apprentissage pour l’analyse de scènes
Date de début souhaitée : 01-10-2025
Ecole doctorale : Sciences et Technologies de l’Information et de la Communication (STIC)
Directeur de thèse : LOESCH Angélique
Organisme : CEA
Laboratoire : DRT/DIASI//LVA
URL : https://kalisteo.cea.fr/
URL : https://scholar.google.com/citations?user=5fE1oWwAAAAJ&hl=en
Funding category
Public/private mixed funding
Funding further details
Presentation of host institution and host laboratory
CEA Paris-Saclay Laboratoire Vision et Apprentissage pour l’analyse de scènes
Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département Intelligence Ambiante et Systèmes Interactifs (LIST)
Service : Service Intelligence Artificielle pour le Langage et la Vision
Candidate's profile
Ingénieur ou Master en Informatique, Science des données ou IA
Apply
Close
Vous avez déjà un compte ?
Nouvel utilisateur ?
More information about ABG?
Get ABG’s monthly newsletters including news, job offers, grants & fellowships and a selection of relevant events…
Discover our members
Laboratoire National de Métrologie et d'Essais - LNE
Groupe AFNOR - Association française de normalisation
Institut Sup'biotech de Paris
ANRT
Nokia Bell Labs France
ADEME
MabDesign
Tecknowmetrix
Ifremer
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
SUEZ
PhDOOC
CESI
Aérocentre, Pôle d'excellence régional
CASDEN
TotalEnergies
Généthon
MabDesign
ONERA - The French Aerospace Lab