Modèles de fondation multimodaux à grain fin et ancrés spatio-temporellement. // Fine-grained and spatio-temporally grounded large multimodal models
ABG-132390 | Thesis topic | |
2025-06-06 | Public/private mixed funding |
CEA Paris-Saclay Laboratoire Analyse Sémantique Textes et Images
Saclay
Modèles de fondation multimodaux à grain fin et ancrés spatio-temporellement. // Fine-grained and spatio-temporally grounded large multimodal models
- Data science (storage, security, measurement, analysis)
Data intelligence dont Intelligence Artificielle / Défis technologiques / Informatique et logiciels / Sciences pour l’ingénieur
Topic description
Ce projet de thèse porte sur l'amélioration des modèles multimodaux de grande taille (LMMs) par l’intégration d’informations fines et spatio-temporelles dans les ensembles de données d'entraînement. Bien que les modèles actuels tels que CLIP et Flamingo présentent de bonnes performances, ils s'appuient sur des paires image-texte bruitées et peu structurées, sans ancrage spatial ou temporel explicite. La thèse vise à développer des pipelines automatiques permettant d’enrichir les jeux de données avec des métadonnées géographiques et temporelles, à affiner les légendes par l’introduction de descripteurs sémantiques plus précis, et à réguler la diversité et la compacité des données par un contrôle du nombre d'exemples par classe.
Les stratégies d'entraînement exploiteront des hiérarchies de classes et adapteront les protocoles afin d'améliorer l’alignement entre les éléments des légendes et les régions d’image correspondantes. Le travail portera également sur des régimes d’entraînement conjoints intégrant simultanément les dimensions fine, spatiale et temporelle, ainsi que sur une phase d’inférence orientée vers la génération de contenus diversifiés en mode "ensemble". Le projet abordera également des enjeux liés à la qualité des métadonnées, à l’adaptation efficace des modèles, et à la conception de benchmarks adaptés à l’évaluation multi-dimensionnelle.
Les applications ciblées incluent la génération de données synthétiques pour la conduite autonome, l’annotation enrichie d’archives médiatiques via des légendes contextualisées, et une meilleure compréhension visuelle dans les environnements industriels simulés.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
This PhD project focuses on enhancing Large Multimodal Models (LMMs) through the integration of fine-grained and spatio-temporal information into training datasets. While current LMMs such as CLIP and Flamingo show strong performance, they rely on noisy and coarse-grained image-text pairs and often lack spatial or temporal grounding. The thesis aims to develop automatic pipelines to enrich image datasets with geographic and temporal metadata, refine captions using fine-grained semantic descriptors, and balance dataset diversity and compactness by controlling class-wise sample sizes.
Training strategies will incorporate hierarchical class structures and adapt protocols to improve alignment between caption elements and image regions. The work will also explore joint training regimes that integrate fine-grained, spatial, and temporal dimensions, and propose set-based inference to improve the diversity of generated outputs. The enriched datasets and models will be evaluated using existing or newly developed benchmarks targeting contextual relevance and output diversity. The project also addresses challenges in metadata accuracy, efficient model adaptation, and benchmarking methodologies for multi-dimensional model evaluation.
Applications include improved synthetic data generation for autonomous driving, enhanced annotation of media archives through contextual captioning, and better visual reasoning in industrial simulation scenarios.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département Intelligence Ambiante et Systèmes Interactifs (LIST)
Service : Service Intelligence Artificielle pour le Langage et la Vision
Laboratoire : Laboratoire Analyse Sémantique Textes et Images
Date de début souhaitée : 01-10-2025
Ecole doctorale : Sciences et Technologies de l’Information et de la Communication (STIC)
Directeur de thèse : POPESCU Adrian
Organisme : CEA
Laboratoire : DRT/DIASI//LASTI
URL : https://kalisteo.cea.fr/index.php/
Les stratégies d'entraînement exploiteront des hiérarchies de classes et adapteront les protocoles afin d'améliorer l’alignement entre les éléments des légendes et les régions d’image correspondantes. Le travail portera également sur des régimes d’entraînement conjoints intégrant simultanément les dimensions fine, spatiale et temporelle, ainsi que sur une phase d’inférence orientée vers la génération de contenus diversifiés en mode "ensemble". Le projet abordera également des enjeux liés à la qualité des métadonnées, à l’adaptation efficace des modèles, et à la conception de benchmarks adaptés à l’évaluation multi-dimensionnelle.
Les applications ciblées incluent la génération de données synthétiques pour la conduite autonome, l’annotation enrichie d’archives médiatiques via des légendes contextualisées, et une meilleure compréhension visuelle dans les environnements industriels simulés.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
This PhD project focuses on enhancing Large Multimodal Models (LMMs) through the integration of fine-grained and spatio-temporal information into training datasets. While current LMMs such as CLIP and Flamingo show strong performance, they rely on noisy and coarse-grained image-text pairs and often lack spatial or temporal grounding. The thesis aims to develop automatic pipelines to enrich image datasets with geographic and temporal metadata, refine captions using fine-grained semantic descriptors, and balance dataset diversity and compactness by controlling class-wise sample sizes.
Training strategies will incorporate hierarchical class structures and adapt protocols to improve alignment between caption elements and image regions. The work will also explore joint training regimes that integrate fine-grained, spatial, and temporal dimensions, and propose set-based inference to improve the diversity of generated outputs. The enriched datasets and models will be evaluated using existing or newly developed benchmarks targeting contextual relevance and output diversity. The project also addresses challenges in metadata accuracy, efficient model adaptation, and benchmarking methodologies for multi-dimensional model evaluation.
Applications include improved synthetic data generation for autonomous driving, enhanced annotation of media archives through contextual captioning, and better visual reasoning in industrial simulation scenarios.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département Intelligence Ambiante et Systèmes Interactifs (LIST)
Service : Service Intelligence Artificielle pour le Langage et la Vision
Laboratoire : Laboratoire Analyse Sémantique Textes et Images
Date de début souhaitée : 01-10-2025
Ecole doctorale : Sciences et Technologies de l’Information et de la Communication (STIC)
Directeur de thèse : POPESCU Adrian
Organisme : CEA
Laboratoire : DRT/DIASI//LASTI
URL : https://kalisteo.cea.fr/index.php/
Funding category
Public/private mixed funding
Funding further details
Presentation of host institution and host laboratory
CEA Paris-Saclay Laboratoire Analyse Sémantique Textes et Images
Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département Intelligence Ambiante et Systèmes Interactifs (LIST)
Service : Service Intelligence Artificielle pour le Langage et la Vision
Candidate's profile
Master en informatique ou intelligence artificielle
Apply
Close
Vous avez déjà un compte ?
Nouvel utilisateur ?
More information about ABG?
Get ABG’s monthly newsletters including news, job offers, grants & fellowships and a selection of relevant events…
Discover our members
Tecknowmetrix
Laboratoire National de Métrologie et d'Essais - LNE
ONERA - The French Aerospace Lab
Généthon
PhDOOC
CESI
Institut Sup'biotech de Paris
Aérocentre, Pôle d'excellence régional
Groupe AFNOR - Association française de normalisation
ANRT
SUEZ
MabDesign
MabDesign
TotalEnergies
Nokia Bell Labs France
Ifremer
CASDEN
ADEME
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège