Où docteurs et entreprises se rencontrent
Menu
Connexion

Généralisation compositionnelle des modèles de langage multimodaux // Compositional Generalization of Visual Language Models

ABG-132006 Sujet de Thèse
16/05/2025 Financement public/privé
CEA Paris-Saclay Laboratoire Analyse Sémantique Textes et Images
Saclay
Généralisation compositionnelle des modèles de langage multimodaux // Compositional Generalization of Visual Language Models
  • Science de la donnée (stockage, sécurité, mesure, analyse)
Data intelligence dont Intelligence Artificielle / Défis technologiques / Informatique et logiciels / Sciences pour l’ingénieur

Description du sujet

L’avènement des modèles de fondation a permis d’améliorer les performances dans plusieurs domaines de l’IA, en particulier en vision par ordinateur et traitement du langage naturel. Cependant, malgré l’énorme quantité de données utilisées pour les entrainer, ces modèles sont encore limités dans leur capacité à généraliser, en particulier dans un domaine spécifique, mal représenté sur le Web. Une modélisation de ce problème est la généralisation compositionnelle, c’est-à-dire la capacité d’apprendre à démêler les concepts pendant l’entrainement et à les recombiner dans une composition inédite lors de la phase de production/test. La thèse abordera cette
question, en visant à proposer des représentations visuelles qui permettent aux grands modèles génériques de langage visuel de généraliser la composition dans des domaines spécifiques. Elle étudiera des stratégies visant à réduire l’apprentissage de "raccourcis" artificiels, en favorisant une compréhension plus profonde des structures de composition dans les données multimodales. Elle abordera également le problème de la généralisation de la composition au-delà des simples paires attribut-objet, en saisissant une sémantique plus subtile et plus complexe. La thèse proposée vise des avancées à un niveau assez amont, mais présente de nombreux intérêts pratiques potentiels dans les domaines de la santé, de l’administration et des services, de la sécurité et de la défense, de l’industrie manufacturière et de l’agriculture.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

The advent of the foundation models led to increase the state-of-the art performance on a large number of tasks in several fields of AI, in particular computer vision and natural language processing. However, despite the huge amount of data used to train them, these models are still limited in their ability to generalize, in particular for a use case of interest that is in a specific domain, not well represented on the Web. A way to formalize this issue is compositional generalization, i.e. generalising to a new, unseen concept from concepts learned during training. This "generalization" is the ability to learn disentangle concepts and to be able to recombine
them into unseen composition when the model is in production. The proposed thesis will address this issue, aiming at proposing visual representations that enable generic visual language models to generalize compositionally within specific domains. It will investigate strategies to reduce shortcut learning, promoting deeper understanding of compositional structures in multimodal data. It will also address the problem of compositional generalization beyond simple attribute–object pairs, capturing more subtle and complex semantics. The proposed thesis aims at proposing preogress at a quite theoretical level but has many potential practical interest, in the fields of health, administration and services sectors, security and defense, manufacturing and agriculture.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département Intelligence Ambiante et Systèmes Interactifs (LIST)
Service : Service Intelligence Artificielle pour le Langage et la Vision
Laboratoire : Laboratoire Analyse Sémantique Textes et Images
Date de début souhaitée : 01-10-2025
Ecole doctorale : Sciences et Technologies de l’Information et de la Communication (STIC)
Directeur de thèse : LE BORGNE Hervé
Organisme : CEA
Laboratoire : DRT/DIASI//LASTI

Nature du financement

Financement public/privé

Précisions sur le financement

Présentation établissement et labo d'accueil

CEA Paris-Saclay Laboratoire Analyse Sémantique Textes et Images

Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département Intelligence Ambiante et Systèmes Interactifs (LIST)
Service : Service Intelligence Artificielle pour le Langage et la Vision

Profil du candidat

master ou école d'ingénieur en data science ou math appli
Partager via
Postuler
Fermer

Vous avez déjà un compte ?

Nouvel utilisateur ?