Où docteurs et entreprises se rencontrent
Menu
Connexion

Apprentissage profond et modèles d'IA générative en vision machine // Deep learning and large generative AI models for machine vision

ABG-138160
ADUM-73058
Sujet de Thèse
11/04/2026 Contrat doctoral
Sorbonne Université SIS (Sciences, Ingénierie, Santé)
Paris - Ile-de-France - France
Apprentissage profond et modèles d'IA générative en vision machine // Deep learning and large generative AI models for machine vision
  • Informatique
réseaux de neurones, modèles génératifs profonds, génération d'images et vidéos, vision par ordinateurs & IA
Neural networks, Deep generative models, Image and video generation, Computer vision & AI

Description du sujet

Les réseaux de neurones profonds comptent actuellement parmi les modèles les plus performants en traitement d'images et en vision par ordinateur. Leur principe repose sur l'apprentissage de filtres convolutifs, associés à des couches d'attention et des couches entièrement connectées, afin de maximiser les performances de classification et de génération. Les Grands Modèles Génératifs (LGM) constituent une catégorie particulière de modèles d'apprentissage profond, spécifiquement conçus pour générer de nouvelles données ressemblant souvent à celles sur lesquelles ils ont été entraînés. Ces modèles sont à la pointe de la recherche en intelligence artificielle, repoussant les limites de la création numérique. Contrairement aux modèles standards entraînés pour la classification ou la prédiction, les LGMs se concentrent sur la création d'échantillons de données entièrement nouveaux (images, texte, vidéo, audio, etc.). Les LGMs exploitent diverses architectures, dont les plus courantes sont :

(i) Les Réseaux Antagonistes Génératifs (GANs) : qui sont des réseaux de neurones en compétition. Le générateur tente de créer des données réalistes, tandis que le discriminateur cherche à distinguer les données réelles des données générées. Ce processus adverse aide le générateur à améliorer sa capacité à synthétiser des données réalistes alors que le discriminateur vise à mieux les distinguer.

(ii) Les Auto-encodeurs Variationnels (VAEs) : ils encodent les données d'entrée dans un espace latent, un 'goulot d'étranglement' qui capture les caractéristiques essentielles, puis apprennent à décoder ces échantillons pour générer de nouvelles données.

(iii) Les Flux de Normalisation / Modèles de Diffusion : ces modèles partent d'une version bruitée de la donnée cible et la 'débruitent' progressivement pour produire un échantillon net et réaliste.

Les défis des LGMs résident dans la complexité de leur entraînement, leurs biais (particulièrement en régime d'apprentissage continu) et leur capacité à générer du contenu réaliste, tout en répondant à des préoccupations éthiques. L'objectif de ce sujet de thèse est d'étudier et de concevoir des solutions novatrices répondant aux différents défis des LGMs, notamment :

• Contrôle et interprétabilité accrus : développer des techniques interactives basées sur le prompting ou la conception de sous-espaces sémantiques pour mieux contrôler les sorties des LGMs (qualité/diversité) et comprendre leur processus de génération.

• Extension des LGMs au paradigme de l'apprentissage continu (lifelong learning) : développer des solutions efficaces pour apprendre, à partir de flux de données, tout en atténuant l'obstacle majeur de l'oubli catastrophique. Les solutions s'appuieront sur la régularisation, la conception d'architectures dynamiques et l'adaptation de domaine (pour gérer la non-stationnarité des flux).

• Extension des LGMs aux données non structurées (telles que les nuages de points 3D) : concevoir des LGMs sur graphes tout en gérant les symétries (ambiguïtés) des données, notamment les permutations, tant pour l'encodage que pour le décodage.

• Amélioration de l'efficacité des LGMs : développer des algorithmes d'entraînement plus performants pour rendre les LGMs plus accessibles, en particulier sur les dispositifs embarqués (edge devices).

• Atténuation des biais et garantie d'un usage responsable : concevoir des garde-fous pour traiter les biais potentiels et promouvoir un déploiement responsable des LGMs.

Les applications de cette thèse se concentreront sur diverses tâches de vision par ordinateur, notamment : (i) la génération créative de contenus image et vidéo, (ii) l'augmentation de données (synthèse de données pour améliorer d'autres modèles de ML), et (iii) l'édition d'images/vidéos (restauration de parties manquantes, amélioration de la résolution ou retouche photoréaliste).
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Deep neural networks are currently one of the most successful models in image processing and computer vision. Their principle consists in learning convolutional filters, together with attention and fully connected layers, that maximize classification and generation performances. Large generative models (LGMs) are a particular category of deep learning models specifically designed to generate new data, often resembling the data they were trained on. These models are at the forefront of artificial intelligence research, pushing the boundaries of what computers can create. Unlike standard deep learning models trained for classification or prediction, LGMs focus on creating entirely new data samples. This data can be images, text, video, audio, etc. LGMs leverage various deep learning architectures, with some of the most common being:

(i) Generative Adversarial Networks (GANs) that involve two neural networks competing against each other. One network (generator) tries to create realistic data, while the other (discriminator) tries to distinguish real data from the generated data. This adversarial process helps the generator improve its ability to fool the discriminator and produce increasingly realistic outputs,

(ii) Variational Autoencoders (VAEs) which encode input data into a latent space, a bottleneck that captures the essential features. The model then learns to decode samples from this latent space, effectively generating new data that resemble the training data, and

(iii) Normalizing Flows/Diffusion Models: these models start with a noisy version of the target data and gradually 'de-noise' it step-by-step, ultimately producing a clean and realistic sample. The challenges of LGMs stem from their training complexity, their bias particularly when designed in a lifelong learning regime, and their ability to generate realistic and potentially manipulative content while addressing ethical concerns. The goal of this thesis subject is to study and design novel solutions that address different LGM challenges including

• Enhanced control and interpretability: by developing interactive techniques, based on prompting or semantic subspace design, that better control the outputs of LGMs, and their quality / diversity, and also understand how they generate specific data.

• Extended LGMs to lifelong learning paradigm: by developing effective solutions that learn from streams of data while mitigating the challenging hurdle of catastrophic forgetting (i.e., without forgetting previously learned information); proposed solutions will mainly rely on regularization and dynamic LGMs architecture design (in order to maintain LGM capacity), as well as domain adaptation (in order to address the non-stationarity of training data streams).

• Extended LGMs to unstructured data (such as 3D point clouds): by designing LGMs on graphs while handling all the possible symmetries (ambiguities) in the unstructured data, and particularly permutations, both for LGM encoding and decoding.

• Improved LGM efficiency: by developing more efficient training algorithms to make LGMs more accessible particularly on edge devices.

• Mitigated bias and ensured responsible use: by designing safeguards to address potential biases and promote responsible development and deployment of LGMs.

• etc.

Applications of this thesis will be centered around different computer vision and image processing tasks including (i) creative image and video content generation, (ii) data augmentation (generating synthetic data to improve the performance of other machine learning models), and (iii) image/video editing (filling in missing parts of visual content, enhancing resolution, or photorealistic editing).
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2026

Nature du financement

Contrat doctoral

Précisions sur le financement

Concours pour un contrat doctoral

Présentation établissement et labo d'accueil

Sorbonne Université SIS (Sciences, Ingénierie, Santé)

Etablissement délivrant le doctorat

Sorbonne Université SIS (Sciences, Ingénierie, Santé)

Ecole doctorale

130 Ecole Doctorale d'Informatique, Télécommunications et Electronique

Profil du candidat

Nous recherchons un(e) candidat(e) très motivé(e), ayant de préférence une formation en mathématiques appliquées ou en informatique, avec un accent particulier sur les statistiques, l'apprentissage automatique (machine learning) / profond (deep learning) et le traitement de données visuelles 2D/3D. Le/la candidat(e) devra également maîtriser les outils d'apprentissage automatique et les plateformes de programmation existants.
We are seeking a highly motivated PhD candidate, with a preferred background in applied mathematics or computer science with more emphasis on statistics, machine learning and/or image processing/computer vision, and familiar with existing machine learning tools and programming platforms
01/05/2026
Partager via
Postuler
Fermer

Vous avez déjà un compte ?

Nouvel utilisateur ?