Imputation Générative de Modalités par Mélange d'Experts pour la Prédiction de Liens en Lacs de Données Incomplets // Generative Cross-Modal Imputation via Mixture-of-Experts for Link Prediction in Incomplete Data Lakes
|
ABG-138165
ADUM-73276 |
Thesis topic | |
| 2026-04-11 | Public funding alone (i.e. government, region, European, international organization research grant) |
Sorbonne Université SIS (Sciences, Ingénierie, Santé)
Paris - Ile-de-France - France
Imputation Générative de Modalités par Mélange d'Experts pour la Prédiction de Liens en Lacs de Données Incomplets // Generative Cross-Modal Imputation via Mixture-of-Experts for Link Prediction in Incomplete Data Lakes
- Computer science
Lacs de données, Données incomplètes, Imputation de modalités, Mélange d'experts, Graphes de connaissances, Prédiction de liens
Data Lakes, Incomplete Data, Modality Imputation, Mixture of Experts, Knowledge Graphs, Link Prediction
Data Lakes, Incomplete Data, Modality Imputation, Mixture of Experts, Knowledge Graphs, Link Prediction
Topic description
Les lacs de données modernes centralisent des actifs hétérogènes -tables structurées, documents semi-structurés, images, séries temporelles et fichiers de métadonnées- au sein de répertoires agnostiques en termes de schéma. La découverte de relations latentes entre ces actifs est un prérequis pour l'intégration, l'enrichissement et l'analyse de données. Les graphes de connaissances (KG) se sont imposés comme un paradigme puissant pour modéliser ces relations, notamment via la prédiction de liens.
Cependant, un défi fondamental distingue les lacs de données : l'incomplétude des modalités. En pratique, un actif peut manquer de documentation textuelle, un schéma peut ne pas disposer de données échantillons, ou des champs de métadonnées peuvent être partiellement renseignés. Les actifs arrivent indépendamment, depuis des sources disparates et à des moments différents, sans garantie que toutes les modalités soient présentes. Les approches actuelles d'apprentissage de représentations multimodales supposent généralement la complétude des modalités et se dégradent silencieusement lorsque cette hypothèse n'est pas vérifiée.
Cette thèse propose de développer un cadre de recherche pour l'imputation générative inter-modale via un mélange d'experts (Mixture-of-Experts, MoE), spécifiquement conçu pour la prédiction de liens dans les lacs de données hétérogènes et incomplets. Le postulat central est qu'un module génératif peut synthétiser un actif de substitution pour une modalité absente, guidé par les modalités disponibles et le contexte structurel fourni par le KG du lac de données.
Les travaux s'articulent autour de trois objectifs. Le premier vise à concevoir une architecture MoE dont le mécanisme de routage conditionne explicitement sur l'ensemble des modalités disponibles par actif, en gérant dynamiquement la diversité combinatoire des patterns d'absence. Le deuxième objectif traite l'imputation générative comme un objet de recherche à part entière : plusieurs paradigmes génératifs (VAE conditionnel, diffusion latente, projection contrastive inter-modale) seront implémentés et comparés afin de déterminer sous quels régimes d'incomplétude l'imputation améliore la prédiction de liens, et quand elle la dégrade. Le troisième objectif consiste à construire un graphe de connaissances hétérogène du lac de données, où les actifs sont des nœuds enrichis par leurs représentations multimodaux (éventuellement imputés), et à évaluer la prédiction de liens de bout en bout sur des tâches de découverte de données sous des scénarios d'incomplétude.
Les résultats attendus incluent une étude comparative des méthodes d'imputation, un benchmark pour l'évaluation de l'imputation générative inter-modale pour la prediction de liens dans les lac des donnés incomplets, ainsi qu'un pipeline modulaire et extensible. Les travaux s'appuieront sur l'expertise de l'équipe encadrante en modélisation par graphes et plongements de KG, traitement de données à grande échelle et en reconstruction de connaissances à partir de données hétérogènes.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Modern data lakes centralise heterogeneous assets — structured tables, semi-structured documents, images, time series, and metadata files — within schema-agnostic repositories. Discovering latent relationships among these assets is a prerequisite for data integration, enrichment, and analytics. Knowledge Graphs (KGs) have emerged as a powerful paradigm for modelling such relationships, notably through link prediction.
However, a fundamental challenge distinguishes data lakes: modality incompleteness. In practice, an asset may lack textual documentation, a schema may have no sample data, or metadata fields may be only partially filled. Assets arrive independently, from disparate sources and at different times, with no guarantee that all modalities are present. Current multimodal representation learning approaches generally assume modality completeness and degrade silently when this assumption is not met.
This thesis proposes to develop a research framework for generative cross-modal imputation via Mixture-of-Experts (MoE), specifically designed for link prediction in heterogeneous and incomplete data lakes. The central premise is that a generative module can synthesise a surrogate asset for an absent modality, guided by the available modalities and the structural context provided by the data lake KG.
The research is organised around three objectives. The first aims to design an MoE architecture whose routing mechanism explicitly conditions on the set of available modalities per asset, dynamically handling the combinatorial diversity of missingness patterns. The second objective treats generative imputation as a first-class research object: multiple generative paradigms (conditional VAE, latent diffusion, contrastive cross-modal projection) will be implemented and compared to determine under which incompleteness regimes imputation improves link prediction, and when it degrades it. The third objective consists in building a heterogeneous knowledge graph of the data lake, where assets are nodes enriched by their (possibly imputed) multimodal representations, and in evaluating end-to-end link prediction on data discovery tasks under incompleteness scenarios.
Expected outcomes include a comparative study of imputation methods, a benchmark for evaluating incomplete data lakes, and a modular and extensible pipeline. The research will build on the supervisory team's expertise in data lakes, graph modelling and KG embeddings, large-scale data processing, and knowledge reconstruction from heterogeneous data.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Cependant, un défi fondamental distingue les lacs de données : l'incomplétude des modalités. En pratique, un actif peut manquer de documentation textuelle, un schéma peut ne pas disposer de données échantillons, ou des champs de métadonnées peuvent être partiellement renseignés. Les actifs arrivent indépendamment, depuis des sources disparates et à des moments différents, sans garantie que toutes les modalités soient présentes. Les approches actuelles d'apprentissage de représentations multimodales supposent généralement la complétude des modalités et se dégradent silencieusement lorsque cette hypothèse n'est pas vérifiée.
Cette thèse propose de développer un cadre de recherche pour l'imputation générative inter-modale via un mélange d'experts (Mixture-of-Experts, MoE), spécifiquement conçu pour la prédiction de liens dans les lacs de données hétérogènes et incomplets. Le postulat central est qu'un module génératif peut synthétiser un actif de substitution pour une modalité absente, guidé par les modalités disponibles et le contexte structurel fourni par le KG du lac de données.
Les travaux s'articulent autour de trois objectifs. Le premier vise à concevoir une architecture MoE dont le mécanisme de routage conditionne explicitement sur l'ensemble des modalités disponibles par actif, en gérant dynamiquement la diversité combinatoire des patterns d'absence. Le deuxième objectif traite l'imputation générative comme un objet de recherche à part entière : plusieurs paradigmes génératifs (VAE conditionnel, diffusion latente, projection contrastive inter-modale) seront implémentés et comparés afin de déterminer sous quels régimes d'incomplétude l'imputation améliore la prédiction de liens, et quand elle la dégrade. Le troisième objectif consiste à construire un graphe de connaissances hétérogène du lac de données, où les actifs sont des nœuds enrichis par leurs représentations multimodaux (éventuellement imputés), et à évaluer la prédiction de liens de bout en bout sur des tâches de découverte de données sous des scénarios d'incomplétude.
Les résultats attendus incluent une étude comparative des méthodes d'imputation, un benchmark pour l'évaluation de l'imputation générative inter-modale pour la prediction de liens dans les lac des donnés incomplets, ainsi qu'un pipeline modulaire et extensible. Les travaux s'appuieront sur l'expertise de l'équipe encadrante en modélisation par graphes et plongements de KG, traitement de données à grande échelle et en reconstruction de connaissances à partir de données hétérogènes.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Modern data lakes centralise heterogeneous assets — structured tables, semi-structured documents, images, time series, and metadata files — within schema-agnostic repositories. Discovering latent relationships among these assets is a prerequisite for data integration, enrichment, and analytics. Knowledge Graphs (KGs) have emerged as a powerful paradigm for modelling such relationships, notably through link prediction.
However, a fundamental challenge distinguishes data lakes: modality incompleteness. In practice, an asset may lack textual documentation, a schema may have no sample data, or metadata fields may be only partially filled. Assets arrive independently, from disparate sources and at different times, with no guarantee that all modalities are present. Current multimodal representation learning approaches generally assume modality completeness and degrade silently when this assumption is not met.
This thesis proposes to develop a research framework for generative cross-modal imputation via Mixture-of-Experts (MoE), specifically designed for link prediction in heterogeneous and incomplete data lakes. The central premise is that a generative module can synthesise a surrogate asset for an absent modality, guided by the available modalities and the structural context provided by the data lake KG.
The research is organised around three objectives. The first aims to design an MoE architecture whose routing mechanism explicitly conditions on the set of available modalities per asset, dynamically handling the combinatorial diversity of missingness patterns. The second objective treats generative imputation as a first-class research object: multiple generative paradigms (conditional VAE, latent diffusion, contrastive cross-modal projection) will be implemented and compared to determine under which incompleteness regimes imputation improves link prediction, and when it degrades it. The third objective consists in building a heterogeneous knowledge graph of the data lake, where assets are nodes enriched by their (possibly imputed) multimodal representations, and in evaluating end-to-end link prediction on data discovery tasks under incompleteness scenarios.
Expected outcomes include a comparative study of imputation methods, a benchmark for evaluating incomplete data lakes, and a modular and extensible pipeline. The research will build on the supervisory team's expertise in data lakes, graph modelling and KG embeddings, large-scale data processing, and knowledge reconstruction from heterogeneous data.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Funding category
Public funding alone (i.e. government, region, European, international organization research grant)
Funding further details
Concours pour un contrat doctoral
Presentation of host institution and host laboratory
Sorbonne Université SIS (Sciences, Ingénierie, Santé)
Institution awarding doctoral degree
Sorbonne Université SIS (Sciences, Ingénierie, Santé)
Graduate school
130 Ecole Doctorale d'Informatique, Télécommunications et Electronique
Candidate's profile
Le candidat ou la candidate devra être titulaire d'un Master (ou équivalent) en informatique. Un solide bagage en apprentissage automatique et en apprentissage profond est indispensable, de même qu'une bonne maîtrise de Python et des bibliothèques associées (PyTorch, HuggingFace Transformers). Des connaissances en bases de données et en SQL sont également requises, compte tenu de l'ancrage du projet dans la gestion de données hétérogènes.
Une expérience ou des connaissances dans un ou plusieurs des domaines suivants seront particulièrement appréciées : graphes de connaissances et plongements de graphes (knowledge graph embeddings), apprentissage de représentations multimodal, architectures de type Mixture-of-Experts ou Transformers, modèles génératifs (VAE, modèles de diffusion), architectures de lacs de données et technologies big data.
Des compétences en traitement du langage naturel (NLP) ou en vision par ordinateur constituent un atout supplémentaire, compte tenu de la nature multimodale du projet.
Le candidat devra faire preuve d'autonomie, de rigueur expérimentale et d'une capacité à mener une démarche de recherche structurée (conception d'expériences, analyse critique des résultats, rédaction scientifique).
Une excellente maîtrise de l'anglais écrit et oral est requise pour la rédaction d'articles et la participation à des conférences internationales.
The candidate must hold a Master's degree (or equivalent) in Computer Science. A strong background in machine learning and deep learning is essential, along with a good command of Python and associated libraries (PyTorch, HuggingFace Transformers). Knowledge of databases and SQL is also required, given the project's grounding in heterogeneous data management. Experience or knowledge in one or more of the following areas will be particularly valued: knowledge graphs and knowledge graph embeddings, multimodal representation learning, Mixture-of-Experts or Transformer architectures, generative models (VAE, diffusion models), data lake architectures and big data technologies. Skills in natural language processing (NLP) or computer vision are an additional asset, given the multimodal nature of the project. The candidate should demonstrate autonomy, experimental rigour, and the ability to carry out a structured research process (experiment design, critical analysis of results, scientific writing). An excellent command of written and spoken English is required for the writing of papers and participation in international conferences.
The candidate must hold a Master's degree (or equivalent) in Computer Science. A strong background in machine learning and deep learning is essential, along with a good command of Python and associated libraries (PyTorch, HuggingFace Transformers). Knowledge of databases and SQL is also required, given the project's grounding in heterogeneous data management. Experience or knowledge in one or more of the following areas will be particularly valued: knowledge graphs and knowledge graph embeddings, multimodal representation learning, Mixture-of-Experts or Transformer architectures, generative models (VAE, diffusion models), data lake architectures and big data technologies. Skills in natural language processing (NLP) or computer vision are an additional asset, given the multimodal nature of the project. The candidate should demonstrate autonomy, experimental rigour, and the ability to carry out a structured research process (experiment design, critical analysis of results, scientific writing). An excellent command of written and spoken English is required for the writing of papers and participation in international conferences.
2026-05-01
Apply
Close
Vous avez déjà un compte ?
Nouvel utilisateur ?
Get ABG’s monthly newsletters including news, job offers, grants & fellowships and a selection of relevant events…
Discover our members
Nantes Université
ONERA - The French Aerospace Lab
Laboratoire National de Métrologie et d'Essais - LNE
Généthon
Servier
ANRT
Institut Sup'biotech de Paris
Groupe AFNOR - Association française de normalisation
Ifremer
SUEZ
Medicen Paris Region
TotalEnergies
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
Tecknowmetrix
Nokia Bell Labs France
Aérocentre, Pôle d'excellence régional
ADEME
