Test d'indépendance conditionnelle efficace et robuste // Scalable and Robust Conditional Independence Testing
|
ABG-135047
ADUM-68476 |
Thesis topic | |
| 2026-01-13 |
École polytechnique
Palaiseau Cedex - Ile-de-France - France
Test d'indépendance conditionnelle efficace et robuste // Scalable and Robust Conditional Independence Testing
- Mathematics
Test d'indépendance conditionnelle, Apprentissage de Représentation, Causalité
Conditional Independence Testing, Representation Learning, Causality
Conditional Independence Testing, Representation Learning, Causality
Topic description
Les tests d'indépendance conditionnelle constituent un problème fondamental en statistique et apprentissage automatique, avec des applications allant de la découverte causale à la génétique. Le test consiste à déterminer si deux variables restent dépendantes une fois contrôlées pour une troisième variable de confusion.
Cependant, ce problème se heurte à des obstacles théoriques majeurs. Shah \& Peters (2020) ont prouvé que sans hypothèses structurelles supplémentaires, aucun test ne peut simultanément contrôler l'erreur de type I et avoir de la puissance contre les alternatives. Les approches récentes contournent cette impossibilité en imposant des hypothèses restrictives: les méthodes basées sur la régularité supposent des distributions lisses, les méthodes Model-X nécessitent la connaissance exacte de distributions conditionnelles, et les tests de permutation échouent en haute dimension.
Les méthodes à noyaux offrent une alternative plus flexible via l'opérateur de covariance partielle, dont la norme caractérise l'indépendance conditionnelle. Cette approche est structurellement agnostique: la régularité, la parcimonie ou la faible dimensionalité sont implicitement capturées par les propriétés spectrales de l'opérateur. Cependant, les méthodes à noyaux classiques souffrent de convergence lente et d'une mauvaise extensibilité.
Cette thèse propose de revisiter le test d'indépendance conditionnelle à travers la théorie des opérateurs, en développant des méthodes computationnelles modernes qui surmontent les limitations des approches classiques. La recherche combinera l'apprentissage de représentations spectrales avec des garanties statistiques rigoureuses. Sur le plan théorique, nous établirons les distributions asymptotiques sous l'hypothèse nulle, caractériserons la puissance sous les alternatives, et analyserons l'adaptation automatique de nos méthodes à la structure intrinsèque des données.
Les algorithmes développés viseront l'extensibilité sur grands ensembles de données via l'adaptativité sans réglage manuel, et seront accompagnés de garanties théoriques vérifiables. L'objectif est d'établir un nouveau paradigme pour le test d'indépendance conditionnelle qui soit simultanément statistiquement rigoureux, computationnellement extensible et structurellement adaptatif.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Conditional independence testing is a fundamental problem in statistics and machine learning, with applications ranging from causal discovery to genetics. The task is to determine whether two variables remain dependent after controlling for a third confounding variable.
However, this problem faces major theoretical obstacles. Shah \& Peters (2020) proved that without additional structural assumptions, no test can simultaneously control type I error and have power against alternatives. Recent approaches circumvent this impossibility by imposing restrictive assumptions: smoothness-based methods assume smooth distributions, Model-X methods require exact knowledge of conditional distributions, and permutation tests fail in high dimensions.
Kernel methods offer a more flexible alternative via the partial covariance operator, whose norm characterizes conditional independence. This approach is structurally agnostic: smoothness, sparsity, or low dimensionality are implicitly captured by the operator's spectral properties. However, classical kernel methods suffer from slow convergence and poor scalability.
This thesis proposes to revisit conditional independence testing through operator theory, developing modern computational methods that overcome limitations of classical approaches. The research will combine spectral representation learning with rigorous statistical guarantees. Theoretically, we will establish asymptotic null distributions, characterize power under alternatives, and analyze automatic adaptation to intrinsic data structure.
The algorithms developed will target scalability to large datasets via adaptivity without manual tuning, and will be accompanied by verifiable theoretical guarantees. The goal is to establish a new paradigm for conditional independence testing that is simultaneously statistically rigorous, computationally scalable, and structurally adaptive.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Cependant, ce problème se heurte à des obstacles théoriques majeurs. Shah \& Peters (2020) ont prouvé que sans hypothèses structurelles supplémentaires, aucun test ne peut simultanément contrôler l'erreur de type I et avoir de la puissance contre les alternatives. Les approches récentes contournent cette impossibilité en imposant des hypothèses restrictives: les méthodes basées sur la régularité supposent des distributions lisses, les méthodes Model-X nécessitent la connaissance exacte de distributions conditionnelles, et les tests de permutation échouent en haute dimension.
Les méthodes à noyaux offrent une alternative plus flexible via l'opérateur de covariance partielle, dont la norme caractérise l'indépendance conditionnelle. Cette approche est structurellement agnostique: la régularité, la parcimonie ou la faible dimensionalité sont implicitement capturées par les propriétés spectrales de l'opérateur. Cependant, les méthodes à noyaux classiques souffrent de convergence lente et d'une mauvaise extensibilité.
Cette thèse propose de revisiter le test d'indépendance conditionnelle à travers la théorie des opérateurs, en développant des méthodes computationnelles modernes qui surmontent les limitations des approches classiques. La recherche combinera l'apprentissage de représentations spectrales avec des garanties statistiques rigoureuses. Sur le plan théorique, nous établirons les distributions asymptotiques sous l'hypothèse nulle, caractériserons la puissance sous les alternatives, et analyserons l'adaptation automatique de nos méthodes à la structure intrinsèque des données.
Les algorithmes développés viseront l'extensibilité sur grands ensembles de données via l'adaptativité sans réglage manuel, et seront accompagnés de garanties théoriques vérifiables. L'objectif est d'établir un nouveau paradigme pour le test d'indépendance conditionnelle qui soit simultanément statistiquement rigoureux, computationnellement extensible et structurellement adaptatif.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Conditional independence testing is a fundamental problem in statistics and machine learning, with applications ranging from causal discovery to genetics. The task is to determine whether two variables remain dependent after controlling for a third confounding variable.
However, this problem faces major theoretical obstacles. Shah \& Peters (2020) proved that without additional structural assumptions, no test can simultaneously control type I error and have power against alternatives. Recent approaches circumvent this impossibility by imposing restrictive assumptions: smoothness-based methods assume smooth distributions, Model-X methods require exact knowledge of conditional distributions, and permutation tests fail in high dimensions.
Kernel methods offer a more flexible alternative via the partial covariance operator, whose norm characterizes conditional independence. This approach is structurally agnostic: smoothness, sparsity, or low dimensionality are implicitly captured by the operator's spectral properties. However, classical kernel methods suffer from slow convergence and poor scalability.
This thesis proposes to revisit conditional independence testing through operator theory, developing modern computational methods that overcome limitations of classical approaches. The research will combine spectral representation learning with rigorous statistical guarantees. Theoretically, we will establish asymptotic null distributions, characterize power under alternatives, and analyze automatic adaptation to intrinsic data structure.
The algorithms developed will target scalability to large datasets via adaptivity without manual tuning, and will be accompanied by verifiable theoretical guarantees. The goal is to establish a new paradigm for conditional independence testing that is simultaneously statistically rigorous, computationally scalable, and structurally adaptive.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Funding category
Funding further details
Allocation doctorale AMX*Appel anticipé*Associations, fondations, programmes privés étrangers*
Presentation of host institution and host laboratory
École polytechnique
Institution awarding doctoral degree
École polytechnique
Graduate school
574 Mathématiques Hadamard
Candidate's profile
Candidat issu d'un Master 2 en Mathématiques Appliquées dans le domaine des Statistiques, du Machine Learning et de l'Intelligence Artificielle;
competences en PyTorch recommandées
Candidate with a Master's degree (M2) in Applied Mathematics specializing in Statistics, Machine Learning, and Artificial Intelligence; Experience with PyTorch is recommended.
Candidate with a Master's degree (M2) in Applied Mathematics specializing in Statistics, Machine Learning, and Artificial Intelligence; Experience with PyTorch is recommended.
2026-03-15
Apply
Close
Vous avez déjà un compte ?
Nouvel utilisateur ?
More information about ABG?
Get ABG’s monthly newsletters including news, job offers, grants & fellowships and a selection of relevant events…
Discover our members
Nantes Université
Aérocentre, Pôle d'excellence régional
TotalEnergies
SUEZ
Généthon
ADEME
Institut Sup'biotech de Paris
Servier
Groupe AFNOR - Association française de normalisation
Laboratoire National de Métrologie et d'Essais - LNE
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
ONERA - The French Aerospace Lab
Ifremer
Medicen Paris Region
Nokia Bell Labs France
ANRT
Tecknowmetrix
