Test d'indépendance conditionnelle efficace et robuste // Scalable and Robust Conditional Independence Testing
|
ABG-135047
ADUM-68476 |
Sujet de Thèse | |
| 13/01/2026 |
École polytechnique
Palaiseau Cedex - Ile-de-France - France
Test d'indépendance conditionnelle efficace et robuste // Scalable and Robust Conditional Independence Testing
- Mathématiques
Test d'indépendance conditionnelle, Apprentissage de Représentation, Causalité
Conditional Independence Testing, Representation Learning, Causality
Conditional Independence Testing, Representation Learning, Causality
Description du sujet
Les tests d'indépendance conditionnelle constituent un problème fondamental en statistique et apprentissage automatique, avec des applications allant de la découverte causale à la génétique. Le test consiste à déterminer si deux variables restent dépendantes une fois contrôlées pour une troisième variable de confusion.
Cependant, ce problème se heurte à des obstacles théoriques majeurs. Shah \& Peters (2020) ont prouvé que sans hypothèses structurelles supplémentaires, aucun test ne peut simultanément contrôler l'erreur de type I et avoir de la puissance contre les alternatives. Les approches récentes contournent cette impossibilité en imposant des hypothèses restrictives: les méthodes basées sur la régularité supposent des distributions lisses, les méthodes Model-X nécessitent la connaissance exacte de distributions conditionnelles, et les tests de permutation échouent en haute dimension.
Les méthodes à noyaux offrent une alternative plus flexible via l'opérateur de covariance partielle, dont la norme caractérise l'indépendance conditionnelle. Cette approche est structurellement agnostique: la régularité, la parcimonie ou la faible dimensionalité sont implicitement capturées par les propriétés spectrales de l'opérateur. Cependant, les méthodes à noyaux classiques souffrent de convergence lente et d'une mauvaise extensibilité.
Cette thèse propose de revisiter le test d'indépendance conditionnelle à travers la théorie des opérateurs, en développant des méthodes computationnelles modernes qui surmontent les limitations des approches classiques. La recherche combinera l'apprentissage de représentations spectrales avec des garanties statistiques rigoureuses. Sur le plan théorique, nous établirons les distributions asymptotiques sous l'hypothèse nulle, caractériserons la puissance sous les alternatives, et analyserons l'adaptation automatique de nos méthodes à la structure intrinsèque des données.
Les algorithmes développés viseront l'extensibilité sur grands ensembles de données via l'adaptativité sans réglage manuel, et seront accompagnés de garanties théoriques vérifiables. L'objectif est d'établir un nouveau paradigme pour le test d'indépendance conditionnelle qui soit simultanément statistiquement rigoureux, computationnellement extensible et structurellement adaptatif.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Conditional independence testing is a fundamental problem in statistics and machine learning, with applications ranging from causal discovery to genetics. The task is to determine whether two variables remain dependent after controlling for a third confounding variable.
However, this problem faces major theoretical obstacles. Shah \& Peters (2020) proved that without additional structural assumptions, no test can simultaneously control type I error and have power against alternatives. Recent approaches circumvent this impossibility by imposing restrictive assumptions: smoothness-based methods assume smooth distributions, Model-X methods require exact knowledge of conditional distributions, and permutation tests fail in high dimensions.
Kernel methods offer a more flexible alternative via the partial covariance operator, whose norm characterizes conditional independence. This approach is structurally agnostic: smoothness, sparsity, or low dimensionality are implicitly captured by the operator's spectral properties. However, classical kernel methods suffer from slow convergence and poor scalability.
This thesis proposes to revisit conditional independence testing through operator theory, developing modern computational methods that overcome limitations of classical approaches. The research will combine spectral representation learning with rigorous statistical guarantees. Theoretically, we will establish asymptotic null distributions, characterize power under alternatives, and analyze automatic adaptation to intrinsic data structure.
The algorithms developed will target scalability to large datasets via adaptivity without manual tuning, and will be accompanied by verifiable theoretical guarantees. The goal is to establish a new paradigm for conditional independence testing that is simultaneously statistically rigorous, computationally scalable, and structurally adaptive.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Cependant, ce problème se heurte à des obstacles théoriques majeurs. Shah \& Peters (2020) ont prouvé que sans hypothèses structurelles supplémentaires, aucun test ne peut simultanément contrôler l'erreur de type I et avoir de la puissance contre les alternatives. Les approches récentes contournent cette impossibilité en imposant des hypothèses restrictives: les méthodes basées sur la régularité supposent des distributions lisses, les méthodes Model-X nécessitent la connaissance exacte de distributions conditionnelles, et les tests de permutation échouent en haute dimension.
Les méthodes à noyaux offrent une alternative plus flexible via l'opérateur de covariance partielle, dont la norme caractérise l'indépendance conditionnelle. Cette approche est structurellement agnostique: la régularité, la parcimonie ou la faible dimensionalité sont implicitement capturées par les propriétés spectrales de l'opérateur. Cependant, les méthodes à noyaux classiques souffrent de convergence lente et d'une mauvaise extensibilité.
Cette thèse propose de revisiter le test d'indépendance conditionnelle à travers la théorie des opérateurs, en développant des méthodes computationnelles modernes qui surmontent les limitations des approches classiques. La recherche combinera l'apprentissage de représentations spectrales avec des garanties statistiques rigoureuses. Sur le plan théorique, nous établirons les distributions asymptotiques sous l'hypothèse nulle, caractériserons la puissance sous les alternatives, et analyserons l'adaptation automatique de nos méthodes à la structure intrinsèque des données.
Les algorithmes développés viseront l'extensibilité sur grands ensembles de données via l'adaptativité sans réglage manuel, et seront accompagnés de garanties théoriques vérifiables. L'objectif est d'établir un nouveau paradigme pour le test d'indépendance conditionnelle qui soit simultanément statistiquement rigoureux, computationnellement extensible et structurellement adaptatif.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Conditional independence testing is a fundamental problem in statistics and machine learning, with applications ranging from causal discovery to genetics. The task is to determine whether two variables remain dependent after controlling for a third confounding variable.
However, this problem faces major theoretical obstacles. Shah \& Peters (2020) proved that without additional structural assumptions, no test can simultaneously control type I error and have power against alternatives. Recent approaches circumvent this impossibility by imposing restrictive assumptions: smoothness-based methods assume smooth distributions, Model-X methods require exact knowledge of conditional distributions, and permutation tests fail in high dimensions.
Kernel methods offer a more flexible alternative via the partial covariance operator, whose norm characterizes conditional independence. This approach is structurally agnostic: smoothness, sparsity, or low dimensionality are implicitly captured by the operator's spectral properties. However, classical kernel methods suffer from slow convergence and poor scalability.
This thesis proposes to revisit conditional independence testing through operator theory, developing modern computational methods that overcome limitations of classical approaches. The research will combine spectral representation learning with rigorous statistical guarantees. Theoretically, we will establish asymptotic null distributions, characterize power under alternatives, and analyze automatic adaptation to intrinsic data structure.
The algorithms developed will target scalability to large datasets via adaptivity without manual tuning, and will be accompanied by verifiable theoretical guarantees. The goal is to establish a new paradigm for conditional independence testing that is simultaneously statistically rigorous, computationally scalable, and structurally adaptive.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Nature du financement
Précisions sur le financement
Allocation doctorale AMX*Appel anticipé*Associations, fondations, programmes privés étrangers*
Présentation établissement et labo d'accueil
École polytechnique
Etablissement délivrant le doctorat
École polytechnique
Ecole doctorale
574 Mathématiques Hadamard
Profil du candidat
Candidat issu d'un Master 2 en Mathématiques Appliquées dans le domaine des Statistiques, du Machine Learning et de l'Intelligence Artificielle;
competences en PyTorch recommandées
Candidate with a Master's degree (M2) in Applied Mathematics specializing in Statistics, Machine Learning, and Artificial Intelligence; Experience with PyTorch is recommended.
Candidate with a Master's degree (M2) in Applied Mathematics specializing in Statistics, Machine Learning, and Artificial Intelligence; Experience with PyTorch is recommended.
15/03/2026
Postuler
Fermer
Vous avez déjà un compte ?
Nouvel utilisateur ?
Besoin d'informations sur l'ABG ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
SUEZ
Aérocentre, Pôle d'excellence régional
Tecknowmetrix
Laboratoire National de Métrologie et d'Essais - LNE
Groupe AFNOR - Association française de normalisation
TotalEnergies
ADEME
ONERA - The French Aerospace Lab
Nantes Université
Institut Sup'biotech de Paris
Généthon
ANRT
Servier
Ifremer
Medicen Paris Region
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
Nokia Bell Labs France
