Where PhDs and companies meet
Menu
Login

Théorie et algorithmes en apprentissage statistique pour le contrôle des incertitudes en astrophysique - Applications à la découverte d'exoplanètes avec PLATO et d'astéroïdes binaires avec GAIA // Theory and algorithms in machine learning for managing unc

ABG-138427
ADUM-74021
Thesis topic
2026-04-15 Public funding alone (i.e. government, region, European, international organization research grant)
Université Côte d'Azur
NICE Cedex 4 - Provence-Alpes-Côte d'Azur - France
Théorie et algorithmes en apprentissage statistique pour le contrôle des incertitudes en astrophysique - Applications à la découverte d'exoplanètes avec PLATO et d'astéroïdes binaires avec GAIA // Theory and algorithms in machine learning for managing unc
  • Earth, universe, space sciences
Apprentissage statistique, Astrophysique, Missions spatiales, Tests multiples, Astéroides, Exoplanètes
Statistical learning, Astrophysics, Space missions, Multiple testing, Asteroids, Exoplanets

Topic description

Comme dans d'autres domaines, l'utilisation de techniques apparentées à l' « IA » au sens large est en croissance exponentielle en Sciences de l'Univers. Dans la communauté de la recherche en statistiques et en « IA », les thématiques de la prédiction conforme [Vovk et al, 2005, Balasubramanian ethnic al., 2014] et des tests multiples [Roquain 2015, Efron et al, 2016] sont des domaines très actifs. Ces approches présentent un fort intérêt pour la construction d'intervalles de confiance et la construction de méthodes de détection avec garantie (comme par exemple le contrôle du taux de fausses découvertes). Pourtant, ces méthodes restent peu voire pas exploitées en astrophysique, malgré leur fort potentiel. Cette thèse visera à développer et à adapter de telles techniques pour deux applications astrophysiques majeures où leur intérêt a été clairement identifié : la détection d'exoplanètes avec la mission spatiale de l'ESA PLATO (lancement fin 2026) et la détection d'astéroïdes binaires dans les données de la mission spatiale GAIA de l'ESA, dont la 4eme Data Release est prévue pour 2026.
Concernant la mission PLATO : son objectif principal est de détecter des transits d'exoplanètes de planètes telluriques dans la zone habitable d'étoiles solaires. Les courbes de lumière (séries temporelles photométriques) de chaque transit détecté seront soumises à une batterie de tests pour détecter d'éventuelles anomalies (par exemple, transit causé par une binaire à éclipse au lieu d'une exoplanète, ou par le reflet dans les caméras de l'instrument d'une source contaminante hors champ, etc...). Pour chaque transit, l'approche que nous avons développée est basée sur la procédure de tests multiples de Benjamini-Hochberg (BH) [Benjamini & Hochberg, 1995], qui permet de tracer quelles anomalies ont été détectées, et de contrôler le taux de fausses détections. Selon le cahier des charges du pipeline de PLATO, la procédure de détection doit aussi définir un score global pour chaque transit. Nous avons opté pour une statistique de test originale, basée sur le nombre de rejets obtenus par BH. Le premier objectif ici sera d'étudier les performances théoriques de la procédure de test existante, et éventuellement de l'améliorer par exemple en utilisant des techniques récentes de la littérature d'apprentissage statistique [Mary & Roquain, 2022, Marandon et al 2024]. Le second objectif sera de tester les procédures implémentées sur la dernière version des données simulées de PLATO, qui ont été produites au LAM en vue de leur implémentation pour traiter les données de la mission qui seront disponibles vers le milieu de la thèse.
Le problème de la détection d'astéroïdes binaires dans les données GAIA peut se ramener à celui de la détection d'un signal périodique dans des séries temporelles irrégulièrement échantillonnées, comportant peu de points et à très faible rapport signal sur bruit. La méthode que nous avons développée est basée sur une analyse de type périodogramme calibrée par des simulations de Monte Carlo. Celle-ci a permis de détecter une première liste de candidats d'astéroïdes binaires [Liberato et al, 2024]. Le premier objectif de la thèse dans cette application sera d'améliorer la statistique de test de détection existante. Ici aussi on se basera sur des techniques récentes de la littérature d'apprentissage statistique. Les données sont en effet perturbées par des bruits dont la distribution est mal connue, et ceux-ci limitent la puissance de détection et le contrôle des erreurs de type 1. Le second objectif concernera l'amélioration de la méthode de construction des intervalles de confiance pour les paramètres des astéroïdes détectés.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

As in other fields, the use of techniques related to 'AI' in the broad sense is growing exponentially in Universe Sciences. Within the research community in statistics and 'AI,' conformal prediction [Vovk et al, 2005; Balasubramanian et al., 2014] and multiple testing [Roquain, 2015; Efron et al., 2016] are highly active areas. These approaches are of great interest for constructing confidence intervals and developing detection methods with guarantees (such as controlling the false discovery rate). However, these methods remain underutilized or even unused in astrophysics, despite their high potential.
This thesis will aim to develop and adapt such techniques for two major astrophysical applications where their value has been clearly identified. The applications in question are the detection of exoplanets with ESA's PLATO space mission (scheduled for launch at the end of 2026) and the detection of binary asteroids in data from ESA's GAIA space mission, whose 4th Data Release is expected in 2026.
Regarding the PLATO mission: Its primary objective is to detect transits of terrestrial exoplanets in the habitable zone of solar-type stars. The light curves (photometric time series) of each detected transit will be subjected to a battery of tests to detect potential anomalies (e.g., transits caused by eclipsing binaries instead of exoplanets, or reflections in the instrument's cameras from contaminating off-field sources, etc.). For each transit, the approach we have developed is based on the Benjamini-Hochberg (BH) multiple testing procedure [Benjamini & Hochberg, 1995], which allows us to identify which anomalies have been detected and to control the false detection rate. According to the PLATO pipeline specifications, the detection procedure must also define a global score for each transit. We have chosen an original test statistic based on the number of rejections obtained by BH. The first objective here will be to study the theoretical performance of the existing test procedure and potentially improve it, for example, by using recent techniques from the statistical learning literature [Mary & Roquain, 2022; Marandon et al., 2024]. The second objective will be to test the implemented procedures on the latest version of PLATO's simulated data, which were produced at LAM with a view to their implementation for processing the mission's data, expected to be available around the midpoint of the thesis.
For the detection of binary asteroids in GAIA data: This problem reduces to detecting a periodic signal in irregularly sampled time series with few data points and a very low signal-to-noise ratio. The method we have developed is based on a periodogram-type analysis calibrated by Monte Carlo simulations. This has enabled the detection of a first list of binary asteroid candidates [Liberato et al., 2024]. The first objective of the thesis for this application will be to improve the existing detection test statistic, and recent techniques from the statistical learning literature can be used as well [Mary & Roquain, 2022; Marandon et al., 2024]. The data are indeed affected by noise with poorly known distributions, which limit detection power and the control of Type I errors. The second objective will focus on improving the method for constructing confidence intervals for the parameters of the detected asteroids.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2026
WEB : https://programmes.insu.cnrs.fr/sun/projets-finances-aap2026/

Funding category

Public funding alone (i.e. government, region, European, international organization research grant)

Funding further details

Concours pour un contrat doctoral

Presentation of host institution and host laboratory

Université Côte d'Azur

Institution awarding doctoral degree

Université Côte d'Azur

Graduate school

364 SFA - Sciences Fondamentales et Appliquées

Candidate's profile

Compte tenu de l'aspect fortement interdisciplinaire de cette thèse, le·la doctorant·e devra avoir une forte appétence pour les méthodes statistiques, la thématique des exoplanètes en général et la programmation (Python). Profil de type école d'ingénieur avec formation en traitement du signal et Machine Learning, et/ou master astrophysique avec formation en traitement du signal et Machine Learning. Given the highly interdisciplinary nature of this thesis, the PhD candidate should have a strong interest in statistical methods, the topic of exoplanets in general, and programming (Python).
Preferred profile: an engineering school graduate with training in signal processing and Machine Learning and/or a master's degree in astrophysics with training in signal processing and Machine Learning.
2026-04-24
Partager via
Apply
Close

Vous avez déjà un compte ?

Nouvel utilisateur ?