Where PhDs and companies meet
Menu
Login

Prédiction de l'exposition interne aux polluants organiques persistants et risque de cancer du sein dans la cohorte E3N : approches par apprentissage automatique et analyse des mélanges. // Predicting internal levels of exposure to persistent organic poll

ABG-135619
ADUM-70315
Thesis topic
2026-02-12
Université Paris-Saclay GS Santé publique
Villejuif cedex - Ile-de-France - France
Prédiction de l'exposition interne aux polluants organiques persistants et risque de cancer du sein dans la cohorte E3N : approches par apprentissage automatique et analyse des mélanges. // Predicting internal levels of exposure to persistent organic poll
  • Biology
approches par apprentissage automatique, Polluants organiques persistants , Cancer du sein , Mélanges , Cohorte E3N-Générations
machine learning approaches, Persistent organic pollutants, Breast cancer, Mixtures , E3N-Generations cohort

Topic description

Les polluants organiques persistants (POP) sont des substances chimiques bioaccumulables auxquelles la population générale est principalement exposée par l'alimentation. En raison de leur longue demi-vie biologique, l'exposition interne est mieux évaluée à l'aide de biomarqueurs sanguins ; toutefois, le biomonitoring est coûteux et limite la taille des échantillons ainsi que la puissance statistique dans les grandes études épidémiologiques. Les méthodes indirectes existantes d'évaluation de l'exposition présentent des erreurs de mesure ou une scalabilité limitée. L'apprentissage automatique (machine learning, ML) offre une alternative prometteuse en combinant de multiples variables liées à l'exposition afin de prédire les concentrations internes de POP dans de larges populations, permettant ainsi des analyses plus puissantes des effets des POP sur la santé, notamment le cancer du sein.
Les principaux objectifs de ce projet sont : 1) de prédire l'exposition interne aux POP dans la cohorte E3N-Générations à l'aide de modèles de ML entraînés sur des données de biomarqueurs mesurées ; et 2) d'évaluer l'association entre l'exposition prédite aux POP et le risque de cancer du sein.
Environ 1 000 femmes de la cohorte E3N-Générations disposent déjà de mesures des taux sanguins de POP. Des données détaillées sur l'alimentation, le mode de vie, les facteurs reproductifs et les caractéristiques anthropométriques sont également disponibles.
Cette sous-cohorte sera divisée en un ensemble d'entraînement (90 %) et un ensemble de test. Une large bibliothèque de modèles sera évaluée, incluant des régressions linéaires et pénalisées, des modèles additifs généralisés, des machines à vecteurs de support, des méthodes de gradient boosting et des réseaux de neurones. Un Super Learner adaptatif aux données combinera ces modèles en un ensemble pondéré de manière optimale à l'aide de la validation croisée.
Les expositions prédites seront attribuées à environ 75 000 femmes de la cohorte E3N, dont plus de 8 000 cas incidents de cancer du sein, et analysées à l'aide de modèles de Cox, globalement et selon le statut des récepteurs aux œstrogènes (ER). Les effets des mélanges de POP seront évalués à l'aide de plusieurs approches de modélisation.
Ce projet permettra de développer un cadre méthodologique validé et scalable basé sur le ML pour prédire l'exposition interne aux POP dans de grandes cohortes, et de produire de nouvelles connaissances sur l'association entre les POP et le risque de cancer du sein.
Le/la doctorant(e) sera encadré(e) par Francesca Romana Mancini (directrice de thèse) et Germán Cano-Sancho (co-directeur), combinant une expertise en épidémiologie environnementale et en évaluation des expositions, et travaillera en étroite collaboration avec Vittorio Perduca (co-encadrant), qui possède une vaste expérience en ML appliqué aux études épidémiologiques.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Persistent Organic Pollutants (POPs) are bioaccumulative chemicals to which the general population is primarily exposed through diet. Due to their long biological half-lives, internal exposure is best assessed using blood biomarkers; however, biomonitoring is costly and limits sample size and statistical power in large epidemiological studies. Existing indirect exposure assessment methods suffer from measurement error or limited scalability. Machine learning (ML) offers a promising alternative by combining multiple exposure-related variables to predict internal POP concentrations in large populations, enabling more powerful analyses of POP-related health effects, including breast cancer.
The main objectives of this project are 1) to predict internal exposure to POPs in the E3N-Generations cohort using ML models trained on measured biomarker data, and 2) to assess the association between predicted POPs exposure and breast cancer risk.
Approximately 1,000 women of the E3N-Generations cohort have already measured POPs blood levels. Detailed dietary, lifestyle, reproductive, anthropometric data are also available.
This subcohort will be split into training (90%) and test sets. A broad library of models will be evaluated, including linear and penalized regression, generalized additive models, support vector machines, gradient boosting, and neural networks. A data-adaptive Super Learner will combine models into an optimally weighted ensemble using cross-validation.
Predicted exposures will be assigned to ~75,000 E3N women, including over 8,000 incident breast cancer cases, and analysed using Cox models, overall and by ER status. POPs mixture effects will be assessed using multiple modelling approaches.
This project will deliver a validated, scalable ML framework to predict internal POPs exposure in large cohorts and generate new evidence on POPs and breast cancer risk.
The PhD fellow will be supervised by Francesca Romana Mancini (directrice de these) and Germán Cano-Sancho (co-directeur), combining expertise in environmental epidemiology and exposure assessment, and will work closely with Vittorio Perduca (Co-Encadrant), who has vast experience in ML applied to epidemiology studies.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2026
WEB : http://www.e3n-generations.fr/

Funding category

Funding further details

Contrats ED : Programme blanc GS-SanPub

Presentation of host institution and host laboratory

Université Paris-Saclay GS Santé publique

Institution awarding doctoral degree

Université Paris-Saclay GS Santé publique

Graduate school

570 Santé Publique

Candidate's profile

Le/la candidat(e) devra être titulaire d'un Master 2 (ou équivalent) en biostatistique, statistiques, data science, épidémiologie, santé publique ou discipline connexe. Une bonne formation en méthodes statistiques et en analyse de données est requise. Des connaissances en apprentissage automatique (machine learning) et en modélisation seront appréciées, sans qu'une expertise avancée ne soit nécessaire au départ. Une maîtrise des logiciels d'analyse statistique, notamment R et/ou Python, est attendue. Le/la candidat(e) devra disposer de connaissances de base en épidémiologie, et idéalement en épidémiologie environnementale. Une sensibilité aux problématiques de santé publique et aux questions liées aux expositions environnementales constituera un atout. Autonomie, rigueur scientifique, capacité d'analyse et aptitude à travailler en équipe dans un environnement interdisciplinaire sont essentielles. De bonnes compétences rédactionnelles et un bon niveau d'anglais sont nécessaires pour la rédaction d'articles scientifiques et la présentation des résultats dans des congrès internationaux.
The candidate should hold a Master's degree (or equivalent) in biostatistics, statistics, data science, epidemiology, public health, or a related field. A solid background in statistical methods and data analysis is required. Knowledge of machine learning and modeling will be appreciated, without needing advanced expertise at the start. Proficiency with statistical software, particularly R and/or Python, is expected. The candidate should have a basic understanding of epidemiology, and ideally some knowledge of environmental epidemiology. An interest in public health issues and environmental exposure research will be an asset. Autonomy, scientific rigor, analytical skills, and the ability to work in an interdisciplinary team are essential. Good writing skills and a strong command of English are necessary for preparing scientific articles and presenting results at international conferences.
2026-05-08
Partager via
Apply
Close

Vous avez déjà un compte ?

Nouvel utilisateur ?