Prédiction de l'exposition interne aux polluants organiques persistants et risque de cancer du sein dans la cohorte E3N : approches par apprentissage automatique et analyse des mélanges. // Predicting internal levels of exposure to persistent organic poll
|
ABG-135619
ADUM-70315 |
Thesis topic | |
| 2026-02-12 |
Université Paris-Saclay GS Santé publique
Villejuif cedex - Ile-de-France - France
Prédiction de l'exposition interne aux polluants organiques persistants et risque de cancer du sein dans la cohorte E3N : approches par apprentissage automatique et analyse des mélanges. // Predicting internal levels of exposure to persistent organic poll
- Biology
approches par apprentissage automatique, Polluants organiques persistants , Cancer du sein , Mélanges , Cohorte E3N-Générations
machine learning approaches, Persistent organic pollutants, Breast cancer, Mixtures , E3N-Generations cohort
machine learning approaches, Persistent organic pollutants, Breast cancer, Mixtures , E3N-Generations cohort
Topic description
Les polluants organiques persistants (POP) sont des substances chimiques bioaccumulables auxquelles la population générale est principalement exposée par l'alimentation. En raison de leur longue demi-vie biologique, l'exposition interne est mieux évaluée à l'aide de biomarqueurs sanguins ; toutefois, le biomonitoring est coûteux et limite la taille des échantillons ainsi que la puissance statistique dans les grandes études épidémiologiques. Les méthodes indirectes existantes d'évaluation de l'exposition présentent des erreurs de mesure ou une scalabilité limitée. L'apprentissage automatique (machine learning, ML) offre une alternative prometteuse en combinant de multiples variables liées à l'exposition afin de prédire les concentrations internes de POP dans de larges populations, permettant ainsi des analyses plus puissantes des effets des POP sur la santé, notamment le cancer du sein.
Les principaux objectifs de ce projet sont : 1) de prédire l'exposition interne aux POP dans la cohorte E3N-Générations à l'aide de modèles de ML entraînés sur des données de biomarqueurs mesurées ; et 2) d'évaluer l'association entre l'exposition prédite aux POP et le risque de cancer du sein.
Environ 1 000 femmes de la cohorte E3N-Générations disposent déjà de mesures des taux sanguins de POP. Des données détaillées sur l'alimentation, le mode de vie, les facteurs reproductifs et les caractéristiques anthropométriques sont également disponibles.
Cette sous-cohorte sera divisée en un ensemble d'entraînement (90 %) et un ensemble de test. Une large bibliothèque de modèles sera évaluée, incluant des régressions linéaires et pénalisées, des modèles additifs généralisés, des machines à vecteurs de support, des méthodes de gradient boosting et des réseaux de neurones. Un Super Learner adaptatif aux données combinera ces modèles en un ensemble pondéré de manière optimale à l'aide de la validation croisée.
Les expositions prédites seront attribuées à environ 75 000 femmes de la cohorte E3N, dont plus de 8 000 cas incidents de cancer du sein, et analysées à l'aide de modèles de Cox, globalement et selon le statut des récepteurs aux œstrogènes (ER). Les effets des mélanges de POP seront évalués à l'aide de plusieurs approches de modélisation.
Ce projet permettra de développer un cadre méthodologique validé et scalable basé sur le ML pour prédire l'exposition interne aux POP dans de grandes cohortes, et de produire de nouvelles connaissances sur l'association entre les POP et le risque de cancer du sein.
Le/la doctorant(e) sera encadré(e) par Francesca Romana Mancini (directrice de thèse) et Germán Cano-Sancho (co-directeur), combinant une expertise en épidémiologie environnementale et en évaluation des expositions, et travaillera en étroite collaboration avec Vittorio Perduca (co-encadrant), qui possède une vaste expérience en ML appliqué aux études épidémiologiques.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Persistent Organic Pollutants (POPs) are bioaccumulative chemicals to which the general population is primarily exposed through diet. Due to their long biological half-lives, internal exposure is best assessed using blood biomarkers; however, biomonitoring is costly and limits sample size and statistical power in large epidemiological studies. Existing indirect exposure assessment methods suffer from measurement error or limited scalability. Machine learning (ML) offers a promising alternative by combining multiple exposure-related variables to predict internal POP concentrations in large populations, enabling more powerful analyses of POP-related health effects, including breast cancer.
The main objectives of this project are 1) to predict internal exposure to POPs in the E3N-Generations cohort using ML models trained on measured biomarker data, and 2) to assess the association between predicted POPs exposure and breast cancer risk.
Approximately 1,000 women of the E3N-Generations cohort have already measured POPs blood levels. Detailed dietary, lifestyle, reproductive, anthropometric data are also available.
This subcohort will be split into training (90%) and test sets. A broad library of models will be evaluated, including linear and penalized regression, generalized additive models, support vector machines, gradient boosting, and neural networks. A data-adaptive Super Learner will combine models into an optimally weighted ensemble using cross-validation.
Predicted exposures will be assigned to ~75,000 E3N women, including over 8,000 incident breast cancer cases, and analysed using Cox models, overall and by ER status. POPs mixture effects will be assessed using multiple modelling approaches.
This project will deliver a validated, scalable ML framework to predict internal POPs exposure in large cohorts and generate new evidence on POPs and breast cancer risk.
The PhD fellow will be supervised by Francesca Romana Mancini (directrice de these) and Germán Cano-Sancho (co-directeur), combining expertise in environmental epidemiology and exposure assessment, and will work closely with Vittorio Perduca (Co-Encadrant), who has vast experience in ML applied to epidemiology studies.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
WEB : http://www.e3n-generations.fr/
Les principaux objectifs de ce projet sont : 1) de prédire l'exposition interne aux POP dans la cohorte E3N-Générations à l'aide de modèles de ML entraînés sur des données de biomarqueurs mesurées ; et 2) d'évaluer l'association entre l'exposition prédite aux POP et le risque de cancer du sein.
Environ 1 000 femmes de la cohorte E3N-Générations disposent déjà de mesures des taux sanguins de POP. Des données détaillées sur l'alimentation, le mode de vie, les facteurs reproductifs et les caractéristiques anthropométriques sont également disponibles.
Cette sous-cohorte sera divisée en un ensemble d'entraînement (90 %) et un ensemble de test. Une large bibliothèque de modèles sera évaluée, incluant des régressions linéaires et pénalisées, des modèles additifs généralisés, des machines à vecteurs de support, des méthodes de gradient boosting et des réseaux de neurones. Un Super Learner adaptatif aux données combinera ces modèles en un ensemble pondéré de manière optimale à l'aide de la validation croisée.
Les expositions prédites seront attribuées à environ 75 000 femmes de la cohorte E3N, dont plus de 8 000 cas incidents de cancer du sein, et analysées à l'aide de modèles de Cox, globalement et selon le statut des récepteurs aux œstrogènes (ER). Les effets des mélanges de POP seront évalués à l'aide de plusieurs approches de modélisation.
Ce projet permettra de développer un cadre méthodologique validé et scalable basé sur le ML pour prédire l'exposition interne aux POP dans de grandes cohortes, et de produire de nouvelles connaissances sur l'association entre les POP et le risque de cancer du sein.
Le/la doctorant(e) sera encadré(e) par Francesca Romana Mancini (directrice de thèse) et Germán Cano-Sancho (co-directeur), combinant une expertise en épidémiologie environnementale et en évaluation des expositions, et travaillera en étroite collaboration avec Vittorio Perduca (co-encadrant), qui possède une vaste expérience en ML appliqué aux études épidémiologiques.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Persistent Organic Pollutants (POPs) are bioaccumulative chemicals to which the general population is primarily exposed through diet. Due to their long biological half-lives, internal exposure is best assessed using blood biomarkers; however, biomonitoring is costly and limits sample size and statistical power in large epidemiological studies. Existing indirect exposure assessment methods suffer from measurement error or limited scalability. Machine learning (ML) offers a promising alternative by combining multiple exposure-related variables to predict internal POP concentrations in large populations, enabling more powerful analyses of POP-related health effects, including breast cancer.
The main objectives of this project are 1) to predict internal exposure to POPs in the E3N-Generations cohort using ML models trained on measured biomarker data, and 2) to assess the association between predicted POPs exposure and breast cancer risk.
Approximately 1,000 women of the E3N-Generations cohort have already measured POPs blood levels. Detailed dietary, lifestyle, reproductive, anthropometric data are also available.
This subcohort will be split into training (90%) and test sets. A broad library of models will be evaluated, including linear and penalized regression, generalized additive models, support vector machines, gradient boosting, and neural networks. A data-adaptive Super Learner will combine models into an optimally weighted ensemble using cross-validation.
Predicted exposures will be assigned to ~75,000 E3N women, including over 8,000 incident breast cancer cases, and analysed using Cox models, overall and by ER status. POPs mixture effects will be assessed using multiple modelling approaches.
This project will deliver a validated, scalable ML framework to predict internal POPs exposure in large cohorts and generate new evidence on POPs and breast cancer risk.
The PhD fellow will be supervised by Francesca Romana Mancini (directrice de these) and Germán Cano-Sancho (co-directeur), combining expertise in environmental epidemiology and exposure assessment, and will work closely with Vittorio Perduca (Co-Encadrant), who has vast experience in ML applied to epidemiology studies.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
WEB : http://www.e3n-generations.fr/
Funding category
Funding further details
Contrats ED : Programme blanc GS-SanPub
Presentation of host institution and host laboratory
Université Paris-Saclay GS Santé publique
Institution awarding doctoral degree
Université Paris-Saclay GS Santé publique
Graduate school
570 Santé Publique
Candidate's profile
Le/la candidat(e) devra être titulaire d'un Master 2 (ou équivalent) en biostatistique, statistiques, data science, épidémiologie, santé publique ou discipline connexe.
Une bonne formation en méthodes statistiques et en analyse de données est requise. Des connaissances en apprentissage automatique (machine learning) et en modélisation seront appréciées, sans qu'une expertise avancée ne soit nécessaire au départ. Une maîtrise des logiciels d'analyse statistique, notamment R et/ou Python, est attendue.
Le/la candidat(e) devra disposer de connaissances de base en épidémiologie, et idéalement en épidémiologie environnementale. Une sensibilité aux problématiques de santé publique et aux questions liées aux expositions environnementales constituera un atout.
Autonomie, rigueur scientifique, capacité d'analyse et aptitude à travailler en équipe dans un environnement interdisciplinaire sont essentielles. De bonnes compétences rédactionnelles et un bon niveau d'anglais sont nécessaires pour la rédaction d'articles scientifiques et la présentation des résultats dans des congrès internationaux.
The candidate should hold a Master's degree (or equivalent) in biostatistics, statistics, data science, epidemiology, public health, or a related field. A solid background in statistical methods and data analysis is required. Knowledge of machine learning and modeling will be appreciated, without needing advanced expertise at the start. Proficiency with statistical software, particularly R and/or Python, is expected. The candidate should have a basic understanding of epidemiology, and ideally some knowledge of environmental epidemiology. An interest in public health issues and environmental exposure research will be an asset. Autonomy, scientific rigor, analytical skills, and the ability to work in an interdisciplinary team are essential. Good writing skills and a strong command of English are necessary for preparing scientific articles and presenting results at international conferences.
The candidate should hold a Master's degree (or equivalent) in biostatistics, statistics, data science, epidemiology, public health, or a related field. A solid background in statistical methods and data analysis is required. Knowledge of machine learning and modeling will be appreciated, without needing advanced expertise at the start. Proficiency with statistical software, particularly R and/or Python, is expected. The candidate should have a basic understanding of epidemiology, and ideally some knowledge of environmental epidemiology. An interest in public health issues and environmental exposure research will be an asset. Autonomy, scientific rigor, analytical skills, and the ability to work in an interdisciplinary team are essential. Good writing skills and a strong command of English are necessary for preparing scientific articles and presenting results at international conferences.
2026-05-08
Apply
Close
Vous avez déjà un compte ?
Nouvel utilisateur ?
Get ABG’s monthly newsletters including news, job offers, grants & fellowships and a selection of relevant events…
Discover our members
Groupe AFNOR - Association française de normalisation
ANRT
Aérocentre, Pôle d'excellence régional
Institut Sup'biotech de Paris
ADEME
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
Généthon
ONERA - The French Aerospace Lab
TotalEnergies
Nantes Université
Medicen Paris Region
Ifremer
Servier
Nokia Bell Labs France
SUEZ
Tecknowmetrix
Laboratoire National de Métrologie et d'Essais - LNE
