Méthode bayésienne de réduction de dimension dans le cadre de modèles multivariés à effets aléatoires : Application à l'étude de la dynamique évolutive des interactions génétique x environnement des processus biologiques. // A Bayesian dimension reduction
|
ABG-138355
ADUM-73891 |
Sujet de Thèse | |
| 14/04/2026 | Contrat doctoral |
Université de Montpellier
Montpellier cedex 05 - Occitanie - France
Méthode bayésienne de réduction de dimension dans le cadre de modèles multivariés à effets aléatoires : Application à l'étude de la dynamique évolutive des interactions génétique x environnement des processus biologiques. // A Bayesian dimension reduction
- Mathématiques
grande dimension, Régression "creuse" , Semi paramétrique, Adaptation, Agro-écologie, Palmier à Huile
High dimension, Sparse Regression, Semi parametric, Adaptation, Agro-ecology, Oil palm trees
High dimension, Sparse Regression, Semi parametric, Adaptation, Agro-ecology, Oil palm trees
Description du sujet
Que ce soit dans les domaines de la médecine, de l'agronomie ou de l'écologie, une compréhension des processus physiologiques (croissance, floraison, sénescence, …) est cruciale surtout dans le contexte du changement climatique. Ces processus sont gouvernés par des facteurs environnementaux et des mécanismes biologiques complexes. Une approche communément utilisée consiste à identifier les régions du génomes impliquées dans la variabilité du processus en utilisant des données génomiques (marqueurs moléculaires, expression de gènes, ...) et des caractéristiques environnementales (pluviométrie, température, types de sol,...). Depuis quelques années, ces données sont toujours plus abondantes allant par exemple jusqu'à des dizaines de milliers de marqueurs génétiques. Dans ce contexte, grande dimension, il est primordial de développer des méthodes statistiques efficaces qui permettent de réduire ces dimensions et de régulariser les modèles utilisés.
Récemment, deux approches innovantes (Heuclin et al., 2023 ; 2026) ont été développées pour d'une part sélectionner l'information génétique pertinente et d'autre part les conditions environnementales. La première repose sur le couplage d'un modèle linéaire mixte avec une méthode bayésienne de sélection des effets aléatoires. La seconde sur des méthodes de détection de rupture dans les séries temporelles environnementales.
La première approche considère chaque région génomique comme un effet aléatoire où la matrice de variance-covariance est calculée à partir du sous-ensemble de marqueurs disponibles sur une région donnée. Cette méthode soulève trois difficultés : (i) les marqueurs sont redondants et réduire la dimension de la matrice s'avère important d'un point de vue biologique mais aussi computationnel, (ii) le choix de la métrique utilisée pour le calcul de cette matrice ne prend pas en compte la qualité d'ajustement du modèle aux données et enfin (iii) sélectionner les régions pertinentes et les facteurs environnementaux imultanément est crucial. La seconde méthode, quant à elle, permet de prendre en compte les dépendances au sein des séries temporelles de chaque variable environnementale mais ne tient pas compte des dépendances en ces variables.
Ce sujet de thèse en statistique appliquée a pour objectifs : (i) de combiner les approches pour prendre en compte simultanément les facteurs génétiques et environnementaux, (ii) de proposer une métrique d'apparentement génétique qui tienne compte de la qualité d'ajustement du modèle aux données dans des environnement donnés, (iii) de prendre en compte les dépendances entre facteurs environnementaux et génétique (interactions) et (iv) d'étendre au multi-caractères (multivariables) les concepts originaux pour l'étude des effets pléiotropes ou dynamiques des gènes sur les caractères d'intérêts
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Whether in Medicine, Agronomy or Ecology, understanding the physiological processes (growth, flowering, senescence ...) is crucial, particularly in a climatic change situation. These processes are driven by environmental factors and complex biological mechanisms. A
common approach consists in identifying the portions of the genome involved in the variability of the process from genomic data (molecular markers, gene expression, ...) and environmental characteristics (rainfall, temperature, soil type, ...). The abundance of such data has been increasing over the last years, e.g. reaching tens of thousands of genetic markers. In such a high dimension framework, it is of the essence to develop efficient statistical methods which can both reduce the dimension and regularize the model estimation.
Recently, two novel approaches (Heuclin et al., 2023 ; 2026) have been developed for, selecting the relevant genetic information on the one hand, and the environment characteristics on the other. The first approach combines a linear mixed model with a bayesian random effect selection method. The second approach is based on break detection methods for environmental time series. The first approach views every area of the genome as a random effect whose variance-covariance matrix is computed from the subset of markers available on a given portion of the genome. This method raises three issues: (i) the markers are redundant and reducing the matrix dimension is important both from a biological and a computational point of view. The choice of the metric used in the calculation of the matrix does not take into account the goodness of fit of the model to the data, and (iii) selecting both the relevant portions of the genome and the environmental factors is critical.
As for the second method, it accounts for the dependences within the time series of each environmental variable separately, but does not consider the dependences between these variables.
This PhD thesis in applied statistics pursues the following goals: (i) combining both approaches to simultaneously take into account genetic and environmental factors, (ii) proposing a genetic kinship metric which yields a variance-covariance matrix optimizing the goodness of fit of the model, (iii) take into account the interactions between environmental and genetic factors, (iv) extending to the multiple response situation the original concepts used to study the pleiotropic or dynamic effects of the genes on traits of interest. The student will be based in CIRAD, where (s)he will benefit from a most favourable environment to complete this research in both statistical and agronomical modelling. The research will be co-supervised by biostatisticians and statisticians who are experienced in complex biological process modelling, bayesian modelling, and dimension reduction.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Récemment, deux approches innovantes (Heuclin et al., 2023 ; 2026) ont été développées pour d'une part sélectionner l'information génétique pertinente et d'autre part les conditions environnementales. La première repose sur le couplage d'un modèle linéaire mixte avec une méthode bayésienne de sélection des effets aléatoires. La seconde sur des méthodes de détection de rupture dans les séries temporelles environnementales.
La première approche considère chaque région génomique comme un effet aléatoire où la matrice de variance-covariance est calculée à partir du sous-ensemble de marqueurs disponibles sur une région donnée. Cette méthode soulève trois difficultés : (i) les marqueurs sont redondants et réduire la dimension de la matrice s'avère important d'un point de vue biologique mais aussi computationnel, (ii) le choix de la métrique utilisée pour le calcul de cette matrice ne prend pas en compte la qualité d'ajustement du modèle aux données et enfin (iii) sélectionner les régions pertinentes et les facteurs environnementaux imultanément est crucial. La seconde méthode, quant à elle, permet de prendre en compte les dépendances au sein des séries temporelles de chaque variable environnementale mais ne tient pas compte des dépendances en ces variables.
Ce sujet de thèse en statistique appliquée a pour objectifs : (i) de combiner les approches pour prendre en compte simultanément les facteurs génétiques et environnementaux, (ii) de proposer une métrique d'apparentement génétique qui tienne compte de la qualité d'ajustement du modèle aux données dans des environnement donnés, (iii) de prendre en compte les dépendances entre facteurs environnementaux et génétique (interactions) et (iv) d'étendre au multi-caractères (multivariables) les concepts originaux pour l'étude des effets pléiotropes ou dynamiques des gènes sur les caractères d'intérêts
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Whether in Medicine, Agronomy or Ecology, understanding the physiological processes (growth, flowering, senescence ...) is crucial, particularly in a climatic change situation. These processes are driven by environmental factors and complex biological mechanisms. A
common approach consists in identifying the portions of the genome involved in the variability of the process from genomic data (molecular markers, gene expression, ...) and environmental characteristics (rainfall, temperature, soil type, ...). The abundance of such data has been increasing over the last years, e.g. reaching tens of thousands of genetic markers. In such a high dimension framework, it is of the essence to develop efficient statistical methods which can both reduce the dimension and regularize the model estimation.
Recently, two novel approaches (Heuclin et al., 2023 ; 2026) have been developed for, selecting the relevant genetic information on the one hand, and the environment characteristics on the other. The first approach combines a linear mixed model with a bayesian random effect selection method. The second approach is based on break detection methods for environmental time series. The first approach views every area of the genome as a random effect whose variance-covariance matrix is computed from the subset of markers available on a given portion of the genome. This method raises three issues: (i) the markers are redundant and reducing the matrix dimension is important both from a biological and a computational point of view. The choice of the metric used in the calculation of the matrix does not take into account the goodness of fit of the model to the data, and (iii) selecting both the relevant portions of the genome and the environmental factors is critical.
As for the second method, it accounts for the dependences within the time series of each environmental variable separately, but does not consider the dependences between these variables.
This PhD thesis in applied statistics pursues the following goals: (i) combining both approaches to simultaneously take into account genetic and environmental factors, (ii) proposing a genetic kinship metric which yields a variance-covariance matrix optimizing the goodness of fit of the model, (iii) take into account the interactions between environmental and genetic factors, (iv) extending to the multiple response situation the original concepts used to study the pleiotropic or dynamic effects of the genes on traits of interest. The student will be based in CIRAD, where (s)he will benefit from a most favourable environment to complete this research in both statistical and agronomical modelling. The research will be co-supervised by biostatisticians and statisticians who are experienced in complex biological process modelling, bayesian modelling, and dimension reduction.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Nature du financement
Contrat doctoral
Précisions sur le financement
Concours pour un contrat doctoral
Présentation établissement et labo d'accueil
Université de Montpellier
Etablissement délivrant le doctorat
Université de Montpellier
Ecole doctorale
166 I2S - Information, Structures, Systèmes
Profil du candidat
Le/La candidat(e) devra être détenteur d'un master en Statistiques et Probabilités et présentant une appétence pour l'écologie et la génétique
The candidate should have a Master's degree in Statistics and Probability and a strong interest in ecology and genetics.
The candidate should have a Master's degree in Statistics and Probability and a strong interest in ecology and genetics.
04/05/2026
Postuler
Fermer
Vous avez déjà un compte ?
Nouvel utilisateur ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
Généthon
Nokia Bell Labs France
TotalEnergies
Institut Sup'biotech de Paris
Ifremer
ONERA - The French Aerospace Lab
SUEZ
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
Groupe AFNOR - Association française de normalisation
ADEME
Tecknowmetrix
Nantes Université
Aérocentre, Pôle d'excellence régional
Medicen Paris Region
ANRT
Laboratoire National de Métrologie et d'Essais - LNE
Servier
-
Stage master 2 / IngénieurRef. 136973Pau , Nouvelle Aquitaine , FranceLaboratoire de Thermique, Energétique et procédés
Etude expérimentale des voies de dégradation des Matériaux à Changement de Phase (MCP) pour le stockage d’énergie thermique dans l’industrie
Expertises scientifiques :Sciences de l’ingénieur - Chimie - Energie
-
EmploiRef. 136888paris , Ile-de-France , FranceAgence Nationale de la Recherche
Chargé ou chargée de projets scientifiques
Expertises scientifiques :Sociologie, anthropologie, sciences de l’éducation
Niveau d’expérience :Confirmé
-
EmploiRef. 137563Montréal, Canada
Centre de recherche du CHUMProfesseur.e-chercheur.e - Radiochimie pour le développement et la validation de radiotraceurs utilisés en imagerie médicale
Expertises scientifiques :Chimie
Niveau d’expérience :Sénior
