Où docteurs et entreprises se rencontrent
Menu
Connexion

Méthode bayésienne de réduction de dimension dans le cadre de modèles multivariés à effets aléatoires : Application à l'étude de la dynamique évolutive des interactions génétique x environnement des processus biologiques. // A Bayesian dimension reduction

ABG-138355
ADUM-73891
Sujet de Thèse
14/04/2026 Contrat doctoral
Université de Montpellier
Montpellier cedex 05 - Occitanie - France
Méthode bayésienne de réduction de dimension dans le cadre de modèles multivariés à effets aléatoires : Application à l'étude de la dynamique évolutive des interactions génétique x environnement des processus biologiques. // A Bayesian dimension reduction
  • Mathématiques
grande dimension, Régression "creuse" , Semi paramétrique, Adaptation, Agro-écologie, Palmier à Huile
High dimension, Sparse Regression, Semi parametric, Adaptation, Agro-ecology, Oil palm trees

Description du sujet

Que ce soit dans les domaines de la médecine, de l'agronomie ou de l'écologie, une compréhension des processus physiologiques (croissance, floraison, sénescence, …) est cruciale surtout dans le contexte du changement climatique. Ces processus sont gouvernés par des facteurs environnementaux et des mécanismes biologiques complexes. Une approche communément utilisée consiste à identifier les régions du génomes impliquées dans la variabilité du processus en utilisant des données génomiques (marqueurs moléculaires, expression de gènes, ...) et des caractéristiques environnementales (pluviométrie, température, types de sol,...). Depuis quelques années, ces données sont toujours plus abondantes allant par exemple jusqu'à des dizaines de milliers de marqueurs génétiques. Dans ce contexte, grande dimension, il est primordial de développer des méthodes statistiques efficaces qui permettent de réduire ces dimensions et de régulariser les modèles utilisés.

Récemment, deux approches innovantes (Heuclin et al., 2023 ; 2026) ont été développées pour d'une part sélectionner l'information génétique pertinente et d'autre part les conditions environnementales. La première repose sur le couplage d'un modèle linéaire mixte avec une méthode bayésienne de sélection des effets aléatoires. La seconde sur des méthodes de détection de rupture dans les séries temporelles environnementales.
La première approche considère chaque région génomique comme un effet aléatoire où la matrice de variance-covariance est calculée à partir du sous-ensemble de marqueurs disponibles sur une région donnée. Cette méthode soulève trois difficultés : (i) les marqueurs sont redondants et réduire la dimension de la matrice s'avère important d'un point de vue biologique mais aussi computationnel, (ii) le choix de la métrique utilisée pour le calcul de cette matrice ne prend pas en compte la qualité d'ajustement du modèle aux données et enfin (iii) sélectionner les régions pertinentes et les facteurs environnementaux imultanément est crucial. La seconde méthode, quant à elle, permet de prendre en compte les dépendances au sein des séries temporelles de chaque variable environnementale mais ne tient pas compte des dépendances en ces variables.

Ce sujet de thèse en statistique appliquée a pour objectifs : (i) de combiner les approches pour prendre en compte simultanément les facteurs génétiques et environnementaux, (ii) de proposer une métrique d'apparentement génétique qui tienne compte de la qualité d'ajustement du modèle aux données dans des environnement donnés, (iii) de prendre en compte les dépendances entre facteurs environnementaux et génétique (interactions) et (iv) d'étendre au multi-caractères (multivariables) les concepts originaux pour l'étude des effets pléiotropes ou dynamiques des gènes sur les caractères d'intérêts
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Whether in Medicine, Agronomy or Ecology, understanding the physiological processes (growth, flowering, senescence ...) is crucial, particularly in a climatic change situation. These processes are driven by environmental factors and complex biological mechanisms. A
common approach consists in identifying the portions of the genome involved in the variability of the process from genomic data (molecular markers, gene expression, ...) and environmental characteristics (rainfall, temperature, soil type, ...). The abundance of such data has been increasing over the last years, e.g. reaching tens of thousands of genetic markers. In such a high dimension framework, it is of the essence to develop efficient statistical methods which can both reduce the dimension and regularize the model estimation.

Recently, two novel approaches (Heuclin et al., 2023 ; 2026) have been developed for, selecting the relevant genetic information on the one hand, and the environment characteristics on the other. The first approach combines a linear mixed model with a bayesian random effect selection method. The second approach is based on break detection methods for environmental time series. The first approach views every area of the genome as a random effect whose variance-covariance matrix is computed from the subset of markers available on a given portion of the genome. This method raises three issues: (i) the markers are redundant and reducing the matrix dimension is important both from a biological and a computational point of view. The choice of the metric used in the calculation of the matrix does not take into account the goodness of fit of the model to the data, and (iii) selecting both the relevant portions of the genome and the environmental factors is critical.
As for the second method, it accounts for the dependences within the time series of each environmental variable separately, but does not consider the dependences between these variables.

This PhD thesis in applied statistics pursues the following goals: (i) combining both approaches to simultaneously take into account genetic and environmental factors, (ii) proposing a genetic kinship metric which yields a variance-covariance matrix optimizing the goodness of fit of the model, (iii) take into account the interactions between environmental and genetic factors, (iv) extending to the multiple response situation the original concepts used to study the pleiotropic or dynamic effects of the genes on traits of interest. The student will be based in CIRAD, where (s)he will benefit from a most favourable environment to complete this research in both statistical and agronomical modelling. The research will be co-supervised by biostatisticians and statisticians who are experienced in complex biological process modelling, bayesian modelling, and dimension reduction.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2026

Nature du financement

Contrat doctoral

Précisions sur le financement

Concours pour un contrat doctoral

Présentation établissement et labo d'accueil

Université de Montpellier

Etablissement délivrant le doctorat

Université de Montpellier

Ecole doctorale

166 I2S - Information, Structures, Systèmes

Profil du candidat

Le/La candidat(e) devra être détenteur d'un master en Statistiques et Probabilités et présentant une appétence pour l'écologie et la génétique
The candidate should have a Master's degree in Statistics and Probability and a strong interest in ecology and genetics.
04/05/2026
Partager via
Postuler
Fermer

Vous avez déjà un compte ?

Nouvel utilisateur ?