I am*	↓ ↓
E-mail*	↓ ↓

Back to search results

Apprentissage par renforcement pour la génération automatique de modèles en biosanté // Reinforcement learning of complex dynamical systems with applications in Biohealth

Ref. ABG-138358 ADUM-73957	Thesis topic
2026-04-14		Public funding alone (i.e. government, region, European, international organization research grant)

Université de Montpellier

Workplace

MONTPELLIER cedex 5 - Occitanie - France

Topic title

Apprentissage par renforcement pour la génération automatique de modèles en biosanté // Reinforcement learning of complex dynamical systems with applications in Biohealth

Scientific expertise

Mathematics

Keywords

Apprentissage par renforcement, apprentissage profond, équations différentielles, explicabilité
Reinforcement learning, deep learning, differential equations, explainable AI

Topic description

Ce projet s'inscrit dans le domaine des mathématiques appliquées, à l'interface entre intelligence artificielle,
optimisation stochastique et modélisation en biologie-santé.
Il vise à développer de nouvelles méthodes d'apprentissage par renforcement pour l'identification de systèmes dynamiques complexes, avec des applications en médecine de précision.

Les systèmes dynamiques constituent un cadre fondamental pour modéliser l'évolution temporelle de processus biologiques
importants pour la progression des maladies et les effets des traitements. Contrairement aux approches purement prédictives, ils permettent d'accéder
à des relations causales essentielles pour la compréhension des pathologies et l'optimisation des traitements.
Cependant, leur identification à partir de données biomédicales reste un problème difficile en raison du bruit,
de l'hétérogénéité des données et de la complexité des systèmes sous-jacents. Malgré l'abondance des données disponibles,
leur exploitation pour la construction de modèles mécanistiques reste limitée.

Dans ce contexte, l'apprentissage par renforcement constitue une approche originale,
permettant d'explorer automatiquement l'espace des modèles possibles plutôt que de reproduire des structures existantes.
L'objectif du projet est de tirer parti de cette capacité pour générer des modèles dynamiques nouveaux,
mieux adaptés aux données expérimentales et aux phénomènes biologiques observés.

Le problème est formulé comme une identification de modèles mécanistiques représentés sous forme de réseaux de réactions biochimiques,
décrits par des graphes bipartis et des systèmes d'équations différentielles ordinaires.
L'identification est abordée comme un problème d'optimisation bi-niveau : la structure du réseau est construite par apprentissage par renforcement,
tandis que les paramètres sont estimés par des méthodes classiques telles que la descente de gradient ou des algorithmes génétiques.

La génération de la structure est formulée comme un processus de décision markovien, où les états correspondent à des graphes partiels
et les actions à l'ajout d'espèces ou de réactions. La fonction de récompense combine la qualité des prédictions,
la complexité du modèle et sa robustesse. Étant donné l'explosion combinatoire de l'espace des états et des actions,
des approches de Deep Reinforcement Learning sont utilisées pour apprendre des politiques efficaces dans cet espace de grande dimension.

Au-delà de la performance sur un problème donné, l'agent s'améliore au fil des tâches successives, ce qui lui permet
d'affiner progressivement sa stratégie d'exploration et de favoriser l'émergence de nouvelles approches de modélisation mécanistique.
L'analyse de ce processus d'apprentissage constitue un enjeu important du projet, afin de comprendre les décisions de l'agent et d'identifier les éléments de données qui les
motivent.

Le projet vise ainsi à combiner intelligence artificielle et modélisation mécanistique pour produire des modèles dynamiques explicables,
dans une perspective de médecine de précision. Les applications ciblées incluent notamment le cancer et des maladies infectieuses telles que le paludisme et le SIDA.
Il bénéficiera également de données réelles issues de projets biologiques auxquels l'équipe participe.

Enfin, ce travail s'appuie sur les infrastructures de calcul du LPHI (GPU, stockage partagé, mésocentre ISDM)
et sur un réseau de collaborations internationales, notamment avec le NCBS Bangalore et King's College London,
ainsi que sur des projets interdisciplinaires en oncologie et maladies infectieuses.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

This project is situated in the field of applied mathematics, at the interface between artificial intelligence,
stochastic optimization, and modeling in health and biological sciences. It aims to develop new reinforcement learning methods for the identification of complex dynamical systems, with applications in precision medicine.

Dynamical systems provide a fundamental framework for modeling the temporal evolution of biological processes that are important for disease progression and treatment effects.
Unlike purely predictive approaches, they make it possible to access causal relationships that are essential for understanding pathologies and optimizing treatments.
However, their identification from biomedical data remains a difficult problem due to noise, data heterogeneity, and the complexity of the underlying systems.
Despite the abundance of available data, their use for constructing mechanistic models remains limited.

In this context, reinforcement learning represents an original approach, enabling the automatic exploration of the space of possible models rather than reproducing existing structures.
The goal of the project is to leverage this capability to generate novel dynamical models that are better adapted to experimental data and observed biological phenomena.

The problem is formulated as a mechanistic model identification task represented in the form of biochemical reaction networks, described by bipartite graphs and systems of ordinary differential equations.
The identification is addressed as a bi-level optimization problem: the network structure is constructed using reinforcement learning,
while parameters are estimated using classical methods such as gradient descent or genetic algorithms.

Structure generation is formulated as a Markov decision process, where states correspond to partial graphs and actions correspond to adding species or reactions.
The reward function combines prediction accuracy, model complexity, and robustness. Given the combinatorial explosion of the state and action spaces,
Deep Reinforcement Learning approaches are used to learn effective policies in this high-dimensional setting.

Beyond performance on a given problem, the agent improves over successive tasks, allowing it to progressively refine its exploration strategy and promote the emergence
of new approaches to mechanistic modeling. Analyzing this learning process is an important aspect of the project, in order to understand the agent's decisions and identify the data features that drive them.

The project thus aims to combine artificial intelligence and mechanistic modeling to produce interpretable dynamical models, in a precision medicine framework.
Target applications include cancer and infectious diseases such as malaria and AIDS. It will also benefit from access to real data from biological projects in which the team is involved.

Finally, this work relies on the computational infrastructure of the LPHI (GPUs, shared storage, ISDM computing center) and on an international network of collaborations,
notably with NCBS Bangalore and King's College London, as well as interdisciplinary projects in oncology and infectious diseases.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2026

Funding category

Public funding alone (i.e. government, region, European, international organization research grant)

Funding further details

Concours pour un contrat doctoral

Presentation of host institution and host laboratory

Université de Montpellier

Institution awarding doctoral degree

Université de Montpellier

Graduate school

166 I2S - Information, Structures, Systèmes

Candidate's profile

Compétences essentielles • Solide formation en mathématiques appliquées, apprentissage et optimisation. • Connaissance et interet pour les systèmes dynamiques. • Compétences en programmation et calcul scientifique haute performance (Python, bibliothéques Pytorch ou Jax). • Intérêt pour la modélisation quantitative des systèmes biologiques. Compétences souhaitables • Capacité à travailler avec des données réelles, incompletes et bruitées. • Excellentes compétences en rédaction scientifique et en communication.
Essential skills Strong background in applied mathematics, machine learning, and optimization. Knowledge of and interest in dynamical systems. Programming and high-performance scientific computing skills (Python, PyTorch or JAX libraries). Interest in quantitative modeling of biological systems. Desirable skills Ability to work with real-world, incomplete, and noisy data. Excellent scientific writing and communication skills.

Application deadline

2026-05-04

Partager via

Apply

Vous avez déjà un compte ?

Nouvel utilisateur ?

Mr/Mrs*	↓ ↓
First name*	↓ ↓
Last name*	↓ ↓
E-mail*	↓ ↓
Confirm your e-mail*	↓ ↓
Password*	8 characters minimum, including at least one figure, one lower case letter and one uppercase letter. ↓ ↓
Please confirm password*	↓ ↓