Nouvelles approches à la cinétique des biomolécules issues de l'apprentissage automatique de coordonnées de réaction // New computational approaches to biomolecular kinetics based on machine-learned reaction coordinates
|
ABG-136164
ADUM-70720 |
Sujet de Thèse | |
| 03/03/2026 | Contrat doctoral |
Sorbonne Université SIS (Sciences, Ingénierie, Santé)
Paris - Ile-de-France - France
Nouvelles approches à la cinétique des biomolécules issues de l'apprentissage automatique de coordonnées de réaction // New computational approaches to biomolecular kinetics based on machine-learned reaction coordinates
- Physique
physique statistique, apprentissage automatique, cinétique, dynamique moléculaire
statistical physics, machine learning, kinetics, molecular dynamics
statistical physics, machine learning, kinetics, molecular dynamics
Description du sujet
Le projet de thèse exploite la physique statistique, les simulations et l'apprentissage automatique pour aborder un problème scientifique fondamental et ouvert : la prédiction des taux cinétiques de transition entre différentes conformations de biomolécules, formant des complexes entre elles ou avec des médicaments. Le projet se situe à l'interface entre physique, computational science et biologie, et les résultats attendus auront des implications pour la compréhension des processus physiologiques au niveau moléculaire et pour l'amélioration des approaches théoriques pour le traitement des maladies. Le groupe de recherche hôte (https://sites.google.com/site/fabiopietrucci/) est reconnu internationalement pour son expertise dans le développement de nouvelles méthodes théoriques et computationnelles pour l'étude des transformations de la matière. Le projet s'appuie sur deux thèses antérieures qui ont donné lieu à de multiples publications et ont ouvert la voie aux objectifs actuels. Le candidat bénéficiera de collaborations actives avec des leaders mondiaux dans ce domaine, à l'université d'Amsterdam et à la SISSA à Trieste : un séjour à l'étranger peut être organisé pendant le doctorat.
Au cours des 20 dernières années, la théorie a fait d'importants progrès vers une meilleure compréhension des processus de transformation: un cadre général basé sur la dynamique atomique est en train d'émerger. Cependant, un problème important a jusqu'à présent résisté à de nombreuses tentatives : prédire la cinétique des complexes protéiques, qui jouent un rôle clé dans les processus cellulaires sains et pathologiques.
Le présent projet partira de simulations réalistes de dynamique moléculaire (modèles d'environ 100 000 atomes) qui fournissent une base de données pour l'entrainement de modèles stochastiques de faible dimension (équations de Langevin). Notre avons récemment mis au point de nouvelles approches computationnelles efficaces dans ce domaine, basées sur des résultats mathématiques rigoureux (voir, par exemple, Ref. [1]). La thèse visera les tâches principales suivantes :
1) Apprentissage automatique des coordonnées de réaction optimales pour l'association du complexe barnase-barstar, à partir d'environ 0,1 milliseconde de trajectoires (générée par un ancien doctorant (réf. [2]). Notre objectif est de clarifier le rôle des interactions électrostatiques, hydrophobes et médiées par l'eau entre les protéines. En particulier, nous testerons des indicateurs des interactions non covalentes qui se sont révélés puissants dans d'autres contextes. Des centaines de variables candidates peuvent être combinées à l'aide d'une série d'approches d'apprentissage automatique, basées sur la théorie des graphes et les réseaux neuronaux (en collaboration avec L. Bonati de l'IIT Genova, qui a développé la bibliothèque mlcolvar, https://github.com/luigibonati/mlcolvar).
2) Comparison entre les approches de réduction dimensionnelle ci-dessus avec un nouveau apprentissage automatique basé sur des “loss functions” physiques, visant à minimiser le taux cinétique des modèles de Langevin ou à maximiser la production d'entropie. Ces dernières approches diffèrent des méthodes courantes et promettent un avantage stratégique, comblant ainsi une lacune dans la littérature.
Les nouvelles méthodes développées dans la thèse seront étendues à différents types d'équations de Langevin [3], testées sur des systèmes de référence et appliquées à des problèmes biophysiques complexes, tels que l'interaction des anticorps avec les antigènes ou l'interaction des protéines avec les molécules médicamenteuses, avec un intérêt pour l'amélioration des soins de santé.
[1] L. Mouaffac, K. Palacio-Rodriguez, F. Pietrucci, J. Chem. Theory Comput. 19, 5701 (2023).
[2] L. Mouaffac, K. Palacio Rodriguez, A. Barducci, P. Bolhuis, I. Callebaut, F. Pietrucci, ChemRxiv (2025)
[3] D.D. Girardier, H. Vroylandt, S. Bonella, F. Pietrucci, Phys. Rev. Lett. (2026)
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
The thesis project exploits tools from statistical physics, computer simulations and machine learning, to address a fundamental, open scientific problem: the accurate prediction of kinetic rates for the transitions between different conformational states of biomolecules, forming complexes among them or with small ligands like drugs. The project is at the interface between physics, computational science and biology, and the expected results will have implications for understanding physiological processes at the molecular level, and to improve the treatment of diseases. The host research group (https://sites.google.com/site/fabiopietrucci/) is internationally recognized for its long-standing expertise in the development of new theoretical and computational methods for the study of transformation processes in physics (phase transitions), chemistry (chemical reactions) and biology (protein folding, interaction with ligands, formation and dissociation of complexes). The project builds upon two previous PhD theses that led to multiple publications and paved the way for the present targets. The candidate will take advantage of active collaborations with world leaders in the field, at the University of Amsterdam and at SISSA in Trieste: a stay abroad in one of these labs can be organized during the PhD.
In the last 20 years, theory made important steps towards a deeper understanding of how matter transforms: piece by piece, a general framework based on atomic dynamics is emerging. However, an important problem so far defied many attempts: predicting the kinetics of the formation and dissociation of complexes of proteins. These complexes play a key role both in healthy and pathological cellular processes, therefore there is urgent need of solving the puzzle.
The present project will start from realistic molecular dynamics simulations of biomolecules in solution – using models of about 100 000 atoms – that provide a data set to train stochastic low-dimensional models (Langevin equations), based on diffusion on a free-energy landscape. Our research group at Sorbonne University recently invented new efficient computational approaches in this field, based on rigorous mathematical results (see, e.g., Ref [1]). The thesis will focus on the following main tasks:
1) Machine-learn optimal reaction coordinates for the barnase-barstar complex, starting from ~0.1 millisecond high-dimensional MD (generated by a previous PhD student (Ref. [2]). We aim at clarifying the role of electrostatic, hydrophobic and water-mediated interactions between proteins. In particular, we will test state-of-the-art indicators of non-covalent interactions that proved powerful in other contexts. Hundreds of candidate variables can be combined together using a range of machine learning approaches, based on graph theory and on neural networks (in collaboration with L. Bonati at IIT Genova, who developed the library mlcolvar, https://github.com/luigibonati/mlcolvar).
2) Compare the data-science dimensional reduction approaches above, with machine learning based on physical scoring functions, i.e., aiming at minimizing the kinetic rate of Langevin models or at maximizing the entropy production. The latter approaches differ from common methods and promise a strategic advantage, filling a gap in the literature.
The new methods developed in the thesis will be extended to different types of Langevin equations [3], tested on benchmark systems and applied on challenging biophysical problems, like the interaction of antibodies with antigens, or the interaction of proteins with drug molecules, playing a crucial role in the quest for better treatments against diseases.
[1] L. Mouaffac, K. Palacio-Rodriguez, F. Pietrucci, J. Chem. Theory Comput. 19, 5701 (2023).
[2] L. Mouaffac, K. Palacio Rodriguez, A. Barducci, P. Bolhuis, I. Callebaut, F. Pietrucci, ChemRxiv (2025)
[3] D.D. Girardier, H. Vroylandt, S. Bonella, F. Pietrucci, Phys. Rev. Lett. (2026)
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
WEB : https://sites.google.com/site/fabiopietrucci/
Au cours des 20 dernières années, la théorie a fait d'importants progrès vers une meilleure compréhension des processus de transformation: un cadre général basé sur la dynamique atomique est en train d'émerger. Cependant, un problème important a jusqu'à présent résisté à de nombreuses tentatives : prédire la cinétique des complexes protéiques, qui jouent un rôle clé dans les processus cellulaires sains et pathologiques.
Le présent projet partira de simulations réalistes de dynamique moléculaire (modèles d'environ 100 000 atomes) qui fournissent une base de données pour l'entrainement de modèles stochastiques de faible dimension (équations de Langevin). Notre avons récemment mis au point de nouvelles approches computationnelles efficaces dans ce domaine, basées sur des résultats mathématiques rigoureux (voir, par exemple, Ref. [1]). La thèse visera les tâches principales suivantes :
1) Apprentissage automatique des coordonnées de réaction optimales pour l'association du complexe barnase-barstar, à partir d'environ 0,1 milliseconde de trajectoires (générée par un ancien doctorant (réf. [2]). Notre objectif est de clarifier le rôle des interactions électrostatiques, hydrophobes et médiées par l'eau entre les protéines. En particulier, nous testerons des indicateurs des interactions non covalentes qui se sont révélés puissants dans d'autres contextes. Des centaines de variables candidates peuvent être combinées à l'aide d'une série d'approches d'apprentissage automatique, basées sur la théorie des graphes et les réseaux neuronaux (en collaboration avec L. Bonati de l'IIT Genova, qui a développé la bibliothèque mlcolvar, https://github.com/luigibonati/mlcolvar).
2) Comparison entre les approches de réduction dimensionnelle ci-dessus avec un nouveau apprentissage automatique basé sur des “loss functions” physiques, visant à minimiser le taux cinétique des modèles de Langevin ou à maximiser la production d'entropie. Ces dernières approches diffèrent des méthodes courantes et promettent un avantage stratégique, comblant ainsi une lacune dans la littérature.
Les nouvelles méthodes développées dans la thèse seront étendues à différents types d'équations de Langevin [3], testées sur des systèmes de référence et appliquées à des problèmes biophysiques complexes, tels que l'interaction des anticorps avec les antigènes ou l'interaction des protéines avec les molécules médicamenteuses, avec un intérêt pour l'amélioration des soins de santé.
[1] L. Mouaffac, K. Palacio-Rodriguez, F. Pietrucci, J. Chem. Theory Comput. 19, 5701 (2023).
[2] L. Mouaffac, K. Palacio Rodriguez, A. Barducci, P. Bolhuis, I. Callebaut, F. Pietrucci, ChemRxiv (2025)
[3] D.D. Girardier, H. Vroylandt, S. Bonella, F. Pietrucci, Phys. Rev. Lett. (2026)
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
The thesis project exploits tools from statistical physics, computer simulations and machine learning, to address a fundamental, open scientific problem: the accurate prediction of kinetic rates for the transitions between different conformational states of biomolecules, forming complexes among them or with small ligands like drugs. The project is at the interface between physics, computational science and biology, and the expected results will have implications for understanding physiological processes at the molecular level, and to improve the treatment of diseases. The host research group (https://sites.google.com/site/fabiopietrucci/) is internationally recognized for its long-standing expertise in the development of new theoretical and computational methods for the study of transformation processes in physics (phase transitions), chemistry (chemical reactions) and biology (protein folding, interaction with ligands, formation and dissociation of complexes). The project builds upon two previous PhD theses that led to multiple publications and paved the way for the present targets. The candidate will take advantage of active collaborations with world leaders in the field, at the University of Amsterdam and at SISSA in Trieste: a stay abroad in one of these labs can be organized during the PhD.
In the last 20 years, theory made important steps towards a deeper understanding of how matter transforms: piece by piece, a general framework based on atomic dynamics is emerging. However, an important problem so far defied many attempts: predicting the kinetics of the formation and dissociation of complexes of proteins. These complexes play a key role both in healthy and pathological cellular processes, therefore there is urgent need of solving the puzzle.
The present project will start from realistic molecular dynamics simulations of biomolecules in solution – using models of about 100 000 atoms – that provide a data set to train stochastic low-dimensional models (Langevin equations), based on diffusion on a free-energy landscape. Our research group at Sorbonne University recently invented new efficient computational approaches in this field, based on rigorous mathematical results (see, e.g., Ref [1]). The thesis will focus on the following main tasks:
1) Machine-learn optimal reaction coordinates for the barnase-barstar complex, starting from ~0.1 millisecond high-dimensional MD (generated by a previous PhD student (Ref. [2]). We aim at clarifying the role of electrostatic, hydrophobic and water-mediated interactions between proteins. In particular, we will test state-of-the-art indicators of non-covalent interactions that proved powerful in other contexts. Hundreds of candidate variables can be combined together using a range of machine learning approaches, based on graph theory and on neural networks (in collaboration with L. Bonati at IIT Genova, who developed the library mlcolvar, https://github.com/luigibonati/mlcolvar).
2) Compare the data-science dimensional reduction approaches above, with machine learning based on physical scoring functions, i.e., aiming at minimizing the kinetic rate of Langevin models or at maximizing the entropy production. The latter approaches differ from common methods and promise a strategic advantage, filling a gap in the literature.
The new methods developed in the thesis will be extended to different types of Langevin equations [3], tested on benchmark systems and applied on challenging biophysical problems, like the interaction of antibodies with antigens, or the interaction of proteins with drug molecules, playing a crucial role in the quest for better treatments against diseases.
[1] L. Mouaffac, K. Palacio-Rodriguez, F. Pietrucci, J. Chem. Theory Comput. 19, 5701 (2023).
[2] L. Mouaffac, K. Palacio Rodriguez, A. Barducci, P. Bolhuis, I. Callebaut, F. Pietrucci, ChemRxiv (2025)
[3] D.D. Girardier, H. Vroylandt, S. Bonella, F. Pietrucci, Phys. Rev. Lett. (2026)
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
WEB : https://sites.google.com/site/fabiopietrucci/
Nature du financement
Contrat doctoral
Précisions sur le financement
Concours pour un contrat doctoral
Présentation établissement et labo d'accueil
Sorbonne Université SIS (Sciences, Ingénierie, Santé)
Etablissement délivrant le doctorat
Sorbonne Université SIS (Sciences, Ingénierie, Santé)
Ecole doctorale
397 Physique et Chimie des Matériaux
Profil du candidat
Bonnes compétences en physique statistique et programmation ; créativité et autonomie dans la résolution de problèmes ; bases d'apprentissage automatique ; bases de dynamique moléculaire.
Good knowledge of statistical physics and computer programming; creativity and autonomy in problem solving; bases of machine learning; bases of molecular dynamics.
Good knowledge of statistical physics and computer programming; creativity and autonomy in problem solving; bases of machine learning; bases of molecular dynamics.
30/04/2026
Postuler
Fermer
Vous avez déjà un compte ?
Nouvel utilisateur ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
Laboratoire National de Métrologie et d'Essais - LNE
ONERA - The French Aerospace Lab
SUEZ
Généthon
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
Nantes Université
TotalEnergies
Servier
Groupe AFNOR - Association française de normalisation
Nokia Bell Labs France
Aérocentre, Pôle d'excellence régional
ANRT
Institut Sup'biotech de Paris
Ifremer
Medicen Paris Region
Tecknowmetrix
ADEME
-
EmploiRef. 135852Tokyo, Japon
Fellowship of the JSPS (Japan Society for the Promotion of Science) at LIMMS/CNRS-IIS (IRL 2820), TokyoPD fellowship of the JSPS on the project :Stretchable Electronics for Intuitive Human–Robot Collaboration and Physical AI
Expertises scientifiques :Electronique - Robotique
Niveau d’expérience :Junior
-
EmploiRef. 136133Paris , Ile-de-France , France
Association Bernard Gregory ABGFormateur.rice
Expertises scientifiques :Indifférent
Niveau d’expérience :Niveau d'expérience indifférent
