Where PhDs and companies meet
Menu
Login

Approche données fonctionnelles pour le design dynamique de protéines // Functional Data approaches for dynamic protein design

ABG-132691
ADUM-66714
Thesis topic
2025-06-27
Université de Montpellier
MONTPELLIER CEDEX 5 - Occitanie - France
Approche données fonctionnelles pour le design dynamique de protéines // Functional Data approaches for dynamic protein design
  • Mathematics

Topic description

Les trois cibles principales sont complémentaires les unes des autres
Etape 1 : Génération de protéines par modèle de diffusion issu de FDA. Nous avons commencé à travailler sur le sujet en écrivant un modèle forward de bruitage similaire à celui donné au-dessus. Il nécessite l'utilisation d'une dynamique non-stationnaire. Ce type de modèle n'a quasiment jamais été utilisé pour de la simulation auparavant. Pour l'étape backward et l'utilisation d'un réseau nous serons appuyé par Baldwin Dumortier (post doc Imag) qui est un spécialiste de Deep Learning pour le design de peptides. Il n'est pas question ici de supplanter les modèles usuels de Deep learning pour la génération de protéines, mais plutôt de proposer une méthode interprétable et plus légère en temps de calcul. Nous envisageons aussi d'adapter des modèles de séquence (Transformers) à la génération de trajectoires dans l'espace, traitées ensuite comme des séries fonctionnelles
Etape 2 : Inférence statistique par FDA. A partir de données simulées par dynamique moléculaire (MD) ou de données réelles (NMR temps réel, cryo-EM multi-conformations) nous estimons l'opérateur S mentionné plus haut d'un processus AR fonctionnel tridimensionnel. Ajouté aux caractéristiques spectrales et à l'ACP de Pn nous espérons pouvoir extraire une signature caractérisant le couple (protéine+dynamique observée). Cet opérateur S estimé permettra aussi de conditionner les modèles de diffusion de l'étape 1 pour des rendus plus réalistes.
Etape 3 : Qualification des couples protéine/trajectoires. Les efforts de modélisation des deux étapes précédentes doivent permettre de déboucher sur des procédures concrètes permettant de « scorer » les données issues de MD par exemple en misant sur des métriques issues de l'opérateur S. Des détections de rupture ou d'anomalies de la dynamique seront possibles via des tests statistiques. Il faudra généraliser les résultats existants en programmation dynamique ou segmentation binaire à ce contexte plus complexe en grande dimension. Enfin le clustering de
dynamique de protéines est un autre enjeu majeur pour lequel l'équipe dispose d'une expertise éprouvée.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

The three main objectives of this project are complementary to one another.

Step 1: Protein generation via diffusion models derived from Functional Data Analysis (FDA).
We have initiated work on this topic by formulating a forward noise model inspired by the framework outlined above. This model involves the use of a non-stationary dynamics, a class of models that has seen very limited application in simulation contexts so far. For the backward step and the integration of neural networks, we will collaborate with Baldwin Dumortier (postdoctoral researcher at IMAG), a specialist in deep learning approaches for peptide design. The goal here is not to replace existing deep learning models for protein generation, but rather to propose a more interpretable and computationally efficient alternative. We also plan to adapt sequence-based models (such as Transformers) for the generation of trajectories in space, which will then be treated as functional time series.

Step 2: Statistical inference using FDA.
Based on data generated by molecular dynamics (MD) simulations or obtained from experimental sources (e.g., real-time NMR, multi-conformational cryo-EM), we aim to estimate the operator $S$ introduced earlier, associated with a three-dimensional functional autoregressive process. In combination with spectral features and PCA on $P_n$, we hope to extract a characteristic signature of each (protein + observed dynamics) pair. The estimated operator $S$ will also be used to condition the diffusion models developed in Step 1, allowing for more realistic generation of protein conformational landscapes.

Step 3: Qualification of protein/trajectory pairs.
The modeling efforts from the first two steps are intended to lead to concrete procedures for evaluating molecular dynamics data, notably through metrics derived from the operator
S.This framework will enable change-point or anomaly detection in dynamical behaviors using statistical testing procedures. Existing results from dynamic programming or binary segmentation will need to be extended to this more complex, high-dimensional context. Finally, clustering of protein dynamics constitutes another major challenge, one for which our team already possesses substantial expertise.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2025

Funding category

Funding further details

Financement d'un établissement public Français

Presentation of host institution and host laboratory

Université de Montpellier

Institution awarding doctoral degree

Université de Montpellier

Graduate school

166 I2S - Information, Structures, Systèmes

Candidate's profile

Compétences niveau master en Machine Learning et statistiques, intérêt pour les mathématiques appliquées et la biologie. Très bonne capacité à coder, connaissances de python et de ses librairies orientées ML et DL.
Master's level skills in Machine Learning and statistics, interest in applied mathematics and biology. Very good coding skills, knowledge of Python and its ML and DL-oriented libraries.
2025-09-30
Partager via
Apply
Close

Vous avez déjà un compte ?

Nouvel utilisateur ?