Where PhDs and companies meet
Menu
Login

Modèles intégratifs pour la conception de peptides thérapeutiques : intégration de paysages de fitness expérimentaux et de design structural // Integrative models for therapeutic peptide design: combining experimental fitness landscapes with structural de

ABG-138608
ADUM-74229
Thesis topic
2026-04-21 Public funding alone (i.e. government, region, European, international organization research grant)
Université Grenoble Alpes
Grenoble Cedex 9 - Auvergne-Rhône-Alpes - France
Modèles intégratifs pour la conception de peptides thérapeutiques : intégration de paysages de fitness expérimentaux et de design structural // Integrative models for therapeutic peptide design: combining experimental fitness landscapes with structural de
  • Biology
Biologie computationnelle , Conception de protéines , IA générative, Paysages de fitness , Peptides thérapeutiques
Computational Biology, Protein Design, Generative AI, Fitness Landscapes, Therapeutic Peptides

Topic description

La conception de peptides thérapeutiques ciblant les interactions protéine-protéine (PPI) nécessite d'optimiser simultanément plusieurs propriétés moléculaires. Deux familles de méthodes computationnelles existent mais présentent des limitations complémentaires. Les modèles de design structural (hallucination AlphaFold/ColabDesign, ProteinMPNN, modèles de co-diffusion séquence-structure) conçoivent des séquences structuralement compatibles avec un site de liaison, mais sont entraînés sur des bases générales (PDB) dépourvues de contraintes fonctionnelles spécifiques. Les modèles de fitness appris sur des données de criblage (phage display, deep mutational scanning) capturent les relations séquence-fonction expérimentales, mais restent confinés à l'espace de séquences exploré.
Ce projet développe un cadre intégratif combinant deux sources d'information complémentaires pour la conception de peptides. D'un côté, les grands modèles pré-entraînés de prédiction de structure (AlphaFold2, AlphaFold3), appris sur l'ensemble des structures protéiques connues, permettent de concevoir des séquences géométriquement compatibles avec un site de liaison cible. De l'autre, des modèles de fitness basés sur la séquence, entraînés directement sur les données issues d'expériences de criblage à haut débit, capturent les relations entre séquence et fonction telles qu'observées expérimentalement. Ces modèles de fitness, fondés sur notre cadre multi-modal publié (Fernandez-de-Cossio-Diaz, Uguzzoni et al., PLOS Comput Biol, 2024), sont capables d'apprendre simultanément plusieurs propriétés moléculaires, y compris des phénotypes complexes comme la toxicité ou la sélectivité membranaire, des propriétés qui résultent d'interactions multiples avec l'organisme hôte et qui ne peuvent pas être prédites à partir de la structure d'un seul complexe moléculaire. L'innovation centrale du projet consiste à coupler ces deux familles de modèles : la fonction de fitness apprise guide le processus de génération du modèle structural, produisant des candidats peptidiques qui satisfont à la fois la complémentarité structurale avec la cible et les critères fonctionnels issus de l'expérience.
Le cadre sera développé et validé sur deux applications thérapeutiques :
Application 1 — Peptides antiviraux anti-influenza (Axe 1). Des peptides inhibant l'interaction PA-PB1 de la polymérase grippale ont été développés au CEA-IRIG par phage display (800M variants, ~20 000 séquences NGS) et design structural (ProteinMPNN), avec une inhibition virale améliorée d'un facteur 100 (brevet mai 2025). Ce système servira à valider l'intégration fitness-structure. Les candidats seront validés par mesures d'affinité (BLI, TSA), essais cellulaires (Institut Pasteur) et cristallographie (IBS).
Application 2 — Peptides antimicrobiens (Axe 2). Les données publiques de deep mutational scanning du Protegrin-1 (activité antibactérienne et hémolyse, Nat Biomed Eng, 2024) et de l'Oncocin (~170 000 mutants, ACS Synth Biol, 2022) serviront de banc d'essai pour le modèle multi-modal et l'optimisation du compromis activité/toxicité.
La thèse sera dirigée par C. Battail (DR CEA) et co-encadrée par G. Uguzzoni (CR CEA), en collaboration avec D. Hart (IBS/CEA-IRIG) pour les données expérimentales et la validation, et J. Fernandez de Cossio Diaz (IPhT, CEA-Saclay) pour les aspects théoriques.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

The design of therapeutic peptides targeting protein-protein interactions (PPIs) requires the simultaneous optimization of multiple molecular properties. Two complementary families of computational methods exist but present opposite limitations. Structural design models (AlphaFold hallucination/ColabDesign, ProteinMPNN, sequence-structure co-diffusion models) generate sequences structurally compatible with a binding site, but are trained on general databases (PDB) lacking system-specific functional constraints. Fitness models learned from screening data (phage display, deep mutational scanning) capture experimental sequence-function relationships, but remain confined to the experimentally explored sequence space.
This project develops an integrative framework combining two complementary sources of information for peptide design. On one side, large pre-trained structure prediction models (AlphaFold2, AlphaFold3), trained on all known protein structures, enable the design of sequences geometrically compatible with a target binding site. On the other, sequence-based fitness models, trained directly on data from high-throughput screening experiments, capture sequence-function relationships as observed experimentally. These fitness models, based on our published multi-modal framework (Fernandez-de-Cossio-Diaz, Uguzzoni et al., PLOS Comput Biol, 2024), can simultaneously learn multiple molecular properties, including complex phenotypes such as toxicity or membrane selectivity, properties that arise from multiple interactions with the host organism and cannot be predicted from the structure of a single molecular complex. The central innovation of this project is to couple these two families of models: the learned fitness function guides the generation process of the structural model, producing peptide candidates that satisfy both structural complementarity with the target and functional criteria derived from experiment.
The framework will be developed and validated on two therapeutic applications:
Application 1 — Anti-influenza antiviral peptides (Axis 1). Peptides inhibiting the PA-PB1 interaction of the influenza polymerase were developed at CEA-IRIG through phage display (800M variants, ~20,000 NGS sequences) and structural design (ProteinMPNN), achieving 100-fold improved viral inhibition (patent filed May 2025). Candidates will be validated through affinity measurements (BLI, TSA), cellular assays (Institut Pasteur), and X-ray crystallography (IBS).
Application 2 — Antimicrobial peptides (Axis 2). Public deep mutational scanning data from Protegrin-1 (antibacterial activity and hemolysis, Nat Biomed Eng, 2024) and Oncocin (~170,000 mutants, ACS Synth Biol, 2022) will serve as testbeds for the multi-modal model and the activity/toxicity trade-off optimization.
The thesis will be supervised by C. Battail (DR CEA) and co-supervised by G. Uguzzoni (CR CEA), in collaboration with D. Hart (IBS/CEA-IRIG) for experimental data and validation, and J. Fernandez de Cossio Diaz (IPhT, CEA-Saclay) for theoretical aspects.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2026

Funding category

Public funding alone (i.e. government, region, European, international organization research grant)

Funding further details

Concours pour un contrat doctoral

Presentation of host institution and host laboratory

Université Grenoble Alpes

Institution awarding doctoral degree

Université Grenoble Alpes

Graduate school

216 ISCE - Ingénierie pour la Santé la Cognition et l'Environnement

Candidate's profile

Le candidat idéal devrait avoir une solide formation en modélisation mathématique et en programmation. Un diplôme de Master 2 Recherche en physique, mathématiques, informatique ou biologie computationnelle est requis. Les compétences essentielles incluent une base en physique statistique et apprentissage automatique, des compétences avancées en programmation (Julia ou Python) avec expérience en frameworks d'apprentissage automatique (PyTorch, Jax ou équivalent), et une connaissance de la théorie des probabilités. Une familiarité avec l'analyse de séquences biologiques est attendue. Des connaissances en biologie structurale, en modèles génératifs ou en modèles de langage protéique seraient un plus mais ne sont pas requises. Le candidat devra faire preuve de capacités analytiques, d'intérêt pour la recherche interdisciplinaire et d'autonomie. Niveau d'anglais B2 ou supérieur requis.
The ideal candidate should have a strong background in mathematical modeling and programming. A Master's degree (M2R) in physics, mathematics, computer science, or computational biology is required. Essential skills include foundations in statistical physics and machine learning, advanced programming in Julia or Python with experience in ML frameworks (PyTorch, Jax, or equivalent), and knowledge of probability theory. Familiarity with biological sequence analysis is expected. Knowledge of structural biology, generative models or protein language models would be an asset but is not required. The candidate should demonstrate strong analytical skills, interest in interdisciplinary research, and independence. English proficiency at B2 level or above is required.
2026-05-19
Partager via
Apply
Close

Vous avez déjà un compte ?

Nouvel utilisateur ?