Analyses mathématiques innovantes des grands jeux de données pour comprendre les maladies neurodégénératives // Innovative mathematical approaches for analyzing large datasets to understand neurodegenerative diseases
|
ABG-137188
ADUM-71015 |
Sujet de Thèse | |
| 26/03/2026 | Contrat doctoral |
Sorbonne Université SIS (Sciences, Ingénierie, Santé)
Paris - Ile-de-France - France
Analyses mathématiques innovantes des grands jeux de données pour comprendre les maladies neurodégénératives // Innovative mathematical approaches for analyzing large datasets to understand neurodegenerative diseases
- Biologie
Transport Optimal, Maladie de Huntington, Sclérose Latérale Amyotrophique (SLA), Transcriptomique, Cibles thérapeutiques, Culture de neurones humains
Optimal Transport, Huntington's disease, Amyotrophy Lateral Sclerosis, Transcriptomics, Therapeutic target, Human neurons in culture
Optimal Transport, Huntington's disease, Amyotrophy Lateral Sclerosis, Transcriptomics, Therapeutic target, Human neurons in culture
Description du sujet
La thèse a pour objectif l'identification de mécanismes communs à plusieurs maladies neuro-dégénératives (MD) et sur l'étude des convergences/divergences entre leurs organismes modèles (souris, iPSC, etc.). Ces questions seront abordées via des méthodes d'apprentissage automatique cherchant une représentation parcimonieuse des données, en s'appuyant sur le transport optimal (TO).
Notre équipe mène des projets visant à décrypter les mécanismes de compensation neuronale au cours de MD telles que la maladie de Huntington (MH) et la sclérose latérale amyotrophique (SLA) [1,2,3]. Nous exploitons pour cela des données multi-omiques (RNA-seq, ChIP-seq, métabolomiques) issues de populations neuronales spécifiques. Nous modélisons ensuite la régulation des gènes sous forme de graphes d'interactions protéine-protéine, analysés à l'aide d'approches développées au sein de l'équipe [1,4,5]. Cette expertise a déjà permis d'identifier de nouvelles cibles thérapeutiques pour la MH [1].
Les défis actuels exigent des méthodes capables d'intégrer de nombreux graphes hétérogènes (temps, mutations, types cellulaires). Découvrir de nouvelles cibles suppose de détecter de petits ensembles de gènes précocement dérégulés associés à des fonctions spécifiques. Il faut donc un algorithme apprenant sur des graphes attribués, combinant structure et variations d'expression selon les conditions biologiques.
Dans ce projet, les graphes sont obtenus en lissant le signal de dérégulation sur un graphe de connais-sance a priori [5]. Pour analyser ces graphes représentant diverses conditions biologiques, l'équipe Brain-C développe une approche de Graph Dictionary Learning (GDL) fondée sur le Fused Unbalan-ced Gromov-Wasserstein (FUGW) [6,7,8,9,10], permettant de décomposer un graphe complexe en une combinaison d'atomes tout en préservant l'information essentielle. L'intégration d'une diver-gence issue du TO dans l'apprentissage crée un lien explicite entre le graphe d'origine et sa version réduite via un plan de transport reliant gènes réels et « pseudo-gènes » (PG), rendant le réseau réduit interprétable et facilitant les analyses.
Les comparaisons réalisées entre souris vieillissantes et modèles murins de MH ou de SLA ont mis en évidence des gènes/modules impliqués dans ces pathologies. L'étape suivante consiste à tester la ro-bustesse et la pertinence de ces cibles chez l'humain. L'usage de la divergence de Gromov-Wasserstein permet de comparer des graphes de dérégulation sans être limité par l'orthologie. L'objectif principal de la thèse sera d'adapter les algorithmes existants pour (i) comparer les réseaux dérégulés des modèles murins et des neurones dérivés d'iPSC avec ceux obtenus à partir d'échantillons post-mortem de patients, et (ii) identifier des cibles thérapeutiques pertinentes. La possibilité de tester expérimentalement les cibles identifiées offre un fort potentiel de publications et de valorisation. Par ailleurs, l'exploitation du TO pour comparer des réseaux de dérégulation entre espèces constitue une avancée méthodologique majeure en physiopathologie des MD.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
This thesis aims at identifying mechanisms common to several neurodegenerative diseases (NDs) and on studying the convergences/divergences between their model organisms (mice, iPSCs, etc.). These questions will be addressed using machine learning methods that seek a parsimonious representation of the data, based on optimal transport (OT).
Our team is conducting projects aimed at deciphering the mechanisms of neuronal compensation in NDs such as Huntington's disease (HD) and amyotrophic lateral sclerosis (ALS) [1,2,3]. To this end, we utilize multi-omics data (RNA-seq, ChIP-seq, metabolomics) from specific neuronal populations. We then model gene regulation as protein-protein interaction graphs, analyzed using approaches developed within the team [1,4,5]. This expertise has already led to the identification of new therapeutic targets for HD [1].
Current challenges demand methods capable of integrating numerous heterogeneous graphs (time, mutations, cell types). Discovering new targets requires detecting small sets of early deregulated genes associated with specific functions. Therefore, an algorithm that learns on assigned graphs is needed, combining structure and expression variations according to biological conditions.
In this project, the graphs are obtained by smoothing the deregulation signal onto a priori knowledge graph [5]. To analyze these graphs representing diverse biological conditions, the Brain-C team is developing a Graph Dictionary Learning (GDL) approach based on Fused Unbalanced Gromov-Wasserstein (FUGW) [6,7,8,9,10], which allows for the decomposition of a complex graph into a combination of atoms while preserving essential information. Integrating a divergence from the orthology into the learning process creates an explicit link between the original graph and its reduced version via a transport plane connecting real genes and pseudogenes (PGs), making the reduced network interpretable and facilitating analysis.
Comparisons between aging mice and murine models of Huntington's disease (HD) or ALS have highlighted genes/modules involved in these pathologies. The next step is to test the robustness and relevance of these targets in humans. The use of Gromov-Wasserstein divergence allows for the comparison of deregulation graphs without being limited by orthology. The main objective of this thesis will be to adapt existing algorithms to (i) compare the deregulated networks of murine models and neurons derived from iPSCs with those obtained from post-mortem patient samples, and (ii) identify relevant therapeutic targets. The possibility of experimentally testing the identified targets offers strong potential for publications and research applications. Furthermore, the use of the TO to compare dysregulation networks between species represents a major methodological advance in the pathophysiology of diseases.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Notre équipe mène des projets visant à décrypter les mécanismes de compensation neuronale au cours de MD telles que la maladie de Huntington (MH) et la sclérose latérale amyotrophique (SLA) [1,2,3]. Nous exploitons pour cela des données multi-omiques (RNA-seq, ChIP-seq, métabolomiques) issues de populations neuronales spécifiques. Nous modélisons ensuite la régulation des gènes sous forme de graphes d'interactions protéine-protéine, analysés à l'aide d'approches développées au sein de l'équipe [1,4,5]. Cette expertise a déjà permis d'identifier de nouvelles cibles thérapeutiques pour la MH [1].
Les défis actuels exigent des méthodes capables d'intégrer de nombreux graphes hétérogènes (temps, mutations, types cellulaires). Découvrir de nouvelles cibles suppose de détecter de petits ensembles de gènes précocement dérégulés associés à des fonctions spécifiques. Il faut donc un algorithme apprenant sur des graphes attribués, combinant structure et variations d'expression selon les conditions biologiques.
Dans ce projet, les graphes sont obtenus en lissant le signal de dérégulation sur un graphe de connais-sance a priori [5]. Pour analyser ces graphes représentant diverses conditions biologiques, l'équipe Brain-C développe une approche de Graph Dictionary Learning (GDL) fondée sur le Fused Unbalan-ced Gromov-Wasserstein (FUGW) [6,7,8,9,10], permettant de décomposer un graphe complexe en une combinaison d'atomes tout en préservant l'information essentielle. L'intégration d'une diver-gence issue du TO dans l'apprentissage crée un lien explicite entre le graphe d'origine et sa version réduite via un plan de transport reliant gènes réels et « pseudo-gènes » (PG), rendant le réseau réduit interprétable et facilitant les analyses.
Les comparaisons réalisées entre souris vieillissantes et modèles murins de MH ou de SLA ont mis en évidence des gènes/modules impliqués dans ces pathologies. L'étape suivante consiste à tester la ro-bustesse et la pertinence de ces cibles chez l'humain. L'usage de la divergence de Gromov-Wasserstein permet de comparer des graphes de dérégulation sans être limité par l'orthologie. L'objectif principal de la thèse sera d'adapter les algorithmes existants pour (i) comparer les réseaux dérégulés des modèles murins et des neurones dérivés d'iPSC avec ceux obtenus à partir d'échantillons post-mortem de patients, et (ii) identifier des cibles thérapeutiques pertinentes. La possibilité de tester expérimentalement les cibles identifiées offre un fort potentiel de publications et de valorisation. Par ailleurs, l'exploitation du TO pour comparer des réseaux de dérégulation entre espèces constitue une avancée méthodologique majeure en physiopathologie des MD.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
This thesis aims at identifying mechanisms common to several neurodegenerative diseases (NDs) and on studying the convergences/divergences between their model organisms (mice, iPSCs, etc.). These questions will be addressed using machine learning methods that seek a parsimonious representation of the data, based on optimal transport (OT).
Our team is conducting projects aimed at deciphering the mechanisms of neuronal compensation in NDs such as Huntington's disease (HD) and amyotrophic lateral sclerosis (ALS) [1,2,3]. To this end, we utilize multi-omics data (RNA-seq, ChIP-seq, metabolomics) from specific neuronal populations. We then model gene regulation as protein-protein interaction graphs, analyzed using approaches developed within the team [1,4,5]. This expertise has already led to the identification of new therapeutic targets for HD [1].
Current challenges demand methods capable of integrating numerous heterogeneous graphs (time, mutations, cell types). Discovering new targets requires detecting small sets of early deregulated genes associated with specific functions. Therefore, an algorithm that learns on assigned graphs is needed, combining structure and expression variations according to biological conditions.
In this project, the graphs are obtained by smoothing the deregulation signal onto a priori knowledge graph [5]. To analyze these graphs representing diverse biological conditions, the Brain-C team is developing a Graph Dictionary Learning (GDL) approach based on Fused Unbalanced Gromov-Wasserstein (FUGW) [6,7,8,9,10], which allows for the decomposition of a complex graph into a combination of atoms while preserving essential information. Integrating a divergence from the orthology into the learning process creates an explicit link between the original graph and its reduced version via a transport plane connecting real genes and pseudogenes (PGs), making the reduced network interpretable and facilitating analysis.
Comparisons between aging mice and murine models of Huntington's disease (HD) or ALS have highlighted genes/modules involved in these pathologies. The next step is to test the robustness and relevance of these targets in humans. The use of Gromov-Wasserstein divergence allows for the comparison of deregulation graphs without being limited by orthology. The main objective of this thesis will be to adapt existing algorithms to (i) compare the deregulated networks of murine models and neurons derived from iPSCs with those obtained from post-mortem patient samples, and (ii) identify relevant therapeutic targets. The possibility of experimentally testing the identified targets offers strong potential for publications and research applications. Furthermore, the use of the TO to compare dysregulation networks between species represents a major methodological advance in the pathophysiology of diseases.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Nature du financement
Contrat doctoral
Précisions sur le financement
Concours pour un contrat doctoral
Présentation établissement et labo d'accueil
Sorbonne Université SIS (Sciences, Ingénierie, Santé)
Etablissement délivrant le doctorat
Sorbonne Université SIS (Sciences, Ingénierie, Santé)
Ecole doctorale
158 Cerveau, cognition, comportement
Profil du candidat
Master de Mathématique ou d'Informatique ou Élève des Grandes Écoles d'ingénieur avec une forte appétence pour l'IA, la biologie et la recherche translationnelle.
Bonne maîtrise de python ou d'au moins un langage de programmation.
Master's degree in Mathematics or Computer Science, or student at a top engineering school with a strong interest in AI, biology, and translational research. Proficiency in Python or at least one other programming language is required.
Master's degree in Mathematics or Computer Science, or student at a top engineering school with a strong interest in AI, biology, and translational research. Proficiency in Python or at least one other programming language is required.
01/06/2026
Postuler
Fermer
Vous avez déjà un compte ?
Nouvel utilisateur ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
ONERA - The French Aerospace Lab
Tecknowmetrix
Ifremer
ADEME
Medicen Paris Region
Institut Sup'biotech de Paris
Laboratoire National de Métrologie et d'Essais - LNE
Groupe AFNOR - Association française de normalisation
Nokia Bell Labs France
SUEZ
Généthon
ANRT
Servier
Aérocentre, Pôle d'excellence régional
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
Nantes Université
TotalEnergies

