Annoter la diversité des protéoformes d'épissage à travers l'arbre de la vie // Scaling Splicing Diversity Annotation Across the Tree of Life
|
ABG-138161
ADUM-73132 |
Thesis topic | |
| 2026-04-11 | Public funding alone (i.e. government, region, European, international organization research grant) |
Sorbonne Université SIS (Sciences, Ingénierie, Santé)
Paris - Ile-de-France - France
Annoter la diversité des protéoformes d'épissage à travers l'arbre de la vie // Scaling Splicing Diversity Annotation Across the Tree of Life
- Computer science
protéines, épissage alternatif, apprentissage profond, séquençage RNA, algorithmes pour les séquences biologiques
protein, alternative splicing, deep learning, RNA-Seq , algorithms for biological sequences
protein, alternative splicing, deep learning, RNA-Seq , algorithms for biological sequences
Topic description
L'épissage alternatif est un mécanisme fondamental par lequel un même gène peut produire plusieurs ARNm et protéines aux fonctions distinctes. Ce processus contribue à la diversité du protéome et joue un rôle central dans l'évolution des phénotypes complexes. Pourtant, notre connaissance de la diversité des événements d'épissage alternatif reste largement limitée aux espèces modèles disposant d'annotations transcriptomiques riches, laissant la grande majorité du vivant dans l'ombre.
Cette thèse vise à combler ce manque en développant un cadre intégratif pour l'annotation de l'épissage alternatif à l'échelle de centaines à milliers d'espèces. L'objectif scientifique central est de cartographier la diversité des événements d'épissage à travers l'évolution (principalement les vertébrés), afin de reconstruire des scénarios évolutifs de diversification des protéoformes et d'explorer comment la régulation de l'épissage sous-tend des phénotypes remarquables — innovations morphologiques, adaptations physiologiques extrêmes, évolution de traits cognitifs complexes. Le projet s'appuie sur un prototype existant pour la construction de Graphes d'Épissage Évolutifs (ESGs) à partir de données RNA-seq, et se développe en quatre axes complémentaires.
- Le premier axe consiste à construire et quantifier des ESGs à partir de données RNA-seq et d'annotations génomiques pour un ensemble phylogénétiquement diversifié d'espèces. Ces graphes constituent une représentation structurée des événements d'épissage supportés expérimentalement, annotés avec des estimations d'expression tissu-spécifiques, et forment la référence empirique du projet.
- Le deuxième axe étend cette ressource aux espèces dépourvues de données expérimentales, par transfert d'annotations via des stratégies d'alignement génomique. Les événements d'épissage et isoformes connus dans les espèces de référence sont projetés sur les génomes cibles, avec transfert des estimations d'expression associées. Cette approche est robuste entre espèces phylogénétiquement proches, et fournit un signal informatif à des distances évolutives plus grandes.
- Le troisième axe intègre des prédicteurs par apprentissage profond de la force des sites d'épissage et de l'utilisation des jonctions. Les ESGs dérivés du RNA-seq servent de vérité terrain pour évaluer ces modèles. Plutôt qu'un réentraînement complet, une stratégie de calibration sera développée, utilisant les données RNA-seq d'espèces phylogénétiquement distribuées comme points d'ancrage empiriques pour corriger la dérive des prédictions en fonction de la distance évolutive. Les prédictions améliorées servent ensuite à raffiner les annotations dans les nouvelles espèces, selon une logique itérative.
- Le quatrième axe projette l'ensemble des annotations sur une phylogénie de référence pour reconstruire l'histoire évolutive des événements d'épissage — gains, pertes, transitions d'isoformes le long des branches. Des méthodes comparatives permettront d'identifier des événements d'épissage en évolution convergente ou divergente, associés à des traits phénotypiques ou des adaptations écologiques particulières.
Cette perspective macroévolutive sera complétée par une interprétation moléculaire, en examinant les séquences génomiques aux sites d'épissage pour identifier des mutations régulatrices, l'évolution des éléments régulateurs d'épissage, ou des signatures de sélection associées à des transitions évolutives clés. Des études de cas porteront sur des questions biologiques d'intérêt : la diversification des protéoformes associée à la perte de membres, les adaptations extrêmes du rat-taupe nu, ou l'évolution de l'apprentissage vocal.
Les livrables attendus sont un pipeline bioinformatique open source, une base de données phylogénétique des événements d'épissage annotés à l'échelle du vivant, et des publications dans des revues internationales de biologie, bioinformatique et biologie computationnelle.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Alternative splicing is a fundamental mechanism by which a single gene can produce multiple mRNAs and proteins with distinct functions. This process contributes to proteome diversity and plays a central role in the evolution of complex phenotypes. However, our understanding of the diversity of alternative splicing events remains largely limited to model species with rich transcriptomic annotations, leaving the vast majority of living organisms in the dark.
This thesis aims to address this gap by developing an integrative framework for annotating alternative splicing across hundreds to thousands of species. The central scientific objective is to map the diversity of splicing events across evolution (primarily in vertebrates), in order to reconstruct evolutionary scenarios of proteoform diversification and to explore how splicing regulation underlies remarkable phenotypes—morphological innovations, extreme physiological adaptations, and the evolution of complex cognitive traits. The project builds on an existing prototype for constructing Evolutionary Splicing Graphs (ESGs) from RNA-seq data and is organized into four complementary research tracks.
- The first research focus involves constructing and quantifying splicing event graphs (ESGs) from RNA-seq data and genomic annotations for a phylogenetically diverse set of species. These graphs provide a structured representation of experimentally supported splicing events, annotated with tissue-specific expression estimates, and serve as the project's empirical reference.
- The second approach extends this resource to species lacking experimental data by transferring annotations via genomic alignment strategies. Splicing events and isoforms known in reference species are projected onto target genomes, along with the associated expression estimates. This approach is robust among phylogenetically closely related species and provides an informative signal at greater evolutionary distances.
- The third approach integrates deep learning predictors of splice site strength and junction usage. ESGs derived from RNA-seq serve as ground truth to evaluate these models. Rather than a complete retraining, a calibration strategy will be developed, using RNA-seq data from phylogenetically distributed species as empirical anchor points to correct prediction drift based on evolutionary distance. The improved predictions are then used to refine annotations in new species, following an iterative process.
- The fourth research focus maps all annotations onto a reference phylogeny to reconstruct the evolutionary history of splicing events—gains, losses, and isoform transitions—along the branches. Comparative methods will be used to identify splicing events involving convergent or divergent evolution, associated with specific phenotypic traits or ecological adaptations.
This macroevolutionary perspective will be complemented by a molecular interpretation, examining genomic sequences at splicing sites to identify regulatory mutations, the evolution of splicing regulatory elements, or signatures of selection associated with key evolutionary transitions. Case studies will address biological questions of interest: the diversification of proteoforms associated with limb loss, the extreme adaptations of the naked mole-rat, or the evolution of vocal learning.
Expected deliverables include an open-source bioinformatics pipeline, a phylogenetic database of annotated splicing events across the tree of life, and publications in international journals of biology, bioinformatics, and computational biology.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Cette thèse vise à combler ce manque en développant un cadre intégratif pour l'annotation de l'épissage alternatif à l'échelle de centaines à milliers d'espèces. L'objectif scientifique central est de cartographier la diversité des événements d'épissage à travers l'évolution (principalement les vertébrés), afin de reconstruire des scénarios évolutifs de diversification des protéoformes et d'explorer comment la régulation de l'épissage sous-tend des phénotypes remarquables — innovations morphologiques, adaptations physiologiques extrêmes, évolution de traits cognitifs complexes. Le projet s'appuie sur un prototype existant pour la construction de Graphes d'Épissage Évolutifs (ESGs) à partir de données RNA-seq, et se développe en quatre axes complémentaires.
- Le premier axe consiste à construire et quantifier des ESGs à partir de données RNA-seq et d'annotations génomiques pour un ensemble phylogénétiquement diversifié d'espèces. Ces graphes constituent une représentation structurée des événements d'épissage supportés expérimentalement, annotés avec des estimations d'expression tissu-spécifiques, et forment la référence empirique du projet.
- Le deuxième axe étend cette ressource aux espèces dépourvues de données expérimentales, par transfert d'annotations via des stratégies d'alignement génomique. Les événements d'épissage et isoformes connus dans les espèces de référence sont projetés sur les génomes cibles, avec transfert des estimations d'expression associées. Cette approche est robuste entre espèces phylogénétiquement proches, et fournit un signal informatif à des distances évolutives plus grandes.
- Le troisième axe intègre des prédicteurs par apprentissage profond de la force des sites d'épissage et de l'utilisation des jonctions. Les ESGs dérivés du RNA-seq servent de vérité terrain pour évaluer ces modèles. Plutôt qu'un réentraînement complet, une stratégie de calibration sera développée, utilisant les données RNA-seq d'espèces phylogénétiquement distribuées comme points d'ancrage empiriques pour corriger la dérive des prédictions en fonction de la distance évolutive. Les prédictions améliorées servent ensuite à raffiner les annotations dans les nouvelles espèces, selon une logique itérative.
- Le quatrième axe projette l'ensemble des annotations sur une phylogénie de référence pour reconstruire l'histoire évolutive des événements d'épissage — gains, pertes, transitions d'isoformes le long des branches. Des méthodes comparatives permettront d'identifier des événements d'épissage en évolution convergente ou divergente, associés à des traits phénotypiques ou des adaptations écologiques particulières.
Cette perspective macroévolutive sera complétée par une interprétation moléculaire, en examinant les séquences génomiques aux sites d'épissage pour identifier des mutations régulatrices, l'évolution des éléments régulateurs d'épissage, ou des signatures de sélection associées à des transitions évolutives clés. Des études de cas porteront sur des questions biologiques d'intérêt : la diversification des protéoformes associée à la perte de membres, les adaptations extrêmes du rat-taupe nu, ou l'évolution de l'apprentissage vocal.
Les livrables attendus sont un pipeline bioinformatique open source, une base de données phylogénétique des événements d'épissage annotés à l'échelle du vivant, et des publications dans des revues internationales de biologie, bioinformatique et biologie computationnelle.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Alternative splicing is a fundamental mechanism by which a single gene can produce multiple mRNAs and proteins with distinct functions. This process contributes to proteome diversity and plays a central role in the evolution of complex phenotypes. However, our understanding of the diversity of alternative splicing events remains largely limited to model species with rich transcriptomic annotations, leaving the vast majority of living organisms in the dark.
This thesis aims to address this gap by developing an integrative framework for annotating alternative splicing across hundreds to thousands of species. The central scientific objective is to map the diversity of splicing events across evolution (primarily in vertebrates), in order to reconstruct evolutionary scenarios of proteoform diversification and to explore how splicing regulation underlies remarkable phenotypes—morphological innovations, extreme physiological adaptations, and the evolution of complex cognitive traits. The project builds on an existing prototype for constructing Evolutionary Splicing Graphs (ESGs) from RNA-seq data and is organized into four complementary research tracks.
- The first research focus involves constructing and quantifying splicing event graphs (ESGs) from RNA-seq data and genomic annotations for a phylogenetically diverse set of species. These graphs provide a structured representation of experimentally supported splicing events, annotated with tissue-specific expression estimates, and serve as the project's empirical reference.
- The second approach extends this resource to species lacking experimental data by transferring annotations via genomic alignment strategies. Splicing events and isoforms known in reference species are projected onto target genomes, along with the associated expression estimates. This approach is robust among phylogenetically closely related species and provides an informative signal at greater evolutionary distances.
- The third approach integrates deep learning predictors of splice site strength and junction usage. ESGs derived from RNA-seq serve as ground truth to evaluate these models. Rather than a complete retraining, a calibration strategy will be developed, using RNA-seq data from phylogenetically distributed species as empirical anchor points to correct prediction drift based on evolutionary distance. The improved predictions are then used to refine annotations in new species, following an iterative process.
- The fourth research focus maps all annotations onto a reference phylogeny to reconstruct the evolutionary history of splicing events—gains, losses, and isoform transitions—along the branches. Comparative methods will be used to identify splicing events involving convergent or divergent evolution, associated with specific phenotypic traits or ecological adaptations.
This macroevolutionary perspective will be complemented by a molecular interpretation, examining genomic sequences at splicing sites to identify regulatory mutations, the evolution of splicing regulatory elements, or signatures of selection associated with key evolutionary transitions. Case studies will address biological questions of interest: the diversification of proteoforms associated with limb loss, the extreme adaptations of the naked mole-rat, or the evolution of vocal learning.
Expected deliverables include an open-source bioinformatics pipeline, a phylogenetic database of annotated splicing events across the tree of life, and publications in international journals of biology, bioinformatics, and computational biology.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Funding category
Public funding alone (i.e. government, region, European, international organization research grant)
Funding further details
Concours pour un contrat doctoral
Presentation of host institution and host laboratory
Sorbonne Université SIS (Sciences, Ingénierie, Santé)
Institution awarding doctoral degree
Sorbonne Université SIS (Sciences, Ingénierie, Santé)
Graduate school
130 Ecole Doctorale d'Informatique, Télécommunications et Electronique
Candidate's profile
Nous recherchons un scientifique enthousiaste et très motivé, doté de solides compétences en programmation et agorithmique, de connaissances en biologie et des données produites par les techniques de séquençage à haut débit, et des concepts et techniques clés en apprentissage machine et profond.
Savoir-faire :
- Maîtrise d'un langage de programmation (Python, C, R)
- Expérience préalable avec un cluster de calcul
- Maîtrise de l'analyse de données à large échelle
- Formaliser des problèmes complexes et ouverts
- Entraîner des modèles d'apprentissage automatique
- Savoir manipuler des séquences (et optionellemment structures) de protéines
Savoir-être :
- Capacité et goût pour l'interaction avec des personnes d'horizons différents.
- Excellentes capacités de communication orale et écrite en anglais
- Organisation et rigueur
- Sens du service public
We are looking for an enthusiastic and highly motivated scientist with strong programming and algorithmic skills, knowledge of biology and data generated by high-throughput sequencing techniques, and an understanding of key concepts and techniques in machine learning and deep learning. Skills: - Proficiency in a programming language (Python, C, R) - Previous experience with a computing cluster - Proficiency in large-scale data analysis - Ability to formalize complex and open-ended problems - Ability to train machine learning models - Ability to manipulate protein sequences (and optionally structures) Soft Skills: - Ability and willingness to interact with people from diverse backgrounds - Excellent oral and written communication skills in English - Organization and attention to detail - Commitment to public service
We are looking for an enthusiastic and highly motivated scientist with strong programming and algorithmic skills, knowledge of biology and data generated by high-throughput sequencing techniques, and an understanding of key concepts and techniques in machine learning and deep learning. Skills: - Proficiency in a programming language (Python, C, R) - Previous experience with a computing cluster - Proficiency in large-scale data analysis - Ability to formalize complex and open-ended problems - Ability to train machine learning models - Ability to manipulate protein sequences (and optionally structures) Soft Skills: - Ability and willingness to interact with people from diverse backgrounds - Excellent oral and written communication skills in English - Organization and attention to detail - Commitment to public service
2026-05-01
Apply
Close
Vous avez déjà un compte ?
Nouvel utilisateur ?
Get ABG’s monthly newsletters including news, job offers, grants & fellowships and a selection of relevant events…
Discover our members
Tecknowmetrix
Medicen Paris Region
SUEZ
Ifremer
Servier
Groupe AFNOR - Association française de normalisation
ADEME
Généthon
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
ONERA - The French Aerospace Lab
Laboratoire National de Métrologie et d'Essais - LNE
Nokia Bell Labs France
Institut Sup'biotech de Paris
Aérocentre, Pôle d'excellence régional
Nantes Université
TotalEnergies
ANRT
