Un modèle de machine learning universel pour la régulation génomique // A universal Machine-Learning model for regulatory genomics
|
ABG-138191
ADUM-73911 |
Thesis topic | |
| 2026-04-12 | Public funding alone (i.e. government, region, European, international organization research grant) |
Université de Montpellier
Montpellier cedex 5 - Occitanie - France
Un modèle de machine learning universel pour la régulation génomique // A universal Machine-Learning model for regulatory genomics
- Computer science
Machine Learning, CNN, ADN, Régulation transcriptomique
Machine Learning, CNN, DNA, Transcriptomic regulation
Machine Learning, CNN, DNA, Transcriptomic regulation
Topic description
Contrairement au code amino-acide des protéines, connu depuis
plusieurs décennies, le code cis-régulateur du génome, c'est-à-dire le
code génomique qui régule l'expression génique parmi la grande
diversité des types de cellules et des conditions, reste largement
inconnu. Ces dernières années, plusieurs approches d'apprentissage
automatique ont été proposées à cette fin. Ces modèles prennent en
entrée une séquence d'ADN et sont entraînés à prédire un signal lié à
l'expression. Outre leur pouvoir prédictif, ces modèles peuvent aider
à déchiffrer le code génomique. Le raisonnement est qu'un modèle
précis a probablement capturé les règles de régulation, c'est-à-dire
les motifs et les combinaisons de motifs dont la présence sur la
séquence régulent le signal étudié. Lorsque c'est le cas, une
procédure de rétro-ingénierie est alors appliquée pour extraire ces
règles du modèle.
Les réseaux neuronaux convolutifs (CNN) ont été largement utilisés
pour ce problème. Cependant, les modèles CNN actuels sont confrontés à
deux problèmes majeurs : 1/ Un modèle entraîné pour prédire un signal
dans une condition spécifique ne peut pas être utilisé dans une
condition différente, c'est-à-dire que le modèle ne peut pas être
utilisé pour prédire le signal dans des conditions inconnues. 2/
Aucune mesure d'importance n'est associée aux motifs identifiés lors
de la procédure de rétro-ingénierie. Dans ce thèse, nous proposons
de développer une nouvelle architecture CNN et un nouveau schéma
d'apprentissage qui répondent à ces deux limitations.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Contrary to the amino-acid code of proteins that has been known for several decades, the cis-regulatory code of the genome, i.e. the genomic code that regulate gene expression among the wide diversity of cell types and conditions remains largely unknown. In recent years, several machine-learning approaches have been proposed for this purpose. These models take a DNA sequence in input and are trained to predict a signal related to gene expression. Besides their predictive power, these models can help decipher the genomic code. The rational is that an accurate model has probably captured the regulatory rules, i.e. the motifs and motif-combinations whose presence on the sequence regulates the signal under study. When this is the case, a reverse-engineering procedure is then apply to extract these rules from the model.
Convolutional neural networks (CNNs) have been widely used for this problem. However current CNN models face two major issues: 1/ A model trained to predict a signal on a specific condition cannot be used on a different condition, i.e. the model cannot be used to predict the signal on unseen conditions. 2/ No importance measure is associated with the motifs identified during the reverse-engineering procedure. In this thesis project, we propose to develop a new CNN architecture and a new learning scheme that address these two limitations.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
plusieurs décennies, le code cis-régulateur du génome, c'est-à-dire le
code génomique qui régule l'expression génique parmi la grande
diversité des types de cellules et des conditions, reste largement
inconnu. Ces dernières années, plusieurs approches d'apprentissage
automatique ont été proposées à cette fin. Ces modèles prennent en
entrée une séquence d'ADN et sont entraînés à prédire un signal lié à
l'expression. Outre leur pouvoir prédictif, ces modèles peuvent aider
à déchiffrer le code génomique. Le raisonnement est qu'un modèle
précis a probablement capturé les règles de régulation, c'est-à-dire
les motifs et les combinaisons de motifs dont la présence sur la
séquence régulent le signal étudié. Lorsque c'est le cas, une
procédure de rétro-ingénierie est alors appliquée pour extraire ces
règles du modèle.
Les réseaux neuronaux convolutifs (CNN) ont été largement utilisés
pour ce problème. Cependant, les modèles CNN actuels sont confrontés à
deux problèmes majeurs : 1/ Un modèle entraîné pour prédire un signal
dans une condition spécifique ne peut pas être utilisé dans une
condition différente, c'est-à-dire que le modèle ne peut pas être
utilisé pour prédire le signal dans des conditions inconnues. 2/
Aucune mesure d'importance n'est associée aux motifs identifiés lors
de la procédure de rétro-ingénierie. Dans ce thèse, nous proposons
de développer une nouvelle architecture CNN et un nouveau schéma
d'apprentissage qui répondent à ces deux limitations.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Contrary to the amino-acid code of proteins that has been known for several decades, the cis-regulatory code of the genome, i.e. the genomic code that regulate gene expression among the wide diversity of cell types and conditions remains largely unknown. In recent years, several machine-learning approaches have been proposed for this purpose. These models take a DNA sequence in input and are trained to predict a signal related to gene expression. Besides their predictive power, these models can help decipher the genomic code. The rational is that an accurate model has probably captured the regulatory rules, i.e. the motifs and motif-combinations whose presence on the sequence regulates the signal under study. When this is the case, a reverse-engineering procedure is then apply to extract these rules from the model.
Convolutional neural networks (CNNs) have been widely used for this problem. However current CNN models face two major issues: 1/ A model trained to predict a signal on a specific condition cannot be used on a different condition, i.e. the model cannot be used to predict the signal on unseen conditions. 2/ No importance measure is associated with the motifs identified during the reverse-engineering procedure. In this thesis project, we propose to develop a new CNN architecture and a new learning scheme that address these two limitations.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Funding category
Public funding alone (i.e. government, region, European, international organization research grant)
Funding further details
Concours pour un contrat doctoral
Presentation of host institution and host laboratory
Université de Montpellier
Institution awarding doctoral degree
Université de Montpellier
Graduate school
166 I2S - Information, Structures, Systèmes
Candidate's profile
Master informatique/statistique spécialisé en machine learning
Bon niveau en statistique et en programmation Python
Des connaissances en génomiques
Master's degree in Computer Science/Statistics, specialized in Machine Learning Strong proficiency in statistics and Python programming Knowledge of genomics
Master's degree in Computer Science/Statistics, specialized in Machine Learning Strong proficiency in statistics and Python programming Knowledge of genomics
2026-05-04
Apply
Close
Vous avez déjà un compte ?
Nouvel utilisateur ?
Get ABG’s monthly newsletters including news, job offers, grants & fellowships and a selection of relevant events…
Discover our members
TotalEnergies
Groupe AFNOR - Association française de normalisation
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
SUEZ
ONERA - The French Aerospace Lab
ADEME
Medicen Paris Region
Aérocentre, Pôle d'excellence régional
Servier
Institut Sup'biotech de Paris
ANRT
Nokia Bell Labs France
Ifremer
Laboratoire National de Métrologie et d'Essais - LNE
Généthon
Nantes Université
Tecknowmetrix
