Où docteurs et entreprises se rencontrent
Menu
Connexion

Un modèle de machine learning universel pour la régulation génomique // A universal Machine-Learning model for regulatory genomics

ABG-138191
ADUM-73911
Sujet de Thèse
12/04/2026 Contrat doctoral
Université de Montpellier
Montpellier cedex 5 - Occitanie - France
Un modèle de machine learning universel pour la régulation génomique // A universal Machine-Learning model for regulatory genomics
  • Informatique
Machine Learning, CNN, ADN, Régulation transcriptomique
Machine Learning, CNN, DNA, Transcriptomic regulation

Description du sujet

Contrairement au code amino-acide des protéines, connu depuis
plusieurs décennies, le code cis-régulateur du génome, c'est-à-dire le
code génomique qui régule l'expression génique parmi la grande
diversité des types de cellules et des conditions, reste largement
inconnu. Ces dernières années, plusieurs approches d'apprentissage
automatique ont été proposées à cette fin. Ces modèles prennent en
entrée une séquence d'ADN et sont entraînés à prédire un signal lié à
l'expression. Outre leur pouvoir prédictif, ces modèles peuvent aider
à déchiffrer le code génomique. Le raisonnement est qu'un modèle
précis a probablement capturé les règles de régulation, c'est-à-dire
les motifs et les combinaisons de motifs dont la présence sur la
séquence régulent le signal étudié. Lorsque c'est le cas, une
procédure de rétro-ingénierie est alors appliquée pour extraire ces
règles du modèle.

Les réseaux neuronaux convolutifs (CNN) ont été largement utilisés
pour ce problème. Cependant, les modèles CNN actuels sont confrontés à
deux problèmes majeurs : 1/ Un modèle entraîné pour prédire un signal
dans une condition spécifique ne peut pas être utilisé dans une
condition différente, c'est-à-dire que le modèle ne peut pas être
utilisé pour prédire le signal dans des conditions inconnues. 2/
Aucune mesure d'importance n'est associée aux motifs identifiés lors
de la procédure de rétro-ingénierie. Dans ce thèse, nous proposons
de développer une nouvelle architecture CNN et un nouveau schéma
d'apprentissage qui répondent à ces deux limitations.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Contrary to the amino-acid code of proteins that has been known for several decades, the cis-regulatory code of the genome, i.e. the genomic code that regulate gene expression among the wide diversity of cell types and conditions remains largely unknown. In recent years, several machine-learning approaches have been proposed for this purpose. These models take a DNA sequence in input and are trained to predict a signal related to gene expression. Besides their predictive power, these models can help decipher the genomic code. The rational is that an accurate model has probably captured the regulatory rules, i.e. the motifs and motif-combinations whose presence on the sequence regulates the signal under study. When this is the case, a reverse-engineering procedure is then apply to extract these rules from the model.

Convolutional neural networks (CNNs) have been widely used for this problem. However current CNN models face two major issues: 1/ A model trained to predict a signal on a specific condition cannot be used on a different condition, i.e. the model cannot be used to predict the signal on unseen conditions. 2/ No importance measure is associated with the motifs identified during the reverse-engineering procedure. In this thesis project, we propose to develop a new CNN architecture and a new learning scheme that address these two limitations.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2026

Nature du financement

Contrat doctoral

Précisions sur le financement

Concours pour un contrat doctoral

Présentation établissement et labo d'accueil

Université de Montpellier

Etablissement délivrant le doctorat

Université de Montpellier

Ecole doctorale

166 I2S - Information, Structures, Systèmes

Profil du candidat

Master informatique/statistique spécialisé en machine learning Bon niveau en statistique et en programmation Python Des connaissances en génomiques
Master's degree in Computer Science/Statistics, specialized in Machine Learning Strong proficiency in statistics and Python programming Knowledge of genomics
04/05/2026
Partager via
Postuler
Fermer

Vous avez déjà un compte ?

Nouvel utilisateur ?