Vous êtes*	↓ ↓
E-mail*	↓ ↓

Retourner à la recherche

Un modèle de machine learning universel pour la régulation génomique // A universal Machine-Learning model for regulatory genomics

Réf ABG-138191 ADUM-73911	Sujet de Thèse
12/04/2026		Contrat doctoral

Université de Montpellier

Lieu de travail

Montpellier cedex 5 - Occitanie - France

Intitulé du sujet

Un modèle de machine learning universel pour la régulation génomique // A universal Machine-Learning model for regulatory genomics

Champs scientifiques

Informatique

Mots clés

Machine Learning, CNN, ADN, Régulation transcriptomique
Machine Learning, CNN, DNA, Transcriptomic regulation

Description du sujet

Contrairement au code amino-acide des protéines, connu depuis
plusieurs décennies, le code cis-régulateur du génome, c'est-à-dire le
code génomique qui régule l'expression génique parmi la grande
diversité des types de cellules et des conditions, reste largement
inconnu. Ces dernières années, plusieurs approches d'apprentissage
automatique ont été proposées à cette fin. Ces modèles prennent en
entrée une séquence d'ADN et sont entraînés à prédire un signal lié à
l'expression. Outre leur pouvoir prédictif, ces modèles peuvent aider
à déchiffrer le code génomique. Le raisonnement est qu'un modèle
précis a probablement capturé les règles de régulation, c'est-à-dire
les motifs et les combinaisons de motifs dont la présence sur la
séquence régulent le signal étudié. Lorsque c'est le cas, une
procédure de rétro-ingénierie est alors appliquée pour extraire ces
règles du modèle.

Les réseaux neuronaux convolutifs (CNN) ont été largement utilisés
pour ce problème. Cependant, les modèles CNN actuels sont confrontés à
deux problèmes majeurs : 1/ Un modèle entraîné pour prédire un signal
dans une condition spécifique ne peut pas être utilisé dans une
condition différente, c'est-à-dire que le modèle ne peut pas être
utilisé pour prédire le signal dans des conditions inconnues. 2/
Aucune mesure d'importance n'est associée aux motifs identifiés lors
de la procédure de rétro-ingénierie. Dans ce thèse, nous proposons
de développer une nouvelle architecture CNN et un nouveau schéma
d'apprentissage qui répondent à ces deux limitations.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Contrary to the amino-acid code of proteins that has been known for several decades, the cis-regulatory code of the genome, i.e. the genomic code that regulate gene expression among the wide diversity of cell types and conditions remains largely unknown. In recent years, several machine-learning approaches have been proposed for this purpose. These models take a DNA sequence in input and are trained to predict a signal related to gene expression. Besides their predictive power, these models can help decipher the genomic code. The rational is that an accurate model has probably captured the regulatory rules, i.e. the motifs and motif-combinations whose presence on the sequence regulates the signal under study. When this is the case, a reverse-engineering procedure is then apply to extract these rules from the model.

Convolutional neural networks (CNNs) have been widely used for this problem. However current CNN models face two major issues: 1/ A model trained to predict a signal on a specific condition cannot be used on a different condition, i.e. the model cannot be used to predict the signal on unseen conditions. 2/ No importance measure is associated with the motifs identified during the reverse-engineering procedure. In this thesis project, we propose to develop a new CNN architecture and a new learning scheme that address these two limitations.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2026

Nature du financement

Contrat doctoral

Précisions sur le financement

Concours pour un contrat doctoral

Présentation établissement et labo d'accueil

Université de Montpellier

Etablissement délivrant le doctorat

Université de Montpellier

Ecole doctorale

166 I2S - Information, Structures, Systèmes

Profil du candidat

Master informatique/statistique spécialisé en machine learning Bon niveau en statistique et en programmation Python Des connaissances en génomiques
Master's degree in Computer Science/Statistics, specialized in Machine Learning Strong proficiency in statistics and Python programming Knowledge of genomics

Date limite de candidature

04/05/2026

Partager via

Postuler

Fermer

Vous avez déjà un compte ?

Nouvel utilisateur ?

Un modèle de machine learning universel pour la régulation génomique // A universal Machine-Learning model for regulatory genomics

Description du sujet

Nature du financement

Précisions sur le financement

Présentation établissement et labo d'accueil

Etablissement délivrant le doctorat

Ecole doctorale

Profil du candidat

Vous avez déjà un compte ?

Nouvel utilisateur ?

Vous souhaitez recevoir nos infolettres ?

Découvrez nos adhérents

Civilité*	↓ ↓
Prénom*	↓ ↓
Nom*	↓ ↓
E-mail*	↓ ↓
Confirmez votre e-mail*	↓ ↓
Mot de passe*	8 caractères minimum, avec au moins un chiffre, une lettre minuscule et une lettre majuscule. ↓ ↓
Confirmez votre mot de passe*	↓ ↓