I am*	↓ ↓
E-mail*	↓ ↓

Back to search results

Un modèle de machine learning universel pour la régulation génomique // A universal Machine-Learning model for regulatory genomics

Ref. ABG-138191 ADUM-73911	Thesis topic
2026-04-12		Public funding alone (i.e. government, region, European, international organization research grant)

Université de Montpellier

Workplace

Montpellier cedex 5 - Occitanie - France

Topic title

Un modèle de machine learning universel pour la régulation génomique // A universal Machine-Learning model for regulatory genomics

Scientific expertise

Computer science

Keywords

Machine Learning, CNN, ADN, Régulation transcriptomique
Machine Learning, CNN, DNA, Transcriptomic regulation

Topic description

Contrairement au code amino-acide des protéines, connu depuis
plusieurs décennies, le code cis-régulateur du génome, c'est-à-dire le
code génomique qui régule l'expression génique parmi la grande
diversité des types de cellules et des conditions, reste largement
inconnu. Ces dernières années, plusieurs approches d'apprentissage
automatique ont été proposées à cette fin. Ces modèles prennent en
entrée une séquence d'ADN et sont entraînés à prédire un signal lié à
l'expression. Outre leur pouvoir prédictif, ces modèles peuvent aider
à déchiffrer le code génomique. Le raisonnement est qu'un modèle
précis a probablement capturé les règles de régulation, c'est-à-dire
les motifs et les combinaisons de motifs dont la présence sur la
séquence régulent le signal étudié. Lorsque c'est le cas, une
procédure de rétro-ingénierie est alors appliquée pour extraire ces
règles du modèle.

Les réseaux neuronaux convolutifs (CNN) ont été largement utilisés
pour ce problème. Cependant, les modèles CNN actuels sont confrontés à
deux problèmes majeurs : 1/ Un modèle entraîné pour prédire un signal
dans une condition spécifique ne peut pas être utilisé dans une
condition différente, c'est-à-dire que le modèle ne peut pas être
utilisé pour prédire le signal dans des conditions inconnues. 2/
Aucune mesure d'importance n'est associée aux motifs identifiés lors
de la procédure de rétro-ingénierie. Dans ce thèse, nous proposons
de développer une nouvelle architecture CNN et un nouveau schéma
d'apprentissage qui répondent à ces deux limitations.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Contrary to the amino-acid code of proteins that has been known for several decades, the cis-regulatory code of the genome, i.e. the genomic code that regulate gene expression among the wide diversity of cell types and conditions remains largely unknown. In recent years, several machine-learning approaches have been proposed for this purpose. These models take a DNA sequence in input and are trained to predict a signal related to gene expression. Besides their predictive power, these models can help decipher the genomic code. The rational is that an accurate model has probably captured the regulatory rules, i.e. the motifs and motif-combinations whose presence on the sequence regulates the signal under study. When this is the case, a reverse-engineering procedure is then apply to extract these rules from the model.

Convolutional neural networks (CNNs) have been widely used for this problem. However current CNN models face two major issues: 1/ A model trained to predict a signal on a specific condition cannot be used on a different condition, i.e. the model cannot be used to predict the signal on unseen conditions. 2/ No importance measure is associated with the motifs identified during the reverse-engineering procedure. In this thesis project, we propose to develop a new CNN architecture and a new learning scheme that address these two limitations.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2026

Funding category

Public funding alone (i.e. government, region, European, international organization research grant)

Funding further details

Concours pour un contrat doctoral

Presentation of host institution and host laboratory

Université de Montpellier

Institution awarding doctoral degree

Université de Montpellier

Graduate school

166 I2S - Information, Structures, Systèmes

Candidate's profile

Master informatique/statistique spécialisé en machine learning Bon niveau en statistique et en programmation Python Des connaissances en génomiques
Master's degree in Computer Science/Statistics, specialized in Machine Learning Strong proficiency in statistics and Python programming Knowledge of genomics

Application deadline

2026-05-04

Partager via

Apply

Vous avez déjà un compte ?

Nouvel utilisateur ?

Mr/Mrs*	↓ ↓
First name*	↓ ↓
Last name*	↓ ↓
E-mail*	↓ ↓
Confirm your e-mail*	↓ ↓
Password*	8 characters minimum, including at least one figure, one lower case letter and one uppercase letter. ↓ ↓
Please confirm password*	↓ ↓