Grands modèles de langage pour l'ADN pour l'interprétation du génome // DNA large language models for end-to-end Genome Interpretation
|
ABG-135018
ADUM-68224 |
Sujet de Thèse | |
| 13/01/2026 |
Université de Montpellier
Montpellier cedex 5 - Occitanie - France
Grands modèles de langage pour l'ADN pour l'interprétation du génome // DNA large language models for end-to-end Genome Interpretation
- Informatique
interprétation du génome, bioinformatique, reseaux neuronales, apprentissage automatique
genome interpretation, bioinformatics, neural networks, machine learning, large language models, disease risk prediction
genome interpretation, bioinformatics, neural networks, machine learning, large language models, disease risk prediction
Description du sujet
Comprendre la relation entre génotype et phénotype constitue l'un des défis fondamentaux de la biologie. Modéliser cette relation de manière fiable révolutionnerait la génétique, la médecine et les biotechnologies, ouvrant la voie à une médecine véritablement personnalisée. Ce projet de thèse se situe à l'interface entre la génétique quantitative, la bioinformatique et l'intelligence artificielle moderne, en se concentrant sur l'application des modèles de langage de grande taille (LLMs) spécifiques à l'ADN pour l'interprétation du génome.
Les approches classiques d'interprétation du génome reposent sur des caractéristiques grossières au niveau des gènes, comme la charge mutationnelle par gène, ce qui entraîne une perte d'information au niveau nucléotidique. Les travaux antérieurs du Dr Raimondi et de ses collaborateurs ont montré que les réseaux de neurones peuvent apprendre des représentations compactes et informatives à partir des données de séquençage de l'exome ou du génome entier (WES/WGS), mais les contraintes de dimensionnalité ont imposé des simplifications importantes. Le présent projet vise à dépasser ces limites en développant des architectures opérant directement au niveau nucléotidique, intégrant des LLMs préentraînés sur l'ADN comme extracteurs de caractéristiques non supervisés dans des modèles prédictifs de bout en bout.
Ces LLMs, entraînés sur des génomes entiers à l'aide d'objectifs auto-supervisés, capturent des dépendances à longue portée et des motifs régulateurs dans les séquences d'ADN. En exploitant leurs représentations latentes, le projet vise à améliorer la prédiction des phénotypes à partir des génotypes bruts. Les modèles seront d'abord développés et testés sur Arabidopsis thaliana, un organisme modèle bien connu, puis étendus à des données humaines pour prédire le risque de maladies, notamment les maladies inflammatoires chroniques de l'intestin (MICI). Contrairement aux approches actuelles des LLMs appliqués à la génomique fonctionnelle (par exemple la prédiction des effets de variants), ce projet explore leur utilisation pour la prédiction génétique directe, de bout en bout — une application innovante dans le domaine de la génomique computationnelle.
Le ou la doctorant·e commencera par le prétraitement et la structuration des données WES/WGS de A. thaliana pour l'apprentissage automatique. Il ou elle étudiera les LLMs pour l'ADN existants, évaluera leurs performances représentationnelles et concevra de nouvelles architectures neuronales avec PyTorch. Le travail comportera à la fois des contributions méthodologiques et théoriques : amélioration de l'encodage du génotype, réduction du surapprentissage dans les données biologiques à très haute dimension, et analyse du transfert des représentations préentraînées entre organismes.
Les résultats attendus comprennent : (i) le développement de nouvelles architectures neuronales intégrant des LLMs ADN pour la prédiction de phénotypes; (ii) la création de jeux de données de référence et de pipelines reproductibles pour l'analyse WES/WGS basée sur les LLMs; (iii) la publication d'articles scientifiques et la présentation des résultats lors de conférences internationales; (iv) l'application des modèles développés à la prédiction du risque de maladies génétiques humaines.
En combinant apprentissage profond avancé et interprétation du génome, ce projet contribuera à l'émergence d'une génomique pilotée par l'IA, visant à construire des modèles généralisables, interprétables et biologiquement pertinents reliant génotype et phénotype.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Understanding the relationship between genotype and phenotype is one of biology's most fundamental challenges. Accurately modeling this relationship would revolutionize genetics, medicine, and biotechnology, enabling truly personalized medicine. This PhD project bridges quantitative genetics, bioinformatics, and modern Artificial Intelligence, focusing on the application of DNA-specific Large Language Models (LLMs) to genome interpretation.
Traditional approaches in genome interpretation rely on coarse, gene-level features such as mutation load per gene, which lose important nucleotide-level information. Previous work by Dr. Raimondi and collaborators has shown that neural networks can learn compact and informative embeddings from whole-exome or whole-genome sequencing (WES/WGS) data, but dimensionality constraints required simplifying assumptions. The present project overcomes this limitation by designing architectures that operate directly at the nucleotide level, integrating pre-trained DNA LLMs as unsupervised feature extractors within end-to-end predictive frameworks.
These LLMs, trained on entire genomes with self-supervised objectives, capture long-range dependencies and regulatory motifs within DNA sequences. By leveraging their latent representations, the project aims to improve phenotype prediction from raw genotype data. The models will first be developed and tested on Arabidopsis thaliana, a well-studied model organism, and later extended to human datasets to predict disease risk, with a focus on chronic inflammatory bowel diseases (IBD). Unlike most existing DNA-LLM applications that focus on functional genomics tasks (e.g., variant effect prediction), this research explores their use for direct, end-to-end genetic disease prediction—an innovative application in computational genomics.
The candidate will begin by preprocessing and structuring WES/WGS data from A. thaliana for neural-network training. They will explore existing DNA LLMs, benchmark their representational performance, and design novel neural architectures using PyTorch. The work includes both methodological and theoretical contributions: improving genotype encoding, reducing overfitting in ultra-high-dimensional biological data, and quantifying how pre-trained representations transfer across organisms.
Expected outcomes include: (i) Development of new neural architectures integrating DNA LLMs for phenotype prediction; (ii) Benchmark datasets and reproducible pipelines for WES/WGS analysis using LLMs; (iii) Peer-reviewed publications and presentations at international conferences; (iv) Application of the developed models to human genetic disease risk prediction.
By combining advanced machine learning and genome interpretation, this project contributes to the emerging field of AI-driven genomics, aiming to build generalizable, interpretable, and biologically meaningful models that bridge genotype and phenotype.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/02/2026
WEB : https://www.igmm.cnrs.fr/team/ia-pour-linterpretation-du-genome/
Les approches classiques d'interprétation du génome reposent sur des caractéristiques grossières au niveau des gènes, comme la charge mutationnelle par gène, ce qui entraîne une perte d'information au niveau nucléotidique. Les travaux antérieurs du Dr Raimondi et de ses collaborateurs ont montré que les réseaux de neurones peuvent apprendre des représentations compactes et informatives à partir des données de séquençage de l'exome ou du génome entier (WES/WGS), mais les contraintes de dimensionnalité ont imposé des simplifications importantes. Le présent projet vise à dépasser ces limites en développant des architectures opérant directement au niveau nucléotidique, intégrant des LLMs préentraînés sur l'ADN comme extracteurs de caractéristiques non supervisés dans des modèles prédictifs de bout en bout.
Ces LLMs, entraînés sur des génomes entiers à l'aide d'objectifs auto-supervisés, capturent des dépendances à longue portée et des motifs régulateurs dans les séquences d'ADN. En exploitant leurs représentations latentes, le projet vise à améliorer la prédiction des phénotypes à partir des génotypes bruts. Les modèles seront d'abord développés et testés sur Arabidopsis thaliana, un organisme modèle bien connu, puis étendus à des données humaines pour prédire le risque de maladies, notamment les maladies inflammatoires chroniques de l'intestin (MICI). Contrairement aux approches actuelles des LLMs appliqués à la génomique fonctionnelle (par exemple la prédiction des effets de variants), ce projet explore leur utilisation pour la prédiction génétique directe, de bout en bout — une application innovante dans le domaine de la génomique computationnelle.
Le ou la doctorant·e commencera par le prétraitement et la structuration des données WES/WGS de A. thaliana pour l'apprentissage automatique. Il ou elle étudiera les LLMs pour l'ADN existants, évaluera leurs performances représentationnelles et concevra de nouvelles architectures neuronales avec PyTorch. Le travail comportera à la fois des contributions méthodologiques et théoriques : amélioration de l'encodage du génotype, réduction du surapprentissage dans les données biologiques à très haute dimension, et analyse du transfert des représentations préentraînées entre organismes.
Les résultats attendus comprennent : (i) le développement de nouvelles architectures neuronales intégrant des LLMs ADN pour la prédiction de phénotypes; (ii) la création de jeux de données de référence et de pipelines reproductibles pour l'analyse WES/WGS basée sur les LLMs; (iii) la publication d'articles scientifiques et la présentation des résultats lors de conférences internationales; (iv) l'application des modèles développés à la prédiction du risque de maladies génétiques humaines.
En combinant apprentissage profond avancé et interprétation du génome, ce projet contribuera à l'émergence d'une génomique pilotée par l'IA, visant à construire des modèles généralisables, interprétables et biologiquement pertinents reliant génotype et phénotype.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Understanding the relationship between genotype and phenotype is one of biology's most fundamental challenges. Accurately modeling this relationship would revolutionize genetics, medicine, and biotechnology, enabling truly personalized medicine. This PhD project bridges quantitative genetics, bioinformatics, and modern Artificial Intelligence, focusing on the application of DNA-specific Large Language Models (LLMs) to genome interpretation.
Traditional approaches in genome interpretation rely on coarse, gene-level features such as mutation load per gene, which lose important nucleotide-level information. Previous work by Dr. Raimondi and collaborators has shown that neural networks can learn compact and informative embeddings from whole-exome or whole-genome sequencing (WES/WGS) data, but dimensionality constraints required simplifying assumptions. The present project overcomes this limitation by designing architectures that operate directly at the nucleotide level, integrating pre-trained DNA LLMs as unsupervised feature extractors within end-to-end predictive frameworks.
These LLMs, trained on entire genomes with self-supervised objectives, capture long-range dependencies and regulatory motifs within DNA sequences. By leveraging their latent representations, the project aims to improve phenotype prediction from raw genotype data. The models will first be developed and tested on Arabidopsis thaliana, a well-studied model organism, and later extended to human datasets to predict disease risk, with a focus on chronic inflammatory bowel diseases (IBD). Unlike most existing DNA-LLM applications that focus on functional genomics tasks (e.g., variant effect prediction), this research explores their use for direct, end-to-end genetic disease prediction—an innovative application in computational genomics.
The candidate will begin by preprocessing and structuring WES/WGS data from A. thaliana for neural-network training. They will explore existing DNA LLMs, benchmark their representational performance, and design novel neural architectures using PyTorch. The work includes both methodological and theoretical contributions: improving genotype encoding, reducing overfitting in ultra-high-dimensional biological data, and quantifying how pre-trained representations transfer across organisms.
Expected outcomes include: (i) Development of new neural architectures integrating DNA LLMs for phenotype prediction; (ii) Benchmark datasets and reproducible pipelines for WES/WGS analysis using LLMs; (iii) Peer-reviewed publications and presentations at international conferences; (iv) Application of the developed models to human genetic disease risk prediction.
By combining advanced machine learning and genome interpretation, this project contributes to the emerging field of AI-driven genomics, aiming to build generalizable, interpretable, and biologically meaningful models that bridge genotype and phenotype.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/02/2026
WEB : https://www.igmm.cnrs.fr/team/ia-pour-linterpretation-du-genome/
Nature du financement
Précisions sur le financement
Financement d'un établissement public Français
Présentation établissement et labo d'accueil
Université de Montpellier
Etablissement délivrant le doctorat
Université de Montpellier
Ecole doctorale
166 I2S - Information, Structures, Systèmes
Profil du candidat
Le/la candidat·e idéal·e est titulaire d'un master en physique, informatique, bioinformatique, mathématiques appliquées ou domaine équivalent. Une excellente maîtrise de la programmation en Python et une expérience avec les bibliothèques d'apprentissage profond (de préférence PyTorch) sont indispensables. Une bonne compréhension des fondements de l'apprentissage automatique, de l'algèbre linéaire et de l'optimisation est requise. Une familiarité avec les données génomiques ou la bioinformatique est souhaitable mais non obligatoire. Le/la candidat·e doit faire preuve de rigueur analytique, de capacités de résolution de problèmes et d'autonomie dans la recherche.
The ideal candidate holds a Master's degree in physics, computer science, bioinformatics, applied mathematics, or a related field. Strong proficiency in Python programming and experience with deep learning frameworks (preferably PyTorch) are essential. A solid understanding of machine learning fundamentals, linear algebra, and optimization is required. Familiarity with genomic data or bioinformatics is appreciated but not mandatory. The candidate should demonstrate analytical rigor, problem-solving ability, and autonomy in research.
The ideal candidate holds a Master's degree in physics, computer science, bioinformatics, applied mathematics, or a related field. Strong proficiency in Python programming and experience with deep learning frameworks (preferably PyTorch) are essential. A solid understanding of machine learning fundamentals, linear algebra, and optimization is required. Familiarity with genomic data or bioinformatics is appreciated but not mandatory. The candidate should demonstrate analytical rigor, problem-solving ability, and autonomy in research.
18/01/2026
Postuler
Fermer
Vous avez déjà un compte ?
Nouvel utilisateur ?
Besoin d'informations sur l'ABG ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
ONERA - The French Aerospace Lab
TotalEnergies
ANRT
Nokia Bell Labs France
Nantes Université
SUEZ
Ifremer
Aérocentre, Pôle d'excellence régional
Servier
ADEME
Laboratoire National de Métrologie et d'Essais - LNE
Groupe AFNOR - Association française de normalisation
Tecknowmetrix
Medicen Paris Region
Généthon
Institut Sup'biotech de Paris
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
