Où docteurs et entreprises se rencontrent
Menu
Connexion

Design inverse de molécules par Chemo-LLMs // Spectral-based Inverse Molecular Design with Chemo-LLMs

ABG-133684
ADUM-67674
Sujet de Thèse
04/10/2025
Université Paris-Saclay GS Informatique et sciences du numérique
Versailles cedex - Ile-de-France - France
Design inverse de molécules par Chemo-LLMs // Spectral-based Inverse Molecular Design with Chemo-LLMs
Design inverse de molécules, Spectroscopie vibrationnelle, Problèmes inverses, Grands modèles de langage (LLMs), Soft prompting, Embeddings inversibles
Inverse Moelcular Design, Vibrational Spectroscopy, Inverse Problems, Large Language Models (LLMs), Soft Prompting, Invertible Embeddings

Description du sujet

La conception inverse de molécules et de matériaux est un domaine d'importance majeure, avec des implications allant de la découverte de médicaments à la mise au point de nouveaux matériaux. Ce projet propose une approche de la conception inverse de molécules basée sur la spectroscopie vibrationnelle, en s'appuyant sur des grands modèles de langage chimiques (chemo-LLMs). Plus précisément, nous visons à développer des stratégies efficaces pour prédire des structures moléculaires à partir de données spectroscopiques, en exploitant la connaissance de chemo-LLMs pré-entraînés tels que ChemBERTa, MolBERT et ChemGPT. Le projet se concentre sur trois axes complémentaires : (i) l'apprentissage léger de chemo-LLMs par des techniques de soft prompting, incluant le prompt tuning et le prefix tuning, (ii) l'incorporation des données spectrales sous forme de vecteurs continus pour améliorer la fidélité des prédictions spectre-structure, et (iii) l'inversion de chemo-LLMs structure-spectre grâce à une adaptation chimique de méthodes telle que Vec2Text. Ces approches permetteraient de générer efficacement des structures moléculaires valides à partir de signatures spectrales. Dans l'ensemble, ce projet contribue à la fois au domaine de la chimie et de l'apprentissage automatique, en proposant de nouvelles méthodes pour la conception inverse de molécules, tout en abordant le défi plus large des problèmes inverses dans le contexte des grands modèles de langage.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Inverse molecular and materials design is a topic of central importance with broad implications, ranging from drug discovery to the development of new materials. This project explores a spectral-based approach to inverse molecular design using chemically informed large language models (chemo-LLMs). Specifically, we aim to develop efficient strategies for predicting molecular structures from spectroscopic data, by leveraging the knowledge of pre-trained chemo-LLMs such as ChemBERTa, MolBERT, and ChemGPT. Our work focuses on three complementary directions: (i) lightweight training of chemo-LLMs using soft prompting techniques, including prompt tuning and prefix tuning, (ii) incorporation of spectral data as continuous vector embeddings to enhance the fidelity of spectrum-to-structure predictions, and (iii) inversion of structure-to-spectrum chemo-LLMs via a chemical adaptation of the Vec2Text or related frameworks. Together, these techniques enable efficient generation of valid molecular structures directly from spectral signatures. Overall, the project advances both chemistry and machine learning by providing novel approaches to inverse molecular design and structure elucidation, while addressing the broader challenge of inverse problems in large language models.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2026

Nature du financement

Précisions sur le financement

Contrats ED : Programme blanc GS-ISN*Programme COFUND DeMythif.AI**Programme AAP SPRINGCS - GS ISN

Présentation établissement et labo d'accueil

Université Paris-Saclay GS Informatique et sciences du numérique

Etablissement délivrant le doctorat

Université Paris-Saclay GS Informatique et sciences du numérique

Ecole doctorale

580 Sciences et Technologies de l'Information et de la Communication

Profil du candidat

Le·la candidat·e idéal·e devra posséder : • Une solide formation en apprentissage automatique et en réseaux de neurones. • Une bonne maîtrise de la programmation, de préférence en Python. • Une expérience avec des bibliothèques d'apprentissage profond telles que PyTorch ou Keras. • Une connaissance préalable en chimie théorique ou computationnelle constitue un atout majeur. • De bonnes compétences en résolution de problèmes ainsi que la capacité de travailler de manière autonome tout en s'intégrant dans un environnement de recherche collaboratif.
Le·la candidat·e idéal·e devra posséder : • Une solide formation en apprentissage automatique et en réseaux de neurones. • Une bonne maîtrise de la programmation, de préférence en Python. • Une expérience avec des bibliothèques d'apprentissage profond telles que PyTorch ou Keras. • Une connaissance préalable en chimie théorique ou computationnelle constitue un atout majeur. • De bonnes compétences en résolution de problèmes ainsi que la capacité de travailler de manière autonome tout en s'intégrant dans un environnement de recherche collaboratif.
01/05/2026
Partager via
Postuler
Fermer

Vous avez déjà un compte ?

Nouvel utilisateur ?