Design inverse de molécules par Chemo-LLMs // Spectral-based Inverse Molecular Design with Chemo-LLMs
|
ABG-133684
ADUM-67674 |
Thesis topic | |
| 2025-10-04 |
Université Paris-Saclay GS Informatique et sciences du numérique
Versailles cedex - Ile-de-France - France
Design inverse de molécules par Chemo-LLMs // Spectral-based Inverse Molecular Design with Chemo-LLMs
Design inverse de molécules, Spectroscopie vibrationnelle, Problèmes inverses, Grands modèles de langage (LLMs), Soft prompting, Embeddings inversibles
Inverse Moelcular Design, Vibrational Spectroscopy, Inverse Problems, Large Language Models (LLMs), Soft Prompting, Invertible Embeddings
Inverse Moelcular Design, Vibrational Spectroscopy, Inverse Problems, Large Language Models (LLMs), Soft Prompting, Invertible Embeddings
Topic description
La conception inverse de molécules et de matériaux est un domaine d'importance majeure, avec des implications allant de la découverte de médicaments à la mise au point de nouveaux matériaux. Ce projet propose une approche de la conception inverse de molécules basée sur la spectroscopie vibrationnelle, en s'appuyant sur des grands modèles de langage chimiques (chemo-LLMs). Plus précisément, nous visons à développer des stratégies efficaces pour prédire des structures moléculaires à partir de données spectroscopiques, en exploitant la connaissance de chemo-LLMs pré-entraînés tels que ChemBERTa, MolBERT et ChemGPT. Le projet se concentre sur trois axes complémentaires : (i) l'apprentissage léger de chemo-LLMs par des techniques de soft prompting, incluant le prompt tuning et le prefix tuning, (ii) l'incorporation des données spectrales sous forme de vecteurs continus pour améliorer la fidélité des prédictions spectre-structure, et (iii) l'inversion de chemo-LLMs structure-spectre grâce à une adaptation chimique de méthodes telle que Vec2Text. Ces approches permetteraient de générer efficacement des structures moléculaires valides à partir de signatures spectrales. Dans l'ensemble, ce projet contribue à la fois au domaine de la chimie et de l'apprentissage automatique, en proposant de nouvelles méthodes pour la conception inverse de molécules, tout en abordant le défi plus large des problèmes inverses dans le contexte des grands modèles de langage.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Inverse molecular and materials design is a topic of central importance with broad implications, ranging from drug discovery to the development of new materials. This project explores a spectral-based approach to inverse molecular design using chemically informed large language models (chemo-LLMs). Specifically, we aim to develop efficient strategies for predicting molecular structures from spectroscopic data, by leveraging the knowledge of pre-trained chemo-LLMs such as ChemBERTa, MolBERT, and ChemGPT. Our work focuses on three complementary directions: (i) lightweight training of chemo-LLMs using soft prompting techniques, including prompt tuning and prefix tuning, (ii) incorporation of spectral data as continuous vector embeddings to enhance the fidelity of spectrum-to-structure predictions, and (iii) inversion of structure-to-spectrum chemo-LLMs via a chemical adaptation of the Vec2Text or related frameworks. Together, these techniques enable efficient generation of valid molecular structures directly from spectral signatures. Overall, the project advances both chemistry and machine learning by providing novel approaches to inverse molecular design and structure elucidation, while addressing the broader challenge of inverse problems in large language models.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Inverse molecular and materials design is a topic of central importance with broad implications, ranging from drug discovery to the development of new materials. This project explores a spectral-based approach to inverse molecular design using chemically informed large language models (chemo-LLMs). Specifically, we aim to develop efficient strategies for predicting molecular structures from spectroscopic data, by leveraging the knowledge of pre-trained chemo-LLMs such as ChemBERTa, MolBERT, and ChemGPT. Our work focuses on three complementary directions: (i) lightweight training of chemo-LLMs using soft prompting techniques, including prompt tuning and prefix tuning, (ii) incorporation of spectral data as continuous vector embeddings to enhance the fidelity of spectrum-to-structure predictions, and (iii) inversion of structure-to-spectrum chemo-LLMs via a chemical adaptation of the Vec2Text or related frameworks. Together, these techniques enable efficient generation of valid molecular structures directly from spectral signatures. Overall, the project advances both chemistry and machine learning by providing novel approaches to inverse molecular design and structure elucidation, while addressing the broader challenge of inverse problems in large language models.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Funding category
Funding further details
Contrats ED : Programme blanc GS-ISN*Programme COFUND DeMythif.AI**Programme AAP SPRINGCS - GS ISN
Presentation of host institution and host laboratory
Université Paris-Saclay GS Informatique et sciences du numérique
Institution awarding doctoral degree
Université Paris-Saclay GS Informatique et sciences du numérique
Graduate school
580 Sciences et Technologies de l'Information et de la Communication
Candidate's profile
Le·la candidat·e idéal·e devra posséder :
• Une solide formation en apprentissage automatique et en réseaux de neurones.
• Une bonne maîtrise de la programmation, de préférence en Python.
• Une expérience avec des bibliothèques d'apprentissage profond telles que PyTorch ou Keras.
• Une connaissance préalable en chimie théorique ou computationnelle constitue un atout majeur.
• De bonnes compétences en résolution de problèmes ainsi que la capacité de travailler de manière autonome tout en s'intégrant dans un environnement de recherche collaboratif.
Le·la candidat·e idéal·e devra posséder : • Une solide formation en apprentissage automatique et en réseaux de neurones. • Une bonne maîtrise de la programmation, de préférence en Python. • Une expérience avec des bibliothèques d'apprentissage profond telles que PyTorch ou Keras. • Une connaissance préalable en chimie théorique ou computationnelle constitue un atout majeur. • De bonnes compétences en résolution de problèmes ainsi que la capacité de travailler de manière autonome tout en s'intégrant dans un environnement de recherche collaboratif.
Le·la candidat·e idéal·e devra posséder : • Une solide formation en apprentissage automatique et en réseaux de neurones. • Une bonne maîtrise de la programmation, de préférence en Python. • Une expérience avec des bibliothèques d'apprentissage profond telles que PyTorch ou Keras. • Une connaissance préalable en chimie théorique ou computationnelle constitue un atout majeur. • De bonnes compétences en résolution de problèmes ainsi que la capacité de travailler de manière autonome tout en s'intégrant dans un environnement de recherche collaboratif.
2026-05-01
Apply
Close
Vous avez déjà un compte ?
Nouvel utilisateur ?
Get ABG’s monthly newsletters including news, job offers, grants & fellowships and a selection of relevant events…
Discover our members
Nantes Université
Groupe AFNOR - Association française de normalisation
Medicen Paris Region
ADEME
Ifremer
Généthon
ONERA - The French Aerospace Lab
Nokia Bell Labs France
Tecknowmetrix
ANRT
Servier
TotalEnergies
Institut Sup'biotech de Paris
SUEZ
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
Laboratoire National de Métrologie et d'Essais - LNE
Aérocentre, Pôle d'excellence régional

