Modèles fondamentaux multimodaux pour les neurosciences // Multimodal Foundation Models for Neuroscience
|
ABG-137138
ADUM-71986 |
Thesis topic | |
| 2026-03-25 | Other public funding |
Institut Polytechnique de Paris Télécom Paris
Palaiseau - Ile-de-France - France
Modèles fondamentaux multimodaux pour les neurosciences // Multimodal Foundation Models for Neuroscience
Modèles fondamentaux pour séries temporelles, Neurosciences computationnelles, apprentissage automatique multimodal, Graphe de connaissance
Time-series Foundation models , Computational Neuroscience, Multimodal machine learning, Knowledge Graphs
Time-series Foundation models , Computational Neuroscience, Multimodal machine learning, Knowledge Graphs
Topic description
Les avancées en neurosciences s'appuient sur des données complexes et hétérogènes, allant de l'électroencéphalographie (EEG) à haute résolution temporelle et de l'imagerie par résonance magnétique fonctionnelle/structurale (fMRI/sMRI) aux dossiers cliniques et aux profils génomiques. Les développements récents en apprentissage automatique, et plus particulièrement en apprentissage profond, ont permis la conception de modèles fondamentaux à grande échelle [22], robustes et capables de bien généraliser à travers différentes distributions de données, contextes et applications. Bien que l'attention se soit majoritairement portée sur les grands modèles de langage (LLMs), utilisés pour l'apprentissage à partir de dossiers cliniques textuels, plusieurs initiatives ont visé à développer des modèles fondamentaux pour d'autres modalités de neuroimagerie et de signaux biologiques. Les modèles fondamentaux émergents pour l'EEG [1, 2, 3, 4, 5] ont montré un potentiel prometteur pour la modélisation et l'analyse de signaux EEG complexes, qui présentent typiquement un faible rapport signal/bruit et une forte variabilité intra- et inter-sujets. Ce n'est que très récemment que des tentatives ont été faites pour développer de tels modèles fondamentaux pour les données fMRI, en exploitant des cohortes à grande échelle afin de modéliser l'activité cérébrale [6, 7, 8, 19].
La plupart de ces travaux développent des modèles pour des modalités uniques de manière isolée, négligeant l'information complémentaire que fournissent les différentes données de neuroimagerie et cliniques. Ainsi, l'intégration et l'analyse de données multimodales peuvent permettre une meilleure compréhension des mécanismes neurologiques sous-jacents qui gouvernent le comportement et la maladie. De plus, les tentatives actuelles, qu'elles soient uni- ou multimodales, se concentrent sur l'apprentissage de représentations à partir des données, en négligeant largement les connaissances préalables issues de ressources structurées en biomédecine ou de graphes de connaissances spécifiques aux maladies. Les ressources biomédicales structurées, qu'il s'agisse de graphes de connaissances spécifiques à des maladies comme la maladie d'Alzheimer ou l'épilepsie, ou d'ontologies spécifiques à l'EEG, pourraient ancrer les sorties des modèles dans des résultats cliniquement explicables.
Ce projet de doctorat se concentrera sur l'intersection des modèles fondamentaux multimodaux et des neurosciences computationnelles, en exploitant des connaissances explicites et structurées. L'objectif est de développer un cadre novateur pour construire des modèles fondamentaux multimodaux pour les neurosciences, à la fois interprétables, ancrés dans les connaissances et applicables.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Advancements in neuroscience build on complex and heterogeneous data ranging from high-temporal-resolution electroencephalography (EEG) and functional/structural magnetic resonance imaging (fMRI/sMRI) to clinical records and genomic profiles. Recent developments in machine learning, particularly deep learning, have enabled the design of large-scale, robust foundation models [22] with strong generalization across data distributions, contexts, and applications. While the biggest focus has been on large language models (LLMs), which have been employed for learning from textual clinical records, several efforts have been made to develop foundation models for other neuroimaging and biosignal modalities. Emerging EEG foundation models [1, 2, 3, 4, 5] have shown promise in modelling and analysing complex EEG signals, which typically exhibit low signal-to-noise ratio and high intra- and inter-subject variability. Only very recently have attempts been made to develop such foundation models for fMRI data, leveraging large-scale cohorts to model brain activity [6, 7, 8, 19].
Most of these efforts develop models for single modalities in isolation, ignoring the complementary information that different neuroimaging and clinical data provide. As such, incorporating and analyzing multimodal data can offer a better understanding of the underlying neurological mechanisms that drive behavior and disease. Moreover, current attempts, be it uni- or multimodal, focus on learning representations from data, largely overlooking prior domain knowledge encoded in structured biomedical and/or disease-specific knowledge graphs. Structured biomedical resources, be it disease-specific knowledge graphs for Alzheimer's and epilepsy, EEG-specific ontologies, could ground model outputs in clinically explainable findings.
This PhD project will focus on the intersection of multimodal foundation models and computational neuroscience, leveraging structured, explicit domain knowledge. The aim is to develop a novel framework for constructing knowledge-grounded, interpretable, and applicable multimodal foundation models for neuroscience.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
La plupart de ces travaux développent des modèles pour des modalités uniques de manière isolée, négligeant l'information complémentaire que fournissent les différentes données de neuroimagerie et cliniques. Ainsi, l'intégration et l'analyse de données multimodales peuvent permettre une meilleure compréhension des mécanismes neurologiques sous-jacents qui gouvernent le comportement et la maladie. De plus, les tentatives actuelles, qu'elles soient uni- ou multimodales, se concentrent sur l'apprentissage de représentations à partir des données, en négligeant largement les connaissances préalables issues de ressources structurées en biomédecine ou de graphes de connaissances spécifiques aux maladies. Les ressources biomédicales structurées, qu'il s'agisse de graphes de connaissances spécifiques à des maladies comme la maladie d'Alzheimer ou l'épilepsie, ou d'ontologies spécifiques à l'EEG, pourraient ancrer les sorties des modèles dans des résultats cliniquement explicables.
Ce projet de doctorat se concentrera sur l'intersection des modèles fondamentaux multimodaux et des neurosciences computationnelles, en exploitant des connaissances explicites et structurées. L'objectif est de développer un cadre novateur pour construire des modèles fondamentaux multimodaux pour les neurosciences, à la fois interprétables, ancrés dans les connaissances et applicables.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Advancements in neuroscience build on complex and heterogeneous data ranging from high-temporal-resolution electroencephalography (EEG) and functional/structural magnetic resonance imaging (fMRI/sMRI) to clinical records and genomic profiles. Recent developments in machine learning, particularly deep learning, have enabled the design of large-scale, robust foundation models [22] with strong generalization across data distributions, contexts, and applications. While the biggest focus has been on large language models (LLMs), which have been employed for learning from textual clinical records, several efforts have been made to develop foundation models for other neuroimaging and biosignal modalities. Emerging EEG foundation models [1, 2, 3, 4, 5] have shown promise in modelling and analysing complex EEG signals, which typically exhibit low signal-to-noise ratio and high intra- and inter-subject variability. Only very recently have attempts been made to develop such foundation models for fMRI data, leveraging large-scale cohorts to model brain activity [6, 7, 8, 19].
Most of these efforts develop models for single modalities in isolation, ignoring the complementary information that different neuroimaging and clinical data provide. As such, incorporating and analyzing multimodal data can offer a better understanding of the underlying neurological mechanisms that drive behavior and disease. Moreover, current attempts, be it uni- or multimodal, focus on learning representations from data, largely overlooking prior domain knowledge encoded in structured biomedical and/or disease-specific knowledge graphs. Structured biomedical resources, be it disease-specific knowledge graphs for Alzheimer's and epilepsy, EEG-specific ontologies, could ground model outputs in clinically explainable findings.
This PhD project will focus on the intersection of multimodal foundation models and computational neuroscience, leveraging structured, explicit domain knowledge. The aim is to develop a novel framework for constructing knowledge-grounded, interpretable, and applicable multimodal foundation models for neuroscience.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Funding category
Other public funding
Funding further details
Concours IPP ou école membre*Contrat Doctoral E4H*Contrat doctoral Hi!Paris*Demi-allocation ANR IA*
Presentation of host institution and host laboratory
Institut Polytechnique de Paris Télécom Paris
Institution awarding doctoral degree
Institut Polytechnique de Paris Télécom Paris
Graduate school
626 Ecole Doctorale de l'Institut Polytechnique de Paris
Candidate's profile
Diplôme de Master (ou équivalent) en informatique (apprentissage automatique, intelligence artificielle), neurosciences ou dans des domaines connexes
Solide formation en informatique, mathématiques appliquées et statistiques, avec un accent sur l'apprentissage automatique (en particulier l'apprentissage profond)
Compétences avancées en programmation, de préférence en Python
Expérience pratique avec des frameworks d'apprentissage automatique / apprentissage profond (par exemple, PyTorch)
Familiarité avec le traitement et l'analyse de données EEG, ainsi que d'autres données cérébrales multimodales (imagerie, évaluations cliniques, données génomiques, etc.)
Maîtrise avancée de l'anglais : le/la candidat(e) doit être parfaitement à l'aise à l'oral comme à l'écrit
- Master's degree (or equivalent) in computer science (machine learning, artificial intelligence), neuroscience, or related fields - Strong background in computer science, applied mathematics, and statistics, with an emphasis on machine learning (esp. deep learning) - Proficient programming skills, preferably in Python - Practical experience with machine learning/deep learning frameworks (e.g., PyTorch) - Familiarity with working/analysing EEG data, and other multimodal brain data (imaging, clinical assessments, genomic data, etc.) - Advanced proficiency in English: The candidate should be fluent in spoken and written English
- Master's degree (or equivalent) in computer science (machine learning, artificial intelligence), neuroscience, or related fields - Strong background in computer science, applied mathematics, and statistics, with an emphasis on machine learning (esp. deep learning) - Proficient programming skills, preferably in Python - Practical experience with machine learning/deep learning frameworks (e.g., PyTorch) - Familiarity with working/analysing EEG data, and other multimodal brain data (imaging, clinical assessments, genomic data, etc.) - Advanced proficiency in English: The candidate should be fluent in spoken and written English
2026-09-30
Apply
Close
Vous avez déjà un compte ?
Nouvel utilisateur ?
Get ABG’s monthly newsletters including news, job offers, grants & fellowships and a selection of relevant events…
Discover our members
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
Nokia Bell Labs France
Servier
Medicen Paris Region
ONERA - The French Aerospace Lab
Laboratoire National de Métrologie et d'Essais - LNE
Généthon
Institut Sup'biotech de Paris
SUEZ
TotalEnergies
Tecknowmetrix
Nantes Université
ADEME
Groupe AFNOR - Association française de normalisation
Ifremer
Aérocentre, Pôle d'excellence régional
ANRT

