Where PhDs and companies meet
Menu
Login

AIModHydro- Modèles hydrodynamiques de certains aspects de l'Intelligence Artificielle. // AIModHydro-Hydrodynamical Models of certain aspects of Artificial Intelligence.

ABG-137683
ADUM-73406
Thesis topic
2026-04-03 Public funding alone (i.e. government, region, European, international organization research grant)
Université de Reims Champagne - Ardenne
REIMS - Grand Est - France
AIModHydro- Modèles hydrodynamiques de certains aspects de l'Intelligence Artificielle. // AIModHydro-Hydrodynamical Models of certain aspects of Artificial Intelligence.
  • Mathematics
Équations aux dérivées partielles, Turbulence, IA, Transformers, self-attention mechanism, Transport optimal
Partial differential equations, Turbulence, AI, Transformers, Self-attention mechanism

Topic description

L'introduction de l'architecture Transformer en 2017 a déclenché une révolution dans l'intelligence artificielle, mais les mécanismes mathématiques sous-jacents restent mal compris. Des travaux récents de Geshkovski, Letrouit, Polyanskiy et Rigollet (2024) établissent un cadre rigoureux pour analyser les Transformers comme des systèmes de particules en interaction (à l'échelle champ-moyen) évoluant sur la sphère unité, et où les couches successives correspondent aux pas de temps d'un système dynamique non linéaire piloté par l'auto-attention. À l'échelle macroscopique, cette dynamique peut être modélisée par une loi de conservation non linéaire, établissant ainsi un pont intéressant avec la théorie du transport optimal.
Le premier objectif principal de notre projet est d'établir une théorie quantitative des durées de vie des clusters métastables dans la dynamique des Transformers. Les expériences numériques de l'article fondateur suggèrent l'existence d'un phénomène à deux échelles de temps : les tokens coalescent rapidement en un petit nombre de clusters intermédiaires avant de finalement fusionner en un seul. Une théorie rigoureuse de cette phase métastable — incluant des estimées de sa durée en fonction des paramètres naturels — n'existe pas à ce jour. Ce projet cherche à développer une telle théorie, en s'appuyant sur des outils issus de l'analyse des équations d'Allen-Cahn et de Cahn-Hilliard et en les adaptant au cadre sphérique, sans la structure de flot de gradient.
Les résultats de clustering actuels reposent presque entièrement sur une simplification majeure des paramètres matriciels (toutes les matrices sont l'identité). Les diagrammes de phase empiriques pour des ensembles de matrices aléatoires montrent un comportement de clustering qualitativement similaire, mais aucune garantie théorique n'existe dans ce cas. Ce projet cherchera à étendre les résultats de convergence à des matrices de paramètres aléatoires structurées, en exploitant la théorie des matrices aléatoires et des techniques perturbatives.
Ce projet analysera également le caractère bien posé et le comportement en temps long pour des Transformers régularisés par un bruit stochastique, répondant ainsi à la question suivante : l'ajout d'un terme de bruit d'intensité fixe (diffusion) modifie-t-il qualitativement le clustering en temps long ?
Une autre direction de recherche envisageable est le parallèle avec le système d'Euler-Alignement de Shvydkoy (2021, 2024) — la limite hydrodynamique de Cucker-Smale — qui est une EDP pour la densité et la vitesse d'un essaim. Une description hydrodynamique analogue de la limite en champ moyen du Transformer (au-delà de l'équation de continuité au niveau particulaire) ne semble pas exister, et la dériver, ainsi qu'établir des résultats d'existence et de comportement en temps long dans l'esprit du programme de Shvydkoy constituerait une direction de recherche naturelle et substantielle.
La recherche combinera des outils issus de la théorie du transport optimal et des flots de gradient de Wasserstein ; des systèmes dynamiques sur les variétés riemanniennes compactes, la concentration de la mesure en grande dimension et la théorie cinétique (limites en champ moyen, propagation du chaos). L'analyse rigoureuse sera complétée par des simulations numériques pour guider la formulation des conjectures.
Ce projet se situe à l'intersection des mathématiques et de la théorie de l'IA moderne, avec le potentiel d'éclairer pourquoi les Transformers entraînés se comportent comme ils le font — et de fournir des pistes pour la conception d'architectures nouvelles. Les structures mathématiques impliquées (flots de gradient sur des espaces de mesures, particules en interaction sur des sphères, hiérarchies cinétiques) présentent un intérêt propre considérable en analyse, probabilités et géométrie.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

The introduction of the Transformer architecture in 2017 triggered a revolution in artificial intelligence, yet the mathematical mechanisms underlying its behavior remain poorly understood. Recent work by Geshkovski, Letrouit, Polyanskiy, and Rigollet (2024) establishes a rigorous framework for analyzing Transformers as mean-field interacting particle systems evolving on the unit sphere, where successive layers correspond to time steps of a nonlinear dynamical system driven by self-attention. At the macroscopic scale, this dynamic can be modeled by a non-linear conservation law, thus drawing an interesting bridge towards the theory of optimal transport.

The first main goal of our project is to establish a quantitative theory of metastable cluster lifetimes in Transformer dynamics. Numerical experiments in the foundational paper strongly suggest the existence of a two-timescale phenomenon: tokens rapidly coalesce into a small number of intermediate clusters before eventually merging into one. A rigorous theory of this metastable phase — including estimates for its duration as a function of the natural parameters — does not currently exist. This proposal seeks to develop such a theory, drawing on tools from the analysis of Allen-Cahn and Cahn-Hilliard equations and adapting them to the spherical, non-gradient-flow setting.

Current clustering results rely almost entirely on a major simplification of the matrix parameters (all matrices are identity). Empirical phase diagrams for random matrix ensembles show qualitatively similar clustering behavior, yet no theoretical guarantees exist in these settings. This project will seek to extend convergence results to structured random parameter matrices, leveraging random matrix theory and perturbative techniques around the identity case.

This project will also analyze well-posedness and long-time behavior results for stochastically regularized Transformers, thus adressing the question: does adding a noise term of fixed strength (diffusion) qualitatively alters long-time clustering?

Another potential research direction is the parallel with Shvydkoy's Euler Alignment system (2021, 2024) — the hydrodynamic limit of Cucker-Smale — which is a PDE for the density and velocity of a flock. An analogous hydrodynamic description of the Transformer's mean-field limit (beyond the particle-level continuity equation) does not seem to exist, and deriving it, along with well-posedness and long-time behavior results in the spirit of Shvydkoy's program, would be a natural and substantive research direction.

The research will combine tools from: optimal transport and Wasserstein gradient flows; dynamical systems on compact Riemannian manifolds; concentration of measure in high dimensions; and kinetic theory (mean-field limits, propagation of chaos). Rigorous analysis will be complemented by numerical simulation to guide the formulation of conjectures.

This project sits at the intersection of mathematics and the theory of modern AI, with the potential to illuminate why trained Transformers behave as they do — and to provide principled guidance for architectural design. The mathematical structures involved (gradient flows on measure spaces, interacting particles on spheres, kinetic hierarchies) are of broad independent interest across analysis, probability, and geometry.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2026

Funding category

Public funding alone (i.e. government, region, European, international organization research grant)

Funding further details

Concours pour un contrat doctoral

Presentation of host institution and host laboratory

Université de Reims Champagne - Ardenne

Institution awarding doctoral degree

Université de Reims Champagne - Ardenne

Graduate school

620 MPSNI - Mathématiques Physique Sciences du Numérique et de l'Ingénieur

Candidate's profile

Profil et compétences recherchés : Master de mathématiques, Compétences en Analyse et en Modélisation, Intérêt pour les mathématiques appliquées, Désir de résoudre des problèmes originaux et de proposer des solutions innovantes.
Profile and required skills: Master's degree in Mathematics, Skills in Analysis and Modelling, Interest in Applied Mathematics, Desire to solve original problems and propose innovative solution
2026-04-30
Partager via
Apply
Close

Vous avez déjà un compte ?

Nouvel utilisateur ?