Régularisation et complexité pour la croissance d'architecture neuronale // Regularization and Complexity in Neural Architecture Growth
|
ABG-138824
ADUM-74660 |
Thesis topic | |
| 2026-04-30 |
Université Paris-Saclay GS Informatique et sciences du numérique
GIF-SUR-YVETTE - Ile-de-France - France
Régularisation et complexité pour la croissance d'architecture neuronale // Regularization and Complexity in Neural Architecture Growth
réseau de neurones, IA frugal, calcul differentiel, optimisation, pouvoir d'expressivité, théorie de l'information
neural networks, frugal AI, differential calculus, optimization, expressive power, information theory
neural networks, frugal AI, differential calculus, optimization, expressive power, information theory
Topic description
Résumé en une phrase : Nous développons des réseaux de neurones dont l'architecture évolutive s'adapte et croît dynamiquement pendant l'entraînement, afin de réduire l'impact environnemental de l'IA.
Contexte thématique : L'apprentissage profond a montré des résultats impressionnants et très médiatisés sur diverses applications (jeu de Go, StarCraft, traduction, détection d'objets dans les images, génération d'images haute résolution, génération de texte...), obtenus au prix de l'entraînement d'architectures de réseaux de neurones gigantesques, ce qui prend donc également du temps et de l'argent (par exemple, GPT-3 comporte 10^11 paramètres et aurait coûté des millions de dollars à entraîner), tant lors de l'entraînement que lors de l'exploitation. L'apprentissage frugal, à l'opposé, consiste à entraîner avec aussi peu d'échantillons ou aussi peu de puissance de calcul (Green AI) que possible. Nous nous concentrerons sur ce dernier aspect ici.
Grands vs. petits : Un avantage d'avoir beaucoup de neurones par couche est qu'il est connu (expérimentalement et théoriquement [3]) que cela facilite l'optimisation pendant l'entraînement, donnant ainsi de meilleurs résultats. Cependant, les réseaux de neurones entraînés présentent une forte redondance interne, et diverses techniques ont été développées pour les compresser en réseaux plus petits avec une précision comparable. Par exemple, [4] parvient à diviser par 100 le nombre de neurones pour exécuter de la reconnaissance d'objets en ligne dans des vidéos sur un smartphone. À l'autre extrême, entraîner et appliquer des modèles « minuscules » (relativement) est beaucoup plus rapide, mais ils peuvent souffrir d'un manque d'expressivité, les empêchant de s'ajuster précisément aux données.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
One-sentence summary: We develop neural networks with a flexible architecture that adapts and grows on the fly while training, in order to reduce AI environmental footprint.
Thematic context: Deep learning has shown impressive, highly-mediatized results on various applications (Go game, StarCraft, translation, object detection in images, high-resolution image generation, text generation...), obtained at the cost of training huge neural network architectures, which therefore also takes time and money (for instance, GPT-3 has 10^11 parameters and might have cost millions of dollars to be trained), both at training and exploitation times.
Frugal learning, on the opposite, consists in training with as few samples or as little computational power (Green AI) as possible. We will focus on the latter here.
Large vs. small: One advantage of having many neurons per layer is that it is known (experimentally and theoretically~[3]) to facilitate optimization during training, thus yielding better results. However, trained neural networks show high internal redundancy, and various techniques have been developed to squeeze them into smaller networks with comparable accuracy. For instance [4] manages to divide by 100 the number of neurons in order to run online object recognition in videos on a smartphone. On the other extreme, training and applying (relatively) 'tiny' models is much faster, but they might suffer from a lack of expressivity, preventing them from fitting data accurately.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Contexte thématique : L'apprentissage profond a montré des résultats impressionnants et très médiatisés sur diverses applications (jeu de Go, StarCraft, traduction, détection d'objets dans les images, génération d'images haute résolution, génération de texte...), obtenus au prix de l'entraînement d'architectures de réseaux de neurones gigantesques, ce qui prend donc également du temps et de l'argent (par exemple, GPT-3 comporte 10^11 paramètres et aurait coûté des millions de dollars à entraîner), tant lors de l'entraînement que lors de l'exploitation. L'apprentissage frugal, à l'opposé, consiste à entraîner avec aussi peu d'échantillons ou aussi peu de puissance de calcul (Green AI) que possible. Nous nous concentrerons sur ce dernier aspect ici.
Grands vs. petits : Un avantage d'avoir beaucoup de neurones par couche est qu'il est connu (expérimentalement et théoriquement [3]) que cela facilite l'optimisation pendant l'entraînement, donnant ainsi de meilleurs résultats. Cependant, les réseaux de neurones entraînés présentent une forte redondance interne, et diverses techniques ont été développées pour les compresser en réseaux plus petits avec une précision comparable. Par exemple, [4] parvient à diviser par 100 le nombre de neurones pour exécuter de la reconnaissance d'objets en ligne dans des vidéos sur un smartphone. À l'autre extrême, entraîner et appliquer des modèles « minuscules » (relativement) est beaucoup plus rapide, mais ils peuvent souffrir d'un manque d'expressivité, les empêchant de s'ajuster précisément aux données.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
One-sentence summary: We develop neural networks with a flexible architecture that adapts and grows on the fly while training, in order to reduce AI environmental footprint.
Thematic context: Deep learning has shown impressive, highly-mediatized results on various applications (Go game, StarCraft, translation, object detection in images, high-resolution image generation, text generation...), obtained at the cost of training huge neural network architectures, which therefore also takes time and money (for instance, GPT-3 has 10^11 parameters and might have cost millions of dollars to be trained), both at training and exploitation times.
Frugal learning, on the opposite, consists in training with as few samples or as little computational power (Green AI) as possible. We will focus on the latter here.
Large vs. small: One advantage of having many neurons per layer is that it is known (experimentally and theoretically~[3]) to facilitate optimization during training, thus yielding better results. However, trained neural networks show high internal redundancy, and various techniques have been developed to squeeze them into smaller networks with comparable accuracy. For instance [4] manages to divide by 100 the number of neurons in order to run online object recognition in videos on a smartphone. On the other extreme, training and applying (relatively) 'tiny' models is much faster, but they might suffer from a lack of expressivity, preventing them from fitting data accurately.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Funding category
Funding further details
Contrats ED : Programme blanc GS-ISN
Presentation of host institution and host laboratory
Université Paris-Saclay GS Informatique et sciences du numérique
Institution awarding doctoral degree
Université Paris-Saclay GS Informatique et sciences du numérique
Graduate school
580 Sciences et Technologies de l'Information et de la Communication
Candidate's profile
Prérequis :
- Apprentissage automatique (Machine Learning).
- Mathématiques : analyse fonctionnelle, calcul différentiel, statistiques.
- Compétences en programmation. La programmation sera réalisée principalement en Python avec la bibliothèque PyTorch.
- Niveau d'anglais C1
Des connaissances en programmation système (Linux), intégration continue (git, tests unitaires, ...), cluster GPU (slurm, hydra, ...) seront un plus.
Requirements - Machine Learning. - Mathematics: functional analysis, differential calculus, statistics. - Computer science: skills in logics or formal methods would be a plus. - Coding skills. Programming will be done mostly in python with the PyTorch deep learning platform. - C1 English level Any knowledge in system programming (Linux), continuous integration (git, unit tests, ...), GPU cluster management (slurm, hydra, ...) will be considered as a bonus.
Requirements - Machine Learning. - Mathematics: functional analysis, differential calculus, statistics. - Computer science: skills in logics or formal methods would be a plus. - Coding skills. Programming will be done mostly in python with the PyTorch deep learning platform. - C1 English level Any knowledge in system programming (Linux), continuous integration (git, unit tests, ...), GPU cluster management (slurm, hydra, ...) will be considered as a bonus.
2026-05-12
Apply
Close
Vous avez déjà un compte ?
Nouvel utilisateur ?
Get ABG’s monthly newsletters including news, job offers, grants & fellowships and a selection of relevant events…
Discover our members
Aérocentre, Pôle d'excellence régional
Ifremer
Medicen Paris Region
ANRT
Généthon
ONERA - The French Aerospace Lab
Nantes Université
TotalEnergies
Laboratoire National de Métrologie et d'Essais - LNE
Tecknowmetrix
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
Groupe AFNOR - Association française de normalisation
Servier
Institut Sup'biotech de Paris
Nokia Bell Labs France
SUEZ
ADEME
