Régularisation et complexité pour la croissance d'architecture neuronale // Regularization and Complexity in Neural Architecture Growth
|
ABG-138824
ADUM-74660 |
Sujet de Thèse | |
| 30/04/2026 |
Université Paris-Saclay GS Informatique et sciences du numérique
GIF-SUR-YVETTE - Ile-de-France - France
Régularisation et complexité pour la croissance d'architecture neuronale // Regularization and Complexity in Neural Architecture Growth
réseau de neurones, IA frugal, calcul differentiel, optimisation, pouvoir d'expressivité, théorie de l'information
neural networks, frugal AI, differential calculus, optimization, expressive power, information theory
neural networks, frugal AI, differential calculus, optimization, expressive power, information theory
Description du sujet
Résumé en une phrase : Nous développons des réseaux de neurones dont l'architecture évolutive s'adapte et croît dynamiquement pendant l'entraînement, afin de réduire l'impact environnemental de l'IA.
Contexte thématique : L'apprentissage profond a montré des résultats impressionnants et très médiatisés sur diverses applications (jeu de Go, StarCraft, traduction, détection d'objets dans les images, génération d'images haute résolution, génération de texte...), obtenus au prix de l'entraînement d'architectures de réseaux de neurones gigantesques, ce qui prend donc également du temps et de l'argent (par exemple, GPT-3 comporte 10^11 paramètres et aurait coûté des millions de dollars à entraîner), tant lors de l'entraînement que lors de l'exploitation. L'apprentissage frugal, à l'opposé, consiste à entraîner avec aussi peu d'échantillons ou aussi peu de puissance de calcul (Green AI) que possible. Nous nous concentrerons sur ce dernier aspect ici.
Grands vs. petits : Un avantage d'avoir beaucoup de neurones par couche est qu'il est connu (expérimentalement et théoriquement [3]) que cela facilite l'optimisation pendant l'entraînement, donnant ainsi de meilleurs résultats. Cependant, les réseaux de neurones entraînés présentent une forte redondance interne, et diverses techniques ont été développées pour les compresser en réseaux plus petits avec une précision comparable. Par exemple, [4] parvient à diviser par 100 le nombre de neurones pour exécuter de la reconnaissance d'objets en ligne dans des vidéos sur un smartphone. À l'autre extrême, entraîner et appliquer des modèles « minuscules » (relativement) est beaucoup plus rapide, mais ils peuvent souffrir d'un manque d'expressivité, les empêchant de s'ajuster précisément aux données.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
One-sentence summary: We develop neural networks with a flexible architecture that adapts and grows on the fly while training, in order to reduce AI environmental footprint.
Thematic context: Deep learning has shown impressive, highly-mediatized results on various applications (Go game, StarCraft, translation, object detection in images, high-resolution image generation, text generation...), obtained at the cost of training huge neural network architectures, which therefore also takes time and money (for instance, GPT-3 has 10^11 parameters and might have cost millions of dollars to be trained), both at training and exploitation times.
Frugal learning, on the opposite, consists in training with as few samples or as little computational power (Green AI) as possible. We will focus on the latter here.
Large vs. small: One advantage of having many neurons per layer is that it is known (experimentally and theoretically~[3]) to facilitate optimization during training, thus yielding better results. However, trained neural networks show high internal redundancy, and various techniques have been developed to squeeze them into smaller networks with comparable accuracy. For instance [4] manages to divide by 100 the number of neurons in order to run online object recognition in videos on a smartphone. On the other extreme, training and applying (relatively) 'tiny' models is much faster, but they might suffer from a lack of expressivity, preventing them from fitting data accurately.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Contexte thématique : L'apprentissage profond a montré des résultats impressionnants et très médiatisés sur diverses applications (jeu de Go, StarCraft, traduction, détection d'objets dans les images, génération d'images haute résolution, génération de texte...), obtenus au prix de l'entraînement d'architectures de réseaux de neurones gigantesques, ce qui prend donc également du temps et de l'argent (par exemple, GPT-3 comporte 10^11 paramètres et aurait coûté des millions de dollars à entraîner), tant lors de l'entraînement que lors de l'exploitation. L'apprentissage frugal, à l'opposé, consiste à entraîner avec aussi peu d'échantillons ou aussi peu de puissance de calcul (Green AI) que possible. Nous nous concentrerons sur ce dernier aspect ici.
Grands vs. petits : Un avantage d'avoir beaucoup de neurones par couche est qu'il est connu (expérimentalement et théoriquement [3]) que cela facilite l'optimisation pendant l'entraînement, donnant ainsi de meilleurs résultats. Cependant, les réseaux de neurones entraînés présentent une forte redondance interne, et diverses techniques ont été développées pour les compresser en réseaux plus petits avec une précision comparable. Par exemple, [4] parvient à diviser par 100 le nombre de neurones pour exécuter de la reconnaissance d'objets en ligne dans des vidéos sur un smartphone. À l'autre extrême, entraîner et appliquer des modèles « minuscules » (relativement) est beaucoup plus rapide, mais ils peuvent souffrir d'un manque d'expressivité, les empêchant de s'ajuster précisément aux données.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
One-sentence summary: We develop neural networks with a flexible architecture that adapts and grows on the fly while training, in order to reduce AI environmental footprint.
Thematic context: Deep learning has shown impressive, highly-mediatized results on various applications (Go game, StarCraft, translation, object detection in images, high-resolution image generation, text generation...), obtained at the cost of training huge neural network architectures, which therefore also takes time and money (for instance, GPT-3 has 10^11 parameters and might have cost millions of dollars to be trained), both at training and exploitation times.
Frugal learning, on the opposite, consists in training with as few samples or as little computational power (Green AI) as possible. We will focus on the latter here.
Large vs. small: One advantage of having many neurons per layer is that it is known (experimentally and theoretically~[3]) to facilitate optimization during training, thus yielding better results. However, trained neural networks show high internal redundancy, and various techniques have been developed to squeeze them into smaller networks with comparable accuracy. For instance [4] manages to divide by 100 the number of neurons in order to run online object recognition in videos on a smartphone. On the other extreme, training and applying (relatively) 'tiny' models is much faster, but they might suffer from a lack of expressivity, preventing them from fitting data accurately.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Nature du financement
Précisions sur le financement
Contrats ED : Programme blanc GS-ISN
Présentation établissement et labo d'accueil
Université Paris-Saclay GS Informatique et sciences du numérique
Etablissement délivrant le doctorat
Université Paris-Saclay GS Informatique et sciences du numérique
Ecole doctorale
580 Sciences et Technologies de l'Information et de la Communication
Profil du candidat
Prérequis :
- Apprentissage automatique (Machine Learning).
- Mathématiques : analyse fonctionnelle, calcul différentiel, statistiques.
- Compétences en programmation. La programmation sera réalisée principalement en Python avec la bibliothèque PyTorch.
- Niveau d'anglais C1
Des connaissances en programmation système (Linux), intégration continue (git, tests unitaires, ...), cluster GPU (slurm, hydra, ...) seront un plus.
Requirements - Machine Learning. - Mathematics: functional analysis, differential calculus, statistics. - Computer science: skills in logics or formal methods would be a plus. - Coding skills. Programming will be done mostly in python with the PyTorch deep learning platform. - C1 English level Any knowledge in system programming (Linux), continuous integration (git, unit tests, ...), GPU cluster management (slurm, hydra, ...) will be considered as a bonus.
Requirements - Machine Learning. - Mathematics: functional analysis, differential calculus, statistics. - Computer science: skills in logics or formal methods would be a plus. - Coding skills. Programming will be done mostly in python with the PyTorch deep learning platform. - C1 English level Any knowledge in system programming (Linux), continuous integration (git, unit tests, ...), GPU cluster management (slurm, hydra, ...) will be considered as a bonus.
12/05/2026
Postuler
Fermer
Vous avez déjà un compte ?
Nouvel utilisateur ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
ONERA - The French Aerospace Lab
Institut Sup'biotech de Paris
Laboratoire National de Métrologie et d'Essais - LNE
Medicen Paris Region
Aérocentre, Pôle d'excellence régional
Tecknowmetrix
Nokia Bell Labs France
Généthon
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
Nantes Université
Servier
SUEZ
TotalEnergies
ADEME
ANRT
Ifremer
Groupe AFNOR - Association française de normalisation
