Où docteurs et entreprises se rencontrent
Menu
Connexion

Régularisation et complexité pour la croissance d'architecture neuronale // Regularization and Complexity in Neural Architecture Growth

ABG-138824
ADUM-74660
Sujet de Thèse
30/04/2026
Université Paris-Saclay GS Informatique et sciences du numérique
GIF-SUR-YVETTE - Ile-de-France - France
Régularisation et complexité pour la croissance d'architecture neuronale // Regularization and Complexity in Neural Architecture Growth
réseau de neurones, IA frugal, calcul differentiel, optimisation, pouvoir d'expressivité, théorie de l'information
neural networks, frugal AI, differential calculus, optimization, expressive power, information theory

Description du sujet

Résumé en une phrase : Nous développons des réseaux de neurones dont l'architecture évolutive s'adapte et croît dynamiquement pendant l'entraînement, afin de réduire l'impact environnemental de l'IA.

Contexte thématique : L'apprentissage profond a montré des résultats impressionnants et très médiatisés sur diverses applications (jeu de Go, StarCraft, traduction, détection d'objets dans les images, génération d'images haute résolution, génération de texte...), obtenus au prix de l'entraînement d'architectures de réseaux de neurones gigantesques, ce qui prend donc également du temps et de l'argent (par exemple, GPT-3 comporte 10^11 paramètres et aurait coûté des millions de dollars à entraîner), tant lors de l'entraînement que lors de l'exploitation. L'apprentissage frugal, à l'opposé, consiste à entraîner avec aussi peu d'échantillons ou aussi peu de puissance de calcul (Green AI) que possible. Nous nous concentrerons sur ce dernier aspect ici.

Grands vs. petits : Un avantage d'avoir beaucoup de neurones par couche est qu'il est connu (expérimentalement et théoriquement [3]) que cela facilite l'optimisation pendant l'entraînement, donnant ainsi de meilleurs résultats. Cependant, les réseaux de neurones entraînés présentent une forte redondance interne, et diverses techniques ont été développées pour les compresser en réseaux plus petits avec une précision comparable. Par exemple, [4] parvient à diviser par 100 le nombre de neurones pour exécuter de la reconnaissance d'objets en ligne dans des vidéos sur un smartphone. À l'autre extrême, entraîner et appliquer des modèles « minuscules » (relativement) est beaucoup plus rapide, mais ils peuvent souffrir d'un manque d'expressivité, les empêchant de s'ajuster précisément aux données.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

One-sentence summary: We develop neural networks with a flexible architecture that adapts and grows on the fly while training, in order to reduce AI environmental footprint.

Thematic context: Deep learning has shown impressive, highly-mediatized results on various applications (Go game, StarCraft, translation, object detection in images, high-resolution image generation, text generation...), obtained at the cost of training huge neural network architectures, which therefore also takes time and money (for instance, GPT-3 has 10^11 parameters and might have cost millions of dollars to be trained), both at training and exploitation times.
Frugal learning, on the opposite, consists in training with as few samples or as little computational power (Green AI) as possible. We will focus on the latter here.

Large vs. small: One advantage of having many neurons per layer is that it is known (experimentally and theoretically~[3]) to facilitate optimization during training, thus yielding better results. However, trained neural networks show high internal redundancy, and various techniques have been developed to squeeze them into smaller networks with comparable accuracy. For instance [4] manages to divide by 100 the number of neurons in order to run online object recognition in videos on a smartphone. On the other extreme, training and applying (relatively) 'tiny' models is much faster, but they might suffer from a lack of expressivity, preventing them from fitting data accurately.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2026

Nature du financement

Précisions sur le financement

Contrats ED : Programme blanc GS-ISN

Présentation établissement et labo d'accueil

Université Paris-Saclay GS Informatique et sciences du numérique

Etablissement délivrant le doctorat

Université Paris-Saclay GS Informatique et sciences du numérique

Ecole doctorale

580 Sciences et Technologies de l'Information et de la Communication

Profil du candidat

Prérequis : - Apprentissage automatique (Machine Learning). - Mathématiques : analyse fonctionnelle, calcul différentiel, statistiques. - Compétences en programmation. La programmation sera réalisée principalement en Python avec la bibliothèque PyTorch. - Niveau d'anglais C1 Des connaissances en programmation système (Linux), intégration continue (git, tests unitaires, ...), cluster GPU (slurm, hydra, ...) seront un plus.
Requirements - Machine Learning. - Mathematics: functional analysis, differential calculus, statistics. - Computer science: skills in logics or formal methods would be a plus. - Coding skills. Programming will be done mostly in python with the PyTorch deep learning platform. - C1 English level Any knowledge in system programming (Linux), continuous integration (git, unit tests, ...), GPU cluster management (slurm, hydra, ...) will be considered as a bonus.
12/05/2026
Partager via
Postuler
Fermer

Vous avez déjà un compte ?

Nouvel utilisateur ?