Méthodes à noyau efficaces avec attributs binaires // Memory-Efficient Kernel Methods using Binary Features
|
ABG-139110
ADUM-74925 |
Sujet de Thèse | |
| 13/05/2026 | Contrat doctoral |
Université Grenoble Alpes
Saint Martin d'Hères cedex - Auvergne-Rhône-Alpes - France
Méthodes à noyau efficaces avec attributs binaires // Memory-Efficient Kernel Methods using Binary Features
- Informatique
Apprentissage machine, Méthodes à noyau, Théorie statistique de l'apprentissage
Machine Learning, Kernel Methods, Statistical Learning Theory
Machine Learning, Kernel Methods, Statistical Learning Theory
Description du sujet
L'apprentissage automatique est entré dans une période caractérisée par un changement d'échelle sans précédent. Les modèles modernes d'apprentissage profond comportent des milliards de paramètres, et sont entraînés sur des jeux de données colossaux. Si ce changement d'échelle a permis des avancées remarquables d'un point de vue empirique, les systèmes de calcul actuels touchent à leurs limites, notamment en termes de mémoire et de consommation énergétique, incitant au développement de représentations plus compactes des données. Dans ce contexte, les représentations binaires et, plus généralement, de faible précision constituent une voie prometteuse, car elles permettent de réduire les coûts de stockage d'un à deux ordres de grandeur, tout en permettant l'utilisation d'opérations matérielles efficaces (arithmétique binaire).
Au-delà des modèles d'apprentissage profond paramétriques, nous soutenons que l'utilisation de telles représentations pour l'approximation de modèles non paramétriques à noyau est particulièrement pertinente : ces approches ont une complexité élevée et pourraient donc grandement bénéficier d'approximations basées sur des représentations binaires, tout en offrant une grande flexibilité (permettant notamment de travailler sur des espaces non euclidiens), tout en s'inscrivant dans un cadre théorique riche permettant leur analyse. On peut ainsi espérer introduire des représentations binaires ou de faible précision dans ce contexte sans sacrifier les garanties théoriques existantes. De plus, l'étude de représentations à faible précision dans le cadre non paramétriques pourrait fournir de nouveaux outils conceptuels et algorithmiques pour mieux comprendre et approximer les réseaux de neurones eux-mêmes.
L'objectif de ce sujet est d'explorer le potentiel des descripteurs aléatoires construits à l'aide de fonctions de hachage et de mécanismes de quantification, afin de développer des algorithmes économes en ressources pour l'apprentissage automatique non paramétrique et l'inférence statistique. Malgré une littérature abondante sur les approximations de rang faible des méthodes à noyau, très peu de travaux ont envisagé l'utilisation d'approximations fondées sur des plongements binaires, et en particulier pas dans un contexte d'apprentissage automatique. Nous développerons de nouveaux algorithmes combinant de telles approximations avec des procédures d'optimisation itératives, et établirons des garanties d'apprentissage statistique pour les algorithmes proposés. L'extension de ces idées à des problèmes d'apprentissage sur des espaces structurés sera également étudiée.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Machine learning has entered an era characterized by both unprecedented performance and scale, with modern deep learning models routinely trained on billions to trillions of samples and parameters. While this abundance has driven remarkable advances, it has also brought current computational systems to their limits, particularly in terms of memory and energy consumption, making the development of more compact representations of the data a central challenge. In this context, binary and, more generally, low-precision data representations offer a compelling avenue, as they can reduce storage costs by one to two orders of magnitude while potentially enabling more efficient hardware operations (e.g., bitwise arithmetic), thereby significantly accelerating large-scale learning and inference.
Beyond parametric deep learning models, we argue that using such representations in the context of nonparametric kernel methods is particularly pertinent: these approaches suffer acutely from scaling issues, and thus stand to benefit from binary representations, while offering a lot of flexibility (allowing to deal easily with non-Euclidean spaces) and being more amenable to theoretical analysis, raising the prospect that such binary or low-precision representations could be introduced without sacrificing established guarantees. Moreover, investigating low-precision representations in nonparametric settings may provide new conceptual and algorithmic tools to better understand and approximate neural networks themselves.
The goal of this PhD topic is to explore the potential of randomized embeddings built using hash functions and quantization mechanisms in order to develop scalable and resource-efficient algorithms for nonparametric machine learning and inference. Despite an abundant existing literature on low-rank approximations of kernel methods, very few works have considered using approximations built on binary embeddings, and in particular not in a machine learning context. We will develop new algorithms combining such approximations with iterative optimization procedures, and derive statistical learning guarantees for the proposed algorithms. Extension of these ideas to learning problems with structured input and output spaces will also be considered.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Au-delà des modèles d'apprentissage profond paramétriques, nous soutenons que l'utilisation de telles représentations pour l'approximation de modèles non paramétriques à noyau est particulièrement pertinente : ces approches ont une complexité élevée et pourraient donc grandement bénéficier d'approximations basées sur des représentations binaires, tout en offrant une grande flexibilité (permettant notamment de travailler sur des espaces non euclidiens), tout en s'inscrivant dans un cadre théorique riche permettant leur analyse. On peut ainsi espérer introduire des représentations binaires ou de faible précision dans ce contexte sans sacrifier les garanties théoriques existantes. De plus, l'étude de représentations à faible précision dans le cadre non paramétriques pourrait fournir de nouveaux outils conceptuels et algorithmiques pour mieux comprendre et approximer les réseaux de neurones eux-mêmes.
L'objectif de ce sujet est d'explorer le potentiel des descripteurs aléatoires construits à l'aide de fonctions de hachage et de mécanismes de quantification, afin de développer des algorithmes économes en ressources pour l'apprentissage automatique non paramétrique et l'inférence statistique. Malgré une littérature abondante sur les approximations de rang faible des méthodes à noyau, très peu de travaux ont envisagé l'utilisation d'approximations fondées sur des plongements binaires, et en particulier pas dans un contexte d'apprentissage automatique. Nous développerons de nouveaux algorithmes combinant de telles approximations avec des procédures d'optimisation itératives, et établirons des garanties d'apprentissage statistique pour les algorithmes proposés. L'extension de ces idées à des problèmes d'apprentissage sur des espaces structurés sera également étudiée.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Machine learning has entered an era characterized by both unprecedented performance and scale, with modern deep learning models routinely trained on billions to trillions of samples and parameters. While this abundance has driven remarkable advances, it has also brought current computational systems to their limits, particularly in terms of memory and energy consumption, making the development of more compact representations of the data a central challenge. In this context, binary and, more generally, low-precision data representations offer a compelling avenue, as they can reduce storage costs by one to two orders of magnitude while potentially enabling more efficient hardware operations (e.g., bitwise arithmetic), thereby significantly accelerating large-scale learning and inference.
Beyond parametric deep learning models, we argue that using such representations in the context of nonparametric kernel methods is particularly pertinent: these approaches suffer acutely from scaling issues, and thus stand to benefit from binary representations, while offering a lot of flexibility (allowing to deal easily with non-Euclidean spaces) and being more amenable to theoretical analysis, raising the prospect that such binary or low-precision representations could be introduced without sacrificing established guarantees. Moreover, investigating low-precision representations in nonparametric settings may provide new conceptual and algorithmic tools to better understand and approximate neural networks themselves.
The goal of this PhD topic is to explore the potential of randomized embeddings built using hash functions and quantization mechanisms in order to develop scalable and resource-efficient algorithms for nonparametric machine learning and inference. Despite an abundant existing literature on low-rank approximations of kernel methods, very few works have considered using approximations built on binary embeddings, and in particular not in a machine learning context. We will develop new algorithms combining such approximations with iterative optimization procedures, and derive statistical learning guarantees for the proposed algorithms. Extension of these ideas to learning problems with structured input and output spaces will also be considered.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Nature du financement
Contrat doctoral
Précisions sur le financement
Concours pour un contrat doctoral
Présentation établissement et labo d'accueil
Université Grenoble Alpes
Etablissement délivrant le doctorat
Université Grenoble Alpes
Ecole doctorale
220 EEATS - Electronique, Electrotechnique, Automatique, Traitement du Signal
Profil du candidat
- M2 en Mathématiques Appliquées, Statistique ou une discipline associée
- Niveau solide en algèbre linéaire
- Connaissances en théorie de l'apprentissage et/ou analyse fonctionnelle
- Des connaissances sur l'architecture des CPU/GPU seraient appréciées
- Master's degree in Applied Maths or Statistics - Solid background in Linear Algebra - Familiarity with Statistical Learning Theory and/or Functional Analysis - Some knowledge of low-level programming on CPUs/GPUs would be appreciated
- Master's degree in Applied Maths or Statistics - Solid background in Linear Algebra - Familiarity with Statistical Learning Theory and/or Functional Analysis - Some knowledge of low-level programming on CPUs/GPUs would be appreciated
31/05/2026
Postuler
Fermer
Vous avez déjà un compte ?
Nouvel utilisateur ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
ANRT
Généthon
Nantes Université
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
TotalEnergies
Institut Sup'biotech de Paris
ONERA - The French Aerospace Lab
Ifremer
Groupe AFNOR - Association française de normalisation
ADEME
Medicen Paris Region
Tecknowmetrix
Laboratoire National de Métrologie et d'Essais - LNE
Servier
SUEZ
Aérocentre, Pôle d'excellence régional
Nokia Bell Labs France



