Where PhDs and companies meet
Menu
Login

Méthodes à noyau efficaces avec attributs binaires // Memory-Efficient Kernel Methods using Binary Features

ABG-139110
ADUM-74925
Thesis topic
2026-05-13 Public funding alone (i.e. government, region, European, international organization research grant)
Université Grenoble Alpes
Saint Martin d'Hères cedex - Auvergne-Rhône-Alpes - France
Méthodes à noyau efficaces avec attributs binaires // Memory-Efficient Kernel Methods using Binary Features
  • Computer science
Apprentissage machine, Méthodes à noyau, Théorie statistique de l'apprentissage
Machine Learning, Kernel Methods, Statistical Learning Theory

Topic description

L'apprentissage automatique est entré dans une période caractérisée par un changement d'échelle sans précédent. Les modèles modernes d'apprentissage profond comportent des milliards de paramètres, et sont entraînés sur des jeux de données colossaux. Si ce changement d'échelle a permis des avancées remarquables d'un point de vue empirique, les systèmes de calcul actuels touchent à leurs limites, notamment en termes de mémoire et de consommation énergétique, incitant au développement de représentations plus compactes des données. Dans ce contexte, les représentations binaires et, plus généralement, de faible précision constituent une voie prometteuse, car elles permettent de réduire les coûts de stockage d'un à deux ordres de grandeur, tout en permettant l'utilisation d'opérations matérielles efficaces (arithmétique binaire).

Au-delà des modèles d'apprentissage profond paramétriques, nous soutenons que l'utilisation de telles représentations pour l'approximation de modèles non paramétriques à noyau est particulièrement pertinente : ces approches ont une complexité élevée et pourraient donc grandement bénéficier d'approximations basées sur des représentations binaires, tout en offrant une grande flexibilité (permettant notamment de travailler sur des espaces non euclidiens), tout en s'inscrivant dans un cadre théorique riche permettant leur analyse. On peut ainsi espérer introduire des représentations binaires ou de faible précision dans ce contexte sans sacrifier les garanties théoriques existantes. De plus, l'étude de représentations à faible précision dans le cadre non paramétriques pourrait fournir de nouveaux outils conceptuels et algorithmiques pour mieux comprendre et approximer les réseaux de neurones eux-mêmes.

L'objectif de ce sujet est d'explorer le potentiel des descripteurs aléatoires construits à l'aide de fonctions de hachage et de mécanismes de quantification, afin de développer des algorithmes économes en ressources pour l'apprentissage automatique non paramétrique et l'inférence statistique. Malgré une littérature abondante sur les approximations de rang faible des méthodes à noyau, très peu de travaux ont envisagé l'utilisation d'approximations fondées sur des plongements binaires, et en particulier pas dans un contexte d'apprentissage automatique. Nous développerons de nouveaux algorithmes combinant de telles approximations avec des procédures d'optimisation itératives, et établirons des garanties d'apprentissage statistique pour les algorithmes proposés. L'extension de ces idées à des problèmes d'apprentissage sur des espaces structurés sera également étudiée.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Machine learning has entered an era characterized by both unprecedented performance and scale, with modern deep learning models routinely trained on billions to trillions of samples and parameters. While this abundance has driven remarkable advances, it has also brought current computational systems to their limits, particularly in terms of memory and energy consumption, making the development of more compact representations of the data a central challenge. In this context, binary and, more generally, low-precision data representations offer a compelling avenue, as they can reduce storage costs by one to two orders of magnitude while potentially enabling more efficient hardware operations (e.g., bitwise arithmetic), thereby significantly accelerating large-scale learning and inference.

Beyond parametric deep learning models, we argue that using such representations in the context of nonparametric kernel methods is particularly pertinent: these approaches suffer acutely from scaling issues, and thus stand to benefit from binary representations, while offering a lot of flexibility (allowing to deal easily with non-Euclidean spaces) and being more amenable to theoretical analysis, raising the prospect that such binary or low-precision representations could be introduced without sacrificing established guarantees. Moreover, investigating low-precision representations in nonparametric settings may provide new conceptual and algorithmic tools to better understand and approximate neural networks themselves.

The goal of this PhD topic is to explore the potential of randomized embeddings built using hash functions and quantization mechanisms in order to develop scalable and resource-efficient algorithms for nonparametric machine learning and inference. Despite an abundant existing literature on low-rank approximations of kernel methods, very few works have considered using approximations built on binary embeddings, and in particular not in a machine learning context. We will develop new algorithms combining such approximations with iterative optimization procedures, and derive statistical learning guarantees for the proposed algorithms. Extension of these ideas to learning problems with structured input and output spaces will also be considered.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2026

Funding category

Public funding alone (i.e. government, region, European, international organization research grant)

Funding further details

Concours pour un contrat doctoral

Presentation of host institution and host laboratory

Université Grenoble Alpes

Institution awarding doctoral degree

Université Grenoble Alpes

Graduate school

220 EEATS - Electronique, Electrotechnique, Automatique, Traitement du Signal

Candidate's profile

- M2 en Mathématiques Appliquées, Statistique ou une discipline associée - Niveau solide en algèbre linéaire - Connaissances en théorie de l'apprentissage et/ou analyse fonctionnelle - Des connaissances sur l'architecture des CPU/GPU seraient appréciées
- Master's degree in Applied Maths or Statistics - Solid background in Linear Algebra - Familiarity with Statistical Learning Theory and/or Functional Analysis - Some knowledge of low-level programming on CPUs/GPUs would be appreciated
2026-05-31
Partager via
Apply
Close

Vous avez déjà un compte ?

Nouvel utilisateur ?