Key-Value Stores efficaces et scalables pour les infrastructures de stockage modernes et réseaux rapides // Designing Efficient and Scalable Key-Value Stores for Modern Storage and Network Infrastructures
ABG-132127
ADUM-65787 |
Thesis topic | |
2025-05-22 |
Université Grenoble Alpes
ST ISMIER CEDEX - Auvergne-Rhône-Alpes - France
Key-Value Stores efficaces et scalables pour les infrastructures de stockage modernes et réseaux rapides // Designing Efficient and Scalable Key-Value Stores for Modern Storage and Network Infrastructures
- Computer science
Base de données, Stockage, Réseau, SSD
Database, Storage, Networking, SSD
Database, Storage, Networking, SSD
Topic description
Les bases de données clé-valeur (Key-Value Stores, KVS) sont des composants fondamentaux de l'infrastructure des centres de données modernes. Elles prennent en charge une large gamme de services, allant des systèmes d'IA à grande échelle aux moteurs de recommandation et aux applications orientées utilisateur. À mesure que ces services deviennent de plus en plus gourmands en données, les couches de stockage et de communication sous-jacentes doivent évoluer pour répondre à des exigences croissantes en matière de performance, de scalabilité et d'efficacité.
Ce projet de thèse est structuré en deux grandes phases :
(1) l'optimisation de l'efficacité du stockage sur une machine unique, et
(2) l'extension du système à un environnement distribué et tolérant aux pannes.
1. Stockage efficace sur une machine unique
Les SSD haute capacité (HC SSD) sont récemment apparus comme une solution économique pour répondre à la croissance des besoins en stockage. Cependant, leur faible endurance constitue une limitation majeure : dans les déploiements actuels (par exemple chez Facebook), les SSD tombent souvent en panne en moins de quatre ans en raison d'un volume d'écritures excessif [1, 2, 5]. Or, une grande partie de ces écritures ne concerne pas les données applicatives, mais plutôt les surcoûts internes du KVS (compactions, mises à jour de métadonnées, journaux, etc.). Les solutions existantes souffrent soit d'une forte amplification d'écriture au niveau logiciel, soit d'un mauvais usage du matériel, ce qui entraîne une forte amplification interne au niveau du SSD.
La première phase de la thèse consistera à concevoir et implémenter une base clé-valeur optimisée pour ces dispositifs. L'objectif est de réduire significativement l'amplification des écritures et de prolonger la durée de vie utile des SSD. Cela implique :
- L'analyse des schémas d'écriture pour identifier et éliminer les écritures inutiles.
- L'exploitation des fonctionnalités spécifiques aux SSD (par exemple, les zone namespaces, les pages de grande taille) pour aligner les accès avec les contraintes matérielles.
- L'évaluation des performances et de l'endurance sous des charges réalistes.
2. Base clé-valeur distribuée, scalable et tolérante aux pannes
La seconde phase vise à faire évoluer le système vers une architecture distribuée, tout en garantissant la tolérance aux pannes et la haute disponibilité. Cela représente un défi important dans les centres de données modernes dotés de réseaux à très haut débit (100 Gbps et plus), où le coût en CPU des opérations réseau devient un goulot d'étranglement [3,4] — en particulier à cause du traitement des appels de procédure distante (RPC).
Pour relever ces défis, les travaux porteront sur :
- L'optimisation de la couche de messagerie afin de réduire le coût CPU par message.
- L'exploration de protocoles de réplication ou de consensus à faible surcharge, adaptés aux réseaux rapides et aux cartes réseau modernes (notamment celles compatibles RDMA).
- La conception d'un KVS distribué capable de monter en charge sans être limité par les coûts de communication au niveau CPU.
Contributions attendues :
- Une base clé-valeur efficace en écriture, surpassant les solutions existantes sur SSD haute capacité.
- Des techniques et algorithmes pour réduire les surcoûts CPU dans les environnements distribués à haut débit.
- Un prototype démontrant à la fois l'efficacité locale et la scalabilité distribuée.
- Des publications dans les grandes conférences en systèmes telles que SOSP, OSDI, USENIX ATC et EuroSys.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Key-value stores (KVS) are foundational components of modern data center infrastructure, supporting a broad spectrum of services such as large-scale AI systems, recommendation engines, and user-facing applications. As these services become increasingly data-intensive, the underlying storage and communication layers must evolve to meet growing demands in terms of performance, scalability, and efficiency.
This PhD project is structured in two main phases:
(1) Optimizing storage efficiency on a single machine, and
(2) Extending the system to a distributed, fault-tolerant environment.
1. Efficient Storage on a Single Machine
High-capacity SSDs (HC SSDs) have emerged as a cost-effective solution to meet increasing storage needs. However, their relatively low endurance remains a major limitation: in current production settings (e.g., at Facebook), SSDs often fail in under four years due to excessive write volume [1, 2, 5]. Crucially, much of this written data is not application data but overhead caused by the key-value store itself -- due to compaction, metadata updates, and logging. Existing KVS either suffer from high write amplification in software or misuse the SSD hardware, leading to high internal write amplification at the device level.
The first phase of the PhD will focus on designing and implementing a key-value store optimized for such devices. The goal is to significantly reduce write amplification and extend the usable lifetime of SSDs. This involves:
- Analyzing write patterns to identify and eliminate unnecessary writes.
- Exploiting SSD-specific features (e.g., zone namespaces, large pages) to align access patterns with hardware constraints.
- Evaluating performance and endurance under realistic workloads.
2. Scalable and Fault-Tolerant Distributed KV Store
The second phase involves scaling the system to multiple machines while ensuring fault tolerance and high availability. This introduces new challenges in the context of high-speed datacenter networks (100 Gbps and above), where the CPU cost of network operations becomes a bottleneck—especially due to the overhead of handling remote procedure calls [3,4].
To address these challenges, the research will explore:
- Optimizing the messaging layer to reduce per-message CPU overhead.
- Investigating low-overhead replication or consensus protocols tailored for fast networks and modern NICs (including RDMA-capable hardware).
- Designing a distributed key-value store that achieves scalability without being constrained by CPU-bound communication paths.
Expected Contributions:
- A write-efficient key-value store that significantly outperforms existing solutions on HC SSDs.
- Novel techniques to reduce CPU overhead in distributed KVS operating over high-speed networks.
- A prototype demonstrating both local efficiency and distributed scalability.
- Publications in top-tier systems conferences such as SOSP, OSDI USENIX ATC and EuroSys.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2025
Ce projet de thèse est structuré en deux grandes phases :
(1) l'optimisation de l'efficacité du stockage sur une machine unique, et
(2) l'extension du système à un environnement distribué et tolérant aux pannes.
1. Stockage efficace sur une machine unique
Les SSD haute capacité (HC SSD) sont récemment apparus comme une solution économique pour répondre à la croissance des besoins en stockage. Cependant, leur faible endurance constitue une limitation majeure : dans les déploiements actuels (par exemple chez Facebook), les SSD tombent souvent en panne en moins de quatre ans en raison d'un volume d'écritures excessif [1, 2, 5]. Or, une grande partie de ces écritures ne concerne pas les données applicatives, mais plutôt les surcoûts internes du KVS (compactions, mises à jour de métadonnées, journaux, etc.). Les solutions existantes souffrent soit d'une forte amplification d'écriture au niveau logiciel, soit d'un mauvais usage du matériel, ce qui entraîne une forte amplification interne au niveau du SSD.
La première phase de la thèse consistera à concevoir et implémenter une base clé-valeur optimisée pour ces dispositifs. L'objectif est de réduire significativement l'amplification des écritures et de prolonger la durée de vie utile des SSD. Cela implique :
- L'analyse des schémas d'écriture pour identifier et éliminer les écritures inutiles.
- L'exploitation des fonctionnalités spécifiques aux SSD (par exemple, les zone namespaces, les pages de grande taille) pour aligner les accès avec les contraintes matérielles.
- L'évaluation des performances et de l'endurance sous des charges réalistes.
2. Base clé-valeur distribuée, scalable et tolérante aux pannes
La seconde phase vise à faire évoluer le système vers une architecture distribuée, tout en garantissant la tolérance aux pannes et la haute disponibilité. Cela représente un défi important dans les centres de données modernes dotés de réseaux à très haut débit (100 Gbps et plus), où le coût en CPU des opérations réseau devient un goulot d'étranglement [3,4] — en particulier à cause du traitement des appels de procédure distante (RPC).
Pour relever ces défis, les travaux porteront sur :
- L'optimisation de la couche de messagerie afin de réduire le coût CPU par message.
- L'exploration de protocoles de réplication ou de consensus à faible surcharge, adaptés aux réseaux rapides et aux cartes réseau modernes (notamment celles compatibles RDMA).
- La conception d'un KVS distribué capable de monter en charge sans être limité par les coûts de communication au niveau CPU.
Contributions attendues :
- Une base clé-valeur efficace en écriture, surpassant les solutions existantes sur SSD haute capacité.
- Des techniques et algorithmes pour réduire les surcoûts CPU dans les environnements distribués à haut débit.
- Un prototype démontrant à la fois l'efficacité locale et la scalabilité distribuée.
- Des publications dans les grandes conférences en systèmes telles que SOSP, OSDI, USENIX ATC et EuroSys.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Key-value stores (KVS) are foundational components of modern data center infrastructure, supporting a broad spectrum of services such as large-scale AI systems, recommendation engines, and user-facing applications. As these services become increasingly data-intensive, the underlying storage and communication layers must evolve to meet growing demands in terms of performance, scalability, and efficiency.
This PhD project is structured in two main phases:
(1) Optimizing storage efficiency on a single machine, and
(2) Extending the system to a distributed, fault-tolerant environment.
1. Efficient Storage on a Single Machine
High-capacity SSDs (HC SSDs) have emerged as a cost-effective solution to meet increasing storage needs. However, their relatively low endurance remains a major limitation: in current production settings (e.g., at Facebook), SSDs often fail in under four years due to excessive write volume [1, 2, 5]. Crucially, much of this written data is not application data but overhead caused by the key-value store itself -- due to compaction, metadata updates, and logging. Existing KVS either suffer from high write amplification in software or misuse the SSD hardware, leading to high internal write amplification at the device level.
The first phase of the PhD will focus on designing and implementing a key-value store optimized for such devices. The goal is to significantly reduce write amplification and extend the usable lifetime of SSDs. This involves:
- Analyzing write patterns to identify and eliminate unnecessary writes.
- Exploiting SSD-specific features (e.g., zone namespaces, large pages) to align access patterns with hardware constraints.
- Evaluating performance and endurance under realistic workloads.
2. Scalable and Fault-Tolerant Distributed KV Store
The second phase involves scaling the system to multiple machines while ensuring fault tolerance and high availability. This introduces new challenges in the context of high-speed datacenter networks (100 Gbps and above), where the CPU cost of network operations becomes a bottleneck—especially due to the overhead of handling remote procedure calls [3,4].
To address these challenges, the research will explore:
- Optimizing the messaging layer to reduce per-message CPU overhead.
- Investigating low-overhead replication or consensus protocols tailored for fast networks and modern NICs (including RDMA-capable hardware).
- Designing a distributed key-value store that achieves scalability without being constrained by CPU-bound communication paths.
Expected Contributions:
- A write-efficient key-value store that significantly outperforms existing solutions on HC SSDs.
- Novel techniques to reduce CPU overhead in distributed KVS operating over high-speed networks.
- A prototype demonstrating both local efficiency and distributed scalability.
- Publications in top-tier systems conferences such as SOSP, OSDI USENIX ATC and EuroSys.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2025
Funding category
Funding further details
Concours allocations
Presentation of host institution and host laboratory
Université Grenoble Alpes
Institution awarding doctoral degree
Université Grenoble Alpes
Graduate school
217 MSTII - Mathématiques, Sciences et technologies de l'information, Informatique
Candidate's profile
Un fort intérêt pour les systèmes informatiques bas niveau et les optimisations de systèmes complexes. Les compétences attendues incluent :
- Solides connaissances en systèmes d'exploitation et en systèmes distribués
- Maîtrise du langage C ou C++ ; une expérience avec Rust est un plus.
- Bonne connaissance des architectures matérielles modernes (CPU, SSD, réseaux à haut débit, RDMA).
- Un intérêt pour le profilage bas niveau, l'optimisation de performance, et la mesure fine de comportements systèmes.
- Bon niveau d'anglais, à l'oral comme à l'écrit
A strong interest in low-level computer systems and optimization of complex systems. The expected skills include: - Solid knowledge of operating systems and distributed systems - Proficiency in C or C++; experience with Rust is a plus - Good understanding of modern hardware architectures (CPU, SSD, high-speed networks, RDMA) - Interest in low-level profiling, performance optimization, and fine measurement of system behaviors - Good level in spoken en written English
A strong interest in low-level computer systems and optimization of complex systems. The expected skills include: - Solid knowledge of operating systems and distributed systems - Proficiency in C or C++; experience with Rust is a plus - Good understanding of modern hardware architectures (CPU, SSD, high-speed networks, RDMA) - Interest in low-level profiling, performance optimization, and fine measurement of system behaviors - Good level in spoken en written English
2025-06-09
Apply
Close
Vous avez déjà un compte ?
Nouvel utilisateur ?
More information about ABG?
Get ABG’s monthly newsletters including news, job offers, grants & fellowships and a selection of relevant events…
Discover our members
Aérocentre, Pôle d'excellence régional
Ifremer
ANRT
Tecknowmetrix
ONERA - The French Aerospace Lab
Institut Sup'biotech de Paris
PhDOOC
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
CESI
Groupe AFNOR - Association française de normalisation
TotalEnergies
Laboratoire National de Métrologie et d'Essais - LNE
Nokia Bell Labs France
CASDEN
Généthon
MabDesign
SUEZ
MabDesign
ADEME