Communications réseau robustes, tolérantes aux pannes et à la volatilité, et adaptées aux applications d'intelligence artificielle // Resilient network communications, tolerant to failures and volatility, and suited for artificial intelligence application
ABG-132749
ADUM-66774 |
Sujet de Thèse | |
02/07/2025 | Cifre |
Université de Bordeaux
Talence cedex - Nouvelle Aquitaine - France
Communications réseau robustes, tolérantes aux pannes et à la volatilité, et adaptées aux applications d'intelligence artificielle // Resilient network communications, tolerant to failures and volatility, and suited for artificial intelligence application
- Informatique
Communication Collective, Algorithmique Distribuée, Réseaux, Intelligence Artificielle, Tolérance aux Fautes, Calcul Haute Performance
Collective Communication, Distributed Algorithm, Network, Artificial Intelligence, Fault Tolerance, High Performance Computing
Collective Communication, Distributed Algorithm, Network, Artificial Intelligence, Fault Tolerance, High Performance Computing
Description du sujet
Cette thèse a pour objectif d'explorer les problématiques liées aux communications réseau dans un tel contexte. Pour cela, il sera nécessaire de considérer l'ensemble des bibliothèques de communication existantes (telles que PCCL [3], MPI [2] ou libp2p), afin de définir celle ou celles qui seront ensuite adaptées à l'environnement considéré. Une fois ce modèle de communication établi, on s'intéressera, étant donné un ensemble de machines et leur topologie, aux adaptations nécessaires des schémas de communication des applications d'apprentissage pour minimiser le coût des communications : par exemple en utilisant des algorithmes de routage et une répartition des calculs et des données plus adaptés au réseau connectant les machines. Il faudra également être en mesure de détecter la disparition et l'ajout possible de machines et s'adapter en conséquence, par exemple en ignorant les contributions des machines perdues dans le cas d'un parallélisme de données, ou bien en redistribuant les données et les calculs.
Dans un second temps, on envisagera la gestion de l'occupation du réseau dans le cas où HiveDisk et HiveCompute sont présents simultanément sur les mêmes réseaux et les mêmes machines, afin de conserver des performances satisfaisantes pour les deux services et d'adapter dynamiquement les paramètres de qualité de service en fonction des conditions du réseau et des exigences des utilisateurs.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
The objective of this PhD thesis is to explore issues related to network communications in such a context. This will require an analysis of existing communication libraries (such as PCCL [3], MPI [2], or libp2p) in order to determine which one(s) can be adapted to the targeted environment. Once a suitable communication model is established, the work will focus—given a set of machines and their topology—on adapting communication patterns in learning applications to minimize communication overhead. This may involve using routing algorithms and better distribution of computation and data, tailored to the characteristics of the network interconnecting the machines.
The system will also need to detect the addition or loss of machines and respond accordingly—for example, by ignoring the contributions of lost machines in a data-parallel setup, or by redistributing the data and computation.
In a second phase, the project will consider how to manage network usage when HiveDisk and HiveCompute are active simultaneously on the same networks and machines. The goal will be to maintain acceptable performance levels for both services by dynamically adjusting quality-of-service parameters based on network conditions and user requirements.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2025
Dans un second temps, on envisagera la gestion de l'occupation du réseau dans le cas où HiveDisk et HiveCompute sont présents simultanément sur les mêmes réseaux et les mêmes machines, afin de conserver des performances satisfaisantes pour les deux services et d'adapter dynamiquement les paramètres de qualité de service en fonction des conditions du réseau et des exigences des utilisateurs.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
The objective of this PhD thesis is to explore issues related to network communications in such a context. This will require an analysis of existing communication libraries (such as PCCL [3], MPI [2], or libp2p) in order to determine which one(s) can be adapted to the targeted environment. Once a suitable communication model is established, the work will focus—given a set of machines and their topology—on adapting communication patterns in learning applications to minimize communication overhead. This may involve using routing algorithms and better distribution of computation and data, tailored to the characteristics of the network interconnecting the machines.
The system will also need to detect the addition or loss of machines and respond accordingly—for example, by ignoring the contributions of lost machines in a data-parallel setup, or by redistributing the data and computation.
In a second phase, the project will consider how to manage network usage when HiveDisk and HiveCompute are active simultaneously on the same networks and machines. The goal will be to maintain acceptable performance levels for both services by dynamically adjusting quality-of-service parameters based on network conditions and user requirements.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2025
Nature du financement
Cifre
Précisions sur le financement
CIFRE ANRT
Présentation établissement et labo d'accueil
Université de Bordeaux
Etablissement délivrant le doctorat
Université de Bordeaux
Ecole doctorale
39 Mathématiques et Informatique
Profil du candidat
Se sentir à l'aise dans un environnement de dynamique scientifique, aimer apprendre et se confronter à des problématiques réelles, avoir une approche expérimentale, sont des qualités essentielles pour réussir cette mission.
Compétences techniques et niveau requis :
Solide compréhension des communications réseau (sockets, TCP/IP) ;
Maîtrise de la programmation système (C/C++) et d'un langage de haut niveau (Python) ;
Une expérience avec les frameworks d'intelligence artificielle (PyTorch, TensorFlow, ...) et la mesure de performance logicielle est un atout ;
Un intérêt pour les systèmes distribués et le calcul haute performance (HPC) est également un plus.
Langues :
Bonnes compétences en communication en anglais (le français est un plus).
Compétences relationnelles :
Capacité à travailler en collaboration dans un environnement mêlant recherche académique et secteur industriel.
Feeling comfortable in a dynamic scientific environment, enjoying learning and tackling real-world problems, and having an experimental mindset are essential qualities for succeeding in this role. Technical skills and level required : Solid understanding of network communication (socket, TCP/IP); Proficiency in systems programming (C/C++) and high level language (Python). Experience with AI frameworks (PyTorch, Tensorflow, ...) and software performance measurement is a plus Interest in distributed systems and HPC are also a plus Languages : Good communication skills in English (French is a plus) Relational skills : Ability to work collaboratively in an academic–industry setting
Feeling comfortable in a dynamic scientific environment, enjoying learning and tackling real-world problems, and having an experimental mindset are essential qualities for succeeding in this role. Technical skills and level required : Solid understanding of network communication (socket, TCP/IP); Proficiency in systems programming (C/C++) and high level language (Python). Experience with AI frameworks (PyTorch, Tensorflow, ...) and software performance measurement is a plus Interest in distributed systems and HPC are also a plus Languages : Good communication skills in English (French is a plus) Relational skills : Ability to work collaboratively in an academic–industry setting
30/09/2025
Postuler
Fermer
Vous avez déjà un compte ?
Nouvel utilisateur ?
Besoin d'informations sur l'ABG ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
CESI
SUEZ
Nokia Bell Labs France
Laboratoire National de Métrologie et d'Essais - LNE
Institut Sup'biotech de Paris
MabDesign
PhDOOC
Ifremer
ANRT
ADEME
ONERA - The French Aerospace Lab
MabDesign
Aérocentre, Pôle d'excellence régional
Groupe AFNOR - Association française de normalisation
Généthon
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
TotalEnergies
Tecknowmetrix
CASDEN