Where PhDs and companies meet
Menu
Login

Communications réseau robustes, tolérantes aux pannes et à la volatilité, et adaptées aux applications d'intelligence artificielle // Resilient network communications, tolerant to failures and volatility, and suited for artificial intelligence application

ABG-132749
ADUM-66774
Thesis topic
2025-07-02 Cifre
Université de Bordeaux
Talence cedex - Nouvelle Aquitaine - France
Communications réseau robustes, tolérantes aux pannes et à la volatilité, et adaptées aux applications d'intelligence artificielle // Resilient network communications, tolerant to failures and volatility, and suited for artificial intelligence application
  • Computer science
Communication Collective, Algorithmique Distribuée, Réseaux, Intelligence Artificielle, Tolérance aux Fautes, Calcul Haute Performance
Collective Communication, Distributed Algorithm, Network, Artificial Intelligence, Fault Tolerance, High Performance Computing

Topic description

Cette thèse a pour objectif d'explorer les problématiques liées aux communications réseau dans un tel contexte. Pour cela, il sera nécessaire de considérer l'ensemble des bibliothèques de communication existantes (telles que PCCL [3], MPI [2] ou libp2p), afin de définir celle ou celles qui seront ensuite adaptées à l'environnement considéré. Une fois ce modèle de communication établi, on s'intéressera, étant donné un ensemble de machines et leur topologie, aux adaptations nécessaires des schémas de communication des applications d'apprentissage pour minimiser le coût des communications : par exemple en utilisant des algorithmes de routage et une répartition des calculs et des données plus adaptés au réseau connectant les machines. Il faudra également être en mesure de détecter la disparition et l'ajout possible de machines et s'adapter en conséquence, par exemple en ignorant les contributions des machines perdues dans le cas d'un parallélisme de données, ou bien en redistribuant les données et les calculs.

Dans un second temps, on envisagera la gestion de l'occupation du réseau dans le cas où HiveDisk et HiveCompute sont présents simultanément sur les mêmes réseaux et les mêmes machines, afin de conserver des performances satisfaisantes pour les deux services et d'adapter dynamiquement les paramètres de qualité de service en fonction des conditions du réseau et des exigences des utilisateurs.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

The objective of this PhD thesis is to explore issues related to network communications in such a context. This will require an analysis of existing communication libraries (such as PCCL [3], MPI [2], or libp2p) in order to determine which one(s) can be adapted to the targeted environment. Once a suitable communication model is established, the work will focus—given a set of machines and their topology—on adapting communication patterns in learning applications to minimize communication overhead. This may involve using routing algorithms and better distribution of computation and data, tailored to the characteristics of the network interconnecting the machines.
The system will also need to detect the addition or loss of machines and respond accordingly—for example, by ignoring the contributions of lost machines in a data-parallel setup, or by redistributing the data and computation.

In a second phase, the project will consider how to manage network usage when HiveDisk and HiveCompute are active simultaneously on the same networks and machines. The goal will be to maintain acceptable performance levels for both services by dynamically adjusting quality-of-service parameters based on network conditions and user requirements.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2025

Funding category

Cifre

Funding further details

CIFRE ANRT

Presentation of host institution and host laboratory

Université de Bordeaux

Institution awarding doctoral degree

Université de Bordeaux

Graduate school

39 Mathématiques et Informatique

Candidate's profile

Se sentir à l'aise dans un environnement de dynamique scientifique, aimer apprendre et se confronter à des problématiques réelles, avoir une approche expérimentale, sont des qualités essentielles pour réussir cette mission. Compétences techniques et niveau requis : Solide compréhension des communications réseau (sockets, TCP/IP) ; Maîtrise de la programmation système (C/C++) et d'un langage de haut niveau (Python) ; Une expérience avec les frameworks d'intelligence artificielle (PyTorch, TensorFlow, ...) et la mesure de performance logicielle est un atout ; Un intérêt pour les systèmes distribués et le calcul haute performance (HPC) est également un plus. Langues : Bonnes compétences en communication en anglais (le français est un plus). Compétences relationnelles : Capacité à travailler en collaboration dans un environnement mêlant recherche académique et secteur industriel.
Feeling comfortable in a dynamic scientific environment, enjoying learning and tackling real-world problems, and having an experimental mindset are essential qualities for succeeding in this role. Technical skills and level required : Solid understanding of network communication (socket, TCP/IP); Proficiency in systems programming (C/C++) and high level language (Python). Experience with AI frameworks (PyTorch, Tensorflow, ...) and software performance measurement is a plus Interest in distributed systems and HPC are also a plus Languages : Good communication skills in English (French is a plus) Relational skills : Ability to work collaboratively in an academic–industry setting
2025-09-30
Partager via
Apply
Close

Vous avez déjà un compte ?

Nouvel utilisateur ?