Contrôle agentique fiable pour les réseaux sans fil basés sur jumeaux numériques en présence d'incertitudes et d'écarts réalité-modèle // Trustworthy Agentic Control for Digital Twin–Based Wireless Networks under Uncertainty and Reality Gaps
|
ABG-136702
ADUM-71730 |
Sujet de Thèse | |
| 14/03/2026 |
Université de Lorraine
Vandoeuvre-lès-Nancy - Grand Est - France
Contrôle agentique fiable pour les réseaux sans fil basés sur jumeaux numériques en présence d'incertitudes et d'écarts réalité-modèle // Trustworthy Agentic Control for Digital Twin–Based Wireless Networks under Uncertainty and Reality Gaps
- Informatique
IA agentique, IA fiable, Jumeau numérique, Décision autonome, Apprentissage par renforcement sûr, Systèmes multi-agents
Agentic AI, Trustworthy AI, Digital Twin, Autonomous Decision-Making, Safe Reinforcement Learning, Multi-Agent Systems
Agentic AI, Trustworthy AI, Digital Twin, Autonomous Decision-Making, Safe Reinforcement Learning, Multi-Agent Systems
Description du sujet
Un jumeau numérique (JN) fournit une représentation virtuelle d'un système physique et est largement utilisé pour la supervision et l'aide à la décision. Les JNs de réseaux sans fil ont récemment été formalisés [2] et sont considérés comme des briques essentielles du contrôle autonome des réseaux [3]. Du point de vue IA, un JN comprend deux couches. La première repose sur des modèles descriptifs et prédictifs permettant d'estimer l'état du système. Nos travaux ont montré la difficulté de concevoir de tels JN et de maintenir une fidélité entre le virtuel et le réel dans l'IIoT [4]. La seconde couche concerne les mécanismes de décision construits au-dessus du JN : des politiques d'action y sont élaborées afin de contrôler, en boucle fermée, le comportement du système physique. Le JN devient alors un élément actif du cycle perception-décision-action. Les approches de modélisation et de simulation multi-agents permettent de représenter ces dynamiques complexes [5].
Le contrôle autonome s'inscrit naturellement dans des abstractions fondées sur les agents, depuis les cadres théoriques initiaux [6] jusqu'aux approches actuelles d'IA agentique [7]. Dans les architectures O-RAN et Edge, ces paradigmes contribuent à améliorer l'allocation distribuée des ressources [8,9], le plus souvent via l'apprentissage par renforcement multi-agents pour optimiser les performances [10,11]. Néanmoins, la majorité des approches agentiques et basées sur l'apprentissage se concentrent surtout sur la maximisation des performances et supposent implicitement l'existence d'une représentation fiable de l'environnement. Or, les modèles internes - appris, simulés ou fondés sur des JN - peuvent s'écarter du comportement réel du système physique, en raison d'hypothèses de modélisation, retards d'observation, changements environnementaux ou dynamiques non stationnaires. Ces écarts, parfois invisibles, soulèvent des questions sur la fiabilité et la crédibilité des décisions prises par des agents autonomes. Avec l'augmentation du niveau d'autonomie, les agents doivent opérer dans des conditions d'observabilité partielle, d'incertitude et de fidélité de modèle évolutif [12]. Lorsque des agents autonomes, par exemple fondés sur l'apprentissage par renforcement fédéré [13], agissent à travers un JN imparfait, leurs actions modifient les dynamiques mêmes du système qu'ils observent. Les décisions sont alors prises à partir de représentations incomplètes ou biaisées. Un risque majeur apparaît lorsque des performances apparemment satisfaisantes coexistent avec un raisonnement interne incorrect, pouvant conduire à des phénomènes de 'dérive silencieuse', d'instabilité ou à des comportements dangereux. Contrairement aux approches visant une 'performance à tout prix', cette thèse se concentre sur la fiabilité du processus décisionnel. La question centrale est : comment des systèmes d'IA peuvent-ils prendre des décisions fiables et sûres lorsqu'ils opèrent sur des réseaux sans fil dynamiques via un JN imparfait et évolutif ? Cette thèse vise à analyser les mécanismes de décision dans des boucles de contrôle reposant sur des JN, en considérant les réseaux sans fil comme un cas représentatif de systèmes dynamiques complexes. Les principaux objectifs sont :
- concevoir des mécanismes de contrôle garantissant un comportement stable malgré les imprécisions du JN, en intégrant la détection d'incertitude et des stratégies de décision contrainte ou de dégradation maîtrisée, inspirées de l'apprentissage par renforcement sûr[14] ;
- développer des modèles causaux adaptatifs capables de distinguer changements structurels et biais de modélisation afin de préserver la validité du raisonnement décisionnel en contexte non stationnaire ;
- étudier les limites de l'autonomie dans des réseaux de grande dimension et concevoir des mécanismes de coordination décentralisés et fédérés, conciliant autonomie locale, stabilité globale et frugalité des ressources.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Context and Motivation
Digital Twins (DTs) support complex distributed systems [1] such as wireless communication networks and Industry 4.0 environments. A DT maintains a virtual representation of the physical system, updated through observations and is widely used for monitoring and decision support. In wireless networks, Network DTs were recently formalized within standardization efforts [2], and are envisioned as key enablers for autonomous network control [3].
From an AI perspective, DTs comprise two complementary layers. The first relies on descriptive and predictive models to estimate the system state. Our previous work highlighted the difficulty of constructing such twins and maintaining a valid virtual-real mapping in industrial IoT [4]. The second layer concerns decision-making and control processes built on top of the DT, where action policies are derived from the virtual representation to influence the physical system behavior in a closed loop. In this setting, the DT becomes an active component of the perception-decision-action cycle. Multi-agent modeling and simulation capture these dynamics [5].
Autonomous control naturally aligns with agent-based abstractions, evolving from early theory [6] to Agentic AI [7]. In O-RAN and Edge settings, these frameworks enhance distributed resource allocation [8,9], typically leveraging Multi-Agent Reinforcement Learning (MARL) to optimize performance [10,11]. However, most existing agentic and learning-based approaches primarily emphasize performance maximization and implicitly assume a reliable representation of the environment. In practice, the internal models or representations used for decision-making, whether learned, simulated, or DT–based, may diverge from the physical system due to modeling assumptions, delayed observations, environmental changes, or non-stationary dynamics. Such divergence may not immediately affect performance, raising critical questions regarding the reliability and trustworthiness of agentic decision-making.
Research Problem
As autonomy increases, agents must operate under partial observability, uncertainty, and evolving model fidelity [12]. When autonomous agents, such as those implemented using Federated Reinforcement Learning [13], act through an imperfect DT, they influence the system dynamics they observe. Decisions are therefore taken under incomplete or biased representations. A critical risk arises where good apparent performance coexists with incorrect internal reasoning, leading to 'silent drift,' instability, or unsafe behavior. Unlike approaches that optimize for 'performance at all costs' [11], this thesis addresses the reliability and trustworthiness of the decision-making process itself.
The central research question is :
How can agentic AI systems make reliable and trustworthy decisions, without inducing unstable behaviors, when acting on dynamic wireless networks through an imperfect and evolving D T?
Scientific Objectives
This thesis aims to analyze agentic decision-making mechanisms in DT-based closed-loop control, using wireless networks as a representative class of complex dynamical systems. The main objectives are :
- Trustworthy Control and Stability under Reality Gaps. Design agentic control mechanisms ensuring stable and safe behavior despite DT inaccuracies, by detecting uncertainty and enabling constrained decision-making or graceful degradation, building on safe reinforcement learning principles [14].
- Adaptive Causal World Modeling. Develop adaptive causal world models that distinguish structural environmental changes from modeling biases, ensuring valid decision logic under non-stationarity.
- Scalable Decentralized Coordination. Analyze the limits of autonomy in large-scale networks and design decentralized and federated coordination mechanisms balancing local autonomy, global stability and frugality.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Le contrôle autonome s'inscrit naturellement dans des abstractions fondées sur les agents, depuis les cadres théoriques initiaux [6] jusqu'aux approches actuelles d'IA agentique [7]. Dans les architectures O-RAN et Edge, ces paradigmes contribuent à améliorer l'allocation distribuée des ressources [8,9], le plus souvent via l'apprentissage par renforcement multi-agents pour optimiser les performances [10,11]. Néanmoins, la majorité des approches agentiques et basées sur l'apprentissage se concentrent surtout sur la maximisation des performances et supposent implicitement l'existence d'une représentation fiable de l'environnement. Or, les modèles internes - appris, simulés ou fondés sur des JN - peuvent s'écarter du comportement réel du système physique, en raison d'hypothèses de modélisation, retards d'observation, changements environnementaux ou dynamiques non stationnaires. Ces écarts, parfois invisibles, soulèvent des questions sur la fiabilité et la crédibilité des décisions prises par des agents autonomes. Avec l'augmentation du niveau d'autonomie, les agents doivent opérer dans des conditions d'observabilité partielle, d'incertitude et de fidélité de modèle évolutif [12]. Lorsque des agents autonomes, par exemple fondés sur l'apprentissage par renforcement fédéré [13], agissent à travers un JN imparfait, leurs actions modifient les dynamiques mêmes du système qu'ils observent. Les décisions sont alors prises à partir de représentations incomplètes ou biaisées. Un risque majeur apparaît lorsque des performances apparemment satisfaisantes coexistent avec un raisonnement interne incorrect, pouvant conduire à des phénomènes de 'dérive silencieuse', d'instabilité ou à des comportements dangereux. Contrairement aux approches visant une 'performance à tout prix', cette thèse se concentre sur la fiabilité du processus décisionnel. La question centrale est : comment des systèmes d'IA peuvent-ils prendre des décisions fiables et sûres lorsqu'ils opèrent sur des réseaux sans fil dynamiques via un JN imparfait et évolutif ? Cette thèse vise à analyser les mécanismes de décision dans des boucles de contrôle reposant sur des JN, en considérant les réseaux sans fil comme un cas représentatif de systèmes dynamiques complexes. Les principaux objectifs sont :
- concevoir des mécanismes de contrôle garantissant un comportement stable malgré les imprécisions du JN, en intégrant la détection d'incertitude et des stratégies de décision contrainte ou de dégradation maîtrisée, inspirées de l'apprentissage par renforcement sûr[14] ;
- développer des modèles causaux adaptatifs capables de distinguer changements structurels et biais de modélisation afin de préserver la validité du raisonnement décisionnel en contexte non stationnaire ;
- étudier les limites de l'autonomie dans des réseaux de grande dimension et concevoir des mécanismes de coordination décentralisés et fédérés, conciliant autonomie locale, stabilité globale et frugalité des ressources.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Context and Motivation
Digital Twins (DTs) support complex distributed systems [1] such as wireless communication networks and Industry 4.0 environments. A DT maintains a virtual representation of the physical system, updated through observations and is widely used for monitoring and decision support. In wireless networks, Network DTs were recently formalized within standardization efforts [2], and are envisioned as key enablers for autonomous network control [3].
From an AI perspective, DTs comprise two complementary layers. The first relies on descriptive and predictive models to estimate the system state. Our previous work highlighted the difficulty of constructing such twins and maintaining a valid virtual-real mapping in industrial IoT [4]. The second layer concerns decision-making and control processes built on top of the DT, where action policies are derived from the virtual representation to influence the physical system behavior in a closed loop. In this setting, the DT becomes an active component of the perception-decision-action cycle. Multi-agent modeling and simulation capture these dynamics [5].
Autonomous control naturally aligns with agent-based abstractions, evolving from early theory [6] to Agentic AI [7]. In O-RAN and Edge settings, these frameworks enhance distributed resource allocation [8,9], typically leveraging Multi-Agent Reinforcement Learning (MARL) to optimize performance [10,11]. However, most existing agentic and learning-based approaches primarily emphasize performance maximization and implicitly assume a reliable representation of the environment. In practice, the internal models or representations used for decision-making, whether learned, simulated, or DT–based, may diverge from the physical system due to modeling assumptions, delayed observations, environmental changes, or non-stationary dynamics. Such divergence may not immediately affect performance, raising critical questions regarding the reliability and trustworthiness of agentic decision-making.
Research Problem
As autonomy increases, agents must operate under partial observability, uncertainty, and evolving model fidelity [12]. When autonomous agents, such as those implemented using Federated Reinforcement Learning [13], act through an imperfect DT, they influence the system dynamics they observe. Decisions are therefore taken under incomplete or biased representations. A critical risk arises where good apparent performance coexists with incorrect internal reasoning, leading to 'silent drift,' instability, or unsafe behavior. Unlike approaches that optimize for 'performance at all costs' [11], this thesis addresses the reliability and trustworthiness of the decision-making process itself.
The central research question is :
How can agentic AI systems make reliable and trustworthy decisions, without inducing unstable behaviors, when acting on dynamic wireless networks through an imperfect and evolving D T?
Scientific Objectives
This thesis aims to analyze agentic decision-making mechanisms in DT-based closed-loop control, using wireless networks as a representative class of complex dynamical systems. The main objectives are :
- Trustworthy Control and Stability under Reality Gaps. Design agentic control mechanisms ensuring stable and safe behavior despite DT inaccuracies, by detecting uncertainty and enabling constrained decision-making or graceful degradation, building on safe reinforcement learning principles [14].
- Adaptive Causal World Modeling. Develop adaptive causal world models that distinguish structural environmental changes from modeling biases, ensuring valid decision logic under non-stationarity.
- Scalable Decentralized Coordination. Analyze the limits of autonomy in large-scale networks and design decentralized and federated coordination mechanisms balancing local autonomy, global stability and frugality.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Nature du financement
Précisions sur le financement
Enseignement supérieur
Présentation établissement et labo d'accueil
Université de Lorraine
Etablissement délivrant le doctorat
Université de Lorraine
Ecole doctorale
77 IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES
Profil du candidat
Candidat(e) titulaire (ou en dernière année) d'un Master ou diplôme d'ingénieur en informatique, réseaux, télécommunications ou domaine connexe, avec un profil orienté intelligence artificielle. Des compétences en apprentissage automatique, optimisation ou analyse de données, ainsi qu'un intérêt pour leur application aux problématiques des réseaux informatiques et des systèmes distribués sont fortement souhaités.
Candidates must hold (or be in the final year of) a Master's degree or an engineering degree in computer science, networking, telecommunications, or a related field, with a profile oriented toward artificial intelligence. Strong skills in machine learning, optimization, or data analysis are highly desirable, along with an interest in applying these techniques to problems in computer networks and distributed systems.
Candidates must hold (or be in the final year of) a Master's degree or an engineering degree in computer science, networking, telecommunications, or a related field, with a profile oriented toward artificial intelligence. Strong skills in machine learning, optimization, or data analysis are highly desirable, along with an interest in applying these techniques to problems in computer networks and distributed systems.
19/04/2026
Postuler
Fermer
Vous avez déjà un compte ?
Nouvel utilisateur ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
SUEZ
TotalEnergies
Nantes Université
Tecknowmetrix
Groupe AFNOR - Association française de normalisation
ADEME
Aérocentre, Pôle d'excellence régional
Institut Sup'biotech de Paris
ANRT
Généthon
Servier
Nokia Bell Labs France
Laboratoire National de Métrologie et d'Essais - LNE
Medicen Paris Region
ONERA - The French Aerospace Lab
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
Ifremer
-
EmploiRef. 136697Paris , Ile-de-France , France
Association Bernard Gregory ABGAnimateur.rice / Formateur.rice
Expertises scientifiques :Indifférent
Niveau d’expérience :Niveau d'expérience indifférent
-
EmploiRef. 136129Nouméa , Territoires d'Outre-Mer , France
IFREMERResponsable Scientifique d'Unité Responsable de la Délégation de la Nouvelle Calédonie H/F
Expertises scientifiques :Ecologie, environnement
Niveau d’expérience :Niveau d'expérience indifférent
