I am*	↓ ↓
E-mail*	↓ ↓

Back to search results

Sécurité des modèles d'IA générative: détection des attaques par porte dérobée de nouvelle génération // Securing Generative AI Model: Detection of Advanced Backdoor Attacks

Ref. ABG-138747	Thesis topic
2026-04-28		Public/private mixed funding

CEA Paris-Saclay Laboratoire Instrumentation Intelligente, Distribuée et Embarquée

Workplace

Saclay

Topic title

Sécurité des modèles d'IA générative: détection des attaques par porte dérobée de nouvelle génération // Securing Generative AI Model: Detection of Advanced Backdoor Attacks

Scientific expertise

Data science (storage, security, measurement, analysis)

Keywords

Data intelligence dont Intelligence Artificielle / Défis technologiques / Cybersécurité : hardware et software / Défis technologiques

Topic description

Cette thèse vise à étudier et détecter les attaques par porte dérobée au sein des écosystèmes de modèles d’IA générative (modèles autonomes, systèmes de génération augmentée par récupération (RAG) et agents autonomes basés sur des LLM).

Contexte : De nombreux utilisateurs (particuliers, institutions, ONG et même entreprises) ne sont actuellement pas en mesure de développer leurs propres systèmes d'IA générative. Ils s’orientent donc vers le téléchargement d’agents ou de modèles d’IA générative open source, généralement conçus pour être très accessibles et faciles à utiliser, ne nécessitant que peu d’expertise technique. Cette pratique est largement répandue en raison du grand nombre de modèles open source et d’implémentations d’agents LLM disponibles en ligne (par exemple, Hugging Face héberge plus de deux millions de modèles publics). Malheureusement, l’intégrité comportementale du modèle téléchargé n’est jamais vérifiée, et celui-ci peut avoir été préalablement compromis par une porte dérobée. Il existe donc un besoin urgent de mettre en place des mécanismes de défense capables d’analyser les composants d’un système d’IA générative (modèles et bases de connaissances) et d’identifier ceux qui ont été empoisonnés.

Objectifs : La recherche se concentrera sur le développement de mécanismes innovants de détection et de défense contre les attaques furtives basées sur des triggers, en mettant l’accent sur les scénarios de déploiement réels et sur des benchmarks d’évaluation robustes. En plus de développer des mécanismes de défense et de mettre le code à disposition en open source, la thèse vise également à fournir à la communauté scientifique un framework d’évaluation complet.

------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

This PhD aims to investigate and detect backdoor attacks within generative AI model ecosystems, including standalone models, retrieval-augmented generation systems (RAG), and LLM-based agent. The research will focus on developing novel detection and defense mechanisms against stealthy trigger-based attacks, emphasizing real-world deployment scenarios and robust evaluation benchmarks. In addition to developing defense mechanisms and releasing the code as open source, the thesis also aims to provide the scientific community with a comprehensive evaluation framework.

Context: Many users (persons, institutions, NGOs and even industries) are currently not in a position to develop their own AI agents. Thus, they may download open-source genAI models or LLM-based agents that are typically designed to be highly accessible and user-friendly, requiring minimal to no technical expertise. This practice is widespread due to the large number of open-source models and LLM agent implementations available online (e.g. Hugging Face hosts over two million public models). Unfortunately, the behavioral integrity of the downloaded model is never verified, and the model may have been previously backdoored. There is therefore an urgent need to provide defense mechanisms capable of scanning the components of a generative AI system (models and knowledge bases) and identifying those that have been poisoned.

Objective: The research will focus on developing novel detection and defense mechanisms against stealthy trigger-based attacks, emphasizing real-world deployment scenarios and robust evaluation benchmarks. In addition to developing defense mechanisms and releasing the code as open source, the thesis also aims to provide the scientific community with a comprehensive evaluation framework.

------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département d’Instrumentation Numérique
Service : Service Monitoring, Contrôle et Diagnostic
Laboratoire : Laboratoire Instrumentation Intelligente, Distribuée et Embarquée
Date de début souhaitée : 01-09-2026
Ecole doctorale : Sciences et Technologies de l’Information et de la Communication (STIC)
URL : https://list.cea.fr/fr/

Funding category

Public/private mixed funding

Funding further details

Presentation of host institution and host laboratory

CEA Paris-Saclay Laboratoire Instrumentation Intelligente, Distribuée et Embarquée

Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département d’Instrumentation Numérique
Service : Service Monitoring, Contrôle et Diagnostic

Candidate's profile

Master 2 IA, Machine Learning ou statistiques

Partager via

Apply

Vous avez déjà un compte ?

Nouvel utilisateur ?

Mr/Mrs*	↓ ↓
First name*	↓ ↓
Last name*	↓ ↓
E-mail*	↓ ↓
Confirm your e-mail*	↓ ↓
Password*	8 characters minimum, including at least one figure, one lower case letter and one uppercase letter. ↓ ↓
Please confirm password*	↓ ↓