Où docteurs et entreprises se rencontrent
Menu
Connexion

Génération efficace de données structurées avec les LLMs // Effective Generation of Structured Data using LLMs

ABG-138164
ADUM-73229
Sujet de Thèse
11/04/2026 Contrat doctoral
Sorbonne Université SIS (Sciences, Ingénierie, Santé)
Paris - Ile-de-France - France
Génération efficace de données structurées avec les LLMs // Effective Generation of Structured Data using LLMs
  • Electronique
LLMs, Génération de données structurées
LLMs, Structured Data generation

Description du sujet

Plutôt que de générer du texte non structuré, les LLMs sont de plus en plus utilisés pour produire des sorties structurées conformes à un schéma prédéfini [8]. Ce schéma peut être défini selon divers formalismes, allant des expressions régulières à des langages plus expressifs comme JSON Schema. Une telle génération est cruciale dans différents contextes. Par exemple, les agents LLM interagissent avec d'autres agents et avec des outils externes via les protocoles A2A [1] et MCP [2], en utilisant des messages spécifiés par JSON Schema.
Plusieurs techniques ont été proposées pour exploiter les LLMs afin de produire des données JSON à partir de JSON Schema [9, 10]. La plupart d'entre elles reposent sur le décodage contraint, une approche populaire qui opère directement durant le processus de décodage du LLM en restreignant l'ensemble des tokens suivants valides, de sorte que la sortie générée soit conforme à une grammaire ou à une spécification structurelle donnée. Pour prendre en charge JSON Schema, des techniques existantes comme XGrammar [7] et Outlines [11] s'appuient sur une traduction partielle du schéma d'entrée S en une grammaire G plus ou moins équivalente, qui sera utilisée pour le décodage contraint. JSON Schema étant expressif et S étant supposé large et complexe, de telles techniques échouent généralement à garantir la correction et souffrent de limitations importantes.
Bien que JSON Schema se soit popularisé pour décrire les données échangées via des APIs et des workflows agentiques, des langages de schéma de graphes comme PG-Schema [3] émergent récemment et sont adoptés dans les principaux systèmes de bases de données ainsi que pour décrire les graphes utilisés par les agents pour augmenter les LLMs avec des fonctionnalités de recherche [6]. Exploiter les LLMs pour générer des données de graphes à partir de schémas de graphes est une direction prometteuse qui n'a pas encore été étudiée et qui pourrait créer une dynamique nouvelle.
L'objectif de ce projet doctoral est d'étudier la génération de données structurées à l'aide de LLMs en considérant deux modèles de données importants : JSON et les graphes de propriétés. Bien que la génération de données JSON basée sur les LLMs à partir de JSON Schema ait été largement étudiée, les solutions existantes souffrent de limitations sévères, tant en termes de robustesse que d'efficacité. Le premier objectif de la thèse est de remédier à ces limitations en exploitant des techniques de décodage contraint afin de prendre pleinement en charge JSON Schema tout en garantissant l'efficacité, qui est primordiale lors de l'utilisation des LLMs. Une direction possible est d'étendre les techniques de décodage contraint en leur permettant de prendre en compte des fragments plus larges de JSON Schema. Une autre direction serait d'explorer des approches hybrides combinant des solutions symboliques [4] avec des LLMs [9].
Le second objectif est d'étudier la génération basée sur les LLMs pour les graphes de propriétés à partir de spécifications PG-Schema [3]. Bien que dédié aux données de graphes, ce langage de schéma partage certaines bases communes avec JSON Schema lorsqu'il s'agit de spécifier des informations structurées représentées sur les nœuds et les arêtes des graphes décrits. Néanmoins, la complexité du problème découle de la nature du modèle de données, qui connecte des nœuds selon certains motifs et distributions de probabilité qui doivent être capturés et reflétés durant la génération. Une direction intéressante est d'explorer l'utilisation des générations probabilistes [5] avec les LLMs.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Rather than generating unstructured text, LLMs are being extensively used for producing structured output that adheres to a predefined schema [8]. This schema can be defined in various formalisms ranging from regular expressions to more expressive languages like JSON Schema. Such generation is crucial in different contexts. For instance, LLM agents interact with other agents and with external tools through A2A [1] and MCP [2] protocols using messages specified by JSON Schema.
Several techniques have been proposed for leveraging LLMs to produce JSON data from JSON Schema [9, 10]. Most of them rely on constrained decoding, a popular approach that operates directly during the LLM decoding process by restricting the set of valid next tokens so that the generated output conforms to a given grammar or structural specification. To support JSON Schema, existing techniques like XGrammar[7] and Outlines [11] rely on a partial translation of the input schema S into a more or less equivalent grammar G that will be used for the constraint decoding. Since JSON Schema is expressive and S is expected to be large and complex, such techniques usually fail to guarantee correctness, and suffer strong limitations.
While JSON Schema has been popularized for describing data exchanged through APIs and agentic workflows, recently graph schema languages like PG-Schema [3] are emerging and being adopted in major database systems and for describing graphs used by agents to augment LLMs with retrieval features [6]. Leveraging LLMs to generate graph data starting from graph schemas is an appealing direction that has not yet been investigated and which could create momentum.

The aim of this doctoral project is to investigate the generation of structured data using LLMs by considering two important data models: JSON and property graphs. While LLM-based generation of JSON data starting from JSON Schema has been extensively studied, existing solutions suffer severe limitations both in terms of robustness and effectiveness. The first objective of the thesis is to address these limitations by leveraging constrained decoding techniques in order to fully support JSON Schema while ensuring efficiency which is paramount when using LLMs. A possible direction is to extend constrained decoding techniques by allowing them to consider larger fragments of JSON Schema. Another direction would be to investigate hybrid approaches combining symbolic solutions [4] with LLMs [9].
The second objective is to study LLM-based generation for property graphs starting from PG-Schema [3] specifications. Despite being dedicated to graph data, this schema language shares some common ground with JSON Schema when it comes to specify structured information represented on the nodes and the edges of the graphs being described. Still, the complexity of the problem stems from the nature of the data model which connects nodes following some patterns and probability distributions that need to be captured and reflected during generation. An interesting direction to investigate is to leverage the use of probabilistic
generations [5] with LLMs.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2026

Nature du financement

Contrat doctoral

Précisions sur le financement

Concours pour un contrat doctoral

Présentation établissement et labo d'accueil

Sorbonne Université SIS (Sciences, Ingénierie, Santé)

Etablissement délivrant le doctorat

Sorbonne Université SIS (Sciences, Ingénierie, Santé)

Ecole doctorale

130 Ecole Doctorale d'Informatique, Télécommunications et Electronique

Profil du candidat

Les candidats devront avoir une formation en informatique avec des compétences en bases de données, en apprentissage automatique et en intelligence artificielle. La maîtrise de l'anglais est requise.
The applicants should have a background in computer science with proficiency in databases, machine learning and artificial intelligence. Fluency in English is, thus, required.
01/05/2026
Partager via
Postuler
Fermer

Vous avez déjà un compte ?

Nouvel utilisateur ?