Où docteurs et entreprises se rencontrent
Menu
Connexion

Sur les fondements de l'apprentissage relationnel neuro-symbolique // On the foundations of neurosymbolic relational AI

ABG-139271
ADUM-75343
Sujet de Thèse
23/05/2026
Université Grenoble Alpes
Saint-Martin-d'Hères - Auvergne-Rhône-Alpes - France
Sur les fondements de l'apprentissage relationnel neuro-symbolique // On the foundations of neurosymbolic relational AI
  • Informatique
IA neurosymbolique, apprentissage, graphes relationnels
neurosymbolic AI, relational graphs

Description du sujet

L'apprentissage sur données relationnelles (relational learning) est actuellement en plein essor, avec l'accélération du développement de modèles à base de réseaux de neurones sur les graphes, de méthodes d'apprentissage exploitant les liens dans les bases de données relationnelles, et l'émergence de transformeurs relationnels.

Des architectures basées sur GraphSAGE \cite{graphsage} telles que RelBench \cite{relbenchv2}, et des approches comme Rel-LLM \cite{rel-llm}, Rel-GNN \cite{rel-gnn}, Rel-GT \cite{rel-gt} montrent qu'il est désormais possible de traiter efficacement des bases relationnelles de grande taille pour des tâches de prédiction et d'analyse avancée. Cependant, ces approches restent principalement statistiques et exploitent peu la richesse sémantique des bases de données relationnelles : schémas, types, contraintes d'intégrité, dépendances fonctionnelles, règles logiques métiers ou connaissances expertes. Cette limitation conduit à des modèles parfois encore peu robustes, peu interprétables, sensibles au manque de données, et ayant des capacités de généralisation limitées hors de la distribution des données vue durant l'entraînement.

Parallèlement, le domaine de l'IA neurosymbolique a proposé des approches combinant apprentissage neuronal et raisonnement logique. Deux grandes familles de travaux se distinguent : d'une part la programmation probabiliste neurosymbolique (avec des systèmes comme DeepProbLog \cite{deepproblog}, Scallop \cite{scallop}, Dolphin \cite{dolphin}, DPNL \cite{dpnl}, etc.) et d'autre part les nombreuses méthodes traitant les graphes de connaissances (knowledge graphs) en mêlant règles logiques et réseaux de neurones (voir e.g. \cite{delplanque-nesy2025} pour un survey).
Néanmoins, toutes ces approches restent difficilement applicables à des bases relationnelles réelles de grande taille, soit en raison de problèmes de passage à l'échelle, soit parce qu'elles sont conçues spécifiquement pour le modèle de représentation de données particulier que constituent les knowledge graphs et qui se révèle peu adapté face à la richesse des données relationnelles qui peuvent comporter des attributs multiples, des types scalaires, des relations n-aires (elles mêmes attribuées), et des contraintes complexes.

L'objectif de cette thèse est de proposer les fondements théoriques, algorithmiques et systèmes nécessaires à l'introduction de mécanismes neurosymboliques dans le relational learning. La thèse étudiera comment la connaissance logique préalable (provenant des différents niveaux de règles qui gouvernent l'organisation des donnés, comme les schémas relationnels, les types, les contraintes, les règles logiques, les connaissances expertes, etc.) afin de concevoir des modèles plus robustes, plus économes en données, plus interprétables et plus conformes à des propriétés logiques ou métiers.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Relational learning is currently experiencing rapid growth, driven by the accelerated development of graph neural network models, learning methods leveraging links in relational databases, and the emergence of relational transformers.

Architectures based on GraphSAGE \cite{graphsage}, such as RelBench \cite{relbenchv2}, as well as approaches like Rel-LLM \cite{rel-llm}, Rel-GNN \cite{rel-gnn}, and Rel-GT \cite{rel-gt}, demonstrate that it is now possible to efficiently process large-scale relational databases for advanced prediction and analysis tasks. However, these approaches remain primarily statistical and make limited use of the rich semantics of relational databases, including schemas, types, integrity constraints, functional dependencies, business logic rules, and expert knowledge. As a result, the resulting models may still lack robustness and interpretability, remain sensitive to data scarcity, and exhibit limited generalization capabilities outside the distribution observed during training.

At the same time, the field of neurosymbolic AI has introduced approaches that combine neural learning with logical reasoning. Two major families of work can be distinguished: on the one hand, neurosymbolic probabilistic programming (with systems such as DeepProbLog \cite{deepproblog}, Scallop \cite{scallop}, Dolphin \cite{dolphin}, DPNL \cite{dpnl}, etc.), and on the other hand, the many methods dedicated to knowledge graphs that combine logical rules with neural networks (see, e.g., \cite{delplanque-nesy2025} for a survey). However, these approaches remain difficult to apply to large-scale real-world relational databases, either because of scalability limitations or because they are specifically designed for the knowledge graph representation model, which is poorly suited to the richness of relational data that may include multiple attributes, scalar types, n-ary relations (themselves carrying attributes), and complex constraints.

The objective of this PhD thesis is to develop the theoretical, algorithmic, and systems foundations required to introduce neurosymbolic mechanisms into relational learning. The thesis will investigate how prior logical knowledge (originating from the different levels of rules governing data organization, such as relational schemas, types, constraints, logical rules, and expert knowledge) can be integrated in order to design models that are more robust, more data-efficient, more interpretable, and better aligned with logical or domain-specific properties.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2026

Nature du financement

Précisions sur le financement

Concours allocations

Présentation établissement et labo d'accueil

Université Grenoble Alpes

Etablissement délivrant le doctorat

Université Grenoble Alpes

Ecole doctorale

217 MSTII - Mathématiques, Sciences et technologies de l'information, Informatique

Profil du candidat

Le/la candidat(e) devra avoir une formation solide en informatique, intelligence artificielle, science des données, ou dans un domaine connexe, avec de solides bases en apprentissage automatique et en intelligence artificielle. Une bonne connaissance des bases de données relationnelles, des graphes, ou des méthodes neurosymboliques sera particulièrement appréciée. Le poste requiert de bonnes compétences en programmation (notamment en Python et dans les frameworks de deep learning), ainsi qu'un intérêt pour les aspects théoriques et algorithmiques de l'apprentissage automatique. Une capacité à travailler de manière autonome, un goût pour la recherche fondamentale et appliquée, ainsi que de bonnes compétences en communication scientifique sont également attendus.
Candidates should have a strong background in computer science, artificial intelligence, data science, or a related field, with strong foundations in machine learning and artificial intelligence. Prior knowledge of relational databases, graph-based learning, or neurosymbolic methods will be highly appreciated. The position requires solid programming skills (especially in Python and deep learning frameworks), as well as an interest in the theoretical and algorithmic aspects of machine learning. The candidate should be able to work independently, have a strong interest in both fundamental and applied research, and possess good scientific communication skills.
22/06/2026
Partager via
Postuler
Fermer

Vous avez déjà un compte ?

Nouvel utilisateur ?