Evaluation de la pertinence des techniques RAG et graph-RAG pour la conformité règlementaire des technologies de santé // RAG and graph-RAG techniques assessment for health technologies regulatory compliance
|
ABG-138359
ADUM-73974 |
Thesis topic | |
| 2026-04-14 | Public funding alone (i.e. government, region, European, international organization research grant) |
Université de Technologie de Compiègne
Compiègne cedex - Les Hauts de France - France
Evaluation de la pertinence des techniques RAG et graph-RAG pour la conformité règlementaire des technologies de santé // RAG and graph-RAG techniques assessment for health technologies regulatory compliance
- Computer science
Très grands modèles de langage, Techniques de génération augmentée par récupération de graphes de connaissances, Données textuelles, Technologies de santé, Conformité règlementaire
Large Language Models, Graph-Retrieval augmented generation (RAG) techniques, Text data, Health technologies, Regulatory compliance
Large Language Models, Graph-Retrieval augmented generation (RAG) techniques, Text data, Health technologies, Regulatory compliance
Topic description
Le projet doctoral vise à étudier la pertinence de l'exploitation LLMs (Large Language Models) améliorés par des techniques graph-RAG (Retrieval augmented generation) pour assister les concepteurs académiques de technologies de santé et leurs exploitants hospitaliers, sous dotés en profils juridiques experts, dans leurs démarches de mise en conformité réglementaire, avec entre autres la recherche d'exigences contradictoires entre textes.
Ce projet s'inscrit dans la continuité de travaux initiés dans le cadre d'un stage de Master 2 sur un corpus de près de 700 textes juridiques à divers stades d'élaboration (du projet de loi au décret), avec notamment la construction des bases de données tokenisées et de contextes (chunks) pour l'évaluation de modèles d'instructions améliorés par des techniques RAG. Priorité étant donnée aux modèles open source pour lesquels les bases de données d'entrainement sont connues et dont le ratio performance/coût est le plus favorable.
Le projet doctoral se focalisera sur l'étude de l'apport des techniques graph-RAG dans l'amélioration des résultats obtenus et impliquera l'identification des contenus les plus pertinents à convertir en graphes, la recherche et la mise en œuvre de stratégies optimisées de prompt engineering exploitant les bases de connaissances ainsi construites (bases de chunks et bases de graphes). Un volet conséquent du projet sera consacré à la recherche et au test des critères d'évaluation des modèles les plus pertinents au vu des tâches qui leur seront déléguées. Selon les cas d'usages retenus durant la mise en œuvre du projet, l'exploration de stratégies de fine tuning de modèles pourra s'envisager.
Le projet sera conduit en collaboration avec l'Instituto de Tecnología para la Innovación en Salud y Bienestar (ITISB) de l'Université chilienne Andrés Bello (UNAB), et donnera l'opportunité au.à la doctorant.e de conduire une partie de ses recherches au Chili.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
The thesis project aims to study the relevance of LLMs (Large Language Models) improved by graph-RAG (Retrieval augmented generation) techniques to assist academic health technology designers and their hospital operators, under equipped with expert legal profiles, in their regulatory compliance procedures, with among other things the search for contradictory requirements between texts.
This project is the follow-up of a work initiated as part of a Master 2 internship, on a corpus of nearly 700 legal texts at various stages of development (from the bill to the decree), that includes the construction of tokenized databases and context chunks databases for the assessment of instruction models improved by RAG techniques. Priority is given to open source models for which training databases are known and whose performance/cost ratio is the most favorable.
The thesis project will focus on studying graph-RAG techniques to improve the results obtained, and will involve the identification of the most relevant content to be converted into graphs, the research and the implementation of optimized prompt engineering strategies exploiting the knowledge bases thus constructed (chunk bases and graph bases). A substantial part of the project will be devoted to the research and testing of the evaluation criteria of the most relevant models in view of the tasks delegated to them. Depending on the use cases selected during the implementation of the project, the exploration of fine tuning strategies may be considered.
The project will be conducted in collaboration with the Instituto de Tecnología para la Innovación en Salud y Bienestar (ITISB) of the Chilean University Andrés Bello (UNAB), and will give to the PhD candidate the opportunity to conduct a part of his/her research in Chile.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Ce projet s'inscrit dans la continuité de travaux initiés dans le cadre d'un stage de Master 2 sur un corpus de près de 700 textes juridiques à divers stades d'élaboration (du projet de loi au décret), avec notamment la construction des bases de données tokenisées et de contextes (chunks) pour l'évaluation de modèles d'instructions améliorés par des techniques RAG. Priorité étant donnée aux modèles open source pour lesquels les bases de données d'entrainement sont connues et dont le ratio performance/coût est le plus favorable.
Le projet doctoral se focalisera sur l'étude de l'apport des techniques graph-RAG dans l'amélioration des résultats obtenus et impliquera l'identification des contenus les plus pertinents à convertir en graphes, la recherche et la mise en œuvre de stratégies optimisées de prompt engineering exploitant les bases de connaissances ainsi construites (bases de chunks et bases de graphes). Un volet conséquent du projet sera consacré à la recherche et au test des critères d'évaluation des modèles les plus pertinents au vu des tâches qui leur seront déléguées. Selon les cas d'usages retenus durant la mise en œuvre du projet, l'exploration de stratégies de fine tuning de modèles pourra s'envisager.
Le projet sera conduit en collaboration avec l'Instituto de Tecnología para la Innovación en Salud y Bienestar (ITISB) de l'Université chilienne Andrés Bello (UNAB), et donnera l'opportunité au.à la doctorant.e de conduire une partie de ses recherches au Chili.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
The thesis project aims to study the relevance of LLMs (Large Language Models) improved by graph-RAG (Retrieval augmented generation) techniques to assist academic health technology designers and their hospital operators, under equipped with expert legal profiles, in their regulatory compliance procedures, with among other things the search for contradictory requirements between texts.
This project is the follow-up of a work initiated as part of a Master 2 internship, on a corpus of nearly 700 legal texts at various stages of development (from the bill to the decree), that includes the construction of tokenized databases and context chunks databases for the assessment of instruction models improved by RAG techniques. Priority is given to open source models for which training databases are known and whose performance/cost ratio is the most favorable.
The thesis project will focus on studying graph-RAG techniques to improve the results obtained, and will involve the identification of the most relevant content to be converted into graphs, the research and the implementation of optimized prompt engineering strategies exploiting the knowledge bases thus constructed (chunk bases and graph bases). A substantial part of the project will be devoted to the research and testing of the evaluation criteria of the most relevant models in view of the tasks delegated to them. Depending on the use cases selected during the implementation of the project, the exploration of fine tuning strategies may be considered.
The project will be conducted in collaboration with the Instituto de Tecnología para la Innovación en Salud y Bienestar (ITISB) of the Chilean University Andrés Bello (UNAB), and will give to the PhD candidate the opportunity to conduct a part of his/her research in Chile.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Funding category
Public funding alone (i.e. government, region, European, international organization research grant)
Funding further details
Concours pour un contrat doctoral
Presentation of host institution and host laboratory
Université de Technologie de Compiègne
Institution awarding doctoral degree
Université de Technologie de Compiègne
Graduate school
71 Sciences pour l'ingénieur
Candidate's profile
Titulaire d'un diplôme d'ingénieur en génie informatique ou de Master 2 en Informatique ou Mathématiques appliquées avec une spécialité dans le traitement automatique des langues.
Solide formation théorique sur les algorithmes d'apprentissage automatique, et en particulier les LLMs, et la structuration de graphes de connaissances.
Première expérience réussie de la production de jeux de données textuelles tokenisées et contextuelles à partir de grands corpus de textes (plusieurs centaines de documents de plusieurs dizaines de pages, idéalement de nature juridique), du benchmark et de l'évaluation de LLMs, ainsi que de leur amélioration par des techniques RAG (et idéalement graph-RAG).
Maîtrise démontrée du codage dans les langages Python et JavaScript, des bibliothèques et du cadre d'apprentissage PyTorch, ainsi que des outils GitLab/GitHub.
Expérience de la gestion de projet démontrée.
Savoir-être avérés: très fortes proactivité et capacité d'auto-organisation, curiosité scientifique et dynamisme, grande rigueur, fort engagement, adaptabilité aux aléas, esprit d'équipe et communication.
Capacité à comprendre et s'exprimer en espagnol est un plus.
Holds an engineering degree in computer engineering or a master degree in computer science or applied mathematics with a specialization in natural language processing. Solid theoretical background in machine learning algorithms, particularly large language models (LLMs), and knowledge graph structuring. Proven experience in producing tokenized and contextual text datasets from large text corpora (several hundred documents of several dozen pages each, ideally of a legal nature), benchmarking and evaluating LLMs, as well as improving them using RAG techniques (and ideally graph-RAG). Demonstrated proficiency in coding in Python and JavaScript, PyTorch libraries and frameworks, as well as GitLab/GitHub tools. Project management experience. Soft skills: strong proactivity and self-organization, scientific curiosity and dynamism, high level of rigor, strong commitment, adaptability to unforeseen circumstances, teamwork, and communication skills. The ability to understand and speak Spanish is a plus.
Holds an engineering degree in computer engineering or a master degree in computer science or applied mathematics with a specialization in natural language processing. Solid theoretical background in machine learning algorithms, particularly large language models (LLMs), and knowledge graph structuring. Proven experience in producing tokenized and contextual text datasets from large text corpora (several hundred documents of several dozen pages each, ideally of a legal nature), benchmarking and evaluating LLMs, as well as improving them using RAG techniques (and ideally graph-RAG). Demonstrated proficiency in coding in Python and JavaScript, PyTorch libraries and frameworks, as well as GitLab/GitHub tools. Project management experience. Soft skills: strong proactivity and self-organization, scientific curiosity and dynamism, high level of rigor, strong commitment, adaptability to unforeseen circumstances, teamwork, and communication skills. The ability to understand and speak Spanish is a plus.
2026-05-04
Apply
Close
Vous avez déjà un compte ?
Nouvel utilisateur ?
Get ABG’s monthly newsletters including news, job offers, grants & fellowships and a selection of relevant events…
Discover our members
Servier
Nokia Bell Labs France
ANRT
ADEME
Aérocentre, Pôle d'excellence régional
SUEZ
Medicen Paris Region
Nantes Université
Laboratoire National de Métrologie et d'Essais - LNE
Ifremer
Groupe AFNOR - Association française de normalisation
Généthon
Tecknowmetrix
ONERA - The French Aerospace Lab
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
TotalEnergies
Institut Sup'biotech de Paris
-
JobRef. 136824, Occitanie , France
CIRADChercheur.e écophysiologiste sur efficience d'utilisation de l'eau écosystèmes terrestres
Scientific expertises :Ecology, environment - Agronomy, agri food
Experience level :Junior
-
JobRef. 137159, Pays de la Loire , FranceHM.CLAUSE
Project Manager – Genomics and Sequencing Technology Development
Scientific expertises :Biotechnology
Experience level :Confirmed
