Doctorant thèse CIFRE (TAL)
ABG-133616 | Thesis topic | |
2025-09-29 | Cifre |

- Computer science
- Digital
Topic description
En tant que doctorant, vous faites de la recherche en traitement automatique des langues (TAL/NLP) pour développer de nouvelles connaissances et ouvrir la possibilité de nouvelles applications industrielles. Votre sujet de recherche est l’amélioration des systèmes RAG (retrieval-augmented generation) grâce aux connaissances structurées. Vous travaillez avec les chercheurs des équipes Getalp et MRIM, ainsi qu’au sein de l’équipe de data scientists de Probayes.
Description du poste :
Vous êtes encadré(e) par un chercheur de l’équipe Getalp ou MRIM (Laboratoire d’Informatique de Grenoble), ainsi que par le Directeur Scientifique Traitement Automatique des Langues de Probayes.
Vous travaillez à l’extension des méthodes de RAG (retrieval-augmented generation) grâce aux données structurées.
Un système RAG permet l’interrogation en langage naturel d’une base de documents :
- Les documents sont découpés et indexés dans une base de données vectorielles
- La requête utilisateur est rapprochée des passages indexés, et les passages les plus proches sont remontés
- Un LLM (grand modèle de langue) génère la réponse à la question à partir des passages pertinents.
Plusieurs structures peuvent être extraites d’une base documentaire :
- La structure interdocuments
- La structure intradocument
- Des structure sémantiques, entre concepts présents dans les documents
Dans cette thèse, nous proposons d’exploiter ces structures pour améliorer :
- La compréhension et le nettoyage de la base documentaire
- La récupération des passages pertinents
- La génération de réponses pertinentes et leur justification
La recherche pourra s’appuyer sur :
- Des déploiement industriels de RAG existant chez Probayes, incluant des jeux de données, bancs d’essais, tests utilisateurs et moyens de calcul
- L’état de l’art de la recherche d’information et de l’exploitation de structure parmi les travaux récents de Getalp et MRIM.
La thèse se déroulera à Grenoble, en alternance dans les bureaux de Probayes (Montbonnot) et au sein du LIG (Campus de Saint Martin d’Hères).
Funding category
Funding further details
Presentation of host institution and host laboratory
Spin-off de l’INRIA et du CNRS, Probayes est né de la volonté d’être le chainon manquant entre la recherche et l’industrie dans le domaine de la science des données.
Avec 20 ans d’expérience, Probayes est un des leaders français dans le développement de solutions en Intelligence Artificielle. Nos Data Scientists travaillent avec les plus grands groupes pour développer des solutions IA sur mesure, à l’état de l’art de la littérature scientifique et à fort ROI.
Avec des expertises en apprentissage automatique, en optimisation, en fusion de capteurs, en vision par ordinateur, et en traitement automatique des langues (NLP), complétées par des compétences de conception et de développement, Probayes développe, pour ses clients, des modèles comme moteur d’innovation, d’optimisation et d’aide à la décision.
Probayes adresse ses solutions auprès de secteurs divers comme l’automobile, la défense, la logistique, l’industrie, la santé, ou la banque. Nous souhaitons poursuivre notre développement à travers ces thématiques mais également développer des collaborations sur des nouveaux secteurs stratégiques. Probayes a rejoint le groupe La Poste en mai 2016 et en est devenu le centre de compétence en Intelligence Artificielle. Probayes bénéficie également de cette collaboration dans le domaine des infrastructures « Big Data » et de la sécurité informatique.
Basée à Montbonnot (38), Probayes a ouvert en 2017 une antenne à Paris.
Website :
Candidate's profile
Qualifications :
- Docteur en sciences (Physique, Mathématiques appliquées, ou Informatique)
Compétences Souhaitées
- Compétences requises :
- Analyse des données (statistiques, probabilités, visualisation de données)
- Programmation : Python, pandas, numpy
- Outils de travail en équipe : Git, Gitlab CI
- Français et anglais (oral et écrit)
- Compétences appréciées :
- Première expérience en apprentissage automatique (sklearn, xgboost)
- Première expérience en Deep Learning (tensorflow, Pytorch)
- Connaissances en Big Data (Spark, Dask)
- Connaissances en bases de données (PostgreSQL, MySQL, MongoDB …)
- Langages de programmation : C/C++, Java, Scala
- Qualités requises :
- Vous êtes autonome, curieux(se) et rigoureux(se)
- Vous aimez travailler en équipe
- Vous avez une bonne communication orale et écrite
Vous avez déjà un compte ?
Nouvel utilisateur ?
Get ABG’s monthly newsletters including news, job offers, grants & fellowships and a selection of relevant events…
Discover our members
PhDOOC
Généthon
Nokia Bell Labs France
Laboratoire National de Métrologie et d'Essais - LNE
SUEZ
Ifremer
Groupe AFNOR - Association française de normalisation
MabDesign
ANRT
ADEME
Institut Sup'biotech de Paris
MabDesign
CASDEN
CESI
ONERA - The French Aerospace Lab
TotalEnergies
Tecknowmetrix
Aérocentre, Pôle d'excellence régional
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège