Where PhDs and companies meet
Menu
Login

Doctorant thèse CIFRE (TAL)

ABG-133616 Thesis topic
2025-09-29 Cifre
Logo de
Probayes
Grenoble - Auvergne-Rhône-Alpes - France
Doctorant thèse CIFRE (TAL)
  • Computer science
  • Digital
Traitement Automatique des Langues (TAL), Natural Language Processing (NLP)

Topic description

En tant que doctorant, vous faites de la recherche en traitement automatique des langues (TAL/NLP) pour développer de nouvelles connaissances et ouvrir la possibilité de nouvelles applications industrielles. Votre sujet de recherche est l’amélioration des systèmes RAG (retrieval-augmented generation) grâce aux connaissances structurées. Vous travaillez avec les chercheurs des équipes Getalp et MRIM, ainsi qu’au sein de l’équipe de data scientists de Probayes.

Description du poste :

Vous êtes encadré(e) par un chercheur de l’équipe Getalp ou MRIM (Laboratoire d’Informatique de Grenoble), ainsi que par le Directeur Scientifique Traitement Automatique des Langues de Probayes.

Vous travaillez à l’extension des méthodes de RAG (retrieval-augmented generation) grâce aux données structurées.

Un système RAG permet l’interrogation en langage naturel d’une base de documents :

  • Les documents sont découpés et indexés dans une base de données vectorielles
  • La requête utilisateur est rapprochée des passages indexés, et les passages les plus proches sont remontés
  • Un LLM (grand modèle de langue) génère la réponse à la question à partir des passages pertinents.

Plusieurs structures peuvent être extraites d’une base documentaire :

  • La structure interdocuments
  • La structure intradocument
  • Des structure sémantiques, entre concepts présents dans les documents

Dans cette thèse, nous proposons d’exploiter ces structures pour améliorer :

  • La compréhension et le nettoyage de la base documentaire
  • La récupération des passages pertinents
  • La génération de réponses pertinentes et leur justification

La recherche pourra s’appuyer sur :

  • Des déploiement industriels de RAG existant chez Probayes, incluant des jeux de données, bancs d’essais, tests utilisateurs et moyens de calcul
  • L’état de l’art de la recherche d’information et de l’exploitation de structure parmi les travaux récents de Getalp et MRIM.

La thèse se déroulera à Grenoble, en alternance dans les bureaux de Probayes (Montbonnot) et au sein du LIG (Campus de Saint Martin d’Hères).

Funding category

Cifre

Funding further details

Presentation of host institution and host laboratory

Probayes

Spin-off de l’INRIA et du CNRS, Probayes est né de la volonté d’être le chainon manquant entre la recherche et l’industrie dans le domaine de la science des données.

Avec 20 ans d’expérience, Probayes est un des leaders français dans le développement de solutions en Intelligence Artificielle. Nos Data Scientists travaillent avec les plus grands groupes pour développer des solutions IA sur mesure, à l’état de l’art de la littérature scientifique et à fort ROI.

Avec des expertises en apprentissage automatique, en optimisation, en fusion de capteurs, en vision par ordinateur, et en traitement automatique des langues (NLP), complétées par des compétences de conception et de développement, Probayes développe, pour ses clients, des modèles comme moteur d’innovation, d’optimisation et d’aide à la décision.

Probayes adresse ses solutions auprès de secteurs divers comme l’automobile, la défense, la logistique, l’industrie, la santé, ou la banque. Nous souhaitons poursuivre notre développement à travers ces thématiques mais également développer des collaborations sur des nouveaux secteurs stratégiques. Probayes a rejoint le groupe La Poste en mai 2016 et en est devenu le centre de compétence en Intelligence Artificielle. Probayes bénéficie également de cette collaboration dans le domaine des infrastructures « Big Data » et de la sécurité informatique.

Basée à Montbonnot (38), Probayes a ouvert en 2017 une antenne à Paris.

 

Candidate's profile

Qualifications :

  • Docteur en sciences (Physique, Mathématiques appliquées, ou Informatique)

 

Compétences Souhaitées

  • Compétences requises :
    • Analyse des données (statistiques, probabilités, visualisation de données)
    • Programmation : Python, pandas, numpy
    • Outils de travail en équipe : Git, Gitlab CI
    • Français et anglais (oral et écrit)
  • Compétences appréciées :
    • Première expérience en apprentissage automatique (sklearn, xgboost)
    • Première expérience en Deep Learning (tensorflow, Pytorch)
    • Connaissances en Big Data (Spark, Dask)
    • Connaissances en bases de données (PostgreSQL, MySQL, MongoDB …)
    • Langages de programmation : C/C++, Java, Scala
  • Qualités requises :
    • Vous êtes autonome, curieux(se) et rigoureux(se)
    • Vous aimez travailler en équipe
    • Vous avez une bonne communication orale et écrite
Partager via
Apply
Close

Vous avez déjà un compte ?

Nouvel utilisateur ?