Where PhDs and companies meet
Menu
Login

Apport de l'intelligence artificielle à l'analyse de séquences de données multidimensionnelles : application aux trajectoires de vie // Leveraging Artificial intelligence to Analyse Multidimensional Data Sequences: Application to Life Trajectories

ABG-132356
ADUM-66434
Thesis topic
2025-06-04
Université Grenoble Alpes
Saint-Martin-d'Hères - Auvergne-Rhône-Alpes - France
Apport de l'intelligence artificielle à l'analyse de séquences de données multidimensionnelles : application aux trajectoires de vie // Leveraging Artificial intelligence to Analyse Multidimensional Data Sequences: Application to Life Trajectories
  • Computer science
Trajectoires de vie, Analyse de séquences, Intelligence Artificielle, Machine Learning, Données biographiques, Données multidimensionnelles
Life Trajectories, Sequence Analysis, Artificial Intelligence, Machine Learning, Biographical Data, Multidimensional Data

Topic description

La notion de trajectoire de vie, présente dans les Sciences Humaines et Sociales (SHS) (sociologie, psychologie, urbanisme…), est un objet d'étude servant de support à l'analyse des motivations qui déterminent les choix d'un individu tout au long de son parcours biographique. Les données biographiques sont collectées à l'aide d'enquêtes par questionnaire, s'appuyant sur le recueil des évènements qui jalonnent les parcours individuels.
Dans ce contexte, l'équipe STORIES du LIG développe un modèle conceptuel original de Trajectoire de Vie Sémantisée (TVS) qui permet de concevoir des outils innovants pour le traitement des données de parcours de vie. Une TVS est composée de différentes trajectoires thématiques interdépendantes (par exemple, des trajectoires thématiques familiale, résidentielle, professionnelle), chacune étant organisée en une séquence où événements et épisodes de vie, alternent.
L'équipe MESP du laboratoire TIMC et l'équipe STORIES collaborent depuis 2022 sur la problématique de l'analyse des données de TVS, et, plus particulièrement, sur le clustering de ces trajectoires de vie. D'un point de vue statistique, une TVS est un ensemble de séquences de données chronologiques, à durées variables, et multidimensionnelles. Cette thèse s'inscrit dans le traitement de ce type de données et cherche à lever les verrous posés par le caractère complexe et multidimensionnel des séquences issues des TVS.
L'état de l'art en matière d'analyse de séquences a considérablement évolué ces dernières années que cela soit dans un contexte d'apprentissage supervisé ou non supervisé. Les méthodes traditionnelles d'analyse de séquences, telles que le clustering de séquences de données ou l'analyse de séquences à états, ont été complétées par de nouvelles méthodes plus sophistiquées, telles que les modèles de Markov cachés. Des outils tels que le module TraMineR du langage R, dédiés à ce type d'analyse, sont aujourd'hui très populaires. Cependant, de nombreux verrous statistiques sont encore à lever, et, plus particulièrement, lorsque l'on souhaite appréhender des trajectoires de vie en tant que TVS. En effet, les principaux écueils sont l'aspect massif et la multidimensionnalité des TVS, qui leur confère à la fois un caractère riche et divers, mais aussi complexe. Les TVS ont aussi la particularité d'être mixtes, c'est-à-dire définies par des thématiques composées d'attributs de différent types (qualitatifs ou quantitatifs).
Dans un cadre d'apprentissage supervisé, la plupart des applications dans la littérature utilisent des données de séries temporelles continues, contrairement à la nature souvent catégorielle des données longitudinales sur les parcours de vie. Ces séquences, qui ne tiennent compte que du temps, sont souvent analysées à l'aide de Réseaux de Neurones Récurrents, y compris les Long Short-Term Memory et les Gated Recurrent Units, qui capturent les dépendances à long terme dans les données. Les modèles de transformeurs ont également montré leur efficacité dans l'analyse de séries temporelles, par leur capacité à traiter les séquences en parallèle et à capturer des relations contextuelles complexes. De plus en plus, les méthodes d'apprentissage profond sont appliquées aux études sur le parcours de vie, car elles permettent d'apprendre des représentations complexes à partir des données elles-mêmes. Cependant, la recherche s'est jusqu'à présent limitée à des réseaux neuronaux simples ou à des modèles basés sur des arbres de décision.
L'objectif de cette thèse est de contribuer au domaine de l'analyse de séquences en proposant des méthodes innovantes de traitement des séquences multidimensionnelles telles que définies par le modèle TVS. Il s'agit de développer et d'évaluer les approches de classification supervisées et non supervisées pour la détection et la caractérisation de ces TVS et d'identifier les architectures d'algorithme d'apprentissage profond les mieux adaptées à l'analyse des parcours de vie.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

The concept of life course, found in the Human and Social Sciences (sociology, psychology, urban planning, etc.), is an object of study used to analyse the motivations that determine an individual's choices throughout his or her biographical journey. Biographical data is collected by means of questionnaire surveys, based on the collection of events that mark out individual careers.
In this context, the LIG's STORIES research group is developing an original conceptual model of the Semantic Life Trajectory (SLT), which can be used to design innovative tools for processing life-course data. A SLT is made up of different interdependent thematic trajectories (for example, family, residential and professional thematic trajectories), each organised in a sequence where life events and episodes alternate.
The MESP research group in the TIMC laboratory and STORIES have been working together since 2022 on the problem of analysing SLT data and, more specifically, on the clustering of these life trajectories. From a statistical point of view, a SLT is a set of chronological data sequences of variable duration and multidimensionality. This thesis is concerned with the processing of this type of data and seeks to overcome the obstacles posed by the complex and multidimensional nature of the sequences derived from SLTs.
The state of the art in sequence analysis has evolved considerably in recent years, both in the context of supervised and unsupervised learning. Traditional methods of sequence analysis, such as data sequence clustering or state sequence analysis, have been supplemented by new, more sophisticated methods, such as hidden Markov models. Tools such as the TraMineR module of the R language, dedicated to this type of analysis, are now very popular. However, there are still a number of statistical hurdles to overcome, particularly when it comes to understanding life trajectories as SLT. The main stumbling blocks are the massive size and multidimensionality of SLTs, which make them rich and diverse, but also complex. SLTs also have the particularity of being mixed, i.e. defined by themes made up of attributes of different types (qualitative or quantitative).
In a supervised Machine Learning framework, most applications in the literature use continuous time-series data, in contrast to the often categorical nature of longitudinal life-course data. These time-only sequences are often analysed using Recurrent Neural Networks, including Long Short-Term Memory and Gated Recurrent Units, which capture long-term dependencies in the data. Transformer models have also been shown to be effective in time series analysis, with their ability to process sequences in parallel and capture complex contextual relationships. Deep Learning methods are increasingly being applied to life course studies, as they allow complex representations to be learned from the data itself. However, research has so far been limited to simple neural networks or models based on decision trees.
The aim of this thesis is to contribute to the field of sequence analysis by proposing innovative methods for processing multidimensional sequences as defined by the SLT model. The aim is to develop and evaluate supervised and unsupervised classification approaches for the detection and characterisation of these TVS and to identify the deep learning algorithm architectures best suited to life-course analysis.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2025

Funding category

Funding further details

Concours allocations

Presentation of host institution and host laboratory

Université Grenoble Alpes

Institution awarding doctoral degree

Université Grenoble Alpes

Graduate school

217 MSTII - Mathématiques, Sciences et technologies de l'information, Informatique

Candidate's profile

Ce sujet s'adresse à une personne motivée, diplômée d'un master en statistique ou en informatique. Des compétences en apprentissage statistique, de bonnes connaissances en Machine Learning (plus particulièrement en Deep Learning et réseaux de neurones) sont attendues, ainsi qu'une bonne maîtrise des techniques de développement de code et des bibliothèques (en Python et/ou R). Une expérience en matière de publication scientifique serait un plus appréciable. Enfin, il est attendu un intérêt certain pour les SHS et les applications médicales
This Ph.D. topic is aimed at a motivated individual with a Master's degree in statistics or computer science. Skills in statistical learning, good knowledge of Machine Learning (particularly Deep Learning and neural networks) are expected, as well as a good command of code development techniques and libraries (in Python and/or R). Experience of scientific publication would be a plus. Finally, a clear interest in SHS and medical applications is expected.
2025-06-22
Partager via
Apply
Close

Vous avez déjà un compte ?

Nouvel utilisateur ?