Where PhDs and companies meet
Menu
Login

Terra Link : Liage de données du système Terre // Terra Link: Earth System Data Link

ABG-139669
ADUM-75557
Thesis topic
2026-06-25
Université de Montpellier
Montpellier - Occitanie - France
Terra Link : Liage de données du système Terre // Terra Link: Earth System Data Link
  • Computer science
Liage de données, Data Terra, Interopérabilité sémantique, Métadonnées
Data Linking, Data Terra, Semantic Interoperability, Metadata

Topic description

Grâce aux initiatives en faveur de la science ouverte, de nombreux jeux de données sur les compartiments du système Terre sont désormais disponibles sur le web. Data Terra [8] est l'infrastructure de recherche nationale dédiée au système Terre, dont INRAE est partenaire. Cette infrastructure se compose de cinq pôles de données, chacun collectant des observations sur un compartiment spécifique du système Terre, à savoir l'Atmosphère, les Océans, la Surface Continentale, la Terre Solide et la Biodiversité. L'intégration de données, c'est-à-dire, le processus automatique de collecte et d'harmonisation de jeux de données hétérogènes, est essentielle à la compréhension de l'évolution du système Terre. Ce processus est la première étape indispensable à l'élaboration d'indicateurs pour l'agriculture durable, le changement climatique, l'environnement, se basant sur des méthodes de l'intelligence artificielle (IA).
Il n'existe pas de vue globale et unifiée de données disponibles sur Data Terra. Par exemple, un chercheur étudiant les effets de la déforestation et du changement climatique sur la forêt amazonienne aurait besoin de jeux de données provenant de deux pôles : 1) le pôle Surface Continentale THEIA [1], qui offre des informations sur le stress hydrique de la végétation et les changements de couverture terrestre associés aux feux de forêt et 2) le pôle Atmosphère AERIS [3], qui fournit des données sur les impacts atmosphériques des feux de forêt, en particulier la teneur en aérosols. Actuellement, ce travail peut se faire manuellement, avec le risque de perte de jeux de données pertinents, en s'appuyant sur les métadonnées disponibles pour chaque jeu de données. Les métadonnées sont des informations indispensables pour décrire les jeux de données. Malgré les premiers efforts d'harmonisation des métadonnées de Data Terra, celles-ci demeurent non structurées et ambiguës. En l'état actuel, il n'est pas possible d'identifier que des jeux de données, en provenance de différents pôles, et enregistrant des propriétés mesurées différentes, décrivent la même entité du monde réel. Ce problème d'interopérabilité, bien connu sous le nom d'alignement d'entités, demeure un défi ouvert qui nécessite une méthodologie et des solutions spécifiques à chaque contexte d'application. À notre connaissance, il n'existe pas d'approche permettant de réconcilier les entités décrites dans les métadonnées du système Terre.

Cette thèse aborde le défi de l'interopérabilité en proposant des approches d'extraction et d'alignement d'entités, tirant le meilleur parti des métadonnées accessibles librement via Data Terra. Elle contribue directement aux objectifs de l'Orientation Stratégique 5 (OS5) de l'INRAE.

In fine, les travaux proposés permettront la construction d'un graphe de connaissances représentant une vue unifiée des métadonnées disponibles pour les données des différents pôles en contribuant activement à leur interopérabilité sémantique, c'est-à-dire en s'assurant que tous les pôles utilisent un vocabulaire harmonisé et décrivent les mêmes entités du monde réel de façon identique. La méthodologie proposée est la suivante :
1) Extraction d' entités et des relations sémantiques entre ces entités à partir a) des métadonnées disponibles sous forme textuelle et b) des ontologies et des thésaurus du domaine.
2) Alignement d'entités visant à découvrir et à interconnecter les entités extraites afin de construire le graphe de connaissances représentant une vue unifiée des données.

Ce travail se basera sur des méthodes d'IA hybrides, combinant des méthodes d'IA numérique d'apprentissage supervisé pour l'extraction d'entités et des méthodes d'IA symbolique d'apprentissage non supervisé pour la construction du graphe de connaissances et la découverte de liens entre les entités extraites.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Thanks to open science initiatives, numerous datasets on Earth system components are now available online. Data Terra [8] is the national research infrastructure dedicated to the Earth system, of which INRAE ​​is a partner. This infrastructure comprises five data hubs, each collecting observations on a specific Earth system component: the Atmosphere, Oceans, Continental Surface, Solid Earth, and Biodiversity. Data integration—that is, the automated process of collecting and harmonizing heterogeneous datasets—is essential for understanding the evolution of the Earth system. This process is the first crucial step in developing indicators for sustainable agriculture, climate change, and the environment, based on artificial intelligence (AI) methods.

There is no comprehensive and unified view of data available on Data Terra. For example, a researcher studying the effects of deforestation and climate change on the Amazon rainforest would need datasets from two sources: 1) the THEIA Continental Surface dataset [1], which provides information on vegetation water stress and land cover changes associated with forest fires, and 2) the AERIS Atmosphere dataset [3], which provides data on the atmospheric impacts of forest fires, particularly aerosol content. Currently, this work can be done manually, with the risk of losing relevant datasets, by relying on the metadata available for each dataset. Metadata is essential information for describing datasets. Despite initial efforts to harmonize DataTerra's metadata, it remains unstructured and ambiguous. As it stands, it is not possible to identify whether datasets from different sources, recording different measured properties, describe the same real-world entity. This interoperability problem, commonly known as entity alignment, remains an open challenge requiring methodologies and solutions specific to each application context. To our knowledge, no approach exists to reconcile the entities described in the Earth system metadata.

This thesis addresses the interoperability challenge by proposing entity extraction and alignment approaches that leverage the freely accessible metadata available through Data Terra. It directly contributes to the objectives of INRAE's Strategic Orientation 5 (SO5).

Ultimately, the proposed work will enable the construction of a knowledge graph representing a unified view of the metadata available for data from different hubs, actively contributing to their semantic interoperability—that is, ensuring that all hubs use a harmonized vocabulary and describe the same real-world entities in an identical way. The proposed methodology is as follows:
1) Extraction of entities and semantic relationships between these entities from a) available textual metadata and b) domain ontologies and thesauri.
2) Entity alignment aimed at discovering and interconnecting the extracted entities to build a knowledge graph representing a unified view of the data.

This work will be based on hybrid AI methods, combining supervised learning numerical AI methods for entity extraction and unsupervised learning symbolic AI methods for building the knowledge graph and discovering links between the extracted entities.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2026

Funding category

Funding further details

Financement d'un établissement public Français

Presentation of host institution and host laboratory

Université de Montpellier

Institution awarding doctoral degree

Université de Montpellier

Graduate school

166 I2S - Information, Structures, Systèmes

Candidate's profile

(1) Expertise autour de diverses méthodes de l'IA hybride, combinant l'IA numérique (XGBoost, Random Forest, CNN,... ) et l'apprentissage non supervisé (Extraction de motifs avec et sans LLM). (2) Maîtrise des ontologies thématiques autour du domaine de données terrestres. (3) Manipulation, traitement, analyse de données réelles, hétérogènes et multimodales. (4) Mise en œuvre de tests d'évaluation empirique d'hypothèses scientifiques. (5) Rédaction/présentation de travaux scientifiques.
(1) Expertise in various hybrid AI methods, combining computational AI (XGBoost, Random Forest, CNN, etc.) and unsupervised learning (pattern extraction with and without LLM). (2) Proficiency in thematic ontologies related to terrestrial data. (3) Manipulation, processing, and analysis of real, heterogeneous, and multimodal data. (4) Implementation of empirical tests to evaluate scientific hypotheses. (5) Writing and presenting scientific papers.
2026-07-08
Partager via
Apply
Close

Vous avez déjà un compte ?

Nouvel utilisateur ?