Where PhDs and companies meet
Menu
Login

Fonctions d'influence et leurs applications à l'apprentissage automatique // Influence functions and their applications to machine learning

ABG-133294
ADUM-67303
Thesis topic
2025-09-03 Other public funding
Université de Montpellier
MONTPELLIER CEDEX 5 - Occitanie - France
Fonctions d'influence et leurs applications à l'apprentissage automatique // Influence functions and their applications to machine learning
  • Mathematics
apprentissage automatique, fonctions d'influence, Matrice d'informatin de Fisher, Réseaux profonds
machine learning, Influence functions, Fisher Information Matrix, deep neural network

Topic description

### **Résumé : Identification des Échantillons Influents dans la Base de Données de Pl@ntnet**

#### **Objectif**
Ce projet vise à identifier les échantillons les plus influents dans la base de données de Pl@ntnet, une application dédiée à l'identification des plantes. Les principaux objectifs sont :
- **Améliorer l'interface utilisateur** : Remplacer l'affichage actuel des échantillons les plus probables par ceux qui sont les plus *informatifs*, afin d'aider les utilisateurs à mieux identifier les plantes.
- **Optimiser l'apprentissage du modèle** : Détecter les images mal étiquetées, prioriser l'étiquetage des images non labellisées et se concentrer sur les espèces rares pour améliorer la qualité du service et la précision du modèle.

#### **Aperçu de la Base de Données**
La base de données de Pl@ntnet comprend :
- **Images validées (~15 millions)** : Étiquetées avec une forte confiance, mais des erreurs peuvent subsister, notamment pour les espèces rares.
- **Images étiquetées par les utilisateurs (~15 millions)** : Confiance plus faible, souvent issues de nouveaux utilisateurs ou de cas difficiles.
- **Images non étiquetées (~1,2 milliard)** : Majoritaires, nécessitant un étiquetage pour enrichir le modèle.

#### **Approche Technique**
- **Fonctions d'Influence** : Mesurent l'impact d'un échantillon sur le modèle. Deux variantes sont utilisées :
- **Influence sur les paramètres** : Mesure l'effet sur les paramètres du modèle.
- **Influence sur la perte** : Mesure l'effet sur la fonction de perte pour un échantillon test.
- **Défis Computationnels** : La matrice hessienne (utilisée dans les fonctions d'influence) est trop grande pour être calculée exactement. Des approximations comme la matrice d'information de Fisher ou EK-FAC (Eigenvalue-corrected Kronecker-Factored Approximate Curvature) sont employées.
- **Extensions** : Des méthodes d'optimisation d'ordre zéro et de gradient naturel sont explorées pour résoudre les problèmes computationnels et prendre en compte le biais implicite des algorithmes d'optimisation.

#### **Applications**
- **Interface Utilisateur** : Afficher des échantillons informatifs plutôt que simplement probables.
- **Amélioration du Modèle** : Identifier les images mal étiquetées, prioriser les espèces rares et exploiter les données non labellisées pour enrichir l'apprentissage.

#### **Perspectives Futures**
- Étudier les combinaisons d'optimisation d'ordre zéro et de gradient naturel.
- Étendre les fonctions d'influence pour tenir compte du biais implicite des algorithmes d'optimisation.

---
**Message Clé** : Ce projet relie théorie et pratique, visant à affiner l'expérience utilisateur et la précision du modèle de Pl@ntnet grâce aux fonctions d'influence et à des techniques computationnelles avancées.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

### **Summary: Identifying Influential Samples in Pl@ntnet's Dataset**

#### **Objective**
The project aims to identify influential samples in Pl@ntnet's dataset—a plant identification app—to improve both user experience and model performance. Key goals include:
- **Enhancing user interface:** Replace the current method of showing the most probable samples with the most *informative* ones, helping users better identify plants.
- **Improving model training:** Detect mislabeled images, prioritize unlabeled images for labeling, and focus on rare species to boost model accuracy and service quality.

#### **Dataset Overview**
Pl@ntnet's dataset includes:
- **Validated images (~15M):** High-confidence labels, but errors may persist, especially for rare species.
- **User-labeled images (~15M):** Lower confidence, often from newcomers or challenging cases.
- **Unlabeled images (~1.2B):** The majority, requiring labeling to enhance the model.

#### **Technical Approach**
- **Influence Functions:** Measure how a sample affects the model. Two variants are used:
- **Parameter Influence:** Measures impact on model parameters.
- **Loss Influence:** Measures impact on the loss function for a test sample.
- **Computational Challenges:** The Hessian matrix (used in influence functions) is too large for exact computation. Approximations like the Fisher Information Matrix or EK-FAC (Eigenvalue-corrected Kronecker-Factored Approximate Curvature) are employed.
- **Extensions:** Zero-order optimization and natural gradient methods are explored to address computational issues and implicit bias in optimization algorithms.

#### **Applications**
- **User Interface:** Show informative samples instead of just probable ones.
- **Model Improvement:** Identify mislabeled images, prioritize rare species, and leverage unlabeled data to enhance training.

#### **Future Directions**
- Investigate zero-order optimization and natural gradient combinations.
- Extend influence functions to account for optimization algorithms' implicit bias.

---
**Key Takeaway:** This project bridges theory and practice, aiming to refine Pl@ntnet's user experience and model accuracy by leveraging influence functions and advanced computational techniques.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/11/2025

Funding category

Other public funding

Funding further details

ANR Financement d'Agences de financement de la recherche

Presentation of host institution and host laboratory

Université de Montpellier

Institution awarding doctoral degree

Université de Montpellier

Graduate school

166 I2S - Information, Structures, Systèmes

Candidate's profile

- Maîtrise de l'anglais - Connaissances en statistiques, apprentissage automatique et optimisation - Compétences en programmation (de préférence en Python/PyTorch) - Maîtrise de Git et LaTeX
- English proficiency - Statistics, machine learning background, Optimization - Coding skills (preferably in Python/Pytorch) - Git, Latex
2025-09-17
Partager via
Apply
Close

Vous avez déjà un compte ?

Nouvel utilisateur ?