Où docteurs et entreprises se rencontrent
Menu
Connexion

Fonctions d'influence et leurs applications à l'apprentissage automatique // Influence functions and their applications to machine learning

ABG-133294
ADUM-67303
Sujet de Thèse
03/09/2025 Autre financement public
Université de Montpellier
MONTPELLIER CEDEX 5 - Occitanie - France
Fonctions d'influence et leurs applications à l'apprentissage automatique // Influence functions and their applications to machine learning
  • Mathématiques
apprentissage automatique, fonctions d'influence, Matrice d'informatin de Fisher, Réseaux profonds
machine learning, Influence functions, Fisher Information Matrix, deep neural network

Description du sujet

### **Résumé : Identification des Échantillons Influents dans la Base de Données de Pl@ntnet**

#### **Objectif**
Ce projet vise à identifier les échantillons les plus influents dans la base de données de Pl@ntnet, une application dédiée à l'identification des plantes. Les principaux objectifs sont :
- **Améliorer l'interface utilisateur** : Remplacer l'affichage actuel des échantillons les plus probables par ceux qui sont les plus *informatifs*, afin d'aider les utilisateurs à mieux identifier les plantes.
- **Optimiser l'apprentissage du modèle** : Détecter les images mal étiquetées, prioriser l'étiquetage des images non labellisées et se concentrer sur les espèces rares pour améliorer la qualité du service et la précision du modèle.

#### **Aperçu de la Base de Données**
La base de données de Pl@ntnet comprend :
- **Images validées (~15 millions)** : Étiquetées avec une forte confiance, mais des erreurs peuvent subsister, notamment pour les espèces rares.
- **Images étiquetées par les utilisateurs (~15 millions)** : Confiance plus faible, souvent issues de nouveaux utilisateurs ou de cas difficiles.
- **Images non étiquetées (~1,2 milliard)** : Majoritaires, nécessitant un étiquetage pour enrichir le modèle.

#### **Approche Technique**
- **Fonctions d'Influence** : Mesurent l'impact d'un échantillon sur le modèle. Deux variantes sont utilisées :
- **Influence sur les paramètres** : Mesure l'effet sur les paramètres du modèle.
- **Influence sur la perte** : Mesure l'effet sur la fonction de perte pour un échantillon test.
- **Défis Computationnels** : La matrice hessienne (utilisée dans les fonctions d'influence) est trop grande pour être calculée exactement. Des approximations comme la matrice d'information de Fisher ou EK-FAC (Eigenvalue-corrected Kronecker-Factored Approximate Curvature) sont employées.
- **Extensions** : Des méthodes d'optimisation d'ordre zéro et de gradient naturel sont explorées pour résoudre les problèmes computationnels et prendre en compte le biais implicite des algorithmes d'optimisation.

#### **Applications**
- **Interface Utilisateur** : Afficher des échantillons informatifs plutôt que simplement probables.
- **Amélioration du Modèle** : Identifier les images mal étiquetées, prioriser les espèces rares et exploiter les données non labellisées pour enrichir l'apprentissage.

#### **Perspectives Futures**
- Étudier les combinaisons d'optimisation d'ordre zéro et de gradient naturel.
- Étendre les fonctions d'influence pour tenir compte du biais implicite des algorithmes d'optimisation.

---
**Message Clé** : Ce projet relie théorie et pratique, visant à affiner l'expérience utilisateur et la précision du modèle de Pl@ntnet grâce aux fonctions d'influence et à des techniques computationnelles avancées.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

### **Summary: Identifying Influential Samples in Pl@ntnet's Dataset**

#### **Objective**
The project aims to identify influential samples in Pl@ntnet's dataset—a plant identification app—to improve both user experience and model performance. Key goals include:
- **Enhancing user interface:** Replace the current method of showing the most probable samples with the most *informative* ones, helping users better identify plants.
- **Improving model training:** Detect mislabeled images, prioritize unlabeled images for labeling, and focus on rare species to boost model accuracy and service quality.

#### **Dataset Overview**
Pl@ntnet's dataset includes:
- **Validated images (~15M):** High-confidence labels, but errors may persist, especially for rare species.
- **User-labeled images (~15M):** Lower confidence, often from newcomers or challenging cases.
- **Unlabeled images (~1.2B):** The majority, requiring labeling to enhance the model.

#### **Technical Approach**
- **Influence Functions:** Measure how a sample affects the model. Two variants are used:
- **Parameter Influence:** Measures impact on model parameters.
- **Loss Influence:** Measures impact on the loss function for a test sample.
- **Computational Challenges:** The Hessian matrix (used in influence functions) is too large for exact computation. Approximations like the Fisher Information Matrix or EK-FAC (Eigenvalue-corrected Kronecker-Factored Approximate Curvature) are employed.
- **Extensions:** Zero-order optimization and natural gradient methods are explored to address computational issues and implicit bias in optimization algorithms.

#### **Applications**
- **User Interface:** Show informative samples instead of just probable ones.
- **Model Improvement:** Identify mislabeled images, prioritize rare species, and leverage unlabeled data to enhance training.

#### **Future Directions**
- Investigate zero-order optimization and natural gradient combinations.
- Extend influence functions to account for optimization algorithms' implicit bias.

---
**Key Takeaway:** This project bridges theory and practice, aiming to refine Pl@ntnet's user experience and model accuracy by leveraging influence functions and advanced computational techniques.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/11/2025

Nature du financement

Autre financement public

Précisions sur le financement

ANR Financement d'Agences de financement de la recherche

Présentation établissement et labo d'accueil

Université de Montpellier

Etablissement délivrant le doctorat

Université de Montpellier

Ecole doctorale

166 I2S - Information, Structures, Systèmes

Profil du candidat

- Maîtrise de l'anglais - Connaissances en statistiques, apprentissage automatique et optimisation - Compétences en programmation (de préférence en Python/PyTorch) - Maîtrise de Git et LaTeX
- English proficiency - Statistics, machine learning background, Optimization - Coding skills (preferably in Python/Pytorch) - Git, Latex
17/09/2025
Partager via
Postuler
Fermer

Vous avez déjà un compte ?

Nouvel utilisateur ?