Fonctions d'influence et leurs applications à l'apprentissage automatique // Influence functions and their applications to machine learning
ABG-133294
ADUM-67303 |
Thesis topic | |
2025-09-03 | Other public funding |
Université de Montpellier
MONTPELLIER CEDEX 5 - Occitanie - France
Fonctions d'influence et leurs applications à l'apprentissage automatique // Influence functions and their applications to machine learning
- Mathematics
apprentissage automatique, fonctions d'influence, Matrice d'informatin de Fisher, Réseaux profonds
machine learning, Influence functions, Fisher Information Matrix, deep neural network
machine learning, Influence functions, Fisher Information Matrix, deep neural network
Topic description
### **Résumé : Identification des Échantillons Influents dans la Base de Données de Pl@ntnet**
#### **Objectif**
Ce projet vise à identifier les échantillons les plus influents dans la base de données de Pl@ntnet, une application dédiée à l'identification des plantes. Les principaux objectifs sont :
- **Améliorer l'interface utilisateur** : Remplacer l'affichage actuel des échantillons les plus probables par ceux qui sont les plus *informatifs*, afin d'aider les utilisateurs à mieux identifier les plantes.
- **Optimiser l'apprentissage du modèle** : Détecter les images mal étiquetées, prioriser l'étiquetage des images non labellisées et se concentrer sur les espèces rares pour améliorer la qualité du service et la précision du modèle.
#### **Aperçu de la Base de Données**
La base de données de Pl@ntnet comprend :
- **Images validées (~15 millions)** : Étiquetées avec une forte confiance, mais des erreurs peuvent subsister, notamment pour les espèces rares.
- **Images étiquetées par les utilisateurs (~15 millions)** : Confiance plus faible, souvent issues de nouveaux utilisateurs ou de cas difficiles.
- **Images non étiquetées (~1,2 milliard)** : Majoritaires, nécessitant un étiquetage pour enrichir le modèle.
#### **Approche Technique**
- **Fonctions d'Influence** : Mesurent l'impact d'un échantillon sur le modèle. Deux variantes sont utilisées :
- **Influence sur les paramètres** : Mesure l'effet sur les paramètres du modèle.
- **Influence sur la perte** : Mesure l'effet sur la fonction de perte pour un échantillon test.
- **Défis Computationnels** : La matrice hessienne (utilisée dans les fonctions d'influence) est trop grande pour être calculée exactement. Des approximations comme la matrice d'information de Fisher ou EK-FAC (Eigenvalue-corrected Kronecker-Factored Approximate Curvature) sont employées.
- **Extensions** : Des méthodes d'optimisation d'ordre zéro et de gradient naturel sont explorées pour résoudre les problèmes computationnels et prendre en compte le biais implicite des algorithmes d'optimisation.
#### **Applications**
- **Interface Utilisateur** : Afficher des échantillons informatifs plutôt que simplement probables.
- **Amélioration du Modèle** : Identifier les images mal étiquetées, prioriser les espèces rares et exploiter les données non labellisées pour enrichir l'apprentissage.
#### **Perspectives Futures**
- Étudier les combinaisons d'optimisation d'ordre zéro et de gradient naturel.
- Étendre les fonctions d'influence pour tenir compte du biais implicite des algorithmes d'optimisation.
---
**Message Clé** : Ce projet relie théorie et pratique, visant à affiner l'expérience utilisateur et la précision du modèle de Pl@ntnet grâce aux fonctions d'influence et à des techniques computationnelles avancées.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
### **Summary: Identifying Influential Samples in Pl@ntnet's Dataset**
#### **Objective**
The project aims to identify influential samples in Pl@ntnet's dataset—a plant identification app—to improve both user experience and model performance. Key goals include:
- **Enhancing user interface:** Replace the current method of showing the most probable samples with the most *informative* ones, helping users better identify plants.
- **Improving model training:** Detect mislabeled images, prioritize unlabeled images for labeling, and focus on rare species to boost model accuracy and service quality.
#### **Dataset Overview**
Pl@ntnet's dataset includes:
- **Validated images (~15M):** High-confidence labels, but errors may persist, especially for rare species.
- **User-labeled images (~15M):** Lower confidence, often from newcomers or challenging cases.
- **Unlabeled images (~1.2B):** The majority, requiring labeling to enhance the model.
#### **Technical Approach**
- **Influence Functions:** Measure how a sample affects the model. Two variants are used:
- **Parameter Influence:** Measures impact on model parameters.
- **Loss Influence:** Measures impact on the loss function for a test sample.
- **Computational Challenges:** The Hessian matrix (used in influence functions) is too large for exact computation. Approximations like the Fisher Information Matrix or EK-FAC (Eigenvalue-corrected Kronecker-Factored Approximate Curvature) are employed.
- **Extensions:** Zero-order optimization and natural gradient methods are explored to address computational issues and implicit bias in optimization algorithms.
#### **Applications**
- **User Interface:** Show informative samples instead of just probable ones.
- **Model Improvement:** Identify mislabeled images, prioritize rare species, and leverage unlabeled data to enhance training.
#### **Future Directions**
- Investigate zero-order optimization and natural gradient combinations.
- Extend influence functions to account for optimization algorithms' implicit bias.
---
**Key Takeaway:** This project bridges theory and practice, aiming to refine Pl@ntnet's user experience and model accuracy by leveraging influence functions and advanced computational techniques.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/11/2025
#### **Objectif**
Ce projet vise à identifier les échantillons les plus influents dans la base de données de Pl@ntnet, une application dédiée à l'identification des plantes. Les principaux objectifs sont :
- **Améliorer l'interface utilisateur** : Remplacer l'affichage actuel des échantillons les plus probables par ceux qui sont les plus *informatifs*, afin d'aider les utilisateurs à mieux identifier les plantes.
- **Optimiser l'apprentissage du modèle** : Détecter les images mal étiquetées, prioriser l'étiquetage des images non labellisées et se concentrer sur les espèces rares pour améliorer la qualité du service et la précision du modèle.
#### **Aperçu de la Base de Données**
La base de données de Pl@ntnet comprend :
- **Images validées (~15 millions)** : Étiquetées avec une forte confiance, mais des erreurs peuvent subsister, notamment pour les espèces rares.
- **Images étiquetées par les utilisateurs (~15 millions)** : Confiance plus faible, souvent issues de nouveaux utilisateurs ou de cas difficiles.
- **Images non étiquetées (~1,2 milliard)** : Majoritaires, nécessitant un étiquetage pour enrichir le modèle.
#### **Approche Technique**
- **Fonctions d'Influence** : Mesurent l'impact d'un échantillon sur le modèle. Deux variantes sont utilisées :
- **Influence sur les paramètres** : Mesure l'effet sur les paramètres du modèle.
- **Influence sur la perte** : Mesure l'effet sur la fonction de perte pour un échantillon test.
- **Défis Computationnels** : La matrice hessienne (utilisée dans les fonctions d'influence) est trop grande pour être calculée exactement. Des approximations comme la matrice d'information de Fisher ou EK-FAC (Eigenvalue-corrected Kronecker-Factored Approximate Curvature) sont employées.
- **Extensions** : Des méthodes d'optimisation d'ordre zéro et de gradient naturel sont explorées pour résoudre les problèmes computationnels et prendre en compte le biais implicite des algorithmes d'optimisation.
#### **Applications**
- **Interface Utilisateur** : Afficher des échantillons informatifs plutôt que simplement probables.
- **Amélioration du Modèle** : Identifier les images mal étiquetées, prioriser les espèces rares et exploiter les données non labellisées pour enrichir l'apprentissage.
#### **Perspectives Futures**
- Étudier les combinaisons d'optimisation d'ordre zéro et de gradient naturel.
- Étendre les fonctions d'influence pour tenir compte du biais implicite des algorithmes d'optimisation.
---
**Message Clé** : Ce projet relie théorie et pratique, visant à affiner l'expérience utilisateur et la précision du modèle de Pl@ntnet grâce aux fonctions d'influence et à des techniques computationnelles avancées.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
### **Summary: Identifying Influential Samples in Pl@ntnet's Dataset**
#### **Objective**
The project aims to identify influential samples in Pl@ntnet's dataset—a plant identification app—to improve both user experience and model performance. Key goals include:
- **Enhancing user interface:** Replace the current method of showing the most probable samples with the most *informative* ones, helping users better identify plants.
- **Improving model training:** Detect mislabeled images, prioritize unlabeled images for labeling, and focus on rare species to boost model accuracy and service quality.
#### **Dataset Overview**
Pl@ntnet's dataset includes:
- **Validated images (~15M):** High-confidence labels, but errors may persist, especially for rare species.
- **User-labeled images (~15M):** Lower confidence, often from newcomers or challenging cases.
- **Unlabeled images (~1.2B):** The majority, requiring labeling to enhance the model.
#### **Technical Approach**
- **Influence Functions:** Measure how a sample affects the model. Two variants are used:
- **Parameter Influence:** Measures impact on model parameters.
- **Loss Influence:** Measures impact on the loss function for a test sample.
- **Computational Challenges:** The Hessian matrix (used in influence functions) is too large for exact computation. Approximations like the Fisher Information Matrix or EK-FAC (Eigenvalue-corrected Kronecker-Factored Approximate Curvature) are employed.
- **Extensions:** Zero-order optimization and natural gradient methods are explored to address computational issues and implicit bias in optimization algorithms.
#### **Applications**
- **User Interface:** Show informative samples instead of just probable ones.
- **Model Improvement:** Identify mislabeled images, prioritize rare species, and leverage unlabeled data to enhance training.
#### **Future Directions**
- Investigate zero-order optimization and natural gradient combinations.
- Extend influence functions to account for optimization algorithms' implicit bias.
---
**Key Takeaway:** This project bridges theory and practice, aiming to refine Pl@ntnet's user experience and model accuracy by leveraging influence functions and advanced computational techniques.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/11/2025
Funding category
Other public funding
Funding further details
ANR Financement d'Agences de financement de la recherche
Presentation of host institution and host laboratory
Université de Montpellier
Institution awarding doctoral degree
Université de Montpellier
Graduate school
166 I2S - Information, Structures, Systèmes
Candidate's profile
- Maîtrise de l'anglais
- Connaissances en statistiques, apprentissage automatique et optimisation
- Compétences en programmation (de préférence en Python/PyTorch)
- Maîtrise de Git et LaTeX
- English proficiency - Statistics, machine learning background, Optimization - Coding skills (preferably in Python/Pytorch) - Git, Latex
- English proficiency - Statistics, machine learning background, Optimization - Coding skills (preferably in Python/Pytorch) - Git, Latex
2025-09-17
Apply
Close
Vous avez déjà un compte ?
Nouvel utilisateur ?
More information about ABG?
Get ABG’s monthly newsletters including news, job offers, grants & fellowships and a selection of relevant events…
Discover our members
Généthon
Tecknowmetrix
Laboratoire National de Métrologie et d'Essais - LNE
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
CASDEN
Aérocentre, Pôle d'excellence régional
ANRT
Groupe AFNOR - Association française de normalisation
ADEME
ONERA - The French Aerospace Lab
CESI
Ifremer
TotalEnergies
PhDOOC
MabDesign
SUEZ
Institut Sup'biotech de Paris
Nokia Bell Labs France
MabDesign