Fonctions d'influence et leurs applications à l'apprentissage automatique // Influence functions and their applications to machine learning
ABG-133294
ADUM-67303 |
Sujet de Thèse | |
03/09/2025 | Autre financement public |
Université de Montpellier
MONTPELLIER CEDEX 5 - Occitanie - France
Fonctions d'influence et leurs applications à l'apprentissage automatique // Influence functions and their applications to machine learning
- Mathématiques
apprentissage automatique, fonctions d'influence, Matrice d'informatin de Fisher, Réseaux profonds
machine learning, Influence functions, Fisher Information Matrix, deep neural network
machine learning, Influence functions, Fisher Information Matrix, deep neural network
Description du sujet
### **Résumé : Identification des Échantillons Influents dans la Base de Données de Pl@ntnet**
#### **Objectif**
Ce projet vise à identifier les échantillons les plus influents dans la base de données de Pl@ntnet, une application dédiée à l'identification des plantes. Les principaux objectifs sont :
- **Améliorer l'interface utilisateur** : Remplacer l'affichage actuel des échantillons les plus probables par ceux qui sont les plus *informatifs*, afin d'aider les utilisateurs à mieux identifier les plantes.
- **Optimiser l'apprentissage du modèle** : Détecter les images mal étiquetées, prioriser l'étiquetage des images non labellisées et se concentrer sur les espèces rares pour améliorer la qualité du service et la précision du modèle.
#### **Aperçu de la Base de Données**
La base de données de Pl@ntnet comprend :
- **Images validées (~15 millions)** : Étiquetées avec une forte confiance, mais des erreurs peuvent subsister, notamment pour les espèces rares.
- **Images étiquetées par les utilisateurs (~15 millions)** : Confiance plus faible, souvent issues de nouveaux utilisateurs ou de cas difficiles.
- **Images non étiquetées (~1,2 milliard)** : Majoritaires, nécessitant un étiquetage pour enrichir le modèle.
#### **Approche Technique**
- **Fonctions d'Influence** : Mesurent l'impact d'un échantillon sur le modèle. Deux variantes sont utilisées :
- **Influence sur les paramètres** : Mesure l'effet sur les paramètres du modèle.
- **Influence sur la perte** : Mesure l'effet sur la fonction de perte pour un échantillon test.
- **Défis Computationnels** : La matrice hessienne (utilisée dans les fonctions d'influence) est trop grande pour être calculée exactement. Des approximations comme la matrice d'information de Fisher ou EK-FAC (Eigenvalue-corrected Kronecker-Factored Approximate Curvature) sont employées.
- **Extensions** : Des méthodes d'optimisation d'ordre zéro et de gradient naturel sont explorées pour résoudre les problèmes computationnels et prendre en compte le biais implicite des algorithmes d'optimisation.
#### **Applications**
- **Interface Utilisateur** : Afficher des échantillons informatifs plutôt que simplement probables.
- **Amélioration du Modèle** : Identifier les images mal étiquetées, prioriser les espèces rares et exploiter les données non labellisées pour enrichir l'apprentissage.
#### **Perspectives Futures**
- Étudier les combinaisons d'optimisation d'ordre zéro et de gradient naturel.
- Étendre les fonctions d'influence pour tenir compte du biais implicite des algorithmes d'optimisation.
---
**Message Clé** : Ce projet relie théorie et pratique, visant à affiner l'expérience utilisateur et la précision du modèle de Pl@ntnet grâce aux fonctions d'influence et à des techniques computationnelles avancées.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
### **Summary: Identifying Influential Samples in Pl@ntnet's Dataset**
#### **Objective**
The project aims to identify influential samples in Pl@ntnet's dataset—a plant identification app—to improve both user experience and model performance. Key goals include:
- **Enhancing user interface:** Replace the current method of showing the most probable samples with the most *informative* ones, helping users better identify plants.
- **Improving model training:** Detect mislabeled images, prioritize unlabeled images for labeling, and focus on rare species to boost model accuracy and service quality.
#### **Dataset Overview**
Pl@ntnet's dataset includes:
- **Validated images (~15M):** High-confidence labels, but errors may persist, especially for rare species.
- **User-labeled images (~15M):** Lower confidence, often from newcomers or challenging cases.
- **Unlabeled images (~1.2B):** The majority, requiring labeling to enhance the model.
#### **Technical Approach**
- **Influence Functions:** Measure how a sample affects the model. Two variants are used:
- **Parameter Influence:** Measures impact on model parameters.
- **Loss Influence:** Measures impact on the loss function for a test sample.
- **Computational Challenges:** The Hessian matrix (used in influence functions) is too large for exact computation. Approximations like the Fisher Information Matrix or EK-FAC (Eigenvalue-corrected Kronecker-Factored Approximate Curvature) are employed.
- **Extensions:** Zero-order optimization and natural gradient methods are explored to address computational issues and implicit bias in optimization algorithms.
#### **Applications**
- **User Interface:** Show informative samples instead of just probable ones.
- **Model Improvement:** Identify mislabeled images, prioritize rare species, and leverage unlabeled data to enhance training.
#### **Future Directions**
- Investigate zero-order optimization and natural gradient combinations.
- Extend influence functions to account for optimization algorithms' implicit bias.
---
**Key Takeaway:** This project bridges theory and practice, aiming to refine Pl@ntnet's user experience and model accuracy by leveraging influence functions and advanced computational techniques.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/11/2025
#### **Objectif**
Ce projet vise à identifier les échantillons les plus influents dans la base de données de Pl@ntnet, une application dédiée à l'identification des plantes. Les principaux objectifs sont :
- **Améliorer l'interface utilisateur** : Remplacer l'affichage actuel des échantillons les plus probables par ceux qui sont les plus *informatifs*, afin d'aider les utilisateurs à mieux identifier les plantes.
- **Optimiser l'apprentissage du modèle** : Détecter les images mal étiquetées, prioriser l'étiquetage des images non labellisées et se concentrer sur les espèces rares pour améliorer la qualité du service et la précision du modèle.
#### **Aperçu de la Base de Données**
La base de données de Pl@ntnet comprend :
- **Images validées (~15 millions)** : Étiquetées avec une forte confiance, mais des erreurs peuvent subsister, notamment pour les espèces rares.
- **Images étiquetées par les utilisateurs (~15 millions)** : Confiance plus faible, souvent issues de nouveaux utilisateurs ou de cas difficiles.
- **Images non étiquetées (~1,2 milliard)** : Majoritaires, nécessitant un étiquetage pour enrichir le modèle.
#### **Approche Technique**
- **Fonctions d'Influence** : Mesurent l'impact d'un échantillon sur le modèle. Deux variantes sont utilisées :
- **Influence sur les paramètres** : Mesure l'effet sur les paramètres du modèle.
- **Influence sur la perte** : Mesure l'effet sur la fonction de perte pour un échantillon test.
- **Défis Computationnels** : La matrice hessienne (utilisée dans les fonctions d'influence) est trop grande pour être calculée exactement. Des approximations comme la matrice d'information de Fisher ou EK-FAC (Eigenvalue-corrected Kronecker-Factored Approximate Curvature) sont employées.
- **Extensions** : Des méthodes d'optimisation d'ordre zéro et de gradient naturel sont explorées pour résoudre les problèmes computationnels et prendre en compte le biais implicite des algorithmes d'optimisation.
#### **Applications**
- **Interface Utilisateur** : Afficher des échantillons informatifs plutôt que simplement probables.
- **Amélioration du Modèle** : Identifier les images mal étiquetées, prioriser les espèces rares et exploiter les données non labellisées pour enrichir l'apprentissage.
#### **Perspectives Futures**
- Étudier les combinaisons d'optimisation d'ordre zéro et de gradient naturel.
- Étendre les fonctions d'influence pour tenir compte du biais implicite des algorithmes d'optimisation.
---
**Message Clé** : Ce projet relie théorie et pratique, visant à affiner l'expérience utilisateur et la précision du modèle de Pl@ntnet grâce aux fonctions d'influence et à des techniques computationnelles avancées.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
### **Summary: Identifying Influential Samples in Pl@ntnet's Dataset**
#### **Objective**
The project aims to identify influential samples in Pl@ntnet's dataset—a plant identification app—to improve both user experience and model performance. Key goals include:
- **Enhancing user interface:** Replace the current method of showing the most probable samples with the most *informative* ones, helping users better identify plants.
- **Improving model training:** Detect mislabeled images, prioritize unlabeled images for labeling, and focus on rare species to boost model accuracy and service quality.
#### **Dataset Overview**
Pl@ntnet's dataset includes:
- **Validated images (~15M):** High-confidence labels, but errors may persist, especially for rare species.
- **User-labeled images (~15M):** Lower confidence, often from newcomers or challenging cases.
- **Unlabeled images (~1.2B):** The majority, requiring labeling to enhance the model.
#### **Technical Approach**
- **Influence Functions:** Measure how a sample affects the model. Two variants are used:
- **Parameter Influence:** Measures impact on model parameters.
- **Loss Influence:** Measures impact on the loss function for a test sample.
- **Computational Challenges:** The Hessian matrix (used in influence functions) is too large for exact computation. Approximations like the Fisher Information Matrix or EK-FAC (Eigenvalue-corrected Kronecker-Factored Approximate Curvature) are employed.
- **Extensions:** Zero-order optimization and natural gradient methods are explored to address computational issues and implicit bias in optimization algorithms.
#### **Applications**
- **User Interface:** Show informative samples instead of just probable ones.
- **Model Improvement:** Identify mislabeled images, prioritize rare species, and leverage unlabeled data to enhance training.
#### **Future Directions**
- Investigate zero-order optimization and natural gradient combinations.
- Extend influence functions to account for optimization algorithms' implicit bias.
---
**Key Takeaway:** This project bridges theory and practice, aiming to refine Pl@ntnet's user experience and model accuracy by leveraging influence functions and advanced computational techniques.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/11/2025
Nature du financement
Autre financement public
Précisions sur le financement
ANR Financement d'Agences de financement de la recherche
Présentation établissement et labo d'accueil
Université de Montpellier
Etablissement délivrant le doctorat
Université de Montpellier
Ecole doctorale
166 I2S - Information, Structures, Systèmes
Profil du candidat
- Maîtrise de l'anglais
- Connaissances en statistiques, apprentissage automatique et optimisation
- Compétences en programmation (de préférence en Python/PyTorch)
- Maîtrise de Git et LaTeX
- English proficiency - Statistics, machine learning background, Optimization - Coding skills (preferably in Python/Pytorch) - Git, Latex
- English proficiency - Statistics, machine learning background, Optimization - Coding skills (preferably in Python/Pytorch) - Git, Latex
17/09/2025
Postuler
Fermer
Vous avez déjà un compte ?
Nouvel utilisateur ?
Besoin d'informations sur l'ABG ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
ANRT
MabDesign
TotalEnergies
PhDOOC
Généthon
CESI
Ifremer
Institut Sup'biotech de Paris
Groupe AFNOR - Association française de normalisation
ADEME
ONERA - The French Aerospace Lab
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
Laboratoire National de Métrologie et d'Essais - LNE
Aérocentre, Pôle d'excellence régional
Nokia Bell Labs France
CASDEN
MabDesign
Tecknowmetrix
SUEZ