Where PhDs and companies meet
Menu
Login

Obfuscation de données parole multi-utilisateurs pour la science reproductible // Multi-User Speech Data Obfuscation for Reproducible Science

ABG-132152
ADUM-66214
Thesis topic
2025-05-23
Université Grenoble Alpes
Saint-Martin-d'Hères - Auvergne-Rhône-Alpes - France
Obfuscation de données parole multi-utilisateurs pour la science reproductible // Multi-User Speech Data Obfuscation for Reproducible Science
  • Computer science
Confidentialité de la voix, Intelligence Artificielle, Deep Learning, Modèles à diffusion, Modèles Flow-Matching
Voice Privacy, Artificial Intelligence, Deep Learning, Diffusion models, Flow-matching models

Topic description

La science reproductible est un enjeu majeur actuel, permettant une contribution plus impactante dans la communauté scientifique, avec vérification et reproduction des résultats, accélérant ainsi les connaissances. Cela est important en intelligence artificielle mais également pour les recherches en sciences humaines et sociales. Aujourd'hui, la science reproductible se limite souvent au partage de codes, de modèles pré-entrainés ou aux publications, ce qui est insuffisant. En Europe et en France, la mise à disposition de données scientifiques à la communauté fait face à des problématiques éthiques et légales liées aux données personnelles régies par le RGPD et la CNIL. Les données audio/vidéo sont identifiantes par nature, soumises à un protocole avec le DPO pour leur stockage et partage. Sur ces données, la pseudonymisation insuffisante ou impossible, l'anonymisation est complexe et manuelle. Sans anonymisation, le partage nécessite l'accord de tous les participants, avec traçabilité et possibilité de suppression sur demande. La conservation des données est limitée dans le temps, nécessitant un nouvel accord ou destruction après expiration. Ces garde-fous, bien que nécessaires, compliquent fortement le partage des données audiovisuelles et impactent la reproductibilité de la science.
Dans le cadre de nos actions autour de nos salles de classe sensibles au contexte, le Teaching Lab, et de nos collaboration entre des équipes de recherche de laboratoires de Mathématiques Appliquées, de Sciences Sociales et d'lnformatique que sont les Laboratoires LaRAC, et Techné (Poitiers), et de nos partenaires à l'International (CADT au Cambodge, MICA au Vietnam), nous nous intéressons à analyser les événements pédagogiques en traitant des séquences audiovisuelles enregistrées lors de cours à l'Université. Ces enregistrements contiennent donc des informations identifiantes sur les étudiants et les enseignants présents, principalementleurs visages et leurs voix. Ce projet vise à collecter des enregistrements longitudinaux de cours permettant une analyse (semi)automatique des pratiques pédagogiques et de l'engament des étudiants,analyse qui sera corréléeà leur progressionlors d'évaluations régulières. Plus que nos besoins de recherche, ces enregistrements contiennent des informationsprécieusespour d'autres chercheurs dans d'autres domaines en Intelligence Artificielle mais également en Sciences Sociales.
Fort de ce constat, pour pouvoir partager ces données, cette étude doctorale s'intéresse à l'anonymisation automatique de la voix («Voice Privacy») pour développer à terme un réseau de neurones open-source pour la communauté. Pour partager nos données en conservant la richesse de celles-ci, il est important de ne pas altérer ni les intonations, ni les émotions dans la voix, la pertinence de l'analyse réalisées sur ces données anonymisées étant conditionnée à la présence de ces informations.Ces recherches s'apparentent à un outil de substitution des informations personnelles par des informations similaires mais, dans notre cas, non identifiantes. Les verrous scientifiques à lever résident dans l'approche «in the wild», c'est-à-dire des enregistrements faits à distance dans des conditions réelles et comprenant plusieurs locuteurs (jusqu'à une classe entière) là où les systèmes actuels ne sont entraînés que sur une seule voix à anonymiser.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Reproducible science is a major contemporary challenge, enabling more impactful contributions within the scientific community by facilitating the verification and replication of results, thereby accelerating knowledge advancement. This is particularly important in artificial intelligence research, but also for studies in the social sciences and humanities. Currently, reproducible science is often limited to the sharing of code, pre-trained models, or publications, which remains insufficient. In Europe and France, sharing scientific data with the community faces ethical and legal issues related to personal data, governed by the GDPR and CNIL. Audio and video data are inherently identifying, and their storage and sharing are subject to protocols involving the Data Protection Officer (DPO). For such data, pseudonymization is either insufficient or impossible, and anonymization is complex and often requires manual intervention. Without anonymization, data sharing requires the consent of all participants, with traceability and the possibility of data deletion upon request. Data retention is time-limited, necessitating renewed consent or data destruction upon expiration. While these safeguards are necessary, they significantly complicate sharing of audiovisual scientific corpora and impact the reproducibility of scientific research.
Within the framework of our context-aware classroom initiatives, the Teaching Lab, and collaborations between research teams in Applied Mathematics, Social Sciences, and Computer Science, specifically the LaRAC and Techné laboratories (Poitiers), as well as international partners (CADT in Cambodia, MICA in Vietnam), we focus on analyzing educational events through the processing of audiovisual sequences recorded during university lectures. These recordings inherently contain identifying information about students and instructors, primarily their faces and voices. This project aims to collect longitudinal lecture recordings to enable (semi-)automatic analysis of teaching practices and student engagement, which will be correlated with their progress during regular assessments. Beyond our own research needs, these recordings contain valuable information for other researchers in both Artificial Intelligence and Social Sciences.
Given this context, this doctoral study focuses on the automatic anonymization of speech (“Voice Privacy”), with the ultimate goal of developing an open-source neural network for the research community. To share our data while preserving its richness, it is crucial to alter neither the intonation nor the emotional content of speech, as the relevance of analyses performed on anonymized data depends on these features. This research goal is a model for substituting personal information with similar but non-identifying information. The main scientific challenges lie in the “in the wild” approach, i.e., recordings made remotely in real-world conditions involving multiple speakers (up to an entire classroom), whereas current systems are typically trained to anonymize only a single voice.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2025

Funding category

Funding further details

Concours allocations

Presentation of host institution and host laboratory

Université Grenoble Alpes

Institution awarding doctoral degree

Université Grenoble Alpes

Graduate school

217 MSTII - Mathématiques, Sciences et technologies de l'information, Informatique

Candidate's profile

- Diplome d'une école d'ingénieur et/ou d'un Master 2 Recherche dans le domaine de l'informatique et/ou des mathématiques appliquées. - Connaissance théorique et pratique des techniques d'apprentissage automatique (machine learning, deep learning). - Expérience de développement en Python, avec des frameworks de machine learning courants (PyTorch, scikit-learn), et du versioning avec Git. - Vous êtes méthodique, autonome, curieux et réactif. Capacités à travailler en équipe et à partager ses connaissances à l'écrit comme à l'oral.
- Degree from an engineering school and/or a Master's degree (Master 2 Research) in computer science and/or applied mathematics. - Theoretical and practical knowledge of machine learning techniques (machine learning, deep learning). - Experience in Python development, with common machine learning frameworks (PyTorch, scikit-learn), and version control with Git. - Methodical, autonomous, curious, and responsive. Ability to work in a team and to share knowledge both in writing and orally.
2025-06-09
Partager via
Apply
Close

Vous avez déjà un compte ?

Nouvel utilisateur ?