Exploitation de modèles génératifs de parole pour le rehaussement de la parole dysarthrique // Leveraging Spoken Language Models for Dysarthric Speech Enhancement
|
ABG-139111
ADUM-74949 |
Sujet de Thèse | |
| 13/05/2026 | Contrat doctoral |
Université Grenoble Alpes
Saint Martin d'Hères cedex - Auvergne-Rhône-Alpes - France
Exploitation de modèles génératifs de parole pour le rehaussement de la parole dysarthrique // Leveraging Spoken Language Models for Dysarthric Speech Enhancement
- Informatique
parole, temps-réel, SpeechLM, SSL, pathologie, interpretabilité
parole, real-time, SpeechLM, SSL, pathology, interpretability
parole, real-time, SpeechLM, SSL, pathology, interpretability
Description du sujet
La dysarthrie est un trouble neuromoteur de la parole résultant d'une altération de la coordination des sous-systèmes respiratoire, phonatoire, articulatoire et prosodique impliqués dans la production de la parole. La parole dysarthrique se caractérise souvent par une intelligibilité réduite, une articulation altérée, une prosodie instable, un débit de parole irrégulier et un contrôle vocal diminué, entraînant d'importantes difficultés de communication dans la vie quotidienne. Malgré les progrès récents en rehaussement et en synthèse de la parole, la restauration de paroles pathologiques fortement dégradées demeure un défi scientifique majeur en raison de la forte variabilité des profils dysarthriques selon les locuteurs et les pathologies.
Les avancées récentes en apprentissage auto-supervisé (Self-Supervised Learning, SSL) et analyse-synthèse neuronale (codecs) ont profondément transformé le domaine du traitement automatique de la parole. Des modèles tels que HuBERT ou wav2vec~2.0 apprennent des représentations contextuelles riches de la parole en reconstruisant des portions masquées du signal à partir du contexte acoustique environnant. Parallèlement, les Speech Language Model (SpeechLM) - à savoir des grands modèles de langue traitant directement le signal de parole sans faire appel explicitement à son décodage sous forme textuelle - ont introduit un nouveau paradigme dans lequel la parole est représentée sous la forme de séquences discrètes d'unités acoustiques (tokens) modélisées de manière autorégressive. Ces approches permettent désormais le décodage, la compréhension et la génération de parole de haute qualité, et à faible latence.
L'objectif de cette thèse est d'étudier comment ces nouvelles approches peuvent être exploitées pour rehausser la parole dysarthrique et reconstruire des signaux de parole plus intelligibles et plus naturels à partir d'entrées pathologiques. Dans un premier temps, la thèse s'intéressera à des pipelines de reconstruction de parole dysarthrique (Dysarthric Speech Reconstruction, DSR) combinant des représentations SSL contextualisées et des approches neuronales de synthèse de la parole. En s'appuyant sur nos travaux récents sur l'inpainting de la parole basé sur des représentations SSL, nous faisons l'hypothèse que ces représentations capturent une information linguistique et phonétique suffisamment riche pour reconstruire une parole intelligible à partir de segments pathologiques localement dégradés. Dans un second temps, la thèse étudiera des approches de type SpeechLM opérant sur des tokens issus de codecs neuronaux. L'idée consistera à conditionner un SpeechLM par des séquences de tokens acoustiques extraites de parole dysarthrique afin d'apprendre à prédire des séquences de tokens correspondant à une parole plus intelligible et plus naturelle. De telles approches pourraient permettre de modifier non seulement le contenu segmental de la parole, mais également sa dynamique temporelle et prosodique.
La thèse explorera également l'utilisation d'un espace de représentation de type «articulatoires» pour la reconstruction de la parole. Bien que les représentations latentes modernes soient particulièrement performantes, elles demeurent difficiles à interpréter et à contrôler. L'introduction de représentations articulatoires explicites dans le processus génératif, comme dans nos travaux précédents sur la parole non pathologique, pourrait fournir des contraintes physiologiquement plausibles et faciliter le développement de stratégies de rehaussement de parole plus contrôlables.
Enfin, le projet étudiera la faisabilité de systèmes de rehaussement de parole dysarthrique fonctionnant en temps réel et à faible latence. Cela inclut l'étude d'architectures causales et de techniques de streaming, de modèles légers et de leur implémentation dans des systèmes embarqués pour des applications concrètes d'assistance à la communication.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Dysarthria is a neuromotor speech disorder resulting from impaired coordination, strength, or control of the respiratory, phonatory, resonatory, articulatory, and prosodic subsystems involved in speech production. Dysarthric speech is often characterized by reduced intelligibility, abnormal articulation, unstable prosody, irregular speaking rate, and reduced vocal control, leading to major communication difficulties in daily life. Despite recent progress in speech enhancement and speech synthesis, restoring highly degraded pathological speech remains a major scientific challenge due to the strong variability of dysarthric speech patterns across speakers and pathologies.
Recent advances in self-supervised learning (SSL) and neural speech generation have profoundly transformed speech processing. Models such as HuBERT or wav2vec~2.0 learn rich contextual representations of speech by reconstructing masked portions of the signal from surrounding acoustic context. In parallel, neural speech codecs and Speech Language Models (SpeechLMs) introduced a new paradigm in which speech is represented as sequences of discrete acoustic tokens that can be modeled autoregressively. These approaches now enable high-quality speech generation, speech-to-speech transformation, and low-latency conversational audio synthesis.
The objective of this PhD thesis is to investigate how these recent generative speech representations can be leveraged to enhance dysarthric speech and reconstruct more intelligible and natural speech signals from pathological speech inputs. First, the thesis will investigate dysarthric speech reconstruction (DSR) pipelines combining contextual SSL representations with neural speech synthesis approaches. Building upon our recent work on SSL-based speech inpainting, we hypothesize that SSL representations capture sufficiently rich linguistic and phonetic information to reconstruct intelligible speech from locally degraded pathological speech segments. Then, the thesis will investigate autoregressive SpeechLM approaches operating on neural codec tokens. The idea will consist in prompting a SpeechLM using acoustic token sequences extracted from dysarthric speech and training the model to predict enhanced token sequences corresponding to more intelligible and natural speech. Such approaches could potentially modify not only the segmental content of speech but also its temporal and prosodic dynamics.
The thesis will also investigate interpretable articulatory bottlenecks for speech reconstruction. While modern latent speech representations are highly efficient, they remain difficult to interpret and control. Introducing explicit articulatory representations within the generative process, as in our previous work (for non-pathological speech) could provide physiologically plausible constraints and facilitate controllable speech enhancement strategies.
Finally, the project will study the feasibility of real-time and low-latency dysarthric speech enhancement systems. This includes investigating streaming and causal architectures, lightweight generative models, and embedded implementations compatible with assistive communication applications.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2027
Les avancées récentes en apprentissage auto-supervisé (Self-Supervised Learning, SSL) et analyse-synthèse neuronale (codecs) ont profondément transformé le domaine du traitement automatique de la parole. Des modèles tels que HuBERT ou wav2vec~2.0 apprennent des représentations contextuelles riches de la parole en reconstruisant des portions masquées du signal à partir du contexte acoustique environnant. Parallèlement, les Speech Language Model (SpeechLM) - à savoir des grands modèles de langue traitant directement le signal de parole sans faire appel explicitement à son décodage sous forme textuelle - ont introduit un nouveau paradigme dans lequel la parole est représentée sous la forme de séquences discrètes d'unités acoustiques (tokens) modélisées de manière autorégressive. Ces approches permettent désormais le décodage, la compréhension et la génération de parole de haute qualité, et à faible latence.
L'objectif de cette thèse est d'étudier comment ces nouvelles approches peuvent être exploitées pour rehausser la parole dysarthrique et reconstruire des signaux de parole plus intelligibles et plus naturels à partir d'entrées pathologiques. Dans un premier temps, la thèse s'intéressera à des pipelines de reconstruction de parole dysarthrique (Dysarthric Speech Reconstruction, DSR) combinant des représentations SSL contextualisées et des approches neuronales de synthèse de la parole. En s'appuyant sur nos travaux récents sur l'inpainting de la parole basé sur des représentations SSL, nous faisons l'hypothèse que ces représentations capturent une information linguistique et phonétique suffisamment riche pour reconstruire une parole intelligible à partir de segments pathologiques localement dégradés. Dans un second temps, la thèse étudiera des approches de type SpeechLM opérant sur des tokens issus de codecs neuronaux. L'idée consistera à conditionner un SpeechLM par des séquences de tokens acoustiques extraites de parole dysarthrique afin d'apprendre à prédire des séquences de tokens correspondant à une parole plus intelligible et plus naturelle. De telles approches pourraient permettre de modifier non seulement le contenu segmental de la parole, mais également sa dynamique temporelle et prosodique.
La thèse explorera également l'utilisation d'un espace de représentation de type «articulatoires» pour la reconstruction de la parole. Bien que les représentations latentes modernes soient particulièrement performantes, elles demeurent difficiles à interpréter et à contrôler. L'introduction de représentations articulatoires explicites dans le processus génératif, comme dans nos travaux précédents sur la parole non pathologique, pourrait fournir des contraintes physiologiquement plausibles et faciliter le développement de stratégies de rehaussement de parole plus contrôlables.
Enfin, le projet étudiera la faisabilité de systèmes de rehaussement de parole dysarthrique fonctionnant en temps réel et à faible latence. Cela inclut l'étude d'architectures causales et de techniques de streaming, de modèles légers et de leur implémentation dans des systèmes embarqués pour des applications concrètes d'assistance à la communication.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Dysarthria is a neuromotor speech disorder resulting from impaired coordination, strength, or control of the respiratory, phonatory, resonatory, articulatory, and prosodic subsystems involved in speech production. Dysarthric speech is often characterized by reduced intelligibility, abnormal articulation, unstable prosody, irregular speaking rate, and reduced vocal control, leading to major communication difficulties in daily life. Despite recent progress in speech enhancement and speech synthesis, restoring highly degraded pathological speech remains a major scientific challenge due to the strong variability of dysarthric speech patterns across speakers and pathologies.
Recent advances in self-supervised learning (SSL) and neural speech generation have profoundly transformed speech processing. Models such as HuBERT or wav2vec~2.0 learn rich contextual representations of speech by reconstructing masked portions of the signal from surrounding acoustic context. In parallel, neural speech codecs and Speech Language Models (SpeechLMs) introduced a new paradigm in which speech is represented as sequences of discrete acoustic tokens that can be modeled autoregressively. These approaches now enable high-quality speech generation, speech-to-speech transformation, and low-latency conversational audio synthesis.
The objective of this PhD thesis is to investigate how these recent generative speech representations can be leveraged to enhance dysarthric speech and reconstruct more intelligible and natural speech signals from pathological speech inputs. First, the thesis will investigate dysarthric speech reconstruction (DSR) pipelines combining contextual SSL representations with neural speech synthesis approaches. Building upon our recent work on SSL-based speech inpainting, we hypothesize that SSL representations capture sufficiently rich linguistic and phonetic information to reconstruct intelligible speech from locally degraded pathological speech segments. Then, the thesis will investigate autoregressive SpeechLM approaches operating on neural codec tokens. The idea will consist in prompting a SpeechLM using acoustic token sequences extracted from dysarthric speech and training the model to predict enhanced token sequences corresponding to more intelligible and natural speech. Such approaches could potentially modify not only the segmental content of speech but also its temporal and prosodic dynamics.
The thesis will also investigate interpretable articulatory bottlenecks for speech reconstruction. While modern latent speech representations are highly efficient, they remain difficult to interpret and control. Introducing explicit articulatory representations within the generative process, as in our previous work (for non-pathological speech) could provide physiologically plausible constraints and facilitate controllable speech enhancement strategies.
Finally, the project will study the feasibility of real-time and low-latency dysarthric speech enhancement systems. This includes investigating streaming and causal architectures, lightweight generative models, and embedded implementations compatible with assistive communication applications.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2027
Nature du financement
Contrat doctoral
Précisions sur le financement
Concours pour un contrat doctoral
Présentation établissement et labo d'accueil
Université Grenoble Alpes
Etablissement délivrant le doctorat
Université Grenoble Alpes
Ecole doctorale
220 EEATS - Electronique, Electrotechnique, Automatique, Traitement du Signal
Profil du candidat
Les candidat·es devront être titulaires d'un Master (ou diplôme équivalent) dans un ou plusieurs des domaines suivants : traitement automatique des langues, traitement du signal/audio/parole, informatique, science des données, linguistique. De bonnes compétences en programmation Python ainsi qu'une expérience des frameworks de deep learning tels que PyTorch sont attendues. La personne recrutée devra également démontrer un fort intérêt pour la recherche interdisciplinaire à l'intersection de l'intelligence artificielle, des sciences de la parole et des applications liées à la santé. De bonnes capacités de communication et d'organisation sont importantes, le ou la doctorant·e étant amené·e à travailler dans un environnement de recherche interdisciplinaire et à participer activement aux activités de diffusion scientifique. Une bonne maîtrise de l'anglais écrit et oral est requise, notamment la capacité à présenter clairement des résultats de recherche en conférence et à rédiger des publications scientifiques.
Applicants should hold a Master's degree (or equivalent) in one or several of the following fields: natural language processing, signal/speech/audio processing, computer science, data science, linguistics. Good programming skills in Python and experience with deep learning frameworks such as PyTorch are expected. The candidate should also demonstrate a strong interest in interdisciplinary research at the intersection of artificial intelligence, speech technologies, and health-related applications. Strong communication and organizational skills are important, as the PhD student will be expected to work collaboratively within an interdisciplinary research environment and actively participate in scientific dissemination activities. A good command of spoken and written English is required, including the ability to present research results clearly in conferences and to write scientific publications.
Applicants should hold a Master's degree (or equivalent) in one or several of the following fields: natural language processing, signal/speech/audio processing, computer science, data science, linguistics. Good programming skills in Python and experience with deep learning frameworks such as PyTorch are expected. The candidate should also demonstrate a strong interest in interdisciplinary research at the intersection of artificial intelligence, speech technologies, and health-related applications. Strong communication and organizational skills are important, as the PhD student will be expected to work collaboratively within an interdisciplinary research environment and actively participate in scientific dissemination activities. A good command of spoken and written English is required, including the ability to present research results clearly in conferences and to write scientific publications.
31/05/2026
Postuler
Fermer
Vous avez déjà un compte ?
Nouvel utilisateur ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
Aérocentre, Pôle d'excellence régional
Laboratoire National de Métrologie et d'Essais - LNE
Ifremer
Medicen Paris Region
TotalEnergies
SUEZ
Servier
ONERA - The French Aerospace Lab
Nokia Bell Labs France
Tecknowmetrix
Groupe AFNOR - Association française de normalisation
Nantes Université
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
Généthon
ANRT
Institut Sup'biotech de Paris
ADEME



