I am*	↓ ↓
E-mail*	↓ ↓

Back to search results

Exploitation de modèles génératifs de parole pour le rehaussement de la parole dysarthrique // Leveraging Spoken Language Models for Dysarthric Speech Enhancement

Ref. ABG-139111 ADUM-74949	Thesis topic
2026-05-13		Public funding alone (i.e. government, region, European, international organization research grant)

Université Grenoble Alpes

Workplace

Saint Martin d'Hères cedex - Auvergne-Rhône-Alpes - France

Topic title

Exploitation de modèles génératifs de parole pour le rehaussement de la parole dysarthrique // Leveraging Spoken Language Models for Dysarthric Speech Enhancement

Scientific expertise

Computer science

Keywords

parole, temps-réel, SpeechLM, SSL, pathologie, interpretabilité
parole, real-time, SpeechLM, SSL, pathology, interpretability

Topic description

La dysarthrie est un trouble neuromoteur de la parole résultant d'une altération de la coordination des sous-systèmes respiratoire, phonatoire, articulatoire et prosodique impliqués dans la production de la parole. La parole dysarthrique se caractérise souvent par une intelligibilité réduite, une articulation altérée, une prosodie instable, un débit de parole irrégulier et un contrôle vocal diminué, entraînant d'importantes difficultés de communication dans la vie quotidienne. Malgré les progrès récents en rehaussement et en synthèse de la parole, la restauration de paroles pathologiques fortement dégradées demeure un défi scientifique majeur en raison de la forte variabilité des profils dysarthriques selon les locuteurs et les pathologies.

Les avancées récentes en apprentissage auto-supervisé (Self-Supervised Learning, SSL) et analyse-synthèse neuronale (codecs) ont profondément transformé le domaine du traitement automatique de la parole. Des modèles tels que HuBERT ou wav2vec~2.0 apprennent des représentations contextuelles riches de la parole en reconstruisant des portions masquées du signal à partir du contexte acoustique environnant. Parallèlement, les Speech Language Model (SpeechLM) - à savoir des grands modèles de langue traitant directement le signal de parole sans faire appel explicitement à son décodage sous forme textuelle - ont introduit un nouveau paradigme dans lequel la parole est représentée sous la forme de séquences discrètes d'unités acoustiques (tokens) modélisées de manière autorégressive. Ces approches permettent désormais le décodage, la compréhension et la génération de parole de haute qualité, et à faible latence.

L'objectif de cette thèse est d'étudier comment ces nouvelles approches peuvent être exploitées pour rehausser la parole dysarthrique et reconstruire des signaux de parole plus intelligibles et plus naturels à partir d'entrées pathologiques. Dans un premier temps, la thèse s'intéressera à des pipelines de reconstruction de parole dysarthrique (Dysarthric Speech Reconstruction, DSR) combinant des représentations SSL contextualisées et des approches neuronales de synthèse de la parole. En s'appuyant sur nos travaux récents sur l'inpainting de la parole basé sur des représentations SSL, nous faisons l'hypothèse que ces représentations capturent une information linguistique et phonétique suffisamment riche pour reconstruire une parole intelligible à partir de segments pathologiques localement dégradés. Dans un second temps, la thèse étudiera des approches de type SpeechLM opérant sur des tokens issus de codecs neuronaux. L'idée consistera à conditionner un SpeechLM par des séquences de tokens acoustiques extraites de parole dysarthrique afin d'apprendre à prédire des séquences de tokens correspondant à une parole plus intelligible et plus naturelle. De telles approches pourraient permettre de modifier non seulement le contenu segmental de la parole, mais également sa dynamique temporelle et prosodique.

La thèse explorera également l'utilisation d'un espace de représentation de type «articulatoires» pour la reconstruction de la parole. Bien que les représentations latentes modernes soient particulièrement performantes, elles demeurent difficiles à interpréter et à contrôler. L'introduction de représentations articulatoires explicites dans le processus génératif, comme dans nos travaux précédents sur la parole non pathologique, pourrait fournir des contraintes physiologiquement plausibles et faciliter le développement de stratégies de rehaussement de parole plus contrôlables.

Enfin, le projet étudiera la faisabilité de systèmes de rehaussement de parole dysarthrique fonctionnant en temps réel et à faible latence. Cela inclut l'étude d'architectures causales et de techniques de streaming, de modèles légers et de leur implémentation dans des systèmes embarqués pour des applications concrètes d'assistance à la communication.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Dysarthria is a neuromotor speech disorder resulting from impaired coordination, strength, or control of the respiratory, phonatory, resonatory, articulatory, and prosodic subsystems involved in speech production. Dysarthric speech is often characterized by reduced intelligibility, abnormal articulation, unstable prosody, irregular speaking rate, and reduced vocal control, leading to major communication difficulties in daily life. Despite recent progress in speech enhancement and speech synthesis, restoring highly degraded pathological speech remains a major scientific challenge due to the strong variability of dysarthric speech patterns across speakers and pathologies.

Recent advances in self-supervised learning (SSL) and neural speech generation have profoundly transformed speech processing. Models such as HuBERT or wav2vec~2.0 learn rich contextual representations of speech by reconstructing masked portions of the signal from surrounding acoustic context. In parallel, neural speech codecs and Speech Language Models (SpeechLMs) introduced a new paradigm in which speech is represented as sequences of discrete acoustic tokens that can be modeled autoregressively. These approaches now enable high-quality speech generation, speech-to-speech transformation, and low-latency conversational audio synthesis.

The objective of this PhD thesis is to investigate how these recent generative speech representations can be leveraged to enhance dysarthric speech and reconstruct more intelligible and natural speech signals from pathological speech inputs. First, the thesis will investigate dysarthric speech reconstruction (DSR) pipelines combining contextual SSL representations with neural speech synthesis approaches. Building upon our recent work on SSL-based speech inpainting, we hypothesize that SSL representations capture sufficiently rich linguistic and phonetic information to reconstruct intelligible speech from locally degraded pathological speech segments. Then, the thesis will investigate autoregressive SpeechLM approaches operating on neural codec tokens. The idea will consist in prompting a SpeechLM using acoustic token sequences extracted from dysarthric speech and training the model to predict enhanced token sequences corresponding to more intelligible and natural speech. Such approaches could potentially modify not only the segmental content of speech but also its temporal and prosodic dynamics.

The thesis will also investigate interpretable articulatory bottlenecks for speech reconstruction. While modern latent speech representations are highly efficient, they remain difficult to interpret and control. Introducing explicit articulatory representations within the generative process, as in our previous work (for non-pathological speech) could provide physiologically plausible constraints and facilitate controllable speech enhancement strategies.

Finally, the project will study the feasibility of real-time and low-latency dysarthric speech enhancement systems. This includes investigating streaming and causal architectures, lightweight generative models, and embedded implementations compatible with assistive communication applications.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2027

Funding category

Public funding alone (i.e. government, region, European, international organization research grant)

Funding further details

Concours pour un contrat doctoral

Presentation of host institution and host laboratory

Université Grenoble Alpes

Institution awarding doctoral degree

Université Grenoble Alpes

Graduate school

220 EEATS - Electronique, Electrotechnique, Automatique, Traitement du Signal

Candidate's profile

Les candidat·es devront être titulaires d'un Master (ou diplôme équivalent) dans un ou plusieurs des domaines suivants : traitement automatique des langues, traitement du signal/audio/parole, informatique, science des données, linguistique. De bonnes compétences en programmation Python ainsi qu'une expérience des frameworks de deep learning tels que PyTorch sont attendues. La personne recrutée devra également démontrer un fort intérêt pour la recherche interdisciplinaire à l'intersection de l'intelligence artificielle, des sciences de la parole et des applications liées à la santé. De bonnes capacités de communication et d'organisation sont importantes, le ou la doctorant·e étant amené·e à travailler dans un environnement de recherche interdisciplinaire et à participer activement aux activités de diffusion scientifique. Une bonne maîtrise de l'anglais écrit et oral est requise, notamment la capacité à présenter clairement des résultats de recherche en conférence et à rédiger des publications scientifiques.
Applicants should hold a Master's degree (or equivalent) in one or several of the following fields: natural language processing, signal/speech/audio processing, computer science, data science, linguistics. Good programming skills in Python and experience with deep learning frameworks such as PyTorch are expected. The candidate should also demonstrate a strong interest in interdisciplinary research at the intersection of artificial intelligence, speech technologies, and health-related applications. Strong communication and organizational skills are important, as the PhD student will be expected to work collaboratively within an interdisciplinary research environment and actively participate in scientific dissemination activities. A good command of spoken and written English is required, including the ability to present research results clearly in conferences and to write scientific publications.

Application deadline

2026-05-31

Partager via

Apply

Vous avez déjà un compte ?

Nouvel utilisateur ?

Mr/Mrs*	↓ ↓
First name*	↓ ↓
Last name*	↓ ↓
E-mail*	↓ ↓
Confirm your e-mail*	↓ ↓
Password*	8 characters minimum, including at least one figure, one lower case letter and one uppercase letter. ↓ ↓
Please confirm password*	↓ ↓