Where PhDs and companies meet
Menu
Login

Vers une interaction naturelle et à faible latence dans les agents multimodaux // Toward Natural and Low-Latency Interaction in Multimodal Agents

ABG-132186
ADUM-66271
Thesis topic
2025-05-24
Université Grenoble Alpes
Grenoble Cedex 9 - Auvergne-Rhône-Alpes - France
Vers une interaction naturelle et à faible latence dans les agents multimodaux // Toward Natural and Low-Latency Interaction in Multimodal Agents
  • Computer science
Apprentissage multimodal, Grand modèle de langage, Interaction
Multimodal learning, Large Language Models, Interaction

Topic description

Ce projet se concentre sur le développement de grands modèles de langage multimodaux (MLLM) évolutifs et efficaces, capables de prendre en charge des conversations multi-tours en temps réel dans des systèmes interactifs tels que les agents virtuels et les robots sociaux. Bien que les MLLM récents combinent avec succès la vision, l'audio et les entrées linguistiques grâce à des encodeurs spécifiques à chaque modalité et à de grandes structures de langage, ils ont du mal à gérer les longs dialogues. La plupart des modèles actuels concaténent toutes les représentations provenant de chaque modalité avec celles des entrées textuelles, ce qui entraîne une croissance linéaire de la longueur de la séquence en fonction du nombre de modalités et de tours de conversation. Cela limite leur capacité à gérer des interactions longues et dynamiques où le maintien du contexte temporel et l'adaptation à l'importance changeante des modalités sont essentiels. En outre, le fait de s'appuyer sur des ressources de calcul fixes et prédéfinies pour chaque modalité entraîne un traitement inefficace, une latence accrue et des performances sous-optimales.

Pour surmonter ces problèmes d'évolutivité et d'efficacité des données, le projet explorera de nouvelles approches méthodologiques axées sur le traitement multimodal dynamique et adaptatif. Tout d'abord, nous développerons des techniques de compression de jetons temporelles et modales qui réduisent les informations redondantes en résumant ou en élaguant les entrées modales les moins pertinentes au fil du temps, ce qui permet au modèle de conserver une représentation compacte et informative de l'historique de l'interaction. Nous concevrons des mécanismes de mémoire multimodale qui retiennent et récupèrent sélectivement les informations contextuelles importantes entre les modalités, ce qui permet un dialogue cohérent à plusieurs tours sans entraîner une croissance ingérable du nombre de descripteurs audio et visuel. Deuxièmement, nous étudierons les politiques d'attention et de contrôle adaptatives qui allouent dynamiquement les ressources de calcul et de représentation en fonction du contexte conversationnel et de la pertinence de la modalité. Ces politiques seront apprises par apprentissage par renforcement ou par des méthodes de relaxation différentiables, ce qui permettra au système d'optimiser l'utilisation des ressources et d'améliorer la réactivité en temps réel. Tout au long du processus, des modèles de base pré-entraînés seront affinés et intégrés pour fournir une compréhension multimodale robuste et généralisable en dépit d'une supervision directe limitée.
Le projet s'articule autour de trois étapes principales : (1) l'établissement d'un jeu de données et un protocol pour l'évaluation des MLLM actuels dans des scénarios conversationnels réalistes au-delà des tâches VQA/AQA traditionnelles ; ce point de référence comprendra des ensembles de données conversationnelles multi-tours impliquant des interactions complexes et multimodales à travers les modalités de la vision, de l'audio et du langage. Ces ensembles de données permettront de tester les modèles non seulement en termes de précision de la compréhension et de la réponse, mais aussi en ce qui concerne leur capacité à gérer des dialogues longs et dynamiques avec une importance variable des modalités. (2) développer des architectures qui répondent aux défis de l'extensibilité dans les environnements conversationnels en se basant sur des LLM pré-entraîné ; et (3) concevoir et optimiser des politiques dynamiques pour une allocation efficace des ressources et l'utilisation de la mémoire. Notre développement méthodologique s'appuiera sur les connaissances et les outils issus de la phase d'analyse comparative pour guider le développement et l'évaluation. La dernière phase du projet sera consacrée à l'intégration et aux recherches complémentaires qui émergeront pendant la thèse.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

This project focuses on developing scalable and efficient multimodal large language models (MLLMs) capable of supporting real-time, multi-turn conversations in interactive systems like virtual agents and social robots. While recent MLLMs successfully combine vision, audio, and language inputs through pretrained modality-specific encoders and large language backbones, they struggle with extended dialogues. Most current models concatenate all modality tokens with text ones, causing the sequence length to grow linearly with the number of modalities and conversational turns. This limits their ability to handle long, dynamic interactions where maintaining temporal context and adapting to changing modality importance are essential. Additionally, relying on fixed, predefined computational resources for each modality leads to inefficient processing, increased latency, and suboptimal performance.
To overcome these scalability and data efficiency challenges, the project will explore novel methodological approaches focused on dynamic and adaptive multimodal processing. First, we will develop temporal and modality-aware token compression techniques that reduce redundant information by summarizing or pruning less relevant modality inputs over time, enabling the model to maintain a compact and informative representation of the interaction history. We will design cross-modal memory mechanisms that selectively retain and retrieve important contextual information across modalities, supporting coherent multi-turn dialogue without incurring unmanageable token growth. Second, we will investigate adaptive attention and gating policies that dynamically allocate computational and representational resources depending on the conversational context and modality relevance. These policies will be learned through reinforcement learning or differentiable relaxation methods, enabling the system to optimize resource use and improve responsiveness in real time. Throughout, pretrained foundation models will be fine-tuned and integrated to provide robust and generalizable multimodal understanding despite limited direct supervision.
The project is structured around three main steps: (1) establishing a benchmark for evaluating current MLLMs in realistic conversational scenarios beyond traditional VQA/AQA tasks; This benchmark will include multi-turn conversational datasets involving complex, multimodal interactions across vision, audio, and language modalities. These datasets will test models not only for accuracy in understanding and responding but also for their ability to handle long, dynamic dialogues with variable modality importance. (2) developing architectures based on pretrained LLMs that address the scalability challenges in conversational settings; and (3) designing and optimizing dynamic policies for efficient resource allocation and memory use. Our methodological development will leverage insights and tools from the benchmarking phase to guide development and evaluation. The final phase of the project will be dedicated to integration and complementary investigations.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2025

Funding category

Funding further details

Concours allocations

Presentation of host institution and host laboratory

Université Grenoble Alpes

Institution awarding doctoral degree

Université Grenoble Alpes

Graduate school

217 MSTII - Mathématiques, Sciences et technologies de l'information, Informatique

Candidate's profile

Le candidat doit avoir une solide expérience de l'apprentissage automatique, de la vision par ordinateur, du traitement du langage naturel et des modèles génératifs profonds. Une expérience de l'apprentissage multimodal et des architectures basées sur des transformateurs est hautement souhaitable. La maîtrise de Python et des cadres d'apprentissage profond (PyTorch ou TensorFlow) est essentielle. La familiarité avec les modèles de langage de grande taille ou l'apprentissage par renforcement est un plus. Des compétences en programmation et de bonnes pratiques de génie logiciel sont attendues. Une connaissance de la robotique ou du traitement audio est bénéfique mais pas nécessaire. De solides compétences analytiques, l'autonomie, la capacité à travailler en équipe et une bonne communication en anglais pour le travail scientifique sont nécessaires.
The candidate should have a solid background in machine learning, computer vision, natural language processing, and deep generative models. Experience with multimodal learning and transformer-based architectures is highly desirable. Proficiency in Python and deep learning frameworks (PyTorch or TensorFlow) is essential. Familiarity with large language models or reinforcement learning is a plus. Programming skills and good software engineering practices are expected. Knowledge of robotics or audio processing is beneficial but not required. Strong analytical skills, autonomy, teamwork ability, and good English communication for scientific work are required.
2025-06-09
Partager via
Apply
Close

Vous avez déjà un compte ?

Nouvel utilisateur ?