ARGUMEDIA-FR : Détection et caractérisation multimodales des stratégies rhétoriques dans les débats politiques télévisés en France
| ABG-134423 | Thesis topic | |
| 2025-11-18 | Cifre |
- Computer science
- Communication, information, media, culture
Topic description
Entreprise : Alten France (DIN : Direction d’Innovation), INA (Institut National de l’Audiovisuel)
Laboratoire académique partenaire : EFREI Research Lab en collaboration avec CARISM (Centre d'Analyse et de Recherche Interdisciplinaire sur les Médias), Université Paris-Panthéon-Assas.
Thématique de recherche
Le sujet de thèse s'inscrit dans l'exploration de l'Intelligence Artificielle Explicable pour l'Analyse Multimodale des Débats Politiques Télévisés. Les enjeux sont liés au développement d'outils d'IA capables de détecter et expliquer automatiquement les stratégies rhétoriques dans les débats politiques français, tout en analysant leur circulation et transformation dans les espaces médiatiques en ligne. Le projet ARGUMEDIA-FR vise à identifier, catégoriser et expliquer les stratégies argumentatives complexes déployées dans les débats politiques télévisés en France, en combinant les apports des théories d’argumentation, de la pragmatique et de l'analyse conversationnelle avec des approches informatiques avancées en traitement multimodal.
La thèse articule une double problématique interdisciplinaire. Sur le plan IA, il s'agit de concevoir une architecture multimodale explicable exploitant conjointement texte, audio et vidéo pour identifier les moments clés des débats et détecter automatiquement les stratégies rhétoriques majeures telles que les attaques ad hominem, les interruptions et dynamiques de prise de parole, les appels à l'émotion et les reformulations stratégiques. Sur le plan applicatif et validation, le projet analysera la "translation rhétorique" des moments-clés des débats TV vers les médias sociaux, en étudiant comment ces stratégies sont repackagées en formats courts et leur impact sur la viralité algorithmique. Cette analyse permettra de comparer systématiquement les moments identifiés automatiquement par le système comme "saillants" avec ceux effectivement sélectionnés et transformés par les commentateurs humains dans leur circulation en ligne.
Objectifs et démarche de recherche
Le projet vise à développer un système d'IA multimodale explicable pour l'analyse automatique des débats télévisés, en combinant des architectures de pointe telles que les Transformers multimodaux, Large Language Models, et architectures audio-visuelles de type CLIP et Whisper. L'objectif principal est de détecter et caractériser quatre stratégies rhétoriques majeures : attaques ad hominem, appels à l'émotion, reformulations stratégiques, interruptions et dynamiques de prise de parole. Le système exploitera conjointement les expressions faciales, la gestuelle, les caractéristiques prosodiques de la voix (pitch, énergie, chevauchements) et le contenu textuel à travers marqueurs lexicaux, syntaxiques et pragmatiques.
L'architecture développée intégrera des mécanismes d'explicabilité avancés adaptés aux chercheurs SHS (Sciences Humaines et Sociales). Ces explications seront validées empiriquement à travers des études utilisateurs évaluant leur compréhensibilité et utilité pour des non-experts en IA.
Une composante essentielle consistera à constituer un corpus multimodal annoté de référence. En collaboration avec des experts SHS du CARISM dédiés sur trois ans, le projet développera un schéma d'annotation opérationnel permettant de caractériser finement chaque stratégie en termes de type, intensité, cibles et indices multimodaux. L'annotation, combinant approches manuelles multimodales (texte, audio et vidéo) et semi-automatiques, permettra d'enrichir un dataset privé dédié.
Contexte opérationnel
Les travaux de thèse s'appuieront sur la plateforme MEDIA développée au sein du Lab Alten de Sèvres, qui intègre déjà des technologies avancées pour l'analyse automatique des débats : identification des locuteurs, calcul de temps de parole, retranscription textuelle, détection des thématiques, résumés automatiques et analyse émotionnelle multimodale. Le projet ARGUMEDIA-FR constituera une extension majeure en y intégrant la détection de stratégies rhétoriques et des mécanismes d'explicabilité avancés.
Le projet bénéficie d'un dataset multimodal MediEMotion d'environ cent heures comprenant transcriptions, fichiers audio, images de visages et labels émotionnels, qui servira de point de départ pour l'enrichissement vers l'annotation d'actes rhétoriques. Les travaux utiliseront également les corpus de l'ANR STREAMédia hébergés à l'INA. Un corpus ciblé de circulation des extraits sur les plateformes sera collecté durant la thèse via des approches de scraping éthique et l'utilisation d'APIs officielles.
La thèse se déroulera principalement au laboratoire ALTEN de Sèvres, avec des déplacements réguliers vers les instituts partenaires (CARISM, EFREI Research Lab et INA), où un rôle de coordination technique d'une équipe d'ingénieurs R&D est attendu pour la mise en œuvre du projet. Le doctorant bénéficiera du support d'ingénieurs pour l'implémentation de certains modules et, de manière cruciale, du support continu d'une équipe de stagiaires SHS dédiés tout au long des trois années, qui travailleront en parallèle sur la conception du schéma d'annotation, l'annotation effective du corpus, la validation théorique des catégories rhétoriques et l'interprétation qualitative des résultats. Cette organisation permet au doctorant de se concentrer principalement sur les développements informatiques avancés. Des déplacements réguliers sont prévus pour les collaborations avec le CARISM et l'INA, notamment lors des phases de définition des schémas d'annotation, de validation interdisciplinaire des résultats et de rédaction.
Funding category
Funding further details
Presentation of host institution and host laboratory
Direction de l'Innovation ALTEN
EFREI Research Lab
Candidate's profile
Diplômé(e) d'une École d'Ingénieur ou d'un Master 2 en Intelligence Artificielle, Data Science, Traitement Automatique du Langage Naturel ou informatique. Vous justifiez de solides connaissances en Machine Learning et Deep Learning, notamment en traitement multimodal combinant image, son et texte, et maîtrisez Python, PyTorch ou TensorFlow, les frameworks NLP comme Hugging Face Transformers, les bibliothèques de vision comme OpenCV et de traitement audio comme librosa, que vous avez appliqués dans des projets démontrant votre capacité à mener un développement complet.
Alliant compétences techniques et sensibilité humaniste, vous manifestez un intérêt marqué pour les sciences humaines et sociales, particulièrement l'analyse du discours et les enjeux politiques contemporains. Idéalement, vous possédez une expérience en NLP avancé (transformers, NLI, détection de paraphrases), en traitement audio (features prosodiques, diarisation) et en explicabilité de l'IA (XAI). Autonome et rigoureux(se), vous excellez dans la rédaction scientifique bilingue (français/anglais), la coordination de collaborations interdisciplinaires et la conception de protocoles d'annotation, avec un forte capacité d'analyse et de proposition.
Vous saurez assurer la confidentialité de votre projet.
Vous avez déjà un compte ?
Nouvel utilisateur ?
Get ABG’s monthly newsletters including news, job offers, grants & fellowships and a selection of relevant events…
Discover our members
Aérocentre, Pôle d'excellence régional
MabDesign
ADEME
ANRT
CESI
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
PhDOOC
Nokia Bell Labs France
ONERA - The French Aerospace Lab
Ifremer
Tecknowmetrix
Généthon
Institut Sup'biotech de Paris
CASDEN
Groupe AFNOR - Association française de normalisation
MabDesign
TotalEnergies
Laboratoire National de Métrologie et d'Essais - LNE
SUEZ




