Approches multimodales et explicables pour la classification des genres éditoriaux audiovisuels
| ABG-134592 | Thesis topic | |
| 2025-11-27 | Public funding alone (i.e. government, region, European, international organization research grant) |
- Computer science
- Communication, information, media, culture
Topic description
Contexte des travaux de recherche
Le travail mené dans le cadre de ce doctorat s’effectuera au sein du projet ANR STREAMedia. Le consortium pluridisciplinaire est constitué de chercheurs en sciences humaines et sociales (Carism, Cerlis, Irméccen) et en informatique (EFREI Research Lab, IDHN, ICube, INA), Le projet STREAMedia vise de proposer un modèle IA multimodal efficace de caractérisation et d’identification des genres des vidéos d’émissions d’actualité politique, issues à la fois des plateformes numériques et de la télévision afin de tester l’hypothèse d’informalisation des contenus politiques. Ce modèle IA multimodal basé sur l’apprentissage profond (deep learning) traitera à la fois les métadonnées, les données textuelles et les données du flux audio et vidéo. Au-delà de la caractérisation structurelle des genres, STREAMédia vise à développer des modèles IA pour détecter des caractéristiques plus complexes telles que l’humour ou l’expression de la subjectivité, qui ont été analysés comme des formes d’informalisation.
Sujet de thèse
Cette thèse s’inscrit dans le cadre du projet ANR STREAMédia et vise à développer une approche d’intelligence artificielle multimodale et explicable pour la classification multi-label des genres éditoriaux.
La caractérisation automatique des éléments structurels des genres éditoriaux vise à identifier et analyser de manière objective l'organisation interne de ces contenus médiatiques. Le peu de travaux de caractérisation automatique des éléments structurels des genres éditoriaux se sont concentrés principalement sur le talk-show. Certains n'ont traité qu'un seul élément structurel, comme la reconnaissance des locuteurs via des approches d’apprentissage automatique classiques [1], tandis que d'autres ont adopté une approche multimodale en combinant des caractéristiques audiovisuelles et une grammaire de base [2]. Par ailleurs, les méthodes de vision par ordinateur, telles que la reconnaissance d’actions, de dialogues, de personnes, de scènes ou encore la segmentation en plans, ont connu un progrès significatif [3-6]. Cependant, elles n’ont pas été spécifiquement appliquées à la caractérisation des genres, en grande partie en raison de l’absence d’une ontologie complète pour représenter et modéliser ces contenus de manière exhaustive.
L'absence d'un cadre ontologique structuré freine la compréhension et la gestion des contenus multimédias en limitant la capacité des modèles IA à saisir les relations sémantiques et structurelles entre les entités présentes dans ces contenus. Bien que des ontologies pour le contenu multimédia aient été développées, telles qu’EBUCore dans le cadre du projet MeMAD [7], ces initiatives restent fragmentaires, appliquées à la transcription du texte, et ne sont pas adaptées aux spécificités des genres éditoriaux et ne tiennent pas compte des informations fournies par les différentes modalités. Ainsi, pour la caractérisation des genres éditoriaux, on notera : i) Une absence de modélisation traduisant la richesse sémantique des contenus multimédias, les versions actuelles peinent à capturer pleinement les interactions complexes entre texte, audio et vidéo. ii) Un manque de représentation explicite des éléments structurels propres aux genres éditoriaux, tels que l’organisation d’un débat, la structure narrative d’un reportage ou la segmentation d’un bulletin d’informations, ; iii) Des contraintes d’interopérabilité et d’alignement des vocabulaires entre différentes sources, ce qui complique l’analyse croisée de grands corpus multimédias.
La classification des genres éditoriaux du traitement médiatique de l’actualité politique soulève des défis majeurs liés à la multimodalité des contenus (vidéo, audio, texte). La nature hétérogène et riche des données multimodales impose des méthodes adaptées à chaque modalité : l'extraction et l'analyse d’images et vidéos (descripteurs classiques comme SIFT ou approches profondes via CNN), l’étude des signaux audio (extraction d’attributs classiques comme l’énergie ou le taux de passage par zéro, ou encore l’utilisation de CNN et Transformers), et le traitement du texte (TF-IDF, Word2Vec, LSTM, et Transformers). Chaque domaine mobilise des approches distinctes, rendant complexe une analyse unifiée. Les travaux existants sur la multimodalité s’appuient généralement sur une extraction indépendante des caractéristiques pour chaque modalité, suivie d’une fusion des données sans réelle prise en compte de leur complémentarité [8,9,10]. Cela limite la capacité à appréhender la sémantique globale du contenu. En effet, les différentes modalités d’un même contenu sont souvent complémentaires et peuvent renforcer l’interprétation d’une information [12, 11]. Par exemple, dans le cadre des genres éditoriaux en actualité politique, l’analyse seule du texte d’un discours peut ne pas suffire pour identifier son format (reportage, débat) ou son ton (neutre, polémique). L’intégration d’indices visuels (présence d’un présentateur, d’un public, bandeaux-titres) et audio (musique, intonation des voix) est essentielle pour une classification plus fine et pertinente [13].
La fusion des différentes modalités constitue ainsi un enjeu technique central. Plusieurs approches existent, de la concaténation précoce des caractéristiques à la fusion tardive des décisions des classifieurs. Le choix d’une approche de fusion dépend du type de données et des relations entre les modalités. Actuellement, la fusion tardive est privilégiée, car elle permet un traitement spécifique à chaque modalité avant l’intégration finale des résultats [10,11,1]. Cependant, la nature asynchrone des flux multimodaux accentue la difficulté d’intégration. Les flux vidéo et audio peuvent présenter des décalages temporels, et l’alignement exact entre segments textuels et instants précis de la vidéo reste une problématique complexe [14]. Les approches unimodales montrent ainsi leurs limites, soulignant l’importance de développer des méthodes robustes capables d’aligner et d’exploiter efficacement ces flux hétérogènes [7].
L’explicabilité des modèles constitue un enjeu majeur dans ce projet de thèse, car elle est indispensable à la validation experte des classifications. Les approches classiques utilisées pour l’identification des genres éditoriaux (SVM, K-means, MLP, CNN [1, 11, 13]) restent limitées en termes d’interprétabilité. Les modèles récents, notamment ceux basés sur les Transformers, offrent un potentiel intéressant grâce à leurs mécanismes d’attention, capables de mettre en évidence les segments du signal (texte, audio, vidéo) qui contribuent aux prédictions. Toutefois, ces mécanismes ne reflètent pas nécessairement la causalité réelle des décisions et ne garantissent donc qu’une interprétabilité partielle.
Dans ce contexte, le développement du modèle IA dans la thèse intégrera explicitement l’exigence d’explicabilité comme paramètre central. Cela implique de renforcer les mécanismes existants par des approches d’IA explicable (XAI) telles que les méthodes d’attribution (Integrated Gradients, SHAP, LIME), les analyses contre-factuelles, ou encore l’intégration de graphes de connaissances [16]. L’objectif est de garantir une transparence accrue et une robustesse des explications, permettant ainsi une meilleure compréhension et validation des résultats par les experts des sciences humaines et sociales.
Dans ce cadre, le doctorant sera amené à réaliser les tâches suivantes et, pour certaines, en lien avec les partenaires du projet :
- Appropriation des concepts de genres éditoriaux
- Un état de l’art approfondi sur les méthodes multimodales de classification (texte, audio, vidéo, métadonnées) et sur la caractérisation du rythme, du montage et des éléments structurels des vidéos (segments, transitions, rubriques).
- Modélisation des genres éditoriaux sous forme de graphe de connaissances, à partir de la grammaire définie par les partenaires SHS, afin de représenter leurs relations, caractéristiques structurelles et discursives.
- Caractérisation automatique des éléments structurels (séquençage, transitions, plans, rubriques) en s’appuyant sur des benchmarks et sur des briques logicielles existantes ou adaptées.
- Conception d’un modèle IA multimodal et explicable intégrant des caractéristiques issues des modalités textuelles, audio-visuelles et structurelles, afin de permettre la classification multi-label des vidéos en genres éditoriaux, tout en offrant des explications interprétables des décisions algorithmiques.
Références
[1] V. Félicien, « Structuration automatique de talk shows télévisés », phdthesis, Télécom ParisTech, 2011. Consulté le: 8 octobre 2024. [En ligne]. Disponible sur: https://pastel.hal.science/pastel-00635495
[2] S. Daudpota, A. Muhammad, et J. Baber, « Video genre identification using clustering-based shot detection algorithm », Signal, Image and Video Processing, vol. 13, oct. 2019, doi: 10.1007/s11760-019-01488-3
[3] M. Dimiccoli et H. Wendt, « Learning Event Representations for Temporal Segmentation of Image Sequences by Dynamic Graph Embedding », IEEE Transactions on Image Processing, vol. 30, p. 1476‑1486, 2021, doi: 10.1109/TIP.2020.3044448
[4] K. Xiao, Z. Qian, et B. Qin, « A Survey of Data Representation for Multi-Modality Event Detection and Evolution », Applied Sciences, vol. 12, no 4, Art. no 4, janv. 2022, doi: 10.3390/app12042204.
[5] R. Mounir, R. Gula, J. Theuerkauf, et S. Sarkar, « Spatio-Temporal Event Segmentation for Wildlife Extended Videos », 2022, p. 48‑59. doi: 10.1007/978-3-031-11349-9_5
[6] R. Friji, F. Chaieb, H. Drira, et S. Kurtek, « Geometric Deep Neural Network Using Rigid and Non-Rigid Transformations for Landmark-Based Human Behavior Analysis », IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 45, no 11, p. 13314‑13327, nov. 2023, doi: 10.1109/TPAMI.2023.3291663
[7] Aidan Hogan, Eva Blomqvist, Michael Cochez, Claudia D’amato, Gerard De Melo, Claudio Gutierrez, Sabrina Kirrane, José Emilio Labra Gayo, Roberto Navigli, Sebastian Neumaier, Axel-Cyrille Ngonga Ngomo, Axel Polleres, Sabbir M. Rashid, Anisa Rula, Lukas Schmelzeisen, Juan Sequeda, Steffen Staab, and Antoine Zimmermann. 2021. Knowledge Graphs. ACM Comput. Surv. 54, 4, Article 71 (May 2022), 37 pages. https://doi.org/10.1145/3447772
[8] Xiaorui Yang, Qian Zhou, Wei Chen, and Lei Zhao. 2023. MFMGC: A Multi-modal Data Fusion Model for Movie Genre Classification. In Advanced Data Mining and Applications: 19th International Conference, ADMA 2023, Shenyang, China, August 21–23, 2023, Proceedings, Part II. Springer-Verlag, Berlin, Heidelberg, 676–691. https://doi.org/10.1007/978-3-031-46664-9_45
[9] Isaac Rodríguez Bribiesca, Adrián Pastor López Monroy, and Manuel Montes-y-Gómez. 2021. Multimodal Weighted Fusion of Transformers for Movie Genre Classification. In Proceedings of the Third Workshop on Multimodal Artificial Intelligence, pages 1–5, Mexico City, Mexico. Association for Computational Linguistics.
[10] I. Mironică, B. Ionescu, P. Knees and P. Lambert, "An in-depth evaluation of multimodal video genre categorization," 2013 11th International Workshop on Content-Based Multimedia Indexing (CBMI), Veszprem, Hungary, 2013, pp. 11-16, doi: 10.1109/CBMI.2013.6576545.
[11] Rafael B. Mangolin, Rodolfo M. Pereira, Alceu S. Britto, Carlos N. Silla, Valéria D. Feltrim, Diego Bertolini, and Yandre M. G. Costa. 2022. A multimodal approach for multi-label movie genre classification. Multimedia Tools Appl. 81, 14 (Jun 2022), 19071–19096. https://doi.org/10.1007/s11042-020-10086-2
[12] Bouyahi, Mohamed and Yassine Ben Ayed. “Video Scenes Segmentation Based on Multimodal Genre Prediction.” International Conference on Knowledge-Based Intelligent Information & Engineering Systems (2020).
[13] J. Wang, L. Duan, Q. Liu, H. Lu and J. S. Jin, "A Multimodal Scheme for Program Segmentation and Representation in Broadcast Video Streams," in IEEE Transactions on Multimedia, vol. 10, no. 3, pp. 393-408, April 2008, doi: 10.1109/TMM.2008.917362. }.
[14] Hazim Kemal Ekenel, Tomas Semela, and Rainer Stiefelhagen. 2010. Content-based video genre classification using multiple cues. In Proceedings of the 3rd international workshop on Automated information extraction in media production (AIEMPro '10). Association for Computing Machinery, New York, NY, USA, 21–26. https://doi.org/10.1145/1877850.1877858
[15] H, F. Z., Guzel, M. S., Bostanci, E., Acici, K., & Asuroglu, T. (2023). Multilabel Genre Prediction Using Deep-Learning Frameworks. Applied Sciences, 13(15), 8665. https://doi.org/10.3390/app13158665
[16] Ilaria Tiddi, Stefan Schlobach, Knowledge graphs as tools for explainable machine learning: A survey, Artificial Intelligence, Volume 302, 2022, https://doi.org/10.1016/j.artint.2021.103627.
Funding category
Funding further details
Presentation of host institution and host laboratory
Efrei Paris, école d’ingénieurs, composante de l’Université Paris-Panthéon-Assas, est un établissement privé d’enseignement supérieur technique, reconnu par l’Etat, EESPIG, dont dépend le laboratoire Efrei Research Lab, dirigé par Etienne PERNOT.
L’Efrei Research Lab est le laboratoire de recherche de l’Efrei. Il se compose d’une cinquantaine d’enseignants-chercheurs en informatique et électronique ainsi que d’autant de doctorants. Depuis janvier 2022, en intégrant l’université Paris-Panthéon-Assas, Efrei Research Lab est reconnu comme le laboratoire numérique de l’Université, unité de recherche 202224306D, rattaché à l’école doctorale ED 455 EGIC, délivrant le doctorat en informatique.
Ses domaines de recherche se concentrent sur les domaines du numérique à travers quatre axes :
- données et Intelligence Artificielle ;
- sécurité, résilience et confiance numérique ;
- réseaux de communication ;
- systèmes embarqués intelligents.
Le Laboratoire se concentre sur de la recherche appliquée avec deux domaines d’applications majeurs : les sciences du vivant (santé, agriculture et biodiversité, sport, éducation) et les territoires intelligents (entreprises, habitations, réseaux).
L’Efrei Research Lab s’est engagé dans la mise en œuvre de sa responsabilité sociétale vis-à-vis des enjeux environnementaux à travers l’ensemble des activités du laboratoire. Le chercheur de l’Efrei Research Lab s’engage à prendre en compte la transition écologique pour un développement soutenable dans ses activités de recherche menées au sein de l’Efrei Research Lab.
PhD title
Country where you obtained your PhD
Institution awarding doctoral degree
Graduate school
Candidate's profile
- Diplôme : Master 2 (ou équivalent, Bac +5) en informatique.
- Compétences scientifiques :
- Solides compétences en :
- Programmation OO (Python),
- Apprentissage profond, NLP
- Connaissances en vision par ordinateur, analyse d’images/vidéos
- LLM/RAG
- Solides compétences en :
- Langues : Excellent niveau en Français et en anglais.
- Qualités personnelles : bon relationnel pour le travail en équipe, rigueur scientifique, autonomie et esprit d’initiative.
Vous avez déjà un compte ?
Nouvel utilisateur ?
Get ABG’s monthly newsletters including news, job offers, grants & fellowships and a selection of relevant events…
Discover our members
Institut Sup'biotech de Paris
PhDOOC
CASDEN
Tecknowmetrix
Nokia Bell Labs France
TotalEnergies
ONERA - The French Aerospace Lab
ADEME
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
Groupe AFNOR - Association française de normalisation
MabDesign
Laboratoire National de Métrologie et d'Essais - LNE
MabDesign
ANRT
Ifremer
Généthon
Aérocentre, Pôle d'excellence régional
SUEZ
CESI


