Où docteurs et entreprises se rencontrent
Menu
Connexion

Vous avez déjà un compte ?

Nouvel utilisateur ?

Stage IA Générative : Construction de graphes de scène avec les modèles multimodaux larges

ABG-120213 Stage master 2 / Ingénieur 5 mois Stage rénuméré (euros)
12/02/2024
IMT Nord Europe
Lille Les Hauts de France France
  • Informatique
  • Science de la donnée (stockage, sécurité, mesure, analyse)
IA générative, graphe de scène, modèle multimodal, fine-tuning de modèles
01/03/2024

Établissement recruteur

L'École IMT Nord Europe est un établissement public à caractère scientifique, culturel et professionnel et l'une des 204 écoles d'ingénieurs françaises accréditées au 1er septembre 2020 à délivrer un diplôme d'ingénieur. Elle est rattachée au Ministère de l'Économie et des Finances, chargée de l'industrie et du numérique. Elle est située dans le Nord de la France, partagée entre différents campus : la Cité Scientifique de l'Université de Lille (Villeneuve-d'Ascq, Métropole européenne de Lille), le site de Douai, le site de Valenciennes (géré par InGHenia [1] [archive]), le site de Dunkerque et le site d'Alençon (ISPA [archive]).

L'école est affiliée à l'Institut Mines-Télécom et à l'Université de Lille. Elle est membre de la Conférence des Grandes Ecoles et du Collegium des grandes écoles de Lille qui regroupe les huit grandes écoles publiques de la ville de Lille. La diversité des expertises et la complémentarité des écoles de l'Institut Mines-Télécom assurent à IMT Nord Europe sa place dans une stratégie de groupe pour répondre de manière systémique aux défis des grandes transformations du 21ème siècle : numérique, industrielles, énergétique, éducatives.  L'école apporte ainsi son expertise aux travaux de l'Institut Mines-Télécom sur les questions de la ville intelligente, de la santé et de l'autonomie des personnes et de l'industrie du futur.

Description

Les graphes de scène sont des représentations structurées donnant des informations sémantiques et spatiale sur des images. Dans ce type de graphe, les noeuds représentent les objets détectés ou identifiés dans l’image (par exemple des personnes, des voitures, des bâtiments, etc.) et les arêtes entre nœuds représentent les relations sémantiques entre ces objets (par exemple : une voiture se trouvant devant un bâtiment). Ces graphes de scène offrent un outil efficace pour interpréter des images complexes et manipuler les informations qui y sont contenus. Ils sont utilisés dans des applications telles que la reconnaissance d'actions humaines, la description automatique d'images, la génération de sous-titres d'images, etc.

 

L'objectif de ce stage est de construire une approche pour générer les graphes de scène correspondant à des images. Il existe aujourd’hui des travaux de recherche qui tentent de produire directement ces graphes en sortie d’une architecture de réseaux neurones profonds prenant en entrée les images. ([1,2]).

 

Avec ce stage, nous voulons explorer une autre approche basée sur l’utilisation et le « fine-tuning » des modèles multimodaux larges, notamment ceux qui sont spécialisés dans l’image et le texte comme Clip, Kosmos2 et GIT ([3,4]) apparus récemment. Ces modèles sont conçus pour fusionner les informations contenues dans des images et les textes associés mais aussi capturer les relations complexes entre ces modalités. Ils peuvent être utilisés pour résoudre des tâches complexes comme la compréhension d'une scène dans une image associée à une description textuelle ou la génération de descriptions pour des images, ou encore la traduction automatique multimodale.  

 

Le principe envisagé pour ce travail est d’exploiter les capacités de ces modèles à générer du texte à partir de l’image pour produire le script de construction du graphe de scène plutôt que le graphe lui-même.  A ce titre, des travaux récents comme Pix2Struct ([5]) seront utiles comme point de départ du travail. Il sera peut-être nécessaire d’appliquer des décompositions pour produire des morceaux textuels appropriés à la construction du graphe.

 

Plusieurs étapes devront être mener dans le cadre du projet :

  • La définition du langage textuel dédié à la construction de graphes de scène ;
  • La constitution d’un jeu de donnée adapté par transformation d’un jeu de donné existant (Microsoft Coco, Visual Genome) vers le langage défini à l’étape précédente ;
  • La sélection d’une modèle multimodal large pour faire les expérimentations
  • Le « fine tuning » du modèle sélectionné avec le jeu de données élaboré précédemment
  • L’évaluation du modèle « finetuné »
  • Un moteur pour construire les scènes à partir du texte généré par le modèle.

Références :

 

1: A Comprehensive Survey of Scene Graphs: Generation and Application, Xiaojun Chang, Pengzhen Ren, Pengfei Xu, Zhihui Li, Xiaojiang Chen, Alex Hauptmann, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021

 

2: Visual Relationship Detection using Scene Graphs: A Survey, Aniket Agarwal, Ayush Mangal, Vipul, 2020

 

3: Kosmos-2: Grounding Multimodal Large Language Models to the World, Zhiliang Peng and Wenhui Wang and Li Dong and Yaru Hao and Shaohan Huang and Shuming Ma and Furu Wei, Submitted to ICLR 2024

 

4 GIT: A Generative Image-to-text Transformer for Vision and Language, Jianfeng Wang and Zhengyuan Yang and Xiaowei Hu and Linjie Li and Kevin Lin and Zhe Gan and Zicheng Liu and Ce Liu and Lijuan Wang, Transactions on Machine Learning Research, 2022

 

5 Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding

Kenton Lee and Mandar Joshi and Iulia Turc and Hexiang Hu and Fangyu Liu and Julian Eisenschlos and Urvashi Khandelwal and Peter Shaw and Ming-Wei Chang

Proceedings of the 40th International Conference on Machine Learning, 2023

 

 

Profil

Le(la) candidat(e) devra être un(e) étudiant(e) M2 ou équivalent, idéalement en Informatique, Image et/ou Vision ou Intelligence Artificielle avec les éléments suivants :

 

Connaissances des techniques de base de Machine Learning et expérience avec un framework existant comme sklearn, tensorflow, pytorch ou autre ;

 

Bon niveau de programmation en Python (concepts de programmation par objets maitrisé) ;

 

Fort intérêt par la vision par ordinateur, le traitement du langage naturel ou la recherche d'informations.

Prise de fonction

18/03/2024
Partager via
Postuler
Fermer

Vous avez déjà un compte ?

Nouvel utilisateur ?