I am*	↓ ↓
E-mail*	↓ ↓

Back to search results

RÉSEAUX DE NEURONES PROFONDS POUR L'ANALYSE DES NUAGES DE POINTS 3D EN VISION PAR ORDINATEURS // DEEP NEURAL NETWORKS FOR 3D POINT-CLOUD SCENE ANALYSIS IN COMPUTER VISION

Ref. ABG-138166 ADUM-73289	Thesis topic
2026-04-11		Public funding alone (i.e. government, region, European, international organization research grant)

Sorbonne Université SIS (Sciences, Ingénierie, Santé)

Workplace

Paris - Ile-de-France - France

Topic title

RÉSEAUX DE NEURONES PROFONDS POUR L'ANALYSE DES NUAGES DE POINTS 3D EN VISION PAR ORDINATEURS // DEEP NEURAL NETWORKS FOR 3D POINT-CLOUD SCENE ANALYSIS IN COMPUTER VISION

Scientific expertise

Computer science

Keywords

réseaux de neurones profonds, modèles génératifs, analyse de nuages de points, vision machine
deep neural networks, generative models, point cloud analysis, machine vision

Topic description

L'analyse de nuages de points constitue un défi majeur en vision par ordinateur, exploitant des données géométriques 3D volumineuses issues de capteurs LiDAR et RGB-D pour une compréhension spatiale et sémantique complète des scènes. Cette capacité est impérative pour des applications réelles exigeantes, telles que la perception autonome et la reconstruction d'environnements 3D à grande échelle, nécessitant un apprentissage de représentations robuste et à faible latence. Si les réseaux de neurones profonds atteignent des performances de pointe pour des tâches telles que la segmentation et la détection, ce succès repose sur des jeux de données annotés à grande échelle, créant un goulot d'étranglement critique dû à la rareté des données. Ce défi est
amplifié dans les séquences spatio-temporelles 4D, où le maintien de la cohérence temporelle des annotations engendre un coût d'étiquetage prohibitif. Pour pallier ces problèmes, les modèles de fondation 3D (FMs) facilitent le transfert de connaissances ; cependant, l'échelle intrinsèque et la nature non-euclidienne des nuages de points imposent des architectures complexes et invariantes
aux permutations. Il en résulte une complexité de calcul élevée et une empreinte mémoire substantielle. Ce surcoût architectural entrave directement le déploiement sur des dispositifs embarqués aux ressources limitées, entraînant souvent une latence d'inférence insoutenable et une dégradation de la fidélité géométrique. Par conséquent, la gestion de la rareté des données étiquetées et l'atténuation du surcoût massif des modèles restent les principaux obstacles à une inférence/vision 3D robuste et généralisée.

Pour répondre à ces verrous critiques, ce sujet de thèse vise à proposer une méthodologie intégrée combinant de nouveaux paradigmes d'apprentissage auto-supervisé (SSL) et d'apprentissage actif (AL) avec des techniques d'optimisation d'architectures et de compression, garantissant que les modèles de fondation 3D résultants atteignent robustesse, précision et efficacité d'inférence. Ces
objectifs comprennent :

• Apprentissage Auto-Supervisé (SSL) : L'objectif est de formaliser de nouveaux cadres SSL et des tâches prétextes conçus pour exploiter les régularités structurelles spatio-temporelles intrinsèques aux données de nuages de points 3D et 4D non étiquetées à grande échelle.

• Apprentissage Actif et PEFT : L'objectif est de développer des stratégies d'apprentissage actif fondées sur des métriques d'incertitude et de densité pour faciliter une annotation frugale. Cela s'appuie également sur des techniques de réglage fin efficace en paramètres (PEFT, ex: prompt tuning, LoRA) pour rationaliser l'adaptation des modèles de fondation.

• Architectures Neuronales Sensibles aux Ressources : L'objectif est de concevoir des architectures neuronales et des représentations de nuages de points optimisées et économes en ressources. L'entraînement utilisera des fonctions de perte de qualité perceptuelle adaptées aux tâches pour améliorer la fidélité géométrique et sémantique à travers diverses tâches de vision et d'apprentissage de représentations (reconnaissance, compression, etc.).
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Point cloud analysis constitutes a major challenge in computer vision, leveraging high-volume 3D geometric data from LiDAR and RGB-D sensors for comprehensive spatial and semantic scene understanding. This capability is mandatory across demanding, real-world applications such as autonomous perception and large-scale 3D environment reconstruction, necessitating robust, low-latency representation learning. While deep neural networks achieve state-of-the-art performance for tasks like segmentation and detection, this success is predicated on large-scale, annotated datasets, establishing a critical data scarcity bottleneck. This challenge is amplified in 4D spatio-temporal sequences, where enforcing temporal consistency in annotations incurs prohibitive labeling overhead. To mitigate these issues, 3D Foundation Models (FMs) facilitate knowledge transfer, yet the inherent scale and the non-Euclidean nature of point clouds necessitate complex, permutation-invariant architectures. This results in high computational complexity and substantial memory footprints. This architectural overhead directly impedes deployment on resource-constrained edge devices, often leading to untenable inference latency and degradation of geometric fidelity . Therefore, managing labeled data scarcity and mitigating severe model overhead remain the primary hurdles to widespread robust 3D vision inference.

To address the aforementioned critical bottlenecks of limited labeled data and excessive model overhead, this PhD research subject proposes an integrated methodology combining novel self-supervised learning (SSL) and active learning (AL) paradigms with architectural optimization and compression techniques, ensuring the resulting 3D FMs achieve robustness, accuracy , and efficient
inference. These objectives encompass:

• Self-Supervised Learning (SSL): The goal is to formalize novel SSL frameworks and pretext tasks designed to leverage the inherent spatio-temporal structural regularities present in large-scale unlabeled 3D and 4D point-cloud data.

• Active Learning & PEFT: The objective is to develop principled active learning strategies leveraging uncertainty and density metrics to facilitate frugal annotation. This also relies on Parameter-Efficient Fine-Tuning (PEFT) techniques (e.g., prompt tuning, LoRA) to streamline the adaptation of FMs.

• Resource-Aware Neural Architectures: The goal is to design optimized, resource-aware neural architectures and point-cloud representations. Training will use task-appropriate perceptual quality losses to enhance geometric and semantic fidelity across various machine vision and representation learning tasks (recognition, compression, etc).
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/2026

Funding category

Public funding alone (i.e. government, region, European, international organization research grant)

Funding further details

Concours pour un contrat doctoral

Presentation of host institution and host laboratory

Sorbonne Université SIS (Sciences, Ingénierie, Santé)

Institution awarding doctoral degree

Sorbonne Université SIS (Sciences, Ingénierie, Santé)

Graduate school

130 Ecole Doctorale d'Informatique, Télécommunications et Electronique

Candidate's profile

Nous recherchons un(e) candidat(e) très motivé(e), ayant de préférence une formation en mathématiques appliquées ou en informatique, avec un accent particulier sur les statistiques, l'apprentissage automatique (machine learning) / profond (deep learning) et le traitement de données visuelles 2D/3D. Le/la candidat(e) devra également maîtriser les outils d'apprentissage automatique et les plateformes de programmation existants.
We are seeking a highly motivated candidate, with a preferred background in applied mathematics or computer science with more emphasis on statistics, machine / deep learning and 2D/3D visual data processing, and familiar with existing machine learning tools and programming platforms.

Application deadline

2026-05-01

Partager via

Apply

Vous avez déjà un compte ?

Nouvel utilisateur ?

Mr/Mrs*	↓ ↓
First name*	↓ ↓
Last name*	↓ ↓
E-mail*	↓ ↓
Confirm your e-mail*	↓ ↓
Password*	8 characters minimum, including at least one figure, one lower case letter and one uppercase letter. ↓ ↓
Please confirm password*	↓ ↓