Approches statistiques multi-blocs pour l’exploration de données métabolomiques et climatologiques
| ABG-135521 | Stage master 2 / Ingénieur | 4 mois | 577,50 |
| 05/02/2026 |
- Mathématiques
- Agronomie, agroalimentaire
- Biochimie
Établissement recruteur
L’équipe Physico Chimie de l’Aliment et du Vin (PCAV) de l’UMR PAM est spécialisée dans le domaine de
la chimie et de la physicochimie des aliments, du vin et des emballages. Elle a acquis une expertise dans le
développement d’approches combinées métabolomique/biostatistique/bio-informatique pour
l’identification de signatures moléculaires complexes dans des matrices œnologiques. Ses travaux visent
notamment à modéliser l’impact de paramètres environnementaux, ou de pratiques vitivinicoles sur le
métabolome du raisin et du vin, et développer des outils pour la compréhension et la prédiction des
mécanismes de stabilité des vins (colloïdale, oxydative…).
Description
Contexte du projet :
Le changement climatique bouleverse profondément les équilibres viticoles à l’échelle mondiale. Ses effets, déjà perceptibles à travers l’avancement des dates de vendanges, l’élévation des teneurs en alcool ou la diminution de l’acidité des vins, posent des questions
cruciales quant à l’avenir de la qualité des matières premières issues de la vigne. Dans les vignobles septentrionaux français, en particulier en Bourgogne, cette évolution climatique met en tension la stabilité du potentiel œnologique de cépages emblématiques comme le Pinot noir ou le Chardonnay. Ces impacts s’inscrivent dans une dynamique multifactorielle, résultant d’interactions complexes entre climat, sol, pratiques culturales et génétique végétale. Anticiper ces trajectoires et adapter les systèmes viticoles supposent une compréhension fine
de la plasticité métabolique des cépages face aux variations environnementales.
Dans ce contexte, la spectrométrie de masse à (ultra) haute résolution (UHR MS), appliquée selon une approche non ciblée, constitue un outil analytique de choix pour explorer de manière holistique la composition de matrices complexes. En œnologie, cette
technologie permet de révéler la remarquable diversité biochimique des jus de raisin, tout en intégrant les effets conjoints du stress hydrique, des conditions pédoclimatiques et des pratiques
viticoles sur la maturation des baies. Ainsi, la baie de raisin peut être considérée comme un véritable capteur biologique intégré du climat, dont l’exploration chimique offre des perspectives inédites pour modéliser et anticiper les effets des changements environnementaux sur la composition du raisin et par conséquent sur les propriétés organoleptiques des vins.
L’exploitation de tels jeux de données repose sur l’utilisation et le développement d’outils statistiques et bio-informatiques, qui ont pour objectif : (i) de réaliser des analyses multivariées afin d’identifier des signatures moléculaires (biomarqueurs) qui permettent d’expliquer le comportement de paramètres observés, et (ii) de progresser dans l'élucidation structurale de ces signatures souvent composées d’un grand nombre d’inconnus.
Objectifs :
Une première étape du stage consistera à prendre en main et à explorer des jeux de données disponibles à l’aide d’analyses multivariées classiques (ACP, PLS), afin de caractériser
leur structure, leur qualité et leur variabilité. L’objectif principal sera ensuite d’explorer des approches multi-blocs permettant l’intégration simultanée de plusieurs sources de données, selon deux dimensions complémentaires :
(i) une intégration transversale, visant à combiner des données issues de différentes plateformes analytiques (UHPLC-qToF MS et FT-ICR MS) ou biologiques
(données métabolomiques, climatiques ou oenologiques) mesurées sur les mêmes échantillons,
(ii) une intégration longitudinale, qui permettra d’exploiter conjointement plusieurs ensembles d’échantillons issus de conditions contrastées (par exemple, différents millésimes, sites ou
modalités expérimentales). Parmi les méthodes envisagées, une attention particulière sera portée aux approches de type O2PLS et OnPLS, qui permettent d’identifier de manière robuste les composantes communes et spécifiques à chaque bloc de données, tout en offrant une double dimension explicative et prédictive. Ces approches seront comparées à d’autres méthodes multi-blocs (AMOPLS, SO-PLS…) ainsi qu’à des algorithmes supervisés (forêts
aléatoires, SVM, gradient boosting), afin d’évaluer leur complémentarité.
Enfin, le stage inclura la mise en place de protocoles standardisés de traitement et d’analyse des données, sous forme de scripts modulaires développés en programmation orientée objet (OOP, programmation orientée objects). Ces outils, réalisés en R, C++ et/ou Python, s’intégreront et complémenteront les chaînes de traitement déjà présent au sein de l’équipe. À terme, ce travail doit permettre d’identifier des biomarqueurs robustes de la réponse
de la vigne aux variations climatiques et de proposer des modèles explicatifs et prédictifs intégrant simultanément plusieurs dimensions (climat, métabolisme, potentiel œnologique), contribuant ainsi à une meilleure anticipation des impacts du changement climatique sur la
qualité des raisins et des vins.
Au-delà, ce travail ouvrira la voie à des développements méthodologiques de bio- informatique et biostatistique pour l’élucidation de différents types de données de spectrométrie
de masse.
Profil
Etudiant·e en master 2/dernière année de cursus ingénieur en biostatistique, en science des
données ou en chimie analytique avec un goût pour le traitement de données
- Solides compétences en statistique
- Bonne compréhension écrite et orale en anglais
- Pratique des logiciels de statistique et de gestion de base de données (R, C++ ou python)
- Lecture critique d’articles
- Capacités de travail en équipe et en autonomie
Prise de fonction
Vous avez déjà un compte ?
Nouvel utilisateur ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
ONERA - The French Aerospace Lab
Groupe AFNOR - Association française de normalisation
Nantes Université
Laboratoire National de Métrologie et d'Essais - LNE
Tecknowmetrix
SUEZ
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
TotalEnergies
Nokia Bell Labs France
ANRT
Généthon
Institut Sup'biotech de Paris
Ifremer
ADEME
Aérocentre, Pôle d'excellence régional
Servier
Medicen Paris Region
