(GenMed) IA générative pour la transformation médicale // (GenMed) Generative AI for medical transformation
|
ABG-137443
ADUM-73091 |
Sujet de Thèse | |
| 01/04/2026 |
Université de technologie de Troyes
TROYES - Grand Est - France
(GenMed) IA générative pour la transformation médicale // (GenMed) Generative AI for medical transformation
- Informatique
IA générative, Synthèse, Données médicales, Transformation médicale
Generative AI, Synthetic data, Medical data, Medical transformation
Generative AI, Synthetic data, Medical data, Medical transformation
Description du sujet
Aujourd'hui, l'organisation des soins et le suivi des patients reposent de plus en plus sur le numérique, avec la surveillance des données stratégiques, la mesure d'électrocardiogrammes, l'imagerie médicale, le stockage des résultats d'analyses, et même le traitement des notes écrites par les médecins. Ce contexte a considérablement évolué vers la nécessité de prise de décision intelligente grâce au développement d'outils d'intelligence artificielle et notamment des modèles d'apprentissage profond. Une propriété commune à la plupart de ces modèles est la nécessité de disposer d'un vaste ensemble de données pour l'entraînement et la validation. La préparation d'un tel jeu de données, intégrant un nombre suffisant d'échantillons représentatifs des différentes classes, peut parfois poser problème. Cette difficulté est particulièrement marquée dans le domaine médical, où la confidentialité des données des patients exige une attention toute particulière et où certains champs ne disposent tout simplement pas assez de données pour entraîner des modèles fiables. De plus, les formats sont très variés (images, signaux, valeurs numériques, textes…), ce qui complique encore l'exploitation.
L'IA générative joue un rôle crucial à ce niveau, permettant de créer de nouvelles données qui ressemblent fortement à des données réelles, sans jamais copier un patient existant ou un service donné. Grâce à l'IA générative, il est possible de générer de faux électrocardiogrammes qui soient réalistes, des IRM synthétiques montrant une pathologie rare, des notes médicales fictives mais cohérentes, des tableaux de résultats biologiques simulés ou des séries temporelles de fausses visites de patients. L'intérêt de cette synthèse est double : enrichir les bases de données pour entraîner les modèles d'IA et protéger les données sensibles. Ces données artificielles permettent de combler les manques, de réduire les biais (par exemple, entre hommes et femmes, entre âges différents ou entre historiques plus ou moins longs) et de faciliter le partage des modèles.
Ce projet propose de construire un cadre complet de génération de données médicales synthétiques, couvrant plusieurs types de données (images, signaux, chiffres, texte). Il s'articulera en plusieurs étapes :
• Préparation : analyse des besoins prioritaires et sélection de jeux de données (open source type MIMIC-III, PhysioNet, TCIA, ou partenariats hospitaliers),
• Cadrage : mise en conformité réglementaire et définition des critères de qualité des données synthétiques (réalisme clinique, diversité, non-traçabilité),
• Développement méthodologique :
o Implémenter des modèles de diffusion ou GANs spécialisés avec l'intégration des techniques de contrôle pour l'imagerie médicale ;
o Développer un générateur temporel pour simuler différentes variables physiologiques et vérifier la cohérence ;
o Mettre en place un GAN tabulaire conditionnel pour la reproduction des corrélations entre les variables ;
o Adapter un LLM médical pour générer des comptes rendus cohérents et plausibles ;
o Intégrer la multimodalité pour construire un « jumeau numérique » patient réaliste combinant plusieurs sources de données.
• Validation : réaliser des évaluations quantitatives et qualitatives des données synthétiques, appliquer des tests grâce à des modèles prédictifs entraînés sur des données réelles et vérifier la qualité des données produites avec l'aide d'experts médicaux.
A terme, ce travail doit permettre de créer un « patient virtuel » réaliste, combinant signaux, images et textes, qui servira de ressource pour tester et améliorer les outils d'IA médicale. Une extension de ce travail permettra aussi de produire un avatar d'établissements de santé, avec des données stratégiques simulées. Les bénéfices attendus sont nombreux : données plus accessibles, recherche accélérée, innovation en ingénierie médicale et tout cela dans le respect des règles éthiques.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Today, the organization of healthcare and patient monitoring increasingly relies on digital technologies, including the surveillance of strategic data, electrocardiogram measurements, medical imaging, storage of laboratory results, and even the processing of physicians' written notes. This context has evolved significantly toward the need for intelligent decision-making, driven by the development of artificial intelligence tools, particularly deep learning models. A common characteristic of most of these models is the requirement for large datasets for training and validation. However, preparing such datasets—containing a sufficient number of representative samples across different classes—can be challenging. This difficulty is especially pronounced in the medical field, where patient data confidentiality requires particular care, and where some domains simply lack enough data to train reliable models. Moreover, the wide variety of formats (images, signals, numerical values, text, etc.) further complicates their use.
Generative AI plays a crucial role at this level by enabling the creation of new data that closely resembles real data, without ever replicating an existing patient or healthcare service. Thanks to generative AI, it is possible to produce realistic fake electrocardiograms, synthetic MRIs showing rare pathologies, coherent fictional medical reports, simulated biological test results, or time series representing artificial patient visits. The benefits of this data synthesis are twofold: enriching datasets to train AI models and protecting sensitive data. These artificial data help fill gaps, reduce biases (for example, between men and women, across age groups, or between shorter and longer medical histories), and facilitate model sharing.
This project aims to build a comprehensive framework for generating synthetic medical data, covering multiple data types (images, signals, numerical data, text). It will be structured in several stages:
• Preparation: analysis of priority needs and selection of datasets (open-source such as MIMIC-III, PhysioNet, TCIA, or hospital partnerships),
• Definition: regulatory compliance and establishment of quality criteria for synthetic data (clinical realism, diversity, non-traceability),
• Methodological development:
o Implement diffusion models or specialized GANs with control techniques for medical imaging;
o Develop a temporal generator to simulate physiological variables and ensure consistency;
o Set up a conditional tabular GAN to reproduce correlations between variables;
o Adapt a medical LLM to generate coherent and plausible clinical reports;
o Integrate multimodality to build a realistic “digital twin” patient combining multiple data sources.
• Validation: conduct quantitative and qualitative evaluations of synthetic data, test them using predictive models trained on real data, and assess their quality with the support of medical experts.
Ultimately, this work aims to create a realistic “virtual patient” combining signals, images, and text, which will serve as a resource to test and improve medical AI tools. An extension of this work will also enable the creation of a healthcare facility avatar, with simulated strategic data. The expected benefits are numerous: improved data accessibility, accelerated research, innovation in medical engineering, all while respecting ethical standards.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
L'IA générative joue un rôle crucial à ce niveau, permettant de créer de nouvelles données qui ressemblent fortement à des données réelles, sans jamais copier un patient existant ou un service donné. Grâce à l'IA générative, il est possible de générer de faux électrocardiogrammes qui soient réalistes, des IRM synthétiques montrant une pathologie rare, des notes médicales fictives mais cohérentes, des tableaux de résultats biologiques simulés ou des séries temporelles de fausses visites de patients. L'intérêt de cette synthèse est double : enrichir les bases de données pour entraîner les modèles d'IA et protéger les données sensibles. Ces données artificielles permettent de combler les manques, de réduire les biais (par exemple, entre hommes et femmes, entre âges différents ou entre historiques plus ou moins longs) et de faciliter le partage des modèles.
Ce projet propose de construire un cadre complet de génération de données médicales synthétiques, couvrant plusieurs types de données (images, signaux, chiffres, texte). Il s'articulera en plusieurs étapes :
• Préparation : analyse des besoins prioritaires et sélection de jeux de données (open source type MIMIC-III, PhysioNet, TCIA, ou partenariats hospitaliers),
• Cadrage : mise en conformité réglementaire et définition des critères de qualité des données synthétiques (réalisme clinique, diversité, non-traçabilité),
• Développement méthodologique :
o Implémenter des modèles de diffusion ou GANs spécialisés avec l'intégration des techniques de contrôle pour l'imagerie médicale ;
o Développer un générateur temporel pour simuler différentes variables physiologiques et vérifier la cohérence ;
o Mettre en place un GAN tabulaire conditionnel pour la reproduction des corrélations entre les variables ;
o Adapter un LLM médical pour générer des comptes rendus cohérents et plausibles ;
o Intégrer la multimodalité pour construire un « jumeau numérique » patient réaliste combinant plusieurs sources de données.
• Validation : réaliser des évaluations quantitatives et qualitatives des données synthétiques, appliquer des tests grâce à des modèles prédictifs entraînés sur des données réelles et vérifier la qualité des données produites avec l'aide d'experts médicaux.
A terme, ce travail doit permettre de créer un « patient virtuel » réaliste, combinant signaux, images et textes, qui servira de ressource pour tester et améliorer les outils d'IA médicale. Une extension de ce travail permettra aussi de produire un avatar d'établissements de santé, avec des données stratégiques simulées. Les bénéfices attendus sont nombreux : données plus accessibles, recherche accélérée, innovation en ingénierie médicale et tout cela dans le respect des règles éthiques.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Today, the organization of healthcare and patient monitoring increasingly relies on digital technologies, including the surveillance of strategic data, electrocardiogram measurements, medical imaging, storage of laboratory results, and even the processing of physicians' written notes. This context has evolved significantly toward the need for intelligent decision-making, driven by the development of artificial intelligence tools, particularly deep learning models. A common characteristic of most of these models is the requirement for large datasets for training and validation. However, preparing such datasets—containing a sufficient number of representative samples across different classes—can be challenging. This difficulty is especially pronounced in the medical field, where patient data confidentiality requires particular care, and where some domains simply lack enough data to train reliable models. Moreover, the wide variety of formats (images, signals, numerical values, text, etc.) further complicates their use.
Generative AI plays a crucial role at this level by enabling the creation of new data that closely resembles real data, without ever replicating an existing patient or healthcare service. Thanks to generative AI, it is possible to produce realistic fake electrocardiograms, synthetic MRIs showing rare pathologies, coherent fictional medical reports, simulated biological test results, or time series representing artificial patient visits. The benefits of this data synthesis are twofold: enriching datasets to train AI models and protecting sensitive data. These artificial data help fill gaps, reduce biases (for example, between men and women, across age groups, or between shorter and longer medical histories), and facilitate model sharing.
This project aims to build a comprehensive framework for generating synthetic medical data, covering multiple data types (images, signals, numerical data, text). It will be structured in several stages:
• Preparation: analysis of priority needs and selection of datasets (open-source such as MIMIC-III, PhysioNet, TCIA, or hospital partnerships),
• Definition: regulatory compliance and establishment of quality criteria for synthetic data (clinical realism, diversity, non-traceability),
• Methodological development:
o Implement diffusion models or specialized GANs with control techniques for medical imaging;
o Develop a temporal generator to simulate physiological variables and ensure consistency;
o Set up a conditional tabular GAN to reproduce correlations between variables;
o Adapt a medical LLM to generate coherent and plausible clinical reports;
o Integrate multimodality to build a realistic “digital twin” patient combining multiple data sources.
• Validation: conduct quantitative and qualitative evaluations of synthetic data, test them using predictive models trained on real data, and assess their quality with the support of medical experts.
Ultimately, this work aims to create a realistic “virtual patient” combining signals, images, and text, which will serve as a resource to test and improve medical AI tools. An extension of this work will also enable the creation of a healthcare facility avatar, with simulated strategic data. The expected benefits are numerous: improved data accessibility, accelerated research, innovation in medical engineering, all while respecting ethical standards.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Nature du financement
Précisions sur le financement
Enseignement supérieur
Présentation établissement et labo d'accueil
Université de technologie de Troyes
Etablissement délivrant le doctorat
Université de technologie de Troyes
Ecole doctorale
361 Sciences Pour l'Ingénieur
Profil du candidat
Le candidat devra présenter un profil d'ingénieur ou master 2 avec :
- des compétences en informatique, intelligence artificielle, mathématiques appliquées, traitement du signal ou domaine connexe
- un intérêt pour les applications en santé
- une expérience en recherche
- une maitrise de programmation en Python
- une capacité de travailler dans un environnement interdisciplinaire (ingénieurs, médecins, chercheurs)
Si intéressé(e), merci de soumettre CV et notes des 3 derniers semestres à farah.chehade@utt.fr et sandy.mahfouz@utt.fr
The candidate should have an engineering degree or a Master's (M2) with: • skills in computer science, artificial intelligence, applied mathematics, signal processing, or a related field • an interest in healthcare applications • research experience • skills in Python programming • the ability to work in an interdisciplinary environment (engineers, physicians, researchers) If interested, send your CV and your degrees for the last 3 semesters to farah.chehade@utt.fr and sandy.mahfouz@utt.fr
The candidate should have an engineering degree or a Master's (M2) with: • skills in computer science, artificial intelligence, applied mathematics, signal processing, or a related field • an interest in healthcare applications • research experience • skills in Python programming • the ability to work in an interdisciplinary environment (engineers, physicians, researchers) If interested, send your CV and your degrees for the last 3 semesters to farah.chehade@utt.fr and sandy.mahfouz@utt.fr
22/04/2026
Postuler
Fermer
Vous avez déjà un compte ?
Nouvel utilisateur ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
Nantes Université
TotalEnergies
Nokia Bell Labs France
Laboratoire National de Métrologie et d'Essais - LNE
ONERA - The French Aerospace Lab
ADEME
Généthon
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
Tecknowmetrix
Ifremer
Institut Sup'biotech de Paris
Groupe AFNOR - Association française de normalisation
SUEZ
Medicen Paris Region
Aérocentre, Pôle d'excellence régional
ANRT
Servier
