Parallélisme implicite pour les traitements de données biologiques // Implicit Parallelism for Biological Data Processing
|
ABG-137044
ADUM-72538 |
Sujet de Thèse | |
| 24/03/2026 |
Université d'Orléans
ORLEANS - Centre Val de Loire - France
Parallélisme implicite pour les traitements de données biologiques // Implicit Parallelism for Biological Data Processing
- Informatique
parallelisme, calcul haute performance, bioinformatique, similarité
parallelism, high performance computing, bioinformatics, similarity
parallelism, high performance computing, bioinformatics, similarity
Description du sujet
L'objectif de cette thèse est donc de concevoir un environnement de programmation permettant de
construire des pipelines efficaces de traitement et d'analyse de données issues de séquenceurs pour
des études omiques. Ces pipelines devront être capables d'exploiter efficacement les différents
types de parallélisme, que ce soit au niveau d'un nœud de calcul (CPU et GPU) qu'au niveau d'une
grappe de PC. Cet environnement inclura les outils nécessaires à la description et à la construction
de ces pipelines par des biologistes sans avoir de connaissances particulières en calcul parallèle.
L'étude de l'état de l'art montre que les traitements classiquement utilisés dans la génomique et la
transcriptomique sont constitués par des grandes étapes assez similaires. De manière très gros grain
il s'agit de rechercher des alignements de séquences d'ADN ou d'ARN dans une référence suivi
d'une étude statistique des résultats d'alignements. Cependant, même si les données sont de même
type et les techniques d'analyse similaires, les traitements peuvent être différents suivant le type
d'études. Il est donc important d'être capable de construire le pipeline à partir de briques de bases
décrivant les étapes similaires mais qui devront être adaptés aux particularités de l'analyse de
données souhaités par le biologiste pour son étude.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
The objective of this thesis is therefore to design a programming environment that enables the construction of efficient pipelines for processing and analyzing data generated by sequencing technologies for omics studies. These pipelines must be capable of efficiently exploiting different types of parallelism, both at the level of a computing node (CPU and GPU) and at the level of a cluster of PCs. This environment will include the necessary tools to allow biologists to describe and build such pipelines without requiring specific knowledge of parallel computing.
A review of the state of the art shows that the processing steps commonly used in genomics and transcriptomics consist of several major stages that are quite similar. At a very coarse-grained level, these involve searching for alignments of DNA or RNA sequences against a reference, followed by a statistical analysis of the alignment results. However, even though the data are of the same type and the analysis techniques are similar, the processing steps may differ depending on the type of study. It is therefore important to be able to construct pipelines from basic building blocks describing these common stages, while allowing adaptation to the specific requirements of the data analysis intended by the biologist for their study.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
construire des pipelines efficaces de traitement et d'analyse de données issues de séquenceurs pour
des études omiques. Ces pipelines devront être capables d'exploiter efficacement les différents
types de parallélisme, que ce soit au niveau d'un nœud de calcul (CPU et GPU) qu'au niveau d'une
grappe de PC. Cet environnement inclura les outils nécessaires à la description et à la construction
de ces pipelines par des biologistes sans avoir de connaissances particulières en calcul parallèle.
L'étude de l'état de l'art montre que les traitements classiquement utilisés dans la génomique et la
transcriptomique sont constitués par des grandes étapes assez similaires. De manière très gros grain
il s'agit de rechercher des alignements de séquences d'ADN ou d'ARN dans une référence suivi
d'une étude statistique des résultats d'alignements. Cependant, même si les données sont de même
type et les techniques d'analyse similaires, les traitements peuvent être différents suivant le type
d'études. Il est donc important d'être capable de construire le pipeline à partir de briques de bases
décrivant les étapes similaires mais qui devront être adaptés aux particularités de l'analyse de
données souhaités par le biologiste pour son étude.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
The objective of this thesis is therefore to design a programming environment that enables the construction of efficient pipelines for processing and analyzing data generated by sequencing technologies for omics studies. These pipelines must be capable of efficiently exploiting different types of parallelism, both at the level of a computing node (CPU and GPU) and at the level of a cluster of PCs. This environment will include the necessary tools to allow biologists to describe and build such pipelines without requiring specific knowledge of parallel computing.
A review of the state of the art shows that the processing steps commonly used in genomics and transcriptomics consist of several major stages that are quite similar. At a very coarse-grained level, these involve searching for alignments of DNA or RNA sequences against a reference, followed by a statistical analysis of the alignment results. However, even though the data are of the same type and the analysis techniques are similar, the processing steps may differ depending on the type of study. It is therefore important to be able to construct pipelines from basic building blocks describing these common stages, while allowing adaptation to the specific requirements of the data analysis intended by the biologist for their study.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/2026
Nature du financement
Précisions sur le financement
Enseignement supérieur
Présentation établissement et labo d'accueil
Université d'Orléans
Etablissement délivrant le doctorat
Université d'Orléans
Ecole doctorale
551 Mathématiques, Informatique, Physique Théorique et Ingénierie des Systèmes - MIPTIS
Profil du candidat
Les candidats devront posséder un Master en informatique ou un niveau équivalent. Ils devront posséder un bon niveau en programmation, parallélisme et mathématiques.
Applicants must hold a Master's degree in computer science or an equivalent qualification, and demonstrate strong skills in programming, parallel computing, and mathematics.
Applicants must hold a Master's degree in computer science or an equivalent qualification, and demonstrate strong skills in programming, parallel computing, and mathematics.
17/05/2026
Postuler
Fermer
Vous avez déjà un compte ?
Nouvel utilisateur ?
Vous souhaitez recevoir nos infolettres ?
Découvrez nos adhérents
Groupe AFNOR - Association française de normalisation
TotalEnergies
ASNR - Autorité de sûreté nucléaire et de radioprotection - Siège
Nokia Bell Labs France
Medicen Paris Region
Nantes Université
Généthon
Institut Sup'biotech de Paris
SUEZ
Aérocentre, Pôle d'excellence régional
ADEME
Laboratoire National de Métrologie et d'Essais - LNE
Tecknowmetrix
Ifremer
Servier
ONERA - The French Aerospace Lab
ANRT
-
EmploiRef. 136697Paris , Ile-de-France , France
Association Bernard Gregory ABGAnimateur.rice / Formateur.rice
Expertises scientifiques :Indifférent
Niveau d’expérience :Niveau d'expérience indifférent
-
EmploiRef. 136133Paris , Ile-de-France , France
Association Bernard Gregory ABGFormateur.rice
Expertises scientifiques :Indifférent
Niveau d’expérience :Niveau d'expérience indifférent
