Statistical Approaches for Segmentation : Application to Genome Annotation

Alice Cleynen

Thèse Année : 2013

Statistical Approaches for Segmentation : Application to Genome Annotation

Approches statistiques en segmentation : application à la ré-annotation de génome

(1)

Alice Cleynen

Fonction : Auteur

Mathématiques et Informatique Appliquées

Résumé

We propose to model the output of transcriptome sequencing technologies (RNA-Seq) using the negative binomial distribution, as well as build segmentation models suited to their study at different biological scales, in the context of these technologies becoming a valuable tool for genome annotation, gene expression analysis, and new-transcript discovery. We develop a fast segmentation algorithm to analyze whole chromosomes series, and we propose two methods for estimating the number of segments, a key feature related to the number of genes expressed in the cell, should they be identified from previous experiments or discovered at this occasion. Research on precise gene annotation, and in particular comparison of transcription boundaries for individuals, naturally leads us to the statistical comparison of change-points in independent series. To address our questions, we build tools, in a Bayesian segmentation framework, for which we are able to provide uncertainty measures. We illustrate our models, all implemented in R packages, on an RNA-Seq dataset from a study on yeast, and show for instance that the intron boundaries are conserved across conditions while the beginning and end of transcripts are subject to differential splicing.

Nous proposons de modéliser les données issues des technologies de séquençage du transcriptome (RNA-Seq) à l'aide de la loi binomiale négative, et nous construisons des modèles de segmentation adaptés à leur étude à différentes échelles biologiques, dans le contexte où ces technologies sont devenues un outil précieux pour l'annotation de génome, l'analyse de l'expression des gènes, et la détection de nouveaux transcrits. Nous développons un algorithme de segmentation rapide pour analyser des séries à l'échelle du chromosome, et nous proposons deux méthodes pour l'estimation du nombre de segments, directement lié au nombre de gènes exprimés dans la cellule, qu'ils soient précédemment annotés ou détectés à cette même occasion. L'objectif d'annotation précise des gènes, et plus particulièrement de comparaison des sites de début et fin de transcription entre individus, nous amène naturellement à nous intéresser à la comparaison des localisations de ruptures dans des séries indépendantes. Nous construisons ainsi dans un cadre de segmentation bayésienne des outils de réponse à nos questions pour lesquels nous sommes capable de fournir des mesures d'incertitude. Nous illustrons nos modèles, tous implémentés dans des packages R, sur des données RNA-Seq provenant d'expériences sur la levure, et montrons par exemple que les frontières des introns sont conservées entre conditions tandis que les débuts et fin de transcriptions sont soumis à l'épissage différentiel.

Mots clés

Segmentation Negative binomial Algorithm Credibility intervals Model selection RNA-Seq

Segmentation Binomiale négative Algorithmes Intervalles de crédibilité Sélection de modèle RNA-Seq

Domaines

Mathématiques générales [math.GM]

Fichier principal

VD2_CLEYNEN_ALICE_15112013.pdf (4.59 Mo)

VD2_CLEYNEN_ALICE_15112013_synthese_en_francais.pdf (345.04 Ko)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-00913851

Soumis le : mercredi 4 décembre 2013-14:37:15

Dernière modification le : jeudi 14 mars 2024-03:10:17

Archivage à long terme le : samedi 8 avril 2017-03:34:48

Dates et versions

tel-00913851 , version 1 (04-12-2013)

Identifiants

HAL Id : tel-00913851 , version 1
PRODINRA : 314891

Citer

Alice Cleynen. Statistical Approaches for Segmentation : Application to Genome Annotation. General Mathematics [math.GM]. Université Paris Sud - Paris XI, 2013. English. ⟨NNT : 2013PA112258⟩. ⟨tel-00913851⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

AGROPARISTECH INRA STAR MIA-PARIS INRAE MATHNUM

339 Consultations

976 Téléchargements

Statistical Approaches for Segmentation : Application to Genome Annotation

Approches statistiques en segmentation : application à la ré-annotation de génome

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager