高通量全长转录组测序数据的表达水平计算研究

高通量全长转录组测序数据的表达水平计算研究

论文摘要

转录组表达水平测量计算是基因功能研究的重要手段,而真核生物选择性剪切的存在给准确计算基因异构体表达水平带来了困难。近几年诞生的第三代测序技术是转录组研究的一种新的实验方法,其显著特点是可以获得超长读段,弥补了第二代测序技术中的读段过短,异构体检测较为困难的缺点。PacBio公司针对转录组提出的ISO-seq测序技术,给转录组研究尤其是检测新型异构体领域带来了新机遇。但目前对于ISO-seq数据在转录组研究的应用中极少有工作涉及异构体表达水平的计算,一部分研究工作通过结合RNA-seq技术数据,使用ISO-seq与RNA-seq混合数据进行表达水平的计算。而这些研究工作大多只用到小部分的全长读段数据,丢失了大部分非全长读段数据中较多有用信息,因而数据没有得到充分利用,造成数据通量低。另外,使用ISO-seq和RNA-seq混合数据的方法虽同时兼顾了两种测序技术的优点,但其计算复杂程度高,且获取同一样本下两种测序技术数据的成本高。本文针对这些问题,在保留非全长读段的基础上,提出了仅使用ISO-seq单一数据同时预测异构体结构和计算其表达比例的两个模型DSIDP和MCIDP。具体完成的工作如下:1)鉴于现有的预处理框架并不能满足本文保留非全长读段的需求,本文首先提出了一套保留全长和非全长读段的数据预处理方法。从ISO-seq原始数据出发,经过下机数据处理、读段纠错、读段比对和外显子序列整理四个步骤,最终获得模型的输入数据。2)针对具有全长读段的异构体表达水平计算问题,提出了DSIDP模型,从全长读段中建立异构体预测集,同时采用全长读段和非全长读段计算异构体表达比例。DSIDP将所有读段比对至异构体预测集,并使用Dirichlet采样解决多源映射问题。模型在模拟数据和真实数据上得到了有效验证。3)针对没有全长读段的超长异构体检测问题,提出了MCIDP模型,采用马尔科夫链模拟基因外显子之间的选择性剪接,该模型除了从全长读段中建立异构体预测集外,还能预测出数据中没有全长读段的超长异构体,这对新型异构体的发现具有重要意义。模型在模拟数据和真实数据上得到了有效验证。

论文目录

  • 摘要
  • ABSTRACT
  • 注释表
  • 缩略词
  • 第一章 绪论
  •   1.1 生物信息学
  •   1.2 转录组学研究
  •   1.3 基于测序技术的转录组学研究现状
  •   1.4 本文的主要研究工作
  •   1.5 本文的内容安排
  • 第二章 背景介绍
  •   2.1 生物学背景介绍
  •     2.1.1 生物遗传信息传递
  •     2.1.2 选择性剪接
  •   2.2 第三代测序技术介绍
  •     2.2.1 测序技术的发展历史
  •     2.2.2 第三代测序技术原理
  •     2.2.3 原始数据
  •   2.3 本文方法背景介绍
  •     2.3.1 统计学基础知识
  •     2.3.2 狄利克雷分布
  •     2.3.3 随机过程
  •     2.3.4 马尔科夫链
  •   2.4 Kmeans聚类
  •     2.4.1 基本的Kmeans聚类
  •     2.4.2 改进的Kmeans聚类
  •   2.5 本章小结
  • 第三章 数据预处理
  •   3.1 数据预处理流程
  •   3.2 下机数据处理
  •     3.2.1 h5文件格式
  •     3.2.2 sra文件格式
  •     3.2.3 提取全长和非全长读段
  •   3.3 读段数据纠错
  •     3.3.1 纠错算法介绍
  •     3.3.2 Lo RDEC
  •   3.4 读段数据比对
  •     3.4.1 比对算法介绍
  •     3.4.2 BWA-MEM
  •   3.5 外显子序列整理
  •     3.5.1 sam文件和gtf文件格式介绍
  •     3.5.2 analyse Annotation设计原理
  •   3.6 本章小结
  • 第四章 异构体表达水平估计及结构预测
  •   4.1 研究动机
  •   4.2 基于Dirichlet采样的DSIDP模型
  •     4.2.1 模型思想
  •     4.2.2 模型实现
  •   4.3 基于马尔科夫链的MCIDP模型
  •     4.3.1 模型思想
  •     4.3.2 模型实现
  •   4.4 实验结果与分析
  •     4.4.1 实验数据
  •     4.4.2 非全长读段有效性验证
  •     4.4.3 MCIDP预测异构体验证
  •     4.4.4 真实数据集实验结果
  •   4.5 本章小结
  • 第五章 总结与展望
  •   5.1 本文工作总结
  •   5.2 未来工作展望
  • 参考文献
  • 致谢
  • 在学期间的研究成果及发表的学术论文
  • 文章来源

    类型: 硕士论文

    作者: 瞿锡垚

    导师: 刘学军

    关键词: 转录组表达,第三代测序技术,新型异构体检测,多源映射,采样,马尔科夫链

    来源: 南京航空航天大学

    年度: 2019

    分类: 基础科学

    专业: 生物学

    单位: 南京航空航天大学

    分类号: Q811.4

    DOI: 10.27239/d.cnki.gnhhu.2019.001817

    总页数: 70

    文件大小: 2398K

    下载量: 75

    相关论文文献

    • [1].稀有样本单细胞测序技术取得进展[J]. 生物医学工程与临床 2020(01)
    • [2].单细胞转录组测序技术新进展及其在造血系统研究中的应用[J]. 中国科学:生命科学 2020(03)
    • [3].利用单细胞测序技术追踪胚胎发育中细胞的演变过程[J]. 科学通报 2020(07)
    • [4].高通量测序技术在主要洄游性鱼类研究中的应用[J]. 安徽农业科学 2020(02)
    • [5].单细胞测序技术发展及其在作物研究中的应用[J]. 分子植物育种 2020(08)
    • [6].下一代测序技术在乳业中的应用[J]. 中国乳业 2020(04)
    • [7].转录组测序技术在猪上的研究进展[J]. 猪业科学 2020(04)
    • [8].牛全基因组高通量测序技术研究进展[J]. 基因组学与应用生物学 2019(12)
    • [9].单细胞测序技术及其在植物中的研究进展[J]. 中国细胞生物学学报 2020(04)
    • [10].高通量测序技术在植物病毒检疫中的应用与发展[J]. 植物检疫 2020(03)
    • [11].高通量测序技术在转基因植物分子特征评价中的应用[J]. 中国农业科技导报 2020(05)
    • [12].单细胞测序技术在恶性肿瘤研究中的应用进展[J]. 中国肿瘤临床 2020(07)
    • [13].第三代测序技术的方法原理及其在生物领域的应用[J]. 中国畜牧杂志 2020(06)
    • [14].二代测序技术在烟草中的应用进展[J]. 生命科学研究 2020(03)
    • [15].单细胞测序技术在恶性血液病诊疗中的应用[J]. 中国实验血液学杂志 2020(03)
    • [16].单细胞测序技术与中医药前沿研究[J]. 世界中医药 2020(11)
    • [17].纳米孔测序技术在病毒性传染病检测及研究中的应用[J]. 微生物与感染 2020(03)
    • [18].基于宏基因组的二代测序技术对下呼吸道感染诊断价值的综述[J]. 牡丹江医学院学报 2020(03)
    • [19].单细胞测序技术的文献计量学研究及热点应用[J]. 中国医药导刊 2020(09)
    • [20].单分子实时测序技术在环境微生物研究中的应用[J]. 微生物学通报 2019(11)
    • [21].降解组测序技术及其研究进展[J]. 生物学教学 2017(04)
    • [22].第四代测序技术[J]. 农村经济与科技 2017(10)
    • [23].高通量测序技术新名词的理解和辨析[J]. 中国科技术语 2017(04)
    • [24].新一代DNA测序技术在法医实践中的应用及其研究进展[J]. 辽宁警察学院学报 2017(06)
    • [25].测序技术的发展对瘤胃元基因组研究的影响[J]. 黑龙江畜牧兽医 2015(21)
    • [26].新一代测序技术在食品微生物学中的应用[J]. 食品工业 2016(01)
    • [27].第二代高通量测序技术的原理及其在医学中的应用进展[J]. 中国继续医学教育 2016(03)
    • [28].二代测序技术在临床医学上的相关应用[J]. 昆明医科大学学报 2016(03)
    • [29].测序技术的研究进展及三代测序的应用[J]. 中国乳品工业 2016(04)
    • [30].高通量测序技术及其在生物学中的应用[J]. 当代畜牧 2016(12)

    标签:;  ;  ;  ;  ;  ;  

    高通量全长转录组测序数据的表达水平计算研究
    下载Doc文档

    猜你喜欢