基于转录组测序数据的递归剪接事件识别及其应用

基于转录组测序数据的递归剪接事件识别及其应用

论文摘要

在高等真核生物基因组转录过程中,一次剪接即可完成短内含子的去除,而部分较长内含子(>10 kbp)则需通过多次剪接方可去除。多次剪接去除长内含子的过程通常被称为递归剪接。已有研究表明,递归剪接事件与诸多生物学过程及疾病的发生发展有着密切的联系。近年来,关于递归性剪接事件的研究越来越多,研究者已经在果蝇和多种脊椎动物基因组转录过程中发现了递归剪接事件,通过不同的生物信息学方法找到了多个递归剪接位点并进行了实验验证。目前国际上对递归剪接的研究主要集中在递归剪接过程、剪接位点识别及其对生物学过程的影响等方面。但是尚未有比较成熟的识别递归剪接位点的软件,本文针对转录组数据进行递归剪接事件的识别方法研究,并开发了一套识别递归剪接位点的算法流程RSfinder。同时利用RSfinder对卵巢癌组织和癌旁正常组织的转录组数据进行递归剪接位点的识别与分析。以下是本文的主要工作:首先,分析递归剪接位点附近序列特征。本文分别对实验验证的人脑组织的7个基因的8个递归剪接位点、果蝇的14个基因的24个递归剪接位点进行了研究,对这些递归剪接位点上下游序列进行序列比对统计、分析。研究结果发现发生递归剪接现象的三组序列特征,即:剪接位点的保守性、发生递归剪接现象的内含子长度、内含子表达量信息呈现锯齿状。其次,本文开发了一套识别递归剪接位点的算法流程RSfinder。RSfinder对上述已验证递归剪接位点的转录组测序数据进行分析检测的具体步骤如下:1,以基因组碱基序列、基因注释文件为参考,运用fastQC进行质量检测;2,利用TopHat对转录组数据进行比对,得到读段的整体比对结果Sam文件和junction文件;3,通过递归剪接位点特征信息进行分析筛选,得到符合上述特征的潜在递归剪接位点;4,利用序列信息构造生物剪接的亲和性矩阵对递归剪接位点进一步筛选;5,编写的可视化工具RS-fig肉眼识别锯齿状结构、非锯齿结构;6,利用PCCAdaBoost算法对样本进行训练,得到准确率达95%以上的分类器,即得到符合条件的递归剪接位点识别算法流程(RSfinder)。运用RSfinder对Homo sapiens已验证的八个递归剪接位点、果蝇24个位点所在的转录组进行分析检测,比较检测结果,验证算法流程RSfinder的准确性,结果表明RSfinder算法流程性能较好,能够在人脑组织检测到7个(87.5%)递归剪接位点;果蝇中检测到23个(95.8%)递归剪接位点。最后,应用所开发的算法流程对卵巢癌中发生递归剪接事件进行了检测与分析。卵巢癌数据分为两组:卵巢癌组织和癌旁正常组织,每组数据集三个生物学重复。得到的转录组数据利用RSfinder进行分析,预测得到递归剪接位点,分析两组数据集递归剪接位点所在基因的差异性。结果发现卵巢癌组织中发现递归剪接事件、癌旁正常组织未发生的位点共31个,存在于25个基因的25个内含子中;癌旁正常组织存在递归剪接事件、卵巢癌组织未检测到的位点共43个,存在于31个基因的31个内含子内。此外本文还对得到的这两组基因的表达量信息进行了分析。本论文的研究工作,也为递归剪接事件对卵巢癌的影响进行深入研究奠定了一定的基础。

论文目录

  • 摘要
  • abstract
  • 缩略词
  • 第一章 绪论
  •   1.1 递归剪接的研究目的及意义
  •   1.2 本文的研究方案及拟解决的关键问题
  •   1.3 本文研究的创新点
  •   1.4 本文研究内容与安排
  •   1.5 本章小结
  • 第二章 基因组长内含子发生递归剪接事件的研究现状
  •   2.1 引言
  •   2.2 第二代测序技术
  •   2.3 递归剪接事件的研究现状
  •   2.4 递归剪接的形成过程
  •   2.5 递归剪接的序列特征
  •     2.5.1 递归剪接位点的保守性
  •     2.5.2 发生递归剪接的内含子长度
  •     2.5.3 递归剪接在表达图谱上的特性
  •   2.6 递归剪接位点的全基因组识别
  •     2.6.1 果蝇体内递归剪接的研究
  •     2.6.2 脊椎动物体内递归剪接的研究
  •   2.7 递归剪接事件对生物学过程的影响
  •   2.8 研究递归剪接的转录组数据集来源
  •   2.9 本章小结
  • 第三章 递归剪接位点识别的算法开发
  •   3.1 引言
  •   3.2 转录组RNA-seq数据集预处理过程
  •     3.2.1 fastQC检测原始数据的质量
  •     3.2.2 TopHat比对原始读段
  •   3.3 递归剪接位点的初步筛选
  •     3.3.1 递归剪接事件发生所在的长内含子
  •     3.3.2 依据junction.bed文件筛选候选递归剪接位点
  •     3.3.3 依据内含子长度对递归剪接位点进行筛选
  •     3.3.4 依据位点处序列保守性对递归剪接位点进行筛选
  •   3.4 对剪接位点保守性分析
  •     3.4.1 构造打分矩阵
  •     3.4.2 根据保守性打分矩阵进行筛选
  •   3.5 一元线性回归对递归剪接识别的作用
  •     3.5.1 一元线性回归分析原理
  •     3.5.2 一元线性回归模型对锯齿状识别
  •   3.6 基于PCC-AdaBoost识别递归剪接位点
  •     3.6.1 AdaBoost算法基本原理
  •     3.6.2 PCC-AdaBoost算法
  •     3.6.3 基于PCC-AdaBoost算法的锯齿状识别
  •   3.7 递归剪接识别算法的验证
  •   3.8 本章小结
  • 第四章 卵巢癌中递归剪接事件的检测与分析
  •   4.1 选择性剪接在卵巢癌方面的研究
  •   4.2 卵巢癌中递归剪接事件的检测与分析
  •   4.3 本章小结
  • 第五章 总结与展望
  •   5.1 工作总结
  •   5.2 展望
  • 参考文献
  • 致谢
  • 在校期间的研究成果及学术论文情况
  • 附录 (RS-fig程序)
  • 文章来源

    类型: 硕士论文

    作者: 魏金川

    导师: 宋晓峰

    关键词: 递归剪接,套索结构,位点,基因剪接,分步剪接,卵巢癌

    来源: 南京航空航天大学

    年度: 2019

    分类: 基础科学

    专业: 生物学

    单位: 南京航空航天大学

    分类号: Q811.4

    DOI: 10.27239/d.cnki.gnhhu.2019.000350

    总页数: 94

    文件大小: 2780K

    下载量: 18

    相关论文文献

    • [1].基于卷积神经网络的基因剪接位点预测[J]. 盐城工学院学报(自然科学版) 2020(02)
    • [2].果蝇非经典剪接位点的生物信息学预测[J]. 生物技术通讯 2010(06)
    • [3].基于模糊支持向量机的剪接位点识别[J]. 计算机应用 2011(04)
    • [4].改进的基于支持向量机模型剪接位点的预测[J]. 宜宾学院学报 2014(12)
    • [5].一种新的真核基因剪接位点识别方法[J]. 电子学报 2011(05)
    • [6].基于统计差表与加权投票的高精度剪接位点预测[J]. 生物化学与生物物理进展 2019(05)
    • [7].利用多样性增量位置得分函数预测人类5'非翻译区剪接位点[J]. 内蒙古工业大学学报(自然科学版) 2009(04)
    • [8].基于深度卷积神经网络识别可变剪接位点[J]. 基因组学与应用生物学 2019(11)
    • [9].预测竞争性和非竞争性剪接位点对(英文)[J]. 内蒙古大学学报(自然科学版) 2008(03)
    • [10].使用估计的反应自由能预测组成性和可变剪接位点[J]. 生物物理学报 2009(01)
    • [11].Alu中剪接位点的研究[J]. 生物信息学 2008(01)
    • [12].基于神经网络预测的SNP信息的剪接点识别算法研究[J]. 计算机工程与科学 2016(05)
    • [13].一种基于概率统计特征的剪接位点识别方法[J]. 计算机工程与应用 2011(31)
    • [14].KL距离的变长马尔可夫模型识别人类剪接位点[J]. 生物物理学报 2011(08)
    • [15].人类基因组中可变和组成性剪接位点的预测[J]. 生物化学与生物物理进展 2008(10)
    • [16].基于剪接信号和调节元件序列特征的剪接位点预测方法[J]. 科学通报 2008(19)
    • [17].一种基于综合信息的剪接位点识别方法[J]. 华中科技大学学报(自然科学版) 2011(03)
    • [18].老鼠基因组盒式外显子和内含子保留型可变剪接位点预测[J]. 内蒙古大学学报(自然科学版) 2009(05)
    • [19].基于快速傅里叶变换的剪接特征提取[J]. 北京理工大学学报 2014(02)
    • [20].CD45分子选择性剪接亚型的功能和调节[J]. 解剖学研究 2014(05)
    • [21].一种新的非翻译区剪接位点识别方法[J]. 生命科学研究 2012(01)
    • [22].Kartagener综合征DNAI1、DNAH5基因研究[J]. 中国实用儿科杂志 2008(12)
    • [23].甘油磷酸二酯酶家族蛋白的分子进化[J]. 基因组学与应用生物学 2015(01)
    • [24].多尺度组分特征和位点关联特征相融合的剪接位点识别[J]. 计算机工程与应用 2014(10)
    • [25].牙本质生长不全Ⅱ型家系DSPP基因内含子2的mRNA剪接位点新的缺失突变[J]. 临床检验杂志 2009(02)

    标签:;  ;  ;  ;  ;  ;  

    基于转录组测序数据的递归剪接事件识别及其应用
    下载Doc文档

    猜你喜欢