基于新一代测序数据的Indel检测方法研究

基于新一代测序数据的Indel检测方法研究

论文摘要

插入缺失变异是人类基因组中一种比较常见的变异形式,准确地检测插入缺失变异发生的位置及大小对疾病的预测有着至关重要的作用。随着新一代测序技术的发展,越来越多检测插入缺失变异的算法也在逐渐被提出。尽管这些算法融合了大量短读段中的信号来提升算法性能,但是大多数算法还是只能检测长度小于50bp的插入缺失变异。新一代测序数据自身的特点以及插入片段中存在的重复区域导致中等长度以及较大长度(50bp-10000bp)的插入缺失变异检测仍然具有相当大的挑战。由于新一代测序数据是大量的100bp-300bp的短序列,序列中插入变异与缺失变异的存在会导致测序片段难以比对,同时,当所插入的变异片段中存在重复区域时,在序列拼接的过程中会导致拼接错误。本文主要的工作就是研究如何准确检测中等长度以及较大长度的插入变异与缺失变异。针对于中等长度及较大长度的插入缺失变异检测问题,我们提出了一种新的方法VRindel,VRindel可以检测任意长度的插入缺失变异,并且对于插入变异的基因型也有较好的检测性能。在检测插入变异时,VRindel基于分裂读段的比对状态可以准确地确定插入变异的发生位点。在此基础上,VRindel利用未匹配读段与分裂读段在每个变异位点依照左边最大匹配策略动态扩展形成一条虚拟参考序列,通过比较虚拟参考序列与原始参考序列的异同可以检测出任意大小的插入变异。同时,VRindel将插入变异基因型的检测转化为拷贝数状态的检测,基于一个统计模型对虚拟参考序列各位点的覆盖度信息进行分析可以检测出各区域的拷贝数状态,继而达到检测插入变异基因型的目的。在检测缺失变异时,VRindel基于层次聚类算法可以确定缺失变异发生区间,提取出各区间内的分裂读段并进行分裂比对即可确定缺失变异发生的精确位置及大小。为了验证VRindel的插入缺失变异检测性能,我们分别在仿真数据与真实数据上做了实验,并且与其他八种不同方法在相同数据上的实验结果进行了比较。仿真实验结果显示,相比于其他八种方法,VRindel具有更好的检测灵敏度与准确度。真实数据得到的结果与其他方法的检测结果也有较高的一致性。同时,为了验证VRindel对于插入变异基因型的检测性能,我们将其实验结果与其他四种方法做了比较,结果显示VRindel具有相对较好的识别性能。

论文目录

  • 摘要
  • ABSTRACT
  • 符号对照表
  • 缩略语对照表
  • 第一章 绪论
  •   1.1 背景介绍
  •   1.2 研究现状
  •   1.3 研究目的和意义
  •   1.4 本文的安排和主要工作
  • 第二章 相关背景知识
  •   2.1 基本术语与数据
  •     2.1.1 NGS数据
  •     2.1.2 FASTQ文件与FASTA文件
  •     2.1.3 SAM文件与BAM文件
  •     2.1.4 双端读段与单端读段
  •     2.1.5 插入长度与比对长度
  •     2.1.6 测序深度
  •   2.2 辅助工具
  •     2.2.1 序列比对工具BWA
  •     2.2.2 SAM与 BAM文件处理工具SAMtools
  •     2.2.3 SRA数据转换工具SRA Toolkit
  •   2.3 本章小结
  • 第三章 插入缺失变异检测算法VRindel
  •   3.1 插入变异及基因型的检测
  •     3.1.1 VRindel插入变异及基因型的检测流程
  •     3.1.2 变异发生位点的过滤与确认
  •     3.1.3 虚拟参考序列的动态扩展
  •     3.1.4 变异基因型的检测
  •   3.2 缺失变异的检测
  •     3.2.1 变异发生区域的筛选
  •     3.2.2 变异信息的检测
  •   3.3 本章小结
  • 第四章 实验结果及分析
  •   4.1 VRindel缺失变异检测算法仿真数据实验验证
  •   4.2 VRindel缺失变异检测算法真实数据实验验证
  •   4.3 VRindel 检测插入变异及基因型的仿真数据实验验证
  •     4.3.1 VRindel插入变异检测的性能验证
  •     4.3.2 VRindel变异基因型检测的性能验证
  •   4.4 VRindel插入变异及基因型的真实数据实验验证
  •     4.4.1 VRindel真实数据的插入变异检测结果
  •     4.4.2 VRindel真实数据的插入变异基因型检测结果
  •   4.5 本章小结
  • 第五章 总结与展望
  •   5.1 总结
  •   5.2 展望
  • 参考文献
  • 致谢
  • 作者简介
  • 文章来源

    类型: 硕士论文

    作者: 许向彦

    导师: 袁细国

    关键词: 新一代测序数据,插入变异,缺失变异,聚类,动态扩展,虚拟参考序列

    来源: 西安电子科技大学

    年度: 2019

    分类: 基础科学

    专业: 生物学

    单位: 西安电子科技大学

    分类号: Q811.4

    DOI: 10.27389/d.cnki.gxadu.2019.000599

    总页数: 65

    文件大小: 3291K

    下载量: 57

    相关论文文献

    • [1].CoMP下行传输系统的联合最优参考序列设计[J]. 北京工业大学学报 2014(10)
    • [2].湖南猪源粪肠球菌的分离鉴定及16S rDNA系统进化分析[J]. 中国兽医学报 2011(09)
    • [3].基于灰色关联的多目标施工方案评价[J]. 铁道建筑技术 2011(S1)
    • [4].具有纵向可比性的三维动态灰关联模型及其应用[J]. 统计与决策 2014(01)
    • [5].中国降水量序列均一性分析方法及数据集更新完善[J]. 气候变化研究进展 2014(04)
    • [6].赤峰市大兴安岭南部地区大型担子菌资源调查[J]. 聊城大学学报(自然科学版) 2019(06)
    • [7].基于二元语义的纯语义多属性群决策方法[J]. 数学理论与应用 2015(03)
    • [8].鸡源CD154分子功能区的表达[J]. 中国预防兽医学报 2016(06)
    • [9].放射性物质运输线路优化方法的研究[J]. 核安全 2014(04)
    • [10].煤矿燃爆事故人员因素的灰色关联分析[J]. 煤矿现代化 2015(04)
    • [11].全基因组测序用于宁夏羊种3型布鲁氏菌毒力基因筛选的研究[J]. 宁夏医科大学学报 2014(04)
    • [12].无参考序列条件下地面气温观测资料城市化偏差订正方法:以北京站为例[J]. 地球物理学报 2014(07)
    • [13].猪细环病毒实验室诊断方法的研究进展[J]. 养猪 2012(01)
    • [14].基于新测序技术的比对与组装算法[J]. 计算机工程 2009(20)
    • [15].河南省环境管制与工业污染物排放量的灰色关联度研究[J]. 资源开发与市场 2012(06)
    • [16].重庆市固定资产投资与城镇化率相关性的实证分析[J]. 发展研究 2008(07)
    • [17].成都地区HPV-33 E6/E7多态性分析[J]. 检验医学与临床 2015(22)
    • [18].基于某民营商行数据的统计分析[J]. 中国商贸 2013(30)
    • [19].基于节能减排对道路运输业评价指标的研究[J]. 北方交通 2015(12)
    • [20].基于灰关联分析的变压器故障诊断方法研究[J]. 机电信息 2010(18)
    • [21].基因组时代线粒体基因组拼装策略及软件应用现状[J]. 遗传 2019(11)
    • [22].猪Toll样受体9基因的克隆、序列分析及其结构预测[J]. 中国兽医学报 2009(12)
    • [23].基于读分割最优匹配的indels识别算法[J]. 软件学报 2017(10)
    • [24].道路运输业节能减排评价体系优化研究[J]. 重庆交通大学学报(自然科学版) 2014(04)
    • [25].GM(1,2)模型改进方法研究及应用[J]. 控制与决策 2013(06)
    • [26].服务业发展升级的灰色关联分析——以上海服务业为例[J]. 生产力研究 2012(09)
    • [27].虹鳟鱼传染性胰脏坏死病病毒的分离与鉴定[J]. 中国动物检疫 2012(03)
    • [28].固定资产投资与城镇化率相关性——以重庆直辖市为例[J]. 改革与战略 2008(08)
    • [29].联合灰色关联度和先验的图像显著性分析[J]. 系统仿真学报 2015(07)
    • [30].基于理想解的情报处理系统灰关联评估算法[J]. 计算机与数字工程 2013(01)

    标签:;  ;  ;  ;  ;  ;  

    基于新一代测序数据的Indel检测方法研究
    下载Doc文档

    猜你喜欢