基于二三代测序数据联合拼接的拷贝数变异检测方法

基于二三代测序数据联合拼接的拷贝数变异检测方法

论文摘要

二代测序技术是目前使用非常广泛的一种测序方法,高精度低成本使其在变异检测序列拼接等基因组研究方面应用广泛。而三代测序自出现起就备受关注,因其读长远超二代的特点,被视为可以替代二代测序的方法。但是由于三代测序的准确度较低测序成本较高的问题,在实际应用中会存在数据质量和成本之间的冲突,很大程度上都是作为二代研究的补充。目前已有较多方法根据不同策略进行基因组结构变异的检测,但因为拷贝数变异包含多种子类型、变异长度较长等特点,现有的策略面对较复杂的拷贝数变异检测来说存在很多问题。鉴于二代三代测序研究的各自特点和变异检测的研究现状,本文提出了一种基于二代测序数据和三代测序数据联合拼接的拷贝数变异检测方法,其中利用了序列深度模型和深度学习框架,提高了变异检测的精确度和灵敏度。主要有以下几方面内容:1.对现有的四种基因结构变异检测策略进行了研究,分析了基于De bruijn图和OLC(Overlap-Layout-Consensus)算法的几种流行的拼接策略,研究了千人基因组计划提供的真实测序数据集和基准变异数据集,分析了其中存在的问题。根据研究需要,将三代测序数据引入到整个研究中。使用基于SNP(单核苷酸变异)和InDel(较小的插入缺失变异)检测的方法,利用二代测序数据完成三代测序的校正,有效地平衡了测序成本和校正质量之间的关系,获得了初步的实验数据。2.为了更好的检测拷贝数变异的子类型缺失和重复,本文提出了一种基于二代和三代测序数据联合拼接的检测算法。本文进行了两次拼接,分别使用De Bruijn图算法和OLC算法进行,获得了用于拷贝数变异检测的数据重叠群(contigs)。在两次拼接过程中,三代数据在解决重复序列造成的各种闭环问题中发挥了重要作用,保证了拼接结果的准确性。3.结合序列深度(read-depth)策略,利用深度学习CNN模型对拷贝数变异进行检测。将获得的contigs比对回参考基因组,分析每个位点的测序深度,根据拷贝数与每个检测位点的荧光信号强度值LRR(Log R Ratio)的关系生成包含拷贝数信息的图片,用于深度学习模型的训练。使用本文提出的拷贝数变异检测方法AssCNV23在模拟数据和真实数据上都进行了变异检测实验,结果显示无论是高覆盖度数据还是低覆盖度数据,无论是真实数据还是模拟数据,在精确度、敏感度和断点的准确度上的综合表现都很优秀。

论文目录

  • 学位论文数据集
  • 摘要
  • ABSTRACT
  • 第一章 绪论
  •   1.1 研究背景及意义
  •   1.2 变异检测研究现状
  •     1.2.1 双末端映射分析策略
  •     1.2.2 映射深度分布分析策略
  •     1.2.3 测序片段分裂比对策略
  •     1.2.4 序列拼接策略
  •     1.2.5 多种策略融合检测方法
  •   1.3 主流拼接工具
  •     1.3.1 ABySS
  •     1.3.2 PASHA
  •     1.3.3 Contrail
  •   1.4 本文主要内容及创新点
  •   1.5 论文结构安排
  • 第二章 测序数据及处理工具介绍
  •   2.1 引言
  •   2.2 测序原理及过程
  •     2.2.1 Illumina测序原理
  •     2.2.2 Pacific Biosciences测序原理
  •   2.3 数据格式
  •     2.3.1 测序数据格式
  •     2.3.2 比对数据格式
  •     2.3.3 变异数据格式
  •   2.4 基因数据分析工具
  •     2.4.1 BWA工具详述
  •     2.4.2 Samtools工具详述
  •     2.4.3 BCFtools工具详述
  •   2.5 本章小结
  • 第三章 三代测序数据校正方法
  •   3.1 引言
  •   3.2 测序数据预处理
  •   3.3 三代测序数据待校正区域定位
  •   3.4 待校正区域校正策略
  •   3.5 校正方法实验比较
  •   3.6 本章小结
  • 第四章 二代测序数据局部拼接方法
  •   4.1 引言
  •   4.2 局部序列分析过滤
  •   4.3 De Bruijn图生成
  •   4.4 重复序列分析及De Bruijn图求解
  •   4.5 构建OLC堆叠图进行拼接
  •     4.5.1 重叠图构建
  •     4.5.2 过渡边去除
  •     4.5.3 分支路径走向
  •   4.6 本章小结
  • 第五章 拷贝数变异检测
  •   5.1 引言
  •   5.2 结合深度学习和序列深度的拷贝数变异检测方法
  •   5.3 仿真测序数据实验
  •     5.3.1 低覆盖度数据实验
  •     5.3.2 高覆盖度数据实验
  •   5.4 真实测序数据实验
  •   5.5 本章小结
  • 第六章 总结与展望
  •   6.1 本文工作总结
  •   6.2 下一步研究展望
  • 参考文献
  • 致谢
  • 研究成果及发表的学术论文
  • 作者及导师简介
  • 附件
  • 文章来源

    类型: 硕士论文

    作者: 高峰

    导师: 高敬阳,陈禹保

    关键词: 拷贝数变异,联合拼接,序列深度,深度学习

    来源: 北京化工大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 北京化工大学

    基金: 北京市自然科学基金

    分类号: TP18;Q811.4

    DOI: 10.26939/d.cnki.gbhgu.2019.000049

    总页数: 72

    文件大小: 5138K

    下载量: 30

    相关论文文献

    • [1].基于最小P值方法的罕见变异与数量性状的关联分析(英文)[J]. 黑龙江大学自然科学学报 2019(06)
    • [2].变异[J]. 支部建设 2020(15)
    • [3].突发公共卫生事件中信息变异的危害与成因分析[J]. 产业与科技论坛 2020(13)
    • [4].高卉卉作品[J]. 美术教育研究 2017(16)
    • [5].变异[J]. 黄河.黄土.黄种人 2020(06)
    • [6].变异的鱼[J]. 美术界 2019(05)
    • [7].基因评分可预知肥胖风险[J]. 百科知识 2019(16)
    • [8].浅谈词语变异与语境[J]. 现代语文(语言研究版) 2010(09)
    • [9].变异[J]. 益寿宝典 2017(33)
    • [10].在“变异”与“突出”两视角下浅析英文诗歌[J]. 新智慧 2018(02)
    • [11].病毒的变异[J]. 小星星(高年级版) 2015(04)
    • [12].如何克服心理变异[J]. 人人健康 2014(13)
    • [13].五成儿童口吃与基因变异有关[J]. 启蒙(0-3岁) 2010(05)
    • [14].浅析责任书的变异及回归路径[J]. 政工学刊 2019(02)
    • [15].乳腺良性肿瘤治疗中临床路径变异因素分析及措施[J]. 中国病案 2017(03)
    • [16].阵发性室上性心动过速介入治疗临床路径变异因素的临床分析[J]. 西南军医 2016(01)
    • [17].对变异的理解的研究综述[J]. 数学学习与研究 2013(15)
    • [18].腹腔镜胆囊切除术治疗60例胆囊管变异的临床体会[J]. 家庭医药.就医选药 2017(10)
    • [19].因为变异 所以深刻[J]. 语文教学与研究 2013(02)
    • [20].《生物的变异》课堂合作学习教学回顾与总结[J]. 中学教学参考 2011(32)
    • [21].科学家发现两种基因变异可能增加患肺癌几率[J]. 中华中医药学刊 2009(09)
    • [22].儿童激素耐药型肾病综合征基因变异及临床回顾性队列研究[J]. 临床儿科杂志 2020(10)
    • [23].民族社会:少数民族民间传说变异的主要机制[J]. 贵州民族研究 2018(05)
    • [24].变异管理在医院外科临床路径持续改进中的作用[J]. 中国处方药 2016(02)
    • [25].突发公共卫生事件信息变异研究[J]. 湖南大众传媒职业技术学院学报 2014(03)
    • [26].系统变异管理对临床路径的影响[J]. 中国卫生质量管理 2014(03)
    • [27].生物学变异数据在临床检验中的应用[J]. 国际检验医学杂志 2012(01)
    • [28].临床路径变异因素和分类方法比较[J]. 中国病案 2012(11)
    • [29].知识进化下知识变异的来源、条件与过程研究[J]. 情报杂志 2011(08)
    • [30].论术语变异的原因与分析[J]. 术语标准化与信息技术 2010(03)

    标签:;  ;  ;  ;  

    基于二三代测序数据联合拼接的拷贝数变异检测方法
    下载Doc文档

    猜你喜欢