基于二代测序的基因组结构变异仿真与应用研究

基于二代测序的基因组结构变异仿真与应用研究

论文摘要

随着近年来二代测序的快速发展,许多检测算法被证明可以用来识别基因组结构变异,基因组结构变异的仿真和符合真实测序特性的序列的生成可以为这些检测算法提供一个必要的基准。基因组结构变异和单位点变异占人类基因组变异的绝大部分,在人类基因组序列中仿真这些变异可以为变异检测和比对算法的性能评估提供答案。由于结构变异的复杂性和真实测序数据读段生成的不确定性,想要捕获真实的测序特征并实现仿真并不容易,目前存在的仿真算法都不能模拟与实际测序数据相关的所有特征。为了克服这个限制,本文提出一个新的仿真算法SVSR。它整合了与主要基因组变异和真实测序数据相关的多个重要特征,可以模拟单位点变异和五种常见的基因组结构变异(插入缺失、串联重复、拷贝数变异、倒位和易位),并生成基于四种主流测序平台(Illumina、Solid、Roche 454及Ion Torrent)的测序数据。SVSR的实现包括以下两个部分:(1)提出了一种新的基于基因组结构变异的仿真算法。采用变异热点分布模型、选择模型和肿瘤异质性模型对多种复杂基因组变异进行建模分析。第一,对单位点变异进行仿真。分析了变异的热区分布、纯合杂合比和转换颠换比。第二,对短序列插入缺失变异进行仿真。分析了变异的热区分布、三种变异长度indel分布、变异种类及插入数据的不同来源。第三,对拷贝数变异进行仿真。分析了变异状态之间的转移概率,采用选择模型来确定概率值。第四,对串联重复进行仿真。采用两个复制规则来生成串联重复序列。第五,对倒位和易位进行仿真。模拟了常见的倒位和易位,根据需求对特定的变异进行仿真。综合以上变异仿真部分,可以对生殖细胞变异和体细胞变异进行模拟,生成符合特定要求的异质性肿瘤序列。(2)提出了一种新的基于真实测序数据的序列生成算法。采用质量值分布模型和GC偏移模型对特定肿瘤纯度的序列生成过程进行建模分析,生成正常样本和肿瘤多样本测序序列。第一,确定读段长度、插入尺寸、测序深度等测序信息。针对不同测序平台确定特定的测序信息值。第二,对测序质量值分布和测序错误进行分析。SVSR通过训练各测序平台的真实数据来确定质量值的分布,通过一个错误模型对真实测序错误率进行模拟。第三,对GC偏移进行分析。GC偏移是指测序读段数较测序深度发生的偏离程度,这是由DNA片段GC含量的变化所导致,SVSR用一个线性关系来模拟这个偏离程度。在读段生成时,通过训练真实数据的质量分布,设置合适的特征值,最后生成特定的正常样本、肿瘤样本或正常样本和肿瘤样本混合的测序序列。综上,SVSR是一个集变异仿真和序列生成为一体的功能强大的仿真工具,它可以仿真发生多种变异的正常样本和肿瘤样本,并生成相关平台的测序数据。通过分析实验结果可知,SVSR可以在合理的测序质量范围内仿真更加真实的数据特性,并且拥有众多优势:(1)仿真变异类型多(六种基因组变异);(2)模拟了了变异热点分布、纯合杂合比及转换颠换比;(3)考虑了插入数据的不同来源;(4)模拟了肿瘤异质性和肿瘤纯度;(5)模拟了测序过程中的GC偏移和测序质量分布等。总而言之,SVSR在模拟复杂的结构变异和生成各种测序读段方面具有独特的功能,它可以用作现有仿真算法的补充,也可以作为变异检测和比对算法的基准。这有助于用户选择合适的方法实现需求,并帮助研究人员基于对现有方法缺点的理解,开发功能更强大的变异检测和比对算法。

论文目录

  • 摘要
  • ABSTRACT
  • 符号对照表
  • 缩略语对照表
  • 第一章 绪论
  •   1.1 研究背景及意义
  •     1.1.1 研究背景
  •     1.1.2 研究意义
  •   1.2 国内外研究现状
  •   1.3 本文研究内容
  •   1.4 本文结构安排
  • 第二章 概念综述及仿真算法提出
  •   2.1 概念综述
  •     2.1.1 测序技术介绍
  •     2.1.2 变异热点区域
  •     2.1.3 基因序列存储
  •     2.1.4 数据来源介绍
  •   2.2 SVSR总体概述
  •   2.3 本章小结
  • 第三章 基因组结构变异仿真算法研究
  •   3.1 变异仿真算法研究
  •     3.1.1 SNP仿真
  •     3.1.2 Indel仿真
  •     3.1.3 TD仿真
  •     3.1.4 CNV仿真
  •     3.1.5 Invertion和Translocation仿真
  •   3.2 Germline和Somatic仿真
  •   3.3 本章小结
  • 第四章 基于二代测序的读段生成
  •   4.1 测序特征的模拟
  •     4.1.1 测序质量值的模拟
  •     4.1.2 测序错误率的模拟
  •     4.1.3 测序GC偏移的模拟
  •   4.2 测序读段的生成
  •     4.2.1 读段生成算法
  •     4.2.2 Illumina读段生成
  •     4.2.3 Solid读段生成
  •     4.2.4 Roche 454读段生成
  •     4.2.5 ION TORRENT读段生成
  •   4.3 本章小结
  • 第五章 实验结果分析与应用
  •   5.1 仿真特性分析
  •     5.1.1 质量值评估
  •     5.1.2 变异特性分析
  •     5.1.3 时间复杂度分析
  •   5.2 仿真数据分析与应用
  •     5.2.1 数据预处理
  •     5.2.2 变异检测分析
  •     5.2.3 变异注释分析
  •   5.3 本章小结
  • 第六章 总结与期望
  •   6.1 总结
  •   6.2 展望
  • 参考文献
  • 致谢
  • 作者简介
  • 文章来源

    类型: 硕士论文

    作者: 高美虹

    导师: 袁细国

    关键词: 基因组结构变异,变异热点,肿瘤异质性,选择模型,读段生成,肿瘤纯度,质量分布

    来源: 西安电子科技大学

    年度: 2019

    分类: 基础科学

    专业: 生物学

    单位: 西安电子科技大学

    分类号: Q811.4

    DOI: 10.27389/d.cnki.gxadu.2019.001924

    总页数: 81

    文件大小: 6949K

    下载量: 42

    相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  

    基于二代测序的基因组结构变异仿真与应用研究
    下载Doc文档

    猜你喜欢