基于Spark的CRISPR系统脱靶位点预测算法研究与实现

基于Spark的CRISPR系统脱靶位点预测算法研究与实现

论文摘要

基因编辑技术在基因功能研究、物种性状改良和疾病研究中具有非常重要的作用,成为当下的研究热点。CRISPR系统是目前最具发展潜力的基因编辑工具,但由于其存在脱靶效应,可能会导致不确定位置的DNA片段遭到破坏。提前对全基因组范围内存在的脱靶位点进行预测来实现风险规避,对安全有效的CRISPR系统的设计与应用具有非常重要的指导意义。目前已有的CRISPR系统脱靶位点预测算法的运行效率都不是很高,在全基因组范围对脱靶位点进行预测十分耗时。本文提出了一种新的脱靶位点预测算法Spark-OFFinder,该算法将FM-index算法应用到了脱靶位点预测当中,通过使用Spark分布式计算框架,使之能在Spark集群当中并发运行。本文对参考基因组序列生成FM-index索引文件,并对索引文件的内容进行压缩处理,使其能够完全加载到内存当中,提升读取效率。Spark-OFFinder设计了一种基于FM-index算法的部分模糊匹配算法,能在参考基因组序列中搜索CRISPR系统的脱靶位点,并通过一定的优化措施来缩小搜索空间,以提升算法的运行效率。本文还使用MapReduce编程模型将该算法并行化处理,并基于Spark分布式计算框架实现该并行算法,使其能在Spark集群当中分布式运行,进一步提升运行效率。最后,本文将Spark-OFFinder与目前应用广泛的脱靶位点预测工具Cas-OFFinder进行对比,Spark-OFFinder的运行结果完全正确。在单机环境下,Spark-OFFinder的运行速度相较于Cas-OFFinder有很大的提升。在集群环境中,本文使用控制变量法测试了两者受参考基因组序列长度、sgRNA序列数量和最大允许错配数的影响。测试结果表明,在本文测试所使用的集群环境中,Spark-OFFinder在不同输入条件下的运行速度较Cas-OFFinder均能有非常大的提升,在某些输入条件下能达到百倍甚至千倍的提升。此外,Spark-OFFinder在参考基因组序列长度较长、sgRNA序列数量多以及最大允许错配数较小时更能发挥其运行速度上的优势。并且该算法具有比较好的拓展性,能随集群规模的扩大稳步提升运行速度。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  •   1.1 研究背景及意义
  •   1.2 国内外研究现状
  •   1.3 项目来源及研究内容
  •   1.4 论文结构
  • 2 相关概念、算法及技术介绍
  •   2.1 CRISPR/Cas9 系统
  •   2.2 Burrows-Wheeler变换及后缀数组
  •   2.3 FM-index算法
  •   2.4 Spark分布式计算框架
  •   2.5 本章小结
  • 3 基于Spark的 CRISPR系统脱靶位点预测算法
  •   3.1 CRISPR系统脱靶位点预测问题描述及分析
  •   3.2 对参考基因组序列生成FM-index索引文件
  •   3.3 CRISPR系统脱靶位点预测算法的设计与实现
  •   3.4 基于Spark的算法并行化处理
  •   3.5 本章小结
  • 4 算法性能测试与结果分析
  •   4.1 测试数据及环境
  •   4.2 Spark-OFFinder单机性能测试与分析
  •   4.3 Spark-OFFinder集群性能测试与分析
  •   4.4 本章小结
  • 5 总结与展望
  •   5.1 本文工作总结
  •   5.2 未来工作展望
  • 致谢
  • 参考文献
  • 文章来源

    类型: 硕士论文

    作者: 刘佳毅

    导师: 夏天

    关键词: 系统,脱靶位点预测,算法

    来源: 华中科技大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,计算机软件及计算机应用

    单位: 华中科技大学

    基金: 华中科技大学电子信息与通信学院智能互联网技术湖北省重点实验室的国家自然科学基金项目(基金号61571202)

    分类号: TP301.6;Q78

    DOI: 10.27157/d.cnki.ghzku.2019.000985

    总页数: 65

    文件大小: 1627K

    下载量: 31

    相关论文文献

    • [1].miRNA及其靶位点多态性的研究进展[J]. 遗传 2010(11)
    • [2].利用发根农杆菌体系检测西瓜CRISPR/Cas9系统的靶位点[J]. 中国瓜菜 2020(04)
    • [3].基于miRNA-靶位点配对的序列特征研究[J]. 分析测试学报 2017(05)
    • [4].MicroRNA基因及其靶位点的单核苷酸多态性与疾病易感性[J]. 生理科学进展 2010(06)
    • [5].miRNA与其靶mRNA的相互作用:绑定位点的质量与数量特征的整合计算分析(英文)[J]. 生物化学与生物物理进展 2009(05)
    • [6].牛大力精油成分测定及其作用机制预测分析[J]. 江苏农业科学 2020(10)
    • [7].MicroRNA靶位点单核苷酸多态性与肿瘤及其药物敏感性的研究进展[J]. 国际病理科学与临床杂志 2012(06)
    • [8].PLOD3基因3′调控区的人类特异突变改变miR-124a对PLOD3的调控[J]. 动物学研究 2008(04)
    • [9].靶向mdr1不同位点的siRNA对两种耐药细胞MDR的逆转效果[J]. 世界华人消化杂志 2009(33)
    • [10].凝胶阻滞试验分析铜绿假单胞菌LexA蛋白与其靶位点的特异性结合[J]. 暨南大学学报(医学版) 2008(04)
    • [11].我国科学家成功建立“GOTI”新型脱靶检测技术[J]. 首都食品与医药 2019(06)
    • [12].肠道病毒71型基因组中小干扰RNA的靶位点预测[J]. 生物信息学 2009(04)
    • [13].miRNA靶位点多态性与大肠癌的研究进展[J]. 中国细胞生物学学报 2013(07)
    • [14].IL-13:一个前景广阔的治疗支气管哮喘的靶位点[J]. 中华哮喘杂志(电子版) 2009(06)

    标签:;  ;  ;  

    基于Spark的CRISPR系统脱靶位点预测算法研究与实现
    下载Doc文档

    猜你喜欢