蛋白质组质谱大数据的并行处理技术研究

蛋白质组质谱大数据的并行处理技术研究

论文摘要

近年来,串联质谱技术以其高灵敏度和高精度等优势成为了研究蛋白质组的关键技术之一。串联质谱数据承载着蛋白质及肽段的信息,对其处理分析不仅是计算蛋白质组研究中尤为关键的一步,也是后续生物蛋白质结构功能等分析的基本保障。然而,质谱数据分析在计算时间与计算规模上遭受了新的挑战,其主要有以下三个原因:一是随着质谱技术的高速发展,质谱数据集的规模呈爆炸式的指数增长,匹配海量的质谱数据成为了蛋白质组学的一个难题;二是蛋白质肽段测序条件变得更加苛刻,如半无限或酶无约束搜索、多个翻译后修饰等的加入考虑;三是蛋白质中央数据库存储与更新质谱数据时通常需要对大量的质谱数据进行二次分析。如何高效、准确地从海量质谱数据中解析出肽段序列信息,是当前计算蛋白质组学所面临的最大挑战。本文致力于研究大规模质谱数据在多种高性能计算平台上的并行处理算法。本文的主要工作和创新点概括如下:(1)提出了一个基于分布式计算框架Hadoop上的从头测序并行算法。现有的从头测序方法均为串行执行算法,无法在合理的时间内处理大规模的质谱数据。而Hadoop是开源的分布式计算框架,已广泛应用于学术界和工业界,其文件系统HDFS在负载均衡方面具有很强的优势。为此,本文提出了一个基于Hadoop的并行从头测序算法,该方法采用了一个创新的数据集自动分割方法和数据分发的动态平衡策略,使得质谱数据的处理速度更为高效。同时,通过充分利用Hadoop的高容错性,保证了从头测序结果的正确性。基于该方法,开发了新的从头测序软件MRUniNovo。使用3个不同来源的数据集对MRUniNovo进行了测试,并与串行的UniNovo算法进行比较分析。结果显示,MRUniNovo在保持结果精度不变的前提下具有更快的质谱数据处理速度。(2)提出了一个基于国产众核处理器SW26010的大规模从头测序算法。蛋白质组学中高通量质谱实验产生了海量的质谱大数据集。然而,由于数据规模过大、普通电脑内存有限等原因,现有的从头测序方法无法对大规模的质谱数据集进行有效的测序分析。一个有效的解决方案是使用最新的高性能异构架构来加快质谱数据处理速度。本文提出了一个基于SW26010众核处理器的高效从头测序方法SWPepNovo。该方法使用一个创新的并行肽段质谱匹配(PSMs)算法,并采用了两级并行机制和三个优化策略来克服并行PSMs算法中存在的计算密集和内存受限等瓶颈。在大规模数据集的实验中,SWPepNovo在具有一个SW26010众核处理器的节点上获得了高达282个/秒的测序速度,比现有算法PepNovo+快了近25倍。(3)提出了一个基于Intel MIC众核架构的蛋白质数据库并行搜索算法。基于串联质谱的鸟枪法测序中,蛋白质数据库搜索是一个被广泛认可和采用的二级质谱数据分析方法。然而,质谱数据的急剧增加给现有的数据库搜索方法带来了巨大的计算挑战。为了能够让科研人员在可接受的计算时间内完成大规模质谱数据的搜索分析,本文首先提出了一个新的并行质谱点积乘评分算法(MIC-SDP)来加速蛋白质数据搜索,然后基于该方法开发了蛋白质数据库并行搜索软件MCtandem。为了充分利用MIC众核的计算资源来提高搜索的性能,MCtandem使用MPI+OpenMP混合编程实现,并采用了动态任务调度、通信覆盖以及向量化等优化措施。通过使用不同的数据集对MCtandem的加速性能进行了评估,相比于其他基于GPU的并行数据库搜索方法,MCtandem在测序速度和大规模数据处理方面均获得了更显著的性能。(4)提出了一个基于众核架构SW26010的大规模蛋白质数据库搜索算法。随着质谱技术的不断进步,大规模质谱数据分析在蛋白质组学研究中越来越常见。然而,现有的蛋白质数据库搜索方法都缺乏对大规模质谱数据集的支持,即无法在可接受时间内对大规模的数据集进行搜索分析。为此,本文通过研究SW26010的特点提出了一个可高效处理大规模质谱数据集的并行搜索方法。基于该方法开发了新的蛋白质数据库搜索软件SW-Tandem。SW-Tandem采用了一个高效的结构化质谱数据转化方法和一个高度可扩展性的MPE间通信方案来克服内存带宽瓶颈。相对于在单个4核CPU上执行的X!Tandem的多线程并行版本,SW-Tandem在具有单个SW26010节点上即可获得高达41倍的加速比。大规模数据集的测试结果显示,SW-Tandem可在合理的时间内处理高达12GB的质谱数据。本文工作不仅具有一定的理论价值,丰富了高性能计算与蛋白质组学方面的研究内容,而且推动了蛋白质组分析的实用化进程,具有较大的应用价值和实际意义。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  •   1.1 研究现状与挑战
  •   1.2 论文的研究内容和创新点
  •     1.2.1 研究目标
  •     1.2.2 研究内容
  •   1.3 本文组织结构
  • 第2章 相关理论
  •   2.1 基于串联质谱的蛋白质组学研究
  •     2.1.1 串联质谱技术
  •     2.1.2 串联质谱数据分析简介
  •     2.1.3 基于串联质谱技术的蛋白质组学研究
  •   2.2 高性能计算平台与技术
  •     2.2.1 Hadoop
  •     2.2.2 GPU
  •     2.2.3 Intel MIC(Many Integrated Core)
  •     2.2.4 SW26010
  •   2.3 并行编程技术
  •   2.4 本章小结
  • 第3章 基于Hadoop分布式计算框架的从头测序并行算法研究
  •   3.1 引言
  •   3.2 UniNovo算法简介
  •   3.3 基于Hadoop分布式框架的并行大规模肽段从头测序方法
  •     3.3.1 基于Hadoop的从头测序并行化设计
  •     3.3.2 基于Hadoop的从头测序并行化实现
  •   3.4 实验结果与性能分析
  •     3.4.1 实验环境
  •     3.4.2 实验设计与结果分析
  •   3.5 本章小结
  • 第4章 基于SW26010的大规模肽段从头测序算法研究
  •   4.1 引言
  •   4.2 PepNovo+算法简介
  •   4.3 基于SW26010架构的多层并行从头测序算法
  •     4.3.1 基于MPE之间的任务级并行计算
  •     4.3.2 基于CPE之间的线程级并行计算
  •   4.4 并行优化措施
  •   4.5 实验结果与性能分析
  •     4.5.1 实验环境与数据集
  •     4.5.2 单节点性能测试
  •     4.5.3 多节点性能测试
  •     4.5.4 大数据集性能测试
  •   4.6 本章小结
  • 第5章 基于MIC的大规模蛋白质数据库并行搜索算法研究
  •   5.1 引言
  •   5.2 问题概述
  •     5.2.1 Intel MIC架构
  •     5.2.2 SDP质谱匹配评分算法
  •   5.3 基于MIC架构的两层并行数据库搜索方法
  •     5.3.1 并行计算设计
  •     5.3.2 并行优化设计
  •   5.4 实验结果与性能分析
  •     5.4.1 实验环境与数据集
  •     5.4.2 CPU+1MIC性能测试
  •     5.4.3 MIC集群性能测试
  •     5.4.4 大规模数据集性能测试
  •     5.4.5 实验结果准确性分析
  •   5.5 本章小节
  • 第6章 基于SW26010大规模蛋白质数据库搜索算法研究
  •   6.1 引言
  •   6.2 背景知识
  •     6.2.1 SW26010
  •     6.2.2 质谱点积乘算法
  •   6.3 基于SW26010的数据库并行搜索算法
  •     6.3.1 基于MPE之间的任务级并行计算
  •     6.3.2 基于CPE之间的线程级并行计算
  •   6.4 面向架构的性能优化方法
  •     6.4.1 内存访问优化
  •     6.4.2 双缓冲技术
  •     6.4.3 向量化
  •     6.4.4 优化总结
  •   6.5 实验结果与性能分析
  •     6.5.1 实验环境与数据集
  •     6.5.2 SW-Tandem性能分析
  •     6.5.3 实验结果准确性分析
  •   6.6 本章小节
  • 总结与展望
  • 参考文献
  • 附录A 攻读学位期间所发表的学术论文
  • 附录B 攻读学位期间所参加的科研项目及申请的专利
  • 致谢
  • 文章来源

    类型: 博士论文

    作者: 李闯

    导师: 李肯立

    关键词: 蛋白质组学,从头测序,数据库搜索测序,高性能计算,大数据处理

    来源: 湖南大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,计算机软件及计算机应用

    单位: 湖南大学

    分类号: TP311.13;Q51

    DOI: 10.27135/d.cnki.ghudu.2019.001536

    总页数: 103

    文件大小: 5559K

    下载量: 54

    相关论文文献

    • [1].质谱技术在中药研究中的应用进展[J]. 分析测试学报 2017(05)
    • [2].质谱技术及其在临床检验中的应用初探[J]. 大家健康(学术版) 2015(19)
    • [3].质谱技术在类风湿关节炎诊断中的应用进展[J]. 健康之路 2015(10)
    • [4].质谱技术推动药物分析研究创新发展[J]. 质谱学报 2017(04)
    • [5].质谱直接定量分析技术的应用进展[J]. 质谱学报 2018(02)
    • [6].质谱技术在核酸研究领域的应用[J]. 中国科学:化学 2014(05)
    • [7].从质谱到智谱——历史与未来[J]. 国际检验医学杂志 2018(22)
    • [8].质谱技术在抗原表位研究中的应用[J]. 江西农业学报 2010(05)
    • [9].质谱技术在临床实验室的应用[J]. 检验医学 2019(01)
    • [10].质谱技术鉴定细胞中组蛋白翻译后修饰的研究进展[J]. 化学进展 2010(04)
    • [11].质谱技术及其在临床检验中的应用分析[J]. 临床医药文献电子杂志 2015(07)
    • [12].用加速器质谱技术测定广西乐业天坑的暴露年龄[J]. 广西师范大学学报(自然科学版) 2017(01)
    • [13].质谱技术在火灾物证鉴定中的应用[J]. 武警学院学报 2009(02)
    • [14].同位素比质谱技术在食品应用中的研究进展[J]. 食品研究与开发 2017(10)
    • [15].质谱技术在肺癌分子标志物探究中的近期应用[J]. 实用医药杂志 2018(05)
    • [16].基于质谱技术的神经肽研究进展[J]. 生物工程学报 2017(07)
    • [17].敞开式离子化质谱技术研究进展[J]. 质谱学报 2020(03)
    • [18].质谱技术表征糖药物结构的前沿进展[J]. 生物产业技术 2018(06)
    • [19].质谱技术在药物分析中的应用[J]. 今日药学 2019(09)
    • [20].质谱技术在内分泌疾病诊疗中的应用[J]. 中华临床实验室管理电子杂志 2018(03)
    • [21].第七届中国二次离子质谱会议[J]. 食品与生物技术学报 2018(09)
    • [22].基于质谱技术的药物代谢产物鉴定策略进展[J]. 药学进展 2018(03)
    • [23].液相色谱-串联质谱在农药残留测定中的应用[J]. 分析试验室 2018(05)
    • [24].跨平台的质谱蛋白回归定量和质量控制的参数方法[J]. 质谱学报 2017(06)
    • [25].质谱技术在肿瘤分子诊断中的应用进展[J]. 标记免疫分析与临床 2019(06)
    • [26].免疫质谱技术及其临床研究应用进展[J]. 中华临床实验室管理电子杂志 2017(04)
    • [27].质谱技术在临床微生物检测中的应用进展[J]. 标记免疫分析与临床 2018(07)
    • [28].交联质谱技术研究进展[J]. 化学与生物工程 2020(11)
    • [29].质谱技术鉴别肺癌痰液的实验研究[J]. 广东医学 2019(07)
    • [30].质谱技术在蛋白质组学和代谢组学中的研究应用[J]. 继续医学教育 2014(01)

    标签:;  ;  ;  ;  ;  

    蛋白质组质谱大数据的并行处理技术研究
    下载Doc文档

    猜你喜欢