基因数据压缩算法的并行优化研究

基因数据压缩算法的并行优化研究

论文摘要

随着二代基因测序技术的发展及其在药物研发、疾病诊断等领域的广泛应用,基因测序数据呈现指数级增长。海量的基因测序数据需要有效的压缩方案来减小数据体积,以降低存储、传输测序数据的成本。为此,研究者们提出了多种专用基因测序数据压缩方法。这些方法虽然有效地提高了基因测序数据的压缩比,但是在处理速度等方面关注不足,未能得到实际应用。而另一方面,现代硬件的发展使得多核、向量处理等特性得到普及,GPU等加速设备的可用性也得到提高。利用现代硬件对专用基因数据压缩算法进行并行优化可以大幅提高处理速度,从而增强实用性。基于这一背景,本文研究了利用现代硬件对基因测序数据质量分数专用压缩算法LCQS进行并行优化,分别提出了在多核CPU环境和在CPU-GPU异构环境两个不同环境的优化方案。在多核CPU环境下,本文基于数据并行与流水线并行模式,通过多线程与共享队列实现了并行的LCQS。同时引入了轻量级的索引文件结构,满足高效地处理下游应用对压缩数据的随机访问解压需求。还对PAQ压缩这一耗时较多的重要模块采用向量化进行细粒度并行,可用于加速包括LCQS在内的数据压缩应用。实验结果表明,并行优化的LCQS在保持了高压缩比的情况下,压缩速度、随机访问解压速度整体上优于通用压缩工具和同类型的专用压缩工具,优化方案加速比高且具有良好的可扩展性,优化模块性能取得明显提升。在CPU-GPU异构环境下,本文将LCQS计算密集的编码过程迁移至GPU上进行计算,结合算法和GPU硬件特点,改进了数据组织形式和算法参数后进行移植实现。还通过循环展开、缓存分配优化等性能调优方法进一步优化,提高访存吞吐率、降低访存延迟。实验结果表明,性能调优方法大幅提高了GPU环境下编码过程的速度,调优后的GPU加速编码模块方案可以明显提高算法的整体性能。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  •   1.1 研究背景和意义
  •   1.2 国内外研究现状
  •     1.2.1 通用压缩算法
  •     1.2.2 专用基因数据压缩算法
  •     1.2.3 压缩算法的并行优化
  •   1.3 论文的主要工作
  •   1.4 论文的组织结构
  • 第二章 相关理论和技术
  •   2.1 FASTQ数据格式
  •   2.2 现代处理器结构
  •     2.2.1 CPU架构特点
  •     2.2.2 GPU架构特点
  •   2.3 并行计算模型
  •   2.4 并行程序设计
  •     2.4.1 问题并行性分析
  •     2.4.2 并行算法结构设计
  •     2.4.3 支撑结构设计
  •     2.4.4 实现机制
  •   2.5 本章小结
  • 第三章 LCQS算法在多核处理器上并行优化
  •   3.1 LCQS算法原理及设计
  •     3.1.1 LCQS算法简介
  •     3.1.2 LCQS算法流程
  •   3.2 LCQS算法性能优化分析
  •   3.3 LCQS算法的并行计算设计
  •   3.4 LCQS算法的并行程序实现
  •     3.4.1 程序结构
  •     3.4.2 数据共享
  •     3.4.3 线程同步
  •     3.4.4 向量化优化
  •     3.4.5 文件结构设计
  •   3.5 本章小结
  • 第四章 LCQS在异构系统上的并行优化
  •   4.1 问题分析
  •   4.2 cuLCQS算法在异构系统上的设计
  •     4.2.1 并行任务划分
  •     4.2.2 并行算法流程
  •   4.3 cuLCQS算法在异构系统上的实现
  •     4.3.1 CPU与 GPU的交互
  •     4.3.2 数据组织
  •     4.3.3 算法参数
  •   4.4 cuLCQS算法在异构系统上的调优
  •     4.4.1 循环展开
  •     4.4.2 缓存分配
  •   4.5 本章小结
  • 第五章 实验与结果分析
  •   5.1 LCQS算法在多核处理器上的并行优化实验
  •     5.1.1 实验环境与实验数据
  •     5.1.2 压缩效果
  •     5.1.3 性能优化效果
  •   5.2 LCQS算法在异构系统上的并行优化实验
  •     5.2.1 实验环境与实验数据
  •     5.2.2 压缩效果
  •     5.2.3 性能优化效果
  •   5.3 本章小结
  • 总结与展望
  • 参考文献
  • 攻读硕士学位期间取得的研究成果
  • 致谢
  • 附件
  • 文章来源

    类型: 硕士论文

    作者: 柯璧新

    导师: 董守斌

    关键词: 数据压缩,并行优化,多核处理器,异构计算,单指令多数据

    来源: 华南理工大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,计算机硬件技术

    单位: 华南理工大学

    分类号: Q811.4;TP332

    DOI: 10.27151/d.cnki.ghnlu.2019.004658

    总页数: 65

    文件大小: 2919K

    下载量: 28

    相关论文文献

    • [1].数据压缩算法研究[J]. 无线互联科技 2019(21)
    • [2].煤矿四旋翼飞行机器人环境信息数据压缩算法[J]. 工矿自动化 2020(06)
    • [3].海量数据归档系统数据压缩算法选择方法研究[J]. 中国电子科学研究院学报 2019(07)
    • [4].基于冗余数据压缩算法的经济信用风险研究[J]. 电子设计工程 2017(07)
    • [5].曲线数据压缩算法研究与应用[J]. 计算机系统应用 2010(03)
    • [6].心电信号数据压缩算法的研究[J]. 中国科技信息 2012(04)
    • [7].传感器网络小波数据压缩算法的设计与实现[J]. 中兴通讯技术 2009(05)
    • [8].改进的分层点云数据压缩算法[J]. 测绘科学 2017(09)
    • [9].无线传感器网络数据压缩算法综述[J]. 科技创新与应用 2015(32)
    • [10].多媒体技术数据压缩算法浅析[J]. 科技信息 2014(10)
    • [11].基于数据压缩算法的研究[J]. 沿海企业与科技 2011(02)
    • [12].多媒体数据压缩算法及其实现研究[J]. 电脑知识与技术 2020(21)
    • [13].国外雷达卫星星上数据压缩算法的新进展[J]. 国际太空 2015(08)
    • [14].传感器网络中一种基于一元线性回归模型的空时数据压缩算法[J]. 电子与信息学报 2010(03)
    • [15].舰船视频监控数据压缩算法的设计[J]. 舰船科学技术 2019(10)
    • [16].基于云架构下分布式数据压缩算法的研究[J]. 长治学院学报 2016(02)
    • [17].曲线数据压缩算法的研究及应用[J]. 计算机系统应用 2019(05)
    • [18].一种FPGA在轨重构配置数据压缩算法[J]. 航天器工程 2015(06)
    • [19].实时数据库中数据压缩算法的研究与实现[J]. 科技与企业 2016(06)
    • [20].对Huffman数据压缩算法的改进[J]. 福建电脑 2011(06)
    • [21].基于时序聚类的北斗位置冗余数据压缩算法[J]. 计算机工程 2012(04)
    • [22].电能质量数据压缩算法研究[J]. 四川电力技术 2012(01)
    • [23].细节分量树数据压缩算法在DCS系统中的应用问题及改进[J]. 电脑与电信 2008(12)
    • [24].GPS数据压缩算法研究[J]. 自动化仪表 2014(04)
    • [25].基于星载SAR的原始数据压缩算法[J]. 中国电子科学研究院学报 2013(01)
    • [26].基于地形高度域的数据压缩算法研究[J]. 电子学报 2016(12)
    • [27].基于移动PDM系统的数据压缩算法的选择研究[J]. 自动化与仪表 2017(02)
    • [28].过程数据压缩算法SDT的改进研究与应用[J]. 工业控制计算机 2009(08)
    • [29].云存储中一种改进的LZW数据压缩算法研究[J]. 科技通报 2017(07)
    • [30].WSN中基于分簇路由的多维度数据压缩算法研究[J]. 电子学报 2009(05)

    标签:;  ;  ;  ;  ;  

    基因数据压缩算法的并行优化研究
    下载Doc文档

    猜你喜欢