基因组间的相似性可以通过重叠基因对的数量进行度量,基因组数据量的指数增长对重叠基因对数量的计算方法提出了更高的要求,业界迫切需要一种能够处理各种数量级别的基因数据库和待查询基因组的计算工具.本文提出一种基于Hadoop的重叠基因对数量的计算方法——DBits.在较小的数据集上,DBits的计算时间少于业界最常用的方法BITS,而在BITS无法处理的海量数据集上,DBits可以进行有效计算.DBits充分发挥分布式计算在大数据处理中的优势,可用于对数据量较大的基因组进行分析,有效地解决了现有技术中存在的重叠基因对数量计算难的问题.
类型: 期刊论文
作者: 刘书田,江育娥,林劼
关键词: 生物信息学,基因组,重叠基因对,大数据
来源: 福建师范大学学报(自然科学版) 2019年06期
年度: 2019
分类: 基础科学,信息科技
专业: 生物学,计算机软件及计算机应用
单位: 福建师范大学数学与信息学院
基金: 国家自然科学基金资助项目(61472082),福建省自然科学基金资助项目(2014J01220)
分类号: Q811.4;TP311.13
页码: 29-39
总页数: 11
文件大小: 1455K
下载量: 34
本文来源: https://www.lunwen66.cn/article/35a1200e98997b1c422d1e16.html