基于本体的基因组变异数据语义查询方法研究

基于本体的基因组变异数据语义查询方法研究

论文摘要

随着人类DNA测序技术的发展和千人基因组等大型测序计划的推进,生物医学数据呈现爆炸式增长趋势,出现海量的基因组变异数据,其数据量现已达到TB级别甚至是PB级别。大规模的基因组变异数据为生物医学研究提供了数据基础,但是同时也在大数据的存储、处理和分析上带来了挑战。传统数据库在处理小规模数据时具有一定的优势,难以适用于TB级别以上基因组变异数据的存储与查询处理。当前,因HBase具有动态可拓展存储的特性,以及Spark高效并行处理数据的优势,HBase和Spark在大规模数据处理领域中,引起了学术界和工业界的广泛关注。因此面对不断增长的海量基因组变异数据,如何对其进行高效的可拓展存储管理及查询分析,进而发现基因组变异数据中蕴含生物医学的知识和规律,是当前研究的难点问题。鉴于疾病相似度可用于直观地、定量地衡量疾病间的相关性,疾病相似度评估方法以及结合疾病相似度的语义查询方法成为了当前的研究热点。为了有效地衡量新发现的或目前医学研究中遗传信息较少的疾病间的相似度,本文提出了基于规则的疾病本体相似度计算方法,综合考虑疾病关联的基因、表型对相似度衡量的影响,实验证明该方法在ROC评分下取得良好的性能。为了在正负例高度不平衡的数据集上可以有效发现相似的疾病对,本文提出了基于深度神经网络的疾病相似度计算方法,利用深度神经网络挖掘疾病对间的规律信息。该方法在ROC和PRC评分下取得良好的效果。本文提出了基于Spark和HBase的基因组变异数据存储和查询方法,构建了基于Lucene非主键索引机制与查询优化方法,利用本文已提出的疾病本体相似度计算方法,构建疾病相似度网络,并基于此疾病相似度网络,提出了面向海量基因组变异数据的语义查询方法。实验结果表明,相比于传统数据库的存储和查询处理方法,本文提出的存储和查询方法在大规模基因组变异数据上表现出明显的优势。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  •   1.1 课题背景及研究的目的和意义
  •   1.2 国内外研究现状
  •     1.2.1 国外研究现状
  •     1.2.2 国内研究现状
  •     1.2.3 国内外研究现状分析
  •   1.3 本文的主要研究内容
  •     1.3.1 基于本体的疾病相似度计算方法
  •     1.3.2 基于Spark/HBase的基因组变异数据语义查询方法
  •   1.4 章节安排
  • 第2章 基于规则的本体相似度计算方法研究
  •   2.1 引言
  •   2.2 疾病-基因和疾病-表型映射关系集成
  •   2.3 基于规则的疾病相似度计算方法
  •   2.4 实验结果
  •     2.4.1 实验环境
  •     2.4.2 实验结果与分析
  •   2.5 本章小结
  • 第3章 基于机器学习的疾病相似度计算方法研究
  •   3.1 引言
  •   3.2 数据预处理
  •   3.3 疾病相似度计算神经网络模型构建
  •   3.4 实验结果
  •     3.4.1 实验环境
  •     3.4.2 实验结果与分析
  •   3.5 本章小结
  • 第4章 大规模基因组变异数据查询方法研究
  •   4.1 引言
  •   4.2 大规模基因组变异数据存储
  •   4.3 大规模基因组变异数据查询处理
  •   4.4 查询优化
  •   4.5 语义查询处理
  •   4.6 实验结果
  •     4.6.1 实验环境
  •     4.6.2 实验结果及分析
  •   4.7 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文及其它成果
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 苏抒慧

    导师: 刘健

    关键词: 基因组变异数据,疾病相似度,本体,语义查询,大数据,查询优化

    来源: 哈尔滨工业大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,生物学,计算机软件及计算机应用

    单位: 哈尔滨工业大学

    分类号: Q75;TP391.1

    DOI: 10.27061/d.cnki.ghgdu.2019.002775

    总页数: 68

    文件大小: 3445K

    下载量: 26

    相关论文文献

    • [1].基于曲线相似度的飞行着陆操作评价方法[J]. 交通信息与安全 2019(06)
    • [2].基于域间相似度序数的迁移学习源领域的选择[J]. 科学技术与工程 2020(20)
    • [3].一种图文组合相似度算法的设计与优化[J]. 软件工程 2020(08)
    • [4].基于超网络的微博相似度及其在微博舆情主题发现中的应用[J]. 图书情报工作 2020(11)
    • [5].说之以理[J]. 人力资源 2020(21)
    • [6].一种双层的微博用户相似度算法[J]. 情报杂志 2018(06)
    • [7].基于情景的结构化突发事件相似度研究[J]. 中国管理科学 2017(01)
    • [8].基于混合相似度的协同过滤推荐[J]. 软件导刊 2017(02)
    • [9].基于干扰相似度的多话题演化模型[J]. 电信科学 2017(09)
    • [10].软件相似度在成本估算中的应用[J]. 计算机应用与软件 2015(06)
    • [11].一种基于函数依赖的属性相似度调整算法[J]. 上海交通大学学报 2015(08)
    • [12].河马找亲戚[J]. 学生之友(童花果) 2016(12)
    • [13].十个中文流行语翻译[J]. 初中生辅导 2016(36)
    • [14].母爱[J]. 少年月刊 2017(05)
    • [15].基于多种测度的术语相似度集成计算研究[J]. 情报学报 2013(06)
    • [16].基于余弦相似度分类负荷预测[J]. 电力设备管理 2020(09)
    • [17].基于多尺度相似度特征的答案选择算法[J]. 系统工程与电子技术 2018(06)
    • [18].基于服务相似度的移动用户近似邻居选取方法[J]. 计算机工程 2018(05)
    • [19].基于文本属性的微博用户相似度研究[J]. 计算机技术与发展 2018(05)
    • [20].基于属性相似度的碎多边形自动聚合处理[J]. 测绘与空间地理信息 2013(11)
    • [21].基于共同邻居相似度的社区发现算法[J]. 信息系统工程 2014(05)
    • [22].色谱指纹图谱相似度方法的适应性研究[J]. 中国中医药信息杂志 2012(05)
    • [23].基于向量空间模型附加词义特征的句子相似度研究[J]. 成都信息工程学院学报 2012(03)
    • [24].中国-东盟自贸区二周年的比较研究——基于出口相似度与显性比较优势的分析[J]. 安徽行政学院学报 2012(03)
    • [25].色谱指纹图谱相似度方法的研究进展[J]. 中国实验方剂学杂志 2011(02)
    • [26].基于元相似度的推荐算法[J]. 计算机应用研究 2011(10)
    • [27].互信息启发的相似度组合图像检索算法[J]. 中国图象图形学报 2011(10)
    • [28].相似度法在综合分析投资环境中的应用[J]. 统计与决策 2009(15)
    • [29].一种改进相似度的协同过滤算法实现[J]. 电子科技 2020(02)
    • [30].基于曲线相似度的步态识别研究[J]. 中国新技术新产品 2020(07)

    标签:;  ;  ;  ;  ;  ;  

    基于本体的基因组变异数据语义查询方法研究
    下载Doc文档

    猜你喜欢