基于异构信息融合的致病基因预测算法研究

基于异构信息融合的致病基因预测算法研究

论文摘要

复杂疾病严重影响人的身心健康,发现疾病致病基因是医学领域一直以来的研究目标。随着生物信息学的出现及生物技术的快速发展,为了克服传统生物医学方法实验周期长、成本高等固有困难,研究者提出许多利用大量生物数据挖掘疾病致病基因的基因优先排序算法。但由于目前已知的基因-疾病关联矩阵仍然非常稀疏,并且缺少基因-疾病之间无关的证据,对基因优先排序算法预测性能造成一定影响。基于功能相近的基因突变可能引发类似的疾病这一假设,本文提出一种基于异构信息融合的PU归纳矩阵补全算法PUIMCHIF(PU Induction Matrix Completion with Heterogeneous Information Fusion)预测人类疾病的候选致病基因。一方面,PUIMCHIF使用不同的紧凑特征学习方法从多种数据源提取基因和疾病的特征,弥补数据稀疏的不足。具体地,使用带重启的随机游走和扩散分量分析方法学习基因和疾病低维的网络特征;使用去噪自编码对基因和疾病的高维数据特征进行降维。另一方面,基于未知的基因-疾病关联关系中多数是无关关系的先验知识,我们采用PU-Learning的策略,将未知的无标记数据视为负例进行有偏学习。我们进行了多组实验验证了PUIMCHIF算法的有效性。在查准率、查全率以及均值百分位数排名(Mean Percentile Ranking,MPR)三个评价指标上,PUIMCHIF的实验结果都明显优于其它算法。在对多基因多疾病进行top-100全局预测分析时,PUIMCHIF算法恢复真实基因关联的概率达到了50%,且MPR值为10.94%,比IMC、CATAPULT等其它方法具有优先级更高的实验验证。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  •   1.1 课题来源
  •   1.2 课题背景及研究意义
  •     1.2.1 研究背景
  •     1.2.2 研究意义
  •   1.3 国内外研究现状
  •   1.4 目前存在的问题
  •     1.4.1 疾病基因研究目前存在的问题
  •     1.4.2 基于机器学习的基因排序问题
  •   1.5 本文主要内容
  •   1.6 本文结构安排
  • 第2章 疾病基因预测问题的研究
  •   2.1 引言
  •   2.2 相关生物数据库
  •   2.3 基于异构网络的基因预测方法
  •     2.3.1 RWRH算法
  •     2.3.2 Katz算法
  •   2.4 基于机器学习的预测算法
  •     2.4.1 ProDiGe算法
  •     2.4.2 CATAPULT算法
  •     2.4.3 矩阵补全算法
  •   2.5 本章小节
  • 第3章 改进归纳矩阵补全模型
  •   3.1 引言
  •   3.2 模型框架
  •   3.3 紧凑特征学习方法
  •     3.3.1 主成分分析
  •     3.3.2 自动编码器
  •     3.3.3 重启随机游走算法
  •     3.3.4 扩散分量分析
  •   3.4 疾病基因预测方法
  •     3.4.1 标准归纳矩阵补全
  •     3.4.2 PU归纳矩阵补全
  •   3.5 本章小结
  • 第4章 PUIMCHIF模型的实验结果分析
  •   4.1 引言
  •   4.2 数据集介绍
  •   4.3 评价指标
  •   4.4 模型影响因素分析
  •   4.5 全局性能分析
  •   4.6 新基因和新疾病预测分析
  •     4.6.1 新基因的预测
  •     4.6.2 新疾病的预测
  •   4.7 新发现的关联预测分析
  •   4.8 小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文及其它成果
  • 致谢
  • 个人简历
  • 文章来源

    类型: 硕士论文

    作者: 王学萍

    导师: 王春宇

    关键词: 致病基因预测,异构信息融合,紧凑特征学习

    来源: 哈尔滨工业大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,计算机软件及计算机应用

    单位: 哈尔滨工业大学

    基金: 国家自然科学基金重点项目(61532014):“基于网络模型的癌症相关模式挖掘理论与方法”,2016-2020

    分类号: Q811.4;TP311.13

    DOI: 10.27061/d.cnki.ghgdu.2019.001064

    总页数: 57

    文件大小: 2914K

    下载量: 89

    相关论文文献

    • [1].基于异构信息网络嵌入的专利技术主体间交易推荐模型[J]. 情报学报 2020(01)
    • [2].基于异构信息网络表征学习的推荐方法[J]. 现代计算机 2020(04)
    • [3].半监督元路径的异构信息网络社区发现算法[J]. 小型微型计算机系统 2020(06)
    • [4].异构信息网络推荐研究进展[J]. 情报科学 2020(06)
    • [5].异构信息空间中时间感知的查询时实体识别与数据融合[J]. 计算机科学 2017(03)
    • [6].异构信息空间中时间感知的跨类型实体推荐[J]. 计算机科学 2017(05)
    • [7].知识发现中异构信息标准化处理研究——以资源环境领域文献为例[J]. 图书情报工作 2016(06)
    • [8].多异构信息网络融合的在线学习资源推荐[J]. 实验室研究与探索 2020(09)
    • [9].异构信息网挖掘:概念、技术与未来[J]. 智能计算机与应用 2016(06)
    • [10].异构信息网络中基于图的半监督学习[J]. 小型微型计算机系统 2017(10)
    • [11].基于特征子图的异构信息网络节点相似性度量[J]. 电信科学 2014(11)
    • [12].异构信息网络的分类研究[J]. 计算机应用与软件 2014(06)
    • [13].一种基于概念逻辑树的异构信息结构化描述模型[J]. 通信技术 2019(11)
    • [14].一种基于嵌入技术的异构信息网络的快速聚类算法[J]. 电子与信息学报 2015(11)
    • [15].公安交通多源异构信息的采集技术分析[J]. 中国交通信息化 2014(03)
    • [16].在线交互空间异构信息的设计与实现[J]. 地理空间信息 2014(01)
    • [17].基于排名分布的异构信息网络协同聚类算法[J]. 小型微型计算机系统 2014(11)
    • [18].异构信息网络中基于元结构的协同过滤算法[J]. 计算机科学 2019(S1)
    • [19].嵌入技术的动态异构信息网络的演化聚类[J]. 哈尔滨工程大学学报 2015(05)
    • [20].基于查询—文档异构信息网络的半监督学习[J]. 通信学报 2014(08)
    • [21].异构信息知识挖掘与可视化分析系统架构模型解析[J]. 中国科技论坛 2012(10)
    • [22].基于异构信息网络的分类算法[J]. 计算机工程与设计 2019(02)
    • [23].异构信息网络概率模型研究及社区发现算法[J]. 现代计算机(专业版) 2016(04)
    • [24].云计算环境下异构信息的发现机制与管理方法研究[J]. 商场现代化 2011(23)
    • [25].基于异构信息融合的广告响应预测方法[J]. 中国科学:信息科学 2019(01)
    • [26].异构信息网上的可达性查询[J]. 计算机研究与发展 2016(02)
    • [27].一种融合异构信息网络和评分矩阵的推荐新算法[J]. 计算机研究与发展 2014(S2)
    • [28].融合异构信息的网络视频在线半监督分类方法[J]. 西安交通大学学报 2013(07)
    • [29].地质资料多元异构信息的统一化描述[J]. 中国矿业 2013(09)
    • [30].基于传播概率矩阵的异构信息网络表示学习[J]. 浙江大学学报(工学版) 2019(03)

    标签:;  ;  ;  

    基于异构信息融合的致病基因预测算法研究
    下载Doc文档

    猜你喜欢