基于高阶路径相似度网络的融合模型及多组学数据整合分析方法

基于高阶路径相似度网络的融合模型及多组学数据整合分析方法

论文摘要

近年来,随着高通量测序技术的发展,积累了海量的同一批样本的多组学数据,包括基因组学、表观遗传学、转录组学等。对于这些组学数据的深入整合分析能够从多个分子层面对疾病(尤其是肿瘤)进行结构化地观测和描述,从而实现患者全面的分子分型,促进精准医学的发展,在生物标志物发现方面也有广阔的应用前景。然而现有的多组学整合方法受限于组学数据之间高度不平衡的数据维度和尺度差异,以及生物信息数据在测量过程中产生的高噪音,难以准确评估各个数据源的关联关系和重要程度。因此,本文主要提出了一种创新的多组学数据整合方法,基于高阶路径的相似度网络融合模型(HOPES)。HOPES方法为每个不同组学数据都构造一个相似度网络,并且根据递增的连通路径模式逐步将所有的局部相似度网络融合成一个全局相似度网络。递增的连通路径模式主要是逐渐增强各个组学来源之间的一致性约束,层次递进的增量目标能够同时将单一数据源的特异性和多个数据源之间的共性列入考虑。HOPES得到的全局相似度矩阵为样本之间的关联关系提供了多维度的视角,矫正了单一数据源中的信息缺失和错误,能够精准地进行聚类。同时,针对全局相似度矩阵的下游分析,本文采用了基于谱聚类的一致性聚类算法,以及基于l1正则化回归的特征选择方法将全局的相似度矩阵回溯到原始的组学特征。HOPES的效果在模拟数据集和TCGA的5个真实癌症项目数据上都得到了充分地验证。模拟数据集中,HOPES在与多个主流方法的对比中实现了最高的聚类精度和稳定性,表明其在多组学数据中挖掘全局聚类结构的能力较强,同时具有良好的鲁棒性。真实数据集中HOPES不仅成功将患者划分成了生存情况具有显著差异的不同分型,并且基于HOPES计算的全局相似度,本文定位了一系列基因、甲基化位点、miRNA位点。这些备选的生物特征不仅具有极高的预后价值,而且在GO富集分析和KEGG通路分析中显著富集于癌症相关的生物过程,验证了其生物学上的意义。综上所述,本文所提出的HOPES方法能够结合多个组学来源的信息,精准稳定地实现全局结构的学习,且在癌症相关的临床任务上有着优异的表现,不仅有望实现癌症精准的分子分型,同时为潜在生物标志物的定位提供了全新的思路。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  •   1.1 课题的研究背景及意义
  •   1.2 国内外研究现状
  •   1.3 主要研究内容和贡献
  •   1.4 论文的组织结构
  • 第二章 相关工作
  •   2.1 多组学数据
  •     2.1.1 多组学数据简介
  •     2.1.2 多组学数据来源
  •   2.2 多组学整合代表性算法
  •     2.2.1 iCluster+
  •     2.2.2 Clusternomics
  •     2.2.3 SNF
  •   2.3 基于整合后的全局相似度矩阵分析算法
  •     2.3.1 聚类方法
  •     2.3.2 多集群特征选择(MCFS)
  •   2.4 本章小结
  • 第三章 基于高阶路径的相似度网络融合模型
  •   3.1 模型构建
  •     3.1.1 相似度网络构建
  •     3.1.2 基于高阶路径的相似度网络融合
  •   3.2 模型求解
  •     3.2.1 一致性交替方向乘子法(Consensus ADMM)
  •     3.2.2 求解过程
  •   3.3 参数选择
  •   3.4 复杂度分析
  •   3.5 本章小结
  • 第四章 实验与结果分析
  •   4.1 实验数据与预处理
  •     4.1.1 模拟数据
  •     4.1.2 真实数据
  •     4.1.3 数据预处理
  •   4.2 模拟实验及结果分析
  •     4.2.1 实验设置
  •     4.2.2 模拟实验结果分析
  •   4.3 真实实验及结果分析
  •     4.3.1 癌症诊断实验结果
  •     4.3.2 癌症分型实验结果
  •     4.3.3 生物功能验证结果
  •   4.4 本章小结
  • 第五章 总结与展望
  •   5.1 总结
  •   5.2 展望
  • 参考文献
  • 攻读硕士学位期间取得的研究成果
  • 致谢
  • 附件
  • 文章来源

    类型: 硕士论文

    作者: 徐傲丹

    导师: 蔡宏民

    关键词: 组学数据,高阶相似度,网络融合,凸优化

    来源: 华南理工大学

    年度: 2019

    分类: 基础科学,医药卫生科技

    专业: 数学,肿瘤学

    单位: 华南理工大学

    分类号: R730.2;O157.5

    DOI: 10.27151/d.cnki.ghnlu.2019.003726

    总页数: 78

    文件大小: 5562K

    下载量: 112

    相关论文文献

    • [1].基于曲线相似度的飞行着陆操作评价方法[J]. 交通信息与安全 2019(06)
    • [2].基于域间相似度序数的迁移学习源领域的选择[J]. 科学技术与工程 2020(20)
    • [3].一种图文组合相似度算法的设计与优化[J]. 软件工程 2020(08)
    • [4].基于超网络的微博相似度及其在微博舆情主题发现中的应用[J]. 图书情报工作 2020(11)
    • [5].说之以理[J]. 人力资源 2020(21)
    • [6].一种双层的微博用户相似度算法[J]. 情报杂志 2018(06)
    • [7].基于情景的结构化突发事件相似度研究[J]. 中国管理科学 2017(01)
    • [8].基于混合相似度的协同过滤推荐[J]. 软件导刊 2017(02)
    • [9].基于干扰相似度的多话题演化模型[J]. 电信科学 2017(09)
    • [10].软件相似度在成本估算中的应用[J]. 计算机应用与软件 2015(06)
    • [11].一种基于函数依赖的属性相似度调整算法[J]. 上海交通大学学报 2015(08)
    • [12].河马找亲戚[J]. 学生之友(童花果) 2016(12)
    • [13].十个中文流行语翻译[J]. 初中生辅导 2016(36)
    • [14].母爱[J]. 少年月刊 2017(05)
    • [15].基于多种测度的术语相似度集成计算研究[J]. 情报学报 2013(06)
    • [16].基于余弦相似度分类负荷预测[J]. 电力设备管理 2020(09)
    • [17].基于多尺度相似度特征的答案选择算法[J]. 系统工程与电子技术 2018(06)
    • [18].基于服务相似度的移动用户近似邻居选取方法[J]. 计算机工程 2018(05)
    • [19].基于文本属性的微博用户相似度研究[J]. 计算机技术与发展 2018(05)
    • [20].基于属性相似度的碎多边形自动聚合处理[J]. 测绘与空间地理信息 2013(11)
    • [21].基于共同邻居相似度的社区发现算法[J]. 信息系统工程 2014(05)
    • [22].色谱指纹图谱相似度方法的适应性研究[J]. 中国中医药信息杂志 2012(05)
    • [23].基于向量空间模型附加词义特征的句子相似度研究[J]. 成都信息工程学院学报 2012(03)
    • [24].中国-东盟自贸区二周年的比较研究——基于出口相似度与显性比较优势的分析[J]. 安徽行政学院学报 2012(03)
    • [25].色谱指纹图谱相似度方法的研究进展[J]. 中国实验方剂学杂志 2011(02)
    • [26].基于元相似度的推荐算法[J]. 计算机应用研究 2011(10)
    • [27].互信息启发的相似度组合图像检索算法[J]. 中国图象图形学报 2011(10)
    • [28].相似度法在综合分析投资环境中的应用[J]. 统计与决策 2009(15)
    • [29].一种改进相似度的协同过滤算法实现[J]. 电子科技 2020(02)
    • [30].基于曲线相似度的步态识别研究[J]. 中国新技术新产品 2020(07)

    标签:;  ;  ;  ;  

    基于高阶路径相似度网络的融合模型及多组学数据整合分析方法
    下载Doc文档

    猜你喜欢