基于有向无环图的层级多标签数据分类方法研究

基于有向无环图的层级多标签数据分类方法研究

论文摘要

多标签分类广泛应用于图像分类、信息处理、故障诊断、基因功能预测等领域。若样本的标签间符合预先定义的层级结构关系,则多标签分类问题变为更加复杂的层级多标签分类问题。有向无环图中的每个节点可以有多个父节点,针对树形图设计的相关算法并不适用。现有研究主要针对树形图,对求解有向无环图层级多标签分类问题的数学模型等理论分析工作研究不足。此外,层级结构的存在所导致的不平衡数据集问题会影响分类的效果。在当前研究中,针对有向无环图设计的算法较少、精度较低,无法满足应用需求。层级多标签分类问题的一个重要应用领域为基因功能预测领域,由于在该领域被广泛应用的Gene Ontology(GO)注释方案为有向无环图结构,基于此方案的基因功能预测问题可以转化为有向无环图层级多标签分类问题。因此,对有向无环图层级多标签分类问题进行研究,在提升分类问题的理论研究水平、加速基因功能验证和注释工作等方面都有重要意义,并且对解决其他领域的相关问题也有借鉴意义。本文的主要研究工作如下:首先,针对当前研究对有向无环图层级多标签分类问题的理论分析工作较少,对求解该问题的数学模型研究不足这一问题,本文基于贝叶斯决策理论,构建了一种求解有向无环图层级多标签分类问题的数学模型。为了构建这一数学模型,首先设计一个新的损失函数——DAGH损失函数,该损失函数将有向无环图层级结构的信息加以考虑,对层级多标签分类问题中父子节点可能发生的不同预测错误的情况进行区别对待。而后,本文利用DAGH损失函数给出了求解层级多标签分类问题的条件风险,并利用基于最小风险原则的贝叶斯决策原理,将求解层级多标签分类问题转化为条件风险最小化问题。最后,本文将优化问题进行进一步的数学推导和化简,构建了求解层级多标签分类问题的数学模型,并且给出了层级多标签分类问题的具体求解过程和主要步骤。本文提出的数学模型将复杂的有向无环图层级多标签分类问题转化为一组二元分类问题进行处理,可以为设计有向无环图层级多标签分类算法、求解有向无环图层级多标签分类问题提供理论基础。其次,针对在层级多标签分类问题中存在数据集不平衡问题,并且层级越深入,不平衡数据集问题越明显这一具体情况,提出了在利用本文所提出的数学模型对层级多标签分类问题进行求解时,有向无环图中各节点训练集的生成方法。在针对一个节点生成训练集时,首先采用改进的兄弟节点策略选择正负样本,生成原始训练集;该策略在构建训练集时考虑了层级结构的相关信息,可以在一定程度上缓解不平衡数据集现象。而后利用提出的基于聚类的混合采样方法——CHS方法对原始训练集进行处理,使之变成平衡的训练集。本文提出的方法可以在各节点生成平衡的训练集,可以有效缓解不平衡数据集问题对分类结果的影响。第三,针对当前适用于有向无环图结构层级多标签分类问题的算法较少、精度较低、无法满足应用需求的问题,基于本文构建的求解层级多标签分类问题的数学模型,提出了一种用于有向无环图结构的层级多标签分类算法——HMC-DAG算法。该算法采用本文所提出的训练集生成方法来构建各节点的训练集,可以有效地在数据层面缓解不平衡数据集问题。HMC-DAG算法对其使用的二元分类器没有特别要求,可以根据需求灵活地选择二元分类器,有效利用机器学习领域关于分类研究的最新成果。本文给出了选用支持向量机以及多层神经网络作为基础分类器的两种HMC-DAG算法实现方式,分别为HMC-DAG-SVM算法和HMC-DAG-MLP算法。在求解本文所提数学模型所描述的优化问题时,HMC-DAG算法中设计并添加了DAGLabel贪婪算法,DAGLabel贪婪算法可以在保证算法的分类结果满足层级约束要求的前提下,求得最优的分类结果。实验结果表明,本文提出的算法可以有效求解有向无环图层级多标签分类问题,与同类算法相比具有一定的精度优势。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  •   1.1 课题背景及研究的目的与意义
  •   1.2 层级多标签分类问题概述
  •   1.3 层级多标签分类方法研究现状
  •     1.3.1 局部分类方法研究现状
  •     1.3.2 全局分类方法研究现状
  •   1.4 本领域存在的问题
  •   1.5 论文主要研究内容与结构
  • 第2章 基于贝叶斯决策的有向无环图层级多标签分类数学建模
  •   2.1 引言
  •   2.2 分类问题的损失函数与风险函数概述
  •   2.3 用于分类问题建模的贝叶斯决策理论分析
  •     2.3.1 贝叶斯定理概述
  •     2.3.2 贝叶斯决策理论概述
  •     2.3.3 基于最小风险原则的贝叶斯决策原理
  •   2.4 有向无环图层级多标签分类数学建模过程
  •     2.4.1 有向无环图层级多标签分类问题的数学模型描述
  •     2.4.2 多标签分类问题中的损失函数
  •     2.4.3 针对有向无环图的层级损失函数设计
  •     2.4.4 条件风险的具体形式
  •     2.4.5 条件风险最小化问题的求解过程
  •   2.5 本章小结
  • 第3章 有向无环图层级多标签分类中不平衡数据集处理方法研究
  •   3.1 引言
  •   3.2 数据集预处理方法分析
  •     3.2.1 数据集缺失数据处理方法
  •     3.2.2 数据集异常数据检测方法
  •     3.2.3 特征的选择与提取方法
  •   3.3 有向无环图结构标签数据训练集生成方法
  •     3.3.1 层级多标签分类问题中数据集不平衡问题的特点
  •     3.3.2 层级结构中各节点数据训练集生成方法框架
  •     3.3.3 原始训练集正负样本选择策略
  •     3.3.4 基于聚类的混合采样方法
  •   3.4 实验及结果分析
  •     3.4.1 实验所用数据集描述
  •     3.4.2 评价指标
  •     3.4.3 实验方法设计
  •     3.4.4 结果与分析
  •   3.5 本章小结
  • 第4章 基于有向无环图的层级多标签分类算法研究
  •   4.1 引言
  •   4.2 有向无环图层级多标签分类算法设计
  •     4.2.1 算法的整体框架设计
  •     4.2.2 基础分类器设计
  •     4.2.3 DAGLabel算法设计
  •     4.2.4 算法复杂度分析
  •   4.3 实验及结果分析
  •     4.3.1 具体分类任务描述
  •     4.3.2 GO注释方案
  •     4.3.3 实验所用数据集描述
  •     4.3.4 评价指标
  •     4.3.5 实验方法设计
  •     4.3.6 结果与分析
  •   4.4 本章小结
  • 结论
  • 参考文献
  • 攻读博士学位期间发表的论文及其他成果
  • 致谢
  • 个人简历
  • 文章来源

    类型: 博士论文

    作者: 冯收

    导师: 付平

    关键词: 多标签分类,层级多标签分类,有向无环图,损失函数,层级约束

    来源: 哈尔滨工业大学

    年度: 2019

    分类: 基础科学

    专业: 数学

    单位: 哈尔滨工业大学

    分类号: O157.5

    DOI: 10.27061/d.cnki.ghgdu.2019.000089

    总页数: 141

    文件大小: 2028K

    下载量: 271

    相关论文文献

    • [1].有向无环图结构及边缘化研究[J]. 青岛大学学报(自然科学版) 2017(03)
    • [2].一种改进的有向无环图支持向量机分类算法[J]. 重庆交通大学学报(自然科学版) 2009(05)
    • [3].一种改进的有向无环图支持向量机[J]. 计算机工程与科学 2011(10)
    • [4].基于小波包分析和有向无环图支持向量机的电机故障诊断研究[J]. 煤矿机械 2009(10)
    • [5].面向工业互联网场景的新型分布式账本技术[J]. 情报工程 2018(03)
    • [6].基于有向无环图的互联网域内节能路由算法[J]. 计算机科学 2018(04)
    • [7].区域开放程度与企业技术创新能力的关系研究——基于有向无环图的实证分析[J]. 运筹与管理 2016(06)
    • [8].基于并行优先级任务树的多核调度方法研究[J]. 黑龙江科技信息 2015(30)
    • [9].多节点有向无环图优化算法[J]. 重庆理工大学学报(自然科学) 2011(12)
    • [10].利率双轨制下我国金融市场基准利率的选择研究——基于有向无环图的分析[J]. 当代财经 2012(07)
    • [11].网树求解有向无环图中具有长度约束的简单路径和最长路径问题[J]. 计算机学报 2012(10)
    • [12].有向无环图分层算法研究[J]. 华中师范大学学报(自然科学版) 2008(03)
    • [13].有向无环图决策支持向量机和经验模式分解在轴承故障诊断中的应用[J]. 装甲兵工程学院学报 2008(04)
    • [14].基于有向无环图相关向量机的捣固车滚动轴承故障诊断[J]. 化工自动化及仪表 2019(10)
    • [15].图论优化在工程中的应用[J]. 太原师范学院学报(自然科学版) 2008(02)
    • [16].兼顾费用与公平的带通信开销的多有向无环图调度[J]. 计算机应用 2015(11)
    • [17].基于优化有向无环图支持向量机的多变量过程均值异常识别[J]. 计算机集成制造系统 2013(03)
    • [18].基于有向无环图的时间—费用优化调度算法[J]. 衡阳师范学院学报 2010(03)
    • [19].基于并行DAGSVM的网络流量分类方法[J]. 计算机工程与设计 2018(02)
    • [20].一种基于有向无环图的电网事故分析模型研究[J]. 中国管理信息化 2019(09)
    • [21].一种基于频繁模式有向无环图的数据流频繁模式挖掘算法[J]. 燕山大学学报 2011(02)
    • [22].我国的财政赤字政策是有效的吗?——基于储蓄视角的有向无环图分析[J]. 财经问题研究 2011(12)
    • [23].基于基因本体的语义相似度研究[J]. 计算机工程 2010(20)
    • [24].基于Rough/SVM的飞机目标识别模型[J]. 飞机设计 2011(05)
    • [25].云计算环境下多有向无环图工作流的节能调度算法[J]. 计算机应用 2013(09)
    • [26].经济模式下基于有向无环图的优化调度算法设计[J]. 福建电脑 2011(07)
    • [27].角色访问控制中角色等级的实现[J]. 苏州市职业大学学报 2010(04)
    • [28].基于弹性分布数据集和有向无环图的潮流优化云计算系统设计研究[J]. 电力系统保护与控制 2019(23)
    • [29].投资集中、预期情绪与经济增长联动机制研究——基于有向无环图的分析[J]. 中国物价 2018(11)
    • [30].基于并行优先级任务树的多核调度方法研究[J]. 西北工业大学学报 2012(05)

    标签:;  ;  ;  ;  ;  

    基于有向无环图的层级多标签数据分类方法研究
    下载Doc文档

    猜你喜欢