论文摘要
随着科技的发展和大数据时代的来临,聚类作为一种典型的无监督机器学习方法近年来受到了众多研究者和工程技术人员关注。从数据所含视角数量的角度可将现有聚类方法简单地分为单视角聚类和多视角聚类两个类别。基于图嵌入的聚类方法是聚类领域的主流方法之一,虽然近几十年学者们提出了众多基于图嵌入的单视角聚类和多视角聚类方法,但是这些方法仍然存在一些缺陷。例如现有基于图嵌入的单视角聚类方法主要存在以下缺陷:1)普遍无法得到捕获数据内在结构的仿射图;2)对噪声鲁棒性弱,在噪声数据中聚类性能显著下降。现有多视角聚类方法,特别是基于图嵌入的多视角聚类方法,由于模型设计上的缺陷大多无法处理视角缺失情形下的多视角聚类任务。本文主要研究基于图嵌入的聚类方法,旨在提出更为鲁棒和灵活的图嵌入聚类模型来解决上述缺陷并提高聚类性能。具体地,本文主要提出了如下聚类方法:(1)针对传统图嵌入方法无法捕获数据内在结构的问题,提出了一种基于低秩表示和自适应图正则的仿射图学习方法。该方法在低秩表示框架中引入基于距离的正则项和非负图约束项,从而能够充分地利用数据的全局表示信息和局部距离信息来指导仿射图的构建;为了确保所得到的仿射图具有精确的连通分量,该方法还在模型中引入了拉普拉斯图的秩约束。通过将以上这些约束和低秩表示融入到一个联合优化框架,该方法能够自适应地从数据中学习到捕获数据内在结构关系的仿射图,进而得到更好的聚类结果。在仿真数据集和真实数据集上的实验结果验证了该方法的有效性。(2)针对现有基于图嵌入的单视角聚类方法大多对噪声鲁棒性弱的问题,提出了一种基于自适应加权非负低秩表示的鲁棒仿射图学习方法。通过对现有基于表示的仿射图学习方法进行分析,发现这些方法在仿射图学习的过程中同等地对待所有特征,使得噪声或离群点干扰甚至主导了自表示仿射图的学习。基于此发现,该方法在自表示的仿射图学习模型中引入加权矩阵约束,使得模型能够自适应地增强重要特征在表示中的贡献,同时削弱噪声的不利影响,进而提高对噪声的鲁棒性;此外,该方法还引入了局部距离约束和非负图约束,不仅使得模型能够同时充分地利用数据的局部和全局信息来指导仿射图的构建,而且还能提高仿射图的解释性。在多组噪声污染下的仿真数据集以及真实数据集上与多种聚类算法进行对比,实验结果表明所提出的算法不仅能够获得更好的聚类效果,而且提高了对噪声的的鲁棒性。(3)针对多视角数据中存在视角缺失的问题,提出了一种基于图嵌入的不完备多视角聚类方法。该方法基于低秩表示模型从现有的未缺失的样例中自适应地学习各个视角的仿射图,并利用矩阵初等变换技术将这些图扩充到同样的维度;为了得到多个视角间一致性的低维表征,该方法还引入了谱聚类约束和协同正则约束。通过对模型的联合优化,该方法能够有效地削弱视角缺失所引起的负面影响,同时充分地利用多视角间的多样化信息和互补性信息来指导一致表征的学习,从而得到更好的聚类效果。在多个不完备数据集上的对比实验验证了该方法在不完备多视角聚类任务上的有效性。(4)现有不完备多视角聚类方法普遍存在如下两个制约性能的缺陷:1)忽略了视角鉴别信息的不平衡性;2)没有充分地利用多个视角间的互补信息。为了克服以上两个缺陷以及提高聚类性能,针对性地提出了一种基于图嵌入和视角推理的不完备多视角聚类方法。该方法在矩阵分解模型中引入基于特征近邻的拉普拉斯约束来恢复缺失的视角信息,这不仅使得多个视角能够自然地对齐,便于模型更好地利用多视角的互补信息,而且有利于使用恢复的缺失视角信息来指导模型的训练;为了挖掘数据的局部信息,该方法引入了反转图约束项,该项的引入还有利于得到更合理的缺失视角;考虑到不同的视角可能含有不同程度的鉴别信息,该方法引入自适应的视角加权项来平衡各视角在模型训练中的作用,从而更充分地利用多视角的多样性信息。在特殊视角缺失和视角任意缺失两种条件下的不完备多视角聚类实验对比结果表明所提出的方法能够有效地提高聚类性能。综上所述,本文针对现有基于图嵌入的聚类方法存在的缺陷提出了多种更为鲁棒和灵活的图嵌入聚类模型,并从理论角度深入地分析了所提出的聚类模型的合理性,在多个数据集上与多种性能优异的聚类方法的实验对比结果验证了本文所提出的聚类模型的有效性。
论文目录
文章来源
类型: 博士论文
作者: 文杰
导师: 徐勇
关键词: 多视角聚类,图学习,视角缺失,图嵌入,低秩表示,无监督学习
来源: 哈尔滨工业大学
年度: 2019
分类: 基础科学
专业: 数学
单位: 哈尔滨工业大学
分类号: O157.5
DOI: 10.27061/d.cnki.ghgdu.2019.000303
总页数: 133
文件大小: 7797K
下载量: 236
相关论文文献
- [1].基于高斯混合聚类模型的汽轮机运行状态预警[J]. 内蒙古电力技术 2020(04)
- [2].基于改进文化算法的聚类模型研究[J]. 科技通报 2014(11)
- [3].基于指标信息量的灰色可能度聚类模型研究[J]. 数学的实践与认识 2020(14)
- [4].基于广义城熵聚类模型的城市节点分类方法[J]. 山东交通学院学报 2014(03)
- [5].对称和非对称词语聚类模型的比较研究[J]. 计算机工程 2009(10)
- [6].灰色定权聚类模型在知信行评价中的运用[J]. 管理观察 2020(06)
- [7].模糊聚类模型及其在国际市场划分中的应用研究[J]. 地理科学 2010(03)
- [8].投影寻踪动态聚类模型及其应用[J]. 哈尔滨工业大学学报 2009(01)
- [9].两种聚类模型在城市垃圾清运路径规划中的应用[J]. 湖北工程学院学报 2015(03)
- [10].基于熵权的模糊聚类模型在洪水分类中的应用[J]. 华北水利水电学院学报 2009(04)
- [11].一种基于特征的协同聚类模型[J]. 计算机研究与发展 2018(07)
- [12].基于多层自适应聚类模型的密集人群分群检测算法[J]. 上海电力学院学报 2017(01)
- [13].面向专题检测的主题与社群联合聚类模型[J]. 指挥信息系统与技术 2017(04)
- [14].模糊修正聚类模型在边坡稳定性预测中的应用研究[J]. 中华建设 2008(08)
- [15].一种基于MapReduce的并行聚类模型[J]. 计算机与现代化 2014(01)
- [16].基于动态聚类模型的重金属水环境健康指标评价研究——以辽宁北部河流为例[J]. 水利技术监督 2018(02)
- [17].模糊聚类模型在昌平区耕地质量评价中的应用[J]. 国土资源遥感 2015(04)
- [18].基于拓展聚类模型的区域创新能力层级划分研究[J]. 经济经纬 2014(01)
- [19].基于灰色定权聚类模型的罗非鱼国内市场潜力分析[J]. 中国渔业经济 2014(02)
- [20].低压台区变压器用电数据聚类模型研究[J]. 天津职业技术师范大学学报 2019(04)
- [21].中国创新能力区域差异的静态与动态分析—基于拓展聚类模型层级划分的角度[J]. 数理统计与管理 2014(05)
- [22].基于灰关联谱聚类模型的福建省暴雨灾害评价研究[J]. 安徽农业科学 2012(15)
- [23].基于统计的聚类模型构建研究[J]. 统计与决策 2015(17)
- [24].灰色定权聚类模型在主导产业选择中的应用——以重庆市工业主导产业选择为例[J]. 价值工程 2014(26)
- [25].基于双聚类模型的协同过滤推荐引擎设计[J]. 电脑编程技巧与维护 2013(02)
- [26].一种面向用户行为的Web聚类模型[J]. 信息与电脑(理论版) 2009(14)
- [27].一种基于信任度的电子商务社区聚类模型[J]. 山东大学学报(理学版) 2015(05)
- [28].Spark框架下聚类模型在网络流量异常检测中的应用[J]. 网络安全技术与应用 2017(05)
- [29].基于双层聚类模型的逆向运动方法[J]. 计算机与数字工程 2014(03)
- [30].基于加权直觉模糊集合的聚类模型[J]. 计算机应用 2012(04)