聚类有效性分析论文_温鹏

导读:本文包含了聚类有效性分析论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:算法,有效性,指标,模糊,数据,产状,均值。

聚类有效性分析论文文献综述

温鹏[1](2019)在《聚类分析中的改进K-means算法和新聚类有效性指标的研究》一文中研究指出聚类分析是自主的发现数据集中的自然结构,并根据数据间的规律将数据集划分成若干个聚簇的重要工具。作为“无监督学习”的方法,聚类分析己经被广泛应用在数据挖掘,模式识别,图像处理等领域。聚类分析主要分为对聚类算法和聚类有效性指标(CVI)的研究。但是,面对大数据时代,现有的聚类算法和聚类有效性指标都存在若干问题,包括:算法的效率较低、聚类结果的准确性较差、对噪声点较为敏感和无法高效正确地处理大规模数据集等问题。针对上述问题,本文聚焦于对K-means算法的改进,同时提出了新的适用于大数据的聚类有效性指标(BCVI)。本文的主要工作如下:(1)针对传统的K-means算法应对大规模数据集时效率较低的问题,本文将网格算法中划分网格的思想引入K-means算法提高算法效率,提出了改进算法Grid-K-means;同时,本文利用网格算法中的网格密度解决了K-means算法无法确定初始聚类中心的问题;为了规避网格算法划分网格需要设置过多参数的问题,本文利用动态网格的操作代替数据点的操作来提高改进的Grid-K-means算法的效率和准确率,并减少聚类算法需要手动设置初始参数的数量。改进的Grid-K-means算法具有更好的稳定性、准确性和鲁棒性。(2)本文提出新的适用于大规模数据集的聚类有效性指标BCVI。BCVI指标利用加权网格作为多个代表点来处理各种形状的聚簇,避免了所有样本点参与计算带来的计算量过大的问题。同时,多个代表点较单个代表点可以更好地评估聚类结果的质量。最后,利用各个聚类中心构建的最小生成树和最大生成树的组合确定聚簇之间的分离性。各个聚类中心之间的最大生成树的加入可以更好的评估聚簇间的分离程度,同时可以平衡聚簇内部紧致性数据上的差异,保证BCV1指标有更稳定的评估效果。(3)BCVI指标由簇内紧致性和簇间分离性的线性组合构成,通过分析BCVI指标特性可以发现BCVI指标具有的单调性特性可以快速地确定最佳聚类数(Kop邮)。BCVI在寻找最佳聚类数(Kopt)方面花费的时间成本远低于利用经验规则2 ≤ K ≤(?)的常用方法。通过该方法,BCVI可以快速确定最佳聚类数KKpt,特别是对于大规模数据集。(4)利用模拟数据集和真实数据集对本文提出的改进算法Grid-K-means和新的聚类有效性指标BCVI进行测试。实验证明,Grid-K-means算法比传统的K-means算法、K-medoids算法、K-means++算法和改进的K-means算法更快,更准确。同时,BCVI指标与其他7种现有指标(DI指标、DBI指标、I指标、CH指标、COP指标、STR指标、VCVI指标)的对比实验结果表明,新的BCVI指标在数据处理速度和稳定性方面优于传统指标。(本文来源于《安徽大学》期刊2019-03-01)

王雪[2](2019)在《聚类分析中面向重迭数据集的新型聚类有效性指标的研究》一文中研究指出聚类分析在许多科学领域发挥着重要作用,聚类算法和聚类验证是聚类分析的两个基本要素。在聚类分析之前,聚簇的数量是聚类算法的基本参数。在聚类分析之后,对聚类结果的有效性进行评估。而在整个过程中最佳聚类数的合理选择对形成正确的聚类结果有着十分重要的影响。然而,聚类分析属于无监督学习方法,这一特性使其在应用中很难获取具体数据集的最佳聚类数。作为一种度量聚类性能和确定聚类数的有效方法,聚类有效性指标在聚类分析的过程中就显得尤为重要。本文主要工作是在改进的聚类算法的同时对聚类有效性指标进行研究,并在此基础上针对一些不足之处提出了新的聚类有效性指标。新算法和新指标都比较适合处理重迭数据,改进了之前一些指标和算法对重迭数据无法处理的不足。具体工作内容如下:(1)本文主要对不同类型的聚类算法进行了研究和分析并提出了一种新的聚类算法。本文共对其中12种聚类算法进行了分析。基于对12种不同类别聚类算法的研究,总结了不同类别的算法都存在各自的优点和缺陷。着重对K-means算法进行了介绍,因为新算法是利用网格划分方法对K-means算法做出的改进。新算法不仅克服了K-means算法的缺陷还可以有效的处理重迭数据集。(2)文章中着重对13种聚类有效性指标进行研究,这13种指标被分为两类进行讨论分析。通过分析以及结合大量的相关文献总结可知无论是外部有效性指标还是内部有效性指标对于数据结构的多样性以及重迭度方面都存在不足。(3)本文主要提出一种新的聚类有效性指标,新指标是一种适用于重迭数据的指标——WCH指标。新的聚类有效性指标是由聚簇内紧密度、聚簇间分离度以及聚簇间重迭度叁部分构成的。新指标的提出不仅考虑到了大部分指标考虑到的聚簇内紧密度和聚簇间分离度的问题还在此基础之上加入了数据重迭度对聚类结果判断的因素。本文并用数学方法分类讨论、归纳总结将数据重迭度表示出来。(4)本文针对新指标性能的检测做了大量的对比实验。从众多指标中选择了比较经典的有代表性的指标DI指标,DBI指标,I指标和COP指标与新的聚类有效性指标基于新聚类算法对不同类型数据集的聚类结果的判断做了对比试验。其中,这些不同类型的数据集其中包括5个模拟数据集和3个真实数据集,有着不同的维数,不同的空间分布,不同的重迭度和不同的规模等。用这些对比实验证明新指标的优越性。大量对比实验的结果表明:新的聚类有效性指标——WCH指标能够对不同维数,不同规模,不同形状等不同的数据集特别是不同重迭度的数据集的聚类结果做出高效准确的判断。(本文来源于《安徽大学》期刊2019-03-01)

高云霞,李涛[3](2018)在《基于模糊聚类分析的超致密裂缝储层有效性识别》一文中研究指出对于双重介质储集类型地层,采用测井相结合储层参数的分类评价方法,确立了从储层、流体、裂缝逐级分类评价的新思路,与传统方法相比,它的显着特点是建立在非线性数学理论基础上,不仅考虑了对象量值的大小,而且充分兼顾了与对象的关系,弥补了仅仅依靠孔渗进行分类的不足。通过对微观地质、测井、动态测试的综合分析建立了基于储层物性优劣、流体性质、裂缝发育的叁级测井判别模型;在此基础上结合录井、试油、地质等资料再对各级模型进行分类评价,最终建立了基于概率组合的有效储层判别模型,对工区内的井进行了逐点数字处理和综合解释,与已有的测试结果对比吻合较好,证明利用多参数信息建立的分级分类综合评价方法为解决须二储层的多解性、不确定性提供了切实有效的技术方法。(本文来源于《中国石油和化工标准与质量》期刊2018年06期)

李朋[4](2018)在《聚类分析中新聚类有效性指标的研究》一文中研究指出在数据挖掘领域,聚类分析是对数据进行处理的重要工具,它在图像处理、电子商务、生物学、地理信息等领域有着广泛的应用。聚类隶属于无监督机器学习,因此,在训练样本标记信息未知的情况下,可以利用聚类算法将训练数据集划分成K个类簇。但是,大多数聚类算法都存在着一个致命的缺点:最佳聚类数Kopt无法预先确定,Kopt是聚类算法有效聚类的前提,而聚类属于无监督学习,所以,如何度量聚类算法对数据集聚类划分的结果,以及确定数据集的最佳聚类数Kopt都将具有很大难度和挑战。目前,聚类有效性指标(CVI)是解决上述问题的重要工具,本文也从不同的角度提出了两个新的CVI。针对新提出的两个CVI,本文做了如下几个方面的工作:1.针对传统的K-means算法聚类结果不稳定的问题,本文提出了基于密度参数选择初始聚类中心点的K-means算法。利用方差能够衡量数据集中样本点间的离散程度这一统计学特性,提出了新聚类有效性指标(简称:VCVI指标)。本文通过将新聚类有效性指标VCVI与空间分形几何知识相结合,对经验规则Kmax≤(?)的合理性进行了推理说明。2.将基于密度参数选择初始聚类中心点的K-means算法与新聚类有效性指标VCVI相结合,提出了基于VCVI的K值优化与确定算法。对于一些数据量规模较大的数据集,VCVI指标与一些常用的CVI相比,VCVI指标的聚类度量效果更好,并且求解最佳聚类数Kopt的效率更高。3.针对一些非球状分布,不同簇之间样本个数与密度差异较大,以及样本空间分布比较复杂的数据集,VCVI指标是无法对它们的聚类划分结果进行较好的性能度量,因此,本文又利用了最小生成树和欧式几何相关知识,提出了新的聚类有效性指标(简称:MSTI指标)。4.将Average-Linkage层次聚类算法与MSTI指标相结合,本文又提出了基于MSTI指标的Kopt值确定算法,对于一些非球状分布以及簇与簇之间样本个数与密度差异较大的数据集,与VCVI指标以及其它聚类有效性指标相比,MSTI指标具有更好的聚类划分度量性能。实验结果表明,本文提出的两个新CVI具有很好稳定性、健壮性,以及较好的聚类划分度量性能。(本文来源于《安徽大学》期刊2018-03-01)

杨杰[5](2017)在《岩体结构面的优势产状模糊聚类分析及其有效性研究》一文中研究指出岩体是包含岩石和岩体内部的结构面的综合体。在实际的岩体内部往往充斥着许多结构面,由于结构面的存在使得岩体的强度、稳定性和抗渗性能都远远小于完整岩石。通过统计学分析并对结构面进行优势分组是建立岩体叁维网络模型和对岩体的工程特性进行科学评估的基础工作和重要内容。因此,对岩体结构面的分布进行研究,提取出结构面的优势方位以进行岩体工程研究与分析具有非常重要的工程意义。传统的优势分组方法是采用倾向玫瑰花图或极点等密图等方法,但是这种方法带有很强主观性,只能得到定性的分组结果。本文通过建立结构面的数学模型,采用模糊C均值算法(FCM)构造目标函数,对结构面数据进行定量的分组。本文研究了一种基于结构面优势组划分的萤火虫模糊聚类方法(FFCM),并且编制了相应的程序以实现结构面优势组的自动划分。基于模糊决策理论对模糊加权指数m进行优选;针对结构面数据集中的噪声数据进行了研究,基于可能性理论得到了一种结构面数据集中噪声数据的处理方法;引入了一种元启发式智能算法——萤火虫算法(FA)来搜寻最优结果,并对FA算法的相关参数进行了优选;对聚类算法的有效性指标进行了研究,采用双有效性指标来共同对聚类的有效性进行评价;采用蒙特卡洛模拟的结构面数据对本文的分组方法进行了系统的验证,并将该方法应用于野外实测结构面数据中并对分组结果进行分析。最终结果表明,本文的结构面优势分组方法可以有效解决传统方法需要提前指定分组数目、对初始值和噪声数据敏感等缺陷,得到的划分结果更加精确和符合实际情况。(本文来源于《哈尔滨工业大学》期刊2017-06-01)

王建培[6](2017)在《聚类有效性分析及其在电学层析成像中的应用》一文中研究指出聚类分析是探索性数据挖掘的主要任务,也是非监督学习的重要内容。聚类分析的任务是将相似的模式归为一类,不相似的模式分离开,从而发现有意义的模式,并用于分析与决策。本文的研究内容包括数据约简、聚类有效性指标的设计和聚类分析在电学层析成像中的应用这叁个方面。1、基于格的聚类算法的数据约简方法。在样例约简框架下,提出一种无监督且有效的数据约简方法以揭示数据集的主要特征。通过快速网格聚类算法定义数据的绝对密度和局部密度,并用绝对密度和局部密度的乘积作为约简重要度的测度,利用重要度和约简比例完成数据约简。其中,所定义的绝对密度类似于其他许多聚类算法中的密度测度,但其由一种更快的无监督的方式进行估计。局部密度解决了绝对密度不能抽取数据局部聚类结构的问题。利用代表不同数据分布的人工数据集和真实数据集从聚类精度,运行时间和类间可分离性进行实验验证,同时与典型的特征约简方法进行比较。实验结果证明该方法能够快速地约简数据集样例数并提取数据的重要特征,同时抑制噪声数据和提高类间分离性,使有效性指标能有效地确定最佳类数。2、基于对偶中心的聚类有效性指标基于最常用的C均值聚类算法、模糊C均值聚类算法和它们的变体,提出一种代表类之间分离性的对偶中心测度,并根据定义的对偶中心测度,提出一个新的有效性指标来评价划分式聚类算法的聚类性能。在有代表性的人工数据集和UCI数据集上验证了有效性指标的准确性和泛化能力,实验结果表明提出的有效性指标比现存的一些经典的有效性指标性能优越。3、基于快速模糊聚类算法的重建图像质量评价方法实际应用场景中,被测物场的分布是未知的,需要一种无监督的图像质量评价方法,因此,提出了一种基于快速模糊聚类算法的重建图像质量评价方法。利用快速模糊聚类算法对Tikhonov正则化算法和共轭梯度算法的成像结果进行图像分割,分别找出目标和背景所对应的代表灰度值,计算各类的像素与其代表灰度值的偏差,通过偏差变化曲线的最小值确定正则化参数或迭代次数,进而进行图像质量评价。实验结果表明,所提评价方法与常用的图像相对误差法和相关系数法所得的结果是一致的,且是无监督的,运行速度快,鲁棒性好。(本文来源于《天津大学》期刊2017-05-01)

于晓,李晨,王亚茹[7](2017)在《基于数据约减的聚类有效性分析》一文中研究指出聚类分析中利用有效性指标判断数据集的正确类数极易受到噪声数据、类之间分离性以及聚类算法的影响,所确定类数的正确性难以得到保证。为克服这个问题,以文献[1]中的数据约减方法为基础,对原数据集和约减后的数据集利用有效性指标进行正确类数判别。实验表明:该方法能增大类之间的分离性,有效判断数据集的最优类数。(本文来源于《传感器与微系统》期刊2017年03期)

于晓[8](2016)在《数据约减方法研究及聚类有效性分析》一文中研究指出随着人工智能、信息技术的不断进步,各行的数据量不断涌现:基因数据、医疗数据、金融数据等等,人类正在进入数据化的时代。面对大量数据,如何去除噪声、冗余数据,挖掘出隐藏在其中有价值的信息是大数据时代所要解决的主要问题之一。数据约减技术正是解决这一问题的有利工具。目前的数据约减技术主要集中在特征约减上,对数据集中样本约减研究甚少,针对现有状况,论文对数据中样本约减技术进行了研究,并在此基础上针对聚类领域的有效性问题进行了探讨、分析。数据约减的主要目的就是将数据集中不重要的信息去除,使剩余后的数据更加有利于分析。文中针对数据集分布的一般规律特性,提出了两种数据约减方法:基于网格的数据约减方法、基于向量角的数据约减方法。基于网格方法中通过划分数据空间,定义数据点的绝对密度及相对密度,达到数据约减的目的。基于向量角方法中通过确定每个数据点的平均向量角大小,区分数据集中的核心、边界对象,逐步将边界对象删除,保留数据集的重要信息数据。对人工数据集及UCI数据集分别采用所提算法进行试验验证,结果显示所提出的算法能有效地去除数据集中的冗余数据点,使数据集的结构信息更加明显。数据挖掘中聚类技术由于特有的无监督特性,使得该分析方法在处理海量信息时得到了广泛的应用。但聚类领域中的有效性问题一直是研究的热点问题。聚类分析中利用有效性指标判断数据集的正确类数极易受到噪声数据、类之间分离性及聚类算法的影响,所确定的类数难以保证。文中以数据约减为基础,对约减前后的数据集从聚类准确率、最佳类数确定等方面进行分析,实验表明约减后的数据集中类间分离性增大,且约减后的数据集具有更高的聚类准确性,所确定的最优类数更接近数据集本身的类数。(本文来源于《天津大学》期刊2016-11-01)

侯双双[9](2016)在《聚类有效性指标的研究与对比分析》一文中研究指出聚类是数据挖掘的重要研究方法,聚类效果的合理性与聚类个数的事先确定有很大的关系,有效性指标可以帮助人们合理确定最佳聚类个数。本文在对比分析现有经典有效性指标的基础上,提出了一种新的基于隶属比的聚类有效性指标,并实验验证了新指标的可行性。本文首先对聚类分析的理论知识进行了细致学习研究。学习了一些常用的聚类算法并分析其对应优缺点,鉴于模糊C均值(FCM)聚类算法是大多数有效性指标的基本算法,本文重点学习研究了其基本原理和算法步骤并分析其算法性能。其次,对聚类有效性问题进行学习研究,学习了有效性问题的相关理论知识,实验论证聚类个数的事先确定对聚类效果的重要性,深入研究了几种现有典型聚类有效性指标的基本原理,为下文新指标的提出奠定基础。针对模糊聚类需要预知最佳聚类个数的问题,本文提出了一种新的基于隶属比的聚类有效性指标V_(new)。首先根据经典有效性指标的设计思路,充分考虑数据集合的隶属度矩阵特征和数据集几何空间结构,通过重新定义类内距和类间距的方式,推导出基本的有效性指标;其次,定义隶属比的概念,放大基本有效性指标的计算值;最后,为了避免隶属比对有效性指标造成过分单调的影响而失去判定意义,引入分类个数c进行抑制。理论分析和仿真实验表明,通过对相同数据集进行分析处理,与对比典型有效性指标相比,新指标V_(new)具有更高的准确率和可靠性,在类间有重迭数据的情况下也能够做出正确的判断,具有一定的推广价值。(本文来源于《中国石油大学(华东)》期刊2016-06-01)

吕伟国[10](2015)在《基于高维数据聚类分析方法的有效性研究》一文中研究指出在机器学习中的聚类技术被人们看作是非常有研究价值的内容,在金融中的诈骗、医疗中的诊断、图像中的研究、信息中的搜索以及生物中的信息学等很多方面都受到了关注和研究。现如今,针对聚类技术的有关的算法被给出和实践应用。随着科技的进步,数据也随之越来越多,同时也呈现出了复杂的结构特性,比如多维性、不均匀性、冗余性等等多种结构。由于数据的形式影响着聚类的效果,故随着数据的不同特性的出现,随之也就出现了很多的聚类算法,但是没有万能的聚类算法。所以针对当今数据的特性寻求有效的聚类算法是一个必要的研究的内容。本文研究的是多类型结构的数据,探求出有效的聚类算法。本文的主要研究主要内容是:1、针对分类型数据的特点提出了一种新的属性加权聚类算法,并将其应用于聚类过程中形成新的聚类优化问题。2、提出一种面向高维数据的属性双加权优化聚类算法,通过标准化的形式得出算法中的矩阵的划分、类的中心集以及属性的权值在实现的过程中的规则,进而实现了最优解的获得。证明了该算法的收敛性。3、通过利用UCI中的高维分类型数据进行仿真,验证算法的有效性和时间复杂度。实验体现出文本提出的算法不仅继承Chan等人提出算法的简便性,同时又解决了针对分类型数据加权失效的问题。本文的研究可以改善算法对分类型数据失效的难题,为生物中产生的数据、来自Web端的数据、客户交易中产生的数据等多方面给予了技术方面的支持。(本文来源于《哈尔滨工程大学》期刊2015-12-01)

聚类有效性分析论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

聚类分析在许多科学领域发挥着重要作用,聚类算法和聚类验证是聚类分析的两个基本要素。在聚类分析之前,聚簇的数量是聚类算法的基本参数。在聚类分析之后,对聚类结果的有效性进行评估。而在整个过程中最佳聚类数的合理选择对形成正确的聚类结果有着十分重要的影响。然而,聚类分析属于无监督学习方法,这一特性使其在应用中很难获取具体数据集的最佳聚类数。作为一种度量聚类性能和确定聚类数的有效方法,聚类有效性指标在聚类分析的过程中就显得尤为重要。本文主要工作是在改进的聚类算法的同时对聚类有效性指标进行研究,并在此基础上针对一些不足之处提出了新的聚类有效性指标。新算法和新指标都比较适合处理重迭数据,改进了之前一些指标和算法对重迭数据无法处理的不足。具体工作内容如下:(1)本文主要对不同类型的聚类算法进行了研究和分析并提出了一种新的聚类算法。本文共对其中12种聚类算法进行了分析。基于对12种不同类别聚类算法的研究,总结了不同类别的算法都存在各自的优点和缺陷。着重对K-means算法进行了介绍,因为新算法是利用网格划分方法对K-means算法做出的改进。新算法不仅克服了K-means算法的缺陷还可以有效的处理重迭数据集。(2)文章中着重对13种聚类有效性指标进行研究,这13种指标被分为两类进行讨论分析。通过分析以及结合大量的相关文献总结可知无论是外部有效性指标还是内部有效性指标对于数据结构的多样性以及重迭度方面都存在不足。(3)本文主要提出一种新的聚类有效性指标,新指标是一种适用于重迭数据的指标——WCH指标。新的聚类有效性指标是由聚簇内紧密度、聚簇间分离度以及聚簇间重迭度叁部分构成的。新指标的提出不仅考虑到了大部分指标考虑到的聚簇内紧密度和聚簇间分离度的问题还在此基础之上加入了数据重迭度对聚类结果判断的因素。本文并用数学方法分类讨论、归纳总结将数据重迭度表示出来。(4)本文针对新指标性能的检测做了大量的对比实验。从众多指标中选择了比较经典的有代表性的指标DI指标,DBI指标,I指标和COP指标与新的聚类有效性指标基于新聚类算法对不同类型数据集的聚类结果的判断做了对比试验。其中,这些不同类型的数据集其中包括5个模拟数据集和3个真实数据集,有着不同的维数,不同的空间分布,不同的重迭度和不同的规模等。用这些对比实验证明新指标的优越性。大量对比实验的结果表明:新的聚类有效性指标——WCH指标能够对不同维数,不同规模,不同形状等不同的数据集特别是不同重迭度的数据集的聚类结果做出高效准确的判断。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

聚类有效性分析论文参考文献

[1].温鹏.聚类分析中的改进K-means算法和新聚类有效性指标的研究[D].安徽大学.2019

[2].王雪.聚类分析中面向重迭数据集的新型聚类有效性指标的研究[D].安徽大学.2019

[3].高云霞,李涛.基于模糊聚类分析的超致密裂缝储层有效性识别[J].中国石油和化工标准与质量.2018

[4].李朋.聚类分析中新聚类有效性指标的研究[D].安徽大学.2018

[5].杨杰.岩体结构面的优势产状模糊聚类分析及其有效性研究[D].哈尔滨工业大学.2017

[6].王建培.聚类有效性分析及其在电学层析成像中的应用[D].天津大学.2017

[7].于晓,李晨,王亚茹.基于数据约减的聚类有效性分析[J].传感器与微系统.2017

[8].于晓.数据约减方法研究及聚类有效性分析[D].天津大学.2016

[9].侯双双.聚类有效性指标的研究与对比分析[D].中国石油大学(华东).2016

[10].吕伟国.基于高维数据聚类分析方法的有效性研究[D].哈尔滨工程大学.2015

论文知识图

聚类有效性分析声发射聚类有效性分析(DB、S...试件M5聚类有效性分析试验件W1聚类有效性分析(DB、...试验件N1聚类有效性分析(J-K...试验件W1聚类有效性分析(J-K...

标签:;  ;  ;  ;  ;  ;  ;  

聚类有效性分析论文_温鹏
下载Doc文档

猜你喜欢