频繁模式和多形态数据聚类算法研究与应用

频繁模式和多形态数据聚类算法研究与应用

杨秀金[1]2006年在《频繁模式和多形态数据聚类算法研究与应用》文中认为本文是以刑事审讯辅助决策支持系统作为研究背景。针对刑事审讯辅助决策支持系统中出现的两类问题进行了研究。第一类是关联规则应用过程中的增量挖掘问题,第二类是基于多形态数据聚类算法进行了研究。 在刑事审讯过程中,审讯案例数据库随时间不断变化,因而其使用关联规则所产生的规则和模式,也是不断变化的。现有已产生的频繁规则也不再是强规则,以前不满足条件的规则会变成频繁规则。针对这个问题,可以采用增量挖掘进行解决。现存的FUP(Fast Update),IM(Incremental Maintenance)等关联规则增量更新算法,解决了增量挖掘的问题,在一定的范围内取得比较好的效率,但是在本系统中不能满足性能要求。本文给出一种基于频繁模式表的算法UFPL(Update Frequent Pattern List),此算法可以处理在最小支持度和数据库同时发生改变的时候关联规则的维护问题,并且其效率比IM算法平均提高2.5倍。最后,利用公共测试数据集,对算法性能进行测试,相对于快速更新算法和增量维护算法,实验表明其效率有较大改进。 此外,根据项目要求在查找相似案件和相似笔录的过程中,由于案件的数量巨大,假如直接依据相似度查找出潜在的相似案件,此时相似案件数目比较多。针对此问题本文先采用聚类将其案件进行分类,然后在与其距离最近的一簇中搜索相似案件。这样可减少相似案件的数目,提高搜索效果。但是在聚类过程中,现有的聚类算法不能满足对笔录数据聚类。这类数据,一个聚类对象包括不同类型数据即包括离散数据、又包括连续数据,并且还包括文本数据。针对这种多形态数据给出一种新型距离计算方法,运用归一化的欧几里得距离和余弦相似度并使用特定权值,得到对象间的距离。并在此基础上对K-Means算法进行改进得到CK-Means算法。此算法可以处理多形态数据的聚类。最后经过实验测试得出算法在此类型数据集中有较好的应用效果。

孙敏[2]2014年在《基于矩阵体积的关系图聚类算法研究》文中指出近年来,随着大数据的崛起,各行各业在面对大数据的机遇和挑战时,对其采取了相应对策并取得了一些成果。可以说,我们已进入了大数据时代,无论互联网,还是物联网,都是大数据应用的重要一环。在大数据时代,如何有效地运用大数据技术解决实际难题,发现和挖掘大数据中隐含的规律和有价值的信息,这是一个亟待解决的课题。多关系数据的聚类分析作为多关系数据挖掘的重要技术之一,在挖掘大数据(多关系)拓扑结构、解释其功能、识别类簇模式和预测行为等方面都占据重要角色。在互联网、反恐、病毒式营销、社会网络分析和生物信息学等领域有着广泛的应用,可以解决诸如恐怖组织识别、网络拓扑分析、图像分割、蛋白质功能预测、Web社区挖掘和基因预测等问题。作者首先通过对多关系数据聚类等相关文献的学习,充分了解了聚类分析技术在我们日常生活中所发挥的重要作用,掌握了多关系数据聚类算法的类别和特点,该领域学者在处理多关系数据所采用的方法与技术,以及国内外在多关系数据聚类研究方面的新进展。同时,作者也对数据挖掘、图论、数理统计和概率论等一些相关内容进行了深入学习,并将学到的相关理论与应用运用到本文的研究工作中。本文对一些高维且关系密切的对象开展了研究。重点研究了:①同种类型对象间的关系和不同类型对象间的关系。②考虑到基于距离聚类方法的局限性,引入了关系矩阵体积的思想,尝试用关系矩阵体积作为关系密集型数据聚类处理的一种度量标准;进而将行列式法、超平行体体积法和矩阵体积法等叁种矩阵体积表示法,视为叁种度量标准,并从优缺点、应用空间及所解决的问题等视角对其进行了综合对比。③在①、②的基础上,本文将矩阵体积思想与基于关系图的聚类算法相结合,提出了基于矩阵体积的关系图聚类算法。④本文围绕人工和真实数据集,对本文算法与基于欧氏和曼哈顿等距离聚类算法,进行了实验对比。结果表明,本文提出的聚类算法比基于欧氏距离和曼哈顿距离的聚类算法有更好的聚类效果。本文从高维空间出发,将矩阵体积思想运用到聚类过程中,是解决多关系数据聚类的一次有效尝试。进一步可将矩阵体积的思想与贝叶斯网、马尔可夫网以及目前流行的智能优化算法(粒子群、蜂群等)相结合,进行更多的探索,相信矩阵体积还有更广阔的应用空间。

曹锋[3]2006年在《数据流聚类分析算法》文中进行了进一步梳理近年来,许多应用中的数据是以流的形式产生的,例如网络流,传感器数据,以及网页点击流等。分析和挖掘这类数据日益成为一个热点问题。作为一种基础的数据挖掘手段,聚类分析在数据流环境下得到了学术界和工业界的广泛关注。与传统数据库不同,数据流具有如下特点:(1)数据总量的无限性;(2)数据到达的快速性;(3)数据到达次序的无约束性;(4)除非可以保存,每个元素均只能被处理一次。数据流的上述特点对数据流上的聚类挖掘提出了如下要求:首先,算法必须能够进行实时在线挖掘,快速处理每一个元组,并实时输出挖掘处理结果。其次,相对于无限规模的数据流内存通常是有限的,算法的空间复杂度要低,往往需要在数据量的对数范围内。再次,由于算法实时在线挖掘以及对空间复杂度的限制,算法往往只能得到近似解,且需要具有一定的精确度保证。最后,算法要具有较强的适应性,包括对数据流不断进化的底层模型的适应性,处理离群点的能力,以及挖掘任意形状簇的能力等。学术界已经对数据流上的聚类分析问题进行了不少研究工作,但仍存在许多问题尚待研究和解决。本文研究了滑动窗口内的数据流聚类分析问题,数据流中具有任意形状簇的挖掘问题,利用图形处理器加速数据流聚类问题以及分布式数据流的数据聚类问题,旨在为现有的数据流系统提供更为多样的聚类分析功能。本文的主要贡献有如下四个方面:1.本文提出了一种新算法CluWin来解决滑动窗口内数据流聚类分析问题。我们设计了一种新的概要结构—聚类特征指数直方图—来保持滑动窗口中簇的统计信息。CluWin算法仪需要维护O(k/∈log(∈[N/k]))个时间聚类特征结构,就能够估算长度为N的滑动窗口中所有记录的聚类结果,且窗口最大相对差不超过∈。此外,它还被扩展用于解决N-n窗口(滑动窗口扩展模型)数据聚类问题。2.本文提出了一种新算法DenStream用于挖掘进化数据流中具有任意形状的簇。我们引入一种“密”微簇称为核心微簇(core-micro-cluster)用于描述数据流中任意形状的簇,并提出潜在核心微簇(potential core-microcluster)和离群微簇(outlier micro-cluster)结构分别用于维护并区分数据流中潜在的簇和离群点。DenStream基于这些概念包含了一种新颖的淘汰策略,该策略可利用次线性空间的内存维护并保证各微簇权值的精度。3.本文利用性能强大、日趋廉价且在数据流领域尚未引起足够重视的图形处理器(GPU)处理数据流聚类挖掘问题。我们提出一类基于GPU的快速聚类方法,包括基于k-means的基本聚类方法,基于GPU的数据流聚类以及数据流簇进化分析方法。这些方法的共同特点就是充分利用GPU强大的处理能力和流水线特性。与以往具有独立框架的数据流聚类算法不同,基于GPU的聚类算法具有同一框架和多种聚类分析功能,为数据流聚类分析提供了统一平台。4.本文提出了一个分布式聚类处理框架CluDistream。该框架可高效地实时处理分布式数据流中海量数据,有噪声、有损或不完整数据记录,以及有交迭的数据集。在CluDistream基于期望最大化(Expectation Maximization)的算法中,每个数据记录可以以不同的隶属度属于不同的簇。这种软聚类方式能较好地反映簇的交迭性。对有噪声、损坏的或不完整的数据记录,算法可通过最大化数据簇的似然度来学习数据流的底层分布。此外,CluDistream算法中测试后聚类的策略可有效地减少算法的平均处理代价,这对分布式数据流的在线实时聚类挖掘非常有效。总之,本文研究了数据流聚类分析的四个基本问题并分别提出了新的解决方案。滑动窗口是处理数据流的基本模型之一,如何在滑动窗口内对数据流进行聚类分析是一个基本问题;具有任意形状簇相对于球形簇是更为一般的数据簇模型,如何挖掘任意形状的簇也是一个基本问题;如何提高数据流聚类算法的处理速度是一个基本问题,这是由数据流聚类算法实时在线挖掘的特点所决定的;分布式数据流的数据聚类问题,其基础性在于现实应用中数据流往往是在分布式环境中产生的。本文算法是对现有数据流上的聚类分析技术的有益补充和改进。理论分析和实验结果表明本文算法能够高效地解决相应问题,与现有数据流聚类方法相比,本文算法在存储空间开销、挖掘处理速度以及结果准确性上具有优势。

贾艳芳[4]2010年在《频繁时间序列模式在铝电解槽生产数据处理中的研究与应用》文中研究说明铝电解槽每天都会实时产生大量的生产数据,并且这些数据往往都是以时间来记录成序列的。但是这些数据并没有被充分利用,一般对电解槽的各种工艺参数的调整往往凭借管理者的个人经验,用户无法充分利用大量的生产历史数据从定量的角度进行控制决策。针对这一问题,本文重点研究传统的序列模式挖掘算法,并在铝电解槽时间序列数据上进行挖掘应用,以期得出频繁时间序列模式。1.对原始数据以各种图的方式展示,用于对初始时间序列数据的分析。2.在对数据的预处理过程中,对空缺数据用填充平均值、删除空缺值、人工填充空缺值等方式进行处理;对噪声数据使用分箱法进行处理。3.针对单工艺参数数据,使用离散化,将数据按值的大小分成多个区间段,以便将数据序列转换为连续的符号表示序列。4.针对多工艺参数多维数据序列的情况,使用模糊聚类算法将同一天内多个工艺参数的值聚合成不同的类别值(也可代表槽况),即转化为连续的符号表示,以便用于对槽况的时间序列模式挖掘。5.研究经典的序列模式算法,针对铝电解槽生产数据量大、需要提高挖掘效率的特点,选出适合于铝电解领域的PrefixSpan算法,并将该算法应用到铝电解工艺参数历史数据的分析挖掘中。在上述基础上,设计和开发铝电解频繁时间序列模式挖掘系统,并将本系统应用于铝电解槽生产数据的处理中,对同一槽的一段时间内的单工艺参数、多工艺参数及槽况的原始数据进行挖掘。根据挖掘到的频繁时间序列模式,用于预测未来生产的发展趋势,为决策提供科学依据。

佚名[5]2010年在《自动化技术、计算机技术》文中认为TP12010031967Flash媒体服务器的优化部署/唐力,槐寅,陈震(清华大学自动化系)//清华大学学报(自然科学版).―2010,50(1).―5~8.越来越多的新型万维网(Web)应用开始提供在线音视频交流功能,而有效的Flash媒体服务器部署方案是提高服务质量的基础。该文给出了媒体服务器优化部署问题的数学模型,并证明即使用户需求和网络性能信息

王杰锋[6]2015年在《物联网能耗数据智能分析及其应用平台设计》文中提出随着数据信息时代的迅速到来,建筑能耗也受到了人们的极大关注,能耗数据以其多样化的形式开始呈现急剧增长的趋势,对于海量能耗数据的分析研究显得越来越重要。由于数据挖掘可以对海量数据进行分析,帮助用户更好地发现数据中隐含的有用信息。本文提出运用数据挖掘技术对建筑能耗数据分析,设计物联网能耗数据智能分析系统验证数据挖掘理论研究的可行性,研究的主要内容如下:首先,关联规则数据挖掘理论可以从大量数据的项集中发现有用的规则,建筑用电能耗分项、建筑房间面积和房间人员等属性之间的变化是存在某种关联或者关系的。Apriori关联规则挖掘算法是关联规则理论中最具有典型性的方法,但在它计算频繁项集时需要生成大量的候选项集,并且需要多次扫描数据库,增加了算法的计算复杂度,由于排序索引规则通过索引编号,跳跃搜索项集,可以有效加快信息的检索速率,提出一种基于布尔矩阵和排序索引规则的关联规则挖掘算法,先扫描数据集获取布尔矩阵,再对布尔矩阵进行预处理操作,删除其中无用事务和项集,根据剪枝布尔矩阵和标记序列产生频繁二项集,结合排序索引生成其他频繁项集,有效提高了频繁项集挖掘的效率,并有效减少了内存的占用率。其次,由于聚类挖掘技术作为数据挖掘领域中的一种工具,可以获得数据分布的内在规律,通过聚类数据挖掘方法对数据中心内部设备中的能耗数据进行聚类分析,可以发现异常耗能设备以及根据聚类分析制定合理的用电方案。由于基于密度的聚类方法可以有效发现任意形状的簇和有效识别离群点,可以有效利用密度聚类这一特点发现建筑能耗的内部规则,但在全局参数选择上DBSCAN密度聚类算法需人工干预以及区域查询方式过程复杂和查询易丢失对象等不足,提出一种改进的参数自适应以及区域快速查询的密度聚类算法,有效提高聚类的效率。基于划分的近邻传播聚类算法利用最近邻居关系传递特性,无需初始化聚类中心,可以在比较短的时间内发现更低误差的聚类结果,对处理数据量庞大的能耗数据具有很好的可行性。但在无先验知识条件下存在偏向参数选择困难以及在处理结构复杂或高维数据的数据信息重迭问题,提出基于流形结构邻域选择的局部投影近邻传播算法,在保留数据内部非线性结构的前提下,有效删除高位复杂数据空间中的冗余数据。最后,设计实现物联网建筑能耗数据智能分析系统,以验证提出的关联规则和聚类数据挖掘理论研究的可行性。系统由中心服务器和客户端两部分组成。中心服务器负责实现数据采集、数据挖掘、数据分析、数据存储及数据通信接口等功能,客户端根据restful接口获取服务器端的数据分析结果和能耗数据,实现数据通信、数据解析以及数据可视化等功能,方便管理者监管建筑能耗使用情况,辅助管理者制定节能方案,有效实现对建筑能耗数据的节能目的。

朱林[7]2013年在《基于特征加权与特征选择的数据挖掘算法研究》文中研究表明数据挖掘是目前人工智能和数据库领域的研究热点。几十年来各种不同的数据挖掘方法得到了广泛的研究。数据挖掘不仅是数据库知识发现中的一个重要步骤,从数据库的大量数据中,自动搜索隐藏于其中有价值的规律信息;也是一种决策支持的过程,利用人工智能、机器学习、模式识别、统计学、可视化等技术,分析各种类型的数据,从中挖掘出潜在的模式,帮助各个领域的专家及研究和开发人员做出正确的决策判断。目前,数据挖掘作为一门迅速发展的研究领域,面临着越来越多新的问题和挑战。首先,数据的规模越来越大,也就是所谓的大规模数据的问题;其次,数据特征的维数不断增加,导致出现所谓的维数灾难的问题;最后,数据挖掘越来越强调多学科的交叉,不仅需要灵活运用统计学、计算机、数学等建模技术,同时还需要具有生物学、脑科学、证券金融等学科的知识背景。针对上述的挑战,人们提出了针对大规模数据的流数据分析方法;针对高维数据的特征加权和特征选择方法;同时,生物信息学等交叉学科也成为目前数据挖掘领域的研究重点。本文围绕特征加权和特征选择这一主题,在研究和借鉴现有算法的基础上,针对上述问题,提出了一系列新算法、改进算法、以及新的应用。文本所研究的内容主要涉及两个方面,即针对特征加权技术的软子空间聚类算法的研究与改进,以及利用特征选择方法的分类技术的研究与应用。特别是针对当前数据挖掘领域所面临的大规模数据的问题、高维数据特征加权和特征选择的问题,以及多学科交叉的问题,都进入了深入地研究和探讨。本文提出的算法被成功应用于信息检索中的文本聚类、基因表达数据聚类、人脸识别与分类以及生物信息学中二硫键连接模式预测等实际问题,很好地验证了所提算法和技术的有效性。具体而言,本文的研究内容和创新性成果主要在于:1)本文针对高维大规模数据或者流数据的子空间聚类问题,利用在线学习策略和模糊可扩展聚类技术,与现有的软子空间聚类算法相结合,提出了两种在线软子空间聚类算法(OFWSC、OEWSC)和两种流数据软子空间聚类算法(FuStreCA、EnStreCA)。2)本文提出了一种新颖的多目标优化软子空间聚类算法(MOSSC),利用多目标优化技术,分别优化软子空间聚类方法中的类内、类间两个目标函数,并利用加权子空间二部图划分方法对所得的非占优Pareto最优解集进行分析,推导出最终的聚类划分结果。3)本文针对软子空间聚类算法面临的数据簇数目不确定和聚类中心初始化两个问题,将模糊和熵加权软子空间聚类算法与竞争合并策略相结合,提出了基于竞争合并策略的模糊加权软子空间聚类算法(FWSCA)和熵加权软子空间聚类算法(EWSCA)。4)本文利用稀疏表示的思想和L1范数最小化的方法,提出了一种新颖的基于稀疏分数(Sparse Score)的特征选择方法,通过构造样本间的稀疏表示重构系数矩阵,计算数据集中各个特征的稀疏表示保留能力,从而对数据集的特征重要性进行排序。5)本文针对生物信息学中二硫键结构模式的预测问题,通过利用四种基于分数方程的特征选择方法得到蛋白序列全局特征和局部特征的特征子集,并利用SVR方法在得到的特征子集上进行二硫键连接模式的预测。同时,本文利用得到的特征选择结果分析了蛋白序列全局特征和局部特征的重要性。

牛继强[8]2010年在《面向土地用途分区的空间数据挖掘》文中研究表明近年来由于空间信息技术领域内对地观测技术、数据库技术、网络技术等的飞速发展,使得土地利用数据的获取与管理变得更为便利,我国已经实施的农用地分等定级、更新调查和“全国第二次土地大调查”等工程获得了大量的数据和资料,并建设了土地利用数据库。这些数据的复杂程度和数量远远超出人脑的分析能力,如何快速、定量地从这些大型时空数据库中挖掘有用的特征和知识已经成为土地利用数据库利用的瓶颈问题。空间数据挖掘可以从时空数据库中获取用户感兴趣的空间模式与特征、数据的关联关系以及其他一些隐含在空间数据中的规律和特征,目前已经成为国内外研究的热点。土地用途分区是土地利用规划的核心问题,但是目前还缺乏系统的深入研究,特别是在土地用途分区的智能化方面。因此,针对目前土地用途分区中存在的问题,发展面向领域的空间数据挖掘模型是时空数据不断积累过程中所提出的迫切要求。本文界定了面向土地用途分区的空间数据挖掘的研究内容和体系,并系统研究了该问题的理论方法和应用。基于土地利用分区问题研究的必要性,本文在分析国内外对土地用途分区和空间数据挖掘的研究进展的基础上,建立起面向土地信息的空间数据挖掘的基础理论和技术框架,进一步完善了空间数据挖掘的理论和方法。从土地用途分区、空间数据挖掘的定义出发,定义了面向土地利用分区数据挖掘的概念、特征和内容;提出了一种包括数据层、知识层、挖掘层和人机交互层的四层结构的空间数据挖掘体系结构;阐述领域空间数据挖掘的基本步骤和从土地利用数据库中能发现的知识类型;探讨了土地用途分区数据挖掘的基本方法,主要包括空间计算模型:空间关系度量的方法;空间数据关联规则的挖掘方法:模糊概念格;空间数据聚类分析的方法:人工免疫系统的聚类算法。在对土地用途分区的问题进行描述的基础上,分析了土地用途分区的知识体系,并构建了基于领域知识的土地用途分区模型。概念格是用数学的形式化的方法对从数据中产生概念的过程进行分析的有力工具。这与数据挖掘是从大量数据中产生知识的过程是一致的,因此,概念格理论经过改进是适于对空间数据库进行数据挖掘的。本文针对概念格难以表达空间概念的问题,研究了多值背景下概念格的构建方法,并对形式概念分析理论进行了扩展,研究了基于模糊概念格的土地利用数据空间关联知识的挖掘,构建了面向土地利用的模糊概念格渐进式算法和Hasse图绘制算法,针对土地利用空间数据海量的特征,引入了基于辞典序索引树算法,提出了土地利用空间关联规则的提取方法,以为土地用途分区提供指导。土地用途分区是综合考虑影响土地质量与土地利用方式的各类因素(包括自然、社会、经济方面的因素)的基础上,将研究区域划分为若干均质区片的方法。土地用途分区是一个非常复杂的多目标优化问题。而聚类分析是一种典型的解决组合优化问题的方法。在分析了传统的克隆选择算法的基础上,通过引入混沌理论对其进行了扩展,使用Logistic方程改进了克隆选择算法,并提出两种算法的叁种结合方式,构建了混沌免疫克隆选择算法模型(CICSA)。传统聚类方法存在过分依赖数据集聚类原型的问题,为了解决这一问题,本文基于混沌免疫克隆选择算法提出了一种基刁知识的多目标优化聚类模型。该模型是用混免疫克隆选择算法进行聚类,借助混沌免疫克隆选择算子的优势,将进化搜索与随机搜索、全局搜索和局部搜索相结合,通过对候选解进行操作,能够快速得到全局最优解,而不受到样本集方差分布的影响。因此使用混沌免疫克隆选择算法能同时处理多类原型的数据聚类问题,并可以在聚类的过程中获得类数信息。本文在面向土地用途分区的空间数据挖掘的相关理论与技术研究的基础上,研究并开发了原型系统,该软件原型系统包括以下功能模块:土地利用数据管理模块、土地利用知识挖掘模块、土地用途分区挖掘模块、系统库管理模块和可视化表达模块。通过原型系统的开发,进一步明确了面向土地用途分区的空间数据挖掘的功能,解释了土地用途分区的具体过程。选择宜城市土地利用数据库和相关数据,进行数据整合,形成可用于挖掘的整合数据库,并以此数据库进行实验研究,使用模糊概念格获取了土地利用的空间关联规则,并将这些规则和其他领域知识用于混沌免疫克隆选择算法抗体的编码,使用混沌免疫克隆选择算法进行基于多目标的土地用途分区聚类实验,实验结果证明本文所研究的基于知识的土地用途分区聚类挖掘模型是一种智能、高效、准确的分区工具。

参考文献:

[1]. 频繁模式和多形态数据聚类算法研究与应用[D]. 杨秀金. 大连理工大学. 2006

[2]. 基于矩阵体积的关系图聚类算法研究[D]. 孙敏. 吉林大学. 2014

[3]. 数据流聚类分析算法[D]. 曹锋. 复旦大学. 2006

[4]. 频繁时间序列模式在铝电解槽生产数据处理中的研究与应用[D]. 贾艳芳. 北方工业大学. 2010

[5]. 自动化技术、计算机技术[J]. 佚名. 中国无线电电子学文摘. 2010

[6]. 物联网能耗数据智能分析及其应用平台设计[D]. 王杰锋. 江南大学. 2015

[7]. 基于特征加权与特征选择的数据挖掘算法研究[D]. 朱林. 上海交通大学. 2013

[8]. 面向土地用途分区的空间数据挖掘[D]. 牛继强. 武汉大学. 2010

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

频繁模式和多形态数据聚类算法研究与应用
下载Doc文档

猜你喜欢