基于Apriori算法的关联规则挖掘及改进

基于Apriori算法的关联规则挖掘及改进

文蓉[1]2007年在《数据挖掘中关联规则算法及应用研究》文中研究说明数据挖掘是数据库和人工智能领域的热点课题,受到科研与产业界的广泛关注。关联规则是数据挖掘中关键技术之一,能有效解决“数据丰富、知识贫乏”现状,具有巨大理论研究与应用价值。关联规则挖掘通常面对大型数据库,在实践中效率低下,成为应用瓶颈。本文针对挖掘效率这一核心问题,给出两种算法。首先,给出基于事务地址索引表的Apriori优化算法,针对Ck进行支持度计数步骤,提出约简事务策略,并利用事务地址索引表有序化事务数据库,提高约简事务操作效率。实验结果表明,该算法相对于Apriori经典算法有所提高,但它仍是针对静态数据的挖掘,有一定局限性。其次,实现基于候选项组合链的挖掘算法。算法针对候选项目因子拆解组合过程给出计算公式,使用链表构造候选项组合,将用户的需求和算法更加紧密的结合,通过扫描一次事务数据库进行挖掘。实验结果表明,该算法在执行时间上明显优于Apriori经典算法,既能避免“漏挖”的现象,又能实现基于规则约束的增量挖掘。本文最后探讨了关联规则挖掘算法两种具体应用。首先使用基于事务地址索引表的Apriori优化算法,实现关联规则挖掘在湖南财经高等专科学校图书馆馆舍馆藏分布方面的实际应用,对图书馆的科学管理工作具有一定的指导及现实意义;其次使用基于候选项组合链的挖掘算法,初步探讨关联规则挖掘算法在交通流预测中的应用。

刘耕砚[2]2008年在《数据挖掘中Apriori算法改进及在电信BI上的应用》文中认为信息技术在商业领域应用卓有成效。企业通过MIS(管理信息系统)快速收集和处理商业信息,通过ERP(企业资源计划系统)准确监控信息流。这些系统除了本身的应用外,还积累了大量的数据。信息系统应该具备把这些庞大的数据转化为知识,进而辅助企业经营决策,甚至自动生成商业决策的能力,这就是商业智能(BusinessIntelligence)。信息系统正在经历着“MIS→ERP→BI”的演变过程。从全球范围来看,商业智能(BI)已经成为最具有前景的信息化领域。数据挖掘作为商业智能系统的高层应用,是其必不可少的一部分。数据挖掘(DataMining,DM)能够从大量的数据中挖掘出人们感兴趣的知识,它是一类深层次的数据分析方法,被认为是解决“数据爆炸知识贫乏”的有效方法之一。关联规则挖掘由于能够较好的捕捉数据间的重要关系,并且发现的规则形式简洁易于理解,近年来,已经成为数据挖掘领域的一个热点。本文首先介绍了商业智能、数据挖掘技术的概念和目标,详细讨论了关联规则挖掘技术,包括关联规则的任务、分类以及关联规则挖掘算法。在关联规则经典Apriori算法的基础上,结合事务压缩、约束规则方法,在保证挖掘结果不变的情况下,提高了Apriori算法的效率。最后,本文将提出的改进算法应用于电信数据业务,以数据业务消费信息为对象进行挖掘,从而为营销部门提供更多的决策支持信息以促进数据业务的发展。同时,也通过挖掘结果对该方法进行了评估,对实验结果进行了详细的分析,在证明改进算法优点的同时,指出该算法存在的不足。

杨余垒[3]2017年在《改进的关联规则算法在慢性病数据挖掘中的研究》文中研究指明关联规则挖掘作为数据挖掘技术重要的研究分支,其目的是从大量数据中发现数据项之间的相关关系。由于挖掘产生的规则形式简单、易于理解,关联规则技术的研究和应用得到了蓬勃发展。我国慢性病患者人数众多。为了有效利用慢性病患者的医疗数据,为预防和管控慢性病提供科学依据,本文选取了慢性病之一的高血压进行数据挖掘方面的研究。本文主要探究高血压患者体征与心血管风险水平之间的相关性,以及高血压与其他慢性病之间的关联性,重点完成了以下工作:(1)查阅国内外相关文献,分析了数据挖掘技术在慢性病等医疗领域的研究现状,总结了我国现阶段在医疗数据分析中存在的问题,确立了论文研究的主要内容及路线。(2)对数据挖掘技术及关联规则的相关理论进行阐述,重点研究了关联规则挖掘中的Apriori算法,分析了该算法在性能方面的瓶颈,并探讨了现有的优化方法,为算法的改进拓宽了思路。(3)针对Apriori算法运行效率上的缺陷,进行如下改进:采用聚簇矩阵压缩存储事务数据库,避免多次扫描原有的事务库;引入事先剪枝策略以产生较少候选项集,避免频繁项目集的大量连接的开销;添加慢性病类型这一约束条件,减少频繁项目集和无关规则的产生。最后通过Matlab仿真实验对比分析,证明了改进算法能够有效降低候选项目集的数量,并提高运行效率。(4)设计慢性病数据挖掘方案,将改进的Apriori算法应用到对高血压患者的体检数据处理中。对数据进行预处理,设置最小支持度和置信度阈值,给定约束和相关度等条件,进行关联规则挖掘。利用Logistic回归分析方法,探究慢性病之间的相关性,将分析结果与数据挖掘产生的规则对照,发现两种方法产生的结果相吻合,证实了实验的有效性。实验最终挖掘出符合医学规律的关联规则,通过它们可以准确判断高血压患者的心血管风险水平,预估所患慢性病的并发症,为医生的诊断提供了有价值的参考,为实现自动化判诊提供了理论研究基础。(5)开发了慢性病数据挖掘系统,并将改进的Apriori算法融入。系统能够探究慢性病医疗数据背后隐藏的知识,辅助医生决策,具有一定的实用价值。

李群[4]2010年在《基于数据挖掘的日志审计技术研究与实现》文中研究表明基于数据挖掘的安全日志审计系统通过对网络设备产生的日志进行分析处理,产生用户的正常行为模式库,并对当前的日志和用户行为模式进行比较,对异常执行报警或其他的警告措施,或生成最终能反映网络状况的各种统计数据和报表。论文针对事后审计中的关联规则挖掘和关联规则更新问题进行研究并提出了相应改进算法。在关联规则挖掘方面,基于经典的Apriori算法及现有改进的算法,并结合日志属性的特点提出了主属性的概念,论文从减少数据库扫描次数和减少候选集的个数的角度对Apriori算法进行了改进,使其适用于日志的关联模式挖掘;在关联规则更新方面,考虑到日志的每天更新的问题,论文基于已有的模式更新研究对算法进行了改进,该算法充分利用原有挖掘出的频繁模式和减少对更新后数据库的扫描次数。最后,论文将上述算法应用到审计系统的事后审计模块,并进行了相关测试,实验结果表明这些算法能对日志进行审计分析,检测用户的异常行为,并根据需要生成可视化的统计报表供用户查阅。

王倩[5]2016年在《一种基于改进遗传算法的关联规则挖掘及应用研究》文中进行了进一步梳理随着互联网和电子商务的飞速发展,信息化、数据化成为这个时代的特征。各个行业的数据库中都储存了大量数据信息,这些数据中包含了许多有价值的信息,而关联规则挖掘就是从大量的数据信息中挖掘隐藏的、有价值的关联关系,为决策者做出明智的决策提供有力依据的一种挖掘工具。。而关联规则挖掘经典算法——Apriori算法,在数据信息量庞大的情况下,效率低,运行时间长,为了弥补Apriori算法的不足,本文引入全局搜索算法——遗传算法,针对遗传算法容易产生局部最优解的缺点,对遗传算法进行改进,提出了一种基于改进遗传算法的关联规则挖掘算法,并通过对比实验,验证该算法的优越性,最后将算法应用到某商务网站交易数据和评价数据中,验证算法的实用性,挖掘商务网站大量数据中有价值的信息。本文主要工作如下:(1)关联规则挖掘研究:深入研究了关联规则挖掘算法,详细阐述了关联规则挖掘的经典算法——Apriori算法,分析常用关联规则挖掘算法的优缺点,提出一种用遗传算法对关联规则挖掘改进的思想。(2)遗传算法研究:全面介绍了遗传算法的相关概念和基本思想,详细比较分析了多种编码方法、适应度函数的构造方法、遗传算子的设计,提出一种改进遗传算法,并对改进遗传算法的步骤流程做了详细的解释说明。(3)一种基于改进遗传算法的关联规则挖掘研究:设计了一种基于改进遗传算法的关联规则挖掘算法,并利用MATLAB对改进遗传算法、遗传算法、Apriori算法挖掘关联规则进行对比实验,从挖掘的关联规则数目、处理不同数据集的运行时间以及挖掘不同支持度阈值关联规则的运行时间上验证了本文设计的改进遗传算法挖掘关联规则的优越性。(4)基于改进遗传算法的关联规则挖掘应用:将基于改进遗传算法的关联规则挖掘应用于某商务网站中,通过挖掘商务网站交易数据,发现买家购买商品之间的关联关系;挖掘商品评价数据,发现买家对不同类型商品以及同种商品价格对评价的影响,根据挖掘到的关联规则,针对现有的信用评价模型进行改进,从而为卖家制定优质的营销策略、改善网站结构、提高销售额提供有价值的信息。

李磊[6]2016年在《基于时间戳的关联规则挖掘研究》文中认为随着信息技术的飞速发展,需要处理的数据量也与日俱增,怎样将有价值的信息从众多的数据中提取出来是目前很多行业亟待解决的问题。数据挖掘是从人们事先不知道的、随机的数据中提取隐含在其中的、模糊的、大量的、有噪声的、不完全的、但是却具有潜在价值的信息和知识的过程。这门学科已经形成体系,开始在日常生活中发挥出巨大的作用。在数据挖掘中,关联规则是一个重要的研究方向。本文对数据挖掘技术和关联规则挖掘进行了系统的分析和研究,并提出了一个基于时间戳矩阵的关联规则挖掘算法。本文的工作主要在以下几个方面:(1)简要概述了数据挖掘技术,然后对关联规则的定义、分类、挖掘方法、挖掘步骤等相关理论作了详细介绍。(2)详细分析了Apriori算法的优缺点,对Apriori算法做了详尽的阐述,并通过具体例子详细介绍了Apriori算法的一个改进算法,并通过实验证明了改进算法在挖掘效率上优于Apriori算法。(3)阐述了基于时间戳的关联规则挖掘的基本理论和算法,改进了支持度的计算方式,提高了目标项集支持度的值,并通过把时间戳和矩阵结合起来,提出了基于时间戳矩阵的关联规则挖掘算法。该改进算法的创新之处在于通过把时间戳和矩阵结合起来,并且引入权值,缩小了事务矩阵的规模,也解决了传统挖掘有些感兴趣的目标项集支持度低的问题。通过实例分析,基于时间戳矩阵的关联规则挖掘算法(BTMA)能够挖掘出基于矩阵的Apriori算法无法挖掘出的频繁项集,仿真实验结果表明该算法在效率上优于基于矩阵的Apriori算法。

曹春静[7]2007年在《基于XML和Web数据的关联规则挖掘研究》文中研究指明近十几年来,随着Internet的迅速发展,互联网上的数据越来越趋于庞大。怎样能够有效地利用这些复杂而无章的Web数据、从中发掘出有价值的信息成了现今的研究热点。随着XML的不断发展,互联网上越来越多的信息都开始使用XML表示。XML以其可扩展、平台独立、灵活、规范和简单等特点以及强大的数据表达能力,在网络和其他领域的数据表示和交换方面都扮演着越来越重要的角色。因此,人们迫切地需要寻找一些有效的方法从这些大量的XML数据中提取一些潜在的、有价值的信息和知识。但是Web上的XML数据非常复杂,没有特定的模型描述数据,是半结构化的甚至是无结构的数据。所以,面向XML的数据挖掘技术有着不同于传统数据库上的数据挖掘技术的特点。它对半结构化数据的集成和组织,对挖掘算法的性能都提出了新的挑战。本文根据Web上XML数据的半结构化的特点以及XML查询语言XQuery、.NET DOM对XML操作的支持,针对如何直接从XML数据中提取有价值的关联规则进行了探索性研究。论文首先对XQuery实现的Apriori算法作了比较深入的研究,针对Apriori算法不适应挖掘结构复杂不规则的XML文档数据和挖掘大规模的XML文档数据效率不高的局限分别作了相应地改进。实验表明,改进后的算法能够有效地从XML数据中抽取关联规则。其次,论文也重点探讨了如何使用.NET DOM对XML数据进行直接关联规则挖掘。.NET DOM采用面向对象机制将对XML的操作封装成类库,用其实现的关联规则挖掘算法更符合人类的思维方式,更容易理解。而且,.NET DOM实现的算法的可视化更强,算法编译执行,速度更快。此外,论文从电子商务网站的购物篮数据中抽取了一部分典型的挖掘数据,构造了具体的实验,根据实验的结果对上述两种算法的优缺点进行了对比分析。实验结果表明,在不同的环境需求下,两种算法有着各自的强势和劣势,从而可以指导人们在未来XML的关联规则挖掘过程中,应该根据不同的需求和挖掘环境选择不同的挖掘方法,才能使数据挖掘的效率和性能得到优化。最后,本文提出了一个基于XML和关联规则挖掘的Web挖掘系统的五层架构模型,对该模型的各个功能模块进行了详细地介绍。并且根据该模型,设计了一个面向电子商务网站的基于XML的关联规则挖掘系统模块。该模块能够处理多种数据源,支持多种关联规则挖掘算法以及挖掘结果的可视化表达,具有综合性和可扩展性的特点。

吴越嬴[8]2017年在《基于数据挖掘的电力系统不良数据检测与辨识算法研究》文中指出随着电力系统自动化水平的不断提升,电网运行对实时数据质量的要求越来越高,因此针对不良数据的检测与辨识就显得尤为必要。传统的不良数据检测方法基本都是估计后的算法,需要反复进行多次状态估计,计算量较大的同时还有可能造成"残差淹没"或"残差污染"现象,所以较为理想的状态就是在估计前就能把不良数据检测辨识出来,而本文研究的基于关联规则挖掘的不良数据检测与辨识方法可以在一定程度上解决这些问题。本文研究内容主要有以下几点:1)研究传统的不良数据检测与辨识方法,分析它们的局限性与不足之处,根据状态估计前不良数据检测的优越性提出关联规则挖掘算法在这一课题中应用的可行性;2)对关联规则中的经典算法—Apriori算法进行深入研究,分析其不足,并在传统Apriori算法基础上,提出一种改进的多维关联规则算法,并将两种算法进行对比分析,验证改进算法的有效性;3)引进时态关联规则的概念,重点研究其中的一类——周期性关联规则,阐述周期性关联规则的基本思想和算法实现等,并针对基本算法提出改进并将其实现,使能减少不必要的周期性支持度计数、降低时间成本;4)将改进后的关联规则算法应用到估计前不良数据的检测与辨识中:在不知道系统拓扑结构的前提下以历史数据样本为基础,通过关联规则挖掘获得每个时刻对应的量测预测量;之后通过人为设定不良数据的方法进行实验分析,利用时间属性与状态量的相关联系验证当前时刻状态值的正确性,从而验证了本文提出的方法的可行性和有效性。

张盼[9]2015年在《关联规则算法的研究与改进》文中指出随着计算机和信息技术的发展,人们能够用更方便的收集数据。数据的爆炸性增长,使人们急切的需要相关的技术来处理这些数据。数据挖掘作为这样的技术已经成为人们关注的热点,广泛地应用于各行各业。数据挖掘的主要任务有:分类和预测、聚类分析、关联规则、序列分析和异常检测等。本文研究的重点是其中的关联规则。本文对两种关联规则挖掘算法Apriori算法和FP-growth算法进行了详细的分析和研究。论文的主要工作如下:1.基于Apriori算法的研究,实现了算法在MFC框架下的频繁项集挖掘。程序通过与后台Access数据库的连接,能够设置不同的项数和最小支持度,实现了频繁项集的挖掘,并给出本次挖掘的时间开销。2.通过对Apriori算法每个步骤的分析,提出一种Apriori算法的优化方法,通过实例分析和实验结果验证了优化结果。优化后的算法在以下两个方面做出了改进:(1)在Apriori算法的连接步,需要频繁两两比较k-项频繁项集前k-1项是否相同,而且会产生大量的候选项集,使得时间复杂度大大增加。优化后的算法加入了连接预处理步,减少了连接步的比较次数,避免了许多不必要的频繁项集的产生;(2)在Apriori算法的支持度计数步,事务的宽度越大,事务遍历候选Hash树的有效次数就增加。优化算法通过加入事务剪枝歩,降低事务的宽度,有效降低支持度计数的时间开销。3.FP-growth算法对于大型数据集,生成的FP-tree结构非常复杂,而且需要频繁的进行下列的步骤:(1)将FP-tree转化为前缀路径;(2)将前缀路径转化为其条件FP-tree。本文提出了一种基于压缩数据集思想的优化方法,在挖掘之前对数据集进行多次压缩,生成结构简单的子FP-tree。对于挖掘以特定项集结尾的频繁项集,优化算法简化了挖掘步骤和提高了挖掘效率。最后通过实例分析和实验结果验证了优化后的算法较原FP-growth算法有了时间和空间上的优化。

段玉琴[10]2011年在《数据挖掘中关联规则算法的研究》文中认为随着计算机和信息技术的发展,数据挖掘已经成为人们关注的热点,广泛地应用于各行各业。关联规则挖掘是数据挖掘的一个重要的研究分支,它通过在事务数据库中找出所有的频繁项集,从而获得各频繁项集之间的关联关系,为用户挖掘出有价值的知识和信息。关联规则挖掘在保险的险种设计,股市行情分析,网络数据处理等领域都有着突出的应用。随着数据库应用的不断发展,数据采集的速度和存储不断增大,传统的关联规则挖掘算法已无法适应这种变化,因此研究更高性能的挖掘算法就极为必要。本文对两种关联规则挖掘算法Apriori和FP-Growth进行了详细的分析和研究,并在此基础上针对各算法的缺陷提出了两个改进算法。论文主要的工作如下:详细研究了数据挖掘技术的基本概念、数据挖掘的过程以及关联规则挖掘的概念、基本原理以及主要的研究方向。分析研究了关联规则挖掘的经典算法Apriori,针对该算法在执行过程中扫描数据库次数多且产生大量候选项集的缺陷,提出了一种基于该算法的改进算法,改进后的算法在整个挖掘过程中能够及时地删除非频繁项集而且只需要扫描数据库一次,后续的工作都是在内存中处理完成,因此在时间和空间效率上有较大的提高。深入研究了频繁模式增长算法FP-Growth,该算法不需要产生候选项集,在当前的挖掘频繁项集算法中应用非常广泛,但FP-Growth算法不能有效地挖掘大型数据库,而且时间和空间复杂度较高。针对这种不足本文对原算法进行了改进。改进算法采用取消冗余项和分解数据库的方法来进行关联规则的挖掘,提高了挖掘效率,同时大大满足了大型数据库挖掘的需求。

参考文献:

[1]. 数据挖掘中关联规则算法及应用研究[D]. 文蓉. 湖南大学. 2007

[2]. 数据挖掘中Apriori算法改进及在电信BI上的应用[D]. 刘耕砚. 昆明理工大学. 2008

[3]. 改进的关联规则算法在慢性病数据挖掘中的研究[D]. 杨余垒. 浙江理工大学. 2017

[4]. 基于数据挖掘的日志审计技术研究与实现[D]. 李群. 浙江工商大学. 2010

[5]. 一种基于改进遗传算法的关联规则挖掘及应用研究[D]. 王倩. 兰州财经大学. 2016

[6]. 基于时间戳的关联规则挖掘研究[D]. 李磊. 青岛理工大学. 2016

[7]. 基于XML和Web数据的关联规则挖掘研究[D]. 曹春静. 华东师范大学. 2007

[8]. 基于数据挖掘的电力系统不良数据检测与辨识算法研究[D]. 吴越嬴. 南京理工大学. 2017

[9]. 关联规则算法的研究与改进[D]. 张盼. 西安电子科技大学. 2015

[10]. 数据挖掘中关联规则算法的研究[D]. 段玉琴. 西安电子科技大学. 2011

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于Apriori算法的关联规则挖掘及改进
下载Doc文档

猜你喜欢