数据挖掘中关联规则算法的研究

数据挖掘中关联规则算法的研究

杨余垒[1]2017年在《改进的关联规则算法在慢性病数据挖掘中的研究》文中认为关联规则挖掘作为数据挖掘技术重要的研究分支,其目的是从大量数据中发现数据项之间的相关关系。由于挖掘产生的规则形式简单、易于理解,关联规则技术的研究和应用得到了蓬勃发展。我国慢性病患者人数众多。为了有效利用慢性病患者的医疗数据,为预防和管控慢性病提供科学依据,本文选取了慢性病之一的高血压进行数据挖掘方面的研究。本文主要探究高血压患者体征与心血管风险水平之间的相关性,以及高血压与其他慢性病之间的关联性,重点完成了以下工作:(1)查阅国内外相关文献,分析了数据挖掘技术在慢性病等医疗领域的研究现状,总结了我国现阶段在医疗数据分析中存在的问题,确立了论文研究的主要内容及路线。(2)对数据挖掘技术及关联规则的相关理论进行阐述,重点研究了关联规则挖掘中的Apriori算法,分析了该算法在性能方面的瓶颈,并探讨了现有的优化方法,为算法的改进拓宽了思路。(3)针对Apriori算法运行效率上的缺陷,进行如下改进:采用聚簇矩阵压缩存储事务数据库,避免多次扫描原有的事务库;引入事先剪枝策略以产生较少候选项集,避免频繁项目集的大量连接的开销;添加慢性病类型这一约束条件,减少频繁项目集和无关规则的产生。最后通过Matlab仿真实验对比分析,证明了改进算法能够有效降低候选项目集的数量,并提高运行效率。(4)设计慢性病数据挖掘方案,将改进的Apriori算法应用到对高血压患者的体检数据处理中。对数据进行预处理,设置最小支持度和置信度阈值,给定约束和相关度等条件,进行关联规则挖掘。利用Logistic回归分析方法,探究慢性病之间的相关性,将分析结果与数据挖掘产生的规则对照,发现两种方法产生的结果相吻合,证实了实验的有效性。实验最终挖掘出符合医学规律的关联规则,通过它们可以准确判断高血压患者的心血管风险水平,预估所患慢性病的并发症,为医生的诊断提供了有价值的参考,为实现自动化判诊提供了理论研究基础。(5)开发了慢性病数据挖掘系统,并将改进的Apriori算法融入。系统能够探究慢性病医疗数据背后隐藏的知识,辅助医生决策,具有一定的实用价值。

苏蕊[2]2007年在《数据挖掘中关联规则算法的研究》文中认为现代科技发展的日新月异,给人们带来了便利的同时也产生了海量的数据,为了更好的理解这些数据并使其为人们所用,KDD和DM技术应运而生。关联规则挖掘是DM中的一个重要的研究方向,而频繁项目集的挖掘又是关联规则算法的核心问题。本文对关联规则和其经典Apriori挖掘算法进行了详细的阐述,研究、总结了经典挖掘算法的特点和局限性,并在此基础上提出了两个改进算法——基于粒计算的关联规则挖掘算法和基于遗传算法的关联规则挖掘算法。基于粒计算的关联规则挖掘算法引入粒计算的思想,即把事务数据库中每一个项看作一个粒,通过扫描一次数据库得到所有项的位图表示,利用粒的“与”和“或”运算求项集的支持度,采用循环判断的方法,将满足条件的粒直接归入频繁K-项集中,无需生成候选项集Ck。该算法优点在于只需扫描一次数据库,利用粒计算求项集支持度,只需存储频繁集,大大减少了时间耗费和空间占用,从而提高了规则挖掘的效率。同时,针对许多应用由于多维数据空间数据的稀疏性,在低层或原始层数据项间很难找出强关联规则,本文提出了基于粒计算的多维多层关联规则挖掘算法。在对多维属性进行概念分层下,该算法采用基于粒计算的规则挖掘方法来挖掘每一层上的关联规则,并且在计算高层次上项的支持度时应用了粒的层次关系,从而改善整体挖掘效率。基于遗传算法的关联规则挖掘算法,是在对传统遗传算法进行改进的基础上,将其应用到关联规则挖掘中。该遗传算法提出了一种自适应变异率方法,避免了进化早期出现的高适应度个体的过度复制而陷入局部最优值,并且改进了个体选择方法,具有较强的实用性。最后将其应用到关联规则挖掘中进行了相关实验,验证了在处理大规模项目集时基于遗传算法的关联规则挖掘方法的高效性及可靠性。

王路漫[3]2008年在《数据挖掘技术在图书馆中的应用研究》文中认为随着信息技术的发展,图书馆中需要存储和传播的信息量越来越大,信息的种类和形式越来越丰富。由于用户对信息和文献资料类型的需求越来越多样化、越来越广泛,因此个性化的信息服务成为了新的发展趋势。个性化服务需要用户的兴趣、图书间的关联等信息的支持,而这些信息能够通过对图书馆的日常业务数据分析和挖掘获得。本文以图书馆借阅数据为对象,在对其特点分析的基础上,选择适用于图书馆数据的挖掘算法——关联规则中的FP-growth算法和聚类算法,并对FP-growth算法进行了减化;以北京林业大学图书馆为例,对其借阅数据进行挖掘,应用关联规则算法在图书馆优化书架书库的管理、发现学科间的隐性关联、指导读者的借阅行为和提供个性化服务等方面,应用聚类算法在图书馆对读者借阅规律的分析和把握、馆藏图书质量判断等方面均获得了具有积极意义的信息。同时,也证明所采用的算法的有效性与可行性;最后,设计和实现了图书馆数据挖掘信息系统,该系统将提高图书馆个性化服务的质量和水平,更好地满足读者的借阅需求。

单明辉[4]2008年在《改进的关联规则算法在采购数据挖掘中的应用》文中认为信息化社会的到来,数据存储量急剧上升。然而,尽管面临大量(甚至是海量)的真实、有价值的数据,决策者却很难从这些数据中提取出有价值的知识,因为这些数据从表面上看,往往是杂乱的、单维的。面对这一挑战,数据挖掘应运而生,随着计算机性能提高、成本下降以及数据管理技术的成功运用,数据挖掘正越来越多的应用于各类决策体系中。数据挖掘有许多研究方向,关联规则挖掘是其中最活跃的研究方向之一,它反映了大量数据中项目之间的有意义关联或相关联系,其中最经典的算法是Apriori算法。但是该算法在挖掘频繁项集时需要产生大量的候选项集,多次扫描数据库,时间空间复杂度过高。针对这一局限性,如何提高挖掘算法的效率就成为了关联规则挖掘研究的核心问题。本文对关联规则挖掘算法进行了深入地研究,提出了一种改进方法,并将此方法应用于上海大众汽车有限公司采购信息的数据挖掘中,得到可供决策参考的关联规则。本论文具体工作如下:1.理论介绍。对数据挖掘和关联规则的基本理论进行了详尽的阐述,通过理论介绍为算法研究和系统应用奠定了基础。2.算法介绍和改进。在理论认识的基础上,深入分析了关联规则挖掘经典算法Apriori。针对关系数据库中关联规则挖掘的特点,提出了一种基于编码的新算法Coding-Apriori,对其从理论、流程各方面进行了详细介绍并演示了其实现步骤。最后通过实验将Coding-Apriori算法和Apriori算法进行了比较,验证了改进算法的有效性和优势。3.系统应用。针对上海大众采购信息数据库,设计开发了一个简易的专业数据挖掘系统,系统可以选择性地采用经典的Apriori算法和新提出的Coding-Apriori算法进行关联规则的挖掘。系统应用部分既是对算法研究和改进的一种实际验证,又是对数据挖掘应用领域的一种开拓,实现了理论研究与实际应用的结合。

周如意[5]2017年在《基于BP神经网络和关联规则的智能医疗保险稽核系统研究》文中研究说明目前医疗保险稽核系统的功能仍以简单的查询、统计分析、多维钻取等为主,系统对医疗保险监管工作的支持非常有限。随着参保人数不断增加、违规行为呈多样化、隐蔽化等趋势,以人工抽查稽核方式为主导的医疗保险监管工作效果不佳,不能及时有效地发现医疗保险中存在的重复用药、重复就诊、超量配药等违规问题。医疗服务行为监管工作直接关系到各参保人的切身利益和医保基金的安全,影响医疗保险制度能否可持续健康发展。有效提升当前医疗保险稽核系统信息化水平,为医疗保险监管工作提供决策支持是解决当前由医疗保险监管方式不当而导致的医保基金流失的重要途径。本文梳理了数据挖掘技术的相关理论、重要算法并分析研究了数据挖掘技术在医疗领域的应用,提出将数据挖掘技术引入到智能医疗保险稽核系统中。利用数据挖掘技术对医保数据进行深入的分析、挖掘与建模,提炼有价值的知识并将其应在医疗保险监管流程中,以实现医疗保险就诊信息的全覆盖、实时、自动稽查,为医疗保险监管工作提供有力的信息化手段。本论文研究的主要内容如下:首先,对数据挖掘技术中的流程、任务、挖掘工具进行梳理,并对其中的BP神经网络算法、关联规则算法、属性约简算法等进行重点研究。在分析数据挖掘技术在医疗保险稽查系统中的适用性的基础上,提出基于BP神经网络和关联规则的智能医疗保险稽核系统体系结构,包括数据获取层、数据预处理层、数据挖掘引擎层、服务与管理层。然后,设计智能医疗保险稽核系统的支撑库:知识库、规则库和模型库。在知识库设计中重点介绍药品相互作用知识和常用药知识的构建过程,其中药品相互作用知识构建过程中包括利用分词系统对药品说明书语料进行术语、成分、作用规则提取等环节,常用药知识构建则是利用了关联规则算法、属性约简算法对参保人的历史就诊处方信息进行分析,以发现不同疾病的常用药模式。规则库涵盖了支付政策性审核规则、诊疗合理性审核规则、临床规范性审核规则、医疗行为异常监控规则等。规则引擎是规则的具体实现,将就诊信息转换成模型可处理的数据结构。在模型设计中,对系统BP神经网络模型的结构包括输入层、隐层、输出层等的节点个数以及模型的构建过程进行详细描述。最后,将数据挖掘工具WEKA集成到Myeclipse10开发环境中,利用研究所得的理论、方法和技术实现了基于BP神经网络和关联规则的智能医疗保险稽核系统的开发,该系统主要功能涵盖知识库管理、模型库管理、监测模型应用等模块,以实例展示智能医疗保险稽核系统在医疗保险监管工作中的应用。

高乾[6]2008年在《基于遗传算法的关联规则挖掘》文中研究说明近几十年来,数据库技术和海量存储器等硬件的快速发展使得人们收集数据的能力得到进一步的提高。面对信息时代海量数据的出现,如何有效地利用大量的原始数据分析现状以预测未来,已经成为人类面临的一大挑战。由此,数据挖掘技术应运而生并得以迅猛发展。目前,数据挖掘已经成为一个研究热点。数据挖掘所得到的知识能够为决策支持提供依据。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。它在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。本文根据关联规则挖掘的要求与特点,结合遗传算法的思想,提出了一个基于遗传算法的关联规则挖掘方法,并通过实例分析,说明是一种具有实用价值的方法。文中主要在以下几方面做了深入的研究:首先对数据挖掘进行了评述,阐明了什么是数据挖掘,为什么要数据挖掘、如何进行数据挖掘、数据挖掘与机器学习、统计学等相关学科的区别与联系、数据挖掘的主要过程、分类等问题。介绍了数据挖掘中的一个重要算法——遗传算法。文中对遗传算法的产生与发展、遗传算法的主要理论、遗传算法的特性以及遗传算法的广泛应用都进行了简要的介绍。深入地分析与研究了关联规则。对关联规则的衡量标准作了系统的研究,针对基于支持度和置信度框架模型的局限性,引入了基于多变量的提升度,用来修剪无趣的规则,从而筛选出用户真正感兴趣的规则模式。在此基础上,提出一种基于遗传算法的关联规则挖掘算法,从编码方法、适应度函数的构造、交叉算子和变异算子的设计等方面进行了详细的讨论和分析。结合商品销售系统,给出了遗传算法进行关联规则挖掘的实例。

谢佳斌[7]2007年在《基于数据挖掘的预测决策方法研究》文中研究说明随着科技的发展和网络化时代的到来,凭借数据库技术和数据库管理系统,人们收集、存储数据的能力得到显着提高。如何有效地分析这些数据,预测未来,并辅助决策成为摆在人们面前的一大课题。在面对海量、复杂的数据和实时分析的要求时,传统的预测决策方法在诸多方面存在不足之处。而基于数据挖掘的预测决策方法则能有效地弥补上述不足,展现出其强大的生命力。本论文便是这一课题的有益探讨。本文所做的主要工作有:(1)回顾了数据挖掘的发展历程、功能、应用和流程,对数据挖掘未来的发展进行了展望。同时,总结了数据挖掘和统计学这两门学科的异同。(2)关联规则挖掘技术的分析与研究。在对经典的关联规则挖掘理论进行系统表述的基础上,介绍了经典的关联规则算法Apriori及各种改进算法,并给出如何利用R软件去应用这些算法。(3)研究了序列模式挖掘。同样地,对经典的序列模式挖掘理论进行了系统表述,并比较了关联规则挖掘和序列模式挖掘之间的异同。同关联规则挖掘一样,序列模式挖掘也需借助相应的算法,本论文给出了叁种序列模式挖掘算法。(4)时间序列挖掘研究。主要探讨了时间序列挖掘中的趋势分析、基于ARMA模型序列匹配方法的相似序列挖掘和周期分析。(5)利用模拟数据,借助R和Clementine软件,研究了关联规则挖掘如何应用于购物篮分析,以辅助营销决策。

陈建军[8]2008年在《关联规则算法研究及其在多媒体教学评价数据分析中的应用》文中提出随着数据库应用的不断深化,数据库的规模急剧膨胀,人们需要对这些数据进行分析,从中发现有价值的信息。数据挖掘已经成为机器学习、人工智能、数据库等领域的研究热点。它包含关联规则挖掘、预测、分类、聚类、演化分析等多种技术手段。其中关联规则挖掘是一种主要的,也是用途最广的数据挖掘方法。本文即对数据挖掘中的关联规则进行系统研究,深入分析了关联规则的传统支持度-置信度框架、相关度和有效度等衡量标准,并在此基础上将T检验思想引入到了关联规则的衡量中,提出了一种新的关联规则衡量标准-影响度。在对多媒体教学评价现状和相关理论分析的基础上,作者提出了多媒体教学评价的基本原则和多媒体教学评价数据分析的目的,指出了本研究课题中关联规则在多媒体教学评价数据分析中的应用方向。本文将关联规则衡量标准-影响度应用到多媒体教学质量评价数据分析中。采用J2EE的体系结构,用Webwork+Spring+Hibernate架构设计并开发了一个多层的教学评价数据挖掘系统,有效地提高系统的可靠性、可扩展性、可重用性和可维护性。并利用该系统对多媒体教学质量评价数据进行了分析,系统运行结果表明,利用将影响度作为关联规则的衡量标准寻找多媒体教学评价数据中潜在的关联性是可行的、有价值的,可以有效的克服现有衡量标准的一些不足,减少冗余规则的产生。

文蓉[9]2007年在《数据挖掘中关联规则算法及应用研究》文中指出数据挖掘是数据库和人工智能领域的热点课题,受到科研与产业界的广泛关注。关联规则是数据挖掘中关键技术之一,能有效解决“数据丰富、知识贫乏”现状,具有巨大理论研究与应用价值。关联规则挖掘通常面对大型数据库,在实践中效率低下,成为应用瓶颈。本文针对挖掘效率这一核心问题,给出两种算法。首先,给出基于事务地址索引表的Apriori优化算法,针对Ck进行支持度计数步骤,提出约简事务策略,并利用事务地址索引表有序化事务数据库,提高约简事务操作效率。实验结果表明,该算法相对于Apriori经典算法有所提高,但它仍是针对静态数据的挖掘,有一定局限性。其次,实现基于候选项组合链的挖掘算法。算法针对候选项目因子拆解组合过程给出计算公式,使用链表构造候选项组合,将用户的需求和算法更加紧密的结合,通过扫描一次事务数据库进行挖掘。实验结果表明,该算法在执行时间上明显优于Apriori经典算法,既能避免“漏挖”的现象,又能实现基于规则约束的增量挖掘。本文最后探讨了关联规则挖掘算法两种具体应用。首先使用基于事务地址索引表的Apriori优化算法,实现关联规则挖掘在湖南财经高等专科学校图书馆馆舍馆藏分布方面的实际应用,对图书馆的科学管理工作具有一定的指导及现实意义;其次使用基于候选项组合链的挖掘算法,初步探讨关联规则挖掘算法在交通流预测中的应用。

顾红其[10]2009年在《面向电子商务的web挖掘中关联算法的研究》文中研究说明关联规则挖掘是数据挖掘的一个重要组成部分,频繁集挖掘是关联规则挖掘的关键步骤,它在很大程度上决定了关联规则挖掘的效率。本文分析和研究了两种着名的频集算法Apriori和FP-growth,指出了它们各自的优缺点。并提出一种基于Apriori的改进算法G_apriori。本论文所做的主要研究工作如下:(1)概括了数据挖掘和Web挖掘的相关概念、定义、结构、分类、特点等,介绍了面向电子商务的Web挖掘的过程、技术、个性化推荐服务。研究了常见的关联规则挖掘算法,给出关联规则挖掘的相关概念及关联分类和关联挖掘步骤(2)分析和研究了经典的Apriori和FP-growth关联挖掘算法,研究了算法思路,算法描述,分别举例分析了该算法的执行流程,分析比较了这两种算法。并提出一种基于Apriori算法的改进算法G_Apriori。给出了的算法的设计思路,算法描述,以及实例运行过程。针对Apriori算法在执行过程中多次扫描数据库,大大降低了算法的执行效率的缺点,G_apriori算法在执行过程中只需扫描一次数据库,且产生的候选项集数目要远低于Apriori算法所产生的。(3)设计了一个面向电子商务推荐系统的模型,并给出该模型的系统结构图,分别详细给出离线模块和在线模块的结构设计思想及各模块的功能说明,最后举例详细说明G_Apriori算法在推荐系统中的应用过程。

参考文献:

[1]. 改进的关联规则算法在慢性病数据挖掘中的研究[D]. 杨余垒. 浙江理工大学. 2017

[2]. 数据挖掘中关联规则算法的研究[D]. 苏蕊. 上海海事大学. 2007

[3]. 数据挖掘技术在图书馆中的应用研究[D]. 王路漫. 北京林业大学. 2008

[4]. 改进的关联规则算法在采购数据挖掘中的应用[D]. 单明辉. 上海交通大学. 2008

[5]. 基于BP神经网络和关联规则的智能医疗保险稽核系统研究[D]. 周如意. 浙江理工大学. 2017

[6]. 基于遗传算法的关联规则挖掘[D]. 高乾. 曲阜师范大学. 2008

[7]. 基于数据挖掘的预测决策方法研究[D]. 谢佳斌. 暨南大学. 2007

[8]. 关联规则算法研究及其在多媒体教学评价数据分析中的应用[D]. 陈建军. 中北大学. 2008

[9]. 数据挖掘中关联规则算法及应用研究[D]. 文蓉. 湖南大学. 2007

[10]. 面向电子商务的web挖掘中关联算法的研究[D]. 顾红其. 苏州大学. 2009

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

数据挖掘中关联规则算法的研究
下载Doc文档

猜你喜欢