刘寒冰[1]2007年在《数据挖掘中的关联规则算法研究》文中指出目前,关联规则作为数据挖掘领域中一个非常重要的研究课题,己经取得了令人瞩目的成绩,但在实际应用中,随着数据库规模逐渐增大,出现了随着数据量递增而算法挖掘效率下降的问题,具有应用局限性。因此,必须研究和改进现有的算法,使其具有更高的效率和更广阔的应用前景。本文着重对关联规则挖掘算法进行了研究,在现有算法的基础上,提出两个适应性较强的高效挖掘算法。首先,研究了关联规则中经典的Apriori算法及其改进算法。为了解决这些算法在候选项目集和执行时间方面存在的问题,结合关联规则的性质和布尔向量的关系运算思想,提出了基于布尔矩阵的关联规则挖掘算法(Algorithm Based on Boolean Matrix,简称ABBM)。该算法在挖掘过程中仅扫描数据库一次,而且不产生候选项目集,从而减少了生成频繁项目集的时间开销,提高了算法效率,达到了算法改进的目的。其次,研究了经典的关联规则增量式更新挖掘算法及其优化算法。针对在最小支持度、最小置信度不变的情况下,新增数据集时关联规则更新效率低的问题,提出了一种高效的关联规则增量式更新挖掘算法(High-Efficient Incremental Updating,简称HIUP)。该算法采用AprioriTidList算法来发现新增数据集中的频繁项目集,并通过有效的优化策略对候选项目集进行分类和剪裁,从而减少了候选项目集的数量和扫描新增数据集的次数,提高了算法的更新效率。为了验证算法的性能,本文分别采用合成数据库和真实数据库对提出的新算法及其同类算法进行了对比测试。试验结果表明,ABBM、HIUP算法在效率上明显优于同类算法,而且挖掘的数据量越大,算法效率越高,具有较好的可扩展性和较广阔的应用前景。
胡锴[2]2008年在《关联规则挖掘算法及其在电信中的应用研究》文中认为近年来,数据挖掘技术研究引起了国内外人工智能和数据库领域专家的广泛关注。关联规则的挖掘是其中一个重要的研究方向,在许多商业应用中都取得了十分理想的效果。在电信行业中,随着通信市场竞争的加剧和市场的日益饱和,现有用户的价值提升和消费潜力挖掘已经成为运营商市场经营的首要工作,一种基于关联规则挖掘的新兴营销方式——交叉销售正是适应了这种变化。本文首先分析了现有的模糊关联规则和正负关联规则挖掘算法的特点和存在的问题,针对不足之处提出改进方法,并提出了一种新的模糊正负关联规则挖掘算法(FPNAR),然后针对算法给出了用于实际电信项目的例子,分析了FPNAR算法在电信行业交叉销售应用的可行性。本论文主要研究工作概括如下:首先在数据预处理中,采用了一种基于聚类中心点的模糊离散化方法。该方法主要分两层实现:首先对待离散化数据进行聚类,得出其聚类中心点;然后根据各类中心点确定隶属度函数参数,并通过隶属度函数离散化数据。基于聚类的模糊离散化方法充分利用了数据集的分布特征和分类信息,实现了数据的智能离散化,克服了因人为制定隶属度函数参数错误导致的挖掘结果错误。其次在建模过程中,在现有的正负关联规则挖掘算法的基础上,本论文采用一种多重最小支持度的方法,有效控制频繁项集和非频繁项集的数量,保证了挖掘规则的数量和算法的效率,并结合最小相关性系数约束,剔除了大量无意义规则,提高了挖掘结果的质量。在标准数据集的仿真中取得了较好的效果。最后,在本文中详细介绍了一个具体的电信行业数据挖掘分析实例——某市电信小灵通套餐业务的营销推广分析。开始全面阐述了交叉销售的概念,并提出了基于关联规则的交叉销售模型,最后通过对小灵通客户业务消费的历史数据进行挖掘,实现了小灵通各业务之间的关联分析,并对交叉销售模型的实证结果进行了详细的讨论和分析。
杨财英[3]2015年在《Apriori算法及其在学生成绩分析中的应用研究》文中研究说明数据挖掘技术是信息化技术发展到一定程度的必然结果,它是一类全新的相关数据分析技术,它是在数据海洋中找出有用知识为人类服务的一种技术。关联规则挖掘方法是数据挖掘方法中很重要的方法之一。而最经典的关联规则算法便是Apriori算法,该算法在许多领域(像金融领域、商业领域,等等)都已有了相应的应用,并取得了不错的效果。高校的核心任务是教学,提高教学质量是根本,然而学生的成绩则是衡量教学质量水平的一项重要指标。因此,对学生成绩数据进行相关的数据挖掘处理有着重要的现实意义。利用数据挖掘技术挖掘学生成绩数据,可以挖掘出像课程与课程之间的相互关系、影响学生成绩的各方面因素等有用的知识,这些知识可为教学及相关管理工作提供有力地决策支持,同时也为更好的开展教学工作和提高教学质量提供科学依据。本文主要对基于关联规则技术的挖掘方法作了深入的探究,重点分析了经典的关联规则算法——Apriori算法,指出该算法存在的优缺点,并针对其缺点提出了一种基于事务标记符的优化Apriori算法。在分析基于事务标记符的优化Apriori算法的执行效率之后,针对该优化算法中仍存在的不足,又提出了一种更进一步的优化Apriori算法――Apriori_33算法。Apriori_33算法主要提出了叁大优化改进:一是关于数据存储的优化;二是项集在连接之前的优化,叁是项集在连接之时的优化。最后,将Apriori_33算法应用于学生成绩数据挖掘当中去。本文使用MS SQL SERVER 2008作为后台数据库,Visual Studio 2010作为开发工具,对学生成绩数据库中存储的成绩数据进行了关联规则挖掘,收获了一定成效。由测试结果可知,课程与课程之间存在一定的关联关系,一门或某几门课程学习的好坏有可能会直接影响到其它后继课程的学习,当然开课的顺序也有可能会对学生的成绩造成影响,这些知识可为教学及相关管理工作提供有力地决策支持,同时也为更好的开展教学工作和提高教学质量提供科学依据。
周如意[4]2017年在《基于BP神经网络和关联规则的智能医疗保险稽核系统研究》文中指出目前医疗保险稽核系统的功能仍以简单的查询、统计分析、多维钻取等为主,系统对医疗保险监管工作的支持非常有限。随着参保人数不断增加、违规行为呈多样化、隐蔽化等趋势,以人工抽查稽核方式为主导的医疗保险监管工作效果不佳,不能及时有效地发现医疗保险中存在的重复用药、重复就诊、超量配药等违规问题。医疗服务行为监管工作直接关系到各参保人的切身利益和医保基金的安全,影响医疗保险制度能否可持续健康发展。有效提升当前医疗保险稽核系统信息化水平,为医疗保险监管工作提供决策支持是解决当前由医疗保险监管方式不当而导致的医保基金流失的重要途径。本文梳理了数据挖掘技术的相关理论、重要算法并分析研究了数据挖掘技术在医疗领域的应用,提出将数据挖掘技术引入到智能医疗保险稽核系统中。利用数据挖掘技术对医保数据进行深入的分析、挖掘与建模,提炼有价值的知识并将其应在医疗保险监管流程中,以实现医疗保险就诊信息的全覆盖、实时、自动稽查,为医疗保险监管工作提供有力的信息化手段。本论文研究的主要内容如下:首先,对数据挖掘技术中的流程、任务、挖掘工具进行梳理,并对其中的BP神经网络算法、关联规则算法、属性约简算法等进行重点研究。在分析数据挖掘技术在医疗保险稽查系统中的适用性的基础上,提出基于BP神经网络和关联规则的智能医疗保险稽核系统体系结构,包括数据获取层、数据预处理层、数据挖掘引擎层、服务与管理层。然后,设计智能医疗保险稽核系统的支撑库:知识库、规则库和模型库。在知识库设计中重点介绍药品相互作用知识和常用药知识的构建过程,其中药品相互作用知识构建过程中包括利用分词系统对药品说明书语料进行术语、成分、作用规则提取等环节,常用药知识构建则是利用了关联规则算法、属性约简算法对参保人的历史就诊处方信息进行分析,以发现不同疾病的常用药模式。规则库涵盖了支付政策性审核规则、诊疗合理性审核规则、临床规范性审核规则、医疗行为异常监控规则等。规则引擎是规则的具体实现,将就诊信息转换成模型可处理的数据结构。在模型设计中,对系统BP神经网络模型的结构包括输入层、隐层、输出层等的节点个数以及模型的构建过程进行详细描述。最后,将数据挖掘工具WEKA集成到Myeclipse10开发环境中,利用研究所得的理论、方法和技术实现了基于BP神经网络和关联规则的智能医疗保险稽核系统的开发,该系统主要功能涵盖知识库管理、模型库管理、监测模型应用等模块,以实例展示智能医疗保险稽核系统在医疗保险监管工作中的应用。
文蓉[5]2007年在《数据挖掘中关联规则算法及应用研究》文中提出数据挖掘是数据库和人工智能领域的热点课题,受到科研与产业界的广泛关注。关联规则是数据挖掘中关键技术之一,能有效解决“数据丰富、知识贫乏”现状,具有巨大理论研究与应用价值。关联规则挖掘通常面对大型数据库,在实践中效率低下,成为应用瓶颈。本文针对挖掘效率这一核心问题,给出两种算法。首先,给出基于事务地址索引表的Apriori优化算法,针对Ck进行支持度计数步骤,提出约简事务策略,并利用事务地址索引表有序化事务数据库,提高约简事务操作效率。实验结果表明,该算法相对于Apriori经典算法有所提高,但它仍是针对静态数据的挖掘,有一定局限性。其次,实现基于候选项组合链的挖掘算法。算法针对候选项目因子拆解组合过程给出计算公式,使用链表构造候选项组合,将用户的需求和算法更加紧密的结合,通过扫描一次事务数据库进行挖掘。实验结果表明,该算法在执行时间上明显优于Apriori经典算法,既能避免“漏挖”的现象,又能实现基于规则约束的增量挖掘。本文最后探讨了关联规则挖掘算法两种具体应用。首先使用基于事务地址索引表的Apriori优化算法,实现关联规则挖掘在湖南财经高等专科学校图书馆馆舍馆藏分布方面的实际应用,对图书馆的科学管理工作具有一定的指导及现实意义;其次使用基于候选项组合链的挖掘算法,初步探讨关联规则挖掘算法在交通流预测中的应用。
王路漫[6]2008年在《数据挖掘技术在图书馆中的应用研究》文中进行了进一步梳理随着信息技术的发展,图书馆中需要存储和传播的信息量越来越大,信息的种类和形式越来越丰富。由于用户对信息和文献资料类型的需求越来越多样化、越来越广泛,因此个性化的信息服务成为了新的发展趋势。个性化服务需要用户的兴趣、图书间的关联等信息的支持,而这些信息能够通过对图书馆的日常业务数据分析和挖掘获得。本文以图书馆借阅数据为对象,在对其特点分析的基础上,选择适用于图书馆数据的挖掘算法——关联规则中的FP-growth算法和聚类算法,并对FP-growth算法进行了减化;以北京林业大学图书馆为例,对其借阅数据进行挖掘,应用关联规则算法在图书馆优化书架书库的管理、发现学科间的隐性关联、指导读者的借阅行为和提供个性化服务等方面,应用聚类算法在图书馆对读者借阅规律的分析和把握、馆藏图书质量判断等方面均获得了具有积极意义的信息。同时,也证明所采用的算法的有效性与可行性;最后,设计和实现了图书馆数据挖掘信息系统,该系统将提高图书馆个性化服务的质量和水平,更好地满足读者的借阅需求。
王圣[7]2015年在《基于物流信息的关联规则算法及其应用研究》文中研究表明关联规则是数据挖掘的重要领域之一。利用算法发现的商品强关联性能够产生交叉销售效果,促进企业盈利水平,同时加快库存和分拣等物流业务的运作效率。本文主要研究关联规则算法,通过分析现有算法的优缺点提出改进算法,并应用于物流实际业务,致力于提高企业决策效率。本文研究主要内容与成果:(1)在概述数据挖掘技术前提下,总结出现阶段关联规则算法的缺点:首先,经典Apriori等关联规则算法只能处理布尔值属性,无法有效处理实际数据集中所包含的可量化属性;其次,支持度-置信度指标作为度量框架无法提取支持度较低但强关联的规则,同时可能存在虚假规则。(2)为克服传统算法无法有效处理可量化属性的缺点,提出了一个基于快速聚类法的量化关联规则算法。该算法通过连续型属性布尔化从而有效的处理实际数据集中所包含的连续型属性,扩大了Apriori等传统布尔型关联规则算法的应用场景。实际数据集分析表明,改进算法能有效处理数值型属性,挖掘有效的量化关联规则。(3)为克服传统度量框架无法提取有效关联规则的缺点,提出了一个新型的改进度量框架,以提高评价效果。该度量框架由新相关性Newrelevancy和新互信息New1构成,Newrelevancy可以被用来寻找数据库中的频繁项集,NewI则在此基础上寻找强关联的有效规则。数据分析显示,和传统度量框架相比,新型度量框架能更有效的挖掘出隐藏在交易数据中支持度较低的强关联规则,具有更好的评价效果。(4)为了利用改进算法来改善实际物流业务,在上述基础上,本文在最后结合库存管理策略,提出了基于量化关联规则的改进ABC分类算法。改进算法以h置信度和相关性作为度量框架提取关联规则,以匹配度量化了商品之间的销售促进作用。实际数据集结果显示,改进的ABC分类法和传统算法在商品分类结果上存在较大的差异,但是改进算法的结果更能体现商品重要性,更具有实际应用性。
王玉梅[8]2008年在《关联规则算法在股票分析预测中的应用研究》文中研究指明关联规则是数据挖掘领域研究的重要课题,常应用于零售业、电信业、财务金融业、保险业及医疗服务业等领域。本文主要研究了关联规则算法Apriori及一些改进算法,重点针对支持度-置信度框架下关联规则挖掘算法存在的不足,引入Heckerman-确信因子来增强规则度量,通过研究生成规则间的特点,给出了新的规则定义,改进了Apriori算法,使用测试数据集对算法进行了实验验证,实验结果证明了算法的有效性。最后将改进算法应用于对股票数据的分析预测领域,获得一些预测结果,进一步分析表明分析结果也是正确的。
邓吉君[9]2016年在《关联规则算法在互联网教育领域的研究及应用》文中指出数据挖掘起源于20世纪90年代初,随着现代社会的高速发展,各式各样的信息呈现爆炸式增长的趋势,虽然数据爆炸了但信息却依旧频繁。研究怎样从庞大的数据中找到对人类有意义的信息成为当今众多专家学者关注的焦点。作为数据挖掘领域里一个重要的研究方向,关联规则算法自Agrawal提出至今仍在完善改进中。关联规则算法的本质就是要从海量的原始数据中找出两项或多项具有一定关联关系的数据。随着专家学者们对关联规则算法的不断发展优化,关联规则技术正逐渐融入人们生活的各行各业,包括:商业、医药、网络信息安全、软件测试等等。关联规则技术的理论研究内容也从最初的频繁模式挖掘发展到如今闭合模式挖掘、增量挖掘、兴趣度度量、数据流等更丰富类型数据上的关联规则挖掘等。本文重点对目前流行的几种关联规则算法进行了详细的研究和分析。分别论述了其各自的优缺点并针对关联规则算法的缺点提出了改进思路。作者针对关联规则算法在互联网教育领域的应用提出了自己的看法和建议。最后,对数据挖掘技术关联规则技术的发展进行了展望。
苏蕊[10]2007年在《数据挖掘中关联规则算法的研究》文中研究指明现代科技发展的日新月异,给人们带来了便利的同时也产生了海量的数据,为了更好的理解这些数据并使其为人们所用,KDD和DM技术应运而生。关联规则挖掘是DM中的一个重要的研究方向,而频繁项目集的挖掘又是关联规则算法的核心问题。本文对关联规则和其经典Apriori挖掘算法进行了详细的阐述,研究、总结了经典挖掘算法的特点和局限性,并在此基础上提出了两个改进算法——基于粒计算的关联规则挖掘算法和基于遗传算法的关联规则挖掘算法。基于粒计算的关联规则挖掘算法引入粒计算的思想,即把事务数据库中每一个项看作一个粒,通过扫描一次数据库得到所有项的位图表示,利用粒的“与”和“或”运算求项集的支持度,采用循环判断的方法,将满足条件的粒直接归入频繁K-项集中,无需生成候选项集Ck。该算法优点在于只需扫描一次数据库,利用粒计算求项集支持度,只需存储频繁集,大大减少了时间耗费和空间占用,从而提高了规则挖掘的效率。同时,针对许多应用由于多维数据空间数据的稀疏性,在低层或原始层数据项间很难找出强关联规则,本文提出了基于粒计算的多维多层关联规则挖掘算法。在对多维属性进行概念分层下,该算法采用基于粒计算的规则挖掘方法来挖掘每一层上的关联规则,并且在计算高层次上项的支持度时应用了粒的层次关系,从而改善整体挖掘效率。基于遗传算法的关联规则挖掘算法,是在对传统遗传算法进行改进的基础上,将其应用到关联规则挖掘中。该遗传算法提出了一种自适应变异率方法,避免了进化早期出现的高适应度个体的过度复制而陷入局部最优值,并且改进了个体选择方法,具有较强的实用性。最后将其应用到关联规则挖掘中进行了相关实验,验证了在处理大规模项目集时基于遗传算法的关联规则挖掘方法的高效性及可靠性。
参考文献:
[1]. 数据挖掘中的关联规则算法研究[D]. 刘寒冰. 河北工程大学. 2007
[2]. 关联规则挖掘算法及其在电信中的应用研究[D]. 胡锴. 浙江大学. 2008
[3]. Apriori算法及其在学生成绩分析中的应用研究[D]. 杨财英. 湖南大学. 2015
[4]. 基于BP神经网络和关联规则的智能医疗保险稽核系统研究[D]. 周如意. 浙江理工大学. 2017
[5]. 数据挖掘中关联规则算法及应用研究[D]. 文蓉. 湖南大学. 2007
[6]. 数据挖掘技术在图书馆中的应用研究[D]. 王路漫. 北京林业大学. 2008
[7]. 基于物流信息的关联规则算法及其应用研究[D]. 王圣. 北京邮电大学. 2015
[8]. 关联规则算法在股票分析预测中的应用研究[D]. 王玉梅. 华北电力大学(河北). 2008
[9]. 关联规则算法在互联网教育领域的研究及应用[D]. 邓吉君. 湖南师范大学. 2016
[10]. 数据挖掘中关联规则算法的研究[D]. 苏蕊. 上海海事大学. 2007
标签:计算机软件及计算机应用论文; 关联规则论文; 数据挖掘论文; apriori论文; 数据挖掘算法论文; 离散化论文; 算法论文;