张云健[1]2004年在《基于利润分析的多层关联规则研究》文中提出面对当今竞争激烈的时代,企业无不采取计算机高新技术来提高效益。利用数据挖掘技术,可以帮助企业获取庞大数据库中隐藏的有用信息,帮助企业决策者作出正确的决策,因此,数据挖掘成为当今相当热门的研究领域,特别是在关联规则方面的探讨尤其如此。通过关联规则可以找出数据库中某些商品项目间彼此的关联性,如消费者的购物习惯等。对于如何才能有效的推导出关联规则,已经有许多的方法相继被提出。但是大部分的算法都是处理单一层次间的关联规则。然而因为商品项目众多、数据不够密集,找出的关联规则数目可能会变的较少,许多隐藏的知识就不能被挖掘出来。多层次关联规则的挖掘技术,是将数据转换成对应的层次化架构模式,再对各层次使用单层次关联规则算法来获得关联规则。以往的单层次算法的做法,容易产生太多的候选项集,因而需要多次访问数据库的操作。数据挖掘处理对象都是大型数据库,反复搜索数据库必将造成输入输出上大量时间的浪费。而夹击搜索算法(Pincer-Search)在搜寻长度较长的频繁集时效率较之传统算法有很大的提高,因此本文利用它的这个特性将之应用于多层次架构中做关联规则挖掘,并和以往多层次关联规则的挖掘所采用的算法做分析并比较其效果,结果发现,夹击搜寻算法的效率要高很多。另外,以往文献中讨论的关联规则均未考虑购买商品的数量及获利性,然而,在商品交易中数量和获得的相应利润是商家非常关心的焦点问题。因此,一个能有效挖掘多层次间数据并包含数量与利润分析的关联规则才能满足企业最大程度上获利的需要。 本论文以作者参与的《重庆市医药公司药品配送与零售系统》中的药品销售数据做研究对象,用夹击搜索算法在其上进行多层次关联规则挖掘,并与传统算法(Apriori)进行了实验结果的对照。实验证明,随着数据量的增加和数据层次的加深,以及层次中类别的增加,夹击搜索算法对多层次Apriori算法的效率优势越来越明显。 另外,论文提出在挖掘出的关联规则中加入数量和利润来进行分析,并在实验中通过具体的操作实现了这一点。论文分析了加入数量和利润的因素来重新解读关联规则的意义。以往的关联规则通常进行的是所谓购物蓝分析,即在一定的可信度和支持度下顾客在购买一种商品后会继续购买另外一种商品的可能性,也就是分析顾客的购物习惯,进而做出诸如搭配销售、调整货柜位置等营销策略。然而,这种分析存在一个缺点,比如在顾客购买第一种商品的利润远远大于他所购买的后一种商品时,则关联规则给出的购物习惯对整个销售所带来的利润提升意义不大。而本文中,对关联规则加入了数量和利润来分析,就会将该类无意义重庆大学硕士学位论文英文摘要的关联规则剔除掉。相反的,在以往的讨论中,由于支持度或可信度低于闭值而不被考虑的关联规则,在加上数量和利润后,有可能变成一个有趣的,有价值的关联规则。例如:如果顾客购买了一个(或多个)利润较低的某种商品后会接着购买与之相关的另外一种利润较高的商品,因为购买利润低的商品会促进较高利润的商品的销售,所以这是一条商家乐于见到的关联规则,因为它对企业总体利润的提升是一个有利的信息。正文中将对加入数量和利润的关联规则进行详细的论述。关键词:数据挖掘,关联规则,多层次关联规则,夹击搜索(Pincer Search)落
何晴[2]2017年在《基于聚类的多层关联规则挖掘算法研究与改进》文中认为近年来,数据挖掘逐渐进入人们的生活,而且以很快的速度发展成一门主流的技术,所以人们现在更关注于通过分析数据来研究或者预测一些行为模式。“购物篮分析”让更多的人把目光投放到关联规则挖掘上,关联规则是数据挖掘的一个经典功能,而且更多的时候就是挖掘单层的关联规则模式。然而现在,人们不仅仅对单层的关联规则模式感兴趣,可能还会对多层关联规则模式感兴趣。为了挖掘多层关联规则,本文提出将关联规则与聚类进行结合的多层关联规则挖掘新思路。首先将原始事务数据集聚类,聚类后的事务数据集通过一定的划分再用于关联规则分析,这样可以挖掘多层关联规则。为了更好适用于事务数据集的多层关联规则挖掘,本文在以上的每一个阶段都做了相关改进。本文主要在以下四个方面重点研究与讨论:1.概述了数据挖掘中关联规则、聚类以及多层关联规则挖掘的相关理论知识,并且分析了它们近几年来的学术成果。同时介绍了一些关联规则和聚类的相关算法,关联规则重点分析了Apriori和FP-Growth算法,聚类重点分析了K-Means和K-Mediods算法;2.设计出了一种专门针对SDS的相关性度量算法。针对本文采用的IBM生成数据集,为了提高聚类质量,通过改进SMC和Jaccard相关系数,计算出数据集中数据对象之间的相关性系数矩阵;3.关联规则算法的改进。在FP-Growth算法基础上提出了一些改进:针对FP-Tree建树时占用内存很大,经过合并相同支持数的节点来减小树的规模,节约空间;针对FP-Growth算法头表生成的情况,以及多次在头表中查找会消耗大量的时间,提出用哈希头表替代头表,这样能够加快查找效率;4.多层关联规则挖掘。通过将聚类与关联规则的结合,达到挖掘多层关联规则的目的。本文中,为了挖掘多层,甚至是跨层之间的关联规则,根据聚类结果将原始事务数据集划分,与其他算法划分不同的是,数据集中需要合并一个簇中的数据对象并用簇的名字代替。这样,不仅可以保留数据集中不同层之间的信息来挖掘多层关联规则,还可以减小数据集的规模。
赵京涛[3]2009年在《基于本体的多层关联规则算法与知识管理模型研究》文中指出随着国际互联网Internet的发展和普及,需要面对海量的信息资源,信息内容和层次上的多元性和复杂性,特别是从海量的信息中筛选出少量自己需要的有用的信息资源时,人们有时会感到束手无策。因此,对数据挖掘技术的研究及知识管理是全球信息化发展的客观要求。本文主要基于本体并利用本体的概念层次结构,提出了基于本体的多层关联规则算法ML_AR。关联规则中的最关键因素是最小支持度,它是用来缩减搜索空间和限制生成规则的数目,如果仅用单个最小支持度,就会隐含地假设数据库中的子项有相同的性质或相似的出现频率,为了解决上述问题,提出了一个根据概念层次的上层支持度计算下层支持度的公式。通过该公式所得的支持度是递减的,并且当父层是非频繁项的项,子层有可能是频繁的项,此时还可以把符合这样条件的项回收。如果计算的支持度大于父项支持度,说明上层支持度选取过小,不符合实际数据,则应重新对初始支持度进行调整,从这方面讲,该算法对初始支持度的选择有了一定的评价。另外,针对以上挖掘出来的数据,知识管理系统在检索时存在大量不相关的知识等问题,本文还提出了一个新的知识管理模型框架。本框架利用本体的概念规范、语义丰富、层次关系等特点,并结合本体的知识库和一阶谓语推理引擎对用户的查询请求进行处理,使用户最终检索到与请求内容匹配较高的信息。实验结果表明算法在时间复杂度和空间复杂度是高效的,而且具有较好的性能。
王德兴[4]2006年在《基于概念格模型关联规则挖掘的关键问题研究》文中研究表明关联规则挖掘是数据挖掘领域的一个重要分支,在研究及应用方面已取得了很大的进展。然而,由于现实世界数据的海量、异构和数据类型的多样性、结构的复杂性等特点,对关联规则挖掘的研究提出了新的课题。本文将具有完备特性的概念格模型引入到关联规则挖掘的研究,针对关联规则挖掘的模型、方法以及数据归约等方面开展了研究,主要内容及创新工作如下:1.在研究概念格模型和频繁项目集关系的基础上,提出了基于概念格模型的项目集表示和求解方法。研究表明,每个项目集一定作为概念格中某个概念的内涵或内涵的子集出现,借助于概念之间的关系可从每个概念导出多个项目集。因此,概念格中概念的数量比事务数据库中项目集的实际数量有显着的减少,在不丢失有效信息的前提下,较利于实现更大规模的数据库中知识发现;通过删除概念格中非频繁项目集对应的概念而得到的剪枝概念格能有效地压缩数据库规模,进而为在大规模数据库中进行关联规则挖掘提供了有利的条件。2.研究了基于剪枝概念格的关联规则挖掘求解。提出顺序剪枝和同步剪枝概念格的构造算法。顺序剪枝概念格构造算法以插入记录方式的Godin概念格构造算法为基础,通过一遍扫描数据库来构造概念格,在构建完毕后,依据Apriori性质实现剪枝,得到剪枝概念格;同步剪枝概念格构造算法以插入属性方式动态地构造概念格,在插入属性构造概念格的过程中,依据Apriori性质实现剪枝,得到剪枝概念格。两种构造算法各有特点和适用性。基于剪枝概念格挖掘关联规则,减少相应的搜索空间,提高关联规则挖掘的效率。3.研究了多层、多属性的归纳。实际数据库中的属性值之间的层次差异较大,需要进行必要的数据归约。经典的属性归纳方法存在主观因素制约的问题,可能会影响到有价值模式的发现。为此,将概念格模型引入多层、多属性的归纳,提出了基于概念格的属性归纳,采用概念的爬升进行相应的泛化,并进行多层、多属性的归纳。与面向属性归纳AOI算法相比较,基于概念格的属性归纳不仅可实现AOI的单一属性归纳,也能进行多层、多属性的归纳,属性归纳的路径不惟一,并易于寻找合适的泛化路径和阈值,从而得到用户要求的、合理的属性归纳结果,以便挖掘合适颗粒度的关联规则。
申静[5]2011年在《隐私保护的关联规则挖掘在商务智能中的应用研究》文中提出随着网络贸易的飞速发展,越来越多的企业迫切需要高效、精确、安全地收集分析数据,挖掘出潜在的商机,在激烈的现代竞争中出奇制胜。面对大量分布零散、无法集中处理的数据信息和企业对信息集中整合利用的迫切需求,商务智能由此应运而生。本文分析了商务智能的研究现状,针对商务智能中的关联规则挖掘技术展开了深入研究,重点研究了多层次的关联规则挖掘和隐私保护的关联规则挖掘,以完善商务智能分析决策的准确性和安全性。本文主要内容如下:(1)针对商务智能系统的安全性和智能性问题展开深入分析,综述了商务智能、商务智能的数据挖掘技术和商务智能的隐私保护技术的研究现状。(2)介绍了商务智能的相关概念、体系结构、工作流程等,商务智能对于客户关系管理的作用,分析了商务智能系统的关键技术,重点研究了数据挖掘的相关理论和技术。(3)介绍了关联规则的基本概念、性质以及经典的Apriori算法,然后重点介绍了正负关联规则和多层关联规则,针对正负关联规则可以挖掘低频率、强相关规则,但同时也会产生大量冗余无趣规则的问题,把多最小支持度和正负关联规则相结合,提出了基于多最小支持度的正负关联规则方法。通过实例分析和仿真验证说明了该方法不仅可以得到很多有意义的负关联信息,同时剔除了大量无意义的规则,减少了搜索空间。针对多层关联规则中交叉层规则挖掘的问题,把粒度和多层关联规则相结合,给出一个计算简单的基于粒度的多层关联规则挖掘方法。通过实例分析和仿真验证说明了该方法不仅可以挖掘低频的低层规则和高频的高层规则间的信息,同时也去除了“祖先”规则中包含的冗余子规则。(4)介绍了当前隐私保护技术,特别是隐私保护关联规则挖掘技术,并针对商务智能研究需要多数据库联合分析产生的隐私保护问题,把安全多方计算应用于多层关联规则挖掘中,并给出了实例、仿真分析与理论证明。
徐琛钧[6]2007年在《数据挖掘在分析型CRM中的应用研究》文中研究说明分析型CRM旨在增加CRM系统的商业分析与辅助决策能力。要实现分析型CRM的主旨,从大量交易数据中提取出隐含有用的信息,需要先进的数据分析方法。基于数据挖掘的分析型CRM的应用研究能帮助企业解决利润增长的瓶颈问题,因而越来越受到研究者的重视。本文主要做了如下工作:针对数据挖掘系统与应用领域结合的发展趋势,设计了集针对性和灵活性于一体的多层数据挖掘体系结构,并将其应用于分析型CRM系统中。同时当前企业越来越多的应用电子商务门户站点来进行产品宣传,网上营销和用户沟通,而网站的数据也日益成为分析型CRM数据的主要来源,企业需要做到从这些特殊的数据中分析出有用的客户知识。本文在设计分析型CRM系统架构时候,引入Web数据挖掘这一功能,同时对Web数据分析业务流程进行了探讨。本论文对数据挖掘技术中两种常用的挖掘方法进行了深入的分析。将布尔关联规则挖掘算法中最成功的一类算法:Apriori算法引入到交叉销售应用中,增强了系统的实用性能。将分类算法SPRINT算法引入到客户分类中,通过增强对大数据量的处理能力,从而提高了分类的准确性,增加了CRM中相关决策的可信性。在此基础之上,本文着重通过具体案例按照研究主题进行数据组织,在零售业中一方面具体运用关联规则对产品进行分析,另一方面具体运用SPRINT算法对顾客进行分类分析。
胡小春[7]2012年在《基于数据仓库的联机分析挖掘技术的研究》文中研究表明处在信息膨胀的社会环境当中,人们对信息处理分析的要求和关注正在逐渐提高。因此,各种高效的数据分析处理技术便成为目前信息技术领域的研究热点。OLAP技术与DM技术都是数据分析的关键技术,在决策分析过程中两者可以分工合作、功能互补。联机分析处理技术(OLAP)(?)能够根据用户提出的假设进行多维分析,最终得到对假设肯定或者否定的回答,因而它很容易受用户的主观性抑制从而影响分析结果的正确性;而数据挖掘技术(DM)一旦确定了挖掘算法就会立即自动执行,整个挖掘的过程用户无法介入,具有一定的盲目性,如何把两者结合起来,提高数据分析技术的效率与实用性,己经成为目前这一研究领域的焦点问题。因此,J.W.HAN于1997年提出了OLAM这一概念,它结合了二者的优点,实现了在OLAP基础上进行交互式数据挖掘的方法。OLAM挖掘机制的关键在于高效的数据挖掘算法,本论文选择了具有广泛应用的关联规则挖掘算法进行分析研究,并对关联规则中多维多层的关联规则进行了深入研究。本文在研究OLAM体系结构的基础之上,提出了一种基于数据立方体的多维多层挖掘的系统结构。该论文在对关联规则挖掘、OLAP、数据立方体等相关概念研究的基础上,总结分析了现有的基于数据立方体的多维多层关联规则的挖掘算法,并进行了一定的改进:首先,把OLAP的钻取操作引入搜索过程,通过动态调整立方体的维层次,挖掘出用户感兴趣的关联规则;其次,在频繁谓词集的生成过程中,通过散列技术过滤候选频繁谓词集,提高了算法的性能;最后,引入了基于后件的关联规则产生算法来减少冗余规则的出现,提高了规则的兴趣度。在本文的最后,对算法的主体部分进行了实验测试,验证了改进后算法的有效性。
绳英英[8]2009年在《多维多层关联规则算法研究》文中提出随着数据库规模的日益扩大和数据挖掘技术的繁荣发展,关联规则技术也得到了蓬勃的发展,并正朝更为广泛和深入的方向继续发展。关联规则挖掘算法是关联规则挖掘研究的主要内容。提高关联规则的效率关键是提高关联规则算法的效率。Apriori算法是一种最有影响的挖掘单维布尔型关联规则频繁项集的算法。Apriori算法存在两大瓶颈问题:一是候选项目集的数量,二是事务数据库的扫描次数。同时Apriori算法是单维布尔型的。与经典的关联规则研究相比,目前的主要研究内容已经从单维单层次扩展到多维多层次的挖掘。运用抽象层次的概念,可能会发现新的更为抽象的规则。在实际应用中,应该从不同的角度不同的层面上进行挖掘,这种条件下产生的强关联规则对人们来说更有用。因为现在的数据多是以多维的形式存在,并且存放在关系数据库中。因此本文主要是把单维布尔型关联规则算法Apriori算法扩展到多维多层关系数据挖掘上去。本文在对数据挖掘及关联规则技术深入细致研究的基础上做了以下工作:(1)分析了关联规则的经典算法Apriori算法,包括算法思想、算法的主要步骤及算法伪码,并分析了其存在的问题,列出了一些提高Apriori有效性的方法。(2)在充分消化吸收经典Apriori算法的基础上提出了改进的算法,改进后的算法是适于挖掘多维关系数据的。主要描述了改进后算法的思想、算法的伪码及算法的理论正确性分析。(3)对改进后的算法的性能与Apriori算法的性能进行了比较试验,实验结果证明了改进后的算法在多维度等方面的优越性。在本文的最后,进行了文章总结和进一步工作的展望。
谢佳斌[9]2007年在《基于数据挖掘的预测决策方法研究》文中进行了进一步梳理随着科技的发展和网络化时代的到来,凭借数据库技术和数据库管理系统,人们收集、存储数据的能力得到显着提高。如何有效地分析这些数据,预测未来,并辅助决策成为摆在人们面前的一大课题。在面对海量、复杂的数据和实时分析的要求时,传统的预测决策方法在诸多方面存在不足之处。而基于数据挖掘的预测决策方法则能有效地弥补上述不足,展现出其强大的生命力。本论文便是这一课题的有益探讨。本文所做的主要工作有:(1)回顾了数据挖掘的发展历程、功能、应用和流程,对数据挖掘未来的发展进行了展望。同时,总结了数据挖掘和统计学这两门学科的异同。(2)关联规则挖掘技术的分析与研究。在对经典的关联规则挖掘理论进行系统表述的基础上,介绍了经典的关联规则算法Apriori及各种改进算法,并给出如何利用R软件去应用这些算法。(3)研究了序列模式挖掘。同样地,对经典的序列模式挖掘理论进行了系统表述,并比较了关联规则挖掘和序列模式挖掘之间的异同。同关联规则挖掘一样,序列模式挖掘也需借助相应的算法,本论文给出了叁种序列模式挖掘算法。(4)时间序列挖掘研究。主要探讨了时间序列挖掘中的趋势分析、基于ARMA模型序列匹配方法的相似序列挖掘和周期分析。(5)利用模拟数据,借助R和Clementine软件,研究了关联规则挖掘如何应用于购物篮分析,以辅助营销决策。
贾桂霞[10]2006年在《数据挖掘中关联规则及应用的研究》文中指出本文主要研究关联规则挖掘理论及其算法模型在粗糙集知识表中的应用。首先,在文中系统介绍了数据挖掘的定义、方法、发展方向,针对其中的关联规则挖掘,讨论了各类关联规则算法。由于关联规则挖掘方法会产生大量规则,为了挖掘出用户感兴趣的规则,本文提出一种利润约束的关联规则挖掘算法。此外,借鉴关联规则算法模型的思想,提出一种获取缺省规则的新方法MDRBapriori,从决策表中提取具有一定支持度和可信度阈值的不确定规则。在本文中,主要做了以下工作: (1)给出了关联规则的定义,说明了挖掘关联规则的意义,研究了关联规则挖掘的步骤,并且探讨了关联规则挖掘存在的问题及发展方向。 (2)针对关联规则算法存在的一些问题,详细分析了目前提出的有关关联规则兴趣度的各种主观和客观评价方法。本文引入企业关注的领域知识——利润,提出基于利润约束的关联规则挖掘方法,以增强规则的有趣性,提高规则挖掘的针对性。 挖掘出的关联规则,加上利润度量,就可以分析出哪些商品的搭配可以获得最大的利益。一般的关联规则只是单纯的项目与项目之间的一种关系,典型的就是买A的同时会买B的可能性的一种趋势分析。而我们加入量化参数利润分析关联规则,拓宽了关联规则的表达能力,让决策者对于关联规则的意义有更进一步的认识,并从中找出能使销售利润最大化的最佳商品促销方案。 在关联规则算法的“支持度——置信度”框架中,是从“大处”着眼,关注的是出现频数较高的项目集,要挖掘符合用户预期的利润要求的模式,不得不从“小处”着眼,这是因为存在着“20%的业务带来80%的利润”这样的领域知识。本文利用相对支持度的概念来挖掘稀有数据,再进一步结合利润量参数作为约束条件,这样就可以求出零售事务数据库中所有满足用户利润要求的关联规则,不论其支持度的高低,都可以运用本文的算法挖掘出来。 (3)简要介绍了粗糙集的基本概念以及一般的属性约简方法,着重分析了Mollestad和Skowron提出的缺省规则的发现算法——投影算法的算法框架及性能。 (4)针对投影算法的一些不足,扩展了缺省规则的定义,提出一种获取缺省规则的新算法——MDRBapriori算法。本文通过对投影算法和关联规则算法模型的详细分析,发现它们求解问题的实质是相同的,因而具有一种方法被另一种方法替代的可能性。因此,基于Apriori算法提出缺省规则挖掘的新算法MDRBapriori算法,它是独立于粗糙集方法但可以获取大致相同的规则的一种方
参考文献:
[1]. 基于利润分析的多层关联规则研究[D]. 张云健. 重庆大学. 2004
[2]. 基于聚类的多层关联规则挖掘算法研究与改进[D]. 何晴. 上海师范大学. 2017
[3]. 基于本体的多层关联规则算法与知识管理模型研究[D]. 赵京涛. 大连交通大学. 2009
[4]. 基于概念格模型关联规则挖掘的关键问题研究[D]. 王德兴. 合肥工业大学. 2006
[5]. 隐私保护的关联规则挖掘在商务智能中的应用研究[D]. 申静. 河北工程大学. 2011
[6]. 数据挖掘在分析型CRM中的应用研究[D]. 徐琛钧. 安徽理工大学. 2007
[7]. 基于数据仓库的联机分析挖掘技术的研究[D]. 胡小春. 西安工业大学. 2012
[8]. 多维多层关联规则算法研究[D]. 绳英英. 江苏科技大学. 2009
[9]. 基于数据挖掘的预测决策方法研究[D]. 谢佳斌. 暨南大学. 2007
[10]. 数据挖掘中关联规则及应用的研究[D]. 贾桂霞. 兰州理工大学. 2006
标签:计算机软件及计算机应用论文; 关联规则论文; 数据挖掘论文; apriori论文; 层次聚类方法论文; 聚类分析论文; 数据挖掘算法论文; 多维数据库论文; 层次模型论文; 商务智能论文; 算法论文;