导读:本文包含了事务间关联规则论文开题报告文献综述及选题提纲参考文献,主要关键词:事务型数据,关联规则,FP-Growth,信息熵
事务间关联规则论文文献综述
程国尧[1](2019)在《基于信息熵的事务型数据关联规则挖掘研究》一文中研究指出数据挖掘是大数据时代蓬勃发展的新技术,它通过计算机技术对庞大且复杂的数据库进行数据分析,解决传统统计学无法解决的问题。关联分析是数据挖掘研究中的一个重要分支,又被称作关联规则挖掘。它主要面向的数据类型是事务型数据,用于探寻事物间的关联关系。FP-Growth算法作为关联规则挖掘中的经典算法,通过分而治之的策略发现数据集中各项目间的关联关系。但是,由于其视数据集中各项目“平等一致”的缺陷,会导致挖掘过程中一些重要的关联关系遗漏。因此,加权关联规则挖掘应运而生。然而,现有的加权关联规则算法也存在局限性:没有考虑到数据集系统本身的混乱程度或不确定性。本论文将通过研究事务型数据,提出一种改进的加权关联规则挖掘算法,可有效处理高度混乱的事务型数据集,发现更多潜在或有价值的关联关系。本论文主要包括以下四个方面的内容:第一,从传统统计学以及数据挖掘的角度研究事物间的关联问题,并对事务型数据的类型和特点进行了归纳和总结;第二,对关联分析的相关理论进行了研究和探讨,分析了经典关联算法将数据集中各项目视作“平等一致”的问题,并对现有的一些关联分析算法进行了研究;第叁,针对现有加权关联算法不能解决数据集系统本身混乱程度,从而导致在挖掘结果中潜在的关联关系遗漏的问题,引入信息熵的相关理论,提出基于FP-Growth的加权关联规则挖掘改进算法——IEFP-Growth;第四,分别采用经典FP-Growth与IEFP-Growth算法挖掘Crime数据集中的关联规则,对关联结果进行分析与对比,发现改进的算法确实能够发现与经典算法不同且有价值的关联规则,并研究了其适用条件;同时,通过挖掘检验数据集——IMDB数据集中的关联规则,验证了算法对不同数据集的适用性。研究结果表明:第一,由于各项目的重要程度不尽相同,因此对项目加权是关联规则挖掘算法过程中必要的改进;第二,改进的算法——IEFP-Growth在处理庞大的事务型数据集时,通过引入信息熵加权模型用以量化信息的不确定性,确实能够有效挖掘数据集中的关联关系;第叁,改进关联算法相比于经典关联算法,挖掘到的关联规则既有相同也有不同的结果,在挖掘关联关系时能够发现一些潜在的或有价值的关联规则,具有一定的适用条件。在实际应用中若将两者结合使用,可以使得挖掘到的关联关系更加丰富完整。(本文来源于《华南理工大学》期刊2019-04-13)
田榆杰,宋耀莲,龙华,张漪[2](2019)在《基于兼存率与单项事务的关联规则优化算法》一文中研究指出文中研究基于兼存率(多个项同时存在的概率)与单项事务(仅包含一个项的事务)筛选提出关联规则优化算法ARO,通过对数据集D中每个项与事务T进行处理来过滤无用或干扰的数据,从而得出更加准确、显着的关联规则。实验结果表明,在标准数据集中,对比传统算法META,ARO算法在关联规则分析的显着性与准确性方面均有性能提升。(本文来源于《信息技术》期刊2019年01期)
孙雅琦[3](2016)在《多元时间序列流跨事务关联规则挖掘》一文中研究指出随着经济的发展,在金融,医药,地质,气象,电子商务,传感器网络等很多领域都会产生大量的时间序列数据。挖掘时间序列中隐藏的关联关系并且对于后续时间序列进行预测是一个重要的研究方向,对于生产生活具有十分重要的意义。由于时间序列流一般数据量比较大,数据随着时间变化,具有连续性等特点,所以难以采用传统的关联规则挖掘方法直接对时间序列进行有效挖掘。目前对于时间序列数据流关联规则挖掘已经有一定的研究成果。这些研究多针对单时间序列和事务内关联规则的挖掘。而且通常在已经模式化的时间序列上进行关联规则挖掘,对于多时间序列流的跨事务关联规则挖掘的深入研究比较少,且对于关联规则的研究通常忽略了顺序性,大多不能实现增量挖掘关联规则。本课题在时间序列预处理阶段采用ITEO(Improved TEO)的分段线性表示方法,对时间序列数据进行压缩表示。在时间序列聚类时提出IK-Means算法,增加聚类的类间间距,降低了随机选择初始聚类中心的不确定性。本课题采用3个参量(时间长度,数值截距占最低点比率,线段斜率)表示模式,进行归一化度量相似度。在关联规则挖掘过程,设计了基于多时间序列跨事务关联规则的十字链表表示(IAMTL)方法。基于这种存储结构能够表示多条时间序列在固定的时间T内的关联,在时间序列关联规则中加入固定时间T限制,增强关联规则的顺序性。I-IAMTL算法采用修正支持度和置信度,增量的挖掘关联规则,更加符合时间序列数据的特点。在算法挖掘出的关联规则的验证部分采用前后件窗口(PCW)的方法对于关联规则预测的准确性进行了验证。在实际热电厂的数据和股票数据集上通过将已有算法与本课题的IAMTL和I-IAMTL算法对比,显示了本课题所提算法的有效性。(本文来源于《哈尔滨工业大学》期刊2016-12-01)
马玉玲[4](2015)在《基于clustering算法的事务抽样关联规则挖掘算法》一文中研究指出关联规则挖掘典型算法Apriori由于在频繁项集的生成时,需要多次扫描数据库,空间和时间耗费较大。之后虽然有很多Apriori算法的改进版本,但大多是从数据存储结构的角度,少有研究考虑到数据集本身的性质。对此提出了基于clustering算法的事务抽样关联规则挖掘算法,通过聚类技术对事务进行聚类,得出能够反映原始交易数据特征的事务子集,然后,在该子集上开展挖掘分析工作。该方法在8个不同规模人造数据集和1个真实数据集上进行了实验。其中,在较小规模人造数据集上,时间比原方法节省0.03 s;规模越大,节省时间越多,在大小为15 000、维度为30的数据集上运行时,比原方法节省了70 s;在真实数据集上,不同参数设置下该方法耗时仅为原方法的50%。实验证明,该方法与传统Apriori算法相比,效率较高,尤其在数据量大时,效果提升更明显。该算法的思想也可以扩展应用到其他改进的Apriori算法中。(本文来源于《计算机应用》期刊2015年S2期)
崔亮,郭静,吴玲达[5](2015)在《一种基于动态散列和事务压缩的关联规则挖掘算法》一文中研究指出关联规则挖掘搜索给定数据集中反复出现的数据模式,找到它们之间的相关性。分析了经典Apriori算法存在的时空效率低的缺点和数据形式对算法效率的影响。提出一种基于动态散列和事务压缩技术的改进,动态应用散列技术减小候选频繁项集的规模和数据库扫描次数,应用事务压缩技术缩小数据库中事务量的长度和总数,从而提高了算法的时间空间效率。与Apriori算法进行的比较验证了新算法的正确性与效率。(本文来源于《计算机科学》期刊2015年09期)
张诤,王惠文[6](2015)在《大规模数据集事务间关联规则挖掘方法研究——大数据挖掘方法研究之二》一文中研究指出文章针对具有时间约束的大规模事务数据间关联规则挖掘问题,设计了一种时间约束频繁项目关系矩阵数据结构,并在此基础上,提出了时空性能优越的基于时间约束频繁项目关系矩阵的事务间关联规则挖掘方法。并通过示例和实验,对所提方法的逻辑可行性、有效性和适应性进行了验证。(本文来源于《生产力研究》期刊2015年01期)
李春青,李海生[7](2014)在《基于事务间关联规则的数据挖掘算法研究》一文中研究指出结合模糊集和不确定性推理等理论,对数据挖掘诸多问题进行了系统的描述,尤其注重详细介绍关联规则问题。在研究现有算法的基础之上,提出自己的基于变换矩阵形式的相似度量基础上的多维事务间及事务间关联规则的挖掘算法及模型,从而使得挖掘效率得到提高。(本文来源于《福建电脑》期刊2014年12期)
胡维华,冯伟[8](2014)在《基于分解事务矩阵的关联规则挖掘算法》一文中研究指出Apriori算法是数据挖掘领域挖掘关联规则频繁项目集的经典算法,但该算法存在产生大量的候选项目集及需要多次扫描数据库的缺陷。为此提出一种新的挖掘关联规则频繁项目集算法(CApriori算法):利用分解事务矩阵来压缩存放数据库的相关信息,进而对分解事务矩阵进行关联规则挖掘;优化了由频繁k-1项目集生成频繁k项目集的连接过程;提出了一种不需要扫描数据库,利用行集"与运算"快速计算支持数的方法,改进算法挖掘所有的频繁项目集只需扫描数据库两次。实验结果表明,改进算法在最小支持度较小时效率高于Apriori算法。(本文来源于《计算机应用》期刊2014年S2期)
赵佳璐,杨俊,韩晶,鄂海红[9](2013)在《基于事务ID集合的带约束的关联规则挖掘算法》一文中研究指出为解决在挖掘关联规则时存在大量冗余规则以及效率不高的问题,提出了一种基于事务ID集合的带约束的关联规则挖掘算法ACARMT。该算法结合了Separate算法以及基于数据垂直分布算法的优势,先根据约束条件产生基础频繁项目集,再利用事务ID集合存储项目集信息,从而避免重复扫描数据库,提高了挖掘效率。应用该算法挖掘实际的生殖健康数据的实验表明,在数据量大到超出基于数据垂直分布算法的使用范围时,该算法仍然有效,并且其效率优于Sepa-rate算法。(本文来源于《计算机工程与设计》期刊2013年05期)
张云洋,刘芳[10](2012)在《基于维间扩展和事务压缩的关联规则算法改进》一文中研究指出Apriori是关联规则挖掘的经典算法,在利用该算法进行医疗数据挖掘的过程中,发现其频繁项集产生过程有一些不必要的开销,为此提出了改进算法Mypriori,利用维间扩展和事务压缩策略来提高频集发现的效率,并通过实验验证了算法的有效性。(本文来源于《计算机时代》期刊2012年09期)
事务间关联规则论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
文中研究基于兼存率(多个项同时存在的概率)与单项事务(仅包含一个项的事务)筛选提出关联规则优化算法ARO,通过对数据集D中每个项与事务T进行处理来过滤无用或干扰的数据,从而得出更加准确、显着的关联规则。实验结果表明,在标准数据集中,对比传统算法META,ARO算法在关联规则分析的显着性与准确性方面均有性能提升。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
事务间关联规则论文参考文献
[1].程国尧.基于信息熵的事务型数据关联规则挖掘研究[D].华南理工大学.2019
[2].田榆杰,宋耀莲,龙华,张漪.基于兼存率与单项事务的关联规则优化算法[J].信息技术.2019
[3].孙雅琦.多元时间序列流跨事务关联规则挖掘[D].哈尔滨工业大学.2016
[4].马玉玲.基于clustering算法的事务抽样关联规则挖掘算法[J].计算机应用.2015
[5].崔亮,郭静,吴玲达.一种基于动态散列和事务压缩的关联规则挖掘算法[J].计算机科学.2015
[6].张诤,王惠文.大规模数据集事务间关联规则挖掘方法研究——大数据挖掘方法研究之二[J].生产力研究.2015
[7].李春青,李海生.基于事务间关联规则的数据挖掘算法研究[J].福建电脑.2014
[8].胡维华,冯伟.基于分解事务矩阵的关联规则挖掘算法[J].计算机应用.2014
[9].赵佳璐,杨俊,韩晶,鄂海红.基于事务ID集合的带约束的关联规则挖掘算法[J].计算机工程与设计.2013
[10].张云洋,刘芳.基于维间扩展和事务压缩的关联规则算法改进[J].计算机时代.2012