导读:本文包含了并行关联规则论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:规则,算法,数据挖掘,数据,增量,重构,频繁。
并行关联规则论文文献综述
刘莉萍,章新友,牛晓录,郭永坤,丁亮[1](2019)在《基于Spark的并行关联规则挖掘算法研究综述》一文中研究指出关联规则挖掘是数据挖掘的一个重要分支,但随着数据的快速增长,传统关联规则挖掘算法不能很好地适应大数据的要求,需要在分布式、并行计算的平台上寻找突破。Spark是专门为大数据处理而设计的一个适合迭代运算的并行计算模型,相比MapReduce具有更高效、充分利用内存、更适合迭代计算和交互式处理的优点。对已有的基于Spark的并行关联规则挖掘算法进行了分类和综述,并总结了各自的优缺点和适用范围,为下一步的研究提供参考。(本文来源于《计算机工程与应用》期刊2019年09期)
许德心,李玲娟[2](2019)在《基于Spark的关联规则挖掘算法并行化研究》一文中研究指出关联规则挖掘是一项重要的数据挖掘任务,关联规则挖掘算法能从数据中挖掘出潜在的关联关系,其中Apriori算法是典型代表。Spark平台是一个分布式的基于内存的适合迭代计算的大数据框架。以提高强关联规则的挖掘效率为目标,设计了一种Apriori算法基于Spark的并行化方案。该方案利用Spark平台的分布式架构以及集群调度机制,将事务数据集分发给多个子节点,各子节点调用transformation操作求得局部候选项集及支持度,并存储于内存中;汇总节点中的局部候选项集产生全局候选项集和全局频繁项集;不断迭代,直到下一级候选项集不存在为止。性能测试实验结果表明,基于Spark平台的并行化Apriori算法可以有效地分析大型数据项集之间的频繁项集和提取强关联规则,具有较高的准确性和时效性。(本文来源于《计算机技术与发展》期刊2019年03期)
李琪[3](2018)在《基于MapReduce并行的关联规则挖掘算法研究与应用》一文中研究指出随着计算机软硬件技术和互联网的普及与发展,来自各行各业的海量数据被记录和存储了下来,并呈现出爆炸式的增长。随着数据量的不断增长和数据内容越来越全面,从中我们可以了解到用户的行为习惯、用户的价值观念等重要的信息,这是传统的数据所不具备的。而这些信息和知识又反过来可以指导公司或者厂商进行对应的改进,获得更高的收益。所以说,海量的数据背后隐藏着巨大的价值,亟待被挖掘和开发。因此,数据挖掘方面的研究日渐成为人们所聚焦的对象。身为数据挖掘一个重要组成部分的关联规则挖掘,也日益被人们所重视。鉴于原有的静态数据挖掘中获取频繁模式效率较低的问题,本文围绕着关联规则算法的优化和改进进行了一系列的分析和研究。首先,简要介绍了有关数据挖掘的知识和技术,以及关联规则所涉及的相关内容,包括各种不同种类的算法、步骤等。然后本文详细介绍了用于关联规则挖掘的经典算法Apriori以及目前较为流行的基于压缩矩阵的关联规则挖掘算法,并针对他们的问题进行分析和探讨,从而提出了一种改进和优化的MAR-DPS算法。MAR-DPS算法不仅具有一系列的深度剪枝策略,从而尽可能的减少候选项集的生成,而且还可以根据不同数据集的特点,选择不同的生成频繁2-项集的方式,从而尽可能的节约时间。我们在之后的实验部分分别使用了 3个数据集来验证算法的良好性能。考虑到现在的数据挖掘所面对的是比过去大几十倍甚至更多的数据量,现有的单节点的挖掘方式在执行时间和效率上已经不能满足我们的要求,因此,并行计算技术成为我们可以尝试的选择。目前成熟和流行的可以进行并行计算的分布式框架主要有Apache Hadoop和Apache Spark。两个不同框架的特点各不相同:Hadoop适合于离线数据的计算处理、不需要多次迭代的场景,而Spark基于内存进行计算的模式更加适应迭代计算。而且相比Hadoop提供的低抽象层次的模型,Spark提供的多种算子可以让使用者更专注于任务而不是代码本身。因此,我们尝试将MAR-DPS算法迁移到Spark分布式平台上,从而更加从容的面对海量数据所带来的困难和压力,并高效的搜寻出海量数据中的关联规则。(本文来源于《北京邮电大学》期刊2018-03-14)
王诚,赵申屹[4](2018)在《一种改进的并行关联规则增量更新算法研究》一文中研究指出传统的基于频繁模式增长的并行关联规则算法在处理动态更新的数据集时,需要把更新后的数据集全部压缩到频繁模式树中,消耗了大量时间和存储空间,且没有充分考虑头表分组过程中组间负载量不同的问题。针对在关联规则的实际挖掘过程中,数据集快速增长所造成的增量更新问题,基于并行频繁模式增长PFP-tree算法,结合Spark分布式并行处理框架,提出一种改进的并行关联规则增量更新算法。在增量更新过程中,为了减少挖掘时间和存储空间,利用已有挖掘结果对新增数据集构建频繁模式树。通过改进头表分组策略,实现了并行挖掘节点之间的负载均衡。实验分析表明,相较于传统的关联增量更新算法,该算法是可行的且具备较高的挖掘效率和可扩展性,适用于动态增长的大数据环境。(本文来源于《计算机技术与发展》期刊2018年07期)
邵全义,郭雯雯[5](2018)在《Map Reduce计算模型下并行关联规则挖掘算法研究》一文中研究指出随着大数据时代的来临,数据的量呈现出了爆炸式的增长,在数据挖掘技术上面,传统的算法的弊端逐渐暴露。对于数据挖掘来说,其中最为核心就是关联规则的挖掘,大数据下对数据挖掘的要求不断增加,开发分布式以及并行的关联规则挖掘算法已经逐渐成为当下数据挖掘的重要课题,而Map Reduce就是一种现今较为流行的分布式并行的计算模型,该文就以Map Reduce计算模型进行探讨,对相关的概念进行介绍,并对未来的数据挖掘算法的走向进行展望,希望能够促进关联规则挖掘算法的发展。(本文来源于《电脑知识与技术》期刊2018年05期)
戴伟敏[6](2017)在《云平台下关联规则算法并行化研究与实现》一文中研究指出针对传统关联规则Apriori算法在挖掘关联规则时需多次扫描事务数据库,增加系统I/O、通信的开销等性能问题,进行了算法的改进,改进后的算法D_Apriori通过去除候选集并结合布尔矩阵方式来压缩存储事务数据,从而减少事务数据库的扫描次数,并借助Hadoop平台的MapReduce并行编程模式,实现D_Apriori算法并行化,简化了生成候选项的连接步骤,同时在计算的过程中对事务进行压缩,提高了运算速度,改善了算法的性能,最后通过实验进行对比分析表明改进后的并行算法能较好地降低挖掘频繁项集时的I/O和通信开销,具有高效性与良好的加速比.(本文来源于《哈尔滨师范大学自然科学学报》期刊2017年05期)
肖文,胡娟,周晓峰[7](2018)在《基于MapReduce计算模型的并行关联规则挖掘算法研究综述》一文中研究指出随着数据的爆炸式增长,传统的算法已不能适应大数据挖掘的需要,需要分布式、并行的关联规则挖掘算法来解决上述问题。MapReduce是一种流行的分布式并行计算模型,因其使用简单、伸缩性好、自动负载均衡和自动容错等优点,得到了广泛的应用。对已有的基于MapReduce计算模型的并行关联规则挖掘算法进行了分类和综述,对其各自的优缺点和适用范围进行了总结,并对下一步的研究进行了展望。(本文来源于《计算机应用研究》期刊2018年01期)
张玲[8](2017)在《基于Hadoop平台并行关联规则挖掘算法研究》一文中研究指出数据规模的爆炸性增长给传统计算机技术和串行算法带来挑战,同时也带来了新的发展机遇。“大数据”顺应而生。大数据使串行化关联规则算法需要重写,串行算法的并行化迫在眉睫,并行计算和大数据平台的应用是好的解决方案。关联规则用于发现信息与信息之间存在的关系,是重要的数据挖掘任务。关联规则传统算法Apriori算法和FP-Growth算法处理大数据时,单机处理发生内存溢出情况。使用Hadoop进行关联规则研究,降低编程难度,数据分片,因此Hadoop上关联规则并行算法研究是一个重要课题。针对此问题,本文进行了如下研究:(l)研究了 H-Apriori(Apriori algorithm based on Hadoop)算法并改进其算法。大数据环境下,Apriori串行算法难以处理海量数据,H-Apriori算法的中间过程产生大量值为1的键/值对,并且读取全部的事务,以致产生了大量的候选项并消耗了运算时间。本文采用删除非频繁项达到减少冗余数据的目的。重构数据库,优化读取事务步骤,提出了基于Hadoop的改进算法。有效约简了事务数据库,使用哈希树计数减少计数时间,提高了算法效率。(2)提出了一种基于Hadoop平台的负载均衡数据分割FP-Growth的改进算法。大数据环境下,FP-Growth串行算法难以处理海量数据,PFP(ParallelFP-Growth)难以处理一定量的数据。改进算法使用负载量估计、改进的均衡化分组方法进行均衡化分组,克服了 PFP数据量增大不能处理、负载不均衡的缺点。改进算法可以有效平衡集群各节点的负载,缩短整个集群的算法运行时间。搭建大数据Hadoop平台框架后,进行了对比实验。通过权威数据验证算法实效性。实验表明,改进算法能够更好的适应大数据,并且效率较高。(本文来源于《西安科技大学》期刊2017-06-01)
于跃[9](2017)在《基于Hadoop平台的并行化分布式关联规则挖掘算法研究》一文中研究指出随着近些年科学技术的飞速发展,人们日常生活中通过计算机、手机等终端平台进行的一系列行为都会产生大量的数据,而产生数据、获取数据的方式也在与日俱增。在当今这个数据时代的大背景下,各种数据都以急速的势态不断增长,能够达到日产数据量几百TB乃至PB级别的大型网络企业屡见不鲜。如何从如此庞大的数据库中快速、高效、准确地获取信息,是现今计算机科学研究的热点之一。并行化分布式挖掘算法是针对可能存在的跨地域的海量数据进行分析的一种重要手段,具有非常重要的研究意义和实用价值。关联规则挖掘算法是经典的数据挖掘算法之一,具有很强的学习价值和参考价值。传统的关联规则挖掘算法会将候选集一一缓存输出,在并行化的前提下还要进行网络交换。但是在大数据量的背景下,生成的候选项目集会出现暴增的情况,容易对机器的内存造成负担,影响算法的效率。针对算法原有的缺陷,本文提出一种优化算法Y-IDA算法,直接在内存中将合并计数的过程完成,替代传统的将候选集逐一输出的方法来优化算法,同时修改Hadoop接口,改变Map Reduce的读入模式,利用生成的首个频繁项集对数据库进行清洗,降低了内存消耗和CPU占用时间,提高了算法的执行效率。本文主要工作包括:1)实现基本算法串行Apriori,为后续并行化打下基础;2)针对并行化的Apriori算法提出了优化算法Y-IDA,该算法在内存中将合并计数的的过程完成,替代传统的将候选集逐一输出的方法,同时改变Map Reduce传统的读入模式,减少执行过程中的通讯量,并且在生成候选1项集后对数据进行清洗,去除无效数据;3)在Hadoop平台上实现关联规则算法的并行化,在现有的实验条件下提出实验方案,验证了Y-IDA算法的结果与经典算法相同,分别在时间效率、内存消耗、磁盘读写、CPU占用等方面进行详细比对。结合本文工作,通过Hadoop完全分布式平台,采用数据挖掘离散测试数据进行实现,可以得到的结果是:改进后的算法可以缩短执行时间,在内存消耗、CPU占用、磁盘I/O读写方面都有较好的表现,得到改进的算法具有可行性和普遍意义的结论。(本文来源于《吉林大学》期刊2017-04-01)
厍向阳,张玲[10](2018)在《基于Hadoop的FP-Growth关联规则并行改进算法》一文中研究指出大数据环境下,传统的串行FP-Growth算法在处理海量数据时,占用内存过大、频繁项多,适用于大数据情况的PFP(parallel FP-Growth)算法存在数据量增大无法处理的缺陷。针对这些问题,提出了基于Hadoop的负载均衡数据分割FP-Growth并行算法。在Hadoop平台下,使用负载均衡和数据分割相结合的方式对原始事务数据集分片实现并行化。实验证明,基于Hadoop的负载均衡数据分割FP-Growth并行算法在处理数据量和效率上有所提高。(本文来源于《计算机应用研究》期刊2018年01期)
并行关联规则论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
关联规则挖掘是一项重要的数据挖掘任务,关联规则挖掘算法能从数据中挖掘出潜在的关联关系,其中Apriori算法是典型代表。Spark平台是一个分布式的基于内存的适合迭代计算的大数据框架。以提高强关联规则的挖掘效率为目标,设计了一种Apriori算法基于Spark的并行化方案。该方案利用Spark平台的分布式架构以及集群调度机制,将事务数据集分发给多个子节点,各子节点调用transformation操作求得局部候选项集及支持度,并存储于内存中;汇总节点中的局部候选项集产生全局候选项集和全局频繁项集;不断迭代,直到下一级候选项集不存在为止。性能测试实验结果表明,基于Spark平台的并行化Apriori算法可以有效地分析大型数据项集之间的频繁项集和提取强关联规则,具有较高的准确性和时效性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
并行关联规则论文参考文献
[1].刘莉萍,章新友,牛晓录,郭永坤,丁亮.基于Spark的并行关联规则挖掘算法研究综述[J].计算机工程与应用.2019
[2].许德心,李玲娟.基于Spark的关联规则挖掘算法并行化研究[J].计算机技术与发展.2019
[3].李琪.基于MapReduce并行的关联规则挖掘算法研究与应用[D].北京邮电大学.2018
[4].王诚,赵申屹.一种改进的并行关联规则增量更新算法研究[J].计算机技术与发展.2018
[5].邵全义,郭雯雯.MapReduce计算模型下并行关联规则挖掘算法研究[J].电脑知识与技术.2018
[6].戴伟敏.云平台下关联规则算法并行化研究与实现[J].哈尔滨师范大学自然科学学报.2017
[7].肖文,胡娟,周晓峰.基于MapReduce计算模型的并行关联规则挖掘算法研究综述[J].计算机应用研究.2018
[8].张玲.基于Hadoop平台并行关联规则挖掘算法研究[D].西安科技大学.2017
[9].于跃.基于Hadoop平台的并行化分布式关联规则挖掘算法研究[D].吉林大学.2017
[10].厍向阳,张玲.基于Hadoop的FP-Growth关联规则并行改进算法[J].计算机应用研究.2018