导读:本文包含了分布式处理环境论文开题报告文献综述及选题提纲参考文献,主要关键词:大数据,Map,Reduce,工作流,分布式
分布式处理环境论文文献综述
梁肖,孙丽[1](2019)在《大数据环境下的分布式数据流实时处理技术研究(英文)》一文中研究指出大数据背景下的海量分布式数据流处理技术要求较高的实时性和成功率。为了提高分布式环境下数据流实时处理的实时性,采用Hadoop分布式系统平台,提出了一种Map Reduce工作流实时调度优化方法。该方法采用2个相关参数来动态调整每个作业在队列中的重要程度,以便对工作流的优化做出动态的判断。此外,为了减少工作流整体的执行时间,对关键作业能否本地化进行判断和时间对比,从而尽量增加map任务的本地化。实验结果显示,提出的工作流实时调度优化方法在响应时间和调度成功率方面表现出较好的性能。(本文来源于《机床与液压》期刊2019年06期)
朱蕾蕾[2](2019)在《大数据环境下的分布式数据流处理关键技术》一文中研究指出大数据时代中数据量过于庞大,导致人们寻找有用消息变得更加艰难,因此本文对大数据环境下的分布式数据流处理关键技术进行了论述,并对该处理方式应用到的技术进行了分类研究。(本文来源于《电子技术与软件工程》期刊2019年06期)
马鹏玮,魏凯,姜春宇[3](2018)在《互联网环境下分布式事务处理系统现状与趋势》一文中研究指出传统集中式数据处理系统由于摩尔定律的逐渐失效,开始显露出性能瓶颈,无法有效支撑当前业务的快速发展。同时由于安全、成本、政策等原因,原有集中式数据处理系统向分布式数据处理系统转型成为必经之路。从分布式事务处理系统的发展背景、优势及挑战、技术特点、应用要点、未来发展方向等方面介绍了分布式事务处理系统的意义、现状及趋势,为后续分布式事务处理系统的应用及发展提供了理论基础和指导。(本文来源于《大数据》期刊2018年02期)
陈付梅,韩德志,毕坤,戴永涛[4](2017)在《大数据环境下的分布式数据流处理关键技术探析》一文中研究指出大数据环境下的数据流处理实时性要求高,数据计算要求持续性和高可靠性。分布式数据流处理系统(DDSPS)能解决大数据环境下的数据流处理问题,它除具备分布式系统的可扩展性和容错性优势外,还具有高的实时处理能力。详细介绍了组成基于大数据的分布式数据流处理系统的四个子系统及其关键技术,讨论和比较了各个子系统的不同技术方案;同时介绍一种分布式拒绝服务(DDo S)攻击检测数据流处理系统结构案例,其研究内容能为大数据环境下的数据流处理理论研究和应用技术开发提供技术参考。(本文来源于《计算机应用》期刊2017年03期)
姜浩[5](2017)在《云计算环境下海量分布式数据处理协同机制的研究》一文中研究指出云计算环境下的数据管理和存储呈现出异构、分布式和动态等特点,为数据处理系统的设计和开发带来一定挑战,数据处理过程的协同是解决上述问题的有效手段。因此,面对信息爆炸式增长,以及数据处理管理、数据任务流程、数据分布管理等,更深层次的对分布式数据处理系统机制进行研究是必不可少的。(本文来源于《电脑知识与技术》期刊2017年07期)
郭瑞[6](2016)在《分布式环境下MongoDB对激光点云数据的存储和处理研究》一文中研究指出近年来,激光点云数据的应用急剧增加,如何对其进行高效存储和快速处理成为当前的一个重要研究方向。点云数据包含着丰富的地理信息,属于空间数据范畴。传统的关系型数据库对海量空间数据的存储和处理相对薄弱,分布式环境下非关系型数据库的应用为此提供了一个新的研究视角。目前,对海量空间数据的并行处理研究大部分是借助Hadoop集群中的MapReduce并行计算框架来完成的。因此,在非关系型数据库MongoDB的高可用Sharding集群中,对激光点云数据进行分布式存储和并行处理具有重要的研究意义。本文首先对比几种典型的非关系型数据库,指出MongoDB对空间数据的存储优势,深入分析MongoDB数据库的基本结构、Sharding集群的工作原理和在副本集中采用Bully算法实现的选举机制。然后,在上述理论基础和技术支持下,设计结合副本集的高可用Sharding集群总体架构,并从文件配置和分片配置两个阶段详细说明了集群的搭建过程。最后,在Sharding集群中对激光点云数据进行范围分片和哈希分片存储、geoNear空间查询、未排序和排序的Map Reduce运算对比实验,以及集群的容灾和负载平衡测试。本研究的独到之处在于:(1)搭建结合副本集的MongoDB高可用Sharding集群;(2)选取哈希分片(MongoDB2.4以上的版本开始支持)和范围分片进行激光点云数据的分布式存储和geoNear空间查询对比实验;(3)对MongoDB中空间索引使用的GeoHash算法进行基于Hilbert空间填充曲线的改进;(4)利用MongoDB自带的MapReduce框架进行激光点云数据的并行处理实验,并通过排序实现MapReduce并行运算的优化。上述实验取得的结论如下:(1)哈希分片保证激光点云数据在集群中各个节点分布基本均匀,而范围分片导致数据分布不均;(2)空间查询效率与激光点云数据的分布情况密切相关,在数据量较大的情况下,范围分片的查询效率优于哈希分片;(3)对激光点云数据进行排序可以在一定程度上提高MapReduce并行运算的效率。本文搭建的MongoDB高可用Sharding集群具有易扩展、自动数据备份、故障转移和恢复等功能,在此分布式环境下,对激光点云数据进行分布式存储和并行处理的研究,在一定程度上为空间数据平台的建设提供了支撑,对于数字城市的发展具有促进作用。(本文来源于《北京工业大学》期刊2016-06-01)
张博[7](2016)在《分布式集群环境下基于并行计算的图聚类信息高效处理方案》一文中研究指出针对人工智能领域图聚类数据分析与处理能力无法适应于日益复杂的分布式集群环境等问题,提出一种基于并行计算的高效率图聚类信息处理方案。在分布式集群计算环境下对超大规模、超大区域范围图数据信息的稀疏化分析与处理机制上,通过对Minhash算法以Map Reduce架构理论进行改进,使其实现对数据的并行化分析处理,确保能够在日益复杂的分布式集群计算环境下高效处理图聚类数据信息。实验表明,改进方案不仅可行,而且能够对图聚类数据信息进行快速稀疏化处理,具有一定的高效性。(本文来源于《自动化技术与应用》期刊2016年03期)
杨生[8](2016)在《高速网络流量环境中分布式大数据处理模式的性能研究》一文中研究指出随着互联网与通信技术的飞速发展,网络与人们的生活紧密相关。这些丰富和便捷着人们的互联网应用,也无时无刻不在产生着大量用户数据的网络流量,这些流量中包含着非常有价值的行为信息。如何能够在高速网络流量环境中,对这些数据进行高效率分析和处理成为了学术界和工业界关注的焦点。由于目前在分布式大数据处理模式上针对其性能的相关分析和研究还很匮乏和浅显,因此有必要进一步通过仿真建模和数据分析等方法,对分布式大数据处理模式的性能表现进行深入的研究。本文首先介绍了高速网络流量环境的特点,以及在高速网络流量环境下进行海量数据处理所面临的技术挑战。最后对解决大数据问题的相关技术方案进行简要说明。随后,对业界最广泛采用的Hadoop大数据处理模式的技术实现进行了深入分析,其中着重对其性能表现的重要影响因素进行了细致的讨论。接下来,提出了通过基于Petri网对Hadoop进行仿真建模的方法,并实现对Hadoop的性能表现进行预测的仿真工具。并且通过比较其仿真结果与Hadoop在真实环境中的实际测试数据,从而证明Hadoop仿真工具的准确性,高效性和可拓展性。最后,对Spark这种新兴的大数据处理模式的产生原因和设计思想进行了深入分析。以及通过Spark与Hadoop在高速流量网络环境中的实际测试性能数据,对两者的性能表现进行分析。(本文来源于《北京邮电大学》期刊2016-03-09)
赵冰[9](2016)在《分布式环境中大数据处理任务的调度方法研究及应用》一文中研究指出近年来,随着计算机技术和信息技术的快速发展与广泛应用,互联网的数据量呈现爆炸式增长,传统的数据处理技术已经难以满足大规模数据的需求,因此面向大规模数据的处理技术成为新的研究热点。作为一种分布式计算编程模型,MapReduce是当前处理大规模数据的主流技术之一,而分布式任务调度算法作为该模型的性能核心部分,已经成为当前大数据领域的研究热点。本论文对MapReduce分布式任务调度算法的理论基础进行了研究和分析,提出了基于任务分类的动态延迟调度算法(The Dynamic Delay Scheduling Based on Task Classification,即TCDDS算法),并通过仿真结果验证了该算法的有效性。在此基础上,本文又提出了基于TCDDS的深度包检测算法,该算法通过将使用TCDDS算法优化过的MapReduce并行处理技术和深度包检测技术相结合,提高了深度包检测的处理速度和性能。本论文的主要工作包括以下几个方面:首先,本论文对MapReduce的架构及其关键技术进行了研究,深入研究了MapReduce的任务调度流程,并详细分析了常用的几种任务调度算法的优缺点,例如先进先出调度算法、计算能力调度算法、公平调度算法和延迟调度算法等。其次,通过分析现有调度算法的不足,提出了基于任务分类的动态延迟调度算法(TCDDS算法)。该算法在原有的延迟调度算法的基础上,增加了使用模糊综合评价法对任务进行分类的过程,将全部的任务进行分成叁类:高优先级任务、中优先级任务和低优先级任务。不同类别的任务设置不同的等待时间阈值,并且在减少时间开销和提高数据本地性这两个方面也有不同的偏重,高优先级任务力求较短的时间开销,低优先级任务力求较高的数据本地性,而中优先级任务则在二者之间取平衡。之后本论文通过仿真实验对该算法进行了验证,实验结果表明,基于任务分类的动态延迟调度算法在提高了MapReduce任务调度的数据本地性的同时,也缩短了作业的整体完成时间,有效地提高了MapReduce的整体性能。最后,本论文提出了基于TCDDS的深度包检测技术,该技术提出使用MapReduce分布式计算框架来进行深度包检测,以此来提高深度包检测的处理速度,并通过仿真实验验证了该技术的性能优于原有的深度包检测技术。(本文来源于《北京交通大学》期刊2016-03-01)
刘娟娟,丁嘉宁[10](2016)在《基于分布式集群环境的图聚类信息高效处理方案》一文中研究指出针对人工智能领域图聚类数据分析与处理能力无法适应于日益复杂的分布式集群环境等问题,设计出一种基于并行计算的高效率图聚类信息处理方案。通过对Minhash算法以MapReduce架构理论进行改进,使其实现对数据的并行化分析处理,以确保其能够在日益复杂的分布式集群计算环境下高效处理图聚类数据信息。通过相关实验表明,该方案不仅可行,而且能够对图聚类数据信息进行快速稀疏化处理,具有一定的高效性。(本文来源于《计算机应用与软件》期刊2016年02期)
分布式处理环境论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
大数据时代中数据量过于庞大,导致人们寻找有用消息变得更加艰难,因此本文对大数据环境下的分布式数据流处理关键技术进行了论述,并对该处理方式应用到的技术进行了分类研究。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
分布式处理环境论文参考文献
[1].梁肖,孙丽.大数据环境下的分布式数据流实时处理技术研究(英文)[J].机床与液压.2019
[2].朱蕾蕾.大数据环境下的分布式数据流处理关键技术[J].电子技术与软件工程.2019
[3].马鹏玮,魏凯,姜春宇.互联网环境下分布式事务处理系统现状与趋势[J].大数据.2018
[4].陈付梅,韩德志,毕坤,戴永涛.大数据环境下的分布式数据流处理关键技术探析[J].计算机应用.2017
[5].姜浩.云计算环境下海量分布式数据处理协同机制的研究[J].电脑知识与技术.2017
[6].郭瑞.分布式环境下MongoDB对激光点云数据的存储和处理研究[D].北京工业大学.2016
[7].张博.分布式集群环境下基于并行计算的图聚类信息高效处理方案[J].自动化技术与应用.2016
[8].杨生.高速网络流量环境中分布式大数据处理模式的性能研究[D].北京邮电大学.2016
[9].赵冰.分布式环境中大数据处理任务的调度方法研究及应用[D].北京交通大学.2016
[10].刘娟娟,丁嘉宁.基于分布式集群环境的图聚类信息高效处理方案[J].计算机应用与软件.2016