基于改进Hadoop的大规模图处理系统的设计与实现

基于改进Hadoop的大规模图处理系统的设计与实现

论文摘要

“智能交通”和“社交网络”越来越普及,然而如何处理这些领域背后复杂图结构的问题迫在眉睫。比如,在“智能交通”中,如何计算两点之间的最短路径则可以抽象成计算大规模图中两点之间的最短路径,在“社交网络”中判断两个用户之间是否有社交关系则可以抽象为计算两个点在大规模图中是否可达等等。随着“大数据”和“云计算”的发展,图规模的结构变得越来越庞大,单个计算机节点根本无法存储大规模图结构,因此分布式存储架构被提出。对于图计算目前集中在两个计算模型中,一个是MapReduce模型,该模型将图计算分解成map阶段和reduce阶段,实现MapReduce模型的分布式框架是著名的Hadoop;另一个图计算模型是BSP模型,实现该模型的分布式框架是Hama,通过对二者的特点进行对比发现,MapReduce具有较高的抽象性和通用性,接口非常成熟,易于编程实现,但是并不支持显式的迭代和实时性计算,而BSP模型引入“超步”的概念,可以加速计算,但是却对集群中计算节点的内存性能要求比较高。因此本文将结合二者的优点对Hadoop进行改进,结合“MapReduce模型+BSP模型”的特点,使Hadoop成为一个可以进行显式迭代的图处理分布式框架。目前已经有人在Hadoop第一代上进行改进并成功的支持了显式的迭代,较好的提高了效率,但是目前第一代Hadoop用户量已经很少,Hadoop第二代通过引入Yarn较好的解决了第一代存在的两个问题。第一,扩展性问题,JobTracker兼有的资源管理功能和作业控制功能将成为制约系统扩展的瓶颈;第二,单点故障问题,JobTracker存在单点故障,出现问题之后将导致整个集群不可用;因此本文将着手在第二代Hadoop上对其进行改进,同时在改进Hadoop框架的基础上,本文实现了单源最短路径算法、可达查询算法和时间序列图中最优路径算法,将大规模图处理系统进行发布,供用户进行使用,对于研究图计算的研究人员来说将具有非常重要的价值和意义。

论文目录

  • 摘要
  • abstract
  • 第1章 绪论
  •   1.1 研究背景及意义
  •   1.2 国内外研究现状
  •   1.3 核心技术介绍
  •     1.3.1 MapReduce模型
  •     1.3.2 BSP模型
  •     1.3.3 YARN
  •     1.3.4 HDFS
  •     1.3.5 Maven项目管理工具
  •   1.4 图处理算法概述
  •     1.4.1 单源最短路径介绍
  •     1.4.2 可达查询介绍
  •     1.4.3 时间序列图中最优路径介绍
  •   1.5 本文研究内容
  •   1.6 本文组织结构
  • 第2章 大规模图处理系统的需求分析
  •   2.1 系统功能需求分析
  •   2.2 系统性能需求分析
  •   2.3 本章小结
  • 第3章 大规模图处理系统的总体设计
  •   3.1 Hadoop框架改进
  •   3.2 大规模图处理系统总体架构设计
  •     3.2.1 系统总体架构图
  •     3.2.2 系统各模块功能设计
  •   3.3 小结
  • 第4章 大规模图处理系统的详细设计
  •   4.1 认证模块详细设计
  •   4.2 文件校验模块详细设计
  •     4.2.1 安全校验
  •     4.2.2 格式校验
  •   4.3 算法处理模块详细设计
  •     4.3.1 单源最短路径详细设计
  •     4.3.2 可达查询详细设计
  •     4.3.3 时间序列图中最优路径详细设计
  •   4.4 查询模块详细设计
  •   4.5 下载模块详细设计
  •   4.6 计时模块详细设计
  •   4.7 小结
  • 第5章 系统的实现与测试
  •   5.1 系统开发环境
  •     5.1.1 硬件环境
  •     5.1.2 软件环境
  •   5.2 算法的实现与测试
  •     5.2.1 单源最短路径的实现与测试
  •     5.2.2 可达查询的实现与测试
  •     5.2.3 时间序列图中最优路径的实现与测试
  •   5.3 改进的Hadoop框架与原Hadoop框架测试结果对比
  •   5.4 小结
  • 第6章 总结与展望
  •   6.1 本文研究成果总结
  •   6.2 工作中不足及展望
  • 致谢
  • 参考文献
  • 攻读学位期间发表的学术论文及参加科研情况
  • 文章来源

    类型: 硕士论文

    作者: 张永普

    导师: 宋宝燕

    关键词: 大规模图,分布式,模型,框架

    来源: 辽宁大学

    年度: 2019

    分类: 基础科学

    专业: 数学

    单位: 辽宁大学

    分类号: O157.5

    总页数: 72

    文件大小: 3563K

    下载量: 55

    相关论文文献

    • [1].基于Hadoop的数据挖掘实践平台研究与应用[J]. 赤峰学院学报(自然科学版) 2020(02)
    • [2].基于Hadoop的网络舆情关键字监控体系分析[J]. 公关世界 2020(06)
    • [3].基于Hadoop的旅游景点推荐系统的设计与实现[J]. 信息与电脑(理论版) 2020(04)
    • [4].基于Hadoop的教学质量管理平台研究[J]. 河北软件职业技术学院学报 2020(01)
    • [5].基于Hadoop环境下蛋白质与配体分子对接模拟实验研究[J]. 数据采集与处理 2020(04)
    • [6].基于Hadoop在中医药数据挖掘中的应用[J]. 电子设计工程 2016(22)
    • [7].基于Hadoop的随书光盘云存储系统开发研究[J]. 农业图书情报学刊 2017(02)
    • [8].基于Hadoop的分布式视频转码系统的研究与设计[J]. 苏州科技学院学报(自然科学版) 2016(04)
    • [9].基于Hadoop云平台的联合收割机远程监控系统研究[J]. 农机化研究 2017(12)
    • [10].基于Hadoop的分布式视频处理[J]. 科研信息化技术与应用 2016(04)
    • [11].一种基于Hadoop平台的分布式数据检索系统[J]. 软件导刊 2017(04)
    • [12].基于Hadoop的煤炭企业数据共享系统设计[J]. 煤炭技术 2017(06)
    • [13].基于Hadoop的高校图书馆大数据关键技术研究[J]. 数字图书馆论坛 2017(05)
    • [14].基于Hadoop分布式平台的海量图像检索[J]. 南京理工大学学报 2017(04)
    • [15].基于Hadoop的推荐算法实现[J]. 自动化技术与应用 2017(10)
    • [16].Hadoop与关系型数据库在电信行业中的应用研究[J]. 广东通信技术 2017(09)
    • [17].基于Hadoop平台的图像检索研究[J]. 山西电子技术 2016(01)
    • [18].基于Hadoop平台的图像检索方法研究[J]. 兰州交通大学学报 2016(01)
    • [19].基于Hadoop的分布式搜索引擎设计与实现[J]. 图书馆学刊 2016(02)
    • [20].基于Hadoop的在线考试系统的设计研究[J]. 工业控制计算机 2016(07)
    • [21].基于Hadoop的改进遗传算法[J]. 内蒙古师范大学学报(自然科学汉文版) 2015(01)
    • [22].基于Hadoop的推荐算法研究[J]. 软件工程师 2015(04)
    • [23].Hadoop集群中作业调度研究[J]. 软件导刊 2015(04)
    • [24].基于Hadoop的电子商务个性化推荐算法——以电影推荐为例[J]. 计算机系统应用 2015(05)
    • [25].基于Hadoop的大数据清洗框架设计与应用[J]. 网络新媒体技术 2015(05)
    • [26].基于Hadoop协同过滤的电商数据推荐研究[J]. 软件导刊 2015(10)
    • [27].基于Hadoop云计算模式网络舆情监控的探索[J]. 商 2015(37)
    • [28].基于Hadoop的教育云平台的设计和实现[J]. 数码世界 2017(04)
    • [29].基于Hadoop的多维关联规则挖掘算法研究及应用[J]. 计算机工程与科学 2019(12)
    • [30].云计算Hadoop平台中基于遗传算法的高校师资培训管理[J]. 现代电子技术 2020(01)

    标签:;  ;  ;  ;  

    基于改进Hadoop的大规模图处理系统的设计与实现
    下载Doc文档

    猜你喜欢