面向PowerGraph的性能优化研究与实现

面向PowerGraph的性能优化研究与实现

论文摘要

互联网的迅速发展使得网络图成为了研究和分析的热点,而机器学习和数据挖掘等面向图数据结构的技术也已经在社交网络分析、网络搜索、自然语言处理和推荐系统等领域得到了广泛的应用。PowerGraph提出了GAS(Gather Apply Scatter)抽象以及点切割的图分区算法。本论文分析了图算法执行过程中消息传输模型及数据缓存机制的网络通信行为,发现PowerGraph中原有的消息传输模型仅采用推送模式,可能导致Master副本无法及时从Mirror副本获取到最新消息,或者Mirror副本可能会传送多条消息给Master副本;除此之外,在PowerGraph点切割分区方法下原本的数据缓存机制只能够减少计算开销,却无法减少网络开销,而且开发人员必须自己实现缓存相关的代码,导致开发人员的使用成本也有所增高。针对上述问题,本文做了详尽的分析调研并提出了相应的解决方案,主要内容包括以下两个方面。为了解决PowerGraph消息传输模型的问题,本文提出了一种新的模型:首先,由Mirror副本接收的消息总是存储在本地,并且将与新接收到的消息合并,直到Mirror副本被调度后才将合并后的消息发送给Master副本;其次,当Master副本开始一次新的迭代时,它会向每个Mirror副本发送请求,检索并取回已经生成但尚未传输到Master副本的消息。新的混合推拉消息模型使Master副本可以及时获取Mirror副本中最新的消息,避免执行额外的迭代,同时使Mirror副本能够尽可能地合并消息,降低了传输消息的网络开销。为弥补PowerGraph数据缓存机制的缺陷,本文又提出了一种通过在Master副本处设置缓存来加速迭代的技术,即将顶点的每个副本对应的缓存都存储在Master副本本地。这样当Master副本执行Gather阶段时,如果某个Mirror副本对应的缓存有效,则Master副本就不需要跨网络从Mirror副本所在的节点上取回数据,从而减少了Gather阶段的网络开销。本文最终实现了上述两种优化机制,优化后的框架对上层应用完全透明,所有已存在的应用都可以在新系统中执行而不需要进行任何修改。本文选取了PowerGraph自带工具集中的应用对新系统和原系统在不同应用、数据集以及机器数下的通信次数、计算次数以及执行时间进行了比较。实验表明,针对不同的应用,本文提出的方案产生了167%至271%的加速比。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  •   1.1 研究工作的背景
  •   1.2 国内外研究现状
  •   1.3 主要研究内容
  •   1.4 论文组织结构
  • 第二章 图计算框架概述
  •   2.1 单机图计算系统
  •     2.1.1 GraphChi
  •     2.1.2 X-stream
  •     2.1.3 Grid Graph
  •   2.2 分布式图计算系统
  •     2.2.1 Pregel
  •     2.2.2 Giraph
  •     2.2.3 GPS
  •     2.2.4 Pregel+
  •     2.2.5 GraphX
  •   2.3 PowerGraph及其优化
  •     2.3.1 PowerGraph架构简介
  •       2.3.1.1 GAS模型
  •       2.3.1.2 执行引擎
  •       2.3.1.3 点切割图分区
  •     2.3.2 PowerGraph相关优化
  •   2.4 本章小结
  • 第三章 消息传输机制中的拉取模型
  •   3.1 现有机制存在的问题
  •   3.2 系统设计
  •     3.2.1 消息传输
  •     3.2.2 迭代流程
  •     3.2.3 模型设计
  •   3.3 系统实现
  •   3.4 本章小结
  • 第四章 基于单副本集中式缓存的迭代加速技术
  •   4.1 原系统中的分布式缓存机制
  •   4.2 分布式缓存机制的不足
  •   4.3 缓存机制的设计
  •     4.3.1 多副本缓存机制
  •     4.3.2 单副本缓存机制
  •     4.3.3 缓存机制的空间影响
  •   4.4 缓存机制的适用范围
  •     4.4.1 图着色应用
  •     4.4.2 消息传递应用
  •     4.4.3 其它应用
  •   4.5 数据缓存机制与消息拉取模型的合并
  •   4.6 本章小结
  • 第五章 实验评估
  •   5.1 实验配置
  •     5.1.1 实验使用的集群环境
  •     5.1.2 实验使用的图应用
  •     5.1.3 实验使用的数据集
  •   5.2 实验结果
  •     5.2.1 不同应用的实验结果
  •       5.2.1.1 消息拉取模型与原系统的比较
  •       5.2.1.2 数据缓存机制与原系统的比较
  •       5.2.1.3 合并后的系统与原系统的比较
  •     5.2.2 不同数据集的实验结果
  •       5.2.2.1 消息拉取模型与原系统的比较
  •       5.2.2.2 数据缓存机制与原系统的比较
  •       5.2.2.3 合并后的系统与原系统的比较
  •     5.2.3 不同机器数的实验结果
  •       5.2.3.1 消息拉取模型与原系统的比较
  •       5.2.3.2 数据缓存机制与原系统的比较
  •       5.2.3.3 合并后的系统与原系统的比较
  •   5.3 本章小结
  • 第六章 总结与展望
  •   6.1 全文总结
  •   6.2 后续工作展望
  • 致谢
  • 参考文献
  • 攻硕期间取得的研究成果
  • 文章来源

    类型: 硕士论文

    作者: 董志斌

    导师: 薛瑞尼

    关键词: 分布式系统,图计算,消息传输,数据缓存

    来源: 电子科技大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 数学,计算机软件及计算机应用

    单位: 电子科技大学

    分类号: O157.5;TP311.13

    总页数: 76

    文件大小: 4452K

    下载量: 31

    相关论文文献

    • [1].借助微信自身功能实现消息群发[J]. 电脑知识与技术(经验技巧) 2018(04)
    • [2].应急广播消息发送软件的设计与实现[J]. 西部广播电视 2016(06)
    • [3].上海财经大学 消息中心点亮智慧校园[J]. 中国教育网络 2019(07)
    • [4].用于控制短消息发送的实时脑机接口系统[J]. 中国医学物理学杂志 2012(03)
    • [5].分布式消息系统研究综述[J]. 计算机科学 2019(S1)
    • [6].基于微服务的智慧校园消息中心构建研究[J]. 河北软件职业技术学院学报 2018(03)
    • [7].微信公众平台小程序新增分享、扫一扫等功能[J]. 信息与电脑(理论版) 2016(23)
    • [8].基于车载自组织网络的消息发送时机研究[J]. 中兴通讯技术 2011(03)
    • [9].基于异步消息处理的RabbitMQ运行原理探讨[J]. 数码世界 2017(11)
    • [10].短消息失败原因分析及优化方法研究[J]. 数字通信世界 2019(07)
    • [11].RabbitMQ小消息确认机制优化[J]. 计算机系统应用 2018(03)
    • [12].基于消息分组分配的TTP网络调度方法[J]. 电子测量技术 2018(10)
    • [13].基于B/S的高校PaaS平台统一消息协作系统设计与实现[J]. 中国教育信息化 2019(11)
    • [14].一种事件驱动的无线CPS实时消息并行调度方法[J]. 计算机工程 2018(02)
    • [15].数据[J]. 风流一代 2018(09)
    • [16].CTS2.0消息封装及交换控制策略设计及实践[J]. 气象科技进展 2018(01)
    • [17].面向安全应用消息QoS的接入协议研究[J]. 计算机科学与探索 2017(12)
    • [18].高性能短消息发送平台的设计与实现[J]. 襄阳职业技术学院学报 2013(02)
    • [19].软件安装自动化[J]. 电脑编程技巧与维护 2011(04)
    • [20].基于信道拥塞代价计算的车联网自适应消息发送速率控制方法[J]. 通信学报 2016(10)
    • [21].手机问答录[J]. 半月选读 2010(18)
    • [22].提高微信公众平台消息推送有效性的策略研究[J]. 农业图书情报学刊 2018(01)
    • [23].另类动态QQ签名秀 看我来做[J]. 网友世界 2010(02)
    • [24].限制心理专家做治疗,谁在埋单[J]. 南风窗 2013(19)
    • [25].智慧校园高校统一消息中心平台的设计与实现[J]. 电脑知识与技术 2019(19)
    • [26].基于消息代理的OPC UA发布/订阅模式研究与实现[J]. 高技术通讯 2018(06)
    • [27].GSM-R分组业务分析[J]. 上海铁道科技 2018(04)
    • [28].一种基于测试的消息竞争故障定位方法[J]. 南京师范大学学报(工程技术版) 2018(04)
    • [29].基于VOLTE解决方案的IP短消息研究[J]. 科技风 2019(13)
    • [30].一种非公网环境下应急GIS平台消息发送方法[J]. 测绘科学 2017(05)

    标签:;  ;  ;  ;  

    面向PowerGraph的性能优化研究与实现
    下载Doc文档

    猜你喜欢