带不可移动数据的Spark任务调度

带不可移动数据的Spark任务调度

论文摘要

由于单个数据中心的资源有限,复杂的Spark工作流应用需要在多个数据中心内执行。当输入数据太大而无法传输(不可移动数据)时,依赖该数据的Task只能被分配在该数据所在的数据中心执行,然而Spark并不能保证这一分配。另一方面,Spark提供的基于同构的调度策略并不适合于异构环境。本文研究异构多数据中心下带不可移动数据的Spark任务调度问题,以优化Spark工作流应用的完工时间为目标,具有重要实际意义和应用前景。该问题面临的挑战主要包括两方面:(1)部分依赖不可移动数据的任务只能被分配在特定的数据中心执行,这类任务和其它任务在该数据中心的资源竞争将对完工时间造成不利影响;(2)Spark工作流应用的可选Stage调度序列数量巨大,且异构多数据中心环境下关键路径无法获得,很难找到合适的Stage调度序列来优化完工时间。针对所考虑的问题,本文提出了一种基于规则的任务调度算法(STSID)。该算法分为时间参数估计和Stage分配两个阶段。时间参数估计阶段提出了两种Node速率估计方式,根据估计的Stage执行时间求出Stage的各个时间参数。Stage分配阶段分为Stage选择、资源分配和添加就绪Stage三部分。第一部分从就绪Stage集合中选择优先级最高的Stage,采用的优先级规则是:依赖不可移动数据的Stage优先级高于其他Stage,对于其他Stage则提出了ESTF(开始时间早的Stage优先)、SFTF(浮动时间短的Stage优先)和RANDOM(随机排序)三种优先级规则。第二部分提出三种Stage调度算法,分别基于Node最早可用时间优先、Task最早完工时间优先和最小资源浪费优先来调度Stage下的Task。第三部分则将就绪Stage添加到Stage就绪集合中。为验证所提算法的性能,本文采用多因素方差分析技术(ANOVA)对相关参数进行校正,并选择对于解决本文提出的问题的最合适的参数。然后将STSID与Spark提供的FIFO和FAIR算法进行比较。实验结果表明,本文所提出的算法在不同Job数量的工作流实例下和不同Node数量数据中心中的性能优于FIFO和FAIR。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  •   1.1 研究背景
  •     1.1.1 Spark原理
  •     1.1.2 应用场景
  •   1.2 研究现状
  •   1.3 研究目的与挑战
  •   1.4 论文组织结构
  • 第2章 问题描述与建模
  •   2.1 系统架构
  •   2.2 问题假设
  •   2.3 问题描述
  •   2.4 带不可移动数据的Spark任务调度模型
  • 第3章 带不可移动数据的Spark任务调度算法
  •   3.1 带不可移动数据的Spark任务调度算法框架
  •   3.2 时间参数估计
  •   3.3 添加就绪Stage
  •   3.4 Stage调度
  •   3.5 Task调度
  •     3.5.1 基于最早可用时间的Task调度
  •     3.5.2 基于最早完工时间的Task调度
  •     3.5.3 基于最少资源浪费的Task调度
  • 第4章 实验结果与分析
  •   4.1 实验环境设置
  •     4.1.1 仿真平台
  •     4.1.2 工作流实例生成
  •   4.2 评价指标
  •     4.2.1 相对误差百分比
  •     4.2.2 负载均衡度
  •   4.3 参数测定
  •     4.3.1 方法比较与分析
  • 第5章 结论与展望
  •   5.1 论文主要工作
  •   5.2 未来展望
  • 致谢
  • 参考文献
  • 作者简介
  • 文章来源

    类型: 硕士论文

    作者: 徐威

    导师: 李小平

    关键词: 异构节点,不可移动数据,任务调度

    来源: 东南大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 数学,计算机硬件技术,计算机软件及计算机应用

    单位: 东南大学

    基金: 国家重点研发计划(2017YFB1400801),国家自然科学基金项目(61872077,61832004)

    分类号: TP308;TP311.13;O224

    DOI: 10.27014/d.cnki.gdnau.2019.002095

    总页数: 54

    文件大小: 2077K

    下载量: 19

    相关论文文献

    • [1].“大数据时代”背景下图书馆移动数据服务的发展[J]. 河南图书馆学刊 2015(03)
    • [2].基于机会通信的移动数据分流算法研究[J]. 信息通信 2017(04)
    • [3].UFED Link Analysis助力移动数据取证[J]. 信息安全与通信保密 2013(09)
    • [4].移动数字资源建设的问题及对策[J]. 内江科技 2019(10)
    • [5].通过移动数据技术提高远程教学师生粘度的研究[J]. 天津电大学报 2015(03)
    • [6].移动数据时代运维的转型之道[J]. 通信世界 2014(14)
    • [7].美国移动数据服务收入占比逐步提高[J]. 世界电信 2009(03)
    • [8].凭借移动数据优势赢得竞争[J]. IT经理世界 2008(Z1)
    • [9].移动数据分流研究综述[J]. 计算机科学 2014(S2)
    • [10].基于相点分析的移动数据索引技术[J]. 计算机学报 2011(02)
    • [11].移动数据服务:转变人们的社会经济未来[J]. 通讯世界 2013(06)
    • [12].一种高效的移动数据卸载方案[J]. 北京信息科技大学学报(自然科学版) 2015(04)
    • [13].基于气象与移动数据的楼宇短期负荷预测[J]. 测绘地理信息 2019(04)
    • [14].全球移动数据收入增长首次停滞[J]. 中国新通信 2009(08)
    • [15].浅论移动数据的安全策略[J]. 中国新通信 2016(03)
    • [16].移动数据综合网管的建设思路[J]. 通信管理与技术 2009(06)
    • [17].移动数据网中部分协议参数对数据业务的影响和优化[J]. 广西通信技术 2010(01)
    • [18].大学生手机移动数据使用情况深入研究[J]. 戏剧之家 2018(22)
    • [19].嵌入式移动数据库应用优势和前景分析[J]. 科技信息(科学教研) 2008(07)
    • [20].烽火网络 推动移动数据网络的新解决方案[J]. 通信世界 2008(26)
    • [21].公共WiFi,大市场如何撬动?[J]. 金融经济 2017(17)
    • [22].基于公交车缓存机制的移动数据分流研究[J]. 广西大学学报(自然科学版) 2014(06)
    • [23].传感网络对移动数据自动监测研究[J]. 计算机仿真 2017(11)
    • [24].基于UA信息缓存的移动数据适配系统的设计与实现[J]. 互联网天地 2014(02)
    • [25].地市分公司个性优势视角下的辽宁移动数据产业竞优分析[J]. 辽宁科技大学学报 2011(04)
    • [26].Acision为Tata Teleservices的Tata Indicom和Tata DOCOMO提供先进的通信和计费技术[J]. 电脑与电信 2010(02)
    • [27].天宝扩展其移动数据车采集系列组合[J]. 数字通信世界 2013(12)
    • [28].2013第2季度海外运营商财报分析 把握移动数据运营商机[J]. 通讯世界 2013(14)
    • [29].引导可移动数据向正确的方向发展[J]. 印刷杂志 2012(04)
    • [30].基于真实车载移动数据的RSU部署算法[J]. 北京邮电大学学报 2015(01)

    标签:;  ;  ;  

    带不可移动数据的Spark任务调度
    下载Doc文档

    猜你喜欢