论文摘要
随着数据仓库的规模不断扩大,数据集成下的ETL(Extraction-Transformation-Loading)任务也随之增多,单机调度显然已经不能满足当下繁多复杂的ETL任务调度。针对ETL任务调度如何提高效率、缩短关键任务等待时间、提升资源利用率等问题,构建了一套分布式ETL任务调度框架,该框架由调度器和若干执行器组成,通过任务预处理、任务调度分配、任务执行3个阶段来完成ETL任务调度。在任务预处理阶段,对ETL任务建立权重模型,并根据权重确定调度优先级。在任务调度分配阶段,调度器根据各个执行器节点的性能及负载情况来约束执行器节点的选择,并设计贪心平衡(Greedy Balance,GB)算法来进行ETL任务执行请求的分发,使执行器节点的负载相对均衡。在任务执行阶段,通过高响应比优先(Highest Response Ratio Next,HRRN)算法确定执行器节点队列下任务的执行优先级。实验结果表明,分布式ETL任务调度框架及相应的一体化调度执行(Integrated Scheduling Execution,ISE)算法能够有效提高集群资源的利用率,缩短任务调度的执行时间。
论文目录
文章来源
类型: 期刊论文
作者: 王卓昊,杨冬菊,徐晨阳
关键词: 任务调度,负载均衡,动态分配,分布式集群,数据集成
来源: 计算机科学 2019年12期
年度: 2019
分类: 信息科技
专业: 计算机软件及计算机应用
单位: 中国科学技术信息研究所,大规模流数据集成与分析技术北京市重点实验室,北方工业大学数据工程研究院
基金: 国家自然科学基金重点项目(61832004)资助
分类号: TP311.13
页码: 1-7
总页数: 7
文件大小: 1723K
下载量: 150