传统分布式爬虫系统负载均衡方法仅考虑少量的负载影响因素,未对各爬虫节点负载情况进行全面有效的评估,使得任务量的分配不合理。针对该问题,提出一种面向分布式爬虫系统的高效负载均衡策略。分析影响爬虫节点运行时间的因素,采用BP神经网络构建基于多影响因素的非线性分布式爬虫节点运行时间模型。以该模型预测的各子节点运行时间的最小方差为负载均衡策略的目标函数,并利用带约束条件的改进粒子群优化算法求解目标函数,确定负载均衡的任务分配方案。实验结果表明,该负载均衡策略在满足爬虫节点高性能要求的前提下,能有效缩短分布式爬虫系统的运行时间。
类型: 期刊论文
作者: 张树涛,谭海波,陈良锋,吕波
关键词: 分布式爬虫,负载均衡,预测模型,粒子群优化算法,约束条件
来源: 计算机工程 2019年11期
年度: 2019
分类: 信息科技
专业: 计算机软件及计算机应用
单位: 中国科学院合肥物质科学研究院,中国科学技术大学研究生院
基金: 安徽省科技重大专项“基于大数据的中小微企业精准智力服务平台”(711245801052)
分类号: TP391.3
DOI: 10.19678/j.issn.1000-3428.0053439
页码: 62-67
总页数: 6
文件大小: 666K
下载量: 450
本文来源: https://www.lunwen66.cn/article/69da1dc103949229637e25e6.html