论文摘要
针对搜索引擎搜索索引大小不同时的效率不一致问题,文中在Hadoop分布式计算平台上利用Map-Reduce框架搭建分布式的搜索引擎及查询子系统,生成一种改进的自适应性切换搜索算法,以索引文件实现了高效的检索,索引文件较小时将其直接存入内存,索引文件较大时建立二级索引并读取内存中的索引列表,进行分布式的查询,通过设置足够多的集群的节点数进行测试。测试结果表明:当索引大小达到1 000 MB,搜索时间由原始搜索算法的16.631 s缩短至7.259 s,文中方法对索引文件的搜索效率有显著提高。在索引文件更大的情况下,文中算法的优势也更明显,从而可以为网络论坛、网站以及其他用户提供高效的分布式搜索服务。
论文目录
文章来源
类型: 期刊论文
作者: 吴雨晨,刘萍萍,徐江涛
关键词: 大数据平台,搜索引擎,自适应性切换搜索算法
来源: 西安工业大学学报 2019年06期
年度: 2019
分类: 工程科技Ⅱ辑,信息科技
专业: 计算机软件及计算机应用
单位: 西安工业大学计算机科学与工程学院
基金: 新型网络与检测控制国家地方联合工程实验室基金项目(GSYSJ20170009)
分类号: TP391.3
DOI: 10.16185/j.jxatu.edu.cn.2019.06.011
页码: 688-695
总页数: 8
文件大小: 1039K
下载量: 114
相关论文文献
标签:大数据平台论文; 搜索引擎论文; 自适应性切换搜索算法论文;