改进的大数据检索自适应性切换搜索算法

改进的大数据检索自适应性切换搜索算法

论文摘要

针对搜索引擎搜索索引大小不同时的效率不一致问题,文中在Hadoop分布式计算平台上利用Map-Reduce框架搭建分布式的搜索引擎及查询子系统,生成一种改进的自适应性切换搜索算法,以索引文件实现了高效的检索,索引文件较小时将其直接存入内存,索引文件较大时建立二级索引并读取内存中的索引列表,进行分布式的查询,通过设置足够多的集群的节点数进行测试。测试结果表明:当索引大小达到1 000 MB,搜索时间由原始搜索算法的16.631 s缩短至7.259 s,文中方法对索引文件的搜索效率有显著提高。在索引文件更大的情况下,文中算法的优势也更明显,从而可以为网络论坛、网站以及其他用户提供高效的分布式搜索服务。

论文目录

  • 1 Hadoop分布式平台及框架
  • 2 算法优化
  •   2.1 TF-IDF算法
  •   2.2 算法优化
  •   2.3 算法测试
  • 3 系统构建
  •   3.1 客户端功能模块
  •   3.2 服务器端功能模块
  • 4 性能测试与分析
  • 5 结 论
  • 文章来源

    类型: 期刊论文

    作者: 吴雨晨,刘萍萍,徐江涛

    关键词: 大数据平台,搜索引擎,自适应性切换搜索算法

    来源: 西安工业大学学报 2019年06期

    年度: 2019

    分类: 工程科技Ⅱ辑,信息科技

    专业: 计算机软件及计算机应用

    单位: 西安工业大学计算机科学与工程学院

    基金: 新型网络与检测控制国家地方联合工程实验室基金项目(GSYSJ20170009)

    分类号: TP391.3

    DOI: 10.16185/j.jxatu.edu.cn.2019.06.011

    页码: 688-695

    总页数: 8

    文件大小: 1039K

    下载量: 114

    相关论文文献

    标签:;  ;  ;  

    改进的大数据检索自适应性切换搜索算法
    下载Doc文档

    猜你喜欢