分布式智能搜索引擎技术

分布式智能搜索引擎技术

曾亚飞[1]2016年在《基于Elasticsearch的分布式智能搜索引擎的研究与实现》文中研究指明随着各个行业信息化的快速发展,当今各个垂直领域的数据越来越多,而其中有很多数据都是无用的,不需要特殊处理。如何快速、高效从垂直领域内的海量数据中检索、智能挖掘出有用的信息成为现在智能搜索引擎发展的一大难题。随着搜索引擎技术的发展,出现了各种各样的搜索引擎技术,但绝大部分搜索引擎技术针对特殊领域中的特殊术语和特殊表达方式不能进行有效的检索和智能推荐,所以传统的搜索引擎技术不能满足当前行业的需求,这就促进了分布式智能搜索引擎的发展。分布式智能搜索引擎不仅仅只是根据各个垂直领域的不同进行自适应处理,而且还能在提高检索精度和检索效率的基础上,针对已有的海量数据检索、挖掘出用户潜在关注的一些信息,让搜索引擎能够提供更加友好、智能的为用户提供交互。本文在深入研究基于Elasticsearch分布式搜索技术和垂直搜索技术的基础上,结合垂直领域个性化词典构建技术和智能推荐技术的优势,设计并实现了一种基于Elasticsearch的分布式智能搜索引擎。本文提出了一种基于左右递归的新词发现算法来实现了垂直领域个性化词典的构建,当数据进入搜索引擎时就会自动的发现新词并加入到对应的垂直领域个性化词典中。同时,本文将该模块完美的集成到了Elasticsearch分布式搜索集群中,让搜索引擎能根据垂直领域的不同自动的加载和更新对应的个性化词典,让搜索引擎更加的高效和准确。在此之上,本文还设计和实现了智能推荐模块并集成到了智能分布式搜索引擎之中,提出了一种基于Item的协同过滤算法的改进方案,能够在一定程度上提高算法的推荐质量,让搜索引擎变得更加的完美、智能。最后,本文还介绍了智能分布式搜索引擎的搭建过程和相关配置优化,并通过多个方面的实验验证了本系统的有效性、智能性。

付志超[2]2008年在《基于Map/Reduce的分布式智能搜索引擎框架研究》文中认为随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。搜索引擎经济的崛起,又一次向人们证明了互联网所蕴藏的巨大商机。互联网离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。如今互联网中的信息每天以指数级的数量增长,面对海量数据的处理和存储,传统的集中式搜索引擎显得无能为力。另外传统搜索引擎系统一般都采用关键词匹配模式,无法理解用户搜索意图,使得用户在互联网上搜索自己真正需要的信息很困难。因此搜索引擎的分布式智能化是未来发展的趋势。本文从研究和设计的角度出发,对分布式智能搜索引擎的相关理论和技术进行了详细的分析和讨论,将基于Map/Reduce的分布式智能搜索引擎框架研究分为叁个层次,即分布式并行计算理论方法研究、搜索引擎原理的研究以及基于分布式的智能搜索引擎研究。论文主要研究的内容如下:论述了目前搜索引擎的国内外发展现状、存在的问题以及发展趋势;分析了搜索引擎的工作原理以及各部分的主要功能;对分布式计算理论、网格计算、云计算、Map/Reduce分布式计算模型进行分析与研究。对开源搜索引擎工具包Lucene、开源分布式计算框架Hadoop进行了详细的分析与研究。在基于Map/Reduce的分布式计算模型的基础上,借助语义词典,对分布式的智能搜索引擎系统进行了研究。设计并实现了基于Map/Reduce的分布式智能搜索引擎——IEBSou。重点阐述了IEBSou系统框架的实现.不仅给出了系统各模块之间的关系,而且还分析了各个模块的实现原理和思想。对IEBSou的Map/Reduce基础框架进行了设计;结合Lucene设计了统一文档处理框架,并对中文分词中人名识别、新词的识别进行了研究;提出了基于Map/Reduce的网页消重算法;提出了通过构建概念集的方式来提供基于语义联想的搜索推荐词生成算法。借助语义词典,对用户搜索关键词的概念进行语义扩展,构造概念集,让系统智能的理解用户搜索意图,提高系统的查全率和查准确率。

陈莉勤[3]2008年在《分布式信息检索中移动Agent技术的应用研究》文中指出目前人们普遍使用搜索引擎技术来检索Internet上的信息。搜索引擎是基于WWW的信息处理系统,它在一定程度上为人们解决了在WWW上查找信息的问题。但是现有的信息都是分布在异构的、分布式的、复杂的网络环境中的,传统的信息检索方式越来越清晰地显现出来局限性:第一,信息过载带来的效率低问题。现有的检索技术其查全率不高,即使检索出了大量的有一定关联的信息,但不一定是用户想要的,用户还必须从大量的信息中筛选出自己想要的,浪费了大量的时间和精力。第二,对网络有效带宽的依赖性较强,容易造成网络拥塞。传统的信息检索方式都是基于C/S模式的,在提供服务时,需要客户端与服务器保持稳定的连接,造成带宽的巨大浪费。第叁,信息检索缺乏一定的智能性。此外,还存在安全性不高、移动性欠缺、检索的实时性也难以保证等缺点。移动Agent是人工智能与分布式计算技术相结合的产物,它的移动性、自主性、协调性和智能性等特点,使得它在分布式系统中得到了广泛的应用,并显示出巨大的应用前景和优越性。本研究旨在探讨一种基于移动Agent的分布式信息检索模式,提高信息检索的效率,降低系统对网络带宽的依赖,实现信息检索的智能化。从而解决传统信息检索的效率低、安全性差、智能性不高等问题。本论文首先分析了传统的分布式信息检索技术,重点剖析了搜索引擎技术,分析了它的优点以及其不足;接着阐述了移动Agent的系统结构和关键技术,通过比较分析了移动Agent技术和其他分布式计算技术,探讨了移动Agent技术应用于分布式信息检索的优势;设计了一个基于移动Agent的分布式信息检索模型,详细阐述了其各部分的功能和运行机制,并给出了移动Agent迁移机制、系统的容错机制、返回结果的“蜂拥”问题、安全问题等模型中所涉及关键问题的解决方案;以Aglet为开发平台,采用java程序设计语言实现了这一模型。

姜鑫维[4]2006年在《基于分布式的智能搜索引擎》文中研究表明随着Internet网上的知识呈几何级数式的增长,搜索引擎作为一个查询用户所需信息的工具,其作用越来越受到人们的重视。目前,一个优秀的搜索引擎能够大大地提高一个网站的点击率,搜索引擎已经成为网站的门户。简单地讲:搜索引擎通过一个称之为“网络蜘蛛”的程序,将网页上的内容按一定的方式存放在自己的数据库里,并昼夜不停地维护、更新该数据库,当用户提交查询时,就从数据库中找出与该关键字相关联的信息,并按照一定的顺序返回给用户。 与其它的技术一样,搜索引擎的发展也离不开对其理论基础的研究。本文在对当前第二代搜索引擎系统进行理论分析的基础上,结合最有代表性的Google公司的搜索引擎系统进行了详细的系统分析,并讨论了其中的关键数据结构和算法,在这个基础上,我结合我当前正在进行开发的PIS个人智能搜索引擎项目,给出了我的基于分布式系统的架构以及相关的算法,并给出了具体的实现。同时也考虑到第二代搜索引擎系统的种种不足,给出了智能搜索引擎系统的理论概述,并结合目前我的项目,进行了个性化搜索的研究,给出了两种创新的个性化搜索方法。 本文具体进行了两个方面的论述: 1、分布式搜索引擎系统的设计与实现。尽管当前的搜索引擎系统已经广泛采用了分布式的系统架构,但是由于受到搜索引擎系统软件的设计和算法的制约,每个公司的实现方式不太一样,本文根据我当前正在开发的PIS智能搜索引擎系统,提出了一个比较适合于基于主题的分布式搜索引擎的架构,对其中的分布式页面抓取系统和分布式等级计算系统进行了详细的论述,并给出了具体模块的设计与实现方法,同时也提出了一种新的基于页面分类的页面等级计算算法——Topic PageRank算法。 2、智能化搜索引擎系统的设计。智能化的搜索引擎系统已经被提出了很多年,但是至今依然发展缓慢,本文中我结合智能搜索引擎的相关理论知识,提出了两种基于智能化搜索系统的个性化搜索方法——基于Blog的个性化方法和基于Ajax的个性化方法,通过与传统的个性化方法进行融合,能够提供出更精确的个性化搜索,针对不同的用户,我们的个性化搜索系统能够提供出更加个性化的返回结果集。

胡小睿[5]2005年在《基于Web挖掘的搜索引擎技术研究》文中研究表明Internet的迅速发展使其成为当今世界上最大的信息库,它是全球范围内传播信息的重要渠道,其中以WWW的发展最为迅速。但Internet是一个开放的网络,网上资源的分布相当分散,并且网上也没有统一的管理和结构,这导致了搜索的困难。如何快速、准确地从浩瀚的信息资源中找到有用的信息是网络用户面临的一个大问题,因此希望有新的工具来定位信息资源。 网络信息搜索技术结合了现代信息检索技术和WWW的相关技术,旨在研究开发出一个智能化的搜索软件,能在网络上自动地进行信息发现和索引,建立结构化索引库,向用户提供查询服务。 随着互联网的迅猛发展,搜索引擎的发展越来越需要借助各种技术来进一步推动。作为知识挖掘新的研究内容的web挖掘,由于自身在信息处理中的层次较高,同时与搜索引擎的关系非常密切,对搜索引擎技术有很大借鉴作用。所以搜索引擎通过应用Web挖掘技术,可以增强信息处理能力,使得信息检索发展到一个新的水平。 本文从开发和研究的角度对WWW搜索引擎的相关技术作了详细的分析和讨论,并介绍了一个针对中小型企业的基于Web挖掘的小型智能搜索系统WMSE,它通过基于Web结构挖掘思想对检索结果进行优化排序,为用户提供更加准确的信息,更好的满足用户的检索需求。 在文章的主体部分,以搜索引擎的设计流程为主线,描述了搜索引擎的几个子系统:搜集子系统、索引子系统、检索子系统和用户界面子系统。其中,特别强调了所采用的相关技术和关键算法。 最后,简要介绍了系统的性能,并对系统今后的发展提出了一些设想。

鲍永庆[6]2005年在《专题网络数字化资源的组织与调度》文中认为在过去几十年里,网络技术的迅速发展和网民的增加,通过网络分享信息资源已经逐步形成,并且网络信息资源以每年数十倍的速度递增.所以,专题网络信息资源网站的建设成了近年来新的研究方向, 并且向专业化和深度发展,在网络信息资源建设中已经成为新的发展趋势。本课题主要目的是通过对专题网络信息资源的收集、组织、管理、整合、检索与发布,并且提出建立一个专业性的网络信息系统开发平台,根据CAuS 网络资源建库原则,构建专题网络临床内科学导航库.本课题的研究内容主要包括以下几个方面:第一,讨论智能搜索引擎技术,提出怎样把机器人自动采集和人工采集方法相结合进行收集网络信息资源,详细描述了网络信息资源收集的标准和原则。从专业角度而言, 重点强调了专业网络信息资源的组织方法, 主要是基于MESH 词表的分类方法、主题方法以及基于数字资源特点的资源组织也都做了详细的阐述。同时,本课题也讨论了如何处理各类组织方法之间的关系,而且,阐述了元数据并指出元数据在资源组织过程中的重要性,其次,讨论了数据整合和全文检索技术,第叁,基于上述研究,建立了专题网络临床内科学信息导航系统,其目的是为临床内科学领域提供一个该专业的数字资源集合,为用户提供专业交流的平台并及时了解国内专业数字资源提供有效途径,为开发新的信息服务模式提供借鉴。

徐永红[7]2004年在《基于专题信息服务的智能搜索引擎技术研究》文中研究说明随着Internet的快速发展,特别是WWW技术的飞速进步,网络已成为全球最大的分布式的信息知识库。一方面这为信息资源的共建共享提供了一个良好的平台,但另一方面又大幅度地提升了信息检索和知识获取的成本,使得信息查询和索取越来越难,出现了“富数据,穷信息”、“信息迷航”、“信息过载”等问题和现象。作为因特网信息检索工具——搜索引擎经过多年的发展与改进,为科研人员,特别是为专业信息服务人员从网上检索和获取信息提供了极大的方便,但无疑也面临着巨大的挑战,本文就智能搜索引擎所涉及的关键技术进行了研究和探讨,重点从理论上研究了开发用于满足科研人员及专业科研图书馆的工作需求的基于专题信息服务的智能搜索引擎系统所面临的问题和解决方案。 本文首先分析了当前网络资源的现状和特点、搜索引擎的不足、信息服务工作所面临的突破,指出了具有个性化、主动性服务的专题智能型搜索引擎是开发新一代搜索引擎的发展方向。接下来重点探讨了目前开发智能搜索引擎所涉及的热门技术的研究与进展情况。主要包括Web信息搜索技术,Web信息提取技术,Web信息检索技术,Web聚类技术和搜索引擎的评价技术等。并结合实际工作和未来搜索引擎的发展趋势,给出了一个基于专题信息服务的智能搜索引擎的框架结构。围绕智能化系统,增加了专题知识库、用户知识库和信息推荐模块来加强搜索引擎的个性化、主动性服务的功能。 本文还根据专题搜索引擎的特点,叙述了专题搜索引擎应采取的更新策略,并提出了一个适合于专题搜索引擎的Web信息搜索策略,目的是为保证网络机器人在现有硬件设备条件下能较高效率地完成对Web网页信息的下载与更新任务。同时结合实际工作,重点研究了基于语义结构的Web网页信息提取技术,详细介绍了我们开发的两种基于格式化的语义结构的和基于模板的文本文档的语义结构的Web网页信息提取程序。

李家峰[8]2010年在《基于本体的分布式检索的研究与实现》文中提出随着网络信息不断增多,用户对网络信息的需求不断增强。要在庞大且瞬息万变的网络上获取所需的信息,必须有一个有效的检索工具的协助。传统的信息检索工具,已不能满足用户灵活查询的需要,特别是不能实现更加复杂的查询,如语义查询、基于推理的查询。本体是一种特定领域的概念及术语的形式化的描述,它不仅为规范化资源描述提供了基础,也更为准确的搜索信息提供了保证;分布式技术是下一代检索系统的发展趋势,它的主要目的之一就是充分利用现有的资源完成计算性能的提升。结合语义网技术和分布式技术,就可以使基于语义网的搜索引擎一方面具有语义的能力,一方面又具有较高检索的性能。本文在语义Web的基础上,对本体在搜索引擎中的应用及分布式理论展开了深入的研究,并对研究过程采用的方法进行了详细阐述。简要归纳如下:(1)分布式检索系统的研究与实现。结合Internet网络的具体特点,提出了基于本体的分布式信息检索技术。包括基于本体的分布式信息检索系统的设计目标、检索体系框架、设计结构、各模块基本功能,并对分布式信息检索中所涉及的关键技术进行了深刻的研究,提出了较为有效的解决方案。(2)本体的分布式存储。提出一种本体分割算法,将庞大的本体通过本体之中各元素的关系分割成相互间关联度较小的领域本体,并将分割后的领域本体存储到网络中各服务器上,通过本体目录记录每个本体的位置信息。本文从提高信息检索性能的角度,提出了基于本体的分布式检索思想,将领域本体存储在不同服务器上协同查询,实验证明,采用分布式技术可以有效的提高系统的查询质量。

丁邦旭[9]2006年在《基于P2P的分布式中文搜索引擎的应用研究》文中进行了进一步梳理P2P技术和搜索引擎相关技术是当前科研院所、公司争相研究的热点。P2P的分布式网络结构具有可扩展性、健壮性、负载均衡等特点,与传统的分布式系统相比,P2P技术具有无可比拟的优势,它的网络拓扑结构适合于分布式信息检索处理。随着互联网的快速发展,搜索引擎作为一个网络用户所需的信息检索工具,其作用性越来越受到人们的重视。由于国内互联网发展迅速,中文用户数量激增,人们在计算机对自然语言理解的研究也取得了较大的进展,从而推动了搜索引擎向中文搜索引擎的发展。目前,许多搜索引擎从体系结构上看是集中式的,即从Internet上取回页面,经过分析、处理后将所有的索引信息形成索引数据库集中存储在某个站点,用户通过访问该站点实现查询。这种架构的搜索引擎服务器负载过大,一旦大量用户同时向服务器请求检索服务,搜索引擎不可能及时响应,也会造成网络堵塞。集中式的搜索引擎所能搜索到的信息十分有限,达不到深度与广度地搜索。因此,人们便提出了构建分布式搜索引擎的策略。 本文先对P2P技术及背景作了概述,从P2P网络模型、P2P搜索技术等几个方面对P2P技术作了介绍;然后对搜索引擎进行了简要介绍,并叙述了搜索引擎系统组成与原理、搜索引擎分类、搜索引擎性能指标、搜索引擎的发展方向、分布式搜索引擎,对比、分析了搜索引擎的信息检索模型。为了克服传统的集中式搜索引擎的缺点,本文将搜索引擎结合P2P技术,提出了基于P2P的分布式中文搜索引擎。基于P2P的分布式中文搜索引擎采用NetShot路由算法作为系统的路由算法;针对中文分词本文提出了基于树状词库进行中文分词,这种经过优化的分词方法使传统的匹配算法效率得到大大地提高,并结合XML技术为中文分词提出并实现了可行的解决方案:本文设计了基于XML与B+树的倒排索引算法建立索引器的索引解决了传统的正、倒排索引模型实时更新性能差的缺点。 基于P2P的分布式中文搜索引擎是将搜索引擎架设在P2P分布式网络结构之上,利用P2P的良好的分布式特性,使搜索引擎从集中式走向分布式,使搜索引擎能更深度、更广度地搜索互联网上的用户可用的信息。基于树状词库与XML的中文分词方法使得搜索引擎对中文文段进行分词时更为准确。基于XML的倒排索引建立解决方案从新的角度探索了中英文混合检索的底层机制,使得搜索引擎在索引器中进行索引检索、寻找其相关的文档更为快捷。 基于P2P的分布式中文搜索引擎是搜索引擎发展的一个趋势,成为人们研究、开发的领域。当前,这方向的研究还处于试验、探索阶段,某些方面在理论上还需要有所突破,逐步使搜索引擎更好地服务于用户。

史锦荣[10]2005年在《基于多Agent智能搜索引擎模型研究》文中研究说明随着Internet的迅速发展,网上信息资源越来越丰富,网络已经成为人们获得信息的必要途径和重要手段,但是这种网上信息浩繁,具有分布、动态变化、结构复杂等特点,使得用户根本无法完全了解庞大的、瞬息万变的信息资源。在这种情况下,传统的功能固定的搜索引擎已经不能满足用户需求,人们期盼着新的、具备了智能性和用户可区分的新一代搜索引擎的出现。 本文在分析研究了国内外的搜索引擎技术的发展和未来趋势,结合人工智能技术的最新研究成果—Agent技术,提出了基于智能Agent的搜索引擎系统研究,并以此为体系架构,在Robot和用户界面方面做了大量的优化和个性化工作。采用兴趣模型,多用户协作等人工智能模型使得搜索引擎完全实现了个性化服务的特点,并提出了对信息的“推—拉”操作融为一体的新型搜索引擎模型。其主要工作和结果如下: (1)分析和研究了传统搜索引擎的技术特点和主要的体系架构,对搜索引擎的发展历程和未来的发展方向做了较详细的探讨,从而明确指出了未来的搜索引擎发展趋势就是要引入Agent技术和个性化、专业化的发展道路。 (2)分析和研究了Agent技术的主要类别和各自的特点,结合搜索引擎的特点和实现因素的考虑,选择了Multi—Agent模型来实现搜索引擎系统。实验表明:Multi—Agent模型是容

参考文献:

[1]. 基于Elasticsearch的分布式智能搜索引擎的研究与实现[D]. 曾亚飞. 重庆大学. 2016

[2]. 基于Map/Reduce的分布式智能搜索引擎框架研究[D]. 付志超. 武汉理工大学. 2008

[3]. 分布式信息检索中移动Agent技术的应用研究[D]. 陈莉勤. 武汉理工大学. 2008

[4]. 基于分布式的智能搜索引擎[D]. 姜鑫维. 武汉理工大学. 2006

[5]. 基于Web挖掘的搜索引擎技术研究[D]. 胡小睿. 武汉大学. 2005

[6]. 专题网络数字化资源的组织与调度[D]. 鲍永庆. 四川大学. 2005

[7]. 基于专题信息服务的智能搜索引擎技术研究[D]. 徐永红. 国防科学技术大学. 2004

[8]. 基于本体的分布式检索的研究与实现[D]. 李家峰. 沈阳工业大学. 2010

[9]. 基于P2P的分布式中文搜索引擎的应用研究[D]. 丁邦旭. 南昌大学. 2006

[10]. 基于多Agent智能搜索引擎模型研究[D]. 史锦荣. 太原理工大学. 2005

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

分布式智能搜索引擎技术
下载Doc文档

猜你喜欢