中国电建集团河南省电力勘测设计院有限公司河南省郑州市450007
摘要:随着互联网信息急剧增加以及信息多样化局面的形成,传统归纳型搜索引擎的收集、索引、搜索内容不断扩充,对于用户高效率和多样化的需求也越来越显得力不从心,尤其是不能满足特定用户对于受限范畴和面向特定主题的信息的需要。因此,用户非常需求一个数据分类详尽、准确率高、覆盖规模广、更新及时的面向某个主题的搜索引擎来精准的获取所需求的信息。鉴于此,本文主要分析搜索引擎技术在电力企业的应用。
关键词:搜索引擎技术;电力企业;应用
1、搜索引擎介绍
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上采集信息,在对信息进行组织和处理后,为用户提供检索服务,将检索的相关信息展示给用户的系统。搜索引擎是工作于互联网上的一门检索技术,它旨在提高人们获取搜集信息的速度,为人们提供更好的网络使用环境。从功能和原理上搜索引擎大致被分为全文搜索引擎、元搜索引擎、垂直搜索引擎和目录搜索引擎等四大类。
全文搜索引擎是目前最流行的搜索引擎,国内外著名的百度、谷歌、必应等。全文搜索引擎的工作原理是,断字器在对文章内容进行预处理后,从互联网上爬取出该爬行器,然后由计算机索引程序扫描该单词,对每个单词建立倒排索引,并在文章中出现该单词。e数据库中记录的位置和数目。
元搜索引擎是通过统一的用户界面帮助用户在多个搜索引擎中选择和使用合适的搜索引擎来实现检索操作,是分布在网络中的各种检索工具、全局控制机制。目前,有360个综合搜索、信息空间等。元搜索引擎能够充分集中各搜索引擎的优势,有效地扩大搜索范围,提高检索结果的准确性。元搜索引擎是基于多个搜索引擎上的两个合并,它没有数据库,所以相同的检索请求会导致重复检索。
垂直搜索引擎是针对某一特定行业的专业搜索引擎,是搜索引擎的分割和扩展,是网页库中某些类型的专门信息要进行集成,定向子字段来提取所需的数据进行处理,然后返回给用户。垂直搜索引擎是在特定的搜索领域满足特定的搜索需求,如火票搜索、视频搜索等,其检索范围小,是基于结构化数据和元数据的搜索,结果精度高,检索时间短,成本低。
2、搜索引擎优化技术研究
2.1、搜索引擎
所涉及和涵盖的技术范围非常广,涉及到了系统架构和算法设计等许多方面。可以说由于搜索引擎的出现,把互联网产品的技术水平提高到了一个新的高度;搜索引擎无论是在数据和系统规模,还是在算法技术的研究应用深度上,都远超之前简单的互联网产品。
由此可见搜索引擎系统是一个由许多模块组成的复杂系统,核心模块通常包括爬虫、索引、检索和排序,除了必需的核心模块之外,通常还需要一些支持辅助模块,常见的有链接分析、去重、反垃圾、查询分析等。搜索引擎中各关键功能模块功能简介如下:
(1)爬虫:从互联网爬取原始网页数据,存储于文档知识库服务器。(2)文档知识库服务器:存储原始网页数据,通常是分布式Key-Value数据库,能根据URL/UID快速获取网页内容。(3)索引:读取原始网页数据,解析网页,抽取有效字段,生成索引数据。索引数据的生成方式通常是增量的,分块/分片的,并会进行索引合并、优化和删除。生成的索引数据通常包括:字典数据、倒排表、正排表、文档属性等。生成的索引存储于索引服务器。(4)索引服务器:存储索引数据,主要是倒排表,通常是分块、分片存储,并支持增量更新和删除。数据内容量非常大时,还根据类别、主题、时间、网页质量划分数据分区和分布,更好地服务在线查询。(5)检索:读取倒排表索引,响应前端查询请求,返回相关文档列表数据。(6)排序:对检索器返回的文档列表进行排序,基于文档和查询的相关性、文档的链接权重等属性。(7)链接分析:收集各网页的链接数据和锚文本(AnchorText),以此计算各网页链接评分,最终会作为网页属性参与返回结果排序。(8)网页去重:提取各网页的相关特征属性,计算相似网页组,提供离线索引和在线查询的去重服务。(9)网页反垃圾:收集各网页和网站历史信息,提取垃圾网页特征,从而对在线索引中的网页进行判定,去除垃圾网页。(10)查询分析:分析用户查询,生成结构化查询请求,指派到相应的类别、主题数据服务器进行查询。(11)页面描述/摘要:为检索和排序完成的网页列表提供相应的描述和摘要。(12)前端:接受用户请求,分发至相应服务器,返回查询结果。
3、搜索引擎技术在电力企业的应用
3.1、需求分析
随着智能电网的持续建设,电网运行特性愈加复杂,数据规模日趋扩大,传统的定制化查询已经不能够有效满足用户对数据的感知需求,主要体现在以下四个方面:
(1)信息随需共享。面对多样的查询需求,传统的定制化查询需要由专业的系统开发人员通过代码级开发实现,工作量大、周期长,不能满足用户及时获取的要求;(2)海量数据查询。电力业务大数据环境正在形成,数据量正迅速膨胀并变大,数据类型逐渐多样化,数据价值密度不断降低,信息检索愈发重要,查询性能已成为制约检索发展的瓶颈,例如查询页面响应时间、并发访问能力等;)(3)信息资源开发。智能电网的关键是坚强平台和先进技术的灵活协调,尤其是信息资源的按需聚合与自主协同等科学技术问题。广义上讲,信息检索是信息资源开发的基础技术,涉及多源数据的分析加工和价值提纯,能够有效地存储、表达、组织及查找用户所需的数据。因此,深化搜索引擎的内涵,拓展搜索技术的外延刻不容缓;(4)支持电力信息通信平台。当前信息通信基础设施正在从集中模式向动态组织、广域可重构方向快速发展。
3.2、系统架构设计
电力搜索层,提供面向电力系统管理(早会报、设备查询、日志查询等)的电力搜索服务。在检索结果反馈上,云计算搜索基于B/S架构,采用富客户端技术进行信息展现。
搜索平台层,供给搜索效劳的操作接口,包含信息发布与提交、信息索引和信息查询等。信息的发布与提交采用了自动与被迫相结合的方式:一方面经过抓取器查询文件目录和数据库,在发现数据改变的情况下对改变数据进行处置;另一方面对于微博等体系的提交信息进行自动索引树立。
搜索引擎底层,关注于各类数据的索引和存储,在数据索引设计上,结合Map/Reduce并行框架与搜索服务器分片(Shards)技术,使用Map/Reduce并行框架将任务请求发送到多个数据源进行索引信息的提取,对提取的索引信息按照规则进行切分,形成多份切分(Shards)并分别存储在分布式的索引服务器中。
3.3、具体功能设计
在基于云计算的电力搜索引擎系统架构中,采用集中化部署思路设计远景系统方案,形成多个数据中心的物理集中和逻辑统一的整体视图。数据中心按“大集中”方式形成“物理分布,逻辑集中”的云服务中心,各级电力业务管理部门、业务部门的所有业务都是通过云终端方式获得服务,以一级索引部署为例,采用两级索引结构,通过对数据源进行内容分析和收集,形成分布式环境下各数据中心的一次内容索引库,然后将一次索引处理成便于检索的索引倒排文件,形成采用集中部署方式的二次目录索引库,各级搜索引擎的搜索请求按照“就近服务”原则访问各个一次索引库进行服务反馈,而全网的搜索请求需要通过远程服务接口上传至电力业务管理部门,并基于二次索引库进行统一的请求响应和服务管理。
参考文献:
[1]邹崇尧,朱贵方,赵双明.基于搜索引擎技术的地名地址定制查询研究[J].测绘通报,2014(08):92-94+124.