WEB信息搜集系统设计与实现的研究

WEB信息搜集系统设计与实现的研究

刘玉莲[1]2003年在《WEB信息搜集系统设计与实现的研究》文中研究指明本文的研究对象是Web这样的动态海量信息载体;研究的主要目标是要得到一种高性能、高可靠,支持海量网页信息搜集、分析与处理的系统结构。主要内容包括以下几个方面: 1)基于对网页性质及其分布的认识,设计和实现了一种可扩展海量Web信息搜集系统体系结构。结合Web信息搜集的基本要求和基于PC机群的并行分布处理技术,该系统结构力图在搜集策略、可扩展性、减少通信、负载平衡、任务调度、并行粒度控制等方面得到一个很好的折衷。在进行了详细的理论分析和大量模拟实验的基础上,目前这种体系结构已经成功地实现并投入运行,在系统规模从1到18台机器变化的范围内表现出很好的可扩展性,达到了15天搜集5700万网页的性能指标。 2)针对并行网页搜集系统的节点可能出现临时故障的问题,提出了一种系统动态可配置方案。该方案的基础是一种从网页URL到搜集节点的两阶段映射关系,它保证了当配置(节点数)变化时系统能经过一个短暂、安全的过渡过程达到一个新的稳态,从而保证了系统的动态可配置性。

郭海燕[2]2009年在《搜索引擎中网络爬虫技术研究》文中指出随着Internet技术的迅速发展,Web信息呈指数增长,搜索引擎已经成为人们进行信息获取必不可少的工具。目前大多数的搜索引擎提供的服务还不能令用户满意,如何利用有限的系统资源搜集尽可能多、尽可能重要的网页已经成为研究的热点。本文设计并实现了一个网络爬虫系统,并对其中的核心算法做了深入探讨。论文分析了搜索引擎的工作原理和体系结构;研究了网络爬虫的搜集策略,提出了一种改进的基于网页深度和带权重的反向链接相结合的搜集算法,并对该算法做了可行性验证;设计并实现了网络爬虫的关键算法,包括多线程的网页抓取,URL的去重,网页的调度等。此外,针对中文搜索引擎的特点,采用汉字编码的转换,实现了不同编码网页的统一存储;采用DNS解析缓存机制,使得信息搜集的速度明显加快;采用增量抓取机制,避免了因重复搜集未变化的网页带来的资源和时间耗费。实验结果表明,该网络爬虫的设计较好的满足了搜索引擎对海量数据处理的要求。

罗双玲[3]2005年在《基于Web Services的运输服务信息跨平台搜集系统研究》文中认为现代物流环境下,货物的运输越来越倾向于协调多个参与方、多种运输形式共同作业,而运输资源的整合又严重依赖于各运输服务提供商之间充分的信息共享。因此,作为一次运输任务的全程组织、协调者的货运代理往往需要广泛、及时、准确的获取运输服务提供商的服务信息(包括服务范围、服务能力、价格等),并依此辅助制定运输方案。为克服几种传统合作方式下,货运代理与运输服务提供商之间信息交互方面普遍存在的人工成本高,信息时效性差,难以灵活选择合作伙伴等局限性,本文提出了基于Web Services的运输服务信息跨平台搜集方案,通过运输服务提供商以Web Services形式动态发布希望共享的服务信息,而货运代理根据需要,动态查找、调用服务的方式,在货运代理和众多承运商之间灵活的建立及时通畅的信息交互渠道。 建立这一信息搜集系统的关键问题在于Web Services的定位及其调用。基于对UDDI信息模型及目前Web Services调用技术的分析和研究,本文有效解决了这一关键问题,实现了运输服务信息跨平台搜集原型系统,主要工作如下: 1、设计并实现了“运输服务信息发布Web Services”,为运输服务提供商提供了一种“内部管理维护,对外发布接口”的安全方便的信息发布模式。 2、在UDDI注册中心的设计上,本文设计了货物运输服务的分类Tmodel,用于支持基于类别的Web Services查询。 3、实现了UDDI查询功能与UDDI服务器的分离。使用UDDI4JAPI在系统中加入了轻便的UDDI查询模块,货运代理可通过操作本地系统(无须登入UDDI服务器)根据需要选择要查找的运输服务信息。 4、在WSDL文档的分析中使用DOM API重点解决了参数结构的解析问题,结合Swing JTree对象实现了WSDL文档中复杂数据类型的用户显示问题。 5、从剖析SOAP消息过程的内核机制出发,分别设计实现了面向RPC和面向文档交互方式的Web Services无编程调用方案。帮助用户无需编程即可激活任意的运输服务信息发布Web Services。

王文齐[4]2014年在《基于第叁方物流的市场快速响应策略及支持平台研究》文中提出便利店、杂货店等小店铺是零售业的大军,是构成供应链的一个节点,是供货商、生产商了解市场需求的前哨,是一些物流商(第叁方物流)的重要业务来源之一。小店铺经营因缺乏有效的库存与物流管理手段和技术性工具,也缺乏理论方法来指导,制约了小店铺的市场地位,形成了一条“散乱差”的供应链。本研究将第叁方物流商引入由生产商(供货商)和小店铺构成的二级供应链中,通过应用技术和管理策略来解决供应链快速响应过程中的需求预测、库存管理和物流配送等问题。首先,对供应链管理、快速响应和第叁方物流的相关研究进行了综述,分析了第叁方物流在供应链管理和市场快速响应中发挥的作用,着重分析了第叁方物流在信息和资源整合方面对供应链起的优化作用。第二,对小店铺信息采集系统进行了需求分析,在此基础上概括的介绍了快速响应的策略及其支持平台的结构,主要包括快速响应系统的整体设计、信息的存储、信息的采集和信息的共享。第叁,讨论了市场快速响应系统的技术与管理策略实现的条件,尤其介绍了一种面向Internet服务的手持终端数据快速采集技术,并介绍了基于此的整体系统架构和业务流程。第四,构造了一种自适应报童模型,通过结合信息采集技术与计算技术,能根据市场变化自动修正需求概率值,以满足小批量、高频率、短周期货物配送的更高准确度、更快速度的市场预测,由算例分析证明了这种模型是切实可行的。第五,在技术平台的支持下论述了基于自适应报童模型的需求预测、基于自适应报童模型的VMI策略以及引入第叁方物流的VMI的物流配送策略。重点对平台的数据库设计、Web Service接口设计和信息采集系统的设计进行了详细的阐述,并给出了调用过程和实现界面。本文从供应链下游销售来解决供应链的市场快速响应所需的信息基础问题,构造了基于信息系统的自适应报童模型,设计了一种快速采集销售信息的小店铺移动终端,以支持快速响应的信息管理策略,期望能够进一步完善供应链管理和快速响应的理论和应用研究。

董佳[5]2015年在《基于垂直搜索技术的互联网公开文档搜集系统》文中研究说明现今,伴随着云存储、虚拟化办公等多种互联网技术的发展,人们获取信息的途径和方式,已从传统的社交媒体时代进入网络信息时代,谷歌、百度等通用搜索引擎正广泛被人们用于从互联网上检索信息,获取资讯。通用搜索引擎主要依赖传统的网络爬虫技术,“大而全”地采集互联网上的信息数据,忽略了“准而精”地满足用户在专业检索领域、索引海量级数据、信息更新速度、个性化服务等方面的需求。为此,针对某一特定使用者,涉猎某一特定领域,满足某一特定需求的主题网络爬虫和垂直搜索服务应运而生,正逐渐成为信息搜索领域至关重要的一部分。本文针对目前使用频率较高且迅速增长的文档检索垂直服务领域,主要研究如何基于垂直搜索技术,对互联网上的各类文档,进行定向化搜集和个性化应用,实现基于垂直搜索技术的互联网公开文档搜集系统。一是运用垂直搜索技术和信息抽取技术,搜集和存储指定专业网站上用户关注的网页信息和文档数据;二是结合采集型元搜索技术,利用已有的通用搜索引擎,搜集和存储互联网上存在的多种类型公开电子文档;叁是运用增量索引技术,实现对搜集文档数据的二次搜索和结果展示。本文的创新点在于:一是笔者分析研究了网页URL链接的智能识别处理算法和基于DOM树的文本密度正文提取算法,优化了文档数据采集方案;二是笔者通过Lucene全文检索引擎,研发出独具特色的自建索引模块,并结合成熟的百度硬盘搜索技术,实现对word、excel、pdf、ppt等多种互联网公开文档的索引、关键词搜索和文档提取。

肖征[6]2014年在《基于网络爬虫的网络漏洞扫描检测系统的设计与实现》文中进行了进一步梳理网络漏洞扫描检测是网络安全管理的重要组成部分,是网络公司管理的重要环节,及时准确的漏洞扫描检测是网络公司安全的重要依据。随着计算机网络技术的迅速发展,很多网络公司已经拥有自己的网络漏洞扫描系统。但是绝大部分系统都掌握在大型公司里面。这些网络漏洞扫描系统软件虽然功能很强大,但是购买使用权需要昂贵的费用,大部分中小型网络公司无法承担,并且这些软件使用也很复杂,因此需要开发易于操作、价格相对便宜的网络漏洞扫描检测系统。本文针对大多数企业对网络监控的实际工作需要,开发了网络漏洞扫描检测系统。论文主要应用JAVA语言、J2EE平台、Servlet技术、Oracle数据库和嵌入式Web服务器技术对本系统进行开发。通过这些技术的使用,使得系统的性能有了很大的提高。本系统包括请求扫描调度模块、扫描调度模块、漏洞扫描管理模块和信息搜集模块。其中请求扫描调度模块可以实现扫描任务控制、配置扫描参数、获取扫描漏洞、确定扫描任务以及输出扫描参数等5个子功能;扫描调度模块可以实现基本信息探测、扫描设置、端口扫描等3个子功能;漏洞扫描模块则可以实现FTP漏洞扫描、HTTP漏洞扫描、SQL漏洞扫描、SMTP漏洞扫描等4个子功能;信息搜集模块中可以实现扫描系统类型、扫描服务器类型、IP地址及端口号等3个子功能。网络漏洞扫描检测系统在实际的应用测试过程中,达到了测试的要求;并且系统满足了网络公司的现有需求。网络漏洞扫描系统具有资源共享、信息快速传递、流程规范化等优良特性,在提高工作效率上起到了很大的作用。网络漏洞扫描检测系统的研发加快了企业信息化的步伐,提高了企业信息化的管理水平,使其在激烈的社会竞争中立于不败之地。因此,建设和完善网络漏洞扫描检测系统具有非常重要的实际意义。

马骊[7]2006年在《基于搜索引擎技术的警情信息搜集系统的研究与实现》文中研究表明人类进入二十一世纪,网络正全面地改变着人们的思维方式和生活方式,对政治、军事、经济、文化以及宗教产生深刻的影响。随着网络在我国的迅速发展,各种网络犯罪行为滋生蔓延,愈演愈烈。网络犯罪直接危害国家的政治、经济、文化等各个方面的正常秩序,信息安全已成为关系国家安全和主权、社会稳定的重要问题。利用网络广泛传播淫秽、反动、邪教、暴力等有害信息以及在线联络进行违法犯罪活动是网络犯罪两大主要手段。如何有效监控、发现、清理这类有害信息,为人们提供一个干净清洁的网络环境,成为公安部门的一项重要工作。 以Google、百度为代表的搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。本文深入研究分析了搜索引擎架构以及中文分词、索引、主题搜索策略及Web挖掘等相关技术,并在此研究基础上,结合公安工作实际,运用搜索引擎技术,以Java作为开发平台,设计并实现了警情信息搜集系统。本文的主要成果有以下几点: 1、研究分析了Web信息检索技术与搜索引擎、Web挖掘等技术的联系和区别,探讨了Web信息检索的框架和相关评测标准。 2、在此研究基础上,综合运用Web信息检索、搜索引擎、Web挖掘、中文分词索引等有关技术理论,设计并实现了不同于面向普通用户的Google、百度等普通搜索引擎的用于公安警情信息搜集的专用Web信息搜集系统,为改变大多数公安机关对Web信息监控只能采取人工浏览的现状提供了一种有效的选择。 3、设计并实现了根据页面链接文字、页面文字信息与主题相关度进行综合研判的主题搜索策略,能根据用户意愿有选择的采集信息、快速定位信息,解决了普通搜索引擎信息采集的盲目性,大幅度提高信息搜集的效率和准确度。 警情信息搜集系统主要完成对上述互联网有害信息的发现、监控及警情信息的搜集,为公安情报信息工作提供有力的武器,增强了公安机关的信息获取能力和对社会面的掌控能力,使公安机关做到耳聪目明,各项工作有的放矢,从而更快、更准地预防和打击各类违法犯罪活动,为国民经济的高速健康发展保驾护航。

叶剑锋[8]2016年在《典型客户能效信息搜集与分析系统设计与实现》文中研究指明能效信息搜集与分析,就是为节能服务公司收集业务范围内涵盖的典型企业的信息资料,对重点客户进行能耗分析,为节能服务公司的市场运作,客户定位提供数据支撑和技术分析手段。它着重解决了节能产业缺乏基础数据和分析手段等问题。本文首先总结了目前我国面临的能源问题和当今能效服务在国内外发展的现状,接着描述了本文产生的背景以及系统研究内容。然后,通过开发技术和开发工具两部分来阐述的系统的架构设计。本文的“能效信息搜集与分析系统”主要分为“综合展示”、“企业档案管理”、“合作伙伴管理”、“电量电费分析”、“能效潜力分析”、“综合查询”、“系统管理”等模块,文章从系统功能模块设计,数据库的数据模型设计以及界面UI设计来具体阐述如何实现能效信息搜集与分析系统所包括的各个功能模块。本系统设计基于Windows开发平台的系统设计,后台DBMS使用Oracle10g数据库,数据库建模采用Sybase公司的PowerDesnigner15工具。在开发技术部分,采用基于“面向服务架构(SOA)/公共信息模型(CIM)”的集成开发框架。集成开发框架是基于J2EE基础上的平台,它由以下几个方面组成:工作流平台、应用集成和开发框架、商业智能框架。系统采用SSH叁层架构设计,使用Java语言来编写程序实现各功能模块,开发工具采用MyEclipse8.6,系统服务器使用Windows平台流行的Windows 2003 Server,采用Tomcat6.0作为系统的Web服务器。本系统采用最常见的MVC型J2EE技术进行结构设计,其中,MVC(model-view-control)为模型-视图-控制的缩写,尤其适用于多次客户访问及数据显示的场景。本文所建立的能效管理系统包括很多技术领域,如数据采集分析、工业和电气智能化、建筑节能化等。我们所想要建立的能效管理系统的目标就在于,搜集企业的能效信息,通过数据分析,挖掘节能潜力,提出节能建议。该系统的功能发挥主要由以下几点决定:用能设备的正常运行,各种机电设备运行中的数据和参数,以及能源传输中的各项特性。通过能效管理系统,可以使得资源得到最大化的利用,避免了不必要的消耗,从而达到节能的目的。

张瑞[9]2008年在《基于Lucene的中英文文档全文搜索引擎》文中研究表明随着互联网的发展,搜索引擎已成为网民获取网络信息的主要工具。在这种趋势下出现了各式各样的搜索引擎。网络上有一类文档包含了大量信息,这类文档包括word、powerpoint、excel等等。虽然目前存在一些专业的文档搜索引擎比如北大天网FTP文件搜索引擎,但这类搜索引擎的检索范围仅限于FTP文档,并且只能对文件名进行检索而无法对文档内容进行检索。尽管有少数的大型专业搜索引擎如baidu、google实现了对文档内容进行检索的功能,但这些搜索引擎并不是针对文档的搜索引擎,它们通过解析HTTP页面的方式来搜集文档,而不支持对FTP服务器上的文档资源的搜集,因而损失了大量的资源。此外,对于日益增长的海量网络数据,检索结果本身就是一个很大的集合,用户很难从这个大集合中有效地获取信息,因此用户需要更具体更客户化的搜索引擎。本文设计和实现的中英文文档全文搜索引擎不同于现有的搜索引擎。该文档搜索引擎对海量网络数据提供了简化性整合,可以灵活地与垂直搜索等技术相结合。该搜索引擎可以被应用到特定的领域比如对特定网站的文档资源的检索、对特定行业的文档资源的检索等等。该系统一方面弥补了现有文档搜索引擎信息量匮乏的缺陷;另一方面,系统“硬件要求低、简洁、灵活、可配置”的特点使其可以方便地应用到各种具有专门需求的全文检索领域。本文重点介绍和实现了以下一些方面:1.系统的总体设计;为提高性能和可扩展性所做的一些局部设计。2. HTTP和FTP爬虫系统。设计并实现了用于抓取特定文档(word, powerpoint, excel)的HTTP和FTP爬虫系统。详细描述了HTTP爬虫的总体架构设计、运行流程、重要组件DNS cache的设计与实现。阐述了URL去重策略的设计与实现、Polite Nice抓取处理策略的设计与实现、HTML页面解析过程的设计与实现、文档抓取过程的设计与实现。阐述了FTP爬虫系统的总体设计和性能优化方案。阐述了爬虫系统的文件去重功能的设计及实现、文档解析系统的接口设计及实现。3.基于apache POI的文档解析模块。介绍了模块总体设计、具体实现、存储优化策略。4.基于lucene的检索模块和UI模块。介绍了lucene的原理,结合web技术阐述了检索模块和UI模块的设计思路和实现方法。文章最后对系统的工作效果和性能进行了简单评测,对系统未来的工作进行了分析和展望,提出了一些优化方案。

孙明[10]2008年在《基于领域本体分类用户参与的Web信息搜索机制研究》文中指出本论文从如何满足Web信息搜索的用户需求出发,从信息学角度发现造成互连网信息搜索困难的根本原因是信息距离遥远。因此,解决难题的根本手段是有效缩短搜索者与搜索目标实体之间的信息距离。用户需求既是信息搜索的目标,又是筛选无用信息、缩短搜索信息距离的重要因素,需要非常重视。用户通过视觉搜索参与信息搜索过程,可以有效而真实地捕获用户需求。通过对互连网的领域划分,可以将搜索的范围从整个互连网缩小到领域,大幅缩短搜索的信息距离。领域用户的信息需求范围依赖于领域本体产生的完全信息量,而领域本体的完全信息总量是相对恒定的。因此基于领域本体的信息搜索,可以有效锁定信息搜索的完全信息总量,从而可以有效锁定领域搜索的信息距离。基于领域用户需求的领域本体分级分类项,既可以描述领域本体的结构和关联活动,又可以描述领域用户通过用户与实体间的活动所反映出的用户需求。通过联接分级分类项,生成完整语义的搜索关键词,这些搜索关键词同时表示领域用户对领域本体信息搜索的需求类别。基于领域本体分类用户参与的全信息Web搜索中介模型,可以有效缩短信息搜索距离,是一种比较理想的Web信息搜索机制。

参考文献:

[1]. WEB信息搜集系统设计与实现的研究[D]. 刘玉莲. 哈尔滨工程大学. 2003

[2]. 搜索引擎中网络爬虫技术研究[D]. 郭海燕. 西安电子科技大学. 2009

[3]. 基于Web Services的运输服务信息跨平台搜集系统研究[D]. 罗双玲. 大连理工大学. 2005

[4]. 基于第叁方物流的市场快速响应策略及支持平台研究[D]. 王文齐. 南华大学. 2014

[5]. 基于垂直搜索技术的互联网公开文档搜集系统[D]. 董佳. 福州大学. 2015

[6]. 基于网络爬虫的网络漏洞扫描检测系统的设计与实现[D]. 肖征. 吉林大学. 2014

[7]. 基于搜索引擎技术的警情信息搜集系统的研究与实现[D]. 马骊. 山东大学. 2006

[8]. 典型客户能效信息搜集与分析系统设计与实现[D]. 叶剑锋. 电子科技大学. 2016

[9]. 基于Lucene的中英文文档全文搜索引擎[D]. 张瑞. 电子科技大学. 2008

[10]. 基于领域本体分类用户参与的Web信息搜索机制研究[D]. 孙明. 上海交通大学. 2008

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

WEB信息搜集系统设计与实现的研究
下载Doc文档

猜你喜欢