主题型搜索引擎论文_翟霞

导读:本文包含了主题型搜索引擎论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:爬虫,搜索引擎,主题,网络,农产品,农业,价格。

主题型搜索引擎论文文献综述

翟霞[1](2019)在《基于Lucene的面向大数据主题的垂直搜索引擎研究》一文中研究指出本文在综合研究各搜索引擎的关键技术的基础上,提出了一种面向特定主题的基于Lucene垂直搜索引擎设计方案,并以手机商品信息主题搜索引擎为实例进行了验证。在总体设计方面采用的是模块化思想,垂直搜索引擎被分为搜集分系统、索引分系统和查询分系统,各分系统相互之间无依赖,可以较便捷的实现设计。(本文来源于《科学技术创新》期刊2019年31期)

郑燕娥,郑志明[2](2018)在《基于Heritrix与Solr的就业主题搜索引擎的研究与优化》一文中研究指出随着信息化步伐的加快,网络求职越来越普及,通用搜索引擎以及招聘网也成为大学生获取就业信息的主要渠道。针对大多通用搜索引擎搜索的就业信息精准度不高以及招聘网站内容繁杂等问题,研究面向大学生的就业主题搜索引擎系统。借助Heritrix爬虫工具以及Solr全文搜索引擎进行二次开发,并对Heritrix爬虫工具默认的爬取策略以及队列分配策略进行优化,同时引入IK Analyzer改进Solr的中文分词的准确率。系统原型测试结果表明,系统具有较好抓取效率以及查准率。(本文来源于《齐齐哈尔大学学报(自然科学版)》期刊2018年04期)

冷齐[3](2018)在《基于Shark优化算法的主题搜索引擎研究》一文中研究指出由于高新技术不断推动着产业种类与结构向专业化和精细化发展,那么如何高效获取专业实用信息成为了人们普遍关注的问题之一。因传统搜索引擎的检索精度不断下降,于是掀起了研究基于主题的搜索引擎的热潮。本文以搜索引擎相关理论基础为铺垫,简明介绍了搜索引擎的特点、基本架构、关键技术以及主题网络爬虫的原理、结构及工作原理等,接着详细分析了常见的叁种主题爬行算法与比较了Page Rank与HITS两种基于链接结构的网页排序算法,针对使用单一的评估方法无法达到有效预测链接地址实际价值的目的,提出了基于内容评估与Web链接结构组合的搜索策略方案,并基于主题搜索引擎基本思路提出了一种新的主题爬行模型和设计了一种新的多线程协作式主题爬行器。在讨论与设计了搜索引擎基本方案与爬虫系统之后,针对shark算法存在的不足,如无关网页后面连接着相关网页链接、优先度区别过小及URL队列过长,提出了优化改进思路,同时也设计与实现了shark算法,最后根据网页内容链接相关性计算,描述了多媒体主题的网页搜索算法实现步骤与通过仿真实验比较了传统Fish、shark Search算法与优化的shark算法。与通用搜索引擎相比,主题搜索引擎像是一种变体,它在其基本结构与技术上优化了通用搜索引擎的一些功能。为了专业用户更高效更准确地获取所需要的专业领域信息,特针对主题搜索引擎设计了网络爬行器,其爬行网页的基本思想是:针对既定主题搜索网页并过滤与主题无关的网页,留下主题相关网页。Shark-Search算法是一种十分有代表性的主题搜索引擎算法,根据多媒体素材在网页中分布特点,Shark-Search算法主要从叁个方面:搜索广度、链接相似性判断与要抓取链接选择策略上做了进一步优化,而且采用“先搜索、后判断”的查询方案,大大提升了多媒体网页主题搜索的效率。(本文来源于《西北师范大学》期刊2018-05-01)

韦美峰,王亚民[4](2017)在《基于后缀树聚类的主题搜索引擎研究》一文中研究指出[目的/意义]一个好的主题搜索引擎能够更好地满足专业领域用户的信息需求。[方法/过程]在爬取阶段采用锚文本正则表达式匹配进行主题过滤、加入IKAnalyzer中文分词器,结合TF-IDF、OPIC和Topic-PageRank算法对检索结果排序进行改进并通过STC算法对检索结果实时聚类。[结果/结论]以"图书情报"为主题进行实验测试,每增加一个分布式计算节点爬取速率提高20%,查准率优于未排序优化23%,检索结果可以实时聚类并以可视化展示,且检索结果项多为相关论文。[局限]系统对网页中繁多的数据格式解析度不够,未解析的部分可能包含主题内容。(本文来源于《情报理论与实践》期刊2017年12期)

姬祥[5](2017)在《农产品价格主题搜索引擎的研究与实现》一文中研究指出随着互联网的快速发展,面对庞大杂乱的网络信息,人们从中获取信息变得越来越艰难,而搜索引擎的出现为人们从互联网获取信息打开了一个新的窗口。搜索引擎是指按照特定的算法从因特网上获取数据的计算机程序,它对数据进行处理后,提供给用户查询使用。互联网上的数据浩瀚如烟、杂乱无章,用户想要从中找出自己想要的信息异常艰难,而搜索引擎就如黑夜里的灯塔,为用户指引方向。主题搜索引擎是针对特定领域的搜索引擎,是通用搜索引擎的分支,是对互联网上某类页面的整合,抽取出该领域需要的信息,并将这些信息以结果页面的形式返回给用户的系统。主题搜索引擎能够在特定行业给用户提供更好的体验,而且具有专业性强、成本低、针对性强等特点。农业搜索引擎是主题搜索引擎的一种,是国家农业信息化发展的一个重要部分,但使用现有的农业搜索引擎对农产品价格进行检索时,返回的信息多为农产品交易信息,虽然提供了便捷的交易平台,却不适合农业生产者分析行情。鉴于此现状,本文借鉴了国内外学者对主题搜索引擎的最新研究成果,并对与农业相关的搜索引擎进行了研究,设计了面向农产品价格的主题搜索引擎。本文的主要工作如下。(1)研究了农业相关搜索引擎的功能,发现使用现有农业搜索引擎对农产品价格进行检索时,返回结果更多的是农业交易信息,不便于农业工作者从中获取信息,因此本文提出了农产品价格主题搜索引擎,便于农业工作者更加快捷地获取农产品价格的相关信息;(2)分析了近年农业搜索引擎的研究成果,研究了主题搜索引擎的关键技术和算法,根据页面的父网页、兄弟网页和页面描述信息对主题相关度进行了预判,并使用主题相关度预判算法对爬虫抓取策略提出了改进;(3)使用Http Client和htmlparser为本系统量身定做了一个功能全面、结构清晰的主题网络爬虫,爬虫使用本文提出主题相关度预判算法来决定是否下载页面,提高了爬虫的抓取效率;(4)利用农产品价格样本得到一个SVM分类器,将SVM分类器的支持向量SV作为KNN分类器的训练样本,构建一个基于支持向量的KNN分类器,行之有效的对抓取到的页面进行分类;(5)为了使系统更快的响应用户的查询请求,本文系统引入了缓存系统,使用一级缓存结构,用动态缓存区和静态缓存区分别存储用户查询和搜索日志,以极小的内存为代价,大大降低了系统受到的压力,而且明显提高了系统的响应速度。(6)对农产品价格主题搜索引擎的抓取性能和检索性能进行了测试,实验结果表明,系统有着较高的抓取效率,而且能够有力的拒绝与主题不相关的页面。(本文来源于《东北农业大学》期刊2017-06-01)

高庆芳[6](2017)在《主题搜索引擎搜索策略的研究及算法设计》一文中研究指出当前互联网应用中网站的搜索正变得越来越普及,一个网站要想做大做强,其内容必定要丰富,用户想要找到的内容,不管是最新的还是以前的(比如一段时间以前就见过的新闻报道,因为不再是最新的内容而没有出现在首页上),我们都可以借助搜索引擎来查找它。通过搜索引擎,用户可以享受快速获得资源的服务,几乎足不出户,搜索引擎就可以使人们更有效的从互联网络获取各种信息了,所以一个搜索引擎的好坏直接决定了人们的互联网生活。本文通过分析了主流搜索策略及算法,对搜索引擎的分类、技术架构及原理结构进行了深度的剖析,同时研究了基于主题爬虫系统的设计和模型的建立,在现有的技术支持上融入了机器学习算法,具体的讨论了文档的特征选择算法思想,并阐述了目前主流的TF-IDF改进算法,以Python 2.7为开发平台,设计实现了基于Context Graph的主题爬虫系统。最终以国内各大汽车网站为例,将“汽车”设为主题词进行分类爬取,以查全率、查准率、F1值来评价所涉及的系统性能的好坏。通过实验结果,说明本文设计的算法在文档的主题词分类及网页爬取的效率上具有较好的性能。(本文来源于《兰州大学》期刊2017-05-01)

张露露[7](2017)在《基于分布式采集策略的病虫害主题搜索引擎研究》一文中研究指出互联网的迅猛发展推动了中国农林信息化由数字农林跨入智慧农林的新阶段。智慧农林更加注重各个环节、各种资源、各项业务的深度整合、集约共享和业务协同,通过智慧农林的实现,必将带来农林生产力的又一次深刻变革,农林信息化也将迎来一个新的大数据时代。如何更好地利用海量的农林信息资源,为我国的农林科学领域广大科研人员,教学工作者以及农民服务,就迫切需要对农林信息资源实现快速、准确、全面的检索。传统通用搜索引擎为所有用户提供统一接口,但是因为其庞大的数据量和宽泛的主题已不能满足农林领域用户对信息准确性、实时性和深度等多方面的个性化需求,因此研究基于农林主题的搜索引擎具有理论意义和应用价值。本文首先分析当前分布式爬虫系统模型,深入研究对等分布式爬虫系统中URL任务调度策略,针对一致性哈希任务调度策略存在的服务器节点在地址空间映射随机而引起抓取任务负载不均问题,提出了基于SP-cycle算法的节点地址空间分配策略,使得所有服务器节点分配的地址空间达到动态均等,改善了分布式爬虫系统负载均衡,达到在不影响爬虫系统运行的情况下解决服务点节点突发异常的问题。其次针对病虫害主题搜索引擎设计过程中的主题表示方法,文本分词方法以及主题爬虫的搜索策略等关键技术展开深入研究,通过建立大量领域页面库提取主题词、领域专家人工指定以及根据用户搜索日志定期更新的方式构建主题词典,并在此基础上设计了病虫害主题向量用于主题描述;采用IKAnalyzer智能分词模式结合扩展主题词典的方式进行文本分词,达到良好的主题文本分词效果;从链接结构和文本内容两方面考虑,设计了符合本课题的爬虫搜索策略,提高了主题信息的采集效率和采集质量。最终实现了一个基于植物病虫害主题的搜索引擎,并与通用搜索引擎比较检索结果,对实验结果进行分析评价,证明本系统具有明显的植物病虫害主题倾向性,查准率优于通用搜索引擎,具有一定的实用价值。(本文来源于《东北林业大学》期刊2017-04-14)

肖馥莉[8](2016)在《基于垂直搜索引擎的主题爬虫技术》一文中研究指出由于信息技术的不断提升,互联网技术的发展也是日新月异,越来越多的人们开始体验互联网所能带来的一些福利的同时,也参与到其中,成为网络信息的发布者和传播者。所以,传统搜索引擎的局限性也将体现出来,针对与这一问题,垂直搜索引擎在特定的领域进行了细化和延伸,以此来弥补传统搜索引擎所带来的不足,它利用主题爬虫技术对网络上某个或者多个主题的相关信息进行爬取、信息整合并且索引,这样就可以有效的采集页面信息,与此同时也节省了网络资源和系统资源。(本文来源于《电子技术与软件工程》期刊2016年19期)

孟繁疆,姬祥,袁琦,刘东,侯哲鹏[9](2016)在《农产品价格主题搜索引擎的研究与实现》一文中研究指出当前农业垂直搜索引擎无法预测农产品价格趋势,难以满足农业生产者行情分析需要。文章设计农产品价格主题搜索引擎。首先网络爬虫从农业综合网站搜集网页,对网页进行转码、去重、提取内容等处理;使用主题相关度算法计算网页的主题相关度,用分类器对网页分类,将与主题相关的网页解析、存储;最后提取农产品价格及其影响因素信息。结果表明,系统可搜集农产品价格信息及影响农产品价格因素信息,为后续农产品价格预测提供数据支持。(本文来源于《东北农业大学学报》期刊2016年09期)

孙国超[10](2016)在《主题搜索引擎中网络爬虫的实现研究》一文中研究指出信息时代,互联网充斥着我们生活的方方面面,而搜索引擎的应用为我们的生活带来了极大的便利。对搜索引擎中网络爬虫的实现的研究,对于提升搜索引擎效率有着重要的意义。本文分析了面向主题的搜索引擎中网络爬虫的实现,并提出了相应的方法和手段。(本文来源于《电脑知识与技术》期刊2016年17期)

主题型搜索引擎论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着信息化步伐的加快,网络求职越来越普及,通用搜索引擎以及招聘网也成为大学生获取就业信息的主要渠道。针对大多通用搜索引擎搜索的就业信息精准度不高以及招聘网站内容繁杂等问题,研究面向大学生的就业主题搜索引擎系统。借助Heritrix爬虫工具以及Solr全文搜索引擎进行二次开发,并对Heritrix爬虫工具默认的爬取策略以及队列分配策略进行优化,同时引入IK Analyzer改进Solr的中文分词的准确率。系统原型测试结果表明,系统具有较好抓取效率以及查准率。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

主题型搜索引擎论文参考文献

[1].翟霞.基于Lucene的面向大数据主题的垂直搜索引擎研究[J].科学技术创新.2019

[2].郑燕娥,郑志明.基于Heritrix与Solr的就业主题搜索引擎的研究与优化[J].齐齐哈尔大学学报(自然科学版).2018

[3].冷齐.基于Shark优化算法的主题搜索引擎研究[D].西北师范大学.2018

[4].韦美峰,王亚民.基于后缀树聚类的主题搜索引擎研究[J].情报理论与实践.2017

[5].姬祥.农产品价格主题搜索引擎的研究与实现[D].东北农业大学.2017

[6].高庆芳.主题搜索引擎搜索策略的研究及算法设计[D].兰州大学.2017

[7].张露露.基于分布式采集策略的病虫害主题搜索引擎研究[D].东北林业大学.2017

[8].肖馥莉.基于垂直搜索引擎的主题爬虫技术[J].电子技术与软件工程.2016

[9].孟繁疆,姬祥,袁琦,刘东,侯哲鹏.农产品价格主题搜索引擎的研究与实现[J].东北农业大学学报.2016

[10].孙国超.主题搜索引擎中网络爬虫的实现研究[J].电脑知识与技术.2016

论文知识图

3 分布式计算示意系统查看网页原文窗口元数据应用流程图多线程搜索的运行情况系统查看网页窗口连云港高校文献资源共享服务网建设模型...

标签:;  ;  ;  ;  ;  ;  ;  

主题型搜索引擎论文_翟霞
下载Doc文档

猜你喜欢