导读:本文包含了主题搜索论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:爬虫,搜索引擎,主题,网络,算法,农产品,策略。
主题搜索论文文献综述
郑燕娥,郑志明[1](2018)在《基于Heritrix与Solr的就业主题搜索引擎的研究与优化》一文中研究指出随着信息化步伐的加快,网络求职越来越普及,通用搜索引擎以及招聘网也成为大学生获取就业信息的主要渠道。针对大多通用搜索引擎搜索的就业信息精准度不高以及招聘网站内容繁杂等问题,研究面向大学生的就业主题搜索引擎系统。借助Heritrix爬虫工具以及Solr全文搜索引擎进行二次开发,并对Heritrix爬虫工具默认的爬取策略以及队列分配策略进行优化,同时引入IK Analyzer改进Solr的中文分词的准确率。系统原型测试结果表明,系统具有较好抓取效率以及查准率。(本文来源于《齐齐哈尔大学学报(自然科学版)》期刊2018年04期)
吕鑫[2](2018)在《主题搜索及其关键算法的研究》一文中研究指出在现代互联网技术飞速发展的时代,互联网上的各类资源呈现出爆炸式增长,在海量的网络信息中,如何快速、准确的找出用户所需求的信息也日渐困难。通用搜索引擎虽然被广泛使用,但是却难以满足特殊用户想要精准获取所需信息的需求,因此当用户想要获取所需信息时,需要用到垂直搜索引擎。主题网络爬虫爬取策略作为垂直搜索引擎的核心,在页面检索时能够做到只爬取与主题相关性高的页面。但现有的传统主题爬虫的算法也有缺点,如容易产生主题漂移现象,对全局性考虑欠缺等。本文的研究是基于为某研究所开发军事信息检索系统,重点对主题爬虫搜索策略展开研究,针对军事类相关页面,结合不同算法的优缺点对PageRank算法进行改进,以使改进后的算法在爬取页面时展现更好的性能。本文的主要研究内容如下:首先,对网络爬虫中相关理论和技术进行研究。主要分析了通用爬虫与主题爬虫系统的架构与两者之间的区别。再对主题爬虫实现中用到的相关技术进行分析,主要对页面处理,相关度计算等进行分析。然后,针对军事类主题页面的抓取,对PageRank算法进行分析。发现PageRank算法在指导爬虫抓取页面时,容易出现对新网页忽视的问题与发生主题漂移现象,对于军事类注重时效的主题页面,此缺陷更加明显。因此本文针对PageRank算法对新页面出现忽视问题提出改进策略:在对军事类主题页面进行抓取时,将此算法中引入时间因素,通过对时间的处理,使原算法在计算PageRank值时降低旧页面的计算值,消除此算法在新旧页面计算中的缺陷。针对PageRank算法容易产生主题漂移现象提出的改进策略:利用Shark-Search算法在指导爬虫抓取时对页面相关度的考量,将引入时间因素的PageRank算法与Shark-Search算法相结合,使得结合后的算法在页面抓取时与主题相关,以此来消除主题漂移现象。最后,通过实验对改进后的新算法的有效性进行评价。对算法的评价利用了查准率和查全率,互联网中存在与主题相关的所有页面总数很难得到,且在计算中应为恒定值,因此本文利用对比叁种算法对爬取到与主题相关的网页数来代替查全率。通过实验验证,改进后的新算法在军事类主题相关页面的查准率和查全率上都表现出较好的性能。并将算法应用于信息检索系统中,在索引方面与百度索引相比,展现出信息检索系统对索引内容的主题相关性。(本文来源于《西安电子科技大学》期刊2018-06-01)
冷齐[3](2018)在《基于Shark优化算法的主题搜索引擎研究》一文中研究指出由于高新技术不断推动着产业种类与结构向专业化和精细化发展,那么如何高效获取专业实用信息成为了人们普遍关注的问题之一。因传统搜索引擎的检索精度不断下降,于是掀起了研究基于主题的搜索引擎的热潮。本文以搜索引擎相关理论基础为铺垫,简明介绍了搜索引擎的特点、基本架构、关键技术以及主题网络爬虫的原理、结构及工作原理等,接着详细分析了常见的叁种主题爬行算法与比较了Page Rank与HITS两种基于链接结构的网页排序算法,针对使用单一的评估方法无法达到有效预测链接地址实际价值的目的,提出了基于内容评估与Web链接结构组合的搜索策略方案,并基于主题搜索引擎基本思路提出了一种新的主题爬行模型和设计了一种新的多线程协作式主题爬行器。在讨论与设计了搜索引擎基本方案与爬虫系统之后,针对shark算法存在的不足,如无关网页后面连接着相关网页链接、优先度区别过小及URL队列过长,提出了优化改进思路,同时也设计与实现了shark算法,最后根据网页内容链接相关性计算,描述了多媒体主题的网页搜索算法实现步骤与通过仿真实验比较了传统Fish、shark Search算法与优化的shark算法。与通用搜索引擎相比,主题搜索引擎像是一种变体,它在其基本结构与技术上优化了通用搜索引擎的一些功能。为了专业用户更高效更准确地获取所需要的专业领域信息,特针对主题搜索引擎设计了网络爬行器,其爬行网页的基本思想是:针对既定主题搜索网页并过滤与主题无关的网页,留下主题相关网页。Shark-Search算法是一种十分有代表性的主题搜索引擎算法,根据多媒体素材在网页中分布特点,Shark-Search算法主要从叁个方面:搜索广度、链接相似性判断与要抓取链接选择策略上做了进一步优化,而且采用“先搜索、后判断”的查询方案,大大提升了多媒体网页主题搜索的效率。(本文来源于《西北师范大学》期刊2018-05-01)
韦美峰,王亚民[4](2017)在《基于后缀树聚类的主题搜索引擎研究》一文中研究指出[目的/意义]一个好的主题搜索引擎能够更好地满足专业领域用户的信息需求。[方法/过程]在爬取阶段采用锚文本正则表达式匹配进行主题过滤、加入IKAnalyzer中文分词器,结合TF-IDF、OPIC和Topic-PageRank算法对检索结果排序进行改进并通过STC算法对检索结果实时聚类。[结果/结论]以"图书情报"为主题进行实验测试,每增加一个分布式计算节点爬取速率提高20%,查准率优于未排序优化23%,检索结果可以实时聚类并以可视化展示,且检索结果项多为相关论文。[局限]系统对网页中繁多的数据格式解析度不够,未解析的部分可能包含主题内容。(本文来源于《情报理论与实践》期刊2017年12期)
姬祥[5](2017)在《农产品价格主题搜索引擎的研究与实现》一文中研究指出随着互联网的快速发展,面对庞大杂乱的网络信息,人们从中获取信息变得越来越艰难,而搜索引擎的出现为人们从互联网获取信息打开了一个新的窗口。搜索引擎是指按照特定的算法从因特网上获取数据的计算机程序,它对数据进行处理后,提供给用户查询使用。互联网上的数据浩瀚如烟、杂乱无章,用户想要从中找出自己想要的信息异常艰难,而搜索引擎就如黑夜里的灯塔,为用户指引方向。主题搜索引擎是针对特定领域的搜索引擎,是通用搜索引擎的分支,是对互联网上某类页面的整合,抽取出该领域需要的信息,并将这些信息以结果页面的形式返回给用户的系统。主题搜索引擎能够在特定行业给用户提供更好的体验,而且具有专业性强、成本低、针对性强等特点。农业搜索引擎是主题搜索引擎的一种,是国家农业信息化发展的一个重要部分,但使用现有的农业搜索引擎对农产品价格进行检索时,返回的信息多为农产品交易信息,虽然提供了便捷的交易平台,却不适合农业生产者分析行情。鉴于此现状,本文借鉴了国内外学者对主题搜索引擎的最新研究成果,并对与农业相关的搜索引擎进行了研究,设计了面向农产品价格的主题搜索引擎。本文的主要工作如下。(1)研究了农业相关搜索引擎的功能,发现使用现有农业搜索引擎对农产品价格进行检索时,返回结果更多的是农业交易信息,不便于农业工作者从中获取信息,因此本文提出了农产品价格主题搜索引擎,便于农业工作者更加快捷地获取农产品价格的相关信息;(2)分析了近年农业搜索引擎的研究成果,研究了主题搜索引擎的关键技术和算法,根据页面的父网页、兄弟网页和页面描述信息对主题相关度进行了预判,并使用主题相关度预判算法对爬虫抓取策略提出了改进;(3)使用Http Client和htmlparser为本系统量身定做了一个功能全面、结构清晰的主题网络爬虫,爬虫使用本文提出主题相关度预判算法来决定是否下载页面,提高了爬虫的抓取效率;(4)利用农产品价格样本得到一个SVM分类器,将SVM分类器的支持向量SV作为KNN分类器的训练样本,构建一个基于支持向量的KNN分类器,行之有效的对抓取到的页面进行分类;(5)为了使系统更快的响应用户的查询请求,本文系统引入了缓存系统,使用一级缓存结构,用动态缓存区和静态缓存区分别存储用户查询和搜索日志,以极小的内存为代价,大大降低了系统受到的压力,而且明显提高了系统的响应速度。(6)对农产品价格主题搜索引擎的抓取性能和检索性能进行了测试,实验结果表明,系统有着较高的抓取效率,而且能够有力的拒绝与主题不相关的页面。(本文来源于《东北农业大学》期刊2017-06-01)
高庆芳[6](2017)在《主题搜索引擎搜索策略的研究及算法设计》一文中研究指出当前互联网应用中网站的搜索正变得越来越普及,一个网站要想做大做强,其内容必定要丰富,用户想要找到的内容,不管是最新的还是以前的(比如一段时间以前就见过的新闻报道,因为不再是最新的内容而没有出现在首页上),我们都可以借助搜索引擎来查找它。通过搜索引擎,用户可以享受快速获得资源的服务,几乎足不出户,搜索引擎就可以使人们更有效的从互联网络获取各种信息了,所以一个搜索引擎的好坏直接决定了人们的互联网生活。本文通过分析了主流搜索策略及算法,对搜索引擎的分类、技术架构及原理结构进行了深度的剖析,同时研究了基于主题爬虫系统的设计和模型的建立,在现有的技术支持上融入了机器学习算法,具体的讨论了文档的特征选择算法思想,并阐述了目前主流的TF-IDF改进算法,以Python 2.7为开发平台,设计实现了基于Context Graph的主题爬虫系统。最终以国内各大汽车网站为例,将“汽车”设为主题词进行分类爬取,以查全率、查准率、F1值来评价所涉及的系统性能的好坏。通过实验结果,说明本文设计的算法在文档的主题词分类及网页爬取的效率上具有较好的性能。(本文来源于《兰州大学》期刊2017-05-01)
张露露[7](2017)在《基于分布式采集策略的病虫害主题搜索引擎研究》一文中研究指出互联网的迅猛发展推动了中国农林信息化由数字农林跨入智慧农林的新阶段。智慧农林更加注重各个环节、各种资源、各项业务的深度整合、集约共享和业务协同,通过智慧农林的实现,必将带来农林生产力的又一次深刻变革,农林信息化也将迎来一个新的大数据时代。如何更好地利用海量的农林信息资源,为我国的农林科学领域广大科研人员,教学工作者以及农民服务,就迫切需要对农林信息资源实现快速、准确、全面的检索。传统通用搜索引擎为所有用户提供统一接口,但是因为其庞大的数据量和宽泛的主题已不能满足农林领域用户对信息准确性、实时性和深度等多方面的个性化需求,因此研究基于农林主题的搜索引擎具有理论意义和应用价值。本文首先分析当前分布式爬虫系统模型,深入研究对等分布式爬虫系统中URL任务调度策略,针对一致性哈希任务调度策略存在的服务器节点在地址空间映射随机而引起抓取任务负载不均问题,提出了基于SP-cycle算法的节点地址空间分配策略,使得所有服务器节点分配的地址空间达到动态均等,改善了分布式爬虫系统负载均衡,达到在不影响爬虫系统运行的情况下解决服务点节点突发异常的问题。其次针对病虫害主题搜索引擎设计过程中的主题表示方法,文本分词方法以及主题爬虫的搜索策略等关键技术展开深入研究,通过建立大量领域页面库提取主题词、领域专家人工指定以及根据用户搜索日志定期更新的方式构建主题词典,并在此基础上设计了病虫害主题向量用于主题描述;采用IKAnalyzer智能分词模式结合扩展主题词典的方式进行文本分词,达到良好的主题文本分词效果;从链接结构和文本内容两方面考虑,设计了符合本课题的爬虫搜索策略,提高了主题信息的采集效率和采集质量。最终实现了一个基于植物病虫害主题的搜索引擎,并与通用搜索引擎比较检索结果,对实验结果进行分析评价,证明本系统具有明显的植物病虫害主题倾向性,查准率优于通用搜索引擎,具有一定的实用价值。(本文来源于《东北林业大学》期刊2017-04-14)
孟繁疆,姬祥,袁琦,刘东,侯哲鹏[8](2016)在《农产品价格主题搜索引擎的研究与实现》一文中研究指出当前农业垂直搜索引擎无法预测农产品价格趋势,难以满足农业生产者行情分析需要。文章设计农产品价格主题搜索引擎。首先网络爬虫从农业综合网站搜集网页,对网页进行转码、去重、提取内容等处理;使用主题相关度算法计算网页的主题相关度,用分类器对网页分类,将与主题相关的网页解析、存储;最后提取农产品价格及其影响因素信息。结果表明,系统可搜集农产品价格信息及影响农产品价格因素信息,为后续农产品价格预测提供数据支持。(本文来源于《东北农业大学学报》期刊2016年09期)
孙国超[9](2016)在《主题搜索引擎中网络爬虫的实现研究》一文中研究指出信息时代,互联网充斥着我们生活的方方面面,而搜索引擎的应用为我们的生活带来了极大的便利。对搜索引擎中网络爬虫的实现的研究,对于提升搜索引擎效率有着重要的意义。本文分析了面向主题的搜索引擎中网络爬虫的实现,并提出了相应的方法和手段。(本文来源于《电脑知识与技术》期刊2016年17期)
[10](2016)在《4月优秀作品选登 主题:搜索》一文中研究指出@山高人为峰5699 父亲到姑妈家做客,见姑妈在看他儿子结婚时的录像,就说:"孩子几年没回家了,难怪你想他们!"姑妈指着录像说:"我是搜寻老伴的镜头,他那时多结实,现在离开我两年了。"突然父亲喊道:"停,往回倒!"姑妈问怎么了,父亲哽咽着说:"我刚才好像看到我家老太婆了。"(本文来源于《故事会》期刊2016年11期)
主题搜索论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
在现代互联网技术飞速发展的时代,互联网上的各类资源呈现出爆炸式增长,在海量的网络信息中,如何快速、准确的找出用户所需求的信息也日渐困难。通用搜索引擎虽然被广泛使用,但是却难以满足特殊用户想要精准获取所需信息的需求,因此当用户想要获取所需信息时,需要用到垂直搜索引擎。主题网络爬虫爬取策略作为垂直搜索引擎的核心,在页面检索时能够做到只爬取与主题相关性高的页面。但现有的传统主题爬虫的算法也有缺点,如容易产生主题漂移现象,对全局性考虑欠缺等。本文的研究是基于为某研究所开发军事信息检索系统,重点对主题爬虫搜索策略展开研究,针对军事类相关页面,结合不同算法的优缺点对PageRank算法进行改进,以使改进后的算法在爬取页面时展现更好的性能。本文的主要研究内容如下:首先,对网络爬虫中相关理论和技术进行研究。主要分析了通用爬虫与主题爬虫系统的架构与两者之间的区别。再对主题爬虫实现中用到的相关技术进行分析,主要对页面处理,相关度计算等进行分析。然后,针对军事类主题页面的抓取,对PageRank算法进行分析。发现PageRank算法在指导爬虫抓取页面时,容易出现对新网页忽视的问题与发生主题漂移现象,对于军事类注重时效的主题页面,此缺陷更加明显。因此本文针对PageRank算法对新页面出现忽视问题提出改进策略:在对军事类主题页面进行抓取时,将此算法中引入时间因素,通过对时间的处理,使原算法在计算PageRank值时降低旧页面的计算值,消除此算法在新旧页面计算中的缺陷。针对PageRank算法容易产生主题漂移现象提出的改进策略:利用Shark-Search算法在指导爬虫抓取时对页面相关度的考量,将引入时间因素的PageRank算法与Shark-Search算法相结合,使得结合后的算法在页面抓取时与主题相关,以此来消除主题漂移现象。最后,通过实验对改进后的新算法的有效性进行评价。对算法的评价利用了查准率和查全率,互联网中存在与主题相关的所有页面总数很难得到,且在计算中应为恒定值,因此本文利用对比叁种算法对爬取到与主题相关的网页数来代替查全率。通过实验验证,改进后的新算法在军事类主题相关页面的查准率和查全率上都表现出较好的性能。并将算法应用于信息检索系统中,在索引方面与百度索引相比,展现出信息检索系统对索引内容的主题相关性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
主题搜索论文参考文献
[1].郑燕娥,郑志明.基于Heritrix与Solr的就业主题搜索引擎的研究与优化[J].齐齐哈尔大学学报(自然科学版).2018
[2].吕鑫.主题搜索及其关键算法的研究[D].西安电子科技大学.2018
[3].冷齐.基于Shark优化算法的主题搜索引擎研究[D].西北师范大学.2018
[4].韦美峰,王亚民.基于后缀树聚类的主题搜索引擎研究[J].情报理论与实践.2017
[5].姬祥.农产品价格主题搜索引擎的研究与实现[D].东北农业大学.2017
[6].高庆芳.主题搜索引擎搜索策略的研究及算法设计[D].兰州大学.2017
[7].张露露.基于分布式采集策略的病虫害主题搜索引擎研究[D].东北林业大学.2017
[8].孟繁疆,姬祥,袁琦,刘东,侯哲鹏.农产品价格主题搜索引擎的研究与实现[J].东北农业大学学报.2016
[9].孙国超.主题搜索引擎中网络爬虫的实现研究[J].电脑知识与技术.2016
[10]..4月优秀作品选登主题:搜索[J].故事会.2016