导读:本文包含了垂直搜索论文开题报告文献综述及选题提纲参考文献,主要关键词:垂直搜索,网络爬虫,主题提取,主题索引
垂直搜索论文文献综述
翟霞[1](2019)在《基于Lucene的面向大数据主题的垂直搜索引擎研究》一文中研究指出本文在综合研究各搜索引擎的关键技术的基础上,提出了一种面向特定主题的基于Lucene垂直搜索引擎设计方案,并以手机商品信息主题搜索引擎为实例进行了验证。在总体设计方面采用的是模块化思想,垂直搜索引擎被分为搜集分系统、索引分系统和查询分系统,各分系统相互之间无依赖,可以较便捷的实现设计。(本文来源于《科学技术创新》期刊2019年31期)
段晨迪[2](2019)在《基于ElasticSearch面向M00C的垂直搜索引擎设计与实现》一文中研究指出随着教育与信息化的不断融合与发展,大规模在线开放课程(Massive Open Online Course,简称MOOC)已经成为了一种重要的学习方式。MOOC平台越来越多,所提供的课程数量也呈现出爆发式的增长。这就导致学习者需要花费更多的时间与精力在各个在线平台来挑选符合自己需求的课程。Google、百度、Bing等通用搜索引擎虽然能够提供MOOC课程的检索结果,但检索结果并不精确,还需要在繁杂的结果中来筛选所需信息,效率低下。因此,一个能够满足学习者对MOOC信息搜索的系统就变得尤为重要。本论文设计与实现了面向MOOC领域的垂直搜索引擎系统,能够满足学习者对MOOC领域更精确的检索需求,提升学习的效率。采用Python语言进行整个系统的开发,Scrapy框架对多个MOOC平台进行数据采集与抽取,使用MongoDB非关系型数据库来存储数据,导入ElasticSearch对数据建立索引并搭建分布式搜索服务器,Django来实现用户检索网站。通过对搜索引擎技术的学习和对使用者的行为分析,本系统分为MOOC爬虫模块、信息索引模块、用户检索模块,作者独立设计并完成整个系统的各个模块的开发工作,各个模块详情如下:(1)爬虫模块:针对多个MOOC平台进行数据的爬取,对指定的URL进行页面下载,提取出页面中的课程名称、课程链接、简介、教师、学校等信息。接着对获取到的数据进行处理,过滤掉不合规范的MOOC课程数据,将处理过后的数据存储到MongoDB和ElasticSearch索引数据库中。(2)信息索引模块:对完整的MOOC课程数据创建映射,进行中文分词,建立倒排索引。利用ElasticSearch模糊匹配实现搜索建议提示,多字段查找搜索功能来支持用户对课程信息的检索。(3)用户检索模块:使用Django框架开发动态网站,提供良好的人机交互页面和逻辑,方便使用者对MOOC数据进行检索,提供最近搜索历史纪录、搜索用时、课程数目、数据分页浏览等功能。检索页面返回精准的MOOC课程信息,点击课程名称即可跳转到对应的页面进行课程的学习。通过对本系统的功能及性能测试,能够满足学习者对MOOC课程领域的检索需求,简洁精确的检索结果能够方便的查看课程介绍,提升用户寻找课程的效率,具有很高的实用价值。(本文来源于《北京交通大学》期刊2019-06-01)
丁月[3](2019)在《基于网络爬虫的垂直搜索引擎设计与实现》一文中研究指出互联网技术飞速发展,用户对搜索结果的准确性和高效性提出了更高的要求,为满足用户需求,垂直搜索引擎应运而生。随着人工智能时代的到来,越来越多的用户希望在互联网中对人工智能领域的相关信息进行精准搜索。因此,本文通过对互联网中海量信息进行有策略的爬取和准确的筛选,设计并实现了一个既专业又全面的面向人工智能领域的垂直搜索引擎,该系统主要由信息采集、索引建立、用户搜索、用户注册登录及后台管理五大模块构成,能够为用户提供精确的主题搜索服务,主要完成工作如下:(1)对传统朴素贝叶斯分类算法的不足进行了研究,提出了一种基于Jensen-Shannon(JS)散度特征加权的朴素贝叶斯分类算法。通过进一步分析得出,仅用JS散度值来表示特征词所能提供的信息量仍有改进空间,于是将词频、文本频、类频相结合对JS散度做了进一步的修正,依照特征词对分类结果所产生作用的大小赋与其不同的权值,完成了对朴素贝叶斯算法的改进。通过实验表明,基于JS散度特征加权的朴素贝叶斯分类算法是一种较好的分类算法。(2)完成了对人工智能领域相关信息的采集和处理。对Webmagic爬虫框架进行了深入研究,在其基础上增加了网页内容的主题相关性判断子模块及链接主题相关性排序子模块,并实现了面向人工智能领域的主题爬虫。首先建立人工智能主题词库及初始种子链接集合,作为后续网页分类工作的基础;然后以本系统的具体需求为标准,对Webmagic框架进行了二次开发,实现了网页下载、解析、抽取、持久化等主要功能,并将主题词库中的特征词作为网页分类的特征属性,使用基于JS散度特征加权的朴素贝叶斯算法实现网页内容的主题相关性判断,同时使用PageRank算法对网页中链接的重要程度进行量化,实现了链接主题相关性排序,以便爬取高质量的链接。(3)建立索引,完成用户搜索。将爬取的相关网页信息导入到Solr服务器中,并在Solr中配置IKAnalyzer分词器,以Solr服务器为核心完成索引的建立,进而完成面向人工智能领域垂直搜索引擎的用户搜索功能。(4)基于SSH框架实现了基于网络爬虫的面向人工智能领域垂直搜索引擎系统,实现用户注册登录、后台管理等功能,设计并实现了美观、交换性强的系统,并对该系统进行了有效测试。(本文来源于《贵州大学》期刊2019-06-01)
朱明奇[4](2019)在《基于垂直搜索的意图识别算法的设计与实现》一文中研究指出垂直搜索是一种专业领域内的搜索,与通用搜索不同,垂直搜索需要深度理解用户意图并返回特定领域内的信息。由于垂直搜索引擎中需要针对不同领域训练多个意图识别模型,同时训练模型需要大量的标注,所以在垂直搜索场景下训练意图识别模型的代价是较高的。本文主要解决在垂直搜索场景下训练意图识别模型成本大的问题。作者的主要工作包括基于SimNet的语义向量预训练和基于迁移学习的意图识别模型训练。(1)基于SimNet的语义向量预训练,主要利用搜索引擎积累的海量数据,预训练基于语义的句向量。作者利用本文首创的QUQ(Query to Url to Query)游走算法获取大量的弱标注样本,通过海量样本训练SimNet模型,最终根据SimNet模型生成语义向量。经过实验验证,语义向量可以很好的表达句子语义,并具有一定的泛化性。(2)基于迁移学习训练意图识别模型,主要利用预训练的语义向量迁移到意图识别模型中,并且利用主动学习与迁移学习减少标注成本。首先将样本转化为语义向量并利用种子样本初始化意图识别模型,然后利用改进后的最优标号与次优标号(Best vs Second-best,BvSB)算法,降低了样本冗余并且挑选出信息量较高的样本,最后利用该样本训练意图识别模型。经过实验验证,利用迁移学习训练意图识别模型,可以减少一半以上的标注成本;利用改进的BvSB算法挑选样本,可以进一步降低标注成本,并提高模型的准确率。百度垂直搜索已经有大小十余个领域利用本文工作训练意图识别模型,训练成本有很大幅度的减少。相关模型已经应用到百度搜索中,提升了上亿搜索用户的搜索体验。(本文来源于《北京交通大学》期刊2019-05-01)
李延鑫[5](2019)在《针对计算机学科资源的垂直搜索引擎的设计与实现》一文中研究指出随着互联网的发展和数据量的指数型增长,各个领域充斥着大量信息。增加网络检索的可靠性和专业性成为了各领域的重要任务。因此,本文把结合垂直搜索引擎的技术开发出针对计算机学科资源的搜索引擎平台作为研究目的。本文首先从用户需求、爬虫结构、分词索引等角度分析了现存的各大搜索引擎的研究现状,结合本设计的需求提出新的要求,对搜索引擎的核心组件数据采集(网络爬虫)、数据处理、索引、检索器等功能和原理进行研究和描述。针对计算机领域的知识进行结构化处理,改善了其搜索功能,在设计搜索引擎时对以下几项技术在实现时进行了优化:一是对爬虫算法进行了优化,引入了爬虫对URL的判别机制,减少了爬虫的爬取次数,从而提高了搜索引擎的运行效率;二是针对计算机学科资源对文本分类和分词方法进行优化,让搜索引擎对这一领域信息判断更加准确;叁是根据目前对搜索引擎结果页的研究对系统的用户友好度进行优化。本文主要工作分为以下几个方面:(1)设计爬虫程序和爬虫策略以取得结构化的计算机学科资源数据,对网页代码构造结构树,实现网页分块,根据网页元素信息xpath找到所在的文档对象,获取结构化数据。(2)面对获取数据重复,数据损坏等情况,将Jaccard算法引入到搜索引擎领域,提出通过两步编码的方式用于数据预处理。Jaccard的思想是将两个集合的交集与并集的比例作为两个集合的相似度。结合以上内容本文提出一种重复信息筛选方法,对结构化数据信息进行筛选处理。(3)研究了搜索结果页面要素分布对搜索体验的影响。一方面嵌入新型页面元素,使搜索结果页面呈现垂直化、多样化特征;另一方面结合用户的搜索行为数据,包括眼球、光标、手势、声学等各类数据,实现对用户意图的预测。在以上工作的基础上,对实现的针对计算机学科资源的垂直搜索引擎中的检索功能和网络爬虫进行功能测试,保证系统数据的信息准确性。(本文来源于《宁夏大学》期刊2019-05-01)
张建飞[6](2019)在《基于Elasticsearch的分布式音乐垂直搜索引擎的设计与实现》一文中研究指出21世纪以来,科技发展日新月异,大数据、物联网、云计算等新兴技术和新闻、社交、电商等相关产业的飞速发展,人们已经进入信息大爆炸时代。如何从高速增长的互联网海量信息中短时间内搜索到自己想要的内容,已成为当下迫切需要解决的难题。针对人们对信息检索的迫切需要,目前互联网领域主要的信息检索工具还是通用搜索引擎,如谷歌、百度、搜狗、360搜索等。但是,这些通用搜索引擎从海量信息中检索出的结果数量巨大,而且返回的信息和用户想要的匹配度很低,人们往往需要很长时间才能在返回的大量搜索结果中找到自己想要的内容。因此,一款特定垂直领域的搜索引擎便成为人们在日常生活里愈发依赖的检索工具。垂直领域搜索引擎是专门针对某一特定领域的专业信息检索工具,如电商、影视等领域,其搜索结果只显示特定领域信息,并且和用户搜索匹配度高,信息结果专业准确,满足了用户对搜索的体验。本文首先对搜索引擎相关的研究背景与意义以及国内外搜索引擎的发展与现状进行介绍说明。然后基于中文分词技术、分布式技术和搜索引擎相关技术设计并实现了一个基于Elasticsearch的分布式音乐垂直搜索引擎。在相关技术理论介绍部分,从搜索引擎实现的角度出发,着重对中文分词技术、Lucene搜索引擎技术以及基于Lucene的分布式搜索引擎技术Elasticsearch进行了详细功能介绍和原理性说明。然后对分布式音乐垂直搜索系统进行总体及各个模块的需求分析与设计,并对系统索引模块、搜索模块、监控模块的核心实现进行了详细说明。接下来围绕系统核心索引库的相关操作,对索引和搜索模块进行了性能优化,对中文分词器进行功能改进,致力于提升此音乐垂直搜索引擎系统用户的搜索体验。最后对整个系统的功能及性能进行了测试与分析,并在实际生产中取得了不错的效果。(本文来源于《吉林大学》期刊2019-05-01)
王督,蔡永香,李博涵,刘远刚[7](2018)在《油气行业垂直搜索引擎关键问题解决方案》一文中研究指出垂直搜索引擎构建是搜索领域的热点问题之一,应用领域广泛.现有的方法一般都只是对垂直搜索引擎构建中的某一个或几个阶段进行优化,且针对不同网站信息的获取往往需要人工配置操作,较为繁琐.本文在深入研究构建垂直搜索引擎技术的基础上,运用Heritrix、Solr等JAVA开源工具,结合网页正文抽取和完整性词抽取算法,提出了一套自动化构建垂直搜索引擎的方法,对该方法实现各阶段的关键问题展开了研究,并给出相应的优化方案.实践表明,提出的方法与优化方案具有较强的实用性.(本文来源于《计算机系统应用》期刊2018年12期)
帅应,罗文琪,熊丽珍,舒忠[8](2018)在《一种改进的垂直搜索引擎研究与设计》一文中研究指出针对使用主流搜索引擎查询某些专业领域时存在的相似度不高和重复网页过多等问题,通过引入完整全面的相似度评分标准建立、无效信息的准确隔离、重点突出的网页排序和查询控制,合理处理搜索范围和内容的关系,设计一种垂直搜索引擎。通过建立主观和客观评价体系、设置有效的评价参数,使用比较分析的方法,在真实的互联网环境下准确统计评估参数。实验结果表明,所设计的垂直搜索引擎以内容查询为主、以范围查询为辅,通过调整几个关键的搜索参量,即可完成多数专业领域的信息精确、高效查询。(本文来源于《现代计算机(专业版)》期刊2018年34期)
刘媛媛[9](2018)在《垂直搜索引擎在网络教育资源中的应用》一文中研究指出垂直搜索引擎能有效地提高针对专门主题信息搜索的准度和精度,建立网络教育资源垂直搜索引擎,可以从互联网中海量的信息中,获得专门的网络教育资源信息,并且还可以对这些信息进行结构化处置,为广大学生和教育工作者提供方便的获取网络教育资源的方式,因此本文研究网络教育资源垂直搜索引擎,首先介绍了垂直搜索引擎的特点和结构,然后分析了网络教育资源垂直搜索引擎的作用,最后提出了网络教育资源垂直搜索引擎建设的关键,为垂直搜索引擎在网络教育资源中应用提供一定的指导。(本文来源于《电脑知识与技术》期刊2018年33期)
肖红玉,贺辉,黄灼东,蔡昭阳[10](2019)在《基于Nutch的就业垂直搜索引擎研究》一文中研究指出针对通用搜索引擎专业性不够、查准率较低的问题,基于Nutch开源搜索引擎,采用基于本地词库和动态加载词库的正向迭代最细粒度切分算法实现中文分词。基于特征词和元数据标签的空间向量模型实现就业领域主题相关性判定,基于MapReduce引入网页链入链接权重因子和时间衰减因子改进LinkRank排序算法等对Nutch进行二次开发,并在网页信息抓取和过滤、就业信息搜索和特征词推荐等环节引入就业领域本体信息,采用Java框架技术对用户查询接口进行了二次开发,提供了如关键字智能提醒、定制爬虫、二次查找、设定查询结果日期、订阅查询等扩展查询接口,设计并实现了基于Nutch的就业垂直搜索引擎。实验结果表明,基于Nutch的就业垂直搜索引擎具有较高的查准率,可以满足用户专业检索的需求。(本文来源于《计算机技术与发展》期刊2019年02期)
垂直搜索论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着教育与信息化的不断融合与发展,大规模在线开放课程(Massive Open Online Course,简称MOOC)已经成为了一种重要的学习方式。MOOC平台越来越多,所提供的课程数量也呈现出爆发式的增长。这就导致学习者需要花费更多的时间与精力在各个在线平台来挑选符合自己需求的课程。Google、百度、Bing等通用搜索引擎虽然能够提供MOOC课程的检索结果,但检索结果并不精确,还需要在繁杂的结果中来筛选所需信息,效率低下。因此,一个能够满足学习者对MOOC信息搜索的系统就变得尤为重要。本论文设计与实现了面向MOOC领域的垂直搜索引擎系统,能够满足学习者对MOOC领域更精确的检索需求,提升学习的效率。采用Python语言进行整个系统的开发,Scrapy框架对多个MOOC平台进行数据采集与抽取,使用MongoDB非关系型数据库来存储数据,导入ElasticSearch对数据建立索引并搭建分布式搜索服务器,Django来实现用户检索网站。通过对搜索引擎技术的学习和对使用者的行为分析,本系统分为MOOC爬虫模块、信息索引模块、用户检索模块,作者独立设计并完成整个系统的各个模块的开发工作,各个模块详情如下:(1)爬虫模块:针对多个MOOC平台进行数据的爬取,对指定的URL进行页面下载,提取出页面中的课程名称、课程链接、简介、教师、学校等信息。接着对获取到的数据进行处理,过滤掉不合规范的MOOC课程数据,将处理过后的数据存储到MongoDB和ElasticSearch索引数据库中。(2)信息索引模块:对完整的MOOC课程数据创建映射,进行中文分词,建立倒排索引。利用ElasticSearch模糊匹配实现搜索建议提示,多字段查找搜索功能来支持用户对课程信息的检索。(3)用户检索模块:使用Django框架开发动态网站,提供良好的人机交互页面和逻辑,方便使用者对MOOC数据进行检索,提供最近搜索历史纪录、搜索用时、课程数目、数据分页浏览等功能。检索页面返回精准的MOOC课程信息,点击课程名称即可跳转到对应的页面进行课程的学习。通过对本系统的功能及性能测试,能够满足学习者对MOOC课程领域的检索需求,简洁精确的检索结果能够方便的查看课程介绍,提升用户寻找课程的效率,具有很高的实用价值。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
垂直搜索论文参考文献
[1].翟霞.基于Lucene的面向大数据主题的垂直搜索引擎研究[J].科学技术创新.2019
[2].段晨迪.基于ElasticSearch面向M00C的垂直搜索引擎设计与实现[D].北京交通大学.2019
[3].丁月.基于网络爬虫的垂直搜索引擎设计与实现[D].贵州大学.2019
[4].朱明奇.基于垂直搜索的意图识别算法的设计与实现[D].北京交通大学.2019
[5].李延鑫.针对计算机学科资源的垂直搜索引擎的设计与实现[D].宁夏大学.2019
[6].张建飞.基于Elasticsearch的分布式音乐垂直搜索引擎的设计与实现[D].吉林大学.2019
[7].王督,蔡永香,李博涵,刘远刚.油气行业垂直搜索引擎关键问题解决方案[J].计算机系统应用.2018
[8].帅应,罗文琪,熊丽珍,舒忠.一种改进的垂直搜索引擎研究与设计[J].现代计算机(专业版).2018
[9].刘媛媛.垂直搜索引擎在网络教育资源中的应用[J].电脑知识与技术.2018
[10].肖红玉,贺辉,黄灼东,蔡昭阳.基于Nutch的就业垂直搜索引擎研究[J].计算机技术与发展.2019