导读:本文包含了网站聚焦爬虫论文开题报告文献综述及选题提纲参考文献,主要关键词:链接分析,聚焦爬虫,网页模型,超文本分类
网站聚焦爬虫论文文献综述
董晨曦[1](2012)在《基于网站内容框架的聚焦爬虫算法的优化和实现》一文中研究指出伴随着互联网的急速发展,网络信息量以飞快的速度进行增长,搜索引擎成为人们生活中获取信息的不可缺少的方式之一,在现代搜索引擎中,爬虫起到了至关重要的作用,它是搜索引擎的核心,通过爬虫获取足够数量和质量的网页后,搜索引擎才可以依据索引技术为用户提供基于关键字搜索的服务。然而随着网页的爆发性增长,具有相同主题的网站日渐增多,如何快速的抓取网页,更加准确的分析网页信息并且将爬取策略有效的整合到爬虫系统中成为了现在网络爬虫的系统的一个核心问题,也是搜索引擎面临的主要问题。本文从互联网较为常见的网站的主题作为基础研究方向,通过站在网站运营的角度和网站设计的理念上对网页框架进行分析,总结出现今网站建设中的主题的相似性,并提取出符合当前网站性质的主题框架,根据框架的行为确定当前网页的主题方向,运用现有的研究思路对网页模型进行分析,并分析现有算法在解决网页模型中的优点和不足,以软件工程的思想为指导,在一定的理论基础上提出相关问题的解决方案的设想,随后设计并实现基于主题框架的主题爬虫并对相关算法进行优化,最后,阐述了相关的实验方法和实验标准,并用现有的理论基础证实了通过此标准得出的实验数据可靠性,通过进行实验数据的分析,比对实验前和实验后的数据证明此算法的优化的可行性。(本文来源于《北京交通大学》期刊2012-06-01)
刘洁清[2](2006)在《网站聚焦爬虫研究》一文中研究指出近年来,随着互联网的快速发展,网络信息呈指数级的增长,这种信息量的飞速增长对通用网络爬虫和搜索引擎呈现了空前的挑战,越来越多的人希望能够快速且有效地找到自己所需要的信息。聚焦爬虫是一种面向主题的信息搜集系统,可以根据用户需要从互联网上自动搜集到主题相关信息,在主题搜索引擎、站点结构分析等方面取得越来越广泛的应用。 传统的聚焦爬虫抓取的目标是与某一特定主题内容相关的网页,而在有些应用中,如网络目录,更多的是给用户提供主题相关网站。随着互联网信息的日益增多,目前靠人工来维护的网络目录越来越显得低效和不可行。为了实现具有自动维护功能的网络目录,将抓取目标锁定为主题网站的网站聚焦爬虫应运而生。 网站聚焦爬虫是在现有聚焦爬虫的基础上加入网站选取和分类机制,从用户提供的种子网站开始,以Best-first原则获取最佳候选网站并开始新一轮的爬行分类。本文进行了面向中文网站的网站聚焦爬虫的设计与实现,详细介绍了其各部分的功能和设计原理。实验表明该爬虫能有效的获取主题网站,为实现自动网络目录提供了一种解决方案。 与传统网站聚集爬虫不同的是,本文介绍的网站聚集爬虫引入了一种改进的外部爬行策略,即在传统外部爬行策略只考虑平均跨站链接权重的基础上引入网站的跨站链接数以进行候选网站的选取。实验结果表明,改进外部爬行策略后的网站聚集爬虫能够优先访问候选网站队列中的权威主题网站,并能进一步提高获取主题网站的准确率。(本文来源于《江西财经大学》期刊2006-10-01)
网站聚焦爬虫论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
近年来,随着互联网的快速发展,网络信息呈指数级的增长,这种信息量的飞速增长对通用网络爬虫和搜索引擎呈现了空前的挑战,越来越多的人希望能够快速且有效地找到自己所需要的信息。聚焦爬虫是一种面向主题的信息搜集系统,可以根据用户需要从互联网上自动搜集到主题相关信息,在主题搜索引擎、站点结构分析等方面取得越来越广泛的应用。 传统的聚焦爬虫抓取的目标是与某一特定主题内容相关的网页,而在有些应用中,如网络目录,更多的是给用户提供主题相关网站。随着互联网信息的日益增多,目前靠人工来维护的网络目录越来越显得低效和不可行。为了实现具有自动维护功能的网络目录,将抓取目标锁定为主题网站的网站聚焦爬虫应运而生。 网站聚焦爬虫是在现有聚焦爬虫的基础上加入网站选取和分类机制,从用户提供的种子网站开始,以Best-first原则获取最佳候选网站并开始新一轮的爬行分类。本文进行了面向中文网站的网站聚焦爬虫的设计与实现,详细介绍了其各部分的功能和设计原理。实验表明该爬虫能有效的获取主题网站,为实现自动网络目录提供了一种解决方案。 与传统网站聚集爬虫不同的是,本文介绍的网站聚集爬虫引入了一种改进的外部爬行策略,即在传统外部爬行策略只考虑平均跨站链接权重的基础上引入网站的跨站链接数以进行候选网站的选取。实验结果表明,改进外部爬行策略后的网站聚集爬虫能够优先访问候选网站队列中的权威主题网站,并能进一步提高获取主题网站的准确率。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
网站聚焦爬虫论文参考文献
[1].董晨曦.基于网站内容框架的聚焦爬虫算法的优化和实现[D].北京交通大学.2012
[2].刘洁清.网站聚焦爬虫研究[D].江西财经大学.2006