网络爬行论文_侯美静

导读:本文包含了网络爬行论文开题报告文献综述、选题提纲参考文献及外文文献翻译，主要关键词:网络,爬虫,主题,策略,搜索引擎,分布式,概率。

网络爬行论文文献综述

侯美静^[1]（2018）在《基于智能爬行算法的网络扫描技术研究及实现》一文中研究指出随着“互联网+”时代的到来,网络信息安全问题面临着越来越严峻的考验。如何确保网络信息安全,减少由漏洞造成的损失逐渐成为一个研究热点。解决网络信息安全问题迫在眉睫。针对上述问题,本文深入研究了网络扫描和Web爬虫技术。网络扫描技术包括主机存活扫描、端口扫描、操作系统指纹识别和漏洞扫描;并针对漏洞扫描提出了智能爬行算法,设计了一个基于智能爬行算法的网络安全扫描系统。主要工作和创新点如下:1.针对子域名收集方法存在遗漏的问题,采用了基于字典融合的子域名收集方法。该方法通过融合DNS服务商提供的字典、同类爆破工具字典、通用基础组合及常见中英文词组生成融合字典。测试结果表明,采用字典融合方法比第叁方服务收集到的子域名同比增长13%,收集结果更广,可以有效减少目标暴露面。2.针对目前端口扫描存在功能与效率成反比的问题,采用了基于异步无状态端口扫描和Nmap相结合的方法。该方法利用异步无状态急速扫描方法,对目标资产进行全IP全端口快速扫描,再结合Nmap进行端口服务、操作系统类型及版本探测。测试结果表明,该方法比单独使用Nmap,提高了至少300倍的扫描效率,并保证了扫描的全面性。3.针对深度爬虫未考虑网页结构相似性,导致对相同表单重复检测的问题,提出了基于相似度的智能爬行算法。该算法分为叁个阶段:第一阶段是基于Rabin指纹的URL去重。第二阶段是基于权重分配的页面相似度计算方法:将网页解析成DOM树,根据节点的位置、DOM树的深度以及深度相同的节点数量,平均分配权重给每个节点。第叁阶段是采用聚合式层次聚类思想将具有相似结构的网页聚为一组并选取代表URL。利用该算法设计了智能爬虫,包括URL封装、HTTP发送请求、页面解析、URL去重、页面相似度和聚类等。实验结果表明,应用该算法的智能爬虫可有效去除93%以上的结构相似网页,减少大量相同表单的重复检测,提高扫描效率。4.针对系统复杂、难以管理的问题,该系统基于高内聚低耦合的设计原则,结合B/S叁层架构,采用模块化、插件式的设计思想,降低了系统的复杂度,使系统方便扩展,易于管理。本系统在功能上分为叁大模块:信息获取模块、操作系统模块、Web应用模块。信息获取模块又分为五个子模块:子域名收集、旁站收集、C段收集、端口和操作系统探测、弱口令,且网络用户可自定义扫描的深度和范围。(本文来源于《西安电子科技大学》期刊2018-04-01）

严正国,楚航^[2]（2017）在《基于电缆高速网络传输技术的管道爬行机器人研究》一文中研究指出为了解决管道爬行机器人在管道中高速、远距离实时传输管道中的高清图像与数据,本文采用电缆高速网络传输技术使高清的图像以及实时的数据传输到上位机系统,实现主控系统与机器人间的高速、长距离通信。通过高清网络摄像头将拍摄到的图像进行编码、压缩,经过高速图传模块后通过高速电缆进行传输,经过解调、图像解码后,可以进行录像、存储、回放。同时,高速网络图传技术也可运用于测井中,提高灵活性。(本文来源于《电脑知识与技术》期刊2017年34期）

许刚^[3]（2015）在《面向特定主题及其传播人群的网络爬行器设计》一文中研究指出在搜索引擎快速发展的今天，作为搜索引擎关键组成部分的网络爬行器也得到了极大的发展，其中针对特定主题（如机票搜索、旅行搜索和视频搜索等）的网络爬行器也越来越受到人们的关注。另一方面，伴随着移动互联网的发展，越来越多的社交应用在发展壮大。例如：微博和微信等以几何倍数增长，同时新闻媒体以及政府公告，也逐步以短消息形式出现。针对论坛、微博和微信等短文本数据，传统方法基本依靠各公司内部提供的关键词搜索。然而，当用户面对大量的文本信息时，为解决信息淹没问题就需要以特定主题为目标提取有用的信息。本文就是在根据工作需求的情况下，设计与实现了面向特定主题的网络爬行器。本文首先介绍了搜索引擎和通用网络爬行器的相关知识。然后对比分析了几种常见搜索策略及相关算法。同时，对主题网络爬行器的技术特点进行了分析。针对特定Web页面的数据获取，本文通过元搜索相关技术来实现。为分析特定主题的传播人群范围，引入微博数据进行分析。充分利用社交媒体中以人为节点的社交网络，在爬取人物节点之后，就可以大致了解对某一重大事件或热点的传播人群并研究社交网络中的人群分布特点。(本文来源于《吉林大学》期刊2015-05-01）

沈桂兰,孙洁,杨小平^[4]（2014）在《基于复杂网络局部社团发现的主题爬行研究》一文中研究指出从全局上限定采集范围可以有效地提高主题爬虫的查准率.结合Web链接分析和页面内容特征分析,提出了一种基于复杂网络局部社区发现的主题爬行方法,将主题爬行分为两个阶段,第一阶段采用复杂网络的局部社区发现算法进行Web链接分析,构建主题网站群,缩小爬行范围.在第二阶段,在限定的范围内,对爬取到的页面进行主题相似度判定,并对下一步的链接目标进行预测.实验证明,该方法显着提高了主题爬虫的查准率.(本文来源于《河南师范大学学报(自然科学版)》期刊2014年04期）

郭颖为^[5]（2013）在《微博网络爬行器技术研究与实现》一文中研究指出随着移动通信网络和Web2.0技术的不断发展，微博已逐渐成为人们日常交流、通信、娱乐的基本工具。越来越多的人开始使用并利用微博来传播广告、新闻、话题等信息。同时由于微博的开放性和匿名性，微博也隐藏着许多不良信息，如谣言、暴力以及反动信息，这对我国舆论的引导与监管带来了很大的困难。因此，针对微博网络开展数据采集工作研究，既是对微博网络信息传播建模与优化的研究基础，也是微博网络舆情监控与分析的必要前提，具有十分重要的研究意义与实践意义。本论文主要以新浪微博为研究对象，在调研了当前主流爬行器技术的基础上，设计并实现了一个高效地增量式微博网络爬行器，主要工作如下：1、根据信息抽取的需求，分析了新浪微博信息结构的组成，采集用户的基本信息、用户的标签与关注的话题、用户的社交关系（关注、粉丝）及其所发的微博等，根据所要抽取的信息并设计了相应的数据库，在具体采集信息时，本文采用模拟浏览器的策略访问微博用户的主页，并将采集下的网页源码转成文档对象模型树，采用Xpath表达式对转化后的文档对象模型结构化信息进行的抽取，在数据存储时采用软件工程的思想，在底层使用了Hibernate和Spring的数据持久化技术进行数据存储，这样能够屏蔽数据访问和存储的细节。2、在具体地设计中，文中较好的实现了自动填写表单技术，自动填写表单主要是采用抓包软件破解新浪微博登陆的加密协议，并模拟浏览器填写表单登陆新浪微博，获得新浪微博服务器返回的cookie，利用这些cookie进行下载用户的相关网页。为了能够高效持续的采集用户的相关信息，本文设计并实现了基于多生产者多消费者模型的网页信息采集与存储的网络爬行器，将爬行器的采集端类比成生产者，即不断地持续地从新浪微博服务器中下载网页并解析成结构化数据，将爬行器的存储端类比成消费者，采用多线程的方式分别对每类结构化的数据进行存储。为了进一步提高爬行器的效率，文中利用新浪微博API接口对微博用户的社交信息进行辅助采集。3、本文深入研究了微博网络爬行策略的问题，由于每个用户的发表博文的频率并不一致，如果毫无区别地对微博用户轮询采集会浪费大量的带宽和网络资源，因此本文提出了基于用户活跃度的爬行调度策略，利用所采集的用户的微博时间数据对用户的活跃度进行预测，采用时间序列分析方法预测用户在下一个时间段内博文的发表量，发表量越多用户的活跃度也越大，爬行器按照用户的活跃程度进行调度，用户越活跃爬行器采集的频率越大，实验结果表明本文的采集策略比简单的深度优先爬行相比其覆盖率和时效性都有了明显的提高。(本文来源于《吉林大学》期刊2013-11-01）

李华波,吴礼发,赖海光,郑成辉,黄康宇^[6]（2013）在《有效的爬行Ajax页面的网络爬行算法》一文中研究指出Ajax页面的生成和页面导航需要执行客户端的JavaScript代码,传统网络爬行算法无法获取Ajax页面全部内容。分析了Ajax的工作方式,阐述了爬行Ajax网页所面临的主要问题,提出并实现了一种有效爬行Ajax页面的网络爬行算法。该算法可控制客户端浏览器动态生成页面内容和完成页面导航,为爬行过的页面分配标识编号并生成相应静态页面。实验结果表明,提出的算法所爬行的Ajax页面数量明显多于传统方法,同时,采用的双重消重策略可有效减少算法的时间耗费。(本文来源于《电子科技大学学报》期刊2013年01期）

刘希亮,陈桂明,李方溪,张倩,苗春潮^[7]（2012）在《故障贝叶斯网络及其在液压缸爬行诊断中的应用》一文中研究指出利用故障树分析能明确表达逻辑关系和贝叶斯网络解决不确定性问题能力强的优点,通过转化算法建立两者之间的联系,研究了一种基于二状态故障贝叶斯网络模型,采用分层处理思想,进而计算出模型中任意结点的概率。液压缸爬行诊断分析实例证明了应用故障贝叶斯网络的实用性和有效性。(本文来源于《液压与气动》期刊2012年08期）

张瑶^[8]（2012）在《面向AJAX脚本网络的网页爬行及解析技术的研究与实现》一文中研究指出随着Web2.0时代的到来,具有AJAX异步传输特征的动态网站已经逐渐成为互联网中的主流表现形式。该技术虽然实现了与服务器的异步通信,带来了良好的用户体验,但是却改变了基于静态页面的传统Web站点的架构。这导致传统网络爬虫无法获取动态站点中的所有页面信息,隐藏在服务器端的很多数据内容无法被获取并进行进一步的分析与利用,造成了资源的浪费。通过上述现状,本文首先分析了AJAX技术的工作原理与主要特点,以及网页分析的核心技术,构建了动态网页数据获取的模型。在此基础上,提出了一种基于动态脚本分析的网页爬行及解析的方法。该方法首先通过对动态页面结构与内容的解析完成了识别第叁方框架、分类相似站点、确定页面事件标签集合、页面表单的自动填写等工作。利用Watij模拟用户操作并通过内嵌Selenium脚本解析器顺序执行相应脚本程序。采用广度优先的页面爬行策略、XMLHttpRequest对象监听和DOM树结构相似性判断相结合的页面状态判定方式、基于状态转换图的状态转换控制方法实现了动态页面的数据获取。通过路径存储仓库和本地缓存的加入,有效地减少了页面重新加载次数且较好地处理了服务器端的主动数据更新。基于该方法的工作原理和处理流程,本文设计并实现了一个用于获取动态网页数据信息的原型系统。实验表明,本文提出的算法能够有效地对动态网页进行解析并获取其中的数据信息。对算法做出的优化,使得该算法在不影响数据获取准确率的情况下,执行时间大大降低,性能较同类型其他算法有显着提升。本文所实现的动态网页数据获取原型系统AjaxCrawler可以应用于实际网络中的各个大型站点,能够基本满足用户对于动态网页数据信息获取的需求。(本文来源于《东北大学》期刊2012-06-01）

刘学^[9]（2012）在《分布式多媒体网络爬行系统的设计与实现》一文中研究指出互联网和多媒体技术的飞速发展，推动了数字多媒体作品的在线销售与传播，也带来了版权侵犯问题。数字作品可以被轻易拷贝，任何人均可通过网络将版权保护作品进行再次分发。使用网络爬虫主动搜索互联网中的多媒体作品（图像、音频和视频），利用拷贝检测和数字指纹技术追踪泄露者，可以有效地保护版权。设计实现了一个分布式多媒体网络爬行系统，实现对互联网上多媒体作品的抓取，为下一步版权保护提供检测数据来源。分布式网络爬虫的设计是一项极具挑战性的工作，在详细讨论一般爬虫设计架构的基础上，提出了一种实用的分布式架构设计，有效的结合了集中式和分布式设计的优点，较好地解决了任务调度与爬行结点动态加入和退出造成的重复爬行问题。网络爬虫的实现涉及到一系列关键技术，为加快爬行速度，尽早爬行到重要资源，采用基于URL过滤的宽度优先搜索策略，丢弃不重要的URL；在对基于Bloom Filter的URL判重方式进行详细分析讨论后，提出了一种基于Bloom Filter的分布式URL判重方法，每个爬行结点只维护自身任务范围内URL的判重结构，爬行结点越多，单个爬行结点需要进行判重的URL越少，减少了对内存的需求，加快了判重速度；爬行结点采用多线程实现可以有效加快爬行速度，但线程之间存在竞争，详细讨论了多线程设计中遇到的问题。在多媒体资源爬行方面，详细讨论了多媒体资源爬行下载中存在的问题及解决思路，着重介绍了视频分享网站中存在的视频下载问题，并以视频网站优酷为例描述了问题的解决方案。最后通过系统的实际运行评测，验证分布式多媒体网络爬行系统的实用性，并对需要继续研究改进的问题提出了展望。(本文来源于《华中科技大学》期刊2012-01-01）

宋海洋,刘晓然,钱海俊^[10]（2011）在《一种新的主题网络爬虫爬行策略》一文中研究指出为了解决传统主题网络爬虫准确度低或者爬行速度慢的问题,提出一种新的主题网络爬虫爬行策略,主要针对"二次爬行"过程进行改进。在传统的主题网络爬虫流程中增加一份"经验树",将基于内容分析和基于链接分析两种不同的相关度分析算法相结合,并且可以保存爬虫爬行过程中所得到的"经验",实现对后续爬行的指导。实验结果表明通过改进后的策略实现的主题网络爬虫在性能上有较大提升。(本文来源于《计算机应用与软件》期刊2011年11期）

网络爬行论文开题报告

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

为了解决管道爬行机器人在管道中高速、远距离实时传输管道中的高清图像与数据,本文采用电缆高速网络传输技术使高清的图像以及实时的数据传输到上位机系统,实现主控系统与机器人间的高速、长距离通信。通过高清网络摄像头将拍摄到的图像进行编码、压缩,经过高速图传模块后通过高速电缆进行传输,经过解调、图像解码后,可以进行录像、存储、回放。同时,高速网络图传技术也可运用于测井中,提高灵活性。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

网络爬行论文参考文献

[1].侯美静.基于智能爬行算法的网络扫描技术研究及实现[D].西安电子科技大学.2018

[2].严正国,楚航.基于电缆高速网络传输技术的管道爬行机器人研究[J].电脑知识与技术.2017

[3].许刚.面向特定主题及其传播人群的网络爬行器设计[D].吉林大学.2015

[4].沈桂兰,孙洁,杨小平.基于复杂网络局部社团发现的主题爬行研究[J].河南师范大学学报(自然科学版).2014

[5].郭颖为.微博网络爬行器技术研究与实现[D].吉林大学.2013

[6].李华波,吴礼发,赖海光,郑成辉,黄康宇.有效的爬行Ajax页面的网络爬行算法[J].电子科技大学学报.2013

[7].刘希亮,陈桂明,李方溪,张倩,苗春潮.故障贝叶斯网络及其在液压缸爬行诊断中的应用[J].液压与气动.2012

[8].张瑶.面向AJAX脚本网络的网页爬行及解析技术的研究与实现[D].东北大学.2012

[9].刘学.分布式多媒体网络爬行系统的设计与实现[D].华中科技大学.2012

[10].宋海洋,刘晓然,钱海俊.一种新的主题网络爬虫爬行策略[J].计算机应用与软件.2011

论文知识图

标签：网络论文; 爬虫论文; 主题论文; 策略论文; 搜索引擎论文; 分布式论文; 概率论文;

网络爬行论文_侯美静

网络爬行论文文献综述

网络爬行论文开题报告

网络爬行论文参考文献

论文知识图

猜你喜欢