包装器论文_张佳俊,王一洲,陈星,张颖

导读:本文包含了包装器论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:数据,实体,信息,算法,网页,圆柱形,新闻。

包装器论文文献综述

张佳俊,王一洲,陈星,张颖[1](2018)在《基于DOM树抽象的包装器自动生成技术》一文中研究指出传统的包装器都由人工定义,要为不同类型的页面制作不同的包装器,因此包装器维护的开销很大,一旦原来的页面风格变了,原来的包装器也就需要重新定义。针对现有方法需要人工定义和维护包装器,并且准确率还有待提升的问题,提出一种可行的基于DOM树抽象的包装器自动生成技术。该技术主要由两个部分组成:目标类型网页的DOM树抽象和目标节点的定位及包装器生成。运用该技术可以对多种类型的网页实现包装器的自动生成。该技术针对主流的购物网站(京东、亚马逊、苏宁、当当)及主流书籍信息网站(豆瓣读书)进行了实验,实验结果表明该方法的平均精确率和召回率能够达到96%和99%。(本文来源于《计算机应用》期刊2018年S1期)

李丹[2](2017)在《一种基于树型结构的包装器生成算法研究》一文中研究指出在对传统算法Road Runner研究基础上,本文提出一种基于树型结构的包装器生成算法。在对训练样本进行匹配过程中,引入树型结构进行比较,算法运算效率明显提升,对迭代项和可选项的识别也更加精准。(本文来源于《电子测试》期刊2017年24期)

孙梦[3](2017)在《一种基于噪音过滤包装器的Web新闻抽取方法》一文中研究指出井喷式增长的新闻网页造成大量新闻资源堆积在互联网上,由于这些新闻资源的异构性和缺乏统一的规范,无法使用传统的数据库技术进行处理,导致这些聚集在互联网上的新闻资源只能够被浏览、被搜索使用。另外,海量Web新闻网页中的新闻,也是舆情监测、话题更新等研究的基础。基于传统正则表达式的抽取Web新闻的方法,具有难以适应HTML页面结构微弱改变,导致准确率骤降的缺点。因此对于Web新闻抽取技术这一课题的研究具有十分重要的实际应用价值。本文基于ACME算法抽取Web新闻的实验结果发现的规律,开展了以下研究:(1)本文提出了一种基于噪音过滤包装器的Web新闻正文抽取方法。在相似页面首标签对齐后,辗转对比归纳抽取包装器时,若两页面字符串对比失配,通过计算其字符串标签路径比,根据阈值aa,标记不同符号区分新闻内容和噪音,从而达到UFRE表达式抽取新闻正文时一种良好的去噪效果。在大量真实Web新闻网页组成的数据集和Clean-eval数据集上,基于噪音过滤包装器的Web新闻正文抽取方法(SLPR),与RoadRunner抽取技术、NFaS系统对比实验结果表明,SLPR方法有效克服了鲁棒性和可移植性不强的缺点,同时本文方法具有过滤噪音的特点,平均新闻正文抽取准确率达95.9%,高于其他抽取技术。(2)为了保持新闻抽取的完整性,本文提出了一种基于朴素贝叶斯分类器抽取Web新闻标题和时间的算法,通过组建训练集,对其提取多种标题和时间的特征元素,融合朴素贝叶斯分类器的计算原理,抽取Web新闻页面中的新闻标题和时间。在大量真实Web新闻网页组成的数据集上,与传统正则表达式抽取方法进行了对比实验,平均抽取正确率达到93.06%,最低抽取准确率仅为86.80%,验证了基于朴素贝叶斯分类器的方法克服了传统路径表达式网页结构的微弱改变而导致抽取结果准确率骤降的缺点,突出了该算法抽取Web新闻网页标题和时间的通用性和有效性。(3)设计了 Web新闻抽取原型系统,系统集成了以上两个抽取算法。对系统划分了五大功能模块,叙述了模块运作原理和用户界面的使用说明,并完成了 Web新闻抽取原型系统的开发工作。(本文来源于《北京交通大学》期刊2017-03-01)

孙梦,瞿有利[4](2017)在《一种基于噪音过滤包装器的Web新闻抽取方法》一文中研究指出从海量Web新闻网页中抽取高纯度新闻,并以结构化的形式存储,是舆情监测、话题更新等研究的基础。本文提出一种基于噪音过滤包装器的方法抽取Web新闻,归纳包装器时,若2页面字符串对比失配,计算其字符串标签路径比,根据阈值α,标记不同符号区分新闻内容和噪音。同时提出了朴素贝叶斯Web新闻标题分类器和时间分类器抽取新闻题目和时间。实验结果表明,本文方法与其他抽取技术相比准确率和鲁棒性有显着的提高,具有重要的实际应用价值。(本文来源于《计算机与现代化》期刊2017年01期)

纪梦月,李军,陈学祥[5](2016)在《硬币快速计数及包装器》一文中研究指出一、设计背景我家开小卖铺,妈妈经常让我清点硬币的数量,一角、五角、一元的硬币一大堆,数起来真是麻烦。用什么方法能快速清点这些硬币呢?每天盯着这么一堆硬币,我想啊想啊,一直没有想出办法。一天,奶奶用筛子筛豆子,豆粒从筛子眼儿中一个个滚落下去,比豆粒大的豆荚却被隔在了筛子中。我当时就在想,如果根据硬币直径大小的不同,一元的硬币大一些,五角和一角的硬币小一些,能不能也像筛豆(本文来源于《科技创新与品牌》期刊2016年01期)

陈韶刚[6](2014)在《面向领域的Web实体扩展及包装器健壮性优化》一文中研究指出随着社会信息化程度越来越高,Web数据快速增长,Web用户对信息的需求和依赖程度越来越高,特别是面向领域的专业化信息。如何帮助用户方便地查找感兴趣的数据,做到“所搜即所得”是一个亟待解决的问题。因此如何从海量Web信息中获取数据,并构建面向领域的结构化的实体数据库,已经成为Web数据挖掘领域中的研究焦点。本文主要研究了如何有效地对面向领域的Web实体进行扩展,为构建面向领域的应用提供有效的数据支持。现有的面向领域的Web实体抽取系统通常针对某一个领域的信息进行抽取,抽取对象是结构简单的页面,对含有噪音数据页面中的实体抽取效率并不高。现有的属性值抽取方法,大都针对单独的文档进行抽取,并且对于数值型属性并没有结合领域约束进行抽取。此外由于网站内容可能会变动更新,抽取系统的健壮性也需要进一步提高。本文在现有Web实体数据抽取方法的基础上,结合Web数据特征,提出了面向领域的Web实体扩展模型。基于此模型,本文借助面向领域的主题爬取模型,实现了一个面向房地产领域的Web实体扩展系统。本文主要研究内容和工作有以下几个方面:1、提出了一个面向领域的Web实体扩展模型,本文以此模型为基础进行针对实体集合扩展、实体属性值抽取、包装器健壮性优化的问题进行深入研究。该模型可以结合面向各个领域的主题爬取模型,具有良好的可扩展性。2、实体集合扩展:首先对实体与Web列表数据进行建模,得到二分图模型,在此模型的基础上提出了实体相似性计算方法、扩展集合质量评估方法。结合上述方法,使用静态阈值算法、动态阈值算法进行实体集合扩展。3、实体属性值抽取:针对Web中的非结构化数据,使用了一种基于整数线性规划的属性值抽取方法,结合了领域中实体的约束信息,并结合领域中的真实属性值对数值型属性进行约束,提高了抽取准确率。4、包装器健壮性优化:网页结构发生变化,常会导致包装器失效。为提高包装器的健壮性,在现有健壮抽取框架的基础上,通过优化概率模型构建最优概率包装器。通过在真实网站的评估,证明了该方法可以有效应对网站变化,提高了包装器的健壮性。本文对构建面向领域的Web实体扩展系统中的实体集合扩展、实体属性值抽取、包装器健壮性优化等问题进行了研究,提出有效的解决方法,并结合房地产领域的实际需求开发了Web实体扩展系统,验证方法的有效性。因此本文研究的课题不仅具有理论研究意义,而且具有广泛的实际应用价值。(本文来源于《沈阳建筑大学》期刊2014-11-01)

纪梦月[7](2013)在《硬币快速计数及包装器》一文中研究指出我家开小卖部,妈妈经常会让我清点硬币数,壹角、伍角、壹圆的硬币一大堆,数起来真麻烦!用什么方法能快速地清点硬币数呢?我每天盯着硬币不停地想,一个办法都没有想出来。秋天,奶奶用筛子筛豆子,豆粒从筛眼中一个个滚落下去,比豆粒大的豆荚被隔在了(本文来源于《发明与创新(C)》期刊2013年04期)

刘冬兰[8](2013)在《Deep Web数据抽取中自适应包装器问题研究》一文中研究指出随着互联网技术的飞速发展,Deep Web网站上拥有着海量的数据,并且在快速地增长,使Web成为一个巨大的数据源,这些信息要通过查询接口在线访问其后端的Web数据库。尽管Deep Web中蕴藏了大量丰富的有价值信息,但是Deep Web数据具有动态变化性和异构性等特点,对这些信息进行有效利用是非常有挑战性的工作。Deep Web数据集成至今仍然是一个研究热点,Deep Web数据集成可以对Web数据进行有效整合,为电子商务、市场情报分析、舆情分析等应用提供支持。Deep Web数据抽取是Deep Web数据集成中的核心问题,对Deep Web页面中广泛存在的非结构化和半结构化的数据进行有效地抽取,是实现Deep Web数据集成的基础,为数据融合和数据分析等提供服务。由于Deep Web页面都是基于脚本生成的网页,许多的文档共享公共的Html树结构,通常使用包装器来有效地抽取Web数据。由于Deep Web数据的异构性和动态性,Deep Web网页结构经常发生变化,导致包装器出现中断,从而需要重新学习包装器。Deep Web数据抽取中自适应包装器问题研究中,还存在以下问题有待解决:(1)研究如何提高抽取包装器的健壮性,即当Web网页发生变化时,包装器在新网页中继续保持抽取数据的能力。(2)研究抽取规则是否具有通用性,即针对某一数据源构造的抽取规则能否做自适应调整以便应用于另一数据源,实现领域自适应的抽取。本文针对网站上大量的Deep Web网页,以Deep Web数据集成为目标,针对以上两个待解决的关键问题展开研究,探索了构建健壮的包装器用于Deep Web数据抽取的问题,主要工作与研究成果概括如下:(1)针对包装器健壮性问题,提出了一种基于最小代价脚本编辑模型的健壮的Deep Web数据抽取方法。通过监控网页随着时间变化的过程中,统计插入、删除、替换叁种编辑操作对每个Html标签的变化频率,根据编辑操作变化的频率计算相应的编辑代价,并在此基础上建立抽取模型用于健壮的Deep Web数据抽取。根据网页的变化,调整抽取规则,使得构造的抽取规则能更好的适应网站的变化。实验结果表明,该方法构造的包装器具有较高的抽取准确率,有效解决了Deep Web数据抽取中自适应抽取的问题,提高了Deep Web数据抽取的健壮性和灵活性。(2)根据自底向上(Bottom-up)的逻辑归纳设计思想,提出了一种最小的候选包装器的生成方法。该方法使得构造的包装器的查准率(Precision)和查全率(Recall)都接近于1,提高了包装器的抽取准确率。实验结果表明,该方法构造的包装器具有较小的破损率,抽取准确率较高。(3)针对包装器通用性问题,提出了一种自举法(Bootstrapping)的方式学习包装器,实现领域自适应的抽取。对51job招聘站点上训练得到的抽取模型,用于同领域内其他招聘网站如智联招聘、应届生求职等网站,随机采样一些网页用此抽取模型进行学习,从采样页面中抽取特征后,将抽取模型用于新的网站来识别属性值;由此得到的抽取规则进一步代替之前有标签的样本页面,通过自举式学习抽取模型,使得构造的包装器具有较高的通用性。实验结果表明,本文提出的方法有效地提高了目标网站的抽取准确度,有效解决了从大规模的Deep Web数据中进行抽取的高效性问题。(本文来源于《山东大学》期刊2013-04-05)

周家晶,邹翔,沈备军,胡善学[9](2011)在《Web遗留系统的服务包装器环境设计》一文中研究指出Web遗留系统的白盒服务迁移需要侵入原有系统修改代码,因此会产生运行风险。针对该问题,设计并实现一种黑盒包装器环境。通过为遗留系统配置包装器,忽略原系统内部的复杂性,并在不改变系统部署和运行状态的情况下,将遗留的Web应用转化为Web服务。应用结果表明,基于外部包装和规则配置的黑盒方法更具可控性。(本文来源于《计算机工程》期刊2011年19期)

罗伟[10](2011)在《Web数据集成中包装器自适应方法研究》一文中研究指出随着互联网的快速发展,Web上产生了大量与领域相关的信息,这些信息也成了人类获取知识的重要来源。互联网已经成为一个巨大的信息交流平台,大量的信息嵌入在Web页面中。Web页面是一种半结构化的数据,Web数据抽取可以将这种半结构化数据抽取并转化为结构化数据,从而为进一步的知识获取做准备,这一过程通常采用一个称之为包装器的应用程序来实现。包装器的工作依赖于页面的结构信息,然而由于互联网的动态特征,站点可能会经常更新其展现形,导致了Web页面结构发生变化,这一变化最终导致包装器停止工作。包装器自适应针对这一问题开展相关的研究。包装器的自适应研究可以分为两个子问题:包装器校验和包装器重归纳。第一个子问题是如何对包装器返回数据进行有效性校验,确保包装器处于正常工作的状态。当站点结构发生变动时,旧的包装器可能无法继续抽取到数据,或者抽取出来的数据是完全错误的,当系统检测出这一情况发生时,对设计者进行提醒,或自动执行包装器修复过程进行修复。包装器重归纳系统对抽取规则进行修复从而使包装器能够在结构变化后的新页面上正常工作。本文充分利用Web数据集成系统中已有数据提供的信息,利用其展现出来的数据特征对新抽取的数据记录进行校验,检测包装器是否正常工作。同时结合Web页面自身体现各种特征,对Web数据页面中的属性标签和数据元素进行准确的标记,生成良好的训练样例,辅助生成新的包装器。实验结果表明,该方法有效地提高了包装器的自适应性能。(本文来源于《山东大学》期刊2011-04-20)

包装器论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

在对传统算法Road Runner研究基础上,本文提出一种基于树型结构的包装器生成算法。在对训练样本进行匹配过程中,引入树型结构进行比较,算法运算效率明显提升,对迭代项和可选项的识别也更加精准。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

包装器论文参考文献

[1].张佳俊,王一洲,陈星,张颖.基于DOM树抽象的包装器自动生成技术[J].计算机应用.2018

[2].李丹.一种基于树型结构的包装器生成算法研究[J].电子测试.2017

[3].孙梦.一种基于噪音过滤包装器的Web新闻抽取方法[D].北京交通大学.2017

[4].孙梦,瞿有利.一种基于噪音过滤包装器的Web新闻抽取方法[J].计算机与现代化.2017

[5].纪梦月,李军,陈学祥.硬币快速计数及包装器[J].科技创新与品牌.2016

[6].陈韶刚.面向领域的Web实体扩展及包装器健壮性优化[D].沈阳建筑大学.2014

[7].纪梦月.硬币快速计数及包装器[J].发明与创新(C).2013

[8].刘冬兰.DeepWeb数据抽取中自适应包装器问题研究[D].山东大学.2013

[9].周家晶,邹翔,沈备军,胡善学.Web遗留系统的服务包装器环境设计[J].计算机工程.2011

[10].罗伟.Web数据集成中包装器自适应方法研究[D].山东大学.2011

论文知识图

模型包装器结构Web包装器结构Web包装器结构(1)预定义模块“包装器”包装的诊断Agent结构图网站分类体系包装器系统结构Wrapper与异构数据源间的映射结构#~

标签:;  ;  ;  ;  ;  ;  ;  

包装器论文_张佳俊,王一洲,陈星,张颖
下载Doc文档

猜你喜欢