标记树论文-魏东平,徐瑞敏,贾楠

标记树论文-魏东平,徐瑞敏,贾楠

导读:本文包含了标记树论文开题报告文献综述及选题提纲参考文献,主要关键词:XML数据,数据压缩,查询处理,重复路径

标记树论文文献综述

魏东平,徐瑞敏,贾楠[1](2011)在《基于结构标记树的XML可查询压缩方法》一文中研究指出针对支持查询的XML数据压缩方法存在的路径和数据重复等问题,通过去除XML数据中的重复路径,简化XML数据结构,提出结构标记树的概念及其生成算法,设计一种基于结构标记树的可查询XML数据压缩方法SSTQC,对XML数据进行压缩和组织查询。SSTQC一次扫描XML文档,具有较好的的压缩性能和查询效率。(本文来源于《计算机工程》期刊2011年15期)

夏天[2](2011)在《基于扩展标记树的网页正文抽取》一文中研究指出本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取。实验结果表明:该方法可以实现常规文章类网页的高精度抽取,并具有良好的适应性。(本文来源于《广西师范大学学报(自然科学版)》期刊2011年01期)

滕海明[3](2011)在《基于语义标记树的XML文档聚类研究》一文中研究指出XML自1998年发布以来,凭借其自身的简单性、半结构化、可扩展性、自描述性等特点,逐渐成为了互联网数据交换和表示的标准,网上关于XML的数据出现了爆炸性的增长,目前如何对XML数据进行有效挖掘成为了研究热点。本文在对XML相关技术以及XML文档聚类算法进行介绍的基础上,梳理了近几年XML文档相似度计算方法的研究进展,针对这些相似度度量方法依靠的多是文档中字符串的简单比对,未涉及文档语义信息的情况,本文提出了一种基于语义标记树的XML文档相似度度量方法,此方法以传统路径法基础,从文档结构特征和标记的语义信息考察文档的相似度。首先利用基于WordNet的语义消歧模块对XML文档间相同的标记进行语义消歧,然后利用语义相似度计算方法对XML文档中不相同的标记进行语义相关度计算,将文档中相同的标记以及标记间的语义相关度共同作为文档的特征来衡量文档的相似度,最后在实验数据集上利用层次聚类算法中的最近邻聚类算法进行分类,证实其确实是一种比较有效的XML文档聚类方法。(本文来源于《浙江大学》期刊2011-03-01)

董朝霞[4](2010)在《基于无短语标记树库的句法分析方法的研究》一文中研究指出句法分析是自然语言处理领域的关键技术之一,在自然语言处理中具有十分重要的地位,它在机器翻译、信息检索、语音识别等研究中都有重要应用。在机器翻译的一些应用中,只需要句法边界信息而不需要短语标记信息。主流的句法分析方法都是既产生句法边界又产生短语标记,并且在分析过程中需要利用短语标记信息。本文的目标是得到句法边界信息,并不需要短语标记信息,因此本文主要研究能否不利用短语标记信息而直接利用词和词性信息得到句法边界的问题。仅仅利用词和词性的边界分析相当于基于无短语标记树库的句法分析。句法树中的短语可以分为一元短语和非一元短语。由于一元短语在树库中的比例比较小,并且将一元短语边界分析和非一元短语边界分析分开,有助于减少两个阶段的歧义性,因此本文首先进行非一元短语边界分析,然后在非一元短语边界分析结果的基础上进行一元短语边界分析。本文提出了两种可行的非一元短语边界分析方法,一种是基于层次分析的边界分析方法,另一种是基于移进归约的边界分析方法。基于层次的边界分析方法将边界分析问题转化为层次组块分析问题,自底向上按层进行分析,该种方法在英语标准测试集上的F-测度接近85%。基于移进归约的边界分析方法分为两个阶段,首先进行基本短语边界分析,然后进行嵌套短语边界分析,基本短语边界分析采用组块分析的方法,嵌套短语边界分析采用移进归约的方法,该方法在英语标准测试集上的F-测度接近88%。这两种方法在分析过程中都没有利用短语标记信息,分析结果也都没有产生短语标记。本文最后在基于移进归约的边界分析方法基础上进行了一元短语边界预测,将一元短语边界预测问题转化为预测由非一元短语边界预测结果形成的句法树中每个节点需要派生的一元规则个数的问题,并提出了一个层次分析模型来进行个数预测,实验结果表明该方法能有效的预测一元短语边界。通过基于移进归约的非一元短语边界分析和一元短语边界分析两个过程,本文得到了一个完整的边界分析器,其边界分析性能已经与斯坦福句法分析器(Stanford Parser)相当。本文的工作证明了不利用短语标记信息而仅仅利用词和词性信息直接进行句法边界分析是可行的。(本文来源于《哈尔滨工业大学》期刊2010-06-01)

陈华竣[5](2006)在《真前缀标记树在子树选取策略中的应用》一文中研究指出针对周期性任务处理中用户对操作数据的规则定义问题,提出了一种带有标记的真前缀树的表示方法,定义了树形数据集合上的选择/排斥规则。根据这种规则,制定的周期任务能自动地处理原有的和变化的数据。并给出真前缀标记树的一种GUI表现方式。(本文来源于《广东技术师范学院学报》期刊2006年06期)

陈华竣,郑智,倪德明[6](2006)在《真前缀标记树——一种面向用户的子树选取策略表示方法》一文中研究指出针对周期性任务处理中用户对操作数据的规则定义问题,提出了一种带有标记的真前缀树的表示方法,定义了树形数据集合上的选择/排斥规则。根据这种规则,用户制定的周期任务能自动地处理原有的和变化的数据。并给出真前缀标记树的一种GUI表现方式。(本文来源于《计算机技术与发展》期刊2006年12期)

李明,张为群[7](2006)在《基于标记树的WEB页面净化技术研究》一文中研究指出根据Web页面标记建立标记树,通过分析,保留有用信息的标记子树,达到获取页面主要内容,净化页面的效果.(本文来源于《西南师范大学学报(自然科学版)》期刊2006年05期)

胡飞[8](2005)在《基于标记树的Web页面区域划分和搜索方法》一文中研究指出Web页面的布局可以分为:主要内容、单位标识、导航信息、交互信息和版权申明。我们在处理这些页面时往往只关心主要内容,而且可以从语义上快速定位到主要内容,但是软件系统要做到这一点就非常困难。本文提出一种基于标记树的Web页面区域划分和搜索方法,让软件系统可以忽略别的区域,快速定位到主要内容。对于大量Web页面处理而言,这种方法可以起到减少时间,缩小空间的作用,Web页面越多,效果就越显着。(本文来源于《计算机科学》期刊2005年08期)

常育红,姜哲,朱小燕[9](2004)在《基于标记树表示方法的页面结构分析》一文中研究指出页面内容结构分析在WEB信息检索、分类和抽取等方面有重要作用。文章从页面布局和内容之间关系出发,根据WEB文件中标记之间关系,用标记树表示页面文件,采用自底向上的算法,抽取出具有不同语义的页面内容,提出用树形层次结构表示它们之间关系的方法。在此基础上,通过模仿人们浏览页面的习惯,成功地将其应用于页面的计算机屏读系统,实现自动朗读页面主题的功能。(本文来源于《计算机工程与应用》期刊2004年16期)

宋晖,张岭,叶允明,马范援[10](2002)在《基于标记树对象抽取技术的Hidden Web获取研究》一文中研究指出目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该文提出了一套检索HiddenWeb信息的方法,给出了系统的框架结构,并详细讨论了实现的关键技术。系统采用新的基于标记树的对象抽取(Tag-Tree-basedObjectExtraction)方法自动地从Web页面中抽取HiddenWeb信息,然后在此基础上给出了结构化的HiddenWeb信息查询算法。文章最后对实验结果进行了讨论。(本文来源于《计算机工程与应用》期刊2002年23期)

标记树论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取。实验结果表明:该方法可以实现常规文章类网页的高精度抽取,并具有良好的适应性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

标记树论文参考文献

[1].魏东平,徐瑞敏,贾楠.基于结构标记树的XML可查询压缩方法[J].计算机工程.2011

[2].夏天.基于扩展标记树的网页正文抽取[J].广西师范大学学报(自然科学版).2011

[3].滕海明.基于语义标记树的XML文档聚类研究[D].浙江大学.2011

[4].董朝霞.基于无短语标记树库的句法分析方法的研究[D].哈尔滨工业大学.2010

[5].陈华竣.真前缀标记树在子树选取策略中的应用[J].广东技术师范学院学报.2006

[6].陈华竣,郑智,倪德明.真前缀标记树——一种面向用户的子树选取策略表示方法[J].计算机技术与发展.2006

[7].李明,张为群.基于标记树的WEB页面净化技术研究[J].西南师范大学学报(自然科学版).2006

[8].胡飞.基于标记树的Web页面区域划分和搜索方法[J].计算机科学.2005

[9].常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用.2004

[10].宋晖,张岭,叶允明,马范援.基于标记树对象抽取技术的HiddenWeb获取研究[J].计算机工程与应用.2002

标签:;  ;  ;  ;  

标记树论文-魏东平,徐瑞敏,贾楠
下载Doc文档

猜你喜欢