导读:本文包含了多文档文摘论文开题报告文献综述及选题提纲参考文献,主要关键词:动态多文档文摘,动态演化性,差异性分析,相似度
多文档文摘论文文献综述
刘美玲,郑德权,王慧强,于洋[1](2018)在《动态流形方法在多文档文摘模型上的应用》一文中研究指出网络动态演化内容的识别和分析是人们快速获取有效信息的主要手段之一,已经成为人们迫切需要解决的关键问题。动态多文档文摘建立在时间信息基础上,从网络动态演化性出发,对同一话题不同时段的文档集合进行分析,在识别信息内容差异性的基础上,对信息的动态演化性进行建模。文中在经典流行排序思想的基础上,进一步提出了动态流行排序模型。该模型中不仅融入了信息的重要性特征,而且融入了信息与历史信息的关联特征以及信息的时间特征,使文摘信息动了起来,即文摘系统具有了动态性。该模型在国际标准评测TAXT ANYNASIS CONFERENCE 2008的Update task任务语料上进行了测试,获得了较好的实验结果。(本文来源于《计算机技术与发展》期刊2018年03期)
王萌,唐新来,何婷婷[2](2014)在《一种文本分割技术的多文档文摘方法研究》一文中研究指出提出一种基于文本分割技术的多文档自动文摘方法。该方法使用HowNet作为概念获取工具,通过建立句子概念向量空间模型和利用改进的DotPlotting模型来进行文本分割。利用建立的句子概念向量空间模型计算句子重要度,并根据句子重要度、文本分割结果和文摘句相似度等因素产生文本摘要。使用ROUGE-N评测方法和F_Score作为评测指标对系统产生的文摘进行评测,结果显示使用文本分割技术进行多文档摘要是有效的。(本文来源于《计算机应用与软件》期刊2014年09期)
龚书[3](2013)在《抽取式多文档文摘的文本表示研究》一文中研究指出自动文摘是自然语言处理的一个分支研究领域,本文主要研究其众多分支中最基础、也是一直被关注的基于抽取式的多文档文摘,对多篇文档提取一个由其中核心句子组成的简短文摘。多文档文摘的对象一般是围绕预定话题、经搜集而得的多文档集合。虽然具有预定话题,但由于文档来自不同信息源,数据中常存在以下3个问题,对文本的准确表示造成影响,影响文摘的准确提取:1.主题不唯一:不同作者对话题阐述的角度不同,多文档集内可能包含除预定义话题以外的其它主题。2.词义复杂性:因作者用词习惯不统一和语言的丰富性,易混杂各种同义词,内容繁杂时会存在出现于不同主题的多义词。3.噪音现象:因文档以整篇为单位加入数据集,可能携带无关噪音内容。为此,本文引入语义分析模型、语义知识库和监督信息来改进多文档文摘的文本表示,以提高文摘系统性能。主要研究成果如下:1.提出了基于主题表示的多文档文摘方法,处理主题不唯一问题。文档集主题结构训练、句子的主题表示和句子重要度计算是其主要环节,其中:(1)提出背景训练方法训练文档主题结构,解决多文档文摘数据集较小所引起的主题结构训练准确度和稳定性问题。通过将多个文档集与目标文档集混合训练,扩大数据规模,增加词分布信息辅助训练,最后得到“训练集-主题-子主题-单词”的主题结构。实验验证了该方法能提高文摘结果的准确性和稳定度。(2)根据主题结构,提出句子的主题表示法。我们用句中单词的主题信息构建句子的主题向量,反映句子与主题的相关度。实验验证了这一表示法能准确判断混合后训练集内来自不同文档集的句子所属主题。(3)根据句子的主题表示,提出了一个多文档文摘方法。基于多文档文摘数据具有预定义话题这一特性,主题与越多句子紧密相关时,该主题越重要,同时与其相关的句子也越重要,越可能成为文摘句。实验结果显示这一多文档文摘方法可获得质量较好的文摘结果。2.提出了基于维基概念表示的多文档文摘方法,处理词义复杂性问题。概念形式与提取、句子的概念表示和句子特征计算是其主要环节,其中:(1)选择维基概念和自动维基化方法提取概念,使句子概念表示和相应文摘方法建立在较好通用性、易扩展性与长期有效性的基础上。(2)改进概念权重计算,获得句子的概念表示。通过综合概念在维基百科中的全局信息与在多文档集内的局部信息构建多文档集的概念网络,根据概念的连通性计算概念权重,得到句子的概念向量。实验观察证实了这一方法可提取到较有代表性的概念集合,达到准确表示的效果。(3)根据句子概念表示和维基百科的概念首段信息,提出一个多文档文摘方法。根据维基百科中概念的首段即为人工生成的概念文摘这一重要文摘信息,提出相应的句子特征,配合常用句子特征计算句子的重要度。实验比较证实了维基概念首段的有效性,以及基于维基概念表示的多文档文摘方法能获取较好的文摘质量。3.提出了一个基于监督的多文档文摘自动去噪器的学习方法,减少噪音。监督信息获取、特征提取和分类器训练是该方法的主要环节,其中:(1)选择以语义单位为对象,使用标准文摘提取它的类标信息。从以往对标准文摘分析的研究中,我们发现标准文摘中存在一定的原文语义单元。因此,我们根据语义单位是否在标准文摘中出现为监督信息,直观而准确的确定类标。(2)为不同频率的语义单元设计特征。实验表明有效和噪音语义单元在高、低频区都有可能存在,频率特征不足以将这两类单元区分出来。所以,我们针对高低频、同频、高低频共现语义单元分别设计相应特征。(3)使用二元分类器实现自动去噪。不同数据集的噪音分布变化较大,因此自动区分有效和噪音语义单元更符合实际的去噪环境和需求。实验表明,根据以上监督信息和特征所学习的自动去噪器,能通用于不同的文本表示和不同文摘算法,提高文摘算法的整体性能。(本文来源于《北京交通大学》期刊2013-06-01)
刘美玲,任洪娥,于洋,郑德权,赵铁军[4](2013)在《基于网络的动态多文档文摘系统框架》一文中研究指出在自然语言处理和计算语言学相关技术支撑下,研究基于网络的动态多文档文摘系统框架,重点描述动态多文档文摘系统框架的相关内容,介绍利用矩阵子空间方法进行动态演化建模,利用相似度和质心整体优选计算方法进行信息过滤,并利用动态流形排序方法进行句子加权的动态多文档文摘生成系统.按照多文档文摘生成步骤的划分,对3种创新的模型方法进行融合,综合起来从不同侧重点考虑,形成互补,提高系统性能.在网络环境下,此框架保证了动态演化的多文档文摘具有较高的信息新颖性和历史信息的演化性.(本文来源于《软件学报》期刊2013年05期)
龚书,瞿有利,田盛丰[5](2013)在《多文档文摘语义单元自动去噪器的监督学习方法》一文中研究指出多文档文摘的处理对象是存在噪音的文档集.现有文摘系统一般使用由人工设定阈值的固定阈值去噪器.但通过实验可见,不同文摘算法本身的抗噪能力各有高低,最优阈值随文档集、文摘算法、文本表示方法而改变,人工设定的固定阈值无法达到较好的通用性和去噪效果.为此,提出一种用于生成自动去噪器的监督学习方法,通过从人工文摘中自动获得标注信息,为语义单元提取多个特征,训练语义单元分类器而构成自动去噪器.可通用于不同文本表示所生成的语义单元,在不同多文档文摘系统的预处理阶段为任意文档集自动去除噪音语义单元.实验表明,该监督学习方法所生成的自动去噪器在不同文档集、文摘算法和文本表示方法下具有通用性,较好的去噪性能使各文摘算法的速度及所提取文摘的质量得到不同程度的提升.(本文来源于《计算机研究与发展》期刊2013年04期)
岳大鹏,饶岚,王挺[6](2012)在《一种针对新闻话题的多文档文摘技术》一文中研究指出多文档文摘技术能帮助用户减少不必要的阅读时间,有广阔的应用前景。该文以新闻报道为处理对象,以MMR(Maximal Marginal Relevance)文摘提取算法为基础,针对目前新闻报道往往以专题形式组织展现的特点,提出了一种基于话题的多文档文摘方法。这种方法以话题关键字为打分依据,同时考虑句子位置特征等信息对句子的重要性进行评分。该文利用TDT4的新闻报道语料对上述文摘方法进行了试验评价,将基于话题的文摘系统和两个Baseline文摘系统进行比较,取得了较好的实验结果,尤其在5%的压缩比例下有明显优势。(本文来源于《中文信息学报》期刊2012年06期)
刘美玲,郑德权,赵铁军,于洋[7](2012)在《动态多文档文摘模型》一文中研究指出从网络信息的动态演化性出发,对同一话题不同时序阶段的文档集合进行识别和分析,在度量演化内容差异性的基础上实现动态性,给出了两种实现动态多文档文摘的模型,即基于矩阵子空间分析和基于文本相似度累加的动态多文档文摘模型.在此基础上,提出了高效的动态句子加权方法.TAC 2008的Update Summarization测试数据上的实验证明了所提出的动态多文档文摘模型的有效性.(本文来源于《软件学报》期刊2012年02期)
岳大鹏[8](2011)在《基于话题的多文档文摘技术研究》一文中研究指出互联网技术的飞速发展,使得现存的文献与知识呈几何式增长。多文档文摘技术能够帮助人们从大量文本中获取重要的信息,同时能有效缩减用户阅读所花费的大量时间和工作量,因而在这个信息爆炸的时代有非常重要的应用价值。目前,新闻报道往往是以专题的形式展开,即以一个事件为引子,把一系列与之相关的或类似的事件报道组织在一起展现在读者面前。这种基于话题的文档组织方式能够清晰地交代一系列新闻事件的前因后果和来龙去脉,方便用户的查询和阅读,因而受到了大家的欢迎和广泛使用。本文研究的是针对这种基于话题的多文档集的文摘技术。和普通文档集相比,基于话题的文档集有信息重复度高,无关信息少,文档间内容联系紧密等特点。在提取文摘时,如果能充分利用这些在一般文档集上不具备的性质,就可以在基于话题的文档集上得到更优秀的文摘。本文着眼于基于话题的文档集的话题特性以对普通文摘算法做改进。改进工作主要有两点:区分对待种子事件和非种子事件、文摘句的抽取和组织上充分考虑时间属性。在实现上,本文以基于话题的新闻报道为处理对象,在MMR(maximal marginal relevance)文摘提取算法的基础和架构上提出和实现了一种基于话题的多文档文摘方法。在从文档集中提取话题的关键字时,本文考虑到种子事件和非种子事件在摘取文摘时所处的地位不同,于是分别处理两种事件。在进行句子的相似度比较时,本文考虑到新闻语料时间性强的特点,对每个句子赋予一定的时间属性,于是能够在时间的量度上计算句子间的相似度。在文摘句的排序上,本文利用句子的时间属性,并针对两种不同的文档组织结构设计了不同的排序方法。本文利用TDT4的新闻报道语料对上述文摘方法进行了实验评价,将基于话题的文摘系统和两个baseline文摘系统进行比较,取得了较好的实验结果。(本文来源于《国防科学技术大学》期刊2011-11-01)
龚书,瞿有利,田盛丰[9](2011)在《基于维基语义的多文档文摘研究》一文中研究指出多文档文摘作为自然语言处理领域的重要技术之一,能从不同角度辅助用户实现高效的信息获取.由于文档集合内的内容往往来自不同的信息源,文本之间通常存在丰富而复杂的语义关系.常用的基于词的文档表示法,难以为文摘的语义分析过程提供充足而准确的数据信息.为此,我们提出使用维基百科——当今世界最大的在线概念语料库——为多文档文摘的提取提供语义支持.一方面,我们通过提取文档中的维基概念,生成准确一致的句子表示形式.另一方面,在计算句子特征时,我们利用维基词条的首段指导机器文摘的提取.我们首先通过计算概念在维基中的全局相关性和当前文档集内的局部相关性,获取概念的权重.然后在维基概念表示的基础上,为文档中的句子提取多种基于维基的特征,并最后用于文摘生成.在实验中,我们依次用各个维基特征独立生成文摘,并使用ROUGE(Recall-Oriented Understudy for Gisting Evaluation,面向召回率的要点评估)指标评价文摘质量.通过比较,实验验证了维基词条首段能较好的提升文摘质量.(本文来源于《南京大学学报(自然科学版)》期刊2011年04期)
王萌,徐超,李春贵,何婷婷[10](2011)在《一种概念同现模型的多文档文摘研究》一文中研究指出本文提出了一种概念同现模型的多文档自动文摘方法。该方法使用HowNet进行概念获取,建立概念向量空间模型,利用词汇的吸引与排斥现象和概念同现频率建立概念同现模型,并使用概念同现模型计算各概念的权重,利用建立的概念向量空间模型计算句子权重,根据句子权重和相似度情况产生文摘。使用改进的ROUGE-N评测方法、主题词覆盖(TWC)、高频词覆盖率(HFWC)作为评测指标对系统产生的文摘进行评测,结果显示这些方法是有效的。(本文来源于《计算机工程与科学》期刊2011年07期)
多文档文摘论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
提出一种基于文本分割技术的多文档自动文摘方法。该方法使用HowNet作为概念获取工具,通过建立句子概念向量空间模型和利用改进的DotPlotting模型来进行文本分割。利用建立的句子概念向量空间模型计算句子重要度,并根据句子重要度、文本分割结果和文摘句相似度等因素产生文本摘要。使用ROUGE-N评测方法和F_Score作为评测指标对系统产生的文摘进行评测,结果显示使用文本分割技术进行多文档摘要是有效的。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
多文档文摘论文参考文献
[1].刘美玲,郑德权,王慧强,于洋.动态流形方法在多文档文摘模型上的应用[J].计算机技术与发展.2018
[2].王萌,唐新来,何婷婷.一种文本分割技术的多文档文摘方法研究[J].计算机应用与软件.2014
[3].龚书.抽取式多文档文摘的文本表示研究[D].北京交通大学.2013
[4].刘美玲,任洪娥,于洋,郑德权,赵铁军.基于网络的动态多文档文摘系统框架[J].软件学报.2013
[5].龚书,瞿有利,田盛丰.多文档文摘语义单元自动去噪器的监督学习方法[J].计算机研究与发展.2013
[6].岳大鹏,饶岚,王挺.一种针对新闻话题的多文档文摘技术[J].中文信息学报.2012
[7].刘美玲,郑德权,赵铁军,于洋.动态多文档文摘模型[J].软件学报.2012
[8].岳大鹏.基于话题的多文档文摘技术研究[D].国防科学技术大学.2011
[9].龚书,瞿有利,田盛丰.基于维基语义的多文档文摘研究[J].南京大学学报(自然科学版).2011
[10].王萌,徐超,李春贵,何婷婷.一种概念同现模型的多文档文摘研究[J].计算机工程与科学.2011