导读:本文包含了自动文摘论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:文摘,神经网络,序列,卷积,模型,谓词,摘要。
自动文摘论文文献综述
吴仁守,张宜飞,王红玲,张迎[1](2019)在《基于层次结构的生成式自动文摘》一文中研究指出基于编码器—解码器架构的序列到序列学习模型是近年来主流的生成式文摘方法。但是,传统的编码器尚不能有效地对长文档进行语义编码,并且只能学习线性链结构的信息,忽视了文档具有的层次结构。而文档的层次结构(字—句—文档)有助于自动文摘系统更加准确地判断文档内不同结构单元的语义信息和重要程度。为了使编码器能够获取文档的层次结构信息,该文根据文档的层次结构对文档进行编码:首先构建字级语义表示,然后由字级语义表示构建句级语义表示。另外,该文还提出了一种语义融合单元来对输入文档不同层次的语义信息进行融合,作为最终的文档表示提供给编码器生成摘要。实验结果表明,在加入该文提出的层次文档阅读器与语义融合单元后,系统性能在ROUGE评价指标上有显着提高。(本文来源于《中文信息学报》期刊2019年10期)
王琳,刘伍颖[2](2019)在《基于关键体词抽取的韩国语自动文摘》一文中研究指出非通用语言信息爆炸导致人们的时间更加稀缺且注意力更加发散。该文围绕韩国语文本的自动文摘问题,提出一种新的基于关键体词抽取的韩国语文摘算法。该文认为韩国语体词主要表示语义信息,而韩国语谓词更多地担负句法框架功能。实验结果表明基于关键体词抽取的文摘算法效果优于采用谓词或全词的效果,且新提出的韩国语文摘算法在韩国语文摘任务中能够达到最优性能,证明了体词主要表示语义信息的论断是有效的。(本文来源于《中文信息学报》期刊2019年06期)
万欣[3](2019)在《基于自动文摘的辅助文档撰写系统研究与实现》一文中研究指出大型文档撰写对于企业和用户来说都是极具挑战的问题。随着信息时代的到来,用户在写作中搜索素材的渠道越来越繁杂,信息的浏览、筛选、理解、整理保存也变得愈加困难。自动文摘技术是从一篇或多篇文档中提取其中心思想的技术,它能够帮助人们快速的阅读文档,提取文档中的重要信息和中心思想。在学术界,结合注意力机制的序列到序列架构模型被广泛的应用于生成式自动文摘问题,并取得了不错的成果,也有很多相关工作基于此架构做出了改进。但由于解码器端的误差在测试模型时会被不断放大,这一方法存在着错误累积的问题。本文提出采用双向解码器来对摘要进行解码,反向解码器的解码结果为前向解码器生成摘要提供了参考。通过在编码器和反向解码器端同时引用注意力机制,来生成更完善的摘要内容。同时,本文在反向解码器和前向解码器中都添加了 Pointer机制,解决了词汇表过大的问题。针对中文摘要数据集普遍规模不大的特点,本文提出不分词的技巧来大幅度提升摘要质量。实验结果表明,本文的工作能在中文数据集NLPCC 2017 TTNews和英文数据集CNN/Daily Mail上产生更高质量的摘要。本文同时实现了基于此自动文摘技术的辅助文档撰写系统,融合标签抽取、抽取式自动文摘、网页降噪等技术辅助撰写,帮助用户快速筛选阅读海量信息。系统提供了相关的文档导入、文档和素材管理、结构化标签管理以及文档模板定义功能。同时,支持多个用户共同完成一篇大型文档,阅读与摘要数据能够实时同步。系统采用Django框架和React组件式开发技术完整的集成了上述模型和功能。(本文来源于《北京邮电大学》期刊2019-05-20)
侯丽微[4](2019)在《基于序列到序列模型的中文生成式自动文摘研究》一文中研究指出随着近几年文本数据的迅速增长,人们的生活充斥着海量的文本信息,如新闻、博客、邮件以及会议报告等。从大量的文本信息中提炼出重点内容已成为解决信息过剩的迫切需求,而自动文摘为此提供了一个解决方案。自动文摘的主要目的是将原文档的主要内容浓缩成一个精简摘要,提高人类快速获取文档信息的效率。早期自动文摘领域的工作大多集中在基于统计学和图排序算法的抽取式自动文摘。近年来,随着大数据和人工智能技术的迅猛发展,传统自动文摘研究正朝着从抽取式自动文摘到生成式自动文摘的方向演化,以达到生成更高质量摘要的目的。本文的主要工作集中在基于序列到序列模型的生成式自动文摘模型的研究,目前该方面的研究仍面临着诸多挑战,例如基本序列到序列模型的常见问题(词表溢出和信息重复)、获取原文档重点信息能力欠缺以及生成摘要不合理等问题,针对这些问题本文提出了相应的解决方案,主要的研究工作如下:首先,本文采用Subword分词算法处理序列到序列模型的词表溢出问题,该方法将词分割成更细粒度的子词单元,显着减小了词表长度,缓解了词表溢出。同时,本文将已生成摘要的注意力机制嵌入序列到序列模型中以缓解信息重复问题,该机制通过回顾已生成的摘要信息来削弱当前状态蕴含的冗余信息,从而降低生成摘要内容重复的概率。在NLPCC 2017中文单文档摘要标准评测比赛中,该模型获第一名,证明了其有效性。其次,人类在撰写摘要时,往往会预先对原文档的重点信息进行归纳总结,并标记出主题词以方便后续的摘要写作。而绝大多数序列到序列的生成式自动文摘模型将注意力分配到原文档所有内容中,对其蕴含的重要主题信息并没有细致地区分,因而增大了模型对原文档中重点信息发掘难度。鉴于此,本文提出了一种新的融合主题关键词信息的注意力机制,并将其嵌入序列到序列模型中以强化原文档的主题信息,从而更好地引导摘要的生成。具体而言,我们先采用无监督方法识别文本的主题关键词,然后将主题关键词注意力机制和原文档输入序列注意力机制联合起来,辅助模型生成最终的摘要。在NLPCC 2017的中文单文档摘要评测数据集上的实验结果验证了此方法的有效性。最后,人类通常也会对初次撰写的摘要语句进行多次打磨修改,以确保摘要内容的合理与流畅。如今大部分自动文摘系统尚未考虑对已生成的摘要内容进行回顾和修改,因此最终的摘要仍存在一些不尽完善之处。为了解决此问题,本文提出基于全局最新信息的推敲网络模型,该模型包含两阶段解码器,第二阶段的解码器将结合原文档输入序列信息和更新后的摘要信息对第一阶段的解码器输出内容进行斟酌推敲,确保生成更高质量的摘要。在NLPCC 2017的中文单文档摘要评测数据集上,该模型和基本模型进行了对比实验,验证了该机制的有效性。(本文来源于《华中师范大学》期刊2019-05-01)
陈巧红,董雯,孙麒,贾宇波[5](2019)在《基于混合神经网络的单文档自动文摘模型》一文中研究指出针对现有单文档自动文摘方法获取文摘的连贯性和准确度较差的问题,提出了一种基于混合神经网络的自动文摘模型。该模型将卷积神经网络和长短期记忆网络相结合,并在长短期记忆网络的输入端增加了一个记忆细胞状态。该模型首先利用卷积神经网络对句子进行向量表示;然后将每个句子中的词向量和文档中的句向量分别输入两个长短期记忆网络,得到句子和文档的匹配程度;最后将匹配程度高的句子进行组合,获得文摘。实验发现:基于混合神经网络的单文档自动文摘模型与LSI、LDA、TextRank、PCA以及长短期记忆网络模型相比,ROUGE-2和ROUGE-3值均有0.01左右的提升,这表明提出的模型获取文摘的可读性较好,上下文关系明确,有效提升了自动文摘的质量。(本文来源于《浙江理工大学学报(自然科学版)》期刊2019年04期)
朱晓亮,吴逸尘,殷姿[6](2019)在《基于自动文摘的作文素材标签提取方法研究》一文中研究指出作文素材在小学语文作文辅助中的作用不可忽视。但当前存在的作文素材数量繁多却普遍缺乏个性化的推荐模式,极易引起小学生知识过载现象。作文素材的非结构化数据特征使得计算机对其存取操作过于复杂,进而会对数据的有效组织产生阻碍。通过对作文语料的文本自动摘要处理来去除冗余、提取文本中心内容,可以改善作文辅助中的信息过载问题以及素材语料中存在的大量冗余,对文本标签的获取产生干扰问题。在完善作文标签定义的前提下,提出一种基于文本自动摘要的小学语文作文标签提取方法。(本文来源于《计算机应用与软件》期刊2019年02期)
刘凯,王红玲[7](2019)在《基于篇章修辞结构的自动文摘连贯性研究》一文中研究指出尽管抽取式自动文摘方法是目前自动文摘领域的主流方法,并且取得了长足的进步,但抽取式自动文摘形成的摘要由于缺乏句子之间的合理指代或篇章结构,使得文摘缺乏连贯性而影响可读性。为提高自动摘要的可读性,该文尝试将篇章修辞结构信息应用于中文自动文摘。首先,基于汉语篇章修辞结构抽取摘要,然后使用基于LSTM的方法对文本连贯性进行建模,并使用该模型对文摘的连贯性做出评价。实验结果表明:在摘要抽取方面,基于篇章修辞结构的自动文摘相比于传统的抽取方法具有更好的ROUGE评价值;在使用基于LSTM连贯性模型评价摘要连贯性方面,篇章结构信息在自动抽取文摘时可以很好地提炼出文章的主旨,同时使摘要具有更好的结果。(本文来源于《中文信息学报》期刊2019年01期)
董雯[8](2018)在《基于混合神经网络的单文档自动文摘方法研究》一文中研究指出近年来随着网络的发展,互联网上出现了大规模的数据集、电子文档,人们也越来越依赖于从互联网上获取信息,因此自动文摘的作用领域得到了很大的扩展,文摘的使用也越来越广泛。传统的摘要都是经过人工对目标文本的理解概括形成的,需要耗费大量的时间和精力,且工作量大,已不能满足信息时代的要求。针对这一问题,自动文摘随之产生。近年来,采用深度学习方法应用到自动文摘中已经逐渐成为新的研究热点。如何迅速有效地从海量信息文献库中获取实用的信息成为人们急需解决的难题,而自动文摘正是解决这一难题的有力工具之一。为了解决文本内容表示和文摘内容选取的问题,提出了一种基于混合神经网络模型的自动文摘方法。针对自动文摘过程中句子抽取这一部分,提出一种基于改进的循环神经网络自动文摘方法,从而提升模型在自动文摘句子抽取中的性能。本文的研究工作主要包括以下四个方面:(1)针对文本预处理技术提升空间有限,而文本内容表示和文摘内容选取的改进空间较大,本文提出一种基于混合神经网络模型的自动文摘方法,该方法将在训练过程中高效且不易过拟合的卷积神经网络和在序列预测上有不错效果的长短期记忆网络模型相结合,其中卷积神经网络部分用于表示句子向量,长短期记忆网络部分用于抽取摘要句子。(2)针对自动文摘过程中句子抽取这一部分,本文采用一种基于改进的循环神经网络模型,该模型用LSTM记忆单元结构替换了原来循环神经网络中的隐藏层。实验结果表明,本文模型最终得到的ROUGE-2值和ROUGE-3值比基于LSTM改进的循环神经网络高0.024和0.0155。(3)本文比较了LDA模型、LSI模型、决策树、逻辑回归、神经网络、卷积神经网络以及基于LSTM改进的循环神经网络这6种模型在自动文摘生成上的表现,实验结果表明,基于混合神经网络的单文档自动文摘方法在自动文摘获取上效果最好。(4)本文设计并实现了一个基于混合神经网络的单文档自动文摘系统,该系统分为叁部分,第一部分是对文本数据进行分词处理;第二部分是对分词后的结果进行词转向量;第叁部分是调用本文的自动文摘算法,计算后得到文本摘要。(本文来源于《浙江理工大学》期刊2018-12-14)
胡迁,黄青松,刘利军,冯旭鹏[9](2018)在《基于自动文摘的答案生成方法研究》一文中研究指出在自动问答系统中,用户提出的问题具有句式复杂和语义多变的特点。而自动问答知识库中资源有限,因此问句和答案句的语义表示和问句答案间的语义匹配是答案生成的关键~([1])。针对以上问题,提出一种基于自动文摘的答案生成方法。将答案生成转换为特征匹配和自动摘要问题,即计算问句间的相似度并以相似问题的答案构建原始答案集。利用循环神经网络构建序列到序列学习模型实现原始答案集的自动摘要,得到简洁准确答案。(本文来源于《计算机应用与软件》期刊2018年12期)
张洪荣[10](2018)在《中文自动文摘关键技术研究与实现》一文中研究指出互联网的迅速发展伴随着每天产生大量的文本数据,文摘是文本的主要内容,自动文摘能够给用户提供一种快速了解原文内容的方式。同时,自动文摘研究有着广泛且重要的应用场景,如Web搜索引擎摘要、问答系统的知识融合以及舆情监督系统的热点和专题追踪等,因此,自动文摘的研究定会推动整个自然语言处理的发展。本文主要研究了中文抽取式和生成式自动文摘方法。对于抽取式自动文摘,调研到并实现了五类常用方法:基于规则和统计的方法、基于图模型方法、整数线性规划、词向量包方法以及机器学习方法。而且本文的重点是,在基于图模型的方法中,完成了多种方法来改进句子相似度计算,相比传统图模型方法取得了明显的效果提升;在机器学习方法中,融合了词性特征、依存句法特征、命名实体特征、词向量和统计特征等,构成了115维丰富且具有代表性的特征向量空间。本文将文摘任务作为回归问题,避免了将文摘作为二分类问题出现的样本类别偏斜以及不能做变长文摘的弊端,并且创新提出了回归值label的计算方法。对于生成式自动文摘,本文使用序列到序列(Seq2Seq)的深度学习模型来解决,解码器是根据编码器对源语言的抽象表示预测目标词序列的,正是这种抽象表示为生成式自动文摘提供了可能。本文虽然实现了基于深度学习模型的生成式自动文摘,但仍有很多弊端,如生成重复词等问题。为了方便展示,本文最后实现了一个Django系统来调用实验接口并呈现各方法的文摘结果。(本文来源于《哈尔滨工业大学》期刊2018-06-01)
自动文摘论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
非通用语言信息爆炸导致人们的时间更加稀缺且注意力更加发散。该文围绕韩国语文本的自动文摘问题,提出一种新的基于关键体词抽取的韩国语文摘算法。该文认为韩国语体词主要表示语义信息,而韩国语谓词更多地担负句法框架功能。实验结果表明基于关键体词抽取的文摘算法效果优于采用谓词或全词的效果,且新提出的韩国语文摘算法在韩国语文摘任务中能够达到最优性能,证明了体词主要表示语义信息的论断是有效的。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
自动文摘论文参考文献
[1].吴仁守,张宜飞,王红玲,张迎.基于层次结构的生成式自动文摘[J].中文信息学报.2019
[2].王琳,刘伍颖.基于关键体词抽取的韩国语自动文摘[J].中文信息学报.2019
[3].万欣.基于自动文摘的辅助文档撰写系统研究与实现[D].北京邮电大学.2019
[4].侯丽微.基于序列到序列模型的中文生成式自动文摘研究[D].华中师范大学.2019
[5].陈巧红,董雯,孙麒,贾宇波.基于混合神经网络的单文档自动文摘模型[J].浙江理工大学学报(自然科学版).2019
[6].朱晓亮,吴逸尘,殷姿.基于自动文摘的作文素材标签提取方法研究[J].计算机应用与软件.2019
[7].刘凯,王红玲.基于篇章修辞结构的自动文摘连贯性研究[J].中文信息学报.2019
[8].董雯.基于混合神经网络的单文档自动文摘方法研究[D].浙江理工大学.2018
[9].胡迁,黄青松,刘利军,冯旭鹏.基于自动文摘的答案生成方法研究[J].计算机应用与软件.2018
[10].张洪荣.中文自动文摘关键技术研究与实现[D].哈尔滨工业大学.2018