超文本表示方法论文-聂维,刘小豫

超文本表示方法论文-聂维,刘小豫

导读:本文包含了超文本表示方法论文开题报告文献综述及选题提纲参考文献,主要关键词:深度学习,文本表示,方法

超文本表示方法论文文献综述

聂维,刘小豫[1](2019)在《深度学习视域下的文本表示方法研究》一文中研究指出文本表示不仅是自然语言处理的基础工作,还是信息检索、文本分类、问答系统的关键。就传统文本而言,主要采取计数表示形式,此方法设定词和词之间是相互独立的,直接忽视了文本语义信息,而且在选择特征时,引进了一些人为影响因素,从而获取了高纬度与高稀疏文本特征,无法充分表示文本。这就需要进一步创新设计文本表示方法,据此,该文主要对深度学习视域下的文本表示方法进行了详细分析。(本文来源于《科技资讯》期刊2019年18期)

许奥狄[2](2019)在《信息检索中基于深度学习的文本表示与分类方法研究》一文中研究指出文本表示与分类是支撑高质量信息检索的前提;高稀疏、高维度文本特征和检索准确率低是当前信息检索任务中文本表示与分类方法面临的主要问题。为了准确、高效地检索出目标信息,构建性能优异的文本表示与分类方法已成为信息检索领域的研究热点之一。本文针对多分类、多标签文本表示与分类方法展开了深入研究,主要工作如下:(1)针对传统基于BOW的多分类文本表示与分类方法存在高稀疏、高维度的固有缺点,提出一种融合深度信念网络(Deep Belief Network,DBN)与文本卷积神经网络(Text Convolutional Neural Network,TextCNN)的深度信念卷积神经网络模型(Deep Belief Convolutional Neural Network,DBCNN)。DBCNN模型首先通过DBN预训练,在保留文本有效信息的前提下,对文本特征进行降维;进一步,通过TextCNN对降维的文本特征进行卷积和池化处理,以提取低维度、稠密的文本高层特征向量表示。实验结果表明,DBCNN模型的多分类文本表示与分类性能优于传统方法,准确率平均提高了6.18%;关键词词向量嵌入相比普通词向量嵌入,能有效提高模型的性能;DBN结构中的每层节点数越接近输入词汇的个数,DBCNN模型的性能越好;引入L2正则化和滑动平均模型能有效提高DBCNN模型的分类准确率。(2)针对传统多标签文本表示与分类方法存在检索?准确率低、汉明损失高的问题,提出一种融合双向长短时记忆网络(Bi-Long Short-Term Memory,Bi-LSTM)与文本卷积神经网络的双向长短时卷积神经网络模型(Bi-Long Short Time Convolutional Neural Network,Bi-LSTCNN)。该模型首先通过Bi-LSTM网络提取文本的上下文特征向量,并将其和模型输入进行拼接,得到信息更加丰富的文本融合特征向量;再利用TextCNN提取局部特征的能力对文本融合特征向量进行降维,获取文本高层特征向量表示。实验结果表明,Bi-LSTCNN模型的多标签文本表示与分类性能优于传统方法,准确率平均提高了9.4%、汉明损失平均减少了0.374;引入L2正则化和滑动平均模型能有效提高Bi-LSTCNN模型的分类准确率。(3)针对多标签文本表示与分类方法的输出空间随着文本标签集合增大而指数增长、导致难以获得准确标签集合的缺点,本文在Bi-LSTCNN模型基础上引入层次化标签树的多标签分类策略,以提高Bi-LSTCNN模型的性能。实验结果表明,引入层次化标签树的Bi-LSTCNN模型在处理多标签文本表示与分类任务时相比于未引入层次化标签树的Bi-LSTCNN模型,其召回率、准确率、F1值分别提高了2.2%、2.9%、2.5%;汉明损失降低了0.187。(本文来源于《重庆邮电大学》期刊2019-05-20)

李枫林,柯佳[3](2019)在《基于深度学习的文本表示方法》一文中研究指出【目的/意义】文本表示是自然语言处理的基础工作,是信息检索、文本分类、问答系统的关键问题。【方法/过程】论文介绍了传统的文本表示方法,按照文本不同的粒度,回顾了近五年国内外基于神经网络模型的词表示、句子表示、篇章(段落)表示的方法,并提出了未来的研究方向。【结果/结论】实验发现,通过在神经网络模型中融入更多的特征能得到更优的词向量,但词向量还缺乏统一的评价标准,句子向量表示通常根据具体NLP任务建模,不同结构的模型在特征表示、运算速度上各有优劣势,篇章表示通常使用层次组合模型。(本文来源于《情报科学》期刊2019年01期)

耿巧曼,徐小力,吴国新,夏欣雨[4](2018)在《一种改进空间向量模型的东巴文本表示方法》一文中研究指出东巴文本的模型表示是实现东巴文本自动分类的基础。通过分析常用文本表示模型,选择空间向量模型用于东巴文本的表示;通过引入词性因子改进传统的TF-IDF权重计算函数。实验表明,改进后的TF-IDF权重计算函数有助于增强空间向量模型对东巴文本的表示能力,在一定程度上改善了文本分类效果。(本文来源于《北京信息科技大学学报(自然科学版)》期刊2018年03期)

李一鸣[5](2018)在《结合知识和神经网络的文本表示方法的研究》一文中研究指出文本表示是很多自然语言处理应用的关键任务,比如文本分类,文本聚类,推荐系统以及情感分析等等。它的目标是将非结构化文本映射到低维的向量空间中去,以便可以用数学的方法对文本进行计算。而不同的文本表示可以捕捉和解析隐藏在文本中的不同方面的隐性内容。因此如何学习较好的文本表示用以更好地解决自然语言处理问题已经引起了学术界和工业界大量的兴趣。大多数现有的方法通用利用神经网络模型来生成文本的表示。然而这些方法都没有考虑过文本领域的数据的一些独特的属性。与其他领域不同,文本本身在语义上通常是模糊的,并且反应的信息通常是不充分的。除此之外,文本数据本身是具有层次性结构的。在语义上,较长的表达式(例如文档)的含义来自于其成分的含义和用于组合它们的规则;在结构上,文档是由一系列句子组成,而每个句子都由一系列词组成。出于这些原因,研究如何将外部知识和文本的层次性结构引入神经网络模型用以生成更加信息充分的文本表示是很值得研究的。具体来说,本文的主要工作可以总结为如下几个方面:(1)本文研究了将概率形知识库和基于神经网络的分布式文本表示进行结合的模型框架。该框架能够对文本进行概念化并且生成概念层面的分布式文本表示。通过外部的概率形知识库,该框架可以识别文本中的实体,并且通过上下文对实体进行消歧得到其准确的概念,从而将原始的由词构成的文本概念化为一组由概念构成的文本。在这之后该框架通过分布式文本表示算法来得到文本的低维的向量形式的表示。(2)本文提出了一种新型的知识驱动的层次神经网络模型。这个模型将多元关系知识图谱融入到神经网络中并且通过使用层次结构的模型来对应文本的层次结构。在外部知识上,该模型使用多元关系知图谱来生成知识图谱实体向量作为对原始文本的背景知识的补充;在模型结构上该模型使用两个双向门控循环单元(Gated Recurrent Unit)编码器生成句子层面的表示,之后再通过两个长短期记忆网络(Long Short-Term Memory)编码器生成文档层面的表示。这种层次化的模型结构正好对应了文本的层次化结构特点。(3)本文提出了一种结合attention机制和外部知识图谱的层次神经网络模型。这个模型除了融入了多元关系知识图和层次性网络结构之外还将attention机制添加到了模型中,可以看作是上一个模型的一种改进和扩展。在生成句子表示部分,该模型通过引入外部知识图谱实体向量,来作为对原始文本外部信息的补充。在生成文档表示部分,首先通过双向长短期记忆网络(Long Short-Term Memory)编码器对句子进行编码,再通过句子层面的attention机制对能帮助文档进行更好表示的句子进行反馈。最后将双向LSTM每个单元的输出根据attention权重进行加权求和得到原始文档的向量形式表示。(本文来源于《浙江大学》期刊2018-06-01)

魏伟[6](2018)在《基于条件共现度的文本表示与特征抽取方法研究》一文中研究指出文本数据是信息的主要载体,是重要信息和知识的来源。面对海量的文本数据,如何快速有效地获取人们需要的信息和知识是当前亟待解决的问题。文本表示和特征抽取是整个文本挖掘流程中重要的基础性工作,能够为后续的文本挖掘任务的顺利实施提供良好的数据处理方法和技术支持。然而随着数据科学的发展,对文本挖掘技术有了更高的要求,尤其在文本语义挖掘层面。通过分析现有方法的优缺点,本研究结合文本语义建模分别对文本表示方法和特征抽取方法进行了研究,并将其应用于政策文本数据挖掘领域,其中分别从特征词排序和主题发现两个不同方面研究特征抽取方法。本文的主要研究工作如下:(1)为了得到直观、涵盖信息量全并且易于理解的文本表示结果,在词共现方法的基础上提出了基于条件共现度矩阵的文本表示方法。通过结合语言学中语义场理论,考虑文本语言组织时的语义结构大小,以及同一语义结构内两个词的语义相关和条件依赖关系,计算文本内任意两个词间的条件共现度,并基于形成的条件共现度矩阵进行文本表示。该表示方法不仅保留了单个词的统计信息,还对两个词的共现信息进行区分度量,用以突显文本重点表达的语义信息,对现有的词共现表示方法是一种有效地提升。最后通过在多个公共数据集上与多种文本表示方法的对比实验,验证了方法的有效性。(2)为了结合文本统计信息和结构信息对特征词重要性排序,提出了基于条件共现度词网络的特征词排序方法。文本中的词语会按照一定的组织结构进行编排以传递特定的语义主题信息,所以一篇自然语言文本中的词语之间会形成一种潜在的流形结构。通过构造原始文本中潜在的能够反映文本语义和结构信息的条件共现度词网络作为特征词间的流形结构,并以特征词的词频统计信息作为特征词初始权重,结合流形排序思想以及图学习理论进行特征词间的相似性学习,来对特征词的重要性进行排序。在公共语料和补充语料上的数值实验都验证了方法的有效性,该方法拓宽了图学习理论在文本挖掘领域的应用,也给单篇文本特征词排序提供了新的方法和策略。(3)为了解决传统主题模型中存在的语义部分丢失、主题概念模糊及主题语义交叉和覆盖等问题,提出了基于条件共现度的文本主题发现方法。首先结合文档中的语义结构及其独立性判定规则把文档拆分成多个描述单一主题的子文档;其次,根据子文档内特征词间的条件共现度大小,提取子文档内语义关联性强的组合特征词,并基于组合特征词对子文档进行特征词扩充与内容重构,形成新子文档;然后,通过对新子文档集的主题建模,得到新子文档集的“主题-词”分布以及每个新子文档的“文档-主题”分布:最后,结合新子文档的“文档-主题”分布,合并得到原始文档的“文档-主题”分布。实验结果验证了该方法能够提升主题发现效率,生成的组合特征词能够有效避免一词多义问题,并且能辅助主题语义归纳和总结。(4)将上述方法应用于政策文本内容特征抽取及社会变迁研究中。以1954年到2018年间的国务院政府工作报告作为政策文本语料,首先,根据不同的应用需求,提出相应的特征词选择方法,并对政策文本中的共性问题、关键内容、热点话题以及新涌现的内容进行了识别和抽取,从新涌现内容的角度研究了整体社会活力变化情况;其次,提出了一种时序文档聚类方法,并根据政策文本内容对政策所属的整个时间段划分,得到了与已有研究相同的划分结果;然后,结合复杂网络理论和时间段划分结果,挖掘出政策语料中特有的特征词序列模式;最后,对政策文本进行主题发现,并结合时间因素研究整个时间段内主题演化规律。基于条件共现度的文本挖掘方法,通过融合文本的统计信息、语义信息以及结构信息,使得文本表示方法、特征词排序方法以及主题发现方法具备有效分析和处理复杂文本数据的能力,并有效提升文本挖掘质量,为文本挖掘的发展提供新的技术和工具。从政策文本中提取共性问题、关键内容、热点话题、新词内容,并依据文本内容探究并发现社会活力变化、时间阶段分割、特征词时间序列模式、主题演化等社会变迁规律,挖掘结果可以提高政策制定者、政策研究者的知识获取效率,为其提供相应的决策支持。(本文来源于《大连理工大学》期刊2018-06-01)

魏超[7](2017)在《局部光滑保持流形正则化自编码文本表示方法研究》一文中研究指出随着信息技术的发展,形成了海量的非结构化文本数据,文本挖掘的重要性日益凸显。文本表示是将文本中大量非结构化或半结构化的字符信息转换为简洁统一的结构化形式,广泛应用于文本分类、聚类、检索等领域,是文本挖掘中关键且重要的环节。文本数据的高维、稀疏和词义相关等特性影响了文本表示理论与技术的研究发展,已有方法大多假定文本词语的分布是全局欧式词袋空间,即任意词语间相互独立,忽略了词义间的相关性,因而未能充分利用文本的语义特征。实际上,如果能够提取更为丰富的文本语义信息,特别是利用近邻文本的局部欧式特性,保持近邻文本低维流形空间的特征光滑性,可以更有效地提升文本表示的效果。论文基于流形学习理论,以保持文本表示向量的局部光滑性为突破点研究低维稠密向量的文本表示方法。首先,结合词语分布式语义特征提出基于词嵌入的文本相似性度量方法,并以此为基础构建文本近邻图用于局部近邻文本判定,再利用局部近邻文本话题加权嵌入自编码网络构建参数化文本话题编码函数(文本话题建模),融合局部近邻文本话题概率生成结构建立文本仿射映射函数(文本嵌入表示)。论文的主要成果和创新点包括:1.提出了一种结合文本集词聚合、词组合分布式语义特征的文本相似性度量方法,该方法充分利用了词语间语义联系,提升了低共现词汇文本的相似性度量准确性。针对文本相似性度量割裂词义联系,使得低共现词汇文本相似性度量效果不理想的问题,提出了一种结合词聚合、词组合分布式语义特征的文本相似性度量方法。该方法首先联合文本集中词聚合、词组合分布式语义特征进行自编码填词预测,通过自编码的训练过程建立词嵌入编码网络;然后采用词嵌入的最大加权匹配距离计算文本相似性。基于维基百科、20 newsgroups和RCV1语料库分别对词嵌入和文本相似性进行实验。在词嵌入实验中,词类比的正确率达到73.95%,词义辨析的斯皮尔曼等级相关性达到74.12,结果表明,联合词聚合与词组合分布式语义特征构建词嵌入编码网络能表达更丰富的分布式语义信息。在文本相似性实验中,利用词嵌入最大加权匹配距离的文本聚类NMI达到63.1%,利用词嵌入最大加权匹配距离的文本分类?达到71.59%,结果表明,利用词嵌入编码网络所构建的词嵌入向量计算词嵌入最大加权匹配距离,可有效利用词语间语义联系,进一步提升文本相似性度量的准确性。2.提出了一种局部近邻文本话题加权嵌入自编码网络的文本话题建模方法,该方法可建立参数化的文本话题编码网络进行样本外话题建模,并通过利用局部近邻文本话题几何结构的光滑性,进一步提高了文本分类、聚类等应用的效果。针对流形文本话题建模方法无法提供一个参数化话题编码函数进行样本外话题建模和现有样本外扩展的流形学习方法没有利用局部近邻文本话题几何结构的光滑性的问题,提出了一种局部加权嵌入正则化自编码文本话题建模方法(LWE-TM)。该方法利用低秩近似随机游走结构的条件访问概率计算局部近邻文本的加权系数,并将局部近邻文本话题加权嵌入自编码网络,进而保持局部近邻文本话题几何结构光滑性,建立参数化的文本话题编码网络。基于20 newsgroups和RCV1两种文本集的样本外话题编码进行了文本建模、聚类和分类实验。在文本建模实验中,困惑度分别达到679和1800;在文本聚类试验中,LWE-TM的NMI效果提升至接近74%,在文本分类实验中,LWE-TM的达到86.59%,结果表明,LWE-TM利用建立的参数化文本话题编码网络可有效地进行样本外话题建模,拓展用于文本分类、聚类问题;通过保持局部近邻文本话题几何结构的光滑性,增强了文本话题编码的光滑性,提升样本外话题建模的准确性。3.提出了一种融合局部近邻文本话题概率生成结构的自编码网络文本嵌入表示方法,该方法通过保持局部近邻文本话题概率生成结构的光滑性,进一步提高了文本分类、聚类等应用的效果。针对现有文本嵌入表示方法无法有效保持局部近邻文本话题概率生成结构光滑性的问题,提出了一种融合局部近邻文本话题概率生成结构的文本嵌入表示方法(Disc-LDE)。该方法首先基于文本相似性度量构建文本近邻图;然后通过执行近邻图直推式多代理随机游走,构建了具有高重迭比例的子空间;最后利用子空间近邻文本的LDA模型生成伪文本,将其作为流形正则项与真实文本一起进行自编码网络的优化重构,构建光滑的仿射映射函数,执行样本外文本嵌入。基于20 newsgroups、RCV1和Amazon reviews叁个文本集对样本外文本嵌入表示进行了聚类和分类实验。Disc-LDE的聚类NMI效果提升到近71%,分类?效果提升达到83.91%,结果表明,具有较高重迭比例的子空间可以有效保持局部近邻文本话题概率生成结构的光滑性,从而构建光滑的仿射映射,进一步提高了文本分类、聚类等应用的效果。(本文来源于《北京理工大学》期刊2017-09-01)

陈功[8](2017)在《基于社交属性的web文本表示方法研究》一文中研究指出随着互联网用户数量的增长和社交媒体平台的高速发展,互联网上的web页面也出现了爆发式增长的情况。人们通过智能终端在社交平台上交流娱乐的同时,也产生了大量的文本数据,如何有效的组织和处理这些海量的文本信息,并从这些web文本数据中挖掘出隐含的、先前未知的有价值信息,是一个亟待解决的问题。在文本分析领域,文本表示占有很重要的地位,它是将现实世界中的文本转化成由机器可处理的特征表示。大多数传统的文本表示方法都是从文档内容的角度去考虑,它们的特征项都可以直接从文档内容中提取出来。因此这些方法也都忽略了文本与外界的交互行为关系以及文本之间的关联关系,从而不能更加全面的获取文本的特征信息。随着社交网络中社交行为数据大量的产生,有研究者提出了使用社交信息进行文本建模的方法,并在信息检索领域获得很好的效果。社交信息被引入到文本表示模型中,结合内容特征共同表示文本,不仅考虑了文本与用户的交互行为关系,还通过引入丰富的特征信息有效的缓解了特征数据稀疏度高的问题。针对传统的一些文本表示模型存在的问题,本文通过分析传统的内容特征,基于我们获取的社交特征,提出了以下解决方法:(1)通过结合从内容中提取的内容特征、主题特征和浅层社交特征(用户浏览行为),提出一种多层次的文本表示方法。该方法综合考虑了文本的内部环境和外部环境,并引入结合社交特征的文本相似度计算方法,使得内容特征、主题特征和浅层社交特征相互影响,通过文本聚类算法来评估文本表示方法的性能。我们使用Aminer数据集进行实验,基于论文中的引用关系,建立了论文与作者之间的联系,并提取数据中的社交特征和内容特征。我们的方法考虑到了文本与外界的交互行为关系以及文本之间的关联关系,并且通过大量的实验验证了加入浅层社交特征的文本表示模型对于聚类效果提升作用,同时,我们还发现浅层社交特征具有较强的判别能力。(2)通过分析web文本的多种社交行为信息(转发,评论,收藏,标签),提取web文本的深层社交特征(社交组合特征和标签特征),并结合web文本的主题特征信息共同来表示文本。多种类型的文本特征结合在一定程度上弥补特征矩阵稀疏的问题,同时利用web文本的浏览行为特征强化了社交特征的可靠性。在微博数据集上的实验结果表明,多种社交行为特征对于文本表示的准确度有很大的提升,也提高了文本聚类的效果。(本文来源于《贵州大学》期刊2017-06-01)

幸凯[9](2017)在《基于卷积神经网络的文本表示建模方法研究》一文中研究指出在机器学习中,数据表示是决定后续任务性能的关键所在。文本是数据的一大类,文本表示是许多自然语言处理任务的基础工作,建立文本表示模型的目的是分析和表示文本的语义信息,得以在文本分类、机器翻译、自动问答等自然语言处理任务上取得更好的效果。在传统的文本表示方法中,例如词袋子模型,具有数据稀疏和容易产生维度灾难等问题,模型的泛化能力较差。近年来,随着机器学习的发展,各种神经网络建立的文本表示模型开始出现。基于神经网络的文本表示模型是将多种层次结构的文本,通过神经网络的学习映射得到低维连续的向量,所有向量都在同一个低维向量空间中,提高了模型的表示能力。同时卷积神经网络在各种神经网络中具有较好的特征选取能力。然而,现有神经网络文本表示模型存在着一些问题。首先,对于不同文本中相同的词,在神经网络中使用相同的单一的向量,在特征提取时势必对一词多义、同形异义等情况不能够做出较好的区分,得到的特征不能较好地完成分类任务。然后,对于通常的神经网络模型文本表示模型,无法有效地捕获不同文本单元和可变长度的组合序列的语义和结构信息,对文档级别的文本进行处理时模型性能会大大的降低。根据上述存在的问题,本文分别从句子和文档两个层次,对比了多种神经网络文本表示方法,根据现有文本表示方法的不足,提出了改进后的表示模型。以下是本文所做出的主要工作:第一,提出了基于主题词向量的卷积神经网络句子文本表示模型。在该模型中,针对神经网络输入层的词向量矩阵,利用了相同的词在不同的文本中的语义信息应该有所差异的特性,为句子文本中的每个词语分配所在文本对应的主题信息,得到了每个词的主题词向量。同时为了不把不相关的主题信息引入到神经网络中,在中间层加入了主题转移矩阵过滤无用的主题信息,主题转移矩阵是根据词与主题的相似度和概率分布计算得到。通过主题转移矩阵将主题词向量融入神经网络模型中,使模型可以消除词在不同文本中的歧义。实验证明了得到的文本表示在句子级别的情感分类任务上有更好的表现。第二,提出基于长距离关联的卷积神经网络文档文本表示模型。针对了通常的神经网络模型文本表示无法捕捉文档文本中长距离的语义关系的问题,将整个文档文本的词所对应的主题词向量序列通过长短时记忆网络LSTM层进行处理,得到了包含长距离的语义关系和结构信息的隐藏状态序列,最后通过卷积神经网络提取文本特征,得到文本表示。其中根据是否考虑文档中句子间的语义交互分别给出了文档语义记忆文本表示模型、句子-文档语义记忆文本表示模型两种模型。实验证明了给出的文本表示在文档级别的情感分类任务上有更好的表现。(本文来源于《华中师范大学》期刊2017-05-01)

曾谁飞,张笑燕,杜晓峰,陆天波[10](2017)在《基于神经网络的文本表示模型新方法》一文中研究指出提出了一种改进的文本表示模型提取文本特征词向量方法。首先构建基于词典索引和所对应的词性索引的double word-embedding列表的word-embedding词向量,其次,利用在此基础上Bi-LSTM循环神经网络对生成后的词向量进一步进行特征提取,最后,通过mean-pooling层处理句子向量后且使用了softmax层进行文本分类。实验验证了Bi-LSTM和double word-embedding神经网络相结合的模型训练效果与提取情况。实验结果表明,该模型不但能较好地处理高质量的文本特征向量提取和表达序列,而且比LSTM、LSTM+context window和Bi-LSTM这3种神经网络有较明显的表达效果。(本文来源于《通信学报》期刊2017年04期)

超文本表示方法论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

文本表示与分类是支撑高质量信息检索的前提;高稀疏、高维度文本特征和检索准确率低是当前信息检索任务中文本表示与分类方法面临的主要问题。为了准确、高效地检索出目标信息,构建性能优异的文本表示与分类方法已成为信息检索领域的研究热点之一。本文针对多分类、多标签文本表示与分类方法展开了深入研究,主要工作如下:(1)针对传统基于BOW的多分类文本表示与分类方法存在高稀疏、高维度的固有缺点,提出一种融合深度信念网络(Deep Belief Network,DBN)与文本卷积神经网络(Text Convolutional Neural Network,TextCNN)的深度信念卷积神经网络模型(Deep Belief Convolutional Neural Network,DBCNN)。DBCNN模型首先通过DBN预训练,在保留文本有效信息的前提下,对文本特征进行降维;进一步,通过TextCNN对降维的文本特征进行卷积和池化处理,以提取低维度、稠密的文本高层特征向量表示。实验结果表明,DBCNN模型的多分类文本表示与分类性能优于传统方法,准确率平均提高了6.18%;关键词词向量嵌入相比普通词向量嵌入,能有效提高模型的性能;DBN结构中的每层节点数越接近输入词汇的个数,DBCNN模型的性能越好;引入L2正则化和滑动平均模型能有效提高DBCNN模型的分类准确率。(2)针对传统多标签文本表示与分类方法存在检索?准确率低、汉明损失高的问题,提出一种融合双向长短时记忆网络(Bi-Long Short-Term Memory,Bi-LSTM)与文本卷积神经网络的双向长短时卷积神经网络模型(Bi-Long Short Time Convolutional Neural Network,Bi-LSTCNN)。该模型首先通过Bi-LSTM网络提取文本的上下文特征向量,并将其和模型输入进行拼接,得到信息更加丰富的文本融合特征向量;再利用TextCNN提取局部特征的能力对文本融合特征向量进行降维,获取文本高层特征向量表示。实验结果表明,Bi-LSTCNN模型的多标签文本表示与分类性能优于传统方法,准确率平均提高了9.4%、汉明损失平均减少了0.374;引入L2正则化和滑动平均模型能有效提高Bi-LSTCNN模型的分类准确率。(3)针对多标签文本表示与分类方法的输出空间随着文本标签集合增大而指数增长、导致难以获得准确标签集合的缺点,本文在Bi-LSTCNN模型基础上引入层次化标签树的多标签分类策略,以提高Bi-LSTCNN模型的性能。实验结果表明,引入层次化标签树的Bi-LSTCNN模型在处理多标签文本表示与分类任务时相比于未引入层次化标签树的Bi-LSTCNN模型,其召回率、准确率、F1值分别提高了2.2%、2.9%、2.5%;汉明损失降低了0.187。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

超文本表示方法论文参考文献

[1].聂维,刘小豫.深度学习视域下的文本表示方法研究[J].科技资讯.2019

[2].许奥狄.信息检索中基于深度学习的文本表示与分类方法研究[D].重庆邮电大学.2019

[3].李枫林,柯佳.基于深度学习的文本表示方法[J].情报科学.2019

[4].耿巧曼,徐小力,吴国新,夏欣雨.一种改进空间向量模型的东巴文本表示方法[J].北京信息科技大学学报(自然科学版).2018

[5].李一鸣.结合知识和神经网络的文本表示方法的研究[D].浙江大学.2018

[6].魏伟.基于条件共现度的文本表示与特征抽取方法研究[D].大连理工大学.2018

[7].魏超.局部光滑保持流形正则化自编码文本表示方法研究[D].北京理工大学.2017

[8].陈功.基于社交属性的web文本表示方法研究[D].贵州大学.2017

[9].幸凯.基于卷积神经网络的文本表示建模方法研究[D].华中师范大学.2017

[10].曾谁飞,张笑燕,杜晓峰,陆天波.基于神经网络的文本表示模型新方法[J].通信学报.2017

标签:;  ;  ;  

超文本表示方法论文-聂维,刘小豫
下载Doc文档

猜你喜欢