文本倾向性分类论文_廖小琴,徐杨

导读:本文包含了文本倾向性分类论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:倾向性,文本,褒贬,特征,神经网络,情感,卷积。

文本倾向性分类论文文献综述

廖小琴,徐杨[1](2019)在《面向BSP-CNN的短文本情感倾向性分类研究》一文中研究指出针对消费短文本评论中的情感倾向性分类问题,提出了一种BSP-CNN混合神经网络模型。模型先使用双向简单循环单元(BiSRU)对数据进行特征表示,再使用逐点卷积神经网络(P-CNN)进一步学习语义特征,并输出情感倾向性分类结果。实验结果表明,与传统的长短期记忆神经网络(LSTM)和卷积神经网络(CNN)相比,BSPCNN混合神经网络模型有效简化了计算,缩短了运行时间,并且在不同大小和不同文本长度的数据集上均能取得更高的F1值。(本文来源于《计算机工程与应用》期刊2019年23期)

王文琦,汪润,王丽娜,唐奔宵[2](2019)在《面向中文文本倾向性分类的对抗样本生成方法》一文中研究指出研究表明,在深度神经网络(DNN)的输入中添加小的扰动信息,能够使得DNN出现误判,这种攻击被称为对抗样本攻击.而对抗样本攻击也存在于基于DNN的中文文本的情感倾向性检测中,因此提出了一种面向中文文本的对抗样本生成方法 WordHanding.该方法设计了新的词语重要性计算算法,并用同音词替换以生成对抗样本,用于在黑盒情况下实施对抗样本攻击.采用真实的数据集(京东购物评论和携程酒店评论),在长短记忆网络(LSTM)和卷积神经网络(CNN)这两种DNN模型上验证该方法的有效性.实验结果表明,生成的对抗样本能够很好地误导中文文本的倾向性检测系统.(本文来源于《软件学报》期刊2019年08期)

杨新元[3](2017)在《基于神经网络的文本倾向性分类研究》一文中研究指出互联网是随着时代发展产生的新型信息交流工具,如今已经进入了我们学习生活中的方方面面。与此同时网络上可交流的平台越来越多,在这些平台中各种各样的评论性文本也呈爆发式增长,对这些文本进行倾向分类,挖掘文本中潜在的价值具有十分重要的意义。各种平台的评论性文本包含着对时事、物品的正负评论等,对此类文本进行倾向性分类主要是以情感、舆论导向为主线进行分类。如今,这项工作越来越被关注同时吸引了大批学者。关于对文本进行倾向性分类主要有两类方法,一是借助于词典、语料库的方法。此方法在文本分类方面具有良好的效果,但是此方法过多依赖词典等外部元素,分类结果的好坏与词典等外部元素有直接关系,同时计算量较大。第二种方法是机器学习方法,该方法结合特征抽取技术,对文本用特殊的方式进行表示进而使用机器学习方法分类。不同的机器学习方法分类效果不同,且容易受到文本好坏的影响。本文以论坛评论性文本和电子商务网站评论性文本为载体,对文本进行倾向性分类。结合不同文本的特点,本文中人工采集了一组含噪声较多的论坛数据同时在网站采集了一组规范的电商评论数据。评论性文本结构复杂、语言风格多样,针对此类现象,首先对文本进行了处理,将文本格式等进行规范化,然后专门构造了分词词典并应用到了分词过程中去。结合文本向量表示方法及X 2统计量特征抽取方法构造了文本的向量矩阵。由于论坛和电商网站评论性文本存在噪声较多且特征多变,结合文本倾向分类的方式,本文选择利用文本预处理结合机器学习进行文本倾向性分类。在众多机器学习方法中,本文选用BP神经网络模型作为文本倾向性分类模型。本文中在文本分类模型训练过程中,构造了一层到两层的神经网络分类模型然后在不同的训练集上进行了比对实验,选出了最优模型进而对测试文本进行了测试实验。通过不同数据集对该模型的实验结果的分析,验证了 BP神经网络分类模型对含有噪声的文本的容错能力,分类效果较好。(本文来源于《内蒙古大学》期刊2017-06-08)

王炜[4](2016)在《面向网络舆情的文本语义倾向性分类算法研究》一文中研究指出舆情指的是作为社会主体的民众,在一定范围的社会空间内,围绕各种类型社会事件或问题的发生、发展与变化对于社会管理者所产生和持有的情感及态度。近年来,网页已成为反映社会舆情的主要载体之一,又由于互联网网页呈指数级方式的增长,网络舆情在已逐渐成为政府与企业重点关注的强大舆论平台。抓住网络舆情的导向则可以及时地了解民众对于某条政策或某个事件的倾向性态度,及时需求做出改进。因此分析网络舆情倾向性是现今自然语言处理的热点问题。网络舆情的倾向性分析需要借助计算机自然语言处理技术高效、准确地甄别网页所涵盖的信息,并快速有效地对舆情进行分析与分类。传统的语义倾向性分析算法需要依靠网络用户选择赞同、反对等简单的投票形式来体现对事件或产品的态度与倾向性。然而,这对于如今的网络媒体已经远远不够,民众的评论等以微博等形式呈现,其语义间细微差别与上下文的信息内容分析成为一个判断倾向性的关键问题。本文试图面向网络舆情建立文本语义倾向性分析模型,以提高语义倾向性分类的准确性。主要研究成果如下:(1)构建了基于HowNet与中文情感词汇本体库的情感词词典。该词典采用了HowNet情感词典的正负情感词汇库,并借鉴了中文情感词汇本体的极性标注方式,再经过人工添加网络常用词汇,形成了小型的情感词典用于文本的预处理。(2)提出了一种面向网络舆情的特征词权重计算方法。该方法由传统的TF-IDF(Term Frequency-Inverse Document Frequency)权重算法添加位置权重、情感权重以及均衡性变量,使权重更适用于情感倾向性分析。在本文实验中,改进的计算方法取得了良好的分类效果。(3)应用了一种基于隐含马尔科夫(Hidden Markov Model,HMM)模型的舆情倾向性分析算法。通过将文本特征词序列作为HMM模型的观察序列,利用其解码算法得到该观察序列所对应的最优状态序列,从而计算出最终的情感倾向性。该方法相较于经典的Naive Byes和SVM分类算法在性能上有一定的提高。(本文来源于《河北工程大学》期刊2016-05-28)

方环[5](2016)在《文本分类在运营商客户投诉倾向性预测中的应用研究》一文中研究指出运营商随着业务类型的发展面临着越来越严重的投诉问题,特别是本地投诉的客户后续进行越级投诉的问题也愈加严峻。想要在飞速发展的社会中提高竞争力,解决客户投诉将刻不容缓。本文将以某运营商4个月份的本地投诉数据进行文本挖掘,应用情感评分、朴素贝叶斯分类算法进行投诉的倾向性识别,预测本地投诉客户未来进行越级投诉的概率大小。本文选用R等开源的统计分析软件进行编程,根据数据的特点选择恰当的评分规则和分类算法进行预测。在分类预测中,选取前两个月份的数据为训练集,后两个月份的数据为测试集。论文的最终将会从预测的效果出发给行业提出相应的建议并对本文的研究方法进行分析和评价。(本文来源于《暨南大学》期刊2016-04-30)

李妍坊[6](2016)在《基于SVM增量学习的文本情感倾向性分类研究》一文中研究指出文本情感倾向性分类(Text Sentiment Classification)是目前文本分类技术领域中的一个热门研究方向。它通过过滤出文本中的主观内容并进行情感倾向性分析,识别出文本所属的褒贬类别。在当今大数据的背景下,互联网上每时每刻都在生成新的用户数据,因此急需对这些不断累积的文本内容进行高效地分析处理,识别其情感倾向性。通过对互联网上的这些文本进行情感挖掘,无论是对电子商务领域中所进行的商品推荐,还是帮助政府进行舆情监管,都有着重大意义。目前对文本进行情感倾向性分类的主流研究方法是利用基于统计的机器学习技术,支持向量机(SVM)算法是一种具有相对良好的分类效果并得到广泛应用的机器学习算法。然而现实工程应用中样本却是不断积累的,传统的SVM分类算法不能够直接进行增量学习,为了减少新增样本加入后重新训练模型的时间并能适应海量数据的准确分类,本文从增量学习的角度改进传统的SVM算法,并将SVM增量学习算法引入文本情感倾向性分类领域。本文在研究了SVM算法的特点和相关增量学习算法的基础上,首先在训练集预选方面,采用构建保留集的策略,提出了一种新的样本选择方法——缩放平移选择法,弥补了样本保留的缺陷。其次,本文提出了一种新的基于组合保留集的SVM增量学习算法CRS-ISVM(Combined Reserved Set ISVM)。该算法采用了组合保留的思想,不仅选择原始训练集中部分非支持向量样本加入保留集并赋予样本权重,还对新增样本中符合KKT约束的进行部分保留,最后再依据权重挑选部分保留样本与原SV集和新增样本中违背KKT约束的合并进行训练,从而实现原有样本知识的积累和新样本知识的学习。通过将CRS-ISVM算法与另外四种类似ISVM算法进行性能对比实验,从实验结果能够看出,CRS-ISVM算法可以在一定程度上提高分类精度,并能够减少分类时间,提高分类效率。最后,本文将基于组合保留集的SVM增量学习算法应用到文本情感分类领域,在提取了不同文本特征的基础上,构建出了增量学习系统,以适应对不断新增的样本进行情感分类的处理需求。实验表明了基于SVM增量学习的文本情感分类系统在保证分类精度的前提下,能够有效减少历史数据的存储,并加快了分类速度。(本文来源于《上海交通大学》期刊2016-01-01)

郭毅,黄磊[7](2015)在《基于LPA和Tri-Training的半监督文本倾向性分类》一文中研究指出提出了一种基于LPA和Tri-Training算法的半监督文本倾向性分类框架.通过LPA对初始样本进行快速分类,获得更多可信的有标签数据,优化分类框架的训练过程.引入Tri-Training算法,提高分类框架的泛化能力和可用性.实验结果表明,在不同标注比例的样本集上,该框架都有较好的分类性能,相较有监督学习算法和单一的半监督算法提高了分类精度,并有较强的鲁棒性,为解决有标签样本比例较少情况下的文本倾向性分类提供了一个新的思路.(本文来源于《北京交通大学学报》期刊2015年06期)

朱万山[8](2015)在《中文文本褒贬倾向性分类研究》一文中研究指出现今,由于互联网技术飞速的前进,在互联网中人们表达自己观点这一现象越来越普遍,这一现象,引发了互联网中信息资源的爆炸性增长,促使人们想要获取缤纷复杂的信息来源几乎全来自于互联网,为此,网民们非常酷爱把互联网当作形影不离的工具。例如互联网上的微博、论坛等产生了巨多的含有观点,评论性的中文文本信息,这些中文文本信息呈现了人们丰富的感情色彩和表达人们对某事物的情感的倾向性,如褒、贬等。但面对这些海量的中文文本评论信息,人们迫切需要将这些中文文本进行自动的褒贬分类,那么,如何利用先进技术高效地快速将其进行褒贬倾向性分类,挖掘互联网信息,满足用户的需要等,值得深入的研究。因此,近些年来有关中文文本褒贬倾向性方面的分类问题的研究在数据挖掘领域受很大的关注。本文通过研究了很多关于中文文本褒贬倾向性分类的中文文本褒贬特征提取方法,重点研究了以下几种中文文本褒贬特征提取算法,包括常用的互信息、简单的文档频率、效果不错的信息增益等算法,之后利用其中的优点,研究了一种在褒贬特征提取时,对分类效果不错的特征提取算法(MIDF);并对褒贬义词典对分类结果的影响进行了研究。本文主要工作包括:把文本中的词语进行分割成一个一个短的词语,也叫做分词,之后去掉一些对分类结果无意义的词,也叫做去除停用词,并使用两类信息差值的特征提取算法(MIDF)进行中文文本褒贬特征提取,TFIDF权值计算方法进行的特征权值计算,并结合SVM对待分类文本进行最后的类别上的判断,结果有两类,一类是褒义的类别,另一类就是贬义的类别。在实验过程中,对比了特征数量的大小对褒贬分类结果的影响、布尔权值、TF权值和TFIDF权值叁种不同计算方法对情感分类结果的影响以及SVM分类器对于不同类型文本数据的分类效果。(本文来源于《北方工业大学》期刊2015-06-30)

许歆艺,刘功申[9](2015)在《基于文本纹理特征的中文情感倾向性分类》一文中研究指出随着互联网的发展,社交网络、电子商务等已经成为人们关注的焦点,对社交网络的文本进行情感倾向性分析和挖掘变得越来越重要。该文针对网络上的中文文本,提出一种基于文本纹理特征的情感倾向性分类方法。通过测试多种文本纹理特征对文本情感倾向性的影响,成功将文本纹理特征融入情感分类中。通过计算各类特征与文本的情感倾向性的相关度,对特征进行降维。相对于基于词频的情感倾向性分类方法,查准率平均提高了10%左右。(本文来源于《中文信息学报》期刊2015年03期)

曾凡锋,朱万山,王景中[10](2014)在《大数据时代中文文本褒贬倾向性分类研究》一文中研究指出在当前的大数据时代,互联网上的博客、论坛产生了海量的主观性评论信息,这些评论信息表达了人们的各种情感色彩和情感倾向性。如果仅仅用人工的方法来对网络上海量的评论信息进行分类和处理实在是太难了,那么,如何高效地挖掘出网络上大量的具有褒贬倾向性观点的信息就成为目前亟待解决的问题,中文文本褒贬倾向性分类技术研究正是解决这一问题的一个方法。文章介绍了常用的文本特征选择算法,分析了文档频率和互信息算法的不足,通过对两个算法的对比和研究,结合文本特征与文本类型的相关度和文本褒贬特征的出现概率,提出了改进的文本特征选择算法(MIDF)。实验结果表明,MIDF算法对文本褒贬倾向性分类是有效的。(本文来源于《信息网络安全》期刊2014年11期)

文本倾向性分类论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

研究表明,在深度神经网络(DNN)的输入中添加小的扰动信息,能够使得DNN出现误判,这种攻击被称为对抗样本攻击.而对抗样本攻击也存在于基于DNN的中文文本的情感倾向性检测中,因此提出了一种面向中文文本的对抗样本生成方法 WordHanding.该方法设计了新的词语重要性计算算法,并用同音词替换以生成对抗样本,用于在黑盒情况下实施对抗样本攻击.采用真实的数据集(京东购物评论和携程酒店评论),在长短记忆网络(LSTM)和卷积神经网络(CNN)这两种DNN模型上验证该方法的有效性.实验结果表明,生成的对抗样本能够很好地误导中文文本的倾向性检测系统.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文本倾向性分类论文参考文献

[1].廖小琴,徐杨.面向BSP-CNN的短文本情感倾向性分类研究[J].计算机工程与应用.2019

[2].王文琦,汪润,王丽娜,唐奔宵.面向中文文本倾向性分类的对抗样本生成方法[J].软件学报.2019

[3].杨新元.基于神经网络的文本倾向性分类研究[D].内蒙古大学.2017

[4].王炜.面向网络舆情的文本语义倾向性分类算法研究[D].河北工程大学.2016

[5].方环.文本分类在运营商客户投诉倾向性预测中的应用研究[D].暨南大学.2016

[6].李妍坊.基于SVM增量学习的文本情感倾向性分类研究[D].上海交通大学.2016

[7].郭毅,黄磊.基于LPA和Tri-Training的半监督文本倾向性分类[J].北京交通大学学报.2015

[8].朱万山.中文文本褒贬倾向性分类研究[D].北方工业大学.2015

[9].许歆艺,刘功申.基于文本纹理特征的中文情感倾向性分类[J].中文信息学报.2015

[10].曾凡锋,朱万山,王景中.大数据时代中文文本褒贬倾向性分类研究[J].信息网络安全.2014

论文知识图

文本倾向行分类器与UIMA的融合在文1 文本倾向性分类流程文本倾向性分类器构建方法与文本倾向性分类的关系网页倾向性分类过滤过程基本框架基干多核S、.和P5o优化参劫分类器的女...

标签:;  ;  ;  ;  ;  ;  ;  

文本倾向性分类论文_廖小琴,徐杨
下载Doc文档

猜你喜欢