导读:本文包含了机器词典论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:词典,情感,自然语言,机器,向量,现代汉语,语言。
机器词典论文文献综述
刘庆峰,刘晨璇,王亚楠,张为泰,刘俊华[1](2019)在《会议场景下融合外部词典知识的领域个性化机器翻译方法》一文中研究指出会议场景下通过语音识别和机器翻译技术实现从演讲人语音到另外一种语言文字的翻译,对于跨语言信息交流具有重要意义,成为当前研究热点之一。该文针对由于会议行业属性带来的专业术语和行业用语的翻译问题,提出了一种融合外部词典知识的领域个性化方法。具体而言,首先采用联合占位符和拼接融合的编码策略,通过引入外部词典知识,在提升实体词、专业术语词翻译准确率的同时,兼顾翻译结果的流畅性。其次提出基于分类的领域旁支参数个性化自适应策略,在保持通用领域翻译效果的情况下实现会议相关领域翻译质量的提升。最后基于上述方案,设计了一套领域个性化自动训练系统。实验结果表明,在中英体育、商务和医学会议翻译任务上,该系统在不影响通用翻译的情况下,平均提升9.22个BLEU,获得较好翻译效果。(本文来源于《中文信息学报》期刊2019年10期)
王宇翔[2](2019)在《面向自然语言处理的机器词典的研制》一文中研究指出随着计算机技术的不断发展和普及,我国相关工作人员开始研究面向自然语言处理的机器词典。近年来,北京大学计算机语言学研究所研制了《现代汉语语法信息词典》(简称GKB)。在GKB的基础上,相关工作人员衍生了综合型语言知识库。由于面向自然语言处理的机器词典在语言工程研究上具有重要意义,因此介绍了GKB及相关研究结果,分析了语言工程研究的相关经验,以期为相关工作者提供指导和帮助。(本文来源于《信息与电脑(理论版)》期刊2019年15期)
徐善山[3](2019)在《基于领域词典和机器学习的影评情感分析》一文中研究指出针对影评文本情感分析准确性不高的问题,本文提出一种基于影评领域词典结合机器学习的情感分析方法。首先,构建完备的影评领域相关词典,如程度副词词典、否定词词典和网络用词词典。然后,利用文本相似度的方法(TSIM)对训练数据集进行去重处理,并提出叁类特征:词性、句法、依存进行选择。最后,利用NB和SVM相结合的分类方法对影评进行情感分类。实现结果表明,该方法相对于仅仅基于传统的机器学习的方法,具有更准确的分类精度。(本文来源于《电脑知识与技术》期刊2019年23期)
戴恺运[4](2019)在《基于词典和机器学习的中文小说的情感研究》一文中研究指出书籍是人类进步的阶梯。作为精神食粮,书籍对人们产生着巨大的影响。在这日新月异的科技时代,如何从海量书籍中选择优秀作品对读者而言是重要的,怎样创作出优秀作品脱颖而出同样值得创作者思考。探寻成功小说的共有模式并客观地理解该模式是解决上述问题的有效方法。小说作为常见的文学体裁,具有极高的研究价值。基于小说的情感动态变化可作为剧情发展的高度代理这一理论基础,本文从计算机角度出发,以小说的动态情感变化曲线为切入点结合随机分形理论进行探究。传统的文本情感分析主要集中于对短文本的情感极性分类与标注,对长文本的情感研究并不多见,适合中文小说情感分析的语料较为缺乏,且传统的情感分析停留在对结果的归纳与总结,缺乏对研究结果的进一步探究。针对以上不足,本文工作内容如下:(1)针对研究语料缺乏这一问题,结合当前情感分析研究现状、自身研究条件和小说表现手法多样,上下文联系紧密等特点。本文以大连理工大学出版的《情感词汇本体库》为基础词典,从以下叁个方面对其扩充与调整:1.利用Word2vec构造词向量,计算词向量的余弦相似度、基于同义词词典的语义相似度和点互信息实现新词发现。2.构造专属小说情感研究的情感-意象库。3.利用现有情感资源进行词语搭配以扩充词汇量。以此构造中文小说情感词典。(2)本文引入随机分形理论深度解读小说情感曲线。利用自适应分形分析方法去除情感曲线的总体趋势,考察波尺度与残差之间的幂律关系,计算Hurst指数以刻画情感曲线的长程相关性并将其作为特征,以此探索优秀小说的共有模式。为验证结论具备一定合理性,本文将Hurst参数与书籍的豆瓣评分及当当网的销量数分别做相关性分析用以验证。实验结果表明:本文提出的改进情感词典的方法可有效地进行词汇扩充,使之更准确地捕捉情感变化;94%优秀中文小说的情感动态曲线的特征值Hurst均大于0.5,这表明成功小说的情感动态变化普遍具有持续的长程相关性这一共同模式,同时从动力学角度提供了一种机制来解释小说成功的原因。实验验证了 Hurst参数与豆瓣评分,书籍销量均具有较强的正相关性,这证明了 Hurst参数可作为客观衡量中文优秀小说的参考指标且具有一定的合理性。(本文来源于《广西大学》期刊2019-06-01)
俞士汶,朱学锋[5](2019)在《面向自然语言处理的机器词典的研制》一文中研究指出北京大学计算语言学研究所积30余年之努力,研制了一部面向自然语言处理的机器词典,即《现代汉语语法信息词典》(以下简称GKB)。基于GKB,又衍生了一系列成果,进而集成为综合型语言知识库。文章扼要介绍GKB及相关成果,并总结从事大型语言工程的实践经验,期望这些经验不仅对语言工程的实践者,而且对探索学科交叉融合的学者都有参考价值。(本文来源于《辞书研究》期刊2019年02期)
宋祖康,阎瑞霞,辜丽琼[6](2019)在《基于机器学习与情感词典的文本主题概括及情感分析》一文中研究指出作为社交网络重要载体,微博成为信息传播的重要平台,承载着公众情感表达及舆论传播的重要功能。对微博博文及评论作出主题概括及情感分析在网络管控、舆情监测及公众情绪引导方面具有重要的实践意义。提出一种基于机器学习与文本分析的主题概括及情感分析模型。以武汉理工大学研究生坠亡事件为话题,利用Word2vec将文本转化为词向量,并且通过机器学习聚类方法对舆情各个生命周期过程进行主题概括,采用基于词典文本分析方法,对评论文本进行多元情感分析,对表现突出的情感大类作细粒度分析,最终实现基于主题与情感分析的多元细粒度公众情感变化分析模型。该分析模型可在特定舆情事件下得出公众在各阶段的关注中心及情绪变化规律,实现舆情主题与情感变化的协同演化研究。(本文来源于《软件导刊》期刊2019年04期)
杨鹏[7](2018)在《基于领域词典与机器学习的中文评论情感分析》一文中研究指出随着互联网日新月异的发展,以微博、论坛和电商为代表的线上平台正在崛起。人们越来越习惯于在这些平台上发表对实事热点的观点以及对产品的使用感受,这一现象使得评论数据爆炸式增长。在这些评论中,大量对于商家、卖家以及政府有价值的情感信息蕴含其中,如何提取并应用这些情感信息使得情感分析应运而生。基于词典的情感分析方法作为情感分析最基础的方法,对于特定领域通常没有非常合适的词典可以使用,其打分规则也有待优化。因此本文基于SO-PMI算法构建了酒店领域情感词典,基于中文语法结构提出一套打分规则。对预处理之后的数据结合多种词典进行情感权值计算,按照打分规则得到句子情感得分从而判断句子情感极性。实验证明,所提出的基于情感词典的情感分析方法有较高的准确率。在中文文本中语境复杂,常常存在一词多义的现象,使得基于情感词典的情感分析方法会产生一定的误差。深度学习作为机器学习的高性能方法,可以在语境复杂的中文文本中有更好的表现力,而取得这样的表现是在构造出优秀的中文词向量的前提下。因此本文基于维基中文数据集,利用Word2Vec工具构造了一套适用于所有中文的词向量。在对比实验中,所构建出的中文词向量具有不错的表现。在取得性能优良的词向量后,本文根据Python第叁方库构建了一个基于LSTM循环神经网络的情感分析模型,利用激活函数Sigmoid作为输出层,采用交叉熵作为损失函数。使用之前训练出的词向量作为模型输入,解决句子级评论文本的情感分析任务。准确率优于传统情感分析方法,提高了情感分析结果。(本文来源于《南京邮电大学》期刊2018-11-14)
王恩旭,袁毓林[8](2018)在《机器词典释义模版的建构和运用》一文中研究指出机器理解词主要借助于词典,但目前的词典释义还不准确,也不完备。对于这些问题,该文通过分析词的语义结构和建构词的释义模版来解决。通过分析词的语义结构,弄清词义中包含着哪些语义成分、语义关系,确定哪些是必有成分、必有关系,哪些是可有成分、可有关系。然后,结合实例讨论释义模版的建构过程、原则与方法。最后,通过释义模版,解决词典释义不完备、语义联系不明显、循环释义、新词释义等问题。(本文来源于《中文信息学报》期刊2018年01期)
杨志[9](2017)在《基于词典与机器学习的藏文微博情感分析研究》一文中研究指出随着互联网自媒体的兴起,越来越多的藏族人开始使用微博,并在其发表自己的观点和看法,与微博相关的藏文信息处理研究随之得到了学术层面的广泛关注。本文根据藏文微博的行文特征,提出了基于词典与机器学习算法多特征融合的藏文情感分类方法。在特征选择方面,运用藏汉情感词、表情符号等作为特征项。实验发现由于所构建的情感词典覆盖率不够髙导致分类效果不太理想。为了优化实验结果,本文引入了信息增益特征选择的措施,实验显示该措施完全较人工选择特征方法的分类结果有较大的提高。针对特定领域,实验证明融合后的分类效果有了一定程度的提升。(本文来源于《软件》期刊2017年11期)
丁蔚[10](2017)在《基于词典和机器学习组合的情感分析》一文中研究指出情感是人类智能表现的一种特征。情感既可以是身体上生理状态发生变化的反映,也可通过文本加以表达。目前研究情感分析的语料资源大部分来源于用户评论文本。评论文本已成为消费者购买商品的重要参考。从文本中获取情感信息,首先要从文本中抽取语义特征信息并加以分类。因为无法及时提取到信息丰富的评论,且基于词典的方法或基于机器学习的方法量化得到的情感特征过于片面,无法很好的辅助消费者进行决策,所以提取评论文本的情感特征及对评论文本进行主客观分类的研究就有现实意义。但基于词典的研究依赖于情感词典,由于新的词汇以及未登录词较多,情感词典的构建难度较大,且词语缺少强度量化。机器学习的方法不能较好解决多个情感词时引发的情感发散问题。本文提出了结合词典和机器学习的情感分析方法,得到可以提高预测评论主客观性的正确率的情感特征组合。本文将手机评论文本作为研究对象进行相关情感分析研究工作,将基于词典与主题模型结合方法、基于机器学习方法以及词典和机器学习组合方法得到的情感特征进行量化表示。实验比较量化的情感特征对主客观分类的影响。本文的研究工作如下:(1)词典扩充与极性计算研究。在基于词典的情感分析中,针对目前通用情感词典无法满足特定领域情感分析的要求,本文基于SO-PMI算法构建了由通用词典、扩展词典和专用领域词典组合的手机领域的专属情感词库。并利用其情感词抽取和主题模型特征表示的结合方法对相应情感特征进行量化表示。实验得出,与基于词典的方法相比,词典与主题模型相结合的方法进一步优化了情感特征的量化表示。(2)机器学习的情感特征挖掘。在特征选择和组合、特征维度和分类算法选择方面进行最优化,最大化情感分类准确率。手机评论领域的情感分类时采用贝叶斯、逻辑回归、支持向量机这叁种分类算法,实验得贝叶斯分类效果最好。以所有词、双词搭配、所有词和双词搭配、信息量丰富的词、信息丰富的词和双词搭配作为特征选择组合方式,实验得出信息丰富的词和双词搭配为特征在1000维时取得最优分类效果。(3)特征选择与分类算法研究。将基于词典的方法得到的情感权值、均值、标准差与基于机器学习的方法得到的积极、消极情感概率作为情感特征候选项,并结合信息特征、属性特征、语言特征进行随机森林构造,通过随机森林分类器对评论文本主客观分类预测,研究不同情感特征候选项组合对主客观分类预测的影响,得到结合词典和机器学习的情感分析方法得到的情感特征组合分类准确率最高,且随机森林分类算法比支持向量机和贝叶斯分类算法的准确率有很大的提升。(本文来源于《西安邮电大学》期刊2017-06-01)
机器词典论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着计算机技术的不断发展和普及,我国相关工作人员开始研究面向自然语言处理的机器词典。近年来,北京大学计算机语言学研究所研制了《现代汉语语法信息词典》(简称GKB)。在GKB的基础上,相关工作人员衍生了综合型语言知识库。由于面向自然语言处理的机器词典在语言工程研究上具有重要意义,因此介绍了GKB及相关研究结果,分析了语言工程研究的相关经验,以期为相关工作者提供指导和帮助。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
机器词典论文参考文献
[1].刘庆峰,刘晨璇,王亚楠,张为泰,刘俊华.会议场景下融合外部词典知识的领域个性化机器翻译方法[J].中文信息学报.2019
[2].王宇翔.面向自然语言处理的机器词典的研制[J].信息与电脑(理论版).2019
[3].徐善山.基于领域词典和机器学习的影评情感分析[J].电脑知识与技术.2019
[4].戴恺运.基于词典和机器学习的中文小说的情感研究[D].广西大学.2019
[5].俞士汶,朱学锋.面向自然语言处理的机器词典的研制[J].辞书研究.2019
[6].宋祖康,阎瑞霞,辜丽琼.基于机器学习与情感词典的文本主题概括及情感分析[J].软件导刊.2019
[7].杨鹏.基于领域词典与机器学习的中文评论情感分析[D].南京邮电大学.2018
[8].王恩旭,袁毓林.机器词典释义模版的建构和运用[J].中文信息学报.2018
[9].杨志.基于词典与机器学习的藏文微博情感分析研究[J].软件.2017
[10].丁蔚.基于词典和机器学习组合的情感分析[D].西安邮电大学.2017