未登录词识别论文_方玉萍,万荣,方达

导读:本文包含了未登录词识别论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:短语,算法,机器翻译,词频,词表,自然语言,汉语。

未登录词识别论文文献综述

方玉萍,万荣,方达[1](2019)在《中文文本未登录词识别的研究》一文中研究指出未登录词作为一类特殊词出现,在中文文本处理中常常带来识别歧义,未登录词的识别好坏往往会影响到文本处理系统的整体性能。未登录词识别方法各有千秋,但对于识别未登录词都没有最有效的方法,研究发现利用未登录各类别的特点和难点进行方法的组合使用,可以提高其歧义的处理能力。本文研究中文文本未登录词的识别,以期能在各文本处理中能减少歧义达到提高识别的正确率和召回率。(本文来源于《电脑知识与技术》期刊2019年20期)

曾浩,詹恩奇,郑建彬,汪阳[2](2019)在《基于扩展规则与统计特征的未登录词识别》一文中研究指出为提高各行业领域未登录词识别效果,提出一种基于扩展规则与统计特征的未登录词识别方法。分析行业领域未登录词构词特点,制定扩展规则,根据扩展规则对分词项进行扩展得到复合词,通过词频、互信息、邻接熵等统计特征判别复合词是否为未登录词。若为未登录词,则对其继续扩展和识别。六个行业领域和通用领域未登录词识别实验结果表明,提出的方法取得了较好的未登录词识别效果,具有较好的移植性。(本文来源于《计算机应用研究》期刊2019年09期)

贾亚璐[3](2018)在《一种基于微博类短文本的未登录词识别和词义发现研究》一文中研究指出未登录词识别技术对提高文本自动分词和句法分析的准确性有很重要的意义。随着网络社交平台的不断发展,微博(WEIBO,MicroBlog)平台已经成为人们进行信息分享、传播以及获取的重要平台。基于微博类短文本的未登录词识别研究成为热点,而微博文本中包含大量不规范用语、网络流行语等,增加了未登录词识别的困难。本文针对微博类短文本的特点,提出了针对基于微博类短文本的未登录词识别和语义发现算法。论文提出了一种基于改进的FP-Growth(Frequent Pattern Growth Algorithm)未登录词识别算法(POS-FP),该算法考虑了词性对未登录词的识别影响。首先使用POS-FP算法获取频繁项集,再和N-grams模型相结合初步获取未登录词;然后利用改进的互信息、左右信息熵、上下文依赖性和开源验证的方法,对初步获取的未登录词进行过滤和验证。与传统方法相比,该算法在微博类短文本的未登录词识别率上有一定程度提高。论文提出了一种基于相似性计算的词义发现方法。首先构建基于微博语料的带词性的同义词词林(POS-Dic-Cilin),然后利用Word2vec技术分别生成未登录词和所有名词的词向量,利用构建的POS-Dic-Cilin对词向量进行修正。最后是通过相似性计算获取未登录词的词义集合来表示未登录词词义,并通过实验验证了方法的有效性。(本文来源于《北京工业大学》期刊2018-04-01)

汪龙庆,张超,宋晖,刘振宇[4](2017)在《基于未登录词识别的微博评价短语抽取方法》一文中研究指出由于微博内容话题分散,识别博文评论对象是微博情感分析研究的热点和难点。研究表明未登录词识别是导致评价短语识别率低的重要原因之一。针对这种情况,提出一种基于文本词序列的词频、凝聚度、左右自由度等统计特征学习未登录词识别模型的方法。实验结果表明,将自动识别的微博文本中的未登录词加入基于CRFs的评价短语识别算法后,显着地提高了评价短语识别的准确率和召回率。未登录词的学习算法直接利用评价短语识别的标注样本,具有较强的可行性。(本文来源于《计算机应用与软件》期刊2017年06期)

吉志薇[5](2015)在《面向普通未登录词识别和理解的二字词语义构词研究》一文中研究指出近年来随着“词汇主义”思潮的兴起,词汇语义学成为中文信息处理的前沿课题之一。作为语言的子系统,词汇内部的特异性大,自身变动频繁,研究难度相对较大。与词相比,作为构词基本部件的词素在数量上相对有限,在表义功能上相对稳定,因此把词素作为基本资源,从语义上寻找他们组合成词的规律,用来辅助自然语言理解的思路受到了越来越多的关注。汉语自动分词是中文信息处理的基础环节。在基于词表的分词方法中,未登录词是影响分词精度最主要的因素之一,而未登录词中的普通新词,构成方式多种多样,功能变幻不定,数目不可穷尽,现有的基于统计的分词方法只能识别出高频词,对低频词的识别则有些无能为力。本文以《现代汉语词典》(第六版)中的二叁字词作为选取范围,建立起现代汉语词素数据库,在此基础上选出50个高频词素,进而把含有这些词素的8984个二字词作为封闭考察对象。首先参照《现代汉语词典》(第六版),标注8984个二字词的词义,继而基于词义和知网(HowNet),标注前后词素的义项和对应义类,然后从意合结构、意根分布、意指方式、意变类型四个角度标注词素间的词化意义,最后综合词素意义和词化意义,在定量统计的基础上建立一个二字词的语义描写体系。二字词的语义描写体系主要包括8984个词的释义模式,词素-义类数据库,词素意义分布表,词化意义分布表和释义模式分布表。利用二字词的语义描写体系分别对《现代汉语词典》(第六版)新出现的1413个新词和取自论坛的自然语篇进行识别和理解,发现二字词的语义构词研究在普通未登录词的识别和理解中具有一定的应用价值。(本文来源于《南京师范大学》期刊2015-04-26)

段宇锋,朱雯晶,陈巧,刘伟,刘凤红[6](2015)在《条件随机场与领域本体元素集相结合的未登录词识别研究》一文中研究指出【目的】建立未登录词识别模型,提升发现自然科学领域文本中未登录词的能力,同时降低人工干预成本。【方法】在假设的基础上,构建条件随机场(CRFs)与领域本体元素集相结合的未登录词识别模型。以生物多样性文本为样本,通过比较不同模型性能的差异,检验假设,验证模型的合理性。【结果】实验结果表明,CRFs模型选择单纯的字、字词混合序列、字词混合序列及默认词性、字词混合序列及含自定义语义功能标记的词性为特征时,未登录词识别能力依次提升。该结果证明研究假设为真,本文建立的模型科学、合理。【局限】模型标注未登录词的准确性有待提升。【结论】该模型具有更强的未登录词识别能力,同时可以极大地降低人工建立训练集的成本。(本文来源于《现代图书情报技术》期刊2015年04期)

于童,刘淑芬[7](2015)在《构建单字词表识别未登录词的方法》一文中研究指出针对目前中文分词技术主要依赖于常用词词典,而词典对未登录词识别率较低的问题,提出一种用双词典识别未登录词的方法,即构建一个常用词词典和一个单字词词典,二者相互结合进行分词,有效解决了对未登录词识别效率偏低的问题.实验表明,采用构建单字词表法对未登录词的识别准确率可达90%以上.(本文来源于《吉林大学学报(理学版)》期刊2015年02期)

陈学丽[8](2013)在《汉语框架网中未登录词元的识别技术研究》一文中研究指出目前词汇语义资源在自然语言处理领域的许多应用中都发挥着重要的作用,但是所有的语义资源都面临一个共同的限制——低覆盖率,汉语框架网也不例外。目前汉语框架网的覆盖率较低,对于开放的文本必定会存在许多词元库中未登录的词,严重制约着汉语框架语义分析任务。针对未登录词元的识别问题,本文借助《同义词词林》的词义信息,分别进行了未登录词元的目标词识别与框架选择的研究。本文的主要研究内容及贡献分以下两方面介绍:针对未登录词元目标词识别任务的研究,提出两种方法。(1)基于词元库扩充的方法,利用《同义词词林》词义信息到CFN词元库的映射来获得扩充的CFN词元库,并利用词义信息来进行目标词的识别,实验结果显示利用扩充后的词元库的识别结果比利用原有词元库的召回率得到了明显提高,而词义信息的加入则使准确率得到了提高。(2)基于最大熵模型的方法,实验选取了词、词性、词义作为特征,对于未登录词元的目标词识别最好达到了90.95%的F值。此方法是一种动态的方法比第一种静态的方法获得了更好的结果,同时,可以识别出词典中的未登录词元。针对未登录词元框架选择任务的研究,提出两种方法。(1)基于平均语义相似度计算的方法,算法思想是同一框架下的词元具有高度相似性,最终实验结果(TOP-4)达到了78.61%准确率。(2)基于最大熵模型的方法,特征选择的方法采用静态特征与动态特征相结合的方法。在第一种方法相同的语料(Test1)上实验结果可达到87.29.%的未登录词元框架选择准确率,针对新闻语料(Test2)中完全未登录词元获得75%的准确率,结果显示词义信息是最优静态特征而依存句法特征为最优动态特征。以上方法为汉语的框架语义分析任务中未登录词元的识别任务提供了有效的解决方法,同时也提供了词元库自动扩充的有效途径。本文的贡献主要集中在首次研究汉语框架网中未登录词元的目标词识别与框架选择问题,并借助《同义词词林》语义资源中的词义信息,提出利用语义层面的特征去解决未登录词元的识别问题,为未登录词元识别的进一步研究提供了重要的特征选择依据。(本文来源于《山西大学》期刊2013-06-01)

米成刚,王磊,杨雅婷,陈科海[9](2013)在《维汉机器翻译未登录词识别研究》一文中研究指出针对维汉统计机器翻译中未登录词较多的现象和维吾尔语语言资源匮乏这一现状,结合维吾尔语构词特征以及相应的字符串相似度算法,提出了一种基于字符串相似度的维汉机器翻译未登录词识别模型。该模型借助短语表和外部词典,与未翻译的维语词求相似度,取相似度最大短语对应的汉语翻译作为此未登录词的最终翻译。实验证明,与基于词干切分的未登录词识别方法相比,此模型较好地保留了维吾尔语词信息,提高了译文的质量。(本文来源于《计算机应用研究》期刊2013年04期)

鞠菲[10](2013)在《专业领域未登录词识别研究》一文中研究指出自然语言处理一般以词为单位“理解”语言的含义,首要的任务就是分词。中文的词与词之间由于缺少天然的分隔符,大量的学者花费了数年的精力研究中文分词,致力于提高分词的准确率。中文自然语言处理中分词主要有两大难点:未登录词识别、歧义切分。甚至有研究表明,未登录词识别对分词的影响更大。当前未登录词识别研究采用的语料大多是报纸或者网页,重在研究提高一般语境下未登录词的识别。但是,专业领域的文献往往与一般语境不尽相同,特别是词语的构成有极大。未登录词识别方法的健壮性有限,缺乏对专业领域未登录词的研究。专业领域的这些未登录词也常常被称为行业术语,包括某个行业或者某个领域中约定俗成的简称,经常出现在各行各业较为规范的文献中。术语的正确识别对研究专业方面的文献具有重要的意义。本文研究了基于统计的未登录词识别方法,并且在专业领域的语料库中试验得到了较好的结果。为了较为彻底的探讨未登录词的统计学规律,本文在分词的基础上采用了重复字符串的方式取得作为候选的未登录词的字符串,采用了不断演进的模型探寻最优的识别未登录词的方式。首先采用了最简单的上下文无关的模型,分别使用词频、文档频率和词频反文档频率作为字符串的评价函数,若该函数取值高于阂值则识别为未登录词,否则作为垃圾串舍弃,得出词频作为评价函数的效果最好。然后在此基础上,本文逐步引入上下文相关的模型,通过互信息和信息熵探寻字符串与左右相邻字符串的关系,并且讨论这种邻接关系与该字符串是否是未登录词的关系。加入邻接关系后,模型的识别效果比单纯基于词频的模型的识别效果有所提高。实验发现单独使用互信息并不能有效揭示同一个词的各字符之间的结合程度,区未登录词与垃圾串,但是在词频的基础上使用互信息筛选能够比单纯使用词频得到更高的召回率和准确率,并且识别出更多的未登录词。左右信息熵是一种相对比较有效的识别字符串之间是连接还是切断关系的统计函数。通过左右信息熵判断元字符串是不是未登录词取得了非常高的准确率和较高的召回率,可以认为大部分未登录词都具有较高的左右熵信息。结果证明互信息与信息熵的值都与字符串是否是未登录词有关系。最终,采用基于决策树的模型,将词频与左右邻关系结合起来判别未登录词。统计候选未登录词的左邻个数,右邻个数,左信息熵,右信息熵,互信息,是否有左右邻,选用了是决策树算法判定字符串是未登录词还是垃圾串,建立模型后使用十迭交叉检验得到其准确率与召回率,该模型未登录词识别的准确率为91.8%,召回率为89.5%。文本的研究是对未登录词识别的一次很好的尝试,通过进一步提高未登录词的识别效率,能够提高分词精度,提高专业领域文献的自动化处理效率,推动中文搜索引擎的建设,有助于中文自然语言处理的进一步发展。(本文来源于《华东师范大学》期刊2013-03-01)

未登录词识别论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

为提高各行业领域未登录词识别效果,提出一种基于扩展规则与统计特征的未登录词识别方法。分析行业领域未登录词构词特点,制定扩展规则,根据扩展规则对分词项进行扩展得到复合词,通过词频、互信息、邻接熵等统计特征判别复合词是否为未登录词。若为未登录词,则对其继续扩展和识别。六个行业领域和通用领域未登录词识别实验结果表明,提出的方法取得了较好的未登录词识别效果,具有较好的移植性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

未登录词识别论文参考文献

[1].方玉萍,万荣,方达.中文文本未登录词识别的研究[J].电脑知识与技术.2019

[2].曾浩,詹恩奇,郑建彬,汪阳.基于扩展规则与统计特征的未登录词识别[J].计算机应用研究.2019

[3].贾亚璐.一种基于微博类短文本的未登录词识别和词义发现研究[D].北京工业大学.2018

[4].汪龙庆,张超,宋晖,刘振宇.基于未登录词识别的微博评价短语抽取方法[J].计算机应用与软件.2017

[5].吉志薇.面向普通未登录词识别和理解的二字词语义构词研究[D].南京师范大学.2015

[6].段宇锋,朱雯晶,陈巧,刘伟,刘凤红.条件随机场与领域本体元素集相结合的未登录词识别研究[J].现代图书情报技术.2015

[7].于童,刘淑芬.构建单字词表识别未登录词的方法[J].吉林大学学报(理学版).2015

[8].陈学丽.汉语框架网中未登录词元的识别技术研究[D].山西大学.2013

[9].米成刚,王磊,杨雅婷,陈科海.维汉机器翻译未登录词识别研究[J].计算机应用研究.2013

[10].鞠菲.专业领域未登录词识别研究[D].华东师范大学.2013

论文知识图

一17未登录词统计界面基于遗传算法的汉语未登录词识别基于规模递增语料的未登录词识别的中文分词效果演示ICTCLAS的...一4未登录词识别模块核心类图改进的逆向最大匹配Fig10Theimproveme...

标签:;  ;  ;  ;  ;  ;  ;  

未登录词识别论文_方玉萍,万荣,方达
下载Doc文档

猜你喜欢