导读:本文包含了汉语自动分词论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:分词,汉语,中文,语言学,歧义,规则,词法。
汉语自动分词论文文献综述
张莉莉,冯燕[1](2017)在《基于语料库的汉语自动分词错误类型分析》一文中研究指出运用CIPP对68908字的庭审会话语料库进行自动分词处理,并参照《现代汉语词典》(第7版)及《信息处理用现代汉语分词规范》(GB/T 13715-92)对分词结果进行人工校对及错误类型分析。研究发现,除了未登录词、交集型歧义和包孕型歧义外,还存在文言残留用语等切分标准不明确的问题。据此,分词规范需进一步改进和修订。(本文来源于《华中师范大学研究生学报》期刊2017年01期)
袁琳琳,陈红平[2](2014)在《汉语自动分词系统的设计与实现》一文中研究指出基于.NET技术,采用改进的增字最大匹配算法3、"退一字组合法"5、自定义规则和Lucene.Net技术实现了汉语自动分词系统。实验证明系统在保证歧义、人名、数字、邮箱识别等方面的切分精度的同时,还保证了较高的切分效率。文章介绍了汉语中的叁种歧义定义和示例、系统实现的技术方案、分词算法、系统实现概述与实验结果。(本文来源于《信息与电脑(理论版)》期刊2014年07期)
肖航[3](2013)在《汉语盲文分词连写特点及自动分词研究》一文中研究指出一、引言我国汉语盲文是汉语的一种拼音文字形式。台湾地区的盲文采用基于注音符号的国语点字方案,是注音符号的触觉形式,其基本规则是不分词,以字为单位连写,字字标调,音节间以调符为分界,不再添加空方。大陆地区的汉语盲文以现行盲文方案为主,双拼盲文方案也在同时使用。现行和双拼两种盲文方案都采用了分词连写的形式。汉语盲文的分词连写是指在盲文中以词为单位,有分有连的特殊书写规则,书写时,以词或词组或短语为书写(本文来源于《第八届全国语言文字应用学术研讨会论文集》期刊2013-11-01)
韩莹,王茂发,陈新房,潘志安,张艳霞[4](2013)在《汉语自动分词词典新机制—词值哈希机制》一文中研究指出汉语词典查询是中文信息处理系统的重要基础部分,对系统效率有重要的影响.国内自80年代中后期就开展了中文分词词典机制的研究,为了提高现有基于词典的分词机制的查询效率,对于词长不超过4字的词提出了一种全新的分词词典机制——基于汉字串进制值的拉链式哈希机制即词值哈希机制.对每个汉字的机内码从新编码,利用进制原理,计算出一个词语的词值,建立一个拉链式词值哈希机制,从而提高查询匹配速度.(本文来源于《计算机系统应用》期刊2013年02期)
郭俊凤,岳金萍,王开铸[5](2012)在《基于C程序实现汉语自动分词系统》一文中研究指出统计汉字文本文件的字、词、句的数目,是汉字文本统计的基本课题之一,本文基于C程序重点实现汉语自动分词系统。(本文来源于《信息与电脑(理论版)》期刊2012年09期)
黄德根,佟德琴[6](2012)在《基于上下文信息和碎片的交叉领域汉语自动分词(英文)》一文中研究指出A new joint decoding strategy that combines the character-based and word-based conditional random field model is proposed.In this segmentation framework,fragments are used to generate candidate Out-of-Vocabularies(OOVs).After the initial segmentation,the segmentation fragments are divided into two classes as "combination"(combining several fragments as an unknown word) and "segregation"(segregating to some words).So,more OOVs can be recalled.Moreover,for the characteristics of the cross-domain segmentation,context information is reasonably used to guide Chinese Word Segmentation(CWS).This method is proved to be effective through several experiments on the test data from Sighan Bakeoffs 2007 and Bakeoffs 2010.The rates of OOV recall obtain better performance and the overall segmentation performances achieve a good effect.(本文来源于《中国通信》期刊2012年03期)
李丹[7](2010)在《基于规则与统计的汉语自动分词研究》一文中研究指出随着网络的发展,数字化信息迅速增加,人们对中文信息的处理也越来越关注,同时,现代汉语信息的处理和研究也显得尤为重要。汉语自动分词和命名实体识别是中文信息处理的基础研究课题,它的研究和实现具有重要的理论意义和实用价值。由于它的研究结果直接影响到机器翻译、语法分析、语义分析、语音识别、信息检索、信息过滤等领域的研究,因此,对分词和命名实体识别的要求也显得日益迫切并一直引起人们的关注。同其它语言相比,汉语自动分词和命名实体识别有其特有的难点。我们认为影响分词正确率的因素有两个:1歧义切分问题2汉语人名、地名、机构名等专有名词。目前,汉语自动分词和命名实体识别的处理结果还有待提高。本文对汉语自动分词和作为命名实体识别子问题的中文人名识别这两个问题分别进行了研究,提出了结合词频的机械匹配算法和SVM与错误驱动学习相结合的中文人名识别算法。汉语自动分词是中文信息处理中的重要步骤,它是诸多中文信息应用领域的基础。目前汉语自动分词方法主要包括基于规则的方法、基于统计的方法和基于理解的方法。本文对现有自动分词算法进行了深入分析,在此基础上着重研究了基于规则和统计的汉语自动分词算法,提出了结合词频的机械匹配算法。该方法首先在基于长度优先的基础上同时结合词频优先进行分词,对未匹配字串再应用改进的正向最大匹配法和逆向最大匹配法结合熵率进行分词。实验结果表明,这种分词算法进一步提高了分词的准确率。中文姓名识别是中文分词中未登录词识别的一个重要部分,处理好中文姓名问题势必会有效地提高未登录词识别的精度。本文提出了支持向量机和基于转换的错误驱动学习相结合的中文人名识别方法。利用基于转换的错误驱动学习方法对SVM的识别结果进行校正,转换规则较好地处理了语言现象中的特殊情况,进一步提高了SVM的识别结果。实验结果表明,与单独使用SVM模型的人名识别方法相比,加入错误驱动学习方法后,中文人名识别的准确率、召回率和F值均得到了提高。(本文来源于《长春工业大学》期刊2010-03-01)
何国斌,赵晶璐[8](2010)在《汉语文本自动分词算法的研究》一文中研究指出分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词算法的特点,将其与概率算法相结合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明,该算法具有较高的分词效率和准确率,对于消去歧义词也有较好的性能。(本文来源于《计算机工程与应用》期刊2010年03期)
陈湘柳[9](2010)在《汉语自动分词理论对英语教学的启示》一文中研究指出计算语言学是从语言学中分离开来的学科交叉的门类。汉语自动分词是计算语言学中的一个热门研究方向,研究发现,汉语自动分词的语料库、最大匹配法、分词规范、歧义问题、未登录词等理论知识对英语教学有很好的启发作用。(本文来源于《榆林学院学报》期刊2010年01期)
李迅[10](2010)在《自动分词与分词规范——关于《信息处理现代汉语分词规范》的重新思考》一文中研究指出动分词技术是计算语言学中的一个瓶颈问题,在刚刚做过的留学生汉语语料库词性标注工作中,我们也发现了许多关于自动分词的问题。围绕这些问题,参照《信息处理现代汉语分词规范》,我们提出了对词表、分词规范、人工校对、消歧、未登录词、最大概率法等方面的看法和建议。(本文来源于《山东文学》期刊2010年01期)
汉语自动分词论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
基于.NET技术,采用改进的增字最大匹配算法3、"退一字组合法"5、自定义规则和Lucene.Net技术实现了汉语自动分词系统。实验证明系统在保证歧义、人名、数字、邮箱识别等方面的切分精度的同时,还保证了较高的切分效率。文章介绍了汉语中的叁种歧义定义和示例、系统实现的技术方案、分词算法、系统实现概述与实验结果。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
汉语自动分词论文参考文献
[1].张莉莉,冯燕.基于语料库的汉语自动分词错误类型分析[J].华中师范大学研究生学报.2017
[2].袁琳琳,陈红平.汉语自动分词系统的设计与实现[J].信息与电脑(理论版).2014
[3].肖航.汉语盲文分词连写特点及自动分词研究[C].第八届全国语言文字应用学术研讨会论文集.2013
[4].韩莹,王茂发,陈新房,潘志安,张艳霞.汉语自动分词词典新机制—词值哈希机制[J].计算机系统应用.2013
[5].郭俊凤,岳金萍,王开铸.基于C程序实现汉语自动分词系统[J].信息与电脑(理论版).2012
[6].黄德根,佟德琴.基于上下文信息和碎片的交叉领域汉语自动分词(英文)[J].中国通信.2012
[7].李丹.基于规则与统计的汉语自动分词研究[D].长春工业大学.2010
[8].何国斌,赵晶璐.汉语文本自动分词算法的研究[J].计算机工程与应用.2010
[9].陈湘柳.汉语自动分词理论对英语教学的启示[J].榆林学院学报.2010
[10].李迅.自动分词与分词规范——关于《信息处理现代汉语分词规范》的重新思考[J].山东文学.2010