汉语文本分词论文_律佳,廉立志

导读:本文包含了汉语文本分词论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:分词,汉语,歧义,文本,假象,拼音化,切分。

汉语文本分词论文文献综述

律佳,廉立志[1](2010)在《基于语境分析的汉语分词器在文本信息过滤系统中的应用》一文中研究指出针对汉语分词的歧义切分问题,提出了一种基于语境分析的二元汉语分词器,通过词典匹配和二元切词的结合进行歧义消解,使用分词校正器从句子语法角度上检测分词结果的正确性.实验证明,改进的汉语分词器具有识别各种类型新词、消解各类歧义的能力;将其应用到文本信息过滤系统的文本分析模块,在强化系统语言分析能力的同时,系统的过滤精度也得到大幅度的提高.(本文来源于《郑州轻工业学院学报(自然科学版)》期刊2010年03期)

何国斌,赵晶璐[2](2010)在《汉语文本自动分词算法的研究》一文中研究指出分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词算法的特点,将其与概率算法相结合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明,该算法具有较高的分词效率和准确率,对于消去歧义词也有较好的性能。(本文来源于《计算机工程与应用》期刊2010年03期)

胡正微[3](2006)在《人脑输入汉语文本识别分词时的假象分析》一文中研究指出为了使中文信息处理中关于分词问题的研究从人脑的分词机制中得到参照,我们探索了人脑在给汉语书面语分词时识别词的交叉和包孕假象的过程,包括以下4个问题:1.人脑在输入汉语文本时可能遇到的词的交叉和包孕假象及这些假象形成的原因;2.人脑识别词的假象的范围和途径;3.人脑识别词的假象所需要的知识和能力;4.人脑的言语场。(本文来源于《长沙理工大学学报(社会科学版)》期刊2006年03期)

贺胜[4](2006)在《面向现代汉语文本处理的全文检索、自动分词通用系统》一文中研究指出全文检索是现代信息检索技术的一个非常重要的分支,它是处理非结构化数据的强大工具,也是搜索引擎的核心技术之一。本研究对中文全文检索的有关技术进行了较为深入的研究,重点放在全文检索技术的应用上。对如何利用新技术、改善检索系统的结构、提高检索系统的性能和效率、不断适应信息技术发展的需求等方面进行了新的探索。 全文检索是一种I/O密集型的应用,以往的全文检索系统的开发多在关系数据库的基础上进行。本研究针对全文数据库的特点,指出此方式的弊端与不足,并提出了基于文件系统进行构建的解决方案。由于目前全文检索系统的开发平台并不多见,本文介绍了一种全文检索引擎工具包——Lucene,它功能强大,小巧精悍,便于嵌入各种应用。近年在世界各地被广泛使用,诸如IBM等公司都使用其核心代码。作为一个开源软件,为我们掌握搜索引擎的核心技术提供了绝佳机会,根据现代汉语文本的特点对进行二次开发,是一件很有意义的事情。 汉语自动分词及词性标注是中文信息处理中的重要环节。针对现代汉语自动分词及词性标注的难点,本研究在自动分词方面进行了如下探索:1.对几种常用电子词典的结构进行了分析和比较,实现了核心词典+专业词典的双词典策略,提高了系统的灵活性和适应性。2.采用根据分词有向无环图确定歧义字段的策略,一次性找出所有交集型和组合型歧义字段。3.采用基于角色标注的方法,识别未登录词中的中国人名、地名和外国人译名。4.采用规则的方法,对数字词及重迭词进行了分析和处理。5.利用基于隐马模型的汉语自动分词及标注一体化系统,实现了切分和标注的排歧。(本文来源于《南京师范大学》期刊2006-06-30)

杨孝光[5](2004)在《中文文本自动分类系统研究—汉语分词及分类器的设计》一文中研究指出随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类系统是信息处理的重要研究方向。它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程,具有很重要的现实意义,对电子政务、联机出版、网络信息检索与服务、公共电子图书馆和大规模真实语料库的建设等领域更具有广阔的应用前景。本文从面向应用、面向大规模、面向真实文本等实际需求的角度出发,从以下几个方面展开了对中文文本自动分类系统的研究:首先是汉语自动分词技术的研究,包括词语粗切分、未登录词识别、词性标注排歧等。在词语粗切分中,我们综合最短路径方法与全切分方法,提出了一种基于N-最短路径一元统计的粗分模型对中文词语进行粗分;在未登录词识别中,我们分别对数词短语、迭字词、名字的识别提出了不同的识别方法。其中,在对名字的识别过程中,我们采用了Viterbi算法,确定句中概率最大的上下文信息状态序列,并结合文本的局部统计量,对人名、地名、译名进行匹配识别;而对于词性的标注排歧,我们是采用了CLAWS算法的思想,结合每个词的各个词性标记具有不同概率的特点,基于隐马尔科夫模型进行的。其次是关于分类器的设计方面,我们着重解决了特征词的抽取、文本的表示、采用支持向量机方法对分类器的设计实现。对于特征词的抽取,我们是根据香农信息学的理论,从每类文本集的高频词词库中去掉停用词词库中的词,得到每类对应的类型词词库,在此基础上设计特征词加权函数进行特征词的抽取和加权;而文本的表示问题,我们采用的是基于向量空间模型的数字化表示方法,利用文本的特征单元形成向量空间,文本最后被形式化为N维空间的一个向量D;在分类器的设计实现中,我们根据各类别文本数据间的特点,提出了一种在线性可分支持向量机的基础上,根据训练学习中拒识样本数的信息,给其最优分类面中加入了一个松弛项η的改进方法,实现了一个基于支持向量机方法的文本分类器,并取得了较为满意的分类效果。(本文来源于《电子科技大学》期刊2004-02-01)

许林杰[6](2002)在《汉语文本分词问题的形成原因和解决途径》一文中研究指出信息时代对汉语文本提出了一个新的问题 ,即汉语文本的分词问题。从计算机角度着手 ,研究计算机的自动分词问题 ,这是目前国内计算机学界以及语言学家从事的主要工作之一。解决这个问题还有一个途径 ,就是实行双语双文 ,即同时实行汉字书写与拼音化书写。最终 ,辅助性质的汉语拼音文字将解决汉语文本的分词问题。(本文来源于《山东行政学院山东省经济管理干部学院学报》期刊2002年03期)

汉语文本分词论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词算法的特点,将其与概率算法相结合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明,该算法具有较高的分词效率和准确率,对于消去歧义词也有较好的性能。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

汉语文本分词论文参考文献

[1].律佳,廉立志.基于语境分析的汉语分词器在文本信息过滤系统中的应用[J].郑州轻工业学院学报(自然科学版).2010

[2].何国斌,赵晶璐.汉语文本自动分词算法的研究[J].计算机工程与应用.2010

[3].胡正微.人脑输入汉语文本识别分词时的假象分析[J].长沙理工大学学报(社会科学版).2006

[4].贺胜.面向现代汉语文本处理的全文检索、自动分词通用系统[D].南京师范大学.2006

[5].杨孝光.中文文本自动分类系统研究—汉语分词及分类器的设计[D].电子科技大学.2004

[6].许林杰.汉语文本分词问题的形成原因和解决途径[J].山东行政学院山东省经济管理干部学院学报.2002

论文知识图

汉语文本分词和词性标注一1汉语文本分词和词性标注Fig.2...信息采集模块功能结构系统总体结构汉民翻译过程的体系结构图基于本体论的eTVSM文本表示模型

标签:;  ;  ;  ;  ;  ;  ;  

汉语文本分词论文_律佳,廉立志
下载Doc文档

猜你喜欢