基于词性标注与分词消歧的中文分词方法

论文摘要

中文分词是中文信息处理的前提和基础.文章综合基于词典的分词方法和统计的分词方法的优点,旨在提出一种基于词性标注与分词消歧的中文分词方法,针对初次分词结果中的歧义集进行对比消歧.利用正向、逆向最大匹配方法以及隐马尔可夫模型进行分词,得到三种分词结果中的歧义集.基于词信息对歧义集进行初次消歧.通过隐马尔可夫模型标注词性,利用Viterbi算法对每种分词结果选取最优词性标注.并基于定义的最优切分评估函数对歧义集进行二次消歧,从而获得最终分词.通过实验对比,证明该方法具有良好的消歧效果.

论文目录

0 引言

1 最大匹配法

2 基于隐马尔可夫模型的中文分词与词性标注

3 切分歧义

4 分词消歧模型

4.1 文本特征表示

4.2 评估函数

4.3 消歧步骤

5 实验与分析

5.1 语料训练

5.2 实验结果

6 结语

文章来源

类型: 期刊论文

作者: 熊健,翟紫姹

关键词: 分词,分词消歧,最大匹配法,隐马尔可夫模型,词性标注

来源: 广州大学学报(自然科学版) 2019年05期

年度: 2019

分类: 基础科学,信息科技

专业: 计算机软件及计算机应用

单位: 广州大学经济与统计学院

分类号: TP391.1

页码: 27-33

总页数: 7

文件大小: 318K

下载量: 147

基于词性标注与分词消歧的中文分词方法

论文摘要

论文目录

文章来源

相关论文文献

猜你喜欢