论文摘要
中文分词是中文信息处理的前提和基础.文章综合基于词典的分词方法和统计的分词方法的优点,旨在提出一种基于词性标注与分词消歧的中文分词方法,针对初次分词结果中的歧义集进行对比消歧.利用正向、逆向最大匹配方法以及隐马尔可夫模型进行分词,得到三种分词结果中的歧义集.基于词信息对歧义集进行初次消歧.通过隐马尔可夫模型标注词性,利用Viterbi算法对每种分词结果选取最优词性标注.并基于定义的最优切分评估函数对歧义集进行二次消歧,从而获得最终分词.通过实验对比,证明该方法具有良好的消歧效果.
论文目录
文章来源
类型: 期刊论文
作者: 熊健,翟紫姹
关键词: 分词,分词消歧,最大匹配法,隐马尔可夫模型,词性标注
来源: 广州大学学报(自然科学版) 2019年05期
年度: 2019
分类: 基础科学,信息科技
专业: 计算机软件及计算机应用
单位: 广州大学经济与统计学院
分类号: TP391.1
页码: 27-33
总页数: 7
文件大小: 318K
下载量: 147