基于词性标注与分词消歧的中文分词方法

基于词性标注与分词消歧的中文分词方法

论文摘要

中文分词是中文信息处理的前提和基础.文章综合基于词典的分词方法和统计的分词方法的优点,旨在提出一种基于词性标注与分词消歧的中文分词方法,针对初次分词结果中的歧义集进行对比消歧.利用正向、逆向最大匹配方法以及隐马尔可夫模型进行分词,得到三种分词结果中的歧义集.基于词信息对歧义集进行初次消歧.通过隐马尔可夫模型标注词性,利用Viterbi算法对每种分词结果选取最优词性标注.并基于定义的最优切分评估函数对歧义集进行二次消歧,从而获得最终分词.通过实验对比,证明该方法具有良好的消歧效果.

论文目录

  • 0 引 言
  • 1 最大匹配法
  • 2 基于隐马尔可夫模型的中文分词与词性标注
  • 3 切分歧义
  • 4 分词消歧模型
  •   4.1 文本特征表示
  •   4.2 评估函数
  •   4.3 消歧步骤
  • 5 实验与分析
  •   5.1 语料训练
  •   5.2 实验结果
  • 6 结 语
  • 文章来源

    类型: 期刊论文

    作者: 熊健,翟紫姹

    关键词: 分词,分词消歧,最大匹配法,隐马尔可夫模型,词性标注

    来源: 广州大学学报(自然科学版) 2019年05期

    年度: 2019

    分类: 基础科学,信息科技

    专业: 计算机软件及计算机应用

    单位: 广州大学经济与统计学院

    分类号: TP391.1

    页码: 27-33

    总页数: 7

    文件大小: 318K

    下载量: 147

    相关论文文献

    标签:;  ;  ;  ;  ;  

    基于词性标注与分词消歧的中文分词方法
    下载Doc文档

    猜你喜欢