Print

新时代人民日报分词语料库构建、性能及应用(一)——语料库构建及测评

论文摘要

[目的/意义]构建与新时代相适应的人民日报分词语料库,为中文信息处理提供最新的精标注语料,也为从历时的角度分析现代汉语提供新的语言资源。[方法/过程]在分析已有汉语分词语料库的基础上,描述所构建新时代人民日报语料库的数据源、标注规范和流程,通过构建分词自动标注模型测评语料库的性能,并与已有语料库进行对比。[结果/结论]新时代人民日报语料库遵循现代汉语语料库基本加工规范,规模大,时间跨度长。选取其中的2018年1月部分,基于条件随机场构建分词模型,与1998年1月人民日报语料进行性能测评与对比,所得到的各项具体测评指标表明,新时代人民日报语料整体性能突出,1998年语料无法替代,当前构建该语料库非常必要。

论文目录

  • 1引言
  • 2汉语分词语料及分词模型现状分析
  • 3语料获取及预处理
  • 4语料标注及规范
  • 5 NEPD分词实验及性能测评
  •   5.1分词实验及性能比较的思路
  •   5.2模型性能对比
  • 6结语
  • 文章来源

    类型: 期刊论文

    作者: 黄水清,王东波

    关键词: 新时代,人民日报,自动分词,条件随机场模型,语料库

    来源: 图书情报工作 2019年22期

    年度: 2019

    分类: 信息科技

    专业: 计算机软件及计算机应用,自动化技术,图书情报与数字图书馆

    单位: 南京农业大学信息科学技术学院,南京农业大学领域知识关联研究中心

    分类号: TP391.1;TP181;G254

    DOI: 10.13266/j.issn.0252-3116.2019.22.001

    页码: 5-12

    总页数: 8

    文件大小: 523K

    下载量: 226

    相关论文文献

    本文来源: https://www.lunwen66.cn/article/a231f2bbb5a9bfa762513ff9.html