论文摘要
[目的/意义]在新时代人民日报分词语料库的基础上构建的深度学习自动分词模型,不仅有助于为高性能分词模型的构建提供经验,也可以借助具体的自然语言处理研究任务验证深度学习相应模型的性能。[方法/过程]在介绍双向长短时记忆模型(Bi-LSTM)和双向长短时记忆与条件随机场融合模型(Bi-LSTM-CRF)的基础上,阐明汉语分词语料预处理、评价指标和参数与硬件平台的过程、种类和情况,分别构建Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型,并对模型的整体性能进行分析。[结果/结论]从精准率、召回率和调和平均值3个指标上看,所构建的Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型的整体性能相对较为合理。在具体性能上,Bi-LSTM分词模型优于Bi-LSTM-CRF分词模型,但这一差距非常细微。
论文目录
文章来源
类型: 期刊论文
作者: 黄水清,王东波
关键词: 新时代人民日报分词语料,语料库,自动分词,深度学习
来源: 图书情报工作 2019年23期
年度: 2019
分类: 信息科技
专业: 计算机软件及计算机应用,自动化技术
单位: 南京农业大学信息科学技术学院,南京农业大学领域知识关联研究中心
分类号: TP18;TP391.1
DOI: 10.13266/j.issn.0252-3116.2019.23.001
页码: 5-12
总页数: 8
文件大小: 931K
下载量: 167
相关论文文献
- [1].基于C程序实现汉语自动分词系统[J]. 信息与电脑(理论版) 2012(18)
- [2].汉语自动分词系统的设计与实现[J]. 信息与电脑(理论版) 2014(14)
- [3].汉语自动分词方法的综述[J]. 科技信息 2009(07)
- [4].基于语料库的汉语自动分词错误类型分析[J]. 华中师范大学研究生学报 2017(01)
- [5].基于N元语法的汉语自动分词系统研究[J]. 微电子学与计算机 2009(07)
- [6].汉语自动分词研究进展[J]. 魅力中国 2009(22)
- [7].汉语自动分词研究进展[J]. 魅力中国 2009(30)
- [8].基于新统计量mt的汉语自动分词方法研究[J]. 微处理机 2008(01)
- [9].浅谈汉语自动分词的几种方法[J]. 价值工程 2011(13)
- [10].序[J]. 图书情报工作 2020(07)
- [11].一种新词检测方法研究[J]. 数字通信 2013(02)
- [12].一种基于规则优先级的词性标注方法[J]. 安徽工业大学学报(自然科学版) 2008(04)
- [13].试论现代汉语词语的切分技术[J]. 中国新技术新产品 2010(24)
- [14].机器翻译的词处理研究[J]. 计算机工程与科学 2009(05)
- [15].汉语真需要词间空格吗——对汉语分词连写献疑[J]. 语言科学 2014(06)
- [16].基于知网语义相关度计算的词义消歧方法[J]. 安徽工业大学学报(自然科学版) 2008(01)
- [17].汉语分词技术综述[J]. 图书情报工作 2008(04)
- [18].用哈希算法和二分法实现中文词典的快速查找[J]. 计算机时代 2014(09)
- [19].基于统计和规则的中文姓名识别[J]. 信息与电脑(理论版) 2011(10)
- [20].汉语自动分词技术研究[J]. 计算机与数字工程 2008(11)
- [21].基于灰熵的汉语机器翻译消歧研究[J]. 科技信息 2012(03)
- [22].基于正向最大匹配的汉语分词[J]. 安阳师范学院学报 2010(05)
- [23].基于统计的开放式汉语自动分词[J]. 福建电脑 2009(03)
- [24].计算机汉语语义组织和检索述评[J]. 通化师范学院学报 2014(02)
- [25].一种基于搭配信息的汉语组合型消歧方法[J]. 山西大学学报(自然科学版) 2008(02)
- [26].基于上下文信息和碎片的交叉领域汉语自动分词(英文)[J]. 中国通信 2012(03)
- [27].汉语交集型歧义切分字段关于专业领域的统计特性[J]. 中文信息学报 2008(04)
- [28].汉语自动分词词典新机制—词值哈希机制[J]. 计算机系统应用 2013(02)
- [29].基于二次哈希并逐字二分匹配的中文分词改进算法[J]. 信息与电脑(理论版) 2010(18)
- [30].汉语自动分词理论对英语教学的启示[J]. 榆林学院学报 2010(01)
标签:新时代人民日报分词语料论文; 语料库论文; 自动分词论文; 深度学习论文;