论文摘要
【目的】充分利用源领域标注语料和可重用的字嵌入预训练模型,解决目标领域标注语料稀缺的命名实体识别问题。【方法】选择以肺癌和肝癌为主题的患者在线问诊文本作为实验数据,提出一种结合实例迁移和模型迁移的KNN-BERT-BiLSTM-CRF框架,对仅有少量标注的肝癌患者提问文本进行跨领域命名实体识别。【结果】当实例迁移的k值设置为3时, KNN-BERT-BiLSTM-CRF模型的实体识别效果最优, F值为96.10%,相对无实例迁移提高了1.98%。【局限】该方法针对其他差异度较大的目标领域,如不同数据源或病种的实体识别迁移效果还有待验证。【结论】当目标领域标注语料有限时,可借助大型预训练模型的先验知识和领域外标注语料,使用跨领域迁移学习方法,提高命名实体识别的性能。
论文目录
文章来源
类型: 期刊论文
作者: 陈美杉,夏晨曦
关键词: 命名实体识别,迁移学习
来源: 数据分析与知识发现 2019年12期
年度: 2019
分类: 信息科技,医药卫生科技
专业: 医学教育与医学边缘学科,计算机软件及计算机应用,自动化技术
单位: 华中科技大学医药卫生管理学院
基金: 中央高校基本科研业务费自主创新基金项目“面向社交网络的情感分析与观点挖掘方法研究”(项目编号:0118516036)的研究成果之一
分类号: TP391.1;TP181;R-05
页码: 61-69
总页数: 9
文件大小: 1255K
下载量: 358