Print

BiLSTM-CRF模型在中文电子病历命名实体识别中的应用研究

论文摘要

[目的/意义]健康医疗大数据是我国重要的基础性战略资源。中文电子病历的命名实体识别有助于从大量非结构化文本中提取重要信息,从而为医疗数据挖掘与应用奠定基础。[方法/过程]为探讨深度学习算法在中文电子病历命名实体识别中的效果,本研究通过标注语料集,建立BiLSTM-CRF模型对电子病历中症状、检查、疾病、药物、治疗五类实体进行了识别,并与传统CRF方法进行对比,同时对不同标注方案、标注粒度以及标注类别对模型识别效果的影响进行了分析。[结果/结论]BiLSTMCRF模型在基于词的BIOES标注方案下实体识别效果最好,F值为78.12%;从实体类别来看,检查类实体的识别效果最好,而疾病类实体的识别效果不太理想。

论文目录

  • 0 引言
  • 1 研究现状
  •   1.1 医学实体识别方法与现状
  •     1.1.1 基于规则的医学实体识别
  •     1.1.2 基于统计的医学实体识别
  •   1.2 深度学习在实体识别中的应用现状
  • 2 实体识别方法与评估
  •   2.1 条件随机场模型
  •   2.2 双向长短时记忆模型
  •   2.3 BiLSTM-CRF模型
  •   2.4 评估标准
  • 3 研究数据与过程
  •   3.1 数据获取
  •   3.2 语料标注
  •   3.3 CRF模型的构建与实现
  •   3.4 BiLSTM-CRF模型的构建与实现
  • 4 研究结果与分析
  •   4.1 不同标注粒度对实体识别结果的影响
  •   4.2 不同标注方案对实体识别结果的影响
  •   4.3 不同标注类别对实体识别结果的影响
  • 5 研究结论与展望
  • 文章来源

    类型: 期刊论文

    作者: 王若佳,魏思仪,王继民

    关键词: 深度学习,电子病历,命名实体识别,模型,条件随机场

    来源: 文献与数据学报 2019年02期

    年度: 2019

    分类: 信息科技,医药卫生科技

    专业: 医学教育与医学边缘学科,计算机软件及计算机应用

    单位: 北京大学信息管理系,北京大学海洋研究院,康奈尔大学信息科学学院

    分类号: TP391.1;R-05

    页码: 53-66

    总页数: 14

    文件大小: 1717K

    下载量: 407

    相关论文文献

    本文来源: https://www.lunwen66.cn/article/d20550f357466c9c790ac962.html