面向小样本不平衡数据的生物医学事件抽取方法研究

面向小样本不平衡数据的生物医学事件抽取方法研究

论文摘要

随着分子生物领域文献呈现爆炸式增长,科研人员要从海量的非结构化或半结构化电子文献中获取需要的特定知识,传统的阅读方式已经不能满足人们的需求。最近几年,研究者们利用文本挖掘技术在生物医学领域进行命名实体识别,关系抽取任务。然而仅仅这些不足以帮助科研工作者们理解持续增长的复杂生物医学文本。因此,生物医学的文本挖掘技术从命名实体识别和关系抽取逐渐转变到细粒度的复杂事件抽取。生物医学事件抽取旨在抽取生物过程中的语义和角色信息,这种事件通常具有复杂的结构,并且具有多种类别。而采取结构化的知识获取生物医学事件的表示是至关重要的,通过有效且准确的方法抽取生物医学事件也是必然的。生物医学事件抽取有助于基因本体库、蛋白质关系库和通路数据库等的挖掘整理工作和研究效率。现存的生物医学事件语料库存在两个问题。第一,小样本问题。当语料库的样本过少时容易产生过拟合,并且容易造成分类结果精确率较高,但召回率较低;如果进行人工标注样本则需要花费巨大的代价。第二,样本数据分布不平衡的问题。在关系抽取任务中,都是基于一个基本假设——数据分布是均匀的。但应用到实际数据后,往往都无法取得理想的效果,因为大多数实际数据不会拥有完全相等的分类数据集。特别是当正例样本与负例样本之间存在数量级差别,会造成分类器向多数类样本倾斜,分类模型的效果明显下降。因此,本文采用对模型的事件抽取方式,从句子表示和样本有效选择出发,深入探讨和研究预测修正、半监督学习和主动学习方法以解决生物医学文献中的多类别事件分类的小样本和样本的不平衡问题,有效地提高了生物医学事件抽取的性能。本文的主要工作内容如下:(1)针对生物医学事件抽取中的小样本问题,在半监督框架下,提出了一种基于支持向量机分类模型和卷积神经网络模型协同学习的生物医学事件抽取方法。首先,通过人工设计的丰富特征集的支持向量机分类模型对无标记的生物医学语料进行事件抽取。其次,通过对事件样本集中各个样本的依存路径进行信息扩展,生成两种新的表示,分别为依存词序列和依存类型序列。并采用基于两种序列向量作为输入的卷积神经网络模型对无标记语料进行事件抽取。将协同学习得到的伪标记样本结果进行融合,根据冲突概率评估规则,对两种结果进行甄选,增强训练集。在测试阶段,采用SVM分类模型进行预测。通过大量的实验对该方法的性能和效果进行了评价,实验表明,所提出的方法能够很好地缓解生物医学事件语料库中存在的小样本问题,提高分类模型的性能。(2)针对生物医学事件抽取中数据集样本分布不平衡问题,提出了一种基于序列模式的样本过滤和联合评分机制的决策评估方法,用于改善分类性能,提高生物医学事件的识别率。首先,采用序列模式算法抑制负例样本,从而限制正负例样本比例,确保样本对分类器结果的影响趋于平衡,加快收敛速度;其次,考虑多参事件中触发词和参数之间的联合信息,利用支持向量机模型对多参事件的三元组进行抽取,并对二元关系和三元关系的预测结果进行融合。最后,采用结合触发词重要度和基于卷积深度结构性语义模型的句子相似度的联合评分机制,对预测结果进行决策修正。在常用的Bio NLP共享任务中的GENIA 2011和GENIA 2013数据集上进行了实验,结果表明,本文所提出的方法,通过均衡正负样本的分布,弱化分类边界偏向多数类的情况,并对分类结果进行修正,在能保证较高的事件抽取召回率的同时提高了精确率。(3)针对生物医学事件中存在的小样本和类别分布差异,将半监督学习与主动学习结合,提出一种基于聚类查询合成置信度评估的生物医学事件抽取方法,对低置信度和高置信度样本分别进行专家标注和自适应扩充。首先,利用支持向量机模型对无标记的生物医学语料进行事件抽取,构建待分析数据集。其次,在待分析数据集上进行聚类,划分各个类簇中的代表类别样本和非代表类别样本,分别查询代表类别样本中的离群点和非代表类别样本中的近中心点,合成两种类型的样本点为异常点,并将异常点作为低置信度样本交由专家标注,而其他的样本则为高置信度样本。根据生物医学事件中各个事件类别的分布,自适应扩充各个事件类别的高置信度样本,调整多类别事件之间样本分布差异性和小样本问题。实验结果表明,与其他事件抽取方法相比,本文所提出的方法能够实现更好的生物医学事件抽取性能,提升分类模型的泛化能力。综上所述,本文针对生物医学事件语料中存在的小样本不平衡问题,从扩充数据集并调整各事件类别样本分布的角度出发,深入的探讨和研究半监督学习、预测修正和主动学习方法。提升了生物医学事件抽取分类器的泛化能力,以及事件抽取的准确性和鲁棒性。

论文目录

  • 摘要
  • abstract
  • 第1章 绪论
  •   1.1 研究目的及意义
  •   1.2 国内外研究进展
  •   1.3 本文工作及组织结构
  • 第2章 相关背景知识与技术介绍
  •   2.1 引言
  •   2.2 BioNLP Genia任务
  •   2.3 生物医学事件抽取流程概述
  •     2.3.1 数据收集
  •     2.3.2 文本预处理
  •     2.3.3 传统机器学习方法的特征工程和文本表示
  •     2.3.4 深度学习中的特征学习和文本表示
  •   2.4 对模型
  •     2.4.1 对模型介绍
  •     2.4.2 基于SVM的生物医学事件抽取
  •   2.5 评价指标
  • 第3章 基于SVM和 CNN协同学习的生物医学事件抽取
  •   3.1 引言
  •   3.2 方法描述
  •     3.2.1 协同学习
  •     3.2.2 卷积神经网络
  •     3.2.3 样本决策评估
  •   3.3 实验与分析
  •     3.3.1 实验设置
  •     3.3.2 实验结果
  •     3.3.3 性能分析
  •     3.3.4 方法比较
  •     3.3.5 讨论
  •   3.4 本章小结
  • 第4章 基于序列模式和联合评分机制方法的生物医学事件抽取
  •   4.1 引言
  •   4.2 方法描述
  •     4.2.1 序列模式抽取
  •     4.2.2 多参事件的抽取
  •     4.2.3 联合评分机制
  •   4.3 实验与分析
  •     4.3.1 实验设置
  •     4.3.2 实验结果
  •     4.3.3 性能分析
  •     4.3.4 方法比较
  •   4.4 本章小结
  • 第5章 基于聚类查询合成置信度评估的生物医学事件抽取
  •   5.1 引言
  •   5.2 方法描述
  •     5.2.1 主动学习
  •     5.2.2 基于聚类的样本分析
  •   5.3 实验与分析
  •     5.3.1 实验设置
  •     5.3.2 GENIA2011 评测结果
  •     5.3.3 GENIA2013 评测结果
  •     5.3.4 性能分析
  •     5.3.5 讨论
  •   5.4 本章小结
  • 第6章 结论与展望
  •   6.1 结论
  •   6.2 展望
  • 参考文献
  • 攻读博士学位期间取得的学术成果
  • 致谢
  • 文章来源

    类型: 博士论文

    作者: 路扬

    导师: 卢奕南

    关键词: 生物医学事件抽取,小样本,不平衡数据,序列模式,协同学习

    来源: 吉林大学

    年度: 2019

    分类: 基础科学

    专业: 生物学

    单位: 吉林大学

    分类号: Q811.4

    DOI: 10.27162/d.cnki.gjlin.2019.000178

    总页数: 108

    文件大小: 3648K

    下载量: 552

    相关论文文献

    • [1].基于谱顶层分割的网络社区层次抽取方法[J]. 计算机系统应用 2020(01)
    • [2].融合门控机制的远程监督关系抽取方法[J]. 北京大学学报(自然科学版) 2020(01)
    • [3].生物医学语义关系抽取方法综述[J]. 图书馆论坛 2017(06)
    • [4].基于最大熵的越南语新闻事件元素抽取方法[J]. 数据采集与处理 2017(04)
    • [5].两种转换波共转换点道集抽取方法的对比分析与应用[J]. 岩性油气藏 2013(06)
    • [6].结合百科知识与句子语义特征的关系抽取方法[J]. 计算机科学 2020(S1)
    • [7].融入多特征的汉越新闻观点句抽取方法[J]. 中文信息学报 2019(11)
    • [8].面向中文产品评论的完整评价对象抽取方法[J]. 计算机工程 2017(06)
    • [9].一种基于时空分析的事件抽取方法[J]. 国外电子测量技术 2017(06)
    • [10].实体-属性抽取简介[J]. 电脑知识与技术 2019(33)
    • [11].基于深度学习的作战文书事件抽取方法[J]. 信息工程大学学报 2019(05)
    • [12].一种改进的基于核心句的评价搭配抽取方法[J]. 计算机工程 2015(02)
    • [13].基于多头注意力机制的人物关系抽取方法[J]. 成都工业学院学报 2020(01)
    • [14].基于相似义原和依存句法的政外领域事件抽取方法[J]. 计算机工程与科学 2020(09)
    • [15].结合主题分布与统计特征的关键词抽取方法[J]. 计算机工程 2017(07)
    • [16].基于知乎的热点话题信息抽取方法研究[J]. 信息通信 2015(12)
    • [17].一种面向文本的概念抽取方法的研究[J]. 计算机应用与软件 2009(09)
    • [18].基于半监督条件随机场的信息抽取方法[J]. 信息与电脑(理论版) 2020(10)
    • [19].基于文本化简的实体属性抽取方法[J]. 计算机工程与应用 2020(21)
    • [20].基于代码克隆检测的抽取方法重构模式识别[J]. 计算机应用与软件 2019(09)
    • [21].基于唯一标识符的小范围均衡随机抽取方法[J]. 电子设计工程 2018(15)
    • [22].面向领域概念的语义关系抽取方法[J]. 中国传媒大学学报(自然科学版) 2017(03)
    • [23].网络游记中地方热度特产信息的抽取方法研究[J]. 微型电脑应用 2017(10)
    • [24].关系抽取方法研究[J]. 电子技术 2009(04)
    • [25].基于深度学习的关系抽取研究综述[J]. 中文信息学报 2019(12)
    • [26].网页内容安全快速信息抽取方法[J]. 信息网络安全 2012(10)
    • [27].针对科技路线图的文本挖掘研究:信息抽取方法[J]. 情报理论与实践 2017(05)
    • [28].基于句法结构的评价对象抽取方法研究[J]. 长春教育学院学报 2017(06)
    • [29].特定领域概念属性关系抽取方法研究[J]. 吉林大学学报(信息科学版) 2017(04)
    • [30].一种中文法律审判文书的知识抽取方法[J]. 信息系统工程 2020(05)

    标签:;  ;  ;  ;  ;  

    面向小样本不平衡数据的生物医学事件抽取方法研究
    下载Doc文档

    猜你喜欢