面向小样本不平衡数据的生物医学事件抽取方法研究

论文摘要

随着分子生物领域文献呈现爆炸式增长,科研人员要从海量的非结构化或半结构化电子文献中获取需要的特定知识,传统的阅读方式已经不能满足人们的需求。最近几年,研究者们利用文本挖掘技术在生物医学领域进行命名实体识别,关系抽取任务。然而仅仅这些不足以帮助科研工作者们理解持续增长的复杂生物医学文本。因此,生物医学的文本挖掘技术从命名实体识别和关系抽取逐渐转变到细粒度的复杂事件抽取。生物医学事件抽取旨在抽取生物过程中的语义和角色信息,这种事件通常具有复杂的结构,并且具有多种类别。而采取结构化的知识获取生物医学事件的表示是至关重要的,通过有效且准确的方法抽取生物医学事件也是必然的。生物医学事件抽取有助于基因本体库、蛋白质关系库和通路数据库等的挖掘整理工作和研究效率。现存的生物医学事件语料库存在两个问题。第一,小样本问题。当语料库的样本过少时容易产生过拟合,并且容易造成分类结果精确率较高,但召回率较低;如果进行人工标注样本则需要花费巨大的代价。第二,样本数据分布不平衡的问题。在关系抽取任务中,都是基于一个基本假设——数据分布是均匀的。但应用到实际数据后,往往都无法取得理想的效果,因为大多数实际数据不会拥有完全相等的分类数据集。特别是当正例样本与负例样本之间存在数量级差别,会造成分类器向多数类样本倾斜,分类模型的效果明显下降。因此,本文采用对模型的事件抽取方式,从句子表示和样本有效选择出发,深入探讨和研究预测修正、半监督学习和主动学习方法以解决生物医学文献中的多类别事件分类的小样本和样本的不平衡问题,有效地提高了生物医学事件抽取的性能。本文的主要工作内容如下:(1)针对生物医学事件抽取中的小样本问题,在半监督框架下,提出了一种基于支持向量机分类模型和卷积神经网络模型协同学习的生物医学事件抽取方法。首先,通过人工设计的丰富特征集的支持向量机分类模型对无标记的生物医学语料进行事件抽取。其次,通过对事件样本集中各个样本的依存路径进行信息扩展,生成两种新的表示,分别为依存词序列和依存类型序列。并采用基于两种序列向量作为输入的卷积神经网络模型对无标记语料进行事件抽取。将协同学习得到的伪标记样本结果进行融合,根据冲突概率评估规则,对两种结果进行甄选,增强训练集。在测试阶段,采用SVM分类模型进行预测。通过大量的实验对该方法的性能和效果进行了评价,实验表明,所提出的方法能够很好地缓解生物医学事件语料库中存在的小样本问题,提高分类模型的性能。(2)针对生物医学事件抽取中数据集样本分布不平衡问题,提出了一种基于序列模式的样本过滤和联合评分机制的决策评估方法,用于改善分类性能,提高生物医学事件的识别率。首先,采用序列模式算法抑制负例样本,从而限制正负例样本比例,确保样本对分类器结果的影响趋于平衡,加快收敛速度;其次,考虑多参事件中触发词和参数之间的联合信息,利用支持向量机模型对多参事件的三元组进行抽取,并对二元关系和三元关系的预测结果进行融合。最后,采用结合触发词重要度和基于卷积深度结构性语义模型的句子相似度的联合评分机制,对预测结果进行决策修正。在常用的Bio NLP共享任务中的GENIA 2011和GENIA 2013数据集上进行了实验,结果表明,本文所提出的方法,通过均衡正负样本的分布,弱化分类边界偏向多数类的情况,并对分类结果进行修正,在能保证较高的事件抽取召回率的同时提高了精确率。(3)针对生物医学事件中存在的小样本和类别分布差异,将半监督学习与主动学习结合,提出一种基于聚类查询合成置信度评估的生物医学事件抽取方法,对低置信度和高置信度样本分别进行专家标注和自适应扩充。首先,利用支持向量机模型对无标记的生物医学语料进行事件抽取,构建待分析数据集。其次,在待分析数据集上进行聚类,划分各个类簇中的代表类别样本和非代表类别样本,分别查询代表类别样本中的离群点和非代表类别样本中的近中心点,合成两种类型的样本点为异常点,并将异常点作为低置信度样本交由专家标注,而其他的样本则为高置信度样本。根据生物医学事件中各个事件类别的分布,自适应扩充各个事件类别的高置信度样本,调整多类别事件之间样本分布差异性和小样本问题。实验结果表明,与其他事件抽取方法相比,本文所提出的方法能够实现更好的生物医学事件抽取性能,提升分类模型的泛化能力。综上所述,本文针对生物医学事件语料中存在的小样本不平衡问题,从扩充数据集并调整各事件类别样本分布的角度出发,深入的探讨和研究半监督学习、预测修正和主动学习方法。提升了生物医学事件抽取分类器的泛化能力,以及事件抽取的准确性和鲁棒性。

论文目录

摘要

abstract

第1章绪论

1.1 研究目的及意义

1.2 国内外研究进展

1.3 本文工作及组织结构

第2章相关背景知识与技术介绍

2.1 引言

2.2 BioNLP Genia任务

2.3 生物医学事件抽取流程概述

2.3.1 数据收集

2.3.2 文本预处理

2.3.3 传统机器学习方法的特征工程和文本表示

2.3.4 深度学习中的特征学习和文本表示

2.4 对模型

2.4.1 对模型介绍

2.4.2 基于SVM的生物医学事件抽取

2.5 评价指标

第3章基于SVM和 CNN协同学习的生物医学事件抽取

3.1 引言

3.2 方法描述

3.2.1 协同学习

3.2.2 卷积神经网络

3.2.3 样本决策评估

3.3 实验与分析

3.3.1 实验设置

3.3.2 实验结果

3.3.3 性能分析

3.3.4 方法比较

3.3.5 讨论

3.4 本章小结

第4章基于序列模式和联合评分机制方法的生物医学事件抽取

4.1 引言

4.2 方法描述

4.2.1 序列模式抽取

4.2.2 多参事件的抽取

4.2.3 联合评分机制

4.3 实验与分析

4.3.1 实验设置

4.3.2 实验结果

4.3.3 性能分析

4.3.4 方法比较

4.4 本章小结

第5章基于聚类查询合成置信度评估的生物医学事件抽取

5.1 引言

5.2 方法描述

5.2.1 主动学习

5.2.2 基于聚类的样本分析

5.3 实验与分析

5.3.1 实验设置

5.3.2 GENIA2011 评测结果

5.3.3 GENIA2013 评测结果

5.3.4 性能分析

5.3.5 讨论

5.4 本章小结

第6章结论与展望

6.1 结论

6.2 展望

参考文献

攻读博士学位期间取得的学术成果

致谢

文章来源

类型: 博士论文

作者: 路扬

导师: 卢奕南

关键词: 生物医学事件抽取,小样本,不平衡数据,序列模式,协同学习

来源: 吉林大学

年度: 2019

分类: 基础科学

专业: 生物学

单位: 吉林大学

分类号: Q811.4

DOI: 10.27162/d.cnki.gjlin.2019.000178

总页数: 108

文件大小: 3648K

下载量: 552

面向小样本不平衡数据的生物医学事件抽取方法研究

论文摘要

论文目录

文章来源

相关论文文献

猜你喜欢