基于MeSH的生物医学知识图谱构建及其在组学数据分析的应用

基于MeSH的生物医学知识图谱构建及其在组学数据分析的应用

论文摘要

二代测序、生物质谱等高通量实验技术的发展和应用,产生了海量的组学数据(基因组学、转录组学和蛋白质组学等),生物医学研究已不可阻挡的迈入了大数据时代。对这些组学数据的解读,可以帮助人们理解生命活动的基本原理,揭示疾病的发生发展原因。生命组学数据极大地扩展了人类对自身生理和病理的认识,但是生命组学数据的分析却面临着严峻挑战。组学数据分析的首要任务就是从整体上对基因进行注释,了解基因参与的生物学过程和基因的功能,掌握基因与生理、病理过程的关系等。通量化的基因注释对识别基因功能,研究基因的表达调控机制,分析基因产物之间的相互关系具有重要的意义。为了对基因进行注释,人们结合各自研究领域,采用专家方式对文献中的信息进行判读和整理,构建了GOA、KEGG、CTD、OMIM等知识库。人工构建的知识库为组学数据注释分析提供了有效的资源,但仍存在领域知识覆盖不全面和更新不及时等问题。生物医学文献数量大,有限的人工使得知识库只能针对特定生物医学主题领域构建,在症状和体征、行为和行为机制等领域仍缺少相应的注释资源。另外,生物医学文献的快速增长,也给专家方式的知识库更新带来了困难。注释数据库以上的知识覆盖不全面、更新不及时等局限也影响了依赖它们的DAVID、Metascape等基因注释工具的实用性。另一方面,随着生物医学文献的爆发式增长,凭借人工方法在数目庞大的新发表文献中发现和获得信息变得更加困难。知识图谱技术提供了一种从海量文本中抽取结构化知识的手段,为知识的提取和展示提供了方便。随着实体识别等知识图谱构建方法的发展,人们建立了结构化、标准化的医学主题词表(MeSH),MeSH涵盖了16个大的生物医学领域,包含两万多个主题词;发展了自动化的文献挖掘工具PubTator,PubTator整合了GenNorm、tmChem等多种实体识别工具。以上工作为生物医学领域自动化的知识图谱构建,以及通量化的基因注释奠定了基础。针对基因数据注释体系和生物医学知识图谱构建的以上研究现状,本文开展了以下两项工作:首先,本文利用MeSH发展了一种基于文献的知识图谱构建方法,并利用该方法构建了一个覆盖多个生物医学领域的知识图谱。本文首先收集了PubMed文献元数据并从中提取了文献和MeSH实体的关联关系,收集了PubTator实体关联数据并从中提取了文献和基因的关联关系。然后,通过整合MeSH实体-文献关联以及基因-文献关联得到了基因-MeSH实体关联,并基于共现频数、卡方检验和标准点互信息等方法对整合的关联进行筛选。进一步,本文通过InParanoid数据库中的物种间直系同源基因信息对知识图谱进行扩充。最后,本文得到了包含11个物种,覆盖16个生物医学领域11,629个MeSH实体,80,756个基因和2,676,776个基因-MeSH实体关联的生物医学知识图谱。本文对细胞类型知识图谱进行了分析,发现白细胞(Leukocytes)、淋巴细胞(Lymphocytes)、巨噬细胞(Macrophages)和红细胞(Erythrocytes)等细胞类型同MeSH本体具有较高的关联。特别的,本文还进一步对免疫抑制相关基因进行了系统的梳理,收集了995个高可信的免疫抑制基因,提供了免疫抑制基因相关疾病、药物和SNP的信息,研发了免疫抑制领域首个在线的基因注释数据库HisgAtlas。然后,本文基于构建的知识图谱,开发了一个基于MeSH本体和生物医学文献的基因数据注释和分析体系MORE。针对提交的基因列表数据,MORE使用超几何分布检验筛选显著富集的MeSH条目,并提供表格视图、树状视图和DAG视图三种可视化的呈现方式,使用户对目标基因挑选更有针对性。MORE还提供了基因注释的文献支持证据页面,该页面展示了基因和MeSH实体的关联信息和文献支撑证据。目前,MORE支持16种本体,可对包括人类等11个物种的组学数据进行基因注释和富集分析。MORE对大鼠热量限制相关基因组学数据的分析表明相较于GO注释体系,MORE可以从更多角度为用户提供实验线索。MORE能发现热量限制影响的神经元细胞(Neuron)、神经胶质细胞(Neuroglia)和星状胶质细胞(Astrocytes)等细胞类型;应用热量限制治疗的肝癌(Liver Neoplasms,Experimental)、乳腺癌(Mammary Neoplasms,Experimental)和糖尿病(Diabetes Mellitus)等疾病;热量摄入相关的葡萄糖胺(Glucosamine)、半乳糖(Galactose)和淀粉(Starch)等糖类物质以及组织培养技术(Tissue Culture Techniques)等实验方法。另外,该体系具备后台数据的自动更新功能。数据下载模块通过PubMed和PubTator提供的API接口定期从数据源下载所需数据,并将下载的数据集传送给数据处理模块。数据处理模块将处理结果写入网站后台数据库。MORE网站目前提供了2018年6月1日和2019年3月1日更新的两个版本。本文知识图谱构建和基因注释分析体系两项工作提升了组学数据基因注释的范围,实现了对新发表文献信息的利用,将促进生命组学数据与文献信息的融合,加快生命组学数据知识发现的速度。

论文目录

  • 缩略语表
  • 摘要
  • Abstract
  • 前言
  •   A 研究背景
  •   B 研究现状
  •     B-1 生物医学知识图谱构建的可用资源
  •     B-2 生物医学知识图谱构建的关键技术和研究现状
  •     B-3 基因注释和富集分析的研究现状
  •   C 立题依据及拟解决的科学问题
  •     C-1 现有基因注释数据库知识覆盖范围不全面且更新不及时
  •     C-2 现有富集分析工具多依赖于基因注释数据库,也受其局限性影响
  •     C-3 将知识图谱应用于组学数据注释分析具有重要意义
  •   D 研究思路和研究方法
  •     D-1 构建覆盖多个生物医学领域的实体和关联基因的知识图谱
  •     D-2 构建基因集注释和富集分析工具MORE
  •   E 研究的创新性、理论意义及实用价值
  • 第一章 基于医学主题词表的生物医学知识图谱构建
  •   1.1 引言
  •   1.2 材料和方法
  •     1.2.1 基于MeSH构建知识图谱的流程
  •     1.2.2 医学主题词表MeSH
  •     1.2.3 PubMed文献元数据
  •     1.2.4 PubTator实体关联数据集
  •     1.2.5 InParonoid直系同源关系数据集
  •     1.2.6 卡方检验
  •     1.2.7 标准点互信息
  •     1.2.8 聚类分析
  •     1.2.9 余弦距离
  •   1.3 结果与讨论
  •     1.3.1 知识图谱的构建和分析
  •     1.3.2 以细胞类型为中心的知识图谱
  •     1.3.3 特定领域生物医学知识图谱和知识库的构建
  •   1.4 小结
  • 第二章 基因集注释和富集分析工具MORE的研发
  •   2.1 引言
  •   2.2 材料与方法
  •     2.2.1 数据收集和处理
  •     2.2.2 MORE后台数据库设计和搭建
  •     2.2.3 MORE前台页面实现
  •     2.2.4 过表达分析
  •     2.2.5 超几何分布检验
  •   2.3 结果与讨论
  •     2.3.1 MORE的整体框架
  •     2.3.2 首页和检索功能展示
  •     2.3.3 注释选择页面
  •     2.3.4 表格视图
  •     2.3.5 树状视图
  •     2.3.6 DAG视图
  •     2.3.7 文献支持证据页面
  •     2.3.8 帮助文档和用户提问
  •     2.3.9 MORE的自动更新流程
  •   2.4 MORE应用示例
  •   2.5 小结
  • 第三章 结论与展望
  • 参考文献
  • 附录A HisgAtlas免疫抑制基因列表
  • 作者在学期间取得的学术成果
  • 主要简历
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 贺梦琪

    导师: 贺福初,李栋

    关键词: 生物信息学,知识图谱,医学主题词表,富集分析

    来源: 军事科学院

    年度: 2019

    分类: 基础科学,医药卫生科技

    专业: 生物学,生物医学工程

    单位: 军事科学院

    分类号: R318

    总页数: 74

    文件大小: 3319K

    下载量: 252

    相关论文文献

    • [1].蓝牙Mesh在物联网中的应用[J]. 科技智囊 2020(07)
    • [2].无线mesh网多路径路由协议的设计[J]. 赤峰学院学报(自然科学版) 2017(01)
    • [3].无线Mesh网络在井下应急通信系统中的应用[J]. 煤炭技术 2014(11)
    • [4].一种基于博弈论的无线Mesh网信道分配算法[J]. 无线互联科技 2015(07)
    • [5].基于无线Mesh网络技术智能家居方案的研究[J]. 电子产品可靠性与环境试验 2019(S1)
    • [6].无线Mesh网络速率自适应算法研究[J]. 无线电通信技术 2020(03)
    • [7].无线mesh网的跨层设计及其应用[J]. 电讯技术 2016(05)
    • [8].红外测温数据采用无线Mesh网络传输的研究[J]. 华东电力 2013(11)
    • [9].无线Mesh网络部分重叠信道分配综述[J]. 通信学报 2014(05)
    • [10].无线mesh网络中的虫洞攻击检测研究[J]. 通信学报 2011(01)
    • [11].基于802.11的无线Mesh网络可用带宽估计方法[J]. 计算机技术与发展 2011(11)
    • [12].无线Mesh网中网络编码的研究进展[J]. 计算机工程与应用 2010(12)
    • [13].一种基于无线Mesh网络的公共信息资源管理系统[J]. 图书馆理论与实践 2009(08)
    • [14].基于多径路由的无线Mesh网可靠性评估[J]. 应用科学学报 2009(05)
    • [15].《医学主题词表》(MeSH)及其在医学文献检索中的应用[J]. 首都医科大学学报(社科版) 2008(00)
    • [16].基于贪心算法的3D-Mesh片上网络层间互联结构[J]. 计算机工程 2016(09)
    • [17].煤矿MESH网的设计与组成[J]. 电脑编程技巧与维护 2017(08)
    • [18].腹腔镜下Mesh网片阴道骶骨前固定治疗膀胱脱垂疗效及安全性分析[J]. 中华腔镜泌尿外科杂志(电子版) 2016(01)
    • [19].基于链路负载分级的无线Mesh网信道分配算法[J]. 电子技术应用 2016(05)
    • [20].无线Mesh网基于簇的多信道分配策略[J]. 电脑开发与应用 2014(02)
    • [21].认知Mesh网络中基于免疫多目标优化的频谱分配[J]. 计算机应用 2014(08)
    • [22].利用Mesh技术的广西无线城市组网研究[J]. 计算机技术与发展 2012(07)
    • [23].认知无线Mesh网络跨层设计研究[J]. 电信科学 2011(02)
    • [24].网络编码在无线Mesh网中的应用综述[J]. 小型微型计算机系统 2011(03)
    • [25].基于传输路径质量的无线mesh网络可靠多播[J]. 通信学报 2011(05)
    • [26].无线Mesh网络结构的拓扑控制策略[J]. 无线电通信技术 2011(04)
    • [27].认知无线Mesh网络中基于干扰模型的信道分配策略[J]. 计算机应用研究 2010(05)
    • [28].无线Mesh网络逐层信道分配策略研究[J]. 广西大学学报(自然科学版) 2010(06)
    • [29].无线mesh网络中的信道分配问题研究[J]. 无线电通信技术 2009(05)
    • [30].一种基于排序蚁群算法的无线Mesh多径路由协议[J]. 通信技术 2020(03)

    标签:;  ;  ;  ;  

    基于MeSH的生物医学知识图谱构建及其在组学数据分析的应用
    下载Doc文档

    猜你喜欢