多维生物医学数据的调控网络构建与分析

多维生物医学数据的调控网络构建与分析

论文摘要

随着高通量技术的不断发展,实验过程中产生了大量的全基因组SNP数据、蛋白质组、表观基因组、转录组及代谢产物组等高维多组学生物医学数据,这些数据具有高维小样本的特点。海量高维多组学生物医学数据为研究和揭示基因与基因及其产物之间的相互作用关系提供了机遇。网络在数据信息挖掘中扮演着重要的角色,基于网络的系统生物学方法已经成为研究生物系统复杂行为的强大工具。本文基于高维多组学生物医学数据,建立模型和提出智能优化算法,分别从大规模的基因调控网络和多层调控网络两个不同的网络层次来研究基因之间的调控机制。因此,本文聚焦基于高维多组学生物医学数据构建调控网络方法的研究及对构建的调控网络分析,主要研究内容包括以下三个方面:1.针对高维时序基因表达数据,提出了一种基于随机奇异值分解推断大规模基因调控网络算法。高维的时序基因表达数据具有维数高、时间点少且带有噪声的特点,为了解决这一问题,提出了一种基于奇异值分解构建大规模基因调控网络算法。首先用常微分方程模型刻画基因之间的调控关系,并将构建基因调控网络的问题转化为一个估计模型参数的优化问题。然后,将时序基因表达数据与高斯矩阵结合,可以对数据噪声进行平滑处理,有利于降低数据的噪声。最后,为了对高维时序基因表达数据进行降维,在提出的算法中引入了一个随机策略。一般来说,基因表达数据中只有少数基因在基因调控网络中起着重要作用。随机策略可以随机选择数据中部分基因来推断基因调控网络,而不是所有的基因数据。与原始的高维数据相比,降维后的数据更容易构建有效的基因调控网络。同时,在构建基因调控网络的时候容易引入过多的假阳性,我们在提出的算法中引入一个迭代策略来提高构建的基因调控网络的精度,降低网络的假阳性。研究表明生物网络通常是非常稀疏的。为了精确有效的评价构建的基因调控网络,提出两个新的网络评价指标-期望精度和期望误差。由于基因调控网络具有较高稀疏性,即基因调控网络中调控边的数量比网络规模要小得多。从而,导致假阳性与假阴性、真阳性与真阴性的数量不在一个数量级上。针对稀疏的基因调控网络,将网络的高稀疏性特征考虑到指标期望精度与期望误差的设定中。数值实验结果表明,相比较用精度和错误率评价生物网络,提出的两个新指标更加具有合理性。为了验证所提出的算法的性能,将提出的算法在Dialogue for Reverse Engineering Assessments and Methods challenge(DREAM)的四个著名的标准数据集上进行测试。实验结果表明,基于高维时序基因表达数据,基于奇异值分解构建大规模基因调控网络算法可以构建高精度,稀疏的基因调控网络。2.针对不同实验设置的呼吸道合胞病毒感染的转录组学数据,结合数据库信息及优化算法构建基因调控网络并识别网络的关键模块。接种预防呼吸道合胞病毒感染疫苗时容易引起疫苗增强性疾病。为了研究疫苗增强性疾病发生的机制,基于不同实验设置的呼吸道合胞病毒转录组学数据,提出一种结合已有数据库的优化算法来构建不同实验条件下的基因调控网络。为了降低实验数据的维度,在构建网络时通过Fold Change和T-test筛选呼吸道合胞病毒数据中有差异表达的基因。研究表明,基因调控网络规模是非常庞大的,无法靠观察和描述的方法来理解。使用模块探测算法Cluster-one识别基因调控网络中的重要模块,对基因调控网络的规模进行约减。每个实验设置下的基因调控网络可以识别多个关键模块,模块中的基因往往参与相同的生物过程或者具有相似的生物功能。在不同的实验条件下,我们不仅需要挑出相似性高的模块,也希望挑出差异性大的模块。为了挑选在不同实验条件或不同时间点差异性大的模块,我们提出一个模块差异性度量指标,即模块网络的差异性度。根据模块网络差异性度可以挑选出不同的实验条件下差异性大的模块。根据网络的差异性度对识别模块进行筛选,对呼吸道合胞病毒感染网络的模块中挑出两个差异性较大的模块。为了研究模块内部生物组分之间的关系,我们利用DAVID生物信息数据库对所识别的两个模块进行生物功能注释。模块中基因的KEGG通路分析和GO功能富集分析的结果显示,模块中的基因大都聚集在免疫相关的生物过程和通路上,这说明挑出的模块与呼吸道合胞病毒免疫增强性相关。3.针对多组学生物医学数据,通过构建多层调控网络来整合多组学数据。高通量技术的不断发展,生物实验过程产生了大量不同类型的组学数据,整合多组学数据构建多层调控网络可以更全面、精确地挖掘基因之间的调控关系。首先,用一组常微分方程模型来描述多层调控网络,并将整合多组学数据构建多层调控网络的问题转化为一个估计模型参数优化问题。其次,基于整合多组学数据,我们提出了一种递归正则化算法来推断多层调控网络。在构建多层调控网络的过程中,由于数据维数问题导致网络中出现假阳性和假阴性的调控关系,而变量之间的间接调控是导致假阳性的主要原因。为了降低多层调控网络的假阳性和假阴性,提出了一种多层调控网络的框架来优化网络。在构建多层调控网络的框架中,为了降低调控关系中的假阴性,我们提出了一种判断变量间调控关系有效性的动态阈值策略。我们将一个变量与其他所有变量间调控关系的四分之一分位数以下的值设置为零,并在递归正则化算法的下一个步骤中只重新估计非零的变量间的调控关系。使用CMI2对变量间的调控关系进行筛选,降低变量间的间接调控所引起的假阳性。我们使用两组仿真数据和两种类型的真实生物数据对递归正则化算法的性能进行评估,并将其与Narromi、HalfThr和CMI2NI等几种常用算法进行了比较。实验结果表明,该方法能有效地整合生物多组学数据来重构多层调控网络。

论文目录

  • 论文创新点
  • 摘要
  • ABSTRACT
  • 1 引言
  •   1.1 高维、多组学生物医学数据
  •     1.1.1 高维生物数据
  •     1.1.2 多组学生物数据
  •   1.2 基因调控网络
  •     1.2.1 大规模基因调控网络
  •     1.2.2 多层调控网络
  •     1.2.3 网络的模块
  •   1.3 论文的主要研究内容与结构安排
  •     1.3.1 论文的主要研究内容
  •     1.3.2 论文的结构安排
  • 2 基于随机奇异值分解构建大规模的基因调控网络
  •   2.1 随机奇异值方法
  •     2.1.1 基因调控网络
  •     2.1.2 基于奇异值分解的基因调控网络
  •     2.1.3 基因随机奇异值分解的大规模基因调控网络
  •       2.1.3.1 高维数据的随机奇异值分解
  •       2.1.3.2 IGRSVD算法的迭代过程
  •   2.2 基因调控网络的评价标准
  •     2.2.1 常用的评价标准
  •     2.2.2 改进的评价标准
  •   2.3 大规模基因调控网络的构建及实验结果评价
  •     2.3.1 实验数据
  •     2.3.2 基于数据E.coli,IGRSVD算法与常用算法的比较
  •     2.3.3 在DREAM数据,IGRSVD算法的结果
  •   2.4 本章小结
  • 3 基于灭活呼吸道合胞病毒的转录组学数据的网络构建及分析
  •   3.1 RSV炎症网络的构建与模块的识别
  •     3.1.1 不同实验条件的RSV炎症网络的构建
  •     3.1.2 网络的模块识别
  •     3.1.3 模块的评价指标
  •   3.2 呼吸道合胞病毒实验结果与分析
  •     3.2.1 呼吸道合胞病毒数据
  •     3.2.2 挑选差异表达基因
  •     3.2.3 构建的调控网络和识别的模块
  •     3.2.4 模块中基因在不同实验条件下的网络分析
  •   3.3 本章小结
  • 4 利用递归正则化算法基于整合生物多组学数据构建多层调控网络
  •   4.1 构建多层调控网络的递归正则化算法
  •     4.1.1 构建多层调控网络
  •     4.1.2 递归正则化算法构建多层调控网络
  •     4.1.3 优化多层调控网络的框架
  •   4.2 多层调控网络的构建及评价
  •     4.2.1 模拟数据
  •       4.2.1.1 模块化模拟数据
  •       4.2.1.2 高稀疏性模拟数据
  •     4.2.2 生物数据
  •       4.2.2.1 应用于E.coli数据
  •       4.2.2.2 应用于ATAC-seq和RNA-seq的表皮分化数据
  •   4.3 本章小结
  • 5 总结和展望
  •   5.1 全文总结
  •   5.2 进一步研究工作的展望
  • 参考文献
  • 攻博期间发表的科研成果目录
  • 致谢
  • 文章来源

    类型: 博士论文

    作者: 范安静

    导师: 邹秀芬

    关键词: 组学数据,重构,调控网络,数据整合,多层网络

    来源: 武汉大学

    年度: 2019

    分类: 基础科学,医药卫生科技

    专业: 数学,数学,生物学,生物医学工程

    单位: 武汉大学

    分类号: O212;O175;R318

    总页数: 108

    文件大小: 4539K

    下载量: 39

    相关论文文献

    • [1].随机森林在基因调控网络推断上的比较与应用[J]. 中国卫生统计 2019(06)
    • [2].时滞基因调控网络的稳定性与分叉分析[J]. 三峡大学学报(自然科学版) 2018(04)
    • [3].具有变时滞的随机基因调控网络的指数稳定性分析(英文)[J]. 新疆大学学报(自然科学版) 2011(04)
    • [4].一种双层基因调控网络的构建方法[J]. 数字技术与应用 2019(02)
    • [5].具有单个时滞的基因调控网络的稳定性分析[J]. 河南理工大学学报(自然科学版) 2019(06)
    • [6].布尔网络到离散时间马尔科夫模型的转换及性质研究——以大鼠干细胞基因调控网络为例[J]. 华东师范大学学报(自然科学版) 2018(01)
    • [7].贝叶斯方法的基因调控网络在医学领域的应用[J]. 自动化技术与应用 2018(03)
    • [8].基因调控网络中的癌症标记物预测方法[J]. 西安电子科技大学学报 2019(06)
    • [9].微分方程模型在基因调控网络构建中的应用[J]. 中国卫生统计 2008(01)
    • [10].基因调控网络中的“信息”概念——一种基于语境论的生物学信息认识[J]. 自然辩证法通讯 2018(05)
    • [11].金铁锁活性成分基因调控网络及其产物评价研究进展[J]. 中国民族民间医药 2014(05)
    • [12].基于基因调控网络的糖肾方治疗糖尿病肾病作用机理解析[J]. 中华中医药杂志 2018(04)
    • [13].部分转移概率缺失的时滞马尔可夫型基因调控网络稳定性分析[J]. 信息与控制 2015(06)
    • [14].SRY基因调控网络的研究进展[J]. 四川畜牧兽医 2010(08)
    • [15].基于最长控制链的基因调控网络可控性研究[J]. 计算机工程 2018(11)
    • [16].基于能量因子的基因调控网络重构[J]. 食品与生物技术学报 2010(01)
    • [17].分数阶基因调控网络的拉格朗日稳定性[J]. 武汉工程大学学报 2019(02)
    • [18].拟南芥成花关键基因调控网络研究进展[J]. 生物技术通报 2014(12)
    • [19].中国科学家发现决定稻米食用品质的基因调控网络[J]. 北京农业 2010(02)
    • [20].信息熵在基因调控网络构建中的应用[J]. 激光杂志 2008(01)
    • [21].用重采样和时延信息论构建基因调控网络[J]. 自动化技术与应用 2018(05)
    • [22].具有区间时变时滞随机基因调控网络的弱保守性的稳定性判据[J]. 黑龙江大学自然科学学报 2014(06)
    • [23].p53基因调控网络研究进展[J]. 重庆工商大学学报(自然科学版) 2008(05)
    • [24].随机基因调控网络的指数稳定性[J]. 宁夏大学学报(自然科学版) 2017(04)
    • [25].全局基因调控网络构建CPU/GPU并行算法[J]. 小型微型计算机系统 2015(02)
    • [26].泌乳分子机制及基因调控网络[J]. 生物技术通报 2014(01)
    • [27].人CD8~+T细胞基因调控网络研究[J]. 西北农业学报 2019(06)
    • [28].AP数据源融合算法构建基因调控网络[J]. 吉林大学学报(理学版) 2019(05)
    • [29].时滞基因调控网络的双稳定性和局部分岔[J]. 华中师范大学学报(自然科学版) 2018(01)
    • [30].基于事件触发离散基因调控网络的状态估计[J]. 扬州大学学报(自然科学版) 2018(04)

    标签:;  ;  ;  ;  ;  

    多维生物医学数据的调控网络构建与分析
    下载Doc文档

    猜你喜欢