基于ChIP-seq和芯片数据的顺式调控模体与功能模块预测

基于ChIP-seq和芯片数据的顺式调控模体与功能模块预测

论文摘要

生物技术尤其是高通量测序技术的发展使得人们能够更加方便地获取海量的生物数据。然而生物数据的爆炸式增长给人们带来无限发展机遇的同时,也使人们深切地体会到大数据信息挖掘带来的巨大挑战。在这种形势下,生物信息学等交叉学科应运而生,并在生命科学领域发挥着日益重要的作用。在生物信息学的框架中,数学、统计学和计算机科学等理论工具的潜能借助于高性能计算机和数据库等平台得以充分发挥,使得人们能够有效地解决一系列大规模生物数据上的挖掘问题。组学是分子生物学发展到一定阶段的产物。系统论思想的推广使人们不再从个体的角度来分析某个分子或者某类遗传物质。相反地,人们倾向于把具有某个特定功能的个体以及它们之间的关联关系整合为一个系统,旨在从整体的角度系统性地挖掘有价值的信息。基因组学、转录组学、蛋白质组学和代谢组学就是典型的代表。其中,基因组学是所有组学中应用最广泛、影响最长远的分支。尽管生物体内几乎所有的细胞含有同样的基因,然而它们却分化成了不同形态,发挥着不同功能。其原因在于基因并不是在每个细胞中都表达,而控制基因表达的开关就是转录因子。转录因子是一类特殊的蛋白质,它能够通过与基因的启动子、增强子或静默子区域结合来直接调控基因的表达,在基因组中发挥着至关重要的作用。因此,准确识别转录因子在DNA序列上的结合位点(模体)是推动一系列下游分析的关键所在。虽然生物实验是识别转录因子结合位点最可靠的方法,但是由于实验流程操作复杂、成本高昂,目前只有一部分模式生物的少数转录因子的模体得到了实验验证。这就意味着我们有必要寻求其他的应对方案。第二代高通量测序技术的推广产生了大量的测序数据。此外,染色质免疫共沉淀技术与二代测序技术的结合(ChIP-seq)能够提供大量的转录因子潜在的结合位点信息。因此,开发计算工具从ChIP-seq数据中挖掘隐含的模体能够有效地克服传统的实验方法所面临的效率和成本上的挑战。然而,由于转录因子结合位点长度较短,并且通常是高度退化的,再加上测序数据本身存在的技术误差,通过计算方法实现模体识别仍然具有很大的挑战性。另外,由于ChIP-seq数据规模较大,传统的模体识别算法往往难以适用于ChIP-seq数据。目前流行的针对ChIP-seq数据的模体识别算法主要以穷举的方式确定模体长度。由于数据规模的限制,这些算法倾向于识别短模体,因此无法确定模体的真实长度。因此,针对大规模ChIP-seq数据,开发能够准确识别模体长度的高效的模体识别算法是一项极具挑战性的任务。在本文中,我们针对大规模ChIP-seq数据的特征和目前主流的模体识别算法存在的缺陷,以基于k-mer的统计检验和基于模体剖面集合的Gibbs抽样为基础,设计了一个新型的模体识别算法,我们称之为ProSampler。为了测试和比较ProSampler与现有的主流模体识别算法的性能,我们分别在六组模拟数据集和3 × 105组MNChIP-seq数据集上运行了包括ProSampler在内的七个算法。测评结果表明,ProSampler算法不仅能够精准地重构模体的剖面矩阵,而且能够灵敏地识别模体的位点,同时也能够有效地确定模体的真实长度。另外,ProSampler算法在大规模测评数据上的优越性能也反映出了该算法具备的良好的稳健性。ProSampler算法主要有以下三个创新点:1)采用了基于双样本z检验的多重阈值来分别筛选具有不同显著性水平的k-mer。使用该方法对k-mer进行筛选,既能够降低数据的规模以提高运行效率,又能够敏锐捕捉序列中微弱的模体信息以降低假阴性率。另外,双样本z检验不需要太高的计算量,能够在很大程度上节省运行时间。2)设计了以初始模体的剖面矩阵集合为抽样空间的Gibbs抽样算法。由于每个初始模体是在某个显著k-mer的基础上构造而成,因此初始模体的剖面矩阵组成的集合具有有限的规模。这就保证了 Gibbs抽样算法能够在很短时间内实现快速收敛,进一步提高运行效率。此外,通过Gibbs抽样算法,我们可以在迭代中不断修正模体的剖面矩阵的k-mer组成,从而更精准地重构模体的剖面矩阵信息。3)首次采用了双样本z检验来确定模体的长度。该方法不需要通过穷举不同的模体长度来选择最优长度,因此具有很高的运行效率。基于上述创新点,ProSampler能够在短时间内快速完成大规模ChIP-seq数据上的模体识别,准确得到模体的剖面矩阵和位点信息,同时能够快速精准地确定模体的长度。目前,ProSampler算法已通过C++实现,它的源代码以及在Windows、Mac OS和Unix系统下的可执行文件可以通过以下链接下载并使用:https://github.com/zhengchangsulab/prosampler。转录因子在基因组内并不是通过独自识别并结合相应的DNA序列片段来完成对下游基因的调控。事实上,大多数转录因子是通过相互之间的物理作用以协同或者拮抗的方式共同参与基因的调控。因此,转录因子与DNA之间存在着复杂的结合模式。分析转录因子与DNA的结合模式有助于进一步探究转录调控的机制,为探索基因表达等一系列下游的基因组分析提供支持。本研究针对人类胚胎干细胞的159组MNChIP-seq数据集,利用ProSampler算法分析了人类32个转录因子与DNA的结合模式以及导致上述结合模式的关键因素。本研究主要有以下四个创新点:1)发现了转录因子与DNA之间的四种结合模式,即1-0、1-1、0-1和0-0。2)针对1-1和0-1两种结合模式,作出推断:目标转录因子是通过与其他转录因子之间的物理相互作用间接与DNA结合。3)针对0-0结合模式,作出推断:属于该模式的数据集质量较低,因此难以从中发现已知的模体。4)利用ProSampler算法和统计分析,分别发现了 21个和98个广泛存在于多个细胞系中的已知和未知的模体,即:非靶标精妙模体。与之前对非靶标精妙模体的相关研究不同,我们采用的是从头(de novo)模体识别算法ProSampler直接从多个数据集中识别模体,而不是利用现有的模体剖面矩阵以扫描的方式识别模体在DNA序列上的位点。因此,在本研究中发现的非靶标精妙模体中有很大一部分是首次发现。在基因组中,一个转录因子可以调控多个基因。被同一个转录因子调控的基因通常呈现出表达趋势上的相关性。这些具有表达相关性的基因集合很可能具备功能上的同质性。我们把这些具有功能同质性的基因或者对应的蛋白质的集合称为生物功能模块。在生物学中刻画大规模相关性的主要工具是网络生物学。然而生物网络中存在较多的噪音信息,因此人们难以从单一的生物网络中准确预测出生物功能模块。所以,一个比较可行的方案是通过整合多个生物网络,从中挖掘频繁出现的生物功能模块,即:高频稠密子网络。在本研究中,我们针对现有的生物功能模块预测算法存在的缺陷,提出了一个新型的数学模型,我们称之为兼容网络模型。兼容网络模型能够同时将密度和频率两个属性整合到连边的权重上,进而同步实现对两个属性的优化。以兼容网络模型为基础,我们开发了一个准确高效的生物功能模块预测算法,我们称之为MiMod。为了测试和评估MiMod算法的性能,我们从GEO数据库下载了 43个基因芯片数据集,并以此为基础构造出43个基因共表达网络。同时,我们从SNAP数据库下载了 13个与人类血液相关的蛋白质相互作用网络。作为比较,我们在这两组网络集合上同时运行MiMod算法和NetsTensor算法。测评结果表明,MiMod预测的生物功能模块与NetsTensor相比具有更显著的统计学意义和生物学意义。作为MiMod算法的核心部分,兼容网络模型主要有以下两个优势:1)规模小。由于兼容网络是基于一部分顶点构造而成,因此它具有有限的规模,能够在很大程度上节省运行时间。2)兼顾了生物功能模块的密度和频率两个属性。将频率和密度两个属性同时整合到连边的权重上,避免了分別对两个属性进行优化带来的偏差,提高了算法的准确率。另外,MiMod算法还具有以下两个创新点:1)采用了稀疏的概要网络模型,能够进一步节省运行时间。2)采用的双聚类算法能够有效地达到生物功能模块的规模和频率之间的平衡,无需用户设置额外的参数来控制。基于兼容网络和MiMod算法的上述优势与创新点,MiMod算法能够从多重生物网络中敏锐地预测出具有显著生物学意义的功能模块。目前,MiMod算法已通过C++实现,它的源代码以及在Windows、Mac OS和Unix系统下的可执行文件可以通过以下链接下载并使用:https://github.com/LiYangSDU/SYSTEMS。综上所述,针对模体识别和生物功能模块预测两个问题,我们分别开发了ProSampler和MiMod两个算法。测评结果表明,两个算法能够有效地解决对应的两个问题,克服现有算法存在的缺陷。另外,我们利用ProSampler算法和统计方法对转录因子与DNA的结合模式做了一系列分析,并且对上述模式产生的原因作了推断。

论文目录

  • 中文摘要
  • 英文摘要
  • 第一章 绪论
  •   §1.1 转录因子和功能模块
  •   §1.2 模体识别问题
  •   §1.3 模体识别算法
  •     1.3.1 模体的表示模型
  •     1.3.2 传统的模体识别算法
  •     1.3.3 基于高通量测序数据的模体识别算法
  •   §1.4 功能模块预测问题
  •   §1.5 功能模块预测算法
  •     1.5.1 功能模块的表示模型
  •     1.5.2 功能模块预测算法
  •   §1.6 本论文的组织结构
  • 第二章 ProSampler:基于k-mer计数和Gibbs抽样的快速模体识别算法
  •   §2.1 ProSampler算法
  •   §2.2 ProSampler算法在模拟数据上的测评
  •     2.2.1 数据模拟
  •     2.2.2 参数设定
  •     2.2.3 测评方案
  •     2.2.4 结果分析
  •   §2.3 ProSampler算法在ChIP-seq数据上的测评
  •     2.3.1 数据处理
  •     2.3.2 参数设定
  •     2.3.3 测评方案
  •     2.3.4 结果分析
  •   §2.4 总结
  • 第三章 转录因子与DNA的结合模式研究
  •   §3.1 研究背景
  •   §3.2 模体识别
  •   §3.3 结果分析
  •     3.3.1 目标转录因子结合位点缺失现象分析
  •     3.3.2 转录因子在ChIP-seq序列上的四种结合模式
  •     3.3.3 1-0和1-1模式下转录因子结合位点在SP上的分布
  •     3.3.4 0-1和0-0模式下转录因子结合位点在SP上的分布
  • N上结合位点缺失的原因分析'>    3.3.5 目标转录因子在SN上结合位点缺失的原因分析
  •     3.3.6 预测合作模体
  •     3.3.7 预测非靶标精妙模体
  •   §3.4 总结
  • 第四章 MiMod:基于兼容网络的功能模块预测算法
  •   §4.1 MiMod算法
  •   §4.2 MiMod在基因共表达网络上的性能分析与评估
  •     4.2.1 数据处理
  •     4.2.2 参数设置
  •     4.2.3 功能模块的统计学意义分析
  •     4.2.4 功能模块的生物学意义分析
  •     4.2.5 功能模块在蛋白质复合物网络上的高阶合作性分析
  •   §4.3 MiMod在蛋白质相互作用网络上的性能分析与评估
  •     4.3.1 数据描述
  •     4.3.2 参数设置
  •     4.3.3 功能模块的统计学意义分析
  •     4.3.4 功能模块的生物学意义分析
  •     4.3.5 功能模块在蛋白质复合物网络上的高阶合作性分析
  •   §4.4 总结
  • 第五章 总结与展望
  • 附表
  • 参考文献
  • 致谢
  • 攻读博士学位期间完成论文情况
  • 作者简介
  • 学位论文评阅及答辩情况表
  • 文章来源

    类型: 博士论文

    作者: 李阳

    导师: 李国君,苏正昌

    关键词: 组合算法,生物信息学,模体识别,稠密子网络,网络生物学

    来源: 山东大学

    年度: 2019

    分类: 基础科学

    专业: 生物学

    单位: 山东大学

    分类号: Q811.4

    DOI: 10.27272/d.cnki.gshdu.2019.000177

    总页数: 138

    文件大小: 9557K

    下载量: 151

    相关论文文献

    • [1].英汉多义词模体的计量特征[J]. 湖南科技大学学报(社会科学版) 2020(01)
    • [2].位置重复性对射波刀模体绝对剂量验证的影响[J]. 中国医学物理学杂志 2020(09)
    • [3].线性短模体:介导蛋白质相互作用的新模块[J]. 生物化学与生物物理进展 2017(02)
    • [4].机械结构网络模体探究[J]. 轻工机械 2015(02)
    • [5].基于笔形束散射核的非均匀模体透射平面散射线分析[J]. 中国医学物理学杂志 2020(01)
    • [6].基于多模体特征的科学家合作预测[J]. 电子科技大学学报 2020(05)
    • [7].基于网络模体特征攻击的网络抗毁性研究[J]. 复杂系统与复杂性科学 2017(04)
    • [8].生物网络模体发现算法研究综述[J]. 电子学报 2009(10)
    • [9].基于组合的序列特征识别蛋白质复杂超二级结构βαβ模体[J]. 内蒙古工业大学学报(自然科学版) 2015(03)
    • [10].结合最大团求精的随机投影模体发现算法[J]. 中国科技论文 2013(04)
    • [11].蛋白质中五类超二级结构模体的统计分析[J]. 安徽农业科学 2012(26)
    • [12].一种长度可调水模体的研制[J]. 医疗卫生装备 2011(03)
    • [13].蛋白质作用网络中模体识别技术研究[J]. 计算机技术与发展 2010(08)
    • [14].基于显露子串挖掘的基因序列模体识别算法[J]. 现代电子技术 2017(12)
    • [15].基于优化特征参量的蛋白质βαβ模体识别分析[J]. 江苏农业科学 2015(02)
    • [16].3D虚拟模体设计软件的开发[J]. 生物医学工程学杂志 2014(01)
    • [17].富脯氨酸模体研究进展[J]. 生命科学研究 2008(04)
    • [18].γ辐照加工用新型工作模体设计研究[J]. 原子能科学技术 2020(11)
    • [19].一种新型SPECT性能检测模体的研制[J]. 中国医学装备 2014(05)
    • [20].非树型网络模体发现算法[J]. 电子学报 2009(11)
    • [21].镶块模模体脆性断裂原因分析与预防[J]. 金属加工(热加工) 2013(13)
    • [22].基于统计特征的酶蛋白质中特殊模体βαβ的预测[J]. 生物物理学报 2013(09)
    • [23].基于位置相互关系的模体识别算法[J]. 电子科技 2010(01)
    • [24].有向动态网络中基于模体演化的链路预测方法[J]. 计算机应用研究 2019(05)
    • [25].离散时间序列的网络模体分析[J]. 物理学报 2010(03)
    • [26].蛋白质βαβ模体序列的统计分析及其识别[J]. 昆明理工大学学报(理工版) 2010(05)
    • [27].简易型模拟剂量验证模体的设计及应用[J]. 医疗装备 2009(02)
    • [28].用二次判别方法识别蛋白质β-发夹模体[J]. 生物物理学报 2009(04)
    • [29].锻锤用圆模体使用寿命的影响因素及提高方法[J]. 模具工业 2013(06)
    • [30].基于模体压缩的生物学模型简化研究[J]. 荆楚理工学院学报 2016(06)

    标签:;  ;  ;  ;  ;  

    基于ChIP-seq和芯片数据的顺式调控模体与功能模块预测
    下载Doc文档

    猜你喜欢