多细胞类型间表观基因组测序信息的差异识别方法和工具

多细胞类型间表观基因组测序信息的差异识别方法和工具

论文摘要

表观遗传指由非DNA序列变化引起的可遗传的能改变细胞基因表达的因素。表观基因组是在组学尺度上研究这些表观遗传因素的信息,主要包括各类组蛋白修饰、DNA甲基化、核小体分布、非编码RNA作用等。核小体是染色质的基本结构单元,其在基因组上的分布位置对于基因组DNA的转录、复制等生物学活动具有调节作用,因为核小体可以封闭DNA上的蛋白结合位点。核小体的位置在不同细胞系中是高度变化的,因此我们不仅关心核小体位置,还关心核小体在各个样本、各细胞类型间的变化情况。然而,目前识别这些变化区域的工具多只支持两个样本(或细胞类型)。我们开发了DNMHMM工具,一个基于隐马尔科夫模型配合假设检验来测定核小体动态区域的工具,能够用来测定多个样本(n>=2)间核小体动态变化区域。利用DNMHMM在测定突变型酵母时,我们发现动态核小体区域的DNA序列缺乏10-11bp的周期性并且具有核小体重塑复合物BAF1和CBF1的结合motif。同时发现高度表达的基因,其启动子处具有更多的动态核小体。在CD4+T细胞活化过程中,动态核小体富集在在调节位点并且与表达变化相关。考虑到核小体和染色质开放区域以及其它表观组学有一样的信息承载形式(均为read coverage),该方法也可推至其他表观组的多细胞类型比较。组蛋白修饰、DNA甲基化等表观遗传因素最终与染色质的疏松和紧密状态有关,即与染色质开放性有关。染色质的开放性影响调控因子结合的能力,是DNA上各个调控元件激活状态的指标。识别这些开放区在细胞间的变化对于分析基因转录调节非常有价值。ATAC-Seq(Assay for Transposase-Accessible Chromatin and Sequencing)是用于检测染色质可接近区域的重要方法。ATAC-Seq因其简单的流程和低的细胞量需求,已被广泛地用于测定染色质开放区域。目前,已经积累了很多ATAC-Seq数据。这些数据蕴藏宝贵的转录调控动态的信息。然而,目前缺乏收集、处理、可视化、比较这些数据的数据库。本文构建了一个ATAC-Seq数据库(ATACMAP),其结构包括前台的分析、可视化、比较模块,以及后台的管理模块。我们使用MySQL数据库收集管理ATAC-Seq数据,利用基因组浏览器JBrowse实现数据的可视化。我们实现了获取数据、读段比对、富集区域识别(搜峰)、录入数据库等步骤的自动化。用户可以查询、浏览所有记录,可以快速找到不同细胞类型(样本)的ATAC-Seq的染色质开放区,通过比较来挖掘出更进一步的生物信息。所有功能均被制作成为webserver,使用户和管理员能够通过浏览器简单方便地浏览和管理数据。此数据库为进一步挖掘ATAC-Seq所含的信息提供了数据源及平台基础。综合两个工作,ATACMAP数据库的构建为多细胞类型间表观基因组测序信息的差异识别提供了经过统一处理的数据,DNMHMM则为识别多样本的差异区域提供了可靠的算法。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  •   1.1 表观遗传、染色质
  •   1.2 核小体
  •     1.2.1 核小体定位
  •   1.3 核小体测定方法
  •     1.3.1 核小体测序数据分析
  •     1.3.2 核小体动态区域的识别
  •     1.3.3 核小体数据库
  •   1.4 染色质开放区
  •     1.4.1 染色质可及性与染色质开放区
  •     1.4.3 染色质开放区域测序数据的分析工具
  •     1.4.4 染色质开放区域与核小体关系
  •   1.5 课题的主要工作
  •     1.5.1 研究目标及意义
  •     1.5.2 研究内容
  •   1.6 章节安排
  • 第二章 多样本表观遗传数据比对
  •   2.1 研究背景
  •   2.2 实验方法
  •     2.2.1 HMM模型
  •     2.2.2 维特比算法(Viterbi algorithm)
  •     2.2.3 基于隐马尔可夫模型(DNMHMM)鉴定多个样本中差异核小体区域的方法
  •     2.2.4 模型评估
  •     2.2.5 核小体位置定位
  •     2.2.6 核小体分布轮廓的计算
  •     2.2.7 相关函数及基因富集分析
  •     2.2.8 核小体DNA序列中的motif
  •     2.2.9 数据集
  •   2.3 结果和讨论
  •     2.3.1 DNMHMM
  •     2.3.2 DNMHMM与其它方法的性能比较
  •     2.3.3 DNMHMM参数说明
  •     2.3.4 DNMHMM具体应用
  •     2.3.5 DNMHMM在线服务
  •     2.3.6 结果讨论
  • 第三章 染色质可及测序数据数据库
  •   3.1 研究背景
  •   3.2 数据和方法
  •     3.2.1 整体数据库结构
  •     3.2.2 网页及后台管理
  •     3.2.3 数据处理
  •     3.2.4 异步任务调度
  •     3.2.5 MySQL数据库设计
  •     3.2.6 JBrowse
  •     3.2.7 Python爬虫
  •     3.2.8 数据集
  •   3.3 结果与讨论
  •     3.3.1 客户端数据的可视化
  •     3.3.2 远程管理页面
  •     3.3.3 结果讨论
  • 总结与展望
  • 参考文献
  • 致谢
  • 作者简介
  • 文章来源

    类型: 硕士论文

    作者: 谢嘉浩

    导师: 刘宏德

    关键词: 数据库,动态核小体,多细胞类型比较,染色质可及性

    来源: 东南大学

    年度: 2019

    分类: 基础科学,医药卫生科技

    专业: 生物学,生物医学工程

    单位: 东南大学

    基金: 国家自然科学基金面上项目(31371339)

    分类号: Q811.4

    DOI: 10.27014/d.cnki.gdnau.2019.004112

    总页数: 58

    文件大小: 4582k

    下载量: 6

    相关论文文献

    标签:;  ;  ;  ;  

    多细胞类型间表观基因组测序信息的差异识别方法和工具
    下载Doc文档

    猜你喜欢