论文摘要
表观遗传指由非DNA序列变化引起的可遗传的能改变细胞基因表达的因素。表观基因组是在组学尺度上研究这些表观遗传因素的信息,主要包括各类组蛋白修饰、DNA甲基化、核小体分布、非编码RNA作用等。核小体是染色质的基本结构单元,其在基因组上的分布位置对于基因组DNA的转录、复制等生物学活动具有调节作用,因为核小体可以封闭DNA上的蛋白结合位点。核小体的位置在不同细胞系中是高度变化的,因此我们不仅关心核小体位置,还关心核小体在各个样本、各细胞类型间的变化情况。然而,目前识别这些变化区域的工具多只支持两个样本(或细胞类型)。我们开发了DNMHMM工具,一个基于隐马尔科夫模型配合假设检验来测定核小体动态区域的工具,能够用来测定多个样本(n>=2)间核小体动态变化区域。利用DNMHMM在测定突变型酵母时,我们发现动态核小体区域的DNA序列缺乏10-11bp的周期性并且具有核小体重塑复合物BAF1和CBF1的结合motif。同时发现高度表达的基因,其启动子处具有更多的动态核小体。在CD4+T细胞活化过程中,动态核小体富集在在调节位点并且与表达变化相关。考虑到核小体和染色质开放区域以及其它表观组学有一样的信息承载形式(均为read coverage),该方法也可推至其他表观组的多细胞类型比较。组蛋白修饰、DNA甲基化等表观遗传因素最终与染色质的疏松和紧密状态有关,即与染色质开放性有关。染色质的开放性影响调控因子结合的能力,是DNA上各个调控元件激活状态的指标。识别这些开放区在细胞间的变化对于分析基因转录调节非常有价值。ATAC-Seq(Assay for Transposase-Accessible Chromatin and Sequencing)是用于检测染色质可接近区域的重要方法。ATAC-Seq因其简单的流程和低的细胞量需求,已被广泛地用于测定染色质开放区域。目前,已经积累了很多ATAC-Seq数据。这些数据蕴藏宝贵的转录调控动态的信息。然而,目前缺乏收集、处理、可视化、比较这些数据的数据库。本文构建了一个ATAC-Seq数据库(ATACMAP),其结构包括前台的分析、可视化、比较模块,以及后台的管理模块。我们使用MySQL数据库收集管理ATAC-Seq数据,利用基因组浏览器JBrowse实现数据的可视化。我们实现了获取数据、读段比对、富集区域识别(搜峰)、录入数据库等步骤的自动化。用户可以查询、浏览所有记录,可以快速找到不同细胞类型(样本)的ATAC-Seq的染色质开放区,通过比较来挖掘出更进一步的生物信息。所有功能均被制作成为webserver,使用户和管理员能够通过浏览器简单方便地浏览和管理数据。此数据库为进一步挖掘ATAC-Seq所含的信息提供了数据源及平台基础。综合两个工作,ATACMAP数据库的构建为多细胞类型间表观基因组测序信息的差异识别提供了经过统一处理的数据,DNMHMM则为识别多样本的差异区域提供了可靠的算法。
论文目录
文章来源
类型: 硕士论文
作者: 谢嘉浩
导师: 刘宏德
关键词: 数据库,动态核小体,多细胞类型比较,染色质可及性
来源: 东南大学
年度: 2019
分类: 基础科学,医药卫生科技
专业: 生物学,生物医学工程
单位: 东南大学
基金: 国家自然科学基金面上项目(31371339)
分类号: Q811.4
DOI: 10.27014/d.cnki.gdnau.2019.004112
总页数: 58
文件大小: 4582k
下载量: 6