论文摘要
蛋白质是基因表达的重要产物,在生命活动的各种场合都起着重要作用。众多种类的蛋白质中,转录因子蛋白可以特异性地结合在DNA上并对DNA上的基因表达起调控作用,是一类十分重要的蛋白质。本研究的主要目的就是实现基因中转录因子蛋白结合位点的准确识别,为将来进一步分析其调控作用打下基础。目前常用的转录因子蛋白结合位点检测技术为ChIP-Seq和DNase-Seq。ChIP-Seq技术虽然较为成熟,但存在测序成本高、特异性酶匹配困难、耗时长等问题。新提出的DNase-Seq技术则有效避免了上述问题,可以一次性测量大范围的基因区域,其检测精度可以达到单碱基。本课题从ENCODE网站下载DNase-Seq数据,并设计RNN循环神经网络校正模型实现DNase酶的酶切碱基倾向性校正。从ENCODE网站下载ChIP-Seq数据,通过GEM与FIMO等软件准确获得感兴趣转录因子在DNA上的结合位点并作为正样本,得到转录因子PWM矩阵的判定阈值。根据该阈值将未被ChIP-Seq发现的转录因子候选结合位点作为负样本。在所有样本上提取DNase剪切值并进行碱基倾向性校正,形成感兴趣转录因子结合位点的DNase数据集,基于该数据集,设计并实现基于CNN卷积神经网络的转录因子结合位点DNase识别模型。随后的实验结果,证实了所设计方法的有效性。
论文目录
摘要abstract第1章 绪论 1.1 引言 1.2 选题意义与目的 1.2.1 选题意义 1.2.2 选题目的 1.3 国内外研究现状 1.4 研究内容及研究目标 1.4.1 研究内容 1.4.2 研究目标 1.5 本文的章节安排及内容第2章 测序技术与蛋白质结合位点 2.1 高通量测序技术 2.1.1 454技术 2.1.2 Solexa技术 2.1.3 SOLiD技术 2.2 ChIP-seq技术 2.3 DNase-Seq技术 2.4 转录因子结合位点 2.5 PWM模型 2.6 GEM预测软件 2.7 本章小结第3章 DNase-Seq数据获取与酶切倾向性校正 3.1 蛋白质结合位点预测所需数据获取 3.1.1 DNase-Seq数据获取 3.1.2 HG19 参考基因组数据获取 3.2 DNase-Seq数据碱基倾向性数据获取 3.3 DNase-I酶切倾向性分析模型 3.3.1 循环神经网络 3.3.2 RNN前向输出流程 3.3.3 RNN的训练方法 3.3.4 RNN网络模型实现 3.4 DNase-Seq数据bias消除模型 3.4.1 bias消除模型提取数据 3.4.2 DNase-Seq数据消除bias模型 3.5 本章小结第4章 转录因子结合位点识别 4.1 蛋白质预测结合位点获取 4.1.1 ChIP-seq数据提取 4.1.2 PWM矩阵获取与FIMO预测平台 4.2 蛋白质结合位点识别特征 4.2.1 确定预测位点与识别特征 4.2.2 DNase-Seq数据筛选 4.3 蛋白质结合位点识别模型 4.3.1 卷积神经网络 4.3.2 卷积与池化工作原理 4.3.3 卷积神经网络的传播过程 4.3.4 卷积神经网络的训练方法 4.3.5 蛋白质结合位点识模型建立 4.4 本章小结第5章 转录因子结合位点识别模型评价 5.1 样本数据处理及评价指标选取 5.1.1 正负样本数据获取 5.1.2 样本数据划分 5.1.3 模型评价指标 5.2 识别模型效果评价 5.3 对模型多分类及应用的讨论 5.3.1 对PWM矩阵接近的蛋白结合位点分类的讨论 5.3.2 对识别模型应用的讨论 5.4 本章小结结论参考文献攻读硕士学位期间发表的论文和取得的科研成果致谢
文章来源
类型: 硕士论文
作者: 丛瑞达
导师: 冯伟兴
关键词: 蛋白质结合位点,循环神经网络,卷积神经网络
来源: 哈尔滨工程大学
年度: 2019
分类: 基础科学,信息科技
专业: 生物学,生物学,自动化技术
单位: 哈尔滨工程大学
分类号: TP183;Q75
总页数: 74
文件大小: 4229K
下载量: 127
相关论文文献
标签:蛋白质结合位点论文; 循环神经网络论文; 卷积神经网络论文;
基于DNase-Seq的转录因子DNA蛋白结合位点识别方法研究
下载Doc文档