基于DeepCNN的拟南芥TFBS预测模型的构建及其在植物跨物种的迁移学习应用

论文摘要

在特定的发育时期和组织部位,生命体所表达的基因种类和数量是不同,这也导致个体发育过程中不同细胞分化有着差异,从而实现复杂的生理功能。基因的差异性表达受调控元件调控,其中,转录因子是重要的一种调控元件。它能特异性地识别并结合到基因组非编码区的调控序列上,通过激活或抑制转录起始复合物的合成,从而影响基因的表达强度。因此,获取转录因子的DNA结合位点（Transcription factor binding site,TFBS）信息是转录调控研究的基础,对人类疾病和作物改良等研究也有重要的参考意义。然而,相对于转录因子在动物研究中的快速进展,由于植物中ChIP-seq实验的困难性,已知的植物TF-DNA结合位点数据相当稀少。在本研究的第一部分工作中,我们利用深度学习技术构建了拟南芥TFBS的预测模型。基于高通量的拟南芥DAP-seq实验数据,以深度卷积神经网络为计算框架,我们构建了265种转录因子的结合位点预测模型（DeepCNN）。结果表明我们的265个预测模型在各自的测试集上的AUC数值介于0.826-0.999之间,平均AUC为0.913;这说明深度学习模型在TFBS预测上具有很高的预测能力。当我们将其与gkm-SVM和MEME-ChIP模型进行比较时发现,gkm-SVM的AUC介于0.779-0.910,平均AUC为0.845;而MEME-ChIP的AUC介于0.605-0.801,平均AUC为0.703;这说明DeepCNN模型在拟南芥TFBS预测问题上具有一定的优势。接下来,在利用DeepCNN进行拟南芥TFBS的全基因组扫描预测时,我们采用了两种确定结合位点的方法:第一种是对于给定DNA片段,直接将DeepCNN的分类结果作为评判转录因子与DNA片段结合的标准;第二种类似ChIP-seq,即将全基因组扫描后的预测DNA片段作为Reads,通过peak calling途径寻找结合位点。我们收集了22个TF的结合位点的实验数据（非DAP-seq实验）,并将其作为上述两种方法的测试数据集。正样本预测精度（Positive predictive value,PPV）的相关性检验时发现,相比于第一种方法的皮尔逊相关系数为0.104,第二种方法的PPV与实验数据的PPV之间的皮尔逊相关系数为0.686,说明第二种确定结合位点的方法泛化性更好。此外,我们还发现265个TFs在全基因组预测时的PPV在拟南芥31个TF家族中出现了差异性富集现象。基于卷积层的自动提取特征能力,我们对转录因子ABI5的DeepCNN模型学习到的特征进行了深入分析,发现了其与已知的TF motif之间的对应关系,以及转录因子ABI5与ABF2、ABF3、RAV1、HY5之间的协作调控机制,这就给表现优异的DeepCNN模型提供了一定的生物解释性。最后,我们进一步利用ABI5的转录因子之间的协作调控关系和染色质开放区域信息,在一定程度上对DeepCNN模型的预测位点进行了假阳性控制,使其假阳性位点至少减少了70%。由此阐明了深度学习技术在拟南芥TFBS全基因组预测上的可行性。在本研究的第二部分工作中,我们根据DeepCNN模型对功能非编码SNP的调控机理进行了探索研究。首先,我们计算了拟南芥中与细菌抗病性（avrRpm1）相关的28个GWAS SNPs在突变前与突变后的预测DNA片段结合强度变化,发现SNP对265个TF的结合强度影响具有差异性。随后,我们收集了当前所有文献报导的且位于非编码区的GWAS SNPs,基于DeepCNN模型预测突变前与突变后结合得分的改变差值,训练了一个随机森林分类器模型进行功能非编码突变预测。结果显示在选取不同的负样本的10组重复实验中,其AUCs分布于0.637-0.671,且平均AUC为0.654。这说明DeepCNN模型对于优选功能非编码遗传突变具有一定的参考性。在本研究的第三部分工作中,我们利用迁移学习技术进行植物跨物种TFBS预测,尝试从计算途径弥补当前植物领域相关实验数据缺乏对相关研究的限制影响。基于TF的蛋白质序列相似性及转录因子的motif相似性,结合迁移学习的思想,我们将在拟南芥中建立的DeepCNN预测模型迁移到水稻、玉米和大豆物种中,预测该物种的TFBS。研究结果表明:第一,在水稻转录因子MADS29的迁移学习中,当预测peak和实际peak之间的重叠长度设置在小于等于200bp时,能取得较好的平衡正负样本预测精度的效果,其正样本预测精度PPV为0.816,而负样本预测精度NPV为0.189,这说明预测MADS29时,假阴性率和假阳性率都被控制在0.2以下。第二,在水稻另外三个TF的迁移学习中,当设置200bp的peak重叠长度时,BZIP23的PPV和NPV分别为0.752和0.108,ERF48的PPV和NPV分别为0.951和0.234,NAC6的PPV和NPV分别为0.317和0.156。第三,当迁移到玉米和大豆中,对其转录因子在其DNA序列上的结合位点的预测应用中时,在玉米ARF5、O2、P1和KN1中的PPV分别为0.201、0.550、0.400和0.381,而在大豆06G314400和13G317000中的PPV分别为0.452和0.413。这些结果表明迁移学习用于植物的跨物种转录因子结合位点预测问题上的可行性,特别在水稻中的预测性能优于玉米和大豆。这说明,未来的工作应聚焦在对不同物种如何进行因地制宜地设计最合适的迁移学习模型,以获取更好的迁移预测效果。

论文目录

摘要

Abstract

缩略词表

1 前言

1.1 计算基因组学

1.1.1 基因组学

1.1.2 生物信息学与计算基因组学

1.2 基因组调控元件

1.2.1 顺式调控元件与反式调控元件

1.2.2 转录因子及家族

1.2.3 转录因子调控机制

1.3 转录因子结合位点识别方法

1.3.1 基于实验方法的TFBS识别

1.3.2 基于计算方法的TFBS识别

1.4 深度学习

1.4.1 神经网络与深度学习的历史发展

1.4.2 卷积神经网络

1.5 本文研究内容与目的

2 转录因子物种间的保守性分析

2.1 背景介绍

2.2 数据及预处理

2.2.1 基于TF蛋白质序列的相似性比对

2.2.2 基于TF motifs的相似性比对

2.3 结果与分析

2.4 讨论

3 基于深度卷积神经网络的拟南芥转录因子结合位点预测模型

3.1 背景介绍

3.2 材料与方法

3.2.1 数据来源与预处理

3.2.2 基于深度卷积神经网络的TFBS预测模型构建

3.2.3 全基因扫描预测流程

3.2.4 生成Motif及 Motif富集分析

3.3 结果与分析

3.3.1 与gkmSVM和 MEME-ChIP方法的比较

3.3.2 TFBS的全基因组扫描预测

3.3.3 预测结果在TF家族间差异性富集

3.3.4 特征分析

3.3.5 数据来源对预测结果的影响

3.4 讨论

4 基于深度学习模型的功能非编码SNPs优选

4.1 前言

4.2 材料与方法

4.2.1 数据来源与预处理

4.2.2 随机森林模型预测功能非编码SNPs

4.3 结果与分析

4.3.1 SNP对 TFBS预测的差异性影响

4.3.2 负样本选择对随机森林预测的影响

4.4 讨论

5 基于迁移学习的跨物种预测

5.1 背景

5.2 材料与方法

5.2.1 数据来源

5.2.2 基于TF蛋白质序列和TF motif相似性的跨物种预测

5.3 结果与分析

5.3.1 正负样本预测结果平衡性控制

5.3.2 植物领域跨物种迁移学习

5.4 讨论

6 总结

6.1 深度学习预测拟南芥TFBS

6.2 基于深度学习模型预测结果的功能非编码SNP优选

6.3 迁移学习在植物跨物种TFBS预测中的应用

参考文献

附录

附录 A:本文工作使用到的软件补充说明

附录 B:三种预测方法性能比较补充表格

附录 C:全基因组扫描预测补充表格

附录 D:特征分析补充表格

致谢

文章来源

类型: 硕士论文

作者: 张戈

导师: 胡学海

关键词: 转录因子,转录因子结合位点,深度卷积神经网络,功能非编码,迁移学习,跨物种预测

来源: 华中农业大学

年度: 2019

分类: 基础科学

专业: 生物学,生物学

单位: 华中农业大学

分类号: Q943.2

DOI: 10.27158/d.cnki.ghznu.2019.000305

总页数: 82

文件大小: 3770K

下载量: 112

基于DeepCNN的拟南芥TFBS预测模型的构建及其在植物跨物种的迁移学习应用

论文摘要

论文目录

文章来源

相关论文文献

猜你喜欢