论文摘要
在特定的发育时期和组织部位,生命体所表达的基因种类和数量是不同,这也导致个体发育过程中不同细胞分化有着差异,从而实现复杂的生理功能。基因的差异性表达受调控元件调控,其中,转录因子是重要的一种调控元件。它能特异性地识别并结合到基因组非编码区的调控序列上,通过激活或抑制转录起始复合物的合成,从而影响基因的表达强度。因此,获取转录因子的DNA结合位点(Transcription factor binding site,TFBS)信息是转录调控研究的基础,对人类疾病和作物改良等研究也有重要的参考意义。然而,相对于转录因子在动物研究中的快速进展,由于植物中ChIP-seq实验的困难性,已知的植物TF-DNA结合位点数据相当稀少。在本研究的第一部分工作中,我们利用深度学习技术构建了拟南芥TFBS的预测模型。基于高通量的拟南芥DAP-seq实验数据,以深度卷积神经网络为计算框架,我们构建了265种转录因子的结合位点预测模型(DeepCNN)。结果表明我们的265个预测模型在各自的测试集上的AUC数值介于0.826-0.999之间,平均AUC为0.913;这说明深度学习模型在TFBS预测上具有很高的预测能力。当我们将其与gkm-SVM和MEME-ChIP模型进行比较时发现,gkm-SVM的AUC介于0.779-0.910,平均AUC为0.845;而MEME-ChIP的AUC介于0.605-0.801,平均AUC为0.703;这说明DeepCNN模型在拟南芥TFBS预测问题上具有一定的优势。接下来,在利用DeepCNN进行拟南芥TFBS的全基因组扫描预测时,我们采用了两种确定结合位点的方法:第一种是对于给定DNA片段,直接将DeepCNN的分类结果作为评判转录因子与DNA片段结合的标准;第二种类似ChIP-seq,即将全基因组扫描后的预测DNA片段作为Reads,通过peak calling途径寻找结合位点。我们收集了22个TF的结合位点的实验数据(非DAP-seq实验),并将其作为上述两种方法的测试数据集。正样本预测精度(Positive predictive value,PPV)的相关性检验时发现,相比于第一种方法的皮尔逊相关系数为0.104,第二种方法的PPV与实验数据的PPV之间的皮尔逊相关系数为0.686,说明第二种确定结合位点的方法泛化性更好。此外,我们还发现265个TFs在全基因组预测时的PPV在拟南芥31个TF家族中出现了差异性富集现象。基于卷积层的自动提取特征能力,我们对转录因子ABI5的DeepCNN模型学习到的特征进行了深入分析,发现了其与已知的TF motif之间的对应关系,以及转录因子ABI5与ABF2、ABF3、RAV1、HY5之间的协作调控机制,这就给表现优异的DeepCNN模型提供了一定的生物解释性。最后,我们进一步利用ABI5的转录因子之间的协作调控关系和染色质开放区域信息,在一定程度上对DeepCNN模型的预测位点进行了假阳性控制,使其假阳性位点至少减少了70%。由此阐明了深度学习技术在拟南芥TFBS全基因组预测上的可行性。在本研究的第二部分工作中,我们根据DeepCNN模型对功能非编码SNP的调控机理进行了探索研究。首先,我们计算了拟南芥中与细菌抗病性(avrRpm1)相关的28个GWAS SNPs在突变前与突变后的预测DNA片段结合强度变化,发现SNP对265个TF的结合强度影响具有差异性。随后,我们收集了当前所有文献报导的且位于非编码区的GWAS SNPs,基于DeepCNN模型预测突变前与突变后结合得分的改变差值,训练了一个随机森林分类器模型进行功能非编码突变预测。结果显示在选取不同的负样本的10组重复实验中,其AUCs分布于0.637-0.671,且平均AUC为0.654。这说明DeepCNN模型对于优选功能非编码遗传突变具有一定的参考性。在本研究的第三部分工作中,我们利用迁移学习技术进行植物跨物种TFBS预测,尝试从计算途径弥补当前植物领域相关实验数据缺乏对相关研究的限制影响。基于TF的蛋白质序列相似性及转录因子的motif相似性,结合迁移学习的思想,我们将在拟南芥中建立的DeepCNN预测模型迁移到水稻、玉米和大豆物种中,预测该物种的TFBS。研究结果表明:第一,在水稻转录因子MADS29的迁移学习中,当预测peak和实际peak之间的重叠长度设置在小于等于200bp时,能取得较好的平衡正负样本预测精度的效果,其正样本预测精度PPV为0.816,而负样本预测精度NPV为0.189,这说明预测MADS29时,假阴性率和假阳性率都被控制在0.2以下。第二,在水稻另外三个TF的迁移学习中,当设置200bp的peak重叠长度时,BZIP23的PPV和NPV分别为0.752和0.108,ERF48的PPV和NPV分别为0.951和0.234,NAC6的PPV和NPV分别为0.317和0.156。第三,当迁移到玉米和大豆中,对其转录因子在其DNA序列上的结合位点的预测应用中时,在玉米ARF5、O2、P1和KN1中的PPV分别为0.201、0.550、0.400和0.381,而在大豆06G314400和13G317000中的PPV分别为0.452和0.413。这些结果表明迁移学习用于植物的跨物种转录因子结合位点预测问题上的可行性,特别在水稻中的预测性能优于玉米和大豆。这说明,未来的工作应聚焦在对不同物种如何进行因地制宜地设计最合适的迁移学习模型,以获取更好的迁移预测效果。
论文目录
文章来源
类型: 硕士论文
作者: 张戈
导师: 胡学海
关键词: 转录因子,转录因子结合位点,深度卷积神经网络,功能非编码,迁移学习,跨物种预测
来源: 华中农业大学
年度: 2019
分类: 基础科学
专业: 生物学,生物学
单位: 华中农业大学
分类号: Q943.2
DOI: 10.27158/d.cnki.ghznu.2019.000305
总页数: 82
文件大小: 3770K
下载量: 112
相关论文文献
标签:转录因子论文; 转录因子结合位点论文; 深度卷积神经网络论文; 功能非编码论文; 迁移学习论文; 跨物种预测论文;