论文摘要
众所周知,蛋白质对生物体非常重要,是细胞生理代谢途径的重要组成部分。蛋白质参与各种生物过程,几乎所有的细胞功能都是通过与其他蛋白质或DNA相互作用而实现的。随着后基因组时代蛋白质组学的发展,预测蛋白质结构和功能、识别关键蛋白质或蛋白复合物和蛋白质功能模块等已经成为许多研究者的主要课题。值得注意的是,细胞中的每个蛋白质不是单独存在的而是通过与其他蛋白质进行相互作用来完成某些功能的,并且其中一些蛋白质的缺失会导致生命体发生突变或死亡,称这些蛋白质为关键蛋白质。此外,最近的研究表明,关键蛋白质与人类疾病基因相关,在预测药物靶点方面发挥重要作用。因此,识别关键蛋白质是很必要的,这将有助于我们理解细胞生命活动的最低要求,并为治疗疾病找到新的方法。然而传统的生物学识别关键蛋白质的方法效率低且价格昂贵,虽然现在也有一些计算的方法来识别关键蛋白质但识别精度和效率有待提高,所以本文致力于进一步提高关键蛋白质的识别精度和效率。本文的主要研究工作如下:(1)通过多数据融合的方法识别关键蛋白质,该方法结合基因表达数据、亚细胞定位数据和蛋白质相互作用网络数据对蛋白质进行打分并排序获得最终的关键蛋白质候选集,将其命名为GSP。考虑到蛋白质的关键性仅仅依赖于蛋白质相互作用网络的拓扑特征是远远不够的,因此将生物数据与网络拓扑特性相结合。实验结果表明该方法显著提高了关键蛋白质的识别精度。(2)将识别关键蛋白质的过程与果蝇优化算法寻优的过程进行对应,提出了基于果蝇优化算法在动态蛋白质网络中识别关键蛋白质的模型,该方法命名为EPFOA。首先将静态蛋白质网络与基因表达数据相结合构建了动态蛋白质网络模型;然后基于基因本体数据和代表网络拓扑特性的边聚集系数在动态蛋白质网络中提出了一种新的拓扑中心性方法,同时我们在动态蛋白质网络中用局部连通性来评价蛋白质网络的模块化特性;根据大量的研究表明亚细胞定位数据对识别关键蛋白质至关重要,提出了一种评价策略得到亚细胞定位得分;最后采用果蝇优化算法在动态蛋白质网络中识别关键蛋白质,基于果蝇优化算法构建了识别关键蛋白质模型。实验结果表明,该方法不仅提高了关键蛋白质的识别效率也提高了识别关键蛋白质的准确性。(3)采用HITS算法在生物特性和网络拓扑特性加权的蛋白质网络上进行迭代,最后采用了一种综合不同加权参数下的排序的方法来获得最终的关键蛋白质候选集,该方法命名为HSEP。首先将原始的无向的蛋白质相互作用网络转化为有向双向蛋白质网络,并且结合生物特性和网络拓扑特性对蛋白质网络进行加权,然后用HITS算法在加权的蛋白质网络上进行迭代。最后,考虑到生物特性和网络拓扑特性在识别关键蛋白质过程中的作用,将生物特性与拓扑特性相结合,并且设置参数来分析两者对识别关键蛋白质的影响。为了将提出的方法应用到更多的数据集中,采用了一种综合不同加权参数下的排序的方法来获得最终的关键蛋白质候选集。实验结果在酵母数据集和果蝇数据集上都优于其他的方法。
论文目录
文章来源
类型: 硕士论文
作者: 王思果
导师: 雷秀娟
关键词: 蛋白质相互作用网络,关键蛋白质,生物数据
来源: 陕西师范大学
年度: 2019
分类: 基础科学,信息科技
专业: 生物学,自动化技术
单位: 陕西师范大学
分类号: TP18;Q51
DOI: 10.27292/d.cnki.gsxfu.2019.001370
总页数: 76
文件大小: 5410K
下载量: 29
相关论文文献
标签:蛋白质相互作用网络论文; 关键蛋白质论文; 生物数据论文;