DNA序列及蛋白质序列的分析与比较

DNA序列及蛋白质序列的分析与比较

贺平安[1]2003年在《DNA序列及蛋白质序列的分析与比较》文中研究说明DNA、RNA和蛋白质都是由较小的单元组成的无分枝的线性聚合体大分子。对于DNA,这些单元是A(腺嘌呤)、C(胞嘧啶)、G(鸟嘌呤)和T(胸腺嘧啶)这4种核苷酸残基;对于RNA,这些单元是A、C、G和U(尿嘧啶)这4种核苷酸残基;对于蛋白质这些单元是20种氨基酸残基,即A(丙氨酸)、C(半胱氨酸)、D(天冬氨酸)、E(谷氨酸)、F(苯丙氨酸)、G(甘氨酸)、H(组氨酸)、I(异亮氨酸)、K(赖氨酸)、L(亮氨酸)、M(甲硫氨酸)、N(天冬酰氨酸)、P(脯氨酸)、Q(谷氨酰胺酸)、R(精氨酸)、S(丝氨酸)、T(苏氨酸)、V(缬氨酸)、W(色氨酸)和Y(酪氨酸)。这样,一个DNA(RNA)序列可以看作是在一个有四个字母的字母表N={A,C,G,T(U)}上的字(word),同样,蛋白质也可以看作是一个在20个字母上的字。在相当大的程度上,DNA、RNA和蛋白质分子的化学性质编码在这些基本单元的线性序列中。因此,字上的组合学和统计学的工具和方法可以在研究生物分子单元线性序列上发挥很大的作用。 本文的主要工作包括以下几个方面: 在第一章,利用代数中同态的思想和物理学中的“粗粒化”思想,根据DNA序列中四种核苷酸A、G、C和T的化学结构分类,提出DNA序列的特征序列的概念。一个DNA序列的特征序列是一组(0,1)序列,它们中的每一个都是这个DNA序列的一个简约表示,而且用它们中的任意两个都可以重新构造出这个序列;然后,利用特征序列中所有(0,1)叁元组出现的总数构造了一组2×2矩阵来表示序列。进一步,我们计算这种压缩矩阵的最大特征值并把它作为DNA序列的一种不变量。基于这些DNA序列的不变量我们分析了human,goat,gallus,opossum,lemur,mouse,rabbit,rat等八个物种的球蛋白(globin)基因序列的第一个外显子序列的相似性和非相似性;另外,我们试图通过比较特征序列来找出嘌呤-嘧啶,酮基-氨基,弱氢键-强氢键分类可能显现出的生物功能。 第二章研究DNA序列的特征序列在基因识别算法中的应用。首先,我们给出DNA序列的特征序列的一种数值刻划,利用这种数值刻划给出一个基因识别算法,并将这种算法用在模式生物酿酒酵母菌基因组的分类数据库中,准确性超过95%。反过来将算法应用到酿酒酵母菌基因组中进行基因识别,得到了一个酿酒酵母菌基因组中基因总数的估计5897,与普遍接受的酿酒酵母菌基因组中基因数目5800-6000相符。 在第叁章,我们将DNA序列的特征序列推广到蛋白质序列中。根据20种氨基酸的物理化学性质,给出一种蛋白质序列的特征序列的概念来表示氨基酸的疏水性质和电价性质,并给出蛋白质序列的特征序列一种数值刻划。然后,通过比较这些特征序列的数值刻划得到一些蛋白质二级结构类全α螺旋,全β折叠,和αβ类蛋白质的一些关于疏水性质和电价性质的信息。 在最后一章,我们利用代数的方法分析DNA序列和它们的叁维图表示。首先,我们给出DNA序列的叁维图表示(DNA曲线)的一些代数的运算,并用对称群凡作用到DNA曲线上,从而得到DNA曲线的一些性质.其次,对于DNA曲线,我们定义了两种等价关系,并得到一些与这两种等价关系相关的计数公式.在这一章的最后我们证明一个与等价类的嫡有关的不等式.

张继红[2]2012年在《经验模态分解及径向基函数的一些应用研究》文中研究说明本文主要研究经验模态分解、径向基函数及其在生物序列相似性分析方面的应用问题.共分为五章,具体内容与结构安排如下:第一章为绪论,主要介绍选题的研究背景、国内外研究概况和本文的研究内容与结构安排.第二章简单介绍一些基本概念,主要考虑基于经验模态分解的生物序列相似性分析问题.我们首先介绍了经验模态分解、生物序列的图形表示方法.其次,将经验模态分解分别应用到DNA序列和蛋白质序列的相似性分析上.最后,分别以四个物种的线粒体DNA序列以及七个物种的细胞色素c蛋白质序列为例,验证方法对于长DNA序列及蛋白质序列相似性分析的有效性.第叁章给出了两种基于拟插值格式的经验模态分解方法,并将它们应用于DNA序列相似性分析.首先,详细介绍了MQ径向基函数的发展历程,径向基函数插值,着重介绍了MQ径向基拟插值格式.然后,提出了基于MQ径向基拟插值格式的经验模态分解算法.最后,通过将这个算法应用到四个物种的线粒体DNA序列,验证了这个方法适用于分析物种长DNA序列的局部相似性.随后我们给出了基于B-样条拟插值格式的经验模态分解方法,同样将它用到DNA序列的相似性分析中.在详细介绍了B-样条拟插值格式之后,提出了基于B-样条拟插值格式的经验模态分解算法.最后,通过将其应用到十个物种的β-球蛋白第一类外显子DNA序列来验证这个方法对于短序列相似性分析的适用性.第四章给出了基于再生核插值的经验模态分解方法,并将它应用于DNA序列的相似性分析中.首先,详细介绍了再生核插值算法.然后,提出了基于再生核插值的经验模态分解算法.最后,将这个算法应用到四个物种的线粒体DNA序列,并研究各物种之间的相似性,通过数值实验验证了这个方法适用于长DNA序列的局部相似性分析.第五章总结了作者近期的一些想法以及对今后工作的展望,主要包括一种新的MQ拟插值格式的构造,变形参MQ插值以及多元再生核插值等问题.

高洁[3]2009年在《基于时间序列理论方法的生物序列特征分析》文中研究说明生物信息学的主要研究对象是DNA、RNA和蛋白质分子,因为这些生物大分子包含了遗传及物种进化的所有信息.随着DNA和蛋白质被测序,如何从这些DNA和蛋白质序列中获得更多的生物信息是具有挑战性的问题.随着碱基和氨基酸在基因数据库中的规模呈指数增长,利用新的理论方法去研究DNA和蛋白质序列就变得越来越重要.许多生物学家、物理学家、数学家和计算机专家都被吸引到这个研究领域中来.在介绍了生物信息学的研究背景之后,本文首先介绍了研究生物序列特性的时间序列理论方法,对本文要用到的短记忆ARMA模型和长记忆ARFIMA模型作了详细的阐述,为研究DNA序列、蛋白质序列特性做了理论上的准备工作.混沌游走表示(Chaos Game Representation,简记为CGR)是一种迭代映射技术,它可以把序列中的每一个单元,如DNA序列中的核苷酸,蛋白质序列中的氨基酸,映射到一个连续的坐标空间中去.我们基于CGR坐标提出了一种将DNA序列转换成一个时间序列(CGR-游走序列)的方法,并引入长记忆ARFIMA (p, d, q)模型来分析.我们分析了十条DNA序列的CGR-游走序列,发现都能用长记忆ARFIMA (p, d, q)模型高度显着地拟合.作为一个具有完善算法的经典时间序列模型,ARFIMA模型能帮助我们挖掘DNA序列中未知的特性.因为合适的ARFIMA模型在模型选择时成功率较低,且在参数估计中最大似然计算量较大,用短记忆模型去近似长记忆模型是研究者们感兴趣的问题.我们考虑利用短记忆ARMA(1, 1)过程去近似长记忆ARFIMA(p, d, q)过程,证明了这种适应性方法的均方误差准则,并引入DNA序列的十条CGR-游走序列用以分析,验证了这种近似方法的有效性,为长记忆DNA序列找到了一个算法更为简单的近似模型.在此基础上,我们还考虑利用ARMA(2, 2)模型去逼近ARFIMA(0, d, 0)模型.基于ARMA(2, 2)模型和ARMA(1, 1)模型有效性损失率的比较可知,ARMA(2, 2)近似模型优于ARMA(1, 1)近似模型.为验证此结论,还引入了服从ARFIMA(0, d, 0)模型的CGR-游走序列用以分析,比较了ARMA(1, 1)和ARMA(2, 2)这两个模型近似ARFIMA(0, d, 0)模型的有效性,根据残差标准差的结果可得ARMA(2, 2)近似模型优于ARMA(1, 1)近似模型.我们修改了Kalman滤波递推公式,解决了长记忆ARFIMA模型的缺失数据问题,并利用DNA序列的CGR-游走序列验证了此方法的有效性.基于已建立的DNA序列的CGR-游走模型,我们建立了一个类似的基于详细HP模型的连接蛋白质序列的CGR-游走模型,并引入长记忆ARFIMA (p, d, q)模型来分析,发现来自12条细菌全基因组的连接蛋白质序列的CGR-游走序列能用长记忆ARFIMA (p, d, q)模型显着地拟合.

吕艳芬[4]2017年在《基于字符间隔距离的生物序列模型及其应用》文中研究指明“面对生物大数据,如何建立数学模型进行大数据的快速处理与有效分析,从而最大程度地发现隐藏在数据中的重要信息”是当今生物数学领域的重要研究课题。本文从生物序列出发,以序列的基本构成元素——字符(分别表示碱基或氨基酸)的间隔距离为切入点,利用统计方法和机器学习方法建立数学模型,并将其应用于生物序列的分析和必需基因的识别中。一方面,借助已有的字符间隔距离序列,提出了新的碱基(氨基酸)间隔距离序列,它可以轻松地实现原始生物序列的重构而不需要任何其它辅助条件;在此基础上进一步提出了(有序的)精准间隔距离序列,抽取其五个基本统计量组成特征向量来表征原始生物序列;然后利用向量之间的欧氏距离计算生物序列之间的相似性程度;最后将该方法应用于叁组实验:DNA组,即18种真哺乳亚纲哺乳动物,23物种的线粒体基因组和11物种外显子序列的相似性分析;非编码RNA组,即19物种的非编码RNA序列的相似性分析;蛋白质组,即9条ND5序列、20条FG序列和24种脊椎动物的转铁蛋白序列的相似性分析。通过MEGA,Phylip、Treeview软件得到各组实验的生物系统发生树与已知结论一致,表明文中所提方法是进行序列分析和比较的有效工具。另一方面,鉴于必需基因的识别有助于对生命起源及进化的探索,并且可为药物靶点的设计、疾病的治疗以及合成生物学最小基因组的研究提供重要的基础,本文利用碱基间隔距离序列构造的特征向量,结合支持向量机方法,设置实验集和训练集,对5类细菌物种的必需基因和非必需基因的特征向量做10倍交叉验证,得到最优参数,计算AUC值(接受者操作特性曲线下面积)来评价模型的有效性。文中所得AUC值高于一些公认的已知结果,证实了文中所提方法是识别必需基因的可选择性工具。

余宏杰[5]2013年在《生物序列特征信息提取方法及其应用》文中指出随着后基因组时代的到来,生物学研究的重点已转向分析解释日益积累的海量数据,生物信息学(也称计算分子生物学)便应运而生,研究内容十分丰富,而其中的序列相似度分析尤为重要。这必然会涉及到生物序列的表征方式,以及序列特征信息的提取方法等核心问题。本文从现有的一些方法普遍存在的问题着手,在算法设计层面和数据应用层面上展开了一系列研究,提出了六种有效的特征信息提取算法模型,并和相关研究成果进行了理论与实验上的比较,验证了我们所提出算法的有效性。全文的主要工作概括如下:(1)生物序列的图形化表示,为我们提供了一个可供研究序列的可视化工具。为了直观地比较不同的DNA序列,本文提出一种新的特征信息抽取模型,可对序列作图形化表示,并作序列之间的相似度分析。引入变换将每条DNA序列用近邻核苷酸矩阵(NNM)来表示。再基于近似联合对角化(AJD),从每条DNA序列变换所得的NNM矩阵中抽取特征值作为表征向量(EVV),视每条EVV向量为各自所对应序列的数值描述子(Descriptor)。基于表征向量EVV可得DNA序列的二维表征图形。此外,利用k-均值法将这些表征各条序列的曲线图聚为若干个合理的子类。利用所得向量计算成对距离(Pair-wise Distance),以用来分析原始序列之间的相似度。本方法能同步、联合地从多重序列中抽取更多的信息,而非孤立地分析各条序列。在经典数据集上,构建系统树图验证了本方法的有效性。(2)为了比较不同的基因组序列,提出了新的非比对序列比较方法:考虑到序列具有“序”这一本质属性,基于16种不同类型的2-mer,也即双核苷酸(dinucleotides),定义一种复合变换,能将每条基因组序列转换成16×(L—1)的特征矩阵M。此外,我们还发现上述变换具有“保序”的特性。由矩阵分析理论,对矩阵M施以奇异值分解,来导出16维的向量用以描述每条基因组序列。最后,运用此算法对20条真哺乳亚纲线粒体基因组序列作相似度分析。实验结果表明,在基因组序列图形化表征及相似度分析方面,本算法表现较好。(3)为解决基因组序列维数较高,直接在低维空间数值表征很困难。本文还提出了具有“保距”特性的基因组序列的非比对模型。先将基因组序列转换成16×(L—1)的稀疏矩阵M,对所得矩阵M施以奇异值分解,便得16维“特征值”向量F用以表征每条基因组序列。通过主成分分析(PCA),将所得的前几个主元用于序列之间的比较。从理论上证明了:a)模型属于保距变换;b)16-元组向量与最近邻的双核苷酸数目相关密切。利用“特征值”向量F构建了各组哺乳动物基因组序列系统树图。此外,由主成分分析所得的前两个主元绘制物种的二维"Map图”,用以表征所涉物种间的亲缘关系。分析结果符合已知的哺乳动物谱系关系,揭示了线粒体基因组以及全基因组序列均能很好地将不同物种区分开来。本章的算法抓住基因组序列“序”的特性、能够将字符序列“保距”地变换(distane-preserving transformation:DPT)为低维向量空间中的数值向量。尤为值得一提的是,DPT算法非常适合大规模数据集(譬如:10条哺乳动物的全基因组序列数据集,序列平均长度达到2兆bps)。(4)基于所有各种近邻氨基酸(AAA)的分布情况,可将每条蛋白质序列映射成400×(L-1)的矩阵M,对M施行奇异值分解,从而可得从原始蛋白质序列抽取出归一化的数学描述符D,其维数为400。所得的400维归一化“特征”向量(NFV)便于对蛋白质序列作定量分析。运用蛋白质序列的归一化表示形式,遴选两个典型数据集作相似度分析。与相关研究工作所得结果对比研究表明,本算法(NFV-AAA)在蛋白质序列相似度分析领域,取得了较好的效果。(5)由于计算开销大的原因,传统的多重序列比对(MSA)不再适合基因组规模上的序列比较。本文还提出了改进的K-mer法:将序列分成若干段,并同时将每一段转换成相应的K-mer。该算法的关键在于确定出距离测度d、K值以及段数s的最优组合(矿,s‘,r)。基于从寻优分成的s*个片段的序列转化而来串联在一起的“特征”向量,运用所提出的分段K-mer模型(即:s-K-mer),获得34条哺乳动物线粒体基因组序列的系统树状图。结果表明序列相似度分析时,s-K-mer方法运行效果优于传统的K-mer方法。(6)比较多重基因组序列时,不仅只考虑全局相似性,还须考虑局部相似性。从信号处理的角度,本文还提出了拟用于基因组序列比较的新算法:先将各条基因组序列分成若干个片段,每段同时转换成相应的K-mer-based的向量,此过程可以视为将多重基因组信号经过虚拟传感器'virtual mixer'(VM)混合后的数值输出,实现了将长度迥异的原始序列转换为等长的向量。随后,利用ICA-based变换,可将上述混合输出的向量组向独立主成分投影,由此经过'projection extractor'(PE)捕获得到其投影向量;并从理论上严格证明了复合变换具有保距特性。此外,作为改进,引入双层VM-PE模型,以提高相似度分析的性能。而且经过层级VM-PE模型(HVMPE),大大降低了数据的维度。利用所提出的HVMPE模型,运用于两个线粒体基因组序列数据集作相似度分析,对比分析表明HVMPE模型明显好于现存的一些算法。

刘娜[6]2007年在《生物序列/结构的比较及进化树的构建》文中指出生物信息学,又称计算分子生物学,以计算机、网络为工具,采用数学和信息科学等的理论、方法和技术去研究生物大分子。它已经发展了大量的独具特色的分析方法和分析软件,为生物学家等提供了强大的分析工具。计算分子生物学已经成为生命科学中异常活跃的研究领域,其中进化分析和比较基因组学已经成为其当前最重要的研究课题之一。本文旨在探索一些简而有效的分析生物数据的方法,为生物学家提供一定的参考,其主要工作集中在对生物序列/结构的比较分析与进化树构建上。本文的研究成果可以概括如下:在序列的比较分析方面,提出了两种针对序列的相似性度量—相对相似性度量和加权相似性度量。相对相似性度量的特点是:它所导出的距离矩阵的主对角线元素值不为零,但是它不影响相似性分析。加权相似性度量的特点是:可以实现对序列的多角度分析。在结构的比较分析方面,建立了RNA二级结构、蛋白质二级结构的随机过程模型,并提出了各自模型下的结构相似性分析方法和结构划分方法;提出了两种辅助分析蛋白质二级结构的方法:叁角图形分析方法和傅立叶谱分析方法。这样一来,对蛋白质结构的比较可以从两个方面着手:抽象的数字特征和形象的图形特征;建立了RNA二级构型和RNA Catalan框架,实现了对RNA二级结构的直接计数。它们不仅能够以简单的形式反映出RNA二级结构的结构特征,也能够提供结构特征的数值刻画,从而为RNA二级结构的比较研究提供了新的研究途径。同时,在RNA二级结构特征的启发下,我们给出了组合学里Catalan数的一种划分,得到了带限制条件的Catalan数。在进化树构建方面,我们提出了一种基于RNA二级结构的进化树构建方法和两种基于蛋白质序列的进化树构建方法。这些方法的时间复杂度都不高,不涉及任何模型的假设。其中,基于RNA二级结构的进化树构建方法能够处理复杂性较高的RNA二级结构,而RNAforester却不能(RNAforester是一种比较RNA二级结构的软件,目前被广泛使用)。

薛峰[7]2008年在《基于混沌游戏表示的DNA序列的分形特征》文中提出随着生物信息学的发展和基因组数据的飞速积累,生命科学已步入后基因组时代,基因功能的研究逐渐成为重点。分形是非线性领域的一门分支学科,关于脱氧核糖核酸(DNA)序列分形特征的研究,可以揭示生物在进化过程中隐藏在DNA序列中的某些秘密。1990年Jeffrey提出了基因组序列的与尺度无关的混沌游戏表示法,这是基于迭代函数系统的一种方法,它将DNA序列中一定长度字的分布规律表现为图形的分形特征,进而通过分形分析就可获取序列的分布规律,从而也成为DNA序列分析的一种统计方法。本文从DNA序列的混沌游戏图形表示法出发,结合分形理论,对DNA序列的分形特征进行了较为全面的研究。主要结论如下:首先,由CGR图形的频数矩阵,对n-长子序列的频数分布进行了分析,指出长度大致相同的序列,其出现频数为1的n-长子序列个数随n的变化模式相当一致;并探讨了DNA序列结构,指出n-长子序列的最高出现频数与n值之间的关系以及出现频数为1的不同子序列的个数与n值之间的关系在不同物种中存在一致性。其次,讨论了DNA序列CGR图形的迭代函数系统,比较了不同序列在不同收缩系数时的情况,得到了结论:收缩系数较大( k = 0.999)时,相似的序列会收缩为很小的一个相似图形,而随机选取的序列收缩后的小图形则差异较大。随后,基于CGR图形对DNA序列进行了R/S分析,证实了DNA序列中存在长程相关性。然后,提出了一种计算DNA序列CGR图形的分形信息维数的方法,对序列的编码区和非编码区的实验结果表明,对同一物种的编码区序列的信息维数比非编码区序列的高。接着,以绝对差作为度量标准提出了一种计算DNA序列相似性的方法,选取了不同特征的3组序列进行了比较,得到结论:不同物种的相同组织的基因组序列、同一基因组的不同片段序列均具有较高的相似性。最后,研究了DNA序列CGR图形的多重分形的计算过程,讨论了权重因子及满足标度不变性的范围选择等问题,得到结论:对CGR图形进行多重分形时权重因子可以选择为-15≤q≤50;计算了不同序列的多重分形谱和广义维数,比较了不同序列不同尺度的多重分形谱和广义维数,发现多重分形谱和广义维数能够表现DNA序列CGR图形的不同层次的分形特征,能够区分更复杂的序列结构。

朱平[8]2008年在《基于代数理论方法的基因编码研究》文中指出作为大自然最伟大的创造之一的遗传密码究竞是如何起源与进化的一直是生命起源研究领域的热点问题。迄今,己有不少作者分别从不同的角度对这一问题作过许多十分有益的探索,并提出了多种遗传密码起源的假说。其中最主要的是基因组基因编码和线粒体基因编码,但仍有很多生物出现不符合这二套密码的现象。本文则是针对基因编码的密码子集合,根据其相应的理化性质和碱基的化学类型,建立一套新的基因编码规则,称为拟氨基酸编码方法,并利用代数运算给出一系列生物信息刻划,同时对已有的结论进行验证。为了更好地解释密码子重新组合的意义,本文还针对新的编码方法下的同义密码子的偏好性进行了运算,经过与经典的基因组基因编码的数据进行了运算比较,发现该编码方法更符合密码子编码氨基酸的一些重要特点及生物意义,回避了经典的遗传密码所不能解释的一些现象。这也是本文的主要创新点之一。主要工作如下:首先根据密码子所编的蛋白质序列,建立了蛋白质序列的代数运算和代数系统。并证明了这个系统恰好是一个带有恒等元的环的分配格。据此,我们还给出一个有意思的基因签名法,称为基因代数签名法。基于代数理论中的同态思想,针对密码子集合,根据其相应的理化性质和碱基的化学类型,建立一套新的基因编码规则,称为拟氨基酸编码方法,记为ZU -16,并利用代数运算给出一系列生物信息刻划,同时对已有的结论进行验证。经过计算, ZU -16中拟氨基酸的简并度等良好性质及内部关系均被揭示。这些结论充分证明了我们将密码子划分为16类的拟氨基酸编码确实是比较好的揭示了密码子的内部意义。所有这些相关的关系对于生命起源的探索都具有重要的意义。进一步的,我们还证明了(Z U -16,⊕,?)为域,这个结果告诉我们,人类基因密码子与拟氨基酸的组成具有紧密关系。在此基础上,我们分析了78个人类基因(19967个密码子)中基于拟氨基酸编码方法下的同义密码子的偏好使用情况,计算了其中基于拟氨基酸编码的同义密码子的相对使用度。并且与已有的在基因组基因编码方法下所计算的结果进行比较,其数据显示人类基因中基于拟氨基酸编码方法下,对同义密码子的选择在所有密码子家族中仍都呈现明显一致的偏好。即偏好使用密码子-反密码子结合作用强的密码子,恰好是以c结尾的密码子;并且避免使用结合作用中度的密码子。依据结果和数据分析,推测人类基因对密码子的选择除了受基因组结构中isochore和基因签名的影响外,还和密码子-反密码子结合强度密切相关。这些因素共同作用于人类基因,从而在所有密码子家族中都呈现出对同义密码子明显一致的偏好现象。并且这些特征比原来更为明显。在第六、七、八章中,我们则是回到Crick经典的基因组基因编码方法下,进行研究工作。首先修改了前人关于蛋白质序列的不同的σ-,τ-,σ∩τ-特征序列的概念,重新给出蛋白质序列的相关氨基酸特征序列,并进行理论分析,讨论其主要特征和次要特征差异。通过对所取的全α螺旋,全β折叠和αβ类共18种蛋白质序列进行数值刻划,并给出数值刻划图,用以判断这些物种的同源性和相似性程度。从而得到对蛋白质结构的进一步认识。其次,我们给出蛋白质序列的另一种图形刻划,计算了DNA序列中每个密码子出现频数,其方法和郝氏方法相似,所得到的二维平面图即为基因签名。另外,设计了一个蛋白质序列球面曲线。因此,利用球面曲线给出了一个特别的蛋白质序列基因签名方法。我们得到了一些符合常规知识的结果。那就是,对应点之间的距离较大的,它的突变范围和几率也比较大,距离小的它的突变范围和几率就比较小。然后,我们利用密码子所具有的基因特性,对入侵物种从微观上进行进一步的刻划研究。通过对不同入侵物种基因签名的分析比较,我们发现入侵物种的DNA序列是非随机的,并且发现DNA序列密码子出现频率具有分布差异,这些差异可导致对应蛋白质结构和功能的改变,进而改变物种特性。我们的研究目的是希望基因签名的研究能够对入侵物种的预防和控制有所帮助。最后则是对下一步工作的展望。

吴远廷[9]2015年在《基于序列信息的酵母重组热点和冷点的分析与预测研究》文中研究表明随着生物技术的快速不断发展,尤其是人类基因组计划实施以来,通过高通量基因的测序手段得到了大量的生物信息数据,如何解读和挖掘这些序列信息显得日益迫切,因而发明了一系列基于统计和计算方法来预测基因和蛋白质的功能。基因重组对于生命过程有着重要意义,它能够交换遗传的信息,促进生命的进化。由于基因重组在基因的不同区域发生的概率不同,可将基因不同区域分为冷点和热点区域。本文基于序列信息对酵母DNA重组冷点和热点进行预测研究,采用统计学方法分析了序列的GC含量、碱基对的相对丰度和关联性、密码子偏性与基因重组的关系,得出冷点和热点区域与GC含量关系密切,重组热点区域中使用的密码子以GC结尾使用居多。由于酵母冷点和热点DNA序列相似度高,所以采用比对和碱基成分法对此进行预测效果不佳。为此本文提出基于灰色理论、复杂度和二联体结构属性相结合的伪核苷酸特征来预测酵母的重组冷点序列和重组热点序列,使用K近邻方法分类,Jackknife交叉验证方法测试结果表明所提出的模型具有较好的预测成功率。本预测方法能为生物学家发现序列中蕴含的重组信息,为揭示基因重组的机制提供帮助。

杨润涛[10]2016年在《分子生物学系统建模及蛋白质功能预测相关问题研究》文中指出生命科学是研究生命活动规律、生命本质、生命发育规律,以及各种生物之间和生物与环境之间相互关系的科学。进入21世纪后,生命科学蓬勃发展,取得了重大突破。生命科学的广阔应用前景备受瞩目,其不仅有助于揭示生命活动的基本规律,而且为疾病的诊断和治疗提供重要的理论基础。DNA双螺旋结构模型的建立使分子生物学成为生命科学领域的重要分支学科,开创了在分子水平上研究生命现象的新纪元。基因表达是分子生物学的理论基石,是遗传信息从DNA传向蛋白质的过程。基因表达生物学机理的研究为DNA计算的诞生奠定了理论基础。自20世纪以来,分子生物学发展迅速。然而,生物化学实验研究方法的成本相对较高。因此,建立有效的分子生物学系统模型并进行分析和预测,揭示生命过程所蕴含的奥秘,已经成为本领域亟待解决的问题。蛋白质是生命活动的物质基础和最终执行者,直接表征人体的生命现象和生理机能。对蛋白质进行功能预测将有助于在分子、细胞和生物体等多个层次上全面揭示生命现象的本质,为疾病发生机制的探究、药物的研发开辟全新的途径。除此之外,蛋白质功能预测对于食品、农业生产、环境监控等领域具有巨大的推动作用。上世纪80年代以来,基因组测序计划的持续开展累积了海量的蛋白质序列,且其增长速度日益加快。实验测定的蛋白质功能远远落后于新发现的蛋白质序列的增长速度,单纯依靠实验研究已不能满足全基因组范围内对蛋白质功能进行注释的需要。如何缩小已知序列的蛋白质数量和已测定功能的蛋白质数量之间的差距已经成为分子生物学的一个重要研究课题。开发先进高效的计算方法辅助实验技术,建立蛋白质功能的预测模型及在线预测平台,势在必行。虽然分子生物学系统建模和蛋白质功能预测相关研究问题在过去的十多年中取得了很大的进展,但依然存在很大的探索空间。基于基础数学理论和机器学习理论,本学位论文研究了分子生物学系统建模和蛋白质功能预测相关问题,具体研究工作概述如下:(1)目前对于遗传密码的生物学机理、生物特征及生物学意义的研究,已较为深入。然而,受限于遗传密码精确数学模型的缺失,对密码子与其它生命体或生物过程的关系研究很难进一步展开。基于群模型在刻画对称、互补等特性的优势,在复平面上建模了遗传密码,并建立了遗传密码、氨基酸与群元素的对应关系,得到了一些有价值的命题,尤其定义了同一类氨基酸的不同编码密码子之间的函数关系。上述模型将为定量分析和理解基因表达过程提供参考,同时有助于分析基因突变对蛋白质合成的影响,进而揭示复杂生物系统的运行机制。(2)DNA计算具有广阔的应用前景。为降低实验的开销,有必要首先针对DNA计算算法进行计算机仿真,然后再开展相应的DNA计算实验工作。数学模型具有提炼生物学特征、刻画生物学过程、计算生物学系统动态演化过程的潜质。基于元间数学理论,建模了 DNA计算求解哈密尔顿路径问题的实验过程,从数学角度给出了节点的编码规则,得到了适用于求解多节点哈密尔顿路径问题的推广元间模型。上述模型可作为一种求解哈米尔顿路径问题的仿生计算方法,有助于将DNA计算与计算机仿真相结合,为先仿真再实验的DNA计算技术研究方法提供模型基础。(3)细胞外基质蛋白的多样性是细胞外基质在组织形态发生、分化和体内平衡等多个生物过程中发挥调控作用的基础。抗冻蛋白吸附到冰晶的表面并抑制冰晶的生长是越冬生物在严寒环境中生存的前提。蛋白质类别预测是蛋白质功能预测领域的重要研究分支。细胞外基质蛋白的预测将有助于理解相关的生物过程和药物开发。抗冻蛋白的预测将为揭示AFP与冰晶的相互作用机制提供重要线索。现有的细胞外基质蛋白和抗冻蛋白预测系统基于单分类器预测算法,在一定程度上限制了其预测性能。为此,基于集成学习算法,分别构建了细胞外基质蛋白和抗冻蛋白预测系统。实验结果表明,上述预测系统远远优于同类其它方法。(4)高尔基体主要负责蛋白质的存储、包装和分发。高尔基蛋白类型通常分为顺面膜囊蛋白和反面膜囊蛋白,使蛋白质有序的进出高尔基体。高尔基体蛋白的功能障碍会导致营养不良、糖尿病、癌症和其它遗传疾病。正确预测高尔基体蛋白质类型将有助于阐明高尔基体在有关生物学过程的功能,并为理解疾病的发作机制提供重要线索。基于共空间模式(Common Spatial Patterns,CSP)的概念,开发了一种用于区分顺面膜囊蛋白和反面膜囊蛋白的预测模型。实验结果显示,CSP方法的性能稍差于传统方法,特征维数却是传统方法的1/20,极大地降低了计算复杂度。综合考虑预测性能和特征维数,CSP是一种有效的特征提取方法。通过少数类过采样算法,解决了数据集不平衡问题。利用递归搜索的方法排除了冗余的特征,进一步提高了预测性能。通过与现存方法进行比较,证实了该方法的强大预测能力。(5)蛋白质表面与其它生物分子发生相互作用的结合位点,对于蛋白质功能的实现非常重要。蛋白质功能预测的另一重要研究方向是区分结合位点与蛋白质其它表面区域。以黄素腺嘌呤二核苷酸(Flavin Adenine Dinucleotide,FAD)相互作用残基为研究对象,通过多种特征提取策略,构建了蛋白质结合位点预测模型。鉴于邻接残基的相互依赖关系,在提取进化信息时对位置特异性打分矩阵(Position Specific Scoring Matrix,PSSM)进行 了平滑。为进一步深入理解 FAD 相互作用残基(FAD-Interacting Residues,FIRs)形成的机制,对各种类型的特征进行了定量分析。结果表明,所提取的特征对于FIRs和non-FIRs具有较好的区分能力。为降低计算复杂度并提高预测模型的精度,利用特征选择技术有效地选取了最优特征集合,并对最优特征进行了分析,在一定程度上揭示了 FAD与蛋白质发生相互作用的机制。训练集上的交叉验证结果显示,该方法的预测效果明显优于现有其它方法。(6)PSSM广泛应用于蛋白质序列进化信息的提取。现已有很多用于提取蛋白质序列信息的网络服务器,然而,还缺乏利用PSSM提取进化信息的网络服务器,极大地限制了其实际应用价值。基于上述原因,首先把从PSSM进行特征提取的方法划分为3类;然后,基于各类特征提取方法,搭建了用于提取蛋白质序列进化特征的网络服务器—PSSM-PROREP;最后阐明了网络服务器的用法。PSSM-PROREP的设计灵活、可配置、并具人性化。专家用户和非专家用户均可方便的评估这些特征的预测能力,从而选择合适的特征开发鲁棒性较强的预测算法。PSSM-PROREP有望成为蛋白质功能预测领域的有效工具。

参考文献:

[1]. DNA序列及蛋白质序列的分析与比较[D]. 贺平安. 大连理工大学. 2003

[2]. 经验模态分解及径向基函数的一些应用研究[D]. 张继红. 大连理工大学. 2012

[3]. 基于时间序列理论方法的生物序列特征分析[D]. 高洁. 江南大学. 2009

[4]. 基于字符间隔距离的生物序列模型及其应用[D]. 吕艳芬. 燕山大学. 2017

[5]. 生物序列特征信息提取方法及其应用[D]. 余宏杰. 中国科学技术大学. 2013

[6]. 生物序列/结构的比较及进化树的构建[D]. 刘娜. 大连理工大学. 2007

[7]. 基于混沌游戏表示的DNA序列的分形特征[D]. 薛峰. 重庆大学. 2008

[8]. 基于代数理论方法的基因编码研究[D]. 朱平. 江南大学. 2008

[9]. 基于序列信息的酵母重组热点和冷点的分析与预测研究[D]. 吴远廷. 景德镇陶瓷学院. 2015

[10]. 分子生物学系统建模及蛋白质功能预测相关问题研究[D]. 杨润涛. 山东大学. 2016

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

DNA序列及蛋白质序列的分析与比较
下载Doc文档

猜你喜欢