使用随机突变碱基序列模拟昆虫内含子序列的演化

使用随机突变碱基序列模拟昆虫内含子序列的演化

论文摘要

内含子是存在于基因中的核苷酸序列,广泛存在于真核生物中。目前内含子的起源与演化机理尚不清楚,在真核生物蛋白质编码基因中首次发现内含子之后的近几十年来,关于内含子在真核生物基因组中的起源与演化引起了广泛的关注。至今仍存在两种对立的学说,即“内含子早现说”和“内含子晚现说”,对内含子的起源与演化机理作出了不同的解释。内含子的演化与真核生物基因组的进化密切相关,了解内含子的起源与演化机理对于理解真核生物基因的进化有重要的意义。面对来自于不同生物、长短不一、碱基序列差别很大的内含子,常规进化分析方法无法知晓它们是否是从更长的祖先序列开始、经由一边发生碱基突变一边缺失部分碱基演化而来,还是从更短的祖先序列开始、经由一边发生碱基突变一边插入部分碱基演化而来。已有序列模拟大多是用来推测基因中氨基酸编码序列的演化,并不太适用于模拟内含子序列的演化,因而需要寻求新的分析方法来探究内含子序列的演化机理。本研究通过设计“突变-缺失(Mutation-and-Deletion,MD)”和“突变-插入(Mutation-and-Insertion,MI)”两种模型来模拟内含子的演化过程,用于对真核生物基因内含子序列的演化开展模拟研究,所取得的主要结果如下:(1)使用C++计算机语言设计、编写了“突变-缺失”和“突变-插入”两种演化模型程序。“突变-缺失”程序以一条较长的序列为起点,按照每突变一定数量碱基后即缺失一定长度DNA片段的方式生成新的序列;“突变-插入”程序以一条较短的序列为起点,按照每突变一定数量碱基后即插入一定长度DNA片段的方式生成新的序列。两种程序均设置了5个可变参数,分别为:LAS1(第一祖先序列长度)、LAS8(第八祖先序列长度)、M1(每1单位树枝长度碱基突变数)、LI/D(每次插入或缺失的碱基数)、MI/D(每次突变的碱基数)。(2)以来自不同目(order)的11种昆虫为研究对象,将其Da(Daughterless)基因内含子序列做多序列比对后构建ML(Maximum Likelihood)系统发育树,得到这11条昆虫内含子序列的5个特征值如下:LMSA(多序列比对的长度)=3665 bp,RT92+G(T92+G替换模型下的转换与颠换比例)=1.54,D?(总平均距离)=1.52,SED?(总平均距离标准误)=0.16,TSML(ML进化树拓扑分值)=22。(3)依照L16(4*5)正交表分别设定了两种程序中5个参数的不同水平值,建立了16个MD模型和16个MI模型用于模拟内含子序列的演化。对各个模型所得序列特征值的统计分析表明,在MD模型中,多序列比对的长度LMSA受模型参数LAS1、LAS8、M1的影响显著,总平均距离D?受模型参数M1、LI/D、LAS1和MI/D的影响显著,总平均距离标准误SED?受模型参数M1、LI/D和MI/D的影响显著,进化树拓扑分值TSML受M1的影响显著;在MI模型中,LMSA受MI/D和LAS1的影响显著,转换与颠换的比例R受LI/D和M1的影响显著,D?受LAS1的影响显著,TSML受LAS1、LI/D和MI/D的影响显著。(4)根据各模型参数对序列特征值的影响曲线,对模型参数进行了优化,据此设定不同参数组合后再用MD模型和MI模型进行序列演化模拟。结果表明:设置适当参数的MD模型生成的序列与昆虫内含子序列的各特征值之间无显著差异,而从所尝试所有不同参数设置的MI模型中未得到无显著差异的序列特征值。上述结果表明,本研究中昆虫内含子序列应该是从较长的祖先序列通过碱基突变伴随着片段缺失逐渐演化而来,与“内含子早现说”阐述的演化机理更为符合。本研究设计、编写了新的计算机程序用于探讨内含子序列的演化机理,获得的结果可用于检验“内含子早现说”和“内含子晚现说”中的哪一种更为符合内含子序列的演化路径,对进一步揭示内含子序列的演化机理具有重要意义。

论文目录

  • 摘要
  • abstract
  • 第一章 绪论
  •   1.1 内含子
  •     1.1.1 内含子概述
  •     1.1.2 内含子的分类
  •     1.1.3 内含子的生物学功能
  •   1.2 内含子起源与演化学说
  •   1.3 内含子早现说研究证据
  •   1.4 内含子晚现说研究证据
  •   1.5 序列模拟
  •   1.6 研究目的和意义
  •   1.7 研究内容和技术路线
  •     1.7.1 研究内容
  •     1.7.2 技术路线
  • 第二章 内含子序列演化模型构建
  •   2.1 材料与方法
  •     2.1.1 产生随机序列的程序
  •     2.1.2 MD模型设计思路
  •     2.1.3 MI模型设计思路
  •   2.2 结果与讨论
  •     2.2.1 随机产生序列的程序
  •     2.2.2 MD模型结构
  •     2.2.3 MI模型结构
  •   2.3 本章小结
  • 第三章 昆虫内含子序列演化模拟
  •   3.1 材料与方法
  •     3.1.1 昆虫内含子序列
  •     3.1.2 特征值的计算
  •     3.1.3 MD模型正交试验设计
  •     3.1.4 MI模型正交试验设计
  •     3.1.5 随机产生的祖先内含子序列
  •     3.1.6 统计分析
  •   3.2 结果与讨论
  •     3.2.1 MD模型正交试验结果分析
  •     3.2.2 MI模型正交试验结果分析
  •   3.3 本章小结
  • 第四章 昆虫内含子序列演化模型参数优化
  •   4.1 材料与方法
  •     4.1.1 昆虫内含子序列
  • MD26 模型参数设定'>    4.1.2 MD17MD26 模型参数设定
  • MI24 模型参数设定'>    4.1.3 MI17MI24 模型参数设定
  •     4.1.4 特征值的计算
  •     4.1.5 随机突变昆虫内含子序列中的一个碱基
  •     4.1.6 统计分析
  •   4.2 结果与讨论
  • MD26 模型的运行结果'>    4.2.1 MD17MD26 模型的运行结果
  • MI24 模型的运行结果'>    4.2.2 MI17MI24 模型的运行结果
  •   4.3 本章小结
  • 第五章 结论与展望
  •   5.1 结论
  •   5.2 展望
  • 参考文献
  • 致谢
  • 在校期间发表论文
  • 文章来源

    类型: 硕士论文

    作者: 曾桢

    导师: 王勇

    关键词: 内含子早现说,内含子晚现说,序列模拟,突变插入模型,突变缺失模型

    来源: 江苏大学

    年度: 2019

    分类: 基础科学

    专业: 生物学

    单位: 江苏大学

    分类号: Q961

    总页数: 78

    文件大小: 2745K

    下载量: 24

    相关论文文献

    • [1].果蝇成熟mRNA序列与其相应内含子序列的匹配特征分析[J]. 内蒙古大学学报(自然科学版) 2018(06)
    • [2].新疆锁阳线粒体nad 1基因第2内含子序列居群间变异分析[J]. 中国现代中药 2010(10)
    • [3].拟南芥外显子连接序列上最佳匹配片段的偏好[J]. 内蒙古大学学报(自然科学版) 2020(02)
    • [4].mRNA序列与相应内含子序列匹配的普适性分析[J]. 生物信息学 2020(03)

    标签:;  ;  ;  ;  ;  

    使用随机突变碱基序列模拟昆虫内含子序列的演化
    下载Doc文档

    猜你喜欢