局部相似分析的统计研究及其在生物时间序列中的应用

局部相似分析的统计研究及其在生物时间序列中的应用

论文摘要

宏基因组表示自然环境中全部微生物遗传物质的总和,是生物信息学最热门的研究领域之一。宏基因组学无需对微生物进行培养,直接提取环境中存在的所有微生物的遗传信息,进而研究环境中微生物之间的相互作用,分析微生物群落的物种多样性。随着分子生物学技术的快速发展,特别是下一代测序技术的出现,大量的宏基因组测序数据不断产生。面对海量的测序数据,如何利用它们对微生物组进行研究分析是生物信息学面临的一大挑战。近十年来,受益于测序成本的大幅降低,分子生物学研究产生了大量的微生物群落时间序列数据。在时间序列相关的统计方法中,局部相似分析(local similarity analysis,LSA)已被广泛用于研究不同环境中微生物群落的时空演变,寻找微生物物种之间潜在的局部和时间延迟关系。这些关系无法通过传统的相关性分析方法获得。通常利用置换检验对局部相似分析的统计显著性进行评估。最近,研究人员提出了一个理论方法分析局部相似得分的统计显著性。然而,这个方法和置换检验都需要假设原始时间序列是独立同分布的,但在很多实际问题中这个假设可能是不成立的。本文提出了一些新方法研究平稳时间序列局部相似分析的统计显著性,并将其应用于生物时间序列数据中。论文主要包含以下几个方面:第二章提出了平稳时间序列局部相似分析的统计显著性评价方法——数据驱动局部相似分析(Data Driven LSA,DDLSA)。在DDLSA中,基于独立同分布理论评估方法,利用长期方差对局部相似分析的渐近理论进行了修正,得到了平稳时间序列局部相似得分的极限分布,其中的长期方差通过非参数核估计方法获得。另外,提出了一个基于残差的评价方法LSAres(LSA for residuals),通过独立同分布理论评价方法评估给定统计模型残差序列的统计显著性,得到原始序列局部相似分析的统计显著性。模拟结果表明,在平稳时间序列模型中,DDLSA和LSAres可以有效控制第一类错误率,而其他方法却不能。另外,将不同方法应用于人类和海洋微生物数据集中,发现我们的方法可以识别大多数可能的显著关系,并且有效减少假阳性关系的数量。第三章将滑动分块自助法应用于平稳时间序列局部相似分析的统计显著性评估中,提出了 MBBLSA(Moving Block Bootstrap LSA)方法。该方法首先将原始序列分为长度相同的可重叠的小块,然后对分块样本随机有放回抽样,最后拼接成与原始序列长度一样的重抽样样本。由于每个分块样本是平稳的,因此重抽样样本也会保留原始序列的部分平稳特征,从而克服了置换检验需要原始数据必须为独立同分布序列这一缺点。由于在滑动分块自助法中分块长度的选择对最终的结果起着至关重要的作用,因此需要找到一个合适的分块长度选择器。本文选择了一个基于AR(1)模型自回归系数的分块长度选择器。最后,将MBBLSA应用于模拟研究和实证分析中,结果表明,相比于现存的方法,MBBLSA的表现更好。第四章首先介绍了局部相似分析的扩展方法一一局部趋势分析(local trend analysis.LTA)。局部趋势分析首先将原始序列转化为趋势序列,然后对趋势序列进行局部相似分析,进而得到局部趋势得分。为了评估局部趋势得分的统计显著性,提出一个新的方法STLTA(Stationary Theoretical Local Trend Analysis)。利用矩阵的谱分解理论,得到了不同状态空间趋势序列的调整方差,从而可得局部趋势得分的精确极限分布。模拟结果显示,在不同的时间序列模型下,STLTA的第一类错误率更接近给定的显著性水平。将STLTA应用于不同的宏基因组数据中,与置换检验和独立同分布序列评价方法相比,发现STLTA更加有效。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  •   1.1 宏基因组简介
  •     1.1.1 微生物和宏基因组
  •     1.1.2 宏基因组分析方法
  •     1.1.3 宏基因组时间序列研究
  •   1.2 生物时间序列相似性比较方法
  •     1.2.1 皮尔逊相关系数
  •     1.2.2 斯皮尔曼等级相关系数
  •     1.2.3 局部相似分析
  •     1.2.4 多重假设检验修正
  •   1.3 本文主要内容
  • 第二章 局部相似分析的统计显著性
  •   2.1 引言
  •   2.2 独立同分布序列统计显著性分析
  •   2.3 平稳时间序列统计显著性分析
  •     2.3.1 基于数据驱动的评价方法
  •     2.3.2 长期方差的估计
  •     2.3.3 基于残差的评价方法
  •     2.3.4 数据标准化
  •   2.4 模拟研究
  •     2.4.1 不同方法经验水平比较
  •     2.4.2 不同方法的功效比较
  •   2.5 实证分析
  •     2.5.1 MPHM数据集
  •     2.5.2 PML数据集
  •   2.6 小结
  • 第三章 局部相似分析统计显著性非参数评价方法
  •   3.1 引言
  •   3.2 基于滑动分块自助法的评价方法
  •     3.2.1 滑动分块自助法
  •     3.2.2 分块长度的选择
  •   3.3 模拟研究
  •   3.4 实证分析
  •     3.4.1 SPOT数据集
  •     3.4.2 MPHM数据集
  •     3.4.3 PML数据集
  •   3.5 小结
  • 第四章 局部趋势分析的统计显著性
  •   4.1 引言
  •   4.2 局部趋势分析统计显著性评价方法
  •     4.2.1 局部趋势分析简介
  •     4.2.2 局部趋势得分统计显著性分析
  •   4.3 模拟研究
  •   4.4 实证分析
  •     4.4.1 MPHN数据集
  •     4.4.2 PML数据集
  •   4.5 小结
  • 第五章 总结与展望
  • 参考文献
  • 附录
  • 攻读博士学位期间完成论文情况
  • 致谢
  • 学位论文评阅及答辩情况表
  • 文章来源

    类型: 博士论文

    作者: 张方

    导师: 栾贻会,Fengzhu Sun

    关键词: 局部相似分析,统计显著性,平稳时间序列,长期方差,非参数核估计,滑动分块自助法,局部趋势分析

    来源: 山东大学

    年度: 2019

    分类: 基础科学,经济与管理科学

    专业: 数学,宏观经济管理与可持续发展

    单位: 山东大学

    分类号: F224

    总页数: 142

    文件大小: 10623K

    下载量: 145

    相关论文文献

    • [1].基于非稳态时间序列的生理控制模型研究[J]. 系统工程理论与实践 2020(02)
    • [2].基于多样化top-k shapelets转换的时间序列分类方法[J]. 计算机应用 2017(02)
    • [3].时间序列趋势预测[J]. 现代计算机(专业版) 2017(02)
    • [4].基于分型转折点的证券时间序列分段表示法[J]. 商 2016(31)
    • [5].基于ARMA模型的股价预测及实证研究[J]. 智富时代 2017(02)
    • [6].《漫长的告别》(年度资助摄影图书)[J]. 中国摄影 2017(04)
    • [7].王嵬作品[J]. 当代油画 2017(07)
    • [8].基于模糊时间序列的计算机信息粒构建研究[J]. 粘接 2020(10)
    • [9].基于时间序列挖掘的合成旅装备维修保障能力预测[J]. 系统工程与电子技术 2020(04)
    • [10].风速时间序列混沌判定方法比较研究[J]. 热能动力工程 2018(07)
    • [11].土壤退化时间序列的构建及其在我国土壤退化研究中的意义[J]. 土壤 2015(06)
    • [12].基于信息颗粒和模糊聚类的时间序列分割[J]. 模糊系统与数学 2015(01)
    • [13].不确定时间序列的降维及相似性匹配[J]. 计算机科学与探索 2015(04)
    • [14].时间序列的异常点诊断方法[J]. 中国卫生统计 2011(04)
    • [15].基于独立成分分析的时间序列谱聚类方法[J]. 系统工程理论与实践 2011(10)
    • [16].面向不确定时间序列的分类方法[J]. 计算机研究与发展 2011(S3)
    • [17].一种基于频繁模式的时间序列分类框架[J]. 电子与信息学报 2010(02)
    • [18].超启发式组合时间序列预报模型[J]. 福建电脑 2020(08)
    • [19].基于深度学习的时间序列算法综述[J]. 信息技术与信息化 2019(01)
    • [20].基于时间序列符号化模式表征的有向加权复杂网络[J]. 物理学报 2017(21)
    • [21].基于互相关的二阶段时间序列聚类方法[J]. 计算机工程与应用 2016(19)
    • [22].基于期货市场行为的时间序列切分及表示方法研究[J]. 中国管理信息化 2015(19)
    • [23].基于形态特征的时间序列符号聚合近似方法[J]. 模式识别与人工智能 2011(05)
    • [24].基于模糊时间序列对我国对外贸易中的进口水平的预测[J]. 统计与决策 2010(23)
    • [25].模糊变量时间序列及其应用[J]. 辽宁工程技术大学学报(自然科学版) 2010(06)
    • [26].时间序列流的分层段模型[J]. 小型微型计算机系统 2009(04)
    • [27].发动机转速时间序列分形特征分析[J]. 机械科学与技术 2008(11)
    • [28].基于HDAD的异构航空数据异常检测的研究[J]. 计算机仿真 2020(03)
    • [29].重庆藕塘滑坡地下水位时间序列混沌性判别与预测[J]. 人民长江 2020(S1)
    • [30].基于能量过滤的不确定时间序列数据清洗方法[J]. 智能计算机与应用 2019(04)

    标签:;  ;  ;  ;  ;  ;  ;  

    局部相似分析的统计研究及其在生物时间序列中的应用
    下载Doc文档

    猜你喜欢