基于动态下采样策略的时间序列数据存储优化技术研究

基于动态下采样策略的时间序列数据存储优化技术研究

论文摘要

近年来,高采样率时间序列数据在实时或高性能计算场景中的数据量呈现爆炸式增长,而且需要持久化存储以免数据丢失引起错误的分析结果。新型非易失性存储器(Non-Volatile Memory,NVM)可以提供持久化的时间序列数据存储。然而,频繁地向NVM写入高采样率时间序列数据会急速加快NVM的寿命损耗。同时,动态时间扭曲(Dynamic Time Warping,DTW)算法作为常用时间序列数据分析算法,由于其具有弹性匹配等优点,在时间序列数据爆炸式增长的背景下也显得越来越重要。但是,高采样率时间序列数据会严重影响DTW算法的效率并减慢其分析过程,这使得时间序列数据的分析存储过程更具挑战性。因此,设计一个针对高采样率时间序列数据、以NVM为存储介质的存储优化技术具有重要意义。为了实现高效持久化的时间序列数据存储与分析,本文采用可字节寻址的NVM作为主存,针对时间序列数据的特性和DTW算法的不足,提出了近似动态时间扭曲(Approximating Dynamic Time Warping,ADTW)框架下的时间序列数据存储优化技术:动态下采样(dynamic downsampling)策略。主要贡献如下:第一,针对高采样率时间序列数据的存储与分析问题,本文提出了动态下采样策略,通过利用平滑策略消除噪声、特征点提取策略降低采样率以及线性插值策略保证完整性,使得在不严重影响DTW算法精度的情况下,显著减少高采样率时间序列数据的存储开销。第二,为了增强动态下采样策略的性能,本文提出利用相对变化以及相邻数据点之间的斜率变化移除非重要数据点,从而提高动态下采样策略的精度;通过使用更高阶的内插函数,提高重构精度。第三,针对时间序列数据在NVM上的存储,本文提出基于可字节寻址的NVM的内存存储方案:采用诸如相变存储器等NVM作为本地DTW算法分析的主存以及持久性存储器。在该存储方案的基础上,本文还提出了相应的时间序列数据存储技术。最后,本文利用公开可用的时间序列数据集(如心电图数据ECG、气温数据Air temperature以及音频数据等)进行了一系列模拟仿真实验,验证了本文提出策略的有效性。实验结果表明,动态下采样策略可以在大多数数据集上达到90%以上的压缩率;而在最坏情况下,压缩率也可以达到80%以上。此外,动态下采样策略比现有研究中提出的策略更加精确且具有更小的CPU运行开销。

论文目录

  • 中文摘要
  • 英文摘要
  • 1 绪论
  •   1.1 研究背景及意义
  •   1.2 国内外研究现状
  •   1.3 论文主要研究内容
  •   1.4 论文组织结构
  • 2 背景技术介绍
  •   2.1 时间序列数据
  •   2.2 动态时间扭曲算法
  •   2.3 新型非易失性存储器
  •   2.4 现有技术存在的问题
  •   2.5 本章小结
  • 3 基于动态下采样策略的时间序列数据存储优化技术
  •   3.1 时间序列动态下采样策略
  •     3.1.1 平滑策略
  •     3.1.2 特征点提取策略
  •     3.1.3 插值策略
  •     3.1.4 动态下采样策略工作原理
  •   3.2 动态下采样策略优化技术
  •     3.2.1 基于相对变化的优化策略
  •     3.2.2 基于相邻数据点之间斜率变化的优化策略
  •     3.2.3 基于高阶内插的优化策略
  •     3.2.4 基于时间序列之间相似性的优化策略
  •   3.3 时间序列数据存储技术
  •     3.3.1 基于非易失性存储器的时间序列数据存储技术
  •     3.3.2 时间序列数据存储方案
  •   3.4 本章小结
  • 4 实验评价与分析
  •   4.1 实验环境及实验方法
  •   4.2 动态下采样策略实验结果及分析
  •     4.2.1 实验评价指标
  •     4.2.2 不同平滑距离下压缩率测试结果及分析
  •     4.2.3 时间序列相似性排序差异测试结果及分析
  •   4.3 对比实验测试结果及分析
  •     4.3.1 压缩率测试结果及分析
  •     4.3.2 平均差异测试结果及分析
  •     4.3.3 CPU运行时间测试结果及分析
  •   4.4 本章小结
  • 5 总结与展望
  • 参考文献
  • 附录
  •   A 作者在攻读学位期间发表的论文目录
  •   B 作者在攻读学位期间发表的专利目录
  •   C 作者在攻读学位期间参加的科研项目目录
  •   D 学位论文数据集
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 李星妮

    导师: 刘铎

    关键词: 时间序列数据,缩减采样,非易失性存储器,动态时间扭曲算法

    来源: 重庆大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 数学,计算机硬件技术

    单位: 重庆大学

    分类号: TP333;O211.61

    DOI: 10.27670/d.cnki.gcqdu.2019.000543

    总页数: 60

    文件大小: 2665k

    下载量: 26

    相关论文文献

    • [1].基于非稳态时间序列的生理控制模型研究[J]. 系统工程理论与实践 2020(02)
    • [2].基于多样化top-k shapelets转换的时间序列分类方法[J]. 计算机应用 2017(02)
    • [3].时间序列趋势预测[J]. 现代计算机(专业版) 2017(02)
    • [4].基于分型转折点的证券时间序列分段表示法[J]. 商 2016(31)
    • [5].基于ARMA模型的股价预测及实证研究[J]. 智富时代 2017(02)
    • [6].《漫长的告别》(年度资助摄影图书)[J]. 中国摄影 2017(04)
    • [7].王嵬作品[J]. 当代油画 2017(07)
    • [8].基于模糊时间序列的计算机信息粒构建研究[J]. 粘接 2020(10)
    • [9].基于时间序列挖掘的合成旅装备维修保障能力预测[J]. 系统工程与电子技术 2020(04)
    • [10].风速时间序列混沌判定方法比较研究[J]. 热能动力工程 2018(07)
    • [11].土壤退化时间序列的构建及其在我国土壤退化研究中的意义[J]. 土壤 2015(06)
    • [12].基于信息颗粒和模糊聚类的时间序列分割[J]. 模糊系统与数学 2015(01)
    • [13].不确定时间序列的降维及相似性匹配[J]. 计算机科学与探索 2015(04)
    • [14].时间序列的异常点诊断方法[J]. 中国卫生统计 2011(04)
    • [15].基于独立成分分析的时间序列谱聚类方法[J]. 系统工程理论与实践 2011(10)
    • [16].面向不确定时间序列的分类方法[J]. 计算机研究与发展 2011(S3)
    • [17].一种基于频繁模式的时间序列分类框架[J]. 电子与信息学报 2010(02)
    • [18].超启发式组合时间序列预报模型[J]. 福建电脑 2020(08)
    • [19].基于深度学习的时间序列算法综述[J]. 信息技术与信息化 2019(01)
    • [20].基于时间序列符号化模式表征的有向加权复杂网络[J]. 物理学报 2017(21)
    • [21].基于互相关的二阶段时间序列聚类方法[J]. 计算机工程与应用 2016(19)
    • [22].基于期货市场行为的时间序列切分及表示方法研究[J]. 中国管理信息化 2015(19)
    • [23].基于形态特征的时间序列符号聚合近似方法[J]. 模式识别与人工智能 2011(05)
    • [24].基于模糊时间序列对我国对外贸易中的进口水平的预测[J]. 统计与决策 2010(23)
    • [25].模糊变量时间序列及其应用[J]. 辽宁工程技术大学学报(自然科学版) 2010(06)
    • [26].时间序列流的分层段模型[J]. 小型微型计算机系统 2009(04)
    • [27].发动机转速时间序列分形特征分析[J]. 机械科学与技术 2008(11)
    • [28].基于HDAD的异构航空数据异常检测的研究[J]. 计算机仿真 2020(03)
    • [29].重庆藕塘滑坡地下水位时间序列混沌性判别与预测[J]. 人民长江 2020(S1)
    • [30].基于能量过滤的不确定时间序列数据清洗方法[J]. 智能计算机与应用 2019(04)

    标签:;  ;  ;  ;  

    基于动态下采样策略的时间序列数据存储优化技术研究
    下载Doc文档

    猜你喜欢