基于多重假设检验的序列数据分析

基于多重假设检验的序列数据分析

论文摘要

序列是一种常见的数据类型,是由一系列元素构成的一个有序线性表。很多实际应用的核心算法问题均是序列数据分析问题,比如:血压监控、网络购物链接点击预测等等。在序列数据分析领域中存在有许多不同的研究方向,例如分类、聚类和模式发现等等,本文主要关注序列数据中的判别模式挖掘和分类两个问题。现有的判别序列模式挖掘算法以及序列分类算法,都缺乏对于结果的质量控制,造成挖掘模式集合假阳性结果较多或者分类准确率不高。当判别序列模式集合中包含有过多的假阳性模式时,会降低模式的可用性。而对于分类器来说,会直接影响分类准确率,影响分类性能。针对于判别序列挖掘问题,本文首先提出了一个新的数据挖掘问题:统计显著判别序列模式挖掘,并针对该问题提出了相应的算法:DSPM-MTC算法。DSPM-MTC算法利用Bonferroni校正法和BH方法分别对FWER和FDR进行控制,从而提供稳定且高质量的结果集合。实验结果表明,DSPM-MTC算法可以过滤掉大量的假阳性判别序列模式,能够提供稳定且高质量的结果集合。对于序列分类问题,本文提出了一个新的序列分类算法:MTC-Sclassifier算法。该算法将序列分类问题归纳为一个假设检验问题,并通过p-value来量化序列分类结果的统计显著性,并能有效的控制分类结果的错误率。MTC-Sclassifier算法使用两样本检验测试待分类样本属于正反例集的可能性,同时结合k-NN算法减少了无关训练序列以及异常训练序列的影响,并利用FDR控制了错误分类的样本个数,还可以鉴别离群数据。实验表明,MTC-Sclassifier算法的分类准确率良好,并能通过控制FDR有效的控制错误分类的样本数量,同时可以很好地鉴别离群点。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  •   1.1 研究目的
  •   1.2 研究动机
  •   1.3 相关工作
  •     1.3.1 判别序列模式挖掘相关算法
  •     1.3.2 序列分类相关算法
  •   1.4 本文主要贡献
  •   1.5 本文组织结构
  • 2 相关技术
  •   2.1 多重假设检验
  •     2.1.1 p-value
  •     2.1.2 FDR(False Discovery Rate)
  •     2.1.3 FWER(Family-Wise Error Rate)
  •   2.2 两样本检验
  •   2.3 GSP算法
  •     2.3.1 支持度计算
  •     2.3.2 候选模式生成
  •   2.4 分类算法
  • 3 统计显著判别序列模式挖掘
  •   3.1 基本定义
  •   3.2 相关定义
  •     3.2.1 频繁序列模式挖掘
  •     3.2.2 判别序列模式挖掘
  •     3.2.3 统计显著判别序列模式挖掘
  •   3.3 DSPM-MTC算法
  •     3.3.1 p-value
  •     3.3.2 多重假设检验校正
  •     3.3.3 DSPM-MTC算法
  •   3.4 实验结果
  •     3.4.1 数据集描述
  •     3.4.2真实数据上对比实验
  •     3.4.3 参数影响
  •     3.4.4仿真数据集上的对比实验
  •   3.5 本章小结
  • 4 基于假设检验的序列分类算法
  •   4.1 基本定义
  •   4.2 MTC-Sclassifier算法
  •     4.2.1 两样本检验
  •     4.2.2 k-NN变种
  •     4.2.3 相似度函数
  •     4.2.4 FDR控制
  •     4.2.5 MTC-Sclassifier算法
  •   4.3 实验结果
  •     4.3.1 分类准确率
  •     4.3.2 FDR控制效果
  •     4.3.3 离群点鉴别
  •   4.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 张思萌

    导师: 何增有

    关键词: 序列模式,判别模式,多重假设检验,序列分类

    来源: 大连理工大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 数学,计算机软件及计算机应用

    单位: 大连理工大学

    分类号: TP311.13;O212.1

    DOI: 10.26991/d.cnki.gdllu.2019.000151

    总页数: 61

    文件大小: 1390K

    下载量: 57

    相关论文文献

    • [1].序列模式挖掘在心理危机干预技能评估中的应用[J]. 上海交通大学学报(医学版) 2020(03)
    • [2].序列模式中的生成序列模式挖掘综述[J]. 无线通信技术 2018(04)
    • [3].增量序列模式挖掘研究进展[J]. 网络安全技术与应用 2017(01)
    • [4].间隙约束序列模式挖掘的对比研究[J]. 网络安全技术与应用 2017(02)
    • [5].序列模式挖掘两种典型算法的研究[J]. 信息技术 2016(11)
    • [6].满足非重叠条件的带有通配符序列模式挖掘[J]. 小型微型计算机系统 2017(05)
    • [7].基于位置信息的显露序列模式挖掘研究[J]. 计算机科学 2017(07)
    • [8].序列模式挖掘在教学管理上的运用[J]. 电脑知识与技术 2016(13)
    • [9].负序列模式挖掘研究[J]. 廊坊师范学院学报(自然科学版) 2015(03)
    • [10].序列模式挖掘技术在数字图书馆中的应用[J]. 农业图书情报学刊 2015(07)
    • [11].一种最有趣的序列模式挖掘算法[J]. 计算机仿真 2019(04)
    • [12].考虑价格的跨种类模糊序列模式挖掘算法[J]. 计算机应用研究 2018(01)
    • [13].水质时间序列模式挖掘[J]. 计算机技术与发展 2018(05)
    • [14].基于频繁序列模式挖掘的反恐情报关联分析[J]. 情报理论与实践 2018(10)
    • [15].序列模式挖掘在通信网络告警预测中的应用[J]. 计算机科学 2018(S2)
    • [16].闭合负序列模式挖掘[J]. 哈尔滨师范大学自然科学学报 2015(06)
    • [17].多维序列模式挖掘算法分析[J]. 赤峰学院学报(自然科学版) 2014(07)
    • [18].基于序列模式挖掘的读者借阅行为分析[J]. 图书情报知识 2011(04)
    • [19].序列模式挖掘综述[J]. 计算机应用研究 2008(07)
    • [20].多支持度下用户行为序列模式挖掘方法研究[J]. 计算机应用与软件 2018(01)
    • [21].基于隐私保护的序列模式挖掘[J]. 计算机科学 2016(12)
    • [22].基于支持量的并发序列模式挖掘方法[J]. 计算机工程与设计 2016(01)
    • [23].基于序列模式挖掘的基因剪接位点[J]. 数据采集与处理 2016(05)
    • [24].一种基于逻辑的频繁序列模式挖掘算法[J]. 计算机科学 2015(05)
    • [25].高效的稀有序列模式挖掘方法[J]. 计算机科学与探索 2015(04)
    • [26].时态数据中序列模式挖掘研究[J]. 科技创新导报 2014(13)
    • [27].序列模式挖掘在教学管理上的应用[J]. 计算机与现代化 2012(11)
    • [28].一种模糊序列模式挖掘的有效方法[J]. 现代计算机(专业版) 2010(13)
    • [29].并发序列模式挖掘方法研究[J]. 计算机应用 2009(11)
    • [30].序列模式挖掘算法在高血压治疗中的研究[J]. 计算机工程与设计 2018(03)

    标签:;  ;  ;  ;  

    基于多重假设检验的序列数据分析
    下载Doc文档

    猜你喜欢