Print

一种基于可伸缩模式的潜在语义挖掘方法

论文摘要

大数据反映了人们的生活习惯、社会规律以及自然规律.数据流作为大数据最重要的表现形式之一,应用的范围非常广泛.在实际的数据流应用领域中,连续数据点组成的波段在宏观层次上展示了丰富的语义,因此以模式(波段)为粒度来表达数据流显得尤为重要.为此基于SP-tree挖掘的可伸缩模式,提出了Pattern2vec的方法,将可伸缩模式向量化,利用向量来发现数据流上潜在的隐含语义,完成分类工作.在医疗和电力数据开展实验,实验结果表明,Pattern2vec相比其他对比方法,具有更好的分类表现.

论文目录

  • 0 引言
  • 1 总体框架
  •   1.1 基本定义
  •   1.2 提取可伸缩模式序列
  • 2 可伸缩模式向量化映射
  • 3 层次Softmax
  • 4 判别分类
  • 5 实验结果与分析
  •   5.1 实验数据集
  •   5.2 隐含语义发现
  •   5.3 医疗数据流分类效果
  •   5.4 电力数据流分类效果
  • 6 结论
  • 文章来源

    类型: 期刊论文

    作者: 邱镇,王琪媛,刘迪,孟洪民

    关键词: 大数据,可伸缩模式,向量化,隐含语义,分类

    来源: 中国科学技术大学学报 2019年07期

    年度: 2019

    分类: 基础科学,信息科技

    专业: 计算机软件及计算机应用

    单位: 国网信息通信产业集团有限公司

    基金: 国家电网科技项目(52110418002W)资助

    分类号: TP311.13

    页码: 524-532

    总页数: 9

    文件大小: 2515K

    下载量: 16

    相关论文文献

    本文来源: https://www.lunwen66.cn/article/bd561467e495b054d719d121.html