三元共现潜在语义向量空间模型及降维研究

三元共现潜在语义向量空间模型及降维研究

论文摘要

文本的向量表示方法对文本主题聚合、聚类、信息检索及推荐系统等研究具有重要意义。在传统的文本表示模型中,向量空间模型(VSM)相对简单,且应用较为广泛。但该模型假设特征词相互独立,这在一定程度上会影响聚类效果。而共现潜在语义向量空间模型(CLSVSM)则是在VSM基础上,利用共现分析深入挖掘文本信息中特征词之间的潜在语义关系,并利用共现相对强度来估计这种关系,最终估计文献与特征词的相似性。通过实验可证明CLSVSM聚类精度要高于VSM。本文以共现潜在语义向量空间模型为基础,对模型进行拓展及降维研究。基于布尔权重的局限,利用词频统计量重新估计模型,构建词频共现潜在语义向量空间模型(FCLSVSM);为使CLSVSM能充分提取文献的潜在语义信息,进一步引入三元共现,通过研究三元共现表示,三元共现频次及三元共现相对强度的计算,最终建立三元共现潜在语义向量空间模型(T-CLSVSM)。但随着文本数量的增加,表达模型的维度会越来越高,计算量也会相应增加,最终导致模型应用的边际效应降低。因此考虑利用惩罚性矩阵分解(PMD)方法进行降维优化,具体方法包括:计算K-秩近似及提取核心特征词。实验中,选择扩展数据集验证FCLSVSM,利用基础数据集来验证T-CLSVSM及PMD算法,并利用公共数据集来检验模型的适用范围。最终得到如下结论:选择词频统计量来估计模型,可以显著提高聚类效果。在所选评价指标(纯度,熵值,F1值)下,T-CLSVSM的聚类精度要优于VSM与CLSVSM。PMD算法中,提取核心特征词与计算K-秩近似两种方法均可有效实现降维,与基于CLSVSM构建的语义核函数(CLSVSMK)相比,聚类精度更高,降维效果更好。本文对于共现潜在语义向量空间模型作出改进,包括基于词频信息的模型重建,三元共现潜在语义向量空间模型的构建以及利用PMD算法对模型进行降维。最终证明,改进后的模型可以提高聚类精度,降低计算复杂度,节约成本。模型的改进为文本表示提供了新的选择,同时也为文献聚合中的相似性度量、文献检索、分类等研究提供了参考。

论文目录

  • 中文摘要
  • ABSTRACT
  • 第一章 引言
  •   1.1 研究背景及意义
  •   1.2 国内外研究动态
  •   1.3 本文的研究内容
  •   1.4 本文的结构安排
  • 第二章 共现潜在语义向量空间模型
  •   2.1 模型准备
  •     2.1.1 特征词的选择
  •     2.1.2 共现分析理论
  •   2.2 基于布尔权重的模型构建
  •   2.3 基于词频权重的模型构建
  •     2.3.1 构建背景
  •     2.3.2 构建过程
  •   2.4 本章小结
  • 第三章 三元共现潜在语义向量空间模型
  •   3.1 三元共现表示
  •   3.2 三元共现频次
  •   3.3 三元共现相对强度
  •   3.4 三元共现潜在语义向量空间模型的构建
  •   3.5 本章小结
  • 第四章 模型降维研究
  •   4.1 惩罚性矩阵分解算法理论
  •   4.2 算法实现过程
  •     4.2.1 稀疏解释
  •     4.2.2 实现过程
  •   4.3 基于共现潜在语义向量空间模型的语义核构建
  •   4.4 本章小结
  • 第五章 模型检验
  •   5.1 词频共现潜在语义向量空间模型实验
  •     5.1.1 数据集
  •     5.1.2 实验过程
  •     5.1.3 实验评价指标
  •     5.1.4 实验结果
  •   5.2 三元共现潜在语义向量空间模型实验
  •     5.2.1 数据集
  •     5.2.2 实验过程
  •     5.2.3 实验结果
  •   5.3 惩罚性矩阵分解实验
  •     5.3.1 数据集
  •     5.3.2 实验过程
  •     5.3.3 实验结果
  •   5.4 本章小结
  • 第六章 总结与展望
  •   6.1 总结
  •   6.2 展望
  • 参考文献
  • 攻读硕士期间取得的研究成果
  • 致谢
  • 个人简况及联系方式
  • 文章来源

    类型: 硕士论文

    作者: 王世昌

    导师: 牛奉高

    关键词: 文本聚类

    来源: 山西大学

    年度: 2019

    分类: 基础科学,经济与管理科学

    专业: 数学,宏观经济管理与可持续发展

    单位: 山西大学

    分类号: F224

    DOI: 10.27284/d.cnki.gsxiu.2019.000126

    总页数: 52

    文件大小: 3587K

    下载量: 42

    相关论文文献

    • [1].一种面向语义检索的向量空间模型改进方法[J]. 农业网络信息 2012(10)
    • [2].基于跨语言广义向量空间模型的跨语言文档聚类方法[J]. 中文信息学报 2012(02)
    • [3].基于情感向量空间模型的歌词情感分析[J]. 中文信息学报 2010(01)
    • [4].基于本体兴趣特征向量空间模型的社区自组织算法[J]. 系统工程 2009(05)
    • [5].基于向量空间模型的短文本密文检索方法[J]. 计算机工程与设计 2017(11)
    • [6].向量空间模型的信息检索技术[J]. 价值工程 2013(13)
    • [7].概念向量空间模型在智能答疑系统中的应用[J]. 安徽工业大学学报(自然科学版) 2008(02)
    • [8].基于词向量的向量空间模型的改进[J]. 现代计算机(专业版) 2018(36)
    • [9].共现潜在语义向量空间模型的进一步研究[J]. 情报杂志 2017(12)
    • [10].基于向量空间模型结合语义的文本相似度算法[J]. 现代电子技术 2018(11)
    • [11].基于鉴别性向量空间模型的语种识别[J]. 清华大学学报(自然科学版) 2013(06)
    • [12].使用向量空间模型进行信息检索的实现[J]. 华南金融电脑 2008(10)
    • [13].核向量空间模型在电能质量综合评估中的应用[J]. 电力系统保护与控制 2012(01)
    • [14].基于向量空间模型的信息检索技术研究[J]. 现代电子技术 2012(11)
    • [15].一种基于向量空间模型的信息检索算法研究[J]. 通讯世界 2018(09)
    • [16].基于情感特征向量空间模型的中文商品评论倾向分类算法[J]. 计算机应用与软件 2016(08)
    • [17].向量空间模型文本建模的语义增量化改进研究[J]. 现代图书情报技术 2014(10)
    • [18].基于主题标签的在线社区话题发现[J]. 系统工程 2017(07)
    • [19].基于N层向量空间模型和两重过滤方法的文本过滤系统的研究[J]. 科技信息 2009(32)
    • [20].一种基于向量空间模型的主观题批改算法[J]. 计算机与现代化 2008(12)
    • [21].基于层次向量空间模型的用户兴趣建模研究[J]. 现代计算机(专业版) 2010(06)
    • [22].基于向量空间模型的信息检索系统的研究与实现[J]. 长春大学学报 2009(08)
    • [23].基于向量空间模型的问答题智能化评分系统[J]. 电脑知识与技术 2008(01)
    • [24].一种基于词义和词频的向量空间模型改进方法[J]. 计算机应用研究 2019(05)
    • [25].基于向量空间模型的网页过滤分析[J]. 电子技术与软件工程 2016(12)
    • [26].基于N层向量空间模型的装备IETM数据查询[J]. 装甲兵工程学院学报 2015(01)
    • [27].基于向量空间模型中文农业网页分类技术研究[J]. 新疆农业大学学报 2012(02)
    • [28].基于情感向量空间模型的歌曲情感标签预测模型[J]. 中文信息学报 2012(06)
    • [29].基于二维向量空间模型的农业技术智能问答系统研究[J]. 江苏农业科学 2012(07)
    • [30].基于WVTool的文本向量空间模型研究与实现[J]. 电脑编程技巧与维护 2012(05)

    标签:;  

    三元共现潜在语义向量空间模型及降维研究
    下载Doc文档

    猜你喜欢