论文摘要
文本的向量表示方法对文本主题聚合、聚类、信息检索及推荐系统等研究具有重要意义。在传统的文本表示模型中,向量空间模型(VSM)相对简单,且应用较为广泛。但该模型假设特征词相互独立,这在一定程度上会影响聚类效果。而共现潜在语义向量空间模型(CLSVSM)则是在VSM基础上,利用共现分析深入挖掘文本信息中特征词之间的潜在语义关系,并利用共现相对强度来估计这种关系,最终估计文献与特征词的相似性。通过实验可证明CLSVSM聚类精度要高于VSM。本文以共现潜在语义向量空间模型为基础,对模型进行拓展及降维研究。基于布尔权重的局限,利用词频统计量重新估计模型,构建词频共现潜在语义向量空间模型(FCLSVSM);为使CLSVSM能充分提取文献的潜在语义信息,进一步引入三元共现,通过研究三元共现表示,三元共现频次及三元共现相对强度的计算,最终建立三元共现潜在语义向量空间模型(T-CLSVSM)。但随着文本数量的增加,表达模型的维度会越来越高,计算量也会相应增加,最终导致模型应用的边际效应降低。因此考虑利用惩罚性矩阵分解(PMD)方法进行降维优化,具体方法包括:计算K-秩近似及提取核心特征词。实验中,选择扩展数据集验证FCLSVSM,利用基础数据集来验证T-CLSVSM及PMD算法,并利用公共数据集来检验模型的适用范围。最终得到如下结论:选择词频统计量来估计模型,可以显著提高聚类效果。在所选评价指标(纯度,熵值,F1值)下,T-CLSVSM的聚类精度要优于VSM与CLSVSM。PMD算法中,提取核心特征词与计算K-秩近似两种方法均可有效实现降维,与基于CLSVSM构建的语义核函数(CLSVSMK)相比,聚类精度更高,降维效果更好。本文对于共现潜在语义向量空间模型作出改进,包括基于词频信息的模型重建,三元共现潜在语义向量空间模型的构建以及利用PMD算法对模型进行降维。最终证明,改进后的模型可以提高聚类精度,降低计算复杂度,节约成本。模型的改进为文本表示提供了新的选择,同时也为文献聚合中的相似性度量、文献检索、分类等研究提供了参考。
论文目录
文章来源
类型: 硕士论文
作者: 王世昌
导师: 牛奉高
关键词: 文本聚类
来源: 山西大学
年度: 2019
分类: 基础科学,经济与管理科学
专业: 数学,宏观经济管理与可持续发展
单位: 山西大学
分类号: F224
DOI: 10.27284/d.cnki.gsxiu.2019.000126
总页数: 52
文件大小: 3587K
下载量: 42
相关论文文献
- [1].一种面向语义检索的向量空间模型改进方法[J]. 农业网络信息 2012(10)
- [2].基于跨语言广义向量空间模型的跨语言文档聚类方法[J]. 中文信息学报 2012(02)
- [3].基于情感向量空间模型的歌词情感分析[J]. 中文信息学报 2010(01)
- [4].基于本体兴趣特征向量空间模型的社区自组织算法[J]. 系统工程 2009(05)
- [5].基于向量空间模型的短文本密文检索方法[J]. 计算机工程与设计 2017(11)
- [6].向量空间模型的信息检索技术[J]. 价值工程 2013(13)
- [7].概念向量空间模型在智能答疑系统中的应用[J]. 安徽工业大学学报(自然科学版) 2008(02)
- [8].基于词向量的向量空间模型的改进[J]. 现代计算机(专业版) 2018(36)
- [9].共现潜在语义向量空间模型的进一步研究[J]. 情报杂志 2017(12)
- [10].基于向量空间模型结合语义的文本相似度算法[J]. 现代电子技术 2018(11)
- [11].基于鉴别性向量空间模型的语种识别[J]. 清华大学学报(自然科学版) 2013(06)
- [12].使用向量空间模型进行信息检索的实现[J]. 华南金融电脑 2008(10)
- [13].核向量空间模型在电能质量综合评估中的应用[J]. 电力系统保护与控制 2012(01)
- [14].基于向量空间模型的信息检索技术研究[J]. 现代电子技术 2012(11)
- [15].一种基于向量空间模型的信息检索算法研究[J]. 通讯世界 2018(09)
- [16].基于情感特征向量空间模型的中文商品评论倾向分类算法[J]. 计算机应用与软件 2016(08)
- [17].向量空间模型文本建模的语义增量化改进研究[J]. 现代图书情报技术 2014(10)
- [18].基于主题标签的在线社区话题发现[J]. 系统工程 2017(07)
- [19].基于N层向量空间模型和两重过滤方法的文本过滤系统的研究[J]. 科技信息 2009(32)
- [20].一种基于向量空间模型的主观题批改算法[J]. 计算机与现代化 2008(12)
- [21].基于层次向量空间模型的用户兴趣建模研究[J]. 现代计算机(专业版) 2010(06)
- [22].基于向量空间模型的信息检索系统的研究与实现[J]. 长春大学学报 2009(08)
- [23].基于向量空间模型的问答题智能化评分系统[J]. 电脑知识与技术 2008(01)
- [24].一种基于词义和词频的向量空间模型改进方法[J]. 计算机应用研究 2019(05)
- [25].基于向量空间模型的网页过滤分析[J]. 电子技术与软件工程 2016(12)
- [26].基于N层向量空间模型的装备IETM数据查询[J]. 装甲兵工程学院学报 2015(01)
- [27].基于向量空间模型中文农业网页分类技术研究[J]. 新疆农业大学学报 2012(02)
- [28].基于情感向量空间模型的歌曲情感标签预测模型[J]. 中文信息学报 2012(06)
- [29].基于二维向量空间模型的农业技术智能问答系统研究[J]. 江苏农业科学 2012(07)
- [30].基于WVTool的文本向量空间模型研究与实现[J]. 电脑编程技巧与维护 2012(05)
标签:文本聚类论文;