基于频繁词集和复杂网络的文本聚类

基于频繁词集和复杂网络的文本聚类

论文摘要

当今社会,网络社交已经变成了主流。人们通过微博热点、微信、头条新闻等各种渠道可以获取各种文本资源。当网络上的文本越来越多的时候,文本挖掘技术也逐渐被需要和重视。本文主要是研究文本聚类领域,传统的文本聚类方法一般都是基于向量空间模型的,而网络中的文本数量往往是数以百万,不计其数的。传统的向量空间模型会导致文本维度过高和稀疏。针对这一问题,本文通过引入数据挖掘领域的频繁词集概念来解决维度过高和文本稀疏问题,基于频繁词集的文本表示方法可以对原始的高维文本进行降维处理。经过频繁词集表示文本后,本文引入复杂网络概念,将原始文本集用文本网络的形式表达,在复杂网络中的文本不再是一对一的关系,而是多对多的关系。而现实情况下,各个文本之间也应该是存在多对多的联系的。因此,基于复杂网络模型的文本聚类比传统的文本聚类更能体现文本之间的相互联系,更加充分的体现了文本之间的相似性。对文本网络用社区发现算法进行社区划分,就可以将复杂的文本网络划分为一个个社区,而一个社区就代表着聚类过程中的一个类簇。传统的社区发现算法一般是基于图分割理论、基于模块度优化的算法模型。这些方法存在诸多的缺点,比如复杂度高,重复计算等。因此本文引入机器学习中的概率算法模型,本文提出一种基于DPCA改进的k-means算法来进行社区发现。结合DPCA算法思想来确定k-means算法中初始中心节点以及k值的选取。并且巧妙的将节点的度数来代替DPCA算法中数据点的密度。最后,通过实验对比,本文所应用的算法对文本聚类的效果比传统的文本聚类方法更好。

论文目录

  • 摘要
  • 英文摘要
  • 1 绪论
  •   1.1 研究背景及意义
  •     1.1.1 研究背景
  •     1.1.2 研究意义
  •   1.2 国内外研究现状
  •   1.3 本文主要工作
  •   1.4 本文的组织结构
  •   1.5 本章小结
  • 2 相关技术介绍
  •   2.1 文本聚类通用流程
  •   2.2 文本预处理
  •     2.2.1 文本分词处理
  •     2.2.2 过滤停用词
  •   2.3 文本特征词提取
  •     2.3.1 基于TF-IDF的特征词提取
  •     2.3.2 基于TextRank的特征词提取
  •     2.3.3 基于卡方检验的特征词提取
  •     2.3.4 基于信息增益的特征词提取
  •     2.3.5 基于互信息的特征词提取
  •   2.4 文本表示模型
  •     2.4.1 基于向量空间模型的文本表示
  •     2.4.2 基于主题模型的文本表示
  •     2.4.3 基于词嵌入与深度学习模型的文本表示
  •   2.5 文本相似度计算方法
  •     2.5.1 余弦相似度
  •     2.5.2 欧氏距离
  •     2.5.3 Jaccard距离
  •     2.5.4 曼哈顿距离
  •   2.6 传统的文本聚类方法
  •     2.6.1 基于k-means的文本聚类
  •     2.6.2 基于DBSCAN的文本聚类
  •     2.6.3 基于LDA的文本聚类
  •   2.7 基于频繁词集的文本聚类
  •     2.7.1 频繁词集挖掘相关理论
  •     2.7.2 频繁词集挖掘相关算法
  •     2.7.3 基于频繁词集的文本聚类
  •   2.8 传统的社区发现算法
  •     2.8.1 GN算法
  •     2.8.2 Newman快速算法
  •     2.8.3 K-L(Kernighan-Lin)算法
  •   2.9 聚类评价指标
  •   2.10 本章小结
  • 3 一种基于频繁词集和复杂网络的文本聚类算法
  •   3.1 基于频繁词集和复杂网络的文本聚类流程
  •   3.2 文本预处理及特征选取
  •   3.3 基于频繁词集的文本表示模型
  •     3.3.1 文本相似性计算
  •   3.4 构建文本网络
  •   3.5 基于DPCA改进的k-means算法用于社区发现
  •     3.5.1 文本网络中节点间距离的定义
  •     3.5.2 基于k-means算法的社区发现
  •     3.5.3 基于DPCA改进的k-means算法用于社区发现
  •   3.6 本章小结
  • 4 实验分析
  •   4.1 实验数据集
  •   4.2 聚类评价指标
  •   4.3 实验结果与实验分析
  •   4.4 实验中所涉及到的阈值
  •   4.5 本章小结
  • 5 总结与展望
  •   5.1 总结
  •   5.2 展望
  • 参考文献
  • 附录
  •   A.作者在攻读学位期间申请的专利与标准
  •   B.学位论文数据集
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 陈梦

    导师: 张玉芳

    关键词: 频繁词集,降维,文本网络,社区发现,文本聚类

    来源: 重庆大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 数学,计算机软件及计算机应用

    单位: 重庆大学

    分类号: TP391.1;O157.5

    DOI: 10.27670/d.cnki.gcqdu.2019.001563

    总页数: 60

    文件大小: 1554k

    下载量: 35

    相关论文文献

    • [1].用R语言分析关键词集共现网络研究[J]. 现代情报 2018(07)
    • [2].晚清民国词集序跋的文献价值[J]. 城市学刊 2017(02)
    • [3].国家图书馆出版社民国词集丛刊(全32册)[J]. 艺术评论 2017(09)
    • [4].社会形态变化与民国词集作者群体的构成[J]. 吉林大学社会科学学报 2016(03)
    • [5].论民国词集文献的整理及其意义[J]. 社会科学辑刊 2016(05)
    • [6].明清唱和词集综论[J]. 中国诗学研究 2018(01)
    • [7].“中国古典文学丛书”宋代名家词集笺注(二)[J]. 中文学术前沿 2018(02)
    • [8].饱蘸心中爱,壮怀抒晚情——读邓丹心歌词集《越唱越爱》有感[J]. 音乐天地(音乐创作版) 2017(04)
    • [9].一种新的生成候选关键词集的方法[J]. 武汉理工大学学报(信息与管理工程版) 2013(06)
    • [10].飞吻无尽——读苏柳《飞吻无痕》词集[J]. 词刊 2009(04)
    • [11].民国女性词集二维研究[J]. 华东师范大学学报(哲学社会科学版) 2017(01)
    • [12].善于给歌词留下审美空间——邓永旺词集《飞向太阳》序[J]. 词刊 2008(12)
    • [13].宋代词集的编纂方式及传播效应[J]. 安庆师范学院学报(社会科学版) 2011(04)
    • [14].作者关键词集的文献计量分析——以图情学科为例[J]. 图书情报研究 2019(01)
    • [15].《诵帚词集》:现代学人心灵文献的历史书写[J]. 武陵学刊 2016(04)
    • [16].刘毓盘的词集辑佚研究[J]. 赤峰学院学报(汉文哲学社会科学版) 2012(07)
    • [17].晚清词集丛刻的汇辑类型与词史意义[J]. 南京师大学报(社会科学版) 2011(05)
    • [18].极难与共实录 死生相依鹿鸣——读左代富同志词集《羌山天难》所感[J]. 黄河之声 2011(23)
    • [19].宋人词集序跋之传播刍议[J]. 文艺研究 2010(08)
    • [20].词话对词集未收词的保存作用初探[J]. 保定学院学报 2009(01)
    • [21].基于特征词关联性的同义词集挖掘算法[J]. 计算机应用研究 2009(07)
    • [22].清以降词集序跋对婉约与豪放之宗的消解[J]. 社会科学辑刊 2015(03)
    • [23].唐五代五家词集文献叙录[J]. 厦大中文学报 2020(00)
    • [24].易安不易[J]. 语文教学与研究 2015(06)
    • [25].碎词集(组诗)[J]. 中国诗歌 2013(11)
    • [26].在爱恋中写词——读华友国歌词集《三月太阳湿漉漉》有感[J]. 词刊 2009(07)
    • [27].书讯三则[J]. 词刊 2008(10)
    • [28].草原之子的豪迈与真情——读白立平歌词集《深深眷恋的草原》有感[J]. 内蒙古艺术 2012(02)
    • [29].一种基于主题词集的自动文摘方法[J]. 计算机应用研究 2011(04)
    • [30].《四库全书总目》词集提要的目录学价值[J]. 赤峰学院学报(汉文哲学社会科学版) 2009(04)

    标签:;  ;  ;  ;  ;  

    基于频繁词集和复杂网络的文本聚类
    下载Doc文档

    猜你喜欢