Print

基于LDA主题模型的短文体自媒体结构化分类方法研究

论文摘要

针对传统文本处理中非作用词的存在影响主题的可解释性,以及短文本篇幅短小、特征不明显等问题,提出了一种基于LDA模型的主题分类的改进算法。该算法通过信息的增益来过滤文本,同时与最优主题的选择方法相结合,利用算法建立起的分类规则对文本进行分类。实验结果表明,该方法通过改变作用词占比、特征词典的大小,可以有效的提升文本分类的准确性。

论文目录

  • 0 引言
  • 1 潜在狄利克雷分布
  • 2 基于LDA主题模型的改进算法
  •   2.1 基于信息增益过滤的文本分类方法
  •   2.2 最优主题的选择方法
  • 3 实验分析
  • 4 总结
  • 文章来源

    类型: 期刊论文

    作者: 李贤阳,邱桂华,阳建中,李长彬

    关键词: 模型,短文本分类,主题模型

    来源: 荆楚理工学院学报 2019年06期

    年度: 2019

    分类: 社会科学Ⅱ辑,信息科技

    专业: 计算机软件及计算机应用,新闻与传媒

    单位: 北部湾大学电子与信息工程学院

    基金: 广西高校中青年教师科研基础能力提升项目(2017KY0795)

    分类号: G206;TP391.1

    DOI: 10.14151/j.cnki.jclgxyxb.2019.06.001

    页码: 5-8+13

    总页数: 5

    文件大小: 361K

    下载量: 37

    相关论文文献

    本文来源: https://www.lunwen66.cn/article/592d2c7eca39f6b71920d3eb.html