面向词权重的主题识别应用研究

面向词权重的主题识别应用研究

论文摘要

[目的/意义]在文本主题求解时,LDA模型更倾向于高频率的词项,造成主题的语义特征和内容区分度不高。[方法/过程]从文本的词权重入手,综合考虑词项在文本集合中的全局统计特征和局部语义特征,衡量词语在文本中的重要性,并将词语的特征值作为LDA主题模型的输入,改变LDA模型生成词的概率。[结果/结论]实验表明,结合词权重的LDA模型,具有更好的模型拟合度,同时能够较好的识别语料库中主要话题,提高了主题词分布的广度和主题的语义区分度。通过新闻文本数据验证了该方法的可行性与有效性。[局限]对词语的局部语义特征描述需要大数据量的计算。

论文目录

  • 1 研究现状
  • 2 结合词权重的主题模型
  •   2.1 词语分布特征对主题求解的影响
  •   2.2 识别词语在文本中的重要性
  •   2.3 结合词权重主题求解的优势
  • 3 实验环节
  •   3.1 实验的流程
  •   3.2 实验过程
  •   3.3 实验评估
  •   3.4 实验结果的对比分析
  •     3.4.1 主题词的分布
  •     3.4.2 主题词内容的对比
  • 4 结束语
  • 文章来源

    类型: 期刊论文

    作者: 阮光册,夏磊

    关键词: 主题模型,模型,权重,主题识别

    来源: 情报理论与实践 2019年12期

    年度: 2019

    分类: 信息科技

    专业: 计算机软件及计算机应用

    单位: 华东师范大学经济与管理学部信息管理系,华东师范大学一带一路与全球发展研究院,上海图书馆会展中心

    基金: 上海哲学社会科学一般项目“基于主题模型的学科交叉知识发现研究”的成果之一,项目编号:2016BTQ002

    分类号: TP391.1

    DOI: 10.16353/j.cnki.1000-7490.2019.12.023

    页码: 144-149

    总页数: 6

    文件大小: 209K

    下载量: 358

    相关论文文献

    • [1].利用事件影响关系识别文本集合中重要事件的方法[J]. 模式识别与人工智能 2010(03)
    • [2].基于潜在语义分析的跨语言查询扩展方法[J]. 计算机工程 2009(10)
    • [3].“书画一体”小考——兼论文本集合对书画融合的影响[J]. 艺苑 2015(05)
    • [4].面向微博热点事件的话题检测及表述方法研究[J]. 计算机应用研究 2019(12)
    • [5].融合统计学和TextRank的生物医学文献关键短语抽取[J]. 计算机应用与软件 2017(06)
    • [6].一种基于改进相似度计算的文本聚类方法[J]. 河南大学学报(自然科学版) 2018(04)
    • [7].评价主题挖掘及其倾向性识别[J]. 计算机科学 2012(06)
    • [8].犀语科技董事长金鑫:智能文本技术将助推金融发展[J]. 理财周刊 2020(13)
    • [9].基于超图的汉越双语新闻话题要素提取[J]. 计算机应用研究 2017(08)
    • [10].基于自动文摘的论文抄袭检测研究(英文)[J]. 电脑与电信 2010(02)
    • [11].基于性格的微博情感分析模型PLSTM[J]. 计算机应用研究 2020(02)
    • [12].Heaps定律在中英文文本中的统计验证与分析[J]. 中国外资 2011(10)
    • [13].基于贝叶斯信息准则的文本主题数估计[J]. 计算机工程 2009(07)
    • [14].一种结合Bigram语义扩充的事件摘要方法[J]. 小型微型计算机系统 2019(07)
    • [15].一种基于词关联图的专题发现方法研究[J]. 山西大学学报(自然科学版) 2018(01)
    • [16].后缀树聚类算法在元搜索引擎中的应用[J]. 微计算机信息 2010(03)
    • [17].基于LDA话题演化研究方法综述[J]. 中文信息学报 2010(06)

    标签:;  ;  ;  ;  

    面向词权重的主题识别应用研究
    下载Doc文档

    猜你喜欢