论文摘要
[目的/意义]在文本主题求解时,LDA模型更倾向于高频率的词项,造成主题的语义特征和内容区分度不高。[方法/过程]从文本的词权重入手,综合考虑词项在文本集合中的全局统计特征和局部语义特征,衡量词语在文本中的重要性,并将词语的特征值作为LDA主题模型的输入,改变LDA模型生成词的概率。[结果/结论]实验表明,结合词权重的LDA模型,具有更好的模型拟合度,同时能够较好的识别语料库中主要话题,提高了主题词分布的广度和主题的语义区分度。通过新闻文本数据验证了该方法的可行性与有效性。[局限]对词语的局部语义特征描述需要大数据量的计算。
论文目录
文章来源
类型: 期刊论文
作者: 阮光册,夏磊
关键词: 主题模型,模型,权重,主题识别
来源: 情报理论与实践 2019年12期
年度: 2019
分类: 信息科技
专业: 计算机软件及计算机应用
单位: 华东师范大学经济与管理学部信息管理系,华东师范大学一带一路与全球发展研究院,上海图书馆会展中心
基金: 上海哲学社会科学一般项目“基于主题模型的学科交叉知识发现研究”的成果之一,项目编号:2016BTQ002
分类号: TP391.1
DOI: 10.16353/j.cnki.1000-7490.2019.12.023
页码: 144-149
总页数: 6
文件大小: 209K
下载量: 358
相关论文文献
- [1].利用事件影响关系识别文本集合中重要事件的方法[J]. 模式识别与人工智能 2010(03)
- [2].基于潜在语义分析的跨语言查询扩展方法[J]. 计算机工程 2009(10)
- [3].“书画一体”小考——兼论文本集合对书画融合的影响[J]. 艺苑 2015(05)
- [4].面向微博热点事件的话题检测及表述方法研究[J]. 计算机应用研究 2019(12)
- [5].融合统计学和TextRank的生物医学文献关键短语抽取[J]. 计算机应用与软件 2017(06)
- [6].一种基于改进相似度计算的文本聚类方法[J]. 河南大学学报(自然科学版) 2018(04)
- [7].评价主题挖掘及其倾向性识别[J]. 计算机科学 2012(06)
- [8].犀语科技董事长金鑫:智能文本技术将助推金融发展[J]. 理财周刊 2020(13)
- [9].基于超图的汉越双语新闻话题要素提取[J]. 计算机应用研究 2017(08)
- [10].基于自动文摘的论文抄袭检测研究(英文)[J]. 电脑与电信 2010(02)
- [11].基于性格的微博情感分析模型PLSTM[J]. 计算机应用研究 2020(02)
- [12].Heaps定律在中英文文本中的统计验证与分析[J]. 中国外资 2011(10)
- [13].基于贝叶斯信息准则的文本主题数估计[J]. 计算机工程 2009(07)
- [14].一种结合Bigram语义扩充的事件摘要方法[J]. 小型微型计算机系统 2019(07)
- [15].一种基于词关联图的专题发现方法研究[J]. 山西大学学报(自然科学版) 2018(01)
- [16].后缀树聚类算法在元搜索引擎中的应用[J]. 微计算机信息 2010(03)
- [17].基于LDA话题演化研究方法综述[J]. 中文信息学报 2010(06)