论文摘要针对传统文本处理中非作用词的存在影响主题的可解释性,以及短文本篇幅短小、特征不明显等问题,提出了一种基于LDA模型的主题分类的改进算法。该算法通过信息的增益来过滤文本,...
论文摘要本研究旨在基于1506项区域科技创新政策标题对区域科技创新政策进行量化研究,从高频词、主题关键词、主题关键词的内容词项及相关度等方面分析我国东中西部三大经济区的创新政策...
论文摘要[目的/意义]在文本主题求解时,LDA模型更倾向于高频率的词项,造成主题的语义特征和内容区分度不高。[方法/过程]从文本的词权重入手,综合考虑词项在文本集合中的全局统计...
论文摘要基于互联网采集电子烟产品消费者评论文本数据,采用文本挖掘技术研究了国内电子烟产品的消费者关注热点,通过建立主题模型利用分类评论主题对消费者的消费行为进行剖析。研究表明:...
杨元刚[1]2005年在《英汉词语文化语义对比研究》文中指出本文运用认知语言学、对比语言学、语用学和翻译学的基本原理,就英汉词语的文化语义进行对比研究。笔者从哲学语言学的角度,在论文中首次提出并阐释了自己构建的语言认知观、语言——文化互动认识论、认知语义观、多级语言符号系统说和交际翻译观,这五个论点...
龙丽君[1]2004年在《网络内容监管系统中基于局部信息的语义倾向性识别算法》文中进行了进一步梳理网络内容监管系统主要是对互联网上的非法信息进行监管。本文设计并实现了一种层次分类结构中基于局部信息的语义倾向性识别算法。该算法通过对关键字的局部上下文信息采用HMM(隐马尔可夫模型,HidenMarko...
吕海燕[1]2008年在《数据仓库在电信经营分析系统中的应用研究》文中认为近年来,电信行业信息化进程得到快速发展。运营网络系统、综合业务系统、计费系统、办公自动化等计算机应用系统的相继使用,企业中积累了大量的历史数据。但在很多情况下,这些海量数据在原有的作业系统中是无法提炼并升华为有用的管理决策信息...
胡勤友[1]2003年在《Web上的多主体系统若干关键技术研究》文中进行了进一步梳理随着Internet的迅猛发展,要求具有高度开放性特点的应用需求越来越大,因为Internet本身就可看作是高度开放的分布式计算环境。构造能够充分利用Int-ernet潜力的软件一直是上个世纪90年代以来计算机界最重...