导读:本文包含了主题提取论文开题报告文献综述及选题提纲参考文献,主要关键词:信息服务,LDA主题建模,TF-IDF,主题演变
主题提取论文文献综述
钱旦敏,郑建明[1](2019)在《基于LDA主题模型的信息服务文献主题提取与演变研究》一文中研究指出运用LDA主题模型梳理近22年来国内信息服务研究主题演化情况,为该领域的可持续发展提供借鉴和指导。以中国知网(CNKI)为信息源,以信息服务为主题检索CSSCI期刊,排除不符合论文,共检索到8 908篇论文,并按年文献量趋势划分为4个阶段。基于TF-IDF构建LDA主题模型,利用MindMapper绘制主题演变图,比较分析信息服务研究主题的持续、弱化、转移与新兴。模型结果显示,1998年以来我国信息服务领域持续研究主题包括图书馆服务、信息产业服务、资源服务及学科服务;图书馆服务模式和信息伦理研究逐渐弱化、转移;移动信息服务、智库大数据、专业领域信息以及图情计量成为近年来该领域研究热点。(本文来源于《数字图书馆论坛》期刊2019年10期)
曾祥坤,张俊辉,石拓,邵可佳[2](2019)在《基于主题提取模型的交通违法行为文本数据的挖掘》一文中研究指出长期以来,各类交通事故严重影响了人们生命财产安全和社会经济发展。交通事故分析是对交通事故资料进行调查研究,发现事故动向和各种影响因素对事故总体的作用和相互关系,以便定量地认识事故现象的本质和内在规律。通过对交通事故中记录驾驶员违法行为的文本数据进行分析,提出了一种文本主题提取模型和技术,来挖掘交通事故中驾驶员风险驾驶因素,解决以往交通事故统计中交通违法行为难以挖掘的问题,计算出影响交通事故的最大支配因素。最后以北京地区一般程序处理的交通事故为例,结合北京市交通管理专家经验,验证该模型可应用于交通事故中违法行为的主题提取,结论与长期治理经验相吻合。(本文来源于《电子技术应用》期刊2019年06期)
骆仕杰[3](2019)在《基于信息提取技术对文本命名实体识别和主题提取的工程构建》一文中研究指出本论文根据目前新闻检索领域遇到的问题,针对性的提出解决方案。在新闻搜索和推荐过程中,作者发现,人们往往关注于新闻中出现的人物、新闻发生的地点、以及新闻中出现的组织。如果新闻系统获取到了新闻中的人物、地点和组织,那通过这样的方法就可以来向最近关注过本新闻中出现的人物、地点和组织的读者推荐当前新闻。在新闻搜索过程中,如果用户直接搜索新闻中出现的关键词,如人、地、组织等,系统就可以及时作出响应,降低了检索花费的时间。本文主要内容分为两个部分。第一部分作为新闻本文语料信息抽取的模型的研究,制定了新闻本文语料需要抽取的叁个主要部分为新闻的实体、主题和摘要的方案。首先,本文分析了传统的命名实体识别模型存在的问题,提出了基于BI-LSTM和CRF组合的算法结构的解决方案,并对命名实体识别模型的个性化识别进行定制化的训练,经验证该方法可以有效的提取出个性化需要的实体。其次,本文分析了以LDA为例的主题抽取方法的原理以及存在的问题,提出了循环神经网络结构训练词向量的方法解决不同语境下词语存在相似含义的解决方案,并且根据解决方案进行了相关的实验验证。最后,本文提出了一种训练循环神经网络词向量和排序结合的方法,大大缩减了排序算法本身计算词之间相似度计算速度的解决方案,并且验证在损失很少的精度下,新闻摘要的抽取速度显着提升。第二部分作为新闻内容分析系统的设计与实现,本文完成了对系统的定义、总体设计、详细设计和测试验证,将新闻的实体、主题和摘要抽取的模型应用到了新闻内容分析业务的系统中。最后作者将提出的对新闻的实体、主题和摘要提取的新模型方案应用于智能聊天助手的新闻业务系统,该系统可以为大规模数据量的新闻业务提供快速且稳定的对外数据输出服务。(本文来源于《北京交通大学》期刊2019-06-01)
蒋艺琪[4](2019)在《基于情感分析和特征过滤的主题提取方法研究》一文中研究指出近年来,互联网已经渗入到我们的日常生活中,互联网服务APP已然成为新时代的生活网络工具之一.人们进行选购商品时,经常翻看商品的评论来对这个商品作出购买判断,并且这些文本评论是消费者的直观感受,同时这些评论也提供了一个为平台了解客户的途径,快速挖掘文本评论的信息并且转化为生产力是亟待解决的问题.本文基于服务APP文本短评数据,探索适合短文本的主题挖掘方法.本文简单介绍了中文文本的预处理技术、文本特征的提取技术和不平衡数据处理技术,主要任务是探索快速且准确的文本情感分析的方法和精确提取主题的模型.并将情感分析和特征筛选融入到主题模型中,提出一种基于LDA模型的主题提取方法.本文的主要研究内容和工作如下:探索和选择适合短评数据的不平衡数据处理技术,用重抽样和欠采样技术进行处理并对比结果.从基于机器学习模型的情感分析和基于深度学习的情感分析两个角度展开,探索针对不平衡数据表现优异的情感分析模型.机器学习模型选用支持向量机和梯度提升决策树做实验,并用网格搜索和交叉验证调参.深度学习选用的是浅层网络fastText.用加权F1评估叁个模型,实验证明,在处理不平衡数据方面fastText模型优于其他两个模型,并且指明了原因.在主题提取任务中,提出一种基于LDA模型针对短文本和不平衡数据的方法,先进行情感分析,将情感极性的标签加入主题提取模型中,再进行特征筛选,剔除公共属性特征,按类别进行短文本主题提取,效果较原模型显着,该方法具有实际应用价值.(本文来源于《华中科技大学》期刊2019-05-01)
余洋[5](2018)在《豆瓣电影评论文本的情感分析及主题提取研究》一文中研究指出近年来,在习近平总书记的领导下,中国的经济呈现出稳步持续的增长趋势,我们国家在注重经济发展的同时也对文化产业有很大的扶持力度,电影市场规模也在逐渐扩大,电影已然成为我们现代人生活的必需品。与此同时,互联网技术高速发展,社交网络已经逐步渗透到人们社会生活的各个领域,各种社交论坛、网站如雨后春笋般兴盛繁荣,人们更加偏好于在互联网平台上发表自己对于时事、娱乐、体育等事件的看法,因此,以豆瓣网、时光网等为代表的电影评论网站积累了海量的用户评论文本数据。通过用户的评论文本数据,可以得知他们的情感倾向,并可以进一步的分析用户的购买行为从而为他们的购买决策提供支持,同时也可以向商品提供方提供正面或是负面的反馈意见,指导影视业朝着更好的方向发展,使得用户评论文本数据的价值最大化,这些都要求通过合理的技术手段爬取用户评论文本数据。本文针对豆瓣网站“豆瓣电影Top250”评论文本数据进行了情感分析和主题提取,具体工作内容如下所示:首先,本文通过python网络爬虫技术抓取了一定量豆瓣网站的评论文本数据作为研究对象,在此基础上对文本数据进行了清洗和预处理,其中包括对文本进行无效评论和异常字符的删除等工作。然后对评论信息进行第初步处理:分词、构建情感词典、停用词去除、人工筛选等。其次对已经初步处理过的信息进行情感上的一个进一步的判断和分析,其主要是从众多的评论文本中提取出带有情感倾向性特征的名词、形容词、动词或其他词性的单元要素,匹配自己建立或者是前人已经研究好的情感词典,设计出一种合理的打分机制来计算每条评论的情感综合值,从而判断出评论的情感倾向。之后,创新性的将LDA非监督机器学习技术运用到豆瓣电影评论文档集中去识别潜藏的主题信息。即将每一部电影文档中的评论文本转化为可以被计算机识别而且易于建立模型的数字信息,每一句评论文本代表了一些主题所构成的一个概率分布,而每一个主题又是用来表示很多单词所构成的一个概率分布,形成了包含词、主题和文档的叁层结构,通过这样一个叁层贝叶斯概率模型选择出了每一部电影评论的主题以此来反映电影的主题。近年来,越来越多的学者通过挖掘互联网文本评论进行情感分析,电影作为人们精神生活的重要组成部分,影片评论也被学者所重点关注,互联网用户可以通过情感分析得知某部电影的整体情感倾向,无论是对于普通的大众群体,还是规模较小的追求观影个性化群体,他们的观影需求都能够得到满足,政府相关部门也可以通过情感分析对社交媒体进行有效的监管和控制。(本文来源于《云南财经大学》期刊2018-09-10)
闫硕[6](2018)在《基于餐馆评论文本的主题提取及情感分析方法研究》一文中研究指出随着互联网产业应用发展的不断深入,人们生产生活各个方面都深受影响,随之产生的各种文本数据呈爆炸式增长,这些文本的数量变得异常庞大并且蕴含着很多重要的信息。因此,从这些文本数据中准确快速地提取到有用信息的方法研究具有重要的应用价值。文本主题提取和情感分析是提取文本信息的常用方法,而推荐系统模型是文本信息应用的重要领域方向。但由于网络文本结构多样,风格迥异,中文语言复杂性等因素使中文文本信息的处理具有一定的挑战性,因此,在当前的推荐系统模型中,对文本信息的利用也非常有限。针对以上问题,本论文基于餐馆用户评论文本致力于将主题提取和情感分析结果应用于个性化推荐模型。传统的个性化推荐系统大多基于用户与商品的历史互动行为数据建立用户的偏好模型,进而针对用户的兴趣偏好进行信息推荐。随着互联网产业的完善,庞大的网上文本评论数据能够直观反映用户的行为偏好,这些信息的利用对个性化推荐模型的建立具有很重要的参考价值。网络文本主题提取可以了解用户关注的产品特性,而情感分析可以反映用户对产品各个特征的喜恶程度,与从历史行为进行用户偏好分析相比,从用户评论得到用户的偏好更直观更准确。本课题做了叁方面的研究工作:首先对原始评论文本进行处理,构建聚类半监督主题扩展方法,从而得到用户关注的主题;接着综合现有的通用情感词典和评论文本构建专用情感词典,利用专用情感词典对用户关注的主题进行情感分析,综合得到用户的偏好;最后根据从用户评论文本中获得的用户偏好对用户进行个性化推荐。论文使用大众点评网站用户餐馆评论文本数据对算法进行验证,结果表明,本课题提出的聚类半监督主题扩展方法对特定领域(本文选取美食评论领域)的主题提取具有良好的效果;领域情感词典的构建提升了情感分析的准确性;由用户评论文本数据获取用户偏好从而进行个性化推荐的方法在个性化推荐领域具有很重要的实践应用价值。(本文来源于《北京化工大学》期刊2018-05-30)
郎冬冬[7](2018)在《基于微信的客服系统中客服调度及对话主题提取技术研究》一文中研究指出随着移动互联网的发展和智能手机的普及,微信凭借自身优点和拥有着庞大的用户基础,微信在交流、推广以及营销宣传上具有重大价值,在人们的生活中占据着越来越重要的地位。而客服系统作为企业与客户沟通的主要途径,在了解客户需求、解决客户问题、掌握市场导向、提升企业形象等方面具有重要的作用。由于传统在线自动问答系统和基于即时通讯工具的客服系统存在浪费人力、资源难以共享、准确率较低等缺陷,研发新一代具备普适性、通用性、个性化和智能化等特点的客服系统对客户和企业来说具有重要意义。所以,本文结合客服系统和微信的特点设计研发了一套新的基于微信的智能客服系统,并在该项目的支撑下展开了客服调度和文本主题提取技术研究,具体如下:针对即时通讯过程中的聊天文本字数少,用语随意不规范,文本特征稀疏等特点,本文提出了基于门控循环单元(Gated Recurrent Unit,GRU)实时情感分析的客服调度技术方法。该方法首先结合了微信聊天文本的特点,利用GRU模型对用户进行实时情感分析,然后依据用户情感变化及问题对用户进行分类,最后调度对应的客服类别为之服务。通过实验验证了该方法的有效性,不仅能够实时掌握到用户的情感变化,还能让用户体验到优质、高效的专业服务。针对传统主题模型维度较高、表意性弱且各个主题边界模糊、主题交织出现等问题,本文提出了面向对话短文本的主题提取技术方法。该方法首先利用LDA主题模型得到目标文本不同时段内的主题分布,再根据主题分布构建主题向量,然后利用稀疏自编码器对主题向量进行降维和特征提取,最后对提取的主题特征向量进行相似度比较排序,获取表意性较强的主题。挖掘用户偏好特征及提取用户聊天主题可以为企业精准营销、培训客服等环节储备知识,是智能客服系统与其他系统对接实现多元化的重要组成部分。实验表明,该方法可以提取出涵盖文本主要信息且可解释性较强的主题。最后,本文设计实现了基于微信的智能客服系统,并根据以上方法模型将客服调度和主题提取技术应用到了系统中,使得本文设计的微信客服系统向多元化、个性化和智能化方向又迈进了一步。(本文来源于《昆明理工大学》期刊2018-03-01)
黄宇昕[8](2018)在《基于空间视觉词袋的人脸主题提取》一文中研究指出在当今社会,作为人工智能的重要领域之一,人脸识别算法已经广泛应用于安全检查、视频监控、人机交互和表情分析等多个领域。人脸识别应用前景广泛,发展迅速。因此,如何快速有效地进行人脸识别已经成为人们日益关注的热门话题。近年来,针对图像的语义分析研究逐渐走进人们的视野,由于能够解决存在于图像底层特征和高层语义特征之间的语义鸿沟,成为图像分析的一个新兴方法。目前基于图像的语义分析的研究主要利用信息检索领域的主题模型对视觉词袋进行主题建模。然而,此类研究大多应用于图像场景分类,在人脸数据集上的研究还有待扩展。为此,本文针对人脸图像数据提出了一种基于空间视觉词袋的人脸主题提取方法。本文的算法主要由两部分构成,第一部分利用人脸分割模板对人脸图像进行分割,构建基于空间位置信息的视觉文档,在传统的视觉词袋模型中融入图像局部区域的空间位置特征,提高算法的准确性。第二部分研究了应用非负矩阵分解(Non-negative Matrix Factorization,NMF)和隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型分别对视觉文档进行主题提取,得到人脸图像的主题表示。相比于其他主题模型,NMF主题模型可解释性强,在准确率和效率上更有优势。通过本文的方法得到的人脸主题,可以同时应用于人脸的分类任务和聚类任务中,还能够处理多元化的人脸图像数据。本文将基于空间视觉词袋的人脸主题提取算法用于人脸识别,与经典的人脸识别算法在不同类型的人脸数据集上进行了对比实验。实验表明,基于空间视觉词袋的主题模型的人脸识别效果优于经典的人脸识别算法。除此之外,通过本文提取的人脸主题进行人脸聚类相比于其他聚类方法也能获得更佳的效果。(本文来源于《大连理工大学》期刊2018-03-01)
王静茹,陈震[9](2018)在《基于隐含狄利克雷分布的文本主题提取对比研究》一文中研究指出【目的/意义】目前LDA模型在文本数据挖掘方法中占有重要的地位,已成为数据挖掘领域的研究热点。为了进一步提高LDA模型在文本挖掘中的应用效果,有必要对LDA模型文本主题提取效果进行对比研究。【方法/过程】本文提出了一种基于LDA模型的不同类型文本数据主题提取效果对比评价方法,先通过LDA模型对文本数据进行主题挖掘;再通过定量的主题提取效果评价方法进行对比研究。【结果/结论】本文以期刊论文、网络舆情事件话题、微博文本、调查问卷为文本数据源,实验结果表明LDA模型在处理语义信息明确逻辑关系合理的长文本数据时,主题提取效果较好。这为提高LDA模型的挖掘效率提供了一定的理论依据。(本文来源于《情报科学》期刊2018年01期)
郭肇毅[10](2017)在《文本主题提取及相似度计算系统研究与开发》一文中研究指出文本主题词提取及相似度计算在搜索引擎、智能问答等自然语言处理的很多研究领域都有着广泛的应用,国内外的专家学者对此有着广泛的研究,但大多都采用了复杂的数学模型,实现起来较为麻烦。对此,在文本主题词提取中,采用提取出文档中除开常见停用词之外的高频词,并通过对比高频词向量之间的夹角余弦,剔除与其他高频词相差最大的噪声高频词的方法,得到文档最终的主题词。再根据提取出的主题词,通过比较两篇文档的主题词的词向量之和之间的夹角余弦,以此来判断两篇文档之间的相似度。基于此思路,开发了一款基于win Form技术的文本主题提取及相似度计算软件系统,实现较为简单,效果超出单纯通过文档向量来判定文档相似度的方法。(本文来源于《现代信息科技》期刊2017年04期)
主题提取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
长期以来,各类交通事故严重影响了人们生命财产安全和社会经济发展。交通事故分析是对交通事故资料进行调查研究,发现事故动向和各种影响因素对事故总体的作用和相互关系,以便定量地认识事故现象的本质和内在规律。通过对交通事故中记录驾驶员违法行为的文本数据进行分析,提出了一种文本主题提取模型和技术,来挖掘交通事故中驾驶员风险驾驶因素,解决以往交通事故统计中交通违法行为难以挖掘的问题,计算出影响交通事故的最大支配因素。最后以北京地区一般程序处理的交通事故为例,结合北京市交通管理专家经验,验证该模型可应用于交通事故中违法行为的主题提取,结论与长期治理经验相吻合。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
主题提取论文参考文献
[1].钱旦敏,郑建明.基于LDA主题模型的信息服务文献主题提取与演变研究[J].数字图书馆论坛.2019
[2].曾祥坤,张俊辉,石拓,邵可佳.基于主题提取模型的交通违法行为文本数据的挖掘[J].电子技术应用.2019
[3].骆仕杰.基于信息提取技术对文本命名实体识别和主题提取的工程构建[D].北京交通大学.2019
[4].蒋艺琪.基于情感分析和特征过滤的主题提取方法研究[D].华中科技大学.2019
[5].余洋.豆瓣电影评论文本的情感分析及主题提取研究[D].云南财经大学.2018
[6].闫硕.基于餐馆评论文本的主题提取及情感分析方法研究[D].北京化工大学.2018
[7].郎冬冬.基于微信的客服系统中客服调度及对话主题提取技术研究[D].昆明理工大学.2018
[8].黄宇昕.基于空间视觉词袋的人脸主题提取[D].大连理工大学.2018
[9].王静茹,陈震.基于隐含狄利克雷分布的文本主题提取对比研究[J].情报科学.2018
[10].郭肇毅.文本主题提取及相似度计算系统研究与开发[J].现代信息科技.2017