导读:本文包含了语义聚类论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:语义,向量,神经网络,双语,索引,文本,特征。
语义聚类论文文献综述
贾君枝,叶壮壮[1](2019)在《基于潜在语义索引的Wikidata机构实体聚类研究》一文中研究指出【目的】Wikidata机构类目范畴树中,存在实例数目过多而使类目的外延过大、不能明确指示及类分资源的问题。为系统化机构名称层级体系,需将这些实例进行划分,使其均衡分布在机构范畴树的各层。【方法】将无监督的层次聚类算法用于解决无类别标签的机构实例的自动聚簇问题。为消除机构实体名称中特征词共现对聚类算法的影响,引入Wikidata中机构实体的相关属性作为其上下文环境。同时聚类算法对数据的维度十分敏感,因此采用潜在语义索引作为文本表示模型,通过奇异值分解将高维数据映射到潜在的低维语义空间。【结果】本文方法在实验数据集上的聚类准确率达到87.3%,取得了较好的聚类效果。【局限】仅在小样本数据集上进行验证。【结论】为机构名称提供上下文环境有利于同类机构的聚集,基于潜在语义索引模型的层次聚类算法对于高维度的文本聚类问题是有效的。(本文来源于《数据分析与知识发现》期刊2019年10期)
齐向明,孙煦骄[2](2019)在《基于语义簇的中文文本聚类算法》一文中研究指出针对中文文本聚类受语义、语法、语境等因素的影响,在使用传统向量空间模型向量化表征后,文本向量之间相互独立,语义关系被忽略,影响聚类分析结果的问题,提出一种基于语义簇的中文文本聚类算法.该算法根据词共现的原理和语义相关性,首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重,利用特征词的搭配向量构建语义簇;然后使用特征词及其搭配词的权重,将特征词向语义簇中心进行空间变换,求得嵌入语义信息的文档向量;最后利用文档向量进行K-means聚类分析.实验结果表明,该向量化表示方法,能有效提高文本向量对文本语义的逼近能力,同时可提高文本聚类结果的准确率和召回率.(本文来源于《吉林大学学报(理学版)》期刊2019年05期)
王旭阳,朱鹏飞[3](2019)在《基于模糊机制和语义密度聚类的汉语自动语义角色标注研究》一文中研究指出基于CPB (Chinese Proposition Bank)提出一种基于LSTM-Bi-LSTM的汉语自动语义角色标注方法,并提出语义密度聚类进行数据预处理以及"模糊"机制利用于词向量转换过程。语义密度聚类通过密度的概念对谓词进行全局统一的聚类,将稀疏谓词替换为其所属聚类集合中的常见谓词;利用语义距离概念,将"模糊"机制引入词向量的转换过程,能适当地减少词向量的语义性,并提升与谓词词向量的相关性。利用Bi-LSTM网络自动学习特征表达,然后利用CRF和IOBES标注策略转化为词序列标注问题,引进一种词性学习方法;利用LSTM网络学习生成的词性特征向量与"模糊化"后的词向量融合后一同作为模型的输入向量;训练过程中采用了小批量梯度下降算法和Dropout正则化,这既加快了训练速度,又易于得到全局最优解,还防止了参数过拟合情况的出现。多组对比实验表明,该方法标注结果的F值最高达到了81.24%。(本文来源于《计算机应用与软件》期刊2019年09期)
陈颖[4](2019)在《一种面向程序理解的程序语义聚类技术》一文中研究指出针对源代码中一些非结构化的自然语言描述信息进行语义聚类,辅助开发人员开展程序理解。主要利用自然语言处理技术对程序中的标识符和注释进行预处理,将程序转换成词频矩阵;然后利用潜在语义索引技术对该词频矩阵进行层次聚类,并对每个聚类的标记进行推荐,辅助开发人员理解程序。在开源项目JEdit上进行验证,结果显示对该5万行规模的项目代码进行聚类时耗不足1分钟。因此,该技术能够快速对程序进行语义聚类,辅助开发人员快速理解程序。(本文来源于《软件导刊》期刊2019年10期)
张弛,张贯虹[5](2019)在《基于词向量和多特征语义距离的文本聚类算法》一文中研究指出针对传统文本聚类算法中存在语义相似度计算向量维度高、忽视特征词词频、位置、词距和语义缺失等问题,提出了一种基于词向量和多特征语义距离的文本聚类算法(M-W2-KS)。首先使用Word2Vec训练语料库中的所有特征词,以向量形式进行表征;然后综合考虑特征词的词频、位置、词距信息以及特征词间的欧式距离,计算文本间的语义相似度,并将其应用到K-means算法中,实现文本的聚类。实验结果表明,运用M-W2-KS算法,可以有效提升聚类效果,使聚类结果更加准确。(本文来源于《重庆科技学院学报(自然科学版)》期刊2019年03期)
高永兵,宋添树,李江宇,马占飞[6](2019)在《基于知网的个人微博语义相关度的聚类研究》一文中研究指出聚类相关度大的个人微博有助于快速了解博主的专业兴趣和经历,目前的短文本聚类方法缺乏对于语义和句子相关度的充分考虑,提出了一种基于知网的个人微博语义相关度的聚类方法。其要点如下:(1)利用Skip-gram训练大量微博文本生成词汇向量;(2)根据词汇义原进行句内词汇消除歧义;(3)分别计算个人微博之间词汇和句子的相似度并将其综合得到博文相关度;(4)根据博文相关度进行个人微博的聚类。实验表明,相较于层次聚类法、密度聚类法,本文算法的准确度有明显提高。(本文来源于《计算机工程与科学》期刊2019年06期)
庄建昌,武娇,顾兴全,洪彩凤[7](2019)在《基于热词语义聚类的领域特征挖掘方法》一文中研究指出目的:帮助人们更好地利用领域关键词挖掘和分析领域特征,解决领域关键词提取技术面临的领域语料信息冗余且分布不均衡的问题。方法:提出二次关键词提取策略,并结合词向量模型和聚类算法构建领域的局部热词模型。结果:得到了领域的热词和热词频率分布、特征划分及其分布图。结论:旅游评论挖掘的结果表明该方法能够有效提取领域特征,实现领域特征可视化,降低领域语料分布不平衡的负面影响。(本文来源于《中国计量大学学报》期刊2019年02期)
袁璇[8](2019)在《基于语义特征融合的图像聚类方法研究》一文中研究指出在现实生活和网络世界里,每时每刻都会产生数量庞大、种类丰富的图像数据,给这些图像标注分类费时费力。因此,在机器学习领域,针对无标签图像的聚类分析是一个研究难点和热点。由于图像本身特征维度很高,对于图像聚类分析而言,图像特征的提取和高维特征的降维对聚类结果有重要影响。虽然人们已经提出了许多成熟的特征提取方法,但是这些方法关注的是图像的低层特征,很少同时关注图像的中间层特征。实际上,图像的中间层特征往往包含重要的判别性信息,可以起到丰富图像特征表达、提高聚类精度的作用。其中,语义特征作为一种中间层特征,便于理解表达,广泛应用于图像检索、自然语言处理等领域。因此,本文将语义特征引入图像聚类任务,通过图像低层特征和语义特征的有效结合,提高图像聚类的效果。由于图像的低层特征具有较高的维度,而且低层特征和语义特征的结合容易造成维度灾难,为了达到高效聚类的目的,既要实现两种特征的有效融合,又要降低图像的特征维度,因此,本文提出一种基于深度语义嵌入的聚类算法(Deep Semantic Embedded Cluster),该算法首先将图像的低层特征与语义特征进行拼接融合,然后利用特定结构的深度自编码实现语义特征的嵌入,并对图像特征进行降维,最终利用得到的低维特征实现图像高效聚类。在特征拼接融合方法的基础上,进一步改进提出一种加权迭加融合算法(Weighted Superposition Fusion Algorithm),这种方法能够明确的衡量两种特征对于聚类的贡献程度,以此来分配不同的权重值,从而提升聚类性能。在多个图像数据集上的实验结果表明,本文提出的融合语义特征的图像聚类效果更明显,比之前单一特征下的聚类精度提高了约叁个百分点,说明通过融合语义特征可以有效提高图像聚类的性能指标。(本文来源于《西北大学》期刊2019-06-01)
李志欣[9](2019)在《文献语义耦合网络的构建与聚类研究》一文中研究指出随着网络信息技术的快速发展,文本挖掘领域日益受到关注,已经成为当前研究的热点之一。文本挖掘指的是从文本数据中获取有价值的信息和知识,最常用的一种方法就是利用文献耦合对现有文献进行回顾分析。传统的文献耦合网络是通过文献间的耦合强度构建的,只考虑了耦合关系,没有考虑文献内容间的相似性。为了更准确地刻画文献间的相似关系,本文在文献耦合网络的基础上添加语义信息,构建文献语义耦合网络,并对构建的网络进行聚类分析。本文的研究工作主要从以下叁方面开展:首先,构建文献语义耦合网络。通过隐含狄利克雷分配(Latent Dirichlet Allocation,简称LDA)建模方法量化网络中节点的语义信息,将节点的语义信息与节点间的耦合关系相结合,在网络拓扑特征的基础上考虑网络的语义特征,借助社会网络拓扑势的思想构建语义网络的语义场模型,进而构建文献语义耦合网络。其次,优化模块度评价指标。由于本文构建的文献语义耦合网络既考虑了节点间的耦合关系,也考虑了节点的语义信息。因此,其相应的社区发现评价指标不仅要考虑社区内部的关系合理性,还需要考虑节点间的语义信息相似性。基于上述考虑,定义一个语义模块度评价指标。通过对比分析,验证语义模块度指标的优越性。最后,对网络模型进行聚类分析和社区发现。分别运用GN、LPA和Louvain算法对文献语义耦合网络进行社区发现,并根据网络的划分结果以及每个社区中包含的关键字信息分析不同社区的研究主题。同时,对文献语义耦合网络进行可视化特征分析,挖掘该网络的内在规律、研究热点和学科结构。通过实验结果发现,发现在文献耦合的基础上考虑文献内容后,节点间的联系更密切,更能准确掌握学科的发展动态和研究趋势。本文改进的文献语义耦合网络和语义模块度指标为研究文献的引证结构和规律、主题相似性及学科结构提供了一种新的研究思路,对文献聚类和信息检索有一定的借鉴意义。(本文来源于《山西大学》期刊2019-06-01)
唐镇[10](2019)在《基于语义对偶模型的双语文本聚类研究》一文中研究指出随着互联网技术的飞速进步,全球信息时代得以快速发展,各种新闻数据急剧增加,其中隐含着大量信息和资源;同时很多发展中国家的网络用户快速增长,使得互联网上各种语言的文本数据持续增加。在这种全球化形式下,仅仅获取本国的新闻信息已远远不能满足一个国家或一个大型企业机构在国际地位的需要。跨语言文本的信息组织是一个不可忽视的问题,而单语文本聚类方法几乎不能满足实际需求,因而双语或者跨语言的文本聚类成为了人们研究的热点。目前对于双语混合文本聚类研究有很多是基于翻译系统或者词典进行,这不能快速而有效地从双语混合文本中提取到关键信息。本文通过对传统潜在语义分析和主题生成模型的研究,将其理论应用于双语文本聚类中,提出了潜在语义对偶空间和双语主题生成模型,这两种方法模型不需要通过翻译工具或词典便可进行双语混合文本聚类。其中,本文根据文本语义的语言无关性,基于典型相关分析CCA从平行语料中提取了双语文档的潜在语义对,形成潜在语义对偶空间。对待聚类的双语文本文档通过潜在语义对偶空间进行映射,得到具有相同概念的潜在语义,进而通过聚类算法进行双语文本聚类分析。同时,本文利用传统的主题生成模型,分析了相同主题可由不同语言描述的特点,进而提出一种双语主题生成模型。通过双语主题模型训练平行语料得到文档的主题分布和每个主题中所有词的分布,然后对待聚类的双语文本通过吉布斯采样估计得到双语混合文本的主题概率分布,基于此可利用双语文本在共同主题的概率分布下进行双语文本聚类实验。另外,本文基于融合模型的思想,受Bagging和Boosting算法启发,提出两种模型融合的方式,包括模型拼接和模型结合。这样能够更加充分地利用文本的潜在语义和主题信息,从而更好地实现双语文档聚类。最终,在双语文本聚类实验中,本文提出的方法得到了较好的效果。其中模型融合中模型拼接方法在RT和HK两个数据集上F1值分别达到了0.546和0.478,取得了较好的聚类质量。由此可见本文中方法在聚类双语混合文本研究中能够充分利用文本中语义和主题信息,得到较好的聚类效果。模型拼接的思想虽然简单,但增加了计算复杂度,因此希望能够通过更深入的研究,改善相关问题,得到更加优秀的结果。(本文来源于《电子科技大学》期刊2019-03-26)
语义聚类论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
针对中文文本聚类受语义、语法、语境等因素的影响,在使用传统向量空间模型向量化表征后,文本向量之间相互独立,语义关系被忽略,影响聚类分析结果的问题,提出一种基于语义簇的中文文本聚类算法.该算法根据词共现的原理和语义相关性,首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重,利用特征词的搭配向量构建语义簇;然后使用特征词及其搭配词的权重,将特征词向语义簇中心进行空间变换,求得嵌入语义信息的文档向量;最后利用文档向量进行K-means聚类分析.实验结果表明,该向量化表示方法,能有效提高文本向量对文本语义的逼近能力,同时可提高文本聚类结果的准确率和召回率.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
语义聚类论文参考文献
[1].贾君枝,叶壮壮.基于潜在语义索引的Wikidata机构实体聚类研究[J].数据分析与知识发现.2019
[2].齐向明,孙煦骄.基于语义簇的中文文本聚类算法[J].吉林大学学报(理学版).2019
[3].王旭阳,朱鹏飞.基于模糊机制和语义密度聚类的汉语自动语义角色标注研究[J].计算机应用与软件.2019
[4].陈颖.一种面向程序理解的程序语义聚类技术[J].软件导刊.2019
[5].张弛,张贯虹.基于词向量和多特征语义距离的文本聚类算法[J].重庆科技学院学报(自然科学版).2019
[6].高永兵,宋添树,李江宇,马占飞.基于知网的个人微博语义相关度的聚类研究[J].计算机工程与科学.2019
[7].庄建昌,武娇,顾兴全,洪彩凤.基于热词语义聚类的领域特征挖掘方法[J].中国计量大学学报.2019
[8].袁璇.基于语义特征融合的图像聚类方法研究[D].西北大学.2019
[9].李志欣.文献语义耦合网络的构建与聚类研究[D].山西大学.2019
[10].唐镇.基于语义对偶模型的双语文本聚类研究[D].电子科技大学.2019