导读:本文包含了向量空间模型论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:向量,模型,空间,文本,语义,序列,算法。
向量空间模型论文文献综述
刘泽辰[1](2019)在《基于向量空间模型的KNN分类器模型在反洗钱监管体制中的应用研究》一文中研究指出洗钱会破坏金融市场与机构的完整性与稳定性。随着金融业全球化发展,各国对于金融市场洗钱行为的监管也愈发重视。本文以英国财政部2015年发布的《英国洗钱与恐怖主义融资国家风险评估》为基础,应用机器学习中基于向量空间模型的KNN分类器模型自动学习风险等级分类决策准则评估金融体系不同领域的洗钱风险水平,并建立了一个监测洗钱行为的机制。这意味着当其他国家通过使用英国建立的洗钱风险评估系统积累了足够的数据后,可以使用模型和指标来确定本国洗钱风险水平,而无须使用英国的风险评估系统,节省了成本。实验结果表明,分类器能够有效区分金融体系各领域洗钱风险水平高低。(本文来源于《中国管理信息化》期刊2019年16期)
王世昌[2](2019)在《叁元共现潜在语义向量空间模型及降维研究》一文中研究指出文本的向量表示方法对文本主题聚合、聚类、信息检索及推荐系统等研究具有重要意义。在传统的文本表示模型中,向量空间模型(VSM)相对简单,且应用较为广泛。但该模型假设特征词相互独立,这在一定程度上会影响聚类效果。而共现潜在语义向量空间模型(CLSVSM)则是在VSM基础上,利用共现分析深入挖掘文本信息中特征词之间的潜在语义关系,并利用共现相对强度来估计这种关系,最终估计文献与特征词的相似性。通过实验可证明CLSVSM聚类精度要高于VSM。本文以共现潜在语义向量空间模型为基础,对模型进行拓展及降维研究。基于布尔权重的局限,利用词频统计量重新估计模型,构建词频共现潜在语义向量空间模型(FCLSVSM);为使CLSVSM能充分提取文献的潜在语义信息,进一步引入叁元共现,通过研究叁元共现表示,叁元共现频次及叁元共现相对强度的计算,最终建立叁元共现潜在语义向量空间模型(T-CLSVSM)。但随着文本数量的增加,表达模型的维度会越来越高,计算量也会相应增加,最终导致模型应用的边际效应降低。因此考虑利用惩罚性矩阵分解(PMD)方法进行降维优化,具体方法包括:计算K-秩近似及提取核心特征词。实验中,选择扩展数据集验证FCLSVSM,利用基础数据集来验证T-CLSVSM及PMD算法,并利用公共数据集来检验模型的适用范围。最终得到如下结论:选择词频统计量来估计模型,可以显着提高聚类效果。在所选评价指标(纯度,熵值,F_1值)下,T-CLSVSM的聚类精度要优于VSM与CLSVSM。PMD算法中,提取核心特征词与计算K-秩近似两种方法均可有效实现降维,与基于CLSVSM构建的语义核函数(CLSVSM_K)相比,聚类精度更高,降维效果更好。本文对于共现潜在语义向量空间模型作出改进,包括基于词频信息的模型重建,叁元共现潜在语义向量空间模型的构建以及利用PMD算法对模型进行降维。最终证明,改进后的模型可以提高聚类精度,降低计算复杂度,节约成本。模型的改进为文本表示提供了新的选择,同时也为文献聚合中的相似性度量、文献检索、分类等研究提供了参考。(本文来源于《山西大学》期刊2019-06-01)
姚海云,舒红,汪善华,曾坤[3](2019)在《多定位源数据分析的特征向量空间滤波模型及仿真实验》一文中研究指出目前,在室内定位中,鲜有研究者将多个定位源的空间布局这一重要因素考虑到定位结果的估计中来。室内定位中,众多定位源可以看作多个随机变量的一次实现,每个定位源结果并非严格独立,通常存在一定空间布局,可以模拟为确定性空间结构函数或统计空间自相关模型。定位源空间自相关会导致不同定位源影响系数(回归系数)方差膨胀效应和定位结果偏移效应。方差膨胀将导致参数估值的不确定性被低估,最终导致定位结果存在较大偏差。本文特征向量空间滤波模型(Eigenvector Spatial Filtering Model,ESF)将多定位源空间布局归结为一个代理变量,加入一般多元线性回归模型,构造最终的多定位源融合算法。定位源空间自相关效应通过特征向量空间滤波模型的空间代理变量来表征和分离,从而特征向量空间滤波模型满足独立(定位源结果彼此独立)同分布的一般线性回归模型条件。仿真分析表明运用特征向量空间滤波模型使用户定位结果和回归系数估值的精度均有明显提高。(本文来源于《城市勘测》期刊2019年02期)
开磊[4](2019)在《Web信息检索中N层向量空间模型及特点分析》一文中研究指出随着互联网技术的迅猛发展,当前在国内外传播或者共享信息的过程中,应用最为广泛的途径就是Web,网络文本数量呈现逐年增长的趋势,总量即为庞大。面对大量信息数据,针对使用者的要求怎样才能在对短时间内准确地找到信息才是关键,也是目前研究热点。本研究针对Web信息检索中N层向量空间模型进行了研究,并归纳分析了具体特点。(本文来源于《大众投资指南》期刊2019年07期)
殷功俊[5](2018)在《基于词向量的向量空间模型的改进》一文中研究指出向量空间模型是目前比较主流的文本表示模型,在多个领域内都有着很好的表现,但它却有着维度较高、不能有效提取特征词语义、文本表示稀疏等缺陷。针对以上不足,在传统的向量空间模型的基础上引入能高效获取语义的词向量,提出一种新的文本表示模型。该模型首先通过对特征词的词向量聚类,用聚类质心代表该类的其他特征词,求出聚类质心的TF-IDF权值,能够降低文本表示向量的维度、优化文本表示稀疏的问题和改进在计算TF-IDF权值中遇到的一词多义和同义词问题;再将聚类质心的权值与其词向量结合生成文本表示向量,使其能有效获取文本语义信息;最后用于文本分类。在搜狗语料库中验证该模型的有效性。(本文来源于《现代计算机(专业版)》期刊2018年36期)
毛轶绩[6](2018)在《一种基于向量空间模型的信息检索算法研究》一文中研究指出科学技术的快速发展使我们身边的信息呈指数级增长,出现了严重的信息过载的现象。信息检索是解决信息过载的重要方法,受到国内外研究人员的广泛关注。为了缓解信息过载现象,本研究提出了一种基于向量空间模型的信息检索算法。首先,获取用户输入的需求信息;然后,对其进行分词、去停用词等处理;再次,利用词权重形成向量来计算用户信息需求与待检索库中各文档的语义匹配程度;最后,按语义匹配度进行排序。本文的最后,利用互联网上的真实数据集对算法进行效果评测。实验结果表明,基于向量空间模型的信息检索算法能够满足检索用户的检索需求,有一定的实践意义。(本文来源于《通讯世界》期刊2018年09期)
祝斌,亓合媛,马俊才[7](2018)在《基于16S rRNA序列物种鉴定的改进向量空间模型算法》一文中研究指出在物种鉴定领域中,权威方法是基于BLAST的序列比对算法,然而该算法出现计算量过于庞大,运算效率低以及资源消耗较高等问题.为解决以上问题,本文借鉴经典文献中的K-String组份向量方法,对向量空间模型作出改进,将其应用于基于16S rRNA序列的物种鉴定领域,并在巴拿赫空间的理论体系下,对改进向量空间模型算法中的遗传距离公式进行等价替换,给出不同范数背景下对应的遗传距离公式,供科研人员参考.本文从计算效率和物种鉴定效果两个方面来判断改进算法的性能,最终得到如下结论:欧几里得空间下的内积范数从计算效率上较经典的blast算法具有显着优势,而其分类效果在检出率这一方面,达到了比对结果的一致性.(本文来源于《计算机系统应用》期刊2018年09期)
甘秋云[8](2018)在《基于TF-IDF向量空间模型文本相似度算法的分析》一文中研究指出相似度算法可以计算不同字符串之间的相似程度,基于向量空间模型和基于词条空间是目前衡量文本相似度的主要方法。本文主要通过向量空间模型(VSM)文本相似度算法及TF-IDF词频统计方法,分析探讨基于TF-IDF的文本相似度算法的实现,通过实验结果验证了该算法的有效性。(本文来源于《池州学院学报》期刊2018年03期)
冯高磊,高嵩峰[9](2018)在《基于向量空间模型结合语义的文本相似度算法》一文中研究指出针对向量空间模型方法忽略词语语义以及词语相互间结构关系,没有考虑词语表达的实际意义的缺点,提出一种新的文本相似度计算方法,该方法把语义相似度的计算融入到基于向量空间模型的文本相似度算法中,最终通过语义相似度和向量空间模型相似度加权得到文本相似度的结果。实验结果证明,所提出的相似度算法得到的召回率相比于向量空间模型方法以及现有的语义相似度算法都有不同程度的提高,从而证明了该算法的有效性。(本文来源于《现代电子技术》期刊2018年11期)
蔡礼高[10](2018)在《基于向量空间模型的文本内容筛查方法研究》一文中研究指出互联网数据呈现爆炸式地增长,深度学习也日益走进我们的生活,同时我们也越来越依靠互联网进行消费。但是如何从互联网中筛查出没有价值的数据,从而挖掘到对我们有价值的信息,也慢慢地成为了一种亟需解决的问题。在该背景下,本文针对日常生活中经常接触到的网络评价,进行文本分类研究,主要为了筛选出互联网用户发表的无意义评论,进而让我们能接触到更多的有用信息。本文主要从以下几个方面进行了研究:一、在浅层神经网络模型中,本文基于文本向量和BP神经网络搭建文本筛查模型。针对文本在词频和语义上的不同特征对其进行向量化,让文本向量能够携带更多的文本信息,提高文本分类模型的准确率。改进了一种文本综合向量的构建方法,同时考虑了文本在词频上的特性以及文本在语义上的特性。并通过实验证明了该方法能够在文本向量维数尽可能低的情况下提高文本分类模型的准确率。二、在浅层文本分类模型的基础上,根据本文的具体研究内容,提出了“文本价值度”概念,并基于价值度对文本向量进行了扩展。同时根据中文文本的特殊性,在文本相似度计算中提出了“文本结构编码”概念。首先将文本结构编码与简单词频结合起来计算文本相似度,并根据情感词典计算得到文本情感倾向性值;然后根据文本相似度及文本情感倾向共同计算得到文本价值度;最后基于文本价值度对文本向量进行扩展,并使用扩展后的文本向量进行文本分类,并通过实验证明了文本价值度能够在几乎不影响模型效率的情况下,一定程度上提高文本分类模型的准确率。叁、在深层神经网络模型中,本文基于词向量和长短期记忆模型(LSTM)搭建文本筛查模型,并使用DAN和CNN分别对LSTM进行了改进。LSTM&DAN模型的主要改进在于保留了原本的词向量信息,并结合Dropout方法,在不增加超参数和模型结构复杂度的情况下提高了文本分类模型的准确率。LSTM&CNN模型主要结合了卷积神经网络能够发掘文本深层信息的优势,对LSTM进行了改进,并通过实验证明了这种改进是有意义的,相对于浅层神经网络,在准确率上有了比较大的提升。(本文来源于《电子科技大学》期刊2018-03-30)
向量空间模型论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
文本的向量表示方法对文本主题聚合、聚类、信息检索及推荐系统等研究具有重要意义。在传统的文本表示模型中,向量空间模型(VSM)相对简单,且应用较为广泛。但该模型假设特征词相互独立,这在一定程度上会影响聚类效果。而共现潜在语义向量空间模型(CLSVSM)则是在VSM基础上,利用共现分析深入挖掘文本信息中特征词之间的潜在语义关系,并利用共现相对强度来估计这种关系,最终估计文献与特征词的相似性。通过实验可证明CLSVSM聚类精度要高于VSM。本文以共现潜在语义向量空间模型为基础,对模型进行拓展及降维研究。基于布尔权重的局限,利用词频统计量重新估计模型,构建词频共现潜在语义向量空间模型(FCLSVSM);为使CLSVSM能充分提取文献的潜在语义信息,进一步引入叁元共现,通过研究叁元共现表示,叁元共现频次及叁元共现相对强度的计算,最终建立叁元共现潜在语义向量空间模型(T-CLSVSM)。但随着文本数量的增加,表达模型的维度会越来越高,计算量也会相应增加,最终导致模型应用的边际效应降低。因此考虑利用惩罚性矩阵分解(PMD)方法进行降维优化,具体方法包括:计算K-秩近似及提取核心特征词。实验中,选择扩展数据集验证FCLSVSM,利用基础数据集来验证T-CLSVSM及PMD算法,并利用公共数据集来检验模型的适用范围。最终得到如下结论:选择词频统计量来估计模型,可以显着提高聚类效果。在所选评价指标(纯度,熵值,F_1值)下,T-CLSVSM的聚类精度要优于VSM与CLSVSM。PMD算法中,提取核心特征词与计算K-秩近似两种方法均可有效实现降维,与基于CLSVSM构建的语义核函数(CLSVSM_K)相比,聚类精度更高,降维效果更好。本文对于共现潜在语义向量空间模型作出改进,包括基于词频信息的模型重建,叁元共现潜在语义向量空间模型的构建以及利用PMD算法对模型进行降维。最终证明,改进后的模型可以提高聚类精度,降低计算复杂度,节约成本。模型的改进为文本表示提供了新的选择,同时也为文献聚合中的相似性度量、文献检索、分类等研究提供了参考。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
向量空间模型论文参考文献
[1].刘泽辰.基于向量空间模型的KNN分类器模型在反洗钱监管体制中的应用研究[J].中国管理信息化.2019
[2].王世昌.叁元共现潜在语义向量空间模型及降维研究[D].山西大学.2019
[3].姚海云,舒红,汪善华,曾坤.多定位源数据分析的特征向量空间滤波模型及仿真实验[J].城市勘测.2019
[4].开磊.Web信息检索中N层向量空间模型及特点分析[J].大众投资指南.2019
[5].殷功俊.基于词向量的向量空间模型的改进[J].现代计算机(专业版).2018
[6].毛轶绩.一种基于向量空间模型的信息检索算法研究[J].通讯世界.2018
[7].祝斌,亓合媛,马俊才.基于16SrRNA序列物种鉴定的改进向量空间模型算法[J].计算机系统应用.2018
[8].甘秋云.基于TF-IDF向量空间模型文本相似度算法的分析[J].池州学院学报.2018
[9].冯高磊,高嵩峰.基于向量空间模型结合语义的文本相似度算法[J].现代电子技术.2018
[10].蔡礼高.基于向量空间模型的文本内容筛查方法研究[D].电子科技大学.2018