文本降维论文_张丽,马静

导读:本文包含了文本降维论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:特征,文本,算法,成分,模糊,乘积,阈值。

文本降维论文文献综述

张丽,马静[1](2019)在《一种基于“特征降维”文本复杂网络的特征提取方法》一文中研究指出【目的/意义】本文构建一种"特征降维"文本复杂网络进行文本表示,解决传统词同现文本复杂网络处理海量数据时的维数灾难与语义不足问题,再结合机器学习方法提升文本特征提取效果。【方法/过程】依据共现关系抽取二级词条,再结合依存句法关系抽取叁级词条,构建"特征降维"文本复杂网络,接着利用PCA算法和TOPSIS法评价网络节点重要性提取反映文本主题的关键词作为文本特征词,实现文本特征提取。【结果/结论】本文以网络新闻数据为实验对象。实验结果表明,特征降维文本复杂网络能较好地表示中文文本,并且在较好地保留了文本语义信息的同时有效减少网络节点冗余,结合PCA算法的特征提取方法可以使文本分类性能提高。(本文来源于《情报科学》期刊2019年10期)

丁小艳[2](2019)在《基于PSO优化的盲源分离式文本特征降维分类方法》一文中研究指出为了有效解决文本特征分类过程中高阶相关性问题,本文在盲源分离式文本特征降维分类方法的基础上引入粒子群(PSO)算法,有效规避迭代过程中局部最优解问题,且以负熵作为适应度函数,有效改善独立主成分分析的判别性能,经过实验证明经过优化后的方案,在精确度、准确率、召回率、F1测试值等方面有较好的表现。(本文来源于《山东农业大学学报(自然科学版)》期刊2019年05期)

吴瑶[3](2018)在《基于文本特征的降维技术研究》一文中研究指出互联网技术的迅速发展,网络中产生了海量的文本数据信息,如何对这些海量数据进行分析与处理,挖掘出有用的信息已经成为当前亟待解决的难题,数据挖掘技术应运而生。数据特征维数的急速增加给数据挖掘任务带来了巨大的挑战,降维技术是对高维数据进行预处理的有效方法,特征选择算法是降维技术中应用最为广泛的方法。但传统的单一特征选择算法存在冗余、噪声信息以及聚类精度低等问题,针对这些问题,本文从下面两个方面进行了研究:针对单一特征选择算法存在不相关、冗余特征以及聚类精度低等问题,提出一种基于差分进化的两阶段文本特征选择算法。该算法在过滤阶段使用方差及平均中位数分别计算特征相关评分值,将各自评分值靠前的特征进行融合,过滤不相关特征,得到高相关性特征子集,实现特征的初步降维;封装阶段采用改进的差分进化算法提取最优特征子集,进一步降维。改进的差分进化算法利用文档频率和累积特征词频率构建适应度函数,并在变异操作中引入局部最优特征及多个差向量策略,加快算法的收敛速度,提高算法的全局搜索能力。在不同数据集中进行仿真实验,仿真结果表明:聚类任务中,该算法在有效降低文本特征空间维度的基础上,显着提高了聚类的准确率、召回率及F1值。为了消除特征子集中存在的噪声特征,提高特征选择算法的类间区分度,提出一种叁阶段文本特征选择算法。在第一阶段该算法使用改进的平均绝对差方法从原始特征空间中过滤不相关特征;第二阶段,使用结合特征模长的绝对余弦方法从相关特征空间中去除冗余特征;第叁阶段,利用主成分分析方法将高维相关和非冗余特征空间转换成无噪声低维特征空间,获得最优的特征子集。仿真结果表明,本文提出的算法与其他算法对比能获取更好的准确率、召回率和F1值,有效的去除了噪声特征,选择出的特征子集具有良好的类间区分度。(本文来源于《长沙理工大学》期刊2018-04-14)

刘楠楠[4](2018)在《文本分类中特征降维算法的研究与应用》一文中研究指出近年来,由于互联网数据大规模增长而导致文本数据的高维稀疏性,为文本分类技术发展带来了严峻的挑战。因此,为应对爆炸式数据增长问题,数据特征降维算法成为国内外学术界日益研究的热点之一。特征降维,即从特征集合中挑选或抽取与类别相关性强、特征间冗余度小的特征子集,降低特征空间维度,对文本分类技术的优化具有不可忽视的作用。目前,特征降维主要分为叁类,过滤式、封装式和嵌入式方法。过滤式方法计算效率高,特征评价模型简单,但只关注单个特征,忽略了不同特征之间结合可能带来更好效果的可能性。而封装式方法尽管能够产生对分类精度具有较高价值的特征集,但由于其较高的计算成本,而难以得到广泛的应用。因此,本文通过研究分析聚类有效性指标在文本分类中的应用,提出一种基于聚类有效性指标的特征降维算法(WB-Index Sequential Forward Selection WBI-SFS)。由于WBI-SFS算法不依赖特定的分类器评估特征子集,因此属于一种过滤式特征选择算法。WBI-SFS算法既有过滤式算法的短时间开销特点,又具有较高分类精度,两者兼备。WBI-SFS算法的主要创新点有两个:第一,利用高效、线性的聚类有效评价指标代替传统的过滤式评估函数或分类算法作为特征子集的评估度量方式。该算法代替了封装式方法中基于分类器的交叉验证过程,降低了计算成本。第二,结合序列前向搜索方法遍历全集,迭代生成候选特征子集。该遍历搜索方法理论简单,应用范围较广,具有很好的普适性。将WB-index指标与特定的搜索方法结合,解决了在数据高维稀疏问题中搜索最优特征子集和迭代评价特征子集的耗时长问题。本文通过在两种不同类型数据集上多次实验后,进一步证明了WBI-SFS算法无论在文本类数据集,亦或是非文本类数据集上,都具有较好的分类和效率性能。最后,本文以WBI-SFS算法为核心,设计并实现一套应用于网络流量分析、流量清洗,基于统一策略和应用规则的内容识别与过滤的网络内容识别原型系统,“净云”网络净化系统。该系统的核心功能旨在对包含不良信息的网页自动进行识别、分类、过滤与屏蔽,从而引导未成年人正确使用网络,抵御外来不良信息的入侵。(本文来源于《电子科技大学》期刊2018-03-23)

吕建科[5](2018)在《基于潜变量的PCA降维方法在文本分类问题中的应用》一文中研究指出文本分类是实现处理和利用海量文本信息的有效方式,尽管在过去几十年文本分类领域关键技术已经取得了重大发展,但是随着大数据时代的到来,具有高维、高稀疏程度特点的文本分类性能上还有很大改进空间.本文针对文本分类问题高维、稀疏的特点,对基于主成分分析的特征选择方法进行改进,提出了一种对于基于潜变量的主成分降维方法.基于潜变量的PCA降维方法假设生成文本的过程中特征词的选择由服从正态分布的潜变量所决定,用数学期望估计特征取值的真实值,增加特征词出现时的权重,实验表明该方法能够有效减少特征维度并实现更好的分类效果,分类准确率提升5%左右.(本文来源于《浙江大学》期刊2018-01-01)

刘冰瑶,马静,李晓峰[6](2017)在《一种“特征降维”文本复杂网络的话题表示模型》一文中研究指出【目的】通过一种特征降维方法解决传统词同现导致文本复杂网络处理大规模语料库时的高维性和稀疏性瓶颈问题。【方法】以共现概率表示词语间互信息值,抽取大于阈值的词语组合,以此为基础根据句法结构获得叁级词条构建初始网络,通过修正算法完成文本复杂网络的进化,实现话题语义表达。【结果】以微博热门话题"全球爆发网络勒索病毒"下6 936条微博构建语料库进行实验,得到具有217个节点,2 019条边的网络模型,并用于微博话题特征发现研究,获得优化效果。【局限】文本复杂网络的网络节点权重赋值存在进一步探索的空间。【结论】该模型能够有效减少网络节点冗余,同时提高了文本复杂网络对话题的语义表达效果,为复杂网络理论用于文本挖掘提供一条新途径。(本文来源于《数据分析与知识发现》期刊2017年11期)

刘娜,毛晓菊,吴敏[7](2017)在《集群分类映射的文本多标签模糊关联降维聚类》一文中研究指出为实现文本的多标签分类,同时降低计算复杂度并保持分类精度,提出基于集群分类映射的文本多标签模糊关联降维聚类方法。利用模糊变换、模糊关联聚类、集群分类映射、阈值查找和应用等技术,构建低维特征的多标签模糊关联分类器的训练和测试阶段,采用模糊相关评价将高维文本转化为低维的模糊关联向量,避免维数灾难问题。所提算法不要求分类区域呈现凸性特征,适用性更广,对其进行了计算复杂度理论分析。在标准测试集上进行对比测试,测试结果验证了该算法在计算复杂度和分类精度上的优势。(本文来源于《计算机工程与设计》期刊2017年06期)

王甜甜,康宇[8](2016)在《方差和词向量用于文本降维的研究》一文中研究指出文本分类中的高维数据和噪声一直是影响文本分类准确率的主要因素,特征选择和特征提取是降维和去噪的主要手段.本文提出根据词的类间概率分布方差和文档分布方差改进TF-IDF的特征选择方法(VAR-TF-IDF),调整Word2vec中的CBOW+HS词向量训练框架,用特征词词向量的迭加作为文本的特征向量,有效地提高了文本分类的准确率和召回率.实验算例证明了所提方案的有效性.(本文来源于《计算机系统应用》期刊2016年11期)

李卫平,杨杰,王钢[9](2015)在《融合相对熵与自适应LLE的两阶段文本降维方法》一文中研究指出多数基于贪婪策略的特征选择往往只能得到次优解.对此提出了一种两阶段特征降维方法,首先设计条件乘积相对熵算法以选择文档的特征子集,然后在文档特征子集中使用提出的自适应LLE算法进行特征抽取以进一步降低文档特征维度.实验结果显示,两阶段降维方法可显着降低维数并提高文本挖掘性能.(本文来源于《微电子学与计算机》期刊2015年04期)

罗成飞[10](2015)在《结合卡方统计与特征聚类的文本特征降维方法》一文中研究指出随着信息时代的飞速发展。Internet上的电子信息已经浩若烟海,如何快速、有效地获取用户所需信息已成为一个热门研究课题。文本分类和聚类作为处理文本挖掘的关键技术之一,作为处理大量文本数据的技术,常常能有效提高检索效率。如何从高维的特征空间中选取最有用的特征特是特征降维技术主要的研究内容,其中特征选择是指根据评估函数或者搜索算法在原始特征空间中选取若干特征构成特征子集。本文对特征降维技术的研究现状进行了调研,然后对文本挖掘相关技术进行了阐述,为后文的撰写做了铺垫。有效的特征降维方法,不仅能够很好地降低特征空间的维度,而且能够去除对分类无用的无关特征,有效提高分类算法的分类精度和效率。本文从文本聚类出发,结合卡方统计的优点,提出了一种基于特征语义聚类的特征选择方法CHIFC。为了验证本文提出的方法的有效性和可行性,本文在搜狗语料库和中科院自动化所语料库上采用朴素贝叶斯分类器和支持向量机分类器对传统χ2统计方法、本文方法、文档频方法进行实验对比。实验结果表明,文本方法在维度降低一个数量级的情况下,macro F1值与传统的CHI方法相差较小,且优于文档频方法。实验结果表明,本文方法能够极大地降低特征空间的维度,适用不同类型语料库,且保有不错的分类效率,从而验证了本文方法的是可行有效的。(本文来源于《华南理工大学》期刊2015-03-20)

文本降维论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

为了有效解决文本特征分类过程中高阶相关性问题,本文在盲源分离式文本特征降维分类方法的基础上引入粒子群(PSO)算法,有效规避迭代过程中局部最优解问题,且以负熵作为适应度函数,有效改善独立主成分分析的判别性能,经过实验证明经过优化后的方案,在精确度、准确率、召回率、F1测试值等方面有较好的表现。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文本降维论文参考文献

[1].张丽,马静.一种基于“特征降维”文本复杂网络的特征提取方法[J].情报科学.2019

[2].丁小艳.基于PSO优化的盲源分离式文本特征降维分类方法[J].山东农业大学学报(自然科学版).2019

[3].吴瑶.基于文本特征的降维技术研究[D].长沙理工大学.2018

[4].刘楠楠.文本分类中特征降维算法的研究与应用[D].电子科技大学.2018

[5].吕建科.基于潜变量的PCA降维方法在文本分类问题中的应用[D].浙江大学.2018

[6].刘冰瑶,马静,李晓峰.一种“特征降维”文本复杂网络的话题表示模型[J].数据分析与知识发现.2017

[7].刘娜,毛晓菊,吴敏.集群分类映射的文本多标签模糊关联降维聚类[J].计算机工程与设计.2017

[8].王甜甜,康宇.方差和词向量用于文本降维的研究[J].计算机系统应用.2016

[9].李卫平,杨杰,王钢.融合相对熵与自适应LLE的两阶段文本降维方法[J].微电子学与计算机.2015

[10].罗成飞.结合卡方统计与特征聚类的文本特征降维方法[D].华南理工大学.2015

论文知识图

叁个特征在分类中分别对不同类别的贡...支持向量机分类器在20-Newsgroups数据...每年的论文数量及每年的论文被引次数①...分词消歧界面实验中各类文本数据集分布情况一7分类器学习过程参数设置

标签:;  ;  ;  ;  ;  ;  ;  

文本降维论文_张丽,马静
下载Doc文档

猜你喜欢