信息增益论文_文武,赵成,赵学华,刘颖,范荣妹

导读:本文包含了信息增益论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:增益,信息,特征,算法,步长,文本,余弦。

信息增益论文文献综述

文武,赵成,赵学华,刘颖,范荣妹[1](2019)在《基于信息增益和萤火虫算法的文本特征选择》一文中研究指出针对传统的文本特征选择方法所选特征子集精度不高的问题,提出一种结合信息增益和萤火虫算法的特征选择方法。计算所有特征词的信息增益并按从高到低排序,在排序靠前的特征集合上利用萤火虫算法寻优搜索得到最优特征子集。为避免萤火虫算法求解速度慢和陷入局部最优,对步长因子α进行改进,使其动态更新。在KNN上的文本分类实验结果表明,萤火虫算法选择的特征子集与信息增益和遗传算法相比,具有更好的分类效果。(本文来源于《计算机工程与设计》期刊2019年12期)

董露露,马宁[2](2019)在《基于改进信息增益的特征选择方法研究》一文中研究指出信息增益是最有效的特征选择方法之一,但在处理不平衡数据集时其分类性能却急剧下降。针对这一不足,文章从叁个方面对传统信息增益进行改进,提出一种改进的信息增益特征选择方法。首先,去除特征项不出现因子以降低对分类的干扰;其次,引入最大词频比因子以抑制低频词的干扰;最后,融入类内词频分布差异离散度和类间分布差异加权离散度因子以衡量特征项在类内和类间的分布差异。在不平衡数据集上的实验结果表明,改进的信息增益不仅可以从很大程度上改善少数类的分类性能,也使总体分类性能得到了明显提升。(本文来源于《萍乡学院学报》期刊2019年03期)

杨红浩,周治平[3](2019)在《采用信息增益率的混合入侵检测模型设计》一文中研究指出针对现有混合入侵检测模型仅定性选取特征而导致检测精度较低的问题,同时为了充分结合误用检测模型和异常检测模型的优势,提出一种采用信息增益率的混合入侵检测模型.首先,利用信息增益率定量地选择特征子集,最大程度地保留样本信息;其次,采用余弦时变粒子群算法确定支持向量机参数构建误用检测模型,使其更好地平衡粒子在全局和局部的搜索能力,然后,选取灰狼算法确定单类支持向量机参数构建异常检测模型,以此来提高对最优参数的搜索效率和精细程度,综合提高混合入侵检测模型对攻击的检测效果;最后,通过两种数据集进行仿真实验,验证了所提混合入侵检测模型具有较好的检测性能.(本文来源于《信息与控制》期刊2019年04期)

魏玮[4](2019)在《结合信息增益率的异构医疗数据库字段标识系统设计》一文中研究指出为解决现阶段医疗机构中不同科室数据异构,导致标识准确率低的问题,提出并设计了结合信息增益率的异构医疗数据库字段标识系统。给出设计系统整体结构,分析设计系统主要模块功能。对异构医疗信息进行数据标识化处理,令原本没有语义信息的异构医疗数据变成可处理数据。在此基础上,将信息增益率看作节点分割的优度衡量指标建立多特征函数,依据特征函数标识异构医疗数据库信息时,通过标识规则对数据种类进行判断,获取全部医疗信息数据库所有数据字段标识结果,完成异构医疗数据库字段标识系统设计。实验结果表明,所设计系统标识结果准确,操作性能优,标识时延低。(本文来源于《科学技术与工程》期刊2019年22期)

祝志川,周兰兰,张国超[5](2019)在《基于信息增益比修正G1的系统协调发展测度模型及实证》一文中研究指出文章从指标分类性能的角度引入信息增益比确定指标重要性排序,并利用系统聚类法将系统和子系统进行聚类得到各系统对应的分类数据集计算各指标的信息增益比,采用信息增益比大小修正G1法构造了新的权重计算方法,并以中国31个省份"五化"系统协调发展现状为例进行了实证。(本文来源于《统计与决策》期刊2019年13期)

任世超,黄子良[6](2019)在《基于二维信息增益加权的朴素贝叶斯分类算法》一文中研究指出由于朴素贝叶斯算法的特征独立性假设以及传统TFIDF加权算法仅仅考虑了特征在整个训练集的分布情况,忽略了特征与类别和文档之间关系,造成传统方法赋予特征的权重并不能代表其准确性.针对以上问题,提出了二维信息增益加权的朴素贝叶斯分类算法,进一步考虑到了特征的二维信息增益即特征类别信息增益和特征文档信息增益对分类效果的影响,并设计实验与传统的加权朴素贝叶斯算法相比,该算法在查准率、召回率、F1值指标性能上能提升6%左右.(本文来源于《计算机系统应用》期刊2019年06期)

王旭仁,马慧珍,冯安然,许祎娜[7](2019)在《基于信息增益与主成分分析的网络入侵检测方法》一文中研究指出为提高入侵检测效率,需要对数据进行特征提取以降低数据维度。结合信息增益(IG)和主成分分析(PCA),提出一种网络入侵检测方法。通过IG提取分类能力强的属性特征,利用PCA对其降维,并采用Naive Bayes进行分类检测。对数据集KDDCUP99进行测试,结果表明,该方法的检测率为94.5%,高于PCA-LDA、FPCA、KPCA方法。(本文来源于《计算机工程》期刊2019年06期)

李凯[8](2019)在《基于词典与改进信息增益的微博情感分析》一文中研究指出随着计算机与网络技术的发展日新月异,社交媒体与网络平台已然成为人们获取、发布、共享、传播信息的载体。这些信息对于政府与企业进行网络舆情监控、电子商务等都具有重要的社会意义与商业价值。本文以新浪微博平台中的人们所发布的语料信息为研究对象,重点研究分析了情感分析任务中基于情感词典与基于机器学习的两种方法。主要研究内容如下:1.针对现有的情感词典由于对网络新词的涵盖率较低而无法应用于微博领域的情感分析问题,本文搜集了当前现有的一些基础情感词典,网络情感词典与表情符号库,并在去重后构造了基础综合情感词典。针对SO-PMI算法中共现窗口大小与语料库规模对算法效果产生不利影响等问题,本文提出了使用距离互信息与古德-图灵平滑方法来对SO-PMI算法进行优化,并利用改进后的SO-PMI算法来扩展基于微博领域的情感词典。通过实验对比综合基础情感词典、基于传统SO-PMI算法扩展的情感词典、基于拉普拉斯平滑的SO-PMI算法扩展的情感词典以及本文所构建的中文微博综合情感词典,使用本文所构建的情感词典进行情感分析的效果皆好于其他叁种情感词典。2.研究分析了常用的特征选择算法并着重研究了信息增益算法。针对传统信息增益算法中没有考虑特征项在类内与类间分布情况以及没有平衡正相关特征项与负相关特征项的比例等的问题,提出了类间集中度与类内分散度并以此来提高特征项对类别的区分效果。借鉴卡方统计量的方法求两者最大值以此来将类间集中度与类内分散度的计算应用于整个语料库,并引入比例因子来降低负相关特征项所带来的不利影响,提高了正相关特征项的比例。通过实验对比基于传统信息增益算法与本文所改进的信息增益算法,利用本文所改进的信息增益算法在微博情感分析中的效果好于传统信息增益算法。3.本文将整合成的中文微博综合情感词典与改进的信息增益算法结合来对特征选择这个过程进行优化。该方法结合了两者的优点,对特征项的降维效果明显好于两者单独使用的情况。图[16]表[10]参[53]。(本文来源于《安徽理工大学》期刊2019-06-03)

吕庆莉[9](2019)在《基于信息增益的中医体质多标记分类方法研究》一文中研究指出目的为降低中医体质传统分类方法主观性误差,兼顾兼夹体质,提出基于信息增益的中医体质多标记分类方法。方法采用多标记方法进行中医体质分类。为解决多标记分类方法中不同特征对分类标签的影响不同的问题,通过体质分类数据计算各特征项的信息增益,计算体质分类特征对分类标签的权重,进而通过加权的多标签分类器,得出体质数据多标记分类。结果与传统判别分析法相比,基于信息增益的多标记分类方法在1-错误率(16.33%)、汉明损失(15.44%)、平均准确率(82.61%)方面均有一定优势。结论基于信息增益的多标记分类方法在保证准确率同时可兼顾兼夹体质,实现对体质特征差异性及趋同性的更好描述。(本文来源于《中国中医药信息杂志》期刊2019年06期)

孙傲,赵礼峰[10](2019)在《基于信息增益和基尼不纯度的K近邻算法》一文中研究指出传统K近邻算法忽略每个属性对分类的不同重要程度,将每个属性同等看待,在计算样本间距离时赋予每个属性相同的权重,影响样本分类的正确性。利用单一指标来确定属性重要性过于片面,无法全面反应属性对分类的重要程度。针对这一问题,利用信息增益和基尼不纯度的综合指标作为判断属性重要程度的指标,该综合指标越大,属性对分类的重要程度越高。并依据综合指标构造属性权重,计算样本间的加权距离进行分类。为验证该方法的有效性,分别基于UCI数据库中Iris数据集和Wine数据集对基于信息增益和基尼不纯度综合指标的加权K近邻算法进行仿真实验,并与传统K近邻算法和基于信息增益加权K近邻算法进行对比,基于信息增益和基尼不纯度综合指标的加权K近邻算法错误率均低于传统K近邻算法和基于信息增益加权K近邻算法。结果表明该方法比传统K近邻法和基于单一指标加权K近邻算法能更有效地对样本进行分类。(本文来源于《计算机技术与发展》期刊2019年09期)

信息增益论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

信息增益是最有效的特征选择方法之一,但在处理不平衡数据集时其分类性能却急剧下降。针对这一不足,文章从叁个方面对传统信息增益进行改进,提出一种改进的信息增益特征选择方法。首先,去除特征项不出现因子以降低对分类的干扰;其次,引入最大词频比因子以抑制低频词的干扰;最后,融入类内词频分布差异离散度和类间分布差异加权离散度因子以衡量特征项在类内和类间的分布差异。在不平衡数据集上的实验结果表明,改进的信息增益不仅可以从很大程度上改善少数类的分类性能,也使总体分类性能得到了明显提升。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

信息增益论文参考文献

[1].文武,赵成,赵学华,刘颖,范荣妹.基于信息增益和萤火虫算法的文本特征选择[J].计算机工程与设计.2019

[2].董露露,马宁.基于改进信息增益的特征选择方法研究[J].萍乡学院学报.2019

[3].杨红浩,周治平.采用信息增益率的混合入侵检测模型设计[J].信息与控制.2019

[4].魏玮.结合信息增益率的异构医疗数据库字段标识系统设计[J].科学技术与工程.2019

[5].祝志川,周兰兰,张国超.基于信息增益比修正G1的系统协调发展测度模型及实证[J].统计与决策.2019

[6].任世超,黄子良.基于二维信息增益加权的朴素贝叶斯分类算法[J].计算机系统应用.2019

[7].王旭仁,马慧珍,冯安然,许祎娜.基于信息增益与主成分分析的网络入侵检测方法[J].计算机工程.2019

[8].李凯.基于词典与改进信息增益的微博情感分析[D].安徽理工大学.2019

[9].吕庆莉.基于信息增益的中医体质多标记分类方法研究[J].中国中医药信息杂志.2019

[10].孙傲,赵礼峰.基于信息增益和基尼不纯度的K近邻算法[J].计算机技术与发展.2019

论文知识图

文本分类算法流程图传统信息增益特征选择算法与信信息增益'特征选择算法与新信不基于信息增益法生成的一种决策...各课程信息增益率基于信息增益法生成的决策树

标签:;  ;  ;  ;  ;  ;  ;  

信息增益论文_文武,赵成,赵学华,刘颖,范荣妹
下载Doc文档

猜你喜欢