非平衡数据论文_魏鑫,张雪英,李凤莲,胡风云,贾文辉

导读:本文包含了非平衡数据论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:数据,向量,多普勒,商业银行,模糊,互联网,近邻。

非平衡数据论文文献综述

魏鑫,张雪英,李凤莲,胡风云,贾文辉[1](2019)在《面向非平衡数据集分类的改进模糊支持向量机》一文中研究指出为提高模糊支持向量机在非平衡数据下的性能,提出基于信息熵的改进模糊支持向量机。综合考虑输入样本的不确定性和输入样本到类中心的距离,构造基于信息熵和基于类中心的模糊隶属度函数,将二者融合成一种新的模糊隶属度函数;为更有效地对非平衡数据集进行分类,将非平衡调节因子加入到模糊支持向量机模型中。实验数据集来自两部分,分别为非平衡公共数据集和脑卒中TCD数据集,基于公共数据集的实验结果表明,该方法能够有效提升分类性能,其中Se最高提升了71.43%,基于脑卒中TCD数据集实验结果表明,对正常人与斑块患者构成的非平衡数据集来说,在非平衡率为12.8时,较已有FSVM-CIL方法,本文方法可使其Gm提升4.94%。(本文来源于《计算机工程与设计》期刊2019年11期)

邢雪,于德新,周户星,田秀娟[2](2019)在《多源非平衡交通检测数据的异常识别方法》一文中研究指出为保证交通检测数据的准确性并服务于实时的交通状态判别和预测,交通大数据采用多种检测源数据协同处理并利用机器学习的方法进行异常识别.异常检测数据的识别主要基于机器学习中AdaBoost方法实现.在算法的训练过程中,为消除单一检测源数据的离群现象,训练数据选取同一路段上多种检测源提供的数据集.在算法的决策过程中,通过代价敏感方法的优势来改进AdaBoost的决策.实验结果表明:基于非均衡特性改进的AdaBoost模型迫使分类器更加关注了待识别的异常样本,增强了AdaBoost决策过程中训练决策树规则的代表性,提高了异常类样本的分类准确率.高速公路实例检测数据集验证了改进算法与相关经典算法的检测准确度、误检率、误警率等指标,其中改进模型与原模型相比,准确率提高了5.547%,误检率减低了6.792%.多种算法的ROC曲线对比表明改进的AdaBoost方法筛选交通检测样本的可靠度更高,可有效调整由非平衡数据导致的分类误差.(本文来源于《哈尔滨工业大学学报》期刊2019年09期)

石娟[3](2019)在《最低工资标准提升对和谐劳动关系构建的影响——基于省际(非平衡)面板数据的分析》一文中研究指出文章利用1996—2017年省际非平衡面板数据,从实证层面分析了最低工资标准提升对劳动关系产生的影响。研究结果发现,最低工资标准调整对我国劳动关系的影响存在阈值,小于该阈值,提高最低工资标准将有利于改善劳动关系;大于该阈值,继续提高最低工资标准,将导致劳动关系恶化。为了实现最低工资制度实施与和谐劳动关系构建的协调发展,各地区应结合实际情况稳步提高最低工资标准,增强企业的法律意识。(本文来源于《湖北理工学院学报(人文社会科学版)》期刊2019年05期)

秦洪军,孙龙建,黄波,赵璐月[4](2019)在《我国商业银行经营绩效影响因素的实证研究——基于16家上市商业银行季度非平衡面板数据的分析》一文中研究指出近年来,随着金融全球化不断深入,银行业竞争压力剧增,如何利用有限资源最大限度地提高商业银行的经营绩效已成为热议话题。本文通过采用我国16家上市商业银行2005年第一季度至2018年第一季度数据,运用面板模型对我国上市商业银行经营绩效的影响因素进行实证分析。研究发现:在微观层面上,上市商业银行经营绩效与其股东权益比率呈显着的正相关关系,与该银行的不良贷款率、非息收入占比呈显着的负相关关系,与其总资产规模存在显着的"U型"关系,但银行资本充足率对其经营绩效的影响并不显着;在宏观层面上,银行绩效与国内生产总值同比增速存在显着的"倒U型"关系;此外相对于其他季度,我国上市商业银行在第四季度经营绩效会有一定提高。因此,我国商业银行应当从建立健全绩效评价体系、降低不良贷款比率、适度规模经营以及优化股权结构等方面提升其绩效水平。(本文来源于《贵州商学院学报》期刊2019年02期)

郭婷,王杰,刘全明,梁吉业[5](2019)在《基于识别关键样本点的非平衡数据核SVM算法》一文中研究指出非平衡数据处理中常采用的欠采样方法很少考虑支持向量机(SVM)的特性,并且在原始空间进行采样会导致多数类样本部分关键信息的丢失.针对上述问题,文中提出基于识别关键样本点的非平衡数据核SVM算法.基于初始超平面有效划分多数类样本,在高维空间中对每个分块进行核异类近邻抽样,得到多数类中的关键样本点,使用关键样本点和少数类样本训练最终核SVM分类器.在多个数据集上的实验证明文中算法的可行性和有效性,特别是在非平衡度高于10∶1的数据集上,文中算法优势明显.(本文来源于《模式识别与人工智能》期刊2019年06期)

吴艺凡[6](2019)在《基于混合采样的非平衡数据分类算法研究》一文中研究指出在机器学习和数据挖掘领域中,分类是重要的研究内容之一,其目的是构造一个分类模型,将数据集中的数据划分到给定类别中的某一个。由于传统的分类算法没有考虑数据的非平衡性,使得其在处理非平衡数据分类问题上面临着巨大的挑战。例如在医疗诊断、欺诈电话检测等问题中,关注的事件在所有数据记录中占比都极小,但是将其错误分类却会带来无法估量的代价。在非平衡数据中对少数类的正确分类往往比多数类更重要,如何对非平衡数据集进行正确分类,提高少数类的分类准确率成为分类问题中研究的重点。目前,非平衡数据分类问题在理论和实践上都受到高度重视。很多针对非平衡数据的分类算法从不同的处理角度被提出。非平衡数据集分类问题的研究方法主要包括算法改进和数据集重构两类。数据层面通常使用的方法有过采样和欠采样方法,但使用单一的采样算法可能造成少数类样本过拟合或者丢失含有重要信息的样本。因此,本文针对基于混合采样的非平衡数据分类算法进行了深入的研究,主要内容包括以下两个方面:(1)提出了一种基于分类超平面的混合采样算法。该算法旨在克服SVM算法在处理非平衡数据时分类超平面容易偏向少数类样本的问题。首先利用SVM算法得到分类超平面;然后迭代进行混合采样,主要包括:删除离分类超平面较远的一些多数类样本;对靠近真实类边界的少数类样本用SMOTE过采样,使分类超平面向着真实类边界方向偏移。实验结果表明该算法相比其他相关算法在F-value值和G-mean值均有较大提高。(2)提出了一种基于近邻分布的混合采样算法。该算法通过改变样本的分布来平衡少数类与多数类样本的数量。在利用Borderline-SMOTE算法构造新样本时,对边界样本的k个近邻的重要度作出判断,优先选择适于进行新样本生成的近邻,从而更精确的生成少数类样本;同时,利用基于距离的欠采样方法删除一些贡献度较小的多数类样本,构造出一个较为平衡的新的数据样本集合。实验结果表明该算法相比其他相关算法在F-value值和G-mean值均有较大提高。本文从数据层面的角度出发,针对单一的采样算法可能存在的问题,提出了两种基于混合采样的非平衡数据分类算法,提升了少数类样本的分类精度,为非平衡数据分析提供了技术支撑。(本文来源于《山西大学》期刊2019-06-01)

焦江丽,张雪英,李凤莲,牛壮[7](2019)在《同分布强化学习优化多决策树及其在非平衡数据集中的应用》一文中研究指出针对传统决策树在非平衡数据集分类时少数类预测性能出现偏差的问题,提出一种基于强化学习累积回报的属性优化策略即改进型同分布多决策树方法。首先通过同分布随机抽样法对非平衡数据集中的多数类样本进行随机采样,进而对各子集建立单决策树形成多个决策树,各决策树采用分类回归树算法建树,并利用强化学习累积回报机制进行属性选择策略的优化。研究结果表明:提出的基于强化学习累积回报机制的属性优化策略可有效提高少数类被正确分类的概率;同分布多决策树方法可有效提高非平衡数据集整体预测性能,且正类率和负类率的几何平均值都有所提高。(本文来源于《中南大学学报(自然科学版)》期刊2019年05期)

谢艳晴[8](2019)在《基于非平衡数据集的贷款违规预测研究》一文中研究指出互联网金融个人信用贷款方面,评估用户的信用良好度,并且分配合适的产品给用户,进行反欺诈,以及减少呆账的产生等问题都可以通过数据跟踪来进行处理。在商业分析中,收益和风险是成正比的,综合考虑盈利最大化来进行风险定价。通过规则和建模可以量化一个客户的信用好坏,然而在实际应用中,不仅面临着数据量大且维度高的现状,同样也面临着数据不平衡的现状,因为逾期客户数量相较非逾期客户数量总是少数的,那么在建模的过程中需要考虑到这些问题对模型可信度的影响。很多传统算法会偏向于多数类,例如最近邻算法KNN,在最后决策的时候是以少数服从多数的策略,存在误判,致使样本量本来就少的类别被正确识别出来的概率变得更低。这类非平衡数据预测使用模型精确度Accuracy来衡量模型好坏也就不适用了。其次,从互联网上获得的用户消费信息、运营商信息、多平台上的借贷信息等数据的维度众多,高维度的数据预测中做好特征选择也很重要。本文针对互联网金融数据的非平衡和维度高这两个方面进行处理,重点研究了从数据层面和算法层面对非平衡数据集的处理方式,使用Python基于Kaggle竞赛平台GiveMeSomeCredit竞赛的数据集(非平衡的数据集)进行实验分析,明确多种非平衡数据处理方式的优缺点,进而选取适用于互联网金融贷款逾期预测的非平衡数据集处理方式。基于某互联网金融公司举办的竞赛数据作为实验数据,进行业务理解、数据预处理、特征筛选及衍生、建模和评估。提出了一种逾期预测模型框架,完整的按照数据挖掘标准流程CRISP-DM来进行实践,结合特征筛选,将具有Boostng和Bagging思想的多种算法结合使用,最后进行模型融合。框架使用LightGBM、XGBoost对全量数据进行训练及调参得到模型。然后使用叁种方式对高维数据进行特征选择之后,分别使用CatBoost以及具有平衡样本并进行分类的算法进行模型训练,最后对得到的各模型按照逻辑回归的方式进行模型融合来提高对少数类的预测能力。实验结果证明对高维非平衡数据进行筛选之后进行平衡化处理的思想以及模型融合的思想适用于互联网金融信用风险逾期预测,能提高对少数类的识别能力。(本文来源于《长江大学》期刊2019-05-01)

沈矗[9](2019)在《基于生成模型的非平衡数据分类方法及其应用研究》一文中研究指出在机器学习和数据挖掘领域,传统的分类算法都是针对处理平衡数据而设计的。然而,在许多实际应用中要处理的数据都是非平衡的。例如,用于垃圾邮件过滤、信用卡欺诈检测和软件缺陷预测等的数据都是非平衡数据。当用传统的分类算法解决非平衡数据分类问题时,分类算法的泛化性能会显着下降。如何解决非平衡数据分类问题是一个具有挑战性的研究内容,具有重要的理论和应用价值。根据处理数据中类别数,非平衡数据分类问题可分为两类非平衡分类和多类非平衡分类两种,本文研究两类非平衡分类问题。基于生成模型,提出了两种解决两类非平衡分类问题的方法。具体地,本文的主要工作包括以下4点:1.提出了基于极限学习机自动编码器的两类非平衡数据分类方法。该方法包括叁步:(1)以少数类(少数类也称为正类,多数类称为负类)样例作为种子,用极限学习机自动编码器生成与少数类样例相似但不相同的新样例,以增加少数类样例的数量;(2)重复步骤(1)多次,以改变非平衡数据的分布,构造平衡的训练集;(3)在平衡的训练集上训练分类器,并对未见数据进行分类。2.对于严重非平衡数据,利用极限学习机自动编码器对少数类样例进行多次上采样,会出现采样的样例密集分布的情况。在这种情况下,无法有效提高分类器的性能。针对这一问题,提出了基于Bagging集成学习的两类非平衡数据分类方法。该方法也包括叁步:(1)用极限学习机自动编码器进行若干次少数类样例上采样;(2)以上采样后的少数类样例为基准,用Bagging方法从多数类样例中随机抽样与少数类样例等量的样例,构造多个平衡的训练集;(3)在多个平衡的训练集上训练多个分类器,用多数投票法对未见数据进行分类。3.提出了基于生成对抗式网络的两类非平衡数据分类方法。该方法分为叁步:(1)利用少数类样例训练生成对抗式网络;(2)用训练好的生成对抗式网络的生成器生成少数类样例,以改变非平衡数据的分布,构造平衡的训练集;(3)在平衡的训练集上训练分类器,并对未见数据进行分类。4.将本文提出的方法应用于软件缺陷预测和肝功能五项检测,在7个软件缺陷数据集对本文提出的方法进行了实验研究,与多种相关方法在多个评价指标上进行实验比较,实验结果证明了本文提出的方法的可行性与有效性。(本文来源于《河北大学》期刊2019-05-01)

赵锦阳,卢会国,蒋娟萍,袁培培,柳学丽[10](2019)在《一种非平衡数据分类的过采样随机森林算法》一文中研究指出在灾害天气、故障诊断、网络攻击和金融欺诈等领域经常存在不平衡的数据集。针对随机森林算法在非平衡数据集上表现的分类性能差的问题,提出一种新的过采样方法:SCSMOTE(Seed Center Synthetic Minority Over-sampling Technique)算法。该算法的关键是在数据集的少数类样本中找出合适的候选样本,计算出候选样本的中心,在候选样本与样本中心之间产生新的少数类样本,实现了对合成少数类样本质量的控制。结合SCSMOTE算法与随机森林算法来处理非平衡数据集,通过在UCI数据集上对比实验结果表明,该算法有效提高了随机森林在非平衡数据集上的分类性能。(本文来源于《计算机应用与软件》期刊2019年04期)

非平衡数据论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

为保证交通检测数据的准确性并服务于实时的交通状态判别和预测,交通大数据采用多种检测源数据协同处理并利用机器学习的方法进行异常识别.异常检测数据的识别主要基于机器学习中AdaBoost方法实现.在算法的训练过程中,为消除单一检测源数据的离群现象,训练数据选取同一路段上多种检测源提供的数据集.在算法的决策过程中,通过代价敏感方法的优势来改进AdaBoost的决策.实验结果表明:基于非均衡特性改进的AdaBoost模型迫使分类器更加关注了待识别的异常样本,增强了AdaBoost决策过程中训练决策树规则的代表性,提高了异常类样本的分类准确率.高速公路实例检测数据集验证了改进算法与相关经典算法的检测准确度、误检率、误警率等指标,其中改进模型与原模型相比,准确率提高了5.547%,误检率减低了6.792%.多种算法的ROC曲线对比表明改进的AdaBoost方法筛选交通检测样本的可靠度更高,可有效调整由非平衡数据导致的分类误差.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

非平衡数据论文参考文献

[1].魏鑫,张雪英,李凤莲,胡风云,贾文辉.面向非平衡数据集分类的改进模糊支持向量机[J].计算机工程与设计.2019

[2].邢雪,于德新,周户星,田秀娟.多源非平衡交通检测数据的异常识别方法[J].哈尔滨工业大学学报.2019

[3].石娟.最低工资标准提升对和谐劳动关系构建的影响——基于省际(非平衡)面板数据的分析[J].湖北理工学院学报(人文社会科学版).2019

[4].秦洪军,孙龙建,黄波,赵璐月.我国商业银行经营绩效影响因素的实证研究——基于16家上市商业银行季度非平衡面板数据的分析[J].贵州商学院学报.2019

[5].郭婷,王杰,刘全明,梁吉业.基于识别关键样本点的非平衡数据核SVM算法[J].模式识别与人工智能.2019

[6].吴艺凡.基于混合采样的非平衡数据分类算法研究[D].山西大学.2019

[7].焦江丽,张雪英,李凤莲,牛壮.同分布强化学习优化多决策树及其在非平衡数据集中的应用[J].中南大学学报(自然科学版).2019

[8].谢艳晴.基于非平衡数据集的贷款违规预测研究[D].长江大学.2019

[9].沈矗.基于生成模型的非平衡数据分类方法及其应用研究[D].河北大学.2019

[10].赵锦阳,卢会国,蒋娟萍,袁培培,柳学丽.一种非平衡数据分类的过采样随机森林算法[J].计算机应用与软件.2019

论文知识图

年4、5月Queensland地区电价水平...1 非平衡数据集分类学习框架非平衡数据集的分类超平面2 数据集复杂度研究4 结束语非平衡数据举例4非平衡数据集的空间分布Fig....

标签:;  ;  ;  ;  ;  ;  ;  

非平衡数据论文_魏鑫,张雪英,李凤莲,胡风云,贾文辉
下载Doc文档

猜你喜欢