导读:本文包含了过采样论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:变分法,噪声,数据,不平衡,样本,算法,模型。
过采样论文文献综述
杨超[1](2019)在《通信信号处理中的过采样技术应用探究》一文中研究指出在通信信号处理过程中合理应用过采样技术,能够使得信号带有一定循环平稳性。相比较于不带有这一特性的信号处理而言,这类信号处理起来会更加的简单。由此可见,对于通信信号处理来说,过采样技术十分重要。为此,本文主要针对通信信号处理中的过采样技术应用进行了详细分析,希望能够为相关人员提供帮助。(本文来源于《数码世界》期刊2019年11期)
徐宝昌,白振轩,王雅欣,袁力坤[2](2019)在《基于过采样结构的贝叶斯鲁棒辨识方法》一文中研究指出在实际工业过程中,异常值的干扰是不可避免的,现有的处理异常值方法会导致模型估计有偏差,并且没有考虑潜在异常值的影响。针对上述缺点,利用学生分布噪声来处理潜在异常值,提出一种适用于学生分布噪声情况的贝叶斯鲁棒辨识方法,并且将其与过采样结构相结合,推出了基于过采样结构的贝叶斯鲁棒辨识方法。仿真实验表明:本文提出的算法,随着异常值影响的增加,仍然保持较小的辨识误差,而传统辨识方法已不再适用,同时,还克服了传统结构需添加额外测试信号所带来的巨额成本。因此,本文的算法更适合于实际工业过程辨识。(本文来源于《化工学报》期刊2019年12期)
海玲[3](2019)在《OFDM系统中基于时域过采样的频率同步算法》一文中研究指出针对正交频分复用OFDM(Orthogonal Frequency Division Multiplexing)系统对频率偏移极其敏感的问题,研究了基于训练序列的Schmidl频偏估计算法,提出了一种基于时域过采样的频率同步算法。通过软件仿真,得出结论,提出的算法在信噪比高的情况下能基本不失真的复原发端数据,在信噪比低的情况下优势非常明显,发送端发送的原始数据能够被很好地复原出来,同时该算法在频率资源利用率方面,在信号传输速率方面,都比原有算法有所提高,在现实中实现方便。(本文来源于《软件工程》期刊2019年08期)
张思佳[4](2019)在《过采样技术在通信信号处理中的应用探讨》一文中研究指出过采样技术指的是通过使用远大于Nyquist采样频率对输入信号进行采样。简单来说是通过使用过采样技术对原有传播信号内的噪声进行降噪处理,通过使用这种过采样技术可以对已知宽带内的有用信息进行提取,降低噪声对这部分有用信息的干扰。生活水平的不断提升,信息传输所起到的推动作用不可或缺。而受到我国经济发展水平的限制,导致我国通信信号传输过程中存在一定的问题,未来技术发展在信号传输与处理上还有较大的发展空间。(本文来源于《中国新通信》期刊2019年14期)
白振轩,徐宝昌,陈贺龙,马超[5](2019)在《基于过采样结构的贝叶斯辨识方法》一文中研究指出将过采样闭环结构与贝叶斯变分法相结合,推导出基于过采样闭环结构的递推贝叶斯变分法,并且通过分析过采样闭环结构估计模型的渐近方差表达式,得出过采样结构可以利用超出模型频带之外的高频信息减小辨识模型的误差。仿真结果表明:基于过采样结构的贝叶斯变分法在输出噪声仅为白噪声情况下,相较于传统辨识方法具有更高的辨识精度。当输出噪声受到尖峰噪声或脉冲噪声污染时,笔者方法能够利用外加噪声中含有的高频信息提高辨识精度。(本文来源于《化工自动化及仪表》期刊2019年06期)
张扬帆[6](2019)在《基于过采样技术的不平衡数据分类研究》一文中研究指出随着计算机技术的快速发展尤其是计算机硬件设备的进步,海量数据集存储和处理技术已经融入各行各业,其中数据挖掘是行业中常用的数据处理技术,其通过数据处理和模型构建为决策者提供更多的决策信息。在使用数据挖掘处理数据和构建模型的过程中,经常会遇到不平衡分类问题,即在分类问题中某些类的样本数量多于其它类的样本数量。然而传统的分类算法假设数据分布是大致平衡的,因此在处理不平衡数据集时难以有良好的效果。本文针对不平衡数据的分类问题,对数据层面的改进方法做了深入研究。本文的主要工作如下:(1)对目前经典的过采样算法做了详细的介绍和分析。介绍了SMOTE,Boderline-SMOTE和ADASYN这叁种经典过采样算法的原理,针对每个算法的特点分析了其各自的优缺点。通过在多个数据集上的实验结果验证了以上分析。(2)为了增强分类边界同时减少噪声的生成,提出基于Lévy分布的过采样算法LOTE。该算法将Lévy分布融合到采样算法中,根据少数类样本所处的位置,利用Lévy分布设置新样本的密度分布。处于边界的样本对应Lévy分布的最高点,使得在边界合成的新样本密度最大,有利于增强分类边界。靠近多数类的样本对应Lévy分布斜率较小的位置,因此该处的新样本密度相对于边界样本略有减小,有利于减少噪声。由于靠近少数类的样本相对安全,因此其对应Lévy分布斜率较大的位置,此处的新样本密度相对于边界样本有较大减小,减少无效样本的生成。实验表明该算法可以有效地提高分类器的性能。(3)针对数据集线性不可分时采样算法容易生成噪声的问题,提出了基于核方法的过采样和LOTE结合的过采样算法(KLOTE)。基于核方法的过采样是将新样本的生成问题转化为数据集Gram矩阵的扩展问题,使得新样本的合成可以在特征空间进行。将LOTE算法和核方法结合,可以在特征空间中对少数类样本的位置进行判断,即判断样本是边界样本,靠近多数类的样本还是靠近少数类的样本,从而更准确地构造新样本的密度分布,充分发挥LOTE增强分类边界同时减少噪声生成的优势。通过实验说明该算法对分类器性能的提升优于其它算法。本文针对不平衡数据的分类问题,从过采样的角度做了改进,提出了LOTE算法和KLOTE算法,其中LOTE算法使用Lévy分布构造过采样中新样本的密度,相对于已有算法可以在增强分类边界的同时减少噪声的生成。KLOTE算法是LOTE算法在特征空间中的扩展,对于在原始输入空间线性不可分的数据集,该算法可以有效提升分类器的性能。(本文来源于《江南大学》期刊2019-06-01)
谢羽茜[7](2019)在《非平衡过采样方法及其在视频流量识别中的应用研究》一文中研究指出随着网络技术和应用的迅速发展,视频流量成为互联网中增长最快的流量类型,其占据了网络流量的大部分。快速增长的视频流量对互联网的管理造成了严峻的挑战。此外网络中充斥着大量不健康和非法的视频,这些视频严重危害人们的身心健康同时也扰乱了社会的稳定发展,因而从网络的角度对互联网中的视频流量进行有效的管理是一个迫切需要解决的问题。互联网中的视频流量是一种典型的非平衡数据,像色情和暴力的视频相对于正常的视频流量是比较少的,因此互联网视频流量的识别是一种非平衡问题。目前有很多不同的方法可以解决非平衡问题,其中数据层面的方法由于其独立于分类器的特性而受到广泛的关注,然而这些方法有一定的缺陷,它们只是简单的考虑局部近邻信息然后线性的生成数据,这会导致错误样本的生成。本文针对互联网视频流量的非平衡问题展开研究,建立了一个从基础数据的采集到视频流量识别方法的解决方案。在本文中首先提出了一种新的有效特征提取方法,即字节码分布(BCD),为互联网视频流量类型的识别做前期准备。BCD方法首先从视频流中计算每个字节码值(0到255)出现的次数,然后计算每个字节码出现的频率。这样256个比率就是提取的视频流量的特征。比起传统的包层面的特征,BCD特征包含了更多的视频类型信息,可以更加正确地识别。针对视频流量的非平衡问题,本文提出了一种新的数据层面的方法,即生成式学习(GL)。在GL中,采用高斯混合模型(GMM)来拟合原始数据的分布并基于此分布生成新数据。生成的数据包括合成的少数类和多数类,用于训练学习模型。相关实验结果表明,GL方法在与其他非平衡过采样方法对比中具有竞争力,并且Wilcoxon符号秩检验结果证明了所提出方法的显着优势。该方法以较高的AUC值成功的识别出非平衡互联网中的视频流量。为进一步提升非平衡互联网视频流量的识别效果,本文针对GL方法的不足,提出了另一种新的过采样方法,即高斯分布引导的过采样(GDGO)。在GDGO中,首先通过一个计数因素和一个距离因素加权少数类实例,然后通过概率选择机制选择锚点少数类实例,最后以锚点少数类为中心生成符合高斯分布的数据。相关实验结果表明,GDGO的性能高于其他对比的非平衡过采样方法,假设检验结果再一次验证了提出的方法对于解决非平衡问题的有效性。GDGO也进一步提高了非平衡互联网视频流量的识别。(本文来源于《济南大学》期刊2019-06-01)
王娇[8](2019)在《基于过采样方法的信用卡用户违约预测分析》一文中研究指出随着信用卡业务在全球范围内的迅速普及,信用风险也急剧扩张。大量信用卡用户违约行为的出现,给银行等金融机构带来了较大的损失。因此,对信用卡用户的信用风险进行预警,提前识别违约用户就变得尤为重要。它能够为银行等金融机构提供决策依据,帮助其制定合理的放贷策略,降低自身风险,促进自身健康发展。一般来说,信用卡数据集中各类别的分布是极度不平衡的,未违约人数占比较大,违约人数占比较小,传统的人工信用风险评估模型已不适用。本文将利用数据挖掘技术和机器学习方法,从数据和模型两个方面对信用卡数据集进行探索分析。本文使用的数据集来自Kaggle官网,为国外某银行2015年到2017年两年间信用卡用户的历史消费及违约记录,该样本集中的类别分布极度不均衡。首先,本文将分别采用SMOTE算法和ADASYN算法对数据集进行过采样处理,使得处理后数据集中的类别相对平衡,这样做的优点是不会损失样本中多数类的信息。然后基于过采样后的数据,分别建立逻辑回归、随机森林、神经网络、XGBoost预测模型,通过对各个模型的评价指标的对比,找到最优的预测模型,使得其能够最大限度的识别违约用户。最后通过对各个模型结果的分析,找到影响用卡用户出现违约行为的主要因素。(本文来源于《东北师范大学》期刊2019-05-01)
夏英,李刘杰,张旭,裴海英[9](2019)在《基于层次聚类的不平衡数据加权过采样方法》一文中研究指出不平衡数据对传统分类算法的性能有一定影响,使得少数类的识别率降低。过采样是处理不平衡数据集的常用方法之一,其主要思想是通过增加少数类样本,使得少数类与多数类的数量能够在一定程度上达到平衡,但现有的过采样方法存在合成重迭样本以及过拟合的问题。文中提出一种基于层次聚类的不平衡数据加权过采样方法WOHC(Weighted Oversampling method based on Hierarchical Clustering)。该方法首先使用层次聚类算法对少数类进行聚类,将少数类样本划分为多个类簇,然后计算出类簇的密度因子来确定各类簇的采样倍率,最后根据每个类簇中样本与多数类边界的距离确定采样权重。利用该方法采样并结合C4.5算法在多个数据集上进行分类实验,结果表明使用该方法能够使分类算法在F-measure和G-mean指标上分别提升7.6%和5.8%,体现了该方法的有效性。(本文来源于《计算机科学》期刊2019年04期)
赵锦阳,卢会国,蒋娟萍,袁培培,柳学丽[10](2019)在《一种非平衡数据分类的过采样随机森林算法》一文中研究指出在灾害天气、故障诊断、网络攻击和金融欺诈等领域经常存在不平衡的数据集。针对随机森林算法在非平衡数据集上表现的分类性能差的问题,提出一种新的过采样方法:SCSMOTE(Seed Center Synthetic Minority Over-sampling Technique)算法。该算法的关键是在数据集的少数类样本中找出合适的候选样本,计算出候选样本的中心,在候选样本与样本中心之间产生新的少数类样本,实现了对合成少数类样本质量的控制。结合SCSMOTE算法与随机森林算法来处理非平衡数据集,通过在UCI数据集上对比实验结果表明,该算法有效提高了随机森林在非平衡数据集上的分类性能。(本文来源于《计算机应用与软件》期刊2019年04期)
过采样论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
在实际工业过程中,异常值的干扰是不可避免的,现有的处理异常值方法会导致模型估计有偏差,并且没有考虑潜在异常值的影响。针对上述缺点,利用学生分布噪声来处理潜在异常值,提出一种适用于学生分布噪声情况的贝叶斯鲁棒辨识方法,并且将其与过采样结构相结合,推出了基于过采样结构的贝叶斯鲁棒辨识方法。仿真实验表明:本文提出的算法,随着异常值影响的增加,仍然保持较小的辨识误差,而传统辨识方法已不再适用,同时,还克服了传统结构需添加额外测试信号所带来的巨额成本。因此,本文的算法更适合于实际工业过程辨识。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
过采样论文参考文献
[1].杨超.通信信号处理中的过采样技术应用探究[J].数码世界.2019
[2].徐宝昌,白振轩,王雅欣,袁力坤.基于过采样结构的贝叶斯鲁棒辨识方法[J].化工学报.2019
[3].海玲.OFDM系统中基于时域过采样的频率同步算法[J].软件工程.2019
[4].张思佳.过采样技术在通信信号处理中的应用探讨[J].中国新通信.2019
[5].白振轩,徐宝昌,陈贺龙,马超.基于过采样结构的贝叶斯辨识方法[J].化工自动化及仪表.2019
[6].张扬帆.基于过采样技术的不平衡数据分类研究[D].江南大学.2019
[7].谢羽茜.非平衡过采样方法及其在视频流量识别中的应用研究[D].济南大学.2019
[8].王娇.基于过采样方法的信用卡用户违约预测分析[D].东北师范大学.2019
[9].夏英,李刘杰,张旭,裴海英.基于层次聚类的不平衡数据加权过采样方法[J].计算机科学.2019
[10].赵锦阳,卢会国,蒋娟萍,袁培培,柳学丽.一种非平衡数据分类的过采样随机森林算法[J].计算机应用与软件.2019