导读:本文包含了流分类论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:数据流,概念,数据,近邻,吞吐量,分布式,增量。
流分类论文文献综述
孙艳歌,邵罕,杨艳聪[1](2019)在《基于代价敏感不平衡数据流分类算法》一文中研究指出在数据流分类学习过程中,类不平衡和概念漂移是两大挑战问题.在分析传统特征选择算法和代价敏感学习方法的基础上,将代价敏感学习算法的思想引入特征选择算法中,设计并实现了一种基于代价敏感的Relief F剪枝的数据流分类算法,不仅能删除冗余的特征,而且适应动态变化的数据流环境.与经典的算法进行分析比较,结果表明所提算法可显着提升分类效果.(本文来源于《信阳师范学院学报(自然科学版)》期刊2019年04期)
孙艳歌[2](2019)在《概念漂移数据流分类算法研究》一文中研究指出数据流分类问题是数据挖掘领域中重要的研究方向之一,其主要特征为数据序列以流的形式不断地产生,如传感器网络异常检测、信用卡欺诈行为监测、天气预报和电价预测等实际问题中,新的数据序列都以快速、实时、连续的形式不断地到达.存在于数据流中的核心问题之一是数据流中往往存在概念漂移现象,即数据分布会随着时间的推移而发生改变.这种数据分布的不稳定特性大大影响了分类模型的性能和更新代价.在概念漂移数据流环境中,概念经过一段时间之后可能重复出现,这种概念重现现象导致算法不断地在相同的概念上学习新模型,浪费模型训练时间甚至降低其总体性能.另外,数据类分布不平衡以及实例属于多标签等问题也影响着模型在概念漂移数据流上的分类性能,其中前者期望模型能更准确预测少数类实例,而后者期望模型能准确预测实例所属的标签集合.针对以上问题,本文在深入分析包含概念漂移的数据流特性及相关理论的基础上,研究并提出新的面向概念漂移数据流问题的分类算法.主要贡献和创新点如下.(1)提出一种基于自适应滑动窗口的数据流集成算法(AWDE).不同于传统集成算法,AWDE使用自适应滑动窗口检测方法为每个基分类器自适应地构建相应训练数据集,具体过程如下:首先,使用自适应滑动窗口检测算法显式地捕获概念漂移;然后,根据捕获的概念漂移信息,选择滑动窗口中的部分数据构建基分类器,解决基于数据块集成对块大小依赖的问题;最后,通过兼顾准确率和差异性的指标监督基分类器选择和加权,以提升分类器的泛化能力.实验结果表明,AWDE能有效地解决多种类型概念漂移问题,在保证较高分类准确率前提下,有效地减少模型的训练时间及内存消耗.(2)提出一种基于概念转移图模型的重复概念发现算法(RDP).与传统数据流分类算法不同,所提出的图模型中每个结点存储一个基分类器(历史概念),边上的权重能有效反映概念的重复性问题.在学习阶段,采用基于Jensen-Shannon散度的检测方法来发现概念漂移和重复概念,并以此来指导图模型的更新;在预测阶段,根据建立的图模型,采用单分类器或者集成方式预测未知实例.此外,为了加速概念转移图模型的学习效率和压缩图模型的存储空间,采用基于对称不确定性的特征选择方法对数据进行预处理.在人工合成和真实数据集的实验结果表明,较之于传统面向重复概念发现的算法,RDP在保持更优分类性能的前提下,大幅度降低模型训练、更新及预测时间.(3)提出一种基于双重代价敏感的概念漂移数据流分类算法(TSCS).与方法(1)和(2)不同,TSCS用于解决概念漂移数据流环境下的类不平衡问题,其训练过程包含两个阶段:预处理阶段和模型构建阶段.在预处理阶段,TSCS采用基于代价敏感的特征选择策略,选择能有效平衡样本分布的特征子集空间;在模型构建阶段,若有概念漂移现象,在特征子空间中学习一个新的基分类器,则搜索并置换集成分类器中最差的分类器.在预测过程中,TSCS采用基于代价敏感加权的集成方式对未知类别的实例进行预测.与已有算法相比,TSCS能够在人工合成及真实的类不平衡概念漂移数据流上取得更好的分类效果.(4)提出一种基于多标签划分和依赖关系的概念漂移数据流分类算法(LPLDC).该算法主要用于解决概念漂移数据流中实例属于多个标签的问题,其基本思想是:在模型训练过程中,将原始较大的标签集随机地划分为多个互不相交的标签子集,并使用概率分类器链算法在每个标签子集上训练一个分类器;当发生概念漂移时,根据每个基分类器在最新数据块上的性能更新相应权值,并采用动态加权策略预测待分类实例.随机划分标签集的作用是充分利用标签间依赖关系并降低概率分类器链的学习时间复杂度;同时,在算法中嵌入了自适应滑动窗口检测算法来处理概念漂移.实验结果表明,LPLDC在大多数数据集上能够更有效地预测实例的标签集合,且更适合概念漂移的环境.本文研究工作针对数据流学习过程中亟待解决的问题,提出一系列行之有效的解决方案,构造更加完善的概念漂移数据流学习模式.所提方案在保持算法的分类效率同时,降低了时空开销,提升了算法的概念漂移适应能力,从而为概念漂移的理论研究和实用化,提供新的研究思路和理论依据.(本文来源于《北京交通大学》期刊2019-09-01)
周胜,刘叁民[3](2019)在《基于多源迁移学习的数据流分类研究》一文中研究指出为解决数据流分类中概念漂移和噪声问题,提出一种基于互近邻的多源迁移学习方法。该方法存储多源领域上训练得到的分类器,求出目标领域数据块中每个样本的互近邻样本集合,然后计算源领域分类器对目标领域数据块中每个样本的互近邻样本集合的局部分类精度,最后将局部分类精度最高的源领域分类器和目标领域分类器进行加权集成,从而将多个源领域的知识迁移到目标领域。在仿真数据集上的实验结果表明,该方法能够有效避免伪近邻现象,与基于K-近邻的多源在线迁移学习方法相比,具有更好的分类准确率和抗噪稳定性。(本文来源于《四川理工学院学报(自然科学版)》期刊2019年04期)
袁泉,郭江帆,赵学华[4](2019)在《一种基于集成的不均衡数据流分类算法》一文中研究指出目前数据流分类算法大多是基于类分布这一理想状态,然而在真实数据流环境中数据分布往往是不均衡的,并且数据流中往往伴随着概念漂移。针对数据流中的不均衡问题和概念漂移问题,提出了一种新的基于集成学习的不均衡数据流分类算法。首先为了解决数据流的不均衡问题,在训练模型前加入混合采样方法平衡数据集,然后采用基分类器加权和淘汰策略处理概念漂移问题,从而提高分类器的分类性能。最后与经典数据流分类算法在人工数据集和真实数据集上进行对比实验,实验结果表明,本文提出的算法在含有概念漂移和不均衡的数据流环境中,其整体分类性能优于其他算法的。(本文来源于《计算机工程与科学》期刊2019年08期)
范慧敏[5](2019)在《基于贝叶斯网络的动态数据流分类研究》一文中研究指出随着大数据时代的到来,在线数据大幅增加,实时挖掘海量数据流已成为机器学习领域面临的一大挑战。在线学习方法通过对数据的逐条处理,并利用增量式更新模型的方法实现了海量数据的实时处理,受到了研究人员的广泛关注。朴素贝叶斯作为一种在线学习方法,简单高效且有坚实的理论基础,被用来解决数据流分类问题,但当数据流中出现概念漂移时,会严重影响其分类性能。同时,其属性条件独立假设要求在现实应用中通常无法满足。基于以上问题,本文以朴素贝叶斯算法为基础,做改进研究:(1)为解决分类中特征空间维度过高的问题以及朴素贝叶斯算法属性条件独立假设的不足,提出了一种基于信息论的属性选择分类框架。通过分析Jeffreys散度与贝叶斯分类器Ⅰ型和Ⅱ型错误相关性质,针对Jeffreys散度在多元分布下的局限性,引入衡量多分布差异的Multi-Jeffreys-Hypothesis(MJH)度量,提出基于MJH的选择性朴素贝叶斯分类算法。实验结果表明了算法的良好分类效果与收敛性。(2)针对朴素贝叶斯分类器没有检测与处理概念漂移的机制,无法处理非静止情况下的流式数据分类。本文提出一种基于遗忘机制的加权朴素贝叶斯算法。通过遗忘机制对实例加权,随着时间推移实现权重逐渐衰减,使原本的朴素贝叶斯分类器能自动、迅速地适应数据变化,达到解决概念漂移问题的目的。实验结果证明了该算法的有效性。(3)在概念漂移的情况下,基于历史知识和当前知识存在相关性的假设,分析集成学习方法的优越性,提出基于知识迁移的集成学习算法。通过知识迁移的模式,在提取历史.模型中有用知识的同时,去除其中与最新数据分布不同的知识,得到新的历史模型。将迁移后的历史模型与最新数据所得模型进行加权融合。仿真和真实数据上的实验结果表明了基于知识迁移的集成学习算法能够充分发挥集成学习的优势,有效解决数据流分类中的概念漂移问题。(本文来源于《西安理工大学》期刊2019-06-30)
周胜,刘叁民[6](2019)在《基于迁移学习的数据流分类研究综述》一文中研究指出数据流分类作为数据挖掘领域中的一个重要分支,能够获取数据流中有价值的信息,已成为当下研究热点之一.由于数据流固有特性导致传统的数据流分类方法面临较多难题,如样本标注和概念漂移等.本文分析了增量式和集成式的数据流传统分类方法的优缺点,在此基础上阐述迁移学习在数据流分类中的可行性和当前的研究进展,归纳出基于迁移学习的数据流分类研究的主要关键问题,指出进一步研究方向.(本文来源于《天津理工大学学报》期刊2019年03期)
张伟天,王海凤,张伟东[7](2019)在《拥塞等级与流分类结合的数据中心拥塞控制算法研究》一文中研究指出数据中心具有高带宽低延时的特点,内部网络多采用多对一的树型拓扑结构.当多个请求并发传输时,就会造成交换机缓存溢出而丢包的现象.通常,这种拥塞导致的吞吐量下降问题叫做"TCP Incast"问题.针对这一问题,本文基于NS2仿真平台,对显式拥塞反馈机制ECN进行修改,将网络拥塞程度划分为低拥塞、中拥塞和高拥塞叁个等级,每个等级再结合数据流特点将其划分为大流和小流,这样数据中心的网络拥塞状态被分为六种类型.提出了一种拥塞等级与流分类结合的算法(FCCL-TCP),经过仿真,发现新的算法在吞吐量方面的表现要优于传统的Tahoe算法和DCTCP算法.(本文来源于《内蒙古工业大学学报(自然科学版)》期刊2019年03期)
张新淼[8](2019)在《动态增量式数据流分类挖掘仿真研究》一文中研究指出针对当前方法对动态增量式数据流进行分类时,不能有效的去除动态增量式数据流中存在的噪声和概念漂移,且分类存在去噪性能差和分类效率低的问题,提出一种动态增量式数据流分类挖掘方法,通过设置阈值在Hoeffding Bounds不等式的基础上去除动态增量式数据流中存在的概念漂移和噪声。采用网格划分方法将动态增量式数据空间划分为多个网格,通过动态增量式数据流密度与网格密度之间的相似度,将动态增量式数据划分到对应密度的网格中,完成动态增量式数据流的分类。仿真结果表明,所提方法的去噪性能好、分类效率高。(本文来源于《计算机仿真》期刊2019年05期)
王磊[9](2019)在《基于分布式大数据流分类的电网设备风险辨识模型研究》一文中研究指出由于近年来智能电网的高度发展,使得电网规模不断增加且愈加复杂,这使得对电网中输变电设备的检修与维护变得更加困难。然而为达到保障电网稳定运行,提高电能质量,降低检修成本的要求,需要对电网设备的健康状态和工作年限进一步升级改善。同时在电力系统中的风险由电网的故障和异常组成,因此实现对电网设备风险的辨识就等价于对电网设备中故障和异常的准确判断。然而随着信息采集与传输技术在电力系统中的大量应用,电网中对各个设备的在线监测系统不断完善,因此形成了大量隐含着电网设备异常信息的数据流。本文从数据流处理的角度出发,为解决针对电网设备风险的实时检测问题,进行了以下研究。针对电网设备在线监测数据流的清洗问题,本文提出了基于关联规则的电网设备数据流清洗方法。此方法利用关联规则分析数据流中各个序列的关联强度,提出异常数据检测算法来辨识异常数据,并结合改进后的小波神经网络来完成对数据流的清洗。其中根据各个序列间的关联关系,结合基于滑动窗口的异常数据筛选算法来辨识,数据流内的不良数据,通过改进后的小波神经网络对此数据进行清洗。经过实验证明此方法能够有效甄别出不良数据与由设备异常引起的故障数据,且改进后的小波神经网络具有较好的清洗效果。为解决电网设备异常的实时检测问题,本文基于上述数据清洗算法,提出基于分布式处理的数据流分类模型,为实现对电网数据流的分布式处理,设计了局部节点挖掘方法,与基于不平数据流分类的全局挖掘模式。因此本文在第四章分析了为实现对电网设备数据流的分类,需要构建基于分布式处理的数据流分类模型,然后选取相应数据序列并进行格式化抽象,设计此模型下的局部节点挖掘方法与全局挖掘模式。在局部节点挖掘器中通过对当前数据块的获取,实现块到块的挖掘策略。同时,结合聚类算法完成对局部挖掘模式的表达与实时维护,进而提高各个节点间信息的传输速率,并保证整体分类算法的时效性。针对电网设备数据流中各个类别数据分布不平衡的问题,本文在全局挖掘模式中提出基于不平衡数据流的集成分类算法。该方法首先在中心节点接收到各个局部节点传过来的微簇。然后,为对集成分类器中的基础分类器进行训练更新,提出了基于微簇的学习样本还原算法。利用还原后的数据与经过数据清洗后的异常数据集构建训练数据块,为提高分类器对电网设备风险类别的辨识精度。设计了选择性重采样机制,来平衡当前数据块中各个类别的分布,进而避免对小类别数据识别效率低下的问题。同时,为降低概念漂移给分类器精度带来的影响,针对全局挖掘模式中的集成分类器进行周期性的增量式更新,并在更新分类器时将被一个基础分类器正确预测的样本淘汰,不在用其训练其他基础分类器,以提高集成分类多样性,继而实现对概念漂移的适应。到此完成了全局挖掘模式的任务,并结合局部挖掘模式,实现了对基于分布式的大数据流分类模式的构建。以解决对电网设备风险的实时辨识问题。最后从分类模型的性能,以及对不平衡数据流与概念漂移数据流的分类效果上进行实例验证,结果验证了本文所提方法的有效性。(本文来源于《东北电力大学》期刊2019-05-01)
季梦遥,袁磊[10](2019)在《带重现概念漂移的不平衡数据流分类研究》一文中研究指出数据流广泛存在于现实应用中,重现概念漂移和数据分布不平衡性是其重要特性,它们会导致传统数据流分类器负偏离、性能下降及学习时间倍增。针对重现概念漂移和数据分布不平衡的特点,本文提出重现概念漂移不平衡数据流的随机平衡采样集成分类算法(RBSRISEA),首先用随机平衡采样算法重新平衡数据分布,之后对预处理的数据流再进行重现概念漂移探测。实验表明,RBSRISEA对重现概念漂移有较强的敏感性和泛化能力。RBSRISEA可以处理带重现概念漂移的不平衡数据流分类问题。(本文来源于《贵州大学学报(自然科学版)》期刊2019年03期)
流分类论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
数据流分类问题是数据挖掘领域中重要的研究方向之一,其主要特征为数据序列以流的形式不断地产生,如传感器网络异常检测、信用卡欺诈行为监测、天气预报和电价预测等实际问题中,新的数据序列都以快速、实时、连续的形式不断地到达.存在于数据流中的核心问题之一是数据流中往往存在概念漂移现象,即数据分布会随着时间的推移而发生改变.这种数据分布的不稳定特性大大影响了分类模型的性能和更新代价.在概念漂移数据流环境中,概念经过一段时间之后可能重复出现,这种概念重现现象导致算法不断地在相同的概念上学习新模型,浪费模型训练时间甚至降低其总体性能.另外,数据类分布不平衡以及实例属于多标签等问题也影响着模型在概念漂移数据流上的分类性能,其中前者期望模型能更准确预测少数类实例,而后者期望模型能准确预测实例所属的标签集合.针对以上问题,本文在深入分析包含概念漂移的数据流特性及相关理论的基础上,研究并提出新的面向概念漂移数据流问题的分类算法.主要贡献和创新点如下.(1)提出一种基于自适应滑动窗口的数据流集成算法(AWDE).不同于传统集成算法,AWDE使用自适应滑动窗口检测方法为每个基分类器自适应地构建相应训练数据集,具体过程如下:首先,使用自适应滑动窗口检测算法显式地捕获概念漂移;然后,根据捕获的概念漂移信息,选择滑动窗口中的部分数据构建基分类器,解决基于数据块集成对块大小依赖的问题;最后,通过兼顾准确率和差异性的指标监督基分类器选择和加权,以提升分类器的泛化能力.实验结果表明,AWDE能有效地解决多种类型概念漂移问题,在保证较高分类准确率前提下,有效地减少模型的训练时间及内存消耗.(2)提出一种基于概念转移图模型的重复概念发现算法(RDP).与传统数据流分类算法不同,所提出的图模型中每个结点存储一个基分类器(历史概念),边上的权重能有效反映概念的重复性问题.在学习阶段,采用基于Jensen-Shannon散度的检测方法来发现概念漂移和重复概念,并以此来指导图模型的更新;在预测阶段,根据建立的图模型,采用单分类器或者集成方式预测未知实例.此外,为了加速概念转移图模型的学习效率和压缩图模型的存储空间,采用基于对称不确定性的特征选择方法对数据进行预处理.在人工合成和真实数据集的实验结果表明,较之于传统面向重复概念发现的算法,RDP在保持更优分类性能的前提下,大幅度降低模型训练、更新及预测时间.(3)提出一种基于双重代价敏感的概念漂移数据流分类算法(TSCS).与方法(1)和(2)不同,TSCS用于解决概念漂移数据流环境下的类不平衡问题,其训练过程包含两个阶段:预处理阶段和模型构建阶段.在预处理阶段,TSCS采用基于代价敏感的特征选择策略,选择能有效平衡样本分布的特征子集空间;在模型构建阶段,若有概念漂移现象,在特征子空间中学习一个新的基分类器,则搜索并置换集成分类器中最差的分类器.在预测过程中,TSCS采用基于代价敏感加权的集成方式对未知类别的实例进行预测.与已有算法相比,TSCS能够在人工合成及真实的类不平衡概念漂移数据流上取得更好的分类效果.(4)提出一种基于多标签划分和依赖关系的概念漂移数据流分类算法(LPLDC).该算法主要用于解决概念漂移数据流中实例属于多个标签的问题,其基本思想是:在模型训练过程中,将原始较大的标签集随机地划分为多个互不相交的标签子集,并使用概率分类器链算法在每个标签子集上训练一个分类器;当发生概念漂移时,根据每个基分类器在最新数据块上的性能更新相应权值,并采用动态加权策略预测待分类实例.随机划分标签集的作用是充分利用标签间依赖关系并降低概率分类器链的学习时间复杂度;同时,在算法中嵌入了自适应滑动窗口检测算法来处理概念漂移.实验结果表明,LPLDC在大多数数据集上能够更有效地预测实例的标签集合,且更适合概念漂移的环境.本文研究工作针对数据流学习过程中亟待解决的问题,提出一系列行之有效的解决方案,构造更加完善的概念漂移数据流学习模式.所提方案在保持算法的分类效率同时,降低了时空开销,提升了算法的概念漂移适应能力,从而为概念漂移的理论研究和实用化,提供新的研究思路和理论依据.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
流分类论文参考文献
[1].孙艳歌,邵罕,杨艳聪.基于代价敏感不平衡数据流分类算法[J].信阳师范学院学报(自然科学版).2019
[2].孙艳歌.概念漂移数据流分类算法研究[D].北京交通大学.2019
[3].周胜,刘叁民.基于多源迁移学习的数据流分类研究[J].四川理工学院学报(自然科学版).2019
[4].袁泉,郭江帆,赵学华.一种基于集成的不均衡数据流分类算法[J].计算机工程与科学.2019
[5].范慧敏.基于贝叶斯网络的动态数据流分类研究[D].西安理工大学.2019
[6].周胜,刘叁民.基于迁移学习的数据流分类研究综述[J].天津理工大学学报.2019
[7].张伟天,王海凤,张伟东.拥塞等级与流分类结合的数据中心拥塞控制算法研究[J].内蒙古工业大学学报(自然科学版).2019
[8].张新淼.动态增量式数据流分类挖掘仿真研究[J].计算机仿真.2019
[9].王磊.基于分布式大数据流分类的电网设备风险辨识模型研究[D].东北电力大学.2019
[10].季梦遥,袁磊.带重现概念漂移的不平衡数据流分类研究[J].贵州大学学报(自然科学版).2019