离群点论文_冯嘉琛,蔡江辉,杨海峰

导读:本文包含了离群点论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:算法,数据,协方差,属性,行列式,启发式,梯度。

离群点论文文献综述

冯嘉琛,蔡江辉,杨海峰[1](2019)在《一种改进隔离森林的快速离群点检测算法》一文中研究指出隔离森林(Isolation Forest)是一种相对高效的离群点检测算法,但在隔离树构建过程中存在的随机性较大,可能影响算法性能.针对以上问题,本文提出了一种基于隔离森林的快速离群点检测算法.该算法首先通过启发式方法选择隔离树样本,即引入判断条件来确定是否构建隔离树;然后,在建树过程中选取特定的切割点把数据插入到相应的叶子节点,以减少随机选择对算法性能的影响;最后,将若干隔离树组成隔离森林,计算被隔离出的每个叶子节点的离群程度s,选取若干个离群程度较大的数据对象作为最终的离群数据.采用UCI数据集对提出的算法进行了验证,结果显示该算法能够在确保检测精度的前提下有效提高离群检测的效率.(本文来源于《小型微型计算机系统》期刊2019年11期)

叶福兰[2](2019)在《基于离群点检测的不确定数据流聚类算法研究》一文中研究指出应用网络流量、日志管理等数据流过程中,常遭设备精度、噪声等问题影响出现大量不确定性数据流,影响数据流的管理与挖掘。相关研究表明,检测数据流中的离群点能够挖掘网络中被忽视的异常数据。因此,提出基于离群点检测的不确定数据流聚类算法,首先,通过微聚类划分算法将数据集划分成若干个微聚类;然后,根据信息熵的微聚类过滤机制获取全局离群点,在离群点微聚类中使用基于距离的方法挖掘出局部离群点;最后,采用不确定数据流子空间聚类算法完成全局离群点以及局部离群点两种不确定数据流聚类。分析结果表明,在数据量和维度的影响下,采用同类聚类算法聚类时聚类效果较差,而所提算法可有效克服此类问题,且具有较强的伸缩性。(本文来源于《中国电子科学研究院学报》期刊2019年10期)

许艳静,朱建明,丁庆洋,庄雪扬[3](2019)在《众包竞赛的离群点欺诈用户检测算法研究》一文中研究指出针对基于众包竞赛中欺诈者筛除机制的黄金标准数据方法、聚类算法的离群点检测算法K-means-算法和DBSCAN算法,依赖于事先给定的参数,不适合大规模数据集检测的问题,提出基于样本连通图的离群点检测算法。首先,给定参数并重复调用离群点检测算法,识别数据中的离群点和聚类;其次,计算每两个样本之间的连接次数和连接强度,在给定连接强度下界δ的情况下,根据样本的连接强度来构造样本之间的连通图;最后,根据样本之间的连通情况,对样本进行标记,把样本标记为聚类节点和离群点。实验结果表明,该算法在放宽参数设置范围的情况下,缩小了离群点个数波动范围,提升了离群点识别准确率,优于对比算法和经典的黄金标准数据方法。(本文来源于《统计与信息论坛》期刊2019年10期)

胡奕帆[4](2019)在《基于聚类的欺诈交易离群点检测分析》一文中研究指出本文面向某行业公司销售员的交易数据,根据公司过去发现的交易报告中的错误与欺诈企图,帮助公司完成核实销售报告真实性的工作。本文采用聚类算法,分析数据分布情况,发现离群点,解决欺诈交易检测问题。(本文来源于《通讯世界》期刊2019年09期)

胡小琴[5](2019)在《基于梯度提升回归树的大数据集离群点挖掘模型构建》一文中研究指出为了提高大数据集离群点挖掘能力,提出基于梯度提升回归树的大数据集离群点挖掘模型,构建大数据集离群点的回归树分布模型,采用多维特征融合方法进行大数据集离群点的特征检测,提取大数据集离群点的空间区域分布特征量,采用梯度提升回归分析方法对提取的大数据集离群点特征进行模糊聚类处理,在聚类中心中实现对大数据集离群点数据的自适应融合和分布式检测,通过梯度提升回归树分析方法实现大数据集离群点挖掘。仿真结果表明,采用该方法进行大数据集离群点挖掘的准确性较高,抗干扰性较好,提高了大数据集离群点挖掘过程的收敛和控制能力。(本文来源于《佳木斯大学学报(自然科学版)》期刊2019年05期)

马晶,刘建华[6](2019)在《Spark平台下综合属性权重离群点挖掘算法研究》一文中研究指出针对传统离群点检测算法对海量高维数据检测性能低下的问题,论文提出一种Spark平台下综合属性权重离群点挖掘算法S-CAWOM,通过对数据对象属性的综合加权处理,使不同的属性发挥不同的作用,并在Spark平台并行化提高算法效率。实验结果表明,该算法具有较高的性能。(本文来源于《计算机与数字工程》期刊2019年08期)

曹卫东,王广森,王怀超[7](2019)在《基于非主属性离群点检测的实体匹配》一文中研究指出为解决互联网上不同源中同一实体描述多样性的问题,提出一种基于非主属性离群点检测的实体匹配方法。利用非主属性值消除主属性值不同带来的歧义,非主属性值可较快排除不匹配实体,极大提高匹配效率。该匹配方法在一定程度上克服了离群点匹配在传统奇异值分解中不能应用在大规模数据的弊端,其基于规则的方法对数据进行粗筛选,降低实体对的数据规模;根据离群点检测模型做进一步筛选,得到初步的实体对集;根据生成的实体对集进行采样,利用机器学习选择合适的匹配器并训练来获取匹配对。实验结果表明,该方法使准确率和召回率得到提高,其有效性得到验证。(本文来源于《计算机工程与设计》期刊2019年08期)

申赞伟,李丹,张士文,张峰[8](2019)在《基于离群点检测的电类实验教学中错误数据判决算法》一文中研究指出电类实验教学在高等院校中覆盖面广,实验过程中学生所测数据量大,人工评判数据工作繁琐。随着在线实验教学的普及,迫切需要一种实验数据智能评判的方法。依据Mean Shift思想提出一种基于距离的离群点检测(MSOD)算法,以理论计算值作为初始点,沿着概率密度梯度的方向寻找数据集最稠密的位置,与该位置的距离大于某一特定值的数据为离群点,离群点数据即为测量有误的数据。实验结果表明,MSOD算法识别错误实验数据的效果较好,可以有效地减少实验教学中重复繁琐的人工评判数据的工作,节约人力成本,提高实验教学效率。与现有的离群点检测算法比较,MSOD算法提高了错误数据识别的正确率,并且降低了时间成本。(本文来源于《实验室研究与探索》期刊2019年08期)

杨红,李丹宁,王雅洁[9](2019)在《基于离群点检测(LOF)的K-means算法》一文中研究指出通过对传统K均值聚类(K-means)算法各种改进算法的学习与研究,针对离群点导致聚类结果效果不理想的问题,提出将离群点检测算法(LOF)与传统K-means算法相结合,首先利用离群点检测算法对数据集进行预处理并将离群点按一定比例筛选,然后用K-means算法对数据集进行分类,将未经LOF处理的分类结果与预处理后的结果进行对比。由实验仿真结果可知,提出的算法与传统K-means算法相比较,分类效果具有更大的类间距离和更小的类内距离,聚类结果更好。(本文来源于《通信技术》期刊2019年08期)

张若璇,田茂再[10](2019)在《多元数据离群点探测的倾斜重加权方法》一文中研究指出在对数据的处理中,关于多元数据的离群点的探测日益受到重视。然而现有的方法存在着不够稳健、准确率较低等缺点。本文提出了两种多元数据离群点探测方法,并在重加权最小协方差行列式方法的基础上,采用更为科学的倾斜重加权方法,计算出更为稳健的估计量,从而达到更加有效准确地探测离群点的目的。(本文来源于《数理统计与管理》期刊2019年04期)

离群点论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

应用网络流量、日志管理等数据流过程中,常遭设备精度、噪声等问题影响出现大量不确定性数据流,影响数据流的管理与挖掘。相关研究表明,检测数据流中的离群点能够挖掘网络中被忽视的异常数据。因此,提出基于离群点检测的不确定数据流聚类算法,首先,通过微聚类划分算法将数据集划分成若干个微聚类;然后,根据信息熵的微聚类过滤机制获取全局离群点,在离群点微聚类中使用基于距离的方法挖掘出局部离群点;最后,采用不确定数据流子空间聚类算法完成全局离群点以及局部离群点两种不确定数据流聚类。分析结果表明,在数据量和维度的影响下,采用同类聚类算法聚类时聚类效果较差,而所提算法可有效克服此类问题,且具有较强的伸缩性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

离群点论文参考文献

[1].冯嘉琛,蔡江辉,杨海峰.一种改进隔离森林的快速离群点检测算法[J].小型微型计算机系统.2019

[2].叶福兰.基于离群点检测的不确定数据流聚类算法研究[J].中国电子科学研究院学报.2019

[3].许艳静,朱建明,丁庆洋,庄雪扬.众包竞赛的离群点欺诈用户检测算法研究[J].统计与信息论坛.2019

[4].胡奕帆.基于聚类的欺诈交易离群点检测分析[J].通讯世界.2019

[5].胡小琴.基于梯度提升回归树的大数据集离群点挖掘模型构建[J].佳木斯大学学报(自然科学版).2019

[6].马晶,刘建华.Spark平台下综合属性权重离群点挖掘算法研究[J].计算机与数字工程.2019

[7].曹卫东,王广森,王怀超.基于非主属性离群点检测的实体匹配[J].计算机工程与设计.2019

[8].申赞伟,李丹,张士文,张峰.基于离群点检测的电类实验教学中错误数据判决算法[J].实验室研究与探索.2019

[9].杨红,李丹宁,王雅洁.基于离群点检测(LOF)的K-means算法[J].通信技术.2019

[10].张若璇,田茂再.多元数据离群点探测的倾斜重加权方法[J].数理统计与管理.2019

论文知识图

国际8个测试函数的理想帕累托最优前端...各亚群非连锁DArT之间LD(r2)值随遗传距...海青省水x1水系沉积—x2除水系沉积...离群点检测与分布图运动状态下的标定残差散点图(以反射率数据为例)

标签:;  ;  ;  ;  ;  ;  ;  

离群点论文_冯嘉琛,蔡江辉,杨海峰
下载Doc文档

猜你喜欢