基于粗集理论的数据预处理及应用研究

基于粗集理论的数据预处理及应用研究

张静[1]2007年在《基于粗集理论的数据挖掘方法及应用研究》文中进行了进一步梳理数据挖掘是从存放在信息库的大量数据中挖掘出有用知识的一种新技术。粗糙集理论作为一种处理不完全、不精确及不确定信息的有效方法,因其具有强大的数值分析能力,故在数据挖掘领域大有用武之地。目前基于粗糙集理论的数据挖掘技术已经成为人工智能领域中一个新的研究热点。论文对数据挖掘技术进行了深入的讨论,介绍了其相关概念,针对其普遍存在的海量高维数据、信息不完备数据、可理解性等问题,提出一种基于粗糙集的数据挖掘方法。首先,详细阐述了粗糙集的产生、发展及其在数据挖掘领域中的应用。其次,讨论了粗糙集的约简方法,利用粗糙集理论对数据样本进行约简,获取约简的规则集,使得规则数目大为减少,充分地提高了数据的处理能力。接着针对粗集只能处理离散化的属性,研究讨论了各种连续属性离散化方法。论文中对目前神经网络也进行了分析,并针对训练神经网络时由于样本数据中含有大量的、不完全的、有噪声的、模糊的、随机的数据,造成的网络结构复杂以及计算速度慢等问题,提出了一种基于粗糙集的构造神经网络的方法,即运用粗糙集方法对输入样本进行约简,确定神经网络隐含层神经元个数。利用基于粗集的数据挖掘技术构造的粗神经网络模型,具有计算简单、收敛速度快等特点。最后将该方法用于间歇式反应釜,通过粗神经网络建模,从而实现对间歇式反应釜的釜内温度的估计。仿真结果与实测数据比较表明,模型估计准确,误差小,与常规方法相比,网络的训练时间短。综上,基于粗糙集的数据挖掘技术是一种有效的数据处理方法,它可以为建模与控制等研究工作提供有用的信息。由于该方法具有较高的估计精度及较快的学习效率,所以更有利于实时应用。

刘春亚[2]2003年在《基于粗集理论的数据预处理及应用研究》文中进行了进一步梳理随着数据库技术的成熟,数据应用的普及,以及互联网的高速发展,人类积累的数据量正在以指数级速度迅速增长。传统的数据分析和查询方法已不能满足人们对隐藏在数据背后的知识的迫切需要,在这种社会需求的强劲推动下,知识发现和数据挖掘应运而生,而粗集理论作为一门新的数学工具,凭借它不需要附加任何外界信息或先验知识这一特点,突破了其它数据分析工具的局限,避免了人的主观因素对数据挖掘结果的影响,逐渐成为了研究知识发现的重要的数学工具之一。 由于数据预处理是KDD处理步骤中非常重要的一环,其结果将直接影响到KDD的效率、准确度以及最终模式的有效性。而经典的粗集理论不能处理原始数据资料中的遗漏信息以及值域为实数的数据,需要经过数据预处理,包括数据补齐和离散化处理后才能进行知识获取,因此如何有效地进行数据预处理具有非常重要的现实意义。 本文围绕基于粗集的数据预处理中数据补齐和连续属性离散化展开讨论。 首先分析了当前主要的数据补齐算法的特点和不足,指出了数据补齐的原则和目标,并针对已有的基于粗集不完备信息系统补齐算法ROUSTIDA的缺陷,提出了基于量化相似关系模型和基于受限相似关系模型的数据补齐算法,以使更多的缺损数据得到科学的填补,尽量避免因采用其它方法可能导致的决策规则矛盾的问题。为了提高粗集模型抗噪音干扰的能力,又提出了基于变精度粗集模型的数据补齐算法,以使模型在数据存在噪音干扰的情况下,仍然能获得好的机器学习效果。 然后,对目前流行的离散化算法进行了详细的分析和评价,指出了离散化的方向和目标,并提出了基于粗糙信息熵的离散化算法,以便在保证划分后决策表相容性的前提下,获得比较合理的划分点。 最后,提出了电子商务的潜在客户挖掘系统,并将前面提出的基于粗集的算法理论应用到该系统中,同时和其他几种现有的数据补齐和离散化算法进行了实验比较和结果分析。并指出本文创新之处以及存在的问题和努力的方向。

巫兆聪[3]2004年在《粗集理论在遥感影像分类中的应用》文中研究说明粗集理论是一门新兴的不确定性处理理论和工具,它特别适合于不完整、不确定知识和数据的表达、学习和归纳。国内外智能数据处理领域对其理论和应用有着广泛和深入的研究,并不乏成功应用实例的报道。遥感信息从其数据获取开始,就一直伴随着不确定性的存在,应用不确定性理论和方法研究遥感信息的处理、分析和结果评估是当前遥感信息智能处理领域的主流研究趋势之一。本文以遥感影像自动分类为主线,研究粗集理论在影像数据处理过程中的理论框架和应用尝试,以期起到抛砖引玉的作用。 论文从遥感影像数据蕴含的不确定性分析出发,结合粗集理论的不确定性处理机制,对遥感影像数据预处理、分类数据准备、分类器设计、分类结果评估的粗集方法作了一些理论探讨、算法设计和试验分析的工作。具体的研究工作和创新之处主要体现在: (1)从数据获取、信息处理、产品表现、观测尺度等多层面多角度分析遥感数据的不确定性产生机制,探讨利用粗集理论处理遥感信息不确定性的理论基础。 (2)从粗集理论的不可分辨关系、近似集合和分类概念出发,研究图像滤波、子图分割和图像增强的一些粗集算法,提出一种保护边缘的粗集均值滤波算法,试验证明其有效性。 (3)以分类决策表的构造为目的,分析分类特征的依赖关系和分类能力的度量指标,讨论遥感影像分类特征的离散化问题。提出基于改进粗糙熵的离散特征聚类方法,是一种自下而上的可调节信息指标的聚类方法;基于动态层次聚类的属性离散化方法,是一种可调节决策表相容性指标的适合于连续特征和离散特征的离散化方法。 (4)在讨论决策规则形式、属性的核和相绝对约简、规则的值核和值约简等概念和算法的基础之上,研究分析由分类决策表进行特征选择、分类规则提取和分类不确定性评价的方法。研究分析基于互信息的属性约简算法MIBARK和启发式值约简算法,并用它对实际遥感影像数据进行分类规则的提取试验。 (5)提出基于粗集的遥感影像规则分类器设计方法,并设计出规则匹配的原则和方法,并用它对实际遥感影像数据进行分类试验。 (6)总结归纳基于粗集理论的遥感影像分类知识获取流程,结合基于粗集理论的和粗集与神经网络结合的影像分类模式,给出完整的基于粗集理论的遥感影像分类模型。

华江林[4]2006年在《基于粗集理论的教学质量评估系统的研究》文中指出粗集理论是由Pawlak教授于20世纪80年代初提出的一种用于处理不确定性和含糊性知识的数学工具,其基本思想是保持分类能力不变的前提下,通过知识约简,导出概念的分类规则。它无需提供相关数据集合外的任何先验信息,适合于发现数据中隐含的、潜在有用的规律,找出其内部数据的关联关系和特征。近年来,粗集理论和应用取得了很大的成功。 教学质量评估系统是保证教学质量的重要手段,教学评估是一个多因素、多变量、模糊的非线性过程。采用粗集理论方法,解决教学质量评估系统中,处理数据时面临数据量大、数据不确定等问题。 首先,本文介绍了经典(Pawlak型)粗糙集的基本理论,重点研究:属性约简和值约简问题,属性约简就是对决策表中冗余属性进行约简,本文采用了一种基于信息量的启发式属性约简算法;值约简就是进一步简化对象的属性值,获得决策规则,本文在多值可分辨矩阵的基础上提出值约简算法。其次,设计与阐述了评估系统的总体结构与功能,并对公共登录模块、数据采集模块、教师综合评估模块和统计查询模块进行了详细设计。最后,将粗集理论中属性约简和值约简算法应用于教学质量评估系统,建立基于粗集理论的教学评估系统数据挖掘模型,系统通过数据预处理、属性约简、规则生成和化简、规则验证四个过程,找出评估中对课堂教学质量提高的重要指标,并对教师做出形成性评价。

白爱民[5]2006年在《基于客户集群和拓扑理论的CRM模型与算法研究》文中进行了进一步梳理鉴于CRM技术的迅速发展以及它在实际中的广泛应用,CRM的理论和研究正在成为管理科学中的一个热点的研究课题。本文在研究了大量国内外相关文献的基础上,以CRM在某省级电信企业的理论与应用为研究背景,对CRM的发展及其相关理论、CRM模型的建立、内外部机制、关键算法以及CRM应用系统等题进行了较深入地探讨。1.针对CRM的客户集群理论,通过对集群→企业集群→客户集群叁重概念的剖析,构建了适合于CRM的理论模型框架;对集群概念及其涵义进行了扩展和引申,建立了CRM体系结构。在对外部机制研究的基础上,对其内部核心机制的规律及运作模式进行了深入地探讨。2.采用拓扑理论方法,研究了CRM客户集群理论,构建了客户集群的数学模型,提出了企业集群、客户集群、信息集群的拓扑空间概念;并对该空间的内涵进行了深入地分析,阐述了客户集群的基、集族、子空间与映射等实体概念。3.提出了CRM客户集群核心机制的四种客户联系模式,根据客户联系的映射原理,将该理论模式与电信企业的营销实体应用进行了对应的映射分析。4.对CRM数据挖掘过程的关键环节——数据预处理存在问题和算法进行了研究。提出了一种基于密度的孤立点因子算法和一种基于粗集理论的属性类别差异数据归约算法。对CRM数据预处理与数据挖掘的孤立点异常检测方法,对采取粗集理论的预处理过程的数据约简与处理算法进行了分析和编程。5.结合省级电信企业在CRM系统应用项目的实施,对上述理论进行了实证研究,以验证理论的正确性,并给出其实际应用效果。该项研究和应用取得了显着的社会和经济效益,并具有应用和推广价值。

黎东英[6]2004年在《粗糙集理论中的数据预处理及决策表约简方法研究》文中研究说明1982年,波兰学者Z.Pawlak提出了粗糙集理论,它是一种分析不精确、不一致、不完整等各种不完备信息的数学工具。利用粗集理论处理的主要问题包括:数据简化、数据相关性的发现、数据意义的评估、由数据产生决策算法等。对不完备信息系统的处理是数据预处理的一个重要内容,而在知识获取时往往面临的是不完备信息系统,即存在部分对象属性值未知情况,针对这种情况,本文探讨了对不完备信息系统的处理方法。许多学者对连续属性的离散化方法进行了深入的研究,其中包括S方法、H方法、L方法。基于离散化后等价类太多而无法提高系统的聚类能力的考虑,本文提出了一种数据泛化方法,它利用决策表相容性的反馈信息对经过初次离散化的信息系统进行处理,该方法提高了规则的统计意义及解释能力。数据约简是粗集理论中的一个重要研究课题,数据约简要求在保持知识库的分类和决策能力不变的条件下,删除不相关或不重要的知识,知识的约简一般包括属性的约简和属性值的约简。本文探讨了一种基于差异表的约简方法,它不需要对决策表中的记录进行逐行考察,每次从差异表中抽取出最重要的属性值加入到结果集合中,最后由结果集合得到约简的规则。Pawlak提出的粗集模型处理的分类必须是完全正确的或肯定的,但在实际应用中,数据中包含噪音是难免的。为了提高在实际应用中对噪音数据的适应能力,Ziarkio提出了可变精度粗集理论,本文把可变精度粗集理论应用在一个判断地区综合发展程度的系统,实现了抗噪音的干扰,同时也大大简化了原始数据集。

张振华[7]2002年在《粗集理论及其在数据预处理过程中的应用》文中研究指明全文分两部分。第一部分是基础理论,在粗糙集理论的基础之上,引入容差关系、等价关系、非对称相似关系,定义了不完备信息系统中集合的上逼近与下逼近,讨论了叁种上逼近与下逼近之间的关系、不完备信息系统的属性约简与完备子系统的核值之间的关系。 第二部分是算法集。1.基于可辨识矩阵与决策规则独立原则缺损数据填补方法;2.基于粗集理论不完备数据的核值ROUSTIDA算法;3.基于属性间的相互依赖性与重要性建立的动态转换算法。

朱海[8]2013年在《基于粗集理论和人工神经网络的上市公司财务危机预警分析》文中研究说明上市公司财务危机预警是结合经济学、统计学和计算科学的跨学科跨领域的研究热点。由于该项研究可以有效地预测上市公司在未来是否有可能发生财务危机,关系一国国民经济的发展和稳定,因此得到了专家、学者和政商各界的广泛重视。本文理论结合实际,从应用角度出发,根据上市公司财务数据高维、非线性和高噪声的特点,提出了基于粗糙集和神经网络的处理方法,相较于其他方法有着低时间复杂度和高预测精度的优势。本文研究的主要内容如下:首先,针对上市公司财务数据的特点,需要对其进行属性离散化处理。通过对现有的连续属性离散化方法的回顾,提出了基于动态邻域聚类的属性离散化方法,有效降低了数据处理的复杂度并且提高了整体的容错性,使之更适用于大规模和高维度的数据分析。其次,针对上市公司财务预警分析问题,利用粗糙集对不确定数据的分析能力和对高维度数据的处理优势以及神经网络对于数据的高容错性和预测能力,建立了上市公司财务预警分析模型,该模型有较高的准确性,可以通过其判断上市公司在未来几年中是否会出现财务危机。再次,针对本文提出的基于粗糙集和神经网络结合的上市公司财务危机预警模型,通过与单纯通过粗糙集和单纯通过神经网络的方法进行比对,有效验证了通过本文所给出方法进行预测具有更高的有效性、时效性和准确率。最后给出本文的结论和下一步研究的方向。

刘旭[9]2007年在《基于粗集和神经网络的销售预测研究》文中研究指明商品销售是一个高度复杂的非线性动态系统,其变化规律即有一定的自身的趋势性,又受政治的、经济的、心理的诸多因素的影响。建立在数理统计基础上的传统定量预测方法在对销售市场的研究中面临着许多困难,而神经网络具有自组织、自适应等特点,能自动从历史数据中提取有关经济活动中的知识,因而非常适用于解决销售预测领域中的一些问题,已有大量的仿真结果表明,神经网络在销售预测应用中有一定的实用性。神经网络是利用非线性映射的思想和并行处理的方法,用本身结构表达输入与输出关系知识的隐函数编码,输入空间与输出空间的映射关系是通过网络结构不断学习、调整、最后得到网络的特定结构表达,实现有导师学习。但其一股不能处理具有语义形式的输入,并且不能简化信息空间维数,当输入信息空间维数规模较大时,网络结构复杂、训练时间过长。粗集理论基于属性依赖性、约简、核、规则提取和可辨识矩阵等概念,实现对信息系统的预处理,去除冗余属性和冗余样本,压缩信息空间维数,精简知识系统,论文在分析研究这两种方法的基础上,提出了一种基于粗集理论和神经网络的预测模型。粗集可以作为前置系统从商品销售数据中挖掘出影响销售的几种较重要的属性。在不降低数据一致性的前提下,最终得到尽可能精简的属性集。以此尽可能地减少神经网络的输入,而又不影响网络对事件的检测能力。从而减少神经网络的复杂度和训练时间,提高预测的速度和精度。论文将神经网络与粗集理论相结合,这种基于粗集理论的神经网络模型和学习算法具有学习速度快、容错能力较强、在提高神经网络预测精度的同时降低了学习负担。为了获得更优的预测精度,还采用组合神经网络结构。将该模型用于一酒业的销售预测应用中,并对更单一预测模型分别进行了实证分析和比较研究。最后,对全文所做的工作进行了总结,并对下一步研究工作进行了展望。

周艳聪[10]2004年在《基于粗集理论的连续属性离散化及规则提取技术研究》文中研究指明粗集理论作为一种新的软计算方法,通过把知识和分类密切地联系起来,为处理不确定、不完全数据的分类问题提供了符合人类认知的数学工具。基于粗集理论的知识发现技术已成为决策科学的研究热点。随着社会经济的发展和人们生活水平的提高,气象问题已经成为社会关注的热点问题之一。如何根据观测数据获得准确的灾害气象规律越来越为气象界关注。本文针对粗集理论应用中的几个关键问题进行了研究,并将结果应用到气象问题的分析中,取得了一定的效果。 首先,对基于粗集理论的数据离散化技术进行了比较分析,首次提出了基于遗传算法的离散化方法,有效克服了行列计算法中结果受字段位置和断点位置影响的不足,并将几种离散化算法及其组合进行了比较分析和组合运用。实验结果表明:基于遗传算法的离散法是一个相对较好的离散化方法,增类减类离散法与行列离散法是相对较佳的一对方法组合。 其次,实现了基于粗集理论的属性约简方法——基于可分辨矩阵的属性约简法和基于遗传算法的属性约简法,并通过降维、稀疏化、正例集和反例集的有效选取、新的选择算子等方法对原算法进行了改进。实验证明,新的算法都大大降低了算法时间复杂度,提高了算法效率。 再次,提出了一种基于可分辨矩阵的决策规则提取新方法。该方法通过对属性约简得到的中间结果和最终结果的有效利用,大大降低了算法的时间复杂度和空间复杂度,实验结果也充分证明了该算法的有效性。 最后,在对各种方法进行了认真分析和研究的基础上,研制了一种基于粗集理论的数据离散化和规则提取的软件平台,可以用于数据挖掘的前处理。系统应用于气象数据分析,取得了良好的效果。

参考文献:

[1]. 基于粗集理论的数据挖掘方法及应用研究[D]. 张静. 大连理工大学. 2007

[2]. 基于粗集理论的数据预处理及应用研究[D]. 刘春亚. 重庆大学. 2003

[3]. 粗集理论在遥感影像分类中的应用[D]. 巫兆聪. 武汉大学. 2004

[4]. 基于粗集理论的教学质量评估系统的研究[D]. 华江林. 河海大学. 2006

[5]. 基于客户集群和拓扑理论的CRM模型与算法研究[D]. 白爱民. 天津大学. 2006

[6]. 粗糙集理论中的数据预处理及决策表约简方法研究[D]. 黎东英. 福州大学. 2004

[7]. 粗集理论及其在数据预处理过程中的应用[D]. 张振华. 昆明理工大学. 2002

[8]. 基于粗集理论和人工神经网络的上市公司财务危机预警分析[D]. 朱海. 南京大学. 2013

[9]. 基于粗集和神经网络的销售预测研究[D]. 刘旭. 河北工业大学. 2007

[10]. 基于粗集理论的连续属性离散化及规则提取技术研究[D]. 周艳聪. 河北工业大学. 2004

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于粗集理论的数据预处理及应用研究
下载Doc文档

猜你喜欢