基于粗糙集和遗传算法的空间数据挖掘技术研究

基于粗糙集和遗传算法的空间数据挖掘技术研究

时王侠[1]2008年在《基于粗糙集理论和C4.5算法相结合的遥感影像分类研究》文中研究表明GIS的应用提高了遥感影像的数据提取和分析能力,遥感影像信息的提取和分类是GIS在土地资源应用中最主要的信息源。解决遥感影像识别问题并满足一定的精度,是遥感影像分析中的一个关键问题,具有十分重要的意义。本文选取地物类型较复杂的福州市的城乡结合区的一小块区域为试验区,并集成遥感影像的光谱特征、纹理特征及地形特征构建了多源空间数据库,利用基于C4.5算法、基于粗糙集理论及基于粗糙集理论和C4.5算法相结合的方法,从空间数据库的训练样本数据集中挖掘分类规则,进行分类实验,并分别与传统的最大似然分类法进行比较与分析。研究结果表明,基于知识分类方法的分类精度都明显高于传统的最大似然法,其中基于粗糙集和C4.5算法相结合的分类方法的分类效果最好,并不同程度的弥补了单一的基于粗糙集理论和基于C4.5算法分类中的不足。因而基于多种算法相结合的分类方法,可以充分发挥其优点,并弥补分类中各自的不足,是促进基于知识的遥感影像分类方法在土地利用分类中广泛应用的一项有效手段。

刘潭仁[2]2004年在《基于粗糙集和遗传算法的空间数据挖掘技术研究》文中研究指明空间数据挖掘是数据挖掘(Data Mining)的一个分支领域,它在遥感(Remote Sense)和地理信息系统(Geographic Information System, GIS)中有着广泛的应用。从GIS中进行空间数据挖掘所发现的知识、可用于对空间数据(Spatial Data)的理解、空间知识库(Spatial Repository)的构造、空间数据库(Spatial Database)的重组和空间查询(Spatial Query)的优化等。在GIS系统中融合空间数据挖掘等技术构建的空间决策支持系统,在资源调查、评价、管理和监测,城市的管理、规划和市政工程、行政管理与空间决策,灾害的评估与预测、地籍管理及土地利用、交通、农业、公安等诸多领域发挥重要作用。本论文结合项目主要对空间数据挖掘技术和空间决策支持系统进行了如下几个方面的研究:首先对决策支持系统(Decision Support System,DSS)发展和决策支持系统体系结构进行了研究,提出了综合分布式空间决策支持系统体系结构,着重研究了分布式数据挖掘系统的系统结构。其次介绍了粗糙集(Rough Set)和遗传算法(Genetic Algorithm)的基本理论与方法,阐述了空间数据获取和利用粗糙集进行空间数据预处理的方法。第叁介绍了基于粗糙集和遗传算法的数据挖掘改进算法——基于属性核的遗传粗糙约简算法和其并行算法。给出了基于图结构的候选序列生成算法和Hib&Dim-FP算法。在论文给出的空间数据挖掘模型下,这些算法可用于空间数据挖掘。第四就空间规则的评价和可视化解析技术进行了研究,结合多维可视化技术和地理信息系统,概括出了空间规则评价和可视化解释方案。最后利用小叁峡监管原型系统验证了论文提出的各种理论和方案。原型系统实现了地物提取模型,伪彩色模型和空间预测报警叁个业务模型。总之,论文提出了一种利用粗糙集和遗传算法进行空间数据挖掘的方法,并通过原型系统论证了方法的可行性。论文的研究工作为项目的具体实施提供了关键技术指导。

陈桂芬[3]2009年在《面向精准农业的空间数据挖掘技术研究与应用》文中提出随着“3S”技术在农业领域的不断普及,农业数据增长迅速,农业已成为空间数据挖掘最富有机遇与挑战性的应用领域之一。本文是在实施国家“863”项目“玉米精准作业系统研究与应用”的过程中,基于土壤肥力数据库和玉米精准作业的要求,利用空间数据挖掘技术,提出了解决玉米精准施肥、土壤肥力评价、地力等级分类和产量预测等问题的新方法,研究成果已成功应用于玉米精准作业智能决策系统中。主要工作和创新点:1.进行了基于空间模糊聚类算法的玉米精准施肥的研究。使用模糊聚类分析方法,建立土壤养分分类模型;利用八连通法进行空间聚类分析,并将模糊聚类结果应用于空间聚类。这种两阶段聚类方法优于传统的单阶段聚类,其分类结果对玉米精准施肥具有重要的指导意义。2.提出了基于加权的空间模糊动态聚类算法及在土壤肥力评价中的应用。该算法与基于模糊等价关系的传递闭包方法进行比较表明,其聚类准确率要明显高于未加权的模糊聚类算法。将其改进的算法运用到精准农业的土壤肥力评价中,与实际情况相符。3.研究了基于粗糙集-决策树的优化算法及在地力评价中的应用。研究结果表明基于聚类的样本优选方法去除了大量冗余样本,基于粗糙集的属性约简方法去除了部分冗余属性,使用决策树方法构建决策树,节省了时间和空间,降低了模型的复杂度。因而,本文提出的聚类和粗糙集约简相结合的方法在时间、空间和准确性方面均优于其他方法,该算法能有效提高土壤地力等级分类的准确性和客观性。4.采用时间序列算法中的滑动求和自回归方法(ARIMA)来对玉米产量进行预测,实验结果表明应用ARIMA模型预测的玉米产量与实际值拟合效果很好。5.设计并实现了玉米精准作业智能空间决策支持系统(MPISDSS)。该系统将具有空间信息处理功能的地理信息系统、具有空间信息分析功能的空间数据挖掘技术、人工智能领域中的专家系统技术与传统的信息管理系统、决策支持系统有效集成,并将GIS中的统计分析方法与数据可视化结合起来,极大提高了农业管理部门进行农业生产决策的能力。

梁本哲[4]2007年在《基于粗糙集理论的土地利用规划决策支持系统模型及其应用研究》文中研究说明目前常见的土地利用规划决策支持系统(Land Use Planning Decision Support System)是基于GIS技术和DSS技术相结合的空间决策支持系统(Spatial Decision Support System,SDSS),这些系统多侧重于计算机辅助制图和空间数据管理等方面,系统所提供的分析功能有限,无法析取隐含模式和规律,它的逻辑结构和智能层次不能满足解决复杂土地利用规划中涉及的各类决策问题的需要,特别是那些非结构化的问题,因此促使人们探讨新的技术手段去解决现在面临的问题,也就是要加强信息系统分析处理规划数据的能力。而具有知识发现功能的数据挖掘(Data Mining)是解决这些问题的最好选择。本文选择的挖掘方法,是基于土地利用规划数据特性的。土地利用规划信息系统(Land Use Planning Information System)相比其他领域,因素相对繁多复杂,时空差异和变异性较大,经济发展不平衡,区位差异,政策因素影响等特点决定了土地利用规划实施过程中的规则既有确定的,也有不确定的,数据采用既有完整的,也有不完整的,对于适合不确定数据知识发现的粗糙集理论(rough sets)正好提供了用武之地。另外粗糙集理论相比模糊方法(Fuzzy Method)或神经网络方法(Neural Network Method)而言,在得到决策规则和推理过程中不需要数据的任何先验知识介入,而且获取的结果也易于评价和解释。粗糙集理论是由波兰数学家Z. Pawlak于1982年提出,是一种处理不精确、不确定和不完备信息的智能数据决策分析工具,较适于基于属性不确定性的数据挖掘。目前,粗糙集理论已经被证实在实践中是非常有用的,国际上开发了许多基于粗糙集理论的学习或应用系统,并已取得了良好的收益。本文围绕如何根据土地利用规划领域的数据特性实现其知识发现,展开了研究和讨论,并提出了基于粗糙集理论的土地利用规划决策支持系统模型。首先,对粗糙集理论进行了初步研究,介绍了粗糙集相关理论体系,概述的主要特征引自Z. Pawlak的经典专着。同时,对理论自身的特点进行了归纳总结,并根据自身的研究特性还专门探讨了粗糙集在不完备信息系统中的应用。其次,针对粗糙集理论的特点,分析并总结了土地利用规划数据特征。土地利用规划领域内的数据相比其他领域相对繁多复杂,必须对该领域的数据类型进行分类,并结合粗糙理论总结出适合其分析的数据类型。数据挖掘的核心在于前期的数据预处理及属性约简。针对土地利用规划的数据特征,重点突出了对数据预处理的研究,探讨了缺失值处理及连续属性离散化等问题。文中提出了处理缺失值的多种方法,并给出了实例。在连续属性离散化的研究上,不仅详述了传统理论及方法,还提出了离散化的优化算法。第叁,在对粗糙集理论体系研究的基础上,结合粗糙集理论的特点分析了该理论在土地利用规划领域中的应用优势。本文依托湖北省长阳土家族自治县土地利用总体规划项目,通过资料收集,选择规划基础数据进行了具体决策问题研究,生成的规则通过解释,较好的反映了基础数据的相互影响关系,达到了决策的要求。利用粗糙集理论进行知识发现,对析取的规则目前以定性解释与定量分析相结合为主。为了进一步验证新知识的价值,文中还就规则应用作了深入探讨,初步提出了可视化的应用方法。土地利用规划信息系统几乎都是以GIS为平台进行开发的,除了日常管理,主要工作是数据查询、存储等操作及图形数据处理。因此,针对土地利用规划的相关数据,在利用粗糙集理论挖掘隐含规则的基础之上,初步研究了隐含的规则在GIS图和统计图中的应用。利用粗糙集理论挖掘出的规则,再将这些知识反馈到GIS系统或统计图中进行处理,以可视化的形式体现新知识应用前后的差异性,使决策者有了更加直观的认识。文中以实例研究的形式对这两种方法进行了探讨,需要重点指出的是,在研究GIS图示法的过程中,通过对粮食产量影响因素决策规则的统计分析,有效地证明了农用地分等规程中对土地自然质量属性权重和自然质量分记分规则相关参数设定的合理性。最后,针对土地利用规划领域的数据特性和挖掘的具体任务,结合前几步的研究提出了两种建模方案:一种是建立独立的决策支持系统;一种是构建土地利用规划信息系统的挖掘模块。根据目前信息系统及数据挖掘系统的研究进展,结合以上两种方案的比较研究,综合考虑后选择第一种模型方案作为本文模型研究的基础。并在模块设计时,突出了土地利用规划的领域特色。在设计方案中,详细介绍了系统各个功能模块的结构及功能。基于粗糙集理论的知识获取,能够给决策者提供知识支持,这在开发土地利用规划决策辅助系统是具有理论和实用价值的。本文对粗糙集理论的应用研究表明了粗糙集理论在土地利用规划中的应用价值。可以预言,对粗糙集进一步地深入研究,将大大提高其实用能力。

郑晓峰[5]2014年在《道路运输信息系统的数据挖掘方法研究与应用》文中指出道路运输是我国综合运输最大的组成部分,道路运输信息系统对道路运输管理、服务和行业发展有着重要的意义。道路运输信息系统的数据挖掘是发现和利用道路运输数据内在知识,实现系统深层次应用的关键技术手段。本文从研究道路运输信息系统的模型架构等顶层设计和数据挖掘的需求出发,针对各种数据挖掘理论和方法的优势和不足,在关联规则方法、分类方法、综合优化分类方法、聚类方法等四个方面提出挖掘道路运输中各种知识的适用方法,并在实际应用系统中分别加以验证,最后在广东省道路运输信息系统中综合实现。主要的科研工作与取得的重要研究成果概括如下:一、研究道路运输信息系统的模型架构和数据仓库设计等数据挖掘基础理论,提出了数据类型、数据关系和数据仓库等基本设计,重点介绍典型数据集市例子——IC卡道路运输电子证件系统的设计。二、在对比分析经典关联规则算法Apriori和其优化算法Eclat之间的实质区别基础上,首次提出和证明了候选集以项目为前缀或后缀两种情况下能否剪枝计算的性质,然后结合云计算编程模式MapReduce提出一种更为优化的频繁集计算方法——并行NEclat方法,设计了两段Map函数和Reduce函数,实现剪枝的并行计算,最后用道路运输管理信息系统的车辆投入数据实例进行验证。叁、研究分析分类数据挖掘的一般方法——基于距离的分类算法k-最临近方法、决策树和贝叶斯分类方法的优势和不足,分析其在道路运输信息系统数据挖掘的适用范围,提出应用方法,并应用道路运输信息系统中的从业人员管理数据进行实际验证。然后基于全省公交一卡通的应用,建立类似BP神经网络分类方法的跨区消费推算矩阵模型,根据实际应用来设置误差阀值和学习率等关键参数,通过训练实际的一卡通消费数据,得到跨区消费的推算矩阵,最后利用实际测试数据进行验证。四、在研究分类问题的一般描述理论的基础上提出分类数据挖掘问题的抽象模型,引入粗糙集理论来揭示这个模型的本质。然后结合关联规则的Apriori算法和粗糙集理论,分别从条件属性约简、规则的计算和规则的简化等环节提出一系列方法,实现关联知识和分类知识挖掘的优化。首次提出利用粗糙集方法来得到规则条数与支持度、置信度的关系。最后以道路运输信息系统中的质量信誉考核和燃油限值的实例问题来检验这套方法。五、针对典型的基于密度的聚类算法——DBSCAN算法的不足,提出并证明了属性维划分和簇合并原理,最后结合叁个原理提出基于MapReduce的优化DBSCAN算法,设计簇合并的Map函数和Reduce函数,实现并行计算,同时对比分析新旧算法的执行效率,并在实际的卫星定位应用例子加以验证。六、从构建广东省道路运输信息系统的业务、应用、数据和技术架构模型出发,重点论述数据类型和特征、数据关系和数据库规划,在此基础上研究全面分析数据挖掘的需求,提出总体解决思路,利用先进的建模分析工具Cognos在广东省道路运输信息系统的卫星定位数据管理子系统综合实现数据挖掘的全过程。

程鹏[6]2007年在《基于粗糙集理论的数据分类及其在医学图像识别中的应用研究》文中进行了进一步梳理医学影像诊断是医学无创伤性诊断的主要方法之一。医学影像已成为疾病诊断、术前决策、手术导航和术后随访等临床工作的重要依据。面向医学图像的诊断技术研究作为医学和计算机科学的交叉学科,已成为国内外医学领域研究的重要方向之一。利用数据挖掘和计算机技术,对医学图像进行分析、计算、处理,从医学图像中挖掘出蕴含在图像内的丰富特征信息和规则,辅助医生进行医学图像临床诊断,具有较高的学术价值和广泛的应用前景。目前,面向医学图像的数据挖掘研究刚刚起步,现有的数据挖掘方法直接应用在医学图像还存在许多问题。研究和探索适合于医学图像的数据挖掘方法及其算法具有重要而现实的意义。粗糙集(Rough Sets)理论是由Pawlak教授于20世纪80年代初提出的一种用于处理不确定性和含糊性知识的数学工具,其基本思想是在保持分类能力不变的前提下,通过知识约简,导出概念的分类规则。它无需提供相关数据集合外的任何先验信息,适合于发现数据中隐含的、潜在有用的规律,找出其内部数据的关联关系和特征。近年来,粗糙集理论和应用取得了很大的成功,已成为软计算方法的一个重要分支,其涉及的领域包括模式识别、机器学习、决策分析和决策支持、知识获取等领域。本研究从医学数据的特点出发,综述了医学数据挖掘的一般步骤及关键技术和粗糙集理论及其在医学数据挖掘中的应用。根据本研究的需要也研究了数据预处理方法。在系统研究连续属性的离散化和属性约简的基础上,针对现有属性约简算法的不足,结合粗糙集理论、遗传算法以及决策表的特点,提出了一种基于启发式遗传算法的增强属性约简算法(Efficient Algorithm of Reduction ofAttributes based on Genetic Algorithm,EARGA),通过实验说明算法改进是有效的。在知识分类方面,本研究分析了粗糙集和决策树两种数据挖掘技术的各自特点,并且探讨了两种挖掘技术结合的可能性,提出一种基于粗糙集和SLIQ决策树相结合的分类新方法,弥补了大数据集分类效率不高的问题。将这种分类方法应用于医学图像分类之中,通过实验证明该这种新的分类方法同时具有有效性和可靠性。本文中所提到的算法全部在VC++6.0软件环境下得到了实现,实践表明研究成果可靠有效。

杨悦[7]2006年在《基于启发式遗传算法的属性约简方法研究》文中研究说明随着空间数据获取手段的快速发展,从大量的空间数据中自动、快速、有效地发现知识显得越来越重要。本文简要地介绍了空间数据挖掘的概念、特点、发现的知识类型,空间数据挖掘的体系结构及基本过程,以及应用于空间数据挖掘的理论方法等,重点对其数据预处理阶段的决策表属性约简方法作了研究。 针对粗糙集理论、遗传算法以及决策表属性约简的特点,通过分析基于传统遗传算法的决策表属性约简算法,吸收原算法的优点,并对其加以改进,提出了一种基于启发式遗传算法的决策表属性约简算法(HGAAR算法)。该算法对原算法的改进主要有两点:其一,对传统遗传算法中随机产生的二进制初始种群加以改进,用决策表属性核加以限制,以增强遗传算法的局部搜索能力,缩短算法的计算时间,并提高决策表属性约简结果的准确性;其二,在传统遗传算法的遗传算子(包括选择算子、交叉算子、变异算子)的基础上,新算法增加了修正校验算子,以信息熵定义的属性重要性作为启发式信息,保证遗传算法的全局搜索在有效的可行解空间进行,防止丢弃能够对发现知识产生重要影响的属性,为整个空间数据挖掘提供有效的约简属性。最后,通过实验证明了改进后的HGAAR算法要比基于传统遗传算法的属性约简算法优越,可以更高效准确地进行决策表属性约简任务。

吴仕勇[8]2006年在《基于数值计算方法的BP神经网络及遗传算法的优化研究》文中研究表明人工神经网络和遗传算法都是将生物学原理应用于计算机科学的仿生学理论成果。由于它们具有极强的解决问题的能力,近年来引起了众多学者的兴趣与参与,已成为学术界跨学科的热门专题之一。 在人工神经网络的实际应用中,约90%的人工神经网络模型都是采用BP网络或者是它的变化形式,它也是前馈网络的核心部分,BP网络广泛应用于函数逼近、模式识别/分类、数据压缩等。现已成为人工智能研究的重要领域之一。然而,由于BP算法是一种梯度下降搜索方法,因而不可避免地存在固有的不足,如收敛速度慢、易陷入误差函数的局部极小点,对于较大的搜索空间,多峰值和不可微函数不能有效搜索到全局极小点。 遗传算法作为一种智能化的全局搜索算法,自80年代问世以来便在数值优化、系统控制、结构优化设计等诸多领域的应用中展现出其特有的魅力,同时也暴露出许多不足和缺陷。如完全依赖概率随机地进行操作,虽然可以避免陷入局部极小,但受寻优条件的限制,一般只能得到全局范围内的近似最优解,很难得到最优解;对参数采用二进制编码,人为地将连续空间离散化,导致了计算精度与字符串长度、运算量之间的矛盾;采用随机优化技术,所以要花费大量的时间;算法在交叉、变异的进化过程中随机性较强,致使搜索效率低下,具体表现为进化迭代过程中会出现子代最优个体劣于父代最优个体的“退化”现象;遗传算法虽然具有很强的全局搜索能力,但其局部搜索能力较弱(易出现早熟收敛现象)。 本文主要工作: (1) 对BP神经网络的缺陷进行分析研究,针对BP神经网络收敛度慢的不足,对经典BP网络的单极性Sigmoid传输函数和双极性Sigmoid函数进行数学分析,给出二者不同的数学性质和它们的优先选择方法。 (2) 利用数值计算优化方法对BP神经网络进行改进,提高其收敛速度,本文分别用拟牛顿法、最优步长法和共轭梯度法对BP神经网络学习法进行改进,对各种改进方法进行分析比较,给出各自适用的网络规模,并对其收敛性进行分析证明。 (3) 利用数值计算优化方法对遗传算法的交叉算子、变异算子、编码方式及适应度函数等进行分析研究,给出了基于一维极小化问题的最优策略(Fibonacci法)和近似最优策略(黄金分割法)的交叉和变异算子。 (4) 将擅长全局搜索的遗传算法和局部寻优能力较强的BP算法结合起来,根据GA的交叉、变异和选择算子在全变量空间以较大概率搜索全局解和在解的点附近利用BP神经网络能快速、精确地收敛的特点,融合二者的优点,将二者有机结合,利用遗传算法同时训练神经网络权值和拓扑结构,可以辟免陷入局部极小值,提高算法收敛速度,很快得到问题的全局最优解。 (5) 通过试验对改进后的BP神经网络算法、遗传算法和他们融合方法进行了试验验证。

李玉龙[9]2014年在《基于粗糙集属性约简和优化理论的数据挖掘方法研究》文中研究指明数据挖掘是系统数据分析及信息处理的重要方法,其核心研究问题之一是挖掘模型的建立。为了全面分析问题,往往提出很多与系统相关的变量或影响因素。由于属性变量众多,给系统数学建模和性质分析带来困难。实际上,真实系统的仿真模型主要用于模拟系统的主要变化规律并反映重要的性质特征,因此,在缺乏先验知识的情况下,采用粗糙集属性约简方法确定出系统的核心属性、同时滤除不必要的属性,对于挖掘模型的建立和结合进化优化技术进行实际应用具有重要的意义。论文首先阐述分析了数据挖掘的基本方法、挖掘模型和应用技术,以及粗糙集的基本理论、属性约简方法和智能数据挖掘模型建立技术。在研究经典粗糙集属性约简算法的基础上,结合进化算法的特性,分别建立了基于遗传算法和粒子群算法两种粗糙集属性约简方法,并对这两种方法的性质进行了分析。面向模式挖掘和诊断分析问题,分别采用人工神经网络和过程神经网络建立挖掘模型,并提出了一种基于最优分段逼近的过程神经网络训练算法。在基于测井数据的油藏评价中,利用论文建立的的属性约简优化算法对数据属性和数据进行预处理,使得用于建模的数据维度降低,减少了信息冗余,为挖掘模型的建立提供质量较高的数据源。构建一种基于粗糙集属性约简和过程神经网络的数据挖掘模型,将其用于实际资料处理,取得了较好的应用结果。本课题提出了基于粗糙集和优化理论相结合的属性约简方法,可有效约简冗余属性、降低建模数据维度和计算复杂性。利用人工神经网络、过程神经网络提高实际系统的函数逼近能力以及建模的灵活性和自适应性,将其作为挖掘模型,并与属性约简预处理方法相结合,实现了对大数据量的测井信息关于储层岩性、储层流体性质、储层物性参数的信息挖掘,为基于油田测井数据的油气藏评价研究提供了一种新的方法,具有较大的应用价值。

参考文献:

[1]. 基于粗糙集理论和C4.5算法相结合的遥感影像分类研究[D]. 时王侠. 福建师范大学. 2008

[2]. 基于粗糙集和遗传算法的空间数据挖掘技术研究[D]. 刘潭仁. 重庆大学. 2004

[3]. 面向精准农业的空间数据挖掘技术研究与应用[D]. 陈桂芬. 吉林大学. 2009

[4]. 基于粗糙集理论的土地利用规划决策支持系统模型及其应用研究[D]. 梁本哲. 中国地质大学. 2007

[5]. 道路运输信息系统的数据挖掘方法研究与应用[D]. 郑晓峰. 华南理工大学. 2014

[6]. 基于粗糙集理论的数据分类及其在医学图像识别中的应用研究[D]. 程鹏. 江苏大学. 2007

[7]. 基于启发式遗传算法的属性约简方法研究[D]. 杨悦. 哈尔滨工程大学. 2006

[8]. 基于数值计算方法的BP神经网络及遗传算法的优化研究[D]. 吴仕勇. 云南师范大学. 2006

[9]. 基于粗糙集属性约简和优化理论的数据挖掘方法研究[D]. 李玉龙. 东北石油大学. 2014

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于粗糙集和遗传算法的空间数据挖掘技术研究
下载Doc文档

猜你喜欢