分类数据挖掘中若干基本问题的研究

分类数据挖掘中若干基本问题的研究

李仁璞[1]2003年在《分类数据挖掘中若干基本问题的研究》文中认为面对大规模的、高维的数据,如何建立有效的,可扩展的分类数据挖掘算法是数据挖掘领域的研究热点。围绕以上问题,本文对分类数据挖掘中涉及的若干基本问题进行了深入研究,主要包括以下几个方面的内容:提出了一种结构自适应的神经网络特征选择方法。通过交替删除网络中冗余的输入特征和隐结点,使网络结构在特征选择的过程中保持相对良好。实验表明该方法能快速有效删除特征,提高网络泛化性能。提出一种基于粗集理论和神经网络相结合的分类规则挖掘算法。首先使用粗集理论和神经网络对决策表进行两次属性约简,然后使用粗集理论对约简后的决策表进行规则抽取。该方法充分融合了粗集理论强大的规则生成能力和神经网络优良的容错性能。实验表明,该方法快速有效,生成规则简单准确,具有良好的鲁棒性。属性离散化的方法可以分为两类:局部方法和全局方法。局部方法简单易行但效果较差,而全局方法效果较好但算法复杂计算量大。本文提出一种有效的结合两类方法优点的折衷算法,在一种已有基于熵的局部算法基础上加入对决策表数据不一致度的检验,从而使该算法具有了全局化的特性。实验结果表明使用相同的规则生成器C4.5,本文方法比传统离散化方法生成的规则更强壮。对目前广泛应用的基于粗集理论和信息熵的几种规则不确定性度量准则进行了比较分析,通过定理证明了它们之间存在不一致性以及发生不一致时的必要条件,提出了下一步构建更有效的不确定性度量的方向。提出一种基于粗糙集理论的分类别进行规则抽取的算法。首先获得每类数据的属性约简;然后为每类数据构造一个分辨矩阵和一个合并矩阵,通过两个矩阵的交互作用逐类抽取规则。UCI数据库上的实验结果表明,与传统方法相比该算法能够在更短的时间内得到分类精度更高的规则。

郑明超[2]2007年在《数据挖掘技术中分类算法的比较分析》文中进行了进一步梳理分类问题是数据挖掘技术中的主要研究课题。分类是根据数据集的特点构造一个分类器,利用分类器对未知类别的样本赋予类别的一种技术。目前的分类算法主要有统计分类法、决策树、神经网络等。不同的分类方法会产生不同的分类器,分类器的优劣直接影响数据挖掘的效率与准确性。因此,当对大规模的海量的数据进行分类时,选择最有效的分类算法是至关重要的。目前关于数据挖掘的分类算法研究类型可以概括为以下几种:分类算法的综述型;对分类算法的改进型;将某些分类算法进行组合;在小样本条件下的分类算法的实证研究;对某一单一的分类算法的研究与应用型。特别是目前大部分研究者倾向于提出新算法,很少有对算法的使用进行实证分析和比较,对某一具体数据集运用已有的各种分类算法进行对比研究的尚不多见。为弥补这一不足,本文利用多个具体实例,对数据挖掘中的分类问题进行了深入的研究,分析比较各种算法的特性,找出各自的特点。经对比分析,认为神经网络算法的总体分类效果较好。同时在对比分析中,还发现在对于不同类型的数据集,不同领域的数据集,不同的分类模式,不同的比较准则,不同的分类方法都会产生不同的分类结果。因此在对于不同的数掘集进行分类时,必须依据数据集自身的特点和分类的模式选择不同的分类方法,这样才能把误差控制在最小的范围,得到高精度的分类结果。

柴慧芳[3]2007年在《粗糙集下基于信息熵的知识约简算法研究》文中研究表明知识约简是粗糙集数据挖掘中的核心问题之一,本文主要从信息论的角度来研究知识约简问题。首先,研究和讨论了粗糙集理论的代数表示和信息表示,并作了较全面、系统的比较和分析,并且发现一些规律:1)当决策表的条件属性增多时,决策属性集相对条件属性集的条件熵的变化规律呈非严格单调递减性;2)如果知识约简以决策表的核属性集为起点,那么在向约简结果中添加不能约简的非核条件属性时,决策属性集相对约简结果的条件熵的变化规律是单调递减的;3)知识约简后决策表的条件熵等于初始决策表的条件熵。在上述规律的基础上,结合决策表与信息表之间的内在联系提出了一种决策表的启发式约简算法。其次,研究了粗糙集理论的分层递阶约简算法。从信息理论的角度分别证明属性分层递阶不改变信息系统的信息熵和决策系统的互信息,从而使分层递阶约简算法体系具有严格的数学基础。在此基础上,从属性的重要度考虑提出改进的分层递阶约简算法。最后,在分析目前已有的基于粗糙集的属性约简算法后,给出一个新的较为合理的度量属性重要度的计算公式,并分析了该计算公式的性质,然后提出一个较快的属性约简算法。

王占全[4]2005年在《基于地理信息系统空间数据挖掘若干关键技术的研究》文中研究说明空间数据挖掘是指从空间数据库中抽取隐含知识、空间关系或非显式存储在数据库中有意义的特征或模式。该技术在理解空间数据、获取空间与非空间数据间内在关系方面具有重要意义。由于近年来空间地理信息系统(Geography Information System,GIS)广泛地应用到各个行业中,积累大量与空间位置相关的空间数据,因此空间数据挖掘研究已成为当前研究的重要课题。 本论文系统地讨论空间数据挖掘的基本理论,提出GIS中空间数据挖掘系统体系结构和能挖掘多种空间知识类型的多种空间数据挖掘算法,实现一个GIS中空间数据挖掘原型系统——GIS_Miner,论文研究成果可归纳如下: (1)进一步完善空间数据挖掘的理论和技术框架,对其所涉及的问题与方法进行系统的分析和阐述,为全文的研究提供理论基础和方法指导。提出一种包括数据源、挖掘器、用户界面叁层结构的空间数据挖掘体系结构并分析其各模块及基本步骤,阐述从空间数据库中能发现的知识类型。研究空间数据挖掘的方法并阐述各种方法的特点和适用范围,指出空间数据挖掘中的知识可用多种知识表达方法。 (2)研究属性相关下空间离群点挖掘实施模式,介绍离群数据和离群数据挖掘的定义,描述离群数据中的四种主要发现方法,并且研究离群算法在CAD中的实施情况。在空间统计学的基础上,引用属性相关性矩阵理论和R-tree动态索引结构来搜索空间离群点,从而提出多属性相关的空间离群数据挖掘方法,分别从某型摩托车前灯外覆盖件数据和杭州地学数据两方面进行性能分析。 (3)提出空间分类同位规则的方法,首先介绍经典的关联规则,空间关联规则,基于规则空间同位方法,研究基于向量数据的同位规则算法,根据空间关系定义数据挖掘中事务的概念,采用多层参与索引,搜索空间同位规则,从而实现对空间分类数据有效地处理,算法对杭州地区119火灾数据进行试验,并验证算法的适用范围和性能。试验表明,算法可以有效地处理经过离散化后的连续数据。 (4)研究空间同位时序分析的方法,首先介绍经典的时序分析技术,在此基础上分析当今事件序列模式挖掘的方法和应用范围,从而根据事件分布的实际情况,综合序列、同位、关联规则技术提出时序空间同位的算法,通过设置事件重迭窗口,来分析时序序列,对其进行时间复杂度和试验分析,结果显示这种方法能够有效地提取时空相关的知识。 (5)在GIS的基础上,实现空间数据挖掘的原型系统,它具有灵活开放的结构,能够挖掘空间特征、关联及分类等多种知识类型的规则。最后通过在杭州119系统数据上的应用,验证系统的可行性。

杜培军, 高松洁[5]2005年在《高光谱遥感数据挖掘若干基本问题的研究》文中研究说明面向高光谱遥感信息的特点,分析了高光谱遥感数据挖掘的形成和作用,在构建其框架体系与处理流程的基础上,探讨了可以发现的知识类型和典型的挖掘模式,并分析了一些主要挖掘算法和关键技术,最后对高光谱遥感数据挖掘潜在的应用方向进行了探讨。

杜圣东[6]2007年在《基于多类支持向量机的文本分类研究》文中研究说明随着信息时代的高速发展,如何对已有大量自然语言文本进行挖掘,特别是对其按照设定的语义进行正确的归类,已经成为组织大量文本信息的一个关键问题,这就是文本挖掘中很重要的一类任务-文本分类。支持向量机是由Vapnik等人提出的一种学习技术,是借助于最优化方法解决机器学习问题的新工具。它集成了最大间隔超平面、Mercer核、凸二次规划、稀疏解和松弛变量等多项技术。由于其具有全局最优、结构简单、推广能力强等优点,近几年得到了广泛地研究并应用于文本分类、模式识别等领域。但支持向量机最初是针对二类分类提出的,如何将其扩展到多类并应用于文本分类是本文研究的重要内容。本文在对文本挖掘问题进行阐述的基础上,对支持向量机多类分类算法进行了深入的研究,在考察现有多分类SVM算法后,提出了一种基于二叉树基础的多类SVM改进算法,并把改进后的多类SVM用于文本挖掘中的文本分类。己经进行的主要研究工作如下:①研究了文本挖掘的常见技术,并以文本分类为主要任务,阐述了常用的文本分类算法。接下来对支持向量机原理进行了阐述,并对其应用于分类挖掘时的问题及解决方法做了简要分析。②支持向量机多类分类算法的研究,分析比较了目前存在的基于支持向量机的多类别分类方法,包括“一对多”方法、“一对一”方法、一次性求解方法、决策有向无环图方法、基于二叉树的支持向量机多类分类方法等,比较了它们的优缺点及性能。③重点研究了基于二叉树的多类SVM分类算法,详细地讨论了目前存在的几种二叉树多类SVM算法组合策略,在训练时间、决策方案等方面作了对比,并提出了一种基于二叉树多分类SVM树结构的改进策略,在研究过程中,通过数值实验对改进后的二叉树多类SVM与几种常见的多类SVM算法的分类效果进行了比较。④研究了基于二叉树多类SVM改进的文本分类器设计,针对传统二分类SVM文本分类器及多类SVM文本分类器的缺陷,利用本文中改进的多类SVM分类算法作为文本分类器核心算法,并在多类文本分类实验中进行验证。

杨风召[7]2003年在《高维数据挖掘中若干关键问题的研究》文中提出数据挖掘指的是从大量的数据中提取隐含的、事先未知的、并且潜在有用的知识的技术,是目前国际上数据库和信息决策领域最前沿的研究方向之一。在实际应用中经常会碰到高维数据,如交易数据、文档词频数据、用户评分数据、WEB使用数据及多媒体数据等。由于这种数据存在的普遍性,使得对高维数据挖掘的研究有着非常重要的意义。但由于“维灾”的影响,也使得高维数据挖掘变得异常地困难,必须采用一些特殊的手段进行处理。 随着数据维数的升高,高维索引结构的性能迅速下降,在低维空间中,我们经常采用L_p距离作为数据之间的相似性度量,在高维空间中很多情况下这种相似性的概念不复存在,这就给高维数据挖掘带来了很严峻的考验,一方面引起基于索引结构的数据挖掘算法的性能下降,另一方面很多基于全空间距离函数的挖掘方法也会失效。解决的方法可以有以下几种:一个可以通过降维将数据从高维降到低维,然后用低维数据的处理办法进行处理;对算法效率下降问题可以通过设计更为有效的索引结构、采用增量算法及并行算法等来提高算法的性能;对失效的问题通过重新定义使其获得新生。 本文对高维数据挖掘中的相似性搜索、高维数据聚类、高维数据异常检测及电子商务中的协同过滤技术进行了研究,指出了高维给这些领域带来的影响,提出了一些解决问题的方法,具有一定的理论意义和现实的指导意义。 本文的主要工作如下: (1)通过对高维数据特点的分析,提出了一种新的相似性度量函数Hsim(),该函数可以避免在高维空间中分辨能力下降的问题,还可以将数值型的数据和二值型数据相似性的计算整合在一个统一的框架中。并将它与其它的相似性函数进行了比较; (2)结合量化交易数据的特点,提出了一种新的量化交易数据相似性搜索方法,这种算法基于一种称为特征表的结构,对数据有较高的修剪率,能大大提高相似性搜索的速度; (3)提出了一种新的基于用户评分数据的协同过滤算法,并通过实验证明该算法不仅提高了推荐的效率,还对推荐精度有一定的提高; (4)分析了高维数据聚类的算法,提出了基于对象相似性的高维数据聚类框架; (5)对高维对异常检测算法的影响进行了分析,给出了投影异常检测的概念。提出了一种动态环境下局部异常的增量挖掘算法IncLOF,并通过实验和LOF算 摘 要法进行了比较,结果表明在动态高维的环境下,当高维索引结构失效的情况下。能大大提高局部异常的挖掘效率。

王志强[8]2018年在《基于局部中心量度的聚类算法研究》文中研究指明聚类分析是数据挖掘的主流技术之一,它在人工智能领域有着广泛应用。簇的定义和聚类方法的双重多样性致使数据科学发展过程中聚类算法拥有“数量庞大”“类型多样”等特点。一般而言,能将无标签的样本点聚为若干个簇的算法都可以称为聚类算法,人们常根据这些算法的基本思想或基本假设将其分为几个常见的类型:分割聚类法、层次聚类法、密度聚类法、网格聚类法、模型聚类法等。该文提出了一类基于局部中心量度的聚类算法,其创造性成果主要体现在:1)首创性地提出了局部中心量度的概念。局部中心量度是衡量空间中任意点的局部中心程度的量,聚类过程中区分中心区域的点和边缘区域的点有赖于正确估计出样本点的局部中心程度。该文认为,密度聚类算法中选用的样本点密度起着局部中心量度的作用:密度高于预先设定的阈值的样本点被划分为核心区域的点,而密度低于阈值的样本点被划分为边缘区域的点,它们之间相互连接形成最终的聚类结果。经验上,样本点密度较大的区域通常是簇中心区域,而样本点密度较小的区域通常是簇边缘区域。因而,有着完善的数学理论基础的样本点密度最先成为局部中心量度被广泛应用。然而,样本点密度作为局部中心量度存在着缺陷:密度阈值难以先于经验给出,这将导致以样本点密度为局部中心量度的聚类算法对参数敏感;不同的簇可能有着相差较大的最佳阈值,这将导致以样本点密度为局部中心量度的聚类算法难以处理不平衡问题。因此,人们需要设计新的局部中心量度。2)设计了多个局部中心量度。局部中心量度的准确性直接影响到聚类结果的正确性,一个良好的局部中心量度除了能够正确反映样本点的真实局部中心程度外还需要考虑:局部中心量度的稳定性,即不论应用于何种分布的数据,区分中心区域和边缘区域的样本点的阈值相对稳定,易于算法参数的选取,降低算法对参数的敏感度;局部中心量度的健壮性,即计算结果不易受数据分布的不平衡性影响。该文分别从mean shift和局部引力模型出发,设计了稳定性和健壮性更强的局部中心量度。3)提出了局部引力模型和新的聚类算法。基于局部引力模型,该文借助不同的局部中心量度间的多样性,同时使用多个局部中心量度,提出了LGC算法和CLA算法。新提出的聚类算法具有易于调参,结果准确等特点。4)设计了适用于多性能指标体系下的非参数检验方法。衡量聚类算法性能的指标较多,常见的有RI、ARI、NMI等。多种指标之间的数值相互直接比较是没有意义的,如就算法甲的RI值和算法乙的NMI值进行直接比较是没有意义的。该文采用秩转化的方法,提出了叁种不同的计算秩的方法,将不同的性能指标对应的具体数值转化为秩值,通过对秩值进行统计检验完成多性能指标的融合。

霍罕妮[9]2007年在《支持向量机中参数选取的一个问题》文中指出随着计算机和信息技术的快速发展,人们需要花费昂贵的代价收集、存储和处理海量的数据。数据挖掘源于数据库技术引发的海量数据和人们利用这些数据的愿望。用数据管理系统存储数据,用机器学习的方法分析数据、挖掘海量数据背后的知识,便促成了数据挖掘(data mining)的产生。如何从中发现有用的信息,已经成为一个迫切需要解决的问题,数据挖掘技术在这种背景下应运而生。数据挖掘就是在数据库中发现有用的、潜在的、最终可理解的模式的非平凡过程。它是一门交叉学科,涉及机器学习、数学规划、数理统计、模式识别等相关技术。支持向量机(support vector machine,SVM)是数据挖掘中的一项新技术,是借助于最优化方法解决机器学习问题的新工具。它是机器学习领域若干标准技术的集大成者。它集成了最大间隔超平面、Mercer核、凸二次规划、稀疏解和松弛变量等多项技术。在若干挑战性的应用中,获得了目前为止最好的性能。在美国科学杂志上,支持向量机以及核学习方法被认为是“机器学习领域非常流行的方法和成功的例子,并是一个十分令人瞩目的发展放向”。首先本文给出了一种新的计算支持向量机中正则参数和核参数的方法,与已有的一些算法不同,它是将C和γ作为优化问题中的变量来处理,并通过遗传算法和确定性算法相结合来解这个平衡约束优化问题,从而求出支持向量机(SVM)在分类问题中的正则参数C和γ。其中遗传算法用来求解以C和γ为变量的优化问题,而确定性算法对每一对C和γ值求解约束。另外通过数值计算将该方法的的结果与已有的grid search方法进行比较,可以得出用文中所述的方法求得的C和γ值能明显提高支持向量机的泛化性能。

李培培[10]2008年在《基于半随机多决策树模型的数据流概念漂移发现研究》文中认为网络等信息技术的迅速发展和广泛应用产生了大量的数据流,如:超市交易记录、网络搜索请求、电信通话记录等。这些数据流中隐含着丰富的有价值的知识亟待挖掘。分类算法研究作为数据挖掘的一个重要分支,针对数据流的分类规则挖掘研究课题在信用卡欺诈,网络入侵发现等领域具有重要的应用价值。然而,由于数据流具有快速性、无限性、连续性、多变性等特征,特别是其中隐含的概念漂移现象使得大多数传统的分类算法因需要多遍扫描数据库以及存储全部数据,而不再适用。因此,研究高效的数据流分类知识发现算法成为重要的研究课题。本文主要针对数据流的分类问题开展了以下工作的研究:(1)概述了数据流的定义、特点、应用领域、理论基础及其数据处理方法;介绍了概念漂移问题的定义、分类、度量标准等内容;总结与分析了数据流及其概念漂移问题的现状,对未来研究进行了展望。(2)针对传统决策树挖掘算法,在处理数据流时所存在时空性能的局限,提出基于随机决策树模型的半随机化多决策树的增量式分类算法SRMTDS。该算法利用Hoeffding边界不等式,采用启发式方法确定连续属性结点的分割阈值,同时引入朴素贝叶斯方法判断叶子结点类别标识。分析与实验表明,与经典算法VFDTc相比,该算法的空间性能和抗噪能力有显着提高,分类精度有所提升,并且在处理属性维度较大的连续型数据库时,其时间性能也有明显的优势。(3)针对数据流概念漂移问题,以半随机决策树模型为基础,提出处理数据流概念漂移问题的增量式分类算法SRMTCD。该算法采用训练窗口与测试窗口的双滑动窗口机制,利用Hoeffding边界不等式设定噪音与漂移的区分阈值,选择一定的分类函数计算分类错误率对模型进行周期性检测。分析与实验表明,与经典算法CVFDT相比,该算法在保证分类精确度优势的前提下,时间性能与抗噪性能显着提高。

参考文献:

[1]. 分类数据挖掘中若干基本问题的研究[D]. 李仁璞. 天津大学. 2003

[2]. 数据挖掘技术中分类算法的比较分析[D]. 郑明超. 兰州商学院. 2007

[3]. 粗糙集下基于信息熵的知识约简算法研究[D]. 柴慧芳. 昆明理工大学. 2007

[4]. 基于地理信息系统空间数据挖掘若干关键技术的研究[D]. 王占全. 浙江大学. 2005

[5]. 高光谱遥感数据挖掘若干基本问题的研究[J]. 杜培军, 高松洁. 遥感信息. 2005

[6]. 基于多类支持向量机的文本分类研究[D]. 杜圣东. 重庆大学. 2007

[7]. 高维数据挖掘中若干关键问题的研究[D]. 杨风召. 复旦大学. 2003

[8]. 基于局部中心量度的聚类算法研究[D]. 王志强. 华南理工大学. 2018

[9]. 支持向量机中参数选取的一个问题[D]. 霍罕妮. 大连理工大学. 2007

[10]. 基于半随机多决策树模型的数据流概念漂移发现研究[D]. 李培培. 合肥工业大学. 2008

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

分类数据挖掘中若干基本问题的研究
下载Doc文档

猜你喜欢