韦艳艳[1]2004年在《分布式数据挖掘的分类器组合问题及相关技术研究》文中指出随着Internet的迅速普及,挖掘分布的数据已经成为数据挖掘领域面临的一个主要挑战。由于节点是物理分布的,处理的是海量数据,同时还要兼顾数据的安全性以及非共享数据的隐私性,分布式数据挖掘(DDM)对多个节点上生成的挖掘模型进行集成的挖掘方式,已经得到越来越多的重视。对于分类问题的分布式挖掘,需要引入分类器组合技术来实现。Stacking框架是其中较有代表性的一种分类器组合方法。本文主要对基于Stacking的分类器组合方法在分布式数据挖掘应用中所面临的一些问题和相关技术进行了研究和探索。所做的具体工作包括: 针对Stacking在分布式挖掘应用中的特点和问题,本文设计了一个用于分布式挖掘的分类器组合框架。该框架采用10-交叉验证方法来消除“用训练数据进行测试”的现象,保证得到的1-层泛化特征反映的是所有本地分类器对样本真实的分类行为。 此外,由于Stacking的性能往往依赖于高维的特征空间,因此它在大规模节点挖掘的应用中需要解决可扩展性问题。基于类的1-层泛化特征能够较好地解决该问题,但它的泛化精度相对较差。本文在对Stacking的1-层泛化机理进行深入研究的基础上,依据分类器泛化性能存在差异的原理,利用分类准确率作为权重值,改进了基于平均后验概率的类向量方法,使得1-层分类广西大学硕士学位论文分布式数据挖掘的分类器组合问题及相关技术研究算法能够更加重视准确高的0一层分类器对样本的预测;其次,本文根据投票表决的原理,提出了基于二分判决的类向量方法,以O一层分类器对每个类预测的二分判决形式表示,通过实验证明它比基于后验概率的类向量方法有更好的分类精度;最后,为克服二分判决的不足,本文还提出基于投票的类向量方法,对0一层分类器的预测实行“投票但不表决”,由1一层分类算法来完成对投票情况的归纳。实验对比测试表明,这一方法在具有明显类分布倾斜的数据集上有很好的泛化效果。 本文的研究工作为实现分布式的分类挖掘,提高挖掘效率提供了理论依据,对分布式数据挖掘在算法扩展的研究与应用上具有科学的参考价值。
束建华[2]2007年在《群体智能及其在分布式知识管理中的应用研究》文中研究说明群体智能是一种由无智能或简单智能的个体通过任何形式的聚集协同而表现出智能行为。它所具有的分布式组织模型对解决复杂组合优化问题、分布控制问题提供了很好的思路。目前对群体智能的研究仍处于初级阶段,但是由于它在许多领域中都表现出令人满意的寻优性能,所以越来越受到相关领域学者的关注。本文首先介绍了蚁群算法的发展历程、理论基础和应用领域,接着简要介绍了其他目前比较流行的四种新型仿生优化算法:粒子群算法、遗传算法、人工神经网络、人工免疫算法,并深入分析了蚁群算法与这些仿生优化算法的异同之处。蚁群优化是人工智能领域中群体智能分支之一,已成功地应用于复杂优化问题的求解,但其在知识发现领域的应用还是一个新的研究课题。本文提出一种新的基于蚁群优化的分类规则挖掘方法,先利用蚁群算法通过对属性约简简化数据集,再使用蚁群算法进行分类规则的挖掘,并用新的规则剪枝方法,提高了分类算法的效率和分类准确率。实验表明该方法是有效的。随着分布式计算环境的广泛应用,其数据和计算能力分布在不同的节点,分布式数据挖掘技术研究成为一个新的研究热点。本文提出了一种基于蚁群算法的分布式分类规则挖掘算法,同时对多个场地的训练集挖掘,不仅可以获得较高的分类准确率,而且可以充分发挥分布式处理速度快和节省集成存储空间的优势。本文最后提出了基于蚁群算法的分布式知识管理系统的多Agent框架模型,并以学生成绩分析为例简单分析了在分布式知识管理中基于蚁群算法的分布式数据挖掘的具体应用步骤。
宾宁[3]2005年在《分布式环境下数据挖掘分类算法研究》文中研究表明分类规则的挖掘是数据挖掘研究领域的一个重要问题,而传统的数据挖掘算法和模式主要采用集中式,这不仅要求有高速的数据通信网络,还会导致响应时间延长以及使数据的私有性和安全性遭受破坏,不适合分布式环境下的数据模式挖掘。因此本文主要从分布式的角度出发,针对分类知识的理论和方法进行了深入研究,提出了有效的挖掘算法。 本文首先提出了一种采用纵向划分数据集和同步更新哈希表技术来建立异构分布式环境下分类决策树的算法DSPRINT,以及采用区间分割和区间筛选技术的DSPRINT改进算法。DSPRINT算法采用属性直方图的数据结构,将类别列表合并到每个属性列表当中,减少了需要驻留于内存的数据量。DSPRINT算法还采用纵向划分数据集和同步更新哈希表的策略,根据最小gini值选出可以用来更新的哈希表项,对其相应条目进行修改,利用哈希表来记录并控制各分站点的节点分裂情况,具有较高的准确率。针对DSPRINT算法处理连续值属性效率较低的缺点,还将DSPRINT算法进行了改进,采用区间评估和区间筛选的思想,通过取样将连续值属性的值域划分成多个区间,估计在各个区间上有无找到最佳分割点的可能,最后在可能找到最佳分割点的区间中逐一搜索,有效地提高了算法的工作效率。对比实验表明,当选取合适的区间数时改进算法和DSPRINT算法在分类准确率上相同;另外,当分站点数目逐渐增多时,两种算法均可以获得较高、稳定的准确率,且改进算法在处理连续值属性时的计算效率要比DSPRINT算法更高。 另外,针对分布式环境中满足单调性约束条件的分类问题,本文将R. Potharst提出的建立单调性决策树的思想在分布式环境中进行拓展,对DSPRINT算法进行补充,增加了修改规则Update,将生成的非单调性决策树修正为单调性。使无需随时增加各个分站点数据集数目,仅插入少量数据项,通过分裂一些叶节点,增加少量分枝即可实现决策树单调化。 本文进一步针对常规分布式数据挖掘系统存在的数据分块、结果集成、安全性等问题,提出将移动代理技术和数据挖掘技术相结合,
许孝元[4]2005年在《分类关联规则归纳算法及应用研究》文中提出随着社会信息化程度的提高,数据量呈指数增长。从大量数据中挖掘有价值的知识在当今信息时代具有重要意义。关联规则挖掘是数据挖掘领域中的重要课题之一。特别是分类关联规则既能用于概念描述又能用于分类预测与决策,在数据挖掘中发挥重要作用。目前分类关联规则挖掘技术在学术界与产业界受到广泛关注。自1998 年出现第一个基于关联的分类算法(CBA)以来,关联分类算法的设计及应用研究一直非常活跃。目前,在关联分类问题上存在的共识是:关联分类的准确度总体上显着地高于传统的决策树分类,但关联分类存在的主要问题是产生太多的关联规则,导致计算速度慢、内存开销大、分类模型难以理解。本文研究分析了现有的分类关联规则归纳算法,给出了关联分类的有关定义及形式化描述,提出基于数据挖掘标准的分类规则质量评价新函数,首次提出挖掘知识要点的新思想, 创立了基于原子关联规则的分类新技术CAAR(Classification based on Atomic Association Rules),从根本上解决了关联分类执行效率低、内存开销大、分类模型较复杂的问题。将CAAR 分类新技术应用于有监督的图像内容分类学习和大规模数据机器学习取得了很好的效果。本文的创新点主要表现在以下五个方面:1)首次提出置信度主导的、基于置信度和支持度加权和的分类规则质量评价函数。目前,在机器学习领域内,广泛采用的分类规则质量评价函数是基于混淆矩阵计算的灵敏度(Se)和选择性(Sp)的乘积。这种传统方法被称为评价分类规则质量的“黄金标准”。然而,从数据挖掘的角度分析灵敏度和选择性后,我们发现传统的方法不及我们提出的基于规则置信度和支持度加权和的新方法。为了在较大的分类关联规则搜索空间上验证我们提出的新函数,采用遗传算法进行了实验。结果表明基于数据挖掘的新函数显着地优于传统的分类规则质量评价函数。2)首次提出挖掘知识要点的新思想。采用原子型分类关联规则导向的知识要点挖掘技术能快速地发现不完全的、非精确的描述性分类知识。知识要点包括通过一次扫描数据集得到的精确原子型分类关联规则和通过组合计算得到的不完全的、非精确的复合型分类关联规则。算法能计算复合型分类关联规则的支持度和置信度的边界值。对于一个复合型分类关联规则,如果规则的支持度和置信度的下界都分别超过支持度阈值和置信度阈值,则称该规则的存在性是确定的;如果规则的支持度和置信度各自的上界与下界之差小于一个给定的常量,则认为规则的度量参数是确定的。因此复合型分类关联规则可分为叁种类型:(1)确定型:
赵征[5]2009年在《网格环境下面向服务的分布式数据挖掘研究与实现》文中研究指明目前,无论是数字化管理的需要还是后工业化进程的要求,都使我们日益面对以前无法想象的海量数据。虽然数据挖掘技术已经在医学珍断、市场与销售、图像筛选、负载预测等领域得到了广泛的应用,但是面对日益爆炸式增长的数据和高度复杂的计算模型,传统的集中式数据挖掘技术已显得有些力不从心,必须利用分布式、并行计算技术将其过渡到新的处理模式上。网格技术和Web服务技术的出现,为分布式数据挖掘的研究带来了新的契机,因为网格技术可以将分散在不同地理位置的各种异构资源有机地整合起来形成一个具有超级计算能力的平台,从而达到计算资源、存储资源、算法资源、信息资源等的全面共享,而Web服务作为一种新兴的Web应用模式和分布式计算模型,正可以用来解决各种异构资源之间的互操作和互通信问题。因此,在网格环境下,将Web服务技术应用到数据挖掘领域是一个全新的理念,利用Web服务机制对服务的发布、发现及管理来达到资源的共享,有效地弥补网格资源的动态性及分布性。本文在深入研究相关理论的基础上,对如何将网格与Web服务技术融合并应用于数据挖掘领域做了初步的探索,主要工作包括:(1)结合数据挖掘的全过程提出了面向服务的基于工作流的数据挖掘管道模型,基于此模型提出并设计了一种新型的面向服务的分布式数据挖掘平台SODDM体系结构,实现了用户可以交互式地完成整个数据挖掘任务的执行。(2)利用Web服务的发布与发现机制设计并实现了面向服务的分布式数据挖掘门户PDDM。构建了私有的UDDI注册中心来对服务资源进行统一的存储和管理,不仅为提供者发布服务提供宿主,同时能为请求者查找服务提供基础。在服务查找时提出了一种新型的服务质量计算模型来度量用户对服务的满意度。(3)基于Weka类库开发了一系列通用的、可扩展的数据挖掘工具,包括数据选择、数据转换、算法选择、算法参数配置、属性选择及结果集的表示。这些工具集可以使用户交互式地参与整个数据挖掘过程,同时也能与数据挖掘服务进行动态组合,完成数据挖掘管道的构建。(4)随着网格与Web服务的融合,越来越多的资源会以Web服务的形式提供,以分布式问题求解环境Triana和开源数据挖掘类库Weka为底层支撑环境,设计并实现了面向服务的分布式数据挖掘系统DDMWS,实现了对PDDM门户中查找到的数据挖掘服务的导入、组合和调用。此外,系统能以工作流形式灵活地构建数据挖掘管道,用来支持交互式、分布式和并行数据挖掘的实现。(5)本文对所提出的SODDM平台进行了有效性验证,利用WAT对PDDM门户进行了定量分析,测试门户能够承受并发用户的数目;利用校园网搭建虚拟网格实验环境,基于该环境对DDMWS系统的可用性及通用性进行了论证,分别采用分类、聚类、关联规则进行了系统验证,结果表明该系统可以有效地解决各类分布式/并行数据挖掘任务。基于上述对本文工作内容的总结及目前国内外对该课题的研究现状,本文研究工作的特色在于:(1)结合数据挖掘领域的特点,提取了一组服务质量参数及计算模型。并定义了服务质量的计算方法,用来为请求者提供满意的服务提供质量担保。(2)构建了私有的UDDI注册中心,用来管理和协调数据挖掘服务、实现服务的发布与发现。在服务发现时,能够为用户查找满足一定服务质量QoS的数据挖掘服务。(3)提出了一种基于工作流的数据挖掘管道模型,基于此模型利用Weka开发了一系列数据挖掘工具。在DDMWS中利用数据挖掘工具集与数据挖掘服务进行动态组合、构建数据挖掘管道、完成数据挖掘任务的执行。
尹洪[6]2015年在《基于数据驱动的卫星故障诊断关键技术研究》文中进行了进一步梳理随着卫星数量的增加以及卫星应用的扩大,作为保障卫星正常工作关键技术之一的卫星故障诊断技术越来越受到重视。另一方面,卫星越来越复杂,庞大,卫星测控技术不断发展,用于卫星故障诊断的遥测数据急剧膨胀,适合于海量数据分析的、基于数据驱动的卫星故障诊断技术成为了当前的研究热点。卫星的故障诊断主要分为故障检测、故障隔离和故障识别叁个阶段。异常检测是卫星故障检测的基本方法,时间序列相似度比较是时序数据异常检测的核心技术之一。动态时间弯曲(Dynamic Time Warping,DTW)算法具有较高的比较精度以及鲁棒性,是目前普遍采用的相似度比较方法,但由于其计算复杂性高,不适合卫星遥测数据的处理。针对这一问题,本文提出了一种基于Map Reduce的DTW并行化算法,实验表明在处理长时间序列时,其相似性搜索的效率和准确度都得到了提升。为了从卫星遥测数据中挖掘出有用的规则,通常需要将时序数据转化为规则获取所需的符号。时间序列符号化技术作为一种重要的离散化技术,是对连续数据进行挖掘的预处理过程。现有的一些典型符号化技术,重点考虑的是对原始序列进行降维,但丢失了大量的原始特征信息,这与卫星故障诊断中的高精度要求是不相符的,并且面对长时间序列,已有的基于关键点的分割方法效率会大大下降。本文提出了一种基于并行分割的卫星时序数据符号化技术,通过快速地寻找序列的关键点来保留原始序列的大部分趋势特征。实验证明,我们的方法不仅满足下边界原理,其符号化结果的分类准确性也有所提高。针对诊断知识库建立和完善的需要,弥补人工获取相关知识的不足,我们研究了诊断规则的自动获取技术。Apriori是经典的关联规则挖掘算法,但面对海量的卫星遥测数据,其性能会大大降低,在单机上甚至无法运行。本文对Apriori关联规则算法进行了改进,结合Hadoop集群计算模式,并行化该算法,并给相关的故障项设置较高的权值,使其能够更加有效地挖掘出与故障相关的规则。实验结果说明,我们的方法能够高效地获取故障诊断规则,通过加入相关的权值,原来不容易获取与故障有关规则的情况也有所改善。针对卫星参数多、故障类别多样的问题,我们研究了高精度的卫星故障识别方法。故障识别的本质是对故障进行分类,现有的分类方法对学习样本要求不仅多而且质量高,卫星系统的实际故障样本由于数量少,很难达到这种要求。支持向量机(Support Vector Machine,SVM)技术能很好地解决小样本的分类问题,但其本质上是一个二类分类模型,而卫星的故障类型是非常多的,因此需要对其进行改进。本文提出了一种基于支持向量机混合投票机制的故障诊断技术,结合故障相关性、SVM以及组合分类器叁种方法来提高故障识别的精度,通过真实的卫星数据测试表明,该方法的漏报率和误报率都大大降低了。
宋旭东[7]2010年在《企业集团数据仓库系统关键技术研究》文中提出企业集团信息化运营过程中积累了大量的设计、生产、库存、销售、采购和财务等业务数据,如何将企业集团海量业务数据转化为决策信息已成为目前企业集团信息化难点和热点问题,数据仓库系统被认为是最好的解决方案。企业集团数据仓库系统是一个复杂的系统,涉及众多复杂的概念和技术。本文就企业集团数据仓库系统中的几个关键技术进行了研究,本文的研究成果为企业集团实施数据仓库系统提供了很好的借鉴作用,有着重要的理论和现实意义。本文的主要工作如下:(1)企业集团数据仓库系统的概念及体系结构的研究。给出了企业集团数据仓库系统的定义,提出了统一视图模型的基本概念,提出了一个基于统一视图模型的数据仓库系统体系结构。(2)数据仓库系统ETL技术的研究。给出了一种新的基于统一视图模型的数据仓库ETL体系结构,提出了一种基于统一视图模型的ETL过程建模和实现方法。同时,针对数据仓库ETL任务调度问题,以数据仓库总的ETL执行时间最短为调度目标,建立了ETL任务调度模型,提出基于同层划分的遗传算法进行模型求解的算法流程。(3)企业集团数据仓库技术的研究。给出了企业集团分布式数据仓库分层结构,提出了一种面向企业集团的分布式数据仓库模型,并总结了分布式数据仓库的实施策略及其关键技术,同时将模型驱动的方法应用到数据仓库模型开发中。(4)企业集团OLAP技术的研究。将模型驱动体系架构的软件开发方法应用到OLAP开发中,该方法在数据仓库系统统一建模框架下,将OLAP设计从逻辑层提升到概念层,在概念层实现OLAP的PIM建模,通过PIM模型到PSM模型及PSM模型到SQL代码转换实现OLAP开发。(5)企业集团数据挖掘技术的研究。提出了一种基于抽样的决策树分类改进算法,使得这种算法在大数据集的情况下也能挖掘出正确的分类规则。将该算法应用到企业生产成本关键工序挖掘上,挖掘出工艺路线中的关键工序和影响钢铁企业成本的分类规则。同时,针对大数据集下的关联规则挖掘,提出了有向项集图的叁叉链表式存储结构和基于有向项集图的关联规则挖掘改进算法,通过东北特钢钢企业集团的客户数据关联规则挖掘应用,挖掘出的客户的购买行为和潜在需求规律。(6)企业集团决策支持技术的研究。给出了基于分布式数据仓库的企业集团决策支持系统整体框架,通过定义决策方案层和决策任务模型层,采用分层策略,降低了决策支持系统的复杂性,采用面向对象的软构件方法,将数据和决策算法有效集成,增强了系统的重用性和扩展性。
易昂[8]2003年在《MAS应用于分布式数据挖掘的研究》文中研究表明传统的数据挖掘基本上是一个本地的数据分析工具,仅能对本地数据集产生一定的理解性或概括性的知识。随着数据存储容量的不断扩大并向分布式方向发展,迫切需要更好的方式和工具来处理和发掘这些日益庞大的分布式数据。自二十世纪九十年代以来,多Agent系统(MAS,Multi-Agent System)逐渐成为分布式人工智能研究的热点,对许多学科与技术的发展产生了深远的影响。作者自2001年起参加湖南省自然科学基金资助项目《基于Web的GIS空间数据挖掘研究》(项目编号:00JJY2059)的工作,主要从事将MAS应用于分布式数据挖掘的研究。 本项研究旨在将MAS技术引入分布式数据挖掘并提出应用策略。论文首先总结分布式数据挖掘技术和多Agent技术;详细研究了MAS的一个具体实现—JAFMAS框架;然后设计并实现了一个基于多Agent框架的分布式数据挖掘(DDM)原型系统。该原型系统是构架于一个基于Java的多Agent系统框架(JAFMAS)之上,实现了在分布式环境中进行数据挖掘的功能。最后,论文针对在形成全局知识时发生决策冲突的情况提出了冲突协调算法。 本文分为叁个部分:第一部分论述了数据挖掘的基础理论。首先,作者评述了数据挖掘领域目前的研究现状、前沿技术以及面临的挑战。随后,着重分析了决策树算法的理论背景以及实现步骤,并给出了C4.5算法的伪码实现。在第一部分的最后,论文讨论了分布式数据挖掘技术。论文在第二部分剖析了一个基于Java的多Agent系统框架(JAFMAS)的实现,在这个框架的基础之上,作者设计了一个用于分布式数据挖掘的多Agent原型系统。论文在这一部分中概括了多Agent技术的基本理论和组织结构。依据这些理论,论文针对在形成全局知识时发生决策冲突的情况提出了冲突协调算法。论文的第叁部分是原型系统试验及试验结果分析部分。论文作者对该原型系统进行了一系列的反复试验。试验结果表明,该原型系统是不仅仅能够满足分布式数据挖掘的要求,而且相对于单纯的数据挖掘算法而言,该原型系统在分类精度、预测能力等上都有较大程度的提高。
张发杨[9]2016年在《基于STORM的流数据分类挖掘算法的研究》文中研究指明随着网络、传感器技术的快速发展与应用,越来越多的流数据正在产生,因此针对流数据的挖掘技术逐步兴起。流数据挖掘是指从大规模、快速到达、异构的数据源中有效地挖掘有价值知识的数据处理技术。本文把面向流数据的分类挖掘算法作为研究重点,以提高流数据分类挖掘效率以及分类精度为目标,既研究算法本身的改进又研究算法基于流数据处理平台Storm的分布式并行化。以提高实时在线流数据的分类挖掘时间效率为目标,将快速决策树算法VFDT部署到流数据计算平台Storm上,设计了VFDT算法基于Storm的分布式并行化方案。通过正确设计Topology中的Spout/Bolt实现各模块的功能,通过为分类Bolt设定多个Task来实现分类模块的并行化;用内存数据库Redis实现模块的有效衔接和决策树的保存;用消息中间件Kafka来提高算法对流数据突增的容忍度。基于该方案的VFDT算法实现与测试结果表明,在Storm集群环境下,VFDT算法的时间效率相对于单机环境有显着提高,而且合理设定分类Bolt的Task可使分类效率进一步提高。针对高维数据集,以进一步提高在线流数据分类模型建立的时间效率为目标,对VFDT算法实施垂直并行化,设计了垂直并行化的快速决策树算法(Vertical Parallelism Very Fast Decision Tree,VPVFDT)。该算法将VFDT算法的属性信息增益的计算做并行化处理,从而提高样本处理效率。在此基础上,通过将VPVFDT部署到Storm平台上运行,更进一步提高了算法的处理效率,也增强了算法的可拓展性。实验结果表明,在Storm集群环境下,VPVFDT算法在一定程度上可以提高高维训练样本的处理效率。以提高VFDT算法的分类精确度为目标,将随机森林算法思想集成到VFDT算法中,提出了基于随机森林的快速决策树算法(Random Forest Very Fast Decision Tree,RFVFDT)。RFVFDT算法采用随机森林的决策树构造标准建立分类器模型,并采用滑动窗口技术来满足流数据的无界性以及避免在算法执行过程中的延迟和数据丢失。通过基于Storm平台的仿真实验验证了RFVFDT算法在分类精度和可拓展性方面的优势。本文所研究的方案和算法能适应大规模流数据的实时性、快速性和无限性,研究内容较先进,研究成果具有一定的理论价值和较好的实用性,可用于电子商务、互联网等拥有流数据的应用场景。
陈慧[10]2006年在《基于概念格的多数据源中分类规则挖掘研究》文中研究说明并行/分布式数据挖掘是针对当前信息量日益增大以及数据所呈现的高维、异构和分布式存储等特性而出现的新的研究课题,分类规则挖掘是数据挖掘领域的重要分支。本文着重对多数据源中的分类规则挖掘问题进行研究。由于概念格具有完备的结构和坚实的理论基础,是知识提取的有效工具,因此采用概念格作为分类问题求解模型。 本文的主要工作如下: 1.研究基于概念格的多数据源中分类规则挖掘方法。考虑到挖掘结果的可理解性并结合具体的实现方案,本文分析了模型表示和规则表示两种知识表示方式,并选择以直观的规则表示方式来描述分类结果。在此基础上引入知识合并思想,提出分类规则的直接融合和同步融合思想以及相关算法,并对这两种思想进行分析比较。最后,选择规则的同步融合策略实现多数据源中的分类规则挖掘。 2.在对大规模数据的分类规则挖掘所涉及的过拟合问题的现象及其产生原因展开分析的基础上,引入剪枝策略,分析预剪枝和后剪枝两种剪枝方法,对概念格模型进行后剪枝,并以实验对剪枝的效果进行了比较和分析,表明了方法的有效性。 3.在上述研究的基础上,提出基于概念格的多数据源中分类规则挖掘实验系统DDM CLASS。
参考文献:
[1]. 分布式数据挖掘的分类器组合问题及相关技术研究[D]. 韦艳艳. 广西大学. 2004
[2]. 群体智能及其在分布式知识管理中的应用研究[D]. 束建华. 合肥工业大学. 2007
[3]. 分布式环境下数据挖掘分类算法研究[D]. 宾宁. 中南大学. 2005
[4]. 分类关联规则归纳算法及应用研究[D]. 许孝元. 华南理工大学. 2005
[5]. 网格环境下面向服务的分布式数据挖掘研究与实现[D]. 赵征. 武汉理工大学. 2009
[6]. 基于数据驱动的卫星故障诊断关键技术研究[D]. 尹洪. 国防科学技术大学. 2015
[7]. 企业集团数据仓库系统关键技术研究[D]. 宋旭东. 大连理工大学. 2010
[8]. MAS应用于分布式数据挖掘的研究[D]. 易昂. 长沙理工大学. 2003
[9]. 基于STORM的流数据分类挖掘算法的研究[D]. 张发杨. 南京邮电大学. 2016
[10]. 基于概念格的多数据源中分类规则挖掘研究[D]. 陈慧. 合肥工业大学. 2006
标签:计算机软件及计算机应用论文; 数据挖掘论文; 分类器论文; 关联规则论文; 数据仓库论文; 大数据论文; 数据挖掘算法论文; 分布式架构论文; 相关性分析论文; 分布式算法论文; 分类数据论文; 并行处理论文; 分布式技术论文; 分布式开发论文; 决策树论文; 数据分析论文;