刘寒冰[1]2007年在《数据挖掘中的关联规则算法研究》文中进行了进一步梳理目前,关联规则作为数据挖掘领域中一个非常重要的研究课题,己经取得了令人瞩目的成绩,但在实际应用中,随着数据库规模逐渐增大,出现了随着数据量递增而算法挖掘效率下降的问题,具有应用局限性。因此,必须研究和改进现有的算法,使其具有更高的效率和更广阔的应用前景。本文着重对关联规则挖掘算法进行了研究,在现有算法的基础上,提出两个适应性较强的高效挖掘算法。首先,研究了关联规则中经典的Apriori算法及其改进算法。为了解决这些算法在候选项目集和执行时间方面存在的问题,结合关联规则的性质和布尔向量的关系运算思想,提出了基于布尔矩阵的关联规则挖掘算法(Algorithm Based on Boolean Matrix,简称ABBM)。该算法在挖掘过程中仅扫描数据库一次,而且不产生候选项目集,从而减少了生成频繁项目集的时间开销,提高了算法效率,达到了算法改进的目的。其次,研究了经典的关联规则增量式更新挖掘算法及其优化算法。针对在最小支持度、最小置信度不变的情况下,新增数据集时关联规则更新效率低的问题,提出了一种高效的关联规则增量式更新挖掘算法(High-Efficient Incremental Updating,简称HIUP)。该算法采用AprioriTidList算法来发现新增数据集中的频繁项目集,并通过有效的优化策略对候选项目集进行分类和剪裁,从而减少了候选项目集的数量和扫描新增数据集的次数,提高了算法的更新效率。为了验证算法的性能,本文分别采用合成数据库和真实数据库对提出的新算法及其同类算法进行了对比测试。试验结果表明,ABBM、HIUP算法在效率上明显优于同类算法,而且挖掘的数据量越大,算法效率越高,具有较好的可扩展性和较广阔的应用前景。
鲍静[2]2007年在《关联规则挖掘及其在图书流通数据中的应用研究》文中指出本文针对现有图书馆自动化系统存在着数据分析能力欠缺的问题,将数据挖掘技术引入到图书馆个性化服务系统,并进行了深入的理论和实践研究。论文运用数据挖掘中的关联规则技术,通过应用了Apriori算法对安徽省图书馆的借阅数据库进行挖掘,从中发现了一些有价值的规则,为图书馆读者服务提供具有指导意义的信息,并提出新书推荐模型。论文的主要内容如下:(1)将数据清洗、数据压缩、数据还原技术运用到图书流通数据预处理过程中,通过应用对数据预处理技术有了进一步的认识;(2)通过对读者借阅数据的关联挖掘,挖掘出各年龄层次、各职业、各学历层次及不同职称的读者对图书馆图书资源利用的关联规则,并提出了读者兴趣模型;(3)在挖掘过程中运用了Apriori算法,生成二项频繁项集并通过连接规则,剪枝各候选项集,生成K频繁项集。(4)引入兴趣度,对挖掘出的关联规则做进一步分析,分析正相关关联规则、负关联规则,并根据兴趣度来分析规则的有效性。(5)在Apriori算法的基础上设计了读者借阅挖掘工具,并实现了其中基于数据压缩技术的数据预处理和应用Apriori算法的关联规则挖掘。应用该工具可以实现对读者兴趣度的分析,从而为图书馆读者个性化服务提供指导。
杨余垒[3]2017年在《改进的关联规则算法在慢性病数据挖掘中的研究》文中研究说明关联规则挖掘作为数据挖掘技术重要的研究分支,其目的是从大量数据中发现数据项之间的相关关系。由于挖掘产生的规则形式简单、易于理解,关联规则技术的研究和应用得到了蓬勃发展。我国慢性病患者人数众多。为了有效利用慢性病患者的医疗数据,为预防和管控慢性病提供科学依据,本文选取了慢性病之一的高血压进行数据挖掘方面的研究。本文主要探究高血压患者体征与心血管风险水平之间的相关性,以及高血压与其他慢性病之间的关联性,重点完成了以下工作:(1)查阅国内外相关文献,分析了数据挖掘技术在慢性病等医疗领域的研究现状,总结了我国现阶段在医疗数据分析中存在的问题,确立了论文研究的主要内容及路线。(2)对数据挖掘技术及关联规则的相关理论进行阐述,重点研究了关联规则挖掘中的Apriori算法,分析了该算法在性能方面的瓶颈,并探讨了现有的优化方法,为算法的改进拓宽了思路。(3)针对Apriori算法运行效率上的缺陷,进行如下改进:采用聚簇矩阵压缩存储事务数据库,避免多次扫描原有的事务库;引入事先剪枝策略以产生较少候选项集,避免频繁项目集的大量连接的开销;添加慢性病类型这一约束条件,减少频繁项目集和无关规则的产生。最后通过Matlab仿真实验对比分析,证明了改进算法能够有效降低候选项目集的数量,并提高运行效率。(4)设计慢性病数据挖掘方案,将改进的Apriori算法应用到对高血压患者的体检数据处理中。对数据进行预处理,设置最小支持度和置信度阈值,给定约束和相关度等条件,进行关联规则挖掘。利用Logistic回归分析方法,探究慢性病之间的相关性,将分析结果与数据挖掘产生的规则对照,发现两种方法产生的结果相吻合,证实了实验的有效性。实验最终挖掘出符合医学规律的关联规则,通过它们可以准确判断高血压患者的心血管风险水平,预估所患慢性病的并发症,为医生的诊断提供了有价值的参考,为实现自动化判诊提供了理论研究基础。(5)开发了慢性病数据挖掘系统,并将改进的Apriori算法融入。系统能够探究慢性病医疗数据背后隐藏的知识,辅助医生决策,具有一定的实用价值。
王路漫[4]2008年在《数据挖掘技术在图书馆中的应用研究》文中提出随着信息技术的发展,图书馆中需要存储和传播的信息量越来越大,信息的种类和形式越来越丰富。由于用户对信息和文献资料类型的需求越来越多样化、越来越广泛,因此个性化的信息服务成为了新的发展趋势。个性化服务需要用户的兴趣、图书间的关联等信息的支持,而这些信息能够通过对图书馆的日常业务数据分析和挖掘获得。本文以图书馆借阅数据为对象,在对其特点分析的基础上,选择适用于图书馆数据的挖掘算法——关联规则中的FP-growth算法和聚类算法,并对FP-growth算法进行了减化;以北京林业大学图书馆为例,对其借阅数据进行挖掘,应用关联规则算法在图书馆优化书架书库的管理、发现学科间的隐性关联、指导读者的借阅行为和提供个性化服务等方面,应用聚类算法在图书馆对读者借阅规律的分析和把握、馆藏图书质量判断等方面均获得了具有积极意义的信息。同时,也证明所采用的算法的有效性与可行性;最后,设计和实现了图书馆数据挖掘信息系统,该系统将提高图书馆个性化服务的质量和水平,更好地满足读者的借阅需求。
焦亚冰[5]2008年在《关联规则挖掘算法的研究与应用》文中提出随着计算机技术,特别是数据库技术的发展,在各行业数据库中积累了大量的数据。如何发现隐含在这些数据中的规则和知识,并辅助决策,成了要解决的问题。数据挖掘技术的出现和发展为此提供了有力的支持。数据挖掘就是从大量的、不完备的数据中,提取出事先未知的、但具有价值的信息和知识的过程。关联规则挖掘是数据挖掘的一个重要研究分支,主要用于发现数据集中项之间的相关联系。由于关联规则形式简洁、易于解释和理解并可以有效地捕捉数据间的重要关系,从大型数据库中挖掘关联规则问题已成为数据挖掘中最成熟、最重要、最活跃的研究内容。教学评价依据一定的教学目标与教学规范,对教学活动以及教学成果给予价值判断。教学评价首先应该根据教学效果,确立教学优秀的质量标准体系,进而建立一套分类判定标准,其次应该能够发现评价标准和结果之间的规律,便于改进现有教学环节或过程中的不足之处。数据挖掘是一种决策支持过程,是深层次的数据信息分析方法,将数据挖掘技术应用于对教学的评价无疑是非常有益的,它可以全面地分析测试评价结果与各种因素之间隐藏的内在联系,通过数据挖掘分析,其评价结果能给教学带来前所未有的收获。本文首先对数据挖掘作了讨论,包括数据挖掘的概念、数据挖掘的过程和数据挖掘的任务等。然后,对关联规则挖掘算法做了深入的研究,分析了关联规则中经典的Apriori算法,指出了挖掘中的关键步骤及该算法的不足。并针对Apriori算法的不足,提出了对Apriori算法进行了改进,使得寻找频繁项集的工作得以分布化,并行化。最后将关联规则数据挖掘的方法运用到教学评价中,从教学评价数据中进行数据挖掘。找到教学效果与教师基本情况的关系,为教师提供有价值的参考,帮助教学部门进行决策,从而更好地开展教学工作,提高教学质量。
张希雯[6]2007年在《基于GIS的空间同位规则挖掘算法的实现及应用研究》文中认为空间数据挖掘(Spatial Data Mining,简称SDM)是数据挖掘的一个重要分支,它对于理解空间数据,寻找空间数据之间、空间与非空间数据之间内在关系,以简洁方式表达空间数据规律起着重要作用。空间数据挖掘面向的是空间数据库,空间数据库是一类重要的、特殊的数据库。地理信息系统(GeographicInformation System,简称GIS)是空间数据库的载体,GIS数据库中含有大量的空间和属性数据。因此,利用GIS作为开发空间数据挖掘工具的平台,能够使空间数据的整合利用更加方便以及知识的表达更加直观。空间关联规则是空间数据挖掘所要发现的一种重要知识。Tobler的第一地理规则描述了这样一种空间依赖性:“所有的事物都是有联系的,一个地方发生的事件总是与它附近发生的事件有关联,并且相距近的事物之间的联系一般比相距远的事物之间的联系要紧密。”如果能从这些数据中找出其规律性或相互联系,就可以反过来推断客观世界的情况。这就是空间关联规则挖掘的任务。一般的空间关联规则研究是基于传统的关联规则,然而这些方法在处理空间关系时是不适用的。同位规则问题的提出,很好的解决了挖掘正确有效的空间关联规则的需要。本论文分为五章。第一章是概述,对空间数据挖掘、GIS以及空间关联规则等概念和理论框架进行简要的阐述。第二章介绍空间数据的相关理论以及GIS与空间数据挖掘的集成模式。第叁章是空间同位规则挖掘算法的研究。介绍了用于处理布尔型空间数据的事件中心模型和拓展到处理空间多维分类数据的同位规则挖掘算法,对后者进行了改进,有效的控制了生成的候选同位模式的规模,减少数据库扫描次数,从而提高了算法的效率。第四章是改进算法在GIS平台上的实现,并以北京市大兴区2005年的经济普查数据为例,分析工业、餐饮业和学校叁者间的空间分布规律,得出相关结论。第五章是对本文的工作、创新点以及下一步的研究方向进行总结。
苏蕊[7]2007年在《数据挖掘中关联规则算法的研究》文中研究指明现代科技发展的日新月异,给人们带来了便利的同时也产生了海量的数据,为了更好的理解这些数据并使其为人们所用,KDD和DM技术应运而生。关联规则挖掘是DM中的一个重要的研究方向,而频繁项目集的挖掘又是关联规则算法的核心问题。本文对关联规则和其经典Apriori挖掘算法进行了详细的阐述,研究、总结了经典挖掘算法的特点和局限性,并在此基础上提出了两个改进算法——基于粒计算的关联规则挖掘算法和基于遗传算法的关联规则挖掘算法。基于粒计算的关联规则挖掘算法引入粒计算的思想,即把事务数据库中每一个项看作一个粒,通过扫描一次数据库得到所有项的位图表示,利用粒的“与”和“或”运算求项集的支持度,采用循环判断的方法,将满足条件的粒直接归入频繁K-项集中,无需生成候选项集Ck。该算法优点在于只需扫描一次数据库,利用粒计算求项集支持度,只需存储频繁集,大大减少了时间耗费和空间占用,从而提高了规则挖掘的效率。同时,针对许多应用由于多维数据空间数据的稀疏性,在低层或原始层数据项间很难找出强关联规则,本文提出了基于粒计算的多维多层关联规则挖掘算法。在对多维属性进行概念分层下,该算法采用基于粒计算的规则挖掘方法来挖掘每一层上的关联规则,并且在计算高层次上项的支持度时应用了粒的层次关系,从而改善整体挖掘效率。基于遗传算法的关联规则挖掘算法,是在对传统遗传算法进行改进的基础上,将其应用到关联规则挖掘中。该遗传算法提出了一种自适应变异率方法,避免了进化早期出现的高适应度个体的过度复制而陷入局部最优值,并且改进了个体选择方法,具有较强的实用性。最后将其应用到关联规则挖掘中进行了相关实验,验证了在处理大规模项目集时基于遗传算法的关联规则挖掘方法的高效性及可靠性。
单明辉[8]2008年在《改进的关联规则算法在采购数据挖掘中的应用》文中研究指明信息化社会的到来,数据存储量急剧上升。然而,尽管面临大量(甚至是海量)的真实、有价值的数据,决策者却很难从这些数据中提取出有价值的知识,因为这些数据从表面上看,往往是杂乱的、单维的。面对这一挑战,数据挖掘应运而生,随着计算机性能提高、成本下降以及数据管理技术的成功运用,数据挖掘正越来越多的应用于各类决策体系中。数据挖掘有许多研究方向,关联规则挖掘是其中最活跃的研究方向之一,它反映了大量数据中项目之间的有意义关联或相关联系,其中最经典的算法是Apriori算法。但是该算法在挖掘频繁项集时需要产生大量的候选项集,多次扫描数据库,时间空间复杂度过高。针对这一局限性,如何提高挖掘算法的效率就成为了关联规则挖掘研究的核心问题。本文对关联规则挖掘算法进行了深入地研究,提出了一种改进方法,并将此方法应用于上海大众汽车有限公司采购信息的数据挖掘中,得到可供决策参考的关联规则。本论文具体工作如下:1.理论介绍。对数据挖掘和关联规则的基本理论进行了详尽的阐述,通过理论介绍为算法研究和系统应用奠定了基础。2.算法介绍和改进。在理论认识的基础上,深入分析了关联规则挖掘经典算法Apriori。针对关系数据库中关联规则挖掘的特点,提出了一种基于编码的新算法Coding-Apriori,对其从理论、流程各方面进行了详细介绍并演示了其实现步骤。最后通过实验将Coding-Apriori算法和Apriori算法进行了比较,验证了改进算法的有效性和优势。3.系统应用。针对上海大众采购信息数据库,设计开发了一个简易的专业数据挖掘系统,系统可以选择性地采用经典的Apriori算法和新提出的Coding-Apriori算法进行关联规则的挖掘。系统应用部分既是对算法研究和改进的一种实际验证,又是对数据挖掘应用领域的一种开拓,实现了理论研究与实际应用的结合。
马强[9]2007年在《关联规则挖掘算法研究和应用》文中认为数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,其主要目标是从大型的数据库中挖掘出对用户有价值的模式。在事务数据库中挖掘关联规则是数据挖掘领域中一个非常重要的研究课题。本文对数据挖掘技术,尤其是关联规则数据挖掘技术进行了系统、深入、全面、详尽地分析和研究,主要包括以下一些内容:第一、数据挖掘技术的分析与研究。在数据挖掘基本概念的基础上,对数据挖掘常使用的技术和研究的对象进行了详细地分类、归纳和总结,对数据挖掘技术的国内外研究现状进行了广泛而全面地归纳和分析,对数据挖掘技术的未来发展趋势和热点研究领域进行了总结和探讨。第二、关联规则数据挖掘技术的分析与研究。在介绍关联规则基本概念的基础上,对关联规则的Apriori算法进行了详细地分析和研究,并就目前针对提高该算法效率的各种优化技术也进行了详细地描述。第叁、提出一种从大型数据库中挖掘关联规则的改进算法LApriori算法,该算法以经典的Apriori算法为基础。文中给出了新算法的理论依据,以及整个算法的思路,该算法与Apriori算法相比具有如下特点:(1)对整个数据库只需访问一次;(2)k-频繁项目集的挖掘可通过(k-1)-频繁项目集得到,而无需再次扫描数据库;(3)采用二进制的存储方式将节省大量的存储空间,二进制的运算速度也可以节省大量的时间。理论分析表明,改进后的LApriori算法的应用效率高,实验结果也表明改进后的算法效率高,而且随着数据库规模的扩大,效率提高更加明显。第四、将改进算法应用到车辆违章数据挖掘中。
李超[10]2017年在《多尺度关联规则挖掘理论与方法》文中提出关联规则挖掘是数据挖掘领域的一个重要分支,广泛应用于互联网、金融、生物信息等研究领域。关联规则挖掘旨在从样本集中找出隐藏在数据背后频繁出现的相关关系与模式。多尺度关联规则是典型的跨学科课题,其实质是利用关联规则技术多尺度、多层次地剖析数据之间相互关系,研究尺度转换过程产生的尺度效应问题。多尺度科学已经在关联规则挖掘领域取得了可观的进展,提出了一些多尺度关联规则挖掘理论和尺度转换方法,但研究大多集中在空间、图像类型的数据上,对于一般数据的多尺度数据挖掘研究较少,这限制了多尺度科学在数据挖掘领域的研究和发展。论文将多尺度科学与关联规则挖掘相结合,进一步研究面向更为广泛的数据类型的多尺度关联规则理论与方法。围绕多尺度科学的研究核心,依据层次理论提出广义尺度定义,实现一般数据集的多尺度划分,分析尺度转换的原因和分类,提出多尺度关联规则挖掘的实质;引入包含度概念,提出基于包含度的相似度理论,在此基础上提出基于相似度的频繁项集处理方法;将多尺度关联规则挖掘理论作为指导思想,基于高斯金字塔法提出多尺度关联规则的尺度上推挖掘算法,基于叁次卷积法提出多尺度关联规则的尺度下推挖掘算法,最终实现知识的多尺度转换。本文以多尺度关联规则挖掘为研究重点,研究多尺度关联规则挖掘理论体系,探索多尺度关联规则尺度转换方法。主要完成了以下几个方面工作:1)探讨多尺度关联规则挖掘理论体系传统的关联规则挖掘没有深入研究数据的多尺度特性,已有的多尺度关联规则挖掘理论和方法大多应用于空间、图像数据,对一般数据类型的多尺度关联规则挖掘理论较少。针对上述问题,从尺度、数据的多尺度、尺度划分、尺度转换和多尺度关联规则的定义及挖掘实质四个方面研究多尺度关联规则挖掘理论体系。首先,基于层次理论提出广义的尺度定义,利用数据的四种尺度类型对一般数据进行多尺度处理,构建多尺度数据集。在此基础上提出尺度划分以及多尺度数据集之间的父子、祖孙关系的定义。其次,从定义、原因和分类叁个方面分析多尺度关联规则尺度转换;最后,提出多尺度关联规则的定义和挖掘的实质,为后续研究工作提供理论基础和实现方向。2)提出基于相似度的频繁项集处理方法引入包含度及相似度概念。基于包含度给出相似度的计算方法,结合加权平均的思想,提出基于相似度的频繁项集处理方法。该方法在一定程度上防止尺度转换过程频繁项集的丢失,提高尺度转换结果的精度。3)提出多尺度关联规则挖掘算法以多尺度关联规则挖掘理论体系为理论基础,以尺度转换为核心,基于高斯金字塔法提出多尺度关联规则尺度上推算法MSARSUA(Multi-Scale Association Rules Scaling Up Algorithm),基于叁次卷积法提出多尺度关联规则尺度下推算法MSARSDA(Multi-Scale Association Rules Scaling Down Algorithm)。算法实现了关联规则挖掘知识的多尺度化,相对于传统的关联规则挖掘方法,其在准确率和执行效率等方面具有明显的优势。4)验证分析多尺度关联规则挖掘算法采用UCI数据集、IBM数据集和真实数据H省全员人口数据对多尺度关联规则挖掘算法进行验证。实验结果表明算法MSARSUA和MSARSDA具有良好的性能,在效率上比Apriori算法和FP-Growth算法提升约90%。算法MSARSUA相对于算法SU-ARMA在覆盖率上改善约8%,在F1-measure值上改善约3%,在平均支持度估计误差上改善约2%。证明算法是有效且可行的。
参考文献:
[1]. 数据挖掘中的关联规则算法研究[D]. 刘寒冰. 河北工程大学. 2007
[2]. 关联规则挖掘及其在图书流通数据中的应用研究[D]. 鲍静. 合肥工业大学. 2007
[3]. 改进的关联规则算法在慢性病数据挖掘中的研究[D]. 杨余垒. 浙江理工大学. 2017
[4]. 数据挖掘技术在图书馆中的应用研究[D]. 王路漫. 北京林业大学. 2008
[5]. 关联规则挖掘算法的研究与应用[D]. 焦亚冰. 山东师范大学. 2008
[6]. 基于GIS的空间同位规则挖掘算法的实现及应用研究[D]. 张希雯. 厦门大学. 2007
[7]. 数据挖掘中关联规则算法的研究[D]. 苏蕊. 上海海事大学. 2007
[8]. 改进的关联规则算法在采购数据挖掘中的应用[D]. 单明辉. 上海交通大学. 2008
[9]. 关联规则挖掘算法研究和应用[D]. 马强. 太原理工大学. 2007
[10]. 多尺度关联规则挖掘理论与方法[D]. 李超. 河北师范大学. 2017
标签:计算机软件及计算机应用论文; 数据挖掘论文; 关联规则论文; 数据挖掘算法论文; apriori论文; 空间数据论文; 大数据论文; 空间分析论文; 算法论文;