基于粗糙集的时态数据挖掘研究

基于粗糙集的时态数据挖掘研究

冯敏敏[1]2009年在《基于粗糙集和决策树理论的时态增量算法》文中认为时态数据挖掘是数据挖掘中一个重要的研究课题,有其自身的特点,它需要在数据挖掘过程中考虑数据集中各数据之间存在的时间关系。决策树和粗糙集是数据分类的两个最重要的方法,决策树在知识表示上有层次、自然和推理易理解的特点,而粗糙集理论在处理数据模糊和不确定性方面有着优势,对于增量时态数据,我们将借鉴决策树算法思想对转换后的时态序列数据处理,在构造决策树过程中,利用粗糙集理论来优化决策树的构造和规则的提取,从而提出一种新的增量式分类挖掘算法。本文首先给出了与时态数据有关的数学概念以及相关性质,介绍了时态数据转化方法并给出了其改进的算法。然后介绍决策树分类算法和粗糙集基础理论,接着分析了决策树分类算法固有的缺点以及应用于时态数据分类挖掘中的缺点,提出了基于粗糙集与决策树理论的时态增量算法,最后给出算法的应用实例,对股票的数据进行分析,给出实验结果。本文的主要贡献是提出了改进的时序转化方法,在构建决策树的过程中,优化了信息熵的计算,提出了时间特性属性组合的思路和用粗集理论的相关概念对生成的决策树进行剪枝处理思路,在增量数据处理问题上,针对本文的时态数据处理方法,提出对应的增量数据处理方法。本文所做的贡献对于时态数据分类挖掘具有一定的意义。

罗雅博[2]2004年在《基于粗糙集的时态数据挖掘研究》文中指出近年来,几乎在各种领域都需要处理时态数据,对时态的研究也涉及很广。时态数据中包含着很多有用的信息,蕴含着许多潜在的事物发展的规律。为了进行预测,必须挖掘时态数据中隐含的、先前未知的、潜在有用的知识,以掌握事物发展的规律与趋势。很多文献给出了时态型、时间粒度的概念、定义和性质,但如何将这些性质运用在实际应用中,以便充分利用这些性质,提高数据挖掘的深度和广度,这是一个需要解决的问题。本文提出的时态关系模式在这方面作了初步研究,在时态数据理论上的定义、性质和实际应用之间建立了一个转换的机制, 并且运用了粗糙集理论对时态数据挖掘进行了研究。本文的第一章讨论了粗糙集理论和时态数据挖掘的研究现状,并给出了本文的研究内容;第二章给出了与本文研究相关的粗糙集概念和性质;第叁章论述了时态数据与时态知识表达系统,第四章研究了基于粗糙集的时态数据挖掘的几个算法,第五章给出了一个车流量统计分析上的应用。本文获得的主要成果如下:针对粗糙集理论在知识获取上的特点,提出了时态知识表达系统,并研究了时态知识表达系统的周期性,多时间粒度性;给出了设定时态关系模式应遵循的规则;提出了应用粗糙集在时态决策表上进行多时间粒度周期模式挖掘各个环节的七个算法。

谭华[3]2008年在《不确定时态数据挖掘方法及其在证券行情预测中的应用》文中研究指明随着金融全球化与自由化的推进,金融行业的运行效率与水平在很大程度上决定了一个国家的经济竞争力,而信息化技术越来越成为影响金融行业创新能力与发展水平的重要因素。近年来,许多金融机构开始运用先进的信息技术与智能决策支持技术对业务系统中积累的海量数据进行深入分析,以发现各种有价值的规律。数据挖掘技术作为一种新兴的智能决策支持技术,已经开始在金融行业的部分领域得到应用。在此背景下,研究如何从金融数据中挖掘出各种信息,更好地认识、掌握并利用其规律,无疑具有重要意义。与此同时,金融市场的信息具有不确定性众多、非线性和信息数据的模糊性及非结构性等特点。金融市场中的不确定性包含时间的不确定。这些问题都值得研究者们进行深入研究。不确定性方法与数据挖掘技术有一定的重迭性,两者在单独使用时都具有一定局限性。数据挖掘中存在不确定性问题,金融时间序列分析中也存在不确定性问题,并且传统数理统计方法不适用于从大量的数据中主动发现各种潜在规则,而不确定性方法在单独进行预测时会遇到小数据量等问题。本文根据具体选定的证券市场行情预测对象,将不确定性方法和数据挖掘技术的各自优势结合起来,得到一种基于不确定性方法和数据挖掘技术的不确定时态数据挖掘方法(UTDM)。该方法能更好地发挥不确定性方法和数据挖掘技术的优势,为证券市场的预测提供更好的技术分析方法,从而为投资决策者提供更为精确的定量分析结果。在对不确定性方法和数据挖掘技术的相关理论、研究发展现状及不足进行深入讨论的基础上,选取不确定性方法和数据挖掘技术中几种具有代表性的方法:在不确定性方法中选取模糊集方法、模糊相似关系下的模糊粗糙集及灰色理论;在数据挖掘中选取关联规则、神经网络等方法,用于构建证券市场的有效分析方法。在此基础上分别得到模糊相似关系下的模糊粗糙集挖掘预测方法、趋势特征挖掘预测方法、时间序列模糊关联规则挖掘预测方法及多灰色神经网络预测方法,用这些方法分别解决证券市场中短期的个股及股指的预测问题。论文后续部分则以此为基础进行展开。本文通过模糊相似关系下的模糊粗糙集和数据挖掘技术对股票价格进行预测研究,从证券市场的大量数据中得到强规则。利用模糊集和粗糙集方法将股票价格进行预分类,并按时间属性进行分组,通过给出的模糊相似关系下的模糊粗糙集计算每组的真值,利用数据挖掘技术获得候选属性,最终得到相应时间段内的有用规则,根据所得规则预测某一具体时间段内股票价格的变化趋势。将模糊粗糙集扩展到模糊相似关系下的模糊粗糙集,并应用到对股票价格的预测中,能较原模糊粗糙集方法得到更多的有用规则,准确率更高。将股票中的时间序列转换为以价格变动率为变量的时间序列进行分析,并对趋势特征提取、聚类算法进行改进,将时间序列的预测问题转化为频繁和有效特征集来发现问题,进而对趋势特征模式进行挖掘预测,根据连续一段时间内的涨跌情况判断市场的发展趋势。将时间序列模糊关联规则应用于证券市场的交易规则抽取。选用聚类方法对模糊集属性进行离散化,构造模糊集和隶属函数,引入时间维度,提出适合股票交易规则抽取的时间序列模糊关联规则算法,对一定时间段内股票间及行业间的关联关系进行最大限度的挖掘预测。提出将3种灰色预测模型,即残差GM(1, 1),无偏GM(1, 1)和pGM(1, 1)与神经网络预测模型有机组合起来,建立一种新的多灰色神经网络组合预测方法,并通过对中国证券市场综合指数进行模拟预测进行验证,对证券市场综合指数的预测及比较说明了该组合预测精度的有效性。

罗丁[4]2008年在《基于粗糙集的时间序列数据挖掘》文中研究表明近年来,几乎在各种领域都需要处理时间序列数据,对时间序列数据的研究也涉及很广。时间序列数据中包含着很多有用的信息,蕴含着许多潜在的事物发展的规律。粗糙集理论是波兰数学家Z.Pawlak于1982年提出的一种处理含糊性和不确定性问题的数学工具,已成为计算机科学与技术领域中颇具挑战力的方向之一。约简是粗糙集理论的重要内容,通过删除知识库中多余的属性值,来保留知识库中的重要知识,以提高知识的质量,方便用户决策。本文主要研究时间序列数据的属性约简,以及关联规则的挖掘。具体工作如下:(1)时序信息系统从原始离散数据和实时时序信息系统中获取方法的研究和分析,并且形成非时序信息表。(2)对属性约简方法的研究,主要分为传统属性约简和非时间序列信息表的属性约简研究。本文提出了基于信息增益和时间属性优先的属性频率约简策略。(3)对规则获取策略进行了研究。通过分析规则获取的一般方法在直接获得最小规则集时存在的不足,本文提出一个改进的规则获取算法,可以直接获取最小规则集。(4)编写模拟程序对时间序列数据进行了属性约简及规则获取,说明了所提出的改进方法的可行性和有效性。

来升强[5]2006年在《时态数据挖掘及其应用》文中进行了进一步梳理时态数据挖掘中,由于数据对象不仅规模庞大而且内容复杂,研究重点一直都放在方法的可行性上,已有的挖掘方法大多限于如何挖掘出数据内部规律的表现特征,鲜有关于如何挖掘出数据本质规律的论着。经过查阅大量国内外文献,作者发现时态数据挖掘领域的研究尚处于起步阶段。为改变这一现状,提高时态数据挖掘的效率和效果,本文进行了一系列的研究工作。主要的创新可归结为以下几点。 首先,创新地提出了持续事件序列的概念,建立了规范统一的时态数据格式,完全保留了时态数据内在的时域结构。与已有研究不同,持续事件具有两个显着特点:(1)事件的发生并非瞬间完成,而是在一定的时间段内保持发生状态;(2)以个体为基本单位,并将相关的指标作为条件事件集一并记录。 其次,本文提出了一系列的时态数据挖掘方法。在规则挖掘中,本文重新整合了数据挖掘中的关联规则的定义,进一步提出了时态规则挖掘,使其能够适应时域特征更为复杂的时态数据;在聚类分析中,利用粗糙集理论的“等价关系”概念,创新地提出高维数据的粗糙集聚类方法,完全避免了高维数据聚类中的维数灾问题;而在模型挖掘中,借鉴风险模型的建模思想,提出了时态数据的模型化挖掘技术,使数据挖掘具备了捕捉时态数据内在规律的能力。 最后,本文还对这叁类时态数据挖掘方法分别进行了实例分析。对于手机用户的月度消费数据,我们分别进行了时态规则挖掘和粗糙集聚类两类最主要的挖掘方法;上市公司ST事件的时态数据合并了2000年至2005年间的所有中国A股股票的财务报表和市场表现。尽管所涉及的数据规模较大,本文利用模型挖掘,仍然成功的完成了挖掘任务。 本文所得的主要结论有:(1)在现阶段,时态数据挖掘可以完全采用本文提出的持续事件序列格式进行表示。持续事件序列为时态数据挖掘提供了一个统一规范的数据对象格式,不仅有利于方法论研究,更有利于算法设计和比较;(2)时态规则挖掘显着优于静态规则挖掘。这主要是因为时态规则可以提取出事务在时域上的顺序和并发关系,而静态规则挖掘却不能;(3)粗糙集的等价关系从知识分类的观点给出了一种全新的类的定义,借鉴这一观点,本文提出的粗糙集聚类方法可以高效率的完成高维数据分类分析任务,实例分析的结果也同样很有说服力。(4)对于具有复杂内容的时态数据,模型挖掘的优势非常明显,并且模型挖掘的提出极大地开拓了复杂数据挖掘的研究思路。

常毅[6]2008年在《基于粗糙集的时序数据分析方法研究》文中提出粗糙集理论是一种处理不精确、不确定和不完备信息的数学工具,它能有效地从数据本身提供的信息中发现有效的、潜在的知识。将粗糙集应用于数据挖掘领域,能提高对数据进行分析和学习的能力。本文基于粗糙集理论,针对时间序列数据处理技术涉及的关键问题进行了较为深入的研究和探索。用粗糙集理论来进行时间序列数据分析,关键是将时态信息系统转化为适用粗糙集方法处理的传统信息系统。本文探讨了基于粗糙集方法的时间序列挖掘问题,主要包括时态信息系统转换成信息系统以及实时时态信息系统转换成时态信息系统的各种方法。在时态信息系统转换成信息系统转换过程中回溯时间片长度的确定是一个重要的问题,本文在现有的方法基础上提出了一种基于时间粒度的时态信息系统转化方法,有效地减少了转换后信息系统属性个数。属性约简是粗糙集理论研究的一个重要内发。在实际运用中,时序数据库往往是动态变化的,本文针对时间序列数据动态变化的特性,对动态变化的决策表属性约简进行了深入研究,在改进的区分矩阵的基础上,提出了一种增量启发式属性约简算法,能有效的处理不一致数据集的动态更新。论文最后选取UCI数据集进行实验仿真,对动态数据库增量式约简算法进行实验分析,有效地验证了上述算法的有效性。

罗来鹏[7]2004年在《关于时态数据关联规则挖掘研究》文中进行了进一步梳理时态数据挖掘已成为数据挖掘领域一个重要分支和较新的研究方向。目前有关它的关联规则挖掘研究大多比较零散,缺乏统一的理论框架,而且由此所建立的模型及相应算法只是适用于某一特殊的数据类型,缺乏可扩展性;此外,随着Fuzzy集和Rough集理论的引入,如何结合不确定性理论进行挖掘也是尚待探索等等。 本论文,首先通过对基于相关集合事务数据库关联规则挖掘这一方法的研究,借助不确定性推理中包含度理论将之所建立的信任度与Rough集中精度进行对比分析,发现它们在数学计算上是相同的,此外,还推导了信任度的增量计算。 在时间序列挖掘中,借助Rough集理论,将传统的纯数学方法转向人工智能技术与数学相结合的方法。研究了使用Rough集进行挖掘的思想、方法及某些方面的改进,并总结了利用Rough集进行挖掘的常用策略。 其次,为了更好地刻画关联规则的时效性问题,研究了由此而建立的时态型和相应的支持度、信任度及不同类型的时态数据关联规则的描述,通过将它运用于事务数据库中,发现这种描述具有较好的理论分析与实际应用价值。 最后,探讨了模糊思想引入时态数据关联规则挖掘的必要性。

刘昆[8]2008年在《针对时间序列数据的时态关联规则挖掘研究》文中研究说明自80年代开始,数据库技术得到了广泛的普及和应用。随着数据库容量的膨胀,特别是数据仓库以及Web等新型数据源的日益普及,人们面临的主要问题是“数据丰富,但信息贫乏”,即面对浩瀚的数据海洋,却不知该如何有效的地利用这些数据。面对这一问题的挑战,数据挖掘技术应运而生,并显示出强大的生命力。从海量的历史数据中挖掘出其背后蕴含的价值信息对揭发事物发展变化有着重要意义,同时也为科学决策和正确认识事物提供了依据。这些历史数据普遍具有时间性,因此,时间序列数据挖掘研究作为数据挖掘技术研究的重要组成部分,一直以来都受到广泛地重视,成为具有重要理论和实用价值的热点研究课题之一。本文针对时间序列数据的时态关联规则挖掘中时间序列数据表示,频繁序列挖掘,时态关联规则表示和时间序列预测等问题进行研究分析,在频繁序列挖掘和时态关联规则表示等方面取得了一些成果,主要研究工作和研究内容如下:在时序数据中,首先面对的时间区间、时态关系、和时间序列数据表示方法等问题,本文给出了时间序列数据的定义;针对股票交易数据应用,给出了一种相对斜率符号化方法。对已有互关联后继树模型进行了分析,发现此模型能够快速创建并保存挖掘序列的线索,从这个模型中任意分支按线索访问得到的序列是挖掘序列的子序列,根据这性质给出了查询控制机制,尽管如此,一些不需要访问的分支依然被访问到了;针对这一冗余问题,提出了互关联统计线索树模型,互关联统计线索树保存了时间序列的有序性,归并了同类序列,对同类序列创建了线索,避免了查询不必要分支,具有准确定位的特点。本文结合互关联后继树与互关联统计线索树各自优点,提出互关联后继树与互关联统计线索树挖掘频繁序列算法,使挖掘频繁序列的时间复杂度降至为O(可能频繁项的分支数)。对已有的时间序列挖掘思想进行研究,发现对间隔连续序列的研究工作几乎没有开展,本文提出了间隔频繁序列的定义及性质,给出关联加权有向图挖掘间隔频繁序列方法,利用有向图路的有向性保证时间序列有序性,利用加权找出构成可能间隔频繁序列的紧密非频繁序列;使用互关联后继树与统计线索树结合算法对连续非频繁项进行查询、验证、统计,从而得到间隔频繁序列。对时态关联规则进行研究,提出了相对支持度概念,用相对支持度对挖掘出来的连续频繁序列和间隔频繁序列进行表示,获取该时间序列的时态关联规则;利用时态关联规则对时间序列进行预测;通过实验对所提方法进行验证,验证了该算法是有效性、可行性。科技的进步,特别是信息产业的发展,把我们带入了一个崭新的信息时代。随着计算机应用的普及和数据库技术的不断发展,数据库管理系统的应用领域越来越广泛。特别是条形码和信用卡的普及和使用,进一步加速了商业、金融、保险等领域的信息化进程。人们已经用计算机取代了绝大部分手工操作,使信息数据库系统的信息源不断扩大。同时,海量存储设备不断涌现。面对这些海量和繁杂的信息,如何才能从中提取有价值的知识,是人们需要解决的问题。基于数据库的知识发现(KDD)及相应的数据挖掘就在这样的环境下出现了。数据挖掘是从大量、含有噪声的信息或数据中,挖掘出不为人知的规律或知识,从而更好的指导人们的生产、生活。目前,已经被用到各个领域。根据挖掘研究的数据不同,又有不同的分支;其中,有一类数据具有时间特性在里面,称之为时间序列数据,这类数据在日常生活、工作、生产和科技等各个领域涉足。对这类数据的挖掘是十分必要而且有意义的,对它的挖掘,称之为时间序列数据挖掘。时间序列数据挖掘是数据挖掘的一个分支,当然数据挖掘的经典方法对时间序列数据的挖掘有很好的指导作用,但是由于时间特性,不能将其方法全盘照搬到时间序列挖掘中。本文介绍了数据挖掘的一些基本知识,包括数据挖掘的背景、历史,数据挖掘过程;论述了目前比较流行的挖掘算法,比如传统统计方法、可视化技术、决策树、神经网络、遗传算法、关联规则挖掘算法、粗糙集方法、贝叶斯分类方法、模糊集方法、k-最临近分类法对这些算法做了简要的分析,指明各种算法论述的文章,以便读者需深入时查阅。时间数据序列挖掘是数据挖掘的一个重要组成部分,也是目前研究的热点问题之一。本文介绍了时间序列数据挖掘的目的、任务和方法,介绍时间序列数据变换方法、数据相似搜索、聚类/分类分析、数据可视化、时间序列分割与模式发现、时间序列预测等方法,总结了将来的发展方向。最后,对新动态进行了简单介绍。

黄振国[9]2009年在《改进的时态关联规则在财政绩效分析中的应用》文中研究指明传统的关联规则很少考虑关联规则的时间属性。事实上,每个关联规则都有其成立的时间区域,尤其是财政数据与时间属性的关联更加敏感。因此,在挖掘关联规则时附加上某种时态约束会使规则能更好地描述客观现实情况,这样有助于揭示事物发展的本质规律,使得发现的知识更具有现实意义。加上某种时态约束的规则称为时态关联规则。时态数据挖掘作为数据挖掘的一个新的课题,被应用到了许多领域。财政绩效分析是有着固有时间属性的一种分析体系,是非常适合时态关联规则技术应用的一个新领域。财政绩效分析是对财政预算管理水平、财政资金投入与产出结果的比较、支出效益与结构及财政资金与经济发展水平适度性、财政资金规模与速度等多方面状况的综合反映分析,是地方政府财政现实能力与调控能力的具体体现。如果在财政绩效分析过程中不考虑时间因素,就无法正确理解财政资金的收支效益,就不能正确反映财政绩效的内在规律,就没有实际指导意义。比如,对于特定时间区间内财政支出的突发性增加,传统的分析方法会忽视其内在的合理性,而本文所做的工作就能够从这种异常中发现其实际存在的必然性和规律性,从而得出更有价值的信息。根据时态关联规则挖掘的信息给出财政绩效分析简易报告,对于下一步的财政政策导向有十分重要的意义。针对以上问题,本文对适用于财政绩效分析领域中离散属性的带周期规律的时态关联规则发现方法进行了改进。在研究关联规则挖掘算法的基础上,根据财政数据的特殊时间周期性,提出改进了的Apriori挖掘周期性时态关联规则算法MPTAR。并将这一算法应用于财政绩效分析领域,给出财政绩效分析简易报告。与传统分析方法相比,具有客观现实性、技术性高、信息量大、指导性强等诸多优势。本文所做的主要工作概括如下:1、对财政绩效的内容体系进行了全面的概括和分析。2、提出财政绩效分析数据的周期性规律,实现财政绩效数据的离散化。3、在对财政绩效分析固有时间属性进行分析的基础上,提出了财政绩效分析中离散属性的周期计算方法,设计并实现了相关算法MPTAR。4、将本文的研究成果应用于实践:在财政绩效分析中获得了成功有效的应用,并给出财政绩效分析简易报告。

王照飞[10]2009年在《数据挖掘中关联规则的研究与应用》文中指出当今,社会已经进入了网络信息时代,计算机与网络信息技术的飞速发展使得各个领域的数据和信息急剧增加,同时人类的参与使数据与信息系统中的不确定性更加显着。如何有效地实现对数据的分析和处理,如何快速地从数据中提取出隐含的知识,一直是人工智能领域的研究热点。在此背景下诞生的知识发现KDD(Knowledge Discovery in Databases)和数据挖掘DM(Data Mining)给人们提供了一种新的认识数据和理解数据的智能手段。在数据挖掘技术发展繁荣的大背景下,关联规则技术得到了蓬勃发展,并正向着更为广泛而深入的方向继续发展。关联规则挖掘的目的是为了从数据中发现项之间有趣的关联和相关关系,其应用背景从开始的狭义购物篮分析扩展到网站设计与优化、网络入侵检测、关联规则分类、交通事故模式分析、药物成份关联分析、蛋白质结构分析、软件bug挖掘、设备故障诊断等等,其理论研究内容也从最初的频繁模式挖掘扩展到闭合模式挖掘、最大模式挖掘、扩展型关联规则、衍生型关联规则、隐私保护、增量挖掘、挖掘后处理、主观兴趣度度量、相关模式、数据流等多种类型数据上的关联规则挖掘等等。因此,有必要对关联规则相关技术进行比较深入的研究和探讨。本文主要的研究内容如下:1.基于粗糙集和概念格,本文给出了一种挖掘关联规则的新算法。该算法首先通过粗糙集的思想对形式背景进行了约简,然后通过预先给定的阈值,减少属性的个数,从而减少了建格的复杂度和搜索概念的时间。利用概念格本身的信息,计算出了所得到的关联规则的支持度和信任度。2.对于许多复杂系统产生的时间序列,研究序列的局部关联特征往往比原来的研究系统全局特征性模型具有明显的优势。为研究时间序列内部或时间序列局部形态的关联特征,文章借助FCM来软化时间序列属性论域的划分边界,而后用改进布尔型关联规则的并行挖掘算法来发现频繁模糊属性集,最后由多个处理器并行地产生满足最小模糊信任度的模糊关联规则。文章的最后对关联规则的应用前景和发展方向进行了展望。

参考文献:

[1]. 基于粗糙集和决策树理论的时态增量算法[D]. 冯敏敏. 浙江工业大学. 2009

[2]. 基于粗糙集的时态数据挖掘研究[D]. 罗雅博. 湘潭大学. 2004

[3]. 不确定时态数据挖掘方法及其在证券行情预测中的应用[D]. 谭华. 湖南大学. 2008

[4]. 基于粗糙集的时间序列数据挖掘[D]. 罗丁. 南昌大学. 2008

[5]. 时态数据挖掘及其应用[D]. 来升强. 厦门大学. 2006

[6]. 基于粗糙集的时序数据分析方法研究[D]. 常毅. 中南大学. 2008

[7]. 关于时态数据关联规则挖掘研究[D]. 罗来鹏. 西南交通大学. 2004

[8]. 针对时间序列数据的时态关联规则挖掘研究[D]. 刘昆. 云南师范大学. 2008

[9]. 改进的时态关联规则在财政绩效分析中的应用[D]. 黄振国. 河南大学. 2009

[10]. 数据挖掘中关联规则的研究与应用[D]. 王照飞. 辽宁师范大学. 2009

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于粗糙集的时态数据挖掘研究
下载Doc文档

猜你喜欢