数据挖掘在离散制造业中的应用研究

数据挖掘在离散制造业中的应用研究

(国核吉林核电有限公司吉林长春130021)

摘要:近年来,数据挖掘作为一种有效的知识发现手段,发展非常迅速。它主要是针对数据库中的历史数据,运用各种数据挖掘算法,分析出对用户有用的知识,并以一定的方式展示出来。而聚类分析作为数据挖掘的重要分支,也得到了越来越多的科学工作者的关注和研究。其作用是将一些对象的集合分成若干个类。那么如何将聚类分析应用于企业,提升企业的市场竞争力,已经成为了一个具有重要理论和实际应用价值的课题。

关键词:离散制造业;数据挖掘;聚类;K-均值法

一、绪论

趋势大师约翰•奈斯比早在上个世纪80年代就说过:“人类正被信息淹没,却饥渴于知识。”面对海量的数据,如何在数据与知识之间建立一种有效的转换,得到有价值的信息,从而帮助我们科学地进行各种决策,成为一个迫切需要解决的问题。在此背景下,数据挖掘(DM——DataMining)应运而生了。

数据挖掘,在人工智能领域,习惯上又称为数据库中的知识发现,也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程由以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。

数据挖掘中的聚类分析聚类是一个将数据集划分为若干类或簇的过程,目的是使得同一个类或簇内的数据对象具有较高的相似度,而不同类或簇中的数据对象则是不相似的。

聚类分析源于许多研究领域,包括机器学习、模式识别、统计学、数据挖掘等。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。

离散制造业的特点21世纪是大信息时代,世界经济发展的两大特点依然是全球化和信息革命,至少在21世纪初的相当一段时间内,世界经济发展的主要特征仍然是以信息革命为基础的全球化。

按照产品制造工艺过程的特点,可以将制造业分为连续制造和离散制造两类。相对于连续制造,离散制造的特点在于,它的产品往往由多个零件经过一系列并不连续的工序加工并最终装配而成。

二、数据挖掘技术

在数据挖掘的基本过程中,略去了真正地用于一个商业应用时需要的步骤后,重点是对数据预处理的优化。一般认为,数据挖掘(真正的生成模式和预测模型的过程)只是将数据转化为知识的过程中的一步。

数据的清洗、集成、选择和转换可以统称为数据准备,在这个阶段需要做的工作是:搜集所有与业务对象有关的内部和外部的数据信息,并从中选择出适用于数据挖掘应用的数据。接着对这些数据进行预处理,一般可能包括消除重复记录和噪声、完成数据类型转换和推导计算缺值数据等。数据挖掘的系统主要分科学研究用数据挖掘平台和商用数据挖掘软件两种,目前,国内外有许多研究机构、公司和学术组织从事数据挖掘工具的研究和开发。

三、数据挖掘技术中的算法研究

对于数据库中属性的分类有不同的方法,从数学的角度可分为离散型和连续型。基于密度的聚类方法(density-basedmethods)与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。基于网格的聚类方法(grid-basedmethods)采用的是网格结构,具有较快的处理速度。竞争学习法(competitivelearning):竞争学习的方法需要先确定两个参数:要聚的簇的数目和每个簇中对象的数目。

四、基于遗传算法的数据挖掘算法的研究

遗传算法遗传算法起源于对生物系统所进行的计算机模拟研究。美国Michigan大学的Holland教授及其学生们受到生物模拟技术的启发,创造出了一种基于生物遗传和进化机制的适合于复杂系统优化的自适应概率优化技术——遗传算法。

遗传算法是建立在自然选择和群体遗传学机理基础上的随机、选代、进化,具有广泛适用性的搜索方法,所有的自然种类都是适应环境而得以生存。遗传算法的应用简单的讲,Holland的遗传算法,通常称为简单遗传算法。操作的简单和作用的强大是遗传算法的两个主要特点。遗传算法的应用特点:遗传算法从问题解的集合中开始搜索,而不是从单个解开始。这是遗传算法与传统优化算法的极大区别。传统优化算法是从单个“初始串”通过“迭代”求出最优解的;容易误入局部最优解。遗传算法有极强的容错能力:遗传算法的“初始串集”本身就带有大量与最优解相差甚远的信息;通过选择、杂交、变异操作能迅速排除与最优解相差极大的串;遗传算法的应用关键遗传算法在应用中的关键问题有如下5个:串的编码方式本质问题是编码结构。基本遗传算法中,一般把问题的各种参数用二进制进行编码,构成“子串”;然后把子串拼接构成“染色体”串。串长度及编码形式对算法收敛影响极大。适应度函数的确定适应度函数(fitnessfunction)也称对象函数(objectfunction),这是问题求解品质的测量函数,需要根据求解对象进行构造。遗传策略由于涉及到多个约束条件,产生的新群体中难免会有不满足条件的个体,将群体中适应度值不等的个体依杂交概率数两两随机搭配,组成父本进行杂交,把产生的子代个体放入待选群体中;若有,则将其加入到新群体中以取代相对较差的个体。通过父代和子代的竞争,可以提高解的收敛速度。停止进化的准则遗传算法是一种反复迭代的搜索算法,通过多次进化逐渐逼近最优解而不一定恰好等于最优解,因此需要终止条件。遗传算法可以采用多种方法来结束算法的执行。

五、数据挖掘应用于离散制造业

聚类模块的逻辑结构原始数据即企业的历史数据,主要是数据库中的数据。数据仓库这部分就是通过对企业的历史数据进行分析,建数据仓库。聚类分析部分主要是进行聚类操作的设计和实现。

在原始数据这层主要是对企业的历史数据进行主题分析,即根据离散制造业的业务特点来确定可以进行聚类分析的主题域及其内容,包括主题域的公共码键、主题域之间的联系、充分代表主题的属性组和系统边界的确定。中间这一层,就是根据上一层已确定好的主题域,对数据进行分析,建数据仓库。聚类分析这一层,就是在数据仓库的基础上,将聚类分析所需要的数据形成数据集市。在数据集市上,聚类分析模块进行各种聚类操作的设计和实现。

数据仓库设计描述在制造业中,有些业务部门数据量非常大,比如物料出库入库信息,产品订单信息,不合格品信息等等,为了充分利用这些大数据量的表,从中抽取过滤得到需要的信息,我们提出构建数据仓库的思想。

数据仓库的概要设计数据仓库是一个面向主题的、集成的、不可更新的、随时间的变化而不断变化的数据集合,它着眼于有效地抽取、综合、集成和挖掘已有数据库的数据资源,服务于企业高层领导管理决策分析的需要。数据仓库和传统数据库不同,它不是静态的概念,只有把历史数据中隐藏的信息及时交给使用者,供他们做出相应的决策,信息才能发挥作用才有意义。企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础的。

数据仓库的建立数据仓库的建立是一个由数据驱动、以技术支撑并满足应用需求的不断增长和完善的开发过程,其基本框架。

聚类模块功能描述通过分析,我们确定了五个主题域进行聚类分析:供应商、订单、不合格品、客户和成本核算。聚类模块的主要功能是:使用改进后的K-Means算法,在这五个主题域进行聚类操作。

供应商等级聚类供应商等级聚类子模块的主要功能是对供应商进行等级聚类,并将聚类得到的概要结果及详细结果展示出来,同时还可以查看物资选购的对应情况。

订单聚类订单聚类子模块的主要功能是对订单进行等级聚类,将聚类得到的概要结果展示出来。

不合格品聚类不合格品聚类子模块的主要功能是对不合格品进行等级聚类,然后将聚类结果展示出来。不合格品相关数据统计实体化视图含有4个字段。

标签:;  ;  ;  

数据挖掘在离散制造业中的应用研究
下载Doc文档

猜你喜欢