人工神经网络在数据挖掘中的应用

人工神经网络在数据挖掘中的应用

刘耀辉[1]2017年在《支持向量机与神经网络的融合优化及其在数据挖掘中的应用》文中进行了进一步梳理不可置否,大数据是当下社会最关注的焦点问题之一。云计算,人工智能,智慧城市等新兴行业的背后都离不开大数据算法的支撑与贡献。然而,国内外学者对于大数据算法的横向研究略显不足,这会在一定程度上制约算法发展的广度,故本文以支持向量机(Support Vector Machine,SVM)和径向基神经网络(Radial Basis Function Neural Networks,RBFNN)为研究对象,深入挖掘两种算法之间的关系,并提出一种基于已有RBF网络的优化模型,主要研究内容如下:首先,采用溯源的方法分别研究了支持向量机与RBF神经网络的设计思想、核心参数和优化策略。这有利于从两种算法的本质特征来发现问题,为后文详细分析两者之间的联系及融合出新模型奠定了坚实的理论基础。其次,借助于正则化的理论并结合支持向量机与RBF神经网络各自的核心因素,本文分别从两种网络的构建思想、添加约束条件与公式化推导叁个层面来分别阐述两者之间的关系,从直观到抽象,由浅入深,为提出SRmix(说明:SRmix简称是将SVM与RBFNN各取首字母并结合单词mixture构造而成,表示两种算法的融合)模型构建了扎实的理论框架。接着,论文提出了SRmix模型。相对于已有的RBF网络,SRmix模型做了以下几点改进:第一,聚类支持向量机中的支持向量来获得更精准的隐含层网络中心,同时可以有效地避免RBF神经网络发生过拟合的现象。第二,对于构造推广能力较强的算法而言,网络权值的调整策略要远大于其赋值策略,甚至需要摒弃一些精细的赋值算法。第叁,RBF网络中的扩展常数用核函数为RBF的支持向量机中的扩展常数来替换,并进行双向搜索,这有助于提高算法的参数寻优效率。第四,根据程序的停止条件动态循环地向RBF网络的隐含层添加神经元,逐步改善网络的运算能力,从而有效地解决网络运算能力不足与网络运算负担过重的问题。最后,设计实验来验证SRmix模型的性能。实验分为两个部分:第一,针对UCI基准数据库设计了一系列不同维度数据集的对比实验。第二,将SRmix模型应用于解决一个运动识别的问题。实验结果表明,SRmix模型相比于BP网络和支持向量机具有较高的算法稳定性与泛化能力,它提供了一种切实可行的算法融合思路。

段录平[2]2007年在《基于RBF神经网络的数据挖掘研究》文中提出随着数据库技术的成熟应用和Internet的迅速发展,人们利用信息技术生产和搜集数据的能力大幅度提高,使得从大量数据中挖掘出有用的信息或知识成为一个迫切需要解决的问题。正是这种需求推动了数据挖掘兴起和数据挖掘技术的发展。数据挖掘经常要面对一些有噪声、杂乱、非线性的数据,而神经网络具有良好的鲁棒性、自适应性、并行处理、分布存储和高度容错性等特点,因此神经网络非常适合用来解决数据挖掘的一些问题。本文简单阐述了数据挖掘和人工神经网络的基本理论。在分析数据挖掘各种技术的基础上,对神经网络方法在数据挖掘中的应用进行了研究分析,接着着重研究了基于RBF神经网络的分类数据挖掘方法。在梯度算法基础推导出一种增量式的学习算法,在训练过程中该算法可以自适应调整网络参数。然后在IRIS数据库上进行分类实验,仿真实验结果表明该算法性能较好。在对RBF神经网络训练算法深入研究的基础上,本文采用了两阶段学习策略来加速学习收敛;提出动静相结合的隐含层设计方法来构造出较优的隐含层结构;提出采用误差校正的思想来改进RBF网络输出精度,并给出了其实现算法。并对这些改进算法在UCI数据库上进行了实验和对比分析,实验结果表明改进后的算法其性能均有明显提高。基于对数据挖掘和神经网络技术的研究,开发了一个主要用作实验平台的集成了本文各种算法的数据挖掘系统。本论文研究的基于RBF神经网络的数据挖掘方法具有一定的理论深度和实用价值,尤其创新的学习算法可以为相关的科研工作提供有益的参考。

童翔威[3]2009年在《RBF神经网络在数据挖掘中的应用研究》文中指出随着数据库技术的成熟应用和Internet的迅速发展,人们利用信息技术产生和搜集数据的能力大幅度提高,使得从大量数据中挖掘出有用的信息或知识成为一个迫切需要解决的问题。正是这种需求推动了数据挖掘兴起和数据挖掘技术的发展。数据挖掘经常要面对一些有噪声、杂乱、非线性的数据,而神经网络具有良好的鲁棒性、自适应性、并行处理、分布存储和高度容错性等特点,因此神经网络非常适合用来解决数据挖掘的一些问题。本文简单阐述了数据挖掘和人工神经网络的基本理论。在分析数据挖掘各种技术的基础上,对神经网络方法在数据挖掘中的应用进行了研究分析,接着着重研究了基于RBF神经网络的分类数据挖掘方法。并将遗传算法和RBF神经网络有机结合,利用遗传算法优化RBF隐层中心参数和宽度;同时提出了改进的遗传算法。实验表明改进的遗传算法优化RBF神经网络用于数据挖掘能提高网络的逼近能力和分类准确率。本文研究主要内容如下:(1)介绍RBF神经网络的工作原理以及在数据挖掘中的性能分析。(2)对遗传算法进行了分析和研究,针对基本遗传算法存在容易早熟和局部搜索能力弱等缺点,通过对遗传算法中的交叉算子和变异部分进行改进,比较它们在相同的搜索环境下的性能差异。(3)通过改进的遗传算法来优化RBF神经网络的中心参数和宽度,实验证明,运用此方法可在一定程度上提高网络的逼近能力和准确率。

马刚[4]2008年在《关联规则挖掘在电子商务中的研究与应用》文中进行了进一步梳理随着信息技术和互联网技术的发展,电子商务作为一种新型、高效的商务模式开始普及,现在用户可以在计算机前轻点鼠标就能完成复杂的商品买卖行为,但电子商务在给人们带来方便、快捷的同时也带来了信息过载的问题,尤其是对B2C电子商务而言,用户在大量产品信息中很难找需要的商品或服务。数据挖掘技术可以解决这类问题,通过关联规则挖掘,找出销售的商品之间﹑商品与客户之间的存在内在联系,对于电子商务中个性化商品推荐﹑企业的市场定位以及相应的进销存策略有非常重要的指导意义。本文详细描述了关联规则挖掘的基本理论以及关联规则挖掘的经典算法Apriori算法,分析了在电子商务领域中,Apriori算法存在着规则冗余度大、效率不高和不能挖掘定量规则等问题,文中提出了基于粗集的关联规则挖掘算法,由于粗集理论的特性,该算法能够较好的应用在电子商务领域中,处理好上述问题。本文还重点研究了电子商务发展的一个重要趋势:个性化服务。个性化推荐是实现个性化服务的技术手段,文中介绍了现在流行的几种常用的电子商务推荐技术如基于内容的推荐、基于协同过滤的推荐和基于关联规则的推荐,分析了它们存在的不足之处,并提出了基于关联规则挖掘和ART神经网络的电子商务推荐技术,该推荐技术不仅能根据用户的浏览行为或购买行为进行推荐,还将用户划分成不同的组,根据用户组的特征来进行相关的推荐,本文最后还在该推荐技术的基础上实现了一个原型的电子商务推荐系统,以验证该推荐技术的可行性及应用性。

刘伟[5]2007年在《基于神经网络的信息挖掘模型研究》文中指出数据挖掘是从大型数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术,它能从数据仓库中自动分析数据,并进行归纳性推理,从中发掘出潜在的模式;或者产生联想,建立新的业务模型,帮助决策者做出正确的决策。理论研究和应用实践表明,知识就隐藏在日常积累下来的大量数据之中,然而仅靠复杂的算法和推理并不能发现知识。人工神经网络是目前计算机领域发展迅速并取得众多应用成果的一门新技术,由于其用于问题求解无需事先建模,因此它与数据挖掘的结合为数据挖掘理论和方法的研究指出了一条新的道路。本文对数据挖掘、神经网络的研究现状、发展趋势及应用领域进行了综述,阐述了数据挖掘、神经网络的基本概念、基本模型和传统实现方法。针对数据挖掘具体的研究内容,提出并实现了神经网络数据挖掘中的数据准备的一般处理方法、基于神经网络分类决策树的构造、基于神经网络的分类与预测、基于神经网络的关联规则挖掘和基于自组织神经网络的聚类分析的模型和算法。基于神经网络数据挖掘方法与传统数据挖掘方法相比较,在信息处理能力、关联规则挖掘和表示能力方面均有较大提高。根据基于神经网络数据挖掘的研究成果,并结合大庆油田采油叁厂科研项目,开发了《萨北开发区北二西葡萄花油层水淹层识别系统》。系统以油田勘探开发数据库为底层数据支持,主要包括数据清洗、数据转换、数据抽取、基于神经网络方法的数据挖掘、结果评估和知识表示等功能,实现了水淹层的自动识别,并取得了较好的应用效果。

钟静[6]2006年在《BP神经网络在基于数值模拟科学数据挖掘中的应用研究》文中研究说明在对大规模科学数据进行处理时,往往会因为其具有规模大、特征复杂的特点,使得理解、分析这些科学数据,并从中获取知识变得十分困难,由此科学资料挖掘势在必行。本项目主要研究适合于大规模科学数据挖掘(SDM)的神经网络理论和应用。特别深入研究以独立分量分析(ICA)为主的降维技术、以小波神经网络为主的压缩降噪技术解决科学数据特征复杂不便识别的问题;以同网格结合的神经网络、误差反向传播的BP神经网络、自适应多级自组织特征映像网络为主的分类、聚类技术解决科学数据挖掘中的大规模知识发现问题。提出了面向特殊应用——分子动力学数据模拟的神经网络模型,特别是研究针对科学数据分类、聚类和模式提取问题的神经网络应用。建立实用的科学数据挖掘系统,为从大规模数值模拟数据中提取有价值的信息提供有效的新方法。本文主要研究以误差反向传播BP神经网络处理的分类问题。首先描述了BP网络的基本模型,在传统BP网络的基础上,介绍了用于BP网络中的常见算法:标准BP算法(BP)、附加动量和学习率自适应调整的改进BP算法(BPX)、Levenberg-Marquardt优化方法(LM),并在Matlab上分别对这几种算法进行分析;然后利用一个高维的动物数据集,在Eclipse平台上建立了一个可扩展的用于BP神经网络的分类模型;针对科学数据的复杂性,以及BP神经网络易发生局部最优的缺点,最后,利用LM算法学习时间短的优点,以及进化策略具有良好的全局搜索能力,提出了将LM优化算法与改进的进化策略相结合的神经网络分类模型(CABEN)。该神经网络分类方法较之以往的神经网络分类方法,不仅解决了局部极小的问题,训练速度也更快,同时提高了分类精度。

李艳环[7]2004年在《人工神经网络在数据挖掘中的应用》文中研究表明由于历史数据本身的偶然性和不规则性,数据挖掘需要面对的往往是一些带有噪声的、非线性的、杂乱的数据,处理这些数据刚好是神经网络的优势所在;而神经网络实现过程中需要大量的数据来产生充足的训练和测试模式集以有效地训练和评估神经网络的工作性能,这又恰恰是建立在数据仓库或大型数据库上的数据挖掘所能提供的。由于两者优势互补的关系,开展基于神经网络的数据挖掘研究有很大的实践意义。 对数据挖掘实验方法的研究,是目前人工智能领域的前沿课题,也将是未来智能决策技术的发展方向。一个好的DM方法不但会导致软件工业的一次质的飞跃,而且也会给其他工业乃至世界经济、社会进步的进程产生深远影响。 论文在分析数据挖掘各种技术的基础上,着重研究了人工神经网络在数据挖掘中的应用。在论文中,着重考虑了人工神经网在数据挖掘中的数据准备问题、网络参数的选取问题等等;针对原有BP神经网算法效率较低、容易陷入局部极小等现状;提出了一种改进的BP算法:改进的BP算法着重改进了权值的调整频率及效率:文章在理论上进行了推证,并利用数学逻辑中的“与”问题进行了实验。实验结果证明了改进的BP算法缩短了学习时间、提高了学习效率,并在一定程度上避免了学习中的局部极小问题。

洪晶[8]2007年在《聚类和神经网络算法研究及其在电信业客户消费模式中的应用》文中提出数据挖掘(Data Mining),又称知识发现(KDD),是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是一门新兴的交叉学科,汇集了来自机器学习、模式识别、数据库、统计学、人工智能等各领域的研究成果。其中聚类和神经网络是数据挖掘中最常用的两种算法。论文主要研究了K-means聚类算法和BP神经网络,并将它们结合起来应用于电信业客户消费模式的研究。聚类是一个将数据集划分为若干组(class)或类(cluster)的过程,并使得同一个组内的数据对象具有较高的相似度,而不同组中的数据对象则是不相似的。K-means算法是聚类算法中主要算法之一,是一种基于划分的聚类算法。该算法随机选取K(K为聚类数)个点作为初始聚类中心,通过一个迭代过程完成聚类。如果初始聚类中心选取不合理,就会误导聚类过程,得到一个不合理的聚类结果。论文对K-means算法中初值的选取方法进行了分析和研究,提出了一种新的选取初始聚类中心的方法,提高了聚类准确率。此外,BP算法作为最常用的神经网络算法也是论文研究的重点之一。虽然BP网络预测模型结果不错,但是单纯的BP算法自身存在着一些不足:(1)易陷入局部极值;(2)遗忘已学样本的趋势;(3)学习效率不高,收敛速度慢等。论文将模拟退火(SA)算法来优化BP网络,很好地避免了BP算法的收敛速度慢,易陷入局部极值点的问题。通过实验分析,取得了很好的预测效果。因此,论文首先利用统计学相关分析方法去除建模中的冗余字段,然后建立了一种基于聚类分析和神经网络算法的分类预测模型,并将所建立的分类模型应用到电信业客户消费模式中去,预测出每一位客户最终所属的消费模式类别,能够帮助客户服务人员按照每一类客户群体消费行为的特点提供相应的服务和采取针对性的营销策略,从而根据潜在客户消费模式,对现有客户提供更好的服务,同时发掘出潜在客户及需求,最终为公司带来更大的利润。

胡月[9]2003年在《BP算法并行化及在数据挖掘中的应用研究》文中认为数据挖掘是帮助人们在海量数据中发现信息和知识的工具。近年来数据挖掘技术成了商业智能的核心技术,被广泛应用到了诸多领域,引起了学术界极大的关注。数据挖掘是一个决策支持过程,技术基础是人工智能。目前数据挖掘主要利用人工智能中的一些的算法和技术,包括人工神经网络技术等来进行预测、模式识别、分类和聚类分析。本文主要针对神经网络作为数据挖掘的一种手段,在商业行为趋势预测方面的应用研究。BP(Back Propagation)算法, 即误差反传训练算法,以其良好的非线形映射逼近能力和泛化能力以及易实现性成为人工神经网络应用最广泛的训练算法。但是BP算法也有其明显的缺陷,即训练速度慢、容易陷入局部极值等。通过反复的实验研究和分析发现,通常为了避免初始权值过大,导致训练伊始就使网络处于S型函数的饱和区,使训练陷入局部极小,在选取初始权值的时候,通常选取较小随机数。如果选取的权值范围距离目标极值区域很远,搜索空间越大,目标极值区域越窄,搜索时间就越长,训练速度就越缓慢。针对这种情况,本文提出了首先通过不等量划分权值搜索空间获取全局最小极值区域,在此基础上均衡分配训练样本集进行并行训练的二次并行搜索策略,实验证明这种新的并行算法能在迅速找到全局最小的基础上大大提高收敛速度,得到优于一般并行算法的加速比。此并行算法实现简单有效,能更好地应用于现实问题。本文选用通过商用网络连接起来的PC机,以及并行虚拟机PVM和分布式操作系统LINUX,共同构成了一个机群系统作为并行计算平台。在并行程序的模型上选用了Master/Slave模型。算法并行化方式采用了将训练数据平均分配到各节点机的数据并行方式。 最后,讨论了BP算法在数据挖掘中的应用。将此策略应用于医药物流系统的销售预测,建立了基于并行BP算法的物流销售预测模型。本文详细地讨论了销售预测模型的样本的选择和预处理方法、网络拓扑结构的选定,如输入输出层以及隐含层数和隐含层节点数的选择、网络参数的选择等。最后实现了一个可视化的预测系统,可以在此基础上方便的选择不同训练集重新训练网络,并将训练好的网络用于真实的销售趋势预测,取得了令人满意的效果。

刘仕筠[10]2007年在《基于自组织映射网络和感知机的数据挖掘方法及应用》文中提出随着数据库技术的成熟应用和Internet的迅速发展,从大量数据中挖掘有用的信息成为一个迫切需要解决的问题,数据挖掘的研究应运而生。数据挖掘经常要面对一些有噪声、杂乱、非线性的数据,而神经网络具有良好的鲁棒性、自适应性、并行处理、分布存储和高度容错性等特点,故神经网络非常适合用来解决数据挖掘的问题。本文首先介绍了数据挖掘的概念、过程以及目前数据挖掘中常用的模型与算法,对人工神经网络的基本模型、拓扑结构和学习机制进行了简要的概述。对人工神经网络数据挖掘方法中的数据预处理问题进行了研究分析。讨论了数据清洗、数据集成和转换,重点讨论了数据表示和数据消减问题。聚类指的是把数据库里的对象分组成有意义的子集,使得一个类内的成员尽可能相似,不同类间的成员差异尽可能大。聚类具有无监督学习能力,被广泛应用于多个领域中,如模式识别、数据分析、图像处理以及市场调研等。使用聚类可以发现数据分布的疏密区域,从而找出数据总体的分布模式以及数据间有趣的相互关系。本文对数据挖掘中主要的聚类算法进行了简要介绍,对神经网络中的自组织映射(SOM)神经网络进行了深入研究,并对SOM学习算法进行了优化,在一定程度上提高了网络迭代训练的速度;随后对层拓展自组织映射网络(GHSOM)进行了研究,将灰关联度分析(Grey Relational Analysis)引入GHSOM网络,提出了GRAGHSOM算法。实验结果表明GRAGHSOM算法在高维数据聚类过程中,体现了样本向量各个分量在模型中的重要性,能更精确的进行聚类。本文最后部分对基于感知机神经网络的分类算法进行了研究,讨论了单层感知机和多层感知机网络模型和分类学习算法。并将感知机网络应用于地方天气预报系统中,为飞行训练提供决策依据。

参考文献:

[1]. 支持向量机与神经网络的融合优化及其在数据挖掘中的应用[D]. 刘耀辉. 深圳大学. 2017

[2]. 基于RBF神经网络的数据挖掘研究[D]. 段录平. 哈尔滨理工大学. 2007

[3]. RBF神经网络在数据挖掘中的应用研究[D]. 童翔威. 中南林业科技大学. 2009

[4]. 关联规则挖掘在电子商务中的研究与应用[D]. 马刚. 上海交通大学. 2008

[5]. 基于神经网络的信息挖掘模型研究[D]. 刘伟. 大庆石油学院. 2007

[6]. BP神经网络在基于数值模拟科学数据挖掘中的应用研究[D]. 钟静. 电子科技大学. 2006

[7]. 人工神经网络在数据挖掘中的应用[D]. 李艳环. 重庆大学. 2004

[8]. 聚类和神经网络算法研究及其在电信业客户消费模式中的应用[D]. 洪晶. 景德镇陶瓷学院. 2007

[9]. BP算法并行化及在数据挖掘中的应用研究[D]. 胡月. 重庆大学. 2003

[10]. 基于自组织映射网络和感知机的数据挖掘方法及应用[D]. 刘仕筠. 电子科技大学. 2007

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

人工神经网络在数据挖掘中的应用
下载Doc文档

猜你喜欢