数据分群论文-李慧玲

数据分群论文-李慧玲

导读:本文包含了数据分群论文开题报告文献综述及选题提纲参考文献,主要关键词:态势评估,模糊-C均值,流形距离,双向长短期记忆网络

数据分群论文文献综述

李慧玲[1](2019)在《基于大数据处理的态势数据管理与目标分群技术研究》一文中研究指出随着电子信息技术的快速发展,越来越多的通信技术被应用到战场中,这就导致战场监控系统获取的信息愈发复杂而庞大,且变化迅速。基于一级数据融合的处理系统主要提供战场各实体目标的作战信息,而决策者需要了解的是各层次的群体作战信息,为了帮助决策者快速掌握当前的战场形势,如何高效而及时的对海量信息进行分析整理成为了研究重点,也成为了态势评估技术的研究难点。本文以态势评估系统中的目标意图识别技术和目标分群技术为主要研究对象,重点优化了现有目标分群技术中存在的聚类数目未知、初始聚类中心敏感度高和距离度量标准单一的问题,同时将深度学习引入到目标意图识别算法中以提高评估准确性和实时性。论文研究内容主要分为五个部分。1.分析了态势评估系统中的态势觉察、态势理解和态势预测这叁个功能模块,根据战场需求给出了态势评估系统框架图,并对框架图中的两大主要技术模块进行了说明,对各个模块经典的算法进行了分析比较。2.对迭代自组织数据分析(Iterative Self-Organizing Data Analysis,ISODATA)算法进行了分析,发现该算法虽能动态调整聚类数目,但是存在对初始值敏感,距离度量标准单一的问题,因此在该算法的基础上进行了改进,提出基于流形距离的最大最小值迭代自组织数据分析(Maximum and Minimum Iterative Self-Organizing Data Analysis Based on Manifold Distance,MFMM-ISODATA)算法。采用流行距离代替常用的欧氏距离,通过预聚类来选取初始聚类中心。最后通过两组数据集将改进后的算法与迭代自组织数据分析算法进行了仿真对比分析,通过实验证实,改进后的算法在对小编队目标进行聚类时具有更好的性能。3.对模糊C-均值(Fuzzy C-Means,FCM)算法进行了分析,针对算法存在的无法动态调整聚类中心数目和易陷入局部最优的问题,在该算法的基础上进行了改进,提出基于间隔统计的粒子群快速搜索模糊C-均值(Particle Swarm Optimization Fuzzy C-Means Algorithm Based on Gap Statistic,PSO-GSFCM)算法。最后通过两组实验证实,在融合了粒子群(Particle Swarm Optimization,PSO)算法和Gap Statistic算法之后,改进后的算法能更好的识别出编队的队形,在性能上更优于模糊C-均值算法。4.不再使用传统的目标意图识别方法,将深度学习算法应用到战场环境中对目标意图进行识别。采用了基于注意力机制的双向长短期记忆网络(Bi-directional Long Short-Term Memory based on Attention Mechanism,AM-BiLSTM)算法,缓解了双向长短期记忆网络(Bi-directional Long Short-Term Memory Network,BiLSTM)算法隐藏层不能太深带来的问题。双向长短期记忆网络算法主要用于解决回归问题,最后加入Softmax模块将回归问题转换成分类问题。最后将基于注意力机制的双向长短期记忆网络算法与双向长短期记忆网络算法进行了仿真对比,通过实验证实,基于注意力机制的双向长短期记忆网络算法在性能上更优。5.根据特定战场场景,在开发平台上设计并完成了态势评估系统的搭建。目标分群模块采用PSO-GSFCM算法,目标意图识别模块采用AM-BiLSTM算法,态势展示模块使用基于前端开发的人机交互界面,最后通过仿真数据集测试证实该系统实现了态势评估系统需要完成的的基本功能,满足战场需求。(本文来源于《电子科技大学》期刊2019-04-01)

孟晓辰,王玥,祝连庆[2](2018)在《基于t分布邻域嵌入算法的流式数据自动分群方法》一文中研究指出流式细胞仪中多参数流式数据分群传统方法主要是利用专业软件采取人工设门方式,圈出目标细胞进行分析,分析过程较为复杂,专业性较强。基于此,本文提出了一种基于t分布邻域嵌入(t-SNE)算法对多参数流式数据进行分群处理。该算法将样本数据在高维空间中的欧几里德距离转化为条件概率来表征相似性,使数据降到低维空间。本文通过使用流式细胞仪处理染色后的人体外周血细胞,并将处理后的数据导出作为实验样本数据,对其利用t-SNE算法进行降维,并与核主成分分析(KPCA)降维算法对比,分别使用K均值(Kmeans)算法对降维得到的主成分数据进行分类。结果表明,t-SNE算法对呈非对称且有拖尾分布的细胞类群具有很好的分群效果,分群准确率可达92.55%,或可有助于多色多参数流式数据进行自动分析。(本文来源于《生物医学工程学杂志》期刊2018年05期)

季雨[3](2017)在《Hadoop电信大数据的用户分群算法研究与实现》一文中研究指出信息时代的来临,大数据时代也应运而生。大数据关键技术的突破发展,涌现出了一大批大数据创新企业和创新模式。大数据产业发展到目前阶段,已经从探索阶段进入了应用阶段,其在重要行业领域应用不断深化。目前,我国移动电话用户达到13.8亿,居全球第一。因此,在电信领域开展大数据数据挖掘层面研究具有非同凡响地意义。用户分群是电信企业营销的一种手段,科学地发现客户群,合理配置企业的资源,从而创造出更大的利润。显然地,传统技术已无法为企业制定有效的决策。本文将大数据技术与聚类挖掘算法相结合,为电信大数据用户分群模型提供新的解决方案。本文主要的工作内容包含以下几个方面:1,介绍大型数据应用最先进研究。它涵盖了包括数据密集型应用的新兴高性能架构,提升数据处理的新型高效分析策略,以及机器学习领域的尖端应用。2,针对超大数据量级的用户数据,提出数据预处理方法,对原始数据进行去除失真,噪声,冗余等失效数据。3,传统K-means聚类算法存在诸多缺点,包括随机产生K值,对初始聚类中心敏感,容易陷入局部最优状态等,本文提出了一种改进型K-means算法。实验证明该算法有效地提高了用户分群的准确率。4,传统串行方式已无法满足大数据的存储与处理。本文通过仿真搭建Hadoop完全分布式云平台,一方面利用HDFS分布式文件系统,另一方面结合MapReduce编程模型。实验结果证明基于Hadoop平台的并行化模式提升了算法的执行速度。本文将聚类算法应用于电信大数据Hadoop上实现用户分群,科学地划分不同价值用户群,从而为企业提供精准化营销决策。(本文来源于《沈阳理工大学》期刊2017-12-01)

程丽冰[4](2016)在《大数据时代的电力客户分群管理应用研究》一文中研究指出对客户全面实施分群管理,正确掌握、满足、引导客户的需求,紧密贴合客户需求制定差异化的服务策略,为客户提供安全可靠、高效便捷、绿色环保的与国际先进水平相当的供电服务,是供电企业树立“服务好、管理好、形象好”叁好服务形象的必然要求。本文首先从数据挖掘的各种成功案例,引出了目前供电企业由于长期积累已经掌握了大量的涵盖了生产、客户(包括基本数据、业务数据、计量数据和服务数据)和运行等方方面面的数据资产,从而说明本文的目标是通过挖掘营销大数据,对客户实施全面、科学、合理的客户分群。其次,介绍供电企业对客户分群管理的架构,包括:客户分群管理的概念以及实施客户分群管理的必要性;客户分群的数据基础,即电力营销大数据中有价值的字符段有哪些;拟将客户分为哪几个群体,以便于提供个性化的服务策略。最后,客户分群管理模型在Z市供电局的应用研究。以Z市供电局电力营销大数据,用聚类算法对客户价值和服务渠道活跃度进行分群,用逻辑回归模型对客户停电敏感度和欠费风险进行分群,用决策树模型对客户用电安全进行分群。通过对数据库中的种种客户行为变量进行精确化细分,并对客户行为模式与客户价值进行准确判断与分析,从而实现对Z市地区不同客户提供差异化服务策略。同时也对本文提出的客户分群管理数据模型的正确性和有效性进行验证。(本文来源于《华南理工大学》期刊2016-05-30)

王骁,李东生,雍爱霞[5](2015)在《基于数据场改进的目标分群算法》一文中研究指出针对支持向量聚类算法训练样本不稳定问题,引入数据场概念,提出一种基于数据场的支持向量聚类算法,将数域空间构成的数据场中势值较高样本作为训练集获得模型再进行预测聚类。将改进的算法用于态势估计中目标分群问题,仿真结果表明:该算法在样本容量不是很高条件下的准确率较传统算法有所提高,很好地解决了训练样本选择影响聚类效果的问题,但改进后算法耗时较原先有所增加。(本文来源于《火力与指挥控制》期刊2015年12期)

杨欣[6](2015)在《基于客户行为数据构建客户分群模型的分析与探讨》一文中研究指出客户分群是企业从大众营销向差异化营销过渡的必由之路,也是未来保持竞争优势的基础。随着社会经济的发展和用户需求的多元化,企业需要把识别客户特征作为一项核心的市场分析活动,关注如何保持和拓展现有的客户价值。文章从移动通信运营商的角度,阐述了建立客户分群模型的理论基础和技术手段,根据客户行为数据采用聚类的数据挖掘方法构建总体模型,并对数据规范性、聚类算法以及模型分析方法等进行说明,提高客户分群的有效性及应用价值。(本文来源于《中国管理信息化》期刊2015年21期)

赵宇思,吴林林,宋玮,赵晶[7](2015)在《基于运行数据的概率聚类风电场分群研究》一文中研究指出风电机组在实际运行时,受尾流效应等因素影响,运行状态并不相同。为提高风电场模型的精度,解决运行工况对分群结果的影响问题,提出了一种概率聚类分群算法,并从地理位置分布和仿真结果两个角度验证了其合理性。该方法在传统的K-means算法基础上,综合考虑各种风速工况发生的比例,以概率最大的机组分群为最终结果,并用轮廓值函数加以验证。此算法得到的分群结果可应用于各种风速的情况,对机组分布不规则的风电场有很好的效果,为以后风场建模的使用提供了极大的方便。(本文来源于《华北电力技术》期刊2015年10期)

张星,李龙源,胡晓波,王晓茹,周孝信[8](2015)在《基于风电机组输出时间序列数据分群的风电场动态等值》一文中研究指出为了在保证精度的前提下降低含风电场仿真系统模型的复杂度,以风电场并网点输出特性一致为目标,提出一种风电场动态等值方法。利用风电机组输出时间序列数据,应用几何模板匹配算法刻画该时间序列曲线特征,使用属性阈值聚类算法来实现风电机组分群,适用于所选时间序列的时间段内的所有时刻。在各群内,按照风电机组功率输出特性不变的原则对风电机组参数进行等值,以电压差不变为原则对集电线路进行等值。最后,以宁夏某实际风电场为例,分别选择不同时刻的风电机组状态为初值进行仿真,并比较风电场详细模型和等值模型的输出特性。结果表明,等值前后风电场并网点输出特性均保持一致,分群方法可以反映风电机组在该时间段内各时刻的运行特性,等值方法合理有效,具有一定的工程应用价值。(本文来源于《电网技术》期刊2015年10期)

姜兴丽,李慧慧,李仲来,王建康[9](2014)在《大规模标记数据的遗传分群和排序算法研究》一文中研究指出准确的连锁图谱是开展数量性状基因定位和图位克隆等遗传研究的前提。随着现代分子生物技术的不断发展,人们可以比较容易地获得高通量分子标记,这为高密度遗传连锁图谱的构建提供了契机。但同时,标记数量的巨增也为连锁图谱构建算法提出了极大的挑战。建立连锁图谱的第一步是将来自不同染色体的标记进行分群,而后对每个连锁群中的标记进行排序,寻求图距最短的一个标记顺序。本研究中我们将待分群数作为唯一参数,利用层次聚类算法将标记划分到相应的连锁群(本文来源于《第六届全国动植物数量遗传学学术研讨会论文摘要集》期刊2014-10-09)

齐恒[10](2014)在《面向大数据的电信客户分群模型研究与设计》一文中研究指出大数据环境下的电信客户分群模型研究与设计,不仅具有很强的研究意义,还有极高的商业价值。应对大数据在模型构建与计算上的挑战,满足网络信息空间大数据挖掘的需求,开展大数据的计算研究,是国家973计划信息科学领域一大研究方向。本文的主要工作有以下叁个方面:其一,基于业务特点对聚类分析算法在电信客户分群案例中的深入分析与选择;其二,聚类分析模型设计;其叁,面向大数据的电信客户分群原型解决方案进行研究与设计。具体而言,本文工作阐述如下:首先,本文在查阅相关文献和分析客户分群业务问题特点的基础上,提出采用基于K-均值聚类的方法进行电信客户分群,进而提出整个客户分群的框架,即宏观层次上的客户分群和微观层次上的子群分析。本部分详细探讨了在安徽某电信业务数据上的的客户分群方案,重点阐述了数据源分析、数据预处理、数据整合的步骤;此外,在客户分群的指标选择上,从价值和行为属性两个大维度对指标体系进行构建。其次,本文设计并实现了大数据电信客户分群原型系统。系统总体遵循分层模块化设计准则,在系统总体架构上,构建包括数据层、模型层、应用层的叁层体系结构,总体功能设计上,设计包含了客户理解、营销策划、营销执行、营销评估、自助取数5个主要模块在内的原型系统,系统实现方面,采用快速原型开发编程语言Python,利用基于Python的Web框架Django,进行系统B/S架构设计,数据库层面引入NoSQL数据模型,混搭使用主流的NoSQL数据库产品,进行系统数据层的设计。本文主要的贡献包括以下几个方面:1、在客户分群系统中采用数据挖掘的聚类技术,通过挖掘客户的基本资料与客户消费行为信息,输出聚类规则,对客户进行细分,之后针对不同的群体采用精准营销定位,发展新用户、保留老用户;2、设计并实现了面向大数据的电信客户分群系统,具有良好的应用前景;3、针对大数据海量、时变、关联的特性,引入NoSQL数据模型,重点解决大数据环境下用户特征的存储问题。(本文来源于《华北电力大学》期刊2014-06-01)

数据分群论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

流式细胞仪中多参数流式数据分群传统方法主要是利用专业软件采取人工设门方式,圈出目标细胞进行分析,分析过程较为复杂,专业性较强。基于此,本文提出了一种基于t分布邻域嵌入(t-SNE)算法对多参数流式数据进行分群处理。该算法将样本数据在高维空间中的欧几里德距离转化为条件概率来表征相似性,使数据降到低维空间。本文通过使用流式细胞仪处理染色后的人体外周血细胞,并将处理后的数据导出作为实验样本数据,对其利用t-SNE算法进行降维,并与核主成分分析(KPCA)降维算法对比,分别使用K均值(Kmeans)算法对降维得到的主成分数据进行分类。结果表明,t-SNE算法对呈非对称且有拖尾分布的细胞类群具有很好的分群效果,分群准确率可达92.55%,或可有助于多色多参数流式数据进行自动分析。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

数据分群论文参考文献

[1].李慧玲.基于大数据处理的态势数据管理与目标分群技术研究[D].电子科技大学.2019

[2].孟晓辰,王玥,祝连庆.基于t分布邻域嵌入算法的流式数据自动分群方法[J].生物医学工程学杂志.2018

[3].季雨.Hadoop电信大数据的用户分群算法研究与实现[D].沈阳理工大学.2017

[4].程丽冰.大数据时代的电力客户分群管理应用研究[D].华南理工大学.2016

[5].王骁,李东生,雍爱霞.基于数据场改进的目标分群算法[J].火力与指挥控制.2015

[6].杨欣.基于客户行为数据构建客户分群模型的分析与探讨[J].中国管理信息化.2015

[7].赵宇思,吴林林,宋玮,赵晶.基于运行数据的概率聚类风电场分群研究[J].华北电力技术.2015

[8].张星,李龙源,胡晓波,王晓茹,周孝信.基于风电机组输出时间序列数据分群的风电场动态等值[J].电网技术.2015

[9].姜兴丽,李慧慧,李仲来,王建康.大规模标记数据的遗传分群和排序算法研究[C].第六届全国动植物数量遗传学学术研讨会论文摘要集.2014

[10].齐恒.面向大数据的电信客户分群模型研究与设计[D].华北电力大学.2014

标签:;  ;  ;  ;  

数据分群论文-李慧玲
下载Doc文档

猜你喜欢