(国网山西省电力公司经济技术研究院山西太原030000)
摘要:本文将自组织映射(SOM)神经网络用于研究电力专变用户的用电行为习惯聚类。首先,对用户的负荷数据进行归一化,并提取四个有效性指标作为SOM神经网络的输入。然后采用Davies-Bouldin指数和k均值将94条用户负荷曲线分成5类,并描述每类型曲线。最后识别新用户,结果证明该聚类方法行的通。
关键词:电力负荷;用电习惯;SOM聚类分析:Davies指数;k均值
0引言
长期以来,很难建立电力负荷与其各种作用因子间的关联模型,这个问题的主要原因是用户负荷的变化是不同的。为了确定负荷作用系数之间的关系,需要对各种类型的电力消费者进行负荷特性的研究。并且,在电力市场中,终端专变用户权衡利弊之后,具有挑选不同的售电公司的权利。售电商需要足够知晓电力用户电量的消耗特点,把市场细化,制定相匹配的销售措施和用户负荷需求管理规范。因此,对电力消费者的用电行为习惯的聚类研究将有助于售电公司改进他们的销售措施和制订负荷管理法则。
在20世纪90年代初,各国研究人员对负荷分类问题展开了研究,进而对负荷波动的真正原因进行了系统的分析。1999年,英国电力市场取缔了用户购电能力规模的限制,探究目标扩大到110kW的用户,随着自组织、自学习研究方法的改进,无教师聚类分析代替预定义分类学习。随后各国学者对日本、西班牙、葡萄牙、意大利、希腊、澳大利亚、台湾等国家和地区的电力用户用电行为习惯聚类也进行了研究,研究工具包括决策树,模糊逻辑,层次聚类,遗传算法和神经网络等[2]。
可视化分析是探究海量数据中隐藏信息的强大工具,即将数据、信息和知识转换为可视化方式(如图形,图像和动画)的过程。电网数据具有量大、多维和层次繁琐的特征。传统的数据挖掘模型基本不能实现可视化,不能有效地结合人的领域见解,阻碍了用户对结果的理解[1]。为了方便用户理解各个特征属性的相关程度以及挖掘出的信息,提出了把高维电网数据进行低维可视化的思想,即把负荷数据进行降维处理并投影到二维空间中。
文中分析了太原市专变用户的用电特性。使用自组织映射(SOM)神经网络对电网数据样本进行低维可视化显示;并结合k均值法进行分割,得到典型电力用户负荷曲线聚类的最初判断。
1SOM神经网络
自组织特征映射网络(Self-OrganizingFeatureMap,SOM)也称Kohonen网络,它是由荷兰学者TeuvoKohonen于1981年提出的。该网络是一个自组织、自学习的网络,可以依照输入层节点的分组来学习和分类。与一般自组织网络的区别在于:自组织特征映射神经网络可以同时分析训练样本的拓扑特征和分布[5]。SOM神经网络可以实现从输入层(n维)到输出层(2维)的维度降低处理,并且保持了原始多维数据中的拓扑和统计特点,适合挖掘高维电网负荷数据。原始的SOM网络结构由输入层和竞争层组成,竞争层由二维平面上的一堆节点组成,输入节点与竞争节点的神经元构成完全衔接[3]。SOM聚类算法步骤描述如下:
(1)网络初始化
给予m个输入层神经元到输出层神经元的连接权重较小的初始值,并定义训练结束条件。
(2)输入向量的输入
把输入向量输入给输入层。
(3)计算竞争层的权值向量与输入向量之间的远近(即欧几里得距离)
从样本中随机选择输入向量,计算竞争层的第j个神经元和该向量的距离如下:
(1)
式中:作为输入层的神经元和竞争层的j神经元间连接的权重。之后,将会得到一个神经元,其具有最小欧式距离,被叫做胜出神经元,由表示,即有某一单元,使对任何的,存在,并得到其相邻神经元集合。
(4)权重的学习
修改竞争层神经元及其“相近神经元”的权重:
(2)
式中:为一个大于0小于1的可变学习速度,随着时间t逐渐减小到零。
(5)计算输出
(3)
(6)是否达到预先设定的要求
减小邻域半径,降低学习速率,反复进行步骤2--步骤5。当两次练习的权重值误差小于允许误差值或达到预定义的训练长度时,训练完成[6]。
由于输出层节点连接到邻域节点,并互相学习,可以将相近的样本输入就近匹配。SOM网络竞争层神经元的拓扑组织结构具有了掌握低维数据的能力,实现聚类的可视化。
2电力用户负荷曲线
2.1数据来源
实验数据主要来源于用采系统中专变用户的负荷有功功率,提炼出各类用户每15min一个采集点的有功功率组成其实际日有功曲线。专变用户是太原市10kV配电网典型终端负荷。
2.2数据预处理
从用采系统中提取电力消费者五天的由96个有功采集间隔构成的日负荷曲线。因为每个用户的容量规模不相等,为了提高聚类结果的可信度,先对杂乱无章的电力负荷有功功率做预处理,即将电力消费者的周负荷峰值作为基准,运用matlab软件归一化。
聚类是基于样本集搜索配置中不同对象的类似性,以找到样本之间的类似度。那么,研究聚焦于给聚类算法提供一种新颖、高性能、高可靠性的相似性度量。特征选择是非常关键的步骤,它将直接影响聚类结论的合理性,进一步影响用户划分的有用性。基于已收集的数据集,本文选取的特征如下:
(1)峰值耗电率=峰值时段耗电量/总耗电量[4]
(2)负荷率=专变用户平均负荷/最大负荷
(3)谷功耗=谷值时段耗电量/总耗电量
(4)平段的用电量百分比
根据以上特征,提取四个有效性指标组成基本有序的数据作为数据挖掘的基础数据立方体。输入样本数据属性有4维,这些属性决定了样本数据的特点,但仅是观察表格中的数据得不到有用的知识,并不容易理解,特别是当数据量增加时,无法对电力营销的决策者提供有效的支持,需要把得到的结果向量做可视化显示。
3基于SOM的聚类研究
3.1SOM可视化聚类
因为监控系统和网络输送有一定的偏差,部分用户某时段数据丢失或异常,最后提炼的完整有功功率曲线共有94条。为了获得更好的视觉效果,一般取SOM网络竞争层中的节点数量大于输入样本的数量,所以将SOM网络竞争层节点数量规定为12×12。竞争层拓扑结构是棋盘方格,邻域函数是高斯函数,进行500次迭代。
图2神经元分类情况
图3SOM聚类权重位置
图3代表聚类挖掘的权重位置。
为了验证SOM聚类的结果,采用相对量化误差和拓扑误差[8]来评估聚类的品质。
其定义分别如下:
式中:N为输入样本个数;为获胜单元的权重向量;为输入神经元与胜利神经元间的平均相对距离;为输入样本中相邻两个胜利神经元近邻的比值。
当两个获胜神经元拓扑类似时,的值为0,否则为1。明显这2个标准计算的值越小,表明聚类效果越好。SOM聚类结果质量如表2所示。
3.2用户划分
计算结果表明,采用SOM网络对电力负荷指标特征进行聚类,获得的聚类评估指标具有较小的数值。为了更细化地理解自组织特征映射神经聚类的结果,基于结果做用户划分。使用Davies--Bouldin指数[7]计算得到最优的聚类簇数为7,得到该指数的值为0.5317。在图2中基于k-means法做用户用电行为习惯分割[9]。
第1类型曲线显示了日间高耗电特征,而夜间电耗量比较低,约为日间有功功率的8%左右,包含研究所、小型有限公司、办公楼、水泵站、软件科技园、鱼种厂、及永磁厂等;第2类型曲线大部分时间功耗低于其每周有功峰值,包含银行和农作物原种场、种植养殖场、混凝土厂等工厂耗电曲线,和经研所、写字楼、物贸有限公司等电力消费者周末负荷曲线;第3类型曲线在18:30-22:00抵达峰值功耗,早上有一个次高峰,凌晨2:15左右为低电耗,这样的电力消费者很多与其工作作息时间有关,基本包括村民居委会,职工宿舍,住宅区,物业管理公司(生活小区),娱乐中心,宾馆,医院等消费者;第4种类型曲线正好相反,夜间持续高功耗,日间平均功率占比较低,显示了工厂日间停修的功率曲线,如机械修配厂等用户类型;第5类曲线耗电量一直持高不下,由大学、移动基站、化工厂等电力消费者有功曲线组成。从耗电周期性来看,这些用户又可以分成三个类型,即周期型、轮休型和随机型。
4新用户识别
将新用户的有功曲线用SOM聚类进行试验,以检验该网络的可行性及可信性。从用采系统中取出大学有功功率曲线和村民居委会有功功率曲线各10条。相比较可以知道,新的大学负荷曲线与原大学或基站曲线(类型为5)拓扑聚合,显示了良好的聚类特征;新的村民居委会负荷曲线按工作日和双休日分别落入2个聚类中,并与原村民居委会曲线(用户类型为3)拓扑邻近。证明该聚类方法是有效的,具有较高的可信度。
5结语
本文针对多维数据可视化不利于理解的缺点,提出了基于SOM聚类算法的用户用电行为习惯挖掘的方法,给出了SOM网络的结构和学习算法;在总结用户负荷数据特征的基础上,将SOM神经网络模型在matlab上编程实现,以挖掘电力用户隐藏的用电习惯;实现了基于颜色映射的结果可视化方法,把聚类结果视觉化展现,以达到电网数据降维目的。实例表明该方法有效可行,给销售商电力消费者的用电行为特点提供了便利,将市场细化,以制定相匹配的销售措施和用户负荷需求管理规范,达到了辅助电力营销决策的目的。
参考文献:
[1]郭晓利,曲朝阳,李晓栋,等.基于SOM聚类的电网可视化数据挖掘模型[J].情报科学,2012(2):206-209.
[2]李智勇,吴晶莹,吴为麟,等.基于自组织映射神经网络的电力用户负荷曲线聚类[J].电力系统自动化,2008,32(15):66-70.
[3]杨苹,陈武.基于自组织模糊神经网络的汽轮发电机组振动故障诊断系统[J].电力系统自动化,2006,30(14):66-70.
[4]KohonenT.Self-organizedformationoftopologicallycorrectfeaturemaps[J].BiologicalCybernetics,1982,43(1):59-69.
[5]秦傲然,曾道英,王敬国.基于SOM神经网络的风机故障诊断研究[J].风机技术,2009(1):50-52.
[6]YadavV,SrinivasanD.ASOM-basedhybridlinear-neuralmodelforshort-termloadforecasting[J].Neurocomputing,2011,74(17):2874-2885.
[7]DaviesDL,BouldinDW.AClusterSeparationMeasure[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,1979,1(2):224-227.
[8]VillmannT.TopologyPreservationinSelf-OrganizingMaps[M].1999.
[9]周世兵,徐振源,唐旭清.K-means算法最佳聚类数确定方法[J].计算机应用,2010,30(8):1995-1998.
作者简介:
薛磊,1980.10.8,山西太原,国网山西省电力公司经济技术研究院高级工程师,毕业于华北电力大学电力系统及其自动化专业,现从事电力系统分析方面的工作。