(1.湖州新伦综合能源服务有限公司浙江省湖州市313000)
摘要:如何提高抢修效率与抢修质量、降低故障发生概率,向客户提供持续、可靠、高质量的电能是展示公司服务品质的重要标准之一。本文基于历史工单数据,借助大数据分析算法构建工单预测模型,实现未来95598故障工单的月主动式预测分析,为专业部门在供电抢修服务过程中提供参考依据;通过聚类分析,构建故障抢修驻点最优分布模型,从而实现抢修距离最短,有效提高抢修效率与抢修质量;基于自然语言处理技术,对电力客户的投诉工单受理内容进行文本挖掘,从而了解当下电力用户投诉方面的问题,并有针对性的为不同类型用户提供差异化服务策略,满足客户日益增长的服务需求。
关键词:抢修效率;抢修质量;差异化服务策略;服务需求
ForecastofRepairServiceBasedonWorkOrderDataMining
WUJIAN1,WUWENJUAN1,CHENFANGFANG1,WANGYU1
(1.HuzhounewLuncomprehensiveenergyserviceCo.,Ltd,HuzhouCity,Zhejiang,313000)
Abstract:Howtoimprovetherepairefficiencyandrepairquality,reducetheprobabilityoffailure,andprovidecustomerswithcontinuous,reliable,high-qualitypowerisoneoftheimportantstandardstodisplaythecompany'sservicequality.Thearticlebasedonhistoricalworkorderdata,buildaworkorderpredictionmodelwithbigdataanalysisalgorithmtorealizemonthlyproactiveforecastanalysisof95598faultworkorders,andprovidepowersupplyrepairservicesforprofessionaldepartments.Providereferencebasisintheprocess;Buildtheoptimaldistributionmodeloffaultrepairstagnationpointthroughclusteranalysis,soastoachievetheshortestrepairdistance,effectivelyimprovetherepairefficiencyandrepairquality;Basedonnaturallanguageprocessingtechnology,textminingofthecomplaintsreceivedbypowercustomers,tounderstandthecurrentpowerusercomplaints,andtoprovidedifferentiatedservicestrategiesfordifferenttypesofuserstomeetthegrowingcustomerservicedemand.
Keywords:Repairefficiency;Repairquality;Differentiatedservicestrategies;Servicedemand
0引言
随着市场经济的快速发展和电力市场改革的深入,电力市场竞争日益激烈,社会对电力的需求不断增加,作为公共服务型行业,优质服务是电力企业的生命线,如果持续提升电力服务,满足客户日益增长的服务需求,是发展的根本[1-2]。目前公司优质服务工作取得了一定的成效,但实施过程仍存在一些问题,不能及时满足客户需求,主动服务意识不够,多元化服务机制不完善等因素,导致95598投诉工单量呈上升趋势、意见工单突出,故障报修工单居高不下等等。
为全面了解公司优质服务方面存在的薄弱点,供电抢修服务中心对95598系统中工单数据进行收集、整理与分析,从投诉工单、故障报修工单等方面开展分析,深入挖掘数据中蕴涵的有用信息,辅助专业部门在供电抢修服务过程中开展合理决策。
1算法理论
1.1皮尔森算法[3]
皮尔森相关系数是按照积差方法进行计算,即在协方差的基础上除以两个标准差之积得到的,以两变量与各自平均值的离差作为基础,通过两个离差相乘来反映两变量之间相关程度。一般用r来代表相关系数,通常根据关联度r的绝对值大小将相关关系分为四类,具体算法如下:
(1)当|r|<0.3时视为极弱相关;
(2)当0.3≤|r|<0.5时视为弱相关;
(3)当0.5≤|r|<0.8时视为显著相关;
(4)当|r|≥0.8时视为强相关。
1.2多元线性回归模型[4-5]
在回归分析中,如果有两个及以上的自变量,则为多元回归。多元回归模型较时间序列模型而言更容易加入较多的外部变量。随机误差用表示,则多元线性回归方程式为:
其中:为自变量,为因变量,为常数,为回归系数,为随机误差[6]。
1.3系统聚类
系统聚类法又称为“分层聚类法”。它是聚类分析的一种方法。这种方法是先将聚类的样本或变量各自看成一群,然后确定类与类间的相似统计量,并选择最接近的两类或若干个类合并成一个新类,计算新类与其他各类间的相似性统计量,再选择最接近的两群或若干群合并成一个新类,直到所有的样本或变量都合并成一类为止[6]。确定新类与其他各类之间距离的方法主要有最短距离法、最长距离法、离差平方和法、欧氏距离等[7]。
1.4隐马尔可夫模型
隐马尔可夫模型是用来描述包含隐含未知参数的马尔可夫过程,该模型是关于时序的概率模型。隐马尔可夫模型的状态不能直接观察到,但是,它能够以观测向量序列观察到,每个观测向量的各种表现状态都是通过概率密度呈现的,每一个观测向量是基于相应概率密度分布的状态序列产生[8]。
隐马尔可夫模型是一个五元组<S,O,A,B,>:S代表状态集合;O代表观察序列;A代表状态转移分布;B代表每种状态出现的概率分布;代表初始的状态分布。在求取参数A、B、的方法大体上分为两类机器学习方式:监督学习和无监督学习[9]。
监督学习方法主要是基于统计频数除以总数,得到相应的的概率,以此构成模型参数。无监督式学习在学习时并不知道分类结果是否正确,特点是仅对此种学习提供输入范例,而它会自动从这些范例中找出其潜在类别规则[10]。
1.5TF-IDF算法
TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。TF的意思是词频,IDF的意思是逆文本频率指数。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度[11]。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。公式如下:
式中n为文本总数。
对字词的重要性进行权重计算,计算公式如下:
在实际应用中,需要对进行归一化处理,记,此时,
2.故障工单预测研究
随着多年的信息化建设,95598系统已经积攒了海量的历史数据,现以95598系统工单数据为基础,借助大数据分析建模技术,对历史数据和影响工单的相关因素进行相关性分析,从而发现故障工单的影响因子。运用多元线性回归分析,构建故障工单发生数量的预测模型,实现未来95598故障工单的月主动式预测分析,为专业部门在供电抢修服务过程中提供参考依据。
2.1模型构建过程
选取2015-2017年历史故障工单数据作为建模数据。鉴于工单的历史数据样本较少,且影响工单发生的因素较多,因此,先利用皮尔森相关分析,挑选出相关性较大的因子:节假日、天气、上期工单数作为变量进入模型。
通过上述公式进行工单预测模型构建,并以最小二乘参数估计进行模型的删选,从而得到最优的工单预测模型。
2.2模型结果
预处理后的工单数据通过构建的多元线性回归模型得到预测结果,以预测值与真实值之间的差额绝对值与真实值的比值作为预测误差项,即:
Figure1:Averageerrormap
图1平均误差图
上图是基于2015年全年、2016年全年、2017年1-8月的数据预测出的2017年9-12月的工单数以及相对应的真实工单数,经公式测算得出2017年9-12月预测工单的平均误差为10.97%。
3故障抢修驻点分布分析
配电网故障抢修工作是配电网运行的重要环节,选择合适的抢修驻点位置可以有效提高抢修效率,减少停电所造成的损失。
对95598系统历史故障数据中的客户地址信息进行解析,将信息定位到地图上,并应用系统聚类分析算法,距离的定义方式为欧氏距离,对区域内的工单进行聚类,每簇团的中心即为故障抢修最优驻点[12-13]。
欧式距离来源于N维欧氏空间中两点,间的距离公式:
在现有工单数和分布情况下,通过系统聚类,得出应设置抢修驻点32个,抢修驻点具体分布情况如下图所示:
Figure2:Repairstagnationpointmap
图2抢修驻点分布图
4客户需求分析
基于自然语言处理技术,对电力客户的投诉工单受理内容进行文本挖掘,通过挖掘用户的投诉内容了解其在投诉方面存在的问题,并有针对性的为不同类型用户提供差异化服务策略,以便满足客户日益增长的服务需求,提高客户对公司的忠诚度。
4.1文本分词
文本分词的意思是指通过运用计算机对文本开展词语的自动切分。将95598投诉工单的受理内容字段进行整理作为分词样本集。通过python中的专业分词的Jieba包,并应用隐马尔可夫算法,对投诉工单受理内容进行分词,结果如下图:
Figure3:Wordsegmentationresult
图3分词结果
4.2特征选取与降维
对1210条工单投诉受理内容进行分词后,得到的每个单词均可作为识别文本的特征,每个特征在文本中出现的次数情况如下图所示:
Figure4:Wordsegmentationresultmap
图4分词结果展示图
在分词结果中,能看见许多与电力无关的、区分程度很小的词语,这些词语会对之后的文本挖掘准确度造成影响,应该对这些无关特征进行剔除,实现特征降维。
首先,剔除掉几乎每条投诉文本都会出现的高频无用词,如“客户”、“来电”、“反映”、“投诉”、“供电公司”等。接着,剔除常用特殊词(包括语气词、称谓等),如“我”、“说”、“是”、“你”、“来”等。最后,剔除一些出现频率很小的特征,这类特征词频过小,剔除后并不会对挖掘结果造成影响,如“非常”、“导致”、“告知”、“物业”、“早上”、“由于”、“部分”等词语。对出现的词频设定阈值(即上限值、下限值)实现特征自动降维的效果[14-15]。
4.3提取关键词频
通过对分词得到的特征进行选取与降维,有效的剔除了无关词汇,留下的均为与电力业务相关的有价值的关键词。运用TF-IDF算法对剩下的关键词频进行重要性计算,排除重要性小的关键词,留下重要性权重值大的关键词频作为客户投诉工单文本挖掘的最终结果。
4.4文本挖掘成果展示
运用python软件的词云分析对投诉工单文本挖掘的结果进行可视化展示,结果如下图:
Figure5:Workordercomplaintcontentwordcloudmap
图5工单投诉内容词云图
从图中可知在客户投诉工单中,“停电”、“停电”、“故障”、“接错”等词语出现的频数较大,这表明客户在投诉时主要对停电、营业厅、故障、接错等意见很大,因此,公司可以从这几个方面着手,如:减少停电的次数或对停电的信息通知到位、加强营业厅的服务水平与服务能力、降低故障发生概率或提高故障检修的效率等措施,从而改善客户投诉问题,向客户提供持续、可靠、高质量的电能。
5结语
本文通过对95598系统中的故障工单、投诉工单进行深入挖掘,探究电力企业95598工单在近三年的变化趋势;并引入天气、节假日等因素数据,运用多元线性回归模型建立故障工单预测模型,实现对未来故障工单数量的预测,为专业部门在供电抢修服务过程中提供参考依据;根据系统聚类算法,采用欧氏距离对区域内工单进行聚类,寻找出该区域的故障抢修最优驻点,以便有效提高抢修效率,减少停电所造成的损失;基于自然语言处理技术,对客户投诉工单中的投诉
内容进行文本挖掘,准确的把握现阶段供电抢修服务过程中存在的短板问题、风险隐患、客户期望,为供电部门后续工作的开展明确了方向。
参考文献:
[1]邢文烈.浅谈供电企业客户满意度提升措施[J].科技创新与应用,2016,(33):166
[2]陶鸿飞,王征,周晟.95598数据分析助推客户服务[J].农电管理,2016,(03):42-43.
[3]鲍雪,邢雨晴,周瑞,刘红翠,杨紫瑶.基于皮尔森相关检验的微博信息传播模式的实证研究——以新浪微博为例[J].现代商业,2013,(13):88-90.
[4]王惠文,孟洁.多元线性回归的预测建模方法[J].北京航空航天大学学报,2007,(04):500-504.
[5]冷建飞,高旭,朱嘉平.多元线性回归统计预测模型的应用[J].统计与决策,2016,(07):82-85.
[6]胡雷芳.五种常用系统聚类分析方法及其比较[J].浙江统计,2007,(04):11-13.
[7]吴庄胜.用欧几里德距离进行系统聚类研究零件成组[J].成组生产系统,1988,(05):30-35.
[8]王宇,邵洪雨.基于主题词提取的国内自然语言处理研究现状分析[J].情报科学,2013,(03):151-155.
[9]刘晓飞,邸书灵.基于隐马尔科夫模型的文本分类[J].石家庄铁道大学学报(自然科学版),2013,(01):101-116.
[10]魏晓宁.基于隐马尔科夫模型的中文分词研究[J].电脑知识与技术,2007,(21):885-886.
[11]周丽杰,于伟海,郭成.基于改进的TF-IDF方法的文本相似度算法研究[J].泰山学院学报,2015,(03):18-22.
[12]陆如,范宏,周献远.基于大数据技术的配电网抢修驻点优化方法[J].供用电,2015,(08):31-36.
[13]傅晓飞,廖天明,李肇卿,胡锦泓,屈志坚,童克彦,刘自超,陆如.基于统计聚类法的城市配电网抢修驻点优化配置[J].供用电,2017,(02):40-43.
[14]刘兴平,章晓明,沈然,林少娃,章深敏,张维,朱斌,何韵.电力企业投诉工单文本挖掘模型[J].电力需求侧管理,2016,(02):57-60.
[15]王震,代岩岩,陈亮,林晓兰.基于LDA模型的95598热点业务工单挖掘分析[J].电子技术与软件工程,2016,(22):190-192.