高正浩1黄良1曹洪1赵立进1赵国杰2
(1、贵州电网有限责任公司电力科学研究院;2、深圳市康拓普信息技术有限公司)
摘要:分布式技术属于一项基于网络应用所开发的技术,是一项新兴技术。该技术实现了组件化、大规模及高效率分布式程序的开发。分布式技术在电力企业大数据处理中发挥了良好的作用,使电力系统对大数据的支撑能力得到了提高,也使电力企业大数据的计算和存储方面存在的问题得到了有效的解决。基于此,本文就针对电力大数据高性能处理中分布式技术的应用进行了分析,旨在为基于分布式技术的电力大数据高性能处理水平的提升提供帮助。
关键字:分布式技术;高性能处理;电力大数据
引言:
分布式应用技术发展打破今天,历经了三个发展阶段,由诞生伊始的两层应用模式,发展到具有数据层、逻辑层和业务层的三层发展模式,然后再发展到现如今的多层体系结构。现如今,我国电力企业已经进入了大数据时代,对大规模数据的存储和计算提出了更好的要求。分布式技术在数据存储和计算方面体现出了较高的水平,因此对分布式技术在电力大数据高性能处理中的应用进行分析显得尤为重要。
1.电力大数据概论
随着数字信息化的飞速发展,各类持续暴涨的信息资源为人们的工作和生活带来了便捷,同时也使全球信息资源急剧增长。在大数据浪潮的不断涌入下,包括商业界、政府以及学术界在内的社会各界都已经迈入了大数据时代,当然,我国电力工业也已经迈入了大数据时代。
实际上,在业内大数据概念并没有一个明确的定义,目前业界一直认同的大数就是一个海量数据集合,具备价值密度低、数据处理速度极快、数据类型多以及数据体量大这四个方面的特征。简单地说,大数据指的就是利用传统的数据库软件工具无法在规定时间内完成对内容的处理、管理和抓取的数据集合。
电力大数据绝非是简单的技术,而是电力工业技术改革的关键过程,直接关系着大数据时代下,电力系统的技术路线、管理机制以及发展理念等反方面的变革,同时,这也是大数据时代下,智能电力系统价值形态的提升。
2.基于分布式技术的电力大数据存储和计算解决
2.1关键技术模型
2.1.1分布式系统
对于大数据的存储而言,分布存储系统实现的关键是可扩展的分布式文件系统。基于Key-Value的分布式系统具有可用性和高容错性,能够有效地使吞吐量的数据访问得到提高。通常,分布式系统中采用众多的slave结构和单独的master结构,其中slave的职责是对数据信息进行保存,该结构能够有效地提高系统的扩展性,master负责的是元数据信息的保存;当该系统出现单点故障问题的时候利用文本副本的方式使数据信息可以得到快速地恢复;通过简单的一致性模型,一方面使得该系统的复杂性得到了简化;另一方面提高了该系统高吞吐量、高并发的特征。
若干个数据节点和一个主控节点构成了一个分布式文件集群。在集群中,通常是一个节点一个数据节点,数据节点的职责是对节点上附带的存储进行管理;主控节点是调节客户端访问文件和管理文件的命名空间的主服务器。一个文件由内部机制分割成为一个或多个块,并且这些块存储在一组数据节点上。为了实现高吞吐、可靠的数据读写,分布式平台通过数据库和分布式文件系统对数据进行存储。
2.1.2并行计算
MapReduce是Google提出的一个计算模型和软件架构,主要被应用于大数据的并行运算。MapReduce计算模型在大规模数据集并行运行上非常适用,一个单独的计算节点上能够同时运行每个Reduce任务和Map任务,故而其运算效率和运算能力是非常高的,同时,计算节点也是存储节点,通过对存储在计算节点上的数据进行本地计算,有效地防止了因大数据传输而导致网络瓶颈问题的出现。
在分布式平台结构中,基于MapReduce能够通过一种高容错的方式对大量的数据进行并行处理,既实现了平台并行任务处理的功能,又实现了将SQL进行处理的任务。此外,分布式平台的MapReduce还能够调度优化任务,将处理不同业务数据的不同任务并行运行,从而使统计计算资源得到最大限度的利用,使整体的数据分析时间得到整体、有效地缩短。
2.2总体架构
分布式计算平台接收的数据主要来源于关系型数据库的档案类数据以及各类终端信息采集设备的采集数据,然后,通过与专项业务算法逻辑相结合实现对存储数据的并行计算。最后,利用业务应用服务接口将处理结果返回到目标业务应用系统。分布式并行计算平台的核心包含业务应用服务接口、并行ETL工具、运行调度工具、系统监控工具、并行计算环境、开发工具集、分布式存储环境七大组成部分。
(1)业务应用服务接口。通过服务的形式为外部系统提供接口,支持大规模分析计算、数据的复杂查询在内的主要业务。
(2)并行ETL工具。实现了分布式文件系统、关系型数据库等多种不同数据存储设施之间的数据导出、导入,支持运行脚本管理、监控管理、调度管理、元数据管理等功能。
(3)运行调度工具。根据任务规划对业务应用的MapReduce任务进行运行,对任务之间关联和依赖性进行维护,从而为任务执行的准确性提供保障。
(4)系统监控工具。主要职责在于对MapReduce任务的具体运行情况、业务应用、系统的运行装状态进行监控,为管理用户的运维管理提供方便。
(5)MapReduce并行计算环境。一方面为并行ETL提供支撑环境;另一方面承载运行业务应用的MapReduce代码,从而实现对大规模数据的并行计算和处理。
(6)开发工具集。包含SQL解析、ETL管理、任务管理、索引管理以及库标管理等工具。提供MapReduce的优化、索引定义以及库表结构等功能,实现了由上层业务逻辑到分布式计算平台的迁移转换。
(7)分布式存储环境。它是以Hadoop架构为基础扩展形成的,借助并行ETL工具从关系型数据库中查询和计算有关的档案类数据和导入综合统计分析类数据,并直接接收终端采集数据。此外,通过MapReduce并行环境为高效的分析计算提供支持,同时通过查询引擎支撑复杂查询。
结语:
总而言之,本文对电力大数据的概念进行了简单的描述,介绍了分布式系统和并行计算,然后对分布式计算平台的总体架构进行了分析。在现代化进程和电力企业信息化进程不断推进的背景下,智能化电网建设已经进入了一个飞速发展的阶段,对电力企业数据资产的决策水平和利用能力提出了更高的要求,同时,电力大数据应用需求正在朝着多元化的方向进行发展,电力大数据的深度挖掘能力和在线即时分析的提升是下阶段电力企业研究的重点方向。
参考文献
[1]中国电机工程学会信息化专委会.中国电力大数据发展白皮书[R].2013.
[2]田秀霞,周耀军.基于Hadoop架构的分布式计算和存储技术及其应用[J].上海电力学院学报,2011,27(1):70–75.
[3]邓贤添.基于分布式技术的电力大数据高性能处理中的应用研究[J].中国新技术新产品,2015(12):22-23.
[4]衡星辰,周力.分布式技术在电力大数据高性能处理中的应用[J].电力信息安全专家,2013,11(9):40-43.
第一作者:
高正浩1,男,1979年8月,贵州贵阳,本科,高工。研究方向:电力信息技术。公司名称:贵州电网有限责任公司电力科学研究院,ElectricPowerResearchInstituteofGuizhouPowerGridCo.,Ltd.邮编:550002。