基于大数据技术的电费风险分析

吴军英++辛锐

摘要：近年来大数据技术迅猛发展，在电商、金融等行业取得了巨大成效。国家电网公司十三五规划目标，广泛应用“大云物移”技术，推动公司管理变革和运营模式创新，推动电网创新发展高效运作。国网河北省电力公司基于大数据技术对电费风险展开分析，对数据来源进行了梳理，并探讨了大数据的采集、存储、处理及分析展示的技术。通过应用场景分析直观展现电费回收情况，发现电费风险问题。

关键词：电费回收电费风险大数据数据集市聚类

中图分类号：TP39 文献标识码：A 文章编号：1674-098X（2017）03（a）-0121-02

国家电网公司十三五规划目标，广泛应用“大云物移”技术，推动公司管理变革和运营模式创新，推动电网创新发展高效运作。随着智能电网[1-3]的深入发展，电力大数据已经成为学术研究和企业发展所关注的热点领域，国内外大学、研究机构、IT企业、电力公司均已开展了相关方面的研究应用。

目前公司精细化管理需要对电费情况进行实时监控，及时发现存在的风险点，调整降低风险，提升企业收益。当前主要采取人工从系统导出数据，工作量大，工作效率低下，并且由于传统系统数据量庞大，经常出现无法导出数据等问题，给日常工作带来很大不便。

1 电费风险数据来源

电费作为电力公司收益的直观数据，体现了公司经营管理的成果。如何有效地降低电费风险，提升电费回收率，成为当前公司经营管理工作的重点。电费风险来源于电费回收情况，电费回收由发行电费、实收电费、预收电费、欠费电费等几部分组成。日常工作中实收电费由预收结转、欠费缴费等几类业务情况产生，流转较为复杂，因此，此次主要从发行电费、预收电费和欠费电费3个方面入手进行分析。

1.1 用戶信息

用户分为考核用户、高压用户、低压非居民用户和低压居民四大类。此次主要针对存在电费回收风险较大的用户进行分析，低压居民用户大多为预付费，且管理比较系统化，风险相对较低，此次暂不分析，主要分析剩下的三大类用户。

1.2 电费信息

电费风险主要通过电费回收情况分析呈现，电费回收主要从发行电费、预收电费和欠费电费几方面体现，所以需要提供用户每月产生的发行电费、预收以及欠费电费数据信息。

1.3 供电单位

通过分析不同供电单位的电费回收情况，对比各单位的电费回收风险，说明发现供电单位对电费回收风险有一定影响，可以有效借鉴较好的工作经验，制定整改办法，降低供电单位的电费回收风险。

1.4 行业类别

通过分析用户在不同行业下的电费回收情况，说明不同行业对电费回收风险的影响程度，一定程度上反映了用户行业管理上的不足之处，从而强化管控，降低电费风险，提升电费回收率。

1.5 电压等级

通过对不同电压等级用户的电费情况分析，发现不同电压等级用户的回收情况有差异，说明电压等级对电费风险有影响。可以从电压负荷、容量、稳定性等各方面分析发现问题，降低电费风险。

2 电费风险关键技术

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

该平台基于Hadoop架构搭建实现，沿用国网大数据平台的数据仓库工具Hive。图1为平台技术架构。

2.1 数据采集

系统采用Kafka，Sqoop两种技术来实现电费、用户以及所需信息的数据采集整合，为业务场景分析提供数据支撑。

Kafka是一种高吞吐量的分布式发布订阅消息系统。它的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群机来提供实时的消费。因此，通过Kafka技术实现应收电费及欠费电费数据的实时采集。

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具。它类似于其他ETL工具，使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安全的数据处理。Sqoop专为大数据批量传输设计，能够分割数据集并创建Hadoop任务来处理每个区块。因此，通过Sqoop技术实现用户、预收电费等信息的离线数据采集整合。

2.2 数据存储

数据存储使用数据仓库Hive和Postgresql数据库联合实现。发挥各自优势，为场景分析提供数据保障。

Hive用来存放数据采集的第一手数据，将采集到的源端数据存储至HDFS文件系统中。

Postgresql作为数据集，用来存放从数据仓库Hive中抽取到的数据，并且按照国网CIM模型的标准域存储，用来存放业务场景分析所需的数据。它通过Kettle技术实现完成。

2.3 数据计算及分析

数据计算采用Spark技术来满足业务场景实时分析的需求。Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架，Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法，适用于需要多次操作特定数据集的应用场合。

算法上，此次分析主要使用聚类算法，按照需求将不明确的数据实现分门别类，辅助日常监测工作。采用具有代表性的K-means算法，它是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标。

通过使用聚类等算法，对业务进行深入挖掘分析，最终以玫瑰图、热力图、雷达图等专业分析图形展示，配备一定的表格展示数据，使分析结果显得更加直观。

3 应用场景分析

应用场景从系统采集数据，经由噪声处理、分析挖掘最终实现展现。图2为分析挖掘流程，其关键技术包括噪声数据处理、业务数据分析、基于距离计算的聚类分析。噪声数据处理和业务数据分析是按照业务需求，对数据进行初步筛选处理的过程，实现数据挖掘计算；聚类分析是根据欧式距离公式及误差平方和准则实现聚类中心点选择与分类，实现对未知分类数据的类别划分，主要应用于供电单位间、行业间以及电压等级间的电费回收情况对比分类，划分为较好、一般和较差3类。针对较差类别的情况进行深入分析，发现管控薄弱环节，进行整改完善。

应用场景围绕电费回收情况开展，包括发行电费、预收电费和欠费电费3类，根据业务主题划分电费回收整体情况分析、预收电费分析和欠费电费分析，其中电费回收情况中包含发行电费、预收电费和欠费电费3类电费的数据信息。此次分析以日为单位实时监控，以月为单位分析电费回收情况，可监控分析每日的电费回收情况，对应分析当月1日截止到监控日的电费回收走势情况，通过供电单位、行业、电压等级多维度分析电费回收情况，发现回收情况弱点，从业务侧深入分析发现风险点，制定整改措施，降低风险，达到提升效益的目的。

4 结语

未来的电费风险依托于大数据技术实现实时监控，通过分析电费回收情况，进一步深化、挖掘潜在的风险，为电网经营管理提供实时多样化的数据，为公司的精益化管理提供支撑，从而提升企业经济效益。

参考文献

[1]余贻鑫，栾文鹏.智能电网的基本理念[J].天津大学学报， 2011，44（5）：377-384.

[2]余贻鑫，栾文平.智能电网评述[J].中国电机工程学报，2009，29（34）：1-8.

[3]张文亮，刘壮志，王明俊，等.智能电网的研究进展及发展趋势[J].电网技术，2009，33（13）：1-11.

基于大数据技术的电费风险分析

科技创新导报相关栏目本月热门文章