中国电力科学研究院刘凤魁等.基于改进快速密度峰值聚类算法的电力大数据异常值检测

2017-07-19 08:51:03 大云网  点击量: 评论 (0)
中国电力科学研究院刘凤魁等 基于改进快速密度峰值聚类算法的电力大数据异常值检测
 

刘凤魁邓春宇王晓蓉基于改进快速密度峰值聚类算法的电力大数据异常值检测[J]. ,2017,15(6): 36-41.

LIU Feng-kui, DENG Chun-yu,WANG Xiao-rong, et al. Outlier Detection of Smart Grid Big Data Based on Improved Fast Search and Find Density Peaks Clustering Algorithm[J]. Electric Power Information and Communication Technology, 2017,15(6):36-41.

 
 
 
  作者介绍

第一作者 刘凤魁

 

刘凤魁(1990-),女,河北石家庄人,工学硕士,研究方向为电力大数据分析。作者所在的中国电科院大数据研究团队成立于2014年初,采用跨专业联合攻关模式,以电力大数据应用为核心、面向价值实现,从数据获取与管理、大数据处理技术、分析挖掘算法、电力业务大数据应用四个方面重点突破,打造核心竞争力。

 

 
  论文推介

研究背景

由于数据来源不同、统计口径不同、一线人员数据录入、异常行为等问题以及缺乏相应的数据质量管控体系,常常会导致异常数据产生。异常数据包含了系统异常情况出现的相关信息,因此异常数据背后潜藏着巨大的研究价值,可为实际应用提供帮助。在电力行业,异常值检测可用于电网故障检测、设备故障检测、用电异常检测等领域。

 

快速密峰值聚类算法

快速密度峰值聚类算法是2014年 Rodriguez 等人发表在Sciences上的一篇论文中所提出的较新颖的聚类算法。该算法主要基于两个设想:一是聚类中心被具有较低密度的邻居包围;二是聚类中心与其他具有较高密度的任何点的距离都相对较大。对于每个样本点,需要计算两个参数:

局部密度:

距离:

以局部密度为横坐标,距离为纵坐标,绘制决策图,同时具有较大局部密度和距离的点会被识别为聚类中心,然后将聚类中心的类标依次传递给距离最近的点完成聚类过程。

 

基于KNN的快速密峰值异常值检测算法

本文针对快速密度峰值聚类算法没有考虑数据集局部特征且算法精度依赖于截断距离dc的不足,提出一种基于KNN 的快速密度峰值异常值检测算法。该算法的核心是用KNN 思想计算样本的局部密度:

KNN距离:

基于KNN 的局部密度和距离在计算时既考虑了数据集的全局特征,也考虑了数据集的局部特点。计算出样本的之后,确定数据集中的异常值,数据集中局部密度较小、距离较大的点有可能是异常值,因为其周围的邻居较少且与其他样本的距离较大。本文认为异常样本满足如下条件:

 

局部密度,且距离时,则该样本点可以判定为异常值。其中,局部密度阈值的定义为:

距离阈值 的定义为:

 

实验案例

案例所用数据为某省某台交流10 kV 配电变压器2014年1月1日至2014年4月30日共120天的日负荷数据,其采集频率为1 h,因此日负荷曲线为24个数据点。日负荷数据标准化后的曲线如图1所示,可以看出该变压器的常规运行模式,而有些曲线较大程度地偏离了正常运行模式。

 

 

利用文中所提算法,对该数据集进行异常值检测,其异常值决策图如图2所示。

 

 

检测出的异常值如图3所示。

 

 

对比图1与图3可以看出,本文所提算法已将图1中的少数不同于正常运行模式的曲线检测出来。在总共120条曲线中共筛出7条异常曲线。这7条曲线的时间分布见表1所列。2014年1月31日为中国农历新年,异常值所在的时间恰为春节假期,这也说明了所提算法能够有效检测出异常的用电模式。

 

 

解决的问题和意义

1)从异常值检测角度改进快速密度峰值聚类算法。利用KNN的思想重新定义局部密度和距离,改善了原始算法没有考虑数据局部特点以及依赖于截断距离的不足,并定义了判断异常值的规则,从异常值检测角度对其进行优化。

2)异常值检测有重要应用价值。异常值检测一方面可以作为数据预处理的一部分,解决因数据采集,或人工录入等原因导致的数据异常问题;另一方面可以进行异常用电行为分析,支撑窃电嫌疑、风险预警等应用。

 

 

声明
 
声明:本文为原创文章,涉及文字及图片版权均属《》编辑部所有,根据国家版权局最新规定,纸媒、网站、微博、微信公众号若转载、摘编我编辑部的作品,务请提前联系我们。个人请按本微信原文转发、分享。
 

 

 

联系我们
投稿网址:www.dlxxtx.com
编辑部地址:北京市海淀区清河小营东路15号(邮编100192)
编辑联系方式:
张京娜:010-82812978 zhangjingna@epri.sgcc.com.cn
邹海彬:010-82812977 haibinzou@epri.sgcc.com.cn
刘生:010-82812976 shengliu@epri.sgcc.com.cn
张钦芝:010-82812979 qinzhizhang@epri.sgcc.com.cn
杜宁:010-82812976 duning1@epri.sgcc.com.cn
 
大云网官方微信售电那点事儿
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞