中国电力科学研究院刘凤魁等.基于改进快速密度峰值聚类算法的电力大数据异常值检测
刘凤魁, 邓春宇, 王晓蓉, 等. 基于改进快速密度峰值聚类算法的电力大数据异常值检测[J]. ,2017,15(6): 36-41.
LIU Feng-kui, DENG Chun-yu,WANG Xiao-rong, et al. Outlier Detection of Smart Grid Big Data Based on Improved Fast Search and Find Density Peaks Clustering Algorithm[J]. Electric Power Information and Communication Technology, 2017,15(6):36-41.
第一作者 刘凤魁
刘凤魁(1990-),女,河北石家庄人,工学硕士,研究方向为电力大数据分析。作者所在的中国电科院大数据研究团队成立于2014年初,采用跨专业联合攻关模式,以电力大数据应用为核心、面向价值实现,从数据获取与管理、大数据处理技术、分析挖掘算法、电力业务大数据应用四个方面重点突破,打造核心竞争力。
研究背景
由于数据来源不同、统计口径不同、一线人员数据录入、异常行为等问题以及缺乏相应的数据质量管控体系,常常会导致异常数据产生。异常数据包含了系统异常情况出现的相关信息,因此异常数据背后潜藏着巨大的研究价值,可为实际应用提供帮助。在电力行业,异常值检测可用于电网故障检测、设备故障检测、用电异常检测等领域。
快速密峰值聚类算法
快速密度峰值聚类算法是2014年 Rodriguez 等人发表在Sciences上的一篇论文中所提出的较新颖的聚类算法。该算法主要基于两个设想:一是聚类中心被具有较低密度的邻居包围;二是聚类中心与其他具有较高密度的任何点的距离都相对较大。对于每个样本点,需要计算两个参数:
局部密度:
距离:
以局部密度为横坐标,距离为纵坐标,绘制决策图,同时具有较大局部密度和距离的点会被识别为聚类中心,然后将聚类中心的类标依次传递给距离最近的点完成聚类过程。
基于KNN的快速密峰值异常值检测算法
本文针对快速密度峰值聚类算法没有考虑数据集局部特征且算法精度依赖于截断距离dc的不足,提出一种基于KNN 的快速密度峰值异常值检测算法。该算法的核心是用KNN 思想计算样本的局部密度:
KNN距离:
基于KNN 的局部密度和距离在计算时既考虑了数据集的全局特征,也考虑了数据集的局部特点。计算出样本的之后,确定数据集中的异常值,数据集中局部密度较小、距离较大的点有可能是异常值,因为其周围的邻居较少且与其他样本的距离较大。本文认为异常样本满足如下条件:
局部密度,且距离时,则该样本点可以判定为异常值。其中,局部密度阈值的定义为:
距离阈值 的定义为:
实验案例
案例所用数据为某省某台交流10 kV 配电变压器2014年1月1日至2014年4月30日共120天的日负荷数据,其采集频率为1 h,因此日负荷曲线为24个数据点。日负荷数据标准化后的曲线如图1所示,可以看出该变压器的常规运行模式,而有些曲线较大程度地偏离了正常运行模式。
利用文中所提算法,对该数据集进行异常值检测,其异常值决策图如图2所示。
检测出的异常值如图3所示。
对比图1与图3可以看出,本文所提算法已将图1中的少数不同于正常运行模式的曲线检测出来。在总共120条曲线中共筛出7条异常曲线。这7条曲线的时间分布见表1所列。2014年1月31日为中国农历新年,异常值所在的时间恰为春节假期,这也说明了所提算法能够有效检测出异常的用电模式。
解决的问题和意义
1)从异常值检测角度改进快速密度峰值聚类算法。利用KNN的思想重新定义局部密度和距离,改善了原始算法没有考虑数据局部特点以及依赖于截断距离的不足,并定义了判断异常值的规则,从异常值检测角度对其进行优化。
2)异常值检测有重要应用价值。异常值检测一方面可以作为数据预处理的一部分,解决因数据采集,或人工录入等原因导致的数据异常问题;另一方面可以进行异常用电行为分析,支撑窃电嫌疑、风险预警等应用。
-
碳中和战略|赵英民副部长致辞全文
2020-10-19碳中和,碳排放,赵英民 -
两部门:推广不停电作业技术 减少停电时间和停电次数
2020-09-28获得电力,供电可靠性,供电企业 -
国家发改委、国家能源局:推广不停电作业技术 减少停电时间和停电次数
2020-09-28获得电力,供电可靠性,供电企业
-
碳中和战略|赵英民副部长致辞全文
2020-10-19碳中和,碳排放,赵英民 -
深度报告 | 基于分类监管与当量协同的碳市场框架设计方案
2020-07-21碳市场,碳排放,碳交易 -
碳市场让重庆能源转型与经济发展并进
2020-07-21碳市场,碳排放,重庆
-
两部门:推广不停电作业技术 减少停电时间和停电次数
2020-09-28获得电力,供电可靠性,供电企业 -
国家发改委、国家能源局:推广不停电作业技术 减少停电时间和停电次数
2020-09-28获得电力,供电可靠性,供电企业 -
2020年二季度福建省统调燃煤电厂节能减排信息披露
2020-07-21火电环保,燃煤电厂,超低排放
-
四川“专线供电”身陷违法困境
2019-12-16专线供电 -
我国能源替代规范法律问题研究(上)
2019-10-31能源替代规范法律 -
区域链结构对于数据中心有什么影响?这个影响是好是坏呢!