混合聚类分析算法在发电设备故障模式识别中的应用

2018-03-21 13:05:59 电力信息与通信技术　点击量：评论 (0)

为全面诊断火电厂发电设备的故障,提高发电设备的可靠性,减少由于非计划停机所带来的经济损失,提出了一种基于K-means与GMM结合的聚类分析算法,将故障模式识别问题转化为实现数据聚类问题,挖掘设备运行数据间的深层关系,完成故障诊断。实践结果证明了该算法在故障诊断中应用的可行性,

0 引言

大型火电厂主、辅机数量较多,结构复杂,其作用是完成从热能到机械能再到电能的转换过程。设备与设备之间的耦合性、系统的复杂性等因素决定了火电厂是一个高故障率和故障危害性很大的生产场所,这些故障都将造成重大的经济损失和社会后果,因此应用设备故障预警及状态监测技术,掌握关键设备的正常运行状态,及时发现易损部件的工况恶化趋势,及时进行维护和检修,对提高设备的可靠性和安全性十分必要^[1-5]。

目前,发电设备预警和预知维修的关键技术主要有状态监测技术、故障诊断与预测技术和维修分析与决策,而故障模式识别是这些技术的基础。本文采用K-means算法与基于EM（期望最大）的高斯混合模型（Gaussian Mixture Model,GMM）算法相结合的聚类分析算法进行故障模式识别,实践结果证明该算法能够很好地用于发电设备智能诊断预测。

1 算法介绍

1.1 K-means算法

K-means算法,也被称为K-平均或K-均值算法,是一种得到广泛应用的聚类分析方法^[6]。该算法的主要思想是：将各个聚类子集内所有数据样本的均值作为该聚类的代表点,通过迭代的方法逐次更新各聚类中心的值,把数据集划分为不同的类别,最终目标是使评价聚类性能准则的函数达到最优,使生成的每个聚类（簇）内紧凑,类间独立^[7-10]。

假设要把样本集X={x₁, x₂, x₃,…, x_n}分为K个类别,算法的过程描述如下：

算法：K-means算法,划分并计算基于簇中对象的平均值;

输入：簇的数目K和包含n个对象的数据库;

输出：K个簇,使平方误差总和最小。

算法步骤：

1）为每个聚类确定一个初始聚类中心,形成K个初始聚类中心;

2）将样本集中的样本按照最小距离原则分配到最邻近的聚类;

3）利用每个聚类中的样本均值作为新的聚类中心;

4）重复步骤2和步骤3,直到聚类不再变化;

5）迭代结束,得到K个聚类。

K-means算法的优点是算法快速、简单,对大数据集有较高的效率并且是可伸缩的。缺点是需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化。在K-means 算法中,多维空间相似性度量基于欧氏距离进行计算,并不能准确反映多维空间点中的相似情况。