基于机器学习的数据脱敏系统研究与设计

2018-03-20 15:54:05 电力信息与通信技术  点击量: 评论 (0)
近年来,国家电网公司各专业信息系统建设不断完善,为了保障数据在各类应用场景中安全使用,提出了一种基于机器学习的数据脱敏系统设计方案,重点针对敏感数据识别、定级,敏感算法制定,以及脱敏任务配置的实现方式进行研究。结合用户欠费信息的脱敏分析,验证了该方案具有自定义定级

 3 脱敏任务配置

在完成脱敏策略制定后,为使脱敏任务能够长时间工作,首先需在脱敏系统中对源数据所在业务系统的地址及端口号进行注册[14]。然后,获取已制定的脱敏策略,脱敏系统按照选择的脱敏算法及相关参数生成脱敏代码。用户根据应用场景选择脱敏实现方式,对于静态脱敏,系统先执行脱敏操作,并将脱敏结果缓存在本地存储,待目标系统需要获取脱敏数据时,用户在脱敏系统中注册目标系统的地址及端口,最后将本地脱敏数据传输至目标系统。而对于动态脱敏,用户必须先在脱敏系统中注册目标系统地址、端口以及目标系统使用账号,然后将脱敏代码下发至代理服务器,由代理服务器进行在线数据脱敏,并将脱敏结果返回至脱敏系统,最后传输至目标系统,由目标系统中的数据需求方的账号使用。脱敏任务配置流程如图4所示。

图4 脱敏任务配置流程Fig.4 Configuration flow chart of data masking task

 4 应用验证

本文以营销业务应用系统数据库中的实收电费信息表为例[15],分析人员希望通过分析某一用电用户的欠费历史,对该用户的用电行为进行评估。实收电费信息表中涉及的用户用电欠费信息和缴费信息均为敏感信息,因此在使用数据表进行分析之前,应对其进行脱敏处理。

在明确敏感信息后,脱敏实现的关键点为脱敏算法的选择。脱敏算法选择决策树如图5所示,为数据脱敏系统中用于脱敏算法制定的决策树,由192组数据的训练集训练得到,其中Level表示敏感级值,ZSX、KYX、KPZ、GLX、SXX、KCX分别为真实性、可用性、可配置、关联性、时效性、可重现等6个脱敏算法选择因素的中文首字母缩写,RP、EC、SF、DL、MK、CG为上文介绍的6种脱敏方法。在利用决策树选择脱敏算法之前,脱敏系统用户应与分析人员共同确定敏感信息在本次分析过程中的6个因素是否满足。

图5 脱敏算法选择决策树Fig.5 Decision tree for masking algorithm selection

欠费信息是统计分析的对象,数据应具有可用性和真实性。同时,由于是分析某一用户,因此用户编号字段和欠费信息间的对应关系不能被破坏,数据需要具有关联性,而时效性、可重现和可配置3个因素在这里则无关紧要。因此,综合考虑因素分析,系统用户可按照图5决策树选择数据变换(CG)算法对欠费信息进行脱敏处理。而缴费信息不是统计分析的对象,不具可用性,同时另外5个因素也不用具备,根据决策树推荐可以直接删除并置空缴费信息。

在系统用户完成静态脱敏任务配置后,脱敏系统可按照选择的脱敏策略对实收电费信息表进行脱敏,待分析人员的目标地址及端口在脱敏系统中注册后,即可将脱敏表从本地缓存传给用于分析的目标系统。

 5 结语

数据脱敏将成为大数据时代企业数据化运行维护的必要安全机制。本文从国家电网公司信息化建设实际情况出发,分析并提出了一种数据脱敏系统设计方法,探讨利用机器学习方法使脱敏过程更加系统化、智能化、专业化,并结合实际应用场景验证了脱敏策略制定功能。随着未来对数据脱敏的进一步研究,脱敏系统将可实现更细粒度的访问控制、更精确的需求理解能力、更强的扩展能力以及更友好的交互方式,从而满足更多跨系统、跨专业、跨行业的数据交互、共享和融合需求。

大云网官方微信售电那点事儿

责任编辑:售电衡衡

免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞