没错,我们要聊一聊“敏感”
敏感的内心?
敏感的嗅觉?
敏感的神经?
……
都不是,我们要聊的
敏感“主体”是“数据”
什么是敏感数据?
如何认识和发现敏感数据?
这是今天的主题内容!
敏感数据的定义
一份数据敏感与否是因人而异的,没有绝对的标准,只有相对的标准。当一份数据未经授权被公开后,会对个人公司、客户,乃至社会、国家,造成较大可能性的伤害,那这类数据一般被我们描述为“敏感数据”。
当一份数据有明确的定义,限制某类人的访问,那这些数据对这类人而言就是敏感数据。比如,几乎所有的业务数据对运维人员都是敏感数据。
在这里,还需要明确下几个概念:
业务数据:一般指通过业务系统操作产生的数据,这些数据同时又用来支撑业务的运行。
个人信息:个人的基本的人口统计学信息和其所拥有、交易的,以及其他属于个人所有的财、物、事和关系。
同时,敏感数据并不等同于重要数据。重要数据是指,对于业务运行具有决定性影响的数据。而敏感数据并不一定就是重要数据,实际上,相当一部分的敏感数据在业务上并不重要,如电话号码,邮政编码、微信号等。
敏感数据的基本构成
一般来说,敏感数据主要由以下几部分构成:
1、个人信息和隐私数据
简单的说,隐私就是不愿意公开的个人信息。在计算机世界中,很多时候个人数据和隐私数据很难分清楚。
个人信息和隐私,传统上由PI、PFI、PHI三部分构成:
PI:个人基础信息
PFI:个人财务相关信息
PHI:个人健康相关信息
事实上在信息社会,个人信息和隐私已经扩充到个人的所有领域,包括通信、水电煤气、出行、消费等。
总的来说,任何可以识别出特定个人的信息都表述为个人信息,而隐私信息则依赖于个人存在。比如:
姓名、中文名、英文名、别名等
身份证号、社保卡号、健康卡号、驾驶证、护照、军官证等各种表示特定身份的信息
机构内部流转适用的唯一编号, 比如账户、员工编号等
可以联系到个人的工具:电话号码、微信号码、qq号码、邮箱等
可以在空间上联系到:住址、通信地址、公司、公司地址等
生物学特征:指纹、头像、DNA、视网膜等
2、商业秘密
商业秘密自然是无法公开的,是现代社会中和隐私信息一样普遍的敏感数据。商业秘密被窃取或者公开会导致企业或者政府运营的巨大损失。
商业秘密包含一切事关企业运营竞争力的数据和信息,主要包括:
知识产权类:工艺流程、配方、设计稿、源代码等
客户和供应商:客户信息、供应商信息
价格:各种销售价格、供应链价格、人力资源价格
财务配置和报表:各种财务的配置、报表
生产和销售计划:各种生产、销售、合同等信息
3、国家秘密
当个人信息和商业机密泄露,进而影响到国家运营和社会秩序,则就上升为国家秘密。除了个人信息和商业机密,国家运营本身亦会产生大量涉及国家机密的数据,比如国防、外交等数据,这些数据统称为国家秘密。
敏感数据的发现和处理
很多人对“敏感数据”都有个初认识,但究竟如何梳理敏感数据,发现敏感数据呢?这是一个普遍存在的难题。
在这里,我们以脱敏为例子,根据前面提及的敏感数据三个组成部分,来发现医疗、金融、电力等行业的“敏感数据”。
1、个人信息和隐私数据
只要PI信息不具有可认知性,PFI、PHI等数据将失去其隐私特性和个人特性,这就意味着其在个人信息和隐私保护上将不具有敏感性。
在绝大部分情况下只要完成了隐私数据的脱敏,脱敏后的数据就将失去敏感性,可以被放心使用,特别是非竞争性行业的政府相关数据。
以医疗、金融、人社行业为例:
医疗行业
医院:只要从事患者的诊断、处方和治疗工作,就是PHI信息涉及的主要场所。只要我们把PI信息脱敏,患者的病案信息自然将不具有隐私性和个人性,即使公开了也不会对于个人产生任何损害。在医院,his,pacs,lis,ris,cis,emr等医院诊疗和管理系统,患者信息贯穿其中。
卫计委:健康档案和电子病历存储着大量的个人信息和隐私,同样主要进行PI脱敏就可以破除个人信息的隐私性。
金融行业
银行:主要从事资金的保管、信贷和支付等工作,主要包含核心、信贷、理财、信用卡等系统。储户、理财用户、信用卡用户、信贷用户是其主要的隐私保护对象。
保险:主要从事保险产品的开发,销售,管理,理赔等工作。保险人、受益人是其主要的隐私保护对象。
证券:主要从事证券的买卖经纪业务,投行业务等。客户和客户的资产配置是主要的隐私范畴。
基金:主要从事资金的募集、投资、管理、赎买、退出等工作。基金投资者是主要的隐私保护对象。
人社行业
社保:主要从事社保基金的缴纳和支付工作,参保人是主要的隐私保护对象。
劳动人事:主要从事就业相关的各种工作,劳动者是主要的隐私保护对象。
2、商业机密
在某些场景下,即使对于个人信息做了脱敏,在缺乏主体辨识情况下的依然体现出了统计学上的意义或者特定个体数据具有充分的价值。这个时候仅仅做PI信息的脱敏可能不够,需要涉及到业务相关数据的脱敏。
医疗行业
卫计委:作为政府机构,一旦各种健康档案信息和电子病历信息脱离了主体可识别,数据就不再具有敏感性。卫计委数据不存在商业机密性问题。
医院:医院除了个人隐私之外,还存在商业机密问题。
统方敏感性:统方本身不具有敏感性,但在特殊环境下存在敏感性,甚至成为商业机密。统方敏感性的处理同个人隐私一样,只要把医生和医生代码进行脱敏即可,使药物统计无法归并到某个医生。但是由于医生数量不多,以及其他一些信息的辅助,即使对医生进行了脱敏,依然可以通过其他信息获取,并未真正达到彻底脱敏的效果。由于测试系统只是一个非实时系统,只要不是每月进行更新,简单的医生脱敏就可以完成统方敏感性解除。如果测试系统会定期和生产系统进行同步,则需要把药品进行脱敏。
诊断和处方:依据症状进行诊断,根据诊断结果进行处方和治疗是每家医院的核心知识力量。但由于中国医院大多是公立的半科研机构,诊断和处方虽然意义和价值无比巨大,其是否形成商业秘密,依赖于医院本身的驱动力。
价格:面向患者的价格是可以公示的,属于公开信息。但是药品和器械采购价格则在当前环境下会成为商业机密。
财务信息:财务营收,员工工资等。
一般来说,价格、营收等数字类在测试系统中进行脱敏是极为复杂的,会涉及到复杂的业务重算。在大部分情况下,只要对数字所涉及的主体信息进行脱敏即可,比如药品、员工。
而财务营收等信息,则仅仅是在最终的报表上进行脱敏,脱敏后的报表将和全局重算的结果不一致。由于报表是对外交付的最后一个环节,财报的不一致并不会对于其余业务产生影响。
金融行业
银行:银行商业机密的核心在于客户,客户信息脱敏后,基本可以脱离敏感性了。为了避免大客户信息的可能性泄露,可以采用子集的方式处理,也就是说,在脱敏系统中仅仅是生产系统中的一个子集,从而是脱敏集合在统计学上失去意义。
价格信息:各种利率,尤其是贷款利率。
保险:保险和银行差不多,关键是客户脱敏。保险和银行不同之处还存在大量的投资,投资品种的构成会形成商业机密。
证券:证券经纪业务在脱离了客户敏感性之后,基本可以解决整体敏感度的问题。当然证券自营业务则和保险投资一样,投资品种的构成形成了商业机密。
基金:基金在投资人这块等同于证券经纪的客户。基金投资则等同于证券的自营和保险的投资。这里一起来考虑基金投资品种的脱敏,我们以最为简单的股票投资为例子。
股票代码、公司名称、价格、数量: 投资品种,尤其是股票投资的脱敏具有一定的难度,主要是价格因素。由于股票数量的有限性,往往通过价格可以在一定程度上推导出股票,而要对于价格进行脱敏,则需要业务重算,涉及到复杂的业务关联性。
仅仅对于股票名称进行脱敏,具有一定的可逆性。由于价格脱敏的复杂度,建议仅仅对于股票代码和公司名称进行脱敏,保持价格和数量不动。
另一种方式就是抽样,使脱敏系统中的各种配置失去意义。
人社行业
社保:社保只要参保人隐私脱敏之后,不再具有敏感性,不需要进行商业机密的处理。
3、国家秘密
医疗行业
医院:国家领导人的病案信息,采用黑名单的方式,避免这部分信息进入到测试系统。
卫计委:传染病、突发性公共卫生事件,避免这部分依然处于保密阶段的信息进入测试系统。
电力、电信以及其他公共事业机构
电力、电信等基础设施的具体位置具有一定的国家机密性质,但是这部分业务如果需要进行测试,则无法通过避免进入的方式处理,而是需要进行脱敏处理。
其他行业
等同于脱敏,任何处于密级的信息避免进入脱敏系统。