Codeofchina.com is in charge of this English translation. In case of any doubt about the English translation, the Chinese original shall be considered authoritative.
This standard is developed in accordance with the rules given in GB/T 1.1-2009.
Attention is drawn to the possibility that some of the elements of this standard may be the subject of patent rights. The issuing body of this document shall not be held responsible for identifying any or all such patent rights.
This standard was proposed by and is under the jurisdiction of the National Technical Committee on Information Security of Standardization Administration of China (SAC/TC 260).
Introduction
In the era of big data, cloud computing and the Internet of Everything, data-based applications are increasingly widespread, which also brings huge personal information security problems. In order to protect the personal information security and promote the sharing of data, this guide for de-identifying personal information is formulated.
The purpose of this standard is to learn from the latest research results of personal information de-identifying at home and abroad, refine the current best practices in the industry, study the objectives, principles, techniques, models, processes and organizational measures of personal information de-identifying, and put forward a guide to de-identifying personal information that can scientifically and effectively resist security risks and meet the needs of information development.
The data set to be de-identified concerned by this standard is microdata (the data set represented by record set that may be represented logically in tabular form). De-identification is not only deleting or transforming the direct identifier and quasi-identifier in the data set, but also considering the risk of re-identification of the data set in combination with the later application scenarios, so as to select the appropriate de-identification models and technical measures and implement the appropriate effect assessment.
Data sets that are not microdata may be converted into microdata for processing, and may also be processed with reference to the objectives, principles and methods of this standard. For example, for tabular data, if there are multiple records about one person, multiple records may be combined into one, thus forming microdata, in which there is only one record of the same person.
Information security technology — Guide for de-identifying personal information
1 Scope
This standard describes the objectives and principles of personal information de-identification, and puts forward the de-identification process and management measures.
This standard provides specific personal information de-identification guidance for microdata, which is applicable for organizations to implement the personal information de-identification, as well as the supervision, management and assessment of personal information security implemented by relevant network security authorities and third-party assessment agencies, etc.
2 Normative references
The following referenced documents are indispensable for the application of this document. For dated references, only the edition cited applies. For undated references, the latest edition of the referenced document (including any amendments) applies.
GB/T 25069-2010 Information security technology — Glossary
3 Terms and definitions
For the purposes of this document, the terms and definitions given in GB/T 25069-2010 and the following apply.
3.1
personal information
various information recorded electronically or otherwise that can, either alone or in combination with other information, identify a particular natural person or reflect the activity of such a person
[GB/T 35273-2017, 3.1]
3.2
personal information subject
the natural person identified by personal information
[GB/T 35273-2017, 3.3]
3.3
de-identification
process of processing personal information in technical terms so that the personal data subject cannot be identified without additional information
[GB/T 35273-2017, 3.14]
Note: Remove the correlation between identifier and personal information subject.
3.4
microdata
structured data set, in which each record (row) corresponds to a personal information subject, and each field (column) in the record corresponds to an attribute
3.5
aggregate data
data representing a set of personal information subject
Note: For example, a set of various statistical values.
3.6
identifier
one or more attributes in microdata that may uniquely identify the personal information subject
Note: Identifiers are classified into direct identifiers and quasi-identifiers.
3.7
direct identifier
attribute in microdata that can identify the personal information subject independently under specific circumstances
Note 1: Specific environment refers to the specific scenario where personal information is applied. For example, in a specific school, a specific student may be directly identified by his or her student number.
Note 2: Common direct identifiers include name, ID card number, passport number, driver's license number, address, email address, telephone number, fax number, bank card number, license plate number, vehicle identification number, social insurance number, health card number, medical record number, equipment identifier, biometric code, Internet Protocol (IP) address number and network universal resource locator (URL).
3.8
quasi-identifier
attribute in microdata that may uniquely identify the personal information subject in combination with other attributes
Note: Common quasi-identifiers include gender, date of birth or age, date of event (e.g., admission, operation, discharge, visit), place (such as postal code, building name, region), ethnic origin, country of birth, language, aboriginal status, visible ethnic minority status, occupation, marital status, education level, school years, criminal history, total income and religious belief, etc.
3.9
re-identification
process of re-correlating the de-identified data set to the original personal information subject or a set of personal information subjects
3.10
sensitive attribute
attribute in a data set that needs to be protected, whose leakage, modification, destruction or loss will cause harm to individuals
Note: During the potential re-identification attack, it is necessary to prevent its value from being correlated with any personal information subject.
3.11
usefulness
characteristics of data with concrete meaning and useful meaning for application
Note: De-identified data is widely used, and each application will require de-identified data to have certain characteristics to achieve the application purpose, so after de-identification, it is necessary to ensure the retention of these characteristics.
3.12
completely public sharing
public release directly through the Internet, with data hard to recall once disseminated
Note: the same as English term “The Release and Forget Model”.
3.13
controlled public sharing
data use restricted by the data use agreement
Note 1: For example, information receivers are prohibited from launching re-identification attacks on individuals in data sets, from correlating with external data sets or information, and from sharing data sets without permission.
Note 2: the same as English term “The Data Use Agreement Model”.
3.14
enclave public sharing
data sharing in a physical or virtual enclave, where data cannot flow out of the enclave
Note: the same as English term “The Enclave Model”.
3.15
de-identification technique
technique to reduce the correlation between information in data set and personal information subject
Note 1: Reduce the discrimination of information, so that information cannot correspond to a specific individual. If the discrimination is lower, it is impossible to judge whether different information corresponds to the same individual. In practice, it is often required that the number of people that a piece of information may correspond to exceeds a certain threshold.
Note 2: Disconnecting from the personal information subject means separating other personal information from identification information.
3.16
de-identification model
method of applying de-identification technique and calculating re-identification risk
4 General
4.1 De-identification objectives
The de-identification objectives include:
a) Delete or transform the direct identifier and the quasi-identifier, so as to prevent the attacker from directly identifying the original personal information subject based on these attributes or combining with other information;
b) Control the risk of re-identification, select appropriate models and techniques based on available data and application scenarios, and control the risk of re-identification within an acceptable range; ensure that the risk of re-identification will not increase with the dissemination of new data, and ensure that potential collusion between data recipients will not increase the risk of re-identification;
c) Under the premise of controlling the re-identification risk, and in combination with business objectives and data characteristics, select the appropriate de-identification model and technique to ensure that the de-identified data set meets its intended purpose (useful) as much as possible.
Foreword i
Introduction ii
1 Scope
2 Normative references
3 Terms and definitions
4 General
4.1 De-identification objectives
4.2 De-identification principles
4.3 Re-identification risks
4.4 De-identification impact
4.5 Impact of different types of public sharing on de-identification
5 De-identification process
5.1 General
5.2 Determination of objectives
5.3 Identifying the identification
5.4 Processing the identification
5.5 Verification and approval
5.6 Monitoring and reviewing
6 Role responsibilities and personnel management
6.1 Role responsibilities
6.2 Personnel management
Annex A (Informative) Common de-identification techniques
Annex B (Informative) Common de-identification models
Annex C (Informative) Selection of de-identification model and technique
Annex D (Informative) Challenges to de-identification
Bibliography
信息安全技术
个人信息去标识化指南
1 范围
本标准描述了个人信息去标识化的目标和原则,提出了去标识化过程和管理措施。
本标准针对微数据提供具体的个人信息去标识化指导,适用于组织开展个人信息去标识化工作,也适用于网络安全相关主管部门、第三方评估机构等组织开展个人信息安全监督管理、评估等工作。
2 规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 25069—2010 信息安全技术 术语
3 术语和定义
GB/T 25069—2010界定的以及下列术语和定义适用于本文件。
3.1
个人信息 personal information
以电子或其他方式记录的能够单独或与其他信息结合识别特定自然人身份或反映特定自然人活动情况的各种信息。
[GB/T 35273—2017,定义3.1]
3.2
个人信息主体 personal data subject
个人信息所标识的自然人。
[GB/T 35273—2017,定义3.3]
3.3
去标识化 de-identification
通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别个人信息主体的过程。
[GB/T 35273—2017,定义3.14]
注:去除标识符与个人信息主体之间关联性。
3.4
微数据 microdata
一个结构化数据集,其中每条(行)记录对应一个个人信息主体,记录中的每个字段(列)对应一个属性。
3.5
聚合数据 aggregate data
表征一组个人信息主体的数据。
注:例如各种统计值的集合。
3.6
标识符 identifier
微数据中的一个或多个属性,可以实现对个人信息主体的唯一识别。
注:标识符分为直接标识符和准标识符。
3.7
直接标识符 direct identifier
微数据中的属性,在特定环境下可以单独识别个人信息主体。
注1:特定环境指个人信息使用的具体场景。例如,在一个具体的学校,通过学号可以直接识别出一个具体的学生。
注2:常见的直接标识符有:姓名、身份证号、护照号、驾照号、地址、电子邮件地址、电话号码、传真号码、银行卡号码、车牌号码、车辆识别号码、社会保险号码、健康卡号码、病历号码、设备标识符、生物识别码、互联网协议(IP)地址号和网络通用资源定位符(URL)等。
3.8
准标识符 quasi-identifier
微数据中的属性,结合其他属性可唯一识别个人信息主体。
注:常见的准标识符有:性别、出生日期或年龄、事件日期(例如入院、手术、出院、访问)、地点(例如邮政编码、建筑名称、地区)、族裔血统、山生国、语言、原住民身份、可见的少数民族地位、职业、婚姻状况、受教育水平、上学年限、犯罪历史、总收入和宗教信仰等。
3.9
重标识 re-identification
把去标识化的数据集重新关联到原始个人信息主体或一组个人信息主体的过程。
3.10
敏感属性 sensitive attribute
数据集中需要保护的属性,该属性值的泄露、修改、破坏或丢失会对个人产生损害。
注:在潜在的重标识攻击期间需要防止其值与任何一个个人信息主体相关联。
3.11
有用性 usefulness
数据对于应用有着具体含义、具有使用意义的特性。
注:去标识化数据应用广泛,每种应用将要求去标识化数据具有某些特性以达到应用目的,因此在去标识化后,需要保证对这些特性的保留。
3.12
完全公开共享 completely public sharing
数据一旦发布,很难召回,一般通过互联网直接公开发布。
注:同英文术语The Release and Forget Model。
3.13
受控公开共享 controlled public sharing
通过数据使用协议对数据的使用进行约束。
注1:例如通过协议禁止信息接收方发起对数据集中个体的重标识攻击,禁止信息接收方关联到外部数据集或信息,禁止信息接收方未经许可共享数据集。
注2:同英文术语 The Data Use Agreement Model。
3.14
领地公开共享 enclave public sharing
在物理或虚拟的领地范围内共享,数据不能流出到领地范围外。
注:同英文术语The Enclave Model。
3.15
去标识化技术 de-identification technique
降低数据集中信息和个人信息主体关联程度的技术。
注1:降低信息的区分度,使得信息不能对应到特定个人,更低的区分度是不能判定不同的信息是否对应到同一个个人,实践中往往要求一条信息可能对应到的人数超过一定阈值。
注2:断开和个人信息主体的关联,即将个人其他信息和标识信息分离。
3.16
去标识化模型 de-identification model
应用去标识化技术并能计算重标识风险的方法。
4 概述
4.1 去标识化目标
去标识化目标包括:
a) 对直接标识符和准标识符进行删除或变换,避免攻击者根据这些属性直接识别或结合其他信息识别出原始个人信息主体;
b) 控制重标识的风险,根据可获得的数据情况和应用场景选择合适的模型和技术,将重标识的风险控制在可接受范围内,确保重标识风险不会随着新数据发布而增加,确保数据接收方之间的潜在串通不会增加重标识风险;
c) 在控制重标识风险的前提下,结合业务目标和数据特性,选择合适的去标识化模型和技术,确保去标识化后的数据集尽量满足其预期目的(有用)。
4.2 去标识化原则
对数据集进行去标识化,应遵循以下原则:
a) 合规:应满足我国法律、法规和标准规范对个人信息安全保护的有关规定,并持续跟进有关法律、法规和标准规范;
b) 个人信息安全保护优先:应根据业务目标和安全保护要求,对个人信息进行恰当的去标识化处理,在保护个人信息安全的前提下确保去标识化后的数据具有应用价值;
c) 技术和管理相结合:根据工作目标制定适当的策略,选择适当的模型和技术,综合利用技术和管理两方面措施实现最佳效果。包括设定具体的岗位,明确相应职责;对去标识化过程中形成的辅助信息(例如密钥、映射表等)采取有效的安全防护措施等;
d) 充分应用软件工具:针对大规模数据集的去标识化工作,应考虑使用软件工具提高去标识化效率、保证有效性;
e) 持续改进:在完成去标识化工作后应进行评估和定期重评估,对照工作目标,评估工作效果(包括重标识风险和有用性)与效率,持续改进方法、技术和工具。并就相关工作进行文档记录。
4.3 重标识风险
4.3.1 重标识方法
常见的用于重标识的方法如下:
a) 分离:将属于同一个个人信息主体的所有记录提取出来;
b) 关联:将不同数据集中关于相同个人信息主体的信息联系起来;
c) 推断:通过其他属性的值以一定概率判断出一个属性的值。
4.3.2 重标识攻击
常见的重标识攻击包括:
a) 重标识一条记录属于一个特定个人信息主体;
b) 重标识一条特定记录的个人信息主体;
c) 尽可能多的将记录和其对应的个人信息主体关联;
d) 判定一个特定的个人信息主体在数据集中是否存在;
e) 推断和一组其他属性关联的敏感属性。
4.4 去标识化影响
对数据集进行去标识化,会改变原始数据集,可能影响数据有用性。业务应用使用去标识化后的数据集时应充分认识到这一点,并考虑数据集变化可能带来的影响。
4.5 不同公开共享类型对去标识化的影响
在开展去标识化工作之前需要根据应用需求确定数据的公开共享类型,不同公开共享类型可能引发的重标识风险和对去标识化的要求如表1所示。
表1 不同公开共享类型对去标识化的影响
公开共享类型 可能的重标识风险 对去标识化的要求
完全公开共享 高 高
受控公开共享 中 中
领地公开共享 低 低
5 去标识化过程
5.1 概述
去标识化过程通常可分为确定目标、识别标识、处理标识以及验证审批等步骤,并在上述各步骤的实施过程中和完成后进行有效的监控和审查。如图1所示。
确定目标
识别标识
处理标识
验证审批
监控审查
图1 去标识化过程
5.2 确定目标
5.2.1 概述
确定目标步骤包括确定去标识化对象、建立去标识化目标和制定工作计划等内容。
5.2.2 确定去标识化对象
确定去标识化对象,指确定需要去标识化的数据集范围,宜根据以下要素确定哪些数据属于去标识化对象:
a) 法规标准。了解国家、地区或行业的相关政策、法律、法规和标准,待采集或发布数据是否涉及去标识化相关要求。
b) 组织策略。了解数据是否属于组织列入的重要数据或敏感数据范畴,数据应用时是否存在去标识化的要求。
c) 数据来源。了解这些数据采集时是否做过去标识化相关承诺。
d) 业务背景。了解数据来源相关信息系统的业务特性,了解业务内容和业务流程,披露数据是否涉及个人信息安全风险。
e) 数据用途。了解待发布数据的用途,是否存在个人信息安全风险。
f) 关联情况。了解数据披露历史和去标识化历史情况,待披露数据是否和历史数据存在关联关系。
5.2.3 建立去标识化目标
建立去标识化目标,具体包括确定重标识风险不可接受程度以及数据有用性最低要求。
需要考虑的因素包括:
a) 数据用途。了解数据去标识化后的用途,涉及业务系统的功能和特性,考虑数据去标识化的影响,确定数据有用性的最低要求。
b) 数据来源。了解数据获取时的相关承诺,以及涉及哪些个人信息。
c) 公开共享类别。若为数据发布实施个人信息去标识化,需了解数据是完全公开共享、受控公开共享还是领地公开共享,以及对数据在浏览和使用方面的安全保护措施。
d) 风险级别。了解数据属性和业务特性,拟采用的重标识风险评估模型及设定的风险级别。
e) 去标识化模型和技术。了解数据适用的保护或去标识化标准,以及可能采用的去标识化模型和技术。
5.2.4 制定工作计划
制定个人信息去标识化的实施计划,包括去标识化的目的、目标、数据对象、公开共享方式、实施团队、实施方案、利益相关方、应急措施以及进度安排等,形成去标识化实施计划书。
确定相关内容后,去标识化实施计划书应得到组织高级管理层的批准和支持。
5.3 识别标识
5.3.1 概述
识别标识符的方法包括查表识别法、规则判定法和人工分析法。
5.3.2 查表识别法
查表识别法指预先建立元数据表格,存储标识符信息,在识别标识数据时,将待识别数据的各个属性名称或字段名称,逐个与元数据表中记录进行比对,以此识别出标识数据。
建立的标识符元数据表,应包括标识符名称、含义、格式要求、常用数据类型、常用字段名字等内容。
查表识别法适用于数据集格式和属性已经明确的去标识化场景,如采用关系型数据库,在表结构中已经明确姓名、身份证号等标识符字段。
5.3.3 规则判定法
规则判定法是指通过建立软件程序,分析数据集规律,从中自动发现标识数据。
组织可分析业务特点,总结可能涉及直接标识符和准标识符的数据格式和规律,确立相关标识符识别规则,然后通过运行程序,自动化地从数据集中识别出标识数据。如可依据GB 11643—1999建立身份证号码识别规则,并通过自动化程序在数据集中自动发现存在的身份证号码数据。
组织识别标识数据宜先采用查表识别法,并根据数据量大小和复杂情况,结合采用规则判定法。规则判定法在某些情况下有助于发现查表识别法不能识别出的标识符,如标识符处于下面情况时:
a) 业务系统存储数据时未采用常用的字段名称,如使用“备注”字段存储身份证号;
b) 数据中存在混乱或错误情况,如“备注”字段前100条记录的值为空,而后10000条记录的值为用户身份证号码。
规则判定法不仅仅适用于结构化数据应用场景,也适用于某些半结构化和非结构化数据应用场景,如对于非结构化存储的司法判决书,可以通过建立身份证号识别规则和开发程序,从司法判决书中自动识别出所有的身份证号。
5.3.4 人工分析法
人工分析法是通过人工发现和确定数据集中的直接标识符和准标识符。
组织可在对业务处理、数据集结构、相互依赖关系和对数据集之外可用数据等要素分析的基础上,综合判断数据集重标识风险后,直接指定数据集中需要去标识化的直接标识符和准标识符。
人工分析法在结构化、半结构化和非结构化数据应用场景下都可使用。在下列场景时,人工分析法具有明显的优势:
a) 数据集中的多个不同数据子集之间存在关联、引用关系时,如通过数据挖掘算法,可关联分析数据集中多个非常见标识符属性后识别出唯一的用户身份;
b) 数据集中有特别含义的数据,或数据具有特殊值、容易引起注意的值,从而可能被用来重标识时,如超出常人的身高、独特的地理坐标、罕见的病因等。
相比较于查表识别法和规则判定法,人工分析法能够更加准确地识别出标识符。
5.4 处理标识
5.4.1 概述
处理标识步骤分为预处理、选择模型技术、实施去标识化三个阶段工作。
5.4.2 预处理
预处理是在对数据集正式实施去标识化前的准备过程。一般地,预处理是对数据集施加某种变化,使其有利于后期进行处理。
预处理阶段工作可参考如下方法进行:
a) 形成规范化,或满足特定格式要求的数据;
b) 对数据抽样,减小数据集的规模;
c) 增加或扰乱数据,改变数据集的真实性。
组织应根据数据集的实际情况选择预处理措施,或选择不预处理。
5.4.3 选择模型技术
不同类型的数据需要采用不同的去标识化技术,所以在去标识化的早期阶段,重要的一步是确定数据的类型和业务特性,考虑去标识化的影响,选择合适的去标识化模型和技术,在可接受的重标识风险范围内满足数据有用性的最低要求。选择的参考因素包括但不限于如下方面:
a) 是否需要对重标识风险进行量化;
b) 聚合数据是否够用;
c) 数据是否可删除;
d) 是否需要保持唯一性;
e) 是否需要满足可逆性;
f) 是否需要保持原有数据值顺序;
g) 是否需要保持原有数据格式,如数据类型、长度等保持不变;
h) 是否需要保持统计特征,如平均值、总和值、最大值、最小值等;
i) 是否需要保持关系型数据库中的实体完整性、参照完整性或用户自定义完整性;
j) 是否可以更改数据类型,例如在针对字符串类型的“性别”(男/女)进行去标识化时,是否可以变成数字类型表示(1/0);
k) 是否需要满足至少若干个属性值相同,以加强数据的不可区分性;
l) 是否可以对属性值实施随机噪声添加,对属性值做微小变化;
m) 去标识化的成本约束。
附录A和附录B分别给出了常见的去标识化技术和模型,针对这些技术和模型的特性以及选择方法可参考附录C,附录D给出了去标识化面临的风险。
5.4.4 实施去标识化
根据选择的去标识化模型和技术,对数据集实施去标识化。主要工作包括:
a) 若存在多个需要去标识化的标识符,则根据数据特点和业务特性设定去标识化的顺序;
b) 依次选择相应的T具或程序;
c) 设置工具或程序的属性和参数,如设置数据源、用户名/口令、算法参数等;
d) 依次执行去标识化工具或程序,获得结果数据集。