Codeofchina.com is in charge of this English translation. In case of any doubt about the English translation, the Chinese original shall be considered authoritative.
This standard is developed in accordance with the rules given in GB/T 1.1-2009.
Attention is drawn to the possibility that some of the elements of this standard may be the subject of patent rights. The issuing body of this document shall not be held responsible for identifying any or all such patent rights.
This standard was proposed by and is under the jurisdiction of the National Technical Committee on Information Security of Standardization Administration of China (SAC/TC 260).
?
Introduction
In the era of big data, cloud computing and the Internet of Everything, data-based applications are increasingly widespread, which also brings huge personal information security problems. In order to protect the personal information security and promote the sharing of data, this guide for de-identifying personal information is formulated.
The purpose of this standard is to learn from the latest research results of personal information de-identifying at home and abroad, refine the current best practices in the industry, study the objectives, principles, techniques, models, processes and organizational measures of personal information de-identifying, and put forward a guide to de-identifying personal information that can scientifically and effectively resist security risks and meet the needs of information development.
The data set to be de-identified concerned by this standard is microdata (the data set represented by record set that may be represented logically in tabular form). De-identification is not only deleting or transforming the direct identifier and quasi-identifier in the data set, but also considering the risk of re-identification of the data set in combination with the later application scenarios, so as to select the appropriate de-identification models and technical measures and implement the appropriate effect assessment.
Data sets that are not microdata may be converted into microdata for processing, and may also be processed with reference to the objectives, principles and methods of this standard. For example, for tabular data, if there are multiple records about one person, multiple records may be combined into one, thus forming microdata, in which there is only one record of the same person.
Information security technology — Guide for de-identifying personal information
1 Scope
This standard describes the objectives and principles of personal information de-identification, and puts forward the de-identification process and management measures.
This standard provides specific personal information de-identification guidance for microdata, which is applicable for organizations to implement the personal information de-identification, as well as the supervision, management and assessment of personal information security implemented by relevant network security authorities and third-party assessment agencies, etc.
2 Normative references
The following referenced documents are indispensable for the application of this document. For dated references, only the edition cited applies. For undated references, the latest edition of the referenced document (including any amendments) applies.
GB/T 25069-2010 Information security technology — Glossary
3 Terms and definitions
For the purposes of this document, the terms and definitions given in GB/T 25069-2010 and the following apply.
3.1
personal information
various information recorded electronically or otherwise that can, either alone or in combination with other information, identify a particular natural person or reflect the activity of such a person
[GB/T 35273-2017, 3.1]
3.2
personal information subject
the natural person identified by personal information
[GB/T 35273-2017, 3.3]
?
3.3
de-identification
process of processing personal information in technical terms so that the personal data subject cannot be identified without additional information
[GB/T 35273-2017, 3.14]
Note: Remove the correlation between identifier and personal information subject.
3.4
microdata
structured data set, in which each record (row) corresponds to a personal information subject, and each field (column) in the record corresponds to an attribute
3.5
aggregate data
data representing a set of personal information subject
Note: For example, a set of various statistical values.
3.6
identifier
one or more attributes in microdata that may uniquely identify the personal information subject
Note: Identifiers are classified into direct identifiers and quasi-identifiers.
3.7
direct identifier
attribute in microdata that can identify the personal information subject independently under specific circumstances
Note 1: Specific environment refers to the specific scenario where personal information is applied. For example, in a specific school, a specific student may be directly identified by his or her student number.
Note 2: Common direct identifiers include name, ID card number, passport number, driver's license number, address, email address, telephone number, fax number, bank card number, license plate number, vehicle identification number, social insurance number, health card number, medical record number, equipment identifier, biometric code, Internet Protocol (IP) address number and network universal resource locator (URL).
3.8
quasi-identifier
attribute in microdata that may uniquely identify the personal information subject in combination with other attributes
Note: Common quasi-identifiers include gender, date of birth or age, date of event (e.g., admission, operation, discharge, visit), place (such as postal code, building name, region), ethnic origin, country of birth, language, aboriginal status, visible ethnic minority status, occupation, marital status, education level, school years, criminal history, total income and religious belief, etc.
3.9
re-identification
process of re-correlating the de-identified data set to the original personal information subject or a set of personal information subjects
3.10
sensitive attribute
attribute in a data set that needs to be protected, whose leakage, modification, destruction or loss will cause harm to individuals
Note: During the potential re-identification attack, it is necessary to prevent its value from being correlated with any personal information subject.
3.11
usefulness
characteristics of data with concrete meaning and useful meaning for application
Note: De-identified data is widely used, and each application will require de-identified data to have certain characteristics to achieve the application purpose, so after de-identification, it is necessary to ensure the retention of these characteristics.
3.12
completely public sharing
public release directly through the Internet, with data hard to recall once disseminated
Note: the same as English term “The Release and Forget Model”.
3.13
controlled public sharing
data use restricted by the data use agreement
Note 1: For example, information receivers are prohibited from launching re-identification attacks on individuals in data sets, from correlating with external data sets or information, and from sharing data sets without permission.
Note 2: the same as English term “The Data Use Agreement Model”.
3.14
enclave public sharing
data sharing in a physical or virtual enclave, where data cannot flow out of the enclave
Note: the same as English term “The Enclave Model”.
3.15
de-identification technique
technique to reduce the correlation between information in data set and personal information subject
Note 1: Reduce the discrimination of information, so that information cannot correspond to a specific individual. If the discrimination is lower, it is impossible to judge whether different information corresponds to the same individual. In practice, it is often required that the number of people that a piece of information may correspond to exceeds a certain threshold.
Note 2: Disconnecting from the personal information subject means separating other personal information from identification information.
3.16
de-identification model
method of applying de-identification technique and calculating re-identification risk
4 General
4.1 De-identification objectives
The de-identification objectives include:
a) Delete or transform the direct identifier and the quasi-identifier, so as to prevent the attacker from directly identifying the original personal information subject based on these attributes or combining with other information;
b) Control the risk of re-identification, select appropriate models and techniques based on available data and application scenarios, and control the risk of re-identification within an acceptable range; ensure that the risk of re-identification will not increase with the dissemination of new data, and ensure that potential collusion between data recipients will not increase the risk of re-identification;
c) Under the premise of controlling the re-identification risk, and in combination with business objectives and data characteristics, select the appropriate de-identification model and technique to ensure that the de-identified data set meets its intended purpose (useful) as much as possible.
Foreword i
Introduction ii
1 Scope
2 Normative references
3 Terms and definitions
4 General
4.1 De-identification objectives
4.2 De-identification principles
4.3 Re-identification risks
4.4 De-identification impact
4.5 Impact of different types of public sharing on de-identification
5 De-identification process
5.1 General
5.2 Determination of objectives
5.3 Identifying the identification
5.4 Processing the identification
5.5 Verification and approval
5.6 Monitoring and reviewing
6 Role responsibilities and personnel management
6.1 Role responsibilities
6.2 Personnel management
Annex A (Informative) Common de-identification techniques
Annex B (Informative) Common de-identification models
Annex C (Informative) Selection of de-identification model and technique
Annex D (Informative) Challenges to de-identification
Bibliography
信息安全技術
個人信息去標識化指南
1 范圍
本標準描述了個人信息去標識化的目標和原則,提出了去標識化過程和管理措施。
本標準針對微數據提供具體的個人信息去標識化指導,適用于組織開展個人信息去標識化工作,也適用于網絡安全相關主管部門、第三方評估機構等組織開展個人信息安全監督管理、評估等工作。
2 規范性引用文件
下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T 25069—2010 信息安全技術 術語
3 術語和定義
GB/T 25069—2010界定的以及下列術語和定義適用于本文件。
3.1
個人信息 personal information
以電子或其他方式記錄的能夠單獨或與其他信息結合識別特定自然人身份或反映特定自然人活動情況的各種信息。
[GB/T 35273—2017,定義3.1]
3.2
個人信息主體 personal data subject
個人信息所標識的自然人。
[GB/T 35273—2017,定義3.3]
3.3
去標識化 de-identification
通過對個人信息的技術處理,使其在不借助額外信息的情況下,無法識別個人信息主體的過程。
[GB/T 35273—2017,定義3.14]
注:去除標識符與個人信息主體之間關聯性。
3.4
微數據 microdata
一個結構化數據集,其中每條(行)記錄對應一個個人信息主體,記錄中的每個字段(列)對應一個屬性。
3.5
聚合數據 aggregate data
表征一組個人信息主體的數據。
注:例如各種統計值的集合。
3.6
標識符 identifier
微數據中的一個或多個屬性,可以實現對個人信息主體的唯一識別。
注:標識符分為直接標識符和準標識符。
3.7
直接標識符 direct identifier
微數據中的屬性,在特定環境下可以單獨識別個人信息主體。
注1:特定環境指個人信息使用的具體場景。例如,在一個具體的學校,通過學號可以直接識別出一個具體的學生。
注2:常見的直接標識符有:姓名、身份證號、護照號、駕照號、地址、電子郵件地址、電話號碼、傳真號碼、銀行卡號碼、車牌號碼、車輛識別號碼、社會保險號碼、健康卡號碼、病歷號碼、設備標識符、生物識別碼、互聯網協議(IP)地址號和網絡通用資源定位符(URL)等。
3.8
準標識符 quasi-identifier
微數據中的屬性,結合其他屬性可唯一識別個人信息主體。
注:常見的準標識符有:性別、出生日期或年齡、事件日期(例如入院、手術、出院、訪問)、地點(例如郵政編碼、建筑名稱、地區)、族裔血統、山生國、語言、原住民身份、可見的少數民族地位、職業、婚姻狀況、受教育水平、上學年限、犯罪歷史、總收入和宗教信仰等。
3.9
重標識 re-identification
把去標識化的數據集重新關聯到原始個人信息主體或一組個人信息主體的過程。
3.10
敏感屬性 sensitive attribute
數據集中需要保護的屬性,該屬性值的泄露、修改、破壞或丟失會對個人產生損害。
注:在潛在的重標識攻擊期間需要防止其值與任何一個個人信息主體相關聯。
3.11
有用性 usefulness
數據對于應用有著具體含義、具有使用意義的特性。
注:去標識化數據應用廣泛,每種應用將要求去標識化數據具有某些特性以達到應用目的,因此在去標識化后,需要保證對這些特性的保留。
3.12
完全公開共享 completely public sharing
數據一旦發布,很難召回,一般通過互聯網直接公開發布。
注:同英文術語The Release and Forget Model。
3.13
受控公開共享 controlled public sharing
通過數據使用協議對數據的使用進行約束。
注1:例如通過協議禁止信息接收方發起對數據集中個體的重標識攻擊,禁止信息接收方關聯到外部數據集或信息,禁止信息接收方未經許可共享數據集。
注2:同英文術語 The Data Use Agreement Model。
3.14
領地公開共享 enclave public sharing
在物理或虛擬的領地范圍內共享,數據不能流出到領地范圍外。
注:同英文術語The Enclave Model。
3.15
去標識化技術 de-identification technique
降低數據集中信息和個人信息主體關聯程度的技術。
注1:降低信息的區分度,使得信息不能對應到特定個人,更低的區分度是不能判定不同的信息是否對應到同一個個人,實踐中往往要求一條信息可能對應到的人數超過一定閾值。
注2:斷開和個人信息主體的關聯,即將個人其他信息和標識信息分離。
3.16
去標識化模型 de-identification model
應用去標識化技術并能計算重標識風險的方法。
4 概述
4.1 去標識化目標
去標識化目標包括:
a) 對直接標識符和準標識符進行刪除或變換,避免攻擊者根據這些屬性直接識別或結合其他信息識別出原始個人信息主體;
b) 控制重標識的風險,根據可獲得的數據情況和應用場景選擇合適的模型和技術,將重標識的風險控制在可接受范圍內,確保重標識風險不會隨著新數據發布而增加,確保數據接收方之間的潛在串通不會增加重標識風險;
c) 在控制重標識風險的前提下,結合業務目標和數據特性,選擇合適的去標識化模型和技術,確保去標識化后的數據集盡量滿足其預期目的(有用)。
4.2 去標識化原則
對數據集進行去標識化,應遵循以下原則:
a) 合規:應滿足我國法律、法規和標準規范對個人信息安全保護的有關規定,并持續跟進有關法律、法規和標準規范;
b) 個人信息安全保護優先:應根據業務目標和安全保護要求,對個人信息進行恰當的去標識化處理,在保護個人信息安全的前提下確保去標識化后的數據具有應用價值;
c) 技術和管理相結合:根據工作目標制定適當的策略,選擇適當的模型和技術,綜合利用技術和管理兩方面措施實現最佳效果。包括設定具體的崗位,明確相應職責;對去標識化過程中形成的輔助信息(例如密鑰、映射表等)采取有效的安全防護措施等;
d) 充分應用軟件工具:針對大規模數據集的去標識化工作,應考慮使用軟件工具提高去標識化效率、保證有效性;
e) 持續改進:在完成去標識化工作后應進行評估和定期重評估,對照工作目標,評估工作效果(包括重標識風險和有用性)與效率,持續改進方法、技術和工具。并就相關工作進行文檔記錄。
4.3 重標識風險
4.3.1 重標識方法
常見的用于重標識的方法如下:
a) 分離:將屬于同一個個人信息主體的所有記錄提取出來;
b) 關聯:將不同數據集中關于相同個人信息主體的信息聯系起來;
c) 推斷:通過其他屬性的值以一定概率判斷出一個屬性的值。
4.3.2 重標識攻擊
常見的重標識攻擊包括:
a) 重標識一條記錄屬于一個特定個人信息主體;
b) 重標識一條特定記錄的個人信息主體;
c) 盡可能多的將記錄和其對應的個人信息主體關聯;
d) 判定一個特定的個人信息主體在數據集中是否存在;
e) 推斷和一組其他屬性關聯的敏感屬性。
4.4 去標識化影響
對數據集進行去標識化,會改變原始數據集,可能影響數據有用性。業務應用使用去標識化后的數據集時應充分認識到這一點,并考慮數據集變化可能帶來的影響。
4.5 不同公開共享類型對去標識化的影響
在開展去標識化工作之前需要根據應用需求確定數據的公開共享類型,不同公開共享類型可能引發的重標識風險和對去標識化的要求如表1所示。
表1 不同公開共享類型對去標識化的影響
公開共享類型 可能的重標識風險 對去標識化的要求
完全公開共享 高 高
受控公開共享 中 中
領地公開共享 低 低
5 去標識化過程
5.1 概述
去標識化過程通常可分為確定目標、識別標識、處理標識以及驗證審批等步驟,并在上述各步驟的實施過程中和完成后進行有效的監控和審查。如圖1所示。
確定目標
識別標識
處理標識
驗證審批
監控審查
圖1 去標識化過程
5.2 確定目標
5.2.1 概述
確定目標步驟包括確定去標識化對象、建立去標識化目標和制定工作計劃等內容。
5.2.2 確定去標識化對象
確定去標識化對象,指確定需要去標識化的數據集范圍,宜根據以下要素確定哪些數據屬于去標識化對象:
a) 法規標準。了解國家、地區或行業的相關政策、法律、法規和標準,待采集或發布數據是否涉及去標識化相關要求。
b) 組織策略。了解數據是否屬于組織列入的重要數據或敏感數據范疇,數據應用時是否存在去標識化的要求。
c) 數據來源。了解這些數據采集時是否做過去標識化相關承諾。
d) 業務背景。了解數據來源相關信息系統的業務特性,了解業務內容和業務流程,披露數據是否涉及個人信息安全風險。
e) 數據用途。了解待發布數據的用途,是否存在個人信息安全風險。
f) 關聯情況。了解數據披露歷史和去標識化歷史情況,待披露數據是否和歷史數據存在關聯關系。
5.2.3 建立去標識化目標
建立去標識化目標,具體包括確定重標識風險不可接受程度以及數據有用性最低要求。
需要考慮的因素包括:
a) 數據用途。了解數據去標識化后的用途,涉及業務系統的功能和特性,考慮數據去標識化的影響,確定數據有用性的最低要求。
b) 數據來源。了解數據獲取時的相關承諾,以及涉及哪些個人信息。
c) 公開共享類別。若為數據發布實施個人信息去標識化,需了解數據是完全公開共享、受控公開共享還是領地公開共享,以及對數據在瀏覽和使用方面的安全保護措施。
d) 風險級別。了解數據屬性和業務特性,擬采用的重標識風險評估模型及設定的風險級別。
e) 去標識化模型和技術。了解數據適用的保護或去標識化標準,以及可能采用的去標識化模型和技術。
5.2.4 制定工作計劃
制定個人信息去標識化的實施計劃,包括去標識化的目的、目標、數據對象、公開共享方式、實施團隊、實施方案、利益相關方、應急措施以及進度安排等,形成去標識化實施計劃書。
確定相關內容后,去標識化實施計劃書應得到組織高級管理層的批準和支持。
5.3 識別標識
5.3.1 概述
識別標識符的方法包括查表識別法、規則判定法和人工分析法。
5.3.2 查表識別法
查表識別法指預先建立元數據表格,存儲標識符信息,在識別標識數據時,將待識別數據的各個屬性名稱或字段名稱,逐個與元數據表中記錄進行比對,以此識別出標識數據。
建立的標識符元數據表,應包括標識符名稱、含義、格式要求、常用數據類型、常用字段名字等內容。
查表識別法適用于數據集格式和屬性已經明確的去標識化場景,如采用關系型數據庫,在表結構中已經明確姓名、身份證號等標識符字段。
5.3.3 規則判定法
規則判定法是指通過建立軟件程序,分析數據集規律,從中自動發現標識數據。
組織可分析業務特點,總結可能涉及直接標識符和準標識符的數據格式和規律,確立相關標識符識別規則,然后通過運行程序,自動化地從數據集中識別出標識數據。如可依據GB 11643—1999建立身份證號碼識別規則,并通過自動化程序在數據集中自動發現存在的身份證號碼數據。
組織識別標識數據宜先采用查表識別法,并根據數據量大小和復雜情況,結合采用規則判定法。規則判定法在某些情況下有助于發現查表識別法不能識別出的標識符,如標識符處于下面情況時:
a) 業務系統存儲數據時未采用常用的字段名稱,如使用“備注”字段存儲身份證號;
b) 數據中存在混亂或錯誤情況,如“備注”字段前100條記錄的值為空,而后10000條記錄的值為用戶身份證號碼。
規則判定法不僅僅適用于結構化數據應用場景,也適用于某些半結構化和非結構化數據應用場景,如對于非結構化存儲的司法判決書,可以通過建立身份證號識別規則和開發程序,從司法判決書中自動識別出所有的身份證號。
5.3.4 人工分析法
人工分析法是通過人工發現和確定數據集中的直接標識符和準標識符。
組織可在對業務處理、數據集結構、相互依賴關系和對數據集之外可用數據等要素分析的基礎上,綜合判斷數據集重標識風險后,直接指定數據集中需要去標識化的直接標識符和準標識符。
人工分析法在結構化、半結構化和非結構化數據應用場景下都可使用。在下列場景時,人工分析法具有明顯的優勢:
a) 數據集中的多個不同數據子集之間存在關聯、引用關系時,如通過數據挖掘算法,可關聯分析數據集中多個非常見標識符屬性后識別出唯一的用戶身份;
b) 數據集中有特別含義的數據,或數據具有特殊值、容易引起注意的值,從而可能被用來重標識時,如超出常人的身高、獨特的地理坐標、罕見的病因等。
相比較于查表識別法和規則判定法,人工分析法能夠更加準確地識別出標識符。
5.4 處理標識
5.4.1 概述
處理標識步驟分為預處理、選擇模型技術、實施去標識化三個階段工作。
5.4.2 預處理
預處理是在對數據集正式實施去標識化前的準備過程。一般地,預處理是對數據集施加某種變化,使其有利于后期進行處理。
預處理階段工作可參考如下方法進行:
a) 形成規范化,或滿足特定格式要求的數據;
b) 對數據抽樣,減小數據集的規模;
c) 增加或擾亂數據,改變數據集的真實性。
組織應根據數據集的實際情況選擇預處理措施,或選擇不預處理。
5.4.3 選擇模型技術
不同類型的數據需要采用不同的去標識化技術,所以在去標識化的早期階段,重要的一步是確定數據的類型和業務特性,考慮去標識化的影響,選擇合適的去標識化模型和技術,在可接受的重標識風險范圍內滿足數據有用性的最低要求。選擇的參考因素包括但不限于如下方面:
a) 是否需要對重標識風險進行量化;
b) 聚合數據是否夠用;
c) 數據是否可刪除;
d) 是否需要保持唯一性;
e) 是否需要滿足可逆性;
f) 是否需要保持原有數據值順序;
g) 是否需要保持原有數據格式,如數據類型、長度等保持不變;
h) 是否需要保持統計特征,如平均值、總和值、最大值、最小值等;
i) 是否需要保持關系型數據庫中的實體完整性、參照完整性或用戶自定義完整性;
j) 是否可以更改數據類型,例如在針對字符串類型的“性別”(男/女)進行去標識化時,是否可以變成數字類型表示(1/0);
k) 是否需要滿足至少若干個屬性值相同,以加強數據的不可區分性;
l) 是否可以對屬性值實施隨機噪聲添加,對屬性值做微小變化;
m) 去標識化的成本約束。
附錄A和附錄B分別給出了常見的去標識化技術和模型,針對這些技術和模型的特性以及選擇方法可參考附錄C,附錄D給出了去標識化面臨的風險。
5.4.4 實施去標識化
根據選擇的去標識化模型和技術,對數據集實施去標識化。主要工作包括:
a) 若存在多個需要去標識化的標識符,則根據數據特點和業務特性設定去標識化的順序;
b) 依次選擇相應的T具或程序;
c) 設置工具或程序的屬性和參數,如設置數據源、用戶名/口令、算法參數等;
d) 依次執行去標識化工具或程序,獲得結果數據集。