TW201714113A - 資料去識別化系統及其方法 - Google Patents

資料去識別化系統及其方法 Download PDF

Info

Publication number
TW201714113A
TW201714113A TW104133615A TW104133615A TW201714113A TW 201714113 A TW201714113 A TW 201714113A TW 104133615 A TW104133615 A TW 104133615A TW 104133615 A TW104133615 A TW 104133615A TW 201714113 A TW201714113 A TW 201714113A
Authority
TW
Taiwan
Prior art keywords
data
identification
target
target data
identified
Prior art date
Application number
TW104133615A
Other languages
English (en)
Inventor
Zi-Xuan Hong
Zhao-Zong Wu
Original Assignee
Chunghwa Telecom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chunghwa Telecom Co Ltd filed Critical Chunghwa Telecom Co Ltd
Priority to TW104133615A priority Critical patent/TW201714113A/zh
Publication of TW201714113A publication Critical patent/TW201714113A/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明提出一種資料去識別化系統及其方法,前述之資料去識別化系統包含用以存取待去識別之目標資料之去識別化模組,去識別化模組更對目標資料分割成複數個子目標資料,以將分割後之子目標資料分散給外部複數個工作主機經由雜湊進行分散式去識別化處理,並再對經由去識別化處理之子目標資訊進行併檔壓縮處理,以提供去識別化資料。據此,透過本發明之資料去識別化系統及其方法可快速的將資料進行分散處理,而能有效率的將具敏感資料進行去識別化作業。

Description

資料去識別化系統及其方法
本發明係一種資料去識別化系統及其方法,尤指一種可對目標資料進行分散式去識別化處理之去識別化系統及其方法。
隨個人資料保護意識之高漲,以及避免敏感資料因外洩而被盜用,使用者多會透過去識別化軟體來去除資料中敏感欄位(例如:身份證欄位、住址欄位等)。於現行技術中多採用破壞性去識別化方式以及非破壞性識別化此二種方式來進行處置。
破壞性去識別化方式係先搜尋出需去識別化之欄位,並用特殊符號(例如:*、&、#、%、@等)來取代敏感資料欄位,惟經由此種方式處置之資料無法再行還原。
而考量日後資料還原之需求,習知的非破壞性去識別化方式則是採用流水號來替換前述之敏感欄位。前述利用流水號來進行去識別化之方式為確保流水號之一致性,因此在處理目標資料時,多由同一電腦裝置進行處理,以避免目標資料因分配給不同電腦進行處理而產生重疊之流水號,進而造成該目標資料無法正常的還原。而當待處理之資料量較大時,此種處理方式則會嚴重的影響其處理速度。
綜上所述,如何提供一種可藉由分散式運算模式進行運作之去識別化系統乃本領域亟需解決之技術問題。
為解決前揭之問題,本發明之目的係提供一種可對目標資料進行分散式去識別化處理之去識別化系統及其方法。
為達上述目的,本發明提出一種資料去識別化系統,包含用以存取待去識別之目標資料之去識別化模組,去識別化模組更對目標資料分割成複數個子目標資料,以將分割後之子目標資料分散給外部複數個工作主機經由雜湊進行分散式去識別化處理,去識別化模組又對經由去識別化處理之子目標資訊進行併檔壓縮處理,以提供去識別化資料。
為達上述目的,本發明提出一種資料去識別化方法,該方法應用於具備運算能力之電子裝置,並包含下列步驟:將目標資料分割成複數個子目標資料。將分割後之子目標資料分散給外部複數個工作主機經由雜湊進行分散式去識別化處理。對經由去識別化處理之子目標資訊進行併檔壓縮處理,以提供去識別化資料。
綜上所述,本發明之資料去識別化系統及其方法透過分散式去識別化處理,而能有效率的處理具有敏感性之資料。
1‧‧‧資料去識別化系統
11‧‧‧去識別化模組
12‧‧‧重新識別化模組
13‧‧‧金鑰資料庫
14‧‧‧去識別化規則集資料庫
15‧‧‧轉換比對資料庫
2‧‧‧目標資料
3‧‧‧去識別化資料
圖1係為本發明一實施例之資料去識別化系統之系統示意圖。
圖2係為本發明另一實施例之資料去識別化方法之方法流程示意圖。
以下將描述具體之實施例以說明本發明之實施態樣,惟其並非用以限制本發明所欲保護之範疇。
請參閱圖1,其為本發明一實施例之資料去識別化系統1之系統示意圖。資料去識別化系統1包含去識別化模組11、重新識別化模組12、金鑰資料庫13、去識別化規則集資料庫14、轉換比對資料庫15。去識別化模組11係連接金鑰資料庫13、去識別化規則集資料庫14以及轉換比對資料庫15。而重新識別化模組12則是連接去識別化規則集資料庫14以及轉換比對資料庫15。
前述之模組係可為硬體之運算處理器或軟體運算模組。其軟體運算模組可藉由ASP、C/C++/C#、JAVA、Python、PHP、Perl等程式語言實現之,惟其程式語言之類別不在此限。
在進行映射(map)處理階段時,去識別化模組11會存取待去識別之目標資料2,並將目標資料2分割成複數個子目標資料,接著,將分割後之子目標資料分散給外部複數個工作主機,並經由雜湊進行去識別化處理以進行雲端分散運算。接著去識別化模組11又對經由去識別化處理之子目標資料進行併檔壓縮處理,以提供去識別化資料3。
去識別化模組11係經由金鑰雜湊訊息鑑別碼(keyed-Hash Message Authentication Code,簡稱:HMAC)進行去識別化處理。為對各種具有不同識別主題(例如:身分證資料、住址資料等)之目標資料2進處理,此時去識別化模組11經由金鑰資料庫13係提供複數個去識別化主題金鑰,來處理對應格式之目標資料2。
在縮減(Reduce)階段之併檔壓縮處理時,其縮減數量係依目標檔案之大小以及去識別化後檔案成長率進行配置。進一步說明之,縮減數量求解公式為:
其中,去識別化後檔案成長率X(n)之公式為: 其中,n為轉換前資料行位元組(byte)數,C i 為第i個去識別化欄位之位元組數,α為金鑰雜湊訊訊息鑑別碼輸出之位元組數,|C|為去識別化欄位個數,E j 為第j個衍生欄位之位元組數。
在得知縮減數量後,便可配置相對數量之工作主機進行併檔壓縮處理,以避免產出檔案數目過於分散,以致於浪費雲端檔案系統之檔案區塊空間,藉由此模式可將縮減數量維持在適當範圍內,以優化分散處理之速度。
而在執行去識別化作業後,去識別化模組11會將操作之去識別化規則儲存至去識別化規則集資料庫14,以及將目標資料2以及去識別化資料3之轉換對照資訊儲存至轉換比對資料庫15。
而需還原去識別化之目標資料2時,重新識別化模組12可查詢去識別化規則集資料庫14以及轉換比對資料庫15,以依據去識別化規則以及轉換對照資訊以還原目標資料2。
請參閱圖2,其為本發明另一實施例之資料去識別化方法,該方法應用於具有運算能力之電子裝置(例如電腦裝置),該方法包含下列之步驟:S101:將目標資料分割成複數個子目標資料。
S102:將分割後之子目標資料分散給外部複數個工作主機經由雜湊進行分 散式去識別化處理。
S103:對經由去識別化處理之子目標資訊進行併檔壓縮處理,以提供去識別化資料。
於另一實施例中,本發明之資料去識別化系統1係設置於雲端服務系統,並用於將目標資料2(例如:敏感性巨量資料)進行去識別化作業。當資料去識別化系統1運作時,去識別化模組11會先載入如表1之去識別化設定,其包含去識別化主題以及去識別化設定內容(JavaScript Object Notation格式,簡稱:JSON):
其中inputPaths代表目標資料2(敏感性巨量資料)存放路徑(可以涵蓋多個相同格式的路徑)、schema代表資料格式(分號作為分隔符號,欄位數目為4)、deidentifyColumns代表去識別化屬性(對第2、3欄進行去識化)、extraColumns代表衍生欄位(擷取第2欄前2碼成為新的欄位)、outputDirPath代表去識別化資料3存放目錄。接著去識別化模組11會到去識別化規則集資料庫14中查詢是否有相同現存的主題,若主題存在時,去識別化模組11會從金鑰資料庫13中取出對應該主題之現存金鑰;若主題不存在時,去識別化模組11會自動新增一把金鑰到金鑰資料庫13中。
若原始資料行中包含4個欄位:時間、身份證號、姓名、通 話秒數,其中身份證號、姓名欄位包含敏感性欄位,其內容如表2所示:
經過前述去識別化處理後,所產生的去識別化資料3行,可以見到敏感性內容已經由金鑰所產生之隱碼進行替換處理,並且包含衍生欄位1,供未來分析目的使用(例如可以獲得出生地範圍、性別等資訊),其內容表3所示:
經過前述去識別化處理後,所產生的轉換對應資料行包含三個欄位:「欄位類型」、「轉換後」、「轉換前」。將轉換對應資料行寫入轉換比對資料庫15(該資料庫可採用Hive、HBase、BigTable、Cassandra、MongoDB等可建立在雲端平台上的資料庫來存放,皆應視為等效實施)的資料表Analysis_01。以存入HBase資料庫為例,可將「欄位類型」和「轉換後」欄位合併作為行鍵(row key),「轉換前」的資料內容作為欄位值(column value)存放,其內容如表4:
若使用者輸入的去識別化主題為Analysis_01,接著去識別化模組11會連結至去識別化規則集資料庫14中進行查詢,以取得歷史資料之去識別化設定。在平行去識別化處理時,去識別化模組11會連到轉換比對資料庫15的資料表Analysis_01,並將「欄位類型」和「轉換後」欄位合併作為行鍵,查詢得到轉換前的資料。
接著依序從去識別化設定中的去識別化內容,刪除衍生欄位屬性,即可還原回原本之目標資料2(敏感性巨量資料),其內容如表5:
上列詳細說明係針對本發明之一可行實施例之具體說明,惟該實施例並非用以限制本發明之專利範圍,凡未脫離本發明技藝精神所為之等效實施或變更,均應包含於本案之專利範圍中。
1‧‧‧資料去識別化系統
11‧‧‧去識別化模組
12‧‧‧重新識別化模組
13‧‧‧金鑰資料庫
14‧‧‧去識別化規則集資料庫
15‧‧‧轉換比對資料庫
2‧‧‧目標資料
3‧‧‧去識別化資料

Claims (10)

  1. 一種資料去識別化系統,包含:去識別化模組,用以存取待去識別之目標資料,該去識別化模組更對該目標資料分割成複數個子目標資料,以將分割後之該等子目標資料分散給外部複數個工作主機經由雜湊進行分散式去識別化處理,該去識別化模組又對該等經由去識別化處理之該等子目標資訊進行併檔壓縮處理,以提供去識別化資料。
  2. 如請求項1所述之資料去識別化系統,其中該去識別化模組係經由金鑰雜湊訊息鑑別碼進行去識別化處理。
  3. 如請求項2所述之資料去識別化系統,更包含連接該去識別化模組之金鑰資料庫,該金鑰資料庫係提供複數個去識別化主題金鑰,該等去識別化主題金鑰係用以處理對應格式之該目標資料。
  4. 如請求項2所述之資料去識別化系統,其中該併檔壓縮處理之縮減數量係依據該目標檔案之大小以及去識別化後檔案成長率進行配置。
  5. 如請求項4所述之資料去識別化系統,其中該去識別化模組之該去識別化後檔案成長率X(n)之公式為: 其中,n為轉換前資料行位元組(byte)數,C i 為第i個去識別化欄位之位元組數,α為該金鑰雜湊訊訊息鑑別碼輸出之位元組數,|C|為去識別化欄位個數,E j 為第j個衍生欄位之位元組數。
  6. 如請求項1所述之資料去識別化系統,更包含:去識別化規則集資料庫,連接該去識別化模組,該去識別化規則集資料 庫係用以提供該去識別化模組之去識別化規則;轉換比對資料庫,連接該去識別化模組,該轉換比對資料庫係提供該目標資料以及該去識別化資料之轉換對照資訊;重新識別化模組,連接該去識別化規則集資料庫以及該轉換比對資料庫,該重新識別化模組係依據該去識別化規則以及該轉換對照資訊以還原該目標資料。
  7. 一種資料去識別化方法,應用於具備運算能力之電子裝置,包含下列步驟:將目標資料分割成複數個子目標資料;將分割後之該等子目標資料分散給外部複數個工作主機經由雜湊進行分散式去識別化處理;以及對該等經由去識別化處理之該等子目標資訊進行併檔壓縮處理,以提供去識別化資料。
  8. 如請求項7所述之資料去識別化方法,係經由金鑰雜湊訊息鑑別碼進行去識別化處理。
  9. 如請求項8所述之資料去識別化方法,其中該併檔壓縮處理之縮減數量係依據該目標檔案之大小以及去識別化後檔案成長率進行配置。
  10. 如請求項9所述之資料去識別化方法,其中該去識別化後檔案成長率X(n)之公式為: 其中,n為轉換前資料行位元組(byte)數,C i 為第i個去識別化欄位之位元 組數,α為該金鑰雜湊訊訊息鑑別碼輸出之位元組數,|C|為去識別化欄位個數,E j 為第j個衍生欄位之位元組數。
TW104133615A 2015-10-14 2015-10-14 資料去識別化系統及其方法 TW201714113A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW104133615A TW201714113A (zh) 2015-10-14 2015-10-14 資料去識別化系統及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW104133615A TW201714113A (zh) 2015-10-14 2015-10-14 資料去識別化系統及其方法

Publications (1)

Publication Number Publication Date
TW201714113A true TW201714113A (zh) 2017-04-16

Family

ID=59256789

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104133615A TW201714113A (zh) 2015-10-14 2015-10-14 資料去識別化系統及其方法

Country Status (1)

Country Link
TW (1) TW201714113A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI644224B (zh) * 2017-10-18 2018-12-11 財團法人工業技術研究院 資料去識別化方法、資料去識別化裝置及執行資料去識別化方法的非暫態電腦可讀取儲存媒體
US11641346B2 (en) 2019-12-30 2023-05-02 Industrial Technology Research Institute Data anonymity method and data anonymity system
TWI809704B (zh) * 2021-02-09 2023-07-21 瑞典商安訊士有限公司 用於安全儲存含有個人資料之媒體及消除所儲存個人資料之裝置及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI644224B (zh) * 2017-10-18 2018-12-11 財團法人工業技術研究院 資料去識別化方法、資料去識別化裝置及執行資料去識別化方法的非暫態電腦可讀取儲存媒體
US10699029B2 (en) 2017-10-18 2020-06-30 Industrial Technology Research Institute Data de-identification method, data de-identification apparatus and non-transitory computer readable storage medium executing the same
US11641346B2 (en) 2019-12-30 2023-05-02 Industrial Technology Research Institute Data anonymity method and data anonymity system
TWI809704B (zh) * 2021-02-09 2023-07-21 瑞典商安訊士有限公司 用於安全儲存含有個人資料之媒體及消除所儲存個人資料之裝置及方法

Similar Documents

Publication Publication Date Title
US10965714B2 (en) Policy enforcement system
WO2018214898A1 (zh) 一种向区块链系统中写入业务数据的方法和装置
US11418525B2 (en) Data processing method, device and storage medium
US20140033262A1 (en) Parsing Single Source Content for Multi-Channel Publishing
WO2018166113A1 (zh) 随机森林模型训练的方法、电子装置及存储介质
JP2017102966A (ja) バックアップ及びアーカイビングのための企業及び私用データの自動分離
US9177129B2 (en) Devices, systems, and methods for monitoring and asserting trust level using persistent trust log
JP2017532649A (ja) 機密情報処理方法、装置、及び、サーバ、ならびに、セキュリティ決定システム
US8875302B2 (en) Classification of an electronic document
US9971809B1 (en) Systems and methods for searching unstructured documents for structured data
WO2019100619A1 (zh) 电子装置、多表关联查询的方法、系统及存储介质
KR101764674B1 (ko) 침해 자원에 대한 그래프 데이터베이스 생성 방법 및 그 장치
AU2017311138A1 (en) Protected indexing and querying of large sets of textual data
US11157641B2 (en) Short-circuit data access
US20230164168A1 (en) Distributing Search Loads to Optimize Security Event Processing
TW201714113A (zh) 資料去識別化系統及其方法
US9043926B2 (en) Identifying primarily monosemous keywords to include in keyword lists for detection of domain-specific language
WO2018177286A1 (zh) 一种静态资源请求处理方法及装置
WO2016169212A1 (zh) 文件管理方法和装置
CN117633835A (zh) 一种数据处理方法、装置、设备以及存储介质
US20230153455A1 (en) Query-based database redaction
US20150106884A1 (en) Memcached multi-tenancy offload
US8887291B1 (en) Systems and methods for data loss prevention for text fields
US20150310127A1 (en) N-Way Inode Translation
US20220083507A1 (en) Trust chain for official data and documents