TW201714113A

TW201714113A - 資料去識別化系統及其方法

Info

Publication number: TW201714113A
Application number: TW104133615A
Authority: TW
Inventors: Zi-Xuan Hong; Zhao-Zong Wu
Original assignee: Chunghwa Telecom Co Ltd
Priority date: 2015-10-14
Filing date: 2015-10-14
Publication date: 2017-04-16

Abstract

本發明提出一種資料去識別化系統及其方法，前述之資料去識別化系統包含用以存取待去識別之目標資料之去識別化模組，去識別化模組更對目標資料分割成複數個子目標資料，以將分割後之子目標資料分散給外部複數個工作主機經由雜湊進行分散式去識別化處理，並再對經由去識別化處理之子目標資訊進行併檔壓縮處理，以提供去識別化資料。據此，透過本發明之資料去識別化系統及其方法可快速的將資料進行分散處理，而能有效率的將具敏感資料進行去識別化作業。

Description

資料去識別化系統及其方法

本發明係一種資料去識別化系統及其方法，尤指一種可對目標資料進行分散式去識別化處理之去識別化系統及其方法。

隨個人資料保護意識之高漲，以及避免敏感資料因外洩而被盜用，使用者多會透過去識別化軟體來去除資料中敏感欄位(例如：身份證欄位、住址欄位等)。於現行技術中多採用破壞性去識別化方式以及非破壞性識別化此二種方式來進行處置。

破壞性去識別化方式係先搜尋出需去識別化之欄位，並用特殊符號(例如：*、&、#、%、@等)來取代敏感資料欄位，惟經由此種方式處置之資料無法再行還原。

而考量日後資料還原之需求，習知的非破壞性去識別化方式則是採用流水號來替換前述之敏感欄位。前述利用流水號來進行去識別化之方式為確保流水號之一致性，因此在處理目標資料時，多由同一電腦裝置進行處理，以避免目標資料因分配給不同電腦進行處理而產生重疊之流水號，進而造成該目標資料無法正常的還原。而當待處理之資料量較大時，此種處理方式則會嚴重的影響其處理速度。

綜上所述，如何提供一種可藉由分散式運算模式進行運作之去識別化系統乃本領域亟需解決之技術問題。

為解決前揭之問題，本發明之目的係提供一種可對目標資料進行分散式去識別化處理之去識別化系統及其方法。

為達上述目的，本發明提出一種資料去識別化系統，包含用以存取待去識別之目標資料之去識別化模組，去識別化模組更對目標資料分割成複數個子目標資料，以將分割後之子目標資料分散給外部複數個工作主機經由雜湊進行分散式去識別化處理，去識別化模組又對經由去識別化處理之子目標資訊進行併檔壓縮處理，以提供去識別化資料。

為達上述目的，本發明提出一種資料去識別化方法，該方法應用於具備運算能力之電子裝置，並包含下列步驟：將目標資料分割成複數個子目標資料。將分割後之子目標資料分散給外部複數個工作主機經由雜湊進行分散式去識別化處理。對經由去識別化處理之子目標資訊進行併檔壓縮處理，以提供去識別化資料。

綜上所述，本發明之資料去識別化系統及其方法透過分散式去識別化處理，而能有效率的處理具有敏感性之資料。

1‧‧‧資料去識別化系統

11‧‧‧去識別化模組

12‧‧‧重新識別化模組

13‧‧‧金鑰資料庫

14‧‧‧去識別化規則集資料庫

15‧‧‧轉換比對資料庫

2‧‧‧目標資料

3‧‧‧去識別化資料

圖1係為本發明一實施例之資料去識別化系統之系統示意圖。

圖2係為本發明另一實施例之資料去識別化方法之方法流程示意圖。

以下將描述具體之實施例以說明本發明之實施態樣，惟其並非用以限制本發明所欲保護之範疇。

請參閱圖1，其為本發明一實施例之資料去識別化系統1之系統示意圖。資料去識別化系統1包含去識別化模組11、重新識別化模組12、金鑰資料庫13、去識別化規則集資料庫14、轉換比對資料庫15。去識別化模組11係連接金鑰資料庫13、去識別化規則集資料庫14以及轉換比對資料庫15。而重新識別化模組12則是連接去識別化規則集資料庫14以及轉換比對資料庫15。

前述之模組係可為硬體之運算處理器或軟體運算模組。其軟體運算模組可藉由ASP、C/C++/C#、JAVA、Python、PHP、Perl等程式語言實現之，惟其程式語言之類別不在此限。

在進行映射(map)處理階段時，去識別化模組11會存取待去識別之目標資料2，並將目標資料2分割成複數個子目標資料，接著，將分割後之子目標資料分散給外部複數個工作主機，並經由雜湊進行去識別化處理以進行雲端分散運算。接著去識別化模組11又對經由去識別化處理之子目標資料進行併檔壓縮處理，以提供去識別化資料3。

去識別化模組11係經由金鑰雜湊訊息鑑別碼(keyed-Hash Message Authentication Code，簡稱：HMAC)進行去識別化處理。為對各種具有不同識別主題(例如：身分證資料、住址資料等)之目標資料2進處理，此時去識別化模組11經由金鑰資料庫13係提供複數個去識別化主題金鑰，來處理對應格式之目標資料2。

在縮減(Reduce)階段之併檔壓縮處理時，其縮減數量係依目標檔案之大小以及去識別化後檔案成長率進行配置。進一步說明之，縮減數量求解公式為：

其中，去識別化後檔案成長率X(n)之公式為：其中，n為轉換前資料行位元組(byte)數，C _i為第i個去識別化欄位之位元組數，α為金鑰雜湊訊訊息鑑別碼輸出之位元組數，|C|為去識別化欄位個數，E _j為第j個衍生欄位之位元組數。

在得知縮減數量後，便可配置相對數量之工作主機進行併檔壓縮處理，以避免產出檔案數目過於分散，以致於浪費雲端檔案系統之檔案區塊空間，藉由此模式可將縮減數量維持在適當範圍內，以優化分散處理之速度。

而在執行去識別化作業後，去識別化模組11會將操作之去識別化規則儲存至去識別化規則集資料庫14，以及將目標資料2以及去識別化資料3之轉換對照資訊儲存至轉換比對資料庫15。

而需還原去識別化之目標資料2時，重新識別化模組12可查詢去識別化規則集資料庫14以及轉換比對資料庫15，以依據去識別化規則以及轉換對照資訊以還原目標資料2。

請參閱圖2，其為本發明另一實施例之資料去識別化方法，該方法應用於具有運算能力之電子裝置(例如電腦裝置)，該方法包含下列之步驟：S101：將目標資料分割成複數個子目標資料。

S102：將分割後之子目標資料分散給外部複數個工作主機經由雜湊進行分散式去識別化處理。

S103：對經由去識別化處理之子目標資訊進行併檔壓縮處理，以提供去識別化資料。

於另一實施例中，本發明之資料去識別化系統1係設置於雲端服務系統，並用於將目標資料2(例如：敏感性巨量資料)進行去識別化作業。當資料去識別化系統1運作時，去識別化模組11會先載入如表1之去識別化設定，其包含去識別化主題以及去識別化設定內容(JavaScript Object Notation格式，簡稱：JSON)：

其中inputPaths代表目標資料2(敏感性巨量資料)存放路徑(可以涵蓋多個相同格式的路徑)、schema代表資料格式(分號作為分隔符號，欄位數目為4)、deidentifyColumns代表去識別化屬性(對第2、3欄進行去識化)、extraColumns代表衍生欄位(擷取第2欄前2碼成為新的欄位)、outputDirPath代表去識別化資料3存放目錄。接著去識別化模組11會到去識別化規則集資料庫14中查詢是否有相同現存的主題，若主題存在時，去識別化模組11會從金鑰資料庫13中取出對應該主題之現存金鑰；若主題不存在時，去識別化模組11會自動新增一把金鑰到金鑰資料庫13中。

若原始資料行中包含4個欄位：時間、身份證號、姓名、通話秒數，其中身份證號、姓名欄位包含敏感性欄位，其內容如表2所示：

經過前述去識別化處理後，所產生的去識別化資料3行，可以見到敏感性內容已經由金鑰所產生之隱碼進行替換處理，並且包含衍生欄位1，供未來分析目的使用(例如可以獲得出生地範圍、性別等資訊)，其內容表3所示：

經過前述去識別化處理後，所產生的轉換對應資料行包含三個欄位：「欄位類型」、「轉換後」、「轉換前」。將轉換對應資料行寫入轉換比對資料庫15(該資料庫可採用Hive、HBase、BigTable、Cassandra、MongoDB等可建立在雲端平台上的資料庫來存放，皆應視為等效實施)的資料表Analysis_01。以存入HBase資料庫為例，可將「欄位類型」和「轉換後」欄位合併作為行鍵(row key)，「轉換前」的資料內容作為欄位值(column value)存放，其內容如表4：

若使用者輸入的去識別化主題為Analysis_01，接著去識別化模組11會連結至去識別化規則集資料庫14中進行查詢，以取得歷史資料之去識別化設定。在平行去識別化處理時，去識別化模組11會連到轉換比對資料庫15的資料表Analysis_01，並將「欄位類型」和「轉換後」欄位合併作為行鍵，查詢得到轉換前的資料。

接著依序從去識別化設定中的去識別化內容，刪除衍生欄位屬性，即可還原回原本之目標資料2(敏感性巨量資料)，其內容如表5：

上列詳細說明係針對本發明之一可行實施例之具體說明，惟該實施例並非用以限制本發明之專利範圍，凡未脫離本發明技藝精神所為之等效實施或變更，均應包含於本案之專利範圍中。