TW201917608A

TW201917608A - 資料去識別化方法、資料去識別化裝置及執行資料去識別化方法的非暫態電腦可讀取儲存媒體

Info

Publication number: TW201917608A
Application number: TW106135782A
Authority: TW
Inventors: 郭權瑋; 高銘智; 潘佑宣; 王邦傑
Original assignee: 財團法人工業技術研究院
Priority date: 2017-10-18
Filing date: 2017-10-18
Publication date: 2019-05-01
Also published as: TWI644224B; US10699029B2; CN109684862B; US20190114447A1; CN109684862A

Abstract

一種資料去識別化方法、資料去識別化裝置及執行資料去識別化方法的非暫態電腦可讀取儲存媒體。資料去識別化方法包括以下步驟。取得一原始資料，原始資料包括一身分識別欄位、一條件欄位以及一紀錄欄位。根據條件欄位取得一情境條件。根據身份識別欄位紀錄的複數個身份識別資料及情境條件，由原始資料中取得符合情境條件的對應於各身份識別資料的一情境片段序列。根據身份識別資料及對應於身份識別資料的情境片段序列，取得一序列資料。調整序列資料以取得一去識別化資料。

Description

資料去識別化方法、資料去識別化裝置及執行資料去識別化方法的非暫態電腦可讀取儲存媒體

本發明是有關於一種資料去識別化方法、資料去識別化裝置及執行資料去識別化方法的非暫態電腦可讀取儲存媒體。

近來資料應用蔚為風潮，對於企業及政府而言，如何運用資料發現價值、解決問題，進而改善工作流程或活化行政服務，係有效應用資料的目標之一。

然而，大數據 (big data) 及開放資料 (open data) 的推動產生了侵害個人隱私的顧慮，因此，必須將對外釋出、揭露的資料進行資料去識別化 (data de-identification)，使無法由去識別化的資料之呈現方式直接或間接識別出特定個人。

因此，如何使對外釋出的資料中的個人資料不再具有直接或間接識別性，乃目前業界所致力的課題之一。

本發明係有關於一種資料去識別化方法、資料去識別化方法裝置及執行資料去識別化方法的非暫態電腦可讀取儲存媒體。

根據本發明之一實施例，提出一種資料去識別化方法。資料去識別化方法包括以下步驟。取得一原始資料，該原始資料包括一身分識別欄位、一條件欄位以及一紀錄欄位。根據該條件欄位取得一情境條件。根據該身份識別欄位紀錄的複數個身份識別資料及該情境條件，由該原始資料中取得符合該情境條件的對應於各該些身份識別資料的一情境片段序列。根據該些身份識別資料及對應於各該些身份識別資料的該情境片段序列，取得一序列資料。調整該序列資料以取得一去識別化資料。

根據本發明之一實施例，提出一種資料去識別化裝置。資料去識別化裝置包括一處理器以及一記憶體。該記憶體耦接於該處理器。該處理器用以：取得一原始資料，該原始資料包括一身分識別欄位、一條件欄位以及一紀錄欄位；根據該條件欄位取得一情境條件；根據該身份識別欄位紀錄的複數個身份識別資料及該情境條件，由該原始資料中取得符合該情境條件的對應於各該些身份識別資料的一情境片段序列；根據該些身份識別資料及對應於各該些身份識別資料的該情境片段序列，取得一序列資料；調整該序列資料以取得一去識別化資料。

根據本發明之一實施例，提出一種非暫態電腦可讀取儲存媒體，其上儲存有一或多個軟體程式，該一或多個軟體程式包括多個指令，當被一電子裝置的一或多個處理器執行時，將使該電子裝置進行一資料去識別化方法。資料去識別化方法包括：取得一原始資料，該原始資料包括一身分識別欄位、一條件欄位以及一紀錄欄位；根據該條件欄位取得一情境條件；根據該身份識別欄位紀錄的複數個身份識別資料及該情境條件，由該原始資料中取得符合該情境條件的對應於各該些身份識別資料的一情境片段序列；根據該些身份識別資料及對應於各該些身份識別資料的該情境片段序列，取得一序列資料；以及調整該序列資料以取得一去識別化資料。

為了對本發明之上述及其他方面有更佳的瞭解，下文特舉實施例，並配合所附圖式詳細說明如下：

以下提出各種實施例進行詳細說明，然而，實施例僅用以作為範例說明，並不會限縮本發明欲保護之範圍。此外，實施例中的圖式省略部份元件，以清楚顯示本發明的技術特點。在所有圖式中相同的標號將用於表示相同或相似的元件。

由於網路的快速發展，讓資訊分享可以更容易、更快速。然而，資料分享帶來使用者隱私問題。惡意的使用者可以藉由分析資料以及資料之間的關聯性，得到使用者的現實生活狀況，可能造成使用者現實中的損失。

k-匿名 (k-anonymity) 技術是一個保護資料隱私的機制。k-匿名技術在資料發佈前，對資料進行去識別化，使資料中至少 k-1 筆資料無法與所選的資料作出區別，避免攻擊者由資料重新識別出特定個人。其中，k值越大，資料的保護效果越佳。上述之「去識別化」係指透過一定程序與步驟對資料進行加工處理，使個人資料不再具有直接或間接識別性，無法採取任何合理可能之方法由此資料中識別出特定個人。

當資料經處理後，在一個資料集之中，對於一個由多個屬性值結合起來的組合 (如地址、年齡、性別等)，若是可以找到k筆資料是具有這樣的組合，那此資料集就符合k匿名，其中k為k-匿名化參數，其值大於1，可視為隱私的安全強度。而一般的k-匿名技術容易產生大量的資料損失，不能處理連續型的資料，例如時間序列型的資料。包含時間的資料，透過資料的時間欄位組合，可組成時間序列型資料，可看出事件發生頻率，導致重新識別的風險。未來網路交易及物聯網的資料都將會是時間序列型態，因此需對時間序列型資料進行有效的去識別化。

請參照第1圖，其繪示依照本發明一實施例的一資料去識別化裝置10與一資料儲存單元190連接的示意圖。資料去識別化裝置10包括一資料擷取單元110、一條件設定單元120、一序列建立單元130以及一去識別化單元140。資料擷取單元110耦接於資料儲存單元190以及條件設定單元120。序列建立單元130耦接於條件設定單元120以及去識別化單元140。資料去識別化裝置10可以例如由包括一處理器及耦接處理器的一記憶體的運算裝置來實現，運算裝置可以例如是個人電腦、伺服器等。資料儲存單元190可以例如是一硬碟、一快閃記憶體、一唯讀記憶體 (Read-Only Memory, ROM)、一非揮發性記憶體 (Non-Volatile Memory)、一雲端儲存裝置、或是藉由電腦系統、伺服器等電子裝置執行近端或遠端資料庫系統來實現，以儲存一原始資料。資料擷取單元110、條件設定單元120、序列建立單元130以及去識別化單元140可以例如是藉由使用一晶片、晶片內的一電路區塊、一韌體電路、含有數個電子元件及導線的電路板或儲存一或多個軟體程式之一或多組程式碼的一非暫態儲存媒體來實現，也可藉由在處理器的控制下，執行儲存於記憶體的一或多組程式碼來操作實現，也可藉由伺服器、電腦系統或類似裝置等具一或多個處理器的電子裝置執行對應軟體或程式來實現。

請參照第2圖，其繪示本發明一實施例的資料去識別化方法的流程圖。第2圖繪示之資料去識別化方法的流程圖可應用於如第1圖所示之資料去識別化裝置10。為了清楚說明上述各項元件的運作以及本發明實施例的資料去識別化方法，以下將搭配第2圖之流程圖詳細說明如下。然而，本發明所屬技術領域中具有通常知識者均可瞭解，本發明可實施例的控制裝置及方法並不侷限應用於第1圖的資料去識別化裝置10，也不侷限於第2圖之流程圖的各項步驟順序。此資料去識別化方法例如可由一或多個軟體程式實作，軟體程式可儲存於光碟、硬碟或其他非暫態電腦可讀取儲存媒體上，軟體程式可以包括多個相關於處理器 (亦或可被稱為控制器) 的指令或軟體程式，這些指令或軟體程式可被具有一或多個處理器/ 控制器的電子裝置載入以執行資料去識別化方法。關於各步驟的詳細說明如下。

請同時參照第1圖及第2圖。依據本發明之一實施例，以超市購物為例，在一固定時間內，例如半個營業日、一個營業日、五個營業日或者30個營業日等，此超市的部份交易紀錄如下表表1所示。此交易紀錄可儲存於資料儲存單元190中。表1

首先，於步驟S202，資料擷取單元110取得儲存於資料儲存單元190中的原始資料。原始資料包括了一身分識別欄位、一條件欄位以及至少一紀錄欄位。身份識別欄位紀錄了複數個身份識別資料。條件欄位可以例如是一時間欄位，其紀錄了對應於身份識別資料的複數筆時間資料。紀錄欄位則紀錄了對應於身份識別資料的複數筆其他資料。在本實施例中，原始資料可以例如是表1所示之超市交易紀錄。以表1之超市交易紀錄為例，由左至右，第一欄位為上述之身分識別欄位，其紀錄了顧客身份識別。第二欄位為上述之條件欄位，亦為一時間欄位，其紀錄了結帳時間。第三欄位、第四欄位及第五欄位則分別紀錄了顧客所購買商品、商品購買數量以及商品單價。

接著，在步驟S204，條件設定單元120根據條件欄位取得一情境條件。以上述表1所記載之超市交易紀錄為例，條件設定單元120根據第二欄位所紀錄的結帳時間取得一時間區間作為一情境條件，例如為「2017年06月01日至2017年06月30日」。在本範例中，情境條件為一時間條件。

隨後，在步驟S206，序列建立單元130根據身份識別欄位紀錄的複數個身份識別資料及情境條件，由原始資料中取得符合情境條件的對應於身份識別資料的一情境片段序列。於一實施例中，序列建立單元130可由紀錄欄位紀錄的複數個紀錄資料中，取得符合情境條件的對應於各身份識別資料的紀錄資料。接著，序列建立單元130根據對應於各身份識別資料的紀錄資料，取得對應於各身份識別資料的至少一情境片段。情境片段係由原始資料中紀錄欄位所紀錄的紀錄資料組成。隨後，序列建立單元130依據對應於各身份識別資料的至少一情境片段，取得對應於各身份識別資料的情境片段序列。情境片段可以是原始資料中的一個紀錄欄位的資料或是數個紀錄欄位的資料的組合。其中，情境片段序列中的情境片段係以時間順序排序。

以上述表1所記載之超市交易紀錄為例，情境條件為購物時間位於2017年06月01日至2017年06月30日之間，也就是說，在本範例中係以一時間區間作為情境條件。序列建立單元130依據顧客身份識別欄位紀錄之顧客身份識別資料以及情境條件，由原始資料中取出在結帳時間在2017年06月01日至2017年06月30日之間的各顧客的購物資料，如下表表2所示。舉例來說，可使用序列樣本探勘 (Sequential Pattern Mining) 技術處理上述時間區間內的購物資料。購物資料可以例如包括但不限於購買之商品、購買商品之數量或購買商品之單價等。表2

序列建立單元130依據各顧客的購物資料取得對應於各顧客的至少一情境片段。舉例來說，可以以購買商品以及商品的購買數量組成一情境片段。以顧客17850的購買紀錄而言，衛生紙6件、麵粉2件、葵花油6件以及毛件12件係為對應於顧客17850的情境片段。因此，以如表2所示之購買紀錄為例，依據購買商品以及購買數量取得對應於不同顧客的情境片段，可取得如下表表3(a)所列之對應於各顧客的情境片段。也就是說，各情境片段的內容為 {商品, 數量}。表3(a)

為方便說明，將顧客身份識別17850、顧客身份識別13777、顧客身份識別16931、顧客身份識別15862、顧客身份識別16552以及顧客身份識別14729分別稱為顧客1、顧客2、顧客3、顧客4、顧客5及顧客6。將情境片段{衛生紙, 6}、情境片段{麵粉, 2}、情境片段{葵花油, 6}、情境片段{毛巾, 12}、情境片段{牙刷, 5}、情境片段{起司, 1}以及情境片段{牛奶, 3}分別稱為情境片段A、情境片段B、情境片段C、情境片段D、情境片段E、情境片段F以及情境片段G。因此，上述表3(a)可整理如下表表3(b)。表3(b)

於表3(b)中，對應於顧客1的四個情境片段A、B、C、D可組成對應於顧客1的一情境片段序列{A, B, C, D}。相似地，對應於顧客2的四個情境片段可組成對應於顧客2的一情境片段序列{A, B, C, D}。對應於顧客3的三個情境片段可組成對應於顧客3的一情境片段序列{B, E, F}。對應於顧客4的兩個情境片段可組成對應於顧客4的一情境片段序列{B, E}。對應於顧客5的兩個情境片段可組成對應於顧客5的一情境片段序列{B, E}。對應於顧客6的三個情境片段可組成對應於顧客6的一情境片段序列{C, D, G}。請參照如下表表4(a)，表4(a)列出分別對應於顧客1～6的情境片段序列。各情境片段序列中的情境片段係以一時間順序排序。表4(a)

接著，於步驟S208，序列建立單元130根據各身份識別資料及對應於各身份識別資料的情境片段序列，取得一序列資料，如上表表4(a)所示，表4(a)為一序列資料。並於步驟S210，去識別化單元140調整序列資料以取得一去識別化資料。

請參照第3圖，其繪示依照本發明一實施例的調整序列資料以取得去識別化資料的流程圖。在第2圖的步驟S210中，去識別化單元140調整序列資料以取得一去識別化資料。第3圖的步驟S302至步驟S320進一步說明第2圖的步驟S210調整序列資料以取得去識別化資料的流程可實施例。本發明所屬技術領域中具有通常知識者均可瞭解，本發明可實施例的調整序列資料以取得去識別化資料的方法不侷限於第3圖之流程圖的各項步驟順序。

在步驟S302，去識別化單元140依據各情境片段序列取得各情境片段序列的至少一子序列。舉例來說，可以利用Apriori演算法或PrefixSpan演算法取得各情境片段序列內的各子序列。以上述表4(a)為例，顧客1、2的情境片段序列皆為{A, B, C, D}，其子序列包括{A}、{B}、{C}、{D}、{A, B}、{A, C}、{A, D}、{B, C}、{B, D}、{C, D}、{A, B, C}、{A, B, D}、{A, C, D}、{B, C, D}以及{A, B, C, D}。顧客3的情境片段序列為{B, E, F}，其子序列包括{B}、{E}、{F}、{B, E}、{B, F}、{E, F}、{B, E, F}。顧客4、5的情境片段序列皆為{B, E}，其子序列包括{B}、{E}、{B, E}。顧客6的情境片段序列為{C, D, G}，其子序列包括{C}、{D}、{G}、{C, D}、{C, G}、{D, G}、{C, D, G}。

接著，於步驟S304，去識別化單元140取得各子序列的子序列長度，即子序列中情境片段的個數。以上述表4(a)為例，子序列{A}、{B}、{C}、{D}、{E}、{F}、{G}的子序列長度皆為1。子序列{A, B}、{A, C}、{A, D}、{B, C}、{B, D}、{C, D}、{B, E}、{B, F}、{E, F}、{C, G}、{D, G}的子序列長度皆為2。子序列{A, B, C}、{A, B, D}、{A, C, D}、{B, C, D}、{B, E, F}、{C, D, G}的子序列長度為3。子序列{A, B, C, D}的子序列長度為4。

於步驟S306，去識別化單元140取得各子序列的子序列出現次數。舉例來說，可以利用Apriori演算法或PrefixSpan演算法計算各子序列的子序列出現次數。以上述表4(a)為例，子序列{A}的子序列出現次數為2。子序列{B}的子序列出現次數為5。子序列{C}的子序列出現次數為3。子序列{D}的子序列出現次數為3。子序列{E}的子序列出現次數為3。子序列{F}的子序列出現次數為1。子序列{G}的子序列出現次數為1。子序列{A, B}的子序列出現次數為2。子序列{A, C}的子序列出現次數為2。子序列{A, D}的子序列出現次數為2。子序列{B, C}的子序列出現次數為2。子序列{B, D}的子序列出現次數為2。子序列{C, D}的子序列出現次數為3。子序列{B, E}的子序列出現次數為3。子序列{B, F}的子序列出現次數為1。子序列{E, F}的子序列出現次數為1。子序列{C, G}的子序列出現次數為1。子序列{D, G}的子序列出現次數為1。子序列{A, B, C}的子序列出現次數為2。子序列{A, B, D}的子序列出現次數為2。子序列{A, C, D}的子序列出現次數為2。子序列{B, C, D}的子序列出現次數為2。子序列{B, E, F}的子序列出現次數為1。子序列{C, D, G}的子序列出現次數為1。子序列{A, B, C, D}的子序列出現次數為2。

於步驟S308，去識別化單元140根據子序列長度以及子序列出現次數，移除一特定子序列。於一實施例中，去識別化單元140可由各子序列中，優先選出子序列長度最短且子序列出現次數小於一預設值的特定子序列，並將選出的特定子序列由子序列中移除。也就是說，由子序列中移除的特定子序列的子序列出現次數小於預設值。

以上述表4(a)為例，預設值例如為2，為k-匿名化技術 (k-anonymity) 的k值，即k-匿名化參數。去識別化單元140將優先選出子序列長度為1且子序列出現次數小於2的子序列，即子序列{F}、{G}，並將子序列{F}、{G}由子序列中移除。也就是說，移除的子序列{F}、{G}的子序列出現次數小於k-匿名化參數。

移除子序列長度最短且子序列出現次數小於預設值的特定子序列後，於步驟S310，去識別化單元140判斷子序列中是否仍有子序列出現次數小於預設值的子序列。若仍有子序列出現次數小於預設值的子序列，去識別化單元140再次由剩下的子序列中，選出子序列長度最短且子序列出現次數小於預設值的特定子序列，並將選出的特定子序列由剩下的子序列中移除。

當去識別化單元140於步驟S310中判斷子序列中沒有子序列出現次數小於預設值的子序列 (步驟S310的判斷結果為否)，則於步驟S312中，去識別化單元140依據剩下的子序列取得到對應於各情境片段序列的一調整後情境片段序列。以上述表4(a)之內容以及預設值 (k-匿名化參數) 為2作為例子，根據子序列長度以及子序列出現次數，移除特定子序列後，可取得如下表表4(b)所示之調整後情境片段序列。表4(b)與表4(a)相比，子序列{F}、{G}被移除。表4(b)

隨後，於步驟S314，去識別化單元140取得調整後情境片段序列的情境片段序列出現次數。舉例來說，可以利用Apriori演算法或PrefixSpan演算法計算調整後情境片段序列的情境片段序列出現次數。以表4(b)為例，調整後情境片段序列{A, B, C, D}的情境片段序列出現次數為2。調整後情境片段序列{B, E}的情境片段序列出現次數為3。調整後情境片段序列{C, D}的情境片段序列出現次數為1。

在步驟S316，去識別化單元140根據調整後情境片段序列的情境片段序列出現次數，移除一特定調整後情境片段序列。於一實施例中，去識別化單元140可由調整後情境片段序列中，優先選出情境片段序列出現次數小於一預設值的特定調整後情境片段序列，並將選出的特定調整後情境片段序列由調整後情境片段序列中移除。也就是說，由調整後情境片段序列中移除的特定調整後情境片段序列的情境片段序列出現次數小於預設值。

以上述表4(b)為例，預設值例如為2，為k-匿名化技術 (k-anonymity) 的k-匿名化參數。去識別化單元140取得情境片段序列出現次數小於2的調整後情境片段序列{C, D}，並將調整後情境片段序列{C, D}由調整後情境片段序列中移除。也就是說，移除的調整後情境片段序列{C, D}的情境片段序列出現次數小於k-匿名化參數。

移除情境片段序列出現次數小於預設值的特定調整後情境片段序列後，於步驟S318，去識別化單元140判斷剩下的調整後情境片段序列中，是否仍有情境片段序列出現次數小於預設值的調整後情境片段序列。若仍有情境片段序列出現次數小於預設值的調整後情境片段序列，去識別化單元140再次由剩下的調整後情境片段序列中，選出情境片段序列出現次數小於預設值的特定調整後情境片段序列，並將選出的特定調整後情境片段序列由剩下的調整後情境片段序列中移除。

當去識別化單元140於步驟S318中判斷剩下的調整後情境片段序列中沒有情境片段序列出現次數小於預設值的調整後情境片段序列，則於步驟S320中，去識別化單元140依據剩下的調整後情境片段序列取得一留存情境片段序列，作為一去識別化資料。以上述表4(b)之內容以及預設值 (k-匿名化參數) 為2作為例子，根據情境片段序列出現次數，移除特定調整後情境片段序列後，可取得如下表表4(c)所示之留存情境片段序列，作為去識別化資料。其中，以符號 * 表示對應於顧客6的調整後情境片段序列因其情境片段序列出現次數小於預設值而被移除或遮蔽。表4(c)

上述表4(c)所示之去識別化資料中，留存情境片段序列的情境片段序列出現次數大於預設值 (k-匿名化參數)，符合k匿名技術對於k匿名的要求，使資料中至少 k-1 筆資料無法與所選的資料作出區別。

在本發明之另一實施例中，以投資人投資股市為例，對投資人之投資組合進行去識別化處理。舉例來說，依據各投資人的投資資料取得對應於各投資人的至少一情境片段。舉例來說，如下表表5(a)所列之對應於各投資人的情境片段，在本實施例中，以購買之股票類別以及購買之股票數量組成一情境片段。以投資人13378的購買股票紀錄而言，航運股3張、觀光股3張、化學股3張及光電股3張係為對應於投資人13378的情境片段。在本實施例中，依據股票類別以及對應的購買數量取得對應於不同投資人的情境片段，也就是說，各情境片段的內容為 {股票類別, 數量}。表5(a)

為方便說明，將投資人身份識別11378、投資人身份識別14359、投資人身份識別16215、投資人身份識別13842、投資人身份識別17815以及投資人身份識別11258分別稱為投資人1、投資人2、投資人3、投資人4、投資人5及投資人6。將情境片段{航運股, 3}、情境片段{觀光股, 3}、情境片段{化學股, 3}、情境片段{光電股, 3}、情境片段{紡織股, 2}、情境片段{鋼鐵股, 2}以及情境片段{半導體股, 4}分別稱為情境片段A、情境片段B、情境片段C、情境片段D、情境片段E、情境片段F以及情境片段G。因此，上述表5(a)可整理如下表表5(b)。表5(b)

於表5(b)中，對應於投資人1的四個情境片段A、B、C、D可組成對應於投資人1的一情境片段序列{A, B, C, D}。相似地，對應於投資人2的四個情境片段可組成對應於投資人2的一情境片段序列{B, E}。對應於投資人3的三個情境片段可組成對應於投資人3的一情境片段序列{A, C, D, E}。對應於投資人4的兩個情境片段可組成對應於投資人4的一情境片段序列{C, E, F, G}。對應於投資人5的兩個情境片段可組成對應於投資人5的一情境片段序列{A, C, D, G}。對應於投資人6的三個情境片段可組成對應於投資人6的一情境片段序列{B, D, E}。請參照下表表5(c)，表5(c)列出分別對應於投資人1～6的情境片段序列。在本實施例中，各情境片段序列中的情境片段可不以時間排序，也就是說，本實施例係為對非時間序列型態的資料進行去識別化處理。表5(c)

接著，根據身份識別資料 (投資人身份識別) 及對應於身份識別資料的情境片段序列，取得一序列資料，如上表表5(c)所示，表5(c)為一序列資料。隨後，調整序列資料以取得一去識別化資料。

調整序列資料以取得去識別化資料，可先依據各情境片段序列取得各情境片段序列的至少一子序列。舉例來說，可以利用Apriori演算法或PrefixSpan演算法取得各情境片段序列內的各子序列。並取得各子序列的子序列長度，即子序列中情境片段的個數，以及取得各子序列的子序列出現次數，舉例來說，可以利用Apriori演算法或PrefixSpan演算法計算各子序列的子序列出現次數。

根據子序列長度以及子序列出現次數，移除一特定子序列。於一實施例中，可由各子序列中，優先選出子序列長度最短且子序列出現次數小於一預設值的特定子序列，並將選出的特定子序列由子序列中移除。移除子序列長度最短且子序列出現次數小於預設值的特定子序列後，判斷子序列中是否仍有子序列出現次數小於預設值的子序列。若仍有子序列出現次數小於預設值的子序列，再次由剩下的子序列中，選出子序列長度最短且子序列出現次數小於預設值的特定子序列，並將選出的特定子序列由剩下的子序列中移除。並在判斷子序列中沒有子序列出現次數小於預設值的子序列後，依據剩下的子序列取得到對應於各情境片段序列的一調整後情境片段序列。

以上述表5(c)之內容以及預設值 (k-匿名化參數) 為2作為例子，根據子序列長度以及子序列出現次數，移除特定子序列後，可取得如下表表5(d)所示之調整後情境片段序列。表5(c)與表5(d)相比，子序列{F}、{G}被移除。表5(d)

接著，取得調整後情境片段序列的情境片段序列出現次數。舉例來說，可以利用Apriori演算法或PrefixSpan演算法計算調整後情境片段序列的情境片段序列出現次數。以表5(d)為例，調整後情境片段序列{A, C, D}的情境片段序列出現次數為3。調整後情境片段序列{B, E}的情境片段序列出現次數為2。調整後情境片段序列{C, E}的情境片段序列出現次數為1。

根據調整後情境片段序列的情境片段序列出現次數，移除一特定調整後情境片段序列。於一實施例中，可由調整後情境片段序列中，優先選出情境片段序列出現次數小於一預設值的特定調整後情境片段序列，並將選出的特定調整後情境片段序列由調整後情境片段序列中移除。以上述表5(d)為例，預設值例如為2，為k-匿名化技術 (k-anonymity) 的k-匿名化參數。取得情境片段序列出現次數小於2的調整後情境片段序列{C, E}，並將調整後情境片段序列{C, E}由調整後情境片段序列中移除。

移除情境片段序列出現次數小於預設值的特定調整後情境片段序列後，判斷剩下的調整後情境片段序列中，是否仍有情境片段序列出現次數小於預設值的調整後情境片段序列。若仍有情境片段序列出現次數小於預設值的調整後情境片段序列，再次由剩下的調整後情境片段序列中，選出情境片段序列出現次數小於預設值的特定調整後情境片段序列，並將選出的特定調整後情境片段序列由剩下的調整後情境片段序列中移除。

當判斷剩下的調整後情境片段序列中沒有情境片段序列出現次數小於預設值的調整後情境片段序列，則依據剩下的調整後情境片段序列取得一留存情境片段序列，作為一去識別化資料。以上述表5(d)之內容以及預設值 (k-匿名化參數) 為2作為例子，根據情境片段序列出現次數，移除特定調整後情境片段序列後，可取得如下表表5(e)所示之留存情境片段序列，作為去識別化資料。其中，以符號 * 表示對應於投資人4的調整後情境片段序列因其情境片段序列出現次數小於預設值而被移除或遮蔽。表5(e)

上述表5(e)所示之去識別化資料中，留存情境片段序列的情境片段序列出現次數大於預設值 (k-匿名化參數)，符合k匿名技術對於k匿名的要求，使資料中至少 k-1 筆資料無法與所選的資料作出區別。

本發明之實施例依據原始資料中的身分識別資料以及設定的情境條件 (例如為時間區間)，在此情境條件下，取出對應於不同身份識別資料的情境片段 (例如為購買商品及數量的組合) 及情境片段序列。更透過情境片段序列中子序列的出現次數以及情境片段序列的出現次數，調整對應於不同身份識別資料的情境片段序列。依據最後留存的情境片段序列取得去識別化資料，完成匿名化。

如此，在處理政府及企業欲公開之原始資料，以及處理網路交易及物聯網的資料時，可利用上述之資料去識別化方法，例如可對時間序列型態的資料進行去識別化。將非結構式時間序列資料區分成多個時間區間或時間片段 (fragment)，將時間區間或時間片段作為情境條件，並使用序列樣本探勘技術處理每個時間片段的資料，使時間片段內各情境片段序列及其子序列的最小出現次數 (support) 不小於k-匿名化參數，達成對於資料的保護效果。更可藉由時間片段的開始時間及結束時間，在時間軸上取得不同時間點的位移及時間序列資料，減少對原始資料的完整性的破壞，達成降低資料流失率的效果。再者，本發明之資料去識別化方法未依據對應的相關聯資料內容，將原始資料的內容修改或概化為新的資料，可減少去識別化後的資料內容與原始資料內容之間的差異，保障資料具備較高完整性。

綜上所述，雖然本發明已以可實施範例揭露如上，然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾。因此，本發明之保護範圍當視後附之申請專利範圍所界定者為準。

10‧‧‧資料去識別化裝置

110‧‧‧資料擷取單元

120‧‧‧條件設定單元

130‧‧‧序列建立單元

140‧‧‧去識別化單元

190‧‧‧資料儲存單元

S202、S204、S206、S208、S210、S302、S304、S306、S308、S310、S312、S314、S316、S318、S320‧‧‧流程步驟

第1圖繪示依據本發明一實施例的資料去識別化裝置之示意圖。第2圖繪示依據本發明一實施例的資料去識別化方法之流程圖。第3圖繪示依據本發明一實施例的調整序列資料以取得去識別化資料的流程圖。

Claims

一種資料去識別化方法，包括：取得一原始資料，該原始資料包括一身分識別欄位、一條件欄位以及一紀錄欄位；根據該條件欄位取得一情境條件；根據該身份識別欄位紀錄的複數個身份識別資料及該情境條件，由該原始資料中取得符合該情境條件的對應於各該些身份識別資料的一情境片段序列；根據該些身份識別資料及對應於各該些身份識別資料的該情境片段序列，取得一序列資料；以及調整該序列資料以取得一去識別化資料。
如申請專利範圍第1項所述之資料去識別化方法，其中取得符合該情境條件的對應於各該些身份識別資料的該情境片段序列的步驟包括：由該紀錄欄位紀錄的複數個紀錄資料中，取得符合該情境條件的對應於各該些身份識別資料的各該些紀錄資料；根據對應於各該些身份識別資料的各該些紀錄資料，取得對應於各該些身份識別資料的至少一情境片段；以及依據對應於各該些身份識別資料的該至少一情境片段，取得對應於各該些身份識別資料的該情境片段序列。
如申請專利範圍第2項所述之資料去識別化方法，其中各該情境片段序列中的該至少一情境片段係以一時間順序排序。
如申請專利範圍第1項所述之資料去識別化方法，調整該序列資料以取得該去識別化資料的步驟包括：依據各該情境片段序列取得各該情境片段序列的至少一子序列；根據各該至少一子序列的一子序列長度以及各該至少一子序列於該序列資料中的一子序列出現次數，移除該至少一子序列中的一特定子序列；以及取得對應於各該情境片段序列的一調整後情境片段序列。
如申請專利範圍第4項所述之資料去識別化方法，其中該特定子序列的該子序列出現次數小於一k-匿名化參數。
如申請專利範圍第4項所述之資料去識別化方法，調整該序列資料以取得該去識別化資料的步驟更包括：根據各該調整後情境片段序列的一情境片段序列出現次數，由各該情境片段序列的該調整後情境片段序列中移除一特定調整後情境片段序列以取得該去識別化資料。
如申請專利範圍第6項所述之資料去識別化方法，其中該特定調整後情境片段序列的該情境片段序列出現次數小於一k-匿名化參數。
如申請專利範圍第1項所述之資料去識別化方法，其中該條件欄位係一時間欄位，該時間欄位紀錄複數筆時間資料。
一種資料去識別化裝置，包括：一處理器；以及一記憶體，耦接於該處理器，其中該處理器用以：取得一原始資料，該原始資料包括一身分識別欄位、一條件欄位以及一紀錄欄位；根據該條件欄位取得一情境條件；根據該身份識別欄位紀錄的複數個身份識別資料及該情境條件，由該原始資料中取得符合該情境條件的對應於各該些身份識別資料的一情境片段序列；根據該些身份識別資料及對應於各該些身份識別資料的該情境片段序列，取得一序列資料；以及調整該序列資料以取得一去識別化資料。
如申請專利範圍第9項所述之資料去識別化裝置，其中該至少一處理器更用以：由該紀錄欄位紀錄的複數個紀錄資料中，取得符合該情境條件的對應於各該些身份識別資料的各該些紀錄資料；根據對應於各該些身份識別資料的各該些紀錄資料，取得對應於各該些身份識別資料的至少一情境片段；以及依據對應於各該些身份識別資料的該至少一情境片段，取得對應於各該些身份識別資料的該情境片段序列。
如申請專利範圍第10項所述之資料去識別化裝置，其中各該情境片段序列中的該至少一情境片段係以一時間順序排序。
如申請專利範圍第9項所述之資料去識別化裝置，其中該至少一處理器更用以：依據各該情境片段序列產生各該情境片段序列的至少一子序列；根據各該至少一子序列的一子序列長度以及各該至少一子序列於該序列資料中的一子序列出現次數，移除該至少一子序列中的一特定子序列；以及取得對應於各該情境片段序列的一調整後情境片段序列。
如申請專利範圍第12項所述之資料去識別化裝置，其中該特定子序列的該子序列出現次數小於一k-匿名化參數。
如申請專利範圍第12項所述之資料去識別化裝置，其中該至少一處理器更用以：根據各該調整後情境片段序列的一情境片段序列出現次數，由各該情境片段序列的該調整後情境片段序列中移除一特定調整後情境片段序列以取得該去識別化資料。
如申請專利範圍第14項所述之資料去識別化裝置，其中該特定調整後情境片段序列的該情境片段序列出現次數小於一k-匿名化參數。
如申請專利範圍第9項所述之資料去識別化裝置，其中該條件欄位係一時間欄位，該時間欄位紀錄複數筆時間資料。
一種非暫態電腦可讀取儲存媒體，其上儲存有一或多個軟體程式，該一或多個軟體程式包括多個指令，當被一電子裝置的一或多個處理器執行時，將使該電子裝置進行一資料去識別化方法，該資料去識別化方法包括：取得一原始資料，該原始資料包括一身分識別欄位、一條件欄位以及一紀錄欄位；根據該條件欄位取得一情境條件；根據該身份識別欄位紀錄的複數個身份識別資料及該情境條件，由該原始資料中取得符合該情境條件的對應於各該些身份識別資料的一情境片段序列；根據該些身份識別資料及對應於各該些身份識別資料的該情境片段序列，取得一序列資料；以及調整該序列資料以取得一去識別化資料。