TW201820173A - 去識別化資料產生裝置、方法及其電腦程式產品 - Google Patents

去識別化資料產生裝置、方法及其電腦程式產品 Download PDF

Info

Publication number
TW201820173A
TW201820173A TW105137608A TW105137608A TW201820173A TW 201820173 A TW201820173 A TW 201820173A TW 105137608 A TW105137608 A TW 105137608A TW 105137608 A TW105137608 A TW 105137608A TW 201820173 A TW201820173 A TW 201820173A
Authority
TW
Taiwan
Prior art keywords
fields
field
original
association
sub
Prior art date
Application number
TW105137608A
Other languages
English (en)
Inventor
蕭暉議
黃彥男
戴伯臣
石翊辰
邱育賢
游家牧
鄒耀東
Original Assignee
財團法人資訊工業策進會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人資訊工業策進會 filed Critical 財團法人資訊工業策進會
Priority to TW105137608A priority Critical patent/TW201820173A/zh
Priority to CN201611063759.XA priority patent/CN108073824A/zh
Priority to US15/369,597 priority patent/US20180137149A1/en
Publication of TW201820173A publication Critical patent/TW201820173A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Complex Calculations (AREA)
  • Evolutionary Biology (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Life Sciences & Earth Sciences (AREA)

Abstract

一種去識別化資料產生裝置、方法及其電腦程式產品。該裝置儲存多筆原始記錄,其中各原始記錄具有多個原始值一對一地對應至多個欄位。該裝置根據該等原始值決定多個欄位關聯(包含一定義欄位關聯),其中各欄位關聯由該等欄位中之二個欄位所界定。該裝置根據該等欄位關聯,決定多個關聯群組,且對各關聯群組:(a)計算該關聯群組所包含之該等欄位所對應之該等原始值之一分佈統計,(b)將該分佈統計聚合為多個子分佈統計,以及(c)將各該子分佈統計個別地加噪為一加噪子分佈統計。該裝置以該等加噪子分佈統計,產生多筆去識別化記錄。

Description

去識別化資料產生裝置、方法及其電腦程式產品
本發明係關於一種去識別化(de-identification)資料產生裝置、方法及其電腦程式產品。具體而言,本發明係關於一種利用一原始資料集合之統計資訊以產生去識別化資料之裝置、方法及其電腦程式產品。
隨著電腦科技之快速發展,愈來愈多的企業收集、儲存、運用及組織各種不同電子裝置中之各種資料/資訊。由於該等大量資料/資訊中可能藏有商機、研究議題等等,因此某些機構會公布其所具有之資料/資訊以供社會大眾參考,而某些企業則是會販賣其所具有之資料/資訊以獲取金錢利益。由於這些資料/資訊往往具有個人身分資訊(例如:姓名、身分證字號),因此這些資料/資訊必須在去識別化之後方能被公布或/及販賣,以避免侵犯個人隱私權。
習知的去識別化技術主要是遮蔽或加密機密程度較高之資料/資訊(例如:姓名、身分證字號)或只顯示一部分資料/資訊(例如:數值中之某幾位數)。然而,經此種去識別化技術處理過後之資料集合之其他資料/資訊(例如:身高、體重、年齡、住址)仍與個人資訊相關。倘若將此資料集合與其他資料集合比對,極可能推導出與某一(或某些)人士相關 之其他資訊。
有鑑於此,本領域仍亟需一種無法依據去識別化後之資料而推導出與某一(或某些)人士相關之資訊之去識別化技術。
本發明之一目的在於提供一種去識別化資料產生裝置。該去識別化資料產生裝置包含一儲存單元、一介面及一處理單元,其中該處理單元電性連接至該儲存單元及該介面。該儲存單元儲存一原始資料集合,其中該原始資料集合包含複數筆原始記錄且定義複數個欄位,且各該原始記錄具有複數個原始值一對一地對應至該等欄位。該一介面接收一定義欄位關聯。該處理單元根據該等原始值決定複數個欄位關聯,其中該等欄位關聯包含該定義欄位關聯,且各該欄位關聯由該等欄位中之二個欄位所界定。該處理單元更根據該等欄位關聯,決定該等欄位之複數個關聯群組,且針對各該關聯群組進行以下運作:(a)計算該關聯群組所包含之該等欄位所對應之該等原始值之一分佈統計,(b)將該分佈統計聚合(aggregate)為複數個子分佈統計,以及(c)將各該子分佈統計個別地加噪為一加噪子分佈統計。該處理單元更以該等加噪子分佈統計,產生複數筆去識別化記錄,其中各該去識別化記錄具有複數個去識別化資料值一對一地對應至該等欄位。
本發明之另一目的在於提供一種去識別化資料產生方法,其係適用於一電子計算裝置。該電子計算裝置儲存一原始資料集合,其中該原始資料集合包含複數筆原始記錄且定義複數個欄位,且各該原始記錄具有複數個原始值一對一地對應至該等欄位。該去識別化資料產生方法包含下列步驟:(a)接收一定義欄位關聯,(b)根據該等原始值決定複數個欄位關聯, 其中該等欄位關聯包含該定義欄位關聯,且各該欄位關聯由該等欄位中之二個欄位所界定,(c)更根據該等欄位關聯,決定該等欄位之複數個關聯群組,以及(d)針對各該關聯群組執行步驟(d1)、(d2)及(d3)。針對一關聯群組,步驟(d1)計算該關聯群組所包含之該等欄位所對應之該等原始值之一分佈統計,步驟(d2)將該分佈統計聚合為複數個子分佈統計,且步驟(d3)將各該子分佈統計個別地加噪為一加噪子分佈統計。該去識別化資料產生方法更包含步驟(e),以該等加噪子分佈統計,產生複數筆去識別化記錄,其中各該去識別化記錄具有複數個去識別化資料值一對一地對應至該等欄位。
本發明之又一目的在於提供一種電腦程式產品。一電子計算裝置儲存一原始資料集合,其中該原始資料集合包含複數筆原始記錄且定義複數個欄位,且各該原始記錄具有複數個原始值一對一地對應至該等欄位。該電子計算裝置載入該電腦程式產品後,該電子計算裝置執行該電腦程式產品所包含之複數個程式指令,以執行前段所述之去識別化資料產生方法。
本發明所提供之去識別化資料產生技術(包含裝置、方法及其電腦程式產品)利用原始資料集合之特性(亦即,欄位間之關聯性及原始值之分布統計),透過加噪之方式產生類似於原始資料集合之分布統計,再以加噪後之分布統計產生所需要之多筆去識別化記錄。本發明所提供之去識別化資料產生技術在分析原始資料集合之該等欄位間之關聯性時,進一步地考慮了使用者所輸入之定義欄位關聯,故能讓使用者分析/考慮更多不同欄位間之關聯。此外,為了產生與原始資料集合較為近似之分布統計,本發明所提供之去識別化資料產生技術會將各關聯群組所對應之該等原始值 之一分佈統計聚合為多個子分佈統計,再針對各子分布統計加噪。因此,本發明所提供之去識別化資料產生技術能提供與原始資料集合之分布統計近似之去識別化記錄,且任何人皆無法根據本發明所產生之去識別化記錄推導出與某一(或某些)人士相關之資訊。
以下結合圖式闡述本發明之詳細技術及實施方式,俾使本發明所屬技術領域中具有通常知識者能理解所請求保護之發明之技術特徵。
1‧‧‧去識別化資料產生裝置
10‧‧‧原始資料集合
11‧‧‧儲存單元
12a、12b‧‧‧原始記錄
13‧‧‧介面
14‧‧‧定義欄位關聯
15‧‧‧處理單元
A1、A2、A3、A4、A5、A6‧‧‧欄位
I_a1、I_a2、I_a3、I_a4、I_a5、I_a6‧‧‧原始值
I_b1、I_b2、I_b3、I_b4、I_b5、I_b6‧‧‧原始值
S201~S217‧‧‧步驟
第1A圖係描繪第一實施方式之去識別化資料產生裝置1之架構示意圖;第1B圖係描繪原始資料集合10之示意圖;第1C圖係以一相依性圖形來呈現或/及記錄該等欄位關係;第1D圖係以一相依性圖形來呈現或/及記錄包含定義欄位關聯之該等欄位關係;第1E圖係以一聯合樹來呈現或/及記錄該等欄位群組;以及第2圖係描繪第二實施方式之去識別化資料產生方法之流程圖。
以下將透過實施方式來解釋本發明所提供之去識別化(de-identification)資料產生裝置、方法及其電腦程式產品。然而,該等實施方式並非用以限制本發明需在如該等實施方式所述之任何環境、應用或方式方能實施。因此,關於實施方式之說明僅為闡釋本發明之目的,而非用以限制本發明之範圍。應理解,在以下實施方式及圖式中,與本發明非直接相關 之元件已省略而未繪示,且各元件之尺寸以及元件間之尺寸比例僅為例示而已,而非用以限制本發明之範圍。
本發明之第一實施方式為一種去識別化資料產生裝置1,其架構示意圖係描繪於第1A圖。去識別化資料產生裝置1包含一儲存單元11、一介面13及一處理單元15,其中處理單元15電性連接至儲存單元11及介面13。儲存單元11可為一記憶體、一通用串列匯流排(Universal Serial Bus;USB)碟、一硬碟、一光碟(Compact Disk;CD)、一隨身碟、一磁帶、一資料庫或本發明所屬技術領域中具有通常知識者所知且具有相同功能之任何其他儲存媒體或電路。介面13可為能夠接收並傳送訊號之任何介面。處理單元15可為各種處理器、中央處理單元(Central Processing Unit;CPU)、微處理器或本發明所屬技術領域中具有通常知識者所知之其他計算裝置中之任一者。
儲存單元11儲存一原始資料集合10,其示意圖係描繪於第1B圖。原始資料集合10包含複數筆原始記錄12a、…、12b且定義複數個欄位A1、A2、A3、A4、A5、A6。原始記錄12a、…、12b中之每一筆具有複數個原始值一對一地對應至欄位A1、A2、A3、A4、A5、A6。舉例而言,原始記錄12a具有六筆原始值I_a1、I_a2、I_a3、I_a4、I_a5、I_a6分別對應至欄位A1、A2、A3、A4、A5、A6,而原始記錄12b具有六筆原始值I_b1、I_b2、I_b3、I_b4、I_b5、I_b6分別對應至欄位A1、A2、A3、A4、A5、A6。需說明者,本實施方式之原始資料集合10所界定之欄位之數目為六,此僅用以作為例示而已,本發明未限制一原始資料集合所界定之欄位之數目。
去識別化資料產生裝置1之處理單元15會判斷欄位A1、A2、 A3、A4、A5、A6中有哪些欄位之間具有高度關聯性,並決定那些具有高度關聯性之欄位間具有欄位關聯。具體而言,處理單元15係根據原始資料集合10所包含之該等原始值決定欄位A1、A2、A3、A4、A5、A6間所具有之複數個欄位關聯,其中各該欄位關聯係由欄位A1、A2、A3、A4、A5、A6中之二個欄位所界定。於某些實施方式中,處理單元15針對由欄位A1、A2、A3、A4、A5、A6中之任意二個欄位所形成之所有組合中之每一個組合,計算一共同資訊值,再判斷該共同資訊值是否大於一預設門檻值(未繪示)。若一共同資訊值大於該預設門檻值,則處理單元15決定該共同資訊值所對應之二個欄位間具有一欄位關聯。舉例而言,處理單元15可利用以下公式計算任意二個欄位間之共同資訊值:
上述公式中,參數A k 代表第k個欄位,參數A l 代表第l個欄位,參數Ω k 代表第k個欄位所包含之該等原始值所形成之集合,參數Ω l 代表第l個欄位所包含之該等原始值所形成之集合,|Ω k |代表第k個欄位所包含之該等原始值之個數,|Ω l |代表第l個欄位所包含之該等原始值之個數,參數p i 代表第k個欄位之第i個原始值在第k個欄位出現之機率,參數p j 代表第l個欄位之第j個原始值在第l個欄位出現之機率,參數p i j 代表第k個欄位之第i個原始值及第l個欄位之第j個原始值同時出現之機率,且函數I(A k ,A l )代表第k個欄位與第l個欄位間之共同資訊值。
為便於後續說明,茲假設處理單元15決定欄位A1及A2間、欄位A2及A3間、欄位A2及A4間、欄位A3及A5間、欄位A4及A5間以及欄位 A4及A6間各具有一欄位關聯。需說明者,前述該等欄位關聯僅為例示而已,並非用以限制本發明之範圍。於某些實施方式中,處理單元15可採用一相依性圖形(dependency graph)來呈現或/及記錄前述該等欄位關係,如第1C圖所示。
除了處理單元15所決定之該等欄位關聯,使用者亦可設定其他二個欄位間具有欄位關聯。具體而言,使用者可透過介面13輸入至少一定義欄位關聯14,介面13會因應地接收此至少一定義欄位關聯14。各該至少一定義欄位關聯14亦由欄位A1、A2、A3、A4、A5、A6中之二個欄位所界定。處理單元15並將此至少一定義欄位關聯14加入其所決定之該等欄位關聯中,使之成為該等欄位關聯中之一個。為便於後續說明,茲假設介面13所接收之定義欄位關聯14係由欄位A3及A4所界定,惟此定義欄位關聯14僅為例示而已,並非用以限制本發明之範圍。類似的,於某些實施方式中,處理單元15可採用一相依性圖形來呈現或/及記錄加入此定義欄位關聯14後之該等欄位關聯,如第1D圖所示。
如前所述,於本實施方式中,去識別化資料產生裝置1係先由處理單元15決定該等欄位關聯(亦即,欄位A1及A2間、欄位A2及A3間、欄位A2及A4間、欄位A3及A5間、欄位A4及A5間以及欄位A4及A6間所具有之該等欄位關聯),再將由介面13所接收之定義欄位關聯14(亦即,欄位A3及A4間之定義欄位關聯14)加入該等欄位關聯之中。然而,於其他實施方式中,去識別化資料產生裝置1可先由介面13接收之定義欄位關聯14。之後,處理單元15在決定哪些欄位之間具有欄位關聯時,不論該定義欄位關聯14所對應之二個欄位間所具有之共同資訊值是否大於該預設門檻值,處理單 元15皆會將該定義欄位關聯14視為該等欄位中之一個。
接著,處理單元15根據該等欄位關聯(亦即,欄位A1及A2間、欄位A2及A3間、欄位A2及A4間、欄位A3及A5間、欄位A4及A5間、欄位A4及A6以及欄位A3及A4間間所具有之該等欄位關聯),決定欄位A1、A2、A3、A4、A5、A6之複數個關聯群組。為便於理解,茲假設處理單元15根據該等欄位關聯決定了四個關聯群組,其中第一關聯群組包含欄位A1及A2,第二關聯群組包含欄位A2、A3及A4,第三關聯欄位群組包含欄位A3、A4及A5,且第四欄位群組包含欄位A4及A6。
於某些實施方式中,處理單元15可利用一降維演算法決定欄位A1、A2、A3、A4、A5、A6之該等關聯群組。舉例而言,降維演算法可為一貝氏網路(Bayesian network)降維法或一馬可夫三角降維演算法。於某些實施方式中,處理單元15可採用一聯合樹(junction tree)來呈現或/及記錄該等欄位群組,如第1E圖所示。
針對各該關聯群組(亦即,第一關聯群組、第二關聯群組、第三關聯群組及第四關聯群組),處理單元15進行以下運作:(a)計算該關聯群組所包含之該等欄位所對應之該等原始值之一分佈統計,(b)將該分佈統計聚合(aggregate)為複數個子分佈統計,以及(c)將各該子分佈統計個別地加噪為一加噪子分佈統計。於某些實施方式中,處理單元15更對各該加噪子分佈統計正規化(normalization)。前述運作(b)之目的在於將較為離散之統計數字聚合於同一子分布統計,使得各子分布統計所包含之該等統計數字之差異小於一預設程度。由於運作(c)係針對各子分布統計個別地加噪,故加噪之結果對於各子分布統計之影響較小,較能保留原來的統計特性。
茲以第一關聯群組為例具體說明。處理單元15計算第一關聯群組所包含之欄位A1及A2所對應之該等原始值之一分佈統計。接著,處理單元15將該分佈統計聚合為複數個子分佈統計,其中同一子分布統計所包含之該等統計數字之差異小於一預設程度(亦即,差異不會過大)。之後,處理單元15再將各該子分佈統計個別地加噪為一加噪子分佈統計,且對各該加噪子分佈統計正規化。處理單元15會對其他關聯群組執行雷同之運作,茲不贅言。
之後,處理單元15以所有關聯群組(亦即,第一關聯群組、第二關聯群組、第三關聯群組及第四關聯群組)之該等加噪子分佈統計,產生複數筆去識別化記錄,其中各該去識別化記錄具有複數個去識別化資料值一對一地對應至該等欄位。
由前述說明可知,去識別化資料產生裝置1利用原始資料集合10之特性(亦即,欄位A1、A2、A3、A4、A5、A6間之關聯性及原始值之分布統計),透過加噪之方式產生類似於原始資料集合10之分布統計,再以加噪後之分布統計產生所需要之多筆去識別化記錄。去識別化資料產生裝置1在分析原始資料集合10之欄位A1、A2、A3、A4、A5、A6間之關聯性時,進一步地考慮了使用者所輸入之定義欄位關聯14,故能讓使用者分析/考慮更多不同欄位間之關聯。此外,為了產生與原始資料集合10較為近似之分布統計,去識別化資料產生裝置1會將各關聯群組所對應之該等原始值之一分佈統計聚合為多個子分佈統計,再針對各子分布統計加噪。因此,去識別化資料產生裝置1能提供與原始資料集合10之分布統計近似之去識別化記錄,且任何人皆無法根據去識別化資料產生裝置1所產生之去識別化記錄 推導出與某一(或某些)人士相關之資訊。
本發明之第二實施方式為一種去識別化資料產生方法,其流程圖係描繪於第2圖。該去識別化資料產生方法適用於一電子計算裝置,例如:第一實施方式所述之去識別化資料產生裝置1。該電子計算裝置儲存一原始資料集合,其中該原始資料集合包含複數筆原始記錄且定義複數個欄位,且各該原始記錄具有複數個原始值一對一地對應至該等欄位。
首先,於步驟S201,由該電子計算裝置接收一定義欄位關聯,其中該定義欄位關聯由該等欄位中之二個欄位所界定。接著,於步驟S203,由該電子計算裝置根據該等原始值決定複數個欄位關聯,其中該等欄位關聯包含該定義欄位關聯,且各該欄位關聯由該等欄位中之二個欄位所界定。於某些實施方式中,步驟S203係由該電子計算裝置對於由該等欄位中之任意二個欄位所形成之所有組合中之每一個組合,計算一共同資訊值,再判斷該共同資訊值是否大於一預設門檻值(未繪示)。若一共同資訊值大於該預設門檻值,則該電子計算裝置決定該共同資訊值所對應之二個欄位間具有一欄位關聯。
需說明者,於某些實施方式中,該電子計算裝置可先決定該等欄位關聯,再將步驟S201所接收之定義欄位關聯加入該等欄位關聯。於該等實施方式中,電子計算裝置亦可於步驟S203執行後,才執行步驟S201以接收定義欄位關聯。另外,於某些實施方式中,該電子計算裝置則可直接將步驟S201所接收之定義欄位關聯設定為所欲處理之欄位關聯,因此,電子計算裝置在執行步驟S203時,一定會保留步驟S201所接收之定義欄位關聯。
之後,於步驟S205,由該電子計算裝置根據該等欄位關聯, 決定該等欄位之複數個關聯群組。於某些實施方式中,步驟S205係以一降維演算法決定該等欄位之該等關聯群組。舉例而言,該降維演算法可為一貝氏網路降維法或一馬可夫三角降維演算法。
接著,針對各該關聯群組,由該電子計算裝置執行步驟S207至S215。於步驟S207,由該電子計算裝置選取一尚未處理之關聯群組。接著,於步驟S209,針對步驟S207所選取之該關聯群組,由該電子計算裝置計算其所包含之該等欄位所對應之該等原始值之一分佈統計。於步驟S211,由該電子計算裝置將該分佈統計聚合為複數個子分佈統計。於步驟S213,由該電子計算裝置將各該子分佈統計個別地加噪為一加噪子分佈統計。於某些實施方式中,於步驟S213後可再執行一步驟(未繪示)以對各該加噪子分佈統計正規化。接著,執行步驟S215,由該電子計算裝置判斷是否尚有未處理之關聯群組。若步驟S215之判斷結果為是,則去識別化資料產生方法再次執行步驟S207至S215以處理下一個關聯群組。
若步驟S215之判斷結果為否,則由該電子計算裝置執行步驟S217。於步驟S217,由該電子計算裝置以該等加噪子分佈統計,產生複數筆去識別化記錄,其中各該去識別化記錄具有複數個去識別化資料值一對一地對應至該等欄位。
除了上述步驟,第二實施方式亦能執行第一實施方式所描述之所有運作及步驟,具有同樣之功能,且達到同樣之技術效果。本發明所屬技術領域中具有通常知識者可直接瞭解第二實施方式如何基於上述第一實施方式以執行此等運作及步驟,具有同樣之功能,並達到同樣之技術效果,故不贅述。
在第二實施方式中所闡述之去識別化資料產生方法可由包含複數個指令之一電腦程式產品實現。各電腦程式產品可為能被於網路上傳輸之檔案,亦可被儲存於一非暫態電腦可讀取儲存媒體中。針對各電腦程式產品,在其所包含之該等指令被載入一電子計算裝置(例如:第一實施方式之去識別化資料產生裝置1)之後,該電腦程式執行如在第二實施方式中所述之去識別化資料產生方法。該非暫態電腦可讀取儲存媒體可為一電子產品,例如:一唯讀記憶體(read only memory;ROM)、一快閃記憶體、一軟碟、一硬碟、一光碟(compact disk;CD)、一隨身碟、一磁帶、一可由網路存取之資料庫或本發明所屬技術領域中具有通常知識者所知且具有相同功能之任何其他儲存媒體。
需說明者,於本發明專利說明書中,第一關聯群組、第二關聯群組、第三關聯群組及第四關聯群組中之「第一」、「第二」、「第三」及「第四」僅用來表示該等關聯群組為不同關聯群組。
綜上所述,本發明所提供之去識別化資料產生技術(包含裝置、方法及其電腦程式產品)利用原始資料集合之特性(亦即,欄位間之關聯性及原始值之分布統計),透過加噪之方式產生類似於原始資料集合之分布統計,再以加噪後之分布統計產生所需要之多筆去識別化記錄。本發明所提供之去識別化資料產生技術在分析原始資料集合之該等欄位間之關聯性時,進一步地考慮了使用者所輸入之定義欄位關聯,故能讓使用者分析/考慮更多不同欄位間之關聯。此外,為了產生與原始資料集合較為近似之分布統計,本發明所提供之去識別化資料產生技術會將各關聯群組所對應之該等原始值之一分佈統計聚合為多個子分佈統計,再針對各子分布統計加噪。 因此,本發明所提供之去識別化資料產生技術能提供與原始資料集合之分布統計近似之去識別化記錄,且任何人皆無法根據本發明所產生之去識別化記錄推導出與某一(或某些)人士相關之資訊。
上述實施方式僅用來例舉本發明之部分實施態樣,以及闡釋本發明之技術特徵,而非用來限制本發明之保護範疇及範圍。任何本發明所屬技術領域中具有通常知識者可輕易完成之改變或均等性之安排均屬於本發明所主張之範圍,而本發明之權利保護範圍以申請專利範圍為準。

Claims (20)

  1. 一種去識別化資料產生裝置,包含:一儲存單元,儲存一原始資料集合,該原始資料集合包含複數筆原始記錄且定義複數個欄位,各該原始記錄具有複數個原始值一對一地對應至該等欄位;一介面,接收一定義欄位關聯;以及一處理單元,電性連接至該儲存單元及該介面,根據該等原始值決定複數個欄位關聯,該等欄位關聯包含該定義欄位關聯,且各該欄位關聯由該等欄位中之二個欄位所界定,其中,該處理單元更根據該等欄位關聯,決定該等欄位之複數個關聯群組,且針對各該關聯群組進行以下運作:(a)計算該關聯群組所包含之該等欄位所對應之該等原始值之一分佈統計,(b)將該分佈統計聚合(aggregate)為複數個子分佈統計,以及(c)將各該子分佈統計個別地加噪為一加噪子分佈統計,其中,該處理單元更以該等加噪子分佈統計,產生複數筆去識別化記錄,各該去識別化記錄具有複數個去識別化資料值一對一地對應至該等欄位。
  2. 如請求項1所述之去識別化資料產生裝置,其中該處理單元藉由執行以下運作而決定各該欄位關聯:(d)以該欄位關聯所包含之該二欄位所對應之該等原始值,計算該二欄位間之一共同資訊(mutual information)值,以及(e)判斷該共同資訊值大於一預設門檻值。
  3. 如請求項2所述之去識別化資料產生裝置,其中該處理單元以該定義欄位關聯所包含之該二欄位所對應之該等原始值,計算該二欄位間之一共同資訊值,判斷該共同資訊值小於一預設門檻值,且以該定義欄位關聯 作為該等欄位關聯其中之一。
  4. 如請求項1所述之去識別化資料產生裝置,其中該處理單元更於決定該等欄位關聯後,以該定義欄位關聯作為該等欄位關聯其中之一。
  5. 如請求項4所述之去識別化資料產生裝置,其中該處理單元係以一降維演算法決定該等欄位之該等關聯群組。
  6. 如請求項5所述之去識別化資料產生裝置,其中該降維演算法為一貝氏網路(Bayesian network)降維法及一馬可夫三角降維演算法其中之一。
  7. 如請求項1所述之去識別化資料產生裝置,其中該處理單元更對各該加噪子分佈統計正規化(normalization)。
  8. 一種去識別化資料產生方法,適用於一電子計算裝置,該電子計算裝置儲存一原始資料集合,該原始資料集合包含複數筆原始記錄且定義複數個欄位,各該原始記錄具有複數個原始值一對一地對應至該等欄位,該去識別化資料產生方法包含下列步驟:(a)接收一定義欄位關聯;(b)根據該等原始值決定複數個欄位關聯,其中該等欄位關聯包含該定義欄位關聯,且各該欄位關聯由該等欄位中之二個欄位所界定;(c)根據該等欄位關聯,決定該等欄位之複數個關聯群組;(d)針對各該關聯群組執行以下步驟:計算該關聯群組所包含之該等欄位所對應之該等原始值之一分佈統計;將該分佈統計聚合為複數個子分佈統計;以及將各該子分佈統計個別地加噪為一加噪子分佈統計;以及(e)以該等加噪子分佈統計,產生複數筆去識別化記錄,其中各該去識別化記錄具有複數個去識別化資料值一對一地對應至該等欄位。
  9. 如請求項8所述之去識別化資料產生方法,其中該步驟(b)係藉由執行以下步驟而決定各該欄位關聯:以該欄位關聯所包含之該二欄位所對應之該等原始值,計算該二欄位間之一共同資訊值,以及判斷該共同資訊值大於一預設門檻值。
  10. 如請求項9所述之去識別化資料產生方法,其中該步驟(b)以該定義欄位關聯所包含之該二欄位所對應之該等原始值,計算該二欄位間之一共同資訊值,判斷該共同資訊值小於一預設門檻值,且以該定義欄位關聯作為該等欄位關聯其中之一。
  11. 如請求項8所述之去識別化資料產生方法,更包含以下步驟:於決定該等欄位關聯後,以該定義欄位關聯作為該等欄位關聯其中之一。
  12. 如請求項8所述之去識別化資料產生方法,其中該步驟(c)係以一降維演算法決定該等欄位之該等關聯群組。
  13. 如請求項12所述之去識別化資料產生方法,其中該降維演算法為一貝氏網路降維法及一馬可夫三角降維演算法其中之一。
  14. 如請求項8所述之去識別化資料產生方法,更包含下列步驟:對各該加噪子分佈統計正規化。
  15. 一種電腦程式產品,經由一電子計算裝置載入該電腦程式產品後,該電子計算裝置執行該電腦程式產品所包含之複數個程式指令,以執行一去識別化資料產生方法,該電子計算裝置儲存一原始資料集合,該原始資料集合包含複數筆原始記錄且定義複數個欄位,各該原始記錄具有複數個原始值一對一地對應至該等欄位,該去識別化資料產生方法包含下列步驟:(a)接收一定義欄位關聯; (b)根據該等原始值決定複數個欄位關聯,其中該等欄位關聯包含該定義欄位關聯,且各該欄位關聯由該等欄位中之二個欄位所界定;(c)根據該等欄位關聯,決定該等欄位之複數個關聯群組(d)針對各該關聯群組執行以下步驟:計算該關聯群組所包含之該等欄位所對應之該等原始值之一分佈統計;將該分佈統計聚合為複數個子分佈統計;以及將各該子分佈統計個別地加噪為一加噪子分佈統計;以及(e)以該等加噪子分佈統計,產生複數筆去識別化記錄,其中各該去識別化記錄具有複數個去識別化資料值一對一地對應至該等欄位。
  16. 如請求項15所述之電腦程式產品,其中該步驟(b)係藉由執行以下步驟而決定各該欄位關聯:以該欄位關聯所包含之該二欄位所對應之該等原始值,計算該二欄位間之一共同資訊值,以及判斷該共同資訊值大於一預設門檻值。
  17. 如請求項16所述之電腦程式產品,其中該步驟(b)以該定義欄位關聯所包含之該二欄位所對應之該等原始值,計算該二欄位間之一共同資訊值,判斷該共同資訊值小於一預設門檻值,且以該定義欄位關聯作為該等欄位關聯其中之一。
  18. 如請求項15所述之電腦程式產品,更包含以下步驟:於決定該等欄位關聯後,以該定義欄位關聯作為該等欄位關聯其中之一。
  19. 如請求項15所述之電腦程式產品,其中該步驟(c)係以一降維演算法決定該等欄位之該等關聯群組。
  20. 如請求項15所述之電腦程式產品,更包含下列步驟: 對各該加噪子分佈統計正規化。
TW105137608A 2016-11-17 2016-11-17 去識別化資料產生裝置、方法及其電腦程式產品 TW201820173A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW105137608A TW201820173A (zh) 2016-11-17 2016-11-17 去識別化資料產生裝置、方法及其電腦程式產品
CN201611063759.XA CN108073824A (zh) 2016-11-17 2016-11-28 去识别化数据产生装置及方法
US15/369,597 US20180137149A1 (en) 2016-11-17 2016-12-05 De-identification data generation apparatus, method, and non-transitory computer readable storage medium thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW105137608A TW201820173A (zh) 2016-11-17 2016-11-17 去識別化資料產生裝置、方法及其電腦程式產品

Publications (1)

Publication Number Publication Date
TW201820173A true TW201820173A (zh) 2018-06-01

Family

ID=62107854

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105137608A TW201820173A (zh) 2016-11-17 2016-11-17 去識別化資料產生裝置、方法及其電腦程式產品

Country Status (3)

Country Link
US (1) US20180137149A1 (zh)
CN (1) CN108073824A (zh)
TW (1) TW201820173A (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10572459B2 (en) * 2018-01-23 2020-02-25 Swoop Inc. High-accuracy data processing and machine learning techniques for sensitive data
US11036884B2 (en) * 2018-02-26 2021-06-15 International Business Machines Corporation Iterative execution of data de-identification processes
TWI694344B (zh) * 2018-10-26 2020-05-21 財團法人資訊工業策進會 為一作業環境檢測影響因子之裝置及方法
TWM596392U (zh) * 2019-08-22 2020-06-01 台北富邦商業銀行股份有限公司 資料去識別化系統
US11641346B2 (en) 2019-12-30 2023-05-02 Industrial Technology Research Institute Data anonymity method and data anonymity system

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020073099A1 (en) * 2000-12-08 2002-06-13 Gilbert Eric S. De-identification and linkage of data records
US8577933B2 (en) * 2006-08-02 2013-11-05 Crossix Solutions Inc. Double blinded privacy-safe distributed data mining protocol
WO2010057195A2 (en) * 2008-11-17 2010-05-20 Stics, Inc. System, method and computer program product for predicting customer behavior
CA2690788C (en) * 2009-06-25 2018-04-24 University Of Ottawa System and method for optimizing the de-identification of datasets
TW201426578A (zh) * 2012-12-27 2014-07-01 Ind Tech Res Inst 匿名資料集的產生方法及裝置與風險評估方法及裝置

Also Published As

Publication number Publication date
US20180137149A1 (en) 2018-05-17
CN108073824A (zh) 2018-05-25

Similar Documents

Publication Publication Date Title
US11748501B2 (en) Tagging documents with security policies
TWI718643B (zh) 異常群體識別方法及裝置
TW201820173A (zh) 去識別化資料產生裝置、方法及其電腦程式產品
US20140317758A1 (en) Focused personal identifying information redaction
US10657186B2 (en) System and method for automatic document classification and grouping based on document topic
TW201734893A (zh) 信用分的獲取、特徵向量值的輸出方法及其裝置
Rasines et al. Splitting strategies for post-selection inference
US8346774B1 (en) Protecting network entity data while preserving network properties
WO2019128311A1 (zh) 广告的相似度处理方法和装置、计算设备及存储介质
WO2022228371A1 (zh) 恶意流量账号检测方法、装置、设备和存储介质
WO2017165241A1 (en) Systems and methods to protect sensitive information in data exchange and aggregation
JP6818957B2 (ja) セキュリティ評価装置、セキュリティ評価方法およびセキュリティ評価プログラム
TW201330553A (zh) 電子郵件分類方法
US20240202344A1 (en) Use of word embeddings to locate sensitive text in computer programming scripts
TWI728553B (zh) 資料去識別處理裝置及方法
CN115544257B (zh) 网盘文档快速分类方法、装置、网盘及存储介质
CN105354506B (zh) 隐藏文件的方法和装置
JP2014135056A (ja) データ管理システムおよびツール
Qu et al. Privacy preserving in big data sets through multiple shuffle
WO2019019711A1 (zh) 行为模式数据的发布方法、装置、终端设备及介质
Diesburg et al. Is your data gone? Measuring user perceptions of deletion
US11647004B2 (en) Learning to transform sensitive data with variable distribution preservation
Chakrobartty et al. Fairness challenges in artificial intelligence
JP2024502081A (ja) 重み付き知識移転装置、方法、及びシステム
CN106971117A (zh) 调查设备和调查方法