TW201331770A - 在資料組中保存隱私的方法與系統 - Google Patents

在資料組中保存隱私的方法與系統 Download PDF

Info

Publication number
TW201331770A
TW201331770A TW101103156A TW101103156A TW201331770A TW 201331770 A TW201331770 A TW 201331770A TW 101103156 A TW101103156 A TW 101103156A TW 101103156 A TW101103156 A TW 101103156A TW 201331770 A TW201331770 A TW 201331770A
Authority
TW
Taiwan
Prior art keywords
group
data
quasi
identifier
determining
Prior art date
Application number
TW101103156A
Other languages
English (en)
Inventor
Ci-Wei Lan
Tyrone W Grandison
Mark Ren-Hao Hsiao
Li-Feng Tseng
yi-hui Chen
Ya-Ling Chen
Original Assignee
Ibm
Ind Tech Res Inst
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm, Ind Tech Res Inst filed Critical Ibm
Priority to TW101103156A priority Critical patent/TW201331770A/zh
Priority to US13/586,891 priority patent/US8812524B2/en
Publication of TW201331770A publication Critical patent/TW201331770A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明揭示藉由一電腦系統在一資料組中保存隱私的方法,其中該資料組係具有至少一敏感資料欄位以及至少一第一準識別符之欄位,該方法包含:(a)根據該至少一第一準識別符,決定該資料組對於該敏感資料欄位之一k匿名值Kr;(b)若該k匿名值K小於一參考值Kr,則決定以該至少一第一準識別符之全部或部份,將該資料組區分為複數個不同類別的群組,使得每一該群組之資料於該至少一第一準識別符之欄位值係為相同,而不同群組之資料於該至少一第一準識別符之欄位值係為不同;(c)決定每一該群組所含之資料數目;(d)從該複數個群組中決定出一第一群組,其中該第一群組之資料數目為N1,而N1小於該參考值Kr;(e)從該複數個群組中決定出一第二群組,使得若該至少一第一群組與一第二群組合併為一合併群組,其中該合併群組之資料數目為Nm,其中Nm不小於該參考值Kr;以及(f)在該資料組中遮罩該合併群組之該至少一第一準識別符之欄位。

Description

在資料組中保存隱私的方法與系統
本發明係關於一種資料管理的的方法與系統;特別地,係一種在資料組中保存隱私的方法與系統。
基於學術研究或是商業的目的,資料探勘(data mining)已被廣泛應用在例如醫療紀錄或是消費紀錄分析中。但即使是將醫療紀錄或是消費紀錄中之姓名欄位經過單純匿名化(anonymize)的處理(如圖1中下方資料組所示),若透過資料比對(例如與圖1中上方資料組進行比對),還是有機會出辨識出特定人的資料(例如所患疾病),進而有隱私外洩(invasion of privacy)的問題。
對此,可參考習知技術美國專利公開號US Pat. 2011/0119661,在此以引用的方式併入本文。另外可參考以下文獻的說明,亦以引用的方式併入本文:
1. Chuang-Cheng Chiu and Chieh-Yuan Tsai. 2007. A k-Anonymity Clustering Method for Effective Data Privacy Preservation. In Proceedings of the 3rd international conference on Advanced Data Mining and Applications(ADMA '07)
2. Sharkey,P.,Tian,H.,Zhang,W. & Xu,S. Privacy-preserving data mining through knowledge model sharing. Lecture Notes in Computer Science 4980,97(2008).
因應資料探勘等資料分析,現有資料組(例如醫療紀錄或是消費紀錄)中保存隱私的方法需事先知道資料組將基於何種目的進行分析以及將以何種方式進行分析(例如透過醫療紀錄分析年齡與特定疾病的關聯性),進而以人為所決定出係不相干的部分(例如住址)加以遮罩(masking)處理,而避免誤將後續分析所需的欄位資料(即年齡資料)加以遮罩。然而實際上卻很難預先掌握資料組被分析之目的以及被分析的方式,因此現有的方式仍有改進的空間。
另一方面,可想見地,將資料表中愈多的欄位資料加以遮罩固然可增加隱私保護的強度(也就是降低特定人資料被辨識出來的機會),但相反地,當愈多的欄位資料被遮罩時,表示資料表中所導入之誤差也愈多,此資料表可被分析的價值(data utility)也愈低。習知技術並無法因應使用者的需求,可彈性地設定隱私保護的強度至適當的程度,因此會有過猶不及的情況產生。
本發明之眾多面向之一即在於改進上述習知技術之缺失。
一般而言,如圖2所示,資料組中「隱私保護的強度」可根據資料組中之k匿名值(k-anonymity)加以評量;或較佳地,可額外導入資料組中之l多樣化值(l-diversity)。關於k匿名值(k-anonymity),可參考文獻:Samarati,P. & Sweeney,L. Protecting privacy when disclosing information: k-anonymity and its enforcement through generalization and suppression. Main 1-19(1998);關於l多樣化值(l-diversity),可參考文獻:Machanavajjhala,A.,Kifer,D.,Gehrke,J. & Venkitasubramaniam,M. l-diversity: Privacy beyond k-anonymity. ACM Transactions on Knowledge Discovery from Data 1,3-es(2007),在此不予贅述。
本發明之另一面向即在於根據所設定之「隱私保護的強度」(即k匿名值及/或l多樣化值),將資料表的資料加以分類,進而在資料表中選擇適當的欄位資料加以遮罩。
本發明之又一面向在於,為了選擇適當的欄位資料,而提供一種有效率且具有彈性之資料表的資料分類方式,特別是一種透過決策樹演算法的資料分類方式。
根據本發明一實施例,一種藉由一電腦系統在一資料組中保存隱私的方法,其中該資料組係具有至少一敏感資料欄位以及至少一第一準識別符之欄位,該方法包含下列步驟:
■ 根據該至少一第一準識別符,決定該資料組對於該敏感資料欄位之一k匿名值K;
■ 若該k匿名值K小於一參考值Kr,則決定以該至少一第一準識別符之全部或部份,將該資料組區分為複數個不同類別的群組,使得每一該群組之資料於該至少一第一準識別符之欄位值係為相同,而不同群組之資料於該至少一第一準識別符之欄位值係為不同;
■ 決定每一該群組所含之資料數目;
■ 從該複數個群組中決定出一第一群組,其中該第一群組之資料數目為N1,而N1小於該參考值Kr
■ 從該複數個群組中決定出一第二群組,使得若該至少一第一群組與一第二群組合併為一合併群組,其中該合併群組之資料數目為Nm,其中Nm不小於該參考值Kr;以及
■ 在該資料組中遮罩該合併群組之該至少一第一準識別符之欄位。
此外,在本發明另一實施例中,提出一種儲存在一電腦可用媒體上之電腦程式產品,包含一電腦可讀程式,供於一電腦系統上執行時,以進行如上述之方法。在本發明又一實施例,提出一種電腦系統,其包含一記憶體與一處理單元,該記憶體儲存一組電腦可執行指令,而處理單元係執行該組電腦可執行指令,以進行如上述之方法。
本說明書中所提及的特色、優點、或類似表達方式並不表示,可以本發明實現的所有特色及優點應在本發明之任何單一的具體實施例內。而是應明白,有關特色及優點的表達方式是指結合具體實施例所述的特定特色、優點、或特性係包含在本發明的至少一具體實施例內。因此,本說明書中對於特色及優點、及類似表達方式的論述與相同具體實施例有關,但亦非必要。
參考以下說明及隨附申請專利範圍或利用如下文所提之本發明的實施方式,即可更加明瞭本發明的這些特色及優點。
本說明書中「一實施例」或類似表達方式的引用是指結合該具體實施例所述的特定特色、結構、或特性係包括在本發明的至少一具體實施例中。因此,在本說明書中,「在一具體實施例中」及類似表達方式之用語的出現未必指相同的具體實施例。
熟此技藝者當知,本發明可實施為電腦系統、方法或作為電腦程式產品之電腦可讀媒體。因此,本發明可以實施為各種形式,例如完全的硬體實施例、完全的軟體實施例(包含韌體、常駐軟體、微程式碼等),或者亦可實施為軟體與硬體的實施形式,在以下會被稱為「電路」、「模組」或「系統」。此外,本發明亦可以任何有形的媒體形式實施為電腦程式產品,其具有電腦可使用程式碼儲存於其上。
一個或更多個電腦可使用或可讀取媒體的組合都可以利用。舉例來說,電腦可使用或可讀取媒體可以是(但並不限於)電子的、磁的、光學的、電磁的、紅外線的或半導體的系統、裝置、設備或傳播媒體。更具體的電腦可讀取媒體實施例可以包括下列所示(非限定的例示):由一個或多個連接線所組成的電氣連接、可攜式的電腦磁片、硬碟機、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除程式化唯讀記憶體(EPROM或快閃記憶體)、光纖、可攜式光碟片(CD-ROM)、光學儲存裝置、傳輸媒體(例如網際網路(Internet)或內部網路(intranet)之基礎連接)、或磁儲存裝置。需注意的是,電腦可使用或可讀取媒體更可以為紙張或任何可用於將程式列印於其上而使得該程式可以再度被電子化之適當媒體,例如藉由光學掃描該紙張或其他媒體,然後再編譯、解譯或其他合適的必要處理方式,然後可再度被儲存於電腦記憶體中。在本文中,電腦可使用或可讀取媒體可以是任何用於保持、儲存、傳送、傳播或傳輸程式碼的媒體,以供與其相連接的指令執行系統、裝置或設備來處理。電腦可使用媒體可包括其中儲存有電腦可使用程式碼的傳播資料訊號,不論是以基頻(baseband)或是部分載波的型態。電腦可使用程式碼之傳輸可以使用任何適體的媒體,包括(但並不限於)無線、有線、光纖纜線、射頻(RF)等。
用於執行本發明操作的電腦程式碼可以使用一種或多種程式語言的組合來撰寫,包括物件導向程式語言(例如Java、Smalltalk、C++或其他類似者)以及傳統程序程式語言(例如C程式語言或其他類似的程式語言)。
於以下本發明的相關敘述會參照依據本發明具體實施例之系統、裝置、方法及電腦程式產品之流程圖及/或方塊圖來進行說明。當可理解每一個流程圖及/或方塊圖中的每一個方塊,以及流程圖及/或方塊圖中方塊的任何組合,可以使用電腦程式指令來實施。這些電腦程式指令可供通用型電腦或特殊電腦的處理器或其他可程式化資料處理裝置所組成的機器來執行,而指令經由電腦或其他可程式化資料處理裝置處理以便實施流程圖及/或方塊圖中所說明之功能或操作。
這些電腦程式指令亦可被儲存在電腦可讀取媒體上,以便指示電腦或其他可程式化資料處理裝置來進行特定的功能,而這些儲存在電腦可讀取媒體上的指令構成一製成品,其內包括之指令可實施流程圖及/或方塊圖中所說明之功能或操作。
電腦程式指令亦可被載入到電腦上或其他可程式化資料處理裝置,以便於電腦或其他可程式化裝置上進行一系統操作步驟,而於該電腦或其他可程式化裝置上執行該指令時產生電腦實施程序以達成流程圖及/或方塊圖中所說明之功能或操作。
其次,請參照圖3至圖6,在圖式中顯示依據本發明各種實施例的裝置、方法及電腦程式產品可實施的架構、功能及操作之流程圖及方塊圖。因此,流程圖或方塊圖中的每個方塊可表示一模組、區段、或部分的程式碼,其包含一個或多個可執行指令,以實施指定的邏輯功能。另當注意者,某些其他的實施例中,方塊所述的功能可以不依圖中所示之順序進行。舉例來說,兩個圖示相連接的方塊事實上亦可以同時執行,或依所牽涉到的功能在某些情況下亦可以依圖示相反的順序執行。此外亦需注意者,每個方塊圖及/或流程圖的方塊,以及方塊圖及/或流程圖中方塊之組合,可藉由基於特殊目的硬體的系統來實施,或者藉由特殊目的硬體與電腦指令的組合,來執行特定的功能或操作。
圖3所示為一種依照本發明之能提供有效分享資訊之具體實施例的系統架構示意圖100,以便熟此技藝者能更清楚地了解本發明,而非用於限制本發明之範圍。在一個示範性之系統100實施例中,包括一伺服器主機110。伺服器主機110包含處理單元PU及資料庫DB,以進行如圖5所示之方法。此外伺服器主機110可包含儲存裝置以儲存資料庫DB、其他各種資訊及程式碼;顯示裝置、通訊及輸出/入裝置做為與使用者溝通之介面;以及週邊元件或其他特定用途元件。在其他實施例中,本發明亦可實施為其他的形式,而具有更多或更少之其他裝置或元件。
伺服器主機110可以使用一般通用型電腦、特殊應用型電腦、高階工作站、大型主機等,例如IBM公司的System X、Blade Center或eServer伺服器。伺服器主機110可具有網路連線能力,而網路亦可實施為任何型式之連線,包括固定連接之區域網路(LAN)或廣域網路(WAN)連線,或利用網際網路服務提供者來暫時撥接至網際網路,亦不限於有線無線等各種連接方式。此外,然而應了解,雖未繪示但其他硬體及軟體組件(例如額外電腦系統、路由器、防火牆等)可包含於網路之中。
在此必需注意的是,本說明書或圖式中所述許多功能單元標示為功能方塊或模組,以更具體地強調其實施獨立性。例如,可將功能方塊或模組實施為硬體電路,其包含自訂VLSI電路或閘極陣列、如邏輯晶片的現成半導體、電晶體、或其他離散組件。亦可在可程式硬體設備中實施模組,如現場可程式閘極陣列、可程式陣列邏輯、可程式邏輯設備、或其類似物。亦可在利用各種類型之處理器執行的軟體中實施模組。例如,可執行碼的識別模組包含電腦指令的一或多個實體或邏輯區塊,例如,可將這些區塊組織為物件、程序、或功能。然而,識別模組的可執行檔實體上不一定位在一起,而是可包含儲存於不同位置的不同指令,這些指令當邏輯結合一起時將包含模組並達成模組的指定目的。
可執行碼模組可為單一指令或許多指令,並可分布於數個不同程式碼片段上、不同程式中、及數個記憶體裝置上。同樣地,操作資料在此可識別及說明於模組內,並可以任何合適形式體現及組織於任何合適類型的資料結構內。可收集操作資料為單一資料集,或操作資料可分布於不同位置(包括分布於不同的儲存設備),且操作資料可僅作為電子信號至少局部地存在。
以下將透過簡化之實施例進一步說明本發明,特別是係以如圖4所例示之醫療紀錄為例作為資料組進行說明。先說明的是,圖4之資料組具有例示性的五個欄位,即性別、年齡、住居地編號(ZIP)、BMI、與所患疾病;其中為了說明本發明之目的,在本發明實施例中,「所患疾病」係設定為「敏感資料欄位」,而其餘四個欄位則分別為「準識別符之欄位」。但如前述,熟此技藝者應知本發明並不限於此。此外,關於「敏感資料欄位」與「準識別符之欄位」之細節,可參考美國專利公開號US Pat. 2011/0119661的說明,在此不予贅述。
<實施例流程>
圖5係本發明一例示性實施例之流程圖,配合圖3所示之系統100,在圖4所示之資料組中保存隱私的方法。
● 步驟500:伺服器主機110接收一資料組,並儲存於資料庫DB。較佳地,此資料組中的姓名欄位(未顯示)應先經過基本的匿名化處理,成為如圖4所示之資料組。進一步,根據例如透過美國專利公開號US Pat. 2011/0119661所揭示之方法,可預先決定出圖4之資料組之一或多個「準識別符之欄位」(在本實施例中即性別、年齡、住居地編號、與BMI等四個欄位),再決定出資料組對於敏感資料欄位(在本實施例中即「所患疾病」欄位)之k匿名值K為1而l多樣化值L亦為1,如圖4所示。另需說明的是,在其他實施例中,若採用其他習知技術中自動或人為方式決定「準識別符」之方法,亦可例如僅將性別、年齡、住居地編號等三個欄位作為「準識別符」,但可想見地,當所依據之「準識別符」不相同時,依此k匿名值K以及l多樣化值L並不必然會與上述結果(k匿名值K為1而l多樣化值L亦為1)相同。
● 步驟502:伺服器主機110接收使用者所決定一k匿名之參考值Kr以及一l多樣化之參考值Lr。在此例中,使用者決定k匿名之參考值Kr為2,而1多樣化之參考值Lr亦為2。對此,伺服器主機110判斷出k匿名值K為1小於參考值Kr且l多樣化值L為1亦小於參考值Lr,則進行至步驟504。
● 步驟504:根據給定之「準識別符」(在本實施例中即性別、年齡、住居地編號、與BMI等四個欄位),將圖4所示之資料組區分(或分類)為複數個不同類別的群組,使得每一該群組(即每一類別)之資料之「準識別符」之欄位值係完全相同,而相對地,不同群組(即不同類別)之資料之「準識別符」之欄位值係不完全相同(即性別、年齡、住居地編號、與BMI等欄位中至少有一個欄位之欄位值為不同),換言之,群組之類別即由性別、年齡、住居地編號、與BMI等欄位值之組合所界定。需說明的是,在此步驟504中,並不一定需要使用到步驟500中全部之「準識別符」(即性別、年齡、住居地編號、與BMI等四個欄位),而可僅使用部分之「準識別符」。
在圖6所示之實施例中,資料組係經由決策樹(decision tree)演算法,區分為複數個不同類別的群組(即決策樹之奇異路徑(singular path))SP1-SP8,而每一類別僅使用住居地編號、性別、與BMI等三個欄位值之組合所界定。關於此實施例中所使用之決策樹演算法,可參考文獻:Friedman,A.,Schuster,A. & Wolff,R. k-Anonymous Decision Tree Induction. Discovery 151-162(2006),在此不予贅述。惟需說明的是,相較於習知的分群(Clustering)作法(可參見文獻Li,J.,Wong,R.C.-wing,Fu,A.W.-chee & Pei,J. Achieving k-Anonymity by Clustering in Attribute Hierarchical Structures. Quality 405-416(2006)),習知技術並未如本發明實施例係根據透過決策樹演算法所決定出之「準識別符」而將資料組區分為複數個不同類別的群組,相對地,習知技術需使用者額外輸入許多參數,例如所欲區分群組的數目(number of cluster)、相似度的定義(definition of similarity)等,因此並不如本發明實施例所採用之方法來得有效率。。
● 步驟506:在此步驟中,係從步驟504中所得之群組(奇異路徑)SP1-SP8中選擇二或更多個群組的資料加以合併。
首先說明的是,如圖6所示,群組SP1-SP8所含之資料數目N分別為[2,2,1,2,3,1,1,1],而群組SP1-SP8所含之資料之敏感資料欄位(「所患疾病」)之值之種類數目V分別為[1,1,1,1,1,1,1,1]。應可瞭解,群組SP1-SP8中最低之資料數目N決定了整體資料表之k匿名值,同樣地,群組SP1-SP8中最低之種類數目V則決定了整體資料表之l多樣化值。另需說明的是,圖6之群組SP1-SP8僅提供為例示以說明本發明,惟資料表並不一定要以圖6之次序加以分類,因此若以其他次序分類,則所得各群組之資料數目N與種類數目V並不必然會與上述例示之結果相同,但只要使用了相同的準識別符進行分類,則所得群組中最低之資料數目N與最低之種類數目V應與與上述例示之結果相同,因此只要所依據之「準識別符」相同,資料表之k匿名值與l多樣化值並不會因分類的次序而改變。
其次,若僅考量資料組之k匿名值,則在此範例中,群組SP3、SP6-8之資料數目N分別為1,而小於步驟502中使用者決定k匿名之參考值Kr(Kr為2),因此可將這些資料數目不足之群組(即群組SP3、SP6-8)與其他的群組合併,使得合併後的群組所含之資料數目Nm增加,以提升整體資料組之k匿名值,而符合使用者所設定之參考值。更多的細節可參考以下之說明。
但較佳地,為了確保更高的隱私保護強度,可將資料組之k匿名值與l多樣化值一併考量,則在此範例中,群組SP1-SP8所含之資料之「所患疾病」欄位之值之種類數目V皆為1(即Hypertension,Stroke,Diabetes三種疾病其中之一),而小於步驟502中使用者決定l多樣化之參考值Lr(Lr為2),因此可將這些群組各自與其他的群組合併以增加種類數目,使得合併後的群組所含之種類數目Vm增加,以提升整體資料組之l多樣化值,而符合使用者所設定之參考值。更多的細節可參考以下之說明。
以下將更進一步說明k匿名值與l多樣化值一併考量的範例。首先說明的是,在本發明實施例中,由於群組SP1-SP8所含之資料之「所患疾病」欄位之值之種類數目V皆小於使用者所設定之參考值Lr,因此每一群組SP1-SP8都需要與其他群組合併,才能使得整體資料組的l多樣化值提升。相對應地,若在僅考量k匿名值的情況中,僅需要將群組SP3、SP6-8與其他的群組合併。
由於二或更多個群組被合併為一合併群組後,其一或多個準識別符欄位將會基於均等(equivalent)的目的被遮罩(masking),而為了避免過度損害之資料組可被分析的價值(data utility),因此,合併群組中所含之資料數目Nm與/或種類數目Vm不宜過多。在一實施例中,乃基於使得資料數目Nm與/或種類數目Vm為最小(但需不小於使用者設定之參考值)之目的而選擇特定之二或更多個群組為一合併群組。在另一實施例中,可基於使得各群組在決策樹上之路徑距離(distance of path)為最短之目的而選擇特定之二或更多個群組為一合併群組。在其他實施例中,可同時考量資料數目Nm與路徑距離,或是根據其他使用者自訂之條件(例如使用者可給予資料數目Nm與路徑距離不同的權重,或是使用者可另外加入其他考量的參數或直接指定各群組被合併之優先順序)。
在此為了例示之目的,群組SP1與SP2合併為合併群組M1,群組SP3-5合併為合併群組M2,群組SP6-8合併為合併群組M3。而合併群組M1-M3所含之資料數目Nm分別為[4,6,3]皆不小於步驟502中使用者決定k匿名之參考值Kr(Kr為2),而合併群組M1-M3所含之資料之「所患疾病」欄位之值之種類數目Vm分別為[2(Diabetes與Stroke),3(Hypertension,Stroke,Diabetes),2(Stroke與Hypertension)]皆不小於步驟502中使用者決定1多樣化之參考值Lr(Lr為2)。
若合併群組所含之資料數目Nm或種類數目Vm仍低於使用者所設定之參考值,則可再與其他群組(或其他合併群組)進行合併,直到最後資料組中所有合併群組與不需要進行合併的群組各自所含之資料數目或種類數目Vm皆不小於使用者所設定之參考值為止。
以上雖說明k匿名值與l多樣化值一併考量的範例,惟熟此技藝者應可根據以上之說明,加以應用於僅考量k匿名值之情況,本文在此不予贅述。
● 步驟508:針對每一合併群組M1-M3,選擇要進行遮罩之準識別符欄位,而此要進行遮罩之準識別符欄位需能夠用以區別對組成此合併群組M1-M3之二或更多個群組SP1-8。以合併群組M1為例,其係由群組SP1與SP2組成,由於群組SP1與SP2具有不同之性別欄位值,因此對於合併群組M1,可選擇性別欄位進行遮罩;以合併群組M2為例,其係由群組SP3-5組成,由於群組SP3-5具有不同之性別欄位值以及住居地編號欄位值,因此對於合併群組M2,可選擇性別欄位以及住居地編號欄位一併進行遮罩;以合併群組M3為例,其係由群組SP6-8組成,由於群組SP6-8具有不同之BMI欄位值以及住居地編號欄位值,因此對於合併群組M2,可選擇BMI欄位以及住居地編號欄位一併進行遮罩。
● 步驟510:在步驟508針對每一合併群組M1-M3選擇要進行遮罩之準識別符欄位,則可在此步驟510進行對所選之準識別符欄位進行遮罩。而對準識別符欄位進行遮罩之做法可大致分為擾動性(perturbative)與非擾動性(non-perturbative),應為熟此技藝所習知,在此不予贅述,且本發明並不欲加以限制。另外對於不同合併群組或是對於不同的準識別符欄位,本發明並不限制必須採用相同的遮罩做法。
在不脫離本發明精神或必要特性的情況下,可以其他特定形式來體現本發明。應將所述具體實施例各方面僅視為解說性而非限制性。因此,本發明的範疇如隨附申請專利範圍所示而非如前述說明所示。所有落在申請專利範圍之等效意義及範圍內的變更應視為落在申請專利範圍的範疇內。
100...電腦系統
110...伺服器主機
PU...處理單元
DB...資料庫
為了立即瞭解本發明的優點,請參考如附圖所示的特定具體實施例,詳細說明上文簡短敘述的本發明。在瞭解這些圖示僅描繪本發明的典型具體實施例並因此不將其視為限制本發明範疇的情況下,參考附圖以額外的明確性及細節來說明本發明,圖式中:
圖1例示透過資料比對所產生之隱私外洩;
圖2例示資料表之k匿名值與l多樣化值;
圖3顯示一種依據本發明具體實施例的電腦系統;
圖4為本發明具體實施例之資料組;
圖5為本發明具體實施例之流程圖;
圖6顯示本本發明具體實施例之決策樹。

Claims (12)

  1. 一種藉由一電腦系統在一資料組(dataset)中保存隱私的方法,其中該資料組係具有至少一敏感資料欄位(sensitive data field)以及至少一第一準識別符(quasi-identifier)之欄位,該方法包含:(a) 根據該至少一第一準識別符,決定該資料組對於該敏感資料欄位之一k匿名值(k-anonymity)K;(b) 若該k匿名值K小於一參考值Kr,則決定以該至少一第一準識別符之全部或部份,將該資料組區分為複數個不同類別的群組,使得每一該群組之資料於該至少一第一準識別符之欄位值係為相同,而不同群組之資料於該至少一第一準識別符之欄位值係為不同;(c) 決定每一該群組所含之資料數目;(d) 從該複數個群組中決定出一第一群組,其中該第一群組之資料數目為N1,而N1小於該參考值Kr;(e) 從該複數個群組中決定出至少一第二群組,使得若該至少一第一群組與該至少一第二群組合併為一合併群組,其中該合併群組之資料數目為Nm,其中Nm不小於該參考值Kr;以及(f) 在該資料組中遮罩(masking)該合併群組之該至少一第一準識別符之欄位。
  2. 如請求項1之方法,其中步驟(f)更包含:在該合併群組中選擇所要被遮罩之準識別符之欄位,其中在進行遮罩前,該至少一第一群組與該至少一第二群組在該所要被遮罩之準識別符欄位之欄位值係為不同。
  3. 如請求項1之方法,其中步驟(e)更包含:決定出該第二群組,使得Nm為最小。
  4. 如請求項1之方法,其中步驟(a)更包含:允許使用者決定該參考值Kr
  5. 如請求項1之方法,其中步驟(a)更包含:根據該至少一第一準識別符,決定該資料組對於該敏感資料欄位之一l多樣性值(l-diversity)L;其中步驟(b)更包含:若該l多樣性值L小於另一參考值Lr,則決定以該至少一第一準識別符之全部或部份,將該資料組區分為複數個不同類別的群組;其中步驟(c)更包含:決定每一該群組所含資料之敏感資料欄位之值之種類數目;其中步驟(d)更包含:決定出該第一群組,其中該第一群組之所含資料之敏感資料欄位之值之種類數目V1,而V1小於該另一參考值Lr;其中步驟(e)更包含:決定出該至少一第二群組,使得該合併群組之所含資料之敏感資料欄位之值之種類數目Vm,其中Vm不小於該另一參考值Lr
  6. 如請求項4之方法,其中步驟(e)更包含:決定出該第二群組,使得Vm為最小。
  7. 如請求項5之方法,其中步驟(e)更包含:決定出該第二群組,使得Nm為最小。
  8. 如請求項4之方法,其中步驟(b)更包含:允許使用者決定該另一參考值Lr
  9. 如請求項1之方法,其中步驟(e)更包含:決定出該第二群組,使得該合併群組符合一使用者自訂條件。
  10. 如請求項1-9中任一項之方法,其中步驟(b)更包含:該步驟係經由決策樹(decision)進行;其中步驟(e)更包含:決定出該第二群組,其中使得該第一群組與該第二群組在決策樹上之路徑距離(distance of path)為最短。
  11. 一種儲存在一電腦可用媒體上之電腦程式產品,包含一電腦可讀程式,供於一電腦系統上執行時,以實施如請求項1-9中任一項所述之方法。
  12. 一種電腦系統,包含:一主機,該主機包含:一匯流排系統;一記憶體,連接到該匯流排系統,其中該記憶體包含一組電腦可執行指令;一連接到該匯流排系統之處理單元,其中該處理單元執行該組電腦可執行指令,以實施如請求項1-9中任一項所述之方法。
TW101103156A 2012-01-31 2012-01-31 在資料組中保存隱私的方法與系統 TW201331770A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW101103156A TW201331770A (zh) 2012-01-31 2012-01-31 在資料組中保存隱私的方法與系統
US13/586,891 US8812524B2 (en) 2012-01-31 2012-08-16 Method and system for preserving privacy of a dataset

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW101103156A TW201331770A (zh) 2012-01-31 2012-01-31 在資料組中保存隱私的方法與系統

Publications (1)

Publication Number Publication Date
TW201331770A true TW201331770A (zh) 2013-08-01

Family

ID=48871200

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101103156A TW201331770A (zh) 2012-01-31 2012-01-31 在資料組中保存隱私的方法與系統

Country Status (2)

Country Link
US (1) US8812524B2 (zh)
TW (1) TW201331770A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11138327B2 (en) 2018-12-27 2021-10-05 Industrial Technology Research Institute Privacy data integration method and server

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150235049A1 (en) * 2014-02-20 2015-08-20 International Business Machines Corporation Maintaining Data Privacy in a Shared Data Storage System
CA2852253A1 (en) * 2014-05-23 2015-11-23 University Of Ottawa System and method for shifting dates in the de-identification of datesets
JP6301767B2 (ja) * 2014-07-28 2018-03-28 株式会社日立ソリューションズ パーソナル情報匿名化装置
US11120163B2 (en) * 2014-11-14 2021-09-14 Oracle International Corporation Associating anonymous information with personally identifiable information in a non-identifiable manner
US9537831B2 (en) * 2014-11-17 2017-01-03 Intel Corporation Reaching anonymization service levels through added transactions
US10333899B2 (en) 2014-11-26 2019-06-25 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for implementing a privacy firewall
JP6097774B2 (ja) * 2015-02-13 2017-03-15 ソフトバンク株式会社 匿名化処理方法、匿名化処理プログラム、及び匿名化処理装置
US9870381B2 (en) 2015-05-22 2018-01-16 International Business Machines Corporation Detecting quasi-identifiers in datasets
US9760718B2 (en) 2015-09-18 2017-09-12 International Business Machines Corporation Utility-aware anonymization of sequential and location datasets
CN105512566B (zh) * 2015-11-27 2018-07-31 电子科技大学 一种基于k-匿名的健康数据隐私保护方法
US10095883B2 (en) 2016-07-22 2018-10-09 International Business Machines Corporation Method/system for the online identification and blocking of privacy vulnerabilities in data streams
CN106570412B (zh) * 2016-10-08 2018-10-30 徐州医科大学 一种增量发布流式生物数据的隐私保护方法
EP3340561A1 (en) * 2016-12-23 2018-06-27 Red Mint Network SAS Anonymization of network subscriber personal information
CN108696418B (zh) * 2017-04-06 2020-07-28 腾讯科技(深圳)有限公司 一种社交网络中隐私保护方法及装置
US11663358B2 (en) * 2017-05-08 2023-05-30 Autodesk, Inc. Perturbation-based techniques for anonymizing datasets
CN107317801A (zh) * 2017-06-05 2017-11-03 中南大学 非完全可信用户协作无匿名区域的位置隐私保护方法
US10769306B2 (en) * 2017-09-21 2020-09-08 International Business Machines Corporation Applying a differential privacy operation on a cluster of data
US10565399B2 (en) * 2017-10-26 2020-02-18 Sap Se Bottom up data anonymization in an in-memory database
US10565398B2 (en) 2017-10-26 2020-02-18 Sap Se K-anonymity and L-diversity data anonymization in an in-memory database
CN107766745B (zh) * 2017-11-14 2020-11-10 广西师范大学 层次数据发布中的分级隐私保护方法
US10936750B2 (en) 2018-03-01 2021-03-02 International Business Machines Corporation Data de-identification across different data sources using a common data model
US10546043B1 (en) 2018-07-16 2020-01-28 Here Global B.V. Triangulation for K-anonymity in location trajectory data
US10663305B2 (en) 2018-07-16 2020-05-26 Here Global B.V. Map matched aggregation for K-anonymity in trajectory data
US11562168B2 (en) 2018-07-16 2023-01-24 Here Global B.V. Clustering for K-anonymity in location trajectory data
US10970418B2 (en) * 2018-08-23 2021-04-06 Servicenow, Inc. System and method for anonymized data repositories
CN109726589B (zh) * 2018-12-22 2021-11-12 北京工业大学 一种面向众智云环境的隐私数据访问方法
CN110020546B (zh) * 2019-01-07 2020-12-04 南京邮电大学 一种隐私数据分级保护方法
CN110276211A (zh) * 2019-06-14 2019-09-24 雷恩友力数据科技南京有限公司 一种基于决策树的位置隐私保护方法及系统
DE102019133137A1 (de) 2019-12-05 2021-06-10 Deutsche Telekom Ag Maschinelles Lernverfahren für eine Datenschutzanalyse
US11456996B2 (en) 2019-12-10 2022-09-27 International Business Machines Corporation Attribute-based quasi-identifier discovery
US11216589B2 (en) * 2020-03-11 2022-01-04 International Business Machines Corporation Dataset origin anonymization and filtration
US11645730B2 (en) * 2020-11-16 2023-05-09 Here Global B.V. Method, apparatus, and computer program product for identifying privacy risks in datasets
US11907268B2 (en) 2021-02-10 2024-02-20 Bank Of America Corporation System for identification of obfuscated electronic data through placeholder indicators
US11580249B2 (en) 2021-02-10 2023-02-14 Bank Of America Corporation System for implementing multi-dimensional data obfuscation
EP4328779A1 (en) * 2022-08-26 2024-02-28 Siemens Healthineers AG Structuring data for privacy risks assessments
KR102670041B1 (ko) * 2023-09-19 2024-05-28 (주)이지서티 실시간 수집 데이터에 대한 실시간 가명 처리 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002254564A1 (en) * 2001-04-10 2002-10-28 Latanya Sweeney Systems and methods for deidentifying entries in a data source
US7877398B2 (en) * 2007-11-19 2011-01-25 International Business Machines Corporation Masking related sensitive data in groups
US8112422B2 (en) * 2008-10-27 2012-02-07 At&T Intellectual Property I, L.P. Computer systems, methods and computer program products for data anonymization for aggregate query answering
WO2010127216A2 (en) 2009-05-01 2010-11-04 Telcodia Technologies, Inc. Automated determination of quasi-identifiers using program analysis
US8326849B2 (en) * 2009-06-25 2012-12-04 University Of Ottawa System and method for optimizing the de-identification of data sets
CN102667830B (zh) * 2009-10-09 2016-03-23 日本电气株式会社 信息管理装置以及数据处理方法
US8544104B2 (en) * 2010-05-10 2013-09-24 International Business Machines Corporation Enforcement of data privacy to maintain obfuscation of certain data

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11138327B2 (en) 2018-12-27 2021-10-05 Industrial Technology Research Institute Privacy data integration method and server

Also Published As

Publication number Publication date
US8812524B2 (en) 2014-08-19
US20130198194A1 (en) 2013-08-01

Similar Documents

Publication Publication Date Title
TW201331770A (zh) 在資料組中保存隱私的方法與系統
US11748517B2 (en) Smart de-identification using date jittering
Angeles-Albores et al. Tissue enrichment analysis for C. elegans genomics
US10936752B2 (en) Data de-identification across different data sources using a common data model
US20210397612A1 (en) System and method for integrating data for precision medicine
Cunha et al. A survey of privacy-preserving mechanisms for heterogeneous data types
US10522244B2 (en) Bioinformatic processing systems and methods
US9047488B2 (en) Anonymizing sensitive identifying information based on relational context across a group
US8694980B2 (en) Efficient egonet computation in a weighted directed graph
AU2020202889B2 (en) Systems and methods for computing data privacy-utility tradeoff
US11630853B2 (en) Metadata classification
Tariq et al. Deep learning techniques for optimizing medical big data
Wang et al. Big data privacy in biomedical research
Wang et al. Fused lasso with the adaptation of parameter ordering in combining multiple studies with repeated measurements
Decouchant et al. Accurate filtering of privacy-sensitive information in raw genomic data
Manuweera et al. Pangenome-wide association studies with frequented regions
WO2020234515A1 (en) Compatible anonymization of data sets of different sources
Reddy et al. Recent advances in artificial intelligence applications for supportive and palliative care in cancer patients
CN107832633B (zh) 关系事务数据发布的隐私保护方法
US20200365231A1 (en) Incorporation of fusion genes into ppi network target selection via gibbs homology
Kabir et al. Systematic clustering method for l-diversity model
Christodoulou et al. Emergency department utilization and disposition outcomes by pediatric patients with cancer in Maryland and New York from 2013 to 2017
Merlin et al. Reducing false-positive prediction of minimotifs with a genetic interaction filter
US20240095385A1 (en) Dataset privacy management system
US11340875B2 (en) Searchable storage of sequential application programs