TWM596392U - 資料去識別化系統 - Google Patents
資料去識別化系統 Download PDFInfo
- Publication number
- TWM596392U TWM596392U TW108213338U TW108213338U TWM596392U TW M596392 U TWM596392 U TW M596392U TW 108213338 U TW108213338 U TW 108213338U TW 108213338 U TW108213338 U TW 108213338U TW M596392 U TWM596392 U TW M596392U
- Authority
- TW
- Taiwan
- Prior art keywords
- data
- identification
- identified
- database
- program
- Prior art date
Links
Images
Landscapes
- Storage Device Security (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一種資料去識別化系統,其包含第一資料庫、去識別化指引程式產生模組及去識別化程式執行模組。第一資料庫用以儲存待去識別化資料及對應待去識別化資料之資料表格。去識別化指引程式產生模組耦接第一資料庫,用以根據資料表格及至少一個類別標籤產生去識別化指引程式並儲存於第一資料庫。去識別化程式執行模組耦接第一資料庫,用以根據去識別化指引程式執行去識別化程式,以對待去識別化資料之至少一個個人資料進行去識別化,進而產生去識別化資料。
Description
本創作係關於一種資料去識別化系統,尤指一種適用於各種形式的資料表格的資料去識別化系統。
面對大數據時代的來臨,個人資料的蒐集、儲存及使用的情況大幅增加。而隨著儲存成本的降低、分析工具的發展,資料蒐集的規模日漸增加,大量的個人資料若未經妥善處理或管理,將有被竊取並遭人挪作他用的風險。為了平衡「促進資料利用」與「隱私權保護」兩種利益,政府遂於民國84年8月11日訂頒「電腦處理個人資料保護法」,嗣於99年修訂後,於5月26日經總統明令公布更名為「個人資料保護法」,以下簡稱「個資法」。個資法規範企業須採取適當的安全維護措施,企業可依業務特性找出日常作業中含有個人資料的部分,透過技術或組織管理上的防護機制(如:去識別化),達到妥善保護個人資料的目的。
於法務部103年11月17日法律字第10303513040號函中提到,去識別化應達到無從直接或間接識別特定當事人之程度。經去識別化後的資料,即非個資法上之個人資料。其中,個人資料包含:自然人之姓名、出生年月日、國民身分證統一編號、護照號碼、特徵、指紋、婚姻、家庭、教育、職業、病歷、醫療、基因、性生活、健康檢查、犯罪前科、
聯絡方式、財務狀況、社會活動及其他得以直接或間接方式識別個人之資料。
尤其在銀行業及保險業中,個人資料為個人的資產亦或是健康狀態等等較為隱私的資料,因此,更需要嚴謹的個人資料去識別化手段來進行保護。現有的個人資料去識別化的執行方式,需由執行人員先請資管人員根據每個資料欄位的去識別化需求,以人工的方式產生遮罩程式,且須將個人資料先輸出,並利用遮罩程式進行去識別後,再寫入資料庫中。上述之過程中都需要人為操作,進而導致去識別化過程耗時長、需要利用大量人力,並進而造成於去識別化過程中,資料容易被竊取或盜用。
於實際執行中,在銀行業中,客戶的ID、信用卡號、銀行帳號係使用種子號而非加密功能,因此,若程序員能夠獲得種子數,則可輕鬆解碼被遮蔽的數據。此外,出於測試或分析目的,將含有個人資料的數據從生產環境遷移到測試環境,但遺憾的是,因為在測試環境中完成數據遷移之前,是無法執行遮蔽程序,因此個人資料是處於公開狀態的,而增添個人資料被竊取或盜用的可能性。
因此,要如何簡化、自動化及提高資料安全性之去識別化過程是當前必須加以改善之課題。
有鑑於此,本創作之一範疇在於提供資料去識別化系統,其包含第一資料庫、去識別化指引程式產生模組及去識別化程式執行模組。第一資料庫用以儲存待去識別化資料及對應待去識別化資料之資料表格。其中,待去識別化資料包含至少一個個人資料,並且資料表格包含至少一
個資料欄位分別填入個人資料。資料欄位分別包含對應個人資料之類別標籤。去識別化指引程式產生模組耦接第一資料庫,用以根據資料表格以及至少一個類別標籤產生去識別化指引程式並儲存於第一資料庫。去識別化程式執行模組耦接第一資料庫,用以根據去識別化指引程式執行去識別化程式,以對待去識別化資料之個人資料進行去識別化,進而產生去識別化資料。
其中,去識別化程式執行模組耦接第二資料庫,去識別化資料儲存於第二資料庫。
其中,去識別化程式包含至少一個去識別化規則,用以規範對應類別標籤之至少一個去識別化手段。去識別化指引程式根據資料欄位中之個人資料所對應之類別標籤,導引去識別化程式提供相對應之去識別化手段予資料欄位,以產生去識別化資料。
其中,第一資料庫包含資料辨識程式。資料辨識程式用以辨識資料欄位中的個人資料,以分別對個人資料給予類別標籤。
其中,資料去識別化系統更包含輸入裝置,耦接第一資料庫,用以供使用者輸入待去識別化資料於資料表格中。
相較於現有技術,本創作之資料去識別化系統具有以下優點:1.本創作之資料去識別化系統係以自動化產生與資料表格相對應之去識別化手段及執行去識別化流程,而免去了現有的人工流程,進而簡化流程、節省人力及工時。2.本創作之資料去識別化系統經由自動化的過程,讓個人資料可直接經由去識別化流程而得到去識別化後之個人資料,進而避免個人資料因為經過多道程序,而被竊取或盜用。3.由於本創作之待去識別化資料與去識別化資料分別儲存於不同資料庫中,且去識別化過程中的中間資料並不會被儲存,因此可以避免有心人士將去識別化資料進行反推,而得知待去識別化資料中的個人資料。
1‧‧‧資料去識別化系統
11‧‧‧第一資料庫
111‧‧‧去識別化指引程式
112‧‧‧資料辨識程式
12‧‧‧去識別化指引程式產生模組
13‧‧‧去識別化程式執行模組
14‧‧‧第二資料庫
15‧‧‧輸入裝置
2‧‧‧資料表格
21‧‧‧資料欄位
3‧‧‧待去識別化資料
31‧‧‧個人資料
32‧‧‧類別標籤
4‧‧‧去識別化資料
S1~S5‧‧‧步驟
S11~S31‧‧‧子步驟
圖1為根據本創作之一具體實施例之資料去識別化系統的方塊示意圖。
圖2為根據本創作之另一具體實施例之資料去識別化系統的方塊示意圖。
圖3為根據本創作之一具體實施例之資料去識別化方法的步驟流程圖。
圖4為根據本創作之另一具體實施例之資料去識別化方法的步驟流程圖。
圖5根據本創作之資料去識別化系統之實施前後的結果示意圖。
為了讓本創作的優點,精神與特徵可以更容易且明確地了解,後續將以實施例並參照所附圖式進行詳述與討論。值得注意的是,這些實施例僅為本創作代表性的實施例。但是其可以許多不同的形式來實現,並不限於本說明書所描述的實施例。相反地,提供這些實施例的目的是使本創作的公開內容更加透徹且全面。
在本創作公開的各種實施例中使用的術語僅用於描述特定實施例的目的,並非在限制本創作所公開的各種實施例。如在此所使用的單數形式係也包括複數形式,除非上下文清楚地另外指示。除非另有限定,否則在本說明書中使用的所有術語(包含技術術語和科學術語)具有與本創作公開的各種實施例所屬領域普通技術人員通常理解的涵義相同的涵義。上述術語(諸如在一般使用的辭典中限定的術語)將被解釋為具有與在相同
技術領域中的語境涵義相同的涵義,並且將不被解釋為具有理想化的涵義或過於正式的涵義,除非在本創作公開的各種實施例中被清楚地限定。
請參閱圖1,圖1為根據本創作之一具體實施例之資料去識別化系統1的方塊示意圖。如圖1之實施例所示,本創作之資料去識別化系統1包含有第一資料庫11、去識別化指引程式產生模組12及去識別化程式執行模組13。第一資料庫11用以儲存待去識別化資料及對應待去識別化資料之資料表格。其中,待去識別化資料包含至少一個個人資料,並且資料表格包含至少一個資料欄位分別填入個人資料。資料欄位分別包含對應個人資料之類別標籤。去識別化指引程式產生模組12耦接第一資料庫11,用以根據資料表格以及至少一個類別標籤產生去識別化指引程式111,並儲存於第一資料庫11。去識別化程式執行模組13耦接第一資料庫11,用以根據去識別化指引程式111執行去識別化程式。其中,去識別化指引程式111可根據資料欄位中之個人資料所對應之類別標籤,導引去識別化程式提供相對應之去識別化手段予各個資料欄位以對待去識別化資料之個人資料進行去識別化,進而產生去識別化資料。
去識別化規則包含以下5種去識別化手段:1.資料移除(Nulling Out Or Deletion):將無須被大數據分析使用的資料直接移除或以權限控管;2.資料加密(Encryption):若因業務需要而不能將資料移除,則可對資料加密,使其失去可讀性與可識別性;3.資料置亂(Shuffling):資料置換技術是將資料內容進行錯置,可使資料失去原先的可識別性,例如將身分證字號A123456789以A789456123顯示;4.資料變異(Number and Date Variance):針對數字或日期資料,可將其加減一預先設定值,從而移除期可
識別性,例如將身分證字號A123456789以A234567890顯示;5.資料遮蔽(Masking):資料遮蔽技術透過遮罩部分字元已降低資料之可識別性及敏感程度,例如將王小明以王O明顯示。
其中,上述之個人資料包含有客戶編號、身分證字號、帳戶號碼、護照號碼、信用卡號碼、中文名字、出生年月日、地址、電話、手機號碼、電子郵件信箱、英文名字、婚姻狀況、家庭狀況、職稱、教育程度、病歷資訊、金融資訊、指紋、照片、性別、車牌號碼、駕照、國籍、年齡、IP地址和備註等等。
於實際應用中,類別標籤的可由人工的方式,針對不同的資料欄位貼上相對應之類別標籤。除了人工的方式也可以利用人工智慧進行自動化的辨識。請參閱圖2,圖2為根據本創作之另一具體實施例之資料去識別化系統1的方塊示意圖。如圖2之實施例所示,與圖1之實施例不同的是,第一資料庫11更包含資料辨識程式112。資料辨識程式112用以辨識資料欄位中的個人資料,以分別對個人資料給予類別標籤。因此,本創作之資料去識別化系統1即可辨識資料表格以及資料表格中資料欄位內之個人資料,並分別給予類別標籤予資料欄位。例如,當資料辨識程式112辨識到資料欄位中的個人資料為1個英文字母再加上9個數字的組合方式,即給予此資料欄位一個身分證字號的類別標籤。其中,資料辨識程式112可由機械學習的方式進行更新以提高辨識的準確率。上述之去識別化程式包含至少一個去識別化規則,用以規範對應類別標籤之至少一個去識別化手段。
為了避免有心人士將去識別化資料反推,本創作之去識別化程式執行模組13可耦接第二資料庫14,將去識別化資料儲存於第二資料庫
14。藉此,由於待去識別化資料儲存於第一資料庫11,而去識別化資料儲存於第二資料庫14,讓有心人士難以由第二資料庫14中的去識別化資料反推,進而降低去識別化資料被反推成待去識別化資料的風險。
請複參閱圖2,本創作之資料去識別化系統1更包含輸入裝置15,耦接第一資料庫11。輸入裝置15可用以供使用者輸入待去識別化資料於資料表格中。其中,待去識別化資料的來源亦可由其他單位內部所提供,並不以此為限。
在此先說明的是,圖3及圖4之實施例可由前述圖1及圖2之實施例之資料去識別化系統達成,因此,與前述相同之內容,在此將不再贅述。
請參閱圖3,圖3為根據本創作之一具體實施例之資料去識別化方法的步驟流程圖。如圖3之實施例所示,本創作之資料去識別化方法包含以下步驟:步驟S1:儲存待去識別化資料及對應待去識別化資料之資料表格於第一資料庫,待去識別化資料包含至少一個個人資料,並且資料表格包含至少一個資料欄位分別填入個人資料,資料欄位分別包含對應個人資料之類別標籤;步驟S2:根據資料表格產生去識別化指引程式並儲存於第一資料庫;步驟S3:根據去識別化指引程式執行去識別化程式,以對待去識別化資料之個人資料進行去識別化以產生去識別化資料。
詳細的來說,請參閱圖4,圖4為根據本創作之另一具體實施例之資料去識別化方法的步驟流程圖。於步驟S1中更包含以下子步驟:子步驟S11:儲存待去識別化資料及對應待去識別化資料之資料表格於第一資料庫;子步驟S12:根據資料辨識程式辨識資料欄位中的個人資料,以分別
對個人資料給予類別標籤。
於步驟S3中,更包含以下子步驟S31:根據資料欄位中之個人資料所對應之類別標籤,導引去識別化程式提供相對應之至少一個去識別化手段予資料欄位,以產生去識別化資料。其中,去識別化程式包含至少一個去識別化規則,用以規範對應類別標籤之去識別化手段。
為了避免有心人士將去識別化資料反推,本創作之資料去識別化方法於步驟S3後更包含步驟S4:儲存去識別化資料於第二資料庫。藉由步驟S4將待去識別化資料及去識別化資料儲存於不同資料庫中,以避免有心人士將去識別化資料反推。
此外,於步驟S1之前可包含步驟S5:接收使用者所提供之待去識別化資料,待去識別化資料係以資料表格呈現。藉此取得待去識別化資料。
於實際應用上,請參閱圖5,圖5根據本創作之資料去識別化系統及其方法之實施前後的結果示意圖。如圖5所示,一個待去識別化資料3以資料表格2呈現,資料表格2中分別於各個資料欄位21中包含了個人資料31。本創作之資料去識別化系統係利用資料辨識程式辨識各個資料欄位21中之個人資料31的類別,並給於資料欄位21一個類別標籤32,如:”王小明”給予姓名的類別標籤32、”A123456789”給予身分證字號的類別標籤32、”0912345678”給予手機的類別標籤32,及”0000012345678910”給予銀行帳號的類別標籤32。接著,去識別化指引程式產生模組根據資料表格2產生去識別化指引程式。去識別化指引程式會導引去識別化程式於含有個人資料”王小明”的資料欄位21使用與姓名的類別標籤32相對應之去識別化規則
所規範的去識別化手段,以將王小明去識別化成王O明。其他的資料欄位以此類推,分別從A123456789去識別化成A234567890、從0912345678去識別化成09****678,以及從0000012345678910去識別化成***********78910,以得到去識別化資料4。需要了解的是,去識別化手段不以上述為限,只要可以達到法定去識別化的結果即可使用。
相較於現有技術,本創作之資料去識別化系統及其方法係以自動化產生與資料表格相對應之去識別化手段及執行去識別化流程,而免去了現有的人工流程,進而簡化流程、節省人力及工時。再者,本創作之資料去識別化系統及其方法經由自動化的過程,讓個人資料可直接經由去識別化流程而得到去識別化後之個人資料,進而避免個人資料因為經過多道程序,而被竊取或盜用。此外,由於本創作之待去識別化資料與去識別化資料分別儲存於不同資料庫中,且去識別化過程中的中間資料並不會被儲存,因此可以避免有心人士將去識別化資料進行反推,而得知待去識別化資料中的個人資料。承上,本創作之資料去識別化系統及其方法可以提供個人資料的安全性,進而也促進大數據分析的順利發展。
藉由以上具體實施例之詳述,係希望能更加清楚描述本創作之特徵與精神,而並非以上述所揭露的具體實施例來對本創作之範疇加以限制。相反地,其目的是希望能涵蓋各種改變及具相等性的安排於本創作所欲申請之專利範圍的範疇內。
1‧‧‧資料去識別化系統
11‧‧‧第一資料庫
111‧‧‧去識別化指引程式
12‧‧‧去識別化指引程式產生模組
13‧‧‧去識別化程式執行模組
Claims (5)
- 一種資料去識別化系統,係運作於一電腦主機內,包含:一第一資料庫,用以儲存一待去識別化資料及對應該待去識別化資料之一資料表格,其中該待去識別化資料包含至少一個人資料,並且該資料表格包含至少一資料欄位分別填入該至少一個人資料,該至少一資料欄位分別包含對應該至少一個人資料之一類別標籤;一去識別化指引程式產生模組,耦接該第一資料庫,用以根據該資料表格以及該至少一類別標籤產生一去識別化指引程式並儲存於該第一資料庫;以及一去識別化程式執行模組,耦接該第一資料庫,用以根據該去識別化指引程式執行一去識別化程式,以對該待去識別化資料之該至少一個人資料進行去識別化以產生一去識別化資料。
- 如申請專利範圍第1項所述之資料去識別化系統,其中該去識別化程式執行模組耦接一第二資料庫,該去識別化資料儲存於該第二資料庫。
- 如申請專利範圍第1項所述之資料去識別化系統,其中該去識別化程式包含至少一去識別化規則,該至少一去識別化規則係規範對應該類別標籤之至少一去識別化手段,並該去識別化指引程式根據該至少一資料欄位中之該至少一個人資料所對應之該類別標籤,導引該去識別化程式提供相對應之該至少一去識別化手段予該至少一資料欄位,以產生該去識別化資料。
- 如申請專利範圍第3項所述之資料去識別化系統,其中該第一資料庫包含一資料辨識程式,該資料辨識程式用以辨識該至少一資料欄位中該至少一個人資料,以分別對該至少一個人資料給予該類別標籤。
- 如申請專利範圍第1項所述之資料去識別化系統,更包含一輸入裝置,耦 接該第一資料庫,用以供一使用者輸入該待去識別化資料於該資料表格中。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962890504P | 2019-08-22 | 2019-08-22 | |
US62/890,504 | 2019-08-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
TWM596392U true TWM596392U (zh) | 2020-06-01 |
Family
ID=72177900
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108213338U TWM596392U (zh) | 2019-08-22 | 2019-10-08 | 資料去識別化系統 |
TW108136407A TWI739169B (zh) | 2019-08-22 | 2019-10-08 | 資料去識別化系統及其方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108136407A TWI739169B (zh) | 2019-08-22 | 2019-10-08 | 資料去識別化系統及其方法 |
Country Status (1)
Country | Link |
---|---|
TW (2) | TWM596392U (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020073099A1 (en) * | 2000-12-08 | 2002-06-13 | Gilbert Eric S. | De-identification and linkage of data records |
US10192278B2 (en) * | 2016-03-16 | 2019-01-29 | Institute For Information Industry | Traceable data audit apparatus, method, and non-transitory computer readable storage medium thereof |
TW201820173A (zh) * | 2016-11-17 | 2018-06-01 | 財團法人資訊工業策進會 | 去識別化資料產生裝置、方法及其電腦程式產品 |
TWI644224B (zh) * | 2017-10-18 | 2018-12-11 | 財團法人工業技術研究院 | 資料去識別化方法、資料去識別化裝置及執行資料去識別化方法的非暫態電腦可讀取儲存媒體 |
TWM561264U (zh) * | 2017-12-12 | 2018-06-01 | 勤業眾信風險管理諮詢股份有限公司 | 去識別化資料驗證系統 |
-
2019
- 2019-10-08 TW TW108213338U patent/TWM596392U/zh unknown
- 2019-10-08 TW TW108136407A patent/TWI739169B/zh active
Also Published As
Publication number | Publication date |
---|---|
TW202109331A (zh) | 2021-03-01 |
TWI739169B (zh) | 2021-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11087225B2 (en) | Systems and methods for identifying compliance-related information associated with data breach events | |
Christen et al. | Linking sensitive data | |
US10372733B2 (en) | Systems and methods for secure storage of user information in a user profile | |
US8069053B2 (en) | Systems and methods for de-identification of personal data | |
US20170287031A1 (en) | Data processing and communication systems and methods for operationalizing privacy compliance and regulation and related systems and methods | |
US8924401B2 (en) | Method and system for logical data masking | |
US11537748B2 (en) | Self-contained system for de-identifying unstructured data in healthcare records | |
US11893136B2 (en) | Token-based data security systems and methods with cross-referencing tokens in freeform text within structured document | |
US11972023B2 (en) | Compatible anonymization of data sets of different sources | |
CN114186275A (zh) | 隐私保护方法、装置、计算机设备及存储介质 | |
TWI739169B (zh) | 資料去識別化系統及其方法 | |
CN116205717A (zh) | 用于对风险网络中的可疑活动检测流水线执行治理的系统和方法 | |
US10074141B2 (en) | Method and system for linking forensic data with purchase behavior | |
Malek | Bigger Is Always Not Better; less Is More, Sometimes: The Concept of Data Minimization in the Context of Big Data | |
Bhandari | COVID-19 and Role of Data Science for Anti-Corruption | |
Anand et al. | Detecting sensitive information from unstructured text in a data-constrained environment | |
JP2010211333A (ja) | 認証システム、利用者認証用媒体及び社会保険管理システム | |
Acharya et al. | Towards the design of a comprehensive data de-identification solution | |
Young | A Human-Centered Approach to Data Privacy: Political Economy, Power, and Collective Data Subjects | |
Ramji et al. | Managing Big Data Privacy and Security | |
Gan et al. | Understanding Employees' Perception towards Personal Data Protection through Their Work Processes in Privacy Enhancing Technologies (PETs) Adoption. | |
ERNEST et al. | INFORMATION AUDIT STRATEGIES: A PANACEA FOR DECISION MAKING SUCCESS | |
Johnson et al. | Ethics, Regulation and Legal Issues of AI in Healthcare | |
WO2024123204A1 (ru) | Способ и система обезличивания конфиденциальных данных | |
WO2023205445A1 (en) | Machine learning for data anonymization |