TWI728553B - 資料去識別處理裝置及方法 - Google Patents

資料去識別處理裝置及方法 Download PDF

Info

Publication number
TWI728553B
TWI728553B TW108141399A TW108141399A TWI728553B TW I728553 B TWI728553 B TW I728553B TW 108141399 A TW108141399 A TW 108141399A TW 108141399 A TW108141399 A TW 108141399A TW I728553 B TWI728553 B TW I728553B
Authority
TW
Taiwan
Prior art keywords
data
identification
data set
field
identification processing
Prior art date
Application number
TW108141399A
Other languages
English (en)
Other versions
TW202119403A (zh
Inventor
葉育惠
谷圳
楊秉哲
呂宜穎
羅至善
Original Assignee
財團法人資訊工業策進會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人資訊工業策進會 filed Critical 財團法人資訊工業策進會
Priority to TW108141399A priority Critical patent/TWI728553B/zh
Priority to CN201911163505.9A priority patent/CN112800022A/zh
Priority to US16/706,657 priority patent/US11314797B2/en
Publication of TW202119403A publication Critical patent/TW202119403A/zh
Application granted granted Critical
Publication of TWI728553B publication Critical patent/TWI728553B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Storage Device Security (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一種資料去識別處理裝置及方法。該資料去識別處理裝置儲存一第一產業領域的一資料集,其中該資料集定義複數個欄位。該資料去識別處理裝置接收一第一指令及一第二指令,其中該第一指令對應至一第二產業領域,且該第二指令對應至一資料用途。該資料去識別處理裝置根據該第一產業領域、該第二產業領域及該資料用途決定各該欄位的一識別分類,根據該資料用途將該資料集轉換為一轉換資料集,且根據該等識別分類將該轉換資料集轉換為一去識別資料集。

Description

資料去識別處理裝置及方法
本發明係關於一種資料去識別處理裝置及方法。更具體而言,本發明係關於一種基於產業領域及資料用途的資料去識別處理裝置及方法。
隨著大數據時代的來臨,愈來愈多的企業會收集各種資料加以分析,再依據分析的結果作出業務上的決策(例如:銀行業者會基於使用者的銀行存款及消費行為決定是否給予信用貸款)。然而,企業自有的資料的廣度相當有限,跨領域整合資料以作出更精準的決策、創造更多的價值,勢必為未來的趨勢。由於企業所分析的資料往往具有個人身分(例如:姓名)或其他需要被保護的資訊(例如:地址、收入),因此在跨領域整合資料時,必須要進行去識別處理,且必須符合不同領域的規範(簡稱為合規),以避免侵害個資所屬人的人格權及相關金融法規。
習知的資料去識別處理技術主要是刪除、加密或上位化可直接識別的資料(例如:姓名、身分證字號)或只顯示一部分的資料(例如:數值中的某幾位數),然而此種處理方式將使得處理過後的資料,難以用來對特定用途來進行評估(例如:評估是否給予使用者信用貸款)。這些習知的資料去識別處理技術皆未考慮到跨領域整合資料時需要跨領域合規,且 未考慮到在合規的同時仍需要達到資料賦能的技術效果,亦即在將資料進行去識別處理之後,仍可用來對特定用途進行評估。有鑑於此,本領域仍亟需一種跨領域整合資料且跨領域合規的資料去識別處理技術。
本發明的一目的在於提供一資料去識別處理裝置。該資料去識別處理裝置包含一儲存器、一輸入介面及一處理器,其中該處理器電性連接至該儲存器及該輸入介面。該儲存器儲存一第一產業領域的一資料集,其中該資料集定義複數個欄位。該輸入介面接收一第一指令及一第二指令,其中該第一指令對應至一第二產業領域,且該第二指令對應至一資料用途。該處理器根據該第一產業領域、該第二產業領域及該資料用途決定各該欄位的一識別分類,根據該資料用途將該資料集轉換為一第一轉換資料集,且根據該等識別分類將該第一轉換資料集轉換為一第一去識別資料集。
本發明的另一目的在於提供一資料去識別處理方法,其係適用於一電子計算裝置。該電子計算裝置儲存一第一產業領域的一資料集,且該資料集定義複數個欄位。該資料去識別處理方法包含下列步驟:(a)接收一第一指令,其中該第一指令對應至一第二產業領域,(b)接收一第二指令,其中該第二指令對應至一資料用途,(c)根據該第一產業領域、該第二產業領域及該資料用途決定各該欄位的一識別分類,(d)根據該資料用途將該資料集轉換為一第一轉換資料集,以及(e)根據該等識別分類將該第一轉換資料集轉換為一第一去識別資料集。
本發明所提供的資料去識別處理技術(至少包含裝置及方法)會根據一資料用途對某一產業領域的資料集進行轉換,且會根據至少二 個產業領域及該資料用途對資料集進行去識別處理。經前述轉換及去識別處理過後的資料集具有更豐富、更有利於該資料用途的資訊,因此利用經前述轉換及去識別處理過後的資料集所建立的用途評估模型將能作出更精準的決策、創造更多的價值。此外,由於本發明所提供的資料去識別處理技術在進行去識別處理時考量了所涉及的產業領域與資料用途的法律規範,因此經前述轉換及去識別處理過後的資料集也就跨領域地符合規定。
以下結合圖式闡述本發明的技術及實施方式,俾使本發明所屬技術領域中具有通常知識者能理解所請求保護的發明的技術特徵。
1‧‧‧資料去識別處理裝置
10‧‧‧指令
11‧‧‧儲存器
12‧‧‧指令
13‧‧‧輸入介面
15‧‧‧處理器
17‧‧‧傳輸介面
A1、A2、A3、A4、A5‧‧‧欄位
D‧‧‧資料集
DD‧‧‧去識別資料集
Ra、……、Rz‧‧‧記錄
TD‧‧‧轉換資料集
S201~S209‧‧‧步驟
第1A圖描繪第一實施方式的資料去識別處理裝置1的架構示意圖;
第1B圖描繪資料集D的一具體範例;
第1C圖描繪轉換資料集TD的一具體範例;
第1D圖描繪去識別資料集DD的一具體範例;以及
第2圖描繪第二實施方式的資料去識別處理方法的主要流程圖。
以下將透過實施方式來解釋本發明所提供的資料去識別處理裝置及方法。然而,該等實施方式並非用以限制本發明需在如該等實施方式所述的任何環境、應用或方式方能實施。因此,關於以下實施方式的說明僅在於闡釋本發明的目的,而非用以限制本發明的範圍。應理解,在以下實施方式及圖式中,與本發明非直接相關的元件已省略而未繪示,且圖式中各 元件的尺寸以及元件間的尺寸比例僅為便於繪示及說明,而非用以限制本發明的範圍。
本發明的第一實施方式為一資料去識別處理裝置1,其架構示意圖係描繪於第1A圖。資料去識別處理裝置1包含一儲存器11、一輸入介面13及一處理器15,且處理器15電性連接至儲存器11及輸入介面13。儲存器11可為一記憶體、一硬碟(Hard Disk Drive;HDD)、一通用串列匯流排(Universal Serial Bus;USB)碟、一光碟(Compact Disk;CD)或本發明所屬技術領域中具有通常知識者所知的任何其他具有雷同功能的非暫態儲存媒體或裝置。輸入介面13可為任何可供使用者輸入資訊的介面,例如:滑鼠、鍵盤、觸控式顯示螢幕。處理器15可為各種處理器、中央處理單元(Central Processing Unit;CPU)、微處理器(Microprocessor Unit;MPU)、數位訊號處理器(Digital Signal Processor;DSP)或本發明所屬技術領域中具有通常知識者所知的任何其他具有雷同功能的計算裝置。
資料去識別處理裝置1會針對要用於跨領域整合的資料集進行資料轉換(例如:基於原有的資料提供額外的資訊,容後詳述)及去識別處理,使處理過後的資料集具有更豐富的資訊,且符合所整合的產業領域與資料用途的法律規範(例如:個人資料保護法、銀行法及其他相關金融法規,但不以此為限)。
於本實施方式中,資料去識別處理裝置1的儲存器11儲存一第一產業領域(未繪示)的一資料集D。資料集D定義複數個欄位且包含複數筆記錄,其中各筆記錄包含複數個資料一對一的對應至該等欄位。請參第1B圖,其係描繪資料集D的一具體範例。該具體範例將用於後續的說明,但 應理解其非用以限制本發明的範圍。於該具體範例中,資料集D定義五個欄位A1、A2、A3、A4、A5且包含複數筆記錄Ra、……、Rz,其中記錄Ra、……、Rz各自包含複數個資料一對一地對應至欄位A1、A2、A3、A4、A5。
使用者可透過輸入介面13輸入一指令10,且指令10用以指示將資料集D與一第二產業領域(未繪示)的資料集整合。此外,使用者可透過輸入介面13輸入一指令12,且指令12用以指示將整合後的資料集用於一資料用途(未繪示)。輸入介面13會接收前述指令10、12,且將指令10、12傳送至處理器15以進行後續處理。
在某些實施方式中,資料去識別處理裝置1還可包含一顯示螢幕(未繪示)電性連接至處理器15。顯示螢幕可為液晶顯示螢幕(Liquid Crystal Display;LCD)、有機發光二極體(Organic Light Emitting Diode;OLED)螢幕、電子紙螢幕或其他能顯示數位資訊之裝置。在該等實施方式中,顯示螢幕可顯示複數個產業領域的選項供使用者選取,使用者選取其中一個產業領域後便產生了前述指令10。此外,顯示螢幕還可顯示複數個資料用途的選項供使用者選取,使用者選取其中一個資料用途後便產生了前述指令12。
接著,處理器15根據該第一產業領域、該第二產業領域及該資料用途決定欄位A1、A2、A3、A4、A5各自的識別分類。於本實施方式中,一個欄位的識別分類可為直接識別、間接識別或非個人資料。需說明者,不同的產業領域對應至不同的法律規範,不同的資料用途亦可能對應至不同的法律規範,而不同的法律規範對於個人資料可被公開的允許程度可能不同,也可能相同。換言之,前述第一產業領域、第二產業領域及資料用途對 同一欄位的識別分類可能不同,也可能相同。於本實施方式中,若不同的法律規範對同一欄位的識別分類的要求不同,處理器15會選取較嚴格的作為該欄位的識別分類。在某些實施方式中,儲存器11還可事先儲存各法律規範對各種欄位的識別分類,俾處理器15能快速地根據該第一產業領域、該第二產業領域及該資料用途決定欄位A1、A2、A3、A4、A5各自的識別分類。為便於理解,茲假設處理器15決定欄位A1的識別分類為直接識別、欄位A2的識別分類為間接識別、欄位A3的識別分類為直接識別、欄位A4的識別分類為非個人資料以及欄位A5的識別分類為直接識別。
之後,處理器15根據該資料用途將資料集D轉換為轉換資料集TD,藉此賦予轉換資料集TD與該資料用途有關的額外資訊。於某些實施方式中,處理器15根據該資料用途決定欄位A1、A2、A3、A4、A5中的一或多個指定欄位個別的資料轉換方式,且將各指定欄位所對應的複數筆資料以對應的該資料轉換方式轉換。需說明者,各指定欄位所對應的資料轉換方式係用以將對應的該等資料轉換成該資料用途所需要的資料,且於轉換後可改變或不改變各指定欄位的識別分類。在某些實施方式中,儲存器11還可事先儲存各資料用途針對各欄位所要採用的資料轉換方式,俾處理器15能快速地根據某一資料用途決定各指定欄位的資料轉換方式。
為便於理解,請參第1C圖所示的轉換資料集TD的一具體範例。該具體範例將用於後續的說明,但應理解其非用以限制本發明的範圍。於該具體範例中,該資料用途為信貸評估,處理器15根據該資料用途決定欄位A4、A5為指定欄位,且決定欄位A4、A5各自的資料轉換方式。具體而言,處理器15決定欄位A4的資料轉換方式為將手機型號轉換為手機的售價,且 決定欄位A5的資料轉換方式為將地址轉換為市場上的平均房價。在該具體範例中,欄位A4的資料經由對應的資料轉換方式轉換後,欄位A4的識別分類不變。但,欄位A5的資料經由對應的資料轉換方式轉換後,欄位A5的識別分類由直接識別改變為非個人資料。
在另一具體範例中,處理器15決定欄位A4的資料轉換方式為將手機型號轉換為一消費性等級,且欄位A4的資料經由對應的資料轉換方式轉換後,欄位A4的識別分類不變;處理器15還決定欄位A5的資料轉換方式為將地址轉換為一資產等級,欄位A5的資料經由對應的資料轉換方式轉換後,欄位A5的識別分類由直接識別改變為非個人資料。
之後,處理器15根據該等識別分類將轉換資料集TD轉換為去識別資料集DD,藉此移除能識別出特定個人的資訊,俾符合第一產業領域、第二產業領域及資料用途所對應的該等法律規範。於某些實施方式中,處理器15根據欄位A1、A2、A3、A4、A5各自的識別分類決定欄位A1、A2、A3、A4、A5各自的去識別處理方式,且將轉換資料集TD中欄位A1、A2、A3、A4、A5各自所對應的複數筆資料以對應的去識別處理方式來進行去識別處理。需說明者,本發明未限制欄位A1、A2、A3、A4、A5所對應的該等去識別處理方式是否需要相同或相異;換言之,某些欄位所對應的去識別處理方式可能相同。另需說明者,於某些實施方式中,處理器15不會針對識別分類為非個人資料的欄位決定去識別處理方式(亦即,不需進行去識別處理)。在某些實施方式中,儲存器11還可事先儲存各欄位的各種識別分類所要採用的去識別處理方式,俾處理器15能快速地決定欄位A1、A2、A3、A4、A5各自的去識別處理方式。
為便於理解,請參第1D圖所示的去識別資料集DD的一具體範例。該具體範例將用於後續的說明,但應理解其非用以限制本發明的範圍。於該具體範例中,欄位A1的識別分類為直接識別,處理器15決定欄位A1對應的去識別處理方式為刪除部分資訊(例如:刪除部分的名字)。欄位A2的識別分類為間接識別,處理器15決定欄位A2對應的去識別處理方式為刪除部分資訊(例如:刪除生日的月份及日期,只保留生日的年份)。欄位A3的識別分類為直接識別,處理器15決定欄位A3對應的去識別處理方式為全部刪除。欄位A4的識別分類為非個人資料,處理器15決定欄位A4對應的去識別處理方式為不做任何轉換。欄位A5的識別分類經過前述的資料轉換處理後已變更為非個人資料,處理器15決定欄位A5對應的去識別處理方式為不做任何轉換。
需說明者,在某些實施方式中,處理器15除了根據該第一產業領域、該第二產業領域及該資料用途決定欄位A1、A2、A3、A4、A5各自的識別分類,還會根據該第一產業領域、該第二產業領域及該資料用途決定欄位A1、A2、A3、A4、A5各自的機敏分類。各欄位的機敏分類可為敏感或非敏感。類似的,不同的產業領域對應至不同的法律規範,不同的資料用途亦可能對應至不同的法律規範,因此前述第一產業領域、第二產業領域及資料用途對同一欄位的敏感分類可能不同,也可能相同。若不同的法律規範對同一欄位的敏感分類的要求不同,處理器15會選取較嚴格的作為該欄位的敏感分類。於該等實施方式中,處理器15則是根據欄位A1、A2、A3、A4、A5的識別分類及機敏分類將轉換資料集TD轉換為去識別資料集DD。舉例而言,欄位A3的識別分類為直接識別,且機敏分類為敏感,處理器15可先 判斷這二者哪一去識別程度較嚴格,再採取較嚴格者所對應的去識別化處理方式來進行處理和轉換(例如:直接識別所對應的去識別程度較嚴格,因此採用直接識別所對應的去識別處理方式)。本發明所屬技術領域中具有通常知識者依據前述說明,應能了解處理器15如何根據欄位A1、A2、A3、A4、A5的識別分類及機敏分類將轉換資料集TD轉換為去識別資料集DD,茲不贅言。
在某些實施方式中,處理器15還對去識別資料集DD執行一去識別檢測(未繪示),藉此判斷去識別資料集DD是否確實符合該第一產業領域、該第二產業領域及該資料用途所對應的法律規範。舉例而言,該去識別檢測可包含一K匿名(K-Anonymity)檢測、一L多樣性(L-Diversity)檢測及一T相似性(T-Closeness)檢測的至少其中之一,但不以此為限。
在某些實施方式中,處理器15還會根據該資料用途決定欄位A1、A2、A3、A4、A5的一重要性排序。於這些實施方式中,若處理器15判斷去識別資料集DD未通過該去識別檢測,處理器15可以再根據該重要性排序決定去識別資料集DD所包含的至少一欄位以進行一進階去識別處理(未繪示)。進階去識別處理之後也會再進行一次去識別檢測,確認經過進階去識別處理之後的去識別資料集DD,能夠符合該第一產業領域、該第二產業領域及該資料用途所對應的法律規範。於這些實施方式中,同一欄位在同一識別分類上可有一或多個去識別處理方式,而這些去識別處理方式會有不同的等級。對於需要進行進階去識別處理的欄位,處理器15會從該欄位所對應的該等去識別處理方式中選取一個更為嚴格的去識別處理方式來進行進階去識別處理。
為便於理解,茲以一具體範例說明,但該具體範例並非用以限制本發明的範圍。於該具體範例中,處理器15根據該資料用途決定該等欄位的重要性排序依序為欄位A4、欄位A5、欄位A3、欄位A2、欄位A1,處理器15再根據該重要性排序(例如:先選擇較不重要的欄位先處理),決定去識別資料集DD中的欄位A1要進行進階去識別處理。於該具體範例中,若欄位A1的識別分類為直接識別,會有三個等級的去識別處理方式,第一個等級為刪除姓名中的一個字,第二個等級為刪除姓名中的多個字,且第三個等級為以其他代號表示。處理器15原先係選取第一個等級的去識別處理方式將欄位A1所對應的該等資料進行去識別處理。由於處理器15判斷去識別資料集DD未通過該去識別檢測,且選取欄位A1要進行進階去識別處理,因此處理器15會選取欄位A1所對應的第二個等級或第三個等級的去識別處理方式來對欄位A1所對應的該等資料進行進階去識別處理。
本發明所屬技術領域中具有通常知識者依據前述說明應能理解,處理器15對去識別資料集DD進行進階去識別處理後,還可再次執行前述的去識別檢測,藉此判斷經過進階去識別處理的資料集是否確實符合該第一產業領域、該第二產業領域及該資料用途所對應的法律規範,茲不贅言。
在某些實施方式中,在產生去識別資料集DD後,處理器15還可利用一自動編碼器(Autoencoder)從去識別資料集DD擷取複數個特徵值(未繪示),再利用該特徵值預測去識別資料集DD於該資料用途的一建模效果(未繪示)。舉例而言,當資料用途為評估一貸款申請人信用貸款的評等時,去識別資料集DD將用於建立一信用貸款評等分類模型,則該建模效 果可為該信用貸款評等分類模型一分類準確度。於該等實施方式中,若處理器15判斷該建模效果低於一門檻值時,處理器15還可根據該資料用途將資料集D轉換為另一轉換資料集(未繪示),也就是藉由其他的轉換方式賦予該另一轉換資料集與該資料用途有關的其他的額外資訊,該其他的額外資訊將有利於提升後續再次產生的去識別資料集DD的建模效果。具體而言,處理器15根據該資料用途決定欄位A1、A2、A3、A4、A5的一指定欄位的一資料轉換方式。此外,處理器15在將資料集D轉換為轉換資料集TD與將資料集D轉換為另一轉換資料集時,係採用不同的資料轉換方式來將該指定欄位所對應的該等資料進行轉換,使得重新轉換後的另一轉換資料集內的資料,可更加符合資料用途的需求(例如:更有利於用來評估信用貸款的評等)。
類似的,處理器15在產生另一轉換資料集後,如前述方法,還會根據欄位A1、A2、A3、A4、A5所對應的該等識別分類將該另一轉換資料集轉換為一去識別資料集,茲不贅言。
在某些實施方式中,資料去識別處理裝置1還可包含一傳輸介面17,其電性連接至處理器15。傳輸介面17可為任何能收發訊號及資料的有線或無線的介面,例如:各種網路介面,但不以此為限。傳輸介面17傳送去識別資料集DD至一建模裝置(未繪示)。該建模裝置於接收到去識別資料集DD之後,可以建立對應該資料用途的一用途評估模型。在其他實施例中,該建模裝置還可接收來自不同產業領域的多個去識別資料集DD,來進行建模。例如,該建模裝置除了接收前述的去識別資料集DD之外,還可接收對應的該第二產業領域的另一去識別資料集(可採用前述的方式對第二產業領域的資料集處理後所產生)後,使用兩個不同的去識別資料集來建立對應 該資料用途的一用途評估模型。
由上述說明可知,資料去識別處理裝置1會根據一資料用途對某一產業領域的資料集進行轉換(例如:基於原有的資料提供其他產業領域的額外資訊),且會根據至少二個產業領域及該資料用途對資料集進行去識別處理。經前述轉換及去識別處理過後的資料集具有更豐富、更有利於該資料用途的資訊,因此利用經前述轉換及去識別處理過後的資料集所建立的用途評估模型將能作出更精準的決策、創造更多的價值。此外,由於資料去識別處理裝置1在進行去識別處理時考量了所涉及的產業領域與資料用途的法律規範,因此經前述轉換及去識別處理過後的資料集也就跨領域地符合規定。
本發明的第二實施方式為一種資料去識別處理方法,其主要流程圖係描繪於第2圖。資料去識別處理方法適用於一電子計算裝置(例如:前述資料去識別處理裝置1),且該電子計算裝置儲存一第一產業領域的一資料集。該資料集定義複數個欄位且包含複數筆記錄,其中各筆記錄個別地包含複數個資料一對一地對應至該等欄位。資料去識別處理方法包含步驟S201至步驟S209。
於步驟S201,由該電子計算裝置接收一第一指令,其中該第一指令對應至一第二產業領域。於步驟S203,由該電子計算裝置接收一第二指令,其中該第二指令對應至一資料用途。需說明者,本發明未限制步驟S201及步驟S203的執行順序。換言之,步驟S201可早於或晚於步驟S203執行,也可與步驟S203同時執行。
接著,於步驟S205,由該電子計算裝置根據該第一產業領 域、該第二產業領域及該資料用途決定各該欄位的一識別分類。於步驟S207,由該電子計算裝置根據該資料用途將該資料集轉換為一第一轉換資料集。於步驟S209,由該電子計算裝置根據該等識別分類將該第一轉換資料集轉換為一第一去識別資料集。
於某些實施方式中,資料去識別處理方法還可包含一步驟,由該電子計算裝置根據該第一產業領域、該第二產業領域及該資料用途決定各該欄位的一機敏分類(未繪示)。於該等實施方式中,步驟S209係根據該等識別分類及該等機敏分類將該第一轉換資料集轉換為該第一去識別資料集。
於某些實施方式中,步驟S207包含一步驟,由該電子計算裝置根據該資料用途決定一指定欄位的一資料轉換方式(未繪示)。步驟S207還包含另一步驟,由該電子計算裝置將該指定欄位所對應的複數筆資料以對應的該資料轉換方式轉換(未繪示)。
於某些實施方式中,步驟S209包含一步驟,由該電子計算裝置根據各該欄位的該識別分類決定各該欄位的一去識別處理方式(未繪示)。步驟S209還包含另一步驟,由該電子計算裝置將該第一轉換資料集中各該欄位所對應的複數筆資料以對應的該去識別處理方式來進行去識別處理(未繪示)。
於某些實施方式中,資料去識別處理方法還可包含一步驟,由該電子計算裝置對該第一去識別資料集執行一去識別檢測(未繪示)。舉例而言,該去識別檢測可包含一K匿名檢測、一L多樣性檢測及一T相似性檢測的至少其中之一,但不以此為限。於該等實施方式中,資料去識別處理方 法還可包含一步驟,由該電子計算裝置根據該資料用途決定該等欄位的一重要性排序(未繪示)。當該第一去識別資料集未通過該去識別檢測時,資料去識別處理方法還可包含一步驟,由該電子計算裝置根據該重要性排序決定該第一去識別資料集所包含的至少一欄位以進行一進階去識別處理(未繪示)。
於某些實施方式中,資料去識別處理方法還可包含一步驟由該電子計算裝置以一自動編碼器從該第一去識別資料集擷取複數個特徵值(未繪示),且包含另一步驟由該電子計算裝置利用該特徵值預測該第一去識別資料集於該資料用途的一建模效果(未繪示)。於該等實施方式中,該資料去識別處理方法還可執行一步驟,由該電子計算裝置判斷該建模效果是否低於一門檻值(未繪示)。若該建模效果低於該門檻值,資料去識別處理方法還可包含一步驟,由該電子計算裝置根據該等識別分類將該第二轉換資料集轉換為一第二去識別資料集(未繪示)。該資料去識別化處理方法於轉換為該第一轉換資料集和該第二資料集時係採用不同的資料轉換方式來將該指定欄位所對應的複數筆資料進行轉換。
於某些實施方式中,資料去識別處理方法還可包含一步驟,由該電子計算裝置傳送該第一去識別資料集至一建模裝置(未繪示)。該建模裝置於接收該第一去識別資料集和對應該第二產業領域的一第三去識別資料集後,建立對應該資料用途的一用途評估模型。
除了上述步驟,第二實施方式還能執行前述各實施方式中所描述的資料去識別處理裝置1所能執行的所有運作及步驟,具有同樣的功能,且達到同樣的技術效果。本發明所屬技術領域中具有通常知識者可直接 瞭解第二實施方式如何基於上述各實施方式以執行此等運作及步驟,具有同樣的功能,並達到同樣的技術效果,故不贅述。
需說明者,於本發明專利說明書及申請專利範圍中,某些用語(包含:指令、產業領域、轉換資料集、去識別資料集)前被冠以「第一」、「第二」或「第三」,該等「第一」、「第二」及「第三」僅用來區隔該等用語彼此不同。
綜上所述,本發明所提供的資料去識別處理技術(至少包含裝置及方法)會根據一資料用途對某一產業領域的資料集進行轉換(例如:基於原有的資料提供其他產業領域的額外資訊),且會根據至少二個產業領域及該資料用途對資料集進行去識別處理。經前述轉換及去識別處理過後的資料集具有更豐富、更有利於該資料用途的資訊,因此利用經前述轉換及去識別處理過後的資料集所建立的用途評估模型將能作出更精準的決策、創造更多的價值。此外,由於本發明所提供的資料去識別處理技術在進行去識別處理時考量了所涉及的產業領域與資料用途的法律規範,因此經前述轉換及去識別處理過後的資料集也就跨領域地符合規定。
上述各實施方式係用以例示性地說明本發明的部分實施態樣以及用以闡釋本發明的技術特徵,而非用以限制本發明的保護範疇及範圍。任何本發明所屬技術領域中具有通常知識者可輕易完成的改變或均等性的安排均屬於本發明所主張的範圍,本發明的權利保護範圍以申請專利範圍為準。
S201~S209‧‧‧步驟

Claims (20)

  1. 一種資料去識別處理裝置,包含:一儲存器,儲存一第一產業領域的一資料集,其中該資料集定義複數個欄位,該第一產業領域針對各該欄位具有一第一識別分類;一輸入介面,接收一第一指令及一第二指令,其中該第一指令對應至一第二產業領域,該第二指令對應至一資料用途,該第二產業領域針對各該欄位具有一第二識別分類,且該資料用途針對各該欄位具有一第三識別分類,其中該等第一識別分類、該等第二識別分類及該等第三識別分類的每一個為一直接識別、一間接識別及一非個人資料其中之一;以及一處理器,電性連接至該儲存器及該輸入介面,針對各該欄位從對應的該第一識別分類、對應的該第二識別分類及對應的該第三識別分類中選取較嚴格者作為對應的一第四識別分類,根據該資料用途將該資料集轉換為一第一轉換資料集,且根據該等第四識別分類將該第一轉換資料集轉換為一第一去識別資料集。
  2. 如請求項1所述的資料去識別處理裝置,其中該處理器還根據該第一產業領域、該第二產業領域及該資料用途決定各該欄位的一機敏分類,其中該處理器係根據該等第四識別分類及該等機敏分類將該第一轉換資料集轉換為該第一去識別資料集。
  3. 如請求項1所述的資料去識別處理裝置,其中該處理器係藉由以下運作將該資料集轉換為該第一轉換資料集:根據該資料用途決定一指定欄位的一資料轉換方式,且將該指定欄位所對應的複數筆資料以對應的該資 料轉換方式轉換。
  4. 如請求項1所述的資料去識別處理裝置,其中該處理器係藉由以下運作將該第一轉換資料集轉換為該第一去識別資料集:根據各該欄位的該第四識別分類決定各該欄位的一去識別處理方式,且將該第一轉換資料集中各該欄位所對應的複數筆資料以對應的該去識別處理方式來進行去識別處理。
  5. 如請求項1所述的資料去識別處理裝置,其中該處理器還對該第一去識別資料集執行一去識別檢測。
  6. 如請求項5所述的資料去識別處理裝置,其中該去識別檢測包含一K匿名(K-Anonymity)檢測、一L多樣性(L-Diversity)檢測及一T相似性(T-Closeness)檢測的至少其中之一。
  7. 如請求項5所述的資料去識別處理裝置,其中該處理器還根據該資料用途決定該等欄位的一重要性排序,當該處理器還判斷該第一去識別資料集未通過該去識別檢測時,該處理器還根據該重要性排序決定該第一去識別資料集所包含的至少一欄位以進行一進階去識別處理。
  8. 如請求項1所述的資料去識別處理裝置,其中該處理器還以一自動編碼器(Autoencoder)從該第一去識別資料集擷取複數個特徵值,且該處理器還利用該特徵值預測該第一去識別資料集於該資料用途的一建模效果。
  9. 如請求項8所述的資料去識別處理裝置,其中當該建模效果低於一門檻值時,該處理器還根據該資料用途將該資料集轉換為一第二轉換資料集,且根據該等第四識別分類將該第二轉換資料集轉換為一第二去識別 資料集,其中該處理器係根據該資料用途決定該等欄位中的一指定欄位的一資料轉換方式,且該處理器於轉換該第一轉換資料集和該第二轉換資料集時係採用不同的資料轉換方式來將該指定欄位所對應的複數筆資料進行轉換。
  10. 如請求項1所述的資料去識別處理裝置,還包含:一傳輸介面,電性連接至該處理器,且傳送該第一去識別資料集至一建模裝置;其中,該建模裝置於接收該第一去識別資料集和對應該第二產業領域的一第三去識別資料集後,建立對應該資料用途的一用途評估模型。
  11. 一種資料去識別處理方法,適用於一電子計算裝置,該電子計算裝置儲存一第一產業領域的一資料集,該資料集定義複數個欄位,該第一產業領域針對各該欄位具有一第一識別分類,該資料去識別處理方法包含下列步驟:(a)接收一第一指令,其中該第一指令對應至一第二產業領域,且該第二產業領域針對各該欄位具有一第二識別分類;(b)接收一第二指令,其中該第二指令對應至一資料用途,該資料用途針對各該欄位具有一第三識別分類,且該等第一識別分類、該等第二識別分類及該等第三識別分類的每一個為一直接識別、一間接識別及一非個人資料其中之一;(c)針對各該欄位從對應的該第一識別分類、對應的該第二識別分類及對應的該第三識別分類中選取較嚴格者作為對應的一第四識別分類;(d)根據該資料用途將該資料集轉換為一第一轉換資料集;以及 (e)根據該等第四識別分類將該第一轉換資料集轉換為一第一去識別資料集。
  12. 如請求項11所述的資料去識別處理方法,還包含下列步驟:根據該第一產業領域、該第二產業領域及該資料用途決定各該欄位的一機敏分類;其中,該步驟(e)係根據該等第四識別分類及該等機敏分類將該第一轉換資料集轉換為該第一去識別資料集。
  13. 如請求項11所述的資料去識別處理方法,其中該步驟(d)包含下列步驟:根據該資料用途決定一指定欄位的一資料轉換方式;以及將該指定欄位所對應的複數筆資料以對應的該資料轉換方式轉換。
  14. 如請求項11所述的資料去識別處理方法,其中該步驟(e)包含下列步驟:根據各該欄位的該第四識別分類決定各該欄位的一去識別處理方式;以及將該第一轉換資料集中各該欄位所對應的複數筆資料以對應的該去識別處理方式來進行去識別處理。
  15. 如請求項11所述的資料去識別處理方法,還包含下列步驟:對該第一去識別資料集執行一去識別檢測。
  16. 如請求項15所述的資料去識別處理方法,其中該去識別檢測包含一K匿名檢測、一L多樣性檢測及一T相似性檢測的至少其中之一。
  17. 如請求項15所述的資料去識別處理方法,還包含下列步驟:根據該資料用途決定該等欄位的一重要性排序;當該第一去識別資料集未通過該去識別檢測時,根據該重要性排序 決定該第一去識別資料集所包含的至少一欄位以進行一進階去識別處理。
  18. 如請求項11所述的資料去識別處理方法,還包含下列步驟:以一自動編碼器從該第一去識別資料集擷取複數個特徵值;以及利用該特徵值預測該第一去識別資料集於該資料用途的一建模效果。
  19. 如請求項18所述的資料去識別處理方法,還包含下列步驟:判斷該建模效果低於一門檻值;根據該資料用途將該資料集轉換為一第二轉換資料集;以及根據該等第四識別分類將該第二轉換資料集轉換為一第二去識別資料集,其中,該資料去識別化處理方法於轉換為該第一轉換資料集和該第二資料集時係採用不同的資料轉換方式來將該指定欄位所對應的複數筆資料進行轉換。
  20. 如請求項11所述的資料去識別處理方法,還包含下列步驟:傳送該第一去識別資料集至一建模裝置;其中,該建模裝置於接收該第一去識別資料集和對應該第二產業領域的一第三去識別資料集後,建立對應該資料用途的一用途評估模型。
TW108141399A 2019-11-14 2019-11-14 資料去識別處理裝置及方法 TWI728553B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW108141399A TWI728553B (zh) 2019-11-14 2019-11-14 資料去識別處理裝置及方法
CN201911163505.9A CN112800022A (zh) 2019-11-14 2019-11-25 数据去识别处理装置及方法
US16/706,657 US11314797B2 (en) 2019-11-14 2019-12-06 Data de-identification apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW108141399A TWI728553B (zh) 2019-11-14 2019-11-14 資料去識別處理裝置及方法

Publications (2)

Publication Number Publication Date
TW202119403A TW202119403A (zh) 2021-05-16
TWI728553B true TWI728553B (zh) 2021-05-21

Family

ID=75803961

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108141399A TWI728553B (zh) 2019-11-14 2019-11-14 資料去識別處理裝置及方法

Country Status (3)

Country Link
US (1) US11314797B2 (zh)
CN (1) CN112800022A (zh)
TW (1) TWI728553B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11531703B2 (en) * 2019-06-28 2022-12-20 Capital One Services, Llc Determining data categorizations based on an ontology and a machine-learning model
US11652721B2 (en) * 2021-06-30 2023-05-16 Capital One Services, Llc Secure and privacy aware monitoring with dynamic resiliency for distributed systems

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050192830A1 (en) * 2002-05-15 2005-09-01 Pugh Michael D. Dynamically and customizably managing data in compliance with privacy and security standards
CN108431817A (zh) * 2015-11-29 2018-08-21 阿特瑞斯公司 医学成像和医学成像信息的高效共享
US20190110736A1 (en) * 2017-10-17 2019-04-18 Beneufit, Inc. Measuring body movement in movement disorder disease
CN109716345A (zh) * 2016-04-29 2019-05-03 普威达有限公司 计算机实现的隐私工程系统和方法
TW201941085A (zh) * 2018-03-26 2019-10-16 美商蘋果公司 自然助理互動

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3480721A4 (en) * 2016-06-30 2020-01-15 Fasoo. Com Co., Ltd METHOD AND DEVICE FOR ANONYMOUSING PERSONAL INFORMATION
US11048820B2 (en) * 2017-07-21 2021-06-29 Sap Se Anonymized data storage and retrieval
US11151113B2 (en) * 2017-12-20 2021-10-19 International Business Machines Corporation Adaptive statistical data de-identification based on evolving data streams
US11036884B2 (en) * 2018-02-26 2021-06-15 International Business Machines Corporation Iterative execution of data de-identification processes
US10936750B2 (en) * 2018-03-01 2021-03-02 International Business Machines Corporation Data de-identification across different data sources using a common data model
US20190318811A1 (en) * 2018-04-12 2019-10-17 International Business Machines Corporation Augmenting datasets using de-identified data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050192830A1 (en) * 2002-05-15 2005-09-01 Pugh Michael D. Dynamically and customizably managing data in compliance with privacy and security standards
CN108431817A (zh) * 2015-11-29 2018-08-21 阿特瑞斯公司 医学成像和医学成像信息的高效共享
CN109716345A (zh) * 2016-04-29 2019-05-03 普威达有限公司 计算机实现的隐私工程系统和方法
US20190110736A1 (en) * 2017-10-17 2019-04-18 Beneufit, Inc. Measuring body movement in movement disorder disease
TW201941085A (zh) * 2018-03-26 2019-10-16 美商蘋果公司 自然助理互動

Also Published As

Publication number Publication date
US11314797B2 (en) 2022-04-26
US20210149934A1 (en) 2021-05-20
CN112800022A (zh) 2021-05-14
TW202119403A (zh) 2021-05-16

Similar Documents

Publication Publication Date Title
US9904798B2 (en) Focused personal identifying information redaction
TWI728553B (zh) 資料去識別處理裝置及方法
US10657186B2 (en) System and method for automatic document classification and grouping based on document topic
US10699317B2 (en) Computer program, method, and system for matching consumers with service providers
CN104321780A (zh) 用于使用持久信任日志来监测并断言信任等级的设备、系统、和方法
JP5723067B1 (ja) データ分析システム、データ分析方法、および、データ分析プログラム
KR102551343B1 (ko) 전자 장치 및 그 제어 방법
CN101416143A (zh) 基于许可的用户界面变形
EP3798920A1 (en) Method and system for selectively encrypting dataset
TW201820173A (zh) 去識別化資料產生裝置、方法及其電腦程式產品
CA3163408A1 (en) Creating predictor variables for prediction models from unstructured data using natural language processing
TW201734854A (zh) 可追蹤式資料稽核裝置、方法及其電腦程式產品
US20240202344A1 (en) Use of word embeddings to locate sensitive text in computer programming scripts
US20210390001A1 (en) Techniques for transferring data within and between computing environments
CN105354506B (zh) 隐藏文件的方法和装置
JP6124936B2 (ja) データ分析システム、データ分析方法、および、データ分析プログラム
CN107430619A (zh) 用于关联相关数字资产的系统
KR102193571B1 (ko) 전자 장치, 이미지 검색 시스템 및 제어 방법
JP2017045106A (ja) 情報処理装置及び情報処理プログラム
US11354274B1 (en) System and method for performing data minimization without reading data content
WO2021144833A1 (ja) 匿名加工評価システム、匿名加工評価方法および匿名加工評価プログラム
KR102567647B1 (ko) 병원 사이의 환자 전원 관리 서비스 제공 장치 및 방법
CN117155536B (zh) 智能合约的交易管理方法、装置、设备和可读存储介质
KR101281940B1 (ko) 데이터 필터링 방법 및 장치
JP2008282096A (ja) アカウント・パスワード出力装置