KR20190124195A - 개량된 k-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치 - Google Patents

개량된 k-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치 Download PDF

Info

Publication number
KR20190124195A
KR20190124195A KR1020190134678A KR20190134678A KR20190124195A KR 20190124195 A KR20190124195 A KR 20190124195A KR 1020190134678 A KR1020190134678 A KR 1020190134678A KR 20190134678 A KR20190134678 A KR 20190134678A KR 20190124195 A KR20190124195 A KR 20190124195A
Authority
KR
South Korea
Prior art keywords
data set
node
anonymity
record
generalization
Prior art date
Application number
KR1020190134678A
Other languages
English (en)
Inventor
심기창
김동례
Original Assignee
(주)이지서티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)이지서티 filed Critical (주)이지서티
Priority to KR1020190134678A priority Critical patent/KR20190124195A/ko
Publication of KR20190124195A publication Critical patent/KR20190124195A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees

Abstract

본 발명은 개량된 K-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치에 관한 것으로, 본 발명에 따른 방법은 K-익명성 요건에 대응하는 값을 설정받는 단계, 데이터 셋의 준식별자 속성별 범주 계층 트리의 조합으로 이루어진 계층 격자의 제1 노드부터 순차적으로, 상기 계층 격자 각 노드의 일반화 조건에 따라 상기 데이터 셋을 변환하여 상기 K-익명성 요건을 만족하는 레코드 집합이 있으면, 상기 변환된 데이터 셋에서 상기 레코드 집합을 추출 분리하는 단계, 그리고 추출 분리된 레코드 집합을 포함하는 비식별화된 데이터 셋을 생성하는 단계를 포함한다. 본 발명에 의하면, 정보 손실을 최소화면서 K-익명성 요건을 만족하도록 데이터 셋에 대한 비식별화를 수행할 수 있는 장점이 있다. 아울러 K-익명성 요건을 만족하는 레코드 집합부터 분리 추출하여 비식별화 데이터 셋을 생성함으로써 비식별화를 위한 데이터 처리 시간을 단축할 수 있는 장점이 있다.

Description

개량된 K-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치{Improved K-anonymity Model based Dataset De-identification Method and Apparatus}
본 발명은 데이터 셋 비식별화 방법 및 장치에 관한 것으로, 보다 자세하게는 개량된 K-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치에 관한 것이다.
개인정보 비식별화란 빅데이터 활용을 위해 개인정보가 포함된 데이터에서 개인정보의 일부 또는 전부를 삭제하거나 대체함으로써 다른 정보와 쉽게 결합해도 특정인을 식별하기 어렵도록 하는 조치를 의미한다. 예컨대 일반적으로 활용하는 데이터 중에서 이름, 주민등록번호 등과 같이 개인을 직접 식별할 수 있는 데이터를 다른 값으로 처리하는 등의 조치를 하는 것을 개인정보 비식별화라고 한다.
그런데 만약 비식별화 처리를 한 데이터들이 유일한 값을 갖는다면 다른 공개되어 있는 정보 등과 결합하여 해당 데이터에 대한 정보주체가 누구인지 추정하기가 쉬울 수 있다. 이를 다른 공개되어 있는 정보 등과 결합하여 개인을 식별하는 연결공격이라고 한다.
K-익명성이란 공개된 데이터 집합에서 나이, 거주 지역과 같은 준식별자 속성값들이 동일한 레코드가 적어도 k개 존재해야 하는 것으로 정의가 되며, 비식별화된 개인정보의 재식별을 방지하기 위하여 K-익명성이 요구되고 있다.
도 1은 K-익명성 요건을 만족하는 데이터 셋을 예시한 도면이다.
도 1을 참고하면, 레코드(t1, t2), 레코드(t3, t4), 레코드(t5, t6, t7)은 준식별자 속성인 나이, 성별, 우편번호의 속성값이 서로 동일하다. 즉 준식별자 속성값이 동일한 레코드가 적어도 2개 이상 있다. 따라서 K 값이 2인 경우 K-익명성 요건을 만족한다.
일반적으로 기존의 K-익명성 모델을 이용한 데이터 셋 비식별화 방법은 준식별자 속성별 범주 계층 트리의 조합으로 이루어진 계층 격자를 정의하고, 계층 격자의 가장 낮은 노드부터 시작하여 데이터 범주화 수행 및 K-익명성 만족 여부 검사하는 과정을 반복하는 방식으로 데이터 셋 비식별화를 수행하게 된다.
그런데 계층 격자에서 상위 노드로 이동할수록 준식별자 속성값의 일반화, 즉 비식별화 정도가 높아지면서 프라이버시 침해 위험도는 낮아지나, 정보가 손실되면서 데이터의 유용성은 떨어지게 된다.
따라서 본 발명이 해결하고자 하는 기술적 과제는 K-익명성 요건은 만족하되 정보의 손실을 최소화할 수 있는 개량된 K-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치를 제공하는 것이다.
상기한 기술적 과제를 해결하기 위한 본 발명에 따른 개량된 K-익명성 모델 이용 데이터 셋 비식별화 방법은, (a) K-익명성 요건에 대응하는 값을 설정받는 단계, (b) 데이터 셋의 준식별자 속성별 일반화 계층 트리의 조합으로 이루어진 계층 격자의 제1 노드부터 순차적으로, 상기 계층 격자 각 노드의 일반화 조건에 따라 상기 데이터 셋을 변환하여 상기 K-익명성 요건을 만족하는 레코드 집합이 있으면, 상기 변환된 데이터 셋에서 상기 레코드 집합을 추출 분리하는 단계, 그리고 (c) 상기 추출 분리된 레코드 집합을 포함하는 비식별화된 데이터 셋을 생성하는 단계를 포함한다.
상기 (b) 단계는, (b-1) n번째 노드의 일반화 조건에 따라 데이터 셋을 변환하는 단계, (b-2) 상기 n번째 노드의 일반화 조건에 따라 변환된 데이터 셋이 k-익명성 요건을 만족하는지 검사하는 단계, 그리고 (b-3) 상기 n번째 노드의 일반화 조건에 따라 변환된 데이터 셋에서 상기 K-익명성 요건을 만족하는 레코드 집합이 있으면 추출 분리하는 단계를 포함할 수 있다.
상기 방법은, 상기 n번째 노드에서 변환된 데이터 셋이 k-익명성 요건을 만족하면, 상기 (b) 단계를 중단할 수 있다.
상기 비식별화된 데이터 셋은, 상기 제1 노드부터 n-1번째 노드까지 추출된 레코드와 상기 n번째 노드에서 변환된 데이터 셋에 포함된 레코드로 이루어질 수 있다.
상기 방법은, 상기 n번째 노드의 일반화 조건에 따라 변환된 데이터 셋에서 레코드를 추출한 후 남아있는 레코드 수가 미리 정해진 수 미만이면, 상기 (b) 단계를 중단할 수 있다.
상기 비식별화된 데이터 셋은, 상기 제1 노드부터 상기 n번째 노드까지 추출된 레코드로 이루질 수 있다.
상기 (b) 단계를 너비 우선 방식으로 다음 노드를 선정하여 반복 수행할 수 있다.
상기 레코드 집합은 준식별자 속성값들이 동일한 레코드로 이루어진 집합일 수 있다.
상기 방법은, 데이터 셋의 준식별자 속성별 일반화 계층 트리의 조합으로 이루어진 계층 격자를 생성하는 단계를 더 포함할 수 있다.
상기한 기술적 과제를 해결하기 위한 본 발명에 따른 개량된 K-익명성 모델 이용 데이터 셋 비식별화 장치는, K-익명성 요건에 대응하는 값을 설정받는 입력부, 그리고 데이터 셋의 준식별자 속성별 일반화 계층 트리의 조합으로 이루어진 계층 격자의 제1 노드부터 순차적으로, 상기 계층 격자 각 노드의 일반화 조건에 따라 상기 데이터 셋을 변환하여 상기 K-익명성 요건을 만족하는 레코드 집합이 있으면, 상기 변환된 데이터 셋에서 상기 레코드 집합을 추출 분리하고, 상기 추출 분리된 레코드 집합을 포함하는 비식별화된 데이터 셋을 생성하는 데이터 비식별화부를 포함한다.
상기 데이터 비식별화부는, n번째 노드의 일반화 조건에 따라 데이터 셋을 변환하고, 상기 n번째 노드의 일반화 조건에 따라 변환된 데이터 셋이 k-익명성 요건을 만족하는지 검사하며, 상기 n번째 노드의 일반화 조건에 따라 변환된 데이터 셋에서 상기 K-익명성 요건을 만족하는 레코드 집합이 있으면 추출 분리할 수 있다.
상기 데이터 비식별화부는, 상기 n번째 노드에서 변환된 데이터 셋이 k-익명성 요건을 만족하면, 상기 제1 노드부터 n-1번째 노드까지 추출된 레코드와 상기 n번째 노드에서 변환된 데이터 셋에 포함된 레코드로 상기 비식별화된 데이터 셋을 생성할 수 있다.
상기 데이터 비식별화부는, 상기 n번째 노드의 일반화 조건에 따라 변환된 데이터 셋에서 레코드를 추출한 후 남아있는 레코드 수가 미리 정해진 수 미만이면, 상기 제1 노드부터 n번째 노드까지 추출된 레코드로 상기 비식별화된 데이터 셋을 생성할 수 있다.
상기 데이터 비식별화부는, 선정된 노드의 일반화 조건에 따라 데이터 셋을 변환하여 상기 K-익명성 요건을 만족하는 레코드 집합을 추출 분리하는 것을 너비 우선 방식으로 다음 노드를 선정하여 반복 수행할 수 있다.
상기 장치는, 데이터 셋의 준식별자 속성별 일반화 계층 트리의 조합으로 이루어진 계층 격자를 생성하는 계층 격자 생성부를 더 포함할 수 있다.
본 발명에 의하면, 정보 손실을 최소화면서 K-익명성 요건을 만족하도록 데이터 셋에 대한 비식별화를 수행할 수 있는 장점이 있다. 아울러 K-익명성 요건을 만족하는 레코드 집합부터 분리 추출하여 비식별화 데이터 셋을 생성함으로써 비식별화를 위한 데이터 처리 시간을 단축할 수 있는 장점이 있다.
도 1은 K-익명성 요건을 만족하는 데이터 셋을 예시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 개량된 K-익명성 모델 이용 데이터 셋 비식별화 장치의 구성을 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 준식별자 속성별 일반화 계층 트리를 예시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 계층 트리의 조합으로 이루어진 계층 격자를 예시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 개량된 K-익명성 모델 이용 데이터 셋 비식별화 장치의 동작을 설명하기 위해 제공되는 흐름도이다.
도 6은 비식별화 대상 원본 데이터 셋을 예시한 도면이다.
도 7 내지 도 9는 계층 격자의 각 노드의 일반화 조건에 따라 변환된 데이터 셋을 예시한 도면이다.
도 10은 최종적으로 생성된 비식별화 데이터 셋을 예시한 도면이다.
그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
도 2는 본 발명의 일 실시예에 따른 개량된 K-익명성 모델 이용 데이터 셋 비식별화 장치의 구성을 나타낸 블록도이다.
도 2를 참고하면, 본 발명의 일 실시예에 따른 데이터 셋 비식별화 장치(100)는 개량된 K-익명성 모델을 이용하여 데이터 셋을 비식별화하는 기능을 수행한다.
데이터 셋 비식별화 장치(100)는 입력부(110), 데이터베이스(130), 제어부(150), 계층 격자 생성부(170) 및 데이터 비식별화부(190)를 포함할 수 있다.
입력부(110)는 사용자로부터 K-익명성 요건에 대응하는 k 값을 설정받을 수 있다. 또한 실시예에 따라 입력부(110)는 사용자로부터 데이터베이스(130)에 저장된 원본 데이터 셋을 비식별화 할 때 적용하기 위한 준식별자 속성별 범주 계층 트리 데이터를 입력받을 수도 있다. 여기서 준식별자는 우편번호, 나이 등과 같이 개인을 바로 식별할 수 없지만 유추 가능한 수준의 식별자를 의미한다.
도 3은 본 발명의 일 실시예에 따른 준식별자 속성별 일반화 계층 트리를 예시한 도면이다.
도 3에서 '성별'은 레벨 0(S0), 레벨 1(S2)로 계층화되어, 레벨 0(S0)에서는 '남'과 '여'를 구분할 수 있으나, 상위 레벨 1(S2)로 일반화되면 '*'로 마스킹 처리하는 방식으로 일반화 계층 트리가 이루어진 경우를 예시하였다. 그리고 '나이'는 레벨 0(A0), 레벨 1(A2), 레벨 2(A2)로 계층화되어, 레벨 0(A0)에서는 실제 연령, 레벨1(A2)에서는 '20~29', '30~39', '40~49' 등으로 범주화하고, 그 다음 상위 레벨 2(A2)에서는 '*'로 마스킹 처리하는 방식으로 일반화 계층 트리가 이루어진 것을 예시하였다. 마지막으로 '우편번호'는 레벨 0(Z0), 레벨 1(Z1), 레벨 2(Z2), 레벨 3(Z3)로 계층화되어, 레벨 0(Z0)에서는 실제 우편번호, 레벨 1(Z1)에서는 500 단위로, 레벨 2(Z2)에서는 1,000 단위로 범주화를 하고, 마지막 레벨 3(Z3)에서는 '*'로 마스킹 처리하는 방식으로 일반화 계층 트리가 이루어진 것을 예시하였다. 물론 도 3에서 예시한 것보다 준식별자 속성별 일반화 계층 트리 레벨을 덜 세분화되거나 더 세분화되게 하는 것도 가능하다.
데이터베이스(130)는 데이터 셋 비식별화 장치(100)에서 처리 또는 관리하는 데이터를 데이터베이스로 구축하여 저장하는 기능을 수행하며, 이른바 빅데이터라고 칭하는 데이터 집합을 수집, 저장 및 관리하는 기능을 제공할 수 있다. 특히 본 발명에 따른 데이터베이스(130)는 비식별화가 이루어지지 않은 원본 데이터 셋과 비식별화가 이루어진 비식별화 데이터 셋을 저장할 수 있다.
제어부(150)는 데이터 셋 비식별화 장치(100)의 전체적인 동작을 제어한다. 구체적으로 제어부(150)는 입력부(110)를 통해 사용자로부터 설정된 K 값에 따라 데이터 비식별화부(190)에서 개량된 K-익명성 알고리즘을 적용하여 비식별화 대상 데이터 셋에 대한 비식별화를 수행하도록 제어할 수 있다. 또한 제어부(150)는 사용자로부터 설정되거나 입력되는 준식별자 속성별 일반화 계층 트리 데이터를 기초로 계층 격자 생성부(170)에서 계층 격자를 생성하도록 제어할 수도 있다. 물론 실시예에 따라 이미 생성된 계층 격자를 입력부(110)를 통해 입력받아 이용할 수도 있다.
계층 격자 생성부(170)는 데이터 셋의 준식별자 속성별 범주 계층 트리의 조합으로 이루어진 계층 격자를 생성하는 기능을 수행한다.
본 발명에 따른 계층 격자는 준식별자 속성별 일반화 계층 트리 조합의 모든 경우의 수를 표현한 그래프로 정의할 수 있다. 계층 격자의 각 노드는 존재할 수 있는 준식별자 속성별 일반화 계층 트리 노드의 조합을 의미한다.
도 4는 본 발명의 일 실시예에 따른 계층 트리의 조합으로 이루어진 계층 격자를 예시한 도면이다.
도 3에 예시한 '성별', '나이' 및 '우편번호'의 준식별자 속성별 일반화 계층 트리에 대해서 도 4에 예시한 것과 같은 계층 격자를 생성할 수 있다.
도 4에 예시한 계층 격자는 일반화 레벨이 '0'으로 가장 낮은 최하위 노드 <S0, A0, Z0> 가 가장 아래에 위치하고, 일반화 레벨을 '1' 단계씩 높여가면서 일반화 레벨 '6'으로 가장 높은 최상위 노드 <S1, A2, Z3> 를 가장 위에 위치한 형태로 예시하였다.
데이터 비식별화부(190)는 원본 데이터 셋, 즉 비식별화 대상 데이터 셋에 대해서 개량된 K-익명성 알고리즘을 적용하여 비식별화를 수행할 수 있다. 구체적으로 데이터 비식별화부(190)는 계층 격자 각 노드의 일반화 조건에 따라 데이터 셋을 변환하여 K-익명성 요건을 만족하는지 검사하고, K-익명성 요건을 만족하는 레코드 집합이 있으면, 변환된 데이터 셋에서 해당 레코드 집합을 추출 분리하는 과정을 반복한다. 데이터 비식별화부(190)는 K-익명성 요건을 만족하여 추출 분리된 레코드 집합을 이용하여 비식별화된 데이터 셋을 생성할 수 있다.
도 5는 본 발명의 일 실시예에 따른 개량된 K-익명성 모델 이용 데이터 셋 비식별화 장치의 동작을 설명하기 위해 제공되는 흐름도이다.
도 5를 참고하면, 먼저 계층 격자 생성부(170)는 데이터 셋의 준식별자 속성별 범주 계층 트리의 조합으로 이루어진 계층 격자를 생성할 수 있다(S510). 단계(S510)는 데이터 셋 비식별화 장치(100)에서 수행될 수 있으나, 실시예에 따라서 사용자에 의해 미리 준비되어 데이터 셋 비식별화 장치(100)에 입력되는 것도 가능하다.
다음으로 입력부(110)는 사용자로부터 K-익명성 요건에 대응하는 K 값을 설정받을 수 있다(S520).
데이터 비식별화부(190)는 계층 격자의 n 번째 노드의 일반화 조건에 따라 데이터 변환을 수행하고(S540), 단계(S540)에서 변환된 데이터 셋이 K-익명성 요건을 만족하는지 검사한다(S550). 그리고 변환된 데이터 셋이 K-익명성 요건을 만족하지 않으면(S550-N), 변환된 데이터 셋에 K-익명성 요건을 만족하는 레코드 집합이 있는지 확인한다(S560). 그리고 변환된 데이터 셋에 K-익명성 요건을 만족하는 레코드 집합이 있으면(S560-Y), 변환된 데이터 셋으로부터 K-익명성 요건을 만족하는 레코드 집합을 추출 분리해낸다(S570).
한편 변환된 데이터 셋에 K-익명성 요건을 만족하는 레코드 집합이 없거나(S560-N), K-익명성 요건을 만족하는 레코드 집합이 추출 분리된 데이터 셋에 남아 있는 레코드 수가 K 값보다 크면(S580-N), 계층 격자의 n+1 번째 노드에 대해서 단계(S540) 내지 단계(S580)을 반복한다.
위와 같은 과정을 반복하다가 데이터 셋에 남은 레코드 수가 K 값보다 작으면(S580-Y), 단계(S590)로 진행하여 그 때까지 추출 분리된 레코드 집합을 포함하는 비식별화 데이터 셋을 생성할 수 있다(S590).
한편 n번째 노드 일반화 조건에 따라 변환된 데이터 셋이 K-익명성 요건을 만족하면(S550-Y), 단계(S590)로 진행하여 그때까지 제1 노드부터 n-1번째 노드까지 추출 분리된 레코와 n번째 노드 일반화 조건에 따라 변환된 데이터 셋에 포함된 레코드로 비식별화 데이터 셋을 생성할 수도 있다(S590).
그러면 도 6에 예시된 원본 데이터 셋에 대해서 K 값을 2로 설정하고 개량된 K-익명성 알고리즘을 적용하여 비식별화 데이터 셋이 생성되는 과정을 설명한다.
도 6은 비식별화 대상 원본 데이터 셋을 예시한 도면이고, 도 7 내지 도 9는 계층 격자의 각 노드의 일반화 조건에 따라 변환된 데이터 셋을 예시한 도면이며, 도 10은 최종적으로 생성된 비식별화 데이터 셋을 예시한 도면이다.
다시 도 5를 참고하면, 먼저 n = 1인 상태에서(S530), 계층 격자의 최하위 노드인 1번째 노드 <S0, A0, Z0> 의 일반화 조건은 원본 데이터의 준식별자 속성값을 그대로 유지하는 것이므로 도 6에 나타낸 원본 데이터 셋의 준식별자 속성값이 데이터 변환 없이 그대로 유지된다. 즉 1번째 노드에 대해서는 단계(S540)를 생략할 수 있다.
도 6에 예시한 원본 데이터 셋은 K-익명성 요건을 만족하고 있지 않고(S550-N), K-익명성 요건을 만족하는 레코드 집합도 없으므로(S560-N), N을 2로 변경한다(S565).
1번째 노드 <S0, A0, Z0> 다음으로 너비 우선 원칙에 따라 <S0, A0, Z1>, <S0, A1, Z0>, <S1, A0, Z0> 중 하나가 2번째 노드로 선택될 수 있다. <S0, A0, Z1>, <S0, A1, Z0>, <S1, A0, Z0> 중 어느 노드가 선택될지는 실시예에 따라 다르게 정해질 수 있으나, 노드 <S0, A1, Z0>가 2번째 노드인 것으로 가정하고 설명한다.
도 6의 원본 데이터 셋에 대해서 노드 <S0, A1, Z0>의 일반화 조건을 적용하여 데이터 변환을 하면, 도 7에 예시한 것과 같이 준식별자 속성값이 변환될 수 있다.
도 7에 예시된 데이터 셋은 전체적으로는 K-익명성 요건을 만족하지 않는다(S550-N). 그러나 3개의 레코드(1, 4, 8)은 준식별자 속성값이 '남', '20~30', '13053'으로 동일하다. 즉 3개의 레코드(1, 4, 8)로 이루어진 제1 레코드 집합은 K 값이 2인 경우, K-익명성 요건을 만족한다(S560-Y). 따라서 데이터 비식별화부(190)는 도 7의 데이터 셋에서 3개의 레코드(1, 4, 8)로 이루어진 제1 레코드 집합을 추출 분리할 수 있다(S570). 다음으로 데이터 비식별화부(190)는 데이터 셋에서 3개의 레코드(1, 4, 8)를 분리한 후 남아있는 레코드 수가 7개로 K 값(2)보다 크므로(S580-N), n을 1 증가시키고 너비 우선 방식으로 다음 노드를 선정한다(S565).
3개의 레코드(1, 4, 8)가 추출 분리된 데이터 셋에 대해서, 노드 <S1, A1, Z1>의 일반화 조건을 적용하여 데이터 변환을 하면, 도 8에 예시한 것과 같이 준식별자 속성값이 변환될 수 있다.
도 8에 예시된 데이터 셋은 전체적으로는 K-익명성 요건을 만족하지 않는다(S550-N). 그러나 4개의 레코드(2, 3, 9, 10)는 준식별자 속성값이 '*', '41-50', '14000~14500'으로 동일하다. 그리고 2개의 레코드(6, 7)는 속성값이 '*', '41-50', '14500~15000'으로 동일하다. 즉 4개의 레코드(2, 3, 9, 10)로 이루어진 제2 레코드 집합과 2개의 레코드(6, 7)로 이루어진 제3 레코드 집합은 K 값이 2인 경우, K-익명성 요건을 만족한다(S560-Y). 따라서 데이터 비식별화부(190)는 도 8의 데이터 셋에서 제2 레코드 집합에 속하는 레코드(2, 3, 9, 10)와 제3 레코드 집합에 속하는 레코드(6, 7)를 추출 분리할 수 있다(S570).
한편 데이터 비식별화부(190)는 도 8에 예시된 데이터 셋에서 제2 레코드 집합과 제3 레코드 집합을 분리하면 도 9에 예시한 것과 같이 데이터 셋에 남아있는 레코드 수가 1개로 K 값(2)보다 작아진다(S580-Y). 따라서 데이터 비식별화부(190)는 도 9에 예시한 레코드는 삭제하고, 그때까지 추출 분리된 제1 레코드 집합, 제2 레코드 집합 및 제3 레코드 집합에 속하는 레코드로 도 10에 예시한 것과 같이 비식별화된 데이터 셋을 생성할 수 있다(S590).
도 10을 참고하면, 비식별화 된 데이터 셋은 준식별자 속성값들이 동일한 레코드가 적어도 2개 이상씩 있으므로 K-익명성 요건을 만족한다. 그리고 레코드(1, 4, 8)은 성별 속성값은 손실되지 않고 남아 있으므로, 기존에 K-익명성 알고리즘에 의해 비식별화를 할 때보다는 데이터 손실이 적게 되는 것을 확인할 수 있다.
본 발명의 실시예는 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터로 읽을 수 있는 매체를 포함한다. 이 매체는 앞서 설명한 방법을 실행시키기 위한 프로그램을 기록한다. 이 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이러한 매체의 예에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 자기 매체, CD 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 자기-광 매체, 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 구성된 하드웨어 장치 등이 있다. 또는 이러한 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
100: 데이터 셋 비식별화 장치
110: 입력부
130: 데이터베이스
150: 제어부
170: 계층 격자 생성부
190: 데이터 비식별화부

Claims (6)

  1. (a) K-익명성 요건에 대응하는 값을 설정받는 단계,
    (b) 데이터 셋의 준식별자 속성별 범주 계층 트리의 조합으로 이루어진 계층 격자의 일반화 레벨이 가장 낮은 제1 노드부터 순차적으로 일반화 레벨을 높여가면서, 상기 계층 격자 각 노드의 일반화 조건에 따라 상기 데이터 셋을 변환하여 상기 K-익명성 요건을 만족하는 레코드 집합이 있으면, 상기 변환된 데이터 셋에서 상기 레코드 집합을 추출 분리하는 것을 미리 정해진 조건을 만족할 때까지 반복하는 단계, 그리고
    (c) 상기 추출 분리된 레코드 집합을 포함하는 비식별화된 데이터 셋을 생성하는 단계를 포함하고,
    상기 (b) 단계는,
    (b-1) n번째 노드의 일반화 조건에 따라 데이터 셋을 변환하는 단계,
    (b-2) 상기 n번째 노드의 일반화 조건에 따라 변환된 데이터 셋이 k-익명성 요건을 만족하는지 검사하는 단계, 그리고
    (b-3) 상기 n번째 노드의 일반화 조건에 따라 변환된 데이터 셋에서 상기 K-익명성 요건을 만족하는 레코드 집합이 있으면 추출 분리하는 단계
    를 포함하는 개량된 K-익명성 모델 이용 데이터 셋 비식별화 방법.
  2. 제 1 항에서,
    상기 n번째 노드에서 변환된 데이터 셋이 k-익명성 요건을 만족하면, 상기 (b) 단계를 중단하고,
    상기 비식별화된 데이터 셋은,
    상기 제1 노드부터 n-1번째 노드까지 추출된 레코드와 상기 n번째 노드에서 변환된 데이터 셋에 포함된 레코드로 이루어지는 개량된 K-익명성 모델 이용 데이터 셋 비식별화 방법.
  3. 제 2 항에서
    상기 n번째 노드의 일반화 조건에 따라 변환된 데이터 셋에서 레코드를 추출한 후 남아있는 레코드 수가 미리 정해진 수 미만이면, 상기 (b) 단계를 중단하고,
    상기 비식별화된 데이터 셋은,
    상기 제1 노드부터 상기 n번째 노드까지 추출된 레코드로 이루어지는 개량된 K-익명성 모델 이용 데이터 셋 비식별화 방법.
  4. 제 3 항에서,
    상기 (b) 단계를 너비 우선 방식으로 다음 노드를 선정하여 반복 수행하는 개량된 K-익명성 모델 이용 데이터 셋 비식별화 방법.
  5. 제 1 항에서,
    상기 레코드 집합은 준식별자 속성값들이 동일한 레코드로 이루어진 집합인 개량된 K-익명성 모델 이용 데이터 셋 비식별화 방법.
  6. 제 1 항에서,
    데이터 셋의 준식별자 속성별 범주 계층 트리의 조합으로 이루어진 계층 격자를 생성하는 단계
    를 더 포함하는 개량된 K-익명성 모델 이용 데이터 셋 비식별화 방법.
KR1020190134678A 2019-10-28 2019-10-28 개량된 k-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치 KR20190124195A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190134678A KR20190124195A (ko) 2019-10-28 2019-10-28 개량된 k-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190134678A KR20190124195A (ko) 2019-10-28 2019-10-28 개량된 k-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020170054395A Division KR20180120443A (ko) 2017-04-27 2017-04-27 개량된 k-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20190124195A true KR20190124195A (ko) 2019-11-04

Family

ID=68578416

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190134678A KR20190124195A (ko) 2019-10-28 2019-10-28 개량된 k-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20190124195A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102253953B1 (ko) 2020-06-11 2021-05-20 제주대학교 산학협력단 K-익명성 모델 및 데이터 교란화를 이용한 위치추적정보 보안 기법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102253953B1 (ko) 2020-06-11 2021-05-20 제주대학교 산학협력단 K-익명성 모델 및 데이터 교란화를 이용한 위치추적정보 보안 기법 및 장치

Similar Documents

Publication Publication Date Title
EP2573699B1 (en) Identity information de-identification device
Zerhari et al. Big data clustering: Algorithms and challenges
US10515111B2 (en) Object stamping user interface
US10158641B2 (en) System and method for evaluating a reverse query
US8862638B2 (en) Interpolation data template to normalize analytic runs
WO2019226794A1 (en) Hybrid role and attribute based access control system
US9509722B2 (en) Provisioning access control using SDDL on the basis of an XACML policy
Lee Computer-assisted appraisal and selection of archival materials
EP2921986B1 (en) A system and method for evaluating a reverse query
US20150058363A1 (en) Cloud-based enterprise content management system
CN104036039B (zh) 一种数据的并行处理方法和系统
KR20190124195A (ko) 개량된 k-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치
US9984107B2 (en) Database joins using uncertain criteria
US11200267B2 (en) Mail room intent analyzer
US11720600B1 (en) Methods and apparatus for machine learning to produce improved data structures and classification within a database
JP5684165B2 (ja) 個人情報匿名化装置および方法
Cheung et al. Provenance explorer–customized provenance views using semantic inferencing
KR20180120443A (ko) 개량된 k-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치
US11681868B2 (en) Augmented natural language generation platform
KR101826921B1 (ko) 기술정의문 생성장치 및 그 동작 방법
KR102593907B1 (ko) 의미역 결정 기반 신경망 연산 방법 및 장치
Samydurai et al. An Enhanced Entity Model for Converting Relational to Non-Relational Documents in Hospital Management System Based on Cloud Computing
KR20190109664A (ko) 빅 데이터 비식별화 처리 시스템 및 방법
KR102028487B1 (ko) 문서의 토픽 모델링 장치 및 방법, 이를 기록한 기록매체
Alzahrani Big Data Analytics Tools: Twitter API and Spark

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application