KR102097857B1

KR102097857B1 - 프라이버시 보호를 위한 데이터의 비식별화 방법 및 장치

Info

Publication number: KR102097857B1
Application number: KR1020170180905A
Authority: KR
Inventors: 박세경; 정광용; 김남식; 천태진
Original assignee: 펜타시스템테크놀러지 주식회사
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2020-04-06
Also published as: KR20190079017A

Abstract

프라이버시 보호를 위한 데이터의 비식별화 방법 및 장치가 개시된다. 데이터의 비식별화 방법은, 원시 데이터베이스에 포함된 레코드들의 속성을 설정하는 단계, 상기 데이터의 비식별화를 위해 사용되는 파라미터에 기초하여 프라이버시 보호 모델을 설정하는 단계, 상기 원시 데이터베이스 중에서 상기 속성이 QI로 설정된 항목(이하, "QI 항목"이라 함)들에 대한 일반화 레벨에 따른 일반화된 데이터를 지시하는 룩업 테이블을 설정하는 단계, 상기 원시 데이터베이스가 상기 프라이버시 보호 모델을 충족하지 않는 경우, 상기 QI 항목들 중에서 가장 많은 서로 다른 데이터를 가지는 QI 항목에 대한 일반화 레벨을 증가시키는 단계, 및 일반화 레벨이 증가된 QI 항목을 포함하는 제1 일반화된 데이터베이스가 상기 프라이버시 보호 모델을 충족하는지 여부를 판단하는 단계를 포함한다. 또한, 1차로 최종 일반화 레벨 전까지 QI 항목의 일반화 레벨을 증가시킴으로써 프라이버시 보호 모델의 충족 여부를 판단하고, 프라이버시 보호 모델을 충족하지 않는 경우에 2차로 가장 많은 인스턴스를 가지는 QI 항목부터 서프레션을 수행함으로써 프라이버시 보호 모델의 충족 여부를 판단하는 동작이 반복 수행될 수 있다.

Description

프라이버시 보호를 위한 데이터의 비식별화 방법 및 장치{METHOD FOR DE-IDENTIFICATION OF DATA FOR PROTECTING PRIVACY AND APPARATUS FOR THE SAME}

본 발명은 데이터의 비식별화 기술에 관한 것으로, 더욱 상세하게는 데이터 손실을 최소화하기 위한 비식별화 기술에 관한 것이다.

정보통신기술(예를 들어, 빅데이터 관련 기술)이 발전함에 따라 개인정보를 수집하는 기술, 수집된 개인정보를 분석하는 기술 등이 발전하고 있다. 개인정보는 주민번호, 주소, 우편번호, 이름, 생일, 성별, 질병, 연봉 등을 포함할 수 있다. 이와 같이, 빅데이터 관련 기술이 발전함에 따라 개인정보는 다양한 분야에서 사용될 수 있다. 예를 들어, 기업은 개인정보에 기초하여 특정 소비자에게 자신의 상품, 서비스 등을 광고할 수 있고, 이에 따라 소비자는 자신이 원하는 상품, 서비스에 대한 정보를 기업으로부터 용이하게 획득할 수 있다.

그러나 개인정보가 무분별하게 사용됨으로써 정보주체인 개인의 기본권이 침해될 수 있다. 이러한 문제를 해소하기 위해 개인정보의 비식별화 기술이 고려될 수 있다. 비식별화 기술은 개인정보의 일부 또는 전부를 삭제하거나 대체(예를 들어, 개인정보를 지시하는 데이터에 대한 일반화 수행)함으로써 다른 정보와 결합하여도 특정 개인을 식별할 수 없도록 하는 것을 의미한다.

개인정보에 대한 비식별화가 수행되는 경우, 일반화 레벨(level)의 증가에 따라 데이터의 손실율이 증가할 수 있다. 특히, 프라이버시 보호 모델(예를 들어, k-익명성(anonymity), l-다양성(diversity), t-근접성(closeness))을 만족시키기 위해 일반화 레벨이 증가할 수 있고, 이 경우 QI(quasi-identifier)의 컬럼(column) 전체가 서프레션(suppression)될 수 있다. 따라서 데이터의 손실율이 더욱 증가할 수 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 데이터 손실율을 최소화하기 위한 비식별화 방법 및 장치를 제공하는 데 있다.

상기 목적을 달성하기 위한 본 발명의 제1 실시예에 따른 비식별화 장치에서 수행되는 데이터의 비식별화 방법은, 원시 데이터베이스에 포함된 레코드들의 속성을 설정하는 단계, 상기 데이터의 비식별화를 위해 사용되는 파라미터에 기초하여 프라이버시 보호 모델을 설정하는 단계, 상기 원시 데이터베이스 중에서 상기 속성이 QI로 설정된 항목(이하, "QI 항목"이라 함)들에 대한 일반화 레벨에 따른 일반화된 데이터를 지시하는 룩업 테이블을 설정하는 단계, 상기 원시 데이터베이스가 상기 프라이버시 보호 모델을 충족하지 않는 경우, 상기 QI 항목들 중에서 가장 많은 서로 다른 데이터를 가지는 QI 항목에 대한 일반화 레벨을 증가시키는 단계, 및 일반화 레벨이 증가된 QI 항목을 포함하는 제1 일반화된 데이터베이스가 상기 프라이버시 보호 모델을 충족하는지 여부를 판단하는 단계를 포함한다.

여기서, 상기 QI 항목에 대한 일반화 레벨을 증가시키는 단계는 상기 원시 데이터베이스에 포함된 상기 레코드들 중에서 상기 프라이버시 보호 모델을 충족하지 않는 레코드의 개수가 미리 정의된 미충족 허용 건수를 초과하는 경우에 수행될 수 있다.

여기서, 상기 QI 항목에 대한 일반화 레벨을 증가시키는 단계는 상기 QI 항목의 레코드에 기록된 모든 데이터가 서프레션되는 최종 일반화 레벨 전까지 수행될 수 있다.

여기서, 상기 데이터의 비식별화 방법은 상기 제1 일반화된 데이터베이스가 상기 프라이버시 보호 모델을 충족하지 않는 경우, 상기 제1 일반화된 데이터베이스에 포함된 QI 항목들 중에서 가장 많은 서로 다른 데이터를 가지는 QI 항목에 대한 일반화 레벨을 증가시키는 단계, 및 일반화 레벨이 증가된 QI 항목을 포함하는 제2 일반화된 데이터베이스가 상기 프라이버시 보호 모델을 충족하는지 여부를 판단하는 단계를 더 포함할 수 있다.

여기서, 상기 데이터의 비식별화 방법은 상기 제1 일반화된 데이터베이스가 상기 프라이버시 보호 모델을 충족하지 않고, 상기 제1 일반화된 데이터베이스에 포함된 QI 항목들에 대한 일반화 레벨을 증가시키는 것이 불가능한 경우, 상기 제1 일반화된 데이터베이스에 포함된 QI 항목들 중에서 가장 많은 서로 다른 데이터를 가지는 QI 항목의 레코드들 중에서 상기 프라이버시 보호 모델을 충족하지 않는 레코드에 기록된 모든 데이터에 대한 서프레션을 수행하는 단계, 및 상기 프라이버시 보호 모델을 충족하지 않는 레코드에 기록된 모든 데이터에 대한 서프레션이 적용된 QI 항목을 포함하는 제2 일반화된 데이터베이스가 상기 프라이버시 보호 모델을 충족하는지 여부를 판단하는 단계를 더 포함할 수 있다.

여기서, 상기 레코드들의 속성은 ID, QI, SA 또는 IA로 설정될 수 있다.

여기서, 상기 파라미터는 k-익명성, l-다양성 및 t-근접성 중에서 적어도 하나일 수 있다.

상기 목적을 달성하기 위한 본 발명의 제2 실시예에 따른 데이터의 비식별화 방법을 수행하는 비식별화 장치는, 프로세서 및 상기 프로세서에 의해 실행되는 적어도 하나의 명령을 포함하는 메모리를 포함하고, 상기 적어도 하나의 명령은 원시 데이터베이스에 포함된 레코드들의 속성을 설정하고, 상기 데이터의 비식별화를 위해 사용되는 파라미터에 기초하여 프라이버시 보호 모델을 설정하고, 상기 원시 데이터베이스 중에서 상기 속성이 QI로 설정된 항목(이하, "QI 항목"이라 함)들에 대한 일반화 레벨에 따른 일반화된 데이터를 지시하는 룩업 테이블을 설정하고, 상기 원시 데이터베이스가 상기 프라이버시 보호 모델을 충족하지 않는 경우, 상기 QI 항목들 중에서 가장 많은 서로 다른 데이터를 가지는 QI 항목에 대한 일반화 레벨을 증가시키고, 그리고 일반화 레벨이 증가된 QI 항목을 포함하는 제1 일반화된 데이터베이스가 상기 프라이버시 보호 모델을 충족하는지 여부를 판단하도록 실행된다.

여기서, 상기 QI 항목에 대한 일반화 레벨은 상기 원시 데이터베이스에 포함된 상기 레코드들 중에서 상기 프라이버시 보호 모델을 충족하지 않는 레코드의 개수가 미리 정의된 미충족 허용 건수를 초과하는 경우에 증가될 수 있다.

여기서, 상기 QI 항목에 대한 일반화 레벨은 상기 QI 항목의 레코드에 기록된 모든 데이터가 서프레션되는 최종 일반화 레벨 전까지 증가될 수 있다.

여기서, 상기 적어도 하나의 명령은 상기 제1 일반화된 데이터베이스가 상기 프라이버시 보호 모델을 충족하지 않는 경우, 상기 제1 일반화된 데이터베이스에 포함된 QI 항목들 중에서 가장 많은 서로 다른 데이터를 가지는 QI 항목에 대한 일반화 레벨을 증가시키고, 그리고 일반화 레벨이 증가된 QI 항목을 포함하는 제2 일반화된 데이터베이스가 상기 프라이버시 보호 모델을 충족하는지 여부를 판단하도록 더 실행될 수 있다.

여기서, 상기 적어도 하나의 명령은 상기 제1 일반화된 데이터베이스가 상기 프라이버시 보호 모델을 충족하지 않고, 상기 제1 일반화된 데이터베이스에 포함된 QI 항목들에 대한 일반화 레벨을 증가시키는 것이 불가능한 경우, 상기 제1 일반화된 데이터베이스에 포함된 QI 항목들 중에서 가장 많은 서로 다른 데이터를 가지는 QI 항목의 레코드들 중에서 상기 프라이버시 보호 모델을 충족하지 않는 레코드에 기록된 해당 QI 항목에 대한 서프레션을 수행하고, 그리고 상기 프라이버시 보호 모델을 충족하지 않는 레코드에 기록된 해당 QI 항목에 대한 서프레션이 적용된 QI 항목을 포함하는 제2 일반화된 데이터베이스가 상기 프라이버시 보호 모델을 충족하는지 여부를 판단하도록 더 실행될 수 있다.

본 발명에 의하면, 일반화 절차는 데이터베이스(database)에 속한 QI(quasi-identifier)들 각각의 일반화 레벨들(generation level) 중에서 최종 일반화 레벨 전까지 수행될 수 있고, 이에 따라 데이터베이스 내에서 QI의 컬럼 전체가 서프레션(suppression)되는 것이 방지될 수 있으므로, 데이터의 손실율은 감소할 수 있다.

또한, 데이터베이스에 포함된 QI의 개수에 관계없이 본 발명이 적용될 수 있으므로, 개인정보의 비식별화 성능은 향상될 수 있다.

또한, 본 발명은 적은 개수의 탐색 노드에 기초하여 수행되므로, 대용량 데이터의 처리 시간이 감소할 수 있다. 본 발명은 SQL(structured query language)을 기반으로 수행되므로, 사용자 관점에서 관리가 용이할 수 있다.

도 1은 본 발명에 따른 방법들을 수행하는 비식별화 장치의 제1 실시예를 도시한 블록도이다.
도 2는 데이터의 비식별화 방법에 대한 제1 실시예를 도시한 흐름도이다.
도 3은 데이터베이스의 제1 실시예를 도시한 개념도이다.
도 4는 데이터베이스의 항목-속성 설정 관계의 제1 실시예를 도시한 개념도이다.
도 5는 k-익명성에 기초한 데이터베이스의 제1 실시예를 도시한 개념도이다.
도 6은 k-익명성 및 l-다양성에 기초한 데이터베이스의 제1 실시예를 도시한 개념도이다.
도 7은 데이터베이스에서 성별 항목의 룩업 테이블의 제1 실시예를 도시한 개념도이다.
도 8은 데이터베이스에서 나이 항목의 룩업 테이블의 제1 실시예를 도시한 개념도이다.
도 9는 데이터베이스에서 학력 항목의 룩업 테이블의 제1 실시예를 도시한 개념도이다.
도 10은 데이터베이스에서 국적 항목의 룩업 테이블의 제1 실시예를 도시한 개념도이다.
도 11은 종래 비식별화 결과와 본 발명에 따른 비식별화 결과를 도시한 개념도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명에 따른 방법들을 수행하는 비식별화 장치의 제1 실시예를 도시한 블록도이다.

도 1을 참조하면, 비식별화 장치(100)는 적어도 하나의 프로세서(110) 및 메모리(120)를 포함할 수 있다. 또한, 비식별화 장치(100)는 네트워크와 연결되어 통신을 수행하는 네트워크 인터페이스 장치(130), 입력 인터페이스 장치(140), 출력 인터페이스 장치(150), 저장 장치(160) 등을 더 포함할 수 있다. 비식별화 장치(100)에 포함된 각각의 구성 요소들은 버스(bus)(170)에 의해 연결되어 서로 통신을 수행할 수 있다.

프로세서(110)는 메모리(120) 및/또는 저장 장치(160)에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(110)는 중앙 처리 장치(central processing unit; CPU), 그래픽 처리 장치(graphics processing unit; GPU) 또는 본 발명에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 메모리(120)와 저장 장치(160)는 휘발성 저장 매체 및/또는 비휘발성 저장 매체로 구성될 수 있다. 예를 들어, 메모리(120)는 읽기 전용 메모리(read only memory; ROM) 및/또는 랜덤 액세스 메모리(random access memory; RAM)로 구성될 수 있다.

여기서, 비식별화 장치(100)는 기업의 업무처리용 서버(server), 데스크탑 컴퓨터(desktop computer), 랩탑 컴퓨터(laptop computer), 태블릿(tablet) PC 등을 일 수 있다.

한편, 비식별화 장치(100)에서 수행되는 방법(예를 들어, 신호의 전송 또는 수신)이 설명되는 경우에도 이에 대응하는 다른 장치는 비식별화 장치(100)에서 수행되는 방법과 상응하는 방법(예를 들어, 신호의 수신 또는 전송)을 수행할 수 있다. 즉, 비식별화 장치(100)의 동작이 설명된 경우에 이에 대응하는 다른 장치는 비식별화 장치(100)의 동작과 상응하는 동작을 수행할 수 있다. 반대로, 다른 장치의 동작이 설명된 경우에 이에 대응하는 비식별화 장치(100)는 다른 장치의 동작과 상응하는 동작을 수행할 수 있다.

도 2는 데이터의 비식별화 방법에 대한 제1 실시예를 도시한 흐름도이다.

도 2를 참조하면, 개인정보 비식별화 방법은 도 1을 참조하여 설명된 비식별화 장치(100)(예를 들어, 비식별화 장치(100)에 포함된 프로세서(110))에 의해 수행될 수 있다. 비식별화 장치(100)는 데이터베이스에 포함된 항목들의 속성을 설정할 수 있다(단계 S200). 데이터베이스는 아래와 같이 설정될 수 있다.

도 3은 데이터베이스의 제1 실시예를 도시한 개념도이다.

도 3을 참조하면, 데이터베이스의 항목(예를 들어, 컬럼(column))은 이름, 성별, 학력, 국적, 나이, 질병, 우편번호 등을 지시할 수 있다. 항목에 대응하는 데이터는 레코드(record)에 기록될 수 있다. 항목들 각각의 레코드의 개수는 5692일 수 있다. 항목들의 속성은 ID(identifier), QI(quasi-identifier), SA(sensitive attribute), IA(insensitive attribute)(또는, NSA(non-SA)) 등으로 분류될 수 있다.

ID는 특정 개인이 명시적(explicit)으로 식별되는 개인정보를 지시할 수 있다. 특정 개인은 ID로 설정된 하나의 개인정보만으로 식별될 수 있다. 예를 들어, 주민번호, 이름 등이 기록된 레코드(즉, 항목)의 속성은 ID로 설정될 수 있다. QI는 특정 개인이 묵시적(non-explicit)으로 식별되는 개인정보를 지시할 수 있다. 특정 개인은 QI로 설정된 하나의 개인정보만으로 식별될 수 없으나, QI로 설정된 하나의 개인정보와 다른 개인정보의 조합으로 식별될 수 있다. 예를 들어, 성별, 학력, 국적, 나이 등이 기록된 레코드(즉, 항목)의 속성은 QI로 설정될 수 있다.

SA는 보호가 요구되는 민감한 개인정보(예를 들어, 미리 설정된 기준 이상의 민감도를 가지는 개인정보)를 지시할 수 있다. SA로 설정된 개인정보가 공개되는 경우 특정 개인의 신상에 문제가 발생할 수 있다. 예를 들어, 질병 등이 기록된 레코드(즉, 항목)의 속성은 SA로 설정될 수 있다. IA는 민감하지 않은 개인정보를 지시할 수 있다. 또는, IA는 SA보다 낮은 민감도를 가지는 개인정보를 지시할 수 있다. IA로 설정된 개인정보가 공개되는 경우 특정 개인의 신상에 문제가 발생되지 않을 수 있다. 예를 들어, 우편번호 등이 기록된 레코드(즉, 항목)의 속성은 IA로 설정될 수 있다.

도 3의 데이터베이스의 항목들 각각의 속성은 아래와 같이 설정될 수 있다.

도 4는 데이터베이스의 항목-속성 설정 관계의 제1 실시예를 도시한 개념도이다.

도 4를 참조하면, "이름 항목"은 ID로 설정될 수 있고, "성별 항목, 학력 항목, 국적 항목, 나이 항목"은 QI로 설정될 수 있고, "질병 항목"은 SA로 설정될 수 있고, "우변번호 항목"은 IA로 설정될 수 있다.

다시 도 2를 참조하면, 데이터베이스에 포함된 항목들의 속성 설정이 완료된 경우, 비식별화 장치(100)는 데이터베이스를 위한 프라이버시 보호 모델을 설정할 수 있다(단계 S210). 단계 S210에서, 비식별화 장치(100)는 프라이버시 보호 모델을 설정하기 위해 아래 파라미터들(예를 들어, 데이터의 비식별화를 위해 사용되는 파라미터들)을 설정할 수 있다.

▶ k-익명성(anonymity)

▶ l-다양성(diversity)

▶ t-근접성(closeness)

프라이버시 보호 모델은 "k-익명성 + l-다양성"의 조합 또는 "k-익명성 + l-다양성 + t-근접성"의 조합에 기초하여 설정될 수 있다. k-익명성은 데이터베이스 내에서 설정된 EC(equivalence class)의 적어도 하나의 항목(예를 들어, ID, QI, SA, IA)에서 동일한 데이터를 가지는 로우(row)(예를 들어, 레코드)의 최소 개수를 지시할 수 있다. 예를 들어, k-익명성이 3인 경우에 데이터베이스는 아래와 같이 설정될 수 있다.

도 5는 k-익명성에 기초한 데이터베이스의 제1 실시예를 도시한 개념도이다.

도 5를 참조하면, EC들 각각의 항목은 이름, 성별, 학력, 국적, 나이, 질병, 우편번호 등을 포함할 수 있다. EC들 각각에서 학력, 국적, 나이 및 우편번호 레코드는 동일한 데이터를 지시할 수 있다. 예를 들어, EC #1에서 학력 레코드는 "중학교"를 지시할 수 있고, 국적 레코드는 "아시아"를 지시할 수 있고, 나이 레코드는 "[11, 15]"를 지시할 수 있고, 우편번호 레코드는 "13***"을 지시할 수 있다.고, EC #2에서 학력 레코드는 "고등학교"를 지시할 수 있고, 국적 레코드는 "유럽"을 지시할 수 있고, 나이 레코드는 "[16, 20]"을 지시할 수 있고, 우편번호 레코드는 "14***"을 지시할 수 있다.

한편, l-다양성은 EC 내의 SA 항목에서 서로 다른 데이터의 개수를 지시할 수 있다. k-익명성이 3이고, l-다양성이 3인 경우에 데이터베이스는 아래와 같이 설정될 수 있다.

도 6은 k-익명성 및 l-다양성에 기초한 데이터베이스의 제1 실시예를 도시한 개념도이다.

도 6을 참조하면, 데이터베이스의 EC #1에서 질병(즉, SA로 설정된 항목) 레코드는 3개의 서로 다른 질병(즉, 위염, 기관지염, 폐렴)을 지시할 수 있고, EC #2에서 질병 레코드는 3개의 서로 다른 질병(즉, 폐렴, 위염, 기관지염)을 지시할 수 있다.

한편, T-근접성은 데이터베이스 내의 EC들 각각에 속하는 SA 레코드에 의해 지시되는 데이터들 간의 거리일 수 있다. 예를 들어, 데이터베이스의 항목이 SA로 설정된 연봉을 포함하는 경우, 데이터베이스의 EC들 각각에서 연봉 레코드에 의해 지시되는 연봉들 간의 거리(즉, 차이)가 T-근접성 이내가 되도록 데이터베이스가 비식별화될 수 있다.

다시 도 2를 참조하면, 프라이버시 보호 모델의 설정이 완료된 경우, 비식별화 장치(100)는 미충족 허용 건수를 설정할 수 있다(단계 S220). 미충족 허용 건수는 데이터베이스의 QI들의 레코드(또는, 로우) 중에서 프라이버시 보호 모델을 충족하지 않는 것이 허용되는 레코드들(또는, 로우들)의 개수를 지시할 수 있다. 예를 들어, 도 3의 데이터베이스를 위한 미충족 허용 건수는 100개로 설정될 수 있고, 이 경우에 데이터베이스의 비식별화 과정에서 최대 100개의 레코드들이 프라이버시 보호 모델을 충족하지 않는 것이 허용될 수 있다.

미충족 허용 건수의 설정이 완료된 경우, 비식별화 장치는 데이터베이스 내의 QI들 각각에 대한 룩업 테이블(lookup table)을 설정할 수 있다(단계 S230). 룩업 테이블은 QI 레코드에 기록된 데이터의 일반화(generation) 과정에서 일반화 레벨(level)에 따른 일반화된 데이터를 지시할 수 있다. 일반화 레벨의 증가는 데이터 중에서 일반화된 영역(예를 들어, 서프레션(suppression) 됨으로써 "*"로 표기된 영역)이 증가하는 것을 의미할 수 있다. 일반화 레벨 #0에서 데이터는 일반화되지 않은 원시(original) 데이터를 지시할 수 있고, 최종 일반화 레벨에서 모든 데이터는 "*"로 일반화될 수 있다. 예를 들어, 도 3의 데이터베이스에서 성별 항목의 룩업 테이블은 아래와 같이 설정될 수 있다.

도 7은 데이터베이스에서 성별 항목의 룩업 테이블의 제1 실시예를 도시한 개념도이다.

도 7을 참조하면, 일반화 레벨 #0에서 성별 레코드는 "남" 또는 "여"로 기록될 수 있고, 일반화 레벨 #0에서 성별 레코드에 기록된 서로 다른 데이터(이하, "인스턴스(instance)"라 함)의 개수는 2일 수 있다. 일반화 레벨 #1에서 성별 레코드는 "*"로 일반화될 수 있고, 성별 항목의 룩업 테이블에서 일반화 레벨 #1은 최종 일반화 레벨일 수 있다.

한편, 도 3의 데이터베이스에서 나이 항목의 룩업 테이블은 아래와 같이 설정될 수 있다.

도 8은 데이터베이스에서 나이 항목의 룩업 테이블의 제1 실시예를 도시한 개념도이다.

도 8을 참조하면, 일반화 레벨 #0에서 나이 레코드의 인스턴스는 38일 수 있다. 일반화 레벨 #1에서 나이 레코드는 [11, 15], [16, 20], [21, 25], [26, 30], [31, 35], [36, 40], [41, 45], [46, 50] 또는 [51, 55]로 일반화될 수 있고, 일반화 레벨 #1에서 나이 레코드의 인스턴스는 9일 수 있다. 일반화 레벨 #2에서 나이 레코드는 [11, 20], [21, 30], [31, 40], [41, 50] 또는 [51, 60]으로 일반화될 수 있고, 일반화 레벨 #2에서 나이 레코드의 인스턴스는 5일 수 있다. 일반화 레벨 #3에서 나이 레코드는 "*"로 일반화될 수 있고, 나이 항목의 룩업 테이블에서 일반화 레벨 #3은 최종 일반화 레벨일 수 있다.

한편, 도 3의 데이터베이스에서 학력 항목의 룩업 테이블은 아래와 같이 설정될 수 있다.

도 9는 데이터베이스에서 학력 항목의 룩업 테이블의 제1 실시예를 도시한 개념도이다.

도 9를 참조하면, 일반화 레벨 #0에서 학력 레코드의 인스턴스는 16일 수 있다. 일반화 레벨 #1에서 학력 레코드는 "초등학교", "중학교", "고등학교", "대학교" 또는 "대학원"으로 일반화될 수 있고, 일반화 레벨 #1에서 학력 레코드의 인스턴스는 5일 수 있다. 일반화 레벨 #2에서 학력 레코드는 "초등교육", "중등교육" 또는 "고등교육"으로 일반화될 수 있고, 일반화 레벨 #2에서 학력 레코드의 인스턴스는 3일 수 있다. 일반화 레벨 #3에서 학력 레코드는 "*"로 일반화될 수 있고, 학력 항목의 룩업 테이블에서 일반화 레벨 #3은 최종 일반화 레벨일 수 있다.

한편, 도 3의 데이터베이스에서 국적 항목의 룩업 테이블은 아래와 같이 설정될 수 있다.

도 10은 데이터베이스에서 국적 항목의 룩업 테이블의 제1 실시예를 도시한 개념도이다.

도 10을 참조하면, 일반화 레벨 #0에서 국적 레코드의 인스턴스는 40일 수 있다. 일반화 레벨 #1에서 국적 레코드는 "아시아", "아프리카", "오세아니아", "유럽", "북아메리카" 또는 "남아메리카"로 일반화될 수 있고, 일반화 레벨 #1에서 국적 레코드의 인스턴스는 6일 수 있다. 일반화 레벨 #2에서 국적 레코드는 "*"로 일반화될 수 있고, 국적 항목의 룩업 테이블에서 일반화 레벨 #2는 최종 일반화 레벨일 수 있다.

다시 도 2를 참조하면, 데이터베이스에 포함된 QI들의 룩업 테이블의 설정이 완료된 경우, 비식별화 장치(100)는 프라이버시 보호 모델의 충족 여부를 판단할 수 있다(단계 S240). 프라이버시 보호 모델에서 "k-익명성"은 "2"로 설정될 수 있고, "l-다양성"은 "2"로 설정될 수 있다.

먼저, 비식별화 장치(100)는 데이터베이스에 포함된 모든 QI들(예를 들어, 성별, 교육, 국적, 나이)의 일반화 레벨이 0인 경우에 프라이버시 보호 모델의 충족 여부를 판단할 수 있다. 아래 표 1은 데이터베이스에 포함된 모든 QI들의 일반화 레벨이 0인 경우에 "미충족 레코드" 및 "미충족 EC"의 개수를 지시할 수 있다.

표 1의 성별 항목의 값(즉, 2)은 도 7에서 일반화 레벨 0인 경우에 성별 항목의 인스턴스 값을 지시할 수 있고, 표 1의 나이 항목의 값(즉, 38)은 도 8에서 일반화 레벨 0인 경우에 나이 항목의 인스턴스 값을 지시할 수 있고, 표 1의 교육 항목의 값(즉, 16)은 도 9에서 일반화 레벨 0인 경우에 교육 항목의 인스턴스 값을 지시할 수 있고, 표 1의 국적 항목의 값(즉, 40)은 도 10에서 일반화 레벨 0인 경우에 교육 항목의 인스턴스 값을 지시할 수 있다.

미충족 레코드 및 미충족 EC 각각은 프라이버시 보호 모델(예를 들어, "k-익명성 = 2" 및 "l-다양성 = 2")을 충족하지 못하는 레코드의 개수 및 EC의 개수를 지시할 수 있다. 예를 들어, 미충족 레코드는 QI들 중에서 가장 큰 인스턴스 값을 가지는 나이 항목의 전체 레코드들(예를 들어, 도 3에서 5692개) 중에서 프라이버시 보호 모델을 충족하지 못하는 2376개의 레코드들을 지시할 수 있다. 미충족 EC는 QI들 중에서 가장 큰 인스턴스 값을 가지는 나이 항목의 전체 EC들 중에서 프라이버시 보호 모델을 충족하지 못하는 994개의 EC들을 지시할 수 있다.

표 1에 따른 데이터베이스가 프라이버시 보호 모델을 충족하는 경우, 비식별화 장치(100)는 데이터베이스에 대한 비식별화 과정을 종료할 수 있다. 다만, 표 1에서 미충족 레코드가 존재하기 때문에, 비식별화 장치(100)는 표 1에 따른 데이터베이스가 프라이버시 보호 모델을 충족하지 않는 것으로 판단할 수 있다. 이 경우, 비식별화 장치(100)는 단계 S250을 수행할 수 있다.

단계 S250에서 비식별화 장치(100)는 표 1의 미충족 레코드의 개수가 미충족 허용 건수 이내인지를 판단할 수 있다. 표 1의 미충족 레코드의 개수(즉, 2376)는 미충족 허용 건수(즉, 100)를 초과하므로, 비식별화 장치(100)는 단계 S260을 수행할 수 있다. 단계 S260에서 비식별화 장치(100)는 QI의 일반화 레벨을 증가시키는 것이 가능한지를 판단할 수 있다. 여기서, QI의 일반화 레벨은 최종 일반화 레벨 전까지 증가할 수 있다. 표 1의 QI들(예를 들어, 나이, 교육, 국적)의 일반화 레벨의 증가가 가능하므로, 비식별화 장치(100)는 단계 S270을 수행할 수 있다. 성별 항목의 최종 일반화 레벨은 1이고, 성별 항목의 현재 일반화 레벨은 0(즉, 최종 일반화 레벨의 전 레벨)이므로, 성별 항목에 대한 일반화 레벨의 증가는 불가능할 수 있다.

단계 S270에서 비식별화 장치는 표 1의 QI들 중에서 가장 큰 인스턴스 값을 가지는 국적 항목의 일반화 레벨을 증가시킬 수 있다. 일반화 레벨은 1만큼 증가할 수 있으며, 이에 따라 국적 항목의 일반화 레벨은 "0"에서 "1"로 증가할 수 있다. 비식별화 장치(100)는 증가된 일반화 레벨이 적용된 데이터베이스(예를 들어, 일반화된 데이터베이스)에 대한 프라이버시 보호 모델의 충족 여부를 판단할 수 있다(단계 S240). 예를 들어, 비식별화 장치(100)는 증가된 일반화 레벨이 적용된 데이터베이스에 기초하여 아래 표 2를 생성할 수 있고, 표 2에 기초하여 프라이버시 보호 모델의 충족 여부를 판단할 수 있다.

표 2에서 미충족 레코드는 QI들 중에서 가장 큰 인스턴스 값을 가지는 나이 항목의 전체 레코드들(예를 들어, 도 3에서 5692개) 중에서 프라이버시 보호 모델을 충족하지 못하는 2233개의 레코드들을 지시할 수 있다. 표 2에서 미충족 레코드가 존재하기 때문에, 비식별화 장치(100)는 표 2에 따른 데이터베이스가 프라이버시 보호 모델을 충족하지 않는 것으로 판단할 수 있다. 이 경우, 비식별화 장치(100)는 단계 S250을 수행할 수 있다. 단계 S250에서 비식별화 장치(100)는 표 2의 미충족 레코드의 개수가 미충족 허용 건수 이내인지를 판단할 수 있다. 표 2의 미충족 레코드의 개수(즉, 2233)는 미충족 허용 건수(즉, 100)를 초과하므로, 비식별화 장치(100)는 단계 S260을 수행할 수 있다. 단계 S260에서 비식별화 장치(100)는 QI의 일반화 레벨을 증가시키는 것이 가능한지를 판단할 수 있다. 표 2의 QI(예를 들어, 나이, 교육)의 일반화 레벨의 증가가 가능하므로, 비식별화 장치(100)는 단계 S260을 수행할 수 있다. 국적 항목의 최종 일반화 레벨은 2이고, 국적 항목의 현재 일반화 레벨은 1(즉, 최종 일반화 레벨의 전 레벨)이므로, 국적 항목에 대한 일반화 레벨의 증가는 불가능할 수 있다.

단계 S260에서 비식별화 장치는 표 1의 QI들 중에서 가장 큰 인스턴스 값을 가지는 나이 항목의 일반화 레벨을 증가시킬 수 있다. 일반화 레벨은 1만큼 증가할 수 있으며, 이에 따라 나이 항목의 일반화 레벨은 "0"에서 "1"로 증가할 수 있다. 비식별화 장치(100)는 증가된 일반화 레벨이 적용된 데이터베이스(예를 들어, 일반화된 데이터베이스)에 대한 프라이버시 보호 모델의 충족 여부를 판단할 수 있다(단계 S240). 예를 들어, 비식별화 장치(100)는 증가된 일반화 레벨이 적용된 데이터베이스에 기초하여 아래 표 3을 생성할 수 있고, 표 3에 기초하여 프라이버시 보호 모델의 충족 여부를 판단할 수 있다.

표 3에서 미충족 레코드는 QI들 중에서 가장 큰 인스턴스 값을 가지는 교육 항목의 전체 레코드들(예를 들어, 도 3에서 5692개) 중에서 프라이버시 보호 모델을 충족하지 못하는 746개의 레코드들을 지시할 수 있다. 표 3에서 미충족 레코드가 존재하기 때문에, 비식별화 장치(100)는 표 3에 따른 데이터베이스가 프라이버시 보호 모델을 충족하지 않는 것으로 판단할 수 있다. 이 경우, 비식별화 장치(100)는 단계 S250을 수행할 수 있다. 단계 S250에서 비식별화 장치(100)는 표 3의 미충족 레코드의 개수가 미충족 허용 건수 이내인지를 판단할 수 있다. 표 3의 미충족 레코드의 개수(즉, 746)는 미충족 허용 건수(즉, 100)를 초과하므로, 비식별화 장치(100)는 단계 S260을 수행할 수 있다. 단계 S260에서 비식별화 장치(100)는 QI의 일반화 레벨을 증가시키는 것이 가능한지를 판단할 수 있다. 표 3의 QI들(예를 들어, 나이, 교육)의 일반화 레벨의 증가가 가능하므로, 비식별화 장치(100)는 단계 S270을 수행할 수 있다.

단계 S270에서 비식별화 장치는 표 3의 QI들 중에서 가장 큰 인스턴스 값을 가지는 교육 항목의 일반화 레벨을 증가시킬 수 있다. 일반화 레벨은 1만큼 증가할 수 있으며, 이에 따라 교육 항목의 일반화 레벨은 "0"에서 "1"로 증가할 수 있다. 비식별화 장치(100)는 증가된 일반화 레벨이 적용된 데이터베이스(예를 들어, 일반화된 데이터베이스)에 대한 프라이버시 보호 모델의 충족 여부를 판단할 수 있다(단계 S240). 예를 들어, 비식별화 장치(100)는 증가된 일반화 레벨이 적용된 데이터베이스에 기초하여 아래 표 4를 생성할 수 있고, 표 4에 기초하여 프라이버시 보호 모델의 충족 여부를 판단할 수 있다.

표 4에서 미충족 레코드는 QI들 중에서 가장 큰 인스턴스 값을 가지는 나이 항목의 전체 레코드들(예를 들어, 도 3에서 5692개) 중에서 보호 모델을 만족하지 못하는 372개의 레코드들을 지시할 수 있다. 표 4에서 미충족 레코드가 존재하기 때문에, 비식별화 장치(100)는 표 4에 따른 데이터베이스가 프라이버시 보호 모델을 충족하지 않는 것으로 판단할 수 있다. 이 경우, 비식별화 장치(100)는 단계 S250을 수행할 수 있다. 단계 S250에서 비식별화 장치(100)는 표 4의 미충족 레코드의 개수가 미충족 허용 건수 이내인지를 판단할 수 있다. 표 4의 미충족 레코드의 개수(즉, 372)는 미충족 허용 건수(즉, 100)를 초과하므로, 비식별화 장치(100)는 단계 S260을 수행할 수 있다. 단계 S260에서 비식별화 장치(100)는 QI의 일반화 레벨을 증가시키는 것이 가능한지를 판단할 수 있다. 표 4의 QI들(예를 들어, 나이, 교육)의 일반화 레벨의 증가가 가능하므로, 비식별화 장치(100)는 단계 S270을 수행할 수 있다.

단계 S270에서 비식별화 장치는 표 4의 QI들 중에서 가장 큰 인스턴스 값을 가지는 나이 항목의 일반화 레벨을 증가시킬 수 있다. 일반화 레벨은 1만큼 증가할 수 있으며, 이에 따라 나이 항목의 일반화 레벨은 "1"에서 "2"로 증가할 수 있다. 비식별화 장치(100)는 증가된 일반화 레벨이 적용된 데이터베이스(예를 들어, 일반화된 데이터베이스)에 대한 프라이버시 보호 모델의 충족 여부를 판단할 수 있다(단계 S240). 예를 들어, 비식별화 장치(100)는 증가된 일반화 레벨이 적용된 데이터베이스에 기초하여 아래 표 5를 생성할 수 있고, 표 5에 기초하여 프라이버시 보호 모델의 충족 여부를 판단할 수 있다.

표 5에서 미충족 레코드는 QI들 중에서 가장 큰 인스턴스 값을 가지는 국적 항목의 전체 레코드들(예를 들어, 도 3에서 5692개) 중에서 보호 모델을 만족하지 못하는 246개의 레코드들을 지시할 수 있다. 표 5에서 미충족 레코드가 존재하기 때문에, 비식별화 장치(100)는 표 5에 따른 데이터베이스가 프라이버시 보호 모델을 충족하지 않는 것으로 판단할 수 있다. 이 경우, 비식별화 장치(100)는 단계 S250을 수행할 수 있다. 단계 S250에서 비식별화 장치(100)는 표 5의 미충족 레코드의 개수가 미충족 허용 건수 이내인지를 판단할 수 있다. 표 5의 미충족 레코드의 개수(즉, 246)는 미충족 허용 건수(즉, 100)를 초과하므로, 비식별화 장치(100)는 단계 S260을 수행할 수 있다. 단계 S260에서 비식별화 장치(100)는 QI의 일반화 레벨을 증가시키는 것이 가능한지를 판단할 수 있다.

표 5의 QI들 중에서 가장 큰 인스턴스 값을 가지는 QI는 국적 항목이나, 국적 항목의 일반화 레벨(Lev 1)은 최종 일반화 레벨(Lev 2) 전이기 때문에, 비식별화 장치는(100)는 국적 항목의 일반화 레벨의 증가가 불가능한 것으로 판단할 수 있다. 다만, 표 5의 QI들 중에서 교육 항목의 일반화 레벨의 증가가 가능하기 때문에, 비식별화 장치(1000)는 단계 S270에서 교육 항목의 일반화 레벨을 증가시킬 수 있다. 일반화 레벨은 1만큼 증가할 수 있으며, 이에 따라 교육 항목의 일반화 레벨은 "1"에서 "2"로 증가할 수 있다. 비식별화 장치(100)는 증가된 일반화 레벨이 적용된 데이터베이스(예를 들어, 일반화된 데이터베이스)에 대한 프라이버시 보호 모델의 충족 여부를 판단할 수 있다(단계 S240). 예를 들어, 비식별화 장치(100)는 증가된 일반화 레벨이 적용된 데이터베이스에 기초하여 아래 표 6을 생성할 수 있고, 표 6에 기초하여 프라이버시 보호 모델의 충족 여부를 판단할 수 있다.

표 6에서 미충족 레코드는 QI들 중에서 가장 큰 인스턴스 값을 가지는 국적 항목의 전체 레코드들(예를 들어, 도 3에서 5692개) 중에서 프라이버시 보호 모델을 만족하지 못하는 178개의 레코드들을 지시할 수 있다. 표 6에서 미충족 레코드가 존재하기 때문에, 비식별화 장치(100)는 표 6에 따른 데이터베이스가 프라이버시 보호 모델을 충족하지 않는 것으로 판단할 수 있다. 이 경우, 비식별화 장치(100)는 단계 S250을 수행할 수 있다. 단계 S250에서 비식별화 장치(100)는 표 6의 미충족 레코드의 개수가 미충족 허용 건수 이내인지를 판단할 수 있다. 표 6의 미충족 레코드의 개수(즉, 178)는 미충족 허용 건수(즉, 100)를 초과하므로, 비식별화 장치(100)는 단계 S260을 수행할 수 있다. 단계 S260에서 비식별화 장치(100)는 QI의 일반화 레벨을 증가시키는 것이 가능한지를 판단할 수 있다. 표 6의 모든 QI들의 일반화 레벨은 최종 일반화 레벨 전이기 때문에, 비식별화 장치(100)는 일반화 레벨의 증가가 불가능한 것으로 판단할 수 있다. 이 경우, 비식별화 장치는 단계 S280을 수행할 수 있다.

단계 S280에서 비식별화 장치(100)는 표 6의 QI들 중에서 가장 큰 인스턴스 값을 가지는 국적 항목의 전체 레코들 중에서 프라이버시 보호 모델을 충족하지 못하는 178개의 레코드들에 기록된 모든 데이터를 "*"로 서프레션할 수 있다. 비식별화 장치(100)는 단계 S280이 적용된 데이터베이스(예를 들어, 일반화된 데이터베이스)에 기초하여 아래 표 7을 생성할 수 있고, 표 7에 기초하여 프라이버시 보호 모델의 충족 여부를 판단할 수 있다.

표 7에서 미충족 레코드는 QI들 중에서 가장 큰 인스턴스 값을 가지는 나이 항목의 전체 레코드들(예를 들어, 도 3에서 5692개) 중에서 프라이버시 보호 모델을 충족하지 못하는 156개를 지시할 수 있다. 표 7에서 미충족 레코드가 존재하기 때문에, 비식별화 장치(100)는 표 7에 따른 데이터베이스가 프라이버시 보호 모델을 충족하지 않는 것으로 판단할 수 있다. 이 경우, 비식별화 장치(100)는 단계 S250을 수행할 수 있다. 단계 S250에서 비식별화 장치(100)는 표 7의 미충족 레코드의 개수가 미충족 허용 건수 이내인지를 판단할 수 있다. 표 7의 미충족 레코드의 개수(즉, 156)는 미충족 허용 건수(즉, 100)를 초과하므로, 비식별화 장치(100)는 단계 S260을 수행할 수 있다. 단계 S260에서 비식별화 장치(100)는 QI의 일반화 레벨을 증가시키는 것이 가능한지를 판단할 수 있다.

표 7의 모든 QI들의 일반화 레벨은 최종 일반화 레벨 전이기 때문에, 비식별화 장치(100)는 일반화 레벨의 증가가 불가능한 것으로 판단할 수 있다. 이 경우, 비식별화 장치는 단계 S280을 수행할 수 있다. 단계 S280에서 비식별화 장치(100)는 표 7의 QI들 중에서 가장 큰 인스턴스 값을 가지는 나이 항목의 전체 레코들 중에서 프라이버시 보호 모델을 충족하지 못하는 156개의 레코드들에 기록된 모든 데이터를 "*"로 서프레션할 수 있다. 비식별화 장치(100)는 단계 S280이 적용된 데이터베이스(예를 들어, 일반화된 데이터베이스)에 기초하여 아래 표 8을 생성할 수 있고, 표 8에 기초하여 프라이버시 보호 모델의 충족 여부를 판단할 수 있다.

표 8에서 미충족 레코드는 QI들 중에서 가장 큰 인스턴스 값을 가지는 교육 항목의 전체 레코드들(예를 들어, 도 3에서 5692개) 중에서 보호 모델을 만족하지 못하는 5개를 지시할 수 있다. 표 8에서 미충족 레코드가 존재하기 때문에, 비식별화 장치(100)는 표 8에 따른 데이터베이스가 프라이버시 보호 모델을 충족하지 않는 것으로 판단할 수 있다. 이 경우, 비식별화 장치(100)는 단계 S250을 수행할 수 있다. 단계 S250에서 비식별화 장치(100)는 표 8의 미충족 레코드의 개수가 미충족 허용 건수 이내인지를 판단할 수 있다. 표 8의 미충족 레코드의 개수(즉, 5)는 미충족 허용 건수(즉, 100) 이내이므로, 비식별화 장치(100)는 데이터베이스에 대한 비식별화를 종료할 수 있다. 또한, 비식별화 장치(100)는 표 8의 성별 항목 및 교육 항목 각각의 레코드들 중에서 미충족 레코드에 해당하는 5개의 레코드들에 기록된 모든 데이터를 "*"로 서프레션할 수 있다.

앞서 설명된 본 발명의 일 실시예에 의하면, 데이터베이스의 데이터 손실율은 아래 수학식 1에 기초하여 계산될 수 있다. 데이터 손실율은 1.5%일 수 있다.

여기서, "178"은 표 6의 국적 항목의 레코드들 중에서 미충족 레코드에 해당하여 서프레션된 레코드들의 개수를 지시할 수 있고, "156"은 표 7의 나이 항목의 레코드 중에서 미충족 레코드에 해당하여 서프레션된 레코드들의 개수를 지시할 수 있고, "5"는 표 8의 성별 항목 및 교육 항목 각각의 레코드 중에서 미충족 레코드에 해당하여 서프레션된 레코드들의 개수를 지시할 수 있고, "5692"는 QI들(예를 들어, 성별, 나이, 교육, 국적) 각각의 전체 레코드들의 개수를 지시할 수 있다.

도 11은 종래 비식별화 결과와 본 발명에 따른 비식별화 결과를 도시한 개념도이다.

도 11을 참조하면, 종래 비식별화 결과에서 QI #3 항목이 최종 일반화 레벨까지 일반화됨으로써 QI #3 항목의 전체 컬럼(예를 들어, 5692개의 레코드들에 기록된 데이터)이 서프레션될 수 있다. 반면, 본 발명에 따른 비식별화 결과에서 QI #3 항목은 최종 일반화 레벨 전까지 일반화(예를 들어, 5692개의 레코드들 중에서 일부 레코드에 기록된 데이터만 서프레션)됨으로써 QI #3 항목의 데이터가 보존될 수 있다.

본 발명에 따른 방법들은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능 매체의 예에는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

비식별화 장치에서 수행되는 데이터의 비식별화 방법으로서,
원시 데이터베이스(original database)에 포함된 레코드(record)들의 속성을 설정하는 단계;
상기 데이터의 비식별화를 위해 사용되는 파라미터(parameter)에 기초하여 프라이버시(privacy) 보호 모델을 설정하는 단계;
상기 원시 데이터베이스 중에서 상기 속성이 QI(quasi-identifier)로 설정된 항목(이하, "QI 항목"이라 함)들에 대한 일반화 레벨(generation level)에 따른 일반화된 데이터를 지시하는 룩업 테이블(lookup table)을 설정하는 단계;
상기 원시 데이터베이스가 상기 프라이버시 보호 모델을 충족하지 않는 경우, 상기 QI 항목들 중에서 가장 많은 서로 다른 데이터를 가지는 QI 항목에 대한 일반화 레벨을 증가시키는 단계; 및
일반화 레벨이 증가된 QI 항목을 포함하는 제1 일반화된 데이터베이스가 상기 프라이버시 보호 모델을 충족하는지 여부를 판단하는 단계를 포함하되;
상기 레코드들의 속성은 ID(identifier), 상기 QI(quasi-identifier), SA(sensitive attribute) 또는 IA(insensitive attribute)로 설정되는, 데이터의 비식별화 방법.
청구항 1에 있어서,
상기 QI 항목에 대한 일반화 레벨을 증가시키는 단계는,
상기 원시 데이터베이스에 포함된 상기 레코드들 중에서 상기 프라이버시 보호 모델을 충족하지 않는 레코드의 개수가 미리 정의된 미충족 허용 건수를 초과하는 경우에 수행되는, 데이터의 비식별화 방법.
청구항 1에 있어서,
상기 QI 항목에 대한 일반화 레벨을 증가시키는 단계는,
상기 QI 항목의 레코드에 기록된 모든 데이터가 서프레션(suppression)되는 최종 일반화 레벨 전까지 수행되는, 데이터의 비식별화 방법.
청구항 1에 있어서,
상기 데이터의 비식별화 방법은,
상기 제1 일반화된 데이터베이스가 상기 프라이버시 보호 모델을 충족하지 않는 경우, 상기 제1 일반화된 데이터베이스에 포함된 QI 항목들 중에서 가장 많은 서로 다른 데이터를 가지는 QI 항목에 대한 일반화 레벨을 증가시키는 단계; 및
일반화 레벨이 증가된 QI 항목을 포함하는 제2 일반화된 데이터베이스가 상기 프라이버시 보호 모델을 충족하는지 여부를 판단하는 단계를 더 포함하는, 데이터의 비식별화 방법.
청구항 1에 있어서,
상기 데이터의 비식별화 방법은,
상기 제1 일반화된 데이터베이스가 상기 프라이버시 보호 모델을 충족하지 않고, 상기 제1 일반화된 데이터베이스에 포함된 QI 항목들에 대한 일반화 레벨을 증가시키는 것이 불가능한 경우, 상기 제1 일반화된 데이터베이스에 포함된 QI 항목들 중에서 가장 많은 서로 다른 데이터를 가지는 QI 항목의 레코드들 중에서 상기 프라이버시 보호 모델을 충족하지 않는 레코드에 기록된 모든 데이터에 대한 서프레션을 수행하는 단계; 및
상기 프라이버시 보호 모델을 충족하지 않는 레코드에 기록된 모든 데이터에 대한 서프레션이 적용된 QI 항목을 포함하는 제2 일반화된 데이터베이스가 상기 프라이버시 보호 모델을 충족하는지 여부를 판단하는 단계를 더 포함하는, 데이터의 비식별화 방법.
삭제
청구항 1에 있어서,
상기 파라미터는 k-익명성(anonymity), l-다양성(diversity) 및 t-근접성(closeness) 중에서 적어도 하나인, 데이터의 비식별화 방법.
데이터의 비식별화 방법을 수행하는 비식별화 장치로서,
프로세서(processor); 및
상기 프로세서에 의해 실행되는 적어도 하나의 명령을 포함하는 메모리(memory)를 포함하고,
상기 적어도 하나의 명령은,
원시 데이터베이스(original database)에 포함된 레코드(record)들의 속성을 설정하고;
상기 데이터의 비식별화를 위해 사용되는 파라미터(parameter)에 기초하여 프라이버시(privacy) 보호 모델을 설정하고;
상기 원시 데이터베이스 중에서 상기 속성이 QI(quasi-identifier)로 설정된 항목(이하, "QI 항목"이라 함)들에 대한 일반화 레벨(generation level)에 따른 일반화된 데이터를 지시하는 룩업 테이블(lookup table)을 설정하고;
상기 원시 데이터베이스가 상기 프라이버시 보호 모델을 충족하지 않는 경우, 상기 QI 항목들 중에서 가장 많은 서로 다른 데이터를 가지는 QI 항목에 대한 일반화 레벨을 증가시키고; 그리고
일반화 레벨이 증가된 QI 항목을 포함하는 제1 일반화된 데이터베이스가 상기 프라이버시 보호 모델을 충족하는지 여부를 판단하도록 실행되며;
상기 레코드들의 속성은 ID(identifier), 상기 QI(quasi-identifier), SA(sensitive attribute) 또는 IA(insensitive attribute) 로 설정되는, 비식별화 장치.
청구항 8에 있어서,
상기 QI 항목에 대한 일반화 레벨은,
상기 원시 데이터베이스에 포함된 상기 레코드들 중에서 상기 프라이버시 보호 모델을 충족하지 않는 레코드의 개수가 미리 정의된 미충족 허용 건수를 초과하는 경우에 증가되는, 비식별화 장치.
청구항 8에 있어서,
상기 QI 항목에 대한 일반화 레벨은,
상기 QI 항목의 레코드에 기록된 모든 데이터가 서프레션(suppression)되는 최종 일반화 레벨 전까지 증가되는, 비식별화 장치.
청구항 8에 있어서,
상기 적어도 하나의 명령은,
상기 제1 일반화된 데이터베이스가 상기 프라이버시 보호 모델을 충족하지 않는 경우, 상기 제1 일반화된 데이터베이스에 포함된 QI 항목들 중에서 가장 많은 서로 다른 데이터를 가지는 QI 항목에 대한 일반화 레벨을 증가시키고; 그리고
일반화 레벨이 증가된 QI 항목을 포함하는 제2 일반화된 데이터베이스가 상기 프라이버시 보호 모델을 충족하는지 여부를 판단하도록 더 실행되는, 비식별화 장치.
청구항 8에 있어서,
상기 적어도 하나의 명령은,
상기 제1 일반화된 데이터베이스가 상기 프라이버시 보호 모델을 충족하지 않고, 상기 제1 일반화된 데이터베이스에 포함된 QI 항목들에 대한 일반화 레벨을 증가시키는 것이 불가능한 경우, 상기 제1 일반화된 데이터베이스에 포함된 QI 항목들 중에서 가장 많은 서로 다른 데이터를 가지는 QI 항목의 레코드들 중에서 상기 프라이버시 보호 모델을 충족하지 않는 레코드에 기록된 모든 데이터에 대한 서프레션을 수행하고; 그리고
상기 프라이버시 보호 모델을 충족하지 않는 레코드에 기록된 모든 데이터에 대한 서프레션이 적용된 QI 항목을 포함하는 제2 일반화된 데이터베이스가 상기 프라이버시 보호 모델을 충족하는지 여부를 판단하도록 더 실행되는, 비식별화 장치.