KR20210049546A

KR20210049546A - 개인정보 보호를 위한 비식별화 방법 및 장치

Info

Publication number: KR20210049546A
Application number: KR1020190133973A
Authority: KR
Inventors: 김무철
Original assignee: 중앙대학교 산학협력단
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2021-05-06
Also published as: KR102345142B1

Abstract

본 발명은 개인정보 보호를 위한 비식별화 장치 및 방법에 관한 것으로, 본 발명에 따르면, 항목 및 이의 항목값의 쌍(pair)으로 규정되는 아이템을 포함하는 테이블에서 다수의 아이템의 연관관계를 분석하는 분석단계; 분석단계에서 연관관계가 분석된 결과를 토대로 테이블에서 비식별화시킬 아이템을 선정하는 비식별화대상 선정단계; 및 비식별화대상 선정단계에서 비식별화시킬 대상으로 선정된 아이템의 항목값에 대하여 비식별화를 수행하는 비식별화단계;를 포함하므로 재식별될 위험성이 억제되는 개인정보 비식별화 기술이 개시된다.

Description

개인정보 보호를 위한 비식별화 방법 및 장치{De-identification Method for Personal Information Protecting and Equipment Thereof}

본 발명은 개인정보 보호를 위하여 재식별의 가능성을 억제시킬 수 있는 비식별화 방법 및 장치에 관한 것이다.

정보통신기술(예를 들어, 빅데이터 관련 기술)이 발전함에 따라 개인정보를 수집하는 기술, 수집된 개인정보를 분석하는 기술 등이 발전하고 있다. 개인정보는 주민번호, 주소, 우편번호, 이름, 생일, 성별, 질병, 연봉 등을 포함할 수 있다.

이와 같은 개인정보에 관한 데이터 관련 기술이 발전함에 따라 개인정보는 다양한 분야에서 사용될 수 있다. 예를 들어, 기업은 개인정보에 기초하여 특정 소비자에게 자신의 상품, 서비스 등을 광고할 수 있고, 이에 따라 소비자는 자신이 원하는 상품, 서비스에 대한 정보를 기업으로부터 용이하게 획득할 수 있다.

그러나 개인정보가 무분별하게 사용됨으로써 정보주체인 개인의 기본권이 침해될 수도 있다. 이러한 문제를 해소하기 위해 개인정보의 비식별화 기술이 고려될 수 있다. 비식별화 기술은 개인정보의 일부 또는 전부를 삭제하거나 대체(예를 들어, 개인정보를 지시하는 데이터에 대한 일반화 수행)함으로써 다른 정보와 결합하여도 특정 개인을 식별할 수 없도록 하는 것을 의미한다

그러나, 개인정보에 대한 비식별화가 휴리스틱 방식으로 처리된 경우 재식별될 가능성이 적지 않음으로 인하여 개인정보가 다시 재식별될 수 있는 위험성이 있다는 문제점이 있었다.

대한민국 공개특허 제10-2019-0032781호

본 발명의 목적은 상기한 바와 같은 종래의 문제점을 해결하기 위한 것으로, 개인정보 보호를 위하여 재식별될 가능성을 억제하고 비식별화를 효율적으로 수행할 수 있는 기술을 제공함에 있다.

상기와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 방법은, 개인정보 비식별화 장치에서 실행될 수 있는 개인정보 비식별화 방법으로서, 상기 개인정보 비식별화 장치가 항목 및 이의 항목값의 쌍(pair)으로 규정되는 아이템을 포함하는 테이블에서 다수의 상기 아이템의 연관관계를 분석하는 분석단계; 상기 분석단계에서 상기 연관관계가 분석된 결과를 토대로 상기 테이블에서 비식별화시킬 상기 아이템을 선정하는 비식별화대상 선정단계; 및 상기 비식별화대상 선정단계에서 비식별화시킬 대상으로 선정된 상기 아이템의 상기 항목값에 대하여 비식별화를 수행하는 비식별화단계;를 포함하는 것을 하나의 특징으로 할 수도 있다.

여기서, 상기 개인정보 비식별화 장치가 상기 비식별화단계에서 비식별화처리된 상기 아이템의 항목값들에 대하여 비식별화의 적정수준을 판단하는 비식별적정수준 판단단계;를 더 포함하는 것을 또 하나의 특징으로 할 수도 있다.

여기서, 상기 비식별적정수준 판단단계에서, 판단된 상기 적정수준에 따라 상기 분석단계, 상기 비식별화대상 선정단계 및 상기 비식별화 단계를 재수행할 것인지 여부를 판단하거나, 판단된 상기 적정수준 또는 비식별화된 상기 테이블을 출력하여 사용자에게 제공하고, 사용자로부터 상기 분석단계, 상기 비식별화대상 선정단계 및 상기 비식별화 단계를 재수행할 것인지 여부를 입력받는 것을 또 하나의 특징으로 할 수도 있다.

여기서, 상기 분석단계 이전에 이루어질 수 있는 단계로서, 상기 테이블이 HIPAA Safe Habor 모델에 따른 항목만 갖춘 경우, 상기 개인정보 비식별화 장치가 이름, 주민등록번호, 연령, 주소, 전화번호, 이메일주소, 외국인등록번호, 여권번호, 등록번호, 건강보험증번호, 계좌번호, 자격/면허번호, 차량번호, 바이오정보, 유전자정보, 회원ID, 사번, 비밀번호, 요양기관기호, 소득, 민감상병, 진단명, 약처방일자, 진단검사일 및 검사수행일로 구성된 항목집합 중에서 어느 하나 이상의 항목을 더 추가 반영하는 전처리단계;를 더 포함하는 것을 또 하나의 특징으로 할 수도 있다.

여기서, 상기 분석단계에서, 상기 아이템의 속성을 ID(identifier), QI(quasi-identifier), SA(sensitive attribue) 및 IA(insensitive attribute) 중 어느 하나로 분류하는 것을 또 하나의 특징으로 할 수도 있다.

여기서, 상기 분석단계에서, 상기 아이템에 대한 상기 연관관계 분석은, Apriori 알고리즘을 이용하여 상기 연관관계의 분석이 이루어지는 것을 또 하나의 특징으로 할 수도 있다.

여기서, 상기 비식별화대상 선정단계에서, 상기 개인정보 비식별화 장치가 상기 테이블에서 비식별화시킬 상기 아이템으로 선정하는 것은, 상기 분석단계에서 상기 연관관계가 분석된 결과를 토대로 지지도임계치 이하인 상기 아이템을 비식별화시킬 아이템으로 선정하는 것을 또 하나의 특징으로 할 수도 있다.

여기서, 상기 비식별화 단계에서, 상기 아이템의 상기 항목값에 대한 비식별화는, 일반처리 및 삭제처리 중 어느 하나의 방식에 따라 비식별화가 이루어지는 것을 또 하나의 특징으로 할 수도 있다.

여기서, 상기 비식별적정수준 판단단계에서, 상기 개인정보 비식별화 장치가 K-익명성(anonymity), L-다양성(diversity) 및 T-근접성(closeness) 중 적어도 어느 하나를 이용하여 상기 아이템의 항목값들에 대한 비식별화의 적정수준 여부에 대하여 판단하는 것을 또 하나의 특징으로 할 수도 있다.

상기와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 방법은 항목 및 항목값의 쌍(pair)으로 규정되는 아이템을 포함하는 테이블을 입력받는 입력부; 상기 입력부로부터 상기 테이블을 전달받고, 상기 테이블에서 다수의 상기 아이템의 연관관계를 분석하고, 상기 연관관계가 분석된 결과를 토대로 상기 테이블에서 비식별화시킬 상기 아이템을 선정하고, 상기 비식별화시킬 대상으로 선정된 상기 아이템의 상기 항목값에 대하여 비식별화를 수행하는 프로세서부; 및 상기 프로세서부의 제어에 따라 상기 프로세서부에 의해 비식별화가 이루어진 상기 테이블을 출력하는 출력부; 를 포함하는 것을 하나의 특징으로 할 수도 있다.

여기서, 상기 프로세서부는, 상기 비식별화처리된 상기 아이템의 항목값들에 대하여 비식별화의 적정수준을 판단하는 것을 또 하나의 특징으로 할 수도 있다.

여기서, 상기 프로세서부는, 상기 아이템의 속성을 ID(identifier), QI(quasi-identifier), SA(sensitive attribue) 및 IA(insensitive attribute) 중 어느 하나로 분류하는 것을 또 하나의 특징으로 할 수도 있다.

여기서, 상기 프로세서부는, Apriori알고리즘을 이용하여 상기 아이템에 대하여 상기 연관관계를 분석하는 것을 또 하나의 특징으로 할 수도 있다.

여기서, 상기 프로세서부가 상기 테이블에서 비식별화시킬 상기 아이템으로 선정하는 것은, 상기 연관관계가 분석된 결과를 토대로 지지도 임계치 이하인 상기 아이템을 비식별화 시킬 아이템으로 선정하는 것을 또 하나의 특징으로 할 수도 있다.

여기서, 상기 프로세서부는 무작위처리, 일반처리 및 삭제처리 중 어느 하나의 방식에 따라 상기 아이템의 상기 항목값에 대하여 비식별화하는 것을 또 하나의 특징으로 할 수도 있다.

본 발명에 따른 개인정보 보호를 위한 비식별화 방법 및 장치는 테이블의 각 항목 및 항목값 간의 연관관계를 분석한 결과를 토대로 비식별화를 실행하므로 비식별화된 이후 재식별이 이루어질 가능성을 감축시켜준다. 따라서 개인정보의 보호성을 확보할 수 있는 효과가 있다.

도 1은 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 장치를 개략적으로 나타낸 블록도이다.
도 2는 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 방법에서 테이블을 개략적으로 나타낸 도면이다.
도 3은 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 방법을 개략적으로 나타낸 순서도이다.
도 4는 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 방법에 이용될 수 있는 비식별화기술의 종류를 개략적으로 나타낸 블록도이다.
도 5는 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 방법을 설명하기 위하여, 테이블의 아이템에 대하여 무작위 항목 비식별화가 수행된 후의 테이블을 개략적으로 나타낸 도면이다.
도 6은 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 방법에서, 아이템의 연관관계에 따른 비식별화가 수행된 후의 테이블을 개략적으로 나타낸 도면이다.
도 7은 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 방법에서, 테이블의 아이템에 대한 비식별화가 수행되기 이전의 지지도 및 신뢰도의 분포를 개략적으로 나타낸 도면이다.
도 8은 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 방법을 설명하기 위하여, 테이블의 아이템에 대하여 무작위 항목 비식별화가 수행된 후의 지지도 및 신뢰도의 분포를 개략적으로 나타낸 도면이다.
도 9는 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 방법에서, 아이템의 연관관계에 따른 비식별화가 수행된 후의 지지도 및 신뢰도의 분포를 개략적으로 나타낸 도면이다.

이하에서는 본 발명에 대하여 보다 구체적으로 이해할 수 있도록 첨부된 도면을 참조한 바람직한 실시 예를 들어 설명하기로 한다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 장치를 개략적으로 나타낸 블록도이다.

도 1을 참조하면, 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 장치(이하 간단히 '비식별화장치'라고 칭함)(100)는 프로세서부(110) 및 저장부(160)를 포함할 수 있다. 또한, 비식별화 장치(100)는 네트워크와 연결되어 통신을 수행하는 네트워크 인터페이스 장치(130), 출력부(140), 입력부(150) 등을 더 포함할 수 있다.

입력부(150)를 통해 비식별화 시킬 정보들을 입력받을 수 있다. 즉, 입력부(150)는 항목 및 항목값의 쌍(pair)으로 규정되는 아이템을 포함하는 테이블을 입력받는다.

여기서, 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 방법 및 장치에 대한 설명 및 이해의 편의를 돕기 위하여 잠시 도 2를 참조하여 다음과 같이 몇가지 용어에 대한 설명을 한다.

데이터베이스는 도 2에서 참조되는 바와 같은 테이블을 하나 또는 다수 포함하고 있다. 그리고, 테이블은 다수의 항목과 다수의 항목 각각에 대응되는 항목값들을 갖춘 레코드를 적어도 하나 이상 포함하고 있다. 그리고, 항목과 항목값의 쌍(pair)을 "아이템"이라고 표현하기로 한다.

참고로, 비식별화 대상항목이란 비식별화시킬 대상이 되는 항목을 말하며, 항목을 비식별화한다는 것은 레코드 내에서 비식별화시킬 항목에 해당되는 항목값을 비식별화한다는 것이다. 예를 들어, 비식별화시킬 항목이 '질병' 이라면, 질병의 항목값인 '위염'을 비식별화한다는 것이다.

다시 도 1을 참조하면, 출력부(140)는 프로세서부(110)의 제어에 따라 연관관계에 따른 비식별화가 이루어진 정보들을 출력시킬 수 있다. 즉, 프로세서부(110)에 의해 비식별화가 이루어진 테이블을 출력한다.

비식별화 장치(100)에 포함된 각각의 구성 요소들은 버스(bus)(170)에 의해 연결되어 서로 통신을 수행할 수 있다.

프로세서부(110)는 저장부(160)에 저장된 프로그램 명령(program command)을 실행할 수 있다. 특히 프로세서부(110)는 본 발명에 따른 개인정보 보호를 위하여 연관관계를 분석하고 비식별화를 수행한다.

프로세서부(110)는 입력부(150)로부터 테이블을 전달받고, 테이블에서 다수의 아이템의 연관관계를 분석한다. 그리고, 연관관계가 분석된 결과를 토대로 테이블에서 비식별화시킬 아이템을 선정하고, 비식별화시킬 대상으로 선정된 아이템의 항목값에 대하여 비식별화를 수행한다.

그리고 프로세서부(110)는 비식별화처리된 아이템의 항목값들에 대하여 비식별화의 적정수준을 판단한다.

또한 프로세서부(110)는 아이템의 속성을 ID(identifier), QI(quasi-identifier), SA(sensitive attribue) 및 IA(insensitive attribute) 중 어느 하나로 분류한다. 그리고 프로세서부(110)는 Apriori알고리즘을 이용하여 아이템에 대하여 연관관계를 분석한다.

그리고 테이블에서 비식별화시킬 아이템으로 선정하기 위하여 프로세서부(110)는 연관관계가 분석된 결과를 토대로 하여 지지도 임계치 이하인 아이템을 비식별화 시킬 아이템으로 선정한다. 그리고 프로세서부(110)는 무작위처리, 일반처리 및 삭제처리 중 어느 하나의 방식에 따라 아이템의 항목값에 대하여 비식별화한다.

이처럼 프로세서부(110)가 아이템의 항목값에 대하여 비식별화하는 것은 후술할 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 방법에서의 설명을 통해 좀 더 자세히 설명될 수 있다.

그리고 프로세서부(110)는 중앙 처리 장치(central processing unit; CPU), 그래픽 처리 장치(graphics processing unit; GPU) 또는 본 발명에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다.

저장부(160)는 휘발성 저장 매체 및/또는 비휘발성 저장 매체로 구성될 수 있으며, 데이터의 비식별화를 수행하기 위하여 각종의 정보를 저장할 수 있다.

비식별화 장치(100)는 기업의 업무처리용 서버(server), 데스크탑 컴퓨터(desktop computer), 랩탑 컴퓨터(laptop computer), 태블릿(tablet) PC 등의 형태일 수도 있다.

다음으로 도 3을 참조하여 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 방법에 대해 설명하기로 한다.

도 3은 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 방법을 개략적으로 나타낸 순서도이다.

도 3을 참조하면, 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 방법은 전처리단계(S110), 분석단계(S120), 비식별화대상 선정단계(S130), 비식별화단계(S140) 및 비식별화 적정수준 판단단계(S150)을 포함한다.

이러한 개인정보 비식별화 방법은 앞서 도 1을 참조하여 설명된 비식별화 장치(100)(예를 들어, 비식별화장치(100)의 프로세서부(110))에 의해 수행될 수 있다.

<< S110 >>

전처리단계(S110)는 비식별화장치(100)의 프로세서부(110)에 의해 테이블에서 비식별화시킬 항목의 항목값에 대하여 비식별화하기 위한 전처리작업이 이루어지는 단계이다.

필요시 테이블에 비식별항목의 추가도 이루어질 수 있다.

비식별항목리스트에 따라 비식별화 시킬 항목과 항목값을 수집하고, 수집된 아이템을 분석단계에서 연관관계의 분석에 사용할 수 있는 형식으로 전처리시킨다.

여기서 전처리란 수집된 테이블을 형식에 맞게 정리한다는 것을 의미한다. 비식별을 진행하여 연관관계 분석을 실행하기 위한 형식에 맞게 전처리한다.

HIPAA Safe habor 모델에 따른 항목이 테이블에 이미 마련되어 있으나 다음의 표 1에 나타난 항목이 테이블에 없는 경우에는 다음의 표 1에 나타낸 바와 같은 항목집합 중에서 어느 하나 이상의 항목을 테이블에 추가시키는 것도 바람직하다.

이름	주민등록번호
연령	주소
전화번호	이메일주소
외국인 등록번호	여권번호
등록번호	건강보험증번호
계좌번호	자격/면허번호
차량번호	바이오정보
유전자정보	회원ID
사번	비밀번호
요양기관기호	소득
민감상병	ID
진단명	약처방일자
진단검사일	검사수행일

<< S120 >>>

분석단계(S120)는 비식별화장치(100)의 프로세서부(110)가 테이블에 포함된 다수의 아이템의 연관관계를 분석하는 단계이다. 테이블의 비식별항목 간의 연관관계를 분석하는 단계라고 할 수도 있다.

연관관계의 분석을 위하여 먼저 아이템의 속성 즉, 항목과 항목값의 속성을 파악하고 분류한다. 앞서 언급한 바와 같이, 항목과 항목값의 쌍(pair)을 아이템 이라고 할 수 있으며, 아이템의 속성을 파악한다고 할 수 있다. 그리고, 필요에 따라서는 아이템의 속성을 설정하는 것도 가능하다.

즉 각 항목 또는 항목값의 속성을 ID(identifier), QI(quasi-identifier), SA(sensitive attribue), IA(insensitive attribute)의 4가지로 구분할 수 있다.

ID(identifier)는 특정 개인이 명시적(explicit)으로 식별되는 개인정보이며, 특정 개인은 ID로 설정된 하나의 개인정보만으로 식별될 수 있다. 예시로, 주민번호가 있다.

QI(quasi-identifier)는 특정 개인이 묵시적(non-explicit)으로 식별되는 개인정보로 하나만으로는 개인을 식별할 수 없으나 다른 QI정보와 다른 개인정보의 조합으로 식별될 수 있다. 예를 들어, 성별, 국적, 나이 등의 속성이 있다.

SA(sensitive attribue)는 보호가 요구되는 민감한 정보로 SA로 설정된 정보가 공개되는 경우 특정 개인의 신상에 문자가 발생할 수 있다. 예를 들어, 질병 등의 속성이 있다.

IA(insensitive attribute)는 SA보다 낮은 민감도를 가지는 개인정보로 공개 된다고 해도 개인의 신상에 문제가 발생하지 않을 수 있다. 예를 들어, 우편번호 등이 있다.

이와 같이 아이템의 속성을 분류한다.

연관관계 분석은 AP알고리즘(아프리오리 알고리즘(Apriori algorism). 이하 간략히 AP알고리즘 이라 함)을 이용하여 분석될 수 있다.

연관관계분석은 지지도(support)와 신뢰도(confidence)를 바탕으로 각 아이템간 연관관계를 찾는 것을 의미한다. 여기서 아이템 이란 앞서 언급한 바와 같이 항목의 속성 및 속성의 특정값으로 이루어지는 쌍(pair)를 말한다.

연관관계 분석은 주어진 테이블에서 가능한 모든 아이템 집합에 대해 연관성을 찾아내는 분석방법이라고 할 수 있다.

1. 지지도임계치 이하의 조합을 찾아 최소빈발항목을 구성한다.

2. 그리고 항목 또는 항목값들 간의 연관관계를 생성하기 위하여 빈발항목집합의 supp(L)에 대하여 공집합(Φ)이 아닌 부분집합의 supp(A)을 찾는다.

만약 빈발항목집합의 지지도(L)가 부분집합의 지지도(A)에 대한 비율이 지지도임계치 이상이면 A->(L-A)의 연관관계를 출력한다.

이 연관관계의 지지도는 supp(L)이고, 신뢰도는 supp(L)/supp(A) 이다.

여기서 AP알고리즘은 다음과 같다.

지지도임계치

를 정한다. 예를 들어 0.12로 설정될 수 있으며, 필요에 따라서는 다른 값으로 지지도임계치가 설정될 수도 있다.

k=1

단계 1. k=k+1

로부터

형성

단계 1-1.(join)

의 집합들을 접합하여 k-항목 집합군을 형성한다.

단계 1-2.(prune) C의 (k-1) 항목 부분집합이

에 속하지 않을 때 이를 모두 제거한 후

를 형성한다.

이면 종료(stop)된다.

단계 2.

의 집합 중 지지도가 지지도임계치 이하인 것을 모아

를 생성한다.

이 때,

는 후보 k-항목집합을 의미하며,

는 최소빈발 K-항목집합을 의미한다.

이와 같이 AP알고리즘을 이용하여 지지도에 근거하여 항목들의 최소빈발집합을 찾는다. 그리고 찾아낸 최소빈발집합을 이루는 항목 간의 신뢰도(confidence)를 계산한다.

<< S130 >>

비식별화대상 선정단계(S130)는, 분석단계(S120)에서 연관관계가 분석된 결과를 토대로 하여 테이블에서 비식별화시킬 아이템을 프로세서부(110)가 선정하는 단계이다.

분석단계(S120)에서 계산된 지지도 또는 신뢰도를 근거로 하여 지지도임계치 이하의 지지도를 갖는 항목의 부분집합을 비식별항목에 추가하여 비식별화시킬 대상에 포함시킨다.

즉, 분석단계(S120)에서의 연관관계 분석을 통해 지지도임계치를 기준으로 재식별의 가능성이 상대적으로 높은 아이템인 지지도임계치 이하의 빈발집합 아이템들을 찾는다. 그리고, 낮은 지지도(support) 값과 높은 (confidence)값을 가지는 아이템의 항목값을 선별하여 비식별화 대상으로 선정한다.

필요에 따라서는 지지도 임계치를 사용자로부터 입력받아 설정될 수도 있다.

<< S140 >>

비식별화 단계(S140)에서 아이템의 항목값에 대한 비식별화는 일반처리 및 삭제처리 중 어느 하나의 방식에 따라 프로세서부(110)에 의하여 비식별화가 이루어 질 수 있다.

여기서 잠시 도 4를 참조하자면, 도 4는 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 방법에 이용될 수 있는 비식별화기술의 종류 또는 방식을 개략적으로 나타낸 블록도이다. 도 4에 나타낸 바와 같은 비식별화 방식을 이용하여 비식별화시킬 수 있다.

무작위처리는 개인정보 비식별 조치 가이드 라인에 따라 무작위로 선택한 항목값의 전체 또는 일부의 내용을 무작위로 생성한 항목값으로 변경하거나 추가하는 것을 말한다.

일반처리는 항목값의 범위를 일반화 또는 범주화 시켜서 특정 개인을 식별하지 못하게 하는 것을 말한다.

삭제처리는 특정 항목값을 삭제하는 것을 말한다.

이와 같은 방식들을 이용하여 아이템의 항목값에 대하여 비식별화를 한다.

아울러 필요에 따라서는 비식별화 시킬 항목값에 대하여 마스킹(masking)처리를 할 수도 있다.

도 5는 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 방법을 설명하기 위하여, 테이블의 아이템에 대하여 무작위 비식별화 후의 테이블을 개략적으로 나타낸 도면으로서 본 발명의 실시 예에서의 연관관계에 따른 비식별화와 비교하여 볼 수 있도록 나타낸 것이다.

그리고, 도 6은 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 방법에 따라 아이템의 연관관계에 따른 비식별화가 이루어진 후의 테이블을 개략적으로 나타낸 도면이다.

도 6에 예시적으로 나타낸 바와 같이, 분석단계(S120)와 비식별화대상 선정단계(S130)을 통해 다수의 아이템 사이의 연관관계를 분석하고 그에 따라 비식별화 대상으로 선정된 항목값에 대하여 비식별화를 시켜준 후 다음의 비식별화 적정수준 판단단계(S150)에서 비식별화의 적정수준을 판단한다.

<< S150 >>

비식별화 적정수준 판단단계(S150)에서는 비식별화단계(S140)에서 비식별화처리된 아이템의 항목값들에 대하여 프로세서부(110)가 비식별화의 적정수준을 판단하는 단계이다.

비식별화 적정수준에 대한 판단은 KLT 모델(익명성, 다양성, 근접성)을 이용할 수 있다. 비식별처리된 아이템들의 동질집합 수를 k개 이상 유지하게 하여 특정 개인이 식별될 확률을 1/K 이하로 낮추는 k-익명성을 이용하여 비식별화 적정수준을 판단한다.

AP알고리즘의 룰(rule)을 기반으로 항목간 중복되는 연관관계의 개수 즉, 룰의 개수를 확인함으로써 k-익명성(k-anonymity)이 적정수준으로 수행되었는지 판단한다.

비식별화 결과에 대한 사용자의 의사결정 지원은 비식별화된 아이템이나 항목값의 재식별 가능성을 지지도임계치를 기준으로 파악하여 재식별 가능성이 높은 것으로 판단되는 경우 비식별화에 대한 사용자의 의사결정을 지원할 수 있다.

재식별이 이루어질 가능성이 높은 것으로 판단되는 경우, 추가적인 항목 추가나 비식별 단계를 사용자 의사결정에 따라 일반화 단계를 높여가며 비식별 작업의 단계를 변경 여부에 대한 사용자의 의사결정을 지원할 수도 있다.

사용자의 의사결정에 따라 비식별화를 반복하는 경우 비식별 단계를 변화시켜 사용자가 원하는 비식별화 결과가 나올 때까지 반복할 수도 있다.

실시 예에서 지지도(Support)를 통해 비식별화의 수준을 판단할 수 있다. 각 아이템간 연관관계를 확인하는데 지지도가 이용된다. 지지도가 0에 가까울수록 아이템 간의 연관도가 낮으며, 적은 개수의 아이템을 이용하여 재식별될 가능성이 상대적으로 높다는 것을 의미한다.

지지도가 1에 근접될수록 다른 아이템들간 연관도가 높다. 따라서, 재식별하기 위해 많은 개수의 아이템이 요구되므로 재식별될 가능성이 상대적으로 낮음을 나타낸다.

신뢰도(Confidence)는 아이템간 연관관계를 알 수 있으며, 위의 지지도(Support)값에 대한 연관관계 비율을 나타낸다. 신뢰도 값이 0에 가까울록 전체 데이터에서 차지하는 비율이 낮아 신뢰도가 낮음을 의미하고, 1에 가까울수록 전체 신뢰도가 높다.

룰(Rule)은 항목간 중복되는 연관관계의 개수를 나타내며 k-익명성(anonymity)의 척도와 함께 사용하여 비식별 적정정도 판단에 이용된다.

다시 말해서, 룰(Rule)은 전체 개별 항목의 개수를 뜻하는데, 익명화를 통해 비슷한 항목이 많아지면, 중복되는 연관관계 항목에 대해서는 판별하지 않으므로 전체적으로 특이값을 감소시켜서 재식별 가능성을 감축시킨다.

여기서 도 7 내지 도 9를 더 참조하여 설명을 계속하기로 한다.

도 7은 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 방법에서, 룰의 개수가 3970개인 원본 테이블의 아이템에 대한 비식별화가 수행되기 이전의 지지도 및 신뢰도의 분포를 개략적으로 나타낸 도면이고, 도 8은 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 방법을 설명하기 위하여, 테이블의 아이템에 대하여 무작위 항목 비식별화가 수행된 후의 지지도 및 신뢰도의 분포를 개략적으로 나타낸 도면으로서 룰의개수는 1040개이며, 도 9는 본 발명의 실시 예에 따른 개인정보 보호를 위한 비식별화 방법에서, 아이템의 연관관계에 따른 비식별화가 수행된 후의 지지도 및 신뢰도의 분포를 개략적으로 나타낸 도면으로서 룰의 개수는 604개이다.

여기서, 도 7은 도 3에 나타낸 바와 같이 비식별화가 수행되기 전의 원본 테이블에 대한 지지도 및 신뢰도의 분포를 개략적으로 나타낸 것이다.

도 8은 도 5에 예시적으로 나타낸 무작위 비식별화가 수행된 후의 테이블에 대하여 지지도 및 신뢰도의 분포를 개략적으로 나타낸 것이며, 도 9는 도 6에서 나타낸 연관관계에 따른 비식별화가 된 후의 테이블에 대하여 지지도 및 신뢰도의 분포를 개략적으로 나타낸 것이다.

도 7 내지 도 9의 그래프에서 각 점들은 항목값들의 분포를 의미한다. 실시 예의 예시 중 원본에서 점들의 분포가 낮은 지지도(Support)값과 높은 신뢰도(Confidence)값을 나타내는데 이것은 각 항목간 연관도가 낮으면서 차지하는 비율이 높아서 재식별 가능성이 매우 높은 것을 알 수 있다.

즉, 원본에 대한 도 7에 나타난 점들의 분포수에 비하여 비식별화가 된 후의 도 8 또는 도 9에 나타난 점들의 분포수가 감소하고 lift값이 감소하는 것을 알 수 있다. lift 값은 각 항목의 관계를 나타내는 값이다. lift값이 1이면 독립된 항목이다. lift값이 1보다 크다는 것은, 예를 들어 A데이터가 나오면 B 데이터가 나오는 경우의 비율이 양의 상관관계로서 나타난다는 의미가 된다. 도 7과 도 8 에서 lift 값이 7 이상까지 나타나므로 어떤 A항목을 알게 되면 다른 B항목까지 알 수 있게 된다는 것이다. 따라서, lift값이 1을 초과하면 재식별 가능성을 증가시키는 항목이라고 볼 수 있다.

그리고, 점의 개수가 감소되는 것은 비식별화를 진행함에 따라 중복되는 데이터가 늘어남으로써 특정 개인을 판별하기 어려워졌다는 것을 의미한다. 원본에서의 룰의 개수 3970개에 비하여 무작위 식별화된 후의 룰의 개수는 1040개로 감소되었으며, 연관관계 비식별화된 후의 룰의 개수는 604개로 감소되었으므로 비식별화를 통해 특정 개인을 판별하기가 원본에 비하여 더욱 어려워졌다고 할 수 있다.

이처럼 룰(Rule)의 개수를 통해 k-익명성(anonymity)이 잘 되었음을 확인할 수 있다.

재식별 가능 데이터 = 지지도 임계치(Support)가 0.12 이하인 모든 아이템 개수

비율 = 재식별 가능 데이터 / 전체 * 100

위의 수식에 따라 무작위화와 연관관계 분석에 따른 데이터의 재식별 가능성은 다음과 같다.

0.1의 supp값을 가지는 항목의 숫자는 297개, 0.11의 supp값을 가지는 항목의 숫자는 169, 0.12의 supp값을 가지는 항목의 숫자는 81개 이라면,

무작위재식별가능성(%)는

으로서 원본 데이터 기준 무작위화 데이터의 재식별 가능성은 약 52%가 되며,

연관관계 재식별가능성(%)는

으로서 연관관계 분석 데이터의 재식별 가능성은 약 31%가 된다.

따라서, 무작위 식별화에 따른 재식별가능성과 연관관계 식별화에 따른 재식별 가능성이 서로 다른 것을 확인할 수 있으며, 연관관계 식별화에 따른 재식별가능성이 더욱 낮다는 것을 알 수 있다.

이와 같이 적정수준에 대한 판단 후에 기 설정된 지지도임계치에 따라 비식별화를 추가적으로 반복실시 여부 판단하여 그에 따라 앞서 설명한 분석단계(S120), 비식별화 대상 선정단계(S130) 및 비식별화 단계(S140)을 다시 재수행할 수 있다.

또는 판단된 적정수준 또는 비식별화된 테이블을 출력하여 사용자에게 제공하고, 사용자로부터 분석단계(S120, 비식별화 대상 선정단계(S130) 및 비식별화 단계(S140)를 재수행할 것인지 여부를 입력받아서 그에 따라 수행하는 것 또한 충분히 가능하다.

따라서, 사용자의 요구에 따른 비식별화를 제공할 수 있다.

또한, 개인정보 보호를 위한 비식별화 수준을 결정하고, 개인정보 보호 모델의 K-익명성을 이용하여 비식별화 처리된 항목값의 재식별 위험도를 분석할 수도 있다.

아울러, 연관관계에 따른 비식별화가 무작위 항목 비식별화에 비하여 상대적으로 신뢰도가 더 높고 비식별화 가능성은 더 낮은 효과가 있다.

룰(rules)의 개수가 적을수록 k-익명성이 더 잘 수행되었다고 할 수 있다.

이와 같이, 본 발명에 따른 개인정보 보호를 위한 데이터 비식별화 방법 및 장치는 비식별화 시킬 아이템 간 연관관계를 분석하고 비식별화처리를 하므로 개인정보가 재식별화될 수 있는 위험성을 억제시킬 수 있으며, 비식별화 효율을 증진시킬 수 있다는 장점이 있다.

이상에서 설명된 바와 같이, 본 발명에 대한 구체적인 설명은 첨부된 도면을 참조한 실시 예들에 의해서 이루어졌지만, 상술한 실시 예들은 본 발명의 바람직한 실시 예를 들어 설명하였을 뿐이기 때문에, 본 발명이 상기의 실시 예에만 국한되는 것으로 이해되어져서는 아니되며, 본 발명의 권리범위는 후술하는 청구범위 및 그 등가개념으로 이해되어져야 할 것이다.

100 : 개인정보 비식별화 장치 110 : 프로세서부
130 : 네트워크인터페이스장치 140 : 출력부
150 : 입력부 160 : 저장부
170 : 버스(bus)

Claims

개인정보 비식별화 장치에서 실행될 수 있는 개인정보 비식별화 방법으로서,
상기 개인정보 비식별화 장치가 항목 및 이의 항목값의 쌍(pair)으로 규정되는 아이템을 포함하는 테이블에서 다수의 상기 아이템의 연관관계를 분석하는 분석단계;
상기 분석단계에서 상기 연관관계가 분석된 결과를 토대로 상기 테이블에서 비식별화시킬 상기 아이템을 선정하는 비식별화대상 선정단계; 및
상기 비식별화대상 선정단계에서 비식별화시킬 대상으로 선정된 상기 아이템의 상기 항목값에 대하여 비식별화를 수행하는 비식별화단계;를 포함하는 것을 특징으로 하는,
개인정보 보호를 위한 비식별화 방법.
제 1항에 있어서,
상기 개인정보 비식별화 장치가 상기 비식별화단계에서 비식별화처리된 상기 아이템의 항목값들에 대하여 비식별화의 적정수준을 판단하는 비식별적정수준 판단단계;를 더 포함하는 것을 특징으로 하는,
개인정보 보호를 위한 비식별화 방법.
제 2항에 있어서,
상기 비식별적정수준 판단단계에서,
판단된 상기 적정수준에 따라 상기 분석단계, 상기 비식별화대상 선정단계 및 상기 비식별화 단계를 재수행할 것인지 여부를 판단하거나,
판단된 상기 적정수준 또는 비식별화된 상기 테이블을 출력하여 사용자에게 제공하고, 사용자로부터 상기 분석단계, 상기 비식별화대상 선정단계 및 상기 비식별화 단계를 재수행할 것인지 여부를 입력받는 것을 특징으로 하는,
개인정보 보호를 위한 비식별화 방법.
제 3항에 있어서,
상기 분석단계 이전에 이루어질 수 있는 단계로서,
상기 테이블이 HIPAA Safe Habor 모델에 따른 항목만 갖춘 경우, 상기 개인정보 비식별화 장치가 이름, 주민등록번호, 연령, 주소, 전화번호, 이메일주소, 외국인등록번호, 여권번호, 등록번호, 건강보험증번호, 계좌번호, 자격/면허번호, 차량번호, 바이오정보, 유전자정보, 회원ID, 사번, 비밀번호, 요양기관기호, 소득, 민감상병, 진단명, 약처방일자, 진단검사일 및 검사수행일로 구성된 항목집합 중에서 어느 하나 이상의 항목을 더 추가 반영하는 전처리단계;를 더 포함하는 것을 특징으로 하는,
개인정보 보호를 위한 비식별화 방법.
제 4항에 있어서,
상기 분석단계에서,
상기 아이템의 속성을 ID(identifier), QI(quasi-identifier), SA(sensitive attribue) 및 IA(insensitive attribute) 중 어느 하나로 분류하는 것을 특징으로 하는,
개인정보 보호를 위한 비식별화 방법.
제 5항에 있어서,
상기 분석단계에서,
상기 아이템에 대한 상기 연관관계 분석은,
Apriori 알고리즘을 이용하여 상기 연관관계의 분석이 이루어지는 것을 특징으로 하는,
개인정보 보호를 위한 비식별화 방법.
제 6항에 있어서,
상기 비식별화대상 선정단계에서,
상기 개인정보 비식별화 장치가 상기 테이블에서 비식별화시킬 상기 아이템으로 선정하는 것은,
상기 분석단계에서 상기 연관관계가 분석된 결과를 토대로 지지도임계치 이하인 상기 아이템을 비식별화시킬 아이템으로 선정하는 것을 특징으로 하는,
개인정보 보호를 위한 비식별화 방법.
제 7항에 있어서,
상기 비식별화 단계에서,
상기 아이템의 상기 항목값에 대한 비식별화는,
일반처리 및 삭제처리 중 어느 하나의 방식에 따라 비식별화가 이루어지는 것을 특징으로 하는,
개인정보 보호를 위한 비식별화 방법.
제 8항에 있어서,
상기 비식별적정수준 판단단계에서,
상기 개인정보 비식별화 장치가 K-익명성(anonymity), L-다양성(diversity) 및 T-근접성(closeness) 중 적어도 어느 하나를 이용하여 상기 아이템의 항목값들에 대한 비식별화의 적정수준 여부에 대하여 판단하는 것을 특징으로 하는,
개인정보 보호를 위한 비식별화 방법.
개인정보 비식별화 장치로서,
항목 및 항목값의 쌍(pair)으로 규정되는 아이템을 포함하는 테이블을 입력받는 입력부;
상기 입력부로부터 상기 테이블을 전달받고, 상기 테이블에서 다수의 상기 아이템의 연관관계를 분석하고, 상기 연관관계가 분석된 결과를 토대로 상기 테이블에서 비식별화시킬 상기 아이템을 선정하고, 상기 비식별화시킬 대상으로 선정된 상기 아이템의 상기 항목값에 대하여 비식별화를 수행하는 프로세서부; 및
상기 프로세서부의 제어에 따라 상기 프로세서부에 의해 비식별화가 이루어진 상기 테이블을 출력하는 출력부; 를 포함하는 것을 특징으로 하는,
개인정보 보호를 위한 비식별화 장치.
제 10항에 있어서,
상기 프로세서부는,
상기 비식별화처리된 상기 아이템의 항목값들에 대하여 비식별화의 적정수준을 판단하는 것을 특징으로 하는,
개인정보 보호를 위한 비식별화 장치.
제 11항에 있어서,
상기 프로세서부는,
상기 아이템의 속성을 ID(identifier), QI(quasi-identifier), SA(sensitive attribue) 및 IA(insensitive attribute) 중 어느 하나로 분류하는 것을 특징으로 하는,
개인정보 보호를 위한 비식별화 장치.
제 12항에 있어서,
상기 프로세서부는,
Apriori알고리즘을 이용하여 상기 아이템에 대하여 상기 연관관계를 분석하는 것을 특징으로 하는,
개인정보 보호를 위한 비식별화 장치.
제 13항에 있어서,
상기 프로세서부가 상기 테이블에서 비식별화시킬 상기 아이템으로 선정하는 것은,
상기 연관관계가 분석된 결과를 토대로 지지도 임계치 이하인 상기 아이템을 비식별화 시킬 아이템으로 선정하는 것을 특징으로 하는,
개인정보 보호를 위한 비식별화 장치.
제 14항에 있어서,
상기 프로세서부는 무작위처리, 일반처리 및 삭제처리 중 어느 하나의 방식에 따라 상기 아이템의 상기 항목값에 대하여 비식별화하는 것을 특징으로 하는,
개인정보 보호를 위한 비식별화 장치.