WO2018128207A1

WO2018128207A1 - 왜곡된 데이터에 대한 프라이버시 보호 시스템 및 방법{system and method for privacy presevation in skewed data}

Info

Publication number: WO2018128207A1
Application number: PCT/KR2017/000221
Authority: WO
Inventors: 홍충선; 수하일사바; 라즈샤시 판데이
Original assignee: 경희대학교 산학협력단
Priority date: 2017-01-06
Filing date: 2017-01-06
Publication date: 2018-07-12
Also published as: KR20180081261A

Abstract

본 발명의 실시예에 따른 프라이버시 보호 시스템은 왜곡된 데이터에 대한 프라이버시 보호 시스템에 관한 것으로서, 마이크로 데이터 테이블을 데이터 소유자가 결정한 파티션 개수로 나누는 테이블 분할부, 마이크로 데이터 테이블을 준식별자 테이블과 민감정보 테이블로 나누는 익명화 모듈, 특정 그룹의 속성값의 수를 전체 데이터테이블의 속성값의 갯수로 나눠 빈도 분포를 계산하는 빈도분포모듈 및 상기 빈도분포에 할당되어 낮은 빈도분포값이 더 많은 가중치를 부여하는 가중치부여부를 포함한다.

Description

[규칙 제26조에 의한 보정 20.01.2017]　왜곡된 데이터에 대한 프라이버시 보호 시스템 및 방법

본 발명은 왜곡된 데이터에 대한 프라이버시 보호 시스템 및 방법에 관한 것이다.

환자의 인구 통계, 진단 코드, 약물, 알레르기, 병력 및 실험실 검사 결과에 대한 정보를 포함하는 전자 건강 기록(EHR) 시스템의 데이터가 다양한 목적으로 점점 더 많이 사용되고 있다. PPDP(Privacy Preserving Data Publishing) 프라이버시 모델과 알고리즘은 데이터 제공자가 삭제 메커니즘을 통해 프라이버시와 유용성간의 균형을 이루도록 한다. 이에 대해 데이터의 유용성을 최소화 하면서 프라이버시를 보장하는 삭제 메커니즘을 어떻게 설계할 것인가에 대한 이슈가 존재한다. 그에 대한 해결방안으로 Sweeney [1] 는 준식별자를 사용하여 연결 공격을 방지하는 k-익명성을 제안하였고 현재는 널리 알려져있다. K-익명성 프라이버시 모델은 신원 노출을 방지하지만 속성값들의 노출에 대해서는 충분한 보호를 제공하지 못한다. 그러므로 매우 민감한 개인 정보(예: 환자 진단, 급여, 직업 등)가 포함된 속성값들은 노출될 가능성이 있다.

Machaanavajjhala 등[2]은 k-익명성 모델의 이러한 문제를 강조하고 개인과 이러한 민감 정보간의 연관성을 보호하는데 초점을 맞춘 프라이버시 모델인 l-다양성을 제안했다. L-다양성 모델은 각 동질집합의 민감한 속성에 대하여 적어도 하나의 구분되는 민감 정보 값이 있어야 함을 제안한다. 앞서 언급한 두 가지 기법 모두 준식별자 값을 일반화하여 프라이버시를 보장한다. 그러나 속성값 일반화의 심각한 단점은 마이크로 데이터 집합에서 준식별자 속성의 계층이 많아질수록 상당한 양의 정보를 잃어버린다는 것이다[3]. 또한 고차원 공간에서는 각 일반화된 값이 항상 넓은 간격을 갖게되므로 연구목적으로는 쓸모가없는 데이터 테이블이 된다. 이러한 문제를 해결하기 위해 Xiao 등은 마이크로 데이터 집합에서 프라이버시와 상관관계를 보존하는 기술을 제안하여 일반화의 단점을 극복한다. 그러나 Xiao가 [4]에서 제안한 기법을 (동일한 값을 갖는)왜곡된 데이터에 적용하면 동질집합에서 같은 질병을 갖는 환자의 정확한 수를 알아낼 수 있다.

특허의 목적은 아웃소싱을 통해 왜곡된 데이터에 대하여 개인의 프라이버시를 보호하고 데이터 집합의 유용성을 최적화하는데 있다.

여기서, 상기 테이블 분할부에서 결정된 각 파티션은 고유 식별자를 포함하며, 동일한 그룹에 속하는 모든 레코드에 고유 식별자는 동일할 수 있다.

여기서, 상기 익명화 모듈은 나이, 성별 및 우편번호로 이루어진 군에서 선택된 적어도 어느 하나의 요소를 포함하는 준식별자 테이블을 생성하는 준식별자 테이블모듈을 포함할 수 있다.

여기서, 상기 익명화 모듈은 질병, 장애로 이루어진 군에서 선택된 적어도 어느 하나의 속성을 포함하는 민감정보를 포함하는 민감정보 테이블을 생성하는 민감정보 테이블 모듈을 포함할 수 있다.

본 발명의 실시예에 따른 프라이버시 보호 방법은 왜곡된 데이터에 대한 프라이버시 보호 방법에 관한 것으로서, 마이크로 데이터 테이블을 준식별자 테이블과 민감정보 테이블로 분할하는 단계 상기 민감정보 테이블에 빈도분포를 연산하는 단계 및 상기 민감정보 테이블의 빈도분포에 따라서 가중치를 부여하는 단계를 포함한다.

여기서, 상기 가중치를 부여하는 단계는 빈도분포가 낮은 값을 갖는 경우 더 많은 가중치를 부여할 수 있다.

본 발명의 실시예에 따른 왜곡된 데이터에 대한 프라이버시 보호 시스템 및 방법에 의하면, EMR / EHR 데이터에서 환자의 프라이버시를 보호하고 데이터를 연구 및 분석 목적으로 사용할 수 있도록 한다.

도 1은 본 발명의 실시예에 따른 시스템 모델을 나타낸다.

도 2는 분할 마이크로 데이터 테이블 및 익명화된 테이블 스키마이다.

도 3은 본 발명의 실시예에 따른 익명화 테이블을 형성하는 과정을 나타내는 순서도이다.

도 4는 본 발명의 실시예에 따른 익명화 테이블을 예시도이다.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.

본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~사이에"와 "바로~사이에" 또는 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

이하 본 발명의 실시예에 따른 왜곡된 데이터에 대한 프라이버시 보호 시스템 및 방법에 관해서 도면을 통해서 상세히 설명한다.

도 1은 본 발명의 실시예에 따른 시스템 모델을 나타낸다. 마이크로 데이터 테이블은 분할되어 익명화 프로세스에 입력된다. 익명화 모듈은 마이크로 데이터 테이블을 두 개의 하위 익명화 테이블로 분할한다. QIT는 환자의 인구 통계 정보를 가지며 ST는 환자의 민감 정보를 갖는다. 사용자(연구원 또는 분석가)는 아웃소싱을 거쳐 익명화된 테이블에 대하여 쿼리를 할 수 있다.

정적 데이터를 제공하는 경우 몇몇 민감한 속성값들이 다른 민감한 정보와 비교하여 데이터 집합에서 많이 나타나면 공격자는 높은 확률로 개인의 민감 정보를 추론할 수 있다. 본 제안사항에서는 심장 질환을 가진 환자만을 다루는 병원을 예를 들어 설명한다. 마이크로 데이터 테이블에는 협심증, 당뇨병, 빈맥의 3가지 속성값을 갖는 24개의 레코드가 존재한다고 가정하자. (협심증 21명, 당뇨병 1명, 고혈압 2명)

이 경우 어떤 개인은 심장질환을 갖게 될 가능성이 높다. 따라서 몇몇 프라이버시 모델은 편향된 데이터의 비율을 낮추어 공격자가 개개인을 식별할 수 있는 확률을 낮추는데 필요하다.

이를 해결하기 위해 본 특허에서는 해부학적 접근법[4]을 확장한다. 마이크로 데이터 테이블을 QIT와 ST 두 개로 나눈다. QIT에서는 준식별자 속성값을 가지며 전체 데이터를 고유한 그룹 ID를 할당하여 나눈다. ST에서는 QIT의 각 그룹 ID와 고유 민감 정보 속성값들을 갖는다. ST에는 빈도 분포와 가중치 두 개의 추가 열이 존재한다. 빈도 분포 열은 준식별자 그룹의 각 민감 정보의 백분율을 전체 테이블의 해당 빈도와 관련된다. 가중치 열은 각 준식별자 그룹의 민감한 속성에 대해 숫자 값을 갖는다. 가중치가 높을수록 특정 민감 정보의 빈도가 준식별자 그룹에서 더 높다는 것을 나타난다.

제안된 개인 정보 보호 계획은 만성 질환으로 고통받는 환자의 의료 데이터 및 프라이버시를 보호하는데 사용될 수 있다. 익명화된 의료 정보의 배포는 연구자가 통계 분석(건강 또는 질병 발생 빈도의 성별 차이 연구), 데이터 마이닝(건강 관리 자원 활용, 임상 의사 결정 지원과 게놈 데이터 통합) 및 질병 연구 특정 지역의 심각성 등에 활용될 수 있다. 그 외에도 제약회사가 의사의 처방 패턴을 면밀히 조사하는데 도움이 될 수 있다.

- Partition / QI-Group Formation : 마이크로 데이터 테이블 레코드

마이크로 데이터 테이블 레코드는 파티션 또는 그룹으로 나누어지므로 모든 파티션에는 평균 테이블 수가 데이터 소유자가 결정한 파티션 개수로 나눠진다. 특정 그룹을 식별하기 위해서 각 그룹에 고유 식별자가 지정된다. 따라서 동일한 그룹에 속하는 모든 레코드에 대한 해당 ID 값은 동일하다

도 2에 도시된 바와 같이 마이크로 데이터 테이블을 준식별자 테이블(QIT)과 민감정보 테이블(ST)로 나눈다.

- Anonymization Module : 익명화 모듈

익명화 모듈은 마이크로 데이터 테이블을 준식별자 테이블(QIT)와 민감 정보 테이블(ST)이라는 두 개의 테이블로 나눈다. 테이블의 스키마는 다음과 같다.

a. QIT Schema:

준식별자 테이블은 예를 들어, 나이, 성별, 우편번호 등의 속성(숫자 또는 범주형)으로 구성된다. 그룹 식별자(G-ID)로 불리는 하나의 추가 열로 구성된다. QIT의 스키마는 다음과 같다: 준식별자 및 그룹 ID A1qi, A2qi,..., Anqi 에 대하여 (A1qi, A2qi,..., Anqi, G-ID )

b. ST Schema:

민감정보 테이블은 민감한 속성(카테고리), 예를 들어 질병 또는 장애 등으로 구성된다. 이 때 테이블에 존재하는 민감한 속성값이 많이 다르지 않다고 가정한다. 빈도 분포(FD)와 가중치라는 두 개의 추가 열로 구성된다. ST의 스키마는 다음과 같다 : (G-ID, AS, FD, W) G-ID는 준식별자 테이블에 할당된 그룹 식별자와 동일하며 AS 는 민감한 속성, FD는 빈도 분포, W는 민감한 속성의 각 분포에 할당된 가중치이다.

- Frequency Distribution and Weightage (FWD) Basic Module

a. Computation of Frequency Distribution:

빈도 분포를 계산하려면 특정 그룹의 민감한 속성값의 수를 전체 데이터 테이블의 민감한 속성의 총 개수로 나눈다.

b. Computation of Weightage:

가중치는 각 분포에 할당되어 낮은 빈도 분포 값이 더 많은 가중치가 주어지며, 높은 가중치 값은 가중치가 더 낮아진다. 이 정보는 익명화된 테이블에서 쿼리하는동안 사용자 또는 분석자가 사용한다.

도 3과 도 4에 도시된 바와 같이 본 발명의 실시예에 따른 익명화 테이블 형성과정은 마이크로 데이터 테이블은 그룹이라는 파티션으로 나누어지며 각 그룹에는 고유한 ID가 할당하는 단계, 빈도분포를 계산하려면 특정그룹의 민감한 속성값의 수를 전체데이터 테이블 속성의 총개수로 나누는 단계, 가중치를 부여하는 단계를 포함한다.

가중치를 부여하는 단계는 가중치는 각 분포에 할당되어 낮은 빈도분포값이 더 많은 가중치가 주어지며, 높은 가중치값은 가중치가 더 적게 할당되며, 이 정보는 익명화된 테이블에서 쿼리하는 동안 사용자 또는 분석자가 사용한다.

Claims

왜곡된 데이터에 대한 프라이버시 보호 시스템에 관한 것으로서,

마이크로 데이터 테이블을 데이터 소유자가 결정한 파티션 개수로 나누는 테이블 분할부;

마이크로 데이터 테이블을 준식별자 테이블과 민감정보 테이블로 나누는 익명화 모듈;

특정 그룹의 속성값의 수를 전체 데이터테이블의 속성값의 갯수로 나눠 빈도 분포를 계산하는 빈도분포모듈; 및

상기 빈도분포에 할당되어 낮은 빈도분포값이 더 많은 가중치를 부여하는 가중치부여부를 포함하는 것을 특징으로 하는 프라이버시 보호 시스템.
제1항에 있어서,

상기 테이블 분할부에서 결정된 각 파티션은 고유 식별자를 포함하며, 동일한 그룹에 속하는 모든 레코드에 고유 식별자는 동일한 것을 특징으로 하는 프라이버시 보호 시스템.
제1항에 있어서,

상기 익명화 모듈은 나이, 성별 및 우편번호로 이루어진 군에서 선택된 적어도 어느 하나의 요소를 포함하는 준식별자 테이블을 생성하는 준식별자 테이블모듈을 포함하는 것을 특징으로 하는 프라이버시 보호 시스템.
제1항에 있어서,

상기 익명화 모듈은 질병, 장애로 이루어진 군에서 선택된 적어도 어느 하나의 속성을 포함하는 민감정보를 포함하는 민감정보 테이블을 생성하는 민감정보 테이블 모듈을 포함하는 것을 특징으로 하는 프라이버시 보호 시스템.
왜곡된 데이터에 대한 프라이버시 보호 방법에 관한 것으로서,

마이크로 데이터 테이블을 준식별자 테이블과 민감정보 테이블로 분할하는 단계;

상기 민감정보 테이블에 빈도분포를 연산하는 단계; 및

상기 민감정보 테이블의 빈도분포에 따라서 가중치를 부여하는 단계를 포함하는 것을 특징으로 하는 프라이버시 보호 방법.
제5항에 있어서,

상기 가중치를 부여하는 단계는 빈도분포가 낮은 값을 갖는 경우 더 많은 가중치를 부여하는 것을 특징으로 하는 프라이버시 보호 방법.