KR102095744B1

KR102095744B1 - 무정형 빅데이터의 개인정보 비식별화 처리 방법

Info

Publication number: KR102095744B1
Application number: KR1020180037705A
Authority: KR
Inventors: 이원석; 우호진
Original assignee: 주식회사 보아라
Priority date: 2017-04-24
Filing date: 2018-03-30
Publication date: 2020-04-02
Also published as: KR20180119104A

Abstract

본 발명은, 무정형 빅데이터에 대해, 개인정보의 유출우려 없이 외부 시스템에 자유롭게 유통시킬 수 있도록 비식별화하는 빅데이터 처리 방법에 관한 것으로,
상기의 목적을 달성하기 위한 본 발명에 따른 무정형 빅데이터의 개인정보 비식별화 처리 방법은, 최소 개인중복수를 만족하는 빈발항목집합을 구한 후, 이를 기초로 하여, 각각의 상세 항목을 대상으로 데이터를 비식별화 처리하는 방법(상세항목기반 p-중복성 보장 트랜잭션 생성)과 유사한 항목을 그룹화하여 데이터를 비식별화 처리하는방법(일반화항복기반 p-중복성 보장 트랜잭션 생성)을 특징으로 하는 바,
본 발명에 따르면, 속성이 명확하지 않고, 한 트랜잭션에서도 항목들간의 관계가 복잡하게 상위 항목으로 합쳐질 수 있어서 복잡도가 높은 트랜잭션과 같은 무정형 데이터의 통계 데이터로서의 의미를 유지할 수 있으면서도, 조합이나 역추적에 의한 개인정보의 유출 가능성을 현저히 감소시킬 수 있게 된다..

Description

무정형 빅데이터의 개인정보 비식별화 처리 방법{PERSONAL DATA DE-IDENTIFICATION METHOD FOR FORMLESS BIG DATA}

본 발명은, 개인정보의 비식별화 처리 방법에 관한 것으로서, 특히, 무정형 빅데이터에 대해, 개인정보의 유출우려 없이 외부 시스템에 자유롭게 유통시킬 수 있도록 비식별화하는 처리 방법에 관한 것이다.

빅데이터란, 기존의 기업 환경이나 공공 기관에서 사용되는 정형화된 데이터는 물론, 전자상거래 데이터, 메타 데이터, 웹로그, 무선식별(RFID) 데이터, 센서 네트워크 데이터, 소셜 네트워크 데이터, 소셜 데이터, 인터넷 텍스트와 문서, 인터넷 검색 인덱싱 등 기존에 미처 활용되지 못하던 비정형화 또는 반정형화된 데이터를 모두 포함하는 데이터로서, 이와 같은 데이터는 일반적으로 보통의 소프트웨어 툴 및 컴퓨터 시스템으로는 다루기 어려운 수준의 데이터 양을 갖게 된다는 의미에서 빅데이터( Big Data)라 칭하고 있다.

빅데이터가 다양한 가치를 만들어내기 시작하면서, 사람들은 빅데이터를 원유에 비유하기 시작했다. 기름이 없으면 기기가 돌아가지 않듯이, 빅데이터 없이 정보시대를 보낼 수 없다는 의미에서다. 미국의 시장조사기관 가트너는 데이터는 미래 경쟁력을 좌우하는 21세기 원유라며 기업들은 다가오는 데이터 경제시대를 이해하고 이에 대비해야 한다라고 강조했다. 21세기 기업에게 가장 중요한 자산은 데이터이며 이를 관리하고 여기서 가치를 이끌어내지 못하면 경쟁에서 살아남을 수 없다는 뜻이다.

최근 들어, 기업뿐만 아니라 정부에서도, 다양하게 수집된 빅데이터 정보 및 그를 활용한 통계 분석 데이터를 의사 결정과 정책 결정 등에 적극적으로 활용하고자하는 시도가 이어지고 있으며, 빅데이터를 활용하여 데이터 중심의 컴퓨팅 환경을 구축하기 위한 빅데이터 처리 기술이 활발하게 연구되고 있다.

한편, 빅데이터는 해당 자료가 수집되는 조직 내에서 분석하여 활용하게 되지만, 자료를 수집하는 조직에 따라 수집되는 데이터의 속성에 차이가 있어 다른 조직의 자료를 활용할 필요가 발생하며, 자료를 수집할 능력이나 시스템이 갖추어져 있지 않은 조직의 경우에도 타 조직의 빅데이터나 그들의 조합으로부터 해당 조직이 독특하게 필요로 하는 정보를 분석하여 의사결정에 활용할 필요성이 대두되고 있다.

그러나, 빅데이터의 성격상 데이터의 양이 방대할 뿐만 아니라, 대부분의 빅데이터에는 개인신상에 대한 정보가 필연적으로 포함될 수 밖에 없는 바, 개인 신상 정보의 유출에 따른 법적 분쟁이 발생할 소지가 다분하기 때문에, 빅데이터의 조직간의 교류나 유통에는 한계가 있었으며, 이에 따라, 빅데이터의 수집이 가능한 조직의 입장에서는, 개인 신상정보 유출에 따른 법적 분쟁의 발생을 피하기 위해 빅데이터를 사업적 목적으로 가공하여 유통하기 보다는 대부분 통계적 정보 수준으로 가공하여 제공하고 있는 실정이며, 빅데이터의 활용을 필요로 하는 조직의 입장에서는 조직의 독특한 사업 환경에 꼭 필요로 하는 분석 자료를 획득하기가 어렵다는 문제점이 있었다.

상기의 문제점을 해결하기 위한 것으로, 데이터를 그룹화 한다거나, 마스킹, 치환, 반식별화, 유형화를 통해 개인 속성을 비식별화 하는 빅데이터 처리 시스템 및 방법이 일각에서 적용되고 있다.

마스킹은, 대상정보를 마스킹 또는 삭제하는 것이고( 예; 670101-10491910 ************** ), 치환은 대상정보에 대응하여 생성된 정보로 치환하는 것이며(예; 670101-10491910 ID2311331), 반식별화는 대상 정보의 일부만 나타내도록 반식별화하고(예; 670101-10491910 67-1), 유형화는 대상정보를 유형화시켜 구분하는 방식(예; 670101-10491910 남자)이다.

그러나, 마스킹, 치환, 반식별화, 유형화와 같은 종래의 빅데이터 처리 방식은, 정형 데이터의 비식별화는 가능하나, 일반적으로 개인이 마켓 구매 정보, 동선 정보 등의 항목들을 집합 형태로 모아서 구성되는 트랜잭션 정보와 같은 무정형 데이터에 대한 비식별화에는 적용될 수 없었다.

개인이 상점에 한번 방문하여 구매한 여러 제품들이나 개인이 한번에 이동한 GPS 이동 동선 내의 위치들을 항목이라고 표현하며, 개인의 마켓 방문 구매 정보, 동선 정보 등을 나타내는 항목들을 집합 형태로 모아서 이루어진 데이터를 트랜잭선이라고 하는 바, 이러한 트랜잭션은 범주형 항목들의 집합으로 일정한 형태가 없는 무정형 데이터이다.

이러한 무정형 데이터로부터도, 데이터 분석에 의해 개인의 식별화가 가능하다,

예를 들어, 개인에 대한 개인 신상 테이블이 표 1와 같고 트랜잭션 데이터베이스가 표 2와 같다 할 때, 표 2의 한 레코드는 한 개인이 한번 상점을 방문하여 구매한 상품들 정보를 나타낸다.

개인 신상 테이블

개인ID	이름	월급
UID1	이몽룡	210만원
UID2	성춘향	150만원
UID3	홍길동	95만원

개인별 트랜잭션 데이터베이스

TID	개인ID	항목들
TID 1	UID 1	우유, 식빵, 버터, 계란
TID 2	UID 2	식빵, 우유,계란
TID 3	UID 3	버터, 우유
TID 4	UID 1	식빵, 계란
TID 5	UID 2	우유, 계란, 커피
TID 6	UID 1	식빵, 라면
TID 7	UID 1	식빵, 버터

위 예에서, 일례로, 이몽룡이 계란과 버터를 구입했다는 사실을 알고 표 2의 트랜잭션 데이터베이스를 검색하면, TID1이 이몽룡의 구입 내역이라는 사실을 식별할 수 있으며, 이를 통해 이몽룡이 우유와 식빵도 같이 구입했다는 사실을 알 수 있다.

이와 같이, 구매한 트랜잭션들이 모인 데이터베이스에서 구매한 상품을 보고 특정 개인을 식별할 수 있게 되면 개인의 사생활이 노출되는 위험이 존재한다.

그러나, 앞서 서술한 바와 같은 마스킹, 치환, 반식별화, 유형화와 같은 종래의 비식별화 처리 방식은 정형 테이블에서 속성별로 정의된 상위 속성값을 치환하는 과정으로서, 속성이 명확하지 않고, 한 트랜잭션에서도 항목들간의 관계가 복잡하게 상위 항목으로 합쳐질 수 있어서 복잡도가 높은 트랜잭션과 같은 무정형 데이터에는 적용할 수 없다.

본 발명은, 이와 같은 문제점을 해결하기 위한 것으로, 항목 집합으로 이루어진 트랜잭션으로 구성된 무정형 빅데이터의 비식별화 처리 방법을 제공하는 데 그 목적이 있다.

상기의 목적을 달성하기 위한 본 발명에 따른 무정형 빅데이터의 개인정보 비식별화 처리 방법은, 최소 개인중복수를 만족하는 빈발항목집합을 구한 후, 이를 기초로 하여, 각각의 상세 항목을 대상으로 데이터를 비식별화 처리하는 방법(상세항목기반 p-중복성 보장 트랜잭션 생성)과 유사한 항목을 그룹화하여 데이터를 비식별화 처리하는방법(일반화항복기반 p-중복성 보장 트랜잭션 생성)을 특징으로 하는 바,

본 발명에 따른 상세항목기반 p-중복성 보장 트랜잭션 생성 방법은, 통신부, 처리부 및 저장부를 구비하는 데이터 서버에서 수행되며, 트랜잭션을 포함하는 무정형 빅데이터를 비식별화 처리하는 빅데이터 처리방법에 있어서, 원본 데이터베이스(D)의 트랜잭션을 구성하는 항목집합에 대해 해당 항목집합의 트랜잭션을 발생시킨 개인들의 총 숫자인 개인중복수(P)를 산출하는 단계; 상기 항목집합 중, 미리 설정된 최소 개인중복수(p) 이상인 빈발 항목집합(F)을 추출하는 단계; 원본 데이터베이스(D)에 포함되어 있는 각각의 원본 트랜잭션에 내의 빈발 항목집합 중 길이가 가장 긴 최대 빈발항목집합을 비식별화 데이터베이스의 트랜잭션 데이터로 생성하고, 상기 원본 데이터베이스의 상기 해당 트랜잭션에서 상기 최대 빈발항목집합에 대응되는 항목을 삭제하는 단계; 상기 삭제 단계 이후, 상기 해당 트랜잭션에 상기 빈발 항목집합에 속하는 항목이 남아 있는 경우, 상기 원본 트랜잭션을 대상으로 다음 길이 빈발항목집합에 대해 상기 비식별화 트랜잭션 데이터 생성 단계 및 상기 항목집합 대응항목 삭제 단계를 수행하는 단계를 반복하되, 상기 원본 트랜잭션에 빈발하지 않은 1-항목들만 남거나 아무 항목도 남지 않을 때까지 상기 비식별화 트랜잭션 데이터 생성 단계와 상기 항목집합 대응항목 삭제 단계를 수행하는 단계;를 포함하는 것을 특징으로 한다.

이와 같이 일반화항목기반 p-중복성 보장 트랜잭션 생성 방법에 의해 생성되는 트랜잭션 데이터베이스는, 원본의 트랜잭션이 분리되는 단점이 있으나, 생성된 트랜잭션 데이터베이스에 원본의 상세 항목이 그대로 나타내므로 정확성을 최대한 보장할 수 있게 된다.

본 발명의 또 다른 특징에 따른, 일반화항복기반 p-중복성 보장 트랜잭션 생성 방법은, 통신부, 처리부 및 저장부를 구비하는 데이터 서버에서 수행되며, 트랜잭션을 포함하는 무정형 빅데이터를 비식별화 처리하는 빅데이터 처리방법에 있어서, 원본 데이터베이스(D)의 트랜잭션을 구성하는 항목집합에 대해 해당 함목집합의 트랜잭션을 발생시킨 개인들의 총 숫자인 개인중복수(P)를 산출하는 단계; 상기 항목집합 중, 미리 설정된 최소 개인중복수(p) 이상인 빈발 항목집합(F)을 추출하는 단계; 원본 데이터베이스(D)의 원본 트랜젝션들을 길이의 역순으로 정렬하는 단계; 원본 트랜젝션(T_j) 에 나타나는 빈발 항목집합들 중 길이가 가장 긴 최대 빈발항목집합(w)을 선택하는 단계; 상기 원본 트랜젝션들 중에 상기 선택된 w를 포함하면서 상기 원본 트랜젝션 (T_j)보다 길이가 긴 원본 트랜잭션들을 모두 찾아 각 트랜잭션에서 상기 최대 빈발항목집합(w)에 대응되는 항목을 삭제하여, 상기 원본 트랜젝션(T_j)의 일반화 트랜잭션집합(G(T_j))을 생성하는 단계; 상기 원본 트랜잭션(T_j)에 있으면서 상기 선택된 최대 빈발항목집합(w)에 포함되지 않은 각각의 1-항목(x)에 대해, x가 빈발 1-항목인 경우, 상기 1-항목(x)을 상기 원본 트랜잭션(T_j)의 일반화대상 항목집합(Q(T_j))에 부가하고, 상기 1-항목(x)이 빈발 1-항목이 아닌 경우, 상기 항목(x)의 상위 항목(y) 중 최소 개인중복수 임계값 이상이면서 가장 낮은 개인중복수 값을 갖는 상위 항목(y)을 일반화대상 항목집합(Q(T_j))에 부가하고, 상기 일반화 트랜잭션집합(G(T_j))에 있는 해당 빈발 1-항목(x)를 상위 항목(y)으로 변경하는 단계; 상기 일반화 트랜잭션집합(G(T_j))에 있는 트랜잭션들에 대해서 상기 일반화대상 항목집합(Q(T_j))에 있는 각 1-항목들의 개인중복수를 새로 구하고, 개인중복수 값의 역순으로 일반화 항목들의 항목순서를 부여하는 단계; 상기 원본 트랜잭션(T_j)에 대해서, 상기 최대 빈발항목집합(w)과 상기 일반화대상 항목집합(Q(T_j))의 모든 항목들을 연결한 연결 항목집합(v)의 개인중복수를 상기 일반화 트랜잭션집합(G(T_j))에 대해서 구하는 단계; 상기 연결 항목집합(v)의 개인중복수가 최소 개인중복수 임계값(p) 미만인 경우, 상기 일반화대상 항목집합(Q(T_j))의 항목들 중 1-항목 개인중복수가 가장 낮은 1-항목(q)에 대해 상기 일반화대상 항목집합(Q(T_j))과 상기 일반화 트랜잭션집합(G(T_j))에 있는 트랜잭션들에 나타나는 상기 모든 항목 1-항목(q)을 상위 항목(r)으로 변경하고, 상기 일반화 트랜잭션집합(G(T_j))에서 상기 최대 빈발항목집합(w)에 포함되지 않는 항목이면서 새로 변경된 상기 상위 항목(r)의 하위 항목들을 모두 상위 항목(r)로 변경한 후 상기 연결 항목집합(v)을 다시 구하는 단계; 상기 연결 항목집합(v)의 개인중복수가 최소 개인중복수 임계값(p) 이상인 경우, 상기 연결 항목집합(v)을 비식별화 데이터베이스의 트랜잭션 데이터(S_j)로 생성하는 단계; 를 포함하는 것을 특징으로 한다.

본 발명의 일반화항목기반 p-중복성 보장 트랜잭션 생성 방법에 의해 생성되는 트랜잭션 데이터베이스는, 각 트랜잭션에 있는 항목이 카탈로그 테이블의 상위 항목으로 변경될 수 있으므로, 항목의 정확도는 전술한 상세속성 기반 p-중복성 보장 트랜잭션 생성 방법에 의해 생성된 트랜잭션 데이터베이스보다는 상대적으로 낮게 되지만, 원본 트랜잭션의 총수를 그대로 보존하면서 각 트랜잭션에 있은 항목의 수도 최대한 보존할 수 있게 된다.

본 발명에 따르면, 속성이 명확하지 않고, 한 트랜잭션에서도 항목들간의 관계가 복잡하게 상위 항목으로 합쳐질 수 있어서 복잡도가 높은 트랜잭션과 같은 무정형 데이터의 통계 데이터로서의 의미를 유지할 수 있으면서도, 조합이나 역추적에 의한 개인정보의 유출 가능성을 현저히 감소시킬 수 있게 된다.

도 1은 본 발명의 빅데이터 처리 시스템을 형성하는 데이터 중심 컴퓨팅 환경을 설명하는 예시도.
도 2는 도 1에 도시한 데이터 서버의 주요 구성을 나타내는 블록도.

도 1을 참조하면, 본 발명의 빅테이터 처리 시스템을 형성하는 데이터 중심의 컴퓨팅 환경은 데이터 서버(110)와 데어터 서버와 유무선 네트워크를 통해 연결되는 다수의 사용자 단말(120)에 의해 구축될 수 있다.

데이터 중심의 컴퓨팅(data-centric computing) 환경이란 다수의 사용자 단말(120)에서 실시간으로 생성되는 데이터를 활용하여 소셜 네트 워크 서비스(Social Network Service, SNS), 스마트 그리드(smart grid), 지능형 가전, 실시간 스트리밍 또는 실시간 의사 결정 등의 다양한 응용 프로그램을 제공할 수 있는 빅데이터 처리에 기반한 기술을 의미한다.

본 발명에 따른 빅데이터 처리 시스템 및 방법은, 다수의 사용자 단말(120)과 연결된 데이터 서버(110)에 의해 구현되는 바, 다수의 사용자 단말(120)에서 생성되는 데이터를 수집하고 이를 처리한 후 저장하고, 저장된 데이터를 소요로 하는 사용자 단말(120)에 제공함으로써, 데이터 중심의 컴퓨팅 응용이 수행될 수 있는 환경이 구축된다.

여기에서, 사용자 단말(120)은 데이터 서버(110)와 연결되도록 통신 장치를 탑재하고, 사용자 단말(120)의 운용에 따라 데이터가 생성되도록 정보 처리 기능을 구비하는 컴퓨터, 노트북과 같은 정보 처리 단말, 스마트폰, 태블릿 PC, PDA(Personal Digital Assistant) 등의 이동 통신 단말, 스마트 가전 기기, 무선식별(RFID) 데이터, 블랙 박스 또는 네비게이션이 운용되는 자동차, 기차, 비행기와 같은 교통 수단 등을 의미할 수 있으나 이에 한정되는 것은 아니다.

도 2에 도시된 바 와 같이, 데이터 서버(110)는 통신부(113)를 통해 다수의 사용자 단말(120)과 근거리 무선 통신, 와이파이, 3G(3Generation), LTE(Long Term Evolution)과 같은 유무선 네트워크로 연결되어 사용자 단말(120)에서 생성된 데이터를 수집하여 저장부(112)에 저장하고, 일반적으로 복수의 프로세서로 이루어지는 처리부(111)에 의해 수집된 데이터를 처리하여 저장하는 클라우드 서버 또는 웹 서버를 의미할 수 있으나 이에 한정되는 것은 아니다.

유무선 네트워크를 통해 연결된 단말들(120)로부터 통신부(113)를 통해 수집되는 원본 데이터는 데이터 서버(110)의 저장부(112)에 저장된다.

최근 들어 네트워크 기술의 발달 및 스마트 폰의 비약적인 보급으로 인해, 기업 및 기관에서 운영중인 빅데이터 처리 시스템에서 하루에 생산되는 로그의 량은 수십 ~ 수백 기가바이트까지 증가 되었으며, 원본 빅데이터의 사이즈는 테라바이트를 초과하여 엑사바이트 또는 제타바이트의 범위를 가질 수도 있게 되었다.

본 발명에 따른 처리부(111)는 저장부(112)에 저장되어 있는 대용량의 빅데이터를 적절하게 비식별화 처리, 유통용의 비식별 빅데이터로 가공하여 저장부(112)에 저장하게 되며, 저장부(112)에 상대적으로 소용량으로 저장된 유통용 비식별 빅데이터는 서버의 통신부(113) 및 통신망을 통해 이의 분석 및 활용이 필요한 소요처로 전송된다.

이하, 본 발명의 무정형 빅데이터의 개인정보 비식별화 처리 방법을 구체적으로 설명한다.

먼저, 빈발항목집합 형성 방법에 대해 설명한다.

개별 트랜젝션에 나타날 수 있는 개별 요소들을 항목, 모든 항목들을 전체항목집합, 항목집합의 부분집합을 부분항목집합이라 하기로 한다. 즉, 이마트에서 팔리는 모든 상품이 이마트의 전체항목집합이 되고 개별 구매자가 한번 방문으로 구매한 상품들을 집합으로 표현한 것이 그 구매자의 한 트랜젝션이 된다.

Step 1) 항목별 개인중복수 구하기

트랜잭션 데이터베이스에서 최소지지도 임계값 이상의 지지도를 갖는 빈발항목집합을 탐사하는 방법은 1994년 Apriori 방법 소개 이후 많은 방법들이 소개되었는 바, 본 발명에서는 Apriori 방법에서 '항목의 지지도 개념인 총 트랜잭션수에 대한 항목이 나타난 트랜잭션수의 비율'을 사용하지 않고, '항목이 나타난 트랜잭션을 발생시킨 개인들의 총수'를 개인 중복수(P)로 정의하여, 개인별 생활정보의 비식별화에 사용한다.

즉, 여러 명의 생활로그를 갖는 트랜젝션 데이터베이스에 대해 특정 항목을 갖고 있는 사람의 수를 해당 항목의 개인중복수(P)라고 명명하고 아래와 같이 정의한다.

P(i) = 항목 i를 담고 있는 트랜잭션을 발생시킨 개인의 수

이하, 설명은 상기 표 2의 개인별 트랜잭션 데이터베이스를 예로 들어 설명하는 바, 항목별 개인중복수(P)를 구하기 위해, 표 2를 구매자별로 재구성하여 표 3과 같이 개인별로 구매한 모든 상품 내역을 만들고, 표 4와 같이, 각 항목 및 부분항목집합에 대해 개인중복수(P)를 구한다.

개인별 구매 내역 DB

개인 ID	항목들
UID 1	우유, 식빵, 버터, 계란, 라면
UID 2	우유, 식빵, 계란, 커피
UID 3	우유, 버터

항목별 개인중복수

항목(x)	개인중복수(P(x))	항목집합	개인중복수(P(x))
우유	3	우유식빵,	2
식빵	2	우유버터	2
버터	2	우유계란	2
계란	2	식빵계란	2
라면	1	계란커피	1
커피	1	우유식빵계란	2
		우유식빵버터	1
		...

Step 2) 최소 개인중복수를 만족하는 빈발항목집합 구하기

항목 i의 개인중복수 P(i)가 최소 개인중복수(p)보다 크거나 같으면 항목 i를 빈발항목이라고 정의한다. 최소 개인중복수(p)는 분석되는 데이터의 성격에 따라 그 값을 특정하여 사용할 수 있는 데, p값이 커질수록 비식별화 정도는 높아지지만, p값이 무한대라면, 결국 데이터베이스의 모든 내용의 구분이 불가능할 것이며, 반대로 p값이 1이라면, 기존의 데이터베이스와 동일한 형태로 모든 값의 구별이 가능하게 되므로, 분석되는 데이터의 성격에 따라 적절한 값을 설정한다.

n명에 대한 트랜젝션 데이터베이스가 p-중복성을 지키기 위해서는 개별 트랜젝션의 모든 부분항목집합 x가 최소 p명의 각기 다른 개인들의 한 트랜젝션에 나타나야 한다. 즉 개인중복수 P(x)>=p 이어야 한다. 따라서, 표 2의 데이터베이스에서 2-중복성을 지키기 위해서는 각 트랜젝션에 있는 모든 부분항목집합 x의 개인중복수 P(x)가 최소 2보다 크거나 같아 한다. 표 4의 항목별 개인중복수 테이블로부터, 최소 개인중복수(p)=2 이상의 빈발항목집합은 아래와 같이 총 9개 항목집합을 갖게 된다.

{우유, 식빵, 계란, 버터, 우유 식빵, 우유 계란, 식빵 계란, 우유 버터, 우유 식빵 계란}

위와 같이, 주어진 트랜잭션 데이터베이스에서 모든 빈발 항목집합을 찾은 이후에 이를 기반으로 각 트랜잭션을 p-중복성을 보장하는 트랜잭션으로 비식별화한다.

앞서 언급한 바와 같이, p-중복성(최소개인중복수를 p로 설정했을 때의) 비식별 트랜잭션 생성 방법은 상세항목 기반 트랜잭션과 일반화항목 기반 트랜잭션의 2가지 종류로 구분된다.

먼저, 상세항목기반 p-중복성 트랜잭션 데이터베이스 변환 방법에 대해 설명한다.

원본 트랜잭션 데이터베이스의 각 원본 트랜잭션별로 변환 과정을 수행하게 되는 데, 이하, 최소 개인중복수(p)=2일 때를 예를 들어, 상세항목기반 2-중복성 트랜잭션을 생성하는 단계을 설명한다.

설명의 편의를 위해 각 단계에서 사용되는 주요 용어 및 기호를 정리하면 다음과 같다.

- 최소 개인중복수(p)

- 원본 트랜잭션 데이터베이스 D = { T₁, T₂, … T_n}, 총 n 개의 트랜잭션

- 빈발항목집합 셋 F = { f₁, f₂, …., f_q }, f_k는 빈발항목집합 s.t.f_k의 개인중복수 P(f_r) >= p 1<=k<=q

- 최대 빈발항목집합(MFI;Maximal Frequent Itemset) : 빈발항목집합들 중 길이가 가장 긴 빈발항목집합

Step 1) D에 있는 각 원본 트랜잭션별T_j별로 F의 빈발항목집합들 중에 T_j에나타나는 빈발항목집합이 있으면 이중 가장 긴 빈발항목집합 즉, 최대 빈발항목집합 w를 선택한다. 이때 만약 최대 빈발항목집합이 여러 개 존재할 경우 빈발항목집합의 개인중복수가 가장 높은 항목집합을 w로 선택한다. 선택된 w를 T_j의 상세항목기반 p-중복성 트랜잭션S_j로 생성한다(S_j=w). 그리고 원본 트랜잭션T_j에서 w를 삭제한다(T_j= T_j- w).

Step 2) T_j가 공집합이거나 T_j에 빈발하지 않은 1-항목들만 남을 때까지 T_j에 대해 Step 1)을 반복한다.

Step 3) D에 있는 모든 원본 트랜잭션들에 대해서 (1),(2)의 과정을 반복한다.

이하, 위 과정을 실예를 들어 설명한다.

표 2의 원본트랜잭션 데이터베이스에 대해 표 4의 빈발 3-항목집합을 먼저 적용하면 원본 트랜잭션 TID1과 TID2가 빈발 3-항목집합 <우유,계란,식빵>에 매칭되므로, 2-중복성 보장 트랜잭션을 각각 생성한 결과는 표 5과 같이 되며, 빈발 3-항목집합이 <우유,계란,식빵>을 삭제한 원본 트랜잭션의 중간 결과는 표 6과 같이 된다.

2-중복성 보장 트랜잭션

p-중복성 ID	p-중복성트랜젝션	원본트랜젝션 ID	사용자ID
AID 1	<우유,계란,식빵>	TID 1	UID 1
AID 2	<우우,계란,식빵>	TID 2	UID 2

빈발 3-항목집합 처리 이후 원본 트랜잭션 데이터베이스

TID	개인 ID	항목들
TID 1	UID 1	버터
TID 2	UID 2
TID 3	UID 3	버터, 우유
TID 4	UID 1	식빵, 계란
TID 5	UID 2	우유, 계란, 커피
TID 6	UID 1	식빵, 라면
TID 7	UID 1	식빵, 버터

이어서, 빈발 2-항목집합을 표 6의 중간 원본 트랜잭션에 적용하면, 표 7과 같이 2-중복성 보장 트랜잭션이 추가되고, 표 8과 같이 원본 트랜잭션들이 변경된다.

2-중복성 보장 트랜잭션

p-중복성ID	p-중복성트랜젝션	원본트랜젝션 ID	사용자ID
AID 1	<우유,계란,식빵>	TID 1	UID1, UID2
AID 2	<우우,계란,식빵>	TID 2	UID1, UID2
AID 3	<우유,계란>	TID 5	UID1, UID2
AID 4	<우유,버터>	TID 3	UID1, UID3
AID 5	<계란,식빵>	TID 4	UID1, UID2

빈발 3-항목집합 처리 이후 원본 트랜잭션 데이터베이스

TID	개인 ID	항목들
TID 1	UID 1	버터
TID 2	UID 2
TID 3	UID 3
TID 4	UID 1
TID 5	UID 2	커피
TID 6	UID 1	식빵, 라면
TID 7	UID 1	식빵,버터

다음으로, 빈발 1-항목집합을 표 8의 중간 원본 트랜잭션에 적용하면 표 9와 같이 2-중복성 보장트랜잭션이 추가되고, 원본 트랜잭션들은 표 10과 같이 변경된다.

2-중복성 보장 트랜잭션

p-중복성 ID	p-중복성트랜젝션	원본트랜젝션 ID	사용자ID
AID 1	<우유,계란,식빵>	TID 1	UID1, UID2
AID 2	<우우,계란,식빵>	TID 2	UID1, UID2
AID 3	<우유,계란>	TID 5	UID1, UID2
AID4	<우유,버터>	TID3	UID1, UID3
AID 5	<계란,식빵>	TID 4	UID1, UID2
AID 6	<버터>	TID 1	UID1, UID3
AID 7	<식빵>	TID 6	UID1, UID2
AID 8	<식빵>	TID 7	UID1, UID2

빈발 2-항목집합 처리 이후 원본 트랜잭션 데이터베이스

TID	개인 ID	항목들
TID 1	UID 1
TID 2	UID 2
TID 3	UID 3
TID 4	UID 1
TID 5	UID 2	커피
TID 6	UID 1	라면
TID 7	UID 1

표 10의 모든 트랜잭션들에 항목이 없거나 빈발하지 않은 1-항목들만 남았으므로 2-중복성 트랜잭션 생성과정을 종료한다.

최종적으로 8개의 생성된 상세항목기반 2-중복성 보장 트랜잭션들(AID1 - AID8)을 원본 드랜잭션 ID(TID) 및 사용자 ID(UID)정보를 삭제하여, 표 11과 같이 최종 결과로 생성한다.

최종 2-중복성 보장 트랜잭션 데이터베이스

p-중복성 ID	p-중복성트랜젝션
AID 1	<우유,계란,식빵>
AID 2	<우우,계란,식빵>
AID 3	<우유,계란>
AID4	<우유,버터>
AID 5	<계란,식빵>
AID 6	<버터>
AID 7	<식빵>
AID 8	<식빵>

다음으로, 일반화항목기반 p-중복성 보장 트랜잭션 생성 과정에 대해 설명한다.

슈퍼에서 판매하는 상품들은 유사한 상품들을 그룹화한 카테고리로 분류한다. 즉, 삼양 라면의 상위 카테고리는 라면이고 라면의 상위 카테고리는 음식이라고 정의할 수 있다.

일반화항목기반 p-중복성이란 모든 상품들의 카테고리 분류 테이블이 주어졌을 때 p-중복성을 만족하지 못하는 개별 상세 상품을 상위 카테고리로 대입하면서 원본트랜잭션의 항목들이 p-중복성을 최대한 만족하게 생성하는 방법이다.

일반화항목기반 2-중복성보장 트랜잭션은 다음과 같은 과정으로 생성된다.

- 최소 개인중복수 임계값 p

- 원본 트랜잭션 데이터베이스 D, 총 n 개의 트랜잭션(각 트랜잭션의 항목은 상세 1-항목으로 구성됨)

- 빈발항목집합 셋 F = { f₁, f₂, …., f_q },

f_k는 빈발항목집합 s.t.f_k의 개인중복수(f_k) >= p, (1<=k<=q)

- 1-항목 카테고리 테이블

상세 1-항목 x의 부모 항목 z, 일반화 1항목 z의 부모 항목 y,항목 y는 항목 x의 조상 항목

일례로, 표 2의 원본트랜잭션에 나타나는 항목들의 카테고리 테이블은 표 12와 같이 될 수 있다.

카테고리 테이블

항목(x)	1 ^st 부모 카타고리	2 ^nd 부모 카타고리	3 ^rd 부모 카타고리
우유	건강음료	음료	any
계란	육류	음식	any
버터	육류	음식	any
식빵	제빵류	음식	any
라면	간식	음식	any
커피	기호음료	음료	any

Step 1) 원본 데이터베이스 D의 트랜잭션들을 길이의 역순으로 정렬한다.

- 길이 역순 순서 = { T₁, T₂, … T_n} 로 정의함

Step 2) 반복 변수를 1로 세팅(j=1)

Step 3) 트랜젝션Tj에 나타나는 최대 빈발항목집합(MFI )인 w를선택한다.

만약 MFI가 여러개 존재하는 경우, 개인중복수가 가장 높은 최대 빈발항목집합을 w로 선택한다. (예로서, 표 2의 TID 5에서 MFI를 선택하면 w=<우유,계란>이 된다.)

Step 4) 원본 데이터베이스내에서 w를 포함하고 w보다 길이가 긴 원본 트랜잭션들을 T_g1, T_g2,……T_gc (|T_g>= ||w|)라 할 때, 이 트랜잭션에서 w를 삭제하여(G_k= {T_gk - w}), 일반화대상 항목집합 Q(T_j) = {Q₁, Q₂,…Q_c}으로 생성한다.(예로서, 표 2에서 TID 5의 일반화대상 항목집합 Q = {커피}가 된다.)

Step 5) 트랜잭션 T_j에 있으면서 Step 3에서 선택한 w를 포함하지 않는 각 1-항목에 대해, x가 빈발 1-항목이면 x를 T_j의 일반화대상 항목집합 Q(T_j)에 넣고, x가 빈발 1-항목이 아닌 경우, 최소 개인중복수 임계값 이상이면서 가장 낮은 개인중복수 값을 갖는 x의 상위항목 y를 일반화대상 항목집합 Q(T_j)에 넣고, T_j의 일반화 트랜잭션집합 G(T_j)에 있는 모든 x를 y로 변경한다.

Step 6): G(T_j)에 있는 트랜잭션들에 대해서 일반화대상 항목집합 Q(T_j)에 있는 각 1-항목들의 개인중복수를 새로 구하고 개인중복수 값의 역순으로 일반화 항목들의 항목순서를 다시 정한다.

Step 7) 트랜잭션 T_j에 대해서 Step 2에서 선택한 w와 Q(T_j)의 모든 항목들을 연결한 항목집합 v (v={w union Q(T_j)})의 개인중복수를 G(t)에 대해서 구하고, 만약 이 항목집합 v의 개인 중복수가 최소 개인중복수 임계값 p 이상이면 Step 9를 수행한다.

Step 8) 만일, 위 연결 항목집합 v의 개인중복수가 최소 개인중복수 임계값p 미만이면, Q(T_j)의 항목들 중에 1-항목 개인중복수가 가장 낮은(항목순서가 가장 마지막인) 1-항목 q에 대해 Q(T_j)와 G(T_j)에 있는 트랜잭션들에 나타나는 모든 항목 q를 q의 1단계 상위항목 r로 변경한다. 또한 G(T_j)에서 Step 3에서 선택한 w에 포함되지 않는 항목이면서 새로 변경된 상위항목 r의 하위항목들을 모두 r로 변경한 후 Step 7을 수행한다.

Step 9) 위 연결 항목집합 v를 원본 트랜잭션 T_j의 일반화 항목기반 p-중복성 보장 트랜잭션 S_j로 생성한다.

Step 10) j=j+1, 만약 j>n면 종료 아니면 Step 3를 수행한다.

이하, 위 과정을 알기 쉽게 예를 들어 설명한다.

아래 예는, 표 2의 원본 트랜잭션 데이터베이스 및 표 12의 상위카탈로그 테이블을 대상으로 하여, 표 16에 예시된 바와 같은, 일반항목기반 2-중복성 보장 트랜잭션을 생성하는 과정으로, 표 2의 각 트랜잭션별로 2-중복성보장 트랜잭션을 생성하는 과정을 예를 들어 설명한다.

[TID 1] 먼저, 표 2의 트랜잭션 TID 1=<우유,계란,식빵,버터>에 대해서 최대 빈발항목집합(MFI)으로, 3-항목집합인 <우유,계란,식빵>이 선택되고, Q={버터}가 된다.

원본 데이터베이스에 길이가 4인 트랜잭션이 오직 TID 1 하나이고 G(TID 1)에도 TID 1만 존재하므로, 버터의 모든 상위 항목들의 개인중복수는 1이 되어 최소 개인중복수 임계값인 2 미만이 된다. 따라서 최대 빈발항목집합인 <우유,계란,식빵>만을 일반화항목기반 2-중복성 보장 트랜잭션으로 생성한다.

[TID 2] 길이가 3인 원본 트랜잭션 TID 2에서 최대 빈발항목집합(MFI )은 <우유,계란,버터>이고, Q={}이 되어, 빈발하지 않은 1-항목이 존재하지 않으므로 원본트랜잭션을 그대로 2-중복성 보장 트랜잭션으로 생성한다.

[TID 3, 4] 원본트랜잭션 TID 3와 TID 4는 트랜잭션 TID 2와 동일하게 빈발 2-항목집합 자체가 트랜잭션이으로, 이들 각각에 대해서 2-중복성보장 트랜잭션을 각각 생성한다.

[TID 5] 원본 트랜잭션 TID 5 = <우유,계란,커피>에서 최대 빈발항목집합(MFI)은 <우유,계란>이 유일하게 존재하므로 Q={커피}가 된다. 선택된 <우유,계란>을 갖고 있으면서 길이가 3 이상인 트랜잭션 즉, 일반화 트랜잭션집합G(TID5)은 표 13과 같이 3개가 존재한다.

G(TID5)에서 커피의 상위항목 기호음료와 음료의 개인중복수

TID	원본트랜잭션	G( TID5 )	상위항목 변경내역	UID
TID 1	우유, 계란, 버터, 식빵	버터, 식빵		UID1
TID 2	우유, 계란 버터	버터		UID2
TID 5	우유, 계란, 커피	기호음료 (음료)	커피->기호음료, 커피->음료	UID3

표 13에서 G(TID5)에 대해 Q에 있는 상세 1-항목 커피의 상위 1-항목인 기호음료와 음료의 개인중복수를 구하면 모두 1이 되어 빈발하지 않으며 커피의 상위항목으로 일반화 레벨이 낮으면서 빈발한 일반화 1-항목은 any가 된다.

G(TID 5)에서 상세항목 커피를 상위항목으로 일반화 레벨이 가장 낮은 상위항목인 any로 변경한다. 이때 버터 및 식빵이 모두 최상위항목인 any를 상위 항목으로 갖고 있으므로, 표 14와 같이 G(TID 5)의 모든 트랜잭션에서 이들 상세항목들도 모두 any로 변경한다. 따라서, 개인중복수(any)=3(UID1,UID2,UID3)이 되어 최소 개인중복수 임계값 이상이 된다.

G(TID 5)에서 커피의 상위항목 any의 개인중복수

TID	원본트랜잭션	G( TID5 )	상위항목 변경내역	UID
TID 1	우유, 계란, 버터, 식빵	any , any	버터->any, 식빵->any	UID1
TID 2	우유, 계란 버터	Any	버터->any	UID2
TID 5	우유, 계란, 커피	any	커피->any	UID3

따라서 최종적으로 TID 5에 대해서 선택한 빈발 상세항목인 <우유,계란>과 G(TID)의 빈발 일반화 항목집합 <any>를 결합한 <우유,계란,any>를 2-중복성보장 트랜잭션으로 생성한다.

[TID 6] 트랜잭션 TID 6에 대해서는 TID 6에 빈발 1-항목집합 식빵만 있으므로 Q={라면}이 된다. 표 15과 같이 라면의 상위 항목들 중에 일반화 레벨이 가장 낮으면서 1-항목 개인중복수가 임계값 이상인 상위 항목은 음식이 된다(음식의 개인중복수=2 (UID1, UID2)이므로).

G(TID 6) 및 라면의 상위항목 음식의 개인중복수

TID	상세항목	G( TID6 )	상위항목 변경내역	UID
TID 1	식빵, 우유, 계란, 버터	우유, 음식,음식	계란->음식, 버터->음식	UID1
TID 2	식빵,우유,계란	우유, 음식		UID2
TID 4	식빵 계란	음식	계란->음식	UID1
TID 6	식빵,라면	음식	라면->음식	UID1
TID 7	식빵,버터	음식	버터->음식	UID1

G(TID 6)의 모든 트랜잭션에서 음식의 하위 항목들을 모두 음식으로 변경하면 결과적으로 Q의 상세항목 라면을 상위항목 음식으로 변경한 2-항목집합 <식빵,음식>의 개인중복수 값이 2가 되어 TID 6에 대해 새로운 2-중복성 보장 트랜잭션<식빵,음식>이 생성된다.

[TID 7] 마지막 원본 트랜잭션 TID 7에 대해서도, 개인중복수(<식빵,버터>)=1이므로, 빈발 1-항목인 <식빵>에 대해 Q={버터}가 된다. 따라서 버터의 상위항목인 음식으로 변경하면, 표 15와 같이 되므로, <식빵,음식>의 2-중복성 보장 트랜잭션을 생성한다.

표 16은 이상과 같이 생성된 모든 일반화 항목기반 2-중복성 보장 트랜잭션들을 보여준다.

최종 일반화항목기반 2-중복성 보장 트랜잭션 데이터베이스

p-중복성AID	p-중복성트랜젝션	원본트랜젝션 ID	사용자ID
AID 1	<우유,계란,식빵>	TID 1	UID 1
AID 2	<우우,계란,식빵>	TID 2	UID 2
AID 3	<우유,버터>	TID 3	UID 3
AID4	<계란,식빵>	TID4	UID 1
AID 5	<우유,계란,any>	TID 5	UID 2
AID 6	<식빵,음식>	TID 6	UID 1
AID 7	<식빵, 음식>	TID 7	UID 1

본 발명에 따른 일반화항목기반 p-중복성 보장 트랜잭션 생성 방법의 의해 생성되는 트랜잭션 데이터베이스는, 각 트랜잭션에 있는 항목이 카탈로그 테이블의 상위 항목으로 변경될 수 있으므로, 항목의 정확도는 전술한 상세속성 기반 p-중복성 보장 트랜잭션 생성 방법에 의해 생성된 트랜잭션 데이터베이스보다는 상대적으로 낮게 되지만, 원본 트랜잭션의 총수를 그대로 보존하면서 각 트랜잭션에 있은 항목의 수도 최대한 보존할 수 있게 되며, 반면에, 앞서 설명한, 상세속성 기반 p-중복성 보장 트랜잭션 생성 방식에 따르면, 원본의 트랜잭션이 분리되는 단점이 있으나, 생성된 트랜잭션 데이터베이스에 원본의 상세 항목이 그대로 나타내므로 정확성을 최대한 보장할 수 있게 되는 바, 분석 대상 데이터의 성격이나 용도에 따라 적절한 방법을 적용하게 된다.

100 : 데이터 서버 120: 사용자 단말
111 : 처리부 112 : 저장부
113 : 통신부

Claims

통신부, 처리부 및 저장부를 구비하는 데이터 서버에서 수행되며, 트랜잭션을 포함하는 무정형 빅데이터를 비식별화 처리하는 빅데이터 처리방법에 있어서,
원본 데이터베이스(D)의 트랜잭션을 구성하는 항목집합에 대해 해당 항목집합의 트랜잭션을 발생시킨 개인들의 총 숫자인 개인중복수(P)를 산출하는 단계;
상기 항목집합 중, 미리 설정된 최소 개인중복수(p) 이상인 빈발 항목집합(F)을 추출하는 단계;
원본 데이터베이스(D)에 포함되어 있는 각각의 원본 트랜잭션내의 빈발 항목집합 중 길이가 가장 긴 최대 빈발항목집합을 비식별화 데이터베이스의 트랜잭션 데이터로 생성하는 비식별화 트랜잭션 데이터 생성 단계;
상기 원본 데이터베이스의 해당 트랜잭션에서 상기 최대 빈발항목집합에 대응되는 항목을 삭제하는 단계;
상기 삭제 단계 이후, 상기 해당 트랜잭션에 상기 빈발 항목집합에 속하는 항목이 남아 있는 경우, 상기 원본 트랜잭션을 대상으로 다음으로 길이가 긴 빈발항목집합에 대해 상기 비식별화 트랜잭션 데이터 생성 단계 및 상기 항목집합 대응항목 삭제 단계를 수행하는 단계를 반복하되, 상기 원본 트랜잭션에 빈발하지 않은 1-항목들만 남거나 아무 항목도 남지 않을 때까지 상기 비식별화 트랜잭션 데이터 생성 단계와 상기 항목집합 대응항목 삭제 단계를 수행하는 단계;를 포함하는 것을 특징으로 하는 무정형 빅데이터의 개인정보 비식별화 처리 방법.
통신부, 처리부 및 저장부를 구비하는 데이터 서버에서 수행되며, 트랜잭션을 포함하는 무정형 빅데이터를 비식별화 처리하는 빅데이터 처리방법에 있어서,
원본 데이터베이스(D)의 트랜잭션을 구성하는 항목집합에 대해 해당 항목집합의 트랜잭션을 발생시킨 개인들의 총 숫자인 개인중복수(P)를 산출하는 단계;
상기 항목집합 중, 미리 설정된 최소 개인중복수(p) 이상인 빈발 항목집합(F)을 추출하는 단계;
원본 데이터베이스(D)의 원본 트랜젝션들을 길이의 역순으로 정렬하는 단계;
원본 트랜젝션(T_j) 에 나타나는 빈발 항목집합들 중 길이가 가장 긴 최대 빈발항목집합(w)을 선택하는 단계;
상기 원본 트랜젝션들 중에 상기 선택된 w를 포함하면서 상기 w보다 길이가 긴 원본 트랜잭션들을 모두 찾아 각 트랜잭션에서 상기 최대 빈발항목집합(w)에 대응되는 항목을 삭제하여, 상기 원본 트랜젝션(T_j)의 일반화 트랜잭션집합(G(T_j))을 생성하는 단계;
상기 원본 트랜잭션(T_j)에 있으면서 상기 선택된 최대 빈발항목집합(w)에 포함되지 않은 각각의 1-항목(x)에 대해, x가 빈발 1-항목인 경우, 상기 1-항목(x)을 상기 원본 트랜잭션(T_j)의 일반화대상 항목집합(Q(T_j))에 부가하고, 상기 1-항목(x)이 빈발 1-항목이 아닌 경우, 상기 항목(x)의 상위 항목(y) 중 최소 개인중복수 임계값 이상이면서 가장 낮은 개인중복수 값을 갖는 상위 항목(y)을 일반화대상 항목집합(Q(T_j))에 부가하고, 상기 일반화 트랜잭션집합(G(T_j))에 있는 해당 빈발 1-항목(x)를 상위 항목(y)으로 변경하는 단계;
상기 일반화 트랜잭션집합(G(T_j))에 있는 트랜잭션들에 대해서 상기 일반화대상 항목집합(Q(T_j))에 있는 각 1-항목들의 개인중복수를 새로 구하고, 개인중복수 값의 역순으로 일반화 항목들의 항목순서를 부여하는 단계;
상기 원본 트랜잭션(T_j)에 대해서, 상기 최대 빈발항목집합(w)과 상기 일반화대상 항목집합(Q(T_j))의 모든 항목들을 연결한 연결 항목집합(v)의 개인중복수를 상기 일반화 트랜잭션집합(G(T_j))에 대해서 구하는 단계;
상기 연결 항목집합(v)의 개인중복수가 최소 개인중복수 임계값(p) 미만인 경우, 상기 일반화대상 항목집합(Q(T_j))의 항목들 중 1-항목 개인중복수가 가장 낮은 1-항목(q)에 대해 상기 일반화대상 항목집합(Q(T_j))과 상기 일반화 트랜잭션집합(G(T_j))에 있는 트랜잭션들에 나타나는 상기 모든 항목 1-항목(q)을 상위 항목(r)으로 변경하고, 상기 일반화 트랜잭션집합(G(T_j))에서 상기 최대 빈발항목집합(w)에 포함되지 않는 항목이면서 새로 변경된 상기 상위 항목(r)의 하위 항목들을 모두 상위 항목(r)로 변경한 후 상기 연결 항목집합(v)을 다시 구하는 단계;
상기 연결 항목집합(v)의 개인중복수가 최소 개인중복수 임계값(p) 이상인 경우, 상기 연결 항목집합(v)을 비식별화 데이터베이스의 트랜잭션 데이터(S_j)로 생성하는 단계; 를 포함하는 것을 특징으로 하는 무정형 빅데이터의 개인정보 비식별화 처리 방법.