KR101784265B1

KR101784265B1 - 빅데이터의 비식별화 처리 방법

Info

Publication number: KR101784265B1
Application number: KR1020160071747A
Authority: KR
Inventors: 이원석
Original assignee: 주식회사 그리즐리
Priority date: 2016-06-09
Filing date: 2016-06-09
Publication date: 2017-10-12
Also published as: WO2017213281A1; JP2019523958A; JP6829762B2

Abstract

본 발명은, 개인정보의 유출우려 없이 외부 시스템에 자유롭게 유통시킬 수 있으며, 별도 환경에서 생성된 데이터를 연계하여 다양한 용도로 활용할 수 있는 빅데이터의 비식별화 처리방법에 관한 것으로,
본 발명에 따르면, 빅데이터를 구성하는 여러 가지 필드 중 통계 분석의 기준이 될 수 있는 필드와 통계 분석의 대상이 될 수 있는 필드를 선택하여 유통용의 비식별화 빅데이터를 생성하되, 복수의 원본 레코드를 하나의 레코드로 추상화 하거나, 수치형 필드값을 근접 수치값의 평균값으로 추상화함으로서, 원본 레코드의 값과는 다른 필드값을 구비하여 개인의 특정 정보 및 그 조합을 통한 역추적을 근본적으로 방지할 수 있으면서도, 통계 분석 본연의 의미를 유지할 수 있는 비식별화 빅데이터를 제공할 수 있게 된다.

Description

빅데이터의 비식별화 처리 방법{Data Processing Method for De-identification of Big Data}

본 발명은, 빅데이터의 비식별화 처리 방법에 관한 것으로서, 더욱 상세하게는, 개인정보의 유출 우려 없이 외부 시스템에 자유롭게 유통시킬 수 있으며, 별도 환경에서 생성된 데이터를 연계하여 다양한 용도로 활용할 수 있도록 하는 빅데이터의 비식별화 처리 방법에 관한 것이다.

빅데이터란, 기존의 기업 환경이나 공공 기관에서 사용되는 정형화된 데이터는 물론, 전자상거래 데이터, 메타 데이터, 웹로그, 무선식별(RFID) 데이터, 센서 네트워크 데이터, 소셜 네트워크 데이터, 소셜 데이터, 인터넷 텍스트와 문서, 인터넷 검색 인덱싱 등 기존에 미처 활용되지 못하던 비정형화 또는 반정형화된 데이터를 모두 포함하는 데이터로서, 이와 같은 데이터는 일반적으로 보통의 소프트웨어 툴 및 컴퓨터 시스템으로는 다루기 어려운 수준의 데이터 양을 갖게 된다는 의미에서 빅데이터(Big Data)라 칭하고 있다.

빅데이터가 다양한 가치를 만들어내기 시작하면서, 사람들은 빅데이터를 원유에 비유하기 시작했다. 기름이 없으면 기기가 돌아가지 않듯이, 빅데이터 없이 정보시대를 보낼 수 없다는 의미에서다. 미국의 시장조사기관 가트너는 데이터는 미래 경쟁력을 좌우하는 21세기 원유라며 기업들은 다가오는 데이터 경제시대를 이해하고 이에 대비해야 한다고 강조했다. 21세기 기업에게 가장 중요한 자산은 데이터이며 이를 관리하고 여기서 가치를 이끌어내지 못하면 경쟁에서 살아남을 수 없다는 뜻이다.

최근 들어, 기업뿐만 아니라 정부에서도, 다양하게 수집된 빅데이터 정보 및 그를 활용한 통계 분석 데이터를 의사 결정과 정책 결정 등에 적극적으로 활용하고자하는 시도가 이어지고 있으며, 빅데이터를 활용하여 데이터 중심의 컴퓨팅 환경을 구축하기 위한 빅데이터 처리 기술이 활발하게 연구되고 있다.

한편, 빅데이터는 해당 자료가 수집되는 조직 내에서 분석하여 활용하게 되지만, 자료를 수집하는 조직에 따라 수집되는 데이터의 속성에 차이가 있어 다른 조직의 자료를 활용할 필요가 발생하며, 자료를 수집할 능력이나 시스템이 갖추어져 있지 않은 조직의 경우에도 타 조직의 빅데이터나 그들의 조합으로부터 해당 조직이 독특하게 필요로 하는 정보를 분석하여 의사결정에 활용할 필요성이 대두되고 있다.

그러나, 빅데이터의 성격상 데이터의 양이 방대할 뿐만 아니라, 대부분의 빅데이터에는 개인신상에 대한 정보가 필연적으로 포함될 수 밖에 없는 바, 개인 신상 정보의 유출에 따른 법적 분쟁이 발생할 소지가 다분하기 때문에, 빅데이터의 조직간의 교류나 유통에는 한계가 있었으며, 이에 따라, 빅데이터의 수집이 가능한 조직의 입장에서는, 개인 신상정보 유출에 따른 법적 분쟁의 발생을 피하기 위해, 빅데이터 자체를 사업적 목적으로 가공하여 유통하기보다는, 특정 목적에 필요한 정보만을 대상으로 이를 군집화(clustering) 작업이나 통계분석 작업을 통해 통계적 정보 수준으로 가공하여 제공하고 있는 실정이므로, 빅데이터의 활용을 필요로 하는 조직의 입장에서는 조직의 독특한 사업 환경에 꼭 필요로 하는 분석 자료를 획득하기가 어렵다는 문제점이 있었다.

한편, 통계 결과 데이터가 아닌 통계 분석용으로서의 빅데이터 자체를 사업적 목적으로 가공하여 유통하기 위하여, 마스킹, 치환, 반식별화, 유형화 등을 통해 개인 속성을 비식별화하는 방법이 일각에서 적용되고 있다.

마스킹은, 대상정보를 마스킹 또는 삭제하는 것이고( 예; 670101-10491910 → ************** ), 치환은 대상정보에 대응하여 생성된 정보로 치환하는 것이며(예; 670101-10491910 → ID2311331), 반식별화는 대상 정보의 일부만 나타내도록 반식별화하는 것이고(예; 670101-10491910 → 67-1), 유형화는 대상정보를 유형화시켜 구분하는 방식(예; 670101-10491910 → 남자)이다.

그러나, 개인 정보를 마스킹, 치환, 반식별화, 유형화 등에 의해 비식별화 한다 하더라도, 조합(Mash-Up)이나 개인의 특정 정보 및 그 조합을 통한 역추적 등을 통해 개인정보의 유출 위험이 존재한다는 단점이 있었으며, 또한 별도 환경에서 독립적으로 생성된 빅데이터들의 연계 분석이 어렵다는 문제점이 있었다.

본 발명은, 이와 같은 문제점을 해결하기 위한 것으로, 데이터의 비식별화 즉, 탈 개인정보를 완벽하게 수행함으로서, 빅데이터의 유통시 특정 개인이 재식별화되는 것을 근본적으로 방지하여, 민감한 개인정보에 대해 개개인에 대한 허락을 받을 필요 없이 안전하게 유통용으로 활용할 수 있는 빅데이터의 비식별화 처리 방법을 제공하는 데 그 목적이 있다.

본 발명의 또 다른 목적은, 개개의 소요처에서 독특하게 필요로 하는 분석용 정보를 적절하게 선별 가공하여 제공할 수 있도록 하는 빅데이터의 비식별화 처리 방법을 제공하는 데 그 목적이 있다.

본 발명의 또 다른 목적은, 별도 환경에서 독립적으로 생성된 두 개 이상의 빅데이터를 필요에 따라 다양하게 연계하여 분석에 활용할 수 있도록 하는 빅데이터의 비식별화 처리 방법을 제공하는 데 있다.

본 발명은, 유통용으로 활용되는 빅데이터는 개개인에 대한 특정 정보의 활용보다는 통계 분석용이며, 데이터 전체에 대한 통계 분석은 데이터의 일부분 일부분의 통계 분석을 먼저 수행한 후 이를 조합하여 분석한다 하더라도 결과에서 큰 차이점이 없다는 점에 착안하여 이루어진 발명이다.

상기의 목적을 달성하기 위한 본 발명에 따른 빅데이터의 비식별화 처리 방법은, 통신부, 처리부 및 저장부를 구비하는 데이터 서버에서 수행되는 빅데이터의 비식별화 처리 방법에 있어서, 상기 처리부가, 유무선 네트워크를 통해 연결된 단말로부터 상기 통신부를 통해 수집되는 데이터를 상기 데이터 서버의 저장부에 저장하는 단계; 상기 처리부가, 상기 데이터를 구성하는 원본 레코드 중 적어도 두 개 이상의 레코드를 조합하여 원본 레코드와는 상이한 레코드를 생성하는 데이터 추상화 단계;를 포함하되, 상기 데이터 추상화 단계는, 상기 데이터를 구성하는 상기 원본 레코드의 각각의 필드 중 적어도 하나 이상의 필드를 추상화 기준필드로 설정하고, 상기 추상화 기준필드 이외의 필드 중 적어도 하나 이상의 필드를 추상화 대상필드로 설정하는 단계; 상기 원본 레코드 중 상기 추상화 기준필드의 값이 동일한 레코드를 적어도 두 개 이상 선택하는 단계; 상기 선택된 복수의 레코드를 상기 추상화 기준필드와 상기 추상화 대상필드로 이루어지는 하나의 추상화 레코드로 추상화하되, 상기 추상화 레코드의 상기 추상화 기준필드의 값은 상기 선택된 복수 레코드의 공통되는 해당 필드값으로 할당하고, 상기 추상화 레코드의 상기 추상화 대상필드의 값은 상기 선택된 복수 레코드의 해당 필드값을 대표할 수 있는 대표값으로 변환한 후 이를 해당 추상화 대상필드의 값으로 할당하는 단계; 상기 처리부가, 상기 추상화 레코드를 상기 추상화 데이터의 레코드로서 상기 저장부에 저장하는 단계;를 구비하는 것을 특징으로 한다.

본 발명의 위와 같은 특징에 따르면, 빅데이터를 구성하는 여러 가지 필드 중 통계 분석의 기준이 될 수 있는 필드와 통계 분석의 대상이 될 수 있는 필드를 선택하여 유통용 빅데이터를 생성하되, 복수의 원본 레코드를, 원본 레코드의 값과는 다른 필드값을 갖으면서 통계 분석 본연의 의미를 유지할 수 있는 하나의 추상화 레코드(Abstracted Record)로 추상화(Abstracting)함으로서, 통계 분석의 가치를 갖는 새로운 정보를 얻을 수 있으면서도, 개인의 특정 정보 및 그 조합을 통한 역추적을 근본적으로 방지할 수 있는 빅데이터를 제공할 수 있게 된다.

추상화 기준필드는, 데이터 추상화를 수행하는 기준이 되는 필드를 의미하는 것으로서, 원본 레코드의 해당 필드가 연속 수치 데이터형인 경우 히스토그램, 비닝(Binning), 군집화 기법 등으로 전처리하여 해당 속성을 불연속(Discrete) 카다고리형 데이터로 변환한 후 추상화 기준필드 선택하는 바람직하다.

추상화 대상필드는, 통계값 산정의 대상이 되는 필드로서, 추상화 대상필드가 수치 데이터형일 경우, 추상화 레코드의 해당 필드값인 대표값은 일반적으로 평균값이 적용되나 필드값의 내용에 따라 평균, 미디언, 최대치, 최빔값, 샘플링 등의 집계함수를 적용하여 산출할 수 있으며, 수치 데이터가 아닌 경우 합집합, 교집합, 샘플링, 빈발 행위원소, 군집화, 히스토그램 등의 통합함수를 적용하여 산출할 수 있다.

하나의 추상화 레코드에 포함되는 원본 레코드는, 각각의 추상화 레코드에 대해 일정 갯수(N)로 선택하는 것이 바람직하나, 각각의 추상화 레코드에 서로 다른 갯수의 원본 레코드가 포함되도록 선택하는 것도 가능하다.

본 발명의 또 다른 특징은, 상기 데이터 추상화 단계 이전에, 상기 처리부가, 상기 원본 레코드를 상기 추상화 기준필드의 값을 기준으로 정렬하는 단계와; 상기 정렬된 원본 레코드를 바탕으로, 상기 추상화 기준필드의 값이 동일한 레코드 중 추상화 대상필드의 값이 타 레코드들의 해당 추상화 대상필드의 값에 비해 미리 정해진 기준 이상의 편차가 있다고 판단되는 경우, 해당 레코드를 상기 추상화 대상에서 제외시키는 단계를 더 구비하는 데 있다.

본 발명의 위와 같은 특징에 따르면, 복수의 원본 레코드를 하나의 추상화 레코드로 추상화하여 추상화 데이터를 생성하는 데 있어서, 통계의 정확도에 악영향을 주는 레코드를 추상화 대상에서 제외시킴으로서, 통계 분석의 정확도를 더욱 향상시킬 수 있게 된다.

본 발명은, 상기 대표값을 해당 추상화 대상필드의 값으로 할당하기 이전에, 상기 선택된 원본 레코드 중 해당 추상화 대상필드의 값이 상기 대표값과 동일한 값을 갖는 레코드가 있는지 판단하여, 동일한 값을 갖는 레코드가 있는 경우, 상기 선택된 원본 레코드들의 해당 추상화 필드의 값에는 없는 다른 값으로 해당 대표값을 보정하여 할당하는 데 또 다른 특징이 있다.

본 발명의 위와 같은 특징에 따르면, 추상화 레코드의 추상화 대상 필드값에 원본 레코드와 동일한 필드값이 대표값으로 할당되는 것을 배제함으로서, 개인의 특정 정보 및 그 조합을 통한 역추적을 더욱 확실하게 방지할 수 있게 된다.

본 발명의 또 다른 특징은, 상기 선택되는 상기 추상화 기준필드 또는 추상화 대상필드의 값이 개인의 식별과 관련된 내용인 경우, 해당 필드의 값을, 해당 필드값이 하나의 원소로 포함될 수 있는 그룹값으로 변환하여, 해당 추상화 기준필드 또는 추상화 대상필드로 선택하는 데 있다.

「개인의 식별과 관련된 내용을 갖는 필드」란, 개인의 주민등록번호, 나이, 집주소 등과 같이 그 자체로 개인을 식별할 수 있거나 타 데이터와의 조합에 의해 용이하게 개인을 식별할 수 있는 내용을 필드값으로 갖는 필드를 의미하며, 「해당 필드값이 하나의 원소로 포함될 수 있는 그룹값」이란 주민등록번호 또는 나이에서 추출한 나이대, 집주소에서 추출한 동이나 도시, 거리 등의 정보 등을 의미한다.

어느 필드값을 위와 같이 그룹값으로 추출하는 기술 자체는 앞서 언급한 바와 같이 데이터의 비식별화에 일반적으로 적용되고 있는 기술이지만, 본 발명의 위와 같은 특징에 따르면, 데이터의 추상화와 추상화가 함께 이루어짐으로써, 개인의 특정 정보 및 그 조합을 통한 역추적을 더욱 확실하게 방지할 수 있게 된다.

본 발명의 또 다른 특징은, 상기 추상화 레코드에 포함되는 복수의 원본 레코드들의 상기 추상화 기준필드의 필드값들의 분포 정보를 필드값으로 갖는 분포값 필드 또는 상기 추상화 레코드에 포함되는 복수의 원본 레코드들의 상기 추상화 대상필드의 필드값들의 분포 정보를 필드값으로 갖는 분포값 필드 중 적어도 어느 하나가 상기 추상화 레코드에 더 포함되는 데 있다.

분포값 필드의 필드값은, 통상의 분포함수로 산출할 수 있는 바, 대표적인 유형은 평균, 표준편차, 중간값(Median), quartile-quartile distance(Q3-Q1), 최대치, |최대치-최소치| 또는 서로 다른 속성값 갯수 등이 될 수 있다.

예를 들어, 추상화 기준필드로서 원본 레코드의 주민등록번호 필드의 생년월일 정보로부터 산출된 나이대가 선택되고, 어느 하나의 추상화 레코드의 추상화 기준필드의 필드값이 40대이며, 이 추상화 레코드에 3개의 원본 레코드가 포함되고, 이 원본 레코드의 각각의 나이값이 43세, 47세, 42세라 가정하고, 추상화 레코드에 포함되는 분포값 필드의 필드값을 중간값으로 설정하였다 가정하면, 해당 분포값 필드의 필드값은 47이 된다.

본 발명의 위와 같은 특징에 따르면, 상기 분포값 필드를 매개로, 별도 환경에서 독립적으로 생성된 두 개 이상의 빅데이터를 필요에 따라 다양하게 연계하여 분석에 활용할 수 있게 되며, 통계 데이터의 신뢰성을 더욱 향상시킬 수 있게 된다.

본 발명은, 선택되는 추상화 기준필드 또는 추상화 대상필드의 값이 개인의 식별과 관련된 내용인 경우, 해당 필드의 값을 해시함수로 변환하여 해당 추상화 기준필드 또는 추상화 대상필드로 선택하는 데 또 다른 특징이 있다.

본 발명의 위와 같은 특징은, 해시함수(Hesh Function)가 불가역적인 일방향 함수로서, 해시값에서 원 데이터값을 재현할 수는 없다는 특성을 적용한 것으로서, 예를 들어, 해당 필드의 값을 다음과 같이 정의되는 해시함수 g(x)로 변환하여 추상화 기준필드 또는 추상화 대상필드의 필드값으로 선택할 수 있다.

g(x) = f(x) mod m

f(x) : 무작위 함수, 해시 도메인: (0...m-1)

본 발명의 위와 같은 특징에 따르면, 해시함수를 통한 필드값의 비가역 암호화와 데이터의 추상화가 함께 이루어짐으로써, 개인의 특정 정보 및 그 조합을 통한 역추적을 더욱 확실하게 방지할 수 있게 된다.

본 발명은, 상기 추상화 기준필드 및 추상화 대상필드 설정단계 이후에, 상기 원본 레코드를 상기 추상화 기준필드를 기준으로 정렬한 후, 상기 정렬 순서를 따라, 추상화 기준필드의 값이 동일한 복수의 레코드를 선택하면서 상기 데이터 추상화 단계를 진행하여 상기 추상화 데이터를 생성하되, 상기 추상화 기준필드의 어느 하나의 정렬 방식에 따른 추상화 데이터 생성이 완료된 후, 상기 추상화 기준필드의 다른 정렬 방식을 적용하여 상기 원본 레코드를 정렬한 후, 해당 정렬 순서를 따라 상기 추상화 기준필드의 값이 동일한 복수의 레코드를 선택하여 상기 데이터 추상화 단계를 재차 진행하는 데 또 다른 특징이 있다.

본 발명의 위와 같은 특징에 따르면, 어느 하나의 원본 레코드가 복수의 추상화 레코드에 포함되게 추상화 된다.

즉, 동일한 원본 레코드가 포함된 복수의 추상화 레코드는, 추상화 기준필드와 추상화 대상필드에 대응되는 분포값 필드의 필드값이 다양하게 나타날 수 있으며, 이에 따라, 분포값 필드를 필요에 따라 다양하게 연계하여 분석에 활용할 수 있게 되며, 통계 데이터의 신뢰성을 더욱 향상시킬 수 있게 된다.

본 발명의 또 다른 특징은, 상기 원본 데이터는 신상 테이블과 상기 신상 테이블의 각 개인의 행위에 대한 로그테이블로 이루어지고, 상기 추상화 데이터는 추상화 신상 테이블과 추상화 로그 테이블로 이루어지며, 상기 테이터 추상화 단계를 통해, 상기 신상 테이블의 복수의 로그 레코드를 하나의 추상화 신상 레코드로 추상화 함으로서 상기 추상화 신상 테이블을 생성하되, 상기 테이터 추상화 단계는, 상기 추상화 신상 테이블에 식별필드를 부가하는 단계와, 추상화 신상 레코드의 식별필드에 식별값을 할당하는 단계와, 상기 추상화 신상 레코드에 포함되는 개인들을 특정할 수 있는 필드의 값을 상기 식별값과 대응시킴으로서, 해당 식별값에 해당되는 추상화 신상 레코드에 포함된 개인을 특정할 수 있는 추상화 대상 리스트를 생성하는 단계를 더 포함하며, 상기 테이터 추상화 단계를 통해, 상기 로그 테이블의 복수의 로그 레코드를 하나의 추상화 로그 레코드로 추상화 함으로서 상기 추상화 로그 테이블을 생성하되, 상기 테이터 추상화 단계는, 상기 추상화 로그 테이블에 식별필드를 부가하는 단계와, 상기 추상화 대상 리스트를 참조하여 상기 로그 테이블의 각각의 레코드 중 상기 추상화 신상 레코드에 포함되는 복수의 개인에 대한 로그 레코드를 하나의 추상화 로그 레코드로 추상화하는 단계와, 해당 추상화 신상 레코드에 할당된 식별값을 포함하는 식별값을 상기 식별 필드에 할당하는 단계를 포함하는 데 있다.

본 발명의 위와 같은 특징에 따르면, 원본 데이터가 신상 테이블과 로그 테이블로 분리되어 형성되어 있는 경우에도, 추상화 대상 리스트를 통해 각각의 추상화 신상 레코드에 속하는 개인에 대응되는 추상화 로그 레코드를 생성할 수 있게 되며, 추상화 신상 테이블 및 추상화 로그 테이블의 식별필드를 통해 데이터의 결합 및 연계 해석이 가능하게 된다.

본 발명의 또 다른 특징은, 상기 원본 데이터는 신상 테이블과 상기 신상 테이블의 각 개인의 행위에 대한 로그테이블로 이루어지고, 상기 추상화 데이터는 추상화 신상 테이블과 추상화 로그 테이블로 이루어지며, 상기 테이터 추상화 단계를 통해, 상기 로그 테이블의 복수의 로그 레코드를 하나의 추상화 로그 레코드로 추상화 함으로서 상기 추상화 로그 테이블을 생성하되, 상기 테이터 추상화 단계는, 상기 추상화 로그 테이블에 식별필드를 부가하는 단계와, 추상화 로그 레코드의 식별필드에 식별값을 할당하는 단계와, 상기 추상화 로그 레코드에 포함되는 개인들을 특정할 수 있는 필드의 값을 상기 식별값과 대응시킴으로서, 해당 식별값에 해당되는 추상화 로그 레코드에 포함된 개인을 특정할 수 있는 추상화 대상 리스트를 생성하는 단계를 더 포함하며, 상기 테이터 추상화 단계를 통해, 상기 신상 테이블의 복수의 신상 레코드를 하나의 추상화 신상 레코드로 추상화 함으로서 상기 추상화 신상 테이블을 생성하되, 상기 테이터 추상화 단계는, 상기 추상화 신상 테이블에 식별필드를 부가하는 단계와, 상기 추상화 대상 리스트를 참조하여 상기 신상 테이블의 각각의 레코드 중 상기 추상화 로그 레코드에 포함되는 복수의 개인에 대한 신상 레코드를 하나의 추상화 신상 레코드로 추상화하는 단계와, 해당 추상화 로그 레코드에 할당된 식별값을 포함하는 식별값을 상기 식별 필드에 할당하는 단계를 포함하는 데 있다.

본 발명의 위와 같은 특징에 따르면, 원본 데이터가 신상 테이블과 로그 테이블로 분리되어 형성되어 있는 경우, 추상화 대상 리스트를 통해 각각의 추상화 로그 레코드에 속하는 개인에 대응되는 추상화 신상 레코드를 생성할 수 있게 되며, 추상화 로그 테이블 및 추상화 신상 테이블의 식별필드를 통해 데이터의 결합 및 연계 해석이 가능하게 된다.

또한, 본 발명은, 통신부, 처리부 및 저장부를 구비하는 데이터 서버에서 수행되는 빅데이터의 비식별화 처리 방법에 있어서, 상기 처리부가, 유무선 네트워크를 통해 연결된 단말로부터 상기 통신부를 통해 수집되는 데이터를 상기 데이터 서버의 저장부에 저장하는 단계; 상기 처리부가, 상기 데이터를 구성하는 원본 레코드 중 적어도 두 개 이상의 레코드를 조합하여 원본 레코드와는 상이한 레코드를 생성하는 데이터 추상화 단계;를 포함하되, 상기 데이터 추상화 단계는, 상기 데이터를 구성하는 상기 원본 레코드의 각각의 필드 중 적어도 하나 이상의 필드를 추상화 기준필드로 설정하고, 상기 추상화 기준필드 이외의 필드 중 수치 데이터형을 갖는 적어도 하나 이상의 필드를 추상화 대상필드로 설정하는 단계; 상기 원본 레코드의 상기 추상화 대상필드의 필드값으로 이루어지는 보정 리스트를 생성하는 단계; 상기 보정 리스트에서 중복값을 제거한 후 필드값의 크기순으로 정렬하는 단계; 상기 정렬된 보정 리스트 각각의 필드값에 대해, 해당 필드값에 근접한 적어도 하나 이상의 필드값과 해당 필드값의 평균값을 산출하여 해당 필드값에 대응되는 추상화값으로 대응시키는 단계; 상기 추상화 기준필드와 상기 추상화 대상필드를 포함하는 추상화 레코드를 생성하되, 상기 추상화 레코드의 상기 추상화 기준필드의 필드값은 상기 원본 레코드의 해당 필드값으로 할당하고, 상기 추상화 레코드의 상기 추상화 대상필드의 필드값은 상기 원본 레코드의 해당 필드값에 대응되는 상기 추상화값으로 할당하는 단계; 상기 추상화 레코드를 상기 추상화 데이터의 레코드로서 상기 저장부에 저장하는 단계;를 구비하는 빅데이터의 비식별화 처리방법에 특징이 있다.

본 발명의 위와 같은 특징은, 원본 레코드의 특정 필드의 필드값을, 해당 필드값과 이에 근접한 다른 필드값의 평균값으로 변환하여, 원래 필드값과 다른 값으로 추상화하여도, 데이터 전체에 대한 통계 분석은 원래 필드값으로 하는 경우와 차이가 거의 없다는 점에 착안하여 이루어졌다.

본 발명의 위와 같은 특징에 따르면, 빅데이터를 구성하는 여러 가지 필드 중 통계 분석의 기준이 될 수 있는 필드와 통계 분석의 대상이 될 수 있는 필드를 선택하여 유통용 빅데이터를 생성하되, 원본 레코드의 수치 데이터형 필드를 원본 레코드의 값과는 다른 필드값을 갖으면서 통계 분석 본연의 의미를 유지할 수 있는 추상화 값으로 대응시킴으로서, 통계 분석의 가치를 갖는 새로운 정보를 얻을 수 있으면서도, 개인의 특정 정보 및 그 조합을 통한 역추적을 근본적으로 방지할 수 있는 빅데이터를 제공할 수 있게 된다.

본 발명은, 상기 정렬된 보정 리스트의 각각의 필드값에 대해, 해당 필드값에 인접한 필드값과의 유격값을 산출하여 해당 필드값에 대응되는 유격값 리스트를 생성하되, 산출 유격값이 미리 정해지는 임계값을 벗어나는 경우, 해당 유격값을 상기 임계값으로 대치하여 유격값 리스트를 생성하는 단계;를 더 구비하며, 상기 정렬된 보정 리스트 각각의 필드값에 대한 평균값의 산출시, 해당 필드값에 인접한 필드값은 해당 필드값에 상기 유격값 리스트상의 유격값을 가감한 값을 적용하여 평균값을 산출하는 데 또 다른 특징이 있다.

본 발명의 위와 같은 특징에 따르면, 전체적인 통계에 악영향을 미치는 필드값을 임계값으로 보정하여 적용함으로서, 통계 분석의 정밀도를 향상시킬 수 있게 된다.

본 발명의 또 다른 특징은, 상기 원본 데이터는 신상 데이터와 상기 신상 데이터의 각 개인의 행위에 대한 로그 테이블로 이루어지며, 상기 신상 데이터와 상기 로그 테이블를 결합하여 하나의 테이블로 변환한 후, 상기 변환된 테이블의 데이터를 대상으로 상기 데이터 추상화 단계가 진행되는 데 있다.

본 발명의 위와 같은 특징에 따르면, 원본 데이터가 신상 테이블과 로그 테이블로 분리되어 형성되어 있는 경우에도, 근접 수치값의 평균에 의한 추상화가 가능하게 된다.

본 발명에 따르면, 빅데이터를 구성하는 여러 가지 필드 중 통계 분석의 기준이 될 수 있는 필드와 통계 분석의 대상이 될 수 있는 필드를 선택하여 유통용 빅데이터를 생성하되, 복수의 원본 레코드를, 원본 레코드의 값과는 다른 필드값을 갖으면서 통계 분석 본연의 의미를 유지할 수 있는 하나의 추상화 레코드로 추상화함으로서, 통계 분석의 가치를 갖는 새로운 정보를 얻을 수 있으면서도, 개인의 특정 정보 및 그 조합을 통한 역추적을 근본적으로 방지할 수 있는 빅데이터를 제공할 수 있게 된다.

또한, 원본 레코드의 수치 데이터형 필드를 원본 레코드의 값과는 다른 필드값을 갖으면서 통계 분석 본연의 의미를 유지할 수 있는 추상화 값으로 대응시킴으로서, 통계 분석의 가치를 갖는 새로운 정보를 얻을 수 있으면서도, 개인의 특정 정보 및 그 조합을 통한 역추적을 근본적으로 방지할 수 있는 빅데이터를 제공할 수 있게 된다

또한, 개개의 소요처에서 독특하게 필요로 하는 정보만을 적절하게 선별 가공하여 제공할 수 있게 된다.

또한, 분포값 필드를 매개로, 별도 환경에서 독립적으로 생성된 두 개 이상의 빅데이터를 필요에 따라 다양하게 연계하여 분석에 활용할 수 있게 되며, 통계 데이터의 신뢰성을 향상시킬 수 있게 된다.

도 1은 본 발명의 빅데이터 처리 시스템을 형성하는 데이터 중심 컴퓨팅 환경을 설명하는 예시도.
도 2는 도 1에 도시한 데이터 서버의 주요 구성을 나타내는 블록도.
도 3은 본 발명의 일 실시예에 따른 데이터 추상화의 기본적인 단계를 나타내는 블록도.
도 4는 본 발명의 다른 실시예에 따른 데이터 추상화의 기본적인 단계를 나타내는 블록도.

도 1을 참조하면, 본 발명의 빅테이터 처리 시스템을 형성하는 데이터 중심의 컴퓨팅 환경은 데이터 서버(110)와 데이터 서버와 유무선 네트워크를 통해 연결되는 다수의 사용자 단말(120)에 의해 구축될 수 있다.

데이터 중심의 컴퓨팅(data-centric computing) 환경이란 다수의 사용자 단말(120)에서 실시간으로 생성되는 데이터를 활용하여 소셜 네트 워크 서비스(Social Network Service, SNS), 스마트 그리드(smart grid), 지능형 가전, 실시간 스트리밍 또는 실시간 의사 결정 등의 다양한 응용 프로그램을 제공할 수 있는 빅데이터 처리에 기반한 기술을 의미한다.

본 발명에 따른 빅데이터 처리 시스템 및 방법은, 다수의 사용자 단말(120)과 연결된 데이터 서버(110)에 의해 구현되는 바, 다수의 사용자 단말(120)에서 생성되는 데이터를 수집하고 이를 처리한 후 저장하고, 저장된 데이터를 소요로 하는 사용자 단말(120)에 제공함으로써, 데이터 중심의 컴퓨팅 응용이 수행될 수 있는 환경이 구축된다.

여기에서, 사용자 단말(120)은 데이터 서버(110)와 연결되도록 통신 장치를 탑재하고, 사용자 단말(120)의 운용에 따라 데이터가 생성되도록 정보 처리 기능을 구비하는 컴퓨터, 노트북과 같은 정보 처리 단말, 스마트폰, 태블릿 PC, PDA(Personal Digital Assistant) 등의 이동 통신 단말, 스마트 가전 기기, 무선식별(RFID) 데이터, 블랙 박스 또는 네비게이션이 운용되는 자동차, 기차, 비행기와 같은 교통 수단 등을 의미할 수 있으나 이에 한정되는 것은 아니다.

도 2에 도시된 바 와 같이, 데이터 서버(110)는 통신부(113)를 통해 다수의 사용자 단말(120)과 근거리 무선 통신, 와이파이, 3G(3Generation), LTE(Long Term Evolution)과 같은 유무선 네트워크로 연결되어 사용자 단말(120)에서 생성된 데이터를 수집하여 저장부(112)에 저장하고, 일반적으로 복수의 프로세서로 이루어지는 처리부(111)에 의해 수집된 데이터를 처리하여 저장하는 클라우드 서버 또는 웹 서버를 의미할 수 있으나 이에 한정되는 것은 아니다.

유무선 네트워크를 통해 연결된 단말들(120)로부터 통신부(113)를 통해 수집되는 원본 데이터는 데이터 서버(110)의 저장부(112)에 저장된다.

최근 들어 네트워크 기술의 발달 및 스마트 폰의 비약적인 보급으로 인해, 기업 및 기관에서 운영중인 빅데이터 처리 시스템에서 하루에 생산되는 로그의 량은 수십 ~ 수백 기가바이트까지 증가 되었으며, 원본 빅데이터의 사이즈는 테라바이트를 초과하여 엑사바이트 또는 제타바이트의 범위를 가질 수도 있게 되었다.

본 발명에 따른 처리부(111)는 저장부(112)에 저장되어 있는 대용량의 빅데이터를 적절하게 처리하여, 분석에 필요한 데이터를 선택하여 추상화 함으로서 용량을 줄임과 동시에 비식별화하여 유통용의 비식별 빅데이터로 가공하여 저장부(112)에 저장하게 되며, 저장부(112)에 상대적으로 소용량으로 저장된 유통용 비식별 빅데이터는 서버의 통신부(113) 및 통신망을 통해 이의 분석 및 활용이 필요한 소요처로 전송된다.

도 3은 본 발명의 일 실시예에 따른 데이터 추상화의 기본적인 단계를 나타내는 블록도로서, 이하, 도 3을 참조하여 데이터 서버의 처리부에서 수행되는 빅데이터의 비식별화 처리 방법을 구체적으로 설명한다.

먼저, 저장부(112)에 저장된 데이터를 구성하는 원본 레코드의 각각의 필드 중 빅데이터의 소요처에서 독특하게 필요로 하는 필드 정보만을 적절하게 선별하게 되는 데, 적어도 하나 이상의 필드를 추상화 기준필드로 설정하고(S10), 추상화 기준필드 이외의 필드 중 적어도 하나 이상의 필드를 추상화 대상필드로 설정한다(S20).

처리부(111)에 의해, 원본 레코드 중 추상화 기준필드의 값이 동일한 레코드가 적어도 두 개 이상 선택되고(S30), 선택된 복수의 레코드가 하나의 추상화 레코드로 추상화 된다(S40).

상기 선택 단계(S30) 이전에 상기 처리부에 의해 상기 데이터를 상기 추상화 기준필드의 값을 기준으로 정렬하는 단계와;

추상화 레코드는, 추상화 기준필드와 상기 추상화 대상필드를 포함하는 바, 추상화 기준필드의 값은 선택된 복수 레코드의 공통되는 해당 필드값으로 할당되고(S41), 추상화 대상필드의 값은 선택된 복수 레코드의 해당 필드값을 대표할 수 있는 대표값으로 변환된 후 추상화 대상필드의 값으로 할당된다(S42).

추상화 대상필드가 수치 데이터형일 경우, 추상화 레코드의 해당 필드값인 대표값은 일반적으로 평균값이 적용되나 필드값의 내용에 따라 평균, 미디언, 최대치, 샘플링 등의 집계함수를 적용하여 산출할 수 있다.

처리부(111)는 생성된 추상화 레코드를 저장부(112)에 저장(S50)하며, 원본 데이터 전체에 걸쳐 S40 내지 S40의 과정을 반복하게 되며, 원본 데이터 전체에 걸쳐 데이터 추상화 작업이 완료되면(S60) 작업을 종료하게 된다(S70).

위에 언급한 데이터 추상화 과정을 구체적인 예를 들어 설명하면 다음과 같다.

표 1은 데이터 추상화 이전의 원본 데이터의 간단한 예로서, 주민등록번호, 나이, 성명, 주소, 소득이 원본 레코드의 각 필드로 포함되어 있다.

선택되는 상기 추상화 기준필드 또는 추상화 대상필드의 값이 개인의 식별과 관련된 내용인 경우, 해당 필드의 값을, 해당 필드값이 하나의 원소로 포함될 수 있는 그룹값으로 변환하여, 해당 추상화 기준필드 또는 추상화 대상필드로 선택하는 것이 바람직하다.

표 2는 데이터 추상화를 위해 각각의 필드를 변환하여 새로운 필드로 생성한 예를 나타낸다.

표 3은 위와 같이 변환된 데이터를 연령대, 성별, 도시를 추상화 기준 필드로 선택하고, 소득을 추상화 대상필드로 선택하여, 추상화 기준 필드가 동일한 레코드를 3개(N=3)를 기본으로 선택하고, 선택된 복수의 레코드들로부터 하나의 추상화 레코드를 생성한 후, 각각의 추상화 레코드에 대해 식별자(ID)를 할당한 예를 나타낸다.

추상화 기준필드인 연령대, 성별, 도시는 선택된 레코드에 공통되는 값이 할당된 것을 나타내며, 추상화 대상필드인 소득필드의 대표값으로 선택된 레코드의 소득 필드값의 평균값을 할당한 예를 나타낸다.

식별자(ID) 값은 각각의 추상화 레코드를 유일하게 구별할 수 있도록 생성된다.

선택할 수 있는 레코드가 하나만 남거나 특정 갯수 미만이 남은 경우, 해당 레코드는 추상화 대상에서 제외하는 것이 바람직하다.

이상 설명한 바와 같은 데이터 추상화 과정에서, 정렬된 원본 데이터를 바탕으로, 상기 추상화 기준필드의 값이 동일한 레코드 중 추상화 대상필드의 값이 타 레코드들의 해당 추상화 대상필드의 값에 비해 미리 정해진 기준 이상의 편차가 있다고 판단되는 경우, 해당 레코드를 상기 추상화 대상에서 제외시키는 것이 바람직하다.

이에 따라, 통계의 정확도에 악영향을 주는 레코드를 추상화 대상에서 제외시킴으로서, 통계 분석의 정확도를 더욱 향상시킬 수 있게 된다.

또한, 표 4에 예시된 바와 같이, 대표값을 해당 추상화 대상필드의 값으로 할당하기 이전에, 선택된 원본 레코드 중 해당 추상화 대상필드의 값이 상기 대표값과 동일한 값을 갖는 레코드가 있는지 판단하여, 동일한 값을 갖는 레코드가 있는 경우, 상기 선택된 원본 레코드들의 해당 추상화 필드의 값에는 없는 다른 값으로 해당 대표값을 보정하여 할당하는 것을 의미한다.

보정값으로는, 추상화 레코드의 해당 속성값을 최대 허용 노이즈 임계치 이내의 무작위 값으로 변경한 값을 할당한다.

이에 따라, 추상화 레코드의 추상화 대상 필드값에 원본 레코드와 동일한 필드값이 대표값으로 할당되는 것을 배제함으로서, 개인의 특정 정보 및 그 조합을 통한 역추적을 더욱 확실하게 방지할 수 있게 된다.

한편, 표2에 예시된 바와 같이, 추상화 기준필드 또는 추상화 대상필드의 값이 개인의 식별과 관련된 내용인 경우, 해당 필드의 값을, 해당 필드값이 하나의 원소로 포함될 수 있는 그룹값으로 변환하여, 해당 추상화 기준필드 또는 추상화 대상필드로 선택하는 것이 바람직 하다.

어느 필드값을 위와 같이 그룹값으로 추출하는 기술 자체는 앞서 언급한 바와 같이 데이터의 비식별화에 일반적으로 적용되고 있는 기술이지만, 본 발명에 따르면 데이터의 추상화와 추상화가 함께 이루어짐으로써, 개인의 특정 정보 및 그 조합을 통한 역추적을 더욱 확실하게 방지할 수 있게 된다.

한편, 선택되는 추상화 기준필드 또는 추상화 대상필드의 값이 개인의 식별과 관련된 내용인 경우, 해당 필드의 값을 해시함수로 변환하여 해당 추상화 기준필드 또는 추상화 대상필드로 선택하는 것이 가능하다.

해시함수가 불가역적인 일방향 함수로서, 해시값에서 원 데이터값을 재현할 수는 없다는 특성을 적용한 것으로서, 예를 들어, 해당 필드의 값을 해시함수 g(x)로 변환하여 추상화 기준필드 또는 추상화 대상필드의 필드값로 선택할 수 있다.

이에 따라, 해시함수를 통한 필드값의 비가역 암호화와 데이터의 추상화가 함께 이루어짐으로써, 개인의 특정 정보 및 그 조합을 통한 역추적을 더욱 확실하게 방지할 수 있게 된다.

일례로, 변환 함수 g(x)를 해시함수로 정의할 경우 또 다른 무작위 함수 f(x)에 대해 정해진 해시 도메인 (0..m-1)로 제한된 값이 나오도록 해시 함수 g(x)를 아래와 같이 정의한다.

g(x) = f(x) mod m

따라서 개인 시그니쳐 값은 0부터 m까지의 값으로 결정된다. 어느 추상화 필드에 대해 서로 다른 개인이 다른 필드 값을 갖더라도 동일한 변환 값을 가질 수 있으나 m의 값을 크게 할수록 서로 다른 개인들이 동일한 변환 값을 가질 확률이 줄어든다.

해쉬 함수의 구체적인 예로서, 추상화 기준필드가 주민등록번호인 경우를 예로 들면, 해쉬 함수는 다음과 같이 정의 될 수 있으며, 해당 해쉬 함수에 의한 변환값은 표 5와 같이 된다.

g(주민번호) = (주민번호 앞뒤 두자리) mod 1000

주민등록번호	변환값
630230-2005434, 590606-2004434	334, 934
710122-1102237, 730516-1021438	137, 338
651203-2016427, 640315-2235432	527, 432
761130-2704483, 750115-2008438	683, 538

이상의 설명에 따르면, 어느 하나의 원본 레코드는 어느 하나의 추상화 레코드에 포함되게 추상화 되는 데, 어느 하나의 원본 레코드가 복수의 추상화 레코드에 포함되게 추상화되도록 하는 것도 가능하다.

즉, 추상상기 추상화 기준필드 및 추상화 대상필드 설정단계 이후에, 상기 원본 레코드를 상기 추상화 기준필드를 기준으로 정렬한 후, 상기 정렬 순서를 따라, 추상화 기준필드의 값이 동일한 복수의 레코드를 선택하면서 상기 데이터 추상화 단계를 진행하여 상기 추상화 데이터를 생성하되, 상기 추상화 기준필드의 어느 하나의 정렬 방식에 따른 추상화 데이터 생성이 완료된 후, 상기 추상화 기준필드의 다른 정렬 방식을 적용하여 상기 원본 레코드를 정렬한 후, 해당 정렬 순서를 따라 상기 추상화 기준필드의 값이 동일한 복수의 레코드를 선택하여 상기 데이터 추상화 단계를 재차 진행하게 되면, 어느 하나의 원본 레코드가 복수의 추상화 레코드에 포함되게 추상화 된다.

표 9는 표 6의 원본 레코드에 대해 표 7 및 표 8과 같이 정렬 순서를 달리하여 데이터 추상화 단계를 2회 실시한 추상화 데이터의 예를 나타낸다.

주민번호	학력	성별	집주소	일시	소득
630230-2005434	대졸	여	구의동	2015.03.12	90,400
630230-2005434	대졸	여	삼성동	2008.03.23	69,000
711903-1102237	대학원졸	남	대치동	2015.02.12	42,292
711903-1102237	대졸	남	상계동	2001.03.02	5,022

나이 내림차순, 주소 내림차순

주민번호	나이	성별	유동자산	신용도	주소
630230-2005434	53	여	3,452	89.3	구의동
611230-2005434	55	여	2,333	77.0	삼성동
711503-1102237	45	여	9,832	67.8	명동
751503-1102237	41	여	1,229	88.9	상계동

주소 오름차순, 나이 내림차순

주민번호	나이	성별	유동자산	신용도	주소
630230-2005434	53	여	3,452	89.3	구의동
711503-2102237	45	여	9,832	67.8	명동
611230-2005434	55	여	2,333	77.0	삼성동
751503-2102237	41	여	1,229	88.9	상계동

추상화 데이터(N=2, K=2)

그룹ID	나이대	나이평균	성별	평균유동자산	평균신용도
C1id5673	50	54	여	2,892.5	83.15
C1id1332	40	43	여	5,530.5	78.35
C2id1111	40	49	여	6,642	78.55
C2id2525	40	48	여	1,781	82.95

이에 따르면, 동일한 원본 레코드가 포함된 복수의 추상화 레코드는, 추상화 기준필드와 추상화 대상필드에 대응되는 분포값 필드의 필드값이 다양하게 나타날 수 있으며, 그에 따라, 분포값 필드를 필요에 따라 다양하게 연계하여 분석에 활용할 수 있게 되며, 통계 데이터의 신뢰성을 더욱 향상시킬 수 있게 된다.

다음으로, 원본 데이터가 신상 테이블과 상기 신상 테이블의 각 개인의 행위에 대한 로그 테이블로 이루어져 있는 경우의 추상화 데이터 생성 과정을 구체적인 예를 들어 설명한다.

표 10은 로그 테이블의 일예를 나타내는 것으로, 로그 테이블은 서비스를 활용하면서 발생된 개인의 서비스 요청/제공/사용 내역 등으로 구성되는 데, 일반적으로 반정형 로그 레코드는 개인의 시공간적인 행위 상태변화를 나타내므로 개인식별속성, 시간속성 및 공간속성을 기본적으로 가지고 있으며 해당시점에 해당 공간에서 해당 개인이 행한 행위 아이템들을 필드값으로서 반정형 형태로 가지고 있다.

먼저, 추상화 신상 레코드별로 구한 추상화 대상 리스트에 있는 모든 개인을 대상으로 하여, 로그 레코드를 추출하여 해당 추상화 신상 레코드의 로그 레코드 세트로 생성한다.

표 11에 예시된 바와 같이, 추상화 대상 리스트는, 추상화된 각각의 추상화 신상 레코드에 대해, 해당 추상화 신상 레코드에 포함된 각각의 개인을 특정할 수 있는 속성(예 주민등록번호)을 대응시킴으로서 생성된다.

예를 들어, 추상화 신상 레코드 id321의 추상화 대상 리스트는 표 11과 같으며, 이를 대상으로 한 추상화 신상 레코드 id321의 로그 레코드 세트는 표 12와 같이 생성될 수 있다.

이와 같이 각 추상화 신상 레코드를 대상으로 추출된 로그 레코드들을 하나의 추상화 로그 레코드로 추상화한다.

각각의 추상화 신상 레코드별로 추출된 로그 레코드를 하나의 추상화 로그 레코드로 추상화할 때, 시간이나 공간 조건을 제약조건으로 주어서 근접한 공간이나 시간별로 추상화 대상을 선정할 수 있다.

선정된 통합 대상인 로그 레코드들은 다양한 통합 함수를 적용하여 하나의 추상화 로그 레코드로 추상화된다.

통합 함수로는 합집합, 교집합, 샘플링, 빈발 행위원소, 군집화, 히스토그램 등을 들 수 있다.

예를 들어, 표 11의 추상화 신상 레코드 id321의 로그 레코드 세트(표 12)에 각종 통합함수를 적용하는 경우의 생성되는 추상화 로그 레코드는 다음과 같다.

추상화 대상을 전체로 하여 합집합으로 추상화하는 경우,

추상화 대상을 전체로 하여 교집합으로 추상화하는 경우,

시간 또는 공간 조건을 제약조건으로 주어 선택적으로 추상화하는 예로, 7분 이내 개인행위들의 합집합,

동일 행정구별 개인행위들의 합집합

이와 같이 생성되는 각각의 추상화 신상 레코드와 추상화 로그 레코드는 저장부(112)에 테이블 형태로 순차적으로 저장되어 유통용 빅데이터를 형성하게 되는 바, 각 테이블의 추상화 신상 레코드와 추상화 로그 레코드를 매칭시킴으로서 개개의 추상화 레코드로 형성될 수 있다.

추상화 레코드로의 매칭/통합은 유통용 빅데이터를 제공하는 서버에서 이루어질 수도 있고, 빅데이터 사용처의 서버에서 이루어질 수도 있다.

이상 설명한 바와 같이, 본 발명에 의해 생성되는 빅데이터에 따르면, 추상화 데이터의 추상화 기준필드는, 동일한 추상화 기준필드로 추상화된 다른 유통용 개인신상 데이터와 결합하여 연계 분석하는데 활용될 수 있다.

즉, 본 발명에 의해 별도환경에서 독립적으로 생성된 두 개 이상의 유통용 빅데이터들의 연계활용이 가능하게 된다.

한편, 데이터의 연계 분석시 유사한 특성의 추상화 레코드들이 연계되도록 함으로서 연계 정확도를 향상시키기 위해, 추상화 기준필드 또는 추상화 대상필드의 분포값이 연계분석에 활용될 수 있다.

추상화 기준필드 또는 추상화 대상필드의 분포값은, 추상화 레코드에 포함되는 복수의 원본 레코드들의 추상화 기준필드의 필드값들의 분포 정보를 의미하며, 해당 분포 정보를 필드값으로 갖는 분포값 필드가 추상화 레코드에 더 포함된다.

이하, 구체적인 예를 들어, 추상화 기준필드 분포값 필드과 추상화 분포값 필드을 이용하여 서로 독립적으로 가공된 데이터 세트를 연결하는 방법을 신상 테이블과 로그 테이블로 이루어진 추상화 데이터를 예로 들어 설명하기로 한다.

먼저, 평균 소득정보를 담고 있는 신상 레코드 A와 평균 유동자산정보를 담고 있는 신상 레코드 B가 모두 동일한 추상화 기준필드인 나이 필드와 성별 속성으로 각각 별도로 본 발명의 추상화 방식에 의해 변환되었다고 가정한다.

또한 A에는 각 그룹의 소득 최대치를 추상화 분포값 필드로, B에는 유동자산의 최대치를 추상화 분포값 필드로 추가하였다고 가정한다.

추상화 기준필드의 분포값 필드인 나이 분포값 필드는 중간 나이인 미디언(Median)값으로 동일하게 정의하면, 표 13에 예시된 바와 같이, A와 B의 각 추상화 레코드에 대해 분포값 필드들이 추가적으로 생성된다.

각각 변환된 추상화 데이터 세트 A와 B를 추상화 기준필드인 나이대와 성별로 조인하면서 두 데이터 세트의 추상화 기준필드 분포값 필드인 나이 분포값 필드 값의 차이가 각각 2 이내인 조건을 만족하는 추상화 레코드들만 연결하면 표 14와같이 소득과 유동자산 추상화 레코드들이 연결된 두 개의 연결된 추상화 신상 레코드가 생성된다.

이와 같이, 본 발명에 의해 형성되는 추상화된 비식별화 빅데이터는, 별도 환경에서 독립적으로 생성된 두 개 이상의 빅데이터들의 연계 활용이 가능하게 되는 바, 그 과정은 다음과 같다.

두 개의 서로 상이한 빅데이터 A(추상화 신상 레코드 세트 A_S, 추상화 로그 레코드 세트 A_L)와 B( 추상화 신상 레코드 세트 B_S, 추상화 로그 레코드 세트B_L)가 주어졌을 때, A의 추상화 신상 레코드 세트 A_S와 B의 추상화 신상 레코드 세트 B_S가 앞서의 표 13, 14에 예로 들어 설명한 바와 같이 연결된다.

이 결과를 기반으로 A의 추상화 로그 레코드 세트 A_L과 B의 추상화 로그 레코드 세트 B_L 중에 동일한 추상화 신상 레코드별로 결합하여 A와 B가 통합된 추상화 로그 레코드를 새롭게 생성하여 두 원시 데이터에 대한 빅데이터 연계 분석을 수행한다.

추상화 신상 레코드 x∈A_S와 추상화 신상 레코드 y∈B_S가 앞서 예시한 바와 같이 결합되었다면 x의 추상화 로그 레코드 v∈A_L와 y의 추상화 로그 레코드 w∈B_L는 동일한 개인의 행위 내역으로 간주될 수 있으며, 두 빅데이터 A와 B를 연계 분석할 때 두 추상화 로그 레코드 <v, w>가 의미적으로 연결되었다고 가정하고 통합 빅데이터 (A_L B_L)에 대한 행위 분석을 수행하게 된다.

도 4는 본 발명의 다른 실시예에 따른 데이터 추상화의 기본적인 단계를 나타내는 블록도로서, 이하, 도 4을 참조하여 데이터 서버의 처리부에서 수행되는 빅데이터의 비식별화 처리 방법을 구체적으로 설명하기로 한다.

먼저, 저장부(112)에 저장된 데이터를 구성하는 원본 레코드의 각각의 필드 중 빅데이터의 소요처에서 독특하게 필요로 하는 필드 정보만을 적절하게 선별하게 되는 데, 적어도 하나 이상의 필드를 추상화 기준필드로 설정하고(B10), 추상화 기준필드 이외의 필드 중 수치 데이터형을 갖는 적어도 하나 이상의 필드를 추상화 대상필드로 설정한다(B20).

원본 레코드의 추상화 대상필드의 필드값으로 이루어지는 보정 리스트를 생성한다(B30).

상기 보정 리스트에서 중복값을 제거한 후 필드값의 크기순으로 정렬한다(B40).

정렬된 보정 리스트 각각의 필드값에 대해, 해당 필드값에 근접한 적어도 하나 이상의 필드값과 해당 필드값의 평균값을 산출하여 해당 필드값에 대응되는 추상화값으로 대응시킨다(B50).

상기 추상화 기준필드와 상기 추상화 대상필드를 포함하는 추상화 레코드를 생성하되, 상기 추상화 레코드의 상기 추상화 기준필드의 필드값은 상기 원본 레코드의 해당 필드값으로 할당하고, 상기 추상화 레코드의 상기 추상화 대상필드의 필드값은 상기 원본 레코드의 해당 필드값에 대응되는 상기 추상화값으로 할당한다(B60).

처리부(111)는 생성된 추상화 레코드를 저장부(112)에 저장(B70)하고, 원본 데이터 전체에 걸쳐 B50, B60의 과정을 반복하게 되며, 원본 데이터 전체에 걸쳐 데이터 추상화 작업이 완료되면(B70) 작업을 종료하게 된다.

한편, 근접 필드값과의 평균값을 산출하는 데 있어서, 다른 필드값에 비해 확연히 큰 필드값이 존재하면 전체적인 통계에 악영향을 미치게 되는 바, 이와 같은 필드값은 근접 필드값과의 차이가 적어지도록 대치하여 평균값을 산출하는 것이 통계 분석의 정밀도 향상에 도움이 된다.

이를 위해 다음과 같이, 유격값 검사를 실시하여 유격값이 임계값을 벗어나는 경우 이를 다른 값으로 대치하여 평균값을 구하는 것이 바람직하다.

즉, 정렬된 보정 리스트의 각각의 필드값에 대해, 해당 필드값에 인접한 필드값과의 유격값을 산출하여 해당 필드값에 대응되는 유격값 리스트를 생성하되, 산출 유격값이 미리 정해지는 임계값을 벗어나는 경우, 해당 유격값을 상기 임계값으로 대치하여 유격값 리스트를 생성하고, 정렬된 보정 리스트 각각의 필드값에 대한 평균값의 산출시, 해당 필드값에 인접한 필드값은 해당 필드값에 상기 유격값 리스트상의 유격값을 가감한 값을 적용하여 평균값을 산출하게 된다.

아래 표 15는 데이터의 추상화가 수행되기 전의 원본 레코드를 나타내는 바, 추상화 기준필드는 나이 필드로부터 변환되는 나이대 필드, 주민등록번호로부터 생성되는 성별필드 및 주소 필드이며, 추상화 기준필드로는 소득 필드가 선택된다.

주민번호	나이	성명	주소	소득
670102-1041910	46	홍길동	서울 마포구 공덕동 43	3300
641112-1041911	49	이순신	서울 은평구 신사동 123	4400
681112-1041912	45	김유신	부산 서구 서면 22	6500
791112-2041913	34	유관순	부산 사하구 돌산동 33	3500
681112-2041914	45	강감찬	서울 중구 필동 123	6500
641112-2041915	49	김돌섭	서울 마포구 공덕동 55	7200
701112-2041916	43	김좌진	서울 은평구 신사동 99	5250
721112-2041917	41	을지문	서울 마포구 공덕동 22	6600

추상화 기준필드인 소득 필드값을 추출하여 보정 리스트를 생성하되(표 16 좌측), 중복값을 제거한 후 필드값의 크기순으로 정렬하여 보정 리스트를 생성한다(표 16 우측).

정렬된 보정 리스트의 각각의 필드값에 대해, 해당 필드값에 인접한 필드값과의 유격값을 산출하여 해당 필드값에 대응되는 유격 리스트를 생성하되, 산출 유격값이 미리 정해지는 임계값을 벗어나는 경우, 해당 유격값을 상기 임계값으로 대치하여 유격 리스트를 생성한다(표 17).

임계값은 데이터의 성격에 따라 여러 가지 방법으로 설정할 수 있다.

예를 들어, 임계값을 전체 유격값의 평균에 표준편차의 1.5배(평균 + 1.5 X편차)로 설정할 수 있다.

표 17의 예는, 임계값을 870으로 설정하여 유격리스트를 작성한 것으로서, 임계값을 넘는 900을 임계값인 870을 대치한 예를 나타낸다.

다음으로, 표 18은 정렬된 보정 리스트 각각의 필드값에 대한 평균값의 산출시, 해당 필드값에 인접한 필드값은 해당 필드값에 상기 유격 리스트상의 유격값을 가감한 값을 적용하여 평균값을 산출하는 것을 나타낸다.

보정 리스트에는 중복값이 제거되어 있으므로, 보정리스트의 각각의 필드값에는 하나의 평균값이 대응되며, 이와 같이 각각의 필드값에 대응되는 평균값을 추상화 대상필드의 추상화 값으로 할당하게 되며, 추상화 기준필드의 필드값은 상기 원본 레코드의 해당 필드값으로 할당한다.

앞서 언급했듯이, 본 예에서는 추상화 기준필드의 필드값이 개인의 식별과 관련된 내용이므로, 해당 필드값이 하나의 원소로 포함될 수 있는 그룹값 등으로 변환되어 할당된다.

표 19는 이와 같이 변환된 필드가 포함된 원본 레코드을 나타내며, 표 20은 추상화가 완료된 레코드를 나타낸다.

40대	남	A01	서울 마포구 공덕동	3300
40대	남	A02	서울 은평구 신사동	4400
40대	남	A03	서울 은평구 신사동	6500
30대	여	A04	부산 사하구 돌산동	3500
40대	여	A05	서울 중구 필동	6500
40대	여	A06	서울 마포구 공덕동	7200
40대	여	A07	서울 은평구 신사동	5250
40대	여	A08	서울 마포구 공덕동	6600

40대	남	A01	서울 마포구 공덕동	3400
40대	남	A02	서울 은평구 신사동	4393.3
40대	남	A03	서울 은평구 신사동	6116.6
30대	여	A04	부산 사하구 돌산동	3500
40대	여	A05	서울 중구 필동	6116.6
40대	여	A06	서울 마포구 공덕동	6900
40대	여	A07	서울 은평구 신사동	5383.3
40대	여	A08	서울 마포구 공덕동	6600

본 실시예에 따르면, 빅데이터를 구성하는 여러 가지 필드 중 통계 분석의 기준이 될 수 있는 필드와 통계 분석의 대상이 될 수 있는 필드를 선택하여 비식별화 빅데이터를 생성하되, 원본 레코드의 수치 데이터형 필드를 원본 레코드의 값과는 다른 필드값을 갖으면서 통계 분석 본연의 의미를 유지할 수 있는 추상화 값 즉, 인접값과의 평균값으로 대응시킴으로서, 통계 분석의 가치를 갖는 새로운 정보를 얻을 수 있으면서도, 개인의 특정 정보 및 그 조합을 통한 역추적을 근본적으로 방지할 수 있는 빅데이터를 제공할 수 있게 된다.

상기 원본 데이터가 신상 테이블과 로그 테이블로 이루어지는 경우에도 본 실시예를 적용 할 수 있는 바, 신상 테이블과 로그 테이블를 결합하여 하나의 테이블로 변환한 후, 상기 변환된 테이블의 데이터를 대상으로 본 실시예의 데이터 추상화 단계가 진행된다.

100 : 데이터 서버 120: 사용자 단말
111 : 처리부 112 : 저장부
113 : 통신부

Claims

통신부, 처리부 및 저장부를 구비하는 데이터 서버에서 수행되는 빅데이터의 비식별화 처리 방법에 있어서,
상기 처리부가, 유무선 네트워크를 통해 연결된 단말로부터 상기 통신부를 통해 수집되는 데이터를 상기 데이터 서버의 저장부에 저장하는 단계;
상기 처리부가, 상기 저장부에 저장된 원본 데이터를 구성하는 원본 레코드 중 적어도 두 개 이상의 레코드를 조합하여 상기 원본 레코드와는 상이한 레코드를 생성하여 추상화 데이터를 생성하는 데이터 추상화 단계;를 포함하되,
상기 데이터 추상화 단계는,
상기 원본 데이터를 구성하는 상기 원본 레코드의 각각의 필드 중 적어도 하나 이상의 필드를 추상화 기준필드로 설정하고, 상기 추상화 기준필드 이외의 필드 중 적어도 하나 이상의 필드를 추상화 대상필드로 설정하는 단계;
상기 원본 레코드 중 상기 추상화 기준필드의 값이 동일한 레코드를 적어도 두 개 이상 선택하는 단계;
상기 선택된 복수의 레코드를 상기 추상화 기준필드와 상기 추상화 대상필드를 포함하는 하나의 추상화 레코드로 추상화하되, 상기 추상화 레코드의 상기 추상화 기준필드의 값은 상기 선택된 복수 레코드의 공통되는 해당 필드값으로 할당하고, 상기 추상화 레코드의 상기 추상화 대상필드의 값은 상기 선택된 복수 레코드의 해당 필드값을 대표할 수 있는 대표값으로 변환한 후 이를 해당 추상화 대상필드의 값으로 할당하는 단계;
상기 처리부가, 상기 추상화 레코드를 상기 추상화 데이터의 레코드로서 상기 저장부에 저장하는 단계;를 구비하는 것을 특징으로 하는 빅데이터의 비식별화 처리 방법.
제 1 항에 있어서,
상기 데이터 추상화 단계 이전에,
상기 처리부가, 상기 원본 레코드를 상기 추상화 기준필드의 값을 기준으로 정렬하는 단계와;
상기 정렬된 원본 레코드를 바탕으로, 상기 추상화 기준필드의 값이 동일한 레코드 중 추상화 대상필드의 값이 타 레코드들의 해당 추상화 대상필드의 값에 비해 미리 정해진 기준 이상의 편차가 있다고 판단되는 경우, 해당 레코드를 상기 추상화 대상에서 제외시키는 단계를 더 구비하는 것을 특징으로 하는 빅데이터의 비식별화 처리 방법.
제 1 항에 있어서,
상기 대표값을 해당 추상화 대상필드의 값으로 할당하기 이전에,
상기 선택된 원본 레코드 중 해당 추상화 대상필드의 값이 상기 대표값과 동일한 값을 갖는 레코드가 있는지 판단하여,
동일한 값을 갖는 레코드가 있는 경우, 상기 선택된 원본 레코드들의 해당 추상화 필드의 값에는 없는 다른 값으로 해당 대표값을 보정하여 할당하는 것을 특징으로 하는 빅데이터의 비식별화 처리 방법.
제 1 항에 있어서,
상기 선택되는 상기 추상화 기준필드 또는 추상화 대상필드의 값이 개인의 식별과 관련된 내용인 경우, 해당 필드의 값을, 해당 필드값이 하나의 원소로 포함될 수 있는 그룹값으로 변환하여, 해당 추상화 기준필드 또는 추상화 대상필드로 선택하는 것을 특징으로 하는 빅데이터의 비식별화 처리 방법.
제 4 항에 있어서,
상기 추상화 레코드는, 상기 추상화 레코드에 포함되는 복수의 원본 레코드들의 상기 추상화 기준필드의 필드값들의 분포 정보를 필드값으로 갖는 분포값 필드 또는 상기 추상화 레코드에 포함되는 복수의 원본 레코드들의 상기 추상화 대상필드의 필드값들의 분포 정보를 필드값으로 갖는 분포값 필드 중 적어도 어느 하나를 더 포함하는 특징으로 하는 빅데이터의 비식별화 처리 방법.
제 1 항에 있어서,
상기 설정되는 추상화 기준필드 또는 추상화 대상필드의 값이 개인의 식별과 관련된 내용인 경우, 해당 필드의 값을 해시함수로 변환하여 해당 추상화 기준필드 또는 추상화 대상필드로 선택하는 것을 특징으로 하는 빅데이터의 비식별화 처리 방법.
제 1 항에 있어서,
상기 추상화 기준필드 및 추상화 대상필드 설정단계 이후에,
상기 원본 레코드를 상기 추상화 기준필드를 기준으로 정렬한 후, 상기 정렬 순서를 따라, 추상화 기준필드의 값이 동일한 복수의 레코드를 선택하면서 상기 데이터 추상화 단계를 진행하여 상기 추상화 데이터를 생성하되,
상기 추상화 기준필드의 어느 하나의 정렬 방식에 따른 추상화 데이터 생성이 완료된 후, 상기 추상화 기준필드의 다른 정렬 방식을 적용하여 상기 원본 레코드를 정렬한 후,
해당 정렬 순서를 따라 상기 추상화 기준필드의 값이 동일한 복수의 레코드를 선택하여 상기 데이터 추상화 단계를 재차 진행함으로서, 어느 하나의 원본 레코드가 복수의 추상화 레코드에 포함되게 추상화되는 것을 특징으로 하는 빅데이터의 비식별화 처리 방법.
제 1 항에 있어서,
상기 원본 데이터는 신상 테이블과 상기 신상 테이블의 각 개인의 행위에 대한 로그테이블로 이루어지고, 상기 추상화 데이터는 추상화 신상 테이블과 추상화 로그 테이블로 이루어지며,
상기 테이터 추상화 단계를 통해, 상기 신상 테이블의 복수의 로그 레코드를 하나의 추상화 신상 레코드로 추상화 함으로서 상기 추상화 신상 테이블을 생성하되,
상기 테이터 추상화 단계는, 상기 추상화 신상 테이블에 식별필드를 부가하는 단계와, 추상화 신상 레코드의 식별필드에 식별값을 할당하는 단계와, 상기 추상화 신상 레코드에 포함되는 개인들을 특정할 수 있는 필드의 값을 상기 식별값과 대응시킴으로서, 해당 식별값에 해당되는 추상화 신상 레코드에 포함된 개인을 특정할 수 있는 추상화 대상 리스트를 생성하는 단계를 더 포함하며,
상기 테이터 추상화 단계를 통해, 상기 로그 테이블의 복수의 로그 레코드를 하나의 추상화 로그 레코드로 추상화 함으로서 상기 추상화 로그 테이블을 생성하되,
상기 테이터 추상화 단계는, 상기 추상화 로그 테이블에 식별필드를 부가하는 단계와, 상기 추상화 대상 리스트를 참조하여 상기 로그 테이블의 각각의 레코드 중 상기 추상화 신상 레코드에 포함되는 복수의 개인에 대한 로그 레코드를 하나의 추상화 로그 레코드로 추상화하는 단계와, 해당 추상화 신상 레코드에 할당된 식별값을 포함하는 식별값을 상기 식별 필드에 할당하는 단계를 포함하는 것을 특징으로 하는 빅데이터의 비식별화 처리 방법.
제 1 항에 있어서,
상기 원본 데이터는 신상 테이블과 상기 신상 테이블의 각 개인의 행위에 대한 로그테이블로 이루어지고, 상기 추상화 데이터는 추상화 신상 테이블과 추상화 로그 테이블로 이루어지며,
상기 테이터 추상화 단계를 통해, 상기 로그 테이블의 복수의 로그 레코드를 하나의 추상화 로그 레코드로 추상화 함으로서 상기 추상화 로그 테이블을 생성하되,
상기 테이터 추상화 단계는, 상기 추상화 로그 테이블에 식별필드를 부가하는 단계와, 추상화 로그 레코드의 식별필드에 식별값을 할당하는 단계와, 상기 추상화 로그 레코드에 포함되는 개인들을 특정할 수 있는 필드의 값을 상기 식별값과 대응시킴으로서, 해당 식별값에 해당되는 추상화 로그 레코드에 포함된 개인을 특정할 수 있는 추상화 대상 리스트를 생성하는 단계를 더 포함하며,
상기 테이터 추상화 단계를 통해, 상기 신상 테이블의 복수의 신상 레코드를 하나의 추상화 신상 레코드로 추상화 함으로서 상기 추상화 신상 테이블을 생성하되,
상기 테이터 추상화 단계는, 상기 추상화 신상 테이블에 식별필드를 부가하는 단계와, 상기 추상화 대상 리스트를 참조하여 상기 신상 테이블의 각각의 레코드 중 상기 추상화 로그 레코드에 포함되는 복수의 개인에 대한 신상 레코드를 하나의 추상화 신상 레코드로 추상화하는 단계와, 해당 추상화 로그 레코드에 할당된 식별값을 포함하는 식별값을 상기 식별 필드에 할당하는 단계를 포함하는 것을 특징으로 하는 빅데이터의 비식별화 처리 방법.
통신부, 처리부 및 저장부를 구비하는 데이터 서버에서 수행되는 빅데이터의 비식별화 처리 방법에 있어서,
상기 처리부가, 유무선 네트워크를 통해 연결된 단말로부터 상기 통신부를 통해 수집되는 데이터를 상기 데이터 서버의 저장부에 저장하는 단계;
상기 처리부가, 상기 저장부에 저장된 원본 데이터를 구성하는 원본 레코드 중 적어도 두 개 이상의 레코드를 조합하여 상기 원본 레코드와는 상이한 레코드를 생성하여 추상화 데이터를 생성하는 데이터 추상화 단계;를 포함하되,
상기 데이터 추상화 단계는,
상기 원본 데이터를 구성하는 상기 원본 레코드의 각각의 필드 중 적어도 하나 이상의 필드를 추상화 기준필드로 설정하고, 상기 추상화 기준필드 이외의 필드 중 수치 데이터형을 갖는 적어도 하나 이상의 필드를 추상화 대상필드로 설정하는 단계;
상기 원본 레코드의 상기 추상화 대상필드의 필드값으로 이루어지는 보정 리스트를 생성하는 단계;
상기 보정 리스트에서 중복값을 제거한 후 필드값의 크기순으로 정렬하는 단계;
상기 정렬된 보정 리스트 각각의 필드값에 대해, 해당 필드값에 근접한 적어도 하나 이상의 필드값과 해당 필드값의 평균값을 산출하여 해당 필드값에 대응되는 추상화값으로 대응시키는 단계;
상기 추상화 기준필드와 상기 추상화 대상필드를 포함하는 추상화 레코드를 생성하되, 상기 추상화 레코드의 상기 추상화 기준필드의 필드값은 상기 원본 레코드의 해당 필드값으로 할당하고, 상기 추상화 레코드의 상기 추상화 대상필드의 필드값은 상기 원본 레코드의 해당 필드값에 대응되는 상기 추상화값으로 할당하는 단계;
상기 추상화 레코드를 상기 추상화 데이터의 레코드로서 상기 저장부에 저장하는 단계;를 구비하는 빅데이터의 비식별화 처리방법.
제 10 항에 있어서,
상기 정렬된 보정 리스트의 각각의 필드값에 대해, 해당 필드값에 인접한 필드값과의 유격값을 산출하여 해당 필드값에 대응되는 유격 리스트를 생성하되, 산출 유격값이 미리 정해지는 임계값을 벗어나는 경우, 해당 유격값을 상기 임계값으로 대치하여 유격 리스트를 생성하는 단계;를 더 구비하며,
상기 정렬된 보정 리스트 각각의 필드값에 대한 평균값의 산출시, 해당 필드값에 인접한 필드값은 해당 필드값에 상기 유격 리스트상의 유격값을 가감한 값을 적용하여 평균값을 산출하는 것을 특징으로 하는 빅데이터의 비식별화 처리방법.
제 10 항에 있어서,
상기 원본 데이터는 신상 데이터와 상기 신상 데이터의 각 개인의 행위에 대한 로그 테이블로 이루어지며,
상기 신상 데이터와 상기 로그 테이블를 결합하여 하나의 테이블로 변환한 후, 상기 변환된 테이블의 데이터를 대상으로 상기 데이터 추상화 단계가 진행되는 것을 특징으로 하는 빅데이터의 비식별화 처리 방법.
제 10 항에 있어서,
상기 설정되는 추상화 기준필드 또는 추상화 대상필드의 값이 개인의 식별과 관련된 내용인 경우, 해당 필드의 값을, 해당 필드값이 하나의 원소로 포함될 수 있는 그룹값으로 변환하여, 해당 추상화 기준필드 또는 추상화 대상필드로 선택하는 것을 특징으로 하는 빅데이터의 비식별화 처리 방법.
제 10 항에 있어서,
상기 설정되는 추상화 기준필드 또는 추상화 대상필드의 값이 개인의 식별과 관련된 내용인 경우, 해당 필드의 값을 해시함수로 변환하여 해당 추상화 기준필드 또는 추상화 대상필드로 선택하는 것을 특징으로 하는 빅데이터의 비식별화 처리 방법.