WO2020241943A1

WO2020241943A1 - 빅데이터의 비식별화 처리방법

Info

Publication number: WO2020241943A1
Application number: PCT/KR2019/006586
Authority: WO
Inventors: 이원석
Original assignee: 주식회사 보아라
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2020-12-03
Also published as: US20220215128A1; KR20220027961A; US11941153B2; KR102640123B1

Abstract

본 발명은, 개인정보의 유출우려 없이 외부 시스템에 자유롭게 유통시킬 수 있도록 빅데이터를 익명화하면서, 유통된 데이터로부터 산출되는 통계값이 원본 데이터의 통계값에 최대한 가깝게 하여 통계 분석의 신뢰성을 확보할 수 있도록 하는 빅데이터의 비식별화 처리 방법에 관한 발명으로, 본 발명에 따르면, 추상화 기준필드의 값이 모두 동일한 레코드의 수가 N개 이하인 레코드에 대해서도 이들을 추상화 대상에서 제외시키지 않고 별도로 그룹화하고, 그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값을 추상화 레코드의 속성값으로 할당하여 추상화 누락 데이터를 최소화함으로서, 유통되는 데이터로부터 산출되는 통계값이 원본 데이터의 통계값에 최대한 가깝게 되어 통계 분석의 신뢰성을 확보할 수 있게 된다.

Description

빅데이터의 비식별화 처리방법

본 발명은, 빅데이터의 비식별화 처리 방법에 관한 것으로서, 더욱 상세하게는, 빅데이터를 확실하게 익명화하여 개인정보의 유출 우려 없이 외부 시스템에 자유롭게 유통시킬 수 있도록 하면서, 유통된 데이터로부터 산출되는 통계값이 원본 데이터의 통계값에 최대한 가깝게 하여 통계 분석의 신뢰성을 확보할 수 있도록 하는 빅데이터의 비식별화 처리 방법에 관한 것이다.

빅데이터란, 기존의 기업 환경이나 공공 기관에서 사용되는 정형화된 데이터는 물론, 전자상거래 데이터, 메타 데이터, 웹로그, 무선식별(RFID) 데이터, 센서 네트워크 데이터, 소셜 네트워크 데이터, 소셜 데이터, 인터넷 텍스트와 문서, 인터넷 검색 인덱싱 등 기존에 미처 활용되지 못하던 비정형화 또는 반정형화된 데이터를 모두 포함하는 데이터로서, 이와 같은 데이터는 일반적으로 보통의 소프트웨어 툴 및 컴퓨터 시스템으로는 다루기 어려운 수준의 데이터 양을 갖게 된다는 의미에서 빅데이터(Big Data)라 칭하고 있다.

최근 들어, 기업뿐만 아니라 정부에서도, 다양하게 수집된 빅데이터 정보 및 그를 활용한 통계 분석 데이터를 의사 결정과 정책 결정 등에 적극적으로 활용하고자하는 시도가 이어지고 있으며, 빅데이터를 활용하여 데이터 중심의 컴퓨팅 환경을 구축하기 위한 빅데이터 처리 기술이 활발하게 연구되고 있다.

한편, 빅데이터는 해당 자료가 수집되는 조직 내에서 분석하여 활용하게 되지만, 자료를 수집하는 조직에 따라 수집되는 데이터의 속성에 차이가 있어 다른 조직의 자료를 활용할 필요가 발생하며, 자료를 수집할 능력이나 시스템이 갖추어져 있지 않은 조직의 경우에도 타 조직의 빅데이터나 그들의 조합으로부터 해당 조직이 독특하게 필요로 하는 정보를 분석하여 의사결정에 활용할 필요성이 대두되고 있다.

그러나, 빅데이터의 성격상 데이터의 양이 방대할 뿐만 아니라, 대부분의 빅데이터에는 개인신상에 대한 정보가 필연적으로 포함될 수밖에 없는 바, 개인 신상 정보의 유출에 따른 법적 분쟁이 발생할 소지가 다분하기 때문에, 빅데이터의 조직간 교류나 유통에 한계가 있었다.

이에 따라, 빅데이터의 수집이 가능한 조직의 입장에서는, 개인 신상정보 유출에 따른 법적 분쟁의 발생을 피하기 위해 빅데이터를 사업적 목적으로 가공하여 유통하기보다는 대부분 통계적 정보 수준으로 가공하여 제공하고 있는 실정이며, 빅데이터의 활용을 필요로 하는 조직의 입장에서는 조직의 독특한 사업 환경에 꼭 필요로 하는 분석 자료를 획득하기가 어렵다는 문제점이 있었다.

상기의 문제점을 해결하기 위한 것으로, 데이터를 그룹화한다거나, 마스킹, 치환, 반식별화, 유형화를 통해 개인 속성을 익명화(비식별화) 하는 빅데이터 처리 시스템 및 방법이 일각에서 적용되고 있다.

마스킹은, 대상정보를 마스킹 또는 삭제하는 것이고(예; 670101-10491910 → **************), 치환은 대상정보에 대응하여 생성된 정보로 치환하는 것이며(예; 670101-10491910 → ID2311331), 반식별화는 대상 정보의 일부만 나타내도록 반식별화하는 것이며(예; 670101-10491910 → 67-1), 유형화는 대상정보를 유형화시켜 구분하는 방식(예; 670101-10491910 → 남자)이다.

그러나, 개인 정보를 마스킹, 치환, 반식별화, 유형화 등에 의해 비식별화하더라도, 조합(Mash-Up)이나 개인의 특정 정보 및 그 조합을 통한 역추적 등을 통해 개인정보의 유출 위험이 존재한다는 단점이 있었으며, 또한 별도 환경에서 독립적으로 생성된 빅데이터들의 연계 분석이 어렵다는 문제점이 있었다.

이러한 종래의 빅데이터 비식별화 방식의 문제점을 해결하기 위한 발명으로, 본 발명자는, '빅데이터의 비식별화 처리방법'을 안출하여, 2016. 06. 09자 대한민국 특허출원 제 10-2016-0071747호로 출원하여, 2017. 09. 27자 대한민국 등록특허 제10- 1784265호로 등록받은 바 있다.

이러한 본인의 선 발명은, 유통용으로 활용되는 빅데이터는 개개인에 대한 특정 정보의 활용보다는 통계 분석용이며, 데이터 전체에 대한 통계 분석은 데이터의 일부분 일부분의 통계 분석을 먼저 수행한 후 이를 조합하여 분석한다 하더라도 결과에서 큰 차이점이 없다는 점에 착안하여 이루어진 발명으로서, 빅데이터를 구성하는 여러 가지 필드 중 통계 분석의 기준이 될 수 있는 필드와 통계 분석의 대상이 될 수 있는 필드를 선택하여 유통용 빅데이터를 생성하되, 아래 표 1에 예시된 바와 같이, 복수의 원본 레코드를, 원본 레코드의 값과는 다른 필드값을 갖으면서 통계 분석 본연의 의미를 유지할 수 있는 하나의 추상화 레코드(Abstracted Record)로 추상화(Abstracting)하는 것을 특징으로 한다.

[표 1]

표 1은 연령대, 성별, 도시를 추상화 기준 필드로 선택하고, 소득을 추상화 대상필드로 선택하여, 추상화 기준 필드가 동일한 레코드를 3개(N=3) 씩을 선택하고, 선택된 복수의 레코드들로부터 하나의 추상화 레코드를 생성한 후, 각각의 추상화 레코드에 대해 식별자(ID)를 할당한 예를 나타낸다.

추상화 기준필드인 연령대, 성별, 도시는 선택된 레코드에 공통되는 값이 할당된 것을 나타내며, 추상화 대상필드인 소득필드의 대표값으로, 선택된 레코드의 소득 필드값의 평균값을 할당한 예를 나타낸다.

식별자(ID) 값은 각각의 추상화 레코드를 유일하게 구별할 수 있도록 생성된다.

본인의 선발명에 따른 빅데이터 비식별화 처리방법은, 통계 분석의 가치를 갖는 새로운 정보를 얻을 수 있으면서도, 개인의 특정 정보 및 그 조합을 통한 역추적을 근본적으로 방지할 수 있는 유통용 빅데이터를 제공할 수 있도록 하는 매우 유용한 발명이었다.

그러나, 추상화 레코드 생성시 추상화 기준 필드가 동일한 레코드가 N개 이하인 경우 해당 레코드들은 추상화 대상에서 단순 제외되는 바, 이와 같이 추상화 대상에서 제외되는 레코드가 많아지는 경우, 통계 분석의 정확도가 다소 떨어진다는 단점이 있음을 확인할 수 있었다.

본 발명은 상기와 같은 종래 익명화 빅데이터의 문제점을 해결하기 위한 발명으로, 데이터의 비식별화 즉, 탈 개인정보를 완벽하게 수행함으로서, 빅데이터의 유통시 특정 개인이 재식별화되는 것을 근본적으로 방지하여, 민감한 개인정보에 대해 개개인에 대한 허락을 받을 필요 없이 안전하게 유통용으로 활용할 수 있는 빅데이터의 비식별화 처리 방법을 제공하는 데 그 목적이 있다.

본 발명의 또 다른 목적은, 개개의 소요처에서 독특하게 필요로 하는 분석용 정보를 적절하게 선별 가공하여 제공할 수 있도록 하는 빅데이터의 비식별화 처리 방법을 제공하는 데 그 목적이 있다.

본 발명의 또 다른 목적은, 빅데이터를 확실하게 익명화하여 개인정보의 유출 우려 없이 외부 시스템에 자유롭게 유통시킬 수 있도록 하면서, 유통된 데이터로부터 산출되는 통계값이 원본 데이터의 통계값에 최대한 가깝게 되어 통계 분석의 신뢰성을 확보할 수 있도록 하는 빅데이터의 비식별화 처리 방법을 제공하는 데 그 목적이 있다.

상기의 목적을 달성하기 위한 본 발명에 따른 빅데이터의 비식별화 처리방법은, 통신부, 처리부 및 저장부를 구비하는 데이터 서버에서 수행되는 빅데이터의 비식별화 처리 방법에 있어서, 상기 처리부가, 유무선 네트워크를 통해 연결된 단말로부터 상기 통신부를 통해 수집되는 데이터를 상기 데이터 서버의 저장부에 저장하는 단계; 상기 처리부가, 상기 데이터를 구성하는 원본 레코드 중 적어도 두 개 이상의 레코드를 조합하여 원본 레코드와는 상이한 레코드를 생성하는 데이터 추상화 단계;를 포함하되, 상기 데이터 추상화 단계는, 상기 데이터를 구성하는 상기 원본 레코드의 각각의 필드 중 적어도 하나 이상의 필드를 추상화 기준필드로 설정하고, 상기 추상화 기준필드 이외의 필드 중 적어도 하나 이상의 필드를 추상화 대상필드로 설정하는 단계; 상기 원본 레코드 중 상기 추상화 기준필드의 값이 모두 동일한 레코드중 적어도 두 개 이상(N 개)씩을 추상화대상 레코드그룹으로 선택하는 단계; 상기 선택된 N개의 추상화대상 레코드그룹을 상기 추상화 기준필드와 상기 추상화 대상필드로 이루어지는 하나의 추상화 레코드로 추상화하되, 상기 추상화 레코드의 수치 속성필드는 통계함수값 중 적어도 하나 이상의 값이 포함되도록 할당하고, 상기 추상화 레코드의 범주(Catagory) 속성필드는 해당 범주 속성값과 상기 추상화대상 레코드그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값으로 할당하는 단계; 상기 추상화 기준필드의 값이 모두 동일한 레코드의 수가 상기 N개 이하인 레코드들중 적어도 2개 이상(M 개)씩을 추상화대상 레코드그룹으로 선택하는 단계; 상기 선택된 M개의 추상화대상 레코드그룹을 상기 추상화 기준필드와 상기 추상화 대상필드로 이루어지는 하나의 추상화 레코드로 추상화하되, 상기 추상화 레코드의 수치 속성필드는 통계함수값 중 적어도 하나 이상의 값이 포함되도록 할당하고, 상기 추상화 레코드의 범주 속성필드는 해당 범주 속성값과 상기 추상화대상 레코드그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값으로 할당하는 단계; 상기 처리부가, 상기 추상화 레코드를 상기 추상화 데이터의 레코드로서 상기 저장부에 저장하는 단계;를 구비하는 것을 특징으로 한다.

본 발명의 위와 같은 특징에 따르면, 빅데이터를 구성하는 여러 가지 필드 중 통계 분석의 기준이 될 수 있는 필드와 통계 분석의 대상이 될 수 있는 필드를 선택하여 유통용 빅데이터를 생성하되, 복수의 원본 레코드를, 원본 레코드의 값과는 다른 필드값을 갖으면서 통계 분석 본연의 의미를 유지할 수 있는 하나의 추상화 레코드로 추상화함으로서, 통계 분석의 가치를 갖는 새로운 정보를 얻을 수 있으면서도, 개인의 특정 정보 및 그 조합을 통한 역추적을 근본적으로 방지할 수 있는 빅데이터를 제공할 수 있게 된다.

특히, 추상화 기준필드의 값이 모두 동일한 레코드의 수가 N개 미만인 레코드에 대해서도 이들을 추상화 대상에서 제외시키지 않고 별도로 그룹화하고, 그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값을 추상화 레코드의 속성값으로 할당하여 추상화 누락 데이터를 최소화함으로서, 유통되는 데이터로부터 산출되는 통계값이 원본 데이터의 통계값에 최대한 가깝게 되어 통계 분석의 신뢰성을 확보할 수 있게 된다.

추상화 기준필드는, 데이터 추상화를 수행하는 기준이 되는 필드를 의미하는 것으로서, 원본 레코드의 해당 필드가 연속 수치 데이터형인 경우 히스토그램, 비닝(Binning), 군집화 기법 등으로 전처리하여 해당 속성을 불연속(Discrete) 범주형 데이터로 변환한 후 추상화 기준필드 선택하는 바람직하다.

추상화 대상필드는, 통계값 산정의 대상이 되는 필드로서, 추상화 대상필드가 수치 데이터형일 경우, 추상화 레코드의 해당 필드값은 평균값, 편차, 최댓값, 최소값, 평균, 표준편차, 중간값, quartile-quartile distance(Q3-Q1), |최대치-최소치| 등의 통계함수값 중 적어도 어느 하나 이상의 값을 할당하는 것이 바람직하며, 수치 데이터가 아닌 경우 합집합, 교집합, 샘플링, 빈발 행위원소, 군집화, 히스토그램 등의 통합함수를 적용하여 산출할 수 있다.

하나의 추상화 레코드에 포함되는 원본 레코드는, 각각의 추상화 레코드에 대해 일정 갯수로 선택하는 것이 바람직하나, 각각의 추상화 레코드에 서로 다른 갯수의 원본 레코드가 포함되도록 선택하는 것도 가능하다

본 발명의 또 다른 특징은, 상기 추상화 기준필드가 2개 이상인 경우, 추상화 기준 필드의 값이 모두 동일한 레코드중 적어도 두 개 이상(N 개)씩을 추상화대상 레코드그룹으로 선택하여 상기 추상화 작업을 진행한 후, 상기 추상화 작업에 진행되지 않은 나머지 레코드들에 대해, 상기 추상화 기준필드중 어느 하나를 제외한 나머지 필드를 새로운 추상화 기준필드로 설정하여, 상기 새로운 추상화 기준필드의 값이 모두 동일한 레코드중 적어도 두 개 이상(N' 개)씩을 추상화대상 레코드그룹으로 선택하여 상기 추상화 작업을 진행하는 단계;를 더 포함하는 것을 특징으로 한다.

본 발명의 위와 같은 특징에 따르면, 임의의 그룹화 이전에 추상화 기준필드에 따른 그룹화를 다단계로 진행하여 추상화 작업을 진행함으로서, 유통된 데이터에 의한 통계 분석의 정확도를 더욱 향상시킬 수 있게 된다.

본 발명에 따르면, 데이터의 비식별화 즉, 탈 개인정보를 완벽하게 수행함으로서, 빅데이터의 유통시 특정 개인이 재식별화되는 것을 근본적으로 방지하여, 민감한 개인정보에 대해 개개인에 대한 허락을 받을 필요 없이 안전하게 유통용으로 활용할 수 있는 빅데이터를 제공할 수 있게 된다.

또한, 개개의 소요처에서 독특하게 필요로 하는 분석용 정보를 적절하게 선별 가공하여 제공할 수 있게 된다.

또한, 추상화 기준필드의 값이 모두 동일한 레코드의 수가 기준치에 못미치는 레코드에 대해서도, 이들을 추상화 대상에서 제외시키지 않고 별도 그룹화하여를 진행하고, 그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값을 추상화 레코드의 속성값으로 할당하여 추상화 누락 데이터를 최소화함으로서, 유통되는 데이터로부터 산출되는 통계값이 원본 데이터의 통계값에 최대한 가깝게 되어 통계 분석의 신뢰성을 확보할 수 있게 된다.

도 1은 본 발명의 빅데이터 처리 시스템을 형성하는 데이터 중심 컴퓨팅 환경을 설명하는 예시도.

도 2는 도 1에 도시한 데이터 서버의 주요 구성을 나타내는 블록도.

도 3은 본 발명의 일 실시예에 따른 데이터 추상화의 기본적인 단계를 나타내는 블록도.

이하, 본 발명에 따른 빅데이터의 비식별화 처리 방법 및 생성된 유통형 빅데이터로부터의 통계 정보 산출 방법을 구체적으로 설명한다.

도 1을 참조하면, 본 발명의 빅테이터 처리 시스템을 형성하는 데이터 중심의 컴퓨팅 환경은 데이터 서버(110)와 데이터 서버와 유무선 네트워크를 통해 연결되는 다수의 사용자 단말(120)에 의해 구축될 수 있다.

데이터 중심의 컴퓨팅(data-centric computing) 환경이란 다수의 사용자 단말(120)에서 실시간으로 생성되는 데이터를 활용하여 소셜 네트 워크서비스(Social Network Service, SNS), 스마트 그리드(smart grid), 지능형 가전, 실시간 스트리밍 또는 실시간 의사 결정 등의 다양한 응용 프로그램을 제공할 수 있는 빅데이터 처리에 기반한 기술을 의미한다.

본 발명에 따른 빅데이터 처리 시스템 및 방법은, 다수의 사용자 단말(120)과 연결된 데이터 서버(110)에 의해 구현되는 바, 다수의 사용자 단말(120)에서 생성되는 데이터를 수집하고 이를 처리한 후 저장하고, 저장된 데이터를 소요로 하는 사용자 단말(120)에 제공함으로써, 데이터 중심의 컴퓨팅 응용이 수행될 수 있는 환경이 구축된다.

여기에서, 사용자 단말(120)은 데이터 서버(110)와 연결되도록 통신 장치를 탑재하고, 사용자 단말(120)의 운용에 따라 데이터가 생성되도록 정보 처리 기능을 구비하는 컴퓨터, 노트북과 같은 정보 처리 단말, 스마트폰, 태블릿 PC 등의 이동 통신 단말, 스마트 가전 기기, 무선식별(RFID) 데이터, 블랙 박스 또는 네비게이션이 운용되는 자동차, 기차, 비행기와 같은 교통 수단 등을 의미할 수 있으나 이에 한정되는 것은 아니다.

도 2에 도시된 바와 같이, 데이터 서버(110)는 통신부(113)를 통해 다수의 사용자 단말(120)과 유무선 네트워크로 연결되어 사용자 단말(120)에서 생성된 데이터를 수집하여 저장부(112)에 저장하고, 일반적으로 복수의 프로세서로 이루어지는 처리부(111)에 의해 수집된 데이터를 처리하여 저장하는 클라우드 서버 또는 웹 서버를 의미할 수 있으나 이에 한정되는 것은 아니다.

유무선 네트워크를 통해 연결된 단말들(120)로부터 통신부(113)를 통해 수집되는 원본 데이터는 데이터 서버(110)의 저장부(112)에 저장된다.

본 발명에 따른 처리부(111)는 저장부(112)에 저장되어 있는 대용량의 빅데이터를 적절하게 처리하여, 분석에 필요한 데이터를 선택하여 추상화 함으로서 용량을 줄임과 동시에 비식별화하여 유통용의 비식별 빅데이터로 가공하여 저장부(112)에 저장하게 되며, 저장부(112)에 상대적으로 소용량으로 저장된 유통용 비식별 빅데이터는 서버의 통신부(113) 및 통신망을 통해 이의 분석 및 활용이 필요한 소요처로 전송된다.

도 3은 본 발명의 일 실시예에 따른 데이터 추상화의 기본적인 단계를 나타내는 블록도로서, 이하, 도 3을 참조하여 데이터 서버의 처리부에서 수행되는 빅데이터의 비식별화 처리 방법을 구체적으로 설명한다.

먼저, 저장부(112)에 저장된 데이터를 구성하는 원본 레코드의 각각의 필드 중 빅데이터의 소요처에서 독특하게 필요로 하는 필드 정보만을 적절하게 선별하게 되는 데, 적어도 하나 이상의 필드를 추상화 기준필드로 설정하고(S1), 추상화 기준필드 이외의 필드 중 적어도 하나 이상의 필드를 추상화 대상필드로 설정한다(S2).

추상화 기준필드는, 데이터 추상화를 수행하는 기준이 되는 필드를 의미하는 것으로서, 원본 레코드의 해당 필드가 연속 수치 데이터형인 경우 히스토그램, 비닝(Binning), 군집화 기법 등으로 전처리하여 해당 속성을 불연속(Discrete) 범주(Catalog)형 데이터로 변환한 후 추상화 기준필드 선택하는 바람직하다.

처리부(111)에 의해, 원본 레코드 중 추상화 기준필드의 값이 모두 동일한 레코드가 적어도 두 개 이상(N 개) 추상화대상 레코드그룹으로 선택되고(S3), 선택된 복수의 레코드가 하나의 추상화 레코드로 추상화 된다(S4).

선택 단계(S3) 이전에 상기 처리부에 의해 상기 데이터를 상기 추상화 기준필드의 값을 기준으로 정렬하는 단계를 갖는 것이 바람직하며, 하나의 추상화 레코드에 포함되는 원본 레코드는, 각각의 추상화 레코드에 대해 일정 갯수로 선택하는 것이 바람직하나, 각각의 추상화 레코드에 서로 다른 갯수의 원본 레코드가 포함되도록 선택하는 것도 가능하다.

추상화 레코드의 수치 속성필드는 평균값, 편차, 최댓값, 최소값, 평균, 표준편차, 중간값, quartile-quartile distance(Q3-Q1), |최대치-최소치|등의 통계함수값 중 적어도 하나 이상의 값이 포함되도록 할당하고, 추상화 레코드의 범주(Catagory) 속성필드는 해당 범주 속성값과 추상화대상 레코드그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값으로 할당하여 저장부(112)에 저장한다(S5).

이 단계에서는 추상화 기준필드의 값이 모두 동일한 레코드가 추상화대상 레코드그룹을 형성하므로, 각각의 범주 속성값의 발생 비율값은 1이 된다.

추상화 레코드의 저장시, 각각의 추상화 레코드에 대해 가명 식별자 및 추상화대상 레코드그룹에 포함되는 레코드의 숫자에 대한 정보를 함께 저장하거나, 추상화대상 레코드그룹에 포함되는 각각의 레코드에 대해 가명 식별자를 부여한 후, 생성된 추상화 레코드를 각각의 레코드에 동일하게 할당하여 저장할 수 있다.

전자는 데이터의 용량을 절약할 수 있으나, 통계 활용시 계산이 번거로울 수 있으며, 후자는 데이터의 용량은 전자에 비해 커지지만, 통계 활용시 계산이 용이하다는 장단점이 있으므로 상황에 따라 적절한 방식을 적용하는 것이 가능하다.

추상화 기준필드의 값이 모두 동일한 레코드의 수가 N개 이상 남아있는 경우, 즉 N그룹화가 가능할 때까지 위 과정을 반복하여 추상화 레코드를 생성한다.

추상화 기준필드의 값이 모두 동일한 레코드의 수가 상기 N개 미만으로 되는 경우, 즉 N 그룹화가 불가능하게 되는 경우, 남아 있는 레코드들중 적어도 2개 이상(M 개)씩을 추상화대상 레코드그룹으로 선택(S7)하여, 추상화 작업을 진행한다.(S8).

이때, M은 데이터의 비식별성을 확보하기 위해 N 보다는 큰 숫자로서, 바람직하게는 N의 2배 정도로 설정하는 것이 바람직하다.

또한, 추상화 진행 중 남은 레코드의 수가 M개 이하가 되는 경우, 비식별성을 확보하기 위해서는 N 그룹화가 가능한 레코드들이 있더라도, 이들에 대해서는 N 그룹화에 의한 추상화를 진행하지 않고 M 그룹화 추상화를 진행하는 것이 바람직하다.

이 경우도, 추상화 레코드의 수치 속성필드는 통계함수값 중 적어도 하나 이상의 값이 포함되도록 할당하고, 추상화 레코드의 범주 속성필드는 해당 범주 속성값과 추상화대상 레코드그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값으로 할당하여 저장부(112)에 저장한 후(S9), 나머지 원본 데이터에 걸쳐 S7 내지 S10의 과정을 반복하게 되며, 원본 데이터 전체에 걸쳐 데이터 추상화 작업이 완료되면 작업을 종료(S11)하게 된다.

한편, 추상화 기준필드가 2개 이상인 경우, 추상화 기준 필드의 값이 모두 동일한 레코드중 적어도 두 개 이상(N 개)씩을 추상화대상 레코드그룹으로 선택하여 상기 추상화 작업을 진행한 후(S3~S6), 단계 S7을 수행하기 전에, 추상화 작업에 진행되지 않은 나머지 레코드들에 대해, 추상화 기준필드중 어느 하나를 제외한 나머지 필드를 새로운 추상화 기준필드로 설정하여, 새로운 추상화 기준필드의 값이 모두 동일한 레코드중 적어도 두 개 이상(N')씩을 추상화대상 레코드그룹으로 선택하여 추상화 작업을 수행하는 것도 가능하며, 이 방식에 따르면, 추상화 기준필드에 따른 그룹화를 다단계로 진행하여 추상화 작업을 진행함으로서, 유통되는 데이터에 의한 통계 분석의 정확도를 더욱 향상시킬 수 있게 된다.

위에 언급한 데이터 추상화 과정을 구체적인 예를 들어 설명하면 다음과 같다.

표 2는 데이터 추상화 이전의 원본 데이터의 간단한 예로서, 주민등록번호, 성별, 키, 병명이 원본 레코드의 각 필드로 포함되어 있으며, 작업의 편의를 위해 추상화 기준필드인 병명, 성별을 기준으로 정렬한 예를 나타낸다.

[표 2] 원본 데이터의 예

추상화 대상필드로는 개인이 식별될 수 있는 주민번호는 선택하지 않고, 통계 대상인 키를 추상화 대상필드로 선택한다.

먼저, 원본 데이터에서 추상화 기준 필드인 병명, 성별이 모두 같은 레코드 3개씩(N=3)을 추상화대상 레코드그룹으로 선택하는 경우, 추상화대상 레코드그룹은 표 3과 같다.

[표 3]

표 3의 추상화대상 레코드그룹에 대해, 수치 속성필드는 통계함수값 중 평균, 편차, 최대값, 최소값을 할당하고, 범주 속성필드는 해당 범주 속성값인 남자, 간암 및 추상화대상 레코드그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값으로 할당하면 표 4와 같다.

범주 속성값인 남자, 간암 모두 그룹내 발생 비율값은 1이 된다.

[표 4]

표 5는 이와 같이 생성된 추상화 레코드를, 추상화대상 레코드그룹에 포함되어 있는 각각의 레코드에 대해 레코드에 동일하게 할당하여 저장하는 예를 나타낸다.

[표 5]

본 예의 원본 데이터에 따르면, 위 추상화 작업 진행 후 나머지 레코드중 추상화 기준필드의 값이 모두 동일한 레코드의 수가 3개(N=3) 미만이어서 더 이상의 N 그룹화가 불가능하므로, 추상화 기준필드중 병명를 제외한 나머지 필드 즉, 성별을 새로운 추상화 기준필드로 설정하여, 성별 필드값이 동일한 레코드 중 3개(N'=3)씩을 추상화대상 레코드그룹으로 선택하여 추상화 작업을 수행하게 되는 데, 먼저, 원본 데이터에서 추상화 기준 필드인 성별이 모두 같은 레코드 3개씩(N'=3)을 추상화대상 레코드그룹으로 선택하는 경우, 추상화대상 레코드그룹은 표 6과 같다.

[표 6]

표 6의 추상화대상 레코드그룹에 대해, 앞서와 같이 수치 속성필드는 통계함수값 중 평균, 편차, 최대값, 최소값을 할당하고, 범주 속성필드는 해당 범주 속성값인 여자, 간암 및 추상화대상 레코드그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값으로 할당하면 표 7와 같다.

[표 7]

추상화대상 레코드그룹내에 서로 다른 범주값 x, y, z가 존재하는 경우, 연결형 속성값 (x, fx)/(y, fy)/(z, fz) ... 로 모든 범주값을 연결하여 연결형 속성값으로 할당하는 데, 표 6에서, 병명 속성값은 {(위암, 2회=2/3=0.67), (간암, 1회=1/3=0.33)}이므로, 추상화 레코드의 병명 속성값에는 (위암,0.67)/간암,0.33)의 값이 할당된다.

표 8은 이와 같이 생성된 추상화 레코드를, 추상화대상 레코드그룹에 포함되어 있는 각각의 레코드에 대해 레코드에 동일하게 할당하여 저장하는 예를 나타낸다.

[표 8]

한편, 본 예의 원본 데이터에 따르면, 위 추상화 작업 진행 후 나머지 레코드 중 추상화 기준필드의 값 즉, 성별 필드값이 동일한 레코드의 수가 3개(N'=3) 미만이어서 더 이상의 N' 그룹화가 불가능하므로, 남아 있는 레코드들 6개(M=6)씩을 추상화대상 레코드그룹으로 선택하여, 추상화 작업을 진행한다.

이 경우도, 추상화 레코드의 수치 속성필드는 통계함수값 중 적어도 하나 이상의 값이 포함되도록 할당하고, 추상화 레코드의 범주 속성필드는 해당 범주 속성값과 추상화대상 레코드그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값으로 할당하여 저장부(112)에 저장하게 된다.

표 9는 성별 필드값이 동일한 레코드의 수가 3개(N'=3) 미만이어서 더 이상의 N' 그룹화가 불가능한 레코드중 6개(M=6)씩을 추상화대상 레코드그룹으로 선택한 예를 나타내고, 표 10은 표 9의 추상화대상 레코드그룹에 대해 추상화를 진행한 결과를 나타내며, 표 11은 이와 같이 생성된 추상화 레코드를, 추상화대상 레코드그룹에 포함되어 있는 각각의 레코드에 대해 레코드에 동일하게 할당하여 저장하는 예를 나타낸다.

[표 9]

[표 10]

[표 11]

표 12는 표 2의 원본 데이터를 추상화하여 형성된 전체적인 추상화 레코드 테이블을 나타낸다.

[표 12]

이하, 본 발명에 따른 추상화 레코드를 활용하여 통계값을 산정하는 방법을 표 12의 추상화 레코드 테이블을 참조로 하여 설명하기로 한다.

먼저 전체 레코드에 대한 수치 속성값(평균, 편차, 최대, 최소)의 활용에 대해 설명한다.

전체 레코드에 대한 키의 평균값은 (각 레코드의 키 속성값의 합)/레코드 수에 해당되며, 표 12의 예의 경우, 2034/12 = 169.5에 해당되며, 전체 레코드에 대한 키의 최대값은 키의 최대값 속성값중 가장 큰 191에 해당되고, 전체 레코드에 대한 키의 최소값은 키의 최소값 속성값중 가장 작은 155에 해당된다.

한편, 여자의 평균키와 같이 부분 레코드에 대한 수치 속성값의 통계값은 다음의 예와 같이 산출한다.

여자의 숫자 즉, 여자의 레코드 수는 Σ(여자 비율) = 1*3 + 0.33*6 = 5에 해당되고, 여자들의 평균키는 Σ(키 평균*여자비율)/Σ(여자비율) = 835/5 = 167에 해당되며, 이 경우 신뢰도는 계산에 사용된 레코드들의 여자비율의 평균값 즉, Σ(여자 비율)/ (계산에 사용된 레코드 수) = 5/9 = 4.55에 해당되며, 여자들의 평균키의 확정 통계값은 여자 비율이 1인 레코드들에 대한 평균키 값으로서, 가명 식별자 R4, R5, R6의 평균키인 166에 해당된다.

또한, 여자의 최대 키에 대한 확정 통계값 즉, 신뢰도 100%의 최대값은 여자 비율이 1인 레코드들 중의 최대값인 175에 해당되며, 여자의 최대 키의 가능 통계값은 (여성, x)의 속성값을 갖는 레코드들 중의 최대값 v를 속성 통계값으로, 해당 레코드의 여자 비율 w를 신뢰도로 산정하여 (v, w)로 표현되며, 표 12의 추상화 레코드 테이블의 경우 (187, 0.33)에 해당되며, 마찬가지로, 여자의 최소 키에 대한 확정 통계값은 (157, 1), 여자의 최소 키에 대한 가능 통계값은 (155, 0.33)에 해당된다.

표 13은 표 12의 추상화 레코드 테이블로부터 산출된 통계값과 도 2의 원본 레코드 테이블로부터 산출된 통계값을 대비하여 나타낸 표로서, 추상화 테이블로부터 산출된 통계값이 원본 레코드의 통계값과 유사하여 통계자료로서 신뢰성 있게 활용 가능하다는 것을 보여주고 있다.

[표 13]

한편, 추상화 레코드 테이블의 범주 속성값을 이용한 통계값 산출 방법은 다음과 같다.

표 12의 추상화 레코드 테이블에서, 병명이 간암인 레코드 수는 각 레코드의 해당 속성값 비율의 합(= 3+ 3*0.33 = 4)에 해당되며, 병명이 정상인 레코드 수는 해당 속성값 비율의 합(= 0.67*6 = 4)에 해당되며, 마찬가지 방법으로, 병명이 위암인 레코드 수는 2, 병명이 폐암인 레코드 수는 1, 병명이 폐암인 레코드 수는 1에 해당된다.

이와 같이, 본 발명에 의해 형성되는 추상화된 비식별화 빅데이터는, 독립적으로 생성된 두 개 이상의 빅데이터들의 연계 활용이 가능하게 되는 바, 그 과정은 다음과 같다.

표 14와 표 15는 두 개의 서로 상이한 빅데이터 A와 B에 대한 추상화 레코드 테이블 A와 B를 각각 나타내는 바, 두 개의 추상화 레코드 테이블에 공통되는 가명 식별자를 기준으로 두 개의 테이블을 결합하여 통계 분석에 활용한다.

[표 14]

[표 15]

예를 들어, 표 14, 표 15의 전체 레코드에 대한 키의 평균값은 (각 레코드의 키 속성값의 합)/레코드 수에 해당되며, 1524.5/9 = 169.5에 해당되며, 전체 레코드에 대한 키의 최대값은 키의 최대값 속성값중 가장 큰 191에 해당되고, 전체 레코드에 대한 키의 최소값은 키의 최소값 속성값중 가장 작은 155에 해당된다.

한편, 구의동 거주자의 평균키와 같이 부분 레코드에 대한 수치 속성값의 통계값은 다음의 예와 같이 산출한다.

구의동 거주자의 평균키 = Σ(키 평균*구의동 비율)/Σ(구의동 비율) = 611.2/3.66 = 167에 해당되며, 신뢰도는 계산에 적용된 구의동 비율의 평균값인 0.52에 해당된다.

또한, 구의동 거주자 최대 키에 대한 확정 통계값은 구의동 비율이 1인 레코드들 중의 최대값인 191에 해당되며, 구의동 거주자 최대 키의 가능 통계값은 (구의동, x)의 속성값을 갖는 레코드들 중의 최대값 v를 속성 통계값으로, 해당 레코드의 구의동 비율 w를 신뢰도로 산정하여 (v, w)로 표현되며, 표 14, 표15의 추상화 레코드 테이블의 경우 (191, 1)에 해당되며, 마찬가지로, 구의동 거주자의 최소 키에 대한 확정 통계값은 (158, 1), 구의동 거주자의 최소 키에 대한 가능 통계값은 (157, 0.33)에 해당된다.

표 16은 표 14, 표15의 추상화 레코드 테이블로부터 산출된 통계값과 원본 레코드 테이블(도시 안함)로부터 산출된 통계값을 대비하여 나타낸 표로서, 추상화 테이블로부터 산출된 통계값이 원본 레코드의 통계값과 유사하여 통계자료로서 신뢰성 있게 활용 가능하다는 것을 보여주고 있다.

[표 16]

표 14, 15의 추상화 레코드 테이블에서, 병명이 간암인 레코드 수는 각 레코드의 해당 속성값 비율의 합 = 2 + 0.33*2 = 2.66에 해당되고, 주소가 정동인 레코드 수는 각 레코드의 해당 속성값 비율의 합 = 0.17*5 + 0.29*2 = 1.43에 해당된다.

또한, 성별이 ‘남자＇이고, 주소가 ‘구의동＇인 레코드 수는, 각 레코드의 해당 속성값 비율*속성값 비율의 합 = 1*1*2 + 0.67*0.33*3 = 2.67에 해당되며, 성별이 ‘여자＇이고, 주소가 ‘창천동＇인 레코드 수는 각 레코드의 해당 속성값 비율*속성값 비율의 합 = 1*0.33*2 + 0.33*0.33*3 = 1에 해당된다.

이상 설명은 이해를 돕기 위해 설명에 필요한 최소한의 레코드를 예로 들어 설명하였으나, 본 발명의 원리는 레코드 수가 방대한 빅데이터에 대해 동일하게 적용될 수 있으며, 데이터의 수가 많을수록 추상화 레코드 테이블로부터 산출되는 통계값의 신뢰성을 확보할 수 있음을 확인할 수 있었다.

Claims

통신부, 처리부 및 저장부를 구비하는 데이터 서버에서 수행되는 빅데이터의 비식별화 처리 방법에 있어서,

상기 처리부가, 유무선 네트워크를 통해 연결된 단말로부터 상기 통신부를 통해 수집되는 데이터를 상기 데이터 서버의 저장부에 저장하는 단계;

상기 처리부가, 상기 데이터를 구성하는 원본 레코드 중 적어도 두 개 이상의 레코드를 조합하여 원본 레코드와는 상이한 레코드를 생성하는 데이터 추상화 단계;를 포함하되,

상기 데이터 추상화 단계는, 상기 데이터를 구성하는 상기 원본 레코드의 각각의 필드 중 적어도 하나 이상의 필드를 추상화 기준필드로 설정하고, 상기 추상화 기준필드 이외의 필드 중 적어도 하나 이상의 필드를 추상화 대상필드로 설정하는 단계;

상기 원본 레코드 중 상기 추상화 기준필드의 값이 모두 동일한 레코드중 적어도 두 개 이상(N 개)씩을 추상화대상 레코드그룹으로 선택하는 단계;

상기 선택된 N개의 추상화대상 레코드그룹을 상기 추상화 기준필드와 상기 추상화 대상필드로 이루어지는 하나의 추상화 레코드로 추상화하되,

상기 추상화 레코드의 수치 속성필드는 통계함수값 중 적어도 하나 이상의 값이 포함되도록 할당하고,

상기 추상화 레코드의 범주(Catagory) 속성필드는 해당 범주 속성값과 상기 추상화대상 레코드그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값으로 할당하는 단계;

상기 추상화 기준필드의 값이 모두 동일한 레코드의 수가 상기 N개 미만인 레코드들중 적어도 2개 이상(M 개)씩을 추상화대상 레코드그룹으로 선택하는 단계;

상기 선택된 M개의 추상화대상 레코드그룹을 상기 추상화 기준필드와 상기 추상화 대상필드로 이루어지는 하나의 추상화 레코드로 추상화하되, 상기 추상화 레코드의 수치 속성필드는 통계함수값 중 적어도 하나 이상의 값이 포함되도록 할당하고,

상기 추상화 레코드의 범주 속성필드는 해당 범주 속성값과 상기 추상화대상 레코드그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값으로 할당하는 단계;

상기 처리부가, 상기 추상화 레코드를 상기 추상화 데이터의 레코드로서 상기 저장부에 저장하는 단계;를 구비하는 것을 특징으로 하는 빅데이터의 비식별화 처리 방법.
제 1 항에 있어서,

상기 통계함수값은 평균값, 편차, 최댓값, 최소값, 평균, 표준편차, 중간값, quartile-quartile distance(Q3-Q1), |최대치-최소치|를 포함하는 것을 특징으로 하는 빅데이터의 비식별화 처리 방법.
제 1 항 또는 제 2 항 중 어느 한 항에 에 있어서,

상기 추상화 기준필드가 2개 이상인 경우, 추상화 기준 필드의 값이 모두 동일한 레코드중 적어도 두 개 이상(N 개)씩을 추상화대상 레코드그룹으로 선택하여 상기 추상화 작업을 진행한 후,

상기 추상화 작업에 진행되지 않은 나머지 레코드들에 대해, 상기 추상화 기준필드중 어느 하나를 제외한 나머지 필드를 새로운 추상화 기준필드로 설정하여, 상기 새로운 추상화 기준필드의 값이 모두 동일한 레코드중 적어도 두 개 이상(N')씩을 추상화대상 레코드그룹으로 선택하여 상기 추상화 작업을 진행하는 단계;를 더 포함하는 것을 특징으로 하는 빅데이터의 비식별화 처리 방법.