KR101630752B1

KR101630752B1 - 유통용 비식별 빅데이터 처리 방법

Info

Publication number: KR101630752B1
Application number: KR1020140170846A
Authority: KR
Inventors: 이윤하; 이원석
Original assignee: 주식회사 춘하지원
Priority date: 2014-12-02
Filing date: 2014-12-02
Publication date: 2016-06-16
Also published as: KR20160066454A

Abstract

본 발명은, 개인정보의 유출우려 없이 외부 시스템에 자유롭게 유통시킬 수 있으며, 별도 환경에서 생성된 데이터를 연계하여 다양한 용도로 활용할 수 있는 유통용 비식별 빅데이터를 생성 및 관리하기 위한 방법에 관한 것으로,
본 발명에 따르면, 개인신상 데이터는 개인신상 대표 레코드로 그룹화하고, 개인 행위 로그데이터는, 각 그룹에 포함된 각각의 개인에 대해, 필요로 하는 개인행위 정보만를 추출하여 이를 개인행위 개별 로그데이터 세트로 하고, 이를 특정 속성을 기준으로 통합하여 하나의 개인행위 대표 로그데이터로 한 후 개인신상 대표 레코드에 매칭/통합 시킴으로서, 개개의 소요처에서 독특하게 필요로 하는 정보만을 적절하게 선별 가공하여 제공할 수 있게 된다.
또한, 개인신상 정보와 개인행위 정보를 별도로 그룹화하며 통합시킴으로서, 시공간이나 지역적 공간 또는 특정 속성을 기준으로 전체적인 정보를 그룹화하는 종래 방식에 비해 조합이나 역추적에 의한 개인정보의 유출 가능성을 현저히 감소시킬 수 있게 된다.

Description

유통용 비식별 빅데이터 처리 방법{Data Processing Method for Distributable and Unidentifiable Big Data}

본 발명은, 유통용 비식별 빅데이터의 처리 방법에 관한 것으로서, 더욱 상세하게는, 개인정보의 유출 우려 없이 외부 시스템에 자유롭게 유통시킬 수 있으며, 별도 환경에서 생성된 데이터를 연계하여 다양한 용도로 활용할 수 있는 유통용 비식별 빅데이터를 생성 및 관리하기 위한 방법에 관한 것이다.

빅데이터란, 기존의 기업 환경이나 공공 기관에서 사용되는 정형화된 데이터는 물론, 전자상거래 데이터, 메타 데이터, 웹로그, 무선식별(RFID) 데이터, 센서 네트워크 데이터, 소셜 네트워크 데이터, 소셜 데이터, 인터넷 텍스트와 문서, 인터넷 검색 인덱싱 등 기존에 미처 활용되지 못하던 비정형화 또는 반정형화된 데이터를 모두 포함하는 데이터로서, 이와 같은 데이터는 일반적으로 보통의 소프트웨어 툴 및 컴퓨터 시스템으로는 다루기 어려운 수준의 데이터 양을 갖게 된다는 의미에서 빅데이터( Big Data)라 칭하고 있다.

빅데이터가 다양한 가치를 만들어내기 시작하면서, 사람들은 빅데이터를 원유에 비유하기 시작했다. 기름이 없으면 기기가 돌아가지 않듯이, 빅데이터 없이 정보시대를 보낼 수 없다는 의미에서다. 미국의 시장조사기관 가트너는 데이터는 미래 경쟁력을 좌우하는 21세기 원유라며 기업들은 다가오는 데이터 경제시대를 이해하고 이에 대비해야 한다라고 강조했다. 21세기 기업에게 가장 중요한 자산은 데이터이며 이를 관리하고 여기서 가치를 이끌어내지 못하면 경쟁에서 살아남을 수 없다는 뜻이다.

최근 들어, 기업뿐만 아니라 정부에서도, 다양하게 수집된 빅데이터 정보 및 그를 활용한 통계 분석 데이터를 의사 결정과 정책 결정 등에 적극적으로 활용하고자하는 시도가 이어지고 있으며, 빅데이터를 활용하여 데이터 중심의 컴퓨팅 환경을 구축하기 위한 빅데이터 처리 기술이 활발하게 연구되고 있다.

한편, 빅데이터는 해당 자료가 수집되는 조직 내에서 분석하여 활용하게 되지만, 자료를 수집하는 조직에 따라 수집되는 데이터의 속성에 차이가 있어 다른 조직의 자료를 활용할 필요가 발생하며, 자료를 수집할 능력이나 시스템이 갖추어져 있지 않은 조직의 경우에도 타 조직의 빅데이터나 그들의 조합으로부터 해당 조직이 독특하게 필요로 하는 정보를 분석하여 의사결정에 활용할 필요성이 대두되고 있다.

그러나, 빅데이터의 성격상 데이터의 양이 방대할 뿐만 아니라, 대부분의 빅데이터에는 개인신상에 대한 정보가 필연적으로 포함될 수 밖에 없는 바, 개인 신상 정보의 유출에 따른 법적 분쟁이 발생할 소지가 다분하기 때문에, 빅데이터의 조직간의 교류나 유통에는 한계가 있었으며, 이에 따라, 빅데이터의 수집이 가능한 조직의 입장에서는, 개인 신상정보의 유출에 따른 법적 분쟁의 발생을 피하기 위해, 빅데이터 자체를 사업적 목적으로 가공하여 유통하기보다는, 특정 목적에 필요한 정보만을 대상으로 이를 군집화(clustering) 작업이나 통계분석 작업을 통해 통계적 정보 수준으로 가공하여 제공하고 있는 실정이므로, 빅데이터의 활용을 필요로 하는 조직의 입장에서는 조직의 독특한 사업 환경에 꼭 필요로 하는 분석 자료를 획득하기가 어렵다는 문제점이 있었다.
한편, 통계 결과 데이터가 아닌 통계 분석용으로서의 빅데이터 자체를 사업적 목적으로 가공하여 유통하기 위하여, 마스킹, 치환, 반식별화, 유형화 등을 통해 개인 속성을 비식별화하는 방법이 일각에서 적용되고 있다.
마스킹은, 대상정보를 마스킹 또는 삭제하는 것이고( 예; 670101-10491910 → ************** ), 치환은 대상정보에 대응하여 생성된 정보로 치환하는 것이며(예; 670101-10491910 → ID2311331), 반식별화는 대상 정보의 일부만 나타내도록 반식별화하는 것이고(예; 670101-10491910 → 67-1), 유형화는 대상정보를 유형화시켜 구분하는 방식(예; 670101-10491910 → 남자)이다.
그러나, 개인 정보를 마스킹, 치환, 반식별화, 유형화 등에 의해 비식별화 한다 하더라도, 조합(Mash-Up)이나 역추적을 통해 개인정보의 유출 위험이 존재한다는 단점이 있었으며, 또한 별도 환경에서 독립적으로 생성된 빅데이터들의 연계 분석이 어렵다는 문제점이 있었다.

본 발명은, 이와 같은 문제점을 해결하기 위한 것으로, 개개의 소요처에서 독특하게 필요로 하는 정보만을 적절하게 선별 가공하여 제공할 수 있도록 하는 유통용 비식별 빅데이터 처리 방법을 제공하는 데 그 목적이 있다.

본 발명의 다른 목적은, 데이터상에서 비식별화 즉, 탈 개인정보를 완벽하게 수행함으로서, 빅데이터의 유통시 특정 개인이 재식별화 되는 것을 원천적으로 불가능하게 하여, 민감한 개인정보에 대해 개개인에 대한 허락을 받을 필요 없이 안전하게 유통용으로 활용할 수 있는 유통용 빅데이터 처리 방법을 제공하는 데 있다.

본 발명의 또 다른 목적은, 별도 환경에서 독립적으로 생성된 두 개 이상의 빅데이터를 필요에 따라 다양하게 연계하여 분석에 활용할 수 있도록 하는 유통용 비식별 빅데이터 처리 방법을 제공하는 데 있다.

상기의 목적을 달성하기 위한 본 발명에 따른 유통용 비식별 빅데이터 처리 방법은, 통신부, 처리부 및 저장부를 구비하는 데이터서버에서 수행되는 빅데이터 처리 방법에 있어서, 유무선 네트워크를 통해 연결된 단말로부터 상기 통신부를 통해 수집되는 원본 데이터를 상기 데이터서버의 저장부에 저장하는 단계; 상기 처리부가, 상기 저장부에 저장된 원본 데이터에 포함된 개인신상 데이터 중 적어도 하나 이상의 속성을 그룹_단일화의 기준 속성인 그룹핑키로 하여, 상기 개인신상 데이터 중 상기 그룹핑키의 값이 동일한 복수의 개인신상 개별 레코드를 하나의 그룹으로 선택하되, 상기 그룹의 수가 다수가 되도록 선택하여, 선택된 각각의 그룹을 1개의 개인신상 대표 레코드로 통합하는 그룹_단일화 단계; 상기 처리부가, 그룹_단일화된 각각의 상기 개인신상 대표 레코드에 대해, 해당 개인신상 대표 레코드에 포함된 각각의 개인을 특정할 수 있는 속성을 대응시켜 개인 식별 리스트를 생성하는 단계; 상기 처리부가, 상기 저장된 원본 데이터에 포함된 개인행위 로그 데이터로부터, 상기 그룹_단일화된 각각의 개인신상 대표 레코드에 대응되는 개인 식별리스트에 속해 있는 모든 개인의 개인행위 개별 로그데이터를 추출하여, 상기 각각의 개인신상 대표 레코드에 대한 개인행위 개별 로그데이터 세트로 생성하는 단계; 상기 처리부가, 상기 각각의 개인신상 대표 레코드에 대해 생성된 상기 개인행위 개별 로그데이터 세트를 적어도 하나 이상의 속성을 기준으로 통합함으로서, 해당 개인신상 대표 레코드에 대응되는 1개의 개인행위 대표 로그데이터를 생성하는 단계; 상기 처리부가, 상기 개인신상 대표 레코드와 상기 개인행위 대표 로그데이터를 상기 저장부에 저장하는 단계;를 포함하며, 상기 개인신상 대표 레코드로의 그룹-단일화 단계는 개인신상 정보의 비식별화 단계을 포함하되, 상기 비식별화 단계는, 상기 원본 데이터에 포함된 상기 개인신상 개별 레코드로부터 개개인을 특정할 수 있는 속성값을 제거하는 유일성 제거 단계와; 그룹화된 상기 개인신상 대표 레코드의 어느 속성값이, 원본 데이터에 포함된 상기 개인신상 개별 레코드의 해당 속성값과 동일한 경우, 개인신상 대표 레코드의 해당 속성값을 보정함으로서, 동일한 속성에 대해 개인신상 대표 레코드의 속성값이 원본 데이터에 포함된 개인신상 정보 중의 해당 속성값과 모두 상이하도록 하는 동일성 제거 단계와; 사용자가 미리 정의한 유사도 계산함수에 근거하여, 상기 개인신상 대표 레코와 이의 생성에 적용되는 하나 이상의 상기 개인신상 개별 레코드와의 유사도 값이 미리 설정된 최대유사도 임계치 값보다 클 경우, 해당 개인신상 대표 레코드를 삭제하는 유사성 제거 단계와; 미리 설정된 기간이 경과된 이후에는, 상기 개인신상 대표 레코드에 포함되는 개인신상 개별 레코드가 동일인에 대해서 동일한 그룹으로 재 그룹화되는 것을 방지하도록 하는 연속성 제거 단계; 중 적어도 어느 하나 이상의 단계를 포함하는 것을 특징으로 한다.

본 발명에 따르면, 개인신상 데이터는 개인신상 대표 레코드로 그룹_단일화하고, 개인 행위 로그데이터는, 각 그룹에 포함된 각각의 개인에 대해, 필요로 하는 개인행위 정보만을 추출하여 이를 개인행위 개별 로그데이터 세트로 하고, 이를 특정 속성을 기준으로 통합하여 하나의 개인행위 대표 로그데이터로 한 후 개인신상 대표 레코드에 매칭/통합시킴으로서, 개개의 소요처에서 독특하게 필요로 하는 정보만을 적절하게 선별 가공하여 제공할 수 있게 된다.

또한, 개인신상 정보와 개인 행위 정보를 별도로 그룹화하며 머지시킴으로서, 시공간이나 지역적 공간 또는 특정 속성을 기준으로 전체적인 정보를 단순 그룹화 즉 군집화하는 종래 방식에 비해 조합이나 역추적에 의한 개인정보의 유출 가능성을 현저히 감소시킬 수 있게 된다.

또한, 개인신상 정보의 그룹_단일화와 더불어, 그룹_단일화 과정에서 탈 개인정보 즉, 비식별화를 더욱 수행함으로서, 빅데이터의 유통시 특정 개인이 재식별화 되는 것을 원천적으로 불가능하게 하여, 민감한 개인정보에 대해 개개인에 대한 허락을 받을 필요 없이 안전하게 유통용으로 활용할 수 있게 된다.

한편, 본 발명의 또 다른 특징은, 상기 개인신상 대표 레코드로의 그룹_단일화 단계가, 동일한 개인신상 대표 레코드에 그룹핑된 개인신상 개별 레코드들의 상기 그룹핑키의 속성값 분포정보를 그룹핑키 분포속성으로 상기 개인신상 대표 레코드에 추가하는 단계와; 동일한 개인신상 대표 레코드에 그룹핑된 개인신상 개별레코드의 속성중 상기 그룹핑키가 아닌 속성 중 적어도 어느 하나 이상의 속성값 분포정보를 그룹 분포속성으로 상기 개인신상 대표 레코드에 추가하는 단계; 중 적어도 어느 하나 이상의 단계를 포함하는 것을 특징으로 하는 바,

본 발명의 이러한 특징에 따르면, 상기 그룹핑키 분포속성 및/또는 그룹 분포속성을 매개로, 별도 환경에서 독립적으로 생성된 두 개 이상의 빅데이터를 필요에 따라 다양하게 연계하여 분석에 활용할 수 있게 된다.

본 발명에 따르면, 개인신상 정보는 개인신상 대표 레코드로 그룹_단일화 하고, 개인행위 로그데이터는, 각 그룹에 포함된 각각의 개인에 대해, 필요로 하는 개인행위 정보만를 추출하여 이를 개인행위 개별 로그데이터 세트로 한 후, 이를 특정 속성을 기준으로 통합하여 하나의 개인행위 대표 로그데이터로 하여 개인신상 대표 레코드에 매칭/머지 시킴으로서, 개개의 소요처에서 독특하게 필요로 하는 정보만을 적절하게 선별 가공하여 제공할 수 있게 된다.

또한, 개인신상 정보와 개인 행위 정보를 별도로 그룹화하며 머지시킴으로서, 시공간이나 지역적 공간 또는 특정 속성을 기준으로 전체적인 정보를 그룹화하는 종래 방식에 비해 조합이나 역추적에 의한 개인정보의 유출 가능성을 현저히 감소시킬 수 있게 된다.

또한, 개인신상 정보의 그룹화와 더불어, 그룹화 과정에서 탈 개인정보 즉, 비식별화를 더욱 수행함으로서, 빅데이터의 유통시 특정 개인이 재식별화 되는 것을 원천적으로 불가능하게 하여, 민감한 개인정보에 대해 개개인에 대한 허락을 받을 필요 없이 안전하게 유통용으로 활용할 수 있게 된다.

또한, 상기 그룹핑키 분포속성 및/또는 그룹 분포속성을 매개로, 별도 환경에서 독립적으로 생성된 두 개 이상의 빅데이터를 필요에 따라 다양하게 연계하여 분석에 활용할 수 있게 된다.

도 1은 본 발명의 빅데이터 처리 시스템을 형성하는 데이터 중심 컴퓨팅 환경을 설명하는 예시도.
도 2는 도 1에 도시한 데이터 서버의 주요 구성을 나타내는 블록도.
도 3은 데이터 서버의 처리부에서 수행되는 유통용 비식별 빅데이터의 생성 단계를 계통적으로 나타낸 블록도.
도 4는 도 3의 단계를 거쳐 생성되는 대표 레코드의 예를 나타내는 바, 연령대 및 성별을 그룹핑키로 하여 5명을 그룹핑하여 대표 레코드를 생성한 예시도.

도 1을 참조하면, 본 발명의 빅테이터 처리 시스템을 형성하는 데이터 중심의 컴퓨팅 환경은 데이터 서버(110)와 데이터 서버와 유무선 네트워크를 통해 연결되는 다수의 사용자 단말(120)에 의해 구축될 수 있다.

데이터 중심의 컴퓨팅(data-centric computing) 환경이란 다수의 사용자 단말(120)에서 실시간으로 생성되는 데이터를 활용하여 소셜 네트 워크 서비스(Social Network Service, SNS), 스마트 그리드(smart grid), 지능형 가전, 실시간 스트리밍 또는 실시간 의사 결정 등의 다양한 응용 프로그램을 제공할 수 있는 빅데이터 처리에 기반한 기술을 의미한다.

본 발명에 따른 빅데이터 처리 시스템 및 방법은, 다수의 사용자 단말(120)과 연결된 데이터 서버(110)에 의해 구현되는 바, 다수의 사용자 단말(120)에서 생성되는 데이터를 수집하고 이를 처리한 후 저장하고, 저장된 데이터를 소요로 하는 사용자 단말(120)에 제공함으로써, 데이터 중심의 컴퓨팅 응용이 수행될 수 있는 환경이 구축된다.

여기에서, 사용자 단말(120)은 데이터 서버(110)와 연결되도록 통신 장치를 탑재하고, 사용자 단말(120)의 운용에 따라 데이터가 생성되도록 정보 처리 기능을 구비하는 컴퓨터, 노트북과 같은 정보 처리 단말, 스마트폰, 태블릿 PC, PDA(Personal Digital Assistant) 등의 이동 통신 단말, 스마트 가전 기기, 무선식별(RFID) 데이터, 블랙 박스 또는 네비게이션이 운용되는 자동차, 기차, 비행기와 같은 교통 수단 등을 의미할 수 있으나 이에 한정되는 것은 아니다.

도 2에 도시된 바 와 같이, 데이터 서버(110)는 통신부(113)를 통해 다수의 사용자 단말(120)과 근거리 무선 통신, 와이파이, 3G(3Generation), LTE(Long Term Evolution)과 같은 유무선 네트워크로 연결되어 사용자 단말(120)에서 생성된 데이터를 수집하여 저장부(112)에 저장하고, 일반적으로 복수의 프로세서로 이루어지는 처리부(111)에 의해 수집된 데이터를 처리하여 저장하는 클라우드 서버 또는 웹 서버를 의미할 수 있으나 이에 한정되는 것은 아니다.

유무선 네트워크를 통해 연결된 단말들(120)로부터 통신부(113)를 통해 수집되는 원본 데이터는 데이터 서버(110)의 저장부(112)에 저장된다.

최근 들어 네트워크 기술의 발달 및 스마트 폰의 비약적인 보급으로 인해, 기업 및 기관에서 운영중인 빅데이터 처리 시스템에서 하루에 생산되는 로그의 량은 수십 ~ 수백 기가바이트까지 증가 되었으며, 원본 빅데이터의 사이즈는 테라 바이트를 초과하여 엑사 바이트 또는 제타 바이트의 범위를 가질 수도 있게 되었다.

본 발명에 따른 처리부(111)는 저장부(112)에 저장되어 있는 대용량의 빅데이터를 적절하게 처리하여, 분석에 필요한 데이터를 선택하여 그룹_단일화 함으로서 용량을 줄임과 동시에 비식별화 하되, 개인정보의 유출 가능성을 보다 확실히 방지하기 위해 그룹_단일화시 별도의 비식별화 과정을 수행하여 유통용의 비식별 빅데이터로 가공하여 저장부(112)에 저장하게 되며, 저장부(112)에 상대적으로 소용량으로 저장된 유통용 비식별 빅데이터는 서버의 통신부(113) 및 통신망을 통해 이의 분석 및 활용이 필요한 소요처로 전송된다.

도 3은 데이터 서버의 처리부에서 수행되는 유통용 비식별 빅데이터의 생성 단계를 계통적으로 나타낸 블록도로, 설명의 편의를 위해 유통용 대표 레코드 하나의 생성을 기준으로 도시하였다. 이하, 도 3을 참조하여 본 발명의 유통용 비식별 빅데이터 생성방법을 구체적으로 설명한다.

먼저, 처리부(111)는, 기억수단에 저장된 원본 데이터에 포함된 개인신상 데이터 중 적어도 하나 이상의 속성을 그룹핑 키(Grouping Key)로 하여, 다수의 개인신상 개별 레코드를 하나의 개인신상 대표 레코드로 그룹_단일화 한다.

이와 같이 그룹_단일화된 개개의 개인신상 대표 레코드는 저장부에 레코드의 집합 즉 테이블 형태로 저장부(112)에 저장된다.

원본 데이터란 운영계 서비스를 진행하면서 수집된 개별 개인의 신상 데이터와 개인의 행위 로그 데이터로 구성되는 데, 개인신상 정보는 개인이 고유하게 구분되는 데이터 또는 이에 준하는 개인정보를 포함하는 데이터로서 개인식별정보(주민등록번호, 여권번호, 의료보험번호, 차량등록번호, 성명, 번지/동호까지의 주소, 전화번호)와 개인일반정보(임금, 나이, 키, 질병 등) 등으로 구성되며, 개인행위 로그 데이터는 서비스를 활용하면서 발생된 개인의 서비스 요청/제공/사용 내역 등으로 구성된다.

그룹_단일화란, 개인 비식별화의 무결성 확보를 위해 다수개(N개)의 레코드를 하나의 대표레코드로 표현하는 것으로서, 데이터의 유효성 및 활용성을 최대한 높일 수 있도록 유사한 레코드를 그룹핑하는 최소 규모(N)를 선정하는 것이 바람직하다.

그룹핑키는, 원본 개인신상 개별 레코드의 속성(필드)들 중에 그룹_단일화를 수행하는 기준이 되는 속성을 의미하는 것으로서, 연속 수치데이터형 속성을 그룹핑키로 하는 경우 히스토그램, 비닝(Binning), 군집화 기법 등으로 전처리하여 해당 속성을 불연속(Discrete) 카다고리형 데이터로 변환한 후 그룹_단일화 하는 것이 바람직하다.

N:1 그룹_단일화 작업을 수행할 경우, 동일한 그룹핑키 값을 갖는 원본 개인신상 개별 레코드의 수가 M일 때, 해당 그룹핑 속성값에 대해 대략 M/N개의 대표 레코드들이 생성된다.

대표 레코드에 포함되는 속성중 그룹핑키가 아닌 속성으로서 수치형일 경우, 일반적인 집계함수(합계, 평균, 미디언, 최대치, 샘플링 등)를 적용하여, 그룹핑되는 N개의 속성 값들을 대표하는 대표 속성값으로 변환한 후, 이를 대표레코드의 해당 속성 값으로 할당한다.

데이터 서버의 처리부에서, 원본 데이터로부터 개인신상 대표 레코드로 그룹_단일화 처리하는 과정을 구체적인 예를 들어 설명하면 다음과 같다.

표 1은 원본 데이터에서 추출되는 개인신상정보의 예로서, 주민등록번호, 나이 성명, 주소, 소득이 대표레코드에 포함되는 속성으로 설정되어 있다.

표 1

표 2는 개별 속성을 비식별화하기 위해 변환한 예를 나타낸다.

표 2

표 3은 위와 같이 변환된 데이터를 연령대, 성별, 도시를 기준으로 3개씩(N=3) 그룹핑하여 한 그룹당 1개의 레코드를 생성한 후 각각의 그룹에 대해 ID를 할당한 예를 나타낸다. 식별자(ID) 값은 각 대표레코드를 유일하게 구별할 수 있게 생성한다.

표 3

표 4는 표 2의 개인신상정보에 대해 3개의 속성 즉, 연령대, 성별, 도시를 기준 즉 그룹핑키로 하여 표 3과는 달리 2개씩(N=2) 그룹_단일화한 예를 나타내는 바, 1개의 <40대 남 서울> 그룹과 2개의 <40대 여 서울>그룹이 생성된다.

또한, 소득 속성에 대해서 평균 함수를 적용하여 대표 레코드의 소득 속성값을 할당하면 아래와 같이 개인신상 대표레코드들이 생성되며, 그룹_단일화된 각각의 개인신상 대표 레코드에 대해, 해당 개인신상 대표 레코드에 포함된 각각의 개인을 특정할 수 있는 속성(예; 주민등록번호)을 대응시켜 개인 식별 리스트를 생성한다.

표 4

이상과 설명한 바와 같은 그룹_단일화 과정에 의해, 데이터의 용량 감소 및개인의 비식별화가 가능하나, 개인정보의 유출을 보다 확실하게 방지하기 위해 그룹_단일화 과정과 더불어 유일성 제거, 동일성 제거, 유사성 제거 및 연속성 제거 등의 개인정보 비식별화 과정이 수행되는 것이 바람직하다.

유일성 제거란, 표 5에 예시된 바와 같이, 원본 개인식별 개별레코드에서 개개인을 특정할 수 있는 식별정보(예; 주민등록 번호)를 제거하는 것을 의미한다.

표 5

동일성 제거는, 표 6에 예시된 바와 같이, N:1 그룹_단일화된 그룹내에서 생성된 개인신상 대표 레코드의 속성값이 개별 레코드의 해당 속성값과 동일할 경우 대표 레코드의 속성값을 보정하여 동일한 속성에 대해 개별 레코드의 속성값과 대표 레코드의 속성값이 모두 상이하도록 수정하는 것이다.

속성값이 연속 수치데이터형인 경우 동일성을 제거하기 위해 히스토그램, 비닝, 군집화 기법 등으로 전처리하여 불연속 카다고리형 데이터형으로 변환할 수 있다.

표 6

유사성 제거는, 미리 정의된 유사도 함수에 근거하여, 개인신상 대표 레코드와 하나 이상의 원본 개인신상 개별 레코드와의 유사도 값이 최대유사도 임계치 값(ε)보다 클 경우 해당 개인신상 대표 레코드는 삭제하고 생성하지 않는 것이다.

원본 개인신상 개별 레코드를 x라 하고, 가공된 개인신상 대표 레코드를 y라 할때, x와 y간의 유사도는 아래와 같이 정의된다.

Struc_sim(x,y) = 원본 개인신상 개별 레코드 x와, 그룹_단일화되어 생성된 개인신상 대표레코드 y와의 유사도 계산 함수

(0<=Struc_sim(x,y)<=1,

Struc_sim(x,y)==1 => x와 y가 동일레코드 임)

연속성 제거는, 생성된 유통용 빅데이터에서 사용하는 레코드 식별자 매핑 방식을 미리 정해진 기간이 경과된 이후에는 다른 방식으로 변경하여 N:1 대표 레코드 식별자 값이 동일인에 대해서 동일한 값으로 지속적으로 사용되는 것을 방지하는 것이다.

다시 말해, 개인신상 대표레코드의 생성에 사용된 개인신상 개별 레코드들이 향후 동일한 개인신상 데이터에 대해서 동일한 그룹으로 그룹핑되는 것이 방지되도록 일정 기간 경과후 매핑방식을 달리하여 재그룹핑하는 것을 의미한다.

이상은 처리부(111)에 의한 개인신상 대표 레코드의 생성 방법에 대해 설명하였는 바, 다음으로는, 각각의 개인신상 대표레코드에 속해있는 개인들의 개별 로그 데이터를 원본 데이터상의 개별행위 로그 데이터로부터 추출하여, 개인행위 대표 로그데이터를 생성하는 과정에 대해 예시를 참조하여 상세히 설명하기로 한다.

표 7은 개인행위 로그 데이터의 예를 나타내는 것으로, 앞서 언급한 바와 같이, 개인행위 로그 데이터는 서비스를 활용하면서 발생된 개인의 서비스 요청/제공/사용 내역 등으로 구성되는 데, 일반적으로 반정형 개인행위 로그데이터는 개인의 시공간적인 행위 상태변화를 나타내므로 개인식별속성, 시간속성 및 공간속성을 기본적으로 가지고 있으며 해당시점에 해당 공간에서 해당 개인이 행한 행위 아이템들을 로그 속성값으로서 반정형 형태로 가지고 있다.

표 7

먼저, 개인신상 대표 레코드별로 구한 개인식별 리스트에 있는 모든 개인을 대상으로 하여, 개인행위 개별 로그데이터를 추출하여 해당 개인신상 대표 레코드의 개인행위 개별 로그데이터 세트로 생성한다.

개인 식별 리스트는 앞서 표 4와 관련하여 설명한 바와 같이, 그룹_단일화된 각각의 개인신상 대표 레코드에 대해, 해당 개인신상 대표 레코드에 포함된 각각의 개인을 특정할 수 있는 속성(예 주민등록번호)을 대응시킴으로서 생성된다.

예를 들어, 표 4에서, 개인신상 대표 레코드 id321의 개인식별 리스트는 표 8과 같으며, 이를 대상으로 한 개인신상 대표 레코드 id321의 개인행위 개별 로그데이터 세트 표 9와 같이 생성될 수 있다.

표 8

표 9

이와 같이 각각의 개인신상 대표레코드를 대상으로 추출된 개인행위 개별 로그데이터들을 하나의 개인행위 대표 로그데이터로 통합 즉, 그룹화한다.

각각의 개인신상 대표레코드별로 추출된 개인행위 개별 로그 데이터를 하나의 개인행위 대표 로그데이터로 통합할 때, 시간이나 공간 조건을 제약조건으로 주어서 근접한 공간이나 시간별로 통합 대상을 선정할 수 있다.

선정된 통합 대상인 개인행위 개별 로그데이터들은 다양한 통합 함수를 적용하여 하나의 개인행위 대표 로그데이터로 통합한다.

통합 함수로는 합집합, 교집합, 샘플링, 빈발 행위원소, 군집화, 히스토그램 등을 들 수 있다.

예를 들어, 표 4의 개인신상 대표레코드 id321의 개인행위 개별 로그데이터 세트(표 9)에 각종 통합함수를 적용하는 경우의 생성되는 개인행위 대표로그데이터는 다음과 같다.

통합 대상을 전체로 하여 합집합으로 통합하는 경우

통합 대상을 전체로 하여 교집합으로 통합하는 경우,

시간 또는 공간 조건을 제약조건으로 주어 선택적으로 통합하는 예로, 7분 이내 개인행위들의 합집합,

동일 행정구별 개인행위들의 합집합

이상과 같이, 생성되는 각각의 개인신상 대표 레코드와 개인행위 대표 로그데이터는 저장부(112)에 테이블 형태로 순차적으로 저장되어 유통용 빅데이터를 형성하게 되는 바, 각 테이블의 개인신상 대표레코드와 개인행위 대표 로그데이터를 매칭시켜 통합함으로서 개개의 대표레코드로 형성된다.

대표 레코드로의 매칭/통합은 유통용 빅데이터를 제공하는 서버에서 이루어질 수도 있고, 빅데이터 사용처의 서버에서 이루어질 수도 있다.

도 4는, 이상의 방법에 의해 생성되는 대표 레코드의 예를 나타내는 바, 연령대 및 성별을 그룹핑키로 하여 5명을 그룹_단일화하여 대표 레코드로 생성한 예를 나타낸다.

한편, 본 발명에 의해 형성되는 유통용 빅데이터에 따르면, 비식별화된 개인신상 대표 레코드의 그룹핑키는 동일한 그룹핑키로 비식별화된 다른 유통용 개인신상 데이터와 결합하여 연계 분석하는데 활용될 수 있다.

즉, 본 발명의 방법에 의해 별도환경에서 독립적으로 생성된 두 개 이상의 유통용 빅데이터들의 연계활용이 가능하게 된다.

본 발명의 또 다른 특징에 따르면, 데이터의 연계 분석시 유사한 특성의 대표레코드들이 연계되도록 함으로서 연계정확도를 향상시키기 위해, 그룹핑키의 분포 속성 및 그룹의 분포 속성을 연계분석에 활용하는 데 있다.

동일한 대표 레코드로 하나의 그룹으로 그룹_단일화되는 원본 개인신상 개별 레코드들의 그룹핑키 속성값 분포정보를 새로운 속성으로 대표레코드에 추가할 수 있다. 이렇게 추가된 속성을 그룹핑키 분포속성으로 정의한다.

이와 유사하게, 그룹핑키가 아닌 속성에 대해서도 하나의 그룹으로 그룹핑되는 원본 개인신상 개별레코드 속성값들의 분포를 나타내는 새로운 속성을 대표레코드에 추가할 수 있다. 이런속성을 그룹핑 분포속성이라 정의한다.

이러한 두 가지 형태의 분포속성 값은, 일반적인 분포를 나타내는 함수로 표현할 수 있으며 대표적인 유형은 표준편차, 미디언(Median), quartile-quartile distance(Q3-Q1), 최대치, |최대치-최소치| 또는 서로 다른 속성값 갯수 등이 될 수 있다.

이하, 구체적인 예를 들어, 그룹핑키 분포속성과 그룹핑 분포 속성을 이용하여 서로 독립적으로 가공된 데이터 세트를 연결하는 방법을 설명한다.

먼저, 평균 소득정보를 담고 있는 유통형 개인신상 데이터 A와 평균 유동자산정보를 담고 있는 유통용 개인신상 데이터 B가 모두 동일한 그룹핑키인 나이 속성와 성별 속성으로 각각 별도로 본 발명의 그룹핑 방식에 의해 변환되었다고 가정한다.

또한, A에는 각 그룹의 소득 최대치를 그룹핑 분포 속성으로, B에는 유동자산의 최대치를 그룹핑 분포속성으로 추가하였다고 가정한다.

그룹핑키 분포속성인 나이분포 속성은 그룹내 중간 나이인 미디언(Median)값으로 동일하게 정의하면, 표 10에 예시된 바와같이, A와 B의 각 대표레코드에 대해 분포속성들이 추가적으로 생성된다.

표 10

각각 변환된 데이터 세트 A와 B를 그룹핑키인 나이대와 성별로 조인하면서 두 데이터 세트의 그룹핑키 분포속성인 나이 분포속성 값의 차이가 각각 2이내인 조건을 만족하는 대표 레코드들만 연결하면 표 11과 같이 소득과 유동자산 대표 레코드들이 연결된 두 개의 개인신상 연결 대표 레코드가 생성된다.

표 11

이와 같이, 본 발명에 의해 형성되는 유통용 빅데이터는, 별도환경에서 독립적으로 생성된 두 개 이상의 유통용 빅데이터들의 연계 활용이 가능하게 되는 바, 그 과정은 다음과 같다.

두 개의 서로 상이한 유통용 빅데이터 A(개인신상 대표레코드 세트 A_S, 개인행위 대표 로그데이터세트 A_L)와 B( 개인신상 대표레코드 세트 B_S, 개인행위 대표 로그데이터 세트B_L)가 주어졌을 때, A의 개인신상 대표레코드 세트 A_S와 B의 개인신상 대표레코드 세트 B_S가 앞서의 표 10, 11에 예로 들어 설명한 바와 같이 연결된다.

이 결과를 기반으로 A의 개인행위 대표 로그데이터 세트 A_L과 B의 개인행위 대표 로그데이터 세트 B_L중에 동일한 개인신상 대표레코드별로 결합하여 A와 B가 통합된 대표 로그 데이터를 새롭게 생성하여 두 원시 데이터에 대한 빅데이터 연계 분석을 수행한다.

개인신상 대표레코드 x∈A_S와 개인신상 대표레코드 y∈B_S가 앞서 예시한 바와 같이 결합되었다면 x의 개인행위 대표로그 데이터 v∈A_L와 y의 개인행위 대표로그 데이터 w∈B_L는 동일한 개인의 행위 내역으로 간주하고 두 빅데이터 A와 B를 연계 분석할 때 두 개인행위 대표 로그데이터 <v, w>가 의미적으로 연결되었다고 가정하고 통합 빅데이터 (A_L B_L)에 대한 행위 분석을 수행하게 된다.

한편, 개인행위 개별 로그데이터로부터 개인행위 대표 로그데이터를 생성하는 과정에도, 개인신상 대표 레코드의 그룹_단일화 생성과정과 유사하게 유일성 제거, 동일성 제거, 유사성 제거 및 연속성 제거 등의 비식별화 과정이 수행되는 것이 바람직하다.

개인행위 대표 로그데이터 생성시의 유일성 제거는, 개인신상 대표 레코드별로 추출된 반정형 개인행위 개별 로그데이터에서 개개인을 특정할 수 있는 식별정보(예, 주민번호 등)를 제거하는 것이며, 동일성 제거는, 개인신상 대표 레코드별로 통합된 대표 로그데이터에 대해서 적어도 하나의 개인행위 개별 로그데이터와 동일한 대표 로그레코드는 모두 삭제하는 것이다.

유사성 제거는, 미리 정의된 유사도 함수에 근거하여, 개인신상 대표 레코드와 하나 이상의 원본 개인신상 개별 레코드와의 유사도 값이 최대유사도 임계치 값(δ)보다 클 경우 해당 개인신상 대표 레코드는 삭제하고 생성하지 않는 것이다.

원본 개인행위 개별 로그데이터를 T라 하고, 가공된 개인행위 대표 데이터를 S라 할 때, T와 S 간의 유사도는 아래와 같이 정의된다.

log_sim(S,T) = |TS| / |S| (:교집합, | |:원소갯수)

연속성 제거는, 개인행위 대표 로그데이터 세트의 로그 식별자를 자신에게 해당되는 개인신상 대표레코드의 식별자 번호와 연계하여 정의함으로써 대표 로그데이터 식별자 값이 동일 개인에 대해서 동일한 값으로 지속적으로 사용되는 것을 방지하는 것을 의미한다.

100 : 데이터 서버 120: 사용자 단말
111 : 처리부 112 : 저장부
113 : 통신부

Claims

통신부, 처리부 및 저장부를 구비하는 데이터서버에서 수행되는 빅데이터 처리 방법에 있어서,
유무선 네트워크를 통해 연결된 단말로부터 상기 통신부를 통해 수집되는 원본 데이터를 상기 데이터서버의 저장부에 저장하는 단계;
상기 처리부가, 상기 저장부에 저장된 원본 데이터에 포함된 개인신상 데이터 중 적어도 하나 이상의 속성을 그룹_단일화의 기준 속성인 그룹핑키로 하여, 상기 개인신상 데이터 중 상기 그룹핑키의 값이 동일한 복수의 개인신상 개별 레코드를 하나의 그룹으로 선택하되, 상기 그룹의 수가 다수가 되도록 선택하여, 선택된 각각의 그룹을 1개의 개인신상 대표 레코드로 통합하는 그룹_단일화 단계;
상기 처리부가, 그룹_단일화된 각각의 상기 개인신상 대표 레코드에 대해, 해당 개인신상 대표 레코드에 포함된 각각의 개인을 특정할 수 있는 속성을 대응시켜 개인 식별 리스트를 생성하는 단계;
상기 처리부가, 상기 저장된 원본 데이터에 포함된 개인행위 로그 데이터로부터, 상기 그룹_단일화된 각각의 개인신상 대표 레코드에 대응되는 개인 식별리스트에 속해 있는 모든 개인의 개인행위 개별 로그데이터를 추출하여, 상기 각각의 개인신상 대표 레코드에 대한 개인행위 개별 로그데이터 세트로 생성하는 단계;
상기 처리부가, 상기 각각의 개인신상 대표 레코드에 대해 생성된 상기 개인행위 개별 로그데이터 세트를 적어도 하나 이상의 속성을 기준으로 통합함으로서, 해당 개인신상 대표 레코드에 대응되는 1개의 개인행위 대표 로그데이터를 생성하는 단계;
상기 처리부가, 상기 개인신상 대표 레코드와 상기 개인행위 대표 로그데이터를 상기 저장부에 저장하는 단계;를 포함하며,
상기 개인신상 대표 레코드로의 그룹-단일화 단계는 개인신상 정보의 비식별화 단계을 포함하되,
상기 비식별화 단계는,
상기 원본 데이터에 포함된 상기 개인신상 개별 레코드로부터 개개인을 특정할 수 있는 속성값을 제거하는 유일성 제거 단계와;
그룹화된 상기 개인신상 대표 레코드의 어느 속성값이, 원본 데이터에 포함된 상기 개인신상 개별 레코드의 해당 속성값과 동일한 경우, 개인신상 대표 레코드의 해당 속성값을 보정함으로서, 동일한 속성에 대해 개인신상 대표 레코드의 속성값이 원본 데이터에 포함된 개인신상 정보 중의 해당 속성값과 모두 상이하도록 하는 동일성 제거 단계와;
사용자가 미리 정의한 유사도 계산함수에 근거하여, 상기 개인신상 대표 레코와 이의 생성에 적용되는 하나 이상의 상기 개인신상 개별 레코드와의 유사도 값이 미리 설정된 최대유사도 임계치 값보다 클 경우, 해당 개인신상 대표 레코드를 삭제하는 유사성 제거 단계와;
미리 설정된 기간이 경과된 이후에는, 상기 개인신상 대표 레코드에 포함되는 개인신상 개별 레코드가 동일인에 대해서 동일한 그룹으로 재 그룹화되는 것을 방지하도록 하는 연속성 제거 단계; 중 적어도 어느 하나 이상의 단계를 포함하는 것을 특징으로 하는 유통용 비식별 빅데이터 처리 방법.
삭제
제 1 항에 있어서,
상기 개인신상 대표 레코드로의 그룹_단일화 단계는,
동일한 개인신상 대표 레코드에 그룹_단일화된 개인신상 개별 레코드들의 상기 그룹핑키의 속성값 분포정보를 그룹핑키 분포속성으로 상기 개인신상 대표 레코드에 추가하는 단계와;
동일한 개인신상 대표 레코드에 그룹-단일화된 개인신상 개별레코드의 속성 중 상기 그룹핑키가 아닌 속성 중 적어도 어느 하나 이상의 속성값 분포정보를 그룹 분포속성으로 상기 개인신상 대표 레코드에 추가하는 단계; 중 적어도 어느 하나 이상의 단계를 포함하는 것을 특징으로 하는 유통용 비식별 빅데이터 처리 방법.