KR101499064B1

KR101499064B1 - 정형 및 비정형 데이터를 포함하는 빅데이터에서의 개인정보 익명화 관리 시스템

Info

Publication number: KR101499064B1
Application number: KR1020130086775A
Authority: KR
Inventors: 이창하
Original assignee: 주식회사 바넷정보기술
Priority date: 2013-07-23
Filing date: 2013-07-23
Publication date: 2015-03-05
Also published as: KR20150011610A

Abstract

개인정보가 포함된 빅데이터를 저장하는 저장부; 익명화된 데이터와 익명화되지 않은 데이터를 구별할 수 있는 방법으로, 상기 빅데이터에 포함된 개인 정보를 익명화된 데이터('익명화된 개인 정보'라고 함)로 변환하는 변환부; 및 상기 빅데이터에 익명화된 개인정보와 익명화되지 않은 개인정보를 검출하는 검출부;를 포함하는 정형 및 비정형 데이터를 포함하는 빅데이터에서의 개인정보 익명화 관리 시스템이 개시된다.

Description

정형 및 비정형 데이터를 포함하는 빅데이터에서의 개인정보 익명화 관리 시스템{ANONYMITY MANAGEMENT SYSTEM FOR PRIVACY INFORMATION IN BIGDATA HAVING FIXED FORM AND FREE STYLE DATA}

본 발명은 정형 및 비정형 데이터를 포함하는 빅데이터에서의 개인정보 익명화 관리 시스템에 관한 것이다.

최근 빅데이터(bigdata)가 IT 기술의 트랜드로 급부상함에 따라 보호 이슈가 산업의 걸림돌이 되고 있다. 이러한 문제를 해결하여 관련 산업과 기업 간 데이터의 유통이 가능하도록 하기 위하여 정형 비정형 데이터 내에 포함된 개인정보를 검출하고 익명화하는 방법을 필요로 한다. 또한, 개인정보 보호법이 발효되면서 기존 DBMS 시스템 내에 컬럼으로 정의되어 저장하고 있는 수많은 정보들 중 개인정보가 저장된 컬럼들의 현황을 조사하고 IT 시스템이 지속적으로 변화함에 따라 개인정보들을 지속적으로 파악하고 관리할 필요성이 대두되었으며 수많은 DBMS의 카탈로그내에서 개인정보를 일일이 눈으로 파악하고 수작업으로 관리하는데 한계가 있어 개인정보보호를 위한 솔루션을 도입하더라도 관리비용이 현저히 증가하여 시스템을 잘 관리하는데 어려움을 안고 있다

본 발명의 일 실시예에 따르면, 정형 및 비정형 데이터로 이루어진 빅데이터에 포함된 개인정보가 익명화되었는지 여부를 자동으로 검출하여 서면으로 보고할 수 있도록 함으로써, 개인정보 익명화 여부 조사 및 관리 비용을 최소화할 수 있는 빅데이터에서의 개인정보 익명화 관리 시스템과 개인정보 익명화 관리 프로그램이 제공될 수 있다.

본 발명의 다른 실시예에 따르면, 정형 및 비정형 데이터로 이루어진 빅데이터에 포함된 개인정보를, 원본 유추가 불가능한 방법으로 익명화하되, 익명화하지 않은 데이터와 익명화한 데이터를 구별할 수 있도록 익명화함으로써, 익명화하지 않은 데이터만 선별적으로 익명화를 할 수 있는 빅데이터에서의 개인정보 익명화 관리 시스템과 개인정보 익명화 관리 프로그램이 제공될 수 있다.

본 발명의 일 실시예에 따르면, 개인정보가 포함된 빅데이터를 저장하는 저장부;

익명화된 데이터와 익명화되지 않은 데이터를 구별할 수 있는 방법으로, 상기 빅데이터에 포함된 개인 정보를 익명화된 데이터('익명화된 개인 정보'라고 함)로 변환하는 변환부; 및 상기 빅데이터에 익명화된 개인정보와 익명화되지 않은 개인정보를 검출하는 검출부;를 포함하는 정형 및 비정형 데이터를 포함하는 빅데이터에서의 개인정보 익명화 관리 시스템이 제공될 수 있다.

상기 검출부가, 상기 빅데이터에 익명화되지 않은 개인정보를 검출한 경우, 상기 변환부는 상기 검출부에 의해 검출된 익명화되지 않은 개인정보를, 익명화된 데이터와 익명화되지 않은 데이터를 구별할 수 있는 방법으로 변환하는 것일 수 있다.

본 시스템은, 상기 검출부가 검출한 결과를 보고서로서 작성하는 보고서 작성부;를 더 포함하는 것일 수 있다.

상기 개인정보는 이름, 전화번호, 여권번호, 주소, 및 주민번호 중 적어도 어느 하나를 포함하는 것일 수 있다.

상기 변환부는, 익명화할 개인정보의 일부('익명화 파트')만을 변환하되, 상기 익명화할 개인정보의 나머지 부분('비 익명화 파트') 중 적어도 일부를 이용하여, 변환하는 것일 수 있다.

상기 변환부에 의해 사용되는 맵(MAP)을 랜덤하게 생성하는 랜덤 맵(MAP) 발생부; 를 더 포함하며, 상기 변환부는, 상기 랜덤 맵 발생부에 의해 생성된 맵(MAP)을 사용하여 변환 동작을 수행하는 것일 수 있다.

상기 개인정보가 n(여기서, n은 자연수임)자리로 이루어진 데이터인 경우,

상기 랜덤 맵 발생부는 상기 맵을 n개 생성하며,

상기 변환부는 상기 개인정보의 자리별로 상기 n개의 맵을 각각 사용하여 변환하는 것일 수 있다.

상기 랜덤 맵 발생부에 의해 생성된 맵(MAP)을 암호화하거나 복호화하는 암복호화부; 를 더 포함하며, 상기 랜덤 맵(MAP) 발생부에 의해 생성된 맵(MAP)은 상기 암복호화부에 의해 암호화되어 상기 저장부에 저장되어 있다가, 상기 변환부에 의해 사용될 때에만 상기 암복호화부에 의해 복호화된 후에 사용되는 것일 수 있다.

상기 변환부는, 상기 주민번호를 익명화된 데이터로 변환할 때는, 상기 주민번호의 일부를 유효하지 않은 데이터로 대치하는 것일 수 있다.

상기 변환부는, 상기 개인 정보를 익명화 데이터로 변환할 때, 체크 디지트를 추가하는 것일 수 있다.

상기 변환부는, 상기 개인 정보를 익명화 데이터로 변환할 때, 상기 개인 정보의 일부를 문자, 숫자, 및 기호 중 적어도 하나 대치하는 것일 수 있다.

상기 변환부는, 상기 n개의 맵에 의해 변환된 익명화 데이터에, 체크 디지트를 추가하는 것일 수 있다.

상기 변환부는, 상기 n개의 맵에 의해 변환된 익명화 데이터의 일부를 문자, 숫자, 및 기호 중 적어도 하나로 대치하는 것일 수 있다.

본 발명의 다른 실시예에 따르면, 컴퓨터에, 익명화된 데이터와 익명화되지 않은 데이터를 구별할 수 있는 방법으로, 빅데이터에 포함된 개인 정보를 익명화된 데이터('익명화된 개인 정보'라고 함)로 변환하는 단계; 상기 빅데이터에 익명화된 개인정보와 익명화되지 않은 개인정보를 검출하는 단계;를 포함하는 방법을 실행시키기 위한 개인정보 익명화 관리 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공될 수 있다.

상기 검출하는 단계에서, 상기 빅데이터에 익명화되지 않은 개인정보를 검출한 경우, 상기 변환하는 단계는, 상기 검출하는 단계에서 검출된 익명화되지 않은 개인정보를, 익명화된 데이터와 익명화되지 않은 데이터를 구별할 수 있는 방법으로 변환하는 단계일 수 있다.

상기 개인정보는 이름, 전화번호, 여권번호, 주소, 및 주민번호 중 적어도 어느 하나를 포함할 수 있다.

상기 변환하는 단계는, 익명화할 개인정보의 일부('익명화 파트')만을 변환하되, 상기 익명화할 개인정보의 나머지 부분('비 익명화 파트') 중 적어도 일부를 이용하여, 변환하는 단계일 수 있다.

상기 변환하는 단계에서 사용되는 맵(MAP)을 랜덤하게 생성하는 랜덤 맵(MAP) 발생 단계; 를 더 포함하며, 상기 변환하는 단계는, 상기 랜덤 맵 발생부에 의해 생성된 맵(MAP)을 사용하여 변환 동작을 수행할 수 있다.

상기 랜덤 맵 발생 단계는, 상기 맵을 n개 생성하며,

상기 변환하는 단계는, 상기 개인정보의 자리별로 상기 n개의 맵을 각각 사용하여 변환하는 것일 수 있다.

상기 랜덤 맵 발생 단계에서 생성된 맵(MAP)을 암호화하거나 복호화하는 암복호화하는 단계; 를 더 포함하며, 상기 랜덤 맵(MAP) 발생 단계에서 생성된 맵(MAP)은 상기 암복호화 단계에 의해 암호화되어 저장되어 있다가, 상기 변환하는 단계에서 사용될 때에만 상기 암복호화하는 단계에서 복호화된 후에 사용되는 것일 수 있다.

상기 변환하는 단계는, 상기 주민번호를 익명화된 데이터로 변환할 때는, 상기 주민번호의 일부를 유효하지 않은 데이터로 대치하는 것일 수 있다.

상기 변환하는 단계는, 상기 개인 정보를 익명화 데이터로 변환할 때, 체크 디지트를 추가하는 것일 수 있다.

상기 변환하는 단계는, 상기 개인 정보를 익명화 데이터로 변환할 때, 상기 개인 정보의 일부를 문자, 숫자, 및 기호 중 적어도 하나로 대치하는 것일 수 있다.

상기 변환하는 단계는, 상기 n개의 맵에 의해 변환된 익명화 데이터에, 체크 디지트를 추가하는 것일 수 있다.

상기 변환하는 단계는, 상기 n개의 맵에 의해 변환된 익명화 데이터의 일부를 문자, 숫자, 및 기호 중 적어도 하나로 대치하는 것일 수 있다.

본 발명의 하나 이상의 실시예에 따르면, 정형 및 비정형 데이터로 이루어진 빅데이터에 포함된 개인정보가 익명화되었는지 여부를 자동으로 검출하여 서면으로 보고할 수 있도록 함으로써, 개인정보 익명화 여부 조사 및 관리 비용을 최소화할 수 있다.

또한, 정형 및 비정형 데이터로 이루어진 빅데이터에 포함된 개인정보를, 원본 유추가 불가능한 방법으로 익명화하되, 익명화하지 않은 데이터와 익명화한 데이터를 구별할 수 있도록 익명화함으로써, 익명화하지 않은 데이터만 선별적으로 익명화를 할 수 있게 된다. 따라서, 대용량의 빅데이터에 포함된 개인정보라도 익명화 작업에 소요되는 시간을 획기적으로 단출할 수 있다.

도 1은 본 발명의 일 실시예에 따른 빅데이터에서의 개인정보 익명화 관리 시스템을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 빅데이터에서의 개인정보 익명화 관리 방법을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 사용되는 빅데이터에서의 개인정보 변환 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 사용되는 랜덤 맵을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 개인정보 익명화 관리 프로그램의 예시적 구성을 설명하기 위한 도면이다.

이상의 본 발명의 목적들, 다른 목적들, 특징들 및 이점들은 첨부된 도면과 관련된 이하의 바람직한 실시예들을 통해서 쉽게 이해될 것이다. 그러나 본 발명은 여기서 설명되는 실시예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 오히려, 여기서 소개되는 실시예들은 개시된 내용이 철저하고 완전해질 수 있도록 그리고 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되는 것이다.

본 명세서에서, 어떤 구성요소가 다른 구성요소 상에 있다고 언급되는 경우에 그것은 다른 구성요소 상에 직접 형성될 수 있거나 또는 그들 사이에 제 3의 구성요소가 개재될 수도 있다는 것을 의미한다. 또한, 도면들에 있어서, 구성요소들의 두께는 기술적 내용의 효과적인 설명을 위해 과장된 것이다.

본 명세서에서 제1, 제2 등의 용어가 구성요소들을 기술하기 위해서 사용된 경우, 이들 구성요소들이 이 같은 용어들에 의해서 한정되어서는 안 된다. 이들 용어들은 단지 어느 구성요소를 다른 구성요소와 구별시키기 위해서 사용되었을 뿐이다. 여기에 설명되고 예시되는 실시예들은 그것의 상보적인 실시예들도 포함한다.

또한, 제1 엘리먼트 (또는 구성요소)가 제2 엘리먼트(또는 구성요소) 상(ON)에서 동작 또는 실행된다고 언급될 때, 제1 엘리먼트(또는 구성요소)는 제2 엘리먼트(또는 구성요소)가 동작 또는 실행되는 환경에서 동작 또는 실행되거나 또는 제2 엘리먼트(또는 구성요소)와 직접 또는 간접적으로 상호 작용을 통해서 동작 또는 실행되는 것으로 이해되어야 할 것이다.

어떤 엘리먼트, 구성요소, 장치, 또는 시스템이 프로그램 또는 소프트웨어로 이루어진 구성요소를 포함한다고 언급되는 경우, 명시적인 언급이 없더라도, 그 엘리먼트, 구성요소, 장치, 또는 시스템은 그 프로그램 또는 소프트웨어가 실행 또는 동작하는데 필요한 하드웨어(예를 들면, 메모리, CPU 등)나 다른 프로그램 또는 소프트웨어(예를 들면 운영체제나 하드웨어를 구동하는데 필요한 드라이버 등)를 포함하는 것으로 이해되어야 할 것이다.

또한 어떤 엘리먼트(또는 구성요소)가 구현됨에 있어서 특별한 언급이 없다면, 그 엘리먼트(또는 구성요소)는 소프트웨어, 하드웨어, 또는 소프트웨어 및 하드웨어 어떤 형태로도 구현될 수 있는 것으로 이해되어야 할 것이다.

또한, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 '포함한다(comprises)' 및/또는 '포함하는(comprising)'은 언급된 구성요소는 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.

이하, 도면을 참조하여 본 발명을 상세히 설명하도록 한다. 아래의 특정 실시예들을 기술하는데 있어서, 여러 가지의 특정적인 내용들은 발명을 더 구체적으로 설명하고 이해를 돕기 위해 작성되었다. 하지만 본 발명을 이해할 수 있을 정도로 이 분야의 지식을 갖고 있는 독자는 이러한 여러 가지의 특정적인 내용들이 없어도 사용될 수 있다는 것을 인지할 수 있다. 어떤 경우에는, 발명을 기술하는 데 있어서 흔히 알려졌으면서 발명과 크게 관련 없는 부분들은 본 발명을 설명하는 데 있어 별 이유 없이 혼돈이 오는 것을 막기 위해 기술하지 않음을 미리 언급해 둔다.

도 1은 본 발명의 일 실시예에 따른 빅데이터에서의 개인정보 익명화 관리 시스템을 설명하기 위한 도면이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 빅데이터에서의 개인정보 익명화 관리 시스템(이하, '개인정보 익명화 관리 시스템')은 컴퓨터 프로세서(1), 개인정보가 포함된 빅데이터를 저장하는 저장부(3), 메모리(5), 및 컴퓨터 프로세서(1)의 제어하에 메모리(5)에 로딩되어 빅데이터에 포함된 개인정보를 보호하기 위한 개인정보 익명화 관리 프로그램(7)을 포함할 수 있다.

저장부(3)에 저장된 빅데이터는 예를 들면 DBMS 내의 컬럼으로 정의되어 저장되는 데이터나 파일(ex)텍스트, XML, HWP, DOC, XLS)등과 같이 각종 정형 또는 비정형 데이터를 포함하며, 이름, 전화번호, 여권번호, 주소, 및 주민번호와 같은 개인정보를 적어도 하나 이상 포함한다. 저장부(3)에 저장되는 빅데이터는 수시로 갱신될 수 있다.

메모리(5)에는, 개인정보 익명화 관리 프로그램(7)이 컴퓨터 프로세서(1)의 제어하에 로딩되어 동작한다.

또한, 메모리(5)에는 적어도 하나 이상의 랜덤 맵(MAP)이 로딩되며, 개인정보 익명화 관리 프로그램(7)은 메모리(5)에 로딩된 적어도 하나 이상의 랜덤 맵(MAP)을 이용하여 개인정보를 익명화하는 동작을 수행한다. 개인정보 익명화 관리 프로그램(7)은 메모리(5)에 로딩되는 랜덤 맵(MAP)이 암호화된 경우에는, 복호화한 후에 사용할 수 있다.

본원 명세서에서는 설명의 편의를 위해서, 개인정보를 익명화한 데이터를 '익명화된 개인 정보'라고 언급하기로 한다.

개인정보 익명화 관리 프로그램(7)은, 본 발명의 일 실시예에 따른 익명화 관리 방법을 수행할 수 있다. 예를 들면, 개인정보 익명화 관리 프로그램(7)은, 도 2에 예시적으로 도시된 익명화 관리 방법을 수행할 수 있다.

도 2를 참조하여, 개인정보 익명화 관리 프로그램(7)의 동작을 설명하면, 빅데이터에 포함된 개인정보를 '익명화된 개인 정보'로 변환하고(S201), 주기적 또는 비주기적 또는 사용자의 요청이 있는 경우에 개인정보 익명화 관리 프로그램(7)은 빅데이터에 포함된 개인정보들 중에서 익명화되지 않은 개인정보(이하, '비익명화된 개인정보'라고 함)가 있는지를 모니터링한다(S203).

개인정보 익명화 관리 프로그램(7)은, S203 단계의 모니터링 결과, 저장부(3)에 저장된 빅데이터에서 비익명화된 개인정보를 검출하면(S205: Y), 검출한 비익명화된 개인정보를 익명화된 정보로 변환한다(S201단계).

한편, 개인정보 익명화 관리 프로그램(7)은, S203 단계의 모니터링 결과, 저장부(3)에 저장된 빅데이터내에 익명화되지 않은 개인정보가 존재하지 않으면, S203의 단계를 수행한다.

이제, S201 단계의 변환 동작을 도 3을 참조하여 보다 상세히 설명하기로 한다.

도 3은 본 발명의 일 실시예에 사용되는 빅데이터에서의 개인정보 변환 방법을 설명하기 위한 도면이다.

도 3을 참조하면, 개인정보 익명화 관리 프로그램(7)은 개인정보를 랜덤 맵을 이용하여 변환하는 동작(S301)을 수행할 수 있다. 도 4에 예시적으로 도시된 랜덤 맵을 참조하여 설명하면, 개인정보 익명화 관리 프로그램(7)은, 도 4에 예시적으로 도시된 바와 같은 복수의 랜덤 맵을 이용하여 변환하는 동작을 수행할 수 있다. 도 4에 도시된 랜덤 맵들은 예시적인 것이므로 본원 발명이 그러한 것들에만 한정되는 것이 아님을 알아야 한다.

예를 들면, 개인정보가 n(여기서, n은 자연수임)자리로 이루어진 데이터라고 가정하면, 개인정보 익명화 관리 프로그램(7)은, 각 자리수의 값을 변환함에 있어서 도 4에 예시적으로 도시된 맵들을 사용할 수 있다.

도 1에 도시하지는 않았지만, 복수의 랜덤 맵을 생성하는 랜덤 맵 발생부를 개인정보 익명화 관리 시스템(10)은 포함할 수 있으며, 이러한 랜덤 맵 발생부는 개인정보 익명화 관리 프로그램(7)에 내장되어 있거나 또는 개인정보 익명화 관리 시스템(10)에 소프트웨어 및/또는 하드웨어의 형태로 구성되어 포함될 수 있다.

도 4를 참조하면, 총 n개의 맵들이 예시적으로 도시되어 있으며, 이들 맵들은, 개인정보를 구성하는 각 자리수의 값을 다른 값으로 변환하는데 사용된다. 즉, 맵들 각각은 개인정보를 구성하는 각 자리수에 일대일로 대응되어 변환되는데 사용된다.

도 3을 계속 참조하면, 개인정보 익명화 관리 프로그램(7)은, S301 단계를 수행한 후에 S303 단계를 더 수행할 수 있다.

예를 들면, S301 단계에서 도 4에 예시된 맵을 사용하여 781123-2253647과 651106-1253647를 변환하였다고 가정하면, 각각 다음과 같이 된다.

1) 781123-2253647 --> 781123-2297820

2) 651206-1253647 --> 651206-1297820

S303 단계에서는, 변환의 대상이 되는 개인 정보 중 변환되지 않는 부분을 이용하여, 변환할 부분에 적용한다. 예를 들면, 781123-2297820에서, 변환하지 않은 데이터에 대하여 다음과 같은 값을 산출한다.

(7+8+1+1+2+3+2) % 10 = 4

이처럼 '개인 정보 중 변환되지 않은 부분'으로부터 산출된 값을, '개인 정보 중 변환할 부분'에 적용한다.

(2+4) % 10 = 6

(9+4) % 10 = 3

(7+4) % 10 = 1

(8+4) % 10 = 2

(2+4) % 10 = 6

(0+4) % 10 = 4

최종적으로, S302 단계를 거친후에는, 781123-2297820는 781123-2631264로 변환된다.

651206-1253647에 대하여도 S303 단계를 적용하면, 동일 또는 유사한 방식으로 다음과 같이 변환된다.

(6+5+1+2+0+6+1) % 10 = 1

(2+1) % 10 = 3

(5+1) % 10 = 6

(3+1) % 10 = 4

(6+1) % 10 = 7

(4+1) % 10 = 5

(7+1) % 10 = 8

최종적으로, S303 단계를 거친 후에는, 651206-1253647는 651206-1354758로 변환된다.

이처럼, S303 단계를 거친 후에는, 서로 다른 데이터는 반드시 다른 데이터로 변환되게 된다.

도 3을 계속 참조하면, 개인정보 익명화 관리 프로그램(7)은, S303 단계를 수행한 후에 S305 단계를 더 수행할 수 있다. S305 단계는, 개인정보가 익명화되었는지 여부를 판단할 수 있도록 하기 위해서, 수행된다.

S305 단계는 예를 들면 (각자리수 * 웨이트)의 합계 %10에 의해 체크 디지트를 생성하여 익명화된 개인 정보에 부가할 수 있다.

예를 들어 S303단계를 거쳐 변환된 데이터가 651206-1354758라고 하면

각 자리 웨이트는 랜덤맵에서 가져올 수 있다. 그 값이 1 7 3 8 5 9 2 6 4 0라고 하면

6 * 1 = 7

5 * 7 = 35

1 * 3 = 3

2 * 8 = 16

0 * 5 = 0

6 * 9 = 54

1 * 2 = 2

3 * 6 = 18

5 * 4 = 20

7 * 1 = 7

5 * 7 = 35

8 * 3 = 24

7 + 35 + 3 + 16 + 0 + 54 + 2 + 18 + 20 + 7 + 35 + 24 = 221 % 10 = 1

만들어진 체크디지트를 마지막 자리에 치환하면 651206-1354751가 된다.

익명화가 된 데이터를 검사할 때 위의 계산을 동일하게 수행하여 변환된 데이터인지 여부를 확인할 수 있으며 반드시 동일한 자리수의 값으로 변환할 필요가 없는 경우 651206-1354758 [221] 과 같이 변환된 값을 표현하기 위한 일정한 형식의 체크디지트를 덧붙여 데이터를 작성할 수도 있다. 또한 익명화 후의 데이터가 반드시 유효할 필요가 없는 경우에는 651206-1******과 같이 데이터의 일부를 임의의 문자로 치환하여 숨기는(마스킹) 방식으로 치환할 수도 있다.

체크 디지트를 부가하는 방법은 파일 또는 테이블 단위로 익명화되었는지 여부를 검토하는데 유효할 수 있다.

S305 단계는 도 3에서는 체크 디지트를 부가하는 것으로 구현되었지만, 익명화할 개인정보의 타입에 따라서 다른 형태로 변형되어 구현될 수 있다. 예를 들면, S305 단계는, 개인정보가 이름인 경우, 아래 예와 같이 그 일부를 문자, 숫자, 및/또는 기호와 같은 것으로 대치하는 동작으로 변형 구현될 수 있다.

예) 바넷정보기술 --> 하수나바소*

이와 같은 동작에 의해, 개인정보가 이름인 경우 문자, 숫자, 및/또는 기호가 포함되어 있는지를 판단하여 익명화되었는지 여부를 알수 있게 된다.

한편, 도 3의 실시예에서, S301 단계를 수행한 후에 S303 단계를 수행하는 것으로 설명하였지만, S303 단계를 먼저 수행한 후에 S301단계를 수행하는 것도 가능할 것이다.

본 발명의 일 실시예에 따른 개인정보 익명화 관리 프로그램은, 또한, 빅데이터의 익명화 현황을 보고서의 형태로 자동적으로 작성할 수 있다. 도 2를 다시 참조하면, 개인정보 익명화 관리 프로그램은, S205 단계에서 익명화되지 않은 정보를 검출한 경우, S201 단계를 다시 수행하기 전에, 개인정보 익명화 현황을 보고서의 형태로 구성할 수 있다. 개인정보 익명화 현황은, 익명화된 개인정보와 익명화되지 않은 개인정보의 현황을 포함한다.

개인정보 익명화 관리 프로그램은, 또한 사용자의 요청이 있는 경우에도 개인정보 익명화 현황을 보고서의 형태로 구성할 수 있다. 빅데이터에 포함된 개인 정보가 익명화되었는지 여부를 사람이 일일이 확인하는 것은 비효율적이며, 본원 발명에서는 개인정보를 익명화할 때 익명화 여부를 식별할 수 있는 방식으로 변환함으로써, 차후 익명화된 개인정보를 구별할 수 있게 된다.

도 5는 본 발명의 일 실시예에 따른 개인정보 익명화 관리 프로그램의 예시적 구성을 설명하기 위한 도면이다.

도 5를 참조하면, 본 발명의 일 실시예에 따른 개인정보 익명화 관리 프로그램은, 변환부(9), 검출부(11), 보고서 작성부(13), 랜덤 맵 발생부(15)를 포함할 수 있다.

변환부(9)는 빅데이터에 포함된 개인정보를 익명화하는 동작을 수행한다.

예를 들면, 변환부(9)는, 도 2와 도 3을 참조하여 설명하였던 변환 동작을 수행할 수 있다. 변환부(9)에 의해 익명화된 개인정보는 저장부(3)에 저장된다.

검출부(11)는, 저장부(3)에 저장된 빅데이터에 포함된 개인정보 중에서 익명화되지 않은 개인정보 및/또는 익명화된 개인정보를 검출할 수 있다.

예를 들면, 검출부(11)는 도 2를 참조하여 설명하였던 검출 동작(S205)을 수행할 수 있다.

보고서 작성부(13)는, 검출부(11)가 검출한 결과를 기초로 보고서를 작성할 수 있다. 예를 들면, 보고서 작성부(13)는 사용자의 요청이 있거나 또는 주기적 또는 수시로 검출부(11)가 검출한 결과를 이용하여 보고서를 작성할 수 있다. 본 보고서에는 익명화된 개인정보 및/또는 익명화되지 않은 개인정보가 포함된다.

랜덤 맵 발생부(14)는, 변환부(9)가 개인정보를 익명화할 때 사용하는 랜덤 맵을 생성한다. 랜덤 맵 발생부(14)는, 예를 들면, 익명화할 개인정보의 자리수와 같거나 그 이상의 랜덤 맵을 생성할 수 있다.

한편, 도 5에서, 암복호화부를 표시하지 않았지만, 개인정보 익명화 관리 프로그램은, 랜덤 맵을 암호화하고 암호화된 랜덤 맵을 복호화하는 암복호화부를 더 포함할 수 있다.

상기와 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

1: 컴퓨터 프로세서
3: 저장부
5: 메모리
7: 개인정보 익명화 관리 프로그램
9: 변환부
11: 검출부
13: 보고서 작성부
15: 랜덤 맵 발생부

Claims

개인정보가 포함된 빅데이터를 저장하는 저장부;
익명화된 데이터와 익명화되지 않은 데이터를 구별할 수 있는 방법으로, 상기 빅데이터에 포함된 개인 정보를 익명화된 데이터('익명화된 개인 정보'라고 함)로 변환하는 변환부; 및
상기 빅데이터에 익명화된 개인정보와 익명화되지 않은 개인정보를 검출하는 검출부;를 포함하며,
상기 변환부는, 익명화할 개인정보의 일부('익명화 파트')만을 변환하되, 상기 익명화할 개인정보의 나머지 부분('비 익명화 파트') 중 적어도 일부를 이용하여, 변환하는 것을 특징으로 하는 정형 및 비정형 데이터를 포함하는 빅데이터에서의 개인정보 익명화 관리 시스템.
제1항에 있어서,
상기 검출부가, 상기 빅데이터에 익명화되지 않은 개인정보를 검출한 경우, 상기 변환부는 상기 검출부에 의해 검출된 익명화되지 않은 개인정보를, 익명화된 데이터와 익명화되지 않은 데이터를 구별할 수 있는 방법으로 변환하는 것을 특징으로 하는 정형 및 비정형 데이터를 포함하는 빅데이터에서의 개인정보 익명화 관리 시스템.
제2항에 있어서,
상기 검출부가 검출한 결과를 보고서로서 작성하는 보고서 작성부;를 더 포함하는 것을 특징으로 하는 정형 및 비정형 데이터를 포함하는 빅데이터에서의 개인정보 익명화 관리 시스템.
제1항에 있어서,
상기 개인정보는 이름, 전화번호, 여권번호, 주소, 및 주민번호 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 정형 및 비정형 데이터를 포함하는 빅데이터에서의 개인정보 익명화 관리 시스템.
삭제
제1항에 있어서,
상기 변환부에 의해 사용되는 맵(MAP)을 랜덤하게 생성하는 랜덤 맵(MAP) 발생부; 를 더 포함하며,
상기 변환부는, 상기 랜덤 맵 발생부에 의해 생성된 맵(MAP)을 사용하여 변환 동작을 수행하는 것을 특징으로 하는 빅데이터에서의 개인정보 익명화 관리 시스템.
제6항에 있어서,
상기 개인정보가 n(여기서, n은 자연수임)자리로 이루어진 데이터인 경우,
상기 랜덤 맵 발생부는 상기 맵을 n개 생성하며,
상기 변환부는 상기 개인정보의 자리별로 상기 n개의 맵을 각각 사용하여 변환하는 것을 특징으로 하는 빅데이터에서의 개인정보 익명화 관리 시스템.
제7항에 있어서,
상기 랜덤 맵 발생부에 의해 생성된 맵(MAP)을 암호화하거나 복호화하는 암복호화부; 를 더 포함하며,
상기 랜덤 맵(MAP) 발생부에 의해 생성된 맵(MAP)은 상기 암복호화부에 의해 암호화되어 상기 저장부에 저장되어 있다가, 상기 변환부에 의해 사용될 때에만 상기 암복호화부에 의해 복호화된 후에 사용되는 것을 특징으로 하는 빅데이터에서의 개인정보 익명화 관리 시스템.
제4항에 있어서,
상기 변환부는, 상기 주민번호를 익명화된 데이터로 변환할 때는, 상기 주민번호의 일부를 유효하지 않은 데이터로 대치하는 것을 특징으로 하는 빅데이터에서의 개인정보 익명화 관리 시스템.
제1항에 있어서,
상기 변환부는, 상기 개인 정보를 익명화 데이터로 변환할 때, 체크 디지트를 추가하는 것을 특징으로 하는 빅데이터에서의 개인정보 익명화 관리 시스템.
제1항에 있어서,
상기 변환부는, 상기 개인 정보를 익명화 데이터로 변환할 때, 상기 개인 정보의 일부를 문자, 숫자, 및 기호 중 적어도 하나로 대치하는 것을 특징으로 하는 빅데이터에서의 개인정보 익명화 관리 시스템.
제7항에 있어서,
상기 변환부는, 상기 n개의 맵에 의해 변환된 익명화 데이터에, 체크 디지트를 추가하는 것을 특징으로 하는 빅데이터에서의 개인정보 익명화 관리 시스템.
제7항에 있어서,
상기 변환부는, 상기 n개의 맵에 의해 변환된 익명화 데이터의 일부를 문자, 숫자, 및 기호 중 적어도 하나로 대치하는 것을 특징으로 하는 빅데이터에서의 개인정보 익명화 관리 시스템.
개인정보 익명화 관리 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 있어서,
상기 개인정보 익명화 관리 프로그램은,
컴퓨터에,
익명화된 데이터와 익명화되지 않은 데이터를 구별할 수 있는 방법으로, 빅데이터에 포함된 개인 정보를 익명화된 데이터('익명화된 개인 정보'라고 함)로 변환하는 단계;
상기 빅데이터에 익명화된 개인정보와 익명화되지 않은 개인정보를 검출하는 단계;를 포함하는 방법을 실행시키며,
상기 변환하는 단계는, 익명화할 개인정보의 일부('익명화 파트')만을 변환하되, 상기 익명화할 개인정보의 나머지 부분('비 익명화 파트') 중 적어도 일부를 이용하여, 변환하는 단계인 것을 특징으로 하는 개인정보 익명화 관리 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제14항에 있어서,
상기 검출하는 단계에서, 상기 빅데이터에 익명화되지 않은 개인정보를 검출한 경우, 상기 변환하는 단계는, 상기 검출하는 단계에서 검출된 익명화되지 않은 개인정보를, 익명화된 데이터와 익명화되지 않은 데이터를 구별할 수 있는 방법으로 변환하는 단계인 것을 특징으로 하는 개인정보 익명화 관리 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제14항에 있어서,
상기 개인정보는 이름, 전화번호, 여권번호, 주소, 및 주민번호 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 개인정보 익명화 관리 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
삭제
제14항에 있어서,
상기 변환하는 단계에서 사용되는 맵(MAP)을 랜덤하게 생성하는 랜덤 맵(MAP) 발생 단계; 를 더 포함하며,
상기 변환하는 단계는, 상기 랜덤 맵 발생부에 의해 생성된 맵(MAP)을 사용하여 변환 동작을 수행하는 것을 특징으로 하는 개인정보 익명화 관리 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제18항에 있어서,
상기 개인정보가 n(여기서, n은 자연수임)자리로 이루어진 데이터인 경우,
상기 랜덤 맵 발생 단계는, 상기 맵을 n개 생성하며,
상기 변환하는 단계는, 상기 개인정보의 자리별로 상기 n개의 맵을 각각 사용하여 변환하는 것을 특징으로 하는 개인정보 익명화 관리 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제19항에 있어서,
상기 랜덤 맵 발생 단계에서 생성된 맵(MAP)을 암호화하거나 복호화하는 암복호화하는 단계; 를 더 포함하며,
상기 랜덤 맵(MAP) 발생 단계에서 생성된 맵(MAP)은 상기 암복호화 단계에 의해 암호화되어 저장되어 있다가, 상기 변환하는 단계에서 사용될 때에만 상기 암복호화하는 단계에서 복호화된 후에 사용되는 것을 특징으로 하는 개인정보 익명화 관리 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제16항에 있어서,
상기 변환하는 단계는, 상기 주민번호를 익명화된 데이터로 변환할 때는, 상기 주민번호의 일부를 유효하지 않은 데이터로 대치하는 것을 특징으로 하는 개인정보 익명화 관리 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제14항에 있어서,
상기 변환하는 단계는, 상기 개인 정보를 익명화 데이터로 변환할 때, 체크 디지트를 추가하는 것을 특징으로 하는 개인정보 익명화 관리 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제14항에 있어서,
상기 변환하는 단계는, 상기 개인 정보를 익명화 데이터로 변환할 때, 상기 개인 정보의 일부를 문자, 숫자, 및 기호 중 적어도 하나로 대치하는 것을 특징으로 하는 개인정보 익명화 관리 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제19항에 있어서,
상기 변환하는 단계는, 상기 n개의 맵에 의해 변환된 익명화 데이터에, 체크 디지트를 추가하는 것을 특징으로 하는 개인정보 익명화 관리 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제19항에 있어서,
상기 변환하는 단계는, 상기 n개의 맵에 의해 변환된 익명화 데이터의 일부를 문자, 숫자, 및 기호 중 적어도 하나로 대치하는 것을 특징으로 하는 개인정보 익명화 관리 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.