KR102113680B1

KR102113680B1 - 빅 데이터 비식별화 처리 시스템 및 방법

Info

Publication number: KR102113680B1
Application number: KR1020180027783A
Authority: KR
Inventors: 심기창; 김동례; 권정현
Original assignee: (주)이지서티
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2020-05-20
Also published as: KR20190109664A

Abstract

본 발명은 빅 데이터 비식별화 처리 시스템 및 방법에 관한 것으로, 본 발명에 따른 빅 데이터 비식별화 처리 방법은 빅 데이터를 저장관리하는 빅 데이터 관리부로부터 테이블 정보와 테이블의 컬럼 정보를 포함하는 메타 정보를 탐지하는 단계, 상기 메타 정보를 시각화한 사용자 인터페이스를 제공하여 추출 대상 데이터에 대응하는 컬럼을 선택받는 단계, 상기 선택된 컬럼에 대응하는 추출 대상 데이터를 상기 빅 데이터 관리부로부터 추출하기 위한 쿼리를 생성하는 단계, 상기 쿼리를 이용하여 상기 빅 데이터 관리부에서 추출 대상 데이터를 추출하여 파일로 생성시키는 단계, 상기 파일을 상기 빅 데이터 관리부로부터 제공받는 단계, 그리고 상기 파일에 포함된 비식별 대상 데이터에 대한 비식별화를 수행하는 단계를 포함한다.

Description

빅 데이터 비식별화 처리 시스템 및 방법{BIG DATA DE-IDENTIFICATION SYSTEM AND METHOD}

본 발명은 데이터 비식별 처리 시스템 및 방법에 관한 것으로, 특히 빅 데이터 환경에서 비식별화 처리 대상 데이터를 추출하여 비식별 처리를 수행함에 있어 빅 데이터 플랫폼과 비식별화 처리부 간의 연동 기술에 관한 것이다.

현대에 이르러 공공기관 및 민간기업이 보유하고 분석해야 하는 데이터양이 기하급수적으로 늘어나고 있다. 각 기관 및 기업들은 데이터 센터 구축 시 관계형 데이터베이스(RDB) 보다는 하둡(Hadoop) 등 빅 데이터 플랫폼을 고려하고 있다. 빅 데이터 플랫폼 내 방대한 데이터를 활용하기 위해서는 개인정보 제거를 위한 비식별 처리를 수행해야 한다.

한국등록특허 제1784265호(등록공고일자 2017년 10월 12일)와 같이 빅 데이터를 비식별화하는 방법에 대한 관심이 높아지고 있다. 그런데 추출된 빅 데이터를 비식별화하는 것도 중요하지만, 비식별 처리 이전에 빅 데이터 플랫폼에서 데이터를 추출하여 가공하고 연계하는 데에 적지 않은 시간과 비용이 소요되므로 이에 대한 해결 방법도 함께 요구되고 있다.

따라서 본 발명이 해결하고자 하는 기술적 과제는 빅 데이터 환경에서 비식별화 처리 대상 데이터를 추출하여 비식별 처리를 수행함에 있어 빅 데이터 플랫폼과 비식별화 처리부 간의 연동 기술을 제공하는 것이다.

상기한 기술적 과제를 해결하기 위한 본 발명에 따른 빅 데이터 비식별화 처리 방법은 빅 데이터를 저장관리하는 빅 데이터 관리부로부터 테이블 정보와 테이블의 컬럼 정보를 포함하는 메타 정보를 탐지하는 단계, 상기 메타 정보를 시각화한 사용자 인터페이스를 제공하여 추출 대상 데이터에 대응하는 컬럼을 선택받는 단계, 상기 선택된 컬럼에 대응하는 추출 대상 데이터를 상기 빅 데이터 관리부로부터 추출하기 위한 쿼리를 생성하는 단계, 상기 쿼리를 이용하여 상기 빅 데이터 관리부에서 추출 대상 데이터를 추출하여 파일로 생성시키는 단계, 상기 파일을 상기 빅 데이터 관리부로부터 제공받는 단계, 그리고 상기 파일에 포함된 비식별 대상 데이터에 대한 비식별화를 수행하는 단계를 포함한다.

테이블 선택, 컬럼 선택 및 선택된 컬럼에 대응하는 데이터의 추출 범위 선택을 포함하는 데이터 추출 조건을 상기 메타 정보를 시각화한 사용자 인터페이스를 통해 사용자로부터 선택받을 수 있다.

상기 파일은 상기 빅 데이터 관리부 내의 미리 정해진 위치에 생성되어 전송될 수 있다.

상기 빅 데이터 관리부는 빅 데이터를 분산 파일 형태로 저장 관리하는 분산 파일 시스템을 포함할 수 있다.

상기 분산 파일 시스템은 하둡 분산 파일 시스템(HDFS)이고, 상기 쿼리는 아파치 하이브 쿼리(Apache-Hive Query)로서,상기 사용자로부터 선택된 데이터 추출 조건에 따라 동적으로 생성되며, 상기 쿼리는 상기 빅 데이터 관리부의 하이브(hive)를 통해 처리되어 상기 빅 데이터 관리부 내의 미리 정해진 위치에 상기 파일을 생성할 수 있다.

상기한 기술적 과제를 해결하기 위한 본 발명에 따른 빅 데이터 비식별화 처리 시스템은, 빅 데이터를 저장하는 빅 데이터 관리부로부터 테이블 정보와 테이블의 컬럼 정보를 포함하는 메타 정보를 탐지하고, 상기 메타 정보를 시각화한 사용자 인터페이스를 제공하여 추출 대상 데이터에 대응하는 컬럼을 선택받는 메타정보 시각화부, 상기 선택된 컬럼에 대응하는 추출 대상 데이터를 상기 빅 데이터 관리부로부터 추출하기 위한 쿼리를 생성하는 쿼리 생성부, 그리고 상기 쿼리를 이용하여 상기 빅 데이터 관리부에서 추출된 데이터로 이루어진 파일을 상기 빅 데이터 관리부로부터 제공받고, 상기 파일에 포함된 비식별 대상 데이터에 대한 비식별화를 수행하는 비식별 처리부를 포함한다.

본 발명에 의하면 빅 데이터 환경에서의 비식별 대상 데이터에 대한 생성 및 전처리, 연계에 소요되는 시간을 줄일 수 있다.

도 1은 본 발명의 일 실시예에 따른 빅 데이터 비식별화 처리 시스템의 구성을 나타낸 도면이다.
도 2 내지 도 4는 본 발명의 일 실시예에 따른 시각화된 사용자 인터페이스에서 데이터 추출 조건을 선택받는 과정을 설명하기 위해 제공되는 도면이다.
도 5는 본 발명에 따라 동적으로 생성된 아파치 하이브 쿼리(Apache-Hive Query)를 예시한 도면이다.
도 6은 본 발명에 따른 액티브 하이브 쿼리에 파일 생성 구문이 추가된 예이다.

그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 빅 데이터 비식별화 처리 시스템의 구성을 나타낸 도면이다.

도 1을 참고하면, 본 발명에 따른 빅 데이터 비식별화 처리 시스템은 빅 데이터 관리부(100)와 비식별 처리부(200)를 포함할 수 있다.

빅 데이터 관리부(100)는 분산 파일 시스템인 HDFS(Hadoop Distributed File System)(110)와 분산처리를 위한 맵리듀스(MapReduce)(120)로 구성된 빅데이터 플랫폼으로 구현될 수 있다.

빅 데이터 관리부(100)는 HDFS에 분산 파일 시스템 형태로 저장된 빅 데이터를 요약, 쿼리 및 분석을 수행할 수 있는 데이터 웨어하우스 시스템으로 하이브(Hive)(130)를 포함할 수 있다.

하이브(130)는 하이브 쿼리(Hive Query)를 사용하여 HDFS(110)에 저장된 빅 데이터로부터 비식별 대상 데이터를 추출하여 파일 형태로 생성할 수 있다.

도 1에서는 하둡 2.0(HADOOP 2.0)으로 구현된 빅데이터 플랫폼을 예시하였으나 그 외 다른 빅데이터 플랫폼에도 적용 가능하다.

비식별 처리부(200)는 메타정보 시각화부(210), 쿼리 생성부(220) 및 비식별 처리 엔진부(230)를 포함할 수 있다.

메타정보 시각화부(210)는 빅 데이터 관리부(100)로부터 테이블 정보와 테이블의 컬럼 정보를 포함하는 메타 정보를 탐지하고, 메타 정보를 시각화한 사용자 인터페이스를 제공할 수 있다. 예컨대 도 1에서와 같이 메타 정보는 빅 데이터 관리부(100)에 구축된 빅 데이터를 구성하는 정보 분류(table) 리스트와, 각 정보 분류에 포함되는 정보 요소(column)에 대한 정보를 포함할 수 있다.

메타정보 시각화부(210)는 메타 정보를 시각화한 사용자 인터페이스에서 사용자로부터 빅데이터 플랫폼에서 추출하고자 하는 데이터 추출 조건을 설정받을 수 있다. 예컨대 메타정보 시각화부(210)는 빅데이터 플랫폼에 저장된 빅 데이터의 테이블 리스트를 제공하여 선택받을 수 있으며, 선택된 테이블에 포함된 컬럼 정보를 제공하여 추출 대상 데이터에 대응하는 컬럼을 선택받을 수 있다. 그리고 선택된 컬럼의 데이터에 적용할 처리 함수나 추출 범위에 대한 조건을 선택받을 수도 있다.

도 2 내지 도 4는 본 발명의 일 실시예에 따른 시각화된 사용자 인터페이스에서 데이터 추출 조건을 선택받는 과정을 설명하기 위해 제공되는 도면이다.

도 2를 참고하면, 예컨대 메타정보 시각화부(210)는 명령어 'show databases'를 하이브(130)에 전달하여 빅데이터 플랫폼에 저장된 빅 데이터의 정보분류 테이블(Table) 리스트를 제공받을 수 있다. 그리고 메타정보 시각화부(210)는 테이블 리스트를 시각화하여 제공할 수 있다. 도 2에서는 테이블 리스트에서 사용자가 '고객정보(TB_OOOO_01)'와 '카드사용정보(TB_OOOO_06)'를 선택한 것을 예시하였다. 테이블 선택을 위해서 체크박스 등의 UI를 지원할 수 있다.

도 3을 참고하면, 사용자가 '고객정보' 테이블을 선택하면, 메타정보 시각화부(210)는 명령어 'describe TB_OOOO_01'를 하이브(130)에 전달하여 해당 테이블에 포함된 정보요소에 대응하는 컬럼 정보를 제공받고 이를 시각화하여 제공할 수 있다. 마찬가지로 테이블 리스트에서 '카드사용정보' 테이블을 선택하면, 메타정보 시각화부(210)는 명령어 'describe TB_OOOO_06'를 하이브(130)에 전달하여 해당 테이블에 포함된 정보요소에 대응하는 컬럼 정보를 제공받고 이를 시각화하여 제공할 수 있다. 도 3에서는 사용자가 고객정보(TB_OOOO_01) 테이블에서는 주소, 연령, 신용등급, 연체료 컬럼을 추출 대상 정보 요소로 선택하였고, 카드사용정보(TB_OOOO_06) 테이블에서는 카드사용횟수, 카드사용금액 컬럼을 추출 대상 정보 요소로 선택한 것을 예시하였다. 마찬가지로 추출 대상 정보요소에 대응하는 컬럼 선택을 위해 체크박스 UI를 지원할 수 있다.

한편 마스터 테이블 레코드(Master Table Record)(Key Record)에 대한 서브 테이블 레코드(Sub Table Record)와의 1:n 관계에 대한 데이터 그룹핑(Grouping)을 위해 컬럼 선택 시 별도의 처리함수를 지정할 수 있도록 처리 함수 선택 UI를 지원할 수 있다. 도 3에서는 데이터 그룹핑을 위해 카드사용정보 테이블(TB_OOOO_06)에 포함된 카드사용횟수, 카드사용금액에 대해서 각각 MAX(최대값) 함수와 SUM(합계) 함수를 처리 함수로 지정한 것을 예시하였다.

도 4를 참고하면, 추출 대상으로 선택된 컬럼 중에서 추출 범위에 대한 조건을 선택받는 것도 가능하다. 도 4에서는 '고객정보' 테이블에 포함된 신용등급 컬럼에 대해서는 신용등급이 1부터 5까지만 포함되도록 추출 범위 조건이 설정된 것을 예시하였다. 그리고 '카드사용정보' 테이블의 일자 컬럼에 대해서는 2018년에 카드사용정보만 포함되도록 추출 범위 조건이 설정된 것을 예시하였다.

다시 도 1을 참고하면, 쿼리 생성부(220)는 빅 데이터 플랫폼의 메타 정보를 시각화한 사용자 인터페이스에서 사용자로부터 선택된 컬럼에 대응하는 비식별 대상 데이터를 빅 데이터 관리부(100)로부터 추출하기 위한 쿼리를 생성할 수 있다.

도 5는 본 발명에 따라 동적으로 생성된 아파치 하이브 쿼리(Apache-Hive Query)를 예시한 도면이다.

도 5를 참고하면, 쿼리 생성부(220)는 사용자로부터 도 3에서 선택된 컬럼에 대한 Select 절을 생성할 수 있으며, 하나 이상의 테이블이 선택된 경우 메타 정보에 표기된 키(key) 값을 활용하여 Join 문을 생성할 수 있다. Join 문의 경우 마스터 테이블 레코드(Master Table Record)(Key Record)에 대한 서브 테이블 레코드(Sub Table Record)와의 1:n 관계에 대한 데이터 그룹핑(Grouping)을 위한 컬럼 선택 시 별도의 처리함수를 지정할 수 있도록 구현할 수 있다. 그리고 컬럼 선택 후 데이터 추출 범위를 선택하도록 지정된 조건에 따라 하이브 쿼리 내 Where 절을 생성할 수 있다.

도 5에서 자동생성구문은 사용자로부터 체크박스 형태로 선택을 받으면 자동으로 생성되는 구문으로, [선택], [그룹]에 해당하는 구문은 사용자가 도 2 및 도 3에서 테이블을 선택하고, 컬럼을 선택한 것만으로 자동으로 생성될 수 있다.

별도추출구문은 도 4에 예시한 것과 같이 선택된 컬럼의 추출 범위를 선택하기 위해 사용자로부터 일정한 값을 직접 입력받는 경에 생성되는 구문으로, [조건]에 해당하는 구문은 사용자로부터 추출 범위 조건에 해당하는 값을 직접 입력받아 생성될 수 있다.

다시 도 1을 참고하면, 쿼리 생성부(220)는 생성된 쿼리를 빅 데이터 관리부(100)의 하이브(130)로 전달할 수 있다.

그러면 하이브(130)는 파일 생성 기능을 활용하여, 쿼리에 대응하는 비식별 대상 데이터를 HDFS(120)에서 추출하여 빅 데이터 관리부(100) 내에 미리 정해진 위치에 로데이터(Raw Data) 파일로 생성할 수 있다.

도 6은 본 발명에 따른 액티브 하이브 쿼리에 파일 생성 구문이 추가된 예이다.

빅 데이터 관리부(100)는 미리 정해진 위치에 생성된 파일을 비식별 처리부(200)로 로데이터(Raw Data) 파일 전송을 성공하면, 해당 파일을 빅 데이터 관리부(100) 내에서 삭제할 수 있다. 파일 전송은 SSH(Secure Shell) 프로토콜을 이용하여 이루어질 수 있다. 물론 실시예에 따라 다른 보안 전송 프로토콜을 이용하는 것도 가능하다.

마지막으로 비식별 처리부(200)는 전송된 파일에 대해서 비식별 처리 엔진부()에서 비식별 처리, 예컨대 가명처리, 총계처리, 데이터삭제, 데이터범주화, 데이터마스킹 등의 기법과 k-익명성, l-다양성, l-근접성 등의 프라이버시 모델 등에 따라 비식별 처리를 수행할 수 있다. 물론 여기서 예시한 것 이외의 비식별 처리를 수행하는 것도 가능하다.

본 발명의 실시예는 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터로 읽을 수 있는 매체를 포함한다. 이 매체는 앞서 설명한 빅 데이터 비식별화 처리 방법을 실행시키기 위한 프로그램을 기록한다. 이 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이러한 매체의 예에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 자기 매체, CD 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 자기-광 매체, 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 구성된 하드웨어 장치 등이 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

Claims

빅 데이터를 저장관리하는 빅 데이터 관리부로부터 테이블 정보와 테이블의 컬럼 정보를 포함하는 메타 정보를 탐지하는 단계,
상기 메타 정보를 시각화한 사용자 인터페이스를 제공하여 추출 대상 데이터에 대응하는 컬럼을 선택받는 단계,
상기 선택된 컬럼에 대응하는 추출 대상 데이터를 상기 빅 데이터 관리부로부터 추출하기 위한 쿼리를 생성하는 단계,
상기 쿼리를 이용하여 상기 빅 데이터 관리부에서 추출 대상 데이터를 추출하여 파일로 생성시키는 단계,
상기 파일을 상기 빅 데이터 관리부로부터 제공받는 단계, 그리고
상기 파일에 포함된 비식별 대상 데이터에 대한 비식별화를 수행하는 단계
를 포함하고,
테이블 선택, 컬럼 선택 및 선택된 컬럼에 대응하는 데이터의 추출 범위 선택을 포함하는 데이터 추출 조건을 상기 메타 정보를 시각화한 사용자 인터페이스를 통해 사용자로부터 선택받고, 상기 선택된 컬럼의 데이터에 적용할 처리 함수를 지정받는 사용자 인터페이스를 지원하는 빅데이터 비식별화 처리 방법.
삭제
제 1 항에서,
상기 파일은 상기 빅 데이터 관리부 내의 미리 정해진 위치에 생성되어 전송되는 빅 데이터 비식별화 처리 방법.
제 3 항에서,
상기 빅 데이터 관리부는 빅 데이터를 분산 파일 형태로 저장 관리하는 분산 파일 시스템을 포함하는 빅 데이터 비식별화 처리 방법.
제 4 항에서,
상기 분산 파일 시스템은 하둡 분산 파일 시스템(HDFS)이고,
상기 쿼리는 아파치 하이브 쿼리(Apache-Hive Query)로서, 상기 사용자로부터 선택된 데이터 추출 조건에 따라 동적으로 생성되며,
상기 쿼리는 상기 빅 데이터 관리부의 하이브(hive)를 통해 처리되어 상기 빅 데이터 관리부 내의 미리 정해진 위치에 상기 파일을 생성하는 빅 데이터 비식별화 처리 방법.
빅 데이터를 저장하는 빅 데이터 관리부로부터 테이블 정보와 테이블의 컬럼 정보를 포함하는 메타 정보를 탐지하고, 상기 메타 정보를 시각화한 사용자 인터페이스를 제공하여 추출 대상 데이터에 대응하는 컬럼을 선택받는 메타정보 시각화부,
상기 선택된 컬럼에 대응하는 추출 대상 데이터를 상기 빅 데이터 관리부로부터 추출하기 위한 쿼리를 생성하는 쿼리 생성부, 그리고
상기 쿼리를 이용하여 상기 빅 데이터 관리부에서 추출된 데이터로 이루어진 파일을 상기 빅 데이터 관리부로부터 제공받고, 상기 파일에 포함된 비식별 대상 데이터에 대한 비식별화를 수행하는 비식별 처리 엔진부
를 포함하고,
테이블 선택, 컬럼 선택 및 선택된 컬럼에 대응하는 데이터의 추출 범위 선택을 포함하는 데이터 추출 조건을 상기 메타 정보를 시각화한 사용자 인터페이스를 통해 사용자로부터 선택받고, 상기 선택된 컬럼의 데이터에 적용할 처리 함수를 지정받는 사용자 인터페이스를 지원하는 빅 데이터 비식별화 처리 시스템.
삭제
제 6 항에서,
상기 파일은 상기 빅 데이터 관리부 내의 미리 정해진 위치에 생성되어 전송되는 빅 데이터 비식별화 처리 시스템.
제 8 항에서,
상기 빅 데이터 관리부는 빅 데이터를 분산 파일 형태로 저장 관리하는 분산 파일 시스템을 포함하는 빅 데이터 비식별화 처리 시스템.
제 9 항에서,
상기 분산 파일 시스템은 하둡 분산 파일 시스템(HDFS)이고,
상기 쿼리는 아파치 하이브 쿼리(Apache-Hive Query)로서,상기 사용자로부터 선택된 빅 데이터 추출 조건에 따라 동적으로 생성되며,
상기 쿼리는 상기 빅 데이터 관리부의 하이브(hive)를 통해 처리되어 상기 빅 데이터 관리부 내의 미리 정해진 위치에 상기 파일을 생성하는 빅 데이터 비식별화 처리 시스템.