KR102099157B1

KR102099157B1 - 빅데이터의 전처리 방법 및 장치

Info

Publication number: KR102099157B1
Application number: KR1020180074133A
Authority: KR
Inventors: 심기창; 김동례; 권정현
Original assignee: (주)이지서티
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2020-04-09
Also published as: KR20200010645A

Abstract

본 발명은 빅데이터의 전처리 방법 및 장치에 관한 것으로서, 상세하게는 빅데이터를 한 번에 작업 가능한 단위로 분할하여 전처리 작업을 수행하고 비식별 처리가 되도록 전처리 작업이 완료된 파일을 결합하는 빅데이터의 전처리 방법 및 장치에 관한 것이다. 이를 위해, 본 발명에 따른 빅데이터 전처리 방법은, 비식별 처리 시스템에서 빅데이터를 전처리하는 방법으로서, 빅데이터 플랫폼으로부터 마스터(Master) 파일 및 디테일(Detail) 파일을 수신하는 단계와, 상기 디테일 파일을 한 번에 작업 가능한 단위로 분할하는 단계와, 상기 분할된 디테일 파일에 대해 상기 마스터 파일을 기준으로 피봇팅(pivoting) 작업을 수행하는 단계와, 상기 피봇팅 작업이 완료된 파일을 결합하는 단계를 포함한다.

Description

빅데이터의 전처리 방법 및 장치{Method and apparatus for pre-processing big data}

본 발명은 빅데이터의 전처리 방법 및 장치에 관한 것으로서, 상세하게는 빅데이터를 한 번에 작업 가능한 단위로 분할하여 전처리 작업을 수행하고 비식별 처리가 되도록 전처리 작업이 완료된 파일을 결합하는 빅데이터의 전처리 방법 및 장치에 관한 것이다.

빅데이터 플랫폼 내의 방대한 데이터에 대한 비식별 처리를 수행하기 전에 데이터 가공 단계 즉, 전처리 단계에서 데이터를 피봇팅(pivoting)하는 작업이 필요하다.

데이터 축적 시 마스터-디테일(Master-Detail) 구조에 따라 개인정보 등의 마스터 정보를 관리하는 테이블이 존재하며, 각 개인정보마다 수치화된 민감정보는 일련의 주기에 입각하여 별도의 테이블에 저장된다.

공개대상 데이터는 다른 데이터와 결합하는 것을 목적으로 하나의 가로열(row)이 식별 가능한 하나의 개인정보 형태로 구성된다. 따라서 보통 하나의 개인정보(key value)를 다수의 가로열(row) 형태로 존재하는 민감정보와 일대일 매칭(join)하기 위해, 민감정보에 대한 집계(SUM), 최대값(MAX), 평균값(AVG) 등의 그룹화를 진행한다.

그런데 기간 분석(일자별 또는 시간대별 추이 분석)을 위해서는 가로열(row) 형태로 존재하는 민감정보에 대해 세로열(column) 형태로 피봇팅하는 작업이 필요하다.

도 1은 고객정보(Master)와 민감속성정보(Detail)을 결합하는 작업을 나타낸 것이다.

도 1을 참조하면, 고객의 시간대별 전기사용량 추이를 분석하기 위해 고객 코드를 키(key)로 하고 일자 및 시간을 서브 키(sub-key)로 하여, 고객 코드에 일자 및 시간을 세로열 형태로 결합하여 민감정보(전기사용량)(SA)을 피봇팅하고 있다.

일반적으로 일련의 정형화된 테이블로 구성된 관계형 데이터베이스는 피봇팅 기능을 쉽게 활용할 수 있으나, 빅데이터 환경에서는 피봇팅을 수작업으로 해야 하며, 데이터량이 방대한 경우 피봇팅을 수작업으로 하는 것은 거의 불가능하다는 문제점이 있다.

또한, 고객정보와 민감속성정보를 결합(join)하여 하나의 파일로 작성하게 되면 고객정보의 준식별자(QI)가 무수히 중복되어 피봇(pivot) 파일의 용량이 기하급수적으로 커지게 됨으로써 전처리 속도가 현저히 감소하고 전처리 오류가 발생하는 문제점이 있다.

한국공개특허 제10-2015-0084611호

본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 본 발명의 목적은 빅데이터 환경에서 방대한 양의 데이터를 전처리하는데 소요되는 시간과 노력을 경감시키는 것이다.

이를 위해, 본 발명에 따른 빅데이터 전처리 방법은, 비식별 처리 시스템에서 빅데이터를 전처리하는 방법으로서, 빅데이터 플랫폼으로부터 마스터(Master) 파일 및 디테일(Detail) 파일을 수신하는 단계와, 상기 디테일 파일을 한 번에 작업 가능한 단위로 분할하는 단계와, 상기 분할된 디테일 파일에 대해 상기 마스터 파일을 기준으로 피봇팅(pivoting) 작업을 수행하는 단계와, 상기 피봇팅 작업이 완료된 파일을 결합하는 단계를 포함한다.

또한, 본 발명에 따른 빅데이터 전처리 장치는, 빅데이터 플랫폼에서 생성된 마스터(Master) 파일 및 디테일(Detail) 파일이 저장되어 있는 메모리에 접근하여 상기 디테일 파일을 한 번에 작업 가능한 단위로 분할하는 파일 분할부와, 상기 분할된 디테일 파일에 대해 상기 마스터 파일을 기준으로 피봇팅(pivoting) 작업을 수행하는 피봇 처리부와, 상기 피봇팅 작업이 완료된 파일을 결합하는 파일 결합부를 포함한다.

또한, 본 발명에 따른 빅데이터의 비식별 처리 시스템은, 빅데이터 플랫폼으로부터 마스터 파일 및 디테일 파일을 수신하는 데이터 인터페이스와, 상기 데이터 인터페이스를 통해 마스터 파일 및 디테일 파일을 저장하는 메모리와, 상기 메모리에 접근하여 디테일 파일을 한 번에 작업 가능한 단위로 분할하고, 분할한 디테일 파일을 마스터 파일 기준으로 피봇팅한 후, 피봇팅한 파일들을 결합하는 전처리 장치와, 상기 결합한 파일에 대하여 개인정보가 식별되지 못하도록 비식별 처리를 수행하는 비식별 처리 장치를 포함한다.

상술한 바와 같이, 최근 빅데이터에 대한 다양한 분석 중 기간 분석을 위해 전처리 단계로서 피봇팅 작업이 요구되는데, 빅데이터 플랫폼에서 제공하는 컴포넌트를 활용하는 관계로 기존 관계형 데이터베이스에서 방대한 데이터를 전처리하기가 어려웠으나, 본 발명은 빅데이터 파일을 분할하고 피봇팅하여 결합하는 과정을 모듈화함으로써 빅데이터에 대한 전처리 과정을 효과적으로 할 수 있으며, 이에 따라 빅데이터 분석 및 공유화 사업을 활성화하는데 기여할 수 있다.

도 1은 고객정보와 민감속성정보를 피봇팅하는 것을 나타낸 도면.
도 2는 본 발명에 따른 빅데이터의 비식별 처리 시스템의 내부 구성도.
도 3은 본 발명에 따른 빅데이터 전처리 장치의 내부 구성도.
도 4는 본 발명에 따른 빅데이터 전처리 방법의 순서도.
도 5는 본 발명에 따른 디테일 파일을 분할하여 전처리하는 과정에서 생성되는 파일의 상태를 나타낸 도면.
도 6은 본 발명에 따른 디테일 파일을 피봇팅할 때 피봇 파일의 구조를 나타낸 도면.
도 7은 본 발명에 따른 헤더를 이용한 피봇 파일의 구조를 나타낸 도면.

이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세하게 설명한다. 본 발명의 구성 및 그에 따른 작용 효과는 이하의 상세한 설명을 통해 명확히 이해될 것이다.

도 2는 본 발명에 따른 빅데이터의 비식별 처리 시스템의 내부 구성을 나타낸 것이다.

도 2를 참조하면, 비식별 처리 시스템(20)은 빅데이터 플랫폼(10)으로부터 비식별 대상 데이터를 수신하여 비식별 처리를 수행한다.

비식별 처리는 빅데이터 플랫폼의 방대한 데이터를 활용하기 위해서 데이터 내의 개인정보를 제거하거나 개인정보가 식별되지 못하도록 처리하는 것을 말한다.

빅데이터 플랫폼(10)은 분산 파일 시스템인 HDFS(Hadoop Distributed File System)과 분산 처리를 위한 오픈 소스 컴포넌트인 맵 리듀스(MAp Reduce)로 구성되어 있다.

또한, 빅데이터 플랫폼(10)은 HDFS에 분산 파일 시스템 형태로 저장된 빅데이터를 요약, 쿼리 및 분석할 수 있는 데이터 웨어하우스 시스템인 하이브(Hive)를 포함한다.

하이브(Hive)는 맵 리듀스 기반 하이브 쿼리(Hive-Query)를 활용하여 HDFS에 분산 파일 시스템 형태로 저장된 빅데이터로부터 비식별 대상 데이터를 추출하여 파일 형태로 생성한다.

비식별 대상 데이터는 마스터(Master) 파일과 디테일(Detail) 파일 형태로 생성된다. 마스터 파일은 고객의 개인정보로 구성되고, 디테일 파일은 각 개인정보에 대해 수치화된 민감정보로 구성된다.

비식별 처리 시스템(20)은 데이터 인터페이스(21), 전처리 장치(23), 메모리(25), 비식별 처리 장치(27) 등으로 구성된다.

데이터 인터페이스(21)는 하이브 쿼리(Hive-Query)를 통해 빅데이터 플랫폼(10)으로부터 비식별 대상 데이터인 마스터 파일 및 디테일 파일을 수신한다. 데이터 인터페이스(21)를 통해 수신된 파일은 메모리(25)에 저장된다.

전처리 장치(23)는 메모리(25)에 저장된 디테일 파일을 한 번에 작업 가능한 단위로 분할하고 분할한 디테일 파일을 마스터 파일 기준으로 피봇팅(pivoting)하여 피봇 파일을 생성한다. 전처리 장치(23)는 비식별 처리 시스템(20)에서 하나의 하드웨어적인 장치로 표현되어 있으나, 소프트웨어적인 전처리 엔진 모듈로 구성될 수 있다.

전처리 장치(23)는 분할된 디테일 파일마다 생성한 피봇 파일을 결합하여 하나의 파일을 생성하고, 하나의 파일을 비식별 처리 장치(27)에 제공한다.

메모리(25)는 인-메모리(In-Memory) 컴퓨팅 기반 비식별 처리 시스템(20)에 존재하는 저장 공간이다. 메모리(25)는 마스터 파일 및 디테일 파일을 저장하고, 전처리 장치(23)에 의해 분할된 디테일 파일마다 생성한 피봇 파일을 저장한다.

비식별 처리 장치(27)는 전처리된 파일에 대해 비식별 처리를 수행하는 부분이다. 비식별 처리 장치(27)는 전처리장치(25)에서 각 분할된 파일에 대한 피봇팅 작업 및 결합이 완료되면, 그 결합 완료된 파일에 대해 개인정보가 식별되지 않도록 하는 비식별 처리를 수행한다.

비식별 처리 장치(27)는 비식별 처리 시스템(20)에서 하나의 하드웨어적인 장치로 표현되어 있으나, 소프트웨어적인 비식별 처리 엔진 모듈로 구성될 수 있다.

도 3은 본 발명에 따른 전처리 장치의 내부 구성을 나타낸 것이다.

도 3을 참조하면, 전처리 장치(23)는 파일 분할부(231), 피봇 처리부(233), 파일 결합부(235), 파일 검증부(237) 등을 포함한다.

파일 분할부(231)는 전처리 장치(25)에서 한 번에 작업 가능한 단위로 디테일 파일을 분할한다. 즉, 파일 분할부(231)는 메모리(25)에 접근하여 전처리 장치(231)의 내부에서 한 번에 전처리(pivoting) 가능한 단위로 디테일 파일을 분할한 후 분할된 디테일 파일을 메모리(25)에 저장한다.

피봇 처리부(233)는 파일 분할부(231)에 의해 분할된 디테일 파일에 대해 마스터 파일을 기준으로 피봇팅 작업을 수행한다. 피봇 처리부(233)는 피봇핑이 완료된 파일을 메모리(25)에 저장한다.

파일 결합부(235)는 피봇팅 작업이 완료된 파일을 결합한다. 이때, 피봇팅 작업이 완료된 파일을 모두 메모리(25)로부터 불러와 처리하게 되면 빅데이터의 특성 상 성능에 문제가 발생할 수 있다.

따라서 파일 결합부(235)는 결합대상 기준 파일의 마지막 부분(last row)과 결합대상 후속파일의 첫 번째 부분(first row)만을 읽어들여 결합하는 방식으로 파일 결합을 수행할 수 있다.

파일 결합부(235)는 결합 완료된 파일을 비식별 처리 장치(27)에 제공한다. 이때, 결합대상 파일 간의 마지막 부분과 첫 번째 부분을 활용해 결합하는 방식의 경우, 파일 결합부(235)는 결합 파일이 아닌 결합대상 파일 간의 결합 정보를 비식별 처리 장치(27)에 제공할 수 있다.

파일 검증부(237)는 파일 결합이 완료되면 분할된 파일의 사이즈와 결합된 파일의 사이즈를 비교하는 방식으로 파일의 정합성 검증 작업을 수행한다.

도 4는 본 발명에 따른 전처리 방법의 순서도를 나타낸 것이다.

도 4를 참조하면, 먼저 데이터 인터페이스(21)는 빅데이터 플랫폼(10)로부터 생성된 마스터 파일과 디테일 파일을 수신하여 메모리(25)에 저장한다(S10).

다음, 전처리 장치(23)는 메모리(25)에 접근하여 디테일 파일을 한 번에 작업 가능한 단위로 분할한다(S20). 전처리 장치(23)는 자신의 가용 메모리에 근거하여 한 번에 피봇팅 작업이 가능한 단위로 디테일 파일(1)을 분할한다.

즉, 도 5에 도시된 바와 같이, 전처리 장치(23)는 디테일 파일(1)을 분할하여, 분할된 디테일 파일(1-1, 1-2, 1-3)을 생성한다. 이때, 디테일 파일의 분할을 위해 전처리 장치(23)는 가용 메모리에 근거해 디테일 파일의 분할 기준이 되는 가로열(row)을 산정하고, 산정한 가로열 수에 따라 디테일 파일을 분할하게 된다.

디테일 파일에 대한 분할이 완료되면, 전처리 장치(23)는 분할된 디테일 파일(1-1, 1-2, 1-3)에 대해 마스터 파일(2)을 기준으로 피봇팅 작업을 수행한다(S30). 피봇팅 작업을 통해 각 분할된 디테일 파일마다 피봇 파일(3-1, 3-2, 3-3)이 생성된다.

피봇팅 작업은 디테일 파일(1)과 마스터 파일(2)에 공통으로 포함되어 있는 키 값(key value)인 고객코드를 기준으로 수행된다.

도 6을 참조하면, 디테일 파일(1)인 민감속성정보 테이블은 키(key)인 고객코드(key), 서브 키(sub-key)인 일자 및 시간, 민감정보(SA)인 전기사용량으로 구성되어 있다.

도 6의 (a)는 피봇팅 전의 디테일 파일(1)로서 가로열(row) 형태로 존재하나, 피봇팅을 통해 도 6의 (b)와 같이 세로열(column) 형태로 변환된다.

그런데 디테일 파일(1)의 구조 상 단순 피봇팅 알고리즘으로는 데이터 누락으로 인해 피봇팅 이후 파일의 구조적인 정합성이 결여될 가능성이 크기 때문에, 본 발명의 실시예에서는 먼저 헤더를 구성한 후 피봇팅 작업을 수행한다. 여기서 단순 피봇팅 알고리즘은 단순 루프를 통한 피봇팅을 말한다.

도 7은 본 발명에 따른 헤더를 이용한 피봇팅을 설명하기 위한 것이다.

우선, 도 6의 (a)와 달리, 도 7의 (a)에 도시된 디테일 파일에 서브 키값 중 시간 03:00이 빠져 있음을 알 수 있다. 이것은 디테일 파일의 구조적 정합성의 결여를 나타낸 것이다. 즉, 디테일 파일의 서브 키가 가로열(row) 형태로 존재하는 데이터인 관계로 가로열의 일부가 빠질 수 있다.

이렇게 디테일 파일의 구조에 문제가 있는 상태 즉, 서브 키가 누락된 상태에서 단순 피봇팅 알고리즘이 적용되면 피봇팅 시 누락된 서브 키 부분에 다음 서브 키값이 채워지면서 모든 서브 키 값이 좌측으로 밀리게 된다.

따라서, 피봇팅 작업 전에 먼저 디테일 파일의 서브 키인 일자 및 시간을 조합하여 헤더를 구성하고, 해당 헤더에 맞게 피봇팅을 수행한다.

도 7의 (b)에 도시된 바와 같이, 피봇 파일을 보면, 일자 및 시간의 조합으로 구성된 헤더(201801010000, 201801010100, 201801010200... )가 자동 생성되어 있음을 알 수 있다.

이와 같이, 먼저 헤더를 구성한 후 피봇팅을 수행함으로써, 서브 키값이 누락된 3번째 부분인 헤더(201801010300)에 N/A(Not Available)가 표시되어 다음 서브 키값이 누락된 부분부터 채워져 전체 서브 키값이 밀리는 현상을 방지할 수 있다.

이와 같이, 각 분할된 디테일 파일에 대한 피봇팅이 완료되면, 전처리 장치(23)는 피봇팅한 파일들(3)을 결합하여 하나의 파일(4)로 생성한다(S40).

파일 결합의 방식은 결합대상 기준 파일의 마지막 가로열(row)과 결합대상 후속 파일의 첫 번째 가로열(row)의 정보를 활용하여 결합하는 방식이다.

이렇게 파일 결합을 완료한 후, 전처리 장치(23)는 분할된 피봇 파일(3-1, 3-2, 3-3)의 사이즈와 결합된 파일(4)의 사이즈를 비교하여 파일의 정합성 검증작업을 수행한다(S50). 즉, 결합대상 기준 파일의 사이즈와 결합대상 후속파일의 사이즈가 합산된 값과 본 발명에 따른 파일 결합 방식으로 결합된 파일의 사이즈의 값을 비교하여 일치하면 파일 결합에 오류가 없는 것으로 판단하게 된다.

결합된 파일에 대한 검증이 완료되면, 비식별 처리 장치(27)는 결합된 파일에 대해 비식별 처리를 수행하게 된다.

이상의 설명은 본 발명을 예시적으로 설명한 것에 불과하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술적 사상에서 벗어나지 않는 범위에서 다양한 변형이 가능할 것이다.

따라서 본 발명의 명세서에 개시된 실시 예들은 본 발명을 한정하는 것이 아니다. 본 발명의 범위는 아래의 청구범위에 의해 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술도 본 발명의 범위에 포함되는 것으로 해석해야 할 것이다.

1: 디테일 파일 2: 마스터 파일
3: 피봇 파일 4: 결합 파일
10: 빅데이터 플랫폼 20: 빅데이터의 비식별 처리 시스템
21: 데이터인터페이스 23: 전처리 장치
25: 메모리 27: 비식별 처리 장치
231: 파일 분할부 233: 피봇 처리부
235: 파일 결합부 237: 파일 검증부

Claims

데이터 내의 개인정보를 삭제하거나 개인정보가 식별되지 못하도록 처리하는 비식별 처리 시스템에서 빅데이터를 전처리하는 방법에 있어서,
빅데이터 플랫폼으로부터 마스터(Master) 파일 및 디테일(Detail) 파일을 수신하는 단계와,
상기 디테일 파일을 한 번에 작업 가능한 단위로 분할하는 단계와,
상기 분할된 디테일 파일의 서브 키인 일자 및 시간의 조합으로 헤더를 자동 생성한 후 상기 마스터 파일의 키 값을 기준으로 상기 자동 생성한 헤더에 따라 피봇팅(pivoting) 작업을 수행하는 단계와,
상기 피봇팅 작업이 완료된 파일을 결합하는 단계를 포함하는 방법.
삭제
제1항에서,
상기 피봇팅 작업이 완료된 파일을 결합하는 단계는 결합대상 기준 파일의 마지막 부분과 결합대상 후속 파일의 첫 번째 부분을 독출하여 결합하는 방식으로 상기 피봇팅 작업이 완료된 파일을 결합하는 것을 특징으로 하는 방법.
제3항에서,
상기 결합대상 기준 파일의 사이즈와 후속파일의 사이즈가 합산된 값과 상기 방식으로 결합된 파일의 사이즈의 값을 비교하여 일치하면 파일 결합에 오류가 없는 것으로 판단하는 파일 결합에 대한 검증을 수행하는 단계를 더 포함하는 것을 특징으로 하는 방법.
빅데이터 플랫폼에서 생성된 마스터(Master) 파일 및 디테일(Detail) 파일이 저장되어 있는 메모리에 접근하여 상기 디테일 파일을 한 번에 작업 가능한 단위로 분할하는 파일 분할부와,
상기 분할된 디테일 파일의 서브 키인 일자 및 시간의 조합으로 헤더를 자동 생성한 후 상기 마스터 파일의 키 값을 기준으로 상기 자동 생성한 헤더에 따라 피봇팅(pivoting) 작업을 수행하는 피봇 처리부와,
상기 피봇팅 작업이 완료된 파일을 결합하는 파일 결합부를 포함하는 빅데이터 전처리 장치.
삭제
제5항에서,
상기 파일 결합부는 결합대상 기준 파일의 마지막 부분과 결합대상 후속 파일의 첫 번째 부분을 독출하여 결합하는 방식으로 상기 피봇팅 작업이 완료된 파일을 결합하는 것을 특징으로 하는 빅데이터 전처리 장치.
제7항에서,
상기 결합대상 기준 파일의 사이즈와 후속파일의 사이즈가 합산된 값과 상기 방식으로 결합된 파일의 사이즈의 값을 비교하여 일치하면 파일 결합에 오류가 없는 것으로 판단하는 파일 결합에 대한 검증을 수행하는 파일 검증부를 더 포함하는 것을 특징으로 하는 빅데이터 전처리 장치.
제7항에서,
상기 파일 결합부는 결합대상 기준 파일의 마지막 부분과 결합대상 후속 파일의 첫 번째 부분을 독출 및 결합하여 그 결합 정보를 비식별 처리 장치로 전송하는 것을 특징으로 하는 빅데이터 전처리 장치.
빅데이터 플랫폼으로부터 마스터 파일 및 디테일 파일을 수신하는 데이터 인터페이스와,
상기 데이터 인터페이스를 통해 마스터 파일 및 디테일 파일을 저장하는 메모리와,
상기 메모리에 접근하여 디테일 파일을 한 번에 작업 가능한 단위로 분할하고, 상기 분할된 디테일 파일의 서브 키인 일자 및 시간의 조합으로 헤더를 자동 생성하여 상기 마스터 파일의 키 값을 기준으로 상기 자동 생성한 헤더에 따라 피봇팅한 후, 피봇팅한 파일들을 결합하는 전처리 장치와,
상기 결합한 파일에 대하여 개인정보가 식별되지 못하도록 비식별 처리를 수행하는 비식별 처리 장치를 포함하는 빅데이터의 비식별 처리 시스템.