KR102099157B1 - 빅데이터의 전처리 방법 및 장치 - Google Patents

빅데이터의 전처리 방법 및 장치 Download PDF

Info

Publication number
KR102099157B1
KR102099157B1 KR1020180074133A KR20180074133A KR102099157B1 KR 102099157 B1 KR102099157 B1 KR 102099157B1 KR 1020180074133 A KR1020180074133 A KR 1020180074133A KR 20180074133 A KR20180074133 A KR 20180074133A KR 102099157 B1 KR102099157 B1 KR 102099157B1
Authority
KR
South Korea
Prior art keywords
file
detail
big data
combined
files
Prior art date
Application number
KR1020180074133A
Other languages
English (en)
Other versions
KR20200010645A (ko
Inventor
심기창
김동례
권정현
Original Assignee
(주)이지서티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)이지서티 filed Critical (주)이지서티
Priority to KR1020180074133A priority Critical patent/KR102099157B1/ko
Publication of KR20200010645A publication Critical patent/KR20200010645A/ko
Application granted granted Critical
Publication of KR102099157B1 publication Critical patent/KR102099157B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 빅데이터의 전처리 방법 및 장치에 관한 것으로서, 상세하게는 빅데이터를 한 번에 작업 가능한 단위로 분할하여 전처리 작업을 수행하고 비식별 처리가 되도록 전처리 작업이 완료된 파일을 결합하는 빅데이터의 전처리 방법 및 장치에 관한 것이다. 이를 위해, 본 발명에 따른 빅데이터 전처리 방법은, 비식별 처리 시스템에서 빅데이터를 전처리하는 방법으로서, 빅데이터 플랫폼으로부터 마스터(Master) 파일 및 디테일(Detail) 파일을 수신하는 단계와, 상기 디테일 파일을 한 번에 작업 가능한 단위로 분할하는 단계와, 상기 분할된 디테일 파일에 대해 상기 마스터 파일을 기준으로 피봇팅(pivoting) 작업을 수행하는 단계와, 상기 피봇팅 작업이 완료된 파일을 결합하는 단계를 포함한다.

Description

빅데이터의 전처리 방법 및 장치{Method and apparatus for pre-processing big data}
본 발명은 빅데이터의 전처리 방법 및 장치에 관한 것으로서, 상세하게는 빅데이터를 한 번에 작업 가능한 단위로 분할하여 전처리 작업을 수행하고 비식별 처리가 되도록 전처리 작업이 완료된 파일을 결합하는 빅데이터의 전처리 방법 및 장치에 관한 것이다.
빅데이터 플랫폼 내의 방대한 데이터에 대한 비식별 처리를 수행하기 전에 데이터 가공 단계 즉, 전처리 단계에서 데이터를 피봇팅(pivoting)하는 작업이 필요하다.
데이터 축적 시 마스터-디테일(Master-Detail) 구조에 따라 개인정보 등의 마스터 정보를 관리하는 테이블이 존재하며, 각 개인정보마다 수치화된 민감정보는 일련의 주기에 입각하여 별도의 테이블에 저장된다.
공개대상 데이터는 다른 데이터와 결합하는 것을 목적으로 하나의 가로열(row)이 식별 가능한 하나의 개인정보 형태로 구성된다. 따라서 보통 하나의 개인정보(key value)를 다수의 가로열(row) 형태로 존재하는 민감정보와 일대일 매칭(join)하기 위해, 민감정보에 대한 집계(SUM), 최대값(MAX), 평균값(AVG) 등의 그룹화를 진행한다.
그런데 기간 분석(일자별 또는 시간대별 추이 분석)을 위해서는 가로열(row) 형태로 존재하는 민감정보에 대해 세로열(column) 형태로 피봇팅하는 작업이 필요하다.
도 1은 고객정보(Master)와 민감속성정보(Detail)을 결합하는 작업을 나타낸 것이다.
도 1을 참조하면, 고객의 시간대별 전기사용량 추이를 분석하기 위해 고객 코드를 키(key)로 하고 일자 및 시간을 서브 키(sub-key)로 하여, 고객 코드에 일자 및 시간을 세로열 형태로 결합하여 민감정보(전기사용량)(SA)을 피봇팅하고 있다.
일반적으로 일련의 정형화된 테이블로 구성된 관계형 데이터베이스는 피봇팅 기능을 쉽게 활용할 수 있으나, 빅데이터 환경에서는 피봇팅을 수작업으로 해야 하며, 데이터량이 방대한 경우 피봇팅을 수작업으로 하는 것은 거의 불가능하다는 문제점이 있다.
또한, 고객정보와 민감속성정보를 결합(join)하여 하나의 파일로 작성하게 되면 고객정보의 준식별자(QI)가 무수히 중복되어 피봇(pivot) 파일의 용량이 기하급수적으로 커지게 됨으로써 전처리 속도가 현저히 감소하고 전처리 오류가 발생하는 문제점이 있다.
한국공개특허 제10-2015-0084611호
본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 본 발명의 목적은 빅데이터 환경에서 방대한 양의 데이터를 전처리하는데 소요되는 시간과 노력을 경감시키는 것이다.
이를 위해, 본 발명에 따른 빅데이터 전처리 방법은, 비식별 처리 시스템에서 빅데이터를 전처리하는 방법으로서, 빅데이터 플랫폼으로부터 마스터(Master) 파일 및 디테일(Detail) 파일을 수신하는 단계와, 상기 디테일 파일을 한 번에 작업 가능한 단위로 분할하는 단계와, 상기 분할된 디테일 파일에 대해 상기 마스터 파일을 기준으로 피봇팅(pivoting) 작업을 수행하는 단계와, 상기 피봇팅 작업이 완료된 파일을 결합하는 단계를 포함한다.
또한, 본 발명에 따른 빅데이터 전처리 장치는, 빅데이터 플랫폼에서 생성된 마스터(Master) 파일 및 디테일(Detail) 파일이 저장되어 있는 메모리에 접근하여 상기 디테일 파일을 한 번에 작업 가능한 단위로 분할하는 파일 분할부와, 상기 분할된 디테일 파일에 대해 상기 마스터 파일을 기준으로 피봇팅(pivoting) 작업을 수행하는 피봇 처리부와, 상기 피봇팅 작업이 완료된 파일을 결합하는 파일 결합부를 포함한다.
또한, 본 발명에 따른 빅데이터의 비식별 처리 시스템은, 빅데이터 플랫폼으로부터 마스터 파일 및 디테일 파일을 수신하는 데이터 인터페이스와, 상기 데이터 인터페이스를 통해 마스터 파일 및 디테일 파일을 저장하는 메모리와, 상기 메모리에 접근하여 디테일 파일을 한 번에 작업 가능한 단위로 분할하고, 분할한 디테일 파일을 마스터 파일 기준으로 피봇팅한 후, 피봇팅한 파일들을 결합하는 전처리 장치와, 상기 결합한 파일에 대하여 개인정보가 식별되지 못하도록 비식별 처리를 수행하는 비식별 처리 장치를 포함한다.
상술한 바와 같이, 최근 빅데이터에 대한 다양한 분석 중 기간 분석을 위해 전처리 단계로서 피봇팅 작업이 요구되는데, 빅데이터 플랫폼에서 제공하는 컴포넌트를 활용하는 관계로 기존 관계형 데이터베이스에서 방대한 데이터를 전처리하기가 어려웠으나, 본 발명은 빅데이터 파일을 분할하고 피봇팅하여 결합하는 과정을 모듈화함으로써 빅데이터에 대한 전처리 과정을 효과적으로 할 수 있으며, 이에 따라 빅데이터 분석 및 공유화 사업을 활성화하는데 기여할 수 있다.
도 1은 고객정보와 민감속성정보를 피봇팅하는 것을 나타낸 도면.
도 2는 본 발명에 따른 빅데이터의 비식별 처리 시스템의 내부 구성도.
도 3은 본 발명에 따른 빅데이터 전처리 장치의 내부 구성도.
도 4는 본 발명에 따른 빅데이터 전처리 방법의 순서도.
도 5는 본 발명에 따른 디테일 파일을 분할하여 전처리하는 과정에서 생성되는 파일의 상태를 나타낸 도면.
도 6은 본 발명에 따른 디테일 파일을 피봇팅할 때 피봇 파일의 구조를 나타낸 도면.
도 7은 본 발명에 따른 헤더를 이용한 피봇 파일의 구조를 나타낸 도면.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세하게 설명한다. 본 발명의 구성 및 그에 따른 작용 효과는 이하의 상세한 설명을 통해 명확히 이해될 것이다.
도 2는 본 발명에 따른 빅데이터의 비식별 처리 시스템의 내부 구성을 나타낸 것이다.
도 2를 참조하면, 비식별 처리 시스템(20)은 빅데이터 플랫폼(10)으로부터 비식별 대상 데이터를 수신하여 비식별 처리를 수행한다.
비식별 처리는 빅데이터 플랫폼의 방대한 데이터를 활용하기 위해서 데이터 내의 개인정보를 제거하거나 개인정보가 식별되지 못하도록 처리하는 것을 말한다.
빅데이터 플랫폼(10)은 분산 파일 시스템인 HDFS(Hadoop Distributed File System)과 분산 처리를 위한 오픈 소스 컴포넌트인 맵 리듀스(MAp Reduce)로 구성되어 있다.
또한, 빅데이터 플랫폼(10)은 HDFS에 분산 파일 시스템 형태로 저장된 빅데이터를 요약, 쿼리 및 분석할 수 있는 데이터 웨어하우스 시스템인 하이브(Hive)를 포함한다.
하이브(Hive)는 맵 리듀스 기반 하이브 쿼리(Hive-Query)를 활용하여 HDFS에 분산 파일 시스템 형태로 저장된 빅데이터로부터 비식별 대상 데이터를 추출하여 파일 형태로 생성한다.
비식별 대상 데이터는 마스터(Master) 파일과 디테일(Detail) 파일 형태로 생성된다. 마스터 파일은 고객의 개인정보로 구성되고, 디테일 파일은 각 개인정보에 대해 수치화된 민감정보로 구성된다.
비식별 처리 시스템(20)은 데이터 인터페이스(21), 전처리 장치(23), 메모리(25), 비식별 처리 장치(27) 등으로 구성된다.
데이터 인터페이스(21)는 하이브 쿼리(Hive-Query)를 통해 빅데이터 플랫폼(10)으로부터 비식별 대상 데이터인 마스터 파일 및 디테일 파일을 수신한다. 데이터 인터페이스(21)를 통해 수신된 파일은 메모리(25)에 저장된다.
전처리 장치(23)는 메모리(25)에 저장된 디테일 파일을 한 번에 작업 가능한 단위로 분할하고 분할한 디테일 파일을 마스터 파일 기준으로 피봇팅(pivoting)하여 피봇 파일을 생성한다. 전처리 장치(23)는 비식별 처리 시스템(20)에서 하나의 하드웨어적인 장치로 표현되어 있으나, 소프트웨어적인 전처리 엔진 모듈로 구성될 수 있다.
전처리 장치(23)는 분할된 디테일 파일마다 생성한 피봇 파일을 결합하여 하나의 파일을 생성하고, 하나의 파일을 비식별 처리 장치(27)에 제공한다.
메모리(25)는 인-메모리(In-Memory) 컴퓨팅 기반 비식별 처리 시스템(20)에 존재하는 저장 공간이다. 메모리(25)는 마스터 파일 및 디테일 파일을 저장하고, 전처리 장치(23)에 의해 분할된 디테일 파일마다 생성한 피봇 파일을 저장한다.
비식별 처리 장치(27)는 전처리된 파일에 대해 비식별 처리를 수행하는 부분이다. 비식별 처리 장치(27)는 전처리장치(25)에서 각 분할된 파일에 대한 피봇팅 작업 및 결합이 완료되면, 그 결합 완료된 파일에 대해 개인정보가 식별되지 않도록 하는 비식별 처리를 수행한다.
비식별 처리 장치(27)는 비식별 처리 시스템(20)에서 하나의 하드웨어적인 장치로 표현되어 있으나, 소프트웨어적인 비식별 처리 엔진 모듈로 구성될 수 있다.
도 3은 본 발명에 따른 전처리 장치의 내부 구성을 나타낸 것이다.
도 3을 참조하면, 전처리 장치(23)는 파일 분할부(231), 피봇 처리부(233), 파일 결합부(235), 파일 검증부(237) 등을 포함한다.
파일 분할부(231)는 전처리 장치(25)에서 한 번에 작업 가능한 단위로 디테일 파일을 분할한다. 즉, 파일 분할부(231)는 메모리(25)에 접근하여 전처리 장치(231)의 내부에서 한 번에 전처리(pivoting) 가능한 단위로 디테일 파일을 분할한 후 분할된 디테일 파일을 메모리(25)에 저장한다.
피봇 처리부(233)는 파일 분할부(231)에 의해 분할된 디테일 파일에 대해 마스터 파일을 기준으로 피봇팅 작업을 수행한다. 피봇 처리부(233)는 피봇핑이 완료된 파일을 메모리(25)에 저장한다.
파일 결합부(235)는 피봇팅 작업이 완료된 파일을 결합한다. 이때, 피봇팅 작업이 완료된 파일을 모두 메모리(25)로부터 불러와 처리하게 되면 빅데이터의 특성 상 성능에 문제가 발생할 수 있다.
따라서 파일 결합부(235)는 결합대상 기준 파일의 마지막 부분(last row)과 결합대상 후속파일의 첫 번째 부분(first row)만을 읽어들여 결합하는 방식으로 파일 결합을 수행할 수 있다.
파일 결합부(235)는 결합 완료된 파일을 비식별 처리 장치(27)에 제공한다. 이때, 결합대상 파일 간의 마지막 부분과 첫 번째 부분을 활용해 결합하는 방식의 경우, 파일 결합부(235)는 결합 파일이 아닌 결합대상 파일 간의 결합 정보를 비식별 처리 장치(27)에 제공할 수 있다.
파일 검증부(237)는 파일 결합이 완료되면 분할된 파일의 사이즈와 결합된 파일의 사이즈를 비교하는 방식으로 파일의 정합성 검증 작업을 수행한다.
도 4는 본 발명에 따른 전처리 방법의 순서도를 나타낸 것이다.
도 4를 참조하면, 먼저 데이터 인터페이스(21)는 빅데이터 플랫폼(10)로부터 생성된 마스터 파일과 디테일 파일을 수신하여 메모리(25)에 저장한다(S10).
다음, 전처리 장치(23)는 메모리(25)에 접근하여 디테일 파일을 한 번에 작업 가능한 단위로 분할한다(S20). 전처리 장치(23)는 자신의 가용 메모리에 근거하여 한 번에 피봇팅 작업이 가능한 단위로 디테일 파일(1)을 분할한다.
즉, 도 5에 도시된 바와 같이, 전처리 장치(23)는 디테일 파일(1)을 분할하여, 분할된 디테일 파일(1-1, 1-2, 1-3)을 생성한다. 이때, 디테일 파일의 분할을 위해 전처리 장치(23)는 가용 메모리에 근거해 디테일 파일의 분할 기준이 되는 가로열(row)을 산정하고, 산정한 가로열 수에 따라 디테일 파일을 분할하게 된다.
디테일 파일에 대한 분할이 완료되면, 전처리 장치(23)는 분할된 디테일 파일(1-1, 1-2, 1-3)에 대해 마스터 파일(2)을 기준으로 피봇팅 작업을 수행한다(S30). 피봇팅 작업을 통해 각 분할된 디테일 파일마다 피봇 파일(3-1, 3-2, 3-3)이 생성된다.
피봇팅 작업은 디테일 파일(1)과 마스터 파일(2)에 공통으로 포함되어 있는 키 값(key value)인 고객코드를 기준으로 수행된다.
도 6을 참조하면, 디테일 파일(1)인 민감속성정보 테이블은 키(key)인 고객코드(key), 서브 키(sub-key)인 일자 및 시간, 민감정보(SA)인 전기사용량으로 구성되어 있다.
도 6의 (a)는 피봇팅 전의 디테일 파일(1)로서 가로열(row) 형태로 존재하나, 피봇팅을 통해 도 6의 (b)와 같이 세로열(column) 형태로 변환된다.
그런데 디테일 파일(1)의 구조 상 단순 피봇팅 알고리즘으로는 데이터 누락으로 인해 피봇팅 이후 파일의 구조적인 정합성이 결여될 가능성이 크기 때문에, 본 발명의 실시예에서는 먼저 헤더를 구성한 후 피봇팅 작업을 수행한다. 여기서 단순 피봇팅 알고리즘은 단순 루프를 통한 피봇팅을 말한다.
도 7은 본 발명에 따른 헤더를 이용한 피봇팅을 설명하기 위한 것이다.
우선, 도 6의 (a)와 달리, 도 7의 (a)에 도시된 디테일 파일에 서브 키값 중 시간 03:00이 빠져 있음을 알 수 있다. 이것은 디테일 파일의 구조적 정합성의 결여를 나타낸 것이다. 즉, 디테일 파일의 서브 키가 가로열(row) 형태로 존재하는 데이터인 관계로 가로열의 일부가 빠질 수 있다.
이렇게 디테일 파일의 구조에 문제가 있는 상태 즉, 서브 키가 누락된 상태에서 단순 피봇팅 알고리즘이 적용되면 피봇팅 시 누락된 서브 키 부분에 다음 서브 키값이 채워지면서 모든 서브 키 값이 좌측으로 밀리게 된다.
따라서, 피봇팅 작업 전에 먼저 디테일 파일의 서브 키인 일자 및 시간을 조합하여 헤더를 구성하고, 해당 헤더에 맞게 피봇팅을 수행한다.
도 7의 (b)에 도시된 바와 같이, 피봇 파일을 보면, 일자 및 시간의 조합으로 구성된 헤더(201801010000, 201801010100, 201801010200... )가 자동 생성되어 있음을 알 수 있다.
이와 같이, 먼저 헤더를 구성한 후 피봇팅을 수행함으로써, 서브 키값이 누락된 3번째 부분인 헤더(201801010300)에 N/A(Not Available)가 표시되어 다음 서브 키값이 누락된 부분부터 채워져 전체 서브 키값이 밀리는 현상을 방지할 수 있다.
이와 같이, 각 분할된 디테일 파일에 대한 피봇팅이 완료되면, 전처리 장치(23)는 피봇팅한 파일들(3)을 결합하여 하나의 파일(4)로 생성한다(S40).
파일 결합의 방식은 결합대상 기준 파일의 마지막 가로열(row)과 결합대상 후속 파일의 첫 번째 가로열(row)의 정보를 활용하여 결합하는 방식이다.
이렇게 파일 결합을 완료한 후, 전처리 장치(23)는 분할된 피봇 파일(3-1, 3-2, 3-3)의 사이즈와 결합된 파일(4)의 사이즈를 비교하여 파일의 정합성 검증작업을 수행한다(S50). 즉, 결합대상 기준 파일의 사이즈와 결합대상 후속파일의 사이즈가 합산된 값과 본 발명에 따른 파일 결합 방식으로 결합된 파일의 사이즈의 값을 비교하여 일치하면 파일 결합에 오류가 없는 것으로 판단하게 된다.
결합된 파일에 대한 검증이 완료되면, 비식별 처리 장치(27)는 결합된 파일에 대해 비식별 처리를 수행하게 된다.
이상의 설명은 본 발명을 예시적으로 설명한 것에 불과하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술적 사상에서 벗어나지 않는 범위에서 다양한 변형이 가능할 것이다.
따라서 본 발명의 명세서에 개시된 실시 예들은 본 발명을 한정하는 것이 아니다. 본 발명의 범위는 아래의 청구범위에 의해 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술도 본 발명의 범위에 포함되는 것으로 해석해야 할 것이다.
1: 디테일 파일 2: 마스터 파일
3: 피봇 파일 4: 결합 파일
10: 빅데이터 플랫폼 20: 빅데이터의 비식별 처리 시스템
21: 데이터인터페이스 23: 전처리 장치
25: 메모리 27: 비식별 처리 장치
231: 파일 분할부 233: 피봇 처리부
235: 파일 결합부 237: 파일 검증부

Claims (10)

  1. 데이터 내의 개인정보를 삭제하거나 개인정보가 식별되지 못하도록 처리하는 비식별 처리 시스템에서 빅데이터를 전처리하는 방법에 있어서,
    빅데이터 플랫폼으로부터 마스터(Master) 파일 및 디테일(Detail) 파일을 수신하는 단계와,
    상기 디테일 파일을 한 번에 작업 가능한 단위로 분할하는 단계와,
    상기 분할된 디테일 파일의 서브 키인 일자 및 시간의 조합으로 헤더를 자동 생성한 후 상기 마스터 파일의 키 값을 기준으로 상기 자동 생성한 헤더에 따라 피봇팅(pivoting) 작업을 수행하는 단계와,
    상기 피봇팅 작업이 완료된 파일을 결합하는 단계를 포함하는 방법.
  2. 삭제
  3. 제1항에서,
    상기 피봇팅 작업이 완료된 파일을 결합하는 단계는 결합대상 기준 파일의 마지막 부분과 결합대상 후속 파일의 첫 번째 부분을 독출하여 결합하는 방식으로 상기 피봇팅 작업이 완료된 파일을 결합하는 것을 특징으로 하는 방법.
  4. 제3항에서,
    상기 결합대상 기준 파일의 사이즈와 후속파일의 사이즈가 합산된 값과 상기 방식으로 결합된 파일의 사이즈의 값을 비교하여 일치하면 파일 결합에 오류가 없는 것으로 판단하는 파일 결합에 대한 검증을 수행하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  5. 빅데이터 플랫폼에서 생성된 마스터(Master) 파일 및 디테일(Detail) 파일이 저장되어 있는 메모리에 접근하여 상기 디테일 파일을 한 번에 작업 가능한 단위로 분할하는 파일 분할부와,
    상기 분할된 디테일 파일의 서브 키인 일자 및 시간의 조합으로 헤더를 자동 생성한 후 상기 마스터 파일의 키 값을 기준으로 상기 자동 생성한 헤더에 따라 피봇팅(pivoting) 작업을 수행하는 피봇 처리부와,
    상기 피봇팅 작업이 완료된 파일을 결합하는 파일 결합부를 포함하는 빅데이터 전처리 장치.
  6. 삭제
  7. 제5항에서,
    상기 파일 결합부는 결합대상 기준 파일의 마지막 부분과 결합대상 후속 파일의 첫 번째 부분을 독출하여 결합하는 방식으로 상기 피봇팅 작업이 완료된 파일을 결합하는 것을 특징으로 하는 빅데이터 전처리 장치.
  8. 제7항에서,
    상기 결합대상 기준 파일의 사이즈와 후속파일의 사이즈가 합산된 값과 상기 방식으로 결합된 파일의 사이즈의 값을 비교하여 일치하면 파일 결합에 오류가 없는 것으로 판단하는 파일 결합에 대한 검증을 수행하는 파일 검증부를 더 포함하는 것을 특징으로 하는 빅데이터 전처리 장치.
  9. 제7항에서,
    상기 파일 결합부는 결합대상 기준 파일의 마지막 부분과 결합대상 후속 파일의 첫 번째 부분을 독출 및 결합하여 그 결합 정보를 비식별 처리 장치로 전송하는 것을 특징으로 하는 빅데이터 전처리 장치.
  10. 빅데이터 플랫폼으로부터 마스터 파일 및 디테일 파일을 수신하는 데이터 인터페이스와,
    상기 데이터 인터페이스를 통해 마스터 파일 및 디테일 파일을 저장하는 메모리와,
    상기 메모리에 접근하여 디테일 파일을 한 번에 작업 가능한 단위로 분할하고, 상기 분할된 디테일 파일의 서브 키인 일자 및 시간의 조합으로 헤더를 자동 생성하여 상기 마스터 파일의 키 값을 기준으로 상기 자동 생성한 헤더에 따라 피봇팅한 후, 피봇팅한 파일들을 결합하는 전처리 장치와,
    상기 결합한 파일에 대하여 개인정보가 식별되지 못하도록 비식별 처리를 수행하는 비식별 처리 장치를 포함하는 빅데이터의 비식별 처리 시스템.
KR1020180074133A 2018-06-27 2018-06-27 빅데이터의 전처리 방법 및 장치 KR102099157B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180074133A KR102099157B1 (ko) 2018-06-27 2018-06-27 빅데이터의 전처리 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180074133A KR102099157B1 (ko) 2018-06-27 2018-06-27 빅데이터의 전처리 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20200010645A KR20200010645A (ko) 2020-01-31
KR102099157B1 true KR102099157B1 (ko) 2020-04-09

Family

ID=69369288

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180074133A KR102099157B1 (ko) 2018-06-27 2018-06-27 빅데이터의 전처리 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102099157B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102325022B1 (ko) * 2020-09-22 2021-11-11 김백기 딥러닝 기반 하이브리드 분석법을 활용한 온라인 이미지 및 리뷰 통합 분석 방법 및 시스템
KR20220072545A (ko) * 2020-11-25 2022-06-02 (주)디지탈쉽 데이터 분할 기반 데이터 전처리 장치 및 방법
KR102472715B1 (ko) 2021-11-11 2022-12-01 주식회사 모비젠 데이터 품질 보정을 통해 로우데이터의 품질저해요소를 추정하는 방법 및 시스템
KR20230053809A (ko) 2021-10-15 2023-04-24 (주)디지탈쉽 분산 노드를 이용한 빅데이터 전처리 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101505858B1 (ko) * 2014-04-10 2015-03-26 (주)비아이매트릭스 대용량 데이터를 용이하게 분석하기 위하여 테이블 관계 및 참조의 템플릿을 검색하여 제공하는 템플릿 기반 온라인 분석보고서 작성 지원 시스템
KR101710138B1 (ko) 2015-09-21 2017-02-24 한국생명공학연구원 데이터 분산 처리 시스템 및 데이터 분산 처리 방법
KR101774834B1 (ko) * 2016-07-21 2017-09-05 주식회사 나눔기술 빅데이터 시각화 시스템 및 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR950020163A (ko) * 1993-12-22 1995-07-24 이헌조 유닉스(unix) 시스템의 화일 분할/결합 방법
KR100828480B1 (ko) * 2005-11-29 2008-05-13 삼성전자주식회사 이동통신 단말기에서 데이터 분산처리 방법 및 이를 이용한분산처리 시스템
KR102183274B1 (ko) * 2013-01-16 2020-11-26 에스케이플래닛 주식회사 분산 처리 시스템 및 그 방법, 그리고 이에 적용되는 장치
KR101552216B1 (ko) * 2013-11-20 2015-09-11 대우조선해양 주식회사 빅 데이터 해석기반의 연구 능률 관리 및 운영 통합 시스템, 그리고 그 방법
KR101865317B1 (ko) 2014-01-14 2018-07-13 한국전자통신연구원 데이터 분산처리 시스템을 위한 빅 데이터의 전처리 장치 및 방법
KR20160112776A (ko) * 2015-03-20 2016-09-28 한국전자통신연구원 대용량 데이터의 분할 또는 병합 방법 및 그 장치
KR101904901B1 (ko) * 2016-11-24 2018-10-05 (주)이지서티 아이디 발급을 통한 원본 데이터 관리 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101505858B1 (ko) * 2014-04-10 2015-03-26 (주)비아이매트릭스 대용량 데이터를 용이하게 분석하기 위하여 테이블 관계 및 참조의 템플릿을 검색하여 제공하는 템플릿 기반 온라인 분석보고서 작성 지원 시스템
KR101710138B1 (ko) 2015-09-21 2017-02-24 한국생명공학연구원 데이터 분산 처리 시스템 및 데이터 분산 처리 방법
KR101774834B1 (ko) * 2016-07-21 2017-09-05 주식회사 나눔기술 빅데이터 시각화 시스템 및 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102325022B1 (ko) * 2020-09-22 2021-11-11 김백기 딥러닝 기반 하이브리드 분석법을 활용한 온라인 이미지 및 리뷰 통합 분석 방법 및 시스템
KR20220072545A (ko) * 2020-11-25 2022-06-02 (주)디지탈쉽 데이터 분할 기반 데이터 전처리 장치 및 방법
KR102504537B1 (ko) 2020-11-25 2023-02-28 (주)디지탈쉽 데이터 분할 기반 데이터 전처리 장치 및 방법
KR20230053809A (ko) 2021-10-15 2023-04-24 (주)디지탈쉽 분산 노드를 이용한 빅데이터 전처리 방법 및 장치
KR102472715B1 (ko) 2021-11-11 2022-12-01 주식회사 모비젠 데이터 품질 보정을 통해 로우데이터의 품질저해요소를 추정하는 방법 및 시스템

Also Published As

Publication number Publication date
KR20200010645A (ko) 2020-01-31

Similar Documents

Publication Publication Date Title
KR102099157B1 (ko) 빅데이터의 전처리 방법 및 장치
US11455217B2 (en) Transaction consistency query support for replicated data from recovery log to external data stores
US11216476B2 (en) Data processing method, apparatus, and device
US11907216B2 (en) Multi-language fusion query method and multi-model database system
US20140351239A1 (en) Hardware acceleration for query operators
US9274936B2 (en) Database code testing framework
JP5298117B2 (ja) 分散コンピューティングにおけるデータマージング
US10990288B2 (en) Systems and/or methods for leveraging in-memory storage in connection with the shuffle phase of MapReduce
CN106933703B (zh) 一种数据库数据备份的方法、装置及电子设备
US11461304B2 (en) Signature-based cache optimization for data preparation
US20170109378A1 (en) Distributed pipeline optimization for data preparation
Kolb et al. Parallel sorted neighborhood blocking with mapreduce
JP2017507426A (ja) 半構造データスキーマのトランスペアレントディスカバリ
US9135572B2 (en) Method and arrangement for processing data
CN111444192B (zh) 块链式账本中全局状态的哈希的生成方法、装置及设备
CN111444196A (zh) 块链式账本中全局状态的哈希的生成方法、装置及设备
US11334590B2 (en) Cloud-based database-less serverless framework using data foundation
CN105095247B (zh) 符号数据分析方法和系统
US11907260B2 (en) Compare processing using replication log-injected compare records in a replication environment
CN114860654A (zh) 一种基于Flink数据流的Iceberg表Schema动态变更方法及系统
US9245048B1 (en) Parallel sort with a ranged, partitioned key-value store in a high perfomance computing environment
CN111026736B (zh) 数据血缘管理方法及装置、数据血缘解析方法及装置
US20160275134A1 (en) Nosql database data validation
US10762084B2 (en) Distribute execution of user-defined function
US20170031982A1 (en) Maintaining Performance in the Presence of Insertions, Deletions, and Streaming Queries

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right