WO2022107995A1

WO2022107995A1 - 빅데이터 크로스 모델 데이터 통합 처리 방법 및 장치

Info

Publication number: WO2022107995A1
Application number: PCT/KR2021/000686
Authority: WO
Inventors: 송광헌; 최범진; 이우성
Original assignee: (주)피씨엔
Priority date: 2020-11-23
Filing date: 2021-01-18
Publication date: 2022-05-27
Also published as: KR20220070848A; KR102473776B1

Abstract

본 발명은 빅데이터 크로스 모델 데이터 통합 처리 방법 및 장치를 개시한다. 본 발명에 따르면, 프로세서 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 빅데이터의 검색, 질의 및 분석 중 적어도 하나를 위한 사용자의 요청이 입력되는 경우, 상기 사용자 요청에 따른 워크플로우의 처리를 위한 복수의 개별 플랫폼을 고려하여 실행 계획을 생성하고, 상기 실행 계획을 스테이지 단위로 분할하고, 상기 스테이지 단위로 상기 복수의 개별 플랫폼 중 적어도 하나를 매핑하고, 상기 복수의 개별 플랫폼에 매핑된 태스크를 변환 및 배분하고, 상기 복수의 개별 플랫폼의 리소스 정보를 관리 및 예측하도록, 상기 프로세서에 의해 실행되는 프로그램 명령어들을 저장하는 빅데이터 크로스 모델 데이터 통합 처리 장치가 제공된다.

Description

빅데이터 크로스 모델 데이터 통합 처리 방법 및 장치

본 발명은 빅데이터 크로스 모델 데이터 통합 처리 방법 및 장치에 관한 것이다.

빅데이터 분석은 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형, 반정형 또는 비정형 데이터셋에서 가치를 추출하고 결과를 분석하는 기술이다.

다양한 종류의 대규모 데이터에 대한 생성, 수집, 분석, 표현을 그 특징으로 하는 빅데이터 기술의 발전은 다변화된 현대 사회를 더욱 정확하게 예측하여 효율적으로 작동하게 하고 개인화된 현대 사회 구성원마다 맞춤형 정보를 제공, 관리, 분석 가능하게 하며 과거에는 불가능했던 기술을 실현시키기도 한다.

이같이 빅데이터는 정치, 사회, 경제, 문화, 과학 기술 등 전 영역에 걸쳐서 사회와 인류에게 가치있는 정보를 제공할 수 있는 가능성을 제시하며 그 중요성이 부각되고 있다.

일반적으로 빅데이터 분석을 위해 데이터 수집/저장, 데이터 전처리, 데이터 정제(프로파일링), 데이터 분석 및 데이터 시각화가 수행된다.

최근 빅데이터 수집을 위한 데이터 소스는 음성, 문서, SNS 데이터와 같은 비정형 데이터, 로그 데이터, 머신 데이터 및 운용 데이터와 같은 반정형 데이터와 DB/DW와 같은 정형 데이터를 포함한다.

또한, 빅데이터는 에너지, 제조, 물류, 의료, 스마트시티, 재난재해, 포털과 같이 다양한 응용분야로 나뉘어지며, 종래에는 각 응용에 따라 특화된 개별 데이터 플랫폼에 직접 액세스하여 복잡한 연산을 수행하여 결과를 얻고 있다.

상기한 종래기술의 문제점을 해결하기 위해, 본 발명은 데이터 모델 차이로 인한 데이터 활용 복잡성을 해소할 수 있는 빅데이터 크로스 모델 데이터 통합 처리 방법 및 장치를 제안하고자 한다.

상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따르면, 빅데이터 크로스 모델 데이터 통합 처리 장치로서, 프로세서; 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 빅데이터의 검색, 질의 및 분석 중 적어도 하나를 위한 사용자의 요청이 입력되는 경우, 상기 사용자 요청에 따른 워크플로우의 처리를 위한 복수의 개별 플랫폼을 고려하여 실행 계획을 생성하고, 상기 실행 계획을 스테이지 단위로 분할하고, 상기 스테이지 단위로 상기 복수의 개별 플랫폼 중 적어도 하나를 매핑하고, 상기 복수의 개별 플랫폼에 매핑된 태스크를 변환 및 배분하고, 상기 복수의 개별 플랫폼의 리소스 정보를 관리 및 예측하도록, 상기 프로세서에 의해 실행되는 프로그램 명령어들을 저장하는 빅데이터 크로스 모델 데이터 통합 처리 장치가 제공된다.

상기 복수의 개별 플랫폼은 Spark, JavaStreams, Flink, GraphChi 및 Giraph 중 적어도 하나를 포함할 수 있다.

상기 실행 계획은 상기 복수의 개별 플랫폼 각각에서의 실행되는 복수의 오퍼레이터 및 상기 복수의 오퍼레이터의 실행 순서로 정의될 수 있다.

상기 오퍼레이터는 개별 플랫폼 식별 코드가 부여되어 상기 복수의 개별 플랫폼 각각에서 작업이 실행되는 방법을 정의하며, map, sample, flatmap, filter, join, count, loop, context, sort, distinct, groupby, reduce, collect, broadcast 중 적어도 하나를 포함할 수 있다.

상기 리소스 정보는 상기 복수의 개별 플랫폼 각각의 커넥션 수, 네트워크 트래픽, CPU 점유율, RAM 점유율 및 태스크의 진행 상태, 완료시간 중 적어도 하나를 포함할 수 있다.

상기 프로그램 명령어들은, 상기 실행 계획 및 상기 복수의 개별 플랫폼의 리소스 정보를 이용하여 스케일링 또는 로드 밸런싱 중 하나를 결정할 수 있다.

상기 프로그램 명령어들은, 이전 수행 오퍼레이터, 다음 수행 오퍼레이터에 대한 리소스를 학습데이터로 활용하여 오퍼레이터 수행 순서에 미치는 영향까지 고려하여 리소스를 예측할 수 있다.

상기 스케일링은 하나의 빅데이터 프레임워크 기반의 개별 플랫폼 노드를 복제하는 스케일 아웃 및 삭제하는 스케일 인을 포함할 수 있다.

본 발명의 다른 측면에 따르면, 프로세서 및 메모리를 포함하는 장치에서 빅데이터 크로스 모델 데이터를 통합 처리하는 방법으로서, 빅데이터의 검색, 질의 및 분석 중 적어도 하나를 위한 사용자의 요청이 입력되는 경우, 상기 사용자 요청에 따른 워크플로우의 처리를 위한 복수의 개별 플랫폼을 고려하여 실행 계획을 생성하는 단계; 상기 실행 계획을 스테이지 단위로 분할하는 단계; 상기 스테이지 단위로 상기 복수의 개별 플랫폼 중 적어도 하나를 매핑하는 단계; 상기 복수의 개별 플랫폼에 매핑된 태스크를 변환 및 배분하는 단계; 및 상기 복수의 개별 플랫폼의 리소스 정보를 관리 및 예측하는 단계를 포함하는 빅데이터 크로스 모델 데이터 통합 처리 방법이 제공된다.

본 발명의 또 다른 측면에 따르면, 상기한 방법을 수행하는 기록매체에 저장되는 컴퓨터 프로그램이 제공된다.

본 발명에 따르면, 크로스 모델 데이터 통합 처리 플랫폼을 통해 데이터 모델 차이로 인한 데이터 활용 복잡성을 해소하여 손쉽게 융합 분석 결과를 얻을 수 있다.

도 1은 본 발명의 바람직한 일 실시예에 따른 빅데이터 크로스 모델 데이터 통합 처리 장치의 구성을 도시한 도면이다.

도 2는 본 발명의 바람직한 일 실시예에 따른 빅데이터 크로스 모델 데이터 통합 처리를 위한 아키텍쳐를 도시한 도면이다.

도 3은 본 실시예에 따른 사용자 요청에 따른 워크플로우의 최적화 실행 계획을 예시적으로 도시한 도면이다.

도 4는 개별 플랫폼 태스크를 배분하는 과정을 설명하기 위한 도면이다.

도 5는 본 발명의 일 실시예에 따른 이전 수행 오퍼레이터 및 다음 수행 오퍼레이터에 대한 리소스를 학습데이터로 활용하여 오퍼레이터 수행 순서에 미치는 영향까지 고려하여 리소스를 예측하는 과정을 설명하기 위한 도면이다.

도 6은 본 실시예에 따른 개별 플랫폼 매니저의 상세 구성을 도시한 도면이다.

도 7 내지 도 8은 본 실시예에 따른 개별 플랫폼 매니저를 통한 부하 분산 관리를 예시적으로 설명하기 위한 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 발명은 빅데이터의 검색, 질의 및 분석 등을 위한 사용자 요청의 처리를 위한 최적화 실행 계획을 생성하고, 최적화 실행 계획이 복수의 개별 플랫폼에서 처리될 수 있도록 한다.

도 1에 도시된 바와 같이, 본 실시예에 따른 장치는 프로세서(100) 및 메모리(102)를 포함할 수 있다.

프로세서(100)는 컴퓨터 프로그램을 실행할 수 있는 CPU(central processing unit)나 그밖에 가상 머신 등을 포함할 수 있다.

메모리(102)는 고정식 하드 드라이브나 착탈식 저장 장치와 같은 불휘발성 저장 장치를 포함할 수 있다. 착탈식 저장 장치는 컴팩트 플래시 유닛, USB 메모리 스틱 등을 포함할 수 있다. 메모리(102)는 각종 랜덤 액세스 메모리와 같은 휘발성 메모리도 포함할 수 있다.

본 실시예에 따른 프로그램 명령어들은, 빅데이터의 검색, 질의 및 분석 중 적어도 하나를 위한 사용자의 요청이 입력되는 경우, 상기 사용자 요청에 따른 워크플로우의 처리를 위한 복수의 개별 플랫폼을 고려하여 최적화 실행 계획을 생성하고, 상기 최적화 실행 계획을 스테이지 단위로 분할하고, 상기 스테이지 단위로 상기 복수의 개별 플랫폼 중 적어도 하나를 매핑하고, 상기 복수의 개별 플랫폼에 매핑된 태스크를 변환 및 배분하고, 상기 복수의 개별 플랫폼의 리소스 정보를 관리 및 예측한다.

도 2의 아키텍쳐는 도 1의 프로세서(100)에서 실행되는 프로그램 명령어들을 모듈 단위로 도시한 도면이다.

도 2를 참조하면, 크로스 모델 데이터 통합 처리 사용자 인터페이스(UI) 모듈(200)은 입력된 사용자 요청에 따른 워크플로우의 처리를 위한 최적화 실행 계획을 생성한다.

사용자 인터페이스 모듈(200)은 빅데이터의 검색, 질의 및 분석을 위한 사용자 요청 입력 시, Cost Learner(202)를 통해 비용 기반으로 하나 이상의 개별 플랫폼을 선택하여 실행 계획을 생성한다.

사용자 인터페이스 모듈(200)은 워크플로우로부터 생성된 실행 계획을 하위 계획으로 분할하고 각 하위 계획의 최적 개별 플랫폼을 결정하여 전체 실행 비용을 최소화한다.

또한, Optimizer(204)는 개별 플랫폼 실행 계획 수립 과정에 개입하여 개별 플랫폼 작업의 수행 순서와 방법을 결정한다.

여기서, 복수의 개별 플랫폼은 Spark, JavaStreams, Flink, GraphChi 및 Giraph 중 적어도 하나를 포함할 수 있고, 서로 다른 빅데이터 프레임워크 기반의 빅데이터 처리 엔진이며, 개별 플랫폼은 컨테이너 형태로 배포된다.

또한, 실행 계획은 상기 복수의 개별 플랫폼 각각에서의 실행되는 복수의 오퍼레이터 및 상기 복수의 오퍼레이터의 실행 순서로 정의된다.

도 3a와 같은 사용자 요청에 따른 워크플로우를 복수의 개별 플랫폼(Spark, JavaStreams)을 고려하여 최적화 실행 계획을 생성한다.

오퍼레이터는 플랫폼 식별 코드가 부여되어 상기 복수의 개별 플랫폼 각각에서 작업이 실행되는 방법을 정의하며, map, sample, flatmap, filter, join, count, loop, context, sort, distinct, groupby, reduce, collect, broadcast 중 적어도 하나를 포함할 수 있다.

다시 도 2를 참조하면, 크로스 모델 데이터 통합 처리 개별 플랫폼 코디네이터(210)는 최적화 실행 계획을 스테이지 단위로 분할하고, 상기 스테이지 단위로 상기 복수의 개별 플랫폼 중 적어도 하나를 매핑하고, 개별 플랫폼 태스크를 변환 및 배분한다.

도 4에 도시된 바와 같이, 최적화 실행 계획은 복수의 스테이지(stage 1 내지 stage 6)으로 분할되며, 코디네이터(210)는 각 스테이지가 서로 다른 개별 플랫폼으로 변환 및 배분한다.

코디네이터(210)에 포함된 개별 플랫폼 매니저(212)는 Optimizer(204)에서 생성한 실행 계획을 수신하여 개별 플랫폼에서 이들이 실행하도록 한다.

개별 플랫폼 매니저(212)는 애플리케이션을 탐색 모드로 실행하여 언제든지 작업 실행을 일시 중지하고 다시 시작할 수 있도록 한다.

또한, 개별 플랫폼 매니저(212)는 복수의 개별 플랫폼의 리소스 정보를 관리 및 예측한다.

여기서, 리소스 정보는 상기 복수의 개별 플랫폼 각각의 커넥션 수, 네트워크 트래픽, CPU 점유율, RAM 점유율 및 태스크의 진행 상태, 완료시간 중 적어도 하나를 포함할 수 있다.

본 실시예에 따른 개별 플랫폼 매니저(212)는 실행 계획 및 상기 복수의 개별 플랫폼의 리소스 정보를 이용하여 스케일링 또는 로드 밸런싱 중 하나를 결정한다.

개별 플랫폼 매니저(212)는 기계학습을 통해 워크플로우 처리를 위한 리소스를 예측할 수 있으며, 도 5에 도시된 바와 같이, 이때, 이전 수행 오퍼레이터, 다음 수행 오퍼레이터에 대한 리소스를 학습데이터로 활용하여 오퍼레이터 수행 순서에 미치는 영향까지 고려하여 실행 계획에 따른 리소스를 예측할 수 있다.

도 6은 본 실시예에 따른 개별 플랫폼 매니저의 상세 구성을 도시한 도면이고, 도 7 내지 도 8은 본 실시예에 따른 개별 플랫폼 매니저를 통한 부하 분산 관리를 예시적으로 설명하기 위한 도면이다.

도 6을 참조하면, 본 실시예에 따른 개별 플랫폼 매니저(212)는 컨트롤러(Controller, 600), 플랫폼 핸들러(Platform Handler, 602) 및 로드 밸런서(Load Balancer, 604)를 포함할 수 있다.

컨트롤러(600)는 아답터로부터 실행 계획과 복수의 개별 플랫폼으로부터 리소스 정보를 수신한다.

아답터는 공간정보 데이터 모델, 시계열 데이터 모델 및 관계형 데이터 모델을 자바 객체로 변환한다.

리소스 정보는 주기적으로 수신될 수 있고, 각 플랫폼의 커넥션 수, 네트워크 트래픽, CPU 점유율, RAM 점유율 및 태스크의 진행 상태, 완료시간 중 적어도 하나를 포함할 수 있다.

컨트롤러(600)는 플랫폼 리소스 분석을 통해 현재 실행 계획에 따른 데이터를 처리한 플랫폼이 없는 경우, 스케일-아웃(scale-out)으로 결정하고, 플랫폼 리소스의 낭비가 있는 경우에는 스케일-인(scale-in)으로 결정한다.

플랫폼 핸들러(602)는 컨트롤러(600)의 제어에 따라 개별 플랫폼을 실행시키거나 중지시키고 커넥션을 제어한다.

도 4를 참조하면, 컨트롤러(600)의 제어에 따라 플랫폼 핸들러(602)는 스케일-아웃(scale-out) 또는 스케일-인(scale-in) 제어 명령을 복수의 개별 플랫폼과 연결되는 게이트웨이(700)에 전달한다.

예를 들어, 스케일-아웃이 필요한 것으로 결정되는 경우, 기존 개별 플랫폼에 현재 실행 계획에 따른 새로운 개별 플랫폼을 추가한다.

개별 플랫폼 매니저(212)는 플랫폼의 리소스 상황에 따라 자동으로 노드 복제가 이루어질 수 있도록 한다.

바람직하게, 스케일-아웃으로 결정되는 경우, 컨트롤러(600)는 하나의 빅데이터 프레임워크 기반의 플랫폼 노드가 복제되도록 한다.

컨트롤러(600)는 현재의 복수의 개별 플랫폼에서 데이터의 처리가 가능한 경우, 현재 개별 플랫폼 내에서 부하가 분산되도록 결정한다.

스케일-아웃 및 스케일-인 없이 부하를 분산하는 것으로 결정하는 경우, 컨트롤러(600)의 제어에 따라 로드 밸런서(604)가 플랫폼 핸들러(602)로 로드 밸런싱 정보를 제공한다.

플랫폼 핸들러(602)는 로드 밸런싱 정보를 게이트웨이(700)로 전달하여 노드의 복제 또는 삭제 없이 현재의 복수의 개별 플랫폼 사이에서 부하가 분산되도록 한다.

플랫폼 핸들러(602)는 로드 밸런싱으로 결정되는 경우, 실행 계획이 로드가 가장 낮은 플랫폼으로 전달되도록 한다.

복수의 개별 플랫폼은 컨테이너 기반의 오픈소스 가상화 기술인 도커(docker)를 통해 이루어질 수 있다.

상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

Claims

빅데이터 크로스 모델 데이터 통합 처리 장치로서,

프로세서; 및

상기 프로세서에 연결되는 메모리를 포함하되,

상기 메모리는,

빅데이터의 검색, 질의 및 분석 중 적어도 하나를 위한 사용자의 요청이 입력되는 경우, 상기 사용자 요청에 따른 워크플로우의 처리를 위한 복수의 개별 플랫폼을 고려하여 실행 계획을 생성하고,

상기 실행 계획을 스테이지 단위로 분할하고,

상기 스테이지 단위로 상기 복수의 개별 플랫폼 중 적어도 하나를 매핑하고,

상기 복수의 개별 플랫폼에 매핑된 태스크를 변환 및 배분하고,

상기 복수의 개별 플랫폼의 리소스 정보를 관리 및 예측하도록,

상기 프로세서에 의해 실행되는 프로그램 명령어들을 저장하는 빅데이터 크로스 모델 데이터 통합 처리 장치.
제1항에 있어서,

상기 복수의 개별 플랫폼은 Spark, JavaStreams, Flink, GraphChi 및 Giraph 중 적어도 하나를 포함하는 빅데이터 크로스 모델 데이터 통합 처리 장치.
제1항에 있어서,

상기 실행 계획은 상기 복수의 개별 플랫폼 각각에서의 실행되는 복수의 오퍼레이터 및 상기 복수의 오퍼레이터의 실행 순서로 정의되는 빅데이터 크로스 모델 데이터 통합 처리 장치.
제3항에 있어서,

상기 오퍼레이터는 개별 플랫폼 식별 코드가 부여되어 상기 복수의 개별 플랫폼 각각에서 작업이 실행되는 방법을 정의하며, map, sample, flatmap, filter, join, count, loop, context, sort, distinct, groupby, reduce, collect, broadcast 중 적어도 하나를 포함하는 빅데이터 크로스 모델 데이터 통합 처리 장치.
제4항에 있어서,

상기 리소스 정보는 상기 복수의 개별 플랫폼 각각의 커넥션 수, 네트워크 트래픽, CPU 점유율, RAM 점유율 및 태스크의 진행 상태, 완료시간 중 적어도 하나를 포함하는 빅데이터 크로스 모델 데이터 통합 처리 장치.
제5항에 있어서,

상기 프로그램 명령어들은,

상기 실행 계획 및 상기 복수의 개별 플랫폼의 리소스 정보를 이용하여 스케일링 또는 로드 밸런싱 중 하나를 결정하는 빅데이터 크로스 모델 데이터 통합 처리 장치.
제6항에 있어서,

상기 프로그램 명령어들은, 이전 수행 오퍼레이터, 다음 수행 오퍼레이터에 대한 리소스를 학습데이터로 활용하여 오퍼레이터 수행 순서에 미치는 영향까지 고려하여 실행 계획에 따른 리소스를 예측하는 빅데이터 크로스 모델 데이터 통합 처리 장치.
제6항에 있어서,

상기 스케일링은 하나의 빅데이터 프레임워크 기반의 개별 플랫폼 노드를 복제하는 스케일 아웃 및 삭제하는 스케일 인을 포함하는 빅데이터 크로스 모델 데이터 통합 처리 장치.
프로세서 및 메모리를 포함하는 장치에서 빅데이터 크로스 모델 데이터를 통합 처리하는 방법으로서,

빅데이터의 검색, 질의 및 분석 중 적어도 하나를 위한 사용자의 요청이 입력되는 경우, 상기 사용자 요청에 따른 워크플로우의 처리를 위한 복수의 개별 플랫폼을 고려하여 실행 계획을 생성하는 단계;

상기 실행 계획을 스테이지 단위로 분할하는 단계;

상기 스테이지 단위로 상기 복수의 개별 플랫폼 중 적어도 하나를 매핑하는 단계;

상기 복수의 개별 플랫폼에 매핑된 태스크를 변환 및 배분하는 단계; 및

상기 복수의 개별 플랫폼의 리소스 정보를 관리 및 예측하는 단계를 포함하는 빅데이터 크로스 모델 데이터 통합 처리 방법.
제9항에 따른 방법을 수행하는 기록매체에 저장되는 컴퓨터 프로그램.