KR101982756B1

KR101982756B1 - 분산인메모리기반 복합형스트림 데이터처리시스템 및 방법

Info

Publication number: KR101982756B1
Application number: KR1020170061641A
Authority: KR
Inventors: 서광익; 박준호; 이종정; 김종민
Original assignee: 주식회사 알티베이스
Priority date: 2017-05-18
Filing date: 2017-05-18
Publication date: 2019-05-28
Also published as: US20180336248A1; KR20180126792A

Abstract

본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템은 다양한 데이터 소스들로부터 생성된 복합형 고속스트림 데이터를 수집하여 실시간 분류하여 처리하며, 이 경우 적어도 하나의 인메모리데이터베이스를 이용하는 것을 특징으로 한다.

Description

분산인메모리기반 복합형스트림 데이터처리시스템 및 방법{System and Method for processing complex stream data using distributed in-memory}

본 발명은 대용량 데이터, 빅데이터 등을 포함하는 복합형 스트림을 실시간으로 분산처리하는 방법에 관한 것이다.

최근 사물 인터넷 환경에서 발생하는 다양한 비정형 및 반정형 데이터 분석, 통신 분야의 초대용량 빌링 정보의 다차원 분석, 금융 분야의 초고속 트레이딩 정보에 대한 실시간 분석 내지 공공 및 서비스 분야의 사고 감지, 재해 예방 등을 위해 복합형 스트림 분석이 중요해지고 있다.

초대용량이면서 특정 이벤트에서만 의미를 가지는 스트림 데이터 처리를 현행과 같이 DBMS에 데이터를 저장한 후 이를 조회하여 판단하는 경우 현격한 성능 저하 및 비효율적인 관리문제가 발생할 수 밖에 없다.

KR 10-1544356 B1

본 발명에서는 다양한 데이터 소스에서 고속으로 발생하는 빅데이터를 실시간으로 관리하고 분석할수 있는 고속 스트림 빅데이터 처리방안을 제시하고자 한다. 또한 정형 데이터 뿐만 아니라 반정형 및 비정형 스트림 데이터를 초고속으로 처리하는 복합형스트림 데이터처리시스템 및 방법을 제안하고자 한다.

본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템은 다양한 데이터 소스들로부터 생성된 복합형 고속스트림 데이터를 수집하는 데이터수집부; 상기 수집한 복합형 고속스트림 데이터를 형태의 유무 또는 연산가능 여부로 분류하여, 형태가 있고 연산가능한 데이터는 정형 데이터로, 형태가 있으나 연산가능하지 않은 데이터는 반정형 데이터로, 그리고 형태도 없고 연산도 가능하지 않은 데이터는 비정형 데이터로 실시간 분류하여 처리하는 데이터분산처리부;및 상기 정형데이터, 상기 반정형데이터 및 상기 비정형데이터를 저장하고, 상기 복합형 고속스트림 데이터를 분석한 결과를 분산하여 저장하는 적어도 하나의 인메모리데이터베이스;를 포함하고, 상기 적어도 하나의 인메모리데이터베이스 각각은 상기 복합형 고속스트림 데이터를 분석하는 분석부;를 더 포함하는 것을 특징으로 한다.

바람직하게, 상기 데이터수집부는 클라이언트 어플리케이션을 더 포함하고, 상기 분산인메모리기반 복합형스트림 데이터처리시스템은 사용자 쿼리를 분석하여 샤드 객체가 포함된 샤드쿼리인지 판단하고, 샤드쿼리인 경우 샤드키(Shard Key)를 기준으로 데이터를 상기 적어도 하나 이상의 인메모리데이터베이스 각각에 분산처리하는 메타노드;및 상기 클라이언트 어플리케이션에 라이브러리 형태로 설치되어, 상기 클라이언트 어플리케이션과 상기 적어도 하나 이상의 인메모리데이터베이스 간의 코디네이터 역할을 수행하며, 사용자 쿼리를 상기 메타 노드에 전달하고, 상기 메타노드에 등록된 상기 적어도 하나 이상의 인메모리데이터베이스의 정보를 수신하여 상기 데이터수집부와 상기 적어도 하나 이상의 데이터수집부의 연결을 수행하는 샤드라이브러리;를 더 포함하는 것을 특징으로 한다.

바람직하게, 상기 분산인메모리기반 복합형스트림 데이터처리시스템이 서버측 샤딩모드로 구현되는 경우, 상기 클라이언트 어플리케이션에서 상기 메타노드에 접속하고, 상기 메타노드는 세션을 생성하며, 상기 클라이언트 어플리케이션에서 상기 메타노드에 상기 샤드쿼리를 요청하면, 상기 메타노드에 등록된 상기 적어도 하나의 인메모리데이터베이스 각각에 대해 샤드 커넥션이 세션마다 생성되는 것을 특징으로 한다.

바람직하게, 상기 분산인메모리기반 복합형스트림 데이터처리시스템이 클라이언트측 샤딩모드로 구현되는 경우, 상기 클라이언트 어플리케이션에 설치된 샤드라이브러리가 상기 메타노드에 접속하여 상기 메타노드에 등록된 상기 적어도 하나의 인메모리데이터베이스 각각의 정보를 수신하고, 상기 적어도 하나의 인메모리데이터베이스 각각에 모두 접속하는 경우 샤드 커넥션을 생성하는 것을 특징으로 한다.

바람직하게, 상기 복합형 고속스트림 데이터는 센서 데이터, XML 형식의 데이터, HTML 형식의 데이터, 텍스트 데이터, 음성 데이터 및 영상 데이터를 포함하는 것을 특징으로 한다.

본 발명의 또 다른 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템에서 데이터를 처리하는 방법은 데이터수집부에서 다양한 데이터 소스들로부터 생성된 복합형스트림을 수집하는 단계, 데이터분산처리부에서 상기 수집한 복합형스트림을 정형데이터, 반정형데이터 및 비정형데이터로 실시간으로 분류하여 처리하는 단계, 적어도 하나의 인메모리데이터베이스에 상기 정형데이터, 반정형데이터 및 비정형데이터, 그리고 상기 복합형스트림을 처리한 결과를 저장하는 단계, 그리고 상기 복합형스트림을 상기 적어도 하나의 인메모리데이터베이스에 샤딩(sharding) 방식으로 분산하여 처리하는 단계; 를 포함하는 것을 특징으로 한다.

본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템은 인메모리 데이터베이스를 이용함으로써 복합형 고속 스트림 빅데이터 처리율을 향상시키고 실시간으로 분석을 지원할 수 있다. 또한, 정형, 반정형, 비정형 데이터를 실시간으로 분석, 저장이 가능하다.

도 1 은 본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템의 내부 구성도를 도시한다.
도 2 는 본 발명의 바람직한 일 실시예로서, 복합형 고속스트림 데이터를 수신하는 환경의 일 예를 도시한다.
도 3 은 본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템에서 샤딩을 수행하는 일 예를 도시한다.
도 4 는 본 발명의 바람직한 일 실시예로서, 하이브리드샤딩시스템의 동작 방식을 도시한다.
도 5 는 본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템에서 복합형스트림데이터를 처리하는 흐름도를 도시한다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.

도 1 은 본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템의 내부 구성도를 도시한다.

본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템은 데이터수집부 (120), 데이터분산처리부(130), 적어도 하나의 인메모리데이터베이스 (140, 142, 144) 및 분석부(141, 143, 145)를 포함하고, 디스플레이부(160)를 더 포함할 수 있다.

본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템은 또한 샤딩(sharding)을 수행하기 위하여 클라이언트 어플리케이션(122)과 메타노드(170)를 더 포함할 수 있다. 분산인메모리기반 복합 형스트림 데이터처리시스템은 또한 샤딩(sharding)을 수행하는 일 실시예는 도 3과 관련하여 기술한다.

데이터수집부(120)는 다양한 데이터 소스들로부터 생성된 복합형 고속스트림 데이터를 수집한다. 복합형 고속스트림 데이터는 센서 데이터, XML 형식의 데이터, HTML 형식의 데이터, 텍스트 데이터, 음성 데이터 및 영상 데이터를 포함한다. 다양한 데이터 소스의 예로는 단말기(110)로부터 수신하는 데이터, 지하매설물(112)에 설치된 센서에서 수신하는 데이터, 공공기관 등에 설치된 센서에서 수신하는 데이터, 소셜네트워크시스템(116)으로부터 수신하는 데이터 등을 포함한다. 단말기(110)의 예로는 노트북, 컴퓨터, 핸드헬드 장치, 로봇, 웨어러블 장치, IoT 장치 등이 있다.

도 2 는 본 발명의 바람직한 일 실시예로서 , 복합형 고속스트림 데이터를 수신하는 환경의 일 예를 도시한다.

도 2 에 도시된 복합형 고속스트림 데이터를 수신하는 환경은 디스플레이 부(160) 등에 도시가 가능하다. 도 2 에 도시된 복합형 고속스트림 데이터를 수신하는 환경은 크게 3개의 레이어로 구성되어 있다. 상위레이어(210)는 실제 지형을 나타내는 레이어를 표시한다. 중간레이어(220)는 지적도 정보 등을 포함하는 지도형태의 레이어를 표시한다(220). 하위레이어(230)는 지하에 매설된 파이프 등에 설치된 센서의 배치도를 표시하는 레이어이다 .

본 발명의 바람직한 일 실시예로서, 데이터수집부(120)에서 SNS의 트윗 메시지를 수신하고, 동시에 SNS 트윗메시지를 전송한 단말기의 위치정보를 수집한 경우 데이터분산처리부(130)는 도 2 를 참고하면, 상위레이어(210)에 단말기의 위치정보를 표시하고, 중간레이어(220)의 지도정보를 이와 연관(correlation)시킨다. 또한 SNS에서 수집한 데이터를 확률모델로 처리한 후 해당 지도의 위치와 연관된 지하에 매설된 파이프 등에 설치된 센서의 센서 정보를 연관시켜 저장할 수 있다.

본 발명의 바람직한 일 실시예로서, 데이터분산처리부(130)는 데이터수집부(120)에서 수집한 복합형 고속스트림 데이터를 형태의 유무 또는 연산가능 여부로 분류한다. 데이터분산처리부(130)는 형태가 있고 연산가능한 데이터는 정형 데이터로, 형태가 있으나 연산가능하지 않은 데이터는 반정형 데이터로, 그리고 형태도 없고 연산도 가능하지 않은 데이터는 비정형 데이터로 실시간 분류하여 처리하도록 구현될 수 있다.

본 발명의 바람직한 일 실시예로서 , 데이터분산처리부(130)는 수집한 오디오 데이터 중 음성 데이터는 음성-텍스트 변환을 수행하여 비정형데이터로 활용할 수 있다.

본 발명의 바람직한 일 실시예로서 , 데이터분산처리부(130)는 수집한 복합형 고속스트림 데이터를 데이터 유형별로 분류하여 분산처리할 수 있다. 일 예로, 분류된 정형데이터, 반정형데이터 그리고 비정형데이터 별로 각각 분산하여 처리할 수 있다.

본 발명의 바람직한 일 실시예로서 , 데이터분산처리부(130)는 수집한 소셜네 트워크서비스(SNS)에 대한 사용 로그 데이터(usage log data)에 대해 형태소 분석기를 이용하여 명사만 추출한 후 LDA (Latent Dirichlet Allocation)을 이용하여 주제를 이루는 토픽들의 집합을 추출하여 토픽모델링을 수행할 수 있다. 또한, 토픽 모델링에서 도출된 단어를 대상으로 시간대별 빈도수를 계산하여 정형화된 시계열 데이터로 변환하여 분석을 수행할 수 있다.

본 발명의 바람직한 일 실시예로서 , 데이터분산처리부(130)는 수집한 데이터를 시간별로 분류하여 분산처리할 수 있다. 이 경우, 시간 구간은 12시간, 24시간, 1주, 1달, 그리고 사용자 설정 등과 같이 분류가 가능하다 .

본 발명의 바람직한 일 실시예로서 , 데이터분산처리부(130)는 수집한 데이터를 연관토픽별로 분류하여 분산처리할 수 있다. 이 경우, 연관토픽의 예로는 싱크 홀, 누수, 도로, 유실, 상수관, 매몰, 사고, 땅꺼짐 등이 있다.

본 발명의 바람직한 일 실시예로서 , 데이터분산처리부(130)는 수집한 데이터를 재난유형별로 분류하여 분산처리할 수 있다. 이 경우, 재난유형의 예로는 감염 병, 화재, 폭설, 산사태, 지진, 태풍, 황사, 홍수 등이 있다.

본 발명의 바람직한 일 실시예로서 , 데이터분산처리부(130)는 수집한 데이터를 STL (A Seasonal-Trend Decomposition Procedure based on Losses) 방법으로 데이터를 가공하여 이상 징후별로 데이터를 분류하여 처리할 수 있다. STL 방법은 데이터를 추세 변동, 계절 변동, 불규칙(remainder) 변동으로 분해하여 시계열 자료를 분석하는 방법이다.

본 발명의 바람직한 일 실시예로서 , 데이터분산처리부(130)는 수집한 데이터를 다양한 확률모델을 기초로 분산처리할 수 있다. 다양한 확률모델의 예로는 단순 프로세싱에서는 한 번에 하나의 스트림 데이터를 처리를 수행하고, 동시 다수의 이벤트 스트림간에는 상호 연결을 처리하는 상관기 능(Correlation), 다수의 이벤트 간의 상호 연관관계를 연속적으로 매칭 하여 실시간으로 패턴을 검출하는 패턴매칭기능(Pattern Matching), 이벤트 처리시 단일 스트림을 하나 이상의 조건, 패턴 또는 정규식 표현에 따라 발생시점별로 분리하는 필터링기능 (Filtering), 연속되어 발생하는 여러 이벤트 소스들을 통합하여 가치 있는 정보로 취합하여 가공하는 집계기능(Aggregate) 등이 있다.

본 발명의 바람직한 일 실시예로서 , 데이터분산처리부(130)는 수집한 데이터를 사용자가 설정한 기준에 따라 분류하여 분산처리가 가능하다.

적어도 하나의 인메모리데이터베이스(140, 142, 144)는 데이터수집부(120)에 서 수집한 데이터를 분산 저장할 수 있다. 또한 , 적어도 하나의 인메모리데이터베이스(140, 142, 144)는 데이터분산처리부(130)에서 분류한 정형데이터(131), 반정 형데이터 (132) 및 비정형데이터(133)를 저장하고, 정형데이터(131), 반정형데이 터(132) 및 비정형데이터(133)를 가공처리한 결과를 저장할 수 있다. 또한 , 반정형데이터 (132) 및 비정형데이터(133)에서 추출한 필요데이터를 저장할 수 있다. 여기서 , 필요데이터는 반정형데이터 (132) 및 비정형데이터(133)에서 공통된 패턴 데이터, 또는 특정 이벤트와 관련한 데이터, 분석부(141, 143, 145, 150)에서 통계적 기법과 데이터마이닝 기법을 이용하여 필터링한 데이터를 포함한다.

본 발명의 바람직한 일 실시예로서 , 적어도 하나의 인메모리데이터베이스 각각은(140, 142, 144) 복합형 고속스트림 데이터를 분석하는 분석부(141, 143, 145)를 내부에 더 포함하거나, 또는 유무선으로 통신이 가능한 형태로 분석부(150)와 통신을 수행할 수 있다.

본 발명의 바람직한 일 실시예로서 분석부(141, 143, 145)는 적어도 하나의 인메모리데이터베이스(140, 142, 144) 내부에 구비된 경우에는 적어도 하나의 인메 모리데이터베이스(140, 142, 144) 내부에 저장된 데이터를 통계적 기법과 데이터마이닝 기법을 이용하여 필터링을 수행할 수 있다.

본 발명의 바람직한 일 실시예로서 분석부(150)는 적어도 하나의 인메모리데 이터베이스(140, 142, 144)와 유무선으로 통신을 수행하면서, 적어도 하나의 인메 모리데이터베이스(140, 142, 144)로부터 수신한 데이터를 통계적 기법과 데이터마이닝 기법을 이용하여 필터링을 수행할 수 있다.

분석부(141, 143, 145, 150)는 또한 다양한 확률모델을 이용할 수 있다. 이 경우 다양한 확률모델은 단순 프로세싱에서는 한 번에 하나의 스트림 데이터를 처리를 수행하고, 동시 다수의 이벤트 스트림간에는 상호 연결을 처리하는 상관기능(Correlation), 다수의 이벤트 간의 상호 연관관계를 연속적으로 매칭 하여 실시간으로 패턴을 검출하는 패턴매칭기능(Pattern Matching), 이벤트 처리시 단일 스트림을 하나 이상의 조건, 패턴 또는 정규식 표현에 따라 발생시점별로 분리하는 필터링기능(Filtering), 연속되어 발생하는 여러 이벤트 소스들을 통합하여 가치 있는 정보로 취합하여 가공하는 집계기능(Aggregate) 등을 구비한다.

분석부(141, 143, 145, 150)는 분석 결과를 디스플레이부(160)에 표시할 수 있으며, 또한 분석 결과를 데이터분산처리부(130)에 피드백으로 제공할 수 있다.

분석부(141, 143, 145, 150)는 데이터분산처리부(130)에서 수집한 데이터 가공을 처리하기 위하여 이용하는 토픽모델링 기법을 이용할 수 있으며, 분산처리된 데이터를 추가로 통합, 분류하는 기능을 더 구비할 수 있다.

도 3 은 본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템에서 샤딩을 수행하는 일 예를 도시한다. 도 1 을 참고하여 기술한다.

샤딩(Sharding)은 한 대의 데이터베이스에 저장했던 데이터를 여러 대의 데이터베이스에 분산하여 저장 및 처리하는 스케일 아웃(Scale-out) 기술이다. 샤딩기술은 일반적으로 코디네이터를 이용하여 데이터를 분리하여 처리하는 서버측(Server-side)샤딩 방식과 어플리케이션에서 데이터를 분리하여 처리하는 클라이언트측(Client-side) 샤딩 방식으로 나눌 수 있다.

본 발명의 바람직한 일 실시예에로서, 분산인메모리기반 복합형스트림 데이터처리시스템은 서버측 샤딩기능과 클라이언트측 샤딩 기능을 동시에 지원할 수 있다. 또한, 필요에 따라 서버측 샤딩기능만을 선택하거나 또는 클라이언트측 샤딩기능만을 선택하도록 구현이 가능하다.

본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템은 데이터수집부(도 1, 120 참고)에 설치가능한 클라이언트어플리케이션(312, 314, 316)를 포함하고, 각각의 어플리케이션(312, 314, 116)마다 설치된 샤드라이브러리(Shard Library)(313, 315, 317), 메타노드(120), 분산된 데이터를 저장하는 적어도 하나의 인메모리DB(330, 332, 334, 336)를 포함한다.

본 발명의 바람직한 일 실시예로서, 메타노드(320)는 인메모리DB(330, 332, 334, 336) 및 샤딩 정보를 관리하고, 사용자 쿼리를 분석하며, 서버측샤딩기능 수행시 통합 쿼리 제공 등의 코디네이터 역할을 수행한다. 또한, 데이터를 인메모리DB(330, 332, 334, 336)들에 재분배하는 기능을 수행할 수 있다.

본 발명의 바람직한 일 실시예로서, 적어도 하나의 샤드라이브러리(113, 115, 117)는 클라이언트단말기에 라이브러리(Library) 형태로 설치되어 샤딩 기능을 수행하며, 기존의 ODBC와 동일한 API인터페이스를 제공한다.

본 발명의 바람직한 일 실시예로서, 적어도 하나의 샤드라이브러리(313, 315, 317)는 클라이언트 어플리케이션(312, 314, 316)과 인메모리DB(330, 332, 334, 336)간에 코디네이터 역할을 수행할 수 있다.

본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템은 서버측 샤딩을 구현할 때 인메모리DB(330, 332, 334, 336)의 수가 증가하더라도 전체 성능향상에 무리가 없으며, 또한 데이터 분산 정책을 변경하는 경우에도 클라이언트의 어플리케이션(312, 314, 316)을 수정하지 않을 수 있는 장점이 있다.

도 4 는 본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템에서 서버측샤딩과 클라이언트측샤딩을 지원하는 예를 도시한다.

본 발명의 바람직한 일 실시예로서, 복합형스트림 데이터처리시스템에서 서버측샤딩을 지원하는 예는 아래와 같다.

데이터 수집부(도 1, 120참고) 또는 클라이언트 단말기(410)에 설치된 어플리케이션(412)에서 샤드라이브러리(413)를 통해 메타노드(420)에 접속을 시도한다. 일반적인 데이터베이스 접속 방식과 동일한 방식으로 접속이 가능하다.

메타노드(420)에서 세션을 생성한다. 어플리케이션(412)에서 메타노드(420)에 샤드 객체가 포함된 사용자 쿼리를 요청한다

샤드객체가 포함된 샤드쿼리인지를 판단하는 일 예는 다음과 같다.

/* 노드 구성 완료 후 각 노드에 테이블 생성 */

CREATE TABLE t1(id INTEGER, name VARCHAR(50));

/* T1 을 샤드 테이블로 설정 */

EXEC DBMS_SHARD.SET_SHARD_TABLE('SYS', 'T1', 'R', 'ID', 'NODE1');

EXEC DBMS_SHARD.SET_SHARD_RANGE('SYS', 'T1', 3, 'NODE2');

EXEC DBMS_SHARD.SET_SHARD_RANGE('SYS', 'T1', 6, 'NODE3');

/* 각 노드에 데이터 입력 */

INSERT INTO t1 VALUES(1, 'Kim');

INSERT INTO t1 VALUES(2, 'Lee');

INSERT INTO t1 VALUES(3, 'Park');

INSERT INTO t1 VALUES(4, 'Choi');

INSERT INTO t1 VALUES(5, 'Jeong');

INSERT INTO t1 VALUES(6, 'Kang');

INSERT INTO t1 VALUES(7, 'Joe');

INSERT INTO t1 VALUES(8, 'Yoon');

INSERT INTO t1 VALUES(9, 'Jang');

/* 쿼리 테스트 */

iSQL> SELECT * FROM t1 WHERE id = 2;

특정 노드에서만 조회가 가능하므로 정상수행이 이루어진다.

ID　　　　　　　　　 NAME

-------------------------------------------------------------------

2　　　　　　　　　　 Lee

1 row selected.

iSQL> SELECT * FROM t1; --샤드 테이블이므로 단일쿼리 조회시 오류발생

[ERR-E1385 : The shard table is only available inside the shard view.:

0001 : SELECT * FROM T1

]

iSQL > SHARD SELECT * FROM t1; -- 분산 저장된 모든 데이터 조회시 "SHARD" 구문 사용

ID　　　　　　　　　 NAME

-------------------------------------------------------------------

7　　　　　　　　　　 Joe

8　　　　　　　　　　 Yoon

9　　　　　　　　　　 Jang

1　　　　　　　　　　 Kim

2　　　　　　　　　　 Lee

3　　　　　　　　　　 Park

4　　　　　　　　　　 Choi

5　　　　　　　　　　 Jeong

6　　　　　　　　　　 Kang

9 rows selected.

iSQL > SELECT * FROM t1 WHERE id = 2 OR id = 3; -- 특정 노드에서만 조회 가능하므로 정상수행

ID　　　　　　　　　 NAME

-------------------------------------------------------------------

2　　　　　　　　　　 Lee

3　　　　　　　　　　 Park

2 rows selected.

iSQL > SELECT COUNT(*) FROM t1; -- 모든 노드의 합을 구하여 조회해야 하므로 단일쿼리 사용시 오류 발생

[ERR-E1385 : The shard table is only available inside the shard view.:

0001 : SELECT COUNT(*) FROM T1

　]　　　　　　　　　　　　　　　　　　　　　　　　　

iSQL> SHARD SELECT COUNT(*) FROM t1;

--모든 노드의 합을 구하여 조회해야 하므로 "SHARD" 구문 사용하여 조회

COUNT(*)

-----------------------

3

3 rows selected.

iSQL> SELECT SUM(c1) FROM SHARD(SELECT COUNT(*) c1 FROM t1);

SUM(C1)

-----------------------

9

1 row selected.

메타노드(420)는 메타노드에 등록된 모든 인메모리DB(430, 432, 434, 436, 438)에 대해 샤드 커넥션을 세션마다 생성한다. 세션이 종료되면 샤드커넥션도 종료된다. 위와 같이 샤드 커넥션 관리를 수행하고(S410), 그 과정에서 입력된 사용자 쿼리는 아래와 같이 분석한다(S420).

메타노드(420)는 어플리케이션(412)에서 요청한 사용자 쿼리를 분석한다. 사용자 쿼리가 샤드쿼리인 경우 분석 결과가 생성되고, 분석 결과에 의해 질의 최적화를 수행하여 plan tree를 생성한다. 메타노드(420)는 사용자 쿼리가 샤드쿼리인 경우와 샤드쿼리가 아닌 경우를 분류하여 처리할 수 있다. 샤드쿼리가 아닌 사용자 쿼리는 메타노드(420)에서 코디네이터의 역할로써 해당 사용자 쿼리를 처리한다.

샤드쿼리를 수행하면, 메타노드(420)는 생성된 plan tree를 수행하고, 쿼리 수행 이후 plan을 조회하면 각 인메모리DB(430, 432, 434, 436, 438)에서 수행한 샤드SQL의 plan을 조회할 수 있다. 메타노드(420)는 샤드쿼리의 수행결과를 어플리케이션(412)에 반환한다.

본 발명의 바람직한 일 실시예로서, 복합형스트림 데이터처리시스템에서 클라이언트측 샤딩을 지원하는 예는 아래와 같다.

클라이언트측샤딩기능을 구현할 경우, 메타노드(420)는 어플리케이션에서 처음으로 질의를 준비하는(442) 경우에만 분석을 통해 인메모리DB들의 스키마 정보를 포함하는 메타정보를 생성한다. 어플리케이션(412)은 메타노드(420)에 최초 1회 접속시 샤드 스키마(Shard Schema) 조회를 통해 인메모리DB(430, 432, 434)에 어떤 테이블들이 있는지 정보를 파악한다. 최초 1회만 분석이 요구될 뿐 추가적인 분석이 요구되지 않는다.

메타노드(420)는 생성한 메타정보와 어플리케이션(412)의 바인드 정보만으로 질의를 반복적으로 수행할 수 있다. 그 결과 클라이언트측샤딩의 성능확장성을 그대로 유지하면서도 어플리케이션을 수정하거나 재작성할 필요가 없는 이점이 발생한다.

메타노드(420)는 사용자 쿼리를 분석하여 샤드 객체가 포함된 샤드쿼리인 경우 샤드키(Shard Key)(450)를 기준으로 데이터를 적어도 하나 이상의 인메모리DB(430, 432, 434, 436, 438) 각각에 분산처리를 수행한다. 본 발명의 바람직한 일 실시예에서는 샤드키(Shard Key)(450)를 이용하는 방식으로 Range, List, Hash 등의 방식을 이용할 수 있다.

하이브리드샤딩시스템이 클라이언트측샤딩기능 구현시 어플리케이션(412)에서 메타노드(420)로 SQLDriverConnect() 함수(S414)를 호출하면 샤드라이브러리(413)가 메타노드(420)에 접속한다. 샤드라이브러리(413)는 메타노드(420)에 등록되어 있는 데이터 노드의 역할을 수행하는 모든 인메모리DB(430, 432, 434, 436, 438)들의 정보를 수신한다. 그 후, 모든 인메모리DB(430, 432, 434, 436, 438)에 접속하면 어플리케이션(412)에 접속에 성공했음을 알린다. 그러나, 인메모리DB(430, 432, 434, 436, 438)들 중 하나라도 접속이 실패하면, 이미 접속이 성공한 인메모리DB들의 연결을 종료하고 어플리케이션(412)에 접속에 실패했음을 알린다.

샤드 커넥션이 생성되면, 어플리케이션(412)에서 SQLPrepare() 함수를 호출한다(442). 샤드라이브러리(413)는 사용자 쿼리를 메타노드(420)에 전달한다. 메타노드(420)는 어플리케이션(412)에서 수신한 사용자쿼리가 샤드쿼리인지를 분석하여 분석결과를 샤드라이브러리(413)에 전달한다.

사용자쿼리가 샤드라이브러리(413)에서 수행할 수 없는 쿼리인 경우에는 오류메시지를 어플리케이션(412)에 전달한다. 사용자 쿼리 분석 결과는 사용자 쿼리가 샤드쿼리인지 여부, 샤드쿼리인 경우 샤드쿼리가 수행될 수 있는 인메모리DB의 리스트, 샤드키와 관련한 호스트 변수 및 바인드 값에 대한 해석 방법등을 포함할 수 있다.

샤드쿼리가 분석되면 샤드라이브러리(413)는 사용자 쿼리 분석 결과에 포함된 인메모리DB들에 대하여 SQLPrepare()(442) 작업을 수행한다. 어플리케이션(412)에서 SQLBindParameter() 함수(444)를 호출하면 사용자 쿼리 분석 결과에 포함된 인메모리DB들에 대하여 SQLBindParameter()(444)를 수행한다.

어플리케이션(412)에서 SQLExecute()(446)를 수행하면, 샤드라이브러리(413)는 바인드된 값들 중에서 샤드키와 관련된 값을 찾고, 그 후 바인드값을 해석하여 샤드 쿼리를 수행할 인메모리DB(430, 432, 434, 436, 438)를 선택한다. 선택된 인메모리DB에 대하여 SQLExecute()(446)를 수행하고, 수행 결과를 어플리케이션(412)에 전달한다.

도 5 는 본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템에서 복합형스트림데이터를 처리하는 흐름도를 도시한다.

데이터수집부에서 다양한 데이터 소스들로부터 생성된 복합형스트림을 수집한다(S510). 복합형스트림은 빅데이터, 영상데이터, 오디오데이터, 텍스트, SNS(Social Network System)의 트윗메시지, 센서 데이터, HTML 데이터, XML 데이터 등과 같은 다양한 종류의 데이터를 모두 포함한다.

데이터분산처리부에서는 수집한 복합형스트림을 정형데이터, 반정형데이터 및 비정형데이터로 실시간으로 분류하고, 적어도 하나의 인메모리데이터베이스에 분산하여 저장한다. 또한, 데이터분산처리부에서는 수신한 복합형스트림을 데이터유형, 이벤트 유형 또는 기설정된 기준에 따라 수신한 복합형스트림을 분산처리할 수 있다.

적어도 하나의 인메모리데이터베이스는 정형데이터, 반정형데이터, 비정형데이터 및 복합형스트림을 처리한 결과를 실시간으로 저장하고(S530), 추가적으로 분석부를 통해 수신한 데이터를 통합하거나 분류하는 처리가 가능하다.

본 발명의 바람직한 일 실시예에서 분산인메모리기반 복합형스트림 데이터처리시스템은 데이터수집부에서 수집한 복합형스트림을 복합형스트림을 적어도 하나의 인메모리데이터베이스에 샤딩(sharding) 방식으로 분산하여 처리가 가능하다(S540).

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

분산인메모리기반 복합형스트림 데이터처리시스템으로서,
클라이언트 어플리케이션을 포함하고, 다양한 데이터 소스들로부터 생성된 복합형 고속스트림 데이터를 수집하는 데이터수집부;
상기 수집한 복합형 고속스트림 데이터를 형태의 유무 또는 연산가능 여부로 분류하여, 형태가 있고 연산가능한 데이터는 정형 데이터로, 형태가 있으나 연산가능하지 않은 데이터는 반정형 데이터로, 그리고 형태도 없고 연산도 가능하지 않은 데이터는 비정형 데이터로 실시간 분류하여 처리하는 데이터분산처리부;
상기 정형데이터, 상기 반정형데이터 및 상기 비정형데이터를 저장하고, 상기 복합형 고속스트림 데이터를 분석한 결과를 분산하여 저장하는 적어도 하나의 인메모리데이터베이스;
사용자 쿼리를 분석하여 샤드 객체가 포함된 샤드쿼리인지 판단하고, 샤드쿼리인 경우 샤드키(Shard Key)를 기준으로 데이터를 상기 적어도 하나 이상의 인메모리데이터베이스 각각에 분산처리하는 메타노드;및
상기 클라이언트 어플리케이션에 라이브러리 형태로 설치되어, 상기 클라이언트 어플리케이션과 상기 적어도 하나 이상의 인메모리데이터베이스 간의 코디네이터 역할을 수행하며, 사용자 쿼리를 상기 메타 노드에 전달하고, 상기 메타노드에 등록된 상기 적어도 하나 이상의 인메모리데이터베이스의 정보를 수신하여 상기 데이터수집부와 상기 적어도 하나 이상의 데이터수집부의 연결을 수행하는 샤드라이브러리;를 포함하고, 상기 적어도 하나의 인메모리데이터베이스 각각은 상기 복합형 고속스트림 데이터를 분석하는 분석부;를 더 포함하며,
상기 분산인메모리기반 복합형스트림 데이터처리시스템은 서버측 샤딩모드 또는 클라이언트측 샤딩모드로 구현이 가능하고,
상기 분산인메모리기반 복합형스트림 데이터처리시스템이 서버측 샤딩모드로 구현되는 경우, 상기 클라이언트 어플리케이션에서 상기 메타노드에 접속하고, 상기 메타노드는 세션을 생성하며, 상기 클라이언트 어플리케이션에서 상기 메타노드에 상기 샤드쿼리를 요청하면, 상기 메타노드에 등록된 상기 적어도 하나의 인메모리데이터베이스 각각에 대해 샤드 커넥션이 세션마다 생성되며
상기 분산인메모리기반 복합형스트림 데이터처리시스템이 클라이언트측 샤딩모드로 구현되는 경우, 상기 클라이언트 어플리케이션에 설치된 샤드라이브러리가 상기 메타노드에 접속하여 상기 메타노드에 등록된 상기 적어도 하나의 인메모리데이터베이스 각각의 정보를 수신하고, 상기 적어도 하나의 인메모리데이터베이스 각각에 모두 접속하는 경우 샤드 커넥션을 생성하는 것을 특징으로 하는 분산인메모리기반 복합형스트림 데이터처리시스템.
삭제
삭제
삭제
제 1 항에 있어서, 상기 복합형 고속스트림 데이터는
센서 데이터, XML 형식의 데이터, HTML 형식의 데이터, 텍스트 데이터, 음성 데이터 및 영상 데이터를 포함하는 것을 특징으로 하는 분산인메모리기반 복합형스트림 데이터처리시스템.
제 5 항에 있어서,
상기 음성 데이터는 음성-텍스트 변환을 수행하여 비정형데이터로 활용하는 것을 특징으로 하는 분산인메모리기반 복합형스트림 데이터처리시스템.
제 5 항에 있어서,
상기 영상 데이터는 영상 정합 기술 내지 특징점 추출 기술을 기초로 비정형데이터로 활용되며, 영상 분류가 추가로 수행되도록 구현될 수 있는 것을 특징으로 하는 분산인메모리기반 복합형스트림 데이터처리시스템.
제 1 항에 있어서,
상기 분석부는 상기 반정형데이터 및 상기 비정형데이터에 대해 통계적 기법과 데이터마이닝 기법을 이용하여 필터링을 수행하는 것을 특징으로 하는 분산인메모리기반 복합형스트림 데이터처리시스템.
제 1 항에 있어서, 상기 분석부는
단순 프로세싱에서는 한 번에 하나의 스트림 데이터를 처리를 수행하고, 동시 다수의 이벤트 스트림간에는 상호 연결을 처리하는 상관기능(Correlation), 다수의 이벤트 간의 상호 연관관계를 연속적으로 매칭 하여 실시간으로 패턴을 검출하는 패턴매칭기능(Pattern Matching), 이벤트 처리시 단일 스트림을 하나 이상의 조건, 패턴 또는 정규식 표현에 따라 발생시점별로 분리하는 필터링기능(Filtering), 연속되어 발생하는 여러 이벤트 소스들을 통합하여 가치 있는 정보로 취합하여 가공하는 집계기능(Aggregate) 중 적어도 하나 이상을 지원하는 것을 특징으로 하는 분산인메모리기반 복합형스트림 데이터처리시스템.
제 1 항에 있어서, 상기 복합형 고속스트림 데이터는
센서로부터 수신한 데이터 및 소셜네트워크서비스(SNS)에 대한 사용 로그 데이터(usage log data)를 포함하는 것을 특징으로 하는 분산인메모리기반 복합형스트림 데이터처리시스템.
제 10항에 있어서, 상기 분석부는
상기 소셜네트워크서비스에 대한 사용 로그 데이터에 대해 형태소 분석기를 이용하여 명사만 추출한 후 LDA(Latent Dirichlet Allocation)을 이용하여 주제를 이루는 토픽들의 집합을 추출하여 토픽모델링을 수행하고, 토픽 모델링에서 도출된 단어를 대상으로 시간대별 빈도수를 계산하여 정형화된 시계열 데이터로 변환하여 분석을 수행하는 것을 특징으로 하는 분산인메모리기반 복합형스트림 데이터처리시스템.
제 1 항에 있어서,
상기 정형데이터는 지하에 부착된 센서로부터 수신된 센서데이터를 포함하고, 상기 정형데이터, 상기 반정형데이터, 상기 비정형데이터는 특정 이벤트를 기준으로 분류, 통합이 가능한 것을 특징으로 하는 분산인메모리기반 복합형스트림 데이터처리시스템.
삭제