KR20170128666A

KR20170128666A - 질의 처리 방법 및 시스템

Info

Publication number: KR20170128666A
Application number: KR1020160058196A
Authority: KR
Inventors: 김성수; 원종호; 이태휘; 정문영
Original assignee: 한국전자통신연구원
Priority date: 2016-05-12
Filing date: 2016-05-12
Publication date: 2017-11-23

Abstract

본 발명의 실시 예들은, 질의 처리 방법 및 시스템에 관한 것으로, 본 발명의 일 실시 예에 따른 질의 처리 방법은, 관계형 데이터베이스에 포함된 컬럼들 중 통계 연산의 대상이 되는 컬럼을 이용하여 배열 데이터베이스를 구축하는 단계; 수행 대상 질의를 분석하는 단계; 및 상기 수행 대상 질의 내에 통계 연산이 존재하는 경우, 해당 통계 연산을 상기 배열 데이터베이스를 이용하여 처리하는 단계를 포함한다. 본 발명의 실시 예들에 따르면, 관계형 데이터베이스와 배열 데이터베이스를 연동함으로써, 질의 처리 속도를 향상시킬 수 있다.

Description

질의 처리 방법 및 시스템{Query processing method and system thereof}

본 발명의 실시 예들은, 질의 처리 방법 및 시스템에 관한 것이다.

빅데이터 분석 과정에서 주요 사용되는 OLAP (Online Analytical Processing) 질의에서는, 전반적인 데이터 통계 정보를 획득하기 위해서 합계(SUM) 및 평균(AVG) 등과 같은 OLAP 통계 연산이 주로 사용된다.

또한, 최근 다양한 장치에서 생성되는 센서 데이터(예를 들어, IoT data)와 같은 데이터를 이용한 계산 집약적인 통계 연산들이 많이 이용되고 있다. 데이터 마이닝과 기계 학습에서 사용하는 클러스터링 (clustering) 관련 알고리즘(예를 들어, K-Means, Canopy), 그래프 알고리즘(예를 들어, PageRank, Line-Rank, paths), Gradient descent 관련 알고리즘 (예를 들어, Logistic Regression, Matrix Factorization)에서 필요한 벡터 및 행렬 연산이 빅데이터 분석 과정에서 필요한 핵심적인 빌딩 블록으로 자리 잡았다.

이와 같이, 빅데이터 분석 과정에서 대용량 데이터에 대한 통계 연산은 복잡한 질의에서 필수적인 역할을 담당하고 있다.

기존 관계형 데이터베이스 관리시스템(Relational DataBase Management System; RDBMS)을 통해서, 복잡한 통계 연산을 포함하는 질의를 빠른 시간 내에 처리하는 것은 쉬운 작업이 아니다.

미국 공개 특허 US 2015/0220584 (Dynamic modification of a database data structure)

본 발명의 실시 예들은, 관계형 데이터베이스와 배열 데이터베이스를 연동하여 질의 처리 속도를 향상시킬 수 있는 방안을 제공한다.

본 발명의 일 실시 예에 따른 질의 처리 방법은, 관계형 데이터베이스에 포함된 컬럼들 중 통계 연산의 대상이 되는 컬럼을 이용하여 배열 데이터베이스를 구축하는 단계; 수행 대상 질의를 분석하는 단계; 및 상기 수행 대상 질의 내에 통계 연산이 존재하는 경우, 해당 통계 연산을 상기 배열 데이터베이스를 이용하여 처리하는 단계를 포함한다.

본 발명의 실시 예들에 따르면, 관계형 데이터베이스와 배열 데이터베이스를 연동함으로써, 질의 처리 속도를 향상시킬 수 있다.

본 발명의 실시 예들에 따르면, 사물인터넷 장치들로부터 수집되는 다양한 데이터에 대한 데이터 마이닝 및 기계 학습을 위해 필요한 반복되는 계산(iterative computation)을 배열 데이터베이스를 이용하여 처리함으로써, 질의 처리 속도를 향상시킬 수 있다.

도 1은 본 발명의 일 실시 예에 따른 질의 처리 방법을 설명하기 위한 개념도,
도 2는 본 발명의 일 실시 예에 따른 배열 데이터베이스 구축 방법을 설명하기 위한 흐름도,
도 3은 본 발명의 일 실시 예에 따른 배열 매핑 테이블의 예를 설명하기 위한 예시도,
도 4는 본 발명의 일 실시 예에 따른 분산 매핑 테이블의 예를 설명하기 위한 예시도,
도 5는 관계형 데이터베이스 내에 존재하는 스타 스키마(star schema) 기반의 데이터 모델을 설명하기 위한 예시도,
도 6은 배열 데이터 베이스 생성 후의 데이터 모델을 설명하기 위한 예시도,
도 7은 본 발명의 일 실시 예에 따른 질의 처리 방법을 설명하기 위한 예시도,
도 8은 본 발명의 일 실시 예에 따른 질의 처리 시스템을 설명하기 위한 블록도,
도 9는 본 발명의 일 실시 예에 따른 질의 처리 장치를 설명하기 위한 블록도.

이하에서, 본 발명의 실시 예들을 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

이하, 첨부되는 도면을 참조하여 본 발명의 실시 예들을 설명한다.

도 1은 본 발명의 일 실시 예에 따른 질의 처리 방법을 설명하기 위한 개념도이다.

질의 처리 장치는, 관계형 데이터베이스를 대상으로 하는 질의 이력을 수집 및 분석하여 통계 연산의 대상이 되는 컬럼들을 확인할 수 있다. 질의 처리 장치는, 통계 연산의 대상이 되는 컬럼들을 이용하여 배열 데이터베이스를 구축할 수 있다.

배열 데이터베이스 구축 이후에, 통계 연산을 포함하는 질의가 입력되는 경우, 질의 처리 장치는, 해당 통계 연산을 배열 데이터베이스를 이용하여 처리할 수 있다. 즉, 질의 처리 장치는, 통계 연산은 배열 데이터베이스를 이용하여 처리하고, 통계 연산 이외의 연산(이하, 비통계 연산)은 관계형 데이터베이스를 이용하여 처리할 수 있다. 본 발명의 일 실시 예에 따르면, 통계 연산이 배열 데이터베이스를 이용하여 처리되기 때문에, 질의 처리 속도가 향상될 수 있다.

이하, 배열 데이터베이스 구축에 이용되는 질의 이력 및 질의 이력을 구성하는 질의와의 구별을 위하여, 배열 데이터베이스 구축 이후에 수행이 요구된 질의를 수행 대상 질의라 한다.

도 2는 본 발명의 일 실시 예에 따른 배열 데이터베이스 구축 방법을 설명하기 위한 흐름도이다. 실시 예에 따라, 도 2에 도시된 단계들 중 적어도 하나는 생략될 수 있으며, 단계들의 순서는 달라질 수 있다.

단계(201)에서, 질의 처리 장치는, 질의 이력을 수집할 수 있다. 질의 이력은, 관계형 데이터베이스를 대상으로 하는 OLAP 질의들의 리스트일 수 있다.

단계(203)에서, 질의 처리 장치는, 질의 이력을 분석하여 통계 연산의 대상이 되는 컬럼(이하, 통계 연산 대상 컬럼)이 있는지 여부를 확인할 수 있다. 즉, 질의 처리 장치는, 질의 이력을 구성하는 각각의 질의에 통계 연산이 포함되어 있는지 확인하고, 통계 연산이 포함되어 있는 경우 해당 통계 연산의 대상이 되는 컬럼을 관계형 데이터베이스를 참조하여 확인할 수 있다. 통계 연산의 예로는, SUM, AVG 및 COUNT 등이 있다.

단계(205)에서, 질의 처리 장치는, 통계 연산 대상 컬럼을 이용하여 배열을 생성할 수 있다. 즉, 통계 연산 대상 컬럼에 속하는 필드들은, 배열의 배열 객체로서 생성될 수 있다. 배열 객체는, 배열을 구성하는 각 객체를 의미한다. 배열 객체는, 해당되는 컬럼의 데이터 타입(예를 들어, 정수(INT) 타입인지, 플로트(FLOAT) 타입인지 또는 더블(DOUBLE) 타입)에 맞게 생성될 수 있다.

단계(207)에서, 질의 처리 장치는, 통계 연산 대상 컬럼의 정보와 이에 대응하는 배열의 정보를 매핑한 배열 매핑 정보를 저장하는 배열 매핑 테이블을 생성하고, 이를 저장 및 관리할 수 있다. 배열 매핑 테이블의 일 예를 도 3에 도시하였다. 배열 매핑 테이블은, 통계 연산 대상 컬럼의 컬럼명과 해당 컬럼명에 대응하는 배열명을 포함할 수 있다. 배열 매핑 테이블은, 수행 대상 질의에 포함된 통계 연산을 배열 데이터베이스를 이용하여 처리할 때, 통계 연산 대상 컬럼에 대응하는 배열을 검색하는 데 이용될 수 있다.

단계(209)에서, 질의 처리 장치는, 생성된 배열들을 분산 노드에 분배할 수 있다.

단계(211)에서, 질의 처리 장치는, 분배된 배열의 정보와 분산 노드의 정보를 매핑한 분산 매핑 정보를 저장하는 분산 매핑 테이블을 생성하고, 이를 저장 및 관리할 수 있다. 분산 매핑 테이블의 일 예를 도 4에 도시하였다. 분산 매핑 테이블은, 배열명과 해당 배열명에 대응하는 배열을 저장하는 분산 노드명을 포함할 수 있다.

도 5는 관계형 데이터베이스 내에 존재하는 스타 스키마(star schema) 기반의 데이터 모델을 설명하기 위한 예시도이다.

도 5에는, 일 예로서, 1개의 팩트 테이블(fact table)과 3개의 차원 테이블(dimension table)로 구성되는 데이터 모델을 도시하였다.

차원 테이블은, 책에 관한 정보를 보유하는 Book 테이블(510), 서점에 관한 정보를 보유하는 Store 테이블(520) 및 구매 날짜 정보를 보유하는 Time 테이블(530)을 포함한다. Sales 테이블(500)은, 팩트 테이블로서, 전술한 3개의 차원 테이블을 이용해서 구축되는 판매 현황을 보유한다.

여기서, <표 1>에 나타낸 바와 같은 OLAP 질의 이력이 수집된 경우를 가정한다.

SELECT Genre, SUM(Price)
FROM Sales, Book
WHERE Sales.BookID = Book.BookID
GROUP BY Genre

<표 1>에 나타낸 OLAP 질의 이력에는, 통계 연산 중 하나인 SUM이 포함되어 있음을 알 수 있다. 전술한 바와 같이, 통계 연산의 대상이 되는 통계 연산 대상 컬럼은, 배열로 생성될 대상이 될 수 있다. 따라서, SUM 연산의 대상이 되는 컬럼인 Sales 테이블의 Price 컬럼은, 배열 데이터베이스의 배열로 생성될 대상이 될 수 있다.

도 6은 배열 데이터 베이스 생성 후의 데이터 모델을 설명하기 위한 예시도이다.

도 6에는, 도 5에 도시된 데이터 모델에서 Count 컬럼과 Price 컬럼이, 배열 데이터베이스의 배열(600)로 생성된 예를 도시하였다.

일 실시 예에서, 배열 생성을 위하여, SQL의 DDL을 확장한 'CREATE ARRAY'구문이 이용될 수 있다. Count 컬럼과 Price 컬럼을 배열 데이터베이스의 배열로 생성하기 위한 'CREATE ARRAY' 구문의 예를 <표 2>에 나타내었다.

CREATE ARRAY Count(
x INTEGER DIMENSION [1],
v INTEGER DEFAULT 0);

CREATE ARRAY Price(
x INTEGER DIMENSION [1],
v INTEGER DEFAULT 0);

실시 예에 따라, 배열(600) 생성의 대상이 된 컬럼들은, 관계형 데이터베이스 상에서 제거될 수 있다. 실시 예에 따라, 배열을, 행 기준(row major)으로 생성할 것인지 또는 열 기준(column major)으로 생성할 것인지는, 응용에 따라 달리 결정될 수 있다.

도 7은 본 발명의 일 실시 예에 따른 질의 처리 방법을 설명하기 위한 예시도이다. 실시 예에 따라, 도 7에 도시된 단계들 중 적어도 하나는 생략될 수 있으며, 단계들의 순서는 달라질 수 있다.

단계(701)에서, 질의 처리 장치는, 수행 대상 질의를 입력받을 수 있다. 수행 대상 질의는, OLAP 질의일 수 있다.

단계(703)에서, 질의 처리 장치는, 수행 대상 질의를 기반으로 질의 실행 계획을 수립할 수 있다. 질의 실행 계획을 수립하기 위하여, 질의 처리 장치는, 수행 대상 질의에 대한 구문 분석을 수행하고, 구문 분석 결과를 기반으로 대수학 표현식(algebra expression)을 생성할 수 있다.

단계(705)에서, 질의 처리 장치는, 수행 대상 질의 내에 통계 연산이 존재하는지 여부를 확인할 수 있다. 이러한 확인은, 단계(703)에서의 구문 분석 결과를 기반으로 이루어질 수 있다. 여기서, 수행 대상 질의 내에는 통계 연산과 비통계 연산이 존재한다고 가정한다. 따라서, 질의 처리 정치는, 단계(707)로 진행할 수 있다.

단계(707)에서, 질의 처리 장치는, 통계 연산 대상 컬럼에 대응하는 배열을 확인할 수 있다. 예를 들어, 질의 처리 장치는, 통계 연산의 대상이 되는 컬럼을 확인하고, 배열 매핑 테이블을 참조하여 해당 컬럼에 대응하는 배열을 확인할 수 있다.

단계(709)에서, 질의 처리 장치는, 배열 데이터베이스를 이용하여 통계 연산을 수행하고, 통계 연산 결과를 취합할 수 있다. 즉, 질의 처리 장치는, 단계(607)에서 확인된 배열을 이용하여 통계 연산을 수행할 수 있다. 만약, 배열들이 복수의 분산 노드에 분산된 경우라면, 질의 처리 장치는, 분산 매핑 테이블을 참조하여 단계(707)에서 확인된 배열이 어느 분산 노드에 저장되어 있는지 확인할 수 있다. 배열들이 분산 노드에 분산되어 저장되어 있는 경우, 복수의 통계 연산이 병렬적으로 수행될 수 있다.

단계(711)에서, 질의 처리 장치는, 질의 실행 계획을 최적화할 수 있다. 질의 실행 계획의 최적화는, 관계형 데이터베이스를 대상으로 이루어질 수 있다. 이전 단계에서 통계 연산 결과가 취합된 상태이기 때문에, 통계 연산을 제외하고 비통계 연산들을 대상으로 질의 실행 계획이 최적화될 수 있다.

단계(713)에서, 질의 처리 장치는, 최적화된 질의 실행 계획에 따라 분산 실행 계획을 수립할 수 있다. 분산 실행 계획에 따라 분산 노드들에서 질의 처리를 위한 연산들이 수행될 수 있다.

본 발명의 실시 예들에 따른 질의 처리 방법은, 분산된 복수의 장치 상에서 구현될 수 있다. 이를 도 8을 참조하여 설명한다. 도 8은 본 발명의 일 실시 예에 따른 질의 처리 시스템을 설명하기 위한 블록도이다.

도 8을 참조하면, 본 발명의 일 실시 예에 따른 질의 처리 시스템은, 마스터 노드(810), 배열 매핑 서버(820), 분산 매핑 서버(830) 및 복수의 분산 노드들(840)을 포함한다. 실시 예에 따라, 전술한 구성 요소들 중 적어도 하나는 생략될 수 있다.

배열 데이터 베이스 구축을 위하여, 질의 처리 시스템의 각 구성 요소들은, 아래와 같은 동작을 수행할 수 있다.

마스터 노드(810)는, 기업에서 운영하고 있는 ERP(Enterprise Resource Planning) 및 CRM(Customer Relationship Management) 등과 같은 운영 데이터베이스(800)로부터 수집된 데이터를 이용하여 관계형 데이터베이스를 구축할 수 있다.

마스터 노드(810)는, 관계형 데이터베이스에 대한 질의 이력을 기반으로 통계 연산의 대상이 되는 통계 연산 대상 컬럼을 확인하고, 확인된 통계 연산 대상 컬럼을 배열 데이터베이스의 배열로 생성할 수 있다. 마스터 노드(810)는, 통계 연산 대상 컬럼과 이에 대응하는 배열에 대한 정보가 매핑된 배열 매핑 테이블을 생성하고, 이를 배열 매핑 서버(820)에게 제공할 수 있다.

마스터 노드(810)는, 생성된 배열들을 복수의 분산 노드들(840)에게 분배할 수 있다. 마스터 노드(810)는, 배열과 해당 배열이 분배된 분산 노드의 정보가 매핑된 분산 매핑 테이블을 생성하고, 이를 분산 매핑 서버(830)에게 제공할 수 있다.

수행 대상 질의 처리를 위하여, 질의 처리 시스템의 각 구성 요소들은, 아래와 같은 동작을 수행할 수 있다.

마스터 노드(810)는, 수행 대상 질의를 분석하고, 질의 실행 계획을 수립할 수 있다.

마스터 노드(810)는, 수행 대상 질의에 통계 연산이 포함되어 있는 경우, 통계 연산 대상 컬럼에 대한 정보(예를 들어, 컬럼명)를 배열 매핑 서버(820)에게 제공할 수 있다. 이에 따라, 배열 매핑 서버(820)는, 자신이 관리하는 배열 매핑 정보를 참조하여, 통계 연산 대상 컬럼에 대응하는 배열에 대한 정보(예를 들어, 배열명)를 마스터 노드(810)에게 제공할 수 있다.

배열이 복수의 분산 노드에 분배된 환경에서, 마스터 노드(810)는, 배열에 대한 정보를 분산 매핑 서버(830)에게 제공할 수 있다. 이에 따라, 분산 매핑 서버(830)는, 자신이 관리하는 분산 매핑 정보를 참조하여, 해당 배열을 저장하는 분산 노드에 대한 정보(분산 노드명)를 마스터 노드(810)에게 제공할 수 있다.

마스터 노드(810)는, 통계 연산 대상 컬럼에 대한 정보, 배열에 대한 정보 및 분산 노드에 대한 정보 중 적어도 하나를 이용하여, 복수의 분산 노드들(840)이 통계 연산을 수행할 수 있도록 작업을 할당할 수 있다. 마스터 노드(810)는, 복수의 분산 노드들(840)에서 병렬적으로 수행된 작업 수행 결과를 수신하고, 이를 취합할 수 있다.

마스터 노드(810)는, 통계 연산에 대한 작업 수행 결과를 반영하여 질의 실행 계획을 최적화하고, 최적화된 질의 실행 계획에 따라 분산 실행 계획을 수립할 수 있다.

본 발명의 실시 예들은, 컴퓨터 시스템 내에, 예를 들어, 컴퓨터 판독가능 기록 매체로 구현될 수 있다. 도 9에 도시된 바와 같이, 컴퓨터 시스템(900)은 하나 이상의 프로세서(910), 메모리(920), 저장부(930), 사용자 인터페이스 입력부(940) 및 사용자 인터페이스 출력부(950) 중 적어도 하나 이상의 요소를 포함할 수 있으며, 이들은 버스(960)를 통해 서로 통신할 수 있다. 또한, 컴퓨터 시스템(900)은 네트워크에 접속하기 위한 네트워크 인터페이스(970)를 또한 포함할 수 있다. 프로세서(910)는 메모리(920) 및/또는 저장소(930)에 저장된 처리 명령어를 실행시키는 CPU 또는 반도체 소자일 수 있다. 메모리(920) 및 저장부(930)는 다양한 유형의 휘발성/비휘발성 기억 매체를 포함할 수 있다. 예를 들어, 메모리는 ROM(924) 및 RAM(925)을 포함할 수 있다.

이에 따라, 본 발명의 실시 예들은 컴퓨터로 구현되는 방법 또는 컴퓨터 실행 가능 명령어들이 저장된 비휘발성 컴퓨터 기록 매체로 구현될 수 있다. 상기 명령어들은 프로세서에 의해 실행될 때 본 발명의 적어도 일 실시 예에 따른 방법을 수행할 수 있다.

Claims

관계형 데이터베이스에 포함된 컬럼들 중 통계 연산의 대상이 되는 컬럼을 이용하여 배열 데이터베이스를 구축하는 단계;
수행 대상 질의를 분석하는 단계; 및
상기 수행 대상 질의 내에 통계 연산이 존재하는 경우, 해당 통계 연산을 상기 배열 데이터베이스를 이용하여 처리하는 단계
를 포함하는 질의 처리 방법.