KR102229311B1

KR102229311B1 - 데이터 분포를 고려한 대용량 데이터 계수 장치 및 그를 위한 컴퓨터로 읽을 수 있는 기록 매체

Info

Publication number: KR102229311B1
Application number: KR1020140175206A
Authority: KR
Inventors: 박근태; 이재영; 최승운
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2014-12-08
Filing date: 2014-12-08
Publication date: 2021-03-17
Also published as: KR20160069351A

Abstract

데이터 계수와 관련된 질의를 수신하는 과정; 상기 질의로부터 계수 데이터에 대한 계수 기준을 추출하고 상기 계수 기준에 기초하여 계수 키를 설정하는 과정; 자체 저장된 계수 데이터를 각 계수 키에 따라 분류한 로컬 분류결과를 생성하는 과정; 및 복수의 로컬 분류부로부터 상기 로컬 분류결과를 수신하여 상기 수신된 로컬 분류결과에 포함된 데이터를 할당된 계수 키의 값에 따라 계수하여 분류별 계수결과를 생성하는 과정을 포함하는 대용량 데이터 계수 장치 및 그를 위한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.

Description

데이터 분포를 고려한 대용량 데이터 계수 장치 및 그를 위한 컴퓨터로 읽을 수 있는 기록 매체{Apparatus for Counting the Number of Large-Scale Data by Taking Account of Data Distribution and Computer-Readable Recording Medium with Program therefor}

본 실시예는 데이터 분포를 고려한 대용량 데이터 계수 장치 및 그를 위한 컴퓨터로 읽을 수 있는 기록 매체에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

Hadoop과 같은 대용량 데이터베이스에서 데이터의 키값에 따라 리스트의 개수를 세는 작업은 중요하다. 예를 들어, 어떤 블로그 서비스에서 블로그 접속 로그로부터 블로그별 열람자 수를 세거나 할 때 몇 명의 열람자가 접속을 했는지 여부를 아는 것을 예로 들 수 있다.

예컨대, 리스트의 종류 개수를 세는 질의 중 하나로서 'count distinct'란 대용량 데이터 테이블에서 특정 컬럼(Column)의 값에서 서로 다른 값을 갖는 레코드가 각각 몇 개인지를 계수하는 질의 형태이며, 특정 컬럼의 값을 기준으로 계수를 하라는 의미로서 'group by column' 명령이 함께 이용될 수 있다.

이와 같이 Hadoop과 같은 대용량 데이터의 계수 시에 키값에 따라서 계수 데이터를 처리하는 서버가 달라지도록 하는 방법을 사용하는 경우, 계수의 기준이 되는 키값별로 데이터가 고르게 분포되어 있는 경우에는 각 서버의 부하도 고르게 분포될 수 있지만 일부 키값에 해당하는 데이터가 편중되어 존재하는 경우에는 해당 키값에 대응되는 계수 데이터를 처리하는 서버에만 데이터를 계수하는 부하가 편중되어 전체 계수 처리 시간이 오래 걸리는 문제가 발생할 수 있다.

본 실시예는 데이터 분포를 고려한 대용량 데이터 계수 방법을 제공하는데 주된 목적이 있다.

본 실시예의 일 측면에 의하면, 데이터 계수 작업과 관련된 질의를 수신하는 질의 수신부; 상기 질의로부터 계수 데이터에 대한 계수 기준을 추출하고 상기 계수 기준에 기초하여 계수 키를 설정하는 계수 키 설정부; 자체 저장된 계수 데이터를 각 계수 키에 따라 분류한 로컬 분류결과를 생성하는 로컬 분류부; 및 복수의 로컬 분류부로부터 상기 로컬 분류결과를 수신하여 상기 수신된 로컬 분류결과에 포함된 데이터를 할당된 계수 키의 값에 따라 계수하여 분류별 계수결과를 생성하는 메인 계수부를 포함하는 것을 특징으로 하는 대용량 데이터 계수 장치를 제공한다.

본 실시예의 다른 측면에 의하면, 컴퓨터에, 데이터 계수 작업과 관련된 질의를 수신하는 과정; 상기 질의로부터 계수 데이터에 대한 계수 기준을 추출하고 상기 계수 기준에 기초하여 계수 키를 설정하는 과정; 자체 저장된 계수 데이터를 각 계수 키에 따라 분류한 로컬 분류결과를 생성하는 과정; 및 복수의 로컬 분류부로부터 상기 로컬 분류결과를 수신하여 상기 수신된 로컬 분류결과에 포함된 데이터를 할당된 계수 키의 값에 따라 계수하여 분류별 계수결과를 생성하는 과정을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

이상에서 설명한 바와 같이, 본 실시예에 의하면, 데이터 분포를 고려한 대용량 데이터 계수 방법을 제공하는 효과가 있다.

계수 키값에 대응되는 계수 작업 부하가 고르지 못한 경우 계수 키값을 구성하는 속성공간을 분할하여 계수하는 경우 데이터 계수 시에 계수 처리 서버 사이의 고르게 부하가 분포될 수 있다.

계수하는 키의 값의 개수가 적은 경우에는 다른 속성을 계수하고자 하는 기준 속성에 포함하여 계수키를 설정함으로써 계수 처리 서버 사이의 고른 계수 작업 분포가 형성되도록 한다.

두 가지 계수법을 비교하여 최적의 계수 방법을 적용하고 그 방법에 대한 메타데이터를 기록함으로 추후의 데이터 계수 시에 적응적으로 계수 방법을 적용하여 계수 작업의 효율을 극대화 가능하게 하는 효과가 있다.

도 1은 본 실시예에 따른 대용량 데이터베이스에서 계수 질의를 처리하는 시스템의 구조를 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 대용량 데이터 계수 장치(200)를 블록도로 도시한 도면이다.
도 3은 본 발명의 다른 실시예에 따른 대용량 데이터 계수 방법을 도시한 흐름도이다.
도 4는 계수방법 선택과정을 상세히 도시한 블록도이다.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

도 1은 본 실시예에 따른 대용량 데이터베이스의 계수 질의 처리 시스템(100)의 구조를 도시한 도면이다.

대용량 데이터베이스의 계수 질의 처리 시스템(100)은 복수의 로컬 서버(110, 120, 130)와 복수의 처리 서버(140, 150, 160)를 포함한다. 여기서 처리 서버(140, 150, 160)는 로컬 서버(110, 120, 130) 중에서 선택될 수도 있으나 이에 한정되지는 않는다.

도 1에서, 계수하고자 하는 원본 데이터가 여러 개의 로컬 서버(110, 120, 130)에 분산 저장되어 있다. 예컨대, 제1 로컬서버(110)에는 원본 데이터에서 키값 A1, A2, B3를 각각 포함하는 데이터가 저장되고, 제2 로컬서버(120)에는 원본 데이터 키값 C5, B1, C5를 각각 포함하는 데이터가 저장되고, 제3 로컬서버(130)에는 원본 데이터 키값 A2, B2, C1을 각각 포함하는 데이터가 저장된다.

예컨대, 'count distinct'란 대용량 데이터 테이블에서 특정 컬럼(Column)의 값에서 서로 다른 값을 갖는 레코드가 각각 몇 개인지를 계수하는 질의 형태이다. 특정 컬럼의 값을 기준으로 계수 작업을 하는 것이므로 'group by column'이 함께 이용될 수 있다.

'count distinct' 형태의 질의가 입력된 경우 각 로컬 서버(110, 120, 130)에서는 자체적으로 키값의 중복을 제거하는 과정(예컨대, 'local distinct' 과정)을 수행한다. 따라서, 제1 로컬서버(110)에서는 키값 A1, A2, B3를 각각 포함하는 데이터가 네트워크를 통하여 출력되고, 제2 로컬서버(120)에는 키값 B1, C5를 각각 포함하는 데이터가 네트워크를 통하여 출력되고, 제3 로컬서버(130)에는 키값 A2, B2, C1을 각각 포함하는 데이터가 네트워크를 통하여 출력된다.

제1 처리서버(140)에는 키값 A와 관련된 데이터가 그룹화되어 복수의 로컬 서버(110, 120, 130)로부터 수집하여 A1, A2, A2를 각각 포함하는 데이터가 수집된다. 제2 처리서버(150)에는 키 B와 관련된 데이터가 그룹화되어 복수의 로컬 서버(110, 120, 130)로부터 수집하여 B1, B2, B3를 각각 포함하는 데이터가 수집된다. 제3 처리서버(160)에는 키값 C와 관련된 데이터가 그룹화되어 복수의 로컬 서버(110, 120, 130)로부터 수집하여 C1, C5를 각각 포함하는 데이터가 수집된다.

처리 서버(140, 150, 160)는 네트워크를 통하여 입력된 데이터를 이용하여 해당 키값과 관련된 데이터를 계수한다. 예컨대, 제1 처리서버(140)는 해당하는 키값 A와 관련된 데이터의 개수가 2개인 것으로 계수하고, 제2 처리서버(150)는 해당하는 키값 B와 관련된 데이터의 개수가 3개인 것으로 계수하고, 제3 처리서버(160)는 해당하는 키값 C와 관련된 데이터의 개수가 3개인 것으로 계수한다.

도 2는 본 발명의 일 실시예에 따른 대용량 데이터 계수 장치(200)를 블록도로 도시한 도면이다.

본 발명의 일 실시예에 따른 대용량 데이터 계수 장치(200)는 질의 수신부(210), 계수 키 설정부(220), 로컬 분류부(231, 232, 233), 메인 계수부(241, 242, 243), 보조 계수부(250), 메타데이터 저장부(260) 및 계수방법 선택부(270)를 포함하여 구현될 수 있다. 실시예에 따라서 대용량 데이터 계수 장치(200)는 그 구성요소 중에서 일부 구성요소는 생략되거나 다른 구성요소를 추가로 포함하여 구현될 수 있다.

참고로, 도 2에서 로컬 분류부(231, 232, 233)는 도 1의 로컬 서버(110, 120, 130)의 기능에 대응되고 메인 계수부(241, 242, 243)는 도 1의 처리 서버(140, 150, 160)의 기능에 대응된다.

질의 수신부(210)는 데이터 계수 작업과 관련된 질의를 수신한다.

질의 수신부(210)는 대용량 데이터 계수 장치(200)의 사용자로부터 소정의 입력장치를 이용하여 입력되거나 어플리케이션으로부터 입력된 질의를 수신한다. 여기서 입력되는 질의로는 SQL(Structured Query Language)로 작성된 것을 사용할 수 있으나 본 발명이 이에 한정되지 않고 다양한 언어를 사용할 수 있다.

계수 키 설정부(220)는 질의 수신부(210)에서 수신된 질의로부터 계수하고자 하는 계수 데이터에 대한 계수 기준을 추출하고 추출된 계수 기준으로부터 계수 키를 설정한다. 예컨대, 어떤 블로그의 사용자를 연령별로 계수하고자 할 경우, 연령이라는 속성을 계수 기준으로 추출하고 추출된 연령을 계수 키로서 설정하고 계수 키 값에 대응되는 메인 계수부(241, 242, 243)를 결정한다.

계수 키 설정부(220)는 계수 기준에 대응되는 속성(Attribute)의 공간의 개수가 메인 계수부(241, 242, 243)의 개수보다 크도록 분할하고 분할된 속성 공간에 해당하는 속성값을 메인 계수부에 대응되는 계수 키 값으로 설정한다. 이하에서는 이러한 계수 방법을 키공간 분할법이라 명명한다.

만일, 계수 기준이 고르게 분포된 값을 갖지 않고 일부 값으로 편중된 값을 갖고 또한 계수 처리를 실행하는 메인 계수부(241, 242, 243)의 개수가 매우 작은 경우 복수의 메인 계수부(241, 242, 243)별로 부하가 편중될 수 있다. 예컨대, 메인 계수부(241, 242, 243)의 개수가 3개인 경우를 가정하자. 이때, 제1 메인 계수부(241)는 10대 및 20대 사용자를 계수하고, 제2 메인 계수부(242)는 30대 및 40대 사용자를 계수하고, 제3 메인 계수부(243)는 50대 및 60대 이상의 사용자를 계수하도록 설정한 경우, 해당 블록의 이용자가 20대가 다른 연령대에 비해 훨씬 많다면 제1 메인 계수부(241)의 계수 오버헤드가 상대적으로 클 것이다.

이러한 경우, 계수 기준에 대응되는 연령 속성의 공간의 개수가 메인 계수부(241, 242, 243) 개수보다 크도록(예컨대, 메인 계수부(241, 242, 243) 개수의 복수 배로) 분할하여 정렬하고 분할된 속성 공간에 해당하는 속성값을 정렬된 순서대로 메인 계수부(241, 242, 243)에 대응되는 계수 키 값으로 설정한다. 예컨대, 10세 이하는 제1 메인 계수부(241)에, 11세는 제2 메인 계수부(242)에, 12세는 제3 메인 계수부(243)에, 13세는 제1 메인 계수부(241)에, 14세는 제2 메인 계수부(242)에, 15세는 제3 메인 계수부(243)에,...,58세는 제1 메인 계수부(241)에, 59세는 제2 메인 계수부(242)에, 60세 이상은 제3 메인 계수부(243)에 대응되도록 순차적으로 할당한다. 이와 같이 속성공간을 분할하여 대응되는 메인 계수부(241, 242, 243)를 결정하는 경우 데이터 계수 수행 시에 고르게 부하가 분포될 수 있다. 여기서 편중된 값을 갖는 계수 기준 속성은 기설정되어 있어서 해당 속성으로 계수 질의가 입력되는 경우 속성 공간을 분할하는 방법을 사용하여 계수할 수 있다.

계수 키 설정부(220)는 계수 데이터에 대한 샘플 데이터를 추출하고 계수 키에 따라 샘플 데이터를 분류하고 분류한 결과를 이용하여 각 메인 계수부(241, 242, 243)에 대응되는 계수 키의 값을 결정할 수도 있다. 예컨대, 22세 이하 사용자는 제1 메인 계수부(241)에, 23~28세 사용자는 제2 메인 계수부(242)에, 29세 이상 사용자는 제3 메인 계수부(243)에 대응되도록 할당하여 처리 데이터 수가 메인 계수부(241, 242, 243)별로 고르게 분포되도록 한다. 이하에서는 이러한 계수 방법을 샘플 데이터 참조법이라 명명한다.

계수 키 설정부(220)는 계수 기준에 대응되는 속성값의 개수가 기설정 개수 이하인 경우 다른 속성인 제2 속성을 수신된 계수 기준에 대응되는 속성과 결합하여 계수 키를 설정하는 확장 키 설정법을 사용할 수도 있다. 예컨대, 성별로 데이터를 계수하는 경우에 남자 사용자 데이터는 제1 메인 계수부(241)에 할당하고, 여자 사용자 데이터는 제2 메인 계수부(242)에 할당하는 경우 제1 및 제2 메인 계수부(241, 242)가 오버헤드가 크지만 제3 메인 계수부(243)는 아무 일도 하지 않게 되어 부하가 편중된다. 이 경우에는 사용자 ID 속성을 성별 속성과 결합하여 계수 키로 설정한다. 예컨대, 남자이면서 ID가 A~Q인 경우는 제1 메인 계수부(241)에, 남자이면서 ID가 R ~ Z인 경우와 여자이면서 A~H인 경우는 제2 메인 계수부(242)에, 여자이면서 ID가 I~Z인 경우는 제3 메인 계수부(243)에 대응되도록 할당하여 처리 데이터 수가 메인 계수부(241, 242, 243)별로 고르게 분포되도록 한다.

보조 계수부(250)는 복수의 메인 계수부(241, 242, 243)로부터 분류별 계수결과를 수집하여 분류별 계수결과에 포함된 데이터를 계수 기준에 대응되는 속성값에 따라 분류하여 계수한다. 예컨대, 여자이면서 A~H인 경우는 제2 메인 계수부(242)로부터, 여자이면서 ID가 I~Z인 경우는 제3 메인 계수부(243)로부터 계수결과를 각각 수신하여 두 계수 결과를 합하는 동작을 한다. 보조 계수부(250)는 별개의 구성요소로서 구현될 수 있지만, 메인 계수부(241, 242, 243) 중 어느 하나가 이 기능을 수행할 수도 있으며, 계수 결과를 합하는 대상을 저장하고 있는 어느 하나의 메인 계수부(242, 243) 중 하나를 보조 계수부(250)로 사용할 수도 있다. 이 경우에는 해당 계수 결과는 다른 곳으로 전송하지 않아도 되므로 네트워크 오버헤드가 줄어들 수 있다.

메타데이터 저장부(260)는 계수 키, 이전에 데이터 계수를 수행한 계수 시점, 계수 수행 시간, 테이블 크기 및 최근 계수 방법을 포함하는 메타 데이터를 저장한다. 또한, 각 계수 키 값에 따른 데이터 개수 또는 계수 결과도 저장될 수 있다.

메타 데이터에는 계수를 위한 계수 키를 사용하여 분류하는 'group by' 명령마다 사용된 계수 키 및 메인 계수부(241, 242, 243)에 대응되는 계수 키 값의 개수도 저장되며, 계수 기준도 저장될 수 있다.

이상에서 설명한 바와 같이 계수 키 설정부(220)는 키공간 분할법, 샘플 데이터 참조법 및 확장 키 설정법 중에서 어느 한가지 방법을 사용할 수 있다. 여기서 키공간 분할법 및 샘플 데이터 참조법을 2단계 계수법이라 명명하고 확장 키 설정법은 3단계 계수법이라 명명할 수도 있다.

계수방법 선택부(270)는 질의가 입력된 경우 계수 키 설정부(220)를 제어하여 입력된 질의로부터 계수 데이터에 대한 계수 기준을 추출하고 계수 기준에 기초하여 제1 계수 방법으로 계수 관련 질의를 처리하도록 제1 계수 키를 설정하고, 로컬 분류부(231, 232, 233), 메인 계수부(241, 242, 243) 및 보조 계수부(250)를 제어하여 제1 계수 키로 해당 데이터 계수 처리를 수행하도록 한다. 여기서 제1 계수 방법은 2단계 계수법 또는 3단계 계수법일 수 있다. 여기서, 2단계 계수법을 사용하는 경우 보조 계수부(250)의 동작은 생략될 수 있다.

제1 계수 방법에 의한 데이터 계수가 종료된 경우, 계수방법 선택부(270)는 계수 키 설정부(220)를 제어하여 제1 계수 방법과 다른 제2 계수 방법으로 계수 데이터를 계수하도록 제2 계수 키를 설정하고, 로컬 분류부(231, 232, 233), 메인 계수부(241, 242, 243) 및 보조 계수부(250)를 제어하여 제2 계수 키로 해당 데이터 계수 처리를 수행하도록 한다. 계수방법 선택부(270)는 두 가지 계수 방법을 비교하여 그 비교 결과에 따라 계수 방법을 결정하고 결정된 계수 방법에 따른 계수 키, 계수 수행 시점, 계수 수행 시간, 테이블 크기 및 최근 계수 방법을 메타데이터로서 업데이트한다. 여기서, 2단계 계수법을 사용하는 경우 보조 계수부(250)의 동작은 생략될 수 있다.

만일, 제1 계수 방법으로서 확장 키 설정법을 사용한 경우에는 제2 계수 방법으로서 키공간 분할법 또는 샘플 데이터 참조법을 사용한다.

계수방법 선택부(270)는 제1 계수 방법 실행이 완료된 후에 제2 계수 방법으로 계수 데이터를 계수하는 도중에 제1 계수 방법으로 계수한 수행 시간만큼 경과한 경우 제1 계수 방법을 해당 계수 데이터의 계수 방법으로서 결정하여 계수 결과를 획득하고 제1 계수 방법에 따른 메타 데이터를 업데이트한다.

만일, 제1 계수 방법에 의한 데이터 계수 작업이 종료된 후 실행된 제2 계수 방법에 의한 데이터 계수가 종료된 경우, 계수방법 선택부(270)는 두 계수 방법에 의한 수행시간을 비교하여 제1 계수 방법에 의한 계수 시간이 제2 계수 방법에 의한 계수 방법보다 큰 경우 제2 계수 방법을 입력된 계수 질의에 대한 해당 데이터 계수 방법으로서 결정하여 계수 결과를 획득하고 제2 계수 방법에 따른 계수 키, 계수 수행 시점, 계수 수행 시간, 테이블 크기 및 최근 계수 방법을 메타데이터로서 업데이트한다. 메타데이터에는 계수 키 값의 개수 및 계수 기준도 업데이트될 수 있으며, 각 계수 키 값에 따른 데이터 개수 또는 계수 결과도 저장될 수 있다.

계수방법 선택부(270)는, 제1 계수 방법이 입력된 계수 기준에 대응되는 속성 이외의 다른 속성인 제2 속성을 계수 기준에 대응되는 속성과 결합하여 계수 키를 설정하여 계수하는 방법(즉, 확장 키 설정법)인 경우, 제1 계수 방법에 따른 계수 키 값에 대응되는 메인 계수부(241, 242, 243)별로 데이터 양의 최대값과 최소값을 메타 데이터로부터 참조하고 참조한 최대값과 최소값에 따라 또 다른 속성을 제2 속성으로서 설정하여 계수 키를 생성한다. 예컨대, 메인 계수부(241, 242, 243)별로 최소 계수 데이터 양과 최대 계수 데이터 양 사이의 크기 비율이 기설정 비율 이상이라면 메인 계수부(241, 242, 243)별 계수 키 값을 잘못 설정한 것이므로 또 다른 속성을 이용하여 계수 키를 설정한다. 예컨대, 이전의 계수 방법이 사용자 성별을 기준의 확장 키 설정법을 사용하고 현재 데이터 계수 시에 사용자 성별을 기준의 확장 키 설정법을 사용하고자 하는 경우에, 이전의 계수 시에 제2 속성으로서 사용자 ID를 사용한 경우에 메인 계수부(241, 242, 243)별로 계수 키 값에 따른 데이터 량이 고르게 분포되지 않은 경우 또 다른 속성인 사용자 연령 등을 제2 속성으로서 사용할 수 있다.

계수방법 선택부(270)는 메타데이터 저장부(260)에 저장된 메타 데이터를 참조하여 해당되는 계수 키에 대한 이전 계수 시점 및 해당 시점의 계수 데이터를 저장하는 테이블의 크기에 기초하여 최근 계수 방법으로 계수할 것인지 여부를 결정한다. 즉, 계수방법 선택부(270)는 테이블의 크기가 이전 시점의 기설정 시점의 테이블의 크기와 비슷하고(즉, 기설정 비율 이하의 차이를 보이는 경우) 해당 계수 키에 대한 이전 계수 시점이 현재 시점으로부터 기설정 기간 이내인 경우에 해당 이전 시점의 계수 방법을 사용한다. 여기서 이전 시점이란 최근 계수 시점일 수도 있다.

계수방법 선택부(270)는 메타데이터 저장부(260)에 저장된 메타 데이터를 참조하여 이전에 계수한 방법에 대응되는 계수 키 값의 메인 계수부(241, 242, 243)별 데이터 양의 최대값과 최소값에 근거하여 복수의 계수 방법 중에서 하나의 계수 방법을 선택한다. 즉, 제1 계수 방법이 최근 계수 방법을 의미하고 최근 계수 방법에 따른 계수 키 값에 대응하는 메인 계수부별 데이터 양의 최대값과 최소값 사이의 크기 비율이 기설정 비율 이상인 경우에는 다른 계수 방법을 선택한다.

도 3은 본 발명의 다른 실시예에 따른 대용량 데이터 계수 방법을 도시한 흐름도이다.

본 발명의 다른 실시예에 따른 대용량 데이터 계수 방법은 질의 수신과정(S310), 계수방법 선택과정(S320), 계수 키 설정과정(S330), 로컬 분류과정(S340), 메인 계수과정(S350), 보조 계수과정(S360) 및 메타데이터 저장과정(S370)을 포함한다.

질의 수신과정(S310)에서는 데이터 계수 작업과 관련된 질의를 수신한다.

계수방법 선택과정(S320)에서는 제1 계수 키를 설정하여 제1 계수 방법으로 계수 데이터를 계수하도록 제어하고 제1 계수 방법이 종료된 후 제2 계수 키를 설정하여 제2 계수 방법으로 계수 데이터를 계수하도록 제어하여 두 가지 계수 방법을 비교하여 계수방법을 결정한다.

계수 키 설정과정(S330)에서는 질의로부터 계수 데이터에 대한 계수 기준을 추출하고 추출된 계수 기준에 기초하여 계수 키를 설정한다.

로컬 분류과정(S340)에서는, 자체 저장된 계수 데이터를 각 계수 키에 따라 분류한 로컬 분류결과를 생성한다.

메인 계수과정(S350)에서는 복수의 로컬 서버(즉, 로컬 분류부(231, 232, 233))로부터 로컬 분류결과를 수신하여 수신된 로컬 분류결과에 포함된 데이터를 할당된 계수 키의 값에 따라 계수하여 분류별 계수결과를 생성한다.

보조 계수과정(S360)에서는 복수의 처리 서버(즉, 메인 계수부(241, 242, 243))로부터 분류별 계수결과를 수집하여 분류별 계수결과에 포함된 데이터를 계수 기준에 대응되는 속성값에 따라 분류하여 계수한다.

메타데이터 저장과정(S370)에서는, 최근에 계수를 수행한 최근 계수 시점, 테이블 크기 및 최근 계수 방법을 포함하는 메타 데이터를 저장한다.

질의 수신과정(S310), 계수방법 선택과정(S320), 계수 키 설정과정(S330), 로컬 분류과정(S340), 메인 계수과정(S350), 보조 계수과정(S360) 및 메타데이터 저장과정(S370)은 질의 수신부(210), 계수방법 선택부(270), 계수 키 설정부(220), 로컬 분류부(231, 232, 233), 메인 계수부(241, 242, 243), 보조 계수부(250) 및 메타데이터 저장부(260)의 동작에 각각 대응되므로 더 이상의 상세한 설명은 생략한다.

도 3에서는 과정 S310 내지 과정 S370을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 발명의 일 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것이다. 다시 말해, 본 발명의 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 일 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 도 3에 기재된 순서를 변경하여 실행하거나 과정 S310 내지 과정 S370 중 하나 이상의 과정을 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 도 3은 시계열적인 순서로 한정되는 것은 아니다.

도 4는 계수방법 선택과정(S320)을 상세히 도시한 블록도이다.

도 4에 도시한 바와 같이, 데이터 계수 작업과 관련된 질의로부터 계수 데이터에 대한 계수 기준을 추출한다(S410).

해당 계수 기준 및 계수하고자 하는 테이블에 대한 정보로부터 같은 내용으로 계수 처리를 한 이력이 있는지 여부를 메타 데이터를 참조하여 확인한다(S420).

S420 단계에서 계수처리 이력을 확인한 결과 같은 내용으로 계수처리를 한 이력이 있으면 그 이력이 해당 데이터의 계수 작업에 다시 적용 가능한 이력인지를 확인한다(S430).

S430 단계에서 해당 이력의 내용이 다시 입력된 질의에 대응하는 계수 작업에 적용 가능한 것으로 판단하면 해당 이력의 내용과 같은 방법으로 계수 작업을 처리한다(S440). 예컨대, 계수한 시점이 최근 시점이고 테이블의 크기가 큰 차이가 없는 경우에는 같은 계수 방법으로 처리한다.

S440 단계에서 계수 처리를 한 후에는, 해당 데이터를 계수 처리한 결과를 메타 데이터로 업데이트한다(S450). 예컨대, 계수 처리한 테이블의 크기, 계수 수행 시점 및 계수 수행 시간 등을 메타 데이터로서 업데이트한다. 각 계수 키 값에 따른 데이터 개수 및 처리 서버에 대응되는 계수 키 값의 개수도 메타 데이터로서 저장될 수 있다.

만일, S420 단계에서 계수처리 이력을 확인한 결과 같은 내용으로 계수처리를 수행한 이력이 없거나, S430 단계에서 해당 이력의 내용이 다시 입력된 질의에 대응하는 계수 작업에 적용 가능하지 않은 것으로 판단하면 제1 계수 방법으로서 3단계 계수 방법으로 입력된 질의에 대응하는 데이터 계수 작업을 수행하고 해당 계수 처리에 대한 수행에 걸린 시간(즉, 수행 기간)을 기록한다(S460).

3단계 계수 방법이 종료되면, 제2 계수 방법으로서 2단계(2-step) 계수 방법으로 데이터 계수 작업을 수행한다(S470). 여기서 2단계 계수 방법으로서는 키공간 분할법 또는 샘플 데이터 참조법 중에서 기설정된 방법을 사용할 수 있다.

제2 계수 방법이 수행되는 도중에 제2 계수 방법을 수행하는 시간이 제1 계수 방법을 수행 시간과 같아지는지 또는 제2 계수 방법이 종료되는지 여부를 확인한다(S480).

제2 계수 방법이 수행되는 도중에, 제2 계수 방법을 수행하는 시간이 제1 계수 방법을 수행 시간만큼 경과하거나 또는 제2 계수 방법이 종료된 경우에는 계수 결과를 메타데이터로 업데이트한다(S450).

만일, 제2 계수 방법이 수행되는 도중에 제2 계수 방법을 수행하는 시간이 제1 계수 방법을 수행 시간만큼 경과한 경우에는 제1 계수 방법의 수행시간이 적어도 제2 계수 방법의 수행시간보다 크지는 않는다는 것을 의미하므로 제1 계수 방법을 현재의 질의에 대응되는 데이터 계수 방법으로 결정하고, 해당 제1 계수 방법에 대한 수행 결과를 메타 데이터로서 저장한다. 만일, 제2 계수 방법으로 계수 작업이 종료되었으나 제1 계수 방법의 수행시간에 이르지 않은 경우에는 제2 계수 방법이 제1 계수 방법보다 더 빠른 계수 방법임을 의미하므로 해당 제2 계수 방법에 대한 수행 결과를 메타 데이터로서 저장한다.

이때, 수행 결과로서 저장되는 메타데이터는 계수 방법, 계수 키, 사용된 테이블, 계수 수행시점, 계수 수행 시간, 각 계수 키 값에 따른 데이터 개수 및 처리 서버에 대응되는 계수 키 값의 개수도 저장될 수 있다.

본 발명의 실시예에 따른 대용량 데이터 계수 장치(200)는 각종 기기 또는 유무선 통신망과 통신을 수행하기 위한 통신 모뎀 등의 통신 장치, 프로그램을 실행하기 위한 데이터를 저장하기 위한 메모리, 프로그램을 실행하여 연산 및 제어하기 위한 마이크로프로세서 등을 구비하는 다양한 장치를 의미할 수 있다. 적어도 일 실시예에 따르면, 메모리는 램(Random Access Memory: RAM), 롬(Read Only Memory: ROM), 플래시 메모리, 광 디스크, 자기 디스크, 솔리드 스테이트 디스크(Solid State Disk: SSD) 등의 컴퓨터로 판독 가능한 기록/저장매체일 수 있다. 적어도 일 실시예에 따르면, 마이크로프로세서는 명세서에 기재된 동작과 기능을 하나 이상 선택적으로 수행하도록 프로그램될 수 있다. 적어도 일 실시예에 따르면, 마이크로프로세서는 전체 또는 부분적으로 특정한 구성의 주문형반도체(Application Specific Integrated Circuit: ASIC) 등의 하드웨어로써 구현될 수 있다.

전술한 바와 같이, 도 3에 기재된 대용량 데이터 계수 방법은 프로그램으로 구현되고 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 본 실시예에 따른 대용량 데이터 계수 방법을 구현하기 위한 프로그램이 기록되고 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 또한, 본 실시예를 구현하기 위한 기능적인(Functional) 프로그램, 코드 및 코드 세그먼트들은 본 실시예가 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있을 것이다.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 계수 질의 처리 시스템
110: 제1 로컬서버
120: 제2 로컬서버
130: 제3 로컬서버
140: 제1 처리서버
150: 제2 처리서버
160: 제3 처리서버
200: 대용량 데이터 계수 장치
210: 질의 수신부
220: 계수 키 설정부
231: 제1 로컬 분류부
232: 제2 로컬 분류부
233: 제3 로컬 분류부
241: 제1 메인 계수부
242: 제2 메인 계수부
243: 제3 메인 계수부
250: 보조 계수부
260: 메타데이터 저장부
270: 계수방법 선택부

Claims

데이터 계수와 관련된 질의를 수신하는 질의 수신부;
상기 질의로부터 계수 데이터에 대한 계수 기준을 추출하고 상기 계수 기준에 기초하여 계수 키를 설정하는 계수 키 설정부;
자체 저장된 계수 데이터를 각 계수 키에 따라 분류한 로컬 분류결과를 생성하는 로컬 분류부; 및
복수의 로컬 분류부로부터 상기 로컬 분류결과를 수신하여 상기 수신된 로컬 분류결과에 포함된 데이터를 상기 계수 키의 값에 따라 계수하여 분류별 계수결과를 생성하는 메인 계수부
를 포함하되,
상기 계수 키 설정부는,
상기 계수 기준에 대응되는 속성(Attribute)의 공간의 개수가 상기 메인 계수부의 개수보다 크도록 분할하고 상기 분할된 속성 공간에 해당하는 속성값을 이용하여 상기 계수 키의 값을 설정하는 것을 특징으로 하는 대용량 데이터 계수 장치.
삭제
데이터 계수와 관련된 질의를 수신하는 질의 수신부;
상기 질의로부터 계수 데이터에 대한 계수 기준을 추출하고 상기 계수 기준에 기초하여 계수 키를 설정하는 계수 키 설정부;
자체 저장된 계수 데이터를 각 계수 키에 따라 분류한 로컬 분류결과를 생성하는 로컬 분류부; 및
복수의 로컬 분류부로부터 상기 로컬 분류결과를 수신하여 상기 수신된 로컬 분류결과에 포함된 데이터를 상기 계수 키의 값에 따라 계수하여 분류별 계수결과를 생성하는 메인 계수부
를 포함하되,
상기 계수 키 설정부는,
상기 계수 데이터에 대한 샘플 데이터를 추출하고 상기 계수 키에 따라 상기 샘플 데이터를 분류하고 상기 분류한 결과를 이용하여 상기 계수 키의 값을 결정하는 것을 특징으로 하는 대용량 데이터 계수 장치.
데이터 계수와 관련된 질의를 수신하는 질의 수신부;
상기 질의로부터 계수 데이터에 대한 계수 기준을 추출하고 상기 계수 기준에 기초하여 계수 키를 설정하는 계수 키 설정부;
자체 저장된 계수 데이터를 각 계수 키에 따라 분류한 로컬 분류결과를 생성하는 로컬 분류부; 및
복수의 로컬 분류부로부터 상기 로컬 분류결과를 수신하여 상기 수신된 로컬 분류결과에 포함된 데이터를 상기 계수 키의 값에 따라 계수하여 분류별 계수결과를 생성하는 메인 계수부
를 포함하되,
상기 계수 키 설정부는,
상기 계수 기준에 대응되는 속성값의 개수가 기설정 개수 이하인 경우 다른 속성인 제2 속성을 상기 계수 기준에 대응되는 속성과 결합하여 상기 계수 키를 설정하는 것을 특징으로 하는 대용량 데이터 계수 장치.
제4항에 있어서, 상기 대용량 데이터 계수 장치는,
복수의 메인 계수부로부터 상기 분류별 계수결과를 수집하여 상기 분류별 계수결과에 포함된 데이터를 상기 계수 기준에 대응되는 속성값에 따라 분류하여 계수하는 보조 계수부를 더 포함하는 것을 특징으로 하는 대용량 데이터 계수 장치.
데이터 계수와 관련된 질의를 수신하는 질의 수신부;
상기 질의로부터 계수 데이터에 대한 계수 기준을 추출하고 상기 계수 기준에 기초하여 계수 키를 설정하는 계수 키 설정부;
자체 저장된 계수 데이터를 각 계수 키에 따라 분류한 로컬 분류결과를 생성하는 로컬 분류부; 및
복수의 로컬 분류부로부터 상기 로컬 분류결과를 수신하여 상기 수신된 로컬 분류결과에 포함된 데이터를 상기 계수 키의 값에 따라 계수하여 분류별 계수결과를 생성하는 메인 계수부
를 포함하되,
최근에 계수를 수행한 최근 계수 시점, 테이블 크기 및 최근 계수 방법을 포함하는 메타 데이터를 저장하는 메타데이터 저장부를 더 포함하는 것을 특징으로 하는 대용량 데이터 계수 장치.
제6항에 있어서, 상기 대용량 데이터 계수 장치는,
제1 계수 키를 설정하여 제1 계수 방법으로 상기 계수 데이터를 계수하도록 제어하고 상기 제1 계수 방법이 종료된 후 제2 계수 키를 설정하여 제2 계수 방법으로 상기 계수 데이터를 계수하도록 제어하여 두 가지 계수 방법의 비교 결과에 따라 상기 메타데이터를 업데이트하는 비교 제어부를 더 포함하는 것을 특징으로 하는 대용량 데이터 계수 장치.
제7항에 있어서, 상기 비교 제어부는,
상기 제2 계수 방법으로 상기 계수 데이터를 계수하는 도중에 상기 제1 계수 방법으로 계수한 수행 시간만큼 경과한 경우 상기 제1 계수 방법을 상기 계수 데이터의 계수 방법으로서 결정하여 상기 제1 계수 방법을 상기 최근 계수 방법으로서 업데이트하는 것을 특징으로 하는 대용량 데이터 계수 장치.
제7항에 있어서,
상기 제1 계수 방법이 상기 계수 기준에 대응되는 속성 및 다른 속성인 제2 속성을 결합하여 상기 계수 키를 설정한 방법인 경우, 상기 제1 계수 방법에 따른 계수 키 값에 대응되는 메인 계수부 별로 데이터 양의 최대값과 최소값에 따라 또 다른 속성을 상기 제2 속성으로서 설정하여 상기 계수 키에 결합하여 상기 계수 데이터를 계수하도록 제어하는 계수방법 선택부를 더 포함하는 것을 특징으로 하는 대용량 데이터 계수 장치.
제9항에 있어서, 상기 계수방법 선택부는,
상기 계수 키에 대응되는 데이터 계수에 대한 이전 계수 시점 및 계수 데이터를 저장하는 테이블의 크기에 기초하여 최근 계수 방법으로 계수할 것인지 여부를 결정하는 것을 특징으로 하는 대용량 데이터 계수 장치.
제9항에 있어서, 상기 계수방법 선택부는,
이전에 계수한 방법에 대응되는 계수 키 값의 메인 계수부별 데이터 양의 최대값과 최소값에 근거하여 복수의 계수 방법 중에서 하나의 계수 방법을 선택하는 과정을 수행하는 것을 특징으로 하는 대용량 데이터 계수 장치.
컴퓨터에,
데이터 계수와 관련된 질의를 수신하는 과정;
상기 질의로부터 계수 데이터에 대한 계수 기준을 추출하고 상기 계수 기준에 기초하여 계수 키를 설정하는 과정;
자체 저장된 계수 데이터를 각 계수 키에 따라 분류한 로컬 분류결과를 생성하는 과정; 및
복수의 로컬 분류부로부터 상기 로컬 분류결과를 수신하여 상기 수신된 로컬 분류결과에 포함된 데이터를 상기 계수 키의 값에 따라 계수하여 분류별 계수결과를 생성하는 과정
을 포함하되,
상기 계수 키를 설정하는 과정에서,
상기 계수 기준에 대응되는 속성(Attribute)의 공간의 개수가 메인 계수부의 개수보다 크도록 분할하고 상기 분할된 속성 공간에 해당하는 속성값을 이용하여 상기 계수 키의 값을 설정하는 과정을 실행하되,
상기 메인 계수부는 상기 분류별 계수결과를 생성하기 위하여 상기 컴퓨터에서 실행되는 장치의 구성요소인 것을 특징으로 하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.