KR102229311B1 - 데이터 분포를 고려한 대용량 데이터 계수 장치 및 그를 위한 컴퓨터로 읽을 수 있는 기록 매체 - Google Patents

데이터 분포를 고려한 대용량 데이터 계수 장치 및 그를 위한 컴퓨터로 읽을 수 있는 기록 매체 Download PDF

Info

Publication number
KR102229311B1
KR102229311B1 KR1020140175206A KR20140175206A KR102229311B1 KR 102229311 B1 KR102229311 B1 KR 102229311B1 KR 1020140175206 A KR1020140175206 A KR 1020140175206A KR 20140175206 A KR20140175206 A KR 20140175206A KR 102229311 B1 KR102229311 B1 KR 102229311B1
Authority
KR
South Korea
Prior art keywords
counting
coefficient
data
key
unit
Prior art date
Application number
KR1020140175206A
Other languages
English (en)
Other versions
KR20160069351A (ko
Inventor
박근태
이재영
최승운
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020140175206A priority Critical patent/KR102229311B1/ko
Publication of KR20160069351A publication Critical patent/KR20160069351A/ko
Application granted granted Critical
Publication of KR102229311B1 publication Critical patent/KR102229311B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

데이터 계수와 관련된 질의를 수신하는 과정; 상기 질의로부터 계수 데이터에 대한 계수 기준을 추출하고 상기 계수 기준에 기초하여 계수 키를 설정하는 과정; 자체 저장된 계수 데이터를 각 계수 키에 따라 분류한 로컬 분류결과를 생성하는 과정; 및 복수의 로컬 분류부로부터 상기 로컬 분류결과를 수신하여 상기 수신된 로컬 분류결과에 포함된 데이터를 할당된 계수 키의 값에 따라 계수하여 분류별 계수결과를 생성하는 과정을 포함하는 대용량 데이터 계수 장치 및 그를 위한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.

Description

데이터 분포를 고려한 대용량 데이터 계수 장치 및 그를 위한 컴퓨터로 읽을 수 있는 기록 매체{Apparatus for Counting the Number of Large-Scale Data by Taking Account of Data Distribution and Computer-Readable Recording Medium with Program therefor}
본 실시예는 데이터 분포를 고려한 대용량 데이터 계수 장치 및 그를 위한 컴퓨터로 읽을 수 있는 기록 매체에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
Hadoop과 같은 대용량 데이터베이스에서 데이터의 키값에 따라 리스트의 개수를 세는 작업은 중요하다. 예를 들어, 어떤 블로그 서비스에서 블로그 접속 로그로부터 블로그별 열람자 수를 세거나 할 때 몇 명의 열람자가 접속을 했는지 여부를 아는 것을 예로 들 수 있다.
예컨대, 리스트의 종류 개수를 세는 질의 중 하나로서 'count distinct'란 대용량 데이터 테이블에서 특정 컬럼(Column)의 값에서 서로 다른 값을 갖는 레코드가 각각 몇 개인지를 계수하는 질의 형태이며, 특정 컬럼의 값을 기준으로 계수를 하라는 의미로서 'group by column' 명령이 함께 이용될 수 있다.
이와 같이 Hadoop과 같은 대용량 데이터의 계수 시에 키값에 따라서 계수 데이터를 처리하는 서버가 달라지도록 하는 방법을 사용하는 경우, 계수의 기준이 되는 키값별로 데이터가 고르게 분포되어 있는 경우에는 각 서버의 부하도 고르게 분포될 수 있지만 일부 키값에 해당하는 데이터가 편중되어 존재하는 경우에는 해당 키값에 대응되는 계수 데이터를 처리하는 서버에만 데이터를 계수하는 부하가 편중되어 전체 계수 처리 시간이 오래 걸리는 문제가 발생할 수 있다.
본 실시예는 데이터 분포를 고려한 대용량 데이터 계수 방법을 제공하는데 주된 목적이 있다.
본 실시예의 일 측면에 의하면, 데이터 계수 작업과 관련된 질의를 수신하는 질의 수신부; 상기 질의로부터 계수 데이터에 대한 계수 기준을 추출하고 상기 계수 기준에 기초하여 계수 키를 설정하는 계수 키 설정부; 자체 저장된 계수 데이터를 각 계수 키에 따라 분류한 로컬 분류결과를 생성하는 로컬 분류부; 및 복수의 로컬 분류부로부터 상기 로컬 분류결과를 수신하여 상기 수신된 로컬 분류결과에 포함된 데이터를 할당된 계수 키의 값에 따라 계수하여 분류별 계수결과를 생성하는 메인 계수부를 포함하는 것을 특징으로 하는 대용량 데이터 계수 장치를 제공한다.
본 실시예의 다른 측면에 의하면, 컴퓨터에, 데이터 계수 작업과 관련된 질의를 수신하는 과정; 상기 질의로부터 계수 데이터에 대한 계수 기준을 추출하고 상기 계수 기준에 기초하여 계수 키를 설정하는 과정; 자체 저장된 계수 데이터를 각 계수 키에 따라 분류한 로컬 분류결과를 생성하는 과정; 및 복수의 로컬 분류부로부터 상기 로컬 분류결과를 수신하여 상기 수신된 로컬 분류결과에 포함된 데이터를 할당된 계수 키의 값에 따라 계수하여 분류별 계수결과를 생성하는 과정을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
이상에서 설명한 바와 같이, 본 실시예에 의하면, 데이터 분포를 고려한 대용량 데이터 계수 방법을 제공하는 효과가 있다.
계수 키값에 대응되는 계수 작업 부하가 고르지 못한 경우 계수 키값을 구성하는 속성공간을 분할하여 계수하는 경우 데이터 계수 시에 계수 처리 서버 사이의 고르게 부하가 분포될 수 있다.
계수하는 키의 값의 개수가 적은 경우에는 다른 속성을 계수하고자 하는 기준 속성에 포함하여 계수키를 설정함으로써 계수 처리 서버 사이의 고른 계수 작업 분포가 형성되도록 한다.
두 가지 계수법을 비교하여 최적의 계수 방법을 적용하고 그 방법에 대한 메타데이터를 기록함으로 추후의 데이터 계수 시에 적응적으로 계수 방법을 적용하여 계수 작업의 효율을 극대화 가능하게 하는 효과가 있다.
도 1은 본 실시예에 따른 대용량 데이터베이스에서 계수 질의를 처리하는 시스템의 구조를 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 대용량 데이터 계수 장치(200)를 블록도로 도시한 도면이다.
도 3은 본 발명의 다른 실시예에 따른 대용량 데이터 계수 방법을 도시한 흐름도이다.
도 4는 계수방법 선택과정을 상세히 도시한 블록도이다.
이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
도 1은 본 실시예에 따른 대용량 데이터베이스의 계수 질의 처리 시스템(100)의 구조를 도시한 도면이다.
대용량 데이터베이스의 계수 질의 처리 시스템(100)은 복수의 로컬 서버(110, 120, 130)와 복수의 처리 서버(140, 150, 160)를 포함한다. 여기서 처리 서버(140, 150, 160)는 로컬 서버(110, 120, 130) 중에서 선택될 수도 있으나 이에 한정되지는 않는다.
도 1에서, 계수하고자 하는 원본 데이터가 여러 개의 로컬 서버(110, 120, 130)에 분산 저장되어 있다. 예컨대, 제1 로컬서버(110)에는 원본 데이터에서 키값 A1, A2, B3를 각각 포함하는 데이터가 저장되고, 제2 로컬서버(120)에는 원본 데이터 키값 C5, B1, C5를 각각 포함하는 데이터가 저장되고, 제3 로컬서버(130)에는 원본 데이터 키값 A2, B2, C1을 각각 포함하는 데이터가 저장된다.
예컨대, 'count distinct'란 대용량 데이터 테이블에서 특정 컬럼(Column)의 값에서 서로 다른 값을 갖는 레코드가 각각 몇 개인지를 계수하는 질의 형태이다. 특정 컬럼의 값을 기준으로 계수 작업을 하는 것이므로 'group by column'이 함께 이용될 수 있다.
'count distinct' 형태의 질의가 입력된 경우 각 로컬 서버(110, 120, 130)에서는 자체적으로 키값의 중복을 제거하는 과정(예컨대, 'local distinct' 과정)을 수행한다. 따라서, 제1 로컬서버(110)에서는 키값 A1, A2, B3를 각각 포함하는 데이터가 네트워크를 통하여 출력되고, 제2 로컬서버(120)에는 키값 B1, C5를 각각 포함하는 데이터가 네트워크를 통하여 출력되고, 제3 로컬서버(130)에는 키값 A2, B2, C1을 각각 포함하는 데이터가 네트워크를 통하여 출력된다.
제1 처리서버(140)에는 키값 A와 관련된 데이터가 그룹화되어 복수의 로컬 서버(110, 120, 130)로부터 수집하여 A1, A2, A2를 각각 포함하는 데이터가 수집된다. 제2 처리서버(150)에는 키 B와 관련된 데이터가 그룹화되어 복수의 로컬 서버(110, 120, 130)로부터 수집하여 B1, B2, B3를 각각 포함하는 데이터가 수집된다. 제3 처리서버(160)에는 키값 C와 관련된 데이터가 그룹화되어 복수의 로컬 서버(110, 120, 130)로부터 수집하여 C1, C5를 각각 포함하는 데이터가 수집된다.
처리 서버(140, 150, 160)는 네트워크를 통하여 입력된 데이터를 이용하여 해당 키값과 관련된 데이터를 계수한다. 예컨대, 제1 처리서버(140)는 해당하는 키값 A와 관련된 데이터의 개수가 2개인 것으로 계수하고, 제2 처리서버(150)는 해당하는 키값 B와 관련된 데이터의 개수가 3개인 것으로 계수하고, 제3 처리서버(160)는 해당하는 키값 C와 관련된 데이터의 개수가 3개인 것으로 계수한다.
도 2는 본 발명의 일 실시예에 따른 대용량 데이터 계수 장치(200)를 블록도로 도시한 도면이다.
본 발명의 일 실시예에 따른 대용량 데이터 계수 장치(200)는 질의 수신부(210), 계수 키 설정부(220), 로컬 분류부(231, 232, 233), 메인 계수부(241, 242, 243), 보조 계수부(250), 메타데이터 저장부(260) 및 계수방법 선택부(270)를 포함하여 구현될 수 있다. 실시예에 따라서 대용량 데이터 계수 장치(200)는 그 구성요소 중에서 일부 구성요소는 생략되거나 다른 구성요소를 추가로 포함하여 구현될 수 있다.
참고로, 도 2에서 로컬 분류부(231, 232, 233)는 도 1의 로컬 서버(110, 120, 130)의 기능에 대응되고 메인 계수부(241, 242, 243)는 도 1의 처리 서버(140, 150, 160)의 기능에 대응된다.
질의 수신부(210)는 데이터 계수 작업과 관련된 질의를 수신한다.
질의 수신부(210)는 대용량 데이터 계수 장치(200)의 사용자로부터 소정의 입력장치를 이용하여 입력되거나 어플리케이션으로부터 입력된 질의를 수신한다. 여기서 입력되는 질의로는 SQL(Structured Query Language)로 작성된 것을 사용할 수 있으나 본 발명이 이에 한정되지 않고 다양한 언어를 사용할 수 있다.
계수 키 설정부(220)는 질의 수신부(210)에서 수신된 질의로부터 계수하고자 하는 계수 데이터에 대한 계수 기준을 추출하고 추출된 계수 기준으로부터 계수 키를 설정한다. 예컨대, 어떤 블로그의 사용자를 연령별로 계수하고자 할 경우, 연령이라는 속성을 계수 기준으로 추출하고 추출된 연령을 계수 키로서 설정하고 계수 키 값에 대응되는 메인 계수부(241, 242, 243)를 결정한다.
계수 키 설정부(220)는 계수 기준에 대응되는 속성(Attribute)의 공간의 개수가 메인 계수부(241, 242, 243)의 개수보다 크도록 분할하고 분할된 속성 공간에 해당하는 속성값을 메인 계수부에 대응되는 계수 키 값으로 설정한다. 이하에서는 이러한 계수 방법을 키공간 분할법이라 명명한다.
만일, 계수 기준이 고르게 분포된 값을 갖지 않고 일부 값으로 편중된 값을 갖고 또한 계수 처리를 실행하는 메인 계수부(241, 242, 243)의 개수가 매우 작은 경우 복수의 메인 계수부(241, 242, 243)별로 부하가 편중될 수 있다. 예컨대, 메인 계수부(241, 242, 243)의 개수가 3개인 경우를 가정하자. 이때, 제1 메인 계수부(241)는 10대 및 20대 사용자를 계수하고, 제2 메인 계수부(242)는 30대 및 40대 사용자를 계수하고, 제3 메인 계수부(243)는 50대 및 60대 이상의 사용자를 계수하도록 설정한 경우, 해당 블록의 이용자가 20대가 다른 연령대에 비해 훨씬 많다면 제1 메인 계수부(241)의 계수 오버헤드가 상대적으로 클 것이다.
이러한 경우, 계수 기준에 대응되는 연령 속성의 공간의 개수가 메인 계수부(241, 242, 243) 개수보다 크도록(예컨대, 메인 계수부(241, 242, 243) 개수의 복수 배로) 분할하여 정렬하고 분할된 속성 공간에 해당하는 속성값을 정렬된 순서대로 메인 계수부(241, 242, 243)에 대응되는 계수 키 값으로 설정한다. 예컨대, 10세 이하는 제1 메인 계수부(241)에, 11세는 제2 메인 계수부(242)에, 12세는 제3 메인 계수부(243)에, 13세는 제1 메인 계수부(241)에, 14세는 제2 메인 계수부(242)에, 15세는 제3 메인 계수부(243)에,...,58세는 제1 메인 계수부(241)에, 59세는 제2 메인 계수부(242)에, 60세 이상은 제3 메인 계수부(243)에 대응되도록 순차적으로 할당한다. 이와 같이 속성공간을 분할하여 대응되는 메인 계수부(241, 242, 243)를 결정하는 경우 데이터 계수 수행 시에 고르게 부하가 분포될 수 있다. 여기서 편중된 값을 갖는 계수 기준 속성은 기설정되어 있어서 해당 속성으로 계수 질의가 입력되는 경우 속성 공간을 분할하는 방법을 사용하여 계수할 수 있다.
계수 키 설정부(220)는 계수 데이터에 대한 샘플 데이터를 추출하고 계수 키에 따라 샘플 데이터를 분류하고 분류한 결과를 이용하여 각 메인 계수부(241, 242, 243)에 대응되는 계수 키의 값을 결정할 수도 있다. 예컨대, 22세 이하 사용자는 제1 메인 계수부(241)에, 23~28세 사용자는 제2 메인 계수부(242)에, 29세 이상 사용자는 제3 메인 계수부(243)에 대응되도록 할당하여 처리 데이터 수가 메인 계수부(241, 242, 243)별로 고르게 분포되도록 한다. 이하에서는 이러한 계수 방법을 샘플 데이터 참조법이라 명명한다.
계수 키 설정부(220)는 계수 기준에 대응되는 속성값의 개수가 기설정 개수 이하인 경우 다른 속성인 제2 속성을 수신된 계수 기준에 대응되는 속성과 결합하여 계수 키를 설정하는 확장 키 설정법을 사용할 수도 있다. 예컨대, 성별로 데이터를 계수하는 경우에 남자 사용자 데이터는 제1 메인 계수부(241)에 할당하고, 여자 사용자 데이터는 제2 메인 계수부(242)에 할당하는 경우 제1 및 제2 메인 계수부(241, 242)가 오버헤드가 크지만 제3 메인 계수부(243)는 아무 일도 하지 않게 되어 부하가 편중된다. 이 경우에는 사용자 ID 속성을 성별 속성과 결합하여 계수 키로 설정한다. 예컨대, 남자이면서 ID가 A~Q인 경우는 제1 메인 계수부(241)에, 남자이면서 ID가 R ~ Z인 경우와 여자이면서 A~H인 경우는 제2 메인 계수부(242)에, 여자이면서 ID가 I~Z인 경우는 제3 메인 계수부(243)에 대응되도록 할당하여 처리 데이터 수가 메인 계수부(241, 242, 243)별로 고르게 분포되도록 한다.
보조 계수부(250)는 복수의 메인 계수부(241, 242, 243)로부터 분류별 계수결과를 수집하여 분류별 계수결과에 포함된 데이터를 계수 기준에 대응되는 속성값에 따라 분류하여 계수한다. 예컨대, 여자이면서 A~H인 경우는 제2 메인 계수부(242)로부터, 여자이면서 ID가 I~Z인 경우는 제3 메인 계수부(243)로부터 계수결과를 각각 수신하여 두 계수 결과를 합하는 동작을 한다. 보조 계수부(250)는 별개의 구성요소로서 구현될 수 있지만, 메인 계수부(241, 242, 243) 중 어느 하나가 이 기능을 수행할 수도 있으며, 계수 결과를 합하는 대상을 저장하고 있는 어느 하나의 메인 계수부(242, 243) 중 하나를 보조 계수부(250)로 사용할 수도 있다. 이 경우에는 해당 계수 결과는 다른 곳으로 전송하지 않아도 되므로 네트워크 오버헤드가 줄어들 수 있다.
메타데이터 저장부(260)는 계수 키, 이전에 데이터 계수를 수행한 계수 시점, 계수 수행 시간, 테이블 크기 및 최근 계수 방법을 포함하는 메타 데이터를 저장한다. 또한, 각 계수 키 값에 따른 데이터 개수 또는 계수 결과도 저장될 수 있다.
메타 데이터에는 계수를 위한 계수 키를 사용하여 분류하는 'group by' 명령마다 사용된 계수 키 및 메인 계수부(241, 242, 243)에 대응되는 계수 키 값의 개수도 저장되며, 계수 기준도 저장될 수 있다.
이상에서 설명한 바와 같이 계수 키 설정부(220)는 키공간 분할법, 샘플 데이터 참조법 및 확장 키 설정법 중에서 어느 한가지 방법을 사용할 수 있다. 여기서 키공간 분할법 및 샘플 데이터 참조법을 2단계 계수법이라 명명하고 확장 키 설정법은 3단계 계수법이라 명명할 수도 있다.
계수방법 선택부(270)는 질의가 입력된 경우 계수 키 설정부(220)를 제어하여 입력된 질의로부터 계수 데이터에 대한 계수 기준을 추출하고 계수 기준에 기초하여 제1 계수 방법으로 계수 관련 질의를 처리하도록 제1 계수 키를 설정하고, 로컬 분류부(231, 232, 233), 메인 계수부(241, 242, 243) 및 보조 계수부(250)를 제어하여 제1 계수 키로 해당 데이터 계수 처리를 수행하도록 한다. 여기서 제1 계수 방법은 2단계 계수법 또는 3단계 계수법일 수 있다. 여기서, 2단계 계수법을 사용하는 경우 보조 계수부(250)의 동작은 생략될 수 있다.
제1 계수 방법에 의한 데이터 계수가 종료된 경우, 계수방법 선택부(270)는 계수 키 설정부(220)를 제어하여 제1 계수 방법과 다른 제2 계수 방법으로 계수 데이터를 계수하도록 제2 계수 키를 설정하고, 로컬 분류부(231, 232, 233), 메인 계수부(241, 242, 243) 및 보조 계수부(250)를 제어하여 제2 계수 키로 해당 데이터 계수 처리를 수행하도록 한다. 계수방법 선택부(270)는 두 가지 계수 방법을 비교하여 그 비교 결과에 따라 계수 방법을 결정하고 결정된 계수 방법에 따른 계수 키, 계수 수행 시점, 계수 수행 시간, 테이블 크기 및 최근 계수 방법을 메타데이터로서 업데이트한다. 여기서, 2단계 계수법을 사용하는 경우 보조 계수부(250)의 동작은 생략될 수 있다.
만일, 제1 계수 방법으로서 확장 키 설정법을 사용한 경우에는 제2 계수 방법으로서 키공간 분할법 또는 샘플 데이터 참조법을 사용한다.
계수방법 선택부(270)는 제1 계수 방법 실행이 완료된 후에 제2 계수 방법으로 계수 데이터를 계수하는 도중에 제1 계수 방법으로 계수한 수행 시간만큼 경과한 경우 제1 계수 방법을 해당 계수 데이터의 계수 방법으로서 결정하여 계수 결과를 획득하고 제1 계수 방법에 따른 메타 데이터를 업데이트한다.
만일, 제1 계수 방법에 의한 데이터 계수 작업이 종료된 후 실행된 제2 계수 방법에 의한 데이터 계수가 종료된 경우, 계수방법 선택부(270)는 두 계수 방법에 의한 수행시간을 비교하여 제1 계수 방법에 의한 계수 시간이 제2 계수 방법에 의한 계수 방법보다 큰 경우 제2 계수 방법을 입력된 계수 질의에 대한 해당 데이터 계수 방법으로서 결정하여 계수 결과를 획득하고 제2 계수 방법에 따른 계수 키, 계수 수행 시점, 계수 수행 시간, 테이블 크기 및 최근 계수 방법을 메타데이터로서 업데이트한다. 메타데이터에는 계수 키 값의 개수 및 계수 기준도 업데이트될 수 있으며, 각 계수 키 값에 따른 데이터 개수 또는 계수 결과도 저장될 수 있다.
계수방법 선택부(270)는, 제1 계수 방법이 입력된 계수 기준에 대응되는 속성 이외의 다른 속성인 제2 속성을 계수 기준에 대응되는 속성과 결합하여 계수 키를 설정하여 계수하는 방법(즉, 확장 키 설정법)인 경우, 제1 계수 방법에 따른 계수 키 값에 대응되는 메인 계수부(241, 242, 243)별로 데이터 양의 최대값과 최소값을 메타 데이터로부터 참조하고 참조한 최대값과 최소값에 따라 또 다른 속성을 제2 속성으로서 설정하여 계수 키를 생성한다. 예컨대, 메인 계수부(241, 242, 243)별로 최소 계수 데이터 양과 최대 계수 데이터 양 사이의 크기 비율이 기설정 비율 이상이라면 메인 계수부(241, 242, 243)별 계수 키 값을 잘못 설정한 것이므로 또 다른 속성을 이용하여 계수 키를 설정한다. 예컨대, 이전의 계수 방법이 사용자 성별을 기준의 확장 키 설정법을 사용하고 현재 데이터 계수 시에 사용자 성별을 기준의 확장 키 설정법을 사용하고자 하는 경우에, 이전의 계수 시에 제2 속성으로서 사용자 ID를 사용한 경우에 메인 계수부(241, 242, 243)별로 계수 키 값에 따른 데이터 량이 고르게 분포되지 않은 경우 또 다른 속성인 사용자 연령 등을 제2 속성으로서 사용할 수 있다.
계수방법 선택부(270)는 메타데이터 저장부(260)에 저장된 메타 데이터를 참조하여 해당되는 계수 키에 대한 이전 계수 시점 및 해당 시점의 계수 데이터를 저장하는 테이블의 크기에 기초하여 최근 계수 방법으로 계수할 것인지 여부를 결정한다. 즉, 계수방법 선택부(270)는 테이블의 크기가 이전 시점의 기설정 시점의 테이블의 크기와 비슷하고(즉, 기설정 비율 이하의 차이를 보이는 경우) 해당 계수 키에 대한 이전 계수 시점이 현재 시점으로부터 기설정 기간 이내인 경우에 해당 이전 시점의 계수 방법을 사용한다. 여기서 이전 시점이란 최근 계수 시점일 수도 있다.
계수방법 선택부(270)는 메타데이터 저장부(260)에 저장된 메타 데이터를 참조하여 이전에 계수한 방법에 대응되는 계수 키 값의 메인 계수부(241, 242, 243)별 데이터 양의 최대값과 최소값에 근거하여 복수의 계수 방법 중에서 하나의 계수 방법을 선택한다. 즉, 제1 계수 방법이 최근 계수 방법을 의미하고 최근 계수 방법에 따른 계수 키 값에 대응하는 메인 계수부별 데이터 양의 최대값과 최소값 사이의 크기 비율이 기설정 비율 이상인 경우에는 다른 계수 방법을 선택한다.
도 3은 본 발명의 다른 실시예에 따른 대용량 데이터 계수 방법을 도시한 흐름도이다.
본 발명의 다른 실시예에 따른 대용량 데이터 계수 방법은 질의 수신과정(S310), 계수방법 선택과정(S320), 계수 키 설정과정(S330), 로컬 분류과정(S340), 메인 계수과정(S350), 보조 계수과정(S360) 및 메타데이터 저장과정(S370)을 포함한다.
질의 수신과정(S310)에서는 데이터 계수 작업과 관련된 질의를 수신한다.
계수방법 선택과정(S320)에서는 제1 계수 키를 설정하여 제1 계수 방법으로 계수 데이터를 계수하도록 제어하고 제1 계수 방법이 종료된 후 제2 계수 키를 설정하여 제2 계수 방법으로 계수 데이터를 계수하도록 제어하여 두 가지 계수 방법을 비교하여 계수방법을 결정한다.
계수 키 설정과정(S330)에서는 질의로부터 계수 데이터에 대한 계수 기준을 추출하고 추출된 계수 기준에 기초하여 계수 키를 설정한다.
로컬 분류과정(S340)에서는, 자체 저장된 계수 데이터를 각 계수 키에 따라 분류한 로컬 분류결과를 생성한다.
메인 계수과정(S350)에서는 복수의 로컬 서버(즉, 로컬 분류부(231, 232, 233))로부터 로컬 분류결과를 수신하여 수신된 로컬 분류결과에 포함된 데이터를 할당된 계수 키의 값에 따라 계수하여 분류별 계수결과를 생성한다.
보조 계수과정(S360)에서는 복수의 처리 서버(즉, 메인 계수부(241, 242, 243))로부터 분류별 계수결과를 수집하여 분류별 계수결과에 포함된 데이터를 계수 기준에 대응되는 속성값에 따라 분류하여 계수한다.
메타데이터 저장과정(S370)에서는, 최근에 계수를 수행한 최근 계수 시점, 테이블 크기 및 최근 계수 방법을 포함하는 메타 데이터를 저장한다.
질의 수신과정(S310), 계수방법 선택과정(S320), 계수 키 설정과정(S330), 로컬 분류과정(S340), 메인 계수과정(S350), 보조 계수과정(S360) 및 메타데이터 저장과정(S370)은 질의 수신부(210), 계수방법 선택부(270), 계수 키 설정부(220), 로컬 분류부(231, 232, 233), 메인 계수부(241, 242, 243), 보조 계수부(250) 및 메타데이터 저장부(260)의 동작에 각각 대응되므로 더 이상의 상세한 설명은 생략한다.
도 3에서는 과정 S310 내지 과정 S370을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 발명의 일 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것이다. 다시 말해, 본 발명의 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 일 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 도 3에 기재된 순서를 변경하여 실행하거나 과정 S310 내지 과정 S370 중 하나 이상의 과정을 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 도 3은 시계열적인 순서로 한정되는 것은 아니다.
도 4는 계수방법 선택과정(S320)을 상세히 도시한 블록도이다.
도 4에 도시한 바와 같이, 데이터 계수 작업과 관련된 질의로부터 계수 데이터에 대한 계수 기준을 추출한다(S410).
해당 계수 기준 및 계수하고자 하는 테이블에 대한 정보로부터 같은 내용으로 계수 처리를 한 이력이 있는지 여부를 메타 데이터를 참조하여 확인한다(S420).
S420 단계에서 계수처리 이력을 확인한 결과 같은 내용으로 계수처리를 한 이력이 있으면 그 이력이 해당 데이터의 계수 작업에 다시 적용 가능한 이력인지를 확인한다(S430).
S430 단계에서 해당 이력의 내용이 다시 입력된 질의에 대응하는 계수 작업에 적용 가능한 것으로 판단하면 해당 이력의 내용과 같은 방법으로 계수 작업을 처리한다(S440). 예컨대, 계수한 시점이 최근 시점이고 테이블의 크기가 큰 차이가 없는 경우에는 같은 계수 방법으로 처리한다.
S440 단계에서 계수 처리를 한 후에는, 해당 데이터를 계수 처리한 결과를 메타 데이터로 업데이트한다(S450). 예컨대, 계수 처리한 테이블의 크기, 계수 수행 시점 및 계수 수행 시간 등을 메타 데이터로서 업데이트한다. 각 계수 키 값에 따른 데이터 개수 및 처리 서버에 대응되는 계수 키 값의 개수도 메타 데이터로서 저장될 수 있다.
만일, S420 단계에서 계수처리 이력을 확인한 결과 같은 내용으로 계수처리를 수행한 이력이 없거나, S430 단계에서 해당 이력의 내용이 다시 입력된 질의에 대응하는 계수 작업에 적용 가능하지 않은 것으로 판단하면 제1 계수 방법으로서 3단계 계수 방법으로 입력된 질의에 대응하는 데이터 계수 작업을 수행하고 해당 계수 처리에 대한 수행에 걸린 시간(즉, 수행 기간)을 기록한다(S460).
3단계 계수 방법이 종료되면, 제2 계수 방법으로서 2단계(2-step) 계수 방법으로 데이터 계수 작업을 수행한다(S470). 여기서 2단계 계수 방법으로서는 키공간 분할법 또는 샘플 데이터 참조법 중에서 기설정된 방법을 사용할 수 있다.
제2 계수 방법이 수행되는 도중에 제2 계수 방법을 수행하는 시간이 제1 계수 방법을 수행 시간과 같아지는지 또는 제2 계수 방법이 종료되는지 여부를 확인한다(S480).
제2 계수 방법이 수행되는 도중에, 제2 계수 방법을 수행하는 시간이 제1 계수 방법을 수행 시간만큼 경과하거나 또는 제2 계수 방법이 종료된 경우에는 계수 결과를 메타데이터로 업데이트한다(S450).
만일, 제2 계수 방법이 수행되는 도중에 제2 계수 방법을 수행하는 시간이 제1 계수 방법을 수행 시간만큼 경과한 경우에는 제1 계수 방법의 수행시간이 적어도 제2 계수 방법의 수행시간보다 크지는 않는다는 것을 의미하므로 제1 계수 방법을 현재의 질의에 대응되는 데이터 계수 방법으로 결정하고, 해당 제1 계수 방법에 대한 수행 결과를 메타 데이터로서 저장한다. 만일, 제2 계수 방법으로 계수 작업이 종료되었으나 제1 계수 방법의 수행시간에 이르지 않은 경우에는 제2 계수 방법이 제1 계수 방법보다 더 빠른 계수 방법임을 의미하므로 해당 제2 계수 방법에 대한 수행 결과를 메타 데이터로서 저장한다.
이때, 수행 결과로서 저장되는 메타데이터는 계수 방법, 계수 키, 사용된 테이블, 계수 수행시점, 계수 수행 시간, 각 계수 키 값에 따른 데이터 개수 및 처리 서버에 대응되는 계수 키 값의 개수도 저장될 수 있다.
본 발명의 실시예에 따른 대용량 데이터 계수 장치(200)는 각종 기기 또는 유무선 통신망과 통신을 수행하기 위한 통신 모뎀 등의 통신 장치, 프로그램을 실행하기 위한 데이터를 저장하기 위한 메모리, 프로그램을 실행하여 연산 및 제어하기 위한 마이크로프로세서 등을 구비하는 다양한 장치를 의미할 수 있다. 적어도 일 실시예에 따르면, 메모리는 램(Random Access Memory: RAM), 롬(Read Only Memory: ROM), 플래시 메모리, 광 디스크, 자기 디스크, 솔리드 스테이트 디스크(Solid State Disk: SSD) 등의 컴퓨터로 판독 가능한 기록/저장매체일 수 있다. 적어도 일 실시예에 따르면, 마이크로프로세서는 명세서에 기재된 동작과 기능을 하나 이상 선택적으로 수행하도록 프로그램될 수 있다. 적어도 일 실시예에 따르면, 마이크로프로세서는 전체 또는 부분적으로 특정한 구성의 주문형반도체(Application Specific Integrated Circuit: ASIC) 등의 하드웨어로써 구현될 수 있다.
전술한 바와 같이, 도 3에 기재된 대용량 데이터 계수 방법은 프로그램으로 구현되고 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 본 실시예에 따른 대용량 데이터 계수 방법을 구현하기 위한 프로그램이 기록되고 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 또한, 본 실시예를 구현하기 위한 기능적인(Functional) 프로그램, 코드 및 코드 세그먼트들은 본 실시예가 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있을 것이다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 계수 질의 처리 시스템
110: 제1 로컬서버
120: 제2 로컬서버
130: 제3 로컬서버
140: 제1 처리서버
150: 제2 처리서버
160: 제3 처리서버
200: 대용량 데이터 계수 장치
210: 질의 수신부
220: 계수 키 설정부
231: 제1 로컬 분류부
232: 제2 로컬 분류부
233: 제3 로컬 분류부
241: 제1 메인 계수부
242: 제2 메인 계수부
243: 제3 메인 계수부
250: 보조 계수부
260: 메타데이터 저장부
270: 계수방법 선택부

Claims (12)

  1. 데이터 계수와 관련된 질의를 수신하는 질의 수신부;
    상기 질의로부터 계수 데이터에 대한 계수 기준을 추출하고 상기 계수 기준에 기초하여 계수 키를 설정하는 계수 키 설정부;
    자체 저장된 계수 데이터를 각 계수 키에 따라 분류한 로컬 분류결과를 생성하는 로컬 분류부; 및
    복수의 로컬 분류부로부터 상기 로컬 분류결과를 수신하여 상기 수신된 로컬 분류결과에 포함된 데이터를 상기 계수 키의 값에 따라 계수하여 분류별 계수결과를 생성하는 메인 계수부
    를 포함하되,
    상기 계수 키 설정부는,
    상기 계수 기준에 대응되는 속성(Attribute)의 공간의 개수가 상기 메인 계수부의 개수보다 크도록 분할하고 상기 분할된 속성 공간에 해당하는 속성값을 이용하여 상기 계수 키의 값을 설정하는 것을 특징으로 하는 대용량 데이터 계수 장치.
  2. 삭제
  3. 데이터 계수와 관련된 질의를 수신하는 질의 수신부;
    상기 질의로부터 계수 데이터에 대한 계수 기준을 추출하고 상기 계수 기준에 기초하여 계수 키를 설정하는 계수 키 설정부;
    자체 저장된 계수 데이터를 각 계수 키에 따라 분류한 로컬 분류결과를 생성하는 로컬 분류부; 및
    복수의 로컬 분류부로부터 상기 로컬 분류결과를 수신하여 상기 수신된 로컬 분류결과에 포함된 데이터를 상기 계수 키의 값에 따라 계수하여 분류별 계수결과를 생성하는 메인 계수부
    를 포함하되,
    상기 계수 키 설정부는,
    상기 계수 데이터에 대한 샘플 데이터를 추출하고 상기 계수 키에 따라 상기 샘플 데이터를 분류하고 상기 분류한 결과를 이용하여 상기 계수 키의 값을 결정하는 것을 특징으로 하는 대용량 데이터 계수 장치.
  4. 데이터 계수와 관련된 질의를 수신하는 질의 수신부;
    상기 질의로부터 계수 데이터에 대한 계수 기준을 추출하고 상기 계수 기준에 기초하여 계수 키를 설정하는 계수 키 설정부;
    자체 저장된 계수 데이터를 각 계수 키에 따라 분류한 로컬 분류결과를 생성하는 로컬 분류부; 및
    복수의 로컬 분류부로부터 상기 로컬 분류결과를 수신하여 상기 수신된 로컬 분류결과에 포함된 데이터를 상기 계수 키의 값에 따라 계수하여 분류별 계수결과를 생성하는 메인 계수부
    를 포함하되,
    상기 계수 키 설정부는,
    상기 계수 기준에 대응되는 속성값의 개수가 기설정 개수 이하인 경우 다른 속성인 제2 속성을 상기 계수 기준에 대응되는 속성과 결합하여 상기 계수 키를 설정하는 것을 특징으로 하는 대용량 데이터 계수 장치.
  5. 제4항에 있어서, 상기 대용량 데이터 계수 장치는,
    복수의 메인 계수부로부터 상기 분류별 계수결과를 수집하여 상기 분류별 계수결과에 포함된 데이터를 상기 계수 기준에 대응되는 속성값에 따라 분류하여 계수하는 보조 계수부를 더 포함하는 것을 특징으로 하는 대용량 데이터 계수 장치.
  6. 데이터 계수와 관련된 질의를 수신하는 질의 수신부;
    상기 질의로부터 계수 데이터에 대한 계수 기준을 추출하고 상기 계수 기준에 기초하여 계수 키를 설정하는 계수 키 설정부;
    자체 저장된 계수 데이터를 각 계수 키에 따라 분류한 로컬 분류결과를 생성하는 로컬 분류부; 및
    복수의 로컬 분류부로부터 상기 로컬 분류결과를 수신하여 상기 수신된 로컬 분류결과에 포함된 데이터를 상기 계수 키의 값에 따라 계수하여 분류별 계수결과를 생성하는 메인 계수부
    를 포함하되,
    최근에 계수를 수행한 최근 계수 시점, 테이블 크기 및 최근 계수 방법을 포함하는 메타 데이터를 저장하는 메타데이터 저장부를 더 포함하는 것을 특징으로 하는 대용량 데이터 계수 장치.
  7. 제6항에 있어서, 상기 대용량 데이터 계수 장치는,
    제1 계수 키를 설정하여 제1 계수 방법으로 상기 계수 데이터를 계수하도록 제어하고 상기 제1 계수 방법이 종료된 후 제2 계수 키를 설정하여 제2 계수 방법으로 상기 계수 데이터를 계수하도록 제어하여 두 가지 계수 방법의 비교 결과에 따라 상기 메타데이터를 업데이트하는 비교 제어부를 더 포함하는 것을 특징으로 하는 대용량 데이터 계수 장치.
  8. 제7항에 있어서, 상기 비교 제어부는,
    상기 제2 계수 방법으로 상기 계수 데이터를 계수하는 도중에 상기 제1 계수 방법으로 계수한 수행 시간만큼 경과한 경우 상기 제1 계수 방법을 상기 계수 데이터의 계수 방법으로서 결정하여 상기 제1 계수 방법을 상기 최근 계수 방법으로서 업데이트하는 것을 특징으로 하는 대용량 데이터 계수 장치.
  9. 제7항에 있어서,
    상기 제1 계수 방법이 상기 계수 기준에 대응되는 속성 및 다른 속성인 제2 속성을 결합하여 상기 계수 키를 설정한 방법인 경우, 상기 제1 계수 방법에 따른 계수 키 값에 대응되는 메인 계수부 별로 데이터 양의 최대값과 최소값에 따라 또 다른 속성을 상기 제2 속성으로서 설정하여 상기 계수 키에 결합하여 상기 계수 데이터를 계수하도록 제어하는 계수방법 선택부를 더 포함하는 것을 특징으로 하는 대용량 데이터 계수 장치.
  10. 제9항에 있어서, 상기 계수방법 선택부는,
    상기 계수 키에 대응되는 데이터 계수에 대한 이전 계수 시점 및 계수 데이터를 저장하는 테이블의 크기에 기초하여 최근 계수 방법으로 계수할 것인지 여부를 결정하는 것을 특징으로 하는 대용량 데이터 계수 장치.
  11. 제9항에 있어서, 상기 계수방법 선택부는,
    이전에 계수한 방법에 대응되는 계수 키 값의 메인 계수부별 데이터 양의 최대값과 최소값에 근거하여 복수의 계수 방법 중에서 하나의 계수 방법을 선택하는 과정을 수행하는 것을 특징으로 하는 대용량 데이터 계수 장치.
  12. 컴퓨터에,
    데이터 계수와 관련된 질의를 수신하는 과정;
    상기 질의로부터 계수 데이터에 대한 계수 기준을 추출하고 상기 계수 기준에 기초하여 계수 키를 설정하는 과정;
    자체 저장된 계수 데이터를 각 계수 키에 따라 분류한 로컬 분류결과를 생성하는 과정; 및
    복수의 로컬 분류부로부터 상기 로컬 분류결과를 수신하여 상기 수신된 로컬 분류결과에 포함된 데이터를 상기 계수 키의 값에 따라 계수하여 분류별 계수결과를 생성하는 과정
    을 포함하되,
    상기 계수 키를 설정하는 과정에서,
    상기 계수 기준에 대응되는 속성(Attribute)의 공간의 개수가 메인 계수부의 개수보다 크도록 분할하고 상기 분할된 속성 공간에 해당하는 속성값을 이용하여 상기 계수 키의 값을 설정하는 과정을 실행하되,
    상기 메인 계수부는 상기 분류별 계수결과를 생성하기 위하여 상기 컴퓨터에서 실행되는 장치의 구성요소인 것을 특징으로 하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020140175206A 2014-12-08 2014-12-08 데이터 분포를 고려한 대용량 데이터 계수 장치 및 그를 위한 컴퓨터로 읽을 수 있는 기록 매체 KR102229311B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140175206A KR102229311B1 (ko) 2014-12-08 2014-12-08 데이터 분포를 고려한 대용량 데이터 계수 장치 및 그를 위한 컴퓨터로 읽을 수 있는 기록 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140175206A KR102229311B1 (ko) 2014-12-08 2014-12-08 데이터 분포를 고려한 대용량 데이터 계수 장치 및 그를 위한 컴퓨터로 읽을 수 있는 기록 매체

Publications (2)

Publication Number Publication Date
KR20160069351A KR20160069351A (ko) 2016-06-16
KR102229311B1 true KR102229311B1 (ko) 2021-03-17

Family

ID=56354863

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140175206A KR102229311B1 (ko) 2014-12-08 2014-12-08 데이터 분포를 고려한 대용량 데이터 계수 장치 및 그를 위한 컴퓨터로 읽을 수 있는 기록 매체

Country Status (1)

Country Link
KR (1) KR102229311B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009129031A (ja) * 2007-11-20 2009-06-11 Osaka Univ 多次元データ分析方法、多次元データ分析装置、及びプログラム
JP2009205372A (ja) * 2008-02-27 2009-09-10 Mitsubishi Electric Corp 情報処理装置及び情報処理方法及びプログラム
WO2009140590A1 (en) 2008-05-15 2009-11-19 Alibaba Group Holding Limited Method and system for large volume data processing

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100423149B1 (ko) * 2001-11-16 2004-03-16 한국전자통신연구원 메시지 통계처리 시스템 및 방법
KR101700340B1 (ko) * 2012-04-06 2017-01-26 에스케이플래닛 주식회사 대용량 데이터의 클러스터 결과 분석 시스템 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009129031A (ja) * 2007-11-20 2009-06-11 Osaka Univ 多次元データ分析方法、多次元データ分析装置、及びプログラム
JP2009205372A (ja) * 2008-02-27 2009-09-10 Mitsubishi Electric Corp 情報処理装置及び情報処理方法及びプログラム
WO2009140590A1 (en) 2008-05-15 2009-11-19 Alibaba Group Holding Limited Method and system for large volume data processing

Also Published As

Publication number Publication date
KR20160069351A (ko) 2016-06-16

Similar Documents

Publication Publication Date Title
US10459888B2 (en) Method, apparatus and system for data analysis
JP5427640B2 (ja) 決定木生成装置、決定木生成方法、及びプログラム
CN109033109B (zh) 数据处理方法及系统
CN107239468B (zh) 任务节点管理方法及装置
KR101744892B1 (ko) 시계열 계층 인덱싱을 이용한 데이터 검색 시스템 및 데이터 검색 방법
CN110096472A (zh) 节点集群中管理节点的选择
CN105989015B (zh) 一种数据库扩容方法和装置以及访问数据库的方法和装置
US20170046422A1 (en) Data Mining Method and Apparatus
CN110955704A (zh) 一种数据管理方法、装置、设备及存储介质
CN108197187B (zh) 查询语句的优化方法、装置、存储介质和计算机设备
CN111026709B (zh) 基于集群访问的数据处理方法及装置
CN111680085A (zh) 数据处理任务分析方法、装置、电子设备和可读存储介质
US9292405B2 (en) HANA based multiple scenario simulation enabling automated decision making for complex business processes
CN104778252B (zh) 索引的存储方法和装置
US20150269171A1 (en) Information storage system
CN105308579B (zh) 系列数据并行分析基础设施及其并行分散处理方法
US8667008B2 (en) Search request control apparatus and search request control method
US10671636B2 (en) In-memory DB connection support type scheduling method and system for real-time big data analysis in distributed computing environment
KR101955376B1 (ko) 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치
CN110909072B (zh) 一种数据表建立方法、装置及设备
KR102229311B1 (ko) 데이터 분포를 고려한 대용량 데이터 계수 장치 및 그를 위한 컴퓨터로 읽을 수 있는 기록 매체
Gupta et al. An approach for optimizing the performance for apache spark applications
CN108121807B (zh) Hadoop环境下多维索引结构OBF-Index的实现方法
CN104123307A (zh) 数据加载方法及系统
US20200076681A1 (en) Volume allocation management apparatus, volume allocation management method, and volume allocation management program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant