KR101982756B1 - 분산인메모리기반 복합형스트림 데이터처리시스템 및 방법 - Google Patents

분산인메모리기반 복합형스트림 데이터처리시스템 및 방법 Download PDF

Info

Publication number
KR101982756B1
KR101982756B1 KR1020170061641A KR20170061641A KR101982756B1 KR 101982756 B1 KR101982756 B1 KR 101982756B1 KR 1020170061641 A KR1020170061641 A KR 1020170061641A KR 20170061641 A KR20170061641 A KR 20170061641A KR 101982756 B1 KR101982756 B1 KR 101982756B1
Authority
KR
South Korea
Prior art keywords
data
shard
stream
memory
query
Prior art date
Application number
KR1020170061641A
Other languages
English (en)
Other versions
KR20180126792A (ko
Inventor
서광익
박준호
이종정
김종민
Original Assignee
주식회사 알티베이스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 알티베이스 filed Critical 주식회사 알티베이스
Priority to KR1020170061641A priority Critical patent/KR101982756B1/ko
Priority to US15/689,259 priority patent/US20180336248A1/en
Publication of KR20180126792A publication Critical patent/KR20180126792A/ko
Application granted granted Critical
Publication of KR101982756B1 publication Critical patent/KR101982756B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols
    • G06F12/0817Cache consistency protocols using directory methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F17/2755
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/30Transportation; Communications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템은 다양한 데이터 소스들로부터 생성된 복합형 고속스트림 데이터를 수집하여 실시간 분류하여 처리하며, 이 경우 적어도 하나의 인메모리데이터베이스를 이용하는 것을 특징으로 한다.

Description

분산인메모리기반 복합형스트림 데이터처리시스템 및 방법{System and Method for processing complex stream data using distributed in-memory}
본 발명은 대용량 데이터, 빅데이터 등을 포함하는 복합형 스트림을 실시간으로 분산처리하는 방법에 관한 것이다.
최근 사물 인터넷 환경에서 발생하는 다양한 비정형 및 반정형 데이터 분석, 통신 분야의 초대용량 빌링 정보의 다차원 분석, 금융 분야의 초고속 트레이딩 정보에 대한 실시간 분석 내지 공공 및 서비스 분야의 사고 감지, 재해 예방 등을 위해 복합형 스트림 분석이 중요해지고 있다.
초대용량이면서 특정 이벤트에서만 의미를 가지는 스트림 데이터 처리를 현행과 같이 DBMS에 데이터를 저장한 후 이를 조회하여 판단하는 경우 현격한 성능 저하 및 비효율적인 관리문제가 발생할 수 밖에 없다.
KR 10-1544356 B1
본 발명에서는 다양한 데이터 소스에서 고속으로 발생하는 빅데이터를 실시간으로 관리하고 분석할수 있는 고속 스트림 빅데이터 처리방안을 제시하고자 한다. 또한 정형 데이터 뿐만 아니라 반정형 및 비정형 스트림 데이터를 초고속으로 처리하는 복합형스트림 데이터처리시스템 및 방법을 제안하고자 한다.
본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템은 다양한 데이터 소스들로부터 생성된 복합형 고속스트림 데이터를 수집하는 데이터수집부; 상기 수집한 복합형 고속스트림 데이터를 형태의 유무 또는 연산가능 여부로 분류하여, 형태가 있고 연산가능한 데이터는 정형 데이터로, 형태가 있으나 연산가능하지 않은 데이터는 반정형 데이터로, 그리고 형태도 없고 연산도 가능하지 않은 데이터는 비정형 데이터로 실시간 분류하여 처리하는 데이터분산처리부;및 상기 정형데이터, 상기 반정형데이터 및 상기 비정형데이터를 저장하고, 상기 복합형 고속스트림 데이터를 분석한 결과를 분산하여 저장하는 적어도 하나의 인메모리데이터베이스;를 포함하고, 상기 적어도 하나의 인메모리데이터베이스 각각은 상기 복합형 고속스트림 데이터를 분석하는 분석부;를 더 포함하는 것을 특징으로 한다.
바람직하게, 상기 데이터수집부는 클라이언트 어플리케이션을 더 포함하고, 상기 분산인메모리기반 복합형스트림 데이터처리시스템은 사용자 쿼리를 분석하여 샤드 객체가 포함된 샤드쿼리인지 판단하고, 샤드쿼리인 경우 샤드키(Shard Key)를 기준으로 데이터를 상기 적어도 하나 이상의 인메모리데이터베이스 각각에 분산처리하는 메타노드;및 상기 클라이언트 어플리케이션에 라이브러리 형태로 설치되어, 상기 클라이언트 어플리케이션과 상기 적어도 하나 이상의 인메모리데이터베이스 간의 코디네이터 역할을 수행하며, 사용자 쿼리를 상기 메타 노드에 전달하고, 상기 메타노드에 등록된 상기 적어도 하나 이상의 인메모리데이터베이스의 정보를 수신하여 상기 데이터수집부와 상기 적어도 하나 이상의 데이터수집부의 연결을 수행하는 샤드라이브러리;를 더 포함하는 것을 특징으로 한다.
바람직하게, 상기 분산인메모리기반 복합형스트림 데이터처리시스템이 서버측 샤딩모드로 구현되는 경우, 상기 클라이언트 어플리케이션에서 상기 메타노드에 접속하고, 상기 메타노드는 세션을 생성하며, 상기 클라이언트 어플리케이션에서 상기 메타노드에 상기 샤드쿼리를 요청하면, 상기 메타노드에 등록된 상기 적어도 하나의 인메모리데이터베이스 각각에 대해 샤드 커넥션이 세션마다 생성되는 것을 특징으로 한다.
바람직하게, 상기 분산인메모리기반 복합형스트림 데이터처리시스템이 클라이언트측 샤딩모드로 구현되는 경우, 상기 클라이언트 어플리케이션에 설치된 샤드라이브러리가 상기 메타노드에 접속하여 상기 메타노드에 등록된 상기 적어도 하나의 인메모리데이터베이스 각각의 정보를 수신하고, 상기 적어도 하나의 인메모리데이터베이스 각각에 모두 접속하는 경우 샤드 커넥션을 생성하는 것을 특징으로 한다.
바람직하게, 상기 복합형 고속스트림 데이터는 센서 데이터, XML 형식의 데이터, HTML 형식의 데이터, 텍스트 데이터, 음성 데이터 및 영상 데이터를 포함하는 것을 특징으로 한다.
본 발명의 또 다른 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템에서 데이터를 처리하는 방법은 데이터수집부에서 다양한 데이터 소스들로부터 생성된 복합형스트림을 수집하는 단계, 데이터분산처리부에서 상기 수집한 복합형스트림을 정형데이터, 반정형데이터 및 비정형데이터로 실시간으로 분류하여 처리하는 단계, 적어도 하나의 인메모리데이터베이스에 상기 정형데이터, 반정형데이터 및 비정형데이터, 그리고 상기 복합형스트림을 처리한 결과를 저장하는 단계, 그리고 상기 복합형스트림을 상기 적어도 하나의 인메모리데이터베이스에 샤딩(sharding) 방식으로 분산하여 처리하는 단계; 를 포함하는 것을 특징으로 한다.
본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템은 인메모리 데이터베이스를 이용함으로써 복합형 고속 스트림 빅데이터 처리율을 향상시키고 실시간으로 분석을 지원할 수 있다. 또한, 정형, 반정형, 비정형 데이터를 실시간으로 분석, 저장이 가능하다.
도 1 은 본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템의 내부 구성도를 도시한다.
도 2 는 본 발명의 바람직한 일 실시예로서, 복합형 고속스트림 데이터를 수신하는 환경의 일 예를 도시한다.
도 3 은 본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템에서 샤딩을 수행하는 일 예를 도시한다.
도 4 는 본 발명의 바람직한 일 실시예로서, 하이브리드샤딩시스템의 동작 방식을 도시한다.
도 5 는 본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템에서 복합형스트림데이터를 처리하는 흐름도를 도시한다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
도 1 은 본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템의 내부 구성도를 도시한다.
본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템은 데이터수집부 (120), 데이터분산처리부(130), 적어도 하나의 인메모리데이터베이스 (140, 142, 144) 및 분석부(141, 143, 145)를 포함하고, 디스플레이부(160)를 더 포함할 수 있다.
본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템은 또한 샤딩(sharding)을 수행하기 위하여 클라이언트 어플리케이션(122)과 메타노드(170)를 더 포함할 수 있다. 분산인메모리기반 복합 형스트림 데이터처리시스템은 또한 샤딩(sharding)을 수행하는 일 실시예는 도 3과 관련하여 기술한다.
데이터수집부(120)는 다양한 데이터 소스들로부터 생성된 복합형 고속스트림 데이터를 수집한다. 복합형 고속스트림 데이터는 센서 데이터, XML 형식의 데이터, HTML 형식의 데이터, 텍스트 데이터, 음성 데이터 및 영상 데이터를 포함한다. 다양한 데이터 소스의 예로는 단말기(110)로부터 수신하는 데이터, 지하매설물(112)에 설치된 센서에서 수신하는 데이터, 공공기관 등에 설치된 센서에서 수신하는 데이터, 소셜네트워크시스템(116)으로부터 수신하는 데이터 등을 포함한다. 단말기(110)의 예로는 노트북, 컴퓨터, 핸드헬드 장치, 로봇, 웨어러블 장치, IoT 장치 등이 있다.
도 2 는 본 발명의 바람직한 일 실시예로서 , 복합형 고속스트림 데이터를 수신하는 환경의 일 예를 도시한다.
도 2 에 도시된 복합형 고속스트림 데이터를 수신하는 환경은 디스플레이 부(160) 등에 도시가 가능하다. 도 2 에 도시된 복합형 고속스트림 데이터를 수신하는 환경은 크게 3개의 레이어로 구성되어 있다. 상위레이어(210)는 실제 지형을 나타내는 레이어를 표시한다. 중간레이어(220)는 지적도 정보 등을 포함하는 지도형태의 레이어를 표시한다(220). 하위레이어(230)는 지하에 매설된 파이프 등에 설치된 센서의 배치도를 표시하는 레이어이다 .
본 발명의 바람직한 일 실시예로서, 데이터수집부(120)에서 SNS의 트윗 메시지를 수신하고, 동시에 SNS 트윗메시지를 전송한 단말기의 위치정보를 수집한 경우 데이터분산처리부(130)는 도 2 를 참고하면, 상위레이어(210)에 단말기의 위치정보를 표시하고, 중간레이어(220)의 지도정보를 이와 연관(correlation)시킨다. 또한 SNS에서 수집한 데이터를 확률모델로 처리한 후 해당 지도의 위치와 연관된 지하에 매설된 파이프 등에 설치된 센서의 센서 정보를 연관시켜 저장할 수 있다.
본 발명의 바람직한 일 실시예로서, 데이터분산처리부(130)는 데이터수집부(120)에서 수집한 복합형 고속스트림 데이터를 형태의 유무 또는 연산가능 여부로 분류한다. 데이터분산처리부(130)는 형태가 있고 연산가능한 데이터는 정형 데이터로, 형태가 있으나 연산가능하지 않은 데이터는 반정형 데이터로, 그리고 형태도 없고 연산도 가능하지 않은 데이터는 비정형 데이터로 실시간 분류하여 처리하도록 구현될 수 있다.
본 발명의 바람직한 일 실시예로서 , 데이터분산처리부(130)는 수집한 오디오 데이터 중 음성 데이터는 음성-텍스트 변환을 수행하여 비정형데이터로 활용할 수 있다.
본 발명의 바람직한 일 실시예로서 , 데이터분산처리부(130)는 수집한 복합형 고속스트림 데이터를 데이터 유형별로 분류하여 분산처리할 수 있다. 일 예로, 분류된 정형데이터, 반정형데이터 그리고 비정형데이터 별로 각각 분산하여 처리할 수 있다.
본 발명의 바람직한 일 실시예로서 , 데이터분산처리부(130)는 수집한 소셜네 트워크서비스(SNS)에 대한 사용 로그 데이터(usage log data)에 대해 형태소 분석기를 이용하여 명사만 추출한 후 LDA (Latent Dirichlet Allocation)을 이용하여 주제를 이루는 토픽들의 집합을 추출하여 토픽모델링을 수행할 수 있다. 또한, 토픽 모델링에서 도출된 단어를 대상으로 시간대별 빈도수를 계산하여 정형화된 시계열 데이터로 변환하여 분석을 수행할 수 있다.
본 발명의 바람직한 일 실시예로서 , 데이터분산처리부(130)는 수집한 데이터를 시간별로 분류하여 분산처리할 수 있다. 이 경우, 시간 구간은 12시간, 24시간, 1주, 1달, 그리고 사용자 설정 등과 같이 분류가 가능하다 .
본 발명의 바람직한 일 실시예로서 , 데이터분산처리부(130)는 수집한 데이터를 연관토픽별로 분류하여 분산처리할 수 있다. 이 경우, 연관토픽의 예로는 싱크 홀, 누수, 도로, 유실, 상수관, 매몰, 사고, 땅꺼짐 등이 있다.
본 발명의 바람직한 일 실시예로서 , 데이터분산처리부(130)는 수집한 데이터를 재난유형별로 분류하여 분산처리할 수 있다. 이 경우, 재난유형의 예로는 감염 병, 화재, 폭설, 산사태, 지진, 태풍, 황사, 홍수 등이 있다.
본 발명의 바람직한 일 실시예로서 , 데이터분산처리부(130)는 수집한 데이터를 STL (A Seasonal-Trend Decomposition Procedure based on Losses) 방법으로 데이터를 가공하여 이상 징후별로 데이터를 분류하여 처리할 수 있다. STL 방법은 데이터를 추세 변동, 계절 변동, 불규칙(remainder) 변동으로 분해하여 시계열 자료를 분석하는 방법이다.
본 발명의 바람직한 일 실시예로서 , 데이터분산처리부(130)는 수집한 데이터를 다양한 확률모델을 기초로 분산처리할 수 있다. 다양한 확률모델의 예로는 단순 프로세싱에서는 한 번에 하나의 스트림 데이터를 처리를 수행하고, 동시 다수의 이벤트 스트림간에는 상호 연결을 처리하는 상관기 능(Correlation), 다수의 이벤트 간의 상호 연관관계를 연속적으로 매칭 하여 실시간으로 패턴을 검출하는 패턴매칭기능(Pattern Matching), 이벤트 처리시 단일 스트림을 하나 이상의 조건, 패턴 또는 정규식 표현에 따라 발생시점별로 분리하는 필터링기능 (Filtering), 연속되어 발생하는 여러 이벤트 소스들을 통합하여 가치 있는 정보로 취합하여 가공하는 집계기능(Aggregate) 등이 있다.
본 발명의 바람직한 일 실시예로서 , 데이터분산처리부(130)는 수집한 데이터를 사용자가 설정한 기준에 따라 분류하여 분산처리가 가능하다.
적어도 하나의 인메모리데이터베이스(140, 142, 144)는 데이터수집부(120)에 서 수집한 데이터를 분산 저장할 수 있다. 또한 , 적어도 하나의 인메모리데이터베이스(140, 142, 144)는 데이터분산처리부(130)에서 분류한 정형데이터(131), 반정 형데이터 (132) 및 비정형데이터(133)를 저장하고, 정형데이터(131), 반정형데이 터(132) 및 비정형데이터(133)를 가공처리한 결과를 저장할 수 있다. 또한 , 반정형데이터 (132) 및 비정형데이터(133)에서 추출한 필요데이터를 저장할 수 있다. 여기서 , 필요데이터는 반정형데이터 (132) 및 비정형데이터(133)에서 공통된 패턴 데이터, 또는 특정 이벤트와 관련한 데이터, 분석부(141, 143, 145, 150)에서 통계적 기법과 데이터마이닝 기법을 이용하여 필터링한 데이터를 포함한다.
본 발명의 바람직한 일 실시예로서 , 적어도 하나의 인메모리데이터베이스 각각은(140, 142, 144) 복합형 고속스트림 데이터를 분석하는 분석부(141, 143, 145)를 내부에 더 포함하거나, 또는 유무선으로 통신이 가능한 형태로 분석부(150)와 통신을 수행할 수 있다.
본 발명의 바람직한 일 실시예로서 분석부(141, 143, 145)는 적어도 하나의 인메모리데이터베이스(140, 142, 144) 내부에 구비된 경우에는 적어도 하나의 인메 모리데이터베이스(140, 142, 144) 내부에 저장된 데이터를 통계적 기법과 데이터마이닝 기법을 이용하여 필터링을 수행할 수 있다.
본 발명의 바람직한 일 실시예로서 분석부(150)는 적어도 하나의 인메모리데 이터베이스(140, 142, 144)와 유무선으로 통신을 수행하면서, 적어도 하나의 인메 모리데이터베이스(140, 142, 144)로부터 수신한 데이터를 통계적 기법과 데이터마이닝 기법을 이용하여 필터링을 수행할 수 있다.
분석부(141, 143, 145, 150)는 또한 다양한 확률모델을 이용할 수 있다. 이 경우 다양한 확률모델은 단순 프로세싱에서는 한 번에 하나의 스트림 데이터를 처리를 수행하고, 동시 다수의 이벤트 스트림간에는 상호 연결을 처리하는 상관기능(Correlation), 다수의 이벤트 간의 상호 연관관계를 연속적으로 매칭 하여 실시간으로 패턴을 검출하는 패턴매칭기능(Pattern Matching), 이벤트 처리시 단일 스트림을 하나 이상의 조건, 패턴 또는 정규식 표현에 따라 발생시점별로 분리하는 필터링기능(Filtering), 연속되어 발생하는 여러 이벤트 소스들을 통합하여 가치 있는 정보로 취합하여 가공하는 집계기능(Aggregate) 등을 구비한다.
분석부(141, 143, 145, 150)는 분석 결과를 디스플레이부(160)에 표시할 수 있으며, 또한 분석 결과를 데이터분산처리부(130)에 피드백으로 제공할 수 있다.
분석부(141, 143, 145, 150)는 데이터분산처리부(130)에서 수집한 데이터 가공을 처리하기 위하여 이용하는 토픽모델링 기법을 이용할 수 있으며, 분산처리된 데이터를 추가로 통합, 분류하는 기능을 더 구비할 수 있다.
도 3 은 본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템에서 샤딩을 수행하는 일 예를 도시한다. 도 1 을 참고하여 기술한다.
샤딩(Sharding)은 한 대의 데이터베이스에 저장했던 데이터를 여러 대의 데이터베이스에 분산하여 저장 및 처리하는 스케일 아웃(Scale-out) 기술이다. 샤딩기술은 일반적으로 코디네이터를 이용하여 데이터를 분리하여 처리하는 서버측(Server-side)샤딩 방식과 어플리케이션에서 데이터를 분리하여 처리하는 클라이언트측(Client-side) 샤딩 방식으로 나눌 수 있다.
본 발명의 바람직한 일 실시예에로서, 분산인메모리기반 복합형스트림 데이터처리시스템은 서버측 샤딩기능과 클라이언트측 샤딩 기능을 동시에 지원할 수 있다. 또한, 필요에 따라 서버측 샤딩기능만을 선택하거나 또는 클라이언트측 샤딩기능만을 선택하도록 구현이 가능하다.
본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템은 데이터수집부(도 1, 120 참고)에 설치가능한 클라이언트어플리케이션(312, 314, 316)를 포함하고, 각각의 어플리케이션(312, 314, 116)마다 설치된 샤드라이브러리(Shard Library)(313, 315, 317), 메타노드(120), 분산된 데이터를 저장하는 적어도 하나의 인메모리DB(330, 332, 334, 336)를 포함한다.
본 발명의 바람직한 일 실시예로서, 메타노드(320)는 인메모리DB(330, 332, 334, 336) 및 샤딩 정보를 관리하고, 사용자 쿼리를 분석하며, 서버측샤딩기능 수행시 통합 쿼리 제공 등의 코디네이터 역할을 수행한다. 또한, 데이터를 인메모리DB(330, 332, 334, 336)들에 재분배하는 기능을 수행할 수 있다.
본 발명의 바람직한 일 실시예로서, 적어도 하나의 샤드라이브러리(113, 115, 117)는 클라이언트단말기에 라이브러리(Library) 형태로 설치되어 샤딩 기능을 수행하며, 기존의 ODBC와 동일한 API인터페이스를 제공한다.
본 발명의 바람직한 일 실시예로서, 적어도 하나의 샤드라이브러리(313, 315, 317)는 클라이언트 어플리케이션(312, 314, 316)과 인메모리DB(330, 332, 334, 336)간에 코디네이터 역할을 수행할 수 있다.
본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템은 서버측 샤딩을 구현할 때 인메모리DB(330, 332, 334, 336)의 수가 증가하더라도 전체 성능향상에 무리가 없으며, 또한 데이터 분산 정책을 변경하는 경우에도 클라이언트의 어플리케이션(312, 314, 316)을 수정하지 않을 수 있는 장점이 있다.
도 4 는 본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템에서 서버측샤딩과 클라이언트측샤딩을 지원하는 예를 도시한다.
본 발명의 바람직한 일 실시예로서, 복합형스트림 데이터처리시스템에서 서버측샤딩을 지원하는 예는 아래와 같다.
데이터 수집부(도 1, 120참고) 또는 클라이언트 단말기(410)에 설치된 어플리케이션(412)에서 샤드라이브러리(413)를 통해 메타노드(420)에 접속을 시도한다. 일반적인 데이터베이스 접속 방식과 동일한 방식으로 접속이 가능하다.
메타노드(420)에서 세션을 생성한다. 어플리케이션(412)에서 메타노드(420)에 샤드 객체가 포함된 사용자 쿼리를 요청한다
샤드객체가 포함된 샤드쿼리인지를 판단하는 일 예는 다음과 같다.
/* 노드 구성 완료 후 각 노드에 테이블 생성 */
CREATE TABLE t1(id INTEGER, name VARCHAR(50));
/* T1 을 샤드 테이블로 설정 */
EXEC DBMS_SHARD.SET_SHARD_TABLE('SYS', 'T1', 'R', 'ID', 'NODE1');
EXEC DBMS_SHARD.SET_SHARD_RANGE('SYS', 'T1', 3, 'NODE2');
EXEC DBMS_SHARD.SET_SHARD_RANGE('SYS', 'T1', 6, 'NODE3');
/* 각 노드에 데이터 입력 */
INSERT INTO t1 VALUES(1, 'Kim');
INSERT INTO t1 VALUES(2, 'Lee');
INSERT INTO t1 VALUES(3, 'Park');
INSERT INTO t1 VALUES(4, 'Choi');
INSERT INTO t1 VALUES(5, 'Jeong');
INSERT INTO t1 VALUES(6, 'Kang');
INSERT INTO t1 VALUES(7, 'Joe');
INSERT INTO t1 VALUES(8, 'Yoon');
INSERT INTO t1 VALUES(9, 'Jang');
/* 쿼리 테스트 */
iSQL> SELECT * FROM t1 WHERE id = 2;
특정 노드에서만 조회가 가능하므로 정상수행이 이루어진다.
ID          NAME
-------------------------------------------------------------------
2           Lee
1 row selected.
iSQL> SELECT * FROM t1; --샤드 테이블이므로 단일쿼리 조회시 오류발생
[ERR-E1385 : The shard table is only available inside the shard view.:
0001 : SELECT * FROM T1
]
iSQL > SHARD SELECT * FROM t1; -- 분산 저장된 모든 데이터 조회시 "SHARD" 구문 사용
ID          NAME
-------------------------------------------------------------------
7           Joe
8           Yoon
9           Jang
1           Kim
2           Lee
3           Park
4           Choi
5           Jeong
6           Kang
9 rows selected.
iSQL > SELECT * FROM t1 WHERE id = 2 OR id = 3; -- 특정 노드에서만 조회 가능하므로 정상수행
ID          NAME
-------------------------------------------------------------------
2           Lee
3           Park
2 rows selected.
iSQL > SELECT COUNT(*) FROM t1; -- 모든 노드의 합을 구하여 조회해야 하므로 단일쿼리 사용시 오류 발생
[ERR-E1385 : The shard table is only available inside the shard view.:
0001 : SELECT COUNT(*) FROM T1
 ]                         
iSQL> SHARD SELECT COUNT(*) FROM t1;
--모든 노드의 합을 구하여 조회해야 하므로 "SHARD" 구문 사용하여 조회
COUNT(*)
-----------------------
3
3
3
3 rows selected.
iSQL> SELECT SUM(c1) FROM SHARD(SELECT COUNT(*) c1 FROM t1);
--모든 노드의 합을 구하여 조회해야 하므로 "SHARD" 구문 사용하여 조회
SUM(C1)
-----------------------
9
1 row selected.
메타노드(420)는 메타노드에 등록된 모든 인메모리DB(430, 432, 434, 436, 438)에 대해 샤드 커넥션을 세션마다 생성한다. 세션이 종료되면 샤드커넥션도 종료된다. 위와 같이 샤드 커넥션 관리를 수행하고(S410), 그 과정에서 입력된 사용자 쿼리는 아래와 같이 분석한다(S420).
메타노드(420)는 어플리케이션(412)에서 요청한 사용자 쿼리를 분석한다. 사용자 쿼리가 샤드쿼리인 경우 분석 결과가 생성되고, 분석 결과에 의해 질의 최적화를 수행하여 plan tree를 생성한다. 메타노드(420)는 사용자 쿼리가 샤드쿼리인 경우와 샤드쿼리가 아닌 경우를 분류하여 처리할 수 있다. 샤드쿼리가 아닌 사용자 쿼리는 메타노드(420)에서 코디네이터의 역할로써 해당 사용자 쿼리를 처리한다.
샤드쿼리를 수행하면, 메타노드(420)는 생성된 plan tree를 수행하고, 쿼리 수행 이후 plan을 조회하면 각 인메모리DB(430, 432, 434, 436, 438)에서 수행한 샤드SQL의 plan을 조회할 수 있다. 메타노드(420)는 샤드쿼리의 수행결과를 어플리케이션(412)에 반환한다.
본 발명의 바람직한 일 실시예로서, 복합형스트림 데이터처리시스템에서 클라이언트측 샤딩을 지원하는 예는 아래와 같다.
클라이언트측샤딩기능을 구현할 경우, 메타노드(420)는 어플리케이션에서 처음으로 질의를 준비하는(442) 경우에만 분석을 통해 인메모리DB들의 스키마 정보를 포함하는 메타정보를 생성한다. 어플리케이션(412)은 메타노드(420)에 최초 1회 접속시 샤드 스키마(Shard Schema) 조회를 통해 인메모리DB(430, 432, 434)에 어떤 테이블들이 있는지 정보를 파악한다. 최초 1회만 분석이 요구될 뿐 추가적인 분석이 요구되지 않는다.
메타노드(420)는 생성한 메타정보와 어플리케이션(412)의 바인드 정보만으로 질의를 반복적으로 수행할 수 있다. 그 결과 클라이언트측샤딩의 성능확장성을 그대로 유지하면서도 어플리케이션을 수정하거나 재작성할 필요가 없는 이점이 발생한다.
메타노드(420)는 사용자 쿼리를 분석하여 샤드 객체가 포함된 샤드쿼리인 경우 샤드키(Shard Key)(450)를 기준으로 데이터를 적어도 하나 이상의 인메모리DB(430, 432, 434, 436, 438) 각각에 분산처리를 수행한다. 본 발명의 바람직한 일 실시예에서는 샤드키(Shard Key)(450)를 이용하는 방식으로 Range, List, Hash 등의 방식을 이용할 수 있다.
하이브리드샤딩시스템이 클라이언트측샤딩기능 구현시 어플리케이션(412)에서 메타노드(420)로 SQLDriverConnect() 함수(S414)를 호출하면 샤드라이브러리(413)가 메타노드(420)에 접속한다. 샤드라이브러리(413)는 메타노드(420)에 등록되어 있는 데이터 노드의 역할을 수행하는 모든 인메모리DB(430, 432, 434, 436, 438)들의 정보를 수신한다. 그 후, 모든 인메모리DB(430, 432, 434, 436, 438)에 접속하면 어플리케이션(412)에 접속에 성공했음을 알린다. 그러나, 인메모리DB(430, 432, 434, 436, 438)들 중 하나라도 접속이 실패하면, 이미 접속이 성공한 인메모리DB들의 연결을 종료하고 어플리케이션(412)에 접속에 실패했음을 알린다.
샤드 커넥션이 생성되면, 어플리케이션(412)에서 SQLPrepare() 함수를 호출한다(442). 샤드라이브러리(413)는 사용자 쿼리를 메타노드(420)에 전달한다. 메타노드(420)는 어플리케이션(412)에서 수신한 사용자쿼리가 샤드쿼리인지를 분석하여 분석결과를 샤드라이브러리(413)에 전달한다.
사용자쿼리가 샤드라이브러리(413)에서 수행할 수 없는 쿼리인 경우에는 오류메시지를 어플리케이션(412)에 전달한다. 사용자 쿼리 분석 결과는 사용자 쿼리가 샤드쿼리인지 여부, 샤드쿼리인 경우 샤드쿼리가 수행될 수 있는 인메모리DB의 리스트, 샤드키와 관련한 호스트 변수 및 바인드 값에 대한 해석 방법등을 포함할 수 있다.
샤드쿼리가 분석되면 샤드라이브러리(413)는 사용자 쿼리 분석 결과에 포함된 인메모리DB들에 대하여 SQLPrepare()(442) 작업을 수행한다. 어플리케이션(412)에서 SQLBindParameter() 함수(444)를 호출하면 사용자 쿼리 분석 결과에 포함된 인메모리DB들에 대하여 SQLBindParameter()(444)를 수행한다.
어플리케이션(412)에서 SQLExecute()(446)를 수행하면, 샤드라이브러리(413)는 바인드된 값들 중에서 샤드키와 관련된 값을 찾고, 그 후 바인드값을 해석하여 샤드 쿼리를 수행할 인메모리DB(430, 432, 434, 436, 438)를 선택한다. 선택된 인메모리DB에 대하여 SQLExecute()(446)를 수행하고, 수행 결과를 어플리케이션(412)에 전달한다.
도 5 는 본 발명의 바람직한 일 실시예로서, 분산인메모리기반 복합형스트림 데이터처리시스템에서 복합형스트림데이터를 처리하는 흐름도를 도시한다.
데이터수집부에서 다양한 데이터 소스들로부터 생성된 복합형스트림을 수집한다(S510). 복합형스트림은 빅데이터, 영상데이터, 오디오데이터, 텍스트, SNS(Social Network System)의 트윗메시지, 센서 데이터, HTML 데이터, XML 데이터 등과 같은 다양한 종류의 데이터를 모두 포함한다.
데이터분산처리부에서는 수집한 복합형스트림을 정형데이터, 반정형데이터 및 비정형데이터로 실시간으로 분류하고, 적어도 하나의 인메모리데이터베이스에 분산하여 저장한다. 또한, 데이터분산처리부에서는 수신한 복합형스트림을 데이터유형, 이벤트 유형 또는 기설정된 기준에 따라 수신한 복합형스트림을 분산처리할 수 있다.
적어도 하나의 인메모리데이터베이스는 정형데이터, 반정형데이터, 비정형데이터 및 복합형스트림을 처리한 결과를 실시간으로 저장하고(S530), 추가적으로 분석부를 통해 수신한 데이터를 통합하거나 분류하는 처리가 가능하다.
본 발명의 바람직한 일 실시예에서 분산인메모리기반 복합형스트림 데이터처리시스템은 데이터수집부에서 수집한 복합형스트림을 복합형스트림을 적어도 하나의 인메모리데이터베이스에 샤딩(sharding) 방식으로 분산하여 처리가 가능하다(S540).
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (13)

  1. 분산인메모리기반 복합형스트림 데이터처리시스템으로서,
    클라이언트 어플리케이션을 포함하고, 다양한 데이터 소스들로부터 생성된 복합형 고속스트림 데이터를 수집하는 데이터수집부;
    상기 수집한 복합형 고속스트림 데이터를 형태의 유무 또는 연산가능 여부로 분류하여, 형태가 있고 연산가능한 데이터는 정형 데이터로, 형태가 있으나 연산가능하지 않은 데이터는 반정형 데이터로, 그리고 형태도 없고 연산도 가능하지 않은 데이터는 비정형 데이터로 실시간 분류하여 처리하는 데이터분산처리부;
    상기 정형데이터, 상기 반정형데이터 및 상기 비정형데이터를 저장하고, 상기 복합형 고속스트림 데이터를 분석한 결과를 분산하여 저장하는 적어도 하나의 인메모리데이터베이스;
    사용자 쿼리를 분석하여 샤드 객체가 포함된 샤드쿼리인지 판단하고, 샤드쿼리인 경우 샤드키(Shard Key)를 기준으로 데이터를 상기 적어도 하나 이상의 인메모리데이터베이스 각각에 분산처리하는 메타노드;및
    상기 클라이언트 어플리케이션에 라이브러리 형태로 설치되어, 상기 클라이언트 어플리케이션과 상기 적어도 하나 이상의 인메모리데이터베이스 간의 코디네이터 역할을 수행하며, 사용자 쿼리를 상기 메타 노드에 전달하고, 상기 메타노드에 등록된 상기 적어도 하나 이상의 인메모리데이터베이스의 정보를 수신하여 상기 데이터수집부와 상기 적어도 하나 이상의 데이터수집부의 연결을 수행하는 샤드라이브러리;를 포함하고, 상기 적어도 하나의 인메모리데이터베이스 각각은 상기 복합형 고속스트림 데이터를 분석하는 분석부;를 더 포함하며,
    상기 분산인메모리기반 복합형스트림 데이터처리시스템은 서버측 샤딩모드 또는 클라이언트측 샤딩모드로 구현이 가능하고,
    상기 분산인메모리기반 복합형스트림 데이터처리시스템이 서버측 샤딩모드로 구현되는 경우, 상기 클라이언트 어플리케이션에서 상기 메타노드에 접속하고, 상기 메타노드는 세션을 생성하며, 상기 클라이언트 어플리케이션에서 상기 메타노드에 상기 샤드쿼리를 요청하면, 상기 메타노드에 등록된 상기 적어도 하나의 인메모리데이터베이스 각각에 대해 샤드 커넥션이 세션마다 생성되며
    상기 분산인메모리기반 복합형스트림 데이터처리시스템이 클라이언트측 샤딩모드로 구현되는 경우, 상기 클라이언트 어플리케이션에 설치된 샤드라이브러리가 상기 메타노드에 접속하여 상기 메타노드에 등록된 상기 적어도 하나의 인메모리데이터베이스 각각의 정보를 수신하고, 상기 적어도 하나의 인메모리데이터베이스 각각에 모두 접속하는 경우 샤드 커넥션을 생성하는 것을 특징으로 하는 분산인메모리기반 복합형스트림 데이터처리시스템.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제 1 항에 있어서, 상기 복합형 고속스트림 데이터는
    센서 데이터, XML 형식의 데이터, HTML 형식의 데이터, 텍스트 데이터, 음성 데이터 및 영상 데이터를 포함하는 것을 특징으로 하는 분산인메모리기반 복합형스트림 데이터처리시스템.
  6. 제 5 항에 있어서,
    상기 음성 데이터는 음성-텍스트 변환을 수행하여 비정형데이터로 활용하는 것을 특징으로 하는 분산인메모리기반 복합형스트림 데이터처리시스템.
  7. 제 5 항에 있어서,
    상기 영상 데이터는 영상 정합 기술 내지 특징점 추출 기술을 기초로 비정형데이터로 활용되며, 영상 분류가 추가로 수행되도록 구현될 수 있는 것을 특징으로 하는 분산인메모리기반 복합형스트림 데이터처리시스템.
  8. 제 1 항에 있어서,
    상기 분석부는 상기 반정형데이터 및 상기 비정형데이터에 대해 통계적 기법과 데이터마이닝 기법을 이용하여 필터링을 수행하는 것을 특징으로 하는 분산인메모리기반 복합형스트림 데이터처리시스템.
  9. 제 1 항에 있어서, 상기 분석부는
    단순 프로세싱에서는 한 번에 하나의 스트림 데이터를 처리를 수행하고, 동시 다수의 이벤트 스트림간에는 상호 연결을 처리하는 상관기능(Correlation), 다수의 이벤트 간의 상호 연관관계를 연속적으로 매칭 하여 실시간으로 패턴을 검출하는 패턴매칭기능(Pattern Matching), 이벤트 처리시 단일 스트림을 하나 이상의 조건, 패턴 또는 정규식 표현에 따라 발생시점별로 분리하는 필터링기능(Filtering), 연속되어 발생하는 여러 이벤트 소스들을 통합하여 가치 있는 정보로 취합하여 가공하는 집계기능(Aggregate) 중 적어도 하나 이상을 지원하는 것을 특징으로 하는 분산인메모리기반 복합형스트림 데이터처리시스템.
  10. 제 1 항에 있어서, 상기 복합형 고속스트림 데이터는
    센서로부터 수신한 데이터 및 소셜네트워크서비스(SNS)에 대한 사용 로그 데이터(usage log data)를 포함하는 것을 특징으로 하는 분산인메모리기반 복합형스트림 데이터처리시스템.
  11. 제 10항에 있어서, 상기 분석부는
    상기 소셜네트워크서비스에 대한 사용 로그 데이터에 대해 형태소 분석기를 이용하여 명사만 추출한 후 LDA(Latent Dirichlet Allocation)을 이용하여 주제를 이루는 토픽들의 집합을 추출하여 토픽모델링을 수행하고, 토픽 모델링에서 도출된 단어를 대상으로 시간대별 빈도수를 계산하여 정형화된 시계열 데이터로 변환하여 분석을 수행하는 것을 특징으로 하는 분산인메모리기반 복합형스트림 데이터처리시스템.
  12. 제 1 항에 있어서,
    상기 정형데이터는 지하에 부착된 센서로부터 수신된 센서데이터를 포함하고, 상기 정형데이터, 상기 반정형데이터, 상기 비정형데이터는 특정 이벤트를 기준으로 분류, 통합이 가능한 것을 특징으로 하는 분산인메모리기반 복합형스트림 데이터처리시스템.
  13. 삭제
KR1020170061641A 2017-05-18 2017-05-18 분산인메모리기반 복합형스트림 데이터처리시스템 및 방법 KR101982756B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170061641A KR101982756B1 (ko) 2017-05-18 2017-05-18 분산인메모리기반 복합형스트림 데이터처리시스템 및 방법
US15/689,259 US20180336248A1 (en) 2017-05-18 2017-08-29 Distributed in-memory-based complex data processing system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170061641A KR101982756B1 (ko) 2017-05-18 2017-05-18 분산인메모리기반 복합형스트림 데이터처리시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20180126792A KR20180126792A (ko) 2018-11-28
KR101982756B1 true KR101982756B1 (ko) 2019-05-28

Family

ID=64272426

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170061641A KR101982756B1 (ko) 2017-05-18 2017-05-18 분산인메모리기반 복합형스트림 데이터처리시스템 및 방법

Country Status (2)

Country Link
US (1) US20180336248A1 (ko)
KR (1) KR101982756B1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10848585B2 (en) * 2018-12-03 2020-11-24 Walmart Apollo, Llc Using a sharded distributed cache as a pipeline integration buffer
WO2021040101A1 (ko) * 2019-08-30 2021-03-04 주식회사 나눔기술 고성능 질의 및 응답을 위한 실시간 분산색인 시스템 및 방법
KR102160816B1 (ko) * 2019-10-16 2020-09-28 주식회사 엘에프아이티 Gis 기반 서비스 제공 시스템
KR102102313B1 (ko) * 2019-11-27 2020-04-20 주식회사 리얼타임테크 인메모리 데이터베이스 기반의 시계열 데이터 관리시스템
US11250015B2 (en) * 2020-02-07 2022-02-15 Coupang Corp. Systems and methods for low-latency aggregated-data provision

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101544356B1 (ko) * 2012-10-31 2015-08-13 삼성에스디에스 주식회사 메타데이터 및 트랜잭션 발생량을 고려한 동적 샤딩 기능을 지원하는 분산 데이터베이스 관리 방법 및 그 구성 노드
KR101600275B1 (ko) * 2015-03-20 2016-03-07 주식회사 투그램시스템즈 실시간 빅 데이터 이벤트 처리 시스템
KR101687239B1 (ko) * 2016-05-06 2016-12-16 주식회사 위즈온텍 빅데이터 스트림 모델링 시스템 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3128629A1 (en) * 2015-06-05 2016-07-28 C3.Ai, Inc. Systems and methods for data processing and enterprise ai applications
US10339121B2 (en) * 2015-08-06 2019-07-02 Sap Se Data compression

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101544356B1 (ko) * 2012-10-31 2015-08-13 삼성에스디에스 주식회사 메타데이터 및 트랜잭션 발생량을 고려한 동적 샤딩 기능을 지원하는 분산 데이터베이스 관리 방법 및 그 구성 노드
KR101600275B1 (ko) * 2015-03-20 2016-03-07 주식회사 투그램시스템즈 실시간 빅 데이터 이벤트 처리 시스템
KR101687239B1 (ko) * 2016-05-06 2016-12-16 주식회사 위즈온텍 빅데이터 스트림 모델링 시스템 및 방법

Also Published As

Publication number Publication date
US20180336248A1 (en) 2018-11-22
KR20180126792A (ko) 2018-11-28

Similar Documents

Publication Publication Date Title
KR101982756B1 (ko) 분산인메모리기반 복합형스트림 데이터처리시스템 및 방법
CN110019396B (zh) 一种基于分布式多维分析的数据分析系统及方法
Budak et al. Geoscope: Online detection of geo-correlated information trends in social networks
CN109582551A (zh) 日志数据解析方法、装置、计算机设备和存储介质
Kazemitabar et al. Geospatial stream query processing using Microsoft SQL Server StreamInsight
US10883345B2 (en) Processing of computer log messages for visualization and retrieval
CN102667761A (zh) 可扩展的集群数据库
CN104050213B (zh) 包括数据分类的查询处理系统
Mahmood et al. FAST: frequency-aware indexing for spatio-textual data streams
KR100898465B1 (ko) 웹로그의 시계열 분석을 위한 데이터 저장 및 조회 방법그리고 상기 방법을 수행하는 시스템
Williams et al. Improving geolocation of social media posts
CN111708774A (zh) 一种基于大数据的产业分析系统
CN110727805A (zh) 社区知识图谱构建方法及系统
Suprem et al. Assed: A framework for identifying physical events through adaptive social sensor data filtering
CN112800083B (zh) 一种面向政府决策的政务大数据分析方法及设备
CN117251414B (zh) 一种基于异构技术的数据存储及处理方法
Rehman et al. Building socially-enabled event-enriched maps
Dittrich et al. Is this twitter event a disaster?
CN109344190A (zh) 一种警务数据处理方法及装置
Wang et al. A CyberGIS environment for analysis of location-based social media data
Cuzzocrea et al. Exploiting compression and approximation paradigms for effective and efficient online analytical processing over sensor network readings in data grid environments
Kwoczek et al. An architecture to process massive vehicular traffic data
KR101773910B1 (ko) 위치 기반 빅데이터 시스템
Bou et al. Streamingcube-based analytical framework for environmental data analysis
CN113971213A (zh) 智慧城市管理公共信息共享系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant