KR101794883B1 - 분산 파일 시스템에서의 대용량 공간 데이터의 고속 분산 색인 생성 및 저장 방법 - Google Patents

분산 파일 시스템에서의 대용량 공간 데이터의 고속 분산 색인 생성 및 저장 방법 Download PDF

Info

Publication number
KR101794883B1
KR101794883B1 KR1020170039981A KR20170039981A KR101794883B1 KR 101794883 B1 KR101794883 B1 KR 101794883B1 KR 1020170039981 A KR1020170039981 A KR 1020170039981A KR 20170039981 A KR20170039981 A KR 20170039981A KR 101794883 B1 KR101794883 B1 KR 101794883B1
Authority
KR
South Korea
Prior art keywords
data
distributed
spatial
memory
spatial data
Prior art date
Application number
KR1020170039981A
Other languages
English (en)
Inventor
황규문
이주섭
김창수
Original Assignee
주식회사 포스웨이브
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 포스웨이브 filed Critical 주식회사 포스웨이브
Application granted granted Critical
Publication of KR101794883B1 publication Critical patent/KR101794883B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F17/30321
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F17/30194

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 실시 형태는 인메모리 기반 공간 빅데이터 시스템 통신부, 고속 인덱스 생성 분산 처리부, 고속 공간 탐색 분산 처리부 및 데이터가 디스크 및 메모리 공간에 분산 저장되는 복수개의 데이터 노드 서버를 포함하는 인메모리 기반 공간 빅데이터 시스템 인메모리 분산 클러스터 장치에서, 복수개의 데이터 노드 서버에 분산 저장된 기하학 도형(Geometry) 및 지리적 속성 정보를 포함하는 공간 데이터를 인메모리 공간으로 로딩하여 저장하는 공간 데이터 로딩 과정; 상기 고속 공간 탐색 분산 처리부가, 상기 인메모리 서버에 저장된 공간 데이터의 각 격자별로 격자키를 생성하는 격자키 생성 과정; 상기 고속 공간 탐색 분산 처리부가, 각 격자내의 공간 데이터를 검색할 수 있는 색인 정보를 생성하는 색인 정보 생성 과정; 상기 고속 공간 탐색 분산 처리부가, 격자키를 기반으로 색인 정보를 할당하여 분류하는 격자키 기반 분류 과정; 상기 고속 공간 탐색 분산 처리부가, 격자키별로 할당된 색인 정보를 데이터 노드의 메모리영역에 분산 저장하는 인메모리 분산 저장 과정; 및 상기 데이터 노드의 메모리 공간에 분산 저장된 색인 정보가 복수개의 데이터 노드 서버의 디스크 공간에 분산 저장되는 디스크 분산 저장 과정;을 포함할 수 있다.

Description

분산 파일 시스템에서의 대용량 공간 데이터의 고속 분산 색인 생성 및 저장 방법{METHOD FOR GENERATING AND STORING HIGH SPEED DIATRIBUTED INDEX OF MASSIVE SPATIAL DATA IN DATA-DISTRIBUTED PROCESSING}
본 발명은 분산 처리 시스템에 관한 것으로서, 더 구체적으로는 분산 시스템에 저장된 대용량 공간 데이터의 분산 처리를 통한 고속 색인 생성 및 격자 분류 분산 저장 기법에 관한 것이다.
하둡(Hadoop)등 빅데이터 분산 처리 프레임워크와 공간데이터 처리를 접목한 기술로 대용량 공간데이터의 처리가 가능하게 되어 여러 분야에 활용되고 있다.
공간데이터의 특성상 공간의 인접성이 고려되므로 공간 데이터에 대한 색인 정보의 생성과 그 이용이 필수적이다.
공간 빅데이터의 도입전 공간 데이터는 1억건 미만의 데이터 수준으로 순차적으로 처리되는 색인 생성 및 저장 방법으로도 큰 문제가 없었다.
하지만, 공간 빅데이터 처리 기술의 도입으로 분석 대상 및 분석된 결과 데이터가 적게는 수천만 건에서 많게는 수십억 건까지 생성되어 결과 데이터를 분석 또는 검색을 위해 엑세스하기 위해서는 순차적으로 생성되는 공간 인덱스가 생성이 완료되기까지 오랜 시간을 기다려야 한다.
한편, 인메모리 분산 시스템인 Spark에서 분산 저장방식으로 쓰이는 RDD(Resilient Distributed DataSet)는 RDD 단위로 처리를 하며 RDD 내의 임의의 데이터만 엑세스 할 수 없는 문제 등이 있어 공간적 인접성이 고려되어야 하는 지리정보시스템(GIS, Geographic Information System)에 적합하지 않은 문제점이 있다.
1. 한국 등록특허 번호 제10-1654314호
본 발명의 기술적 과제는 대용량 공간 데이터에 대하여 분산 처리를 이용하여 고속으로 색인을 생성하고 분류하여 저장하는데 있다.
본 발명의 실시 형태는 인메모리 기반 공간 빅데이터 시스템 통신부, 고속 인덱스 생성 분산 처리부, 고속 공간 탐색 분산 처리부 및 데이터가 디스크 및 메모리 공간에 분산 저장되는 복수개의 데이터 노드 서버를 포함하는 인메모리 기반 공간 빅데이터 시스템에서, 복수개의 데이터 노드 서버에 분산 저장된 기하학 도형(Geometry) 및 지리적 속성 정보를 포함하는 공간 데이터를 인메모리 분산 클러스터 장치로부터 상기 데이터 노드 서버의 메모리에 로딩하여 저장하는 공간 데이터 로딩 과정; 상기 고속 공간 탐색 분산 처리부가, 상기 데이터 노드 서버에 저장된 공간 데이터의 각 격자별로 격자키를 생성하는 격자키 생성 과정; 상기 고속 공간 탐색 분산 처리부가, 각 격자내의 공간 데이터를 검색할 수 있는 색인 정보를 생성하는 색인 정보 생성 과정; 상기 고속 공간 탐색 분산 처리부가, 격자키를 기반으로 색인 정보를 할당하여 분류하는 격자키 기반 분류 과정; 상기 고속 공간 탐색 분산 처리부가, 격자키별로 할당된 색인 정보를 데이터 노드 서버의 메모리영역에 분산 저장하는 인메모리 분산 저장 과정; 및 상기 데이터 노드 서버의 메모리 공간에 분산 저장된 색인 정보가 상기 복수개의 데이터 노드 서버의 디스크 공간에 분산 저장되는 디스크 분산 저장 과정;을 포함할 수 있다.
공간 데이터 로딩 과정은, 상기 공간 데이터를 상기 데이터 노드 서버에 분산하여 저장함을 특징으로 할 수 있다.
상기 격자키 생성 과정은, 공간 데이터의 전체 커버리지를 격자 분할하여, 각 격자별로 부여되는 인덱스를 격자키로서 결정함을 특징으로 할 수 있다.
상기 색인 정보는, 각 격자내의 기하학 도형의 특성을 나타내는 인벨롭 정보임을 특징으로 할 수 있다.
상기 디스크 분산 저장 과정이 있은 후, 클라이언트 단말기로부터 검색 쿼리가 입력되는 경우, 입력된 검색 쿼리에 매칭되는 색인 정보를 가지는 격자키를 추출하여, 추출한 격자키와 매칭되는 공간 데이터를 클라이언트 단말기에 제공하는 검색 제공 과정;을 포함할 수 있다.
인메모리 분산 저장 과정은, RDD(Resilient Distributed Dataset) 형태로 분산 저장됨을 특징으로 할 수 있다.
본 발명의 실시 형태에 따르면 분산 시스템에 저장된 대규모의 공간 데이터에 대하여 고속으로 인덱스 데이터를 생성하고 저장이 가능하여 공간데이터의 색인 생성에 필요한 인적 시간적 비용을 획기적으로 줄일 수 있다.
또한, 발명의 실시 형태에 따르면 저가의 일반 PC를 이용하여 인메모리 기반의 실시간 빅데이터 수준의 대규모 공간데이터의 저장 및 고속 처리를 가능하게 할 수 있다. 더불어 공간 인접성이 고려되어야 하는 공간 분석에서 RDD 데이터 셋 전체를 읽어야만 처리가 가능한 인메모리 기반에서의 비효율을 크게 개선하여 실시간 수준의 공간 빅데이터 처리가 가능하다.
도 1은 본 발명의 실시 예에 따른 인메모리 분산 클러스터 장치의 하드웨어 구성도.
도 2는 본 발명의 실시예에 따른 고속 인덱스 생성 흐름을 나타낸 그림.
도 3은 본 발명의 실시예에 따른 분산 파일 시스템에서의 대용량 공간 데이터의 고속 분산 색인 생성 및 저장 과정을 도시한 플로차트.
도 4는 본 발명의 실시예에 따라 클라이언트 단말기가 검색 영역을 선택하는 모습을 도시한 그림.
도 5는 본 발명의 실시예에 따라 기하학 도형의 인벨롭 영역의 예시 그림.
도 6은 본 발명의 실시예에 따라 격자키 기반으로 분류된 색인 정보의 예시 테이블.
도 7은 본 발명의 실시 예에 따른 고속 인덱스 생성 처리 과정에서 클러스터를 구성하는 각 노드에서의 과정을 도시한 구성도.
도 8은 본 발명의 실시예에 따른 클라이언트 단말기가 구비된 모습을 도시한 그림.
도 9는 본 발명의 실시 예에 따른 고속 인덱스 생성 처리 성능 평가자료를 나타내는 그림.
이하, 본 발명의 장점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은, 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것으로, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 또한, 본 발명을 설명함에 있어 관련된 공지 기술 등이 본 발명의 요지를 흐리게 할 수 있다고 판단되는 경우 그에 관한 자세한 설명은 생략하기로 한다.
도 1은 본 발명의 실시 예에 따른 인메모리 분산 클러스터 장치의 하드웨어 구성도이며, 도 2는 본 발명의 실시예에 따른 고속 인덱스 생성 흐름을 나타낸 그림이다.
분산 파일 시스템에서의 대용량 공간 데이터의 고속 분산 색인 생성 및 저장 가능하도록 본 발명은, 유무선 통신망, 인메모리 기반 공간데이터 시스템 통신부(110), 고속 인덱스 생성 분산 처리부(120), 고속 공간탐색 분산 처리부(130)와, 데이터 노드 서버를 가지는 인메모리 분산 클러스터 장치(300)를 포함하는 인메모리 공간빅데이터 시스템(100)과, 데이터 노드 서버(300)로 이루어진 인메모리 분산 클러스터 장치를 포함한다.
유무선 통신망은, 인메모리 기반 공간데이터 시스템 통신부(110), 고속 인덱스 생성 분산 처리부(120), 고속 공간탐색 분산 처리부(130)를 포함하는 인메모리 공간빅데이터 시스템과, 데이터 노드 서버(300), 사용자 클라이언트(200)을 유선 통신 또는 무선 통신으로 각각 연결한다.
이러한 유무선 통신망이 무선 통신망으로 구현되는 경우, 기지국(BTS;Base Transceiver Station), 이동교환국(MSC;Mobile Switching Center), 및 홈 위치 등록기(HLR;Home LocationRegister)로 이루어진 무선 이동통신망을 이용하여 데이터 통신을 할 수 있다.
인메모리 기반 공간빅데이터 시스템(100)은 데이터 노드 서버(300)를 가지는 인메모리 분산 클러스터 장치를 기반으로 구성되며, 인메모리 분산 클러스터 장치(300)에서 공간데이터를 다룰 수 있도록 공간데이터에 대한 메타 관리 및 탐색과 공간 데이터에 특화된 처리를 위한 인메모리 공간데이터에 대한 고속 인덱스 생성 분산처리부(120), 고속 공간 탐색 분산 처리부(130)와 사용자 클라이언트(200)의 접속을 위한 인메모리 기반 공간데이터 시스템 통신부(110)로 구성된다.
사용자 클라이언트(200)는 공간데이터 I/O드라이버를 이용하여 사용자의 공간데이터 조작요청을 인메모리 기반 공간데이터 시스템 통신부(110)로 전달하여 공간데이터의 처리를 요청한다.
데이터 노드 서버(300)(data node server)는, 말 그대로 실제로 데이터를 분산 저장하고 프로세스를 분산 처리하는 노드 서버이다. 데이터가 블록단위로 복수개의 데이터 노드 서버(300)에 분산 저장된다. 데이터가 저장되는 위치는 영구적 저장을 위한 디스크장치의 분산 저장과 빠른 처리를 위한 인메모리 기반의 분산 저장 모두를 포함한다. 예컨대, 하둡 기반의 분산 데이터 저장소인 HDFS 클러스터(Hadoop Distributed File Syste Cluster) 장치의 경우, 적어도 하나 이상의 복수의 데이터 노드 서버(300)를 포함할 수 있다. 여기서 HDFS(Hadoop Distributed File System)은 파일 분산 시스템을 말하는 것으로서, 용량 큰 파일들을 복수개의 HDFS 서버인 데이터 노드 서버(300)에 분산하여 저장하는 시스템을 말한다.
인메모리 기반의 분산 저장소인 RDD(Resilient Distributed Dataset) 장치의 경우, 적어도 하나이상의 복수의 데이터 노드서버(300) 포함하여 단일의 데이터노드의 물리 메모리영역을 벗어나는 대용량 데이터를 인메모리 상에 분산 저장하여 빅데이터 수준의 인메모리 처리가 가능한 시스템을 말한다.
하지만 RDD(Resilient Distributed Dataset)의 경우, 고속의 데이터 처리는 가능하지만, 어떤 데이터를 특정하여 찾아내기 위해서는 전체 데이터를 엑세스 해야 하는 단점이 있다. 따라서 본 발명의 경우 분산시스템에 공간데이터의 인메모리 처리를 가능하게 하는 것 뿐 아니라 랜덤 엑세스가 불가능한 RDD상에서 고속 인덱스 생성 처리부(120)를 통하여 인메모리 기반으로 공간데이터에 대한 공간 색인을 고속으로 생성하고, 고속 공간 탐색 분산 처리부(130)을 통하여 공간 색인을 이용하여 인메모리 기반 고속 공간데이터 탐색이 가능하도록 할 수 있다.
상기와 같이, 고속 분산 색인 생성의 처리 흐름과 흐름에 따른 각 부의 역할은 도 2를 참고하면, HDFS 분산 저장 시스템은 대규모 공간데이터를 영구적으로 저장하는데 사용되고, 인메모리 분산 저장 시스템은 인메모리 상에서 분산 처리될 데이터가 분산 로드되어 있는 저장 영역이다. 따라서 인메모리 공간빅데이터 시스템(100)으로 구성된 클러스터 장치는, 도 2에 도시한 바와 같이 공간 데이터의 분산 저장이외에도, 공간 데이터를 검색할 수 있는 색인 정보를 생성하여 데이터 노드 서버(300)에 분산 저장하여, 빠른 색인 검색이 가능하도록 한다. 이하, 도 3의 플로차트와 함께 상술한다.
도 3은 본 발명의 실시예에 따른 분산 파일 시스템에서의 대용량 공간 데이터의 고속 분산 색인 생성 및 저장 과정을 도시한 플로차트이며, 도 4는 본 발명의 실시예에 따라 클라이언트 단말기가 검색 영역을 선택하는 모습을 도시한 그림이며, 도 5는 본 발명의 실시예에 따라 기하학 도형의 인벨롭 영역의 예시 그림이며, 도 6은 본 발명의 실시예에 따라 격자키 기반으로 분류된 색인 정보의 예시 테이블이며, 도 7은 본 발명의 실시 예에 따른 고속 인덱스 생성 처리 과정에서 클러스터를 구성하는 각 노드에서의 과정을 도시한 구성도이며, 도 8은 본 발명의 실시예에 따른 클라이언트 단말기가 구비된 모습을 도시한 그림이며, 도 9는 본 발명의 실시 예에 따른 고속 인덱스 생성 처리 성능 평가자료를 나타내는 그림이다.
본 발명은 공간 데이터 로딩 과정(S310), 격자키 생성 과정(S320), 색인 정보 생성 과정(S330), 격자키 기반 분류 과정(S340), 인메모리 분산 저장 과정(S350), 및 디스크 분산 저장 과정(S360)을 포함할 수 있다. 이밖에 검색 제공 과정(S370)을 더 포함할 수 있다.
공간 데이터 로딩 과정(S310)은, 데이터 노드를 관리하는 인메모리 공간빅데이터 시스템(100)에서, 복수개의 데이터 노드 서버(300)의 디스크에 분산 저장된 기하학 도형(Geometry) 및 지리적 속성 정보를 포함하는 공간 데이터를 복수개의 데이터 노드 서버(300)의 메모리에 로딩하여 분산 저장하는 과정이다.
인메모리 분산 클러스터 장치는, 복수개의 기하학 도형(geometry) 및 지리적 속성 정보를 포함하는 공간 데이터를 복수개의 데이터 노드 서버(300)에 분산하여 저장하고 있는데, 이러한 공간 데이터를 데이터 노드 서버(300)의 메모리로 분산 로딩하는 것이다. 공간 데이터 로딩에 있어서, 공간 데이터각 데이터 노드의 메모리상에 분산하여 저장한다. 인메모리에 분산 저장함으로써, 빠른 처리가 가능하게 된다.
참고로, 본 발명에서 공간 데이터라 함은 기하학 도형(Geometry)와 지리적 속성 정보를 포함한다. 기하학 도형은 지리정보시스템(GIS)에 널리 사용되는 Geometry포맷으로서, 지리 현상에 대한 기하학적 위치정보의 저장을 제공해 주는 데이터 포맷이다. Point, Line, MultiLine, Polygon, MultiPoint 등 2차원 사상(feature)을 지원하고 있으며, 본 발명에서는 2차원 사상(feature)를 예로 들어 설명하였으나, 3차원 사상(feature)도 지원할 수 있을 것이다.
또한 지리적 속성 정보는 각 기하학 도형(Geomery)이 공간적으로 나타내는 지역의 속성 정보(예컨대, 기하학 도형이 나타내는 영역의 인구밀도, 소비성향, 청년층 분포도 등)를 말한다. 즉, 공간데이터라 함은 기하학 도형들의 집합인 2차원 전자 지도에 기하학 도형이 나타내는 지역의 지리적 속성 정보를 함께 포함한 것을 말한다.
격자키 생성 과정(S320)은, 고속인덱스 생성 분산 처리부(120)가, 데이터 노드 서버(300)의 메모리에 분산 저장된 공간 데이터의 각 격자별로 격자키를 생성한다. 격자키 생성 과정(S320)은, 공간 데이터의 전체 커버리지를 격자 분할하여, 각 격자별로 부여되는 인덱스를 격자키로서 결정한다. 예를 들어, 도 4에 도시한 바와 같이 공간 데이터를 기하학 도형(geometry)을 기준으로 복수개의 격자(그리드,grid)로 구획하고, 각 격자별로 차례대로 식별값의 인덱스인 격자키를 부여하여 생성한다.
참고로, 격자 분할은, 공간 데이터를 기하학 도형(geometry)을 기준으로 복수개의 격자(그리드)로 분할하는 것으로서, 예를 들어, 도 4에 도시한 바와 같은 공간 데이터에 포함된 복수개의 기하학 도형(geometry)을 대상으로 X축으로 N개, Y축으로 N개로 구획하여 총 N×N개의 격자로 분할한 수 있다. 따라서 X축으로는 0 ~ N개로 분할되며 Y축으로는 0 ~ N개로 분할된다. 이러한 격자 분할은, 관리자 임의 또는 시스템에서 지정한 격자 개수로 분할하여 격자 분할 정보를 저장하여 추후 검색시에 활용한다. 또는 별도의 격자 구획 관련식을 미리 설정해놓고 격자 구획 개수를 설정할 수 있다. 이밖에 격자 분할에 대한 다양한 격자 분할 방식이 있을 수 있을 것이다.
색인 정보 생성 과정(S330)은, 각 격자내의 공간 데이터를 검색할 수 있는 색인 정보를 생성하는 것이다. 이러한 색인 정보는, 공간 데이터내의 기하학 도형(Geomery), 지리적 속성 정보를 생성할 수 있다. 기하학 도형(Geomery)을 이용하여 색인 정보를 생성하는 경우에는, 각 격자내의 기하학 도형의 특성을 나타내는 인벨롭 정보를 색인 정보로 결정할 수 있다.
인벨롭(envelope) 정보라 함은, 2차원의 기하학 도형의 각 모서리를 둘러싸는 영역 정보를 말하는 것으로서, 2차원으로 된 기하학 도형의 X축 최소값(xmin), X축 최대값(xmax), Y축 최소값(ymin), Y축 최대값(ymax)에 대한 정보를 말한다. 즉, 인벨롭(envelope) 영역은 도 5의 예처럼 어떤 기하학 도형(geometry)를 모두 포함하는 최소 크기의 사각영역이다. 인벨롭(envelope) 영역을 공간 레이어 전체에 대하여 설명하면 해당 레이어 전체를 포함하는 최소 크기의 사각 영역이 된다.
격자키 기반 분류 과정(S340)은, 고속인덱스 생성 분산 처리부(120)가, 복수개의 데이터 노드(300)에서, 격자키를 기반으로 색인 정보를 할당하여 분류하는 과정이다. 예를 들어, 도 6에 도시한 바와 같이 격자키마다 색인 정보가 할당되어 저장되는 격자키 기반의 분류가 이루어진다.
인메모리 분산 저장 과정(S350)은, 고속인덱스 생성 분산 처리부(120)가, 격자키별로 할당된 색인 정보를 복수개의 데이터 노드 서버(300)의 메모리 영역에 분산 저장한다. 이러한 인메모리 분산 저장 과정(S350)은, RDD(Resilient Distributed Dataset) 형태로 분산 저장될 수 있다. 분산 처리되는 자료는 RDD 상에 기록되고, 격자별 분류 및 정렬 단계에서 RDD상에서 격자기 기반으로 분류되어 RDD 상에 적재된다. 참고로, RDD(Resilient Distributed Dataset)는, 스파크의 분산 시스템과 같이 분산되어 존재하는 데이터 요소들의 객체 모음을 말한다.
디스크 분산 저장 과정(S360)은, 복수개의 데이터 노드 서버(300)의 메모리영약에 분산 저장된 색인 정보가 복수개의 데이터 노드 서버(300)의 디스크에 분산 저장된다. 따라서 대용량의 공간 데이터의 분산 저장이외에 색인 정보가 별도로 분산 저장될 수 있게 된다.
한편, 이렇게 분류되어 분산 저장되는 색인 정보의 자료는 HDFS에 격자별로 동시에 분산 저장되어 공간 색인 검색 자료로 활용될 수 있다. 이를 위해 디스크 분산 저장 과정(S360)이 있은 후, 도 8에 도시한 바와 같이 클라이언트 단말기로부터 검색 쿼리가 입력되는 경우, 입력된 검색 쿼리에 매칭되는 색인 정보를 가지는 격자키를 추출하여, 추출한 격자키와 매칭되는 공간 데이터를 클라이언트 단말기에 제공하는 검색 제공 과정(S370)을 추가로 더 가질 수 있다.
고속 분산처리 인덱스 생성의 성능은 도 9와 같다. 한국정보통신기술협회로 의뢰하여 이루어진 본 시험평가이며, 전국 연속지적 자료를 동일 시스템에서 비교군과 본 발명의 실시 방법대로 10회 비교 수행하였다.
성능 향상율 산정 수식 ((HDFS기반처리시간 - 인메모리기반처리시간) / HDFS기반처리시간)*100 에 의해 평균 91.16% 향상되었으며, 최소 10배이상 처리 속도가 줄어들었다.
상술한 본 발명의 설명에서의 실시예는 여러가지 실시가능한 예중에서 당업자의 이해를 돕기 위하여 가장 바람직한 예를 선정하여 제시한 것으로, 이 발명의 기술적 사상이 반드시 이 실시예만 의해서 한정되거나 제한되는 것은 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 다양한 변화와 변경 및 균등한 타의 실시예가 가능한 것이다.
100:인메모리 기반 공간빅데이터 시스템
110:인메모리 기반 공간빅데이터 시스템 통신부
120:고속인덱스 생성 분산 처리부
130 고속 공간 탐색 분산 처리부
200:사용자 클라이언트
300:인메모리 분산 처리 겸 분산 저장소 데이터 노드 서버

Claims (6)

  1. 인메모리 기반 공간 빅데이터 시스템 통신부, 고속 인덱스 생성 분산 처리부, 고속 공간 탐색 분산 처리부 및 데이터가 디스크 및 메모리 공간에 분산 저장되는 복수개의 데이터 노드 서버를 포함하는 인메모리 기반 공간 빅데이터 시스템에서, 복수개의 데이터 노드 서버에 분산 저장된 기하학 도형(Geometry) 및 지리적 속성 정보를 포함하는 공간 데이터를 인메모리 분산 클러스터 장치로부터 상기 데이터 노드 서버의 메모리에 로딩하여 저장하는 공간 데이터 로딩 과정;
    상기 고속 공간 탐색 분산 처리부가, 상기 데이터 노드 서버에 저장된 공간 데이터의 각 격자별로 격자키를 생성하는 격자키 생성 과정;
    상기 고속 공간 탐색 분산 처리부가, 각 격자내의 공간 데이터를 검색할 수 있는 색인 정보를 생성하는 색인 정보 생성 과정;
    상기 고속 공간 탐색 분산 처리부가, 격자키를 기반으로 색인 정보를 할당하여 분류하는 격자키 기반 분류 과정;
    상기 고속 공간 탐색 분산 처리부가, 격자키별로 할당된 색인 정보를 상기 데이터 노드 서버의 메모리영역에 분산 저장하는 인메모리 분산 저장 과정; 및
    상기 데이터 노드 서버의 메모리 공간에 분산 저장된 색인 정보가 상기 복수개의 데이터 노드 서버의 디스크 공간에 분산 저장되는 디스크 분산 저장 과정;
    을 포함하는 분산 파일 시스템에서의 대용량 공간 데이터의 고속 분산 색인 생성 및 저장 방법.
  2. 청구항 1에 있어서, 공간 데이터 로딩 과정은,
    상기 공간 데이터를 상기 데이터 노드 서버에 분산하여 저장함을 특징으로 하는 분산 파일 시스템에서의 대용량 공간 데이터의 고속 분산 색인 생성 및 저장 방법.
  3. 청구항 1에 있어서, 상기 격자키 생성 과정은,
    공간 데이터의 전체 커버리지를 격자 분할하여, 각 격자별로 부여되는 인덱스를 격자키로서 결정함을 특징으로 하는 분산 파일 시스템에서의 대용량 공간 데이터의 고속 분산 색인 생성 및 저장 방법.
  4. 청구항 1에 있어서, 상기 색인 정보는,
    각 격자내의 기하학 도형의 특성을 나타내는 인벨롭 정보임을 특징으로 하는 분산 파일 시스템에서의 대용량 공간 데이터의 고속 분산 색인 생성 및 저장 방법.
  5. 청구항 1에 있어서, 상기 디스크 분산 저장 과정이 있은 후,
    클라이언트 단말기로부터 검색 쿼리가 입력되는 경우, 입력된 검색 쿼리에 매칭되는 색인 정보를 가지는 격자키를 추출하여, 추출한 격자키와 매칭되는 공간 데이터를 클라이언트 단말기에 제공하는 검색 제공 과정;
    을 포함하는 분산 파일 시스템에서의 대용량 공간 데이터의 고속 분산 색인 생성 및 저장 방법.
  6. 청구항 1에 있어서, 상기 인메모리 분산 저장 과정은,
    RDD(Resilient Distributed Dataset) 형태로 분산 저장됨을 특징으로 하는 분산 파일 시스템에서의 대용량 공간 데이터의 고속 분산 색인 생성 및 저장 방법.
KR1020170039981A 2016-12-23 2017-03-29 분산 파일 시스템에서의 대용량 공간 데이터의 고속 분산 색인 생성 및 저장 방법 KR101794883B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160177992 2016-12-23
KR20160177992 2016-12-23

Publications (1)

Publication Number Publication Date
KR101794883B1 true KR101794883B1 (ko) 2017-11-09

Family

ID=60385669

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170039981A KR101794883B1 (ko) 2016-12-23 2017-03-29 분산 파일 시스템에서의 대용량 공간 데이터의 고속 분산 색인 생성 및 저장 방법

Country Status (1)

Country Link
KR (1) KR101794883B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959549A (zh) * 2018-06-29 2018-12-07 北京奇虎科技有限公司 数据写入方法、装置、计算设备及计算机存储介质
KR20190081670A (ko) * 2017-12-29 2019-07-09 (주)터보소프트 분산 처리 기반 공간 웹 객체 검색 시스템 및 이를 이용한 분산 처리 기반 공간 웹 객체 검색 방법
KR20200028210A (ko) * 2018-09-06 2020-03-16 주식회사 스트리스 모바일 맵핑 또는 자율 주행용 플랫폼과 관측 데이터의 구조화를 위한 시스템
KR102221737B1 (ko) * 2019-09-23 2021-03-02 주식회사 포스웨이브 인메모리 기반의 분산 처리 시스템에서의 공간 데이터 처리 시스템 및 그 방법
KR20220010225A (ko) * 2020-07-17 2022-01-25 주식회사 인앤인 오퍼레이터 통합 훈련 시뮬레이션 방법 및 이를 이용한 훈련 시뮬레이터
CN116450872A (zh) * 2023-05-04 2023-07-18 易智瑞信息技术有限公司 基于Spark分布式的矢量转栅格方法、系统及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140222873A1 (en) 2011-09-27 2014-08-07 Nec Corporation Information system, management apparatus, method for processing data, data structure, program, and recording medium
KR101654314B1 (ko) 2015-12-16 2016-09-06 주식회사 포스웨이브 공간 데이터 분산 처리 시스템 및 그 동작 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140222873A1 (en) 2011-09-27 2014-08-07 Nec Corporation Information system, management apparatus, method for processing data, data structure, program, and recording medium
KR101654314B1 (ko) 2015-12-16 2016-09-06 주식회사 포스웨이브 공간 데이터 분산 처리 시스템 및 그 동작 방법

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190081670A (ko) * 2017-12-29 2019-07-09 (주)터보소프트 분산 처리 기반 공간 웹 객체 검색 시스템 및 이를 이용한 분산 처리 기반 공간 웹 객체 검색 방법
KR102036314B1 (ko) * 2017-12-29 2019-10-25 (주)터보소프트 분산 처리 기반 공간 웹 객체 검색 시스템 및 이를 이용한 분산 처리 기반 공간 웹 객체 검색 방법
CN108959549A (zh) * 2018-06-29 2018-12-07 北京奇虎科技有限公司 数据写入方法、装置、计算设备及计算机存储介质
KR20200028210A (ko) * 2018-09-06 2020-03-16 주식회사 스트리스 모바일 맵핑 또는 자율 주행용 플랫폼과 관측 데이터의 구조화를 위한 시스템
KR102118357B1 (ko) * 2018-09-06 2020-06-03 주식회사 스트리스 모바일 맵핑 또는 자율 주행용 플랫폼과 관측 데이터의 구조화를 위한 시스템
KR102221737B1 (ko) * 2019-09-23 2021-03-02 주식회사 포스웨이브 인메모리 기반의 분산 처리 시스템에서의 공간 데이터 처리 시스템 및 그 방법
KR20220010225A (ko) * 2020-07-17 2022-01-25 주식회사 인앤인 오퍼레이터 통합 훈련 시뮬레이션 방법 및 이를 이용한 훈련 시뮬레이터
KR102449985B1 (ko) * 2020-07-17 2022-10-05 주식회사 인앤인 오퍼레이터 통합 훈련 시뮬레이션 방법 및 이를 이용한 훈련 시뮬레이터
CN116450872A (zh) * 2023-05-04 2023-07-18 易智瑞信息技术有限公司 基于Spark分布式的矢量转栅格方法、系统及设备
CN116450872B (zh) * 2023-05-04 2024-02-20 易智瑞信息技术有限公司 基于Spark分布式的矢量转栅格方法、系统及设备

Similar Documents

Publication Publication Date Title
KR101794883B1 (ko) 분산 파일 시스템에서의 대용량 공간 데이터의 고속 분산 색인 생성 및 저장 방법
Whitman et al. Spatial indexing and analytics on Hadoop
Nishimura et al. MD-HBase: A scalable multi-dimensional data infrastructure for location aware services
JP6032467B2 (ja) 時空間データ管理システム、時空間データ管理方法、及びそのプログラム
Nishimura et al. -HBase: design and implementation of an elastic data infrastructure for cloud-scale location services
CN104199986B (zh) 基于hbase和geohash的矢量数据空间索引方法
CN104820714B (zh) 基于hadoop的海量瓦片小文件存储管理方法
CN102521386B (zh) 基于集群存储的空间元数据分组方法
US9933979B2 (en) Device and method for storing data in distributed storage system
CN106528787B (zh) 一种基于海量数据多维分析的查询方法及装置
CN103995861B (zh) 一种基于空间关联的分布式数据装置、方法及系统
US20150012465A1 (en) Decision tree learning
CN107710193A (zh) 分布式计算环境的数据放置控制
CN108205562B (zh) 地理信息系统的定位数据存储、检索方法及其装置
WO2017206484A1 (zh) 地理数据呈现方法及装置
Van et al. An efficient distributed index for geospatial databases
CN106599091B (zh) 基于键值存储的rdf图结构存储和索引方法
KR101654314B1 (ko) 공간 데이터 분산 처리 시스템 및 그 동작 방법
Iyer et al. A scalable distributed spatial index for the internet-of-things
Liu et al. An improved approach for mining association rules in parallel using Spark Streaming
CN109145225B (zh) 一种数据处理方法及装置
Xia et al. DAPR-tree: a distributed spatial data indexing scheme with data access patterns to support Digital Earth initiatives
Yang et al. GCOTraj: A storage approach for historical trajectory data sets using grid cells ordering
WO2014112045A1 (ja) 秘匿化データ生成方法及び装置
KR101530441B1 (ko) 컬럼 기반 데이터 처리 방법 및 장치

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant