KR20200020347A

KR20200020347A - 센서 태그 데이터를 위한 색인 검색 방법 및 장치

Info

Publication number: KR20200020347A
Application number: KR1020180095950A
Authority: KR
Inventors: 김성진
Original assignee: 주식회사 마크베이스
Priority date: 2018-08-17
Filing date: 2018-08-17
Publication date: 2020-02-26
Also published as: US10706054B2; KR102177489B1; US20200057818A1

Abstract

본 발명에 따른 센서 태그 데이터를 위한 색인 검색 장치가 제공된다. 상기 장치는, 센서 태그 데이터가 시계열적으로 저장된 메모리; 센서 태그 데이터를 검색하기 위해 태그 명칭(tag name)과 시간(time) 구간 정보를 수신하는 인터페이스; 및 상기 시간 구간 정보에 기반하여 상기 센서 태그 데이터가 저장된 상기 메모리의 파티션(partition)을 결정하고, 상기 결정된 파티션에 대해 상기 태그 명칭 및 상기 시간 구간 정보에 기반하여 해당 색인과 리프 노드(index leaf node)를 결정하는 프로세서를 포함하고, 시계열 센서 태그 데이터에 대한 대부분의 질의 패턴을 만족하는 최적화된 색인 구조, 저장 및 검색 방법을 제공할 수 있다.

Description

센서 태그 데이터를 위한 색인 검색 방법 및 장치 {Method and device of searching index for sensor tag data}

본 발명은 센서 태그 데이터를 위한 색인 검색 방법 및 장치에 관한 것이다. 보다 상세하게는, 센서 태그 데이터를 위한 고속 데이터 입력 및 색인 방법 및 장치에 관한 것이다.

시계열 센서 데이터는 그 특징상 고속으로 대량의 데이터가 생성된다. 이를 통계연산을 통해 시각화하여 분석하는 것이 센서 데이터 처리의 주요 과제이다. 짧게는 몇 분에서 길게는 몇년간의 데이터를 조회하여 시각화하기 위해서 실시간으로 검색 및 통계를 실행하는 것은 강력한 빅데이터 처리 시스템으로도 불가능하다는 문제점이 있다.

센서 데이터 시각화를 데이터 관점에서 보면, 수천억 건의 데이터 중에서 특정 센서의 수백만 건의 데이터를 검색하고, 이 데이터를 시간 기준으로 정렬한다. 이러한 정렬된 데이터에 대해, 단위 시간 구간당의 데이터의 평균을 구하는 등의 연산을 수행하여 대표값을 얻고, 이를 시각화하는 것이다. 이때, 검색을 위해서 색인을 통한 대량의 디스크 I/O가 발생하고, 정렬 및 대표값을 얻기 위해 대량의 CPU 연산이 발생한다는 문제점이 있다.

한편, 이러한 센서 데이터 시각화와 관련하여, 센서 태그 데이터는 그 특징상 대량의 데이터가 매우 빠른 속도로 생성되는 특징이 있다. 따라서, 이러한 센서 태그 데이터를 효율적으로 저장, 압축, 검색할 필요가 있다.

하지만, 기존 기술은 연속된 공간에 센서 값 데이터가 존재하지 않아 색인을 사용하더라도 센서 데이터 질의시에 디스크 I/O가 많이 발생하여 성능이 저하되는 문제가 있었다. 따라서, 이러한 센서 값 데이터에 대하여 특정 처리를 통해 연속된 공간에 저장하고, 이러한 센서 태그 데이터에 대한 효과적인 색인 및 검색 방법이 필요하다.

본 발명은 전술한 문제점을 해결하기 위한 것으로, 시계열 센서 태그 데이터에 대한 최적화된 색인 구조, 저장 및 검색 방법을 제공한다.

또한, 본 발명은 센서 태그 데이터의 처리에 따른 막대한 연산 비용을 줄이기 위해서 센서 태그 데이터를 위한 고속 데이터 입력 및 색인 방법 및 장치를 제공한다.

일 실시 예에서, 상기 메모리에 저장된 데이터는 <time, tag name, value>로 이루어진 레코드로 저장되고, 상기 저장된 레코드의 수가 최대 카운트까지 파티션 별로 저장될 수 있다. 이때, 상기 저장이 완료된 파티션에 <tag name, time>을 키(key)로 하여 색인이 생성되고, 상기 색인의 데이터 영역에 <value, rid>가 기록될 수 있다.

일 실시 예에서, 상기 레코드의 추가 데이터 컬럼은 상기 색인의 상기 rid를 이용하여 컬럼(column) 데이터 파일에서 판독 가능하도록 상기 메모리에 저장될 수 있다. 이때, 특정 tag name의 특정 시간 값은 상기 해당 색인의 상기 리프 노드에서 판독 가능하도록 구성될 수 있다.

일 실시 예에서, 상기 프로세서는, 상기 파티션으로 구성된 파티션 색인 파일이 일정 개수로 생성되면 병합(merge)하여 더 큰 색인 파일을 생성하고, 상기 병합 단계를 반복하여 1억 건 이상의 데이터를 하나의 색인 파일로 생성할 수 있다. 이때, 이전 단계에서 생성된 파티션된 제1 색인 파일로부터 다음 단계의 제2 색인 파일의 생성이 완료되면, 상기 프로세서는 상기 제2 색인 파일의 헤드(head) 영역과 테일(tail) 영역에 상기 제2 색인 파일의 완료 상태를 기록하고, 상기 제1 색인 파일을 삭제할 수 있다.

일 실시 예에서, 상기 병합 단계는 1차 병합 단계 및 2차 병합 단계로 구성되고, 상기 1차 병합 단계 이전의 복수의 블록들은 <Tag, Time, Value> 필드를 갖는 복수의 레코드로 구성될 수 있다. 이때, 상기 프로세서에 의해 수행되는 상기 1차 병합 단계 이후의 블록들은 <Tag, Count, Time, Value, Row ID> 필드로 구성되고, 상기 프로세서에 의해 수행되는 상기 2차 병합 단계 이후의 블록들은 <Tag & Meta, Time, Value, Row ID> 필드로 구성될 수 있다. 이때, 상기"Tag & Meta"필드는 Tag, Offset, Count 필드와 Time, Value, Row ID의 메타파일로 구성될 수 있다. 이에 따라, 상기 Time, Value, Row ID의 메타파일은 각각 Min, Max, Original Size, Compressed Size, Page, Offset 서브 필드를 갖도록 구성될 수 있다.

일 실시 예에서, 상기 리프 노드의 값(value)과 상기 rid를 획득하여 컬럼(column) 데이터 파일을 판독(read)할 수 있다.

일 실시 예에서, 상기 프로세서는, 상기 장치의 하드웨어 및 소프트웨어 비정상 동작(abnormal operation)으로 인한 비정상 종료(termination) 시 상기 장치를 재시작하기 위해 장애 복구 알고리즘(fault recovery algorithm)을 수행할 수 있다.

일 실시 예에서, 상기 프로세서는, 상기 색인 파일의 헤드(head) 영역과 테일(tail) 영역의 완료 상태에 기반하여, 상기 색인 파일의 병합이 진행 중인 상태에서 비정상 동작으로 인한 오류가 발생하였는 지 여부를 판단할 수 있다. 이때, 상기 오류가 발생한 경우, 상기 프로세서는, 상기 색인 파일을 삭제하고, 상기 병합 이전 단계의 제1 색인 파일을 이용하여 레코드 검색을 수행할 수 있다.

일 실시 예에서, 상기 프로세서는, 상기 색인 파일을 생성하지 않은 데이터 파일에 대하여, IO(Input/Output) 오류 발생 여부를 페이지 단위로 검증할 수 있다. 이때, 상기 프로세서는, 상기 데이터 파일에서 기록이 완료되지 않은 레코드들을 취소(rollback)로 처리할 수 있다.

본 발명의 적어도 일 실시예에 따르면, 시계열 센서 태그 데이터에 대한 대부분의 질의 패턴을 만족하는 최적화된 색인 구조, 저장 및 검색 방법을 제공할 수 있다.

또한, 본 발명의 적어도 일 실시예에 따르면, 센서 태그 데이터를 위한 고속 데이터 입력 및 색인 방법 및 장치를 제공하여, 센서 태그 데이터의 처리에 따른 막대한 연산 비용을 줄일 수 있다는 장점이 있다.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명에 센서 태그 데이터를 위한 색인 검색 장치의 구성을 나타낸다.
도 2는 본 발명의 일 실시예에 따른 태그 인덱스 데이터를 병합하는 과정을 나타내는 개념도이다.
도 3은 본 발명에 따른 시간 구간에 따라 복수의 파티션 구조로 색인화된 센서 태그 데이터와 질의를 이용하여 해당 파티션을 선정하는 개념을 나타낸다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1 , 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.

또한, 본 명세서에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.

이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 도면에서 생략하였고, 명세서 전체에 걸쳐서 동일한 참조부호들은 동일한 구성요소들을 나타낸다.

이하, 본 발명에 따른 센서 태그 데이터를 위한 색인 검색 장치에 대해 설명하도록 한다.

본 발명에 따른 센서 태그 데이터는 그 특징상 대량의 데이터가 매우 빠른 속도로 생성되는 특징이 있다. 본 발명은 이러한 센서 태그 데이터를 보다 효율적으로 저장, 압축, 검색하는 방법에 대한 것이다.

센서 태그 데이터는 .<Time, TagName, Value, 추가 옵션 컬럼들>과 같은 컬럼들을 갖는 레코드 형태의 데이터이다. 이러한 센서 태그 데이터는 아래와 같이 Tagname 및 time 조건절을 이용하여 검색될 수 있다. value 및 추가 옵션 칼럼에 대한 검색은 full scan으로 실행한다.

SELECT tagname, time, value from tag where tagname in ('a', 'b', 'c') and time between FromTime and ToTime order by 1, 2;

위와 같은 질의(query)가 센서 태그 데이터에 대한 질의 중 거의 대부분을 차지한다.

이하, 첨부된 도면들을 참조하여 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다.

도 1은 본 발명에 센서 태그 데이터를 위한 색인 검색 장치의 구성을 나타낸다.

도 1을 참조하면, 센서 태그 데이터를 위한 색인 검색 장치는 프로세서(100), 메모리(200) 및 인터페이스(300)를 포함한다. 한편, 메모리(200)는 제1 메모리(210), 제2 메모리(220)를 포함할 수 있다. 여기서, 제1 메모리(210)와 제2 메모리(220)는 각각 원본 데이터와 색인 데이터가 저장되는 메모리의 영역을 지칭할 수 있다. 또는, 제1 메모리(210)와 제2 메모리(220)는 병합 이전의 데이터와 병합 이후의 데이터가 저장되는 메모리의 영역을 지칭할 수 있다.

이에 따라, 제1 메모리(220)에는 센서 태그 데이터가 저장되도록 구성될 수 있다. 또한, 제2 메모리(220)에는 색인 형태의 센서 태그 데이터 또는 병합된 색인 형태의 센서 태그 데이터가 시계열적으로 저장될 수 있다.

인터페이스(300)는 센서 태그 데이터를 검색하기 위해 태그 명칭(tag name)과 시간(time) 구간 정보를 수신하도록 구성된다.

이와 관련하여, 본 발명에 따른 고속 데이터 입력 및 저장 과정에 대해 살펴보면 다음과 같다.

데이터 입력과 색인 생성에 따른 부하를 없애기 위해서 입력된 데이터는 <time, tagname, value>는 하나의 레코드 형태로 저장하고, 추가 칼럼은 칼럼별로 저장한다. 입력된 레코드의 수가 파티션 최대 카운트까지 단순 저장되며 색인이 없으므로 이 데이터에 대해서는 색인 검색을 수행하지 않고 전체 데이터 스캔을 실행한다.

이러한 컬럼 별 데이터 저장과 파티션에 따른 데이터 스캔에 대한 상세한 동작을 프로세서(100) 측면에서 검토하면 다음과 같다.

프로세서(100)는 시간 구간 정보에 기반하여 상기 센서 태그 데이터가 저장된 상기 메모리의 파티션(partition)을 결정하도록 구성된다. 또한, 프로세서(100)는 상기 결정된 파티션에 대해 상기 태그 명칭 및 상기 시간 구간 정보에 기반하여 해당 색인과 리프 노드(index leaf node)를 결정하도록 구성된다.

한편, 본 발명에 따른 색인 생성 및 데이터 압축 과정에 대해 검토하면 다음과 같다.

입력이 완료된 파티션은 <tagname,time>을 키로 하여 색인을 생성하고, 색인의 데이터 영역에 <value, rid>를 기록한다. 색인의 생성이 완료되면, 기존 생성한 파티션 데이터 파일을 삭제한다. 추가 데이터 칼럼은 색인의 rid를 이용하여 칼럼 데이터 파일에서 읽을 수 있으며, 특정 tagname의 특정 시간값은 색인의 leaf node에서 바로 읽을 수 있도록 한다. value/rid로 구성된 결과 값은 색인 파일 내에서 tagname,time 칼럼에 대해서 정렬된 상태로 기록된다.

생성된 파티션 색인 파일은 일정 갯수가 생성되면 merge하여 더 큰 색인을 만들고, 이를 몇번 반복하여 최종적으로 1억건의 데이터를 하나의 색인 파일로 생성한다. 이전 단계에서 생성한 파티션된 색인 파일은 다음 단계의 색인 파일의 생성이 완료하면 그 색인 파일의 head 영역과 tail 영역에 완료 상태를 기록하고, 이전 단계의 색인을 삭제한다.

색인의 리프 노드(leaf node)에 기록되는 value/rid값은 디스크에 기록될 때 실시간 압축을 통하여 기록되며, 읽혀질 때에도 압축을 해제하여 읽어 들인다. 결과적으로 생성된 색인 파일은 다음과 같은 형태로 생성된다.

tagname time value/rid
tag001 00:00 20/0
00:01 21/2
00:02 22/4
00:03 21/6
tag002 00:01 80/1
00:02 80/3
00:03 81/5
00:04 81/7

이때, 센서 태그 데이터는 tagname-time의 순으로 정렬되어 저장된다.

한편, 도 2는 본 발명의 일 실시예에 따른 태그 인덱스 데이터를 병합하는 과정을 나타내는 개념도이다. 도 2를 참조하면, 태그 인덱스 데이터를 병합하는 예는 아래와 같다. 최초 단계의 데이터 파티션 크기는 4로 가정한다. tag name은 숫자로 치환하여 tag 칼럼으로 나타내었다.

도 2를 참조하면, <Tag, Time, Value> 필드를 갖는 복수 개의 레코드로 구성된 복수의 블록(Block)들이 병합(merge)됨을 나타낸다. 예를 들어, 병합 이전의 블록 0과 블록 1이 병합되어 블록 0-1을 구성하고, 블록 2와 블록 3이 병합되어 블록2-3을 구성함을 나타낸다. 병합된 블록 0-1과 블록 2-3은 <Tag, Count, Time, Value, Row ID> 필드로 구성된다. 여기서, "count" 필드는 동일한 태그를 갖는 레코드의 수를 나타낸다. 예를 들어, 병합 이전의 블록 0과 블록 1은 각각 태그 ID가 0인 레코드가 각각 2개와 1개이다. 이에 따라, 병합된 블록 0-1은 태그 ID가 0인 레코드의 개수가 3임을 "count"필드 값을 통해 알 수 있다. 한편, "Row ID"는 태그 ID에 따라 나열된 레코드의 순서를 나타낸다. 예를 들어, 병합 이전의 블록 0의 레코드의 "Row ID"는 순서대로 0에서 3이 할당(assign)된다. 또한, 병합 이전의 블록 1의 레코드의 "Row ID"는 순서대로 4에서 7이 할당된다. 병합 이후의 블록 0-1의 태그 ID가 0인 레코드는 각각 블록 0의 0, 2번째 행 (레코드 0, 2)과 블록 1의 0번째 행 (레코드 4)에 해당한다. 따라서, 병합 이후의 블록 0-1의 태그 ID가 0인 레코드의 "Row ID"는 각각 0, 2, 4에 해당한다.

한편, 1차 병합된 블록 0-1과 블록 2-3은 2차 병합 과정을 통해 블록 0-3을 생성한다. 이때, 2차 병합된 블록은 <Tag & Meta, Time, Value, Row ID> 필드로 구성된다. 여기서, "Tag & Meta"필드는 Tag, Offset, Count 필드와 Time, Value, Row ID의 메타파일로 구성된다. 여기서, Time, Value, Row ID의 메타파일은 각각 Min, Max, Original Size, Compressed Size, Page, Offset 서브 필드를 갖는다. 이와 같이 계층화된 1차 병합 과정과 2차 병합 과정을 통해 병합 단계를 반복하여 1억 건 이상의 데이터를 하나의 색인 파일로 생성할 수 있다는 장점이 있다. 또한, 이전 단계에서 생성된 파티션된 제1 색인 파일로부터 다음 단계의 제2 색인 파일의 생성이 완료되면, 상기 제2 색인 파일의 헤드(head) 영역과 테일(tail) 영역에 상기 제2 색인 파일의 완료 상태를 기록하고, 상기 제1 색인 파일을 삭제할 수 있다는 장점이 있다.

한편, tagname-time 순으로 정렬된 태그 데이터와 관련하여, 본 발명에 따른 색인 생성 및 데이터 압축 과정에 대해 메모리(200)에 저장된 구조와 프로세서(100) 동작 측면에서 검토하면 다음과 같다.

한편, 상기 메모리(200)에 저장된 데이터는 <time, tag name, value>로 이루어진 레코드로 저장되고, 상기 저장된 레코드의 수가 최대 카운트까지 파티션 별로 저장될 수 있다. 이때, 상기 저장이 완료된 파티션에 <tag name, time>을 키(key)로 하여 색인이 생성되고, 상기 색인의 데이터 영역에 <value, rid>가 기록될 수 있다.

한편, 상기 레코드의 추가 데이터 컬럼은 상기 색인의 상기 rid를 이용하여 컬럼(column) 데이터 파일에서 판독 가능하도록 상기 메모리(200)에 저장될 수 있다. 이때, 특정 tag name의 특정 시간 값은 상기 해당 색인의 상기 리프 노드에서 판독 가능하도록 구성될 수 있다.

한편, 상기 프로세서(100)는 색인 파일의 병합 단계를 수행하여 계층화된 색인 구조를 생성할 수 있다. 또는, 상기 프로세서(100)는 색인 파일의 병합 단계를 수행하여 더 큰 색인 크기를 갖는 색인 구조를 생성할 수 있다.

이와 관련하여, 상기 프로세서(100)는 상기 파티션으로 구성된 파티션 색인 파일이 일정 개수로 생성되면 병합(merge)하여 더 큰 색인 파일을 생성할 수 있다. 이에 따라, 상기 프로세서(100)는 상기 병합 단계를 반복하여 1억 건 이상의 데이터를 하나의 색인 파일로 생성할 수 있다.

이때, 이전 단계에서 생성된 파티션된 제1 색인 파일로부터 다음 단계의 제2 색인 파일의 생성이 완료되면 상기 프로세서(100)는 다음과 같은 동작을 수행할 수 있다. 즉, 상기 프로세서(100)는 상기 제2 색인 파일의 헤드(head) 영역과 테일(tail) 영역에 상기 제2 색인 파일의 완료 상태를 기록하고, 상기 제1 색인 파일을 삭제할 수 있다.

구체적으로, 상기 프로세서(100)는 1차 병합 단계 및 2차 병합 단계로 구성된 상기 병합 단계를 수행할 수 있다. 이때, 상기 1차 병합 단계 이전의 복수의 블록들은 <Tag, Time, Value> 필드를 갖는 복수의 레코드로 구성된다. 한편, 상기 프로세서(100)에 의해 수행되는 상기 1차 병합 단계 이후의 블록들은 <Tag, Count, Time, Value, Row ID> 필드로 구성된다. 또한, 상기 프로세서(100)에 의해 수행되는 상기 2차 병합 단계 이후의 블록들은 <Tag & Meta, Time, Value, Row ID> 필드로 구성된다. 이때, 상기"Tag & Meta"필드는 Tag, Offset, Count 필드와 Time, Value, Row ID의 메타파일로 구성된다. 이와 관련하여, 상기 Time, Value, Row ID의 메타파일은 각각 Min, Max, Original Size, Compressed Size, Page, Offset 서브 필드를 갖도록 구성될 수 있다.

한편, 상기 프로세서(100)는 상기 리프 노드의 값(value)과 상기 rid를 획득하여 컬럼(column) 데이터 파일을 판독(read)할 수 있다.

한편, 본 발명에 따른 색인화된 센서 태그 데이터의 장애 복구(fault recovery) 과정에 대해 검토하면 다음과 같다.

하드웨어(HW) 및 소프트웨어(SW) 고장으로 인하여 비정상 종료 시 문제 없이 서비스를 재시작 하기 위해서 장애 복구 알고리즘은 다음과 같다.

1. 이미 병합(merge)이 완료되어 더 이상 신규로 기록되지 않은 데이터에 대해서는 장애복구가 필요 없다. 데이터 갱신이 없는 센서 데이터이므로 운영체제에서 파일의 영속성을 지원하기 때문이다.

2. 색인 병합이 진행중인 상태에서 오류가 발생한 경우 - 이것은 색인 파일의 head/tail의 완료 상태를 읽어서 검증이 가능하다. - 그 색인 파일을 삭제하고, merge 이전 단계의 파일을 검색에 이용한다. 색인 병합이 완료되지 않은 경우에는 병합 대상 색인 파일이 삭제되지 않았으며, 병합 대상 색인 파일 자체는 그보다 아랫단계의 색인 파일에 대한 병합이 완료된 상태이므로 문제 없이 검색이 가능하다.

3. 색인을 생성하지 않은 데이터파일의 경우, IO오류를 페이지 단위로 검증하여 기록이 완료되지 않은 레코드들은 취소로 처리한다.

전술된 오류/장애 복구 과정과 관련하여, 프로세서(100) 동작 측면에서 검토하면 다음과 같다.

이와 관련하여, 상기 프로세서(100)는 상기 장치의 하드웨어 및 소프트웨어 비정상 동작(abnormal operation)으로 인한 비정상 종료(termination) 시 상기 장치를 재시작하기 위해 장애 복구 알고리즘(fault recovery algorithm)을 수행할 수 있다. 이와 관련하여, 상기 프로세서(100)는 상기 색인파일의 병합이 완료되면 더 이상 신규로 데이터가 기록되지 않아 데이터 갱신이 없는 센서 데이터에 대해서는 장애 복구 동작을 수행하지 않는다.

한편, 상기 프로세서(100)는 상기 색인 파일의 헤드(head) 영역과 테일(tail) 영역의 완료 상태에 기반하여, 상기 색인 파일의 병합이 진행 중인 상태에서 비정상 동작으로 인한 오류가 발생하였는 지 여부를 판단할 수 있다. 이때, 상기 오류가 발생한 경우, 상기 프로세서(100)는 상기 색인 파일을 삭제하고, 상기 병합 이전 단계의 제1 색인 파일을 이용하여 레코드 검색을 수행할 수 있다.

한편, 상기 프로세서(100)는 상기 색인 파일을 생성하지 않은 데이터 파일에 대하여, IO(Input/Output) 오류 발생 여부를 페이지 단위로 검증(verify)할 수 있다. 이때, 상기 데이터 파일에서 기록이 완료되지 않은 레코드들을 취소(rollback)로 처리할 수 있다.

다음으로, 본 발명에 따른 센서 태그 데이터를 위한 색인 검색 방법에 대해 상세하게 검토하면 다음과 같다.

시계열 센서 태그 데이터는 거의 항상 tagname-time의 조건을 갖고 데이터를 검색하기 때문에 위의 색인 구조를 tagname-time의 순서로 탐색하여 데이터를 읽어 들인다. 이때, 하나의 tagname과 시간에 대해서 연속된 디스크 공간에 데이터가 기록되기 때문에 항상 최소한의 디스크 입출력으로 데이터를 검색할 수 있다.

이와 관련하여, 도 3은 본 발명에 따른 시간 구간에 따라 복수의 파티션 구조로 색인화된 센서 태그 데이터와 질의를 이용하여 해당 파티션을 선정하는 개념을 나타낸다.

도 3과 관련하여, 여러 파티션에서 tagname은 반복적으로 나타날 수 있다. (실시간 입력시 센서 데이터들이 시간 기준으로 지속적으로 나타남) 그러나 시간값 기준으로 보면 과거에서 현재 순으로 입력되는 것이 보통이다. 그러므로, 파티션의 최소 및 최대 시간의 값을 메모리에 유지하고 있다면, 입력시간 조건으로 여러 개의 파티션을 읽지 않을 수 있다. 인덱스를 merge할 경우 각 time값의 최소, 최대값을 얻어서 파티션 헤더에 기록하고, 이 정보를 유지한다.

위 과정을 통해 검색해야 할 파티션이 선정되면, 각 색인 파티션에 대해서, tagid, time값으로 원하는 색인과 리프(leaf) 노드를 결정하고, 그 leaf node의 value값과, 필요한 경우 rid를 얻어 칼럼 데이터 파일을 읽어 들인다.

한편, 전술된 검색 방법을 프로세서(100)와 메모리(200) 측면에서 검토하면 다음과 같다.

메모리(200)에 저장된 데이터는 <time, tag name, value>로 이루어진 레코드로 저장되고, 상기 저장된 레코드의 수가 최대 카운트까지 파티션 별로 저장된다. 이때, 상기 저장이 완료된 파티션에 <tag name, time>을 키(key)로 하여 색인이 생성되고, 상기 색인의 데이터 영역에 <value, rid>가 기록될 수 있다.

한편, 프로세서(100)는 상기 시간 구간 정보에 기반하여 상기 센서 태그 데이터가 저장된 상기 메모리의 파티션(partition)을 결정한다. 또한, 프로세서(100)는 상기 결정된 파티션에 대해 상기 태그 명칭 및 상기 시간 구간 정보에 기반하여 해당 색인과 리프 노드(index leaf node)를 결정한다. 또한, 프로세서(100)는 상기 리프 노드의 값(value)과 상기 rid를 획득하여 컬럼(column) 데이터 파일을 판독(read)할 수 있다.

이상에서는 본 발명에 따른 센서 태그 데이터를 위한 색인 검색 방법 및 장치에 대해 살펴보았다.

본 발명의 적어도 일 실시예에 따르면, 시계열 센서 태그 데이터에 대한 대부분의 질의 패턴을 만족하는 최적화된 색인 구조, 저장 및 검색 방법을 제공할 수 있다는 장점이 있다.

한편, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다.

본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 프로세서
200: 메모리
210: 제1 메모리
220: 제2 메모리
300: 인터페이스

Claims

센서 태그 데이터를 위한 색인 검색 장치에 있어서,
센서 태그 데이터가 시계열적으로 저장된 메모리;
센서 태그 데이터를 검색하기 위해 태그 명칭(tag name)과 시간(time) 구간 정보를 수신하는 인터페이스;
상기 시간 구간 정보에 기반하여 상기 센서 태그 데이터가 저장된 상기 메모리의 파티션(partition)을 결정하고, 상기 결정된 파티션에 대해 상기 태그 명칭 및 상기 시간 구간 정보에 기반하여 해당 색인과 리프 노드(index leaf node)를 결정하는 프로세서를 포함하는, 센서 태그 데이터를 위한 색인 검색 장치.
제1 항에 있어서,
상기 메모리에 저장된 데이터는 <time, tag name, value>로 이루어진 레코드로 저장되고, 상기 저장된 레코드의 수가 최대 카운트까지 파티션 별로 저장되고,
상기 저장이 완료된 파티션에 <tag name, time>을 키(key)로 하여 색인이 생성되고, 상기 색인의 데이터 영역에 <value, rid>가 기록되는 것을 특징으로 하는, 센서 태그 데이터를 위한 색인 검색 장치.
제2 항에 있어서,
상기 레코드의 추가 데이터 컬럼은 상기 색인의 상기 rid를 이용하여 컬럼(column) 데이터 파일에서 판독 가능하도록 상기 메모리에 저장되고,
특정 tag name의 특정 시간 값은 상기 해당 색인의 상기 리프 노드에서 판독 가능하도록 구성되는 것을 특징으로 하는, 센서 태그 데이터를 위한 색인 검색 장치.
제2 항에 있어서,
상기 프로세서는,
상기 파티션으로 구성된 파티션 색인 파일이 일정 개수로 생성되면 병합(merge)하여 더 큰 색인 파일을 생성하고, 상기 병합 단계를 반복하여 1억 건 이상의 데이터를 하나의 색인 파일로 생성하고,
이전 단계에서 생성된 파티션된 제1 색인 파일로부터 다음 단계의 제2 색인 파일의 생성이 완료되면, 상기 제2 색인 파일의 헤드(head) 영역과 테일(tail) 영역에 상기 제2 색인 파일의 완료 상태를 기록하고, 상기 제1 색인 파일을 삭제하는 것을 특징으로 하는, 센서 태그 데이터를 위한 색인 검색 장치.
제4 항에 있어서,
상기 병합 단계는 1차 병합 단계 및 2차 병합 단계로 구성되고,
상기 1차 병합 단계 이전의 복수의 블록들은 <Tag, Time, Value> 필드를 갖는 복수의 레코드로 구성되고,
상기 프로세서에 의해 수행되는 상기 1차 병합 단계 이후의 블록들은 <Tag, Count, Time, Value, Row ID> 필드로 구성되고,
상기 프로세서에 의해 수행되는 상기 2차 병합 단계 이후의 블록들은 <Tag & Meta, Time, Value, Row ID> 필드로 구성되고,
상기"Tag & Meta"필드는 Tag, Offset, Count 필드와 Time, Value, Row ID의 메타파일로 구성되고,
상기 Time, Value, Row ID의 메타파일은 각각 Min, Max, Original Size, Compressed Size, Page, Offset 서브 필드를 갖는 것을 특징으로 하는, 센서 태그 데이터를 위한 색인 검색 장치.
제2 항에 있어서,
상기 프로세서는,
상기 리프 노드의 값(value)과 상기 rid를 획득하여 컬럼(column) 데이터 파일을 판독(read)하는 것을 특징으로 하는, 센서 태그 데이터를 위한 색인 검색 장치.
제2 항에 있어서,
상기 프로세서는,
상기 장치의 하드웨어 및 소프트웨어 비정상 동작(abnormal operation)으로 인한 비정상 종료(termination) 시 상기 장치를 재시작하기 위해 장애 복구 알고리즘(fault recovery algorithm)을 수행하고,
상기 색인파일의 병합이 완료되면 더 이상 신규로 데이터가 기록되지 않아 데이터 갱신이 없는 센서 데이터에 대해서는 장애 복구 동작을 수행하지 않는 것을 특징으로 하는, 센서 태그 데이터를 위한 색인 검색 장치.
제7 항에 있어서,
상기 프로세서는,
상기 색인 파일의 헤드(head) 영역과 테일(tail) 영역의 완료 상태에 기반하여, 상기 색인 파일의 병합이 진행 중인 상태에서 비정상 동작으로 인한 오류가 발생하였는 지 여부를 판단하고,
상기 오류가 발생한 경우, 상기 색인 파일을 삭제하고, 상기 병합 이전 단계의 제1 색인 파일을 이용하여 레코드 검색을 수행하는 것을 특징으로 하는, 센서 태그 데이터를 위한 색인 검색 장치.
제8 항에 있어서,
상기 프로세서는,
상기 색인 파일을 생성하지 않은 데이터 파일에 대하여, IO(Input/Output) 오류 발생 여부를 페이지 단위로 검증하고,
상기 데이터 파일에서 기록이 완료되지 않은 레코드들을 취소(rollback)로 처리하는 것을 특징으로 하는, 센서 태그 데이터를 위한 색인 검색 장치.