KR100880531B1

KR100880531B1 - 단일 데이터 검색을 위한 파일 생성 방법 및 단일 데이터파일의 검색방법 그리고 단일 파일 검색을 위한 ｒａｔ파일이 저장된 기록매체

Info

Publication number: KR100880531B1
Application number: KR1020080067778A
Authority: KR
Inventors: 정종선
Original assignee: 정종선
Priority date: 2008-07-11
Filing date: 2008-07-11
Publication date: 2009-01-28
Also published as: US8423513B2; WO2010005261A3; US20110246505A1; WO2010005261A2; US20130275462A1

Abstract

본 발명은 본 발명은 하드 디스크 상에 검색을 용이하도록 하는 파일을 생성하여 저장하는 방법 및 이를 이용한 데이터 검색 방법에 관한 것으로, 본 발명은 단일 데이터로, 구분단위 별로 구분요소에 의해 다수개로 구분되어 저장되는 RVR 파일과; 상기 RVR 파일의 각각의 구분 단위에 대한 기록위치가 저장되는 RAT 파일을 생성하고 이를 이용한다. 이와 같은 본 발명에 의하면, 대규모 비정형 데이터에 대한 DB생성 및 빠른 데이터 분석이 가능해지는 장점이 있다.

디스크, 단일 데이터, 검색

Description

단일 데이터 검색을 위한 파일 생성 방법 및 단일 데이터 파일의 검색방법 그리고 단일 파일 검색을 위한 ＲＡＴ 파일이 저장된 기록매체 { File creating method for searching of single data, Searching method of single data file and Storage medium storing RAT file for searching of single data file }

본 발명은 하드 디스크 상에 검색을 용이하도록 하는 파일을 생성하여 저장하는 방법 및 이를 이용한 데이터 검색 방법에 관한 것으로, 더욱 상세하게는 Giga Byte, Tera Byte, 혹은 Penta Byte단위의 거대 용량의 단일 비정형 데이터들에 대한 무작위검색(random access)할 수 있도록 하는 데이터 기록 방법 및 검색방법에 관한 것이다.

도 1은 일반적인 하드 디스크에 데이터가 저장된 모습을 도시한 개략도이다.

이에 도시한 바와 같이, 하드디스크는 원판을 이루는 트렉(tract)들이 모여 실린더(cylinder)를 구성하고, 각 트렉의 Boom에 연결된 Read/Write Header에 의해서 I/O가 수행이 된다. 도 1에서 데이터의 가장 작은 단위인 레코드가 1번, 2번, 3번, 4번... i-1번, i번... N번 섹터(sector)에 저장되어 있다고 가정한다. 클러스터(cluster)는 인접하고 있는 섹터들의 집합을 의미한다. 그리고 파일관리 프로그 램(file manager)은 클러스터(cluster)와 물리적 주소(physical location)를 FAT(file allocation table)에 의하여 정렬한다.

그리고 FAT시스템에서 레코드들은 여러 클러스터들에 순차적으로 정렬되어 있다. 따라서 중간 단계인 i-섹터의 레코드 정보를 검색하려면 첫 번째 섹터에서 i-번째 섹터까지 순차적으로 트랙(tract)을 돌면서 내려와 i-번째 섹터에 도달하고 그 안에 있는 레코드들을 검색한다.

반면에, RAM의 경우 변수 혹은 변수명이 있는 파일들에서 필요한 정보를 빠르게 추출하려면 모든 변수를 프로그래밍과정에서 DRAM(dynamic random access memory)에 올려놓고 작업을 하면, 해당 변수명이 저장된 위치를 바로 검색한다. 따라서 빠르게 필요한 정보를 추출할 수 있다.

그러나, DRAM은 반도체이고 용량이 증가할수록 Hard Disk에 비하여 가격이 기하급수적으로 증가하기 때문에 128 Giga Bytes이상을 필요로 하는 대규모 데이터에는 비용대비 활용성이 떨어진다. 그러므로 대용량의 데이터를 저장하는 데는 DRAM 보다 하드 디스크가 사용되고 있다.

따라서 디스크에 데이터를 저장하여 사용하는 종래기술에서는 다음과 같은 문제점이 있다.

즉, 저장된 대규모 데이터를 검색함에 있어 디스크와 같이 순차적 (sequential access) 검색 방법이 사용되는 경우, 검색 속도는 데이터 레코드를 무작위검색(random access)하는 속도와 비교해서 데이터의 크기에 따라 기하 급수적으로 차이가 난다.

특히 최근에 biotechnology의 급격한 성장에 힘입어 게노믹스, 혹은 오믹스(대규모 생물정보 데이터) 데이터 등의 유전체임상역학유전기능 관련 데이터가 급격히 생산되고 있으며, 이러한 데이터를 가지고 연구자들은 계산을 통하여 유용한 정보를 추출한다. 이러한 비정형 데이터들을 현재 그 크기가 수~수십 Tera Byte에 달하고, 향후 더 큰 프로잭트가 수행시 Penta Byte 수준에 이를 것으로 예상된다. 이 경우 데이터 검색 시간의 순차적 검색과 무작위 검색의 속도차이는 몇 일 ~ 몇 년 차이까지 생길 수 있으므로, 데이터 검색을 원활하게 할 수 없는 문제점이 있다.

본 발명은 상기와 같은 종래의 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 목적은 대규모 데이터들의 모든 구성단위(page, paragraph, line, word, string, integer, 및 float)들의 다양한 레코드들에 대하여 RAT(record allocation table)을 만들고 Hard Disk 상에서의 위치정보(address)를 무작위검색(random access)할 수 있도록 하여, 대규모 비정형 데이터들에 대한 DBMS를 실현하고, Hard Disk를 DRAM처럼 빠르게 데이터 검색을 가능하게 하는 방법을 제공하는 것이다.

본 발명의 다른 목적은 대규모 데이터 분석 및 계산하기 위한 방법을 제공하는 것으로, 거대 용량의 데이터를 DRAM(dynamic random access memory)에 올려놓지 않고(128 Giga Bytes DRAM 이상은 높은 가격 때문에 실용성이 떨어짐), Hard Disk 상에서 DRAM에서 검색하는 속도와 유사한 속도로 수행 가능하도록 하는 방법을 제공하는 것이다.
따라서 본 발명은 대규모 파일을 빠르고 효과적으로 검색할 수 있도록 함에 의해, 대규모 데이터의 군집화 연구에 필수적인 데이터 처리 방법을 제시하고자 하는 것이다.

상기한 바와 같은 목적을 달성하기 위한 본 발명의 특징에 따르면, 본 발명은 단일 데이터로, 구분단위 별로 구분요소에 의해 다수개로 구분되어 저장되는 RVR 파일과; 상기 RVR 파일의 각각의 구분 단위에 대한 기록위치가 저장되는 RAT 파일이 저장되는 기록매체를 포함한다.

이때, 상기 데이터가 비정형 데이터인 경우, 상기 구분 단위는 [page], [paragraph] [line] 또는 [word] 중 어느 하나일 수도 있다.

그리고 상기 데이터가 정형 데이터인 경우, 상기 데이터의 각 셀에 포함되는 데이터의 형태는 정수형 변수, 소수형 변수 또는 무제한 변수 형 중 어느 하나일 수도 있다.

또한, 상기 기록 위치는, 상기 단일 데이터 내에서 상기 해당 데이터가 기록된 위치까지의 누적된 데이터 크기일 수도 있다.

또는 상기 기록위치는, 상기 해당 부분의 데이터가 기록된 하드 디스크 클러스터 넘버일 수도 있다.

다른 한편으로는 상기 기록위치는, 상기 해당 부분의 데이터가 기록된 하드 디스크 클러스터 넘버일 수도 있다.

한편, 본 발명은 비정형 단일 데이터 파일을 검색하기 위한 방법에 있어서, (A) 데이터의 구분 단위를 입력받는 단계와; (B) 상기 입력된 구분단위로 상기 비정형 단일 데이터 파일을 구분하여 RVR 파일을 생성하는 단계와; (C) 상기 RVR 파일의 구분 단위별 기록위치를 검출하여 RAT 파일을 생성하는 단계; 그리고 (D) 상기 RVR 파일 및 RAT 파일을 저장하는 단계를 포함하여 수행되는 데이터 검색을 위한 파일 생성 방법을 포함한다.

또한, 본 발명은 정형 단일 데이터 파일을 검색하기 위한 방법에 있어서, (a) 정형 단일 데이터의 행과 열을 구분하여 RVR 파일을 생성하는 단계와; (b) 상기 RVR 파일의 행 또는 열 별 기록위치를 검출하여 RAT 파일을 생성하는 단계; 그리고 (c) 상기 RVR 파일 및 RAT 파일을 저장하는 단계를 포함하여 수행되는 데이터 검색을 위한 파일 생성 방법을 포함한다.

한편, 본 발명은 단일 데이터 파일을 검색하는 방법에 있어서, (Ⅰ) 검색정보를 입력받는 단계와; (Ⅱ) RAT 파일로부터 상기 검색정보에 해당하는 기록위치를 검출하는 단계와; (Ⅲ) 상기 기록위치로부터 상기 검색정보에 해당하는 데이터의 물리적 저장위치를 검출하는 단계; 그리고 (Ⅳ) 상기 데이터의 물리적 위치의 데이터를 검색하여 결과를 출력하는 단계를 포함하여 수행되는 단일 데이터 파일의 검색방법을 포함한다.

이때, 상기 단일 데이터가 비정형 데이터인 경우, 상기 검색정보는 구분단위의 순번을 의미할 수도 있다.

그리고 상기 단일 데이터가 정형 데이터인 경우, 상기 검색정보는 정형 데이터 중 해당 데이터의 행 또는 열 번호일 수도 있다.

또한, 상기 기록 위치는, 상기 단일 데이터 내에서 상기 해당 데이터가 기록된 위치까지의 누적된 데이터 크기이고, 상기 저장위치의 검출은, 상기 각각의 구분 단위의 데이터 크기를 이용하여 상기 기록위치로부터 클러스터 위치를 산출하고, 상기 클러스터 위치의 물리적 저장위치를 FAT으로부터 독출하여 검출할 수도 있다.

위에서 살핀 바와 같은 본 발명에 의한 단일 데이터 검색을 위한 파일 생성 방법 및 이를 단일 데이터 파일의 검색방법에서는 다음과 같은 효과를 기대할 수 있다.

즉, 본 발명에서는 binary파일인 RVR은 모든 데이터 레코드들의 Hard Disk상 의 주소(address)가 RAT파일에 기록되어 있다. 따라서 사용자(user)가 자체 프로그래밍 언어(Perl, Python, Fortran, C/C++, JAVA, 등)를 사용하여 RAT파일에 저장된 주소 정보를 이용하여 RVR 파일 레코드 정보를 무작위 검색(random access)하고 자체 프로그램밍 언어로 포맷하여 출력한다. 따라서 대규모 비정형 데이터에 대한 DB생성 및 빠른 데이터 분석이 가능해지는 장점이 있다.

또한, 본 발명에서는 대용량 DRAM 없이, 비교적 저렴한 하드디스크를 이용하여 무작위검색을 가능하게 하므로, 경제적으로 유리한 효과가 있다.

그리고 현재 biotechnology의 향상으로 다양한 미생물에서 동식물에 이르기까지 1,000종이상의 전장게놈염기서열(whole genome sequence)이 해독되었고 1명의 인간게놈의 염기서열은 약 3 Giga Bytes 분량이다.

이하에서는 상기한 바와 같은 본 발명에 의한 디스크 상의 데이터 기록 방법 및 데이터 검색 방법의 구체적인 실시예를 첨부된 도면을 참고하여 상세하게 설명한다.

도 2는 본 발명의 구체적인 실시예에 의한 데이터 파일, RAT 파일 및 RVR 파일의 관계를 도시한 예시도이고, 도 3은 본 발명의 구체적인 실시예에 의한 RVR 파일 및 RAT 파일과 디스크의 데이터 저장된 데이터와의 관계를 도시한 예시도이며, 도 4는 본 발명의 구체적인 실시예에 의한 데이터 파일 및 RAT 파일의 관계를 도시한 예시도이다.

이들 도면에 도시된 바와 같이, 본 발명에 의한 데이터는 RVR(rack of virtual RAM)파일 형태로 저장되고, 이와 더불어 RVR 레코드의 동적 테이블인 RAT(record allocation table)파일이 생성되어 저장된다.

즉, 임의의 데이터 파일을 저장하고자 하는 경우, 상기 데이터 파일을 RVR 파일로 변환하고, 이에 따라 RAT 파일을 생성하여 상기 RVR 파일 및 RAT 파일을 하드 디스크에 저장한다.

여기서, RVR(rack of virtual RAM)파일 이라 함은, 데이터 파일에 구분 인자를 포함하여 생성한 파일을 말한다. 그리고 상기 구분 인자는 데이터의 레코딩 단위인 구분단위별로 데이터를 구분하는 것으로, 상기 구분단위는 [paragraph], [line], [word], [string], [integer], 또는 [float] 등으로 다양하게 설정될 수 있다.

상기 구분 인자(구분단위)의 종류 및 기능은 상기 RVR 파일 및 RAT 파일의 생성 방법을 살핌에 있어 상세히 설명하도록 한다.

또한, RAT(record allocation table)파일 이라 함은, 상기 RVR 파일의 레코딩 단위의 위치를 표시하는 동적 테이블이 저장된 파일로, 데이터 검색시 RVR 파일에서 특정 데이터의 위치를 나타내는 파일을 말한다.

도 3에 도시된 바와 같이, 데이터 저장 장치인 Hard Disk에서 데이터의 가장 작은 단위인 레코드가 1번, 2번, 3번, 4번... i-1번, i번... N번 섹터(sector)에 저장되어 있다고 가정한다. 클러스터(cluster)는 섹터들의 집합으로 데이터의 기록 단위이다.

그리고 파일관리 프로그램(file manager)에 의해 클러스터(cluster)와 물리 적 주소(physical location)를 FAT(file allocation table)에 의하여 정렬되어 파일이 저장된다.

다만, 하나의 파일을 저장하는데, 다수의 클러스터가 필요하고, 상기 클러스터는 순서대로 할당되지 않는다. 즉, 기록 가능한 클러스터를 찾아 상기 파일을 저장하고, 상기 파일의 기록에 사용된 클러스터의 순서를 FAT이 기록하여, 파일의 재생(검색)시 상기 클러스터의 순서를 읽어들여 데이터를 독출함에 의해 상기 파일을 재생 또는 검색한다.

즉, 도시된 바와 같이, 일련의 클러스터 넘버에 따라 개별적인 물리적 클러스터 위치가 저장된다.

한편, 상기 데이터에 대한 RAT 파일은 구분단위 별로 구분인자에 의해 구분된 데이터 파일을 말하는 것으로, 도 3에서는 line 단위로 구분된 텍스트의 예가 도시되어 있다. 이는 본 발명에 의한 저장데이터가 일반 문서인 경우의 실시예이다.

그리고 이에 따라 생성된 RAT 파일은 상기 구분인자의 순서를 나타내는 일련번호(도 3에서는 line 번호)와 이에 해당하는 데이터가 기록된 기록 위치(adress)가 저장된다.

이때, 상기 기록위치는 누적된 데이터 크기로 표현될 수 있다.

즉, 상기 기록 위치는 수학식 1과 같이 표현될 수 있는데,

address[k] = (i-1) * bytes_of_record

여기서, 모든 레코드가 같은 bytes을 가졌다고 가정하면 bytes_of_record는 하드 디스크의 특성에 따라 결정되는 상수가 된다.

따라서, 기록위치를 상수(bytes_of_record)로 나누면 클러스터 넘버(i')를 알 수 있고, 이에 의해 FAT를 통해 물리적인 데이터의 기록 위치를 알 수 있다.

한편, 본 발명에 의한 저장 데이터가 매트릭스(테이블) 형태인 경우에는 특정 데이터가 메트릭스 형태로 저장이 되어 있고 메트릭스의 모든 레코드(기록단위)의 bytes가 동일하다면 메트릭스 상의 특정 위치(k) 레코드 주소(address)는 상기 수학식 1을 단순히 세분화(partitioning)하면 된다.

즉, 상기 수학식 1을 세분화하면, 아래의 수학식 2가 된다.

address[k]= [x-1]*bytes_of_record+[y-1]*bytes_of_record * N

여기서 k 는 메트릭스 기록단위의 일련번호 이다. 그리고 N은 x축의 구분 인자 개수에 해당한다.

만약, 각 레코드의 bytes가 모두 다르다고 가정하면 아래 수학식 3과 같은 형태로 표현될 수 있다.

여기서 bytes.of.record[i]는 각기 다른 line이나 paragraph 레코드들의 bytes을 의미하고 i 는 이러한 특정 line 혹은 paragraph 레코드 일련번호를 의미한다.

따라서 파일 레코드의 시작점의 주소(bytes.of.record[1])는 0으로 초기화하여 사용한다.

도 5a 는 본 발명에 의한 저장 데이터가 일반 문서인 경우, 데이터 파일로부터 RVR 파일을 생성하는 일 예를 도시한 예시도이고, 도 5b는 본 발명에 의한 저장 데이터가 매트릭스 형태의 정형 문서인 경우, 데이터 파일로부터 RAT 파일을 생성하는 일 예를 도시한 예시도이다.

도 5a에 도시한 바와 같이, 저장 데이터가 일반문서(데이터, 문서 및 데이터는 동일한 의미로 사용한다)인 경우, 구분단위의 종류는 [paragraph], [line] 또는 [word] 등이 있다. 상기 도 5a에는 동일한 문서를 각각 [paragraph], [line] 및 [word]를 구분단위로 하여 RVR 파일을 생성한 예를 도시한다.

여기서 일반 문서라 함은 문서의 형태가 정형화되지 않은 비정형 문서를 말하는 것이고, 비정형이라 함은 매트릭스 형태(표 등)가 아닌 정형화된 틀 안에 작성되지 않은 대부분의 문서를 말한다. 이하 일반 문서 및 비정형 문서는 같은 의미로 사용한다.

즉, 첫 번째 문단은 [paragraph]를 구분단위로 하여 RVR 파일을 생성한 것으로, 도시된 바와 같이 각각의 문단이 구분인자 '>'로 나뉘어 표시되고 있다.

또한 두 번째, 문단은 [line]를 구분단위로 하여 RVR 파일을 생성한 것으로, 도시된 바와 같이 각각의 line이 구분인자 '\n'로 나뉘어 표시되고 있다.

그리고 세 번째 문단은 [word]를 구분단위로 하여 RVR 파일을 생성한 것으로, 도시된 바와 같이 각각의 문단이 구분인자 ' '로 나뉘어 표시되고 있다.

상기 데이터의 구분단위는 사용자의 선택에 의해 결정되며, 상기 구분기호는 입의의 기호로 대체될 수 있다.

한편, 도 5b에 도시된 바와 같이, 상기 생성된 RVR 파일로부터 RAT 파일이 생성된다. 상기 RAT 파일은 상기 RVR 파일의 순차적인 구분단위의 순서를 나타내는 일련번호와, 해당 데이터가 저장되는 기록위치가 포함되어 생성됨을 전술한 바와 같다.

즉, 도시된 바와 같이, 누적된 데이터 량이 기록 위치가 된다.

한편, 도 6a 및 도 6b는 본 발명에 의한 저장 데이터가 매트릭스인 경우, 데이터 파일로부터 RAT 파일 및 RVR 파일을 생성하는 일 예가 도시되어 있다.

도 6a에 도시한 바와 같이, 저장 데이터가 매트릭스 형태인 경우, 별도의 구분단위 및 구분인자는 없다. 즉, 매트릭스의 행과 열이 각각 구분 단위 및 구분인자가 된다.

이때, 매트릭스 형태의 문서는 정형화된 문서를 말하는 것으로, 매틀릭스 형태의 문서 및 정형문서는 동일한 의미로 사용된다.

다만, 이 경우 각 매트릭스에 저장되는 데이터의 형태에 따라 저장형태가 [string], [integer] 또는 [float] 등으로 구분된다.

상기 도 6a에는 각각 [string], [integer] 및 [float]의 저장형태를 갖는 임의의 RVR 파일의 예가 도시되어 있다.

여기서, string이라 함은 매트릭스 한의 셀에 저장되는 데이터가 문자, 숫자(소수점 포함) 구분없이 자유롭게 저장될 수 있는 저장형태를 말한다.

그리고 integer이라 함은 매트릭스 한의 셀에 저장되는 데이터가 정수형 변수인 저장형태를 말한다.

또한, float이라 함은 매트릭스 한의 셀에 저장되는 데이터가 소수점을 포함하는 변수인 저장형태를 말한다.

한편, 도 6b에 도시된 바와 같이, 상기 생성된 RVR 파일로부터 RAT 파일이 생성된다. 상기 RAT 파일은 매트릭스 형태의 상기 RVR 파일의 행 번호를 나타내는 일련번호와, 해당 데이터가 저장되는 기록위치가 포함되어 생성됨을 전술한 바와 같다.

도 7은 본 발명의 구체적인 실시예에 의한 RVR 파일 및 RAT 파일의 기록 및 검색 기능을 수행하는 프로그램과 소스코드의 일 예가 도시되어 있다.

여기서 RVR-RAT의 read/write을 수행하는 프로그램은 IRVR (Indexing RVR)이다. 그리고 도 5a 및 도 6a의 6가지 다른 데이터(구분단위 또는 데이터 형태에 따른)에 대한 레코드들의 실제 예문들을 보여준다.

각각의 레코드의 종류에 따라 그리고 컴퓨터 [O/S] 종류에 따라 약간씩 다르게 bytes값 들이 계산이 된다. 특히 C/C++ 컴퓨터 언어에서는 fwrite()기능에 의하여 파일을 binary파일로 만들 수 있는데 입력파일 각각의 레코드들의 크기를 bytes으로 돌려준다(return). 따라서 대규모 데이터를 RVR(rack of virtual RAM)화 하는 과정에서 모든 데이터 레코드를 fwrite()기능으로부터 받은 bytes값들과 위의 수학 식 1,2 및 3을 사용하여 모든 레코드 주소(address)를 RAT파일로 출력 저장한다.

FAT-Sector(도 2참조)들의 정보는 고급 시스템 프로그램을 하는 전문가들을 제외한 일반 사용자(user)들은 접근이 불가능하다. 따라서 FAT-Sector사이에 컨트롤러(controller)가 중간 가교역할을 하는데 같은 방식으로 Hard Disk에 저장된 파일의 레코드와 레코드 주소인 RVR-RAT는 대부분의 상위 컴퓨터언어(Perl, Python, Fortran, C/C++, JAVA, 등)를 사용하는 일반 사용자(user)들이 FAT-Sector의 컨트롤러와 같은 기능을 하도록 만들어 쓸 수 있다.

이하에서는 본 발명에 따른 디스크 상의 데이터 기록 방법 및 데이터 검색 방법의 작용을 RVR/RAT 파일의 생성 방법 및 이를 이용한 데이터 검색 방법에 따라 상세하게 설명하기로 한다.

도 8은 본 발명의 구체적인 실시예에 의한 RVR 파일 및 RAT 파일의 생성 방법을 도시한 흐름도이고, 도 9는 본 발명의 구체적인 실시예에 의한 데이터 검색 방법을 도시한 흐름도이다.

이하에서는 저장데이터가 일반 문서 데이터인 경우를 예로 들어 설명한다.

먼저, RAT 파일 및 RVR 파일의 생성 방법을 살펴보면, 도 8에 도시된 바와 같이, 데이터를 저장하고자 하는 경우, 사용자로부터 구분 단위를 입력받는다(S110).

이후, DATA 파일로부터 전술한 바와 같이, 상기 구분단위에 해당하는 구분 인자를 포함시켜 RVR 파일을 생성한다(S120). 물론, 상기 구분인자는 실질적으로 검색에 있어 어떤 기능을 포함하는 것이 아니고 RAT 파일의 생성을 용이하게 하는 것이므로 RVR 파일에 포함되지 않을 수도 있다.

그리고 상기 RVR 파일로부터 RAT 파일을 생성한다(S130). 상기 RAT 파일은 RVR 파일을 상기 구분인자로 구분하고 일련번호를 넘버링하여 각 일련번호에 해당하는 데이터의 기록위치를 기록함에 의해 생성된다.

물론, 상기 구분인자는 실질적으로 검색에 있어 어떤 기능을 포함하는 것이 아니고 RAT 파일의 생성을 용이하게 하는 것이므로 RVR 파일에 포함되지 않을 수도 있다. 이 경우 상기 데이터를 상기 구분단위로 나누어 가면서 일련 넘버를 넘버링하고 이와 동시에 해당 데이터의 기록위치를 저장함에 따라 RAT 파일을 생성한다.

그리고, 상기 생성된 RVR 파일 및 RAT 파일을 저장한다(S140).

이하에서는 상기 RAT 파일을 이용하여 데이터를 검색하는 방법에 대하여 살펴보기로 한다.

본 발명에 의한 RAT 파일을 이용하여 데이터를 검색하기 위해서는, 도 9에 도시된 바와 같이, 먼저 사용자로부터 검색정보를 입력받는다(S210).

상기 검색정보란, 일반데이터인 경우 구분단위의 순번을 의미하고, 매트릭스 형태의 데이터인 경우, 매트릭스의 행 번호를 말한다.

즉, 구분 단위가 [paragraph]인 경우, N 번째 문단을 검색하고자 하는 경우 상기 검색정보는 N 이고, 상기 구분 단위가 [line]인 경우, N' 번째 line을 검색하고자 하는 경우 상기 검색정보는 N' 이며, 구분 단위가 [word]인 경우, N" 번째 단어를 검색하고자 하는 경우 상기 검색정보는 N"가 된다.
*이후, 저장된 RAT 파일을 검색하여 상기 검색정보에 대응하는 기록위치를 독출한다(S220).

삭제

다음으로 상기 기록위치로부터 클러스터 넘버를 산출하여 FAT으로부터 데이터의 물리적 저장위치(cluster location)를 산출한다(S230).

이때, 상기 클러스터 넘버를 산출하기 위하여 상기 수학식 1 내지 3을 활용함은 전술한 바와 같다.

이후, 하드 디스크의 상기 물리적 데이터 저장위치를 독출하고, 그 결과를 출력한다(S250).

다음으로, 일반적 하드디스크에서 사용되는 순차적인 데이터 검색과 본 발명에 의한 데이터 검색의 속도 차이를 비교한다.

도 10a 및 도 10b에는 본 발명의 구체적인 실시예에 의한 데이터 검색속도와 일반적인 하드 디스크의 순차적인 데이터 검색속도를 비교한 예시도가 도시되어 있다.

이때, 검색 데이터는 [X:20,000]*[Y:1,000,000]의 차원을 가진 192 Giga Bytes의 단일 대규모 데이터를 사용하였다.

여기서 X은 소수점을 포함하는 변수 20,000개가 있음을 의미한다. 그리고 Y는 [X:20000]이 백만 개가 있음을 의미한다. 본 데이터에서 Y값의 10, 100, 1,000, 10,000, 100,000, 그리고 1,000,000 번째의 기록 값들의 순차적검색(sequential access)시간과 RVR-RAT을 사용하여 무작위검색(random access) 시간을 비교하였다.

본 테스트는 fedora 8.0 Linux환경에서 64bit Quadra Core Zeon CPU를 가지 고 수행 하였고, 테스트는 도 7에서 설명한 [IRVR]로 계산을 하였다.

데이터의 기록위치가 앞쪽에 위치한 데이터는 액세스 시간이 비교적 짧았으나, 백만 번째 이상의 데이터에 대하여는 그 액세스 속도가 기하 급수적으로 늘어나는 것을 알 수 있다(도 10a 참조).

이에 반에 본 발명에 의한 데이터 액세스 속도는 그 기록 위치에 상관없이 거의 일정한 시간을 유지함을 알 수 있고, 그 시간은 0.1sec 내외로 매우 양호 함을 알 수 있다.

이는, 본 발명에 의한 방법이 비록 RVR 파일 및 RAT 파일을 생성하는데, 시간이 소요되지만, 일단 RVR 파일 및 RAT 파일이 생성된 이후에는 데이터의 검색이 매우 손쉬움을 알 수 있다.

본 발명의 권리는 위에서 설명된 실시예에 한정되지 않고 청구범위에 기재된 바에 의해 정의되며, 본 발명의 분야에서 통상의 지식을 가진 자가 청구범위에 기재된 권리범위 내에서 다양한 변형과 개작을 할 수 있다는 것은 자명하다.

최근 1,000명의 인간 게놈 서열을 해독하는 작업이 미국 NIH (http://www.1000genomes.org/)를 중심으로 전개되고 있다. 전체 데이량만 3 Tera Bytes이고 이미 표준 DBMS로 처리 할 수 있는 선을 넘었다.

또한 한국의 경우에도 2007년 질병관리본부 전장유전체분석사업(KARE-I 프로젝트)을 통하여 단일 유전체 데이터의 크기는 약 500 Giga Bytes이 생성되었고, 2008년 KARE-II에서 유사한 데이터가 2 Tera Bytes가 더 생산된다. 또한 이와 관련된 임상역학기능 정보와 연계한 Database생성은 표준 DBMS 능력을 초과한지 이미 오래되었다.

따라서, 이러한 대용량화되는 최신 연구 데이터의 저장 및 검색에 본 발명이 적용될 경우 경제성 및 연구 수행 속도에 있어 큰 효과를 나타낼 수 있다.
한 예로 이론적으로 100 K bytes x 100 K bytes 데이터 레코드들의 유사성(혹은 상동성) 메트릭스를 생성하고 이 메트릭스를 사용하여 데이터를 완전 군집화 (exhaustive clustering)을 수행하려면 정상적으로 위의 100 K bytes x 100 K bytes 메트릭스를 DRAM에 올려 놓아야 하는데 위의 경우 C/C++에서 두배수 정밀한 정수형 변수 (double)를 사용하면 8 Giga Bytes (TB)의 DRAM이 필요하다.
따라서 이러한 대규모 군집화연구에 하드디스크를 사용하는 RVR-RAT방식은 절대적으로 필요하다.

도 1은 일반적인 하드 디스크에 데이터가 저장된 모습을 도시한 개략도.

도 2는 본 발명의 구체적인 실시예에 의한 데이터 파일, RAT 파일 및 RVR 파일의 관계를 도시한 예시도.

도 3은 본 발명의 구체적인 실시예에 의한 RVR 파일 및 RAT 파일과 디스크의 데이터 저장된 데이터와의 관계를 도시한 예시도.

도 4는 본 발명의 구체적인 실시예에 의한 데이터 파일 및 RAT 파일의 관계를 도시한 예시도.

도 5a 및 도 5b는 본 발명에 의한 저장 데이터가 일반 문서인 경우, 데이터 파일로부터 RAT 파일 및 RVR 파일을 생성하는 일 예를 도시한 예시도.

도 6a 및 도 6b는 본 발명에 의한 저장 데이터가 매트릭스인 경우, 데이터 파일로부터 RAT 파일 및 RVR 파일을 생성하는 일 예를 도시한 예시도.

도 7은 본 발명의 구체적인 실시예에 의한 RVR 파일 및 RAT 파일의 기록 및 검색 기능을 수행하는 프로그램 과 소스코드의 일 예를 도시한 예시도.

도 8은 본 발명의 구체적인 실시예에 의한 RVR 파일 및 RAT 파일의 생성 방법을 도시한 흐름도.

도 9는 본 발명의 구체적인 실시예에 의한 데이터 검색 방법을 도시한 흐름도.

도 10a 및 도 10b는 본 발명의 구체적인 실시예에 의한 데이터 검색속도와 일반적인 하드 디스크의 순차적인 데이터 검색속도를 비교한 예시도.

Claims

삭제
삭제
삭제
삭제
삭제
삭제
비정형 단일 데이터 파일을 검색하기 위한 방법에 있어서,

(A) 데이터의 구분 단위를 입력받는 단계와;

(B) 상기 입력된 구분단위로 상기 비정형 단일 데이터 파일을 구분하여 RVR 파일을 생성하는 단계와;

(C) 상기 RVR 파일의 구분 단위별 기록위치를 검출하여 RAT 파일을 생성하는 단계; 그리고

(D) 상기 RVR 파일 및 RAT 파일을 저장하는 단계를 포함하여 수행됨을 특징으로 하는 단일 데이터 검색을 위한 파일 생성 방법.
제 7 항에 있어서,

상기 데이터는 비정형 데이터이고,

상기 구분 단위는 [page], [paragraph], [line] 또는 [word] 중 어느 하나임을 특징으로 하는 단일 데이터 검색을 위한 파일 생성 방법.
정형 단일 데이터 파일을 검색하기 위한 방법에 있어서,

(a) 정형 단일 데이터의 행과 열을 구분하여 RVR 파일을 생성하는 단계와;

(b) 상기 RVR 파일의 행 또는 열 별 기록위치를 검출하여 RAT 파일을 생성하는 단계; 그리고

(c) 상기 RVR 파일 및 RAT 파일을 저장하는 단계를 포함하여 수행됨을 특징으로 하는 단일 데이터 검색을 위한 파일 생성 방법.
제 7 항 내지 제 9 항 중 어느 한 항에 있어서,

상기 기록 위치는,

상기 단일 데이터 내에서 상기 해당 데이터가 기록된 위치까지의 누적된 데이터 크기임을 특징으로 하는 단일 데이터 검색을 위한 파일 생성 방법.
제 7 항 내지 제 9 항 중 어느 한 항에 있어서,

상기 기록위치는,

상기 해당 부분의 데이터가 기록된 하드 디스크 클러스터 넘버임을 특징으로 하는 단일 데이터 검색을 위한 파일 생성 방법.
삭제
단일 데이터 파일을 검색하는 방법에 있어서,

(Ⅰ) 검색정보를 입력받는 단계와;

(Ⅱ) RAT 파일로부터 상기 검색정보에 해당하는 상기 단일 데이터 내의 기록위치를 검출하는 단계와;

(Ⅲ) 상기 기록위치로부터 상기 검색정보에 해당하는 데이터의 저장매체 내의 물리적 저장위치를 검출하는 단계; 그리고

(Ⅳ) 상기 데이터의 물리적 위치의 데이터를 검색하여 결과를 출력하는 단계를 포함하여 수행됨을 특징으로 하는 단일 데이터 파일의 검색방법.
제 13 항에 있어서,

상기 단일 데이터가 비정형 데이터인 경우,

상기 검색정보는 구분단위의 순번을 의미함을 특징으로 하는 단일 데이터 파 일의 검색방법.
제 13 항에 있어서,

상기 단일 데이터가 정형 데이터인 경우,

상기 검색정보는 정형 데이터 중 해당 데이터의 행 또는 열 번호임을 특징으로 하는 단일 데이터 파일의 검색방법.
제 13 항 내지 제 15 항 중 어느 한 항에 있어서,

상기 기록 위치는,

상기 단일 데이터 내에서 상기 해당 데이터가 기록된 위치까지의 누적된 데이터 크기임을 특징으로 하는 단일 데이터 파일의 검색방법.
제 16 항에 있어서,

상기 저장위치의 검출은,

상기 각각의 구분 단위의 데이터 크기를 이용하여 상기 기록위치로부터 클러스터 위치를 산출하고, 상기 클러스터 위치의 물리적 저장위치를 FAT으로부터 독출하여 검출함을 특징으로 하는 단일 데이터 파일의 검색방법.
제 13 항 내지 제 15 항 중 어느 한 항에 있어서,

상기 기록위치는,

상기 해당 부분의 데이터가 기록된 하드 디스크 클러스터 넘버임을 특징으로 하는 단일 데이터 파일의 검색방법.
삭제