KR100880531B1 - 단일 데이터 검색을 위한 파일 생성 방법 및 단일 데이터파일의 검색방법 그리고 단일 파일 검색을 위한 rat파일이 저장된 기록매체 - Google Patents

단일 데이터 검색을 위한 파일 생성 방법 및 단일 데이터파일의 검색방법 그리고 단일 파일 검색을 위한 rat파일이 저장된 기록매체 Download PDF

Info

Publication number
KR100880531B1
KR100880531B1 KR1020080067778A KR20080067778A KR100880531B1 KR 100880531 B1 KR100880531 B1 KR 100880531B1 KR 1020080067778 A KR1020080067778 A KR 1020080067778A KR 20080067778 A KR20080067778 A KR 20080067778A KR 100880531 B1 KR100880531 B1 KR 100880531B1
Authority
KR
South Korea
Prior art keywords
file
data
rat
single data
rvr
Prior art date
Application number
KR1020080067778A
Other languages
English (en)
Inventor
정종선
Original Assignee
정종선
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정종선 filed Critical 정종선
Priority to KR1020080067778A priority Critical patent/KR100880531B1/ko
Application granted granted Critical
Publication of KR100880531B1 publication Critical patent/KR100880531B1/ko
Priority to US13/003,649 priority patent/US8423513B2/en
Priority to PCT/KR2009/003790 priority patent/WO2010005261A2/ko
Priority to US13/845,999 priority patent/US20130275462A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/12Formatting, e.g. arrangement of data block or words on the record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/32Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
    • G11B27/327Table of contents
    • G11B27/329Table of contents on a disc [VTOC]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/12Formatting, e.g. arrangement of data block or words on the record carriers
    • G11B20/1217Formatting, e.g. arrangement of data block or words on the record carriers on discs
    • G11B20/1252Formatting, e.g. arrangement of data block or words on the record carriers on discs for discontinuous data, e.g. digital information signals, computer programme data
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2508Magnetic discs
    • G11B2220/2516Hard disks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 본 발명은 하드 디스크 상에 검색을 용이하도록 하는 파일을 생성하여 저장하는 방법 및 이를 이용한 데이터 검색 방법에 관한 것으로, 본 발명은 단일 데이터로, 구분단위 별로 구분요소에 의해 다수개로 구분되어 저장되는 RVR 파일과; 상기 RVR 파일의 각각의 구분 단위에 대한 기록위치가 저장되는 RAT 파일을 생성하고 이를 이용한다. 이와 같은 본 발명에 의하면, 대규모 비정형 데이터에 대한 DB생성 및 빠른 데이터 분석이 가능해지는 장점이 있다.
디스크, 단일 데이터, 검색

Description

단일 데이터 검색을 위한 파일 생성 방법 및 단일 데이터 파일의 검색방법 그리고 단일 파일 검색을 위한 RAT 파일이 저장된 기록매체 { File creating method for searching of single data, Searching method of single data file and Storage medium storing RAT file for searching of single data file }
본 발명은 하드 디스크 상에 검색을 용이하도록 하는 파일을 생성하여 저장하는 방법 및 이를 이용한 데이터 검색 방법에 관한 것으로, 더욱 상세하게는 Giga Byte, Tera Byte, 혹은 Penta Byte단위의 거대 용량의 단일 비정형 데이터들에 대한 무작위검색(random access)할 수 있도록 하는 데이터 기록 방법 및 검색방법에 관한 것이다.
도 1은 일반적인 하드 디스크에 데이터가 저장된 모습을 도시한 개략도이다.
이에 도시한 바와 같이, 하드디스크는 원판을 이루는 트렉(tract)들이 모여 실린더(cylinder)를 구성하고, 각 트렉의 Boom에 연결된 Read/Write Header에 의해서 I/O가 수행이 된다. 도 1에서 데이터의 가장 작은 단위인 레코드가 1번, 2번, 3번, 4번... i-1번, i번... N번 섹터(sector)에 저장되어 있다고 가정한다. 클러스터(cluster)는 인접하고 있는 섹터들의 집합을 의미한다. 그리고 파일관리 프로그 램(file manager)은 클러스터(cluster)와 물리적 주소(physical location)를 FAT(file allocation table)에 의하여 정렬한다.
그리고 FAT시스템에서 레코드들은 여러 클러스터들에 순차적으로 정렬되어 있다. 따라서 중간 단계인 i-섹터의 레코드 정보를 검색하려면 첫 번째 섹터에서 i-번째 섹터까지 순차적으로 트랙(tract)을 돌면서 내려와 i-번째 섹터에 도달하고 그 안에 있는 레코드들을 검색한다.
반면에, RAM의 경우 변수 혹은 변수명이 있는 파일들에서 필요한 정보를 빠르게 추출하려면 모든 변수를 프로그래밍과정에서 DRAM(dynamic random access memory)에 올려놓고 작업을 하면, 해당 변수명이 저장된 위치를 바로 검색한다. 따라서 빠르게 필요한 정보를 추출할 수 있다.
그러나, DRAM은 반도체이고 용량이 증가할수록 Hard Disk에 비하여 가격이 기하급수적으로 증가하기 때문에 128 Giga Bytes이상을 필요로 하는 대규모 데이터에는 비용대비 활용성이 떨어진다. 그러므로 대용량의 데이터를 저장하는 데는 DRAM 보다 하드 디스크가 사용되고 있다.
따라서 디스크에 데이터를 저장하여 사용하는 종래기술에서는 다음과 같은 문제점이 있다.
즉, 저장된 대규모 데이터를 검색함에 있어 디스크와 같이 순차적 (sequential access) 검색 방법이 사용되는 경우, 검색 속도는 데이터 레코드를 무작위검색(random access)하는 속도와 비교해서 데이터의 크기에 따라 기하 급수적으로 차이가 난다.
특히 최근에 biotechnology의 급격한 성장에 힘입어 게노믹스, 혹은 오믹스(대규모 생물정보 데이터) 데이터 등의 유전체임상역학유전기능 관련 데이터가 급격히 생산되고 있으며, 이러한 데이터를 가지고 연구자들은 계산을 통하여 유용한 정보를 추출한다. 이러한 비정형 데이터들을 현재 그 크기가 수~수십 Tera Byte에 달하고, 향후 더 큰 프로잭트가 수행시 Penta Byte 수준에 이를 것으로 예상된다. 이 경우 데이터 검색 시간의 순차적 검색과 무작위 검색의 속도차이는 몇 일 ~ 몇 년 차이까지 생길 수 있으므로, 데이터 검색을 원활하게 할 수 없는 문제점이 있다.
본 발명은 상기와 같은 종래의 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 목적은 대규모 데이터들의 모든 구성단위(page, paragraph, line, word, string, integer, 및 float)들의 다양한 레코드들에 대하여 RAT(record allocation table)을 만들고 Hard Disk 상에서의 위치정보(address)를 무작위검색(random access)할 수 있도록 하여, 대규모 비정형 데이터들에 대한 DBMS를 실현하고, Hard Disk를 DRAM처럼 빠르게 데이터 검색을 가능하게 하는 방법을 제공하는 것이다.
본 발명의 다른 목적은 대규모 데이터 분석 및 계산하기 위한 방법을 제공하는 것으로, 거대 용량의 데이터를 DRAM(dynamic random access memory)에 올려놓지 않고(128 Giga Bytes DRAM 이상은 높은 가격 때문에 실용성이 떨어짐), Hard Disk 상에서 DRAM에서 검색하는 속도와 유사한 속도로 수행 가능하도록 하는 방법을 제공하는 것이다.
따라서 본 발명은 대규모 파일을 빠르고 효과적으로 검색할 수 있도록 함에 의해, 대규모 데이터의 군집화 연구에 필수적인 데이터 처리 방법을 제시하고자 하는 것이다.
상기한 바와 같은 목적을 달성하기 위한 본 발명의 특징에 따르면, 본 발명은 단일 데이터로, 구분단위 별로 구분요소에 의해 다수개로 구분되어 저장되는 RVR 파일과; 상기 RVR 파일의 각각의 구분 단위에 대한 기록위치가 저장되는 RAT 파일이 저장되는 기록매체를 포함한다.
이때, 상기 데이터가 비정형 데이터인 경우, 상기 구분 단위는 [page], [paragraph] [line] 또는 [word] 중 어느 하나일 수도 있다.
그리고 상기 데이터가 정형 데이터인 경우, 상기 데이터의 각 셀에 포함되는 데이터의 형태는 정수형 변수, 소수형 변수 또는 무제한 변수 형 중 어느 하나일 수도 있다.
또한, 상기 기록 위치는, 상기 단일 데이터 내에서 상기 해당 데이터가 기록된 위치까지의 누적된 데이터 크기일 수도 있다.
또는 상기 기록위치는, 상기 해당 부분의 데이터가 기록된 하드 디스크 클러스터 넘버일 수도 있다.
다른 한편으로는 상기 기록위치는, 상기 해당 부분의 데이터가 기록된 하드 디스크 클러스터 넘버일 수도 있다.
한편, 본 발명은 비정형 단일 데이터 파일을 검색하기 위한 방법에 있어서, (A) 데이터의 구분 단위를 입력받는 단계와; (B) 상기 입력된 구분단위로 상기 비정형 단일 데이터 파일을 구분하여 RVR 파일을 생성하는 단계와; (C) 상기 RVR 파일의 구분 단위별 기록위치를 검출하여 RAT 파일을 생성하는 단계; 그리고 (D) 상기 RVR 파일 및 RAT 파일을 저장하는 단계를 포함하여 수행되는 데이터 검색을 위한 파일 생성 방법을 포함한다.
또한, 본 발명은 정형 단일 데이터 파일을 검색하기 위한 방법에 있어서, (a) 정형 단일 데이터의 행과 열을 구분하여 RVR 파일을 생성하는 단계와; (b) 상기 RVR 파일의 행 또는 열 별 기록위치를 검출하여 RAT 파일을 생성하는 단계; 그리고 (c) 상기 RVR 파일 및 RAT 파일을 저장하는 단계를 포함하여 수행되는 데이터 검색을 위한 파일 생성 방법을 포함한다.
한편, 본 발명은 단일 데이터 파일을 검색하는 방법에 있어서, (Ⅰ) 검색정보를 입력받는 단계와; (Ⅱ) RAT 파일로부터 상기 검색정보에 해당하는 기록위치를 검출하는 단계와; (Ⅲ) 상기 기록위치로부터 상기 검색정보에 해당하는 데이터의 물리적 저장위치를 검출하는 단계; 그리고 (Ⅳ) 상기 데이터의 물리적 위치의 데이터를 검색하여 결과를 출력하는 단계를 포함하여 수행되는 단일 데이터 파일의 검색방법을 포함한다.
이때, 상기 단일 데이터가 비정형 데이터인 경우, 상기 검색정보는 구분단위의 순번을 의미할 수도 있다.
그리고 상기 단일 데이터가 정형 데이터인 경우, 상기 검색정보는 정형 데이터 중 해당 데이터의 행 또는 열 번호일 수도 있다.
또한, 상기 기록 위치는, 상기 단일 데이터 내에서 상기 해당 데이터가 기록된 위치까지의 누적된 데이터 크기이고, 상기 저장위치의 검출은, 상기 각각의 구분 단위의 데이터 크기를 이용하여 상기 기록위치로부터 클러스터 위치를 산출하고, 상기 클러스터 위치의 물리적 저장위치를 FAT으로부터 독출하여 검출할 수도 있다.
위에서 살핀 바와 같은 본 발명에 의한 단일 데이터 검색을 위한 파일 생성 방법 및 이를 단일 데이터 파일의 검색방법에서는 다음과 같은 효과를 기대할 수 있다.
즉, 본 발명에서는 binary파일인 RVR은 모든 데이터 레코드들의 Hard Disk상 의 주소(address)가 RAT파일에 기록되어 있다. 따라서 사용자(user)가 자체 프로그래밍 언어(Perl, Python, Fortran, C/C++, JAVA, 등)를 사용하여 RAT파일에 저장된 주소 정보를 이용하여 RVR 파일 레코드 정보를 무작위 검색(random access)하고 자체 프로그램밍 언어로 포맷하여 출력한다. 따라서 대규모 비정형 데이터에 대한 DB생성 및 빠른 데이터 분석이 가능해지는 장점이 있다.
또한, 본 발명에서는 대용량 DRAM 없이, 비교적 저렴한 하드디스크를 이용하여 무작위검색을 가능하게 하므로, 경제적으로 유리한 효과가 있다.
그리고 현재 biotechnology의 향상으로 다양한 미생물에서 동식물에 이르기까지 1,000종이상의 전장게놈염기서열(whole genome sequence)이 해독되었고 1명의 인간게놈의 염기서열은 약 3 Giga Bytes 분량이다.
이하에서는 상기한 바와 같은 본 발명에 의한 디스크 상의 데이터 기록 방법 및 데이터 검색 방법의 구체적인 실시예를 첨부된 도면을 참고하여 상세하게 설명한다.
도 2는 본 발명의 구체적인 실시예에 의한 데이터 파일, RAT 파일 및 RVR 파일의 관계를 도시한 예시도이고, 도 3은 본 발명의 구체적인 실시예에 의한 RVR 파일 및 RAT 파일과 디스크의 데이터 저장된 데이터와의 관계를 도시한 예시도이며, 도 4는 본 발명의 구체적인 실시예에 의한 데이터 파일 및 RAT 파일의 관계를 도시한 예시도이다.
이들 도면에 도시된 바와 같이, 본 발명에 의한 데이터는 RVR(rack of virtual RAM)파일 형태로 저장되고, 이와 더불어 RVR 레코드의 동적 테이블인 RAT(record allocation table)파일이 생성되어 저장된다.
즉, 임의의 데이터 파일을 저장하고자 하는 경우, 상기 데이터 파일을 RVR 파일로 변환하고, 이에 따라 RAT 파일을 생성하여 상기 RVR 파일 및 RAT 파일을 하드 디스크에 저장한다.
여기서, RVR(rack of virtual RAM)파일 이라 함은, 데이터 파일에 구분 인자를 포함하여 생성한 파일을 말한다. 그리고 상기 구분 인자는 데이터의 레코딩 단위인 구분단위별로 데이터를 구분하는 것으로, 상기 구분단위는 [paragraph], [line], [word], [string], [integer], 또는 [float] 등으로 다양하게 설정될 수 있다.
상기 구분 인자(구분단위)의 종류 및 기능은 상기 RVR 파일 및 RAT 파일의 생성 방법을 살핌에 있어 상세히 설명하도록 한다.
또한, RAT(record allocation table)파일 이라 함은, 상기 RVR 파일의 레코딩 단위의 위치를 표시하는 동적 테이블이 저장된 파일로, 데이터 검색시 RVR 파일에서 특정 데이터의 위치를 나타내는 파일을 말한다.
도 3에 도시된 바와 같이, 데이터 저장 장치인 Hard Disk에서 데이터의 가장 작은 단위인 레코드가 1번, 2번, 3번, 4번... i-1번, i번... N번 섹터(sector)에 저장되어 있다고 가정한다. 클러스터(cluster)는 섹터들의 집합으로 데이터의 기록 단위이다.
그리고 파일관리 프로그램(file manager)에 의해 클러스터(cluster)와 물리 적 주소(physical location)를 FAT(file allocation table)에 의하여 정렬되어 파일이 저장된다.
다만, 하나의 파일을 저장하는데, 다수의 클러스터가 필요하고, 상기 클러스터는 순서대로 할당되지 않는다. 즉, 기록 가능한 클러스터를 찾아 상기 파일을 저장하고, 상기 파일의 기록에 사용된 클러스터의 순서를 FAT이 기록하여, 파일의 재생(검색)시 상기 클러스터의 순서를 읽어들여 데이터를 독출함에 의해 상기 파일을 재생 또는 검색한다.
즉, 도시된 바와 같이, 일련의 클러스터 넘버에 따라 개별적인 물리적 클러스터 위치가 저장된다.
한편, 상기 데이터에 대한 RAT 파일은 구분단위 별로 구분인자에 의해 구분된 데이터 파일을 말하는 것으로, 도 3에서는 line 단위로 구분된 텍스트의 예가 도시되어 있다. 이는 본 발명에 의한 저장데이터가 일반 문서인 경우의 실시예이다.
그리고 이에 따라 생성된 RAT 파일은 상기 구분인자의 순서를 나타내는 일련번호(도 3에서는 line 번호)와 이에 해당하는 데이터가 기록된 기록 위치(adress)가 저장된다.
이때, 상기 기록위치는 누적된 데이터 크기로 표현될 수 있다.
즉, 상기 기록 위치는 수학식 1과 같이 표현될 수 있는데,
address[k] = (i-1) * bytes_of_record
여기서, 모든 레코드가 같은 bytes을 가졌다고 가정하면 bytes_of_record는 하드 디스크의 특성에 따라 결정되는 상수가 된다.
따라서, 기록위치를 상수(bytes_of_record)로 나누면 클러스터 넘버(i')를 알 수 있고, 이에 의해 FAT를 통해 물리적인 데이터의 기록 위치를 알 수 있다.
한편, 본 발명에 의한 저장 데이터가 매트릭스(테이블) 형태인 경우에는 특정 데이터가 메트릭스 형태로 저장이 되어 있고 메트릭스의 모든 레코드(기록단위)의 bytes가 동일하다면 메트릭스 상의 특정 위치(k) 레코드 주소(address)는 상기 수학식 1을 단순히 세분화(partitioning)하면 된다.
즉, 상기 수학식 1을 세분화하면, 아래의 수학식 2가 된다.
address[k]= [x-1]*bytes_of_record+[y-1]*bytes_of_record * N
여기서 k 는 메트릭스 기록단위의 일련번호 이다. 그리고 N은 x축의 구분 인자 개수에 해당한다.
만약, 각 레코드의 bytes가 모두 다르다고 가정하면 아래 수학식 3과 같은 형태로 표현될 수 있다.
Figure 112009000607411-pat00015
여기서 bytes.of.record[i]는 각기 다른 line이나 paragraph 레코드들의 bytes을 의미하고 i 는 이러한 특정 line 혹은 paragraph 레코드 일련번호를 의미한다.
따라서 파일 레코드의 시작점의 주소(bytes.of.record[1])는 0으로 초기화하여 사용한다.
도 5a 는 본 발명에 의한 저장 데이터가 일반 문서인 경우, 데이터 파일로부터 RVR 파일을 생성하는 일 예를 도시한 예시도이고, 도 5b는 본 발명에 의한 저장 데이터가 매트릭스 형태의 정형 문서인 경우, 데이터 파일로부터 RAT 파일을 생성하는 일 예를 도시한 예시도이다.
도 5a에 도시한 바와 같이, 저장 데이터가 일반문서(데이터, 문서 및 데이터는 동일한 의미로 사용한다)인 경우, 구분단위의 종류는 [paragraph], [line] 또는 [word] 등이 있다. 상기 도 5a에는 동일한 문서를 각각 [paragraph], [line] 및 [word]를 구분단위로 하여 RVR 파일을 생성한 예를 도시한다.
여기서 일반 문서라 함은 문서의 형태가 정형화되지 않은 비정형 문서를 말하는 것이고, 비정형이라 함은 매트릭스 형태(표 등)가 아닌 정형화된 틀 안에 작성되지 않은 대부분의 문서를 말한다. 이하 일반 문서 및 비정형 문서는 같은 의미로 사용한다.
즉, 첫 번째 문단은 [paragraph]를 구분단위로 하여 RVR 파일을 생성한 것으로, 도시된 바와 같이 각각의 문단이 구분인자 '>'로 나뉘어 표시되고 있다.
또한 두 번째, 문단은 [line]를 구분단위로 하여 RVR 파일을 생성한 것으로, 도시된 바와 같이 각각의 line이 구분인자 '\n'로 나뉘어 표시되고 있다.
그리고 세 번째 문단은 [word]를 구분단위로 하여 RVR 파일을 생성한 것으로, 도시된 바와 같이 각각의 문단이 구분인자 ' '로 나뉘어 표시되고 있다.
상기 데이터의 구분단위는 사용자의 선택에 의해 결정되며, 상기 구분기호는 입의의 기호로 대체될 수 있다.
한편, 도 5b에 도시된 바와 같이, 상기 생성된 RVR 파일로부터 RAT 파일이 생성된다. 상기 RAT 파일은 상기 RVR 파일의 순차적인 구분단위의 순서를 나타내는 일련번호와, 해당 데이터가 저장되는 기록위치가 포함되어 생성됨을 전술한 바와 같다.
즉, 도시된 바와 같이, 누적된 데이터 량이 기록 위치가 된다.
한편, 도 6a 및 도 6b는 본 발명에 의한 저장 데이터가 매트릭스인 경우, 데이터 파일로부터 RAT 파일 및 RVR 파일을 생성하는 일 예가 도시되어 있다.
도 6a에 도시한 바와 같이, 저장 데이터가 매트릭스 형태인 경우, 별도의 구분단위 및 구분인자는 없다. 즉, 매트릭스의 행과 열이 각각 구분 단위 및 구분인자가 된다.
이때, 매트릭스 형태의 문서는 정형화된 문서를 말하는 것으로, 매틀릭스 형태의 문서 및 정형문서는 동일한 의미로 사용된다.
다만, 이 경우 각 매트릭스에 저장되는 데이터의 형태에 따라 저장형태가 [string], [integer] 또는 [float] 등으로 구분된다.
상기 도 6a에는 각각 [string], [integer] 및 [float]의 저장형태를 갖는 임의의 RVR 파일의 예가 도시되어 있다.
여기서, string이라 함은 매트릭스 한의 셀에 저장되는 데이터가 문자, 숫자(소수점 포함) 구분없이 자유롭게 저장될 수 있는 저장형태를 말한다.
그리고 integer이라 함은 매트릭스 한의 셀에 저장되는 데이터가 정수형 변수인 저장형태를 말한다.
또한, float이라 함은 매트릭스 한의 셀에 저장되는 데이터가 소수점을 포함하는 변수인 저장형태를 말한다.
한편, 도 6b에 도시된 바와 같이, 상기 생성된 RVR 파일로부터 RAT 파일이 생성된다. 상기 RAT 파일은 매트릭스 형태의 상기 RVR 파일의 행 번호를 나타내는 일련번호와, 해당 데이터가 저장되는 기록위치가 포함되어 생성됨을 전술한 바와 같다.
도 7은 본 발명의 구체적인 실시예에 의한 RVR 파일 및 RAT 파일의 기록 및 검색 기능을 수행하는 프로그램과 소스코드의 일 예가 도시되어 있다.
여기서 RVR-RAT의 read/write을 수행하는 프로그램은 IRVR (Indexing RVR)이다. 그리고 도 5a 및 도 6a의 6가지 다른 데이터(구분단위 또는 데이터 형태에 따른)에 대한 레코드들의 실제 예문들을 보여준다.
각각의 레코드의 종류에 따라 그리고 컴퓨터 [O/S] 종류에 따라 약간씩 다르게 bytes값 들이 계산이 된다. 특히 C/C++ 컴퓨터 언어에서는 fwrite()기능에 의하여 파일을 binary파일로 만들 수 있는데 입력파일 각각의 레코드들의 크기를 bytes으로 돌려준다(return). 따라서 대규모 데이터를 RVR(rack of virtual RAM)화 하는 과정에서 모든 데이터 레코드를 fwrite()기능으로부터 받은 bytes값들과 위의 수학 식 1,2 및 3을 사용하여 모든 레코드 주소(address)를 RAT파일로 출력 저장한다.
FAT-Sector(도 2참조)들의 정보는 고급 시스템 프로그램을 하는 전문가들을 제외한 일반 사용자(user)들은 접근이 불가능하다. 따라서 FAT-Sector사이에 컨트롤러(controller)가 중간 가교역할을 하는데 같은 방식으로 Hard Disk에 저장된 파일의 레코드와 레코드 주소인 RVR-RAT는 대부분의 상위 컴퓨터언어(Perl, Python, Fortran, C/C++, JAVA, 등)를 사용하는 일반 사용자(user)들이 FAT-Sector의 컨트롤러와 같은 기능을 하도록 만들어 쓸 수 있다.
이하에서는 본 발명에 따른 디스크 상의 데이터 기록 방법 및 데이터 검색 방법의 작용을 RVR/RAT 파일의 생성 방법 및 이를 이용한 데이터 검색 방법에 따라 상세하게 설명하기로 한다.
도 8은 본 발명의 구체적인 실시예에 의한 RVR 파일 및 RAT 파일의 생성 방법을 도시한 흐름도이고, 도 9는 본 발명의 구체적인 실시예에 의한 데이터 검색 방법을 도시한 흐름도이다.
이하에서는 저장데이터가 일반 문서 데이터인 경우를 예로 들어 설명한다.
먼저, RAT 파일 및 RVR 파일의 생성 방법을 살펴보면, 도 8에 도시된 바와 같이, 데이터를 저장하고자 하는 경우, 사용자로부터 구분 단위를 입력받는다(S110).
이후, DATA 파일로부터 전술한 바와 같이, 상기 구분단위에 해당하는 구분 인자를 포함시켜 RVR 파일을 생성한다(S120). 물론, 상기 구분인자는 실질적으로 검색에 있어 어떤 기능을 포함하는 것이 아니고 RAT 파일의 생성을 용이하게 하는 것이므로 RVR 파일에 포함되지 않을 수도 있다.
그리고 상기 RVR 파일로부터 RAT 파일을 생성한다(S130). 상기 RAT 파일은 RVR 파일을 상기 구분인자로 구분하고 일련번호를 넘버링하여 각 일련번호에 해당하는 데이터의 기록위치를 기록함에 의해 생성된다.
물론, 상기 구분인자는 실질적으로 검색에 있어 어떤 기능을 포함하는 것이 아니고 RAT 파일의 생성을 용이하게 하는 것이므로 RVR 파일에 포함되지 않을 수도 있다. 이 경우 상기 데이터를 상기 구분단위로 나누어 가면서 일련 넘버를 넘버링하고 이와 동시에 해당 데이터의 기록위치를 저장함에 따라 RAT 파일을 생성한다.
그리고, 상기 생성된 RVR 파일 및 RAT 파일을 저장한다(S140).
이하에서는 상기 RAT 파일을 이용하여 데이터를 검색하는 방법에 대하여 살펴보기로 한다.
본 발명에 의한 RAT 파일을 이용하여 데이터를 검색하기 위해서는, 도 9에 도시된 바와 같이, 먼저 사용자로부터 검색정보를 입력받는다(S210).
상기 검색정보란, 일반데이터인 경우 구분단위의 순번을 의미하고, 매트릭스 형태의 데이터인 경우, 매트릭스의 행 번호를 말한다.
즉, 구분 단위가 [paragraph]인 경우, N 번째 문단을 검색하고자 하는 경우 상기 검색정보는 N 이고, 상기 구분 단위가 [line]인 경우, N' 번째 line을 검색하고자 하는 경우 상기 검색정보는 N' 이며, 구분 단위가 [word]인 경우, N" 번째 단어를 검색하고자 하는 경우 상기 검색정보는 N"가 된다.
*이후, 저장된 RAT 파일을 검색하여 상기 검색정보에 대응하는 기록위치를 독출한다(S220).
삭제
다음으로 상기 기록위치로부터 클러스터 넘버를 산출하여 FAT으로부터 데이터의 물리적 저장위치(cluster location)를 산출한다(S230).
이때, 상기 클러스터 넘버를 산출하기 위하여 상기 수학식 1 내지 3을 활용함은 전술한 바와 같다.
이후, 하드 디스크의 상기 물리적 데이터 저장위치를 독출하고, 그 결과를 출력한다(S250).
다음으로, 일반적 하드디스크에서 사용되는 순차적인 데이터 검색과 본 발명에 의한 데이터 검색의 속도 차이를 비교한다.
도 10a 및 도 10b에는 본 발명의 구체적인 실시예에 의한 데이터 검색속도와 일반적인 하드 디스크의 순차적인 데이터 검색속도를 비교한 예시도가 도시되어 있다.
이때, 검색 데이터는 [X:20,000]*[Y:1,000,000]의 차원을 가진 192 Giga Bytes의 단일 대규모 데이터를 사용하였다.
여기서 X은 소수점을 포함하는 변수 20,000개가 있음을 의미한다. 그리고 Y는 [X:20000]이 백만 개가 있음을 의미한다. 본 데이터에서 Y값의 10, 100, 1,000, 10,000, 100,000, 그리고 1,000,000 번째의 기록 값들의 순차적검색(sequential access)시간과 RVR-RAT을 사용하여 무작위검색(random access) 시간을 비교하였다.
본 테스트는 fedora 8.0 Linux환경에서 64bit Quadra Core Zeon CPU를 가지 고 수행 하였고, 테스트는 도 7에서 설명한 [IRVR]로 계산을 하였다.
데이터의 기록위치가 앞쪽에 위치한 데이터는 액세스 시간이 비교적 짧았으나, 백만 번째 이상의 데이터에 대하여는 그 액세스 속도가 기하 급수적으로 늘어나는 것을 알 수 있다(도 10a 참조).
이에 반에 본 발명에 의한 데이터 액세스 속도는 그 기록 위치에 상관없이 거의 일정한 시간을 유지함을 알 수 있고, 그 시간은 0.1sec 내외로 매우 양호 함을 알 수 있다.
이는, 본 발명에 의한 방법이 비록 RVR 파일 및 RAT 파일을 생성하는데, 시간이 소요되지만, 일단 RVR 파일 및 RAT 파일이 생성된 이후에는 데이터의 검색이 매우 손쉬움을 알 수 있다.
본 발명의 권리는 위에서 설명된 실시예에 한정되지 않고 청구범위에 기재된 바에 의해 정의되며, 본 발명의 분야에서 통상의 지식을 가진 자가 청구범위에 기재된 권리범위 내에서 다양한 변형과 개작을 할 수 있다는 것은 자명하다.
본 발명은 하드 디스크 상에 검색을 용이하도록 하는 파일을 생성하여 저장하는 방법 및 이를 이용한 데이터 검색 방법에 관한 것으로, 더욱 상세하게는 Giga Byte, Tera Byte, 혹은 Penta Byte단위의 거대 용량의 단일 비정형 데이터들에 대한 무작위검색(random access)할 수 있도록 하는 데이터 기록 방법 및 검색방법에 관한 것이다.
최근 1,000명의 인간 게놈 서열을 해독하는 작업이 미국 NIH (http://www.1000genomes.org/)를 중심으로 전개되고 있다. 전체 데이량만 3 Tera Bytes이고 이미 표준 DBMS로 처리 할 수 있는 선을 넘었다.
또한 한국의 경우에도 2007년 질병관리본부 전장유전체분석사업(KARE-I 프로젝트)을 통하여 단일 유전체 데이터의 크기는 약 500 Giga Bytes이 생성되었고, 2008년 KARE-II에서 유사한 데이터가 2 Tera Bytes가 더 생산된다. 또한 이와 관련된 임상역학기능 정보와 연계한 Database생성은 표준 DBMS 능력을 초과한지 이미 오래되었다.
따라서, 이러한 대용량화되는 최신 연구 데이터의 저장 및 검색에 본 발명이 적용될 경우 경제성 및 연구 수행 속도에 있어 큰 효과를 나타낼 수 있다.
한 예로 이론적으로 100 K bytes x 100 K bytes 데이터 레코드들의 유사성(혹은 상동성) 메트릭스를 생성하고 이 메트릭스를 사용하여 데이터를 완전 군집화 (exhaustive clustering)을 수행하려면 정상적으로 위의 100 K bytes x 100 K bytes 메트릭스를 DRAM에 올려 놓아야 하는데 위의 경우 C/C++에서 두배수 정밀한 정수형 변수 (double)를 사용하면 8 Giga Bytes (TB)의 DRAM이 필요하다.
따라서 이러한 대규모 군집화연구에 하드디스크를 사용하는 RVR-RAT방식은 절대적으로 필요하다.
도 1은 일반적인 하드 디스크에 데이터가 저장된 모습을 도시한 개략도.
도 2는 본 발명의 구체적인 실시예에 의한 데이터 파일, RAT 파일 및 RVR 파일의 관계를 도시한 예시도.
도 3은 본 발명의 구체적인 실시예에 의한 RVR 파일 및 RAT 파일과 디스크의 데이터 저장된 데이터와의 관계를 도시한 예시도.
도 4는 본 발명의 구체적인 실시예에 의한 데이터 파일 및 RAT 파일의 관계를 도시한 예시도.
도 5a 및 도 5b는 본 발명에 의한 저장 데이터가 일반 문서인 경우, 데이터 파일로부터 RAT 파일 및 RVR 파일을 생성하는 일 예를 도시한 예시도.
도 6a 및 도 6b는 본 발명에 의한 저장 데이터가 매트릭스인 경우, 데이터 파일로부터 RAT 파일 및 RVR 파일을 생성하는 일 예를 도시한 예시도.
도 7은 본 발명의 구체적인 실시예에 의한 RVR 파일 및 RAT 파일의 기록 및 검색 기능을 수행하는 프로그램 과 소스코드의 일 예를 도시한 예시도.
도 8은 본 발명의 구체적인 실시예에 의한 RVR 파일 및 RAT 파일의 생성 방법을 도시한 흐름도.
도 9는 본 발명의 구체적인 실시예에 의한 데이터 검색 방법을 도시한 흐름도.
도 10a 및 도 10b는 본 발명의 구체적인 실시예에 의한 데이터 검색속도와 일반적인 하드 디스크의 순차적인 데이터 검색속도를 비교한 예시도.

Claims (19)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 비정형 단일 데이터 파일을 검색하기 위한 방법에 있어서,
    (A) 데이터의 구분 단위를 입력받는 단계와;
    (B) 상기 입력된 구분단위로 상기 비정형 단일 데이터 파일을 구분하여 RVR 파일을 생성하는 단계와;
    (C) 상기 RVR 파일의 구분 단위별 기록위치를 검출하여 RAT 파일을 생성하는 단계; 그리고
    (D) 상기 RVR 파일 및 RAT 파일을 저장하는 단계를 포함하여 수행됨을 특징으로 하는 단일 데이터 검색을 위한 파일 생성 방법.
  8. 제 7 항에 있어서,
    상기 데이터는 비정형 데이터이고,
    상기 구분 단위는 [page], [paragraph], [line] 또는 [word] 중 어느 하나임을 특징으로 하는 단일 데이터 검색을 위한 파일 생성 방법.
  9. 정형 단일 데이터 파일을 검색하기 위한 방법에 있어서,
    (a) 정형 단일 데이터의 행과 열을 구분하여 RVR 파일을 생성하는 단계와;
    (b) 상기 RVR 파일의 행 또는 열 별 기록위치를 검출하여 RAT 파일을 생성하는 단계; 그리고
    (c) 상기 RVR 파일 및 RAT 파일을 저장하는 단계를 포함하여 수행됨을 특징으로 하는 단일 데이터 검색을 위한 파일 생성 방법.
  10. 제 7 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 기록 위치는,
    상기 단일 데이터 내에서 상기 해당 데이터가 기록된 위치까지의 누적된 데이터 크기임을 특징으로 하는 단일 데이터 검색을 위한 파일 생성 방법.
  11. 제 7 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 기록위치는,
    상기 해당 부분의 데이터가 기록된 하드 디스크 클러스터 넘버임을 특징으로 하는 단일 데이터 검색을 위한 파일 생성 방법.
  12. 삭제
  13. 단일 데이터 파일을 검색하는 방법에 있어서,
    (Ⅰ) 검색정보를 입력받는 단계와;
    (Ⅱ) RAT 파일로부터 상기 검색정보에 해당하는 상기 단일 데이터 내의 기록위치를 검출하는 단계와;
    (Ⅲ) 상기 기록위치로부터 상기 검색정보에 해당하는 데이터의 저장매체 내의 물리적 저장위치를 검출하는 단계; 그리고
    (Ⅳ) 상기 데이터의 물리적 위치의 데이터를 검색하여 결과를 출력하는 단계를 포함하여 수행됨을 특징으로 하는 단일 데이터 파일의 검색방법.
  14. 제 13 항에 있어서,
    상기 단일 데이터가 비정형 데이터인 경우,
    상기 검색정보는 구분단위의 순번을 의미함을 특징으로 하는 단일 데이터 파 일의 검색방법.
  15. 제 13 항에 있어서,
    상기 단일 데이터가 정형 데이터인 경우,
    상기 검색정보는 정형 데이터 중 해당 데이터의 행 또는 열 번호임을 특징으로 하는 단일 데이터 파일의 검색방법.
  16. 제 13 항 내지 제 15 항 중 어느 한 항에 있어서,
    상기 기록 위치는,
    상기 단일 데이터 내에서 상기 해당 데이터가 기록된 위치까지의 누적된 데이터 크기임을 특징으로 하는 단일 데이터 파일의 검색방법.
  17. 제 16 항에 있어서,
    상기 저장위치의 검출은,
    상기 각각의 구분 단위의 데이터 크기를 이용하여 상기 기록위치로부터 클러스터 위치를 산출하고, 상기 클러스터 위치의 물리적 저장위치를 FAT으로부터 독출하여 검출함을 특징으로 하는 단일 데이터 파일의 검색방법.
  18. 제 13 항 내지 제 15 항 중 어느 한 항에 있어서,
    상기 기록위치는,
    상기 해당 부분의 데이터가 기록된 하드 디스크 클러스터 넘버임을 특징으로 하는 단일 데이터 파일의 검색방법.
  19. 삭제
KR1020080067778A 2008-07-11 2008-07-11 단일 데이터 검색을 위한 파일 생성 방법 및 단일 데이터파일의 검색방법 그리고 단일 파일 검색을 위한 rat파일이 저장된 기록매체 KR100880531B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020080067778A KR100880531B1 (ko) 2008-07-11 2008-07-11 단일 데이터 검색을 위한 파일 생성 방법 및 단일 데이터파일의 검색방법 그리고 단일 파일 검색을 위한 rat파일이 저장된 기록매체
US13/003,649 US8423513B2 (en) 2008-07-11 2009-07-10 File generation and search methods for data search, and database management system for data file search
PCT/KR2009/003790 WO2010005261A2 (ko) 2008-07-11 2009-07-10 데이터 검색을 위한 파일 생성 방법 및 데이터 파일의 검색방법 그리고 데이터 파일 검색을 위한 데이터베이스 관리 시스템
US13/845,999 US20130275462A1 (en) 2008-07-11 2013-03-18 File creating method for searching of data, searching method of data file and managing system for searching of data file

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080067778A KR100880531B1 (ko) 2008-07-11 2008-07-11 단일 데이터 검색을 위한 파일 생성 방법 및 단일 데이터파일의 검색방법 그리고 단일 파일 검색을 위한 rat파일이 저장된 기록매체

Publications (1)

Publication Number Publication Date
KR100880531B1 true KR100880531B1 (ko) 2009-01-28

Family

ID=40483165

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080067778A KR100880531B1 (ko) 2008-07-11 2008-07-11 단일 데이터 검색을 위한 파일 생성 방법 및 단일 데이터파일의 검색방법 그리고 단일 파일 검색을 위한 rat파일이 저장된 기록매체

Country Status (3)

Country Link
US (2) US8423513B2 (ko)
KR (1) KR100880531B1 (ko)
WO (1) WO2010005261A2 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180069651A (ko) 2016-12-15 2018-06-25 (주)신테카바이오 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
KR20190000342A (ko) 2018-12-20 2019-01-02 (주)신테카바이오 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
KR20190000340A (ko) 2018-12-20 2019-01-02 (주)신테카바이오 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
KR20190000341A (ko) 2018-12-20 2019-01-02 (주)신테카바이오 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
US10540324B2 (en) 2016-07-29 2020-01-21 Syntekabio Co., Ltd. Human haplotyping system and method

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9201916B2 (en) * 2012-06-13 2015-12-01 Infosys Limited Method, system, and computer-readable medium for providing a scalable bio-informatics sequence search on cloud
US9087459B2 (en) 2012-11-30 2015-07-21 The Nielsen Company (Us), Llc Methods, apparatus, and articles of manufacture to encode auxilary data into text data and methods, apparatus, and articles of manufacture to obtain encoded data from text data
US9042554B2 (en) * 2012-11-30 2015-05-26 The Nielsen Company (Us), Llc Methods, apparatus, and articles of manufacture to encode auxilary data into text data and methods, apparatus, and articles of manufacture to obtain encoded data from text data
US9990478B2 (en) 2012-11-30 2018-06-05 The Nielsen Company (Us), Llc Methods, apparatus, and articles of manufacture to encode auxiliary data into relational database keys and methods, apparatus, and articles of manufacture to obtain encoded data from relational database keys
KR102020446B1 (ko) 2013-01-10 2019-09-10 삼성전자주식회사 에피텍시얼막 형성 방법 및 이를 수행하기 위한 장치 및 시스템
CN104053015A (zh) * 2013-03-11 2014-09-17 中兴通讯股份有限公司 一种传输媒体数据的方法及虚拟桌面服务器
KR102094934B1 (ko) * 2014-11-19 2020-03-31 한국전자통신연구원 자연어 질의 응답 시스템 및 방법
CN112459329B (zh) * 2020-11-13 2022-05-13 重庆中科建设(集团)有限公司 一种叠合楼板桁架及底筋排布方法
US11797600B2 (en) * 2020-11-18 2023-10-24 Ownbackup Ltd. Time-series analytics for database management systems

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040079470A (ko) * 2003-03-07 2004-09-16 삼성전자주식회사 랜덤 액세스가 가능한 영상 및 음향 기록/재생 장치 및 그제어방법

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5473584A (en) * 1992-01-29 1995-12-05 Matsushita Electric Industrial Co., Ltd. Recording and reproducing apparatus
JP3647885B2 (ja) * 1993-05-07 2005-05-18 日本電信電話株式会社 画像処理装置
US7124302B2 (en) * 1995-02-13 2006-10-17 Intertrust Technologies Corp. Systems and methods for secure transaction management and electronic rights protection
US6226710B1 (en) * 1997-11-14 2001-05-01 Utmc Microelectronic Systems Inc. Content addressable memory (CAM) engine
US7289723B2 (en) * 1997-12-12 2007-10-30 Kabushiki Kaisha Toshiba Digital recording system using variable recording rate
JP3597690B2 (ja) * 1998-01-21 2004-12-08 株式会社東芝 デジタル情報記録再生システム
US7197534B2 (en) * 1998-09-01 2007-03-27 Big Fix, Inc. Method and apparatus for inspecting the properties of a computer
US6233666B1 (en) * 1998-09-17 2001-05-15 International Business Machines Corporation Deferred disk drive space allocation for virtual memory pages with management of disk address recording in multipage tables without external process interrupts for table for input/output to memory
US6381656B1 (en) * 1999-03-10 2002-04-30 Applied Microsystems Corporation Method and apparatus for monitoring input/output (“I/O”) performance in I/O processors
KR100361028B1 (ko) 1999-07-21 2002-11-18 주식회사 하빈 디지털 오디오 데이터의 파일명 지정 방법
KR20010094691A (ko) 2000-04-01 2001-11-01 최진근 인터넷 웹사이트에서 매트릭스 검색창을 이용한 광고방법및 시스템 및 컴퓨터에서 실행시키기 위한 프로그램을기록한 컴퓨터로 읽을수 있는 기록매체
EP1435619A3 (en) 2003-01-02 2007-07-18 Samsung Electronics Co., Ltd. Multimedia apparatus with "Slide-Show" and relevant audio output
US7814554B1 (en) * 2003-11-06 2010-10-12 Gary Dean Ragner Dynamic associative storage security for long-term memory storage devices
US20050132161A1 (en) * 2003-12-15 2005-06-16 Nokia Corporation Creation of virtual memory space in a memory
FR2868572B1 (fr) 2004-04-05 2006-06-09 Francois Lebrat Procede de recherche de contenu, notamment d'extraits communs entre deux fichiers informatiques
US8589574B1 (en) * 2005-12-29 2013-11-19 Amazon Technologies, Inc. Dynamic application instance discovery and state management within a distributed system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040079470A (ko) * 2003-03-07 2004-09-16 삼성전자주식회사 랜덤 액세스가 가능한 영상 및 음향 기록/재생 장치 및 그제어방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10540324B2 (en) 2016-07-29 2020-01-21 Syntekabio Co., Ltd. Human haplotyping system and method
KR20180069651A (ko) 2016-12-15 2018-06-25 (주)신테카바이오 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
KR20190000342A (ko) 2018-12-20 2019-01-02 (주)신테카바이오 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
KR20190000340A (ko) 2018-12-20 2019-01-02 (주)신테카바이오 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
KR20190000341A (ko) 2018-12-20 2019-01-02 (주)신테카바이오 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법

Also Published As

Publication number Publication date
US8423513B2 (en) 2013-04-16
WO2010005261A3 (ko) 2010-04-29
US20110246505A1 (en) 2011-10-06
WO2010005261A2 (ko) 2010-01-14
US20130275462A1 (en) 2013-10-17

Similar Documents

Publication Publication Date Title
KR100880531B1 (ko) 단일 데이터 검색을 위한 파일 생성 방법 및 단일 데이터파일의 검색방법 그리고 단일 파일 검색을 위한 rat파일이 저장된 기록매체
JP2849788B2 (ja) データベース・キーワード・インデクシング方法
US7689574B2 (en) Index and method for extending and querying index
US8161240B2 (en) Cache management
CN104246764B (zh) 利用非均匀散列函数在非均匀访问存储器中放置记录的方法和装置
US6330567B1 (en) Searching system for searching files stored in a hard disk of a personal computer
US20100235359A1 (en) File retrieval method and device and time stream file processor
CN111324750B (zh) 一种大规模文本相似度计算及文本查重方法
WO1998055929A1 (en) Creating a perfect hash using offset table
JP2008516347A (ja) インタロックツリーデータストアの保存および復元
JP2005267600A5 (ko)
JP2001028009A (ja) データ値の集合の形成、記憶及び使用のための方法とシステム
US5895463A (en) Compression of grouped data
EP1315103B1 (en) File search method and apparatus, and index file creation method and device
JP2017532690A (ja) 重複ウェブページを除去する方法および装置
Baeza-Yates et al. Hierarchies of indices for text searching
CN102609531B (zh) 一种根据关键字反查文件的方法
US20200278980A1 (en) Database processing apparatus, group map file generating method, and recording medium
Park et al. FAST: Flash-aware external sorting for mobile database systems
US20070050396A1 (en) Fast algorithm for building multimedia library database
US7870138B2 (en) File storage and retrieval method
JP2010191962A (ja) オントロジーの類似性行列の効率的な計算
US20210224240A1 (en) Augmentation to the succinct trie for multi-segment keys
CN111566627B (zh) 信息蓄积装置、数据处理系统及记录介质
CN117290390B (zh) 一种基于特殊索引内存映射在大数据检索上的方法

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130118

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20131113

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20141124

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20151216

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180102

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20181119

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20191021

Year of fee payment: 12