KR20090075885A

KR20090075885A - 개별적으로 액세스 가능한 데이터 유닛의 기억 관리 방법 및 시스템

Info

Publication number: KR20090075885A
Application number: KR1020097011230A
Authority: KR
Inventors: 에프라임 메리웨더 비슈니아크; 마샬 에이. 이스만; 폴 배이; 에이치. 마크 브롬리; 존 엘. 리차드슨
Original assignee: 아브 이니티오 소프트웨어 엘엘시
Priority date: 2006-11-01
Filing date: 2007-10-29
Publication date: 2009-07-09
Also published as: WO2008057815A2; EP2080121B1; CA2941074A1; CA2668136A1; US8639674B2; AU2007317574A1; US8229902B2; EP2080121A4; CA2910840A1; CA2668136C; US20120284240A1; CA2910841A1; KR101400816B1; CN101553813B; JP5377318B2; CN102945242B; CN102945242A; US20080104149A1; CA2910840C; AU2007317574B2

Abstract

본 발명의 데이터를 관리하는 방법은, 키 값에 의해 각각 식별될 수 있으며, 개별적으로 액세스 가능한 데이터 유닛을 수신하는 단계; 적어도 일부가 복수의 데이터 유닛을 조합해서 생성되는 복수의 데이터 블록을 기억하는 단계; 및 데이터 블록에 대한 엔트리를 포함하는 인덱스를 제공하는 단계를 포함한다. 하나 이상의 엔트리는, 제공된 키 값에 기초해서, 제공된 키 값을 포함하는 키 값의 범위에 대응하는 데이터 유닛을 포함하는 블록의 위치를 인에이블시킨다.

Description

개별적으로 액세스 가능한 데이터 유닛의 기억 관리 방법 및 시스템{MANAGING STORAGE OF INDIVIDUALLY ACCESSIBLE DATA UNITS}

본 발명은 개별적으로 액세스 가능한 데이터 유닛의 기억 관리에 관한 것이다.

데이터베이스 시스템은 개별적으로 액세스 가능한 데이터 유닛, 즉 "레코드"(record)를 임의의 다양한 형태로 기억할 수 있다. 레코드는, 신용 카드 트랜잭션(credit card transaction)과 같은 논리적 엔티티(logical entity)에 해당할 수 있으며, 레코드를 고유하게 식별하는 데에 사용되는 관련 기본 키(primary key)를 구비하는 것이 일반적이다. 레코드는, 레코드 포맷의 각각의 필드와 연관된 다수의 값을 포함할 수 있다. 레코드는 하나 이상의 필드(예컨대, XML 파일 등의 구조화된 데이터 파일 또는 플랫 파일) 내에 기억될 수 있다. 압축 방식의 데이터베이스 시스템에서는, 각각의 레코드 또는 레코드 내의 값이 기억될 때에 압축되고, 액세스될 때에 압축 해제됨으로써, 데이터베이스 시스템의 기억 용량을 감소시킬 수 있다.

본 발명의 일실시예에서, 데이터를 관리하기 위한 방법은, 키 값에 의해 각각 식별될 수 있으며, 개별적으로 액세스 가능한 데이터 유닛을 수신하는 단계; 적어도 일부가 복수의 데이터 유닛을 조합해서 생성되는 복수의 데이터 블록을 기억하는 단계; 및 데이터 블록에 대한 엔트리(entry)를 포함하는 인덱스(index)를 제공하는 단계를 포함하며, 하나 이상의 엔트리는, 제공된 키 값에 기초해서, 제공된 키 값을 포함하는 키 값의 범위에 대응하는 데이터 유닛을 포함하는 블록의 위치를 인에이블시킨다.

본 발명의 다른 실시예에서, 데이터를 관리하기 위한 시스템은, 키 값에 의해 각각 식별될 수 있으며, 개별적으로 액세스 가능한 데이터 유닛을 수신하기 위한 수단; 적어도 일부가 복수의 데이터 유닛을 조합해서 생성되는 복수의 데이터 블록을 기억하기 위한 수단; 및 데이터 블록에 대한 엔트리를 포함하는 인덱스를 제공하기 위한 수단을 포함하며, 하나 이상의 엔트리는, 제공된 키 값에 기초해서, 제공된 키 값을 포함하는 키 값의 범위에 대응하는 데이터 유닛을 포함하는 블록의 위치를 인에이블시킨다.

본 발명의 또 다른 실시예에서, 컴퓨터로 판독가능한 매체에 기억되어, 데이터를 관리하기 위한 컴퓨터 프로그램은, 컴퓨터로 하여금, 키 값에 의해 각각 식별될 수 있으며, 개별적으로 액세스 가능한 데이터 유닛을 수신하고; 적어도 일부가 복수의 데이터 유닛을 조합해서 생성되는 복수의 데이터 블록을 기억하며; 데이터 블록에 대한 엔트리를 포함하는 인덱스를 제공하도록 하는 명령어를 포함하며, 하나 이상의 엔트리는, 제공된 키 값에 기초해서, 제공된 키 값을 포함하는 키 값의 범위에 대응하는 데이터 유닛을 포함하는 블록의 위치를 인에이블시킨다.

본 발명의 실시예는 다음과 같은 하나 이상의 특징을 포함할 수 있다.

데이터 블록의 적어도 일부는, 키 값의 정해진 순서에 기초해서, 데이터 유닛을 조합함으로써 생성될 수 있다.

이 정해진 순서는 알파벳 순으로 할 수 있다.

이 정해진 순서는 숫자 순으로 할 수 있다.

데이터 블록은 각각의 데이터 유닛 세트로부터 각각 생성되며, 데이터 유닛 세트는 미리 정해진 순서에 따라 중첩되지 않는 범위의 키 값에 대응할 수 있다.

인덱스의 하나 이상의 엔트리는, 데이터 블록을 구성하는 데이터 유닛에 대응하는 키 값의 범위를 식별할 수 있다.

키 값의 범위는, 키 값의 범위 중 하나 이상의 극한값을 포함하는 정보에 의해 식별될 수 있다.

키 값의 범위는, 인덱스 내의 제1 엔트로부터의 제1 극한값과 인덱스 내의 제2 엔트리로부터의 제2 극한값에 의해 식별될 수 있다.

키 값의 범위는, 데이터 블록을 구성하는 데이터 유닛과 관련된 키 값의 하나 이상의 극한값을 포함하는 정보에 의해 식별될 수 있다.

인덱스 내의 엔트리의 적어도 일부의 각각은 대응하는 데이터 블록의 기억 위치를 식별할 수 있다.

복수의 데이터 유닛을 조합함으로써 블록을 생성하는 단계는 일련의 데이터 유닛을 압축하는 단계를 포함할 수 있다.

일련의 데이터 유닛을 압축하는 것에 의해 생성된 블록을 압축 해제하는 단계는, 블록 전체를 처리하는 단계를 포함할 수 있다.

데이터 유닛은, 대응하는 필드와 관련된 하나 이상의 값을 각각 갖는 레코드일 수 있다.

수신한 데이터 유닛을 식별하는 키 값은, 수신을 행하기 전에, 소정의 데이터 유닛과 관련된 하나 이상의 필드에 대응시킬 수 있다.

수신한 데이터 유닛을 식별하는 키 값은, 수신을 행한 후에, 데이터 유닛에 할당될 수 있다.

키 값은 단조적으로(monotonically) 할당될 수 있다.

키 값은 순차적으로 할당될 수 있다.

기억된 데이터 블록은 제1 데이터 블록 세트로서 기억될 수 있다.

제1 데이터 블록 세트가 파일 내에 기억될 수 있다.

하나 이상의 제2 데이터 블록 세트가 기억되며, 제2 데이터 블록 세트의 적어도 일부가 제1 데이터 블록 세트를 기억시킨 후에 수신된 복수의 데이터 유닛으로부터 생성될 수 있다.

제2 데이터 블록 세트 내의 적어도 일부의 블록은 일련의 데이터 유닛을 압축함으로써 생성될 수 있다.

제2 데이트 블록 세트 내의 각각의 블록에 대한 엔트리를 포함하는 인덱스가 제공될 수 있으며, 하나 이상의 엔트리는, 제공된 키 값에 기초해서, 제공된 키 값을 포함하는 키 값의 범위에 대응하는 데이터 유닛을 포함하는 블록의 위치를 인에이블시킬 수 있다.

데이터 블록을 구성하는 데이터 유닛을 복원하기 위해 제1 데이터 블록 세트와 상기 제2 데이터 블록 세트가 처리될 수 있으며, 제1 데이터 블록 세트로부터 복원된 데이터 유닛과, 제2 데이터 블록 세트로부터 복원된 데이터 유닛을, 데이터 유닛에 대응하는 키 값에 대한 순서에 따라 분류하고, 분류된 데이터 유닛 세트를 생성하며; 제3 데이터 블록 세트를 생성한다. 제3 데이터 블록 세트의 적어도 일부는 복수의 분류된 데이터 유닛을 조합함으로써 생성될 수 있다.

제1 데이터 블록 세트로부터 복원된 데이터 유닛과 제2 데이터 블록 세트로부터 복원된 데이터 유닛을 분류하는 단계는, 제1 데이터 블록 세트로부터 복원된 데이터 유닛과 제2 데이터 블록 세트로부터 복원된 데이터 유닛을, 데이터 유닛에 대응하는 키 값에 대한 순서에 따라 병합함으로써 일련의 분류된 데이터 유닛 세트를 생성하는 단계를 포함할 수 있다.

제3 데이터 블록 세트 내의 각 블록에 대한 엔트리를 포함하는 상기 제3 데이터 블록 세트의 인덱스가 제공될 수 있으며, 하나 이상의 엔트리는 제공된 키 값에 기초해서 제공된 키 값을 포함하는 키 값의 범위에 대응하는 데이터 유닛을 포함하는 블록의 위치를 인에이블시킬 수 있다.

기억된 블록과 관련되어 있으며, 소정의 속성 값을 포함하는 데이터 유닛이 블록을 구성하는 데이터 유닛에 포함될 확률을 판정하기 위한 스크리닝 데이터 구조를 제공할 수 있다.

속성 값은 데이터 유닛을 식별하는 키 값을 포함할 수 있다.

스크리닝 데이터 구조는, 소정의 속성 값에 대하여, 소정의 속성 값을 포함하는 데이터 유닛이 포함되어 있지 않은지, 또는 소정의 속성 값을 포함하는 데이터 유닛이 포함되어 있는지를 판정할 수 있다.

데이터 유닛이 포함되어 있지 않을 때에 소정의 속성 값을 포함하는 데이터 유닛이 포함되어 있는지를 스크리닝 데이터 구조에 의해 판정될 확률은 데이터 구조의 사이즈에 따라 달라질 수 있다.

스크리닝 데이터 구조의 사이즈가, 블록을 구성하는 데이터 유닛의 수에 기초해서 선택될 수 있다.

기억된 블록과 관련되어 있으며, 소정의 속성 값을 포함하는 데이터 유닛의 하나 이상의 키 값을 판정하기 위한 보조 인덱스가 제공될 수 있다.

데이터 유닛은 대응하는 필드와 관련된 하나 이상의 값을 각각 갖는 레코드이며, 레코드를 식별하는 키 값은 기본 키 값에 대응하며, 보조 인덱스와 관련된 속성 값은 보조 키 값에 대응할 수 있다.

보조 인덱스는, 키 값 외에, 데이터 유닛 내의 속성 값에 의해 분류된 열을 갖는 표를 포함할 수 있다.

본 발명은 다음과 같은 하나 이상의 장점을 포함할 수 있다.

다수의 레코드로 구성된 블록을 압축함으로써, 레코드를 개별적으로 압축하는 것에 비해 더 높은 정도의 압축을 달성할 수 있다. 블록을 색인화함으로써, 압축 레코드의 파일의 시작 부분부터 압축 해제를 행하지 않고도 소정의 레코드를 액세스할 수 있다. 블록의 사이즈는 높은 압축률을 제공할 수 있을 정도로 충분히 크고, 블록 내의 소정의 레코드를 액세스하기에 필요한 압축 해제의 양을 제한할 정밀도로 충분히 작게 선택될 수 있다. 각각의 블록은 압축 블록 내의 임의의 위치부터 압축 해제할 필요가 없는 압축 기술을 사용하여 압축될 수 있다. 따라서, 더 큰 정밀도의 압축을 제공하는 기술을 사용할 수 있다.

블록을 구성하는 레코드에 대응하는 키 값의 범위를 식별하는 인덱스를 저장함으로써, 각 레코드에 대해 엔트리를 구비할 필요가 없어져, 인덱스를 작게 유지할 수 있다(예컨대, 상대적으로 빠른 메모리에 적합할 정도로 작게). 인덱스 엔트리는 원하는 레코드를 검색할 수 있는 레코드 세트를 복원하기 위해 로딩될 수 있으며 압축 해제될 수 있는 하나 이상의 블록의 위치를 인에이블할 수 있다. 압축 블록과의 관련 서명은, 레코드를 검색하기 위해 압축 블록을 로딩하지 않고도, 원하는 블록이 존재하지 않는다는 것을 나타낼 수 있다.

그외 다른 특징과 장점에 대해서는 이하의 상세한 설명과 청구범위에 의해 명백하게 될 것이다.

도 1은 레코드를 기억 및 검색하기 위한 시스템의 블록도이다.

도 2a, 2b, 2c, 및 2d는 시스템에 의해 처리되어 기억된 데이터의 개략 도면이다.

도 3a 및 3b는 상이한 서명 사이즈에 대한 잘못된 긍정 확률을 나타내는 표이다.

도 4a 및 4b는 레코드를 검색하기 위한 과정을 나타내는 플로차트이다.

도 1을 참조하면, 레코드 기억 및 인출 시스템(100)은 하나 이상의 소스(소스 A~소스 C)로부터 데이터를 받아들인다. 이 데이터에는, 개별적으로 액세스 가능한 데이터 유닛으로서 표현될 수 있는 정보가 포함되어 있다. 예를 들어, 신용 카드 회사는 다양한 소매 회사로부터 개별의 트랜잭션을 나타내는 데이터를 수신할 수 있다. 각각의 트랜잭션은 고객 이름, 날짜, 구매량 등과 같은 속성을 나타내는 값과 연관되어 있다. 레코드 처리 모듈(102)은, 데이터가 미리 정해진 레코드 포맷에 따라 포맷되어 있는 것을 보장함으로써, 트랜잭션과 연관된 값이 레코드에 기억된다. 일부의 경우에서는, 레코드 포맷에 따라 소스로부터 제공된 데이터를 변환하는 과정이 포함될 수 있다. 다른 경우에서는, 하나 이상의 소스가, 레코드 포맷에 따라 미리 포맷된 데이터를 제공할 수 있다.

레코드 처리 모듈(102)은, 각 레코드를 식별하는 기본 키 값(예컨대, 단일의 레코드를 식별하는 고유의 키 또는 갱신된 버전의 다수의 레코드를 식별하는 키)에 의해 레코드를 분류하고, 해당 레코드를, 중첩되는 영역이 없는 기본 키 값에 대응하는 레코드 세트로 분할한다. 예를 들어, 레코드 세트의 각각은, 미리 정해진 수(예컨대, 100개)의 레코드로 구성될 수 있다. 압축 모듈(104)은 각각의 레코드 세트를 데이터 블록으로 압축시킨다. 압축된 데이터 블록은 레코드 기억장치(106)[예컨대, 하나 이상의 하드 디스크 드라이브와 같은 비휘발성 기억 매체] 내에 압축 레코드 파일로서 기억된다. 레코드 기억 및 인출 시스템(100)은 또한 각 블록에 대 한 엔트리를 포함하는 인덱스를 제공하는 색인화 및 검색 모듈(108)을 포함한다. 인덱스는, 이하 더 상세히 설명하는 바와 같이, 소정의 레코드를 포함할 수 있는 블록의 위치 지정(locate)을 행하기 위해 사용된다. 인덱스는 인덱스 기억장치(110)의 인덱스 파일에 기억될 수 있다. 예를 들어, 인덱스 파일은, 압축 레코드 파일과 동일한 기억 매체에 기억시켜도 되지만, 인덱스 파일은 상대적으로 더 빠른 메모리[예를 들어, 동적 랜덤 액세스 메모리(DRAM) 등의 휘발성 기억 매체]에 기억시키는 것이 바람직한데, 왜냐하면 인덱스 파일은 압축 레코드 파일에 비해 통상적으로 규모가 더 작기 때문이다.

레코드 기억 및 인출 시스템(100)의 다른 실시예에서, 레코드 세트에 대하여, 압축에 추가로 또는 압축 대신에 다른 기능을 사용해서, 블록을 생성하는 처리가 행해질 수 있다(즉, 블록은 연계된 레코드 세트로만 이루어진 것이 아닐 수 있다). 예를 들어, 어떤 시스템은 레코드 세트를 처리해서 암호화된 데이터의 블록을 생성할 수 있다.

인터페이스 모듈(112)은 기억된 레코드에 대한 액세스를 인간 및/또는 컴퓨터 에이전트(예컨대, 에이전트 A~에이전트 D)에 제공한다. 예를 들어, 인터페이스 모듈(112)은 신용 카드 고객에 대한 온라인 계정 시스템을 구현해서 이들의 트랜잭션을 모니터링할 수 있다. 다양한 기준에 부합하는 트랜잭션 정보에 대한 요청이, 레코드 기억 및 인출 시스템(100)에 의해 처리될 수 있으며, 레코드 기억장치(106) 내에 기억된 압축 블록으로부터 대응하는 레코드가 인출(retrieve)될 수 있다.

하나 이상의 소스로부터 입력되는 일련의 레코드는, 압축 레코드 파일을 생 성하기 위한 처리를 행하기 전에, 임시로 기억될 수 있다. 도 2a를 참조하면, 레코드 기억 및 인출 시스템(100)은, 압축 레코드 파일에 기억될 레코드 세트(200)를 검색해서, 기본 키 값에 따라 분류한다.

기본 키 값에 의해, 데이터베이스 내에서, 하나 이상의 레코드를 나타낼 수 있는 소정의 아이템을 고유하게 식별할 수 있다(예컨대, 소정의 기본 키의 값을 갖는 각각의 레코드는 여러 갱신된 버전의 아이템에 대응할 수 있다). 기본 키는, 레코드의 기존의 하나 이상의 필드에 대응하는 "자연 키"(natural key)가 될 수 있다. 각각의 아이템에 대해 고유한 것으로 보장되는 필드가 없다면, 기본 키는 각각의 아이템에 대해 보증되거나 고유한 것일 가능성이 큰 레코드의 다수의 필드를 구비하는 복합 키(compound dey)가 될 수 있다. 이와 달리, 기본 키는, 수신된 후에 각 레코드에 할당될 수 있는 "합성 키"(synthetic key)로 해도 된다. 예를 들어, 레코드 기억 및 인출 시스템(100)은, 고유의 기본 키 값을, 순차적으로 증가하는 정수 또는 단조적으로 증가하는 값(예컨대, 타임 스탬프)의 다른 시퀀스로서 할당할 수 있다. 이 경우, 동일한 아이템의 여러 버전을 표현하는 레코드가 여러 합성 키 값에 할당될 수 있다. 정수를 사용한다면, 가능한 기본 키 값의 범위(예컨대, 사용된 비트의 수에 의해 정해지는 것과 같이)는, 기본 키가 롤오버된 경우, 이전에 소정의 기본 키 값이 할당된 어떠한 레코드라도 압축 레코드 파일로부터 제거될 수 있을 정도로 충분히 크게 될 수 있다. 예를 들어, 이전의 트랜잭션이 제거되어 보존되거나 폐기될 수 있다.

도 2a에 나타낸 예에서, 레코드(200)는 알파벳 순으로 분류된 기본 키 값(A, AB, CZ, ...)으로 식별된다. 시스템(100)은 기본 키 값 A-DD를 가진 N개의 레코드로 구성된 제1 세트를 압축해서, 대응하는 압축 블록(블록 1)을 생성한다. 다음 레코드 세트는, 기본 키 값 DX-GF를 갖는 N개의 분류된 레코드를 포함한다. 압축 모듈(104)은 손실 없는 데이터 압축 알고리즘(예컨대, Lempel-Ziv 타입의 알고리즘)이면 어떤 알고리즘을 사용해도 된다. 각각의 연속하는 압축 블록을 조합하여, 압축 레코드 파일(202)을 형성할 수 있다.

압축 블록을 생성하기 위해 사용되는 레코드의 수 N은, 압축 효율과 압축 해제 속도를 절충해서 선택될 수 있다. 이러한 압축에 의해, 소정의 인자 R에 의해 평균적으로 데이터의 사이즈를 감소시킬 수 있다. 인자 R은 압축되는 데이터의 특성과 압축되는 데이터의 사이즈에 따라 달라진다(예컨대, R은 데이터가 많이 압축될수록 작아진다). 압축은 평균 사이즈 O의 연관 오버헤드(예컨대, 압축 관련 데이터)를 가질 수 있다. 사이즈 X를 가진 M개의 레코드로부터 생성된 압축 레코드 파일의 평균 사이즈는

로 표현될 수 있다. 이 값은 블록의 수가 많을수록 RMX+OM/N에 가까운 값이 될 수 있다. 따라서, 몇몇 경우에는, R을 감소시키고 파일의 사이즈에 대한 오버헤드의 기여를 감소시킴으로써, 큰 값을 갖는 N에 대해 압축을 행할 수 있다. N의 값이 작을수록, 블록 내에 포함될 수 있는 레코드에 액세스하기 위해, 소정의 압축 블록을 압축 해제하는 데에 필요한 시간을 줄일 수 있다.

다른 실시예에서, 상이한 압축 블록은 상이한 수의 레코드를 포함할 수 있 다. 각각의 블록은 미리 정해진 범위에 따른 수의 레코드를 포함할 수 있다. 예를 들어, 제1 블록은 기본 키 값 1-1000을 가진 레코드를 포함하고, 제2 블록은 기본 키 값 1001-2000을 가진 레코드를 포함한다. 본 실시예에서, 압축 블록 내의 레코드의 수는 다를 수 있는데, 이는 모두 기본 키 값을 가지고 있을 필요가 없기 때문이다(예를 들어, 기존의 수치적 필드가 자연 키로서 사용된 경우).

몇몇 실시예에서, 상이한 압축 블록은, 몇몇 경우에, 목적으로 하는 수의 레코드를 포함할 수 있으며, 예외적인 경우에는 더 많거나 더 적은 수의 레코드를 포함할 수 있다. 예를 들어, 레코드 세트가 분류된 순서에서 다음에 오는 레코드의 기본 키 값과 다른 기본 키 값을 가진 레코드로 종료하는 경우에, 이들 레코드는 압축 블록을 생성하는 데에 사용된다. 레코드 세트가 분류된 순서에서 다음에 오는 레코드의 기본 키 값과 동일한 기본 키 값을 가진 레코드로 종료하는 경우에는, 그 기본 키 값을 갖는 추가의 모든 레코드가 해당 레코드 세트에 추가된다. 이러한 방식에서, 이 동일한 기본 키 값은 하나의 압축 블록에서 다음 압축 블록까지 중첩되지 않는다.

색인화 및 검색 모듈(108)은, 각 압축 블록에 대해, 인덱스 파일(204) 내에 엔트리를 생성한다. 인덱스의 엔트리는, 예컨대 압축되지 않는 레코드 세트 내의 제1 레코드의 기본 키에 의해, 대응하는 각 압축 블록을 식별하는 키 필드(206)를 포함한다. 엔트리는 또한, 압축 레코드 필드(202) 내의 식별된 압축 블록의 기억 위치를 식별하는 로케이션 필드(208)를 포함한다. 예를 들어, 로케이션 필드는 레코드 기억장치(106) 내에 절대 어드레스의 형태, 또는 레코드 기억장치(106) 내의 압축 레코드 파일(202)의 개시부분의 어드레스로부터 오프셋된 형태의 포인터를 포함할 수 있다.

압축 레코드 파일(202)에서 소정의 레코드를 검색하기 위해, 모듈(108)은 키 필드(206)에 기초하여 인덱스 파일(204)의 검색(예컨대, 이진 검색)을 수행할 수 있다. 제공된 키 값(예컨대, 에이전트들 중 하나에 의해 제공된)에 대하여, 모듈(108)은 제공된 키 값을 포함하는 범위에 대응하는 레코드를 포함하는 블록을 위치 지정한다. 제공된 키 값을 갖는 레코드는, 위치 지정된 블록을 생성하기 위해 사용된 레코드 세트에 포함되어 있을 수도 있고 포함되어 있지 않을 수도 있지만, 해당 레코드가 레코드(200)에 존재하고 있으면, 그 레코드는 포함되어 있을 것이다. 왜냐하면, 레코드(200)가 기본 키 값에 의해 분류되었기 때문이다. 이어서, 모듈(108)은 위치 지정된 블록을 압축 해제하고, 제공된 키 값을 가진 레코드를 검색한다. 기본 키 값이 각각의 레코드에 대해 고유하지 않은 경우에, 모듈(108)은 압축된 블록 내의 제공된 키 값을 가진 다수의 레코드를 찾을 수 있다. 키 필드(206)가 레코드 세트 내의 제1 레코드의 기본 키를 포함하는 예에서, 모듈(108)은, 제공된 키 값보다 앞선 키 값과 후속하는 키 값을 갖는 2개의 연속하는 인덱스 엔트리를 검색하고, 앞선 키 값을 가진 엔트리에 대응하는 블록을 회신한다. 몇몇 경우에, 제공된 키 값은 인덱스 엔트리에서의 키 값과 동일할 수 있으며, 이 경우, 모듈(108)은 해당 엔트리에 대응하는 블록을 회신한다.

다른 실시예에서, 인덱스 파일(204) 내의 엔트리에 대해, 해당 블록을 구성하는 레코드에 대응하는 키 값의 범위를 식별하기 위한 여러 방법이 있다. 도 2a에 나타낸 실시예에서와 같이, 키 값의 범위는 블록을 생성하기 위해 사용된 레코드의 2개의 극한값 사이의 범위가 될 수 있다(예컨대, 알파벳 순서의 기본 키 값의 분류된 시퀀스에서의 첫 번째와 마지막 값, 또는 수치화한 기본 키 값의 분류된 시퀀스에서의 최소 및 최대 값). 인덱스 엔트리는 범위를 정하는 극한값 중 하나 또는 2개 모두를 포함할 수 있다. 몇몇 실시예에서, 인덱스 엔트리가 소정 블록에 대한 범위를 정하는 최소 키 값을 포함한다면, 압축 레코드 파일 내의 마지막 블록과 연관된 마지막 인덱스 엔트리는 그 블록에 대한 범위를 정하는 최대 키 값을 포함할 수 있다. 이 최대 키 값은, 소정의 키 값이 범위를 벗어날 때를 판정하기 위해 압축 레코드 파일을 검색할 때에 사용될 수 있다.

이와 달리, 키 값의 범위는 블록을 생성하기 위해 사용된 레코드의 키 값을 벗어나서 확장되는 범위가 될 수 있다. 예를 들어, 1과 1000 사이의 수치화된 기본 키 값을 가진 레코드로부터 생성된 블록의 경우에, 레코드 내에 표현된 가장 작은 키 값은 1보다 클 수 있으며, 레코드 내에 표현된 가장 큰 값은 1000보다 작을 수 있다. 인덱스 엔트리는 범위를 정하는 극한값 1과 1000 중의 하나 또는 둘을 포함할 수 있다.

레코드의 초기 그룹이 처리되어 압축 레코드 파일을 생성한 후에 추가의 레코드가 입력된 경우, 이러한 레코드는 버퍼 내에 기억시킬 수 있으며 압축되지 않은 상태로 검색된다. 이와 달리, 추가의 레코드 그룹은, 추가의 인덱스 파일에 의해 액세스 가능한 추가의 압축 레코드 파일로서 하나씩 처리 및 기억될 수 있다. 몇몇 경우에, 압축할 레코드의 수가 적어서 기억장치의 용량을 크게 감축하지 못하 는 경우에도, 레코드에 액세스하기 위한 균일한 과정을 유지하기 위해, 추가의 레코드를 압축하는 것이 여전히 바람직할 수 있다. 추가의 레코드는 규칙적인 시간 간격(예컨대, 30초마다 또는 5분마다)으로, 또는 소정 수의 추가의 레코드가 수신된 후에(예컨대, 1000개의 레코드를 수신한 후, 또는 10,000개의 레코드를 수신한 후), 반복적으로 처리될 수 있다. 입력되는 레코드가 시간 간격에 기초해서 처리되는 경우, 몇몇 간격에서는, 입력되는 레코드가 없을 수 있거나, 모두 단일의 압축 블록으로 압축되는 적은 수의 레코드가 있을 수 있다.

도 2b를 참조하면, 압축 레코드 파일(202)이 생성된 후에, 시스템(100)에 의해 추가의 레코드가 수신된 예에서, 추가의 압축 레코드 파일(210)은 초기의 압축 레코드 파일(202)에 부가되어 복합의 압축 레코드 파일(211)을 형성할 수 있다. 시스템(100)은 추가의 레코드를 기본 키 값에 의해 분류하고, N개의 레코드로 구성된 레코드 세트를 압축해서, 압축 레코드 파일(210)의 압축 블록을 생성할 수 있다. 부가된 파일(210)에서의 제1 압축 블록(블록 91)은 기본 키 값 BA-FF를 갖는다. 모듈(108)은 부가된 파일(210) 내에서 표현된 추가의 레코드를 검색하기 위해 사용될 수 있는 엔트리를 포함하는 추가의 인덱스 파일(212)을 생성한다. 새로운 인덱스 파일(212)은 이전 인덱스 파일(204)에 부가될 수 있다.

임의의 수의 압축 레코드 파일이 복합의 압축 레코드 파일을 형성하기 위해 부가될 수 있다. 색인화 및 검색 모듈(108)이 복합의 압축 레코드 파일 내에서 소정의 키 값을 갖는 레코드를 검색하는 경우, 모듈(108)은 대응하는 인덱스 파일을 사용해서 부가된 압축 레코드 파일 내의 레코드를 검색한다. 이와 달리, 소정의 레 코드를 요청하는 에이전트는 검색할 복합의 압축 레코드 파일을 가진 임의의 수(예컨대, 가장 최근에 생성한 10개 또는 지난 1시간 동안 생성된 것)의 압축 레코드 파일을 특정할 수 있다.

소정의 시간이 경과된 후(예컨대, 24시간마다), 또는 소정 수의 압축 레코드 파일이 부가된 후에, 시스템(100)은 파일을 통합해서, 복합의 압축 레코드 파일과 대응하는 새로운 인덱스 파일로부터 단일의 압축 레코드 파일을 생성할 수 있다. 통합을 행한 후에, 단일의 인덱스는, 소정의 레코드를 포함할 수 있는 압축 블록을 위치 지정하기 위해 검색될 수 있으며, 이에 의하여 보다 효율적인 레코드 액세스가 가능하게 된다. 통합이 행해지는 동안, 시스템(100)은 압축 레코드 파일을 압축 해제하여, 대응하는 세트의 분류된 레코드를 복원하고, 이 레코드를 기본 키 값에 의해 분류하며, 새로운 압축 레코드 파일 및 인덱스를 생성한다. 각각의 복원된 레코드 세트는 이미 분류되어 있기 때문에, 레코드는 기본 키 값에 따라 이전에 분류된 리스트를 병합함으로써 효과적으로 분류되어 단일의 분류된 레코드 세트를 생성할 수 있다.

도 2c를 참조하면, 복합의 압축 레코드 파일(211)은, 초기의 압축 레코드 파일(202)과 추가의 압축 레코드 파일(210)을 포함할 수 있으며, 입력되는 추가의 레코드의 수와 레코드가 처리되는 횟수에 따라 다수의 추가의 압축 레코드 파일(220, 221,...)을 포함할 수 있다. 각각의 압축 레코드 파일은, 해당 파일의 압축 블록 내의 소정의 레코드를 검색하기 위해 사용될 수 있는 관련 인덱스 파일을 구비할 수 있다. 본 예에서, 압축 레코드 파일(220) 중 하나는, 단일의 압축 블록(블록 95)만을 포함하도록 충분히 작기 때문에, 관련 인덱스 파일을 반드시 필요로 하는 것은 아니지만, 블록 내의 기본 키 값의 범위와 기억장치의 해당 위치를 나타내는 관련 데이터를 포함할 수 있다. 통합이 행해진 후에, 부가된 여러 압축 레코드 파일로부터 복원된 레코드가 처리되어 단일의 압축 레코드 파일(230)을 생성할 수 있다.

단조적으로 할당된(monotonically assigned) 기본 키의 경우에, 레코드는 압축 레코드 파일 내에서뿐만 아니라 하나의 파일에서 다음 파일까지 자동으로 분류되기 때문에, 단일의 인덱스 검색에서 레코드를 액세스하기 위해 파일을 통합할 필요가 없다. 도 2d를 참조하면, 시스템(100)은 도달 순서대로 할당된 연속하는 정수에 의해 식별된 일련의 레코드(250)를, 레코드에 대한 기본 키로서 수신한다. 따라서, 레코드(250)는 기본 키에 의해 자동으로 분류된다. 초기의 압축 레코드 파일(252)은, 본 예에서, 100개의 레코드를 각각 구비하는 압축 블록을 포함한다. 인덱스 파일(254)은 압축 블록에서 제1 레코드의 기본 키 값에 대한 키 필드(256)와, 대응하는 기억장치 위치를 식별하는 로케이션 필드(258)를 포함한다. 초기의 압축 레코드 파일(252)이 생성된 후에 입력되는 레코드가 분류 순서에서 더 최근의 기본 키 값을 자동으로 갖기 때문에, 부가된 압축 레코드 파일(260)과 이에 대응하는 인덱스 파일(262)은 단일의 인덱스 검색에 기초하여 효과적인 레코드 액세스를 가능하게 하기 위해 통합을 행하지 않아도 된다. 예를 들어, 인덱스 파일(262)은 인덱스 파일(254)에 간단히 부가될 수 있으며, 이 인덱스들은, 압축 레코드 파일(252) 또는 레코드 파일(260) 중 하나에 압축 블록을 위치 지정하기 위해 함께 검색(예컨 대, 단일의 이진 검색)될 수 있다.

복합의 압축 레코드 파일(261)은 압축 레코드 파일(252)의 끝에 삽입되어 있을 수 있는 불완전한 블록을 제거하기 위해 선택적으로 통합될 수 있다. 이러한 통합에 있어서, 제1 파일(252)에서 마지막으로 압축된 블록만이 압축 해제해야 할 필요가 있을 것이며, 압축 해제된 레코드 세트를 병합하는 대신에, 레코드 세트는 100개의 레코드로 구성된 레코드 세트로 분할되고 새롭게 압축된 레코드 파일을 형성하기 위해 다시 압축될, 새롭게 분류된 레코드 세트를 형성하기 위해 단순히 연계될 수 있다.

연속하는 정수 합성 기본 키 값을 이용하는 다른 장점은, 레코드가 기본 키 값에 기초하여 분할될 예정인 경우에, 이러한 분할은 키 값에 갭이 존재하지 않기 때문에 자동으로 균형이 맞춰질 수 있다는 점이다.

레코드를 갱신하고, 압축 레코드 파일에 존재할 수 있는 레코드의 임의의 이전 버전을 무효화하기 위해 다양한 기술이 사용될 수 있다. 몇몇 경우에, 레코드는 개별적으로 제거하거나 갱신될 필요가 없다(예컨대, 로그, 트랜잭션, 전화 통화). 이러한 경우에, 오래된 레코드는, 예컨대 압축 레코드 파일의 시작 부분으로부터 제거되어 폐기되거나 미리 정해진 수의 압축 블록의 그룹 형태로 보존된다. 일부의 경우에, 압축된 레코드 파일의 전부가 제거될 수 있다.

몇몇 경우에, 레코드의 하나 이상의 값이, 압축 블록에의 기억을 위해 새롭게 갱신된 레코드를 추가함으로써 갱신되고, 이전에 수신한 레코드의 버전(동일한 기본 키 값을 가짐)은 상이한 압축 블록에 기억된 상태로 있을 수 있다. 이어서, 여러 버전의 레코드가 존재할 수 있고, 몇몇 기술이 레코드의 유효한 버전인지를 판정하기 위해 사용될 수 있다. 예를 들어, 임의의 압축 레코드 파일에 보이는 최신 버전(가장 최근에 수신한 것)이 유효한 버전으로 암시적 또는 명시적으로 표시될 수 있으며, 그외의 다른 버전은 적당하지 않은 것이 된다. 이 경우에, 소정의 기본 키를 가진 레코드를 검색하는 것에는, 해당 기본 키에 의해 식별된 최신 레코드를 출현의 순서로 찾아내는 과정이 포함될 수 있다. 이와 달리, 레코드는 반드시 새로운 버전의 레코드를 추가하지 않고도, 임의의 이전 버전의 레코드가 타당하지 않다는 것을 나타내는 "레코드의 무효화"를 기재함으로써, 무효화될 수 있다.

시스템(100)은 레코드 기억장치(106)에 기억된 압축 레코드 파일에 대한 액세스를 여러 가지 프로세스에 의해 조정한다. 하나 이상의 압축 레코드 파일 내의 압축 블록에 대한 액세스를 조정하기 위해 다양한 동기화 기술이 사용될 수 있다. 시스템(100)은, 파일을 변경(예컨대, 데이터의 부가 또는 통합)하는 어떤 프로세스도 다른 프로세스에 영향을 주지 않도록 할 수 있다. 예를 들어, 통합을 행하는 동안, 새로운 레코드가 도착하면, 시스템(100)은 통합 과정이 완료될 때까지 대기하거나, 압축 블록을 생성하고, 생성한 압축 블록을 기존의 압축 레코드 파일에 부가하기 전에 임시로 기억할 수 있다. 압축 레코드 파일로부터 판독을 행하는 프로세스는 완료된 파일의 일부를 로드할 수 있으며, 변경의 대상이 될 수 있는 완료되지 않은 부분은 무시할 수 있다.

시스템(100)은, 기본 키 이외에, 레코드의 속성에 기초해서 레코드를 검색할 수 있는 부가적인 데이터를 기억한다. 압축 레코드 파일에 대한 보조 인덱스는, 보 조 키로서 지정된 속성의 값에 기초한 하나 이상의 기본 키 값을 제공하는 정보를 포함한다. 보조 키로서 각각 지정된 속성은 대응하는 보조 인덱스와 관련될 수 있다. 예를 들어, 각각의 보조 인덱스는 관련 보조 키에 의해 분류된 열을 갖는 표로서 구성될 수 있다. 각각의 열은 보조 키 값과 이러한 보조 키 값을 갖는 레코드의 하나 이상의 기본 키 값을 포함한다. 따라서, 에이전트가 보조 키 값을 갖는 임의의 레코드를 검색하기 시작하면, 시스템(100)은, 레코드를 포함하는 압축 블록에 대한 압축 레코드 파일의 인덱스를 검색에 사용하기 위해 기본 키를 조사한다. 보조 인덱스는 큰 규모를 가질 수 있으며(예컨대, 레코드의 수만큼), 몇몇 경우에는, 압축 레코드 파일을 저장하는 기억매체에 기억될 수 있다.

일부의 경우에, 보조 키로서 지정된 속성의 값은 각각의 레코드에 대해 고유할 수 있다. 이러한 경우, 보조 키와 기본 키 사이에 일대일 대응관계가 존재하고, 인터페이스 모듈(112)은, 보조 키 속성을, 마치 기본 키인 것처럼 에이전트에 제공할 수 있다.

각각의 보조 인덱스는, 새로운 압축 레코드 파일이 복합의 압축 레코드 파일에 부가될 때에 갱신될 수 있다. 이와 달리, 보조 키는 각각의 압축 레코드 파일에 대한 다른 보조 인덱스와 관련될 수 있으며, 보조 인덱스는 압축 레코드 파일이 통합될 때에 단일의 보조 인덱스로 통합될 수 있다.

소정의 속성 값을 포함하는 레코드가 파일의 압축 블록에 포함될 가능성을 판정하기 위해, 스크리닝 데이터(screening data)가 압축 레코드 파일과 관련될 수 있다. 예를 들어, 중첩 부호화 서명(OES: overlap encoded signature)을 스크리닝 데이터 구조로서 이용함으로써, 시스템(100)은, 소정의 키 값(기본 키 또는 보조 키)을 가진 레코드가 존재하지 않는지("부정" 결과), 또는 소정의 키 값을 가진 레코드가 존재할 가능성이 있는지("긍정" 결과)를 판정할 수 있다. 긍정 결과의 경우에, 시스템은 레코드를 찾아내거나("확정된 긍정" 결과), 레코드가 존재하지 않는다고 판정("잘못된 긍정" 결과)하기 위해, 적당한 압축 블록을 액세스한다. 부정 결과의 경우에, 시스템은, 존재하지 않는 레코드에 대한 압축 블록을 압축 해제하고 검색하는 데에 시간을 소모하지 않고, 부정 결과를 에이전트에 제공할 수 있다. OES의 사이즈는 긍정 결과가 잘못된 긍정인 횟수에 영향을 미치고, OES의 사이즈가 클수록, 대체로 잘못된 긍정 결과가 더 적어진다. 소정의 OES 사이즈의 경우에, 구분가능한 키 값이 적을수록 대체로 잘못된 긍정이 적어진다.

다른 유형의 스크리닝 데이터 구조도 가능하다. 각각의 압축 레코드 파일에 대해 소정의 기본 또는 보조 키에 대한 스크리닝 데이터 구조가 제공될 수 있다. 이와 달리, 각각의 압축 블록에 대해 키에 대한 스크리닝 데이터 구조가 제공될 수 있다.

도 3a 및 3b는, 다양한 사이즈의 OES 스크리닝 데이터 구조에 대한 키 값의 잘못된 긍정 결과를 획득하기 위한 확률 값(수평열)과, 압축 레코드 파일로 나타낸 다수의 다양한 식별 키(수평열)를 제공하는 표를 나타낸다. OES의 경우, OES의 사이즈와 식별 키 값의 수에 따라, 하나 이상의 키 값의 존재가 OES의 동일한 부분에 표시되며, 이들 키 값들 중 하나에 대해 잘못된 긍정 결과가 생길 수 있다. 본 예 에서, OES의 사이즈는 2¹⁰= 1024 비트(도 3a의 표)에서 2²⁸= 256 메가비트(도 3b의 표)까지 변화한다. 구분가능한 키 값의 수는 100(도 3a의 표)에서 100,000,000(도 3b의 표)까지 변화한다. 이 2개의 표에서, 오른쪽 위의 비어 있는 공란은 0%에 해당하며, 왼쪽 아래의 비어있는 공란은 100%에 해당한다. 잘못된 긍정 확률이 낮은(예컨대, 제로에 가까운) 셀의 경우, 스크리닝 데이터 구조는 적절한 스크리닝을 제공하기 위해 필요한 것보다 더 크게 할 수 있다. 잘못된 긍정 확률이 큰(예컨대, 50% 초과) 셀에 대해서는, 스크리닝 데이터 구조가 너무 작아서 적절한 스크리닝을 제공할 수 없을 수 있다. 본 예는 키 값에 대해 4개의 해시 코드(hash code)를 사용해서 OES를 생성하기 위한 기술에 해당한다. OES 스크리닝 데이터 구조의 다른 예는, 소정 수의 식별 키에 대해 잘못된 긍정 확률의 다른 표를 제공할 수 있다.

압축 레코드 파일에 표현된 식별 키 값의 수는 알려져 있지 않을 수 있기 때문에, 시스템(100)은 압축 레코드 파일에 대한 스크리닝 데이터 구조의 사이즈를, 해당 파일이 생성된 레코드의 수에 기초해서 선택할 수 있다. 사이즈를 선택함에 있어서, 잘못된 긍정 확률의 감소와, 스크리닝 데이터 구조를 기억하기 위해 필요한 메모리 공간과의 절충이 필요하다. 이러한 절충에서의 하나의 인자는 존재하지 않는 키 값을 검색할 확률이다. 조사할 키 값의 대부분이 압축 해제된 레코드 내에 존재할 가능성이 있다면, 스크리닝 데이터 구조는 전혀 필요하지 않을 것이다. 키 값이 발견되지 않을 가능성이 크다면, 상대적으로 큰 스크리닝 데이터 구조에 대한 기억 공간의 할당에 의해 상당한 시간이 절약될 것이다.

압축 레코드 파일과 관련된 스크리닝 데이터 구조의 사이즈는, 해당 파일이 초기의 또는 통합된 큰 레코드의 데이터베이스인지 아니면 더 큰 데이터베이스에 대해 더 작은 갱신에 해당하는지 여부에 따라 달라질 수 있다. 비교적 작은 스크리닝 데이터 구조의 사이즈는, 정규의 갱신 간격 동안 부가된 압축 레코드 파일에 대해 사용될 수 있는데, 이는 각각의 갱신에서 일반적으로 더 적은 수의 식별 키가 존재하기 때문이다. 또한, 사이즈가 작으면, 압축 레코드 파일의 수가 많은 갱신 이후에 증가하기 때문에, 필요한 기억 공간을 감소시킬 수 있다. 스크리닝 데이터 구조의 사이즈는, 예상된 수의 레코드 및/또는 갱신에서의 식별 키 값, 예상된 수의 갱신에 기초할 수 있다. 예를 들어, 갱신된 파일이 24 시간의 기간 동안 5분마다 부가된다면, 하루의 끝에서는 288개의 압축 레코드 파일이 생길 것이다. 적어도 하나의 잘못된 긍정 결과가 생길 확률은 도 3a 및 도 3b의 표로부터 적절한 값의 288배가 될 것이다(다른 갱신에 대한 결과는 독립적이라고 가정함). 통합 이후, 통합된 압축 레코드 파일에 대해 더 큰 스크리닝 데이터 구조가 적합할 수 있는데, 식별가능한 키 값의 수가 크게 증가할 수 있기 때문이다.

압축 레코드 파일은, 기본 키 값, 각각의 보조 키, 또는 키의 일부의 서브세트에 대한 스크리닝 데이터 구조를 가질 수 있다. 예를 들어, 시스템(100)은 기본 키와, 레코드를 검색하는 데에 가장 자주 사용될 것으로 예상되는 보조 키에 대해서만 스크리닝 데이터 구조를 제공할 수 있다.

도 4a는 소정의 기본 키 값을 가진 하나 이상의 레코드를 검색하기 위한 과정(400)에 대한 플로차트를 나타낸다. 이 과정(400)은 제1 압축 레코드 파일과 관 련된 스크리닝 데이터 구조가 존재하는지 여부를 판정한다(402). 이러한 스크리닝 데이터 구조가 존재한다면, 긍정 결과 또는 부정 결과를 얻기 위해 스크리닝 데이터 구조를 처리한다(404). 소정의 기본 키 값이 스크리닝을 통과하지 못한다면(부정 결과), 다음 압축 레코드 파일을 체크하고(406), 이러한 파일이 존재하는 경우에 해당 파일에 대해 체크를 반복한다. 소정의 기본 키 값이 스크리닝을 통과한다면(긍정 결과), 소정의 기본 키 값을 가진 레코드를 포함할 수 있는 블록에 대한 인덱스를 검색한다(408). 압축 레코드 파일과 관련된 스크리닝 데이터 구조가 없다면, 스크리닝을 수행하지 않고 인덱스를 검색(408)한다.

인덱스의 검색 과정(408)이 완료된 후, 소정의 기본 키 값을 포함하는 키 값의 범위와 관련된 압축 블록이 발견된 경우(410), 과정(400)은 인덱스 엔트리에 의해 식별된 위치에 있는 블록을 압축 해제(412)하고, 기본 키 값을 가진 하나 이상의 레코드에 대한 결과로서의 레코드를 검색(414)한다. 이후, 다음 압축 레코드 파일을 체크하고(416), 파일이 존재할 때까지 이를 반복한다. 압축 블록이 발견되지 않으면(예컨대, 소정의 기본 키 값이 제1 블록에서의 최소 키 값보다 작거나 마지막 블록에서의 최대 키 값보다 큰 경우), 과정(400)은 다음 압축 레코드 블록을 체크(416)하고, 이를 반복한다.

도 4b는 소정의 보조 키 값을 가진 하나 이상의 레코드를 검색하기 위한 과정(450)에 대한 플로차트를 나타낸다. 과정(450)은 제1 압축 레코드 파일과 관련된 스크리닝 데이터 구조가 존재하는지 여부를 판정한다(452). 이러한 스크리닝 데이터 구조가 존재한다면, 긍정 결과 또는 부정 결과를 얻기 위해 스크리닝 데이터 구 조를 처리한다(454). 소정의 보조 키 값이 스크리닝을 통과하지 못한다면(부정 결과), 다음 압축 레코드 파일을 체크하고(456), 이를 반복한다. 소정의 보조 키 값이 스크리닝을 통과한다면(긍정 결과), 소정의 보조 키를 포함하는 레코드에 대응하는 기본 키를 조사한다(458). 압축 레코드 파일과 관련된 스크리닝 데이터 구조가 없으면, 스크리닝을 행하지 않고 기본 키를 조사한다(458).

발견된 각각의 기본 키에 대해, 과정(450)은 소정의 기본 키 값을 가진 레코드를 포함할 수 있는 블록에 대한 인덱스를 검색한다(460). 인덱스를 검색(460)한 후, 소정의 기본 키 값을 포함하는 키 값의 범위와 관련된 압축 블록이 발견된 경우(462), 과정(450)은 인덱스 엔트리에 의해 식별된 위치에 있는 블록을 압축 해제(464)하고, 기본 키 값을 가진 하나 이상의 레코드에 대한 결과로서의 레코드를 검색(466)한다. 이후, 다음 압축 레코드 파일을 체크하여(468), 존재할 때까지 반복한다. 압축 블록이 발견되지 않으면, 과정(450)은 다음 압축 레코드 블록을 체크(468)하고, 이를 반복한다.

소정의 기본 키 또는 보조 키를 가진 다수의 레코드는, 출현의 순서대로 과정(400) 또는 과정(450)에 의해 복원되거나, 레코드의 최신의 버전만이 복원될 수 있다.

상기 설명한 레코드 기억장치 및 인출 방법은 컴퓨터에서 실행하는 소프트웨어를 사용해서 구현될 수 있다. 예컨대, 소프트웨어는 하나 이상의 프로그램된 또는 프로그램 가능한 컴퓨터 시스템(분산형, 클라이언트/서버, 또는 그리드 등의 다양한 구조가 될 수 있음)에서 실행되는 하나 이상의 컴퓨터 프로그램 내의 과정을 형성한다. 이러한 컴퓨터 시스템은, 하나 이상의 프로세서, 하나 이상의 데이터 기억 시스템(휘발성 및 불휘발성 메모리 및/또는 기억 소자를 포함), 하나 이상의 입력 장치 또는 포트, 하나 이상의 출력 장치 또는 포트를 각각 포함한다. 소프트웨어는, 예컨대 연산 그래프의 설계와 구성에 관련된 다른 서비스를 제공하는 더 큰 프로그램의 하나 이상의 모듈을 형성할 수 있다. 그래프의 노드와 요소는 컴퓨터로 판독가능한 매체에 기억된 데이터 구조, 또는 데이터 기억장치에 기억된 데이터 모델에 부합하는 다른 구성 데이터로서 구현될 수 있다.

소프트웨어는, 범용 또는 전용의 프로그램 가능한 컴퓨터에 의해 판독가능한 CD-ROM 등의 매체에 제공될 수 있으며, 또는 네트워크를 통해(전파 신호로 부호화되어) 컴퓨터에 제공되어 실행될 수 있다. 전용의 컴퓨터, 또는 코프로세서와 같은 전용의 하드웨어에서 모든 기능이 수행될 수 있다. 소프트웨어는 해당 소프트웨어에 의해 지정된 연산의 다른 부분이 다른 컴퓨터에 의해 수행되는 분산형으로 구현될 수 있다. 이러한 컴퓨터 프로그램은, 본 명세서에 개시된 과정을 수행하도록, 기억 매체 또는 장치가 컴퓨터 시스템에 의해 판독될 때에 컴퓨터를 구성 및 동작시키기 위한, 범용 또는 전용의 프로그램 가능한 컴퓨터에 의해 판독가능한 기억 매체 또는 장치에 기억되거나 다운로드되는 것이 바람직하다. 본 발명의 시스템은, 컴퓨터 프로그램을 갖는 컴퓨터로 판독 가능한 기억매체로 구현될 수 있으며, 이러한 기억 매체에 의해, 컴퓨터 시스템은, 특정 및 미리 정해진 방식으로 동작하여 본 명세서에 개시된 기능을 수행할 수 있게 된다.

본 발명의 많은 실시예에 대하여 설명하였지만, 본 발명의 범위를 벗어남이 없이 다양한 변형이 가능하다는 것을 이해하여야 한다. 예를 들어, 상기 개시된 단계들 중 일부는 독립적인 순서로 될 수 있어서, 상기 개시한 것과 다른 순서로 수행될 수 있다.

이상의 설명은 본 발명의 범위를 제한하기 위한 것이 아니며, 청구범위에 개시된 범위에 의해 정해진다. 예를 들어, 앞서 개시된 많은 기능 단계들은 전체적인 처리 과정에 영향을 주지 않으면서 그 순서를 달리할 수 있다. 청구범위의 범위 내에서 다른 실시예가 가능하다.

Claims

데이터를 관리하기 위한 방법으로서,

키 값(key value)에 의해 각각 식별될 수 있으며, 개별적으로 액세스 가능한 데이터 유닛을 수신하는 단계;

적어도 일부가 복수의 상기 데이터 유닛을 조합해서 생성되는 복수의 데이터 블록을 기억하는 단계; 및

상기 데이터 블록에 대한 엔트리(entry)를 포함하는 인덱스(index)를 제공하는 단계

를 포함하며,

하나 이상의 상기 엔트리는, 제공된 키 값에 기초해서, 상기 제공된 키 값을 포함하는 범위의 키 값에 대응하는 데이터 유닛을 포함하는 블록의 위치를 인에이블시키는, 데이터 관리 방법.
제1항에 있어서,

상기 데이터 블록의 적어도 일부는, 상기 키 값의 정해진 순서에 기초해서, 상기 데이터 유닛을 조합함으로써 생성되는, 데이터 관리 방법.
제2항에 있어서,

상기 정해진 순서는 알파벳 순인, 데이터 관리 방법.
제2항에 있어서,

상기 정해진 순서는 숫자(numerical) 순인, 데이터 관리 방법.
제2항에 있어서,

상기 데이터 블록은 각각의 데이터 유닛 세트로부터 각각 생성되며, 상기 데이터 유닛 세트는, 상기 미리 정해진 순서에 따라, 중첩되지 않는 범위의 키 값에 대응하는, 데이터 관리 방법.
제1항에 있어서,

상기 인덱스의 하나 이상의 엔트리는, 상기 데이터 블록을 구성하는 데이터 유닛에 대응하는 범위의 키 값을 식별하는, 데이터 관리 방법.
제6항에 있어서,

상기 키 값의 범위는, 상기 키 값의 범위 중 하나 이상의 극한값을 포함하는 정보에 의해 식별되는, 데이터 관리 방법.
제7항에 있어서,

상기 키 값의 범위는, 상기 인덱스 내의 제1 엔트로부터의 제1 극한값과 상기 인덱스 내의 제2 엔트리로부터의 제2 극한값에 의해 식별되는, 데이터 관리 방 법.
제6항에 있어서,

상기 키 값의 범위는, 상기 데이터 블록을 구성하는 상기 데이터 유닛과 관련된 키 값 중 하나 이상의 극한값을 포함하는 정보에 의해 식별되는, 데이터 관리 방법.
제9항에 있어서,

상기 키 값의 범위는, 상기 인덱스 내의 제1 엔트로부터의 제1 극한값과 상기 인덱스 내의 제2 엔트리로부터의 제2 극한값에 의해 식별되는, 데이터 관리 방법.
제6항에 있어서,

상기 인덱스 내의 엔트리의 적어도 일부의 각각은 대응하는 데이터 블록의 기억 위치를 식별하는, 데이터 관리 방법.
제1항에 있어서,

상기 복수의 데이터 유닛을 조합함으로써 블록을 생성하는 단계는, 일련의 데이터 유닛을 압축하는 단계를 포함하는, 데이터 관리 방법.
제12항에 있어서,

상기 일련의 데이터 유닛을 압축하는 것에 의해 생성된 블록을 압축 해제하는 단계는, 상기 블록 전체를 처리하는 단계를 포함하는, 데이터 관리 방법.
제1항에 있어서,

상기 데이터 유닛은, 대응하는 필드와 관련된 하나 이상의 값을 각각 갖는 레코드인 것인, 데이터 관리 방법.
제14항에 있어서,

수신한 상기 데이터 유닛을 식별하는 키 값은, 상기 수신을 행하기 전에, 소정의 데이터 유닛과 관련된 하나 이상의 필드에 대응하는, 데이터 관리 방법.
제14항에 있어서,

수신한 상기 데이터 유닛을 식별하는 키 값은, 상기 수신을 행한 후에, 상기 데이터 유닛에 할당되는, 데이터 관리 방법.
제16항에 있어서,

상기 키 값은 단조적으로(monotonically) 할당되는, 데이터 관리 방법.
제17항에 있어서,

상기 키 값은 순차적으로 할당되는, 데이터 관리 방법.
제1항에 있어서,

기억된 상기 데이터 블록은 제1 데이터 블록 세트로서 기억되는, 데이터 관리 방법.
제19항에 있어서,

상기 제1 데이터 블록 세트가 파일 내에 기억되는, 데이터 관리 방법.
제19항에 있어서,

적어도 일부가, 상기 제1 데이터 블록 세트를 기억시킨 후에 수신된, 복수의 데이터 유닛으로부터 생성되는 하나 이상의 제2 데이터 블록 세트를 기억시키는 단계를 더 포함하는, 데이터 관리 방법.
제21항에 있어서,

상기 제2 데이터 블록 세트 내의 적어도 일부의 블록은 일련의 데이터 유닛을 압축함으로써 생성되는, 데이터 관리 방법.
제21항에 있어서,

상기 제2 데이트 블록 세트 내의 각각의 블록에 대한 엔트리를 포함하는 인 덱스를 제공하는 단계를 더 포함하며,

하나 이상의 상기 엔트리는, 제공된 키 값에 기초해서, 상기 제공된 키 값을 포함하는 키 값의 범위에 대응하는 데이터 유닛을 포함하는 블록의 위치를 인에이블시키는, 데이터 관리 방법.
제21항에 있어서,

상기 데이터 블록을 구성하는 데이터 유닛을 복원하기 위해 상기 제1 데이터 블록 세트와 상기 제2 데이터 블록 세트를 처리하는 단계;

상기 제1 데이터 블록 세트로부터 복원된 데이터 유닛과, 상기 제2 데이터 블록 세트로부터 복원된 데이터 유닛을, 상기 데이터 유닛에 대응하는 키 값에 대한 순서에 따라 분류하여, 분류된 데이터 유닛 세트를 생성하는 단계; 및

제3 데이터 블록 세트를 생성하는 단계를 더 포함하며,

상기 제3 데이터 블록 세트의 적어도 일부는 복수의 상기 분류된 데이터 유닛을 조합함으로써 생성되는, 데이터 관리 방법.
제24항에 있어서,

상기 제1 데이터 블록 세트로부터 복원된 데이터 유닛과 상기 제2 데이터 블록 세트로부터 복원된 데이터 유닛을 분류하는 단계는, 상기 제1 데이터 블록 세트로부터 복원된 데이터 유닛과 상기 제2 데이터 블록 세트로부터 복원된 데이터 유닛을, 상기 데이터 유닛에 대응하는 키 값에 대한 순서에 따라 병합함으로써 일련 의 분류된 데이터 유닛 세트를 생성하는 단계를 포함하는, 데이터 관리 방법.
제24항에 있어서,

상기 제3 데이터 블록 세트 내의 각 블록에 대한 엔트리를 포함하는 상기 제3 데이터 블록 세트의 인덱스를 제공하는 단계를 더 포함하며,

하나 이상의 상기 엔트리는, 제공된 키 값에 기초해서, 상기 제공된 키 값을 포함하는 키 값의 범위에 대응하는 데이터 유닛을 포함하는 블록의 위치를 인에이블시키는, 데이터 관리 방법.
제1항에 있어서,

기억된 상기 블록과 관련되어 있으며, 소정의 속성 값을 포함하는 데이터 유닛이 상기 블록을 구성하는 상기 데이터 유닛에 포함될 확률을 판정하기 위한 스크리닝 데이터 구조를 제공하는 단계를 더 포함하는 데이터 관리 방법.
제27항에 있어서,

상기 속성 값은 데이터 유닛을 식별하는 키 값을 포함하는, 데이터 관리 방법.
제27항에 있어서,

상기 스크리닝 데이터 구조는, 소정의 속성 값에 대하여, 상기 소정의 속성 값을 포함하는 데이터 유닛이 포함되어 있지 않은지, 또는 상기 소정의 속성 값을 포함하는 데이터 유닛이 포함되어 있는지를 판정하는, 데이터 관리 방법.
제29항에 있어서,

상기 데이터 유닛이 포함되어 있지 않을 때에 상기 소정의 속성 값을 포함하는 데이터 유닛이 포함되어 있는지를 상기 스크리닝 데이터 구조에 의해 판정될 확률은 상기 데이터 구조의 사이즈에 따라 달라지는, 데이터 관리 방법.
제30항에 있어서,

상기 스크리닝 데이터 구조의 사이즈를, 상기 블록을 구성하는 데이터 유닛의 수에 기초해서 선택하는 단계를 더 포함하는 데이터 관리 방법.
제1항에 있어서,

기억된 상기 블록과 관련되어 있으며, 소정의 속성 값을 포함하는 데이터 유닛의 하나 이상의 키 값을 판정하기 위한 보조 인덱스를 제공하는 단계를 더 포함하는 데이터 관리 방법.
제32항에 있어서,

상기 데이터 유닛은 대응하는 필드와 관련된 하나 이상의 값을 각각 갖는 레코드이며, 레코드를 식별하는 상기 키 값은 기본 키 값에 대응하며, 상기 보조 인 덱스와 관련된 상기 속성 값은 보조 키 값에 대응하는, 데이터 관리 방법.
제32항에 있어서,

상기 보조 인덱스는, 상기 키 값 외에, 상기 데이터 유닛 내의 속성 값에 의해 분류된 열을 갖는 표를 포함하는, 데이터 관리 방법.
데이터를 관리하기 위한 시스템으로서,

키 값에 의해 각각 식별될 수 있으며, 개별적으로 액세스 가능한 데이터 유닛을 수신하기 위한 수단;

적어도 일부가 복수의 상기 데이터 유닛을 조합해서 생성되는 복수의 데이터 블록을 기억하기 위한 수단; 및

상기 데이터 블록에 대한 엔트리(entry)를 포함하는 인덱스(index)를 제공하기 위한 수단

을 포함하며,

하나 이상의 상기 엔트리는, 제공된 키 값에 기초해서, 상기 제공된 키 값을 포함하는 키 값의 범위에 대응하는 데이터 유닛을 포함하는 블록의 위치를 인에이블시키는, 데이터 관리 시스템.
컴퓨터로 판독가능한 매체에 기억되어, 데이터를 관리하기 위한 컴퓨터 프로그램으로서,

상기 컴퓨터 프로그램은, 컴퓨터로 하여금,

키 값에 의해 각각 식별될 수 있으며, 개별적으로 액세스 가능한 데이터 유닛을 수신하고;

적어도 일부가 복수의 상기 데이터 유닛을 조합해서 생성되는 복수의 데이터 블록을 기억하며;

상기 데이터 블록에 대한 엔트리(entry)를 포함하는 인덱스(index)를 제공하도록 하는 명령어를 포함하며,

하나 이상의 상기 엔트리는, 제공된 키 값에 기초해서, 상기 제공된 키 값을 포함하는 키 값의 범위에 대응하는 데이터 유닛을 포함하는 블록의 위치를 인에이블시키는, 컴퓨터 프로그램.