KR20150045532A

KR20150045532A - 개별적으로 액세스 가능한 데이터 유닛의 스토리지 관리 방법

Info

Publication number: KR20150045532A
Application number: KR20157009110A
Authority: KR
Inventors: 브리샬 쿨카르니; 스티븐 슈미트; 크레이그 더블유. 스탠필; 에프라임 메리웨더 비슈니아크
Original assignee: 아브 이니티오 테크놀로지 엘엘시
Priority date: 2010-03-10
Filing date: 2010-03-10
Publication date: 2015-04-28
Also published as: AU2010347763A1; EP3550441B1; EP2545451A1; CA2791261A1; JP2013522715A; WO2011112187A1; KR101725172B1; CN102893265A; KR20130036094A; CA2791261C; JP5663044B2; CN102893265B; EP2545451B1; EP2545451A4; AU2010347763B2; EP3550441A1

Abstract

데이터를 관리하기 위한 방법은: 개별적으로 액세스 가능한 데이터 유닛(200)의 하나 이상의 그룹을 수신하는 단계; 및 데이터 스토리지 시스템(1)에 저장을 하기 위해 데이터 유닛을 프로세싱하는 단계를 포함하며, 각각의 데이터 유닛은 키 값에 의해 식별되고, 수신된 데이터 유닛의 키 값으로 정렬된다. 상기 프로세싱하는 단계는: 복수의 데이터 블록(202)을 저장하는 단계; 블록 각각에 대한 엔트리(entry)를 포함하는 인덱스(index)(114)를 제공하는 단계; 및 하나 이상의 복수의 블록의 제1 세트를 스크리닝(screening)하기 위한 제1 스크리닝 데이터 구조 및 하나 이상의 복수의 블록의 제2 세트를 스크리닝하기 위한 제2 스크리닝 데이터 구조를 포함하여, 주어진 키 값을 포함하는 데이터 유닛이 개별적으로 액세스 가능한 데이터 유닛의 그룹에 포함되었을 확률을 판단하기 위해 저장된 블록과 관련된 복수의 스크리닝 데이터 구조를 생성하는 단계를 포함한다.

Description

개별적으로 액세스 가능한 데이터 유닛의 스토리지 관리 방법{MANAGING STORAGE OF INDIVIDUALLY ACCESSIBLE DATA UNITS}

본 발명은 개별적으로 액세스 가능한 데이터 유닛의 스토리지 관리에 관한 것이다.

데이터베이스 시스템은 개별적으로 액세스 가능한 데이터 유닛 또는 "레코드"를 임의의 다양한 포맷으로 저장할 수 있다. 각각의 레코드는, 신용 카드 거래(transaction)와 같은 논리적 엔티티(logical entity)에 대응할 수 있고, 일반적으로 레코드를 고유하게 식별하기 위해 사용되는 관련 기본 키(primary key)를 가진다. 레코드는, 레코드 포맷의 각각의 필드와 연관된 다수의 값을 포함할 수 있다. 레코드는 하나 이상의 파일(예컨대, XML 파일과 같은 구조화된 데이터 파일 또는 플랫 파일) 내에 저장될 수 있다. 압축 데이터베이스 시스템(compressed database system)에서는, 각각의 레코드 또는 레코드 내의 값이 저장될 때 압축되고, 액세스될 때 압축 해제되어, 시스템에서 요구되는 스토리지 용량을 감소시킬 수 있다.

본 발명의 목적은 개별적으로 액세스 가능한 데이터 유닛의 스토리지 관리 방법을 제공하는 것이다.

일 측면에서, 일반적으로, 데이터 관리 방법은, 입력 디바이스 또는 포트를 통해 개별적으로 액세스 가능한 데이터 유닛의 하나 이상의 그룹을 수신하는 단계; 및 데이터 스토리지 시스템에 저장을 하기 위해 상기 데이터 유닛을 프로세싱하는 단계를 포함하고, 상기 프로세싱 하는 단계는, 복수의 데이터 블록을 저장하는 단계; 상기 블록 각각에 대한 엔트리(entry)를 포함하는 인덱스(index)를 제공하는 단계; 및 하나 이상의 복수의 블록의 제1 세트를 스크리닝(screening)하기 위한 제1 스크리닝 데이터 구조 및 하나 이상의 복수의 블록의 제2 세트를 스크리닝하기 위한 제2 스크리닝 데이터 구조를 포함하여, 소정의 키 값을 포함하는 데이터 유닛이 개별적으로 액세스 가능한 데이터 유닛의 상기 그룹에 포함되었을 확률을 판단하기 위해 상기 저장된 블록과 관련된 복수의 스크리닝 데이터 구조를 생성하는 단계를 포함하고, 각각의 데이터 유닛은 키 값에 의해 식별되고, 상기 수신된 데이터 유닛의 키 값은, 정렬 순서에서 소정의 제2 데이터 유닛보다 먼저 수신된 소정의 제1 데이터 유닛을 식별하는 키 값이 상기 소정의 제2 데이터 유닛을 식별하는 키 값보다 먼저 나오도록, 정렬되고, 각각의 하나 이상의 상기 블록은 복수의 상기 데이터 유닛을 결합하여 생성되고, 하나 이상의 상기 엔트리는, 제공된 키 값에 기초해서, 상기 제공된 키 값을 포함하는 키 값의 범위에 대응하는 데이터 유닛을 포함하는 블록을 위치시킬 수 있다.

이러한 측면은 하나 이상의 다음 특징을 포함한다.

상기 하나 이상의 복수의 블록의 제2 세트에 포함되는 데이터 유닛 전부는, 정렬 순서에서, 상기 하나 이상의 복수의 블록의 제1 세트에 포함되는 데이터 유닛의 모든 키 값보다 나중에 나오는 키 값을 가진다.

상기 복수의 스크리닝 데이터 구조 각각은, 하나 이상의 블록의 대응하는 세트에 저장되는 데이터 유닛을 식별하는, 중첩되지 않는 서로 다른 키 값의 범위에 대응한다.

상기 제1 스크리닝 데이터 구조는, 상기 하나 이상의 복수의 블록의 제1 세트에 저장된 데이터 유닛의 제1 세트의, 미리 정해진 개수의 상이한 키 값을 축적한 후에 생성되고, 상기 제2 스크리닝 데이터 구조는, 상기 하나 이상의 복수의 블록의 제2 세트에 저장된 데이터 유닛의 제2 세트를 수신하는 동안에 생성된다.

상기 방법은, 상기 인덱스 및 복수의 상기 스크리닝 데이터 구조를 사용하여 소정의 키 값을 가지는 데이터 유닛을 검색하는 단계를 더 포함한다.

상기 검색하는 단계는, 소정의 키 값을 데이터 유닛이 액세스 가능한 데이터 유닛의 그룹에 포함될 가능성이 있음을 나타내는 긍정 결과(positive result)를 위해 다수의 스크리닝 데이터 구조 각각을 검사하는 단계를 포함한다.

상기 방법은, 대응하는 스크리닝 데이터 구조에 대한 긍정 결과에 대한 응답으로, 상기 소정의 키 값이, 상기 대응하는 스크리닝 데이터 구조에 의해 스크리닝되는 하나 이상의 블록에 걸쳐있는 키 값의 범위 내에 있는지 판단하기 위해 상기 인덱스를 검색하는 단계를 더 포함한다.

상기 방법은, 상기 대응하는 스크리닝 데이터 구조에 의해 스크리닝되는 복수의 블록에 걸쳐있는 키 값의 범위 내에 있는 소정의 키 값에 대한 응답으로, 상기 소정의 키 값을 가진 데이터 유닛을 검색하기 위해 특정 블록을 찾기 위한 상기 인덱스를 검색하는 단계를 더 포함하는

소정의 스크리닝 데이터 구조는, 소정의 키 값에 대해, 상기 소정의 키 값을 포함하는 데이터 유닛이 명백히 포함되지 않았는지, 또는, 상기 소정의 키 값을 포함하는 데이터 유닛이 포함될 가능성이 있는지를 판단한다.

상기 소정의 스크리닝 데이터 구조가, 상기 키 값을 포함하는 데이터 유닛이, 상기 데이터 유닛이 포함되지 않은 경우에, 포함될 가능성이 있다고 판단할 확률이 상기 데이터 구조의 크기에 의존적이다.

상기 방법은, 상기 블록을 생성한 상기 데이터 유닛을 식별하는 상이한 키 값의 개수를 기초로 상기 소정의 스크리닝 데이터 구조의 크기를 선택하는 단계를 더 포함한다.

소정의 데이터 유닛을 식별하는 키 값은, 상기 데이터 유닛이 상기 입력 디바이스 또는 포트를 통해 수신되기 전에, 상기 소정의 데이터 유닛과 관련된 하나 이상의 필드에 대응한다.

상기 방법은, 상기 데이터 유닛이 수신됨에 따라 상이한 키 값을 축적하고, 개별적으로 액세스 가능한 데이터 유닛의 그룹의 데이터 유닛이 수신된 후에, 상기 축적된 상이한 키 값을 카운팅(counting)하는 단계를 더 포함한다.

소정의 데이터 유닛을 식별하는 키 값은, 상기 입력 디바이스 또는 포트를 통해 상기 소정의 데이터 유닛이 수신된 후에, 상기 소정의 데이터 유닛에 할당된다.

상기 키 값은 단조적으로(monotonically) 할당된다.

상기 할당된 키 값은 모두 상이하다.

상기 저장된 블록과 관련된 스크리닝 데이터 구조의 개수는, 개별적으로 액세스 가능한 데이터 유닛의 그룹의 데이터 유닛을 식별하는 상이한 키 값의 개수 및 상기 스크리닝 데이터 구조와 관련된 타겟 거짓 긍정 확률(target false positive probability)을 기초로 한다.

상기 인덱스는 적어도, 상기 인덱스의 제1 레벨 및 상기 인덱스의 제2 레벨을 포함하는 계층적 인덱스이다.

상기 인덱스의 상기 제1 레벨은, 제공된 키 값에 기초하여, 상기 제공된 키 값을 포함하는 키 값의 범위에 대응하는 데이터 유닛을 포함하는 블록을 위치결정할 수 있는 엔트리의 다수의 영역으로 분할되고, 각각의 영역은 상기 데이터 스토리지 시스템에 연결된 메모리 내에 완전히 그 전체가 들어갈 수 있을 정도로 충분히 작다.

상기 인덱스의 하나 이상의 상기 엔트리는, 대응하는 블록을 생성하는 데이터 유닛에 대응하는 키 값의 범위를 식별한다.

상기 인덱스의 적어도 일부의 상기 엔트리 각각은 상기 대응하는 블록의 저장 위치를 식별한다.

상기 인덱스의 상기 제2 레벨은 상기 메모리 내에 완전히 그 전체가 들어갈 수 있을 정도로 충분히 작다.

상기 인덱스의 상기 제2 레벨은 상기 다수의 각 영역에 대한 각각의 엔트리를 포함한다.

상기 인덱스의 하나 이상의 상기 엔트리는, 제공된 키 값에 기초하여, 상기 제공된 키 값을 포함하는 키 값의 범위에 대응하는 엔트리를 포함하는 상기 인덱스의 상기 제1 레벨의 영역을 위치결정할 수 있다.

다른 측면에서, 일반적으로, 데이터를 관리하기 위한 컴퓨터 프로그램을 저장하고 있는, 컴퓨터로 판독 가능한 매체로서, 상기 컴퓨터 프로그램은, 컴퓨터로 하여금 입력 디바이스 또는 포트를 통해 개별적으로 액세스 가능한 데이터 유닛의 하나 이상의 그룹을 수신하고; 데이터 스토리지 시스템에 저장을 하기 위해 상기 데이터 유닛을 프로세싱하도록 하는 명령어를 포함하고, 상기 프로세싱 하는 단계는, 복수의 데이터 블록을 저장하는 단계; 상기 블록 각각에 대한 엔트리를 포함하는 인덱스를 제공하는 단계; 및 하나 이상의 복수의 블록의 제1 세트를 스크리닝하기 위한 제1 스크리닝 데이터 구조 및 하나 이상의 복수의 블록의 제2 세트를 스크리닝하기 위한 제2 스크리닝 데이터 구조를 포함하여, 소정의 키 값을 포함하는 데이터 유닛이 개별적으로 액세스 가능한 데이터 유닛의 상기 그룹에 포함되었을 확률을 판단하기 위해 상기 저장된 블록과 관련된 복수의 스크리닝 데이터 구조를 생성하는 단계를 포함하고, 각각의 데이터 유닛은 키 값에 의해 식별되고, 상기 수신된 데이터 유닛의 키 값은, 정렬 순서에서 소정의 제2 데이터 유닛보다 먼저 수신된 소정의 제1 데이터 유닛을 식별하는 키 값이 상기 소정의 제2 데이터 유닛을 식별하는 키 값보다 먼저 나오도록, 정렬되고, 각각의 하나 이상의 상기 블록은 복수의 상기 데이터 유닛을 결합하여 생성되고, 하나 이상의 상기 엔트리는, 제공된 키 값에 기초해서, 상기 제공된 키 값을 포함하는 키 값의 범위에 대응하는 데이터 유닛을 포함하는 블록을 위치결정할 수 있다.

또 다른 측면에서, 일반적으로, 데이터를 관리하기 위한 시스템은, 개별적으로 액세스 가능한 데이터 유닛의 하나 이상의 그룹을 수신하도록 구성된 입력 디바이스 또는 포트; 및 데이터 스토리지 시스템에 저장을 하기 위해 상기 데이터 유닛을 프로세싱하도록 구성된 하나 이상의 프로세서를 포함하고, 상기 프로세싱 하는 단계는, 복수의 데이터 블록을 저장하는 단계; 상기 블록 각각에 대한 엔트리를 포함하는 인덱스를 제공하는 단계; 및 하나 이상의 복수의 블록의 제1 세트를 스크리닝하기 위한 제1 스크리닝 데이터 구조 및 하나 이상의 복수의 블록의 제2 세트를 스크리닝하기 위한 제2 스크리닝 데이터 구조를 포함하여, 소정의 키 값을 포함하는 데이터 유닛이 개별적으로 액세스 가능한 데이터 유닛의 상기 그룹에 포함되었을 확률을 판단하기 위해 상기 저장된 블록과 관련된 복수의 스크리닝 데이터 구조를 생성하는 단계를 포함하고, 각각의 데이터 유닛은 키 값에 의해 식별되고, 상기 수신된 데이터 유닛의 키 값은, 정렬 순서에서 소정의 제2 데이터 유닛보다 먼저 수신된 소정의 제1 데이터 유닛을 식별하는 키 값이 상기 소정의 제2 데이터 유닛을 식별하는 키 값보다 먼저 나오도록, 정렬되고, 각각의 하나 이상의 상기 블록은 복수의 상기 데이터 유닛을 결합하여 생성되고, 하나 이상의 상기 엔트리는, 제공된 키 값에 기초해서, 상기 제공된 키 값을 포함하는 키 값의 범위에 대응하는 데이터 유닛을 포함하는 블록을 위치결정할 수 있다.

또 다른 측면에서, 일반적으로, 데이터를 관리하기 위한 시스템은, 개별적으로 액세스 가능한 데이터 유닛의 하나 이상의 그룹을 수신하는 수단; 및 데이터 스토리지 시스템에 저장을 하기 위해 상기 데이터 유닛을 프로세싱하는 수단을 포함하고, 상기 프로세싱은, 복수의 데이터 블록을 저장하는 단계; 상기 블록 각각에 대한 엔트리를 포함하는 인덱스를 제공하는 단계; 및 하나 이상의 복수의 블록의 제1 세트를 스크리닝하기 위한 제1 스크리닝 데이터 구조 및 하나 이상의 복수의 블록의 제2 세트를 스크리닝하기 위한 제2 스크리닝 데이터 구조를 포함하여, 소정의 키 값을 포함하는 데이터 유닛이 개별적으로 액세스 가능한 데이터 유닛의 상기 그룹에 포함되었을 확률을 판단하기 위해 상기 저장된 블록과 관련된 복수의 스크리닝 데이터 구조를 생성하는 단계를 포함하고, 각각의 데이터 유닛은 키 값에 의해 식별되고, 상기 수신된 데이터 유닛의 키 값은, 정렬 순서에서 소정의 제2 데이터 유닛보다 먼저 수신된 소정의 제1 데이터 유닛을 식별하는 키 값이 상기 소정의 제2 데이터 유닛을 식별하는 키 값보다 먼저 나오도록, 정렬되고, 각각의 하나 이상의 상기 블록은 복수의 상기 데이터 유닛을 결합하여 생성되고, 하나 이상의 상기 엔트리는, 제공된 키 값에 기초해서, 상기 제공된 키 값을 포함하는 키 값의 범위에 대응하는 데이터 유닛을 포함하는 블록을 위치결정할 수 있다.

본 발명은 다음과 같은 하나 이상의 장점을 포함할 수 있다.

다수의 레코드로 구성된 블록을 압축함으로써, 레코드를 개별적으로 압축하는 것에 비해 더 높은 정도의 압축을 할 수 있다. 인덱스된 블록은, 압축 레코드의 파일의 시작 부분부터 압축 해제를 하지 않고도 소정의 레코드를 액세스할 수 있도록 한다. 블록의 사이즈는 고도의 압축을 제공할 정도로 충분히 크고, 블록 내의 소정의 레코드를 액세스하기에 필요한 압축 해제의 양을 제한할 정도로 충분히 작게 선택될 수 있다. 각각의 블록은, 압축 블록 내의 임의의 위치로부터 압축 해제를 시작할 수 있는 기능을 제공할 필요가 없는 압축 기술을 사용하여 압축될 수 있다. 따라서, 고도의 압축을 제공하는 기술이 사용될 수 있다.

대응하는 블록을 생성하는 레코드에 대응하는 키 값의 범위를 식별하는 인덱스를 저장함으로써, 각 레코드에 대해 엔트리를 구비할 필요가 없으므로, 인덱스를 작게(예컨대, 상대적으로 빠른 메모리에 적합할 정도로 작게) 유지할 수 있다. 인덱스 엔트리는, 로딩되고 압축 해제될 수 있는 하나 이상의 블록의 위치가 원하는 레코드를 위해 검색될 수 있는 레코드의 세트를 복원하는 것을 가능하게 한다. 스크리닝 데이터 구조를 압축 블록(예컨대, 중첩 부호화 서명 또는 기타 유형의 비트맵)과 연관(associating)시키는 것은, 레코드를 검색하기 위해 압축 블록을 로딩하고 압축 해제하지 않고도, 원하는 레코드가 존재하지 않는다는 것을 나타낼 수 있다. 스토리지 공간을 과도하게 사용하지 않는 방식으로 점진적으로 스크리닝 데이터 구조를 생성하는 적응적인 기술이 사용될 수 있다. 상이한 많은 스크리닝 데이터 구조를 검사함으로써 발생될 수 있는, 거짓 긍정(false positive)의 확률에서의 과도한 증가를 방지하기 위한 다양한 기술이 사용될 수 있다. 잠재적으로 큰 인덱스를 검색하는데 있어서, 인덱스를 생성하기 위한 계층적인 기술은, 비교적 느린 논로컬(non-local) 스토리지가 액세스 되어야 할 횟수를 감축시킴으로써 인덱스 검색을 가속화한다.

그 외 다른 특징과 장점에 대해서는 이하의 상세한 설명과 청구범위로부터 명백하게 될 것이다.

도 1은 레코드를 저장하고 인출하기 위한 시스템의 블록도이다.
도 2a, 2b, 2c 및 2d는 시스템에 의해 처리되어 시스템에 저장되는 데이터의 개략도이다.
도 3a 및 3b는 상이한 서명 사이즈에 대한 거짓 긍정 확률을 나타낸 표이다.
도 4a 및 4b는 레코드를 검색하기 위한 과정을 나타내는 흐름도이다.
도 5는 인덱싱 및 검색 모듈의 블록도이다.

도 1을 참조하면, 레코드 스토리지 및 인출 시스템(100)은, 소스 A ~ 소스 C와 같은, 하나 이상의 소스로부터 데이터를 받아들인다. 상기 데이터는 개별적으로 액세스 가능한 데이터 유닛으로서 표현될 수 있는 정보를 포함한다. 예를 들면, 신용 카드 회사는 다양한 소매 회사로부터 개별적인 거래를 나타내는 데이터를 수신할 수 있다. 각각의 거래는 고객 이름, 날짜, 구매량 등과 같은 속성을 나타내는 값과 연관되어 있다. 레코드 처리 모듈(102)은, 데이터가 미리 정해진 레코드 포맷에 따라 포맷되어 있도록 함으로써, 거래와 연관된 값이 레코드에 저장된다. 어떤 경우에, 이것은 레코드 포맷에 따라 소스로부터 제공된 데이터를 변환하는 과정을 포함할 수 있다. 다른 경우에서는, 하나 이상의 소스가, 레코드 포맷에 따라 이미 포맷된 데이터를 제공할 수 있다.

레코드 처리 모듈(102)은, 각각의 레코드를 식별하는 기본 키 값(예컨대, 단일의 레코드를 식별하는 고유의 키 또는 갱신된 버전의 다수의 레코드를 식별하는 키)에 의해 레코드를 정렬(sorting)하고, 레코드를, 중첩되지 않는 기본 키 값의 범위에 대응하는 레코드의 세트로 분할한다. 예를 들어, 레코드의 세트 각각은, 미리 정해진 수의 레코드(예컨대, 100개의 레코드)에 대응할 수 있다. 압축 모듈(104)은 각각의 레코드 세트를 압축 데이터 블록으로 압축한다. 이러한 압축 데이터 블록은 레코드 스토리지(106)(예컨대, 하나 이상의 하드 디스크 드라이브와 같은 비휘발성 저장 매체)에 압축 레코드 파일로서 저장된다. 시스템(100)은, 각 블록에 대한 엔트리를 포함하는 인덱스(114)를 제공하는 인덱싱 및 검색 모듈(108)을 포함한다. 아래에 더 상세히 설명된 바와 같이, 인덱스(114)는 소정의 레코드를 포함할 수 있는 블록을 위치시키기 위해 위해 사용된다. 아래에 더 상세히 설명된 바와 같이, 인덱싱 및 검색 모듈(108)은 또한, 소정의 레코드를 찾기 위해 레코드 스토리지(106)를 검색할 필요가 있을 수 있는 경우를 판단하기 위해 사용되는 스크리닝 데이터 구조(116)을 포함한다. 인덱스(114) 및 스크리닝 데이터 구조(116)는 압축 레코드 파일이 저장된 저장 매체와 동일한 저장 매체에 저장될 수 있고, 또는, 일부 구현예에서, 인덱스(114) 및 스크리닝 데이터 구조(116)의 적어도 일부는, 인덱스 파일이 통상적으로 압축 레코드 파일에 비해 매우 작으므로, 바람직하게는 모듈(108)에 의해 액세스 가능한 상대적으로 빠른 로컬 스토리지(예컨대, DRAM(Dynamic Random Access Memory)과 같은 휘발성 저장 매체)에 저장될 수 있다. 이러한 구현예에서, 인덱스(114) 및/또는 스크리닝 데이터 구조(116)의 나머지 부분은, 필요에 의해 모듈(108)의 로컬 스토리지로 이동될 때까지, 인덱스 스토리지(110)(예컨대, 하나 이상의 하드 디스크 드라이브와 같은 비휘발성 저장 매체)에 저장될 수 있다. 레코드 스토리지(106) 및 인덱스 스토리지(110)는 동일한 저장 매체 또는 상이한 저장 매체 상에 호스팅(host)될 수 있다.

시스템(100)의 다른 구현예에서, 레코드의 세트는, 임의의 방식으로 레코드를 결합하기 위해, 압축에 추가하거나 또는 압축 대신에, 다른 기능을 사용하여, 블록을 생성하도록 처리될 수 있다(즉, 블록은 연계된 레코드 세트로만 이루어진 것이 아닐 수 있다). 예를 들어, 어떤 시스템은 레코드 세트를 처리하여 암호화된 데이터의 블록을 생성할 수 있다.

인터페이스 모듈(112)은, 저장된 레코드에 대한 액세스를 사람 및/또는 에이전트 A - 에이전트 D와 같은 컴퓨터 에이전트에 제공한다. 예를 들면, 인터페이스 모듈(112)은 신용 카드 고객에 대한 온라인 계정 시스템을 구현하여 이들의 거래를 모니터링할 수 있다. 다양한 기준에 부합하는 거래 정보에 대한 요청은 시스템(100)에 의해 처리될 수 있고, 레코드 스토리지(106)에 저장된 압축 블록 내에서 대응하는 레코드가 인출될 수 있다.

하나 이상의 소스로부터 입력되는 레코드의 스트림은, 압축 레코드 파일을 생성하기 위한 처리 전에, 임시적으로 저장될 수 있다. 도 2a를 참조하면, 시스템(100)은, 압축 레코드 파일에 저장될 레코드 세트(200)를 수신하고, 기본 키 값에 따라 레코드를 정렬한다.

기본 키 값은, 데이터베이스 내에서, 하나 이상의 레코드에 의해 표시될 수 있는 소정의 아이템을 고유하게 식별할 수 있다(예컨대, 소정의 기본 키의 값을 갖는 각각의 레코드는 각각 갱신된 버전의 아이템에 대응할 수 있다). 기본 키는, 레코드의 기존의 하나 이상의 필드에 대응하는 "자연 키(natural key)"일 수 있다. 각각의 아이템에 대해 고유한 것으로 보장되는 필드가 없다면, 기본 키는, 각각의 아이템에 대해 고유한 것으로 보장되거나 고유한 것일 가능성이 높은, 레코드의 다수의 필드를 포함하는 복합 키(compound key)일 수 있다. 이와 다르게, 기본 키는, 수신된 후에 각 레코드에 할당될 수 있는 "합성 키(synthetic key)"일 수 있다. 예를 들어, 시스템(100)은 고유의 기본 키 값을, 순차적으로 증가하는 정수 또는 단조적으로 증가하는 값(예컨대, 타임 스탬프)의 어떤 다른 시퀀스로서 할당할 수 있다. 이 경우, 동일한 아이템의 여러 버전을 나타내는 레코드는 여러 합성 키 값으로 할당될 수 있다. 정수를 사용한다면, (예컨대, 사용된 비트의 수에 의해 정해지는) 가능한 기본 키 값의 범위는, 기본 키가 롤오버(roll over)된 경우, 이전에 소정의 기본 키 값이 할당된 어떠한 레코드라도 압축 레코드 파일로부터 제거될 수 있을 정도로 충분히 크게 될 수 있다. 예를 들어, 과거의 거래가 제거되어 보존되거나 폐기될 수 있다.

도 2a에 도시된 예에서, 레코드(200)는 알파벳 순으로 정렬된 기본 키 값: A, AB, CZ, ... 로 식별된다. 시스템(100)은 기본 키 값 A - DD를 가진 N개의 레코드로 구성된 제1 세트를 압축해서, 대응하는 압축 블록(블록 1)을 생성한다. 다음 레코드 세트는, 기본 키 값 DX - GF를 갖는, 그 다음 N개의 정렬된 레코드를 포함한다. 압축 모듈(104)은 여러 무손실 데이터 압축 알고리즘(예컨대, Lempel-Ziv 타입 알고리즘) 중 어느 것이라도 사용할 수 있다. 각각의 연속하는 압축 블록을 결합하여, 압축 레코드 파일(202)을 형성할 수 있다.

압축 블록을 생성하기 위해 사용되는 레코드의 수 N은, 압축 효율과 압축 해제 속도 사이를 절충하도록 선택될 수 있다. 이러한 압축에 의해, 압축되는 데이터의 특성과 압축되는 데이터의 사이즈에 의존적인, 소정의 인자 R(예컨대, R은 더 많은 데이터가 압축될수록 작아짐)에 의해 평균적인 데이터의 사이즈를 감소시킬 수 있다. 압축은 또한 평균 사이즈 O의 연관된 오버헤드(예컨대, 압축 관련 데이터)를 가질 수 있다. 사이즈가 X인 M개의 레코드로부터 생성된 압축 레코드 파일의 평균 사이즈는

로 표현될 수 있고, 이 값은 많은 수의 블록에 대해서는 RMX + OM/N으로 근사될 수 있다. 따라서, 일부 경우에서는, N 값이 클 수록, R을 감소시키고 파일의 사이즈에 대한 오버헤드의 기여도를 감소시킴으로써, 더 높은 압축을 제공한다. N 값이 작을수록, 블록 내에 포함될 수 있는 레코드에 액세스하기 위해, 소정의 압축 블록을 압축 해제하는 데에 필요한 시간을 줄일 수 있다.

다른 구현예에서, 상이한 압축 블록은 상이한 수의 레코드를 포함할 수 있다. 각각의 블록은 미리 정해진 범위에 따른 수의 레코드를 포함할 수 있다. 예를 들어, 제1 블록은 기본 키 값 1 - 1000을 가진 레코드를 포함하고, 제2 블록은 기본 키 값 1001 - 2000을 가진 레코드를 포함한다. 본 구현예에서, 압축 블록 내의 레코드의 수는 다를 수 있는데, 이는 모든 기본 키 값이 반드시 존재하는 것은 아니기 때문이다(예를 들어, 기존의 수치적 필드가 자연 키로서 사용된 경우).

일부 구현예에서, 상이한 압축 블록은, 일부 경우에서 목적으로 하는 수의 레코드를 포함할 수 있으며, 예외적인 경우에는 더 많거나 더 적은 수의 레코드를 포함할 수 있다. 예를 들어, 레코드 세트가, 정렬된 순서에서 다음에 오는 레코드의 기본 키 값과 다른 기본 키 값을 가진 레코드로 종료하는 경우에, 이들 레코드는 압축 블록을 생성하기 위해 사용된다. 레코드 세트가, 정렬된 순서에서 다음에 오는 레코드의 기본 키 값과 동일한 기본 키 값을 가진 레코드로 종료하는 경우에는, 그 기본 키 값을 갖는 추가적인 모든 레코드가 레코드 세트에 추가된다. 이러한 방식으로, 이 동일한 기본 키 값은 하나의 압축 블록과 그 다음 압축 블록간에 중첩되지 않는다.

인덱싱 및 검색 모듈(108)은, 각 압축 블록에 대해, 인덱스 파일(204) 내에 엔트리를 생성한다. 인덱스 엔트리는 각 압축 블록을 식별하는 키 필드(206)를 포함하며, 예컨대, 대응하는 압축되지 않는 레코드 세트 내의 제1 레코드의 기본 키에 의해 의한다. 엔트리는 또한, 압축 레코드 필드(202) 내의 식별된 압축 블록의 저장 위치를 식별하는 로케이션 필드(208)를 포함한다. 예를 들어, 로케이션 필드는 레코드 스토리지(106) 내에 절대 주소의 형태, 또는 레코드 스토리지(106) 내의 압축 레코드 파일(202)의 시작 주소로부터 오프셋된 형태의 포인터를 포함할 수 있다.

압축 레코드 파일(202)에서 소정의 레코드를 검색하기 위해, 모듈(108)은 키 필드(206)에 기초하여 인덱스 파일(204)의 검색(예컨대, 이진 검색)을 수행할 수 있다. 제공된(예컨대, 에이전트들 중 하나에 의해 제공된) 키 값에 대하여, 모듈(108)은 제공된 키 값을 포함하는 키 값의 범위에 대응하는 레코드를 포함하는 블록을 위치 지정한다. 제공된 키 값을 갖는 레코드는, 위치 지정된 블록을 생성하기 위해 사용되는 레코드 세트에 포함되어 있을 수도 있고 포함되어 있지 않을 수도 있지만, 해당 레코드가 레코드(200)에 존재하고 있으면, 그 레코드는 포함되어 있을 것이다. 왜냐하면, 레코드(200)는 기본 키 값에 의해 정렬되어 있기 때문이다. 다음으로, 모듈(108)은 위치 지정된 블록을 압축 해제하고, 제공된 키 값을 가진 레코드를 검색한다. 기본 키 값이 각각의 레코드에 대해 고유하지 않은 경우에, 모듈(108)은 압축된 블록에서 제공된 키 값을 갖는 다수의 레코드를 찾을 수 있다. 키 필드(206)가 레코드 세트 내의 제1 레코드의 기본 키를 포함하는 예에서, 모듈(108)은, 제공된 키 값보다 앞선 키 값과 후속하는 키 값을 갖는 2개의 연속적인 인덱스 엔트리를 검색하고, 앞선 키 값을 가진 엔트리에 대응하는 블록을 리턴한다. 일부 경우에, 제공된 키 값은 인덱스 엔트리의 키 값과 동일할 수 있으며, 이 경우, 모듈(108)은 해당 엔트리에 대응하는 블록을 리턴한다.

다른 구현예에서, 인덱스 파일(204) 내의 엔트리에 대해, 해당 블록을 구성하는 레코드에 대응하는 키 값의 범위를 식별하기 위한 여러 가지 방법이 있다. 도 2a에 도시된 구현예에서와 같이, 키 값의 범위는 블록을 생성하기 위해 사용된 레코드의 2개의 극한값 사이의 범위가 될 수 있다(예컨대, 알파벳 순서의 기본 키 값의 정렬된 시퀀스에서의 첫 번째와 마지막 값, 또는 수치화한 기본 키 값의 정렬된 시퀀스에서의 최소 값과 최대 값). 인덱스 엔트리는 범위를 정하는 극한값 중 하나 또는 2개 모두를 포함할 수 있다. 일부 구현예에서, 인덱스 엔트리가 소정 블록에 대한 범위를 정하는 최소 키 값을 포함한다면, 압축 레코드 파일 내의 마지막 블록과 연관된 마지막 인덱스 엔트리는 그 블록에 대한 범위를 정하는 최대 키 값도 또한 포함할 수 있다. 이 최대 키 값은, 소정의 키 값이 범위를 벗어날 때를 판단하기 위해 압축 레코드 파일을 검색할 때에 사용될 수 있다.

이와 다르게, 키 값의 범위는 블록을 생성하기 위해 사용된 레코드의 키 값을 벗어나 확장된 범위일 수 있다. 예를 들어, 1 과 1000 사이의 수치화된 기본 키 값을 가진 레코드로부터 생성된 블록의 경우에, 레코드 내에 나타난 가장 작은 키 값은 1 보다 클 수 있으며, 레코드 내에 나타난 가장 큰 값은 1000 보다 작을 수 있다. 인덱스 엔트리는 범위를 정하는 극한값 1 과 1000 중의 하나 또는 모두를 포함할 수 있다.

레코드의 초기 그룹이 처리되어 압축 레코드 파일을 생성한 후에 추가적인 레코드가 입력된 경우, 이러한 레코드는 버퍼 내에 저장될 수 있으며 압축되지 않은 상태로 검색될 수 있다. 이와 다르게, 추가적인 레코드 그룹은, 추가적인 인덱스 파일에 의해 액세스 가능한 추가적인 압축 레코드 파일로서 점진적으로 처리되어 저장될 수 있다. 일부 경우에, 적은 수의 추가적인 레코드를 압축하는 것이 스토리지의 용량을 크게 감축하지 못하는 경우에도, 레코드에 액세스하기 위한 일정한 과정을 유지하기 위해, 추가적인 레코드를 압축하는 것이 여전히 바람직할 수 있다. 추가적인 레코드는 일정한 시간 간격(예컨대, 30초마다 또는 5분마다)으로, 또는 미리 정해진 수의 추가적인 레코드가 수신된 후(예컨대, 1000개의 레코드마다, 또는 10,000개의 레코드마다)에, 반복적으로 처리될 수 있다. 입력되는 레코드가 시간 간격에 기초해서 처리되는 경우, 일부 간격에서는, 입력되는 레코드가 없을 수 있거나, 모두가 단일의 압축 블록으로 압축되는 적은 수의 레코드가 있을 수 있다.

도 2b를 참조하면, 초기 압축 레코드 파일(202)이 생성된 후에, 시스템(100)에 의해 추가적인 레코드가 수신된 예에서, 추가적인 압축 레코드 파일(210)은 초기의 압축 레코드 파일(202)에 부가되어 복합의 압축 레코드 파일(211)을 형성할 수 있다. 시스템(100)은 추가적인 레코드를 기본 키 값에 의해 정렬하고, N개의 레코드로 구성된 레코드 세트를 압축해서, 압축 레코드 파일(210)의 압축 블록을 생성할 수 있다. 부가된 파일(210)에서의 제1 압축 블록(블록 91)은 기본 키 값 BA - FF를 가진다. 모듈(108)은, 부가된 파일(210) 내에 나타나는 추가적인 레코드를 검색하기 위해 사용될 수 있는 엔트리를 포함하는 추가적인 인덱스 파일(212)을 생성한다. 새로운 인덱스 파일(212)은 이전 인덱스 파일(204)에 부가될 수 있다.

임의의 수의 압축 레코드 파일이 복합의 압축 레코드 파일을 형성하기 위해 부가될 수 있다. 인덱싱 및 검색 모듈(108)이 복합의 압축 레코드 파일 내에서 소정의 키 값을 갖는 레코드를 검색하는 경우, 모듈(108)은 대응하는 인덱스 파일을 사용하여 각각의 부가된 압축 레코드 파일 내의 레코드를 검색한다. 이와 다르게, 소정의 레코드를 요청하는 에이전트는 검색할 복합의 압축 레코드 파일을 가진 임의의 수(예컨대, 가장 최근에 생성한 10개 또는 지난 1시간 동안 생성된 것)의 압축 레코드 파일을 특정할 수 있다.

소정의 시간의 경과 후(예컨대, 24시간마다) 또는 소정의 수의 압축 레코드 파일이 부가된 후에, 시스템(100)은 파일을 통합해서, 복합의 압축 레코드 파일 및 대응하는 새로운 인덱스 파일로부터 단일의 압축 레코드 파일을 생성할 수 있다. 통합 후에, 단일의 인덱스는, 소정의 레코드를 포함할 수 있는 압축 블록을 위치 지정하기 위해 검색될 수 있으며, 이로 인해 보다 효율적인 레코드 액세스가 가능해진다. 통합이 되는 동안, 시스템(100)은 압축 레코드 파일을 압축 해제하여, 대응하는 정렬된 레코드 세트를 복원하고, 이러한 레코드를 기본 키 값에 의해 정렬하며, 새로운 압축 레코드 파일 및 인덱스를 생성한다. 각각의 복원된 레코드 세트는 이미 정렬되어 있기 때문에, 레코드는 기본 키 값에 따라 이전에 정렬된 리스트를 병합함으로써 효과적으로 정렬되어 단일의 정렬된 레코드 세트를 생성할 수 있다.

도 2c를 참조하면, 복합의 압축 레코드 파일(211)은, 초기의 압축 레코드 파일(202), 추가적인 압축 레코드 파일(210), 및 입력되는 추가적인 레코드의 수와 레코드가 처리되는 빈도 수에 따라 다수의 추가적인 압축 레코드 파일(220, 221, ...)을 포함한다. 각각의 압축 레코드 파일은, 해당 파일의 압축 블록 내의 소정의 레코드를 검색하기 위해 사용될 수 있는 연관된 인덱스 파일을 가질 수 있다. 본 예에서, 압축 레코드 파일(220) 중 하나는, 단일의 압축 블록(블록 95)만을 포함할 정도로 충분히 작기 때문에, 연관된 인덱스 파일을 반드시 필요로 하는 것은 아니지만, 블록 내의 기본 키 값의 범위와 스토리지 내의 해당 위치를 나타내는 연관된 데이터를 포함할 수 있다. 통합 후에, 부가된 여러 압축 레코드 파일로부터 복원된 레코드가 처리되어 단일의 압축 레코드 파일(230)을 생성할 수 있다.

단조적으로 할당된(monotonically assigned) 기본 키의 경우에, 레코드는 압축 레코드 파일 내에서뿐만 아니라 하나의 파일에서 다음 파일까지 자동으로 정렬되기 때문에, 단일의 인덱스 검색에서 레코드를 액세스하기 위해 파일을 통합할 필요가 없다. 도 2d를 참조하면, 시스템(100)은 도달 순서대로 할당된 연속하는 정수에 의해 식별된 레코드(250)의 세트를, 레코드에 대한 기본 키로서 수신한다. 따라서, 레코드(250)는 기본 키에 의해 자동으로 정렬된다. 초기의 압축 레코드 파일(252)은, 본 예에서, 100개의 레코드를 각각 포함하는 압축 블록을 포함하고, 인덱스 파일(254)은 압축 블록에서 제1 레코드의 기본 키 값에 대한 키 필드(256)와, 대응하는 스토리지 위치를 식별하는 로케이션 필드(258)를 포함한다. 초기의 압축 레코드 파일(252)이 생성된 후에 입력되는 레코드는 정렬 순서에서 더 나중의 기본 키 값을 자동으로 갖기 때문에, 부가된 압축 레코드 파일(260)과 이에 대응하는 인덱스 파일(262)은 단일의 인덱스 검색에 기초하여 효과적인 레코드 액세스를 가능하게 하기 위해 통합을 행하지 않아도 된다. 예를 들어, 인덱스 파일(262)은 인덱스 파일(254)에 간단히 부가될 수 있으며, 이 인덱스들은, 압축 레코드 파일(252 또는 260) 중 하나에 압축 블록을 위치 지정하기 위해 함께 (예컨대, 단일의 이진 검색으로) 검색될 수 있다.

복합의 압축 레코드 파일(261)은 압축 레코드 파일(252)의 끝에 삽입되어 있을 수 있는 불완전한 블록을 제거하기 위해 선택적으로 통합될 수 있다. 이러한 통합에 있어서, 제1 파일(252)에서 마지막으로 압축된 블록만이 압축 해제되어야 할 필요가 있을 것이며, 압축 해제된 레코드 세트를 병합하는 대신에, 레코드 세트는, 100개의 레코드로 구성된 레코드 세트로 분할되고 새롭게 압축된 레코드 파일을 형성하기 위해 다시 압축될, 새롭게 정렬된 레코드 세트를 형성하기 위해 단순히 연계(concatenation)될 수 있다.

연속하는 정수 합성 기본 키 값을 사용하는 또 다른 장점은, 레코드가 기본 키 값에 기초하여 분할될 예정인 경우에, 이러한 분할은 키 값에 갭이 존재하지 않기 때문에 자동으로 균형이 맞춰질 수 있다는 점이다.

레코드를 갱신하고, 압축 레코드 파일에 존재할 수 있는 레코드의 임의의 이전 버전을 무효화하기 위해 다양한 기술이 사용될 수 있다. 일부 경우에, 레코드는 개별적으로 제거하거나 갱신될 필요가 없다(예컨대, 로그, 거래, 전화 통화). 이러한 경우에, 과거의 레코드는, 예컨대, 압축 레코드 파일의 시작 부분으로부터, 제거되어 폐기되거나 미리 정해진 수의 압축 블록의 그룹 형태로 보존된다. 일부의 경우에, 압축된 레코드 파일의 전부가 제거될 수 있다.

일부 경우에, 레코드의 하나 이상의 값은, 압축 블록에의 저장을 위해 새롭게 갱신된 레코드를 추가함으로써 갱신되고, 이전에 수신한 버전의 레코드(동일한 기본 키 값을 가짐)는 다른 압축 블록에 저장된 상태로 남아 있을 수 있다. 그러면, 다수의 버전의 레코드가 존재할 수 있고, 어느 것이 레코드의 유효한 버전인지를 판단하기 위해 몇 가지 기술이 사용될 수 있다. 예를 들어, 임의의 압축 레코드 파일에 보이는 최신 버전(가장 최근에 수신한 것)이 유효한 버전으로 묵시적 또는 명시적으로 표시될 수 있으며, 그 외의 다른 버전은 무효가 된다. 이 경우에, 소정의 기본 키를 가진 레코드에 대한 검색은, 해당 기본 키에 의해 식별된 최신 레코드를 출현의 순서로 찾아내는 과정을 포함될 수 있다. 이와 다르게, 레코드는 반드시 새로운 버전의 레코드를 추가하지 않고도, 임의의 이전 버전의 레코드가 유효하지 않다는 것을 나타내는 "레코드의 무효화"를 기재함으로써, 무효화될 수 있다.

시스템(100)은 레코드 스토리지(106)에 저장된 압축 레코드 파일에 대한 액세스를 여러 가지 프로세스에 의해 조정한다. 하나 이상의 압축 레코드 파일 내의 압축 블록에 대한 액세스를 조정하기 위해 다양한 동기화 기술이 사용될 수 있다. 시스템(100)은, 파일을 변경(예컨대, 데이터의 부가 또는 통합)하는 어떤 프로세스도 다른 프로세스에 영향을 주지 않도록 보장한다. 예를 들면, 통합을 행하는 동안 새로운 레코드가 도착하면, 시스템(100)은 통합 과정이 완료될 때까지 대기하거나, 압축 블록을 생성하여 생성한 압축 블록을 기존의 압축 레코드 파일에 부가하기 전에 임시적으로 저장할 수 있다. 압축 레코드 파일로부터 판독을 하는 프로세스는 완성된 파일의 일부를 로드할 수 있으며, 변경의 대상이 될 수 있는 미완성 부분은 무시할 수 있다.

시스템(100)은, 기본 키 이외에, 레코드의 속성에 기초해서 레코드를 검색할 수 있도록 하는 부가적인 데이터를 저장한다. 압축 레코드 파일에 대한 보조 인덱스는, 보조 키로서 지정된 속성의 값에 기초한 하나 이상의 기본 키 값을 제공하는 정보를 포함한다. 보조 키로서 지정된 각각의 속성은 대응하는 보조 인덱스와 연관될 수 있다. 예를 들어, 각각의 보조 인덱스는 연관된 보조 키에 의해 정렬된 행을 갖는 표로서 구성될 수 있다. 각각의 행은 보조 키 값 및 이러한 보조 키 값을 포함하는 레코드의 하나 이상의 기본 키 값을 포함한다. 따라서, 에이전트가 소정의 보조 키 값을 포함하는 임의의 레코드를 검색하기 시작하면, 시스템(100)은, 레코드(들)을 포함하는 압축 블록(들)에 대한 압축 레코드 파일의 인덱스를 검색하는 데 사용하기 위해 기본 키를 조사한다. 보조 인덱스는 (예컨대, 레코드의 수에 따라) 커질 수 있으며, 일부 경우에는, 압축 레코드 파일을 저장하는 저장 매체에 저장될 수 있다.

일부 경우에, 보조 키로서 지정된 속성의 값은 각각의 레코드에 대해 고유할 수 있다. 이러한 경우, 보조 키와 기본 키 사이에 일대일 대응관계가 존재하고, 인터페이스 모듈(112)은, 보조 키 속성을, 마치 기본 키인 것처럼 에이전트에 제공할 수 있다.

각각의 보조 인덱스는, 새로운 압축 레코드 파일이 복합의 압축 레코드 파일에 부가됨에 따라 갱신될 수 있다. 이와 다르게, 보조 키는 각각의 압축 레코드 파일에 대한 다른 보조 인덱스와 연관될 수 있으며, 보조 인덱스는 압축 레코드 파일이 통합될 때에 단일의 보조 인덱스로 통합될 수 있다.

소정의 속성 값을 포함하는 레코드가 파일의 압축 블록에 포함될 가능성을 판단하기 위해, 스크리닝 데이터 구조(screening data structure)(116)가 압축 레코드 파일과 연관될 수 있다. 예를 들어, 중첩 부호화 서명(OES: overlap encoded signature)을 스크리닝 데이터 구조로서 이용함으로써, 시스템(100)은, 소정의 키 값(기본 키 또는 보조 키)을 가진 레코드가 존재하지 않음이 명백한지("부정" 결과), 또는 소정의 키 값을 가진 레코드가 존재할 가능성이 있는지("긍정" 결과)를 판단할 수 있다. 긍정 결과에 대해, 시스템은 레코드를 인출하거나("확정된 긍정" 결과), 레코드가 존재하지 않는다고 판단("거짓 긍정" 결과)하기 위해, 적당한 압축 블록을 액세스한다. 부정 결과에 대해, 시스템은, 존재하지 않는 레코드에 대해 압축 블록을 압축 해제하고 검색하는 데에 시간을 소모하지 않고, 부정 결과를 에이전트에 제공할 수 있다. OES의 사이즈는, 긍정 결과가 거짓 긍정이 되는 빈도 수에 영향을 미치고, 상이한(즉, 고유한) 가능한 키 값의 소정의 개수에 대해 OES의 사이즈가 클수록, 대체로 거짓 긍정 결과가 더 적어진다. 소정의 OES 사이즈에 대해, 상이한 가능한 키 값이 적을수록 대체로 거짓 긍정이 적어진다.

다른 유형의 스크리닝 데이터 구조도 가능하다. 압축 블록의 세트를 포함하는 각각의 압축 레코드 파일에 대해 소정의 기본 또는 보조 키에 대한 스크리닝 데이터 구조가 제공될 수 있다. 이와 다르게, 각각의 압축 블록에 대해, 또는 압축 레코드 파일 내의 압축 블록의 다수의 세트 각각에 대해, 키에 대한 스크리닝 데이터 구조가 제공될 수 있다.

도 3a 및 3b는, 예시적인 OES 스크리닝 데이터 구조의 다양한 사이즈(열)와 압축 레코드 파일에 나타난 상이한 키 값의 다양한 개수(행)에 대한 키 값에 대한 거짓 긍정 결과를 획득하기 위한 확률 값을 제공하는 표를 나타낸다. OES에 대해, OES의 사이즈 및 상이한 키 값의 개수에 따라, 둘 이상의 키 값의 존재가 OES의 동일한 부분에 표시되며, 만일 이들 키 값들 중 어느 하나가 존재하면, 잠재적으로 다른 하나에 대해 거짓 긍정 결과가 생길 수 있다. 이러한 예시적인 OES의 사이즈는 2¹⁰= 1024 비트(도 3a의 표)에서 2²⁸= 256 메가비트(도 3b의 표)까지 변화한다. 상이한 키 값의 개수는 100(도 3a의 표)에서 100,000,000(도 3b의 표)까지 변화한다. 이 2개의 표에서, 우측 상단의 빈 셀은 0%에 해당하며, 좌측 하단의 빈 셀은 100%에 해당한다. 거짓 긍정 확률이 낮은(예컨대, 0에 가까운) 셀에 대해, 스크리닝 데이터 구조는 적절한 스크리닝을 제공하기 위해 필요한 것보다 커질 수 있다. 거짓 긍정 확률이 큰(예컨대, 50% 초과) 셀에 대해서는, 스크리닝 데이터 구조가 너무 작아서 적절한 스크리닝을 제공하지 못할 수 있다. 본 예는 하나의 키 값 당 4개의 해시 코드(hash code)를 사용해서 OES를 생성하는 기술에 해당한다. OES 스크리닝 데이터 구조의 다른 예는, 소정의 수의 상이한 키에 대해 거짓 긍정 확률의 다른 표를 제공할 수 있다.

압축 레코드 파일에 나타난 상이한 키 값의 수는 알려져 있지 않을 수 있기 때문에, 시스템(100)은 압축 레코드 파일에 대한 스크리닝 데이터 구조의 사이즈를, 해당 파일이 생성된 레코드의 수에 기초해서 선택할 수 있다. 사이즈를 선택함에 있어서, 거짓 긍정 확률의 감소와, 스크리닝 데이터 구조를 저장하기 위해 필요한 메모리 공간과의 절충이 있다. 이러한 절충에서의 하나의 인자는 존재하지 않는 키 값을 검색할 가능성이다. 조사할 키 값의 대부분이 압축 해제된 레코드 내에 존재할 가능성이 있다면, 스크리닝 데이터 구조는 전혀 필요하지 않을 것이다. 키 값이 발견되지 않을 가능성이 크다면, 상대적으로 큰 스크리닝 데이터 구조에 대한 저장 공간의 할당에 의해 상당한 시간이 절약될 것이다.

압축 레코드 파일과 연관된 스크리닝 데이터 구조의 사이즈는, 해당 파일이 초기의 또는 통합된 레코드의 커다란 데이터베이스인지, 아니면 더 큰 데이터베이스에 대해 더 작은 갱신에 해당하는지 여부에 의존적일 수 있다. 비교적 작은 스크리닝 데이터 구조의 사이즈는, 정규의 갱신 간격 동안 부가된 압축 레코드 파일에 대해 사용될 수 있는데, 이는 각각의 갱신에서 일반적으로 더 적은 수의 상이한 키가 존재하기 때문이다. 또한, 사이즈가 작으면, 많은 갱신 이후에 압축 레코드 파일의 수가 증가함에 따라, 필요한 저장 공간을 감소시킬 수 있다. 스크리닝 데이터 구조의 사이즈는, 예상된 수의 레코드 및/또는 갱신에서의 상이한 키 값, 예상된 수의 갱신에 기초할 수 있다. 예를 들어, 갱신된 파일이 24 시간 동안 5분마다 부가된다면, 하루가 끝나는 시점에서는 288개의 압축 레코드 파일이 생길 것이다. 적어도 하나의 거짓 긍정 결과가 생길 확률은 도 3a 및 도 3b의 표로부터 적절한 값의 288배가 될 것이다(다른 갱신에 대한 결과는 독립적이라고 가정함). 통합 이후, 통합된 압축 레코드 파일에 대해 더 큰 스크리닝 데이터 구조가 적합할 수 있는데, 이는 상이한 키 값의 수가 크게 증가할 수 있기 때문이다.

압축 레코드 파일은, 기본 키, 각각의 보조 키, 또는 키의 일부 서브세트에 대한 스크리닝 데이터 구조를 가질 수 있다. 예를 들어, 시스템(100)은 기본 키와, 레코드를 검색하는 데에 가장 자주 사용될 것으로 예상되는 이러한 보조 키에 대해서만 스크리닝 데이터 구조를 제공할 수 있다.

도 4a는 소정의 기본 키 값을 가진 하나 이상의 레코드를 검색하기 위한 과정(400)에 대한 흐름도를 도시한다. 이 과정(400)은 제1 압축 레코드 파일과 연관된 스크리닝 데이터 구조가 존재하는지 여부를 판단한다(402). 이러한 스크리닝 데이터 구조가 존재한다면, 과정(400)은 긍정 결과 또는 부정 결과를 얻기 위해 스크리닝 데이터 구조를 처리한다(404). 소정의 기본 키 값이 스크리닝을 통과하지 못한다면(부정 결과), 과정(400)은 다음 압축 레코드 파일을 검사하고(406), 이러한 파일이 존재하면 해당 파일에 대해 검사를 반복한다. 소정의 기본 키 값이 스크리닝을 통과한다면(긍정 결과), 과정(400)은 소정의 기본 키 값을 가진 레코드를 포함할 수 있는 블록에 대한 인덱스를 검색한다(408). 압축 레코드 파일과 연관된 스크리닝 데이터 구조가 없다면, 과정(400)은 스크리닝을 수행하지 않고 인덱스를 검색한다(408).

인덱스의 검색 과정(408)이 완료된 후, 소정의 기본 키 값을 포함하는 키 값의 범위와 연관된 압축 블록이 발견된 경우(410), 과정(400)은 인덱스 엔트리에 의해 식별된 위치에 있는 블록을 압축 해제하고(412), 소정의 기본 키 값을 가진 하나 이상의 레코드에 대한 결과 레코드를 검색(414)한다. 과정(400)은, 그 후, 다음의 압축 레코드 파일을 검사하고(416), 그것이 존재할 때까지 해당 파일에 대해 이를 반복한다. 압축 블록이 발견되지 않으면(예컨대, 소정의 기본 키 값이 제1 블록에서의 최소 키 값보다 작거나, 마지막 블록에서의 최대 키 값보다 큰 경우), 과정(400)은 다음 압축 레코드 블록을 검사(416)하고, 그것이 존재할 때까지 이를 반복한다.

도 4b는 소정의 기본 키 값을 가진 하나 이상의 레코드를 검색하기 위한 과정(450)에 대한 흐름도를 도시한다. 이 과정(450)은 제1 압축 레코드 파일과 연관된 스크리닝 데이터 구조가 존재하는지 여부를 판단한다(452). 이러한 스크리닝 데이터 구조가 존재한다면, 과정(450)은 긍정 결과 또는 부정 결과를 얻기 위해 스크리닝 데이터 구조를 처리한다(454). 소정의 보조 키 값이 스크리닝을 통과하지 못한다면(부정 결과), 과정(450)은 다음 압축 레코드 파일을 검사하고(456), 이러한 파일이 존재하면 해당 파일에 대해 검사를 반복한다. 소정의 보조 키 값이 스크리닝을 통과한다면(긍정 결과), 과정(450)은 소정의 보조 키를 포함하는 레코드에 대응하는 기본 키를 조사한다(458). 압축 레코드 파일과 연관된 스크리닝 데이터 구조가 없다면, 과정(450)은 스크리닝을 수행하지 않고 기본 키를 검색한다(458).

발견된 각각의 기본 키에 대해, 과정(450)은 소정의 기본 키 값을 가진 레코드를 포함할 수 있는 블록에 대한 인덱스를 검색한다(460). 인덱스의 검색 과정(460)이 완료된 후, 소정의 기본 키 값을 포함하는 키 값의 범위와 연관된 압축 블록이 발견된 경우(462), 과정(450)은 인덱스 엔트리에 의해 식별된 위치에 있는 블록을 압축 해제하고(464), 소정의 기본 키 값을 가진 하나 이상의 레코드에 대한 결과 레코드를 검색(466)한다. 과정(450)은, 그 후, 다음의 압축 레코드 파일을 검사하고(468), 그것이 존재할 때까지 해당 파일에 대해 이를 반복한다. 압축 블록이 발견되지 않으면(예컨대, 소정의 기본 키 값이 제1 블록에서의 최소 키 값보다 작거나, 마지막 블록에서의 최대 키 값보다 큰 경우), 과정(450)은 다음 압축 레코드 블록을 검사(468)하고, 그것이 존재할 때까지 이를 반복한다.

소정의 기본 키 또는 보조 키를 가진 다수의 레코드는, 출현의 순서대로 과정(400) 또는 과정(450)에 의해 리턴되거나, 또는 일부 경우에서는, 레코드의 최신의 버전만이 리턴될 수 있다.

상술한 바와 같이, 거짓 긍정을 리턴하는 스크리닝 데이터 구조의 확률은 스크리닝 데이터 구조의 사이즈(데이터 구조가 클수록 거짓 긍정의 확률이 감소함) 및 블록에 저장된 레코드의 그룹을 식별하기 위한 데이터 구조에 나타난 상이한 키의 개수(스크리닝 데이터 구조가 사용되는 블록의 개수와 함께 증가하는 경향이 있는, 상이한 키의 개수가 클수록 거짓 긍정의 확률이 증가함)의 함수로서 측정될 수 있다. 따라서, 스크리닝 데이터 구조의 사이즈를 제어하는 것은 거짓 긍정 결과의 확률에 영향을 미치기 위한 하나의 방법이 된다. 그러나, 거짓 긍정의 수용 가능한 확률을 달성하는데 필요한 것보다 더 큰 사이즈를 선택하는 것은, 부족한 스토리지 공간을 불필요하게 많이 사용할 수 있다. 수용 가능한 확률은, 예컨대, 사용자 입력을 기초로 판단될 수 있다.

일부 구현예에서, 소정의 그룹의 레코드에 대해 필요한 스크리닝 데이터 구조의 적당한 사이즈를 선택하기 위해, 레코드가 수신된 때, 이러한 레코드와 연관된 상이한 키는, 레코드가 수신되어 압축 블록에 저장되는 동안에, 메모리에 축적된다. 이후, 이러한 축적에 기초하여, 거짓 긍정의 미리 정해진 확률 P를 달성하기 위해 필요한 스크리닝 데이터 구조의 사이즈는, 메모리의 상이한 키의 개수를 카운팅(counting)함으로써 판단될 수 있다. 다음으로, 레코드 처리 모듈(102)은 판단된 사이즈를 가지는 스크리닝 데이터를 생성한다. 따라서, 스크리닝 데이터 구조는 그룹 내의 모든 레코드가 수신되기 전까지는 생성되지 않는다. 그러므로, 스크리닝 데이터 구조의 사이즈는 축적된 상이한 키의 개수를 기초로 판단될 수 있고, 확률 P를 달성하기에 불필요할 정도로 크지는 않게 될 것이다. 그러나, 키를 메모리에 저장하는 것은, 어떤 시스템에서는 비교적 한정된 것일 수 있는, 시스템 자원(예컨대, 휘발성 메모리)을 사용한다. 또한, 키가 보다 용량이 큰 스토리지(예컨대, 비휘발성 메모리)에 저장된 경우에, 이러한 기술은 저장된 키를 액세스하는 입력/출력(I/O) 비용을 증가시킬 수 있다. 일부 구현예에서는, 판단되지 않은 상이한 키 및/또는 많은 수의 상이한 키를 축적하기를 기다리거나 모든 레코드가 수신될 때까지 기다릴 필요가 없이, 거짓 긍정률을 한정하기 위해 그룹 내의 레코드가 수신되는 동안에 하나 이상의 스크리닝 데이터 구조가 적응적으로(adaptively) 생성될 수 있다. 이러한 적응적인 기술에서, 레코드의 그룹은 레코드의 키가 정렬된 순서로 수신된다. 예를 들어, 일부 경우에서, 레코드는, 레코드 처리 모듈(102)에 의해 수신되는 것으로 알려진 자연 기본 키를 가지고, 이러한 키에 따라 이미 정렬되어 있다. 다른 경우에서, 레코드는 레코드 처리 모듈(102)에 의해 할당된 합성 기본키를 가지고, 레코드는 이러한 할당된 키(예컨대, 증가하는 정수, 또는 타임스탬프, 또는 기타 단조적으로 증가하는 값)에 따라 정렬되어 있다. 할당된 합성 키 또한 고유하다면, 상이한 키가 수신된 개수를 판단하기 위해 상이한 키를 메모리에 저장할 필요가 없고, 대신에, 상이한 키가 수신된 개수를 판단하기 위해 수신된 레코드의 개수의 카운트(count)가 증가될 수 있다.

일부 경우에서, 레코드의 그룹은, 배치(batch) 처리 모드에서 처리될 레코드의 단일의 배치에 대응한다. 예를 들면, 배치에서 최종 레코드는 미리 정해진 토큰 또는 메시지로 나타내어질 수 있다. 다른 경우에서, 레코드의 그룹은, 반복되는 구분자에 의해 분리되는 연속적인 스트림의 구분된 섹션 중 하나에 대응한다. 임의의 연속된 구분자의 쌍 사이에서, 레코드의 그룹은, 상술한 바와 같이, 키에 따라 정렬된다.

그룹에 대한 스크리닝 데이터 구조를 생성하기 위해 그룹 내의 모든 레코드를 수신한 후까지 기다릴 필요 없이, 레코드 처리 모듈(102)은 레코드를 수신함에 따라 미리 정해진 사이즈 S의 스크리닝 데이터 구조를 생성하기 시작할 수 있다. 일단 사이즈가 판단되면, 레코드가 도착함에 따라, 예컨대, 비트맵의 비트를 설정함으로써, 스크리닝 데이터 구조가 형성될 수 있다. 스크리닝 데이터 구조와 연관된 상이한 키의 개수가 증가함에 따라 (그리고 설정된 비트의 개수가 증가함에 따라), 거짓 긍정의 확률 역시 증가한다. 거짓 긍정의 확률이 P에 도달하기 전에 그룹의 끝에 도달하면, 필요에 따라, 거짓 긍정의 확률이 P에 근접하게 되도록 하기 위해, 상이한 키의 실제 개수에 기초하여, 스크리닝 데이터 구조의 사이즈도 감축될 수 있다. (지금까지의 상이한 키의 개수에 기초하여) 거짓 긍정의 확률이 P에 도달한다면, 제1 스크리닝 데이터 구조는 저장될 수 있고, 크기가 S인 제2 스크리닝 데이터 구조가 생성되기 시작할 수 있다. 수신된 다음의 레코드와 연관된 새로운 상이한 키를 축적하기 위한 공간을 만들기 위해, 메모리에 저장된 임의의 상이한 키가 폐기될 수 있다. 이러한 과정은 그룹 내의 최종 레코드가 수신되는 때까지 계속된다. 소정의 그룹의 레코드에 대해서, 하나 이상의 스크리닝 데이터 구조가 존재할 것이고, 그 각각은 거짓 긍정의 미리 정해진 확률(예컨대, P가 되거나 P에 근접하는 확률)을 얻기 위해 선택된 사이즈를 가지며, 각각은 임의의 많은 개수의 상이한 키를 축적할 필요가 없이, 그리고 최종 레코드를 수신할 때까지 기다릴 필요가 없이 생성된다. 그룹 내의 레코드는 레코드의 키에 의해 정렬된 순서로 수신되기 때문에, 해당 그룹에 대한 각각의 스크리닝 데이터 구조는 (만일 다수의 스크리닝 데이터 구조가 있다면) 중첩되지 않는 상이한 범위의 키 값에 대응한다.

사이즈 S는, 시스템(100)의 특성과 같은, 임의의 다양한 인자에 기초하여 선택될 수 있다. 예를 들면, 사이즈 S는, 해당 시스템에서 효율적으로 액세스될 수 있는 최대 사이즈를 기초로 할 수 있다. 일부 구현예에서, 미리 정해진 사이즈의 해시 값(예컨대, 32 비트 해시)은 기본 키로부터 생성되고, 사이즈 S는 미리 정해진 해시 값의 사이즈에 기초하여 선택될 수 있다.

일부 구현예에서, 둘(또는 그 이상)의 스크리닝 데이터 구조가 병렬적으로 생성될 수 있다. 예를 들면, (확률 P를 이루는 K개의 상이한 키와 함께) 사이즈가 S인 스크리닝 데이터 구조가 생성될 수 있고, (확률 P를 이루는 K/2개의 상이한 키와 함께) 사이즈가 S/2인 스크리닝 데이터 구조가 생성될 수 있다. 그룹 내의 레코드의 상이한 키의 실제 개수에 기초하여, 데이터 구조 중 하나가 선택(및 필요에 따라 적당한 사이즈로 감축)될 수 있고, 다른 데이터 구조는 폐기될 수 있다. 예를 들면, 상이한 키의 개수가 K/2보다 작거나 같다면, 사이즈가 S/2인 스크리닝 데이터 구조가 사용될 수 있고, 필요에 따라 확률 P를 이루기 위해 감축될 수 있다. 상이한 키의 개수가 K와 K/2 사이라면, 사이즈가 S인 스크리닝 데이터 구조가 사용될 수 있고, 필요에 따라 확률 P를 이루기 위해 감축될 수 있다. 상이한 키의 개수가 K를 넘는다면, 사이즈가 S인 스크리닝 데이터 구조는 저장되고, 제2 스크리닝 데이터 구조가 (동인한 병렬 기술을 사용하여) 생성될 수 있다. 제2 스크리닝 데이터 구조를 병렬로 생성하는 비용은, 상이한 키의 실제 개수에 대한 원하는 확률 P를 이루기 위해 필요한 최적의 사이즈에 근접함으로써 이룰 수 있는 절약된 비용보다 적을 수 있다.

일부 구현예에서, 레코드의 개수(및 그에 따른 상이한 키의 개수)가 적은 경우에 대해 적응적으로 스크리닝 데이터 구조를 생성하는 시간은 더욱 감축될 수 있다. 일부 구현예에서, 사이즈가 S/2인 스크리닝 데이터 구조로 시작한 다음, 상이한 키의 개수에 기초하여 적당한 사이즈로 감축하는 것은, 감축을 수행하기 위해 필요한 오퍼레이션(operation)의 개수로 인해 비교적 느릴 수 있다(예컨대, "폴드(fold) 오퍼레이션"을 사용하여, 2¹⁶ 비트의 사이즈를 2¹⁰ 비트의 사이즈로 감축시키는 것은 6번의 폴드를 사용하여야 달성된다). 레코드가 수신됨에 따라 복수의 스크리닝 데이터 구조를 병렬적으로 생성하는 대신에, 키는 인-메모리 키 버퍼(in-memory key buffer)에, 키 버퍼가 가득 차거나 그룹에 더 이상의 레코드가 남아있지 않을 때까지, 축적될 수 있다. 키 버퍼가 가득 차게 된다면, 버퍼된 키는 적당한 사이즈(예컨대, 사이즈 S)의 스크리닝 데이터 구조를 생성하기 위해 사용될 수 있다. 키 버퍼는 그 후 폐기되고, 그룹 내의 다음의 레코드 전체의 키는 그 후, 이들 레코드가 수신됨에 따라, 또 다른 스크리닝 데이터 구조를 생성하기 위해 사용될 수 있다. 키 버퍼가 가득 차기 전에 그룹 내의 모든 레코드가 수신된다면, 그렇지 않았을 경우 (적은 수의 상이한 키의) 해당 경우에서 요구될 수 있는, 어떠한 감축 오퍼레이션을 하지 않고도, 적당한 사이즈의 스크리닝 데이터 구조가 버퍼된 키로부터 생성될 수 있다.

다음은, 가정된 개수의 상이한 키에 대한 소정의 타겟(target) 거짓 긍정 확률에 대응하는, 최대 사이즈 S가 2¹⁶ 비트(또는 8 킬로바이트)의 비트맵인 스크리닝 데이터 구조를 생성하는 예를 든 것이다. 이 구현예에서, 16 비트 주소는 비트맵에서 모든 비트를 어드레싱하기에 충분하다. 입력되는 레코드가 수신됨에 따라, 레코드의 키는 해싱이 되어 32 비트 해시 값을 생성한다. 이러한 해시의 최하위 16 비트는 대응하는 키에 대해 설정된 비트맵에서 비트의 위치를 판단하기 위해 사용된다. 그룹 내의 모든 레코드가 수신된 후에, 예컨대, 상이한 키의 개수를 기초로 최적의 비트맵 사이즈가 2¹⁰ 비트라면, 비트맵은 2¹⁶ 비트에서 2¹⁰ 비트로 감축될 수 있다. 사이즈가 2¹⁶ 인 비트맵이 동일한 사이즈의 두 부분으로 나누어진다면, 각각의 사이즈가 2¹⁵ 인 비트맵이 두 개 존재하게 된다. 논리적 "OR" 오퍼레이션을 사용함으로써 두 비트맵의 각각의 비트를 함께 결합하면 사이즈가 2¹⁵ 비트인 폴드된(folded) 비트맵을 얻을 수 있다. 이것이 하나의 폴드 오퍼레이션이다. 이러한 폴드 오퍼레이션을 5 번 더 반복함으로써(결국 6번의 폴드 오퍼레이션), 사이즈가 2¹⁰ 비트인 비트맵을 얻을 수 있고, 이 비트맵은 32 비트 해시 값의 최하위 10 비트를 사용하여 어드레싱될 수 있다. 사이즈가 2¹⁰ 비트인 비트맵은 사이즈가 2¹⁶ 비트인 비트맵보다 더 높은 거짓 긍정률을 가진다. 그러나, 가정된 개수의 상이한 키보다 더 적은 개수의 상이한 키를 수신하기 때문에, 비트맵은 여전히 소정의 타겟 거짓 긍정 확률을 이루고 있다.

스크리닝 데이터 구조를 생성하기 위해 적응적인 접근 방법을 사용함으로써, 다수의 스크리닝 데이터 구조가 존재할 수 있고, 이들 각각은 기본 키에 의해 정렬된 순서에 있는 블록의 그룹에 저장된, 레코드의 그룹의 상이한 서브세트를 스크리닝하기 위해 사용될 수 있다. 따라서, 다수의 스크리닝 데이터 구조 각각은 블록의 그룹의 대응하는 상이한 서브세트와, 그리고 이러한 블록에 저장된 레코드에 대응하는 상이한 범위의 키 값에 연관되어 있다. 그룹 내의 모든 레코드에 대한(예컨대, 단일의 압축 레코드 파일에 저장된) 블록은, 소정의 레코드가 저장되어 있을 수 있는 블록이 어떤 것인지 판단하는 인덱스를 사용하여 위치되고 검색될 수 있다. "블록 인덱스 검색"에서, (예컨대, 이진 검색을 사용하여) 소정의 레코드를 포함할 수 있는 단일의 블록이 발견될 수 있다. 일부 경우에, 인덱스를 검색할 때, 소정의 레코드를 포함할 수 있는 단일의 블록을 위치결정할 필요는 없지만, 이하 더욱 상세하게 설명된 바와 같이, 소정의 레코드의 키가 대응하는 스크리닝 데이터 구조에 의해 스크리닝되는 다수의 블록에 걸쳐 있는 키 값의 범위 내에 있는지 여부를 판단하기 위해, "블록 범위 인덱스 검색"을 수행해야 할 필요가 단지 있을 수 있다. 이러한 블록 범위 인덱스 검색을 용이하게 하기 위해, 이하 더욱 상세하게 설명된 바와 같이, 각각의 스크리닝 데이터 구조와 관련하여, 인덱싱 및 검색 모듈(108)은 대응하는 범위의 키 값의 인디케이션(indication)을 저장할 수 있다.

과정(400) 및 과정(450)은, 블록의 그룹과 연관된 다수의 스크리닝 데이터 구조의 각각을 검사하고, 그 뒤에 하나 이상의 긍정 결과의 경우의 레코드를 포함할 수 있는 블록이 어떤 블록인지 판단하기 위해 인덱스를 검색함으로써 레코드를 검색하기 위해 사용될 수 있다. 그러나, 긍정 결과는 거짓 긍정일 수 있기 때문에, (불필요하게 실행되는 경우 검색 과정을 현저히 느려지게 하는, 실행하기에 비용이 큰 액션인) 레코드를 찾기 위해 블록을 위치시키고 압축 해제하기 이전에, 적어도 일부의 거짓 긍정을 캐치(catch)하기 위한 다른 단계가 실행될 수 있다. 예를 들면, 블록 범위 인덱스 검색은, 레코드의 키가 긍정 결과를 가져오는 스크리닝 데이터 구조에 대응하는 키 값의 범위 내에 있는지 판단하기 위해 사용될 수 있다. 키 값이 상기 키 값의 범위 내에 있지 않는다면, 긍정 결과는 거짓 긍정일 것이다. 키 값이 상기 키 값의 범위 내에 있다면, 거짓 긍정은 제외되지 않고, 인덱싱 및 검색 모듈(108)이 소정의 키를 가지는 레코드에 대해 압축 해제하고 검색하기 위해 특정 블록을 찾기 위한 블록 인덱스 검색을 수행한다.

소정의 키를 가지는 레코드를 검색하기 위한 다수의 스크리닝 데이터 구조 각각을 검사한 결과는, 거짓 긍정의 확률이 복합적이고 검색된 스크리닝 데이터 구조의 개수와 함께 증가한다는 것이다(단일의 스크리닝 데이터 구조의 거짓 긍정 확률 P에 대해 상대적으로). 적은 수의 스크리닝 데이터 구조에 대해서는, 이러한 점이 현저하지 않을 수 있지만, 많은 수의 스크리닝 데이터 구조에 대해서는, 다수의 스크리닝 데이터 구조 중 어떤 것이 소정의 키를 포함하는 키 값의 범위에 대응하는지를 식별하기 위한 블록 범위 인덱스 검색을 먼저 수행함으로써 성능이 향상될 수 있다. 그 다음에는, 식별된 스크리닝 데이터 구조에 대해서만 긍정 결과에 대한 검사를 하므로, 거짓 긍정 확률은 P로 한정된다.

다음의 예는 블록 범위 인덱스 검색이 수행될 수 있는 방법을 나타내고 있다. 각각의 스크리닝 데이터 구조는, 대응하는 인덱스 엔트리에 의해 각각 위치된 압축 블록에 저장된 레코드의 중첩되지 않는 상이한 키 값의 범위를 스크리닝하기 위해 사용된다. (최종 인덱스 엔트리를 제외한) 각각의 인덱스 엔트리는 해당 인덱스 엔트리에 의해 위치되는 압축 데이터 블록의 첫 번째 레코드에 대한 키 값을 포함하기 때문에, 소정의 스크리닝 데이터 구조에 의해 스크리닝되는 키 값의 범위는 소정의 스크리닝 데이터 구조와 연관된 인덱스 엔트리의 범위를 식별함으로써 판단된다. 단순화된 아래의 예에서는, "비트맵 0"과 "비트맵 1"으로 표시된 두 개의 스크리닝 데이터 구조가 있다. 이러한 예에서, 인덱스는 어레이(array)에 저장되어 있고, 소정의 인덱스 엔트리는, 배열로 인덱싱하기 위해 "인덱스 엔트리 인덱스(index entry index, IEI)"로 호칭되는, 순차적으로 할당된 대응하는 정수 값을 사용하여 인출될 수 있다. 다음의 테이블은 인덱스의 각각의 6 가지 인덱스 엔트리와, 그에 대응하는 IEI 값 및 특정한 인덱스 엔트리에 의해 위치되는 블록에 저장된 레코드를 스크리닝하기 위해 사용되는 비트맵을 나타낸다. 테이블은, 최종 정상 인덱스 엔트리에 의해 위치되는 압축 데이터 블록의 최종 레코드에 대한 키 값을 포함하는 "종료 인덱스 엔트리"로 끝난다.

비트맵 IEI 인덱스 엔트리

0 0 키: 10, 오프셋 0

0 1 키: 110, 오프셋 2000

0 2 키: 210, 오프셋 4000

1 3 키: 310, 오프셋 6000

1 4 키: 410, 오프셋 8000

1 5 키: 510, 오프셋 10000

N/A 6 키: 610, 오프셋 N/A

비트맵 0은 IEI 값이 0에서 2인 인덱스 엔트리의 범위에 대응하고, 비트맵 1은 IEI 값이 3에서 5인 인덱스 엔트리의 범위에 대응한다. 각각의 인덱스 엔트리는, 저장된 오프셋에 의해 압축 블록을 저장하고 있는 파일 내에 위치되는 압축 데이터 블록의 첫 번째 레코드에 대한 키 값을 포함한다. 본 구현예에서, 비트맵 0은 키 값이 10(포함)에서 310(불포함)의 범위에 대응하고, 비트맵 1은 키 값이 310(포함)에서 610(불포함)의 범위에 대응한다. 해당 비트맵에 대한 대응하는 키 값의 범위를 지시하기 위해서, 범위의 첫 번째 키 값을 포함하는 인덱스 엔트리에 대한 IEI 값과 같은, 각각의 비트맵과 연관된 단일의 IEI 값을 저장하는 것으로 충분하다. 예를 들면, 0인 IEI 값은 비트맵 0과 관련하여 저장될 수 있고, 3인 IEI 값은 비트맵 1과 관련하여 저장될 수 있다. 인덱스 엔트리를 종료시키기 위한 마지막 IEI 값 또한 최종 비트맵에 대한 최종 키 값을 지시하기 위해 저장될 수 있다. 본 구현예에 대한 스크리닝 데이터 구조 및 대응하는 IEI 값의 결과 리스트는 다음과 같다:

비트맵 IEI

0 0

1 3

N/A 6

509의 키 값을 가지는 레코드를 검색하기 위해, 이러한 리스트, 인덱스 및 비트맵을 사용하는 구현예는 다음과 같다.

1. 블록 범위 인덱스 검색: 리스트에서 IEI 값(0, 3, 6)으로 식별되는 인덱스 엔트리에 포함된 모든 키 값(10, 310, 610)에 걸쳐, 509에 근접하지만 그보다 크지는 않은 키 값을 포함하는 인덱스 엔트리에 대한 IEI와 쌍을 이루는 비트맵에 대해 (예컨대, 이진 검색을 사용하여) 검색을 수행한다. 대응하는 인덱스 엔트리는 310의 키 값을 가지며 310 < 509 < 610이기 때문에, 이로부터 IEI 값 3과 쌍을 이루는 비트맵 1이 산출된다.

2. 스크리닝을 수행함: 키 509는 블록 범위 인덱스 검색에서 식별된 스크리닝 데이터 구조(비트맵 1)에 대해 스크리닝된다.

3a. 상기 스크리닝이 긍정 결과를 산출한다면: 블록 인덱스 검색을 수행한다. 스크리닝 데이터 구조와 연관된 인덱스 엔트리에 포함된 모든 키 값 (310, 410, 510, 610)에 걸쳐, 509에 근접하지만 그보다 크지는 않는 키 값을 포함하는 인덱스 엔트리에 대해 (예컨대, 이진 검색을 사용하여) 검색을 수행한다. 410 < 509 < 510이 되므로, 이로부터 키 값 410을 포함하는 인덱스 엔트리가 산출된다. 이것은 키 값이 509인 매칭되는 레코드가 오프셋이 8000인 인덱스 엔트리에 의해 위치되는 압축 블록에 저장되어 있을 수 있음을 의미한다. 압축 블록은 압축 해제되어 매칭되는 레코드를 검색하고 레코드가 발견된다면 그것을 리턴한다.

3b. 상기 스크리닝이 부정 결과를 산출한다면: 블록 인덱스 검색을 수행할 필요가 없다. 왜냐하면 509의 키 값을 가지는 레코드는 비트맵 1과 연관된 세 개의 블록 중 어디에도 저장되어 있지 않기 때문이다.

도 5는, 수신된 레코드의 그룹에 대한 인덱스(114)를 포함하는 인덱싱 및 검색 모듈(108)과, 상술한 바와 같이 적응적으로 생성된 다수의 연관된 스크리닝 구조(502, 504, 506 등)의 예시적인 구현예를 도시한다. 인덱스(114)는, 각각이, 수신된 레코드가 저장되어 있는 그룹인, 블록(예컨대, 블록 506A - 506I)의 그룹으로부터의 블록의 주소를 포함하는 일련의 엔트리와, 블록에 저장된 첫 번째 레코드의 기본 키를 식별하는 키 필드를 포함한다. 블록 내의 레코드는, 상술한 바와 같이, 기본 키에 의해 정렬된다. 각각의 스크리닝 데이터 구조(502, 504, 506)는 이러한 블록(예컨대, 블록 세트 508A, 508B, 508C)의 상이한 각 서브세트와 연관되어 있다. 본 구현예에서는, 단순성을 위해, 각각의 서브세트가 세 개의 블록을 포함하지만, 스크리닝 데이터 구조는 통상적으로 많은 수의 블록과 연관되어 있다. 일부 구현예에서, 레코드의 그룹에 연관된 스크리닝 데이터 구조의 수가 미리 정해진 문턱값(예컨대, 10 또는 100의 문턱값)보다 크다면, 인덱싱 및 검색 모듈(108)은 검사할 스크리닝 데이터 구조 스크리닝 데이터 구조를 식별하기 위해 블록 범위 인덱스 검색을 수행한다. 예를 들면, 인덱싱 및 검색 모듈(108)이, 소정의 키가 블록 506D에 저장된 첫 번째 키를 지시하는 엔트리 501D의 키 필드보다는 크고, 블록 506G에 저장된 첫 번째 키를 포함하는 엔트리 501F의 키 필드보다는 작다고 판단한다면, 인덱싱 및 검색 모듈(108)은 블록 세트(508B)에 대응하는 스크리닝 데이터 구조(504)를 검사한다. 스크리닝 데이터 구조(504)가 부정 결과를 산출한다면, 소정의 키를 가지는 레코드는 레코드의 그룹 내에 존재하지 않는다. 스크리닝 데이터 구조(504)가 긍정 결과를 산출한다면, 인덱스(114)는 그 레코드를 포함할 수 있는 블록 세트(508B)의 블록 중 하나를 찾기 위해 사용되고, 인덱싱 및 검색 모듈(108)은 그 레코드를 검색하기 위해 블록을 압축 해제한다.

일부 경우에, 인덱스(114)의 사이즈가 메모리 용량에 비해 너무 커질 수가 있다. 인덱스를 검색하기 위한 일부 기술(예컨대, 이진 검색 기술)은, t를 인덱스 내의 총 엔트리의 수라고 할 때, log₂(t)의 차수로 다수의 인덱스 엔트리를 판독하게 되는 결과를 초래한다. (소정의 임의의 검색 동안에 판독되는 엔트리의 실제 개수는 상기 양보다 적거나 클 수 있다.) 판독되는 이러한 수많은 인덱스 엔트리가 그 당시의 메모리에 로드되는 인덱스의 일부분에 존재하지 않다면, 인덱스를 검색하기 위해 필요한 시간은, 인덱스의 다른 부분을 메모리에 로드하기 위해 필요한 시간으로 인해 현저하게 증가한다.

일부 구현예에서, 인덱스를 검색하는 것과 연관된 액세스 시간은 계층적 또는 "다중 레이어(multi-layer)" 인덱스를 생성함으로써 감축될 수 있다. 두 개의 레이어의 인덱스가 존재하는 다중 레이어 인덱스의 일례에서, 인덱스 스토리지(110)(예컨대, 저속 및/또는 비휘발성 스토리지)에 저장된 기본 인덱스는 레코드의 압축 블록을 위치시키는 엔트리를 포함하고, 로컬 메모리(예컨대, 고속 및/또는 휘발성 메모리)에 저장된 보조 인덱스는 기본 인덱스의 어떤 부분이 로컬 메모리에 로드될 것인지를 판단하기 위해 사용되는 엔트리를 포함한다. 이러한 2-레이어 인덱스를 생성하기 위해, 압축 블록에 대한 엔트리를 포함하는 초기 인덱스는, 상술한 바와 같이, 키에 의해 정렬된 엔트리와 함께 생성된다. 이러한 초기 인덱스는 기본 인덱스가 되고, 각각의 영역이 로컬 메모리 내에 완전히 들어갈 정도로 충분히 작은, 엔트리의 연속적인 영역(예컨대, 각각의 영역의 길이는 하나의 "디스크 페이지"임)으로 나누어진다. 각각의 영역 내의 인덱스 엔트리는 (예컨대, 상술한 블록과 유사하지만 레코드 대신에 인덱스 엔트리를 저장하는, 하나 이상의 블록으로) 선택적으로 압축될 수 있다. 압축되는 경우, 영역은 더 작아지겠지만, 압축 해제되는 경우 영역의 사이즈는 그 전체가 로컬 메모리 내에 여전히 들어가야 한다. 그 후, 그 전체가 로컬 메모리 내에 들어갈 수 있을 정도로 충분히 작은 보조 인덱스도 또한 생성된다. 이러한 보조 인덱스 내에서, 각각의 다수의 영역에 대해 엔트리가 생성된다. 각각의 보조 인덱스 엔트리는 인덱스 스토리지(110) 내 영역의 주소(예컨대, 영역을 저장하고 있는 디스크 페이지)를 포함한다. 각각의 보조 인덱스 엔트리는 또한, 영역에 저장된 첫 번째의 기본 인덱스 엔트리의 기본 키를 식별하는 키 필드를 포함한다.

보조 인덱스가 로컬 메모리 내에 들어가기에 충분히 작은 상태로 있다면, 액세스 비용(예컨대, 입력/출력(I/O) 오퍼레이션을 수행하기 위해 필요한 시간)이 감축될 수 있다. 예를 들면, 원하는 레코드를 인출하기 위해, (로컬 메모리 내에 포함되어 있는) 보조 인덱스 내에서 첫번째 검색이 수행되어, 기본 인덱스의 어느 영역이 원하는 레코드를 저장하고 있는 블록과 연관된 엔트리를 포함하는지 판단한다. (예컨대, 이진 검색을 사용하여) 일단 기본 인덱스의 적당한 영역이 결정되면, 기본 인덱스의 해당 영역이 인덱스 스토리지(110)로부터 로컬 메모리로 인출되고, 그 레코드를 포함하는 블록을 위치시키는 기본 인덱스 엔트리를 찾기 위해 검색된다. 따라서, 본 구현예에서, 로컬 메모리에 적재될 수 있는 보조 인덱스 내에서 첫번째 검색이 수행된 후, I/O 오퍼레이션 후에, 로컬 메모리에 또한 들어가게 되는 기본 인덱스의 영역 내에서 후속의 검색이 수행된다. 기본 인덱스는 길이가 하나의 디스크 페이지인 영역으로 나누어지기 때문에, 인덱스를 액세스하는 I/O 비용은 감축될 수 있다. 보조 인덱스가 로컬 메모리 내에 완전히, 그 전체가 들어가기에는 너무 크다면(또는 너무 커진다면), 다중 레이어 인덱스의 제3 층(및 제4 층 등)이 생성되어, 최상위 레이어가 로컬 메모리에 완전히, 그 전체가 들어갈 수 있게 되고, 각각의 하위 레이어는 각각이 로컬 메모리 내에 완전히, 그 전체가 들어갈 수 있는 크기의 영역으로 분할된다. 최하위 레이어는 레코드의 압축 블록을 저장하고 있는 기본 인덱스이다.

상기 설명한 레코드 스토리지 및 인출 방법은 컴퓨터에서 실행하는 소프트웨어를 사용해서 구현될 수 있다. 예컨대, 소프트웨어는 하나 이상의 프로그램된 또는 프로그램 가능한 컴퓨터 시스템(분산형, 클라이언트/서버, 또는 그리드 등의 다양한 구조로 된 것일 수 있음)에서 실행되는 하나 이상의 컴퓨터 프로그램으로 과정을 형성한다. 이러한 컴퓨터 시스템은, 하나 이상의 프로세서, 하나 이상의 데이터 저장 시스템(휘발성 및 불휘발성 메모리 및/또는 저장 소자를 포함), 하나 이상의 입력 장치 또는 포트, 하나 이상의 출력 장치 또는 포트를 각각 포함한다. 소프트웨어는, 예컨대 연산 그래프의 설계와 구성에 관련된 다른 서비스를 제공하는 더 큰 프로그램의 하나 이상의 모듈을 형성할 수 있다. 그래프의 노드와 요소는 컴퓨터로 판독가능한 매체에 저장된 데이터 구조, 또는 데이터 스토리지에 저장된 데이터 모델에 부합하는 다른 구성 데이터로서 구현될 수 있다.

소프트웨어는, 범용 또는 전용의 프로그램 가능한 컴퓨터에 의해 판독가능한 CD-ROM 등의 매체에 제공될 수 있으며, 또는 네트워크를 통해(전파 신호로 부호화되어) 컴퓨터에 제공되어 실행될 수 있다. 전용의 컴퓨터, 또는 코프로세서와 같은 전용의 하드웨어에서 모든 기능이 수행될 수 있다. 소프트웨어는 해당 소프트웨어에 의해 지정된 연산의 다른 부분이 다른 컴퓨터에 의해 수행되는 분산형으로 구현될 수 있다. 이러한 컴퓨터 프로그램은, 본 명세서에 개시된 과정을 수행하도록, 저장 매체 또는 장치가 컴퓨터 시스템에 의해 판독될 때에 컴퓨터를 구성 및 동작시키기 위한, 범용 또는 전용의 프로그램 가능한 컴퓨터에 의해 판독가능한 저장 매체 또는 장치에 저장되거나 다운로드되는 것이 바람직하다. 본 발명의 시스템은, 컴퓨터 프로그램을 갖는 컴퓨터로 판독 가능한 저장매체로 구현될 수 있으며, 이러한 저장 매체에 의해, 컴퓨터 시스템은, 특정 및 미리 정해진 방식으로 동작하여 본 명세서에 개시된 기능을 수행할 수 있게 된다.

본 발명의 많은 구현예에 대하여 설명하였지만, 본 발명의 범위를 벗어남이 없이 다양한 변형이 가능하다는 것을 이해하여야 한다. 예를 들어, 상기 개시된 단계들 중 일부는 순서와 관계없는 것일 수 있어서, 상기 개시한 것과 다른 순서로 수행될 수 있다.

이상의 설명은 본 발명의 범위를 제한하기 위한 것이 아니며, 청구범위에 개시된 범위에 의해 정해진다. 예를 들어, 앞서 개시된 많은 기능 단계들은 전체적인 처리 과정에 영향을 주지 않으면서 그 순서를 달리할 수 있다. 청구범위의 범위 내에서 다른 구현예가 가능하다.

100: 시스템
102: 레코드 처리 모듈
106: 레코드 스토리지
108: 인덱싱 및 검색 모듈
110: 인덱스 스토리지
112: 인터페이스 모듈
114: 인덱스
116: 스크리닝 데이터 구조
200: 레코드
202: 압축 레코드 파일
204: 인덱스 파일
206: 키 필드
208: 로케이션 필드

Claims

발명의 상세한 설명에 기재된, 또는 도면에 도시된 바와 같은 장치.