KR102261811B1

KR102261811B1 - 데이터 전송의 단일 패스 엔트로피 검출 장치 및 방법

Info

Publication number: KR102261811B1
Application number: KR1020200024380A
Authority: KR
Inventors: 아쉬윈 나라심하; 아쉬쉬 싱하이; 비제이 카람체티; 크리샨스 스칸다쿠마란
Original assignee: 웨스턴 디지털 테크놀로지스, 인코포레이티드
Priority date: 2015-06-19
Filing date: 2020-02-27
Publication date: 2021-06-04
Also published as: CA2933370A1; KR20190014033A; US10089360B2; KR20200024193A; AU2016203418A1; US20170097960A1; GB201610255D0; US20160371267A1; JP2017011703A; DE102016007364A1; FR3037677B1; KR101945026B1; CA2933370C; GB2542453A; FR3037677A1; CN106257402B; KR20160150029A; GB2542453B; CN106257402A; AU2015215975B1

Abstract

본 발명의 구현예들은 메모리 유닛, 및 메모리 유닛에 결합되는 프로세서를 포함한다. 프로세서는 입력 데이터 스트림으로부터 데이터의 복수의 서브세트를 집단화하고, 데이터의 제1 집단화 서브세트에 대응하는 제1 해시값을 연산하도록 동작 가능하다. 또한, 프로세서는 제1 해시값과 해시 테이블에 저장되는 제2 해시값 사이의 매치를 검출하도록 동작 가능하다. 게다가, 프로세서는 또한 입력 데이터 스트림에 대한 해시값 매치 빈도를 모니터링하도록 구성되되, 프로세서는 매치의 검출에 응하여 카운터값을 증가시키고, 빈번한 해시값 매치 임계점에 대한 카운터값에 기초하여 입력 데이터 스트림에 대한 엔트로피 레벨을 판단하도록 동작 가능하다. 프로세서는 카운터값이 빈번한 해시값 매치 임계점에 상응하거나 초과할 때 데이터 압축 동작의 수행을 초기화하거나 카운터값이 빈번한 해시값 매치 임계점에 상응하지 못할 때 데이터 압축 동작의 수행을 삼가하는 명령을 생성할 수 있다.

Description

데이터 전송의 단일 패스 엔트로피 검출 장치 및 방법{APPARATUS AND METHOD FOR SINGLE PASS ENTROPY DETECTION ON DATA TRANSFER}

관련 출원의 상호 참조

본 출원은 대리인 문서 번호 HGST-H20151036US1을 갖는 본 출원과 동시 출원된 특허 출원 "인라인 압축 및 중복제거 장치 및 방법(APPARATUS AND METHOD FOR INLINE COMPRESSION AND DEDUPLICATION)"과 관련되며, 그 전체가 이에 참조로서 포함된다.

본 개시는 전반적으로 데이터 감소 기술의 분야에 관한 것이다.

고성능 비휘발성 저장 클래스 메모리 서브시스템은 일반적으로 비교적 고가의 컴포넌트들로 구성된다. 이로써, 데이터 감소 기법을 사용하여 이와 같은 시스템에서 데이터 저장을 최대화하는 것이 매우 바람직하다. 데이터 감소는 백엔드 저장 시스템으로/으로부터 기입되거나 판독되는 총 정보량을 감소시키는 데이터 자체-압축 및 데이터 중복제거 기법을 가리킨다. 데이터 감소는 사용자 (입력) 데이터의, 저장될 수 있는 더 간결한 표현으로의 변환을 초래한다. 데이터 감소의 이점은 다른 이점들 중에서 개선된 저장 장치 활용, (올-플래시 저장 시스템의 맥락에서) 증가된 수명, 및 애플리케이션 가속을 포함한다.

데이터 압축은, 동일한 데이터 블록 내의 리던던시를 탐색한 후, 데이터의 총 크기를 감소시키는 방식으로 이러한 반복 시퀀스들을 인코딩하는 과정을 가리킨다. 데이터 중복제거는, 개별 블록이 압축 불가능한 데이터를 가질지라도, 매칭 시퀀스들을 발견하려는 노력으로 다수의 블록에 걸쳐 데이터 시퀀스들을 매칭하는 과정을 가리킨다. 그러나, 종래의 시스템은 데이터 감소 과정 내의 별개의 단계들로서 압축 및 데이터 중복제거를 수행한다. 이로써, 이러한 종래의 시스템은 이들을 단일 단계로 결합하지 않음으로, 레이턴시 및 대역폭 페널티를 치르게 된다.

게다가, 종래의 데이터 감소 해법은 압축 기능을 수행하는 데에 많은 주기 및 전력을 소비한다. 임의의 주어진 애플리케이션 데이터 흐름에 있어서, 데이터 블록들의 특정 세트가 자체-압축 특성을 나타내지 않을 수 있다는 높은 가능성이 항상 존재한다. 통상적으로, 압축 단계의 종료 시에, 종래의 해법은 결과가 원 블록보다 크지 않다는 것을 보장하기 위해 검사를 수행한다. 따라서, 리소스들이 이미 데이터 압축을 시도할 때 사용되었으므로, 이는 꽤 늦은 것이다.

선행기술문헌으로는 일본 공개특허공보 특개평06-290020호(공개일: 1994.10.18)가 있습니다.

그러므로, 단일 패스에서 데이터 압축 및 중복제거 모두를 수행하는 통합 데이터 경로를 생성하는 해법에 대한 필요성이 존재한다.

본 발명의 구현예들은 데이터 압축 기술을 결합하고, 이를 데이터 중복제거 방법과 통합함으로써 확장한다. 본 발명의 구현예들의 단일 패스 특성은 시스템 레이턴시의 제어를 가능하게 하며, 더 높은 속도로(예컨대, 주어진 FPGA를 위한 PCIe Gen3 속도 또는 다른 속도 요건이나 표준에 부합할 수 있는 방식으로) 라인 레이트 압축 및 중복제거를 달성하는 것을 돕는다.

본 발명의 구현예들은 압축을 위해 4 킬로바이트 크기 데이터 블록과 같은 데이터의 더 작은 서브세트를 사용하며, 자체-참조된 카피와 참조 블록 참조된 카피를 구별하기 위해 압축 인코딩 카피 포맷에 우선할 수 있다. 구현예들은 4 킬로바이트 크기 데이터 블록에 제한되지 않으며, 임의의 블록 크기 또는 블록 크기 범위(예컨대, 4 kb, 8 kb, 10 kb, 4 kb 내지 8 kb의 블록 크기 범위 등)가 사용될 수 있음을 이해해야 한다. 구현예들은 참조 데이터 블록을 유지하기 위해 다수의 병렬 입력 버퍼를 구비한 메모리 버퍼 구조를 생성할 수 있다. 또한, 구현예들은 참조 데이터 블록 버퍼에 저장되는 데이터에 대응하는 검색이 입력 데이터 버퍼에 저장되는 데이터에 대해 수행되는 해시 룩업과 동시에 수행될 수 있는 병렬 해시 테이블 룩업 스킴을 포함할 수 있다.

또한, 구현예들은 데이터 감소 수행을 향상시키려는 목적으로 참조 데이터의 슁글드(shingled) 해시 함수값을 연산하고 저장하기 위해 참조 데이터 버퍼의 필 타임(fill time)을 사용할 수 있다. 구현예들은 또한 참조 해시 테이블 연산과 압축의 시작 사이의 연동(interlock)을 생성할 수 있다. 이런 방식으로, 압축이 시작될 때, 참조 해시 테이블, 압축 해시 테이블, 또는 둘 다에서 검색이 수행될 수 있다. 본 발명의 구현예들은 해시 히트가 하나 이상의 해시 테이블에서 검출될 때 (만약에 있다면) 어떤 시퀀스를 사용할 것인지 판단하기 위해 휴리스틱을 사용할 수 있다. 아울러, 본 발명의 구현예들은 입력 참조 버퍼로부터 또는 입력 데이터 스트림에 대해 후방-참조 해석을 수정할 수 있다.

게다가, 본 발명의 구현예들은 헛된 노력을 최소화하고 전체 시스템 성능의 손실을 방지하기 위해, 조기 온(on)을 검출하며 블록의 압축성을 예측할 수 있다. 본원에 설명된 구현예들은 주어진 데이터 블록에 압축과 같은 데이터 감소 절차를 수행하기로 결정하기 위해 압축성 특징을 분석할 수 있다. 이로써, 압축 불가능한 데이터가 주어졌을 때 고성능 데이터 감소 시스템이 전력 및 압축 단위 주기를 절약할 수 있게 하는 방식으로, 저충격-고성능 엔트로피 검출 동작을 수행할 수 있다.

본 명세서에 통합되며 본 명세서의 일부를 구성하고, 유사 번호들이 유사 구성요소들을 나타내는, 첨부 도면은 본 개시의 구현예들을 도시하며, 설명과 함께, 본 개시의 원리들을 기술하는 역할을 한다.
도 1a는 본 발명의 구현예들에 따른 데이터 감소의 목적으로 이중 압축 및 중복제거 절차를 병렬 수행할 수 있는 인라인 압축 및 중복제거 시스템의 예시적인 하드웨어 구성을 나타낸 블록도이다.
도 1b는 본 발명의 구현예들에 따른 인라인 압축 및 중복제거 절차를 수행하기 위해 메모리에 제공되는 예시적인 컴포넌트들을 나타낸 블록도이다.
도 1c는 본 발명의 구현예들에 따라 생성되는 예시적인 압축 데이터 프레이밍 포맷을 나타낸다.
도 1d는 본 발명의 구현예들에 따른 예시적인 결합형 참조 해시 테이블 및 압축 해시 테이블 룩업 스킴을 나타낸다.
도 2a는 본 발명의 구현예들에 따른 단일 패스 엔트로피 검출을 위한 예시적인 과정의 제1 부분의 흐름도이다.
도 2b는 본 발명의 구현예들에 따른 단일 패스 엔트로피 검출을 위한 예시적인 과정의 제2 부분의 흐름도이다.
도 3a는 본 발명의 구현예들에 따른 동시 데이터 중복제거 및 압축을 위한 예시적인 과정의 흐름도이다.
도 3b는 본 발명의 구현예들에 따른 해시 테이블 룩업 절차를 수행하기 위한 예시적인 과정의 흐름도이다.

이제, 본 발명의 바람직한 구현예들을 상세히 참조하는데, 그 예들이 첨부 도면에 도시되어 있다. 본 발명은 바람직한 구현예들과 함께 설명될 것이지만, 본 발명을 이러한 구현예들에 제한하려는 의도는 아님을 이해할 것이다. 오히려, 본 발명은 첨부된 청구범위에 정의된 바와 같이 본 발명의 정신 및 범주에 포함될 수 있는 대안들, 수정들, 및 균등물들을 포괄하도록 의도된다.

게다가, 본 발명의 구현예들의 하기 상세한 설명에서, 다수의 특정 상세가 본 발명의 철저한 이해를 제공하기 위해 기술된다. 그러나, 당업자는 본 발명이 이러한 특정한 상세 없이 실시될 수 있음을 인식할 것이다. 다른 경우에, 주지의 방법들, 절차들, 컴포넌트들, 및 회로들은 본 발명의 구현예들의 양태들을 불필요하게 모호하게 하지 않기 위해 상세히 설명되지 않았다. 명료함을 위해 방법을 번호가 부여된 단계들의 시퀀스로 나타낼 수 있지만, 이러한 번호 부여가 반드시 단계들의 순서를 좌우하는 것은 아니다.

일부 단계들이 생략되거나, 병렬 수행되거나, 시퀀스의 엄격한 순서를 유지해야 한다는 요건 없이 수행될 수 있다는 것을 이해해야 한다. 본 발명의 구현예들을 도시한 도면은 반(semi)-도식적이며, 정확한 비율로 나타낸 것이 아니고, 특히 일부 치수들은 발표의 명료함을 위한 것이며, 도면에 과장되어 도시된다. 마찬가지로, 설명의 용이함을 위해 도면의 관점은 일반적으로 유사한 배향을 나타내지만, 도면의 이러한 묘사는 대개 임의적이다. 일반적으로, 본 발명은 임의의 배향으로 동작될 수 있다.

표기법 및 명명법

그러나, 이러한 용어들 및 유사한 용어들은 모두 적절한 물리량과 연관되어야 하며, 이러한 양에 적용되는 편의적인 라벨에 불과하다는 것을 명심해야 한다. 하기 논의로부터 명백한 바와 같이 구체적으로 달리 명시되지 않는 한, 본 발명에 걸쳐, "수신" 또는 "선택" 또는 "생성" 또는 "집단화" 또는 "모니터링" 등과 같은 용어들을 이용한 논의는, 컴퓨터 시스템의 레지스터 및 메모리 및 다른 컴퓨터 판독 가능 매체 내에 물리(전자)량으로 표현되는 데이터를, 마찬가지로 컴퓨터 시스템 메모리 또는 레지스터 또는 다른 이와 같은 정보 저장, 전송 또는 표시 장치 내에 물리량으로 표현되는 다른 데이터로 조작하고 변환하는 컴퓨터 시스템 또는 유사 전자 컴퓨팅 장치의 작용 및 과정을 가리킴은 물론이다. 컴포넌트가 여러 구현예들에 나타날 때, 동일한 참조 번호의 사용은 컴포넌트가 원 구현예에 도시된 것과 동일한 컴포넌트라는 것을 의미한다.

예시적인 인라인 압축 및 중복제거 시스템 구성

도 1a는 본 발명의 구현예들에 따른 데이터 감소의 목적으로 이중 압축 및 중복제거 절차를 병렬 수행할 수 있는 인라인 압축 및 중복제거 시스템(예컨대, 시스템(100))의 예시적인 하드웨어 구성을 나타낸 블록도이다. 이런 방식으로, 시스템(100)은 단일 패스에서 데이터 감소 절차를 수행할 수 있고, 그에 따라 데이터 압축 및 데이터 중복제거와 같은 데이터 감소 동작과 관련된 동작들이 단일 과정, 단일 처리 경로, 또는 단일 단계로 결합되어, 일반적인 시스템 레이턴시 및/또는 대역폭 패널티를 감소시킨다. 도 1a에 특정 컴포넌트들이 개시되어 있지만, 이와 같은 컴포넌트들은 예시적인 것임을 이해해야 한다. 즉, 본 발명의 구현예들은 다양한 다른 하드웨어 컴포넌트들 또는 도 1a에 인용된 컴포넌트들의 변형들을 구비하기에 적합하다. 도 1a의 하드웨어 컴포넌트들이 제시된 것들 외의 다른 컴포넌트들과 함께 동작할 수 있고, 도 1a에 나타낸 모든 하드웨어 컴포넌트들이 본 발명의 목표를 달성하기 위해 요구되는 것은 아님은 물론이다. 일부 구현예들에 따르면, 도 1a에 나타낸 컴포넌트들은 본 발명의 목표를 달성하기 위해 결합될 수 있다.

시스템(100)은 데이터 통신 버스 상에서 다른 전자 장치들과 통신할 수 있는 전자 장치로 구현될 수 있다. 예컨대, 버스(106)는 이와 같은 데이터 통신 버스를 나타낸다. 본 개시의 구현예들이 구현될 수 있는 예시적인 시스템(100)은 범용 컴퓨팅 시스템 환경을 포함한다. 가장 기본적인 구성에서, 시스템(100)은 통상적으로 적어도 하나의 처리 유닛(101) 및 메모리 저장 유닛을 포함한다. 예컨대, 컴퓨터 판독 가능 저장 매체(104)는 이와 같은 메모리 저장 유닛을 나타낸다. 장치의 정확한 구성 및 유형에 따라, 컴퓨터 판독 가능 저장 매체(104)는 (RAM과 같이) 휘발성일 수 있거나, (ROM, 플래시 메모리와 같이) 비휘발성일 수 있거나, 이들 둘의 소정의 조합일 수 있다. 컴퓨터 판독 가능 저장 매체(104)의 일부는, 실행될 때, 스레드들의 그룹들을 위한 요청 또는 메모리 동작의 효과적인 실행을 용이하게 한다.

일 구현예에서, 프로세서(101)는 본원에 설명된 인라인 압축 및 중복제거 동작을 수행하도록 구성되는 프로그램 가능 회로일 수 있다. 예컨대, 프로세서(101)는 FPGA 제어기 또는 플래시 메모리 장치 제어기일 수 있다. 대안적으로, 일 구현예에서, 프로세서(101)는 컴퓨터 판독 가능 저장 매체(104)에 저장되는 인라인 압축 및 중복제거 프로그램을 실행하도록 동작 가능할 수 있고, 본원에 설명된 기능들(예컨대, 아래에 논의되는 도 1b 참조)을 수행하도록 구성될 수 있다. 시스템(100)은 선택적 표시 장치(102) 상에 정보를 표시하는 것과 같이, 컴퓨터 사용자에게 정보를 제시하기 위한 선택적 그래픽 시스템(105)을 포함할 수도 있다. 시스템(100)은 또한 선택적 문자숫자식 입력/출력 장치(103)를 포함한다. 입력/출력 장치(103)는 선택적 커서 제어 또는 지시 장치, 및 네트워크 인터페이스 카드와 같은 하나 이상의 신호 통신 인터페이스를 포함할 수 있다. 게다가, 인터페이스 모듈(115)은 시스템(100)이 전자 통신 네트워크(예컨대, 인터넷, 유선 통신 네트워크, 무선 통신 네트워크, 또는 유사 네트워크)를 통해 다른 컴퓨터 시스템들과 통신할 수 있게 하는 기능을 포함한다.

또한, 시스템(100)은 추가 특징 및 기능을 구비할 수도 있다. 예컨대, 시스템(100)은 자기 또는 광 디스크 또는 테이프를 포함하지만 이에 제한되지 않는 (착탈식 및/또는 비착탈식) 추가 저장 매체를 포함할 수도 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령, 데이터 구조, 프로그램 모듈, 또는 다른 데이터와 같은 정보의 저장을 위해 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 착탈식 및 비착탈식 매체를 포함한다.

도 1b는 본 발명의 구현예들에 따른 인라인 압축 및 중복제거 절차를 수행하기 위해 메모리에 제공되는 예시적인 컴포넌트들을 나타낸 블록도이다. 도 1b에 특정 컴포넌트들이 개시되어 있지만, 이와 같은 컴퓨터 저장 매체 컴포넌트들은 예시적인 것임을 이해해야 한다. 즉, 본 발명의 구현예들은 다양한 다른 컴포넌트들 또는 도 1b에 인용된 컴퓨터 저장 매체 컴포넌트들의 변형들을 구비하기에 적합하다. 도 1b의 컴포넌트들이 제시된 것들 외의 다른 컴포넌트들과 함께 동작할 수 있고, 도 1b에 나타낸 모든 컴퓨터 저장 매체 컴포넌트들이 본 발명의 목표를 달성하기 위해 요구되는 것은 아님은 물론이다. 일부 구현예들에 따르면, 도 1b에 나타낸 컴포넌트들은 본 발명의 목표를 달성하기 위해 결합될 수 있다. 게다가, 도 1a에 나타낸 일부 하드웨어 컴포넌트들이 본 발명의 목표를 달성하려는 목적으로 도 1b에 나타낸 일부 컴포넌트들과 함께 동작할 수 있음은 물론이다.

도 1b에 나타낸 바와 같이, 컴퓨터 판독 가능 저장 매체(104)는 운영체계(107)를 포함한다. 운영체계(107)는 시스템(100)이 초기화될 때 프로세서(101)에 로딩된다. 또한, 프로세서(101)에 의한 실행 시에, 운영체계(107)는 시스템(100)에 프로그램적 인터페이스를 제공하도록 구성될 수 있다. 시스템(100)은 또한 무선 통신 메커니즘을 포함할 수 있다. 이와 같은 장치들을 통해, 시스템(100)은 근거리 네트워크와 같은 인트라넷 또는 인터넷과 같은 통신 네트워크 상에서 다른 컴퓨터 시스템들에 통신 결합될 수 있다.

게다가, 도 1b에 도시된 바와 같이, 컴퓨터 판독 가능 저장 매체(104)는 지문 연산 엔진(110)을 포함한다. 지문 연산 엔진(110)은 인증 및/또는 룩업 절차를 수행하려는 목적으로 바이트들의 시퀀스를 사용하여 지문을 생성하는 기능을 포함한다. 데이터 스트림의 수신의 검출 시에, 버퍼 관리 제어기(112)는 수신 시에 데이터 입력 버퍼(112-1)에 저장되는 데이터를 처리하기 위해 지문 연산 엔진(110)에 신호를 전달할 수 있다.

지문 연산 엔진(110)에 의해 생성되는 지문은 다른 경우라면 더 큰 파일을 저장하도록 요구되는 저장 공간의 일부를 사용하는 동안 이와 같은 더 큰 파일을 표현하기 위해 사용될 수 있다. 예컨대, 더 큰 파일은 멀티미디어 파일 또는 컨텐츠의 페이지를 포함할 수 있다. 지문 연산 엔진(110)은 지문을 생성하려는 목적으로 데이터 스트림을 데이터의 비트들로 감소시키기 위해 해시 함수와 같은 종래의 컴퓨터-구현 절차를 사용할 수 있고, 그에 따라 이는 서명 연산 엔진(113)과 같은 시스템(100)의 컴포넌트들에 의해 처리될 수 있다. 해시 연산은 해시 테이블 모듈(111)과 같은 시스템(100)의 다른 컴포넌트들이 해시값을 연산하는 방식과 일치하는 방식으로 또는 상이한 방식으로 수행될 수 있다.

이런 방식으로, 지문 연산 엔진(110)은, 시스템(100)에 의해 수신될 때 데이터 스트림과 연관된 유입 데이터의 서브세트를 위한 지문을 생성하도록 구성될 수 있다. 예컨대, 데이터의 서브세트들은 4 킬로바이트 증분의 형태일 수 있다. 일 구현예에서, 지문 연산 엔진(110)은, 시스템(100)에 의해 수신되며 버퍼 관리 제어기(112)에 의해 생성되는 데이터 입력 버퍼(112-1)에 저장되는 데이터 스트림과 연관된 4 킬로바이트의 유입 세트를 위한 지문을 연산할 수 있다.

서명 연산 엔진(113)은 시스템(100)에 의해 수신되는 데이터 스트림을 위한 서명을 연산하는 기능을 포함한다. 서명은 Merkle, Spooky, CRC, MD5, SHA, 또는 유사 스킴을 비롯한 다양한 종래의 해시-기반 서명 스킴들에 기초하여 서명 연산 엔진(113)에 의해 연산될 수 있다. 서명 연산 엔진(113)은 시스템(100)에 의해 수신되는 데이터 스트림에 서브-블록 서명 연산, 라빈(Rabin) 서명-기반 유사성 검출 연산, 및/또는 다른 유사성-기반 서명 연산을 이용한 서명 연산을 수행하도록 구성될 수 있다. 일 구현예에 따르면, 서명 연산 엔진(113)은 서명을 생성하기 위해 지문 연산 엔진(110)에 의해 생성되는 지문 데이터를 사용할 수 있다. 일 구현예에서, 데이터 스트림의 수신 시에, 버퍼 관리 제어기(112)는 수신 시에 데이터 입력 버퍼(112-1)에 저장되는 데이터를 처리하기 위해 서명 연산 엔진(113)에 신호를 전달하도록 구성될 수 있다.

서명 연산 엔진(113)은 입력 데이터 스트림의 다양한 부분들에 대해 한 번에 데이터의 서브세트들을 위한 다수의 서명을 연산하도록 구성될 수 있다. 이런 방식으로, 서브세트들을 위해 서명 연산 엔진(113)에 의해 연산되는 서명들은 추가 처리를 위해 참조 블록 식별 모듈(114)과 같은 시스템(100)의 다른 컴포넌트들에 전달될 수 있다. 예컨대, 서명 연산 엔진(113)에 의해 연산되는 서명들은 이들이 서로 유사하거나 동일한 블록들 상에서 연산된 것처럼 유사하거나 동일하게 되게 할 수 있는 수학적 특성을 포함할 수 있다. 이로써, 참조 블록 식별 모듈(114)과 같은 시스템(100)의 컴포넌트들에 의해 선택되는 참조 블록은 시스템(100)에 상주하는 메모리에 저장되는 복수의 유사한 서명 클러스터를 가장 잘 표현하는 연산된 서명에 기초할 수 있다. 따라서, 시스템(100)의 컴포넌트들은 서명 연산 엔진(113)에 의해 연산되는 서명을 사용하여 참조 블록 식별 절차를 수행할 수 있다. 예컨대, 참조 블록 식별 모듈(114)은 참조 블록 식별 절차를 수행하기 위해 서브-블록 서명을 사용할 수 있다.

참조 블록 식별 모듈(114)은 서명 연산 엔진(113)에 의해 생성되는 복수의 상이한 서명 클러스터를 분석하고, 해시 테이블 모듈(111)과 같은 시스템(100)의 컴포넌트들에 의해 처리될 수 있는 참조 블록들을 선택하는 기능을 포함한다. 참조 블록 식별 모듈(114)은 연산된 서명들과 시스템(100)에 의해 현재 저장되는 서명들의 클러스터들을 비교하고, 이에 대응하여, 연산된 서명을 가장 잘 표현하는 참조 블록을 선택하도록 구성될 수 있다. 예컨대, 참조 블록 식별 모듈(114)은 연산된 서명들과 버퍼 관리 제어기(112)에 의해 생성되는 버퍼에 현재 저장되는 서명들의 클러스터들을 비교하고, 이에 대응하여, 연산된 서명을 가장 잘 표현하는 참조 블록을 선택하도록 구성될 수 있다.

참조 블록 식별 모듈(114)에 의해 선택되는 참조 블록들은 시스템(100)의 컴포넌트들에 의한 추가 처리를 위해 참조 블록 버퍼(112-3)와 같은 버퍼 관리 제어기(112)에 의해 생성되는 버퍼에 저장될 수 있다. 참조 블록들은 다양한 방법들에 의해 입력 데이터와 유사한 것으로 밝혀진 정규 데이터 블록들일 수 있다. 예컨대, 참조 블록들은 연산된 서브-블록 서명, 유사성 검출 메커니즘, 애플리케이션 힌트 검출 스킴, 또는 유사 스킴을 사용함으로써 입력 데이터와 유사한 것으로 밝혀진 정규 데이터 블록들일 수 있다. 참조 블록들은 또한 더 큰 반복 인자들을 갖는 것으로 밝혀진 반복 데이터 시퀀스들을 포함하는 순수 합성 블록들일 수도 있다. 일 구현예에 따르면, 참조 블록 식별 모듈(114)은 선험적 지식, 컨텐츠 유사성 매칭, 애플리케이션 힌트, 데이터 패턴 인식, 또는 유사 수단을 사용하여 참조 블록들을 식별하도록 구성될 수 있다.

게다가, 참조 블록 식별 모듈(114)에 의해 식별되는, 참조 블록 버퍼(112-3)에 저장되는 참조 블록과 같은 참조 블록들에 관한 정보가 데이터 스트림의 헤더 부분에 저장될 수 있다. 예컨대, 도 1c를 참조하면, 참조 블록 식별 모듈(114)에 의해 식별되는 참조 블록을 위한 참조 블록 식별자가 데이터 스트림(116)의 헤더 부분(116a)에 저장될 수 있다. 도 1c에 도시된 바와 같이, 헤더 데이터(116a)는, 압축 페이로드(116b)와 같은 각각의 압축 페이로드 데이터 부분들과 함께, 데이터 그레인들(116-1, 116-2, 116-N)과 같은 데이터 그레인들의 세트에 포함될 수 있다. 일 구현예에서, 헤더 데이터(116a)는 비트 벡터(117-2), 그레인 카운트(117-3), 및/또는 헤더 CRC 데이터(117-4) 외에도 참조 식별자(117-1)를 저장할 수 있다.

도 1b를 참조하면, 해시 테이블 모듈(111)은 해시값을 연산하고, 시스템(100)에 의해 수신되는 데이터 스트림과 연관된 데이터에 기초하여 해시 테이블을 동적으로 생성하는 기능을 포함한다. 데이터 스트림의 수신 시에, 버퍼 관리 제어기(112)는 각각의 버퍼의 데이터 수신 시에 데이터 입력 버퍼(112-1) 및/또는 참조 블록 버퍼(112-3)에 저장되는 데이터를 처리하기 위해 해시 테이블 모듈(111)에 신호를 전달할 수 있다. 해시 테이블 모듈(111)은 생성된 해시 테이블에 저장될 수 있는 시스템(100)에 의해 수신되는 데이터 스트림과 연관된 데이터의 바이트들과 같은 데이터의 서브세트들을 위한 해시값들을 연산하는 기능을 포함한다. 예컨대, 해시 테이블 모듈(111)은 시스템(100)에 의해 수신되는 데이터 스트림과 연관된 데이터의 바이트들을 위한 해시값을 연산할 수 있다. 이로써, 해시 테이블 모듈(111)은 반복 데이터 시퀀스들의 검색을 가속하는 방식으로 인기 있는 고성능 압축 스킴들에 의해 사용될 수 있다. 예컨대, 해시 테이블 모듈(111)은 Snappy, Lempel-Ziv(LZ) 압축 스킴, Gzip, 또는 유사 스킴을 비롯한 인기 있는 고성능 압축 스킴들에 의해 사용될 수 있다.

데이터의 서브세트는 기결정된 고정 크기를 가질 수 있고, 중복제거 절차를 수행하려는 목적으로 더 큰 파일을 표현하기 위해 사용될 수 있다. 이로써, 해시 테이블 모듈(111)은 시스템(100)에 의해 수신되는 데이터의 각각의 바이트를 위한 해시값을 연산할 수 있다. 이런 방식으로, 해시 테이블 모듈(111)은 수신 및 버퍼 관리 제어기(112)에 의해 생성되는 버퍼 내의 저장과 동시에 데이터의 서브세트들을 위한 해시값들을 연산할 수 있다. 게다가, 해시 연산은 지문 연산 엔진(110)과 같은 시스템(100)의 다른 컴포넌트들이 해시값을 연산하는 방식과 일치하는 방식으로 또는 상이한 방식으로 수행될 수 있다.

일 구현예에 따르면, 해시 테이블 모듈(111)은 참조 블록 식별 모듈(114)에 의해 식별되는 참조 데이터 블록들에 기초하여 참조 해시 테이블을 동적으로 생성하는 기능을 포함한다. 참조 블록 식별 모듈(114)에 의해 선택되면, 참조 블록들에 대응하는 데이터 블록들이 참조 블록 버퍼(112-3)와 같은 참조 블록 버퍼에 저장될 수 있다. 참조 블록들이 저장될 때, 해시 테이블 모듈(111)은 참조 블록들에 대응하는 슁글드 해시값들을 연산하도록 구성될 수 있다. 이런 방식으로, 해시 테이블 모듈(111)은 시스템(100)에 의해 수행되는 압축 및 중복제거 절차의 수행을 가속할 수 있는 기연산된 해시 테이블을 생성할 수 있다.

예컨대, 도 1b를 참조하면, 바이트들의 세트가 시스템(100)에 의해 수신되어 시스템(100)에 상주하는 데이터 입력 버퍼(112-1)에 저장될 때, 해시 테이블 모듈(111)은 수신되는 바이트들의 세트에 대응하는 것으로서 참조 블록 식별 모듈(114)에 의해 판단되고/판단되거나 선택되는 참조 블록들을 위한 해시값들을 연산할 수 있다. 해시 테이블 모듈(111)은, 참조 데이터 블록들이 버퍼 관리 제어기(112)에 의해 동적으로 생성된 참조 블록 버퍼(112-3)에 저장될 때, 이러한 해시값들을 연산한다. 이런 방식으로, 버퍼 관리 제어기(112)는 데이터 입력 버퍼(112-1)와 같은 시스템(100)에 상주하는 데이터 입력 버퍼들의 기능을 병렬시킬 수 있는 참조 데이터 블록 버퍼들을 생성하는 기능을 포함한다. 이로써, 이후, 이러한 연산된 참조 블록 해시값들은 이어서 해시 테이블 모듈(111)에 의해 생성되는 참조 해시 테이블(111-1)에 저장될 수 있다.

해시 테이블 모듈(111)은 시스템(100)에 의해 수신되고/수신되거나 데이터 입력 버퍼에 저장되는 데이터 스트림을 사용하여 압축 해시 테이블을 동적으로 생성하는 기능을 포함한다. 게다가, 해시 테이블 모듈(111)은 이어서 시스템(100)에 의해 사전 처리된 데이터 스트림을 압축해제하고/압축해제하거나 재구성하기 위해 사용될 수 있는 인코딩 데이터를 수정하고/수정하거나 생성하는 기능을 포함한다. 이런 방식으로, 해시 테이블 모듈(111)은 압축 동작 중 유사 데이터 시퀀스들의 식별 시에 헤더 데이터를 수정하고/수정하거나 인코딩하도록 구성될 수 있다. 이로써, 해시 테이블 모듈(111)은 해시 테이블 모듈(111)에 의해 사전 식별된 저장 데이터에 대응하는 참조 식별자를 포함하는 인코딩 데이터를 생성할 수 있다.

예컨대, 해시 테이블 모듈(111)은 해시 연산 절차의 완료 시에 식별된 문자들(literals)의 수와 같은 해시 테이블 모듈(111)에 의해 식별되는 비압축 데이터 바이트들의 수를 포함하는 인코딩 헤더 데이터를 생성하고/생성하거나 수정할 수 있다. 이런 방식으로, 해시 테이블 모듈(111)에 의해 생성되는 인코딩 데이터는 압축해제 모듈이 압축해제 절차를 겪는 데이터 스트림과 연관된 바이트들의 세트에 대응하는 문자 및/또는 카피 요소들을 어떻게 압축해제하거나 디코딩할 수 있는지에 관한 명령을 제공할 수 있다. 카피 요소들은 카피될 바이트들("길이") 및/또는 카피될 데이터가 얼마나 멀리 있는지("오프셋")를 포함할 수 있다.

예컨대, 일 구현예에서, 해시 테이블 모듈(111)에 의해 생성되고/생성되거나 수정되는 헤더 데이터는 식별된 문자들의 표현 및 대응하는 문자 데이터 시퀀스를 포함할 수 있다. 이로써, 압축해제 모듈(108)은 모듈이 문자 시퀀스를 어떻게 압축해제할 수 있는지에 관한 명령을 제공하는 인코딩되고/인코딩되거나 수정된 헤더 정보를 판독할 수 있다. 게다가, 압축해제 모듈(108)은 Snappy, LZ 압축 스킴, Gzip, 또는 유사 스킴과 같은 다양한 압축 스킴들에 기초하여 압축해제 절차를 수행하도록 구성될 수 있다.

일 구현예에 따르면, 적어도 하나의 참조 블록이 참조 블록 버퍼에 저장되도록 선택되고 지정된다면, 해시 테이블 모듈(111)은 연산된 해시값에 기초하여 추가 처리를 위해 참조 해시 테이블 및/또는 압축 해시 테이블을 사용하여 해시 테이블 룩업 및/또는 헤더 수정 절차를 수행하기 위해 시스템(100)의 컴포넌트들에 신호를 전송할 수 있다. 이런 방식으로, 해시 테이블 모듈(111)은 참조 해시 테이블 연산과 압축해제 절차의 시작 사이의 연동을 생성할 수 있다. 게다가, 압축 해시 테이블 및 참조 해시 테이블에 대해 해시 테이블 모듈(111)에 의해 수행되는 해시 연산 절차는 동일한 컴퓨터-구현 절차 또는 함수 또는 상이한 컴퓨터-구현 절차 또는 함수일 수 있다.

표 1은 본 발명의 구현예들에 의해 수정될 수 있는 후방-참조 인코딩 포맷 수정들 또는 헤더 포맷들의 예시적인 세트를 제공한다.

압축 헤더	의미
00	문자, 최대 길이 60 바이트
01	로컬 카피, 3 비트 길이, 11 비트 오프셋
10	로컬 카피, 6 비트 길이, 12 비트 오프셋
11	참조 카피, 12 비트 길이, 12 비트 오프셋

스캔 및 매치 엔진(109)은 해시 테이블 룩업 절차를 수행하고 해시값 비교를 수행하는 기능을 포함한다. 스캔 및 매치 엔진(109)은 시스템(100)에 의해 현재 저장되는 참조 데이터 블록들에 대해 데이터의 서브세트들을 위한 연산된 해시값들을 비교하기 위한 컴퓨터-구현 룩업 절차를 수행하기 위해 해시 테이블 모듈(111)로부터 신호를 수신하고/수신하거나 전송하는 기능을 포함한다.

스캔 및 매치 엔진(109)은 해시 테이블 모듈(111)에 의해 생성되는 해시 테이블들 내에 연산된 해시값들을 위치지정하고 데이터를 비교하기 위해 해시 테이블 룩업 로직을 사용할 수 있다. 예컨대, 해시 테이블 모듈(111)은 참조 해시 테이블(111-1) 및 압축 해시 테이블(111-2)을 생성하며 비교 동작을 수행할 수 있다. 이로써, 스캔 및 매치 엔진(109)은 참조 블록 버퍼(112-3)와 같은 버퍼 관리 제어기(112)에 의해 생성되는 버퍼에 시스템(100)에 의해 현재 저장되는 참조 데이터 블록들에 대해 바이트들의 서브세트를 위한 연산된 해시값들을 룩업하도록 구성될 수 있다.

이런 방식으로, 스캔 및 매치 엔진(109)은 해시 테이블 모듈(111)에 의해 생성되는 참조 해시 테이블 및 압축 해시 테이블 모두에서 병렬 또는 동시 검색을 수행할 수 있다. 이와 같은 룩업 절차를 수행할 때, 스캔 및 매치 엔진(109)은 또한 해시 테이블 모듈(111)에 의해 사전 식별된 데이터에 대응하는 저장된 참조 데이터 블록 및/또는 압축 해시값들에 대해 시스템(100)에 의해 수신되는 바이트들의 후속 세트를 비교하기 위한 절차를 수행할 수 있다.

예컨대, 도 1d를 참조하면, 참조 블록(118)이 참조 블록 식별 모듈(114)에 의해 식별될 때, 해시 테이블 모듈(111)은, 참조 블록 버퍼에 저장될 때 참조 블록(118)의 일부(예컨대, 참조 블록 데이터 서브세트들(118-1, 118-2, 118-3, 118-4 등)을 위한 값들)에 대응하는 참조 해시 테이블(111-1)에 연산된 해시값 엔트리를 저장한다. 이런 방식으로, 시스템(100)은 참조 블록(118)에 대응하는 참조 데이터의 슁글드 해시 함수값들을 연산하고 저장하기 위해 참조 데이터 버퍼의 필 타임을 사용할 수 있고, 이는 시스템(100)에 의해 수행되는 압축 및 중복제거 절차의 수행을 향상시킨다.

아울러, 도 1d에 도시된 바와 같이, 시스템(100)은 또한 유입 데이터 스트림과 연관된 입력 데이터 블록(120)을 수신할 수 있다. 이로써, 스캔 및 매치 엔진(109)은 수신 데이터 블록(120)과 유사한 데이터의 사전 저장된 시퀀스를 식별하기 위해 조밀한 참조 해시 테이블(111-1) 및 압축 해시 테이블(111-2)을 사용하여 병렬 룩업 절차를 수행하기 위해 해시 테이블 로직(109-3)을 사용할 수 있다. 이런 방식으로, 스캔 및 매치 엔진(109)은 바이트 단위(per-byte)로 참조 블록들 및 데이터의 더 작은 서브세트들(예컨대, 입력 데이터 블록 데이터 서브세트(120-1))을 사용하여 비교를 수행할 수 있다.

스캔 및 매치 엔진(109)이 참조 해시 테이블(111-1) 및/또는 압축 해시 테이블(111-2) 내의 엔트리와 데이터 블록(120)을 위한 연산된 해시값 사이의 매치를 검출하는 경우, 이에 대응하여, 스캔 및 매치 엔진(109)은 본원에 설명된 후방-참조 인코딩 포맷 수정과 같은 수정된 압축 헤더 포맷을 사용하여 참조 블록 버퍼 또는 데이터 입력 버퍼 내의 데이터의 서브세트를 압축해제하기 위해 압축해제 모듈(108)에 신호를 전송할 수 있다. 따라서, 압축해제 출력은 이후 데이터 출력 버퍼(112-2)와 같은 버퍼 관리 제어기(112)에 의해 생성되는 버퍼에 저장될 수 있다.

일 구현예에서, 압축해제 절차의 수행 중에, 압축해제 모듈(108)은 스캔 및 매치 엔진(109)이 참조 해시 테이블(111-1) 및/또는 압축 해시 테이블(111-2)의 매치를 검출할 때 복수의 상이한 시퀀스 중 하나를 선택하도록 구성될 수 있다. 예컨대, 기결정된 휴리스틱에 기초하여, 압축해제 모듈(108)은 문자, 로컬 카피, 및/또는 참조 카피로서 데이터를 압축해제하도록 구성될 수 있다. 이런 방식으로, 압축해제 시에, 시스템(100)은 유사한 참조 데이터 입력 버퍼를 생성할 수 있고, 그에 따라 압축해제 실시예는 입력 데이터 스트림으로부터 또는 참조 블록 버퍼로부터 후방-참조를 해석하도록 수정될 수 있다.

이로써, 압축해제 모듈(108)은 스캔 및 매치 엔진(109)에 의해 사용되는 문자 스캔 로직(109-1) 및/또는 로컬 카피 스캔 로직(109-2)을 처리하도록 구성될 수 있다. 본 발명의 구현예들은 단일 참조 블록의 사용에 제한되지 않는다는 것을 이해할 수 있다. 구현예들은 기존 데이터 경로 및 프레임 구조에 대한 간단한 수정과 함께 다수의 참조 블록을 포괄하도록 확장될 수 있다. 예컨대, 구현예들은 병렬 수행되는 다수의 참조 블록 비교까지 확장될 수 있다. 게다가, 해시 테이블 모듈(111)은 상이한 참조 블록들의 세트의 각각의 참조 블록에 대응하는 다수의 참조 해시 테이블을 생성하도록 구성될 수 있다. 아울러, 다수의 참조 블록은 해시 테이블 모듈(111)에 의해 생성되는 단일 참조 해시 테이블에 저장될 수 있다.

게다가, 시스템(100)은 헛된 노력을 최소화하고 전체 시스템 성능의 손실을 방지하기 위해, 본원에 설명된 바와 같은 데이터 감소 동작의 수행 전에, 조기 온(on)을 검출하며 블록의 압축성을 예측하도록 구성될 수 있다. 예컨대, 압축해제 모듈(108)은 시스템(100)에 의해 수신되는 데이터에 집단화 절차를 수행하는 기능을 포함한다. 이로써, 압축해제 모듈(108)은 압축해제 모듈(108)이 데이터 입력 버퍼(112-1)를 통해 수신되는 유입 데이터를 단일 인스턴스로 연산되거나 처리될 수 있는 "슁글들(shingles)" 또는 데이터 바이트들의 서브세트들로 집단화할 수 있게 하는 데이터 집단화 로직(108-1)을 포함할 수 있다. 이런 방식으로, 해시 테이블 모듈(111)은 데이터 집단화 로직(108-1)을 통해 압축해제 모듈(108)에 의해 선택되는 중복 데이터 슁글들 상에 해시값들을 연산할 수 있다. 아울러, 중복 슁글들에 대해 해시 테이블 모듈(111)에 의해 연산되는 해시값들은 시스템(100)에 상주하는 메모리 및/또는 압축 해시 테이블(111-2)과 같은 데이터 구조 내에서 어디에 슁글 오프셋값들이 저장되는지 표현하는 메모리 주소 위치들로서 사용될 수 있다.

또한, 스캔 및 매치 엔진(109)은 연산된 슁글들을 위치지정하기 위해 해시 테이블 모듈(111)을 사용할 수 있고, 병렬로, 데이터 입력 버퍼(112-1)에 기재될 때 데이터 블록들에 비교 동작을 수행할 수 있다. 예컨대, 압축 해시 테이블(111-2)을 사용하여, 스캔 및 매치 엔진(109)은 유입 데이터세트와 관련된 슁글을 위한 연산된 해시값이 압축 해시 테이블(111-2)에 저장되는 해시값과 동일한 서명을 공유한다고 판단하는 경우 "해시 히트"의 발생을 검출할 수 있다. 이런 방식으로, 스캔 및 매치 엔진(109)은 2개의 슁글이 서명 연산 엔진(113)에 의해 연산되는 동일 또는 유사 서명을 가질 때 해시 히트의 발생을 검출할 수 있다.

게다가, 스캔 및 매치 엔진(109)은 해시 히트 카운터(111-3)와 같은 압축성 카운터를 증가시키기 위해 압축해제 모듈(108)에 신호를 전송하는 기능을 포함한다. 이런 방식으로, 해시 히트 카운터(111-3)는 스캔 및 매치 엔진(109)이 해시 히트의 발생을 검출할 때마다 증가될 수 있다. 해시 히트 카운터(111-3)는 시스템(100)이 시스템(100)에 의해 수신되는 유입 데이터세트 내에 빈번하게 나타나는 해시값을 추적할 수 있게 한다. 따라서, 데이터 입력 버퍼(112-1)로의 데이터 전달의 종료 시에, 시스템(100)은 전체 데이터세트를 위한 연산된 해시들의 세트를 저장할 수 있다.

또한, 시스템(100)은 시스템으로 하여금 어떤 데이터 블록들이 데이터 감소 절차(예컨대, 데이터 중복제거 절차, 참조 블록 식별 절차, 데이터 압축 절차 등)의 수행으로부터 가장 혜택을 얻을 것인지 더 잘 판단할 수 있게 하는 빈번한 해시값 매치 임계점을 저장하도록 구성될 수 있다. 이런 방식으로, 시스템(100)은 기결정된 임계값 및/또는 연산된 압축성 카운트를 사용하여 압축성 특징을 자동으로 해석할 수 있게 하는 방식으로 구성될 수 있다. 예컨대, 시스템(100)에 의한 임의의 데이터 감소 절차의 수행 전에, 이는 먼저 기결정된 임계 카운트를 참조하고, 데이터 감소 동작을 수행, 중단, 및/또는 보류할지 결정할 수 있다.

이런 방식으로, 압축해제 모듈(108)과 같은 시스템(100)의 컴포넌트들은, 임계 카운트가 빈번한 해시값 매치 임계점에 상응하거나 초과할 때, 데이터 감소 동작(예컨대, 데이터 중복제거 절차, 참조 블록 식별 절차, 데이터 압축 절차 등)의 수행을 초기화하도록 시스템(100)의 컴포넌트들에 지시하는 명령 또는 명령들의 세트를 생성할 수 있다. 따라서, 시스템(100)의 컴포넌트들은, 임계 카운트가 빈번한 해시값 매치 임계점에 상응하지 못할 때, 데이터 감소 동작의 수행을 삼가하도록 시스템(100)의 컴포넌트들에 지시하는 명령 또는 명령들의 세트를 생성할 수 있다. 시스템(100)에 의한 이와 같은 판단은 호스트 CPU 주기를 절약할 뿐만 아니라, 데이터가 호스트 드라이버와 같은 다른 드라이버들을 방해하지 않으면서 시스템을 통해 이동할 수 있게 한다.

예컨대, 일 구현예에서, 해시 히트 카운터(111-3)의 값이 기결정된 임계값 미만인 경우, 압축해제 모듈(108)은 현재 분석 하의 데이터 블록들이 낮은 압축성 특징을 보이고, 그로 인해 데이터 스트림의 적어도 일부에 대해 높은 엔트로피 레벨을 나타낸다고 판단할 수 있다. 따라서, 이러한 판단에 응하여, 압축해제 모듈(108)은 임의의 압축해제 동작을 수행하지 않도록 구성될 수 있다. 이런 방식으로, 압축해제 모듈(108)은 압축해제 동작의 수행을 중단하고/중단하거나 보류하는 명령을 전송하도록 구성될 수 있다.

그러나, 해시 히트 카운터(111-3)의 값이 기결정된 임계값 이상인 경우, 압축해제 모듈(108)은 데이터 블록들이 높은 압축성 특징을 보이고, 그로 인해 데이터 스트림의 적어도 일부에 대해 낮은 엔트로피 레벨을 나타낸다고 판단할 수 있다. 따라서, 이러한 판단에 응하여, 압축해제 모듈(108)은 압축해제 동작의 수행을 초기화하는 명령을 전송하도록 구성될 수 있다. 이런 방식으로, 압축해제 모듈(108)은 데이터 입력 버퍼(112-1)에 저장되는 유입 데이터세트와 관련된 바이트들의 주어진 세트에 대해 시스템(100)의 다른 컴포넌트들에 "압축" 또는 "우회 압축" 신호를 발행할지 판단하기 위해 압축성 인자들을 사용한다.

이런 방식으로, 시스템(100)은 주어진 데이터세트의 데이터 블록들 사이의 검출된 유사성의 빈도에 기초하여 데이터 입력 버퍼(112-1)에 저장되는 데이터세트와 관련된 엔트로피를 측정할 수 있다. 일 구현예에 따르면, 스캔 및 매치 엔진(109)은 데이터의 히스토그램 표현을 사용하여 해시 히트의 빈도를 계산할 수 있다. 또한, 해시 히트 카운터(111-3)는 하드웨어 또는 소프트웨어를 통해 구현될 수 있다.

게다가, 시스템(100)은 또한 시스템 부하 및/또는 사용자 선호도에 기초하여 임계값을 동적으로 조정하도록 구성될 수 있다. 이런 방식으로, 압축을 위한 임계점은 전력 및 레이턴시를 댓가로 압축률을 증가시키려는 목적으로 완화될 수 있다. 마찬가지로, 더 낮은 평균 레이턴시를 달성하기 위해, 더 높은 임계값을 사용할 수 있다.

도 2a는 본 발명의 구현예들에 따른 단일 패스 엔트로피 검출을 위한 예시적인 과정의 제1 부분의 흐름도이다.

단계(205)에서, 입력 데이터 스트림이 시스템에 의해 수신되고 데이터 입력 버퍼에 저장된다. 데이터 스트림의 수신 시에, 압축해제 모듈은 데이터 입력 스트림에서 발견되는 데이터의 복수의 서브세트를 집단화하기 위해 데이터 집단화 로직을 사용한다. 서브세트의 크기는 기결정될 수 있고 고정된 크기를 가질 수 있다.

단계(206)에서, 데이터 입력 버퍼에 저장되는 데이터에 대해 지문 연산 엔진에 의해 생성되는 지문 데이터를 사용하여, 서명 연산 엔진은, 단계(205) 중에 저장될 때 데이터 스트림 내의 데이터의 제1 집단화 서브세트를 위한 제1 서명을 연산한다.

단계(207)에서, 해시 테이블 모듈은 데이터의 제1 집단화 서브세트를 위한 제1 해시값을 연산하고, 매치를 검출하기 위해 해시 테이블에 저장되는 해시값에 대해 연산된 해시값을 비교한다.

단계(208)에서, 해시 테이블 모듈은 데이터의 제2 집단화 서브세트를 위한 제2 해시값을 연산하고, 매치를 검출하기 위해 해시 테이블에 저장되는 해시값에 대해 연산된 해시값을 비교한다.

단계(209)에서, 해시 테이블 모듈은 데이터의 n번째 집단화 서브세트를 위한 n번째 해시값을 연산하고, 매치를 검출하기 위해 해시 테이블에 저장되는 해시값에 대해 연산된 해시값을 비교한다.

단계(210)에서, 압축해제 모듈은 해시 테이블 모듈에 의해 검출되는 매치를 모니터링하고, 이에 대응하여, 각각의 검출된 매치에 대해 카운터를 증가시킨다.

도 2b는 본 발명의 구현예들에 따른 단일 패스 엔트로피 검출을 위한 예시적인 과정의 제2 부분의 흐름도이다. 동작(210; 도 2a 참조)의 상세가 도 2b에 약술되어 있다.

단계(211)에서, 압축해제 모듈은 기결정된 빈번한 해시값 매치 임계점에 대한 카운터의 값에 기초하여 입력 데이터 스트림의 일부에 대한 엔트로피 레벨을 판단한다.

단계(212)에서, 압축해제 모듈은 빈번한 해시값 매치 임계점에 상응하거나 초과한 것의 검출 여부에 관한 판단을 수행한다. 압축해제 모듈이 빈번한 해시값 매치 임계점에 상응하거나 초과한 것을 검출하는 경우, 압축해제 모듈은 입력 데이터 스트림의 일부에 대해 높은 엔트로피 레벨을 판단하고, 이에 대응하여, 단계(213)에 상세히 나타낸 바와 같이, 데이터 감소 동작의 수행을 초기화하기 위해 시스템 컴포넌트들에 신호를 전달한다. 압축해제 모듈이 빈번한 해시값 매치 임계점에 상응하지 않는 것을 검출하는 경우, 압축해제 모듈은 입력 데이터 스트림의 일부에 대해 낮은 엔트로피 레벨을 판단하고, 이에 대응하여, 단계(214)에 상세히 나타낸 바와 같이, 데이터 감소 동작의 수행을 중단하기 위해 시스템 컴포넌트들에 신호를 전달한다.

단계(213)에서, 압축해제 모듈은 빈번한 해시값 매치 임계점에 상응하거나 초과한 것을 검출하고, 그에 따라 압축해제 모듈은 입력 데이터 스트림의 일부에 대해 높은 엔트로피 레벨을 판단하고, 이에 대응하여, 데이터 감소 동작의 수행을 초기화하기 위해 시스템 컴포넌트들에 신호를 전달한다.

단계(214)에서, 압축해제 모듈은 빈번한 해시값 매치 임계점에 상응하지 않는 것을 검출하고, 그에 따라 압축해제 모듈은 입력 데이터 스트림의 일부에 대해 낮은 엔트로피 레벨을 판단하고, 이에 대응하여, 데이터 감소 동작의 수행을 중단하기 위해 시스템 컴포넌트들에 신호를 전달한다.

도 3a는 본 발명의 구현예들에 따른 동시 데이터 중복제거 및 압축을 위한 예시적인 과정의 흐름도이다. 동작(213; 도 2b 참조)의 상세가 도 3a에 약술되어 있다.

단계(215)에서, 참조 블록 식별 모듈은 단계(206) 중에 연산되는 서명을 시스템에 의해 현재 저장되는 서명들의 클러스터들과 비교하고, 이에 대응하여, 연산된 서명을 가장 잘 표현하는 참조 블록을 선택한다. 참조 블록 식별 모듈에 의해 선택되는 참조 블록은 시스템에 의한 추가 처리를 위해 참조 블록 버퍼에 저장된다.

단계(216)에서, 참조 블록이 단계(215)에서 저장될 때, 해시 테이블 모듈은 참조 블록에 대응하는 슁글드 해시값을 연산한다.

단계(217)에서, 단계(216) 중에 연산되는 해시값이 해시 테이블 모듈에 의해 생성되는 참조 해시 테이블에 이미 저장된 것이 아니라면, 해시값은 참조 해시 테이블에 저장된다.

단계(218)에서, 적어도 하나의 참조 블록이 참조 블록 버퍼에 저장된다면, 해시 테이블 모듈은 단계들(207, 208, 및/또는 209) 중에 연산되는 해시값에 기초하여 추가 처리를 위해 참조 해시 테이블 및/또는 압축 해시 테이블을 사용하여 해시 테이블 룩업 및/또는 헤더 수정 절차를 수행하기 위해 스캔 및 매치 엔진에 신호를 전송한다.

도 3b는 본 발명의 구현예들에 따른 해시 테이블 룩업 절차를 수행하기 위한 예시적인 과정의 흐름도이다. 동작(218; 도 3a 참조)의 상세가 도 3b에 약술되어 있다.

단계(219)에서, 스캔 및 매치 엔진은 연산된 해시값과 참조 해시 테이블에 독점적으로 저장되는 엔트리 사이의 매치를 검출했는지에 관한 판단을 수행한다. 스캔 및 매치 엔진이 매치가 검출되었다고 판단하는 경우, 단계(220)에 상세히 나타낸 바와 같이, 스캔 및 매치 엔진은 바이트 단위로 매칭된 엔트리와 연관된 참조 블록 버퍼에 저장되는 참조 블록에 대해 해시값과 연관된 데이터의 서브세트를 비교한다. 스캔 및 매치 엔진이 매치가 검출되지 않았다고 판단하는 경우, 단계(221)에 상세히 나타낸 바와 같이, 스캔 및 매치 엔진은 연산된 해시값과 압축 해시 테이블에 독점적으로 저장되는 엔트리 사이의 매치를 검출했는지에 관한 판단을 수행한다.

단계(220)에서, 스캔 및 매치 엔진은 매치가 검출되었다고 판단하였고, 그에 따라 스캔 및 매치 엔진은 바이트 단위로 매칭된 엔트리와 연관된 참조 블록 버퍼에 저장되는 참조 블록에 대해 해시값과 연관된 데이터의 서브세트를 비교하고, 이에 대응하여, "11"과 같은 참조 카피를 위한 수정된 압축 헤더 포맷을 사용하여 참조 블록 버퍼 내의 데이터의 서브세트를 압축해제하기 위해 압축해제 모듈에 신호를 전송한다. 압축해제 출력은 데이터 출력 버퍼에 저장된다.

단계(221)에서, 스캔 및 매치 엔진은 매치가 검출되지 않았다고 판단하였고, 그에 따라 스캔 및 매치 엔진은 연산된 해시값과 압축 해시 테이블에 독점적으로 저장되는 엔트리 사이의 매치를 검출했는지에 관한 판단을 수행한다. 스캔 및 매치 엔진이 매치가 검출되었다고 판단하는 경우, 단계(222)에 상세히 나타낸 바와 같이, 스캔 및 매치 엔진은 바이트 단위로 데이터 입력 버퍼에 현재 저장되는 데이터에 대해 해시값과 연관된 데이터의 서브세트를 비교한다. 스캔 및 매치 엔진이 매치가 검출되지 않았다고 판단하는 경우, 단계(223)에 상세히 나타낸 바와 같이, 스캔 및 매치 엔진은 연산된 해시값과 참조 해시 테이블 및 압축 해시 테이블 모두에 저장되는 엔트리 사이의 매치를 검출했는지에 관한 판단을 수행한다.

단계(222)에서, 스캔 및 매치 엔진은 매치가 검출되었다고 판단하였고, 그에 따라 스캔 및 매치 엔진은 바이트 단위로 데이터 입력 버퍼에 현재 저장되는 데이터에 대해 해시값과 연관된 데이터의 서브세트를 비교하고, 이에 대응하여, 적절한 비트 길이 및 오프셋에 기초하여, "01" 또는 "10"과 같은 로컬 카피를 위한 수정된 압축 헤더 포맷을 사용하여 데이터 입력 버퍼 내의 데이터의 서브세트를 압축해제하기 위해 압축해제 모듈에 신호를 전송한다. 압축해제 출력은 데이터 출력 버퍼에 저장된다.

단계(223)에서, 스캔 및 매치 엔진은 매치가 검출되지 않았다고 판단하였고, 그에 따라 스캔 및 매치 엔진은 연산된 해시값과 참조 해시 테이블 및 압축 해시 테이블 모두에 저장되는 엔트리 사이의 매치를 검출했는지에 관한 판단을 수행한다. 스캔 및 매치 엔진이 매치가 검출되었다고 판단하는 경우, 스캔 및 매치 엔진은 바이트 단위로 데이터 입력 버퍼에 현재 저장되는 데이터에 대해 해시값과 연관된 데이터의 서브세트를 비교하고, 이에 대응하여, 기결정된 절차에 기초하여 데이터 입력 버퍼 내의 데이터의 서브세트를 압축해제하기 위해 압축해제 모듈에 신호를 전송한다.

단계(224)에서, 스캔 및 매치 엔진은 매치가 검출되었다고 판단하였고, 그에 따라 스캔 및 매치 엔진은 바이트 단위로 데이터 입력 버퍼에 현재 저장되는 데이터에 대해 해시값과 연관된 데이터의 서브세트를 비교하고, 이에 대응하여, 기결정된 절차에 기초하여 데이터 입력 버퍼 내의 데이터의 서브세트를 압축해제하기 위해 압축해제 모듈에 신호를 전송한다. 일 구현예에 따르면, 기결정된 절차는 데이터 스트림과 연관된 데이터의 카피의 길이 및/또는 소정의 다른 지식에 따라 압축해제 절차의 선택을 로컬 매치 또는 참조 매치쪽으로 치우치게 하도록 스캔 및 매치 엔진을 구성하는 것을 포함할 수 있다.

단계(225)에서, 스캔 및 매치 엔진은 매치가 검출되지 않았다고 판단하였고, 그에 따라 연산된 해시값은 해시 테이블 모듈에 의해 생성되는 압축 해시 테이블에 저장된다.

단계(226)에서, 스캔 및 매치 엔진은 "00"과 같은 문자 시퀀스를 위한 수정된 압축 헤더 포맷을 사용하여 데이터 입력 버퍼에 저장되는 데이터의 서브세트를 압축해제하기 위해 압축해제 모듈에 신호를 전송한다. 압축해제 출력은 데이터 출력 버퍼에 저장된다.

소정의 바람직한 구현예들 및 방법들이 본원에 개시되었지만, 본 발명의 정신 및 범주를 벗어남 없이 이와 같은 구현예들 및 방법들의 변경 및 수정이 이루어질 수 있다는 것이 전술한 개시로부터 당업자들에게 명백할 것이다.

일 구현예에 따르면, 본원에 설명된 기법들은 하나 이상의 특수-목적 컴퓨팅 장치에 의해 구현될 수 있다. 특수-목적 컴퓨팅 장치는 기법들을 수행하기 위해 하드-와이어링될 수 있거나, 기법들을 수행하기 위해 지속적으로 프로그램되는 하나 이상의 주문형 집적 회로(ASIC) 또는 필드 프로그램 가능 게이트 어레이(FPGA)와 같은 디지털 전자 장치를 포함할 수 있거나, 펌웨어, 메모리, 다른 저장 장치, 또는 조합의 프로그램 명령에 따라 기법들을 수행하기 위해 프로그램되는 하나 이상의 범용 하드웨어 프로세서를 포함할 수 있다. 이와 같은 특수-목적 컴퓨팅 장치는 기법들을 달성하기 위해 주문형 하드-와이어드 로직, ASIC, 또는 FPGA를 주문형 프로그래밍과 결합할 수도 있다. 특수-목적 컴퓨팅 장치는 데이터베이스 서버, 저장 장치, 데스크탑 컴퓨터 시스템, 휴대용 컴퓨터 시스템, 핸드헬드 장치, 네트워킹 장치, 또는 기법을 구현하기 위해 하드-와이어드 및/또는 프로그램 로직을 포함하는 임의의 다른 장치일 수 있다.

본 발명의 구현예들의 상기 상세한 설명에서, 다수의 특정 상세가 본 발명의 철저한 이해를 제공하기 위해 기술되었다. 그러나, 당업자는 본 발명이 이러한 특정한 상세 없이 실시될 수 있음을 인식할 것이다. 다른 경우에, 주지의 방법들, 절차들, 컴포넌트들, 및 회로들은 본 발명의 구현예들의 양태들을 불필요하게 모호하게 하지 않기 위해 상세히 설명되지 않았다. 명료함을 위해 방법을 번호가 부여된 단계들의 시퀀스로 나타낼 수 있지만, 이러한 번호 부여가 반드시 단계들의 순서를 좌우하는 것은 아니다. 일부 단계들이 생략되거나, 병렬 수행되거나, 시퀀스의 엄격한 순서를 유지해야 한다는 요건 없이 수행될 수 있다는 것을 이해해야 한다. 본 발명의 구현예들을 도시한 도면은 반-도식적이며, 정확한 비율로 나타낸 것이 아니고, 특히 일부 치수들은 발표의 명료함을 위한 것이며, 도면에 과장되어 도시된다. 마찬가지로, 설명의 용이함을 위해 도면의 관점은 일반적으로 유사한 배향을 나타내지만, 도면의 이러한 묘사는 대개 임의적이다.

Claims

엔트로피 검출 장치에 있어서,
입력 데이터 스트림을 저장하도록 구성되는 메모리 유닛; 및
상기 메모리 유닛에 결합되는 프로세서를 포함하고,
상기 프로세서는
상기 입력 데이터 스트림의 데이터의 서브세트에 대한 해시값을 연산하고:
상기 입력 데이터 스트림의 데이터의 상기 서브세트에 대해 연산된 상기 해시값을, 해시 테이블에 저장된 해시값과 비교하고;
상기 해시값이 상기 저장된 해시값과 일치하면 카운터값을 업데이트하고;
상기 카운터값에 기초하여 상기 입력 데이터 스트림의 데이터의 상기 서브세트에 대한 엔트로피 레벨을 결정하고, 상기 엔트로피 레벨에 응답하여 데이터 감소 동작을 수행하도록 구성되고,
상기 프로세서는 상기 데이터 감소 동작을 수행하기 위해 상기 해시값이 상기 저장된 해시값과 일치하는지 여부에 기초하여 압축 헤더 포맷을 변경하도록 동작 가능하고,
상기 해시 테이블은 참조 해시 테이블 및 압축 해시 테이블을 포함하고,
상기 해시값이 상기 참조 해시 테이블에 독점적으로 저장된 해시값과 일치하면 참조 카피를 위한 수정된 압축 헤더 포맷이 사용되고,
상기 해시값이 상기 압축 해시 테이블에 독점적으로 저장된 해시값과 일치하면 로컬 카피를 위한 수정된 압축 헤더 포맷이 사용되는 것인, 엔트로피 검출 장치.
제1항에 있어서,
상기 프로세서는 상기 엔트로피 레벨을 결정하기 위해 상기 입력 데이터 스트림의 데이터의 상기 서브세트에 대한 해시값 매치 빈도를 모니터링하도록 동작 가능한 것인, 엔트로피 검출 장치.
제1항에 있어서,
상기 프로세서는 높은 엔트로피 레벨의 검출에 응답하여 상기 데이터 감소 동작을 초기화하도록 동작 가능하고, 상기 엔트로피 레벨은 상기 카운터값이 임계값을 만족할 때 높은 엔트로피 레벨인 것인, 엔트로피 검출 장치.
제1항에 있어서,
상기 프로세서는 낮은 엔트로피 레벨의 검출에 응답하여 상기 데이터 감소 동작을 중단하도록 동작 가능하고, 상기 엔트로피 레벨은 상기 카운터값이 임계값 미만일 때 낮은 엔트로피 레벨인 것인, 엔트로피 검출 장치.
제1항에 있어서,
상기 데이터 감소 동작은 압축 동작을 포함하는 것인, 엔트로피 검출 장치.
제5항에 있어서,
상기 프로세서는 해시 테이블을 사용하여 상기 압축 동작을 수행하도록 동작 가능한 것인, 엔트로피 검출 장치.
입력 데이터 스트림의 엔트로피를 검출하는 컴퓨터-구현 방법에 있어서,
입력 데이터 스트림을 수신하는 단계;
상기 입력 데이터 스트림의 데이터의 서브세트에 대한 해시값을 연산하는 단계:
상기 입력 데이터 스트림의 데이터의 상기 서브세트에 대해 연산된 상기 해시값을, 해시 테이블에 저장된 해시값과 비교하는 단계;
상기 해시값이 상기 저장된 해시값과 일치하면 카운터값을 업데이트하는 단계;
상기 카운터값에 기초하여, 상기 입력 데이터 스트림의 데이터의 상기 서브세트에 대한 엔트로피 레벨을 결정하는 단계; 및
상기 엔트로피 레벨에 응답하여 데이터 감소 동작을 수행하는 단계
를 포함하고,
상기 데이터 감소 동작을 수행하는 단계는 또한, 상기 데이터 감소 동작을 수행하기 위해 상기 해시값이 상기 저장된 해시값과 일치하는지 여부에 기초하여 압축 헤더 포맷을 변경하는 단계를 포함하고,
상기 해시 테이블은 참조 해시 테이블 및 압축 해시 테이블을 포함하고,
상기 해시값이 상기 참조 해시 테이블에 독점적으로 저장된 해시값과 일치하면 참조 카피를 위한 수정된 압축 헤더 포맷이 사용되고,
상기 해시값이 상기 압축 해시 테이블에 독점적으로 저장된 해시값과 일치하면 로컬 카피를 위한 수정된 압축 헤더 포맷이 사용되는 것인, 컴퓨터-구현 방법.
제7항에 있어서,
상기 엔트로피 레벨을 결정하는 단계는 상기 입력 데이터 스트림에 대한 해시값 매치 빈도를 모니터링하는 단계를 더 포함하는 것인, 컴퓨터-구현 방법.
제7항에 있어서,
상기 데이터 감소 동작을 수행하는 단계는 높은 엔트로피 레벨의 검출에 응답하여 상기 데이터 감소 동작을 초기화하는 단계를 더 포함하고, 상기 엔트로피 레벨은 상기 카운터값이 임계값을 만족할 때 높은 엔트로피 레벨인 것인, 컴퓨터-구현 방법.
제7항에 있어서,
상기 데이터 감소 동작을 수행하는 단계는 낮은 엔트로피 레벨의 검출에 응답하여 상기 데이터 감소 동작을 중단하는 단계를 더 포함하고, 상기 엔트로피 레벨은 상기 카운터값이 임계값 미만일 때 낮은 엔트로피 레벨인 것인, 컴퓨터-구현 방법.
제7항에 있어서,
상기 데이터 감소 동작을 수행하는 단계는 압축 동작을 수행하는 단계를 더 포함하는 것인, 컴퓨터-구현 방법.
제11항에 있어서,
상기 압축 동작을 수행하는 단계는 해시 테이블을 사용하는 단계를 포함하는 것인, 컴퓨터-구현 방법.
장치에 있어서,
프로세서;
명령어의 시퀀스를 저장하는 메모리
를 포함하고,
상기 명령어의 시퀀스는 상기 프로세서에 의해 실행될 때, 상기 프로세서가
입력 데이터 스트림을 저장하는 것;
상기 입력 데이터 스트림의 데이터의 서브세트에 대한 해시값을 연산하는 것:
상기 입력 데이터 스트림의 데이터의 상기 서브세트에 대해 연산된 상기 해시값을, 해시 테이블에 저장된 해시값과 비교하는 것;
상기 해시값이 상기 저장된 해시값과 일치하면 카운터값을 업데이트하는 것; 및
상기 카운터값에 기초하여 상기 입력 데이터 스트림의 데이터의 상기 서브세트에 대한 엔트로피 레벨을 결정하고, 상기 엔트로피 레벨에 응답하여 데이터 감소 동작을 수행하는 것을 수행하게 하고,
상기 저장된 명령어의 시퀀스는, 상기 프로세서에 의해 실행될 때, 상기 프로세서가 상기 해시 테이블을 사용하여 상기 데이터 감소 동작을 수행하기 위해 상기 해시값이 상기 저장된 해시값과 일치하는지 여부에 기초하여 압축 헤더 포맷을 변경하는 것을 수행하게 하고,
상기 해시 테이블은 참조 해시 테이블 및 압축 해시 테이블을 포함하고,
상기 해시값이 상기 참조 해시 테이블에 독점적으로 저장된 해시값과 일치하면 참조 카피를 위한 수정된 압축 헤더 포맷이 사용되고,
상기 해시값이 상기 압축 해시 테이블에 독점적으로 저장된 해시값과 일치하면 로컬 카피를 위한 수정된 압축 헤더 포맷이 사용되는 것인, 장치.
제13항에 있어서, 상기 저장된 명령어의 시퀀스는, 상기 프로세서에 의해 실행될 때, 상기 프로세서가 복수의 해시 테이블을 사용하여 상기 데이터 감소 동작을 수행하는 것을 수행하게 하는 것인, 장치.
제13항에 있어서, 상기 데이터 감소 동작은 데이터 중복제거 동작을 포함하는 것인, 장치.
제13항에 있어서, 상기 데이터 감소 동작은 데이터 압축 동작을 포함하는 것인, 장치.