KR20010014332A

KR20010014332A - 효과적인 테이블-룩업에 기초한 시각적-무손실 이미지압축 구조

Info

Publication number: KR20010014332A
Application number: KR1019997012479A
Authority: KR
Inventors: 아카랴틴쿠
Original assignee: 피터 엔. 데트킨; 인텔 코오퍼레이션
Priority date: 1997-06-30
Filing date: 1998-06-03
Publication date: 2001-02-26
Also published as: GB2342244B; GB2342244A; KR100352343B1; AU7812698A; JP4468490B2; US6009201A; GB9929950D0; IL133689A; CN1135494C; CN1269039A; JP2002507354A; DE19882507T1; TW395124B; WO1999000762A1; IL133689A0

Abstract

인간의 시각 인식 구조를 모델화한 이미지 압축 구조가 나타나 있다. 시각적-무손실 구조에 따라, 이미지 에러 값의 양자화를 사용하여, 이미지가 압축되며(130) 맨눈으로는 원래의 이미지와 시각적으로 구별할 수 없다. 디지털 카메라와 같은 휴대용 디바이스에서 이미지 압축을 돕기 위해서, 양자화가 룩-업 테이블에 미리 연결(precoupled)된다.

Description

효과적인 테이블-룩업에 기초한 시각적-무손실 이미지 압축 구조{AN EFFICIENT TABLE-LOOKUP BASED VISUALLY-LOSSLESS IMAGE COMPRESSION SCHEME}

디지털 스틸 카메라와 같은 작은 휴대용 디바이스에서, 압축 및 압축 해제(decompression) 후에도 여전히 만족할만한 화질을 유지하면서도 포착된(captured) 센서 이미지의 처리시간 및 필요 기억장치를 감소시키는 것에 이미지 압축 구조가 적합해야 한다. 필요 기억장치 및 처리시간이 감소하면, 프로세싱을 수행하는 VLSI(초고밀도 집적회로) 칩이 더 작아지기 때문에 디바이스의 전체 전력 소모는 줄어든다. 정지화상(still image) 및 모션 비디오의 저장 또는 전송을 위한 비트율의 감소는 이미지를 포착하는 프로세서의 속도를 증가시키고, 따라서 PC(개인용 컴퓨터) 또는 다른 더 복잡한 데이터 프로세싱 시스템에 이들을 다운로드하는 속도를 증가시킨다. 이미지의 빠른 포착 및 압축은, 그러한 카메라로 하여금 다음 이미지, 즉 카메라의 다음 클릭(next click)으로 빠르게 변하도록 한다.

VLSI 칩과 같은 하드웨어에 의해서이든 또는 소프트웨어에 의해서 수행되든, 이미지 압축은 "손실성(lossy)" 또는 "무손실성(lossless)"으로 분류될 수 있다. 무손실성 압축에서는, 압축된 이미지가 압축 해제 되었을 때에도 압축 전 원래의(original) 이미지가 정확히 복구될 수 있다. 따라서, 압축율이 이미지의 엔트로피에 크게 영향받는 무손실 기술(lossless technique)은 높은 압축율을 얻지 못하며, 높은 비율의 원래 이미지 정보를 유지하기 때문에 계산적으로 많은 비용이 들게 된다. 이와 반대로, 손실성 압축은 단지 원래 이미지의 근사치만을 제공한다. 따라서 손실성 압축에서는, 더 큰 압축율을 얻을 수 있으나 일반적으로 무손실 기술에 비해서는 더 낮은 화질을 가진다. "예측 코딩(predictive coding)"(기술에서는 또한 디지털 펄스 코드 변조(DPCM)라고 불린다)이라고 하는 그러한 손실성 기술의 하나는, 이미 처리된 이웃 픽셀의 특성을 선형적으로 결합함으로써 연속적인 픽셀의 값을 예측한다. 에러 픽셀은 원래의 이미지 픽셀과 이에 대응하여 예측된 픽셀 사이의 차이로 정의된다. 컬러 값으로 나타내는 에러 픽셀은 양자화되어 2진 인코드(encode)된다. 전통적으로, 양자화는 인코딩(encoding)과는 구별되어 수행되는데, 이는 프로세싱 회로에 복잡성을 주었다.

손실성 압축 구조에서도, 양자화 및 인코딩의 프로세서는 때때로 매우 계산 집약적이다. 따라서, 디지털 카메라와 같은 작은 디바이스에서 양자화 및 인코딩의 계산을 감소하거나 또는 제거하는 것이 바람직하다. 그렇게 하는 것이 필요한 회로 또는 칩 면적을 감소시키며, 또한 전력 소모를 감소시킨다.

전통적으로 사용되는 손실성 기술에서는 화질이 손해를 본다. 디지털 카메라와 같이 포착된 화질이 중요한 상황에서는 "시각적-무손실"이라는 압축 구조를 사용하는 것이 바람직하다. "시각적-무손실" 구조는 기술적으로는 손실성이지만, 일정한 속성 때문에 인간의 시각 구조를 모형화(model)하였다. 맨눈으로는, "시각적-무손실" 구조를 사용하여 압축한 이미지는 원래 이미지와 거의 동일하게 보인다.

그러한 계산 집약적 기술의 구현은, 이미지 압축이 필요한 휴대용 소형 디바이스 및 디지털 카메라에 적당한 것보다도 더 큰 VLSI 회로를 필요로 한다. 따라서, 전력을 보존하면서 기술을 수행할 더 효과적인 프로세스가 필요하다. 또한, 인간의 시각 구조와 관련해서 손실성 이미지가 맨눈에는 "무손실"로 보이도록 하기 위해 화질을 보존하는 것이 필요하다.

발명의 간단한 설명

시각적-무손실 이미지 압축 구조를 모형화한 이미지 압축 테이블을 컴파일링 하는 단계를 포함하는 방법이 나타나 있다. 이미지 압축 테이블은 압축 해제시에 시각적-무손실로 보이는 이미지를 압축하는데 사용된다.

본 발명은 일반적으로 디지털 이미지 및 컴퓨터 그래픽 분야에 관한 것이며, 더욱 상세하게는 디지털 이미지 프로세싱 및 압축을 수행하는 방법에 관한 것이다.

본 발명의 방법 및 장치에 대한 대상, 특성, 및 이점은 다음의 설명으로부터 확실히 알 수 있다.

도 1은, 본 발명의 하나의 실시예의 흐름도.

도 2는, 본 발명의 하나의 실시예에 따라서 이미지 압축 테이블을 컴파일링하는 상세한 흐름도.

도 3은, 본 발명의 또 다른 실시예의 흐름도.

도 4는, 본 발명의 하나의 실시예에 따라서 양자화된 에러 값을 계산하는 흐름도.

도 5는, 본 발명의 하나의 실시예에 따라서 샘플 값을 가진 이미지 압축 테이블.

도 6은, 본 발명의 하나의 실시예의 구조도.

도면을 참조할 때, 본 발명의 예시적인 실시예가 설명될 수 있다. 예시적 실시예는 본 발명의 한 측면을 설명하기 위해 제공된 것이며, 본 발명의 범위를 제한하는 것으로 해석되어서는 안된다. 예시적인 실시예는 주로 블록도 또는 흐름도를 참조하여 설명되었다. 흐름도에서, 흐름도 안의 각 블록은 방법 단계(method step) 및 방법 단계를 수행하기 위한 장치 요소(apparatus element)를 나타낸다. 구현됨에 따라, 대응되는 장치 요소는 하드웨어, 소프트웨어, 펌웨어(firmware), 또는 이들의 조합에 구성될 수 있다.

도 1은, 본 발명의 하나의 실시예의 흐름도이다.

이 실시예에서, 콤팩트(compact)하면서도 효과적인 이미지 압축을 얻을 때의 한 단계는, 양자화된 에러 값 및 코드의 테이블을 프리-컴파일(pre-compile)하는 것이다(단계 110). 에러는 예측된 픽셀(또는 평균 픽셀)과 현재 픽셀의 차이로서 정의되는데, 가능한 에러 값의 전체 수는, 각 픽셀에 요구되는 컬러 해상도에 기초하게 된다(아래에서 설명됨). 각각의 가능한 에러 값에 대해, 대응하는 양자화된 에러 값은 컴퓨터와 같은 데이터 프로세싱 시스템에 의해 계산된다. 아래에서 자세히 설명하듯이, 각 양자화된 에러 값은 허프만 (또는 다른 엔트로피 인코딩) 등가 코드 (Huffman code equivalent)를 가진다. 허프만 코딩은 디지털 인코딩 및 데이터 압축 기술분야에서 잘 알려져 있다. 통합된 원래의 양자화된(integrated original quantized) 에러 값의 단일 테이블, 및 허프만 등가 코드(Huffman code equivalent) 등은 데이터 프로세싱 시스템 상에 테이블 형식으로 저장된다.

일단 테이블이 프리-컴파일되면, 어떤 이미지 포착 또는 압축에 선행하여, 테이블이 카메라 내부의 램(RAM :Random Access Memory) 또는 롬(ROM :Read Only Memory) 유닛에 로드된다(단계 120). 메모리는 논리/산술 회로와 비교해서 값이 싸고 전력을 보존하기 때문에, 그러한 테이블을 프리-컴파일하는 것은 비용 및 설계의 상당한 이점을 제공한다.

테이블로 나타낸 이미지 압축 구조에 대해, 일단 테이블이 카메라로 로드되면, 테이블은 재컴파일(re-compile) 또는 재로드(reload) 될 필요가 없다. 도 3에 나타낸 것처럼, 만약 이미지 압축 구조가 변하면, 이전의 테이블을 대체하거나 첨가하기 위해서 재컴파일 되거나 로드된다. 단계(130)에 따라서, 카메라의 렌즈-센서 시스템에 의해 포착된 이미지는 룩-업 테이블 어프로치를 사용하여 급히 압축된다. 포착된 픽셀은 R, G, 및 B(적색, 초록색, 및 파란색) 컬러 플레인(plane)으로 구성되며, 예측 코딩 절차(procedure of predictive coding)가 R, G, 및 B 플레인의 각 포착된 픽셀에 동시에 적용(apply)된다.

이미지가 완전히 포착되고 압축되면, 테이블의 재로드 또는 재컴파일 없이, 그 다음 이미지가 유사하게 처리된다. 그다음에는, 하나씩 차례로이든 또는 전체적으로이든, 압축된 이미지는 이미지의 압축해제를 수행하는 데이터 프로세싱 또는 컴퓨터 시스템에 다운로드 된다(단계 140). 아래서 설명할 "시각적-무손실" 어프로치를 사용할 때, 결과적인 이미지는 포착된 이미지를 거의 완벽하게 재구성한 것으로 눈에 보이게 된다. 테이블 룩업 압축의 방법론에서 하나의 장점은, 포착된 이미지가 압축되는 속도에 있으며, 따라서 카메라로 하여금 그 다음 이미지를 포착하도록 준비시킨다. 또하나의 장점은, 포착된 이미지에 가깝도록 디코드하고 역 양자화(inverse quantize)하는 압축해제가, 카메라에 로드 된 동일한 테이블을 사용하여 또한 이루어질 수 있다는 것이다. 시각적-무손실 알고리즘 뿐만 아니라 이러한 세부사항도 아래에서 설명된다.

도 2는 본 발명의 하나의 실시예에 따라 이미지 압축 테이블을 프리-컴파일링하는 상세한 흐름도이다.

이미지 압축 테이블을 프리-컴파일링하는 첫번째 단계는, 각각 지정된 에러 값에 대해서 양자화된 에러 값을 계산하는 것이다. 이미지 픽셀은 R, G, 및 B 플레인 콤포넌트로 분리되며, N 비트가 각 컬러 플레인에 사용된다고 하면, 전체의 픽셀은 3*N 비트로 정의될 것이다. 예측 코딩 구조(predictive coding scheme)는 각 컬러 플레인에서 독립적이면서 동시에 동작한다. 따라서, 예측된 픽셀 콤포넌트와 원래 픽셀 콤포넌트의 차이인 에러는, -(2^N-1)에서 2^N-1의 범위를 가지며, 가능한 에러 값의 전체 수는 2^N+1-1 이다. 예를 들면, 24비트 컬러 이미지는 8비트 R 콤포넌트, 8비트 G 콤포넌트, 및 8-비트 B 콤포넌트를 가지는 픽셀로 구성된다. 각 픽셀 콤포넌트에 대해서는, 에러의 하한은 0-255=-255 이고, 반면에 상한은 255-0=255 이며, 전체적으로 2⁸⁺¹-1=511의 에러 값을 준다. 그후, 단계(210)에 따라서, 2^N+1-1인 에러 값의 각각에 대해 양자화된 에러 값이 계산된다. 양자화된 에러 값은, 본 발명의 다양한 실시예에서 제시한 시각적-무손실 구조에 따라서, y=(x-C)^a+C의 형태를 가지며, 여기서 y는 양자화된 에러, x는 원래의 에러(original error), C는 임계값, 및 "a"는 인간의 시각 체계의 반응(시각적 입력에 대한 인간 시각체계의 반응 및 두뇌에 의한 해석)으로부터 유도되는 엔트로피 인코딩 요소(entropy encoding factor)이다. 양자화 계산의 더 상세한 설명은 도 4와 관련하여 아래에서 설명된다.

위의 예시는, 그 예측에 있어서 1 또는 다차원이 될 수 있는 예측 코딩의 한 형태이다. 일차원은, 예측된 "왼쪽(west)" 이웃 픽셀 콤포넌트를 예측된 픽셀 콤포넌트로서 가지는데, 이는 이미지에서 행은 동일하지만 이전의 열의 픽셀 콤포넌트 (R, G, B) 이다. 이차원 예측 코딩 구조는 먼저, 예를 들면, 예측된 "위쪽(north)" 이웃 콤포넌트 및 "왼쪽(west)" 이웃을 가지며, 이 둘을 평균한다. 그후에, 에러 값을 얻기 위해서, 이전에 예측된 픽셀 콤포넌트의 평균을 현재 원래의 이미지 픽셀로부터 뺀다. 이들 에러 값의 양자화로 인한 에러의 증가를 최소화하기 위해서, 역 양자화(inverse quantization) 및 에러의 근사화에 의해 "복구(recover)"하도록 피드백 복구(feedback recovery)가 적용된다. 역 양자화에 의해 얻어진 이 근사화는 예측된 픽셀 콤포넌트(또는 평균)에 합산되어 적어도 부분적으로는 에러를 복구한다.

도 2를 참조하여, 이 절차에서의 그 다음 단계는 양자화된 에러 값을 구별되는 클래스의 세트(distinct set of classes)로 분류하는 것이다(단계 220). 클래스의 수는, 양자화된 에러 값을 인코드하는데 필요한 비트 수 및 양자화된 에러 공식의 임계값 C에 영향을 받는다. 본 발명의 이 실시예에서 사용되는 2진 인코딩은 본질적으로 비트와이즈(bitwise)이다. 따라서, 비트와이즈(bitwise) 프로세싱이 필요하기 때문에 2진 코드 값을 디코딩하는 것은 계산상 복잡하다. 그러나, 양자화된 에러 값을 분류함으로써, 발생된 등가 코드워드(Codeword equivalent)의 디코딩은 매우 단순화된다. 한 예가 아래에 제시되어있다. 양자화된 에러 값을 분류한 다음, 등가 코드워드(Codeword equivalent)가 각각의 양자화된 에러 값에 대해 생성된다(단계 230). 각각의 양자화된 에러 값은 한 쌍의 2진 값(H, M)으로 나타내는데, H 는 클래스의 허프만 코드이며, M 은 그 클래스에서 양자화된 에러 값의 1의 보수 표현(one's complement representation)이다. (H, M)의 쌍이 "HM"의 비트 순서로 연결되었을 때, 이는 프리픽스 코드워드(prefix Codeword)를 나타낸다. 보는바와 같이, 이 프리픽스 코드워드는 디코딩 프로세스를 매우 단순화시킨다. 일단 등가 코드워드가 각각의 양자화된 에러 값에 대해 생성되면, 통합된 양자화된 에러 값 및 그들에 대응하는 등가 코드워드는 이미지 압축 테이블에 저장된다(단계 240). 더 나아가, 다음 단계는 각 등가 코드워드에 대해 등가 코드워드의 비트 길이(bit length)를 저장하는 것이다(단계 250).

(H, M) 쌍에 의해 생성된 등가 코드워드는 가변 길이 프리픽스 코드(variable length prefix code)이다. 등가 코드워드는 10진수로서 테이블에 저장되는데, 예를 들면, 양자화되지 않은 에러 값 2, 25, 100 의 등가 코드워드가 각각 0, 10111, 111010 이라면, 이들은 각각 0, 23, 58 의 10진수로서 테이블에 저장된다. 비록 등가 코드워드 0, 23, 및 58 이 각각 00000000, 00010111, 00111010 로서 8비트 (바이트)로 사실상 저장되지만, 등가 코드워드 0에 대해서는 단지 한 비트만이 의미를 가진다. 마찬가지로, 등가 코드워드 23에 대해서는 00010111의 마지막 5 비트만이 의미를 가지며, 등가 코드워드 58에 대해서는 00111010의 마지막 6 비트만이 의미를 가진다. 따라서, 모든 등가 코드워드가 동일한 수의 비트로서 최적으로 저장되기 때문에, 길이 정보가 가변 길이 코드를 룩업 테이블의 메모리 바이트로부터 추출할 수 있는 것이 필요하다. 가변-길이 등가 코드워드(variable-length Codeword equivalent)는 8-비트 바이트에서 함께 팩(pack) 되며, 압축된 파일로 출력된다. 예를 들면, 양자화된 에러 값이 99, 25, -2, 0, 9, 0, 0, 55, 100 이라고 가정하면, 출력 코드는 111011, 10110, 0, 0, 10101, 0, 0, 111000, 111011 이다. 이들은 아래와 같은 8-비트 바이트로서 팩(pack) 되어 압축된 파일로 출력된다.

바이트 1	바이트 2	바이트 3	바이트 4
11101110	11000101	01001110	00111011

따라서, 압축 해제시 올바르게 "언팩(unpack)" 되기 위해서는 길이 정보가 출력 바이트를 준비할 필요가 있다.

이미지 압축 테이블은 양자화된 에러 값들의 색인(index), 및 각각의 양자화된 에러 값에 대해서는 등가 코드워드 및 등가 코드워드의 길이에 대한 색인을 포함한다. 동일한 테이블은 모든 컬러 플레인(plane)에 대해서도 사용 가능하다. 따라서, 이미지 압축 테이블은 많아야 2^N+1-1의 색인 또는 어드레스를 가지는데, 여기서 N은 이미지의 픽셀의 각 컬러 콤포넌트 (R, G, B)의 비트 수를 나타낸다. 이미지 압축 테이블을 프리-컴파일링하는 절차는 단지 한번 수행되면 되고, 변경없이 각 컬러 플레인에 적용될 수 있다. 따라서, R, G, 및 B 압축 프로세스는 단일 이미지 압축 테이블을 공유한다.

양자화된 에러 값에 대해 등가 코드워드를 나타냄으로써, 이미지 압축 테이블은 양자화 및 2진 인코딩 프로세스를 통합한다. 테이블은, 테이블에 색인으로 제출된 각 양자화된 에러 값에 대해 등가 코드워드를 제공함으로써, 양자화 및 2진 인코딩을 통합한다. 따라서, 분리된 2진 인코딩의 단계 구조가 제거된다.

도 3은 본 발명의 또다른 실시예의 흐름도이다.

단일 이미지 압축 테이블은 뛰어난 화질 또는 압축율을 나타낸다. 테스트 및 실험은, 양자화된 에러 공식 y= (x-C)^a+C에서, 사람의 시각 구조의 반응에서 유도된 "a"=0.45 의 값은 뛰어난 시각적-무손실 성질을 준다는 것을 보여주었다. 그러한 시각적-무손실 이미지 압축은 정지화상에서 뛰어난데, 이는 색과 형상과 같은 시각적으로 수용된 자극에 대한 사람 뇌의 "인식"을 나타내기 때문이다. 임계값 C 도 또한 테스트를 통해서 3의 값에서 적당함을 알아내었다. 이 공식의 엄밀함은 아래에서 설명된다. 만약 다른 압축 레벨이 요구된다면, "시각적-무손실(visual-losslessness)"의 레벨은 감소되며 이미지 압축율은 증가할 것이다.

본 발명의 다양한 실시예의 기초가 되는 인간의 시각적 인식 구조는, 눈이 주위환경으로부터 수집한 것을 해석하는 두뇌 및 신경 조직 뿐만 아니라 시각조직(수정체, 각막 등)으로도 구성되어 있다. 반사된 빛에 기초하여, 눈 및 시각 조직은 마치 카메라처럼, 그러나 그보다는 덜 이산적(discrete)으로, 이미지 데이터의 집합을 두뇌에 전달한다. 두뇌는 눈이 "포착"한 것을 해석하며, 이 해석이 인간에게 "보이는" 것이 된다. 이미지의 섬세함, 선명도, 및 색 해상도는 시각적 자극을 처리하는 두뇌 일부분의 식별능력에 달려있다. 따라서, 만약 사람의 눈이, 예를 들어, 단지 1,000,000가지 색을 구분한다면, 사람에게 보여줄 목적으로 더 많은 색을 사용하여 프린트하거나 디스플레이한 이미지는 불필요한 것(extraneous)이다. 마찬가지로, 윤곽검출(edge detection)과 같은 인간의 시각 구조의 또다른 특징은, 만일 이해된다면, 디지털 카메라와 같은 응용을 위해 이미지 압축 구조를 단순화하는데 사용될 수 있다.

디지털 카메라의 경우에, 인간의 시각구조를 모델링하는 것은 본 발명의 다양한 실시예에서 언급된 "시각적-무손실" 결과를 가져온다. "a"를 0.45로 하고 "C"를 3으로 한 양자화의 공식 y = (x-C)^a+C 은, 스틸 이미지에 인간의 시각구조를 가깝게 모델한다. 이들 파라미터들이 사용된다면, 에러는 감수할 만 하며 사실상 맨눈으로는 구별하기 힘들다. 비록 다양한 실시예에서 본 발명은 룩-업 테이블을 사용하는 것을 고려하여 양자화가 미리 계산되고 컴파일되지만, 당업자는 즉시 여기의 인간 시각 모델링을 비-룩업 테이블에 기초한 접근(non-look-up table based approach)에 적용할 수 있을 것인데, 이 접근에서는, 양자화가 즉시 계산된다. 그러한 접근의 하나는 소프트웨어 압축을 포함하는데, 여기에는 컴퓨터 프로그램된 어플리케이션(computer programmed application)이 컴퓨터 시스템 내에 있는 y = (x-C)^a+C 또는 이의 변형을 사용하여, 이미 저장된 이미지에 대해 또는 어플리케이션에 스트림되는(streamed) 이미지에 대해 시각적-무손실 압축을 수행한다.

다른 적용 형태에 따라서 다른 이미지 압축율 및 화질이 요구된다. 이를 편하게 하기 위해, 이미징 시스템의 사용자는, 테이블이 프리-컴파일되는 데이터 프로세싱 시스템에서 또는 카메라/이미징 시스템으로부터, 요구되는 화질 및/또는 압축 레벨을 선택할 수 있다(단계 310). 그 다음으로, 소프트웨어는, 만일 요구되는 화질/압축 레벨에 대응하는 이미지 압축 테이블이 존재하면, 이미지 압축 테이블이 저장된 메모리 또는 디스크를 조회(query)한다(단계 320). 만약 대응하는 이미지 압축 테이블이 존재하면, 그때는 데이터 프로세싱 시스템은 대응하는 테이블을 카메라/이미징 시스템으로 로드한다(단계 340). 다른 실시예에서, 하나 이상의 다른 이미지 압축 테이블이 카메라/이미징 시스템에 저장될 수 있으며, 그러나 작은 디지털 카메라에서는 어떤 주어진 시간에 최적의 단일 테이블이 적당하며 가장적게 인트루시브(least intrusive)하다. 만약 카메라/이미징 시스템이 다중 테이블 기능(multiple table capability)을 가지고 있다면, 이미징 시스템은 이미 포함하고 있는 적당한 테이블에 대해 조회(query)를 받는 편이 좋다.

만약 대응하는 이미지 압축 테이블이 존재하지 않는다면, 그다음 단계는 양자화된 에러값 공식 y = (x-C)^a+C 에서 감마(gamma) "a" 및 임계값 C를 설정하는 것이다(단계 330). 감마 및 임계값은 압축 구조에 따라서 변하며, 어떤 특정한 구조(압축율/화질)가 요구되는 경우에 사용가능 하도록 즉시 표로 만들어질 수 있다. 요구되는 구조에 대응하는 감마 및 임계값을 사용한 뒤, 다음 단계는 이들 값을 사용하여 새로운 이미지 압축 테이블을 컴파일하는 것이다(단계 335). 이미지 압축 테이블의 컴파일링은 도 2와 관련하여 설명되었다.

일단 이미지 압축이 설정되거나 컴파일되면, 테이블은 카메라로 로드된다(단계 340). 테이블이 카메라로 로드된 후, 이미지는 카메라에서 압축된다.(단계 350). 이 이미지는 선택된 화질/압축에 상당하는 화질/압축율을 가진다. 대안으로서, 화질/압축율의 선택은, 이미지를 사용할 특정 어플리케이션에 기초한 데이터 프로세싱 시스템 또는 이미징 시스템에 의해 자동적으로 도달한다.

도 4는, 본 발명의 실시예에 따라 양자화된 에러 값을 계산하는 흐름도이다.

감마 "a" 및 임계값 C가 이미 결정되었다면, 다음의 방법론이 양자화된 에러 값을 계산하는데 사용된다. 기본 방정식 y = (x-C)^a+C 의 적절한 형태는 에러 값인 x의 범위에 의존한다. 만일 x가 C보다 크다면(단계 410에서 체크됨), y = (x-C)^a+C 형태가 적용된다. 이 형태를 적용하기 위해서, 첫째 단계는 중간값 I₁= (x-C)를 계산하는 것이다(단계 412). 그다음, I₁을 a제곱하여 I₂를 산출한다(단계 414). 마지막으로, I₂에 C가 더해져서 Y₁이 되며 이값은 양의 양자화된 에러 값이다(단계 416). 단지 양자화된 에러값 y의 정수부분만 저장되며, 따라서, y값은 테이블 입력 전에 절단(truncate)된다(단계 418).

만약 x가 -C보다 크고 C 이하이면(단계 420에서 체크됨), y는 0으로 판정된다(단계 422).

만약 에러 값이 -C이하라면(단계 430에서 체크됨), 그다음 단계는 에러값의 절대값을 취하는 것이다(단계 432). 그러면, 중간값 J₁은 에러 값의 절대값에서 C를 뺌으로써 계산된다(단계 434). 다음으로, J₁을 a제곱하여 J₂를 산출한다(단계 436). 다음, J₂에 C를 더하여 J₃을 만든다(단계 438). 마지막으로, 에러 값이 음수이므로, 양자화된 에러 값 또한 음이어야 한다. 이것은 J₃을 부정연산(negating) 함으로써 얻어진다(단계 440). 이들 양자화된 에러 값은, 이미지의 에러를 압축함으로써 이미지를 압축하는데 사용된다.

도 5는, 본 발명의 하나의 실시예에 따른 샘플 값을 가지는 이미지 압축 테이블이다.

도 5의 테이블은 8비트 컬러 플레인 값에 대한 샘플 값이다. 각 컬러 플레인 R, G, 및 B는, 만일 8비트로 구성되었다면, 24비트 컬러 해상도를 갖는 픽셀로서 압축해제 되었을 때의 이미지를 산출할 것이다. 모든 3색 플레인은 가능한 에러 값에 대한 동일한 범위를 가지기 때문에, 도 5의 이미지 압축 테이블은 모든 3색 플레인에 동등하게 적용가능 하다. 위에서 설명하였듯이, 8비트 컬러 플레인을 가정하면, 픽셀과 예측된 픽셀 사이의 가능한 에러 값은 각 플레인에 대해서 -255에서 +255 까지이다. 도 5의 테이블은 양자화될 때 가능한 511개 에러 값 중 28개를 보여준다. 본 발명의 한 실시예는 표현 y = (x-C)^a+C를 사용하여 양자화된 에러 값을 계산하는데, 여기서 x는 에러 값이며(도 5의 제 1열), y는 양자화된 에러 값이다(절단됨(truncated), 도 5의 제 2열). 도 5의 양자화된 에러 값은 감마 "a"가 0.45이고 및 임계값 C가 3일때에 대응한다. 도 5에서 보이듯이, a = 0.45 및 C = 3으로 하여 도 4의 방법론을 적용하면, 511개의 에러 값은 단지 25개의 양자화된 값으로 콤팩트 된다. 비록 이들 에러 값이 단지 하나의 R, G, 또는 B 픽셀에 관계하지만, 이웃하는 픽셀을 24비트 픽셀과 같이 더 높은 해상도의 이미지와 결합하기 위해서 내삽법(interpolation)이 사용될 수 있다.

일단 도 5의 제 2 열에 나타난 양자화된 에러 값이 컴파일되면, 에러 값의 분류가 수행된다. 임계값 C는 클래스의 수를 식별함으로써 분류를 결정한다. C가 3인 이 경우에는, 클래스의 수는 3이다. 첫째 클래스인 클래스 0은, -C에서 C까지, 즉 이 예에서는 -3에서 3까지에 위치하는 에러 값이다. 도 4의 방법론을 사용하면, 이들 모든 에러 값은 양자화된 에러 값 0에 대응된다. 두 번째 클래스인 클래스 3은, 4에서 7사이 및 -4에서 -7사이에서 부호없는(unsigned) 양자화된 에러 값을 인코딩하기 위해 최대 3비트가 바람직하기 때문에 그렇게 명명되었다. 그다음 클래스인 클래스 4는, 인코딩에 4비트가 필요한 8에서 15사이 및 -8에서 -15사이의 양자화된 에러 값을 포함한다.

일단 양자화된 에러 값에 대해서 분류가 수행되면, 다음으로 코드워드가 구성된다. 각 양자화된 에러 값에 대한 등가 코드워드는 "HM"의 형태를 가지는데, 여기서 H는 양자화된 에러 값이 속하는 클래스의 허프만 코드이며, M은 양자화된 에러 값의 2진 표시이다. 음의 양자화된 에러 값에서 M은, 그의 2진 형태로 부호없는 수인 2진 보수(binary complement)인 값을 가진다. 클래스의 허프만 코드 및 M은 등가 코드워드를 형성하도록 연결(concatenated)된다. 첫째 예로서, 31의 에러 값은 (a=0.45 및 C=3으로 계산했을 때) 양자화된 에러 값 7을 가진다. 양자화된 에러 값 7은 클래스 3에 속한다. "3"의 허프만 코드는 "10"이며, 따라서, H는 10이다. 2진수 형태에서 7은 3비트로 111이며, 따라서 M은 111이다. 따라서, 양자화된 에러 값 7에 대한 등가 코드워드는 "HM" 즉 10111이다. "10111" 값은 양자화된 에러 값 7의 다음에 저장된다. 두 번째 예로서, -119인 에러 값은 대응하는 양자화된 에러 값으로 -11을 가진다. "-11"은 클래스 4에 속하며, 따라서 H("4"의 허프만 코드)는 11(2진수 형태임)이다. M은 부호없는 십진수 11의 보수로서 "100"이다. 따라서 양자화된 에러 값 -11에 대한 등가 코드워드는 "110100"이다.

-255에서 255까지의 가능한 모든 양자화된 에러 값에 대해서, 양자화된 에러 값 및 등가 코드워드가 마찬가지로 컴파일된다. 위에서 논의한 바와 같이, 각 등가 코드워드의 길이 역시, 등가 코드워드를 통신 이송(communications transport)에 적당한 데이터 구조에 팩킹(packing)하기 위해서 저장된다. 등가 코드워드는, 전통적으로 구별된 양자화 및 인코딩 프로세스의 통합을 나타낸다.

더욱이, 이미지 압축 테이블은 또한 양자화된 에러 값의 역수(inverse)를 저장한다. 이미지가 복구 또는 압축해제 되었을 때, 역(inverse) 양자화된 에러 값이 사용된다. 역 양자화된 에러 값은 공식 X_inv= (y-C)^a+C 을 사용하여 계산되는데, 여기서 y는 양자화된 에러 값이며 X_inv는 역 양자화된 에러 값이다. 비록 역수가 양자화 이전의 원래 에러 값에 단지 가까울 뿐이지만(예를 들면, 255는 15로 양자화되고 역수는 253이다), 도입된 에러는 사람의 시각 구조로는 인식할 수 없기 때문에 시각적-무손실 압축에 아주 적당하다.

도 6은 본 발명의 하나의 실시예의 구조도이다.

컴퓨터 시스템(610)이 도시되어 있는데, 이것은 PC(개인용 컴퓨터)와 같이 일반적인 또는 특별한 목적의 계산용 또는 데이터 처리용 기계일 수 있으며, 카메라(630)에 연결되어 있다. 카메라(630)는 디지털 카메라, 디지털 비디오 카메라, 또는 어떠한 이미지 포착 디바이스 또는 이미징 시스템일 수 있으며, 물체(640)의 센서 이미지(sensor image)를 포착하기 위해 사용된다. 본질적으로, 포착된 이미지는 이미지 압축 회로(632)에 의해 압축되며, 이미지 메모리 유닛(634)에 효율적으로 저장되는데, 이미지 메모리 유닛은 램(RAM), 또는 고정 디스크, 미니어쳐 카드 등의 다른 저장 디바이스일 수 있다. 대부분의 디지털 카메라에서는, 이미지는 일단먼저 저장되며 나중에 다운로드된다. 이는 카메라(630)가 부가적인 지연 없이도 그 다음 물체를 빨리 포착할 수 있도록 한다.

본 발명의 이 실시예에서 이미지 프로세싱은 다음과 같이 동작한다. 첫째로, 이미지 압축 테이블이, 만약 아직 컴파일되지 않았다면, 컴퓨터 시스템(610)을 사용하여 컴파일된다. 본 발명의 다양한 다른 실시예에서 설명된 방법론이, 펜티엄(인텔 코퍼레이션의 제품)과 같은 프로세서(612) 및 램(RAM)(명령 어드레스 및 결과 데이터를 저장/로드하는데 사용된다)과 같은 메모리(611)를 사용하여 실행된다. 이미지 압축 테이블을 컴파일하는데 사용되는 어플리케이션은, C++과 같은 언어로 쓰여진 소스(source)로부터 컴파일된 실행 파일이다. 이 실행 파일의 명령들은 양자화된 에러 값, 등가 코드워드를 계산하는데 필요한 명령들과 일치하며, 디스크(618) 또는 메모리(611)에 저장된 이들 및 다른 값을 테이블에 인덱스(index)한다. 설명된 방법론이 알려진 경우, 당해 기술분야에 통상의 기술을 가진 자가 이미지 압축 테이블을 컴파일하기 위한 계산 기계를 프로그램 할 수 있는 것은 자명하다.

컴퓨터 시스템(610)은, 프로세서 및 메모리에서/로 정보 전송(information transfer)을 용이하게 하는 시스템 버스(613), 및 입출력 버스(615)에 연결된 브리지(614)를 가진다. 입출력 버스(615)는, 시리얼 포트와 같은 입출력 포트, 디스크(618), 및 디스플레이 어댑터(616) 등과 같은 다양한 디바이스를 연결한다. 이러한 입출력 디바이스, 버스, 및 브리지의 많은 조합이 본 발명에 사용될 수 있으며, 도시된 조합은 단지 가능한 조합의 하나의 예시일 뿐이다.

일단 테이블이 컴파일되면, 테이블은 입출력 포드(617)를 통해 보내지며, 이미지 압축 회로(632)에 의해 사용되는 램(RAM) 또는 메모리로서 이미지 압축 회로(632)에 로드된다. 테이블은, 일단 로드되면, 그후부터 이미지 압축 회로(632)에 의해 사용될 수 있다.

물체(640)의 이미지와 같은 어떤 이미지가 포착되면, 이미지는 R, G, 및 B 픽셀에 의해 감지(sense)되며 이들 픽셀 값은 이미지 압축 회로(632)로 보내진다. 이미지 압축 회로(632)는 IC 및 예측 코딩(predictive coding)과 같은 이미지 압축 구조를 실행하는 다른 구성요소로 이루어진다. 이미지 압축 회로(632)는 예측 코딩 공식(predictive coding formula)에 따라 최초의 에러 값을 계산하며, 그 후 대응하는 양자화된 에러 값 및 에러 값에 대한 등가 코드워드를 룩업(look up)하고, 이를 이미지 메모리 유닛(634)에 저장한다. 이미지 압축 테이블에서 값을 룩업함으로써, 양자화 및 인코딩의 단계가 카메라에서 수행될 필요가 없게 된다. 에러 값의 양자화 및 인코딩을 수행하는 부가적인 회로를 피함으로써 카메라의 전체 비용이 감소된다. 일단 모든 픽셀이 이미지에 대해 처리되면, 카메라(630)는 다음 이미지를 포착한다. 유저(user)나 어플리케이션이 이미지의 다운로드를 바라거나/요구할 때, 팩된 코드워드(packed Codeword)로서 이미지 메모리 유닛에 저장된 압축된 이미지는 이미지 메모리 유닛(634)에서 입출력 포트(617)로 전송된다. 입출력 포트(617)는, 코드워드를 메모리(611) 또는 선택적으로는 디스크(618)에 일시적으로 저장하기 위해서 버스-브리지 계층(bus-bridge hierarchy)(입출력 버스(615)에서 브리지(614)로, 다시 시스템 버스(613)로)을 사용한다. 압축된 이미지는 적당한 응용 소프트웨어 (또는 하드웨어)에 의해 압축해제 되는데, 이의 실행을 위해서 프로세서(612)를 사용한다. 이미지 압축 테이블이 컴퓨터 시스템 상에서 컴파일되기 때문에, 코드워드에 대응하는 실제의 에러 값을 역으로(in reverse) "룩업(look-up)"하는 것이 재사용될 수 있다. 압축 해제된 이미지(650)를 만들기 위해 에러 값은 역 예측 코딩(inverse predictive coding) (또는 다른 대응하는 이미지 압축 구조)에서 사용된다. 그러면, 디스플레이 어댑터(616)를 사용하여, 컴퓨터 시스템(610)에 연결된 모니터(620) 상에 압축 해제된 이미지(650)가 시각적으로 보내진다.

"a"가 0.45이며 임계값 C가 3일 때의 이미지 압축 테이블이 컴파일되고 카메라(630)에 사용된다면, 압축 해제된 이미지(650)는 "시각적-무손실"이 된다. 공식 y = (x-C)^a+C 이, 이미지 압축 테이블을 계산 및 컴파일 하는데 사용될 때, 사람의 시각 구조를 모형화하기 때문에, 이미지는 시각적-무손실이 된다. 따라서, 사용자(user)에게는, 적당한 디스플레이 디바이스(모니터(620) 및 어댑터(616)가 사용된다면, 압축 해제된 이미지(650)는 원래의 물체(640)의 모양과 사실상 구별할 수 없을 정도로 보인다. 마찬가지로, 본 발명의 다양한 실시예 및 이의 대안적인 방법론이 수행된다면, 카메라에 포착된 다른 이미지도 압축해제 되어 모니터(620) 상에 출력되며, 각각은 시각적-무손실 화질을 유지한다.

여기에 설명된 예시적인 실시예는 단지 본 발명의 원리를 설명하기 위해 제공되었고, 본 발명의 범위를 제한하는 것으로 해석되어서는 안된다. 오히려, 본 발명의 원리는, 여기에 설명된 장점을 얻고 또다른 장점을 얻거나 또는 다른 목적을 만족시킬 수 있는 넓은 범위의 시스템에까지 적용될 수 있다.

Claims

시각적-무손실 이미지 압축 구조를 모델화하는 이미지 압축 테이블을 생성하는 단계; 및

이미지를 압축하기 위해 상기 이미지 압축 테이블을 사용하는 단계;를 포함하며, 상기 압축된 이미지는 압축 해제되었을 때 시각적-무손실로 보이는 것을 특징으로 하는 방법.
제 1 항에 있어서, 사용 단계 이전에 상기 테이블을 이미지 포착 시스템에 로딩하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 2 항에 있어서, 상기 테이블을 로딩한 후에, 상기 테이블의 값을 상기 포착된 이미지에 적용함으로써, 상기 이미지 포착 시스템에 포착된 이미지를 압축하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 3 항에 있어서, 상기 압축된 이미지를 컴퓨터 시스템으로 다운로딩하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서, 컴파일링하는 단계는:

시각적-무손실 양자화 구조를 사용하여, 가능한 에러 값의 세트의 각각에 대해 양자화된 에러 값을 계산하는 단계; 및

상기 양자화된 에러 값의 각각에 대해 대응하는 등가 코드워드를 발생시키는 단계;를 포함하며, 상기 각 양자화된 에러 값 및 대응하는 등가 코드워드는 상기 가능한 에러 값의 각각에 대해 상기 테이블에 저장되는 것을 특징으로 하는 방법.
제 5 항에 있어서, 상기 구조는, 인간의 시각 구조에 의해 특징지워지는 상기 다항식(polynomial)에 기초하여, 상기 에러 값 및 상기 양자화된 에러 값을 다항식으로 관련(polynomially relate)시키는 것을 특징으로 하는 방법.
제 5 항에 있어서, 상기 양자화된 에러 값을 구별되는 클래스의 세트로 분류하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 5 항에 있어서, 상기 각 등가 코드워드에 대한 길이 정보를 상기 테이블에 저장하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 5 항에 있어서, 상기 양자화된 에러 값에 지수적으로(exponentially) 관련된 역의 에러 값(inverse error value)을 계산하고 및 상기 테이블에 저장하는 단계를 포함하는 것을 특징으로 하는 방법.
주어진 이미지 압축 구조에 대해서 양자화된 에러 값 및 등가 코드워드를 룩-업 테이블(look-up table)로 컴파일링하는 단계; 및

주어진 이미지 압축 구조에 대해서 상기 값들을 그 이후부터는 재컴파일링(re-compiling)하지 않고 이미지 압축을 위해 상기 룩-업 테이블을 사용하는 단계;를 포함하며, 상기 값들은 시각적-무손실 이미지 압축을 모델링하는 것을 특징으로 하는 방법.
제 10 항에 있어서, 상기 컴파일링하는 단계는, 압축되는 이미지의 특성과 독립하여 수행되는 것을 특징으로 하는 방법.
제 10 항에 있어서, 만일 주어진 이미지 압축 구조가 변경되었다면, 이미지 압축을 위해 두 번째 테이블의 값을 컴파일링하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 12 항에 있어서, 특별한 이미지 압축 구조가 유저(user)가 요구하는 화질의 선택에 기초해서 변경되는 것을 특징으로 하는 방법.
이미지 압축 모듈(module); 및

상기 이미지 압축 회로에 연결된 이미지 압축 테이블;을 포함하며, 상기 이미지 압축 테이블은 이미지를 압축하기 위해 사용되는 그곳의 양자화된 에러 값 및 등가 코드워드를 제공하며, 상기 양자화된 에러 값 및 등가 코드워드는 인간의 시각 구조를 모델링하는 것을 특징으로 하는 이미징 시스템.
제 14 항에 있어서, 상기 이미지 압축 회로 및 상기 룩-업 테이블은 이미지 포착 디바이스에 연결되어 있는 것을 특징으로 하는 이미징 시스템.
제 14 항에 있어서, 상기 이미지 포착 디바이스는 컴퓨터 시스템에 연결되어 있으며, 상기 컴퓨터 시스템은 상기 이미지 압축 테이블에 대한 상기 양자화된 에러 값 및 상기 등가 코드워드를 컴파일하도록 구성되는 것을 특징으로 하는 이미징 시스템.
제 15 항에 있어서, 상기 이미지 포착 디바이스는 상기 압축된 이미지를 저장하도록 구성되는 것을 특징으로 하는 이미징 시스템.
제 15 항에 있어서, 상기 이미지 포착 디바이스는 압축된 이미지를 컴퓨터 시스템으로 전송하도록 구성되는 것을 특징으로 하는 이미징 시스템.
제 15 항에 있어서, 상기 이미지 포착 디바이스는 컴퓨터 시스템에 연결되어 있으며, 상기 컴퓨터 시스템은 상기 압축된 이미지를 압축 해제하여 출력 디바이스로 보내도록 구성되며, 상기 출력 디바이스는 시각적-무손실인 압축 해제된 이미지를 보내는 것을 특징으로 하는 이미징 시스템.
제 14 항에 있어서, 상기 테이블은 이미지 에러 값의 양자화 및 인코딩을 통합하는 것을 특징으로 하는 이미징 시스템.