KR20100017973A

KR20100017973A - 이미지 트랜스코딩을 위한 비트 레이트 감소 기술들

Info

Publication number: KR20100017973A
Application number: KR1020097027473A
Authority: KR
Inventors: 시총 리우; 릭키 엔구옌
Original assignee: 콸콤 인코포레이티드
Priority date: 2007-05-31
Filing date: 2008-05-28
Publication date: 2010-02-16
Also published as: CN101682764A; JP5296060B2; JP2010529748A; EP2015582A1; CN101682764B; JP2013042509A; US8213498B2; WO2008150818A3; US20080298469A1; WO2008150818A2; KR101223983B1; TW200913722A

Abstract

본 개시물은 이미지 데이터를 감소된 크기로 압축하는 데이터를 인코딩하기 위한 기술들을 기재한다. 상기 기술들은 전송을 위해 감소된 크기로 이미지를 트랜스코딩하는데 특히 효율적일 수 있다. 인코딩 장치는 전체 이미지에 균일하게 영향을 미쳐 이미지를 트랜스코딩하는 비트레이트 제어 기술들을 이용하여 상기 이미지를 허용가능한 파일 크기로 트랜스코딩할 수 있다. 예를 들어, 상기 인코딩 장치는 하나 이상의 양자화 테이블들을 비트레이트(R)와 제로 값을 갖는(zero-valued) 양자화된 변환 계수들 간의 근사적 선형 관계의 함수로서 수정하여 전체 이미지에 비해 파일 크기를 균일하게 감소시킬 수 있다. 대안적으로, 또는 추가적으로, 상기 인코딩 장치는 상기 이미지의 단지 특정한 로컬화된 영역들에만 영향을 미치는 비트레이트 제어 기술들을 이용하여 상기 이미지를 트랜스코딩할 수 있다.

Description

이미지 트랜스코딩을 위한 비트 레이트 감소 기술들{BITRATE REDUCTION TECHNIQUES FOR IMAGE TRANSCODING}

본 출원은 2007년 5월 31일에 출원된 미국 가출원 번호 60/941,041호 데한 우선권을 주장하며, 상기 가출원은 본 명세서에서 참조된다.

본 발명은 압축에 관한 것으로서, 특히 이미지 압축에 관한 것이다.

이미지의 인터넷 전송, 디지털 이미지화, 픽쳐 메시징 등을 포함하여, 많은 상이한 애플리케이션들에서 전송 및 저장을 위한 이미지 파일들로 이미지들을 압축하는 것은 매우 핵심적인 사항이 되었다. JPEG(Joint Phtographic Experts Group)과 같은 이미지 압축 기술들은 고-해상도 이미지들이 상대적으로 작은 이미지 파일로 저장될 수 있도록 하여준다. 디지털 카메라 및 무선 통신 장치의 통합화로 인해, 이러한 이미지 파일들은 무선 네트워크들을 통해 이제 공유될 수 있다. 그러나, 이러한 공유는 시간 및 대역폭과 같은 네트워크 자원의 관점에서 많은 비용을 초래할 수 있다. 이러한 비용을 감소 또는 제한시키기 위해서, 무선 네트워크 제공자들은 종종 네트워크를 통해 전송될 수 있는 이미지 파일들의 파일 사이즈에 대한 제한을 부가한다. 이러한 파일 사이즈 요건들을 충족시키기 위해서, 부가된 파일 사이즈 제한으로 이미지 압축하는 것은 이미지 품질에서 상당한 열화를 초래할 수 있다.

본 발명은 감소된 사이즈를 이미지 데이터를 압축하기 위해서 데이터를 인코딩하기 위한 기술에 관련된다. 이러한 기술들은 특히 전송을 위해 감소된 사이즈로 이미지를 트랜스코딩 하는데 특히 효과적이다. 여기서 제시되는 트랜스코딩 기술들은 다양한 애플리케이션들에서 이용될 수 있다. 이러한 기술들이 이용될 수 있는 이러한 애플리케이션들 중 하나는 무선 네트워크상에서 전송하는 것이다. 예를 들어, 사용자는 예를 들어 소위 카메라 폰 또는 비디오 폰과 같은 이미지 캡쳐 성능을 구비한 이동 전화기를 사용하여 디지털 사진을 찍을 수 있다. 일반적으로, 캡쳐된 디지털 이미지는 고 해상도 이미지(예를 들면, JPEG 이미지)이다. 그러나, 캡쳐된 이미지를 다른 전화기를 전송하기 위해서, 고 해상도 이미지의 이미지 파일은 무선 네트워크 서비스 제공자의 전송 요건을 충족하기 위해서 또는 수신 장치의 스크린 사이즈 및 칼러 제한들에 보다 잘 맞춤화되도록 하기 위해서 보다 작은 파일 사이즈(예를 들면, 저해상도)로 트랜스코딩될 필요가 있다.

일 양상에서, 디지털 이미지 데이터를 처리하는 방법은 계산된 스케일링 인자의 함수로서 하나 이상의 양자화 테이블을 스케일링하는 단계; 상기 하나 이상의 스케일링된 양자화 테이블을 사용하여 상기 디지털 이미지 데이터의 화소의 복수의 블록들을 인코딩하는 단계; 상기 디지털 이미지 데이터의 화소들의 복수의 블록들 중 n번째 블록에서 인코딩된 비트들의 수 및 타겟 비트 레이트를 달성하기 위해서 상기 n번째 블록에서 이상적으로 인코딩되어야 하는 비트들의 수 사이의 차이를 트랙킹하는 단계; 및 상기 차이가 임계치 이상이면 상기 이미지 데이터의 상기 복수의 블록들 중 일부를 인코딩하는데 사용되는 하나 이상의 비트들을 제거하는 단계를 포함한다.

또 다른 양상에서, 디지털 이미지 데이터를 처리하기 위한 장치는 상기 디지털 이미지 데이터의 화소들의 복수의 블록들을 인코딩하는데 사용할 하나 이상의 양자화 테이블을 저장하는 메모리; 및 계산된 스케일링 인자의 함수로서 하나 이상의 양자화 테이블을 스케일링하고, 상기 하나 이상의 스케일링된 양자화 테이블을 사용하여 상기 디지털 이미지 데이터의 화소들의 복수의 블록들을 인코딩하고, 상기 디지털 이미지 데이터의 화소들의 복수의 블록들 중 n번째 블록에서 인코딩된 비트들의 수 및 타겟 비트 레이트를 달성하기 위해서 상기 n번째 블록에서 이상적으로 인코딩되어야 하는 비트들의 수 사이의 차이를 트랙킹하고, 그리고 상기 차이가 임계치 이상이면 상기 이미지 데이터의 상기 복수의 블록들 중 일부를 인코딩하는데 사용되는 하나 이상의 비트들을 제거하는 인코딩 모듈을 포함한다.

또 다른 양상에서, 디지털 이미지 데이터를 처리하기 위한 장치는 계산된 스케일링 인자의 함수로서 하나 이상의 양자화 테이블을 스케일링하기 위한 수단; 상기 하나 이상의 스케일링된 양자화 테이블을 사용하여 상기 디지털 이미지 데이터의 화소의 복수의 블록들을 인코딩하기 위한 수단; 상기 디지털 이미지 데이터의 화소들의 복수의 블록들 중 n번째 블록에서 인코딩된 비트들의 수 및 타겟 비트 레이트를 달성하기 위해서 상기 n번째 블록에서 이상적으로 인코딩되어야 하는 비트들의 수 사이의 차이를 트랙킹하기 위한 수단; 및 상기 차이가 임계치 이상이면 상기 이미지 데이터의 상기 복수의 블록들 중 일부를 인코딩하는데 사용되는 하나 이상의 비트들을 제거하기 위한 수단을 포함한다.

또 다른 양상에서, 디지털 이미지 데이터를 처리하기 위한 컴퓨터 프로그램 물건은 그 위에 명령들을 저장한 컴퓨터 판독가능한 매체를 포함한다. 상기 명령들은 계산된 스케일링 인자의 함수로서 하나 이상의 양자화 테이블을 스케일링하기 위한 코드; 상기 하나 이상의 스케일링된 양자화 테이블을 사용하여 상기 디지털 이미지 데이터의 화소들의 복수의 블록들을 인코딩하기 위한 코드; 상기 디지털 이미지 데이터의 화소들의 복수의 블록들 중 n번째 블록에서 인코딩된 비트들의 수 및 타겟 비트 레이트를 달성하기 위해서 상기 n번째 블록에서 이상적으로 인코딩되어야 하는 비트들의 수 사이의 차이를 트랙킹하기 위한 코드; 및 상기 차이가 임계치 이상이면 상기 이미지 데이터의 상기 복수의 블록들 중 일부를 인코딩하는데 사용되는 하나 이상의 비트들을 제거하기 위한 코드를 포함한다.

또 다른 양상에서, 디지털 이미지 데이터를 처리하기 위한 무선 장치 핸드셋은 계산된 스케일링 인자의 함수로서 하나 이상의 양자화 테이블을 스케일링하고, 상기 하나 이상의 스케일링된 양자화 테이블을 사용하여 상기 디지털 이미지 데이터의 화소들의 복수의 블록들을 인코딩하고, 상기 디지털 이미지 데이터의 화소들의 복수의 블록들 중 n번째 블록에서 인코딩된 비트들의 수 및 타겟 비트 레이트를 달성하기 위해서 상기 n번째 블록에서 이상적으로 인코딩되어야 하는 비트들의 수 사이의 차이를 트랙킹하고, 그리고 상기 차이가 임계치 이상이면 상기 이미지 데이터의 상기 복수의 블록들 중 일부를 인코딩하는데 사용되는 하나 이상의 비트들을 제거하는 인코딩 모듈 및 상기 인코딩된 화소 블록들을 전송하는 전송기를 포함한다.

또 다른 양상에서, 디지털 이미지 데이터를 처리하기 위한 집적회로 장치는 계산된 스케일링 인자의 함수로서 하나 이상의 양자화 테이블을 스케일링하고, 상기 하나 이상의 스케일링된 양자화 테이블을 사용하여 상기 디지털 이미지 데이터의 화소들의 복수의 블록들을 인코딩하고, 상기 디지털 이미지 데이터의 화소들의 복수의 블록들 중 n번째 블록에서 인코딩된 비트들의 수 및 타겟 비트 레이트를 달성하기 위해서 상기 n번째 블록에서 이상적으로 인코딩되어야 하는 비트들의 수 사이의 차이를 트랙킹하고, 그리고 상기 차이가 임계치 이상이면 상기 이미지 데이터의 상기 복수의 블록들 중 일부를 인코딩하는데 사용되는 하나 이상의 비트들을 제거하도록 구성된 적어도 하나의 프로세서를 포함한다.

또 다른 양상에서, 디지털 이미지 데이터를 처리하는 방법은 타겟 레이트를 달성하기 위해서, 제로 값을 갖는 양자화된 변환 계수들의 요구되는 수를 식별하는 단계;상기 제로 값을 갖는 양자화된 변환 계수들의 요구되는 수에 기반하여 상기 하나 이상의 양자화 테이블을 스케일링하는데 사용할 스케일링 인자를 결정하는 단계; 상기 결정된 스케일링 인자의 함수로서 루마 양자화 테이블 및 크로마 양자화 테이블을 스케일링하는 단계; 및 상기 스케일링된 루마 및 크로마 양자화 테이블들을 사용하여 상기 디지털 이미지 데이터의 화소 블록들을 인코딩하는 단계를 포함하며, 상기 크로마 양자화 테이블은 상기 루마 양자화 테이블보다 많이 스케일링된다.

또 다른 양상에서, 디지털 이미지 데이터를 처리하는 방법은 디지털 이미지 데이터의 화소들의 적어도 하나의 블록에 대한 복수의 양자화된 변환 계수들을 획득하는 단계, 2의 거듭제곱인 값을 가지는 복수의 양자화된 변환 계수들 중 적어도 하나를 선택하는 단계, 상기 하나 이상의 선택된 양자화 변환 계수들의 값들로부터 1의 값을 감산하는 단계, 및 상기 복수의 양자화된 변환 계수들을 인코딩하는 단계를 포함한다.

또 다른 양상에서, 디지털 이미지 데이터를 처리하는 방법은 비트 시퀀스를 획득하기 위해서 상기 디지털 이미지 데이터의 화소들의 적어도 하나의 블록을 인코딩하는 단계, 하나의 0 바이트의 추가를 필요로 하는 마커로서 동작하는 방식으로 배열되는 비트 시퀀스의 복수의 비트들을 식별하는 단계, 상기 비트 시퀀스가 마커 시퀀스처럼 더 이상 동작하는 않도록 사기 비트 시퀀스의 비트들 중 하나를 변경하는 단계, 및 상기 비트 시퀀스를 전송하는 단계를 포함한다.

여기 제시된 기술들은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 조합으로 구현될 수 있다. 소프트웨어로 구현되는 경우, 소프트웨어는 하나 이상의 프로세서(예를 들면, 마이크로 프로세서, 주문형 집적회로(ASIC), 필드 프로그램어블 게이트 어레이(FPGA), 또는 디지털 신호 프로세서(DSP), 또는 다른 등가의 집적 또는 이상 로직 회로)를 지칭할 수 있는 프로세서에서 실행될 수 있다. 이러한 기술들을 실행하는 소프트웨어는 초기에 컴퓨터-판독가능한 매체에 저장되고 프로세서에 의해 로딩 및 실행될 수 있다. 따라서, 본 발명은 또한 프로세서로 하여금 여기 제시된 다양한 기술들 중 임의의 기술을 실행하도록 하는 명령들을 포함하는 컴퓨터-판독가능한 매체를 포함한다. 일부 경우들에서, 컴퓨터-판독가능한 매체는 제조자들에게 판매되거나 및/또는 장치에서 사용될 수 있는 컴퓨터 프로그램 물건의 일부를 구성할 수 있다. 컴퓨터 프로그램 물건은 컴퓨터 판독가능한 매체를 포함할 수 있으며, 일부 경우들에서 패키징 자료들을 포함한다.

하나 이상의 실시예들에 대한 상세한 내용은 하기 도면을 참조하여 설명된다. 다른 특징, 목적 및 장정들은 하기 설명 및 도면, 그리고 청구항들로부터 당업자가 용이하게 이해할 수 있을 것이다.

도 1은 본 명세서에서 설명되는 인코딩 기술들을 구현하는 예시적인 시스템을 설명하는 블록도이다.

도 2는 예시적인 인코딩 모듈을 더 상세하게 기술하는 블록도이다.

도 3은 본 명세서에서 설명되는 매크로스케일 비트레이트 감소 기술들에 따라 이미지를 트랜스코딩하는 인코딩 모듈의 예시적인 동작을 설명하는 순서도이다.

도 4는 매크로스케일 비트레이트 감소 기술들 및 마이크로 비트레이트 감소 기술의 조합을 이용하여 이미지를 트랜스코딩하는 인코딩 모듈의 예시적인 동작을 설명하는 순서도이다.

도 5는 이미지의 비트레이트를 더 감소시키기 위해서 마이크로스케일 비트레이트 제어를 구현하는 인코딩 모듈의 예시적인 동작을 설명하는 순서도이다.

도 6은 이미지의 비트레이트를 더 감소시키기 위해서 다른 타입의 마이크로스케일 비트레이트 제어를 구현하는 인코딩 모듈의 예시적인 동작을 설명하는 순서 도이다.

본 개시는 이미지 데이터를 감소된 크기로 압축시키기 위해서 데이터를 인코딩하기 위한 기술들을 설명한다. 상기 기술들은 이미지를 전송을 위해 감소된 크기로 트랜스코딩하는데에 특히 효과적일 수 있다. 본 명세서에 기술된 상기 트랜스코딩 기술들은 다양한 어플리케이션들에서 이용될 수 있다. 상기 기술들이 이용될 수 있는 그러한 하나의 어플리케이션은 무선 네트워크를 통한 전송에 있다. 예컨대, 사용자는 디지털 영상을 얻기 위해, 이미지 캡쳐 능력을 갖는 이동 전화, 예컨대 소위 카메라 폰 또는 비디오 폰을 이용할 수 있다. 일반적으로, 캡쳐된 상기 디지털 영상은 고 해상도 JPEG 이미지와 같은 고 해상도 이미지이다. 하지만, 다른 전화로 상기 캡쳐된 이미지를 전송하기 위해서는, 무선 네트워크 서비스 제공자의 전송 요구조건들을 만족시키거나 또는 수신 장치의 화면 크기 및 색 제한에 잘 맞추기 위해, 고 해상도 이미지의 이미지 파일이 더 작은 파일 크기, 예컨대 더 낮은 해상도로 트랜스코딩되어야할 필요가 있을 수 있다.

이미지를 트랜스코딩하기 위해 전체 이미지에 일정하게 영향을 미치는 비트레이트 제어 기술들을 이용하여, 상기 캡쳐된 이미지가 수용가능한(acceptable) 파일 크기로 트랜스코딩될 수 있다. 이러한 일정한 비트레이트 제어 기술들은 본 명세서에서 매크로스케일 비트레이트 제어 기술들로 지칭된다. 예컨대, 상기 매크로스케일 비트레이트 제어 기술들은, 매크로스케일 비트레이트 제어를 성취하는 주요 수단으로서, 비트레이트 및 제로 값을 갖는 양자화된 변환 계수들 사이의 근사적인 선형 관계에 따라 하나 또는 그 이상의 양자화 테이블들을 수정하는 것을 포함할 수 있다.

대안적으로 또는 추가적으로, 캡처된 이미지는 이미지의 오직 특정한 로컬화된(localized) 영역들에만 영향을 주는 비트레이트 제어 기법들을 이용하여 트랜스코딩된다. 이러한 로컬화된 비트레이트 제어 기법들은 여기에서 마이크로스케일(microscale) 비트레이트 제어 기법들로 지칭된다. 이러한 경우에, 트랜스코딩 기법들은 이미지의 블록들의 서브세트와 같은 이미지의 단지 일부에만 영향을 준다. 일 양상에서, 마이크로스케일 기법들은 더 적은 개수의 비트들로 계수들을 표현하기 위해 계수들의 값들을 선택적으로 감소시키는 과정을 포함한다. 다른 양상에서, 마이크로스케일 기법들은 마커를 표시하는 비트 시퀀스를 조정함으로써 바이트들을 패딩(padding)하기 위한 필요성을 제거하는 과정을 포함한다.

도 1은 여기에서 설명되는 인코딩 기법들을 구현하는 예시적인 시스템(2)을 나타내는 블록 다이어그램이다. 시스템(2)은 네트워크(8)에 의해 연결되는 인코딩 장치(4) 및 디코딩 장치(6)를 포함한다. 인코딩 장치(4)는 소스로부터 이미지를 획득하고, 네트워크(8)를 통한 디코딩 장치(6)로의 전송을 위해 또는 인코딩 장치(4)의 메모리에 저장하기 위해, 이미지의 크기를 줄이도록 아래에서 설명되는 기법들에 따라 이미지를 인코딩한다. 인코딩 장치(4) 및 디코딩 장치(6)는 개인용 컴퓨터들, 모바일 무선 전화기들, 서버들, 네트워크 어플라이언스(appliance)들, 차량(vehicle)들에 통합된 컴퓨터들, 비디오 게임 플랫폼들, 휴대용 비디오 게임 장치들, 컴퓨터 워크스테이션들, 컴퓨터 키오스트(kiosk)들, 디지털 도로 표 지(signage), 메인프레임 컴퓨터들, 텔레비전 셋-톱 박스들, 네트워크 전화기들, 개인 정보 단말기(PDA)들, 모바일 미디어 플레이어들, 홈 미디어 플레이어들, 디지털 비디오 프로젝터들, 또는 다른 타입들의 전자 장치들과 같은 임의의 유선 또는 무선 장치들을 포함할 수 있다. 일례로서, 인코딩 장치(4) 또는 디코딩 장치(6)는 수신, 전송 및 다른 적절한 컴포넌트들과 함께 위에서 설명되는 모바일 전화기와 같은 통신 장치 핸드셋 내에 제공될 수 있다.

인코딩 장치(4)는 이미지 데이터를 생성하기 위해 미디어 소스(10)를 포함할 수 있다. 미디어 소스(10)는 예컨대 관심있는 장면의 이미지 데이터를 캡처하기 위한 디지털 비디오 또는 스틸(still) 사진 카메라일 수 있다. 몇몇 양상들에서, 미디어 소스(10)는 인코딩 장치(4) 내에 통합될 수 있다. 일례로서, 미디어 소스(10)는 소위(so-called) 카메라 폰 또는 비디오 폰을 형성하기 위해 모바일 전화기 내에 통합될 수 있다. 대안적으로, 미디어 소스(10)는 유선 또는 무선 링크를 통해 인코딩 장치(4)에 연결되는, 스탠드-얼론(stand-alone) 디지털 카메라와 같은 스탠드-얼론 장치일 수 있다. 미디어 소스(10)의 다른 예들은 이미지 아카이브(archive), 또는 컨텐트 제공자로부터의 이미지들의 스트림 또는 비디오를 포함한다.

미디어 소스(10)는 관심있는 장면의 이미지 데이터를 캡처한다. 캡처된 이미지 데이터는 스틸 이미지들일 수 있거나 또는 가능하면 풀(full) 모션 비디오 시퀀스들일 수 있으며, 풀 모션 비디오 시퀀스들인 경우에 생성되는 비디오 시퀀스의 하나 이상의 이미지 프레임들에 대하여 이미지 프로세싱이 수행될 수 있다. 본 발 명에서 설명되는 인코딩 기법들이 일반적으로 캡처된 디지털 비디오에 적용가능할 수 있더라도, 설명하기 위한 목적으로 디지털 스틸 이미지에 대한 이러한 기법들의 적용이 설명될 것이다. 미디어 소스(10)는 캡처된 이미지 데이터를 인코딩 모듈(12)로 제공한다. 몇몇 양상들에서, 인코딩 장치(4)가 스탠드-얼론 미디어 소스에 연결되어 있는 경우에, 미디어 소스(10)에 의해 인코딩 모듈(12)로 제공되는 이미지는 이미 압축되어 있을 수 있다. 예를 들어, 스탠드-얼론 미디어 소스는 예컨대 이미지를 캡처하면 처음에 상기 이미지를 압축할 수 있다. 대안적으로, 미디어 소스(10)는 원시(raw) 이미지 데이터를 인코딩 모듈(12)로 제공할 수 있다.

미디어 소스(10)가 원시 이미지 데이터를 인코딩 모듈(12)로 제공하면, 인코딩 모듈(12)은 저장 및/또는 전송을 위해 이미지를 특정한 이미지 압축 포맷으로 압축하기 위해 캡처된 이미지를 인코딩한다. 인코딩 모듈(12)은 JPEG, 태깅된 이미지 파일 포맷(TIFF: Tagged Image File Format), 비트맵(BMP) 또는 다른 이미지 압축 포맷을 포함하는 임의의 다수의 이미지 압축 포맷들을 사용하여 이미지를 압축할 수 있다. 비디오의 경우에, 인코딩 모듈(12)은 동영상 전문가 그룹(MPEG), 국제 전기통신 연합(ITU) H. 264 등과 같은 임의의 다수의 비디오 압축 포맷들을 사용하여 비디오를 압축할 수 있다. 그러나, 예시적인 목적을 위해, 상기 기법들은 JPEG과 관련하여 설명될 것이다.

특히, 인코딩 모듈(12)은 계수들의 행렬의 형태로 주파수 도메인 표현을 생성하기 위해 원시 이미지 데이터에 대하여 8x8 정수(integer) 변환 또는 이산 코사인 변환(DCT)과 같은 정수 변환을 수행할 수 있다. 인코딩 모듈(12)은 그 다음에 고-주파수 계수들과 관련된 정보량을 줄이기 위해 계수들의 행렬의 계수들을 양자화할 수 있다. 인코딩 모듈(12)은 엔트로피 인코딩 또는 런-랭스(run-length) 코딩 알고리즘과 같은 압축 인코딩 알고리즘을 이용하여 양자화된 계수들을 인코딩한다. 인코딩된 이미지는 인코딩 장치(4)의 메모리(도 1에는 미도시)에 저장될 수 있다.

인코딩 모듈(12)은 추가적으로 이미지를 다수의 픽셀들의 서브세트들로 분할함으로써 이미지를 압축하고 서브세트들을 개별적으로 인코딩함으로써 픽셀들의 서브세트들 각각을 압축하도록 구성될 수 있다. 이러한 픽셀들의 서브세트들은 블록들로 지칭될 수 있다. JPEG 표준의 경우에, 예를 들어, 인코딩 모듈(12)은 이미지를 8x8 블록들로 분할하고 8x8 블록들 각각을 개별적으로 압축할 수 있다. 8개의 행들 또는 열들보다 더 크거나 또는 더 작은 블록들도 또한 가능하다.

위에서 설명된 바와 같이, 인코딩 장치(4)의 사용자는 네트워크(8)를 통해 디코딩 장치(6)로 압축된 이미지 파일을 전송하기를 원할 수 있다. 네트워크(8)는 하나 이상의 유선 또는 무선 통신 네트워크들, 또는 이들의 결합을 포함할 수 있다. 몇몇 양상들에서, 네트워크(8)의 서비스 제공자는 네트워크(8)를 통해 전송되는 이미지들에 대하여 파일 크기 제한들을 둘 수 있다. 일례로서, 서비스 제공자는 300 킬로바이트(KB)의 최대 파일 크기 전송 능력(capability)을 부여할 수 있다. 반면에, 인코딩 모듈(4) 또는 미디어 소스(10)에 의해 처음에 압축될 때, 전형적인 5 메가픽셀 이미지에 대하여, 파일 크기는 대략적으로 1-2 메가바이트(MB)일 수 있다. 그리하여, 네트워크(8)의 서비스 제공자의 전송 요구들을 충족시키기 위해, 인코딩 장치(4)는 더 작은 이미지 파일을 생성하기 위해 저장된 이미지를 트랜스코딩할 필요가 있을 수 있다.

캡처된 이미지를 허용가능한 파일 크기로 트랜스코딩하기 위해, 인코딩 장치(4)는 코딩 비트레이트를 감소시켜 파일 크기를 줄이기 위해 여기에서 설명되는 하나 이상의 기법들을 이용할 수 있다. 몇몇 양상들에서, 인코딩 모듈(12)은 이미지를 트랜스코딩하기 위해 전체 이미지에 균일하게 영향을 주는 비트레이트 제어 기법들을 이용할 수 있다. 이러한 균일한 비트레이트 제어 기법들은 매크로스케일(macroscale) 비트레이트 제어로서 여기에서 지칭된다. 예를 들어, 인코딩 모듈(12)은 매크로스케일 비트레이트 제어를 달성하는 주요 수단으로서 이미지를 코딩하기 위해 사용되는 하나 이상의 양자화 테이블들을 수정할 수 있다. 아래에서 상세하게 설명될 바와 같이, 인코딩 모듈(12)은 비트레이트(R) 및 제로-값(zero-valued)으로 양자화된 변환 계수들의 개수 간의 근사적인 선형 관계의 함수로서 양자화 테이블들을 수정할 수 있다. 예를 들어, 근사적인 선형 관계는 임의의 블록 기반 변환 코딩 시스템에 적용할 수 있다.

대안적으로 또는 추가적으로, 인코딩 모듈(12)은 이미지를 허용가능한 파일 크기로 트랜스코딩하기 위해 이미지의 오직 특정한 로컬화된 영역들에만 영향을 주는 비트레이트 제어 기법들을 이용할 수 있다. 이러한 로컬화된 비트레이트 제어 기법들은 마이크로스케일 비트레이트 제어로서 여기에서 지칭된다. 이러한 경우에, 트랜스코딩 기법들은 전체 이미지에 균일하게 영향을 주지 않으며, 오직 이미지의 일부에만 영향을 준다. 예를 들어, 마이크로스케일 비트레이트 제어 기법들 은 이미지의 블록들의 하나의 서브세트에만 적용할 수 있다. 일 양상에서, 인코딩 모듈(12)은 2의 제곱(power)인 하나 이상의 양자화된 변환 계수들을 식별할 수 있으며, 1만큼 식별된 계수의 값을 감소시킬 수 있다. 이것은 인코딩 모듈(12)이 이미지의 품질에 대하여 단지 작은 영향만을 주는 반면에 더 적은 개수의 비트들로 계수를 표현할 수 있도록 한다. 다른 양상에서, 인코딩 모듈(12)은 패딩 바이트들을 요구하는 비트 시퀀스의 발생(occurrence)을 식별할 수 있으며, 패딩 바이트들이 더 이상 요구되지 않도록 시퀀스의 비트들의 적어도 하나를 변경할 수 있다.

몇몇 양상들에서, 인코딩 모듈(12)은 매크로스케일 비트레이트 제어 기법들에 독립적인 마이크로스케일 비트레이트 제어 기법들 중 하나 이상을 이용할 수 있다. 예를 들어, 인코딩 모듈(12)은 이미지를 더 작은 파일 크기로 트랜스코딩하기 위해 비트레이트를 감소시키도록 오직 마이크로스케일 비트레이트 제어 기법들을 이용할 수 있다. 다른 예에서, 인코딩 모듈(12)은 원시 이미지 데이터의 초기 코딩 동안 마이크로스케일 비트레이트 제어 기법들을 이용할 수 있다. 그리하여, 마이크로스케일 비트레이트 제어 기법들은 이미지의 파일 크기를 줄이기 위해 초기 압축 동안 이용될 수 있다.

대안적으로, 코딩 모듈(12)은, 필요하다면, 타겟 비트레이트를 충족시키기 위해 추가적으로 비트레이트들이 감소되도록 하기 위해 매크로스케일 비트레이트 제어 기법들과 관련하여 마이크로스케일 비트레이트 제어 기법들을 이용할 수 있다. 다시 말하면, 인코딩 모듈(12)은 이미지를 트랜스코딩하기 위해 비트레이트 제어의 두 개의 티어(tier)들을 구현할 수 있으며, 비트레이트 제어의 제 1 티어는 매크로스케일 레벨 상에서 이루어지며, 여기서 기법들은 글로벌하게(globally) 전체 이미지에 동일하게 그리고 균일하게 영향을 주며, 비트레이트 제어의 제 2 티어는 마이크로스케일 레벨 상에서 이루어지며, 여기서 기법들은 이미지의 특정한 로컬화된 영역들에 영향을 준다. 이러한 2-티어된(two-tiered) 전략은 인코딩 모듈(12)이 처음에 타겟 파일 크기에 접근하기 위해 비트레이트를 조잡하게(coarsely) 감소시키고 그 다음에 필요에 따라 비트레이트에 대한 세밀한(fine) 조정들을 수행하도록 허용한다. 이러한 방식으로, 마이크로스케일 비트레이트 제어는 매크로스케일 비트레이트 제어 기법들이 충분하지 않을 때 추가적인 조정들을 수행할 수 있다. 예를 들어, 마이크로스케일 비트레이트 제어는 트랜스코딩 프로세스가 임계치를 초과하는 동안 상기 개수의 비트들이 인코딩될 때 추가적인 비트레이트 감소들만이 이루어지도록 할 수 있다.

더 작은 파일 크기를 생성하기 위해 이미지의 비트레이트를 감소시킨 후에, 전송기(14) 또는 다른 네트워크 인터페이스는 네트워크(8)를 통해 이미지를 디코딩 장치(6)로 전송한다. 디코딩 장치(6)는 수신기(16)를 통해 인코딩된 이미지를 수신하고 디코딩 모듈(18)을 통해 인코딩된 이미지 데이터를 디코딩한다. 디코딩 장치(6)는 가능하다면 미디어 표현 유니트(20)를 통해 디코딩 장치(6)의 사용자로 디코딩된 이미지를 제공할 수 있으며, 미디어 표현 유니트(20)는 적용가능하다면 디스플레이 장치 및 오디오 장치를 포함할 수 있다.

본 발명에서 설명되는 기법들은 여러가지 장점들을 제공할 수 있다. 특히, 트랜스코딩 기법들은 충분한 품질을 유지하면서 이미지의 파일 크기를 감소시킨다. 또한, 트랜스코딩 기법들은 네트워크 서비스 제공자들에 의해 부여되는 특정한 파일 크기 요구들을 충족시키기 위해 파일 크기를 감소시키도록 이용될 수 있다. 이러한 방식에서, 인코딩 장치(4)는 최적 솔루션(solution)에 도달하기 위해 이미지를 통해 여러가지 재-인코딩들(re-encodings) 또는 여러가지 패스(pass)들을 수행하는 대신에, 트랜스코딩의 하나의 패스에서 정확한 크기로 이미지를 트랜스코딩할 수 있다. 또한, 이미지를 트랜스코딩하기 위한 기법들의 이용은 인코딩 장치(4)가 처음에 보다 높은 품질로 이미지를 압축하고 전송을 위해 필요할 때만 이미지의 품질을 감소시키도록 허용한다. 이러한 방식에서, 파일 크기 제한은 사용자에 의해 생성되거나 또는 저장되는 고-품질 이미지들을 제한(contrain)하지 않는다. 대신에, 파일 크기 제한은 전송을 요구하는 이미지들에만 강제된다. 그러나, 상기 기법들은 또한 압축된 저장을 위해 이미지들을 제한하는데 유용할 수 있다.

도 2는 보다 상세하게 도 1의 인코딩 모듈(12)과 같은 예시적인 인코딩 모듈을 나타내는 블록 다이어그램이다. 인코딩 모듈(12)은 이미지 처리 모듈(24), 변환 모듈(26), 양자화 모듈(28), 엔트로피 인코딩 모듈(30), 엔트로피 디코딩 모듈(32), 역 양자화 모듈(34), 트랜스코딩 모듈(36) 및 메모리(37)를 포함한다. 여기에서 보다 상세하게 설명될 바와 같이, 인코딩 모듈(12)의 컴포넌트들은 처음에 원시 이미지 데이터를 인코딩할뿐만 아니라 인코딩된 이미지 데이터의 크기를 줄이기 위해 이전에 인코딩된 이미지 데이터를 트랜스코딩하기 위해 사용될 수 있다. 몇몇 양상들에서, 인코딩 모듈(12)은 무선 네트워크를 통한 다른 무선 통신 장치로의 전송을 위해 이미지들 및/또는 비디오를 인코딩하기 위해 무선 통신 장치 핸드 셋 내에 상주할 수 있다.

이미지 처리 모듈(24)은 미디어 소스(18)로부터 이미지 데이터를 수신한다(도 1). 미디어 소스(18)로부터 수신된 이미지 데이터는 다수의 이미지 센서들로부터의 직접적인 원시 이미지 데이터일 수 있거나 처음에 압축된 이미지 데이터의 이미지 파일로 인코딩될 수 있다. 원시 이미지 데이터의 경우에, 이미지 처리 모듈(24)은 원시 이미지 데이터를 YCbCr 컬러 공간으로 변환시킬 수 있다. YCbCr 컬러 공간에 있는 이미지 데이터는 이미지의 밝기를 나타내는 루마(luma) 컴포넌트 Y 및 각각 청색축 및 적색축의 컬러를 나타내는 두 개의 크로마(chroma) 컴포넌트들 Cb 및 Cr을 포함한다. 인코딩 모듈(12)이 추가적인 크로마 정보, 즉, Cb 및 Cr 정보를 버림으로써 더 많은 루마 정보, 즉, 더 많은 Y 컴포넌트를 보유할 수 있기 때문에, YCbCr 컬러 공간으로의 변환은 바람직할 수 있다. 인간(human)의 시각적 시스템은 청색 및 적색축에 따른 컬러(크로미넌스 Cb 및 Cr)보다는 밝기(루미넌스 Y)에 보다 민감하기 때문에, 이것은 바람직할 수 있다. 그러나, 유사한 기술들이 RGB 컬러 공간과 같은 다른 컬러 공간들 내에서 이용될 수 있다.

이미지 처리 모듈(24)은 또한 하나 이상의 컬러 성분들을 추가적으로 다운샘플(downsample)할 수 있다. 다운샘플링은 수평 방향 (예를들어 행(row)들을 따라)과 수직 방향(예를들어 열(column)들을 따라) 중 하나 또는 모두에서 통상 1/2 배로 수행된다. 통상적인 다운샘플링 비율은, 하나의 Y 샘플이 Cb 및 Cr 샘플들의 각 하나의 세트에 대해 인코딩되는 경우는 H1V1(다운샘플링 없음)으로 표현되며, 두 개의 Y 샘플들이 Cb 및 Cr 샘플들의 각 하나의 세트에 대해 인코딩되는 경우는 H2V1(행들을 따른 수평 방향에서 크로마(chroma) 다운샘플됨)으로 표현되며, 네 개의 Y 샘플들이 Cb 및 Cr 샘플들의 각 하나의 세트에 대해 인코딩되는 경우는 H2V2(행들을 따른 수평 방향과 열들을 따른 수직 방향 모두에서 크로마 다운샘플됨)으로 표현된다. 일부의 경우들에서, 인코딩 모듈(12)은 크로마 성분들만을 다운샘플할 수 있다. 다른 경우들에서, 인코딩 모듈(12)은 루마(luma) 및 크로마 성분들 모두를 다운샘플할 수 있으나, 크로마 성분이 인간 시각 시스템에 덜 인식적이기 때문에 크로마 성분들을 루마 성분들보다 더 다운샘플할 수 있다.

이미지 데이터가 원시(raw) 이미지 데이터인지 이전에 압축된 이미지 데이터인지에 상관없이, 이미지 처리 모듈(24)은 상기 이미지 데이터를 픽셀들의 블록들로 구획(partition)하고 각 블록들을 독립적으로 처리한다. JPEG 표준에 따라, 이미지 처리 모듈(24)은 상기 이미지 데이터를 8×8 블록들로 구획할 수 있다. 그러나, 8개의 행들 또는 열들 보다 더 많거나 더 적은 블록들이 또한 가능하다. 상기 이미지 데이터를 블록들로 구획하고 각 블록들을 독립적으로 처리하는 것은 메모리 공간과 이미지를 인코딩 및/또는 트랜스코딩(transcoding)하는데 필요한 시간의 양을 감소시킬 수 있다.

미디어 소스(10)로부터 수신된 이미지 데이터가 센서들의 어레이로부터의 원시 이미지 데이터인 경우에, 인코딩 모듈(12)은 이미지의 초기 압축을 수행할 수 있다. 인코딩 모듈(12)은 표준 이미지 압축 기술들을 이용하여 상기 이미지를 초기에 압축할 수 있다. 대안적으로, 인코딩 모듈(12)은 상기 이미지 데이터를 초기에 압축하기 위하여 본 명세서에 설명된 하나 이상의 기술들을 이용할 수 있다. 어느 경우에서도, 변환 모듈(26)이 변환 계수들의 행렬의 형태로 주파수 영역 표현을 생성하기 위하여 이미지 데이터의 블록들에 정수 변환을 적용한다. 예를들어, 상기 변환은 8×8 정수 변환 또는 DCT일 수 있다. 위에서 설명된 바와 같이, 상기 변환의 결과는 계수들의 행렬이다. 예를들어, JPEG 표준의 경우에, 8×8 블록들의 각각은 하나의 DC 성분과 63개의 AC 성분들을 포함하는 64개의 계수들의 행렬에 대응한다.

변환 후에, 양자화 모듈(28)이 변환된 계수들을 양자화한다. 양자화 모듈(28)은 이용되는 코딩 표준에 따라 다양한 방식으로 상기 계수들을 양자화할 수 있다. 예를 들어, 양자화 모듈(28)은 상기 계수들을 변환하기 위하여 변환 계수들에 양자화 테이블을 적용할 수 있다. 양자화는 실제 값 자체에 반하는 바와 같은 계수 "레벨"의 인코딩을 허용하기 위하여 변환 계수들을 스케일링한다. 더 큰 값을 갖는 양자화 테이블들은 이하에서 설명되는 바와 같이 변환 계수들의 더 큰 스케일링을 야기한다. 인간의 눈이 저 주파수 성분들에 보다 민감하기 때문에, 통상적인 양자화 테이블들은 고주파수보다 저주파수에 대하여 보다 많은 레벨들을 제공한다. 일부 양상들에서, 양자화 모듈(28)은 Y 성분에 대하여 루마 양자화 테이블(38)을, Cb 및 Cr 성분들 중 하나 또는 모두에 대하여 크로마 양자화 테이블(39)을 적용할 수 있다. 인코딩 모듈(12)이 더 많은 루마 정보를 가지는 것을 허용하기 위하여 양자화 모듈(28)이 더 많은 크로마 정보를 디스카드(discard)하도록 야기하는 더 큰 스케일링 스텝 사이즈들을 크로마 양자화 테이블(39)은 종종 가질 수 있다. 양자화 테이블들에 대한 디폴트 값들이, 이용되는 특정 압축 표준에 의해 추천될 수 있다. 대안적으로, 특정 장치들, 예를들어 디지털 카메라들 및/또는 이미지 소프트웨어가 그들 자신의 맞춤형(custom) 양자화 테이블들을 이용할 수 있다.

엔트로피 인코딩 모듈(30)은 엔트로피 인코딩 방식을 이용하여 양자화된 변환 계수들을 인코딩한다. 엔트로피 인코딩 방식을 이용하여 양자화된 계수들을 압축하기 위하여, 엔트로피 인코딩 모듈(30)은 저 주파수 계수들이 스캔 시작에서 그룹화되고 고주파수 계수들이 스캔 끝에서 그룹화되도록 계수들의 지그재그 패턴을 취함에 의해 상기 양자화된 계수들을 벡터로 조직화할 수 있다. 달리 말하면, 엔트로피 인코딩 모듈(30)은 양자화된 계수들의 2차원 행렬의 모든 양자화된 계수들을 양자화된 계수들의 1차원 벡터로 배열할 수 있다.

다음, 엔트로피 인코딩 모듈(30)은 양자화된 계수들의 상기 벡터에 허프만(Huffman) 코딩 또는 산술(arithmetic) 코딩과 같은 엔트로피 인코딩 방식을 적용할 수 있다. 허프만 코딩을 예로들면, 엔트로피 인코딩 모듈(30)은 각 양자화된 계수들을 허프만 코드와 허프만 코드 후에 첨부(append)된 잔여(residue)로서 인코딩한다. DC 계수에 대하여, 허프만 코드는 현재 DC 값과 이전 이미지의 DC 값 사이의 차의 크기(magnitude)의 비트 단위의 사이즈를 표시한다. 달리 말하면, 허프만 코드는 특정 갯수의 비트들로 표시될 수 있는 DC 차의 크기를 나타낸다. DC 차가 예를들어 -6이면, 허프만 코드는 6의 값, 즉 크기를 나타내기 위하여 3 비트들을 취하기 때문에 사이즈 3을 표시한다. 그러나, 사이즈 3을 나타내는 허프만 코드는 또한 다수개의 다른 크기들, 즉 -7, -5, -4, 4, 5, 6 및 7을 나타낸다. 따라 서, 엔트로피 인코딩 모듈(30)은 이러한 사이즈의 다수개의 DC 차들 중 어느 것이 DC 차와 대응하는지를 고유하게(uniquely) 식별하기 위하여 잔여를 첨부하게 된다. 엔트로피 인코딩 모듈(30)은 숫자 -6을 2에 대한 이진수인 3비트 잔여 "010"으로 식별하는데, 이는 -6이 사이즈 3의 두 번째로 낮은 차이기 때문이다. 따라서, -6의 DC 차를 인코딩하기 위하여, 엔트로피 인코딩 모듈(30)은 사이즈 3에 대한 허프만 코드를 출력하고, 다음 3 비트 "010"을 방출한다.

AC 계수들에 대하여, 허프만 코드는 "런(run)"과 "사이즈(size)"의 접합(concatenation)을 표시한다. "런"은 AC 계수들의 지그재그 순서에서 연속적인 제로들의 갯수이고 "사이즈"는 뒤이은 넌제로(nonzero) 계수의 비트 단위 사이즈이다. DC 계수들과 마찬가지로, 잔여는 다수의 가능한 값들의 값 중 넌제로 계수의 사이즈에 대응하는 값들의 하나를 표시하는 고유 식별자를 나타낸다. 시퀀스 "0003"을 갖는 지그재그 스캔에 대하여, 엔트로피 인코딩 모듈(30)은 3의 런과 잔여 "11"을 갖는 2의 사이즈를 산출한다. 엔트로피 인코딩 모듈(30)은 3/2의 런/사이즈에 대한 허프만 코드를 방출하고, 다음 잔여 2 비트 "11"을 방출한다.

JPEG 표준에 따라, 엔트로피 인코딩 모듈(30)은 AC 런-길이(length)들의 인코딩을 위한 2개의 특별 심볼들을 갖는다. 제 1 특별 심볼은 블록의 잔여가 단지 제로들로 이루어져 있음을 표시하는 EOB(end-of-block) 심볼이며 0/0의 런/사이즈로 나타내진다. 사이즈가 0이기 때문에, 어떠한 잔여도 코딩되지 않는다. 제 2 특별 심볼은 ZRL(zero-run-length) 값이며, 지그재그 스캔 내에 16개의 연속적인 제로들이 존재한다는 것을 의미한다. 런과 사이즈가 각각 최대 4 비트까지로 표현 되기 때문에, 런의 최대 값은 15이다. 이 때, ZRL 런/사이즈 심볼이 15/0(즉, 15개의 제로들 다음에 0이 나옴)인 것이 성립한다. 다시, 사이즈가 0이기 때문에, 어떠한 잔여도 코딩되지 않는다.

DC 루마 성분들, DC 크로마 성분들, AC 루마 성분들 및 AC 크로마 성분들에 대하여 각각 하나씩 4개의 표준 허프만 테이블들이 JPEG 표준에서 정의된다. 이들 표준 테이블들은 각 가능한 심볼, 예를들어 JPEG의 경우에 162개의 개별적인 가능한 값들에 대한 허프만 코드를 정의한다. 엔트로피 인코딩 모듈(30)은 JPEG 표준에 의해 정의된 표준 허프만 테이블들을 이용할 수 있다. 대안적으로, 엔트로피 인코딩 모듈(30)은 맞춤형 허프만 테이블들을 정의할 수 있다. 일부 경우들에서, 이들 맞춤형 허프만 테이블들은 감소된 갯수의 허프만 코드들을 가질 수 있다. 예를들어, 맞춤형 허프만 테이블은 가능한 162개의 값들 중에서 단지 100개에 대해서만 코드들을 가질 수 있다.

일부 양상들에서, 인코딩 방식은 마커(marker)로서 동작하는 특정 비트 시퀀스를 포함할 수 있다. 상기 마커는 예를들어 메타데이터(metadata)의 영역들을 식별하기 위하여 사용될 수 있다. 메타데이터는 차원들, 다운샘플링 비율들, 양자화 테이블들 및 허프만 테이블들과 같은, 이미지에 대한 정보를 저장한다. JPEG 표준에서, 엔트로피 인코딩 모듈(30)은 메타데이터의 영역들을 식별하기 위하여 바이트 0×FF으로 시작하고 뒤따르는 메타데이터의 타입을 표시하는 하나의 바이트가 이에 뒤따르는 2 바이트 마커를 이용할 수 있다. 계수들의 엔트로피 인코딩이 바이트 정렬된 0×FF를 산출하는 경우에, 엔트로피 인코딩 모듈(30)은 마커에 대한 계수 스트림을 명확히 하기 위하여 제로 바이트 0×00를 비트스트림에 채운다(stuff).

초기에 압축된 이미지 데이터가 서비스 제공자 또는 디코딩 장치의 디스플레이의 전송 요구사항들을 만족시키기에 너무 큰 경우에, 인코딩 모듈(12)은 보다 작은 이미지 파일을 생성하기 위하여 상기 이미지를 트랜스코딩할 필요가 있을 것이다. 달리 말하면, 인코딩 장치(12)는 서비스 제공자 또는 디코딩 장치의 디스플레이의 전송 요구사항들을 만족시키기 위하여 이미지 데이터를 재압축할 것이다. 이미지 처리 모듈(24)은 미디어 소스(18)(도1)로부터 인코딩된 이미지 데이터를 수신한다. 위에서 설명된 바와 같이, 미디어 소스(18)는 메모리(38) 또는 디지털 카메라와 같은 외부 장치일 수 있다. 일부 양상들에서, 이미지 데이터 처리 모듈(24)은 인코딩된 이미지 데이터를 픽셀들의 블록들로 구획할 수 있고 인코딩 모듈(12)은 상기 블록들 각각을 개별적으로 트랜스코딩할 수 있다. 블록들 각각을 개별적으로 트랜스코딩하는 것은 속도와 메모리 사용량 면에서 증가된 효율을 야기할 것이다.

이미지 데이터를 트랜스코딩하기 위하여, 엔트로피 디코딩 모듈(32)이 허프만 디코딩을 이용하여 인코딩된 이미지 데이터를 디코딩한다. 엔트로피 디코딩 모듈(32)은 이미지 데이터를 인코딩하기 위해 엔트로피 인코딩 모듈(30)에 의해 사용된 동일한 허프만 코딩 테이블들을 인코딩된 이미지 데이터를 디코딩하기 위해 사용할 수 있다. 예를들어 허프만 코딩 테이블들은 메모리(38) 내에 저장될 수 있다. 역 양자화 모듈(34)이 이미지 데이터에 대한 변환(transform) 계수들을 생성 하기 위해 역 양자화를 수행한다. 일 양상에서, 트랜스코딩 모듈(36)이 주파수 영역에서 상기 이미지 데이터를 트랜스코딩할 수 있다. 달리 말하면, 인코딩 모듈(12)은 원시 이미지 데이터를 획득하기 위하여 역 변환을 수행하는 대신에 변환 계수들 상에 트랜스코딩을 수행할 수 있다. 그러나, 다른 양상들에서, 인코딩 모듈(12)이 원시 이미지 데이터를 획득하는 역 변환 모듈을 포함할 수 있고 상기 원시 이미지 데이터를 이용하여 이미지를 트랜스코딩할 수 있다. 주파수 영역에서 이미지 데이터를 트랜스코딩하는 것은 변환 계수들에 역 변환 함수를 적용할 필요를 제거함으로써 처리 시간의 양을 감소시킬 수 있다.

트랜스코딩 모듈(36)은 마크로스케일(macroscale) 비트율 감소 기술들, 즉, 이미지 데이터의 사이즈를 감소시키기 위하여 전체 이미지에 균일하게 영향을 주는 비트율 감소 기술들을 이용할 수 있다. 예를들어, 트랜스코딩 모듈(36)은 루마 양자화 테이블(38), 크로마 양자화 테이블(39) 또는 이들 모두를 스케일링할 수 있고, 스케일링된 양자화 테이블들을 이용하여 이미지 데이터를 재인코딩(re-encoding)할 수 있다. 일 양상에서, 트랜스코딩 모듈(36)은 루마 양자화 테이블(38) 및/또는 크로마 양자화 테이블(39)를 비트율(R)과 ρ 사이의 근사 선형 관계, 즉 제로 값을 갖는 양자화된 변환 계수들의 백분율을 이용하는 ρ 영역 분석의 함수로서 스케일링할 수 있다. 특히, 트랜스코딩 모듈(36)은 ρ와 비트율(R) 간의 선형 관계를 발견할 수 있다. 비트율(R)은 ρ 영역에서,

(1)

과 같이 모델링될 수 있으며, 여기서 θ는 상수 기울기(slope)이며 이미지 콘텐츠(contents)에 의해 결정된다.

산술을 간편하게 하기 위하여, ρ는 비율이 아닌 정수 형태로, 제로 값을 갖는 양자화된 변환 계수들의 갯수를 나타내는 z로 치환될 수 있다. 따라서, 수학식1은

(2)

로 다시 씌여질 수 있으며, 여기서

는 이미지의 블록 내의 AC 계수들의 전체 갯수이며

은 상기 블록을 나타내는 AC 비트들의 최소 갯수이다. 수학식2가 AC 양자화 성분들의 스케일링에 의해 영향받는 비트들만을 반영해야 하기 때문에, EOB 심볼들은 고려되지 않을 수 있다. 따라서, 이미지 내의 각 블록이 모든 제로들, 또는 등가적으로, 단지 EOB 심볼을 포함하였다면,

은 R의 값을 나타낸다.

트랜스코딩 모듈(36)은 타겟 비트율(R _T ), 최초에 인코딩된 이미지의 비트율(R _o ) 및 최초에 인코딩된 이미지의 제로 값을 갖는 양자화된 변환 계수들의 갯수(z _o )를 이용하여 제로 값을 갖는 양자화된 변환 계수의 타겟 갯수(z _T )를 계산할 수 있다. 일 양상에서, 트랜스코딩 모듈(36)은 수학식3 내지 5에 나타내진 바와 같이 z _T 를 계산한다.

(3)

(4)

(5)

트랜스코딩 모듈(36)은, 예를 들어, 이미지의 초기 인코딩 동안 초기에 인코딩된 이미지로부터 R_O 및 Z_O를 획득할 수 있다. 트랜스코딩 모듈(36)은 사용자에 의해 특정되거나 네트워크 서비스 제공자로부터 획득된 타깃 파일 크기(F_T)에 기반하여 R_T를 계산할 수 있다. 타깃 파일 크기(F_T)는, 예를 들어, 바이트로 특정되고, 헤더 정보 및 DC 비트들 및 AC 비트들을 포함할 수 있다. 타깃 비트레이트 R_T를 계산하기 위해, 타깃 파일 크기(F_T)는 상수에 의해 곱해지고, 헤더 정보(H) 및 DC 정보(DC)에 대해 사용되는 비트들의 수는 감산된다, 즉, R_T=8*F_T-H-DC 이다.

트랜스코딩 모듈(36)은 양자화된 변환 계수들의 값들을 카운트하는 히스토그램을 이용하는 이미지에 대해 제로-값을 갖는 계수들(z)의 수를 계산할 수 있다. 양자화된 변환 계수들의 히스토그램은 다음과 같이 정의될 수 있다: H(q, i, v) = 양자화 테이블 q(제로-인덱스됨)을 이용하는 지그-재그(zig-zag) 스캔 엔트리 i(제 로-인덱스됨)에서 양자회된 계수 값의 절대값|v|의 발생 횟수. 따라서, 트랜스코딩 모듈(36)은 양자화 테이블의 임의의 스케일링에 대한 이미지에 대해 z를 재계산할 수 있다. 예를 들어, 본래 인코딩된 이미지의 제로 값을 갖는 양자화된 변환 계수의 수는

과 대응한다. 다른 예에서, 최초의 양자화 테이블의 17번째 엔트리가 4로 스케일링 된다고 가정한다. 이 경우, z 값은 정확히

만큼 증가하는데, 이는 최초의 테이블의 17번째 엔트리에서 4보다 작은 크기를 가지는 모든 양자화된 변환 계수들이 0으로 재양자화될 것이기 때문이다. 히스토그램에 기반하여, 트랜스코딩 모듈(36)은 루마 양자화 테이블(36) 및 크로마 양자화 테이블(39)의 스케일링이 z_T를 초과하지 않는 z를 초래하도록 하는 스케일링 인자 s를 선택한다. 일 예로서, 이미지의 히스토그램이 1 값을 가지는 1000개의 계수들이 존재하고, 2 값을 갖는 2000개의 계수들이 존재한다는 것을 표시한다고 가정한다. 또한, 타깃 제로 값을 가지는 계수(z_T)들의 수가 1500이라고 가정한다. 트랜스코딩 모듈(36)은 2의 스케일링 인자를 선택하고, 이는 z_T를 초과하는 z를 초래하지 않는 가장 큰 스케일링 인자이다. 더 구체적으로, 2의 스케일링 인자를 선택하는 것은 1000개의 계수들이 제로 값을 가지는 것을 초래하고, 이는 z_T보다 적다. 3의 스케일링 인자는, 반면에, 3000개의 계수들즉, 모든 '1'계수들 및 모든 '2'계수들이 제로 값을 가지도록 한며, 이는 z_T를 초과한 다. z_T를 오버슈팅하지 않는 스케일링 인자를 선택함으로써, 트랜스코딩 모듈(36)은 이미지의 크기를 요구되는 것보다 초과하여 감소시키지 않는다.

그러나, 일부 경우에, 트랜스코딩 모듈(36)은 제로-값을 갖는 계수들의 수를 더 감소시켜야할 필요가 있을 수 있다. 전술한 예에서, 트랜스코딩 모듈(36)은 500개의 더 많은 계수들 만큼 제로-값을 갖는 계수들의 수를 추가적으로 감소시킬 필요가 있을 수 있다. 이를 위해, 트랜스코딩 모듈(36)은 양자화 테이블들 중 하나의 일부 또는 양자화 테이블들 모두에 대해 제 1 스케일링 인자보다 큰 제 2 스케일링 인자를 적용할 수 있다. 선택된 스케일링 인자 s를 이용하여, 트랜스코딩 모듈(36)은 위치 인덱스 k를 다음과 같이 되도록 선택한다:

식(6) 특히, 트랜스코딩 모듈(36)이 스케일링 인자 s를 선택하면, s보다 작은 값을 갖는 모든 계수들은 양자화의 결과로서 제로가 될 것이다. 전술한 예시에서, '1'값을 갖는 모든 계수들은 '0'이 될 것이다. 제로들의 결과 수(resulting number)들이 제로들의 타깃 수들보다 작기 때문에, 트랜스코딩 모듈(36)이 시퀀스의 마지막 계수들로부터 시작하여 s와 같은 값을 가지는 계수들을 0이 되도록 강제하도록 시작한다. 바꾸어 말하면, 트랜스코딩 모듈(36)은 계수들의 적어도 일부를 스케일링 인자 s+1 만큼 스케일링한다. 트랜스코딩 모듈(36)은, 예를 들어, k를 127과 같도록 설정하고, 제로들의 수가 타깃에 충족될 때까지 k를 천천이 감소시킨다. 이러한 방법으로, 처음 k 개의 계수들은 s 인자에 의해 스케일링 되고, 나머지 (127-k) 개의 계수들은 s+1 인자에 의해 스케일링 된다. 전술한 바와 같이, 스케일링 인자 s 및 s+1은 1보다 크거나 같은 값을 취한다. 또한, 스케일링 인자 s는 스케일링 인자 s+1보다 작다. 아래에 자세히 설명될 바와 같이, 시퀀스의 계수들의 마지막 부분, 즉 인자 s+1에 의해 스케일링 되는 계수들은 크로미넌스(chrominance) 계수들에 대응한다.

트랜스코딩 모듈(36)은 루마 양자화 테이블(38) 및 크로마 양자화 테이블(39)의 양자화 엔트리들을 단일 시퀀스에 배열하고, 시퀀스를 이용하는 k를 결정할 수 있다. 일 양상에서, 양자화 테이블들의 양자화 엔트리들은 시퀀스가 루마 양자화 테이블(38)의 낮은 주파수 양자화 엔트리들로 시작하여, 루마 양자화 테이블(38)의 높은 주파수 양자화 엔트리들이 이어지고, 크로마 양자화 테이블(39)의 낮은 주파수 양자화 엔트리들이 이어지며, 마지막으로 크로마 양자화 테이블(39)의 높은 주파수 양자화 엔트리들이 이어지도록 배열될 수 있다. 따라서, 트랜스코딩 모듈(36)은 루마 양자화 테이블(38) 및 크로마 양자화 테이블(39) 둘 다의 AC 양자화 엔트리들을 루마 엔트리들의 끝에 첨부된 크로마 엔트리들에 의해 처음에 이어지는 지그-재그 스캔에서 배열된 루마 엔트리들을 이용한 하나의 긴 시퀀스로 연결(concatenate)한 것으로서 보여질 수 있다. 트랜스코딩 모듈(36)은 다른 배열 기술들을 이용하여 양자화 테이블들의 엔트리들을 배열할 수 있다. 예를 들어, 트랜스코딩 모듈(36)은 낮은 주파수 루마 엔트리로 시작하여 여기에 이어 하나 이상의 낮은 주파수 크로마 엔트리들을, 그리고 여기에 이어 높은 주파수 루마 엔트리들 및 높은 주파수 크로마 엔트리들을이 이어지는 엔트리들의 시퀀스를 생성할 수 있다. 루마 양자화 테이블(38) 및 크로마 양자화 테이블(39) 모두의 DC 컴포넌트들은 스캔에 포함되지 않는다. 따라서, 루마 양자화 테이블(38) 및 크로마 양자화 테이블(39)의 DC 컴포넌트들은 스케일링되지 않는다.

따라서, 트랜스코딩 모듈(36)은 처음 k 개의 엔트리들을 스케일링 인자 s만큼 스케일링 하고, 남은 엔트리들(예를 들어, 위의 예시에서 128-k개)을 더 큰 스케일링 인자(예를 들어, s+1)만큼 스케일링 한다. 전술한 바와 같이, 스케일링 인자 s 및 s+1 은 모두 1보다 크거나 같으며, 따라서, 제로-값을 갖는 변화 계수들의 수의 증가를 초래한다. 다음 페이지의 두 개의 행렬들은 이 기술에 따라 각각의 양자화 테이블들에 스케일링 인자들을 적용한 예시적인 행렬들이다. 첫 번째 스케일링 인자 행렬은 루마 양자화 테이블(38)에 적용되고, 두 번째 스케일링 인자 행렬은 크로마 양자화 테이블(39)에 적용된다.

테이블 1: 루마 스케일링 행렬

테이블 2: 크로마 스케일링 행렬

이 방법으로, 트랜스코딩 모듈(36)은 루마 양자화 테이블(38)보다 더 많이 크로마 양자화 테이블(39)을 스케일링하고, 따라서 이미지의 밝기를 더 잘 보존한다. 또한, 양자화 테이블들의 엔트리들의 이부를 상이한 스케일링 인자들만큼 스케일링 하는 것은 우리의 타깃 비트레이트를 오버슈팅하는, 즉, 비트레이트를 너무 많이 감소시켜 불필요하게 이미지의 품질을 감소시키는 가능성을 감소시킨다. 또한, 양자화 테이블들의 엔트리들의 일부를 상이한 스케일링 인자들만큼 스케일링 하는 것은 우리의 타깃 비트레이트를 언더슈팅, 즉, 비트레이트를 충분히 감소시키지 않는 가능성을 감소시킨다. 오버슈팅은 트랜스코딩 모듈(36)이 s+1만큼 양자화 테이블들 둘 다의 모든 엔트리들을 스케일링하는 경우 발생할 수 있다. 언더슈팅은 트랜스코딩 모듈(36)이 양자화 테이블들 둘 다의 모든 엔트리들을 s만큼 스케일링 하는 경우 발생할 수 있다. 두 개의 스케일링 인자들 s 및 s+1이 인덱스 k에 의해 결정된 파티션들에 동작하는 이러한 방식은 새로운 양자화 테이블들에 의해 생산되는 제로들의 숫자에 대한 정밀한 제어를 제공한다.

트랜스코딩 모듈(36)은 또한 이미지의 특정 로컬화된 영역들에만 영향을 미치는 트랜스코딩 기술들(즉, 마이크로스케일 비트레이트 제어)를 사용할 수 있다. 전술한 바와 같이, 마이크로 스케일 비트레이트 제어 기술들은 전체 이미지에 단일하게 영향을 주지 않으며, 이미지의 단지 일 부분(즉, 이미지의 블록들의 서브셋)에 영향을 미친다. 마이크로스케일 비트레이트 제어 기술들은 필요한 경우, 이미지의 크기를 추가적으로 감소시키는 매크로스케일 비트레이트 제어 기술들과 함께 사용될 수 있다. 이 방법에서, 트랜스코딩 모듈(36)은 이미지를 트랜스코드하기 위해 비트레이트 제어의 두 개의 층(tier)을 구현할 수 있다: 매크로스케일 상의 비트레이트 제어의 제 1 층, 여기서 글로벌 트랜스코딩 기술들은 전체 이미지를 동등하고 단일하게 영향을 미친며, 마이크로스케일 상의 비트레이트 제어의 제 2 층, 여기서 트랜스코딩 동작의 영향은 이미지의 특정 영역들로 로컬화된다. 이러한 두-층의 전략은 트랜스코딩 모듈(36)이 처음에 타깃 비트레이트에 대략적으로(coarsely) 접근하고, 필요한 경우, 정밀한 조정을 수행하도록 허용한다. 선택적으로, 마이크로스케일 레이트 제어 기술들은 매크로스케일 레이트 제어 기술들의 독립적으로 사용될 수 있다.

이미지 데이터의 트랜스코딩 동안, 트랜스코딩 모듈(36)은 트랜스코딩이 타깃 비트레이트 R_T에 도달하기 위한 과정에 있는지 여부를 결정하기 위해 트랜스코딩된 비트들의 수를 추적한다. 트랜스코딩 모듈(36)은 추가적인 비트레이트 감소가 필요한 때를 결정하고 추가적인 비트레이트 감소가 필요한 경우 마이크로스케일 비트레이트 제어를 활성화한다. 오리지널 비트레이트 R_O를 가지는 이미지에 대하여, 트랜스코딩 모듈(36) 오리지널 이미지에 대해 디코딩된 비트들의 수 R_d(n) 및트랜스코딩된 이미지에 대한 인코딩된 비트들의 수R_e(n)의 비가 오리지널 비트레이트 및 타깃 비트레이트 사이의 비(즉, R_O:R_T)와 동일한지 여부를 결정할 수 있다. 이상적으로, 디코딩된 오리지널 이미지의 비트들 R_d(n)대 인코딩된 새로운 이미지의 비트들 R_e(n)의 비는 계수들의 n번째 블록에서 R_O:R_T와 동일하다, 즉

(7) 여기서, R_d(n) 및 R_e(n)는 n 번째 블록에서 이미 디코딩되고 인코딩된 비트들의 수를 각각 나타내고, R_o는 오리지널 이미지 비트레이트이며, 이는 이미지가 총 N개의 블록들을 가지는 경우 R_d(n)과 동일하며, R_T는 트랜스코딩된 이미지의 타깃 비트레이트이다.

식(7)의 비율은 다음 식을 획득하기 위해, 식(2)에서

도메인 분석의 경우와 같이, 비트들의 최소 숫자의 상수 오프셋이 제거되면 더 정확해질 수 있다

(8)

트랜스코딩 모듈(36)이 이 비율을 거부하기 위해 n번째 블록에서 타깃 비트레이트를 제어하도록 설계되었기 때문에, 식(8)에서 R_e(n)에 대해 n번째 블록의 타깃 비트레이트 R_t(n)을 교체하고, R_t(n)에 대하여 푸는 것이 가능하다. 이 결과는 식(9)에 보여진다. 트랜스코딩 모듈(36)은 식(10)에 따라 R_e(n) 및 R_t(n) 사이의 차이(Δ)를 계산한다. 이 차이는 오차(ε), 즉, 이미지의 트랜스코딩동안 n번째 블록에서 실제로 인코딩된 비트들의 수 및 n번째 블록에서 이상적으로 인코딩되어야만 하는 비트들의 수 사이의 차이를 나타낸다.

(9)

(10)

트랜스코딩 모듈(36)은 다수의 비트들을 추가적으로 감소하기 위해 하나 이상의 마이크로스케일 기술들을 활성화할지 여부를 결정하기 위해 트랜스코딩 프로세스 동안 차이(Δ)를 모니터링할 수 있다. 특히, 트랜스코딩 모듈(36)은 Δ가 임계치보다 크거나 같을 때 하나 이상의 마이크로스케일 비트레이트 제어 기술들을 활성화할 수 있다. 임계치는, 예를 들어 타깃 비트레이트의 함수, 예를 들어 타깃 비트레이트 5%일 수 있다. 이러한 방식에서, 트랜스코딩 모듈(36)은 마이크로스케일 기술들이 인보크(invoke)되어야 하는지 여부의 표시자로서 Δ를 사용한다. 트랜스코딩 모듈(36)은 적절한 제한들 내에서 Δ를 가져(bring)오기 위해 비트스트림으로부터 제거될 필요가 있는 다수의 비트들을 결정하기 위해 Δ의 크기를 추가적으로 이용할 수 있다.

트랜스코딩 모듈(36)은 하나 이상의 계수들의 값들을 선택적으로 감소함으로써 비트스트림에 있는 다수의 비트들을 추가적으로 감소할 수 있다. 상기 언급한 대로 이미지의 인코딩된 비트스트림은 대부분 AC 계수들에 대한 허프만 코드들 및 잔여 스트링들을 포함한다. 하나 이상의 계수들의 값들을 선택적으로 감소함으로 써, 트랜스코딩 모듈(36)은 감소된 계수들에 대한 허프만 코드의 길이를 감소할 수 있다. 이는 더 작은 계수 값들은 더 큰 계수 값들 보다 보통 더 빈번하며, 따라서 보통 할당된 더 짧은 허프만 코드들이기 때문이다. 또한, 트랜스코딩 모듈(30)은 하나 이상의 계수 값들을 선택적으로 감소함으로써 잔여 비트들을 절약(save)할 수 있다. 상기 언급한 대로, 엔트로피 인코딩 모듈(30)은 제로들의 런(run)-길이 및 계수의 바이너리 사이즈에 기반하여 AC 계수들에 대한 코드들을 할당한다. 트랜스코딩 모듈(36)은 블록을 급진적으로(radically) 대체하지 않고는 제로들의 런-길이를 변경할 수 없으나, 그러나 그것은 계수의 바이너리 사이즈를 미세하게 변경할 수 있다. 그렇게 하기 위해, 트랜스코딩 모듈(36)은 값들을 이용하여 계수들이 2의 거듭제곱(power of two)와 같은지, 또는 적어도 근사한지를 식별할 수 있고, 계수들을 감소하여 그들이 2의 거듭제곱 보다 작도록 할 수 있다. 예를 들어, 만약 인코딩될 계수 값이 2의 거듭제곱이라면, 트랜스코딩 모듈(36)은 1만큼 계수 값을 감소시킨다. 계수 값 8에 대해, 예를 들어, 트랜스코딩 모듈(36)은 네 개의 비트들로 잔여 길이를 코딩한다. 트랜스코딩 모듈(36)은 계수 값 8을 1만큼 감소시켜, 그 결과 새로운 계수 값 7을 만든다. 계수 값 7은 세 개의 비트들의 잔여로 나타내지며, 이에 의해 비트스트림을 1 비트만큼 감소시킨다. 또한, 런-사이즈를 나타내기 위한 허프만 코드는 추가적인 비트 절약들을 초래하여 더 짧을 수도 있다. 유사하게, 계수 값 9를 2 만큼 감소시키는 것은 새로운 계수 값 7을 만들며, 이는 감소된 수의 비트들 및 더 짧은 허프만 코드에 의해 나타낼 수 있다. 그러나 계수 값을 2만큼 감소시키는 것은, 추가적인 왜곡을 생성한다. 따라서, 값이 감소될 수 있는 비트들의 수는 수용 가능하다고 고려되는 왜곡의 양에 의존한다.

몇몇 양상들에서, 트랜스코딩 모듈(36)은 감소된 값이 제로와 같을 때 계수 값들을 선택하는 것을 생략할 수 있다. 예를 들어, 계수들이 2의 거듭제곱인 경우에, 트랜스코딩 모듈(36)은 2의 거듭제곱인 계수 값들 1을 선택하는 것을 생략할 수 있다. 만약 트랜스코딩 모듈(36)이 값 1을 가지는 계수들을 선택하고, 제로의 값으로 저 계수들을 감소시키면, 변환의 특정 컴포넌트는 완전히 제거된다. 이는 요구되는 것보다 더 많은 왜곡 및/또는 인공물(artifact)를 생성한다. 따라서, 트랜스코딩 모듈(36)은 1의 값을 가지는 계수들을 감소시키지 못한다.

선택적으로, 또는 추가적으로, 트랜스코딩 모듈(36)은 패딩(padding) 바이트들의 수를 감소시킴으로써 비트스트림의 비트들의 수를 추가적으로 감소시킬 수 있다. 상기 언급한대로, 트랜스코딩 모듈(36)은 메타데이터에 대한 마커에 대응하는 비트 시퀀스를 따르는(follow) 패딩 바이트들을 인서팅 할 수 있다. JPEG 표준의 경우에, 예를 들어, 제로 바이트 0x00은 실제 계수 비트스트림을 마커로부터 구별(differentiate)하기 위해 엔트로피 코딩 비트스트림에서 0xFF의 발생후에 인서팅 될 수 있다. 트랜스코딩 모듈(36)은 여덟 개의 바이트-정렬 시퀀스를 마커로부터 구별할 필요가 있는 패딩 바이트들을 제거함으로써 하나의 바이트(여덟 비트들)만큼 비트스트림의 비트들의 수를 감소시킬 수 있다. 패딩 바이트들의 사용을 회피하기 위해, 트랜스코딩 모듈(36)은 마커를 표시하는 비트 시퀀스가 존재하는, 비트스트림에서 위치들을 식별한다. JPEG 표준에서, 예를 들어, 트랜스코딩 모듈(36)은 0xFF가 존재하는 비트스트림에서 위치들을 식별할 수 있다(즉, 여덟 개의 연속하는 것들).

일 양상에서, 트랜스코딩 모듈(36)은 비트스트림에 기록(write)되는 다음 바이트를 포함하는 가장 왼편(leftmost)의 비트들을 저장하는 비트 버퍼를 포함할 수 있다. 허프만 코드들 및 잔여들은 오른편에 선택적으로 부가되며, 가장 왼편의 비트가 그들의 최상위 비트가 된다. 가장 왼편의 여덟 개의 비트들은 다음의 시퀀스들 중 아무것이나 포함할 수 있다: (1) 허프만 코드 (H)로부터의 비트들만, (2) 잔여(R)로부터의 비트들만, (3) 허프만 코드의 끝 그리고 잔여의 시작 비트들(HR), (4) 잔여의 끝 그리고 허프만 코드의 시작 비트들(RH), (5) 허프만 코드의 끝 비트들 그리고 전체 잔여의 비트들 그리고 다음 허프만 코드의 시작 비트들(HRH), (6) 잔여의 끝 그리고 전체 허프만 코드 및 다음 잔여의 시작(RHR) 또는 (7) 시퀀스의 중간에 부가되는 HR 또는 RH 짝(pair)들을 포함하는 아이템들 (2) 내지 (6) 중 임의의 것.

트랜스코딩 모듈(36)은 잔여를 나타내는 여덟 개의 비트들 중 하나 이상의 비트들을 변경할 수 있다. 잔여를 대체할 때, 트랜스코딩 모듈(36)은 비트스트림에 0xFF를 기록하는 것을 방지하는 잔여의 최하위 비트를 변경할 수 있다. 이러한 방식으로, 트랜스코딩 모듈(36)은 변경할 여덟 개의 비트들을 결정하여, 그 결과 허프만 코드들이 보존되고 잔여의 변경이 최소가 되도록 한다. 위에서 언급한 일곱 개의 가능한 경우들의 리스트에서, 경우 (1)은 허프만 코드를 변경하는 것이 바람직하지 않기 때문에 변경할 수 있지 않다. 그러나 JPEG 표준은, 더 긴 코드워드들에 대한 프리픽스로서 예비(reserve)되지 않기 때문에 모두 1비트들인 허프만 코 드를 정의하지 않는다. 이러한 정보를 이용하여, 경우들 (1), (6), 및 (7)은 JPEG의 경우에 0xFF를 생성하지 않을 것이다. 경우들 (2) 내지 (5)의 모두에서, 트랜스코딩 모듈(36)은 비트 버퍼 중 가장 왼편의 여덟 개의 비트들 내에 여전히 놓여있는 잔여의 최하위 비트를 변경한다. 이러한 비트를 변경하면, 비트 시퀀스는 마커를 더 이상 나타내지 않고, 패딩 바이트들은 더 이상 필요하지 않다. 이러한 방식으로, 트랜스코딩 모듈(36)은 가장 작은 양의 왜곡을 가지는 비트레이트의 가장 큰 감소를 달성하려고 한다.

트랜스코딩 모듈(36)은 이미지의 트랜스코딩 동안 n번째 블록에서 실제로 인코딩되는 비트들의 수와 n번째 블록에서 이상적으로 인코딩되어야 비트들의 수 사이의 차이(Δ)가 임계치 미만으로 떨어질 때까지, 현재 트랜스코딩되는 픽셀들의 개별적인 블록들에 대해 마이크로스케일 비트레이트 제어 기술들 중 하나 또는 둘 모두를 계속 구현한다. 몇몇 경우들에서, Δ는 마이크로스케일 비트레이트 제어 기술들을 사용하여 현재 블록에서 비트들을 감소시키는 경우 임계치 미만으로 떨어질 수 있다. 그러나 다른 경우들에서, Δ가 임계치 미만으로 떨어지기 전에 마이크로스케일 비트레이트 제어 기술들이 이미지의 복수의 블록들에 걸쳐 이용될 수 있다. 임계치 미만으로 떨어지면, 트랜스코딩 모듈(36)은 마이크로스케일 비트레이트 제어 기술들을 구현하는 것을 멈추고, 에러가 임계치 이상으로 다시 증가하지 않는다면, 단지 마크로스케일 비트레이트 제어 기술들을 구현한다.

본 명세서의 트랜스코딩 프레임워크는 관찰자(observer) 설계 패턴을 이용할 수 있다. 관찰자 설계 패턴에서, 오브젝트(object)가 자신의 상태를 변경할 때, 오브젝트는 이벤트를 일으키고(raise), 특정 이벤트에 대해 청취하고 있는 임의의 소프트웨어 관찰자에게 통보한다. 오브젝트는 이벤트를 자신의 가입자들에게 공표(publish)한다. 각각의 가입자는 그리고 나서 이벤트에 포함된 정보에 관련된 행동들을 수행한다. 몇몇 가입자들은 동일한 이벤트에 응답할 수 있고, 각각의 완전혀 상이한 기능을 가지며, 그리고 연관된 기능들은 하나의 모듈로 패키징 될 수 있다. 또한, 관찰자 설계 패턴은 트랜스코딩이 메모리에 너무 많은 상태를 유지하지 않고서 온라인 방식(online fashion)으로 진행하도록 허용한다. 블록이 디코딩되자마자, 가입된 인코더가 그것을 즉시 인코딩할 수 있다.

도 2에서 도시된 예에서, 트랜스코딩 프레임워크에는 네 개의 기본 모듈들이 존재한다: 엔트로피 디코딩 모듈(32), 트랜스코딩 모듈(36), 양자화 모듈(28), 및 엔트로피 인코딩 모듈(30). 디코딩 모듈(32)은 원래의 비트스트림을 판독(read)하고 조종(manipulation)을 위한 데이터를 생산한다. 디코딩 모듈(32)은 가입자들에게 정보의 주된 공표자이다. 다른 세 개의 모듈들은 디코딩 모듈(32) 이벤트들에 대해 구독(subscribe)할 수 있다. 제 1 패스 디코딩 동안, 트랜스코딩 모듈(36)은 디코딩 모듈(32)에 구독하고 글로벌 이미지 스태틱(static)들을 수집한다. 트랜스코딩은 제 2 패스에서 발생한다. 제 2 패스 동안, 트랜스코딩 모듈(36)은 디코딩 모듈(32)에 구독하고, 인코딩 모듈(30)은 트랜스코딩 모듈(36)에 구독한다. 트랜스코딩 모듈(36)은 또한 인코딩 스태틱들을 트래킹(track)하기 위해 인코딩 모듈(30)에 구독한다. 따라서, 디코딩 모듈(32)은 두 번 실행되고, 그리고 서브스크립션(subsription)만이 변경된다. 주된 프로그램에 대한 의사 코드(pseudocode)는 아래처럼 제공된다.

create decoding module from original file

create transcoding module

link transcoding module to decoding module

decode entire image (collect statistics)

reset decoding module

reset transcoding module

create encoding module

link transcoding module to decoding module and encoding module

decode entire image (transcode and write new image)

destroy decoding module

destroy encoding module

destroy transcoding module

다른 설계 패턴은 전략 패턴으로 지칭되는 트랜스코딩 모듈(36)에서 구현될 수 있다. 이러한 패턴은 단순히 하나의 기능을 구현할 수 있는 몇몇 알고리즘들(또는 전략들)을 의미한다. 전략 패턴은 정확한 비트레이트 제어를 달성하는데 그 들의 유효성에 대해 상이한 알고리즘들을 평가하고 비교할 때 유용해진다. 프레임워크는 질의에서 모든 알고리즘을 구현하고, 그리고 주된 프로그램은 단지 정확한 알고리즘에서 플러그(plug) 하기 위해 스위치들을 필요한다.

앞선 기술들은 개별적으로, 또는 이러한 기술들 중 둘 이상, 또는 이러한 기술들의 모두는 인코딩 모듈(12)에서 함께 구현될 수 있다. 인코딩 모듈(12)에 있는 컴포넌트들은 여기서 설명된 기술들을 구현하기 위해 적용가능한 예시이다. 그러나 인코딩 모듈(12)은 많은 다른 컴포넌트들을 포함할 수 있고, 만약 요구되면, 위에서 설명된 하나 이상의 모듈들의 기능을 결합하는 더 적은 컴포넌트들을 포함할 수 있다. 인코딩 모듈(12)에 있는 컴포넌트들은 하나 이상의 프로세서들, 디지털 신호 처리기들, 애플리케이션 특정 집적 회로(ASICs), 필드 프로그래밍 가능한 게이트 어레이(FPGA)들, 이산 로직, 소프트웨어, 하드웨어, 펌웨어, 또는 이들의 임의의 조합들로서 구현될 수 있다. 모듈들로서 상이한 특징들의 묘사는 인코딩 모듈(12)의 상이한 기능적 양상들을 강조하기 위해 의도되며, 이러한 모듈들이 개별적인 하드웨어 또는 소프트웨어 컴포넌트들에 의해 실현되어야 하는 것을 필수적으로 암시하는 것은 아니다. 그것보다는, 하나 이상의 모듈들과 연관된 기능은 공통 또는 개별 하드웨어 또는 소프트웨어 컴포넌트들 내에서 집적화될 수 있다.

도 3은 도 2의 인코딩 모듈(12)과 같이 여기서 설명되는 마크로스케일 비트레이트 감소 기술들에 따른 이미지를 트랜스코딩하는, 인코딩 모듈의 예시적인 동작을 도시하는 플로우 다이어그램이다. 처음에, 인코딩 모듈(12)은 인코딩된 이미지를 획득한다(40). 몇몇 양상들에서, 인코딩 모듈(12)은 미디어 소스(10)로부터 인코딩된 이미지를 획득할 수 있다. 선택적으로, 인코딩 모듈(12)은 원시(raw) 이미지 데이터를 획득하고, 인코딩된 이미지를 획득하기 위해 이미지 데이터의 최초 인코딩을 수행할 수 있다.

인코딩 모듈(12)은 인코딩된 이미지를 디코딩한다(42). 엔트로피 디코딩 모듈(32)은 양자화된 변환 계수들을 획득하기 위해 이미지와 연관된 코드 테이블을 사용하여 인코딩된 이미지를 디코딩할 수 있고, 역 양자화 모듈(34)은 이미지에 대한 변환 계수들을 생성하기 위해 역 양자화를 수행한다.

인코딩 모듈(12)은 원래 인코딩된 이미지, 즉, R₀ 및 z₀에 대한 제로 값을 가지는 양자화된 변환 계수들의 수 및 비트레이트를 결정한다. 비트레이트는 인코딩된 이미지의 파일 사이즈에 기반하여 계산될 수 있다. 제로 값을 가지는 양자화된 변환 계수들은 디코딩동안 획득되는 양자화 계수들의 매트릭스를 분석함으로써 결정될 수 있다. 일 양상에서, 트랜스코딩 프로세스는 관찰자 설계 패턴에 따라 동작할 수 있다. 그러한 경우에, 제로 값을 갖는 계수들의 개수 및 다른 통계치들이 제 1 통과 디코딩(pass decoding) 동안 계산될 수 있고, 이하에 기술되는 트랜스코딩(transcoding)은 제 2 통과 동안에 일어날 수 있다.

인코딩 모듈(12)은 타겟 비트레이트를 획득한다(46). 인코딩 모듈(12)은 예를 들어, 상기 장치의 사용자 또는 네트워크 서비스 제공자로부터 상기 타겟 비트레이트를 획득한다. 대안적으로, 인코딩 모듈(12)은 사용자에 의해 특정된 또는 네트워크 서비스 제공자로부터 획득된 타겟 파일 크기(F_T)에 기초하여 타겟 비트레 이트 R_T를 계산할 수 있다. 획득된 타겟 파일 크기 F_T는 예를 들어, 바이트들로 특정될 수 있고, 헤더 정보 및 DC 비트들과 AC 비트들을 포함할 수 있다. 일 양상에서, 인코딩 모듈(12)은 식 R_T=8*F_T-H-DC에 따라 타겟 비트레이트 R_T를 계산할 수 있는데, 여기서, H는 헤더 비트들의 개수이고 DC는 이미지의 DC 성분을 나타내는 비트들의 개수이다.

인코딩 모듈(12)은 타겟 비트레이트를 달성하기 위해 필요한 제로 값을 갖는 양자화된 변환 계수들(z_T)의 개수를 결정한다(48). 예를 들어, 트랜스코딩 모듈(36)은 타겟 비트레이트 R_T, 원래 인코딩된 이미지의 비트레이트 R_o 및 원래 인코딩된 이미지의 제로 값을 갖는 양자화된 변환 계수들 z_o의 개수를 사용하여 제로 값을 갖는 양자화된 변환 계수들 z_T의 타겟 개수를 계산할 수 있다. 일 양상에서, 트랜스코딩 모듈(36)은 위의 식들 (3)-(5)에 보여지는 바와 같이 z_T를 계산한다.

인코딩 모듈(12)은 제로 값을 갖는 양자화된 변환 계수들의 타겟 개수에 기초하여 스케일링 인자(scaling factor) s 및 위치 인덱스(position index) k를 결정한다(50). 트랜스코딩 모듈(36)은 루마 양자화 테이블(38) 및 크로마 양자화 테이블(39)로부터 초래된 제로 값을 갖는 계수의 개수가 z_T를 초과하지 않도록 스케일링 인자 s를 선택하기 위하여 계수 값들의 히스토그램(histogram)을 사용할 수 있다. 일 예로서, 이미지의 히스토그램이 1의 값을 갖는 1000개의 개수들이 존재하고 2의 값을 갖는 2000개의 계수들이 존재함을 지시한다고 가정한다. 더욱이, 타 겟 제로 값을 갖는 계수들(z_T)의 개수가 1500이라고 가정한다. 트랜스코딩 모듈(36)은 2의 스케일링 인자를 선택하고, 2의 스케일링 인자는 z_T를 초과하는 z를 초래하지 않는 최대의 스케일링 인자이다. 트랜스코딩 모듈(36)은 위치 인덱스 k를 더 결정할 수 있고, 상기 위치 인덱스에서 상기 위치 인덱스 이후의 계수들에 제 2의 더 큰 스케일링 인자의 적용이 제로 값을 갖는 계수들의 목적하는 개수를 야기한다.

인코딩 모듈(12)은 스케일링 인자 s 및 위치 인덱스 k의 함수로서 루마 양자화 테이블(38) 및 크로마 양자화 테이블(39)을 스케일링한다(52). 트랜스코딩 모듈(36)은 루마 양자화 테이블(38) 및 크로마 양자화 테이블(39)의 양자화 엔트리들을 엔트리들의 단일 시퀀스로 배열(order)할 수 있고, 스케일링 인자 s에 의해 상기 시퀀스 중 첫 번째 k개의 엔트리들을 스케일링하고 더 큰 스케일링 인자, 예를 들어, s+1에 의해 상기 시퀀스의 나머지 엔트리들을 스케일링할 수 있다. 이러한 방식으로, 크로마 양자화 테이블(39)은 이미지의 밝기(brightness)를 더 잘 보존하기 위하여 루마 양자화 테이블(38)보다 더 스케일링된다. 더욱이, 상이한 스케일링 인자들에 의해 양자화 테이블들의 엔트리들 부분들을 스케일링 하는 것은 우리의 타겟 비트레이트를 오버슈팅(overshooting)하거나 타겟 비트레이트를 언더슈팅(undershooting)할 가능성을 감소시킨다.

인코딩 모듈(12)은 스케일링된 양자화 테이블들을 사용하여 이미지를 재-인코딩한다(54). 예를 들어, 양자화 모듈(28)은 스케일링된 양자화 테이블들을 사용 하여 변환 계수(transform coefficient)들을 양자화하고, 엔트로피 인코딩 모듈(30)은 인코딩된 비트스트림을 생성하기 위하여 상기 양자화 계수들을 인코딩한다. 도 3의 흐름도에 기술된 예시에서, 인코딩 모듈(12)은 주파수 도메인에서, 즉, 변환 계수들을 사용하여 이미지를 트랜스코딩한다. 주파수 도메인에서 이미지 데이터를 트랜스코딩하는 것은 변환 계수들에 역 변환 함수를 적용할 필요성을 제거함으로써 프로세싱 시간을 감소시킬 수 있다. 그러나 다른 양상들에서, 인코딩 모듈(12)은 로(raw) 이미지 데이터를 획득하는 역 변환 모듈을 포함하고, 로 이미지 데이터를 사용하여 이미지를 트랜스코딩할 수 있다.

도 4는 매크로스케일 비트레이트 감소 기술들 및 마이크로스케일 비트레이트 감소 기술들의 조합을 사용하여 이미지를 트랜스코딩하는, 도 2의 인코딩 모듈(12)과 같은 인코딩 모듈의 예시적인 동작을 보여주는 흐름도이다. 처음에, 인코딩 모듈(12)은 인코딩된 이미지를 획득한다(60). 인코딩 모듈(12)은 미디어 소스(18)로부터 이전에 인코딩된 이미지를 획득하거나 미디어 소스(18)로부터 로 이미지 데이터를 획득할 수 있고, 인코딩된 이미지를 획득하기 위하여 이미지 데이터의 초기 인코딩(initial encoding)을 수행한다.

인코딩 모듈(12)은 인코딩된 이미지를 디코딩한다(62). 인코딩 모듈(12)은 원래 인코딩된 이미지, 즉, R_o 및 z_o 각각에 대하여 제로 값을 갖는 양자화된 변환 계수들의 개수 및 비트레이트를 결정한다(64). 비트레이트는 인코딩된 이미지의 파일 크기에 기초하여 계산될 수 있다. 제로 값을 갖는 양자화된 변환 계수들의 개수는 디코딩 동안에 결정될 수 있다. 인코딩 모듈(12)은 타겟 비트레이트를 획득한다(66). 인코딩 모듈(12)은 예를 들어, 상기 장치의 사용자 또는 네트워크 서비스 제공자로부터 타겟 비트레이트를 획득할 수 있다. 대안적으로, 인코딩 모듈(12)은 사용자에 의해 특정되거나 네트워크 서비스 제공자로부터 획득된 타겟 파일 크기(F_T)에 기초하여 타겟 비트레이트 R_T를 계산할 수 있다.

인코딩 모듈(12)은 타겟 비트레이트를 달성하기 위해 필요한 제로 값을 갖는 양자화된 변환 계수들 z_T의 타겟 개수를 결정한다(68). 예를 들어, 트랜스코딩 모듈(36)은 타겟 비트레이트 R_T, 원래 인코딩된 이미지의 비트레이트 R_o 및 원래 인코딩된 이미지의 제로 값을 갖는 양자화된 변환 계수들 z_o의 개수를 사용하여 제로 값을 갖는 양자화된 변환 계수들(z_T)의 타겟 개수를 계산할 수 있다. 일 양상에서, 트랜스코딩 모듈(36)은 위의 식들 (3)-(5)에 보여지는 바와 같이 z_T를 계산한다.

인코딩 모듈(12)은 제로 값을 갖는 양자화된 변환 계수들의 타겟 개수에 기초하여 스케일링 인자 s 및 위치 인덱스 k를 결정한다(70). 트랜스코딩 모듈(36)은 이하의 식을 만족시키도록 스케일링 인자 s 및 위치 인덱스 k를 계산할 수 있다:

인코딩 모듈(12)은 스케일링 인자 s 및 위치 인덱스 k의 함수로서 루마 양자화 테이블(38) 및 크로마 양자화 테이블(39)을 스케일링한다(72). 트랜스코딩 모듈(36)은 예를 들어, 루마 양자화 테이블(38) 및 크로마 양자화 테이블(39)의 양자화 엔트리들을 엔트리들의 단일 시퀀스로 배열(order)할 수 있고, 스케일링 인자 s에 의해 첫 번째 k개의 엔트리들을 스케일링하고 더 큰 스케일링 인자, 예를 들어, s+1에 의해 나머지 엔트리들을 스케일링할 수 있다. 더 큰 스케일링 인자는 제로로 양자화된 더 많은 변환 계수들을 야기한다. 이러한 방식으로, 크로마 양자화 테이블(39)은 이미지의 밝기를 더 잘 보존하기 위하여 루마 양자화 테이블(38)보다 더 스케일링된다. 더욱이, 상이한 스케일링 인자들에 의해 양자화 테이블들의 엔트리들의 부분들을 스케일링하는 것은 우리의 타겟 비트레이트를 오버슈팅하거나 타겟 비트레이트를 언더슈팅할 가능성을 감소시킨다.

인코딩 모듈(12)은 스케일링된 양자화 테이블들을 사용하여 이미지의 블록을 재-인코딩한다(74). 예를 들어, 양자화 모듈(28)은 상기 블록의 스케일링된 양자화 테이블들을 사용하여 변환 계수들을 양자화하고, 엔트로피 인코딩 모듈(30)은 상기 블록에 대해 인코딩된 비트스트림을 생성하기 위하여 상기 양자화 계수들을 인코딩한다. 인코딩 모듈(12)은 이미지의 n개 블록들을 재-인코딩하기 위해 사용된 비트들의 개수의 총합 R_e(n)을 결정한다(76). 즉, 인코딩 모듈은 이미지의 블록들을 재-인코딩하기 위해 사용된 비트들의 개수의 실행 총계(running total)를 유 지한다. 예를 들어, 트랜스코딩 모듈(36)은 특정 블록에 대해 트랜스코딩된 비트들의 개수를 트랙킹하고, 그것을 다른 블록들에 대한 총계들에 합산한다. 트랜스코딩 모듈(36)은 n개 블록들을 재-인코딩하기 위해 사용된 비트들의 개수의 총합 R_e(n)과 n번째 블록에서 인코딩되어야 하는 비트들의 이상적인 개수 R_t(n) 사이의 차이(Δ)를 계산한다.

트랜스코딩 모듈(36)은 Δ이 임계치보다 더 크거나 같은지 여부를 결정한다(80). 임계치는 예를 들어, 타겟 비트레이트의 함수, 예를 들어, 타겟 비트레이트의 5%일 수 있다. 트랜스코딩 모듈(36)이 Δ이 임계치보다 더 크거나 같음을 결정한 때, 트랜스코딩 모듈(36)은 하나 이상의 마이크로스케일 비트레이트 제어 기술들을 사용하여 현재의 블록으로부터 제거될 수 있는 비트들이 존재하는지 여부를 결정한다(82). 앞서 상세히 기술된 바와 같이, 트랜스코딩 모듈(36)은 현재의 블록이 2의 거듭제곱(power)인 임의의 양자화된 변환 계수들을 갖는지 여부 또는 상기 블록의 비트 시퀀스가 마커를 표현하는 비트 시퀀스를 갖는지 여부를 결정할 수 있다.

트랜스코딩 모듈(36)이 현재 블록의 비트스트림으로부터 제거될 수 있는 비트들이 존재함을 결정한 때, 트랜스코딩 모듈(36)은 상기 비트스트림의 비트들의 개수를 더 감소시킨다(84). 만약 제거가능한 것으로서 식별된 비트들이 2의 거듭제곱인 또는 2의 거듭제곱에 가까운 양자화된 변환 계수들이라면, 트랜스코딩 모듈(36)은, 계수 값이 2의 대응하는 거듭제곱 아래로 떨어지고 감소된 계수를 재-인 코딩하도록, 하나의 값에 의해 하나 이상의 계수들을 감쇠(decrement)시킬 수 있다. 전술한 바와 같이, 1의 값에 의해 2의 거듭제곱인 계수를 감소시키는 것은 계수를 표현하기 위해 요구되는 비트들의 개수를 감소시킨다. 특히, 하나의 비트 절약이 존재한다. 만약 제거가능한 것으로서 식별된 비트들이 마커를 표현하는 블록의 비트 시퀀스 중 일부라면, 트랜스코딩 모듈(36)은 패딩 바이트들의 개수를 감소시킴으로써 비트스트림의 비트들의 개수를 감소시킬 수 있다. 전술한 바와 같이, 트랜스코딩 모듈(36)은 메타데이터를 위한 마커에 대응하는 비트 시퀀스 다음에 패딩 바이트들을 삽입할 수 있다. JPEG 표준의 경우에, 예를 들어, 실제 계수 비트스트림을 마커로부터 구별되게 하기 위하여 제로 바이트 0x00가 엔트로피 코딩 비트스트림에서 OxF의 발생 이후에 삽입될 수 있다. 트랜스코딩 모듈(36)은 비트가 잔여분(residue)에 대응할 때 마커를 표현하는 시퀀스의 적어도 하나의 비트를 변경할 수 있다. 예를 들어, 트랜스코딩 모듈(36)은 상기 계수 비트스트림으로의 마커에 대응하는 시퀀스의 기록을 방지하는 잔여분의 최하위 비트(least significant bit)를 변경할 수 있다. 이러한 비트의 변경 시, 비트 시퀀스는 더 이상 마커를 나타내지 않고, 어떠한 패딩 바이트들도 필요하지 않다.

비트스트림의 비트들의 개수를 감소시킨 이후에, 트랜스코딩 모듈(36)은 조정된 Δ, 즉, 제거된 비트들의 개수만큼 감소된 Δ을 임계치와 비교한다(80). 만약 Δ이 여전히 임계치를 초과한다면, 트랜스코딩 모듈(36)은 현재 블록으로부터 제거될 수 있는 임의의 더 많은 비트들이 존재하는지 여부를 결정한다(82). 만약 적절한 품질을 유지하면서 제공될 수 있는 현재 블록의 추가적인 비트들이 존재한 다면, 트랜스코딩 모듈(36)은 상기 블록의 비트들의 개수를 더 감소시킨다. 만약 적절한 품질을 유지하면서 현재 블록으로부터 제거할 비트가 존재하지 않거나 Δ가 더 이상 임계치를 초과하지 않는다면, 트랜스코딩 모듈(36)은 트랜스코딩된 블록을 전송한다(86). 그러나, 소정의 경우들에, 트랜스코딩 모듈(36)은 트랜스코딩된 블록들을 전송하지 않고, 인코딩될 이미지의 모든 블록들을 대기한 다음, 전체 이미지를 전송할 수 있다.

트랜스코딩 모듈(36)은 인코딩될 추가의 블록들이 존재하는지 여부를 결정한다(88). 인코딩될 추가의 블록들이 존재할 때, 트랜스코딩 모듈(36)은 조정된 양자화 테이블들을 사용하여, 그리고 필요한 경우, 마이크로스케일 비트레이트 제어 기술들을 사용하여, 계속해서 상기 블록들을 재-인코딩한다. 이러한 방식으로, 트랜스코딩 모듈(36)은 이미지를 트랜스코딩하기 위해 두 계층의 비트레이트 제어를 수행할 수 있다: 글로벌 트랜스코딩 기술들이 전체 이미지에 똑같이 그리고 균일하게 영향을 미치는, 매크로스케일 상의 제 1 계층의 비트레이트 제어, 및 트랜스코딩 동작의 영향이 이미지의 특정 영역들로 국부화되는, 마이크로스케일 상의 제 2 계층의 비트레이트 제어. 이러한 두-계층 전략은 트랜스코딩 모듈(36)이 처음에는 타겟 비트레이트에 대략적으로 접근하고 그 다음 필요에 따라 미세 조정들을 하도록 한다.

도 5는 이미지의 비트레이트를 더 감소시키기 위하여 마이크로스케일 비트레이트 제어를 수행하는, 도 2의 인코딩 모듈(12)과 같은 인코딩 모듈의 예시적인 동작을 도시하는 흐름도이다. 전술한 바와 같이, 엔트로피 인코딩 모듈(30)은 제로 들의 실행-길이 및 계수의 이진 크기(binary size)에 기초하여 AC 계수들에 대한 코드들을 할당한다. 트랜스코딩 모듈(36)은 상기 블록을 급격하게 변경하지 않으면서 제로들의 실행 길이를 변화시킬 수는 없으나, 계수의 이진 크기를 섬세하게 변화시킬 수 있다. 특히, 트랜스코딩 모듈은 2의 거듭제곱인 블록의 계수를 식별할 수 있다(90).

트랜스코딩 모듈(36)은 식별된 계수가 1과 같은지 여부를 결정한다(92). 만약 식별된 계수가 1과 같지 않다면, 트랜스코딩 모듈(36)은 식별된 계수를 1만큼 감소시킨다(94). 트랜스코딩 모듈(36)은 상기 계수의 새로운 값을 인코딩한다(96). 8인 계수 값에 대해, 예를 들어, 트랜스코딩 모듈(36)은 네개의 비트들로써 잔여분(residue)의 길이를 코딩한다. 트랜스코딩 모듈(36)은 단 3개의 비트들로써 7인 감소된 계수 값의 잔여분의 길이를 코딩할 수 있어서, 비트스트림을 1 비트만큼 감소시킨다. 또한, 상기 런-사이즈(run-size)를 나타내는 허프만 코드는 더 짧아서 추가적인 비트 절약으로 귀결될 수 있다.

그러나, 식별된 계수가 1과 같다면, 트랜스코딩 모듈(36)은 2의 거듭제곱(power)인 블록의 계수들 중 상이한 하나를 선택한다. 계수를 1의 값으로써 감분(decrement)시키는 것은 영(zero)인 새로운 계수 값으로 귀결될 것이다. 달리 말해, 상기 변환의 특정 컴포넌트가 완전히 제거되고, 이는 요구되는 것보다 더 큰 왜곡 및/또는 아티팩트(artifact)들을 야기한다. 그러므로 트랜스코딩 모듈(36)은 일(one)의 값으로써 계수들을 감소시키지 않을 것이다.

이 방식으로, 트랜스코딩 모듈(36)은 하나 이상의 계수들의 값들을 선택적으 로 감소시킴으로써 상기 비트스트림에서의 비트들의 개수를 추가로 감소시킬 수 있다. 전술한 바와 같이, 이미지의 인코딩된 비트스트림은 대부분 AC 계수들에 대한 잔여 스트링들 및 허프만 코드들로 구성된다. 하나 이상의 계수들의 값들을 선택적으로 감소시킴으로써, 트랜스코딩 모듈(36)은 감소된 계수들에 대한 허프만 코드의 길이를 감소시킬 수 있다. 이는 더 작은 계수 값들이 더 큰 계수 값들보다 통상 더 빈번하고 따라서 보통 더 짧은 허프만 코드들을 할당받기 때문이다. 또한, 트랜스코딩 모듈(30)은 상기 계수 값들 중 하나 이상을 선택적으로 감소시킴으로써 상기 잔여분에서의 비트들을 절약할 수 있다. 도 5가 2의 거듭제곱인 계수들을 감소시키는 점에 관하여 기재되었을지라도, 상기 기술들은 2의 거듭제곱에 가까운 값들을 갖는 계수들에 적용하도록 확장될 수 있다. 예를 들어, 9인 계수 값은 2만큼 감소되어 7의 새로운 계수 값으로 귀결될 수 있으며, 이는 더 짧은 허프만 코드 및 감소된 개수의 비트들로써 표현될 수 있다. 얼마나 상기 계수 값이 2의 거듭제곱에 가까워야 하는지는 허용가능하다고 간주되는 왜곡의 양에 따른다.

도 5에서 기재되는 마이크로스케일 비트레이트 제어 기술은 매크로스케일 비트레이트 제어 기술과 함께 이용되어, 필요시 이미지의 크기를 추가로 감소시킬 수 있다. 대안적으로, 마이크로스케일 레이트 제어 기술은 매크로스케일 레이트 제어 기술과 독립적으로 활용되어, 이미 인코딩된 이미지를 트랜스코딩하거나 또는 이미지의 초기 인코딩을 수행할 수 있다.

도 6은 마이크로스케일 비트레이트 제어를 구현하여 이미지의 비트레이트를 추가로 감소시키는, 도 2의 인코딩 모듈(12)과 같은, 인코딩 모듈의 예시적인 동작 을 나타내는 순서도이다. 트랜스코딩 모듈(36)은 마커와 대응하는 비트 시퀀스가 존재하는 비트스트림에서의 위치들을 식별한다(100). 앞서 기재된 바와 같이, 이미지 압축 기술은 특정 비트 시퀀스를 마커로서 이용하여 메타데이터의 영역들을 식별할 수 있다. JPEG 표준에서, 바이트 0xFF로써 시작되는 2-바이트 마커가 이용되어 뒤따를 메타데이터의 타입을 지시하는 바이트가 이어지는 메타데이터의 영역들을 식별한다. 계수들의 인코딩이 마커 0xFF와 대응하는 비트 시퀀스를 유입(introduce)시킬 때, 엔트로피 코딩 모듈(30)은 제로(zero) 바이트 0x00를 비트스트림에 스터핑(stuff)시켜 마커와 계수 비트스트림을 명확하게 한다. 따라서, 트랜스코딩 모듈(36)은 상기 비트스트림에 기록되는 다음 바이트를 포함하는 최좌측(leftmost) 비트들을 저장하고 마커, 예컨대 JPEG 표준의 경우에 0xFF와 대응하는 비트 시퀀스에 대해 버퍼를 모니터링하는 비트 버퍼를 포함할 수 있다.

트랜스코딩 모듈(36)은 비트 시퀀스가 잔여분을 나타내는 적어도 하나의 비트를 포함하는지를 결정한다(102). 상기 비트 시퀀스가 잔여분을 나타내는 적어도 하나의 비트를 포함할 때, 트랜스코딩 모듈(36)은 상기 잔여분을 나타내는 8개의 비트들 중 하나 이상의 비트들을 변경할 수 있다(104). 예를 들어, 트랜스코딩 모듈(36)은 상기 잔여분을 나타내는 비트들 중 최하위 비트(least significant bit)를 변경할 수 있다. 이는, 마커를 나타내는 비트 시퀀스의 발생을 방지하고 단지 상기 잔여분의 값을 최소로 변경한다. 그리고 나서 트랜스코딩 모듈(36)은 패딩 비트들을 삽입하지 않고 상기 비트 시퀀스를 인코딩한다(106). 일부의 경우, 트랜스코딩 모듈(36)은 일반적으로 패딩 바이트를 삽입할 수 있다. 그 경우, 8개의 비 트들이 보존된다.

상기 비트 시퀀스가 잔여분을 나타내는 적어도 하나의 비트를 포함하지 않을 때, 트랜스코딩 모듈(36)은 어떠한 비트들도 변경하지 않고(108) 삽입되는 패딩 비트들로써 상기 시퀀스를 인코딩한다(110). 허프만 코드의 비트를 변경하는 것은 디코딩 장치에서의 에러를 가져올 허프만 코드에서의 변경을 가져올 것이다.

도 6에 기재되는 마이크로스케일 비트레이트 제어 기술은, 필요시 매크로스케일 비트레이트 제어 기술들과 함께 이용되어 이미지의 크기를 추가로 감소시킬 수 있다. 대안적으로, 마이크로스케일 레이트 제어 기술이 매크로스케일 레이트 제어 기술들과 독립적으로 활용되어, 이미 인코딩된 이미지를 트랜스코딩하거나 또는 상기 이미지의 초기 인코딩을 수행할 수 있다.

여기 기재된 기술들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수 있다. 모듈들 또는 컴포넌트들로서 기재되는 임의의 특징들은 집적 논리 장치로 함께 또는 이산의 그러나 상호동작하는 논리 장치들로서 별도로 구현될 수 있다. 소프트웨어로 구현된다면, 상기 기술들은, 실행될 때, 상기 기재된 방법들 중 하나 이상을 수행하는 명령들을 포함하는 컴퓨터로-읽을 수 있는 매체로써 적어도 일부 구현될 수 있다. 상기 컴퓨터로-읽을 수 있는 매체는 컴퓨터 프로그램 제품의 일부를 형성할 수 있으며, 이는 패키징 부재들을 포함할 수 있다. 상기 컴퓨터로-읽을 수 있는 매체는 동기식 동적 랜덤 액세스 메모리(RAM)와 같은 랜덤 액세스 메모리(RAM), 읽기-전용 메모리(ROM), 비-휘발성 랜덤 액세스 메모리(NVRAM), 전기적 소거가능 프로그램가능 읽기-전용 메모리(EEPROM), FLASH 메모 리, 자기 또는 광 데이터 저장 매체 등을 포함할 수 있다. 상기 기술들은 추가적으로, 또는 대안적으로, 명령들 또는 데이터 구조들의 형태로 코드를 반송 또는 전달하는 그리고 컴퓨터에 의해 액세스, 판독, 및/또는 실행될 수 있는 컴퓨터로-읽을 수 있는 통신 매체로써 적어도 일부 구현될 수 있다.

상기 코드는 하나 이상의 DSP들과 같은 하나 이상의 프로세서들, 범용 마이크로프로세서들, ASIC들, 필드 프로그래머블 논리 어레이들(FPGA들), 또는 다른 등가 집적 또는 이산 논리 회로에 의해 실행될 수 있다. 따라서, 여기서 이용되는 바로서, 용어 "프로세서"는 여기 기재된 기술들의 구현에 적합한 임의의 전술한 구조 또는 임의의 다른 구조를 지칭할 수 있다. 추가로, 일부 양상들에서, 여기 기재된 기능성은 인코딩 및 디코딩하도록 구성되는 전용 소프트웨어 모듈들 또는 하드웨어 모듈들 내에서 제공되거나, 또는 결합된 비디오 인코더-디코더(CODEC)에 통합될 수 있다. 그러므로, 본 개시물은 본 개시물에 기재되는 기술들 중 하나 이상을 구현하는 회로를 포함하는 임의의 다양한 집적 회로 장치들도 고려한다. 그러한 회로는 단일 집적 회로 칩으로 또는 다수의, 상호동작가능한 집적 회로 칩들로 제공될 수 있다.

다양한 예시들이 기재되었다. 이러한 그리고 다른 예시들은 다음의 청구항들의 범위 내이다.

Claims

디지털 이미지 데이터를 처리하는 방법으로서,

계산된 스케일링 인자의 함수로서 하나 이상의 양자화 테이블을 스케일링하는 단계;

상기 하나 이상의 스케일링된 양자화 테이블을 사용하여 상기 디지털 이미지 데이터의 복수의 화소 블록들(a plurality of blocks of pixels)을 인코딩하는 단계;

상기 디지털 이미지 데이터의 복수의 화소 블록들 중 n번째 블록에서 인코딩된 비트들의 수 및 타겟 비트 레이트를 달성하기 위해서 상기 n번째 블록에서 이상적으로 인코딩되어야 하는 비트들의 수 사이의 차이를 트랙킹하는 단계; 및

상기 차이가 임계치 이상이면 상기 이미지 데이터의 상기 복수의 블록들 중 일부를 인코딩하는데 사용되는 하나 이상의 비트들을 제거하는 단계를 포함하는, 디지털 이미지 데이터 처리 방법.
제1항에 있어서,

초기에 인코딩된 상기 이미지 데이터의 비트 레이트, 초기에 인코딩된 상기 이미지 데이터의 제로 값을 갖는 양자화된 변환 계수들의 수, 및 타겟 비트 레이트 에 기반하여 상기 타겟 레이트를 달성하기 위해서, 제로 값을 갖는(zero-valued) 양자화된 변환 계수들의 요구되는 수를 식별하는 단계; 및

상기 제로 값을 갖는 양자화된 변환 계수들의 요구되는 수에 기반하여 상기 하나 이상의 양자화 테이블을 스케일링하는데 사용하기 위하여 상기 스케일링 인자를 계산하는 단계를 더 포함하는, 디지털 이미지 데이터 처리 방법.
제1항에 있어서,

상기 하나 이상의 양자화 테이블을 스케일링하는 상기 단계는 루마(luma) 양자화 테이블 및 크로마(chroma) 양자화 테이블을 스케일링하는 단계를 포함하며, 상기 크로마 양자화 테이블은 상기 루마 양자화 테이블 보다 더 많이 스케일링되는, 디지털 이미지 데이터 처리 방법.
제3항에 있어서,

상기 루마 양자화 테이블 및 상기 크로마 양자화 테이블을 스케일링하는 상기 단계는

상기 계산된 스케일링 인자만큼 상기 루마 양자화 테이블의 제1 부분을 스케일링하는 단계; 및

제2 스케일링 인자만큼 상기 루마 양자화 테이블 및 상기 크로마 양자화 테이블의 제2 부분을 스케일링하는 단계를 포함하며,

상기 제2 스케일링 인자는 상기 계산된 스케일링 인자의 함수로서 결정되며,

상기 계산된 스케일링 인자 및 제2 스케일링 인자는 1 이상이며, 상기 계산된 스케일링 인자는 상기 제2 스케일링 인자보다 작은, 디지털 이미지 데이터 처리 방법.
제4항에 있어서,

루마 양자화 테이블의 저주파수 양자화 엔트리들에서 시작하여, 뒤이어 루마 양자와 테이블의 고주파수 양자화 엔트리들로, 그리고 뒤이어 크로마 양자화 테이블의 저주파수 양자화 엔트리들로, 그리고 뒤이어 크로마 양자화 테이블의 고주파수 양자화 엔트리들로의 단일 시퀀스로 상기 루마 양자화 테이블 및 상기 크로마 양자화 테이블의 양자화 엔트리들을 정렬(order)하는 단계;

상기 계산된 스케일링 인자만큼 상기 시퀀스의 첫 번째 k개의 양자화 엔트리들을 스케일링하는 단계; 및

상기 제2 스케일링 인자만큼 나머지 N-k개의 양자화 엔트리들을 스케일링하는 단계를 더 포함하며,

상기 N은 상기 시퀀스의 양자화 엔트리들의 총 수인, 디지털 이미지 데이터 처리 방법.
제1항에 있어서,

상기 하나 이상의 비트들을 제거하는 상기 단계는

2의 거듭제곱(power of two)과 동일하거나 또는 이에 근접한 값들을 갖는 하나 이상의 양자화된 변환 계수들을 선택하는 단계; 및

상기 선택된 양자화된 변환 계수들이 그 각각의 상기 2의 거듭제곱 미만이 될 때까지 상기 하나 이상의 선택된 양자화된 변환 계수들을 감소시키는 단계를 포함하는, 디지털 이미지 데이터 처리 방법.
제6항에 있어서,

2의 거듭제곱과 동일하거나 또는 이에 근접한 값들을 갖는 하나 이상의 양자화된 변환 계수들을 선택하는 상기 단계는 그 각각의 상기 2의 거듭제곱 미만인 값으로 감소될 때 0과 동일하지 않을 하나 이상의 양자화된 변환 계수들을 선택하는 단계를 포함하는, 디지털 이미지 데이터 처리 방법.
제1항에 있어서,

하나 이상의 비트들을 제거하는 상기 단계는

하나 이상의 비트들의 스터핑(stuffing)을 필요로 하는 마커로서 동작하기 위한 방식으로 배열된 복수의 비트들을 포함하는 적어도 하나의 비트 시퀀스를 식별하는 단계; 및

상기 비트 시퀀스들이 더 이상 마커로서 동작하지 않도록 잔여(residue)에 대응하는 비트 시퀀스의 복수의 비트들 중 적어도 하나를 변경하는 단계를 포함하는, 디지털 이미지 데이터 처리 방법.
제1항에 있어서,

상기 차이가 상기 임계치 미만으로 떨어질 때, 하나 이상의 추가적인 비트들 을 제거하지 않고 상기 하나 이상의 스케일링된 양자화 테이블을 사용하여 상기 이미지 데이터 블록들을 인코딩하는 단계를 더 포함하는, 디지털 이미지 데이터 처리 방법.
디지털 이미지 데이터를 처리하기 위한 장치로서,

상기 디지털 이미지 데이터의 복수의 화소 블록들을 인코딩하는데 사용할 하나 이상의 양자화 테이블을 저장하는 메모리; 및

계산된 스케일링 인자의 함수로서 하나 이상의 양자화 테이블을 스케일링하고, 상기 하나 이상의 스케일링된 양자화 테이블을 사용하여 상기 디지털 이미지 데이터의 복수의 화소 블록들을 인코딩하고, 상기 디지털 이미지 데이터의 복수의 화소 블록들 중 n번째 블록에서 인코딩된 비트들의 수 및 타겟 비트 레이트를 달성하기 위해서 상기 n번째 블록에서 이상적으로 인코딩되어야 하는 비트들의 수 사이의 차이를 트랙킹하고, 그리고 상기 차이가 임계치 이상이면 상기 이미지 데이터의 상기 복수의 블록들 중 일부를 인코딩하는데 사용되는 하나 이상의 비트들을 제거하는 인코딩 모듈을 포함하는, 디지털 이미지 데이터 처리 장치.
제10항에 있어서,

상기 인코딩 모듈은 루마 양자화 테이블의 저주파수 양자화 엔트리들에서 시작하여, 뒤이어 루마 양자와 테이블의 고주파수 양자화 엔트리들로, 그리고 뒤이어 크로마 양자화 테이블의 저주파수 양자화 엔트리들로, 그리고 뒤이어 크로마 양자 화 테이블의 고주파수 양자화 엔트리들로의 단일 시퀀스로 상기 루마 양자화 테이블 및 상기 크로마 양자화 테이블의 양자화 엔트리들을 정렬(order)하고, 상기 계산된 스케일링 인자만큼 상기 시퀀스의 첫 번째 k개의 양자화 엔트리들을 스케일링하고, 그리고 상기 제2 스케일링 인자만큼 나머지 N-k개의 양자화 엔트리들을 스케일링하며,

상기 N은 상기 시퀀스의 양자화 엔트리들의 총 수이며, 상기 계산된 스케일링 인자 및 제2 스케일링 인자는 1 이상이며, 상기 계산된 스케일링 인자는 상기 제2 스케일링 인자보다 작은, 디지털 이미지 데이터 처리 장치.
제10항에 있어서,

상기 인코딩 모듈은 2의 거듭제곱(power of two)과 동일하거나 또는 이에 근접한 값들을 갖는 하나 이상의 양자화된 변환 계수들을 선택하고, 그리고 상기 선택된 양자화된 변환 계수들이 그 각각의 상기 2의 거듭제곱 미만이 될 때까지 상기 하나 이상의 선택된 양자화된 변환 계수들을 감소시키는, 디지털 이미지 데이터 처리 장치.
제10항에 있어서,

상기 인코딩 모듈은 하나 이상의 비트들의 스터핑(stuffing)을 필요로 하는 마커로서 동작하기 위한 방식으로 배열된 복수의 비트들을 포함하는 적어도 하나의 비트 시퀀스를 식별하고, 상기 비트 시퀀스들이 더 이상 마커로서 동작하지 않도록 잔여(residue)에 대응하는 비트 시퀀스의 복수의 비트들 중 적어도 하나를 변경하는, 디지털 이미지 데이터 처리 장치.
제10항에 있어서,

상기 인코딩 모듈은 상기 차이가 상기 임계치 미만으로 떨어질 때, 하나 이상의 추가적인 비트들을 제거하지 않고 상기 하나 이상의 스케일링된 양자화 테이블을 사용하여 상기 이미지 데이터 블록들을 인코딩하는 것을 재개하는, 디지털 이미지 데이터 처리 장치.
제10항에 있어서,

상기 장치는 무선 통신 장치 핸드셋 내에 통합되며, 상기 무선 통신 장치 핸드셋은 상기 인코딩된 화소 블록들을 전송하기 위한 전송기를 더 포함하는, 디지털 이미지 데이터 처리 장치.
디지털 이미지 데이터를 처리하기 위한 장치로서,

계산된 스케일링 인자의 함수로서 하나 이상의 양자화 테이블을 스케일링하기 위한 수단;

상기 하나 이상의 스케일링된 양자화 테이블을 사용하여 상기 디지털 이미지 데이터의 복수의 화소 블록들을 인코딩하기 위한 수단;

상기 디지털 이미지 데이터의 복수의 화소 블록들 중 n번째 블록에서 인코딩 된 비트들의 수 및 타겟 비트 레이트를 달성하기 위해서 상기 n번째 블록에서 이상적으로 인코딩되어야 하는 비트들의 수 사이의 차이를 트랙킹하기 위한 수단; 및

상기 차이가 임계치 이상이면 상기 이미지 데이터의 상기 복수의 블록들 중 일부를 인코딩하는데 사용되는 하나 이상의 비트들을 제거하기 위한 수단을 포함하는, 디지털 이미지 데이터 처리 장치.
컴퓨터 판독가능한 매체를 포함하는 디지털 이미지 데이터를 처리하기 위한 컴퓨터 프로그램 물건으로서, 상기 컴퓨터 판독가능한 매체는 상기 컴퓨터 판독가능한 매체 상에 저장된 명령들을 포함하며, 상기 명령들은

계산된 스케일링 인자의 함수로서 하나 이상의 양자화 테이블을 스케일링하기 위한 코드;

상기 하나 이상의 스케일링된 양자화 테이블을 사용하여 상기 디지털 이미지 데이터의 복수의 화소 블록들을 인코딩하기 위한 코드;

상기 디지털 이미지 데이터의 복수의 화소 블록들 중 n번째 블록에서 인코딩된 비트들의 수 및 타겟 비트 레이트를 달성하기 위해서 상기 n번째 블록에서 이상적으로 인코딩되어야 하는 비트들의 수 사이의 차이를 트랙킹하기 위한 코드; 및

상기 차이가 임계치 이상이면 상기 이미지 데이터의 상기 복수의 블록들 중 일부를 인코딩하는데 사용되는 하나 이상의 비트들을 제거하기 위한 코드를 포함하는, 컴퓨터 프로그램 물건.
제17항에 있어서,

상기 명령들은

초기에 인코딩된 상기 이미지 데이터의 비트 레이트, 초기에 인코딩된 상기 이미지 데이터의 제로 값을 갖는 양자화된 변환 계수들의 수, 및 타겟 비트 레이트 에 기반하여 상기 타겟 레이트를 달성하기 위해서, 제로 값을 갖는 양자화된 변환 계수들의 요구되는 수를 식별하기 위한 코드; 및

상기 제로 값을 갖는 양자화된 변환 계수들의 요구되는 수에 기반하여 상기 하나 이상의 양자화 테이블을 스케일링하는데 사용할 스케일링 인자를 계산하기 위한 코드를 더 포함하는, 컴퓨터 프로그램 물건.
제17항에 있어서,

상기 하나 이상의 양자화 테이블을 스케일링하기 위한 상기 코드는 루마(luma) 양자화 테이블 및 크로마(chroma) 양자화 테이블을 스케일링하기 위한 코드를 포함하며, 상기 크로마 양자화 테이블은 상기 루마 양자화 테이블 보다 더 많이 스케일링되는, 컴퓨터 프로그램 물건.
제19항에 있어서,

상기 루마 양자화 테이블 및 상기 크로마 양자화 테이블을 스케일링하기 위한 상기 코드는

상기 계산된 스케일링 인자만큼 상기 루마 양자화 테이블의 제1 부분을 스케 일링하기 위한 코드; 및

제2 스케일링 인자만큼 상기 루마 양자화 테이블 및 상기 크로마 양자화 테이블의 제2 부분을 스케일링하기 위한 코드를 포함하며,

상기 제2 스케일링 인자는 상기 계산된 스케일링 인자의 함수로서 결정되며,

상기 계산된 스케일링 인자 및 제2 스케일링 인자는 1 이상이며, 상기 계산된 스케일링 인자는 상기 제2 스케일링 인자보다 작은, 컴퓨터 프로그램 물건.
제20항에 있어서,

상기 루마 양자화 테이블 및 상기 크로마 양자화 테이블을 스케일링하기 위한 상기 코드는

루마 양자화 테이블의 저주파수 양자화 엔트리들에서 시작하여, 뒤이어 루마 양자와 테이블의 고주파수 양자화 엔트리들로, 그리고 뒤이어 크로마 양자화 테이블의 저주파수 양자화 엔트리들로, 그리고 뒤이어 크로마 양자화 테이블의 고주파수 양자화 엔트리들로의 단일 시퀀스로 상기 루마 양자화 테이블 및 상기 크로마 양자화 테이블의 양자화 엔트리들을 정렬(order)하기 위한 코드;

상기 계산된 스케일링 인자만큼 상기 시퀀스의 첫 번째 k개의 양자화 엔트리들을 스케일링하기 위한 코드; 및

상기 제2 스케일링 인자만큼 나머지 N-k개의 양자화 엔트리들을 스케일링하기 위한 코드를 포함하며,

상기 N은 상기 시퀀스의 양자화 엔트리들의 총 수인, 컴퓨터 프로그램 물건.
제17항에 있어서,

상기 하나 이상의 비트들을 제거하기 위한 상기 코드는

2의 거듭제곱(power of two)과 동일하거나 또는 이에 근접한 값들을 갖는 하나 이상의 양자화된 변환 계수들을 선택하기 위한 코드; 및

상기 선택된 양자화된 변환 계수들이 그 각각의 상기 2의 거듭제곱 미만이 될 때까지 상기 하나 이상의 선택된 양자화된 변환 계수들을 감소시키기 위한 코드를 포함하는, 컴퓨터 프로그램 물건.
제22항에 있어서,

2의 거듭제곱과 동일하거나 또는 이에 근접한 값들을 갖는 하나 이상의 양자화된 변환 계수들을 선택하기 위한 상기 코드는 그 각각의 상기 2의 거듭제곱 미만인 값으로 감소될 때 0과 동일하지 않을 하나 이상의 양자화된 변환 계수들을 선택하기 위한 코드를 포함하는, 컴퓨터 프로그램 물건.
제17항에 있어서,

하나 이상의 비트들을 제거하기 위한 상기 코드는

하나 이상의 비트들의 스터핑(stuffing)을 필요로 하는 마커로서 동작하기 위한 방식으로 배열된 복수의 비트들을 포함하는 적어도 하나의 비트 시퀀스를 식별하기 위한 코드; 및

상기 비트 시퀀스들이 더 이상 마커로서 동작하지 않도록 잔여(residue)에 대응하는 비트 시퀀스의 복수의 비트들 중 적어도 하나를 변경하기 위한 코드를 포함하는, 컴퓨터 프로그램 물건.
제17항에 있어서,

상기 차이가 상기 임계치 미만으로 떨어질 때, 하나 이상의 추가적인 비트들을 제거하지 않고 상기 하나 이상의 스케일링된 양자화 테이블을 사용하여 상기 이미지 데이터 블록들을 인코딩하는 것을 재개하기 위한 코드를 더 포함하는, 컴퓨터 프로그램 물건.