KR20080015831A

KR20080015831A - 다층 비디오 설계를 위한 레이트 제어

Info

Publication number: KR20080015831A
Application number: KR1020077028262A
Authority: KR
Inventors: 페이송 천; 타오 티안; 비자얄라크시미 알 라빈드란
Original assignee: 퀄컴 인코포레이티드
Priority date: 2005-05-03
Filing date: 2006-05-03
Publication date: 2008-02-20
Also published as: JP5384694B2; EP1884027A2; US20080144723A1; US7974341B2; JP2008541570A; CN101208873A; WO2006119436A2; TW200718215A; WO2006119436A3; KR100942395B1; CN101208873B; JP2012178864A; EP1884027A4

Abstract

라이브 비디오 스트림 등의 멀티미디어 데이터를 효율적으로 인코딩하는 방법 및 장치가 개시된다. 멀티미디어 데이터는 다수의 층으로 사전-인코딩되고, 사전-인코딩된 데이터의 특성이 결정된다. 결정된 특성에 적어도 부분적으로 기초하여, 멀티미디어 데이터는 다수의 층으로 인코딩된다.

라이브 비디오 스트림, 멀티미디어 데이터, 사전-인코딩, 인코딩

Description

다층 비디오 설계를 위한 레이트 제어{RATE CONTROL FOR MULTI-LAYER VIDEO DESIGN}

35.U.S.C. §119 하의 우선권 주장

특허를 위한 본 출원은 2005년 5월 3일자로 출원되고, 그 양수인에게 양도되고, 여기에 참조로 명백히 포함된, 그 명칭이 "2층 비디오 설계를 위한 레이트 제어" 인 가출원 번호 제 60/677,608 호에 대한 우선권을 주장한다.

배경

분야

본 발명은 강화층 프레임의 구성을 위한 베이스 층 모듈의 효율적인 재사용으로 스케일러블 멀티미디어 데이터를 인코딩 및 디코딩하는 방법 및 장치에 관한 것이다.

배경

멀티미디어 서비스에 대한 증가하는 수요 뿐아니라 인터넷 및 무선 통신의 폭발적인 성장 및 큰 성공에 기인하여, 인터넷 및 이동/무선 채널을 통해 미디어를 스트리밍하는 것은 상당한 주목을 끌어왔다. 이질적인 인터넷 프로토콜 (IP) 네트워크에서, 비디오는 서버에 의해 제공되고 한 명 이상의 클라이언트에 의해 스트리밍될 수 있다. 유선 접속은 다이얼-업, ISDN, 케이블, xDSL, 파이버, LAN (local area network), WAN (wide area network) 등을 포함한다. 송신 모드는 유니-캐스트 또는 멀티-캐스트 중 어느 하나일 수 있다. PDA (personal digital assistant), 랩탑, 데스크탑, 셋-탑 박스, TV, HDTV (high-definition television) 를 포함하는 다양한 개개의 클라이언트 디바이스는 동일한 콘텐츠에 대해 동시에 상이한 대역폭의 비트스트림을 요구한다. 접속 대역폭은 (9.6kbps 로부터 100 Mbps 이상 까지) 시간에 따라 빠르게 변할 수 있고, 서버의 반응보다 더 빠를 수 있다.

이동/무선 통신은 이질적인 IP 네트워크와 유사하다. 이동/무선 채널을 통한 멀티미디어 콘텐츠의 전송은, 이들 채널이 종종 멀티-패스 페이딩, 섀도우잉, 심볼간 간섭, 및 노이즈 방해 등에 기인하여 심각하게 손상되기 때문에 매우 도전하고 있다. 이동성 및 경쟁하는 트래픽 등의 일부 다른 이유도 대역폭 변동 및 손실을 초래한다. 채널 노이즈 및 서비스되고 있는 사용자의 수는 채널 환경의 시변 특성을 결정한다. 환경 조건 뿐아니라, 목적지 네트워크는 이동 로밍 뿐아니라 지리적 위치에 기인하여 제 2 내지 제 3 세대 셀룰러 네트워크로부터 광대역 데이터 전용 네트워크까지 변할 수 있다. 이들 모든 변수들은, 심지어 전송 중에도, 멀티미디어 콘텐츠에 대한 적응형 레이트 조정을 요구한다. 따라서, 이질적인 유선/무선 네트워크를 통한 비디오의 성공적인 송신은, 손실에 탄력적이면서, 변화하는 네트워크 조건, 디바이스 특성, 및 사용자 선호도에 대한 적응성 뿐아니라 효율적인 코딩을 요구한다.

상이한 사용자 요구를 충족시키고 채널 변화에 적응하기 위하여, 각각이 송신 대여폭, 사용자 디스플레이 및 계산 능력에 기초하여 일 계층의 제한을 충족시 키는 비트스트림의 다수의 독립 버전을 발생시킬 수 있지만, 이것은 서버 기억장치 및 멀티캐스트 애플리케이션에 대해 효율적이지 않다. 하이-엔드 사용자를 수용하는 단일 매크로-비트스트림이 서버에서 구축되는 스케일러블 코딩에서, 로우-엔드 애플리케이션에 대한 비트스트림이 매크로-비트스트림의 서브세트로서 임베딩된다. 이와 같이, 단일 비트스트림은 서브 비트스트림을 선택적으로 송신함으로써 다양한 애플리케이션 환경에 적응될 수 있다. 스케일러블 코딩에 의해 제공된 또 다른 이점은 에러의 경향이 있는 채널상에서의 로버스트 비디오 전송이다. 에러 보호 및 에러 은폐가 수행될 수 있다. 더욱 신뢰성 있는 송신 채널 또는 더욱 양호한 에러 보호가 가장 중요한 정보를 포함하는 베이스 층 비트에 적용될 수 있다.

MPEG-1, MPEG-2, MPEG-4 (집합적으로 MPEG-x 로 지칭됨), H.261, H.262, H263, 및 H264 (집합적으로 H.26x 로 지칭됨) 과 같은 하이브리드 코더에는 시간, 공간 및 신호 대 잡음비 (SNR) 확장성 (scalability) 이 있다. 하이브리드 코딩에 있어서, 시간 리던던시는 모션-보상 예측 (MCP) 에 의해 제거된다. 비디오는 통상 일련의 화상 그룹 (GOP: group of pictures) 으로 분할되고, 여기서 각각의 GOP 는 순향향 예측 프레임 (P) 및 양방향 예측 프레임 (B) 의 배열이 뒤따르는 인트라-코딩된 프레임 (I) 으로 시작한다. P-프레임 및 B-프레임 양자는 인터-프레임이다. B 프레임은 코더와 같은 대부분의 MPEG 에서의 시간 확장성에 대한 열쇠이다. 그러나, MPEG-4 심플 프로파일 및 H.264 베이스라인 프로파일 등의 일부 프로파일은 B 프레임을 지원하지 않는다. MPEG-4 표준은 ISO/IEC 14496-2 에 기술되어 있다. H.264 표준은 ISO/IEC 14496-10 에 기술되어 있다.

MPEG-4 에서, 프로파일 및 레벨은 특정의 비트스트림을 디코딩하는데 요구되는 디코더 성능에 기초하여 신택스 (syntax) 및 시맨틱스 (semantics) 의 서브세트를 정의하는 수단을 제공한다. 프로파일은 전체 비트스트림 신택스의 정의된 서브세트이다. 레벨은 비트스트림 내의 파라미터에 부과된 제한의 정의된 세트이다. 임의의 주어진 프로파일에 대해, 레벨은 일반적으로 디코더 처리 부하 및 메모리 용량에 대응한다. 따라서, 프로파일 및 레벨은 비트스트림 상의 제한을 특정하여 비트스트림을 디코딩하는 성능을 제한한다. 일반적으로, 디코더는 그것이 주어진 레벨에서 주어진 프로파일의 모든 신택스 요소의 모든 허용된 값을 적절히 디코딩할 수 있다면, 그 레벨에서 그 프로파일에 따르는 것으로 생각될 수 있다.

요약

다수의 층으로 비디오 스트림의 스케일러블 코딩을 가능하게 하는 비디오 인코딩 및 디코딩 시스템이 기술된다. 베이스층 인코딩 및 강화층 인코딩의 품질은, 베이스층 및 강화층에 대한 송신 대역폭이 비율 등의 수학적 관계를 만족시키도록 변경될 수 있다.

일 예는 멀티미디어 데이터를 적어도 제 1 및 제 2 층으로 인코딩하는 방법이고, 여기서 제 1 및 제 2 층의 각각은 관련된 송신 대역폭을 갖는다. 그 방법은 멀티미디어 데이터의 하나 이상의 특성화 파라미터들을 발생시키기 위해 멀티미디어 데이터를 사전-인코딩하는 단계, 및 적어도 제 1 및 제 2 층을 발생시키기 위해 멀티미디어 데이터를 인코딩하는 단계를 포함하고, 여기서 관련된 송신 대역폭들은, 관련된 송신 대역폭들이 수학적 관계를 실질적으로 만족시키도록 특성화 파라미터들에 적어도 부분적으로 기초하여 결정된다.

또 다른 예는 멀티미디어 데이터를 적어도 제 1 및 제 2 층으로 인코딩하도록 구성된 멀티미디어 데이터 인코딩 장치이고, 여기서 제 1 및 제 2 층의 각각은 대응하는 송신 대역폭을 갖는다. 그 장치는 멀티미디어 데이터의 하나 이상의 특성화 파라미터들을 발생시키기 위해 멀티미디어 데이터를 사전-인코딩하도록 구성된 사전-인코더, 및 적어도 제 1 및 제 2 층을 발생시키기 위해 멀티미디어 데이터를 인코딩하도록 구성된 인코더를 포함하고, 여기서 대응하는 송신 대역폭들은, 대응하는 송신 대역폭들이 수학적 관계를 실질적으로 만족시키도록 특성화 파라미터들에 적어도 부분적으로 기초하여 결정된다.

또 다른 예는 멀티미디어 데이터를 적어도 제 1 및 제 2 층으로 인코딩하도록 구성된 멀티미디어 데이터 인코딩 장치이고, 여기서 제 1 및 제 2 층의 각각은 대응하는 송신 대역폭을 가지며, 그 장치는 멀티미디어 데이터의 하나 이상의 특성화 파라미터들를 발생시키기 위해 멀티미디어 데이터를 사전-인코딩하는 수단, 및 적어도 제 1 및 제 2 층을 발생시키기 위해 멀티미디어 데이터를 인코딩하는 수단을 포함하고, 여기서 대응하는 송신 대역폭들은, 대응하는 송신 대역폭들이 수학적 관계를 실질적으로 만족시키도록 특성화 파라미터들에 적어도 부분적으로 기초하여 결정된다.

또 다른 예는 실행시 시스템으로 하여금 멀티미디어 데이터를 적어도 제 1 및 제 2 층으로 인코딩하는 방법을 수행하도록 하는 명령을 포함하는 컴퓨터 판독가능 매체이고, 여기서 제 1 및 제 2 층의 각각은 대응하는 송신 대역폭을 갖는다. 상기 방법은 멀티미디어 데이터의 하나 이상의 특성화 파라미터들을 발생시키기 위해 멀티미디어 데이터를 사전-인코딩하는 단계, 및 적어도 제 1 및 제 2 층을 발생시키기 위해 멀티미디어 데이터를 인코딩하는 단계를 포함하고, 여기서 대응하는 송신 대역폭들은, 대응하는 송신 대역폭들이 수학적 관계를 실질적으로 만족시키도록 특성화 파라미터들에 적어도 부분적으로 기초하여 결정된다.

또 다른 예는 멀티미디어 데이터의 하나 이상의 특성화 파라미터들을 발생시키기 위해 멀티미디어 데이터를 사전-인코딩하고, 적어도 제 1 및 제 2 층을 발생시키기 위해 멀티미디어 데이터를 인코딩하도록 구성된 프로세서이다. 대응하는 송신 대역폭들은, 대응하는 송신 대역폭들이 수학적 관계를 실질적으로 만족시키도록 특성화 파라미터들에 적어도 부분적으로 기초하여 결정된다.

도면의 간단한 설명

도 1은 스트리밍 화상을 인코딩 및 디코딩하는 통신 시스템의 블록도이다.

도 2a 는 종래의 MPEG-4 심플 프로파일 데이터 스트림을 나타내는 다이어그램이다.

도 2b 는 시간 확장성을 가능하게 하는 종래의 인코딩된 데이터 스트림을 나타내는 다이어그램이다.

도 3은 MPEG-4 에서의 P 프레임 구성 프로세스의 일 예를 나타내는 도면이다.

도 4는 대여폭 할당 방법론을 나타내는 대역폭 할당 다이어그램이다.

도 5는 멀티미디어 데이터를 인코딩하는 방법을 나타내는 흐름도이다.

도 6은 비트스트림의 그래픽 표현이다.

상세한 설명

베이스층 인코딩의 품질 및 강화층 인코딩의 품질이, 그 베이스층 및 강화층에 대한 송신 대역폭이 비율 등의 소정의 수학식 관계를 만족시키도록 조정될 수 있는, 스케일러블 비디오 코딩된 데이터를 제공하도록 구성된 방법, 장치 및 시스템이 기술된다. 비디오 프레임은 미가공 데이터를 특징화할 목적으로 사전-인코딩 품질로 사전-인코딩될 수 있다. 그 후, 미가공 데이터의 특징화에 기초하여, 프레임은 수퍼-프레임 (예를 들어, 멀티미디어 데이터의 1/2) 에 걸쳐 베이스층 및 강화층에 대한 대역폭이 1:1 비율 등의 특정의 수학적 관계를 만족시키도록 인코딩될 수 있다.

다음의 상세한 설명에서, 특정의 상세는 예들의 철저한 이해를 제공하도록 주어진다. 그러나, 당업자라면 그 예들이 이들 특정의 상세 없이 실시될 수 있다는 것을 이해할 것이다. 예를 들어, 전기적 컴포넌트는 불필요한 상세로 예들을 모호하게 하지 않도록 블록도에 도시되지 않을 수도 있다. 다른 경우에, 그러한 컴포넌트, 다른 구조 및 기술은 예를 더욱 상세히 설명하도록 상세히 도시될 수도 있다.

또한, 그 예들은 흐름도, 플로우 다이어그램, 구조 다이어그램, 또는 블록도로서 나타낸 프로세스로서 기술될 수도 있다. 비록 흐름도가 동작을 순차적인 프로세스로서 기술할 수 있을지라도, 많은 동작은 병렬로 또는 동시에 수행될 수 있고 프로세스는 반복될 수 있다. 또한, 동작의 순서는 재배열될 수도 있다. 프로세스는 그것의 동작이 완료될 때 종료된다. 프로세스는 방법, 함수, 프로시져, 서브루틴, 서브프로그램 등에 대응할 수도 있다. 프로세스가 함수에 대응하는 경우, 그것의 종료는 호출 함수 또는 메인 함수로의 그 함수의 리턴에 대응한다.

MPEG-x 및 H.26x 로서 알려진 한 쌍의 비디오 코딩 표준은 고정 또는 가변 길이 소스 코딩 기술을 사용하여 비디오, 오디오 및 다른 정보의 압축 및 전달에 잘 적응된 데이터 처리 및 조작 기술 (여기서 하이브리드 코딩으로 지칭함) 을 기술한다. 특히, 상술된 표준, 및 다른 하이브리드 코딩 표준 및 기술은 예시적으로 (예를 들어, 런-길이 (run-length) 코딩, 허프만 코딩 등의) 인트라-프레임 코딩 기술 및 (예를 들어, 순방향 및 역방향 예측 코딩, 모션 보상 등의) 인터-프레임 코딩 기술을 사용하여 비디오 정보를 압축한다. 특히, 비디오 처리 시스템의 경우, 하이브리드 비디오 코딩 시스템은 인트라-프레임 및/또는 인터-프레임 모션 보상 인코딩을 갖는 비디오 프레임의 예측 기반 압축 인코딩을 특징으로 한다.

인트라-프레임은 임의의 다른 화상을 참조하지 않고 화상 (필드 또는 프레임) 을 인코딩하는 것을 지칭하지만, 인트라-코딩된 화상은 다른 화상을 위한 참조로서 사용될 수 있다. 용어 인트라-프레임, 인트라-코딩된 프레임 및 I 프레임은 모두 본 출원을 통해 사용되는, 인트라-코딩으로 형성된 비디오-객체의 예이다.

인터 또는 예측 코딩은 다른 화상을 참조하여 화상 (필드 또는 프레임) 을 인코딩하는 것을 지칭한다. 인트라-코딩된 화상에 비하여, 인터-코딩된 또는 예측된 화상은 더욱 큰 효율로 코딩될 수도 있다. 본 출원을 통해 사용될 인터-코딩된 화상의 예는 (순방향 또는 역방향으로 예측되고, 또한 P 프레임으로 지칭되는) 예측된 프레임, 및 (B 프레임으로 지칭되는) 양방향으로 예측된 프레임이다. 인터-코딩에 대한 다른 용어는 하이-패스 코딩, 잔류 코딩, 모션 보상 인터폴레이션 및 당업자에게 잘 알려진 다른 것을 포함한다.

스케일러블 코딩으로 알려진 기술은 인코딩된 데이터를 예를 들어 베이스층 및 강화층 등의 비트스트림에서의 상이한 층으로 분할할 수 있다. 스케일러블 코딩은 스케일러블 비트스트림이 네트워크 대역폭의 변동에 매칭하도록 적응될 수 있는 동적 채널에 유용하다. 에러 경향성 채널에 있어서, 스케일러블 코딩은 베이스층 및 강화층에 대한 상이한 에러 보호를 통해 강건성 (robustness) 을 부가할 수 있다. 더욱 양호한 에러 보호가 더욱 중요한 층에 적용될 수 있다.

도 1은 스트리밍 화상을 인코딩 및 디코딩하는 통신 시스템의 블록도이다. 시스템 (100) 은 인코더 디바이스 (105) 및 디코더 디바이스 (110) 를 포함한다. 인코더 디바이스 (105) 는 인코딩 컴포넌트 (120), 사전-인코딩 컴포넌트 (125), 메모리 컴포넌트 (130) 및 통신 컴포넌트 (175) 를 포함한다. 인코더 디바이스 (105) 는 통신 컴포넌트 (175) 에 포함된 통신 로직을 사용하여 외부 소스 (135) 로부터 데이터를 수신할 수 있다. 외부 소스 (135) 는 예를 들어 외부 메모리, 인터넷, 라이브 비디오 및/또는 오디오 피드일 수 있고, 데이터를 수신하는 것은 유선 및/또는 무선 통신을 포함할 수 있다. 외부 소스 (135) 에 포함된 데이터는 미가공 (인코딩되지 않은) 또는 인코딩된 상태에 있을 수 있다. 사전-인코딩 컴포넌트 (125) 는 데이터의 초기 인코딩을 수행하고, 미가공 데이터를 특징화하는 하나 이상의 파라미터를 발생시키도록 구성된다. 복잡도 메트릭 등의 특징화 파라미터가 사전-인코딩 컴포넌트 (125) 에 의해 발생될 수 있다. 인코딩 컴포넌트 (120) 는 사전-인코딩 컴포넌트 (125) 에서 발생된 특징화 파라미터에 기초하여 미가공 데이터를 인코딩하도록 구성된다. 사전-인코딩 컴포넌트 (125) 및 인코딩 컴포넌트 (120) 각각은 순방향 예측, 역방향 예측, 및 양방향 예측을 포함하여 프레임의 인트라-코딩된 부분 및 프레임의 예측된 부분 양자를 인코딩하도록 구성된다.

사전-인코딩 컴포넌트 (125) 및 인코딩 컴포넌트 (120) 각각은 멀티미디어 데이터의 어느 부분이 인트라-코딩되어야 하고, 어느 부분이 인터-코딩되어야 하는 지를 결정하도록 구성된다. 사전-인코딩 컴포넌트 (125) 및 인코딩 컴포넌트 (120) 각각은 비디오의 어느 부분이 낮은 우선권이고 강화층에 위치되어야 하고, 어느 부분이 높은 우선권이고 베이스층에 위치되어야 하는 지를 결정하도록 구성된다. 사전-인코딩 컴포넌트 (125) 및 인코딩 컴포넌트 (120) 각각은 매크로블록 (또는 서브-매크로블록) 이 인트라-코딩되는 것으로 또는 인터-코딩되는 것으로 식별되는 (또한 예를 들어 순방향, 역방향 또는 양방향을 포함하는 인터-코딩의 어느 형태를 식별하는) 및 인터-코딩된 부분이 어느 프레임을 참조하는지가 식별되는, 예를 들어, 매크로-블록 맵 등의 인트라 코딩된 부분 및 인터-코딩된 부분의 맵을 포함할 수 있는 오버헤드 정보를 인코딩하도록 구성된다. 인코딩 후, 인코딩된 프레임은 메모리 컴포넌트 (130) 또는 외부 메모리에 저장된다. 외부 메모리는 외부 소스 (135) 내에 포함될 수 있거나 개별 메모리 컴포넌트 (도시하지 않음) 일 수 있다.

통신 컴포넌트 (175) 는 네트워크 (140) 와 함께 데이터 송신 (Tx) 에 사용되는 로직을 포함한다. 네트워크 (140) 는 전화, 케이블 및 광 섬유 등의 유선 시스템, 또는 무선 시스템의 부분일 수 있다. 무선 통신 시스템의 경우, 네트워크 (140) 는 예를 들어 코드분할 다중접속 (CDMA 또는 CDMA2000) 통신 시스템의 부분을 포함할 수 있고, 또는 대안적으로 그 시스템은 주파수분할 다중접속 (FDMA) 시스템, 직교주파수분할 다중접속 (OFDMA) 시스템, GSM/GPRS (General Packet Radio Service)/EDGE (enhanced data GSM environment) 또는 서비스 산업용 TETRA (Terrestrial Trunked Radio) 이동 전화 기술 등의 시분할 다중접속 (TDMA) 시스템, 광대역 코드분할 다중접속 (WCDMA), 고 데이터 레이트 (1xEV-DO 또는 1xEV-DO 골드 멀티캐스트) 시스템, 또는 일반적으로 기술들의 결합을 채용하는 임의의 무선 통신 시스템일 수 있다. 인코딩된 프레임은 네트워크 (140) 를 통해 송신된다 (Tx). 인코더 디바이스 (105) 에 의해 수행된 인코딩 프로세스가 이하에 더욱 상세히 설명된다.

디코더 디바이스 (110) 는 디코딩 컴포넌트 (150), 메모리 컴포넌트 (160) 및 통신 컴포넌트 (180) 를 포함하여, 인코더 디바이스 (105) 와 유사한 컴포넌트를 포함한다. 디코더 디바이스 (110) 는 네트워크 (140) 를 통해 또는 외부 기 억장치 (165) 로부터 송신된 인코딩된 데이터를 수신한다. 통신 컴포넌트 (180) 는 외부 기억장치 (165) 로부터 인코딩된 데이터를 수신하기 위한 로직 뿐아니라, 네트워크 (140) 와 함께 인코딩된 데이터를 수신 (Rx) 하기 위해 사용되는 로직을 포함한다. 외부 기억장치 (165) 는 예를 들어 외부 RAM 또는 ROM, 또는 원격 서버일 수 있다. 디코딩 컴포넌트 (150) 는 인트라-코딩된 데이터, 및 인터-코딩된 데이터를 디코딩하는데 사용된다. 디코딩 컴포넌트 (150) 는 또한 B 프레임 뿐아니라 (순방향 또는 역방향으로 예측된) P 프레임의 양자를 디코딩한다.

디코딩 컴포넌트 (150) 는 또한 상술된 매크로블록 맵을 포함하여, 오버헤드 정보를 디코딩하고, 적절한 매크로블록을 적절한 방식으로 디코딩하도록 이러한 정보를 번역하기 위해 사용되는 로직을 포함한다. 디코딩 컴포넌트 (150) 는 또한 양방향으로 예측된 프레임 및/또는 낮은 우선권 멀티미디어 데이터를 포함하는 강화층 데이터의 디코딩을 스킵하는데 사용되는 로직을 포함한다. 강화층 데이터의 디코딩은, 예를 들어 강화층 데이터가 수신되지 않거나 열악하거나 불충분한 SNR 로 수신되는 경우, 및/또는 디코더 디바이스에서 처리 전력이 불충분한 경우, 스킵될 수 있다. 디코딩 후, 디코딩된 프레임은 디스플레이 컴포넌트 (170) 에 의해 디스플레이되거나 내부 메모리 (160) 또는 외부 기억장치 (165) 에 저장될 수 있다. 디스플레이 컴포넌트 (170) 는 디스플레이 스크린을 포함하여, 비디오 디스플레이 하드웨어 및 로직과 같은 부분을 포함하는 디코딩 디바이스의 통합된 부분일 수 있고, 또는 그것은 외부 주변 디바이스일 수 있다. 디코더 디바이스 (110) 에 의해 수행되는 디코딩 프로세스는 이하에 더욱 상세히 설명된다.

통상의 MPEG 디코더에서, 예측 코딩된 픽셀 블록 (즉, 하나 이상의 모션 벡터 및 잔류 에러 컴포너트를 포함하는 블록) 은 (인트라-프레임 또는 또 다른 예측된 프레임이 기준 프레임으로서 작용할 수 있는) 기준 프레임에 대해 디코딩된다. 도 2a 는 GOP 에 대한 프레임 종속성을 나타내는 종래의 MPEG-4 심플 프로파일 데이터 스트림을 나타내는 다이어그램이다. GOP (210) 는 수개의 순방향 예측된 P 프레임 (214) 이 뒤따르는 초기의 I 프레임 (212) 으로 구성된다. 이전의 I 또는 P 프레임에 대한 P 프레임의 종속성은 순방향 예측된 프레임만을 지원할 수 있는 시스템 (MPEG-4 심플 및 H.264 베이스라인 프로파일에 따르는 것 등의 시스템) 에 부여된 시간 확장성을 제한할 수 있다. 임의의 P 프레임 (214) 을 제거하는 것은 다른 P 프레임을 디코딩하는데 중대할 수도 있는 정보의 손실을 초래할 수도 있다. P 프레임 제거는 예를 들어, 다음 GOP 의 시작을 표시하는 다음 I 프레임 (216) 까지 디코딩을 계속하는 것에 대한 디코더의 불능 또는 비디오 지터를 초래할 수도 있다.

스케일러블 비디오 코딩 시스템의 강화층에서의 양방향 예측된 데이터의 사용은 상술된 동적 채널에서 유용할 수 있다. 도 2b 는 GOP 의 프레임 종속성을 나타내는 시간 확장성을 가능하게 하는 종래의 디코딩된 데이터 스트림을 나타내는 다이어그램이다. GOP (220) 는 I 프레임 (222A), 순방향 예측된 P 프레임 (224), 및 양방향 예측된 B 프레임 (226) 으로 구성된다. 각각의 B 프레임은 I 프레임 (222A) 또는 순방향 예측된 P 프레임 (224) 에 관련된 잔류 에러 및 순방향 및 역방향 모션 벡터를 결합할 수 있다 (역방향 예측된 P 프레임도 사용될 수 있지 만 본 예에서는 도시되지 않는다). I 프레임 (222B) 은 다음 GOP 의 시작을 표시한다. 도 2b 에 도시된 바와 같이, 단지 하나의 B 프레임 (226) 이 I 프레임 (222A) 과 P 프레임 (224) 사이 또는 두 개의 P 프레임 (224) 사이에 포함된다. 수개의 B 프레임은 시간 확장성에 있어서 더욱 큰 융통성을 허용하기 위해 기준 프레임 사이에 삽입될 수 있다. 어떤 다른 프레임도 기준 프레임으로서 B 프레임에 종속할 수 없기 때문에, 다른 프레임의 디코딩에 관한 정보의 손실 없이 B 프레임 (226) 을 제거할 수 있다. B 프레임 (226) 의 이러한 특성은 B 프레임 (226) 이 비트스트림 내로 삽입되는 것을 허용할 수 있고, 여기서 B 프레임 (226) 은 채널 조건, 대역폭 제한, 배터리 전력 뿐아니라 다른 고려를 수용하기 위해 인코더, 트랜스코더, 또는 디코더의 옵션에서 제거될 수 있다. 예를 들어, 만일 기준 프레임 사이에 세 개의 B 프레임이 존재한다면, 모든 세 개의 B 프레임을 제거할 수 있고 프레임 레이트를 3/4 만큼 감소시킬 수 있으며, B 프레임을 중간에 있도록 유지할 수 있고 다른 두 개를 제거하여 프레임 레이트를 1/2 만큼 감소시킬 수 있다. 데이터 레이트는 이에 따라 감소할 수 있다.

P 프레임 (또는 임의의 인터-코딩된 섹션) 은 현재의 화상 내의 영역과 기준 화상 내의 최선 매칭 예측 영역 사이의 시간적 리던던시를 활용할 수 있다. 현재의 영역과 최선 매칭 기준 예측 영역 사이의 차이는 잔류 에러 (또는 예측 에러) 로서 알려져 있다. 기준 프레임 내의 최선 매칭 예측 영역의 위치는 모션 벡터에서 인코딩될 수 있다. 도 3은 예를 들어 MPEG-4 에서 P 프레임 구성 프로세스의 예의 도면이다. 프로세스 (300) 는 5 × 5 매크로블록으로 구성된 현재의 화상 (305) 을 포함하며, 여기서 이러한 예에서의 매크로블록의 수는 임의적이다. 매크로블록은 16 × 16 픽셀로 구성된다. 픽셀은 8-비트 휘도값 (Y) 및 두 개의 8-비트 색차값 (Cr 및 Cb) 에 의해 정의될 수 있다. MPEG 에서, Y, Cr 및 Cb 컴포넌트는 4:2:0 포맷으로 저장될 수 있으며, 여기서 Cr 및 Cb 컴포넌트는 X 및 Y 방향으로 2 만큼 다운샘플링된다. 이리하여, 각각의 매크로브록은 256 Y 컴포넌트, 64 Cr 컴포넌트 및 64 Cb 컴포넌트로 구성될 것이다. 현재의 화상 (305) 의 매크로블록 (315) 은 현재의 화상 (305) 과는 상이한 시간 포인트에서 기준 화상 (310) 으로부터 예측된다. 인코딩되고 있는 현재의 매크로블록 (315) 에 Y, Cr 및 Cb 값에 있어서 가장 가까운 최선 매칭 매크로블록 (320) 을 위치시키기 위해 기준 화상 (310) 에서 검색을 행한다. 당업자에게 알려진 최선 매칭 매크로블록 (320) 을 검색하는 방법은 a) 현재의 매크로블록 (315) 과 기준 화상 (310) 매크로블록 사이의 SAD (절대 픽셀 차의 합) 를 최소화하는 것, b) SSD (제곱된 픽셀 차의 합) 를 최소화하는 것, 및 c) 레이트 왜곡 의미에서의 최소 코스트 등을 포함한다. 기준 화상 (310) 내의 최선 매칭 매크로블록 (320) 의 위치는 모션 벡터 (325) 에서 인코딩된다. 기준 화상 (310) 은 디코더가 현재의 화상 (305) 의 구성 이전에 재구성할 I 프레임 또는 P 프레임일 수 있다. 최선 매칭 매크로블록 (320) 은 현재의 매크로블록 (315) 으로부터 공제되어 (Y, Cr 및 Cb 컴포넌트의 각각에 대한 차가 계산되어) 잔류 에러 (330) 를 생성한다. 잔류 에러 (330) 는 2D 이산 코산인 변환 (DCT) (335) 으로써 인코딩되고, 그 후 양자화 (340) 된다. 양자화 (340) 는 예를 들어 저주파수 계수에 더욱 많은 비트를 할 당하는 반면 고주파수 계수에 더욱 적은 비트를 할당함으로써 공간적 압축을 제공하기 위해 수행될 수 있다. 모션 벡터 (325) 및 기준 화상 (310) 식별 정보와 함께 잔류 에러 (330) 의 양자화된 계수는 현재의 매크로블록 (315) 을 나타내는 인코딩된 정보이다. 인코딩된 정보는 미래의 사용을 위해 메모리에 저장되거나 예를 들어 에러 검출 또는 이미지 강화의 목적으로 동작될 수 있고, 또는 네트워크 (345) 를 통해 송신될 수 있다.

인코딩된 모션 벡터 (325) 와 함께 잔류 에러 (330) 의 인코딩된 양자화된 계수는 후속하는 모션 추정 및 보상을 위해 기준 프레임의 부분으로서 사용을 위해 인코더에서 현재의 매크로블록 (315) 을 재구성하는데 사용될 수 있다. 인코더는 이러한 P 프레임 재구성을 위해 디코더의 프로시져를 모방할 수 있다. 디코더의 모방은 인코더 및 디코더가 동일한 기준 화상으로 작동하도록 할 것이다. 인터-코딩을 위해 인코더에서 행해지든지 디코더에서 행해지든지 간에, 재구성 프로세스의 예가 여기에 제공된다. P 프레임의 재구성은 기준 프레임 (또는 참조되고 있는 화상 또는 프레임의 부분) 이 재구성된 후 시작될 수 있다. 인코딩된 양자화된 계수는 탈양자화 (350) 되고, 그 후 2D 인버스 DCT, 또는 IDCT (355) 가 수행되어 디코딩된 또는 재구성된 잔류 에러 (360) 를 발생시킨다. 인코딩된 모션 벡터 (325) 는 이미 재구성된 기준 화상 (310) 내에 이미 재구성된 최선 매칭 매크로블록 (365) 를 위치시키기 위해 사용된다. 재구성된 잔류 에러 (360) 는 그 후 재구성된 최선 매칭 매크로블록 (365) 에 부가되어 재구성된 매크로블록 (370) 을 형성한다. 재구성된 매크로블록 (370) 은 메모리에 저장되거 나, 독립적으로 또는 다른 재구성된 매크로블록을 갖는 화상에서 디스플레이되거나, 또는 이미지 강화를 위해 더 처리될 수 있다.

B 프레임 (또는 양방향 예측으로 코딩된 임의의 섹션) 은 현재의 화상 내의 영역과 이전의 화상 내의 최선 매칭 예측 영역 및 후속하는 화상 내의 최선 매칭 예측 영역 사이의 시간 리던던시를 활용할 수 있다. 후속하는 최선 매칭 예측 영역 및 역방향 최선 매칭 예측 영역은 결합되어 결합된 양방향 예측된 영역을 형성한다. 현재의 화상 영역과 최선 매칭 결합된 양방향 예측 영역 사이의 차는 잔류 에러 (또는 예측 에러) 이다. 후속하는 기준 화상 내의 최선 매칭 예측 영역 및 이전의 기준 화상 내의 최선 매칭 예측 영역의 위치는 두 개의 모션 벡터로 인코딩될 수 있다.

상술된 바와 같이, I 프레임, P 프레임, 및 B 프레임의 각각의 정보는 다수의 층에서 인코딩될 수도 있고, 예를 들어, 베이스층은 I 프레임 데이터 뿐아니라, 헤더 정보 등의 소정의 최소의 정보, 및 모션 벡터 정보 및 예측된 프레임에 대한 잔류 에러 정보를 가질 수 있다. 강화층은 필요하지 않을 수도 있지만 선택적으로 디코딩될 때 디스플레이된 데이터의 품질을 강화하는 정보를 가질 수도 있다. 예를 들어, 강화층은 베이스층 내의 데이터 보다 더 높은 품질로 인코딩된 P 프레임 및 B 프레임에 대한 잔류 데이터 및 I 프레임 데이터를 가질 수 있다. 인코딩된 데이터의 품질은 인코딩된 데이터의 양자화 레벨을 결정하는 양자화 파라미터 (QP) 등의 다양한 인코딩 파라미터의 변경을 통해 조정될 수도 있다. 예를 들어, QP 는 증가되어, 더욱 높은 양자화를 갖는 인코딩된 데이터를 생성하고, 이리하여 더욱 적은 비트 및 따라서 감소된 대역폭 요구를 초래한다. 강화층은 또한 베이스층에 포함되지 않은, B 프레임 등의 부가적인 프레임을 포함할 수도 있다. 베이스 층 및 강화층 양자는 디코더로 송신될 수도 있다.

일부 시스템에서, 비율 또는 비율 플러스 상수 등의 특정의 수학적 관계에 따라 대역폭을 할당하는 것이 바람직하다. 예를 들어, 일부 실시형태에서, 베이스층의 대역폭에 대한 강화층의 대역폭의 비는 1:1 이고, 여기서 베이스층에 할당된 대역폭은 강화층의 대역폭과 동일하다. 1.5:1, 2:1 등의 다른 비율도 바람직할 수 있다.

일부 실시형태에서, 각각의 GOP 에 대한 대역폭의 1:1 비를 달성하는 것이 바람직하다. 일부 실시형태는 GOP 의 I 프레임 데이터 및 P 및 B 프레임 잔류 데이터를 강화층 품질로 인코딩한다. 그 후, 인코딩 데이터의 사이즈는 총 베이스층 플러스 강화층에 대한 원하는 대역폭을 결정한다. 그 후, 베이스층에 대한 배역폭은 베이스층 대역폭과 강화층 대역폭 사이의 소정의 수학적 관계에 기초하여 결정된다.

일단 베이스층에 대한 대역폭이 알려지면, 베이스층 요소의 각각에 대한 대역폭이 결정될 수 있다. 일부 실시형태에서, 소정의 고정 품질 베이스층 요소의 대역폭은 전체 베이스층의 대역폭에 대해 독립적일 수도 있다. 예를 들어, 일부 실시형태에서, 예측된 프레임의 헤더 정보 및 모션 벡터 정보 중 적어도 하나는 베이층 내로 고정 품질로 인코딩될 수도 있다. 예를 들어, 일부 실시형태에서는, 헤더 정보 및 모션 벡터 정보는 강화층과 동일한 높은 품질로 인코딩될 수도 있다. 헤더 및 모션 벡터 정보에 대한 고정된 품질은 사이즈를 결정하고, 따라서 이들 고정 품질 베이스층 요소에 대한 대역폭 요구를 결정한다. 일단 고정 품질 베이스층 요소에 대한 대역폭 요구가 알려지면, 나머지 베이스층 대역폭은 I 프레임 데이터 및 P 및 B 프레임 잔류 등의 나머지 가변 품질 베이스층 요소에 할당될 수 있다. 따라서, 가변 품질 베이스층 요소는 결과의 데이터가 나머지 대역폭으로 송신될 수 있도록 하는 품질로 인코딩될 수도 있다.

도 4는 상술된 대역폭 할당 방법론을 나타내는 대역폭 할당 다이어그램이다. 인코딩된 강화층 정보 (410) 및 인코딩된 베이스층 정보 (420) 가 도시되고, 여기서 각각에 대한 수평 차원은 각각에 대해 할당된 대역폭을 나타낸다. 도시된 바와 같이, 이러한 예에서, 각각의 층의 총 대역폭은 동일한다. 강화층은 높은 강화층 품질로 인코딩된 B 및 P 프레임 정보 (414) 및 I 프레임 정보 (412) 를 포함한다. 베이스층은 헤더 정보 (422), 모션 벡터 정보 (424), I 프레임 정보 (426) 및 B 및 P 프레임 정보 (428) 를 포함한다. 강화층과 동일한 대역폭으로 송신될 수 있도록 베이스층을 생성하기 위하여, I 프레임 정보 (426) 및 B 및 P 프레임 정보 (428) 는 각각 강화층의 품질 보다 더 작은 베이스층 품질로 인코딩된다.

상술된 스킴에 대한 다양한 변경이 행해질 수 있다. 예를 들어, 일부 실시형태에서, B 프레임 정보는 베이스층으로 인코딩되지 않는다. 그러한 실시형태에서는, 디코더는 만일 그것이 강화층을 수신하고 처리할 수 있다면 B 프레임 정보를 디코딩할 수 있다. 일부 실시형태에서, 베이스층 대역폭에 대한 강화층 대역폭의 비는 1:1 이 아니라 다른 비이다. 일부 실시형태에서, I 프레임 정보 (412) 는 B 및 P 프레임 잔류 정보 (414) 의 품질와는 상이한 품질로 인코딩된다. 유사하게, 일부 실시형태에서는, I 프레임 정보 (426) 는 B 및 P 프레임 잔류 정보 (428) 의 품질와는 상이한 품질로 인코딩된다.

도 4 의 예에서, 강화층 및 베이스층의 대역폭은 GOP 에 대해 실질적으로 동일하다. 일부 실시형태에서, 1:1 비는 프레임에 대해서 또는 매크로블록에 대해서 등, 데이터의 적어도 일부 더 작은 부분에 대해서 유지되지 않는다. 예를 들어, 일부 실시형태에서, 전체 GOP 에 대한 베이스층 대역폭 마이너스 고정 품질 요소에 할당된 대역폭은 사전-인코딩 동작에서 결정된 가변 품질 요소의 각각의 특성화 파라미터에 따라 가변 품질 요소에 할당된다.

도 5 는 멀티미디어 데이터를 인코딩하는 방법을 나타내는 흐름도이다. 510 에서, 강화층의 대역폭과 베이스층의 대역폭 사이의 수학적 관계가 결정된다. 일부 실시형태에서, 수학적 관계는 메모리 위치에서의 비율, 예를 들어 1:1 비율이며, 여기서 강화층 대역폭은 베이스층 대역폭과 실질적으로 동일하다. 일부 실시형태에서, 수학적 관계는 알고리즘에 기초하여 결정된다.

520 에서, 멀티미디어 데이터는 사전-인코딩된다. 멀티미디어 데이터는 높은 품질로 사전-인코딩될 수도 있다. 사전-인코딩된 데이터의 특성화 파라미터가 측정된다. 인코딩된 데이터의 다양한 복잡도 메트릭이 멀티미디어 데이터를 사전-인코딩함으로써 결정될 수 있다. 예를 들어, 인코딩된 프레임의 사이즈가 측정되고 저장된다. 다른 파라미터도 역시 측정되고 저장될 수 있다. 데이터의 다양한 부분의 파라미터가 측정될 수 있다. 예를 들어, 인코딩된 정보의 복잡도는 GOP, 프레임, 슬라이스, 매크로블록 및 서브매크로블록에 대해 측정될 수 있다. 일부 실시형태에서, GOP 는 수퍼-프레임이며, 멀티미디어 데이터의 1/2 을 포함한다.

530 에서, 멀티미디어 데이터는 520 에서 측정된 특성화 파라미터에 따라 인코딩된다. 일 예에서, I 프레임 데이터와 B 및 P 프레임 잔류는 강화층 내로 높은 강화층 품질로 인코딩된다. 상술한 방법에 따라, 그 후 GOP 에 대한 강화층 및 베이스층 대역폭이 결정된다. 상술된 방법에 따라, 헤더 정보 및 모션 벡터 정보 등의 고정 품질 요소의 대역폭이 또한 결정된다.

다음에, 전체 GOP 에 대한 베이스층 대역폭 (BW_BL) 마이너스 베이스층의 고정 품질 요소에 할당된 대역폭 (BW_fqe) 은 베이스층의 가변 품질 요소 (BW_vqe) 에 할당된다. 따라서, BW_vqe = BW_BL - BW_fqe 이다. BW_vqe 는 520 의 사전-인코딩 동작에서 결정된 각각의 가변 품질 요소의, 복잡도 메트릭 등의 특성화 파라미터에 따라 베이스층의 가변 품질 요소 중에 할당된다. 예를 들어, 520 의 사전-인코딩 동작에서 결정된 복잡도 메트릭은 각각의 인코딩된 프레임에 대한 사이즈일 수도 있다. 프레임 i 에 대한 할당된 대역폭 (BW_vqe _(i)) 은 520 의 사전-인코딩 동작에서 결정된 플레임 i 의 복잡도에 따라 웨이팅된 총 BW_vqe의 일부일 수도 있다. 따라서, BW_vqe _(i)= BW_vqe × Size_(i)/Size_total 이며, 여기서 Size_(i)는 520 에서 인코딩 된 프레임 i 의 사이즈이고, Size_total 은 520 에서 인코딩된 GOP 의 모든 프레임의 사이즈의 총합이다. 결과는 GOP 의 각각의 프레임에 대한 대역폭 할당이다. 일단 각각의 프레임이 할당된 대역폭을 가지면, 각각의 프레임에 대한 정보는 인코딩된 프레임이 할당된 대역폭으로 송신되도록 할 최대 품질로 인코딩된다.

도 6은 멀티미디어 GOP 상의 사전-인코딩 동작으로부터 발생할 수 있는 비트스트림, 및 GOP 에 대한 강화층에 대한 비트스트림 및 GOP 에 대한 베이스층에 대한 비트스트림을 발생시키는 후속하는 인코딩 동작의 결과에 대한 그래픽 표현이다. 이러한 예에서, GOP 는 GOP 헤더 및 세 개의 프레임, 즉 I 프레임, B 프레임 및 P 프레임을 포함한다. I 프레임은 헤더를 포함하고, B 및 P 프레임 각각은 헤더 및 모션 벡터를 포함한다.

도시된 바와 같이, 사전-인코딩된 비트스트림은 헤더 정보, 모션 벡터 정보, I 프레임 데이터 및 B 및 P 프레임으로부터의 잔류 정보의 모두를 포함한다. 이러한 예에서, 사전-인코딩 동작은 높은 품질로 인코딩하여, 강화층 비디오의 품질와 실질적으로 동일한 품질을 갖는 비트스트림을 생성한다. 강화층 비트스트림은 강화층 품질로 인코딩된, B 및 P 프레임 잔류 정보 및 I 프레임 데이터를 포함한다. 일부 실시형태에서, 강화층은 사전-인코딩된 데이터 보다 더 높거나 더 낮은 품질로 발생될 수도 있다. 상술된 바와 같이, 이러한 예에서, 베이스층 비트스트림은 강화층 비트스트림과 실질적으로 동일한 사이즈, 따라서 동일한 대역폭을 갖는다. 그러나, 베이스층은 또한 강화층 품질로 인코딩될 수도 있는 헤더 및 모션 벡터 정보를 포함할 수 있기 때문에, I 프레임 데이터 및 B 및 P 프레임 헤더 및 잔류 정보는 강화층의 품질보다 작은 품질로 인코딩될 것이다. 베이스층에서의 I 프레임 데이터, B 프레임 잔류 및 P 프레임 잔류의 각각에 대한 대역폭의 할당은 사전-인코딩 프로세스에 의해 결정된 대응하는 사전-인코딩된 데이터의 복잡도에 따라 웨이팅될 수 있다.

일부 실시형태에서, 멀티미디어 데이터 인코딩 장치는 멀티미디어 데이터를 적어도 제 1 및 제 2 층으로 인코딩하도록 구성될 수 있다. 제 1 및 제 2 층의 각각은 대응하는 송신 대역폭을 갖는다. 장치는 멀티미디어 데이터의 하나 이상의 특성화 파라미터를 발생시키기 위해 멀티미디어 데이터를 사전-인코딩하는 수단, 및 적어도 제 1 및 제 2 층을 발생시키기 위해 멀티미디어 데이터를 인코딩하는 수단을 포함한다. 사전-인코딩하는 수단은 원하는 품질로 인코딩하도록 구성된 인코더일 수 있고, 인코딩하는 수단은 동일한 또는 다른 품질로 인코딩하도록 구성된 다른 또는 동일한 인코더일 수 있다. 송신 대역폭은 대역폭이 수학적 관계를 실질적으로 만족시키도록 특성화 파라미터에 적어도 부분적으로 기초하여 결정된다.

일부 실시형태에서, 베이스층 및 강화층 양자에 대한 총 대역폭 할당은 다수의 애플리케이션에 대한 대역폭을 결정하는 멀티플렉서 (MUX) 에 의해 결정된다. 그것은 베이스층 대역폭 및 강화층 대역폭의 합이 MUX 에 의해 설정된 한계를 넘어가지 않을 때 유익하다. MUX 는 공평한 방식으로 상이한 프로그램에 비트를 할당하기를 시도한다. 공평성은 상이한 프로그램이 유사한 품질을 가질 때 정 의된다. 따라서, 총 대역폭이 상이한 프로그램에 더욱 효과적으로 할당될 수 있다. MUX 는 총 대역폭의 제한 때문에 소정의 프로그램에 대한 비트 레이트를 줄일 수도 있기 때문에, 수퍼프레임 (SF) 에 기초하여 2 패스 코딩 (2 pass coding) 을 갖는 것이 유리하며, 여기서 SF 는 멀티미디어 데이터의 1 이다.

또한, 베이스층 및 강화층은 예를 들어 SF 기초로 1:1 비율을 유지할 필요가 있지만, 각각의 프레임에 대해 베이스층 프레임 및 강화층 프레임의 비율에 관한 그러한 1:1 제한이 없을 수도 있다. 따라서, SF 기초의 2 패스 코딩은 또한 SF 기초의 1:1 비율을 갖는 반면 프레임 복잡도에 기초하여 각각의 프레임에 비트를 할당하는데 유용할 것이다.

사전-인코딩 동안, 인코딩은 강화층 품질을 목표로 하고, 베이스층 품질 또는 다른 품질을 목표로 하고, 베이스층 비트 레이트에 2를 승산하여 베이스층 및 강화층의 합에 대한 비트 레이트를 얻을 수 있다. 어느 접근방법을 선택해야하는 지는 인코더 설계 및 어느 층이 먼저 최적화되어야 하는 지에 달려있다. 일부 실시형태에서는 양 층이 수신될 수 있기 때문에, 강화층 품질이 먼저 최적화될 수 있다. 사전-인코딩은 멀티미디어 데이터에 대한 특성화이며, 베이스층 및 강화층의 기준 품질을 제공할 것이다. 이러한 예에서, 특성화에 기초하여, 베이스층 품질은 1:1 비율의 요구에 종속되는 것으로 유추될 것이다.

사전-인코딩 동작에 대한 다수의 이유가 있다. 멀티미디어 데이터를 소정의 품질로 인코딩하는 동안, 총 원하는 대역폭이 결정되고, MUX 로 제공될 수 있다. 또 다른 이유는 후속하는 인코딩을 위해 레이트 제어에 대한 정보를 수집 하는 것이다. 전체 SF 의 사전-인코딩을 종료한 후에, 인코더는 SF 의 그 부분이 더욱 많은 대역폭을 필요로하는 풀 화상을 가질 것이다. 또한, 비트 할당에 필수적인 도구인 레이트 제어 모델은 더욱 정확하게 구축될 수 있다. 단일-패스 코딩에서는 보통, 이웃 매크로블록 (MB) 의 인코딩에 기초한 모델이 현재의 MB 를 위해 사용된다.

사전-인코딩 결과에 기초하여, 장치는 베이스층 및 강화층 SF 사이즈를 추정할 수 있다.

I 프레임에 대해, 단지 인트라 MB 만이 존재한다. MB 모드, 공간 예측 방향 등의 MB 헤더 정보는 베이스층으로 인코딩될 수 있다. 계수 정보는 강화층 및 베이스층 양자로 인코딩될 수 있다. 인코딩 후의 추정된 베이스층 프레임 사이즈는

이며, 여기서 f₁ _,i(header) 및 f₁ _,i(Intra coeff) 는 각각 헤더 비트의 수 및 1^st 패스 코딩에서 프레임 i 의 계수 비트의 수를 나타낸다. α_I 는 2^nd 패스 코딩에 기초하여 추정된다. Δqp 는 1^st 패스 QP 와 소정의 베이스층 QP 사이의 차이다.

2nd 패스 코딩에서의 추정된 EL 프레임 사이즈는

이다. P 프레임에 대해, 모션 정보는 베이스층에서 송신될 것이다. 이러한 부분에서의 비트의 수는 정확하게 알려져 있다. I 프레임과 유사하게, 계수 비트는 지수 함수에 기초하여 추정될 것이다.

따라서, BL 프레임 사이즈는

로서 정의되며, 여기서 f₁ _,i(header) 는 사전-인코딩에서 MB 모드 및 모션 정보를 위한 비트를 나타내고, f₁ _,i(Inter coeff) 는 사전-인코딩에서 인터 MB 의 계수를 위한 비트를 나타내고, f₁ _,i(Intra coeff) 는 사전-인코딩에서 인트라 MB 의 계수를 위한 비트를 나타내고, Δqp_P _, _Inter 는 BL 과 사전-인코딩 인터 MB 사이의 QP 차이이고, Δqp_P,Intra 는 BL 과 사전-인코딩 인트라 MB 사이의 QP 차이이며, α_P, _Inter 및α_P, _Intra 는 실험에 의해 결정된 계수이다.

EL 프레임 사이즈는

로서 정의된다. B 프레임에 대해, 만일 그들이 단지 하나의 층으로 존재한다면, 그들의 사이즈는 그 층의 SF 사이즈에 직접 가산될 수 있다. 만일 그들이 두 층을 갖는다면, 각각의 층에 대한 그들의 기여는 P 프레임과 동일한 방식으로 추정된다.

추정된 BL SF 사이즈

는

로서 정의된다. 추정된 EL SF 사이즈

는

로서 정의된다. MUX 로 송신된 비트 레이트 요청은

일 것이다. 상이한 프로그램에 의해 요청된 요구 비트 레이 트에 기초하여 MUX 는 각각의 프로그램에 상위 경계를 리턴할 것이다.

통상, 단일-패스 코딩에서 복잡도 메트릭은 시간 예측 후의 잔류의 통계에 기초하고, 레이트 제어 모델은 이웃 MB 의 인코딩 시에 구축된다. 이들 모두는 모델과 실제 시나리오 사이의 불일치를 초래할 수 있다. 대신에, 사전-인코딩 결과를 사용함으로써, 인코딩 동작에 대한 코딩 복잡도를 반영하는 정확한 복잡도 메트릭을 구축할 수 있다. 이러한 스킴에 기초한 레이트 제어 모델은 인코딩 동작에서 비트를 더욱 효과적으로 할당하는 것을 도울 수 있다.

메트릭은 사전-인코딩 동작에서 각각의 MB 의 비트의 수에 기초할 수 있다. 상이한 MB 는 상이한 QP 를 사용할 수 있기 때문에, 지수 관계를 사용하여 모든 MB 를 동일한 QP 로 정규화하고, 대응하는 계수 비트를 유도한다. 이러한 프로세스는, 인터 MB QP 를 감소시키는 것은 진정한 모션 복잡도를 반영하지 않을 수도 있는 계수 비트를 상당히 증가시킬 것이기 때문에 이롭다. 동일한 이유로, 인터 MB 계수 비트는, 만일 제 1 프레임이 P 프레임이라면 SF 의 (인코딩 순서에 따른) 제 1 프레임에서 조정된다. 조정은 제 1 P 프레임의 MB QP 및 기준 영역의 QP 에 기초할 수 있다. 헤더 비트는 어떠한 변화도 가지지 않을 수도 있다. 그 후, 각각의 MB 의 복잡도 메트릭은 그것의 헤더 및 계수의 총 비트이다. 각각의 프레임의 복잡도 메트릭은 그것의 MB 의 복잡도 메트릭의 총합이다.

인코딩 동작에서, 각각의 층에 대해, 목표 비트 레이트, 베이스층에 대한 W_b(0) 및 강화층에 대한 W_e(0) 에 대한 레이트 제어가 존재한다. 2 층 레이트 제어 동안, 단일층 코딩 에 대한 베이스층 및 강화층 오버헤드는 최소화되어야 한다. 베이스층에서의 극적으로 변하는 QP 는 상당한 양의 오버헤드를 도입할 수 있다. 사전-인코딩 동안 수집된 통계에 기초하면, 베이스층에서의 인코딩 동작 비트 할당은 더욱 정확해질 수 있어 이러한 종류의 문제를 피할 수 있다.

베이스층 인코딩에서, 1/2 버퍼는 SF 내의 순시 출력 레이트에서의 변동을 평활화하는데 사용될 수 있다. 그러나, 종래의 리키 버킷 (leaky bucket) 모델에서와 달리, 이웃하는 SF 는 독립적인 버퍼를 갖는다. 따라서, 평활 효과는 SF 내부에서만 발생한다.

W_b(j) 는 (j-1)^th 프레임을 인코딩한 후 현재의 SF 의 나머지 베이층 대역폭이다. SF 의 시작에서, j=1 이다. W_b(j) 는 다음과 같이 프레임 마다 업데이트된다: W_b(j) = W_b(j-1) - S_b(j-1), 여기서 S_b(j-1) 는 (j-1)^th 프레임에 의해 발생된 비트의 수이다.

투영된 프레임 사이즈는

이고, 여기서 N(j) 는 현재의 SF 의 나머지 미인코딩 프레임 (unencoded frame) 이다. β(n_j) 는 사전-인코딩에서 결정된 j^th 프레임의 복잡도 메트릭이다.

기본 단위는 하나 또는 다수의 MB 중 어느 하나일 수 있다. 기본 단위의 크기는 QP 가 얼마나 빈번하게 조정될 수 있는지를 결정한다. 그러나, 너무 많은 QP 조정은 오버헤드를 증가시킨다. 유사한 통계의 MB 는 함께 그룹화될 수 있고 단일의 QP 가 할당될 수 있다. 사전-인코딩에 의해 결정된 인터 모드 또는 인트라 모드에 기초하여, 인터 MB 및 인트라 MB 의 통계가 상이하기 때문에, 동일한 모드를 갖는 MB 는 기본 단위로 그룹화될 수 있다. MB 는 또한 사전-인코딩 동작의 계수 정보에 기초하여 그룹화될 수 있다. 만일 P 프레임 내의 하나의 MB 가 비제로 계수를 갖는다면, 이러한 MB 를 기본 단위로 할 것이다.

f_r(k) 는 프레임 j 내의 기본 단위 k 를 인코딩한 후의 나머지 비트의 수를 나타낸다. 초기에, f_r(0) = R(j) 이다. 현재의 기본 단위에 소비된 계수 비트의 수는

로서 계산되며, 여기서 β(BU_k) 는 인코딩될 기본 단위의 복잡도 메트릭이고, β(n_j _,k) 는 나머지 프레임의 복잡도 메트릭이다.

한편, 제 1 패스 발생 기본 단위 헤더 사이즈 b₁ _, _hdr(BU_k) 가 또한 고려되어야 한다. 만일

이라면,

이고,

이다. 그 후, Q_b 가 계산될 수 있다: Q_b = MAX_BASE_QP, 여기서

는 인코딩된 베이스층 헤더 비트의 추정된 수이고,

는 인코딩된 베이스층 계수 비트의 추정된 수이며, MAX_BASE_QP 는 최대 베이스층 QP 이다. 통상, MAX_BASE_QP 는 베이스층이 최소 허용가능 품질을 제공하도록 선택된다.

기본 단위 QP 는 지수 모델 R=α^Q- ^Q1b₁ _, _coeff(BU_k) 이며, 여기서 b₁ _, _coeff(BU_k) 는 1^st 패스 계수 비트의 추정된 수이고, Q₁ 은 1^st 패스 인코딩 QP 이고, α 는 선형 회귀를 사용하여 프레임마다에 기초하여 업데이트된 파라미터이다. 인트라 MB 및 인터 MB 는 상이한 α 를 사용한다. f_r(k) 는 사용된 비트의 수

에 따라 업데이터될 것이고,

이다.

상기 논의는 프레임 사이즈를 결정하는 것에 초점을 맞추고 있지만, 프레임에 대해 논의된 원리 및 방법은 매크로블록 및 유사한 특성을 갖는 매크로블록으로 구성된 기본 단위 등의 데이터의 임의의 다른 부분에 적용될 수도 있다. 일부 실시형태에서, 프레임 사이즈 결정에 대해 논의된 원리 및 방법은 상이한 사이즈의 멀티미디어 데이터의 부분에 적용될 수 있다. 예를 들어, GOP 내의 각각의 프레임은, 상술된 바와 같은 GOP 에 대한 나머지 이용가능한 대역폭, 프레임의 특성화 파라미터, 및 GOP 의 나머지 프레임의 특성화 파라미터에 따라 대역폭이 할당될 수 있다. 또한, 하나 이상의 프레임 내의 매크로블록은 하나 이상의 프레임에 대한 나머지 이용가능한 대역폭, 매크로블록의 특성화 파라미터, 및 하나 이상의 프레임의 나머지 매크로블록 또는 다른 부분의 특성화 파라미터에 따라 대역폭이 할당될 수 있다. 멀티미디어 데이터의 다양한 부분 및 그 부분들의 조합에 본 원리를 적용하는 다수의 다른 실시형태가 또한 가능하다.

당업자는 정보 및 신호가 임의의 다양한 상이한 기술 및 기능을 사용하여 표현될 수 있다는 것을 이해할 것이다. 예를 들어, 상기 상세한 설명 전체에 걸쳐 참조될 수 있는 데이터, 명령, 커맨드, 정보, 신호, 비트, 심볼 및 칩은 전압, 전류, 전자파, 자계 또는 자기 입자, 광학 필드 또는 광학 입자, 또는 그들의 임의의 조합에 의해 표현될 수도 있다.

당업자라면 또한 여기에 개시된 예와 관련하여 기재된 다양한 예시적 논리 블록, 모듈 및 알고리즘 단계는 전자 하드웨어, 컴퓨터 소프트웨어 또는 양자의 조합으로서 구현될 수도 있다는 것을 이해할 것이다. 하드웨어 및 소프트웨어의 이러한 상호 교환가능성을 더욱 명확히 설명하면, 다양한 예시적 컴포넌트, 블록, 모듈, 회로 및 단계는 그들의 기능성에 의해 일반적으로 위에서 설명되었다. 그러한 기능성이 하드웨어로서 구현되는지 또는 소프트웨어로서 구현되는지 여부는 특정의 애플리케이션 및 전체 시스템에 부과된 설계 제한에 달려있다. 숙련공은 각각의 특정 애플리케이션에 대해 여러가지 방식으로 설명된 기능성을 구현할 수 있지만, 그러한 구현 결정은 개시된 방법의 범위를 벗어나는 것으로 해석되지 않아야 한다.

여기에 개시된 예와 관련하여 기재된 다양한 예시적 논리 블록, 모듈, 및 회로는 범용 프로세서, 디지털 신호처리기 (DSP), 애플리케이션 특정 집적회로 (ASIC), 필드 프로그래머블 게이트 어레이 (FPGA) 또는 다른 프로그래머블 논리 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트, 또는 여기에 설명된 기능을 수행하도록 설계된 그들의 임의의 조합으로 구현 또는 수행될 수도 있다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안적으로, 그 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 프로세서는 또한 계산 디바이스의 조합, 예를 들어, DSP 및 마이크로프로세서의 조합, 복수의 마이크로프로세서, DSP 코어와 결합된 하나 이상의 마이크로프로세서 또는 임의의 다른 그러한 구성으로서 구현될 수도 있다.

여기에 개시된 예와 관련하여 기재된 방법 또는 알고리즘의 단계는 직접 하드웨어로, 프로세서에 의해 실행되는 소프트웨어 모듈로, 또는 양자의 조합으로 구현될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드디스크, 착탈식 디스크, CD-ROM 또는 임의의 다른 형태의 본 기술분야에 공지된 기억 매체에 상주할 수도 있다. 기억 매체는 프로세서에 결합되어 프로세서가 기억 매체로부터 정보를 판독하고 기억 매체에 정보를 기록할 수 있도록 한다. 대안적으로, 기억 매체는 프로세서에 통합될 수도 있다. 프로세서 및 기억 매체는 애플리케이션 특정 집적회로 (ASIC) 에 상주할 수도 있다. ASIC 는 무선 모뎀에 상주할 수도 있다. 대안적으로, 프로세서 및 기억매체는 무선 모뎀에 개별 컴포넌트로서 상주할 수도 있다.

개시된 실시형태에 대한 이전의 상세한 설명은 당업자로 하여금 본 발명을 시행 또는 사용하는 것이 가능하도록 제공된다. 이들 실시형태의 다양한 변경은 당업자에게는 명백하고, 여기에 정의된 일반 원칙은 다른 예에 적용될 수도 있 으며, 부가적인 요소는 본 발명의 사상 또는 범위를 벗어나지 않고 부가될 수도 있다. 따라서, 본 발명은 여기에 나타낸 실시형태에 제한되는 것으로 의도되지 않으며, 여기에 개시된 원리 및 신규한 특징과 일치하는 가장 넓은 범위와 일치한다.

Claims

각각 관련된 송신 대역폭을 갖는 적어도 제 1 및 제 2 층으로 멀티미디어 데이터를 인코딩하는 방법으로서,

상기 멀티미디어 데이터의 하나 이상의 특성화 파라미터들을 발생시키기 위해 상기 멀티미디어 데이터를 사전-인코딩하는 단계, 및

상기 적어도 제 1 및 제 2 층을 발생시키기 위해 상기 멀티미디어 데이터를 인코딩하는 단계를 포함하고,

상기 관련된 송신 대역폭들은, 상기 관련된 송신 대역폭들이 소정의 관계를 실질적으로 만족시키도록 상기 특성화 파라미터들에 적어도 부분적으로 기초하여 결정되는, 멀티미디어 데이터 인코딩 방법.
제 1 항에 있어서,

상기 적어도 제 1 및 제 2 층과 관련된 상기 송신 대역폭들에 대한 상기 관계를 결정하는 단계를 더 포함하는, 멀티미디어 데이터 인코딩 방법.
제 2 항에 있어서,

상기 관계는 비율을 포함하는, 멀티미디어 데이터 인코딩 방법.
제 3 항에 있어서,

상기 비율은 실질적으로 1:1 인, 멀티미디어 데이터 인코딩 방법.
제 1 항에 있어서,

상기 멀티미디어 데이터를 사전-인코딩하는 단계는 사전-인코딩 품질로 사전-인코딩하는 단계를 포함하고,

상기 멀티미디어 데이터를 인코딩하는 단계는 상기 멀티미디어 데이터를 제 2 층 품질로 상기 제 2 층으로 인코딩하는 단계를 포함하고,

상기 사전-인코딩 품질은 상기 제 2 층 품질와 실질적으로 동일한, 멀티미디어 데이터 인코딩 방법.
제 1 항에 있어서,

상기 멀티미디어 데이터를 사전-인코딩하는 단계는 사전-인코딩 품질로 사전-인코딩하는 단계를 포함하고,

상기 멀티미디어 데이터를 인코딩하는 단계는 상기 멀티미디어 데이터를 제 2 층 품질로 상기 제 2 층으로 인코딩하는 단계를 포함하고,

상기 사전-인코딩 품질은 상기 제 2 층 품질 보다 더 높은, 멀티미디어 데이터 인코딩 방법.
제 1 항에 있어서,

상기 특성화 파라미터들은 적어도 부분적으로 사전-인코딩된 멀티미디어 데 이터의 복잡도에 의해 결정되는, 멀티미디어 데이터 인코딩 방법.
제 1 항에 있어서,

상기 멀티미디어 데이터를 사전-인코딩하는 단계는 상기 멀티미디어 데이터의 복수의 부분을 사전-인코딩하여 상기 복수의 부분의 각각과 관련된 하나 이상의 특성화 파라미터들을 발생시키는 단계를 포함하고,

상기 멀티미디어 데이터를 인코딩하는 단계는 상기 멀티미디어 데이터의 상기 복수의 부분의 각각을 상기 제 1 층의 대응하는 부분으로 인코딩하는 단계를 포함하고,

상기 제 1 층의 각각의 부분은 상기 멀티미디어 데이터의 대응하는 부분의 관련된 특성화 파라미터들 및 상기 멀티미디어 데이터의 적어도 하나의 다른 부분의 관련된 특성화 파라미터들에 적어도 부분적으로 기초한 대역폭을 갖는, 멀티미디어 데이터 인코딩 방법.
제 1 항에 있어서,

상기 제 1 층의 품질은 상기 제 1 층의 상기 송신 대역폭을 조정하도록 조정되는, 멀티미디어 데이터 인코딩 방법.
제 1 항에 있어서,

상기 사전-인코딩된 멀티미디어 데이터는 헤더 정보, 모션 벡터 정보, 및 잔 류 정보를 포함하고, 상기 인코딩된 제 2 층은 제 2 층 품질로 인코딩된 잔류 정보를 포함하는, 멀티미디어 데이터 인코딩 방법.
제 10 항에 있어서,

상기 인코딩된 제 1 층은 헤더 정보 및 잔류 정보를 포함하는, 멀티미디어 데이터 인코딩 방법.
제 11 항에 있어서,

상기 인코딩된 제 1 층은, 상기 제 2 층 품질로 인코딩된 헤더 정보 및 모션 벡터 정보와, 제 1 층 품질로 인코딩된 잔류 정보를 포함하고,

상기 제 1 층 품질은 상기 관계를 실질적으로 만족시키도록 결정되는, 멀티미디어 데이터 인코딩 방법.
각각 대응하는 송신 대역폭을 갖는 적어도 제 1 및 제 2 층으로 멀티미디어 데이터를 인코딩하도록 구성된 장치로서,

상기 멀티미디어 데이터의 하나 이상의 특성화 파라미터들을 발생시키기 위해 상기 멀티미디어 데이터를 사전-인코딩하도록 구성된 사전-인코더, 및

상기 적어도 제 1 및 제 2 층을 발생시키기 위해 상기 멀티미디어 데이터를 인코딩하도록 구성된 인코더를 포함하고,

상기 대응하는 송신 대역폭들은, 상기 대응하는 송신 대역폭들이 소정의 관 계를 실질적으로 만족시키도록 상기 특성화 파라미터들에 적어도 부분적으로 기초하여 결정되는, 멀티미디어 데이터 인코딩 장치.
제 1 항에 있어서,

상기 관계는 비율을 포함하는, 멀티미디어 데이터 인코딩 장치.
제 1 항에 있어서,

상기 사전-인코더는 사전-인코딩 품질로 사전-인코딩하도록 구성되고,

상기 인코더는 상기 멀티미디어 데이터를 제 2 층 품질로 상기 제 2 층으로 인코딩하도록 구성되고,

상기 사전-인코딩 품질은 상기 제 2 층 품질와 실질적으로 동일한, 멀티미디어 데이터 인코딩 장치.
제 1 항에 있어서,

상기 사전-인코더는 상기 멀티미디어 데이터를 사전-인코딩 품질로 사전-인코딩하도록 구성되고,

상기 인코더는 상기 멀티미디어 데이터를 제 2 층 품질로 상기 제 2 층으로 인코딩하도록 구성되고,

상기 사전-인코딩 품질은 상기 제 2 층 품질 보다 더 높은, 멀티미디어 데이터 인코딩 장치.
제 1 항에 있어서,

상기 사전-인코더는 사전-인코딩된 멀티미디어 데이터의 복잡도에 적어도 부분적으로 기초하여 상기 특성화 파라미터들을 결정하도록 구성되는, 멀티미디어 데이터 인코딩 장치.
제 1 항에 있어서,

상기 사전-인코더는 상기 멀티미디어 데이터의 복수의 부분을 사전-인코딩하여 상기 복수의 부분의 각각과 관련된 하나 이상의 특성화 파라미터들을 발생시키도록 구성되고,

상기 인코더는 상기 멀티미디어 데이터의 상기 복수의 부분의 각각을 상기 제 1 층의 대응하는 부분으로 인코딩하도록 구성되고,

상기 제 1 층의 각각의 부분은 상기 멀티미디어 데이터의 대응하는 부분의 관련된 특성화 파라미터들 및 상기 멀티미디어 데이터의 적어도 하나의 다른 부분의 관련된 특성화 파라미터들에 적어도 부분적으로 기초한 대역폭을 갖는, 멀티미디어 데이터 인코딩 장치.
제 1 항에 있어서,

상기 제 1 층의 품질은 상기 제 1 층의 상기 송신 대역폭을 조정하도록 조정되는, 멀티미디어 데이터 인코딩 장치.
제 1 항에 있어서,

상기 사전-인코딩된 멀티미디어 데이터는 헤더 정보, 모션 벡터 정보, 및 잔류 정보를 포함하고, 상기 인코딩된 제 2 층은 제 2 층 품질로 인코딩된 잔류 정보를 포함하는, 멀티미디어 데이터 인코딩 장치.
제 8 항에 있어서,

상기 인코딩된 제 1 층은 헤더 정보 및 잔류 정보를 포함하는, 멀티미디어 데이터 인코딩 장치.
제 9 항에 있어서,

상기 인코딩된 제 1 층은, 상기 제 2 층 품질로 인코딩된 헤더 정보 및 모션 벡터 정보와, 제 1 층 품질로 인코딩된 잔류 정보를 포함하고,

상기 제 1 층 품질은 상기 관계를 실질적으로 만족시키도록 결정되는, 멀티미디어 데이터 인코딩 장치.
각각 대응하는 송신 대역폭을 갖는 적어도 제 1 및 제 2 층으로 멀티미디어 데이터를 인코딩하도록 구성된 장치로서,

상기 멀티미디어 데이터의 하나 이상의 특성화 파라미터들을 발생시키기 위해 상기 멀티미디어 데이터를 사전-인코딩하는 수단, 및

상기 적어도 제 1 및 제 2 층을 발생시키기 위해 상기 멀티미디어 데이터를 인코딩하는 수단을 포함하고,

상기 대응하는 송신 대역폭들은, 상기 대응하는 송신 대역폭들이 소정의 관계를 실질적으로 만족시키도록 상기 특성화 파라미터들에 적어도 부분적으로 기초하여 결정되는, 멀티미디어 데이터 인코딩 장치.
제 11 항에 있어서,

상기 관계는 비율을 포함하는, 멀티미디어 데이터 인코딩 장치.
제 11 항에 있어서,

상기 사전-인코딩하는 수단은 사전-인코딩 품질로 사전-인코딩하도록 구성되고,

상기 인코딩하는 수단은 상기 멀티미디어 데이터를 제 2 층 품질로 상기 제 2 층으로 인코딩하도록 구성되고,

상기 사전-인코딩 품질은 상기 제 2 층 품질와 실질적으로 동일한, 멀티미디어 데이터 인코딩 장치.
제 11 항에 있어서,

상기 사전-인코딩하는 수단은 상기 멀티미디어 데이터를 사전-인코딩 품질로 사전-인코딩하도록 구성되고,

상기 인코딩하는 수단은 상기 멀티미디어 데이터를 제 2 층 품질로 상기 제 2 층으로 인코딩하도록 구성되고,

상기 사전-인코딩 품질은 상기 제 2 층 품질 보다 더 높은, 멀티미디어 데이터 인코딩 장치.
제 11 항에 있어서,

상기 사전-인코딩하는 수단은 사전-인코딩된 멀티미디어 데이터의 복잡도에 적어도 부분적으로 기초하여 상기 특성화 파라미터들을 발생시키도록 구성되는, 멀티미디어 데이터 인코딩 장치.
제 11 항에 있어서,

상기 사전-인코딩하는 수단은 상기 멀티미디어 데이터의 복수의 부분을 사전-인코딩하여 상기 복수의 부분의 각각과 관련된 하나 이상의 특성화 파라미터들을 발생시키도록 구성되고,

상기 인코딩하는 수단은 상기 멀티미디어 데이터의 상기 복수의 부분의 각각을 상기 제 1 층의 대응하는 부분으로 인코딩하도록 구성되고,

상기 제 1 층의 각각의 부분은 상기 멀티미디어 데이터의 대응하는 부분의 관련된 특성화 파라미터들 및 상기 멀티미디어 데이터의 적어도 하나의 다른 부분의 관련된 특성화 파라미터들에 적어도 부분적으로 기초한 대역폭을 갖는, 멀티미디어 데이터 인코딩 장치.
제 11 항에 있어서,

상기 제 1 층의 품질은 상기 제 1 층의 상기 송신 대역폭을 조정하도록 조정되는, 멀티미디어 데이터 인코딩 장치.
제 11 항에 있어서,

상기 사전-인코딩된 멀티미디어 데이터는 헤더 정보, 모션 벡터 정보, 및 잔류 정보를 포함하고, 상기 인코딩된 제 2 층은 제 2 층 품질로 인코딩된 잔류 정보를 포함하는, 멀티미디어 데이터 인코딩 장치.
제 18 항에 있어서,

상기 인코딩된 제 1 층은 헤더 정보 및 잔류 정보를 포함하는, 멀티미디어 데이터 인코딩 장치.
제 19 항에 있어서,

상기 인코딩된 제 1 층은, 상기 제 2 층 품질로 인코딩된 헤더 정보 및 모션 벡터 정보와, 제 1 층 품질로 인코딩된 잔류 정보를 포함하고,

상기 제 1 층 품질은 상기 관계를 실질적으로 만족시키도록 결정되는, 멀티미디어 데이터 인코딩 장치.
실행시 시스템으로 하여금, 각각 대응하는 송신 대역폭을 갖는 적어도 제 1 및 제 2 층으로 멀티미디어 데이터를 인코딩하는 방법을 수행하도록 하는 명령을 포함하는 컴퓨터 판독가능 매체로서,

상기 방법은,

상기 멀티미디어 데이터의 하나 이상의 특성화 파라미터들을 발생시키기 위해 상기 멀티미디어 데이터를 사전-인코딩하는 단계, 및

상기 적어도 제 1 및 제 2 층을 발생시키기 위해 상기 멀티미디어 데이터를 인코딩하는 단계를 포함하고,

상기 대응하는 송신 대역폭들은, 상기 대응하는 송신 대역폭들이 소정의 관계를 실질적으로 만족시키도록 상기 특성화 파라미터들에 적어도 부분적으로 기초하여 결정되는, 컴퓨터 판독가능 매체.
제 21 항에 있어서,

상기 관계는 비율을 포함하는, 컴퓨터 판독가능 매체.
제 21 항에 있어서,

상기 멀티미디어 데이터를 사전-인코딩하는 단계는 사전-인코딩 품질로 사전-인코딩하는 단계를 포함하고,

상기 멀티미디어 데이터를 인코딩하는 단계는 상기 멀티미디어 데이터를 제 2 층 품질로 상기 제 2 층으로 인코딩하는 단계를 포함하고,

상기 사전-인코딩 품질은 상기 제 2 층 품질와 실질적으로 동일한, 컴퓨터 판독가능 매체.
제 21 항에 있어서,

상기 멀티미디어 데이터를 사전-인코딩하는 단계는 사전-인코딩 품질로 사전-인코딩하는 단계를 포함하고,

상기 멀티미디어 데이터를 인코딩하는 단계는 상기 멀티미디어 데이터를 제 2 층 품질로 상기 제 2 층으로 인코딩하는 단계를 포함하고,

상기 사전-인코딩 품질은 상기 제 2 층 품질 보다 더 높은, 컴퓨터 판독가능 매체.
제 21 항에 있어서,

상기 특성화 파라미터들은 사전-인코딩된 멀티미디어 데이터의 복잡도에 적어도 부분적으로 기초하여 결정되는, 컴퓨터 판독가능 매체.
제 21 항에 있어서,

상기 멀티미디어 데이터를 사전-인코딩하는 단계는 상기 멀티미디어 데이터의 복수의 부분을 사전-인코딩하여 상기 복수의 부분의 각각과 관련된 하나 이상의 특성화 파라미터들을 발생시키는 단계를 포함하고,

상기 멀티미디어 데이터를 인코딩하는 단계는 상기 멀티미디어 데이터의 상 기 복수의 부분의 각각을 상기 제 1 층의 대응하는 부분으로 인코딩하는 단계를 포함하고,

상기 제 1 층의 각각의 부분은 상기 멀티미디어 데이터의 대응하는 부분의 관련된 특성화 파라미터들 및 상기 멀티미디어 데이터의 적어도 하나의 다른 부분의 관련된 특성화 파라미터들에 적어도 부분적으로 기초한 대역폭을 갖는, 컴퓨터 판독가능 매체.
제 21 항에 있어서,

상기 제 1 층의 품질은 상기 제 1 층의 상기 송신 대역폭을 조정하도록 조정되는, 컴퓨터 판독가능 매체.
제 21 항에 있어서,

사전-인코딩된 멀티미디어 데이터는 헤더 정보, 모션 벡터 정보, 및 잔류 정보를 포함하고, 인코딩된 제 2 층은 제 2 층 품질로 인코딩된 잔류 정보를 포함하는, 컴퓨터 판독가능 매체.
제 28 항에 있어서,

인코딩된 제 1 층은 헤더 정보 및 잔류 정보를 포함하는, 컴퓨터 판독가능 매체.
제 29 항에 있어서,

상기 인코딩된 제 1 층은, 상기 제 2 층 품질로 인코딩된 헤더 정보 및 모션 벡터 정보와, 제 1 층 품질로 인코딩된 잔류 정보를 포함하고,

상기 제 1 층 품질은 상기 관계를 실질적으로 만족시키도록 결정되는, 컴퓨터 판독가능 매체.
멀티미디어 데이터의 하나 이상의 특성화 파라미터들을 발생시키기 위해 상기 멀티미디어 데이터를 사전-인코딩하고,

적어도 제 1 및 제 2 층을 발생시키기 위해 상기 멀티미디어 데이터를 인코딩하도록 구성되고,

대응하는 송신 대역폭들은, 상기 대응하는 송신 대역폭들이 소정의 관계를 실질적으로 만족시키도록 상기 특성화 파라미터들에 적어도 부분적으로 기초하여 결정되는, 프로세서.
제 31 항에 있어서,

상기 관계는 비율을 포함하는, 프로세서.
제 31 항에 있어서,

상기 프로세서는,

상기 멀티미디어 데이터의 복수의 부분을 사전-인코딩하여 상기 복수의 부분 의 각각과 관련된 하나 이상의 특성화 파라미터들을 발생시키고,

상기 멀티미디어 데이터의 상기 복수의 부분의 각각을 상기 제 1 층의 대응하는 부분으로 인코딩하도록 더 구성되고,

상기 제 1 층의 각각의 부분은 상기 멀티미디어 데이터의 대응하는 부분의 관련된 특성화 파라미터들 및 상기 멀티미디어 데이터의 적어도 하나의 다른 부분의 관련된 특성화 파라미터들에 적어도 부분적으로 기초한 대역폭을 갖는, 프로세서.
제 31 항에 있어서,

사전-인코딩된 멀티미디어 데이터는 헤더 정보, 모션 벡터 정보, 및 잔류 정보를 포함하고, 인코딩된 제 2 층은 제 2 층 품질로 인코딩된 잔류 정보를 포함하는, 프로세서.
제 34 항에 있어서,

인코딩된 제 1 층은 헤더 정보 및 잔류 정보를 포함하는, 프로세서.
제 35 항에 있어서,

상기 인코딩된 제 1 층은, 상기 제 2 층 품질로 인코딩된 헤더 정보 및 모션 벡터 정보와, 제 1 층 품질로 인코딩된 잔류 정보를 포함하고,

상기 제 1 층 품질은 상기 관계를 실질적으로 만족시키도록 결정되는, 프로 세서.