KR101329860B1

KR101329860B1 - 효과적인 레이트 제어 및 비디오 인코딩 품질의 향상을 위한 ρ-도메인 프레임 레벨 비트 할당 방법

Info

Publication number: KR101329860B1
Application number: KR1020097006415A
Authority: KR
Inventors: 후아 양; 질 맥도날드 보이스
Original assignee: 톰슨 라이센싱
Priority date: 2006-09-28
Filing date: 2007-09-28
Publication date: 2013-11-14
Also published as: EP2067358A2; US20100111163A1; JP5087627B2; JP2010505354A; KR20090074173A; CN101518088B; WO2008042259A2; WO2008042259A3; CN101518088A

Abstract

목표 비트 레이트로 픽처 그룹을 인코딩하는 방법이 제공된다. 사전 분석 절차(105)는 일련의 파라미터를 개발하도록 픽처 그룹에서 각 프레임에 대해 수행된다. 사전 처리 절차는 그후 상기 픽처 그룹(115)으로부터 선택된 프레임에 대해 수행되어, 선택된 프레임과 연관된 파라미터는 상기 픽처 그룹으로부터 인코딩되지 않은 프레임과 연관된 파라미터가 동일한 상태에서 업데이트된다. 이 두 파라미터 집합은 프레임에 대해 할당된 비트 레이트(125)를 결정하기 위해 사용되어서, 프레임이 실제로 인코딩될 때 할당된 비트 레이트가 인코딩 동작을 위해 예비되도록 한다. 픽처 그룹에 대한 할당된 비트 레이트 및 목표 비트 레이트는 서로 다를 수 있고, 할당된 비트 레이트와 연관된 양자화 레벨은 프레임을 인코딩하기 위해 사용된 실제 비트 레이트와 연관된 양자화 레벨과 다를 수 있다.

목표 비트 레이트, 사전 분석, 사전 처리, 픽처 그룹

Description

효과적인 레이트 제어 및 비디오 인코딩 품질의 향상을 위한 ρ-도메인 프레임 레벨 비트 할당 방법{METHOD FOR ρ-DOMAIN FRAME LEVEL BIT ALLOCATION FOR EFFECTIVE RATE CONTROL AND ENHANCED VIDEO ENCODING QUALITY}

본 출원은 2007년 9월 28일에 출원된 미국 가출원 번호 60/848,254의 우선권을 주장하며, 참고로 여기 병합된다.

본 발명은 비디오 인코딩에 관한 것으로, 특히 특정 평균 비트 레이트를 충족시키도록 비디오를 인코딩하는 방법 및 장치에 관한 것이다.

비디오 코딩 시스템에서, 레이트 제어는 양호한 전체적인 비디오 코딩 성능을 제공할 때 중요한 역할을 한다. 실제로, 서로 다른 애플리케이션 시나리오는 서로 다른 종류의 레이트 제어 문제점을 내포할 수 있고, 이것은 대략 고정 비트 레이트 (CBR) 또는 가변 비트 레이트 (VBR) 레이트 제어로서 분류될 수 있다. 실시간 비디오-오버-네트워크 (video-over-network) 애플리케이션, 예컨대 주문형 비디오 (video-on-demand), 비디오 브로드캐스팅 (video broadcasting), 비디오 컨퍼런싱 (video conferencing), 및 비디오 텔레포니 (video telephony) 등에서, 입력 비디오 신호는 한정된 채널 대역폭 때문에 보통 일정한 평균 비트 레이트로 코딩되어야 하고, 따라서 CBR 레이트 제어가 필요하다. 한편, 다양한 오프 라인 비디오 압축 애플리케이션, 예컨대 홈 비디오나 영화를 DVD 등으로 압축하는 것의 경우, 엄격한 일정 비트 레이트 제한이 없고, 다만 전체 저장 공간이 유일한 제한사항이다. 이 경우, CBR 코딩 보다 덜 까다로운 레이트 제어를 제공하는 VBR 코딩이 허용된다.

실제적인 비디오 스트리밍 시스템에서, 프레임들에서의 비트 레이트 변동 및 가변 전송 지연을 흡수하여 디코딩된 비디오 신호의 원활하고 연속적인 재생을 보장하기 위해 디코더측에서 버퍼링이 필요하다. 서로 다른 프레임들의 비트 레이트 변동이 너무 크면, 버퍼는 언더플로 또는 오버플로 상태가 될 수 있다. 어느 경우든지, 연속적이고 원활한 비디오 재생은 더이상 유지될 수 없다. 따라서, 양호한 CBR 레이트 제어 방식의 목적은 주로 다음 3가지, 즉, (i) 평균 목표 비트 레이트 달성, (ii) 버퍼 제약 충족, (iii) 일관된 비디오 품질 유지이다. 이 중에서, 처음 두 목적이 시스템에서 더 긴급하고, 따라서 일반적으로 실제로 우선순위가 더 높다.

비디오 스트리밍 애플리케이션은 또한 지연 민감성 또는 지연 둔감성으로 분류될 수 있다. 인터랙티브 쌍방 스트리밍 애플리케이션, 예컨대, 비디오 컨퍼런싱 또는 비디오 텔레포니는 매우 엄격한 지연 요건 (보통 수백 밀리초 미만)을 갖고 있고, 따라서 디코더 버퍼의 크기가 작다. 이 경우, 평균 비트 레이트를 달성하고 버퍼 제약을 충족한 후에, 일관된 코딩 비디오 품질을 위한 범위가 매우 한정된다. 한편, 일방 스트리밍 애플리케이션, 예컨대 주문형 비디오 또는 비디오 브로드캐스팅에서는, 수초 또는 수십초의 지연이 보통 허용가능하고, 큰 크기의 버퍼가 사용 될 수 있다. 이 모든 고려사항을 감안하여, 전체적인 평균 비트 레이트 (CBR)를 갖는 일련의 비디오 프레임들로 구성된 픽처 그룹 (Group of Pictures)을 제공할 수 있고 이러한 프레임들의 상대적 품질이 이러한 요건을 달성하기 위해 손상받지 않게 하는 비디오 인코더를 생산할 필요가 있다.

종래 기술의 상기 및 다른 단점 및 불리한 점은, 이용가능한 움직임 정보를 비디오 인코딩을 위한 움직임 추정 예측기로서 재사용하는 방법 및 장치에 관한 본 발명에 의해 해결된다.

본 발명의 일양태에 따르면, 인코딩될 프레임들의 픽처 그룹을 분석할 때 사전 인코딩 및 사전 분석을 이용하는 인코더가 제공된다. 각 픽처 그룹에 대한 이러한 단계들의 결과는 동일 또는 유사한 전체적인 평균 비트 레이트를 갖는 한편, 이러한 픽처 그룹 내의 프레임들은 이러한 프레임들의 인코딩을 위해 할당되고 예비된 가변 비트 레이트를 가질 것이다.

본 발명의 상기 및 다른 양태, 특징 및 이점은 첨부 도면과 관련하여 이하의 바람직한 실시예들의 상세한 설명으로부터 명백해질 것이다.

본 발명은 다음 도면에 따라 더 잘 이해될 수 있다.

도 1은 본 발명의 일실시예에 따라 픽처 그룹을 인코딩하기 위한 사전 분석 및 사전 처리 단계를 수행하는 바람직한 프로세스의 블록도이다.

도 2는 본 발명의 일실시예에 따라 픽처 그룹에서 사전 분석 동작을 수행하 는 바람직한 프로세스의 흐름도이다.

도 3은 본 발명의 일실시예에 따라 ρ-도메인 및 왜곡 모델링에 기초하여 프레임 레벨 비트 할당을 수행하는 바람직한 프로세스의 흐름도이다.

도 4는 본 발명의 일실시예에 따라 일정 비트 레이트로 각 픽처 그룹을 인코딩하는 바람직한 프로세스의 흐름도로서, 이 픽처 그룹내 프레임들은 가변 비트 레이트를 갖는다.

도 5는 본 발명의 일실시예에 따라, 본 발명이 적용될 수 있는, 사전 처리 요소와 함께 바람직한 비디오 인코더에 대한 블록도이다.

본 발명은 임의의 인트라(intra) 프레임 및 인터(inter) 프레임 기반 인코딩 표준에 적용될 수 있다. 또한, 명세서 전체에 걸쳐 "픽처(picture)"와 "프레임"이라는 용어는 같은 의미로 사용된다. 즉, 프레임이나 픽처라는 용어는 동일한 것을 나타낸다.

본 설명서는 본 발명을 설명한다. 당업자라면 비록 여기 명시적으로 설명되거나 도시되지는 않았지만 본 발명을 구현하고 그 사상과 범위에 포함되는 다양한 정렬을 고안할 수 있음을 인식할 것이다.

여기 인용된 모든 예와 가정적인 언어는 발명자가 당해 기술을 진전시키기 위해 기여한 본 발명의 원리와 개념을 이해하는 데 도움을 줄 목적이며, 이러한 구체적으로 인용된 예와 조건에 한정되지 않는 것으로서 해석되어야 한다.

또한, 본 발명의 원리, 양태 및 실시예를 인용하는 모든 진술은 물론 그 특 정 예들도 그 구조적 및 기능적 균등물을 포함하는 것이다. 또한, 이러한 균등물은 공지된 균등물 뿐만 아니라 향후 개발되는 균등물, 즉 구조에 상관없이 동일한 기능을 수행하도록 개발되는 임의의 요소들을 모두 포함하는 것이다.

따라서, 예컨대, 여기 도시된 블록도는 본 발명을 구현하는 예시적인 회로의 개념도를 나타낸다는 것임을 당업자라면 이해할 것이다. 마찬가지로, 임의의 흐름도, 상태 전이도, 의사코드(pseudocode) 등은 이러한 컴퓨터나 프로세서가 명시적으로 도시되는지 여부에 상관없이 컴퓨터 판독 매체에서 실질적으로 표현될 수 있고 이 컴퓨터나 프로세서에 의해 실행될 수 있는 다양한 프로세스를 나타낸다는 것이 이해될 것이다.

도면에 도시된 다양한 요소들의 기능은 전용 하드웨어 뿐만 아니라 적절한 소프트웨어와 연관하여 소프트웨어를 실행할 수 있는 하드웨어의 사용을 통해 제공될 수 있다. 프로세서에 의해 제공될 때, 이 기능들은 단일 전용 프로세서, 단일의 공유 프로세서, 또는 일부가 공유될 수 있는 복수의 개별 프로세서에 의해 제공될 수 있다. 또한, "프로세서"나 "제어기"라는 용어의 명시적 사용은 소프트웨어를 실행할 수 있는 하드웨어를 배타적으로 언급하는 것으로 해석되지 않아야 하고, 함축적으로 디지털 신호 프로세서 ("DSP") 하드웨어, 소프트웨어 저장용 ROM (read-only memory), RAM (random access memory), 및 비휘발성 저장장치를 포함할 수 있으며 이에 한정되지 않는다.

종래 및/또는 맞춤형의 다른 하드웨어도 포함될 수 있다. 마찬가지로, 도면에 도시된 스위치는 개념적인 것이다. 그 기능은 프로그램 로직의 동작을 통해, 전용 로직을 통해, 프로그램 제어 및 전용 로직의 상호작용을 통해, 또는 수동으로 수행될 수 있고, 특정 기술은 컨텍스트로부터 더 구체적으로 이해되는 바와 같이 구현자에 의해 선택가능하다.

이 청구항에서, 특정 기능을 수행하는 수단으로서 표현된 임의의 요소는, 예컨대, a) 그 기능을 수행하는 회로 요소들의 조합 또는 b) 소프트웨어를 실행하여 그 기능을 수행하기 위한 적절한 회로와 조합된 펌웨어, 마이크로코드 등을 포함하는 임의 형태의 소프트웨어를 포함하는 기능을 수행하는 임의의 방법을 포함하는 것이다. 이러한 청구항에 의해 정의된 본 발명은 다양한 언급된 수단에 의해 제공되는 기능들이 청구항이 요구하는 방식으로 조합된다는 점에 있다. 따라서 그 기능들을 제공할 수 있는 임의의 수단은 여기 도시된 것과 동등한 것으로 간주된다.

본 명세서에서 본 발명의 "일실시예"에 대한 인용은 그 실시예와 관련하여 설명된 특정한 특징, 구조, 특성 등이 본 발명의 적어도 일실시예에 포함된다는 것을 의미한다. 따라서, 본 명세서를 통해 여러 부분에서 나오는 "일실시예에서"라는 구는 모두 반드시 동일한 실시예를 언급하는 것은 아니다.

본 발명은 도 5에 도시된 바와 같이 사전분석/사전처리 (pre-analysis/pre-processing) 요소와 함께 하드웨어로서, 소프트웨어로, 또는 그 조합으로서 구현된 바람직한 비디오 인코더를 이용하여 실시될 것이며, 이들은 부재번호 500 및 590으로 각각 표시되어 있다. 사전분석/사전처리 요소(590)는 본 발명의 다양한 요소들의 동작에 관하여 이하에서 설명된 다양한 사전 처리 및 사전 분석 동작을 수행한다.

비디오 인코더(500)는 트랜스포머(515)의 입력과 신호교신으로 연결된 출력을 갖는 조합기(510)를 포함한다. 트랜스포머(515)의 출력은 양자화기(quantizer)(520)의 입력과 신호교신으로 연결된다. 양자화기의 출력은 가변 길이 코더 (VLC)(560)의 제1 입력 및 인버스 양자화기(inverse quantizer)(525)의 입력과 신호교신하여 연결된다. 인버스 양자화기(525)의 출력은 인버스 트랜스포머(530)의 입력과 신호교신으로 연결된다. 인버스 트랜스포머(530)의 출력은 조합기(combiner)(535)의 제1 비반전 입력과 신호교신으로 연결된다. 조합기(535)의 출력은 루프 필터((540)의 입력과 신호교신으로 연결된다. 루프 필터(540)의 출력은 프레임 버퍼(545)의 입력과 신호교신으로 연결된다. 프레임 버퍼(545)의 제1 출력은 움직임 보상기 (motion compensator)(555)의 제1 입력과 신호교신으로 연결된다. 프레임 버퍼(545)의 제2 출력은 움직임 추정기 (motion estimator)(550)의 제1 입력과 신호교신으로 연결된다. 움직임 추정기(550)의 제1 출력은 가변 길이 코더 (VLC)(560)의 제2 입력과 신호교신으로 연결된다. 움직임 추정기(550)의 제2 출력은 움직임 보상기(555)의 제2 입력과 신호교신으로 연결된다. 움직임 보상기의 제2 출력은 조합기(535)의 제2 비반전 입력 및 조합기(510)의 반전 입력과 신호교신으로 연결된다. 조합기(510)의 비반전 입력, 움직임 추정기(550)의 제2 입력, 및 움직임 추정기(550)의 제3 입력은 인코더(500)로의 입력으로서 이용가능하다. 사전처리 요소(590)로의 입력은 입력 비디오를 수신한다. 사전분석/사전처리 요소(590)의 제1 출력은 조합기(510)의 비반전 입력 및 움직임 추정기(550)의 제2 입력과 신호교신으로 연결된다. 사전분석/사전처리(590)의 제2 출력은 움직임 추정 기(550)의 제3 입력과 신호교신으로 연결된다. 가변 길이 코더 (VLC)(560)의 출력은 인코더(500)의 출력으로서 이용가능하다. 도 5의 인코더가 예시적인 인코더를 나타낼 때, 사전분석/사전처리 요소(590)는 몇개의 추가 요소로 분리될 수 있고 인코더의 다른 요소들에 결합될 수 있음은 물론이다.

이러한 요소들이 본 발명에 따라 이용되는 이유에 대한 상응하는 설명과 함께 본 발명의 특정 처리 요소들이 제공되기 전에, 도 4는 고정 비트 레이트 픽처 그룹 (인터-GOP CBR)을 생성하기 위해 사용되는 본 발명의 바람직한 인코딩 방법(400)의 흐름도를 상술하는데, 각 픽처 그룹내 프레임들은 서로 다른 비트 레이트 (인트라-프레임 VBR)로 인코딩된다. 인코딩 방법(400)은 본 발명에서 사용되는 인코딩 분석/인코딩 프로세스의 전체적인 개관을 나타낸다.

단계(405)는 인코딩될 원(original) 프레임 그룹에서 각 프레임의 사전분석을 수행하는 문제를 도입한다. 나중에 설명되는 바와 같이, 본 발명의 일실시예는 이 픽처 그룹에서 각 프레임에 대해 공통의 왜곡을 가정하는 ρ-도메인 레이트 모델을 사용한다. 사전분석 동작의 결과는 이러한 프레임들이 인코딩된 픽처 그룹을 생성하도록 인코딩될 때 나중에 이용되는 ρ-QP 및 D'-QP와 같은 파라미터를 생성한다.

단계(410)는 사전처리 단계로서, 원 픽처 그룹으로부터의 특정 프레임이 인코딩되기 전에 이 특정 프레임과 연관된 ρ-QP 및 D'-QP를 업데이트하도록 분석된다. 즉, 인코딩되고 있는 현 프레임 다음 프레임들과 연관된 ρ-QP 및 D'-QP는 사전분석 단계로부터이고, 현재 프레임의 ρ-QP 및 D'-QP는 이 단계 동안에 업데이트 하고 있어서, 할당된 비트 레이트는 전체적인 목표 비트 레이트가 인코딩된 GOP에 대해 충족될 수 있도록 현재 프레임의 인코딩을 위해 예비된다. 이것은 예컨대 I 프레임/픽처 (또는 복합 P 프레임/픽처)의 할당된 비트 레이트가 단순한 복잡도의 I 또는 P 프레임/픽처 보다 인코딩 동작을 위해 예비된 더 많은 비트를 가질 것임을 의미한다. 이것은 또한 특정 픽처 그룹에 대해 각 프레임에 대한 할당된 비트 레이트는 제1 프레임에 할당된 비트 레이트가 제2 프레임의 인코딩에 할당된 비트 레이트와 다르도록 프레임마다 변할 수 있음을 의미한다.

프레임이 인코딩될 때, 픽처 그룹이 인코딩될 때 픽처 그룹이 목표 비트 레이트 (CBR)에 있을 것임을 제공하도록, 인코더는 이전 및 현재의 인코딩된 프레임의 인코딩에서 사용된 비트 레이트를 고려하여야 한다. 따라서, ρ-QP 및 D'-QP 파라미터는 할당된 비트 레이트 (프레임을 인코딩하기 위해 사용되는 양자화 레벨에 영향을 미침)가 GOP의 프레임마다 변하는 경우에 인코딩된 GOP의 목표 비트 레이트가 충족되도록 조정된다. 이것은 전체적인 목표 비트 레이트가 충족되도록 인코더가 각 프레임에 대해 할당된 비트 레이트를 예비하여야 한다는 것을 의미한다.

단계(415)에서, 현재 프레임이 인코딩되고, 여기서 할당된 비트 레이트는 현재 프레임과 연관된다. 그러나 현재 프레임이 실제로 인코딩될 때 매크로블록 레벨 비트 할당과 같은 동작이 이러한 프레임을 인코딩하기 위해 사용되는 실제 양자화 레벨을 결정하기 위해 사용됨은 물론이다 (여기서, 프레임에 예비된 할당 비트 레이트와 연관된 양자화 레벨은 특정 프레임을 인코딩하기 위해 사용된 동일 양자화 레벨이 아님). 그러나 본 발명의 목적은 실제 인코딩 프로세스를 위해 할당된 비트 레이트를 보유하여, 어느 프레임들이 인코딩 (제1 양자화 레벨에서)을 위해 더 많은 비트를 필요로 하는지 그리고 어느 프레임들이 이 프레임에 대해 할당된 비트 레이트와 연관된 더 적은 비트를 필요로 하는지를 시스템이 미리 추측하도록 하고, 여기서 단계(410 및 415)는 원 GOP에서 각각의 연속적인 프레임에 대해 반복되어, 인코딩된 GOP에 대한 목표 비트 레이트가 충족되도록 한다 (원 GOP의 모든 프레임이 인코딩되는 단계(420)에서처럼).

본 발명은 GOP에서 선택된 프레임만이 인코딩되어야 하고 상기 설명된 프로세스는 그 프레임에 대해서만 수행되는 경우에 실시될 수 있다. 예컨대, 원 GOP가 초당 30 프레임으로 전달을 위해 구성될 수 있어도 GOP의 실제 전달 (인코딩될 때)이 초당 15 프레임으로 비디오를 디코딩할 수 있는 시스템에 대한 것으로 결정될 수 있다. 따라서, 원 GOP에서 프레임들이 임의의 간격으로 선택되거나, 또는 특정 프레임 종류 "I 프레임/픽처"가 다른 프레임 종류 "P 프레임/픽처"에 비해 선택되는 경우에 사전분석의 추가 동작이 있을 수 있다.

상기 원하는 결과를 구현하기 위해, 본 발명의 일실시예는 ρ-도메인 레이트 및 왜곡 (RD) 모델링에 기초하여 프레임 레벨 비트 할당 (FBA)에 대한 해법을 이용한다. 제시된 FBA 방식은 단순화된 인코딩, 새로운 효율적이고 정확한 왜곡 모델, 낮은 복잡도 최적화 알고리즘, 및 적절히 설계된 모델 파라미터 업데이트 방식을 통한 레퍼런스 및 코딩 모드 불일치에서의 효과적인 감소에 있다. 다른 기존의 FBA 해법과 비교할 때, 제안된 방식은 더 나은 복잡도 대 성능 교환조건을 달성한다. 적당한 복잡도 증가와 함께, 제안된 FBA 방식은 기존의 변동 기반 (variance- based) FBA 방식 보다 훨씬 더 효과적인 레이트 제어를 달성하고, 지각 비디오 코딩 품질에서 상당한 개선을 가져온다.

본 발명의 다음 실시예들은, 본 발명이 쌍방 및/또는 인터랙티브 능력을 이용하여 다른 비디오 전달 애플리케이션에서 사용될 수 있지만, 일방 논(non)-인터랙티브 비디오 스트리밍 애플리케이션을 대상으로 한다. 특히, 이러한 다른 전달 애플리케이션은, 버퍼/메모리 제약이 비디오 스트림의 디코딩/전달에서 문제가 되지 않는 경우에 전달되는 컨텐트의 충분한 버퍼 크기와 사전 로딩 시간이 가정된다면 사용될 수 있다.

실제로, 레이트 제어는 프레임 레벨 및 매크로 블록 (MB) 레벨 모두에서 수행된다. 총 코딩 비트 레이트는 특정 프레임이 자신의 인코딩을 위해 얼마나 많은 비트를 취하는지 특정하기 위해 프레임 레벨에서 먼저 할당되고, 비트가 프레임의 다른 MB에 더 할당된다. 그 결과, 각 MB의 양자화 스케일은 MB의 실제 인코딩에 대해 결정될 것이다. 본 발명은 프레임 레벨 비트 할당 (FBA)에 관한 완전한 해법을 설명한다.

구체적으로, 본 발명은 ρ-도메인 RD 모델 기반 FBA 해법을 제공한다. 본 발명은, 2001년 6월, 캘리포니아주 산 호세, MPEG-4에 관한 워크샵 및 전시회에서, Z. He, Y. Kim, 및 S.K. Mitra에 의해 쓰여진 논문, "MPEG-4 비디오 코딩을 위한 개체 레벨 비트 할당 및 스케일러블 레이트 제어", pp.63-6 에서 제시된 기존의 ρ-도메인 레이트 모델, 및 2007년 8월 21일, H. Yang 및 J. Boyce에 의해 출원된 PCT 출원 US 2007/01848, "높은 모델링 정확도 및 낮은 계산 복잡도를 갖는 분석적 및 경험적 하이브리드 소스 코딩 왜곡 모델"로부터 개념을 형성하여 (또한 개선하여) 프레임의 실제 RD 특징을 추정한다. 레퍼런스의 영향 및 코딩 모드 불일치를 줄이고 연산 RD 모델링 정확도를 향상시키기 위해, 주의깊게 설계된 단순화된 인코딩 알고리즘이 GOP의 코딩 전에 사전분석 프로세스를 통해 픽처 그룹 (GOP) 내의 모든 프레임의 RD 데이터를 수집하도록 적용된다. 현재 프레임의 경우, FBA에 대해 사용되는 그 RD 데이터는, 그 정확한 레퍼런스 프레임이 사용가능할 때, 그 프레임의 코딩 전에 사전 처리 절차에서 재계산된다. 프레임 레벨 RD 데이터에 기초하여, 효율적인 최적화 방식이 FBA 문제를 해결하기 위해 제안되고, 여기서 GOP의 모든 프레임이 동일 레벨의 왜곡으로 코딩된다고 가정하면, 그 목적은 목표 전체 비트 레이트의 제약을 받는 최소의 일정한 왜곡을 찾는 것이다. 게다가, 임의의 다른 ρ-도메인 FBA 접근법과 달리, 제안된 방식은 사전 분석 및 사전 처리 데이터에 대해 연관된 RD 모델 파라미터를 별개로 업데이트하기 위해 유일하게 설계된 접근법을 채택한다. 최종적으로, 광범위한 실험을 통해, 본 발명자는 제안된 FBA 방식이 전체적인 지각(perceptual) 비디오 코딩 품질에서의 상당한 진보와 함께 기존의 변동 기반 FBA 접근법보다 일관되게 더 우수하다는 것을 알았다.

FBA의 면에서, 기존의 방식은 대략 발견적(heuristic) 방식이나 RD 효율 기반 방식으로 분류될 수 있다. 대부분의 발견적 FBA 방식은 모든 프레임이 유사한 코딩 품질을 갖고 총 비트 버짓(budget)이 동시에 적절히 소모되도록 복잡한 프레임에 더 많은 비트를 그리고 간단한 프레임에 더 적은 비트를 할당하는 간단하지만 유용한 직관에서 대부분 비롯된 복잡도 측정 기반 방식으로 간주될 수 있다. 이 방식들에서, 임의의 양, 예컨대 예측 잉여 프레임의 평균 절대 차 (mean-absolute-difference: MAD) (B. Xie and W. Zeng, "일정 품질 비디오를 위한 시퀀스 기반 레이트 제어 프레임워크", IEEE Trans. Circuits Syst. Video Technol. vol. 16, no. 1, pp.56-71, Jan. 2006 참조) 또는 변동 (I.-M. Pao and M. -T. Sun, "스트리밍 애플리케이션을 위한 저장된 비디오 인코딩", IEEE Trans. Circuits Syst. Video Technol, vol. 11, no. 2, pp.199-209, Feb. 2001 참조), 또는 CBR 코딩에서 프레임의 양자화 파라미터 (QP) (P. H. Westerink, R. Rajagopalan, and C. A. Gonzales, "2-패스 MPEG-2 가변 비트 레이트 인코딩", IBM J. Res. Develop., vol. 43, no. 4, pp. 471-488, Jul. 1999)는 프레임의 코딩 복잡도를 측정하기 위해 사용되고, 그 복잡도 값에 따라 비례하여 각 프레임에 할당된다.

한편, 코딩 복잡도를 발견적으로 측정하는 대신, RD FBA 방식은 프레임의 RD 함수를 직접 추정하고 FBA 해법을 찾는 알고리즘에서 이 RD 데이터를 적용한다. RD 효율 기반 FBA 방식은 일반적으로 발견적 접근법 보다 더 효과적인 레이트 제어 및 더 나은 전체적인 비디오 코딩 품질을 제공하고, 따라서 예컨대 낮은 복잡도 구현 때문에 (L.-J. Lin and A. Ortega, "구분적으로 개산된 레이트 왜곡 특징을 이용한 비트 레이트 제어", IEEE Trans. Circuits Syst. Video Technol., vol.8, no.4, pp.446-59, Aug. 1998 참조) 또는 엄격한 복잡도 제약을 요구하지 않는 오프라인 비디오 코딩 때문에 (Y. Yue, J. Zhou, Y. Wang, and C. W. Chen, "고정 크기의 저장 애플리케이션을 위한 신규한 2-패스 VBR 코딩 알고리즘", IEEE Trans. Circuits Syst. Video Technol., vol.11, no.3, pp.345-36, Mar. 2001; J. Cai, Z. He, and C. W. Chen, "낮은 비트 레이트 비디오 스트리밍 애플리케이션을 위한 최적의 비트 할당", Proc. ICIP 2002, vol.1, pp.22-5, Sept. 2002 참조) 그 증가된 복잡도가 적당할 때마다 실제로 더 바람직하다. 본 발명은 또한 RD 효율 기반 FBA에 중점을 둔다. 다음에, 종래 기술에 비해 본 발명의 일부 핵심 특징들이 개시된다.

RD 최적화 FBA에서, 첫번째로 중요한 이슈는, 각 프레임의 RD 함수를 정확히 추정하는 방법으로, 이에 대해 지금까지 다양한 서로 다른 RD 모델이 제안되었다. 레이트 모델링의 면에서, He, Kim 및 Mitra 논문에서 제안된 ρ-도메인 레이트 모델은 낮은 계산 복잡도로 높은 모델링 정확도를 제공하고, 따라서 다른 기존의 레이트 모델에 비해 우수한 방법이다. 그러나, 대부분의 기존의 정확한 ρ-도메인 레이트 모델의 애플리케이션은 MB 레벨 레이트 제어에 중점을 둔다. 본 발명은 프레임 레벨 레이트 제어에서 모델을 적용하는 방식이 제공된다. 기존의 MB 레벨 방식과 함께, 완전한 ρ-도메인 레이트 모델링 기반 레이트 제어 프레임워크가 달성될 수 있다. 우리가 알고 있는 바로는, 유사한 주제에 대한 유일한 공개된 작업은 Cai, He 및 Chen 논문인데, 여기서는 DVD 및 영화에 대한 오프라인 비디오 압축 애플리케이션을 대상으로 할 때, ρ-도메인 RD 모델이 전체 비디오 시퀀스의 VBR 코딩에서 최적화된 FBA에 대해 적용된다. 이와 반대로, 우리 방식은 CBR 레이트 제어와 함께 실시간 비디오 스트리밍 애플리케이션을 대상으로 하고, 이것은 인코딩 지연 및 복잡도에 관해 더 엄격한 제한을 제공한다.

소스 코딩 왜곡 모델링의 면에서, 기존의 RD 효율 기반 FBA 방식은 QP 기반 또는 ρ-기반 분석 모델 (He, Kim, Mitra 논문; N. Kamaci, Y. Altunbasak, and R. M. Mersereau, "코시 밀도 기반 레이트 및 왜곡 모델을 통한 H.264/AVC 비디오 코더에 대한 프레임 비트 할당", IEEE Trans. Circuits Syst. Video Technol., vol.15, no.8, pp.994-1006, Aug. 2005; A. Ortega, K. Ramchandran, and M. Vetterli, "최적 트렐리스 기반 버퍼링된 압축 및 신속한 근사화", IEEE Tran. Image Processing, vol.3, no.1, pp.26-40, Jan. 1994 참조) 또는 Lin 및 Ortega 논문에 개시된 인터폴레이션 기반 경험 모델을 채택한다. Yang 및 Boyce 특허 출원에 개시된 모델에서, 더 정확한 분석적 및 경험적 하이브리드 왜곡 모델이 제안되는데, 이것은 신속한 테이블 룩업 계산 때문에 계산 복잡도가 낮다. 본 발명의 논의된 실시예들에서, 제안된 RD 최적화 FBA 해법에서 이 우수한 왜곡 모델이 채택되는데, 이것은 다른 덜 정확한 모델에 비해 개선된 성능을 제공한다.

정확한 소스 코딩 RD 모델을 이용하여, 그 예측 레퍼런스 프레임이 주어지면, 임의의 프레임의 R-QP 및 D-QP 관계 및 모든 MB (움직임 벡터 및 MB 또는 블록 코딩 모드 포함)의 코딩 모드를 정확히 추정할 수 있다. 그러나, 실제적인 FBA 문제에서, 프레임의 RD 함수는 인코딩 프로세스 전에 추정되어야 한다. 움직임 보상 예측 비디오 코딩 프레임워크 때문에, 모든 그 이전의 프레임을 실제로 인코딩하지 않고서 임의의 프레임의 정확한 레퍼런스 및 코딩 모드를 전혀 알 수 없다. 따라서, FBA에서 가정된 레퍼런스 및 코딩 모드와 실제의 인코딩으로부터 생긴 것 사이에 불가피한 불일치가 존재하고, 이것은 기본 RD 모델의 실제 동작 추정 정확도를 명확히 절충할 것이다.

실제로, 이 불일치 문제는 RD 함수의 인터 프레임 종속성 문제로서 오랫동안 인식되어 왔다. 인터 프레임 종속성의 영향을 정확히 설명하기 위해, 일부 기존의 방식은 모든 가능한 QP 프레임 조합에 대해 전체 인코딩 (A. Ortega, K. Ramchandran, and M. Vetterli, "최적 트렐리스 기반 버퍼링된 압축 및 신속한 근사화", IEEE Tran. Image Processing, vol.3, no.1, pp.26-40, Jan. 1994 참조) 또는 전체 모델링 (Lin 및 Ortega 논문에서 설명됨)에 의존하는데, 이것은 금지된 계산 복잡도를 초래한다. 낮은 복잡도에 대한 다른 극단적인 예로서, 일부 방식은 단순히 원 비디오 프레임을 사전 분석에서 레퍼런스 프레임으로서 취하는데 (Yue/Zhou/Wang/Chen 논문 참조), 그러나 이것은 RD 추정 정확도를 크게 훼손하여 결과적인 레이트 제어 성능을 크게 훼손할 수 있다. 복잡도를 성능과 더 잘 교환하기 위해, 일부 해법은 인코딩의 하나의 싱글 패스를 통해 사전 분석을 수행한다 (Cai, He, Chen 논문; Y. Sermadevi and S. Hemami, "다중 제약하의 비디오 코딩을 위한 선형 프로그래밍 최적화", Proc. DCC 2003 참조). 이 불일치 영향을 효과적으로 보상하기 위해, 사전 분석 인코딩의 패스(pass)는 모든 프레임에 대해 임의의 고정된 QP를 이용하거나 (Cai/He/Chen 논문 참조) 목표 비트 레이트와 함께 CBR 코딩 (Sermadevi/Hemami 논문 참조)일 수 있다. 본 발명에서, 원 패스 풀 인코딩 (one pass full encoding)을 사용하는 대신, 레퍼런스 및 코딩 모드 불일치 보상에 대해 고정된 QP를 이용한 단순화된 인코딩의 접근법을 개발하는데, 여기서 P16×16 (또는 I16×16) 모드가 P-프레임 (또는 I-프레임) 코딩에서 적용되고, 엔트로피 코딩은 포함되지 않는다. 실제로, 풀 인코딩은 다소의 코딩 옵션이 포함된 상태에서 다양한 서로 다른 정도로 단순화될 수 있다. 우리의 단순화된 방식은 임의의 코딩 옵션 집합을 포함하는데, 이것은 광범위한 실험 결과로 정당화되는 바와 같이, 양호한 복잡도 대 성능 교환조건을 나타내는 것으로 확인된다.

또한, QP 불일치 영향을 철저히 조사한 후, 우리는 고정된 QP의 레벨을 선택하는 효과적인 방법을 개발한다. 따라서, 본 발명은 사전 분석 불일치 보상에 관한 보다 효과적인 해법을 개시한다.

각 프레임의 RD 데이터를 계산한 후, FBA를 최적화하기 위해 이들을 사용할 수 있다. 개선 기준의 면에서, 흔히 채택되는 방식은 평균 MSE 왜곡을 최소화하는 것이다 (Lin/Ortega 또는 Yue/Zhou 논문 참조). 그러나, 평균 왜곡을 최소화하는 것은 프레임들에 대한 낮은 품질 변동을 보장하지 못하고, 이것은 양호한 지각 비디오 품질을 위해 중요하다. 따라서, 좀 더 진보된 방식은 최대 왜곡 (G. M. Schuster, G. Melnikov, and A. K. Katsaggelos, "종속 양자화기들 사이에서 최적 비트 할당을 위한 최소 최대 기준의 검토", IEEE Trans. on Multimedia, vol.1, no.1, pp.3-17, 1999 참조) 또는 왜곡의 평균 및 변동의 조합 (Lin/Ortega 논문 참조)을 최소화하기 위해 선택된다. 본 발명에서, 일정 레벨의 왜곡의 경우는 최적화 접근법에서 모든 프레임에 대해 가정되고, 그래디언트 하강 (gradient descent) 검색 및 양분(bisectional) 검색을 조합하는 신속한 검색 알고리즘이 목표 비트 레이트 제약을 충족하면서 최소 왜곡 레벨을 구하도록 개발된다. 기존의 최적화 알고리즘과 비교하여, 우리 방식은 더 낮은 복잡도 뿐만 아니라 일정 품질 최대화를 더 직접적으로 대상으로 하여, 개선된 지각 비디오 코딩 품질을 위한 실제적인 비 디오 스트리밍 시스템에서 더 적용가능하다.

제안된 FBA 해법은 또한 유일하게 설계된 RD 모델 파라미터 업데이트 방식에 있고, 여기서 사전분석 및 사전처리 모델의 파라미터는 두개의 서로 다른 크기의 슬라이딩 윈도우와 함께 별개로 유지된다. 실제로, 비디오 신호는 특별한 프레임, 예컨대 올-화이트(all-white) 프레임 또는 완전히 정지한 프레임을 포함할 수 있는데, 이것의 코딩은 매우 적은 비트를 사용하고 모델 파라미터 업데이트에서 포함되지 않아야 한다. 따라서, 본 발명은 효과적인 특별 프레임 식별 및 다른 예외 취급을 포함하여 다양한 시스템 실패를 방지하고 전체 시스템이 실제로 유연하게 실행되도록 유지 한다.

도 4에 도시된 개념을 구현하기 위해, 본 발명은 효과적인 레이트 제어를 위한 ρ-도메인 RD FBA 해법을 제안한다. 우리 방식은 보통 엄격한 지연 제약을 갖지 않는 일방 논-인터랙티브 비디오 스트리밍 애플리케이션을 목표로 한다. 여기서, 우리는 충분한 버퍼 크기를 가정하고, 버퍼 제약은 포함되지 않는다. 전체 GOP는 코딩 전에 이용가능하다고 가정하는데, 이것은 하나의 GOP의 인코딩 지연을 초래한다. 임의의 특정 목표 비트 레이트에 대해, 서로 다른 GOP에 대한 CBR 코딩 및 단일 GOP 내의 및 VBR 코딩이 가정되는데, 이것은 각 GOP가 동일한 총 비트 버짓 (목표 평균 비트 레이트로부터 결정)을 갖고 FBA는 GOP 내 모든 프레임에 대해 수행된다는 것을 의미한다.

인코딩될 픽처로 구성된 원 GOP의 인코딩 프로세스(100)가 도 1에 도시된다. 이용가능한 원 비디오 프레임의 한 GOP를 이용하여, 사전분석 프로세스(105)가 우 선 개시되어 우리의 제안된 단순화된 인코딩 접근법을 이용하여 각 프레임으로부터 RD 모델링 데이터를 수집한다. 장면 전환 검출도 사전 분석에서 실현된다. GOP 내에서 장면 전환이 없으면, GOP는 I-프레임인 제1 프레임 및 P-프레임인 나머지 프레임으로 코딩될 것이다. 그렇지 않으면, 장면 전환 프레임은 I-프레임으로 코딩될 것이다. 단계(110)에서 사전분석 후, 원 GOP의 실제 인코딩이 프레임 단위로 수행된다. 각 P-프레임 코딩 전, 현재 프레임의 RD 데이터가 단순화된 인코딩을 통해 수집된다. 이 지점에서 정확한 예측 레퍼런스 프레임이 이용가능하다. 레퍼런스 불일치가 없다면, 더 정확한 RD 추정이 달성될 수 있다. 이 동작을 단계(115)에서 사전 처리라고 한다. 다음에, 단계(120)에서 최적화된 FBA가 모든 나머지 프레임에서 실행되고, 각 프레임에 일정 양의 비트가 할당된다. 그후, MB 레벨 레이트 제어의 도움으로, 현재 프레임은 할당된 비트 버짓을 달성하기 위해 실제로 인코딩된다. 그 실제 사용된 비트에 기초하여, 이 버짓은 GOP에서 나머지 프레임에 대해 업데이트된다. 사전 처리, FBA 및 인코딩의 단계(110)의 전체 프로세스는 다음 프레임에 대해 반복된다.

각 모듈의 세부사항으로 들어가기 전에, 제안된 FBA 방식에서 채택된 RD 모델을 먼저 검토한다. 레이트 모델링에 대해, 다음과 같이 정의된 He/Kim/Mitra 논문에서 제안된 ρ-도메인 모델을 채택한다.

여기서, ρ(QP)는 QP로 양자화 후 모든 계수에 대한 제로 양자화 계수의 비를 나타낸다. C는 픽처 헤더 비트, 매크로 블록 헤더 비트, 코딩 모드 비트, 및 움직임 벡터 (MV) 비트를 포함하는 계수 코딩 비트가 아닌 모든 다른 오버헤드 비트를 나타낸다. θ는 다른 모델 파라미터 (상기 논문 참조)로서 QP와 별개이다. ρ는 QP와 일대일 매핑을 한다는 것에 유의한다. He/Kim/Mitra 논문에서, R이 ρ와 매우 강한 선형 관계를 갖는다는 것이 보여졌는데, 이것은 모델의 높은 모델링 정확도를 보장한다. 그 우수한 성능은 우리의 광범위한 실험에서 증명되었다.

우리의 왜곡 모델은 다음과 같이 정의된 Yang/Boyce 특허 출원에서 개시된 하이브리드 모델이다:

여기서, A는 한 프레임 내 픽셀의 총수를 나타낸다. Q는 QP와 관련된 양자화 단계 크기를 나타낸다. H.264에서, QP는 0부터 51까지의 범위를 갖고, QP와 Q 사이의 관계는,

Coeff_z(QP)는 QP를 가지고 제로(0)로 양자화될 계수의 크기를 나타낸다. 이 왜곡 모델에서, 전체적인 MSE 왜곡은 두 부분, 즉 논제로(non-zero) 양자화 계수 D_nz(QP)의 왜곡 기여 및 제로 양자화 계수 D_z(QP)의 왜곡 기여로 나뉜다는 것을 알 수 있다. 모델링 근사는 논제로 양자화 계수의 왜곡을 계산할 때 발생하는데, 여기서 균일하게 분포된 양자화 오류가 가정된다. 제로 양자화 계수의 왜곡은 어떤 근사화없이 정확히 계산된다. 이 모델의 가장 현저한 이점은 D_z(QP)의 정확한 계산 이 신속한 테이블 룩업 접근법을 이용하여 수행될 수 있다는 점인데, 이것은 사소한 복잡도 증가를 초래할 뿐이다. 따라서, 이 모델은 낮은 복잡도를 유지하면서 기존의 모델보다 더 높은 정확도를 달성한다.

실제로, 레퍼런스 및 코딩 모드 불일치는 레이트 모델링에 대해 한 것보다 왜곡 모델링의 성능을 심각하게 훼손할 수 있다는 것을 발견하였다. 따라서, 추가 모델 파라미터 α는 아래에 도시된 바와 같이 불일치 효과를 보상하기 위해 도입된다. 여기서, D'는 (2)로부터의 왜곡 추정치를 나타낸다.

사전 분석의 목적은 GOP의 각 프레임에 대한 ρ-QP 및 D'-QP 테이블을 계산하는 것인데, 이것은 최적화된 FBA에서 계속 사용될 것이다. 제안된 사전 분석 방식(200)의 블록도가 도 2에 도시된다 (단계(105) 참조). RD 모델링에서의 레퍼런스 및 코딩 모드 불일치의 영향을 효과적으로 감소시키기 위해, 사전 분석에 대한 단순화된 인코딩 접근법은 프레임을 코딩할 때 하나의 단일 MB 코딩, 즉 P-프레임 또는 I-프레임에 대해 각각 P16×16 또는 I16×16 모드를 이용한다.

단계(205)에서와 같이, 한 프레임으로 H.264의 전체 인코딩 프로세스를 시작하면, 다양한 코딩 모드는 각 MB (단계(210), 단계(215)), 예컨대 P16×16, P16×8, P8×16, P8×8, P8×4, P4×8, P4×4, 스킵(skip), I16×16 및 I4×4 에 대해 체크될 필요가 있는데, 이는 상당한 양의 복잡도를 초래한다. 기존의 사전 분석 방식은 전체 인코딩을 사용하거나 (Cai/He/Chen 참조) 전혀 인코딩을 사용하지 않는다 (Yue/Zhou/Wang/Chen 참조). 본 발명에서, 두개의 극한 사이의 양호한 균형 이 사용되는데, 이것은 복잡도와 모델링 정확도 사이의 더 나은 교환조건을 제공한다. 광범위한 실험을 통해, (i) P16×16 또는 I16×16 모드만을 이용하는 것은 모든 정당한 모드를 이용하여 체크하는 것에 비해 모델링 정확도에 대해 크게 희생하지 않고, (ii) 전체 픽셀 ME가 좋지 않은 모델링 성능을 보임에 따라 서브픽셀 움직임 추정 (ME)이 필요하고, (iii) EPZS (enhanced predictive zonal search) ME는 전체 검색 ME의 그것에 가까운 정확도를 달성하고, 로그 검색의 더 낮은 복잡도 ME 방식의 그것보다 훨씬 더 낫고, (iv) 실제 인코딩의 ME 검색 범위 128을 이용하여, 사전 분석에 대한 양호한 검색 범위는 32가 아니라 64일 수 있다는 것이 결정되었다. 이 유용한 결과는 제안된 사전 분석 방식의 대응하는 설정을 완성한다.

사전 분석 프로세스에서, 레이트 모델링에 대해 ρ-QP 데이터를 수집할 필요가 있기 때문에 엔트로피 코딩은 포함되지 않음에 유의한다. 이보다는, 우리 방식은 예측 레퍼런스에 대한 재구성된 프레임을 얻기 위해, 양자화, 역트랜스폼 (inverse transform), 및 역양자화 등을 필요로 한다. 여기서, 양자화를 위한 QP를 선택하는 방법을 결정할 필요가 있다. 마찬가지로, Cai/He/Chen 논문에서, GOP의 모든 프레임은 사전 분석을 위해 고정된 QP를 사용한다고 가정한다. 이 경우, 원래의 레퍼런스 불일치 문제는 QP 불일치 문제가 되고, 이에 대해 우리는 우리의 채택된 RD 모델의 성능에 미치는 영향을 철저히 조사하였다. 실험에서, 다양한 비디오 시퀀스에 대해, 실제 인코딩, 및 사전 분석을 위한 QP+5 인코딩 또는 QP-5 인코딩에 대해 QP = 25, 35, 45를 적용한다. 실험 결과는, 레이트 모델링의 면에서, 과소추정된 QP (즉, 사전 분석 QP는 실제 인코딩 QP 보다 작다)는 과대추정된 QP 보다 더 바람직하여, QP+5 인코딩의 경우, 레이트 모델링 정확도는 QP-5 인코딩의 정확도보다 훨씬 더 나쁘다. 왜곡 모델링의 경우, 과대추정된 QP는 과소추정된 QP보다 더 낫다. 그러나, 과소추정된 QP 로부터의 성능 훼손은 그리 크지 않다. 또한, 실제로, 정확한 레이트 제어가 버퍼 오버플로 또는 언더플로에 기인한 시스템 실패를 피할 필요가 있기 때문에 정확한 레이트 모델링은 정확한 왜곡 모델링의 그것보다 우선순위가 더 높다. 따라서, 전체적으로, QP 불일치가 불가피한 경우, 과소추정된 QP가 사전 분석에서 과대추정된 QP보다 더 바람직하다. 우리 방식에서, 현재 GOP QP_preA,currGOP의 사전 분석 QP는 다음에 의해 결정된다.

여기서, "preA"는 사전 분석을 나타낸다.

는 이전에 코딩된 GOP의 평균 QP를 나타낸다.

는

가 실제 인코딩 QP 보다 더 과소추정되게 하는 QP 가디언 갭이다.

우리의 사전 분석 방식에서, ρ-QP 및 D'-QP 테이블의 계산 (단계(225)에서)은 신속한 테이블 룩업을 통해 수행되고, 따라서, 전체 계산은 복잡도의 큰 증가를 초래하지 않는다. 참고로, 신속한 계산 알고리즘이 아래에 주어진다 (단계(225, 230, 및 233)에 대해 수행). 이 방법은 픽처의 모든 이러한 매크로블록이 처리될 때까지 단계(210 내지 235)를 이용하여 한 프레임에서 각 매크로블록에 대한 이러한 분석을 반복한다.

블록 레벨 계산: 각 트랜스포밍된 블록에 대해:

1. 초기화:

2. 1-패스 테이블 룩업: 각 계수 Coeff_i에 대해:

1)

2)

은 각 계수 레벨에 대해 특정 레벨의 계수를 제로(0)로 양자화할 최소 QP를 나타내는 테이블이다.

3)

3. 합산: 각 QP에 대해, QP_min 에서 시작하여 QP_max 까지:

상기로부터, 모든 QP의 ρ 및 D_z는 모든 트랜스폼 계수에 대해 QP_level_Table 룩업의 1-패스를 통해 정확히 계산될 수 있고, 이로 인한 계산 비용은 상당히 낮다. 프레임의 모든 블록에 대해 {ρ (QP),D_z(QP)}_QP를 구한 후, 아래에 도시된 바와 같이 대응하는 프레임 레벨 양을 얻기 위해 이 데이터들의 평균을 각각 구할 수 있다 (단계(240)). 여기서, B는 한 프레임에서 블록의 총 수를 나타낸다.

프레임 레벨 계산: 각 QP에 대해:

1)

2)

3) D'(QP)는 (2)에서와 같이 ρ (QP) 및 D_z(QP)를 이용하여 계산될 수 있다.

P-프레임을 인코딩하기 전에 (도 1의 단계(125)에서 처럼), 이전의 프레임 내지 P 프레임은 이미 코딩되었고, 따라서 실제 레퍼런스는 알려져 있음에 유의한다. 이 점에서, 더 정확한 ρ(QP) 및 D'(QP) 데이터가 프레임의 사전 처리를 통해 계산될 수 있다 (도 1의 단계(115)). 양자화 및 다른 재구성 단계를 더 이상 필요로 하지 않는다는 점을 제외하고, P-프레임 사전 처리의 단계는 사전 분석에서와 거의 동일하다.

FBA 알고리즘 (단계(120))의 바람직한 실시예가 FBA 흐름도(300)로서 도 3에 도시된다. 사전분석 및 사전처리 단계로부터의 파라미터는 인코딩되고 있는 프레임에 대해 사용되고, 여기서 이러한 파라미터는 단계(305)에서 메모리로부터 얻어진다. 또한, 인코더는 인코딩된 픽처 그룹에 대해 전체적인 비트 레이트를 충족하도록 단계(310)에서 GOP에서 인코딩될 프레임에 대해 남아 있는 비트 버짓을 고려하여야 한다. 남아있는 버짓이 충분한지 여부에 대해 고려한다 (단계(315)에서).

서로 다른 프레임들에 대해 일관된 비디오 품질을 달성하기 위해, 우리의 FBA 방식은 일정한 왜곡 최소화에 직접 초점을 맞추고 있는데, 여기서 고정된 레벨의 왜곡이 GOP의 모든 남은 프레임에 대해 가정되고, 이 알고리즘은 목표 비트 버짓을 충족하는 최소의 일정한 왜곡을 검색한다. 사전 분석에서 레퍼런스 및 코딩 모드 불일치를 효과적으로 보상하는 단순화된 인코딩으로, 서로 다른 프레임의 RD 함수들은 독립적이라고 가정할 수 있고 이것은 전역 최적점을 위한 단순하고 직접적인 검색 방식으로 된다. 이와 반대로, 종속적인 RD 함수들을 가정하면, 기존의 방식은 동적 프로그래밍 및 반복적 하강 검색을 제안하는데, 이것은 높은 계산 복잡도를 포함하거나 국부적 최적 해법을 준다.

우리의 일정 왜곡 검색 알고리즘(325)은 그래디언트 하강 검색 및 양분(bisectional) 검색을 모두 포함한다. 실제로, 검색 복잡도에 영향을 미치는 다른 중요한 요인은 초기 검색 지점이다. 검색은 좋은 시작 지점이 이용되면 훨씬 더 빠를 수 있다. 우리 방식에서, 초기 왜곡 레벨은 일정한 QP 결과로부터의 평균 왜곡인데, 이것은 최적의 일정 왜곡 레벨로의 근사치를 준다. 검색 프로세스는 달성된 레이트와 목표 레이트 사이의 상대 오류가 임의의 임계값 미만일 때 또는 반복 횟수가 임의의 한계에 도달할 때 종료한다. 실험 결과는 대부분 검색이 5 내지 6회 반복 이내에 종료한다고 나타나는데, 이것은 상당히 빠른 것이다. 검색 알고리즘은 다음과 같이 설명된다. 여기서, 간결하게 하기 위해, 공통의 양분 검색에 대한 세부사항은 생략된다. 또한, R_Target는 GOP에서 모든 나머지 프레임에 대한 계수 코딩에서의 총 비트 버짓을 나타내고, 오버헤드 비트는 이미 배제된다. 이것은 단순히 QP가 계수 코딩에서 사용된 비트에만 영향을 미치고 오버헤드 비트에는 미치지 않기 때문이다.

일정한 왜곡 기반 FBA 알고리즘:

1. 일정 QP (단계(325)):

,

여기서, K는 GOP에서 나머지 코딩되지 않은 프레임들의 수를 나타내고, R_i는 C 없는 점을 제외하고 (2)에서처럼 계산된다. 신속한 양분 검색은 최적 QP 검색을 위해 이용된다.

2. 초기화 (단계(330)):

여기서, D_i는 (4)에서처럼 계산된다.

3. D⁽ⁿ⁾이 주어지면, 각 코딩되지 않은 프레임 i에 대해, 양분 검색을 이용하여 QP_i ^*로 표기된 최선의 QP를 구한다. 그후, 이 QP들을 이용하여 대응하는 R_i(QP_i ^*)를 구하고, 따라서

를 구한다.

4.

이 임계값 (우리 실시에서는 3%)보다 작으면, 7로 진행한다.

5. n=0이거나, 또는 n>0 및

이면, 검색은 최적치 D를 넘어가지 않는다. 그래디언트 하강 검색을 이용하고,

으로 업 데이트한다. (우리 실시에서는,

) 그렇지 않으면, 검색은 이미 최적치를 지난다. 양분 검색을 이용하고,

으로 업데이트한다.

6. n이 제한값 (우리 실시에서는, 10)에 도달하면, 7로 진행한다. 그렇지 않으면, n=n+1, 단계 3으로 진행한다.

7. 검색이 종료하고,

은 현재 프레임에 대한 비트의 총 수이다. 여기서, A는 프레임 크기를 나타낸다. [3-7은 단계(335)를 나타낸다]

알고리즘을 실제로 원활하게 실행되게 하기 위해, 특별한 취급을 위한 상기 극한 상황을 항상 식별할 필요가 있다. 도 3에 도시된 바와 같이, FBA의 시작에서, 계수 코딩에 대한 나머지 비트 버짓이 충분한지 체크한다 (단계(315)). 총 버짓에 대한 계수 코딩 버짓의 비가 임의의 임계값 (우리 실시에서는, 0.15) 미만이면, 버짓은 불충분한 것으로 간주된다. 이 경우, 최적화된 FBA는 불필요하고, 간단한 애드 혹 (ad hoc) 비트 할당 방식이 더 적절하다 (단계(320)). 구체적으로 인코딩을 위한 비트가 부족하거나 원하는 전체적인 비트 레이트를 충족시키기에 너무 적을 때, 픽처 헤더 코딩을 위한 더 많은 비트가 할당된다. 나머지 비트가 픽처 헤더 비트 보다 훨씬 더 많으면, 과잉 비트는 나머지 모든 프레임에 균등하게 할당될 것이다.

연관된 RD 모델 파라미터 (즉, (2)에서 θ 및 C, (4)에서 α)를 효과적으로 업데이트하는 방법은 궁극적인 레이트 제어 성능에 크게 영향을 미칠 수 있는 또다른 중요한 문제이다. 사전 분석 및 사전 처리가 서로 다른 모델링 성능을 제공하 므로, 자신들의 모델 파라미터는 별개로 계산된다. 우리 방식에서는, 공통 슬라이딩 접근법을 채택하는데, 여기서 현재 파라미터는 임의 크기의 윈도우 내에 과거 코딩 결과로부터 업데이트된다. 더 큰 윈도우 크기는 더 나은 안정성을 제공하지만, 더 나쁜 적응성도 제공한다. 업데이트된 사전 분석 모델 파라미터 (단계(140)로부터)가 현재 프레임을 제외한 모든 나머지 코딩되지 않은 프레임에서 적용될 것이므로, 안정성이 사전 처리에서 보다 더 중요하다. 따라서, 우리 해법에서는, 사전 처리를 위해, 현재 프레임 파라미터를 단순히 마지막 프레임 코딩 결과 (단계(150)에서 레퍼런스 프레임의 저장)로부터 도출된 것을 이용하여 업데이트하는 한편, 사전 분석을 위해서는, 슬라이딩 윈도우 업데이팅을 사용하는데, P-프레임 파라미터 업데이팅을 위한 윈도우 크기는 6이고, I-프레임 업데이팅용은 3이다. I-프레임 파라미터 업데이팅이 더 짧은 윈도우 크기인 이유는 실제로 I-프레임이 GOP의 제1 프레임이거나 장면 전환 프레임이기 때문이다. 따라서, P-프레임에 대한 것과 동일한 윈도우 크기를 사용하면, 윈도우는 실제로 훨씬 더 긴 시간 거리에 이를 것이고, 따라서 충분한 적응성을 제공할 수 없다.

더 설명되는 바와 같이, 각 프레임이 GOP에서 인코딩되기 위하여, 한 프레임과 연관된 ρ-QP 및 D'-QP (단계(115, 120, 125, 135 및 140))는, 인코딩된 후 (단계(155)) 레퍼런스 프레임과 같은 프레임을 사용하도록, 여기서 이러한 인코딩된 프레임이 재구성되고 (단계(15) 참조), 이때 이 GOP에서 다음 프레임이 사전 처리되고 인코딩되어야 한다 (단계(115, 120, 125, 135 및 140)).

효과적인 파라미터 업데이팅에 대한 다른 중요한 기준은 업데이팅 계산으로 부터 이 특별한 프레임들의 코딩 결과를 배제하는 것이다 (단계(135)). 실제로, 비디오 신호는 올-화이트 (all-white) 프레임 (특히 최근 영화 트레일러에서), 및 코딩이 극히 적은 양의 비트를 사용할 수 있는 스코어보드, 주식 정보 등을 보여주는 뉴스에서와 같이 완전한 정지 프레임과 같은 다양한 종류의 특별한 프레임을 포함할 수 있다. 이 프레임의 특징이 다른 일반적인 비디오 프레임으로 일반화될 수 없으므로, 그 코딩 결과는 파라미터 업데이팅에서 포함되지 않아야 한다. 우리 방식에서는, 다음 조건들, 즉 (i) 총 비트에 대한 계수 코딩 비트의 비가 15% 미만; (ii) 프레임의 모든 잉여 MB의 평균 변동이 0.1 미만; (iii) 모든 MB에 대한 평균 QP가 10 미만; (iv) 픽셀당 결과적인 비트가 0.01 미만인 조건들 중 어느 하나가 충족될 때, 코딩된 프레임을 특별한 프레임으로 식별한다.

인코딩 프로세스(100)는 특정 GOP의 모든 프레임이 인코딩될 때까지 반복되는데 (110에서 도시된 바와 같이), 여기서 이 인코딩된 GOP는 전체적인 필요한 비트 레이트 (CBR)를 충족시킨다. 단계(160)에서, QP_preA는 단계(152)에서 결정된

모두의 총 합에 의해 계산된다. 계산된 QP_preA는 총 합

의 평균으로서 결정될 것이고, 평균 양자화 레벨의 결과는 그것으로부터 감산된 가드 값 (guard value)을 갖는다 (수학식 5 참조).

개시된 FBA 해법은 낮은 움직임, 중간 움직임, 및 높은 움직임 시퀀스 (CIF 및 QCIF 시퀀스)를 모두 포함하는 다양한 테스팅 비디오 시퀀스를 이용하여 다양한 관련된 코딩 비트 레이트로 동작한다.

본 발명의 상기 및 다른 특징 및 이점은 여기 교시 내용에 기초하여 당업자 에게 용이하게 확인될 수 있다. 본 발명의 교시내용은 다양한 형태의 하드웨어, 소프트웨어, 펌웨어, 특수목적 프로세서, 또는 그 조합으로 구현될 수 있음은 물론이다.

더 바람직하게, 본 발명의 교시내용은 하드웨어 및 소프트웨어의 조합으로서 구현된다. 또한, 소프트웨어는 프로그램 저장 장치에서 확실히 구현된 애플리케이션 프로그램으로서 구현될 수 있다. 애플리케이션 프로그램은 임의의 적절한 아키텍처를 포함하는 기계로 업로딩되고 이에 의해 실행될 수 있다. 바람직하게는, 이 기계는 하나 이상의 중앙처리장치 ("CPU"), RAM 및 입/출력 ("I/O") 인터페이스와 같은 하드웨어를 갖는 컴퓨터 플랫폼 상에서 구현된다. 컴퓨터 플랫폼은 또한 운영체제와 마이크로인스트럭션 코드를 포함할 수 있다. 여기 설명된 다양한 프로세스 및 기능은 마이크로인스트럭션 코드의 일부이거나 애플리케이션 프로그램의 일부, 또는 CPU에 의해 실행될 수 있는 임의의 그 조합일 수 있다. 또한, 다양한 다른 주변장치는 추가 데이터 저장 장치 및 프린팅 장치와 같은 컴퓨터 플랫폼에 연결될 수 있다.

첨부 도면에 도시된 구성 시스템 컴포넌트들 및 방법들 중 일부가 소프트웨어로 구현되는 것이 바람직하므로, 시스템 컴포넌트들이나 프로세스 기능 블록들 사이의 실제 연결은 본 발명이 프로그램되는 방식에 따라 다를 수 있다. 여기 교시내용이 주어지면, 당업자라면 본 발명의 상기 및 유사한 구현예나 구성을 생각할 수 있을 것이다.

상기 실시예들은 첨부 도면을 참조하여 여기 설명되었지만, 본 발명이 이 실 시예들에 한정되는 것이 아니고 본 발명의 범위나 사상에 벗어남 없이 당업자에 의해 다양한 변경 및 수정이 가능할 수 있다. 이러한 모든 변경과 수정은 첨부된 청구범위에 설명된 바와 같이 본 발명의 범위 내에 포함되는 것으로 의도된다.

Claims

목표 비트 레이트로 비디오 픽처들의 그룹을 인코딩하는 방법으로서,

인코딩될 픽처들의 그룹으로부터 적어도 제1 프레임 및 제2 프레임에 대한 파라미터들을 유도하는 단계;

상기 제1 프레임을 인코딩하고 또한 상기 인코딩의 결과들에 응답하여 상기 제1 프레임에 대한 모델 파라미터를 결정하는 단계;

(a) 상기 제1 프레임에 대한 총 비트들의 수에 대한 계수 코딩 비트들의 수의 비가 제1 임계값을 초과하지 않고,

(b) 상기 제1 프레임에 대한 잉여(residue) 매크로블록들의 평균 변동(average variance)이 제2 임계값을 초과하지 않고,

(c) 상기 제1 프레임을 인코딩하는데 이용되는 매크로블록들의 평균 양자화 파라미터가 제3 임계값을 초과하지 않으며,

(d) 상기 제1 프레임을 인코딩하기 위한 비트 레이트가 제4 임계값을 초과하지 않는 조건들 중 적어도 하나에 응답하여 상기 제1 프레임이 특별한지(unusual) 여부를 결정하는 단계:

상기 제1 프레임이 특별한지 여부를 결정하는 단계에 응답하여 상기 제1 프레임에 대한 모델 파라미터에 기반하여 상기 제2 프레임에 대한 모델 파라미터를 결정하는 단계: 및

상기 제2 프레임의 인코딩을 위한 할당된 비트 레이트를 예비하는 단계 - 상기 할당된 비트 레이트는 적어도 제1 프레임 및 제2 프레임과 연관된 유도 파라미터들, 및 상기 제2 프레임에 대한 모델 파라미터로부터 결정됨 -

를 포함하는 인코딩 방법.
제1항에 있어서,

상기 제2 프레임에 대한 모델 파라미터를 결정하는 단계는 상기 제1 프레임이 특별한 것으로 결정되지 않는다면 상기 제1 프레임에 대한 모델 파라미터에 기반하여 상기 제2 프레임에 대한 모델 파라미터를 업데이트하는 인코딩 방법.
제1항에 있어서,

상기 제2 프레임은 상기 할당된 비트 레이트와 연관된 양자화 레벨과는 다른 양자화 레벨에서 인코딩되는 인코딩 방법.
제3항에 있어서,

상기 인코딩 양자화 레벨은 상기 제2 프레임에 대한 매크로블록 레벨 비트 할당 동작을 수행할 때 결정되는 인코딩 방법.
제1항에 있어서,

상기 제2 프레임에 할당된 비트 레이트는 ρ-도메인 프레임 레벨 비트 할당 동작을 이용하여 결정되는 인코딩 방법.
제5항에 있어서,

상기 프레임 레벨 비트 레이트 할당은 각각의 프레임이 동일한 왜곡 요인을 갖는다고 가정하여 결정되는 인코딩 방법.
제6항에 있어서,

상기 픽처들의 그룹과 연관된 프레임들 모두는 이러한 프레임들이 픽처들의 그룹의 상기 목표 비트 레이트를 충족하도록 인코딩될 때 비트 레이트들이 각각의 프레임에 할당되도록 분석되는 인코딩 방법.
제1항에 있어서,

상기 인코딩된 픽처들의 그룹 및 제2 인코딩된 픽처들의 그룹은 동일한 목표 비트 레이트를 갖는 인코딩 방법.