KR100335052B1

KR100335052B1 - 프레임 레벨 속도 제어 방법

Info

Publication number: KR100335052B1
Application number: KR1019990040208A
Authority: KR
Inventors: 라비크리쉬나므르티; 스리람세투라남
Original assignee: 구자홍; 엘지전자주식회사; 윌리암 제이. 뷰케; 사노프 코포레이션
Priority date: 1998-09-18
Filing date: 1999-09-17
Publication date: 2002-05-02
Also published as: JP3436507B2; US6141380A; WO2000018137A1; KR20000023276A; JP2000102008A

Abstract

특정 지속시간(예를 들어, 연속 프레임의 특정 수)의 타이밍 윈도우(timing window)에 대하여 일정한 비트 속도를 추정하는데, 여기서 인코딩될 현재 프레임은 타이밍 윈도우 내부에 놓이게 된다. 현재 프레임에 대한 타깃 비트 속도는 윈도우 내에서 다른 프레임들을 인코딩하기 위해 이미 사용된 비트수를 계산하고, 그런 다음 타이밍 윈도우에 할당된 남아 있는 이용 가능한 비트는 타이밍 윈도우 내의 인코딩되지 않은 프레임들에 균등하게 할당될 것이라고 가정함으로써 처음 선택된다. 그리고 나서, 타깃 비트 속도는 장면 내용, 인코더 상태 및 버퍼에 대한 참작(consideration)에 의하여 선택적으로 조정된다. 그리고, 타깃 비트 할당 및 프레임 스키핑(skipping)의 결합을 통하여, 공간 및 시간 해상도(resolution)가 수용 가능한 범위 내에서 유지되는 동시에 버퍼 지연 제한이 충족된다. 또한, P-온리 코더(P-only coder)에 부가하여 PB 프레임을 포함하도록 확대될 수 있다.

Description

프레임 레벨 속도 제어 방법{Method for controlling frame-level rate}

본 발명은 영상 처리, 특히 비디오 압축을 위한 프레임 레벨 속도 제어 방법에 관한 것이다.

본 발명은 변리사 등록 번호 SAR 12728P로서 1998년 9월 18일에 출원된 미국 가출원번호 60/100,939의 출원 일자에 대한 권리를 주장한다.

일반적으로, 비디오 압축의 목적은 영상 데이터를 인코딩하여 비디오 영상의 시퀀스를 나타내는데 사용되는 비트수를 줄임과 동시에, 디코딩된 비디오 시퀀스의 적절한 품질 레벨을 유지하는데 있다. 상기 목적은 실시간 화상 회의와 같이 전송 대역폭 한정이 비트 속도, 즉 비디오 시퀀스에서 각 영상을 인코딩하는데 사용되는 비트 수에 대해 세심한 제어를 요구하는 특정 출원에서 특히 중요하다. 이러한 화상 회의 시스템에서의 전송 및 다른 처리 조건을 충족시키기 위하여, 때로는 인코딩된 비디오 비트 스트림에서 상대적으로 고정된 비트의 흐름을 가지는 것이 바람직하다.

그러나, 비교적 일정한 비트 속도를 달성하는 것은 매우 어려운 일일 수 있으며, 특히 다른 압축 기술을 이용하여 비디오 시퀀스 내의 서로 다른 영상을 인코딩하는 비디오 압축 알고리즘에 있어서는 더욱 그러하다.

이때, 상기 비디오 압축 알고리즘에 따른 압축 처리를 위해 영상(image)은 다음과 같이 서로 다른 형태의 프레임으로 나타내어질 수 있다.

o 프레임내(Intra-frame) 압축 기술만을 사용하여 인코딩되는 인트라(I) 프레임;

o 이전 I 또는 P 프레임에 의한 프레임간(Inter-frame) 압축 기술을 사용하여 인코딩되며, 그 자체가 하나 이상의 다른 프레임을 인코딩하는 기준 프레임으로서 사용될 수 있는 예측(P) 프레임;

o 이전 및 후속 I 또는 P 프레임에 의한 양방향 프레임간 압축 기술을 사용하여 인코딩되며, 다른 프레임 인코딩에는 사용될 수 없는 양방향(B) 프레임; 및

o H.263 비디오 압축 알고리즘에서와 같이 단일 프레임으로서 인코딩되는 두 개의 영상 -- P 프레임 및 후속 B 프레임 -- 에 해당하는 PB 프레임.

인코딩될 실제 영상 데이터에 따라, 즉 이러한 서로 다른 프레임 형태들을 인코딩할 때는 통상적으로 다른 비트수가 요구된다. 예를 들어, I 프레임은 통상 가장 많은 비트수가 필요한 반면, B 프레임은 가장 적은 비트수가 필요하다.

통상적인 변환을 근거로 한(transform-based) 비디오 압축 알고리즘에서, 이산 코사인 변환(DCT)과 같이 블록에 의한 변환은 픽셀값 또는, 예를 들면 움직임이 보상된 프레임간 차별화 알고리즘에 의하여 발생된 픽셀 오차에 해당하는 영상 데이터 블록에 적용된다. 상기 변환 결과로서 발생하는 각 블록의 변환 계수(coefficient)는 후속 인코딩(예를 들면, 가변 길이(variable-length) 인코딩을 뒤따르는 런 길이(run-length) 인코딩)을 위해 양자화된다. 상기 변환 계수의 양자화 정도(양자화 레벨(quantization level)이라고도 함)는 영상 데이터를 나타내기 위하여 사용되는 비트 수 및 그 결과로서 디코딩된 영상의 품질에 모두 직접적인 영향을 미친다. 일반적으로, 양자화 레벨이 높을수록 비트 수가 적어지고 질이 낮아짐을 의미한다. 이처럼, 양자화 레벨은 흔히 비트 속도와 영상의 질간의 교환(tradeoff)을 제어하는 주요 변수로서 사용된다.

그러나, 양자화 레벨만을 사용하는 것은 특정 출원의 대역폭 및 품질 조건을 충족시키는 데 부족할 수 있다. 이와 같은 상황에서는, 하나 이상의 프레임이 비디오 시퀀스로부터 떨어져 나오는 프레임 스키핑과 같이 좀더 과감한 기술을 적용하는 것이 필요할 것이다. 이러한 프레임 스키핑은 장기적인 공간 품질을 적절한 레벨로 유지하기 위하여 디코딩된 비디오 스트림의 단기적 시간 품질을 희생하는 데 사용될 수 있다.

따라서, 본 발명의 목적은 실시간 처리 및 전송 요구가 속도 제어를 특히 중요하게 만드는 화상 회의등에서 비디오 압축 처리를 위해 프레임 레벨 비트 속도를 제어하는 방법을 제공함에 있다.

도 1은 본 발명에서 현재 프레임을 인코딩하기 위한 타깃 비트 수의 선택이 P-프레임-온리 코더에 의해 실행되는 예를 보인 처리 흐름도

도 2는 본 발명에서 프레임 스키핑 과정의 일 예를 보인 처리 흐름도

일 실시예에 따르면, 본 발명은 비디오 시퀀스에서 현재 프레임에 대한 타깃 비트 속도를 선택하기 위하여 비디오 시퀀스의 비디오 압축 처리를 실행하는 기계에 의한 비트 속도 제어 방법이며, 다음과 같은 단계로 구성된다. (a) 비디오 시퀀스에서 이전 M 프레임을 인코딩하는데 사용되는 비트 수를 산출하는 단계와(여기서, M은 특정 프레임 수), (b) 다중 프레임 비트 다발(multi-frame bit budget)에서 이전 M 프레임을 인코딩하는데 사용되는 비트 수를 감산함으로써, 비디오 시퀀스에서 N 프레임을 인코딩하는데 이용 가능한 특정 비트수에 해당하는 다중 프레임 비트 다발의 사용되지 않은 부분에 대하여 이용 가능한 비트수를 산출하는 단계와(여기서 N은 특정 프레임 수이며, M < N), (c) 상기 다중 프레임 비트 다발의 사용되지 않은 부분을 (N-M)으로 나눔으로써 현재 프레임에 대한 타깃 비트 속도를 산출하는 단계와, (d) 상기 타깃 비트 속도에 의하여 현재 프레임을 인코딩하는 단계.

본 발명의 기타 측면, 특징 및 이점은 다음의 상세 설명, 첨부 청구항 및 첨부된 도면에 의해 명확해진다.

이하, 본 발명의 바람직한 실시예를 첨부도면을 참조하여 상세히 설명한다.

본 발명은 일 실시예로서, 장면 내용, 인코더 상태 및 버퍼에 대한 고려에 의하여 프레임 레벨 타깃을 할당(예를 들어, 비트 할당)하는 실시간 화상 회의 시스템에서의 프레임 레벨 속도 제어 및 스키핑 방법에 관한 것이다.

본 발명에서의 알고리즘은 특정 지속시간(예를 들어, 연속 프레임의 특정수)의 타이밍 윈도우(timing window)에 대한 지속적 비트 속도를 유지하는 동시에, 각각의 프레임을 인코딩하는데 사용되는 타깃 비트 속도 및 실제 비트 속도의 변환을 허용한다. 또한, 타깃 비트 할당 및 프레임 스키핑의 결합을 통하여, 공간 및 시간 해상도가 수용 가능한 범위 내에서 유지되는 동시에 버퍼 지연 제한이 충족된다. 상기 알고리즘은 P 프레임에 부가하여 PB 프레임을 포함하도록 확장될 수 있다.

본 발명의 상세 설명을 위해 먼저, 본 발명에서 사용되는 기호에 대해서 정의한다.

R: 비트/초(bit/sec) 단위를 갖는 채널 전송 속도 (예를 들어, 24000비트/초).

Bpp: 픽처당 비트 =(예를 들어, 30fps의 원래 프레임 속도 및 R=24Kbps에 대하여, Bpp는 픽처당 800 비트이다).

Bprev: 이전 프레임을 인코딩하는데 사용되는 비트.

fs: 바람직한 평균 프레임 속도에 해당하는 프레임 스킵(예를 들어, 60fps 및 전송 속도 15fps를 가지는 입력 비디오에 대하여, fs는 4이다).

act_buf_size: 인코더 버퍼의 실제 크기이며, 픽처 포맷에 의해 조정됨.

VBVf_b: 현재 인코딩되는 프레임을 버퍼에 저장하기 전의 버퍼 충만도.

VBVf_a: 현재 인코딩되는 프레임을 버퍼에 저장한 후의 버퍼 충만도.

max_buf_size: 고정 상태 버퍼의 최대 크기. 일 실시예에서, 이 크기는 R/2로 선택되는데, 이것은 버퍼 지연의 상한선이 0.5초임을 의미한다.

ssbs: 바람직한 VBVf_a(고정 상태 버퍼 크기).

S, Sp: 각각, 현재 프레임에 대한 움직임 보상 이후의 프레임간 왜곡 및 이전 프레임의 특정 수에 대한 평균 왜곡.

프레임 스키핑 전략

본 발명은 버퍼 지연 제한을 충족하는 동시에 공간 품질을 주어진 비트 속도에서 적절하게 유지하기 위하여, 프레임 스키핑이 수용될 수 있다. 일 실시예에서, 버퍼에서 프레임에 대한 평균 지연은 ssbs/R로 한정되며, 최대 지연은 타깃이 충족되는 정확도에 의해 지시된다. 보통, 최대 지연은 ssbs/R보다 약간 더 클 뿐이다. 이때, 픽처 인코딩 이후의 스킵은 다음과 같이 계산된다.

set skip=1, VBVf_b=VBVf_a - Bpp.

while (VBVf_b + Bf > ssbs) {

if (VBVf_b -Bpp < 0) 브레이크; /*이는 언더플로우(underflow) 및 비트의 저이용(under-utilization)을 피한다*/

skip++

VBVf_b=VBVf_b-Bpp

}

여기서, Bf는 인코딩될 다음 프레임에 대한 추정치이며,로 계산된다. 그러므로, 본 발명의 알고리즘은 버퍼 지연을 ssbs/R 주위에서 유지한다.

P-프레임 온리 코더에 대한 프레임 레벨 속도 제어

도 1은 본 발명의 일 실시예로서, 현재 프레임을 인코딩하기 위한 타깃 비트수 T를 선택하기 위하여 P-프레임-온리 코더에 의해 실행되는 동작 흐름도를 도시한다.

프레임 윈도우에 대한 타깃 계산

도 1을 보면 인코딩되고 있는 현재 프레임의 중앙에 위치하는 W 프레임의 윈도우에 대하여 일정한 비트 속도를 유지하고자 하는 시도가 행해진다. 이를 위해 상기 윈도우 내의 첫번째 N1 프레임에 대하여, 상기 프레임들을 인코딩하는데 사용된 비트 수(B1)가 계산된다(단계 102). 이때, 인코딩되기 위하여 남은 프레임 수는 N2=(W-N1)/fs이다. 여기서 N1은 스킵되는 프레임을 포함하여 처리된 전체 프레임 수이다. 그리고, 전체 윈도우에 대한 이용 가능한 비트수는 Bw=W*Bpp이다.

또한, 현재 프레임에 대한 타깃 비트 수 T는 (Bw-b1)/N2이다(단계 104 및 106). 상기 계산은, 윈도우 내에 남아 있는 각 프레임에 대해서는 같은 수의 비트가 사용될 것이라는 추정으로부터 근원한다. 이때, 상기 타깃 비트 수 T는 조절될 수 있다.

타깃 조절(target modification)

이 부분은 인코더 상태 및 장면 내용에 의하여 타깃 비트 수 T를 조절하기위한 알고리즘을 기술한다. 여기서, 타깃 비트 수 T는 다음의 선택적 요건들중 하나 이상의 원인에 의해 조절된다. (a) 양자화기 포화(quantizer saturation), (b) 이전 프레임의 왜곡과 비교해서 움직임 보상된 왜곡, (c) 이전 프레임에 대한 비트 카운트(bit count) 및 (d) 버퍼 충만도.

특히, 양자화기 포화에 있어서 양자화기 매개변수(quantizer parameter) QP가 이전 픽처에 대해 포화되었다면(예를 들면, 31 양자화 레벨을 가지는 시스템에 대하여 QP > 25를 의미함), 현재 프레임 타깃 T는 다음의 수학식 1과 같이 증가할 것이다(단계 108).

T=T*(1+β*(QP-QP _thresh ))

여기서 β는 특정 인자(specified factor)(예를 들어, 0.06)이고, QP_thresh는 특정 포화된 양자화 레벨(예를 들면, 25)이다.

한편, 양자화기 매개변수 QP가 포화되지 않으면, 상기 타깃 T는 현재 및 이전 왜곡에 의해 다음의 수학식 2와 같이 조절될 수 있다(단계 110).

상기 수학식 2에서 S는 현재 프레임에 대해 움직임 보상된 왜곡(예를 들어, 절대 픽셀차의 합(sum of absolute pixel differences ; SAD) 측정에 의함)이고, Sp는 이전 M 프레임에 대한 평균 움직임 보상된 왜곡이며(예를 들어, M=2), k>1이다(예를 들어, k=4). Sp는 바람직하게, 가장 최근의 데이터를 강조하는 가중치 평균(weighted average)이다.

또한, 타깃 T는 이전 프레임에 사용된 비트수(Bprev)에 의해 다음의 수학식 3과 같이 조절될 수 있다(단계 112).

T=α*T+(1-α)*Bprev

상기 수학식 3에서, 0<=α<=1(예를 들면, α=0.7)이다. 상기 단계 112는 기준 프레임의 품질에 대한 변화를 줄이며, 시간에 대한 어떤 저하가 스무스하도록 도움을 준다.

또한, 상기 타깃 T는 버퍼 충만도에 의하여 다음의 수학식 4와 같이 조절될 수 있다(단계 114).

상기 수학식 4에서, a는 VBVf_b(현재 인코딩되는 프레임을 버퍼에 저장하기 전의 버퍼 충만도)이고, b는 ssbs - VBVf_b이며, λ>1이다. 상기 단계 114는 알고리즘이 상기 버퍼를 이용할 수 있도록 한다. 만일, VBVf_b가 원하는 고정 상태 버퍼 크기의 반보다 작다면(예를 들어, ssbs/2), 타깃 T는 증가한다. 반대의 경우, 타깃 T는 감소한다.

그리고 나서, 상기의 결과로 발생하는 타깃 T는 프레임을 인코딩하기 위해 사용된다(단계 118). 예를 들면, H.263+ 표준에서 TMN 5 또는 TMN 8 방법(strategies)에 의한 QP(quantization parameter) 매크로블록 적응에 이용한다.

큰 움직임 예외(high-motion exception)

움직임이 큰 영역에서, 상기 알고리즘은 공간 품질의 손실을 야기할 수 있으며 회복하는데 장시간이 걸릴 수 있다. 그러므로, 이러한 상황에서 상기 알고리즘은 버퍼를 이용하여 타깃 T를 상승시키도록 선택할 수 있다(단계 116). 더욱이, 상기 알고리즘이 '고정 상태'로 복귀하면, 상기 알고리즘은 완만하게 프레임 타깃을 고정 상태 값(예를 들어, 대략 fs*Bpp)으로 감소시킨다. 완만한 저하(graceful degradation)는 타깃에 대한 가중치 평균과 이전 비트 카운트 Bprev에 의하여 이루어질 수 있는데, 예를 들면, 하기의 수학식 5와 같이 나타낼 수 있다.

T=0.8T + 0.2Bprev

상기 단계 116은 갑작스런 움직임이 존재하더라도 상기 알고리즘이 프레임의 공간 품질을 유지할 수 있도록 하며, 장면 움직임이 감소하면 상기 알고리즘을 빠르게 회복시킨다.

한편, 상기 큰 움직임은 현재 움직임이 보상된 왜곡(S)과 이전 움직임 보상된 왜곡의 가중치 평균(Sp) 사이의 비교에 의하여 검출할 수 있다. 일 실시예에서, 타깃 T의 조절은 스무스한 곡선에 접근하도록 선택된 세 개의 선형 세그먼트(linear segment)에 의해 수행되며, 하기의 수학식 6과 같다.

여기서 인자(factor)는이다.

PB 또는 P 프레임을 사용하는 코더에 대한 프레임 레벨 속도 제어

상기에서 기술된 방법은 P 프레임만을 코딩하도록 설계되었다. 이 부분에서는 PB 프레임을 가지는 코더로 확장된다.

즉, P 프레임과 PB 프레임이 혼합되어 있을 때, P 프레임에 대한 지연은 PB 프레임의 B 프레임에 대한 지연보다 상당히 낮다(같은 스킵에 대하여). 설명의 편의를 위해, 상기 알고리즘은 일정한 프레임 스킵 fs에서 동작한다고 가정한다. 상기의 경우, 디코더에서 통상적 P-온리 프레임에 대한 포착 순간에서부터 가용 시기까지의 전체 시스템 지연은 다음의 수학식 7과 같이 나타난다.

동시에, 통상적 PB 프레임의 B 프레임에 대한 지연은 다음의 수학식 8과 같이 나타난다.

일반적으로, VBVf_b는 P 프레임에서보다 PB 프레임에서 더 낮은데, 왜냐 하면 PB 프레임은 인코딩하기 전에 P 프레임(즉, P 프레임은 통상 이전 기준 프레임으로부터 2*fs이므로 버퍼를 더 많이 소모함)을 기다려야 하기 때문이다.

따라서, P 및 PB 프레임이 혼합되어 있을 때, P 프레임에 대한 지연은 PB 프레임에 대한 지연보다 작다. 이때, 상기 지연을 동일하기 유지하려면, 다음과 같은 지침(guideline)이 적용될 수 있다.

1. P-온리 프레임을 인코딩하기 전의 VBVf_b는, PB 프레임을 인코딩하기 전의 VBVf_b보다 더 많은 fs*Bpp이다.

2. 각각의 P 프레임은 디스플레이되기 전에 디코더에서 fs*Bpp/R만큼 지연된다.

도 2는 본 발명의 일 실시예로서, 상기 지침에 의한 프레임 스키핑 과정을 보인 흐름도이다. 이 방법에 따르면,

1. 먼저, P-온리 경우에서 사용된 방법을 근거로 하여 이전 기준 프레임 이후에 스킵을 결정한다(단계 202). 이 경우의 유일한 차이점은 이전 프레임이 있던 곳에 PB 프레임이 온다는 것이다. 상기의 경우, 이전 프레임을 인코딩하는데 사용된 비트수(Bprev)는 한 개 프레임에 요구되는 비트수의 두 배이며, 현재 프레임에 대한 비트수가 추정될 때는 2로 나누어진다.

2. 그리고 나서, 현재 프레임을 P 프레임으로 코딩할지 여부를 결정하기 위해 PB 결정을 수행한다. 이 방법은, H.263 PB 프레임이 큰 움직임에 대해서는 잘작용하지 못한다는 관찰에 근거한다(이 문장은 향상된 PB 모드에서는 반드시 맞는 것은 아니다). 따라서, 큰 움직임이 검출되면(단계 204 내지 단계 208), 현재 프레임을 P 프레임으로 인코딩하도록 결정된다(단계 210).

상기 큰 움직임 검출 방법의 일 예가 다음 절에서 기술된다. 만일, 현재 프레임을 P 프레임으로 인코딩하도록 선택되면, P 프레임을 인코딩한 후 단계 202로 되돌아간다.

3. 한편, 큰 움직임이 검출되지 않아 PB 프레임으로 코딩되면, 버퍼 충만도에 의해 PB 프레임의 B 프레임과 P 프레임 사이의 스킵을 결정한다(단계 212). 일 예로, 스킵은 다음의 수학식 9와 같이 결정한다.

VBV_충만도 + max(Bprev, 2*fs*Bpp) < ssbs

상기 수학식 9에 따르면, PB 프레임을 인코딩한 후의 버퍼 충만도는 고정 상태 버퍼 크기인 ssbs보다 작아야 한다. 그리고, 상기 max(Bprev, 2*fs*Bpp)은 프레임에 대한 비트수를 추정하기 위해 사용된다. 그러므로, 스킵은 인코딩한 후의 버퍼 충만도가 ssbs 아래로 떨어질 때까지 실행된다. 그리고 나서, 현재 프레임은 PB 프레임으로 인코딩하고 단계 202로 간다(단계 214).

한편, 큰 움직임이 PB 프레임의 B 프레임과 P 프레임 사이에서 검출된 경우에는 이 프레임을 위해 PB 모드를 오프시키며 'PB' 프레임의 P 프레임은 P-온리 프레임으로 인코딩된다. 이러한 상황은 시퀀스 내에서 자주 일어나지 않아야 한다.

PB 결정을 위한 움직임 검출 (Motion Detection for the PB Decision)

상기 기술된 PB 결정은 큰 움직임 검출기(detector)를 필요로 한다. 이 검출기는 다음과 같이 실행될 수 있다.

1. 움직이는 블록 수(M1)를 결정한다(단계 204). 상기 움직임 블록 수는 원 프레임 차이(raw frame difference) 또는, 움직임이 보상된 프레임 차이 및 움직임 필드(motion field)로부터 결정될 수 있다. 만일, 움직임 추정이 수행되면, M1은 0이 아닌 움직임 벡터를 가지는 블록 수가 된다. 반대의 경우, M1은 일부 특정 임계 레벨보다 큰 왜곡 지수를 가지는 블록 수가 된다(예를 들어, SAD > 100).

2. 다시 원 프레임 차이 또는 움직임이 보상된 프레임 차이 및 움직임 필드에 의하여, 큰 움직임을 가지는 블록 수(M2)를 결정한다(단계 206). 만일, 움직임 추정이 수행되면, M2는 움직임 벡터가 특정 임계 레벨보다 더 큰 값을 가지는 블록 수가 된다. 한편, 움직임 추정이 사용되지 않는다면, M2는 일부 특정 큰 움직임 임계 레벨보다 큰 왜곡 지수를 가지는 블록 수가 된다(예를 들어, SAD>750).

3. 이때, M2/M1이 특정 임계 레벨보다 큰지를 비교하여(단계 208) 크다면(예를 들어, 1.15), 현재 프레임을 P 프레임으로 코딩한다(단계 210). 반대의 경우, 현재 프레임을 PB 프레임으로 코딩한다(단계 212 내지 214).

한편, 본 발명은 방법 및 그 방법을 실행하는 장치의 형태로 실시될 수 있다. 또한, 본 발명은 플로피 디스크, CD-ROM, 하드 드라이브, 기타 기계로 판독 가능한 저장 매체와 같은, 유형(tangible) 매체들에서 실시되는 프로그램 코드의 형태로 실시될 수 있는데, 그러한 점에서 프로그램 코드가 컴퓨터와 같은 기계에 탑재되어 실행될 때, 그 기계는 본 발명을 실행하는 장치가 되는 것이다. 또한, 본 발명은 프로그램 코드의 형태로도 실시될 수 있는데, 예를 들어 저장 매체에 저장된 후, 기계에 탑재되어 및/또는 기계에 의해 실행되거나, 또는 전선이나 케이블을 경유하거나, 광섬유를 통하거나, 또는 전자기의 방사능을 거치거나 하는 것과 같이 어떤 전송 매체를 경유하여 전송되며 이때 프로그램 코드가 컴퓨터와 같은 기계에 탑재되어 실행되어지면 그 기계는 본 발명을 실행하는 장치가 되는 것이다. 일반적인 용도의 처리 장치(general-purpose processor)에서 실행되었을 때, 프로그램 코드 세그먼트(program code segment)는 특정 논리회로에까지 유사하게 작용하는 특수 장치를 제공하기 위하여 처리 장치와 결합한다.

이상에서와 같이 본 발명의 프레임 레벨 속도 제어는 특히, 실시간의 초저 비트 속도 코더(very low bit-rate coder)에 적용 가능하다. 또한, 본 발명의 알고리즘은 PB 프레임을 사용하는 코더는 물론 P 프레임만을 사용하는 코더에 의해서도 실행될 수 있는데, 이는 H.263+ 표준의 TMN8 테스트 모델과 비교했을 때 추가된 기능이다. 그리고, 상기 알고리즘은 버퍼 지연 변수(buffer delay variable)를 제공하는데, 상기 버퍼 지연 변수는 지연을 시간에 대한 공간 품질의 스무스한 변화로 바꾸기 위해 사용자에 의하여 선택될 수 있다. 또한, 프레임에 대한 타깃 비트 할당을 장면 내용에 적합하게 조정함으로써, 움직임이 큰 영역에서의 공간적 품질이 유지되고 갑작스런 움직임 이후의 빠른 회복이 가능하며, 동시에 원하는 한계 내에서 버퍼 지연을 유지할 수 있다.

이상 본 발명의 본질을 설명하기 위해 기술과 묘사된 세부 항목, 자료 및 각 부분들의 배열에 있어서의 다양한 변형들은, 다음의 청구항에 나타나 있듯이 본 발명의 원리 및 영역을 벗어남 없이 해당 분야의 전문가들에 의하여 만들어질 수 있다.

Claims

비디오 시퀀스에서 현재 프레임에 대한 타깃 비트 속도를 선택하기 위하여 상기 비디오 시퀀스의 비디오 압축 처리를 수행하는 기계에 의해 비트 속도를 제어하는 방법에 있어서,

(a) 상기 비디오 시퀀스에서 이전 M 프레임을 인코딩하는데 사용되는 비트수를 산출하는 단계(여기서, M은 특정 프레임 수);

(b) 상기 비디오 시퀀스에서 N 프레임을 인코딩하는데 이용 가능한 특정 비트수에 해당하는 다중 프레임 비트 다발에서 이전 M 프레임을 인코딩하는데 사용되는 비트 수를 감산하여, 상기 다중 프레임 비트 다발의 사용되지 않은 부분에서 이용 가능한 비트수를 산출하는 단계(여기서, N은 특정 프레임 수, M ＜ N);

(c) 상기 다중 프레임 비트 다발의 사용되지 않은 부분을 (N-M)으로 나누어, 현재 프레임에 대한 타깃 비트 속도를 산출하는 단계; 및

(d) 상기 발생된 타깃 비트 속도로 현재 프레임을 인코딩하는 단계를 포함하여 이루어지는 것을 특징으로 하는 비트 속도 제어 방법.
제 1항에 있어서,

상기 단계 (c)는 양자화기 포화의 존재에 의해 타깃 비트 속도를 조절하는 단계를 더 포함하여 이루어지는 것을 특징으로 하는 비트 속도 제어 방법.
제 2 항에 있어서,

상기 단계 (c)는 이전 프레임에 대한 양자화기 매개변수가 특정 임계 레벨보다 크면 상기 타깃 비트 속도를 증가시키는 단계를 포함하여 이루어지는 것을 특징으로 하는 비트 속도 제어 방법.
제 1항에 있어서,

상기 단계 (c)는 현재 및 이전 왜곡 레벨에 의해 타깃 비트 속도를 조절하는 단계를 더 포함하여 이루어지는 것을 특징으로 하는 비트 속도 제어 방법.
제 4 항에 있어서,

상기 단계 (c)는 타깃 비트 속도 T를 다음과 같이 조절하는 단계를 포함하며,

여기서, S는 현재 프레임에 대해 움직임 보상된 왜곡 레벨이고, Sp는 이전 프레임 수에 대해 움직임 보상된 평균 왜곡이며, k는 1보다 큰 특정 매개변수인 것을 특징으로 하는 비트 속도 제어 방법.
제 5 항에 있어서,

상기 Sp는 가장 최근의 프레임을 강조하는 가중치 평균인 것을 특징으로 하는 비트 속도 제어 방법.
제 1 항에 있어서,

상기 단계 (c)는 이전 프레임을 인코딩하기 위해 사용된 비트수에 의해 타깃 비트 속도를 조절하는 단계를 더 포함하여 이루어지는 것을 특징으로 하는 비트 속도 제어 방법.
제 7 항에 있어서,

상기 단계 (c)는 타깃 비트 속도 T를 다음과 같이 조절하는 단계를 포함하며,

여기서, Bprev는 이전 프레임을 인코딩하는데 사용되는 비트수이고, α는 0≤α≤1와 같은 조건을 갖는 특정 매개변수인 것을 특징으로 하는 비트 속도 제어 방법.
제 1 항에 있어서,

상기 단계 (c)는 버퍼 충만도에 의해 타깃 비트 속도를 조절하는 단계를 더 포함하여 이루어지는 것을 특징을 하는 비트 속도 제어 방법.
제 9 항에 있어서,

상기 단계 (c)는 다음과 같이 타깃 비트 속도 T를 조절하는 단계를 포함하며,

여기서, a는 현재 인코딩되는 프레임 비트를 버퍼에 저장하기 전의 버퍼 충만도와 같은 매개변수, b는 ssbs-a와 같은 매개변수이고, 여기서 ssbs는 고정 상태 버퍼 크기와 동일한 매개변수이며, λ는 1보다 큰 특정 매개변수인 것을 특징으로 하는 비트 속도 제어 방법.
제 1 항에 있어서,

상기 단계 (c)는 움직임 특성에 의해 타깃 비트 속도를 조절하는 단계를 더 포함하여 이루어지는 것을 특징으로 하는 비트 속도 제어 방법.
제 11 항에 있어서,

상기 단계 (c)는 S/Sp의 함수로 타깃 비트 속도를 조절하는 단계를 포함하며,

여기서 S는 현재 프레임에 대해 움직임 보상된 왜곡 레벨과 같은 매개변수이고, Sp는 이전 프레임 수에 대해 움직임 보상된 평균 왜곡 레벨과 같은 매개변수인 것을 특징으로 하는 비트 속도 제어 방법.
제 12 항에 있어서,

상기 함수는 S/Sp를 타깃 비트 속도를 조정하는데 사용되는 인자에 부합시키는 다수의 선형 세그먼트로서 수행되는 것을 특징으로 하는 비트 속도 제어 방법.
제 1 항에 있어서, 상기 단계 (c)는

(1) 양자화기 포화의 존재에 의해 타깃 비트 속도를 조절하는 단계;

(2) 현재 및 이전 왜곡 레벨에 의해 타깃 비트 속도를 조절하는 단계;

(3) 이전 프레임을 인코딩하기 위해 사용된 비트수에 의해 타깃 비트 속도를 조절하는 단계;

(4) 버퍼 충만도에 의해 타깃 비트 속도를 조절하는 단계; 및

(5) 움직임 특성에 의해 타깃 비트 속도를 조절하는 단계를 더 포함하여 이루어지는 것을 특징으로 하는 비트 속도 제어 방법.
제 14 항에 있어서,

상기 단계 (c)(1)은 이전 프레임에 대한 양자화기 매개변수가 특정 임계 레벨보다 클 경우 타깃 비트 속도 T를 증가시키는 단계를 포함하고;

상기 단계 (c)(2)는 다음과 같이 타깃 비트 속도 T를 조절하는 단계를 포함하고;

(여기서, S는 현재 프레임에 대하여 움직임 보상된 왜곡 레벨이고, Sp는 이전 프레임 수에 대한 가중 평균 움직임 보상된 왜곡이며, k는 1보다 큰 특정 매개변수임)

상기 단계 (c)(3)은 타깃 비트 속도 T를 다음과 같이 조절하는 단계를 포함하고;

(여기서, Bprev는 이전 프레임을 인코딩하는데 사용되는 비트수, α는 0<=α<=1인 특정 매개변수임)

상기 단계 (c)(4)는 타깃 비트 속도 T를 다음과 같이 조절하는 단계를 포함하고;

(여기서, a는 현재 인코딩되는 프레임을 버퍼에 저장하기 전의 버퍼 충만도와 동일한 매개변수이고, b는 ssbs-a와 동일한 매개변수이며, 여기서 ssbs는 고정 상태 버퍼 크기와 동일한 매개변수이며, λ는 1보다 큰 특정 매개변수임)

상기 산출 단계 (c)(5)는 타깃 비트 속도를 S/Sp의 함수로서 조절하는 단계(여기서, S는 현재 프레임에 대하여 움직임 보상된 왜곡 레벨과 동일한 매개변수이며, Sp는 이전 프레임수에 대하여 평균 움직임 보상된 왜곡 레벨과 동일한 매개변수이며, 상기 함수는 S/Sp를 타깃 비트 속도에 부합시키는 다수의 선형 세그먼트로서 실행됨)를 포함하여 이루어지는 것을 특징으로 하는 비트 속도 제어 방법.
영상 데이터를 처리할 수 있는 명령을 포함한 다수의 명령이 저장된 컴퓨터 판독 가능한 매체를 갖는 처리기에서의 영상 데이터 처리 방법에 있어서,

(a) 비디오 시퀀스의 이전 M 프레임을 인코딩하는데 사용되는 비트수를 산출하는 단계(여기서 M은 특정 프레임 수);

(b) 비디오 시퀀스의 N 프레임을 인코딩하는데 이용 가능한 특정 비트수에 해당하는 다중 프레임 비트 다발에서 이전 M 프레임을 인코딩하는데 사용되는 비트수를 감산함에 의해, 다중 프레임 비트 다발의 사용되지 않은 부분에 대하여 이용 가능한 비트수를 산출하는 단계(여기서 N은 특정 프레임 수이고, M < N 임);

(c) 다중 프레임 비트 다발의 사용되지 않은 부분을 (N-M)으로 나눔에 의해 현재 프레임에 대한 타깃 비트 속도를 산출하는 단계; 및

(d) 상기 타깃 비트 속도로 현재 프레임을 인코딩하는 단계를 포함하여 이루어지는 것을 특징으로 하는 영상 데이터 처리 방법.
제 16 항에 있어서,

상기 단계 (c)는 양자화기 포화의 존재에 의해 타깃 비트 속도를 조절하는 단계를 더 포함하여 이루어지는 것을 특징으로 하는 영상 데이터 처리 방법.
제 16 항에 있어서,

상기 단계 (c)는 현재 및 이전 왜곡 레벨에 의해 타깃 비트 속도를 조절하는 단계를 더 포함하여 이루어지는 것을 특징으로 하는 영상 데이터 처리 방법.
제 16 항에 있어서,

상기 단계 (c)는 이전 프레임을 인코딩하는데 사용된 비트수에 의해 타깃 비트 속도를 조절하는 단계를 더 포함하여 이루어지는 것을 특징으로 하는 영상 데이터 처리 방법.
제 16 항에 있어서,

상기 단계 (c)는 버퍼 충만도에 의해 타깃 비트 속도를 조절하는 단계를 더 포함하여 이루어지는 것을 특징으로 하는 영상 데이터 처리 방법.
제 16 항에 있어서,

상기 단계 (c)는 움직임 특성에 의해 타깃 비트 속도를 조절하는 단계를 더 포함하여 이루어지는 것을 특징으로 하는 영상 데이터 처리 방법.
제 16 항에 있어서, 상기 단계 (c)는

(1) 양자화기 포화의 존재에 의해 타깃 비트 속도를 조절하는 단계와;

(2) 현재 및 이전 왜곡 레벨에 의해 타깃 비트 속도를 조절하는 단계와;

(3) 이전 프레임을 인코딩하기 위해 사용된 비트수에 의해 타깃 비트 속도를 조절하는 단계와;

(4) 버퍼 충만도에 의해 타깃 비트 속도를 조절하는 단계; 및

(5) 움직임 특성에 의해 타깃 비트 속도를 조절하는 단계를 더 포함하여 이루어지는 것을 특징으로 하는 영상 데이터 처리 방법.