KR100626994B1 - 가변 비트 레이트 비디오 코딩 방법 및 대응 비디오 코더 - Google Patents

가변 비트 레이트 비디오 코딩 방법 및 대응 비디오 코더 Download PDF

Info

Publication number
KR100626994B1
KR100626994B1 KR1019997002693A KR19997002693A KR100626994B1 KR 100626994 B1 KR100626994 B1 KR 100626994B1 KR 1019997002693 A KR1019997002693 A KR 1019997002693A KR 19997002693 A KR19997002693 A KR 19997002693A KR 100626994 B1 KR100626994 B1 KR 100626994B1
Authority
KR
South Korea
Prior art keywords
picture
bit rate
pictures
prediction
size
Prior art date
Application number
KR1019997002693A
Other languages
English (en)
Other versions
KR20000068659A (ko
Inventor
페르트에티네
카이서다니엘
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20000068659A publication Critical patent/KR20000068659A/ko
Application granted granted Critical
Publication of KR100626994B1 publication Critical patent/KR100626994B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/87Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/114Adapting the group of pictures [GOP] structure, e.g. number of B-frames between two anchor frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/15Data rate or code amount at the encoder output by monitoring actual compressed data size at the memory before deciding storage at the transmission buffer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/179Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/192Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding the adaptation method, adaptation tool or adaptation type being iterative or recursive
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/152Data rate or code amount at the encoder output by measuring the fullness of the transmission buffer

Abstract

본 발명에 따른 가변 비트 레이트 코딩 방법은 제 1 분석 단계와, 제 2 예측 단계와, 상기 타겟 비트 레이트와 관련하여 상기 스텝사이즈를 조정하기 위한 최종 제어 단계를 포함한다. 본 발명에 따르면, 개선된 품질로 상기 화상 시퀀스를 인코딩하기 위해, 상기 분석 및 예측 단계를 1회 반복하는 사이에 화상 재배열 단계를 포함한다. 응용 분야 : 제한된 용량을 가지는 기억 매체를 위한 MPEG-2 인코더
가변 비트 레이트 비디오 코딩 방법, 가변 비트 레이트 비디오 코더, 스텝사이즈

Description

가변 비트 레이트 비디오 코딩 방법 및 대응 비디오 코더{Variable bitrate video coding method and corresponding videocoder}
본 발명은 화상 시퀀스에 대응하는 비트스트림을 일정한 양자화 스텝사이즈로 코딩하는 제 1 분석 단계와, 소정의 타겟 비트 레이트에 따라서 상기 비트스트림을 부호화하는데 사용되는 양자화 스텝사이즈를 예측하는 제 2 예측 단계와, 상기 타겟 비트 레이트와 관련하여 상기 스텝사이즈를 조정하는 최종 제어 단계를 포함하는 반복 처리를 포함하는 가변 비트 레이트 비디오 코딩 방법에 관한 것이다. 또한 본 발명은 상기 방법을 수행하도록 하는 대응 비디오 코더에 관한 것이다.
S.R.Ely의 BBC 연구 및 개발 보고서, BBC-RD-1996/3 1내지 10페이지, <MPEG 비디오 코딩 : 초보자 입문서>에 개시되어 있는 바와 같이, 비디오 및 오디오 신호의 디지털 압축에 대한 표준을 규정하기 위한, MPEG 관련 활동이 1988년에 시작되었다. 첫 번째 목표는 CD-ROM(Compact Disc Read-Only Memory)과 같은 디지털 기억 매체를 위한 비디오 알고리즘을 규정하는 것이었지만, 그 결과 얻게 된 표준은 대화형 CD 시스템(CD-I)에도 적용되었다. 1 내지 15 Mbits/s의 비트 레이트 범위에서 화상 데이터를 전송 및 기억하도록 하는 이 표준은, 시간 용장성(redundancy)의 감소를 위한 블록 단위의 움직임 보상과 공간 용장성의 감소를 위한 이산 코사인 변환(DCT)을 이용하여 얻은 데이터 압축에 그 기반을 두고 있다.
CD-I 및 CD-ROM과 같은 종래의 CD 표준에 의하면, 전송 비트 레이트가 고정되므로 화상들은 일정 비트 레이트로만 부호화될 수 있다. 디지털 다용도 디스크(DVD)와 같은 새로운 표준은 데이터 전송을 가변 비트 레이트(VBR)로 할 수 있어, 복잡한 장면(scenes)들이 더 적은 정보를 포함하는 장면들보다 더 높은 비트 레이트로 부호화되어 일정한 품질을 유지할 수 있다.
본 발명의 목적은 인코더 출력 비트스트림의 최소 비트 레이트로 이러한 일정 품질의 부호화된 시퀀스를 얻을 수 있는 VBR 비디오 코딩 방법을 제공하는 것이다.
상기 목적을 달성하기 위해 본 발명은 전술한 서문에 정의된 바와 같은 VBR 비디오 코딩 방법에 관한 것으로서, 분석 및 예측 단계를 한 번 반복할 때 그 사이에 화상 재배열 단계를 포함하는 것을 특징으로 한다.
상기 화상 재배열 단계는 양호하게는 제 1 장면 변화 검출 서브 스텝, 제 2 할당 서브 스텝, 제 3 최적 배치 서브 스텝을 연속하여 포함한다.
양호한 실시예에서, 상기 장면 변화 검출 서브 스텝은 연속하는 시퀀스의 화상들 사이에서 수행된 상관 동작과 장면 변화의 발생 가능성을 나타내는 결정 동작을 포함한다.
본 발명의 다른 목적은 상기 코딩 방법을 수행할 수 있는 VBR 비디오 코더를 제공하는 것이다.
상기 목적을 달성하기 위한 본 발명은 제 1 코딩 브랜치와, 제 2 예측 브랜치와, 다음의 동작들, 즉,
화상 시퀀스에 대응하여 비트스트림을 일정한 양자화 스텝사이즈로 코딩하는 동작과,
지정된 타겟 비트 레이트에 따라서 상기 비트스트림을 부호화하도록 양자화 스텝사이즈를 추정하는 예측 동작과,
상기 동작들을 적어도 1회 반복하는 동작과,
상기 타겟 비트 레이트와 관련하여 상기 스텝 사이즈를 조정하는 최종 제어 동작을 실행하기 위해 제공된 제어 회로를 포함하는 가변 비트 레이트 비디오 코더에 관한 것으로서, 여기서, 상기 제어 회로는 상기 제 1 코딩 동작과 제 1 예측 동작 사이에서 화상 재배열 동작을 수행하는 것을 특징으로 한다.
도 1은 화상 그룹의 몇몇 화상들을 도시한 도면.
도 2 및 3은 통상적인 화상 그룹에 대한 상기 화상들의 표시 순서와 이들의 전송 순서 사이의 차이를 도시한 도면.
도 4 및 5는 본 발명에 따른 코딩 방법의 메인 스텝과 상기 방법을 실시할 수 있는 비디오 코더의 대응 구성을 각각 도시한 도면.
도 6은 두 개의 연속하는 B 화상 사이에 장면 변화를 가지는 시퀀스에 대한 몇몇 화상들과 관련 움직임 벡터들을 도시한 도면.
도 7 및 8은 IBBP 또는 PBBP 화상 그룹의 두 개의 B 화상에 대하여 장면 커트(scene cut)의 세 개의 가능한 위치들에 대한 B 화상의 매크로블록에 의해 사용된 움직임 벡터의 정량적인 값을 구하기 위해 계산된 두 개의 검출 계수(DCL 및 DCR)의 값을 도시한 도면.
도 9는 P 화상에 대하여 유사한 검출 계수(DCP)의 값을 도시한 도면.
도 10은 B 화상만 사용하는 장면 변화 동작을 도시한 도면.
도 11은 화상 그룹(즉, GOP)의 최적 할당 문제를 해결하는데 이용된 비터비(Viterbi) 알고리즘의 결정값을 도시한 도면.
도 12는 GOP 크기(가중 값은 GOP의 크기를 평가하는데 이용된다)에 대한 가중 함수의 일례를 도시한 도면.
도 13은 상기 코딩 방법의 최종 제어 단계의 실시에 이용된 제어 루프를 도시한 도면.
이하, 본 발명의 이점을 상세한 설명 및 첨부된 도면을 참조하여 보다 상세히 설명한다.
본 발명에 따른 코딩 방법을 설명하기 전에, MPEG-2 비디오 표준에 대한 몇 가지 기본 개념을 상기해 보자. 폭넓은 범위의 가능한 응용을 지원하는 이 표준의 유연성은 모든 응용 조건들에 적합한 프로파일 및 레벨의 정의 때문에 얻어지는 것이다. 프로파일은 소정 계층의 응용에 필요한 특징들만 지원하도록 되어있는 MPEG-2 표준의 서브세트이고, 레벨은 비트스트림의 파라미터에 부과된 제약들의 집합을 규정한다.
세 개의 성분(Y, U, V)들로 구성되는 컬러 화상들에 적용된 MPEG-2 압축의 기본 단계는 그 자체가 휘도 및 색도 블록으로 이루어지는 작은 서브섹션 또는 매크로블록으로 분할되는 화상들과 관련이 있다. 이들 단계는 움직임 추정 및 보상(16픽셀×16라인 매크로블록에 기초), 이산 코사인 변환(8픽셀×8라인 블록에 기초), 실행 길이(run-length) 코딩 단계이다.
화상에는 세가지 타입의 화상이 규정되어 있다. 인트라 화상(즉, I 화상)은 다른 화상에 관계없이 부호화되고, 예측 화상(즉, P 화상)은 과거의 I 또는 P 화상으로부터 움직임 보상 예측을 이용하여 부호화되고, 양방향-예측 화상(즉, B 화상)은 움직임 보상을 위하여 과거 및 미래의 I 또는 P 화상을 모두 이용한다. 상기 움직임 정보는 블록 매칭 검색(여기서, 다수의 트라이얼 오프셋(trial offset)이 코더 내에서 검사되고 부호화되는 블록과 상기 예측 사이의 최소 에러의 측정에 의거하여 최적의 것이 선택된다)에 의해 얻어진 움직임 벡터의 형태로 주어진다.
도 1에 도시된 바와 같이, 움직임 벡터를 기초로 할 때 상기 P 및 B 화상이 규정되고, 통상적으로 상이한 화상들이 상기 언급한 바와 같은 화상 그룹, 즉, GOP라고 하는 반복적인 시퀀스로 나타나게 되어, I 화상 및 다음 I 화상이 나타날 때까지의 일련의 모든 화상들로 구성되게 된다. 통상적인 GOP가 도 2에는 표시 순서대로 도시되어 있고(검은색 화살표는 순방향 예측에 해당하고, 흰색 화살표는 역방향 예측에 해당함, 그 순서 및 예측은 주기적으로 반복된다), 도 3에는 전송 순서대로 도시되어 있으며(P4, P7, I10, P13은 재배열된 프레임을 나타낸다), 상기 순서가 상이하므로 디코딩측에서 미래 화상으로부터 역방향 예측이 가능하다.
통상의 GOP 구조는 두 개의 파라미터 N 및 M으로 설명할 수 있다. GOP의 크기로 규정된 파라미터 N은 도 2에 도시되어 있는 바와 같이, 상기 GOP의 화상의 개수, 즉, 두 I 화상간의 화상의 개수 더하기 1이다. 파라미터 M은 P화상들의 간격 또는 인접한 B 화상의 개수 더하기 1이다. 도 1 내지 3에 도시된 예에서, M=3이고 N=9이다. 물론 다른 조합들도 가능하다.
화상 표시 순서 N M
IPPPPPIPP .......... 6....1
IBPBPBPBI .......... 8....2
IBBPBBPBBPBBIBBP.... 12...3
N 및 M은 상호 독립적으로 선택된다.
상기 매크로블록 보상의 종류에 대한 결정이 행해진 후, 원래의 매크로블록으로부터 상기 추정된 매크로블록을 공제함으로써, 관련 매크로블록의 각 픽셀에 대한 예측 에러가 얻어진다. 그 다음에 8×8 픽셀의 블록에 대하여, 예측 에러에 대한 DCT가 수행되고(따라서, 각 블록에 대하여 여섯 개, 즉, 휘도 성분에 대하여 4개, 색도 성분에 대하여 2개의 DCT 변환이 결정된다), 이렇게 얻어진 주파수 성분은 양자화된다. 양자화 스텝사이즈는 비트레이트 및 디코딩된 화상의 왜곡을 결정한다. 만약 상기 양자화가 성긴(coarse) 경우에는 화상을 부호화하는데 필요한 비트가 적지만 최종 화질이 떨어지고, 반면에 양자화 스텝사이즈가 조밀한(fine) 경우에는 화상을 부호화하는데 많은 비트가 필요하지만 화질은 좋다. 인간의 눈은 낮은 주파수보다 높은 주파수에 덜 민감하므로, 고 주파수 성분에 대해서는 보다 조악한 양자화기를 사용하는 것이 좋다(사실, 주파수 종속 양자화를 달성하기 위하여, 가중 매트릭스가 기본 매크로블록 양자화 파라미터에 인가된다. 즉, 많은 계수들, 특히 고주파수에서의 계수들은 상기 가중된 양자화 후에 0이 된다).
그 다음에 각 블록은 지그재그로 주사되며 이렇게 얻어진 리스트가 부호화된다. 상기 실행 길이 코딩은 쌍(A, NZ)을 결정함으로써 행해지는데, 여기서 A는 연속적인 0의 개수(0 내지 63)를 나타내며, NZ는 그 다음의 0이 아닌 계수의 크기를 나타낸다. 그 다음에 상기 쌍의 발생 빈도에 따라서 가변 길이 코드가 상기 쌍(A, NZ)에 할당된다(일반적인 조합(A, NZ)은 짧은 가변 길이 코드에 할당되는 반면에, 낮은 빈도의 쌍은 긴 가변 길이 코드에 할당된다).
전술한 기능들은 1993년 C.T.Chen 외 다수의 <범용 비디오 응용을 위한 하이브리드 확장 MPEG 비디오 코딩 알고리즘>의 제 2.4 장 21-37 페이지의 신호 처리: 화상 통신 5에 요약되어 있으며, 상기 문헌은 범용 MPEG-2 코더의 구조를 포함하고 있다. 상기 VBR 코딩 방법의 목적은 몇몇 연속적인 분석 경로에서 수행된 선행 코딩 단계들로부터 얻어지는 정보를 사용하여 적합한 화상 타입을 할당하는 것이며, 이에 따라 고정된 용량을 가지는 기억 매체(예를 들면, DVD)에 적합하도록 최종 비트스트림의 크기를 최소화할 수 있다. 상기 방법은 도 4에 도시되어 있으며, 상기 방법을 구현할 수 있는 화상 재배열 기능을 가진 비디오 코더의 구조는 도 5에 도시되어 있다.
상기 코딩 방법은 네 개의 단계(41, 42, 43, 44)로 분할된다. 제 1 단계(41)는 화상 시퀀스가 일정한 양자화 스텝사이즈(Qc)(및 이에 따른 일정한 품질)로 부호화되는 단계이다. 상기 단계의 마지막에 통상의 MPEG-2의 규격(compliant) 비트 스트림이 발생하지만, 상기 단계의 마지막 이전에는 미지인, 처리된 전체 시퀀스의 평균 비트 레이트(즉, 시퀀스를 그 시퀀스의 총 화상 수로 나누었을 때의 총 부호화된 비트수의 비율)가 상기 비트스트림의 특정 크기에 대해 요구되는 제약조건을 충족시키지 못한다.
제 2 단계(42)는 분석 단계(41) 후에 수행되는 화상 재정렬 단계이다. 상기 재정렬 단계는 세 개의 서브 스텝(110 내지 130)으로 분할될 수도 있다. 화상 할당을 최적화하는 작업은 두 개의 독립된 부분을 포함하는 것으로 간주할 수 있다. 제 1 부분은 I 화상의 배치를 향상시키는 것이며, 이것은 GOP 할당의 최적화와 동일하고, 제 2 부분은 B 및 P 화상의 배치를 가장 효율적으로 하는 것이다.
제 1 및 제 2 서브 스텝(110 및 120)은 상기 최적 작업의 제 1 부분을 구성한다. 시퀀스의 연속하는 화상들 사이의 시간 상관을 이용하지 않는 I 화상들은 비트 레이트의 관점에서 볼 때 가장 비용이 많이 드는 화상이다. 한편, 이들은 시퀀스를 랜덤 억세스하도록 할 필요가 있는데, 랜덤 억세스는 많은 응용분야에 있어서 중요하다. 또한, 신속한 랜덤 억세스가 자주 요구되므로, I 화상들 사이의 소정의 최대 거리가 초과되지 않도록 주의해야 한다(예를 들면, 최대 12개의 화상 정도). 장면 변화가 발생하면, 컷 전후의 화상(좌측 및 우측 화상)은 상관되지 않는다. 새로운 장면의 첫 번째 P 화상에 대해서는 상기 움직임 보상이 수행되지 않ㄴ는 것이 바람직하며, 따라서 그것의 비트 레이트는 대략 I 화상의 비트 레이트가 된다. 이러한 I 화상은 대역폭에 관한 추가 비용없이 상기 P 화상 대신 배치될 수 있다. 이 때, I 화상들의 최적의 배치 방법은 가능한 한 상기 I 화상들을 새로운 장면의 앞쪽에 할당하는 것이다.
장면 변화 검출 서브 스텝인 제 1 서브 스텝(110)은 이러한 할당을 고려하고 있다. 장면 변화를 검출하기 위하여, 상기 연속하는 시퀀스의 화상들의 상관이 검사된다(양호하게는 움직임 보상 후에). 만약 두 개의 인접한 화상이 거의 상관되지 않는 경우에는 새로운 장면이 제 2 장면으로 시작될 것이다. 기본적인 MPEG-2 코딩 처리에서, 몇 개의 파라미터가 연속하는 화상들 사이의 상관에 대한 정보를 제공한다.
- P 또는 B 화상의 복잡성 : 그러나, 복잡성과 상관 사이의 관계가 항상 확인되지는 않는다(예를 들면, 낮은 비트 레이트가 때로는 기준 화상과의 높은 상관 또는 낮은 인트라 복잡성(intra complexity)에 기인하여 전체적으로 검은 화상들을 생성한다);
- 화상들의 매크로블록(MB)을 이들의 기준 매크로블록(블록 코딩 타입이 인트라(intra) 또는 인터(inter)에 관계없이 움직임 보상 유닛에 의해 항상 제공됨)과 비교하여 더 정확한 상관 추정(시간 계산에 더 많은 비용이 소요되지만)을 얻는다 : 상기 비교는 에러 왜곡 d(MB)의 제곱의 계산에 의해 행해질 수 있으며, 이것은 예를 들어 다음의 식으로 표현할 수 있다.
Figure 111999002747257-pct00005
여기서, P(i)는 분석된 매크로블록(MB)의 픽셀이고 M(i)는 기준 매크로블록의 픽셀이다.
- 움직임 추정은 매크로블록 지향적이며, 몇 개의 움직임 보상 옵션을 이용하여 화상이 예측된다.
화상 타입 움직임 보상 옵션
I 인트라(즉, 움직임 보상이 없음)
P 인트라
P 순방향
P 보상 없음
B 인트라
B 순방향
B 역방향
B 보간
상기 움직임 보상 통계는 화상 상관에 대한 정보를 전달하며, 모든 매크로블록이 인트라 부호화되면, 기준 화상과의 상관은 낮고 그 역 또한 성립한다.
상기 실시예는 장면 변화의 검출에 대한 상기 움직임 보상 통계를 이용하는데, 예를 들어, 도 6은 B 화상들만 이용한 경우를 도시한 것으로서, 두 개의 B 화상 사이에 장면 변화를 가지는 시퀀스 PBBP에 대한 화상 및 움직임 벡터를 나타내고 있다(여기서, 점선으로 된 화살표는 관련 기준 화상의 더 작은 매크로블록이 종속 화상을 예측하는데 이용되는 것을 나타내며, 그 상관은 더 낮다). 두 개의 B 화상 사이에 장면 커트가 발생할 경우, 첫 번째 B화상은 거의 선행하는 P 화상만 기준 화상으로 이용하는데, 왜냐하면, 이것은 기본적으로 후행하는 P 화상과 상관이 없기 때문이다. 마찬가지로, 두 번째 B 화상은 선행하는 P 화상과 거의 상관이 없기 때문에 거의 후행하는 P 화상들만 기준 화상으로 이용한다.
PBB 또는 IBB와 같은 세 개의 화상 그룹에서 장면 변화는 두 개의 인접 B 화상전, 사이 또는 후에 배치될 수 있다. 아래의 표는 장면 커트의 가능한 위치에 대하여, 첫 번째 B 화상의 대부분의 매크로블록 및 제 2 화상의 대부분의 매크로블록에 의해 이용되는 움직임 보상을 나타낸다.
위치 제 1 화상 제 2 화상
전 역방향 역방향
사이 순방향 역방향
후 순방향 순방향
(움직임 보상의 방향은 B 화상을 기준으로 한다)
전술한 움직임 벡터 통계를 정량적으로 평가하기 위하여, 두 개의 검출 계수(DCL 및 DCR)가 계산된다(여기서, DC는 "검출 계수", L 및 R은 "좌측" 및 "우측", MC는 "움직임 보상"을 나타낸다).
Figure 112003024415665-pct00027
Figure 112003024415665-pct00028
P 화상에 대하여, 상기 검출 계수는 간단히 정의될 수 있다.
Figure 112003024415665-pct00029
연속하는 B 화상들에 대한 좌우 검출 계수의 값을 나타내는 도 7 및 8에 도시한 바와 같이, 장면 커트는 스파이크와 일치한다. 마찬가지로, P 픽처에 대한 검출 계수(DCP)가 도 9에 도시되어 있다(P 화상들에 대한 움직임 벡터에 전달된 정보는 B 화상들에 의해 제공된 정보보다 신뢰도가 훨씬 더 낮다).
두 개의 B 화상들 다음, 즉, 두 번째 B 화상과 그 다음 기준 화상 사이(상기 두 번째 B 화상의 우측)에 발생하는 장면 변화의 경우, 상기 분석된 B 화상의 몇 개의 매크로블록은 후방 보상되거나 보간되는데, 이는 상기 B 화상과 그 다음의 기준 화상 사이의 상관이 낮기 때문이며, 이들 대부분은 인트라 또는 전방 움직임 보상된다. 따라서, 상기 검출 계수(DCR)의 값은 높고, 상기 검출 계수(DCL)의 값은 증가되지 않는다(반면에, 제 1 B 화상의 좌측, 즉, 이전의 기준 화상과 상기 B 화상 사이에 대한 장면 변화의 경우, DCL은 높은 값을 가지며 DCR은 작은채로 유지되는 반면, M 화상들의 블록내에서 장면 변화가 발생하지 않으면 DCL 및 DCR 모두 작은 값을 가진다). 실제로, 장면 변화에 대하여 하나의 대칭적인 지시자를 가지기 위하여, 다음과 같이 검출값들 사이의 차(DDV)가 계산된다.
Figure 111999002747257-pct00009
Figure 112003024415665-pct00030
Figure 112003024415665-pct00031
움직임 보상비인 상기 차(DDV)는 세 개의 화상(IBB 또는 PBB)으로 이루어진 각 그룹의 각각의 B 화상에 대하여 계산된다. 각각의 그룹에 대하여 단지 하나의 장면 변화만이 있다고 가정하면, 그러한 장면 변화의 가능성을 측정하는 결정 값(DVL)은 두 개의 인접한 B 화상에 대한 DDV의 절대값의 합으로 결정된다.
Figure 111999002747257-pct00012
상기 숫자 1 및 2는 상기 비가 제 1 또는 제 2의 두 개의 연속하는 화상들 중 어느 화상과 관련되는지를 나타낸다. 따라서, 양방향 화상들과 관련된 장면 변화의 정확한 위치는 상기 두 비를 조사함으로서 결정될 수 있다.
- 만약, DDV(1) 및 DDV(2) > 0이면, 제 1 B 화상 앞에서 장면 변화가 발생했다.
- 만약, DDV(1) > 0 이고 DDV(2) < 0이면, 상기 두 개의 B 화상들 사이에서 장면 변화가 발생했다.
- 만약, DDV(1) 및 DDV(2) < 0이면, 상기 두 개의 B 화상들 뒤에서 장면 변화가 발생했다.
B 화상만을 이용한 장면 변화 검출 방법의 실시는 도 10에 도시되어 있다. 각각의 IBB 또는 PBB 그룹에 대한 한가지 결정값이 계산되고 그것은 다음과 같이 관찰될 수도 있다.
- 상기 결정값의 스파이크는 실제 장면 커트와 동일 위치에 있다.
- 상기 매크로블록(n°50) 주위의 노이즈는 시퀀스 내의 라이트 효과(light effect)에 기인하며, 상기 라이트 효과는 움직임 추정 알고리즘을 방해하여 상기 움직임 보상 종속 장면 커트 예측을 방해한다.
- 검사된 비디오 시퀀스의 마지막 부분은 기본적으로 정지 이미지(화상들이 거의 동일)이며, 따라서 상기 기준 매크로블록이 모든 보상 타입에 대하여 동일하고, 비록 장면 변화가 발생한다 하더라도 상기 결정 값이 결과적으로 무시할 수 없는 값을 가지기 때문에, 어느 움직임 보상이 이용되는지 결정되지 않는다(이러한 잘못된 장면 변화 예측의 위험을 줄이기 위하여 B 화상의 움직임 벡터 통계 외에 P 화상의 움직임 벡터 통계를 고려할 수 있다. 만약 P 화상에 대한 검출 계수가 낮으면, 상기 세 개의 선행 화상들에 대하여 아무런 장면 변화도 발생하지 않는다).
상기 제 2 서브 스텝(120)은 GOP 할당 서브 스텝이다. GOP의 최적 할당은 두 개의 상충하는 목적에 의해 결정된다.
(a) 첫 번째 목적은 GOP에 대한 양호한 크기를 선택하는 것이다. : 만약 GOP가 너무 작으면, 비용이 더 많이 소요되는 I 화상들이 필요 이상으로 할당되기 때문에 비트가 낭비되고, GOP가 너무 크면, 랜덤 억세스가 방해받는다.
(b) 두 번째 목적은 GOP의 시작 화상을 장면 변화의 위치와 일치시키는 것이다.
따라서 GOP 할당에 있어서의 문제는 상기 조건들 (a) 및 (b)를 만족시키면서 최적의 방법으로 GOP를 배열하는 것이다(즉, 새로운 장면의 시작에서 새로운 GOP를 시작하고 상기 GOP의 최대 및 최소 크기를 고려한다). 상기 최적화 문제를 해결하기 위하여, 비터비 알고리즘이 사용되는데, 각 경로에 대하여, GOP의 양호한 크기로부터의 편차가 부과되어, GOP의 시작에서 포함된 가능한 장면 변화가 보상되고, 모든 결정값의 누산으로 각 화상에 대해 선택되는 경로를 결정한다.
상기 알고리즘은 상기 시퀀스에 대하여 GOP의 최적의 시작 부분을 찾아낸다. 모든 화상은 각 부분에서 장면 커트의 가능성을 나타내는 첨부된 장면 변화 결정값을 가진다. 만약 상기 결정 값이 크면, 이것은 그 위치에서 장면 변화에 대한 가능성이 높다는 것을 의미하며, 따라서 새로운 GOP를 할당하는 것이 적절하다. 그러나, GOP의 크기가 너무 작거나 너무 크지 않는 경우에는 GOP 시작점들(즉, GOP의 크기) 사이의 변화가 또한 가중된다.
도 11에서, 수직 라인은 화상들을 나타내고, 파라미터 Si는 각 화상의 장면 변화 가능성을 나타내며(세개의 화상 그룹에 대하여 단지 하나의 장면 변화만 발생하며, 따라서 각각의 PBB 또는 IBB 블록에 대하여 단지 하나의 결정값 Di(N)만이 존재한다), 파라미터 W는 GOP의 크기(12 정도의 최적 크기에 가까운 크기가 양호하다)를 추정하는 가중값이다. 그러면, 화상에서 종료하는 경로의 결정값은 다음과 같이 계산된다.
Figure 111999002747257-pct00013
여기서, N은 고려중인 GOP의 크기이고, Ci-N는 화상 "1"에서 "i-N"까지의 GOP의 최적 할당에 대한 모든 가중 S 및 W의 합이다. 상기 GOP의 크기는 가장 높은 결정값을 가지도록 선택된다. 가중 함수(W=f(N))는 2차 함수이고, 따라서 GOP 크기에 대한 가중 함수의 일례를 도시한 도 12에 나타낸 바와 같이 W는 GOP 크기와 상기 양호한 GOP 크기의 차의 제곱에 비례하여 감소한다(상기 가중 함수는 두 개의 장면 변화간의 모든 GOP가 거의 동일한 크기를 가지도록 하며, 따라서, 만약 두 개의 장면 변화의 거리가 16개의 화상만큼 떨어져 있다면, 10의 크기를 가지는 GOP와 6의 크기를 가지는 GOP보다는 8의 크기를 가지는 두 개의 GOP가 할당된다).
지금까지는 화상들의 전송 순서 및 표시 순서간의 차를 고려하지 않았다. 만약 GOP의 시작이 장면 변화 다음에 제 1 화상에서 할당되면, GOP 내의 M 화상들의 제 1 그룹도 상기 장면 커트에서 시작한다. 그러나, I 화상은 표시되는 블록의 마지막 화상이다. 만약 M=3이면, 상기 GOP의 첫 번째 두 개의 화상은 B 화상으로 부호화되고 세 번째 화상만 I 화상이다. 따라서, 상기 GOP의 시작은 장면 변화 후의 첫 번째 화상이 실제로 B 화상이 아니라 I 화상이 되도록 왼쪽으로 하나 또는 두 개씩 위치 이동될 수 있다.
제 3 서브-스텝(130)은 P 및 B 화상 할당 서브-스텝이다. 시간 종속 파라미터 M의 최적화의 관점에서, B 및 P 화상의 최적의 배치에 대하여 적절한 방식으로 검색하면 시퀀스의 코딩에 필요한 비트 레이트의 최소화가 가능하다. M의 값을 증가시키면 P 화상의 비트 레이트가 증가하지만, 비트 레이트가 커지면 P 화상 대신에 B 화상을 사용하는 것이 효율적이다. 따라서, 연속하는 화상들간의 상관은 최적화에 대하여 가장 중요한 파라미터이며, 이것은 실제로는 두 개의 서브-태스크(sub-task), 즉,
(a) 몇 개의 GOP에 대하여 최적의 M을 찾기 위한 장기간 최적화,
(b) 화상들 간의 상관의 국부적인 변화를 고려하여, GOP 내부의 B 및 P 화상의 최적의 위치를 찾기 위한 단기간 최적화
로 분할된다.
장기간 최적화에 있어서, 만약 연속하는 화상들 간의 상관 계수가 1로 가면, 어떠한 경우든 계수 비트가 거의 남아있지 않기 때문에 B 화상 또는 P 화상이 선택되든 상관이 없지만, 상기 상관이 아주 낮으면 움직임 보상이 이루어지지 않는다. 이상의 극단적인 경우에는(정지 이미지 및 비상관 화상 각각) 어떠한 M이 양호한지 불분명하다. 다른 경우에 있어서, 일반적으로 낮은 상관 시퀀스에 대하여 작은 M이 양호하고 높은 상관을 가지는 시퀀스에 대해서는 큰 M이 양호하다고 할 수 있다. 많은 장면들에 대해 실험을 하면 M의 장기간 최적화에 대한 최고의 결과를 얻을 수 있다.
상기 단기간 최적화에 있어서, 각각의 GOP 내에서 M이 임의로 변할 수 있고, 이에 따라 화상들 간의 상관의 단기간 변화를 이용하여 비트 레이트를 최소화할 수있다. M의 단기간 최적화에 대한 일례는 다음의 표에 나타나 있으며, 여기에는 장면 변화 이전의 M의 선택이 나타나 있다.
장면 1 장면 2
위치 1 2 3 4
M=1 P P P I
M=2 P P B(P와 유사) I
M=3 P B(P와 유사) P I
장면 변화 이전의 B 화상들은 역방향 예측만 할 수 있다. 새로운 장면 이전에는 M=1이든 2이든 큰 차이가 없다. 왜냐하면, 이것은 상기 장면 변화 이전의 B 화상은 P 화상처럼 작용하기 때문이다. M=3의 선택은 분명히 양호하지 못한데, 그 이유는 위치 3에서의 B 화상은 여기서부터 두 위치만큼 떨어진 위치 1에서의 기준 화상(선행 P 화상)을 이용하기 때문이다. 화상들 간의 상관은 서로로부터의 거리가 증가할수록 감소하기 때문에, 위치 3에서의 B 화상의 비트 레이트는 M=1 또는 2에 대한 같은 위치에서의 화상의 비트 레이트보다 M=3에 대해서 더 높다.
제 3 단계(43)는 특정 타겟 비트 레이트에 따라서 비트스트림을 부호화하는데 이용될 수 있는 양자화 스텝사이즈(Q)를 예측하는 예측 단계이다. 일단 상기 예측 단계가 완료되면, 상기 분석 단계(41)는 Q에 대한 더 정확한 추정을 얻기 위해 필요한 만큼 자주 반복될 수 있다(도 4의 화살표 참조)(그러나, 일반적으로 수 회, 예를 들면 2회 실행후에 양호한 예측을 얻을 수 있다).
상기 제 2 단계의 끝에서 이용가능한 양자화 스텝사이즈(Q)는 추정된 값일 뿐이기 때문에, 모든 화상이 상기 예측된 값을 이용하여 부호화되면 총 비트 버짓(budget)이 정확히 일치하지 않는다. 마지막 단계(44)는 총 평균 비트 레이트에 대한 조건이 엄격하게 준수되도록 한다. 최종 출력 비트스트림이 정확히 소망하는 크기를 가지도록 하기 위하여, 양자화 스텝사이즈 제어 처리가 행해진다. 상기 처리는 예측된 비트 레이트와 실제 비트 레이트의 비교에 따라 제어 루프에 의해 행해진다. 상기 최종 단계에서 각 화상이 부호화된 후, 상기 제어 처리는 사용된 비트의 총 수와 상기 허용된 비트 버짓을 비교한다. 만약 상기 허용된 버짓보다 많은 비트가 사용되었다면, 상기 양자화 스텝사이즈는 증가하고, 그 다음의 화상들의 비트 레이트는 감소한다. 만약 상기 허용된 버짓보다 더 적은 비트가 사용되었다면, Q는 감소하고 상기 비트 레이트는 증가하여, 총 타겟 비트 레이트는 최종적으로 정확히 일치하게 된다.
상기 VBR 코딩 방법은 각 블록이 제어기(55)의 감독하에서 수행되는 특정 함수에 대응하는 도 5에 도시한 바와 같은 구조를 가지는 코더에서 실시될 수도 있다. 예시한 코더는 일련의 입력 버퍼(51), 감산기((549), DCT 회로(521), 양자화 회로(522), 가변 길이 코딩 회로(523), 출력 버퍼(524)를 포함한다. 상기 회로들(521 내지 524)은 코딩 브랜치(52)의 주 요소들이며, 상기 코딩 브랜치에는 역 양자화 회로(531), 역 DCT 회로(532) 및 예측 서브 시스템을 포함하는 예측 브랜치(53)가 연결되어 있다. 상기 예측 서브 시스템은 가산기(541), 버퍼(542), 움직임 추정 회로(543)(상기 추정은 상기 버퍼(51)의 출력에서 이용할 수 있는 입력 신호의 분석에 의해 이루어진다), 움직임 압축 회로(544)(이 회로의 출력 신호는 다시 상기 가산기(541)의 제 2 입력으로 전송된다), 감산기(549)(상기 버퍼(51)의 출력 신호 및 상기 움직임 보상 회로(544)의 출력 신호를 수신하고 상기 신호들의 차를 상기 코딩 브랜치 쪽으로 전송한다)를 포함한다.
상기 예시된 코더의 출력은 상기 최종 단계(44)를 수행하기 위해 제공된 제어 루프를 포함하는 제어기(55)로 전송된다. 상기 VBR 코더의 최종 과정에 대한 상기 제어 루프의 상기 주 요소들은 도 13에 도시되어 있다. 전술한 바와 같이, 오퍼레이터에 의해 주어진 총 타겟 비트 레이트가 정확히 일치하도록 하기 위하여, 상기 최종 코딩 과정 동안 상기 양자화 스텝사이즈를 조정할 필요가 있다. 상기 루프는 그 출력(합산된 예측 에러)이 계수 KP 배 증배되는 제 1 계산 회로(131)를 포함한다. 상기 계수는 상수 QCi(오퍼레이터에 의해 선택)에 가중 계수(Qint/APG)를 곱한 것과 같고, 여기서 Qint는 Q의 총 추정이고 APG는 (N 화상들의) GOP에 대한 총 비트수이다.
그 다음에 가산기(133)는 상기 회로(131)의 출력(Qprop)과 Q의 총 추정을 산 출하기 위해 제공된 제 2 계산 회로(132)의 출력에서 사용할 수 있는 신호(Qint)를 가산한다. 변환 회로(134)는 상기 회로(134)에 기억된 관계 R=fi(Q)(가산기(63)의 출력에서의 양자화 계수(Q)와 상기 비트 레이트(R) 사이의 관계)에 의거하여 모든 선행 화상들에 대하여 누적 비트 레이트를 제공한다. 이렇게 얻어진 상기 누적 비트 레이트는 비교기(135)에서 상기 비교기의 제 2 입력에서 이용할 수 있는 누적 예측 비트 레이트와 비교되어, 회로(136)에서 적분된 후에 Q를 수정하는데 이용된다.
전술한 VBR 코딩 방법은 부호화된 시퀀스에 대하여 더 나은 지각 가능한 품질 등화를 얻을 수 있으므로, 기존의 VBR 코더에 대하여 진보된 것이다. 종래의 VBR 코더는 화상을 코딩하는 동안 양자화 파라미터(Q)를 조정하여, 예측 비트 레이트가 모든 화상에 대하여 일치된다. 따라서, 상기 양자화 파라미터(Q)를 화상 내에서 변화시키며, 상기 화상의 일정한 공간 품질을 얻을 수는 없다. 상기 품질의 변형은 화상의 비트 레이트가 정확히 예측되든 아니든 발생한다. 상기 제안된 VBR 코더에 있어서, Q는 화상에 대하여 일정하게 유지되고, 비디오 시퀀스 내의 어떠한 화상의 공간 품질도 변하지 않는다. 만약, 화상 비트 레이트와 양자화 스텝 폭이 정확히 추정되면, 양자화 전, 주 왜곡이 있기 전에 상기 Q는 상기 시퀀스의 모든 매크로블록에 대하여 정확하게 고정된 채로 유지된다. 상기 양자화 스텝 폭과 화상 비트 레이트는 추정될 뿐 이므로, Q의 변화와 그에 따른 상기 시퀀스의 품질의 변화가 화상마다 발생하지만, 몇몇 분석 과정을 거치면, 화상에 대한 평균화된 Q의 편차는 일반적으로 1% 이하가 된다.
일정한 인트라 화상 품질의 달성 이외에, 상기 새로운 VBR의 다른 중요한 특징들은 다음과 같다.
- 분석 과정의 횟수를 증가시킴으로써 반복 방법에서 양자화 계수의 예측을 개선하는 것이 가능하다. 만약, 상기 분석이 실행된 후, 소망의 타겟 비트 레이트로부터의 편차가 너무 크면, 이전의 코딩 과정으로부터의 결과를 이용하여 상기 양자화 계수에 대한 더 정확한 추정을 계산할 수 있다.
- 상기 새로운 VBR 코딩 방법이 Q를 예측하는 경우, 상기 예측된 과정보다 더 오래된 다른 화상으로 수행되는 분석 과정이 이용될 수 있다. 이것은 종래의 방법으로는 불가능하며, 이것이 바로 새로운 코딩 방법의 주 이점이다.
- 최종 과정에서, Q의 변화와 그로 인한 상기 품질의 변화가 너무 커서 허용될 수 없는 경우, 상기 최종 단계는 Q의 예측 및 후속 과정에 대한 비트 레이트의 예측에 대한 분석 과정으로 이용될 수 있다. 이 특징을 이용하면, 출력 비트스트림의 특성이 오퍼레이터에 의해 규정된 임의의 범위 내에 들 때까지 필요한 만큼의 코딩 과정을 수행하는 코더를 개발할 수 있다.
- 상기 제어 루프는 보전적인(integrative) 특성을 가지므로, 단기간 비트 레이트 예측 에러는 서로를 소거하고, 따라서, 조직적인 화상 타입 종속 예측 에러는 상기 제안된 VBR 코더의 성능에 심각하게 영향을 미치지 않는다.
본 발명은 전술한 실시예에 한정되지 않으며, 본 발명의 범주 내에서 변형 또는 개선이 이루어질 수 있다. 예를 들면, 도 4에서 참조번호 140인 점선으로 연결된 선택적인 제 4 서브 스텝이 상기 재배치 단계(42)에 포함될 수도 있으며, 이에 대하여 설명한다. 상기 최종 단계(44)의 최종 과정에서 시퀀스를 정확하게 소정의 비트 레이트 R(t)로 부호화하기 위하여, 타겟 양자화 스텝 폭(Q) 및 타겟 화상 비트 레이트 R(i)를 예측할 필요가 있다. 분석 과정의 실행을 위해서는 Q의 예측만이 요구된다. 상기 제 1 분석 단계(41) 동안에는 Q에 대한 제어 시스템이 이용되지 않기 때문에, 화상 타겟의 예측이 필요하지 않다. 비트 레이트 R(i) 및 스텝 폭(Q)의 추정을 위해서는, 상기 양자화 계수 및 이전의 코딩 과정의 화상 비트 레이트가 필요하다. 그러나, 상기 두 과정 사이에서 화상 타입의 순서가 변경되면, 시퀀스의 동일 화상이 상기 두 과정에서 상이한 두 개의 화상 타입에 의해 부호화될 수도 있다. 예를 들어 상기 분석 과정이 N=12 및 M=3을 이용하여 행해지고 상기 예측 과정이 N=8 및 M=2로 부호화되는 경우의 대응 화상 할당이 다음의 표에 나타나 있다.
N M .....화상 표시 순서......
12 3 BBIBBPBBPBBPBBIB
8...2....BIBPBPBPBIBPBBBP
여기서 상기 제 2 화상은 제 1 과정에서 B화상으로 부호화되고 제 2 과정에서 I 화상으로 부호화된다. 상기 비트 레이트 예측은 상기 제 1 분석 과정에서의 화상과 동일 타입인 화상의 타겟 비트 레이트를 예측하기 위해 제공되므로, 만약 화상이 상기 제 1 과정에서 B 화상으로 부호화되면, B 화상의 비트 레이트는 제 2 과정에 대하여 예측된다. 수정된 화상 순서의 경우에, 상기 예측 화상 비트 레이트는 무용하다.
화상 재배열 후에 상기 타겟 화상 비트 레이트의 예측은 불가능하므로, 상기 최종 코딩 과정은 상기 화상 재배열 후에 바로 수행될 수 없다. 따라서, 제 2 분석 과정이 상기 최종 코딩 과정 전에 수행되어야 한다. 따라서 본 발명에 따른 VBR 코더의 경우에 적어도 세 개의 코딩 과정이 필요하다. 상기 최종 과정에 대한 예측 화상 비트 레이트가 너무 부당하지 않도록 하기 위하여, 부가적인 "화상간" 예측 서브 스텝이 제공될 수도 있는데, 이것은 상기 분석 과정이 기존의 화상 순서 대신에 새로운 화상 순서로 수행되는 경우에 상기 화상들이 가지는 비트 레이트를 추정한다. 상기 부가적인 서브 스텝(140)은 전술한 바와 같이, 선택적이며 화상 비트 레이트의 시간 상관을 이용한다.

Claims (9)

  1. 삭제
  2. 화상 시퀀스에 대응하는 비트스트림을 일정한 양자화 스텝사이즈로 부호화하는 제 1 분석 단계와, 미리 정해진 타겟 비트 레이트에 따라서 상기 비트스트림을 부호화하는데 이용되는 양자화 스텝사이즈를 예측하는 제 2 예측 단계와, 상기 타겟 비트 레이트와 관련하여 상기 스텝사이즈를 조정하는 최종 제어 단계를 포함하는 반복 처리를 포함하는 가변 비트 레이트 비디오 코딩 방법에 있어서,
    상기 분석 단계 및 예측 단계를 1회 반복할 때 그 사이에, 제 1 장면 변화 검출 서브-스텝, 제 2 할당 서브-스텝, 제 3 최적 배치 서브-스텝을 연속하여 포함하는 화상 재배열 단계를 포함하는, 가변 비트 레이트 비디오 코딩 방법.
  3. 제 2항에 있어서, 상기 장면 변화 검출 서브-스텝은 상기 시퀀스의 연속하는 화상들 사이에서 수행되는 상관 동작 및 장면 변화의 발생 가능성을 나타내는 결정 동작을 포함하는, 가변 비트 레이트 비디오 코딩 방법.
  4. 제 3항에 있어서, 상기 상관 동작은 화상 복잡성 추정에 기초하는, 가변 비트 레이트 비디오 코딩 방법.
  5. 제 3항에 있어서, 상기 상관 동작은 화상 블록들과 이전 기준 화상의 기준 블록들과의 비교에 기초하는, 가변 비트 레이트 비디오 코딩 방법.
  6. 제 2항에 있어서, 상기 할당 서브-스텝은 장면 변화를 화상 그룹의 시작과 일치시키면서 연속하는 화상 그룹에 대한 양호한 크기를 선택하도록 하는 비터비 알고리즘의 실행에 기초하는, 가변 비트 레이트 비디오 코딩 방법.
  7. 제 2항 내지 제 6항 중 어느 한 항에 있어서, 상기 최적 배치 서브-스텝은, 몇개의 화상 그룹들에 대하여 이들 화상 그룹들 간의 최적의 간격을 찾는 제 1 장기간 최적화 동작과, 예측 및 보간된 화상들의 최적의 위치를 화상 그룹 내에서 찾는 제 2 단기간 최적화 동작을 포함하는, 가변 비트 레이트 비디오 코딩 방법.
  8. 제 2항 내지 제 6항 중 어느 한 항에 있어서, 2회의 연속 반복 사이에서 상기 화상 타입의 순서가 변화하는 경우에 화상간 예측 단계가 부가적으로 제공되는, 가변 비트 레이트 비디오 코딩 방법.
  9. 제 1 코딩 브랜치와,
    예측 브랜치와,
    화상 시퀀스에 대응하여 비트스트림을 일정한 양자화 스텝사이즈로 코딩하는 동작과,
    특정 타겟 비트 레이트에 따라서 상기 비트스트림을 부호화하도록 하는 양자화 스텝사이즈를 추정하는 예측 동작과,
    상기 동작들을 적어도 1회 반복하는 동작과,
    상기 타겟 비트 레이트와 관련하여 상기 스텝사이즈를 조정하는 최종 제어 동작을 실행하는
    제어 회로를 포함하는 가변 비트 레이트 비디오 코더에 있어서,
    상기 제어 회로는 상기 제 1 코딩 동작과 상기 제 1 예측 동작 사이에서, 제 1 장면 변화 검출 서브-동작, 제 2 할당 서브-동작 및 제 3 최적 배치 서브-동작을 연속하여 포함하는 화상 재배열 동작을 실행하도록 제공되는, 가변 비트 레이트 비디오 코더.
KR1019997002693A 1997-07-29 1998-07-06 가변 비트 레이트 비디오 코딩 방법 및 대응 비디오 코더 KR100626994B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP97401823 1997-07-29
EP97401823.6 1997-07-29
EP98401247 1998-05-26
EP98401247.6 1998-05-26

Publications (2)

Publication Number Publication Date
KR20000068659A KR20000068659A (ko) 2000-11-25
KR100626994B1 true KR100626994B1 (ko) 2006-09-22

Family

ID=26147872

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019997002693A KR100626994B1 (ko) 1997-07-29 1998-07-06 가변 비트 레이트 비디오 코딩 방법 및 대응 비디오 코더

Country Status (7)

Country Link
US (3) US6205174B1 (ko)
EP (1) EP0928544B1 (ko)
JP (1) JP2001501430A (ko)
KR (1) KR100626994B1 (ko)
CN (1) CN1136734C (ko)
DE (1) DE69826823T2 (ko)
WO (1) WO1999007159A2 (ko)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1136734C (zh) * 1997-07-29 2004-01-28 皇家菲利浦电子有限公司 可变比特率视频编码方法及相应的视频编码器
WO2000059233A1 (en) * 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Video coding method and corresponding video coder
EP1092321A1 (en) * 1999-04-30 2001-04-18 Koninklijke Philips Electronics N.V. Video encoding method with selection of b-frame encoding mode
EP1092322A1 (en) 1999-04-30 2001-04-18 Koninklijke Philips Electronics N.V. Low bit rate video coding method and system
US6735249B1 (en) 1999-08-11 2004-05-11 Nokia Corporation Apparatus, and associated method, for forming a compressed motion vector field utilizing predictive motion coding
EP1190577A1 (en) 2000-03-21 2002-03-27 Koninklijke Philips Electronics N.V. Variable bit rate video encoding method and device
US20020078463A1 (en) * 2000-06-08 2002-06-20 Foster Mark J. Method and processor engine architecture for the delivery of dynamically compressed audio video content over a broadband network
US8005145B2 (en) 2000-08-11 2011-08-23 Nokia Corporation Method and apparatus for transferring video frame in telecommunication system
KR100357689B1 (ko) * 2000-11-13 2002-10-19 삼성전자 주식회사 일관된 화질을 가지는 실시간 가변 비트율 엠펙 비디오전송 시스템
WO2002073963A1 (en) * 2001-03-12 2002-09-19 Polycom, Inc. A low-delay video encoding method for concealing the effects of packet loss in multi-channel packet switched networks
EP1725038A3 (en) * 2001-03-12 2009-08-26 Polycom, Inc. A low-delay video encoding method for concealing the effects of packet loss in multi-channel packet switched networks
US6804301B2 (en) * 2001-08-15 2004-10-12 General Instrument Corporation First pass encoding of I and P-frame complexity for compressed digital video
US6925120B2 (en) * 2001-09-24 2005-08-02 Mitsubishi Electric Research Labs, Inc. Transcoder for scalable multi-layer constant quality video bitstreams
US6996183B2 (en) * 2001-09-26 2006-02-07 Thomson Licensing Scene cut detection in a video bitstream
BR0206308B1 (pt) 2001-11-06 2018-01-09 Matsushita Electric Ind Co Ltd "método de codificação para codificar uma imagem"
US6763068B2 (en) * 2001-12-28 2004-07-13 Nokia Corporation Method and apparatus for selecting macroblock quantization parameters in a video encoder
KR100468726B1 (ko) 2002-04-18 2005-01-29 삼성전자주식회사 실시간 가변 비트율 제어를 수행하는 부호화 장치 및 방법
US7418037B1 (en) * 2002-07-15 2008-08-26 Apple Inc. Method of performing rate control for a compression system
US7769084B1 (en) 2002-07-15 2010-08-03 Apple Inc. Method for implementing a quantizer in a multimedia compression and encoding system
JP2005534220A (ja) * 2002-07-24 2005-11-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ディジタルビデオ信号の符号化方法及び符号化器
US7042943B2 (en) * 2002-11-08 2006-05-09 Apple Computer, Inc. Method and apparatus for control of rate-distortion tradeoff by mode selection in video encoders
US7940843B1 (en) * 2002-12-16 2011-05-10 Apple Inc. Method of implementing improved rate control for a multimedia compression and encoding system
US7804897B1 (en) 2002-12-16 2010-09-28 Apple Inc. Method for implementing an improved quantizer in a multimedia compression and encoding system
US7889792B2 (en) 2003-12-24 2011-02-15 Apple Inc. Method and system for video encoding using a variable number of B frames
WO2005076632A2 (en) * 2004-01-30 2005-08-18 Thomson Licensing Encoder with adaptive rate control for h.264
EP1735999A4 (en) 2004-03-29 2012-06-20 Nielsen Media Res Inc METHODS AND APPARATUS FOR DETECTING EMPTY FRAME IN DIGITAL VIDEO BROADCASTING SIGNAL
US8406293B2 (en) * 2004-06-27 2013-03-26 Apple Inc. Multi-pass video encoding based on different quantization parameters
US8005139B2 (en) 2004-06-27 2011-08-23 Apple Inc. Encoding with visual masking
US20060034522A1 (en) * 2004-08-10 2006-02-16 Nader Mohsenian Method and system for equalizing video quality using selective re-encoding
US20060062478A1 (en) * 2004-08-16 2006-03-23 Grandeye, Ltd., Region-sensitive compression of digital video
JP4187746B2 (ja) * 2005-01-26 2008-11-26 三洋電機株式会社 動画像データ伝送装置
US8208536B2 (en) * 2005-04-28 2012-06-26 Apple Inc. Method and apparatus for encoding using single pass rate controller
US20060294128A1 (en) * 2005-05-21 2006-12-28 Kula Media Group Enhanced methods for media processing and distribution
KR100789535B1 (ko) 2006-01-18 2007-12-28 엘지전자 주식회사 영상의 변화율에 따른 적응적 비트율 제어 장치 및 방법
EP2025171A1 (en) * 2006-06-08 2009-02-18 Thomson Licensing Scene change detection for video
US20080008190A1 (en) * 2006-07-07 2008-01-10 General Instrument Corporation Method and apparatus for distributing statistical multiplex signals to handheld devices
JP5166435B2 (ja) * 2006-12-11 2013-03-21 トムソン ライセンシング 画像符号化方法及び係る方法を実現する装置
TWI327866B (en) 2006-12-27 2010-07-21 Realtek Semiconductor Corp Apparatus and related method for decoding video blocks in video pictures
JP4901772B2 (ja) * 2007-02-09 2012-03-21 パナソニック株式会社 動画像符号化方法及び動画像符号化装置
US20080232468A1 (en) * 2007-03-21 2008-09-25 Mediatek Inc. Method and apparatus for adaptive gop structure determination
US20100309981A1 (en) * 2009-06-04 2010-12-09 Texas Instruments Incorporated Reuse of a search region in motion estimation of multiple target frames
US8925024B2 (en) 2009-12-31 2014-12-30 The Nielsen Company (Us), Llc Methods and apparatus to detect commercial advertisements associated with media presentations
WO2011084916A1 (en) * 2010-01-06 2011-07-14 Dolby Laboratories Licensing Corporation Multiple-pass rate control for video coding applications
US8488958B2 (en) 2010-05-25 2013-07-16 Apple Inc. Scene adaptive auto exposure
US9848222B2 (en) 2015-07-15 2017-12-19 The Nielsen Company (Us), Llc Methods and apparatus to detect spillover
DE102018205144B3 (de) 2018-04-05 2019-02-28 Audi Ag Testverfahren zur Erkennung von Fehler-Frames bei hochauflösenden Scheinwerfern

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997016029A1 (en) * 1995-10-25 1997-05-01 Sarnoff Corporation Apparatus and method for optimizing the rate control in a coding system
KR0180167B1 (ko) * 1995-06-30 1999-05-01 배순훈 영상부호화를 위한 프레임 재배열 장치

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5309526A (en) * 1989-05-04 1994-05-03 At&T Bell Laboratories Image processing system
US5227878A (en) * 1991-11-15 1993-07-13 At&T Bell Laboratories Adaptive coding and decoding of frames and fields of video
KR0162203B1 (ko) * 1993-06-21 1998-12-15 김광호 양자화스텝사이즈의 가변을 이용한 적응적 부호화방법 및 그 장치
JP3050047B2 (ja) * 1994-06-24 2000-06-05 日本ビクター株式会社 動画像符号化装置及び動画像符号化方法
JPH08181987A (ja) * 1994-12-22 1996-07-12 Canon Inc 符号化装置
JP3258840B2 (ja) * 1994-12-27 2002-02-18 シャープ株式会社 動画像符号化装置および領域抽出装置
JPH10500551A (ja) * 1995-02-24 1998-01-13 フィリップス エレクトロニクス ネムローゼ フェンノートシャップ ビデオ画像符号化装置及び方法
JP2907063B2 (ja) * 1995-05-24 1999-06-21 日本ビクター株式会社 総符号量制御を行なう動画像符号化装置
US5686963A (en) * 1995-12-26 1997-11-11 C-Cube Microsystems Method for performing rate control in a video encoder which provides a bit budget for each frame while employing virtual buffers and virtual buffer verifiers
US5878166A (en) * 1995-12-26 1999-03-02 C-Cube Microsystems Field frame macroblock encoding decision
CN1136734C (zh) * 1997-07-29 2004-01-28 皇家菲利浦电子有限公司 可变比特率视频编码方法及相应的视频编码器
US6097757A (en) * 1998-01-16 2000-08-01 International Business Machines Corporation Real-time variable bit rate encoding of video sequence employing statistics

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0180167B1 (ko) * 1995-06-30 1999-05-01 배순훈 영상부호화를 위한 프레임 재배열 장치
WO1997016029A1 (en) * 1995-10-25 1997-05-01 Sarnoff Corporation Apparatus and method for optimizing the rate control in a coding system

Also Published As

Publication number Publication date
DE69826823T2 (de) 2005-10-20
DE69826823D1 (de) 2004-11-11
US6795502B2 (en) 2004-09-21
JP2001501430A (ja) 2001-01-30
US6205174B1 (en) 2001-03-20
US20030227970A1 (en) 2003-12-11
KR20000068659A (ko) 2000-11-25
CN1241335A (zh) 2000-01-12
CN1136734C (zh) 2004-01-28
US20010000704A1 (en) 2001-05-03
WO1999007159A2 (en) 1999-02-11
EP0928544A2 (en) 1999-07-14
WO1999007159A3 (en) 1999-05-14
EP0928544B1 (en) 2004-10-06

Similar Documents

Publication Publication Date Title
KR100626994B1 (ko) 가변 비트 레이트 비디오 코딩 방법 및 대응 비디오 코더
KR100667607B1 (ko) 가변 비트레이트 비디오 코딩 방법 및 대응하는 비디오 코더
US7532764B2 (en) Prediction method, apparatus, and medium for video encoder
US6192081B1 (en) Apparatus and method for selecting a coding mode in a block-based coding system
US7778459B2 (en) Image encoding/decoding method and apparatus
US5751358A (en) Video encoder with quantization controlled by inter-picture correlation
US6907069B2 (en) Picture coding apparatus, picture coding method, and recording medium having picture coding program recorded thereon
EP1942678B1 (en) Video encoding method and scene cut detection method
US20090097546A1 (en) System and method for enhanced video communication using real-time scene-change detection for control of moving-picture encoding data rate
EP1037469B1 (en) Apparatus and method for fade detecting and information encoding
EP1068736B1 (en) Method and apparatus for performing adaptive encoding rate control of a video information stream including 3:2 pull-down video information
US20060239347A1 (en) Method and system for scene change detection in a video encoder
US20060256856A1 (en) Method and system for testing rate control in a video encoder
US7606433B2 (en) Encoding apparatus, encoding method, and storage medium
EP0857393B1 (en) Apparatus and method for selecting a coding mode in a block-based coding system
JP3480067B2 (ja) 画像符号化装置及び方法
KR101490521B1 (ko) 동영상 부호화 데이터율 제어를 위한 실시간 장면 전환검출 방법, 이를 이용한 영상통화 품질 향상 방법, 및영상통화 시스템
JP3428332B2 (ja) 画像符号化方法及び装置、並びに画像伝送方法
JP4281667B2 (ja) 画像符号化装置
JPH09214975A (ja) シーンチェンジ適応動画像符号化方法および装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee