KR20040097028A - 다차원 비트율 조절에 따른 비디오 트랜스코딩 방법 및 그장치 - Google Patents
다차원 비트율 조절에 따른 비디오 트랜스코딩 방법 및 그장치 Download PDFInfo
- Publication number
- KR20040097028A KR20040097028A KR1020040083114A KR20040083114A KR20040097028A KR 20040097028 A KR20040097028 A KR 20040097028A KR 1020040083114 A KR1020040083114 A KR 1020040083114A KR 20040083114 A KR20040083114 A KR 20040083114A KR 20040097028 A KR20040097028 A KR 20040097028A
- Authority
- KR
- South Korea
- Prior art keywords
- bit rate
- transcoding
- video
- distortion
- operations
- Prior art date
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/40—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/567—Motion estimation based on rate distortion criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/625—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using discrete cosine transform [DCT]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Discrete Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
본 발명은 다양한 멀티미디어 환경 하에서 서비스품질을 지원하도록 다차원 비트율 조절에 따른 멀티미디어 비디오 컨텐츠 트랜스코딩 방법 및 그 장치에 관한 것이다. 본 발명에 따른 다차원 비트율 조절 방법은, a) 비디오 세그먼트에 대해 목표 비트율을 계산하는 단계; b) 모든 가능한 비디오 트랜스코딩 연산 조합들에 대해 예상 비트율을 추정하는 단계; c) 예상 비트율 중 목표 비트율을 발생시킬 수 있는 연산 조합들을 선택하는 단계; d) 시간/공간/SNR 차원을 포함하는 다차원 비트율-왜곡(R-D) 모델을 사용하여, 상기 선택된 연산들의 조합에 의해 발생되는 전체 왜곡―여기서, 전체 왜곡은 시간/공간/SNR 차원에서 각 비디오의 각 세그먼트에 대하여 평균 왜곡으로 나타냄―들을 추정하는 단계; e) 추정된 전체 왜곡들 중에 최소값을 갖는 하나의 연산 조합을 선택하는 단계; 및 f) 전체 왜곡을 최소화하는 최적의 트랜스코딩 연산 조합을 결정하는 단계를 포함한다. 본 발명에 따르면, 트랜스코딩 품질이 정량적으로 계산될 수 있는 비트율-왜곡 모델을 설계함으로써, 트랜스코딩 연산 조합 선택에 대한 상호 절충을 효율적으로 고려함에 따라 최적의 서비스품질로 지원되는 다차원 비디오 트랜스코딩을 가능하게 한다.
Description
본 발명은 다차원 비트율 조절에 따른 비디오 트랜스코딩 방법 및 그 장치에 관한 것으로, 보다 구체적으로, 다양한 멀티미디어 환경 하에서 서비스품질(QoS)을 지원하도록 다차원 비트율 조절에 따른 멀티미디어 비디오 컨텐츠 트랜스코딩 방법 및 그 장치에 관한 것이다.
컨텐츠 적응 트랜스코딩(Contents Adaptive Transcoding) 기술은 산재되어 있는 멀티미디어 환경에서 시청각 컨텐츠에 대한 접근성과 기능성을 최대화하기 위한 기술이다. 전형적으로, 이러한 컨텐츠 적응 트랜스코딩을 위한 판단에 있어서, 멀티미디어 컨텐츠, 네트워크 특성들, 장치 성능들 및 사용자 선호에 대한 정보들이 고려되어야 한다. 이러한 컨텐츠 트랜스코딩 판단의 최종 목표는 어떤 제약의 틀이 주어진 사용자에게 최상의 표현을 제공하는 것이다.
서로 다른 특성을 지닌 네트워크와 터미널 환경에서의 트랜스코딩 방식은 수십 배 이상의 비트율 트랜스코딩이 요구되지만, 이러한 트랜스코딩에서 단지 SNR 차원의 재양자화(requantization) 연산을 수행하는 경우, 제한된 비트율 감소만이 가능하다. 다시 말하면, 높은 감소율을 요구하는 경우, 단지 하나의 연산에 따른 품질 조절은 충분하지 못하게 된다. 또한, 단지 한 측면의 트랜스코딩 연산을 사용하면, 적당한 범위 내에서의 품질(quality) 조절이 가능할지라도, 사용자에게 최상의 품질 서비스를 제공하려면, 상기 트랜스코딩 시에 복합적인 트랜스코딩 방식을 고려해야 만 한다.
특히, 네트워크 대역폭이 줄어들 때, 비디오 트랜스코딩 장치는 최상의 품질 조절을 위해 공간적 해상도(spatial resolution), SNR(signal to noise ratio), 시간적 해상도(temporal resolution) 스케일링(scaling)을 고려한 종합적인 처리 방식을 확립할 필요가 있다. 즉, 보다 효율적으로 비트(bit)를 할당하기 위해서는 다차원(상기 공간-SNR-시간)적 상호 절충이 필요하다.
예를 들어, 비디오 전송시의 비트율 감소와 관련하여, SNR의 경우, 고화질을 가졌지만 프레임 개수가 적은 것과 저화질을 가졌지만 프레임 개수가 많은 것 중에서 하나를 선택해야 하는 경우가 있다. 또는, 공간 해상도의 경우, 보다 작은 크기지만 프레임수가 많은 것과 보다 큰 크기지만 프레임 수가 작은 것 중에 하나를 선택해야 하는 경우가 있다. 따라서, 다양한 상호 절충을 위해서 시간적, 공간적 스케일링이 상호 유기적으로 고려되어야 한다는 것을 의미한다.
전술한 다양한 상호 절충의 한 시도로서, 비트율-왜곡(Rate-Distortion: 이하 "R-D") 최적화에 근거한 분석적인 접근이 있었지만, 종래의 대부분의 연구들은 일정한 프레임 비율 하에 부호화된 프레임에서의 비트 할당에 초점을 맞추거나, 또는 고정된 공간적 해상도에서의 프레임 비율 조절에 초점을 맞춘 것이었다.
한편, 공간적 품질과 시간적 품질 사이의 상호 절충과 관련하여, 1996년 5월, IEEE Int. Conf. Acoust., Speech, Signal Processing지, 제4권 2072 내지 2075 페이지에 "Joint control of spatial quantization and temporal sampling for very low bit-rate video"라는 명칭의 논문이 게재되었는데, 이 논문에서는 단순한 매개변수적(parametric) 모델이 사용되었다.
한편, 종래 기술로서, 2002년 8월, IEEE Trans. Image Processing지, 제11권 제8호의 873 내지 885 페이지에 "Optimal multidimensional bit-rate control for video communication"이라는 명칭의 논문이 게재되었는데, 이 논문에서는 비디오 코딩(coding) 파라미터를 선택하기 위해 다차원적인 비트율 제어를 다루고 있다. 하지만, 이 논문은 모델에 기반을 둔 방법이 아닌 조작적인 비트율 조절(operational rate control)에 초점을 맞추고 있을 뿐이다.
한편, 종래 기술로서, 2001년 3월, IEEE, Trans. Circuits Syst. Video Technol.지의 제11권 제3호의 387 내지 401페이지에는 "Object-based transcoding for adaptable video content delivery"라는 명칭의 논문이 게재되었는데, 이 논문에서는 전통적인 rate-quantizer(R-Q) 모델에 단순히 제한을 하나 더 추가함으로써 SNR-시간에 대한 요소들의 공동 제어를 다루고 있다.
한편, 종래 기술로서, 2003년 1월, SPIE 학회에 "Rate-distortion models for video transcoding"이라는 명칭의 논문이 게재되었는데, 이 논문에서는 다차원 트랜스코딩을 위한 왜곡이 모델화되었다. 하지만, 이 논문에서는 연산들 간의 상호 의존성(dependency)에 의한 왜곡은 고려되지 않았으며, 또한, 시스템적인 공동 비트율 제어 방법을 다루지 않았다.
상기 문제점을 해결하기 위한 본 발명의 목적은 최종 사용자에게 최상의 비디오 품질을 제공하도록 상기 트랜스코딩 연산들에 있어서 최적의 조합을 결정하는 다차원 비트율 조절에 따른 비디오 트랜스코딩 방법 및 그 장치를 제공하기 위한것이다.
또한, 본 발명의 다른 목적은 연산들간의 상관도가 존재하는 비디오 트랜스코딩에서 공간-시간-SNR에 대한 상호 절충이 고려된 비트율-왜곡 모델링 및 공동 비트율 조절에 따른 트랜스코딩 방법 및 그 장치를 제공하기 위한 것이다.
도 1a 내지 도 1c는 부호화된 원본 비디오 프레임과 공간적(Spatial) 해상도가 트랜스코딩된 비디오 프레임의 이산 여현 연산(DCT)의 AC 계수값들의 통계적 분포를 각각 나타내는 도면이다.
도 2a 내지 도 2c는 초당 30 프레임으로 부호화된 원본 비디오 프레임과 시간적(Temporal) 해상도가 트랜스코딩된 비디오 프레임의 이산 여현 연산(DCT)의 AC 계수값들의 통계적 분포를 각각 나타내는 도면이다.
도 3a 내지 도 3c는 초당 30 프레임과 CIF 크기로 부호화된 원본 비디오 프레임과 공간적 해상도와 시간적 해상도가 트랜스코딩된 비디오 프레임의 이산 여현 연산(DCT)의 AC 계수값들의 통계적 분포를 각각 나타내는 도면이다.
도 4는 본 발명의 실시예에 따른 다차원 비트율 조절에 따른 MPEG 비디오 트랜스코딩 장치의 구성도이다.
도 5는 본 발명의 실시예에 따른 비디오 세그먼트에 대한 다차원 비트율 조절 방법의 동작 흐름도이다.
상기 목적을 달성하기 위한 수단으로서, 본 발명에 따른 다차원 비트율 조절 방법은,
최적화된 서비스품질을 제공하는 비디오 트랜스코딩을 위한 비트율 조절 방법에 있어서,
a) 비디오 세그먼트에 대해 목표 비트율을 계산하는 단계;
b) 모든 가능한 비디오 트랜스코딩 연산 조합들에 대해 예상 비트율을 추정하는 단계;
c) 상기 예상 비트율 중 상기 목표 비트율을 발생시킬 수 있는 연산 조합들을 선택하는 단계;
d) 시간/공간/SNR 차원을 포함하는 다차원 비트율-왜곡(Rate-Distortion) 모델을 사용하여 상기 선택된 연산들의 조합에 의해 발생되는 전체 왜곡―여기서, 전체 왜곡은 상기 시간/공간/SNR 차원에서 각 비디오의 각 세그먼트에 대하여 평균 왜곡으로 나타냄―들을 추정하는 단계;
e) 상기 추정된 전체 왜곡들 중에 최소값을 갖는 하나의 연산 조합을 선택하는 단계; 및
f) 상기 전체 왜곡을 최소화하는 최적의 트랜스코딩 연산 조합을 결정하는 단계
를 포함하여 이루어지는 특징이 있다.
여기서, 상기 b) 단계는, b-1) 2차 비율-양자화(rate-quantizer) 모델을 사용하여 재양자화 동작에 따른 비트율을 추정하는 단계; b-2) 상기 비디오 세그먼트 내의 각 프레임에 대한 비트수에 따라 시간적 해상도 스케일링 연산에 의한 비트율을 추정하는 단계; 및 b-3) 직관적인 비례축소 감소에 따라 공간적 해상도 스케일링 연산에 대한 비트율을 추정하는 단계를 포함할 수 있다.
여기서, 상기 b-2) 단계는 한 프레임이 생략될 때, 상기 프레임의 비트수에 의해 시간적 스케일링 연산에 따른 비트율이 구해지는 것을 특징으로 한다.
여기서, 상기 b-3) 단계의 공간적 해상도는 수직 및 수평에 대해 각각 반으로 축소시켰을 때, 직관적으로 상기 비트율이 원래 비트율에서 3배 내지 4배로 비례축소 감소되는 것을 특징으로 한다.
여기서, 상기 c) 단계의 예상 비트율은 상기 목표 비트율보다 너무 낮은 비트율의 발생을 방지하도록 설정된 문턱 비트율보다는 크고, 상기 목표 비트율보다는 작은 값을 갖는 것을 특징으로 한다.
여기서, 상기 비디오 트랜스코딩 연산은 시간적 해상도 축소비례(temporal resolution scaling), 공간적 해상도 축소비례(spatial resolution scaling) 및 SNR 축소비례(SNR scaling) 연산을 포함할 수 있다.
여기서, 상기 d) 단계의 다차원 비트율-왜곡 모델은 다차원 트랜스코딩 연산들간의 상관성 분석에 따른 상관 왜곡(dependency distortion)을 포함할 수 있다.
여기서, 상기 상관 왜곡은 상기 비디오 트랜스코딩 연산들간의 상관성에 기인하여, 공간적 해상도와 시간적 해상도의 비례축소 연산들은 SNR의 비트율-왜곡 모델에 영향을 미치는 것을 특징으로 한다.
여기서, 상기 재양자화 연산의 비트율-왜곡 모델이 시공간 해상도의 축소표본화(downsampling)의 양에 따라 보정되는 것을 특징으로 한다.
한편, 상기 목적을 달성하기 위한 다른 수단으로서, 본 발명에 따른 다차원 비트율 조절에 따른 비디오 트랜스코딩 방법은,
최적화된 서비스품질을 제공하는 비디오 트랜스코딩을 위한 비트율 조절에 따른 비디오 트랜스코딩 방법에 있어서,
a) 입력 비트스트림(bitstream)에 대해 가변길이 복호, 역양자화 및 역 DCT 변환을 포함하는 복호 과정을 수행하는 단계;
b) 각 비디오 세그먼트별로 비트율을 조절하도록 상기 복호 과정을 수행하여 제공되는 정보들을 이용하여 다차원 비트율을 조절하는 단계;
c) 프레임률(frame rate), 프레임 크기 트랜스코딩을 위한 스케일링 인자 및 재양자화 파라미터로 구성된 최적의 트랜스코딩 연산 조합을 결정하는 단계;
d) 상기 결정된 연산들에 따른 시간 해상도 및 공간 해상도 축소표본화를 수행하는 단계; 및
f) 상기 재양자화 파라미터에 따라 양자화를 수행한 후, 가변길이 부호기를 통해 트랜스코딩된 비트스트림을 출력하는 단계
를 포함하여 이루어지는 특징이 있다.
여기서, 상기 복호 과정을 수행하여 제공되는 정보는 움직임 벡터, 소스의 특성 및 각 프레임의 비트수 정보를 포함할 수 있다.
여기서, 상기 b) 단계는, b-1) 비디오 세그먼트에 대해 목표 비트율을 계산하는 단계; b-2) 모든 가능한 비디오 트랜스코딩 연산 조합들에 대해 예상 비트율을 추정하는 단계; 및 b-3) 상기 예상 비트율 중 상기 목표 비트율을 발생시킬 수 있는 연산 조합들을 선택하는 단계를 포함할 수 있다.
여기서, 상기 c) 단계는, c-1) 시간/공간/SNR 차원을 포함하는 다차원 비트율-왜곡(Rate-Distortion) 모델을 사용하여 상기 선택된 연산들의 조합에 의해 발생되는 전체 왜곡―여기서, 전체 왜곡은 상기 시간/공간/SNR 차원에서 각 비디오의 각 세그먼트에 대하여 평균 왜곡으로 나타냄―들을 추정하는 단계; c-2) 상기 추정된 전체 왜곡들 중에 최소값을 갖는 하나의 연산 조합을 선택하는 단계; 및 c-3) 상기 전체 왜곡을 최소화하는 최적의 트랜스코딩 연산 조합을 결정하는 단계를 포함할 수 있다.
한편, 상기 목적을 달성하기 위한 다른 수단으로서, 본 발명에 따른 다차원 비트율 조절에 따른 비디오 트랜스코딩 장치는,
최적화된 서비스품질을 제공하는 비디오 트랜스코딩을 위한 비트율 조절에 따른 비디오 트랜스코딩 장치에 있어서,
입력 비트스트림(bitstream)에 대해 가변길이 복호, 역양자화 및 역 DCT 변환을 포함하는 복호를 수행하는 복호화부;
각 비디오 세그먼트별로 비트율을 조절하도록 상기 복호화부에서 제공되는 정보들을 이용하여 다차원 비트율을 조절하고, 프레임률(frame rate), 프레임 크기 트랜스코딩을 위한 스케일링 인자 및 재양자화 파라미터로 구성된 최적의 비디오 트랜스코딩 연산 조합을 결정하는 다차원 비트율 조절기;
상기 결정된 연산들 중 상기 프레임률에 따른 시간 해상도 축소표본화를 수행하는 시간 해상도 축소표본화기;
상기 결정된 연산들 중 상기 프레임 크기 트랜스코딩을 위한 스케일링 인자에 따른 공간 해상도 축소표본화를 수행하는 공간 해상도 축소표본화기; 및
DCT 변환, 재양자화 및 가변길이 부호화를 포함하는 부호화를 수행하여 트랜스코딩된 비트스트림을 출력하는 부호화부
를 포함하여 구성되는 특징이 있다.
여기서, 상기 비디오 트랜스코딩 연산은 시간적 해상도 축소비례, 공간적 해상도 축소비례 및 SNR 축소비례 연산을 포함할 수 있다.
여기서, 상기 다차원 비트율 조절기는 시간/공간/SNR 차원을 포함하는 다차원 비트율-왜곡(Rate-Distortion) 모델을 사용하여 상기 선택된 연산들의 조합에 의해 발생되는 전체 왜곡―여기서, 전체 왜곡은 상기 시간/공간/SNR 차원에서 각 비디오의 각 세그먼트에 대하여 평균 왜곡으로 나타냄―들을 추정하는 것을 특징으로 한다.
따라서, 본 발명에 따르면, 다차원 비디오 트랜스코딩에 있어서 트랜스코딩 품질이 정량적으로 계산될 수 있는 비트율-왜곡 모델을 설계함으로써, 트랜스코딩연산 조합 선택에 대한 상호 절충을 효율적으로 고려함에 따라 최적의 서비스품질로 지원되는 비디오 트랜스코딩을 가능하게 한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 따른 다차원 비트율 조절에 따른 비디오 트랜스코딩 방법 및 그 장치를 상세히 설명한다.
본 발명의 실시예는 시간적 해상도 축소비례(temporal resolution scaling), 공간적 해상도 축소비례(spatial resolution scaling) 및 SNR 축소비례(SNR scaling) 연산(operation)들을 사용하는 다차원 비디오 트랜스코딩을 위해, 비트율-왜곡(R-D) 모델링에 의한 실질적인 공동 제어를 구현하고, 상기 트랜스코딩 연산들에 있어서 최적의 조합을 결정함으로써, 최종 비디오 컨텐츠 사용자에게 최상의 비디오 서비스품질(Quality of Service: QoS)을 제공하게 된다. 즉, 상기 비디오 컨텐츠를 형성하는 비트스트림을 보다 효율적으로 할당할 수 있도록 시간, SNR, 공간 및 각 연산들간의 적절한 상호 절충을 효과적으로 제어하게 된다.
또한, 본 발명의 실시예는 다차원적인 연산에 의한 비디오 트랜스코딩의 비트율과 왜곡을 모델화하고, 이러한 모델에 근거하여 비디오 트랜스코딩에 있어서 유기적인 비트율 조절 방법에 따른 비디오 트랜스코딩 방법 및 장치를 구현함으로써, 연산들간의 상관성 분석을 통해 상관 왜곡(dependency distortion)을 포함하는 개선된 비트율-왜곡 모델과 비트율 제어 방법을 포함한다.
따라서, 본 발명의 실시예는 유비쿼터스(ubiquitous) 컴퓨팅 환경에서 컨텐츠 사용에 있어서 최적의 서비스품질(QoS)을 지원하기 위한 최적의 비디오 트랜스코딩(transcoding) 방법을 제공한다. 즉, 트랜스코딩된 비디오 개체(entity)의 품질을 최대화하기 위해 기본적으로 네트워크나 터미널에 의해 제약받은 비트율(bitrate)을 충족시킬 수 있는 최적의 트랜스코딩 연산들의 조합 정보를 제공한다.
한편, 본 발명의 실시예에 따른 3차원(공간-시간-SNR) 품질 조절 요소를 갖는 다차원 트랜스코딩에 대한 비트율-왜곡(R-D) 최적화 문제는 다음 수학식 1과 같이 트랜스코딩된 컨텐츠의 평균 왜곡을 최소화시키는 최적의 트랜스코딩 연산 조합 {RQ*, TS*, SS*}을 찾는 것으로 정형화된다.
여기서,는 i번째 영상 프레임(frame)의 왜곡을 의미하고, 평균 제곱 에러(mean square error: MSE)로 표현된다. 또한,RQ는 재양자화(requantization) 벡터로서, 로 나타내고, 여기서,는 i번째 프레임의 재양자화 파라미터로서, 그 값은와사이에 존재하는 양자화 값 중에서 선택된다.
또한, N은 시간적 세그먼트(temporal segment)에서 전체 프레임의 수를 나타낸다. 그리고,TS는 시간적 해상도 스케일링(Temporal resolution Scaling) 연산들을 포함하는 하나의 벡터로서,로 나타내고, 여기서,는 i번째 프레임의 존재 유무를 나타내는 정수값이다. 즉, '1'은 프레임을 삭제하지 않는다는 것을 의미하고, '0'은 프레임 삭제를 의미한다.
또한,SS는 공간적 해상도 스케일링(Spatial resolution Scaling) 연산들을 포함하는 하나의 벡터로서,로 나타내고, 여기서, SSi는 i번째 프레임에 대해서,로 표현될 수 있다. 이때,×은 원래 프레임의 공간적 해상도이고,×은 축소표본화(downsampling)된 공간적 해상도를 나타낸다. 예를 들면, '1'은 원본 비디오와 같은 크기의 것을 의미하고, '0.25'는 수평과 수직에 대해서 각각 반으로 줄인 비디오를 의미한다.
본 발명의 실시예에서는 전술한 수학식 1의 최적화 문제를 풀기 위해서 비트율-왜곡(R-D) 모델링에 의한 접근법을 사용하게 되며, 이하 상세히 설명한다.
먼저, 통상적인 R-D 모델링에서는 비디오 데이터의 통계적인 특성을 고려함으로써 얻어지는 다양한 모델들이 존재한다. 예를 들어, DCT(discrete cosine transform) 기반의 비디오 부호화 방식에서, DCT 계수들의 통계적 특성은 라플라시안(Laplacian:with) 분포에 가깝다는 것이 증명되었으며, 이러한 특성에 따른 2차원 R-D 모델이 MPEG-4에서 차용되었다.
여기서, 상기 MPEG-4는 오디오, 비디오, 그래픽, 텍스트 등 디지털 멀티미디어 데이터를 실시간 저장·전송·검색하기 위한 국제표준기술로서, 기존의 MPEG-1/MPEG-2보다 뛰어난 압축 기술을 구현하고 있으며, 객체 단위의 데이터 압축·재생·전송·조작이 가능한 영상압축전송 규격중 하나를 말한다.
본 발명의 실시예에서는 소스(source) 모델을 상기 라플라시안 모델로 가정하였고, 비디오 프레임을 위한 양자화에 기인한 왜곡은 다음 수학식 2와 같이 주어진다.
여기서, R은 화소 대비 비트 수를 나타낸다.
본 발명의 실시예에 따른 다차원 비트율 제어를 위해서, 수학식 2와 같은 SNR 차원에서의 비트율-왜곡 모델뿐만 아니라, 시간적 및 공간적 해상도 비례축소(scaling) 연산에 기인한 왜곡을 모델링하고 분석하여야 하며, 이러한 연산들간의 의존성 또한 모델링하고 분석할 필요가 있다.
따라서, 본 발명의 실시예에서는 시간적 프레임 생략(dropping)에 기인한 왜곡의 분석을 간략화하고, 프레임 생략을 추정하기 위하여 단순 반복(zero-order hold) 보간(interpolation)을 가정하였다.
그리고, 시간적 보간에 의해서 발생되는 왜곡은 이전에 부호화된 프레임의 공간적인 기울기(gradient)들과 움직임벡터(motion vector: mvx, mvy)들에 의하여 모델화될 수 있으며, 다음 수학식 3과 같이 "광 전송식(optical flow equation)"으로부터 유도될 수 있다.
또한, 본 발명의 실시예에 따른 공간적 보간에 의해 발생되는 왜곡은 다음 수학식 4에 의해 계산될 수 있다.
여기서,는좌표에서 부호화된 픽셀(pixel)이고,는에서 표본화된 값을 보간시킨 픽셀 값이다. 상기 단순 반복 보간과 같은 가정 하에서 이러한 왜곡은 비디오 프레임의 지역 분산으로 간단히 모델화될 수 있다.
일반적으로, i번째 프레임의 왜곡은 다음 수학식 5와 같이 각 트랜스코딩 연산에 의해서 발생되는 왜곡의 가중치가 적용된 합으로 표현될 수 있다.
여기서,,및는 재양자화, 시간적 및 공간적 비례축소 연산들의 왜곡을 각각 나타낸다. 또한, 가중치 인수는로 주어지고, 이때,로서, 가중치의 전체 합은 1이다.
한편, 프레임들간 그리고 연산들간 상관성이 존재하지 않을 경우, 즉, 상호 독립적인 왜곡인 경우,,및는 단지,및의 각 변수에 의해서 각각 결정된다. 그러므로 상기 수학식 5의는,및에 의해서 발생되는 세 가지 왜곡의 가중치가 적용된 합으로, 다음 수학식 6과 같이 간략화될 수 있다.
한편, 상기 수학식 6을 간략화하기 위하여 두 가지 경우를 고려할 수 있는데, 부호화된 프레임에서 왜곡과 생략된 프레임에서 왜곡으로 각각 나누어 다음 수학식 7과 같이 각각 전개될 수 있다.
만일, 시간적 보간 방법이 이전에 트랜스코딩된 프레임을 단순히 반복하고 상관도가 없다고 가정하면, i번째 프레임의 왜곡에 대한 상기 수학식 7은 다음 수학식 8과 같이 표현될 수 있다.
전술한 바와는 반대로, 연산들간의 상관성이 존재하는 경우, 하나의 트랜스코딩 연산은 다른 트랜스코딩 연산에 의하여 야기되는 왜곡에 영향을 미치게 된다. 이 경우, 전체 왜곡은 각 프레임 왜곡들의 평균으로 나타낼 수 있다. 수학식 5에서 각 트랜스코딩 연산에 의한 왜곡은 다음 수학식 9, 10 및 11과 같이 표현된다.
상기 상호연산 상관성이 존재하는 왜곡은 연산 실행의 순서에 의존적이다. 전형적인 변환기(transcoder)에서 시간적 비례축소 연산이 먼저 실행되고, 공간적 비례축소(spatial scaling) 연산이 나중에 실행되고, 최종적으로 재양자화에 의한 SNR 비례축소(SNR scaling) 연산이 실행된다. 이러한 트랜스코딩 연산 실행의 순서를 고려하는 경우, 수학식 9, 10 및 11은 다음 수학식 12, 13 및 14와 같이 다시 표현될 수 있다.
이하, 상기 연산들간의 상관도가 존재하는 왜곡을 모델화하기 위하여, 이산 여현 변환(DCT) 상수의 통계적 속성을 분석하고 검토하기로 한다.
첫째로, 재양자화에 의한 SNR 비례축소(SNR scaling) 연산과 공간적 해상도 비례축소(spatial resolution scaling) 연산간의 상관 왜곡(dependency distortion)은 다음과 같다:
도 1a 내지 도 1c는 부호화된 원본 비디오 프레임과 공간적(Spatial) 해상도가 트랜스코딩된 비디오 프레임의 이산 여현 연산(DCT)의 AC 계수값들의 통계적 분포를 각각 나타내는 도면이다. 도 1a는 "Foreman" 비디오의 첫 번째 프레임에 대한 분포도이고, 도 1b는 "Football" 비디오의 첫 번째 프레임에 대한 분포도이며, 도 1c는 "Container Ship" 비디오의 첫 번째 프레임에 대한 분포도이다.
도 1a 내지 도 1c를 참조하면, 공간적 축소표본화 연산은 소스의 분포에 영향을 미친다. 즉, 라플라시안 분포에서값이 변하게 된다. 따라서, 상기 수학식 2에서의 비트율 왜곡 함수는가 변화함에 따라서 동반하여 변화하게 된다. 이것은 SNR 비례축소(SNR scaling)를 위한 재양자화 연산의 R-D 함수가 공간적 해상도의 축소표본화(spatial resolution downsampling)에 의하여 영향을 받는다는 것을 의미한다.
한편, 표 1은 상호연산 상관성을 내포한 서로 다른 GOP(Group of Picture) 구조의 프레임 생략 방법의 전형적인 예들을 보여준다. 후술하는 바와 같이, 도 1a 내지 도 3c에서, 표 1에 음영 처리된 P 프레임에 대한 각각의 분포가 예로서 설명된다.
여기서, 상기 GOP는 I(intra) 프레임으로 시작하는 연속적인 화상들의 집합으로서, 정지화상(JPEG)으로 압축된 프레임을 I 프레임, 정방향 예측만을 한 프레임을 P(forward predicted) 프레임, 정방향, 역방향 및 보간 예측을 한 프레임을 B(bidirectionally predicted) 프레임이라고 한다. MPEG 비디오는 이들 세 종류의 프레임들이 일정한 패턴으로 모여 있다.
상기 I 프레임은 전체 화면을 보내는 프레임이며, 상기 P 프레임은 I 프레임에 의해 예측되는 프레임을 말하며, 전체 화면이 보내지는 것이 아니라 I 프레임에서 예측된 정보만 보내져 P 프레임을 재생하게 된다. 상기 P 프레임은 부호화와 복호화를 행할 때, 이전의 I 프레임 정보와 이전의 P 프레임 정보를 사용한다. P 프레임은 연속되는 이미지들의 전체 이미지가 바뀌는 것이 아니라 이미지의 블럭들이 옆으로 이동한다는 점에 착안한 것이다. 즉, 움직임이 있는 경우 이전 화면에 있는 물체 자체의 모양에는 큰 변화 없이 옆으로 이동하는 경우가 대부분이므로, 이전의 화면과 현재의 화면의 차이가 매우 작은 것을 이용하여 차이값만을 부호화하는 것이다.
상기 B 프레임은 B 프레임은 양쪽에 주어진 프레임에 의해 예측되어 재생되고, 상기 B 프레임은 예측하는 기준 프레임으로 사용되지는 않는다.
둘째로, 시간적 비례축소(temporal scaling) 연산과 재양자화에 의한 SNR 비례축소(SNR scaling) 연산 사이의 상관 왜곡은 다음과 같다:
도 2a 내지 도 2c는 초당 30 프레임으로 부호화된 원본 비디오 프레임과 시간적(Temporal) 해상도가 트랜스코딩된 비디오 프레임의 이산 여현 연산(DCT)의 AC 계수값들의 통계적 분포를 각각 나타내는 도면이다. 도 2a는 10frame/sec(f/s)로 트랜스코딩된 "Foreman" 비디오의 열한 번째 프레임과의 비교 분포도이고, 도 2b는 6f/s로 트랜스코딩된 "Football" 비디오의 세 번째 프레임에 대한 분포도이며, 도 2c는 6f/s로 트랜스코딩된 "Container Ship" 비디오의 세 번째 프레임에 대한 분포도이다.
도 2a 내지 도 2c는 표 1에서의 각각의 GOP(Group of Picture) 구조에 상응하는 부호화된 프레임들과 시간적으로 트랜스코딩된 프레임들의 AC 계수값들의 분포를 보여준다.
도 2a 내지 도 2c에 도시된 바와 같이, 프레임 생략(dropping) 연산은 움직임 보상 비디오 부호화에서 시간적 상관성처럼 소스 분포에 영향을 미친다. 그 영향력의 정도는 이전 생략된 참조 프레임(B가 아닌 I와 P 프레임)과 GOP 구조에 의존하게 된다. 대부분의 프레임 생략 방법은 먼저 B 프레임들을 생략하고, 그 다음에 P 프레임들을 생략하게 된다. 이때, I 프레임들은 거의 생략되지 않는다. 그러므로, 대부분의 경우, P 프레임 생략 연산이 다음에 부화화될 프레임들의 소스 분포에 영향을 미치게 된다.
한편, 도 3a 내지 도 3c는 초당 30 프레임과 CIF(Common Interchange Format) 크기로 부호화된 원본 비디오 프레임과 공간적 해상도와 시간적 해상도가 트랜스코딩된 비디오 프레임의 이산 여현 연산(DCT)의 AC 계수값들의 통계적 분포를 각각 나타내는 도면이다. 도 3a는 10f/s와 QCIF(Quarter Common Interchange Format) 크기로 트랜스코딩된 "Foreman" 비디오의 열한 번째 프레임과의 비교 분포도이고, 도 3b는 6f/s와 QCIF로 트랜스코딩된 "Football" 비디오의 세 번째 프레임에 대한 분포도이며, 도 3c는 6f/s와 QCIF로 트랜스코딩된 "Container Ship" 비디오의 세 번째 프레임에 대한 분포도이다.
도 3a 내지 도 3c는 시간적 비례축소와 공간적 해상도의 비례축소 모두에 의해 발생되는 AC 계수값들의 이산 밀도 함수의 비교를 보여준다. 모든 결과들은 최초 30프레임, CIF 해상도(352×288), 그리고 표 1에서의 각 GOP 구조로 부호화된 "Football" 테스트 비디오로부터 얻어진다. 도 3a 내지 도 3c에 도시된 바와 같이, 시간적 그리고 공간적 해상도의 축소표본화 연산들은 소스 분포에 영향을 주게 되므로, 재양자화 연산을 위한 R-D 함수는 상호연산 상관성에 의하여 변화된다. 그러므로, 상호연관 왜곡은 재양자화 연산을 위한 R-D 함수의 파라미터 변화의 양을 고려함으로서 보상되어야 한다.
셋째로, 공간적 해상도 비례축소와 시간적 해상도의 비례축소 연산들간의 상관 왜곡은 다음과 같다.
생략 프레임은 다음에 부화화된 프레임의 AC 계수값들에 영향을 미칠 수 있으나, 복호화된 프레임의 공간 영역 특징들, 예를 들어, 강도 편차(intensity variance)에 영향을 미치지 않는다. 전술한 수학식 4의 공간적 해상도의 비례축소 연산을 위한 본 발명의 실시예에 따른 왜곡 모델에 근거하여, 연산들간의 상관성에 의해 공간적 해상도의 비례축소 연산의 왜곡은 변화되지 않는다. 따라서, 공간적 해상도의 비례축소와 시간적 해상도의 비례축소 연산들간의 상관도는 무시될 수 있다.
전술한 상관성을 고려한 왜곡 모델화를 위해, 전술한 도 1a 내지 도 3c의 관측 결과를 근거로 하여, 본 발명의 실시예에서는 다음과 같은 결론을 내릴 수 있다.
비디오 트랜스코딩 연산들간의 상관성에 기인한, 공간적 해상도와 시간적 해상도의 비례축소 연산들은 SNR의 R-D 모델에 영향을 미칠 수 있다. 다시 말하면,부호화된 프레임을 위한 재양자화 연산의 R-D 모델은 시간적 및 공간적 해상도의 축소표본화의 양에 의하여 영향을 받게 된다.
를 공간적 해상도의 비례축소 연산 그리고/또는 시간적 해상도의 비례축소 연산에 의해 변화되는 소스 분포 모델의 새로운 알파 값를 인자로 하는 i 번째 프레임의 재양자화 왜곡이라고 한다면, 상호 연산 의존도를 가진 재양자화 연산에 기인한 왜곡은 다음 수학식 15와 같이 정의될 수 있다.
전술한 바와 같이, 공간적 해상도 및 시간적 해상도의 비례축소 연산들 간의 상호 연산 의존도가 존재하지 않는다. 더욱이, i번째 프레임의 공간적 왜곡은 이전 프레임들의 왜곡과 관계성이 존재하지 않는다. 그러므로, 공간적 해상도의 비례축소 연산의 왜곡은 다음 수학식 16과 같이 표현될 수 있다.
만일, 공간적 보간기가 이전에 트랜스코딩된 프레임을 반복한다고 가정하면, 공간적 비례축소 연산의 왜곡은 프레임 보간 왜곡과 이전 프레임의 트랜스코딩 왜곡의 합이 되며, 다음 수학식 17과 같이 주어질 수 있다.
상기 수학식 2, 3, 4, 15, 및 16에 의해 상기 수학식 17은 다음 수학식 18로 간략히 표현될 수 있다.
최종적으로 상기 수학식 15, 16 및 18을 이용하여, i번째 프레임의 왜곡, 즉 수학식 5는 다음 수학식 19로 전개될 수 있다.
전술한 왜곡 모델을 바탕으로 주어진 비트율 조건 하에 비트율과 왜곡을 추정함으로써, 이하, 최적의 트랜스코딩 연산 조합을 결정하기 위해 세그먼트별로 비트율을 조절하는 방법, 및 이에 따른 비디오 트랜스코딩 장치 및 방법에 대해 설명하기로 한다.
도 4는 본 발명의 실시예에 따른 다차원 비트율 조절에 따른 MPEG 비디오 트랜스코딩 장치의 구성도로서, 가변길이 복호기(Variable Length Decoder: 401), 역양자화기(Inverse Quantizer: 402), 역 DCT 변환기(Inverse Discrete Cosine Transformer: 403), 가산기(404), 제1 프레임 저장부(405), 제1 움직임 보상기(Motion Compensator: 406), 다차원 비트율 조절기(407), 시간 해상도 축소표본화기(408), 공간 해상도 축소표본화기(409), 감산기(410), DCT 변환기(Discrete Cosine Transformer: 411), 양자화기(Quantizer: 412), 제2 프레임 저장부(413), 제2 움직임 보상기(414), 움직임벡터 변환부(415) 및 가변길이 부호기(Variable Length Coder: 416)를 구비한다.
본 발명의 실시예에 따른 비디오 트랜스코딩 장치는 영상을 입력받아 DCT(Discrete Cosine Transform) 및 양자화를 수행하고, 가변길이 부호화(Variable Length Coding: VLC) 등을 거쳐 인코딩된 비트스트림(bitstream)을 출력하는데, 이러한 인코딩된 비트스트림의 비트율을 일정하게 만들기 위하여 비트율 제어가 필요하다. 여기서, 트랜스코딩은 소정의 비트율이나 소정의 크기의 영상 데이터를 다른 비트율이나 다른 크기로 변환하는 것을 말하며, 이러한 트랜스코딩 과정에서 다차원 비트율 조절기(107)가 비트율 제어를 수행하게 된다.
도 4를 참조하면, 본 발명의 실시예에 따른 비디오 트랜스코딩 장치는, 먼저, MPEG-4 입력 비트스트림(bitstream)은 가변길이 복호기(401), 역양자화기(402) 및 역 DCT 변환기(403)에 의한 복호화 과정을 거치게 되고, 움직임 벡터, 소스의특성, 각 프레임의 비트수 정보들을 다차원 비트율 조절기(107)로 입력하게 된다.
이때, 상기 다차원 비트율 조절기(407)는 세그먼트별로 비트율을 조절하도록 상기 정보들을 이용하여 다차원 비트율을 조절한 후, 프레임률(frame rate), 프레임 크기 트랜스코딩을 위한 스케일링 인자, 재양자화 파라미터들로 구성된 최적의 트랜스코딩 연산 조합을 찾게 된다. 상기 최적의 트랜스코딩 연산 조합을 찾기 위한 다차원 비트율 조절 방법은 도 5를 참조하여 후술하기로 한다.
상기 찾아진 결과 연산들에 따른 시간 해상도 및 공간 해상도 축소표본화기(408, 409)와 양자화기(412)를 거친 후, 가변길이 부호기(416)에 의해 트랜스코딩된 MPEG-4 비트스트림을 출력하게 된다.
여기서, 상기 축소표본화기(408, 409)의 표본화(Sampling)란 시간적으로 또는 공간적으로 연속적인 신호를 시간적/공간적으로 이산(discrete)적인 신호로 바꾸는 과정을 말하며, 상기 양자화(Quantization)는 연속적인 값(실수값)을 갖는 표본화 데이터를 이산값으로 트랜스코딩하는 과정을 말하고, 또한, 부호화(Encoding)는 예를 들어, 양자화된 신호의 레벨의 개수가 L이라 할 때, L개의 심볼에 대응하는 n개의 2진 코드로 트랜스코딩하는 과정을 말한다.
다시 말하면, 상기 가변길이 복호기(401)는 압축된 비디오 데이터 및 움직임 벡터를 그 구성 부분으로 하는 비트스트림을 수신하여 상기 비트스트림을 가변길이 복호화(Decoding)하여 출력한다. 상기 가변길이 복호기(401)는 빈번히 발생하는 데이터를 짧은 부호로 표현하고 빈번하지 않은 데이터를 상대적으로 긴 부호로 표현함으로써, 데이터 흐름의 전체 양을 감소시키는 역할을 한다.
상기 역양자화기(402)는 상기 가변길이 복호기(401)에 의해 부호화된 DCT 계수를 역양자화한다. 상기 역양자화기(402)는 역양자화된 DCT 계수를 역 DCT 변환기(403)에 전송한다.
상기 역 DCT 변환기(403)는 역양자화된 DCT 계수를 역 DCT 변환하여 얻어진 예측오차신호를 가산기(404)에 제공한다. 이러한 역양자화기(402)와 역 DCT 변환기(403)를 거치면 디코딩된 샘플이 나오게 된다. 이때, 움직임 보상을 하기 위해서는 참조 프레임이 필요하며, 상기 참조 프레임은 제1 및 제2 프레임 저장부(405, 414)에 저장되어 있다.
구체적으로, 도 4를 다시 참조하면, 상기 DCT 계수는 화소 영역 내에 비디오신호를 생성하기 위해 역 DCT 변환기(403)에 의해 화소영역으로 변환된다. 이러한 역 DCT 변환된 신호는 가산기(405)에 의해 상기 프레임 저장부(405)에 저장된 이전 프레임에 부가되고, 결과적인 예측 프레임은 프레임 저장부(405)에 저장된다. 예를 들어, 제1 프레임을 수신하는 즉시, 비압축 프레임은 프레임 저장부(405)에 저장된다, 즉, 가산기(404)로의 제2 입력은 0이 된다. 다음 프레임에서, 디코딩된 데이터는 예측 오차를 나타내고, 가산기(1404)에 의해 프레임 저장부(405)의 내용에 부가되며, 상기 프레임 저장부(405)의 출력은 움직임 벡터에 의해 제어된 움직임 보상기(406)에 의해 움직임-보상된다.
또한, 상기 가산기(404)는 입력된 예측오차신호와 예측신호를 가산한다. 여기서, 예측이란 프레임/필드간 화소 데이터의 차이를 구하는 것을 말한다. 즉, 현재 처리하고자 하는 프레임/필드 상의 어떤 매크로블록과 과거에 처리한 다른 프레임/필드 상의 데이터가 가장 잘 일치하는 매크로블록을 탐색해서 일치된 매크로블록이 어느 방향으로 움직이는가를 움직임벡터로 검출한다.
상기 제1 움직임 보상기(406)는 입력된 움직임벡터로부터 부호화 순으로, 과거의 프레임 또는 복수의 과거의 프레임으로부터 움직임보상을 예측하고, 얻어진 예측신호를 가산기(404)에 전송한다. 상기 움직임 예측이란 화면을 블록 단위로 나누어서 그 블록의 움직임을 예측하는 것을 말하며, 벡터량(움직임 벡터)으로 표시할 수 있고, 다음 장면 대신 그 벡터량을 보낸다.
상기 가산기(404)는 입력된 예측오차신호 및 예측신호를 가산하며, 가산된 신호는 상기 시간 및 공간 해상도 축소표본화기(408, 409)를 거친 후, 감산기(410)로 전송한다. 상기 감산기(410)는 입력된 신호로부터 예측신호를 감산하며, 얻어진 예측오차신호를 DCT(411)에 제공한다.
상기 DCT(411)는 입력된 예측오차신호를 DCT 변환하며, 얻어진 DCT 계수를 양자화기(415)에 제공한다.
상기 양자화기(415)는 입력된 DCT 계수를 양자화하며, 상기 양자화기(415)는 양자화된 DCT계수를 가변길이 부호기(416)에 제공하게 된다.
상기 가변길이 부호기(416)는 입력된 프레임 코딩타입, 움직임벡터, 및 양자화된 DCT 계수를 가변길이 부호화하며, 얻어진 비트스트림을 출력한다.
한편, 도 5는 본 발명의 실시예에 따른 비디오 세그먼트에 대한 다차원 비트율 조절 방법의 동작 흐름도로서, 전술한 왜곡 모델을 바탕으로 주어진 비트율 조건 하에 비트율과 왜곡을 추정함으로써, 최적의 트랜스코딩 연산 조합을 결정하기위하여 세그먼트별로 비트율을 조절하는 것을 나타낸다.
이러한 비트율 조절 방법을 사용하여, 비디오의 각 세그먼트에 대하여 평균 왜곡을 최소화하는 프레임률, 프레임 크기 변환을 위한 스케일링 인자 및 평균 재양자화 양으로 구성된 최적의 트랜스코딩 연산 조합을 얻을 수 있다.
도 5를 참조하면, 본 발명의 실시예에 따른 비디오 세그먼트에 대한 다차원 비트율 조절 방법은, 먼저, 입력 비디오를 전통적인 세그먼트 방식을 사용하여 나눈 후, 상기 비디오 세그먼트에 대해 목표 비트율을 설정하고(S501), 이후, 모든 가능한 트랜스코딩 연산 조합에 대한 예상 비트율을 계산한다(S502). 전형적인 변환기에서는 시간적 스케일링 연산이 먼저 이루어지고, 다음으로 공간적 스케일링 연산이 뒤따르고, 끝으로 재양자화 연산이 수행된다.
이후, 상기 트랜스코딩 연산 수행 순서에 따라서 다음과 같은 비트율 추정 방식을 이용하여 각 연산에 의한 예상 비트율을 계산한다.
첫째로, 재양자화 동작에 따른 비트율 추정을 위해서는 다음과 같은 통상적인 2차 비율-양자화(rate-quantizer) 모델을 사용한다.
수학식 20에서와는 회귀분석(regression analysis) 방법에 의해 계산되는 모델 파라미터이다.
둘째로, 시간적 해상도 스케일링 연산에 의한 비트율을 추정하기 위해서 세그먼트 내의 각 프레임에 대한 비트수를 얻을 필요가 있다. 한 프레임이 생략될 때, 그 프레임의 비트수를 안다면, 시간적 스케일링 연산에 따른 비트율을 쉽게 계산할 수 있다.
셋째로, 공간적 해상도 스케일링 연산에 따른 비트율 추정을 위해서, 직관적인 규정을 사용할 수 있다. 공간적 해상도를 수직, 수평에 대해 각각 반으로 축소 시켰을 때(즉,=1/4), 상기 비트율은 경험상으로 원래 비트율에서 3배에서 4배까지 감소된다. 이러한 감소 비율은 비례축소 방법과 비디오 특성에 많이 의존한다.
다음으로, 상기 S502 단계의 모든 동작 세트 중에서 목표 비트율에 근접한 연산 조합들을 고를 수 있다. 즉, 다음의 수학식 21을 만족하는 비트율을 발생시킬 수 있는 연산 조합들을 선택하게 된다(S503).
여기서,은 연산 조합의 수행에 따른 추정된 비트율이고,은 실현 가능성이 떨어지는 동작 조합들을 미리 제거하여 계산량을 줄이고, 주어진 목표 비트율보다 너무 낮은 비트율의 발생을 방지하기 위해 설정한 문턱(threshold) 비트율이다.
다음으로, 전술한 S503 단계에서 선택된 예상 연산 조합에 따른 왜곡들을 수학식 19의 왜곡 모델을 사용하여 계산한다(S504).
다음으로, 추정된 전체 왜곡 중에 최소값을 갖는 하나의 연산 조합을 선택하기 위해 상기 수학식 1의 해를 구하고(S505), 이에 따라 최종적으로 전체 왜곡을 최소화하는 최적의 트랜스코딩 연산 조합이 결정된다(S506). 특히, 한 세그먼트의 각 프레임들이 비슷한 소스 특성을 가질 때, 세그먼트 레벨 비트율 조절의 결과로 얻어진 연산 조합은 아주 적절한 결과가 된다.
결국, 본 발명의 실시예는 다차원적인 연산에 의한 비디오 트랜스코딩의 비트율과 왜곡(distortion)을 모델화하고, 이러한 모델에 근거한 비디오 트랜스코딩에 있어서 유기적인 비트율 조절 방법을 제공함으로써, 다양한 컨텐츠 소비 환경에서 최종 사용자에게 최상의 QoS를 보장하도록 최적의 비디오 트랜스코딩 연산 조합을 결정할 수 있다.
이상의 설명에서 본 발명은 특정의 실시예와 관련하여 도시 및 설명하였지만, 특허청구범위에 의해 나타난 발명의 사상 및 영역으로부터 벗어나지 않는 한도 내에서 다양한 개조 및 변화가 가능하다는 것을 당업계에서 통상의 지식을 가진 자라면 누구나 쉽게 알 수 있을 것이다.
본 발명에 따르면, 다차원 비디오 트랜스코딩에 있어서 트랜스코딩 품질이 정량적으로 계산될 수 있는 비트율-왜곡 모델을 설계함으로써, 트랜스코딩 연산 조합 선택에 대한 상호 절충을 효율적으로 고려함에 따라 최적의 서비스품질(QoS)로 지원되는 비디오 트랜스코딩을 가능하게 한다.
또한, 본 발명에 따르면, 컨텐츠 스케일링에 대한 정확한 결정을 내리기 위한 근거로 사용되어 다양한 멀티미디어에 범용적으로 적용할 수 있다.
Claims (20)
- 최적화된 서비스품질을 제공하는 비디오 트랜스코딩을 위한 비트율 조절 방법에 있어서,a) 비디오 세그먼트에 대해 목표 비트율을 계산하는 단계;b) 모든 가능한 비디오 트랜스코딩 연산 조합들에 대해 예상 비트율을 추정하는 단계;c) 상기 예상 비트율 중 상기 목표 비트율을 발생시킬 수 있는 연산 조합들을 선택하는 단계;d) 시간/공간/SNR 차원을 포함하는 다차원 비트율-왜곡(Rate-Distortion) 모델을 사용하여 상기 선택된 연산들의 조합에 의해 발생되는 전체 왜곡―여기서, 전체 왜곡은 상기 시간/공간/SNR 차원에서 각 비디오의 각 세그먼트에 대하여 평균 왜곡으로 나타냄―들을 추정하는 단계;e) 상기 추정된 전체 왜곡들 중에 최소값을 갖는 하나의 연산 조합을 선택하는 단계; 및f) 상기 전체 왜곡을 최소화하는 최적의 트랜스코딩 연산 조합을 결정하는 단계를 포함하는 다차원 비트율 조절 방법.
- 제1항에 있어서, 상기 b) 단계는,b-1) 2차 비율-양자화(rate-quantizer) 모델을 사용하여 재양자화 동작에 따른 비트율을 추정하는 단계;b-2) 상기 비디오 세그먼트 내의 각 프레임에 대한 비트수에 따라 시간적 해상도 스케일링 연산에 의한 비트율을 추정하는 단계; 및b-3) 직관적인 비례축소 감소에 따라 공간적 해상도 스케일링 연산에 대한 비트율을 추정하는 단계를 포함하는 다차원 비트율 조절 방법.
- 제2항에 있어서,상기 b-2) 단계는 한 프레임이 생략될 때, 상기 프레임의 비트수에 의해 시간적 스케일링 연산에 따른 비트율이 구해지는 것을 특징으로 하는 다차원 비트율 조절 방법.
- 제2항에 있어서,상기 b-3) 단계의 공간적 해상도는 수직 및 수평에 대해 각각 반으로 축소시켰을 때, 직관적으로 상기 비트율이 원래 비트율에서 3배 내지 4배로 비례축소 감소되는 것을 특징으로 하는 다차원 비트율 조절 방법.
- 제1항에 있어서,상기 c) 단계의 예상 비트율은 상기 목표 비트율보다 너무 낮은 비트율의 발생을 방지하도록 설정된 문턱 비트율보다는 크고, 상기 목표 비트율보다는 작은 값을 갖는 것을 특징으로 하는 다차원 비트율 조절 방법.
- 제1항에 있어서,상기 비디오 트랜스코딩 연산은 시간적 해상도 축소비례(temporal resolution scaling), 공간적 해상도 축소비례(spatial resolution scaling) 및 SNR 축소비례(SNR scaling) 연산을 포함하는 다차원 비트율 조절 방법.
- 제1항에 있어서,상기 d) 단계의 다차원 비트율-왜곡 모델은 다차원 트랜스코딩 연산들간의 상관성 분석에 따른 상관 왜곡(dependency distortion)을 포함하는 다차원 비트율 조절 방법.
- 제7항에 있어서,상기 상관 왜곡은 상기 비디오 트랜스코딩 연산들간의 상관성에 기인하여, 공간적 해상도와 시간적 해상도의 비례축소 연산들은 SNR의 비트율-왜곡 모델에 영향을 미치는 것을 특징으로 하는 다차원 비트율 조절 방법.
- 제8항에 있어서,상기 재양자화 연산의 비트율-왜곡 모델이 시공간 해상도의 축소표본화(downsampling)의 양에 따라 보정되는 것을 특징으로 하는 다차원 비트율 조절 방법.
- 최적화된 서비스품질을 제공하는 비디오 트랜스코딩을 위한 비트율 조절에 따른 비디오 트랜스코딩 방법에 있어서,a) 입력 비트스트림(bitstream)에 대해 가변길이 복호, 역양자화 및 역 DCT 변환을 포함하는 복호 과정을 수행하는 단계;b) 각 비디오 세그먼트별로 비트율을 조절하도록 상기 복호 과정을 수행하여 제공되는 정보들을 이용하여 다차원 비트율을 조절하는 단계;c) 프레임률(frame rate), 프레임 크기 트랜스코딩을 위한 스케일링 인자 및 재양자화 파라미터로 구성된 최적의 트랜스코딩 연산 조합을 결정하는 단계;d) 상기 결정된 연산들에 따른 시간 해상도 및 공간 해상도 축소표본화를 수행하는 단계; 및f) 상기 재양자화 파라미터에 따라 양자화를 수행한 후, 가변길이 부호기를 통해 트랜스코딩된 비트스트림을 출력하는 단계를 포함하는 다차원 비트율 조절에 따른 비디오 트랜스코딩 방법.
- 제10항에 있어서,상기 복호 과정을 수행하여 제공되는 정보는 움직임 벡터, 소스의 특성 및 각 프레임의 비트수 정보를 포함하는 다차원 비트율 조절에 따른 비디오 트랜스코딩 방법.
- 제10항에 있어서, 상기 b) 단계는,b-1) 비디오 세그먼트에 대해 목표 비트율을 계산하는 단계;b-2) 모든 가능한 비디오 트랜스코딩 연산 조합들에 대해 예상 비트율을 추정하는 단계; 및b-3) 상기 예상 비트율 중 상기 목표 비트율을 발생시킬 수 있는 연산 조합들을 선택하는 단계를 포함하는 다차원 비트율 조절에 따른 비디오 트랜스코딩 방법.
- 제10항에 있어서, 상기 c) 단계는,c-1) 시간/공간/SNR 차원을 포함하는 다차원 비트율-왜곡(Rate-Distortion) 모델을 사용하여 상기 선택된 연산들의 조합에 의해 발생되는 전체 왜곡―여기서, 전체 왜곡은 상기 시간/공간/SNR 차원에서 각 비디오의 각 세그먼트에 대하여 평균 왜곡으로 나타냄―들을 추정하는 단계;c-2) 상기 추정된 전체 왜곡들 중에 최소값을 갖는 하나의 연산 조합을 선택하는 단계; 및c-3) 상기 전체 왜곡을 최소화하는 최적의 트랜스코딩 연산 조합을 결정하는 단계를 포함하는 다차원 비트율 조절에 따른 비디오 트랜스코딩 방법.
- 제10항에 있어서,상기 비디오 트랜스코딩 연산은 시간적 해상도 축소비례, 공간적 해상도 축소비례 및 SNR 축소비례 연산을 포함하는 다차원 비트율 조절에 따른 비디오 트랜스코딩 방법.
- 제10항에 있어서,상기 d) 단계의 다차원 비트율-왜곡 모델은 다차원 트랜스코딩 연산들간의 상관성 분석에 따른 상관 왜곡을 포함하는 다차원 비트율 조절에 따른 비디오 트랜스코딩 방법.
- 제15항에 있어서,상기 상관 왜곡은 상기 비디오 트랜스코딩 연산들간의 상관성에 기인하여, 공간적 해상도와 시간적 해상도의 비례축소 연산들은 SNR의 비트율-왜곡 모델에 영향을 미치는 것을 특징으로 하는 다차원 비트율 조절에 따른 비디오 트랜스코딩 방법.
- 최적화된 서비스품질을 제공하는 비디오 트랜스코딩을 위한 비트율 조절에 따른 비디오 트랜스코딩 장치에 있어서,입력 비트스트림(bitstream)에 대해 가변길이 복호, 역양자화 및 역 DCT 변환을 포함하는 복호를 수행하는 복호화부;각 비디오 세그먼트별로 비트율을 조절하도록 상기 복호화부에서 제공되는 정보들을 이용하여 다차원 비트율을 조절하고, 프레임률(frame rate), 프레임 크기 트랜스코딩을 위한 스케일링 인자 및 재양자화 파라미터로 구성된 최적의 비디오 트랜스코딩 연산 조합을 결정하는 다차원 비트율 조절기;상기 결정된 연산들 중 상기 프레임률에 따른 시간 해상도 축소표본화를 수행하는 시간 해상도 축소표본화기;상기 결정된 연산들 중 상기 프레임 크기 트랜스코딩을 위한 스케일링 인자에 따른 공간 해상도 축소표본화를 수행하는 공간 해상도 축소표본화기; 및DCT 변환, 재양자화 및 가변길이 부호화를 포함하는 부호화를 수행하여 트랜스코딩된 비트스트림을 출력하는 부호화부를 포함하는 다차원 비트율 조절에 따른 비디오 트랜스코딩 장치.
- 제17항에 있어서,상기 비디오 트랜스코딩 연산은 시간적 해상도 축소비례, 공간적 해상도 축소비례 및 SNR 축소비례 연산을 포함하는 다차원 비트율 조절에 따른 비디오 트랜스코딩 장치.
- 제17항에 있어서,상기 다차원 비트율 조절기는 시간/공간/SNR 차원을 포함하는 다차원 비트율-왜곡(Rate-Distortion) 모델을 사용하여 상기 선택된 연산들의 조합에 의해 발생되는 전체 왜곡―여기서, 전체 왜곡은 상기 시간/공간/SNR 차원에서 각 비디오의 각 세그먼트에 대하여 평균 왜곡으로 나타냄―들을 추정하는 것을 특징으로 하는 다차원 비트율 조절에 따른 비디오 트랜스코딩 장치.
- 제19항에 있어서,상기 다차원 비트율-왜곡 모델은 다차원 트랜스코딩 연산들간의 상관성 분석에 따른 상관 왜곡을 포함하는 다차원 비트율 조절에 따른 비디오 트랜스코딩 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040083114A KR100713012B1 (ko) | 2004-10-18 | 2004-10-18 | 다차원 비트율 조절에 따른 비디오 트랜스코딩 방법 및 그장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040083114A KR100713012B1 (ko) | 2004-10-18 | 2004-10-18 | 다차원 비트율 조절에 따른 비디오 트랜스코딩 방법 및 그장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040097028A true KR20040097028A (ko) | 2004-11-17 |
KR100713012B1 KR100713012B1 (ko) | 2007-05-02 |
Family
ID=37375494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020040083114A KR100713012B1 (ko) | 2004-10-18 | 2004-10-18 | 다차원 비트율 조절에 따른 비디오 트랜스코딩 방법 및 그장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100713012B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180113868A (ko) * | 2017-04-07 | 2018-10-17 | 주식회사 에스원 | 카메라 영상의 복호화 정보 기반 영상 재 부호화 방법 및 이를 이용한 영상 재부호화 시스템 |
CN116095355A (zh) * | 2023-01-18 | 2023-05-09 | 百果园技术(新加坡)有限公司 | 视频显示控制方法及其装置、设备、介质、产品 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101353289B1 (ko) | 2012-07-06 | 2014-01-27 | 인텔렉추얼디스커버리 주식회사 | 율-왜곡 비용함수를 이용한 트랜스코딩 방법 및 이를 이용한 트랜스코더 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6493386B1 (en) | 2000-02-02 | 2002-12-10 | Mitsubishi Electric Research Laboratories, Inc. | Object based bitstream transcoder |
US6987890B2 (en) * | 2002-03-27 | 2006-01-17 | Eastman Kodak Company | Producing and encoding rate-distortion information allowing optimal transcoding of compressed digital image |
KR20030083109A (ko) * | 2002-04-19 | 2003-10-30 | 대한민국(전남대학교총장) | 비트율 변환부호화장치 |
KR100950525B1 (ko) * | 2002-12-02 | 2010-03-30 | 삼성전자주식회사 | 트랜스코딩 장치 및 방법, 이에 사용되는 타겟비트할당 및픽처 복잡도 예측 장치 및 방법 |
KR100526628B1 (ko) * | 2003-03-21 | 2005-11-08 | 주식회사 에스티씨나라 | 모노아민산화효소 저해활성을 갖는 상심자 추출물을함유한 조성물 |
-
2004
- 2004-10-18 KR KR1020040083114A patent/KR100713012B1/ko not_active IP Right Cessation
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180113868A (ko) * | 2017-04-07 | 2018-10-17 | 주식회사 에스원 | 카메라 영상의 복호화 정보 기반 영상 재 부호화 방법 및 이를 이용한 영상 재부호화 시스템 |
CN116095355A (zh) * | 2023-01-18 | 2023-05-09 | 百果园技术(新加坡)有限公司 | 视频显示控制方法及其装置、设备、介质、产品 |
Also Published As
Publication number | Publication date |
---|---|
KR100713012B1 (ko) | 2007-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102461169B (zh) | 基于运动的动态分辨率多比特率视频编码 | |
KR101279755B1 (ko) | 효율적인 통합 디지털 비디오 트랜스코딩 | |
KR101643790B1 (ko) | 적응적 비디오 스트리밍용의 가변 비트 레이트 및 동적 해상도를 이용한 다중 비트 레이트 비디오 인코딩 | |
JP4601889B2 (ja) | 圧縮ビットストリームを変換するための装置及び方法 | |
KR100704626B1 (ko) | 다 계층 기반의 모션 벡터를 압축하는 방법 및 장치 | |
US20070058713A1 (en) | Arbitrary resolution change downsizing decoder | |
JP4973871B2 (ja) | 画像符号化方法及び、これを用いた装置とコンピュータプログラム | |
JP2005525011A (ja) | ユーティリティ関数記述にもとづく最適なビデオ・トランスコーディング用の方法及びシステム | |
JP2003032682A (ja) | 部分的に復号された入力ビットストリームのマクロブロック群を変換符号化する方法及び装置 | |
JP4163006B2 (ja) | ドリフト補正を備えたビデオトランスコーダ | |
EP2769553A1 (en) | Rate-distortion-complexity optimization of video encoding | |
KR20050062835A (ko) | 움직임 벡터 추정방법 및 부호화 모드 결정방법 | |
KR20090080452A (ko) | 영상 부호화/복호화 장치 및 방법 | |
KR100843080B1 (ko) | 비디오 트랜스코딩 방법 및 장치 | |
CN104125460A (zh) | 用于控制视频比特率的方法和设备 | |
KR100713012B1 (ko) | 다차원 비트율 조절에 따른 비디오 트랜스코딩 방법 및 그장치 | |
Kim et al. | An optimal framework of video adaptation and its application to rate adaptation transcoding | |
KR20110024574A (ko) | 통합 영상 부호화 방법 및 장치 | |
Chau et al. | Motion vector re-estimation for fractional-scale video transcoding | |
Kim et al. | Content-based video transcoding in compressed domain | |
Khan et al. | Extreme rate transcoding for dynamic video rate adaptation | |
Wang | Analysis application for h. 264 video encoding | |
KR100950764B1 (ko) | 적응적 움직임 벡터 선택 알고리즘을 이용한 비디오 화면축소 변환 부호장치 및 방법 | |
Choupani et al. | Video Coding and Transcoding: A Review | |
Kang et al. | MPEG-21 DIA-based video adaptation framework and its application to rate adaptation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20110411 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |