KR20050112130A

KR20050112130A - 비디오 트랜스코딩

Info

Publication number: KR20050112130A
Application number: KR1020057019665A
Authority: KR
Inventors: 드제브데트 부라제로빅
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2003-04-17
Filing date: 2004-04-13
Publication date: 2005-11-29
Also published as: ATE372646T1; EP1618744B1; CN1774930A; DE602004008763D1; US20070036218A1; DE602004008763T2; JP2006524000A; EP1618744A1; WO2004093461A1

Abstract

본 발명은 H.264 및 MPEG-2와 같은, 제 1 비디오 표준과 제 2 비디오 표준간의 비디오 트랜스코딩에 관한 것이다. 비디오 트랜스코더(201)는 제 1 비디오 부호화 표준에 따른 비디오 신호를 수신하는 인터페이스(203)를 포함한다. 추출 프로세서(209)는 바람직하게는 복호 처리의 일부로서, 제 1 비디오 신호로부터 움직임 추정 데이터를 추출한다. 움직임 추정 데이터 프로세서(211)는 다른 세트의 움직임 추정 옵션들을 갖는 제 2 비디오 부호화 표준과 호환성이 있는 제 2 움직임 추정 데이터를, 제 1 움직임 추정 데이터로부터 생성한다. 제 2 움직임 추정 데이터는 참조 화상들간에 움직임 추정 블록 위치들을 투사하고, 예측 블록들을 블록 위치 프레임워크에 정렬시키고 예측 블록 크기들을 조정함으로써 생성된다. 제 2 움직임 추정 데이터는 제 2 움직임 추정 데이터를 사용하여 제 2 비디오 부호화 표준에 따라 복호화된 신호를 부호화하는 부호기(213)에 공급된다.

Description

비디오 트랜스코딩{Video transcoding}

본 발명은 비디오 트랜스코더 및 이에 대한 비디오 트랜스코딩 방법에 관한 것으로, 특히 MPEG2 비디오 신호로 H.264 비디오 신호의 비디오 트랜스코딩에 관한 것이나, 그것에만 제한되는 것은 아니다.

최근에, 디지털 저장 장치의 사용 및 비디오 신호들의 분배가 점점 더 널리 확산되었다. 디지털 비디오 신호들을 송신하는데 요구되는 대역폭을 감소시키기 위해서, 디지털 비디오 신호의 데이터 레이트를 실질적으로 감소될 수 있는 비디오 데이터 압축을 포함하는 효율적인 디지털 비디오 부호화를 사용하는 것이 공지되었다.

상호 운용성을 보장하기 위해서, 비디오 부호화 표준들은 많은 전문적인 애플리케이션 및 고객의 애플리케이션에 디지털 비디오의 채택을 용이하게 하는데 주요한 역할을 하였다. 가장 영향력있는 표준들은 통상적으로 ISO/IEC(국제 표준화 기구/국제 전기 표준 회의(International Organization for Standardization/the International Electrotechnical Committee))의 ITU-T(국제 전기 통신 연합(International Telecommunications Union)) 또는 MPEG(Motion Pictures Experts Group) 위원회 중 하나에 의해 개발된다. 권고안으로서 알려진 ITU-T는 통상적으로 실시간 통신(예를 들면, 비디오 회의)을 겨냥하고 있는 반면에, 대부분의 MPEG 표준들은 저장 장치(예를 들면, 디지털 다기능 디스크(DVD)용) 및 방송(예를 들면, 디지털 비디오 방송(DVB) 표준용)용으로 최적화된다.

현재, 가장 널리 사용되는 비디오 압축 기술들 중 하나는 MPEG-2(Motion Picture Expert Group) 표준으로서 알려져 있다. MPEG-2는 블록 기반 압축 방식으로서, 프레임은 복수의 블록들로 분할되고, 각 블록은 8개의 수직 및 8개의 수평 화소들을 포함한다. 휘도 데이터(luminance data)의 압축에 있어서, 각 블록은 이산 코사인 변환(DCT)을 사용하여 개별적으로 압축되고 이어서 양자화하여, 변환된 데이터 값들의 상당 수를 제로로 줄인다. 크로미넌스 데이터(chrominance data)의 압축에 있어서, 크로미넌스 데이터량은 통상 다운-샘플링에 의해 우선 감소되고 이에 의해 각각의 4개의 휘도 블록들마다, 두 개의 크로미넌스 블록들이 얻어지고(4:2:0 포맷), 이는 DCT 및 양자화를 사용하여 유사하게 압축된다. 프레임 내(intra-frame) 압축에만 기초하는 프레임들을 인트라 프레임들(I-프레임들)로서 알려져 있다.

프레임내 압축에 부가하여, MPEG-2는 데이터 레이트를 더 감축시키기 위해서 프레임간(inter-frame) 압축을 사용한다. 프레임간 압축은 이전 I-프레임들에 기초해서 예측 프레임들(P-프레임들)의 생성을 포함한다. 또한, I 및 P 프레임들은 통상적으로 양방향 예측 프레임들(B-프레임들)에 의해 개재되며, 압축은 B-프레임과 이 주위의 I-프레임과 P-프레임간의 차이들만을 전송함으로써 달성된다. 또한, MPEG-2는 움직임 추정을 사용하는데, 서로 다른 위치들에서 후속 프레임들에서 발견된 하나의 프레임의 매크로-블록들(macro-blocks)의 이미지는 움직임 벡터만을 사용하여 통신된다. 움직임 추정 데이터(motion estimation data)는 일반적으로 움직임 추정의 처리시 채용되는 데이터를 말한다. 움직임 추정은 움직임 보상의 처리를 위한 파라미터들, 등가적으로 상호 예측을 결정하기 위해 수행된다. 예를 들면, MPEG-2 및 H.264와 같은 표준들에 의해 명시된 바와 같이 블록 기반 비디오 코딩에 있어서, 움직임 추정 데이터는 통상적으로, 후보 움직임 벡터들, 예측 블록 크기들(H.264), 참조 화상 선택, 또는 등가적으로, 어떤 매크로-블록에 대한 움직임 추정 유형(역방향, 순방향 또는 양방향)을 포함하고, 이 중에서 실제로 부호화되는 움직임 보상 데이터를 형성하기 위해 선택이 행해진다.

이들 압축 기술들의 결과로서, 표준 TV 스튜디오 방송 품질 레벨의 비디오 신호들은 약 2 Mbps 내지 4 Mbps의 데이터 레이트들로 전송될 수 있다.

최근에, H.26L로서 알려진 새로운 ITU-T 표준이 나왔다. H.26L은 MPEG-2와 같은 기존의 표준들에 비해 그의 우수한 코딩 효율에 대해 널리 인식되고 있다. H.26L의 이득이 일반적으로 화소 크기에 비례하여 감소할지라도, 광범위한 애플리케이션들에 이를 전개시킬 잠재력은 확실하다. 이러한 잠재력은 H.26L을 새로운 조인트 ITU-T/MPEG 표준으로서 완성을 책임지고 있는 JVT(Joint Video Team) 포럼의 형성을 통해 인식되었다. 새로운 표준은 H.264 또는 MPEG-4 AVC(Advanced Video Coding)로서 알려져 있다. 또한, H.264 기반 솔루션들이 DVB 및 DVD 포럼들과 같은 다른 표준화 단체들에서 고려되고 있다.

H.264 표준은 MPEG-2와 같은 확정된 표준들로부터 알려진 블록 기반 움직임 보상 혼성 변환 코딩(block-based motion-compensated hybrid transform coding)의 동일 원리들을 채용한다. 그러므로, H.264 신택스(syntax)는 이를 테면 화상 헤더(picture header), 슬라이스 헤더(slice-header), 매크로-블록 헤더(macro-block header)들과 같은 헤더들, 및 이를 테면 움직임 벡터들, 블록 변환 계수들(block-transform coefficients), 양자화기 스케일(quantizer scale) 등과 같은 데이터의 통상적인 계층으로서 조직된다. 그러나, H.264 표준은 비디오 데이터의 내용을 나타내는, 비디오 코딩 계층(Video Coding Layer ; VCL), 및 데이터를 포맷하고 헤더 정보를 제공하는 네트워크 어댑테이션 계층(Network Adaptation Layer; NAL)을 분리한다.

또한, H.264는 부호화 파라미터들에 대해 훨씬 증가된 선택을 할 수 있게 하여준다. 예를 들면, 움직임 보상 처리가 4x4 크기만큼의 작은 매크로-블록의 분할들이 수행될 수 있음에 의하여 16x16 매크로-블록들의 보다 정교한 분할 및 조작을 할 수 있게 한다. 또한, 한 샘플 블록의 움직임 보상된 예측에 대한 선택 처리는 단지 이웃한 화상들(또는 프레임들) 대신에, 다수의 저장된 이전에 복호화된 화상들(프레임들이라 함)을 포함할 수 있다. 한 단일 프레임 내에서 인트라 부호화에 있어서도, 동일 프레임으로부터 이전에 복호화된 샘플들을 사용하여 하나의 블록의 예측을 형성하는 것이 가능하다. 또한, 움직임 보상에 따른 결과적인 예측 에러는 통상의 8x8 크기 대신에 4x4 블록 크기에 기초하여 변환 및 양자화될 수 있다.

MPEG-2는 디지털 비디오 분배, 저장 및 재생에 널리 사용되고, H.264와 같은 새로운 비디오 부호화 표준이 나오고 있으므로, 새로운 표준을 사용하는 장비 및 기존의 표준을 사용하는 장비에 인터페이스시키는 수단을 제공하는 것이 이점이다. 구체적으로, MPEG-2 및 H.264의 광범위 적용 영역들 때문에, 이들 두 포맷들간을 전환시키는 저렴하고 효율적인 방법들의 증대하는 요구가 있을 것이다. 특히, H.264를 MPEG-2로 전환시키는 것은 기존의 MPEG-2 기반의 시스템의 수명을 늘리고 기존의 비디오 시스템들에 H.264를 점차적으로 도입되게 하는데 필요하게 될 것이다.

따라서, 서로 다른 비디오 표준들간, 특히 H.264와 MPEG-2 비디오 표준들간을 전환시키기 위한 트랜스코더들이 이로울 것이다.

H.264 비디오 신호를 MPEG-2 포맷으로 전환시키는 방법은 이를 H.264 복호기에서 완전히 복호한 후에 이 복호한 신호를 MPEG-2 부호기에서 다시 부호화하는 것이다. 그러나, 이 방법은 적지 않은 리소스들을 필요로 하므로 주요한 난점을 갖는다. 캐스케이드식 구현은 복호기 및 부호기 기능 전부가 개별적으로 구현될 필요가 있으므로 복잡하고 비싸지기가 쉽다. 이것은 예를 들면 필요한 계산 리소스들이 그 방식을 엄청나게 고가이고 그리고 복잡하게 하기 때문에, 소비자 실시간 구현들로는 비현실적이게 할 수 있다. 일반적으로, 비디오 신호들의 독립적인 복호 및 부호화는 재차 부호화하는 중에 취해지는 결정들에서 원 부호화의 파라미터들을 고려하지 않기 때문에 비디오 질이 열화를 일으킬 수 있다.

따라서, 공지된 트랜스코더들은 복잡하고, 비싸며, 융통성이 없고, 리소스를 요하며, 비효율적이고, 큰 지연, 감소된 데이터 레이트 호환성을 가지며 그리고/또는 차선의 성능을 갖기 쉽다. 그러므로, 트랜스코딩을 위한 향상된 시스템이 이로울 것이다.

<발명의 요약>

따라서, 본 발명은 트랜스코딩을 위한 향상된 시스템을 제공하고자 하는 것으로 바람직하게는 위에 언급한 문제점들 중 하나 이상을 단일로 또는 어떤 조합으로 완화 내지는 제거하고자 하는 것이다.

본 발명의 제 1 양태에 따라서, 제 1 비디오 부호화 포맷에 따라 부호화된 제 1 비디오 신호를 수신하는 수단; 복호화된 신호를 생성하기 위해 상기 제 1 비디오 부호화 포맷에 따라 상기 제 1 비디오 신호를 복호화하는 수단; 상기 제 1 비디오 신호로부터 제 1 움직임 추정 데이터를 추출하는 수단으로서, 상기 제 1 움직임 추정 데이터는 상기 제 1 비디오 부호화 포맷에 따르는, 상기 추출하는 수단; 상기 제 1 움직임 추정 데이터로부터 제 2 움직임 추정 데이터를 생성하는 수단으로서, 상기 제 2 움직음 추정 데이터는 상기 제 1 비디오 부호화 포맷과는 다른 세트의 움직임 추정 옵션들(motion estimation options)을 갖는 제 2 비디오 부호화 포맷에 따르는, 상기 생성하는 수단; 및 트랜스코딩된 비디오 신호를 생성하기 위해 상기 제 2 움직임 추정 데이터를 사용하여 상기 제 2 비디오 부호화 포맷에 따라 상기 복호화된 신호를 부호화하는 수단을 포함하는, 비디오 트랜스코더가 제공된다.

본 발명의 발명자는 비디오 신호의 움직임 추정 데이터는 한 포맷의 움직임 추정 파라미터들이 제 2 비디오 부호화 포맷에 직접 대응하지 않아도 트랜스코딩 처리에서 사용될 수 있음을 실현하였다. 이에 따라, 본 발명자는 서로 다른 세트들의 움직임 추정 옵션들을 갖는 두 가지 포맷들간에 트랜스코딩 처리에서 움직임 추정 데이터가 사용될 수 있음을 실현하였다. 예를 들면, 제 2 움직임 추정 데이터를 생성하는 단계는 제 1 움직임 추정 데이터를 상기 제 2 비디오 부호화 포맷의 움직임 추정 옵션들에 대응하는 움직임 추정 데이터 파라미터들로 변환하고 상기 제 2 움직임 추정 데이터 파라미터들에 응하여 상기 제 2 움직임 추정 데이터를 결정하는 것을 포함할 수 있다.

제 1 비디오 부호화 포맷은 제 1 비디오 부호화 표준일 수도 있고, 마찬가지로 제 2 비디오 부호화 포맷이 제 2 비디오 부호화 표준일 수 있다.

본 발명은 감소된 복잡성, 비용, 감소된 리소스 요건들, 증가된 융통성, 감소된 지연, 증가된 데이터 레이트 능력 및/또는 향상된 성능을 가진 트랜스코더를 가능하게 한다. 구체적으로, 복호화된 신호의 부호화를 위해 움직임 추정 데이터를 결정하는데 필요한 처리는 표준들이 서로 다른 움직임 추정 옵션들을 포함함에도 불구하고, 제 1 움직임 추정 데이터에 기초하여 제 2 움직임 추정 데이터의 생성에 의해 현저하게 용이해질 수 있다. 예를 들면, 적합한 움직임 추정 참조 블록들을 결정하는데 필요한 연산들은 제 1 비디오 신호에서 사용되고 제 1 움직임 추정 데이터에 포함된 움직임 추정 블록들에 기초함으로써 현저하게 감소될 수 있다. 이것은 더 적은 계산상의 요건을 갖고 구현을 가능하게 함으로써 보다 저렴한 구현, 감소된 파워 소비 및/또는 감소된 복잡성을 가능하게 한다. 대안적으로 또는 추가적으로, 감소된 계산상의 요건은 적은 지연을 갖는 구현 및/또는 보다 높은 데이터 레이트들의 실시간 처리 능력을 갖는 트랜스코더를 가능하게 한다. 제 1 움직임 추정 데이터의 사용은 제 2 움직임 추정 데이터의 정확성을 또한 향상시킬 수 있고 이에 따라 부호화된 화상의 향상된 부호화 비디오 품질이 되게 한다.

대부분의 비디오 부호화 표준들에 있어서, 부호화 처리는 복호 처리보다는 현저히 복잡하고 리소스를 요한다. 움직임 추정은 통상적으로, 비디오 부호화의 가장 복잡하고 리소스를 요하는 처리들 중 하나이고, 따라서, 트랜스코더에서 움직임 추정을 용이하게 함으로써 매우 현저한 향상이 얻어질 수 있다. 따라서, 본 발명은 구체적으로, 트랜스코딩의 가장 중요한 양태의 향상 및/또는 용이함을 허용한다.

제 1 비디오 신호로부터 제 1 움직임 추정 데이터를 추출하는 수단은 제 1 비디오 신호를 복호하기 위한 수단의 일체화한 부분일 수 있다. 예를 들면, 제 1 움직임 추정 데이터는 자동으로 복호 처리의 일부로서 생성되고 추출될 수 있다.

본 발명의 특징에 따라서, 제 2 비디오 부호화 포맷은 제 1 비디오 부호화 포맷과는 다른 세트의 가능한 예측 블록 크기들을 포함한다. 그러므로, 본 발명은 연관된 비디오 부호화 포맷들이 서로 다른 다수 세트의 가능한 예측 크기들을 갖는다고 해도 제 1 움직임 추정 데이터에 응하여 제 2 움직임 추정 데이터를 생성함으로써 적은 계산 요건으로 트랜스코더를 가능하게 한다. 예를 들면, 제 1 비디오 신호는 제 2 비디오 포맷에 따라 트랜스코딩된 신호에 대해 가능한 것보다 작은 예측 블록 크기들을 포함할 수 있다. 그러나, 이들 작은 예측 블록 크기들은 제 2 비디오 표준에 따른 것은 움직임 추정 데이터를 생성하는데 사용될 수 있고, 그럼으로써 부호화 수단의 움직임 추정 처리를 현저히 용이하게 할 수 있다.

본 발명의 다른 특징에 따라서, 제 2 비디오 부호화 포맷은 제 1 비디오 부호화 포맷과는 다른 세트의 가능한 참조 화상들을 포함한다. 그러므로, 본 발명은 연관된 비디오 부호화 포맷들이 서로 다른 다수 세트의 가능한 참조 화상들을 갖는다고 해도, 제 1 움직임 추정 데이터에 응하여 제 2 움직임 추정 데이터를 생성함으로써 적은 계산 요건의 트랜스코더를 가능하게 한다. 예를 들면, 제 1 비디오 신호는 제 2 비디오 포맷에 따라 트랜스코딩된 신호에 대해 가능한 것보다 부호화되는 화상으로부터 더 멀리 있는 참조 화상들을 포함할 수 있다. 그러나, 이들 보다 멀리 있는 참조 화상들은 제 2 비디오 포맷에 따르는 움직임 추정 데이터를 생성하는 데 사용될 수 있고, 그럼으로써 부호화 수단의 움직임 추정 처리를 현저히 용이하게 할 수 있다.

본 발명의 다른 특징에 따라서, 제 2 비디오 부호화 포맷은 제 1 비디오 부호화 포맷과는 다른 다수의 예측 블록들이 부호화 블록에 대해 사용될 수 있게 한다. 그러므로, 본 발명은 연관된 비디오 부호화 포맷들이 부호화 블록에 대해 서로 상이한 많은 예측 블록들에 대해 가능하게 하여도, 제 1 움직임 추정 데이터에 응하여 제 2 움직임 추정 데이터를 생성시킴으로써 적은 계산 요건들을 가진 트랜스코더를 가능하게 한다. 예를 들면, 부호화 블록은 매크로-블록일 수 있고 제 1 비디오 신호는 제 2 비디오 포맷에 따라 트랜스코딩된 신호에 대해 가능한 것보다 주어진 매크로-블록에 대해 사용되는 많은 수의 예측 블록들을 포함할 수 있다. 그러나, 이들 추가의 예측 블록들은 제 2 비디오 포맷에 따르는 움직임 추정 데이터를 생성하는데 사용될 수 있고, 그럼으로써 부호화 수단의 움직임 추정 처리를 현저하게 용이하게 한다.

본 발명의 다른 특징에 따라서, 변환 수단은 제 1 참조 화상의 제 1 움직임 추정 블록 위치를 제 2 참조 화상 내 제 2 움직임 추정 블록 위치로 투사하는 수단을 포함한다. 예를 들면, 부호화 수단은 제 2 참조 화상 내 제 2 움직임 추정 블록 위치의 투사에 의해 제 1 참조 화상 내 제 1 움직임 추정 블록 위치를 결정하는 수단을 포함할 수 있다. 주어진 참조 화상에 관계된 제 1 움직임 추정 데이터 내 움직임 추정 블록 위치는 참조 화상들 간에 움직임 추정 블록 위치를 투사시킴으로써 다른 참조 화상에 관계된 제 2 움직임 추정 데이터 내 움직임 추정 블록 위치를 결정하는데 사용될 수 있다. 이는 제 2 움직임 추정 데이터를 결정하는데 있어 매우 효율적이고/이거나 적은 복잡성 접근법을 허용한다. 이는 제 2 비디오 부호화 표준에 따라 허용되지 않는 제 1 비디오 신호 내 참조 화상들의 움직임 추정 데이터가, 허용되는 참조 화상들에 움직임 추정 블록 위치들을 투사함으로써 사용될 수 있으므로, 제 2 비디오 부호화 표준보다 큰 다양한 참조 화상들을 사용할 수 있게 한다. 그러므로, 일부 애플리케이션들에서 투사는 상이한 한 세트의 움직임 추정 옵션들을 갖는 비디오 부호화 표준들간에 움직임 추정 데이터의 재사용을 할 수 있게 하며, 따라서 앞에서 언급한 이점들 중 하나, 그 이상 또는 전부를 가능하게 한다.

본 발명의 다른 특징에 따라서, 제 1 참조 화상은 부호화를 위한 화상에의 제 2 참조 화상과는 다른 상대적 위치를 갖는다. 이는 비디오 부호화 표준간의 거리를 허용하지 않는 비디오 표준과 관련된 비디오 신호를 부호화에서 화상과 연관된 참조 화상들 간의 보다 큰 거리를 가지는 비디오 신호로부터 움직임 추정 데이터를 재사용하는 비디오 트랜스코딩을 가능하게 한다.

본 발명의 다른 특징에 따라서, 제 1 참조 화상은 부호화하는 화상에 이웃하지 않고 제 2 참조 화상은 부호화하는 화상에 이웃한다. 이것은 이웃한 참조 화상들에서 재사용할 이웃하지 않는 참조 화상들의 움직임 추정 데이터의 매우 효율적이고, 낮은 복잡성 및/또는 효율적인 재사용을 제공한다. 이것은 예를 들면 MPEG-2(이웃 참조 화상들만을 허용함) 트랜스코더들에 대해 H.264(이웃하지 않는 화상들을 허용함)에서 특히 적합하다. 이 경우, 이웃하지 않는 참조 화상들로부터의 움직임 추정 데이터는 MPEG-2 부호화에서 재사용될 수 있다.

본 발명의 다른 특징에 따라서, 투사를 위한 수단은 제 2 움직임 추정 데이터의 적어도 하나의 움직임 벡터를 생성하기 위해 제 1 움직임 추정 데이터의 적어도 하나의 움직임 벡터의 스케일링에 의해 투사를 수행하도록 작동 가능하다. 이는 투사를 위한 수단의 매우 효율적이고, 정확하고/하거나 낮은 복잡도의 구현을 제공한다.

본 발명의 다른 특징에 따라서, 변환 수단은 제 2 움직임 추정 블록 위치를 제 2 비디오 부호화 표준의 블록 위치 프레임워크(block position framework)에 정렬시키는 수단을 더 포함한다. 이것은 제 1 및 제 2 비디오 부호화 표준이 다른 블록 위치 프레임워크들을 갖는 움직임 추정 데이터의 재사용을 용이하게 하고 몇 개의 애플리케이션들에서 가능하다.

본 발명의 다른 특징에 따라서, 제 1 비디오 보상 데이터는 제 2 비디오 부호화 표준의 최소 예측 블록 크기보다 작은 적어도 제 1 예측 블록을 포함하고, 변환 수단은 제 1 예측 블록을 포함하도록 제 2 움직임 추정 데이터의 예측 블록을 선택하도록 작동 가능하다. 이것은 제 1 비디오 부호화 포맷에 따른 예측 블록 크기들이 제 2 비디오 포맷에서 허용되는 것보다 작을 수 있는 트랜스코딩 처리를 용이하게 하며, 어떤 애플리케이션들에서 그렇게 할 수 있게 하며, 또한, 예측 블록들이 제 2 움직임 추정 데이터를 결정하는데 사용되는 예측 블록들에 포함되는 것을 보증한다.

본 발명의 다른 특징에 따라서, 변환 수단은 제 1 움직임 추정 데이터의 복수의 예측 블록들을 한 그룹에 함께 그룹을 형성함으로써 제 2 움직임 추정 데이터의 예측 블록을 선택하고 그 그룹에 대해 단일의 움직임 벡터를 결정하도록 작동 가능하다. 이것은 트랜스코딩 처리의 복잡성을 용이하게 하며 감소시킨다.

본 발명의 다른 특징에 따라서, 변환 수단은 복수의 예측 블록들의 예측 블록 크기들에 응하여 제 1 움직임 추정 데이터의 복수의 예측 블록들의 서브세트를 선택함으로써 제 2 움직임 추정 데이터의 예측 블록을 선택하도록 작동 가능하다. 트랜스 코딩 처리의 복잡성을 용이하게 하며 감소시킨다.

본 발명의 다른 특징에 따라서, 부호화 수단은 복호화된 신호의 화상 크기와는 다른 화상 크기를 갖는 트랜스코딩된 신호를 생성하도록 작동 가능하다. 이것은 또한 화상들의 크기를 재설정할 수 있게 하는 효율적인 트랜스코딩을 허용한다.

본 발명의 다른 특징에 따라서, 부호화 수단은 복호화된 신호의 화상 빈도와는 다른 화상 빈도로 트랜스코딩된 신호를 생성하도록 작동 가능하다. 이는 또한 화상 빈도의 수정을 할 수 있게 하는 효율적인 트랜스코딩을 가능하게 한다.

바람직하게, 제 1 비디오 부호화 표준은 국제 전기통신 연합 권고안 H.264 또는 이와 동등한 것인 ISO/IEC(the International Organization for Standardization/the International Electrotechnical Committee)에 의해 규정된 ISO/IEC 14496-10 AVC 표준이다. 제 2 비디오 표준은 표준화 국제 기구/국제 전기기술 위원회 동화상 전문가 그룹 MPEG-2 표준인 것이 바람직하다. 그러므로, 본 발명은 H.264 비디오 신호를 MPEG-2 비디오 신호로 트랜스코딩하기 위한 효율적인 트랜스코더를 가능하게 한다.

본 발명의 제 2 양태에 따라서, 제 1 비디오 부호화 포맷에 따라 부호화된 제 1 비디오 신호를 수신하는 단계; 복소된 신호를 생성하기 위해 제 1 비디오 부호화 포맷에 따라 제 1 비디오 신호를 복호화하는 단계; 제1 비디오 신호로부터 상기 제 1 비디오 부호화 포맷에 따르는 상기 제 1 움직임 추정 데이터를 추출하는 단계; 제 1 비디오 부호화 포맷과는 다른 세트의 움직임 추정 옵션들을 갖는 제 2 비디오 부호화 포맷에 따르는 제 2 움직임 추정 데이터를 상기 제 1 움직임 추정 데이터로부터 생성하는 단계; 및 트랜스코딩된 비디오 신호를 생성하기 위해 상기 제 2 움직임 추정 데이터를 사용하여 상기 제 2 비디오 부호화 포맷에 따라 상기 복호화된 신호를 부호화하는 단계를 포함하는, 비디오 트랜스코딩 방법이 제공된다.

본 발명의 이들 및 다른 양태들, 특징들 및 이점들은 이하 기술되는 실시예(들)로부터 명백해질 것이며 명료해질 것이다.

본 발명의 실시예는 단지 예로서, 도면들을 참조하여 기술될 것이다.

도 1은 H.264 표준에 따라 매크로-블록들을 움직임 추정 블록들로의 가능한 분할을 도시하는 도면.

도 2는 본 발명의 실시예에 따른 트랜스코더의 블록도.

도 3은 본 발명의 실시예에 따라 제 1 비디오 부호화 표준에서 제 2 비디오 부호화 표준으로 비디오 신호를 트랜스코딩하는 방법의 흐름도.

도 4는 본 발명의 실시예에 따라 하나의 참조 화상을 또 다른 화상으로 예측 블록의 움직임 추정 블록 위치의 투사의 예를 도시한 도면.

도 5는 본 발명의 실시예에 따라 예측 블록의 움직임 추정 블록 위치들의 정렬의 예를 도시한 도면.

도 6은 본 발명의 실시예에 따라 예측 블록들의 선택의 예를 도시한 도면.

다음 설명은 부호화 파라미터들의 선택에서 큰 자유도를 갖는 제 1 비디오 표준의 신호를 부호화 파라미터들의 선택에 있어 낮은 자유도를 갖는 제 2 비디오 표준의 신호로 트랜스코딩하기 위한 트랜스코더에 적용할 수 있는 본 발명의 실시예에 중점을 둔다. 특히, 다음 설명은 H.264 부호화된 비디오 신호를 MPEG-2 부호화된 비디오 신호로 트랜스코딩하는 트랜스코더에 중점을 둔다. 그러나, 본 발명은 이러한 애플리케이션으로 한정되는 것은 아니며 그 외 많은 다른 비디오 부호화 알고리즘들, 명세서들 또는 표준들에 관련하여 사용될 수 있음을 인식될 것이다.

다음에서, H.264에 대한 참조는 동등한 ISO/IEC 14496-10 AVC 표준에 대한 참조를 포함한다.

대부분의 확립된 비디오 코딩 표준들(예를 들면, MPEG-2)은 본질적으로, 비디오에서 후속 화상들간의 상관 관계를 활용하는 실제적인 방법으로서 블록 기반의 움직임 보상을 사용한다. 예를 들면, MPEG-2는 인접한 참조 화상에서 밀접한 일치에 의해 어떤 화상 내 매크로-블록(16x16 화소들)을 예측하는 것을 시도한다. 한 매크로-블록과 이웃한 참조 화상 내 그의 연관된 예측 블록간의 화소 단위 차이가 충분히 작다면, 매크로-블록 자체가 아니라 그 차이가 부호화된다. 실제 매크로-블록의 좌표들에 관한 예측 블록의 상대적 변위는 움직임 벡터에 의해 표시된다. 움직임 벡터는 개별적으로 코딩되고, 부호화된 비디오 데이터 스트림에 포함된다. MPEG-2에서 각각의 16x16 블록, 또는 매크로-블록은 통상적으로, 화상 유형에 따라 이전 또는 후속의 화상, 또는 이들 모두 중 어느 하나로부터 검색되는 동일 크기의 단일의 예측 블록에 의해 예측된다.

H.26L, H.264 또는 MPEG-4 AVC와 같은 새로운 비디오 코딩 표준들은 데이터 레이트 비에 향상된 품질 면에서 향상된 비디오 부호화 성능을 제공할 것이다. 이들 표준들에 의해 제공되는 데이터 레이트 감축 대부분은 움직임 보상의 향상된 방법들에 의한 것일 수 있다. 이들 방법들은 대부분이 MPEG-2와 같은 이전 표준들의 기본 원리들을 확장한다.

하나의 관계된 확장은 예측을 위해 복수의 참조 화상들의 사용이며, 이에 의해서 예측 블록은 보다 먼 미래 또는 과거의 화상들에서 기원할 수 있다. 이것은 보다 멀리 있는 화상들에서 적합한 예측 블록들이 발견될 수 있게 하며 따라서 밀접한 일치를 찾을 확률을 증가시키다.

또 다른 보다 더 효율적인 확장은 매크로-블록의 예측을 위한 가변 블록 크기들을 사용할 가능성이다. 따라서, 매크로-블록(여전히 16x16 화소들)은 다수의 더 작은 블록들로 분할될 수 있고 이들 서브-블록들 각각은 개별적으로 예측될 수 있다. 그러므로, 서로 다른 서브-블록들은 서로 다른 움직임 벡터들을 가질 수 있고 서로 다른 참조 화상들로부터 검색될 수 있다. 예측 블록들의 수, 크기 및 기원은 한 매크로-블록을 8x8 블록들로의 가능한 분할 및 8x8 서브-블록들 각각의 재차 분할을 기술하는 상호 예측 모드들의 정의에 의해 고유하게 결정된다. 도 1은 H.264 표준에 따라 매크로-블록들을 예측 블록들로의 가능한 분할을 도시한 것이다.

이에 따라, H.264는 보다 멀리 있는 화상들을 예측을 위한 참조들로서 사용할 수 있게 할 뿐만 아니라 한 매크로-블록을 보다 작은 블록들로의 분할 및 개별적인 예측이 서브-블록들 각각에 대해 사용될 수 있게 한다. 결국, 각각의 예측 서브-블록은 원칙적으로, 구별되는 관련된 움직임 벡터를 가지며, 다른 참조 화상으로부터 검색될 수 있다. 이에 따라, H.264는 MPEG-2와는 다른 세트의 가능한 예측 블록 크기들, 다른 세트의 가능한 참조 화상들 및 다른 수의 가능한 예측 블록들을 제공한다. 구체적으로, 참조 화상들은 인접하거나 이웃한 화상들로 한정되는 것은 아니며 각 매크로-블록은 복수의 더 작은 예측 블록들로 분할될 수 있고, 그 각각은 개별적으로 관련된 움직임 벡터를 가질 수 있다.

MPEG-2 및 H.24의 방대한 애플리케이션 영역들의 결과로서, 이들 두 포맷들 간을 전환시키는 저렴하고 효율적인 방법들에 대한 증대하는 요구가 있을 것이다. 특히, H.264를 MPEG-2로 전환시키는 것은 기존의 MPEG-2 기반 시스템의 수명을 연장하고 H.264 장비가 기존의 비디오 시스템들에 점차적으로 도입될 수 있게 하는데 필요할 것이다. 이러한 트랜스코딩이 H.264 복호기에서 H.264 신호를 완전히 복호하고, 이어서 결과로 나온 신호를 MPEG-2 부호기에서 다시 부호화함으로써 수행될 수 있을지라도, 이것은 상당한 리소스를 필요로 하는 경향이 있다. H.264의 복호화가 통상적으로 다수의 계산들을 필요로 할 것인데, 트랜스코딩의 병목은 통상적으로 MPEG-2 재부호화 처리 및 특히 이의 움직임 추정 처리가 될 것이다.

도 2는 본 발명의 실시예에 따른 트랜스코더(201)의 블록도이다. 기술된 트랜스코더는 H.264 비디오 신호를 MPEG-2 비디오 신호로 변환하도록 작동 가능하다.

트랜스코더는 H.264 부호화된 비디오 신호를 수신하도록 작동 가능한 인터페이스(203)를 포함한다. 도시된 실시예에서, H.264 비디오 신호는 외부 비디오 소스(205)로부터 수신된다. 다른 실시예들에서, 비디오 신호는 내부 비디오 소스들을 포함하는 다른 소스들로부터 수신될 수 있다.

인터페이스(203)는 복호화된 신호를 생성하기 위해 H.264 신호를 복호화하는 H.264 복호기(207)에 결합된다. 복호기(207)는 H.264 비디오 신호로부터 제 1 움직임 추정 데이터를 추출하도록 작동 가능한 추출 프로세서(209)에 결합된다. 추출된 움직임 추정 데이터는 H.264 비디오 신호에 포함된 H.264 움직임 추정 데이터의 일부 또는 전부이다. 그러므로, 추출된 제 1 움직임 추정 데이터는 H.264 표준에 따른 움직임 추정 데이터이다.

앞서 기술한 것 및 도 2가 추출 프로세서(209)를 개별적인 기능적인 실체로서 도시하고 있으나, 추출 프로세서(209)의 기능은 복호기(207)에 의해 제공되는 것이 바람직할 수 있음이 당업자에게 명백할 것이다. 따라서, 제 1 움직임 추정 데이터는 복호 처리의 일부로서 복호기(207)에 의해 바람직하게 생성된다. 이것은 복호를 수행하기 위해 움직임 추정 데이터가 H.264 신호로부터 어떻게든 추출되기 때문에 복잡성은 감소하게 된다.

부호화 프로세서(213)는 MPEG-2 표준에 따른 제 2 움직임 추정 데이터를, H.264 표준에 따른 제 1 움직임 추정 데이터로부터 생성하도록 작동 가능한 움직임 추정 데이터 프로세서(211)에 결합된다. 그러므로, 움직임 추정 데이터는 상이한 세트의 움직임 추정 옵션들을 가지며, 구체적으로 H.264 비디오 신호는 MPEG-2 표준에 따라 허용되는 것보다 더욱 작은 예측 블록들뿐만 아니라 더욱 멀리 있는 참조 화상들을 사용할 수 있다.

움직임 추정 데이터 프로세서(211)는 MPEG-2 표준에 따라 허용되는 움직임 추정 데이터를 제공하는 것과 같이 제 1 움직임 추정 데이터를 처리한다. 구체적으로, 움직임 추정 데이터 프로세서(211)는 H.264 신호의 움직임 추정 데이터를 MPEG-2에 의해 제공되는 움직임 추정 데이터 옵션들로 변환할 수 있다.

바람직한 실시예에서, MPEG-2 움직임 추정 데이터의 초기 추정들은 수학적, 기능적 또는 알고리즘에 의한 변환 및 이어서 초기 추정들에 기초하여 미세 조정(tuning) 및 검색에 의해 직접 생성되고, 이에 의해서 최종의 MPEG-2 움직임 추정 데이터가 생성될 수 있다. MPEG-2 신호의 움직임 추정 데이터 결정을 H.264 신호로부터의 움직임 추정 데이터에 기초함에 따라서, 움직임 추정 데이터 결정 처리의 복잡성 및 리소스 요건이 현저하게 감소하게 되고, 또한 H.264 신호의 원 정보가 고려되므로 움직임 추정이 향상된다.

움직임 추정 데이터 프로세서(211)는 MPEG-2 부호기(213)에 결합된다. MPEG-2 부호기(213)는 또한 복호기(207)에 결합되고 이로부터 복호화된 신호를 수신하도록 작동 가능하다. MPEG-2 부호기(213)는 움직임 추정 데이터 프로세서(211)로부터 수신된 제 2 움직임 추정 데이터를 사용하여 MPEG-2 비디오 부호화 표준에 따라 상기 복호화된 신호를 부호화하도록 작동 가능하다. 따라서, 부호화 처리는 움직임 추정 처리가 원 H.264 신호로부터 현존하는 움직임 추정에 기초하므로, 상당히 용이해진다. MPEG-2 부호기(213)는 또한 트랜스코더로부터 결과적인 트랜스코딩된 MPEG-2 신호를 출력하도록 작동 가능하다.

바람직한 실시예에서, 움직임 추정 데이터 프로세서(211)는 MPEG-2 움직임 추정 데이터의 초기 추정들을 생성하며, 최종의 움직임 추정 데이터를 생성하기 위해 초기 추정들에 근거하여 결과적인 미세 조정 및 검색이 MPEG-2 부호기(213)에 의해 수행된다. 추정들 중에서 최종의 움직임 추정을 효율적으로 선택하기 위해서, 바람직하게는 모든 추정들의 오류들을 계산되고 결국 적합한 기준 또는 알고리즘에 의해 비교된다. 추정 오류는 부호화할 원 화상 내 어떤 매크로-블록과 대응하는 참조 화상, 즉 이전에 부호화된 화상(이전 또는 후속의 화상일 수 있음)으로부터 검색된 그 매크로-블록의 추정간의 차이로서 계산될 수 있다. 그러므로, 이러한 계산에 있어서 원 화상들로부터의 데이터와 이미 코딩된 화상들로부터의 데이터 둘 모두가 사용될 수 있다. MPEG-2 부호기(213)는 이들 화상들 둘 다에 관계된 데이터가 제공되고, 통상적으로 이 MPEG-2 부호기(213)는 중간 부호화 결과들을 저장하는 저장 수단을 포함한다. 그러므로, 미세 조정 및 검색이 MPEG-2 부호기(213)에서 바람직하게 수행된다.

이에 따라, 전술한 실시예는 H.264 비디오 신호를 MPEG-2 포맷으로 트랜스코딩하는 복잡성을 감소시킬 수 있다. 방법이 여전히 완전 H.264 복호화를 사용할지라도, MPEG-2 재-부호화의 가장 복잡한 부분인 움직임 추정을 감소시킨다. 이것은 H.264 복호기로부터 일부 움직임 데이터를 MPEG-2 부호기에 보냄으로써 달성된다.

또한, 화소 크기, 화상 빈도, GOP(Group of Pictures) 구조 등에 관한 하이-레벨 정보가 MPEG-2 부호기에 전달되어 수정들없이 재사용될 수 있다. 이것은 부호기의 복잡성 및 리소스 요건을 더 감소시킬 수 있다.

도 3은 본 발명의 실시예에 따라 H.264와 같은 제 1 비디오 코딩 표준으로부터의 비디오 신호를 MPEG-2와 같은 제 2 비디오 부호화 표준으로 트랜스코딩하는 방법의 흐름도이다. 방법은 도 2의 장치에 적용할 수 있고 이를 참조로 하여 기술될 것이다.

방법은 단계 301에서 시작하며 여기서 트랜스코더(201)의 인터페이스(203)는 외부 비디오 소스(205)로부터 H.264 비디오 신호를 수신한다.

단계 301에 이어 단계 303에서 H.264 비디오 신호가 인터페이스(203)로부터 복호기(207)로 공급되고 복호기(207)는 복호화된 신호를 생성하도록 H.264 표준에 따라 신호를 복호한다. H.264 신호를 복호하기 위한 알고리즘들 및 방법들은 이 기술에 공지되어 있고 임의의 적합한 방법 및 알고리즘이 사용될 수 있다.

단계 303에 이어 단계 305에서 추출 프로세서(209)는 H.264 비디오 신호로부터 제 1 움직임 추정 데이터를 추출한다. 바람직한 실시예에서, 단계 303 및 305는 통합되고 제 1 움직임 추정 데이터는 복호 처리의 일부로서 추출된다. 이 실시예에서, 복호기(207)는 추출 프로세서(209)를 포함하는 것으로 간주될 수 있다. 움직임 추정 데이터는 예측 블록들, 움직임 벡터들 및 H.264 신호의 부호화 및 복호화에 사용되는 참조 화상들에 관한 정보를 포함한다.

단계 305에 이어 단계 307에서, 움직임 추정 데이터 프로세서(211)는 제 1 움직임 추정 데이터에 기초하여 제 2 움직임 추정 데이터를 생성한다. 제 2 움직임 추정 데이터는 MPEG-2 표준에 따르며, 복호화된 신호에 기초하여 MPEG-2 신호의 부호화에 사용될 수 있다.

기술된 실시예에서 단계 307은 다수의 서브-단계들 309 내지 315를 포함한다.

단계 309에서, 제 1 참조 화상의 제 1 움직임 추정 블록 위치는 제 2 참조 화상 내 제 2 움직임 추정 블록 위치에 투사된다. 바람직한 실시예에서, 참조 화상 내 예측 블록의 움직임 추정 블록 위치는 현재 화상과는 다른 오프셋을 갖는 참조 화상 내 움직임 추정 블록 위치에 투사된다. 바람직하게는, 현재 화상에 인접하지 않는 H.264 비디오 신호의 참조 화상들 내 움직임 추정 블록 위치들은 현재 화상의 이웃한 화상들에 투사된다. 투사는 움직임 벡터의 스케일링에 의한 것이 바람직하다.

바람직한 실시예에 대해 보다 구체적으로, 매크로-블록의 각각의 예측 서브-블록은 H.264에서 다른 참조 화상으로부터 기원할 수 있다. 그러나, MPEG-2에서, 움직임 보상 동안에 가장 최근의 복호화된 화상만이 참조될 수 있고 이에 따라 예측 블록들은 인접하거나 이웃한 화상들에 있는 것으로 제한된다. 그러므로, 단계 309는 멀리 있는 참조 화상들로부터 가장 최근의 참조 화상에 모든 예측 서브-블록들을 투사하는 것을 포함한다. 이것은 대응하는 움직임 벡터들을 스케일링함으로써 달성된다. 바람직한 실시예에서, 예측 블록들 자체는 사용되지 않고 위치 및 크기만이 사용된다. 멀리 있는 화상의 예측 블록 위치를 이웃 화상 내 위치에 투사시킴으로써, 원 예측 블록에 대응하는 인접 화상 내 블록과 일치할 수 있을 위치가 결정된다.

도 4는 한 참조 화상에서 또 다른 화상으로 예측 블록의 움직임 추정 블록 위치의 투사의 구체적인 예를 도시한 것이다. 도면은 화상 P_i(403) 내 매크로-블록(401)의 상측 반이 P_i-1(407)로부터 예측 블록(405)으로부터 예측되고 상기 동일한 매크로-블록(401)의 두 개의 하부 1/4들은 다른 화상들 P_i-2(413) 및 P_i-m(415)으로부터 예측 블록들(409, 411)에 의해 예측되는 예를 도시한 것이다. 가장 큰 예측 블록(405)은 가장 최근의 참조 화상 P_i-1(403)에 이미 있으므로 이러한 면에서 MPEG-2 표준을 충족시킨다. 다른 두 개의 예측 블록들(409, 411)은 더 멀리 있는 참조 화상들(413, 414)에 있고 그러므로 인접 화상(407)에 투사된다. 두 개의 예측 블록들(409, 411)의 투사들은 인접 화상(403) 내 추가의 블록들(417, 419)에 의해 표시된다.

투사들은 타겟 화상으로부터 대응하는 화상들의 각각의 거리들에 비례하는 팩터들에 의해 움직임 벡터들 MV₂(421) 및 MV₃(423)을 스케일링함으로써 얻어진다. 예를 들면, 화상 P_i-2(413)과 화상 P_i(403) 간의 시간 간격은 화상 P_i- ₁(407)와 화상 P_i(403) 간의 시간 간격의 두 배이다. 따라서, 화상 내 블록(409)의 움직임은 화상 P_i-2(413) 내 블록의 위치와 화상 P_i(403) 내 위치 사이의 반 위치에 있을 것이다(선형 움직임이라고 가정하였을 때). 결국, 움직임 벡터 MV₂(421)은 반으로 된다. 이에 따라, 스케일링된 움직임 벡터들은 MPEG-2 부호화를 위한 예측 블록들로서 사용하기 위한 적합한 후보들일 수 있을 인접한 화상 내 예측 블록들을 가리킬 수 있다.

단계 309에 이어 단계 311에서, 생성된 움직임 추정 블록 위치들은 MPEG-2 부호화 표준의 블록 위치 프레임워크에 대해 정렬된다. 정렬은 MPEG-2 부호화 표준의 프레임워크에 따라, 결정된 움직임 추정 블록 위치들을 양자화함으로써 바람직하게 달성된다. 양자화는 예를 들면, 결정된 움직임 추정 블록 위치들의 절단(truncation)을 포함할 수 있다.

구체적으로, H.264는 1/4 화소의 분해능을 갖고 예측 블록들의 보간을 가능하게 하는 반면(표준의 보다 큰 프로파일들은 1/8-화소 분해능을 사용할 수도 있다), MPEG-2는 예측 블록 추정 위치들에 대해 1/2-화소 분해능을 사용한다. 그러므로, 바람직한 실시예에서, 단계 311은 움직임 추정 블록 위치의 1/4-화소 좌표들을 가장 가까운 유효 정수 또는 1/2-화소 좌표들로, 예를 들면 예측되고 있는 매크로-블록의 위치의 방향으로 병진시키는 것을 포함한다. 이것을 도 5에 도시하였다. 좌측의 도면은 단계 309의 투사 후에 3개의 예측 블록들(501, 503, 505)의 가능한 위치들을 도시한다. 우측의 도면은 MPEG-2의 1/2 화소 그리드로에 대한 조정이 수행된 후에 동일한 3개의 예측 블록들(501, 503, 505)의 결정된 위치들을 도시한다.

단계 311에 이어 단계 313에서, 단계 307 및/또는 309에서 결정된 예측 블록을 포함하는 MPEG-2 예측 블록들이 선택된다. 구체적으로, MPEG-2에서, 매크로-블록은 전체로서(매크로-블록 당 하나의 움직임 벡터) 예측되어야 한다. H.264에서, 복수의 더 작은 예측 블록들이 주어진 매크로-블록에 대해 사용될 수 있다. 이에 따라, 제 1 비디오 보상 데이터는 MPEG-2의 최소 예측 블록 크기(매크로-블록에 대응하는)보다 작은 하나 이상의 예측 블록들을 포함할 수 있다. 그러므로 단계 311에서, 제 2 움직임 추정 데이터의 결정된 예측 블록들이 단계 309 및/또는 311에서 결정된 예측 블록들을 포함하도록, 예측 블록 후보들이 전체 매크로-블록에 대해서 결정된다. 이에 따라, 각 후보의 일부의 좌표들이 H.264 예측 서브-블록의 이전에 결정된 투사의 좌표들에 일치하는 방법으로 매크로-블록과 동일한 크기를 갖는 예측 블록들이 결정된다.

도 6은 본 발명의 실시예에 따라 예측 블록들의 선택의 구체적인 예를 도시한다. 좌측의 화상은 도 5의 3개의 화상 블록들(501, 503, 505)에 대해 단계 311에서 결정된 예측 블록 위치들을 나타낸다. 우측의 도면은 모두가 매크로-블록과 동일한 크기를 갖는 MPEG-2 순응형 예측 블록 후보들(601, 603, 605)을 나타낸다. 유사하게는, 예측 블록 후보(605)의 우측 하부 1/4의 위치 및 예측 블록 후보(601)의 상측 반의 위치는 각각 좌측 도면에서 대응하는 예측 블록들(605, 601)의 위치들과 일치한다.

따라서, MPEG-2 표준에 따른 다수의 예측 블록 후보들은 간단한 처리에 의해 및 낮은 복잡성 연산들을 사용하여 H.264 비디오 신호의 움직임 추정 데이터로부터 결정이 되었다.

단계 313은 단계 315에 이은 바람직한 실시예이다. 다른 실시예들에서, 단계 315는 스킵될 수 있고 이 방법은 곧바로 단계 317에서 계속된다. 일부 실시예들에서, 단계 315는 예를 들면 단계 311, 309 또는 307에 선행할 수 있다.

단계 305에서, 적어도 하나의 예측 블록은 예측 블록들을 함께 그룹화함으로써 결정된다. 단일 움직임 벡터는 예측 블록 후보들의 그룹에 대해 결정된다. 앞에서 언급한 바와 같이, 단일 매크로-블록은 다른 참조 화상들에 걸쳐 산재하여 있는 최대 16개의 4x4 블록들을 기초로 하여 H.264에서 예측될 수 있다. 그러므로, 전술한 방법은 MPEG-2 움직임 추정에 대해 최대 16개의 후보들로 될 수 있다. 이 값은 결정된 예측 블록 후보들을 그룹화함으로써 바람직하게 감소된다. 예를 들면, H.264 매크로-블록이, 보다 작은 서브-블록들로 더 분할되는 8x8 예측 블록을 사용한다면, 작은 서브-블록들 각각의 움직임 벡터들을 평균하여 8x8 예측 블록에 대응하는 단일 움직임 벡터를 생성할 수 있다. 평균된 움직임 벡터는 이 경우 8x8 예측 블록이라 칭할 것이며, 이는 MPEG-2에 따라 부호화하기에 적합한 예측 블록일 높은 확률을 가지며, 움직임 추정에 대해 가능한 후보들의 수는 최대 4개의 예측 블록들로 감소될 것이다.

대안적으로 또는 추가로, MPEG 예측 블록 후보들의 수는 H.264 신호로부터 결정된 예측 블록들의 서브세트의 선택에 의해 감소될 수 있다. 선택은 H.264 신호의 예측 블록들 각각의 예측 블록 크기들에 응하여 바람직하게 행해진다. 바람직한 실시예에서, 서브세트은 단지 한 예측 블록을 포함하며 단일 움직임 벡터가 선택된 블록에 대해 결정된다. 일부 실시예들에서, 복수의 예측 블록들이 선택될 수 있고, 단일 움직임 벡터가 예를 들면 서브세트의 각 블록에 연관된 움직임 벡터들을 평균함으로써 서브세트에 대해 결정될 수 있다. 선택은 보다 큰 예측 블록 크기들을 갖는 예측 블록들이 더 낮은 예측 블록 크기들을 갖는 예측 블록들보다 선취되게 행해지는 것이 바람직하다. 이것은 가능한 한 매크로-블록 부분만큼 큰 부분이 선택된 예측 블록에 의해 커버될 수 있게 한다. 이에 따라, 보다 큰 예측 블록들이 바람직할 수 있고 더 작은 예측 블록 후보의 수를 더욱 줄이기 위해 보다 작은 예측 블록들은 폐기될 수 있다.

단계 315(및 따라서 단계 307)에 이어 단계 317가 후속된다. 단계 317에서 부호기(213)는 MPEG02 비디오 표준에 따른 복호화된 신호를 움직임 추정 데이터 프로세서(211)에 의해 생성된 움직임 추정 데이터를 사용하여 부호화한다. 이에 따라서, 외부 비디오 소스(205)로부터 H.264 비디오 신호의 트랜스코딩된 MPEG-2 비디오 신호가 단계 315에서 생성된다. 당업자는 비디오 부호화에, 특히 MPEG-2 부호기에 정통할 것이고, 따라서 이에 대해 상세히 기술하지 않는다.

바람직한 실시예에서, 생성된 예측 블록 후보들은 움직임 추정 예측 블록들을 결정하기 위해서 부호기의 움직임 추정 기능성에 의해 사용된다. 구체적으로, 주어진 매크로-블록에 대한 결정된 예측 블록 후보들은 모두 처리될 수 있고, 매크로-블록과 각각의 예측 블록간의 차이가 결정될 수 있다. 그 매크로-셀에 대한 예측 블록으로서, 가장 작은 잔여 에러를 내는 예측 블록이 선택될 수 있다. 일부 실시예들에서, 부호기(213)는 움직임 추정 데이터 프로세서(211)에 의해 결정된 후보들에 기초하여 적합한 예측 블록들에 대한 검색을 또한 수행할 수 있다. 따라서, 결정된 예측 블록들 및/또는 예측 블록 크기들 및/또는 예측 블록 위치들은 초기 추정들-이로부터 검색이 수행됨으로써 사용될 수 있다.

단계 317에 이어 단계 319에서 트랜스코딩된 MPEG-2 비디오 신호가 트랜스코더로부터 출력된다. 이에 따라, 적은 계산 요건들, 고 데이터 레이트 능력 및/또는 낮은 지연을 갖춘 트랜스코더를 구현하기가 쉬운 낮은 복잡성이 달성된다. 트랜스코더는 H.264와 MPEG-2 비디오 장비간을 인터페이스하는데 특히 적합하다.

일부 실시예들에서, 트랜스코딩은 비디오 신호의 하나 이상의 특징들의 변형들을 또한 포함할 수 있다. 예를 들면 부호기는 원(또는 트랜스코딩된) 신호에 대한 것과는 다른 화상 크기 또는 화상 빈도의 트랜스코딩된 신호를 생성하도록 작동 가능할 수 있다.

구체적으로, 복호기(207)로부터 오는 화상들은 부호기(213)에 의해 그 크기가 바뀔 수 있다. 이 경우, 원 복호화된 화상들의 움직임 추정 데이터는 이들의 스케일링된 화상들에 대해 다시 사용될 수 있다. 예를 들면, 업-스케일링의 경우(더 큰 크기로 스케일링하는 것), 원 복호화된 화상 내 어떤 매크로-블록에 대해 생성된 움직임 추정 데이터가, 원 화상 내 원 매크로-블록에 의해 점유된 화상 영역에 대응하는 복수의 매크로-블록들에 대해 사용될 수 있다. 이는 매크로-블록 인덱스들의 스케일링으로서 간주될 수 있는 것에 의해 달성될 수 있다. 예를 들면, 화상 크기가 각 방향으로(수평 및 수직) 2배만큼 증가된다면, 원 매크로-블록 mb(0,0)에 대해 생성된 움직임 추정 데이터는, 원 매크로-블록에 의해 점유된 원본 내 화상 영역에 대응하는 트랜스코딩된 화상의 화상 영역을 점유하는 4개의 매크로-블록들 MB(0, 0), MB(O, 1), MB(1,0), MB(1, 1)에 대해 사용될 수 있다.

다운-스케일링의 경우, 복수의 원 매크로-블록들에 대해 생성된 움직임 데이터를 평균하여 단일의 트랜스코딩된 매크로-블록에 대한 움직임 추정 데이터를 얻도록 평균될 수 있다.

초기 움직임 추정 데이터를 평균하여 재사용하는 것과 유사한 절차들이, 화상 빈도(즉, 초당 화상들의 수)를 변경하는데 사용될 수도 있다. 예를 들면, 화상 빈도가 증가된다면, 움직임 벡터들은 복수의 화상들(보간에 의해 가능함)에 대해 사용될 수 있고, 화상 빈도가 감소된다면, 복수의 화상들로부터 움직임 벡터들이 평균될 수 있다.

명백히, 비-정수 스케일링이 사용되는 경우이든 바람직할 수도 있는, 움직임 추정 데이터를 재사용하기 위해 다른 알고리즘들을 사용하는 것도 생각이 될 수 있다.

본 발명은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 어떤 조합을 포함하는 어떤 적합한 형태로 구현될 수 있다. 그러나, 바람직하게는, 본 발명은 하나 이상의 프로세서들 및/또는 디지털 신호 프로세서들에서 동작하는 컴퓨터 소프트웨어로서 구현된다. 본 발명의 실시예의 요소들 및 성분들은 물리적으로, 기능적으로, 논리적으로 어떤 적합한 방법으로 구현될 수 있다. 실제로, 기능성은 단일 유닛으로, 복수의 유닛들로 또는 그 외 다른 기능유닛들의 일부로서 구현될 수 있다. 이와 같이, 본 발명은 단일의 유닛으로 구현될 수 있거나 서로 다른 유닛들과 프로세서들 간에 물리적으로 그리고 기능적으로 분산될 수도 있다.

본 발명을 바람직한 실시예에 관련하여 기술하였으나, 여기 개시된 구체적인 형태로 한정되는 것은 아니다. 그보다는, 본 발명의 발명은 첨부한 청구항들에 의해서만 한정된다. 청구항들에서, 포함하다라는 용어는 다른 요소들 또는 단계들의 존재를 배제하는 것은 아니다. 또한, 개별적으로 나열하였어도, 복수의 수단, 요소들 또는 방법의 단계들은 예를 들면, 단일의 유닛 또는 프로세서에 의해 구현될 수 있다. 또한, 개개의 특징들이 서로 다른 청구항들에 포함될 수 있을지라도, 이들은 이롭게 조합될 수 있을 것이며, 서로 다른 청구항들에의 포함은 특징들의 조합이 가능하지 않고/않거나 이점이 없음을 의미하지 않는다. 또한, 단수 표현은 복수를 배제하는 것은 아니다. 따라서, "a","an", "제 1", "제 2" 등의 표현은 복수를 제외하지 않는다.

Claims

비디오 트랜스코더(201)에 있어서,

제 1 비디오 부호화 포맷에 따라 부호화된 제 1 비디오 신호를 수신하는 수단(203);

복호화된 신호를 생성하기 위해 상기 제 1 비디오 부호화 포맷에 따라 상기 제 1 비디오 신호를 복호화하는 수단(207);

상기 제 1 비디오 신호로부터 제 1 움직임 추정 데이터를 추출하는 수단(209)으로서, 상기 제 1 움직임 추정 데이터는 상기 제 1 비디오 부호화 포맷에 따르는, 상기 추출하는 수단(209);

상기 제 1 움직임 추정 데이터로부터 제 2 움직임 추정 데이터를 생성하는 수단(211)으로서, 상기 제 2 움직임 추정 데이터는 상기 제 1 비디오 부호화 포맷과는 다른 세트의 움직임 추정 옵션들을 갖는 제 2 비디오 부호화 포맷에 따르는, 상기 생성하는 수단(211); 및

트랜스코딩된 비디오 신호를 생성하기 위해 상기 제 2 움직임 추정 데이터를 사용하여 상기 제 2 비디오 부호화 포맷에 따라 상기 복호화된 신호를 부호화하는 수단(213)을 포함하는, 비디오 트랜스코더.
제 1 항에 있어서,

상기 제 1 비디오 부호화 포맷은 제 1 비디오 부호화 표준이고 상기 제 2 비디오 부호화 포맷은 제 2 비디오 부호화 표준인, 비디오 트랜스코더.
제 1 항에 있어서,

상기 제 2 비디오 부호화 포맷은 상기 제 1 비디오 부호화 포맷과는 다른 세트의 가능한 예측 블록 크기들을 포함하는, 비디오 트랜스코더.
제 1 항에 있어서,

상기 제 2 비디오 부호화 포맷은 상기 제 1 비디오 부호화 포맷과는 다른 세트의 가능한 참조 화상들을 포함하는, 비디오 트랜스코더.
제 1 항에 있어서,

상기 제 2 비디오 부호화 포맷은 상기 제 1 비디오 부호화 포맷과는 다른 수의 예측 블록들이 부호화 블록에 대해 사용되게 하는, 비디오 트랜스코더.
제 1 항에 있어서,

상기 생성 수단(211)은 제 1 참조 화상의 제 1 움직임 추정 블록 위치를 제 2 참조 화상 내 제 2 움직임 추정 블록 위치에 투사하는 수단을 포함하는, 비디오 트랜스코더.
제 6 항에 있어서,

상기 제 1 참조 화상은 부호화하는 화상에 대해 상기 제 2 참조 화상과 다른 상대적 위치를 가지는, 비디오 트랜스코더.
제 6 항에 있어서,

상기 제 1 참조 화상은 부호화하는 상기 화상에 이웃하고 있지 않으며 상기 제 2 참조 화상은 부호화하는 상기 화상에 이웃하고 있는, 비디오 트랜스코더.
제 6 항에 있어서,

상기 투사 수단은 상기 제 2 움직임 추정 데이터의 적어도 하나의 움직임 벡터를 생성하기 위해 상기 제 1 움직임 추정 데이터의 적어도 하나의 움직임 벡터의 스케일링에 의해 상기 투사를 수행하도록 작동 가능한, 비디오 트랜스코더.
제 6 항에 있어서,

상기 생성 수단(211)은 상기 제 2 움직임 추정 블록 위치를 상기 제 2 비디오 부호화 포맷의 블록 위치 프레임워크에 정렬시키는 수단을 더 포함하는, 비디오 트랜스코더.
제 1 항에 있어서,

상기 제 1 비디오 보상 데이터는 상기 제 2 비디오 부호화 포맷의 최소 예측 블록 크기보다 작은 적어도 제 1 예측 블록을 포함하고, 상기 생성 수단(211)은 상기 제 1 예측 블록을 포함하도록 상기 제 2 움직임 추정 데이터의 예측 블록을 선택하도록 작동 가능한, 비디오 트랜스코더.
제 1 항에 있어서,

상기 생성 수단(211)은 상기 제 1 움직임 추정 데이터의 복수의 예측 블록들을 그룹화함으로써 상기 제 2 움직임 추정 데이터의 예측 블록을 선택하고 상기 그룹에 대한 단일 움직임 벡터를 결정하도록 작동 가능한, 비디오 트랜스코더.
제 1 항에 있어서,

상기 생성 수단(211)은 상기 복수의 예측 블록들의 예측 블록 크기들에 응답하여 상기 제 1 움직임 추정 데이터의 복수의 예측 블록들의 서브세트를 선택함으로써 상기 제 2 움직임 추정 데이터의 예측 블록을 선택하도록 작동 가능한, 비디오 트랜스코더.
제 1 항에 있어서,

상기 부호화 수단(213)은 상기 복호화된 신호의 화상 크기와는 다른 화상 크기로 상기 트랜스코딩된 신호를 생성하도록 작동 가능한, 비디오 트랜스코더.
제 1 항에 있어서,

상기 부호화 수단(213)은 상기 복호화된 신호의 화상 빈도와는 다른 화상 빈도로 상기 트랜스코딩된 신호를 생성하도록 작동 가능한, 비디오 트랜스코더.
트랜스코딩 방법에 있어서,

제 1 비디오 부호화 포맷에 따라 부호화된 제 1 비디오 신호를 수신하는 단계(301);

복호화된 신호를 생성하기 위해 상기 제 1 비디오 부호화 포맷에 따라 상기 제 1 비디오 신호를 복호화하는 단계(303);

상기 제 1 비디오 신호로부터 제 1 움직임 추정 데이터를 추출하는 단계(305)로서, 상기 제 1 운동 추정 데이터는 상기 제 1 비디오 부호화 포맷에 따르는, 상기 추출하는 단계(305);

상기 제 1 움직임 추정 데이터로부터 제 2 움직임 추정 데이터를 생성하는 단계(307)로서, 상기 제 2 움직임 추정 데이터는 상기 제 1 비디오 부호화 포맷과는 다른 세트의 움직임 추정 옵션들을 갖는 제 2 비디오 부호화 포맷에 따르는, 상기 생성하는 단계(307); 및

트랜스코딩된 비디오 신호를 생성하기 위해 상기 제 2 움직임 추정 데이터를 사용하여 상기 제 2 비디오 부호화 포맷에 따라 상기 복호화된 신호를 부호화하는 단계(317)를 포함하는, 비디오 트랜스코딩 방법.
제 16 항에 따른 방법을 수행할 수 있게 하는 컴퓨터 프로그램.
제 17 항에 따른 컴퓨터 프로그램을 포함하는 기록 캐리어.