KR20030020419A

KR20030020419A - 비디오 트랜스코딩을 위한 방법 및 디바이스

Info

Publication number: KR20030020419A
Application number: KR10-2003-7001273A
Authority: KR
Inventors: 모렐안토니
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2001-05-29
Filing date: 2002-05-27
Publication date: 2003-03-08
Also published as: WO2002098136A2; EP1433329A2; JP2005503695A; WO2002098136A3; CN1636405A; US20040151249A1

Abstract

본 발명은 MPEG-2 비디오 표준에 따라 코딩된 입력 비디오 신호를 트랜스코딩하는 스케일링가능한 비디오 트랜스코딩 방법에 관한 것이다. 본 발명의 목적은, MPEG-2 비디오 디코더들과 인코더들에서 이용되는 표준 동작 보상 처리 단계들의 이용을 통해, 코딩된 데이터 신호내의 데이터를 수정하는 방법 및 디바이스를 제공하는 것이다. 이 목적을 위해, 가산 및 감산 서브-단계가 코딩 에러의 다이내믹을 이동시키는 예측 루프에 삽입되어, 이것은 8-비트의 부호없는 값들을 저장하는데 전용인 표준 메모리 디바이스에 저장될 수 있다. 둘째로, 상기 감산 서브 단계는 데이터 보간으로부터 발생되는 품질 변동을 감소시키면서 표준 예측 단계를 이용하는 것을 허용한다.

Description

비디오 트랜스코딩을 위한 방법 및 디바이스{Method and device for video transcoding}

코딩된 데이터 신호를 트랜스코딩하는 것은 비디오 브로드캐스팅 및 개인용 비디오 기록의 분야에서 중요한 문제가 되었다. 예를 들어, MPEG-2 표준에 따라 코딩된 입력 비디오 신호가 제한된 대역폭의 전송 채널상에서 브로드캐스팅되어야 할 때, 트랜스코딩 방법은 상기 입력 비디오 신호에 적용될 수 있어, 결과적인 출력 비디오 신호는 상기 제한된 대역폭내에 적합한 감소된 비트레이트를 갖는다. 동일한 방법이 또한 개인용 비디오 레코더들에 적용될 수 있어, 출력 비디오 신호는 예측된 기록 시간을 허용하는 감소된 비트레이트를 갖는다.

트랜스코딩 방법은 유럽 특허 출원 번호 EP 제 0 690 392 A1 호에 제안되었다. 상기 특허 출원은 코딩된 데이터 신호를 수정하는 방법 및 그에 대응하는 디바이스를 서술한다. 특히, 상기 방법은 MPEG-2 표준에 따라 코딩된 출력 비디오 신호의 비트레이트를 감소시키는데 이용된다.

본 발명은 출력 비디오 신호를 발생시키기 위해 입력 코딩된 비디오 신호내의 데이터를 수정하는 방법에 관한 것으로, 각각의 비디오 신호는 코딩된 비디오 프레임들의 시퀀스에 대응하고, 상기 방법은,

- 현재의 입력 코딩된 비디오 프레임으로부터, 디코딩된 데이터 신호를 전달하는 에러 디코딩 단계와,

- 수정되고 동작 보상된 신호와 상기 디코딩된 데이터 신호사이의 제 1 가산 서브-단계로부터 발생되는 중간 데이터 신호로부터, 상기 출력 비디오 신호에 의해 송신된, 출력 비디오 프레임을 전달하는 재-인코딩 단계와,

- 상기 출력 비디오 프레임의 1차 코딩 에러를 전달하는 재구성 단계 (reconstruction step)와,

- 이전의 출력 비디오 프레임의 이전에 저장되고 수정된 코딩 에러로부터 1차 동작-보상된 신호를 전달하는 동작-보상 단계를 적어도 포함한다.

본 발명은 또한 상기 방법을 실행하는 트랜스코딩 디바이스에 관한 것이다. 본 발명은, 예를 들어, 비디오 브로드캐스팅 또는 비디오 저장의 분야에서 이용될 수 있다.

도 1은 본 발명에 따른 트랜스코딩 방법의 일 실시예를 도시한 도면.

본 발명의 목적은, MPEG-2 비디오 디코더들 및 인코더들에 이용되는 표준 동작 보상 처리 단계들에 의해, 코딩된 데이터 신호내의 데이터를 수정하는 방법을 제공하는 것이다.

종래 기술 방법은 MPEG-2 비디오 신호상에서 트랜스코딩을 수행하는데 필요한 처리 단계들의 수를 감소시키기 위해 디코더와 인코더의 캐스케이딩(cascading)을 간단히 하는데에 기초하고 있다. 이 목적을 위해, 동작 보상의 선형성 (linearity)을 가정하면, 디코더의 동작 보상 단계와 인코더의 동작 보상 단계는병합되어, 상기 종래 기술 방법에서 이용된 단일 동작 보상 단계를 발생시킨다.

출력 비디오 신호를 전달하는데 전용인, 비디오 트랜스코딩, 디코딩 또는 인코딩 방법에서, 동작 보상은 주로 다음의 두개의 처리 단계들을 포함한다.

- 상기 출력 비디오 신호의 코딩 에러를 메모리 디바이스에 저장하는 저장 단계: 비디오 디코더들 및 인코더들에서, 저장 단계는 8-비트의 부호없는 픽셀값들 (8-bit unsigned pixel values)로 구성된 코딩 에러의 표준 메모리내의 저장을 발생시킨다. 그때, 상기 표준 메모리는 각각의 저장 기본 공간(storage elementary space)이 8-비트의 부호없는 값들을 수용하는 것을 특징으로 한다.

- 상기 저장된 코딩 에러로부터 예측된 신호를 계산하는 예측 단계: 예측된 신호는, 처리되는 입력 비디오 신호의 부분에 대하여, 동작 벡터에 의해 지시되는 상기 메모리 디바이스 내에 저장된 신호의 부분에 대응한다. 그와 같은 동작 벡터가 절반 정수값(half integer value)을 갖는다면, 즉, 절반 픽셀 동작 추정으로부터 유도되는 값을 갖는다면, 값들 사이의 선형 또는 쌍일차 보간(linear or bilinear interpolation)이 수행된다. 비디오 디코더들 및 인코더들에서, 보간은 MPEG-2 국제 비디오 표준(동화상 전문가 그룹(Moving Pictures Experts Group), ISO/IEC 13818-2)에 따라 수행된다.

트랜스코딩 종래 기술 방법은 메모리내에 저장되는 코딩 에러상에서 수행되는 동작 보상 단계를 이용하고, 상기 코딩 에러는 트랜스코딩될 입력 비디오 신호와 트랜스코딩된 비디오 신호사이의 차로부터 발생한다. 픽셀들이 0과 255사이의 부호없는 값들을 정의하기 위한 8-비트 다이내믹(dynamic)으로 코딩됨에 따라, 코딩 에러는 -256과 255사이의 부호있는 값들을 정의하기 위한 9-비트 다이내믹을 가진다. 따라서, 동작 보상에서 이용되는 기준 프레임을 저장하기 위해 디코더들 및 인코더들에서 이용되는, 8-비트의 부호없는 값들의 저장에 전용인 표준 메모리는 이용될 수 없다. 결과적으로, 상기 메모리는 종래 기술 트랜스코딩 방법의 이행에서 상기 코딩 에러를 정의하는 값들을 저장하기 위해 특정하게 치수가 정해져야 한다. 이것은 그와 같은 특정한 메모리를 어드레싱하는데 있어 증가된 메모리 공간 및 어려움들을 발생시킨다.

종래 기술 트랜스코딩 방법에서, 동작 보상에 관한 선형성 가정은 절반 픽셀 동작 벡터들이 이용될 때 정당화되지 않는다는 것이 증명될 수 있다. 더 이상 이용가능하지 않으며 간략화된 트랜스코더에서 추론될 수 없는 정보를 이용하는 디코더 부분 및 인코더 부분 모두에서, 캐스케이딩된 디코더/인코더에서 라운딩(rounding)이 수행된다는 것이 증명될 수 있다. 그럼에도, 디코더/인코더의 최적의 캐스케이드에 비해 부정확한 라운딩으로 인한 부호있는 에러는, 보간될 값들의 합의 부호가 고려된다면 평균적으로 0이 될 수 있다. 기본적으로, 부호-기반 라운딩(sign-based rounding)은 데이터 보간에서 수행되는 라운딩 에러들을 회피하기 위해 종래 기술에 따라 트랜스코더들에서 정의되어야 한다. 그러나, MPEG-2 비디오 표준에서 정의된, 디코더들 및 인코더들에서 이용되는 데이터 보간은 보간된 값에 대해 부호-기반 라운딩을 수행하지 않는다. 결과적으로, MPEG-2 표준에서 정의된 데이터 보간을 지배하는 예측 단계는 상기 종래 기술 트랜스코딩 방법에서 이용될 수 없다. 표준 예측 단계가 종래 기술 트랜스코딩 방법에서 이용된다면, 동일한 부호의 라운딩 에러들은 데이터 보간으로부터 발생할 수 있다. 작은 진폭의, 이들 라운딩 에러들이 MPEG-2 비디오 시퀀스의 트랜스코딩중에 프레임마다 축적되는 경우에도, 특히 많은 일시적으로 예측된 프레임들이 상기 시퀀스에 포함된다면, 트랜스코딩된 프레임의 그룹들에 대한 품질 변동(quality drift)을 발생시키고, 트랜스코딩된 비디오 시퀀스의 열악한 품질을 발생시킨다. 그럼에도, 본 발명의 목적은 종래 기술 방법에서 정의된 데이터 보간을 위한 표준 예측 단계를 이용하는 것이며, 이것은, 특정한 예측 단계가 설계되어야 하므로, 여분의 비용을 함축한다. 그밖에, 예측 단계는 인코더들, 디코더들 및 트랜스코더들에 의해 공유될 수 있다. 이것은 집적 회로들의 자원 할당을 최적화하고 비용을 감소시키기 위해 바람직하다.

종래 기술 방법의 제한들을 제거하기 위해, 본 발명에 따라 데이터를 수정하는 방법은,

- 상기 1차 코딩 에러에 제 1 오프셋을 가산하여, 상기 수정된 코딩 에러를 발생시키는, 제 2 가산 서브-단계와,

- 상기 1차 동작 보상된 신호로부터 제 2 오프셋을 감산하여, 상기 수정된 동작 보상된 신호를 발생시키는, 감산 서브-단계를 특징으로 한다.

먼저, 상기 가산 및 감산 서브 단계들은 상기 코딩 에러의 범위를 이동시키는 것을 허용하여, 상기 코딩 에러는 8-비트의 부호없는 값들을 저장하는데 전용인 표준 메모리 디바이스에 저장될 수 있다. 둘째로, 상기 감산 서브-단계는, 표준 예측의 이용으로 인한 평균 라운딩이 감산에 포함된다면, 데이터 보간으로부터 발생하는 품질 변동을 감소시키면서 표준 예측 단계를 이용하는 것을 허용한다.

본 발명의 다른 특징에 따라, 제 2 오프셋은, 상기 동작 보상 단계에서 이용된 동작 벡터들의 수평 및 수직 성분들의 진폭에 의존하는 값을 갖는, 부가적 오프셋에, 상기 제 1 오프셋의 값을 갖는, 고정된 베이스 오프셋을 가산하는 것으로부터 발생한다.

본 발명의 다른 특징에 따라, 상기 오프셋은 상기 수평 및 수직 성분들 모두의 진폭들이 정수값들을 갖는다면 0으로 설정된다.

본 발명의 다른 특징에 따라, 상기 부가적인 오프셋은 상기 수평 및 수직 성분들의 진폭들이 0이 아닌 정수값들을 갖는다면 0이 아닌 값으로 설정된다.

이런 방식으로, 절반 픽셀 쌍일차 보간(half pixel bilinear interpolation)에 의해 발생된 라운딩 에러의 조정은, 트랜스코딩될 비디오 시퀀스를 고려하여 품질 변동을 감소시키기 위해, 상기 동작 보상에서 이용된 동작 벡터 성분들의 진폭들로부터 유도된, 보간 타입에 적응된다.

본 발명의 다른 특징에 따라, 상기 제 2 의 가산 및 감산 서브-단계들은 DCT 도메인에서 수행된다.

본 발명의 다른 특징에 따라, 상기 제 1 오프셋의 값은 상기 1차 코딩 에러를 구성하는 데이터의 최대 다이내믹에 비례한다.

이런 방식으로, 상기 감산 및 가산 서브-단계들은, 그 단계들이 DCT 도메인(이산 코사인 변환)에서, 즉 주파수 도메인에서 수행되므로, 그리고 단지 하나의 가산 및 하나의 감산이 상기 코딩 에러를 구성하는 데이터의 8*8 블록당 수행되므로, 비용 효과적이다. 또한, 그와 같은 라운딩 조정은 이용된 DCT 정확도에 용이하게적응될 수 있다. 부가적으로, DCT 정확도는 픽셀 도메인 정확도보다 양호하며, 이것은 더 미세한 라운딩 조정(1 픽셀-유닛 정확도보다 적음)을 허용한다. 이러한 비용 효과적인 방법은 트랜스코딩 종래 기술보다 우수하는 것이 증명될 수 있다. 최적의 디코더/인코더 캐스케이드에 비해 부정확한 라운딩으로 인한 부호있는 에러가 평균적으로 0일 뿐 아니라, 그 분산(variance)도 또한 종래 기술 트랜스코딩에서보다 낮다.

본 발명은 또한, 제안된 방법의 상이한 처리 단계들에 의해 출력 비디오 신호를 발생시키기 위해, 입력 코딩된 비디오 신호내의 데이터를 수정하는 트랜스코딩 디바이스에 관한 것이다.

본 발명의 상세한 설명 및 다른 측면들은 하기에 주어질 것이다.

본 발명의 특별한 측면들은 첨부된 도면과 연결되어 고려되고 하기에 서술된 실시예들을 참조하여 이제 설명될 것이다.

본 발명은 MPEG-2 입력 코딩된 비디오 신호들의 트랜스코딩에 잘 적응되지만, 이 분야의 숙련된 자들에게 그와 같은 방법은, 예를 들어, MPEG-1, MPEG-4, H.261 또는 H.263 표준들에 서술된 것과 같은, 블록-기반 압축 방법에 의해 인코딩된 임의의 코딩된 신호에 적용가능하다는 점이 분명할 것이다.

다음에서, 본 발명은 입력 및 출력 코딩된 비디오 신호들이 MPEG-2 국제 비디오 표준(동화상 전문가 그룹, ISO/IEC 13818-2)을 따른다고 가정하여 상세히 서술될 것이다. 트랜스코딩될 비디오 프레임은 매크로블록들(MB)이라 불리는 16*16 픽셀들의 인접한 정사각형 영역들로 분할된다고 가정되며, 각각의 MB는 블록들(B)이라 불리는 8*8 픽셀들의 4개의 인접한 정사각형 영역들로 분할된다.

도 1은 본 발명에 따른 트랜스코딩 방법의 일반적 장치를 도시한다. 기능적 단계들을 포함하는 이러한 트랜스코딩 장치는 다음과 같이 동작한다.

이러한 트랜스코딩 장치는, 현재의 입력 코딩된 비디오 신호(103)로부터, 디코딩된 데이터 신호(102)를 전달하는 에러 디코딩 단계(101)를 포함한다. 이러한 에러 디코딩 단계(101)는 입력 비디오 신호(103)의 부분적 디코딩을 수행하며, 즉, 상기 입력 신호에 포함된 단지 감소된 수의 데이터만이 디코딩된다. 이러한 단계는, 신호(103)에 포함된, 적어도 DCT 계수들과 동작 벡터들의 가변 길이 디코딩(variable length decoding)(VLD)(104)을 포함한다. 이러한 단계는, 예를 들어, 허프만 코드들의 역 조사표(inverse look-up table of Huffman codes)에 의한, 엔트로피 디코딩으로 구성되며, 디코딩된 DCT 계수들(105)과 동작 벡터들(106)을 얻는 것을 허용한다. 상기 단계(104)에 연속하여, 역 양자화(inverse quantization )(IQ)가 상기 디코딩된 데이터 신호(102)를 전달하기 위해 상기 디코딩된 계수들(105)상에서 수행된다. 역 양자화(107)는 상기 입력 신호(103)에 포함된 양자화 인자로 상기 DCT 디코딩된 계수들(105)을 곱하는 것으로 주로 구성된다. 대부분의 경우들에서, 이러한 역 양자화(107)는 상기 양자화 인자가 한 매크로블록에서부터 다른 매크로블록까지 변할 수 있기 때문에 매크로블록 레벨에서 수행된다. 디코딩된 신호(102)는 주파수 도메인에 있다.

트랜스코딩 장치는 또한, 상기 입력 비디오 신호(103)의 트랜스코딩으로부터 발생하는 신호에 대응하는, 출력 비디오 신호(109)를 전달하는 재-인코딩 단계(108)를 포함한다. 신호는 입력 비디오 신호(103)로서 MPEG-2 비디오 표준을 따른다. 상기 재-인코딩(108)은, 가산 서브-단계(111)에 의해, 상기 디코딩된 데이터 신호(102)를 수정된 동작 보상된 신호(112)에 가산하여 발생되는, 중간 데이터 신호(110)에 작용한다. 상기 재-인코딩 단계(108)는 연속하여 양자화(Q)(113)를 포함한다. 이러한 양자화(113)는, 양자화된 DCT 계수들(114)을 전달하기 위해, 신호(110)에 포함된 DCT 계수들을 새로운 양자화 인자로 나누는 것으로 구성된다. 이러한 새로운 양자화 인자는 상기 입력 코딩된 비디오 신호(103)의 트랜스코딩에 의해 수행된 수정을 특징으로 하는데, 예를 들어, 큰 양자화 인자는 상기 입력 코딩된 비디오 신호(103)의 비트레이트 감소를 발생시킬 수 있기 때문이다. 상기 양자화(113)에 연속하여, 가변 길이 디코딩(VLC)(115)은 엔트로피 코딩된 DCT 계수들(116)을 얻기 위해 상기 계수들(114)에 적용된다. VLD 처리(processing)와 유사하게, VLC 처리는 허프만 코드를 각 계수(114)에 할당하기 위한 조사표로 구성된다. 그다음에, 계수들(116)은 상기 출력 비디오 신호(109)에 의해 송신되는 트랜스코딩된 프레임들을 구성하기 위해 버퍼(BUF)(117)뿐 아니라 동작 벡터들(106)(도시안됨)에 축적된다.

장치는 또한 상기 출력 비디오 신호(109)의 1차 코딩 에러(119)를 전달하는 재구성 단계(118)를 포함한다. 이러한 재구성 단계는 양자화(113)에 의해 도입된코딩 에러를 양자화하는 것을 허용한다. 현재의 트랜스코딩된 비디오 프레임의 그와 같은 코딩 에러는, 출력 비디오 신호(109)에서의 프레임마다의 품질 변동을 회피하기 위해 다음의 비디오 프레임의 트랜스코딩에서, 하기에 더 상세히 논의되는 동작 보상 단계동안, 고려된다. 상기 1차 코딩 에러(119)는, 신호(121)를 발생시키며, 상기 신호(114)상에서 수행되는, 역 양자화(IQ)(120)에 의해 재구성된다. 그다음에, 감산 서브-단계(122)는 신호들(110 및 121)사이에서 수행되어, DCT 도메인에서, 즉 주파수 도메인에서 상기 1차 코딩 에러(119)를 발생시킨다. 가산 서브 단계(123)에서, 제 1 오프셋(124)은, DCT 도메인에서, 수정된 코딩 에러(125)를 발생시키기 위해 상기 1차 코딩 에러(119)에 가산된다. 그다음에, 상기 수정된 코딩 에러(125)는, 픽셀 도메인에서, 수정된 코딩 에러(127)를 발생시키기 위해 역 이산 코사인 변환(IDCT)(126)을 통과한다. 그와 같은 가산 서브-단계(123)의 목적은 양의 값들의 범위에서 상기 1차 코딩 에러(119)를 구성하는 값들의 다이내믹을 이동(shift)시키는 것이다. 픽셀 도메인에서, 상기 코딩 에러(119)는, 각각 8-비트의 부호없는 값들(즉, 0 내지 255의 범위내의 픽셀들로부터의 값)의 DCT 코딩으로부터 유도되는, 두개의 주파수 신호들(110 및 121)사이의 차에 대응하므로, 상기 코딩 에러(119)는 9-비트의 부호있는 값들(즉, -256 내지 255의 범위의 값)의 DCT 코딩으로부터 유도되는 것으로 간주될 수 있는 주파수 신호이다. 상기 1차 코딩 에러(119)를 구성하는 대부분의 값들이 작은 진폭들을 가지며, 그것들이 0 부근에 중심을 둔다고 가정하면, 제 1 이동은 상기 오프셋(124)을 상기 1차 코딩 에러(119)에 가산함으로써 수행된다.

도 1에서, 오프셋(124)의 가산은 DCT 도메인에서 유리하게 수행되는데, 각각의 8*8 픽셀 블록내의 연속 성분에 대응하는 DCT 계수에 오프셋(124)을 단일 가산하는 것이 8*8 픽셀 블록들을 구성하는 값들 각각에 오프셋을 가산하는 것과 동등하기 때문이다. 오프셋(124)은 상기 코딩 에러(119)의 4분의 1 범위의 값(quarter range value)에 대응하도록 고정된다. 도 1에 도시된 바와같이 DCT 도메인에서 가산된다면, 그 값은 이행된 DCT의 정확도에 더 비례하며, 따라서 128*k(k는 정수)로서 표현될 수 있다. 코딩 에러(119)의 DCT 계수들의 다이내믹이, MPEG-2 비디오 표준에서 권고된, -2048 내지 2047의 범위에 있다면, 예를 들어 k는 8로 설정된다. DCT(126)를 통과한 이후에, 픽셀 도메인내의 수정된 코딩 에러(127)는 0 내지 255의 범위에서 픽셀값들로 구성된다. 네거티브 픽셀값들을 0으로 하고 266이상의 픽셀값들을 255로 하는 것으로 구성된 클립핑 단계(clipping step)는, 도 1에 명백히 도시되지 않은, IDCT(126)에 의해 발생된 값들에 적용될 수 있는데, MPEG-2 비디오 표준에서 특정된 IDCT가 그와 같은 클립핑 단계를 내재적으로 포함하기 때문이다.

물론, 가산 서브-단계(123)에 의해 수행된 이동은, 도 1에 도시되지 않은, 픽셀 도메인에서 대안적으로 수행될 수 있다. 그와 같은 변형은, 비록 계산의 관점에서 더 비싸지만, DCT 도메인에서와 동일한 결과를 발생시킨다. 이 목적을 위해, 1차 코딩 에러(119)는 픽셀 도메인에서 -256 내지 255 범위의 값들로 구성된 코딩 에러를 발생시키는 IDCT(126)를 통해 먼저 통과된다. -256 내지 255의 4분의 1 범위에 대응하는, 128로 설정된 오프셋(124)은 가산 서브-단계(123)에 의해 픽셀 도메인 내의 상기 코딩 에러의 각각의 값에 가산된다. 가산 이후에, 0 내지 255의 범위 밖의 클립핑이 수행된다.

그다음에, 수정된 코딩 에러(127)는 8-비트의 부호없는 메모리 디바이스 (128)에 저장되고, 상기 수정된 코딩 에러(127)는 0과 255사이에 포함된 값들을 가진다. 따라서, 표준 메모리 디바이스(128)는, 비디오 디코더들 및 인코더들에서 이용된 바와 같이, 이용될 수 있다.

장치는 또한, 신호(109)에 의해 송신된 이전의 트랜스코딩된 비디오 프레임에 대해 메모리(MEM)(128)에 저장된, 수정된 코딩 에러로부터 상기 1차 동작 보상된 신호(130)를 전달하는 동작 보상 단계(129)를 포함한다. 메모리(128)는 적어도 두개의 서브-메모리들을 포함하는데, 첫 번째 것은, 트랜스코딩되고 있는 비디오 프레임에 대해, 수정된 코딩 에러(127)의 저장에 전용이고, 두 번째 것은, 이전의 트랜스코딩된 비디오 프레임에 대해, 수정된 코딩 에러(127)의 저장에 전용이다. 먼저, 동작 보상(132)(COMP)이, 신호(131)를 통해 액세스가능한 상기 제 2 서브-메모리의 콘텐트들 상에서 수행된, 예측 단계에 의해 행해진다. 예측 단계는 상기 저장된 코딩 에러(131)로부터 예측된 신호(133)를 계산하는 것으로 구성되며, 동작 보상된 신호로 또한 불리는, 예측된 신호는, 트랜스코딩되고 있는 입력 비디오 신호(102)의 부분에 대해 동작 벡터(106)에 의해 지정되는, 상기 메모리 디바이스 (128)내에 저장된 신호의 부분에 대응한다. 대개, 이 분야에 숙련된 자들에게 잘 알려진 바와 같이, 상기 예측은 MB 레벨에서 수행되며, 이것은, 신호(102)에 의해 송신된 각각의 입력 MB에 대해, 예측된 MB가 결정되고, 시간에 대한 임의의 품질 변동을 감쇠시키기 위해 DCT 도메인내의 가산 서브-단계(111)에 의해 상기 입력 MB에 더 가산된다는 것을 의미한다. 픽셀 도메인 내에 있는 동작 보상된 신호(133)는 DCT 도메인에서 상기 1차 동작 보상된 신호(130)를 발생시키는 DCT 단계(134)를 통과한다. 신호(119)에 대한 다이내믹과 동일한 신호(130)에 대한 다이내믹을 가지기 위해, 감산 서브-단계(135)에 의해 이동이 수행된다. 이 목적을 위해, 제 2 오프셋(136)이 상기 1차 동작 보상된 신호(130)로부터 감산되며, 상기 수정된 동작 보상된 신호(112)를 발생시킨다. 도 1은 DCT 도메인에서 수행되는 상기 감산 서브-단계(135)를 도시하며, 이것은 가산 서브-단계에 대한 언급된 것들과 동일한 장점들을 제공한다.

물론, 감산 서브-단계(135)에 의해 수행된 이동은 픽셀 도메인에서 대안적으로 수행될 수 있으며, 이것은 도 1에 도시되어 있지 않다. 그와 같은 변형은 DCT 도메인에서와 동일한 결과를 발생시키지만, 이것은 계산의 관점에서 더 비싸다. 이 목적을 위해, 신호(133)의 다이내믹의 4분의 1과 동일한(즉, 128과 동일한) 오프셋이 감산-서브 단계(135)에 의해 동작 보상된 신호(133)로부터 감산된다. 이러한 감산은 픽셀 도메인에서 수정된 동작 보상된 신호를 발생시키고, 이것은 그다음에 DCT 도메인에서 상기 수정된 동작 보상 신호(112)를 발생시키기 위해 DCT(134)를 통과한다.

본 발명의 제 1 실시예에서, 오프셋은, DCT 또는 픽셀 도메인에서 수행되는, 가산 서브-단계(123)에 의해 수행되는 오프셋 가산을 정확하게 삭제하도록 설정되어, 1차 코딩 에러(119)는 수정된 동작 보상 신호(112)의 다이내믹과 동일한 다이내믹을 갖는다. 예를 들어, 가산 및 감산 서브-단계들이 모두 DCT 도메인에서 수행된다면, 오프셋(136)은 128*k로 설정되는 오프셋(124)과 동일한 값을 가질 것이다.

본 발명의 요약에서 언급된 것처럼, 도 1에 도시된 트랜스코딩 방법에서의 MPEG-2 비디오 표준에서 정의된 동작 보상에서, 메모리(128)에 저장된 픽셀값들이 절반-픽셀 레벨에서 보간될 때, 즉 절반-픽셀 레벨에서 계산되는 동작 벡터들(106)이 비-정수인 수평 및/또는 수직 성분들을 가진다면, 라운딩 에러들은 예측 단계에서 나타난다는 것이 증명될 수 있다. +1의 진폭을 가지는, 상기 라운딩 에러는 이론적인 보간된 값을 수정하는 바이어스로서 도시될 수 있다. 조건부 확률들을 이용함으로써, 상기 바이어스는 조정되기 위해 통계적으로 평가된다.

절반-픽셀 레벨에서 평가되는 4개의 상이한 타입들의 동작 벡터들(106)이 고려된다.

full_motion : 예를 들어, (8.0, 8.0)인, 수평 및 수직 성분들 모두에 대해 정수값들을 갖는 동작 벡터.

- half_hori_motion : 예를 들어, (8.5, 8.0)인, 수평 성분에 대해 절반 정수값을 갖고, 수직 성분에 대해 정수값을 갖는 동작 벡터.

- half_verti_motion : 예를 들어, (8.0, 8.5)인, 수평 성분에 대해 정수값을 갖고, 수직 성분에 대해 절반 정수값을 갖는 동작 벡터.

- half_center_motion : 예를 들어, (8.5, 8.5)인, 수평 성분 및 수직 성분 모두에 대해 정수값들을 갖는 동작 벡터.

다음에서, 이들 4개의 타입들의 동작 벡터를 갖는 확률은 동일하다고 간주된다. 이것은 다음과 같이 표현된다.

Prob(full_motion) 식 (1)

= Prob(half_hori_motion)

= Prob(half_verti_motion)

= Prob(half_center_motion)

= 1/4

여기서, Prob(x)는 x를 갖는 확률을 표현한다.

픽셀 유닛들로서 표현되는, 평균 바이어스는 다음과 같이 계산된다.

bias=E[error] 식 (2)

= E[error/"full_motion"]*Prob("full_motion")

+ E[error/"half_hori_motion"]*Prob("half_hori_motion")

+ E[error/"half_verti_motion"]*Prob("half_verti_motion")

+ E[error/"half_center_motion"]*Prob("half_center_motion")

= 0*1/4 + 1/4*1/4 + 1/4*1/4 + (3-1)/16*1/4

= 5/32 픽셀 유닛

여기서, 에러는 "디코더 및 인코더의 최적의 캐스케이드"에 의해 주어진 전체적 동작-보상 결과에서 "표준 동작 보상을 이용하는 간략화된 트랜스코더"에 의해 주어진 동작 보상 결과를 감산한 것이다.

E[error]는 에러 기대값(또는 바이어스)을 나타낸다.

E[error/"x"]는 x를 갖는 동안의 에러 기대값을 표현한다.

표준 동작 보상을 가진 트랜스코더를 변동-없게 하려는 본 발명에 따른 시도는, 식 (2)에 따라 추정되고 라운딩 에러들에 의해 발생되는, 바이어스의 제거를 구성한다. 이것은 픽셀 도메인내의 상기 신호(133)로부터 상기 바이어스를 감산하거나 또는 DCT 도메인내의 상기 1차 동작 보상된 신호(130)로부터 상기 바이어스를 감산함으로써 구현될 수 있다. 별개의 감산 서브-단계(도 1에 도시되지 않음)가 이것을 위해 이용될 수 있다. 그러나, 감산 서브-단계(135)는 유리하게 재-이용될 수 있는데, 바이어스가 신호(130)로부터 감산될 부가적인 오프셋으로서 도시될 수 있기 때문이다. 이것은 또한, DCT 신호의 다이내믹이 픽셀 신호의 다이내믹보다 크기 때문에, DCT 도메인에서 유리하게 행해져, 픽셀값의 분율(fraction)은 더 용이하게 감산된다. 따라서, 오프셋(136)의 값은 상기 오프셋(124)(베이스 오프셋이라 불림)을 상기 바이어스값에서 가산하는 것에 대응하도록 설정된다. 그다음에, 오프셋(136)의 값은 다음과 같이 설정된다.

offset_136 = Round(offset_124 + bias) 식 (3)

= Round(128 + bias)*k

= Round(128 + 5/32)*k

여기서, Round(x)는 x를 가장 가까운 정수로 라운딩한다.

예를 들어, DCT 정확도가 k=8이 되도록 선택된다면, 오프셋(136)은 식 (3)에 따른 라운딩 이후에 1025로 설정된다.

감산 서브-단계(135)에 의해 신호(130)로부터 상기 바이어스를 감산하는 것은, 디코더들 및 인코더들에서 이용된 표준 예측 단계가, 라운딩 에러를 강하게 감소시키면서, 절반-픽셀 보간을 위해 이용될 수 있다는 것을 의미한다. 이것은신호(130)로부터 오프셋을 간단히 감산하는 것을 요구하므로 비용 효과적인 솔루션을 발생시키지만, 또한 디코더들 및 인코더들의 표준 동작 보상 단계들(MEM+COMP)이 재이용 또는 공유되므로 그러하다. 이러한 방법은 트랜스코딩된 프레임들 상의 품질 변동을 회피하며, 이것은 PSNR(피크 신호 대 잡음 비율)에서의 증가로서, 및 변동되기 쉬운 방법에 비해 예측된 프레임들 상의 더 작은 비트 소비로서 정량화될 수 있다.

동작 벡터(106)의 타입을 고려하는 바이어스 제거의 정밀도가, 필요하다고 여겨질 때만 바이어스가 제거되는 것을 보장하기 위해, 제안된다. 예를 들어, 단지 풀-픽셀 동작 보상만이 입력 데이터에서 이용된다면, 제거할 바이어스가 없게 되는데, 에러가 없기 때문이다. 이전의 계산에서, 상이한 타입들의 동작 벡터들이 동일한 발생 확률을 갖는 것으로 간주된다는 것을 유의해야 한다. motion_x 및 motion_y로 각각 언급되는, 동작 벡터들(106)의 수평 및 수직 성분들이 고려된다.

수평 및/또는 수직 성분이 홀수값들을 가진다면, 이러한 축을 따르는 동작 벡터(106)의 진폭은 0이 아닌 절반-픽셀 소수(non-zero half-pixel decimal)를 갖는다는 것이 편리하게 가정된다. 이것은 상기에 정의된 half_hori_motion, half_verti_motion 및 half_center_motion에 대응하는 동작 벡터 타입들에 관계된다. 이 경우에, 메모리(128)에 저장된 데이터 사이의 데이터 보간이, 바이어스 조정을 받는, 예측 단계동안 수행된다. 다른 경우에는, 동작 벡터(106)의 수평 및 수직 성분들은 정수값으로서 표현된다. 이것은 상기에 정의된 full_motion에 대응하는 동작 벡터 타입들에 적용된다. 이러한 마지막 경우에서, 어떤 데이터 보간도 예측 단계동안 수행되지 않아, 어떤 바이어스 조정도 필요하지 않다.

바이어스 조정이 필요한지를 결정하는 제 1 전략은 motion_x 및 motion_y의 패러티(parity)를 테스트하는 것으로 구성된다. 이들 성분중 적어도 한 성분이 홀수라면, 바이어스 조정이 수행되고(즉, bias ≠0), 다른 경우에는, 어떤 바이어스 조정도 수행되지 않는다(즉, bias=0).

이것은 오프셋(136)의 값을 제공하는 다음의 알고리즘에 의해 표현될 수 있고, 상기 오프셋(136)은 상기 베이스 오프셋을 상기 부가적 오프셋에 가산하는 것으로부터 발생한다.

if( odd(motion_x) or odd(motion_y) )

offset_136 = (128 + E[error/"half_motion"])*k

else

offset_136 = 128*k

여기서,

E[error/"half_motion"] = 식 (4)

E[error/"half_hori_motion"]*Prob("half_hori_motion")

+ E[error/"half_verti_motion"]*Prob("half_verti_motion")

+ E[error/"half_center_motion"]*Prob("half_center_motion")

= 1/4*1/3 + 1/4*1/3 + (3-1)/16*1/3

= 5/24 픽셀 유닛

예를 들어, DCT 정확도가 k=8이 되도록 선택된다면, 알고리즘은 다음과 같이된다.

if( odd(motion_x) or odd(motion_y) )

offset = 1025

else

offset = 1024

이러한 제 1 전략에서, 절반 픽셀 동작 벡터는, 이러한 부울리안 연산 (boolean operation)이 1을 발생시킨다면, motion_x 및 motion_y의 최하위 비트들 사이에 배타적 OR을 수행하는데 있어 유리하게 검출된다.

제 2 전략은 상기에 정의된 full_motion, half_hori_motion, half_verti _motion, half_center_motion중에서 동작 벡터(106)의 타입에 값이 의존하는 바이어스 조정을 수행하는 것으로 구성된다. 바이어스 조정은 동작 벡터의 첫번째 3개의 타입들에 대해 수행되고, 한편 이러한 바이어스는 동작 벡터가 정수의 수평 및 수직 벡터들을 가진다면 0으로 설정된다. 이것은 다음의 알고리즘에서 요약될 수 있다.

if( odd(motion_x) )

if( odd(motion_y) )

offset_136 = (128 + E[error/"half_center_motion"])*k

else

offset_136 = (128 + E[error/"half_hori_motion"])*k

else

if( odd(motion_y) )

offset_136 = (128 + E[error/"half_verti_motion"])*k

else

offset_136 = 128*k

예를 들어, DCT 정확도가 k=8이 되도록 선택된다면, 알고리즘은 다음과 같이 된다.

if( odd(vector_x) )

if( odd(vector_y) )

offset_136 = 1025

else

offset_136 = 1026

else

if( odd(vector_y) )

offset_136 = 1026

else

offset_136 = 1024

제 3 전략은, 두개의 별개의 필드(field)들로 구성된, 트랜스코딩될 필드-기반 영상들에 관한 것이다. 이러한 타입의 영상은 두개의 동작 벡터 필드들을 포함하며, 동작 보상은 각각의 별개의 필드에 대해 연속적으로 수행되어야 한다. 따라서, 제 2 전략은 각각의 필드가 동작 보상되도록 이러한 목적을 위해 이용될 수 있다.

제안된 본 발명에서, 감산 서브-단계(135)는, 동일한 수정되고 동작 보상된 신호(112)를 발생시키는, 가산 서브-단계에 의해 대체될 수 있다. 이 경우에, 절대값은 상기에 서술된 오프셋(136)의 값인, 네거티브 오프셋이 상기 1차 동작 보상된 신호(130)에 가산된다.

이러한 발명은, 예측 단계가 메모리(128)에 포함된 데이터의 4분의 1-픽셀 레벨에서의 보간(즉, 수평 및 수직 성분들이 4분의 1-픽셀 정확도로 계산된 동작 벡터들을 가진 보간)을 내재한다면, 또한 이용될 수 있다. 이러한 상황에서, 메모리 (128)에 저장된 데이터값들 사이에서 수행된 보간으로부터 발생되는 에러 기대값이, 식 (2)에서와 유사하게, 조건부 확률에 의해 계산되며, 그다음에 상기 신호 (130)로부터 감산된다.

상기에 서술된 제안된 본 발명에서, 부가적 오프셋은 동작 벡터(106)의 수평 및 수직 성분들의 진폭이 정수값들을 가진다면 0 값으로 설정되지만, 이것은 어떤 변동 조정도 요구되지 않는다면, 0으로 또한 설정될 수 있다.

제안된 본 발명은, 그 목적이 동작 보상의 재-이용 또는 공유를 통한 비용 감소이지만, 종래 기술 트랜스코더보다 명백하게 우수하다. 실제로, 디코더/인코더의 최적의 캐스케이드에 비해 부정확한 라운딩에 의해 발생된 에러의 분산 (variance)이 종래 기술 트랜스코딩보다 낮다.

이러한 방법은, MPEG-2 표준과 같은, MPEG 표준 그룹에 따라 인코딩된 비디오 시퀀스들의 트랜스코딩에 특히 전용이다. 따라서, 본 방법은 비트레이트 데이터감소 응용, 비디오 스트리밍(video streaming), 또는 브로드캐스팅에서 이용되는 임의의 비디오 트랜스코딩 디바이스들에서 이행될 수 있지만, 또한 비디오 저장 응용들에 대해서도 이용될 수 있다.

이러한 방법은, 예를 들어, 유선 전자 회로들 또는 대안적으로 컴퓨터-판독가능 매체에 저장된 한 세트의 명령들에 의해 이행될 수 있고, 상기 명령들은 상기 회로들의 적어도 일부분을 대체하며, 상기 대체된 회로들에서 이행된 것과 동일한 기능들을 실행하기 위해 컴퓨터 또는 디지털 프로세서의 제어 하에 실행가능하다. 그다음에, 본 발명은 또한, 상기에 서술된 본 방법의 단계들 또는 몇몇 단계들을 수행하는 컴퓨터 실행가능 명령들을 포함하는, 소프트웨어 모듈을 포함하는 컴퓨터-판독가능 매체에 관한 것이다. 특히, 8-비트의 부호없는 값들의 저장에 전용인 메모리는 메모리 디바이스(128)를 위해 이용될 것이다.

Claims

출력 비디오 신호를 발생시키기 위해 입력 코딩된 비디오 신호내의 데이터를 수정하는 방법으로서, 각각의 비디오 신호는 코딩된 비디오 프레임들의 시퀀스에 대응하고,

- 현재의 입력 코딩된 비디오 프레임으로부터, 디코딩된 데이터 신호를 전달하는, 에러 디코딩 단계와,

- 수정되고 동작 보상된 신호와 상기 디코딩된 데이터 신호사이의 제 1 가산 서브-단계로부터 발생되는 중간 데이터 신호로부터, 상기 출력 비디오 신호에 의해 송신된, 출력 비디오 프레임을 전달하는, 재-인코딩 단계와,

- 상기 출력 비디오 프레임의 1차 코딩 에러를 전달하는, 재구성 단계와,

- 이전의 출력 비디오 프레임의 이전에 저장되고 수정된 코딩 에러로부터 1차 동작-보상된 신호를 전달하는 동작-보상 단계를 적어도 포함하는, 상기 데이터 수정 방법에 있어서,

- 상기 1차 코딩 에러에 제 1 오프셋을 가산하여, 상기 수정된 코딩 에러를 발생시키는, 제 2 가산 서브-단계와,

- 상기 1차 동작 보상된 신호로부터 제 2 오프셋을 감산하여, 상기 수정된 동작 보상된 신호를 발생시키는, 감산 서브-단계를 포함하는 것을 특징으로 하는, 데이터 수정 방법.
제 1 항에 있어서,

상기 제 2 오프셋은, 상기 동작 보상 단계에서 이용되는 동작 벡터들의 수평 및 수직 성분들의 진폭에 의존하는 값을 갖는, 부가적 오프셋에, 상기 제 1 오프셋의 값을 갖는, 고정된 베이스 오프셋을 가산하는 것으로부터 발생하는 것을 특징으로 하는, 데이터 수정 방법.
제 2 항에 있어서,

상기 부가적 오프셋은, 상기 수평 및 수직 성분들 모두의 진폭들이 정수값들을 갖는다면, 0으로 설정되는 것을 특징으로 하는, 데이터 수정 방법.
제 3 항에 있어서,

상기 부가적 오프셋은, 상기 수평 및 수직 성분들의 진폭들이 비-정수값들을 갖는다면, 0이 아닌 값으로 설정되는 것을 특징으로 하는, 데이터 수정 방법.
제 4 항에 있어서,

상기 제 2 가산 및 감산 서브-단계들은 상기 DCT 도메인에서 수행되는 것을 특징으로 하는, 데이터 수정 방법.
제 5 항에 있어서,

상기 제 1 오프셋의 값은 상기 1차 코딩 에러를 구성하는 데이터의 최대 다이내믹(dynamic)에 비례하는 것을 특징으로 하는, 데이터 수정 방법.
출력 비디오 신호를 발생시키기 위해 입력 코딩된 비디오 신호내의 데이터를 수정하는 트랜스코딩 디바이스로서, 각각의 비디오 신호는 코딩된 비디오 프레임들의 시퀀스에 대응하고,

- 현재의 입력 코딩된 비디오 프레임으로부터, 디코딩된 데이터 신호를 전달하는, 에러 디코딩 수단과,

- 수정된 동작 보상된 신호와 상기 디코딩된 데이터 신호사이의 제 1 가산 수단으로부터 발생되는 중간 데이터 신호로부터, 상기 출력 비디오 신호에 의해 송신된, 출력 비디오 프레임을 전달하는, 재-인코딩 수단과,

- 상기 출력 비디오 프레임의 1차 코딩 에러를 전달하는 재구성 수단과,

- 이전의 출력 비디오 프레임의 이전에 저장되고 수정된 코딩 에러로부터 1차 동작-보상된 신호를 전달하는, 동작-보상 수단을 적어도 포함하는, 상기 트랜스코딩 디바이스에 있어서,

- 상기 1차 코딩 에러에 제 1 오프셋을 가산하여, 상기 수정된 코딩 에러를 발생시키는, 제 2 가산 수단과,

- 상기 1차 동작 보상된 신호로부터 제 2 오프셋을 감산하여, 상기 수정되고 동작 보상된 신호를 발생시키는, 감산 수단을 포함하는 것을 특징으로 하는, 트랜스코딩 디바이스.
제 7 항에 있어서,

상기 제 2 오프셋은, 상기 동작 보상 수단에 의해 이용되는 동작 벡터들의 수평 및 수직 성분들의 진폭에 의존하는 값을 갖는, 부가적 오프셋에, 상기 제 1 오프셋의 값을 갖는, 고정된 베이스 오프셋을 가산하는 것으로부터 발생하는 것을 특징으로 하는, 트랜스코딩 디바이스.
제 8 항에 있어서,

상기 부가적 오프셋은, 상기 수평 및 수직 성분들 모두의 진폭들이 정수값들을 갖는다면, 0으로 설정되고, 상기 부가적 오프셋은, 상기 수평 및 수직 성분들의 진폭들이 비-정수값들을 갖는다면, 0이 아닌 값으로 설정되는 것을 특징으로 하는, 트랜스코딩 디바이스.
코딩된 비디오 신호내의 데이터를 수정하는 트랜스코딩 디바이스를 위한 컴퓨터 프로그램 제품으로서,

상기 디바이스에 로딩될 때, 제 1 항 내지 제 6 항중 어느 한 항에 청구된 임의의 처리 단계들을 상기 디바이스가 실행하게 하는, 한 세트의 명령들을 포함하는, 컴퓨터 프로그램 제품.