KR101478834B1

KR101478834B1 - 비디오 신호 트랜스코딩 방법 및 장치

Info

Publication number: KR101478834B1
Application number: KR20080030981A
Authority: KR
Inventors: 오르한 코스쿤; 아메트 사힌; 유스프 엔진 테틱; 유스프 셀쿡 아테스칸
Original assignee: 베스텔 일렉트로닉 사나이 베 티카레트 에이에스
Priority date: 2007-04-02
Filing date: 2008-04-02
Publication date: 2015-01-06
Also published as: EP1978743A1; JP5345797B2; RU2008112789A; KR20080090335A; RU2504105C2; EP1978743B1; JP2008259209A

Abstract

본 발명은 비디오의 프레임들을 나타내는 입력 비트 스트림으로 구성된 비디오 신호를 트랜스코딩(transcoding)하는 방법으로서, 상기 프레임 각각은 픽셀들의 블록들로 구성되고, 픽셀들의 블록 각각에 대하여 상기 입력 비트 스트림내에 대응하는 데이터 블록이 존재하는 트랜스코딩 방법을 제공한다. 본 발명의 방법은 상기 비디오 신호의 프레임의 비트 스트림에 대하여, 프레임 타입을 식별하는 단계; 및 프레임의 소정 타입들에 대하여, 상기 프레임내 복수의 블록에 관하여 데이터의 구성 비율을 무시함으로써 상기 프레임내 국소적 움직임 활동을 고려하는 단계를 포함한다.

트랜스코딩, 트랜스레이터, 스트림, MPEG, 비트, 레이트, 블록

Description

비디오 신호 트랜스코딩 방법 및 장치{A Method and Apparatus for Transcoding a Video Signal}

본 발명은 비디오 신호를 트랜스코딩하기 위한 방법 및 장치에 관한 것이다.

실시예들에 있어서, 본 발명은 사전-압축된(pre-compressed) 비디오 스트림들에 대한 다이나믹 비트-레이트 감소에 관한 것이다. 사전-압축된 데이터 스트림의 비트-레이트를 감소시키는 것은 트랜스레이팅(transrating) 이라고 불려지며, 그러한 일을 수행하는 장치들은 트랜스레이터들(transrators) 이라고 불려진다. 트랜스레이팅 및 트랜스레이터들은 각각 트랜스코딩 및 트랜스코더들인 상위 분야의 부분 집합에 속한다. 비디오 트랜스코딩은 사전-압축된 비디오 데이터가 다른 압축된 유효 비디오 데이터로 변환되는 과정이다. 본 발명의 실시예들은 비디오 레코더, 서버, 네트워크 비디오 서버 및 클라이언트와 같이 비트-레이트 감소가 요구되거나 필요한 많은 어플리케이션들에서 사용될 수 있다.

디지털 비디오 압축은 필수적인 정보를 전달하기 위해 요구되는 데이터 파일들의 과도한 양으로 인해 과거에 실행 불가능이었던 많은 양의 비디오 컨텐츠를 저장, 스트림 및 전송할 수 있도록 해준다. 디지털 신호 압축, 특히 MPEG 포맷 및 MPEG-2 포맷은 DVD 플레이어, 위성과 지상파 셋톱박스, 네트워크 비디오 서버와 리시버, 및 다른 많은 장치들에서 폭넓게 사용되고 있다.

디지털 비디오는 순차적으로 플레이될 때 움직임의 인상을 줄 수 있는 개개의 스틸 이미지들 또는 “프레임들”로 이루어져 있다. 각 디지털 비디오 압축 포맷이 그 자체의 특정한 특성들을 가지고 있긴 하지만 또한 많은 공통적인 특징들도 존재한다. 그러한 공통적인 특징 중 하나가 다른 프레임들과 독립적으로 코드화되는 인트라(intra) 프레임들의 사용이다. MPEG 용어에 있어서, 그러한 프레임들은 I 프레임들이라고 일컬어진다. I 프레임은 인코딩, 디코딩 및 플레이-백(play-back) 동안에 다른 프레임들과 비교되는 포인트로서 작용하는 키(key) 프레임 또는 참조 비디오 프레임으로 생각될 수 있다.

다른 공통적인 특징은 다른 프레임들을 참조하여 코드화되는 인터(inter) 프레임들의 사용이다. 그들은 그들의 참조 프레임들이 디코드된 후에만 디코드될 수 있다. 인터 프레임들은 MPEG 용어에서 P 프레임들 및 B 프레임들로 일반적으로 불려지는 두 가지 형태가 있다. 또한 B 프레임들은 비참조(non-reference) 인터 프레임들로 불려지는 반면에 P 프레임들은 참조 인터 프레임들로 불려진다.

위에서 언급된 바와 같이, 트랜스레이팅은 트랜스코딩으로 불려지는 넓은 형태의 비디오 스트림 프로세싱의 한 부분이다. 여기에서 사용될 때, 트랜스코딩은 새로운 유효한 디지털적으로 압축된 비디오 스트림을 생성하기 위해 디지털적으로 압축된 비디오 스트림의 어떤 특성들을 변화시키는 것을 의미한다. 트랜스레이팅은 단지 비트-레이트 변화(일반적으로 감소)를 목적으로 하는 트랜스코딩 과정이며, 이것은 대역이 제한된 네트워크 환경에서는 필수적이다.

다이나믹 비트-레이트 적응 메카니즘을 갖는 트랜스레이터들은 가변 비트-레이트(VBR)로 인코딩된 비디오가 고정 비트-레이트(CBR) 채널로 스트림되어 질 때 특히 중요하다. 만약 VBR 비디오의 비트-레이트가 지속적으로 변동되면, 적절한 CBR 출력 신호를 생성하기 위해 빠른 적응이 요구된다. 그러므로, 순시(instantaneous) 입력 비트-레이트에 대한 순시 출력 비트-레이트의 비는 그 비트-레이트가 항상 전송 채널의 비트-레이트 이하가 되는 거의(nearly) CBR 비디오 출력을 생성하기 위해 동적으로 변해야 한다.

트랜스레이팅시, 고려되어야 할 네 개의 주요 이슈들이 있다. 이것들은 동작의 복잡성, 출력 신호에 대해 요구되는 품질, 출력 신호에 대해 요구되는 비트-레이트 및 적응 속도이다. 방법 및 장치는 가장 복잡하지 않은 시스템 및 가능한 가장 빠른 적응 속도를 갖는 가장 낮은 비트-레이트를 사용하여 가장 높은 품질의 출력 비디오를 제공하는 것을 추구하고 있다. 다른 트랜스레이팅 기술들이 개발되어 실행되어지고 있다. 이미 알려진 시스템들은 구성 및 성능이 서로 다르고 그것들은 품질을 높이기 위해 속도를 떨어뜨리고 있으며 시간적인 제약이 없는 어플리케이션들에 유용하다. 다른 예시에 있어서, 트랜스레이터는 실시간 어플리케이션들에서 유용하도록 속도를 높이고 단순화하기 위해 품질을 떨어뜨리고 있다.

그들의 목적 및 운영 플랫폼(operational platforms)에 따라, 현재 다양한 트랜스레이터 구성들이 사용되고 있다. 이미 알려진 트랜스레이팅 방법들 및 구성예들은 도 1 내지 7 각각에 도시되어 있다. 도 1에는 연속적으로 연결된 디코더와 인코더를 포함하는 단순한 트랜스레이터가 도시되어 있다. 이러한 구성을 사용하여, 디지털 비디오 스트림은 프레임들로 디코딩되고 다시 다른 인코딩 파라미터들을 사용하여 인코딩될 수 있다. 디코더 및 인코더 부분들은 분리되며 따라서 이것은 아주 유연한(flexible) 트랜스레이터 구성이 된다. 그러나 이러한 유연성은 매우 높은 연산적 복잡성, 상대적으로 낮은 속도 및 높은 레이턴시(latency)를 감수해야 한다.

더욱이, 이러한 높은 희생에도 불구하고, 그러한 구성은 두 개의 본질적으로 손실을 초래하는 프로세스들(디코딩 및 인코딩)이 연속된다는 사실 때문에 최상의 출력을 보장할 수 없다. 따라서 이러한 구성은 대부분의 목적들을 위해서는 비실용적이다.

도 2는 단지 B 프레임들만이 트랜스코딩되는 예를 도시하고 있다. I 및 P 프레임들은 시스템을 통해 직접 라우팅된다. 도 2의 장치에서 사용되는 트랜스코딩 시스템이 도 3에 보다 상세하게 도시되어 있다. 도시된 바와 같이, 시스템은 가변 길이 디코딩, 역양자화(de-quantisation), 역변환(inverse transformation), 양자화(quantisation), 순변환(forward transformation) 및 가변 길이 인코딩을 순차적으로 필요로 하므로 복잡하다. 따라서 그 복잡성이 각별하다. 그러한 배열이 효과적이라 할지라도, 단지 B 프레임들만을 변환하고 I 및 P 프레임들을 손대지 않고 남겨두는 것은 대부분의 디지털 비디오에 대한 비트-레이트에 있어서 만족스러운 감소를 달성할 수 없게 된다. 더욱이, B 프레임들에 대해 수행되는 복잡한 순서의 단계들은 그러한 프로세스가 느리고 손실이 있는 역양자화가 출력 신호의 품질을 상당히 떨어뜨릴 수 있음을 의미한다.

도 4 및 5는 US-A-6,763,070에 개시된 것과 같은 장치 및 순서도를 도시한다. 여기에 도시된 시스템은 차단 지수(cut-off index)가 결정되고 그 차단 지수를 넘어서는 변환 계수들(transform coefficients)이 제거되는 트랜스레이팅 방식과 관련된다. 차단 지수는 입력 비트-레이트, 요구된 출력 비트-레이트 및 이전에 처리된 매크로블록들(macro blocks)로부터 획득된 레이트 제어 정보에 의해 결정된 다.

마지막으로, 종래 기술과 관련하여, US-A-6,937,770는 MPEG 코드화된 비디오의 레이트 감소를 위한 적응적 비트-레이트 제어를 위한 시스템 및 장치를 개시하고 있다. 그 시스템은 입력 스트림의 평균 프레임 사이즈(비트 수)와 출력의 원하는 프레임 사이즈 사이의 배율(scale factor)을 사용한다. 이러한 배율은 원하는 레이트 출력 스트림의 각 매크로블록에 대해 사용된 비트수를 계산하는데 사용된다. 배율은 원하는 레이트 출력을 생성하기 위해 동적으로 변화될 수 있다. 이 방식의 낮은 복잡성 및 빠른 적응성에도 불구하고, 이 방식은 프레임의 큰 움직임 영역들에서의 왜곡, 강한 블록킹 및 표류물들(drift artefcts)과 같은 문제들을 야기한다.

본 발명의 제 1 양태에 따르면, 각 프레임이 픽셀들의 블록들로 이루어지고, 픽셀들의 각 블록에 대한 입력 비트 스트림 내에 데이터의 대응되는 블록이 있는 비디오 프레임들을 나타내는 입력 비트 스트림으로 이루어진 비디오 신호를 변환하는 방법을 제공하며, 그 방법은 상기 비디오 신호의 프레임의 상기 비트 스트림에 대해 프레임의 타입을 식별하는 단계; 및 프레임의 소정 타입에 대해, 상기 프레임 내에 있는 복수의 블록들에 관해서는 데이터의 구성 비율을 무시하고, 그것에 의해 상기 프레임 내에서의 국소적인 움직임 활동(local motion activity)을 고려하는 단계를 포함한다.

바람직하게는, 데이터의 비율은 프레임 내의 모든 블록들에 관해서 무시된 다. 바람직하게 그 비율은 모든 블록들에 관해서 동일하다.

바람직하게는, 입력 비트 스트림은 비디오 신호 (예를 들어, MPEG 형식들 중의 하나와 같은 일정 형식에 따라 사전 압축된 비디오 신호)의 프레임들의 변환 계수들을 나타내며, 무시된 데이터는 프레임 내의 모든 블록에 대한 비-제로 변환 계수들의 비율이다.

이미지의 블록내 국소적 움직임 활동은 그 블록에 대한 코드화된 비-제로 변환 계수의 수에 의존한다. 따라서 기본 블록당(per block basis) 계수의 수를 고려함으로써, 국소적 움직임 활동이 트랜스레이팅 동작에 대해 고려되고 평가된다. 이것은 트랜스레이트된 비디오 신호의 프레임내 각 매크로-블록에 할당될 수 있는 비트의 수 또는 사이즈를 결정할 때 고려되는 단지 하나의 인수(factor)가 입력 비트-레이트와 원하는 출력 비트-레이트인 알려진 트랜스레이팅 동작과 대조된다. 고정된 수와 달리 계수들의 소정(some) 비율(임의 프레임내 모든 블록에 대해 실질적으로 동일한 것이 바람직하다)의 사용은, 블록내 움직임 활동이 평가되고, 움직임이 있는 블록들이 현저한 양의 가시성 저하(visual degradation)를 경험하지 않도록 보장한다.

더욱이, 이러한 방법은 참조 인터 또는 “P" 프레임의 트랜스레이팅을 허용한다. 본 방법을 사용하지 않는, P 프레임의 트랜스레이팅은 큰 움직임 장면에서 특히 표류 효과(drift effect)와 블록키니스(blockiness; 블록 경계에서의 왜곡)를 증가시킬 것이다. 본 방법에서, 이것은 입력 비트 스트림내 I 프레임을 변경하지 않은 채 남기고, 이 프레임들을 출력 비트 스트림에 직접 카피하여 움직임 벡터들 과 다른 파라미터들이 출력 비트 스트림에 직접 카피되도록 함으로써 회피된다. I 프레임에서 모든 데이터 손실은 관련된 P와 B 인터 프레임들에 직접 전파될 것이다. 출력 비트 스트림 내에서 원(original) I 프레임의 사용은 표류 효과를 상당히 줄일 것이다.

이 경우, 국소적 움직임 활동이 트랜스레이팅의 처리에 고려되므로, 프레임내 모든 블록에 관한 데이터의 구성 비율을 무시함으로써, 왜곡이 트랜스레이트된 비디오 스트림에서 덜 보이도록 균일한 시각성 저하 분포가 만들어지고, 강한 블록킹 및 표류물들이 화상 프레임의 높은 움직임 영역에서 회피된다. 블록은 프레임내 픽셀들의 소구역(subregion)이다. MPEG-2 압축의 예에서, 블록은 전형적으로 픽셀들의 8x8 그룹이다.

본 발명의 특징에 따르면, 본 발명은 비트 스트림으로 이루어진 비디오 신호를 트랜스레이팅하는 방법을 제공하며, 여기서, 상기 비트 스트림은 비디오의 프레임들을 나타내는 일련의 비-제로 변환 계수들에 상응하고, 프레임 각각은 픽셀들의 블록으로 이루어지고, 픽셀들의 블록 각각에 대하여 변환 계수들의 상응하는 블록이 있다. 이 방법은 비디오 신호 프레임의 비트 스트림에 대하여, 프레임의 타입을 식별하는 단계; 및 프레임의 타입에 따라서 그 프레임에 트랜스레이팅 동작을 수행하는 단계를 포함하며, 여기서, 프레임의 소정 타입에 대해, 프레임내 모든 블록에 관하여 변환 계수의 구성 비율이 무시됨으로써, 트랜스레이트된 출력 비트 스트림을 생성한다.

바람직하게는, 본 발명에 따른 방법은 프레임이 I 프레임, P 프레임 또는 B 프레임인지를 식별하는 단계; 및 I 프레임으로 식별되면, 그 프레임에 트랜스레이팅을 수행하지 않는 단계를 포함한다.

바람직하게는, 소정 변환 계수들은 출력 비트 스트림내 프레임의 각 블록에서 규정된 지점에 블록 종료(End of Block; EOB) 코드를 삽입함으로써 프레임으로부터 제거된다.

바람직하게는, 생성된 출력 비트 스트림은 I 프레임들내 블록들로부터 모든 비-제로 계수들, 및 P와 B 프레임들로부터 블록들의 유지된 계수들만을 포함한다.

본 발명의 다른 특징에 따르면, 본 발명은 비트 스트림으로 이루어진 비디오 신호를 트랜스레이팅하는 장치를 제공하며, 여기서, 상기 비트 스트림은 비디오의 프레임들에 대한 일련의 변환 계수들에 상응하고, 프레임 각각은 픽셀들의 블록으로 이루어진다. 이 장치는 디지털 비트 스트림 형태의 상기 인코딩된 비디오 신호를 수신하는 수신기; 프레임의 수신시에, 프레임의 타입을 식별하도록 배치된 판독기; 및 프레임의 상기 타입에 따라서, 그 프레임에 실시되는 동작을 변화시키는 제어기를 포함하고, 여기서, 프레임의 소정 타입에 대하여, 그 프레임내 모든 블록들에 관하여 변환 계수들의 구성 비율이 무시됨으로써 출력 비트 스트림이 생성된다.

본 발명의 다른 특징에 따르면, 본 발명은 비디오의 프레임들을 나타내는 입력 비트 스트림으로 이루어진 비디오 신호를 트랜스코딩하는 방법을 제공하며, 여기서, 프레임 각각은 픽셀들의 블록으로 이루어지고, 픽셀들의 블록 각각에 대하여 입력 비트 스트림내에 상응하는 데이터의 블록이 있다. 이 방법은 비디오 신호 프레임의 비트 스트림에 대하여, 프레임의 타입을 식별하는 단계; 및 프레임의 소정 타입들에 대하여, 프레임내 복수의 블록 또는 블록 각각에 관하여 블록을 나타내는데 필요한 데이터의 실제량에 상관없이 실질적으로 동일한 데이터의 비율을 무시함으로써 프레임내 국소적 움직임 활동을 고려하는 단계를 포함한다.

본 발명의 실시예들은 첨부 도면을 참조하여 예시적으로 설명된다.

본 발명에 따르면 종래 기술의 단점이 개선된 트랜스코딩 방법 및 장치가 제공된다.

다음의 설명은 트랜스코더의 하나의 특별한 예인 트랜스레이터에 관련된다.

도 8의 트랜스레이터는 비디오 데이터 X의 입력 비트 스트림을 수신하고, 비디오 데이터 Y의 트랜스레이트된 출력 비트 스트림을 생성하기 위해 배치된다. 트랜스레이터(2)는 수신된 각 프레임의 헤더를 디코딩하기 위해 배치된 헤더 디코더(4)를 갖는다. 블록 계수 카운터(6)는 데이터의 스트림(바람직하게는 인터 프레임들만의 데이터임)의 각 블록내 비-제로 변환 계수 N의 수를 카운트(count)하기 위해 제공된다. 물론, 입력 스트림 X내의 데이터 블록들은 수신된 비디오 신호의 프레임내 픽셀들(예를 들어, 8x8 또는 4x4)의 블록에 대응한다. 비-제로 계수 N의 수는 단지 프레임의 소정 타입들, 바람직하게는 인터 프레임(P 및 B 프레임 모두)에 대하여 결정된다.

트랜스레이터는 처리되는 프레임내 복수(바람직하게는 모두) 블록에 관하여 비-제로 변환 계수들의 소정, 구성 비율을 폐기하도록 배치된다. 블록에서 국소적 움직임 활동은 그 블록에 대한 비-제로 변환 계수들의 수 N에 관련된다. 따라서 시각성 저하의 균일한 분포가 프레임내 모든 블록에 대하여 만들어지고 움직임 순서의 일부인 블록들에 집중되지 않으므로, 국소적 움직임 활동이 고려된다. 계수의 고정된 수(소정 비율 또는 수학적 함수에 기초로 하여 유도된 값과 달리)가 블록을 정확히 나타내기 위해 실제 필요한 수와 상관없이 모든 블록에 대해 사용되면, 계수의 수가 큰 블록들에 대한 효과는 부적절하게 클 것이다. 국소적 움직임의 블록들은 계수들의 수가 크므로, 이 효과는 이들 블록들 주위에 시각성 저하를 집중시키게 될 것이다. 바람직하게는, 계수들의 동일 비율이 임의 프레임내 모든 블록에 관하여 무시된다.

아래에 설명되는 바와 같이, 이것은, 각 블록에 대해 N의 함수인 정수 M을 결정하고, 처음 M 비-제로 계수들을 유지하면서 나머지 N-M 비-제로 계수들을 폐기함으로써 성취되는 것이 바람직하다.

입력 스트림 X 내의 계수들의 블록들 사이에 전형적으로 제공되는 블록 종료 코드의 위치를 검출하기 위해 원 블록 종료 위치 검출기(8)가 제공된다.

닫힐 때, 입력 스트림 X로부터 출력 스트림 Y로 비트들을 직접 카피하도록 배치되는 스위치(10)가 제공된다. 스위치(10)가 열릴 때, 입력 스트림 X로부터 출력 스트림 Y로의 비트들의 직접 카피가 중지된다. 이 경우에, 스트림 카피 제어(12)를 거쳐 비트들의 스트림이 제공된다. 스트림 카피 제어(12)는 스위치(10)에 열기 또는 닫기 또는 "시작" 또는 "중지" 신호를 전송하기 위해 배치된다.

헤더 디코더(4)는 가변 길이 디코딩이 이루어질 수 있도록 블록으로부터 헤 더를 디코딩하기 위해 사용된다. EOB 위치 검출기(8)는 입력 스트림 X에서 원 EOB 코드의 비트 위치를 검출하고, 이 위치를 스트림 카피 제어(12)에 전달한다. 상기한 것처럼, 블록 계수 카운터(6)는 블록내 비-제로 계수들의 수 N을 카운트하고 결정된 수 N을 스트림 카피 제어(12)에 전달하도록 배치된다.

출력 비디오 스트림 Y로부터 스트림 카피 제어(12)로 피드백 신호(14)가 제공된다. 추가적으로, 소망하는 비트-레이트 신호(16)도 또한 스트림 카피 제어(12)에 제공된다. 따라서 프레임내 각 블록의 비-제로 계수의 수(N으로 표현됨), 화상 또는 프레임 타입(I, P, 또는 B), 다양한 스트림 파라미터들, 소망하는 비트-레이트, 달성된 출력 비트-레이트 및 입력 비트 스트림 X 내의 원 EOB 코드 위치를 포함하는 복수의 입력이 스트림 카피 제어(12)에 제공된다.

사용에 있어서, 예를 들어, P 또는 B 프레임과 같은 인터 프레임이 없으면, 스트림 카피 제어(12)는 입력 스트림 X로부터 출력 스트림 Y로의 모든 비트를 카피하기 위한 신호를 스위치(10)로 전송한다. 카피는 바이트 또는 단어 기반이 아니라 비트 단위를 기반으로 수행된다. 추가적으로, 움직임 정보와 함께 인터 프레임들의 시작 코드들과 헤더 정보가 스위치(10)에 의해 출력 비트 스트림 X로 모두 카피된다.

수신된 입력들에 기초하여, 스트림 카피 제어(12)는 출력 스트림에서 어디에 및 언제 EOB 코드가 삽입되어야만 하는지를 결정한다. EOB 코드의 삽입은 스위치(10)의 중지를 요구하는데, 즉, 실효적으로 스위치가 열려서 요구된 EOB 코드가 출력 스트림 Y로 삽입될 수 있어야 한다. EOB 위치 검출기(8)에 의해 입력 스트림 에서 원 EOB 코드가 탐색되지 않으면 입력 스트림으로부터 더 이상의 추가적인 비트들이 출력 스트림 Y로 카피되지 않는다. EOB 위치 검출기(8)에 의해 원 EOB가 검출되면, 스트림 카피 제어(12)는 다음 EOB 코드 삽입이 수행될 때까지 비트 카피 동작을 재개하도록 하는 신호를 스위치(10)에 전송한다. 이 과정은 프레임내 모든 블록이 처리될 때까지 계속된다.

따라서 입력 비디오 스트림이 재양자화되는 경우에 요구되는 재양자화 또는 가변 길이 디코딩, 역양자화, 역변환, 양자화, 순변환 및 가변 길이 인코딩을 위한 요구조건이 없음을 알 수 있다. 따라서 이 과정은 계산이 간단하다.

도 8의 장치는 분석 순서(parsing order)의 변환 계수들을 절단하는 개방 루프 아키텍처를 적용하고, 결과적으로 더 낮은 비트-레이트 비디오 스트림을 생산함으로써, 복잡성, 품질 및 적응 속도 사이의 훌륭한 절충안을 제공한다.

추가적으로, 도 8에 도시된 예는 블록 단위에 기반하여 국소적 움직임 활동을 고려함으로써, 예를 들어, 8x8 픽셀 블록들과 같은 프레임내 모든 블록에 시각성 저하를 균일하게 분배하는 고속이고, 덜 복잡한, 변환 도메인 트랜스레이터를 제공한다. 출력 스트림 Y로부터의 피드백 신호를 소망하는 비트-레이트 입력과 함께 이용함으로써 고속이고 단순한 동적 비트-레이트 적응이 가능하게 된다.

본 발명의 장치는 국소적 움직임 활동을 고려하고 임의 특정 프레임 내 모든 블록에 시각성 저하를 균등 분배함으로써 왜곡이 시각적으로 덜하도록 하고 프레임의 높은 움직임 영역에서 강한 블로킹 및 표류물들을 방지한다. 전환 레이트는 국소적 움직임 활동을 고려하면서 순시 비트-레이트 요구조건에 기초하여 동적으로 변경될 수 있다.

본 발명의 장치 및 방법은 특정 주파수 레벨 이상에서 변환 계수들이 이미지 품질은 거의 향상시키지 않으면서 인코딩을 위해 많은 비트를 요구한다는 사실을 이용한다. 이는 특히 움직임 보정 이후에 차분 블록만이 변환 인코딩되는 인터 프레임들에서 전형적이다. 움직임 보정에 따른 차이 블록은 일반적으로 인트라 프레임 내의 절대(absolute) 블록들 및 프레임내 블록들보다 적은 상관관계를 가진다. 더 적은 상관관계는 변환 계수의 전체적 중요성을 감소시키고 특히 고주파수 변환 계수의 중요성을 감소시킨다. 따라서 이러한 비트-소비적 계수들의 소거는 결과적인 이미지의 품질을 심각하게 해치지 않으면서, 비디오 스트림의 비트-레이트의 상당한 감소를 가져온다.

따라서 블록 적응 절단은 프레임의 타입에 기초하여, 예를 들어, 전형적으로 P 및 B 프레임과 같은 특정 프레임에만 적용되고, 이는 출력 비트 스트림이 입력 비트 스트림의 완전한 카피로 나타나는 위치 이전에, 대응하는 출력 비트 스트림에 EOB 코드 삽입함으로써 성취된다.

상기한 것처럼, 스트림 카피 제어(12)는 처음 M 비-제로 계수들(전체 N 중으로부터)을 나타내는 수 M을 생성함으로써 변환 계수들의 블록 적응 절단을 가능하게 한다. 처음 M 비-제로 계수들은 새로운 EOB 코드의 삽입 이전에 비트 단위의 순서에 따라 출력으로 스트림 카피된다. M은, N의 일부 또는 전부, 화상 타입, 화상에서의 블록 위치, 화상 그룹(Group Of Pictures: GOP)에서 화상의 위치, 출력 비트-레이트 및 다른 스트림 파라미터들을 포함하는 파라미터들의 함수이다. M이 N에 비례하고, 화상 타입 및 목표 비트-레이트의 함수이면, 표류 효과 및 블로킹 허상이 상당히 감소한다. 이하에서 설명될 것처럼, M과 N 사이의 어떠한 적당한 관계가 사용되어도 되고, 선형적일 필요는 없다. M이 N보다 크게 결정되면, 블록내 모든 변환 계수가 유지되고 어떤 변환 계수도 무시되지 않는다. 계산했을 때 M이 정수가 아니면, M을 위한 정수 값을 결정하기 위해 반올림을 수행한다.

상기한 것처럼, 인트라 프레임에 대하여 모든 데이터는 입력 비트 스트림으로부터 출력 스트림으로 직접 카피된다. 입력 스트림내 인터 프레임 변환 계수들을 제외한 모든 정보도 출력 비트 스트림으로 카피된다. 인터 프레임 변환 계수는 전체적으로 또는 부분적으로 출력 비트 스트림에 카피되어, 비디오를 위한 출력 비트 스트림의 비트-레이트가 입력 비트 스트림의 비트-레이트에 비하여 감소된다.

도 9는 도 8에 도시된 것과 같은 장치를 사용하여, 입력 스트림으로부터의 블록 및 출력 스트림의 부분으로 생성된 대응 블록을 나타내는 개략도이다. 도 9의 예는 이산 코사인 변환이 우선적으로 입력 비디오 스트림을 압축하기 위해 사용되었음을 가정한다. 그러한 압축은, 예를 들어, MPEG-2 압축에서 사용된다. 물론, 변환 계수를 생성하기 위해서 어떤 적당한 변환이 사용될 수 있고 실제로 다른 비디오 압축 알고리즘 및 기술에서는 다른 주파수 공간 변환이 사용된다.

입력 스트림으로부터의 블록(18)은 입력 스트림으로 표현되는 비디오 프레임 내 픽셀들의 블록에 대응하는 지그재그 스캔 순서로 취해진 양자화된 DCT 계수들에 대한 총 N개의 런렝스(Run Length) 코드들과 양자화된 이산 코사인 계수로 이루어져 있다. 알 수 있듯이, 총 N개의 비-제로 계수가 존재하며, 그 이후에는 비트 스 트림 내에 EOB 코드(20)가 제공된다.

출력 스트림으로부터의 블록(20)은 EOB 코드(24)가 뒤따르는 M 개의 성분(component)을 포함하고 있다. EOB 코드는 도 8의 장치 내에서 스트림 카피 컨트롤(12)에 의해 출력 비트 스트림에 삽입된다. 성분 C₁ 내지 C_M은 입력 비트 스트림으로부터의 블록(18)과 출력 비트 스트림으로부터의 블록(22) 양자에서 동일하다는 것을 알 수 있다. 따라서 입력 비트 스트림으로부터의 어떤 블록이라도 처음 M개의 비-제로 계수에 대한 처리가 요구되지 않는다. 나머지 N에서 M을 뺀 계수들은 간단히 폐기된다.

입력 스트림 내에서 계수들 C₁ 내지 C_N의 대응하는 블록에 대한 출력 비트 스트림내 계수들 C₁ 내지 C_M의 블록을 가정하면, 복잡한 처리도 없고 처리된 비디오에 심각한 왜곡을 일으키지 않으면서 국소적 움직임 활동을 고려할 때 비트-레이트의 감소가 달성된다.

M의 값은, 반드시 그런 것은 아니지만, N의 일정한 비율로 제한되어서 M이 N에 상수 α를 곱한 값과 같다. 따라서 M과 N 간의 관계는, 일예로, 다음과 같이 나타낼 수 있다.

M = α×N

여기서, α는 0과 1 사이의 수이며, 예컨대, α는 그 자체가 어떤 혹은 모든 화상 코딩 타입, 출력 비트-레이트 및 소망하는 출력 비트-레이트를 포함하는 다른 스트림 파라미터들의 함수일 수 있다. α는 출력 비트-레이트와 소망하는 비트-레 이트의 함수로서 블록 기반별로 변하기 때문에, 소망하는 비트-레이트에 대한 출력 비트-레이트의 동적 적응을 달성할 수 있다. 나아가, α의 순시 변화는 출력 비트-레이트를 안정화하고, 제어 가능하므로, 출력 비트-레이트는 항상 소망하는 비트-레이트 바로 아래에 있으며, 이로써 채널 대역폭 요구조건에 부합하게 된다. α가 변할 수 있는 정도는 상당히 작을 수 있으며, 이로써 모든 블록에 걸친 시각성 저하를 분배하는 유리함이 α의 블록들간 변동에 의해 상실되지 않는다.

프레임들에 있어서 변환 계수들의 블록 적응형 절단은 B 인터 프레임에 더하여 P 참조 프레임의 트랜스레이팅을 허용함으로써 낮은 비트-레이트와 낮은 표류물을 생성한다. 도 8에 나타낸 바와 같이 제안된 구조는 어떠한 양자화나 역양자화, 변환, 역변환, 움직임 벡터 탐색 또는 가변 길이 인코딩을 수행하지 않는다. 그것은 실제 단순히 헤더 디코딩, 비-제로 변환 계수 카운팅 및 EOB 코드 삽입만을 단지 수행하는 극히 복잡도가 낮은 구성이다. 계산상의 요구조건은 출력 품질, 비트-레이트 감소 및 달성되는 속도를 감안할 때 상대적으로 낮은 수준이다.

상술한 바와 같이, N과 M 간의 관계는 선형적일 필요가 없다. M=αN으로 정의된 관계를 가지는 경우, 입력과 출력 비트-레이트들간 선형적 관계가 보장되지 않는다. 주어진 블록에 대해, α가 크면 클수록 해당 블록에 대해 더 많은 비트가 소모된다는 점은 명백하다. 따라서 α는 필요한 출력 비트-레이트를 얻을 수 있도록 최소 평균 제곱(Least Mean Sqaure) 타입의 알고리즘을 이용하여 업데이트할 수 있다. 예를 들면 다음과 같다.

여기서, t는 업데이트 시간을 나타내며, b와 p는 B와 P 프레임에 대한 블록, 매크로블록, 슬라이스 또는 프레임 레벨에서의 목표 비트 소모량이며, b(α)와 p(α)는 α의 함수로서 결과적인 트렌스레이터 비트 소모량이고, μ(μ>0)는 안정적인 적응 알고리즘을 가지기에 충분히 작고 목표 비트-레이트에 시스템이 수렴하도록 할 정도로 충분히 크게 되도록 선택된 스텝 사이즈이다.

이 시스템에서, b와 p는 쉽게 오프라인으로 연산 가능하다.

본 발명은 그 상세한 실시타입을 참조하여 구체적으로 나타내고 설명하였으나, 당업자라면 개시된 실시형태의 타입나 세부사항에 대한 변경이 본 발명의 사상이나 범위를 벗어나지 않으면서도 이루어질 수 있다는 점을 이해할 수 있을 것이다. 예컨대, 상술한 실시형태는 펌웨어, 소프트웨어 혹은 하드웨어를 이용하여 구현할 수 있다. 또한, 본 발명의 실시형태는 다양한 통신 프로토콜과 함께 채택될 수 있으며, 상술한 것에 한정되어서는 안 된다. 예를 들어, 본 발명의 기술은 지상 통신선 네트워크와 무선 네트워크 간에 구현될 수 있다. 변환 계수 필터링은 다양한 데이터 포맷에 대하여 1차 혹은 2차 변환 계수에 적용될 수 있다. 따라서 본 발명의 범위는 첨부한 청구범위를 참조하여 결정되어야 한다.

도 10은 변수 M과 N 간에 가능한 관계의 예를 나타낸다. 도시한 예에서, 변수 M과 N은 P와 B 프레임에 대해 상이하다는 것을 이해할 수 있다. 도시한 예에서, 값 N₁이 될 때까지 (0, 0)과 (M₁, N₁)의 (M, N)에 대한 값 사이에서 선형 관계가 존 재한다. 이 N₁ 값을 넘어가면 α의 값은 감소하며, 그 관계는 여전히 선형적이지만 다음 식으로 가장 잘 정의할 수 있다.

M = αN + c

N₂와 N₃ 값을 넘어가면(P와 B 프레임 각각에 대해), M의 값은 일정하게 유지된다. 도 10의 예는 단지 M과 N 간에 어떠한 적절한 관계도 도출되어 사용 가능하다는 점을 나타내기 위함이다.

본 발명의 실시형태는 설명한 예를 특별히 참조하여 기술되어 있다. 그러나 본 발명의 범위 내에서 설명한 예에 대하여 변경 및 개조가 이루어질 수 있다는 점이 이해될 것이다.

도 1 내지 도 7은 공지의 트랜스레이터 구조 및 방법을 나타낸 개략 도면이다.

도 8은 트랜스레이터의 예를 도시하는 개략도이다.

도 9는 블록 적응 절단(block adaptive truncation)을 나타내는 개략도이다.

도 10은 트랜스코딩 방법의 실시예에서 사용된 파라미터 M과 N 사이의 가능한 관계를 나타낸 예이다.

Claims

비디오의 프레임들을 나타내는 입력 비트 스트림으로 구성된 비디오 신호를 트랜스코딩(transcoding)하여 출력 비트 스트림을 출력하는 방법으로서, 상기 프레임 각각은 픽셀 블록으로 구성되고, 픽셀 블록 각각에 대하여 상기 입력 비트 스트림내에 대응하는 데이터 블록이 존재하는 상기 방법에 있어서,

한 프레임의 상기 입력 비트 스트림에 대하여, 프레임 타입을 식별하는 단계; 및

소정 타입의 프레임에 대하여, 각 데이터 블록 내의 비-제로 변환 계수의 수 N을 판단하고, 상기 프레임내 복수의 데이터 블록 내에서 동등한 비율(proportion)의 상기 비-제로 변환 계수를 무시함(disregard)으로써 상기 프레임내 국소적 움직임 활동(local motion activity)을 고려하는 단계를 포함하는 트랜스코딩 방법.
청구항1에 있어서, 임의 프레임의 모든 블록에 관하여 상기 비율의 데이터가 무시되는 트랜스코딩 방법.
삭제
청구항1에 있어서, 상기 프레임이 I 프레임, P 프레임 또는 B 프레임인지 여부를 식별하는 단계, 및 만일 I 프레임으로 식별되면 그 프레임에 대하여 트랜스레이팅(transrating) 동작을 수행하지 않는 단계를 포함하는 트랜스코딩 방법.
청구항4에 있어서, 상기 프레임이 P 프레임 또는 B 프레임이면, 상기 프레임내 모든 블록에 대한 소정의 고 주파수 변환 계수(high frequency transform coefficient)를 제거하여 상기 프레임을 필터링하는 단계를 포함하는 트랜스코딩 방법.
청구항5에 있어서, 상기 소정 변환 계수들은 상기 출력 비트 스트림내 상기 프레임의 각 블록내 정의된 위치에 블록 종료 코드(End of Block code)를 삽입함으로써 상기 프레임으로부터 제거되는 트랜스코딩 방법.
청구항6에 있어서, 상기 출력 비트 스트림내 블록 종료 코드가 제공된 위치는 트랜스레이트된 비디오 신호의 비트-레이트를 제어하기 위하여 변경되는 트랜스코딩 방법.
청구항4 내지 청구항7 중 어느 한 항에 있어서, 비-제로 변환 계수들의 상기 비율은 α인자의 변경으로 결정되며, 여기서, 트랜스레이트된 비디오 스트림의 블록에는 M 개의 비-제로 변환 계수들이 있고, M = αN인 트랜스코딩 방법.
청구항8에 있어서, α는 실시간으로 변경되어 상기 출력 비트 스트림의 비트-레이트를 동적(dynamically)으로 제어하는 트랜스코딩 방법.
청구항4 내지 청구항7 중 어느 한 항에 있어서, 상기 출력 비트 스트림은 I 프레임들내 블록들로부터의 모든 계수, 및 P와 B 프레임들로부터 블록들의 오직 유지된(retained) 계수들을 포함하는 트랜스코딩 방법.
청구항4 내지 청구항7 중 어느 한 항에 있어서, 수신된 비트 스트림을 출력 비트 스트림으로 직접 스위칭하는 제1 구성과, 상기 입력 비트 스트림의 트랜스코딩된 비트 스트림을 상기 출력 비트 스트림으로 스위칭하는 제2 구성으로 배열된 스위치를 제공하는 단계를 포함하는 트랜스코딩 방법.
청구항11에 있어서, 상기 스위치는, N, 소망하는 출력 비트-레이트, 프레임의 타입, 화상내 블록 위치, 화상 그룹(GOP)내 화상 위치, 및 출력 비트-레이트 중 하나 이상에 따라서 제어되는 트랜스코딩 방법.
청구항8에 있어서, M과 N은 비선형 관계인 트랜스코딩 방법.
청구항13에 있어서, α 값은 최소 평균 자승법(least mean squares method)을 사용하여 갱신되는 트랜스코딩 방법.
청구항14에 있어서, M과 N의 관계는 M = αN으로 정의되고, 여기서, α는 다음 식들에 의해 정의되며,

상기 식에서, t는 갱신 시간을 나타내고,

b와 p는 각각 B와 P 프레임에 대한 블록, 매크로블록, 슬라이스 또는 프레임 레벨에서의 목표 비트 소모량(target bit consumption)이며,

b(α)와 p(α)는 α의 함수로서의 결과적 트랜스레이터(transrator) 비트 소모(resultant transrator bit consumption)이며,

α_B(t)는 B 프레임에 대한 갱신 시간 t에서의 α값을 나타내며,

α_p(t)는 P 프레임에 대한 갱신 시간 t에서의 α값을 나타내며,

μ(μ>0)는 안정적 적응 알고리즘을 가질 수 있을 만큼 충분히 작고, 또한 상기 목표 비트-레이트로의 수렴을 보장할 수 있을 만큼 충분히 크게 선택된 스텝 사이즈(step size)인 트랜스코딩 방법.
청구항1 내지 청구항2 및 청구항4 내지 청구항7 중 어느 한 항에 있어서, 상기 입력 비트 스트림은 인코딩된 MPEG-2 비디오 신호인 트랜스코딩 방법.
청구항1 내지 청구항2 및 청구항4 내지 청구항7 중 어느 한 항에 있어서, 상기 입력 비트 스트림은 원 이미지 파일의 이산 코사인 변환(discrete cosine transform)의 형태인 트랜스코딩 방법.
비디오의 프레임들에 대응하는 입력 비트 스트림으로 구성된 인코딩된 비디오 신호를 트랜스코딩하여 출력 비트 스트림을 출력하는 장치로서, 상기 프레임 각각은 픽셀들의 블록들로 구성되고, 픽셀 블록 각각에 대하여 상기 입력 비트 스트림내에 대응하는 데이터 블록이 존재하는 상기 장치에 있어서,

디지털 비트 스트림 형태의 상기 인코딩된 비디오 신호를 수신하는 수신기;

프레임의 수신시에, 프레임의 타입을 식별하도록 배치된 판독기;

소정 타입의 프레임에 대하여, 각 데이터 블록 내의 비-제로 변환 계수의 수 N을 판단하도록 배치된 카운터; 및

상기 소정 타입의 프레임에 대하여, 복수의 데이터 블록 내에서 동등한 비율의 상기 비-제로 변환 계수를 무시함으로써 상기 프레임내 국소적 움직임 활동를 고려하도록 배치된 제어기;

를 포함하는 트랜스코딩 장치.
청구항18에 있어서, 상기 제어기는 상기 프레임내 모든 블록에 관하여 상기 비율의 데이터가 무시하도록 배치되는 트랜스코딩 장치.
청구항18 또는 청구항19에 있어서, 상기 입력 비트 스트림내에서 블록 종료 위치를 검출하기 위한 블록 종료 위치 검출기를 포함하는 트랜스코딩 장치.
청구항18 또는 청구항19에 있어서, 상기 입력 비트 스트림을 상기 출력 비트 스트림으로 직접 카피(copy)하는 제1 구성과, 소정 비율의 비-제로 변환 계수가 무시된 프레임들을 상기 출력 비트 스트림으로 카피하는 제2 구성으로 배열된 스위치를 포함하는 트랜스코딩 장치.
청구항21에 있어서, 상기 카운터는 비-제로 계수들의 수 N을 상기 스위치를 제어하도록 배열된 상기 제어기로 제공하고, 상기 수 N은 상기 블록내 움직임 활동에 의존하는 트랜스코딩 장치.
청구항22에 있어서, 상기 제어기는 상기 출력 비트 스트림내 블록에 포함될 계수들의 수 M을 결정하도록 배열된 트랜스코딩 장치.
청구항23에 있어서, 상기 제어기는 소망하는 출력 비트-레이트, 실제 출력 비트-레이트, 프레임의 타입 및 수신 블록내 비-제로 계수들의 수 N 중 하나 이상을 포함하는 다양한 파라미터들에 따라서 상기 수 M을 결정하도록 구성되는 트랜스코딩 장치.
청구항23에 있어서, 상기 제어기는 계수들의 블록이 M 계수들만을 포함하도록, 상기 출력 비트 스트림내에서 상기 블록내의 위치에 블록 종료 코드를 삽입하도록 배열되는 트랜스코딩 장치.
청구항25에 있어서, M과 N의 관계는 M = αN의 선형 관계이며, α는 상수인 트랜스코딩 장치.
청구항25에 있어서, M과 N의 관계는 M = αN으로 정의되고, 여기서, α는 다음 식들에 의해 정의되며,

상기 식에서, t는 갱신 시간을 나타내고,

b와 p는 각각 B와 P 프레임에 대한 블록, 매크로블록, 슬라이스 또는 프레임 레벨에서의 목표 비트 소모량이며,

b(α)와 p(α)는 α의 함수로서의 결과적 트랜스레이터 비트 소모이며,

α_B(t)는 B 프레임에 대한 갱신 시간 t에서의 α값을 나타내며,

α_p(t)는 P 프레임에 대한 갱신 시간 t에서의 α값을 나타내며,

μ(μ>0)는 안정적 적응 알고리즘을 가질 수 있을 만큼 충분히 작고, 또한 목표 비트-레이트로의 수렴을 보장할 수 있을 만큼 충분히 크게 선택된 스텝 사이즈인 트랜스코딩 장치.
청구항18 또는 청구항 19에 따른 인코딩된 비디오 신호를 트랜스코딩하는 장치를 포함하는 비디오 재생 장치.