KR100950720B1

KR100950720B1 - 규모가변성 비디오 부호화에서 부호화 의존성 지시

Info

Publication number: KR100950720B1
Application number: KR1020087000623A
Authority: KR
Inventors: 예쿠에이 왕; 일리앙 바오
Original assignee: 노키아 코포레이션
Priority date: 2005-07-13
Filing date: 2006-07-05
Publication date: 2010-03-31
Also published as: EP1902585A4; BRPI0614204A2; JP2008544615A; TW200715868A; EP1902585A1; KR20080027338A; CN101213841A; US20070014346A1; MY141344A; EP1902585B1; CN104661025A; MX2008000569A; WO2007006855A1

Abstract

기본계층 및 적어도 하나의 향상계층을 포함하는 규모가변성 비디오 데이터 스트림을 부호화하고 복호화하는 방법이다. 적어도 하나의 비 요구 화상을 계층의 시간적 위치에 포함하는 규모가변성 데이터 스트림이 부호화되며, 복호화 순서에서 상기 시간적 위치에서 상위 계층에 있는 및 상기 시간적 위치에 후속하는 화상들의 복호화는 상기 비 요구 화상을 요구하지 않고, 적어도 하나의 비 요구 화상의 정보는 규모가변성 비디오 데이터 스트림으로 시그널링된다. 복호화 단계에서, 시그널링된 정보는 복호화되고, 복호화 순서에서 상기 시간적 위치의 비 요구 화상 위쪽에 있는 계층의 및 상기 시간적 위치에 후속하는 화상들은 상기 비 요구 화상을 복호화하는 일 없이 복호화된다.

Description

규모가변성 비디오 부호화에서 부호화 의존성 지시{Coding dependency indication in scalable video coding}

본 발명은 규모가변성 비디오 부호화에 관한 것이고, 더 상세하게는 규모가변성 비디오 부호화에서 부호화 의존성들을 지시(indication)하는 것에 관한 것이다.

얼마간의 비디오 부호화 시스템들은 비디오 시퀀스의 일부 요소들 또는 요소 그룹들이 비디오 시퀀스의 다른 부분들의 복원에 영향을 미치지 않고 제거될 수 있는 규모가변성 부호화를 사용한다. 규모가변성 비디오 부호화는 광범위한 처리 파워를 가지는 복호기들을 채용한 시스템에서 사용되는 많은 멀티미디어 애플리케이션들 및 서비스들 을 위한 바람직한 특징이다. 규모가변성 비트 스트림들은, 예를 들면, 스트리밍 서버의 미리 부호화된 유니캐스트 스트림들의 속도 적응을 위해 그리고 다른 능력들을 가지는 단말들에 및/또는 다른 네트워크 상태에서 단일 비트 스트림의 전송을 위해 사용될 수 있다.

규모가변성(scalability)은 전형적으로는 영상 프레임들을 다수의 계층적인 층들로 그룹화하는 것에 의해 이행된다. 기본계층의 영상 프레임들로 부호화된 영상 프레임들은 실질적으로는 수신 단에서 비디오 정보의 복호화를 위해 강제되는 것들만을 포함한다. 하나 이상의 향상계층은 기본계층 위쪽에서 결정될 수 있고, 그 향상계층들 중의 각각의 향상계층은 하위 계층과 비교해 볼 때 복호화된 비디오의 품질을 개선한다. 그러나, 의미 있는 복호화된 표현은 규모가변성 비트 스트림의 단지 어떤 부분들만을 복호화하는 것에 의해 생성될 수 있다.

향상계층은 시간적 해상도(즉 프레임율), 공간적 해상도, 또는 품질을 향상시킬 수 있다. 일부의 경우들에서, 향상계층의 데이터는 어떤 위치 뒤에서, 비록 임의의 위치들일지라도, 잘라버림(truncation)될 수 있고, 그것에 의해 얼마간의 부가 데이터가 있는 각각의 잘라버림 위치는 점점 더 향상된 시각적 품질을 나타낸다. 그런 규모가변성은 미세 입자형(입도) 규모가변성(FGS)라고 불린다. FGS와 대조적으로, 미세 입자형 규모가변성을 제공하고 있지 않은 품질 향상계층에 의해 제공된 규모가변성은 굵은 입자형 규모가변성(CGS)이라고 불린다.

규모가변성 비디오 부호화의 분야에서 현재 개발 프로젝트들 중의 하나는 규모가변성 비디오 부호화(SVC) 표준인데, 그것은 나중에 ITU-T H.264 비디오 부호화 표준(또한 ISO/I EC MPEG-4 AVC로서 알려져 있음)에 대한 규모가변성 확장이 될 것이다. SVC 표준 초안에 따르면, 공간 또는 CGS 향상계층의 부호화된 화상은 층간 예측 기반의 지시를 포함한다. 층간 예측(inter-layer prediction)은 다음 3가지 매개변수 들 중의 하나 이상의 예측을 포함한다: 부호화 모드, 움직임 정보 및 샘플 잔여. 층간 예측의 사용은 향상계층들의 부호화 효율을 현저하게 개선할 수 있다. 층간 예측은 항상 하위 계층들로부터 나온다. 즉 더 높은 계층은 하위 계층의 복호화 시에 결코 필요하지 않다.

규모가변성 비디오 비트스트림에서, 향상계층 화상을 위해, 무슨 하위 계층이든지 그 하위 계층으로부터의 화상이 층간 예측을 위해 선택될 수 있다. 따라서, 만일 비디오 스트림이 다수의 규모가변성 계층들을 구비하면, 그것은 전체 상위 계층의 복호화와 재생에서 필요하지 않은 중간 계층들의 화상들을 포함할 수 있다. 그런 화상들은 '비 요구 화상'(전체 상위 계층의 복호화에 대해)이라고 말할 수 있다.

그러나, 종래기술의 규모가변성 비디오 방법들은 비 요구 화상들의 복호화 전에 그런 의존성을 지시할 어떤 수단도 없다는 심각한 불리함을 가진다. 결과적으로, 복호기는 비 요구 화상들을 복호화해야만 하고, 그것은 계산상의 부하의 견지에서 낭비적이고, 상응하는 복호화된 화상들을 버퍼링해야만 하고, 그것은 메모리 소모의 견지에서 낭비적이다. 대신에, 만일 특정 시간적 위치의 비 요구 화상이 비 참조 화상이라면, 복호기는 그 시간적 위치의 화상의 도착을 재생을 위해 소망된 규모가변성 계층에서 기다릴 수 있고 그 다음 의존성 정보를 파싱할 수 있다. 그러나, 이것은 단 간(end-to-end) 지연을 증대시키는 원인이 되는데, 그것은 실시간 시각적 애플리케이션에 대해 허용될 수 없다.

지금 개선된 방법과 이 방법을 구현한 기술적 장치가 창안되는데, 그것들에 의해 비 요구 화상들은 그것들의 복호화 전에 복호기에 지시될 수 있다. 본 발명의 각종 양태들은 부호화 및 복호화 방법들, 부호기, 복호기, 비디오 부호화 기기, 비디오 복호화 기기, 부호화 및 복호화를 수행하기 위한 컴퓨터 프로그램, 그리고 데이터 구조를 포함하는데, 그 양태들은 아래에 규정된 것이 특징이다. 본 발명의 각종 실시예들이 개시되어 있다.

제1양태에 따르면, 본 발명에 따른 방법은 기본계층 및 적어도 하나의 향상계층을 포함하는 규모가변성 비디오 데이터 스트림을 부호화하는 아이디어에 기초하며, 규모가변성 데이터 스트림은 적어도 하나의 비 요구 화상을 계층의 시간적 위치에 포함하며, 복호화 순서에서 상기 시간적 위치에서 상위 계층에 있는 및 상기 시간적 위치에 후속하는 화상들의 복호화는 상기 비 요구 화상을 요구하지 않고, 적어도 하나의 비 요구 화상의 정보는 규모가변성 비디오 데이터 스트림으로 시그널링된다.

실시예에 따르면, 하나 이상의 향상계층은 하나 이상의 공간적, 품질, 또는 미세 입도 규모가변성(FGS) 향상계층을 포함한다.

실시예에 따르면, 상기 시그널링하는 동작은 상기 규모가변성 데이터 스트림의 부분 내에서 수행된다.

실시예에 따르면, 상기 시그널링하는 동작은 보충 향상 정보(SEI)메시지로 수행된다.

제2양태에 따르면, 기본계층 및 적어도 하나의 향상계층을 포함하는 규모가변성 비디오 데이터 스트림을 복호화하는 방법이 제공되며, 이 방법은 규모가변성 데이터 스트림으로 수신된 시그널링 정보를 복호화하는 동작으로서, 상기 시그널링 정보는 계층의 시간적 위치에 적어도 하나의 비 요구 화상에 관한 정보를 포함하는, 동작; 및 복호화 순서에서 상기 시간적 위치의 비 요구 화상 위쪽에 있는 계층의 및 상기 시간적 위치에 후속하는 화상들을 상기 비 요구 화상을 복호화하는 일 없이 복호화하는 동작을 포함한다.

본 발명에 따른 구성은 상당한 이점을 제공한다. 비 요구 화상들의 지시 정보는 규모가변성 비디오 스트림에 관련하여 시그널링되는 것이며, 복호화에 앞서 비 요구 화상들을 복호기가 결정할 수 있게 함으로써, 비 요구 화상들의 어떠한 불필요한 복호화 및 버퍼링도 피해진다. 이것은 복호화 처리의 계산상의 부하 및 메모리 소모를 감소시킨다. 더욱이, 본 발명에 따른 구성은 최소의 단 간 지연의 유지보수를 가능하게 한다.

본 발명의 추가의 양태들은 위의 방법들의 단계들을 수행하도록 구성되는 각종 장치들을 포함한다.

다음에, 발명의 각종 실시예들이 첨부 도면에 관해서 더 상세하게 기술될 것인데, 도면들 중에서

도 1은 H.264 디자인의 개념적 구조를 보이며;

도 2는 규모가변성 비디오 스트림의 부호화 의존성 계층구조의 예를 보이며;

도 3은 규모가변성 비디오 스트림의 부호화 의존성 계층구조의 다른 예를 보이며;

도 4는 FGS 층들이 포함된 규모가변성 비디오 스트림의 부호화 의존성 계층구조의 예를 보이며;

도 5는 도 4의 의존성 계층구조의 변동으로서 규모가변성 비디오 스트림의 부호화 의존성 계층구조의 예를 보이며;

도 6은 규모가변성 비디오 스트림의 부호화 의존성 계층구조의 또 다른 예를 보이며;

도 7은 실시예에 따른 부호화 기기를 간략화된 블록도로 보이며;

도 8은 실시예에 따른 복호화 기기를 간략화된 블록도로 보이며;

도 9는 바람직한 실시예에 따른 이동 통신 기기의 블록도를 보이며; 그리고

도 10은 본 발명이 적용 가능한 비디오 통신 시스템을 보인다.

본 발명은 규모가변성 비디오 부호화를 이용하는 모든 비디오 부호화 방법들에 적용 가능하다. 비디오 부호화 표준들은 ITU-T H.261, ISO/IEC MPEG-1 비주얼, ITU-T H.262 또는 ISO/IEC MPEG-2 비주얼, ITU-T H.263, ISO/IEC MPEG-4 비주얼 및 ITU-T H.264(ISO/IEC MPEG-4 AVC로도 알려짐)를 포함한다. 부가하여, 새로운 비디오 부호화 표준들을 향해 행해지는 노력들이 있다. 하나는 규모가변성 비디오 부호화(SVC) 표준의 개발인데, 그것은 H.264/AVC에 대한 규모가변성 확장이 될 것이다. SVC 표준은 JVT, ITU-T VCEG 및 ISO/IEC MPEG에 의해 형성된 조인트 비디오 팀인 JVT 하에서 현재 개발되어 있다. 두 번째 노력은 중국 오디오 비주얼 부호화 표준 워크 그룹(AVS)에 의해 편성된 중국 비디오 부호화 표준들의 개발이다.

다음은 H.264 비디오 부호화를 한 예로서 사용하고 있는 본 발명의 전형적인 예이다. H.264 부호화가 본 발명과 그것의 바람직한 실시예들을 이해하는데 만족스럽다고 생각되는 상세한 수준으로 설명될 것이다. H.264의 구현의 더 상세한 설명 을 위해, H.264 표준에 대해 참조될 것인데, 그것의 최근 사양서는 2005년 1월 중국 홍콩의 14차 JVT 미팅의 JVT-N050d1, "Draft of Version 4 of H.264/AVC"이다.

도 1에 따르면, H.264/AVC는 2개의 다른 개념적 계층들인 비디오 부호화 계층(VCL)과 네트워크 추상 계층(NAL) 사이를 구별한다. VCL과 NAL 둘 다는 H.264/AVC 표준의 부분이다. VCL은 부호화된 비디오 신호를 위한 효율적인 표현을 지정한다. H.264/AVC의 NAL은 비디오 코덱 자체와 외부 세계 사이의 인터페이스를 정의한다. 그것은 NAL 단위로 작동하는데, NAL 단위들은 대부분의 기존 네트워크들의 패킷 기반 접근법에 대해 지원한다. NAL 복호기 인터페이스에서, NAL 단위들이 복호화 순서로 전달되고 정확하게 수신된 패킷들이 소실되거나 또는 만일 페이로드가 비트 에러들을 담고 있다면 NAL 단위 헤더의 에러 플래그가 올라간다고 가정된다. 후자의 특징은 플래그가 다른 목적들을 위해 사용될 수 있으므로 표준의 부분이 아니다. 그러나, 그것은 전체 네트워크를 통하여 오류 지시(indication)를 신호하는 방법을 제공한다. 부가적으로, 책임 있는 표준화 단체들에 의해 지정될 다른 전송 프로토콜에 대하여 인터페이스 사양들이 필요하다. 다른 전송 시스템들, 이를테면 H.320, MPEG-2 시스템들, 및 RTP/IP을 위해 NAL 단위들의 정확한 전송 및 캡슐화는 H.264/AVC 표준화의 범위 밖이다. NAL 복호기 인터페이스는 표준에서 기준에 따라서 정의되는 반면, VCL 및 NAL 사이의 인터페이스는 개념적이고 VCL 및 NAL의 태스크들을 기술하고 분리함에 있어서 도움이 된다.

H.264/AVC에 대한 규모가변성 확장(SVC)의 규격 초안은 다중 규모가변성 계층들의 부호화를 현재 사용 가능하게 한다. 최신 초안은 2005년, 남한, 부산의 15 차 JVT 미팅 "Scalable video coding - working draft 2"의 JVT-O202 부속서 S에서 기술된다. 다중 규모가변성 계층들의 이 부호화에서, 비트스트림으로 시그널링되는 변수 dependency_id는 다른 규모가변성 계층들의 부호화 의존성들을 지시하기 위해 사용된다.

규모가변성 비트 스트림은 적어도 2개의 규모가변성 계층들인 기본계층 및 하나 이상의 향상계층을 포함한다. 만일 하나의 규모가변성 비트 스트림이 복수 개의 규모가변성 계층을 포함하면, 그것은 복호화와 재생을 위해 동일한 수의 대체물들을 가진다. 각각의 계층은 복호화 대체물이다. 계층 0인 기본계층은 제1 복호화 대체물이다. 계층 1인 제1향상계층은 제2 복호화 대체물이며 등등과 같이 된다. 이 패턴은 후속하는 계층들로 계속한다. 전형적으로, 하위 계층은 더 높은 계층들에 포함된다. 예를 들면, 계층 0은 계층 1에 포함되고, 계층 1은 계층 2에 포함된다.

하위 계층의 화상이 전체 상위 계층의 복호화 및 재생에서 반드시 필요하지 않을 수 있다. 그런 화상들은 '비 요구 화상들'(전체 상위 계층의 복호화를 위해)이라고 불린다.

SVC 부호화뿐 아니라 다른 규모가변성 비디오 부호화 방법들의 중요한 단점은, 비 요구 화상들이 복호화되기 전에 비 요구 화상들을 복호화기에 지시(indication)할 수단이 없다는 것이다. 비 요구 화상들의 복호화는 불필요한 계산상의 부하를 야기하고 비 요구 복호화 화상들을 버퍼링하는 것은 메모리 공간을 무익하게 예약해 둔다. 비트 스트림으로 시그널링되는 dependency_id란 변수는 다른 규모가변성 계층들의 부호화 의존성들을 지시하기 위해 사용될 뿐이고 비 요구 화상들의 부호화 의존성들을 지시하기 위해 사용되지는 않는다. 복호기가 특정 시간적 위치에서 및 재생을 위해 선택되는 규모가변성 계층에서 화상의 도착을 기다리고 그 다음 dependency_id 변수가 파싱되고 복호화되고 난 후 복호기는 dependency_id 변수에 포함된 의존성 정보를 얻는 그런 상황에서, dependency_id 변수는 비 요구 화상을 결정하는 데에만 이용될 수 있다. 그러나, 이것은 실시간의 낮은 대기시간의 비디오 애플리케이션들, 이를테면 비디오 전화 또는 비디오 회의를 위해 용인될 수 없는 상당한 단 간 지연을 초래한다.

지금 본 발명의 양태에 따르면, 적어도 2개의 계층을 포함하는 규모가변성 비디오 스트림이 형성되고, 그것에 의하여 비 요구 화상들이 적어도 하나의 계층의 복호화에 필요하지 않다는 지시가 만들어진다. 비 요구 화상들의 지시 정보는 비 요구 화상들의 복호화 전에 비 요구 화상들을 결정할 수 있고 그래서 비 요구 화상들의 복호화 및 버퍼링이 회피될 수 있도록 규모가변성 비디오 스트림에 관련하여 시그널링된다.

비 요구 화상들의 지시 정보는 규모가변성 비디오 스트림의 비트 스트림으로 시그널링될 수 있다. H.264/AVC 표준은 복호화를 돕고 비디오 시퀀스의 디스플레이하기 위해 보충 향상 정보(SEI)라고 불리는 시그널링 메커니즘을 포함한다. SEI 메시지들은 비디오 데이터 콘텐츠에 동기하여 전송된다. 복수 개의 SEI 메시지들이 H.264/AVC 표준인 JVT-N050d1, "Draft of Version 4 of H.264/AVC"의 부속서 D에서 정의된다.

바람직한 실시예에 따르면, 비 요구 화상 정보의 지시는, 새로운 필드들이 비 요구 화상 정보의 지시를 위해 정의된 새로운 SEI 메시지를 이용하여 전송된다.

바람직한 실시예에 따르면, 비 요구 화상들의 정보는 다음 구문과 의미론에 따르는 SEI 메시지로 전달된다:

이 SEI 메시지로 전달된 정보는 액세스 단위에 관계하는데, 액세스 단위는 동일한 시간적 위치의 모든 규모가변성 계층들의 부호화된 슬라이스들 및 부호화되고 슬라이스된 데이터 구획(partition)들을 포함한다. 존재할 때, 이 SEI 메시지는 상응하는 액세스 단위의 어떤 부호화된 슬라이스 NAL 단위 또는 부호화된 슬라이스 데이터 구획 NAL 단위에 앞서 부호화될 것이다. 이 SEI 메시지의 의미론은 다음과 같다:

num _ info _ entries _ minus1 더하기 1은 다음 정보 엔트리들의 수를 나타낸다.

entry _ dependency _ id [ i ] 는 비 요구 화상들의 정보가 다음 구문 요소들에 의해 기술되는 타깃 화상의 dependency_id 값을 나타낸다. 타깃 화상의 quality_level 값은 항상 영(제로)이다. 이것은 영(0)보다 큰 quality_level을 가 지는 화상이 인터 예측 참조 정보가 항상 고정된 FGS 화상이라는 사실 때문이다. 그러므로, 비 요구 화상들의 정보는, FGS 화상과 동일한 dependency_id 값을 가지고 quality_level이 0인 화상과 동일하다. 타깃 화상의 비 요구 화상은, 부호화된 비디오 시퀀스에 있고 타깃 화상과 동일한 dependency_id 값 및 quality_level 값을 가지는 어떤 다른 화상의 복호화에도 요구되지 않는다.

num _ non _ required _ pics _ minus1 [ i ] 더하기 1은 entry_dependency_id[ i ]와 동일한 dependency_id 값 및 0과 동일한 quality_level 값을 가지는 타깃 화상을 위해 명시적으로 시그널링되는 비 요구 화상들의 수를 나타낸다. 명시적으로 시그널링되는 비 요구 화상들 외에, 아래에서 명시되는 바와 같은 부가적인 비 요구 화상들이 있을 수도 있다.

non _ required _ pic _ dependency _ id [ i ][ j ] 는 entry_dependency_id[ i ]와 동일한 dependency_id 값 및 0과 동일한 quality_level 값을 가지는 타깃 화상을 위해 명시적으로 시그널링되는 j번째 비 요구 화상의 dependency_id 값을 나타낸다.

non _ required _ pic _ quality _ level [ i ][ j ] 는 entry_dependency_id[ i ]와 동일한 dependency_id 값 및 0과 동일한 quality_level 값을 가지는 타깃 화상을 위해 명시적으로 시그널링되는 j번째 비 요구 화상의 quality_level 값을 나타낸다. 부가하여, non_required_pic_dependency_id[ i ]와 동일한 dependency_id 및 non_required_pic_quality_level[ i ][ j ]보다 큰 quality_level을 가지는 그런 화상들 또한 동일한 타깃 화상을 위한 비 요구 화상들이다.

위의 SEI 메시지 및 의미론의 구현은 다음 예들로 더 예시된다. 우선 비디오 스트림이 3개의 계층인 base_layer_0, CGS_layer_1, 및 spatial_layer_2를 포함하고 그것들은 동일한 프레임율를 가진다고 가정한다. 층간 예측 의존성 계층구조가 도 2에서 보이는데, 이 도면에서 지적된(pointed-to) 객체는 층간 예측 참조를 위해 지적하는(point-from) 객체를 이용한다는 것을 화살표가 나타내고, 도면에서 각 계층의 우측에 있는 값들의 쌍은 dependency_id 및 quality_level의 값들을 나타낸다. 이 예에서, CGS_layer_1 상의 화상은 층간 예측을 위해 base_layer_0을 사용한다. 더욱이, spatial_layer_2의 화상은 층간 예측을 위해 base_layer_0(즉 그것 옆의 CGS_layer_1이 아님)를 사용한다. 따라서, CGS_layer_1 화상(dependency_id=1, quality_level=0)은 spatial_layer_2 화상을 복호화하는 것에 관하여 비 요구 화상이다.

그 다음, 보이고 있는 CGS_layer_1 화상이, 복호화 순서에서, 보이고 있는 spatial_layer_2 화상에 후속하는 spatial_layer_2 화상들 중의 어느 하나의 복호화에 필요하지 않다고 가정하면, 위의 SEI 구문과 의미론에 따르면, 도 2의 예에 대해 시그널링된 값들은 다음과 같을 것이다:

num_info_entries_minus1 = 0

{

entry _dependency_id[ 0 ] = 2

num_non_required_pics_minus1[ 0 ] = 0

{

non_required_pic_dependency_id[ 0 ][ 0 ] = 1

non_required_pic_quality_level[ 0 ][ 0 ] = 0

}

게다가, 도 3의 의존성 계층구조에서 보인 바와 같이, spatial_layer_2의 화상이 층간 예측을 위해 base_layer_0을 사용하는 것이 가능하지만, 동일한 시간적 위치에서 CGS_layer_1의 화상은 어떤 층간 예측도 사용할 수 없다. 따라서, CGS_layer_1 화상(dependency_id=1, quality_level=0)은 spatial_layer_2 화상을 복호화하는 것에 관하여 비 요구 화상이고, base_layer_0 화상(dependency_id=0, quality_level=0)은 CGS_layer_1 화상을 복호화하는 것에 관하여 비 요구 화상이다.

다시, 보이고 있는 CGS_layer_1 화상은, 복호화 순서에서, 보이고 있는 spatial_layer_2 화상에 후속하는 spatial_layer_2 화상들 중의 어느 것의 복호화에 필요하지 않고, 보이고 있는 base_layer_0 화상 역시, 복호화 순서에서, 보이고 있는 CGS_layer_1 화상에 후속하는 CGS_layer_1 화상들 중의 어느 것의 복호화에 필요하지 않다고 가정하면, 도 3의 예에 대해 시그널링된 값들은 다음과 같을 것이다:

num_info_entries_minus1 = 1

{

entry_dependency_id[ 0 ] = 1

num_non_required_pics_minus1[ 0 ] = 0

{

non_required_pic_dependency_id[ 0 ][ 0 ] = 0

non_required_pic_quality_level[ 0 ][ 0 ] = 0

}

entry_dependency_id[ 0 ] = 2

num_non_required_pics_minus1[ 0 ] = 0

{

non_required_pic_dependency_id[ 0 ][ 0 ] = 1

non_required_pic_quality_level[ 0 ][ 0 ] = 0

}

FGS 층들이 관련될 때, 부호화 모드 및 움직임 정보를 위한 층간 예측은 샘플 잔여를 위해 층간 예측과는 다른 기본계층으로부터 나올 수 있다. 이것의 예는 도 4에서 보이는데, 그 도면에서 spatial_layer_2 화상에 대해, 부호화 모드 및 움직임 정보를 위한 층간 예측은 CGS_layer_1 화상으로부터 나오는 반면, 샘플 잔여를 위한 층간 예측은 FGS_layer_1_0 화상으로부터 나온다. 따라서, FGS_layer_1_1 화상(dependency_id=1, quality_level=2)은 spatial_layer_2 화상을 복호화하는 것에 관해 비 요구 화상이다. 다시, 보이고 있는 FGS_layer_1_1 화상이, 복호화 순서에서, 보이고 있는 spatial_layer_2 화상에 후속하는 spatial_layer_2 화상들 중의 어느 것이 복호화에 필요하지 않다고 가정하면, 도 4의 예를 위한 시그널링된 값들은 다음과 같을 것이다:

num_info_entries_minus1 = 0

{

entry_dependency_id[ 0 ] = 2

num_non_required_pics_minus1[ 0 ] = 0

{

non_required_pic_dependency_id[ 0 ][ 0 ] = 1

non_required_pic_quality_level[ 0 ][ 0 ] = 2

}

도 5는 도 4의 의존성 계층구조의 변동을 도시한다. 여기서, spatial_layer_2 화상을 위한 층간 예측의 모든 양태들, 즉 부호화 모드, 움직임 정보 및 샘플 잔여는 CGS_layer_1 화상에서 나온다. 따라서, FGS_layer_1_0 화상(dependency_id=1, quality_level=1)과 FGS_layer_1_1 화상(dependency_id=1, quality_level=2)은 spatial_layer_2 화상을 복호화하는 것에 관해 비 요구 화상이다. 다시, FGS_layer_1_0 화상도 FGS_layer_1_1 화상도, 복호화 순서에서, 보이고 있는 spatial_layer_2 화상에 후속하는 spatial_layer_2 화상들 중의 어느 것의 복호화에 필요하지 않다고 가정하면, 도 5의 예를 위한 시그널링된 값들은 다음과 같을 것이다:

num_info_entries_minus1 = 0

{

entry_dependency_id[ 0 ] = 2

num_non_required_pics_minus1[ 0 ] = 0

{

non_required_pic_dependency_id[ 0 ][ 0 ] = 1

non_required_pic_quality_level[ 0 ][ 0 ] = 1

}

여기서 FGS_layer_1_1 화상이 FGS_layer_1_0 화상에만 의존함으로써 FGS_layer_1_1 화상 역시 분명하게 비 요구 화상이므로, FGS_layer_1_0 화상(dependency_id=1, quality_level=1)을 비 요구 화상으로서 나타내는 것만이 요구된다.

위에 정의된 SEI 메시지의 의미론의 해석을 위해, 고려되어야만 하는 일부 추가의 상황들이 있다. 만일 재생을 위해 소망되는 층이 SEI 메시지에서 시그널링된 entry_dependency_id[ i ] 값들 중의 어느 것과 동일하지 않은 dependency_id = 'A'를 가진다면, 가장 큰 entry_dependency_id[ i ]를 가지지만 'A'보다는 작은 n번째 entry_dependency_id[ i ]가 탐색된다. dependency_id = 'A'를 가지는 화상은 n번째 엔트리에서 지정된 바와 동일한 비 요구 화상들을 가질 것이다. 만일 'A'보다 작은 entry_dependency_id[ i ]를 가지는 엔트리가 없다면, dependency_id = 'A'를 가지는 화상에 대해 상응하는 액세스 단위에는(즉 SEI 메시지에 상응하는 시간적 위치에는) 비 요구 화상이 없다.

만일 dependency_id = 'A'를 가지는 화상이 dependency_id = 'B'를 가지는 화상에 대해 비 요구 화상이 아니고 'B'가 'A'보다 크거나 같으면, dependency_id = 'A'를 가지는 화상에 대한 모든 비 요구 화상들은 또한 dependency_id = 'B'를 가지는 화상에 대한 비 요구 화상들이다.

비디오 스트림이 5개 계층인 base_layer_0, CGS_layer_1, spatial_layer_2, spatial_layer_3 및 spatial_layer_4를 포함하고 그 계층들이 동일한 프레임율을 가지는 예가 도 6에서 주어진다. CGS_layer_1 상의 화상은 층간 예측을 위해 base_layer_0을 사용한다. spatial_layer_2의 화상은 층간 예측을 위해 base_layer_0(즉 그것 옆의 CGS_layer_1이 아님)을 사용한다. spatial_layer_3의 화상은 층간 예측을 위해 spatial_layer_2를 사용한다. 최종적으로, spatial_layer_4의 화상은 층간 예측을 위해 spatial_layer_2만을 사용한다. 따라서, CGS_layer_1 화상(dependency_id=1, quality_level=0)은 spatial_layer_2 화상을 복호화하는 것에 관해 비 요구 화상이고, spatial_layer_3 화상(dependency_id=3, quality_level=0)은 spatial_layer_4 화상을 복호화하는 것에 관해 비 요구 화상이다. 위의 규칙에 따르면, CGS_layer_1 화상은 spatial_layer_3 화상 및 spatial_layer_4 화상도 복호화하는 것에 관해 비 요구 화상인데, 그것들의 dependency_id 값들(3 및 4)이 spatial_layer_2 화상의 그것(dependency_id=2)보다 크고 spatial_layer_2 화상은 spatial_layer_3 화상 및 spatial_layer_4 화상 에 대해 비 요구 화상이 아니기 때문이다.

다시, 복호화 순서에서 다음 액세스 단위들의 층간 의존성 관계들이 동일하다고 가정하면, 도 6의 예에 대해 시그널링된 값들은 다음과 같을 것이다:

num_info_entries_minus1 = 1

{

entry_dependency_id[ 0 ] = 2

num_non_required_pics_minus1[ 0 ] = 0

{

non_required_pic_dependency_id[ 0 ][ 0 ] = 1

non_required_pic_quality_level[ 0 ][ 0 ] = 0

}

entry_dependency_id[ 0 ] = 4

num_non_required_pics_minus1[ 0 ] = 0

{

non_required_pic_dependency_id[ 0 ][ 0 ] = 3

non_required_pic_quality_level[ 0 ][ 0 ] = 0

}

도 7은 실시예에 따른 부호화 기기를 도시하는데, 부호화 기기(700)는 미가공(raw) 데이터 스트림(702)을 수신하며, 이 스트림은 부호화되고 하나 이상의 계 층들이 부호기(700)의 규모가변성 데이터 부호화부(704)에 의해 생성된다. 규모가변성 데이터 부호화부(704)는 데이터 스트림을 부호화하는 동안 비 요구 화상을 추론하고, 비 요구 화상들의 지시 정보를, 예컨대 액세스 유닛 컴포저일 수 있는 메시지 형성부(706)에 삽입한다. 부호화된 데이터 스트림(708)은 부호기(700)로부터 출력되어서, 복호기가 비 요구 화상들을 그것들의 복호화 전에 결정할 수 있게 하고 비 요구 화상들의 불필요한 복호화 및 버퍼링을 피할 수 있게 한다.

도 8은 실시예에 따른 복호화 기기를 도시하는데, 복호화 기기(800)는 부호화된 데이터 스트림(802)을 수신기(804)를 경유하여 수신한다. 비 요구 화상의 지시 정보는 예컨대 액세스 단위 디컴포저일 수 있는 메시지 형성해제(deforming)부(806)에서 데이터 스트림으로부터 추출된다. 그 다음 복호화부(808)는, 비 요구 화상들이 복호화되지 않거나 버퍼링되지 않도록, 부호화된 데이터 스트림의 선택된 층을 비 요구 화상들의 지시 정보에 따라 복호화한다. 복호화된 데이터 스트림(810)은 복호기(800)로부터 출력된다.

비디오 기반 통신 시스템들, 특히 단말들의 서로 다른 부분들은 멀티미디어 스트림들의 양방향 전송, 즉 스트림들의 전송 및 수신을 가능하게 하는 속성들을 포함할 수 있다. 이는 부호기와 복호기가 부호기 및 복호기 둘 다의 기능들을 포함하는 비디오 코덱으로서 구현될 수 있게 한다.

위의 비디오 부호기, 비디오 복호기 및 단말들에서 본 발명의 기능적 요소들은 바람직하게는 소프트웨어, 하드웨어 또는 이 둘의 조합으로서 구현될 수 있다는 점에 유의한다. 본 발명의 부호화 및 복호화 방법들은 본 발명의 기능적 단계들을 수행하기 위한 컴퓨터 판독가능 명령들을 포함하는 컴퓨터 소프트웨어로서 구현되기에 특히 매우 적합하다. 부호기와 복호기는, 바람직하게는 저장 수단에 저장되고 컴퓨터 유사 기기, 이를테면 개인용 컴퓨터(PC) 또는 이동국(MS)에 의해 실행 가능한 소프트웨어 코드로서 구현될 수 있는데, 이 소프트웨어 코드는 상기 기기로써 부호화/복호화 기능들을 달성하기 위해 실행될 수 있다. 그런 부호화/복호화 기능들이 적용될 수 있는 전자 기기들의 다른 예들은 개인휴대 정보단말 기기(PDA)들, 디지털 텔레비전 시스템을 위한 셋톱 박스들, 게이밍 콘솔들, 미디어 플레이어들 및 텔레비전들이다.

도 9는 본 발명의 바람직한 실시예에 따른 이동 통신 기기(M)S의 블록도를 보인다. 이 이동 통신 기기에서, 마스터 제어부(MCU)는 이동 통신 기기의 여러 가지 기능들을 담당하는 블록들인 임의접근 메모리(RAM), 무선 주파수 부(RF), 판독전용 메모리(ROM), 비디오 코덱(CODEC) 및 사용자 인터페이스(UI)를 제어한다. 사용자 인터페이스는 키보드(KB), 디스플레이(DP), 스피커(SP) 및 마이크로폰(MF)을 포함한다. MCU는 마이크로프로세서이거나, 대체 실시예들에서, 다른 일부 종류의 프로세서, 예를 들면 디지털 신호 처리기이다. 유익하게는, MCU의 조작 명령어들은 ROM 메모리에 미리 저장되어 있다. 그 명령어들(즉 컴퓨터 프로그램)에 따라, MCU는 안테나(AER)를 경유하여 무선 경로를 통해 데이터를 전송하고 수신하기 위해 RF 블록을 사용한다. 비디오 코덱은 하드웨어 기반이거나 또는 완전히 또는 부분적으로 소프트웨어 기반일 수 있고, 그 경우, 코덱(CODEC)은 MCU를 제어하여 요구된 대로 비디오 부호화 및 복호화 기능들을 수행하기 위한 컴퓨터 프로그램들을 포함한 다. MCU는 그것의 작업 메모리로서 RAM을 사용한다. 이동 통신 기기는 비디오 카메라에 의해 움직이는 비디오를 캡처하며, 그 움직이는 비디오를 MCU, RAM 및 코덱 기반 소프트웨어를 사용하여 부호화 및 패킷화할 수 있다. RF 블록은 그 다음 부호화된 비디오를 다른 당사자들과 교환하기 위해 사용된다.

도 10은 복수 개의 이동 통신 기기들(MS), 이동 통신망(110), 인터넷(120), 비디오 서버(130) 및 인터넷에 연결된 고정 PC를 포함하는 비디오 통신 시스템(100)을 보인다. 비디오 서버는 비디오 부호기를 가지고 일기 예보 또는 뉴스와 같은 주문형(on-demand) 비디오 스트림들을 제공할 수 있다.

본 발명이 위에 기재된 실시예들로만 한정되지 않고 첨부의 청구항들의 범위 내에서 변형될 수 있다는 것은 명백할 것이다.

Claims

기본계층 및 적어도 하나의 향상계층을 포함하는 규모가변성 데이터 스트림을 부호화하는 방법에 있어서,

적어도 하나의 비 요구 화상을 계층의 시간적 위치에 포함하는 규모가변성 데이터 스트림을 부호화하는 동작으로서, 복호화 순서에서 상기 시간적 위치에서 상위 계층에 있는 및 상기 시간적 위치에 후속하는 화상들의 복호화는 상기 비 요구 화상을 요구하지 않는, 동작; 및

적어도 하나의 비 요구 화상의 정보를 규모가변성 비디오 데이터 스트림으로 시그널링하는 동작을 포함하는 방법.
제1항에 있어서, 하나 이상의 향상계층은 하나 이상의 공간적, 품질, 또는 미세 입도 규모가변성(FGS) 향상계층을 포함하는 방법.
제1항에 있어서, 상기 시그널링하는 동작은 상기 규모가변성 데이터 스트림의 일 부분 내에서 수행되는 방법.
제3항에 있어서, 상기 시그널링하는 동작은 보충 향상 정보(SEI) 메시지로 수행되는 방법.
기본계층 및 적어도 하나의 향상계층을 포함하는 규모가변성 비디오 데이터 스트림을 복호화하는 방법에 있어서,

규모가변성 데이터 스트림으로 수신된 시그널링 정보를 복호화하는 동작으로서, 상기 시그널링 정보는 계층의 시간적 위치에 적어도 하나의 비 요구 화상에 관한 정보를 포함하는, 동작; 및

복호화 순서에서 상기 시간적 위치의 비 요구 화상 위쪽에 있는 계층의 및 상기 시간적 위치에 후속하는 화상들을 상기 비 요구 화상을 복호화하는 일 없이 복호화하는 동작을 포함하는 방법.
제5항에 있어서, 하나 이상의 향상계층은 하나 이상의 공간적, 품질, 또는 미세 입도 규모가변성(FGS) 향상계층을 포함하는, 방법.
제5항에 있어서, 상기 시그널링 정보는 상기 규모가변성 데이터 스트림의 일 부분 내에 수용되는 방법.
제7항에 있어서, 상기 시그널링 정보는 보충 향상 정보(SEI) 메시지로 수신되는 방법.
기본계층 및 적어도 하나의 향상계층을 포함하는 규모가변성 비디오 데이터 스트림을 부호화하기 위한 비디오 부호기에 있어서,

적어도 하나의 비 요구 화상 계층의 시간적 위치에 포함하는 규모가변성 데이터 스트림을 부호화하기 위한 수단으로서, 복호화 순서에서 상기 시간적 위치에서 상위 계층에 있는 및 상기 시간적 위치에 후속하는 화상들의 복호화는 상기 비 요구 화상을 요구하지 않는, 수단; 및

적어도 하나의 비 요구 화상의 정보를 규모가변성 비디오 데이터 스트림에 포함하기 위한 수단을 포함하는 비디오 부호기.
제9항에 있어서, 상기 적어도 하나의 비 요구 화상의 정보는 상기 규모가변성 데이터 스트림의 일 부분 내에서 시그널링되도록 구성되는, 비디오 부호기.
제10항에 있어서, 적어도 하나의 비 요구 화상의 정보는 보충 향상 정보(SEI) 메시지로 시그널링되도록 구성되는, 비디오 부호기.
기본계층 및 적어도 하나의 향상계층을 포함하는 규모가변성 비디오 데이터 스트림을 복호화하기 위한 비디오 복호기에 있어서,

규모가변성 데이터 스트림으로 수신된 시그널링 정보를 복호화하는 수단으로서, 상기 시그널링 정보는 계층의 시간적 위치에 적어도 하나의 비 요구 화상에 관한 정보를 포함하는, 수단; 및

복호화 순서에서 상기 시간적 위치의 비 요구 화상 위쪽에 있는 계층의 및 상기 시간적 위치에 후속하는 화상들을 상기 비 요구 화상을 복호화하는 일 없이 복호화하는 수단을 포함하는 비디오 복호기.
제12항에 있어서, 상기 시그널링 정보는 상기 규모가변성 데이터 스트림의 일 부분으로부터 복호화되도록 구성되는, 비디오 복호기.
제13항에 있어서, 상기 시그널링 정보는 보충 향상 정보(SEI) 메시지로부터 복호화되도록 구성되는, 비디오 복호기.
기본계층 및 적어도 하나의 향상계층을 포함하는 규모가변성 비디오 데이터 스트림을 부호화하기 위한 전자 기기에 있어서,

계층의 시간적 위치에 적어도 하나의 비 요구 화상을 포함하는 규모가변성 데이터 스트림을 부호화하는 수단으로서, 복호화 순서에서 상기 시간적 위치에서 상위 계층에 있는 및 상기 시간적 위치에 후속하는 화상들의 복호화는 상기 비 요구 화상을 요구하지 않는, 수단; 및

적어도 하나의 비 요구 화상의 정보를 규모가변성 비디오 데이터 스트림에 포함하기 위한 수단을 포함하는 전자 기기.
기본계층 및 적어도 하나의 향상계층을 포함하는 규모가변성 비디오 데이터 스트림을 복호화하기 위한 전자 기기에 있어서,

규모가변성 데이터 스트림으로 수신된 시그널링 정보를 복호화하는 수단으로 서, 상기 시그널링 정보는 계층의 시간적 위치에 적어도 하나의 비 요구 화상에 관한 정보를 포함하는, 수단; 및

복호화 순서에서 상기 시간적 위치의 비 요구 화상 위쪽에 있는 계층의 및 상기 시간적 위치에 후속하는 화상들을 상기 비 요구 화상을 복호화하는 일 없이 복호화하는 수단을 포함하는 전자 기기.
제15항에 있어서, 상기 전자 기기는 이동 전화기, 컴퓨터, PDA 기기, 디지털 텔레비전 시스템용 셋톱 박스, 게이밍 콘솔, 미디어 플레이어 또는 텔레비전 중의 하나인, 전자 기기.
기본계층 및 적어도 하나의 향상계층을 포함하는 규모가변성 비디오 데이터 스트림을 부호화하기 위한 컴퓨터 프로그램으로서 데이터 처리 기기에서 실행 가능한 컴퓨터 프로그램을 저장한 컴퓨터 판독가능 기록 매체에 있어서, 상기 컴퓨터 프로그램은,

적어도 하나의 비 요구 화상을 계층의 시간적 위치에 포함하는 규모가변성 데이터 스트림을 부호화하기 위한 컴퓨터 프로그램 코드 섹션으로서, 복호화 순서에서 상기 시간적 위치에서 상위 계층에 있는 및 상기 시간적 위치에 후속하는 화상들의 복호화는 상기 비 요구 화상을 요구하지 않는, 컴퓨터 프로그램 코드 섹션; 및

적어도 하나의 비 요구 화상의 정보를 규모가변성 비디오 데이터 스트림에 포함하기 위한 컴퓨터 프로그램 코드 섹션을 포함하는, 컴퓨터 판독가능 기록 매체.
기본계층 및 적어도 하나의 향상계층을 포함하는 규모가변성 비디오 데이터 스트림을 복호화하기 위한 컴퓨터 프로그램으로서 데이터 처리 기기에서 실행 가능한 컴퓨터 프로그램을 저장한 컴퓨터 판독가능 기록 매체에 있어서, 상기 컴퓨터 프로그램은,

규모가변성 데이터 스트림으로 수신된 시그널링 정보를 복호화하는 컴퓨터 프로그램 코드 섹션으로서, 상기 시그널링 정보는 계층의 시간적 위치에 적어도 하나의 비 요구 화상에 관한 정보를 포함하는, 컴퓨터 프로그램 코드 섹션; 및

복호화 순서에서 상기 시간적 위치의 비 요구 화상 위쪽에 있는 계층의 및 상기 시간적 위치에 후속하는 화상들을 상기 비 요구 화상을 복호화하는 일 없이 복호화하는 컴퓨터 프로그램 코드 섹션을 포함하는, 컴퓨터 판독가능 기록 매체.
삭제
삭제
삭제
제16항에 있어서, 상기 전자 기기는 이동 전화기, 컴퓨터, PDA 기기, 디지털 텔레비전 시스템용 셋톱 박스, 게이밍 콘솔, 미디어 플레이어 또는 텔레비전 중의 하나인, 전자 기기.