KR102114520B1

KR102114520B1 - 화상 블록의 코딩 및 디코딩 방법들, 대응하는 디바이스들 및 데이터 스트림

Info

Publication number: KR102114520B1
Application number: KR1020157022643A
Authority: KR
Inventors: 필리쁘 보르드; 프랑끄 이롱; 피에르 앙드리봉; 파트리끄 로페즈; 필리쁘 살몽
Original assignee: 인터디지털 브이씨 홀딩스 인코포레이티드
Priority date: 2013-02-22
Filing date: 2014-02-17
Publication date: 2020-05-22
Also published as: RU2018126358A; MX2018011400A; RU2015140121A; MY175386A; JP6700239B2; HK1218195A1; KR20150120995A; CN110087100A; BR112015020060B1; JP2018078585A; JP2016511592A; MX2015010626A; PH12015501680A1; US20230156208A1; SG11201505696XA; ZA201505086B; US20160007034A1; EP2804375A1; AU2014220852B2; CN105191318A

Abstract

화상 블록을 디코딩하는 방법이 개시된다. 그 디코딩 방법은: - 적어도 하나의 스트림 (S_diff) 을 디코딩된 데이터로 및 디코더 화상 버퍼 내의 복원된 참조 화상을 식별하는 하나의 정보로 디코딩하는 단계 (10); - 적어도 식별된 복원된 참조 화상으로부터 및 디코딩된 데이터로부터 스페셜 참조 화상을 복원하는 단계 (12); - 적어도 스페셜 참조 화상으로부터 화상 블록을 복원하는 단계 (16) 를 포함하고, 적어도 스페셜 참조 화상은 디스플레이되지 않는다.

Description

화상 블록의 코딩 및 디코딩 방법들, 대응하는 디바이스들 및 데이터 스트림{CODING AND DECODING METHODS OF A PICTURE BLOCK, CORRESPONDING DEVICES AND DATA STREAM}

특별한 (special) 복원된 참조 화상으로부터 화상 블록을 디코딩하는 방법이 개시된다. 대응하는 코딩 방법 및 대응하는 인코딩 및 디코딩 디바이스들이 또한 개시된다.

비디오 스트리밍 동안, 이용가능한 대역폭은 시간의 경과에 따라 변할 수도 있다. 결과적으로, 스트리밍 애플리케이션의 아웃고잉 (outgoing) 비트 레이트는 혼잡을 피하기 위해 실시간으로 이용가능한 대역폭을 피팅하도록 조정될 필요가 있다. 실시간 비트 레이트 조정들을 가능하게 하는 하나의 방법은 실시간 인코더의 사용이지만, 그것은 예를 들어 VOD 서비스들에 대한 다수의 클라이언트들의 경우에 허용가능하지 않을 수도 있는 클라이언트당 하나의 인코딩 시스템을 할당할 필요가 있다. 실시간 비트 레이트 조정들을 가능하게 하는 다른 방법은 스케일러블 비디오 코딩의 사용이다. 스케일러블 코딩에서, 비디오 소스는 수개의 계층들로 인코딩된다. 아웃고잉 비트 레이트를 조정하기 위해 송신 동안, 서버가 전송될 계층들을 선택하거나 (모드 "푸시 (push)") 또는 디코더가 전송될 계층들을 요청한다 (모드 "풀 (pull)"). 그 방법은 이질적인 채널들을 통한 스트리밍에 적합하지만, 스케일러블 비디오 코딩은 전체 압축 효율을 열화시키고 단일 계층 비디오 코딩에 비해 인코더 및 디코더 양자 모두의 계산 복잡성을 증가시킨다. 비트 레이트 조정을 실현하는 간단한 방법은 동일한 비디오 시퀀스의 다수의 버전들을 인코딩하는 것이다. 이들 버전들은 상이한 해상도 및/또는 품질 레벨들, 및 따라서 상이한 비트 레이트들을 가진다. 스트리밍 동안, 아웃고잉 비트 레이트를 조정할 필요가 존재하는 경우, 송신될 스트림은 도 1 에 도시된 바와 같은 대역폭 요건 또는 사용자 능력을 피팅하기 위해 하나의 버전에서 다른 버전으로 동적으로 스위칭될 수 있다. 이러한 솔루션은 "스트림 스위칭" 으로서 알려져 있다. 그러나, 인터-코딩된 화상들 (P 또는 B 화상들) 에서의 스트림들 사이의 직접적인 스위칭은 복원된 참조 화상들의 미스매치를 야기할 수도 있고 부정확한 화상들 복원을 초래한다. 복원된 비디오의 품질은 상당히 열화될 수도 있다. 그 문제를 해결하는 하나의 방법은 비트-스트림 (통상적으로 I 화상들 또는 IDR 화상들 또는 CRA 화상들) 에서 랜덤 액세스 포인트들 (RAP) 를 사용하는 것이다. IDR 은 "Instantaneous Decoder Refresh" 의 그리고 CRA 는 "Clean Random Access" 의 영어 축약어이다. 스위칭이 이들 RAP 에서만 발생할 수 있기 때문에, RAP 는 즉각적인 스트림 스위칭을 실현하기 위해 비트 스트림에서 자주 할당될필요가 있다. 그러나, 그러한 I/IDR 화상들을 인코딩하는 것은 실질적인 비트 레이트 오버헤드를 도입한다. 또, RAP 앞에 위치된 복원된 참조 화상들을 사용하는 RAP 뒤의 화상들은 그들이 도 2 에 도시된 바와 같이 인코딩에서 사용되는 것(들) 과 상이한 복원된 참조 화상(들) 을 사용하기 때문에 스킵되거나 정확하게 디코딩되지 않는다. 도 2 에서, Ic 는 복원된 참조 화상 (I1 및 I2) 으로부터 복원되는 반면, 그것은 복원된 참조 화상 (i1 및 i2) 로부터 인코딩되었다.

AVC 에서, 다른 스트림으로부터 화상의 동일한 복원을 허용하고 따라서 스트림 스위칭을 용이하게 하는 스페셜 화상 타입들 (SI/SP) 이 설계되었다. 비디오 화상들은 따라서 도 3 에 도시된 바와 같이 인트라-코딩된 화상들 대신에 스위칭 포인트들에서 SP 화상들로 인코딩된다. SP 화상들의 코딩 효율은 인트라-코딩된 화상들의 코딩 효율보다 높지만, 그들은 정규 P 화상들보다 여전히 덜 효율적이다. 따라서, 다수의 스위칭 포인트들이 할당되는 경우, 전체 코딩 효율은 여전히 열화된다.

"Efficient bit stram switching of H.264 coded video" 라는 제목을 갖고 proc. of SPIE vol.5909 (2005) 에서 발행된 Zhou 등으로부터의 문서에는, 실질적인 비트 레이트 오버헤드 없이 임의의 시간에 스위칭하는 것을 가능하게 하는 솔루션이 개시되어 있다. 그 솔루션은 IPPP GOP 구조에 대해서만 제공된다. 상이한 비트 레이트의 동일한 비디오 시퀀스의 다수의 버전들에 더하여, DIFF 화상은 도 4 에 도시된 바와 같이 스위치가 발생하는 현재의 화상의 복원된 참조 화상에 대해 인코딩된다. DIFF 화상은 현재의 화상의 복원된 참조 화상과 다른 스트림 내의 시간적으로 대응하는 화상의 차이이다. 차이 화상은 미스매치를 보상하기 위해 디코더로 송신된다. DIFF 화상은 그 문서의 페이지 5 에서 언급된 바와 같이 스위칭이 발생하는 때에만 송신되기 때문에, 상기 스킴에 의해 도입된 비트 레이트 오버헤드는 작다. 한편, 그 솔루션은 단일의 복원된 참조 화상으로부터 예측된 P-화상에 대해서만 작동한다. 또, 이러한 솔루션은 인코딩 순서 및 디스플레이 순서가 동일한 것을 요구한다.

화상 블록을 디코딩하는 방법이 개시된다. 그 방법은,

- 적어도 하나의 스트림 (S_diff) 을 디코딩된 데이터로 및 디코더 화상 버퍼 내의 복원된 참조 화상을 식별하는 하나의 정보로 디코딩하는 단계;

- 적어도 식별된 복원된 참조 화상으로부터 및 디코딩된 데이터로부터 스페셜 참조 화상을 복원하는 단계;

- 적어도 스페셜 참조 화상으로부터 화상 블록을 복원하는 단계를 포함하며,

여기서, 복원되는 경우 스페셜 참조 화상은 디스플레이되지 않는다.

이롭게도, 식별된 복원된 참조 화상은 제 1 계층으로부터 디코딩되고, 여기서 디코딩된 데이터 및 디코더 화상 버퍼 내의 복원된 참조 화상을 식별하는 정보는 제 1 계층으로부터 의존적인 제 2 계층으로부터 디코딩된다.

특정의 특징에 따르면, 제 1 계층은 베이스 계층이다.

특정의 실시형태에 따르면, 그 디코딩 방법은 또한 제 2 계층의 후속적으로 디코딩된 화상들이 임의의 인터-계층 예측을 사용하고 있지 않다는 것을 나타내는 플래그를 디코딩하는 단계를 포함한다.

화상 블록을 인코딩하는 방법이 또한 개시된다. 그 인코딩 방법은 또한,

- 적어도 하나의 복원된 참조 화상으로부터 화상 블록을 인코딩하는 단계; 및

- 그 적어도 하나의 복원된 참조 화상을 다른 복원된 참조 화상 및 디코더 화상 버퍼 내의 그 다른 복원된 참조 화상을 식별하는 정보로부터 스페셜 참조 화상으로서 인코딩하는 단계를 포함하고,

이롭게도, 식별된 복원된 참조 화상은 제 1 계층에서 인코딩되고, 적어도 하나의 복원된 참조 화상 및 디코더 화상 버퍼 내의 다른 복원된 참조 화상을 식별하는 정보는 제 1 계층으로부터 의존적인 제 2 계층에서 인코딩된다.

특정의 특징에 따르면, 제 1 계층은 베이스 계층이다.

특정의 실시형태에 따르면, 제 2 계층의 후속적으로 인코딩된 화상들이 임의의 인터-계층 예측을 사용하고 있지 않다는 것을 나타내는 플래그를 인코딩하는 단계를 더 포함한다.

화상 블록을 디코딩하는 디코딩 디바이스가 개시된다. 그 디코딩 디바이스는,

- 적어도 하나의 스트림 (S_diff) 을 디코딩된 데이터로 및 디코더 화상 버퍼 내의 복원된 참조 화상을 식별하는 하나의 정보로 디코딩하는 수단;

- 적어도 식별된 복원된 참조 화상으로부터 및 디코딩된 데이터로부터 스페셜 참조 화상을 복원하는 수단;

- 적어도 스페셜 참조 화상으로부터 화상 블록을 복원하는 수단을 포함하며,

여기서, 적어도 스페셜 참조 화상은 디스플레이되지 않는다.

디코딩 디바이스는 디코딩 방법의 단계들을 실행하도록 구성된다.

화상 블록을 인코딩하는 코딩 디바이스가 개시된다. 그 코딩 디바이스는,

- 적어도 하나의 복원된 참조 화상으로부터 화상 블록을 인코딩하는 것; 및

- 적어도 하나의 복원된 참조 화상을 다른 복원된 참조 화상 및 디코더 화상 버퍼 내의 다른 복원된 참조 화상을 식별하는 정보로부터 스페셜 참조 화상으로서 인코딩하는 것을 포함하고,

코딩 디바이스는 인코딩 방법의 단계들을 실행하도록 구성된다.

마지막으로, 데이터 스트림이 개시된다. 데이터 스트림은 디코더 화상 버퍼 내의 복원된 참조 화상을 식별하는 하나의 정보 및 식별된 복원된 참조 화상으부터의 스페셜 참조 화상의 복원을 허용하는 데이터를 그 안에 인코딩한 채로 포함하며, 스페셜 참조 화상은 디스플레이되지 않는 참조 화상이다.

본 발명의 다른 특징들 및 이점들은 그의 실시형태들의 일부의 다음의 설명으로 나타날 것이고, 이러한 설명은 도면들과 관련하여 행해진다.
- 도 1 및 도 2 는 스트림 스위칭의 일반적인 원리들을 도시한다.
- 도 3 은 종래 기술에 따른 SI/SP 화상들을 사용하는 스트림 스위칭의 원리들을 도시한다.
- 도 4 는 종래 기술에 따른 DIFF 화상을 사용하는 스트림 스위칭의 원리들을 도시한다.
- 도 5 는 본 발명에 따른 디코딩 방법의 플로우챠트를 도시한다.
- 도 6 은 본 발명에 따른 인코딩 방법의 플로우챠트를 도시한다.
- 도 7 은 본 발명에 따른 SRP 화상들을 사용하는 스트림 스위칭의 원리들을 도시한다.
- 도 8 은 본 발명에 따른 디코딩 방법의 다른 실시형태를 도시한다.
- 도 9 는 본 발명에 따른 멀티-계층 비디오 디코더를 도시한다.
- 도 10 은 본 발명에 따른 멀티-계층 비디오 인코더를 도시한다.
- 도 11 은 본 발명에 따른 멀티-계층 스트림을 나타낸다.

본 발명은 화소들의 화상 블록을 디코딩하는 방법 및 그러한 화상 블록을 코딩하는 방법에 관한 것이다. 화상 블록은 화상들의 시퀀스의 화상에 속한다. 각각의 화상은 화소들 또는 화상 포인트들을 포함하고, 그들 각각과 화상 데이터의 적어도 하나의 아이템이 연관된다. 화상 데이터의 아이템은 예를 들어 루미넌스 데이터의 아이템 또는 크로미넌스 데이터의 아이템이다. 이하에, 코딩 및 디코딩 방법들은 화상 블록을 참조하여 기술된다. 이들 방법들은 하나 이상의 화상들의 각각 코딩, 디코딩의 목적으로 화상의 수개의 화상 블록들 상에 그리고 시퀀스의 수개의 화상들 상에 적용될 수 있다는 것이 분명하다. 화상 블록은 임의 형태의 화소들의 세트이다. 그것은 정사각형, 직사각형일 수 있다. 그러나, 본 발명은 그러한 형태들에 제한되지 않는다. 다음의 섹션에서, 워드 블록이 화상 블록을 위해 사용된다. HEVC 에서, 블록은 코딩 유닛 (CU) 으로 지칭된다.

용어 "예측자" 는 다른 데이터를 예측하기 위해 사용되는 데이터를 지정한다. 예측자는 화상 블록을 예측하는데 사용된다. 예측자 또는 예측 블록은 그것이 예측하는 (공간 예측 또는 인트라-화상 예측) 블록이 속하는 화상과 동일한 화상의 하나 또는 수개의 복원된 참조 샘플(들) 로부터 또는 복원된 참조 화상들 (시간 예측 또는 인터-화상 예측) 의 하나의 (단방향 예측) 또는 수개의 (양방향 예측 또는 양예측) 참조 블록들로부터 획득된다. 참조 블록은 모션 벡터에 의해 복원된 참조 화상 내에서 식별된다. 예측은 또한 일루미네이션 변동 모델을 고려하도록 가중될 수 있다 (가중된 예측으로서 또한 알려짐).

용어 "레지듀" 는 소스 데이터로부터의 예측자의 감산 후에 획득된 데이터를 의미한다.

용어 "복원" 은 예측자와 레지듀를 병합한 후에 획득된 데이터 (예를 들어, 화소들, 블록들) 를 지정한다. 그 병합은 일반적으로 레지듀와 예측자의 합이다. 그러나, 병합은 더욱 일반적으로 특히 복원된 샘플들의 추가적인 포스트 필터링 스테이지 및/또는 복원된 샘플들에의 오프셋들의 가산의 추가적인 단계를 포함한다. 참조 화상이 복원되는 경우, 그것은 새로이 복원된 참조 화상으로서 DPB ("Decoder Picture Buffer" 의 영어 축약어) 에 저장된다.

화상들의 디코딩을 참조하여, 용어 "복원" 및 "디코딩" 은 매우 종종 동의어로서 사용된다. 이리하여, "복원된 블록" 은 또한 용어 "디코딩된 블록" 하에서 지정된다.

용어 코딩은 가장 넓은 의미에서 취해져야 한다. 코딩은 가능하게는 변환을 적용하는 것 및/또는 데이터를 양자화하는 것을 포함한다. 그것은 또한 엔트로피 코딩만을 지정할 수 있다. DCT ("Discrete Cosine Transform") 는 그러한 변환의 예이다. 동일한 방식으로, 용어 디코딩은 가능하게는 엔트로피 디코딩에 더하여 변환 및/또는 역양자화를 적용하는 것을 포함한다. 디코더 측에서 적용된 변환은 인코더 측에서 적용된 것의 역변환이다.

스트림은 코딩된 화상들의 표현 및 하나 이상의 코딩된 비디오 시퀀스들을 형성하는 연관 데이터를 형성하는 비트들의 시퀀스이다. 스트림은 NAL 유닛 스트림 또는 바이트 스트림을 지칭하는데 사용된 집합적인 용어이다.

NAL ("Network Abstraction Layer" 의 영어 축약어) 유닛은 후속할 데이터의 타입의 표시를 포함하는 신택스 구조 및 그 데이터를 포함하는 바이트들이다. NAL 은 다양한 통신 채널들 또는 저장 매체들 상의 전달에 적당한 방식으로 헤더 정보를 제공하고 그 데이터를 포맷하도록 특정된다. 모든 데이터가 NAL 유닛들에 포함되며, 이들 각각은 정수 개의 바이트들을 포함한다. NAL 유닛은 패킷 지향 및 스트림 시스템들 양자 모두에서 사용을 위해 일반 포맷을 특정한다. 패킷 지향 전송 및 바이트 스트림 양자 모두에 대한 NAL 유닛들의 포맷은 바이트 스트림 포맷에서 스타트 코드 프리픽스 및 엑스트라 패딩 바이트들이 각 NAL 유닛에 선행하는 것을 제외하고 동일한다.

AU ("Access Unit" 의 영어 축약어) 는 특정된 분류 규칙에 따라 서로 연관되고, 디코딩 순서에서 연속적이며, 정확히 하나의 코딩딘 화상을 포함하는 NAL 유닛들의 세트이다. 액세스 유닛의 디코딩은 항상 디코딩된 화상을 야기한다.

도 5 및 도 6 에서, 포현된 박스들은 순수하게 기능적 엔티티들이며, 그것들은 물리적 별도의 엔티티들에 반드시 대응하지는 않는다. 당업자에 의해 인정되는 바와 같이, 본 원리들의 양태들은 시스템, 방법 또는 컴퓨터 판독가능 매체로서 구현될 수 있다. 이에 따라, 본 원리들의 양태들은 전체적으로 하드웨어 실시형태, 전체적으로 소프트웨어 실시형태 (펌웨어, 상주 소프트웨어, 마이크로-코드 등을 포함), 또는 모두 일반적으로 "회로", "모듈", 또는 "시스템" 으로서 여기서 지칭될 수 있는 소프트웨어 및 하드웨어 양태들을 결합하는 실시형태의 형태를 취할 수 있다. 또한, 본 원리들의 양태들은 컴퓨터 판독가능 저장 매체의 형태를 취할 수 있다. 하나 이상의 컴퓨터 판독가능 저장 매체(들) 의 임의의 조합이 이용될 수도 있다.

도면들에서의 플로우챠트 및/또는 블록 다이어그램들은 본 발명의 여러 실시형태들에 따른 시스템들, 방법들, 및 컴퓨터 프로그램 제품들의 가능한 구현들의 구성, 동작 및 기능성을 도시한다. 이와 관련하여, 플로우챠트 또는 블록도들 내의 각 블록은 특정된 로지컬 기능(들) 을 구현하기 위한 하나 이상의 실행가능한 명령들을 포함하는 모듈, 세그먼트 또는 코드의 부분을 나타낼 수도 있다. 일부 대안적인 구현들에서, 블록에 표시된 기능들은 도면들에 표시된 순서 밖에서 발생할 수도 있다는 것을 또한 유의하여야 한다. 예를 들어, 연속적으로 도시된 2 개의 블록들은 사실 실질적으로 동시에 실행될 수도 있고나, 그 블록들은 때때로 역순으로 실행될 수도 있거나, 또는 블록들은 포함된 기능성에 따라 대안적인 순서로 실행될 수도 있다. 블록도들 및/또는 플로우챠트 도면의 각 블록, 및 블록도들 및/또는 플로우챠트 도면 내의 블록들의 조합들은 특정된 기능들 또는 액션들, 또는 특수 목적 하드웨어 및 컴퓨터 명령들의 조합들을 수행하는 특수 목적 하드웨어 기반 시스템들에 의해 구현될 수 있다는 것을 유의해야 한다. 명시적으로 기술되지 않지만, 본 실시형태들은 임의이 조합 또는 서브 조합으로 채용될 수도 있다.

도 5 는 특정의 및 비제한적인 실시형태에 따른 디코딩 방법의 플로우챠트를 도시한다. 그 방법은 스트림 (S) 에서 인코딩된 현재의 화상 블록 (Bc) 를 디코딩하기 위한 것이다. 화상 블록 (Bc) 은 현재의 화상 (Ic) 의 슬라이스 (Sc) 에 속한다. 슬라이스는 화상 블록들의 세트와같은 화상의 부분이다.

단계 (10) 에서, 적어도 하나의 스트림 (S_diff) 이 디코딩된 데이터 (예를 들어, 레지듀들 및 코딩 모드들) 로 및 DPB 에 저장된 복원된 참조 화상 (R2) 을 식별하는 정보 (INFO) 로 디코딩된다.

단계 (12) 에서, 스페셜 참조 화상 (그 영어 축약어는 SRP 임) (R1') 은 식별된 복원된 참조 화상 (R2) 으로부터 및 디코딩된 데이터로부터 복원된다. 스페셜 참조 화상은 그 후 DPB 에 배치된다. 이러한 참조 화상 (R1') 은 그것이 결코 디스플레이되지 않고 단지 다른 화상들 내의 블록들을 복원하는데 사용되기 때문에 특별하다. SRP (R1') 을 복원하는 것은 R1' 의 각 화상 블록에 대해, 예측자를 결정하고 레지듀를 가산하는 것을 포함한다. 예측자는 (Bc 에 대해 동일 장소에 배치된 R2 내의 블록으로서 또는 모션 벡터에 의해 식별된 R2 내의 모션 보상된 블록으로서) 식별된 복원된 참조 화상 (R2) 으로부터 또는 고전적인 인트라 예측에서 처럼 R1' 의 이웃하는 복원된 샘플들로부터 결정될 수도 있다. R2 내의 블록은 R2 내의 그의 공간 위치가 Ic 내의 Bc 의 공간 위치와 동일한 경우 Bc 에 대해 동일 장소에 배치된다. 변형예에 따르면, 복원된 참조 화상 (R2) 의 사이즈가 현재의 화상 (Ic) 의 사이즈와 상이한 경우, R2 는 (가능하게는 적절한 패딩을 갖는) 리스케일링된 R2 가 Ic 와 동일한 사이즈를 갖도록 스페셜 참조 화상의 복원을 위해 리스케일링된다. 이러한 경우에, R1' 는 F (R2) 로부터 복원되며, 여기서 F 는 스케일링 팩터이다. 스트림 (S_diff) 은 스트림 (S) 의 부분일 수도 있거나 스트림 (S) 에 대해 독립적일 수도 있다.

예로서, 스트림 (S_diff) 은 R2 와는 상이한 다른 복원된 참조 화상 (R1) 과 복원된 참조 화상 (R2) 사이의 화소 차이에 의해 화소를 인코딩한다. R1 은 예를 들어 현재의 화상 블록 (Bc) 이 그로부터 인코딩되는 복원된 참조 화상이다. 이러한 경우에, 스트림 (S_diff) 을 디코딩하는 것은 보통 엔트로피 디코딩, 역양자화 및 변환에 의해 차이 화상 (DIFF) 을 디코딩하는 것을 포함한다. 변환은 예를 들어 역 DCT 이다. 차이 화상은 보통 복원된 참조 화상 (R1) 과 복원된 참조 화상 (R2) 사이의 차이의 근사값이다. 근사값은 (예를 들어, 양자화로 인해) 인코딩 동안의 손실에 기인한다. 차이 화상 (DIFF) 이 무손실 인코딩되는 경우, 디코딩된 차이 화상 (DIFF) 은 복원된 참조 화상 (R1) 과 복원된 참조 화상 (R2) 사이의 차이와 동일하다. 변형예에 따르면, R1 과 R2 가 상이한 사이즈인 경우, 차이 화상은 복원된 참조 화상 (R1) 과 리스케일링된 복원된 참조 화상 (R2) 사이의 차이이다. 예로서, R2 가 R1 보다 큰 경우, R2 는 다운스케일링되고, R2 가 R1 보다 작은 경우, R2 는 업스케일링된다. 이러한 경우에, 스페셜 참조 화상 (R1') 은 F(R2)+DIFF 와 동일하고, F 는 R2 와 Ic 가 동일한 사이즈인 경우 항등함수 (identity) 이거나, 그렇지 않은 경우 F 는 리스케일링 함수이다.

변형예에 따르면, 디코딩 방법은 또한 차이 화상 (DIFF) 과 연관된 부호의 선택적 디코딩을 포함한다. 그러한 부호가 디코딩되는 경우, 스페셜 참조 화상 (R1') 은 부호가 포지티브인 경우 F(R2)+DIFF 와 동일하고, 부호가 네거티브인 경우에는 F(R2)-DIFF 와 동일하다.

다른 변형예에 따르면, 스트림 (S_diff) 은 R1 의 일부 블록들에 대해 이들 블록들과 R2 내의 동일 장소에 배치된 블록들 사이의 차이를 인코딩한다. R1 내의 다른 블록들은 고전적인 인트라 예측을 사용하여, 즉 이웃하는 복원된 샘플들로부터 S_diff 에서 인코딩된다.

다른 변형예에 따르면, 스트림 (S_diff) 은 R1 의 일부 블록들에 대해 이들 블록들과 R2 내의 대응하는 블록들 사이의 차이를 인코딩한다. R2 내의 대응하는 블록들은 동일 장소에 배치된 블록들 또는 모션 보상된 블록들이다. R1 의 다른 블록들은 고전적인 인트라 예측을 사용하여, 즉 이웃하는 복원된 샘플들로부터 S_diff 에서 인코딩된다.

정보 (INFO) 를 디코딩하는 것은 상이한 사용 케이스들을 핸들링하는 것을 가능하게 한다. 예로서, 현재의 화상 블록 (Bc) 이 2 개의 복원된 참조 화상들 (R1 및 r1) 으로부터 인코딩되는 경우, 2 개의 스페셜 참조 화상들 (R1' 및 r1') 및 2 개의 정보 (INFO 및 info) 가 단계 (10) 에서 디코딩된다. 스페셜 참조 화상들 (R1' 및 r1') 은 각각 R2 및 r2 에 대응하고, 여기서 R2 및 r2 는 Bc 가 그로부터 복원되어야 하는 DPB 에 저장된 2 개의 복원된 참조 화상들이다. 결과적으로, INFO 는 디코더에게 R1' 가 R2 로부터 복원되어야 한다는 것을 나타내는 반면 info 는 r1' 가 r2 로부터 복원되어야 한다는 것을 나타낸다.

각각의 스페셜 화상은 예를 들어 고전적인 I, P, B 화상/슬라이스 타입과는 상이한 화상/슬라이스 타입을 나타내는 전용 플래그로 스트림 (S_diff) 에서 식별된다. 이러한 화상/슬라이스 타입은 현재의 AU 가 디스플레이되지 않는 스페셜 참조 화상을 포함하다는 것을 나타낸다. 변형예에 따르면, 각 스페셜 화상은 슬라이스 헤더 내의 전용 플래그로 식별된다.

변형예에 따르면, 화상 슬라이스 타입은 I, P 또는 B 이지만, 슬라이스 헤더 내의 스페셜 플래그는 복원된 화상이 디스플레이되지 않고 DPB 에 참조로서 저장된다는 것을 나타낸다.

DPB 내의 복원된 참조 화상 (R2) 을 식별하는 정보 (INFO) 는 예를 들어 문서 ISO/IEC 14496-10 (섹션 3.104) 에서 정의된 바와 같은 POC ("Picture Order Count" 의 영어 축약어) 이다. 변형예에 따르면, 복원된 참조 화상을 식별하는 정보는 복원된 참조 화상 인덱스이다.

단계 (16) 에서, 현재의 화상 블록 (Bc) 은 스페셜 참조 화상 (R1') 으로부터 복원된다. 보통, 스페셜 참조 화상은 R2 보다 R1 에 컨텐츠의 면에서 더 가깝기 때문에, 드리프트가 따라서 감소된다. 보통, 화상 블록을 복원하는 것은 스트림 (S) 으로부터 레지듀를 디코딩하는 것 및 레지듀를 예측자에 가산하는 것을 포함한다. 레지듀는 스킵 모드의 경우에 제로일 수 있다. 레지듀를 디코딩하는 것은 엔트로피 디코딩, 역양자화 및 인코더 측에서 적용된 변환의 역인 변환을 적용하는 것을 포함한다. 이들 단계들은 비디오 압축/코딩의 기술에서 통상의 기술자에게 잘 알려져 있고 더 개시되지 않는다. 스페셜 참조 화상 (R1') 내의 참조 블록은 스트림 (S) 으로부터 디코딩된 모션 벡터에 의해 식별된다. 참조 블록은 예측자로서 사용된다. 양방향 예측의 경우, 2 개의 참조 블록들이 가능하게는 하나의 그리고 동일한 복원된 참조 화상인 2 개의 복원된 참조 화상들에서 식별된다. 예측자는 이들 2 개의 참조 블록들의 가중된 합이다. Bc 가 인코딩에서 사용된 복원된 참조 화상들 (R1 및 r1) 과 상이할 수도 있는 2 개의 복원된 참조 화상들 (R2 및 r2) 에 속하는 2 개의 참조 블록들로부터 양방향 예측되는 경우, 2 개의 SRP 들 (R1' 및 r1') 가 가능하게는 복원된다. 스페셜 참조 화상들 (R1' 및 r1') 은 따라서 Bc 에 대한 참조 화상들로서 사용된다. Bc 는 또한 r1 이 Bc 를 복원할 때 DPB 에서 이용가능한 경우에 하나의 스페셜 참조 화상 (R1') 으로부터 그리고 r1 으로부터 복원될 수 있다. INFO 및 부호는 (슬라이스 헤더 내의 또는 슬라이스 세그먼트 헤더 내의) 각각의 스페셜 참조 화상에 대해 디코딩될 수 있거나 하나의 싱글 헤더 내에서 수개의 스페셜 참조 화상들에 대해 그룹핑될 수도 있다. INFO 및 부호는 예를 들어 SEI 메시지, VPS (Video Parameter Set HEVC) 로부터 또는 Sc 의 슬라이스 헤더로부터 디코딩된다.

도 6 은 특정의 그리고 비제한적인 실시형태에 따른 인코딩 방법의 플로우챠트를 도시한다. 그 방법은 스트림 (S) 내의 현재의 화상 블록 (Bc) 을 인코딩하기 위한 것이다.

단계 (20) 에서, 현재의 화상 블록 (Bc) 은 스트림 (S) 내의 적어도 하나의 제 1 복원된 참조 화상 (R1) 으로부터 인코딩된다. 보통, 현재의 화상 블록을 인코딩하는 것은 레지듀를 결정하는 것, 그 레지듀를 변환하는 것, 및 그 변환된 레지듀를 양자화된 데이터로 양자화하는 것을 포함한다. 그 양자화된 데이터는 또한 스트림 (S) 에서 엔트로피 코딩된다. 레지듀는 현재의 화상 블록 (Bc) 으로부터 예측자를 감산함으로써 획득된다. 예측자는 제 1 복원된 참조 화상 (R1) 으로부터 결정된다. 더 자세하게는, 예측자는 모션 벡터에 의해 복원된 참조 화상 (R1) 에서 결정된다. 현재의 블록이 2 개의 참조 블록들로부터 양방향 예측되는 경우, 예측자는 이들 2 개의 참조 블록들을 평균화함으로써 획득된다. 2 개의 참조 블록들은 2 개의 상이한 복원된 참조 화상들 (R1 및 r1) 에 또는 하나의 및 동일한 복원된 참조 화상에 속한다. 모션 벡터들은 또한 스트림 (S) 에서 인코딩된다. 이들 단계들은 비디오 압축의 기술에서 당업자에게 잘 알려져 있고 더 개시되지 않는다.

단계 (24) 에서, 복원된 참조 화상 (R1) 및 정보 (INFO) 가 스트림 (S_diff) 으로 인코딩된다. S_diff 의 디코딩은 SRP 이다. 스트림 (S_diff) 은 스트림 (S) 의 일부일 수도 있거나 스트림 (S) 에 대해 독립적일 수도 있다. 복원된 참조 화상 (R1) 은 INFO 에 의해 식별되는 R1 과 상이한 제 2 복원된 참조 화상 (R2) 으로부터 S_diff 에서 인코딩된다. 변형예에 따르면, 복원된 참조 화상 (R2) 의 사이즈가 현재의 화상 (Ic) 의 사이즈와 및 따라서 R1 의 사이즈와 상이한 경우, R2 는 (가능하게는 적절한 패딩을 갖는) 리스케일링된 R2 화상이 Ic 와 동일한 사이즈를 갖도록 복원된 참조 화상 (R1) 의 인코딩에 대해 리스케일링된다. 이러한 경우, R1 은 F(R2) 로부터 인코딩되고, 여기서 F 는 리스케일링 팩터이다.

예로서, 스트림 (S_diff) 은 R1 과 R2 사이의 화소 차이 (DIFF) 에 의해 화소를 인코딩한다. DIFF 화상은 변환 (예를 들어, DCT 를 사용), 양자화 및 엔트로피 코딩에 의해 인코딩된다. 변형예에 따르면, R1 및 R2 가 상이한 사이즈인 경우, 차이 화상은 복원된 참조 화상 (R1) 과 리스케일링된 제 2 복원된 참조 화상 (R2) 사이의 차이이다. 예로서, R2 가 R1 보다 큰 경우, R2 는 다운스케일링되고, R2 가 R1 보다 작은 경우, R2 는 업스케일링된다. 이러한 경우에, DIFF = R1-F(R2) 이고, F 는 R2 및 Ic 가 동일한 사이즈인 경우 항등 함수이고, 그렇지 않은 경우 리스케일링 함수이다.

변형예에 따르면, 디코딩 방법은 또한 차이 화상과 연관된 부호의 선택적 디코딩을 포함한다. 그러한 부호가 디코딩되는 경우, 스페셜 참조 화상 (R1') 은 부호가 포지티브인 경우에는 F(R2)+DIFF 와 동일하고, 부호가 네거티브인 경우에는 F(R2)-DIFF 와 동일하다.

다른 변형예에 따르면, 스트림 (S_diff) 은 이들 블록들과 R2 내의 블록들 (즉, Bc 에 대해 동일 장소에 배치된 블록들 또는 모션 보상된 블록들) 사이의 차이를 R1 의 일부 블록들에 대해 인코딩한다. R1 의 다른 블록들은 고전적인 인트라 예측을 사용하여, 즉 이웃하는 복원된 샘플들로부터 S_diff 에서 인코딩된다.

정보 (INFO) 를 인코딩하는 것은 상이한 사용 케이스를 핸들링하는 것을 가능하게 한다. 예로서, 현재의 화상 블록 (Bc) 이 2 개의 복원된 참조 화상들 (R1 및 r1) 로부터 인코딩되는 경우, 그 2 개의 복원된 참조 화상들은 2 개의 다른 복원된 참조 화상들 (R2 및 r2) 로부터 인코딩된다. INFO 는 디코더에게 스페셜 참조 화상 (R1') 이 R2 로부터 복원되어야 한다는 것을 나타내는 반면, info 는 다른 스페셜 참조 화상 (r1') 이 r2 로부터 복원되어야 한다는 것을 나타낸다. 각각의 스페셜 참조 화상은 예를 들어 고전적인 I, P, B 화상/슬라이스 타입과 상이한 화상/슬라이스 타입을 나타내는 전용 플래그로 스트림 (S_diff) 에서 식별된다. 이러한 화상/슬라이스 타입은 현재의 AU 가 DPB 내의 화상을 대체하기 위해 사용되어야 하는 스페셜 참조 화상이다. 변형예에 따르면, 각각의 스페셜 화상은 슬라이스 헤더 내의 전용 플래그로 식별된다.

변형예에 따르면, 화상 슬라이스 타입은 I, P 또는 B 이지만, 슬라이스 헤더 내의 스페셜 플래그는 복원된 화상이 디스플레이되지 않고 DPB 내에 참조로서 저장된다는 것을 나타낸다.

특정의 실시형태에서, 하나의 스페셜 참조 화상 및 정보 (INFO) 는 DPB 의 복원된 참조 화상의 수개의 또는 각 가능한 쌍들에 대해 인코딩된다. 결과적으로, 임의의 시간에, 블록 (Bc) 은, 비록 그것이 그것이 드리프트를 제한하면서 그로부터 인코딩되었던 것이 아닐지라도, DPB 의 임의의 화상으로부터 복원될 수 있다. 실제로, Bc 를 복원할 때, R1 이 DPB 에서 이용가능하지 않은 경우, Bc 는 R2 대신에 스페셜 참조 화상 (R1') 으로부터 복원될 수 있다. 드리프트는 따라서 R1' 가 R2 보다 R1 에 대해 컨텐츠 면에서 더 가깝기 때문에 제한된다.

제 2 복원된 참조 화상을 식별하는 정보는 예를 들어 POC 이다. 변형예에 따르면, 제 2 복원된 참조 화상을 식별하는 정보는 예를 들어 복원된 참조 화상 인덱스이다.

디코딩 방법에 대해 개시된 모든 변형예 및 옵션들은 인코딩 방법에 적용가능하다. 특히, 인코딩 방법은 차이 화상과 연관된 부호의 선택적 인코딩을 포함한다. INFO 및 부호는 예를 들어 SEI 메시지, VPS (Video Parameter Set HEVC) 로부터, 또는 Sc 의 슬라이스 헤더로부터 디코딩된다.

변형예에 따르면, 인코딩 및 디코딩 방법들은 도 7 에 의해 도시된 바와 같은 스트림 스위칭의 콘텍스트에서 사용된다. 이러한 경우에, 화상들의 제 1 시퀀스는 스트림 (S0) 에서 인코딩된다. 화상들의 제 2 시퀀스는 스트림 (S1) 에서 인코딩된다. 보통, 화상들의 제 2 시퀀스는 제 1 시퀀스와 동일하지만 상이한 비트 레이트로, 즉 상이한 양자화 단계를 사용하여 인코딩된다. 변형예에 따르면, 화상들의 제 2 시퀀스는 제 1 시퀀스의 리스케일링된 버전, 즉 업스케일링된 또는 다운스케일링된 버전이다. 특정의 실시형태에 따르면, S0 및 S1 은 동일한 GOP 구조 (즉, HEVC 표준의 섹션들 8.3.1 및 8.3.2 에서 정의된 바와 같은 동일한 디코딩 순서 및 동일한 참조 화상 리스트들) 를 갖는다.

스트림들 (S0 및 S1) 에 더하여, 각각의 시간 순간 (tn) 에서, S1 의 복원된 참조 화상 (

) 은 또한 도 7 에서 도시된 바와 같은 S0 의 시간적으로 대응하는, 즉 시간적으로 정렬된 (예를 들어, 동일한 화상 순서 카운트) 복원된 참조 화상 (

) 으로부터 SRP 로서 스트림 (S_diff) 에서 인코딩된다. 복원된 참조 화상 (

) 은 대응하는 복원된 참조 화상 (

) 을 식별하는 정보 (info_tn) 로 S_diff 에서 인코딩된다.

에 대응하는 소스 화상은 S1 에서 인코딩되고

에 대응하는 소스 화상은 S0 에서 인코딩된다.

도 5 에 대해 개시된 디코딩 방법은 제 1 스트림 (S0) 으로부터 제 2 스트림 (S1) 으로 스위칭한 후에 화상 블록 (Bc) 을 디코딩하는데 사용된다. 도 7 을 참조하면, 화상들은 시간 (t2) 까지 스트림 (S0) 으로부터 디코딩되고 디스플레이된다. 스위치는 t2 와 t3 사이에 발생한다. 그 스위치 후에, 화상들은 스트림 (S1) 으로부터 디코딩되고 디스플레이된다. 스위치의 시간에, DPB0 는 여기서 S0 로부터 디코딩되는 수개의 복원된 참조 화상들을 포함한다. DPB0 는 S0 에 관련된다. 도 7 에 대해, DPB0 는 스위칭 시간에 3 개의 복원된 참조 화상들 (

,

및

) 을 포함한다.

단계 (10) 에서, S_diff1, S_diff2 및 S_diff3 은 디코딩된 데이터 (예를 들어, 레지듀들 및 코딩 모드들) 로 및 DPB0 에 저장된 복원된 참조 화상들 (

,

및

) 을 식별하는 정보 (info_t0, info_t1, info_t2) 로 디코딩된다.

단계 (12) 에서, 3 개의 스페셜 참조 화상들 (SRP_t0, SRP_t1, SRP_t2) 은 대응하는 디코딩된 데이터로부터 및 대응하는 복원된 참조 화상들 (

,

및

) 로부터 복원된다. 복원된 SRP 는 그 후 DPB0 과 상이한 DPB1 (가능하게는) 에 저장된다. DPB1 은 S1 과 관련된다. 제 1 특정의 실시형태에 따르면, S_diff 는

과 가능하게는 리스케일링된 시간적으로 대응하는 화상 (

) 사이의 화소 차이에 의해 화소를 인코딩한다. 이러한 경우에, 복원된 SRP 는 SPR_t0 = diff_t0+F(

), SPR_t1 = diff_t1+F(

), SPR_t2 = diff_t2+F(

) 이고, 여기서 diff_t0, diff_t1, diff_t2 는 S_diff 로부터 디코딩된다. 필요하다면,

는 그의 사이즈가 현재의 화상 (Ic) 의 사이즈와 동일하도록 F 에 의해 리스케일링된다. 어떠한 스케일링도 발생하지 않는 경우, F 는 항등 함수이다. 제 2 특정의 실시형태에 따르면, S_diff 는 가능하게는 F 에 의해 리스케일링된

을 사용하여

을 인코딩한다. 이러한 경우에,

내의 블록의 예측자는 화상 (

) 내의 공간적으로 동일 장소에 배치된 블록 또는

내의 모션 보상된 블록이거나,

내의 공간적으로 이웃하는 블록들로부터 도출된다 (공간적 인트라 예측). 제 1 특정의 실시형태의 경우에, 어떠한 리스케일링도 필요하지 않는 경우, 즉 제 1 및 제 2 스트림의 화상들의 사이즈들이 동일한 경우, 동일한 차이 화상들 (diff_t0, diff_t1 및 diff_t2) 는 S0 로부터 S1 으로 또는 S1 으로부터 S0 로 스위칭하는데 사용될 수 있다. 이전에 예에서, diff_t0 가

와 스트림 (S1) 내의 시간적으로 대응하는 화상 (

) 사이의 차이를 인코딩하는 경우 그 역 대신에 diff_t0 가 SRP_t0 를 복원하기 위해 가산되는 대신에

로부터 감산된다. 부호는 따라서 복원된 참조 화상들이 차이 화상을 가산하거나 감산함으로써 변경되는지 여부를 특정하도록 디코딩된다.

단계 (16) 에서, Bc 는 DPB1 내의 복원된 참조 화상들로부터 복원된다. 스위치한 직후에, DPB1 은 3 개의 SRP 들을 포함한다.

본 발명은 명백히 3 개의 복원된 참조 화상들의 경우에 제한되지 않는다. 본 발명의 특정의 실시형태에 따르면, DPB0 내의 모든 복원된 참조 화상들에 대해, 스페셜 참조 화상이 단계 (12) 에서 복원되고 DPB1 에 저장된다. 변형예에 따르면, SRP 는 스위치 후에 참조 화상들로서 사용되어야 하는 DPB0 내의 각각의 복원된 참조 화상들에 대해서만 복원된다.

변형예에 따르면, 플래그 (f13) 는 예를 들어 주어진 layer_id 를 갖는 후속적으로 인코딩되는 (각각 디코딩되는) 화상들이 임의의 인터-계층 예측을 사용하고 있지 않다는 것을 나타내는 VPS 또는 SEI 에서 인코딩된다 (각각 디코딩된다). 더욱 자세하게는, 플래그 후에 인코딩된 (각각 디코딩된) 화상들은 임의의 인터-계층 예측을 사용하고 있지 않다.

도 8 은 특정의 및 비제한적인 실시형태에 따른 디코딩 방법의 다른 실시형태를 도시한다. 디코더는 상이한 액세스 유닛들을 수신한다. 액세스 유닛 (AU1) 이 먼저 수신 및 디코딩된다. 제 1 화상 (I1) 이 디코딩된 AU1 으로부터 복원된다. 그 후, 제 2 액세스 유닛 (AU2) 이 수신 및 디코딩된다. 제 2 화상 (I2) 이 디코딩된 AU2 로부터 복원된다. 화상 (I1 및 I2) 은 동일한 스트림 (S0) 에 속하고, 그들이 참조 화상들로서 사용되는 것으로서 시그널링되는 경우 DPB0 에 저장된다. 그 후, 스위치가 발생한다. 그 스위치는 S_diff 스트림을 수신하는 인코더에게 요청을 전송하는 디코더에 의해 요청될 수 있다. 변형예에 따르면, 그 스위치는 인코더에 의해 개시된다. 스위치에 후속하여, 디코더는 2 개의 AU 유닛들 (S_diff1 및 S_diff2) 을 수신한다. S_diff1 및 S_diff2 (단계 10) 는 각각 화상 (I1 및 I2) 을 사용하여 SRP1 및 SRP2 를 복원 (단계 12) 하기 위해 디코딩된다. SRP1 및 SRP2 는 2 개의 스페셜 참조 화상들이다. SRP1 및 SRP2 는 그 후 S1 과 관련되는 DPB1 에 입력된다. 그 후 디코더는 AU3 를 수신하고 그것을 디코딩한다. 화상 (I3) 은 디코딩된 AU3 로부터 그리고 가능하게는 DPB1 의 적어도 하나의 화상, 즉 SRP1 또는 SRP2 로부터 복원된다 (시간 예측). I3 는 제 2 스트림 (S1) 에 속하고 가능하게는 복원된 참조 화상으로서의 장래의 사용을 위해 DPB1 에 저장된다. 디코더는 그 후 AU4 를 수신하고 그것을 디코딩한다. 화상 (I4) 은 디코딩된 AU4 로부터 그리고 가능하게는 DPB1 의 적어도 하나의 화상으로부터 복원된다 (시간 예측). 화상들 (I1, I2, I3 및 I4) 은 디스플레이되는 반면, SRP1, SRP2 는 디스플레이되지 않는다. 실제로, 2 개의 시간적으로 정렬된 화상들 중 단 하나만이 디스플레이된다. SRP1 은 I1 과 시간적으로 정렬되는 반면, SRP2 는 I2 와 시간적으로 정렬된다.

본 발명의 특정의 실시형태에 따르면, 제 1 및 제 2 시퀀스들의 화상들 및 스페셜 참조 화상들은 멀티-계층 스트림으로 인코딩된다. 특정의 예로서, 스페셜 참조 화상들로서 식별된 화상들은, 제 1 시퀀스의 화상들이 그 안에서 인코딩되는 다른 계층 (스트림 (S0)), 예를 들어 베이스 계층으로부터 의존적인 스케일러블 스트림의 향상된 계층으로서 인코딩된다. 제 1 계층은 그것이 디코딩되는 동안 이러한 제 2 계층으로부터 정보를 필요로하는 경우 제 2 계층으로부터 의존적이다. 향상 계층은 S0 로부터 S1 로의 스위치 후에 S1 의 화상들을 복원하기 위한 참조 화상으로서 사용될 스페셜 참조 화상들을, S0 의 복원된 참조 화상들로부터 복원하는 것을 허용한다. 이러한 향상 계층은 예를 들어 SVC 또는 SHVC 코딩 표준과 양립가능하다. 본 발명의 특정의 실시형태에 따르면, 스페셜 참조 화상들은 향상 계층을 인코딩하기 위한 SVC 또는 SHVC 에 의해 제공되는 인코딩 툴들/모드들의 서브 세트로 인코딩된다. 본 발명의 다른 실시형태에 따르면, 인트라-계층 모션 벡터 예측 (시간 예측) 은 SVC 또는 SHVC 코딩 표준에서 디스에이블된다. 대조적으로, S0 계층으로부터의 인트라 예측이 활성화된다. 인트라 화상 예측이 또한 활성화될 수도 있다. 다른 실시형태에 따르면, 시간 mv 예측은 예를 들어 HEVC 플래그 slice_temporal_mvp_enable_flag 를 거짓 (false) 으로 세팅함으로써 S0 및 S1 을 코딩하는데 디스에이블된다. 이것은 모션 벡터 예측 (MV 예측) 이 복원된 이웃 코딩 유닛들로부터의 MV 를 사용하여, 그러나 이전에 복원된 참조 화상들의 MV 들을 사용하지 않고 구축된다는 것을 의미한다.

다음의 도 9 및 도 10 에서, 인코딩 및 디코딩 모듈들은 인코더 및 디코더로서 지칭된다.

도 9 는 특정의 및 비제한적인 실시형태에 따른 멀티-계층 인코더를 도시한다. 제 1 시퀀스의 화상들은 모노-계층 인코더 예를 들어 MPEG2, H.264 또는 HEVC 호환 인코더인 제 1 인코더 (ENC0) 를 사용하여 S0 에서 인코딩된다. 본 발명은 사용된 모노-계층 인코더에 의해 제한되지 않는다. ENC0 로 인코딩되는 참조 화상들은 R2 로서 복원되고 제 3 인코더 ENC2 로의 입력으로서 제공된다. 제 2 인코더 (ENC1) 는 S1 에서의 제 2 시퀀스의 화상들을 인코딩하는데 사용된다. 본 발명은 사용된 인코더에 제한되지 않는다. 복원된 참조 화상들 (R2) 에 시간적으로 대응하는 ENC1 로 인코딩된 참조 화상들은 R1 으로서 복원되고 제 3 인코더 (ENC2) 로 입력으로서 제공된다. 따라서, ENC0 의 DPB 내의 각각의 복원된 참조 화상 (R2) 의 경우, 시간적으로 대응하는 참조 화상 (R1) 이 복원된다.

인코더 (ENC2) 는 따라서 가능하게는 스트림 (S_diff) 으로 리스케일링된 시간적으로 대응하는 복원된 참조 화상 (R2) 으로부터 복원된 참조 화상들 (R1) 을 인코딩한다. 특정의 실시형태에 따르면, 인코더 (ENC2) 는 R1 으로부터 (가능하게는 리스케일링된) R2 를 감산하는 감산기 및 또한 이렇게 획득된 가능하게는 변환되고 양자화된 차이 화상을 인코딩하는 엔트로피 코더를 포함한다. 변형예에 따르면, R1 의 각 블록으로부터 예측자가 감산되고, 여기서 예측자는 (가능하게는 리스케일링된) 화상 (R2) 내의 공간적으로 동일 장소에 배치된 블록 또는 (가능하게는 리스케일링된) R2 내의 모션 보상된 블록이거나 R1 내의 공간적으로 이웃하는 블록들로부터 도출된다 (공간 인트라 예측). 레지듀가 따라서 획득되고, 가능하게는 변환 및 양자화된 후에 또한 엔트로피 코딩된다. 이러한 경우, S_diff 에서 인코딩되는 것은 R1 과 R2 사이의 화소 차이에 의한 단순한 화소가 아니다. 복원된 참조 화상 (R1) 을 인코딩하는데 사용되는 복원된 참조 화상 (R2) 을 식별하는 정보 (INFO) 는 또한 S_diff 에서 인코딩된다. 인코더 (ENC2) 는 예를 들어 SVC 또는 SHVC 와 같은 스케일러블 비디오 인코더와 호환가능하다. 본 발명은 사용되는 스케일러블 인코더에 의해 제한되지 않는다. 스케일러블 비디오 코덱 표준들은 다른 향상 계층들에 속하는 것들로부터 하나의 계층 (BL) 에 속하는 AU 를 분리/구별하기 위해 layer_id 표시자를 정의한다. 특정의 실시형태에 따르면, ENC0 로부터 오는 AU 는 ENC2 로부터 오는 AU 들을 인코딩하는데 사용되는 layer_id 와는 상이한 주어진 layer_id 로 인코딩된다. ENC1 로부터 오는 AU 들 및 ENC2 로부터 오는 AU 는 동일한 layer_id 를 갖는다. 이로운 실시형태에 따르면, ENC1 및 ENC2 는 동일한 인코딩 모듈일 수 있다.

도 10 은 특정의 및 비제한적인 실시형태에 따른 멀티-계층 디코더를 도시한다. 제 1 스트림 (S0) 은 모노-계층 디코더 예를 들어 MPEG2, H.264 또는 HEVC 호환 디코더인 제 1 디코더 (DEC0) 를 사용하여 디코딩된다. 본 발명은 사용된 모노-계층 디코더에 의해 제한되지 않는다. 디코더 (DEC0) 는 제 1 스트림 (S0), 특히 DPB0 에 저장되는 참조 화상들 (R2) 로부터 화상들을 복원한다. 제 2 디코더 (DEC1) 는 제 2 스트림 (S1) 으로부터의 화상들을 복원하는데 사용된다. 본 발명은 사용되는 디코더에 의해 제한되지 않는다. 디코더 (DEC2) 는 DPB0 내의 복원된 참조 화상 (R2) 을 식별하는 정보 (INFO) 를 스트림 (S_diff) 으로부터 디코딩한다 (단계 10). 디코더 (DEC2) 는 예를 들어 SVC 또는 SHVC 와 같은 스케일러블 비디오 디코더와 호환가능하다. 본 발명은 사용되는 스케일러블 디코더에 의해 제한되지 않는다. 디코더 (DEC2) 는 가능하게는 리스케일링된 시간적으로 정렬된 복원된 참조 화상 (R2) 으로부터 및 S_diff 로부터 디코딩된 데이터 (예를 들어, 레지듀들, 코딩 모드들) 로부터 스페셜 참조 화상 (R1') 을 또한 복원한다 (단계 12). 특정의 실시형태에 따르면, 디코더 (DEC2) 는 S_diff 로부터 레지듀를 디코딩하는 엔트로피 디코더 및 예측자에 레지듀를 가산하는 가산기를 포함하고, 여기서 예측자는 가능하게는 리스케일링된 R2 내의 동일 장소에 배치되거나 모션 보상된 블록들로부터 또는 R1' 내의 복원된 샘플들로부터 도출된다 (인트라 화상 예측). 스페셜 참조 화상 (R1') 은 그 후 DPB1 에 놓여진다.

이로운 실시형태에 따르면, DEC1 및 DEC2 는 동일한 디코딩 모듈일 수 있다.

도 11 은 특정의 및 비제한적인 실시형태에 따른 멀티-계층 스트림을 나타낸다. 이러한 도면에서, 점선들은 화상 종속성들을 나타낸다. layer_id=Layer_A 를 갖는 AU1 및 AU2 가 수신되고 디코딩된다. 참조 화상 (b1 및 b2) 는 디코딩된 AU 로부터 복원되고 Layer_A 의 DPB_A 에 저장된다. 스위칭 시에, layer_id=Layer_B 를 갖는 AU 들 S_diff1 및 S_diff2 가 수신되고 디코딩된다. 디코더 (DEC2) 는 그 후 S_diff1 로부터 및 S_diff2 로부터 디코딩된 데이터롤부터 및 또한 각각 S_diff1 및 S_diff2 로부터 디코딩된 정보 (info_1 및 info_2) 에 의해 식별된 b1 및 b2 로부터 스페셜 참조 화상들 (e'1 및 e'2) 을 복원하다. 각각 b1 및 b2 와 시간적으로 정렬되는 스페셜 참조 화상들 (e'1 및 e'2) 은 Layer_B 의 DPB_B 에 저장된다. 그 후, AU3 가 수신되고 디코딩된다. 화상 (e3) 은 이러한 디코딩된 AU3 로부터 및 또한 스페셜 참조 화상들 (e'1 및 e'2) 로부터 복원된다. 복원된 화상 (e3) 은 e3 가 e4 에 대해 복원된 참조 화상으로서 사용되기 때문에 DPB_B 에 저장된다. AU4 가 수신되고 디코딩된다. 화상 (e4) 이 디코딩된 AU4 로부터 및 또한 스페셜 참조 화상 (e'2) 및 복원된 참조 화상 (e3) 로부터 복원된다. 다음의 AU5 및 AU6 가 수신되고 디코딩된다. 대응하는 화상들 (e5 및 e6) 이 디코딩된 AU5 및 AU6 로부터 복원된다. DPB_B 는 가능하게는 복원된 화상들이 참조 화상들로서 사용되는 경우에 e5 및 e6 를 가산함으로써 업데이트된다. e'1 은 우선적으로 e3 를 인코딩할 때 사용되는 복원된 참조 화상들 중의 하나 e1 의 근사치이다. e'2 는 우선적으로 e3 및 e4 를 인코딩할 때 사용되는 복원된 참조 화상들 중의 하나 e2 의 근사치이다.

이롭게도, 플래그 (f13) 는 예를 들어 VPS 에서 또는 SEI 에서 인코딩되며 (각각 디코딩되며), 주어진 layer_id 를 갖는 후속적으로 인코딩되는 (각각 디코딩되는) 디코딩된 화상들이 임의의 인터-계층 예측을 사용하고 있지 않다는 것을 나타낸다. 더욱 자세하게는, 그 플래그 후에 인코딩되는 (각각 디코딩되는) 화상들은 임의의 인터-계층 예측을 사용하고 있지 않다.

제 1 및 제 2 시퀀스들의 화상들 및 스페셜 참조 화상들을 멀티-계층 스트림으로 인코딩하는 것은 시간적으로 정렬된, 예를 들어 동일한 POC 를 갖는 2 개의 참조 화상들 (b1 및 e'1 또는 b2 및 e'2) 을 복원하는 것을 가능하게 한다. 실제로, 멀티-계층 접근법에서, DPB 들이 사용된다. 구체적으로는, 하나의 DPB 가 계층 마다 사용된다. 결과적으로, 시간적으로 정렬된 복원된 참조 화상들은 상이한 DPB 들에 저장된다. 멀티-계층 스트림을 디코딩하는 것은 계층들의 종속성으로 인해 고전적으로 레벨 (N+1) 의 계층을 디코딩하기 전에 레벨 (N) 의 계층을 디코딩하는 것을 요구하며, 여기서 N 은 정수이다. 계층들 사이의 그러한 종속성은 스트림 스위칭 애플리케이션과 양립가능하지 않다. 이롭게도, 플래그 (f13) 를 인코딩하는 것은 계층들 사이의 독립성을 도입하고 따라서 스케일러블 인코딩/디코딩을 스트림 스위칭 애플리케이션들에 적합하게 한다.

본 발명에 따른 인코딩 및 디코딩 방법들은 스위칭이 발생할 때만 작은 비트 레이트 오버헤드를 가지면서 유연한 스트림 스위칭을 실현하는 것을 가능하게 한다. 이들 방법들은 임의의 GOP 구조, 임의의 수의 복원된 참조 화상들에 대해 그리고 디코딩 순서가 디스플레이 순서와 상이한 경우에도 적합하다.

신택스의 예가 S_diff 스트림에 대해 SHVC 코딩 표준 프레임워크 내에서 이하에 제공된다.

slice_type 이 스페셜 참조 화상의 슬라이스를 식별하기 위해 추가된다.

1 과 동일한 sign_ diff _ pic 는 레지듀얼들이 예측에 가산되어야 한다는 것을 나타내고, 그 밖에는 레지듀얼들이 예측으로부터 감산되어야 한다는 것을나타낸다.

pic _order_ cnt _ diffpic _ lsb 는 이러한 스페셜 참조 화상에 대해 화상 순서 카운트 모듈로 MaxPicOrderCntLsb 를 특정한다. 그 후, 인트라 BL 예측은 동일한 pic_order_cnt 를 갖는 DPB 내의 참조 화상을 사용할 것이다. pic_order_cnt_lsb 신택스 엘리먼트의 길이는 log2_max_pic_order_cnt_lsb_minus4 + 4 비트들이다. pic_order_cnt_diffpic_lsb 의 값은 0 내지 MaxPicOrderCntLsb -1 의 범위 (경계값 포함) 에 있을 것이다. pic_order_cnt_diffpic_lsb 이 존재하지 않는 경우, pic_order_cnt_diffpic_lsb 는 0 과 동일한 것으로 추론된다.

delta_ poc _ msb _ diffpic _cycle_ lt 는 이러한 스페셜 참조 화상을 복원하는데 사용되는 DPB 내의 롱-텀 (long-term) 복원된 참조 화상의 화상 순서 카운트의 최상위 비트들의 값을 결정하는데 사용된다. delta_poc_msb_cycle_lt 가 존재하지 않는 경우, 그것은 0 과 동일한 것으로 추론된다.

num _layer_id_ diffpic _apply 는 이러한 스페셜 참조 화상을 디코딩하는데 사용되는 복원된 참조 화상들의 num_layer_id 를 나타낸다.

신택스의 예들 ( vps 확장):

1 과 동일한 diff _ pic _flag_enabled 는 inter_layer_ pred _for_non_ diff _ picture_flag 가 코딩되는 것을 나타낸다.

1 과 동일한 inter_layer_ pred _for_non_ diff _picture_flag 는 타입 I, P 또는 B 의 임의의 후속하는 화상이 인터-계층 예측을 사용하지 않는다는 것을 나타내지만, 타입 SRP 의 화상들은 시간적 인트라 계층 예측이 아니라 인터 계층 예측을 사용할 수도 있다.

본 발명에 따른 그리고 도 9 및 도 10 에 도시된 비디오 코더 및 디코더는 예를 들어 하드웨어, 소프트웨어, 펌웨어, 특수 목적 프로세서들 또는 이들의 조합의 여러 형태로 구현된다. 바람직하게는, 본 원리들은 하드웨어 및 소프트웨어의 조합으로서 구현될 수도 있다. 또한, 소프트웨어는 바람직하게는 프로그램 저장 디바이스 상에 유형적으로 수록된 애플리케이션 프로그램으로서 구현된다. 애플리케이션 프로그램은 임의의 적합한 아키텍쳐를 포함하는 머신에 업로드되고 그 머신에 의해 실행될 수도 있다. 바람직하게는, 그 머신은 하나 이상의 중앙 처리 장치들 (CPU), 랜덤 액세스 메모리 (RAM), 및 입력/출력 (I/O) 인터페이스(들) 과 같은 하드웨어를 갖는 컴퓨터 플랫폼상에서 구현된다. 컴퓨터 플랫폼은 또한 운영 시스템 및 마이크로명령 코드를 포함한다. 여기에 기술된 여러 프로세스들 및 기능들은 마이크로명령 코드의 부분이거나 운영 시스템을 통해 실행되는 애플리케이션 프로그램의 부분 (또는 이들의 조합) 일 수도 있다. 또, 부가적인 데이터 저장 장치 및 프린팅 장치와 같은 여러 다른 주변 장치들이 컴퓨터 플랫폼에 연결될 수도 있다.

변형예들에 따르면, 본 발명에 따른 코딩 및 디코딩 디바이스들은 예를 들어 전용 컴포넌트 (예를 들어, ASIC (Application Specific Integrated Circuit) 또는 FPGA (Field-Programmable Gate Array) 또는 VLSI (Very Large Scale Integration)) 또는 디바이스로 집적된 수개의 전자 컴포넌트들의 형태의 순수하게 하드웨어 실현에 따라, 또는 심지어 하드웨어 엘리먼트들 및 소프트웨어 엘리먼트들의 혼합의 형태로 구현된다.

Claims

방법으로서,
멀티-계층 스트림의 제1 계층의 디코더 화상 버퍼의 다른 참조 화상 및 상기 멀티-계층 스트림의 제2 계층으로부터 디코딩된 데이터로부터 참조 화상을 복원하고, 상기 복원된 참조 화상을 상기 제2 계층의 디코더 화상 버퍼에 저장하는 단계 - 상기 제2 계층의 상기 디코더 화상 버퍼는 상기 제1 계층의 상기 디코더 화상 버퍼와 상이하고, 상기 복원된 참조 화상은 디스플레이되지 않는 것으로서 표시됨 -;
상기 제2 계층의 후속적으로 디코딩된 화상이 임의의 인터-계층 예측을 사용하고 있지 않다는 것을 표시하는 플래그를 디코딩하는 단계; 및
적어도 상기 복원된 참조 화상으로부터 상기 후속적으로 디코딩된 화상의 화상 블록을 복원하는 단계
를 포함하는 방법.
제 1 항에 있어서,
상기 다른 참조 화상을 식별하기 위한 정보를 상기 제2 계층으로부터 디코딩하는 단계를 더 포함하는 방법.
제 1 항 또는 제 2 항에 있어서,
상기 복원된 참조 화상 및 상기 다른 참조 화상은 시간적으로 정렬되는, 방법.
방법으로서,
멀티-계층 스트림의 제2 계층에서, 상기 멀티-계층 스트림의 제1 계층의 디코더 화상 버퍼의 다른 참조 화상으로부터 상기 제2 계층의 디코더 화상 버퍼의 참조 화상을 인코딩하는 단계 - 상기 제2 계층의 상기 디코더 화상 버퍼는 상기 제1 계층의 상기 디코더 화상 버퍼와 상이하고, 상기 참조 화상은 디스플레이되지 않는 것으로서 표시됨 -;
상기 제2 계층의 후속적으로 인코딩된 화상이 임의의 인터-계층 예측을 사용하고 있지 않다는 것을 표시하는 플래그를 인코딩하는 단계; 및
적어도 상기 참조 화상으로부터 상기 후속적으로 인코딩된 화상의 화상 블록을 인코딩하는 단계
를 포함하는 방법.
제 4 항에 있어서,
상기 다른 참조 화상을 식별하기 위한 정보를 상기 제2 계층에서 인코딩하는 단계를 더 포함하는 방법.
제 4 항 또는 제 5 항에 있어서,
상기 참조 화상 및 상기 다른 참조 화상은 시간적으로 정렬되는, 방법.
디코더로서,
멀티-계층 스트림의 제1 계층의 디코더 화상 버퍼의 다른 참조 화상 및 상기 멀티-계층 스트림의 제2 계층으로부터 디코딩된 데이터로부터 참조 화상을 복원하고, 상기 복원된 참조 화상을 상기 제2 계층의 디코더 화상 버퍼에 저장하기 위한 수단 - 상기 제2 계층의 상기 디코더 화상 버퍼는 상기 제1 계층의 상기 디코더 화상 버퍼와 상이하고, 상기 복원된 참조 화상은 디스플레이되지 않는 것으로서 표시됨 -;
상기 제2 계층의 후속적으로 디코딩된 화상이 임의의 인터-계층 예측을 사용하고 있지 않다는 것을 표시하는 플래그를 디코딩하기 위한 수단; 및
적어도 상기 복원된 참조 화상으로부터 상기 후속적으로 디코딩된 화상의 화상 블록을 복원하기 위한 수단
을 포함하는 디코더.
제 7 항에 있어서,
상기 다른 참조 화상을 식별하기 위한 정보를 상기 제2 계층으로부터 디코딩하기 위한 수단을 더 포함하는 디코더.
제 7 항 또는 제 8 항에 있어서,
상기 복원된 참조 화상 및 상기 다른 참조 화상은 시간적으로 정렬되는, 디코더.
인코더로서,
멀티-계층 스트림의 제2 계층에서, 상기 멀티-계층 스트림의 제1 계층의 디코더 화상 버퍼의 다른 참조 화상으로부터 상기 제2 계층의 디코더 화상 버퍼의 참조 화상을 인코딩하기 위한 수단 - 상기 제2 계층의 상기 디코더 화상 버퍼는 상기 제1 계층의 상기 디코더 화상 버퍼와 상이하고, 상기 참조 화상은 디스플레이되지 않는 것으로서 표시됨 -;
상기 제2 계층의 후속적으로 인코딩된 화상이 임의의 인터-계층 예측을 사용하고 있지 않다는 것을 표시하는 플래그를 인코딩하기 위한 수단; 및
적어도 상기 참조 화상으로부터 상기 후속적으로 인코딩된 화상의 화상 블록을 인코딩하기 위한 수단
을 포함하는 인코더.
제 10 항에 있어서,
상기 다른 참조 화상을 식별하기 위한 정보를 상기 제2 계층에서 인코딩하기 위한 수단을 더 포함하는 인코더.
제 10 항 또는 제 11 항에 있어서,
상기 참조 화상 및 상기 다른 참조 화상은 시간적으로 정렬되는, 인코더.
멀티-계층 스트림이 인코딩되어 있는 저장 매체로서,
상기 멀티-계층 스트림은:
상기 멀티-계층 스트림의 제2 계층의 디코더 화상 버퍼의 참조 화상을 위한 코딩된 데이터 - 상기 참조 화상은 상기 멀티-계층 스트림의 제1 계층의 디코더 화상 버퍼의 다른 참조 화상으로부터 인코딩되고, 상기 제2 계층의 상기 디코더 화상 버퍼는 상기 제1 계층의 상기 디코더 화상 버퍼와 상이하고, 상기 참조 화상은 디스플레이되지 않는 것으로서 표시됨 -;
상기 제2 계층의 후속적으로 인코딩된 화상이 임의의 인터-계층 예측을 사용하고 있지 않다는 것을 표시하는 플래그; 및
상기 후속적으로 인코딩된 화상의 화상 블록을 위한 코딩된 데이터 - 상기 화상 블록은 적어도 상기 참조 화상으로부터 인코딩됨 -
를 포함하는 저장 매체.
제 13 항에 있어서, 상기 제2 계층에서, 상기 다른 참조 화상을 식별하기 위한 정보를 더 포함하는, 저장 매체.
제 13 항 또는 제 14 항에 있어서, 상기 참조 화상 및 상기 다른 참조 화상은 시간적으로 정렬되는, 저장 매체.
멀티-계층 스트림으로서,
상기 멀티-계층 스트림의 제2 계층의 디코더 화상 버퍼의 참조 화상을 위한 코딩된 데이터 - 상기 참조 화상은 상기 멀티-계층 스트림의 제1 계층의 디코더 화상 버퍼의 다른 참조 화상으로부터 인코딩되고, 상기 제2 계층의 상기 디코더 화상 버퍼는 상기 제1 계층의 상기 디코더 화상 버퍼와 상이하고, 상기 참조 화상은 디스플레이되지 않는 것으로서 표시됨 -;
상기 제2 계층의 후속적으로 인코딩된 화상이 임의의 인터-계층 예측을 사용하고 있지 않다는 것을 표시하는 플래그; 및
상기 후속적으로 인코딩된 화상의 화상 블록을 위한 코딩된 데이터 - 상기 화상 블록은 적어도 상기 참조 화상으로부터 인코딩됨 -
를 포함하는 멀티-계층 스트림.
제 16 항에 있어서, 상기 제2 계층에서, 상기 다른 참조 화상을 식별하기 위한 정보를 더 포함하는, 멀티-계층 스트림.
제 16 항 또는 제 17 항에 있어서, 상기 참조 화상 및 상기 다른 참조 화상은 시간적으로 정렬되는, 멀티-계층 스트림.
송신 디바이스로서,
멀티-계층 스트림의 제2 계층에서, 상기 제2 계층의 디코더 화상 버퍼의 참조 화상을 위한 코딩된 데이터를 송신하기 위한 수단 - 상기 참조 화상은 상기 멀티-계층 스트림의 제1 계층의 디코더 화상 버퍼의 다른 참조 화상으로부터 인코딩되고, 상기 제2 계층의 상기 디코더 화상 버퍼는 상기 제1 계층의 상기 디코더 화상 버퍼와 상이하고, 상기 참조 화상은 디스플레이되지 않는 것으로서 표시됨 -;
상기 제2 계층의 후속적으로 인코딩된 화상이 임의의 인터-계층 예측을 사용하고 있지 않다는 것을 표시하는 플래그를 송신하기 위한 수단; 및
상기 후속적으로 인코딩된 화상의 화상 블록을 위한 코딩된 데이터를 송신하기 위한 수단 - 상기 화상 블록은 적어도 상기 참조 화상으로부터 인코딩됨 -
을 포함하는 송신 디바이스.
제 19 항에 있어서, 상기 송신 디바이스는, 상기 제2 계층에서, 상기 다른 참조 화상을 식별하기 위한 정보를 송신하도록 추가로 구성되는, 송신 디바이스.
제 19 항 또는 제 20 항에 있어서, 상기 참조 화상 및 상기 다른 참조 화상은 시간적으로 정렬되는, 송신 디바이스.