KR102415261B1

KR102415261B1 - 디지털 이미지의 인트라―코딩을 위한 방법 및 대응하는 디코딩 방법

Info

Publication number: KR102415261B1
Application number: KR1020187034557A
Authority: KR
Inventors: 조엘 정; 펠릭스 헨리; 샬린 무톤
Original assignee: 비〈〉컴
Priority date: 2016-06-29
Filing date: 2017-06-19
Publication date: 2022-06-30
Also published as: KR20190022495A; FR3053555A1; US20190174138A1; JP2019520005A; WO2018002474A1; CN109417618A; US10812814B2; EP3479572A1; JP7059207B2

Abstract

본 발명은 적어도 하나의 이미지를 나타내는 코딩된 데이터 스트림을 디코딩하기 위한 방법에 관한 것이며, 상기 이미지는 블록들로 슬라이싱되고, 적어도 2개의 예측 모드들의 세트는 블록, 소위 현재 블록을 예측하기 위해 이용 가능하고, 상기 방법은 다음의 단계들; - 세트로부터 예측 모드들의 적어도 2개의 카테고리들을 획득하는 단계(E10); - 적어도 하나의 제1 미리 결정된 제거 기준에 따라 적어도 하나의 카테고리를 제거하는 단계(E11); - 적어도 하나의 제거된 카테고리와 공유되는 공통 예측 모드들을 삭제함으로써 제거되지 않은 카테고리들을 업데이트하는 단계(E12); - 데이터 스트림에 기반하여, 현재 블록에 대해, 업데이트된 카테고리들의 모드들 중에서 예측 모드를 식별하는 정보 아이템을 디코딩하는 단계(D20)를 포함한다.

Description

디지털 이미지의 인트라―코딩을 위한 방법 및 대응하는 디코딩 방법

1. 본 발명의 분야

본 발명의 분야는 이미지들 또는 이미지들 시퀀스들, 특히 비디오 스트림들의 코딩 및 디코딩의 분야이다.

더 구체적으로, 본 발명은 이미지들의 블록 표현을 사용하는 이미지들 또는 이미지들의 시퀀스들의 압축에 관한 것이다.

본 발명은 특히 현재 코더들(JPEG, MPEG, H.264, HEVC 등 및 그들의 개정들)로 구현되는 이미지 또는 비디오 코딩 또는 장래의 것들 및 대응하는 디코딩 프로세스에 적용될 수 있다.

2. 관련 기술의 설명

이미지들 및 디지털 이미지 시퀀스들은, 메모리 측면에서 많은 공간을 차지하고, 이는, 이러한 이미지들을 송신할 때, 이러한 송신을 위해 사용되는 네트워크에 대해 혼잡 문제들을 피하기 위해 이미지들을 압축할 것을 요구한다. 사실, 이러한 네트워크 상에서 사용 가능한 스루풋은 일반적으로 제한된다.

비디오 데이터 압축의 많은 기법들이 이미 알려져 있다. 이들 중에서, HEVC 압축 표준(고효율 비디오 코딩, 코딩 툴들 및 규격, Matthias Wien, 신호들 및 통신 기술, 2015)은 동일한 이미지(인트라 예측) 또는 이전 또는 다음 이미지(인터 예측)에 속하는 다른 픽셀들에 대한 현재 이미지의 픽셀들의 예측을 구현하는 것을 제안한다.

더 구체적으로, 인트라 예측은 이미지 내의 공간 중복들(spatial redundancies)을 이용한다. 이를 위해, 이미지는 픽셀들의 블록들로 분할된다. 이어서, 픽셀들의 블록들은 이미지 내의 블록들의 순서에 따라 현재 이미지 내의 이전에 코딩/디코딩된 블록들에 대응하는 이미 재구성된 정보를 사용하여 예측된다.

또한, 종래에, 현재 블록의 코딩은, 예측된 블록이라고 불리는 현재 블록의 예측, 및 현재 블록과 예측된 블록 사이의 차이에 대응하는 예측 잔차(prediction residue) 또는 "잔차 블록"을 사용하여 수행된다. 이어서, 획득된 잔차 블록은, 예컨대, DCT 변환(이산 코사인 변환)을 사용하여 변환된다. 이어서, 변환된 잔차 블록의 계수들이 양자화되고, 이후에 엔트로피 코딩에 의해 코딩되고, 디코터로 송신되고, 디코더는 이러한 잔차 블록을 예측된 블록에 부가함으로써 현재 블록을 재구성할 수 있다.

디코딩은 이미지마다(image by image), 그리고 각각의 이미지에 대해, 블록마다 이루어진다. 각각의 블록에 대해, 스트림의 대응하는 엘리먼트들이 판독된다. 잔차 블록의 계수들의 역양자화 및 역변환이 수행된다. 이어서, 블록의 예측은 예측된 블록을 획득하기 위해 계산되고, 현재의 블록은 예측(예측된 블록)을 디코딩된 잔차 블록에 부가함으로써 재구성된다.

HEVC 표준에서, 35개의 인트라 예측 모드들에 따라 현재 블록의 인트라 예측을 수행하는 것이 가능하다. 현재 블록을 예측하기 위해 선택된 인트라 예측 모드를 코딩하기 위해, HEVC 표준은 예측 모드들의 2개의 리스트들을 정의한다:

- 현재 블록에 대한 3개의 가장 가능성 있는 인트라 예측 모드들을 포함하는, MPM(Most Probable Mode) 리스트라고 불리는 제1 리스트 ― 그러한 MPM 리스트는 현재 블록의 이웃 블록들의 코딩 동안 이전에 선택된 예측 모드로부터 정의됨 ― .

- 남아있는 32개의 인트라 예측 모드들을 포함하는 제2 리스트, 소위 비-MPM 리스트 ― 즉, 인트라 예측 모드들은 MPM리스트에 포함되지 않음 ― .

현재의 블록을 예측하기 위해 MPM 또는 비-MPM 리스트 중 어느 것이 사용되는지를 나타내기 위한 인덱스가 디코더로 송신된다. 현재 블록이 MPM 리스트의 인트라 예측 모드에 의해 코딩될 때, MPM 리스트에서 선택된 예측 모드의 인덱스는 엔트로피 코딩에 의해 디코더로 송신된다. 현재 블록이 비-MPM 리스트의 인트라 예측 모드에 의해 코딩될 때, 비-MPM 리스트에서 선택된 인트라 예측 모드의 인덱스는 5 비트들의 고정 길이 코드에 의해 코딩된다.

비-MPM 리스트는 매우 많은 수의 인트라 예측 모드들을 포함하여, 이러한 리스트의 예측 모드의 인덱스를 코딩하는 비용이 높다.

문헌 "Novel Adaptive Algorithm for Intra Prediction with Compromised Modes Skipping and Signalling Processes in HEVC", L-L. Wang, WC Siu, IEEE, 2013은, 한편으로, 인트라 예측 모드를 시그널링하는 비용을 감소시키고, 반면에, 예측 모드를 선택하는 것의 복잡성을 감소시키기 위해, 현재 블록을 예측하는 데 사용되는 인트라 예측 모드들의 수를 감소시키는 것을 가능하게 하는 코딩 방법을 설명한다. 이러한 방법은 이용 가능한 35개의 인트라 예측 모드에 기반하여 3개의 카테고리들을 생성하고, 제1 카테고리는 하나의 모드를 포함하고, 제2 카테고리는 19개의 모드들을 포함하고, 제3 카테고리는 35개의 모드들을 포함한다. 이러한 방법은 각각의 현재 블록에 대해 현재 블록의 기준 픽셀들의 변동(variance)의 값에 따라 적응되는 카테고리를 선택한다. 현재 블록의 기준 픽셀들은 현재 블록 위의 라인의 픽셀들 및 현재 블록의 우측 컬럼(column)에 대응한다. 이어서, 현재 블록은 리스트의 예측 모드들 중 하나에 의해 예측된다. 선택된 카테고리에서, 최상의 예측 모드는 레이트-왜곡 기준에 따라 선택된다. 이것은, 카테고리를 식별하고 이어서 그 카테고리에서 모드를 식별하는 정보로 마킹된다.

그러한 방법은, 현재 블록의 예측의 계산 시간을 감소시키는 것을 가능하게 하게 하는데, 왜냐하면 일부 경우들에서 모든 인트라 예측 모드들이 테스트되지는 않기 때문이다. 이것은 또한 일부 경우들에서 흐름을 감소시키는 것을 허용할 수 있다. 실제로, 선택한 카테고리가 하나의 예측자만을 갖는 카테고리이면, 어떠한 것도 보고할 것이 없다.

3. 종래 기술의 단점들

제2 또는 제3 카테고리가 선택될 때, 비트 레이트가 감소되지 않는데, 왜냐하면 시그널링이 초기에 이용 가능한 예측 모드들의 세트에 기반하여 제공되기 때문이다.

4. 본 발명의 목적들

본 발명은 그 상황을 개선한다.

본 발명은 특히 종래 기술의 이러한 단점들을 극복하는 것을 목적으로 한다.

더 구체적으로, 본 발명의 목적은, 예측의 품질을 손상시키지 않고서, 복수의 후보 모드들 중에서 현재 블록에 대해 선택된 예측 모드를 시그널링하는 것의 비용을 감소시키는 데 기여하는 해결책을 제안하는 것이다.

5. 본 발명의 제시

이러한 목적들뿐만 아니라 이하에서 나타나게 될 다른 목적들은, 적어도 하나의 이미지를 나타내는 코딩된 데이터 스트림을 디코딩하기 위한 방법에 의해 달성되고, 상기 이미지는 블록들로 분할되고, 적어도 2개의 예측 모드들의 세트는 블록, 상기 현재 블록을 예측하기 위해 이용 가능하고, 상기 방법은 다음의 단계들을 포함한다;

- 상기 세트로부터의 예측 모드들의 적어도 2개의 카테고리들을 제공하는 단계;

- 적어도 하나의 제1 미리 결정된 제거 기준에 기반하여 적어도 하나의 카테고리를 금지하는 단계;

- 상기 적어도 하나의 제거된 카테고리와 공통인 예측 모드들을 삭제함으로써 제거되지 않은 카테고리들을 업데이트하는 단계;

- 데이터 스트림으로부터, 현재 블록에 대해, 업데이트된 카테고리들의 모드들 중에서 예측 모드를 식별하는 정보를 디코딩하는 단계.

본 발명에 따라, 디코더는 현재 블록에 적응되지 않은 예측 모드들의 카테고리들을 제거하고, 남아있는 카테고리들로부터, 제거된 카테고리들과 공통인 예측 모드들을 제거한다. 디코더는, 현재 블록에 대한 코더에 의해 선택된 예측 모드를 시그널링하는 코딩된 데이터를 데이터 스트림에서 해석하기 위해 업데이트되고 제거되지 않은 카테고리들에 대한 지식을 사용한다.

초기 카테고리들에 기반하여 선택된 예측 모드를 시그널링하는 종래 기술과 달리, 현재 블록에 대해 선택된 예측 모드 시그널링은 특정적이고, 예측 모드들의 업데이트된 카테고리들에 적응된다. 따라서, 예측 모드 시그널링의 비용이 최적화된다.

본 발명은 또한 이미지를 코딩된 데이터 스트림 형태로 코딩하기 위한 방법에 관한 것이며, 상기 이미지는 블록들로 분할되고, 적어도 2개의 예측 모드들의 세트가 블록, 상기 현재 블록을 예측하기 위해 이용 가능하고, 상기 방법은 다음의 단계들을 포함한다:

- 적어도 하나의 제1 미리 결정된 제거 기준에 따라 적어도 하나의 카테고리를 금지하는 단계;

- 업데이트된 카테고리들 중 하나에서 예측 모드를 선택하는 단계; 및

- 업데이트된 카테고리들에 기반하여, 선택된 예측 모드를 식별하는 정보를 코딩하고, 코딩된 정보를 코딩된 데이터 스트림에 삽입하는 단계.

아래에 언급되는 다양한 실시예들 또는 특징들은, 독립적으로 또는 서로 조합하여, 위에 정의된 디코딩 방법 및/또는 코딩 방법의 특징들에 부가될 수 있다.

본 발명의 일 양상에 따라, 획득하는 단계는 메모리에서 상기 카테고리들의 식별 정보를 판독하는 단계를 포함한다.

예측 모드들의 카테고리들이 미리 결정된다. 하나의 이점은 구현의 간단함(simplicity) 및 컴퓨팅 리소스들에 대한 제한된 요구이다.

본 발명의 다른 양상에 따라, 획득하는 단계는 이미 프로세싱된 블록들의 콘텐츠의 적어도 하나의 특징의 분석 및 예측 모드들의 적어도 하나의 그룹화 기준으로부터의 및 상기 적어도 하나의 분석된 특징에 따른 카테고리들의 생성을 포함한다.

카테고리들은 이미 프로세싱된 콘텐츠에 기반하여 동적으로 생성된다. 하나의 이점은, 획득된 카테고리들이 이미지의 콘텐츠에 적응된다는 것이다.

본 발명의 다른 양상에 따라, 방법은, 획득된 카테고리에 대해, 이러한 카테고리를 나타내는 예측 모드를 결정하는 단계를 포함하고, 카테고리를 제거하는 단계는 나타내는 예측 모드의 제거를 포함하고, 카테고리의 제거는 카테고리를 나타내는 예측 모드의 제거에 의해 트리거링된다.

하나의 이점은, 전체 카테고리가 하나의 동작에서 제거된다는 것이다.

본 발명의 또 다른 양상에 따라, 획득된 카테고리에 대해, 카테고리를 제거하는 단계는 그의 예측 모드들의 연속적인 제거, 및 카테고리에서 제거된 예측 모드들의 수와 미리 결정된 임계치의 비교를 포함하고, 카테고리의 제거는, 제거된 모드들의 수가 임계치보다 더 클 때, 트리거링된다.

하나의 이점은, 카테고리의 모드들이 제거 결정을 내리기 전에 개별적으로 테스트된다는 것이다.

본 발명의 다른 양상에 따라, 방법은, 획득된 카테고리에 대해 ― 상기 카테고리는 예측 모드들을 그룹화하기 위한 기준과 연관됨 ― , 콘텐츠의 특징을 제공하도록 의도된 이미 프로세싱된 이웃 블록들의 콘텐츠를 분석하는 단계를 포함하고, 제거 단계는, 특징 및 그룹화 기준이 서로 호환 가능하지 않을 때, 카테고리를 제거한다.

하나의 이점은, 전체 카테고리가 프로세싱될 콘텐츠에 적응되지 않는다고 설정될 수 있다면, 전체 카테고리가 제거된다는 것이다.

본 발명은 또한 위에 정의된 특정 실시예들 중 어느 하나에 따른 디코딩 방법을 구현하도록 적응된 디코딩 디바이스에 관한 것이다. 이러한 디코딩 디바이스는 물론 본 발명에 따른 디코딩 방법에 관련된 다양한 특징들을 포함할 수 있다. 따라서, 이러한 디코딩 디바이스의 특징들 및 이점들은 디코딩 방법의 특징들 및 이점들과 동일하여, 추가로 상세되지 않는다.

본 발명의 특정 실시예에 따라, 이러한 디코딩 디바이스는 단말에 포함된다.

본 발명은 또한 위에서 정의된 특정 실시예들 중 어느 하나에 따른 코딩 방법을 구현하도록 적응된 코딩 디바이스에 관한 것이다. 이러한 코딩 디바이스는 물론 본 발명에 따른 코딩 방법에 관련된 다양한 특징들을 포함할 수 있다. 따라서, 이러한 코딩 디바이스의 특징들 및 이점들은 코딩 방법의 특징들 및 이점들과 동일하여, 추가로 상세되지 않는다.

본 발명의 특정 실시예에 따라, 이러한 코딩 디바이스는 단말 또는 서버에 포함된다. 이러한 단말 또는 서버 장비는 본 발명에 따른 코딩 디바이스 및 디코딩 디바이스를 포함할 수 있다.

본 발명에 따른 디코딩 방법 및 코딩 방법은 각각 다양한 방식들로, 특히 하드-와이어 형태로 또는 소프트웨어 형태로 구현될 수 있다.

본 발명의 특정 실시예에 따라, 디코딩 방법 및 코딩 방법 각각은, 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 위에 설명된 방법의 단계를 구현하기 위한 명령들을 포함하는 이러한 컴퓨터 프로그램에 의해 구현된다.

이러한 프로그램들은 임의의 프로그래밍 언어를 사용할 수 있다. 이들은 통신 네트워크로부터 다운로딩될 수 있고 그리고/또는 컴퓨터-판독 가능 매체 상에 기록될 수 있다.

마지막으로, 본 발명은, 프로세서에 의해 판독 가능하고, 본 발명에 따른, 디지털 이미지를 코딩하기 위한 디바이스 및 디지털 이미지를 디코딩하기 위한 디바이스에 통합되거나 또는 통합되지 않으며, 선택적으로 제거 가능할 수 있고, 위에서 설명된 코딩 방법을 구현하는 컴퓨터 프로그램 및 디코딩 방법을 구현하는 컴퓨터 프로그램을 각각 저장하는 기록 매체들에 관한 것이다.

6. 도면들의 리스트
본 발명의 다른 특징들 및 이점들은, 간단한 예시적이고 비-제한적인 예로서 제공된, 본 발명의 실시예의 이하의 설명을 읽음으로써 더 명백해질 것이며, 첨부된 도면들은 이하와 같다.
- 도 1은 본 발명의 제1 실시 예에 따라 예측 모드들의 카테고리들을 획득, 제거 및 업데이트하는 단계들을 개략적으로 제시한다.
- 도 2는 본 발명의 제1 실시예에 따라 예측 모드들의 카테고리들을 획득, 제거 및 업데이트하는 단계들을 개략적으로 제시한다.
- 도 3은 공통 모드들을 포함하는 예측 모드들의 카테고리들을 개략적으로 제시한다.
- 도 4a 내지 4g는 본 발명에 의해 구현된 예측 모드들의 카테고리들의 예들을 예시한다.
- 도 5는 본 발명의 일 실시예에서 구현된 카테고리들의 예를 예시한다.
- 도 6은 본 발명에 따라 이미지를 코딩하기 위한 방법의 단계들을 개략적으로 도시한다.
- 도 7은 본 발명에 따라 이미지를 디코딩하기 위한 방법의 단계들을 개략적으로 도시한다.
- 도 8은 본 발명에 따른 코딩 디바이스의 하드웨어 구조를 개략적으로 도시한다.
- 도 9는 본 발명에 따른 디코딩 디바이스의 하드웨어 구조를 개략적으로 도시한다.

7. 본 발명의 특정 실시예의 설명

7.1 일반적인 원리

본 발명의 목적은 코딩될 이미지의 픽셀들의 블록을 예측하는 데 사용되는 예측 모드를 시그널링하는 비용을 개선하는 것이다.

현재 압축 표준들은, 코딩될 블록의 픽셀들에 가능한 한 가깝게 예측을 제공하기 위해 블록을 코딩하기 위한 매우 많은 수의 예측 모드들을 제안한다. 따라서, 양자화된 예측 잔차(quantised prediction residue)는 낮거나 심지어 제로이고, 이는 예측 잔차를 코딩하는 비용을 감소시키는 것을 가능하게 한다. 그러나, 예측 모드를 시그널링하는 비용은 가능한 예측 모드들의 수에 따라 증가한다.

그러나, 예측 모드들이 공통으로 갖는 이미지의 콘텐츠의 하나 또는 그 초과의 특징들에 기반하여 예측 모드들을 카테고리들로 그룹화하고, 동일한 카테고리의 예측 모드들이 현재 블록을 예측하는데 적합하지 않다고 예측하는 것이 가능한 것처럼 보인다.

본 발명의 일반적인 원리는, 디지털 이미지의 현재 블록의 코딩 또는 디코딩을 위한 경쟁에서 예측 모드들의 초기 세트 내의 예측 모드들의 카테고리들의 설정에 그리고 전체 카테고리들의 제거에 기반한다. 제거되지 않았고 제거된 카테고리들에 대해 공통인 카테고리의 모드들이 삭제된다. 이러한 원리가 코더 및 디코더 둘 모두에 적용된다.

이러한 방식으로, 블록을 코딩하기 위한 예측 모드들의 수가 감소되고, 그리고 디코더가 동일한 카테고리들을 동일하게 구축하도록 적응되기 때문에, 이로써 현재 블록의 예측에 이용 가능한 모드들의 감소된 수에 기반하여 시그널링이 이루어질 수 있다.

본 발명은 여기에서 HEVC 표준에 정의된 인트라 예측 모드들에 대한 적용의 맥락에서 설명된다. 본 발명은 다른 압축 표준들 및 다른 예측 모드들에 용이하게 적용 가능하다.

HEVC 표준이 다음의 35개의 인트라 예측 모드들을 정의한다는 것이 상기되어야 한다:

- PLANAR 모드(모드 0), 이러한 모드는 기준 픽셀들로부터 예측자 블록(또는 예측된 블록)의 픽셀들을 선형 보간하는 것을 포함하고, 기준 픽셀들은 이전에 재구성된 이웃 블록들로부터 구성됨,

- 모드 DC(모드 1), 이러한 모드는 예측자 블록의 픽셀들에 기준 픽셀의 평균에 대응하는 동일한 값을 할당하는 것으로 구성됨.

- 도 4a에 예시된 33개의 각도 모드들(A2-A34). 이러한 모드들은 33개의 연관된 방향들 중 하나로의 현재 블록의 기준 픽셀들의 확장에 의해 예측자 블록을 형성한다.

도 6에 관련하여 본 발명에 따른 코딩 방법으로 그리고 도 7을 참조하여 본 발명에 따른 디코딩 방법으로 구현되는, 본 발명에 따른 카테고리들을 획득하는 단계(E10), 카테고리들을 제거하는 단계(E11) 및 카테고리들을 업데이트하는 단계(E12)가 도 1과 관련하여 설명된다.

7.2 초기 세트로부터의 예측 모드들의 적어도 2개의 카테고리들의 제공

단계(E10)에서, 코더 또는 디코더는 이용 가능한 예측 모드들의 초기 세트로부터 형성된 예측 모드들의 카테고리들을 획득한다. 도 3에 도시된 바와 같이, 카테고리들은 공통 예측 모드들을 가질 수 있다.

이러한 카테고리들은 예측 모드들의 하나 또는 그 초과의 CR 그룹화 기준들을 사용하여 형성되었다. 그룹화 기준은 유리하게도 블록의 콘텐츠의 특징의 값 또는 값들의 범위와 연관된다. 다시 말해서, 예측 모드들은 적어도 하나의 공통 특징에 기반하여 그룹화되어, 동일한 카테고리의 예측 모드들이 예측 모드들과 연관된 특징의 값을 갖는 블록을 예측하는 데 가장 적합한 것으로 간주될 수 있다.

카테고리들은 사전-코딩 및 사전-디코딩 페이즈에서 형성되어 고정될 수 있다. 이러한 경우, 카테고리들을 획득하는 단계(E10)는 메모리(MEM, MEM0)에서 이들 카테고리들을 나타내는 정보를 판독하는 서브-단계(E101)를 포함한다. 예컨대, 이러한 정보는 카테고리들의 식별자와 연결(concatenate)되는 단어이고, 카테고리 식별자는 그가 포함하는 예측 모드들의 식별자들을 저장하는 메모리 공간과 연관된다.

이미 프로세싱된 픽처의 콘텐츠 특징의 분석의 부재 시에, 코더 및 디코더는 대칭적으로(by symmetry), 예컨대, 코딩 프로파일과 연관된 제1 카테고리화 프로파일에 대응하는 미리 결정된 카테고리들을 체계적으로 획득한다.

코더 및 디코더가 이미 프로세싱된 블록들의 콘텐츠 ― 이미지의 콘텐츠의 특징들을 즉석에서(on-the-fly) 제공함 ― 의 분석 결과들을 가질 때, 코더 및 대칭적으로 디코더는 이러한 분석으로부터 도출된 특정 값들 또는 특징 값들의 범위들과 연관된 그룹화 기준들을 사용하여 카테고리들을 동적으로 생성할 수 있다.

이러한 경우, 단계(E10)는 이미 프로세싱된 블록들의 콘텐츠의 특징들(CC)을 획득하는 서브-단계(E102) 및 이들 특징들 중 적어도 하나에 기반하는 적어도 하나의 그룹화 기준(CR)에 기반하여 적어도 하나의 카테고리를 생성하는 서브-단계(E103)를 포함한다.

단계(E10)가 단독으로 서브-단계(E101), 단독으로 서브-단계들(E102, E103), 또는 모든 서브-단계들을 구현할 수 있는 반면에, 동적으로 형성된 카테고리들은 이전에 생성된 카테고리를 보완한다는 것이 이해된다.

예컨대, 예측 모드들은 이미지의 콘텐츠의 물리적 특징과 연관된 기준에 따라 그룹화된다. 도 4b와 관련하여, 고려되는 물리적 특징은 예측 모드의 배향(orientation)이며, 서로 가까운 배향들을 갖는 예측 모드들은 제1 카테고리(CV), 소위, 수직 각도 모드 A26(V) 및 그의 이웃을 포함하는 수직, 및 제2 카테고리(CH), 소위, 수평 각도 모드 A10(H) 및 그의 이웃을 포함하는 수평으로 그룹화된다.

이러한 카테고리들은, 더 정확히 말하면(rather) 수평 카테고리(CH) 또는 더 정확히 말하면 수직 카테고리(CV)인 선명한 방향들을 갖는 이미지의 블록을 예측하는 것에 관련된다. 이는, 예컨대, 높은 빌딩들이 있는 도시 장면을 나타내는 이미지의 경우이다.

유리하게도, 현재 블록에 대해, 제거 단계(E11)는 블록의 메인 배향에 기반한 제거 기준에 기반하여 2개의 카테고리들 중 하나를 제거할 것이다.

카테고리의 생성을 고려한 물리적 특징의 다른 예가 도 4c와 관련하여 고려된다. 코더가 실제 장면 상에서 텍스트 또는 로고 인레이(logo inlay)에 대응하는 매우 균질한 영역들에 의해 분리되는, 종종 수평 또는 수직 방향들로, 배경에 대해 선명하고 대비되는 윤곽들의 존재를 콘텐츠에서 검출했다고 가정된다. 따라서, 코딩된 이미지의 콘텐츠는 실제 장면 상에 가상 엘리먼트들의 중첩(superposition)을 포함한다. 코더는 "스크린 콘텐츠"로 알려진 이러한 타입의 장면에 적응된 모드들을 그룹화하는 제1 카테고리를 생성한다. 예컨대, 이러한 카테고리(CSC)에서, 이것은 DMM(Depth Modelling Mode) 모드들, IBC(Intra Block Copy), 수평 각도 모드 A10(H), 수직 각도 모드 A26(V)를 포함한다. 코더는, 수평 모드 및 수직 모드를 포함하는, 이전에 언급된 모든 각도 모드들을 포함하는 제2 CA 카테고리를 생성한다.

도 4d와 관련하여, 코더는 E10에서 각도 예측 모드로부터 3개의 카테고리들을 획득하였다. 카테고리(CA1)는 모드들(A26(V) 및 A10(H))을 포함하고, 카테고리(CA2)는 모드들(A2, A6, A14, A22)을 포함하고, 카테고리(CA3)는 모든 다른 것을 포함한다. 카테고리(CA1)는 방향의 코딩에 대한 매우 적은 피네스(finesse)를 허용하고, 카테고리(CA2)는 더 적은 피네스를 허용하고, 카테고리(CA3)는 가장 정확하다. 이러한 3개의 카테고리들이 블록의 콘텐츠의 방향을 나타내는 데 요구되는 미세함에 적응하는 것을 가능하게 한다는 것이 이해된다.

이러한 카테고리들은 이전의 페이즈에서 생성되었고, 고정된다. 그들은 공통 모드를 갖지 않는다.

이러한 카테고리들의 세트의 바람직한 적용은 다른 것들과의 경쟁에서 이를 코딩 툴로서 사용하는 것이다. 따라서, 이러한 카테고리들의 세트는, 이것이, 예컨대, 레이트-왜곡 기준에 따라 최상의 결과들을 제공할 때, 선택될 것이다. 이러한 카테고리들의 세트는 특히, 주어진 영역이 간단한 방향들(수직 및 수평)을 포함하는 이미지에 대해 잘 작동하는 것으로 예상될 수 있고, 다른 영역은 훨씬 더 미세한 방향들(대각선에서 미세함)을 가질 것이다.

본 발명의 일 실시예에 따라, 카테고리 생성의 서브-단계(E103)는 이미 프로세싱된 이웃 블록들(인과 관계 맥락)에 사용된 예측 모드들의 통계 분석(E102)에 기반한 그룹화 기준을 고려한다. 유리하게도, 가장 빈번하게 사용되는 모드들은 제1 카테고리에 배치된다. 제2 카테고리는 초기 세트의 모든 모드들을 포함한다.

도 4e에 예시된 다른 실시예에서, 인과 관계 설명자, 바람직하게는 가장 가능성 있는 것들에 대해, 현재 이미지의 이미 프로세싱된 블록들에 대한 예측된 모드에 대해 "기계 학습" 타입의 학습에 의해 다른 카테고리들이 동적으로 생성된다. <<기계 학습>> 또는 ML 기술이 당업자에게 알려져 있고, 예컨대, 1997년에 McGraw Hill에 의해 발행된 Tom Mitchell에 의한 명칭이 <<기계 학습>>이라는 책에 설명된다.

이러한 기술은, 학습 페이즈 후에, 현재 영역에 대한 모드들의 선택에 관련된 확률들을 표명(emit)하는 것을 허용한다. ML은, 우리가 상세하지 않을 알려진 복잡한 방법이다. 따라서, 우리는 각각의 모드의 출현 확률의 정도에 의존하여 3개의 다른 카테고리들을 생성하는 것을 상상할 수 있다. 예컨대, 우리는 하나 또는 그 초과의 임계값들에서 획득된 발생 확률을 비교하고, 제1 임계치보다 더 높은 발생 확률을 갖는 것들을 제1 카테고리로 그룹화하고, 이어서, 제1 임계치보다 더 낮고 제2 임계치보다 더 큰 발생 확률을 갖는 것들을 제2 카테고리로 그룹화하고, 제2 임계치보다 더 낮고 제3 임계보다 더 큰 발생 확률을 갖는 것들을 제3 카테고리로 그룹화할 수 있다.

이것은, 도 4e와 관련하여 도시된 바와 같이, 다음의 카테고리들을 제공한다:

● 카테고리 1(C1'): A2 A8 A9 A10 A11

● 카테고리 2(C2'): A10 A3 A4 A11 A12 A16

● 카테고리 3(C3'): 다른 모든 각도 모드들(An).

학습은 변동될 수 있는 빈도로 규칙적으로 반복된다. 예컨대, 코딩 단위마다 또는 픽처마다 또는 GoP(Group of Pictures)의 그룹마다 학습이 이루어진다.

유리하게도, 우리는, 예측 모드들(DC, A10 (H), A26 (V) 및 PL)을 포함하는 제1 미리 결정된 카테고리(C0')를, 소위 디폴트로, 동적으로 생성된 3개의 카테고리들에 부가한다. 이러한 카테고리는 E10의 코더 및 디코더에 의해 획득된다. 이것은 ML 학습으로부터 발생한 불량한 예측을 극복하는 것을 가능하게 한다.

도 4F 및 4G와 관련하여, 카테고리들은 또한 계층적으로 구성될 수 있다.

임의의 트리 구조(이진(binary), 삼진(ternary), 불규칙 등)가 채택될 수 있다. 이러한 구조는 계층적인 레벨들로 일종의 MPM을 모방한다.

예컨대, 카테고리들은 이분법(dichotomy)에 의해 구축된다. 우리는 2개의 가장 가능성 있는 모드들(MPM1 및 MPM2)로서 수평 모드(A10) 및 수직 모드(A26)를 정의할 것이다. 그들은 최상부-레벨 카테고리(CH1)를 형성한다. 제2 계층적인 카테고리(CH2)는 2개의 점프들을 갖는 자신들의 이웃들(MPM1-2, MPM1+2, MPM2-2 및 MPM2+2)을 취함으로써 도출된다. 따라서, 우리는 이전의 카테고리의 모드들의 점프 내의 이웃들(MPM1-1, MPM1+1, MPM2-1, MPM2+1)을 취함으로써 레벨-3 카테고리(CH3)를 생성할 수 있다. CH1 카테고리는 몇몇의 예측 모드들을 포함하고, 각도 방향 측면에서 낮은 정밀도를 제공하는 반면에, CH3 카테고리는 더 미세한 배향을 제안한다.

7.3 카테고리들의 제거

본 발명은 카테고리를 제거하는 상이한 방식들을 포함한다.

도 1과 관련하여 설명된 본 발명의 일 실시예에 따라, 제거 단계(E11)는 카테고리를 나타내는 모드를 결정하는 서브-단계(E111)를 포함한다.

각도 모드들의 세트의 경우, 대표적인 것은, 예컨대, 중앙값(median) 또는 평균(average)일 수 있다. 따라서, 각도 예측자들이 정렬되고, 그들을 지정하는 번호를 갖는다. 따라서, 평균(mean)은 카테고리의 중심각을 지정한다.

일 변형예에 따라, 카테고리를 나타내는 예측 모드는, 그가 초기 예측 모드들의 세트의 일부가 아니라는 점에서, 추가적인 예측 모드이다. 이것은, 예컨대, 예측자들 자체, 즉, 예측하는 데 사용되는 픽셀들의 값, 또는 이들 값들의 다른 함수를 평균화함으로써 이때에 획득될 수 있다. 예컨대, 도 4b와 관련하여, 수직 모드는 CV 카테고리에 대한 RV 대표자(representative)로서 선택되고, 수평 모드는 CH 카테고리에 대한 HR 대표자로서 선택된다.

단계(E11)는 제거 기준에 따라 대표자를 제거하는 서브-단계(E112)를 더 포함한다. 대표자는 적어도 하나의 예측자 제거 기준에 기반하여 테스트되어, 제거되거나 제거되지 않는다.

단계(E113)는, 일단 전체 카테고리의 대표자가 제거되었다면, 전체 카테고리를 제거하는 단계로 구성된다.

도 2에 도시된 변형예에 따라, 이것은 대표자를 지정하지 않지만, 서브-단계(E114) 동안의 카테고리의 예측 모드들이 하나씩 검사되고, 그들은 표준 모드 제거 기준에 의해 제거된다.

도 4e의 예에서, 카테고리들(CA0 내지 CA3)은 이질적(heterogeneous)이다. 따라서, 이러한 카테고리들에 대해 어떠한 대표자도 정의되지 않는다. 모드들은 그들의 궁극적 제거 여부를 결정하기 위해 개별적으로 검토된다. 모드 제거 기준은, 예컨대, 다음의 규칙에 대응한다: <<An의 이웃의 블록들이 An, An-1 또는 An+1 모드를 선택하지 않은 경우 An이 폐기됨>>.

결과적으로, 각각의 카테고리 내의 다수의 모드들이 제거되는 것으로 가정된다. 예컨대, 카테고리의 모드들 중 50%가 제거되기로 되어 있다면, 전체 카테고리의 제거 기준이 적용된다. 이러한 경우, 카테고리의 모든 모드들이 제거된다. 특히, 이러한 동일한 모드들은, 그들이 존재하는 다른 카테고리들에서 사라진다. 반대의 경우(50% 미만), 카테고리가 유지되고, 카테고리의 모든 모드들(심지어 제거되기로 되어 있는 것들)이 또한 유지된다.

E115에서, 카테고리에서 제거된 모드들의 레이트가 미리 결정된 임계치(TH)보다 더 크면, 카테고리가 제거된다.

또 다른 실시예에서, 형성하는데 사용된 그룹화 기준(CR)이 이미 프로세싱된 이웃 블록들의 콘텐츠의 적어도 하나의 물리적 특징과 호환 가능하지 않다면, 특징이 일반적으로 제거된다. 예컨대, 도 4c의 CSC 카테고리는, 깊이 이미지들로부터 도출되거나 부자연스러운 콘텐츠, 예컨대, 컴퓨터 스크린 타입(스크린 콘텐츠)을 포함하거나 또는 오버레이를 포함하는 블록들에 사용될 높은 확률을 갖는 예측 모드들을 포함한다. 그러나, 이것은, 콘텐츠가 마킹된 각도 특징들뿐만 아니라 텍스처링된 영역들을 포함한다는 것을 이미 프로세싱된 이웃 블록들의 분석이 나타내는 이미지의 영역에 속하는 현재 블록에 적응되지 않는다. 이어서, CSC 카테고리는 모든 자신의 예측 모드들과 함께 제거된다.

도 4d의 예로 돌아가서, 우리는 현재 블록의 콘텐츠의 배향의 물리적 특징에 기반하여 카테고리들(CA1 내지 CA3)을 획득할 수 있다. 따라서, 이미 프로세싱된 이웃 블록들의 콘텐츠 분석이 우리가 매우 동질적인 영역에 있음을 나타낼 때, 큰 각도 선명도가 요구되지 않는다. 따라서, 우리는 CA3 카테고리를 제거할 수 있다.

유사하게, 이미 프로세싱된 이웃 블록들에 적용되는 Sobel 타입의, 예컨대, 그래디언트 기법이 임의의 명확한 수평 또는 수직 방향을 나타내지 않으면, 모드 그룹화의 카테고리가 프로세싱될 콘텐츠와 호환 가능하지 않은 카테고리(CA1)는 제거될 수 있다.

7.4 제거되지 않은 카테고리들의 업데이팅

우리는, 생성된 카테고리들이 공통의 예측 모드들을 가질 수 있음을 알았다.

본 발명에 따라, 주어진 예측 모드가 제1 및 제2 카테고리에 속한다면, 제1 카테고리에서 이러한 모드의 제거가 제2 카테고리의 그의 제거(E12)를 수반한다는 것이 주목된다.

도 3과 관련하여, 카테고리(C1)의 제거는, 제2 클래스(C2)가 2개의 예측 모드들만을 포함한다는 것을 의미한다.

7.5 제1 실시예의 설명

도 5에 예시된 이러한 예에서, 예측 모드들의 카테고리들이 미리 결정된다. 다시 말해서, 그들의 생성은 코딩 이전의 페이즈에서 이루어졌다. 따라서, 단계(E10)는, 예컨대, 코더에 액세스 가능한 메모리에 저장되는 예측 모드들에 액세스하기 위해, 이들 카테고리들을 나타내는 정보를 판독하는 단계로 구성된다.

우리는 다음과 같이 구성되고 도 5에 예시되는 5개의 카테고리들을 고려한다:

- 카테고리(C1₁)는 예측 모드들(DMM, IBC, H (A10), H-1 (A9), H+1 (A11), V (A26), V-1 (A25), V+1 (A27)을 포함함;

- 카테고리(C2₁)는 각도 예측 모드들(A34 ... A27)을 포함함;

- 카테고리(C3₁)는 각도 예측 모드들(A25 ... A11)을 포함함;

- 카테고리(C4₁)는 각도 예측 모드들(A9 ... A2)을 포함함;

- 카테고리(C5₁)는 DC, H, V, PL을 포함함.

특정 예측 모드들, 이를테면, 특정 각도 모드들이 몇몇의 카테고리들에 대해 공통이라는 것을 알 수 있다.

미리 결정되고 고정된 이들 카테고리들은 코더 및 디코더에 의해 알려져있다.

각도 모드들로만 구성된 카테고리들(2, 3 및 4)에 대해, 대표자는 T12에서 결정되며, 이는 이들 각각의 중간 각도 모드에 대응한다. 예컨대, 그룹(C2")의 중앙값은 A30.5 모드이다. 이것이 카테고리(C2")의 부분이 아닌 추가적인 각도 모드라는 것이 주목된다.

이종 타입들의 예측 모드들로 구성된 다른 카테고리들(C1₁ 및 C5₁)의 대표자는 결정되지 않는다.

E11에서, 하나 또는 그 초과의 카테고리들을 제거하는 것이 목적이다. 이러한 실시예에서, 채택된 전략은 아마도 가장 쓸모없는 각도 예측 모드를 제거하는 것으로 구성된다. 소위 통계적 제거 기준은, 공간뿐만 아니라 시간적으로 이웃에서 이미 프로세싱된 블록들에 의해 사용되는 예측 모드의 통계적 분석에 기반하여 사용된다.

예컨대, 카테고리들(C2₁, C3₁ 및 C4₁)에 대해, 대표자는 다음 규칙의 형태로 표현되는 제거 기준을 사용하여 테스트된다: "자시의 이웃에서 이미 프로세싱된 블록들 중 어느 것도 An, An-1 및 An+로 구성된 그룹 내의 모드들 중 하나를 선택하지 않았다면, 모드가 폐기된다".

이러한 기준은 추정상 카테고리들(C2" 및 C3")의 대표자들의 제거, 따라서 이들 카테고리들의 제거로 이어진다.

E12에서, 제거되지 않은 카테고리들은, 제거된 카테고리들과 공통으로 갖는 예측 모드들을 제거함으로써 업데이트된다. 이것은 우리가 카테고리 1에서 A11 (H+1), A25 (V-1), A26 (V) 및 A27 (V+1) 각도 모드들을 제거하게 한다.

업데이트된 카테고리들은 다음과 같다:

- 카테고리(C1₁): DMM, IBC, H (A10), H-1 (A9), V (A26);

- 카테고리(C4₁): A9 ... A2; 및

- 카테고리(C5₁): DC, H, V, PL

초기에 38개와 비교하여, 단지 총 15개의 모드들만이 남겨진다는 것이 관찰된다.

이러한 예에서, 카테고리들(C2₁, C3₁, C4₁)만이 대표자들을 갖고, 잠재적으로 일회용이라는 것이 주목된다. 이는, 다른 모드들을 제거하지 않고서, 최대치의 불필요한 각도 모드들을 제거하는 것이 바람직한 구체적인 경우에 대응한다.

이어서, 코더는 남아있는 15개의 모드로부터 종래에 선택된 예측 모드를 선택한다. 전형적으로, 이러한 선택은, 비트 레이트 및 코딩 품질을 최적화하는 모드를 유지하도록 하는 레이트-왜곡 또는 RDO에 기반하여 이루어진다.

선택된 모드가 비트 스트림에 표시된다. 이어서, 모드가 보고된다.

선택된 예측 모드를 보고하기 위한 몇몇의 알려진 방식들이 존재한다. 제1 옵션에 따라, 이것은 15개의 모드들에 대해 인덱싱되고, 그의 인덱스가 시그널링된다. 제2 옵션에 따라, 남아있는 3개의 카테고리 중에서 모드가 속하는 카테고리가 시그널링되고, 이어서, 자신 위치 또는 카테고리의 인덱스가 시그널링된다.

7.6 제2 실시예의 설명

제1 실시예에서와 같이, 동일한 미리 결정된 카테고리들이 고려된다.

카테고리(C1")는, 오버레이 또는 스크린 콘텐츠 타입의 인위적 콘텐츠를 포함하는 블록들을 예측하는 것과 관련이 있다고 예상되는 예측 모드들을 그룹화한다.

카테고리 제거 단계(E11) 동안, 이러한 카테고리(1)가 프로세싱될 블록의 콘텐츠에 적응되지 않을 때, 이것은 이러한 카테고리(1)를 제거하려고 시도한다.

이러한 카테고리에 대해, 현재 블록의 프로세싱된 부근(vicinity)의 구조적 분석에 기반한 제거 기준이 사용된다. 예컨대, 1989년 Prentice Hall에 의해 발행된 AJJain의 명칭이 "Fundamentals of Digital Image Processing"인 서적의 섹션들 4 및 5에 설명된 바와 같이, 윤곽 검출은 Sobel 필터링에 의해 수행되고, 이러한 윤곽들의 방향들이 결정된다. 이웃 블록들이 이러한 카테고리에 의해 커버되는 타입의 콘텐츠를 포함하지 않는 것으로 알려지면, 이러한 블록이 폐기된다.

유사한 동작이 동질 영역들 또는 광 저하 영역들(light degraded areas)에 더 적합한 카테고리(C5")에 적용될 수 있다는 것이 유의되어야 한다.

7.7 제3 모드의 구현의 설명

이러한 예(도시되지 않음)에서, 예측 모드들(DC, H, V, PL)을 포함하는 제1 디폴트 카테고리(C1₂)가 고정된다.

단계(E10)는 3개의 카테고리들의 동적 생성(E103)을 포함한다. 이를 위해, E102에서 기계 학습(ML) 기법이 구현된다. 3개의 카테고리들은 각각의 모드의 발생 확률을 고려하여 생성된다.

카테고리들은, 예컨대, 다음과 같을 수 있다:

- 카테고리(C1₂): DC, H, V, PL;

- 카테고리(C2₂): A2, A8, A9;

- 카테고리(C3₂): A10, A3, A4, A11, A12, A16;

- 카테고리(C4₂): 다른 모든 각도 모드들(An).

따라서, 형성된 카테고리들은 이질적이다. 따라서, 우리는 어떠한 대표자들도 정의하지 않는다.

E11에서, 이러한 모드가 제거되어야 하는지를 결정하기 위해, 각각의 카테고리의 각각의 모드가 검토된다. 모드 제거의 제1 기준은, 예컨대, 다음의 규칙의 형태로 표현된다: 자신의 이웃 내의 블록들이 An, An-1, 또는 An+1 모드를 선택하지 않았다면, An이 폐기될 것임.

이어서, 예컨대, 카테고리의 모드들 중 50%가 제1 기준에 의해 제거되면, 전체 카테고리의 제2 제거 기준이 적용된다. 이러한 경우, 카테고리의 모든 모드들이 제거된다.

E12에서, 제거되는 모드들은 남아있는 카테고리들로부터 삭제된다.

특히, 이러한 동일한 모드들은, 그들이 존재하는 다른 카테고리들에서 사라진다.

반대의 경우(50% 미만), 카테고리가 유지되고, 카테고리의 모든 모드들(심지어 제거되기로 되어 있는 것들)이 또한 유지된다.

예컨대, 카테고리들(4 및 2)의 모드들 중 50%가 제거되면, 카테고리(1)의 3개의 모드들 및 카테고리(3)의 6개의 모드들만이 전체적으로 사용 가능하게 유지된다. 이것은, ML로부터 도출된 가능한 불량한 결과 예측을 수정할 수 있게 할 것이다.

7.8 본 발명에 따른 코딩 방법의 예시적인 구현의 설명

도 6은, 본 발명의 특정 실시예에 따라, STR 코딩된 데이터 스트림의 형태로 코딩될 이미지 시퀀스(I₁, I₂, ..., I_N)를 코딩하는 방법의 단계들을 제시한다. 예컨대, 그러한 코딩 방법은 도 8을 참조하여 설명된 코딩 디바이스에 의해 구현된다. 코딩될 이미지 시퀀스(I₁, I₂, ..., I_N)는 코딩 방법의 입력에 제공된다. 코딩 방법은 입력에 제공된 이미지 시퀀스를 나타내는 코딩된 데이터의 스트림(STR) 또는 비트 스트림을 출력한다.

공지된 방식으로, 이미지 시퀀스(I₁, I₂, ..., I_N)의 코딩은, 이전에 설정되어 디코더에 알려진 코딩 순서에 따라 이미지마다 이루어진다. 예컨대, 이미지는 시간적인 순서(I₁, I₂, ..., I_N) 또는 다른 순서(예컨대, I₁, I₃, I₂, ..., I_N)로 코딩될 수 있다.

단계(E0) 동안, 이미지 시퀀스(I₁, I₂, ..., I_N)의 코딩될 이미지(I_k)는 최대 크기의 블록들로 절단된다. 최대 크기의 각각의 블록은 더 작은 블록들로 절단될 수 있다. 예컨대, 최대 크기의 블록은 32x32 픽셀 크기이다. 이러한 최대 크기의 블록은, 예컨대, 크기가 16x16, 8x8, 4x4, 16x8, 8x16, ...인 정사각형 또는 직사각형 서브-블록들로 세분화될 수 있다. 이어서, 단계(E0)에서, 이미지(I_k)의 코딩될 블록(b_c)은 미리 결정된 이미지(I_k)의 이동 방향에 따라 선택된다.

단계(E10) 동안, 현재 블록(b_c)을 코딩하기 위한 예측 모드들의 적어도 2개의 카테고리들이 획득된다. 단계(E11) 동안, 카테고리들은 적어도 하나의 제거 기준에 따라 제거되고, E12에서, 제거되지 않은 카테고리들은 제거된 카테고리들에 공통적인 모드들을 제거함으로써 업데이트된다.

이들 단계들은 도 4a 내지 4g와 관련하여 본 발명의 상이한 실시예들에 따라 위에 설명되었다.

단계(E13) 동안, 현재 블록(b_c)을 코딩하기 위한 예측 모드는 업데이트된 카테고리의 예측 모드들로부터 선택되고, 예컨대, 현재 블록에 대한 최상의 레이트/왜곡 절충안(rate/distortion compromise)을 제공하는 예측 모드가 선택된다.

단계(E14) 동안, 선택된 예측 모드를 식별하는 정보는 현재 블록(b_c)에 대한 코딩된 데이터의 스트림(STR)으로 코딩된다. 예컨대, 이러한 정보는 고정 또는 가변 길이 코드로 코딩되는 인덱스(idx)로서 스트림으로 코딩된다.

변형예에 따라, 선택된 예측 모드가 속하는 카테고리를 나타내는 정보 및 이러한 카테고리에서 예측 모드의 위치를 나타내는 정보가 코딩된다.

본 발명에 따라, 일단 카테고리들이 코더 및 디코더에 의해 대칭적으로 획득, 제거 및 업데이트되면, 코더가 유리하게도, 초기 세트의 예측 모드들의 수에 기반하기보다는 업데이트된 카테고리들을 예측하는 모드들의 수에 따라 선택된 예측 모드를 시그널링하기 위해, 코드들을 선택할 수 있다는 것이 주목된다. 따라서, 시그널링이 덜 비싸게 이루어진다.

단계(E15) 동안, 예측 잔차(RES)는 단계(E13)에서 선택된 예측 모드와 연관된 예측자 블록(P) 및 현재 블록(b_c)으로부터 계산된다. 예측 잔차(RES)는 코딩될 현재 블록(b_c)과 예측자 블록(P) 사이의 차이에 의해 획득된다.

이어서, 단계(E16)에서, 공지된 방식으로, RES 예측 잔차는, 예컨대, DCT에 의해 변환되고, 양자화된다. 이어서, 양자화된 변환된 잔차 계수들이 획득된다.

단계(E17) 동안, 이어서 양자화된 변환된 잔차 계수들은 엔트로피 코딩 모듈, 예컨대, 2003년 7월, D. Marpe, H. Schwarz, T. Wiegand의 << Context-based adaptive binary arithmetic coding in the H.264/AVC video compression standard >> IEEE Transactions on Circuits and Systems for Video Technology (Volume: 13, Issue: 7), 페이지들 620-636에 설명된 CABAC 코더에 의해 코딩된 데이터 스트림(STR) 형태로 코딩된다. 단계(E18) 동안, 예측 잔여(RES')는 역양자화 및 역변환을 양자화된 변환된 계수들에 적용함으로써 재구성된다. 단계(E19) 동안, 픽셀들의 블록(REC)은 재구성된 예측 잔여(RES')를 단계(E13)에서 선택된 예측 모드와 연관된 예측자 블록(P)에 부가함으로써 재구성된다.

단계(E20) 동안, 코딩될 이미지의 모든 블록들이 코딩되었는지가 검사된다. 부정적인 경우에, 코딩 방법은 코딩될 이미지의 미리 결정된 경로에 따라 다음 블록으로 진행함으로써 단계(E10)에서 재개된다.

이미지의 모든 블록들이 프로세싱된 경우, 단계(E21) 동안, 이미지(I_k ^rec)는 이미지의 재구성된 블록들(REC)로부터 재구성되고, 이미지 시퀀스의 후속 이미지들을 코딩할 때, 기준으로서 나중에 사용되기 위해 기준 이미지들의 리스트에 저장된다.

7.8 디코딩 방법

도 7은 본 발명의 특정 실시예에 따른, 디코딩될 이미지들(I₁, I₂, ..., I_N)의 시퀀스를 나타내는 코딩된 데이터의 스트림(STR)을 디코딩하는 방법의 단계들을 제시한다.

예컨대, 데이터 스트림(STR)은 도 1을 참조하여 설명된 코딩 방법을 사용하여 생성되었다. 데이터 스트림(STR)은, 도 9를 참조하여 설명된 바와 같이, 디코딩 디바이스(DEC)의 입력에 제공된다.

디코딩 방법은 스트림을 이미지마다 디코딩한다. 디코딩될 각각의 이미지에 대해, 디코딩 방법은 이미지를 블록마다 디코딩한다.

단계(E0) 동안, 이미지 시퀀스(I₁, I₂, ..., I_N)의 코딩될 이미지(I_k)는 최대 크기의 블록들로 절단된다. 최대 크기의 각각의 블록은 더 작은 블록들로 추가로 절단될 수 있다. 예컨대, 최대 크기의 블록은 32x32 픽셀 크기이다. 이러한 최대 크기의 블록은, 예컨대, 크기가 16x16, 8x8, 4x4, 16x8, 8x16, ...인 정사각형 또는 직사각형 서브-블록들로 세분화될 수 있다. 이어서, 이미지(I_k)의 디코딩될 블록(b_c)은 미리 결정된 이미지(I_k)의 이동 방향에 따라 선택된다.

재구성될 이미지의 블록(b_c)에 대해, 단계(E10) 동안, 예측 모드들의 카테고리들이 획득된다. E11에서, 카테고리들은 적어도 하나의 제거 기준에 기반하여 제거되고, 제거되지 않은 카테고리들은 제거된 카테고리에 공통적인 예측 모드들을 제거함으로써 E12에서 업데이트된다. 이러한 단계들(E10 내지 E12)은, 데이터 스트림(STR)의 코딩 동안 사용된 실시예와 동일한 특정 실시예에 따라 수행된다. 이들은 도 1 및 2와 관련하여 본 발명의 상이한 실시예들에 따라 위에 설명된 서브-단계들의 세트를 포함한다.

단계(D20)에서, 블록(b_c)에 대응하는 데이터 스트림(STR)의 데이터는, 한편으로, 현재 블록(b_c)의 코딩 모드(또는 예측 모드)에 관한 신택스 엘리먼트들(syntax elements)을 제공하고, 두 번째로, 현재 블록(b_c)의 예측 잔차 계수들의 그룹을 제공하기 위해, 엔트로피 디코딩 모듈에 의해 디코딩된다. 디코딩된 신택스 엘리먼트들은 특히, 현재 블록(b_c)에 대해 본 발명에 따라 업데이트된 예측 모드들의 카테고리들의 예측 모드들 중에서 예측 모드를 식별하는 예측 모드 정보를 포함한다. 예컨대, 업데이트된 카테고리들뿐만 아니라 그들을 구성하는 예측 모드들이 정렬된다고 가정되면, 그러한 정보는 남아있는 예측 모드들에 의해 형성된 정렬된 리스트의 인덱스(idx)로서 스트림으로 코딩된다. 대안적으로, 예측 모드 정보는 카테고리 식별자 및 idx 위치 인덱스로서 식별된 카테고리에 코딩된다.

단계(D21)에서, 블록(b_c)의 예측 잔차 계수들은 디코딩된 예측 잔차(RES')를 출력하기 위해 역양자화 및 이어서 역변환을 거친다.

단계(D22)에서, 현재 블록(b_c)은 디코딩된 예측 모드와 연관된 예측자 블록(P) 및 코딩된 데이터 스트림(STR)으로부터 디코딩된 현재 블록(b_c)과 연관된 예측 잔차(RES')로부터 재구성된다. 예측자 블록(P)은 단계(E10)에서 이전에 계산되었다. 따라서, 현재 블록(b_c)에 대한 재구성된 블록(REC)은 예측자 블록(P)을 디코딩된 예측 잔차(RES')에 부가함으로써 획득된다.

단계(D23) 동안, 디코딩될 이미지의 모든 블록들이 디코딩되고 재구성되었는지가 검사된다. 부정적인 경우에, 디코딩 방법은 디코딩될 이미지의 미리 결정된 경로에 따라 다음 블록으로 진행함으로써 단계(E10)에서 재개된다.

이미지의 모든 블록들이 프로세싱된 경우, 단계(D24) 동안, 이미지(I_k ^rec)는 이미지의 재구성된 블록들(REC)로부터 재구성되고, 이미지 시퀀스의 후속 이미지들을 코딩할 때, 기준으로서 나중에 사용되기 위해 기준 이미지들의 리스트에 저장된다.

위에 설명된 코딩 및 디코딩 방법들은 표준 비디오 코더들/디코더들, 이를테면, H.266, HEVC/H.265, AVC/H.264 또는 임의의 타입의 독점적인 비디오 코더들/디코더들에 통합될 수 있다. 본 발명에 따른 코딩 및 디코딩 방법들은 또한 정지 이미지에 대한 모든 타입들의 코더들/ 디코더들 및 더 일반적으로 몇몇의 이용 가능한 예측 모드들을 사용하는 예측 코딩을 사용하는 신호들에 적용된다.

코딩 및 디코딩 방법들은 블록 공간 코딩(인트라 코딩)의 경우에 이전에 설명되었다. 이들 방법들은 다른 타입들의 코딩 모드들, 예컨대, 인터 코딩에 따라 블록을 코딩하는 경우에 용이하게 적용된다. 따라서, 구성된 예측 모드들의 리스트는 상이한 타입들의 코딩 모드들(인트라, 인터, 인터-레이어들 등)을 포함할 수 있다.

7.9 코딩 디바이스

도 8은 본 발명의 특정 실시예들 중 임의의 것에 따른 코딩 방법을 구현하도록 적응된 코딩 디바이스(100)의 단순화된 구조를 도시한다. 코딩 디바이스(100)는 적어도 하나의 이미지를 코딩된 데이터 스트림의 형태로 코딩하도록 적응되고, 상기 이미지는 블록들로 분할되고, 적어도 2개의 예측 모드들은 상기 이미지의 블록, 소위 현재 블록을 예측하기 위해 이용 가능하다.

코딩 디바이스(100)는 특히:

- 상기 현재 블록을 예측하기 위해 이용 가능한 예측 모드들의 세트로부터 예측 모드들의 적어도 2개의 카테고리들을 획득하고 ― 예측자 블록은 이용 가능한 예측 모드와 연관됨 ― ,

- 적어도 하나의 제거 기준에 기반하여 적어도 하나의 카테고리를 제거하고,

- 제거된 카테고리들과 공통인 예측 모드들을 제거함으로써, 제거되지 않은 카테고리들을 업데이트하고,

- 업데이트된 카테고리들 중에서, 현재 블록을 코딩하기 위한 예측 모드를 선택하고,

- 상기 현재 블록에 대해, 업데이트된 카테고리들 중에서 선택된 상기 예측 모드를 식별하는 정보를 데이터 스트림으로 코딩하도록 구성된다.

본 발명의 특정 실시예에 따라, 코딩 방법의 단계들은 컴퓨터 프로그램 명령들에 의해 구현된다. 이러한 목적으로, 코딩 디바이스(100)는 컴퓨터의 종래 아키텍처를 가지며, 특히 메모리(MEM), 프로세싱 유닛(UT)을 포함하고, 프로세싱 유닛(UT)은, 예컨대, 마이크로프로세서(PROC)가 장착되고, 메모리(MEM)에 저장된 컴퓨터 프로그램(PG)에 의해 구동된다. 컴퓨터 프로그램(PG)은, 프로그램이 프로세서(PROC)에 의해 실행될 때, 위에 설명된 코딩 방법의 단계들을 구현하기 위한 명령들을 포함한다.

초기화 시에, 컴퓨터 프로그램(PG)의 코드 명령들은, 프로세서(PROC)에 의해 실행되기 전에, 예컨대, RAM에 로딩된다. 프로세싱 유닛(UT)의 프로세서(PROC)는 컴퓨터 프로그램(PG)의 명령들에 따라 특히 위에 설명된 코딩 방법의 단계들을 구현한다.

본 발명의 다른 특정 실시예에 따라, 코딩 방법은 기능 모듈들에 의해 구현된다. 이러한 목적으로, 코딩 디바이스(COD)는 다음을 더 포함한다:

- 상기 현재 블록을 예측하기 위해 이용 가능한 예측 모드들의 세트로부터 예측 모드들의 적어도 2개의 카테고리들을 획득하기 위한 획득 모듈(OBT) ― 예측자 블록은 이용 가능한 예측 모드와 연관됨 ― ,

- 적어도 하나의 제거 기준에 기반하여 적어도 하나의 카테고리를 제거하기 위한 제거 모듈(ELIM),

- 제거된 카테고리들과 공통인 예측 모드들을 제거함으로써, 제거되지 않은 카테고리들을 업데이트하기 위한 업데이팅 모듈,

- 업데이트된 카테고리들 중에서 현재 블록을 코딩하기 위한 예측 모드를 선택하기 위한 선택 모듈(SEL),

- 상기 현재 블록에 대해, 업데이트된 카테고리들 중에서 선택된 상기 예측 모드를 식별하는 정보를 데이터 스트림으로 코딩하기 위한 코딩 모듈(COD).

프로세싱 유닛(UT)은 코딩 방법의 단계들을 구현하기 위해 위에 설명된 다양한 기능 모듈들 및 메모리(MEM)와 협력한다.

위에 설명된 다양한 기능 모듈들은 하드웨어 및/또는 소프트웨어 형태일 수 있다. 소프트웨어 형태 하에서, 이러한 기능 모듈은 프로세서, 메모리, 및 코드 명령이 프로세서에 의해 실행될 때, 모듈에 대응하는 기능을 구현하기 위한 프로그램 코드 명령들을 포함할 수 있다. 물질적인 형태에서, 이러한 기능 모듈은 임의의 타입의 적절한 코딩 회로들, 이를테면, 예컨대 그리고 제한 없이, 마이크로프로세서들, DSP(Digital Signal Processor)들, ASIC(Application Specific Integrated Circuit)들, FPGA(Field Programmable Gate Array)들, 로직 유닛 와이어링에 의해 구현될 수 있다.

유리하게도, 이러한 디바이스(100)는 사용자 단말 장비(ET)에 통합될 수 있다. 이어서, 디바이스(100)는 적어도 단말(ET)의 다음 모듈과 협력하도록 배열된다:

- 특히 예측 모드들의 카테고리들이 저장된 메모리(MEM1);

- 코딩된 데이터 스트림(STR)이 전기통신 네트워크, 예컨대, 하나 또는 그 초과의 디코더들을 위해 의도된 라디오 네트워크 또는 유선 네트워크를 통해 송신되는 데이터 송신/수신 E/R1 모듈.

7.10 디코딩 디바이스

도 9는 본 발명의 특정 실시예들 중 임의의 것에 따른 디코딩 방법을 구현하도록 적응된 디코딩 디바이스(200)의 단순화된 구조를 도시한다. 디코딩 디바이스(200)는 적어도 하나의 이미지를 디코딩된 데이터 스트림의 형태로 디코딩하도록 적응되고, 상기 이미지는 블록들로 분할되고, 적어도 2개의 예측 모드들은 상기 이미지의 블록, 소위 현재 블록을 예측하기 위해 이용 가능하다. 디코딩 디바이스(200)는 특히:

- 데이터 스트림으로부터, 상기 현재 블록에 대해, 업데이트된 카테고리들 중에서 예측 모드를 식별하는 정보를 디코딩하고,

상기 식별된 예측 모드와 연관된 예측자 블록으로부터 상기 현재 블록을 재구성하도록 구성된다.

본 발명의 특정 실시예에 따라, 디코딩 디바이스(200)는 컴퓨터의 종래 아키텍처를 가지며, 특히 메모리(MEM0), 프로세싱 유닛(UT0)을 포함하고, 프로세싱 유닛(UT0)은, 예컨대, 마이크로프로세서(PROC0)가 장착되고, 메모리(MEM0)에 저장된 컴퓨터 프로그램(PG0)에 의해 구동된다. 컴퓨터 프로그램(PG0)은, 프로그램이 프로세서(PROC0)에 의해 실행될 때, 위에 설명된 디코딩 방법의 단계들을 구현하기 위한 명령들을 포함한다.

초기화 시에, 컴퓨터 프로그램(PG0)의 코드 명령들은, 프로세서(PROC0)에 의해 실행되기 전에, 예컨대, 메모리 RAM에 로딩된다. 프로세싱 유닛(UT0)의 프로세서(PROC0)는 컴퓨터 프로그램(PG0)의 명령들에 따라 위에 설명된 디코딩 방법의 단계들을 구현한다.

본 발명의 다른 특정 실시예에 따라, 디코딩 방법은 기능 모듈들에 의해 구현된다. 이러한 목적으로, 디코딩 디바이스(200)는 다음을 더 포함한다:

- 상기 현재 블록을 예측하기 위해 이용 가능한 예측 모드들의 세트로부터 예측 모드들의 적어도 2개의 카테고리들을 획득하기 위한 획득 모듈(OBT0) ― 예측자 블록은 이용 가능한 예측 모드와 연관됨 ― ,

- 적어도 하나의 제거 기준에 기반하여 적어도 하나의 카테고리를 제거하기 위한 제거 모듈(ELIM0),

- 제거된 카테고리들과 공통인 예측 모드들을 제거함으로써, 제거되지 않은 카테고리들을 업데이트하기 위한 업데이팅 모듈(MAJ0),

- 상기 현재 블록에 대해, 업데이트된 카테고리들 중에 예측 모드를 식별하는 정보를, 데이터 스트림으로부터, 디코딩하기 위한 디코딩 모듈(DC),

- 상기 식별된 예측 모드와 연관된 예측자 블록으로부터 상기 현재 블록을 재구성하기 위한 재구성 모듈(RC).

프로세싱 유닛(UT0)은 디코딩 방법의 단계들을 구현하기 위해 위에 설명된 다양한 기능 모듈들 및 메모리(MEM0)와 협력한다.

유리하게도, 이러한 디바이스(200)는 사용자 단말 장비(UT)에 통합될 수 있다. 이어서, 디바이스(200)는 적어도 단말(UT)의 다음 모듈과 협력하도록 배열된다:

- 특히 예측 모드들의 카테고리들이 저장된 메모리(MEM2);

- 데이터 송신/수신 모듈(E/R2) ― 이를 경유하여 비트스트림(STR)은 전기통신 네트워크, 예컨대, 유선 네트워크 또는 라디오 네트워크를 통해 코더로부터 수신됨 ― .

위에서 설명된 실시예들이 순수하게 예시적이고 비-제한적인 이유들로 주어진 것이고, 많은 수정들이 본 발명의 범위에서 벗어남이 없이 당업자들에 의해 쉽게 이루어질 수 있다는 것은 말할 필요도 없다.

Claims

적어도 하나의 이미지(I_k)를 나타내는 코딩된 데이터 스트림(STR)을 디코딩하기 위한 방법으로서,
상기 이미지는 블록들(b_c)로 분할되고, 적어도 2개의 예측 모드들의 세트가 블록, 소위 현재 블록을 예측하기 위해 이용 가능하고,
상기 방법은:
초기 세트로부터 적어도 2개의 카테고리들의 예측 모드들을 획득하는 단계(E10);
적어도 하나의 제1 미리 결정된 제거 기준에 기반하여 적어도 하나의 카테고리를 제거하는 단계(E11);
상기 적어도 하나의 제거된 카테고리와 공통인 예측 모드들을 삭제함으로써 제거되지 않은 카테고리들을 업데이트하는 단계(E12); 및
상기 업데이트된 카테고리들의 모드들 중에서 상기 현재 블록에 대한 예측 모드를 식별하는 정보를 상기 데이터 스트림으로부터 디코딩하는 단계(D20)
를 포함하는,
방법.
이미지를 코딩된 데이터 스트림의 형태로 코딩하기 위한 방법으로서,
상기 이미지는 블록들로 분할되고, 적어도 2개의 예측 모드들의 세트가 블록, 소위 현재 블록을 예측하기 위해 이용 가능하고,
상기 방법은:
상기 세트로부터 적어도 2개의 카테고리들의 예측 모드들을 획득하는 단계(E10);
적어도 하나의 제1 미리 결정된 제거 기준에 따라 적어도 하나의 카테고리를 제거하는 단계(E11);
상기 적어도 하나의 제거된 카테고리와 공통인 예측 모드들을 삭제함으로써 제거되지 않은 카테고리들을 업데이트하는 단계(E12);
상기 업데이트된 카테고리들 중 하나의 업데이트된 카테고리에서 예측 모드를 선택하는 단계(E13); 및
업데이트된 카테고리 예측 모드들로부터 선택된 예측 모드를 식별하는 정보를 코딩하고, 상기 코딩된 정보를 상기 코딩된 데이터 스트림에 삽입하는 단계(E14)
를 포함하는,
방법.
제1항 또는 제2항에 있어서,
상기 획득하는 단계는, 메모리에서 상기 카테고리들에 대한 식별 정보를 판독하는 단계(E101)를 포함하는,
방법.
제1항 또는 제2항에 있어서,
상기 획득하는 단계는, 이미 프로세싱된 블록들의 콘텐츠의 적어도 하나의 특징을 분석하는 단계(E102) 및 상기 예측 모드들을 그룹화하는 적어도 하나의 기준으로부터 그리고 상기 적어도 하나의 분석된 특징에 따라 카테고리들을 생성하는 단계(E103)를 포함하는,
방법.
제1항 또는 제2항에 있어서,
상기 방법은, 획득된 카테고리에 대해, 그 카테고리를 나타내는 예측 모드를 결정하는 단계(E121)를 포함하고,
상기 카테고리를 제거하는 단계는 대표적인 예측 모드를 제거하는 단계(E122)를 포함하며, 상기 카테고리의 제거는 상기 카테고리를 나타내는 예측 모드의 제거에 의해 트리거링되는,
방법.
제1항 또는 제2항에 있어서,
획득된 카테고리에 대해, 상기 카테고리를 제거하는 단계(E11)는, 상기 카테고리의 예측 모드들을 연속해서 제거하는 단계 및 상기 카테고리에서 제거된 예측 모드들의 수를 미리 결정된 임계치와 비교하는 단계를 포함하고,
상기 카테고리를 제거하는 단계는, 상기 제거된 모드들의 수가 상기 임계치보다 더 클 때 트리거링되는,
방법.
제1항 또는 제2항에 있어서,
상기 방법은, 예측 모드들을 그룹화하기 위한 기준과 연관되는 획득된 카테고리에 대해, 콘텐츠의 특징을 제공하도록 의도된 미리 프로세싱된 이웃 블록들의 콘텐츠를 분석하는 단계를 포함하고,
상기 제거하는 단계는, 상기 특징과 상기 그룹화 기준이 서로 호환 가능하지 않을 때 상기 카테고리를 제거하는,
방법.
적어도 하나의 이미지를 나타내는 코딩된 데이터 스트림(STR)을 디코딩하기 위한 디바이스(200)로서,
상기 이미지는 블록들로 분할되고, 적어도 2개의 예측 모드들의 세트가 블록, 소위 현재 블록을 예측하기 위해 이용 가능하고,
상기 디바이스는:
상기 세트로부터 적어도 2개의 카테고리들의 예측 모드들을 획득하고;
적어도 하나의 제1 미리 결정된 제거 기준에 따라 적어도 하나의 카테고리를 제거하고;
상기 적어도 하나의 제거된 카테고리와 공통인 예측 모드들을 삭제함으로써 제거되지 않은 카테고리들을 업데이트하고;
상기 데이터 스트림으로부터, 상기 업데이트된 카테고리들의 모드들 중에서 상기 현재 블록에 대한 예측 모드를 식별하는 정보를 디코딩하도록 구성되는,
디바이스(200).
이미지를 코딩된 데이터 스트림의 형태로 코딩하기 위한 디바이스(100)로서,
상기 이미지는 블록들로 분할되고, 적어도 2개의 예측 모드들의 세트가 블록, 소위 현재 블록을 예측하기 위해 이용 가능하고,
상기 디바이스는:
상기 세트로부터 예측 모드들의 적어도 2개의 카테고리들을 획득하고;
적어도 하나의 제1 미리 결정된 제거 기준에 따라 적어도 하나의 카테고리를 제거하고;
상기 적어도 하나의 제거된 카테고리와 공통인 예측 모드들을 삭제함으로써 제거되지 않은 카테고리들을 업데이트하고;
상기 업데이트된 카테고리들 중 하나의 업데이트된 카테고리에서 예측 모드를 선택하고;
업데이트된 카테고리 예측 모드들로부터 선택된 예측 모드를 식별하는 정보를 코딩하고, 상기 코딩된 정보를 상기 코딩된 데이터 스트림에 삽입하도록 구성되는,
디바이스(100).
단말 장비(ET)로서,
제9항에 따른 적어도 하나의 이미지를 코딩된 데이터 스트림으로 코딩하기 위한 디바이스(100) 및 제8항에 따른 코딩된 데이터 스트림을 디코딩하기 위한 디바이스(200)를 포함하는,
단말 장비(ET).
컴퓨터 판독가능 매체로서,
프로세서에 의해 실행될 때, 제1항 또는 제2항에 따른 방법을 구현하기 위한 명령들을 포함하는 컴퓨터 프로그램을 포함하는,
컴퓨터 판독가능 매체.