KR20190122884A

KR20190122884A - 인코딩 방법 및 장치, 디코딩 방법 및 장치, 및 컴퓨터 판독가능 저장 매체

Info

Publication number: KR20190122884A
Application number: KR1020197031126A
Authority: KR
Inventors: 크리스또프 지스께; 빠트리스 온노; 기욤 라로슈; 에두아르 프랑수와
Original assignee: 캐논 가부시끼가이샤
Priority date: 2013-04-05
Filing date: 2014-03-24
Publication date: 2019-10-30
Also published as: US20180302644A1; CN109547799A; US11089324B2; JP2018174547A; PL3534608T3; CN109510993A; KR20170110178A; BR122017024393B1; RU2639675C2; ES2803426T3; EP3534608B1; KR20150140315A; KR101906753B1; GB201306221D0; CN109246436A; US10582214B2; JP6526292B2; JP2020114013A; JP6701409B2; KR102038243B1

Abstract

본 발명은 스케일러블 비디오 인코더 및 디코더에서의 움직임 벡터 예측을 위한 방법, 장치 및 컴퓨터 프로그램에 관한 것이다. 본 발명은 움직임 도출 프로세스로도 알려진 스케일러블 인코딩 방식의 향상 계층에서의 움직임 정보 예측인자를 결정하기 위해 프로세스에 관한 것이다. 본 발명은 압축 방식에 의해 이용가능한 더 적절한 움직임 정보를 선택하는 데에 사용된 참조 계층에서의 위치의 보정을 포함한다. 따라서, 움직임 정보 예측이 향상된다.

Description

인코딩 방법 및 장치, 디코딩 방법 및 장치, 및 컴퓨터 판독가능 저장 매체{ENCODING METHOD AND DEVICE, DECODING METHOD AND DEVICE, AND COMPUTER-READABLE STORAGE MEDIUM}

본 발명은 일반적으로 스케일러블 비디오 코딩 및 디코딩, 특히 HEVC(High Efficiency Video Coding) 표준을 확장하는 스케일러블 비디오 코딩 및 디코딩의 분야에 관한 것이다. 보다 상세하게는, 본 발명은 스케일러블 비디오 인코더 및 디코더에서 움직임 벡터 예측을 위해 방법, 장치 및 컴퓨터 프로그램에 관한 것이다.

비디오 코딩은, 일련의 비디오 이미지들을 컴팩트한 디지털화된 비트스트림으로 변환하여 이러한 비디오 이미지들이 송신되거나 저장될 수 있는 하나의 방식이다. 인코딩 장치는 이러한 비디오 이미지들을 코딩하는데 사용될 수 있고, 관련된 디코딩 장치는 디스플레이 및 시청을 위해 이러한 비트스트림을 복원하는데 사용될 수 있다. 일반적인 목적은 이러한 비트스트림을 본래의 비디오 정보보다 더 작은 사이즈가 되도록 형성하는 것이다. 이는 유리하게도 이러한 비트스트림 코드를 송신하거나 또는 저장하는데 요구되는 송신 네트워크 또는 스토리지 장치의 용량을 감소시켜 준다.

공통의 표준화된 접근방식이 코딩 프로세스의 포맷과 방법에 대하여, 특히 디코딩부에 관하여 채택되었다. 과거의 비디오 표준의 대부분은 비디오 이미지를 더 작은 부분(매크로블록 또는 블록이라고 불린다)으로 분할한다. 완결된 새로운 HEVC(High Efficiency Video Coding) 비디오 압축 표준에서, 매크로블록은 소위 최대 코딩 유닛(LCU)(코딩 트리 블록(CTB)이라고도 불린다)에 의해 대체되고, 고려 중인 오리지널 이미지 세그먼트의 특성에 따라서, 이제 코딩 유닛(CU)이라고 불리는 분록으로 분할되고 조정된다. 이것은 비디오 이미지의 영역의 보다 상세한 코딩을 가능하게 하는데, 이것은 보다 적은 피쳐를 가지는 이들 영역에 대하여 상대적으로 더 많은 정보 및 더 적은 코딩 노력을 포함한다. 이미지 영역은 비디오 압축 문헌에서 이하, 즉 픽셀 블록, 픽셀들의 블록, 블록, 코딩 유닛(CU) 및 매크로블록과 같은 상이한 용어로도 알려져 있다.

HEVC의 스케일러블 확장이 지금 정의되고 있다. 이 확장에서, 이미지는 복수의 계층구조적 계층으로 구성되는 것으로서 간주된다. 계층구조적 계층은 오리지널 비디오 시퀀스의 이미지(또는 프레임)의 낮은 품질 버전의 집합에 해당하는 기본 계층 및 하나 이상의 향상 계층(또한 개선 계층으로도 알려져 있다)를 포함한다.

비디오 이미지는 원래 정지 화상 또는 픽쳐의 디지털 코딩과 유사한 방식으로 각각의 매크로블록을 개별적으로 코딩함으로써 처리되었다. 후에, 코딩 모델은 인접한 매크로블록 (공간적 또는 인트라 예측)으로부터, 또는 인접한 프레임의 유사한 매크로블록과의 연관에 의해서(시간적 예측) 하나의 프레임 내의 피쳐의 예측을 가능하게 한다. 이것은 이미 이용가능한 코딩된 정보의 사용을 가능하게 하고, 이에 의해 전체적으로 요구되는 코딩 비트레이트의 양을 감소시킨다. 인코딩하기 위한 오리지널 블록과 예측에 사용된 블록 사이의 차는 값의 레지듀얼 세트로 수집된다. 그 후에, 오리지널 블록은 예측에 사용된 블록의 식별자 및 레지듀얼의 형태로 인코딩된다. 많은 다양한 유형의 예측이 가능하다. 효과적 코딩은 디코딩 시에 인코딩할 블록에 대하여 최상의 품질을 제공하는 최상의 예층 모드를 선택하는데, 동시에 상기 블록을 비트스트림으로 나타내기 위하여 각각의 예측 모드에 의해서 유발되는 비트스트림의 사이즈를 고려한다. 레이트/왜곡 트레이드오프라고도 알려진, 디코딩된 화질과 요구되는 비트레이트의 감소 사이의 트레이드오프가 전체적인 목표이다.

시간적 예측의 경우에, 몇가지 유형의 예측이 가능하며, 2개의 주요한 유형, 즉 단방향성 예측 및 양방향성 예측으로 수렴될 수 있다. 단방향성 예측의 경우, 예측할 블록이 하나의 예측인자와 연관된다. 예측인자의 위치는 움직임 정보로서 인코딩된다. 이러한 움직임 정보는 표준에서 ref_idx라고 불리는 예측인자를 포함하는 참조 프레임의 인덱스와, 참조 프레임 내의 예측인자 블록의 위치를 제공하는 수직 변위 및 수평 변위에 의해서 정의되는 벡터에 의해서 구성된다. 양방향 예측의 경우, 인코딩할 블록은 2개의 상이한 참조 프레임에서 취해진 2개의 예측인자와 연관된다. 그 결과, 움직임 정보는 참조 프레임의 2개의 인덱스와 2개의 벡터를 포함한다.

움직임 정보 자체는 예측적인 방식으로 인코딩될 수 있다. 동일한 프레임 내에서 인접한 코딩 유닛에 대하여 얻어지는 움직임 정보는 공간적 움직임 정보 예측인자로서 이용될 수 있다. 다른 프레임 내에서 병치된 코딩 유닛으로부터 얻어지는 움직임 정보는 시간적 움직임 정보 예측인자로서 이용될 수 있다. 그 후에, 인코딩할 블록에 대한 인코딩될 움직임 정보는 사용된 움직임 정보 예측인자에 대한 인덱스와, 선택된 움직임 정보 예측인자와 인코딩될 움직임 정보 사이의 차를 타나내는 레지듀얼 정보에 의해 인코딩된다.

이전 이미지에 대응하는 움직임 정보로부터의 움직임 정보의 예측인자는 인코더 및 디코더가 이전에 인코딩된 이미지의 움직임 필드를 저장할 것을 요구한다. 이러한 움직임 필드는 4k2k 또는 8k4k 비디오와 같은 큰 해상도를 나타내는 비디오를 저장하는 거대한 양의 데이터를 나타낼 수 있다. HEVC 코덱의 저장 조건을 제한하기 위해서, HEVC 표준은 전체 움직임 필드 대신에 움직임 정보 예측을 위한 압축된 움직임 필드를 사용하는 전략을 채용하였다.

움직임 필드의 저장은 이전 이미지의 움직임 정보가 이용되는 경우에만 필요하다. HEVC에서, 시간적 움직임 정보 예측인자의 사용이 비활성화될 수 있다. 이 경우, 움직임 정보의 어떠한 저장도 막음으로써 HEVC 코덱의 저장 요구의 추가적인 감소가 얻어질 수 있다.

스케일러블 코덱의 주요한 아이디어 중 하나는, 향상 계층의 정보를 인코딩하기 위하여 주어진 코덱(예컨대, HEVC)을 사용하여 코딩된 참조 계층(RL)으로부터의 정보를 재사용하는 것이다.

움직임 정보의 예측 인코딩을 위하여 참조 계층에서 결정된 움직임 정보를 향상 계층에서 사용하는 것이 바람직할 것이다. 특히,참조 계층에서 시간적 움직임 정보 예측인자의 사용이 비활성화된 경우에, 향상 계층에서의 움직임 정보 예측을 위한 어떠한 움직임 정보도 이용가능하지 않게 될 수 있다.

본 발명은 전술한 하나 이상의 문제점을 다루기 위해서 고안되었다. 본 발명은 움직임 도출 프로세스(motion derivation process)라고도 알려진 스케일러블 인코딩 방식의 향상 계층에서의 움직임 정보 예측인자를 결정하기 위한 프로세스에 관한 것이다. 이것은 압축 방식에 의해 보다 관련이 있는 이용가능한 움직임 정보를 선택하는 데에 사용되는 참조 게측 내의 위치의 보정을 포함한다.

본 발명의 제1 측면에 따르면, 적어도 참조 계층과 향상 계층을 포함하는 스케일러블 인코딩 포맷에 따른 이미지를 인코딩하는 방법으로서, 상기 이미지의 적어도 일부는 움직임 정보에 기초하여 예측적으로 인코딩되며, 상기 움직임 정보 그 자체는 움직임 정보 예측인자의 세트에 기초하여 예측적으로 인코딩되며, 적어도 상기 향상 계층의 이미지 영역에 대하여, 상기 참조 계층에 속하는 이미지의 다른 부분의 움직임 정보에 기초하여 움직임 정보 예측인자의 세트를 결정하는 단계와, 상기 움직임 정보 예측인자의 세트의 일부가 될 상기 위치에 연관된 움직임 정보를 선택하기 위하여, 상기 향상 계층에서 인코딩할 상기 이미지 영역의 상기 참조 계층 내의 병치된 위치를 결정하는 단계와, 상기 병치된 위치의 하나 이상의 좌표 X를

(여기서,

은

을 정수값으로 절단(truncation)한 것임)에 의해 주어지는 새로운 값 X'로 보정하는 단계를 포함하는 방법이 제공된다.

본 발명의 추가 측면에 따르면, 스케일러블 인코딩 포맷에 따른 이미지를 디코딩하는 방법으로서, 상기 인코딩 포맷은 적어도 참조 계층 및 향상 계층을 포함하고, 상기 이미지의 적어도 일부는 움직임 정보에 기초하여 예측적으로 인코딩되며, 상기 움직임 정보 그 자체는 움직임 정보 예측인자의 세트에 기초하여 예측적으로 인코딩되며, 적어도 상기 향상 계층의 이미지 영역에 대하여, 상기 참조 계층에 속하는 이미지의 다른 부분의 움직임 정보에 기초하여 움직임 정보 예측인자의 세트를 결정하는 단계와, 상기 움직임 정보 예측인자의 세트의 일부가 될 병치된 위치에 연관된 움직임 정보를 선택하기 위하여, 상기 향상 계층에서 인코딩할 상기 이미지 영역의 상기 참조 계층 내의 상기 병치된 위치를 결정하는 단계와, 상기 병치된 위치의 하나 이상의 좌표 X를

(여기서,

은

을 정수값으로 절단한 것임)에 의해 주어지는 새로운 값 X'로 보정하는 단계를 포함한다.

본 발명의 다른 측면에 따르면, 적어도 참조 계층과 향상 계층을 포함하는 스케일러블 인코딩 포맷에 따른 이미지를 인코딩하는 장치로서, 상기 이미지의 적어도 일부는 움직임 정보에 기초하여 예측적으로 인코딩되며, 상기 움직임 정보 그 자체는 움직임 정보 예측인자의 세트에 기초하여 예측적으로 인코딩되며, 적어도 상기 향상 계층의 이미지 영역에 대하여, 상기 참조 계층에 속하는 이미지의 다른 부분의 움직임 정보에 기초하여 움직임 정보 예측인자의 세트를 결정하는 예측인자 결정 모듈과, 상기 움직임 정보 예측인자의 세트의 일부가 될 상기 위치에 연관된 움직임 정보를 선택하기 위하여, 상기 향상 계층에서 인코딩할 상기 이미지 영역의 상기 참조 계층 내의 병치된 위치를 결정하는 위치 결정 모듈과, 상기 병치된 위치의 하나 이상의 좌표 X를

(여기서,

은

을 정수값으로 절단한 것임)에 의해 주어지는 새로운 값 X'로 보정하는 위치 보정 모듈을 포함하는 장치가 제공된다.

본 발명의 또 다른 측면에 따르면, 스케일러블 인코딩 포맷에 따른 이미지를 디코딩하는 장치로서, 상기 인코딩 포맷은 적어도 참조 계층 및 향상 계층을 포함하고, 상기 이미지의 적어도 일부는 움직임 정보에 기초하여 예측적으로 인코딩되며, 상기 움직임 정보 그 자체는 움직임 정보 예측인자의 세트에 기초하여 예측적으로 인코딩되며, 적어도 상기 향상 계층의 이미지 영역에 대하여, 상기 참조 계층에 속하는 이미지의 다른 부분의 움직임 정보에 기초하여 움직임 정보 예측인자의 세트를 결정하는 예측인자 결정 모듈과, 상기 움직임 정보 예측인자의 세트의 일부가 될 병치된 위치에 연관된 움직임 정보를 선택하기 위하여, 상기 향상 계층에서 인코딩할 상기 이미지 영역의 상기 참조 계층 내의 상기 병치된 위치를 결정하는 위치 결정 모듈과, 상기 병치된 위치의 하나 이상의 좌표 X를

(여기서,

은

본 발명의 다른 측면에 따르면, 프로그램가능 장치용의 컴퓨터 프로그램 제품으로서, 상기 프로그램가능 장치에 로딩되어 실행될 때에, 본 발명에 따른 방법을 실시하기 위한 명령어의 시퀀스를 포함하는 컴퓨터 프로그램 제품이 제공된다.

본 발명의 다른 측면에 따르면, 본 발명에 따른 방법을 실시하기 위한 컴퓨터 프로그램의 명령어를 저장하는 컴퓨터 판독가능 저장 매체가 제공된다.

본 발명에 따른 방법의 적어도 일부는 컴퓨터 구현될 수 있다. 따라서, 본 발명은 모두 통상적으로 "회로", "모듈" 또는 "시스템"으로서 본 명세서에서 불리는 완전한 하드웨어 실시예, 완전한 소프트웨어 실시예(펌웨어, 상주하는 소프트웨어, 마이크로코드 등) 또는 소프트웨어와 하드웨어 양태를 결합하는 실시예의 형태를 띨 수 있다. 또한, 본 발명은 컴퓨터 이용가능 프로그램 코드가 매체 내에 구현된 표현의 임의의 유형의 매체로 구현되는 컴퓨터 프로그램 제품의 형태를 띨 수도 있다.

본 발명은 소프트웨어로 구현될 수 있기 때문에, 본 발명은 프로그램가능 장치에 대한 제공을 위하여 임의의 적절한 캐리어 매체 상의 컴퓨터 판독가능 코드로서 구현될 수도 있다. 유형의 캐리어 매체는 플로피 디스크, CD-ROM, 하드 디스크 드라이브, 자기 테이프 장치 또는 반도체 메모리 장치 등을 포함할 수도 있다. 시간적인 캐리어 매체는 전기 신호, 전자 신호, 광학 신호, 음향 신호, 자기 신호 또는, 예컨대 마이크로파 또는 RF 신호 등의 전자기 신호와 같은 신호를 포함할 수도 있다.

본 발명의 실시예가 예시적으로, 그리고 첨부 도면을 참조하여 설명될 것이다.
도 1은 고전적인 스케일러블 비디오 인코더의 블록도.
도 2는 본 발명의 일 실시예에서 움직임 정보 예측인자에 대한 공간적 및 시간적 위치를 도시하는 도면.
도 3은 본 발명의 일 실시예에서 참조 계층의 움직임 정보를 이용한 향상 계층에서의 움직임 정보의 예측을 도시하는 도면.
도 4는 본 발명의 일 실시예에서 디코딩 프로세스에 대한 흐름도.
도 5는 본 발명의 일 실시예에서 움직임 정보의 입도를 도시하는 도면.
도 6은 본 발명의 일 실시예에서 TextureRL 접근방식의 원리를 개략적으로 도시하는 도면.
도 7은 본 발명의 일 실시예에서 향상 계층에서의 AMVP 및 머지(Merge) 모드 양쪽의 TextureRL 접근방식의 문맥에서의 적응형 움직임 정보 예측인자 도출 프로세스를 도시하는 도면.
도 8은 본 발명의 참조 프레임 인덱스 접근방식의 문맥에서의 적응형 처리를 도시하는 도면.
도 9는 본 발명의 머지 모드의 움직임 정보 도출 처리의 흐름도.
도 10은 본 발명의 일 실시예의 스케일러블 디코더의 블록도를 도시하는 도면.
도 11은 본 발명의 하나 이상의 실시예의 구현을 위한 컴퓨팅 장치의 개략적인 블록도.
도 12는 본 발명의 일 실시예에서 AMVP 움직임 정보 예측인자 세트 도출을 도시하는 도면.
도 13은 본 발명의 일 실시예에서 메모리 영역의 상세를 도시하는 도면.

도 1은 많은 서브파트 또는 스테이지를 포함할 수 있고, HEVC의 스케일러블 확장을 나타내는 고전적인 스케일러블 비디오 인코더의 블록도를 도시한다. 여기에는 기본 계층(1.13)에 대응하는 데이터 및 하나의 향상 계층(1.14)에 대응하는 데이터를 생성하는 2개의 서브파트 또는 스테이지 A10 및 B10이 도시되어 있다. 각각의 서브파트 A10 및 B10은 표준 비디오 인코더의 원리를 따르며, 변환, 양자화 및 엔트로피 인코딩이 2개의 별도의 경로에 적용되며, 하나가 각각의 계층에 대응한다.

제1 스테이지 B10은 출력 스케일러블 스트림의 H.264/AVC 또는 HEVC 준거 기본 계층을 인코딩하는 것을 목적으로 한다. 이러한 비스케일러블 인코더에 대한 입력은 이미지(1.1)에 다운샘플링(1.17)을 적용함으로써 얻어지는 프레임 이미지의 오리지널 시퀀스이다. 이 인코더는 표준 비디오 비트스트림을 인코딩하기 위하여 아래의 단계를 연속적으로 행한다. 단계 1.2에서, 인코딩될(압축될) 픽쳐 또는 프레임이 HEVC 표준에서 코딩 유닛(CU)이라고 불리는 픽셀 블록으로 분할된다. 각각의 블록에는 먼저 움직임 추정 동작(1.3)이 행해지는데, 이것은 전용 메모리 버퍼(1.4) 내에 저장된 참조 픽쳐 중에서 블록의 양호한 예측을 제공하는 참조 블록의 검색을 포함한다. 이러한 움직임 추정 단계는 검색된 참조 블록뿐만 아니라 대응하는 움직임 벡터를 포함하는 하나 이상의 참조 픽쳐 인덱스를 제공한다. 그 후에, 움직임 보상 단계 1.5가 검색된 참조 블록에 대한 추정된 움직임 벡터에 적용되어, 예측을 위한, 움직임 보상된 예측 블록과 오리지널 블록 사이의 차인 시간적 레지듀얼 블록을 얻는다. 또한, 인트라 예측 단계 1.6은 현재 블록을 예측하기 위한 최상의 성능을 제공하는 공간 예측 모드를 결정한다. 다시, 공간적인 레지듀얼 블록이, 여기서는 예측을 위한, 공간적 예측인자와 오리지널 블록 사이의 차로서 예산된다.

그 후, 코딩 모드 선택 메커니즘(1.7)은 공간적 및 시간적 예측 중에서 현재 블록의 코딩 시에 최상의 레이트 왜곡 트레이드오프를 제공하는 코딩 모드를 선택한다. 선택된 예측 모드에 따라, 그 후에 레지듀얼 예측 블록은 변환(DCT) 및 양자화(1.8)처리된다. 이와 같이 양자화된 계수 QTC(및 연관된 움직임 데이터 MD)의 엔트로피 코딩(1.10)이 행해진다. 코딩된 현재 블록(1.2)과 연관된 압축된 텍스쳐 데이터(1.13)가 출력을 위하여 보내진다.

추가적인 코딩 효율을 향상시키기 위하여, 움직임 보상 단계에서 행해지는 인터 블록에 연관된 움직임 정보가 인접하는 블록 움직 정보를 사용하여 예측적으로 인코딩된다. 이 경우에, 인접하는 블록은 공간적으로, 그리고 선택적으로 시간적으로 인접하는 블록을 포함한다. 그 결과, 시간적으로 인접하는 블록이 이용되는 경우에는, 예측을 가능하게 하기 위하여 이전에 인코딩된 이미지의 움직임 정보가 저장될 필요가 있다. 표준의 현재 버전에서는, 이러한 정보는 인코딩 및 디코딩 프로세스의 메모리 사용을 제한하기 위하여 인코더 및 디코더에 의해서 압축된 형태로 저장된다. 그러나, 전술한 바와 같이, 움직임 정보 예측에서 시간적인 예측이자가 이용되지 않는 경우에는, 이전 이미지의 움직임 필드의 저장은 불필요하다.

그 후에, 현재 블록이 역양자화(스케일링이라고도 불림) 및 역변환(1.11)에 의해서 복원된다. 이러한 단계는, 필요한 경우에 복원된 블록을 형성하기 위하여 역변환된 레지듀얼과 현재 블록의 예측 블록 사이의 합에 선행한다. 복원된 블록은 복원된 프레임을 형성하기 위하여 버퍼에 추가된다. 그 후에, 이 복원 프레임이 1.12에서 포스트필터링된다. 이러한 포스트필터 후의 복원 프레임은, 인코딩될 임의의 후속하는 픽쳐를 예측하기 위한 참조 픽쳐로서 이용가능하기 위하여, DPB(Decoded Picture Buffer)라고 불리는 메모리 버퍼(1.4)에 저장된다.

최종적으로, 코딩 모드에 마지막 엔트로피 코딩 단계가 제공되고, 인터 블록의 경우에는, 움직임 데이터와 이전에 계산된 양자화된 DCT 계수가 제공된다. 이러한 엔트로피 코더는 이들 각각의 데이터를 그들의 이진 형태로 인코딩하며, 이와 같이 인코딩된 블록을 NAL(Network Abstract Layer) 유닛이라고 불리는 컨테이너에 넣는다. NAL 유닛은 소정의 슬라이스로부터의 모든 인코딩된 코딩 유닛을 포함한다. 코딩된 HEVC 비트스트림은 일련의 NAL 유닛에 상응한다.

다음으로, 제2 스테이지 A10은 기본 계층을 참조 계층으로서 사용하는 향샹 게측의 코딩을 나타낸다. 여기서, 이 향상 계층은 업샘플링된 기본 계층에 대하여 공간적 해상도를 개선시킨다. 도 1에 도시된 바와 같이, 이러한 향상 계층의 코딩 방식은, 압축되는 스트림(1.10)으로부터의 현재 픽쳐의 각각의 코딩 유닛에 대하여 인터 계층 예측에 기초하는 추가적인 모드가 고려된다는 점을 제외하고는 기본 계층의 코딩 방식과 유사하다. 아래의 변경이 전형적으로 포함된다.

참조 계층의 업샘플링된 병치된 블록을 이용하여 향상 계층의 블록을 예측하는 것에 대응하는 IntraBL(1.90)이라고 불리는 추가적인 모드는가 향상 계층 블록에 대하여 고려되는 모드의 리스트에 추가된다.

인터 모드에서 사용되는 움직임 정보 예측이 참조 계층으로부터 유입하는 움직임 정보를 고려하기 위하여 변경될 수 있다. 또한, 움직임 정보의 특정한 엔트로피 코딩이 엔트로피 코딩 단계 1.20 동안에 적용될 수 있다.

이러한 새로운 툴에 대하여, 중간 인터레이어 모듈(1.18)은 가능하게는 공간 해상되 변경에 따라 업샘플링된 정보(움직임 정보, 샘플)를 참조 계층으로부터 움직임 추정 모듈(1.23), IntraBL 모드(1.90) 또는 인트라 예측 모듈(1.26) 등의 향상 계층 인코딩의 상이한 모듈에 제공할 수 있다. 특히, 참조 프레임 접근방식에서, 모듈(1.18)은 DPB(1.4) 내의 결과적인 프레임의 샘플 데이터 및 움직임 데이터를 향상 계층 크기와 일치하도록 업샘플링할 것이며, 결과적인 데이터(이미지 및 그 움직임)을 DPB(1.24)에 삽입할 것이며, 이것은 차례로 1.25 및 1.23의 동작에 영향을 미칠 것이다.

도 10은, 예컨대, 기본 계층 및 향상 계층을 포함하는 2개의 스케일러빌러티 층으로 이루어지는 스케일러블 비트스트림에 적용되는 스케일러블 디코더의 블록도를 나타낸다. 따라서, 이러한 디코딩 프로세스는 도 1의 스케일러블 코딩 프로세스의 역처리이다. 디코딩되는 스케일러블 스트림(10.10)은 하나의 기본 계층과 기본 계층 상위의 하나의 공간적 향상 계층으로 이루어지며, 단계 10.20에서 그들의 각각의 계층으로 디멀티플렉싱된다.

도 10의 제1 스테이지는 기본 계층 디코딩 프로세스 B12에 관한 것이다. 이러한 디코딩 프로세스는 기본 계층 내의 각각의 코딩된 픽쳐의 코딩 유닛 또는 블록의 엔트로피 디코딩(10.30)에 으해서 개시된다. 이러한 엔트로피 디코딩(10.30)은 모딩 모드, 움직임 정보(참조 픽쳐 인덱스 및 인터 코딩된 블록의 움직임 벡터), 인트라 예측에 대한 예측의 방향 및 레지듀얼 데이터를 제공한다. 이러한 레지듀얼 데이터는 양자화되고 변환된 DCT 계수로 구성된다. 다음으로, 이들 양자화된 DCT 게수는 역양자화 및 역변환 동작(10.31)을 거친다. 움직임 보상(10.32) 또는 인트라 예측(10.33) 데이터가 동작(10.34)을 통해서 이러한 레지듀얼에 더해질 수 있다.

그 후에, 디블록킹 필터 단계 10.35가 적용된다. 이와 같이 복원된 이미지는 그 후에 프레임 버퍼(10.40) 내에 저장된다.

다음으로, 인터 블록에 대한 디코딩된 움직임 정보와, 복원된 블록이 도 10(B12)의 스케일러블 디코더의 프레임 버퍼에 첫번째에 저장된다. 이러한 프레임은 상위 스케일러빌러티 층을 예측하기 위한 참조 데이터로서 이용될 수 있는 데이터를 포함한다.

다음으로, 도 10의 제2 스테이지는 제1 스테이지에 의해서 디코딩된 기본 계층의 상부의 공간적인 향상 계층 A12의 디코딩을 행한다. 이러한 공간적인 향상 계층 디코딩은 제2 계층의 엔트로피 디코딩을 포함하는데, 이것은 코딩 모드, 움직임 정보 및 인트라 예측 정보와, 제2 게층의 블록의 변환되고 양자화된 레지듀얼 정보를 제공한다.

다음 단계는 향샹 픽쳐 내의 블록을 예측하는 것에 대응한다. 상이한 타입의 블록 예측(인트라, 인터 또는 TextureRL 접근방식의 경우에는 인터레이어) 사이의 선택(10.51)은 엔트로피 디코딩 단계 10.50로부터 얻어지는 예측 모드에 의존한다.

인트라 블록에 대하여, 그들의 처리는 인트라 코딩 유닛의 타입에 의존한다. 인터레이어 예측된 인트라 블록의 경우(IntraBL 모드)(10.57), 그 블록에 대하여 레지듀얼 데이터가 인코딩된 경우에는, 엔트로피 디코딩(10.50)의 결과는 역양자화 및 역변환(10.52)을 거치고, 그 후에 디코딩, 포스트필터링 및 업샘플링된 (공간적인 스케일러빌러티의 경우) 버전으로 동작(10.53)에 의해서 기본 픽쳐 내의 현재 블록의 병치된 블록에 더해진다. 인트라 블록의 경우, 그러한 블록은 역양자화, 역변환에 의해서 완전하게 복원되어, 공간 도메인 내에서 레지듀얼 대이터를 취득하고, 그 후에 인트라 예측(10.54)되어 완전해 복원된 블록을 얻는다.

인터 블록에 대하여, 그들의 복원은 프레임 메모리(10.60)로부터 계산되는 그들의 움직임 보상(10.55), 레지듀얼 데이터 디코딩 및 그 후의 그들의 디코딩된 레지듀얼 정보의 시간적인 예측인자 블록에 대한 가산을 포함한다. 이러한 인터 블록 디코딩 프로세스에서, 고려되는 블록에 연관되는 움직임 정보는 기본 픽쳐 내의 병치된 블록의 움직임 정보의 개선으로서 예측적인 방식으로 디코딩될 수 있다. 이러한 측면은 이하에서 상술한다.

기본 계층에서처럼, 디블록킹 필터 단계 10.56는 10.53으로부터 출력되는 이미지에 적용될 수 있으며, 완전히 디코딩된 프레임(10.70)에 의해 되돌려지기 전에 프레임 메모리(10.60) 내에 저장된다. 본 발명의 일 실시에에서, 움직임 보장(10.55)은 향상 계층 이미지 버퍼(10.60) 및 기본 계층 이미지 버퍼(10.40)로부터의 데이터를 실제로 이용한다. 동일한 데이터와 함께, 모듈(10.80)은 그러한 데이터를 참조 계층으로부터 그것의 업샘플링에 의해서 제공하는 것을 담당한다.

이미지 예측을 위한 2가지 접근방식이 고려될 수 있다. 보다 구체적으로, 이미지 예측은 움직임 정보 예측을 포함한다. 양 접근방식에서, 움직임 정보 예측이 상이한 방식으로 영향을 받는다. 이미지 예측의 2개의 접근방식은 후술된다. 이들 접근방식의 특징은 향상 계층 내의 움직임 정보의 예측을 위하여 참조 계층의 움직임 벡터를 사용하는 것을 허용하는 것이다. 이러한 특징은 도 3을 참조하여 더 상세하게 설명될 것이며, 참조 계층의 도 1의 프레임 메모리(1.4)가 액세스되는 방식에 영향을 미친다.

그 후에, 본 발명의 주요한 포인트인 움직임 정보 예측의 경우가 양 접근방식에 대하여 상술된다.

제1 접근방식은 통상적으로 TextureRL이라고 불리는데, IntraBL 모드의 사용이 허용되기 때문이다. 이러한 접근방식은 블록 레벨에서 IntraBL 모드의 사용을 나타내기 위해서 저레벨 구문을 사용한다. 이러한 접근방식은 종종 일부 전문가에 의해서 "IntraBL 접근방식"이라고 불린다.

참조 프레임 삽입으로 불리는 제2 접근방식은 주로 고레벨 변경을 사용하는 것이다. 특히, 블록레벨에서 구문 변경이 이루어지지 않는다. 참조 프레임 인덱스 접근방식의 주요한 특징은 ILR 이미지(Inter Layer Reference 이미지)라고도 불리는 참조 계층의 (가능하게는 해상도가 상이한 경우에 업스케일링된)이미지를 향상 계층의 디코딩된 이미지의 버퍼에 도입하는 것이다. 그 후에, 이러한 이미지는 DPB(Decoded Picture Buffer)에서 참조 이미지로서 이용되는 특정한 참조 이미지 리스트(L0 및 L1 리스트)의 끝에 삽입된다. 삽입은 향상 계층의 현재 슬라이스의 종류에 의존한다. P-슬라이스에서, ILR 이미지는 L0 리스트의 끝에 삽입된다. B-슬라이스에서, ILR 이미지는 L0 및 L1 리스트 양쪽의 끝에 삽입된다. 이러한 접근방식은 가끔 일부 전문가에 의해 "ref_idx 접근방식"으로 불린다. 이러한 접근방식으로, 주어진 블록의 움직임 정보는 참조 계층에서 병치된 참조 계층 시간적 움직임 정보 예측인자를 이용하여 예측적으로 인코딩될 수 있다.

TextureRL 접근방식에서의 IntraBL과 참조 프레임 인덱스 접근방식에서의 삽입된 참조 프레임의 사용은 향상 계층을 예측하기 위해 기본 계층 정보를 이용하기 위한 2가지 방법이라는 것은 주목할만한다. 본 발명의 설명에서는, 단순성을 위하여, 본 발명자들은 이들 접근방식에 대해서 동시에 고려하지만, 양쪽을 모두 고려하지는 않는다.

본 발명자들은 양쪽 접근방식에 유효한 움직임 정보에 관한 일반적인 정보를 기술할 것이다.

전형적 비디오 코덱은 픽셀 사이의 공간적 및 시간적 상관 모두를 각각의 인트라 및 인터 모드에서 이용한다. 본 발명자들은 여기서 현재 프레임과 이전에 인코딩/디코딩된 프레임의 픽셀 사이의 시간적 상관을 이용한 인터 모드에 집중한다.

HEVC(그리고 확대하면 SHVC)에서, "인터" 모드는 시간적 예측 방향을 정의하는 예측 모드이다. 0 내지 2 세트의 움직임 정보가 이 시간적 방향에 의존하여 정의된다. "인터" 예측 방향이 0과 동일하면, 블록은 인트라 모드로 코딩되고, 그것은 어떠한 움직임 정보도 포함하지 않는다. "인터" 예측 방향이 1과 동일하면, 블록은 L0라고 불리는 참조 프레임의 리스트으로부터 움직임 정보를 포함한다. "인터" 예측 방향이 2와 동일하면, 블록은 L1이라고 불리는 참조 프레임의 또 다른 리스트로부터 움직임 정보를 포함한다. "인터" 예측 방향이 3과 동일하면, 블록은 양쪽 리스트 L0과 L1로부터의 움직임 정보를 포함한다.

움직임 정보는 다음과 같은 정보, 참조 프레임의 리스트 내의 인덱스(ref_idx) 및 2개의 컴포넌트, 즉, 수평 및 수직 움직임 값을 가지는 움직임 벡터에 대응한다. 이들 값은 현재 블록과 참조 프레임 내의 시간적 예측인자 블록 사이의 픽셀의 견지에서 공간적 변위에 대응한다. 이 변위는 서브픽셀 정밀도(픽셀의 0, 1/4, 2/4 또는 3/4)를 가질 수 있다.

상기에 언급된 "인터" 예측 방향 1과 2는 단방향성 예측에 대응되고, I (=인트라 코딩된 슬라이스) 슬라이스에서 사용될 수 없고 P(예측 슬라이스) 및 B(비예측) 슬라이스에서 사용될 수 있다. 특정한 유형(I, P 또는 B)의 이미지는 동일한 유형의 하나 이상의 슬라이스로 구성된다. "인터" 예측 방향 3은 양방향성 예측으로 불리고, 단지 B 슬라이스에서 사용될 수 있다. 이 경우에, 2개의 블록 예측인자가 고려되는데, 각각 리스트 L0과 L1을 위한 것이다. 결과적으로, 2개의 참조 프레임 인덱스뿐만 아니라 2개의 움직임 벡터가 고려된다. 양방향에 대한 인터 블록 예측인자는, 이들 2개의 움직임 벡터에 의해 지정된 이들 2개의 블록의 픽셀별 평균이다. 블록 예측인자는 여기에서 HEVC 또는 SHVC에서 예측 유닛 또는 예측 블록의 개념에 해당된다.

상술한 바와 같이, HEVC의 움직임 정보는 시간적으로 병치된 움직임 정보인 복수의 움직임 정보 예측인자를 이용하여 예측 코딩에 의해 코딩된다. 그러므로, 참조 프레임으로서 이용되는 각각의 프레임이 인코더 및 디코더 측에 관련된 움직임 정보를 저장하는 것이 필요하다. 이러한 움직임 정보는 그것의 크기를 움직임 정보의 전용 메모리 내로 감소시키기 위해 압축된다.

그러므로, HEVC는 움직임을 나타내기 위해 특별한 입도를 이용한다. 이것은 도 5에 도시되어 있다. 16x16 픽셀의 모든 블록(5.0)에 대해, HEVC에 의해 이용되는 최소 입도는 4x4 픽셀로, 16개의 잠재적인 움직임 정보를 야기하며, 각각의 4x4 블록에 대한 것이다. 움직임 정보의 압축은 주어진 블록(5.0)에 대한 좌측 상방의 4x4 블록(5.1)에 대응하는 움직임 정보만을 유지하는 것에 대응한다.

움직임 정보 압축 프로세스는 16x16 블록에 대한 최종 선택이 이루어지고 인코딩되자마자 발생할 수 있지만, 그것이 전체 이미지가 인코딩되는 것과 동시에 행해지는 것으로 보는 시각화하는 것이 보다 단순하다. 단순하게 하기 위해, 적응형 루프 필터 프로세스 이후에, 그리고 디코딩된 픽쳐가 디코딩된 픽쳐 버퍼(DPB)에 저장되기 전에 행해지는 것을 고려할 수 있다. 이러한 압축 프로세스는 특정 룩업, 즉 소정의 픽셀 좌표 X 및 Y에 대하여, 위치 X' = (X>>4)<<4 및 Y' = (Y>>4)<<4로부터 움직임 정보가 얻어지는 것으로 기술될 수 있으며, 여기서 '>>' 및 '<<' 연산자는 후술하는 바와 같다.

x >> y는 y 2진 디지트만큼 x의 2의 보수 정수 표시의 산술 우측 시프트를 나타낸다. 이러한 함수는 y의 음이 아닌 정수값에 대해서는 정의된다. 우측 시프트의 결과로서 MSB로 이동된 비트는 시프트 연산 이전에 x의 MSB와 동일한 값을 가진다.

x << y는 y 2진 디지트만큼 x의 2의 보수 정수 표현의 산술적 좌측 시프트를 나타낸다. 이 함수는 y의 음이 아닌 정수 값에 대해서만 정의된다. 좌측 쉬프트의 결과로서 LSB로 시프트된 비트는 0과 동일한 값을 가진다.

일부 구현에서는 대응하는 압축된 움직임을 저장하는 데에 버퍼를 이용할 수 있음에 주의한다.

HEVC 설계에 있어서, 움직임 벡터는 복수의 움직임 정보 예측인자를 이용하여 예측적 코딩에 의해 코딩된다. 인터 코딩된 블록에 대해, 스킵(Skip), 인터 및 머지 블록 인코딩 서브모드라고 불리는 3개의 서브모드가 있다. 인터 서브모드는 AMVP라고 불리는 특정한 움직임 예측 방법을 이용하고, 레지듀얼 텍스처 데이터를 사용한다. 스킵 및 머지 서브모드는 동일한 움직임 예측 방법을 이용한다(그러나, 전자는 레지듀얼 데이터를 이용하지 않는다). 이러한 예측 방법은 주어진 세트로부터 최상의 움직임 정보 예측인자의 선택을 가능하게 하며, 이 세트는 공간적 및 시간적 움직임 정보로 구성된다.

본 발명자들은 머지 모드로 불리는 움직임 정보 예측 모드와, 전술한 접근방식인, TextureRL과 참조 프레임 인덱스에 양쪽에 이것을 적용하는 방법을 설명할 것이다. 이것은 2개의 인터 코딩 서브모드인, 스킵 및 머지 서브모드에 사용된다. 다음으로, 본 발명자들은 AMVP 모드에 사용될 수 있는 동등한 방식을 상술할 것이다.

도 3은 줄여서 "머지 모드"라고 불리는 인코더 측의 머지 및 스킵 서브모드에 대한 머지 움직임 정보 예측인자의 일반적인 흐름도를 도시한다. 머지 모드의 원칙은 어떠한 움직임 개선도 코딩하지 않고서 움직임 보상을 위한 움직임 벡터 예측을 이용하는 것이다. 움직임 정보 예측인자 생성 모듈(3.3)은 아래에서 상세하게 기술된 바와 같이 움직임 정보 필드(3.1)에 기초하여 움직임 정보 예측인자 세트(3.4)를 생성한다. 최상의 움직임 정보 예측인자의 레이트/왜곡 선택(3.7)은 움직임 정보 예측인자 세트(3.4)에 적용된다. 이것은 코딩되는 움직임 벡터 예측인자 인덱스(3.8)를 생성한다.

변환 모듈(3.14)은 상기 인덱스를 절단된 1진 코드(3.15)로 변환하는 데, 즉, N 비트를 대신 필요로하는 N의 최대값을 제외하고, 인코딩할 값 N에 대하여 길이 N+1의 코드워드가 생성된다. 이 코드는 1로 설정될 N 비트와, 0으로 설정될 최종 비트로 구성된다. N 값이 후보의 최대 개수와 동일하면, 그 말단 비트는 필요하지 않고, 따라서, 코드워드 길이는 N이다. 그 최대값에 의해, 머지 후보의 수(통상 HEVC에 대해서 5)의 수는 슬라이스 레벨(HEVC의 five_minus_max_num_Merge_cand 구문 요소)에서 선택될 수 있고, 단계 3.14는 예측인자(3.16)의 최대수를 고려한다.

그 후에, 발생된 코드워드(3.15)는 엔트로피 코딩 단계(3.12)에 의해 엔트로피 코딩된다.

- 제 1 비트는 특정 콘텍스트를 가진 산술 코딩을 이용하고,

- 잔여 비트는 바이패스 코딩을 이용하여, 실제 비트가 생성된다.

도 4는 대응하는 디코딩 처리를 위한 흐름도를 나타낸다. 제1 단계에서, 모듈(4.2)은 현재 프레임 및 이전 프레임의 움직임 정보 필드(4.1)에 기초하여 움직임 정보 예측인자 세트(4.8)를 생성한다. 움직임 예측인자의 최대 개수(4.16)는 슬라이스 헤더에 위치한 구문 요소 five_minus_max_num_Merge_cand로부터 디코딩되었다. 그 후에, 그것은 움직임 정보 예측인자 코드워드(4.14)를 추출하기 위해 4.6에서 사용된다. 이 코드워드는 단계 4.15에 의해 예측인자 인덱스(4.9)로 변환된다. 그 후에, 이용하기 위한 움직임 정보 예측인자(4.10)는 이 예측인자 인덱스 값(4.9)에 따라 세트(4.8)로부터 추출된다. 그 후에, 이 예측인자는 움직임 보상 동안 실제 움직임 정보로서 이용된다.

움직임 정보 예측인자 또는 후보는 모든 움직임 정보, 즉, 방향(즉, 리스트 내의 참조 인덱스 및 움직임 벡터의 이용가능성), 참조 프레임 인덱스 및 움직임 벡터를 포함한다. 각각 인덱스를 가지는 수 개의 후보가 이하에서 설명되는 머지 도출 프로세스에 의해서 생성된다. HEVC에서, 후보의 최대 개수 Max_cand는 디폴트로 5와 동일하지만, 1로 감소될 수 있다. 본 발명자들은 여기에서 TextureRL과 참조 프레임 인덱스 접근방식을 위한 특정 부분으로, 머지 움직임 정보 예측인자 결정을 기술하고 있다.

도 9는 머지 모드의 움직임 정보 도출 프로세스의 흐름도이다. 양쪽 HEVC 코어, TextureRL 및 참조 프레임 인덱스 접근방식의 도출의 제1 단계에서, 7개의 블록 위치 9.1 내지 9.7이 고려된다.

또한, TextureRL 접근방식의 경우, 상기에서 기술된 바와 같이,또 다른 후보, SMVP 9.0(SMVP는 Spatial Motion Vector Predictor를 나타냄)이 고려된다. 이들 위치는 도 2에 도시된 공간적 및 시간적 위치에 대응한다. 각각의 위치는 양쪽 도면에서 똑같은 명칭을 가지고 있다. 이 SMVP는 참조 프레임 인덱스 접근방식에서는 존재하지 않는다.

모듈(9.8)은 공간적 움직임 정보와, TextureRL 접근방식에서, 향상 계층에 대한 SMVP의 이용가능성을 체크한다. 그것은 최대 4개의 움직임 정보 예측인자를 선택한다. 이 모듈에서, 예측인자는 그것이 참조 계층이 존재하고 이 블록이 인트라 코딩되지 않았다면 이용가능하다. 또한, 이하에서, TextureRL 접근방식 내에서, 추가될 임의의 후보는 임의의 다른 움직임 정보에 추가하여 SMVP와 또한 비교되고, 상이한 경우에는 실제로 추가된다. 예를 들어, A1 또는 9.1의 참조부호를 가지는 "좌측" 후보 또한 SMVP와 비교되고, 움직임이 위치 X2 또는 그렇지 않은 경우 첫째로 존재하는 경우, 두 번째 것으로서 추가된다. 이 비교는 이하에서도 그것을 체크함으로써 행해진다.

- 2개의 후보로부터의 움직임 정보는 동일한 예측 방향을 가지며,

- 그러한 경우, 예측 방향과 관련된 각각의 움직임 정보에 대하여,

·동일 프레임이 참조되고(즉, ref_idx 인덱스의 동일한 값),

·움직임 벡터가 그들의 수직 및 수평 좌표에서 모두 동일하다.

이러한 5개의 움직임 벡터의 선택과 검사는 하기 조건에서 기술된다.

·TextureRL 접근방식에서, PU의 중심 위치 X1의 병치된 위치 X2로부터의 움직임 정보(9.0)가 이용가능한 경우(9.8), 그것은 리스트(9.10)에서 제1 후보로서 스케일링되고 이용된다.

·"좌측" A1 움직임 정보(9.1)가 이용가능한 경우(9.8), 즉 이것이 존재하고 이 블록이 인트라 코딩되지 않은 경우, "좌측" 블록의 움직임 정보가 선택되어 리스트 내의 제1 후보로서 이용된다(9.10).

·"상방" B1 움직임 정보(9.2)가 이용가능한 경우(9.8), 후보 "상방" 블록이 A1(존재한다면)과 비교된다(9.9). B1이 A1과 동일한 경우, B1은 공간 후보의 리스트에 추가되지 않고(9.10), 그렇지 않은 경우에는 추가된다.

·"우측 상방" B0 움직임 정보(9.3)가 이용가능한 경우(9.8), "우측 상방"의 움직임 벡터가 B1과 비교된다(9.9). B0이 B1과 같다면, B0은 공간 후보의 리스트(9.10)에 추가되지 않고, 그렇지 않다면 추가된다.

· "좌측 하방" A0 움직임 벡터(9.4)가 이용가능한 경우(9.8), "좌측 하방"의 움직임 정보가 A1과 비교된다(9.9). A0이 A1과 동일하면, A0은 공간적 후보의 리스트(9.10)에 추가되지 않고, 그렇지 않다면 추가된다.

·공간적 후보의 리스트가 4개의 후보를 포함하지 않으면, "좌측 상방" B2 움직임 정보(9.5)의 이용가능성이 시험되고(9.8), 그것이 이용가능하면 "좌측 상방" B2의 움직임 벡터가 A1 및 B1과 비교된다(9.9), B2가 A1 또는 B1과 동일하면, B2는 공간적 후보의 리스트(9.10)에 추가되지 않고, 그렇지 않다면 추가된다.

이 스테이지의 끝에서, 리스트(9.10)는 0에서 최고 4개의 후보를 포함한다.

시간적 후보에 대하여, 2개의 위치, 즉 병치된 블록의 우측 아래의 위치 BR1에 대응하는 H(9.6) 또는 현재 블록의 중앙 위치 X1에 대응하는 병치된 블록(병치는 시간적으로 상이한 프레임에서 동일한 위치의 블록을 의미한다)의 중앙 C(9.7)에 대응한다. 이러한 위치는 도 2에 도시되어 있다.

첫째로, H 위치(9.6)에서의 블록의 이용가능성이 체크된다(9.11). 그것이 이용가능하지 않으면, 중심 위치(9.7)에서의 블록이 그 후에 체크된다(9.11). 이러한 위치 중 하나 이상의 움직임 정보가 이용가능하면, 이 시간적 움직임 정보는 필요하다면(9.12) 인덱스 0을 가진 참조 프레임으로부터 유래하는 움직임 정보와 동질적이게 스케일링되며, 양 리스트 L0과 L1에 대하여는 필요하다면 시간적 후보(9.13)를 생성하고, 그 후에 시간적 후보는 공간 후보 직후에 머지 후보 리스트에 삽입된다.

게다가, 시간적 후보에 대한 마지막 위치, 이용가능성에 따라 중앙 또는 H가 메모리 액세스를 감소시키도록 동일한 CTB(Coding Tree Block을 나타냄) 또는 그것의 우측 이웃 내에 남도록 제한된다.

모든 계층과 모든 접근방식에 대하여, 그러나 가장 중요하게는 참조 계층에서, 이 움직임 정보 예측인자는 조건적으로 결정되고 이하에 따라서 더해진다.

- 상기 시간적 움직임 정보 예측인자(TMVP)가, 예를 들면 SPS(Sequence Parameter Set를 나타냄)에 위치한 플래그 sps_temporal_mvp_enable_flag를 이용하여 시퀀스 레젤에서 무효화되는지의 여부 - 이것은 특히 본 발명의 일 실시예와 관련된다.

- 시퀀스 레벨에서 유효화되는 경우, 예를 들어 슬라이스 헤더에 위치한 플래그 enable_temporal_mvp_flag를 이용하여 슬라이스 레벨에서 무력하게 되는지 여부.

이 움직임 정보 예측인자가 무효화될 수 있다는 사실은, 그것이 움직임 벡터 메모리 압축에 의해 어떻게 영향을 받는지와 함께, 전술한 프로세스 및 예측인자 SMVP(9.0)이 어떻게 도출되는지에 대하여 중요한 역할을 한다.

둘째로, 참조 프레임 인덱스 접근방식에서, 이 시간적 움직임 정보 예측인자는 삽입 프레임에서 유래할 수 있다. 아래에 기술된 것처럼, 상기 움직임 정보는 실제로는 참조 계층 프레임 압축된 움직임 필드에서 도출된다.

후보(Nb_Cand)(9.14)의 양이 엄밀하게 후보 Max_Cand의 최대 개수보다 열등하면, 디폴트에 의해, 그리고 최대 5개의 결합된 후보가 단계 9.15에서 발생하고, 그렇지 않은 경우에는 머지 후보의 최종적인 리스트가 단계 9.18에서 구축된다. 모듈(9.15)은 현재 프레임이 B 프레임일 때만 이용되고, 그리고 그것은 단계 9.15의 2개의 머지 리스트의 이용가능한 후보에 기초하여 수 개의 후보를 생성한다. 이 생성은 리스트 L1의 상이한 후보의 또 다른 움직임 정보에 리스트 L0의 후보의 하나의 움직임 정보를 결합시키는 것에 대응한다.

후보(Nb_Cand)(9.16)의 양이 엄밀하게 후보 Max_Cand의 최대 개수보다 열등하면, 변위가 없는(0,0)(즉, 움직임 벡터 값이 모두 0과 동일하다) 널(null) 움직임 정보 후보가 추가되고, 단계 9.17에서, Nb_Cand가 Max_Cand와 동일해 질 때까지 Nnb_Cand를 증가시킨다.

이 프로세스의 끝에서, 머지 후보의 최종적인 리스트가 단계 9.18에서 구축된다.

SHVC(HEVC의 스케일러블 확장)에 대한 현재 사양느 AMVP 모드에서 참조 계층으로부터 획득된 움직임 정보 예측인자를 이용하지 않지만, 그러나 이것은 다음과 같이 도입될 수 있다.

도 12는 AMVP 움직임 정보 예측인자 세트 도출을 보여준다. 이 프로세스는 움직임 정보를 예측적으로 코딩하는데 사용된다. 머지 모드와 비교하여, 추가의 정보, 즉 예측 방향이 송신되어야 하며, 송신할 각각의 움직임 정보에 대하여, 참조 프레임 인덱스, 예측인자 인덱스 및 움직임 정보 레지듀얼 또한 송신된다.

예측인자 인덱스는 후보의 수에 의존하므로, HEVC는 최대 2개의 움직임 정보 예측인자를 생성할 필요가 있다. 그러한 경우, 그 도면에서 Max_Cand는 2와 동일하게 설정되지만, 그러나 그것은 향상 계층에 대해서는 3을 이용하도록 생각될 수도 있다. 제1 공간적 후보는 머지 모드에 대한 1과 유사한 위치에 대하여 좌측 블록 A0(12.1)과 A1(12.2) 사이에 선택된다.

AMVP 모드의 2개의 공간적 움직임 정보 예측인자는, 다시 머지 모드에 관해서, 상방 모서리 블록과 좌측 모서리 블록을 포함하는 상방 및 좌측 블록 중에서 선택된다. 이 좌측 예측인자 Cand1(12.9)는 "좌측 하방" A0 및 "좌측" A1 블록 중에서 선택된다(12.8). 이 특정한 배열 순서로, 하기 조건은 동일한 참조 리스트 및 동일한 참조 픽쳐로부터의 움직임 정보, 또는 다른 참조 리스트 및 동일한 참조 픽쳐로부터의 움직임 정보에 대하여 움직임 정보 값이 검색될 때까지 평가된다.

상기 움직임 정보 예측인자 Cand2(12.11)는 아래 기술된 것과 동일한 조건으로, "우측 상방" B0(12.3), "상방" B1(12.4) 및 "좌측 상방" B2(12.5) 중에 이 특정된 순서로 단계 12.10에서 선택된다. 다음 Cand1과 Cand2는 그들이 같다면 이러한 움직임 정보 예측인자 중 하나를 제거하기 위해 비교된다(12.15). 이러한 프루닝 후에, 후보의 수가 단계 12.16 단계에서 Max_Cand와 비교되어, 동일하면 AMVP 움직임 정보 후보의 리스트가 완전히 결정되고, 프로세스는 단계 12.23 단계으로 종료한다.

반면에, 후보의 수가 Max_Cand 미만이면, 시간적 움직임 예측인자 Cand3(12.14)는 머지 모드로서 도출되고, 그것이 단계 12.17에서 존재하면 추가된다. 그렇게 하기 위해, 우측 아래(H)(12.6) 위치가 이용가능성 검사 모듈(12.12)에서 먼저 고려된다. 그것이 존재하지 않으면, 병치된 블록(12.7)의 중심이 선택된다.

다음에 추가된 후보의 수가 단계 12.18의 후보의 최대 개수와 다시 비교된다. 이 최대 개수가 도달되면, AMVP 예측인자의 최종적인 리스트는 단계 12.23에서 구축된다. 그렇지 않은 경우, 단계 12.19는 향상 계층에 대한 리스트를 구축하고 있는지를 검사한다. 그렇지 않다면, 고전적 리스트 구축은 단계 12.22에서 재개되며, 거기서 최대에 도달하는 데에 필요한만큼의 0 후보가 리스트에 추가되고, 이에 의해 완성하고, 단계 12.23에서 종료한다. 반면에, 특정한 프로세싱이 발생하면, 거기서 SMVP 후보가 아래 기술된 계산 이후에 참조 계층으로부터 획득된다. 이것이 행해질 때, 통상의 프로세싱이 단계 12.22에서 재개된다.

본 발명자들은 Cand3 이후에 이 후보의 사용을 설명하기로 결정했다. Cand1과 Cand2 사이, 또는 Cand2와 Cand3 사이에, Cand3 이전에 그것을 이용하는 것을 생각하는 것은 물론 명백하다. 모든 경우에서, 추가의 비교가 새로운 후보 SMVP를 고려하기 위해 푸루닝 프로세스에서 실행될 수 있다.

TextureRL 접근방식에 머지 모드를 적용하는 것을 고려할 때, 머지 모드는 그것의 참조 계층으로부터 획득된 향상 계층에 새로운 움직임 정보 예측인자, SMVP를 추가한다. 상기 움직임 정보 예측인자는 현재 압축된 참조 계층에서 시간적 후보를 결정하는 데에 사용되는 움직임 정보에서 유래한다. 도 6은 개략적으로 TextureRL 접근방식의 원칙을 설명한다. 여기에서의 설명은 이미지의 루마 컬러 컴포넌트에 관해 언급하지만, 그러나 이 프로세스는 크로마 컬러 컴포넌트에도 적용된다.

도 6에는 향상 계층 이미지(6.1)와 그 참조 계층 이미지(6.2)이 6.1과 6.2 사이에 공간적 비율 R(전형적으로, 1, 1.5 또는 2)를 가지고서 나타난다. R의 값에 관계없이, 본 발명자들은 향상 계층 크기를 정합시키기 참조 계층에 적용되는 리샘플링 프로세스로서 단어 "업스케일링"을 사용한다. R이 1과 같으면, 리샘플링은 입력과 같은 출력을 생성한다. 역리샘플링은 "다운스케일링"으로 불린다. 향상 계층 이미지는 이미지의 입도를 나타내는 그리드로 세분된다. 가장 작은 정방형의 각각은 이하의 텍스트에서 샘플로 불린다.

지금, 볼드선 정방형으로 표시된 주어진 예측인자 유닛(6.3)에 대하여, 프로세스는 이하에 대응한다.

A. 다음과 같이 도출되는 고려된 루마 예측 블록(6.3)의 중심 위치(6.4) (xPCtr, yPCtr)를 계산한다.

·xPCtr = xP + nPbW / 2

·yPCtr = yP + nPbH / 2

·xP, yP는 현재 픽쳐의 좌측 상방 루마 샘플(6.7)에 대하여 현재 루마 예측 블록의 좌측 상부 샘플(6.6)을 특정한다.

·nPbW와 nPbH가 루마 예측 블록의 폭과 높이를 상세화한다

B. 참조 계층 이미지(6.2)에서 병치된 위치(6.5)를 찾기 위해 스케일링 인자 R(1, 1.5와 2.0)에 따라 그것의 좌표를 다운스케일링한다.

·xPCtrRL = ( xPCtr * PicWRL + ScaledW / 2) / ScaledW

·yPCtrRL = ( yPCtr * PicHRL + ScaledH / 2 ) / ScaledH

·변수 PicWRL과 PicHRL은 참조 계층 픽쳐의 폭과 높이와 동일하게 설정된다.

·ScaledH의 값은 R * PicHRL의 값을 취하고, ScaledW의 값은 R * PicWRL의 값과 동일하다.

C. 참조 계층 픽쳐 내부의 ( ( xPCtrRL >> 4 ) << 4, ( yPCtrRL >> 4 ) << 4 )에 의해 주어진 보정된 위치를 커버하는, 1로 넘버링된, 루마 예측 블록 blPb(6.8)를 확인함으로써 그 위치에서의 움직임 정보를 참조 계층 이미지(6.2)로부터 검색한다. 이것은 참조 계층의 움직임 요약 단계에 대응한다.

·그 후에, 루마 위치( xPRL, yPRL )가 참조 계층 픽쳐의 좌측 상방 루마 샘플에 대하여 blPb에 의해 지정되는 병치된 루마 예측 블록의 좌측 상방 샘플(6.8)과 동일하게 설정된다.

D. 상응하는 정보가 인트라가 아니면, 움직임 벡터 MV_RL을 추출하고, 비 R에 따라 그들을 업스케일링한다. 이 동작은, 기본적으로, 값 SMVP가, SMVP = rnd( R*MV_RL( rnd(xPRL/R), rnd(yPRL/R), 여기서 rnd(.)는 라운딩 프로세스를 나타냄)와 같은 공간적 움직임 벡터를 생성한다. 이 공간적 움직임 벡터와 관련된 참조 프레임 인덱스와 함께, 이것은 세트의 개시 시에 삽입된 공간적 움직임 벡터 예측인자를 구성한다.

TextureRL에 대한 현재 SHVC 설계는, 상기 단계 C에 나타난 것처럼, 참조 계층 MV_RL 값에 대한 움직임 벡터가 참조 계층의 움직임 압축 버퍼로부터 획득되는 것을 위임한다. 이것은 4x4 블록(6.8)에 대응하는 움직임 정보가 움직임 정보 압축 프로세스에 의해 전체 16x16 블록에 대해 유지된 단지 하나이기 때문에 필요하다.

그러한 경우에, 지금 참조 프레임 인덱스 접근방식을 고려할 때, 향상 계층의 참조 리스트에 삽입되는 새로운 프레임의 움직임 정보 또한 상기 압축된 움직임 정보 필드에서 유래한다. 그 후에, 그 움직임 정보는 상술한 바와 같이 시간적 예측인자를 결정하는데 사용될 수 있다.

이러한 움직임이 도축되는 방식을 상술한다. 주어진 16x16 블록에 대해, 그 블록의 중심이 선택되고, 이 위치는 상응하는 움직임 정보를 찾기 위해 위에서 기술된 것과 동등하게 이용된다. 본 발명자들은 루마 컴포넌트에 대한 상응하는 단계를 상술할 것이다. 대부분의 부분이 도 6에 관련하여 기재된 프로세스와 본질적으로 같고, 동일한 변수에 대한 정의가 같음에 주의한다. 그것들은 다음과 같다.

A. 루마 예측 블록의 중심 위치 (xPCtr, yPCtr)는 다음과 같이 도출된다(변수의 명칭은 이전 섹선에서 정의된다).

xPCtr = xP + 8

yPCtr = yP + 8

B. 참조 계층 이미지에서 병치된 위치를 발견하기 위해 스케일링 인자 R(1, 1.5와 2.0)에 따라 그것의 좌표를 다운스케일링한다.

xPCtrRL = ( xPCtr * PicWRL + ScaledW / 2) / ScaledW

yPCtrRL = ( yPCtr * PicHRL + ScaledH / 2 ) / ScaledH

변수 PicWRL과 PicHRL은 참조 계층 픽쳐의 폭과 높이와 동일하게 설정된다.

ScaledH의 값은 R * PicHRL의 값을 취하고, ScaledW의 값은 R * PicWRL의 값과 동일하다.

C. 병치된 위치 (xRL, yRL)는 다음과 같이 도출된다.

xRL = ( xRef >> 4 ) << 4

yRL = ( yRef >> 4 ) << 4.

D. 참조 계층 움직임 벡터는 다음과 같이 도출된다. 이 동작은, 기본적으로 다음과 같이 참조 계층 RL_MV 값의 움직임 벡터를 생성한다. RL_MV = rnd( R*MV( rnd(xPRL /R), rnd(yPRL /R) ).

그 후에, 이 정보는 그것이 움직임 정보 압축의 출력인 것처럼 이용된다. 이것은 향상 계층에서 움직임 정보를 예측하기 위해 참조 계층으로부터 움직임 정보를 이용하는 것을 허용한다. TextureRL 접근방식과 대조적으로, 움직임 정보는 더 거친 입도를 가지고 있지만, 머지 리스트 결정 프로세스 또는 인터 블록에 대하여 이용되는 AMVP 모두에서 시간적 움직임 정보 예측인자로서 이용될 수 있다.

본 발명자들이 스케일러블 코덱의 전체적 아키텍처를 제공했기 때문에, 상기 2가지 접근방식과 그들이 예측을 위한 움직임 정보를 이용하는 방법을 본 발명자들은 다음을 요약할 수 있다.

TextureRL 접근방식에서, 향상 계층의 새로운 움직임 정보 예측인자는 그것의 참조 계층으로부터 획득된다. 상기 움직임 정보 예측인자는 전형적으로는 압축된 참조 계층에서 시간적 후보를 결정하는 데에 사용되는 움직임 정보에서 유래한다. 그러므로, 압축은 그 도출에 영향을 미치고, 이에 의해 머지 모드에도 영향을 미친다. AMVP 모드에서, 스케일러블 후보가 존재하면, 압출 또한 이것에 영향을 미친다. AMVP 및 참조 프레임 인덱스 접근방식에서 머지 모드는 항상 영향을 받는데, 이들 또한 시간적 움직임 벡터 예측인자를 이용하고, 참조된 프레임이 삽입된 것이면, 이 예측인자가 참조 계층 프레임의 움직임에서 유래하기 때문이다.

참조 프레임 인덱스 접근방식에서, 향상 계층의 참조 리스트에 삽입된 새로운 프레임의 움직임 정보 또한 상기 압축된 움직임 정보에서 유래한다.

도 6에 관련하여 설명된 것처럼, 참조 계층을 위해 저장된 움직임 정보는 압축된다. 이것은 완전한 16x16 블록에 대해, 처음에는 최대 16개의 움직임 정보가 존재하고, 그것은 16x16 블록 내에 포함된 각각의 4x4 블록에 대한 것이고, 전형적으로 좌측 상방 4x4 블록에 대한 것이 유지된다.

참조 계층 움직임 정보가 필요한 때에 움직임 정보 예측인자의 도출의 프로세스에서, 이 압축 때문에, 이용된 움직임 정보는 이용가능한 하나, 즉 좌측 상방 4x4 블록과 관련된 움직임 정보이다. 다시 도 6을 참조하면, 인코딩할 코딩 유닛의 중심(6.4)에 대응하는 병치된 점(6.5)과 관련된 움직임 정보를 찾을 때. 1로 넘버링된 좌측 상방 4x4 블록(6.8)과 연관된 움직임 정보가 이용된다. 아래에 위치하는 16x16 블록에 대한 압축 후에 유지된 움직임 정보에 대응하는 3으로 넘버링된 좌측 상방 4x4 블록과 연관된 움직임 정보는, 병치된 점(6.5)의 위치에 좀 더 가까이 있으므로, 4x4 블록(6.8)의 움직임 정보보다 더 연관될 가능성이 있다.

참조 계층에서 움직임 정보에 적용된 압축 프로세스에 의한 움직임 정보의 이러한 비최적의 선택은 인코딩 효율의 손실의 원인이 되는 것으로 측정될 수 있다. 본 발명의 한 실시예에서, 움직임 정보 예측인자 도출 처리는 이 위치 문제를 극복하도록 적응된다.

도 7은 TextureRL 접근방식과 관련하여 적합한 프로세스을 상술한다. 그것은 향상 계층에서 AMVP와 머지 도출 처리 모두에 적용될 수 있다. 이 보정된 머지 도출 프로세스는 인코더의 도 1의 움직임 추정 모듈(1.23) 및 디코더의 도 10의 움직임 추정 모듈(10.55)에 위치할 수 있다. 본질적으로, 이 모두는 도 9에서 SMVP 후보(9.0)을 결정할 때 발생한다.

단계 7.1은 예를 들어 현재 예측인자 유닛 정보(크기/위치)를 설정하고 상기 예측인자 유닛의 중심을 도출시킴으로써 참조 계층에서의 움직임을 결정하는 위치를 계산함으로써 프로세스를 초기화한다. 주요 적응은 위치를 보정하는 단계 7.3에 있다. 이것은 먼저 2가지의 다음과 같은 가능성을 통하여 이루어진다.

제1 실시예에서, 참조 계층의 위치에 대하여 획득된 주어진 좌표 X에 대하여, 예를 들면 상술한 xPCtrRL 또는 yPCtrRL은 두 파라미터 r 및 M에 따라 라운딩 동작을 행하여 새로운 값을 계산한다.

예를 들면, 새로운 값 X'는 다음과 같이 계산될 수 있다 :

여기서,

는 x의 절단(truncating)을 나타내는데, 그것의 정수 부분을 취하는 것을 의미한다. M은 HEVC 압축된 움직임 입도와 일치하기 위하여 2의 거듭제곱일 수 있으며, 본 실시예에서는 M=16이다. 본 실시예에서, 보다 자연적인 선택 r=8이 아니라 r=4가 사용되는데, 보다 나은 코딩 효율을 제공하기 때문이다.

이는 다른 좌표에 동일하게 적용될 수 있다. 비교예로, 파라미터 r 및 M의 상이한 값들을 선택할 수 있다.

비교예에서, 위치의 보정은 룩업표에 기초할 수 있다. 그러한 경우에, 좌표 (X,Y)가 주어지면, 보정표 F[X,Y]가 하나 이상의 좌표에 대하여 정의될 수 있다. 이 표는 각각 좌표에 대해 다를지도 모른다. 이 표는 좌표 중 하나, 즉 X 또는 Y에 의해서만 인덱싱될 수 있다. 이 표는 또한 좌표 자체 대신에 좌표와 관련된 값을 인덱스로서 사용함으로써 감소될 수 있고, 예를 들면 F[X] 대신에 F[X modulo M]에 의해 보정이 획득될 수 있으며, 여기서 전형적인 값으로서 M=2^N이다. 이 예에서는, M=16이다.

모든 경우에서, 보정된 값(r의 값이거나, 하나 이상의 컴포넌트에 대한 표)이, 예를 들어 비디오 파라미터 세트, 시퀀스 파라미터 세트, 그림 파라미터 세트, 또는 슬라이스 헤더와 같은고레벨 구문 정보 내에 전송될 수 있고, 그로부터 검색될 수 있다. 하나 이상의 r의 값을 송신하는 경우에는,

- 비트 플래그는 r의 값이 제1 값 또는 제2 값인지, 예를 들어 0 및 4(그 경우 보정에 대한 그런 경우에 그것이 보정을 위한 온/오프 플래그로 보여질 수 있다)일지 나타낼 수 있다;

- 코드는 r의 명시적인 값을 나타낼 수 있고, 예를 들어 r 마이너스 4의 값을 나타내는 절단된 1진 코드, 예를 들어 r = 4에 대해서는 이진 시퀀스 '0', R=5에 대해서는 '10', 다른 값에 대해서는 '110', '1110' 및 '1111'이다.

상기에서 단지 하나의 좌표, 특히 횡 좌표만이 영향을 받을 수 있다는 것에 주목하는 것이 중요한데, 종 좌표를 변경하는 것은 상이한 메모리 영역으로부터 움직임 정보를 검샘하게 할 수 있어서, 추가적인 메모리 액세스를 발생시키기 때문이다.

메모리 액세스를 감소시키는 이러한 요건에 이어서, 상기 보정된 값이 임계치를 충족하는 것과 같은 기준에 부합하지 않는 경우, 하나 이상의 보정된 값이 다른 값으로 변경될 수 있으며, 이러한 다른 값은 가능하게는 오리지널 값이다. 상기 임계값은 그 좌표를 따른 이미지 크기일 수 있으므로, 이미지 외부에서 룩없이 발생하지 않을 수 있다. 또는, 상기 임계값은 그 좌표를 따른 메모리 영역의 제한일 수도 있다. 메모리 영역 전형적으로는 참조 계층 내에서 가장 큰 코딩 유닛의 미리 정해진 세트에 해당된다. 이 메모리 영역은 도 13을 이용하여 더 상세하게 설명될 것이다.

그 후에, 통상의 예측인자 결정이 단계 7.4 단계에 재개된다. 움직임 정보는 단계 7.3의 출력 위치를 이용하는 압축된 움직임 버퍼로부터 검색된다. 그것이 인트라이면(즉, 어떤 움직임도 없다면), 단계 7.8에서 후보는 그렇게 표시된다. 특히, 머지 후보 리스트에 대하여 어떠한 계산 또는 추가도 하기 않기 때문에, 단계 7.9에서 도출 처리를 종료한다. 그렇지 않은 경우, 대응하는 움직임이 향상 계층 크기와 정합하도록 업스케일링된다.

도 8은 참조 프레임 인덱스 접근방식과 관련하여 적합한 프로세스를 설명한다. 그것은 향상 계층에서 AMVP와 머지 도출 처리 모두에 적용될 수 있다. 이 적응형 프로세스는 도 1의 인코더 내의 프레임 버퍼(1.24) 또는 움직임 추정 모듈(1.23) 및 도 10의 디코더의 프레임 버퍼(10.60) 또는 움직임 추정 모듈(10.55)에 위치한다. 사실상, 그것은 압축된 움직임 정보에 관한 프레임 메모리의 콘텐츠에 영향을 미친다.

그러므로, 단계 8.1은 향상 계층 이미지에서 제1 이미지에 현재 16x16 블록을 설정함으로써 움직임 정보 예측인자 도출 처리를 초기화한다. 단계 8.2에서, 16x16 코딩 유닛의 중심의 위치가 결정되고, 참조 계층 내의 상응하는 병치된 위치는 단계 8.3에서 발견된다. 위치가 발견된 새로운 단계 8.4가 보정된다. 그러한 보정의 세부사항을 알기 위해서, 상기 단계 7.1을 참조할 수 있으며, 여기서도 동일하게 적용된다.

단계 8.5에서, 그 위치에서의 움직임이 인트라인지가 검증된다. 그렇다면, 16x16 블록 움직임이 단계 8.7에서 인트라로 설정되고, 그렇지 않은 경우에는 움직임 벡터가 얻어지고, 향샹 계층 크기에 부합되도록 업스케일링하고, 업스케일링된 움직임 벡터, 참조 인덱스 및 이용가능성이 단계 8.8에서 현재 16x16 블록의 움직임 정보 예측인자로서 설정된다.

단계 8.9는 현재 블록이 이미지 내의 마지막 블록인지 여부를 검증함으로써 다음 반복을 준비한다. 그러한 경우에는, 새로운 프레임에 대한 움직임 정보가 완전히 결정되고 프로세스는 단계 8.11에서 끝난다. 그렇지 않은 경우, 현재 블럭은 단계 8.10에서 다음 16x16 블록으로 설정되고, 반복 루프는 단계 8.2 단계로 돌아간다.

도 13은 메모리 영역으로서 정의되는 것의 세부사항을 설명한다. 참조 계층 이미지(13.4)와 그것의 연관된 향상 계층 이미지(13.5)가 주어지면, 움직임 결정 프로세스가 적용되는 영역(13.6) 예를 들어 CTB를 정의할 수 있다. 메모리 액세스 제한이 적용될 수 있고(예를 들어, 병치된 참조 계층 CTB 직후에 향상 계층 CTB가 처리되는 파이프라이닝된 인코더 또는 디코딩의 경우), 따라서, 참조 계층 프레임(13.4) 내부의 병치된 영역(13.1)을 제1 본 발명의 측면에서 정의할 수 있다. 단계 7.1 및 8.4에서 언급된 메모리 영역은 제1 측면에서 13.1을 포함하는 영역(13.2)에 대응하고, 여기서는 참조 계층의 2개의 CTB로 구성되고, 13.6의 임의의 부분에 대하여 발견되는 보정된 위치는 영역(13.2) 내에 남아야 한다. 덜 제한적인 방식으로, 메모리 영역은 영역(13.3)을 야기하는 영역(13.2)의 우측에 CTB의 추가적인 컬럼을 포함하게 할 수도 있다. 여기서의 제약은 13.6에 기초하지만, 향상 계층 내의 영역, 또는 참조 계층 내의 증대된 메모리 영역의 임의의 크기가 이용되어도 된다.

도 11은 본 발명의 하나 이상의 실시예의 실시를 위한 컴퓨팅 장치(11.0)의 개략적인 블록도이다. 컴퓨팅 장치(11.0)는 마이크로컴퓨터, 워크스테이션 또는 경량의 휴대용 장치와 같은 장치일 수 있을 것이다. 컴퓨팅 장치(11.0)는 이하에 접속되는 통신 버스를 포함한다.

- CPU로 표시된 마이크로프로세서 등의 중앙 처리 유닛(11.1),

- 본 발명의 실시예에 따른 이미지의 적어도 일부를 인코딩 또는 디코딩하기 위한 방법을 구현하기 위해 필요한 변수 및 파라미터를 기록하도록 구성된 레지스터는 물론이고 본 발명의 실시예의 방법의 실행가능 코드를 저장하기 위한, RAM으로 표시된 랜덤 액세스 메모리(11.2) - 그의 메모리 용량은 예를 들어 확장 포트에 연결된 선택적 RAM에 의해서 확장될 수 있음 -,

- 본 발명의 실시예를 구현하기 위한 컴퓨터 프로그램을 저장하기 위한, ROM으로 표기된 판독 전용 메모리(11.3),

- 네트워크 인터페이스(11.4)는 처리될 디지털 데이터가 전송되거나 수신되는 통신 네트워크에 전형적으로 연결된다. 네트워크 인터페이스(11.4)는 단일 네트워크 인터페이스이거나, 또는 상이한 네트워크 인터페이스의 세트로 이루어질 수 있다(예를 들면, 유선 및 무선 인터페이스, 또는 상이한 종류의 유선 또는 무선 인터페이스). 데이터 패킷은 CPU(11.1)에서 운영되는 소프트웨어 애플리케이션의 제어 하에 송신을 위해서 네트워크 인터페이스에 기록되거나, 수신을 위해서 네트워크 인터페이스로부터 판독된다.

- 유저로부터의 입력을 수신하거나, 유저에 정보를 표시하기 위한 유저 인터페이스(11.5),

- HD로 표시된 하드 디스크(11.6)는 대용량 기억 장치로서 제공될 수 있으며,

- 비디오 소스나 디스플레이와 같은 외부 장치들과의 데이터 송수신을 위해 이용될 수 있는 I/O 모듈(11.7).

실행가능한 코드는 하드 디스크(11.6) 상의 판독 전용 메모리(11.3)에 저장되거나, 예를 들어 디스크와 같은 이동식 디지털 매체에 저장될 수 있을 것이다. 변형에 따르면, 프로그램의 실행가능한 코드는 실행되기 전에 하드 디스크(11.6)와 같은 통신 장치(11.0)의 저장 수단 중 하나에 저장되기 위해서, 네트워크 인터페이스(11.4)를 통해서 통신 네트워크의 수단에 의해서 수신될 수 있다.

중앙 처리 유닛(11.1)은, 본 발명의 실시예에 따른 프로그램 또는 프로그램들의 소프트웨어 코드의 명령어 - 이 명령어는 전술한 저장 수단 중 하나에 저장되어 있다 - 또는 그 일부를 제어하고 그 실행을 명령한다. 전원을 켠 후에, CPU(11.1)는, 예를 들어 프로그램 ROM(11.3) 또는 하드 디스크(HD)(11.6)로부터 이들 명령어가 로딩된 후에, 소프트웨어 애플리케이션에 관련되는 메인 RAM 메모리(11.2)로부터의 명령어를 실행할 수 있다. 이러한 소프트웨어 애플리케이션은, CPU(11.1)에 의해 실행되면, 도 1 내지 4에 도시된 플로우차트의 단계들이 실행되도록 한다.

도 7에 도시된 알고리즘의 임의의 단계는 PC("Personal Computer"), DSP("Digital Signal Processor") 또는 마이크로컨트롤러와 같은, 프로그램가능 컴퓨팅 머신에 의한 명령어의 집합 또는 프로그램의 실행에 의해 소프트웨어로 구현될 수 있고, 혹은, FPGA("Field-Programmable Gate Array") 또는 ASIC("Application-Specific Integrated Circuit")과 같은 머신 또는 전용 컴포넌트에 의해 하드웨어로 구현될 수 있다.

본 발명이 특정의 실시예들을 참조하여 이상에서 기술되어 있지만, 본 발명이 특정의 실시예들로 제한되지 않고, 본 발명의 범위 내에 속하는 변형이 본 기술 분야의 당업자에게 명백할 것이다.

단지 예로서 제공되어 있고 첨부된 특허청구범위에 의해서만 결정되는 본 발명의 범위를 제한하기 위한 것이 아닌 이상의 예시적인 실시예들을 참조하면 많은 추가의 수정들 및 변형들이 기술 분야의 당업자에게 안출될 것이다. 특히, 상이한 실시예로부터의 상이한 특징부가 적절하게 상호교환될 수 있을 것이다.

청구항들에서, 용어 "포함하는"은 다른 요소들 또는 단계들을 배제하지 않으며, 부정관사("a" 또는 "an")는 복수를 배제하지 않는다. 상이한 특징들이 서로 다른 종속 청구항에 언급되어 있다는 단순한 사실이 이들 특징의 조합이 유리하게 사용될 수 없다는 것을 나타내는 것은 아니다.

Claims

참조 계층 픽쳐 및 리샘플링된 픽쳐를 이용하는 스케일러블 포맷에 따른 이미지를 인코딩하는 인코딩 방법으로서, 상기 이미지의 이미지 영역은 움직임 정보에 기초하여 예측적으로 인코딩되며, 상기 움직임 정보 그 자체는 움직임 정보 예측인자 후보의 세트로부터 움직임 정보 예측인자에 기초하여 예측적으로 인코딩되며,
상기 리샘플링된 픽쳐의 이미지 영역 내의 위치를 이용하여 상기 참조 계층 픽쳐 내의 위치를 결정하는 단계와,
상기 참조 계층 픽쳐에 속하는 이미지 영역과 연관되는 움직임 정보에 기초하여 움직임 정보 예측인자 후보를 포함하는 움직임 정보 예측인자 후보의 세트를 결정하는 단계와,
상기 움직임 정보 예측인자 후보의 세트로부터의 움직임 정보 예측인자를 이용하여 상기 이미지의 이미지 영역에 대한 움직임 정보를 인코딩하는 단계를 포함하고,
상기 위치를 결정하는 단계는,
상기 리샘플링된 픽쳐의 상기 이미지 영역 내의 중심 위치를 구하는 단계와,
스케일링 인자를 이용하여, 상기 참조 계층 픽쳐 내에서 상기 중심 위치의 대응하는 위치를 구하는 단계와,
X'=((X+4)>>4)<<4를 이용하여 상기 대응하는 위치의 적어도 하나의 좌표 X로부터 값 X'를 구하는 단계를 포함하고,
상기 움직임 정보 예측인자 후보의 세트를 결정하는 단계는, 상기 참조 계층 픽쳐 내의, 상기 값 X'에 의해 나타나는 상기 결정된 위치와 연관된 상기 움직임 정보가 이용가능할 경우, 상기 결정된 위치와 연관된 상기 움직임 정보를 이용하여, 상기 움직임 정보 예측인자 후보의 세트에 포함되는 상기 움직임 정보 예측인자 후보를 취득하는 단계를 포함하는, 인코딩 방법.
참조 계층 픽쳐 및 리샘플링된 픽쳐를 이용하는 스케일러블 포맷에 따른 이미지를 인코딩하는 인코딩 장치로서, 상기 이미지의 이미지 영역은 움직임 정보에 기초하여 예측적으로 인코딩되며, 상기 움직임 정보 그 자체는 움직임 정보 예측인자 후보의 세트로부터 움직임 정보 예측인자에 기초하여 예측적으로 인코딩되며,
상기 리샘플링된 픽쳐의 이미지 영역 내의 위치를 이용하여 상기 참조 계층 픽쳐 내의 위치를 결정하는 위치 결정 유닛과,
상기 참조 계층 픽쳐에 속하는 이미지 영역과 연관되는 움직임 정보에 기초하여 움직임 정보 예측인자 후보를 포함하는 움직임 정보 예측인자 후보의 세트를 결정하는 예측인자 결정 유닛과,
상기 움직임 정보 예측인자 후보의 세트로부터의 움직임 정보 예측인자를 이용하여 상기 이미지의 이미지 영역에 대한 움직임 정보를 인코딩하는 인코딩 유닛을 포함하고,
상기 위치 결정 유닛에 의한 위치의 결정은,
상기 리샘플링된 픽쳐의 상기 이미지 영역 내의 중심 위치를 구하는 것과,
스케일링 인자를 이용하여, 상기 참조 계층 픽쳐 내에서 상기 중심 위치의 대응하는 위치를 구하는 것과,
X'=((X+4)>>4)<<4를 이용하여 상기 대응하는 위치의 적어도 하나의 좌표 X로부터 값 X'를 구하는 것을 포함하고,
상기 예측인자 결정 유닛에 의한 상기 움직임 정보 예측인자 후보의 세트의 결정은, 상기 참조 계층 픽쳐 내의, 상기 값 X'에 의해 나타나는 상기 결정된 위치와 연관된 상기 움직임 정보가 이용가능할 경우, 상기 결정된 위치와 연관된 상기 움직임 정보를 이용하여, 상기 움직임 정보 예측인자 후보의 세트에 포함되는 상기 움직임 정보 예측인자 후보를 취득하는 것을 포함하는, 인코딩 장치.
참조 계층 픽쳐 및 리샘플링된 픽쳐를 이용하는 스케일러블 포맷에 따른 이미지를 디코딩하는 디코딩 방법으로서, 상기 이미지의 이미지 영역은 움직임 정보에 기초하여 예측적으로 디코딩되며, 상기 움직임 정보 그 자체는 움직임 정보 예측인자 후보의 세트로부터 움직임 정보 예측인자에 기초하여 예측적으로 디코딩되며,
상기 리샘플링된 픽쳐의 이미지 영역 내의 위치를 이용하여 상기 참조 계층 픽쳐 내의 위치를 결정하는 단계와,
상기 참조 계층 픽쳐에 속하는 이미지 영역과 연관되는 움직임 정보에 기초하여 움직임 정보 예측인자 후보를 포함하는 움직임 정보 예측인자 후보의 세트를 결정하는 단계와,
상기 움직임 정보 예측인자 후보의 세트로부터의 움직임 정보 예측인자를 이용하여 상기 이미지의 이미지 영역에 대한 움직임 정보를 디코딩하는 단계를 포함하고,
상기 위치를 결정하는 단계는,
상기 리샘플링된 픽쳐의 상기 이미지 영역 내의 중심 위치를 구하는 단계와,
스케일링 인자를 이용하여, 상기 참조 계층 픽쳐 내에서 상기 중심 위치의 대응하는 위치를 구하는 단계와,
X'=((X+4)>>4)<<4를 이용하여 상기 대응하는 위치의 적어도 하나의 좌표 X로부터 값 X'를 구하는 단계를 포함하고,
상기 움직임 정보 예측인자 후보의 세트를 결정하는 단계는, 상기 참조 계층 픽쳐 내의, 상기 값 X'에 의해 나타나는 상기 결정된 위치와 연관된 상기 움직임 정보가 이용가능할 경우, 상기 결정된 위치와 연관된 상기 움직임 정보를 이용하여, 상기 움직임 정보 예측인자 후보의 세트에 포함되는 상기 움직임 정보 예측인자 후보를 취득하는 단계를 포함하는, 디코딩 방법.
참조 계층 픽쳐 및 리샘플링된 픽쳐를 이용하는 스케일러블 포맷에 따른 이미지를 디코딩하는 디코딩 장치로서, 상기 이미지의 이미지 영역은 움직임 정보에 기초하여 예측적으로 디코딩되며, 상기 움직임 정보 그 자체는 움직임 정보 예측인자 후보의 세트로부터 움직임 정보 예측인자에 기초하여 예측적으로 디코딩되며,
상기 리샘플링된 픽쳐의 상기 이미지 영역 내의 위치를 이용하여 상기 참조 계층 픽쳐 내의 위치를 결정하는 위치 결정 유닛과,
상기 참조 계층 픽쳐에 속하는 이미지 영역과 연관되는 움직임 정보에 기초하여 움직임 정보 예측인자 후보를 포함하는 움직임 정보 예측인자 후보의 세트를 결정하는 예측인자 결정 유닛과,
상기 움직임 정보 예측인자 후보의 세트로부터의 움직임 정보 예측인자를 이용하여 상기 이미지의 이미지 영역에 대한 움직임 정보를 디코딩하는 디코딩 유닛을 포함하고,
상기 위치 결정 유닛에 의해 위치를 결정하는 것은,
상기 리샘플링된 픽쳐의 상기 이미지 영역 내의 중심 위치를 구하는 것과,
스케일링 인자를 이용하여, 상기 참조 계층 픽쳐 내에서 상기 중심 위치의 대응하는 위치를 구하는 것과,
X'=((X+4)>>4)<<4를 이용하여 상기 대응하는 위치의 적어도 하나의 좌표 X로부터 값 X'를 구하는 것을 포함하고,
상기 예측인자 결정 유닛에 의해 상기 움직임 정보 예측인자 후보의 세트를 결정하는 것은, 상기 참조 계층 픽쳐 내의, 상기 값 X'에 의해 나타나는 상기 결정된 위치와 연관된 상기 움직임 정보가 이용가능할 경우, 상기 결정된 위치와 연관된 상기 움직임 정보를 이용하여, 상기 움직임 정보 예측인자 후보의 세트에 포함되는 상기 움직임 정보 예측인자 후보를 취득하는 것을 포함하는, 디코딩 장치.
참조 계층 픽쳐 및 리샘플링된 픽쳐를 이용하는 스케일러블 포맷에 따른 이미지를 인코딩하는 인코딩 방법을 실행하는 프로세서 실행가능 코드를 저장한 컴퓨터 판독가능 저장 매체로서, 상기 이미지의 이미지 영역은 움직임 정보에 기초하여 예측적으로 인코딩되며, 상기 움직임 정보 그 자체는 움직임 정보 예측인자 후보의 세트로부터 움직임 정보 예측인자에 기초하여 예측적으로 인코딩되며, 상기 인코딩 방법은,
상기 리샘플링된 픽쳐의 이미지 영역 내의 위치를 이용하여 상기 참조 계층 픽쳐 내의 위치를 결정하는 단계와,
상기 참조 계층 픽쳐에 속하는 이미지 영역과 연관되는 움직임 정보에 기초하여 움직임 정보 예측인자 후보를 포함하는 움직임 정보 예측인자 후보의 세트를 결정하는 단계와,
상기 움직임 정보 예측인자 후보의 세트로부터의 움직임 정보 예측인자를 이용하여 상기 이미지의 이미지 영역에 대한 움직임 정보를 인코딩하는 단계를 포함하고,
상기 위치를 결정하는 단계는,
상기 리샘플링된 픽쳐의 상기 이미지 영역 내의 중심 위치를 구하는 단계와,
스케일링 인자를 이용하여, 상기 참조 계층 픽쳐 내에서 상기 중심 위치의 대응하는 위치를 구하는 단계와,
X'=((X+4)>>4)<<4를 이용하여 상기 대응하는 위치의 적어도 하나의 좌표 X로부터 값 X'를 구하는 단계를 포함하고,
상기 움직임 정보 예측인자 후보의 세트를 결정하는 단계는, 상기 참조 계층 픽쳐 내의, 상기 값 X'에 의해 나타나는 상기 결정된 위치와 연관된 상기 움직임 정보가 이용가능할 경우, 상기 결정된 위치와 연관된 상기 움직임 정보를 이용하여, 상기 움직임 정보 예측인자 후보의 세트에 포함되는 상기 움직임 정보 예측인자 후보를 취득하는 단계를 포함하는, 컴퓨터 판독가능 저장 매체.
참조 계층 픽쳐 및 리샘플링된 픽쳐를 이용하는 스케일러블 포맷에 따른 이미지를 디코딩하는 디코딩 방법을 실행하는 프로세서 실행가능 코드를 저장한 컴퓨터 판독가능 저장 매체로서, 상기 이미지의 이미지 영역은 움직임 정보에 기초하여 예측적으로 디코딩되며, 상기 움직임 정보 그 자체는 움직임 정보 예측인자 후보의 세트로부터 움직임 정보 예측인자에 기초하여 예측적으로 디코딩되며, 상기 디코딩 방법은,
상기 리샘플링된 픽쳐의 이미지 영역 내의 위치를 이용하여 상기 참조 계층 픽쳐 내의 위치를 결정하는 단계와,
상기 참조 계층 픽쳐에 속하는 이미지 영역과 연관되는 움직임 정보에 기초하여 움직임 정보 예측인자 후보를 포함하는 움직임 정보 예측인자 후보의 세트를 결정하는 단계와,
상기 움직임 정보 예측인자 후보의 세트로부터의 움직임 정보 예측인자를 이용하여 상기 이미지의 이미지 영역에 대한 움직임 정보를 디코딩하는 단계를 포함하고,
상기 위치를 결정하는 단계는,
상기 리샘플링된 픽쳐의 상기 이미지 영역 내의 중심 위치를 구하는 단계와,
스케일링 인자를 이용하여, 상기 참조 계층 픽쳐 내에서 상기 중심 위치의 대응하는 위치를 구하는 단계와,
X'=((X+4)>>4)<<4를 이용하여 상기 대응하는 위치의 적어도 하나의 좌표 X로부터 값 X'를 구하는 단계를 포함하고,
상기 움직임 정보 예측인자 후보의 세트를 결정하는 단계는, 상기 참조 계층 픽쳐 내의, 상기 값 X'에 의해 나타나는 상기 결정된 위치와 연관된 상기 움직임 정보가 이용가능할 경우, 상기 결정된 위치와 연관된 상기 움직임 정보를 이용하여, 상기 움직임 정보 예측인자 후보의 세트에 포함되는 상기 움직임 정보 예측인자 후보를 취득하는 단계를 포함하는, 컴퓨터 판독가능 저장 매체.