KR20180030263A

KR20180030263A - 인트라 예측 방향에 따른 예측 유닛들의 필터링

Info

Publication number: KR20180030263A
Application number: KR1020187007295A
Authority: KR
Inventors: 제임스 알렉산더 가메이; 니콜라스 이안 선더스; 칼 제임스 샤먼; 폴 제임스 실콕
Original assignee: 소니 주식회사
Priority date: 2012-04-26
Filing date: 2013-04-26
Publication date: 2018-03-21
Also published as: US9686548B2; CA2870591A1; JP2015518341A; GB2501547A; US20150063460A1; EP4243421A3; EP4243420A2; BR112014026021A8; MX2014012847A; GB2501555A; GB201211619D0; CN104247425A; RU2014147451A; CA2870602A1; GB201220836D0; JP6606794B2; GB201211067D0; CN104255029B; KR20140145606A; GB2501550A

Abstract

4:4:4 포맷 또는 4:2:2 포맷 내의 휘도 및 크로미넌스 샘플들이 예측될 샘플들의 블록들에 연관된 예측 방향에 따라 다른 각각의 샘플들로부터 예측되는 비디오 코딩 또는 디코딩 방법은: 예측될 현재의 블록에 대한 예측 방향을 검출하는 단계; 예측 방향에 의해 정의된 다른 크로미넌스 샘플들에 따라 크로미넌스 샘플들의 예측된 블록을 생성하는 단계; 검출된 예측 방향이 실질적으로 수직이면, 크로미넌스 샘플들의 예측된 블록 내의 샘플들의 좌측 열을 필터링하거나, 검출된 예측 방향이 실질적으로 수평이면, 크로미넌스 샘플들의 예측된 블록 내의 샘플들의 상부 행을 필터링하는 단계; 및 블록을 각각 인코딩 또는 디코딩하기 위해, 필터링된 예측된 크로미넌스 블록과 실제 크로미넌스 블록 간의 차이를 인코딩하거나 필터링된 예측된 크로미넌스 블록에 디코딩된 차이를 적용하는 단계를 포함한다.

Description

인트라 예측 방향에 따른 예측 유닛들의 필터링{FILTERING OF PREDICTION UNITS ACCORDING TO INTRA PREDICTION DIRECTION}

관련 출원들에 대한 상호 참조

본 출원은 각각 2012년 11월 19일, 2012년 6월 22일, 및 2012년 4월 26일자로 영국 특허청에 제출된 영국 출원 번호 제 GB1220836.9호, 제 GB1211067.2호 및 제 GB1207459.7호의 이점을 주장하며, 그 전체 내용은 참조에 의해 여기에 통합된다.

본 발명은 데이터 인코딩 및 디코딩에 관한 것이다.

여기에 제공된 "기술 분야"의 설명은 본 발명의 내용을 포괄적으로 나타내기 위한 것이다. 출원 시점에 종래 기술로서 달리 언급되지 않는 설명의 양태들 뿐만 아니라 상기 기술 분야 단락에 설명된 것까지의 여기에 명명된 발명자들의 업무는 본 발명에 대한 종래 기술로서 명시적으로도 또는 암시적으로도 허용되지 않는다.

비디오 데이터를 주파주 도메인 표현으로 변환시키고, 주파수 도메인 계수들을 양자화한 후, 양자화된 계수들에 몇몇 형태의 엔트로피 인코딩을 적용하는 것을 포함하는 일부 비디오 데이터 인코딩 및 디코딩 시스템들이 존재한다. 이는 비디오 데이터의 압축을 달성할 수 있다. 오리지널 비디오 데이터의 재구성된 버전을 복원하기 위해 대응하는 디코딩 또는 압축해제 기술이 적용된다.

H.264/MPEG-4 진화된 비디오 코딩(Advanced Video Coding; AVC)에서 사용되는 것들과 같은 현재의 비디오 코덱들(코더-디코더들)은 연속적인 비디오 프레임들 간의 차이들을 단순히 인코딩함으로써 우선 데이터 압축을 달성한다. 이들 코덱들은 소위 매크로블록(macroblock)들의 규칙적인 어레이를 사용하고, 매크로블록 각각은 이전 비디오 프레임 내의 대응하는 매크로블록과의 비교 영역으로 사용되고 그 후 매크로블록 내의 이미지 영역은 비디오 시퀀스 내의 대응하는 현재의 매크로블록과 이전 매크로블록들 간에 또는 비디오 시퀀스의 단일 프레임 내의 이웃하는 매크로블록들 간에 발견되는 모션(motion)의 정도에 따라 인코딩된다.

또한, H.265 또는 MPEG-H 파트(Part) 2로 알려진 고효율 비디오 코딩(High Efficiency Video Coding; HEVC)이 H.264/MPEG-4 AVC를 계승하는 것으로 제안된다. HEVC가 H.264에 비해 비디오 품질을 개선시키고 데이터 압축비를 배가하도록(doubling) 의도되고, 대략 128kbit/s 내지 800Mbit/s의 범위의 비트 속도들과 등가인 128x96에서 7680x4320 화소 해상도로 스케일링가능해지도록 의도된다.

HEVC에서는, 소위 4:2:0 블록 구조가 소비자 장치에 대하여 제안되는데, 여기서, 각각의 크로마 채널(chroma channel)에서 사용된 데이터의 양은 루마 채널(luma channel)에서 사용된 데이터 양의 1/4이다. 이는, 주관적으로 사람들은 색 변화들보다 밝기 변화들에 더욱 민감하기 때문이며, 따라서, 주관적인 품질 손실 없이 색 채널들에서 보다 강력한 압축 및/또는 보다 적은 정보를 사용할 수 있다.

HEVC는 기존의 H.264 및 MPEG 표준들에서 발견되는 매크로블록들을 가변적 크기 구조들인, 코딩 유닛들(coding units; CUs)에 기초한 보다 유연한 방식으로 대체한다.

따라서, 비디오 프레임들 내의 이미지 데이터를 인코딩할 때, 균일하게 분포된 매크로블록들을 사용하는 대신, CU 크기들이 명확한 이미지 복잡도 또는 검출된 모션 레벨들에 따라 선택될 수 있다. 따라서, 높은 프레임-내 모션 또는 이미지 복잡도의 영역들에서는 보다 양호한 이미지 품질이 보호될 수 있는 한편, 프레임들 간에 모션이 적고 프레임 내에서 변화가 적은 영역들에서는 보다 강한 압축이 달성될 수 있다.

각각의 CU는 인트라(intra)-사진 또는 인터(inter)-사진 예측 유형의 하나 이상의 가변적-블록-크기의 예측 유닛들(PUs) 및 공간적 블록 변환 및 양자화를 위한 계수들을 포함하는 하나 이상의 변환 유닛들(TUs)을 포함한다.

또한, PU 및 TU 블록들은 휘도 또는 밝기 채널이고 그레이스케일 채널(greyscale channel)로 고려될 수 있는 루마(Y), 및 2개의 색 차이 또는 크로미넌스(chrominance) (크로마) 채널들(Cb 및 Cr)의 3개의 채널들 각각에 대하여 제공된다. 이들 채널들은 루마 채널의 그레이스케일 이미지에 대하여 색을 제공한다. 이 설명에서, Y, 휘도, 및 루마란 용어들은 상호 교체가능하게 사용되며, 마찬가지로 Cb 및 Cr, 크로미넌스, 및 크로마도 적절하게 상호 교체가능하게 사용되지만, 크로미넌스 또는 크로마는 일반적으로 "Cr 및 Cb 중 하나 그들 둘 모두"에 대하여 사용될 수 있지만, 특정 크로미넌스 채널이 설명될 때는, Cb 또는 Cr의 용어에 의해 식별될 것이다.

일반적으로, PU가 루마 부분 및 크로마 부분을 갖는다는 것을 제외하고, PU들은 채널 독립적이라고 고려된다. 일반적으로, 이는, 각각의 채널에 대한 PU의 샘플 형성부들은 이미지의 동일한 영역을 표현하고, 따라서, 3개의 채널들 간의 PU들 간에 고정된 관계가 존재한다는 것을 의미한다. 예를 들면, 4:2:0 비디오에 대하여, 루마에 대한 8x8 PU는 항상 크로마에 대한 대응하는 4x4 PU를 갖는데, 여기서 PU의 크로마 부분들은 루마 부분과 동일한 영역을 표현하지만 보다 적은 수의 화소들을 포함하는데, 이는 4:2:0 비디오에서의 루마 데이터에 비해 4:2:0 크로마 데이터의 서브샘플링 성질 때문이다. (4:4:4에서는, 샘플링 비율들이 동일하고, 따라서, 루마 및 크로마 샘플들에 대하여 동일한 PU 구조들이 사용될 수 있다.) 2개의 크로마 채널들은 인트라-예측 정보를 공유하고; 3개의 채널들은 인터-예측 정보를 공유한다. 마찬가지로, TU 구조는 또한 3개의 채널들 간에 고정된 관계를 갖는다.

그러나, 전문 방송 및 디지털 영화 장치에 대해서는, 크로마 채널들 내에서 약한 압축(또는 보다 많은 정보)을 갖는 것이 바람직하고, 이는 현재의 및 제안된 HEVC 처리가 동작하는 방법에 영향을 줄 수 있다.

본 발명은 이 처리로부터 발생하는 문제점들을 처리하거나 완화시킨다.

본 발명의 각각의 양태들 및 특징들은 첨부된 청구항들에 정의된다.

앞서의 포괄적인 설명 및 아래의 상세한 설명은 본 기술의 예시일 뿐으로 본 기술을 제한하는 것은 아님이 이해될 것이다.

본 발명의 더 완전한 인식 및 그것의 의도된 많은 이점들은 첨부된 도면들에 관련하여 고려될 때, 아래의 상세한 설명을 참조함으로써 보다 양호하게 이해되기 때문에 용이하게 얻어질 것이다.

도 1은 비디오 데이터 압축 및 압축해제를 사용하는 오디오/비디오(A/V) 데이터 송신 및 수신 시스템을 개략적으로 나타낸 도면.
도 2는 비디오 데이터 압축해제를 사용하는 비디오 디스플레이 시스템을 개략적으로 나타낸 도면.
도 3은 비디오 데이터 압축 및 압축해제를 사용하는 오디오/비디오 저장 시스템을 개략적으로 나타낸 도면.
도 4는 비디오 데이터 압축을 사용하는 비디오 카메라를 개략적으로 나타낸 도면.
도 5는 비디오 데이터 압축 및 압축해제 장치의 개요도.
도 6은 예측된 이미지들의 생성을 개략적으로 나타낸 도면.
도 7은 최대 코딩 유닛(largest coding unit; LCU)을 개략적으로 나타낸 도면.
도 8은 4개의 코딩 유닛들(CU)의 세트를 개략적으로 나타낸 도면.
도 9 및 10은 보다 작은 코딩 유닛들로 서브-분할된 도 8의 코딩 유닛들을 개략적으로 나타낸 도면.
도 11은 예측 유닛들(PU)의 어레이를 개략적으로 나타낸 도면.
도 12는 변환 유닛들(TU)의 어레이를 개략적으로 나타낸 도면.
도 13은 부분적으로-인코딩된 이미지를 개략적으로 나타낸 도면.
도 14는 가능한 인트라-예측 방향들의 세트를 개략적으로 나타낸 도면.
도 15는 예측 모드들의 세트를 개략적으로 나타낸 도면.
도 16은 곧은 대각선 스캔을 개략적으로 나타낸 도면.
도 17은 비디오 압축 장치를 개략적으로 나타낸 도면.
도 18a 및 도 18b는 가능한 블록 크기들을 개략적으로 나타낸 도면들.
도 19는 크로마 및 루마 블록들로부터의 같은 장소에 위치된 정보(co-located information)의 사용을 개략적으로 나타낸 도면.
도 20은 하나의 크로마 채널로부터의 같은 장소에 위치된 정보가 또 다른 크로마 채널에 대하여 사용되는 상황을 개략적으로 나타낸 도면.
도 21은 LM-CHROMA 모드에 대해 사용되는 화소들을 개략적으로 나타낸 도면.
도 22는 루마 예측 방향들의 세트를 개략적으로 나타낸 도면.
도 23은 수평으로 희박한 크로마 채널에 적용되는, 도 22의 방향들을 개략적으로 나타낸 도면.
도 24는 직사각형 크로마 화소 어레이에 매핑되는 도 22의 방향들을 개략적으로 나타낸 도면.
도 25 내지 도 28은 루마 및 크로마 화소 보간을 개략적으로 나타낸 도면들.
도 29a 및 도 29b는 4:2:0 및 4:2:2 각각에 대한 양자화 매개변수 표들을 개략적으로 나타낸 도면들.
도 30 및 도 31은 양자화 변화 표를 개략적으로 나타낸 도면들.

이제 도면들을 참조하여, 도 1 내지 도 4가 본 기술의 실시예들에 관련하여 아래에 설명되는 압축 및/또는 압축해제 장치를 사용하는 장치 또는 시스템들의 개요도를 제공하기 위해 제공된다.

아래에 설명된 데이터 압축 및/또는 압축해제 장치 모두는 주문형 반도체(application specific integrated circuit; ASIC) 또는 필드 프로그래밍가능한 게이트 어레이(field programmable gate array; FPGA)와 같은 프로그래밍가능한 하드웨어 또는 이들의 조합으로서, 범용-컴퓨터와 같은 범용 데이터 처리 장치 상에서 실행되는 소프트웨어로, 하드웨어 내에 구현될 수 있다. 실시예들이 소프트웨어 및/또는 펌웨어로 구현되는 경우들에서, 이러한 소프트웨어 및/또는 펌웨어, 및 이러한 소프트웨어 및/또는 펌웨어가 저장되거나 이와 달리 제공되는 비-일시적 데이터 저장 매체는 본 기술의 실시예들로서 고려된다는 것이 인식될 것이다.

도 1은 비디오 데이터 압축 및 압축해제를 사용하는 오디오/비디오 데이터 송신 및 수신 시스템을 개략적으로 나타낸다.

입력 오디오/비디오 신호(10)는 케이블, 광섬유, 무선 링크 등과 같은 송신 루트(30)를 따른 송신을 위해 오디오/비디오 신호(10)의 적어도 비디오 구성요소를 압축하는 비디오 데이터 압축 장치(20)에 공급된다. 압축된 신호는 출력 오디오/비디오 신호(50)를 제공하도록 압축해제 장치(40)에 의해 처리된다. 리턴 경로에 대하여, 압축 장치(60)는 송신 루트(30)를 따른 압축해제 장치(70)로의 송신을 위해 오디오/비디오 신호를 압축한다.

따라서, 압축 장치(20) 및 압축해제 장치(70)는 송신 링크의 하나의 노드를 형성할 수 있다. 압축해제 장치(40) 및 압축 장치(60)는 송신 링크의 또 다른 노드를 형성할 수 있다. 물론, 송신 링크가 단-방향인 경우, 상기 노드들 중 단지 하나만이 압축 장치를 요구하고, 다른 노드는 압축해제 장치만을 요구할 것이다.

도 2는 비디오 데이터 압축해제를 사용하는 비디오 디스플레이 시스템을 개략적으로 나타낸다. 특히, 압축된 오디오/비디오 신호(100)는 디스플레이(120) 상에 디스플레이될 수 있는 압축해제된 신호를 제공하도록 압축해제 장치(110)에 의해 처리된다. 압축해제 장치(110)는 디스플레이(120)와 일체로, 예를 들면, 디스플레이 장치와 같은 케이스 내에 제공되어 구현될 수 있다. 대안적으로, 압축해제 장치(110)는 (예를 들면) 소위 셋 톱 박스(set top box; STB)로 제공될 수 있는데, 여기서, "셋-톱"이란 표현은 박스가 디스플레이(120)에 관련하여 임의의 특정 방향 또는 위치에 위치되도록 요구하는 것을 암시하는 것이 아니라; 그것은 단순히 주변 장치로서 디스플레이에 연결가능한 장치를 나타내도록 본 기술에서 사용된 용어라는 것을 주의하자.

도 3은 비디오 데이터 압축 및 압축해제를 사용하는 오디오/비디오 저장 시스템을 개략적으로 나타낸다. 입력 오디오/비디오 신호(130)는 자기 디스크 장지, 광학 디스크 장치, 자기 테이프 장치, 반도체 메모리와 같은 고체 상태 저장 장치, 또는 다른 저장 장치와 같은 저장 장치(150)에 의한 저장을 위해 압축된 신호를 생성하는 압축 장치(140)에 공급된다. 재생을 위해, 압축된 데이터는 저장 장치(150)로부터 판독되고, 압축해제를 위해 압축해제 장치(160)에 전달되어 출력 오디오/비디오 신호(170)가 제공된다.

압축된 또는 인코딩된 신호와 그 신호를 저장하는 저장 매체는 본 기술의 실시예들로서 고려될 수 있다는 것이 인식될 것이다.

도 4는 비디오 데이터 압축을 사용하는 비디오 카메라를 개략적으로 나타낸다. 도 4에서, 전하 결합 디바이스(charge coupled device; CCD) 이미지 센서와 연관된 제어 및 판독 전자장치와 같은 이미지 캡처 디바이스(180)는 압축 장치(190)에 전달되는 비디오 신호를 생성한다. 마이크로폰(또는 복수의 마이크로폰들)(200)은 압축 장치(190)에 전달되도록 오디오 신호를 생성한다. 압축 장치(190)는 저장 및/또는 송신되도록 (일반적으로 개략적인 단계(220)로서 도시됨) 압축된 오디오/비디오 신호(210)를 생성한다.

아래에 설명되는 기술들은 주로 비디오 데이터 압축 및 압축해제에 관련된다. 압축된 오디오/비디오 신호를 생성하기 위해, 많은 기존의 기술들이 설명될 비디오 데이터 압축 기술들과 함께 오디오 데이터 압축에 대하여 사용될 것임이 인식될 것이다. 따라서, 오디오 데이터 압축에 대한 개별적인 설명은 제공되지 않을 것이다. 비디오 데이터, 특히, 방송 품질 비디오 데이터와 연관된 데이터 속도는 일반적으로 (압축된 것이든 또는 압축되지 않은 것이든) 오디오 데이터와 연관된 데이터 속도보다 상당히 매우 높다는 것이 인식될 것이다. 따라서, 압축된 오디오/비디오 신호를 형성하기 위해 압축되지 않은 오디오 데이터가 압축된 비디오 데이터를 동반할 수 있다는 것이 인식될 것이다. (도 1 내지 도 4에 도시된) 본 발명의 예들은 오디오/비디오 데이터에 관한 것이지만, 아래에 설명된 기술들은 단순히 비디오 데이터를 다루는(즉, 압축, 압축해제, 저장, 디스플레이, 및/또는 송신하는) 시스템에서 사용될 수 있다는 것이 더욱 인식될 것이다. 즉, 실시예들은 어떤 연관된 오디오 데이터 처리를 반드시 갖지 않으면서 비디오 데이터 압축에 적용될 수 있다.

도 5는 비디오 데이터 압축 및 압축해제 장치의 개요도를 제공한다.

제어기(343)는 장치의 전반적인 동작을 제어하는데, 특히, 압축 모드를 의미할 때, CU, PU, 및 TU 블록 크기들과 같은 다양한 동작 모드들을 선택하고 비디오 데이터가 손실 없이 또는 이와 달리 인코딩되는지 아닌지를 선택하기 위한 선택기로서 동작함으로써 (아래에 설명된) 시험적인 인코딩 처리들을 제어한다.

입력 비디오 신호(300)의 연속적인 이미지들은 누산기(310) 및 이미지 예측기(320)에 공급된다. 이미지 예측기(320)는 도 6을 참조하여 아래에 더욱 상세하게 설명될 것이다. 누산기(310)는 사실 감산 (음의 누산) 동작을 수행하는데, 즉, 그것이 "+" 입력부 상에서 입력 비디오 신호(300)를 "-" 입력부 상에서 이미지 예측기(320)의 출력을 수신하여, 예측된 이미지가 입력 이미지로부터 감산된다. 그 결과 실제 이미지와 투영된 이미지 간의 차이를 표현하는 소위 잔상 신호(330)가 생성된다.

잔상 신호가 생성되는 하나의 이유는 다음과 같다. 설명될 데이터 코딩 기술들, 즉, 잔상 신호에 적용될 기술들은 인코딩될 이미지에 "에너지"가 적을 때 보다 효율적으로 동작하는 경향이 있다. 여기서, "효율적으로"란 용어는 작은 양의 인코딩된 데이터를 생성하는 것을 의미하고; 특정 이미지 품질 레벨에 대해서, 실질적으로 가능한 적은 데이터를 생성하는 것이 바람직하다(그리고 "효율적"이라고 고려된다). 잔상에서 "에너지"에 대한 언급은 잔상에 포함된 정보의 양에 관련된다. 예측된 이미지가 실제 이미지와 동일하면, 둘 간의 차이(즉, 잔상)는 제로(0) 정보(제로 에너지)를 포함하고 적은 양의 인코딩된 데이터로 인코딩하기 매우 쉬울 것이다. 일반적으로, 예측 처리가 상당히 잘 동작하도록 만들어질 수 있으면, 잔상 데이터는 입력 이미지보다 적은 정보(적은 에너지)를 포함할 것이고, 이에 따라, 적은 양의 인코딩된 데이터로 인코딩하기 쉬울 것이 기대된다.

(잔상 또는 차이 이미지를 인코딩하기 위해) 인코더로서 동작하는 장치에 대한 나머지가 이제 설명될 것이다. 잔상 데이터(330)는 잔상 데이터의 이산 코사인 변환(discrete cosine transform; DCT) 표현을 생성하는 변환 유닛(340)에 공급된다. DCT 기술 자체는 잘 알려져 있으므로 여기에 상세하게 설명되지 않을 것이다. 그러나, 아래에 보다 상세하게 설명될, 본 장치에서 사용되는 기술들의 양태들, 특히, DCT 동작이 적용되는 데이터의 상이한 블록들의 선택에 관한 기술들의 양태들이 존재한다. 이들은 도 7 내지 도 12를 참조하여 아래에 설명될 것이다.

변환 유닛(340)의 출력, 즉, 이미지 데이터의 각각의 변환된 블록에 대한 DCT 계수들의 세트는 양자화기(350)에 공급된다. 양자화 스케일링 인자에 의한 단순 곱셈에서부터 양자화 매개변수의 제어 하에서 복잡한 룩업 테이블들(lookup tables)의 적용까지의 다양한 양자화 기술들이 비디오 데이터 압축 분야에 알려져 있다. 양자화의 일반적인 목적은 이중적이다. 첫째, 양자화 처리는 변환된 데이터의 가능한 값들의 수를 줄인다. 둘째, 양자화 처리는 변환된 데이터의 값들이 제로일 가능성을 높일 수 있다. 이들 둘 모두는 아래에 설명될 엔트로피 인코딩 처리를 적은 양의 압축된 비디오 데이터를 생성하는데 보다 효율적으로 동작할 수 있게 한다.

데이터 스캔 처리는 스캔 유닛(360)에 의해 적용된다. 스캔 처리의 목적은 가능한 많은 제로가 아닌 양자화되고 변환된 계수들이 서로 모이고, 당연히 그에 따라, 가능한 많은 제로-값의 계수들이 서로 모이도록 양자화되고 변환된 데이터를 재순서화하기 위한 것이다. 이들 특징들은 소위 런-길이 코딩(run-length coding) 또는 효율적으로 적용되는 유사한 기술들을 허용할 수 있다. 따라서, 스캔 처리는 "양자화 순서"에 따라, 양자화되고 변환된 데이터로부터, 특히, 변환되고 양자화된 이미지 데이터의 블록에 대응하는 계수들의 블록으로부터 계수들을 선택하는 것을 포함하며, 이에 따라, (a) 계수들 모두가 스캔의 부분으로서 한번 선택되고 (b) 스캔은 바람직한 재순서화를 제공하는 경향이 있게 된다. 유용한 결과를 제공하는 경향이 있을 수 있는 하나의 예시적인 스캔 순서는 소위 곧은 대각선 스캔 순서이다.

그 후 스캐닝된 계수들은 엔트로피 인코더(entropy encoder; EE)(370)에 전달된다. 다시, 다양한 유형의 엔트로피 인코딩이 사용될 수 있다. 2개의 예들은 소위 콘택스트 적응형 이진 연산 코딩(Context Adaptive Binary Arithmetic Coding; CABAC) 시스템의 변화들 및 소위 콘택스트 적응형 가변-길이 코딩(Context Adaptive Variable-Length Coding; CAVLC) 시스템의 변화들이다. 일반적으로, CABAC는 보다 양호한 효율성을 제공한다고 고려되는데, 몇몇 시험에서, CAVLC에 비해 비교가능한 이미지 품질에 대하여 인코딩된 출력 데이터의 양에서 10 ~ 20% 감소를 제공한다고 보여졌다. 그러나, CAVLC는 CABAC 보다 (그것의 구현 면에서) 훨신 낮은 레벨의 복잡도를 나타낸다고 고려된다. 스캔 처리와 엔트로피 인코딩 처리는 개별적인 처리들로 나타내져있지만, 사실 조합되거나 함께 처리될 수 있다는 것을 주의하자. 즉, 엔트로피 인코더로 데이터를 판독하는 것은 스캔 순서로 수행될 수 있다. 대응하는 고려사항들이 아래에 설명되는 각각의 역의 처리들에 적용된다. 출원시 고려되는 현재의 HEVC 문서들은 더 이상 CAVLC 계수 인코더의 가능성을 포함하지 않는다는 것을 주의하자.

예를 들면, 예측기(320)가 예측된 이미지를 생성한 방식을 정의하는, (앞서 언급된 및/또는 아래에 설명된) 추가 데이터와 함께인 엔트로피 인코더(370)의 출력은 압축된 출력 비디오 신호(380)를 제공한다.

그러나, 예측기(320) 자체의 동작은 압축된 출력 데이터의 압축해제된 버전을 따르기 때문에, 리턴 경로가 또한 제공된다.

이 특징의 이유는 다음과 같다. (아래에 설명된) 압축해제 처리 내의 적절한 단계에서, 잔상 데이터의 압축해제된 버전이 생성된다. 이 압축해제된 잔상 데이터는 출력 이미지를 생성하기 위해 예측된 이미지에 부가되야 한다(이는 오리지널 잔상 데이터가 입력 이미지와 예측된 이미지 간의 차이이기 때문이다). 이 처리가 압축 측과 압축해제 측 간에 비슷하기 위해, 예측기(320)에 의해 생성된 예측된 이미지들은 압축 처리 동안 및 압축해제 처리 동안 동일해야 한다. 물론, 압축해제에서, 장치는 오리지널 입력 이미지들로의 액세스는 갖지 않고, 압축해제된 이미지들로의 액세스만 갖는다. 따라서, 압축에서, 예측기(320)는 압축된 이미지들의 압축해제된 버전들 상에서의 (적어도, 인터-이미지 인코딩에 대한) 예측에 기초한다.

엔트로피 인코더(370)에 의해 수행되는 엔트로피 인코딩 처리는 "손실 없다"고 고려되는데, 즉, 그것은 엔트로피 인코더(370)에 처음에 공급된 것과 정확히 동일한 데이터에 도달하도록 리버스(reverse)될 수 있다. 따라서, 엔트로피 인코딩 단계 전에 리턴 경로가 구현될 수 있다. 실제로, 스캔 유닛(360)에 의해 수행되는 스캔 처리도 또한 손실 없다고 고려되지만, 본 실시예에서, 리턴 경로(390)는 양자화기(350)의 출력에서 무료의 역양자화기(420)의 입력으로 간다.

일반적으로, 엔트로피 디코더(410), 리버스 스캔 유닛(400), 역양자화기(420), 및 역변환 유닛(430)은 엔트로피 인코더(370), 스캔 유닛(360), 양자화기(350), 및 변환 유닛(340)의 각각의 역기능들을 제공한다. 이제부터, 압축 처리에 대한 설명이 계속될 것이며; 입력된 압축된 비디오 신호를 압축해제하기 위한 처리가 아래에 독립적으로 설명될 것이다.

압축 처리에서, 스캐닝된 계수들은 리턴 경로(390)에 의해 양자화기(350)에서, 스캔 유닛(360)의 역동작을 수행하는 역양자화기(420)로 전달된다. 역양자화 및 역변환 처리는 압축된-압축해제된 잔상 신호(440)를 생성하도록 유닛들(420, 430)에 의해 수행된다.

이미지 신호(440)는 누산기(450)에서 예측기(320)의 출력에 누산되어, 재구성된 출력 이미지(460)를 생성한다. 아래에 설명될 바로서, 이것은 이미지 예측기(320)로의 하나의 입력을 형성한다.

이제 수신된 압축된 비디오 신호(470)를 압축해제하기 위해 적용되는 처리로 넘어가서, 신호는 누산기(450)에 의해 이미지 예측기(320)의 출력에 부가되기 전에, 엔트로비 디코더(410)에 공급되고, 거기서부터 리버스 스캔 유닛(400), 역양자화기(420), 및 역변환 유닛(430)의 고리에 공급된다. 따라서, 디코더 측에서, 디코더는 잔상 버전을 재구성한 후 이것을 (누산기(450)에 의해)(블록 기반으로 블록 상의) 이미지의 예측된 버전에 적용하여, 각각의 블록이 디코딩된다. 간단하게, 누산기(450)의 출력(460)은 출력된 압축해제된 비디오 신호(480)를 형성한다. 실제로, 신호가 출력되기 전에 추가 필터링이 적용될 수 있다.

따라서, 도 5 및 도 6의 장치는 압축 장치 또는 압축해제 장치로서 동작할 수 있다. 두 유형의 장치의 기능들은 상당히 중복된다. 스캔 유닛(360) 및 엔트로비 인코더(370)는 압축해제 모드에서는 사용되지 않고, (아래에 상세하게 설명될) 예측기(320) 및 다른 유닛의 동작은 수신된 압축된 비트스트림에 포함된 모드 및 매개변수 정보를 따르고, 이러한 정보 자체를 생성하지는 않는다.

도 6은 예측된 이미지들의 생성, 특히, 이미지 예측기(320)의 동작을 개략적으로 나타낸다.

이미지 예측기(320)에 의해 수행되는 2개의 기본 예측 모드들이 있다: 소위 인트라-이미지 예측, 및 소위 인터-이미지 또는 모션-보상(motion-compensated; MC) 예측. 인코더 측에서, 각각은 예측되는 현재 블록에 대한 예측 방향을 검출하고, (동일한(인트라) 또는 또 다른(인터) 이미지에서) 다른 샘플들에 따라 샘플들의 예측된 블록을 생성하는 것을 포함한다. 유닛(310 또는 450)으로 인해, 예측된 블록과 실제 블록 간의 차이가 블록을 각각 인코딩 또는 디코딩하도록 인코딩 또는 적용된다.

(디코더에서 또는 인코더의 리버스 디코딩 측에서, 예측 방향의 검출는 인코딩된 데이터에 연관된, 인코더에 의한, 어느 방향이 인코더에서 사용되었는지를 나타내는 데이터에 따를 수 있다. 또는 검출는 인코더에서 결정이 내려진 요소들과 동일한 요소들에 따를 수 있다.)

인트라-이미지 예측은 동일한 이미지 내로부터의 데이터 상의 이미지의 블록의 콘텐트의 예측에 기초한다. 이는 다른 비디오 압축 기술들에서의 소위 I-프레임 인코딩에 대응한다. 전체 이미지가 인트라-인코딩되는 I-프레임 인코딩과 달리, 본 실시예에서는, 인트라-인코딩과 인터-인코딩 간의 선택이 매 블록마다의 기반으로 내려질 수 있는데, 다른 실시예들에서는, 선택이 여전히 매 이미지마다의 기반으로 내려진다.

모션-보상 예측은 인터-이미지 예측의 일례이며, 현재 이미지에 인코딩된 이미지 세부사항의, 또 다른 인접한 또는 근처의 이미지 내의, 소스를 정의하고자 시도하는 모션 정보를 사용한다. 따라서, 이상적인 예에서, 예측된 이미지 내의 이미지 데이터의 블록의 콘텐트들은 인접한 이미지 내에서 동일하거나 살짝 다른 위치에의 대응하는 블록을 지시하는 기준(모션 벡터)으로서 매우 간단하게 인코딩될 수 있다.

도 6으로 돌아가서, (인트라-이미지 예측 및 인터-이미지 예측에 대응하는) 2개의 이미지 예측 구성들이 나타나있으며, 그 결과들은 누산기들(310 및 450)에 공급될 예측된 이미지의 블록들을 제공하도록 모드 신호(510)의 제어 하에서 다중화기(500)에 의해 선택된다. 그 선택은 어떤 선택이 (앞서 논의된 바와 같이, 인코딩을 요청하는 정보 콘텐트로 고려될 수 있는) 최저 "에너지"를 제공하는지에 따라 내려지고, 그 선택은 인코딩된 출력 데이터스트림 내의 인코더에 시그널링된다. 이 문맥에서, 이미지 에너지는, 입력 이미지로부터 예측된 이미지의 2개의 버전들의 영역의 시험적인 감산을 수행하고, 상이한 이미지의 각각의 화소 값을 제곱하고, 제곱된 값들을 합산하고, 2개의 버전들 중 어느 것이 그 이미지 영역에 관한 차이 이미지의 최저 평균 제곱 값으로의 상승을 제공하는지를 식별함으로써 검출된다.

인트라-인코딩 시스템에서, 실제 예측은 신호(460)의 부분으로서 수신되는 이미지 블록들에 기초하여 만들어지는데, 즉, 예측은 정확히 동일한 예측이 압축해제 장치에서 행해지도록 인코딩된-디코딩된 이미지 블록들에 기초한다. 그러나, 데이터는 인트라-이미지 예측기(530)의 동작을 제어하기 위해 인트라-모드 선택기(520)에 의해 입력 비디오 신호(300)로부터 도출될 수 있다.

인터-이미지 예측에 대하여, 모션 보상(MC) 예측기(540)는 입력 비디오 신호(300)로부터 모션 추정기(550)에 의해 도출된 모션 벡터들과 같은 모션 정보를 사용한다. 그러한 모션 벡터들은 인터-이미지 예측의 블록들을 생성하기 위해, 모션 보상 예측기(540)에 의해, 재구성된 이미지(460)의 처리된 버전에 적용된다.

이에 따라, 유닛(530) 및 (추정기(550)와 함께 동작하는) 유닛(540) 각각은 예측되는 현재 블록에 대한 예측 방향을 검출하기 위한 검출기들로서 및 예측 방향에 의해 정의된 다른 샘들에 따라 (유닛들(310 및 450)에 전달된 예측의 부분을 형성하는) 샘플들의 예측된 블록을 생성하기 위한 생성기로서 동작한다.

신호(460)에 적용되는 처리가 이제 설명될 것이다. 첫째, 신호는 아래에 보다 상세하게 설명될 필터 유닛(560)에 의해 필터링된다. 이는 변환 유닛(340)에 의해 수행되는 블록-기반 처리 및 후속 동작들의 영향들을 없애거나 적어도 줄이려고 하기 위해 "블록해제(deblocking)" 필터를 적용하는 것을 포함한다. (아래에 더욱 설명된) 샘플 적응형 오프셋팅(sample adaptive offsetting; SAO) 필터가 또한 사용될 수 있다. 또한, 재구성된 신호(460) 및 입력 비디오 신호(300)를 처리함으로써 도출되는 계수들을 사용하는 적응형 루프 필터가 적용된다. 적응형 루프 필터는 필터링되는 데이터에 적응형 필터 계수들을 적용하는, 알려진 기술들을 사용하는, 한 유형의 필터이다. 즉, 필터 계수들은 다양한 인자들에 따라 변할 수 있다. 어떤 필터 계수들이 사용되는지 정의하는 데이터는 인코딩된 출력 데이터스트림의 부분으로서 포함된다.

적응형 필터링은 이미지 복원을 위한 루프-내(in-loop) 필터링을 나타낸다. LCU는 LCU 내의 각각의 CU에 관련하여 도출되는 ALF 온/오프 상태들(적응형 루프 필터 - 아래 참조) 및 필터의 선택으로, 최대 16개의 필터들에 의해 필터링될 수 있다. 현재 그 제어는 LCU 레벨에 있으며, CU 레벨에 있지 않다.

장치가 압축 장치로서 동작할 때, 필터 유닛(560)으로부터의 필터링된 출력은 사실 출력 비디오 신호(480)를 형성한다. 그것은 또한 하나 이상의 이미지 또는 프레임 저장소들(570)에 버퍼링되는데; 연속적인 이미지들의 저장은 모션 보상 예측 처리의 요구사항(특히, 모션 벡터들의 생성)이다. 저장 요구들을 줄이기 위해, 이미지 저장소들(570)에 저장된 이미지들은 압축된 형태로 유지되고, 그 후 모션 벡터들을 생성할 때 사용하기 위해 압축해제될 수 있다. 이 특정 목적을 위해, 임의의 알려진 압축/압축해제 시스템이 사용될 수 있다. 저장된 이미지들은 저장된 이미지들의 보다 높은 해상도 버전을 생성하는 보간 필터(580)에 전달되는데; 이 예에서, 보간 필터(580)에 의해 출력된 보간된 이미지의 해상도가 4:2:0의 휘도 채널에 대하여 이미지 저장소들(570)에 저장된 이미지들의 것보다 (각 차원에서) 4배가 되고, 4:2:0의 크로미넌스 채널들에 대하여 이미지 저장소들(570)에 저장된 이미지들의 것보다 (각 차원에서) 8배가 되도록, 중간 샘플들(서브-샘플들)이 생성된다. 보간된 이미지들은 모션 추정기(550) 및 또한 모션 보상 예측기(540)에 입력으로서 전달된다.

실시예들에서, 곱셈기(600)를 사용하여 입력 비디오 신호의 데이터 값들에 4의 인자를 곱하기 위한 (효율적으로 단지 데이터 값들을 2 비트만큼 좌측으로 시프트시킴(shift)), 및 나눗셈기 또는 우측-시프트기(610)를 사용하여 장치의 출력에서 대응하는 나눗셈 동작을 적용하기 위한(2개의 비트만큼 우측으로 시프트시킴), 추가의 선택적인 저장소가 제공된다. 따라서, 우측 시프트 및 좌측 시프트는 오로지 장치의 중간 동작을 위한 데이터만을 변화시킨다. 이 처리는 장치에 보다 높은 계산 정확성을 제공하는데, 이는 임의의 데이터 반올림(rounding) 오류들의 영향이 줄어들기 때문이다.

압축 처리를 위해 이미지가 분할되는 방식이 이제 설명될 것이다. 기초 레벨에서, 압축되는 이미지는 샘플들의 블록들의 어레이로서 고려된다. 본 발명의 목적을 위해, 고려하의 최대의 이러한 블록은 소위 최대 코딩 유닛(LCU)(700)인데(도 7), 이는 전형적으로 64 x 64 샘플들의 정사각형 어레이를 나타낸다(LCU 크기는 HEVC 문서들에 의해 정의된 것과 같은 최대 크기까지, 인코더에 의해 구성될 수 있다). 여기서, 본 발명은 휘도 샘플들에 관련된다. 4:4:4, 4:2:2, 4:2:0 또는 4:4:4:4 (GBR 더하기 핵심 데이터)와 같은 크로미넌스 모드에 따라, 휘도 블록에 대응하는 상이한 개수들의 대응하는 크로미넌스 샘플들이 존재할 것이다.

3가지의 기초 유형들의 블록들이 설명될 것이다: 코딩 유닛들, 예측 유닛들, 및 변환 유닛들. 일반적으로, LCU들의 반복적인 서브분할은 입력 사진이, 블록 크기들 및 (예측 또는 잔상 코딩 모드들과 같은) 블록 코딩 매개변수들 모두가 인코딩될 이미지의 특정 특징들에 따라 설정될 수 있는 방식으로, 분할되도록 허용한다.

LCU는 소위 코딩 유닛들(CU)로 서브분할될 수 있다. 코딩 유닛들을 항상 정사각형이고, 8x8 샘플들 내지 LCU(700)의 최대 크기 사이의 크기를 갖는다. 코딩 유닛들은, 제 1 서브분할이 32x32 샘플들의 코딩 유닛들(710)을 제공하면서 도 8에 나타낸 것처럼 행해지고, 그 후 후속 서브분할들이 16x16 샘플들의 일부 코딩 유닛들(720)(도 9) 및 잠재적으로 8x8 샘플들의 일부 코딩 유닛들(730)(도 10)을 제공하도록 선택적인 기반으로 행해질 수 있도록 일종의 트리 구조로 구성될 수 있다. 전체적으로, 이 처리는 CU 블록들의 콘텐트-적응형 코딩 트리 구조를 제공할 수 있는데, CU 블록들 각각은 LCU만큼 크거나 8x8 샘플들만큼 작을 수 있다. 출력 비디오 데이터의 인코딩은 코딩 유닛 구조 기반으로 행해지는데, 즉, 하나의 LCU가 인코딩된 후 처리가 다음 LCU로 이동해나간다.

도 11은 예측 유닛들(PU)의 어레이를 개략적으로 나타낸다. 예측 유닛은 이미지 예측 처리들에 관련된 정보 또는 즉 도 5의 장치로부터의 출력 비디오 신호를 형성하기 위해 엔트로피 인코딩된 잔상 데이터에 추가되는 추가 데이터를 전달하기 위한 기초 유닛이다. 일반적으로, 예측 유닛들은 모양이 정사각형으로 제한되지 않는다. 그들은 다른 모양들, 특히, 정사각형 코딩 유닛들 중 하나의 절반을 형성하는 직사각형 모양을 가질 수 있다(예를 들면, 8x8 CU들은 8x4 또는 4x8 PU들을 가질 수 있음). 이미지 특징들에 정렬된 PU들을 사용하는 것을 HEVC 시스템의 필수 부분은 아니지만, 일반적인 목적은 양호한 인코더로 하여금 인접한 예측 유닛들의 경계를 사진 내의 실제 객체들의 경계들에 (가능한 근접하게) 매칭하도록 정렬시킴으로써, 상이한 실제 객체들에 상이한 예측 매개변수들이 적용될 수 있게 하는 것이다. 각각의 코딩 유닛은 하나 이상의 예측 유닛들을 포함할 수 있다.

도 12는 변환 유닛들(TU)의 어레이를 개략적으로 나타낸다. 변환 유닛은 변환 및 양자화 처리의 기초 유닛이다. 변환 유닛들은 정사각형이거나 아닐 수 있으며, 4x4 내지 32x32 샘플들의 크기를 가질 수 있다. 각각의 코딩 유닛은 하나 이상의 변환 유닛들을 포함할 수 있다. 도 12 내의 두문자어(SDIP-P)는 소위 단거리 인트라-예측 파티션을 의미한다. 이 구성에서, 단지 하나의 차원의 변환들만이 사용되므로, 4xN 블록은 현재의 SDIP-P 내의 이전에 디코딩된 이웃하는 블록들 및 이전에 디코딩된 이웃하는 라인들에 기초하여 N 변환들을 통해 입력 데이터와 함께 변환들에 전달된다. SDIP-P는 현재 본 출원이 제출되는 시점에 HEVC에 포함되지 않는다.

앞서 언급된 바와 같이, 코딩은 1개의 LCU로서, 그 후 다음 LCU로서 수행되어 나간다. LCU 내에서, 코딩은 매 CU 마다 수행된다. CU 내에서, 코딩은 하나의 TU에 대해서, 그 후 다음 TU에 대해서 수행되어 나간다.

인트라-예측 처리가 이제 설명될 것이다. 일반적으로, 인트라-예측은 동일한 이미지 내의 이전에-인코딩된 및 디코딩된 샘플들로부터 샘플들의 현재 블록의 예측(예측 유닛)을 생성하는 것을 포함한다. 도 13은 부분적으로 인코딩된 이미지(800)를 개략적으로 나타낸다. 여기서, 이미지는 LCU 기반으로 좌측-상부에서 우측-하부로 인코딩되고 있다. 전체 이미지의 처리 중 어느 정도 인코딩된 예시적인 LCU가 블록(810)으로 나타나있다. 블록(810)의 위쪽 및 좌측의 어두운 영역(820)은 이미 인코딩되었다. 블록(810)의 콘텐트들의 인트라-이미지 예측은 어두운 영역(820)의 어느 것이나 사용할 수 있지만 그것 아래의 어둡지 않은 영역은 사용할 수 없다. 그러나, 현재의 LCU 내의 개개의 TU에 대하여, 앞서 설명된 인코딩의 계층적 순서(매 CU 마다 그 후 매 TU 마다)는 현재의 LCU 내에 및 그 TU의 코딩에 적용가능한, 예를 들면, 그 TU의 우측-상부 또는 좌측-하부에 있는 이전에 인코딩된 샘플들이 존재할 수 있다는 것을 의미한다는 것을 주의하자.

블록(810)은 LCU를 나타내고; 앞서 논의된 바와 같이, 인트라-이미지 예측 처리를 위해서, 이것은 한 세트의 보다 작은 예측 유닛들 및 변환 유닛들로 서브분할될 수 있다. 현재의 TU의 예(830)가 LCU(810) 내에 나타나있다.

인트라-이미지 예측은 고려중인 현재의 TU의 상부 및/또는 좌측의 샘플들과 같은 현재의 TU 보다 이전에 코딩된 샘플들을 고려한다. 그로부터 요청된 샘플들이 예측되는 소스 샘플들은 현재의 TU에 비해 상이한 위치들 또는 방향들에 위치할 수 있다. 현재의 예측 유닛에 대해 어느 방향이 적절한지 결정하기 위해, 예시적인 인코더의 모드 선택기(520)는 각각의 후보 방향에 대해 가능한 TU 구조들의 모든 조합을 테스트하고 최상의 압축-효율을 갖는 PU 방향 및 TU 구조를 선택할 수 있다.

사진은 또한 "슬라이스(slice)" 기반으로 인코딩될 수 있다. 하나의 예에서, 슬라이스는 수평으로 인접한 LCU들의 그룹이다. 그러나 보다 일반적으로, 전체 잔상은 슬라이스를 형성할 수 있거나, 슬라이스가 단일 LCU일 수 있거나, 슬라이스가 LCU들의 행(row)일 수 있는 등이다. 슬라이스들은 개별적인 유닛들로서 인코딩되므로 오류들에 대해 일부 회복력을 가질 수 있다. 인코더 및 디코더 상태들은 슬라이스 경계에서 완벽하게 리셋된다. 예를 들면, 인트라-예측은 슬라이스 경계들을 넘어서 수행되지 않으며; 슬라이스 경계들은 이를 위해 이미지 경계들로 취급된다.

도 14는 한 세트의 가능한 (후보) 예측 방향들을 개략적으로 나타낸다. 8x8, 16x16, 또는 32x32 샘플들의 예측 유닛에 대해 34개의 후보 방향들의 풀세트가 가능하다. 4x4 및 64x64 샘플들의 예측 유닛 크기의 특정 경우들은 그들에게 가능한 감소된 세트의 후보 방향들(각각 17개의 후보 방향들 및 5개의 후보 방향들)을 갖는다. 방향들은 현재의 블록 위치에 대한 수평 및 수직 이동에 의해 결정되지만, 예측 "모드들"로서 인코딩되는데, 그 세트가 도 15에 나타나있다. 소위 DC 모드는 주변 상부 및 좌측 샘플들의 단순한 수학적 평균을 나타낸다는 것을 주의하자.

일반적으로, 각각의 예측 유닛에 관련하여 예측 방향을 검출한 후, 시스템들은 예측 방향에 의해 정의된 다른 샘플들에 따라 샘플들의 예측된 블록을 생성하도록 동작한다.

도 16은 스캔 유닛(360)에 의해 적용될 수 있는 예시적인 스캔 패턴인, 소위 곧은 대각선 스캔을 개략적으로 나타낸다. 도 16에서, 8x8 DCT 계수들의 예시적인 블록에 대한 패턴이 나타나있는데, 여기서, DC 계수는 그 블록의 좌측 상부 위치(840)에 위치하고, 수평 및 수직 공간 주파수들이 증가하는 것은 좌측 상부 위치(840)의 아래쪽 및 우측의 증가하는 거리들에서의 계수에 의해 표현된다. 다른 대안적인 스캔 순서들이 대신 사용될 수 있다.

블록 구성들과 CU, PU, 및 TU 구조들의 변화가 아래에 설명될 것이다. 이들은 앞서 설명된 도 5 및 도 6에 나타낸 것과 많은 면이 유사한 도 17의 장치의 문맥에서 설명될 것이다. 실제로, 많은 동일한 도면 참조 부호들이 사용되며, 이들 부분들은 더욱 설명되지 않을 것이다.

도 5 및 도 6에 관련하여 주요 실질적인 차이는 필터(560)(도 6)에 관한 것인데, 도 17에는 블록해제 필터(1000)와 연관된 인코딩 결정 블록(1030), 샘플 적응형 오프셋팅(SAO) 필터(1010)와 연관된 계수 생성기(1040), 및 적응형 루프 필터(adaptive loop filter; ALF)(1020)와 연관된 계수 생성기(1050)를 포함하는 것으로 보다 상세하게 나타나있다.

블록해제 필터(1000)는 왜곡을 감소시키고, 블록 코딩 기술들이 사용될 때 CU, PU, 및 TU 경계들 간에 형성될 수 있는 예리한 모서리들을 매끄럽게(smoothing) 함으로써 시각적인 품질 및 예측 성능을 개선시키려고 한다.

SAO 필터(1010)는 재구성된 화소들을 상이한 범주들로 분류하고 그 후 화소들의 각각의 범주에 대해 단순히 오프셋을 추가함으로써 왜곡을 줄이려고한다. 화소 강도 및 모서리 속성들이 화소 분류를 위해 사용된다. 코딩 효율을 더욱 개선시키기 위해, 사진은 오프셋 매개변수들의 국부화(localization)를 위한 영역들로 분할될 수 있다.

ALF(1020)는 재구성된 프레임과 소스 프레임 간의 차이를 최소화하도록 압축된 사진을 복원하려고한다. ALF의 계수들은 프레임 기반으로 계산 및 송신된다. ALF는 전체 프레임 또는 국부 영역들에 적용될 수 있다.

앞서 주의된 바와 같이, 제안된 HEVC 문서들은 4:2:0 방식으로 알려진 특정 크로마 샘플링 방식을 사용한다. 4:2:0 방식은 국내/소비자 장치에 대해 사용될 수 있다. 그러나, 일부 다른 방식들도 가능하다.

특히, 소위 4:4:4 방식은 전문적인 방송, 마스터링(mastering), 및 디지털 카메라에 적절할 것이며, 원칙적으로 최고 품질 및 데이터 속도를 가질 것이다.

유사하게, 소위 4:2:2 방식은 일부 정확도 손실을 가지면서 전문적인 방송, 마스터링, 디지털 카메라에 사용될 수 있다.

이들 방식들 및 그들의 대응하는 가능한 PU 및 TU 블록 구조들은 아래에 설명되어있다.

추가로, 다른 방식들은 4:0:0 단색 방식을 포함한다.

4:4:4 방식에서, 3개의 Y, Cb, 및 Cr 채널들의 각각은 동일한 샘플 비율을 갖는다. 원칙적으로 따라서, 이 방식에서 루마 데이터에 2배의 크로마 데이터가 존재할 것이다.

따라서, HEVC에서, 이 방식에서, 3개의 Y, Cb, 및 Cr 채널들의 각각은 동일한 크기의 대응하는 PU 및 TU 블록들을 가질 것인데; 예를 들면, 8x8 루마 블록은 2개의 크로마 채널들 각각에 대해 대응하는 8x8 크로마 블록들을 가질 것이다.

따라서, 이 방식에서, 일반적으로 각각의 채널 내의 블록 크기들 간에 정확한 1:1 관계가 존재할 것이다.

4:2:2 방식에서, 2개의 크로마 구성요소들은 루마의 샘플 비율의 절반에서 샘플링된다(예를 들면, 수직 또는 수평 서브샘플링을 사용하지만, 본 발명의 설명을 위해, 수평 서브샘플링이 가정됨). 따라서, 원칙적으로, 이 방식에서, 크로마 데이터가 2개의 크로마 채널들 사이에 분할될 것이지만, 루마 데이터만큼 많은 크로마 데이터가 존재할 것이다.

따라서, HEVC에서, 이 방식에서, Cb 및 Cr 채널들은 루마 채널에 대해 상이한 크기의 PU 및 TU 블록들을 가질 것인데; 예를 들면, 8x8 루마 블록은 각각의 크로마 채널에 대해 대응하는 폭 4 x 높이 8의 크로마 블록들을 가질 수 있다.

따라서, 이 방식에서, 크로마 블록들은 정사각형 루마 블록들에 대응하지만 비-정사각형일 수 있다는 것을 주의하자.

현재 제안된 HEVC 4:2:0 방식에서, 2개의 크로마 구성요소들이 루마의 샘플 비율의 1/4에서 (예를 들면, 수직 및 수형 서브샘플링을 사용하여) 샘플링된다. 따라서, 원칙적으로, 이 방식에서, 루마 데이터의 절반의 크로마 데이터가 존재하며, 크로마 데이터는 2개의 크로마 채널들 사이로 분할된다.

따라서, HEVC에서, 이 방식에서, 다시 Cb 및 Cr 채널들은 루마 채널에 대해 상이한 크기의 PU 및 TU 블록들을 갖는다. 예를 들면, 8x8 루마 블록들은 각각의 크로마 채널들에 대해 대응하는 4x4 크로마 블록들을 가질 것이다.

상기 방식들은 본 기술에 일상적으로 '4:2:0 채널비'와 같은 '채널비들'로서 알려져있지만; 앞서 설명으로부터, 사실 이것이 항상 Y, Cb, 및 Cr 채널들이 그 비로 압축되거나 이와 달리 제공되는 것을 의미하는 것은 아님이 인식될 것이다. 따라서, 채널비로 언급되었지만, 그것은 문자 그대로라고 가정되어서는 안된다. 사실, 4:2:0 방식의 올바른 비들은 4:1:1이다(4:2:2 방식 및 4:4:4 방식에 대한 비들이 사실 올바르다).

도 18a 및 도 18b를 참조하여 특정 구성들을 설명하기 전에, 일부 일반적인 전문용어가 요약 또는 다시 논의될 것이다.

최대 코딩 유닛(LCU)은 루트(root) 사진 객체이다. 전형적으로, 그것은 64x64 루마 화소들에 등가인 영역을 커버한다. 그것은 3-개층의 코딩 유닛들(CUs)을 형성하기 위해 반복적으로 분할된다. 일반적으로, 3개의 채널들(1개의 루마 채널 및 2개의 크로마 채널들)은 동일한 CU 3-계층을 갖는다. 그러나, 채널비에 기초하여, 특정 루마 CU는 대응하는 크로마 CU들에 대해 상이한 개수의 화소들을 가질 수 있다.

3-계층의 마지막에서의 CU들, 즉, 반복되는 분할 처리 결과로서 생성되는 (리프(leaf) CU들이라 언급될 수 있는) 최소 CU들은 그 후 예측 유닛들(PUs)로 분할된다. 크로마 채널에 대한 대응하는 PU가 너무 적은 샘플들을 갖는 때를 제외하고, 그 채널에 대해 단지 1개의 PU만이 가능한 경우, 3개의 채널들(1개의 루마 채널 및 2개의 크로마 채널들)은 동일한 PU 구조를 갖는다. 이것이 구성가능하지만, 통상 인트라 PU의 최소 차원은 4 샘플들이고; 인터 PU의 최소 차원은 4 루마 샘플들(또는 4:2:0에 대해 2 크로마 샘플들)이다. 최소 CU 크기에 대한 제한은 항상 임의의 채널에 대한 적어도 하나의 PU에 대해 충분히 크다.

리프 CU들은 또한 변환 유닛들(TUs)로 분할된다. TU들은 추가의 TU들로 분할될 수 있다(그들이 너무 클 때(예를 들면, 32x32 샘플들 이상)는, 반드시 추가의 TU들로 분할될 수 있어야 한다). TU들이 최대 트리 깊이로 분할되어 내려갈 수 있도록 한계가 적용되는데, 현재는 2 레벨로 구성되었고, 즉, 각각의 CU에 대해 16개 이하의 TU들이 존재할 수 있다. 나타낸 최소 허용가능한 TU 크기는 4x4 샘플들이고, 최대 허용가능한 TU 크기는 32x32 샘플들이다. 다시, 3개의 채널들은 가능하다면 언제나 동일한 TU 구조를 갖지만, TU가 크기 제한으로 인해 주어진 채널에 대해 특정 깊이까지 분할될 수 없으면, 그것은 보다 큰 크기로 남아있게 된다. 소위 비-정사각형 쿼드-트리 변환 구성(non-square quad-tree transform arrangement; NSQT)이 유사하지만, 4개의 TU들로 분할되는 방법은 2x2일 필요가 없고, 4x1 또는 1x4일 수 있다.

도 18a 및 도 18b로 넘어가서, 가능한 상이한 블록 크기들이 CU, PU, 및 TU 블록들에 대해 요약되어 있으며, 여기서, 'Y'는 루마 블록들을 의미하고, 'C'는 크로마 블록들 중 대표적인 것에 대한 일반적인 의미를 의미하고, 숫자들은 화소들을 의미한다. '인터'는 (인트라-프레임 예측 PU들과 반대로) 인터-프레임 예측 PU들을 의미한다. 많은 경우들에서, 단지 루마 블록들에 대한 블록 크기만이 나타나있다. 연관된 크로마 블록들의 대응하는 크기들은 채널비들에 대응하는 루마 블록 크기들에 관련된다.

따라서, 4:4:4에 대하여, 도 18a 및 도 18b에 나타낸 바와 같이, 크로마 채널들은 루마 블록들과 동일한 블록 크기들을 갖는다. 이에 따라, 크로마 PU 구조는 모든 분할 레벨들에서 루마 PU 구조를 반영한다(또는 각각 동일하다)(여기서, "분할 레벨"은 CU 크기 옵션들에 대한 선택 및 (하나의 CU 크기 옵션 내에서는) PU 크기 및 모양 옵션들에 대한 선택을 의미한다). 동일한 세트의 가능한 블록 크기들 및 모양들을 사용하는 것이 가능하지만, CU의 루마 및 크로마 구성요소에 대하여 (그 세트의) 상이한 것들이 선택되도록 허용되는데, 본 발명의 일부 실시예들에서는, CU에 대응하는 크로마 및 루마 구성요소들에 대하여 동일한 PU 블록 크기 및 모양이 선택된다. 따라서, 루마 CU에 대해 어떠한 PU 크기(들) 및 모양(들)이든 선택되고, 동일한 크기 및 모양의 PU(들)가(이) 그 CU의 크로마 구성요소들에 대해 선택된다. 아래에 논의된 바와 같이, PU들의 블록 크기들 및 모양들을 선택하는 것은 제어기(343)의 제어 하의 인코더 기반 결정이라는 것을 주의하자. 이러한 구성들에서, 휘도 및 크로미넌스 샘플들은 4:4:4 포맷에 있고, 각각이 휘도 및 크로미넌스 샘플들의 블록을 포함하는 복수의 코딩 유닛들로 구성되며; 예측 방향은 현재의 예측 유닛에 대하여 검출되고, 휘도 또는 크로미넌스 샘플들의 블록은 적어도 각각의 코딩 유닛의 서브세트를 나타낸다. 특정 코딩 유닛에 대하여, 각각이 그 코딩 유닛으로부터의 휘도 및 크로미넌스 샘플들을 포함하는 하나 이상의 예측 유닛들의 크기 및 모양은 (예를 들면, 제어기(343)에 의해) 예측 유닛 크기 및 모양의 선택이 휘도 샘플들 및 크로미넌스 샘플들과 동일하도록 만들어진다.

4:2:2 및 4:2:0에 대하여, 크로마 블록들 각각은 채널비에 따라 대응하는 루마 블록보다 적은 화소들을 갖는다.

도 18a 및 도 18b에 나타낸 구성들은 4개의 가능한 CU 크기들에 관한 것이다: 각각 64x64, 32x32, 16x16 및 8x8 루마 화소들. 이들 CU들 각각은 PU 옵션들(열(1140)에 나타냄) 및 TU 옵션들(열(1150)에 나타냄)의 대응하는 행을 갖는다. 앞서 정의된 가능한 CU 크기들에 대하여, 옵션들의 행들은 각각 1100, 1110, 1120, 및 1130으로 언급된다.

64x64가 현재 최대 CU 크기이지만, 이 제한은 변할 수 있다는 것을 주의하자.

각각의 행(1100, ..., 1130) 내에서, 상이한 PU 옵션들이 그 CU 크기들에 적용가능하다고 나타나있다. 그들의 PU 구성들에 적용가능한 TU 옵션들은 각각의 PU 옵션(들)에 수평으로 정렬되어 나타나있다.

일부 경우들에서, 다수의 PU 옵션들이 제공되는 것을 주의하자. 앞서 논의된 바와 같이, PU 구성을 선택할 때 장치의 목표는 상이한 예측 매개변수들이 상이한 실제 객체들에 적용될 수 있도록 사진의 실제 객체들의 경계를 (가능한 가깝게) 매칭시키는 것이다.

PU들의 블록 크기들 및 모양들은 제어기(343)의 제어 하의 인코더 기반 선택이다. 현재의 방법은 많은 방향들에 대한 많은 TU 트리 구조들의 시험들을 수행하고, 각각의 레벨에서 최고의 "비용"을 얻는 것을 포함한다. 여기서, 비용은 각각의 블록 구조로부터 발생되는 왜곡, 또는 잡음, 또는 오류들, 또는 비트 속도의 측정으로 표현될 수 있다. 따라서, 특정 요구된 품질 측정에 대해 최저 비트 속도를, 또는 요구된 비트속도에 대해 최저 왜곡(또는 오류들, 또는 잡음들, 또는 이들 측정들의 조합들)을, 또는 이들 측정들의 조합을 제공하는 하나의 시험을 선택하기 전에, 인코더는 앞서 설명된 트리 구조들 및 계층들 하에서 허용되는 것을 내에서 블록 사이즈 및 모양들에 대한 하나 이상의 (또는 심지어 가능한 모두) 치환들을 시도할 수 있다.

특정 PU 구성이 선택되면, 대응하는 TU들을 생성하기 위한 다양한 분할 레벨들이 적용될 수 있다. 행(1100)을 참조하여, 64x64 PU의 경우, 이 블록 크기는 TU로서 사용하기에 너무 크므로, 제 1 분할 레벨("레벨 0"(분할 없음)에서 "레벨 1"로)이 의무적이되고, 그 결과 4개의 32x32 루마 TU들의 어레이가 생성된다. 이들 각각은 트리 계층구조에서 요구된 대로 더욱 분할될 수 있는데("레벨 1"에서 "레베 2"로), 여기서, 분할은 그 TU을 변환 또는 양자화하기 전에 수행된다. TU 트리 내의 레벨들의 최대 수는 (예를 들면) HEVC 문서들에 의해 제한된다.

64x64 루마 화소 CU의 경우의 PU 크기들 및 모양들에 대한 다른 옵션들이 제공된다. 이들은 인터-코딩된 사진들과 함께 및 일부 경우들에는 소위 인코딩된 AMP 옵션들과 함께 사용하도록 제한된다. AMP은 비대칭 모션 분할(Asymmetric Motion partitioning)을 의미하고, PU들로 하여금 비대칭으로 분할하도록 허용한다.

유사하게, 일부 경우들에서, TU 크기들 및 모양들에 대한 옵션들이 제공된다. 비-정사각형 쿼드-트리 변환(non-square quad-tree transform; NSQT, 기본적으로 비-정사각형 TU를 허용함)이 인에이블링되면(enable), 레벨 1 및/또는 레벨 2로의 분할이 나타낸 바와 같이 수행될 수 있는 반면, NQST가 인에이블링되지 않으면, TU 크기들은 그 CU 크기들에 대한 각각의 최대 TU의 분할 패턴을 따른다.

다른 CU 크기들에 대한 유사한 옵션들이 제공된다.

도 18a 및 도 18b에 나타낸 그래픽 표현 이외에, 도 18a 및 도 18b에 나타낸 것은 확실하다고 고려되지만, 동일한 정보의 숫자 부분이 아래의 표에 제공된다. "n/a"는 허용되지 않는 모드를 표시한다. 수평 화소 크기가 처음으로 언급된다. 세번째 도면이 주어진다면, 그것은 (수평)x(수직)x(인스턴스들(instances)의 수) 블록들과 같이, 그 블록 크기의 인스턴스들의 수에 관련된다. N은 정수이다.

CU 크기	PU 옵션들	TU 옵션들
CU 크기	PU 옵션들	레벨 0	레벨 1	레벨 2
64x64	64x64	n/a	32x32x4	16x16x4
	64x32x2 (수평 구성) 64x16 + 64x48 (2개의 수평 구성들)	n/a	32x32x4	32x8x4
	32x64x2 (수직 구성) 16x64 + 48x64 (2개의 수직 구성들)	n/a	32x32x4	8x32x4
32x32	32x32	32x32	16x16x4	8x8x4
	32x16x2 (수평 구성) 32x8 + 32x24 (2개의 수평 구성들)	n/a	32x8x4	16x4x4 (루마) + 4x4x4 (크로마, 4:2:0 또는 4:2:2) 또는 8x4x4 (크로마, 4:2:2)
	16x32x2 (수직 구성) 8x32 + 24x32 (2개의 수직 구성들)	n/a	8x32x4	4x16x4 (루마) + 4x4x4 (크로마)
16x16	16x16	16x16	8x8x4	4x4x4 (루마) + 4x8x4 (크로마)
	16x8x2 (수평 구성) 16x4 + 16x12 (2개의 수평 구성들)	n/a	16x4x4 (루마) + 4x8x4 (크로마) (4:2:0 또는 4:2:2) 16x4x4 (루마) + 8x4x4 (크로마) (4:2:2)	4x4x4 (루마) + 4x8x1 (크로마) (4:2:0 또는 4:2:2) 4x4x4 (루마) + 8x4x1 (크로마) (4:2:2)
	8x16x2 (수직 구성) 4x16 + 12x16 (2개의 수직 구성들)	n/a
8x8	8x8 4x4x4 8x4x2 (수평 구성) 4x8x2 (수직 구성)	8x8	4x4x4 (루마) + 4x8x1 (크로마)	n/a
8x8	4x4x4 (루마) + 4xN (크로마)	n/a	4x4x4 (루마) + 4x8x1 (크로마)	n/a

4:2:0, 4:2:2, 및 4:4:4 블록 구조 이형들(variants)

4:2:0 및 4:4:4 방식들 모두가 인트라-예측 코딩에 대하여 정사각형 PU 블록들을 갖는다는 것이 인식된다. 게다가, 현재 4:2:0 방식은 4x4의 화소 PU 및 TU 블록들을 허용한다.

실시예들에서, 따라서, 4:4:4 방식에 대해서, CU 블록들에 대한 반복은 8x8 화소들보다는 오히려 4x4 화소들로 작아지는 것이 허용되는데, 이는 앞서 언급된 바와 같이 4:4:4 모드에서, 루마 및 크로마 블록들이 동일한 크기일 것이고(즉, 크로마 데이터는 서브샘플링되지 않음), 따라서, 4x4 CU에 대하여, 어떤 PU 또는 TU도 4x4 화소들의 이미 허용된 최소보다 작을 필요가 없기 때문이다. 따라서, 이것은, 특정 코딩 유닛에 대하여, 각각이 적어도 그 코딩 유닛의 서브세트로부터의 휘도 또는 크로미넌스 샘플들을 포함하는 하나 이상의 예측 유닛들의 크기 및 모양을 선택하는 것의 일례인데, 예측 유닛 크기 및 모양의 선택은 휘도 샘플들 및 크로미넌스 샘플들에 대해서 동일하다.

디코더 측에서의 (또는 인코더의 리버스 디코딩 경로 내에서의) 선택은 인코더의 순방향 인코딩 경로에서의 선택 모드를 나타내는 인코딩된 데이터와 연관된 데이터에 따른다. 또는, 선택은 인코더에서 결정이 내려진 것들과 동일한 요소들에 따를 수 있다.

유사하게, 4:4:4 방식에서, 일 실시예에서, 각각의 Y, Cr, Cb 채널들(또는 Y 및 2개의 Cr, Cb 채널들 함께)은 각각의 CU 트리-계층구조들을 가질 수 있다. 어떤 계층구조 또는 계층구조들의 구성이 사용되는지를 시그널링하기 위해 플래그(flag)가 사용될 수 있다. 이 접근법은 또한 4:4:4 RGB 색 공간 방식에 대하여 사용될 수 있다. 그러나, 일 대안에서, 크로마 및 루마에 대한 트리 계층구조들은 대신 개별적일 수 있다.

4:2:0 방식의 8x8 CU의 예에서, 이것은 4개의 4x4 루마 PU들 및 1개의 4x4 크로마 PU를 야기한다. 따라서, 2배의 크로마 데이터를 갖는 4:2:2 방식에서, 이 경우에 한 옵션은 2개의 4x4 크로마 PU들을 갖는 것인데, 여기서, (예를 들면) 하부 크로마 블록은 위치가 좌측 하부 루마 블록에 대응할 것이다. 그러나, 이 경우 1개의 비-정사각형 4x8 크로마 PU를 사용하는 것은 4:2:0 크로마 포맷에 대한 구성들과 더욱 일치할 것임이 인식된다.

4:2:0 방식에서, 원칙적으로 인트라-예측 코딩이 아닌 인터-예측 코딩의 특정 계급들에 대해 허용된 일부 비-정사각형 TU 블록들이 존재한다. 그러나, 인터-예측 코딩에서, 비-정사각형 쿼드-트리 변환(NSQT)이 디스에이블링되면(disabled)(4:2:0 방식에 대한 현재 디폴트임), 모든 TU들은 정사각형이다. 따라서, 사실상 4:2:0 방식은 현재 정사각형 TU들을 강요한다. 예를 들면, 16x16 4:2:0 루마 TU는 각각의 Cb 및 Cr 8x8 4:2:0 크로마 TU들에 대응한다.

그러나, 앞서 언급된 바와 같이, 4:2:2 방식은 비-정사각형 PU들을 가질 수 있다. 따라서, 일 실시예에서, 4:2:2 방식에 대하여 비-정사각형 TU들이 허용되도록 제안된다.

예를 들면, 16x16 4:2:2 루마 TU가 2개의 각각의 Cb 및 Cr 8x8 4:2:2 크로마 TU들에 대응하지만, 이 실시예에서, 그것은 대신 각각의 Cb 및 Cr 8x16 4:2:2 크로마 TU들에 대응할 수 있다.

유사하게, 4개의 4x4 4:2:2 루마 TU들은 2개의 각각의 4x4 Cb+Cr 4:2:2 TU들에 대응할 수 있거나, 이 실시예에서는, 대신 각각의 4x8 Cb 및 Cr 4:2:2 TU들에 대응할 수 있다.

비-정사각형 크로마 TU들을 따라서 보다 적은 TU들을 갖는 것은, 그들이 적은 정보를 포함할 가능성이 있으므로 보다 효율적일 수 있다. 그러나, 아래에 설명될 바와 같이, 이것은 이러한 TU들의 변환 및 스캔 처리들에 영향을 줄 수 있다.

마지막으로, 4:4:4 방식에 대하여, 시퀀스, 사진, 슬라이스, 또는 보다 양호한 레벨에서 독립적인 및 선택가능한 TU 구조 채널을 갖는 것이 바람직할 수 있다.

앞서 언급된 바와 같이, NSQT는 현재 HEVC의 4:2:0 방식에서 디스에이블링된다. 그러나, 인터-사진 예측에 대해서, NSQT가 인에이블링되고 비대칭 모션 분할(AMP)이 허용되면, 이것은 PU들로 하여금 비대칭으로 분할되도록 허용하고; 따라서, 예를 들면, 16x16 CU는 4x16 PU 및 12x16 PU를 가질 수 있다. 이들 상황에서, 4:2:0 및 4:2:2 방식들 각각에 대하여 블록 구조에 대해 추가로 고려하는 것이 중요하다.

4:2:0 방식에 대하여, NSQT에서, TU의 최소 폭/높이는 4 루마/크로마 샘플들로 제한될 수 있다:

따라서, 비-제한적인 예에서, 16x4/16x12 루마 PU는 4개의 16x4 루마 TU들 및 4개의 4x4 크로마 TU들을 갖는데, 여기서, 루마 TU들은 1x4 수직 블록 구성에 있고, 크로마 TU들은 2x2 블록 구성에 있다.

분할이 수평적이기보다는 수직적인 유사한 구성에서, 4x16/12x16 루마 PU 구조는 4개의 4x16 루마 TU들 및 4개의 4x4 크로마 TU들을 갖는데, 여기서, 루마 TU들은 4x1 수평 블록 구성에 있고, 크로마 TU들은 2x2 블록 구성에 있다.

4:2:2 방식에 대하여, NSQT에서 비-제한적인 예로서, 4x16/12x16 루마 PU 구조는 4개의 4x16 루마 TU들 및 4개의 4x8 크로마 TU들을 갖는데, 여기서, 루마 TU들은 4x1 수평 블록 구성에 있고; 크로마 TU들은 2x2 블록 구성에 있다.

그러나, 일부 경우들에 대해서는 상이한 구조가 고려될 수 있다는 것이 인식된다. 따라서, 일 실시예에서, NSQT에서 비-제한적인 예로서, 16x4/16x12 루마 PU 구조는 4개의 16x4 루마 TU들 및 4개의 8x4 크로마 TU들을 갖지만, 그러나 이제 루마 및 크로마 TU들은 1x4 수직 블록 구성에 있고, (2x2 블록 구성에서 4개의 4x8 크로마 TU들의 4:2:0 스타일 구성과 반대로) PU 레이아웃(layout)에 정렬된다.

마찬가지로. 32x8 PU는 4개의 16x4 루마 TU들 및 4개의 8x4 크로마 TU들을 가질 수 있지만, 이제 루마 및 크로마 TU들은 2x2 블록 구성에 있다.

따라서 보다 일반적으로, 4:2:2 방식에 대하여, NSQT에서, TU 블록 크기들은 비대칭 PU 블록 레이아웃에 정렬되도록 선택된다. 따라서, NSQT는 유용하게 TU 경계들로 하여금 PU 경계들에 정렬되도록 허용하여, 이는 다르게 발생할 수 있는 고주파수 아티펙트(artefact)들을 줄인다.

일반적으로, 본 발명의 실시예들은 4:2:2 포맷 비디오 신호의 이미지들에 대하여 동작가능한 비디오 코딩 방법, 장치, 또는 프로그램에 대한 것일 수 있다. 인코딩되는 이미지는 인코딩을 위해 코딩 유닛들, 예측 유닛들, 및 변환 유닛들로 나뉘는데, 여기서, 코딩 유닛은 휘도 샘플들 및 대응하는 크로미넌스 샘플들의 정사각형 어레이이고, 코딩 유닛에는 하나 이상의 예측 유닛들이 있고, 코딩 유닛에는 하나 이상의 변환 유닛들이 있고; 여기서, 예측 유닛은 단일 예측 유닛 내의 모든 샘플들이 통상의 예측 기술을 사용하여 예측되도록 하기 위한 예측에 대한 기본 유닛이고, 변환 유닛은 변환 및 양자화에 대한 기초 유닛이다.

비-정사각형 예측 유닛들을 허용하도록 (NSQT 모드와 같은) 비-정사각형 변환 모드가 인에이블링된다. 선택적으로, 단일 코딩 유닛에 대응하는 2개 이상의 예측 유닛들 간에 비대칭을 허용하도록 비대칭 모션 분할이 인에이블링된다.

예를 들면, TU 경계들을 PU에 대응하는 이미지의 부분 내의 이미지 특징들의 가장자리들에 정렬시키도록, PU에 대응하는 이미지의 부분 내의 이미지 특징들을 검출하고 그 PU에 대하여 TU 블록 크기들을 선택함으로써, 제어기(343)는 예측 유닛 블록 레이아웃에 정렬하도록 변환 유닛 블록 크기들의 선택을 제어한다.

앞서 설명된 규칙들은 어떤 블록 크기들의 조합들이 사용가능한지를 나타낸다. 인코더는 단지 상이한 조합들을 시도할 수 있다. 앞서 논의된 바와 같이, 시험은 2개 이상을, 모든 사용가능한 옵션들까지 포함할 수 있다. 시험적인 인코딩 처리들은 비용 함수 미터(metric) 및 비용 함수의 평가에 따라 선택된 결과에 따라 수행될 수 있다.

CU 크기 및 모양, PU 크기 및 모양, 및 TU 크기 및 모양에 따라 3개의 변화 레벨들이 존재하면, 이것은 다수의 치환들이 시험적으로-인코딩되도록 이끌 수 있다. 이 변화를 줄이기 위해, 시스템은 각각의 CU 크기에 대해 허용가능한 PU/TU 구성들 중 임의로 선택된 하나를 사용하고; 그 후, CU 크기를 선택함으로써 CU 크기에 대해 시험적인 인코딩을 할 수 있는데, PU 크기 및 모양은 각각이 단일의 임의로 선택된 TU 구성을 갖는 상이한 PU 옵션들을 시험적으로 인코딩함으로써 선택될 수 있다. 그 후, CU 및 PU를 선택하면, 시스템은 최종 TU 구성을 선택하기 위해 모든 적용가능한 TU 구성들을 시도할 수 있다.

또 다른 가능성은, 일부 인코더들이 블록 구성에 대한 고정된 선택을 사용할 수 있거나, 앞서 설명한 조합들의 제한된 서브세트를 허용할 수 있는 것이다.

인트라-예측

4:2:0 인트라-예측

이제 도 22로 넘어가서, 인트라-예측에 대하여, HEVC는 각진(angular) 크로마 예측을 허용한다.

서론으로서, 도 22는 루마 블록들에 적용가능한 35 예측 모드들을 나타내는데, 그중 33개는 현재 예측된 샘플 위치(110)에 대한 기준 샘플에 대한 방향들을 특정한다. 나머지 2개의 모드들은 모드 0(평편함) 및 모드 1(dc)이다.

HEVC는 크로마로 하여금 DC, 수직, 수평, 평편함, DM_CHROMA, 및 LM_CHROMA 모드들을 갖도록 허용한다.

DM_CHROMA는, 사용되는 예측 모드가 같은 장소에 위치된 루마 PU의 것(즉, 도 22에 나타낸 35 중 하나)과 동일하다는 것을 나타낸다.

LM_CHROMA (선형 모드 크로마)는 같은 장소에 위치된 (채널비들에 적절하게 다운샘플링된) 루마 샘플들이 예측된 크로마 샘플들을 도출하는데 사용된다는 것을 나타낸다. 이 경우, DM_CHROMA 예측 모드가 취해진 루마 PU가 DC, 수직, 수평, 또는 평편함을 선택하면, 크로마 예측 리스트 내의 그 엔트리는 모드 34를 사용하여 대체된다. LM_CHROMA 모드에서는, 크로마 화소들이 예측된 루마 화소들이 루마와 크로마 간의 선형 관계에 따라 스캐일링된다(및 적절하다면 오프셋이 적용된다). 이 선형 관계는 주변 화소들로부터 도출되고, 이 도출은 매 블록 마다에 기반으로 수행될 수 있는데, 여기서, 디코더는 하나의 블록을 디코딩하는 것을 다음으로 이동하기 전에 끝낸다.

본 발명의 실시예들에서, 이미지의 모든 영역들, 또는 각각의 이미지의 모든 영역들은 DM_CHROMA 모드와 같은 (예를 들면, 적어도 크로마넌스 샘플들에 대한) 동일한 예측 모드를 사용한다고 정의될 수 있다.

예측 모드들 2 - 34는 45도 내지 225도(즉, 정사각형 절반의 하나의 대각선)의 각진 범위를 샘플링한다는 것이 주의된다. 이것은 앞서 언급된 바와 같이 인트라-사진 예측에 대하여 단지 정사각형 크로마 PU들만을 사용하는 4:2:0 방식의 경우에 유용하다.

4:2:2 인트라-예측 이형들

그러나, 또한 앞서 주의된 바와 같이, 4:2:2 방식은 루마 PU들이 정사각형이더라도 직사각형 (비-정각형) 크로마 PU들을 가질 수 있다. 또는 실제로, 그 반대도 참일 수 있다: 직사각형 루마 PU는 정사각형 크로마 PU에 대응할 수 있다. 아 차이의 이유는, 4:2:2에서, 크로마가 (루마에 관련하여) 수직으로가 아니라 수평으로 서브샘플링되기 때문이다. 따라서, 루마 블록 및 대응하는 크로마 블록의 가로세로비는 상이할 것으로 기대될 것이다.

따라서, 일 실시예에서, 대응하는 루마 블록에 대해 상이한 가로세로비를 갖는 크로마 PU들에 대하여, 방향에 대한 매핑 표가 요구될 수 있다. (예를 들면) 직사각형 크로마 PU들에 대한 1-대-2 가로세로비를 가정하면, 예를 들면, (현재 135도의 각에 있는) 모드 18은 123도로 재매핑될 수 있다. 대안적으로, 현재의 모드 18의 선택은 현재의 모드 22의 선택으로 재매핑될 수 있고, 이들은 동일한 효과를 갖는다.

따라서 보다 일반적으로, 비-정사각형 PU들에 대하여, 기준 샘플의 방향과 선택된 인트라 예측 모드 간의 상이한 매핑이 정사각형 PU들에 대한 것에 비해 제공될 수 있다.

보다 일반적으로 여전히, 비-방향성 모드들을 포함하는 어떤 모드들도 경험적 증거에 기초하여 또한 재매핑될 수 있다.

이러한 매핑은 다-대-일 관계를 야기할 가능성이 있으며, 모드들의 풀세트의 명세가 4:2:2 크로마 PU들에 대해 남게 된다. 이 경우, 예를 들면, (각진 해상도의 절반에 대응하는) 단지 17 모드들만이 필요할 수 있다. 대안적으로 또는 추가로, 이들 모드들은 비-균일한 방식으로 각지게 분배될 수 있다.

유사하게, 샘플 위치에서 화소를 예측할 때 기준 샘플 상에서 사용되는 매끄럽게하는 필터가 상이하게 사용될 수 있는데, 4:2:0 방식에서, 그것은 크로마 화소들이 아닌 루마 화소들을 매끄럽게 하기 위해 사용될 수 있다. 그러나, 4:2:2 및 4:4:4 방식에서, 이 필터는 또한 크로마 PU들에 대해서도 사용될 수 있다. 4:2:2 방식에서, 다시 이 필터는 PU의 상이한 가로세로 비에 응답하여 변경될 수 있는데, 예를 들면, 단지 거의 수평인 모드들의 서브세트에 대해서만 사용된다. 모드의 예시적인 서브세트는 2-18 및 34가 바람하고, 7-14가 더욱 바람직하다. 4:2:2에서, 기준 샘플들의 좌측 열만을 매끄럽게하는 것이 실시예들에서 수행될 수 있다.

이들 구성들은 나중에 더욱 상세하게 설명된다.

4:4:4 인트라-예측 이종들

4:4:4 방식에서, 크로마 및 루마 PU들은 크기가 동일하므로, 크로마 PU에 대한 인트라-예측 모드는 같은 장소에 위치된 루마 PU와 동일하거나(따라서 별개의 모드를 인코딩할 필요가 없으므로 비트 스트림 내의 일부 오버헤드가 절약됨), 또는 대안적으로, 그것은 독립적으로 선택될 수 있다.

따라서 이 후자의 경우, 일 실시예에서, 시스템은 CU 내의 각각의 PU들에 대해 1, 2, 또는 3의 상이한 예측 모드들을 가질 수 있다;

제 1 예에서, Y, Cb 및 Cr PU들은 모두 동일한 인트라-예측 모드를 사용할 수 있다.

제 2 예에서, Y PU는 하나의 인트라-예측 모드를 사용할 수 있고, Cb 및 Cr PU들 둘 모두는 또 다른 독립적으로 선택된 인트라-예측 모드를 사용한다.

제 3 예에서, Y, Cb, 및 Cr PU들 각각은 각각의 독립적으로 선택된 인트라-예측 모드를 사용한다.

크로마 채널들(또는 각각의 크로마 채널)에 대해 개별적인 예측 모드들을 가지면 색 예측 정확도가 개선될 것임이 인식될 것이다. 그러나 이것은 인코딩된 데이터의 부분으로서 개별적인 예측 모드들을 전달하기 위한 추가 데이터 오버헤드를 필요로 한다.

이것을 완화시키기 위해, 모드들의 수를 선택하는 것이 (예를 들면, 시퀀스, 사진, 또는 슬라이스 레벨에서) 고-레벨 신택스(syntax)로 표시될 수 있다. 대안적으로, 개별적인 모드들의 수는 비디오 포맷으로부터 도출될 수 있는데; 예를 들면, GBR은 최대 3을 갖고, YCbCr은 최대 2로 제한될 수 있다.

모드들을 독립적으로 선택하는 것 이외에, 가능한 모드들은 4:4:4 방식에서 4:2:0 방식과 상이하도록 허용될 수 있다.

예를 들면, 루마 및 크로마 PU들이 4:4:4에서 크기가 동일하므로, 크로마 PU는 35 + LM_CHROMA + DM_CHROMA 방향들 모두에 액세스가 가능하다는 이익을 얻을 수 있다. 따라서, Y, Cb, 및 Cr 각각이 개별적인 예측 모드들을 갖는 경우에 대해서, Cr 채널이 DM_CHROMA_Y, DM_CHROMA_Cb, LM_CHROMA_Y 및 LM_CHROMA_Cb로의 액세스를 가질 수 있는 반면, Cb 채널은 DM_CHROMA 및 LM_CHROMA로의 액세스를 가질 수 있는데, 여기서, 이들은 루마 채널에 대한 기준들을 Y 또는 Cb 크로마 채널들에 대한 기준들로 대체시킨다.

가장 가능성이 있는 모드들의 리스트를 도출하고 그 리스트에 대한 색인을 송신함으로써 루마 예측 모드들이 시그널링되는 경우, 크로마 예측 모드(들)가(이) 개별적이면, 각각의 채널에 대한 가장 가능성이 있는 모드들의 개별적인 리스트들을 도출할 필요가 있을 수 있다.

마지막으로, 상기 4:2:2 경우에 대해 언급된 것과 유사한 방식으로, 4:4:4 방식에서, 샘플 위치에의 화소를 예측하는 것이 루마 PU들과 유사한 방식으로 크로마 PU들에 대해 사용될 수 있을 때, 매끄럽게하는 필터가 기준 샘플 상에서 사용된다. 현재, [1, 2, 1] 저역-통과 필터가 인트라-예측 이전에 기준 샘플들에 적용될 수 있다. 이것은 특정 예측 모드들을 사용할 때 루마 TU들에 대해서만 사용된다.

크로마 TU들에 대해 가능한 인트라-예측 모드들 중 하나는 같은 장소에 위치한 루마 샘플들에 대한 예측된 샘플들을 기초한다. 이러한 구성은 도 19에 개략적으로 나타나있는데, 도 19는 Cb, Cr, 및 Y 채널들 내의 작은 정사각형들에 의해 표현되는 (소스 이미지의 영역으로부터의) TU들(1200)들의 어레이를 나타내고, Cb 및 Y 채널들과 Cr 및 Y 채널들 내의 (어두운 및 약간 어두운 박스들(1200))에 의해 개략적으로 표시된) 이미지 특징들 간의 특정 정렬을 나타낸다. 이 예에서, 크로마 TU들로 하여금 같은 장소에 위치된 루마 샘플들 상의 그들의 예측된 샘플들에 기초하도록 하는 것에 이롭다. 그러나, 이미지 특징들이 항상 3개의 채널들 간에 대응하지는 않다. 사실, 어떤 특징들은 채널들 중 단지 하나 또는 둘에서만 나타날 수 있고, 일반적으로 3개의 채널들의 이미지 콘텐트는 상이할 수 있다.

실시예들에서, Cr TU들에 대해서, LM_Chroma는 선택적으로 Cb 채널로부터의 같은 장소에 위치된 샘플들 상에 기초할 수 있다(또는, 다른 실시예들에서는, 상관성이 반대일 수 있다). 이러한 구성이 도 20에 개략적인 형태로 나타나있다. 여기서, 공간적으로 정렬된 TU들이 Cr, Cb, 및 Y 채널들 사이에 나타나있다. "소스"라고 레이블링된 추가 TU들의 세트는 전체적으로 보여지는 색 사진의 개략적 표현이다. 소스 이미지 내에 보여지는 이미지 특징들(좌측 상부의 삼각형 및 우측 하부의 삼각형)은 사실 크로미넌스 변화들을 표현하지 않고 2개의 삼각형 영역들 간의 휘도 변화들만을 표현한다. 이 경우에, 휘도 샘플들 상의 Cr에 대한 LM_Chroma에 기초하면 예측이 열악해지지만, Cb 샘플들 상의 그것에 기초하면 예측이 양호해진다.

어떤 LM_Chroma 모드가 사용될지에 대한 결정은 (같은 장소에 위치한 로마 또는 같은 장소에 위치한 크로마 샘플들 상의 LM_Chroma에 기초하는 옵션을 포함하는) 상이한 옵션들의 시험적인 인코딩에 기초하여 제어기(343) 및/또는 모드 제어기(520)에 의해 내려질 수 있고, 어떤 모드를 선택할지에 대한 결정은 상이한 시험적인 인코딩들에 관련하여, 앞서 설명된 바와 유사하게, 비용 함수를 평가함으로써 내려진다. 비용 함수의 예들은 잡음, 왜곡, 오류 비율, 또는 비트 속도이다. 시험적인 인코딩이 수행된 것들 중에서 이들 하나 이사의 비용 함수들 중 최저를 제공하는 모드가 선택된다.

도 21은 실시예들에서 인트라-예측을 위한 기준 샘플들을 얻기 위해 사용되는 방법을 개략적으로 나타낸다. 도 21을 보면, 인코딩은 스캐닝 패턴에 따라 수행되므로, 일반적으로, 인코딩되는 현재 블록의 위쪽 및 좌측의 블록들의 인코딩된 버전들이 인코딩 처리가 가능하다는 것이 인식되야 한다. 때때로 좌측-아래 또는 우측-위쪽 샘플들이 현재의 LCU 내의 다른 이미-인코딩된 TU들의 부분으로서 이전에 코딩되었다면, 그들이 사용된다. 예를 들면, 앞서 설명된 도 13을 참조하자.

어두운 영역(1210)은 현재의 TU, 즉, 현재 인코딩되고 있는 TU를 표현한다.

4:2:0 및 4:2:2에서, 현재의 TU의 바로 좌측의 화소들의 열은 수평 하부 샘플링 때문에 같은 장소에 위치된 휘도 및 크로미넌스 샘플들을 포함하지 않는다. 즉, 이것은 4:2:0 및 4:2:2 포맷은 (수평 방향에서) 휘도 화소들의 절반만큼의 크로미넌스 화소들을 갖고, 따라서, 모든 휘도 샘플 위치들이 같은 장소에 위치된 크로미넌스 샘플을 갖지는 않기 때문이다. 따라서, 휘도 샘플들이 TU의 바로 좌측의 화소들의 열에 존재할 수 있지만, 크로미넌스 샘플들은 존재하지 않는다. 따라서, 일부 실시예들에서, 현재의 TU의 좌측에 2개의 샘플들에 위치한 열이 LM_Chroma에 대한 기준 샘플들을 제공하는데 사용된다. 그 상황은 4:4:4에서는 상이한데, 즉, 현재의 TU의 바로 좌측의 열은 실제로 같은 장소에 위치된 루마 및 크로마 샘플들을 포함한다는 것을 주의하자. 따라서, 이 열은 기준 샘플들을 제공하는데 사용될 수 있다.

기준 샘플들은 다음과 같이 사용된다.

LM_Chroma 모드에서, 예측된 크로마 샘플들은 선형 관계에 따라 재구성된 루마 샘플들로부터 도출된다. 따라서, 일반적으로, TU 내의 예측된 크로미넌스 값들은 다음에 의해 주어진다고 말해질 수 있는데:

P_C = a + bP_L

여기서, P_C는 크로미넌스 샘플 값이고, P_L은 그 샘플 위치에의 재구성된 휘도 샘플 값이고, a 및 b는 정수들이다. 그 정수는, 특정 블록에 대하여, 그 블록 바로 위의 행 및 그 블록 바로 좌측의 열 내의 재구성된 루마 샘플들 및 크로마 샘플들 간의 관계를 검출함으로써 도출될 수 있는데, 이들은 이미 인코딩된 샘플 위치이다(앞의 설명 참조).

일부 실시예들에서, 정수 a 및 b는 다음과 같이 도출되는데:

a = R(P_L', P_C')/R(P_L', P_L')

여기서, R은 선형 (적어도 정사각형) 회귀 함수를 나타내고, P_L' 및 P_C'는 앞서 설명한 바와 같이 각각 인접한 행 및 열로부터의 휘도 및 크로미넌스 샘플들이고,

b = mean (P_C') - a. mean (P_L') 이다.

4:4:4에 대해서, P_L' 및 P_C' 값들은 현재의 TU의 바로 좌측의 열 및 현재의 TU의 바로 위의 행으로부터 취해진다. 4:2:2에 대해서, P_L' 및 P_C' 값들은 현재의 TU 바로 위의 행 및 2개의 샘플 위치들이 현재의 TU의 좌측 모서리로부터 멀리 떨어져 있는 인접한 블록 내의 열로부터 취해진다. (수직으로 및 수평으로 서브샘플링되는) 4:2:0에 대해서, P_L' 및 P_C' 값들은 현재의 TU 위의 2개의 행들인 행으로부터 취해지는 것이 이상적이지만, 사실 현재의 TU 위의 1개의 샘플 위치인 인접한 블록 내의 행 및 현재의 TU의 좌측 모서리로부터 멀리 떨어진 2개의 샘플 위치들인 인접한 블록 내의 열로부터 취해진다. 그 이유는 메모리 내의 추가적인 전체 행의 데이터를 유지해야하는 것을 피하기 위해서이다. 따라서, 이에 관련하여, 4:2:2 및 4:2:0은 유사한 방식으로 처리된다.

이에 따라, 이들 기술들은, 이미지의 영역을 표현하는 크로미넌스 샘플들의 현재의 블록이 이미지의 동일한 영역을 표현하는 (재구성된 휘도 샘플들과 같은) 휘도 샘플들의 같은 위치에 있는 블록에 관련하여 크로미넌스 샘플들의 관계를 도출 및 인코딩함으로써 인코딩되는, 크로미넌스 예측 모드를 갖는 비디오 코딩 방법들에 적용된다. (선형 관계와 같은) 관계는 인접한 이미-인코딩된 블록들로부터의 같은 위치에 있는 (이와 달리 대응하게-위치된으로 표현되는) 휘도 및 크로미넌스 샘플들을 비교함으로써 도출된다. 크로미넌스 샘플들은 그 관계에 따라 휘도 샘플들로부터 도출되고; 예측된 크로미넌스 샘플들과 실제 크로미넌스 샘플들 간의 차이는 잔상 데이터로서 인코딩된다.

크로미넌스 샘플들이 휘도 샘플들과 동일한 샘플링 비율을 갖는 (4:4:4와 같은) 제 1 샘플링 해상도에 관련하여, 같은 곳에 위치한 샘플들은 현재의 블록에 인접한 샘플 위치들 내의 샘플들이다.

크로미넌스 샘플들이 휘도 샘플들보다 낮은 샘플링 비율을 갖는 (4:2:2 또는 4:2:0와 같은) 제 2 샘플링 해상도에 관련하여, 인접한 이미-인코딩된 블록으로부터 같은 곳에 위치한 휘도 및 크로미넌스 샘플들의 가장 가까운 열 또는 행은 같은 곳에 위치한 샘플들을 제공하는데 사용된다. 또는, 제 2 샘플링 해상도가 4:2:0 샘플링 해상도인 경우, 대응하게-위치된 샘플들은 현재 블록에 인접한 샘플들의 행 및 인접한 이미-인코딩된 블록들로부터의 대응하게-위치된 휘도 및 크로미넌스 샘플들의 열 또는 행이다.

도 22는 루마 샘플들에 대한 가능한 예측 각들을 개략적으로 나타낸다. 현재의 화소는 화소(1220) 처럼 도면의 중앙에 나타나있는 것처럼 예측된다. 보다 작은 점들(1230)은 인접한 화소들을 나타낸다. 현재의 화소의 상부 또는 좌측에 위치된 것들은 예측을 생성하기 위한 기준 샘플들로서 가능한데, 이는 그들이 이미 인코딩됐기 때문이다. 다른 화소들은 (화소(1220)을 예측하는 시점에) 현재 알려져 있지 않으며, 적절한 때에 그들은 예측될 것이다.

각각의 번호가 매겨진 예측 방향은 현재의 예측되는 화소를 생성하기 위해 사용되는 현재 블록의 상부 또는 좌측 모서리들 상의 기준 샘플들(1230)을 가리킨다. 예측 방향들이 기준 샘플들 간의 위치들을 가리키는 보다 작은 블록들의 경우, 인접한 기준 샘플들 간에 선형 보간이 사용된다.

이제 크로마 샘플들에 대한 인트라-각진 예측으로 넘어가서, 4:2:0에 대하여, 크로마 샘플들이 상대적으로 부족하기 때문에, 보다 적은 예측 방향들이 가능하다. 그러나, DM_CHROMA 모드가 선택되면, 현재의 크로마 블록은 같은 장소에 위치된 루마 블록과 동일한 예측 방향을 사용할 것이다. 결국, 이것은 인트라-예측에 대한 루마 방향들이 또한 크로마에 대해 가능하다는 것을 의미한다.

그러나, 4:2:2 내의 크로마 샘플들에 대하여, 크로마 블록들이 이제 루마 블록들의 것과 상이한 가로세로 비를 가지면, DM_CHROMA가 선택될 때, 루마와 동일한 예측 알고리즘 및 방향을 사용하는 것은 직관에 반한다고(counter-intuitive) 고려될 수 있다. 예를 들면, 샘플들의 정사각형 루마 어레이에 대한 45° 직선은, 비록 직사각형 크기의 샘플들의 어레이라도, 크로마 샘플들에 대한 45° 직선으로 여전히 매핑되야 한다. 직사각형 그리드의 정사각형 그리드 상으로의 중첩(overlaying)은 45° 직선이 사실 26.6° 직선으로 매핑된다는 것을 나타낸다.

도 23은 예측되는 현재 화소(1220)에 관련된, 4:2:2에서 크로마 화소들에 적용되는 루마 인트라-예측 방향들을 개략적으로 나타낸다. 수직으로 보다 수평으로 절반의 화소들이 존재하는데, 이는 4:2:2는 크로마 채널에서의 수평 샘플링 비율이 루마 채널에 비해 절반이기 때문이다.

도 24는 4:2:2 크로마 화소들을 정사각형 그리드에 변환 또는 매핑하는 것을, 그 후 어떻게 이 변환이 예측 방향들을 변화시키는지를 개략적으로 나타낸다.

루마 예측 방향들은 파선들(1240)로 나타나있다. 크로마 화소들(1250)은 정사학형 그리드로 재매핑되어, (도 22에 나타낸 것과 같은) 대응하는 루마 어레이의 폭의 절반(1260)의 직사각형 어레이를 제공한다. 도 23에 도시된 예측 방향들은 직사각형 어레이로 재매핑된다. 일부 방향들의 쌍들에 대하여(쌍은 루마 방향과 크로마 방향임), 오버랩(overlap) 또는 폐쇄(close) 관계가 존재한다고 보여질 수 있다. 예를 들면, 루마 어레이의 방향 2는 실질적으로 크로마 어레이의 방향 6과 중첩한다. 그러나, 일부 루마 방향들, 대략 루마 방향들의 절반은 대응하는 크로마 방향이 없다는 것이 또한 주의될 것이다. 일례가 번호 3의 루마 방향이다. 또한, 일부 크로마 방향들(2-5)은 루마 어레이에 등가물이 없고, 일부 루마 방향들(31-34)은 크로마 어레이에 등가물이 없다. 그러나, 일반적으로, 도 24에 나타낸 바와 같이 겹쳐 놓는 것은 루마 및 크로마 채널들 모두에 대해 동일한 각을 사용하는 것이 부적절하다는 것을 나타낸다.

따라서, (a) DM_CHROMA가 선택되고 (b) 현재 사용중인 DM_CHROMA 모드가 크로마 예측 방향이 같은 장소에 위치된 루마 블록의 것이어야 한다는 것을 나타낼 때 크로마에 대한 적절한 예측 각을 도출하기 위해, 다음의 절차가 적용된다:

(i) 통상의 HEVC 규칙들에 따라 루마 방향에 따라서 인트라-예측 각도 스탭(step) 및 그것의 역을 도출한다.

(ii) 루마 방향이 대부분 수직이면(즉, 예를 들면, 번호 18 내지 34의 모드를 포함), 인트라-예측 각도 스탭은 절반이 되고, 그것의 역은 배가된다.

(iii) 이와 달리, 루마 방향이 대부분 수평이면(즉, 예를 들면, 번호 2 내지 17의 모드를 포함), 인트라-예측 각도 스탭은 배가되고 그것의 역은 절반이 된다.

따라서, 이들 실시예들은 휘도 및 크로미넌스 샘플들이 예측되는 샘플에 연관된 예측 방향에 따라 다른 각각의 기준 샘플들로부터 예측되는 비디오 코딩 또는 디코딩 방법들, 장치, 또는 프로그램들에 관련된다. 4:2:2와 같은 모드들에서, 크로미넌스 샘플들은 휘도 샘플들보다 낮은 수평 및/또는 수직 샘플링 비율을 가지므로, 크로미넌스 수평 해상도에 대한 휘도 수평 해상도의 비는 크로미넌스 수직 해상도에 대한 휘도 수직 해상도의 비와 상이하다. 간단히, 이것은 휘도 샘플들의 블록이 크로미넌스 샘플들의 대응하는 블록에 대해 상이한 가로세로 비를 갖는다는 것을 의미한다.

예를 들면, 인트라 프레임 예측기(530)는 예측되는 현재 샘플들의 세트에 대한 제 1 가로세로 비의 그리드에 대하여 정의된 제 1 예측 방향을 검출하고; 그 예측 방향에 방향 매핑을 적용하여, 예측되는 현재 샘플들의 동일한 세트의 상이한 가로세로 비의 샘플들의 그리드에 대하여 정의된 제 2 예측 방향을 생성하도록 동작한다.

실시예들에서, 제 1 예측 방향은 휘도 또는 크로미넌스 샘플들 중 하나에 관련하여 정의되고, 제 2 예측 방향은 휘도 또는 크로미넌스 샘플들 중 다른 하나에 관련하여 정의된다. 본 발명에 설명된 특정 예들에서, 휘도 예측 방향은 크로미넌스 예측 방향을 제공하도록 변경될 수 있다. 그러나 그 반대도 사용될 수 있다.

이 기술은 인트라-예측에 특히 적용가능하므로, 기준 샘플들은 샘플들이 예측되는 동일한 각각의 이미지의 샘플들이다.

적어도 일부 구성들에서, 제 1 예측 방향은 현재의 휘도 샘플을 포함하는 휘도 샘플들의 정사각형 블록에 대하여 정의되고; 제 2 예측 방향은 현재의 크로미넌스 샘플을 포함하는 크로미넌스 샘플들의 직사각형 블록에 대하여 정의된다.

2개의 크로미넌스 구성요소들에 대해 개별적인 예측 모드들을 제공하는 것이 가능하다. 이러한 구성에서, 크로미넌스 샘플들은 제 1 및 제 2 크로미넌스 구성요소들의 샘플들을 포함하고, 이 기술은 (Cb와 같은) 제 1 크로미넌스 구성요소에 대하여 앞서 설명된 단계인 방향 매핑을 적용하고; (Cr과 같은) 제 2 크로미넌스 구성요소에 대하여 상이한 예측 모드를 적용하는 것을 포함한다.

예를 들면, 비디오 데이터는 4:2:2 포맷 또는 4:4:4 포맷에 있을 수 있다.

일반적으로, 본 발명의 실시예들은 크로미넌스 구성요소들에 대해 개별적인 예측 모드들을 제공할 수 있다(예를 들면, 휘도 및 크로미넌스 구성요소들 각각에 대해 독립적으로). 이들 실시예들은 이미지의 휘도 및 크로미넌스 샘플들이 예측되는 샘플에 연관된 예측 방향에 따라 동일한 이미지의 다른 각각의 기준 샘플들로부터 예측되는 비디오 코딩 방법들에 관한 것이며, 여기서, 크로미넌스 샘플들은 휘도 샘플들보다 낮은 수평 및/또는 수직 샘플링 비율을 가지므로, 크로미넌스 수평 해상도에 대한 휘도 수평 해상도의 비는 크로미넌스 수직 해상도에 대한 휘도 수직 해상도의 비와 상이하고, 따라서, 휘도 샘플들의 블록은 크로미넌스 샘플들의 대응하는 블록에 대해 상이한 가로세로 비를 갖고, 크로미넌스 샘플들은 제 1 및 제 2 크로미넌스 구성요소들을 나타낸다.

인트라 프레임 모드 선택기(520)는 (Cb와 같은) 제 1 크로미넌스 구성요소의 현재의 크로미넌스 샘플을 예측하기 위한 하나 이상의 기준 샘플들의 선택을 정의하는 예측 모드를 선택한다. 그것은 또한 제 1 크로미넌스 구성요소의 현재의 크로미넌스 샘플과 같은 곳에 위치한, (Cr과 같은) 제 2 크로미넌스 구성요소의 현재의 크로미넌스 샘플을 예측하기 위한 하나 이상의 기준 샘플들의 상이한 선택을 정의하는 상이한 예측 모드를 선택한다.

기준 샘플 필터는 선택적으로, 예를 들면, 필터 구성으로서 동작하는 예측기(530, 540) 및/또는 프레임 저장소(570)의 동작의 부분으로서 수평 샘플들 또는 수직 샘플들(또는 둘 모두)에 적용될 수 있다. 필터는 좌측 하부 및 우측 상부를 제외한 모든 루마 기준 샘플들에 현재 적용된 3-탭(tap) "1 2 1" 필터일 수 있다(NxN 블록의 샘플들은 크기 2N+1의 단일 1D 어레이를 형성하기 위해 함께 모아지고, 그 후 선택적으로 필터링된다). 이 기술의 실시예들에서, 그것은 4:2:2에 대해서는 단지 제 1 (좌측 모서리) 또는 마지막 (상부 모서리) N+1 크로마 샘플들에만 적용되고(그러나, 좌측 하부, 우측 상부, 및 좌측 상부는 그 후 조정되지 않을 것임); 또한 4:2:2 및 4:4:4에 대해서는 (루마에 대한) 모든 크로마 샘플들에 적용된다.

실시예들은 또한 휘도와 제 1 및 제 2 크로미넌스 구성요소 샘플들이 예측될 샘플과 연관된 예측 방향에 따라 다른 각각의 기준 샘플들로부터 예측되는 비디오 코딩 또는 디코딩 방법들, 장치, 또는 프로그램들을 제공할 수 있고, 제 1 크로미넌스 구성요소의 샘플로부터 제 2 크로미넌스 구성요소의 샘플들을 예측하는 것을 포함한다.

실시예들은 또한 휘도와 제 1 및 제 2 크로미넌스 구성요소 샘플들이 예측될 샘플과 연관된 예측 방향에 따라 다른 각각의 기준 샘플들로부터 예측되는 비디오 코딩 또는 디코딩 방법들, 장치, 또는 프로그램들을 제공할 수 있고, 기준 샘플들을 필터링하는 것을 포함한다.

도 19 및 도 20을 참조하여 논의된 바와 같이, 상이한 예측 모드는 제 2 크로미넌스 구성요소의 샘플들이 제 1 크로미넌스 구성요소의 샘플들로부터 예측되는 모드를 포함하는 것이 가능하다.

모드들 0 및 1은 각진 예측 모드들이 아니므로 이 절차에 포함되지 않는다는 것을 주의하자. 앞서 나타낸 절차의 효과는 도 24에서처럼 크로마 예측 방향들을 루마 예측 방향들로 매핑하는 것이다.

4:2:0에 대해서, 완전 수평 예측 모드(루마 모드(10)) 또는 완전 수직 예측 모드(루마 모드(26))가 선택되면, 예측되는 TU의 상부 또는 좌측 모서리들은 단지 루마 채널에 대해 필터링된다. 수평 예측 모드에 대하여, 상부 행은 수직 방향으로 필터링된다. 수직 예측 모드에 대하여, 좌측 열은 수평 방향으로 필터링된다.

수평 방향으로 샘플들의 열을 필터링하는 것은 결국 샘플들의 열의 각각의 샘플에 수직 방향 필터를 적용하는 것으로 이해될 수 있다. 따라서, 별개의 샘플에 대하여, 그것의 값은, 그 샘플의 현재 값 및 그 샘플로부터 수평 방향으로 옮겨진 샘플 위치들에의 하나 이상의 다른 샘플들(즉, 해당 샘플의 좌측 및/또는 우측의 하나 이상의 다른 샘플들)의 현재 값으로부터 생성된 필터링된 값에 기초하여, 필터의 동작에 의해 변경될 것이다.

수직 방향으로 샘플들의 행을 필터링하는 것은 결국 샘플들의 행의 각각의 샘플에 수평 방향 필터를 적용하는 것으로 이해될 수 있다. 따라서, 별개의 샘플들에 대하여, 그것의 값은, 그 샘플의 현재 값 및 그 샘플로부터 수직 방향으로 옮겨진 샘플 위치들에의 하나 이상의 다른 샘플들(즉, 해당 샘플의 위 및/또는 아래의 하나 이상의 다른 샘플들)의 현재 값으로부터 생성된 필터링된 값에 기초하여, 필터의 동작에 의해 변경될 것이다.

앞서 설명된 모서리 화소 필터링 처리의 하나의 목적은 예측에서 블록 기반 모서리 영향을 줄이고, 이에 따라, 잔상 데이터 내의 에너지를 줄이기 위한 것이다.

실시예들에서, 대응한 필터링 처리가 4:4:4 및 4:2:2에서 크로마 TU들에 대해 적용된다. 수평 서브샘플링을 고려하면, 4:2:2에서는 크로마 TU의 상부 행만을 필터링하지만, 4:4:4에서는 (선택된 모드에 따라 적절하게) 상부 행 및 좌측 열들 모두를 필터링하는 것이 제안된다. (필터링 아웃되면) 잔상 데이터의 에너지를 증가시키는, 유용한 세부사항을 너무 많이 필터링하는 것을 피하기 위해 이들 영역들만을 필터링하는 것이 적절하다고 고려된다.

4:2:0에 대해서, DC 모드가 선택되면, 예측된 TU의 상부 및/또는 좌측 모서리리들 중 하나 또는 둘 모두는 루마 채널에 대해서만 필터링된다. 여기서, 이것은 휘도 샘플들은 휘도 구성요소를 나타내고 각각의 크로미넌스 샘플들은 2개의 크로미넌스 구성요소들을 나타내는 경우의 일례인데, 여기서, 필터링 단계는 3개의 구성요소들의 서브세트에 적용되고, 이 서브세트는 3개의 구성요소들 중 하나 또는 둘이다. 서브세트는 휘도 구성요소로 이루어질 수 있다. 필터링은 샘플들의 예측된 블록 내의 샘플들의 좌측 열 및 샘플들의 예측된 블록 내의 샘플들의 상부 행 중 하나 또는 둘 모두를 필터링하는 것을 포함할 수 있다.

필터링은 DC 모드 내에서의 것일 수 있고, 필터는 두 모서리들 모두 상의 모든 샘플들에 대해 (1 x 이웃하는 외부 샘플 + 3 * 모서리 샘플)/4 평균화 동작을 적용한다. 그러나, 상부 좌측에 대해서, 필터 함수는 (2 x 현재 샘플 + 1 x 위쪽 샘플 + 1 x 좌측 샘플)/4이다. 이것은 예측된 샘플이 주변 샘플들에 대한 간단한 수학적 평균으로서 생성되는 DC 모드에서의 동작의 일례이고, 여기서, 필터링 단계는 샘플들의 예측된 블록 내의 샘플들의 좌측 열을 필터링하는 것 및 샘플들의 예측된 블록 내의 샘플들의 상부 행을 필터링하는 것을 포함한다.

H/V 필터는 이웃하는 외부 샘플과 모서리 샘플 간의 평균이다.

일부 실시예들에서, 이 필터링 절차는 또한 4:4:4 및 4:2:2에서 크로마 TU들에 대해 제공된다. 다시, 수평 서브샘플링을 고려하면, 일부 실시예들에서, 4:2:2에 대해서는 단지 크로마 샘플들의 상부 행만이 필터링되고, 4:4:4에 대해서는 크로마 TU의 상부 행 및 좌측 열이 필터링된다.

따라서, 이 기술은 (예를 들면) 4:4:4 포맷 또는 4:2:2 포맷 내의 휘도 및 크로미넌스 샘플들이 예측될 샘플들의 블록들에 연관된 예측 방향에 따라 다른 각각의 샘플들로부터 예측되는 비디오 코딩 또는 디코딩 방법, 장치, 또는 프로그램에 대하여 적용될 수 있다.

이 기술의 실시예들에서, 예측 방향은 예측되는 현재 블록에 관련하여 검출된다. 크로미넌스 샘플들의 예측된 블록은 예측 방향에 의해 정의된 다른 크로미넌스 샘플들에 따라 생성된다. 검출된 예측 방향이 대부분 수직이면(예를 들면, 정확히 수직인 모드의 +/-n 각도 모드들 내에 있고, 여기서 n은 (예를 들면) 2임), 샘플들의 좌측 열은 크로미넌스 샘플들의 예측된 블록 내에서 (예를 들면, 수평 방향 필터를 사용하여 수평 방향으로) 필터링된다. 또는, 검출된 예측 방향이 대부분 수평이면(예를 들면, 정확히 수평인 모드의 +/-n 각도 모드들 내에 있고, 여기서 n은 (예를 들면) 2임), 샘플들의 상부 행은 크로미넌스 샘플들의 예측된 블록 내에서 (예를 들면, 수직 방향 필터를 사용하여 수직 방향으로) 필터링된다. 각각의 경우에, 동작은 각각 좌측 열 또는 상부 행에 대해서만 적용될 수 있다. 그 후 필터링된 예측된 크로미넌스 블록과 실제 크로미넌스 블록 간의 차이는 예를 들면 잔상 데이터로서 인코딩된다. 대안적으로, 테스트는 대부분 수직 또는 수평 모드라기 보다는 오히려 정확히 수직 또는 수평 모드에 대한 것일 수 있다. +/- n의 허용오차가 테스트들(수직 또는 수평) 중 하나에 적용될 수 있지만, 다른 것에는 적용되지 않는다. 본 발명의 실시예들에서, 예측된 블록의 좌측 열 또는 상부 행만이 필터링될 수 있고, 필터링은 각각 수평 방향 필터 또는 수직 방향 필터에 의해 수행될 수 있다.

필터링은 이에 관련하여 필터로서 동작하는 각각의 예측기(520, 530)에 의해 수행될 수 있다.

필터링 처리 이후, 이 기술의 실시예들은 (인코더에서) 필터링된 예측된 크로미넌스 블록과 실제 크로미넌스 블록 간의 차이를 인코딩하거나 (디코더에서) 블록을 디코딩하기 위해 디코딩된 차이를 필터링된 예측된 크로미넌스 블록에 적용한다.

인터-예측

HEVC에서의 인터 예측은 이미 직사각형 PU들을 허용하므로, 4:2:2 및 4:4:4 모드들은 이미 PU 인터-예측 처리와 비교가능하다는 것이 주의된다.

비디오 이미지의 각각의 프레임은 실제 장면의 개별적인 샘플링이고, 그 결과, 각각의 화소는 색 및 밝기의 실세계 변화도(real-world gradient)의 순차적 근사치이다.

이를 인식하여, 이전 비디오 프레임 내의 값으로부터 새로운 비디오 프레임 내의 화소의 Y, Cb, 또는 Cr 값을 예측할 때, 그 이전 비디오 프레임 내의 화소들은 오리지널 실세계 변화도를 양호하게 추정하고 새로운 화소에 대한 보다 정확한 밝기 또는 색 선택을 허용하도록 보간된다. 따라서, 비디오 프레임들 사이를 가리키는데 사용되는 모션 벡터들은 정수 화소 해상도에 제한되지 않는다. 오히려, 그들은 보간된 이미지 내의 하부-화소 위치를 가리킬 수 있다.

4:2:0 인터-예측

이제 도 25 및 도 26을 참조하여, 4:2:0 방식에서는 앞서 언급된 바와 같이, 전형적으로 8x8 루마 PU(1300) Cb 및 Cr 4x4 루마 PU들(1310)과 연관될 것이다. 따라서, 루마 및 크로마 화소 데이터를 동일한 효과 해상도까지 보간하기 위해, 상이한 보간 필터들이 사용된다.

예를 들면, 8x8 4:2:0 루마 PU에 대해서, 보간은 1/4 화소이고, 따라서, 8-탭 x4 필터가 첫번째로 수평으로 적용되고, 그 후 동일한 8-탭 x4 필터가 수직으로 적용되어, 루마 PU가 도 25에 나타낸 바와 같이 보간된 어레이(1320)를 형성하도록 효과적으로 각 방향으로 4배 길어진다. 한편, 대응하는 4x4 4:2:0 크로마 PU는 동일한 최종 해상도를 생성하도록 보간된 1/8 화소이고, 4-탭 x8 필터가 처음으로 수평으로 적용된 후, 동일한 4-탭 x8 필터가 수직으로 적용되어, 4:2:0 크로마 PU들이 도 26에 나타낸 바와 같이 어레이(1330)를 형성하도록 효과적으로 각 방향으로 8배 길어진다.

4:2:2 인터-예측

4:2:2에 대한 유사한 구성이 루마 PU(1350) 및 한쌍의 대응하는 크로마 PU들(1360)을 나타내는 도 27 및 도 28을 참조하여 이제 설명될 것이다.

도 28을 참조하여, 앞서 언급된 바와 같이, 4:2:2 방식에서, 크로마 PU(1360)는 비-정사각형일 수 있고, 8x8 4:2:2 루마 PU의 경우에 대하여, 전형적으로 Cb 및 Cr 채널들 각각에 대한 폭 4 x 높이 8의 4:2:2 크로마 PU일 것이다. 크로마 PU가 도 28의 목적을 위해 비-정사각형 화소들의 정사각형 모양의 어레이로서 나타나있다는 것이 주의되지만, 일반적으로 PU들(1360)은 4 (수평) x 8 (수직) 화소 어레이들임이 주의된다.

따라서 크로마 PU 상에서 수직으로 기존 8-탭 x4 루마 필터를 사용하는 것이 가능할 수 있지만, 본 발명의 일 실시예에서는, 수직 보간을 위해 기존 4-탭 x8 크로마 필터가 충분하다는 것이 인식되는데, 이는 실제로 하나의 필터가 보간된 크로마 PU의 아주 작은 단편(fractional) 위치들에만 관심이 있기 때문이다.

따라서, 도 27은 8-탭 x4 필터로 앞서와 같이 보간된 8x8 4:2:2 루마 PU(1350) 및 기존 4-탭 x8 크로마 필터로 수직 및 수평 방향으로 보간된 4x8 4:2:2 크로마 PU들(1360)을 나타내지만, 아주 작은 단편 결과들만이 수직 방향으로 보간된 이미지를 형성하는데 사용된다.

이들 기술들은, 각각의 크로미넌스 구성요소가 휘도 구성요소의 1/M 번째 수평 해상도 및 휘도 구성요소의 1/N 번째 수직 해상도를 갖는, 입력 비디오 데이터를 인코딩하기 위해 인터-이미지 예측을 사용하는 비디오 코딩 또는 디코딩 방법들, 장치, 또는 프로그램들에 적용될 수 있는데, 여기서 M 및 N은 1 이상의 정수다. 예를 들면, 4:2:2에 대해서, M=2, N=1이다. 4:2:0에 대해서는, M=2, N=2이다.

프레임 저장소(570)는 현재 이미지에 선행하는 하나 이상의 이미지들을 저장하도록 동작가능하다.

보간 필터(580)는 저장된 이미지들의 예측 유닛의 보다 높은 해상도 버전을 보간하도록 동작가능하므로, 보간된 예측 유닛의 휘도 구성요소는 수평 해상도가 저장된 이미지의 대응하는 부분의 P배이고, 수직 해상도가 저장된 이미지의 대응한 부분의 Q배인데, 여기서, P 및 Q은 1 초과의 정수들이다. 현재의 예들에서, P = Q = 4 이므로, 보간 필터(580)는 1/4 샘플 해상도에서 보간된 이미지를 생성하도록 동작가능하다.

모션 추정기(550)는 현재의 이미지와 하나 이상의 보간된 저장된 이미지들 간의 인터-이미지 모션을 검출하여, 현재 이미지의 예측 유닛과 하나 이상의 선행하는 이미지들의 영역들 간의 모션 벡터들을 생성하도록 동작가능하다.

모션 보상 예측기(540)는 각각의 모션 벡터가 가리키는 보간된 저장된 이미지의 영역에 대하여 현재 이미지의 예측 유닛의 모션 보상된 예측을 생성하도록 동작가능하다.

보간 필터(580)의 동작에 대한 설명으로 돌아가서, 이 필터의 실시예들은 보간된 크로미넌스 예측 유닛을 생성하도록 저장된 이미지의 크로미넌스 구성요소에 xR 수평 및 xS 수직 보간 필터를 적용하고(여기서, R은 (U x M x P)와 같고, S는 (V x N x Q)와 같고, U 및 V는 1 이상의 정수들임); 보간된 크로미넌스 예측 유닛을 서브샘플링하도록 동작가능하여, 그에 따라 그것의 수평 해상도는 인자 U로 나뉘고, 그것의 수직 해상도는 인자 V로 나뉘어, MP x NQ 샘플들의 블록이 야기된다.

따라서, 4:2:2의 경우, 보간 필터(580)는 수평 및 수직 방향으로 x8 보간을 적용하지만, 그 후, 예를 들면, 보간된 출력에서 매 2번째 샘플을 사용하여, 인자 2에 의해 수직으로 서브샘플링한다.

따라서 이 기술은 4:2:0 및 4:2:2에 대하여 동일한 (예를 들면, x8) 필터가 사용되도록 허용하지만, 4:2:2에는 서브샘플링하는 추가 단계가 필요하다.

실시예들에서, 논의된 바와 같이, 보간된 크로미넌스 예측 유닛은 동일한 xR 및 xS 보간 필터들을 사용하여 보간된 4:2:0 포맷 예측 유닛의 것보다 샘플들의 높이가 2배를 갖는다.

이들 기술들을 사용하여, 특히, 4:2:0 입력 비디오 데이터 및 4:2:2 입력 비디오 데이터에 대하여, 동일한 xR 수평 및 xS 수직 보간 필터들을 사용하여, 상이한 필터들을 제공할 필요성이 없어지거나 완화될 수 있다.

논의된 바와 같이, 보간된 크로미넌스 예측 유닛을 서브샘플링하는 단계는 수직 방향에서 보간된 크로미넌스 예측 유닛의 매 V번째 마다의 샘플을 사용하고 수직 방향에서 보간된 크로미넌스 예측 유닛의 매 U번째 마다의 샘플을 사용하는 것을 포함한다.

실시예들은 예측 유닛에 대하여 휘도 모션 벡터를 도출하는 것; 및 그 예측 유닛에 대하여 하나 이상의 크로미넌스 모션 벡터들을 독립적으로 도출하는 것을 포함할 수 있다.

일부 실시예들에서, R 및 S 중 적어도 하나는 2 이상이고, 일부 실시예들에서, xR 수평 및 xS 수직 보간 필터들이 또한 저장된 이미지의 휘도 구성요소들에 적용된다.

4:4:4 인터-예측 이형들

더 나아가, 기존 4-탭 x8 크로마 필터에 대해 아주 작은 단편 결과들만을 사용하는 동일한 원리가 8x8 4:4:4 크로마 PU들에 대해 수직 및 수평으로 적용될 수 있다.

이들 예들 이외에, x8 크로마 필터가 루마를 포함하는 모든 보간에 대해 사용될 수 있다.

추가 인터-예측 이형들

모션 벡터(MV) 도출의 일 구현에서, P-슬라이스 내의 PU에 대해서 1개의 벡터가 생성되고, B-슬라이스 내의 PU에 대해서 2개의 벡터들이 생성된다(여기서, MPEG P 및 B 프레임들과 유사한 방식으로, P-슬라이스는 선행하는 프레임으로부터의 예측들을 취하고, B-슬라이스는 선행하는 및 다음의 프레임으로부터의 예측들을 취한다). 이 구현에서, 4:2:0 방식에서, 벡터들은 모든 채널들에 공통이고, 나아가, 크로마 데이터는 모션 벡터들을 계산하는데 사용될 필요가 없다는 것이 주의된다. 즉, 모든 채널들은 루마 데이터에 기초하여 모션 벡터를 사용한다.

일 실시예에서, 4:2:2 방식에서, 크로마 벡터는 루마와는 개별적이도록 도출될 수 있고(즉, Cb 및 Cr 채널들에 대한 단일 벡터는 별개로 도출될 수 있음), 4:4:4 방식에서, 크로마 벡터들은 또한 Cb 및 Cr 채널들 각각에 대해서 개별적일 수 있다.

변환들

HEVC에서, 대부분의 이미지들은 이전에 인코딩/디코딩된 프레임들로부터의 모션 벡터들로서 인코딩되는데, 모션 벡터는 이들 다른 디코딩된 프레임들 내의 어디에서 현재 이미지의 양호한 근사치를 복사해올지를 디코더에게 알린다. 그 결과는 현재 이미지의 근사한 버전이다. 그 후, HEVC는 근사한 버전과 올바른 이미지 간의 오류인 소위 잔상을 인코딩한다. 이 잔상은 실제 이미지를 바로 특정하는 것보다 훨씬 적은 정보를 요구한다. 그러나, 전체 비트 속도를 더욱 감소시키기 위해 이 잔상 정보를 압축하는 것은 일반적으로 여전히 선호된다.

HEVC를 포함하는 많은 인코딩 방법들에서, 이러한 데이터는 정수형 여형 변환(integer cosine transform; ICT)을 사용하여 공간 주파수 도메인으로 변환되고, 전형적으로 그 후 원하는 압축 레벨에 따라 낮은 공간 주파수 데이터를 유지하고 보다 높은 공간 주파수 데이터를 삭제함으로써 일부 압축이 수행된다.

4:2:0 변환들

HEVC에서 사용되는 공간 주파수 변환들은 이것은 통상의 양자화/압축 방법들에 특히 수정가능할 때, 본래 4의 거듭제곱(power)들로 계수들을 생성하는 것들이다(예를 들면, 64 주파수 계수들). 4:2:0 방식에서 정사각형 TU들은 모두 4의 거듭제곱들이므로 이것은 얻기 쉽다.

NSQT 옵션들이 인에이블링하면, 일부 비-정사각형 변환들은 4x16과 같은, 비-정사각형 TU들에 대해 가능하지만, 이들은 64 계수들 즉, 다시 4의 거듭제곱을 야기한다는 것이 다시 주의된다.

4:2:2 및 4:4:4 변환 이형들

4:2:2 방식은 4의 거듭제곱들이 아닌 비-정사각형 TU들을 야기할 수 있는데; 예를 들면, 4x8 TU는 32 화소들을 갖고, 32는 4의 거듭제곱이 아니다.

따라서 일 실시예에서, 후속하는 양자화 처리를 위해 변경들이 요청될 수 있다는 것을 알리면서, 계수들의 4의 비-거듭제곱(non-power)에 대한 비-정사각형 변환이 사용될 수 있다.

대안적으로, 일 실시예에서, 비-정사각형 TU들은 변환을 위한 4 영역의 거듭제곱을 갖는 정사각형 블록들로 분할된 후 결과 계수들은 인터리빙될 수 있다(interleaved).

예를 들면, 4x8 블록들에 대하여, 홀수/짝수 수직 샘플들은 2개의 정사각형 블록들로 분할될 수 있다. 대안적으로, 4x8 블록들에 대하여, 상부 4x4 화소들 및 하부 4x4 화소들은 2개의 정사각형 블록들을 형성할 수 있다. 대안적으로 다시, 4x8 블록들에 대하여, 하 웨이블렛 분해(Haar wavelet decomposition)가 보다 낮은 및 보다 높은 주파수 4x4 블록을 형성하기 위해 사용될 수 있다.

이들 옵션들 중 임의의 것이 가능할 수 있고, 특정 대안의 선택은 디코더에 시그널링되거나 디코더에 의해 도출될 수 있다.

다른 변환 모드들

4:2:0 방식에서, 잔상 데이터가 비트 스트림에 손실없이(즉, 변환, 양자화, 또는 다른 필터링 없이) 포함되도록 허용하는 제안된 플래그(소위 'qpprime_y_zero_transquant_bypass_flag')가 존재한다. 4:2:0 방식에서, 플래그는 모든 채널들에 적용된다.

따라서, 이러한 실시예들은 휘도 및 크로미넌스 샘플들이 예측되고 샘플들과 각각의 예측된 샘플들 간의 차이가 인코딩되는 비디오 코딩 또는 디코딩 방법, 장치, 또는 프로그램을 나타내고, 휘도 차이 데이터가 출력 비트스트림에 손실 없이 포함되는지의 여부를 표시하고; 독립적으로 크로미넌스 차이 데이터가 그 비트스트림에 손실 없이 포함되어야 하는지의 여부를 표시하도록 구성된 표시자를 사용한다. 이러한 플래그 또는 플래그들(또는 표시자 또는 표시자들 각각)은, 예를 들면, 제어기(343)에 의해 삽입될 수 있다.

일 실시예에서, 루마 채널에 대한 플래그는 크로마 채널들에 대해서는 개별적인 것이 제안된다. 따라서, 4:2:2 방식에 대하여, 이러한 플래그들은 루마 채널에 대해서 및 크로마 채널들에 대해서 독립적으로 제공되야하고, 4:4:4 방식에 대해서, 이러한 플래그들은 루마 및 크로마 채널들에 대해서 독립적으로 제공되거나, 하나의 플래그가 3개의 채널들 각각에 대해서 제공된다. 이것은 4:2:2 및 4:4:4 방식들에 연관된 증가된 크로마 데이터 속도들을 인식하고, 예를 들면, 압축된 크로마 데이터와 함께 손실 없는 루마 데이터를 인에이블링한다.

인트라-예측 코딩에 대하여, 모드-의존형 방향성 변환(mode-dependent directional transform; MDDT)은 TU에 대한 수평 또는 수직 ICT(또는 둘 모두의 ICT들)가 인트라-예측 방향에 따라 정수형 정현 변환(Integer Sine Transform)으로 대체되도록 허용한다. 4:2:0 방식에서, 이것은 크로마 TU들에 적용되지 않는다. 그러나, 일 실시예에서, 그것을 4:2:2 및 4:4:4 크로마 TU들에 적용하는 것이 제안되는데, 여기서, IST가 4 샘플 변환 차원들에 대해 (수평으로 또는 수직으로) 단지 현재 정의되므로 현재 4x8 크로마 TU에 수직으로 적용될 수 없다는 것을 주의하자.

비디오 코딩 방법들에서, 다양한 실시예들이 휘도 차이 데이터가 출력 비트스트림에 손실 없이 포함되는지의 여부를 표시하고; 독립적으로 크로미넌스 차이 데이터가 비트스트림에 손실 없이 포함되는지의 여부를 표시하고, 이러한 표시들에 의해 정의된 형태로 관련 데이터를 인코딩 또는 포함하도록 구성될 수 있다.

양자화

4:2:0 방식에서, 크로미넌스에 대한 양자화 계산은 루미넌스에 대해서와 동일하다. 단지 양자화 변수들(quantisation parameters; QPs)만이 상이하다.

크로미넌스에 대한 QP들은 아래와 같이 휘도 QP들로부터 계산되고:

QP _Cb = scalingTable[QP _luminance +chroma_qp_index_offset]

Qp _Cr = scalingTable[QP _luminance +second_chroma_qp_index_offset]

여기서, 스케일링 표(scaling table)는 (4:2:0 및 4:2:2 각각에 대해서) 도 29a 또는 도 29b에 나타낸 것처럼 정의되고, "chroma_qp_index_offset" 및 "second_chroma_qp_index_offset"은 사진 매개변수 세트에 정의되고 Cr 및 Cb에 대해서 동일하거나 상이할 수 있다. 즉, 대괄호들 안의 값은 각 경우에 스케일링 표 내의 "색인"을 정의하고(도 29a 및 도 29b), 스케일링 표는 그 후 수정된 Qp 값("값")을 제공한다.

"chroma_qp_index_offset" 및 "second_chroma_qp_index_offset"은 대신 각각 cb_qp_offset 및 cr_qp_offset로 언급될 수 있다는 것을 주의하자.

크로미넌스 채널들은 전형적으로 휘도보다 적은 정보를 포함하므로 보다 작은-크기의 계수들을 가지며; 크로미넌스 QP에 대한 이 제한은 모든 크로미넌스 세부사항이 높은(heavy) 양자화 레벨들에서 손실되는 것을 방지할 수 있다.

4:2:0에서 QP-나눗셈기 관계는 대수적인 것이므로, QP에서 6의 증가는 나누기의 배가와 등가이다(양자화 단계 크기는 사용 전에 Q행렬들에 의해 더욱 변경될 수 있지만, 본 발명에서는 이와 달리 설명됨). 따라서, 스케일링 표에서의 최대 차이(51-39=12)는 나누기에서 인자 4의 변화를 표현한다.

그러나, 일 실시예에서, 4:2:0 방식보다 2배 많은 크로마 정보를 포함할 가능성이 있는 4:2:2 방식에 대해서, 스케일링 표의 최대 크로미넌스 QP 값은 45로 증가할 수 있다(즉, 절반의 나누기). 유사하게 4:4:4 방식에 대하여, 스케일링 표의 최대 크로미넌스 QP 값은 51로 증가할 수 있다(즉, 동일한 나누기). 이 경우, 스케일링 표는 사실상 불필요하지만 단순히 동작 효율성을 위해 유지될 수 있다(즉, 시스템은 각각의 방식에 대해 동일한 방식으로 테이블을 참조함으로써 동작하도록). 따라서, 보다 일반적으로, 일 실시예에서, 크로마 QP 나눗셈기는 4:2:0 방식에 대한, 코딩 방식에서의 정보의 양에 따라 변경된다.

따라서, 실시예들은, 양자화 단계 크기를 정의하는 선택된 양자화 매개변수에 따라 4:4:4 또는 4:2:2 포맷에서 주파수-변환된 휘도 및 크로미넌스 구성요소 비디오 데이터의 블록들을 양자화하도록 동작가능한 비디오 코딩 또는 디코딩 방법에 적용된다. (예를 들면, 도 29a 또는 도 29b의 적절한 표와 같은) 양자화 매개변수 연관관계가 휘도와 크로미넌스 양자화 매개변수들 간에 정의되는데, 여기서, 연관관계는 최대 크로미넌스 양자화 단계 크기가 4:2:2 포맷에 대해서는 최대 휘도 양자화 단계 크기보다는 작지만(예를 들면, 45), 4:4:4 포맷에 대해서는 최대 휘도 양자화 단계 크기와 같다(예를 들면, 51). 양자화 처리는, 주파수-변환된 데이터의 각각의 구성요소가 각각의 양자화 단계 크기로부터 도출된 각각의 값으로 나눠지고, 그 결과는 정수 값으로 반올림되어(round) 양자화된 공간 주파수 데이터의 대응하는 블록을 생성하도록 동작한다.

나눗셈 및 반올림 단계들은 각각의 양자화 단계 크기(또는, 예를 들면, Q행렬들로부터의 응용에 의해 그로부터 도출된 데이터)에 따른, 일반적인 양자화 단계를 나타내는 예들이라는 것이 인식될 것이다.

실시예들은 공간 주파수 계수들을 양자화하기 위한 양자화 매개변수 또는 색인(휘도에 대한 QP)을 선택하는 단계를 포함하고, 양자화 매개변수는 휘도 데이터에 적용가능한 QP 표들에 따른 양자화 단계 크기들의 세트의 각각의 하나에 대한 기준으로서 동작한다. 양자화 매개변수 연관관계를 정의하는 처리는: 크로미넌스 구성요소들에 대해서, 선택된 양자화 매개변수에 따라 (도 29a 또는 도 29b의 표와 같은) 변경된 양자화 매개변수들의 표를 참조하는 것을 포함할 수 있는데, 이는 결국 (i) 제 1 크로미넌스 구성요소에 대하여, (chroma_qp_index_offset과 같은) 제 1 오프셋을 양자화 매개변수에 합산하고, 표에서, 양자화 색인과 제 1 오프셋의 합산에 대한 엔트리에 대응하는 변경된 양자화 색인을 선택하고; (ii) 제 2 크로미넌스 구성요소에 대해서, (second_chroma_qp_index_offset과 같은) 제 2 오프셋을 양자화 매개변수에 합산하고, 표에서, 양자화 색인과 제 2 오프셋의 합산에 대한 엔트리에 대응하는 변경된 양자화 색인을 선택하고; 휘도 데이터에 대한 양자화 매개변수와, 제 1 및 제 2 크로미넌스 구성요소들에 대한 제 1 및 제 2 변경된 양자화 색인들에 따라 세트 내의 각각의 양자화 단계 크기를 참조하는 것을 포함할 수 있다. 상이한 방식에서 보면, 이는 공간 주파수 계수들을 양자화하기 위한 양자화 매개변수를 선택하는 것을 포함하는 처리의 일례이고, 양자화 매개변수는 양자화 단계 크기들의 세트의 각각의 하나에 대한 기준으로서 동작하고; 상기 정의하는 단계는, 크로미넌스 구성요소들에 대해서, 선택된 양자화 매개변수에 따라 변경된 양자화 매개변수들의 표를 참조하는 것을 포함하고, 상기 참조하는 단계는, 각각의 크로미넌스 구성요소에 대하여, 각각의 오프셋을 양자화 매개변수에 합산하고, 표에서, 양자화 매개변수와 각각의 오프셋의 합산에 대한 엔트리에 대응하는 변경된 양자화 매개변수를 선택하고; 휘도 데이터에 대한 양자화 매개변수와, 제 1 및 제 2 크로미넌스 구성요소들에 대한 제 1 및 제 2 변경된 양자화 매개변수들에 따라 상기 세트 내의 각각의 양자화 단계 크기를 참조하는 것을 포함한다.

이 기술들은 특히 세트 내의 양자화 단계 크기들의 연속적인 값들이 대수적으로 연관되어, m(m은 정수)의 양자화 매개변수에의 변화가 양자화 단계 크기의 인자 p(p는 1을 초과하는 정수)만큼의 변화를 나타내는 구성들에 적용가능하다. 본 실시예들에서는 m = 6 및 p = 2이다.

실시예들에서, 앞서 논의된 바와 같이, 최대 휘도 양자화 매개변수는 51이고; 4:2:2 포맷에 대해서, 최대 크로미넌스 양자화 매개변수는 45이고; 4:4:4 포맷에 대해서, 최대 크로미넌스 양자화 매개변수는 51이다.

실시예들에서, 제 1 및 제 2 오프셋들은 인코딩된 비디오 데이터와 연관되어 전달될 수 있다.

4:2:0에서, 변환 행렬들 A는 초기에

을 사용하여 참인 정규화된 NxN DCT A'의 것들로부터 (변환 유닛(340)에 의해) 생성되는데, 여기서 i 및 j는 행렬 내의 위치를 표시한다. 정규화된 변환 행렬에 대한 이 스케일링은 정확성을 높이고, 작은 단편 계산들에 대한 필요성을 없애고, 자체 정확성을 높인다.

A_ij의 반올림으로 인한 차이들을 무시하면, X에 A 및 A^T(A의 전치 행렬)가 곱해지므로, 결과의 계수들은 참인 정규화된 MxM (M=높이; N=폭) DCT의 것과 다음의 공통 스케일링 인자만큼 상이해진다:

공통 스케일링 인자는 이 예에 대해서 상이할 수 있다는 것을 주의하자. 또한, A 및 A^T 모두에 의한 행렬 곱은 소위 버터플라이 방법(Butterfly method)과 같은 다양한 방식으로 수행될 수 있다. 중요한 사실은 수행되는 동작이 전형적인 행렬 곱과 등가인지의 여부이고, 그것이 동작의 특정 전형적인 순서로 수행되는지의 여부는 중요한 사실이 아니다.

이 스케일링 인자는 다수의 비트 변환 시프트(transformShift)에 의한 이진 좌측-시프트 비트 동작과 등가인데, 이는 HEVC에서 이것이 2의 거듭제곱을 야기하기 때문이다:

transformShift = (l2 + 0.5 log₂(N) + 0.5 log₂(M))

자체 비트-정확성에 대한 요구를 줄이기 위해, 계수들은 변환 처리 동안 2번 (양의 반올림을 사용하여) 우측-시프트된다:

shift1 = log ₂(N) + bitDepth - 9

shift2 = log₂(N) + 6

그 결과, 계수들은 그들이 순방향 변환 처리를 떠나고 양자화기로 들어가면서 효율적으로 다음에 의해 좌측-시프트된다:

resultingShift=(l2+0.5log₂(NM))-(shift1+shift2)

=(12+0.5log₂(N)+0.5log₂(M))-(log₂(N)+bitDepth-9+log₂(M)+6)

=15-(0.5log₂(N)+0.5log₂(M)+bitDepth)

4:2:0에서, 주파수 변환에 의해 생성된 주파수 분리 (예를 들면, DCT) 계수들은 정규화된 DCT가 수행하는 것들보다 큰 인자 (2^{resultingShift})이다.

일부 실시예들에서, 블록들은 정사각형이거나 2:1의 가로세로 비를 갖는 직사각형이다. 따라서, NxM의 블록 크기에 대하여,

N=M(이 경우, resultingShift는 정수이고 S=N=M=sqrt(NM)임); 또는

0.5N=2M 또는 2N=0.5M(이 경우 resultingShift는 여전히 정수이고 S=sqrt(NM)임)이고, resultingShift=15-(0.5log₂(N)+0.5log₂(M)+bitDepth)=15-(log₂(S)+bitDepth))이다.

계수들은 이어서 양자화되는데, 여기서, 양자화 나눗셈기는 양자화 매개면수 QP에 따라 도출된다.

resultingShift는 정수와 등가이므로, 공통 스케일링 인자는 2의 정수 거듭제곱이고, 변환 처리의 전체적인 좌측-시프트 'resultingShift'는 또한 동일하지만 반대인 우측-시프트 'quantTransformRightShift'를 적용함으로써 이 단계에서 설명된다는 것을 주의하자.

이 비트-시프트 동작은 resultingShift가 정수이므로 가능하다.

또한, 나눗셈기-QP(양자화 매개변수 또는 색인) 관계는 앞서 언급한 바와 같이 기저-2 거듭제곱 곡선을 따르는데, 즉, QP의 6만큼의 증가는 나눗셈기를 배가하는 효과가 있는 반면, QP의 3만큼의 증가는 나눗셈기를 인자 sqrt(2)(2의 제곱근)만큼 증가시키는 효과가 있다.

4:2:2에서 크로마 포맷으로 인해, 다음과 같은 보다 많은 TU 폭:높이(N:M) 비들이 존재한다:

N=M (이전 부터) 여기서, S=N=M=sqrt(NM) (resultingShift는 정수)

0.5N=2M 및 2N=0.5M(이전 부터), 여기서 S=sqrt(NM) (resultingShift는 정수)

N=2M 여기서 S=sqrt(NM)

2M=N 여기서 S=sqrt(NM)

4N=0.5M 여기서 S=sqrt(NM)

resultingShift=15-(log₂(S)+bitDepth)

이들 마지막 3개의 상황에서, resultingShift는 정수가 아니다. 예를 들면, 이것은 이것은 비디오 데이터 샘플들의 블록들 중 적어도 몇몇이 MxN 샘플들을 포함하는 곳, N/M의 제곱근이 2의 정수 거듭제곱과 같지 않는 곳에 적용된다. 이러한 블록 크기들은 일부 본 실시예들의 크로마 샘플들에 관련하여 발생할 수 있다.

따라서, 이러한 인스턴스들에서, 다음의 기술들이, 즉, 변환 행렬의 차원에 따른 양만큼 정규화된 변환 행렬의 각각의 값들에 대하여 각각이 스케일링된 정수 값들의 어레이를 포함하는 변환 행렬을 사용하여 비디오 데이터 샘플의 블록들 상에서 주파수-변환을 수행함으로써 양자화된 공간 주파수 데이터의 블록들을 생성하고, 선택된 양자화 단계 크기에 따라 공간 주파수 데이터를 양자화하도록 동작가능한 비디오 코딩 또는 디코딩 방법들, 장치, 또는 프로그램들에 관련되고, 비디오 데이터 샘플들의 블록의 정규화된 주파수-변환 결과 생성될 공간 주파수 계수들보다 공통 스케링일 인자(예를 들면, resultingShift)만큼 각각 큰 스케일링된 공간 주파수 계수들의 블록을 생성하도록 변환 행렬 및 변환 행렬의 전이에 의해 블록을 행렬 곱셈함으로써 비디오 데이터 샘플들의 블록을 주파수-변환하는 단계를 포함한다.

따라서, 양자화 단계에서, 적절한 비트-시프트 동작은 간단한 방식으로 동작을 상쇄시키는데 사용될 수 없다.

이에 대한 해결방법이 다음과 같이 제안된다:

양자화기 단계에서, 아래의 우측 시프트가 적용됨:

quantTransformRightShift=15-log₂(S')-bitDepth

여기서, 값 S'는

resulting Shift- quantTransformRightShift = +1/2

quantTransformRightShift

가 정수이도록 도출된다.

1/2의 시프트들 간의 차이는 sqrt(2)에 의한 곱셈과 등가인데, 즉, 이 점에서, 계수들은 그들이 가져야 하는 것보다 sqrt(2) 배 크므로, 비트 시프트를 정수 비트 시프트로 만든다.

양자화 처리에 대하여, (QP+3)의 양자화 매개변수를 적용하는 것은 양자화 나눗셈기가 인자 sqrt(2) 만큼 효율적으로 증가하는 것을 의미하고, 따라서, 이전 단계로부터 sqrt(2) 스케일 인자를 상쇄시킨다.

따라서, 이들 단계들은 (정규화된 변환 행렬의 각각의 값들에 대하여 각각 스케일링된 정수 값들의 어레이를 포함하는 변환 행렬을 사용하여 비디오 데이터 샘플들의 블록 상에서 주파수-변환을 수행함으로써 양자화된 공간 주파수 데이터의 블록들을 생성하고, 선택된 양자화 단계 크기에 따라 공간 주파수 데이터를 양자화하도록 동작가능하고, 비디오 데이터 샘플들의 블록의 정규화된 주파수-변환 결과 생성되는 공간 주파수 계수들보다 공통 스케링일 인자만큼 각각 큰 스케일링된 공간 주파수 계수들의 블록을 생성하도록 변환 행렬 및 변환 행렬의 전이에 의해 블록을 행렬 곱셈함으로써 비디오 데이터 샘플들의 블록을 주파수-변환하는 단계를 포함하는, 비디오 코딩 또는 디코딩 방법(또는 장치 또는 프로그램들)의 문맥으로) 다음과 같이 요약될 수 있다: 공간 주파수 계수들을 양자화하기 위한 양자화 단계 크기를 선택하는 것; 스케일링된 공간 주파수 계수들의 각각을 인자 2ⁿ으로 나누기 위해 n-비트 시프트(예를 들면, quantTransformRightShift)를 적용하는 것(여기서, n은 정수); 및 공통 스케일링 인자를 2ⁿ으로 나눈 것인, 잔상 스케일링 인자(예를 들면, resulting Shift- quantTransformRightShift)를 검출하는 것. 예를 들면, 앞서 설명된 상황에서, 양자화 단계 크기는 그 후 잔상 스케일링 인자에 따라 변경된 양자화 단계 크기를 생성하기 위한 것이고; 블록 내의 스케일링된 공간 주파수 계수들 각각은 변경된 양자화 단계 크기에 따른 값들에 의해 나뉘고 그 결과가 정수 값으로 반올림되어, 양자화된 공간 주파수 데이터의 블록이 생성된다. 논의된 바와 같이, 양자화 단계 크기의 변경은 QP가 양자화 단계 크기들의 표로 매핑될 때 상이한 양자화 단계 크기를 선택하도록 QP에 오프셋을 가산함으로써 간단히 수행될 수 있다.

계수들은 이제 오리지널 QP에 대해서 올바른 크기이다.

변환 행렬은 변환 행렬의 차원에 따른 양에 의해, 정규화된 변환 행렬의 각각의 값들에 대하여 각각 스케일링된 정수 값들의 어레이를 포함할 수 있다.

그것은 S'에 대한 요구된 값이 항상 다음에 의해 도출될 수 있다는 것을 따른다:

S'= sqrt(2*M*N).

대안적인 제안으로서, S'는

resulting Shift- quantTransformRightShift = -1/2

이도록 도출될 수 있다.

이 경우, S' = sqrt(1/2 * M * N)이고, 적용된 양자화 매개변수는 (QP - 3)이다.

이들 경우들 (QP에 3을 가산함 또는 QP로부터 3을 감산함) 중 하나에서, 양자화 단계 크기를 선택하는 단계는 양자화 단계 크기들의 표에서 각각의 엔트리를 정의하는 양자화 색인(예를 들면, QP)을 선택하는 것을 포함하고, 변경시키는 단계는 본래 선택된 양자화 단계 크기에 대한 상이한 양자화 단계 크기의 비는 실질적으로 잔상 스케일링 인자와 동일해지도록 상이한 양자화 단계 크기를 선택하도록 양자화 색인을 바꾸는 것을 포함한다.

이는, 본 실시예들에서처럼, 표 내의 양자화 단계 크기들의 연속적인 값들이 대수적으로 관련될 때 특히 잘 동작하므로, m(m은 정수)의 양자화 색인(예를 들면, QP)의 변화는 양자화 단계 크기가 인자 p만큼 (p는 1을 초과하는 정수) 변하는 것을 나타낸다. 본 실시예들에서, m=6이고 p=2이므로, QP가 6만큼 증가하는 것은 적용된 양자화 단계 크기가 배가 되는 것을 나타내고, QP가 6만큼 작아지는 것은 결과의 양자화 단계 크기가 절반이 되는 것을 나타낸다.

앞서 논의된 바와 같이, 변경은 휘도 샘플들에 대하여 양자화 색인(예를 들면, 기본 QP)을 선택하고; 각각의 또는 두 크로미넌스 구성요소들의 샘플들에 대한, 휘도 샘플들에 대해 선택된 양자화 색인에 관련된, 양자화 색인 오프셋을 생성하고; 잔상 스케일링 인자에 따라 양자화 색인 오프셋을 변경시키고; 코딩된 비디오 데이터에 관련하여 양자화 색인 오프셋을 전달함으로써 수행될 수 있다. HEVC의 실시예들에서, 2개의 크로마 채널들에 대한 QP 오프셋들은 비트 스트림 내에서 송신된다. 이들 단계들은 +/-3의 (잔상 스케일링 인자를 설명하기 위한) QP 오프셋이 이들 오프셋들로 통합될 수 있거나, 그들이 크로마 QP를 도출하기 위해 사용될 때 그들이 증가/감소될 수 있는 시스템에 대응한다.

상이한 모양의 블록들이 사용되면, QP 오프셋은 반드시 +/-3을 갖지 않아도 되며; +/-3은, 예를 들면, 4:2:2 비디오에 대하여 앞서 설명된 가로세로 비들 및 블록 모양들에 적용가능한 오프셋을 나타내는 것일 뿐임을 주의하자.

일부 실시예들에서, n(적용된 비트 시프트)은 2ⁿ이 공통 스케일링 인자보다 크거나 그것과 동일하도록 선택된다. 다른 실시예들에서, n은 2ⁿ이 공통 스케일링 인자보다 작거나 그것과 동일하도록 선택된다. (이들 구성들 중 하나를 사용하는) 실시예들에서, 비트 시프트 n은 (둘 중 한 방향에서) 공통 스케일링 인자에 가장 근접한 다음 것이 되도록 선택될 수 있으므로, 잔상 스케일링 인자는 2보다 작은 크기를 갖는 인자를 나타낸다.

다른 실시예들에서, 양자화 단계 크기의 변경은 간단히 양자화 단계 크기에 잔상 스케일링 인자에 따른 인자를 곱함으로써 수행될 수 있다. 즉, 변경은 색인 QP를 변경하는 것을 포함할 필요가 없다.

또한 설명된 양자화 단계 크기는 반드시 변환된 샘플이 나뉘어지는 실제 양자화 단계 크기는 아니라는 것을 주의하자. 이 방식으로 도출된 양자화 단계 크기는 더욱 변경될 수 있다. 예를 들면, 일부 구성들에서, 양자화 단계 크기는 값들의 행렬(Q행렬) 내의 각각의 엔트리들에 의해 더욱 변경되므로, 상이한 최종 양자화 단계 크기들은 계수들의 양자화된 블록 내의 상이한 계수 위치들에서 사용된다.

또한, 4:2:0 방식에서, 최대 크로마 TU는 16x16인 반면, 4:2:2 방식에 대해서는, 16x32 TU들이 가능하고, 4:4:4 방식에 대해서는, 32x32 크로마 TU들이 가능하다. 따라서, 일 실시예에서, 32x32 크로마 TU들에 대한 양자화 행렬들(Q행렬들)이 제안된다. 유사하게, Q행렬은 16x32 TU와 같은 비-정사각형 TU들에 대해 정의되야 하는데, 여기서, 하나의 실시예는 보다 큰 정사각형 Q 행렬의 하부 샘플링이고, Q행렬들은 다음 중 임의의 하나에 의해 정의될 수 있다:

(4x4 및 8x8 Q행렬들에 대한) 그리드 내의 값들;

각각의 보다 작거나 보다 큰 행렬들로부터 공간적으로 보간된다;

- HEVC에서, 보다 큰 Q행렬들은 보다 작은 기준의 각각의 계수 그룹들로부터 도출될 수 있거나, 보다 작은 행렬들은 보다 큰 행렬들로부터 서브-샘플링될 수 있다. 이 보간 또는 서브샘플링은 채널 비 내에서 수행될 수 있음에 주의하자 - 예를 들면, 채널 비에 대한 보다 큰 행렬은 그 채널 비에 대해 보다 작은 것으로부터 보간될 수 있다.

다른 Q행렬들에 관련된다(즉, 상이한 값들 또는 델타들(deltas));

- 따라서, 단지 델타들이 송신될 필요가 있다.

단지 설명할 목적을 위해 작은 예를 취하면, 하나의 채널 비에 대한 특정 행렬은 4:2:0에 대하여 4x4 행렬과 같이 정의될 수 있고,

( a b )

( c d )

여기서, a, b, c, 및 d는 각각의 계수들이다. 이것은 기준 행렬로 동작한다.

본 발명의 실시예들은 또 다른 채널비에 대하여 유사한-크기의 행렬에 대한 상이한 값들의 세트를 정의할 수 있으므로;

( diff1 diff2 )

( diff3 diff4 )

다른 채널비에 대한 Q행렬을 생성하도록, 차이들의 행렬은 기준 행렬에 행렬-가산된다.

차이들 대신, (i) 다른 채널비에 대한 Q행렬을 생성하도록 배수사 인자들(multiplicative factors)의 행렬에 기준 행렬이 행렬-곱셈되거나 (ii) 다른 채널비에 대한 Q행렬을 생성하도록 기준 행렬 내의 각각의 계수에 각각의 인자가 독립적으로 곱해지도록, 배수사 인자들의 행렬이 다른 채널비에 대해 정의될 수 있다.

또 다른 Q행렬의 함수로서;

- 예를 들면, (상기 예에서의 a, b, c, 및 d 각각이 동일한 인자가 곱해지거나 그것에 가산되는 동일한 차이를 갖기 위한) 또 다른 행렬에 대한 스케일링비. 이것은 차이 또는 인자 데이터를 송신하는 것에 대한 데이터 요구사항들을 감소시킨다.

- 따라서, (스케일링비와 같은) 함수들의 계수들만이 전송될 필요가 있음.

방정식/함수로서(예를 들면, 구분적 선형 곡선(piece-wise linear curve), 지수의, 다항의);

- 따라서, 방정식들의 계수들만이 행렬을 도출하기 위해 송신될 필요가 있거나,

상기의 것들의 임의의 조합. 예를 들면, a, b, c, 및 d 각각은 사실 행렬 내의 계수 위치(i, j)에 따른 의존성을 포함할 수 있는 함수에 의해 정의될 수 있다. (i, j)는, 예를 들면, 행렬의 상부에서 하부로의 계수 위치들이 뒤따르는 좌측에서 우측으로의 계수 위치를 나타낼 수 있다. 일례는 다음과 같다:

계수_i,j = 3i + 2j

Q행렬들은 HEVC 환경에서 스케일링 리스트들로서 언급될 수 있음에 주의하자. 스케일링 처리 이후 양자화가 적용되는 실시예들에서, 스캐닝된 데이터는 연속적인 데이터 샘플들의 선형 스트림일 수 있다. 이러한 인스턴스들에서, Q행렬의 개념은 여전히 적용되지만, 1xN 행렬 내의 N 데이터 값들의 순서가 각각의 Q행렬 값이 적용되어야 하는 스캐닝된 샘플들의 순서에 대응하도록, 행렬(또는 스캐닝 리스트)은 1xN 행렬로 고려될 수 있다. 즉, 스캐닝된 데이터 내의 데이터 순서(스캔 패턴에 따른 공간 주파수)와 1xN 행렬 내의 데이터 순서 간에는 1:1 관계가 존재한다.

일부 실시예들에서, 양자화 단계는 유지하지만, DCT(주파수 분리) 단계는 건너뛰거나 생략하는 것이 가능함을 주의하자.

다른 유용한 정보에는 값들이 어떤 다른 행렬에 관련되는지에 대한 (즉, 이전 채널 또는 제 1 (1차) 채널) 선택적인 표시자를 포함하는데; 예를 들면, Cr에 대한 행렬은, 표시된 바와 같이, Y, 또는 Cr에 대한 행렬의 스케일링된 인자일 수 있다.

따라서, 본 발명의 실시예들은 비디오 데이터 샘플들의 블록들 상에서 주파수-변환을 (선택적으로) 수행하고, 선택된 양자화 단계 크기 및 샘플들의 정돈된 블록(주파수 변환 샘플들의 정돈된 블록과 같은) 내의 상이한 각각의 블록 위치들에서 사용하기 위해 양자화 단계 크기를 변경하는 데이터의 행렬에 따라 (공간 주파수 데이터와 같은) 비디오 데이터를 양자화함으로써, 양자화된 공간 주파수 데이터의 블록들을 생성하도록 동작가능한, 비디오 코딩 또는 디코딩 방법(및 대응하는 장치 또는 컴퓨터 프로그램)을 제공할 수 있는데, 상기 방법은 적어도 2개의 상이한 크로미넌스 서브샘플링 포맷들에 대하여 동작가능하다.

크로미넌스 서브샘플링 포맷들 중 적어도 하나에 대하여, 하나 이상의 양자화 행렬들이 크로미넌스 서브샘플링 포맷들 중 기준에 대해 정의된 하나 이상의 기준 양자화 행렬들에 대한 하나 이상의 미리 결정된 변경들로서 정의된다.

본 발명의 실시예들에서, 정의하는 단계는 기준 양자화 행렬의 각각의 복수의 값들로부터 각각이 보간된 값들의 행렬로서 하나 이상의 양자화 행렬들을 정의하는 것을 포함한다. 다른 실시예들에서, 정의하는 단계는 기준 양자화 행렬의 값들로부터 각각이 서브샘플링된 값들의 행렬로서 하나 이상의 양자화 행렬들을 정의하는 것을 포함한다.

본 발명의 실시예들에서, 정의하는 단계는 기준 양자화 행렬의 대응하는 값들에 대한 차이들의 행렬로서 하나 이상의 양자화 행렬들을 정의하는 것을 포함한다.

본 발명의 실시예들에서, 정의하는 단계는 기준 양자화 행렬의 값들의 미리 결정된 함수로서 하나 이상의 양자화 행렬들을 정의하는 것을 포함한다. 이러한 인스턴스들에서, 미리 결정된 함수는 다항식 함수일 수 있다.

본 발명의 실시예들에서, 예를 들면, 코딩된 비디오 데이터의 부분으로서 또는 그에 관련하여, 다음 중 하나 또는 둘 모두가 제공된다: (i) 인코딩된 비디오 데이터에 대하여, 기준 양자화 행렬을 표시하기 위한 기준-표시자 데이터; 및 (ii) 인코딩된 데이터 값들에 대하여, 하나 이상의 미리 결정된 변경들을 표시하기 위한 변경 표시자 데이터.

이들 기술들은 2개의 크로미넌스 서브샘플링 포맷들이 4:4:4 및 4:4:2 포맷들일 때 특히 적용가능하다.

HEVC 4:2:0 내에서의 Q 행렬들의 수는 현재 각각의 변환 크기에 대하여 6이고: 대응하는 채널들에 대하여 3이고, 인트라 및 인터에 대해서는 1개의 세트이다. 4:4:4 GBR 방식의 경우, 한 세트의 양자화 행렬들이 모든 채널들에 대해 사용될 수 있거나, 3개의 각각의 양자화 행렬 세트들이 사용될 수 있다는 것이 인식될 것이다.

본 발명의 실시예들에서, 적어도 하나의 행렬은 1xN 행렬이다. 이는 (여기서 논의된 바와 같이) 하나 이상의 행렬들이 사실 계수들의 선형 1xN 순서화된 어레이인 스케일링 리스트 또는 그와 같은 것인 경우일 것이다.

제안된 해결방법들은 적용된 QP를 증가시키거나 감소시키는 것을 포함한다. 그러나, 이것은 다양한 방식들로 달성될 수 있다:

HEVC에서, 2개의 크로마 채널들에 대한 QP 오프셋들은 비트 스트림에서 송신된다. +/- 3은 이들 오프셋들에 통합될 수 있거나, 그들이 크로마 QP를 도출하기 위해 사용될 때 증가/감소될 수 있다.

앞서 논의된 바와 같이, HEVC에서, (루마 QP + 크로마 오프셋)은 크로마 QP를 도출하기 위한 표에 대한 색인으로서 사용된다. 이 표는 +/- 3을 통합하도록 (즉, 오리지널 표의 값들을 3만큼 증가/감소시킴으로써) 변경될 수 있다.

정규 HEVC 처리에 따라 크로마 QP가 도출된 후, 그 결과는 3만큼 증가(또는 감소)될 수 있다.

QP를 변경하는 것에 대한 대안으로서, sqrt(2) 또는 1/sqrt(2)의 인자가 양자화 계수들을 변경하기 위해 사용될 수 있다.

순방향/역방향 양자화에 대하여, 양자화 계수 또는 양자화 단계 크기를 얻기 위한 표에 대한 색인(inverseQStep/scaledQStep)으로서 (QP % 6)을 사용함으로써 나눗셈/곱셈 처리들이 구현된다. (여기서, QP % 6은 QP 모듈로(modulo) 6을 의미한다) 앞서 논의된 바와 같이, 이것은 변환된 데이터에 적용되는 최종 양자화 단계 크기를 나타내지 않을 수 있으며; 그것은 사용 전에 Q행렬들에 의해 더욱 변경될 수 있다는 것을 주의하자.

HEVC의 디폴트 표들은 길이가 6이고, 값들의 옥타브(배가)를 커버한다. 이것은 단순히 저장소 요구사항들을 줄이는 수단이고; 표들은 실제 사용을 위해 QP의 모듈로(모드(mod) 6)에 따라 표 내의 엔트리를 선택한 후 미리 결정된 기저 값으로부터 (QP - QP 모듈로 6)의 차이에 따라, 2의 적절한 거듭제곱에 의해 곱셈 또는 나눗셈함으로써 확장된다.

이 구성은 QP 값 내에 +/-3의 오프셋을 허용하도록 변할 수 있다. 오프셋은 표 참조 처리에서 적용될 수 있거나, 앞서 설명된 모듈러스 처리가 대신 변경된 QP를 사용하여 수행될 수 있다. 오프셋이 표 참조에 적용됐다고 가정하면, 그러나 표 내의 부가적인 엔트리들이 다음과 같이 제공될 수 있다:

하나의 대안은 3개의 엔트리들만큼 표들을 확장하는 것이고, 여기서, 새로운 엔트리들은 (6-8의 색인 값들에 대하여) 다음을 따른다.

도 30에 나타낸 예시적인 표는 [(QP % 6) + 3] ("QP 증가 방법")으로 색인될 것이며, 여기서, 표시 QP % 6은 "QP 모듈러스 6"을 의미한다.

도 31에 나타낸 예시적인 표는 [(QP % 6) - 3] ("QP 감소 방법")으로 색인될 것이며, -1 내지 -3의 색인 값들에 대한 여분의 엔트리들을 갖는다.

엔트로피 인코딩

기초 엔트로피 인코딩은 입력 데이터 심볼들에 코드워드들을 할당하는 것을 포함하는데, 여기서, 최단의 가능한 코드워드들은 입력 데이터 내의 가장 가능성있는 심볼들에 할당된다. 대체로, 그 결과는 손실 없지만 입력 데이터의 훨씬 보다 작은 표현이다.

이 기본 방식은 심볼 가능성이 종종 최근의 이전 데이터에 따른다는 것을 인식하고 그 후 할당 처리를 콘택스트(context) 적응적으로 만듦으로써 더욱 개선될 수 있다. 이러한 방식에서, 콘택스트 변수들(context variables; CVs)이 각각의 가능성 모델들의 선택을 결정하는데 사용되고, 이러한 CV들이 HEVC 4:2:0 방식에서 제공된다.

엔트로피 인코딩을, 예를 들면, 8x8 루마 TU에 대하여 4x4 TU들보다는 4x8 크로마 TU들을 사용하는 4:2:2 방식으로 확장하기 위해, 선택적으로 단순히 등가의 CV 선택들을 수직으로 반복함으로써 콘택스트 변수들이 제공될 수 있다.

그러나, 본 발명의 일 실시예에서, CV 선택들은 좌측-상부 계수들(즉, 높은-에너지, DC 및/또는 낮은 공간 주파수 계수들)에 대해 반복되지 않고, 대신 새로운 CV들이 도출된다. 이 경우, 예를 들면, 매핑이 루마 맵으로부터 도출될 수 있다. 이 접근법은 또한 4:4:4 방식에 대해서 사용될 수 있다.

코딩 동안, 4:2:0 방식에서는, 소위 지그-스캔(zig-scan)이 높은 주파수에서 낮은 주파수의 순서로 계수들을 스캔한다. 그러나, 4:2:2 방식에서 크로마 TU들은 비-정사각형일 수 있으므로, 본 발명의 일 실시예에서, 스캔 각도가 보다 수평이 되도록 기울여지거나, 보다 일반적으로, TU의 가로세로 비에 따른 스캔 각도를 갖는 상이한 크로마 스캔이 제안된다는 것이 다시 주의된다.

유사하게, 중요한 맵 CV 선택에 대한 주변과 1 초과 및 2 초과의 CV 선택을 위한 c1/c2 시스템이 그에 따라 적응될 수 있다.

마찬가지로, 본 발명의 일 실시예에서, (디코딩 동안 시작점이 되는) 마지막의 중요한 계수 위치는 또한 4:4:4 방식에 대하여 조정될 수 있고, 크로마 TU들에 대한 마지막-중요한 위치들은 같은 장소에 위치된 루마 TU 내의 마지막-중요한 위치와 상이하게 코딩된다.

계수 스캐닝은 또한 어떤 TU 크기들에 대해 예측 모드 종속적이 될 수 있다. 따라서, 인트라-예측 모드에 따른 일부 TU 크기들에 대하여 상이한 스캔 순서가 사용될 수 있다.

4:2:0 방식에서, 모드 종속적 계수 스캐닝(mode dependent coefficient scanning; MDCS)이 인트라 예측을 위해 4x4/8x8 루마 TU들 및 4x4 크로마 TU들에 대해서만 적용된다. MDCS는, 수평 및 수직으로부터 +/-4인 각도들을 고려하면서, 인트라-예측 모드에 따라서 사용된다.

본 발명의 일 실시예에서, 4:2:2 방식에서, MDCS가 인트라 예측을 위해 4x8 및 8x4 크로마 TU들에 적용되는 것이 제안된다. 유사하게, 4:4:4 방식에서, MDCS가 8x8 및 4x4 크로마 TU들에 적용되는 것이 제안된다. 4:2:2에 대한 MDCS는 단지 수평 또는 수직 방향들로 수행될 수 있고, 각도 범위들은 4:4:4 크로마 대 4:4:4 루마 대 4:2:2 크로마 대 4:2:2 루마 대 4:2:0 루마에 대해서 상이할 수 있다.

루프-내 필터들

블록해제

블록해제가 모든 CU, PU, 및 TU 경계들에 적용되고, CU/PU/TU 모양은 고려되지 않는다. 필터 강도 및 크기는 국부적 통계에 따르고, 블록해제는 8x8 루마 화소들의 입상을 갖는다.

따라서, 4:2:0 방식에 대해 적용된 현재의 블록해제는 또한 4:2:2 및 4:4:4 방식들에 대해서 적용가능해야 한다고 기대된다.

샘플 적응형 오프셋팅

샘플 적응형 오프셋팅(sample adaptive offsetting; SAO)에서, 각각의 채널은 완벽히 개별적이다. SAO는 쿼드-트리를 사용하여 각각의 채널에 대해 이미지 데이터를 분할하고, 그 결과의 블록들은 크기가 적어도 1개의 LCU이다. 리프 블록들은 LCU 경계들에 정렬되고, 각각의 리프는 인코더에 의해 결정된 바와 같이 3개의 모드들("중앙 대역 오프셋", "측면 대역 오프셋", 또는 "모서리 오프셋") 중 하나에서 동작할 수 있다. 각각의 리프는 그것의 화소들을 분류하고, 인코더는 SAO 입력 데이터를 소스 데이터와 비교함으로써 16 범주들의 각각에 대한 오프셋 값을 도출한다. 이들 오프셋들은 디코더로 전송된다. 디코딩된 화소의 범주에 대한 오프셋은 소스로부터의 편차를 최소화하기 위해 그것의 값에 가산된다.

이외에, SAO는 사진 레벨에서 인에이블링 또는 디스에이블링되고; 루마에 대해 인에이블링되면, 그것은 각각의 크로마 채널에 대해 독립적으로 인에이블링될 수 있다. 따라서 SAO는 그것이 루마에 적용될 때만 크로마에 적용된다.

따라서, 그 처리는 대체로 기초 블록 방식에 투명하고, 4:2:0 방식에 적용되는 현재의 SAO는 또한 4:2:2 및 4:4:4 방식들에 대해 적용가능해야 한다고 기대된다.

적응형 루프 필터링

4:2:0 방식에서, 적응형 루프 필터링(adaptive loop filtering; ALF)은 디폴트에 의해 디스에이블링된다. 그러나, 원칙적으로(즉, 허용된다면) ALF는 크로마에 대한 전체 사진에 적용될 것이다.

ALF에서, 루마 샘플들은 HEVC 문서들에 의해 결정된 바와 같이, 다수의 범주들 중 하나로 정렬될 수 있고; 각각의 범주는 상이한 위이너(Wiener)-기반 필터를 사용한다.

반대로, 4:2:0에서는, 크로마 샘플들이 분류되지 않는다 - Cb에 대해서 단지 1개의 위이너-기반 필터가 있고, Cr에 대해서도 1개이다.

따라서, 본 발명의 일 실시예에서, 4:2:2 및 4:4:4 방식들에서 증가된 크로마 정보에 관련하여, 크로마 샘플들이, 예를 들면, 4:2:2에 대해서는 K 범주들로, 4:4:4에 대해서는 J 범주들로 분류되는 것이 제안된다.

4:2:0 방식에서, ALF는 (ALF 제어 깊이에 의해 특정된 CU-레벨에 이르기 까지) ALF 제어 플래그를 사용하여 매 CU-당에 기초하여 루마에 대해서 디스에이블링될 수 있지만, 그것은 단지 매 사진-당에 기초하여 크로마에 대해서 디스에이블링될 수 있다. HEVC에서, 이 깊이는 현재는 LCU 레벨에 까지만 제한된다는 것을 주의하자.

따라서, 본 발명의 일 실시예에서, 크로마에 대한 1개 또는 2개의 채널 특정 ALF 제어 플래그들이 4:2:2 및 4:4:4 방식들에 제공된다.

신택스

HEVC에서, 신택스는 4:2:0, 4:2:2, 또는 4:4:4 방식들을 표시하기 위해 이미 제공되며, 서열 레벨(sequence level)에서 제공된다. 그러나, 본 발명의 일 실시예에서, 이 레벨에서 4:4:4 GBR 코딩을 표시하는 것이 또한 제안된다.

데이터 신호들

앞서 설명된 코딩 장치, 및 저장소, 또는 신호들을 전달하는 송신 매체의 이형들에 의해 생성되는 데이터 신호들이 본 발명의 실시예들을 나타내기 위해 고려된다는 것이 인식될 것이다.

적어도 본 기술의 실시예들에 대한 다양한 각각의 양태들 및 특징들은 다음의 순서가 매겨진 항들에 의해 정의된다:

1. 4:4:4 포맷 또는 4:2:2 포맷 내의 휘도 및 크로미넌스 샘플들이 예측될 샘플들의 블록들에 연관된 예측 방향에 따라 다른 각각의 샘플들로부터 예측되는 비디오 코딩 또는 디코딩 방법에 있어서,

예측될 현재의 블록에 대한 예측 방향을 검출하는 단계;

상기 예측 방향에 의해 정의된 다른 크로미넌스 샘플들에 따라 크로미넌스 샘플들의 예측된 블록을 생성하는 단계;

검출된 예측 방향이 실질적으로 수직이면, 크로미넌스 샘플들의 상기 예측된 블록 내의 샘플들의 좌측 열을 필터링하거나, 검출된 예측 방향이 실질적으로 수평이면, 크로미넌스 샘플들의 상기 예측된 블록 내의 샘플들의 상부 행을 필터링하는 단계; 및

블록을 각각 인코딩 또는 디코딩하기 위해, 필터링된 예측된 크로미넌스 블록과 실제 크로미넌스 블록 간의 차이를 인코딩하거나, 필터링된 예측된 크로미넌스 블록에 디코딩된 차이를 적용하는 단계를 포함하는, 비디오 코딩 또는 디코딩 방법.

2. 제 1 항에 있어서, 상기 검출된 예측 방향이 실질적으로 수직이면, 상기 필터링하는 단계는 수평-방향 필터를 사용하여 샘플들의 상기 좌측 열을 필터링하는 단계를 포함하는, 비디오 코딩 또는 디코딩 방법.

3. 제 2 항에 있어서, 상기 필터링하는 단계는 샘플들의 단지 상기 좌측 열만을 필터링하는 단계를 포함하는, 비디오 코딩 또는 디코딩 방법.

4. 제 1 항에 있어서, 상기 검출된 예측 방향이 실질적으로 수평이면, 상기 필터링하는 단계는 수직-방향 필터를 사용하여 샘플들의 상기 상부 행을 필터링하는 단계를 포함하는, 비디오 코딩 또는 디코딩 방법.

5. 제 4 항에 있어서, 상기 필터링하는 단계는 샘플들의 단지 상기 상부 행만을 필터링하는 단계를 포함하는, 비디오 코딩 또는 디코딩 방법.

6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,

휘도 차이 데이터가 출력 비트스트림에 손실 없이 포함되어 있는지의 여부를 표시하는 단계; 및

독립적으로 크로미넌스 차이 데이터가 상기 비트스트림에 손실 없이 포함되어 있는지의 여부를 표시하는 단계를 포함하는, 비디오 코딩 또는 디코딩 방법.

7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,

상기 휘도 및 크로미넌스 샘플들은 4:4:4 포맷에 있고, 각각이 휘도 및 크로미넌스 샘플들의 블록을 포함하는 복수의 코딩 유닛들로 구성되고,

상기 검출하는 단계는 현재의 예측 유닛에 대한 예측 방향을 검출하도록 구성되고, 휘도 또는 크로미넌스 샘플들의 블록은 적어도 각각의 코딩 유닛의 서브세트를 나타내는, 비디오 코딩 또는 디코딩 방법.

8. 제 7 항에 있어서,

특정 코딩 유닛에 대하여, 각각이 휘도 및 크로미넌스 샘플들을 포함하는 하나 이상의 예측 유닛들의 크기 및 모양을 그 코딩 유닛으로부터 선택하는 단계를 포함하고,

상기 예측 유닛 크기 및 모양의 선택은 휘도 샘플들 및 크로미넌스 샘플들에 대해 동일한, 비디오 코딩 또는 디코딩 방법.

9. 휘도 및 크로미넌스 샘플들이 예측되고, 상기 샘플들과 각각의 예측된 샘플들 간의 차이가 인코딩되는 비디오 코딩 또는 디코딩 방법에 있어서,

10. 4:4:4 포맷의 휘도 및 크로미넌스 샘플들이 각각이 휘도 및 크로미넌스 샘플들의 블록을 포함하는 복수의 코딩 유닛들로 구성되는 비디오 코딩 또는 디코딩 방법에 있어서,

특정 코딩 유닛에 대하여, 각각이 휘도 또는 크로미넌스 샘플들을 포함하는 하나 이상의 예측 유닛들의 크기 및 모양을 적어도 그 코딩 유닛의 서브세트로부터 선택하는 단계로서, 상기 예측 유닛 크기 및 모양의 선택은 휘도 샘플들 및 크로미넌스 샘플들에 대해 동일한, 상기 선택하는 단계;

각각의 예측 유닛에 대한 예측 방향을 검출하는 단계; 및

상기 예측 방향에 의해 정의된 다른 샘플들에 따라 샘플들의 예측된 블록을 생성하는 단계를 포함하는, 비디오 코딩 또는 디코딩 방법.

11. 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금 제 1 항 내지 제 10 항 중 어느 한 항에 따른 방법을 수행하게 하는, 컴퓨터 소프트웨어.

12. 제 11 항에 따른 소프트웨어가 저장된, 기계-판독가능한 비-일시적 저장 매체.

13. 제 1 항 내지 제 10 항 중 어느 한 항의 방법에 따라 생성된 코딩된 데이터를 포함하는, 데이터 신호.

14. 4:4:4 포맷 또는 4:2:2 포맷 내의 휘도 및 크로미넌스 샘플들이 예측될 샘플들의 블록들에 연관된 예측 방향에 따라 다른 각각의 샘플들로부터 예측되는 비디오 코딩 또는 디코딩 장치에 있어서,

예측될 현재의 블록에 대한 예측 방향을 검출하도록 구성된 검출기;

상기 예측 방향에 의해 정의된 다른 크로미넌스 샘플들에 따라 크로미넌스 샘플들의 예측된 블록을 생성하도록 구성된 생성기;

필터로서, 검출된 예측 방향이 실질적으로 수직이면, 상기 필터는 크로미넌스 샘플들의 상기 예측된 블록 내의 샘플들의 좌측 열을 필터링하도록 구성되거나, 검출된 예측 방향이 실질적으로 수평이면, 상기 필터는 크로미넌스 샘플들의 상기 예측된 블록 내의 샘플들의 상부 행을 필터링하도록 구성된, 상기 필터; 및

블록을 각각 인코딩 또는 디코딩하기 위해, 필터링된 예측된 크로미넌스 블록과 실제 크로미넌스 블록 간의 차이를 인코딩하거나, 필터링된 예측된 크로미넌스 블록에 디코딩된 차이를 적용하도록 구성된 코더(coder)를 포함하는, 비디오 코딩 또는 디코딩 장치.

15. 휘도 및 크로미넌스 샘플들이 예측되고, 샘플들과 각각의 예측된 샘플들 간의 차이가 인코딩되는 비디오 코딩 또는 디코딩 장치에 있어서,

휘도 차이 데이터가 출력 비트스트림에 손실 없이 포함되어 있는지의 여부를 표시하고; 독립적으로 크로미넌스 차이 데이터가 상기 비트스트림에 손실 없이 포함되어 있는지의 여부를 표시하도록 구성된 표시기를 포함하는, 비디오 코딩 또는 디코딩 장치.

16. 4:4:4 포맷의 휘도 및 크로미넌스 샘플들이, 각각이 휘도 및 크로미넌스 샘플들의 블록을 포함하는 복수의 코딩 유닛들로 구성되는 비디오 코딩 또는 디코딩 장치에 있어서,

특정 코딩 유닛에 대하여, 각각이 휘도 또는 크로미넌스 샘플들을 포함하는 하나 이상의 예측 유닛들의 크기 및 모양을 적어도 그 코딩 유닛의 서브세트로부터 선택하도록 구성된 선택기로서, 상기 예측 유닛 크기 및 모양의 선택은 휘도 샘플들 및 크로미넌스 샘플들에 대해 동일한, 상기 선택기;

각각의 예측 유닛에 대한 예측 방향을 검출하도록 구성된 검출기; 및

상기 예측 방향에 의해 정의된 다른 샘플들에 따라 샘플들의 예측된 블록을 생성하도록 구성된 생성기를 포함하는, 비디오 코딩 또는 디코딩 장치.

적어도 본 기술의 실시예들에 대한 다양한 추가의 각각의 양태들 및 특징들은 다음의 순서가 매겨진 항들에 의해 정의된다:

예측될 현재의 블록에 대한 예측 방향을 검출하는 단계;

필터링된 예측된 크로미넌스 블록과 실제 크로미넌스 블록 간의 차이를 인코딩하는 단계를 포함하는, 비디오 코딩 또는 디코딩 방법.

5. 제 4 항에 있어서, 상기 필터링하는 단계는 샘플들의 단지 상부 행만을 필터링하는 단계를 포함하는, 비디오 코딩 또는 디코딩 방법.

6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,

7. 휘도 및 크로미넌스 샘플들이 예측되고, 상기 샘플들과 각각의 예측된 샘플들 간의 차이가 인코딩되는 비디오 코딩 또는 디코딩 방법에 있어서,

8. 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금 제 1 항 내지 제 7 항 중 어느 한 항에 따른 방법을 수행하게 하는, 컴퓨터 소프트웨어.

9. 제 8 항에 따른 소프트웨어가 저장된, 기계-판독가능한 비-일시적 저장 매체.

10. 제 1 항 내지 제 7 항 중 어느 한 항의 방법에 따라 생성된 코딩된 데이터를 포함하는, 데이터 신호.

11. 4:4:4 포맷 또는 4:2:2 포맷 내의 휘도 및 크로미넌스 샘플들이 예측될 샘플들의 블록들에 연관된 예측 방향에 따라 다른 각각의 샘플들로부터 예측되는 비디오 코딩 또는 디코딩 장치에 있어서,

필터링된 예측된 크로미넌스 블록과 실제 크로미넌스 블록 간의 차이를 인코딩하도록 구성된 인코더를 포함하는, 비디오 코딩 또는 디코딩 장치.

12. 휘도 및 크로미넌스 샘플들이 예측되고, 샘플들과 각각의 예측된 샘플들 간의 차이가 인코딩되는 비디오 코딩 또는 디코딩 장치에 있어서,

휘도 차이 데이터가 출력 비트스트림에 손실 없이 포함되어 있는지의 여부를 표시하고, 독립적으로 크로미넌스 차이 데이터가 상기 비트스트림에 손실 없이 포함되어 있는지의 여부를 표시하도록 구성된 표시기를 포함하는, 비디오 코딩 또는 디코딩 장치.

본 발명의 실시예들이 적어도 부분적으로 소프트웨어-제어되는 데이터 처리 장치에 의해 구현되는 것으로 설명되어 있는 한, 이러한 소프트웨어를 기억하고 있는 광학 디스크, 자기 디시크, 반도체 메모리 등과 같은 비-일시적 기계-판독가능한 매체가 본 발명의 일 실시예를 나타내도록 또한 고려된다는 것이 인식될 것이다.

본 발명의 수많은 변경들 및 변화들이 앞서의 교시들에 관련하여 가능하다는 것이 인식될 것이다. 따라서, 첨부된 청구항들의 범위 내에서, 본 기술이 구체적으로 여기서 설명된 것과 다르게 실행될 수 있다는 것이 이해된다.

10: 오디오/비디오 신호 20: 압축 장치
30: 송신 루트 40: 압축해제 장치
120: 디스플레이

Claims

인트라-예측 4:4:4 비디오를 나타내는 코딩 유닛들로부터 비디오 데이터를 디코딩하기 위한 비디오 디코딩 방법으로서, 상기 코딩 유닛들은 휘도 및 크로미넌스 샘플들을 갖고 3개의 구성요소로 구성되는(arranged) 예측 유닛들을 포함하고, 상기 비디오 디코딩 방법은,
각각의 구성요소에 대한 선택된 예측 유닛에 관한 예측 방향을 검출하는 단계;
상기 예측 방향에 따라 샘플들의 예측된 블록을 생성하는 단계; 및
샘플들의 상기 예측된 블록 내의 샘플들의 좌측 열 및 샘플들의 상기 예측된 블록 내의 샘플들의 상부 행 중 하나를 필터링하는 단계
를 포함하고,
상기 필터링하는 단계는 단지 하나의 구성요소의 예측 유닛들로부터의 샘플들의 예측된 블록들에 적용되는, 비디오 디코딩 방법.
제1항에 있어서,
상기 단지 하나의 구성요소는 휘도 구성요소인, 비디오 디코딩 방법.
제1항 또는 제2항에 있어서,
4:4:4 비디오에 대해, 상기 필터링하는 단계는 2개의 크로미넌스 구성요소의 예측 유닛들에 적용되지 않는, 비디오 디코딩 방법.
제1항 또는 제2항에 있어서,
상기 비디오 디코딩 방법은 휘도 블록들에 대한 예측 데이터에서의 블록 기반 효과들을 감소시키는, 비디오 디코딩 방법.
제1항 또는 제2항에 있어서,
상기 디코딩은,
잔상 비디오 데이터를 엔트로피 디코딩하는 단계;
상기 잔상 비디오 데이터를 역양자화하는 단계;
상기 잔상 비디오 데이터를 역변환하고, 상기 잔상 비디오를 상기 예측된 비디오 데이터와 결합하고 상기 결합에 블록해제 필터를 적용하는 단계
를 더 포함하는, 비디오 디코딩 방법.
제5항에 있어서,
상기 블록해제 필터를 적용하는 단계는 변환에 의해 도입된 효과들을 제거 또는 감소시키는, 비디오 디코딩 방법.
제1항 또는 제2항에 있어서,
상기 3개의 구성요소 중 하나는 크로미넌스 구성요소이고,
상기 크로미넌스 구성요소는 서브샘플링되지 않는, 비디오 디코딩 방법.
제1항 또는 제2항에 있어서,
상기 예측 방향이 수평이면 샘플들의 상기 상부 행을 필터링하는 단계를 포함하는, 비디오 디코딩 방법.
제1항 또는 제2항에 있어서,
상기 예측 방향이 수직이면 샘플들의 상기 좌측 열을 필터링하는 단계를 포함하는, 비디오 디코딩 방법.
인트라-예측 4:4:4 비디오를 나타내는 코딩 유닛들로부터 비디오 데이터를 디코딩하기 위한 비디오 디코딩 장치로서, 상기 코딩 유닛들은 휘도 및 크로미넌스 샘플들을 갖고 3개의 구성요소로 구성되는 예측 유닛들을 포함하고, 상기 비디오 디코딩 장치는,
각각의 구성요소에 대한 선택된 예측 유닛에 관한 예측 방향을 검출하도록 구성된 검출기;
상기 예측 방향에 따라 샘플들의 예측된 블록을 생성하도록 구성된 생성기; 및
샘플들의 상기 예측된 블록 내의 샘플들의 좌측 열 및 샘플들의 상기 예측된 블록 내의 샘플들의 상부 행 중 하나를 필터링하도록 구성된 필터링 회로
를 포함하고,
상기 필터링은 단지 하나의 구성요소의 예측 유닛들로부터의 샘플들의 예측된 블록들에 적용되는, 비디오 디코딩 장치.
제10항에 있어서,
상기 단지 하나의 구성요소는 휘도 구성요소인, 비디오 디코딩 장치.
제10항 또는 제11항에 있어서,
4:4:4 비디오에 대해, 상기 필터링은 2개의 크로미넌스 구성요소의 예측 유닛들에 적용되지 않는, 비디오 디코딩 장치.
제10항 또는 제11항에 있어서,
상기 필터링은 휘도 블록들에 대한 예측 데이터에서의 블록 기반 효과들을 감소시키는, 비디오 디코딩 장치.
제10항 또는 제11항에 있어서,
상기 비디오 디코딩 장치는,
잔상 비디오 데이터를 디코딩하기 위한 엔트로피 디코더;
상기 잔상 비디오 데이터를 역양자화하기 위한 역양자화기;
상기 잔상 비디오 데이터를 역변환하고, 상기 잔상 비디오를 상기 예측된 비디오 데이터와 결합하고 상기 결합에 블록해제 필터를 적용하도록 구성된 회로
를 더 포함하는, 비디오 디코딩 장치.
제14항에 있어서,
상기 블록해제 필터는 변환에 의해 도입된 효과들을 제거 또는 감소시키는, 비디오 디코딩 장치.
제10항 또는 제11항에 있어서,
상기 3개의 구성요소 중 하나는 크로미넌스 구성요소이고,
상기 크로미넌스 구성요소는 서브샘플링되지 않는, 비디오 디코딩 장치.
제10항 또는 제11항에 있어서,
상기 예측 방향이 수평으로 검출되면 필터링 회로가 샘플들의 상기 상부 행을 필터링하는, 비디오 디코딩 장치.
제10항 또는 제11항에 있어서,
상기 예측 방향이 수직으로 검출되면 필터링 회로가 샘플들의 상기 좌측 열을 필터링하는, 비디오 디코딩 장치.
제10항 또는 제11항의 비디오 디코딩 장치를 포함하는 비디오 캡처 디바이스로서, 캡처되고 디코딩된 비디오 데이터가 출력되는 디스플레이를 더 포함하는 비디오 캡처 디바이스.
제10항 또는 제11항에 따른 비디오 디코딩 장치를 포함하는 비디오 수신 디바이스.
인트라-예측 4:4:4 비디오를 나타내는 코딩 유닛들로부터 비디오 데이터를 인코딩하기 위한 비디오 코딩 방법으로서, 상기 코딩 유닛들은 휘도 및 크로미넌스 샘플들을 갖고 3개의 구성요소로 구성되는 예측 유닛들을 포함하고, 상기 비디오 코딩 방법은,
각각의 구성요소에 대한 선택된 예측 유닛에 관한 예측 방향을 검출하는 단계;
상기 예측 방향에 따라 샘플들의 예측된 블록을 생성하는 단계; 및
샘플들의 상기 예측된 블록 내의 샘플들의 좌측 열 및 샘플들의 상기 예측된 블록 내의 샘플들의 상부 행 중 하나를 필터링하는 단계
를 포함하고,
상기 필터링하는 단계는 단지 하나의 구성요소의 예측 유닛들로부터의 샘플들의 예측된 블록들에 적용되는, 비디오 코딩 방법.
제21항에 있어서,
상기 단지 하나의 구성요소는 휘도 구성요소인, 비디오 코딩 방법.
제21항 또는 제22항에 있어서,
4:4:4 비디오에 대해, 상기 필터링하는 단계는 2개의 크로미넌스 구성요소의 예측 유닛들에 적용되지 않는, 비디오 코딩 방법.
제21항 또는 제22항에 있어서,
상기 비디오 코딩 방법은 휘도 블록들에 대한 예측 데이터에서의 블록 기반 효과들을 감소시키는, 비디오 코딩 방법.
제21항 또는 제22항에 있어서,
상기 인코딩은,
잔상 비디오 데이터를 엔트로피 인코딩하는 단계;
상기 잔상 비디오 데이터를 양자화하는 단계;
상기 잔상 비디오 데이터를 변환하고, 상기 잔상 비디오를 상기 예측된 비디오 데이터와 결합하고 상기 결합에 블록해제 필터를 적용하는 단계
를 더 포함하는, 비디오 코딩 방법.
제25항에 있어서,
상기 블록해제 필터를 적용하는 단계는 변환에 의해 도입된 효과들을 제거 또는 감소시키는, 비디오 코딩 방법.
제21항 또는 제22항에 있어서,
상기 3개의 구성요소 중 하나는 크로미넌스 구성요소이고,
상기 크로미넌스 구성요소는 서브샘플링되지 않는, 비디오 코딩 방법.
제21항 또는 제22항에 있어서,
상기 예측 방향이 수평이면 샘플들의 상기 상부 행을 필터링하는 단계를 포함하는, 비디오 코딩 방법.
제21항 또는 제22항에 있어서,
상기 예측 방향이 수직이면 샘플들의 상기 좌측 열을 필터링하는 단계를 포함하는, 비디오 코딩 방법.
인트라-예측 4:4:4 비디오를 나타내는 코딩 유닛들로부터 비디오 데이터를 인코딩하기 위한 비디오 코딩 장치로서, 상기 코딩 유닛들은 휘도 및 크로미넌스 샘플들을 갖고 3개의 구성요소로 구성되는 예측 유닛들을 포함하고, 상기 비디오 코딩 장치는,
각각의 구성요소에 대한 선택된 예측 유닛에 관한 예측 방향을 검출하도록 구성된 검출기;
상기 예측 방향에 따라 샘플들의 예측된 블록을 생성하도록 구성된 생성기; 및
샘플들의 상기 예측된 블록 내의 샘플들의 좌측 열 및 샘플들의 상기 예측된 블록 내의 샘플들의 상부 행 중 하나를 필터링하도록 구성된 필터링 회로
를 포함하고,
상기 필터링은 단지 하나의 구성요소의 예측 유닛들로부터의 샘플들의 예측된 블록들에 적용되는, 비디오 코딩 장치.
제30항에 있어서,
상기 단지 하나의 구성요소는 휘도 구성요소인, 비디오 코딩 장치.
제30항 또는 제31항에 있어서,
4:4:4 비디오에 대해, 상기 필터링은 2개의 크로미넌스 구성요소의 예측 유닛들에 적용되지 않는, 비디오 코딩 장치.
제30항 또는 제31항에 있어서,
상기 필터링은 휘도 블록들에 대한 예측 데이터에서의 블록 기반 효과들을 감소시키는, 비디오 코딩 장치.
제30항 또는 제31항에 있어서,
상기 비디오 코딩 장치는,
잔상 비디오 데이터를 인코딩하기 위한 엔트로피 인코더;
상기 잔상 비디오 데이터를 양자화하기 위한 양자화기;
상기 잔상 비디오 데이터를 변환하고, 상기 잔상 비디오를 상기 예측된 비디오 데이터와 결합하고 상기 결합에 블록해제 필터를 적용하도록 구성된 회로
를 더 포함하는, 비디오 코딩 장치.
제34항에 있어서,
상기 블록해제 필터는 변환에 의해 도입된 효과들을 제거 또는 감소시키는, 비디오 코딩 장치.
제30항 또는 제31항에 있어서,
상기 3개의 구성요소 중 하나는 크로미넌스 구성요소이고,
상기 크로미넌스 구성요소는 서브샘플링되지 않는, 비디오 코딩 장치.
제30항 또는 제31항에 있어서,
상기 예측 방향이 수평으로 검출되면 필터링 회로가 샘플들의 상기 상부 행을 필터링하는, 비디오 코딩 장치.
제30항 또는 제31항에 있어서,
상기 예측 방향이 수직으로 검출되면 필터링 회로가 샘플들의 상기 좌측 열을 필터링하는, 비디오 코딩 장치.
제30항 또는 제31항의 비디오 코딩 장치를 포함하는 비디오 캡처 디바이스.