KR20230158506A

KR20230158506A - 비대칭 이진 트리를 사용하는 행렬 기반 인트라 예측

Info

Publication number: KR20230158506A
Application number: KR1020237032415A
Authority: KR
Inventors: 파브리스 르 리네크; 카람 나세르; 티에리 두마스; 프랑크 갈핀
Original assignee: 인터디지털 씨이 페이튼트 홀딩스, 에스에이에스
Priority date: 2021-03-22
Filing date: 2022-03-15
Publication date: 2023-11-20
Also published as: WO2022200130A1; CN117546468A; EP4315861A1; US20240163443A1; BR112023019178A2

Abstract

비대칭 이진 트리(ABT) 파티셔닝 모드 및 행렬 기반 인트라 예측(MIP)을 공동으로 사용하기 위한 몇몇 방법들이 설명된다. 제1 실시예에서, ABT 파티셔닝으로부터 생성된 블록 크기들에 대해, MIP 인트라 예측 모드의 사용을 금지하는 것이 제안된다. 제2 실시예에서, MIP 이전에 블록을 확장하고 MIP 이후에 예측된 블록을 원래 크기로 크롭핑함으로써, 폭 또는 높이가 2의 거듭제곱과 동일하지 않은 블록 크기들에 대해 MIP 인트라 예측을 허용하는 것이 제안된다. 제3 실시예에서, 경계 기준 샘플들의 다운샘플링 및 축소된 예측된 블록들의 업샘플링을 ABT 파티셔닝에 의해 도입된 블록 크기들에 적응시키는 것이 제안된다. 추가의 실시예에서, 초기 블록 크기가 일정 방향에서 8 이상인 임의의 경우에, 축소된 예측된 블록이 크기 8 × 8로 설정된다.

Description

비대칭 이진 트리를 사용하는 행렬 기반 인트라 예측

본 실시예들은 대체적으로 비디오 인코딩 또는 디코딩에서 비대칭 이진 트리를 사용하는 행렬 기반 인트라 예측을 위한 방법 및 장치에 관한 것이다.

높은 압축 효율을 달성하기 위해, 이미지 및 비디오 코딩 스킴들은 일반적으로 예측을 채용하고, 비디오 콘텐츠에서 공간적 및 시간적 리던던시(redundancy)를 레버리징(leveraging)하도록 변환한다. 대체적으로, 인트라 또는 인터 예측은 인트라 또는 인터 픽처 상관관계를 이용하는 데 사용되고, 이어서, 종종 예측 오류들 또는 예측 잔차들로 표시되는, 원래 블록과 예측된 블록 사이의 차이들은 변환되고, 양자화되고, 엔트로피 코딩된다. 비디오를 재구성하기 위해, 압축 데이터는 엔트로피 코딩, 양자화, 변환, 및 예측에 대응하는 역 프로세스들에 의해 디코딩된다.

일 실시예에 따르면, 비디오 인코딩 또는 디코딩의 방법이 제공되며, 상기 방법은: 픽처의 블록에 액세스하는 단계 - 상기 블록의 폭 및 높이 중 적어도 하나는 2의 거듭제곱과는 상이함 -; 상기 블록의 상기 폭 또는 높이에 적응된 다운샘플링 비율로, 기준 샘플들을 다운샘플링하는 단계; 축소된 예측된 블록을 형성하기 위해 다운샘플링된 기준들을 가중치 행렬과 곱하는 단계; 및 상기 블록에 대한 인트라 예측을 형성하기 위해 상기 블록의 상기 폭 또는 높이에 적응된 업샘플링 비율로, 상기 축소된 예측된 블록을 업샘플링하는 단계를 포함한다.

다른 실시예에 따르면, 비디오 인코딩 또는 디코딩을 위한 장치가 제시되고, 상기 장치는 하나 이상의 프로세서들을 포함하고, 상기 하나 이상의 프로세서들은: 픽처의 블록에 액세스하도록 - 상기 블록의 폭 및 높이 중 적어도 하나는 2의 거듭제곱과는 상이함 -; 상기 블록의 상기 폭 또는 높이에 적응된 다운샘플링 비율로, 기준 샘플들을 다운샘플링하도록; 축소된 예측된 블록을 형성하기 위해 다운샘플링된 기준들을 가중치 행렬과 곱하도록; 그리고 상기 블록에 대한 인트라 예측을 형성하기 위해 상기 블록의 상기 폭 또는 높이에 적응된 업샘플링 비율로, 상기 축소된 예측된 블록을 업샘플링하도록 구성된다.

다른 실시예에 따르면, 비디오 인코딩 또는 디코딩을 위한 장치가 제시되고, 상기 장치는: 픽처의 블록에 액세스하기 위한 수단 - 상기 블록의 폭 및 높이 중 적어도 하나는 2의 거듭제곱과는 상이함 -; 상기 블록의 상기 폭 또는 높이에 적응된 다운샘플링 비율로, 기준 샘플들을 다운샘플링하기 위한 수단; 축소된 예측된 블록을 형성하기 위해 다운샘플링된 기준들을 가중치 행렬과 곱하기 위한 수단; 및 상기 블록에 대한 인트라 예측을 형성하기 위해 상기 블록의 상기 폭 또는 높이에 적응된 업샘플링 비율로, 상기 축소된 예측된 블록을 업샘플링하기 위한 수단을 포함한다.

하나 이상의 실시예들은 또한, 하나 이상의 프로세서들에 의해 실행될 때, 하나 이상의 프로세서들로 하여금, 전술된 실시예들 중 임의의 것에 따른 인코딩 방법 또는 디코딩 방법을 수행하게 하는 명령어들을 포함하는 컴퓨터 프로그램을 제공한다. 본 실시예 중 하나 이상은 또한 전술한 방법에 따라 비디오 데이터를 인코딩 또는 디코딩하기 위한 명령이 저장된 컴퓨터 판독 가능한 저장 매체를 제공한다.

하나 이상의 실시예들은 또한, 전술된 방법들에 따라 생성된 비트스트림이 저장된 컴퓨터 판독가능 저장 매체를 제공한다. 하나 이상의 실시예들은 또한, 전술된 방법들에 따라 생성된 비트스트림을 송신하거나 또는 수신하기 위한 방법 및 장치를 제공한다.

도 1은 본 실시예들의 태양들이 구현될 수 있는 시스템의 블록도를 예시한다.
도 2는 비디오 인코더의 일 실시예의 블록도를 예시한다.
도 3은 비디오 디코더의 일 실시예의 블록도를 예시한다.
도 4는 압축된 범용 비디오 코딩(Versatile Video Coding, VVC) 픽처를 표현하기 위한 코딩 트리 단위(Coding Tree Unit, CTU) 및 코딩 단위(Coding Unit, CU) 개념들을 도시한다.
도 5는 코딩 단위들, 예측 단위들 및 변환 단위들로의 코딩 트리 단위의 분할(division)을 예시한다.
도 6은 예측 단위들로의 코딩 단위들의 파티셔닝을 예시한다.
도 7은 VVC에서의 쿼드 트리 플러스 이진 트리(Quad-Tree Plus Binary-Tree, QTBT) CTU 표현을 예시한다.
도 8은 CU 분할 모드(splitting mode)들의 세트를 예시한다.
도 9는 비대칭 이진 트리(Asymmetric Binary Tree, ABT) 코딩 툴에 의해 도입된 추가적인 CU 이진 비대칭 분할 모드들을 예시한다.
도 10은 수평 및 수직 삼중 트리 분할 모드를 포함하는, 가능한 CU 분할 모드들의 확장된 세트를 예시한다.
도 11은 VVC 표준에 따른 4 × 4 블록에 대한 행렬 기반 인트라 예측(Matrix-based Intra Prediction, MIP)에서의 아핀 선형 가중 인트라 예측 프로세스(affine linear weighted intra prediction process)를 예시한다.
도 12는 VVC 표준에 따른 8 × 8 블록에 대한 MIP에서의 아핀 선형 가중 인트라 예측 프로세스를 예시한다.
도 13은 VVC 표준에 따른 8 × 4 블록에 대한 MIP에서의 아핀 선형 가중 인트라 예측 프로세스를 예시한다.
도 14는 VVC 표준에 따른 16 × 16 블록에 대한 MIP에서의 아핀 선형 가중 인트라 예측 프로세스를 예시한다.
도 15는 VVC에 특정된 바와 같은 MIP 예측 프로세스를 예시한다.
도 16은 일 실시예에 따른, 12 × 12 블록에 대한 행렬 기반 인트라 예측 프로세스를 예시한다.
도 17은 일 실시예에 따른, 예측할 블록의 상위 집합(superset)인 확대된 블록의 MIP 예측을 예시한다.
도 18은 일 실시예에 따른 MIP 예측 프로세스를 예시한다.
도 19는 일 실시예에 따른, 축소된 예측된 블록의 업샘플링의 적응을 예시한다.
도 20은 일 실시예에 따른, 블록 크기 12의 경우에 대한 적응된 업샘플링 비율을 예시한다.
도 21은 일 실시예에 따른, 축소된 예측된 블록 크기 8로부터 최종 예측된 블록 크기 12로의 업샘플링을 예시한다.
도 22는 일 실시예에 따른, 축소된 예측된 블록 크기 8로부터 최종 예측된 블록 크기 12로의 업샘플링에 대한 3/2의 비율을 예시한다.
도 23은 일 실시예에 따른, 크기 8의 축소된 예측된 블록을 최종 블록 크기 12를 향해 업샘플링하는 것에 대해 3/2의 비율을 갖는 업샘플링을 예시한다.

도 1은 다양한 태양들 및 실시예들이 구현될 수 있는 시스템의 일례의 블록도를 도시한다. 시스템(100)은 후술되는 다양한 컴포넌트들을 포함하는 디바이스로서 구현될 수 있으며, 본 출원에 기술된 태양들 중 하나 이상을 수행하도록 구성된다. 그러한 디바이스들의 예들에는 개인용 컴퓨터들, 랩톱 컴퓨터들, 스마트폰들, 태블릿 컴퓨터들, 디지털 멀티미디어 셋톱 박스들, 디지털 텔레비전 수신기들, 개인용 비디오 녹화 시스템들, 연결형 가전 제품들, 및 서버들과 같은 다양한 전자 디바이스들이 포함되지만, 이들로 제한되지 않는다. 시스템(100)의 요소들은 단일 집적 회로, 다수의 IC들, 및/또는 별개의 컴포넌트들에, 단독으로 또는 조합되어 구현될 수 있다. 예를 들어, 적어도 하나의 실시예에서, 시스템(100)의 프로세싱 및 인코더/디코더 요소들은 다수의 IC들 및/또는 별개의 컴포넌트들에 걸쳐 분산된다. 다양한 실시예들에서, 시스템(100)은, 예를 들어 통신 버스를 통해 또는 전용 입력 및/또는 출력 포트들을 통해, 다른 시스템들에 또는 다른 전자 디바이스들에 통신가능하게 커플링된다. 다양한 실시예들에서, 시스템(100)은 본 출원에 기술된 태양들 중 하나 이상을 구현하도록 구성된다.

시스템(100)은, 예를 들어 본 출원에 기술된 다양한 태양들을 구현하기 위해 내부에 로딩된 명령어들을 실행하도록 구성된 적어도 하나의 프로세서(110)를 포함한다. 프로세서(110)는 임베딩된 메모리, 입출력 인터페이스 및 당업계에 알려진 바와 같은 다양한 다른 회로부들을 포함할 수 있다. 시스템(100)은 적어도 하나의 메모리(120)(예컨대, 휘발성 메모리 디바이스, 및/또는 비휘발성 메모리 디바이스)를 포함한다. 시스템(100)은 저장 디바이스(140)를 포함하며, 이는 EEPROM, ROM, PROM, RAM, DRAM, SRAM, 플래시, 자기 디스크 드라이브, 및/또는 광학 디스크 드라이브를 포함하지만 이들로 제한되지 않는 비휘발성 메모리 및/또는 휘발성 메모리를 포함할 수 있다. 비제한적인 예로서, 저장 디바이스(140)는 내부 저장 디바이스, 부착된 저장 디바이스 및/또는 네트워크 액세스가능 저장 디바이스를 포함할 수 있다.

예를 들어, 시스템(100)은 데이터를 프로세싱하여 인코딩된 비디오 또는 디코딩된 비디오를 제공하도록 구성된 인코더/디코더 모듈(130)을 포함하고, 인코더/디코더 모듈(130)은 그 자신의 프로세서 및 메모리를 포함할 수 있다. 인코더/디코더 모듈(130)은 인코딩 및/또는 디코딩 기능들을 수행하기 위해 디바이스에 포함될 수 있는 모듈(들)을 나타낸다. 알려진 바와 같이, 디바이스는 인코딩 및 디코딩 모듈들 중 하나 또는 둘 모두를 포함할 수 있다. 또한, 인코더/디코더 모듈(130)은 시스템(100)의 별개의 요소로서 구현될 수 있거나, 또는 당업자에게 알려진 바와 같이 하드웨어와 소프트웨어의 조합으로서 프로세서(110) 내에 통합될 수 있다.

본 출원에 기술된 다양한 태양들을 수행하기 위해 프로세서(110) 또는 인코더/디코더(130) 상에 로딩될 프로그램 코드는 저장 디바이스(140)에 저장되고, 이어서 프로세서(110)에 의한 실행을 위해 메모리(120) 상에 로딩될 수 있다. 다양한 실시예들에 따르면, 프로세서(110), 메모리(120), 저장 디바이스(140) 및 인코더/디코더 모듈(130) 중 하나 이상은 본 출원에 기술된 프로세스들의 수행 동안 다양한 항목들 중 하나 이상을 저장할 수 있다. 저장된 그러한 항목들은 입력 비디오, 디코딩된 비디오 또는 디코딩된 비디오의 부분들, 비트스트림, 행렬, 변수, 및 식, 공식, 연산 및 연산 로직의 프로세싱으로부터의 중간 또는 최종 결과들을 포함할 수 있지만, 이들로 제한되지 않는다.

여러 실시예들에서, 프로세서(110) 및/또는 인코더/디코더 모듈(130) 내부의 메모리는 명령어들을 저장하기 위해 그리고 인코딩 또는 디코딩 동안 필요한 프로세싱을 위한 작업 메모리를 제공하기 위해 사용된다. 그러나, 다른 실시예들에서, 프로세싱 디바이스(예를 들어, 프로세싱 디바이스는 프로세서(110) 또는 인코더/디코더 모듈(130) 중 어느 하나일 수 있음) 외부의 메모리가 이러한 기능들 중 하나 이상에 사용된다. 외부 메모리는 메모리(120) 및/또는 저장 디바이스(140), 예를 들어, 동적 휘발성 메모리 및/또는 비휘발성 플래시 메모리일 수 있다. 여러 실시예들에서, 외부 비휘발성 플래시 메모리가 텔레비전의 운영 체제를 저장하는 데 사용된다. 적어도 하나의 실시예에서, RAM과 같은 고속, 외부 동적 휘발성 메모리는 MPEG-2, 고효율 비디오 코딩(High Efficiency Video Coding, HEVC), 또는 VVC에 대한 것과 같은 비디오 코딩 및 디코딩 동작들을 위한 작업 메모리로서 사용된다.

시스템(100)의 요소들에 대한 입력은 블록(105)에 나타낸 바와 같은 다양한 입력 디바이스들을 통해 제공될 수 있다. 그러한 입력 디바이스들은 (i) 예를 들어, 브로드캐스터에 의해 무선으로 송신되는 RF 신호를 수신하는 RF 부분, (ii) 복합 입력 단자(Composite input terminal), (iii) USB 입력 단자, 및/또는 (iv) HDMI 입력 단자를 포함하지만, 이들로 제한되지 않는다.

다양한 실시예들에서, 블록(105)의 입력 디바이스들은 당업계에 알려진 바와 같은 연관된 각자의 입력 프로세싱 요소들을 갖는다. 예를 들어, RF 부분은, (i) 원하는 주파수를 선택하는 것(신호를 선택하는 것, 또는 신호를 주파수들의 대역으로 대역-제한하는 것으로도 지칭됨), (ii) 선택된 신호를 하향 변환(downconvert)하는 것, (iii) (예를 들어) 소정 실시예들에서 채널로 지칭될 수 있는 신호 주파수 대역을 선택하기 위해 주파수들의 더 좁은 대역으로 다시 대역-제한하는 것, (iv) 하향 변환되고 대역-제한된 신호를 복조하는 것, (v) 오류 정정을 수행하는 것, 및 (vi) 데이터 패킷들의 원하는 스트림을 선택하기 위해 역다중화하는 것에 적합한 요소들과 연관될 수 있다. 다양한 실시예들의 RF 부분은 이러한 기능들을 수행하기 위한 하나 이상의 요소들, 예를 들어 주파수 선택기들, 신호 선택기들, 대역-제한기들, 채널 선택기들, 필터들, 하향변환기들, 복조기들, 오류 보정기들, 및 역다중화기들을 포함한다. RF 부분은, 예를 들어, 수신된 신호를 더 낮은 주파수(예를 들어, 중간 주파수 또는 기저대역 근접 주파수(near-baseband frequency))로 또는 기저대역으로 하향변환하는 것을 포함하여, 다양한 이들 기능들을 수행하는 동조기를 포함할 수 있다. 하나의 셋톱 박스 실시예에서, RF 부분 및 그의 연관된 입력 프로세싱 요소는 유선(예를 들어, 케이블) 매체를 통해 송신된 RF 신호를 수신하고, 원하는 주파수 대역에 대해 필터링, 하향변환, 및 다시 필터링함으로써 주파수 선택을 수행한다. 다양한 실시예들은 전술한(및 다른) 요소들의 순서를 재배열하고, 이들 요소들 중 일부를 제거하고/하거나 유사하거나 상이한 기능들을 수행하는 다른 요소들을 추가한다. 요소들을 추가하는 것은 기존 요소들 사이에 요소들을 삽입하는 것, 예를 들어, 증폭기들 및 아날로그-대-디지털 변환기를 삽입하는 것을 포함할 수 있다. 다양한 실시예들에서, RF 부분은 안테나를 포함한다.

추가로, USB 및/또는 HDMI 단자들은 USB 및/또는 HDMI 접속을 통해 다른 전자 디바이스들에 시스템(100)을 접속시키기 위한 각자의 인터페이스 프로세서들을 포함할 수 있다. 입력 프로세싱, 예를 들어, 리드 솔로몬(Reed-Solomon) 오류 보정의 다양한 태양들이, 예를 들어, 필요에 따라, 별개의 입력 프로세싱 IC 내에서 또는 프로세서(110) 내에서 구현될 수 있다는 것이 이해되어야 한다. 유사하게, USB 또는 HDMI 인터페이스 프로세싱의 태양들이, 필요에 따라, 별개의 인터페이스 IC들 내에서 또는 프로세서(110) 내에서 구현될 수 있다. 복조되고, 오류 보정되고, 역다중화된 스트림은, 출력 디바이스 상의 프레젠테이션을 위해 필요에 따라 데이터스트림을 프로세싱하기 위해, 예를 들어, 프로세서(110), 및 메모리 및 저장 요소들과 조합하여 동작하는 인코더/디코더(130)를 포함하는 다양한 프로세싱 요소들에 제공된다.

시스템(100)의 다양한 요소들이 집적 하우징 내에 제공될 수 있다. 집적 하우징 내에서, 다양한 요소들은 I2C 버스, 배선 및 인쇄 회로 기판들을 포함한 적합한 접속 배열물(115), 예를 들어, 당업계에 알려져 있는 바와 같은 내부 버스를 사용하여, 상호접속될 수 있고 그들 사이에서 데이터를 송신할 수 있다.

시스템(100)은 통신 채널(190)을 통해 다른 디바이스들과의 통신을 가능하게 하는 통신 인터페이스(150)를 포함한다. 통신 인터페이스(150)는 통신 채널(190)을 통해 데이터를 송수신하도록 구성되는 송수신기를 포함할 수 있지만, 이로 제한되지 않는다. 통신 인터페이스(150)는 모뎀 또는 네트워크 카드를 포함할 수 있지만 이로 제한되지 않으며, 예를 들어, 통신 채널(190)이 유선 및/또는 무선 매체 내에서 구현될 수 있다.

데이터는, 다양한 실시예들에서, IEEE 802. 11과 같은 Wi-Fi 네트워크를 사용하여 시스템(100)으로 스트리밍된다. 이러한 실시예들의 Wi-Fi 신호는 Wi-Fi 통신들에 대해 적응된 통신 채널(190) 및 통신 인터페이스(150)를 통해 수신된다. 이러한 실시예들의 통신 채널(190)은 전형적으로, 스트리밍 애플리케이션들 및 다른 오버더톱(over-the-top) 통신들을 허용하기 위한 인터넷을 포함하는 외부 네트워크들에 대한 액세스를 제공하는 액세스 포인트 또는 라우터에 접속된다. 다른 실시예들은 입력 블록(105)의 HDMI 접속을 통해 데이터를 전달하는 셋톱 박스를 사용하여 스트리밍된 데이터를 시스템(100)에 제공한다. 또 다른 실시예들은 입력 블록(105)의 RF 접속을 사용하여 스트리밍된 데이터를 시스템(100)에 제공한다.

시스템(100)은 디스플레이(165), 스피커(175), 및 다른 주변 디바이스들(185)을 포함하는 다양한 출력 디바이스들에 출력 신호를 제공할 수 있다. 다른 주변 디바이스들(185)은, 실시예들의 다양한 예들에서, 독립형 DVR, 디스크 플레이어, 스테레오 시스템, 조명 시스템, 및 시스템(100)의 출력에 기초하여 기능을 제공하는 다른 디바이스들 중 하나 이상을 포함한다. 다양한 실시예들에서, 제어 신호들은, 사용자 개입으로 또는 사용자 개입 없이 디바이스-대-디바이스 제어를 가능하게 하는 AV.Link, CEC, 또는 다른 통신 프로토콜들과 같은 시그널링을 사용하여 시스템(100)과 디스플레이(165), 스피커들(175), 또는 다른 주변 디바이스들(185) 사이에서 통신된다. 출력 디바이스들은 각자의 인터페이스들(160, 170, 180)을 통한 전용 접속들을 통해 시스템(100)에 통신가능하게 커플링될 수 있다. 대안적으로, 출력 디바이스들은 통신 인터페이스(150)를 통해 통신 채널(190)을 사용하여 시스템(100)에 접속될 수 있다. 디스플레이(165) 및 스피커(175)는 전자 디바이스, 예를 들어, 텔레비전에서 시스템(100)의 다른 컴포넌트들과 단일 유닛으로 통합될 수 있다. 다양한 실시예들에서, 디스플레이 인터페이스(160)는 디스플레이 드라이버, 예를 들어 타이밍 제어기(T Con) 칩을 포함한다.

예를 들어, 디스플레이(165) 및 스피커(175)는 대안적으로 입력(105)의 RF 부분이 별개의 셋톱 박스의 일부인 경우, 다른 컴포넌트들 중 하나 이상과 별개일 수 있다. 디스플레이(165) 및 스피커들(175)이 외부 컴포넌트들인 다양한 실시예들에서, 출력 신호는, 예를 들어 HDMI 포트들, USB 포트들, 또는 COMP 출력들을 포함하는 전용 출력 접속들을 통해 제공될 수 있다.

도 2는 범용 비디오 코딩(VVC) 인코더와 같은 예시적인 비디오 인코더(200)를 도시한다. 도 2는 또한, VVC 표준에 대한 개선들이 이루어지는 인코더, 또는 VVC와 유사한 기술들을 채용하는 인코더를 도시할 수 있다.

본 출원에서, "재구성된" 및 "디코딩된"이라는 용어들은 상호교환 가능하게 사용될 수 있고, "인코딩된" 또는 "코딩된"이라는 용어들은 상호교환 가능하게 사용될 수 있으며, "이미지", "픽처" 및 "프레임"이라는 용어들은 상호교환 가능하게 사용될 수 있다. 반드시 그렇지는 않지만, 일반적으로, "재구성된"이라는 용어는 인코더 측에서 사용되는 반면, "디코딩된"은 디코더 측에서 사용된다.

인코딩되기 전에, 비디오 시퀀스는, 예를 들어, 입력 컬러 픽처에 컬러 변환을 적용하거나(예를 들어, RGB 4:4:4로부터 YCbCr 4:2:0으로의 변환), 또는 (예를 들어, 컬러 성분들 중 하나의 성분의 히스토그램 등화를 사용하여) 압축에 더 탄력적인 신호 분포를 얻기 위해 입력 픽처 성분들의 재맵핑(remapping)을 수행하는, 사전 인코딩 프로세싱(201)을 거칠 수 있다. 메타데이터는 사전-프로세싱과 연관될 수 있고, 비트스트림에 부착될 수 있다.

인코더(200)에서 픽처는 후술되는 바와 같이 인코더 요소들에 의해 인코딩된다. 인코딩될 픽처는, 예를 들어 CU들의 단위들로 파티셔닝(202) 및 프로세싱된다. 각각의 유닛은, 예를 들어 인트라 또는 인터 모드를 사용하여 인코딩된다. 유닛이 인트라 모드에서 인코딩될 때, 그것은 인트라 예측을 수행한다(260). 인터 모드에서는 모션 추정(275) 및 보상(270)이 수행된다. 인코더는 유닛을 인코딩하기 위해 인트라 모드 또는 인터 모드 중 어느 것을 사용할지를 결정하고(205), 예를 들어 예측 모드 플래그에 의해 인트라/인터 결정을 나타낸다. 예측 잔차들은, 예를 들어 오리지널 이미지 블록에서 예측된 블록을 감산함으로써(210) 계산된다.

이어서, 예측 잔차들은 변환되고(225) 양자화된다(230). 양자화된 변환 계수들뿐만 아니라 모션 벡터들 및 다른 신택스 요소들은 엔트로피 코딩되어(245) 비트스트림을 출력한다. 인코더는 변환을 스킵할 수 있고, 비변환된 잔차 신호에 직접 양자화를 적용할 수 있다. 인코더는 변환 및 양자화 둘 모두를 우회할 수 있으며, 즉, 잔차는 변환 또는 양자화 프로세스들의 적용 없이 직접 코딩된다.

인코더는 인코딩된 블록을 디코딩하여 추가 예측들을 위한 기준을 제공한다. 양자화된 변환 계수들은 예측 잔차들을 디코딩하기 위해 탈양자화(de-quantize)되고(240) 역변환된다(250). 디코딩된 예측 잔차들 및 예측된 블록을 조합하여(255) 이미지 블록이 재구성된다. 인루프(in-loop) 필터들(265)이, 예를 들어, 인코딩 아티팩트들을 감소시키기 위해 디블록킹(deblocking)/SAO(Sample Adaptive Offset) 필터링을 수행하도록 재구성된 픽처에 적용된다. 필터링된 이미지는 기준 픽처 버퍼(280)에 저장된다.

도 3은 예시적인 비디오 디코더(300)의 블록도를 도시한다. 디코더(300)에서, 비트스트림은 후술되는 바와 같이 디코더 요소들에 의해 디코딩된다. 비디오 디코더(300)는 대체적으로 도 2에 기술된 바와 같은 인코딩 패스에 상반적인 디코딩 패스를 수행한다. 인코더(200)는 또한 대체적으로, 비디오 데이터를 인코딩하는 것의 일부로서 비디오 디코딩을 수행한다.

특히, 디코더의 입력은 비디오 인코더(200)에 의해 생성될 수 있는 비디오 비트스트림을 포함한다. 비트스트림은 변환 계수들, 모션 벡터들, 및 다른 코딩된 정보를 획득하기 위해 먼저 엔트로피 디코딩된다(330). 픽처 파티션 정보는 픽처가 어떻게 파티셔닝되는지를 나타낸다. 따라서, 디코더는 디코딩된 픽처 파티셔닝 정보에 따라 픽처를 분할할 수 있다(335). 변환 계수들은 예측 잔차들을 디코딩하기 위해 탈양자화되고(340) 역변환된다(350). 디코딩된 예측 잔차들 및 예측된 블록을 조합하여(355) 이미지 블록이 재구성된다. 예측된 블록은 인트라 예측(360) 또는 모션 보상된 예측(즉, 인터 예측)(375)으로부터 획득될 수 있다(370). 재구성된 이미지에 인루프 필터들(365)이 적용된다. 필터링된 이미지는 기준 픽처 버퍼(380)에 저장된다.

디코딩된 픽처는 사후 디코딩 프로세싱(385), 예를 들어, 사전 인코딩 프로세싱(201)에서 수행된 재맵핑 프로세스의 역을 수행하는 역 재맵핑 또는 역 컬러 변환(예컨대, YCbCr 4:2:0으로부터 RGB 4:4:4로의 변환)을 추가로 거칠 수 있다. 사후 디코딩 프로세싱은 사전 인코딩 프로세싱에서 도출되고 비트스트림에서 시그널링된 메타데이터를 사용할 수 있다.

HEVC 비디오 압축 표준에서, 픽처는 소위 코딩 트리 단위(CTU)들로 분할되는데, 그 크기는 전형적으로 64x64, 128x128, 또는 256x256 픽셀들이다. 각각의 CTU는 압축 도메인에서 코딩 트리에 의해 나타내진다. 도 4에 예시된 바와 같이, 코딩 트리는 CTU의 쿼드 트리 분할이며, 여기서 각각의 리프는 코딩 단위(CU)로 불린다.

이어서, 각각의 CU는 일부 인트라 또는 인터 예측 파라미터들(예측 정보)을 제공받는다. 그렇게 하기 위해, CU는 하나 이상의 예측 단위(PU)들로 공간적으로 파티셔닝되며, 각각의 PU는 일부 예측 정보를 할당받는다. 도 5에 예시된 바와 같이, 인트라 또는 인터 코딩 모드는 CU 레벨에서 할당된다.

예측 단위(들)로의 코딩 단위의 파티셔닝은 비트 스트림에서 시그널링되는 파티션 유형에 따라 행해진다. 인트라 코딩 단위의 경우, 도 6에 예시된 바와 같은, 파티션 유형들 2N × 2N 및 N × N만이 사용된다. 이는 단지 정사각형 예측 단위들만이 인트라 코딩 단위들에 사용됨을 의미한다. 반대로, 인터 코딩 단위들은 도 6에 도시된 바와 같은 모든 파티션 유형들을 사용할 수 있다.

HEVC 표준에 따르면, 코딩 단위들은 또한 변환 트리 후에, 재귀적 방식으로, 소위 변환 단위들로 분할된다. 따라서, 변환 트리는 코딩 단위의 쿼드 트리 분할이고, 변환 단위들은 변환 트리의 리프이다. 변환 단위는 고려되는 정사각형 공간 영역에 대응하는 각각의 픽처 컴포넌트의 정사각형 변환 블록들을 캡슐화한다. 변환 블록은 단일 컴포넌트 내의 샘플들의 정사각형 블록이며, 여기서 동일한 변환이 적용된다.

압축 도메인에서 더 유연한 방식으로 픽처 데이터를 표현하기 위해, VVC에서 쿼드 트리 플러스 이진 트리(QTBT)가 제안된다. QTBT는, 도 7에 예시된 바와 같이, 코딩 단위들이 쿼드 트리 방식 및 이진 트리 방식 둘 모두로 분할될 수 있는 코딩 트리로 이루어진다. 코딩 트리의 이러한 유연한 표현의 이점은, 그것이 HEVC 표준의 CU/PU/TU 배열에 비해 증가된 압축 효율을 제공한다는 것이다.

코딩 단위의 분할은, 예를 들어, 레이트 왜곡 최적화 절차를 통해 인코더 측에서 결정되며, 이는 최소 레이트 왜곡 비용을 갖는 CTU의 QTBT 표현을 결정하는 것으로 이루어진다.

QTBT 기술에서, CU는 정사각형 또는 직사각형 형상을 갖는다. 코딩 단위의 크기는 항상 2의 거듭제곱이고, 전형적으로 4 내지 128이다. 코딩 단위에 대한 이러한 다양한 직사각형 형상들에 더하여, 이러한 CTU 표현은 HEVC에 비해하기의 상이한 특성들을 갖는다.

● CTU의 QTBT 분해는 2개의 스테이지들로 이루어진다: 먼저 CTU는 쿼드 트리 방식으로 분할되고, 이어서 각각의 쿼드 트리 리프는 이진 방식으로 추가로 분할될 수 있다. 이는 도 7에 예시되어 있으며, 여기서 실선들은 쿼드 트리 분해 단계를 표현하고, 파선들은 쿼드 트리 리프들 내에 공간적으로 임베딩된 이진 분해를 표현한다.

● 인트라 슬라이스들에서, 루마 및 크로마 블록 파티셔닝 구조는 분리되고 독립적으로 결정된다.

● VVC 드래프트 6에서의 대부분의 코딩 단위들에 대하여, 대부분의 CU 코딩 모드들의 경우, 예측 단위들 또는 변환 단위로의 더 이상의 CU 파티셔닝이 채용되지 않는다. 다시 말하면, 각각의 코딩 단위는 체계적으로 단일 예측 단위(2N × 2N 예측 단위 파티션 유형) 및 단일 변환 단위(변환 트리로의 분할 없음)로 이루어진다. 이는, VVC 드래프트 6의 4개의 특정 코딩 모드들을 제외하고, 모든 VVC 코딩 단위들에 대해 참(true)이며, 여기서 하기의 PU 또는 TU 파티셔닝이 적용된다.

o 폭 또는 높이가 64보다 더 큰 CU의 경우, 지원되는 최대 변환 크기와 동일한 크기의 TU로의 CU의 타일링이 수행된다. 전형적으로, 최대 변환 크기는 64와 동일할 수 있다.

o ISP(intra sub-partition) 모드에서 코딩된 인트라 CU의 경우, CU는 사용되는 ISP 모드의 유형 및 CU의 형상에 따라, 2 또는 4개의 변환 단위들로 분할된다.

o SBT(sub-block transform) 모드에서 코딩된 인터 CU의 경우, CU는 2개의 변환 단위들로 분할되고, 생성된 TU 중 하나는 반드시 0과 동일한 잔차 데이터를 갖는다.

o GPM(Geometric Prediction Merge) 모드에서 코딩된 인터 CU의 경우, CU는 2개의 비-직사각형 예측 단위들로 이루어지고, 각각의 PU는 그 자신의 모션 데이터를 할당받는다.

● 수평 또는 수직 삼중 트리 분할 모드로 불리는 VVC 비디오 압축 표준에서 채택된 추가적인 CU 분할 모드는 코딩 단위(CU)를 3개의 서브 코딩 단위들(서브 CU들)로 분할하는 것으로 이루어지며, 이때 각자의 크기들은 고려되는 공간 분할의 방향으로 부모 CU 크기의 ¼, ½ 및 ¼과 동일하다. 그러한 VVC 코덱에 존재하는 CU 분할 모드들의 완전한 세트가 도 8에 도시되어 있다.

도 9에 도시된 바와 같이, 비대칭 이진 트리(ABT) 모드에서 비대칭 코딩 단위들이 사용될 수 있다. 특히, 비대칭 분할 모드로 불리는 이진 분할 모드로부터 생성되는, 새로운 직사각형 형상들을 갖는 코딩 단위들을 도입하는 것이 제안된다. 이러한 새로운 형상들은 폭 및/또는 높이가 과 동일한 크기들로 이루어진다. 추가로, 폭 또는 높이가 3의 크기 배수를 갖는 CU는 수평으로 또는 수직으로 이진 방식으로 추가로 분할될 수 있다.

결과적으로, 제안된 비대칭 이진 분할 모드들 중 하나, 예를 들어, HOR_UP(horizontal-up)을 통해 분할될 크기 (폭 및 높이)를 갖는 정사각형 코딩 단위는 각자의 직사각형 크기들 및 를 갖는 2개의 서브코딩 단위들로 이어질 것이다.

VVC로부터의 모든 분할 모드들 및 모든 ABT 분할 모드들을 사용할 때, 구상된 코딩 스킴에서 지원되는 가능한 파티션들의 세트가 도 10에 주어진다. 삼중 트리는, 고려되는 배향에서, 부모 CU에 비해 크기 (1/4, 1/2, 1/4)을 갖는 3개의 서브 CU들로 CU를 분할하는 것으로 이루어진다.

테스트될 때, 삼중 트리 및 비대칭 이진 트리 분할 모드들이 종종 사용되고, 이러한 추가적인 코딩 단위 토폴로지들이 원래 신호에 포함된 구조들 및 불연속성들과 공간적으로 매칭되는 코딩 구조들을 갖는 것에 도움을 주는 것이 관찰된다.

본 출원에서, VVC 압축 시스템의 상부에 비대칭 이진 트리(ABT) 분할 모드들을 도입할 때, 일부 VVC 코딩 툴들의 적응들이 제안된다. 하나의 실시예에서, VVC에서의 행렬 기반 인트라 예측(MIP) 툴과 ABT 파티셔닝의 사용을 효율적으로 조합하는 방법이 제안된다.

행렬 인트라 예측(Matrix Intra Prediction, MIP)

행렬 가중 인트라 예측(Matrix weighted intra prediction, MIP) 방법은 VVC에 새로 추가된 인트라 예측 기법이다. 폭 W 및 높이 H의 블록의 샘플들을 예측하기 위해, 행렬 가중 인트라 예측은 블록 좌측의 H개의 재구성된 이웃 경계 샘플들의 하나의 라인 및 블록 위의 W개의 재구성된 이웃 경계 샘플들의 하나의 라인을 입력으로서 취한다. 예측 신호의 생성은 이웃 샘플들의 평균화, 평균화된 샘플들과의 행렬 벡터 곱셈 및 선형 보간에 기초한다.

특히, MIP의 경우, 기준 샘플 생성 프로세스는 W개의 재구성된 상부 픽셀들 및 H개의 재구성된 좌측 픽셀들을 배타적으로 취하는 것으로 이루어진다. 이들 기준 샘플들은 필터링되지 않는다. 기준 샘플들을 평균화하여, 의 경우에 4개의 값들의 벡터가 그리고 더 큰 블록들에 대해 8개의 값들의 벡터가 생성된다. 평균화된 기준 샘플들의 벡터에 가중치들의 행렬을 곱한다. 결과는 원래 블록에서의 샘플들의 서브샘플링된 세트에 대한 축소된 예측 신호이다. 마지막으로, 현재 블록의 예측은 이전 단계로부터의 결과를 선형 보간함으로써 획득된다. 경계들을 보간하기 위해 초기 기준 샘플들이 사용된다.

행렬들 및 벡터들의 3개의 세트들()이 인코더가 선택하는 데 이용가능하다. 크기 의 블록들에 대하여, 세트 이 크기 의 개의 행렬들을 포함한다. 크기들 , 및 의 블록들에 대하여, 이 크기 의 8개의 행렬들로 이루어진다. 모든 다른 블록 형상들에 대하여, 세트 가 크기 의 6개의 행렬들로 이루어진다.

이웃 기준 샘플들을 평균화함으로써, 기준 샘플들은, 축소된 경계 벡터 에 연결된, 상부 및 좌측에서의 더 작은 경계들 및 로 축소된다. MIP 모드 및 블록 형상, 즉, 입력 벡터에 따라, 축소된 경계 가 하기와 같이 재배열된다:

이어서, 예측된 블록들에 대한 샘플들의 출력된 축소된 세트 는 다음과 같이 생성된다

.

4 × 4 블록에 대한 MIP 프로세스가 도 11에 예시되어 있다. 도 11의 축소된 예측된 블록은 항상 정사각형 형상이고 그의 크기는 하기와 같이 주어짐에 유의하는데:

여기서

가중치들의 행렬 A 및 오프셋 벡터 b는 로서의 모드 및 블록 형상에 따라 세트들 중에서 선택되며, 여기서 이고 m은 MIP 예측 모드와 동일하다.

및 블록의 경우에 상에서 수행되는 보간 프로세스들이 각각 도 12 및 도 13에 도시되어 있다. 더 큰 블록들의 경우, 블록에 대해 도 14에 도시된 바와 같이, 기준 샘플들은, 입력 벡터가 8개 샘플 길이이도록, 그룹화되고 평균화된다.

이러한 방법은 다음에 대응하는 세트들 를 저장하도록 요구한다

- 크기 의 개의 행렬들 및 크기 의 개의 오프셋들,

- 크기 의 8개의 행렬들 및 크기 의 개의 오프셋들,

- 크기 의 6개의 행렬들 및 크기 의 6개의 오프셋들.

도 15는 VVC에 특정된 바와 같은, 인코더 및 디코더 측들 상에서, 블록에 적용되는 전체 MIP 예측 프로세스를 나타낸다. 프로세스에 대한 입력은 예측할 루마 블록(또는 루마 코딩 블록)이다. 단계(1510)에서, 인코더 또는 디코더는 블록 크기 및 형상의 함수로서, 고려되는 루마 블록의 MIP 크기 파라미터 를 결정하며, 여기서 W 및 H는 각각 입력된 루마 블록의 폭 및 높이를 의미한다. 그것은 다음과 같이 결정된다:

현재 루마 블록의, 그것의 인트라 예측에 사용되는 상부 및 좌측 기준 샘플들의 2개의 세트들을 다운샘플링함으로써, 이러한 상부 및 좌측 기준 샘플들의 2개의 세트들은 동일한 크기들의 2개의 세트들로 축소된다. 로 표기된 이러한 크기는 2 또는 4와 동일하고,

로서 결정된다 (1520).

축소된 예측 크기는 단계(1530)에서 계산된다. 이어서, 기준 샘플들의 2개의 세트들이 단순한 평균화 다운샘플링 프로세스를 통해 다운샘플링된다(1540). 예를 들어, 기준 샘플들의 초기 세트와 축소된 세트 사이의 다운샘플링 비율이 4인 경우, 축소된 세트의 각각의 샘플은 초기 세트 내의 4개의 샘플들의 평균으로서 컴퓨팅되며, 그것의 공간 포지션들은 축소된 세트의 현재 컴퓨팅된 샘플에 대응한다.

단계(1550)에서, 축소된 예측된 블록이 MIP의 행렬 곱 기반 예측을 통해 컴퓨팅된다. 따라서, 축소된 예측된 블록이 로서 획득된다.

현재 루마 블록의 최종 예측은 축소된 예측된 블록을 현재 루마 블록의 크기 를 향해 업샘플링함으로써 컴퓨팅된다. 이러한 업샘플링은 간단한 이중 선형 보간 프로세스를 수반한다. 다시 말하면, 업샘플링된 예측된 블록의 각각의 샘플은, 공간 위치의 관점에서 그것을 둘러싸는, 축소된 예측된 블록의 2개의 샘플들의 가중된 평균으로서 컴퓨팅된다. 업샘플링은, 블록 형상 또는 블록 크기에 상관없이, 먼저 수평 방향(1560, 1570)으로 그리고 이어서 수직 방향(1580, 1590)으로 수행된다. 방법은 단계(1599)에서 종료된다.

현재 사양이 표 1에 나타나 있다(밑줄 그어진 부분은 MIP에 대한 것임). 인트라 모드에서의 각각의 코딩 단위(CU)에 대해, MIP 모드가 적용될지 또는 아닐지를 나타내는 플래그가 전송된다. MIP 모드가 적용될 경우, MIP 모드(신택스 요소 로부터 도출된 )가 시그널링된다. MIP 모드의 경우, 모드가 전치되는지 여부를 결정하는 전치 플래그 및 주어진 MIP 모드에 대해 어떤 행렬이 사용될지를 결정하는 MIP 모드 Id()가 하기와 같이 도출된다:

MIP 코딩 모드는 하기의 태양들을 고려함으로써 다른 코딩 툴들과 조화된다:

- LFNST는 큰 블록들 상에서의 MIP에 대해 사용가능하다. 여기서, 평면 모드의 LFNST 변환들이 사용된다.

- MIP에 대한 기준 샘플 도출은 정확히 종래의 인트라 예측 모드들에 대해서처럼 수행된다.

- MIP 예측에서 사용되는 업샘플링 단계의 경우, 원래 기준 샘플들이 다운샘플링된 샘플들 대신에 사용된다.

- 클립핑(Clipping)은 업샘플링 이전에 수행되며 업샘플링 이후에는 수행되지 않는다.

- MIP는 최대 변환 크기에 관계없이 64 × 64까지 허용된다.

- MIP 모드들의 수는 sizeId = 0에 대해 32이고, sizeId = 1에 대해 16이고, sizeId = 2에 대해 12이다.

[표 1]

제1 실시예: MIP와 ABT 사이의 정상적 상호 배제

제1 실시예에서, VVC 사양 내에서 MIP에 의해 현재 지원되지 않는 블록 크기들에 대해, MIP 인트라 예측 모드의 사용을 금지하는 것이 제안된다. 따라서, 현재 루마 블록 크기가 폭 또는 높이에서 2의 거듭제곱이 아닌 경우, 그 블록에 대해 MIP가 사용되지 않는다. 그러한 경우에, intra_mip_flag 신택스 요소가 비트 스트림에서 시그널링되지 않고, 디코더에 의해 거짓(false)으로 추론된다.

표 2는 루마 코딩 블록 레벨에서의 MIP 사용을 시그널링하는 데 사용되는 VVC 신택스에 대한 제안된 수정을 나타낸다. 알 수 있는 바와 같이, intra_mip_flag 신택스 요소를 시그널링하기 위한 조건은 다음과 같이 수정되며:

sps_mip_enabled_flag && (cbWidth & (cbWidth - 1))==0 && (cbHeight & (cbHeight - 1))==0

이는 MIP가 (VVC 사양에서와 같이) 시퀀스 레벨에서 활성화되어야 함을 의미하고, 하기의 2개의 조건들은 참이어야 하는데:

여기서, 은 와 사이의 비트단위 논리 AND 연산을 표현한다. 조건 은, 이 2의 거듭제곱인 경우에 그리고 그러한 경우에만, 참이다. 따라서, 루마 코딩 블록의 폭 및 높이 둘 모두가 2의 거듭제곱과 동일한 경우, intra_mip_flag 요소가 시그널링된다.

[표 2]

인코딩 프로세스의 관점에서, 본 실시예는, 폭 또는 높이가 2의 거듭제곱과는 상이한 크기를 갖는 루마 코딩 블록에 대한 인트라 예측 모드 결정 동안, MIP 인트라 예측 모드는 후보 예측 모드로서 전혀 평가되지 않는다는 것을 암시한다.

제2 실시예: 더 큰 블록으로서 예측하고 MIP 예측된 블록을 크롭핑(cropping)하도록 ABT 블록을 처리함

제2 실시예에서, 폭 또는 높이가 2의 거듭제곱과 동일하지 않은 블록 크기들에 대해 MIP 인트라 예측을 허용하는 것이 제안된다. 그렇게 하기 위해, MIP 예측 프로세스가 현재 블록 크기보다 더 큰 블록을 예측하는 데 사용된다. 이는 상부 및 좌측 기준 샘플들의 라인들의 패딩을 통해 가능하며, 이는 각도 인트라 예측 모드들에 대한 VVC 인트라 예측 프로세스에서 이미 발생하고 있다. 따라서, MIP 모드는 확장된 상부 및 좌측 기준 샘플들에 의해, 현재 루마 블록보다 더 큰 예측된 블록을 컴퓨팅한다. 이어서, 예측된 루마 블록은 현재 루마 블록의 크기로 크롭핑된다. 이는, 폭 또는 높이가 2의 거듭제곱과 동일하지 않은 크기를 갖는 최종 예측된 루마 블록을 제공한다.

도 16은 이러한 실시예에 따른 MIP 프로세스를 예시한다. 알 수 있는 바와 같이, 변경되지 않는 MIP 예측 프로세스를 (그러나 고려되는 루마 코딩 블록(예컨대, 12 × 12 블록)보다 더 큰 공간 영역(예컨대, 16 × 16)에 걸쳐) 채용하는 것이 제안된다. MIP 예측 이전의 패딩 동작 및 MIP 예측 이후의 크롭핑만이 MIP 인트라 예측 프로세스에 추가된다.

도 17은 본 실시예에 따른 전체 예측 프로세스를 예시한다. 이러한 프로세스에 대한 입력은 예측할 루마 블록이며, 이때 크기는 이다. 단계(1710)에서, 인코더 또는 디코더는, 도 16에 예시된 바와 같이, 각도 인트라 예측에 대해 행해지는 바와 같이, 현재 블록의 상부 및 좌측 기준 샘플들의 확장된 세트를 준비한다.

단계(1720)에서, 인코더 또는 디코더는 폭 이 2의 거듭제곱인지 여부를 검사한다. 그렇지 않은 경우, MIP 예측 동안 고려되는 블록 폭 W는 보다 더 높은 2의 최소 거듭제곱과 동일하게 설정된다: (1740). 그렇지 않으면, W는 단순히 으로 설정된다(1730). 단계(1750)에서, 인코더 또는 디코더는 높이 이 2의 거듭제곱인지 여부를 검사한다. 그렇지 않은 경우, MIP 예측 동안 고려되는 블록 높이 H는 보다 더 높은 2의 최소 거듭제곱과 동일하게 설정된다: (1770). 그렇지 않으면, H는 단순히 으로 설정된다(1760).

도 17에서 파선들로 둘러싸인 다음의 프로세스는, 크기 를 갖는 임시 블록 상에 MIP 인트라 예측 프로세스를 적용하는 것(예컨대, 도 15에 도시된 바와 같은 프로세스를 사용함)으로 이루어진다. 이는 크기 를 갖는 MIP 예측된 블록을 생성한다. 이어서, 크기 가 입력 크기 보다 더 큰 경우(1780), MIP 예측된 블록은 도 16에 도시된 바와 같이, 그것의 하부 및 우측 부분을 제거함으로써, 크기 에 이르기까지 크롭핑된다(1790). 방법은 단계(1799)에서 종료된다.

이러한 실시예의 이점은 제1 실시예와 비해 증가된 코딩 효율이다. 실제로, 이러한 실시예는, 폭 및 높이가 2의 거듭제곱과 동일한 크기를 갖는 다른 블록들에 대해서처럼, ABT 파티셔닝으로부터 생성된 블록들에 대해 MIP 인트라 예측으로부터의 이익을 취할 수 있게 한다.

제3 실시예: 경계의 다운샘플링 및 축소된 예측된 블록의 업샘플링의 ABT에의 적응

제3 실시예에서, 경계 기준 샘플들의 다운샘플링 및 축소된 예측된 블록들의 업샘플링을 ABT 파티셔닝에 의해 도입된 새로운 블록 크기들에 적응시키는 것이 제안된다.

제안된 수정된 MIP 인트라 예측 프로세스는, 각각 크기 12 × 12를 갖는 입력 블록 및 크기 8 × 24를 갖는 입력 블록의 경우에 대한, 도 18 및 도 19에 예시되어 있다.

본 실시예에 따르면, 기준 샘플 다운샘플링 비율은 초기 블록 크기 및 축소된 타깃 경계 크기에 적응된다. 예를 들어, 가 1 또는 2와 동일한 경우, 축소된 경계 크기들은 4와 동일하다. 추가로, 블록 크기 폭 또는 높이가 12와 동일한 경우, 다운샘플링 비율은 3과 동일하다(예컨대, 도 18). 블록 크기 폭 또는 높이가 24와 동일한 경우, 다운샘플링 비율은 6과 동일하다(예컨대, 도 19).

이어서, 기준 샘플들의 상부 및 좌측 라인들을 다운샘플링하는 것에 대한 MIP의 평균화는 추가적인 서브샘플링 비율들을 지원하도록 확장되며, 이는 과 동일하고, n은 전형적으로 1과 3 사이로 구성된다. 인자 N으로 샘플들 를 다운샘플링하는 데 사용되는 대체적인 평균화는 다음과 같다:

비율 3을 갖는 하드웨어 친화적 다운샘플링이 제안되며, 하기의 정수 기반 프로세스가 제안된다:

비율 6을 갖는 하드웨어 친화적 다운샘플링이 제안되며, 하기의 정수 기반 프로세스가 제안된다:

보다 대체적으로, 충분히 양호한 정확도 레벨을 갖는 의 비율에 의한 평균화는 하기의 프로세스를 통해 하드웨어로 용이하게 구현된다:

적응된 경계 축소 프로세스에 더하여, 축소된 예측된 것의 업샘플링이 또한 새로 도입된 블록 크기들에 적응된다.

그렇게 하기 위해, 업샘플링 비율 이 또한 프로세스에서 지원된다. MIP에서의 업샘플링은 2개의 샘플들 과 사이의 이중 선형 보간으로서 수행되며, 이는 하기의 대체적인 형태 하의 과 사이의 보간된 샘플 를 컴퓨팅하며:

여기서 r은 업샘플링 비율이다. 2의 거듭제곱과 동일한 블록 크기들의 경우, 상기 보간은 하드웨어 친화적 방식으로 구현하기 용이하고 간단하다. ABT를 갖는 새로 도입된 블록 크기들의 경우, 업샘플링 비율은 형태 의 것이다.

상기 근사화된 보간이 본 실시예에서, 제안된 보간 프로세스의 정확도 충분한 정수 기반 구현으로서 사용된다.

도 15에 도시된 바와 같은 방법은 이러한 실시예에 따라 수정된 MIP 예측 프로세스를 수행하도록 수정될 수 있다. 예를 들어, 기준 샘플 다운샘플링(1540) 및 축소된 예측된 블록 업샘플링(1570, 1590)이 전술한 바와 같이 수정된다. 추가적으로, MIP 크기 의 컴퓨팅(1510)은 또한 ABT와 MIP의 조합에 적응된다. 이는, 폭 또는 높이가 12와 동일한 블록 크기의 경우에, 를 1로 설정하는 것으로 이루어진다. 이러한 방식으로, 축소된 기준 라인들은 크기 8에 있는 것이 아니라 크기 4의 것일 것이다. 이는 블록 배향에서 3의 다운샘플링 비율로 이어지며, 여기서 그것의 크기는 12이다. 이는, 전술한 바와 같은, 정수 비율 3에 의한 간단한 다운샘플링 프로세스를 제공하며, 이는 하드웨어로 구현하기 용이하다. 이는 또한, 수직 배향의 고려된 수평에서 3과 동일한 비율을 갖는 축소된 예측된 블록의 업샘플링으로 이어지며, 이는 또다시 하드웨어로 구현하기 용이하다.

본 실시예의 이점은 증가된 코딩 효율이다. 이를 예시하기 위해, 표 3은 제2 실시예와 비교한 본 실시예의 성능을 나타낸다.

[표 3]

위의 다운샘플링 프로세스의 변형에 따르면, 3과 동일한 비율을 갖는 다운샘플링의 경우, 평균화 가중치들 [1, 2, 1]이 평균화 가중치들 [1, 1, 1] 대신에 사용된다. 이는 하기의 평균화 연산으로 이어지며:

이는 하드웨어로 구현하기 훨씬 더 간단하다.

동일한 방식으로, 6의 비율에 의한 다운샘플링은 하기와 같은, 가중치들의 세트 [1, 1, 2, 2, 1, 1]를 갖는 단순화된 가중된 평균화를 수반할 수 있으며:

이는 또한, 이전에 제안된 접근법보다 하드웨어로 구현하기 더 간단하다.

제4 실시예: ABT에 대한 축소된 예측된 블록의 업샘플링을 위한 대안적인 방법들

도 20에 예시된 바와 같은 추가의 실시예에 따르면, 적응된 MIP 예측은, 초기 블록 크기가 일정 방향에서 적어도 8 이상인 임의의 경우에, 크기 8 × 8의 축소된 예측된 블록을 컴퓨팅한다. 이전 실시예들과의 차이점은, 12와 동일한 초기 블록 크기의 경우, 3/2의 업샘플링 비율이 사용된다는 것이다.

그렇게 하기 위해, 도 21에 예시된 바와 같은, 특정 보간 프로세스가 필요하다. 특정 연산들은 전형적으로, 업샘플링될 신호 내의 샘플들에 비해 0이 아닌 위상 상대적 포지션을 갖는 보간된 샘플들의 컴퓨팅에 관한 것이다. 이는 전형적으로 도 22의 샘플 및 이다.

도 22의 및 를 컴퓨팅하기 위해, 하기의 연산들이 수행되며:

, 여기서 이고 이다.

이는 다음으로 이어진다:

유사하게는, 다음과 같다.

다른 샘플들의 컴퓨팅은 및 의 것과 유사하여, 크기 12를 갖는 업샘플링된 신호를 획득한다.

이러한 실시예에서 제안된 바와 같은 MIP 예측 프로세스는 도 23에 나타내진다. 이미 설명된 바와 같이, 도 15의 것과 비교하여 이러한 실시예에 의해 수정된 단계들은 기준 샘플들의 다운샘플링(2310), 및 최종 예측된 블록을 향한 축소된 예측된 블록의 업샘플링에 관한 것이다. 수정들은, 수평 및 수직 업샘플링 스테이지들에 대해 연속적으로, 업샘플링 비율이 3/2과 동일한지 또는 아닌지를 검사하는 것(2320, 2340)으로 이루어진다. 그렇지 않은 경우, 업샘플링 비율은 도 15의 실시예에 비해 변경되지 않는다. 그것이 3/2과 동일한 경우, 전술한 바와 같은, 비율 3/2에 대한 제안된 업샘플링이 적용된다(2330, 2350).

다양한 방법들이 본 명세서에 기술되고, 각각의 방법은 기술된 방법을 달성하기 위한 하나 이상의 단계들 또는 액션들을 포함한다. 방법의 적절한 동작을 위해 단계들 또는 액션들의 특정 순서가 요구되지 않는 한, 특정 단계들 및/또는 액션들의 순서 및/또는 사용은 수정되거나 조합될 수 있다. 부가적으로, "제1", "제2" 등의 용어는 다양한 실시예들에서 예를 들어, "제1 디코딩" 및 "제2 디코딩"과 같이 요소, 컴포넌트, 단계, 동작 등을 수식하는 데 사용될 수 있다. 그러한 용어들의 사용은, 구체적으로 요구되지 않는 한 수정된 동작들에 대한 순서화를 의미하지 않는다. 따라서, 이러한 예에서, 제1 디코딩은 제2 디코딩 전에 수행될 필요가 없고, 예를 들어, 제2 디코딩 전에, 그 동안, 또는 그와 중첩되는 기간에 발생할 수 있다.

본 출원에서 기술된 다양한 방법들 및 다른 태양들은 모듈들, 예를 들어 도 2 및 도 3에 도시된 바와 같은 비디오 인코더(200) 및 디코더(300)의 파티셔닝 및 인트라 예측 모듈들(202, 260, 335, 360)을 수정하는 데 사용될 수 있다. 또한, 본 태양들은 VVC 또는 HEVC로 제한되지 않으며, 예를 들어, 다른 표준들 및 권고들, 및 임의의 그러한 표준들 및 권고들의 확장들에 적용될 수 있다. 달리 나타내지 않거나, 또는 기술적으로 배제되지 않는 한, 본 출원에 기술되는 태양들은 개별적으로 또는 조합하여 사용될 수 있다.

다양한 수치 값들이 본 출원에서 사용된다. 특정 값들은 예시적인 목적들을 위한 것이며, 기술된 태양들은 이들 특정 값들로 제한되지 않는다.

다양한 구현예들이 디코딩을 수반한다. 본 출원에서 사용된 바와 같은 "디코딩"은, 디스플레이에 적합한 최종 출력을 생성하기 위해 예를 들어, 수신된 인코딩된 시퀀스에 대해 수행된 프로세스들의 전부 또는 일부를 포함할 수 있다. 다양한 실시예들에서, 그러한 프로세스들은 디코더에 의해 전형적으로 수행되는 프로세스들 중 하나 이상의 프로세스들, 예를 들어, 엔트로피 디코딩, 역양자화(inverse quantization), 역변환, 및 차동 디코딩을 포함한다. 어구 "디코딩 프로세스"가 동작들의 서브세트를 구체적으로 나타내기 위한 것인지, 또는 대체적으로 보다 광의의 디코딩 프로세스를 나타내기 위한 것인지 여부는 특정 설명들의 맥락에 기초하여 명확할 것이며, 당업자에 의해 잘 이해될 것으로 여겨진다.

다양한 구현예들이 인코딩을 수반한다. "디코딩"에 관한 상기의 논의와 유사한 방식으로, 본 출원에서 사용된 바와 같은 "인코딩"은 인코딩된 비트스트림을 생성하기 위해 예를 들어, 입력 비디오 시퀀스에 대해 수행된 프로세스들의 전부 또는 일부를 포함할 수 있다.

본 명세서에 사용된 바와 같은 신택스 요소들은 설명적 용어들임에 유의한다. 이와 같이, 이들은 다른 신택스 요소 명칭들의 사용을 배제하지 않는다.

본 명세서에 기술된 구현예들 및 태양들은, 예를 들어, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림, 또는 신호에서 구현될 수 있다. 단일 형태의 구현예의 맥락에서만 논의되더라도(예를 들어, 방법으로서만 논의됨), 논의된 특징들의 구현예는 또한 다른 형태들(예를 들어, 장치 또는 프로그램)로 구현될 수 있다. 장치는, 예를 들어, 적절한 하드웨어, 소프트웨어, 및 펌웨어로 구현될 수 있다. 방법들은, 예를 들어 컴퓨터, 마이크로프로세서, 집적 회로, 또는 프로그램가능 로직 디바이스를 포함하는, 대체적으로 프로세싱 디바이스들로 지칭되는 프로세서와 같은 장치에서 구현될 수 있다. 프로세서들은 또한 예를 들어 컴퓨터, 셀룰러폰, 휴대용/개인 휴대 정보 단말기("PDA"), 및 최종 사용자들 사이의 정보의 통신을 용이하게 하는 다른 디바이스와 같은 통신 디바이스들을 포함한다.

"하나의 실시예" 또는 "일 실시예" 또는 "하나의 구현예" 또는 "일 구현예"뿐만 아니라 그의 다른 변형들에 대한 언급은, 실시예와 관련하여 기술된 특정 특징부, 구조, 특성 등이 적어도 하나의 실시예에 포함됨을 의미한다. 따라서, 본 출원 전반에 걸친 다양한 곳에서 나타나는 어구 "하나의 실시예에서" 또는 "일 실시예에서" 또는 "하나의 구현예에서" 또는 "일 구현예에서"뿐만 아니라 임의의 다른 변형들의 출현들이 반드시 모두 동일한 실시예를 언급하는 것은 아니다.

또한, 본 출원은 다양한 피스들의 정보들을 "결정하는 것"을 언급할 수 있다. 정보를 결정하는 것은, 예를 들어, 정보를 추정하는 것, 정보를 계산하는 것, 정보를 예측하는 것, 또는 메모리로부터 정보를 검색하는 것 중 하나 이상을 포함할 수 있다.

또한, 본 출원은 다양한 피스들의 정보에 "액세스하는 것"을 언급할 수 있다. 정보에 액세스하는 것은, 예를 들어, 정보를 수신하는 것, (예를 들어, 메모리로부터) 정보를 검색하는 것, 정보를 저장하는 것, 정보를 이동시키는 것, 정보를 복사하는 것, 정보를 계산하는 것, 정보를 결정하는 것, 정보를 예측하는 것, 또는 정보를 추정하는 것 중 하나 이상을 포함할 수 있다.

또한, 본 출원은 다양한 피스들의 정보를 "수신하는 것"을 언급할 수 있다. 수신하는 것은 "액세스하는 것"과 마찬가지로 광의의 용어인 것으로 의도된다. 정보를 수신하는 것은, 예를 들어, 정보에 액세스하는 것, 또는 (예를 들어, 메모리로부터) 정보를 검색하는 것 중 하나 이상을 포함할 수 있다. 또한, "수신"하는 것은 전형적으로 예를 들어 정보를 저장하는 것, 정보를 프로세싱하는 것, 정보를 송신하는 것, 정보를 이동시키는 것, 정보를 복사하는 것, 정보를 소거하는 것, 정보를 계산하는 것, 정보를 결정하는 것, 정보를 예측하는 것, 또는 정보를 추정하는 것과 같은 동작들 동안, 하나의 방식으로 또는 다른 방식으로 수반된다.

예를 들어 다음의 "A/B", "A 및/또는 B" 및 "A 및 B 중 적어도 하나"의 경우들에서 "/", "및/또는", 및 "적어도 하나" 중 임의의 것의 사용은 제1 열거된 옵션(A) 단독의 선택, 또는 제2 열거된 옵션(B) 단독의 선택, 또는 옵션들(A 및 B) 둘 모두의 선택을 포함하도록 의도됨을 이해해야 한다. 또 다른 예로서, "A, B 및/또는 C" 및 "A, B 및 C 중 적어도 하나"의 경우들에서, 그러한 어구는 제1 열거된 옵션(A) 단독의 선택, 또는 제2 열거된 옵션(B) 단독의 선택, 또는 제3 열거된 옵션(C) 단독의 선택, 또는 제1 및 제2 열거된 옵션들(A 및 B) 단독의 선택, 또는 제1 및 제3 열거된 옵션들(A 및 C) 단독의 선택, 또는 제2 및 제3 열거된 옵션들(B 및 C) 단독의 선택, 또는 3개의 모든 옵션들(A, B 및 C)의 선택을 포함하도록 의도된다. 이는, 본 명세서에 기술된 바와 같은 많은 항목들에 대해, 본 명세서 및 관련 분야의 당업자에게 명백한 바와 같이 확장될 수 있다.

또한, 본 명세서에 사용된 바와 같이, 용어 "신호"는 특히 대응하는 디코더에게 무언가를 나타내는 것을 지칭한다. 예를 들어, 소정 실시예들에서, 인코더는 탈양자화를 위한 양자화 행렬을 시그널링한다. 이러한 방식으로, 일 실시예에서, 동일한 파라미터가 인코더 측 및 디코더 측 둘 모두에서 사용된다. 따라서, 예를 들어, 인코더는 디코더가 동일한 특정 파라미터를 사용할 수 있도록 디코더에 특정 파라미터를 송신할 수 있다(명시적 시그널링). 반대로, 디코더가 이미 특정 파라미터뿐만 아니라 다른 것들을 갖고 있다면, 단순히 디코더가 특정 파라미터를 알고 선택할 수 있게 하기 위해 송신 없이 시그널링이 사용될 수 있다(암시적 시그널링). 임의의 실제 기능들의 송신을 회피함으로써, 다양한 실시예들에서 비트 절약이 실현된다. 시그널링은 다양한 방식들로 달성될 수 있다는 것이 이해되어야 한다. 예를 들어, 하나 이상의 신택스 요소들, 플래그들 등이 다양한 실시예들에서 대응하는 디코더에 정보를 시그널링하는 데 사용된다. 전술된 표현이 단어 "신호"의 동사 형태와 관련되지만, 단어 "신호"는 또한 명사로서 본 명세서에서 사용될 수 있다.

당업자에게 명백한 바와 같이, 구현예들은, 예를 들어 저장되거나 송신될 수 있는 정보를 전달하도록 포맷화된 다양한 신호들을 생성할 수 있다. 정보는, 예를 들어, 방법을 수행하기 위한 명령어들, 또는 기술된 구현예들 중 하나에 의해 생성된 데이터를 포함할 수 있다. 예를 들어, 신호는 기술된 실시예의 비트스트림을 전달하도록 포맷화될 수 있다. 그러한 신호는, 예를 들어, 전자기파로서(예를 들어, 스펙트럼의 무선 주파수 부분을 사용함) 또는 기저대역 신호로서 포맷화될 수 있다. 포맷화는, 예를 들어, 데이터 스트림을 인코딩하는 것, 및 인코딩된 데이터 스트림으로 캐리어를 변조하는 것을 포함할 수 있다. 신호가 반송하는 정보는, 예를 들어, 아날로그 또는 디지털 정보일 수 있다. 신호는, 알려진 바와 같이, 다양한 상이한 유선 또는 무선 링크들을 통해 송신될 수 있다. 신호는 프로세서 판독가능 매체 상에 저장될 수 있다.

Claims

인코딩 또는 디코딩의 방법으로서,
픽처의 블록에 액세스하는 단계 - 상기 블록의 폭 및 높이 중 적어도 하나는 2의 거듭제곱과는 상이함 -;
상기 블록의 상기 폭 또는 높이에 적응된 다운샘플링 비율로, 기준 샘플들을 다운샘플링하는 단계;
축소된 예측된 블록을 형성하기 위해 다운샘플링된 기준들을 가중치 행렬과 곱하는 단계; 및
상기 블록에 대한 인트라 예측을 형성하기 위해 상기 블록의 상기 폭 또는 높이에 적응된 업샘플링 비율로, 상기 축소된 예측된 블록을 업샘플링하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 블록의 상기 폭 또는 높이는 3 × 2^M이고, M은 정수인, 방법.
제1항 또는 제2항에 있어서, 상기 다운샘플링 비율은 상기 축소된 예측된 블록의 크기에 추가로 적응되는, 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 다운샘플링 비율은 3 × 2ⁿ이고, n은 양의 정수인, 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 다운샘플링은 으로 수행되고, 는 기준 샘플을 나타내는, 방법.
제4항에 있어서, 상기 다운샘플링 비율은 3이고, 평균화 가중치들 [1 2 1]이 다운샘플링에 사용되는, 방법.
제4항에 있어서, 상기 다운샘플링 비율은 6이고, 평균화 가중치들 [1 1 2 2 1 1]이 다운샘플링에 사용되는, 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 업샘플링 비율은 상기 축소된 예측된 블록의 크기에 추가로 적응되는, 방법.
제1항 내지 제8항 중 어느 한 항에 있어서, 상기 업샘플링 비율은 이고, 상기 업샘플링은 으로 수행되고, 는 상기 축소된 예측된 블록 내의 샘플을 나타내고, 및 는 정수들인, 방법.
제1항 내지 제9항 중 어느 한 항에 있어서, 상기 축소된 예측된 블록은, 상기 블록이 일정 방향에서 8 이상인 임의의 경우에, 크기 8 × 8의 것인, 방법.
제1항 내지 제8항 중 어느 한 항에 있어서, 상기 업샘플링 비율은 3/2인, 방법.
인코딩 또는 디코딩의 방법으로서,
픽처의 블록에 액세스하는 단계 - 상기 블록의 폭 및 높이 중 적어도 하나는 2의 거듭제곱과는 상이함 -;
확장 블록을 형성하도록 상기 블록을 패딩하는 단계;
상기 확장된 블록에 대한 예측을 생성하기 위해 상기 확장된 블록에 걸쳐 행렬 기반 인트라 예측을 수행하는 단계; 및
상기 블록에 대한 예측을 형성하기 위해 상기 확장된 블록에 대한 상기 예측을 크롭핑(cropping)하는 단계를 포함하는, 방법.
하나 이상의 프로세서들을 포함하는 장치로서, 상기 하나 이상의 프로세서들은 제1항 내지 제12항 중 어느 한 항의 방법을 수행하도록 구성되는, 장치.
제1항 내지 제12항 중 어느 한 항의 방법을 수행함으로써 형성되는, 비트스트림을 포함하는 신호.
제1항 내지 제12항 중 어느 한 항의 방법에 따라 비디오를 인코딩하거나 디코딩하기 위한 명령어들이 저장되는 컴퓨터 판독가능 저장 매체.