KR20240015722A

KR20240015722A - 비디오 코딩에서 아핀 모션 보상을 위해 쌍방 매칭을 이용한 모션 정제

Info

Publication number: KR20240015722A
Application number: KR1020247001771A
Authority: KR
Inventors: 웨이 첸; 샤오위 씨우; 체-웨이 쿠오; 이-웬 첸; 홍-정 주; 닝 얀; 시앙린 왕; 빙 유
Original assignee: 베이징 다지아 인터넷 인포메이션 테크놀로지 컴퍼니 리미티드
Priority date: 2021-06-17
Filing date: 2022-06-16
Publication date: 2024-02-05
Also published as: EP4356610A1; US20240129519A1; WO2022266328A1; CN117501694A

Abstract

본 개시내용의 구현예들은 비디오에서의 모션 정제를 위한 시스템들 및 방법들을 제공한다. 방법은 비디오로부터 비디오 프레임의 비디오 블록에 대한 초기 모션 벡터를 결정하는 것을 포함할 수 있다. 방법은 비디오에서의 제 1 참조 프레임으로부터의 제 1 참조 블록과 비디오에서의 제 2 참조 프레임으로부터의 제 2 참조 블록의 가중된 조합에 근거하여 매칭 타겟을 결정하는 것을 포함할 수 있다. 방법은 정제된 모션 벡터가 획득될 때까지 매칭 타겟에 근거하여 초기 모션 벡터를 반복적으로 업데이트하기 위해 블록 레벨에서 쌍방 매칭 기반 모션 정제 프로세스를 수행하는 것을 포함할 수 있다. 방법은 비디오 블록의 정제된 모션 벡터를 사용하여 비디오 블록 내의 각각의 서브-블록에 대한 모션 벡터를 정제하는 것을 포함할 수 있다. 서브-블록 레벨에서 모션 벡터를 정제하는 것은 비디오 블록의 아핀 모션 모델을 적용한다.

Description

비디오 코딩에서 아핀 모션 보상을 위해 쌍방 매칭을 이용한 모션 정제

본 출원은 2021년 6월 17일자로 출원된 미국 가출원 번호 제63/211,682호에 기반을 두고 있으며 이에 대한 우선권을 주장하고, 이러한 특허문헌의 내용은 그 전체가 참조로 본 명세서에 통합된다.

본 출원은 비디오 코딩 및 압축(video coding and compression)에 관한 것이다. 더 구체적으로, 본 출원은 비디오에서의 모션 정제(motion refinement)를 위한 비디오 프로세싱 시스템들 및 방법들에 관한 것이다.

디지털 비디오는, 디지털 텔레비전들, 랩탑 또는 데스크탑 컴퓨터들, 태블릿 컴퓨터들, 디지털 카메라들, 디지털 기록 디바이스들, 디지털 미디어 재생기들, 비디오 게임 콘솔들, 스마트 폰들, 비디오 원격회의 디바이스들, 비디오 스트리밍 디바이스들, 등과 같은 다양한 전자 디바이스(electronic device)들에 의해 지원된다. 전자 디바이스들은 통신 네트워크에 걸쳐 디지털 비디오 데이터를 전송 및 수신하거나 그렇지 않으면 전달하고, 그리고/또는 디지털 비디오 데이터를 저장 디바이스 상에 저장한다. 통신 네트워크의 제한된 대역폭 용량(bandwidth capacity) 및 저장 디바이스의 제한된 메모리 리소스(memory resource)들로 인해, 비디오 코딩은, 비디오 데이터가 전달되거나 저장되기 전에, 하나 이상의 비디오 코딩 표준들에 따라 비디오 데이터를 압축하기 위해 사용될 수 있다. 예를 들어, 비디오 코딩 표준들은, 다용도 비디오 코딩(Versatile Video Coding)(VVC), 공동 탐색 테스트 모델(Joint Exploration test Model)(JEM), 고-효율 비디오 코딩(High-Efficiency Video Coding)(HEVC/H.265), 고급 비디오 코딩(Advanced Video Coding)(AVC/H.264), 동영상 전문가 그룹(Moving Picture Expert Group)(MPEG) 코딩, 등을 포함한다. 비디오 코딩은 일반적으로 비디오 데이터에 내재된 리던던시(redundancy)를 이용하는 예측 방법(predictive method)들(예컨대, 인터-예측(inter-prediction), 인트라-예측(intra-prediction), 등)을 활용한다. 비디오 코딩은 비디오 데이터를 비디오 품질에 대한 저하(degradations)를 피하거나 최소화시키면서 더 낮은 비트 레이트(bit rate)를 사용하는 형태로 압축하는 것을 목표로 한다.

본 개시내용의 구현예들은 비디오(video)에서의 모션 정제(motion refinement)를 위한 비디오 코딩 방법(video coding method)을 제공한다. 비디오 코딩 방법은, 하나 이상의 프로세서(processor)들에 의해, 비디오로부터 비디오 프레임(video frame)의 비디오 블록(video block)에 대한 초기 모션 벡터(initial motion vector)를 결정하는 것을 포함할 수 있다. 비디오 코딩 방법은 또한, 하나 이상의 프로세서들에 의해, 비디오에서의 제 1 참조 프레임(reference frame)으로부터의 제 1 참조 블록과 비디오에서의 제 2 참조 프레임으로부터의 제 2 참조 블록의 가중된 조합(weighted combination)에 근거하여 매칭 타겟(matching target)을 결정하는 것을 포함할 수 있다. 비디오 코딩 방법은 또한, 하나 이상의 프로세서들에 의해, 정제된 모션 벡터가 비디오 블록에 대해 획득될 때까지 매칭 타겟에 근거하여 초기 모션 벡터를 반복적으로 업데이트(update)하기 위해 블록 레벨(block level)에서 쌍방 매칭 기반 모션 정제 프로세스(bilateral matching based motion refinement process)를 수행하는 것을 포함할 수 있다. 비디오 코딩 방법은 추가적으로, 하나 이상의 프로세서들에 의해, 비디오 블록 내의 각각의 서브-블록(sub-block)에 대한 모션 벡터를 정제하되, 서브-블록에 대한 모션 벡터에 대한 시작 포인트(starting point)로서 비디오 블록의 정제된 모션 벡터를 사용하여, 정제하는 것을 포함할 수 있다. 서브-블록 레벨(sub-block level)에서 모션 벡터를 정제하는 것은 비디오 블록의 아핀 모션 모델(affine motion model)을 적용한다.

본 개시내용의 구현예들은 또한, 비디오에서의 모션 정제를 위한 비디오 코딩 장치를 제공한다. 비디오 코딩 장치는 메모리 및 하나 이상의 프로세서들을 포함할 수 있다. 메모리는 비디오의 적어도 하나의 비디오 프레임을 저장하도록 구성될 수 있다. 비디오 프레임은 적어도 하나의 비디오 블록을 포함한다. 하나 이상의 프로세서들은 비디오 블록에 대한 초기 모션 벡터를 결정하도록 구성될 수 있다. 하나 이상의 프로세서들은 비디오에서의 제 1 참조 프레임으로부터의 제 1 참조 블록과 비디오에서의 제 2 참조 프레임으로부터의 제 2 참조 블록의 가중된 조합에 근거하여 매칭 타겟을 결정하도록 구성될 수 있다. 하나 이상의 프로세서들은 또한, 정제된 모션 벡터가 비디오 블록에 대해 획득될 때까지 매칭 타겟에 근거하여 초기 모션 벡터를 반복적으로 업데이트하기 위해 블록 레벨에서 쌍방 매칭 기반 모션 정제 프로세스를 수행하도록 구성될 수 있다. 하나 이상의 프로세서들은 추가적으로, 비디오 블록 내의 각각의 서브-블록에 대한 모션 벡터를 정제하되, 서브-블록에 대한 모션 벡터에 대한 시작 포인트로서 비디오 블록의 정제된 모션 벡터를 사용하여, 정제하도록 구성될 수 있다. 하나 이상의 프로세서들은 서브-블록 레벨에서 모션 벡터를 정제하기 위해 비디오 블록의 아핀 모션 모델을 적용할 수 있다.

본 개시내용의 구현예들은 또한, 명령들이 저장되어 있는 비-일시적 컴퓨터-판독가능 저장 매체를 제공하고, 여기서 명령들은 하나 이상의 프로세서들에 의해 실행될 때, 하나 이상의 프로세서들로 하여금 비디오에서의 모션 정제를 위한 비디오 코딩 방법을 수행하도록 한다. 비디오 코딩 방법은, 비디오로부터 비디오 프레임의 비디오 블록에 대한 초기 모션 벡터를 결정하되, 비디오 블록의 병합 리스트(merge list)에 근거하여, 결정하는 것을 포함할 수 있다. 비디오 코딩 방법은 또한, 비디오에서의 제 1 참조 프레임으로부터의 제 1 참조 블록과 비디오에서의 제 2 참조 프레임으로부터의 제 2 참조 블록의 가중된 조합에 근거하여 매칭 타겟을 결정하는 것을 포함할 수 있다. 비디오 코딩 방법은 또한, 정제된 모션 벡터가 비디오 블록에 대해 획득될 때까지 매칭 타겟에 근거하여 초기 모션 벡터를 반복적으로 업데이트하기 위해 블록 레벨에서 쌍방 매칭 기반 모션 정제 프로세스를 수행하는 것을 포함할 수 있다. 비디오 코딩 방법은 또한, 비디오 블록 내의 각각의 서브-블록에 대한 모션 벡터를 정제하되, 서브-블록에 대한 모션 벡터에 대한 시작 포인트로서 비디오 블록의 정제된 모션 벡터를 사용하여, 정제하는 것을 포함할 수 있다. 서브-블록 레벨에서 모션 벡터를 정제하는 것은 비디오 블록의 아핀 모션 모델을 적용한다. 비디오 코딩 방법은 추가적으로, 병합 리스트로부터 초기 모션 벡터를 식별하기 위한 병합 인덱스(merge index), 제 1 참조 프레임을 식별하기 위한 제 1 참조 인덱스(reference index), 및 제 2 참조 프레임을 식별하기 위한 제 2 참조 인덱스를 포함하는 비트스트림(bitstream)을 발생시키는 것을 포함할 수 있다. 비트스트림은 비-일시적 컴퓨터-판독가능 저장 매체에 저장된다.

앞서의 일반적인 설명 및 후속하는 상세한 설명 양쪽 모두가 단지 예들일 뿐 본 개시내용을 한정하지 않음이 이해돼야 한다.

본 명세서의 일부에 포함되고 본 명세서의 일부를 구성하는 첨부 도면들은 본 개시내용과 일관되는 예들을 예시하고, 그 설명과 함께 본 개시내용의 원리들을 설명하는 역할을 한다.
도 1은 본 개시내용의 일부 구현예들에 따른 비디오 블록들을 인코딩 및 디코딩하기 위한 예시적인 시스템을 예시하는 블록도이다.
도 2는 본 개시내용의 일부 구현예들에 따른 예시적인 비디오 인코더를 예시하는 블록도이다.
도 3은 본 개시내용의 일부 구현예들에 따른 예시적인 비디오 디코더를 예시하는 블록도이다.
도 4a 내지 도 4e는 본 개시내용의 일부 구현예들에 따른 프레임이 상이한 크기들 및 형상들의 다수의 비디오 블록들로 어떻게 회귀적으로(recursively) 파티션되는지를 예시하는 그래픽 표현들이다.
도 5a는 본 개시내용의 일부 구현예들에 따른 예시적인 4-파라미터 아핀 모션 모델(4-parameter affine motion model)을 예시한다.
도 5b는 본 개시내용의 일부 구현예들에 따른 예시적인 6-파라미터 아핀 모션 모델을 예시한다.
도 6은 본 개시내용의 일부 구현예들에 따른 예시적인 쌍방 매칭을 예시하는 그래픽 표현이다.
도 7은 본 개시내용의 일부 구현예들에 따른 아핀 모션 보상을 위해 쌍방 매칭 기반 모션 정제를 위한 예시적인 프로세스를 예시하는 블록도이다.
도 8은 본 개시내용의 일부 구현예들에 따른 매칭 타겟의 예시적인 계산을 예시하는 그래픽 표현이다.
도 9는 본 개시내용의 일부 구현예들에 따른 비디오에서의 모션 정제를 위한 예시적인 방법의 흐름도이다.
도 10은 본 개시내용의 일부 구현예들에 따른 비디오에서의 모션 정제를 위한 또 하나의 다른 예시적인 방법의 흐름도이다.
도 11은 본 개시내용의 일부 구현예들에 따른 사용자 인터페이스와 결합된 컴퓨팅 환경을 예시하는 블록도이다.

이제 특정 구현예들이 상세히 참조될 것이고, 그 예들이 첨부 도면들에서 예시된다. 후속하는 상세한 설명에서, 수많은 비-한정적 특정 세부사항들이 본 명세서에서 제시되는 주된 내용의 이해를 돕기 위해 제시된다. 하지만, 청구항들의 범위로부터 벗어남이 없이 다양한 대안예들이 사용될 수 있고, 이러한 특정 세부사항들 없이 주된 내용이 실시될 수 있음이 본 발명의 기술분야에서 통상의 기술을 가진 자에게 명백할 것이다. 예를 들어, 본 명세서에서 제시되는 주된 내용은 디지털 비디오 능력들을 갖는 전자 디바이스들의 많은 타입들 상에서 구현될 수 있음이 본 발명의 기술분야에서 통상의 기술을 가진 자에게 명백할 것이다.

설명, 본 개시내용의 청구항들, 및 첨부 도면들에서 사용되는 용어들 "제 1", "제 2", 등은 대상들을 구분하기 위해 사용된 것이지 임의의 특정 순서 혹은 시퀀스를 설명하기 위해 사용된 것이 아님이 설명돼야 한다. 이러한 방식으로 사용되는 데이터가 적절한 조건 하에서 상호교환될 수 있고, 이에 따라 본 명세서에서 설명되는 본 개시내용의 실시예들이 본 개시내용에서 설명되거나 첨부 도면들에서 보여지는 것들 이외에 적절하게 구현될 수 있음이 이해돼야 한다.

현재 VVC 표준 및 3-세대 오디오 비디오 코딩 표준(third-generation audio video coding standard)(AVS3)에서, 비디오 디코더에서의 현재 코딩 블록의 모션 정보는, 병합 모드 후보 인덱스(merge mode candidate index)의 형태에서 공간적 또는 시간적 이웃 블록으로부터 상속(inherit)되거나, 또는 비디오 인코더로부터 보내진 추정된 모션 정보의 명시적 시그널링(signaling)에 근거하여 도출된다. 하지만, 추정된 모션 정보의 명시적 시그널링은 시그널링 오버헤드(signaling overhead)를 초래할 수 있다. 반면, 병합 모드 모션 벡터(Motion Vector, MV)들의 적용이 시그널링 오버헤드를 줄일 수 있지만, 병합 모드 MV들은 덜 정확할 수 있는데, 왜냐하면 이들은 단지 이웃 블록들로부터만 복사(copy)되기 때문이다.

본 개시내용과 일관되게, VVC 및 AVS3 표준들 양쪽 모두에서 사용되는 아핀 모션 예측 모드에 대한 모션 벡터 추정의 정확도를 향상시키기 위해 비디오 프로세싱 시스템 및 방법이 본 명세서에서 개시된다. 쌍방 매칭은 추가적인 시그널링을 요구하지 않는 모션 정제 방법이기 때문에, 본 명세서에서 개시되는 시스템 및 방법은 아핀 병합 모드에 대한 모션 정보의 정확도를 향상시키기 위해 그리고 더 높은 코딩 효율을 성취하기 위해 쌍방 매칭을 적용할 수 있다. 예를 들어, (병합 모드, 아핀 모드, 쌍방 매칭, 등을 포함하는) 다양한 비디오 코딩 기법들이, 블록 레벨 및 서브-블록 레벨 양쪽 모두에서 모션 정보를 증진시키기 위해 본 명세서에서 개시되는 시스템 및 방법에서 조합 및 적용될 수 있다.

본 개시내용과 일관되게, 본 명세서에서 개시되는 시스템 및 방법은 비디오 블록의 모션 정보를 정제하기 위해 쌍방 매칭을 적용함으로써 아핀 병합 모드를 향상시킬 수 있다. 구체적으로, 본 명세서에서 개시되는 시스템 및 방법은, 병합 모드를 사용하여 비디오 블록에 대한 초기 모션 벡터를 도출할 수 있고, 비디오 블록에 대한 매칭 타겟을 결정할 수 있고, 그리고 정제된 모션 벡터가 비디오 블록에 대해 획득될 때까지 초기 모션 벡터를 반복적으로 업데이트하기 위해 비디오 블록 레벨에서 쌍방 매칭 기반 모션 정제 프로세스를 수행할 수 있다. 예를 들어, 쌍방 매칭이 적용될 때, 초기 모션 벡터가 먼저, 시작 포인트(예컨대, 시작 모션 벡터)로서 비디오 블록에 대해 도출되고, 그 다음에 시작 모션 벡터를 중심으로 하는 반복적 업데이트가 최소 매칭 비용을 갖는 정제된 모션 벡터을 획득하기 위해 수행된다. 최소 매칭 비용을 갖는 정제된 모션 벡터는 비디오 블록 레벨에서 비디오 블록에 대한 모션 벡터로서 선택될 수 있다. 후속적으로, 비디오 블록 레벨에서의 정제된 모션 벡터는 아핀 모드에서 서브-블록 레벨에서 서브-블록들의 모션 정보를 더 정제하기 위해 새로운 시작 포인트로서 사용될 수 있다.

본 개시내용과 일관되게, 본 명세서에서 설명되는 아핀 병합 모드는 병합 모드와 아핀 모드의 조합으로서 지칭될 수 있다. 병합 모드는 비디오 압축에서 사용되는 인터 코딩 모드(inter coding mode)일 수 있다. 병합 모드에 있어서, 이웃 비디오 블록의 모션 벡터는 인코딩 또는 디코딩되는 현재 비디오 블록에 대해 상속된다. 예를 들어, 병합 모드는 현재 비디오 블록으로 하여금 미리결정된 이웃의 모션 벡터를 상속하도록 한다. 또 하나의 다른 예에서, 현재 비디오 블록이 자신의 모션 벡터를 특정 이웃으로부터 상속한 경우 그 특정 이웃을 식별하기 위해 인덱스 값이 사용될 수 있다. 이웃은 동일한 비디오 프레임으로부터의 공간적으로 인접한 비디오 블록(예컨대, 상단, 상단 우측, 좌측, 또는 좌측 하단 비디오 블록)일 수 있고, 또는 시간적으로 인접한 비디오 프레임으로부터의 동일-위치에 있는 비디오 블록일 수 있다. 본 개시내용과 일관되게, 병합 모드는 (예컨대, 모션 정제를 위한 시작 포인트로서) 현재 비디오 블록에 대한 초기 모션 벡터를 결정하기 위해 사용될 수 있다. 아핀 모드와 관련하여, 아핀 모션 모델은 인터 예측을 위해 적용될 수 있다. 아핀 모드는 도 5a 및 도 5b를 참조하여 아래에서 더 상세히 설명된다.

본 개시내용과 일관되게, VVC 표준에서의 아핀 모드 설계는 본 개시내용의 설명을 용이하게 하기 위해 아핀 모션 예측 모드의 예시적인 구현으로서 사용될 수 있다. 본 명세서에서 개시되는 시스템 및 방법이 또한 아핀 모션 예측 모드의 상이한 설계를 적용할 수 있거나 동일한 또는 유사한 설계 사상을 갖는 다른 코딩 툴(coding tool)들을 적용할 수 있음이 고려된다.

도 1은 본 개시내용의 일부 구현예들에 따른 비디오 블록들을 병렬로 인코딩 및 디코딩하기 위한 예시적인 시스템(10)을 예시하는 블록도이다. 도 1에서 보여지는 바와 같이, 시스템(10)은 소스 디바이스(source device)(12)를 포함하고, 이러한 소스 디바이스(12)는 목적지 디바이스(destination device)(14)에 의해 이후의 시간에 디코딩될 비디오 데이터를 발생시키고 인코딩한다. 소스 디바이스(12) 및 목적지 디바이스(14)는, 데스크탑 또는 랩탑 컴퓨터들, 태블릿 컴퓨터, 스마트 폰들, 셋-탑 박스들, 디지털 텔레비전들, 카메라들, 디스플레이 디바이스들, 디지털 미디어 재생기들, 비디오 게임 콘솔들, 비디오 스트리밍 디바이스, 등을 포함하는 광범위하게 다양한 전자 디바이스들 중 임의의 전자 디바이스를 포함할 수 있다. 일부 구현예들에서, 소스 디바이스(12) 및 목적지 디바이스(14)는 무선 통신 능력들을 갖추고 있다.

일부 구현예들에서, 목적지 디바이스(14)는 디코딩될 인코딩된 비디오 데이터를 링크(link)(16)를 통해 수신할 수 있다. 링크(16)는 인코딩된 비디오 데이터를 소스 디바이스(12)로부터 목적지 디바이스(14)로 전달할 수 있는 통신 매체 또는 디바이스의 임의의 타입을 포함할 수 있다. 일 예에서, 링크(16)는 소스 디바이스(12)로 하여금, 인코딩된 비디오 데이터를 실시간으로 목적지 디바이스(14)에 직접적으로 전송할 수 있게 하기 위한 통신 매체를 포함할 수 있다. 인코딩된 비디오 데이터는 무선 통신 프로토콜(wireless communication protocol)과 같은 통신 표준에 따라 변조(modulate)될 수 있고, 그리고 목적지 디바이스(14)에 전송될 수 있다. 통신 매체는, 무선 주파수(Radio Frequency, RF) 스펙트럼(spectrum) 또는 하나 이상의 물리적 전송 라인들과 같은, 임의의 무선 또는 유선 통신 매체를 포함할 수 있다. 통신 매체는, 로컬 영역 네트워크, 와이드-영역 네트워크, 또는 인터넷과 같은 글로벌 네트워크와 같은 패킷-기반 네트워크(packet-based network)의 일부를 형성할 수 있다. 통신 매체는, 라우터(router)들, 스위치(switch)들, 베이스 스테이션(base station)들, 또는 소스 디바이스(12)로부터 목적지 디바이스(14)로의 통신을 용이하게 하는데 유용할 수 있는 임의의 다른 장비를 포함할 수 있다.

일부 다른 구현예들에서, 인코딩된 비디오 데이터는 출력 인터페이스(22)로부터 저장 디바이스(32)로 전송될 수 있다. 후속적으로, 저장 디바이스(32) 내의 인코딩된 비디오 데이터는 입력 인터페이스(28)를 통해 목적지 디바이스(14)에 의해 액세스(access)될 수 있다. 저장 디바이스(32)는, 하드 드라이브, 블루-레이 디스크들, 디지털 다용도 디스크(Digital Versatile Disk, DVD)들, 콤팩트 디스크 판독-전용 메모리(Compact Disc Read-Only Memory, CD-ROM)들, 플래시 메모리, 휘발성 혹은 비-휘발성 메모리, 또는 인코딩된 비디오 데이터를 저장하기 위한 임의의 다른 적절한 디지털 저장 매체들과 같은, 다양한 분산된 혹은 로컬로 액세스되는 데이터 저장 매체들 중 임의의 데이터 저장 매체를 포함할 수 있다. 또 다른 예에서, 저장 디바이스(32)는, 파일 서버(file server)에 대응할 수 있거나, 또는 소스 디바이스(12)에 의해 발생된 인코딩된 비디오 데이터를 저장할 수 있는 또 하나의 다른 중간 저장 디바이스에 대응할 수 있다. 목적지 디바이스(14)는 저장된 비디오 데이터에 액세스할 수 있는데, 저장 디바이스(32)로부터 스트리밍 또는 다운로드를 통해 액세스할 수 있다. 파일 서버는, 인코딩된 비디오 데이터를 저장할 수 있고 인코딩된 비디오 데이터를 목적지 디바이스(14)에 전송할 수 있는 컴퓨터의 임의의 타입일 수 있다. 예시적인 파일 서버들은, (예컨대, 웹사이트를 위한) 웹 서버, 파일 전송 프로토콜(File Transfer Protocol, FTP) 서버, 네트워크 부착 저장(Network Attached Storage, NAS) 디바이스들, 또는 로컬 디스크 드라이브를 포함한다. 목적지 디바이스(14)는, 무선 채널(예컨대, 무선 충실도(Wireless Fidelity, Wi-Fi) 연결), 유선 연결(예컨대, 디지털 가입자 라인(Digital Subscriber Line, DSL), 케이블 모뎀, 등), 또는 파일 서버 상에 저장된 인코딩된 비디오 데이터에 액세스하는데 적합한 이들의 임의의 조합을 포함하는, 임의의 표준 데이터 연결을 통해, 인코딩된 비디오 데이터에 액세스할 수 있다. 인코딩된 비디오 데이터를 저장 디바이스(32)로부터 전송하는 것은, 스트리밍 전송, 다운로드 전송, 또는 이들 양쪽 모두의 조합일 수 있다.

도 1에서 보여지는 바와 같이, 소스 디바이스(12)는 비디오 소스(18), 비디오 인코더(20), 및 출력 인터페이스(22)를 포함한다. 비디오 소스(18)는, 비디오 캡처 디바이스(video capturing device)(예컨대, 비디오 카메라), 이전에 캡처된 비디오를 포함하는 비디오 보관소(video archive), 비디오 콘텐츠 제공자로부터 비디오 데이터를 수신하기 위한 비디오 공급 인터페이스, 그리고/또는 소스 비디오로서 컴퓨터 그래픽 데이터를 발생시키기 위한 컴퓨터 그래픽 시스템, 또는 이러한 소스들의 조합과 같은, 소스를 포함할 수 있다. 하나의 예로서, 만약 비디오 소스(18)가 보안 감시 시스템(security surveillance system)의 비디오 카메라이면, 소스 디바이스(12) 및 목적지 디바이스(14)는 카메라 폰들 또는 비디오 폰들을 포함할 수 있다. 하지만, 본 개시내용에서 설명되는 구현예들은 일반적으로 비디오 코딩에 적용가능할 수 있고, 그리고 무선 및/또는 유선 응용물들에 적용될 수 있다.

캡처된, 미리-캡처된, 또는 컴퓨터-발생된 비디오는 비디오 인코더(20)에 의해 인코딩될 수 있다. 인코딩된 비디오 데이터는 소스 디바이스(12)의 출력 인터페이스(22)를 통해 목적지 디바이스(14)로 직접적으로 전송될 수 있다. 인코딩된 비디오 데이터는 또한(혹은 대안적으로), 디코딩 및/또는 재생을 위한, 목적지 디바이스(14) 또는 다른 디바이스들에 의한 이후의 액세스를 위해 저장 디바이스(32) 상에 저장될 수 있다. 출력 인터페이스(22)는 또한, 모뎀 및/또는 송신기를 포함할 수 있다.

목적지 디바이스(14)는 입력 인터페이스(28), 비디오 디코더(30), 및 디스플레이 디바이스(34)를 포함한다. 입력 인터페이스(28)는 수신기 및/또는 모뎀을 포함할 수 있고, 그리고 인코딩된 비디오 데이터를 링크(16)를 통해 수신할 수 있다. 링크(16)를 통해 전달된 또는 저장 디바이스(32) 상에 제공된 인코딩된 비디오 데이터는, 비디오 데이터를 디코딩할 때 비디오 디코더(30)에 의한 사용을 위해 비디오 인코더(20)에 의해 발생된 다양한 신택스 요소(syntax element)들을 포함할 수 있다. 이러한 신택스 요소들은, 통신 매체 상에서 전송된, 저장 매체 상에 저장된, 또는 파일 서버 상에 저장된, 인코딩된 비디오 데이터 내에 포함될 수 있다.

일부 구현예들에서, 목적지 디바이스(14)는 디스플레이 디바이스(34)를 포함할 수 있고, 이러한 디스플레이 디바이스(34)는 통합된 디스플레이 디바이스일 수 있고, 그리고 목적지 디바이스(14)와 통신하도록 구성된 외부 디스플레이 디바이스일 수 있다. 디스플레이 디바이스(34)는 사용자를 위해, 디코딩된 비디오 데이터를 디스플레이하고, 그리고 액정 디스플레이(Liquid Crystal Display, LCD), 플라즈마 디스플레이(plasma display), 유기 발광 다이오드(Organic Light Emitting Diode, OLED) 디스플레이, 또는 디스플레이 디바이스의 또 하나의 다른 타입과 같은, 다양한 디스플레이 디바이스들 중 임의의 디스플레이 디바이스를 포함할 수 있다.

비디오 인코더(20) 및 비디오 디코더(30)는, VVC, HEVC, MPEG-4, 파트 10(Part 10), AVC, 또는 이러한 표준들의 확장들과 같은, 독점 혹은 산업 표준들에 따라 동작할 수 있다. 본 개시내용이 특정 비디오 인코딩/디코딩 표준에 한정되지 않으며 다른 비디오 인코딩/디코딩 표준들에 적용가능할 수 있음이 이해돼야 한다. 소스 디바이스(12)의 비디오 인코더(20)가 이러한 현재 혹은 미래 표준들 중 임의의 표준에 따라 비디오 데이터를 인코딩하도록 구성될 수 있음이 일반적으로 고려된다. 유사하게, 목적지 디바이스(14)의 비디오 디코더(30)가 이러한 현재 혹은 미래 표준들 중 임의의 표준에 따라 비디오 데이터를 디코딩하도록 구성될 수 있음이 일반적으로 또한 고려된다.

비디오 인코더(20) 및 비디오 디코더(30) 각각은, 하나 이상의 마이크로프로세서들, 디지털 신호 프로세서(Digital Signal Processor, DSP)들, 애플리케이션 특정 집적 회로(Application Specific Integrated Circuit, ASIC)들, 현장 프로그래밍가능 게이트 어레이(Field Programmable Gate Array, FPGA)들, 이산 로직(discrete logic), 소프트웨어(software), 하드웨어(hardware), 펌웨어(firmware), 또는 이들의 임의의 조합들과 같은, 다양한 적절한 인코더 및/또는 디코더 회로 중 임의의 회로로서 구현될 수 있다. 부분적으로 소프트웨어로 구현될 때, 전자 디바이스는, 본 개시내용에서 개시되는 비디오 인코딩/디코딩 동작들을 수행하기 위해, 소프트웨어에 대한 명령들을 적절한 비-일시적 컴퓨터-판독가능 매체에 저장할 수 있고 하나 이상의 프로세서들을 사용하여 하드웨어로 명령들을 실행할 수 있다. 비디오 인코더(20) 및 비디오 디코더(30) 각각은 하나 이상의 인코더들 또는 디코더들 내에 포함될 수 있고, 이들 중 어느 하나는 각각의 디바이스 내에서, 결합된 인코더/디코더(코텍(CODEC))의 일부로서 통합될 수 있다.

도 2는 본 출원에서 설명되는 일부 구현예들에 따른 예시적인 비디오 인코더(20)를 예시하는 블록도이다. 비디오 인코더(20)는 비디오 프레임들 내의 비디오 블록들의 인트라 및 인터 예측 코딩을 수행할 수 있다. 인트라 예측 코딩(intra predictive coding)은 주어진 비디오 프레임 또는 픽처(picture) 내의 비디오 데이터에서의 공간적 리던던시(spatial redundancy)를 감소시키거나 제거하기 위해 공간적 예측(spatial prediction)에 의존한다. 인터 예측 코딩(inter predictive coding)은 비디오 시퀀스(video sequence)의 인접하는 비디오 프레임들 또는 픽처들 내의 비디오 데이터에서의 시간적 리던던시(temporal redundancy)를 감소시키거나 제거하기 위해 시간적 예측(temporal prediction)에 의존한다. 용어 "프레임"은 비디오 코딩의 분야에서 용어 "이미지" 또는 "픽처"에 대한 동의어들로서 사용될 수 있음에 유의해야 한다.

도 2에서 보여지는 바와 같이, 비디오 인코더(20)는, 비디오 데이터 메모리(40), 예측 프로세싱 유닛(41), 디코딩된 픽처 버퍼(Decoded Picture Buffer, DPB)(64), 합산기(summer)(50), 변환 프로세싱 유닛(transform processing unit)(52), 양자화 유닛(quantization unit)(54), 및 엔트로피 인코딩 유닛(entropy encoding unit)(56)을 포함한다. 예측 프로세싱 유닛(41) 또한, 모션 추정 유닛(motion estimation unit)(42), 모션 보상 유닛(motion compensation unit)(44), 파티션 유닛(partition unit)(45), 인트라 예측 프로세싱 유닛(intra prediction processing unit)(46), 및 인트라 블록 복사(Block Copy, BC) 유닛(48)을 포함한다. 일부 구현예들에서, 비디오 인코더(20)는 또한, 역 양자화 유닛(inverse quantization unit)(58), 역 변환 프로세싱 유닛(inverse transform processing unit)(60), 비디오 블록 재구성(video block reconstruction)을 위한 합산기(62)를 포함한다. 재구성된 비디오 데이터로부터 블록 아티팩트(block artifact)들을 제거하기 위해서 블록 경계들(block boundaries)을 필터링하기 위해 합산기(62)와 DPB(64) 사이에 디블록킹 필터(deblocking filter)와 같은 인-루프 필터(in-loop filter)(63)가 배치될 수 있다. SAO 필터 및/또는 적응형 인-루프 필터(Adaptive in-Loop Filter, ALF)와 같은 또 하나의 다른 인-루프 필터가 또한, 합산기(62)의 출력을 필터링하기 위해 디블록킹 필터에 추가하여 사용될 수 있다. 일부 예들에서, 인-루프 필터들은 생략될 수 있고, 그리고 디코딩된 비디오 블록이 합산기(62)에 의해 DPB(64)에 직접적으로 제공될 수 있다. 비디오 인코더(20)는 고정된 또는 프로그래밍가능한 하드웨어 유닛의 형태를 취할 수 있거나, 혹은 예시되는 고정된 또는 프로그래밍가능한 하드웨어 유닛들 중 하나 이상의 하드웨어 유닛 간에 분할될 수 있다.

비디오 데이터 메모리(40)는 비디오 인코더(20)의 컴포넌트(component)들에 의해 인코딩될 비디오 데이터를 저장할 수 있다. 비디오 데이터 메모리(40) 내의 비디오 데이터는 예를 들어, 도 1에서 보여지는 바와 같이, 비디오 소스(18)로부터 획득될 수 있다. DPB(64)는 (예컨대, 인트라 또는 인터 예측 코딩 모드들에서) 비디오 인코더(20)에 의해 비디오 데이터를 인코딩할 때 사용하기 위한 참조 비디오 데이터(예를 들어, 참조 프레임들 또는 픽처들)를 저장하는 버퍼이다. 비디오 데이터 메모리(40) 및 DPB(64)는 다양한 메모리 디바이스들 중 임의의 메모리 디바이스에 의해 형성될 수 있다. 다양한 에들에서, 비디오 데이터 메모리(40)는, 비디오 인코더(20)의 다른 컴포넌트들과 함께 온-칩(on-chip)일 수 있거나, 또는 이러한 컴포넌트들에 대해 오프-칩(off-chip)일 수 있다.

도 2에서 보여지는 바와 같이, 비디오 데이터를 수신한 이후, 예측 프로세싱 유닛(41) 내의 파티션 유닛(45)은 비디오 데이터를 비디오 블록들로 파티션한다. 이렇게 파티션하는 것은 또한, 비디오 데이터와 관련된 4진-트리(Quad-Tree, QT) 구조와 같은 미리정의된 분할 구조들에 따라 비디오 프레임을 슬라이스(slice)들로 파티션하는 것, 타일(tile)들(예를 들어, 비디오 블록들의 세트들)로 파티션하는 것, 또는 다른 더 큰 코딩 유닛(Coding Unit, CU)들로 파티션하는 것을 포함할 수 있다. 비디오 프레임은 샘플 값(sample value)들을 갖는 샘플들의 2-차원 배열(array) 또는 행렬(matrix)이거나, 혹은 이러한 2-차원 배열 또는 행렬로서 고려될 수 있다. 배열 내의 샘플은 또한, 픽셀(pixel) 또는 펠(pel)로서 지칭될 수 있다. 배열 또는 픽처의 수평 및 수직 방향들(혹은 축들)에서의 샘플들의 수는 비디오 프레임의 크기 및/또는 해상도를 정의한다. 비디오 프레임은 예를 들어, QT 파티션을 사용함으로써 다수의 비디오 블록들로 분할될 수 있다. 비디오 프레임보다 치수(dimension)는 더 작지만, 비디오 블록은 다시 샘플 값들을 갖는 샘플들의 2-차원 배열 또는 행렬이거나, 혹은 이러한 2-차원 배열 또는 행렬로서 고려될 수 있다. 비디오 블록의 수평 및 수직 방향들(혹은 축들)에서의 샘플들의 수는 비디오 블록의 크기를 정의한다. 비디오 블록은, 예를 들어, QT 파티션, 2진-트리(Binary-Tree, BT) 파티션, 3진-트리(Triple-Tree, TT) 파티션, 또는 이들의 임의의 조합을 반복적으로 사용함으로써, 하나 이상의 블록 파티션들 또는 서브-블록들(이들은 다시 블록들을 형성할 수 있음)로 더 파티션될 수 있다. 본 명세서에서 사용되는 바와 같이 용어 "블록" 또는 "비디오 블록"은 프레임 또는 픽처의 일 부분일 수 있음, 특히 직사각형(정방형 또는 비-정방형) 부분일 수 있음에 유의해야 한다. 예를 들어, HEVC 및 VVC를 참조하면, 블록 또는 비디오 블록은, 코딩 트리 유닛(Coding Tree Unit, CTU), CU, 예측 유닛(Prediction Unit, PU), 또는 변환 유닛(Transform Unit, TU)일 수 있거나 이에 대응할 수 있고, 그리고/또는 대응하는 블록, 예컨대, 코딩 트리 블록(Coding Tree Block, CTB), 코딩 블록(Coding Block, CB), 예측 블록(Prediction Block, PB), 또는 변환 블록(Transform Block, TB)일 수 있거나 이에 대응할 수 있다. 대안적으로 또는 추가적으로, 블록 또는 비디오 블록은 CTB, CB, PB, TB, 등의 서브-블록일 수 있거나 이에 대응할 수 있다.

예측 프로세싱 유닛(41)은 에러 결과(error result)들(예컨대, 코딩 레이트(coding rate) 및 왜곡(distortion)의 레벨)에 근거하여 현재 비디오 블록에 대한, 복수의 인트라 예측 코딩 모드들 중 하나 또는 복수의 인터 예측 코딩 모드들 중 하나와 같은, 복수의 가능한 예측 코딩 모드들 중 하나를 선택할 수 있다. 예측 프로세싱 유닛(41)은 결과적인 인트라 또는 인터 예측 코딩된 블록(예컨대, 예측 블록)을, 잔차 블록(residual block)을 발생시키기 위해서 합산기(50)에 제공할 수 있고, 그리고 후속적으로 참조 프레임의 일부로서의 사용을 위해, 인코딩된 블록을 재구성하기 위해서 합산기(62)에 제공할 수 있다. 예측 프로세싱 유닛(41)은 또한, 모션 벡터들, 인트라-모드 표시자들, 파티션 정보, 및 다른 이러한 신택스 정보와 같은 신택스 요소들을 엔트로피 인코딩 유닛(56)에 제공한다.

현재 비디오 블록에 대한 적절한 인트라 예측 코딩 모드를 선택하기 위해서, 예측 프로세싱 유닛(41) 내의 인트라 예측 프로세싱 유닛(46)은 공간적 예측을 제공하기 위해 코딩될 현재 블록과 동일한 프레임 내의 하나 이상의 이웃 블록들에 대한 현재 비디오 블록의 인트라 예측 코딩을 수행할 수 있다. 예측 프로세싱 유닛(41) 내의 모션 추정 유닛(42) 및 모션 보상 유닛(44)은 시간적 예측을 제공하기 위해 하나 이상의 참조 프레임들 내의 하나 이상의 예측 블록들에 대한 현재 비디오 블록의 인터 예측 코딩을 수행한다. 비디오 인코더(20)는 예를 들어, 비디오 데이터의 각각의 블록에 대한 적절한 코딩 모드를 선택하기 위해 다수의 코딩 패스(coding pass)들을 수행할 수 있다.

일부 구현예들에서, 모션 추정 유닛(42)은 모션 벡터를 발생시킴으로써 현재 비디오 프레임에 대한 인터 예측 모드를 결정하며, 여기서 모션 벡터는 비디오 프레임들의 시퀀스 내의 미리결정된 패턴(pattern)에 따라 참조 프레임 내의 예측 블록에 대한 현재 비디오 프레임 내의 비디오 블록의 변위(displacement)를 표시한다. 모션 추정 유닛(42)에 의해 수행되는 모션 추정은 모션 벡터들을 발생시키는 프로세스일 수 있으며, 이러한 프로세스는 비디오 블록들에 대한 모션을 추정할 수 있다. 모션 벡터는, 예를 들어, 참조 프레임 내의 예측 블록에 대한 현재 비디오 프레임 또는 픽처 내의 비디오 블록의 변위를 표시할 수 있다. 미리결정된 패턴은 시퀀스 내의 비디오 프레임들을 P 프레임들 또는 B 프레임들로서 지정할 수 있다. 인트라 BC 유닛(48)은, 인터 예측을 위한 모션 추정 유닛(42)에 의한 모션 벡터들의 결정과 유사한 방식으로 인트라 BC 코딩을 위한 벡터들, 예컨대, 블록 벡터(block vector)들을 결정할 수 있고, 또는 블록 벡터들을 결정하기 위해 모션 추정 유닛(42)을 활용할 수 있다.

비디오 블록에 대한 예측 블록은, 픽셀 차이의 측면에서 코딩될 비디오 블록과 밀접하게 매칭되는 것으로서 고려되는 블록 또는 참조 프레임의 참조 블록일 수 있거나 이에 대응할 수 있고, 이러한 픽셀 차이는 절대 차이의 합(Sum of Absolute Difference, SAD), 제곱 차이의 합(Sum of Square Difference, SSD), 또는 다른 차이 메트릭(difference metric)들에 의해 결정될 수 있다. 일부 구현예들에서, 비디오 인코더(20)는 DPB(64) 내에 저장된 참조 프레임들의 서브-정수 픽셀 위치(sub-integer pixel position)들에 대한 값들을 계산할 수 있다. 예를 들어, 비디오 인코더(20)는 참조 프레임의 1/4 픽셀 위치들, 1/8 픽셀 위치들, 또는 다른 분수 픽셀 위치(fractional pixel position)들의 값들을 보간(interpolate)할 수 있다. 따라서, 모션 추정 유닛(42)은 전체 픽셀 위치들 및 분수 픽셀 위치들에 대한 모션 검색을 수행할 수 있고, 그리고 분수 픽셀 정밀도(fractional pixel precision)를 갖는 모션 벡터를 출력할 수 있다.

모션 추정 유닛(42)은, 인터 예측 코딩된 프레임 내의 비디오 블록에 대한 모션 벡터를 계산하되, 비디오 블록의 위치를 (각각이 DPB(64) 내에 저장된 하나 이상의 참조 프레임들을 식별시키는) 제 1 참조 프레임 링스트(리스트 0) 또는 제 2 참조 프레임 리스트(리스트 1)로부터 선택된 참조 프레임의 예측 블록의 위치와 비교함으로써, 계산한다. 모션 추정 유닛(42)은 계산된 모션 벡터를 모션 보상 유닛(44)으로 보내고, 그 다음에 엔트로피 인코딩 유닛(56)으로 보낸다.

모션 보상 유닛(44)에 의해 수행되는 모션 보상은 모션 추정 유닛(42)에 의해 결정된 모션 벡터에 근거하여 예측 블록을 페치(fetching)하는 것 또는 발생시키는 것을 포함할 수 있다. 현재 비디오 블록에 대한 모션 벡터를 수신하면, 모션 보상 유닛(44)은 참조 프레임 리스트들 중 하나에서 모션 벡터가 가리키는 예측 블록의 위치를 결정할 수 있고, DPB(64)로부터 예측 블록을 검색할 수 있고, 그리고 예측 블록을 합산기(50)에 전달할 수 있다. 그 다음에, 합산기(50)는 코딩되고 있는 현재 비디오 블록의 픽셀 값들로부터 모션 보상 유닛(44)에 의해 제공된 예측 블록의 픽셀 값들을 공제(subtract)함으로써 피셀 차이 값들의 잔차 블록을 형성한다. 잔차 블록을 형성하는 픽셀 차이 값들은 루마(luma) 혹은 크로마(chroma) 차이 컴포넌트(difference component)들, 또는 이들 양쪽 모두를 포함할 수 있다. 모션 보상 유닛(44)은 또한, 비디오 프레임의 비디오 블록들을 디코딩할 때 비디오 디코더(30)에 의한 사용을 위해 비디오 프레임의 비디오 블록들과 관련된 신택스 요소들을 발생시킬 수 있다. 신택스 요소들은, 예를 들어, 예측 블록을 식별하기 위해 사용되는 모션 벡터를 정의하는 신택스 요소들, 예측 모드를 표시하는 임의의 플래그(flag)들, 또는 본 명세서에서 설명되는 임의의 다른 신택스 정보를 포함할 수 있다. 도 2에서 개념상 목적들을 위해 별개로 예시되는 모션 추정 유닛(42) 및 모션 보상 유닛(44)이 함께 통합될 수 있음에 유의해야 한다.

일부 구현예들에서, 인트라 BC 유닛(48)은, 모션 추정 유닛(42) 및 모션 보상 유닛(44)과 연계되어 앞에서 설명된 것과 유사한 방식으로 벡터들을 발생시킬 수 있고 예측 블록들을 페치할 수 있지만, 여기서 예측 블록들은 코딩되고 있는 현재 블록과 동일한 프레임 내에 있고, 벡터들은 모션 벡터들과는 대조적으로 블록 벡터들로서 지칭된다. 특히, 인트라 BC 유닛(48)은 현재 블록을 인코딩하기 위해 사용할 인트라-예측 모드를 결정할 수 있다. 일부 예들에서, 인트라 BC 유닛(48)은 예를 들어, 별개의 인코딩 패스(encoding pass)들 동안 다양한 인트라-예측 모드들을 사용하여 현재 블록을 인코딩할 수 있고, 그리고 레이트-왜곡 분석(rate-distortion analysis)을 통해 이들의 성능을 테스트(test)할 수 있다. 그 다음에, 인트라 BC 유닛(48)은 사용할 적절한 인트라 예측 모드를 다양한 테스트된 인트라-예측 모드들 중에서 선택할 수 있고, 그리고 이에 따라 인트라-모드 표시자(intra-mode indicator)를 발생시킬 수 있다. 예를 들어, 인트라 BC 유닛(48)은, 다양한 테스트된 인트라-예측 모드들에 대해 레이트-왜곡 분석을 사용하여 레이트-왜곡 값들을 계산할 수 있고, 그리고 테스트된 모드들 중에서 최상의 레이트-왜곡 특성들을 갖는 인트라-예측 모드를, 사용할 적절한 인트라-예측 모드로서 선택할 수 있다. 레이트-왜곡 분석은 일반적으로, 인코딩된 블록과 인코딩된 블록을 생성하기 위해 인코딩된 본래의 인코딩되지 않은 블록 간의 왜곡(또는 에러)의 양을 결정하고, 뿐만 아니라 인코딩된 블록을 생성하기 위해 사용된 비트레이트(즉, 비트들의 수)를 결정한다. 인트라 BC 유닛(48)은 어떤 인트라-예측 모드가 블록에 대한 최상의 레이트-왜곡 값을 나타내는지를 결정하기 위해 다양한 인코딩된 블록들에 대한 왜곡들 및 레이트들로부터 비율(ratio)들을 계산할 수 있다.

다른 예들에서, 인트라 BC 유닛(48)은 본 명세서에서 설명되는 구현예들에 따라 인트라 BC 예측을 위한 이러한 기능들을 수행하기 위해 전체적으로 또는 부분적으로 모션 추정 유닛(42) 및 모션 보상 유닛(44)을 사용할 수 있다. 어느 경우에서든, 인트라 블록 복사에 대해, 예측 블록은 SAD, SSD 또는 다른 차이 메트릭들에 의해 결정될 수 있는 픽셀 차이의 측면에서, 코딩될 블록과 밀접하게 매칭되는 것으로서 고려되는 블록일 수 있고, 그리고 예측 블록의 식별은 서브-정수 픽셀 위치들에 대한 값들의 계산을 포함할 수 있다.

예측 블록이 인트라 예측에 따라 동일한 프레임으로부터 온 것인지 아니면 인터 예측에 따라 상이한 프레임으로부터 온 것인지에 상관없이, 비디오 인코더(20)는, 예측 블록의 픽셀 값들을, 코딩되고 있는 현재 비디오 블록의 픽셀 값들로부터 공제하여 픽셀 차이 값들을 형성함으로써 잔차 블록을 형성할 수 있다. 잔차 블록을 형성하는 픽셀 차이 값들은 루마 및 크로마 컴포넌트 차이들 양쪽 모두를 포함할 수 있다.

앞에서 설명된 바와 같이, 모션 추정 유닛(42) 및 모션 보상 유닛(44)에 의해 수행되는 인터-예측, 또는 인트라 BC 유닛(48)에 의해 수행되는 인트라 블록 복사 예측에 대한 대안으로서, 인트라 예측 프로세싱 유닛(46)은 현재 비디오 블록을 인트라-예측할 수 있다. 특히, 인트라 예측 프로세싱 유닛(46)은 현재 블록을 인코딩하기 위해 사용할 인트라 예측 모드를 결정할 수 있다. 예를 들어, 인트라 예측 프로세싱 유닛(46)은 예를 들어, 별개의 인코딩 패스들 동안 다양한 인트라 예측 모드들을 사용하여 현재 블록을 인코딩할 수 있고, 그리고 인트라 예측 프로세싱 유닛(46)(또는 일부 예들에서는 모드 선택 유닛)은 테스트된 인트라 예측 모드들로부터 사용할 적절한 인트라 예측 모드를 선택할 수 있다. 인트라 예측 프로세싱 유닛(46)은 블록에 대한 선택된 인트라-예측 모드를 표시하는 정보를 엔트로피 인코딩 유닛(56)에게 제공할 수 있다. 엔트로피 인코딩 유닛(56)은 선택된 인트라-예측 모드를 표시하는 정보를 비트스트림 내에 인코딩할 수 있다.

예측 프로세싱 유닛(41)이 인터 예측 또는 인트라 예측을 통해 현재 비디오 블록에 대한 예측 블록을 결정한 이후에, 합산기(50)는 예측 블록을 현재 비디오 블록으로부터 공제함으로써 잔차 블록을 형성한다. 잔차 블록에서의 잔차 비디오 데이터는 하나 이상의 TU들 내에 포함될 수 있고 변환 프로세싱 유닛(52)에게 제공된다. 변환 프로세싱 유닛(52)은 이산 코사인 변환(Discrete Cosine Transform, DCT) 또는 개념적으로 유사한 변환과 같은 변환을 사용하여 잔차 비디오 데이터를 변환 계수(transform coefficient)들로 변환한다.

변환 프로세싱 유닛(52)은 결과적인 변환 계수들을 양자화 유닛(54)으로 보낼 수 있다. 양자화 유닛(54)은 비트 레이트를 더 감소시키기 위해 변환 계수들을 양자화한다. 양자화 프로세스는 또한 계수들 중 일부 혹은 모두와 관련된 비트 깊이(bit depth)를 감소시킬 수 있다. 양자화의 정도(degree)는 양자화 파라미터를 조정함으로써 수정될 수 있다. 일부 예들에서, 양자화 유닛(54)은 그 다음에, 양자화된 변환 계수들을 포함하는 행렬의 스캔(scan)을 수행할 수 있다. 대안적으로, 엔트로피 인코딩 유닛(56)이 스캔을 수행할 수 있다.

양자화에 후속하여, 엔트로피 인코딩 유닛(56)은, 엔트로피 인코딩 기법을 사용하여, 예를 들어, 콘텍스트 적응형 가변 길이 코딩(Context Adaptive Variable Length Coding, CAVLC), 콘텍스트 적응형 2진 산술 코딩(Context Adaptive Binary Arithmetic Coding, CABAC), 신택스-기반 콘텍스트-적응형 2진 산술 코딩(Syntax-based context-adaptive Binary Arithmetic Coding, SBAC), 확률 구간 파티션 엔트로피(Probability Interval Partitioning Entropy, PIPE) 코딩, 혹은 또 하나의 다른 엔트로피 인코딩 방법 또는 기법을 사용하여, 양자화된 변환 계수들을 비디오 비트스트림으로 인코딩할 수 있다. 인코딩된 비트스트림은 그 다음에, 도 1에서 보여지는 바와 같이 비디오 디코더(30)로 전송될 수 있거나, 또는 이후에 비디오 디코더(30)로의 전송을 위해 혹은 비디오 디코더(30)에 의한 검색을 위해 도 1에서 보여지는 바와 같이 저장 디바이스(32) 내에 보관될 수 있다. 엔트로피 인코딩 유닛(56)은 또한, 코딩되고 있는 현재 비디오 프레임에 대한 모션 벡터들 및 다른 신택스 요소들을 인코딩하기 위해 엔트로피 인코딩 기법을 사용할 수 있다.

역 양자화 유닛(58) 및 역 변환 프로세싱 유닛(60)은, 다른 비디오 블록들의 예측을 위한 참조 블록을 발생시키기 위해서 픽셀 도메인(pixel domain)에서 잔차 블록을 재구성하기 위해, 역 양자화 및 역 변환을 각각 적용한다. 재구성된 잔차 블록이 발생될 수 있다. 앞에서 언급된 바와 같이, 모션 보상 유닛(44)은 DPB(64) 내에 저장된 프레임들의 하나 이상의 참조 블록들로부터 모션 보상된 예측 블록을 발생시킬 수 있다. 모션 보상 유닛(44)은 또한, 모션 추정에서의 사용을 위한 서브-정수 픽셀 값들을 계산하기 위해 예측 블록에 하나 이상의 보간 필터(interpolation filter)들을 적용할 수 있다.

합산기(62)는 DPB(64) 내의 저장을 위한 참조 블록을 생성하기 위해 모션 보상 유닛(44)에 의해 생성된 모션 보상된 예측 블록에 재구성된 잔차 블록을 합산한다. 잔차 블록은 그 다음에, 후속하는 비디오 프레임 내의 또 하나의 다른 비디오 블록을 인터 예측하기 위한 예측 블록으로서 인트라 BC 유닛(48), 모션 추정 유닛(42), 및 모션 보상 유닛(44)에 의해 사용될 수 있다.

도 3은 본 출원의 일부 구현예들에 따른 예시적인 비디오 디코더(30)를 예시하는 블록도이다. 비디오 디코더(30)는 비디오 데이터 메모리(79), 엔트로피 디코딩 유닛(80), 예측 프로세싱 유닛(81), 역 양자화 유닛(86), 역 변환 프로세싱 유닛(88), 합산기(90), 및 DPB(92)를 포함한다. 예측 프로세싱 유닛(81)은 또한, 모션 보상 유닛(82), 인트라 예측 유닛(84), 및 인트라 BC 유닛(85)을 포함한다. 비디오 디코더(30)는 도 2와 연계되어 비디오 인코더(20)에 관해 앞에서 설명된 인코딩 프로세스에 상반되는 디코딩 프로세스를 일반적으로 수행할 수 있다. 예를 들어, 모션 보상 유닛(82)은 엔트로피 디코딩 유닛(80)으로부터 수신된 모션 벡터들에 근거하여 예측 데이터를 발생시킬 수 있고, 반면 인트라 예측 유닛(84)은 엔트로피 디코딩 유닛(80)으로부터 수신된 인트라-예측 모드 표시자들에 근거하여 예측 데이터를 발생시킬 수 있다.

일부 예들에서, 비디오 디코더(30)의 유닛은 본 출원의 구현예들을 수행하도록 임무를 부여받을 수 있다. 또한, 일부 예들에서, 본 개시내용의 구현예들은 비디오 디코더(30)의 유닛들 중 하나 이상의 유닛 간에 분할될 수 있다. 예를 들어, 인트라 BC 유닛(85)은 본 출원의 구현예들을 단독으로 수행할 수 있거나, 또는 모션 보상 유닛(82), 인트라 예측 유닛(84), 및 엔트로피 디코딩 유닛(80)과 같은, 비디오 디코더(30)의 다른 유닛들과 결합되어 수행할 수 있다. 일부 예들에서, 비디오 디코더(30)는 인트라 BC 유닛(85)을 포함하지 않을 수 있고, 그리고 인트라 BC 유닛(85)의 기능은 모션 보상 유닛(82)과 같은, 예측 프로세싱 유닛(81)의 다른 컴포넌트들에 의해 수행될 수 있다.

비디오 데이터 메모리(79)는 비디오 디코더(30)의 다른 컴포넌트들에 의해 디코딩될, 인코딩된 비디오 비트스트림과 같은, 비디오 데이터를 저장할 수 있다. 비디오 데이터 메모리(79) 내에 저장되는 비디오 데이터는, 예를 들어, 저장 디바이스(32)로부터 획득될 수 있거나, 카메라와 같은 로컬 비디오 소스로부터 획득될 수 있거나, 비디오 데이터의 유선 혹은 무선 네트워크 통신을 통해 획득될 수 있거나, 또는 물리적인 데이터 저장 매체들(예컨대, 플래시 드라이브 혹은 하드 디스크)에 액세스함으로써 획득될 수 있다. 비디오 데이터 메모리(79)는 인코딩된 비디오 비트스트림으로부터의 인코딩된 비디오 데이터를 저장하는 코딩된 픽처 버퍼(Coded Picture Buffer, CPB)를 포함할 수 있다. 비디오 디코더(30)의 DPB(92)는 (예컨대, 인트라 또는 인터 예측 코딩 모드들에서) 비디오 디코더(30)에 의해 비디오 데이터를 디코딩할 때 사용하기 위한 참조 비디오 데이터를 저장한다. 비디오 데이터 메모리(79) 및 DPB(92)는, 동적 랜점 액세스 메모리(Dynamic Random Access Memory, DRAM)(여기에는 동기식 DRAM(Synchronous DRAM, SDRAM)이 포함됨), 자기-저항 RAM(Magneto-resistive RAM, MRAM), 저항 RAM(Resistive RAM, RRAM), 또는 메모리 디바이스들의 다른 타입들과 같은, 다양한 메모리 디바이스들 중 임의의 메모리 디바이스에 의해 형성될 수 있다. 예시적 목적을 위해, 비디오 데이터 메모리(79) 및 DPB(92)는 도 3에서 비디오 디코더(30)의 두 개의 별개의 컴포넌트들로서 도시된다. 하지만, 비디오 데이터 메모리(79) 및 DPB(92)가 동일한 메모리 디바이스에 의해 제공될 수 있거나 또는 별개의 메모리 디바이스들에 의해 제공될 수 있음은 본 발명의 기술분야에서 숙련된 자에게 명백할 것이다. 일부 예들에서, 비디오 데이터 메모리(79)는 비디오 디코더(30)의 다른 컴포넌트들과 함께 온-칩일 수 있거나, 또는 이러한 컴포넌트들에 대해 오프-칩일 수 있다.

디코딩 프로세스 동안, 비디오 디코더(30)는 인코딩된 비디오 프레임의 비디오 블록들 및 관련된 신택스 요소들을 나타내는 인코딩된 비디오 비트스트림을 수신한다. 비디오 디코더(30)는 비디오 프레임 레벨 및/또는 비디오 블록 레벨에서 신택스 요소들을 수신할 수 있다. 비디오 디코더(30)의 엔트로피 디코딩 유닛(80)은 양자화된 계수들, 모션 벡터들 혹은 인트라-예측 모드 표시자들, 및 다른 신택스 요소들을 획득하기 위해서 비트스트림을 디코딩하기 위해 엔트로피 디코딩 기법을 사용할 수 있다. 엔트로피 디코딩 유닛(80)은 그 다음에, 모션 벡터들 혹은 인트라-예측 모드 표시자들 및 다른 신택스 요소들을 예측 프로세싱 유닛(81)으로 전달한다.

비디오 프레임이 인트라 예측 코딩된(예컨대, I) 프레임으로서 코딩되거나 또는 프레임들의 다른 타입들 내의 인트라 코딩된 예측 블록들에 대해 코딩된 경우, 예측 프로세싱 유닛(81)의 인트라 예측 유닛(84)은 시그널링된 인트라 예측 모드 및 현재 프레임의 이전에 디코딩된 블록들로부터의 참조 데이터에 근거하여 현재 비디오 프레임의 비디오 블록에 대한 예측 데이터를 발생시킬 수 있다.

비디오 프레임이 인터-예측 코딩된(예컨대, B 또는 P) 프레임으로서 코딩된 경우, 예측 프로세싱 유닛(81)의 모션 보상 유닛(82)은 엔트로피 디코딩 유닛(80)으로부터 수신된 모션 벡터들 및 다른 신택스 요소들에 근거하여 현재 비디오 프레임의 비디오 블록에 대한 하나 이상의 예측 블록들을 생성한다. 예측 블록들 각각은 참조 프레임 리스트들 중 하나의 참조 프레임 리스트 내의 참조 프레임으로부터 생성될 수 있다. 비디오 디코더(30)는 DPB(92) 내에 저장된 참조 프레임들에 근거하여 디폴트 구성 기법(default construction technique)들을 사용하여 참조 프레임 리스트들, 예컨대, 리스트 0 및 리스트 1을 구성할 수 있다.

일부 예들에서, 비디오 블록이 본 명세서에서 설명되는 인트라 BC 모드에 따라 코딩된 경우, 예측 프로세싱 유닛(81)의 인트라 BC 유닛(85)은 엔트로피 디코딩 유닛(80)으로부터 수신된 블록 벡터들 및 다른 신택스 요소들에 근거하여 현재 비디오 블록에 대한 예측 블록들을 생성한다. 예측 블록들은 비디오 인코더(20)에 의해 프로세싱된 현재 비디오 블록과 동일한 픽처의 재구성된 영역 내에 있을 수 있다.

모션 보상 유닛(82) 및/또는 인트라 BC 유닛(85)은, 모션 벡터들 및 다른 신택스 요소들을 파싱(parsing)함으로써 현재 비디오 프레임의 비디오 블록에 대한 예측 정보를 결정하고, 그 다음에, 디코딩되고 있는 현재 비디오 블록에 대한 예측 블록들을 생성하기 위해 예측 정보를 사용한다. 예를 들어, 모션 보상 유닛(82)은, 비디오 프레임의 비디오 블록들을 코딩하기 위해 사용되는 예측 모드(예컨대, 인트라 또는 인터 예측), 인터 예측 프레임 타입(예컨대, B 또는 P), 프레임에 대한 참조 프레임 리스트들 중 하나 이상에 대한 구성 정보, 프레임의 각각의 인터 예측 코딩된 비디오 블록에 대한 모션 벡터들, 프레임의 각각의 인터 예측 코딩된 비디오 블록에 대한 인터 예측 상태, 그리고 현재 비디오 프레임 내의 비디오 블록들을 디코딩하기 위한 다른 정보를 결정하기 위해서, 수신된 신택스 요소들 중 일부를 사용한다.

유사하게, 인트라 BC 유닛(85)은, 현재 비디오 블록이 인트라 BC 모드를 사용하여 예측되었음, 프레임의 어떤 비디오 블록들이, 재구성된 영역 내에 있는지 그리고 DPB(92) 내에 저장돼야 하는지에 관한 구성 정보, 프레임의 각각의 인트라 BC 예측된 비디오 블록에 대한 블록 벡터들, 프레임의 각각의 인트라 BC 예측된 비디오 블록에 대한 인트라 BC 예측 상태, 그리고 현재 비디오 프레임 내의 비디오 블록들을 디코딩하기 위한 다른 정보를 결정하기 위해서, 수신된 신택스 요소들 중 일부, 예컨대, 플래그를 사용할 수 있다.

모션 보상 유닛(82)은 또한, 참조 블록들의 서브-정수 픽셀들에 대한 보간된 값들을 계산하기 위해서 비디오 블록들의 인코딩 동안 비디오 인코더(20)에 의해 사용되는 바와 같이 보간 필터들을 사용하여 보간을 수행할 수 있다. 이러한 경우에, 모션 보상 유닛(82)은 수신된 신택스 요소들로부터 비디오 인코더(20)에 의해 사용되는 보간 필터들을 결정할 수 있고, 그리고 예측 블록들을 생성하기 위해 보간 필터들을 사용할 수 있다.

역 양자화 유닛(86)은 양자화의 정도를 결정하기 위해 비디오 프레임 내의 각각의 비디오 블록에 대해 비디오 인코더(20)에 의해 계산된 동일한 양자화 파라미터를 사용하여 비트스트림 내에서 제공되고 엔트로피 디코딩 유닛(80)에 의해 디코딩된 양자화된 변환 계수들을 역양자화한다. 역 변환 프로세싱 유닛(88)은 픽셀 도메인에서 잔차 블록들을 재구성하기 위해서 변환 계수들에 역 변환을 적용하는데, 예컨대, 역 DCT, 역 정수 변환, 또는 개념적으로 유사한 역 변환 프로세스를 적용한다.

모션 보상 유닛(82) 또는 인트라 BC 유닛(85)이 벡터들 및 다른 신택스 요소들에 근거하여 현재 비디오 블록에 대한 예측 블록을 발생시킨 이후에, 합산기(90)는 역 변환 프로세싱 유닛(88)으로부터의 잔차 블록과 모션 보상 유닛(82) 및 인트라 BC 유닛(85)에 의해 발생된 대응하는 예측 블록을 합산함으로써 현재 비디오 블록에 대한 디코딩된 비디오 블록을 재구성한다. 디코딩된 비디오 블록은 또한, 현재 비디오 블록에 대한 재구성된 블록으로서 지칭될 수 있다. 디블록킹 필터와 같은 인-루프 필터(91), SAO 필터, 및/또는 ALF가, 디코딩된 비디오 블록을 더 프로세싱하기 위해 합산기(90)와 DPB(92) 사이에 배치될 수 있다. 일부 예들에서, 인-루프 필터(91)는 생략될 수 있고, 그리고 디코딩된 비디오 블록이 합산기(90)에 의해 DPB(92)에 직접적으로 제공될 수 있다. 주어진 프레임 내의 디코딩된 비디오 블록들은 그 다음에 DPB(92) 내에 저장되고, DPB(92)는 다음 비디오 블록들의 후속하는 모션 보상을 위해 사용되는 참조 프레임들을 저장한다. DPB(92), 또는 DPB(92)와는 별개인 메모리 디바이스는 또한, 디코딩된 비디오를 도 1의 디스플레이 디바이스(34)와 같은 디스플레이 디바이스 상에서의 이후의 제시를 위해 저장할 수 있다.

(예를 들어, 비디오 인코딩 프로세스 및 비디오 디코딩 프로세스를 포함하는) 전형적인 비디오 코딩 프로세스에서, 비디오 시퀀스는 전형적으로 프레임들 또는 픽처들의 정렬된 세트를 포함한다. 각각의 프레임은 SL, SCb, 및 SCr로 표시되는 3개의 샘플 배열들을 포함할 수 있다. SL은 루마 샘플들의 2-차원 배열이다. SCb는 Cb 크로마 샘플들의 2-차원 배열이다. SCr은 Cr 크로마 샘플들의 2-차원 배열이다. 다른 경우들에서, 프레임은 모노크롬(monochrome)일 수 있고, 따라서 루마 샘플들의 단 하나의 2-차원 배열을 포함한다.

도 4a에서 보여지는 바와 같이, 비디오 인코더(20)(또는 더 구체적으로는 파티션 유닛(45))는 프레임을 먼저 CTU들의 세트로 파티션함으로써 프레임의 인코딩된 표현을 발생시킨다. 비디오 프레임은 좌측으로부터 우측으로 그리고 상단으로부터 하단으로의 래스터 스캔 순서(raster scan order)에서 연속적으로 정렬된 정수 개의 CTU들을 포함할 수 있다. 각각의 CTU는 가장 큰 논리적 코딩 유닛(logical coding unit)이고, 그리고 CTU의 폭 및 높이는 시퀀스 파라미터 세트 내에서 비디오 인코더(20)에 의해 시그널링되고, 이에 따라 비디오 시퀀스 내의 모든 CTU들은 128x128, 64x64, 32x32, 및 16x16 중 하나인 동일한 크기를 갖게 된다. 하지만, 본 개시내용에서의 CTU가 반드시 특정 크기에 한정되지 않음에 유의해야 한다. 도 4b에서 보여지는 바와 같이, 각각의 CTU는, 루마 샘플들의 하나의 CTB, 크로마 샘플들의 두 개의 대응하는 코딩 트리 블록들, 그리고 코딩 트리 블록들의 샘플들을 코딩하기 위해 사용되는 신택스 요소들을 포함할 수 있다. 신택스 요소들은, 픽셀들의 코딩된 블록의 유닛들의 상이한 타입들의 속성들, 그리고 비디오 시퀀스가 비디오 디코더(30)에서 어떻게 재구성될 수 있는지를 설명하고, 여기에는 인터 또는 인트라 예측, 인트라 예측 모드, 모션 벡터들, 및 다른 파라미터들이 포함된다. 모노크롬 픽처들, 또는 세 개의 별개의 컬러 평면(color plane)들을 갖는 픽처들에서, CTU는 단일 코딩 트리 블록, 그리고 코딩 트리 블록의 샘플들을 코딩하기 위해 사용되는 신택스 요소들을 포함할 수 있다. 코딩 트리 블록은 샘플들의 NxN 블록일 수 있다.

더 좋은 성능을 성취하기 위해, 비디오 인코더(20)는, CTU의 코딩 트리 블록(coding tree block)들에 관해, 2진-트리 파티션, 3진-트리 파티션, 4진-트리 파티션, 또는 이들의 조합과 같은, 트리 파티션을 회귀적으로 수행할 수 있고, 그리고 CTU를 더 작은 CU들로 분할할 수 있다. 도 4c에서 도시되는 바와 같이, 64x64 CTU(400)가 먼저 4개의 더 작은 CU들로 분할되고, 이들 각각은 32x32의 블록 크기를 갖는다. 4개의 더 작은 CU들 중에서, CU(410) 및 CU(420)는 각각, 블록 크기 별로 16x16의 4개의 CU들로 분할된다. 2개의 16x16 CU들(430 및 440)은 각각, 블록 크기 별로 8x8의 4개의 CU들로 더 분할된다. 도 4d는 도 4c에서 도시되는 바와 같은 CTU(400)의 파티션 프로세스의 최종 결과를 예시하는 4진-트리 데이터 구조를 도시하고, 4진-트리의 각각의 리프 노드(leaf node)는 32x32 내지 8x8의 범위를 갖는 각각의 크기의 하나의 CU에 대응한다. 도 4b에 도시된 CTU와 같이, 각각의 CU는, 루마 샘플들의 CB 및 동일한 크기의 프레임의 크로마 샘플들의 2개의 대응하는 코딩 블록들, 그리고 코딩 블록들의 샘플들을 코딩하기 위해 사용되는 신택스 요소들을 포함할 수 있다. 모노크롬 픽처들, 또는 세 개의 별개의 컬러 평면들을 갖는 픽처들에서, CU는 단일 코딩 블록, 그리고 코딩 블록의 샘플들을 코딩하기 위해 사용되는 신택스 구조들을 포함할 수 있다. 도 4c 및 도 4d에서 도시되는 4진-트리 파티션은 단지 예시적 목적들을 위한 것일 뿐이고 하나의 CTU는 4진/3진/2진-트리 파티션들에 근거하여 다양한 로컬 특성(local characteristic)들에 맞도록 CU들로 분할될 수 있음에 유의해야 한다. 다중-타입 트리 구조(multi-type tree structure)에서, 하나의 CTU는 4진-트리 구조에 의해 파티션되고, 각각의 4진-트리 리프 CU는 2진 및 3진 트리 구조에 의해 더 파티션될 수 있다. 도 4e에서 보여지는 바와 같이, 폭(W) 및 높이(H)를 갖는 코딩 블록의 다수의 가능한 파티션 타입들이 존재하는데, 즉, 4진 파티션, 수직 2진 파티션, 수평 2진 파티션, 수직 3진 파티션, 수직 확장된 3진 파티션, 수평 3진 파티션, 및 수평 확장된 3진 파티션이 존재한다.

일부 구현예들에서, 비디오 인코더(20)는 CU의 코딩 블록을 하나 이상의 MxN PB들로 더 파티션할 수 있다. PB는 동일한 (인터 또는 인트라) 예측이 적용되는 샘플들의 직사각형(정방형 또는 비-정방형) 블록을 포함할 수 있다. CU의 PU는 루마 샘플들의 PB, 크로마 샘플들의 두 개의 대응하는 PB들, 및 PB들을 예측하기 위해 사용되는 신택스 요소들을 포함할 수 있다. 모노크롬 픽처들, 또는 세 개의 별개의 컬러 평면들을 갖는 픽처들에서, PU는 단일 PB, 그리고 PB를 예측하기 위해 사용되는 신택스 구조들을 포함할 수 있다. 비디오 인코더(20)는 CU의 각각의 PU의 루마, Cb, 및 Cr PB들에 대한 예측 루마, Cb, 및 Cr 블록들을 발생시킬 수 있다.

비디오 인코더(20)는 PU에 대한 예측 블록들을 발생시키기 위해 인트라 예측 또는 인터 예측을 사용할 수 있다. 만약 비디오 인코더(20)가 PU의 예측 블록들을 발생시키기 위해 인트라 예측을 사용한다면, 비디오 인코더(20)는 PU와 관련된 프레임의 디코딩된 샘플들에 근거하여 PU의 예측 블록들을 발생시킬 수 있다. 만약 비디오 인코더(20)가 PU의 예측 블록들을 발생시키기 위해 인터 예측을 사용한다면, 비디오 인코더(20)는 PU와 관련된 프레임과는 다른 하나 이상의 프레임들의 디코딩된 샘플들에 근거하여 PU의 예측 블록들을 발생시킬 수 있다.

비디오 인코더(20)가 CU의 하나 이상의 PU들에 대한 예측 루마, Cb 및 Cr 블록들을 발생시킨 이후에, 비디오 인코더(20)는, CU의 예측 루마 블록들을 CU의 본래의 루마 코딩 블록으로부터 공제함으로써 CU에 대한 루마 잔차 블록을 발생시킬 수 있고, 이에 따라 CU의 루마 잔차 블록 내의 각각의 샘플은 CU의 예측 루마 블록들 중 하나의 예측 루마 블록 내의 루마 샘플과 CU의 본래의 루마 코딩 블록 내의 대응하는 샘플 간의 차이를 표시하게 된다. 유사하게, 비디오 인코더(20)는 Cu에 대한 Cb 잔차 블록 및 Cr 잔차 블록을 각각 발생시킬 수 있고, 이에 따라 CU의 Cb 잔차 블록 내의 각각의 샘플은 CU의 예측 Cb 블록들 중 하나의 예측 Cb 블록 내의 Cb 샘플과 CU의 본래의 Cb 코딩 블록 내의 대응하는 샘플 간의 차이를 표시하게 되고, 그리고 CU의 Cr 잔차 블록 내의 각각의 샘플은 CU의 예측 Cr 블록들 중 하나의 예측 Cr 블록 내의 Cr 샘플과 CU의 본래의 Cr 코딩 블록 내의 대응하는 샘플 간의 차이를 표시할 수 있게 된다.

더욱이, 도 4c에서 예시되는 바와 같이, 비디오 인코더(20)는 CU의 루마, Cb, 및 Cr 잔차 블록들을 하나 이상의 루마, Cb, 및 Cr 변환 블록들로 각각 분해하기 위해 4진-트리 파티션을 사용할 수 있다. 변환 블록은 동일한 변환이 적용되는 샘플의 직사각형(정방형 또는 비-정방형) 블록을 포함할 수 있다. CU의 TU는, 루마 샘플들의 변환 블록, 크로마 샘플들의 두 개의 대응하는 변환 블록들, 그리고 변환 블록 샘플들을 변환하기 위해 사용되는 신택스 요소들을 포함할 수 있다. 따라서, CU의 각각의 TU는 루마 변환 블록, Cb 변환 블록, 및 Cr 변환 블록과 관련될 수 있다. 일부 예들에서, TU와 관련된 루마 변환 블록은 CU의 루마 잔차 블록의 서브-블록일 수 있다. Cb 변환 블록은 CU의 Cb 잔차 블록의 서브-블록일 수 있다. Cr 변환 블록은 CU의 Cr 잔차 블록의 서브-블록일 수 있다. 모노크롬 픽처들, 또는 세 개의 별개의 컬러 평면들을 갖는 픽처들에서, TU는 단일 변환 블록, 그리고 변환 블록의 샘플들을 변환하기 위해 사용되는 신택스 구조들을 포함할 수 있다.

비디오 인코더(20)는 TU의 루마 계수 블록을 발생시키기 위해 TU의 루마 변환 블록에 하나 이상의 변환들을 적용할 수 있다. 계수 블록은 변환 계수들의 2-차원 배열일 수 있다. 변환 계수는 스칼라 양(scalar quantity)일 수 있다. 비디오 인코더(20)는 TU에 대한 Cb 계수 블록을 발생시키기 위해 TU의 Cb 변환 블록에 하나 이상의 변환들을 적용할 수 있다. 비디오 인코더(20)는 TU에 대한 Cr 계수 블록을 발생시키기 위해 TU의 Cr 변환 블록에 하나 이상의 변환들을 적용할 수 있다.

계수 블록(예컨대, 루마 계수 블록, Cb 계수 블록, 또는 Cr 계수 블록)을 발생시킨 이후에, 비디오 인코더(20)는 계수 블록을 양자화할 수 있다. 양자화는 일반적으로, 변환 계수들을 나타내기 위해 사용되는 데이터의 양을 가능하게 감소시키기 위해 변환 계수들이 양자화되는 프로세스를 지칭하며, 이것은 추가 압축을 제공한다. 비디오 인코더(20)가 계수 블록을 양자화한 이후에, 비디오 인코더(20)는 양자화된 변환 계수들을 표시하는 신택스 요소들을 인코딩하기 위해 엔트로피 인코딩 기법을 적용할 수 있다. 예를 들어, 비디오 인코더(20)는 양자화된 변환 계수들을 표시하는 신택스 요소들에 관해 CABAC를 수행할 수 있다. 마지막으로, 비디오 인코더(20)는 코딩된 프레임들 및 관련된 데이터의 표현을 형성하는 비트들의 시퀀스를 포함하는 비트스트림을 출력할 수 있고, 이것은 저장 디바이스(32) 내에 저장되거나, 또는 목적지 디바이스(14)로 전송된다.

비디오 인코더(20)에 의해 발생된 비트스트림을 수신한 이후에, 비디오 디코더(30)는 비트스트림으로부터 신택스 요소들을 획득하기 위해 비트스트림을 파싱할 수 있다. 비디오 디코더(30)는 비트스트림으로부터 획득된 신택스 요소들에 적어도 부분적으로 근거하여 비디오 데이터의 프레임들을 재구성할 수 있다. 비디오 데이터를 재구성하는 프로세스는 일반적으로 비디오 인코더(20)에 의해 수행되는 인코딩 프로세스에 상반되는 것이다. 예를 들어, 비디오 디코더(30)는 현재 CU의 TU들과 관련된 잔차 블록들을 재구성하기 위해 현재 CU의 TU들과 관련된 계수 블록들에 관해 역 변환들을 수행할 수 있다. 비디오 디코더(30)는 또한, 현재 CU의 PU들에 대한 예측 블록들의 샘플들을 현재 CU의 TU들의 변환 블록들의 대응하는 샘플들에 합산함으로써 현재 CU의 코딩 블록들을 재구성한다. 프레임의 각각의 CU에 대한 코딩 블록들을 재구성한 이후에, 비디오 디코더(30)는 프레임을 재구성할 수 있다.

앞에서 언급된 바와 같이, 비디오 코딩은 주로 두 개의 모드들, 즉, 인트라-프레임 예측(또는 인트라-예측) 및 인터-프레임 예측(또는 인터 예측)을 사용하여 비디오 압축을 성취한다. 인트라 블록 복사(Intra Block Copy, IBC)가 인트라-프레임 예측 또는 제 3 모드로서 고려될 수 있음에 유의해야 한다. 두 개의 모드들 간에는, 인터-프레임 예측이 인트라-프레임 예측보다 코딩 효율에 더 맣이 기여하는데, 왜냐하면 참조 비디오 블록으로부터 현재 비디오 블록을 예측하기 위해 모션 벡터들이 사용되기 때문이다.

하지만, 비디오 데이터 캡처 기술이 계속 향상되고 있고, 그리고 비디오 데이터에서의 세부사항들을 보존하기 위해 비디오 블록 크기가 더 정제되기 때문에, 현재 프레임에 대한 모션 벡터들을 나타내기 위해 요구되는 데이터의 양은 또한 실질적으로 증가한다. 이러한 도전과제를 극복하는 한 가지 방법은, 공간적 및 시간적 도메인들 양쪽 모두에서의 이웃 CU들의 그룹이, 예측 목적을 위해, 유사한 비디오 데이터를 갖는다는 사실뿐만 아니라 이러한 이웃 CU들 간의 모션 벡터들이 또한 유사하다는 사실로부터 혜택을 받는 것이다. 따라서, 공간적으로 이웃하는 CU들 및/또는 시간적으로 동일-위치에 있는 CU들의 모션 정보를, 이들의 공간적 및 시간적 상관관계를 탐색함으로써, 현재 CU의 모션 정보(예컨대, 모션 벡터)의 근사치(approximation)로서 사용하는 것이 가능하다(이것은 또한 현재 CU의 "모션 벡터 예측 예측자(Motion Vector Predictor, MVP)"로서 지칭됨).

현재 CU의 실제 모션 벡터(예컨대, 도 2와 연계되어 앞에서 설명된 바와 같이 모션 추정 유닛(42)에 의해 결정되는 실제 모션 벡터)를 비디오 비트스트림으로 인코딩하는 대신에, 현재 CU의 모션 벡터 예측자가, 현재 CU에 대한 모션 벡터 차이(Motion Vector Difference, MVD)를 생성하기 위해 현재 CU의 실제 모션 벡터로부터 공제된다. 이렇게 함으로써, 프레임의 각각의 CU에 대한 모션 추정 유닛(42)에 의해 결정된 모션 벡터를 비디오 비트스트림으로 인코딩할 필요가 없고, 비디오 비트스트림에서 모션 정보를 나타내기 위해 사용되는 데이터의 양이 상당히 감소될 수 있다.

코드 블록의 인터-프레임 예측 동안 참조 프레임 내의 예측 블록을 선택하는 프로세스와 같이, 현재 CU의 공간적으로 이웃하는 CU들 및/또는 시간적으로 동일-위치에 있는 CU들과 관련된 그러한 잠재적인 후보 모션 벡터들을 사용하여 현재 CU에 대한 모션 벡터 후보 리스트(이것은 또한 "병합 리스트"로서 알려짐)를 구성하는 것, 그리고 그 다음에 모션 벡터 후보 리스트로부터의 하나의 멤버(member)를 현재 CU에 대한 모션 벡터 예측자로서 선택하는 것을 행하기 위한 규칙(rule)들의 세트가 비디오 인코더(20) 및 비디오 디코더(30) 양쪽 모두에 의해 채택될 수 있다. 이렇게 함으로써, 모션 벡터 후보 리스트 자체를 비디오 인코더(20)로부터 비디오 디코더(30)로 전송할 필요가 없고, 그리고 비디오 인코더(20)와 비디오 디코더(30)가 현재 CU를 인코딩 및 디코딩하기 위한 모션 벡터 후보 리스트 내에서 동일한 모션 벡터 예측자를 사용하기 위해 모션 벡터 후보 리스트 내의 선택된 모션 벡터 예측자의 인덱스는 충분하다. 따라서. 선택된 모션 벡터 예측자의 인텍스만이 비디오 인코더(20)로부터 비디오 디코더(30)로 보내질 필요가 있다.

아핀 모드에 관한 간략한 논의가 도 5a 및 도 5b를 참조하여 본 명세서에서 제공된다. HEVC에서는, 모션 보상된 예측을 위해 단지 병진 모션 모델(translation motion model)만이 적용된다. 실제 세계에서는, 모션의 다양한 종류들이 있을 수 있는데, 예컨대, 줌 인(zoom in), 줌 아웃(zoom out), 회전(rotation), 원근 모션(perspective motion)들, 및 다른 불규칙한 모션들이 있을 수 있는 반면, VVC 및 AVS3 표준들에서는, 병진 모션 모델 또는 아핀 모션 모델이 인터 예측을 위해 적용되는지 여부를 표시하기 위해 각각의 인터 코딩 블록에 대한 플래그를 시그널링함으로써 아핀 모션 보상된 예측이 적용될 수 있다. 일부 구현예들에서, 두 개의 아핀 모드들 중 하나(예컨대, 도 5a에서 보여지는 바와 같이, 4-파라미터 아핀 모션 모델, 또는 도 5b에서 보여지는 바와 같이, 6-파라미터 아핀 모션 모델)가 선택될 수 있고, 아핀-코딩된 비디오 블록에 적용될 수 있다.

도 5a에서 보여지는 4-파라미터 아핀 모션 모델은 다음과 같은 아핀 파라미터들을 포함하는데, 수평 및 수직 방향들 각각에서의 병진 움직임에 대한 두 개의 파라미터들, 수평 및 수직 양쪽 방향들에 대한 줌 모션에 대한 하나의 파라미터 및 회전 모션에 대한 하나의 파라미터를 포함한다. 이러한 모델에서, 수평 줌 파라미터는 수직 줌 파라미터와 동일할 수 있고, 그리고 수평 회전 파라미터는 수직 회전 파라미터와 동일할 수 있다. 모션 벡터들 및 아핀 파라미터들의 더 좋은 수용(accommodation)을 성취하기 위해, 이러한 모델의 아핀 파라미터들은 현재 비디오 블록의 두 개의 제어 포인트(control point)들(예컨대, 상단-좌측 코너(top-left corner) 및 상단-우측 코너(top-right corner))에 위치하는 두 개의 모션 벡터들(이것은 또한 제어 포인트 모션 벡터(Control Point Motion Vector, CPMV)들로서 지칭됨)을 이용해 코딩될 수 있다. 도 5a에서 보여지는 바와 같이, 비디오 블록의 아핀 모션 필드(affine motion field)(예컨대, 비디오 블록의 모션 벡터들)는 두 개의 CPMV들(V₀ 및 V₁)에 의해 설명될 수 있다. 제어 포인트 모션에 근거하여, 비디오 블록 내에서 위치 (x, y)를 갖는 아핀 코딩된 서브-블록의 모션 필드는 다음과 같은 수식 (1)을 사용하여 도출될 수 있다.

앞서의 수식 (1)에서, v_x 및 v_y는 위치 (x, y)에서 아핀 코딩된 서브-블록의 모션 벡터의 x-컴포넌트 및 y-컴포넌트를 각각 나타낸다. w는 비디오 블록의 폭을 나타낸다. v_0x 및 v_0y는 CPMV V₀의 x-컴포넌트 및 y-컴포넌트를 각각 나타낸다. v_1x 및 v_1y는 CPMV V₁의 x-컴포넌트 및 y-컴포넌트를 각각 나타낸다.

도 5b에서 보여지는 바와 같이 6-파라미터 아핀 모션 모델은 다음과 같은 아핀 파라미터들을 포함하는데, 수평 및 수직 방향들 각각에서의 병진 움직임에 대한 두 개의 파라미터들, 수평 방향에서 줌 모션 및 회전 모션에 대한 두 개의 파라미터들, 그리고 수직평 방향에서 줌 모션 및 회전 모션 각각에 대한 또 하나의 다른 두 개의 파라미터들을 포함한다. 6-파라미터 아핀 모션 모델은 세 개의 제어 포인트들에서 세 개의 CPMV들로 코딩될 수 있다. 도 5b에서 보여지는 바와 같이, 6-파라미터 아핀 비디오 블록의 세 개의 제어 포인트들은 비디오 블록의 상단-좌측, 상단-우측, 및 하단 좌측 코너들에 위치하고, 그리고 CPMV들 V₀, V₁, 및 V₂와 각각 관련된다. 상단-좌측 제어 포인트에서의 모션은 병진 모션과 관련되고, 상단-우측 제어 포인트에서의 모션은 수평 방향에서의 회전 및 줌 모션과 관련되고, 그리고 하단-좌측 제어 포인트에서의 모션은 수직 방향에서의 회전 및 줌 모션과 관련된다. 4-파라미터 아핀 모션 모델과 비교하여, 6-파라미터 아핀 모션 모델의 수평 방향에서의 회전 및 줌 모션은 수직 방향에서의 회전 및 줌 모션과 동일하지 않을 수 있다. 비디오 블록의 위치 (x, y)에 위치하는 각각의 서브-블록의 모션 벡터(v_x, v_y)는 다음과 같은 수식에 의해 세 개의 제어 포인트들에서 세 개의 CPMV들을 사용하여 도출될 수 있다.

앞서의 수식 (2)에서, v_x 및 v_y는 위치 (x, y)에서 아핀 코딩된 서브-블록의 모션 벡터의 x-컴포넌트 및 y-컴포넌트를 각각 나타낸다. w 및 h는 비디오 블록의 폭 및 높이를 각각 나타낸다. v_0x 및 v_0y는 CPMV V₀의 x-컴포넌트 및 y-컴포넌트를 각각 나타낸다. v_1x 및 v_1y는 CPMV V₁의 x-컴포넌트 및 y-컴포넌트를 각각 나타낸다. v_2x 및 v_2y는 CPMV V₂의 x-컴포넌트 및 y-컴포넌트를 각각 나타낸다.

도 6은 본 개시내용의 일부 구현예들에 따른 예시적인 쌍방 매칭을 예시하는 그래픽 표현이다. 비디오 코딩의 도메인에서, 쌍방 매칭은 현재 코딩된 비디오 블록의 모션 정보가 디코더 측으로 시그널링되지 않고 디코더 측에서 도출되는 기법이다. 모션 도출 프로세스를 위해 쌍방 매칭이 사용될 때, 전체 비디오 블록에 대해 초기 모션 벡터가 먼저 도출될 수 있다. 구체적으로, 비디오 블록의 병합 리스트가 점검(check)될 수 있고, 그리고 병합 리스트 내의 모든 후보 모션 벡터들 중에서 최소의 매칭 비용으로 이어지는 병합 리스트로부터의 후보 모션 벡터가 시작 포인트로서 선택될 수 있다. 그 다음에, 검색 범위 내에서 시작 포인트를 중심으로 하는 로컬 검색(local search)이 수행될 수 있고, 그리고 검색 범위 내에서 최소의 매칭 비용을 초래하는 모션 벡터가 전체 비디오 블록에 대한 모션 벡터로서 취해질 수 있다. 후속적으로, 모션 정보는 전체 비디오 블록에 대한 모션 벡터를 새로운 시작 포인트로서 사용하여 서브-블록 레벨에서 더 정제될 수 있다. 예를 들어, 수 개의 CPMV들이 전체 비디오 블록에 대해 도출될 수 있고, 그 다음에 서브-블록 레벨에서의 모션 벡터들이 앞서의 수식 (1) 또는 수식 (2)에 근거하여 비디오 블록 레벨에서 CPMV들을 적용함으로써 도출될 수 있다.

도 6에서 보여지는 바와 같이, 쌍방 매칭은, 두 개의 상이한 참조 프레임들로부터 비디오 블록의 모션 궤적(motion trajectory)을 따라 두 개의 최상의 매칭되는 참조 블록들(604, 606)을 찾아냄으로써 비디오 프레임 내의 비디오 블록(602)의 모션 정보를 도출하기 위해 사용될 수 있다. 연속적인 모션 궤적의 가정 하에서, 두 개의 참조 블록들(604, 606)을 가리키는 모션 벡터들 MV0 및 MV1은 비디오 프레임에 대한 참조 프레임들의 시간적 거리들(예컨대, TD0 및 TD1)에 각각 비례할 수 있다. 특별한 경우로서, 비디오 프레임이 시간적으로 두 개의 참조 프레임들 사이에 있고 비디오 프레임으로부터 두 개의 참조 프레임들까지의 시간적 거리들이 동일한 경우(예컨대, TD0 = TD1), 쌍방 매칭으로부터 도출되는 모션 벡터들은 미러 기반 양-방향성 모션 벡터들(mirror based bi-directional motion vectors)이 된다.

도 7은 본 개시내용의 일부 구현예들에 따른 아핀 모션 보상을 위해 쌍방 매칭을 이용하는 모션 정제를 위한 예시적인 프로세스(700)를 예시하는 블록도이다. 일부 구현예들에서, 프로세스(700)는, 비디오 인코더(20)의 (예컨대, 모션 추정 유닛(42), 모션 보상 유닛(44), 등을 포함하는) 예측 프로세싱 유닛(41)에 의해 수행될 수 있거나, 또는 비디오 디코더(30)의 (예컨대, 모션 보상 유닛(82)을 포함하는) 예측 프로세싱 유닛(81)에 의해 수행될 수 있다. 일부 구현예들에서, 프로세스(700)는 인코더 측 또는 디코더 측에서 비디오 프로세서(예컨대, 도 11에서 보여지는 바와 같이 프로세서(1120))에 의해 수행될 수 있다. 오로지 예시적 목적을 위해, 프로세스(700)의 다음과 같은 설명이 비디오 프로세서와 관련지어 제공된다.

비디오의 비디오 프레임으로부터의 비디오 블록을 인코딩 또는 디코딩하기 위해, 비디오 프로세서는 비디오 블록에 대한 초기 모션 벡터(704)를 발생시키기 위해 초기 모션 벡터 추정(702)을 수행할 수 있다. 예를 들어, 비디오 프로세서는 비디오 블록의 병합 리스트에 근거하여 비디오 블록에 대한 초기 모션 벡터(704)를 결정할 수 있다. 구체적으로, 비디오 블록의 병합 리스트가 점검될 수 있고, 그리고 병합 리스트 내의 모든 후보 모션 벡터들 중에서 최소의 매칭 비용으로 이어지는 병합 리스트로부터의 후보 모션 벡터가 초기 모션 벡터(704)로서 선택될 수 있다.

비디오 프로세서는, 정제된 모션 벡터(714)가 비디오 블록에 대해 획득될 때까지 초기 모션 벡터(704)를 반복적으로 업데이트하기 위해 비디오 블록 레벨에서 쌍방 매칭 기반 모션 정제 프로세스(706)를 수행할 수 있다. 초기 모션 벡터(704)는 쌍방 매칭 기반 모션 정제 프로세스(706)에 대한 시작 포인트(예컨대, 시작 모션 벡터)로서 사용될 수 있다. 시작 모션 벡터를 중심으로 하는 반복적 업데이트가 수행될 때, 비디오 블록의 현재 예측과 매칭 타겟 사이의 매칭 비용(예컨대, 쌍방 매칭 비용)이 비디오 블록에 대한 시작 모션 벡터의 점진적 업데이트를 인도(guide)하기 위해 반복적으로 계산될 수 있다. 일부 구현예들에서, 비디오 블록의 현재 예측과 매칭 타겟 사이의 매칭 비용은 매칭 비용 함수(matching cost function)에 근거하여 계산될 수 있다. 매칭 비용 함수는, 절대 차이의 합(Sum of Absolute Difference, SAD), 평균 제거 SAD(Mean Removed SAD, MRSAD), 제곱 차이의 합(Sum of Square Difference, SSD), 또는 비디오 블록의 현재 예측과 매칭 타겟 사이의 임의의 다른 적절한 차이 메트릭일 수 있다.

만약 비디오 블록이 아핀 모드에서 코딩된다면, 초기 모션 벡터(704)는 비디오 블록의 하나 이상의 제어 포인트들에서 하나 이상의 초기 CPMV들을 포함할 수 있다. 정제된 모션 벡터(714)는 하나 이상의 제어 포인트들에서 하나 이상의 정제된 CPMV들을 포함할 수 있다.

쌍방 매칭 기반 모션 정제 프로세스(706)를 이용해 시작하기 위해 비디오 프로세서는 모션 정보의 반복적 업데이트를 위한 매칭 타겟을 결정하기 위해 매칭 타겟 결정 동작(708)을 수행할 수 있다. 예를 들어, 도 8을 참조하면, 비디오 프로세서는, 초기 모션 벡터(704)에 근거하여, 비디오의 제 1 참조 프레임(802) 및 제 2 참조 프레임(804)으로부터 제 1 참조 블록(RefO) 및 제 2 참조 블록(Ref1)을 각각 결정할 수 있다. 비디오 프로세서는 제 1 참조 블록(RefO)과 제 2 참조 블록(Ref1)의 가중된 조합에 근거하여 매칭 타겟을 결정할 수 있다. 예를 들어, 매칭 타겟은 RefO과 Ref1의 가중된 합과 동일할 수 있다(예컨대, 매칭 타겟 = w0*Ref0 + w1*Ref1, 여기서 w0 및 w1은 RefO 및 Refl의 가중치들을 각각 나타냄).

일부 구현예들에서, 본 명세서에서 개시되는 인터 코딩 모드들(예컨대, 병합 모드)은, 참조 프레임들의 두 개의 상이한 리스트들(예컨대, 리스트 0 및 리스트 1)이 비디오 블록의 두 개의 예측들을 식별하기 위해 사용됨을 표시하는, 쌍방-예측(bi-predictive)일 수 있다. 예를 들어, 리스트 0은 비디오 블록에 선행하는 참조 프레임들의 리스트를 포함할 수 있고, 그리고 리스트 1은 비디오 블록에 후행하는 참조 프레임들의 리스트를 포함할 수 있다. Ref0은 초기 모션 벡터(704)에 근거하는 제 1 참조 프레임(802)으로부터의 리스트 0 예측일 수 있다. Ref1은 초기 모션 벡터(704)에 근거하는 제 2 참조 프레임(804)으로부터의 리스트 1 예측일 수 있다. 매칭 타겟은 초기 모션 벡터(704)에 근거하여 도출된 리스트 0 및 리스트 1 예측들의 가중된 합일 수 있다.

대안적으로, 리스트 0 및 리스트 1 예측들에 리스트 0 및 리스트 1 예측들과 관련된 대응하는 예측 잔차들이 더해진 것의 가중된 조합일 수 있다. 이러한 경우에, 매칭 타겟은 리스트 0 재구성과 리스트 1 재구성의 가중된 조합일 수 있다. 예를 들어, 리스트 0 재구성 = 리스트 0 예측 + 리스트 0 예측 잔차이고, 리스트 1 재구성 = 리스트 1 예측 + 리스트 1 예측 잔차이고, 그리고 매칭 타겟 = w0 * 리스트 0 재구성 + w1 * 리스트 1 재구성이다.

일부 구현예들에서, 가중치들 w0 및 w1은 정상적인 가중된 쌍방-예측들(예컨대, CU-레벨 가중치들을 갖는 쌍방-예측)을 위해 인코더 측에서 도출된 동일한 값들을 재사용할 수 있다. 대안적으로, 가중치들 w0 및 w1은 미리결정된 값들을 가질 수 있다. 예를 들어, w0 = w1 = 1/2이다. 또 하나의 다른 예에서, w0 = 1 및 w1 = 0, 또는 w0 = 0 및 w1 = 1이다. 가중치들 w0 및 w1 중 하나가 0일 때, 쌍방 매칭은, 양-방향성 모션 벡터 정제 대신, 단-방향성 모션 벡터 정제(uni-directional motion vector refinement)가 된다.

일부 구현예들에서, 가중치들 w0 및 w1은 상이한 부호(sign)들을 갖는 값들을 가질 수 있다. 예를 들어, w0 = 1, w1 = -1이다. 이러한 경우에, 매칭 비용을 계산하기 위해 쌍방-예측 차이가 사용될 수 있다. 구체적으로, 시작 모션 벡터가 업데이트되기 전 그리고 시작 모션 벡터가 업데이트된 후 발생된 쌍방-예측 차이가, 매칭 비용을 결정하기 위해, 계산된다.

도 7의 쌍방 매칭 기반 모션 정제 프로세스(706)를 다시 참조하면, 비디오 프로세서는 정제된 모션 벡터(714)가 비디오 블록에 대해 발생될 때까지 모션 정제 동작(710) 및 모션 벡터 업데이트 동작(712)을 반복적으로 수행할 수 있다. 예를 들어, 비디오 프로세서는, 비디오 블록에 대한 중간 모션 벡터를 초기화하기 위해 초기 모션 벡터(704)를 사용할 수 있고, 그리고 매칭 타겟에 근거하여 중간 모션 벡터에 대한 모션 정제를 결정할 수 있다. 비디오 프로세서는 모션 정제에 근거하여 중간 모션 벡터를 업데이트할 수 있다. 쌍방 매칭 기반 모션 정제 프로세스(706)를 수행하는 동안 중간 모션 벡터는 비디오 블록의 모션 벡터를 나타낼 수 있다. 그 다음에, 비디오 프로세서는 미리결정된 반복-정지 조건(predetermined iteration-stop condition)이 충족되는지 여부를 결정할 수 있다. 만약 미리결정된 반복-정지 조건이 충족된다면, 비디오 프로세서는 중간 모션 벡터를 정제된 모션 벡터(714)가 되도록 결정할 수 있다. 반면, 만약 미리결정된 반복-정지 조건이 충족되지 않는다면, 비디오 프로세서는, 미리결정된 반복-정지 조건이 충족될 때까지, 중간 모션 벡터에 대한 모션 정제를 결정하는 것 및 모션 정제에 근거하여 중간 모션 벡터를 업데이트하는 것을 반복적으로 계속 행할 수 있다.

일부 구현예들에서, 미리결정된 반복-정지 조건은, 중간 모션 벡터가 수렴(converge)한다면, 충족될 수 있다. 대안적으로, 미리결정된 반복-정지 조건은, 반복들의 총 수가 미리결정된 임계치를 만족시킨다면(예를 들어, 반복들의 총 수가 미리결정된 상한(upper limit)에 도달한다면), 충족될 수 있다.

일부 구현예들에서, 중간 모션 벡터에 대한 모션 정제는, 계산 기반 도출(calculation based derivation), 검색 기반 도출(search based derivation), 또는 계산 기반 도출과 검색 기반 도출의 조합을 통해 결정될 수 있다. 모션 정제를 결정하기 위해 계산 기반 도출이 사용되는 제 1 예시적 프로세스, 모션 정제를 결정하기 위해 검색 기반 도출이 사용되는 제 2 예시적 프로세스, 그리고 모션 정제를 결정하기 위해 계산 기반 도출과 검색 기반 도출의 조합이 사용되는 제 3 예시적 프로세스가 아래에서 제공된다.

계산 기반 도출이 적용되는 제 1 예시적 프로세스에서, 비디오 프로세서는 중간 모션 벡터에 근거하여 비디오 블록의 현재 예측을 결정할 수 있다. 예를 들어, 비디오 프로세서는, 중간 모션 벡터에 근거하여, 제 1 참조 프레임(802) 및 제 2 참조 프레임(804)으로부터 제 3 참조 블록(Ref2) 및 제 4 참조 블록(Ref3)을 각각 결정할 수 있다. 비디오 프로세서는 제 3 참조 블록(Ref2)과 제 4 참조 블록(Ref3)의 가중된 조합에 근거하여 비디오 블록의 현재 예측을 결정할 수 있다(예를 들어, 현재 예측 = w2*Ref2 + w3*Ref3, 여기서 w2 및 w3은 Ref2 및 Ref3에 대한 가중치들을 각각 나타냄). 일부 예들에서, 제 3 참조 블록(Ref2) 및 제 4 참조 블록(Ref3)은 각각 비디오 블록의 중간 리스트 0 예측 및 중간 리스트 1 예측일 수 있다. 중간 리스트 0 예측 및 중간 리스트 1 예측은 각각 중간 모션 벡터에 근거하는 비디오 블록의 리스트 0 예측 및 리스트 1 예측일 수 있다. 일부 구현예들에서, w2 및 w3은 각각 w0 및 w1과 동일할 수 있다. 대안적으로, w2 및 w3은 각각 w0 및 w1과는 상이한 값들을 가질 수 있다.

비디오 프로세서는, 비디오 블록의 현재 예측과 매칭 타겟 간의 가정된 모션 모델(assumed motion model)을 결정할 수 있고, 그리고 가정된 모션 모델에 근거하여 중간 모션 벡터에 대한 모션 정제를 도출할 수 있다. 예를 들어, 가정된 모션 모델은 아래에서 설명되는 바와 같이 모션 정제 계산을 위해 사용될 수 있다. 일부 구현예들에서, 쌍방 매칭 기반 모션 정제 프로세스(706)가 수행되기 전에, 비디오 블록의 아핀 모션 모델은 (2개의 CPMV들을 갖는) 4-파라미터 아핀 모션 모델 또는 (3개의 CPMV들을 갖는) 6-파라미터 아핀 모션 모델일 수 있다. 쌍방 매칭이 활용될 때, 현재 예측과 매칭 타겟 간의 가정된 모션 모델은 선형 또는 비-선형일 수 있고, 이것은 2-파라미터(선형), 4-파라미터(비-선형), 또는 6-파라미터(비-선형) 모션 모델에 의해 나타내어질 수 있다.

일부 구현예들에서, 가정된 모션 모델은 비디오 블록의 아핀 모션 모델과 동일한 수의 파라미터들을 가질 수 있다. 예를 들어, 가정된 모션 모델은 6-파라미터 모션 모델이고, 아핀 모션 모델도 또한 6-파라미터 아핀 모션 모델이다. 또 하나의 다른 예에서, 가정된 모션 모델은 4-파라미터 모션 모델이고, 아핀 모션 모델도 또한 4-파라미터 아핀 모션 모델이다. 대안적으로, 가정된 모션 모델은 비디오 블록의 아핀 모션 모델과는 다른 수의 파라미터들을 가질 수 있다. 예를 들어, 비디오 블록의 아핀 모션 모델은 6-파라미터 아핀 모션 모델이고, 반면 가정된 모션 모델은 2-파라미터 모션 모델 또는 4-파라미터 모션 모델이다. 또 하나의 다른 예에서, 비디오 블록의 아핀 모션 모델은 4-파라미터 아핀 모션 모델이고, 반면 가정된 모션 모델은 2-파라미터 모션 모델 또는 6-파라미터 모션 모델이다.

예를 들어, 아핀 모션 모델은 3개의 제어 포인트들에서 3개의 CPMV들 {(v_0x, v_0y), (v_1x, v_1y), (v_2x, v_2y)}을 갖는 6-파라미터 아핀 모션 모델일 수 있다. 중간 모션 벡터에 대한 모션 정제(예컨대, 3개의 CPMV들에 대한 모션 정제들)는 {(dv_0x, dv_0y), (dv_1x, dv_1y), (dv_2x, dv_2y)}로서 나타내어질 수 있다. 매칭 타겟 루미넌스 신호(matching target luminance signal)는 매칭 타겟과 관련되는 I(i,j)로서 나타내어질 수 있다. 예측 루미넌스 신호(prediction luminance signal)는 비디오 블록의 현재 예측과 관련되는 I'_k(i,j)로서 나타내어질 수 있다. 공간 구배(spatial gradient) g_x(i,j) 및 g_y(i,j)는 수평 및 수직 방향들에서 예측 신호 I'_k(i,j) 상에 적용되는 소벨 필터(Sobel filter)를 이용해서 도출될 수 있다. 6-파라미터 가정된 모션 모델은 다음과 같이 각각의 CPMV에 대한 모션 정제를 도출하기 위해 사용될 수 있다.

앞서의 수식 (3)에서, (dv_x(i,j), dv_y(i,j))는 CPMV에 대한 델타 모션 정제(delta motion refinement)를 나타내고, a 및 b는 델타 병진 파라미터들(delta translation parameters)을 나타내고, c 및 d는 수평 방향에 대한 델타 줌 및 회전 파라미터들(delta zoom and rotation parameters)을 나타내고, 그리고 e 및 f는 수직 방향에 대한 델타 줌 및 회전 파라미터들을 나타낸다.

상단-좌측, 상단-우측, 및 하단-좌측 제어 포인트들 {(v_0x, v_0y), (v_1x, v_1y), (v_2x, v_2y)}에 대한 좌표들은 각각 (0, 0), (w, 0), 및 (0, h)이고, 여기서 w 및 h는 비디오 블록의 폭 및 높이를 각각 나타낸다. 앞서의 수식 (3)에 근거하여, 세 개의 제어 포인트들에서 3개의 CPMV들에 대한 모션 정제들이 다음과 같은 수식 (4) 내지 수식 (6)으로서 이들의 각각의 좌표들을 이용해 각각 도출될 수 있다.

광학 흐름 방정식에 근거하여, 루미넌스의 변경와 공간 구배 및 시간적 움직임 간의 관계가 다음과 같은 수식 (7)로서 공식화될 수 있다.

수식 (7)에서의 dv_x(i,j) 및 dv_y(i,j)를 수식 (3)으로 대체함으로써, 다음과 같이 파라미터들(a, b, c, d, e, f)의 세트 대한 수식 (8)이 획득될 수 있다.

비디오 블록 내의 모든 샘플들이 수식 (8)을 충족시키기 때문에, (8)에서의 파라미터들(a, b, c, d, e, f)의 세트는 최소 제곱 오차 방법(least square error method)을 사용해 풀릴 수 있다. 그 다음에, 세 개의 제어 포인트들 {(v_0x, v_0y), (v_1x, v_1y), (v_2x, v_2y)}에서의 모션 정제들은 수식 (4) 내지 수식 (6)을 이용해 풀릴 수 있고, 그리고 특정 정밀도(예컨대, 1/16 펠(pel))로 라운딩(round)될 수 있다. 앞서의 계산 프로세스를 반복으로서 사용하여, 세 개의 제어 포인트들에서의 CPMV들은, 이들이 수렴할 때까지(파라미터들(a, b, c, d, e, f)의 세트가 모두 제로(zero)들인 경우), 또는 반복 횟수들의 총 수가 미리결정된 반복 상한을 만족시킬 때까지, 정제될 수 있다.

또 하나의 다른 예에서, 가정된 모션 모델은 4-파라미터 모션 모델일 수 있다. 각각의 CPMV의 모션 정제를 위해, 4-파라미터 모션 모델은 다음과 같은 수식 (9)를 사용하여 나타내어질 수 있다.

상단-좌측 및 상단-우측 제어 포인트들 {(v_0x, v_0y), (v_1x, v_1y)}에 대한 좌표들은 각각 (0, 0) 및 (w, 0)이다. 앞서의 수식 (9)에 근거하여, 두 개의 제어 포인트들에서 CPMV들에 대한 델타 모션 정제들이 다음과 같은 수식 (10) 및 수식 (11)로서 이들의 각각의 좌표들을 이용해 각각 도출될 수 있다.

수식 (7)에서의 dv_x(i,j) 및 dv_y(i,j)를 수식 (9)로 대체함으로써, 다음과 같이 파라미터들(a, b, c, d)의 세트 대한 수식 (12)가 획득될 수 있다.

앞서의 수식 (8)과 유사하게, (12)에서의 파라미터들(a, b, c, d)의 세트는 비디오 블록 내의 모든 샘플들을 고려함으로써 최소 제곱 방법을 사용해 풀릴 수 있다.

또 다른 예에서, 가정된 모션 모델은 2-파라미터 모션 모델일 수 있다. 각각의 CPMV의 모션 정제를 위해, (예컨대, 앞서의 수식 (3)에 따르면) c = d = e = f = 0이다. 그 다음에, 2-파라미터 가정된 모션 모델은 다음으로서 나타내어질 수 있다.

수식 (13)에서 보여지는 바와 같이, 임의의 CPMV에 대한 모션 정제(예컨대, 임의의 제어 포인트에서의 델타 모션 정제)는 동일하다. 수식 (7)에서의 dv_x(i,j) 및 dv_y(i,j)를 수식 (13)으로 대체함으로써, 다음과 같이 파라미터들(a, b)의 세트 대한 수식 (14)가 획득될 수 있다.

앞서의 수식 (8)과 유사하게, (14)에서의 파라미터들(a, b)의 세트는 비디오 블록 내의 모든 샘플들을 고려함으로써 최소 제곱 방법을 사용해 풀릴 수 있다.

앞서의 수식 (3), 수식 (9), 또는 수식 (13)을 통해 모션 정제를 획득한 이후에, 비디오 프로세서는 비디오 블록의 아핀 모션 모델에 근거하여, 정제된 모션 벡터(714)를 획득하기 위해, 도출된 모션 정제를 사용하여 중간 모션 벡터를 업데이트할 수 있다. 예를 들어, CPMV는 다음과 같은 수식을 사용하여 업데이트될 수 있다.

앞서의 수식 (15)에서, v_k ^old 및 v_k ^new는 수평 방향에서 정제 이전 및 이후 CPMV의 x-컴포넌트들을 각각 나타내고, 그리고 v_y ^old 및 v_y ^new는 수직 방향에서 정제 이전 및 이후 CPMV의 y-컴포넌트들을 각각 나타낸다. 비디오 블록의 아핀 모션 모델의 타입에 따라, 상이한 수의 CPMV들이 정제될 필요가 있을 수 있다. 예를 들어, 4-파라미터 아핀 모션 벡터에 대해서는, 두 개의 CPMV들이 업데이트될 필요가 있을 수 있고, 그리고 6-파라미터 아핀 모션 모델에 대해서는, 세 개의 CPMV들이 업데이트될 필요가 있을 수 있다. 정제될 각각의 CPMV에 대해, 대응하는 모션 정제가, 앞서의 수식 (3), 수식 (9), 또는 수식 (13)에 따라 CPMV의 대응하는 좌표 (x, y)를 사용하여 도출될 수 있다.

예를 들어, 만약 현재 예측과 매칭 타겟 간의 가정된 모션 모델이 2-파라미터 모션 모델이라면, 모션 정제를 도출하기 위해 앞서의 수식 (13)이 사용될 수 있다. 즉, CPMV들 각각에 대해 dv_x(x,y) = a 및 dv_y(x,y) = b이다. 더욱이, 앞서의 수식 (15)에 따르면, 만약 비디오 블록에 대한 아핀 모션 모델이 6-파라미터 아핀 모션 모델이라면, 6-파라미터 아핀 모션 모델에 대한 좌표들 (0, 0), (w, 0), 및 (0, h)를 갖는 세 개의 제어 포인트들에서의 세 개의 정제된 CPMV들이 다음과 같이 도출될 수 있다.

또 하나의 다른 예에서, 만약 현재 예측과 매칭 타겟 간의 가정된 모션 모델이 4-파라미터 모션 모델이라면, 모션 정제를 도출하기 위해 앞서의 수식 (9)가 사용될 수 있다. 즉, CPMV들 각각에 대해 dv_x(x,y) = c * x - d * y + a 및 dv_y(x,y) = d * x + c * y + b이다. 더욱이, 앞서의 수식 (15)에 따르면, 만약 비디오 블록에 대한 아핀 모션 모델이 6-파라미터 아핀 모션 모델이라면, 6-파라미터 아핀 모션 모델에 대한 좌표들 (0, 0), (w, 0), 및 (0, h)를 갖는 세 개의 제어 포인트들에서의 세 개의 정제된 CPMV들이 다음과 같이 도출될 수 있다.

또 다른 예에서, 만약 현재 예측과 매칭 타겟 간의 가정된 모션 모델이 6-파라미터 모션 모델이라면, 모션 정제를 도출하기 위해 앞서의 수식 (3)이 사용될 수 있다. 즉, CPMV들 각각에 대해 dv_x(x,y) = c * x + d * y + a 및 dv_y(x,y) = e * x + f * y + b이다. 더욱이, 앞서의 수식 (15)에 따르면, 만약 비디오 블록에 대한 아핀 모션 모델이 6-파라미터 아핀 모션 모델이라면, 6-파라미터 아핀 모션 모델에 대한 좌표들 (0, 0), (w, 0), 및 (0, h)를 갖는 세 개의 제어 포인트들에서의 세 개의 정제된 CPMV들이 다음과 같이 도출될 수 있다.

모션 정제를 도출하기 위해 검색 기반 도출이 적용되는 제 2 예시적 프로세스에서, 비디오 프로세서는 수평 및/또는 수직 방향에서 각각의 제어 포인트의 중간 모션 벡터에 증분적 변경(incremental change)(예컨대, +1 또는 -1)을 반복적으로 적용할 수 있다. 더 작은 매칭 비용으로 이어지는 중간 모션 벡터의 대응하는 변경이 유지될 수 있고 그리고 정제된 모션 벡터가 각각의 제어 포인트에 대해 획득될 때까지 검색의 다음 차례(round)에 대한 새로운 시작 포인트로서 설정될 수 있다.

예를 들어, 중간 모션 벡터는 양-방향성일 수 있고, 그리고 리스트 0에 대한 제 1 모션 벡터(예컨대, 이것은 또한 L0 모션 벡터로서 지칭됨) 및 리스트 1에 대한 제 2 모션 벡터(예컨대, 이것은 또한 L1 모션 벡터로서 지칭됨)를 포함할 수 있다. L0 및 L1 모션 벡터들의 점진적 정제는 매칭 타겟을 고정시킴으로써 개별적으로 수행될 수 있고, 그리고 업데이트된 L0 및/또는 L1 모션 벡터들을 사용함으로써 비디오 블록의 현재 예측을 반복적으로 업데이트할 수 있다. 프로세싱 복잡도를 감소시키기 위해, 정제는, 방향은 반대이지만 L0 및 L1 모션 벡터들에 대해 동일한 양의 정제를 사용함으로써 L0 및 L1 모션 벡터들 양쪽 모두에 대해 공동으로 수행될 수 있다. 예를 들어, 업데이트된 L0 및 L1 모션 벡터들을 결정하기 위해 다음과 같은 수식 (25)가 사용될 수 있다.

앞서의 수식 (25)에서, v₀ 및 v₁은 L0 및 L1 모션 벡터들을 각각 나타내고, v₀' 및 v₁'은 업데이트된 L0 및 L1 모션 벡터들을 각각 나타내고, △ 및 -△는 반대 반향들로 리스트 0 및 리스트 1에 대해 적용된 모션 정제들을 각각 나타내고, 그리고 k는 시간적 거리를 고려하기 위해 사용될 수 있는 스케일링 인자(scaling factor)를 나타낸다. 예를 들어, k는 비디오 프레임과 제 1 참조 프레임 간의 제 1 시간적 거리와 비디오 프레임과 제 2 참조 프레임 간의 제 2 시간적 거리 간의 비율에 근거하여 결정될 수 있다.

일부 구현예들에서, 각각의 제어 포인트의 중간 모션 벡터를 반복적으로 업데이트하기 위해, 비디오 프로세서는 먼저, 중간 모션 벡터 및 미리결정된 검색 범위 내에서의 제 1 모션-벡터 변경에 근거하여 제 1 수정된 모션 벡터를 발생시킬 수 있다. 예를 들어, 제 1 수정된 모션 벡터는 중간 모션 벡터와 제 1 모션-벡터 변경의 합과 동일할 수 있고, 여기서 제 1 모션-벡터 변경은 중간 모션 벡터의 증분적 변경일 수 있다. 비디오 프로세서는, (a) 중간 모션 벡터와 관련된 매칭 비용 및 (b) 제 1 수정된 모션 벡터와 관련된 현재 매칭 비용에 근거하여 중간 모션 벡터에 대한 모션 정제로서 제 1 모션-벡터 변경을 할당할지 여부를 결정할 수 있다.

예를 들어, 비디오 프로세서는, 중간 모션 벡터에 근거하여 비디오 블록의 예측을 결정할 수 있고, 그리고 비디오 블록의 예측 및 매칭 타겟에 근거하여 중간 모션 벡터와 관련된 매칭 비용을 결정할 수 있다. 비디오 블록의 예측은 중간 모션 벡터에 근거하는 비디오 블록의 리스트 0 예측과 리스트 1 예측의 가중된 조합일 수 있다. 매칭 비용은 본 명세서에서 개시되는 임의의 매칭 비용 함수에 근거하여 결정될 수 있다. 유사하게, 비디오 프로세서는 또한, 제 1 수정된 모션 벡터에 근거하여 비디오 블록의 현재 예측을 결정할 수 있고, 그리고 비디오 블록의 현재 예측 및 매칭 타겟에 근거하여 제 1 수정된 모션 벡터와 관련된 현재 매칭 비용을 결정할 수 있다. 비디오 블록의 현재 예측은 제 1 수정된 모션 벡터에 근거하는 비디오 블록의 리스트 0 예측과 리스트 1 예측의 가중된 조합일 수 있다.

만약 제 1 수정된 모션 벡터와 관련된 현재 매칭 비용이 중간 모션 벡터와 관련된 매칭 비용보다 작다면, 비디오 프로세서는 모션 정제를 제 1 모션-벡터 변경이 되도록 도출할 수 있다. 결과로서, 중간 모션 벡터는 제 1 수정된 모션 벡터가 되도록 업데이트될 수 있다(예를 들어, 중간 모션 벡터 = 중간 모션 벡터 + 제 1 모션-벡터 변경).

만약 제 1 수정된 모션 벡터와 관련된 현재 매칭 비용이 중간 모션 벡터와 관련된 매칭 비용보다 크거나 같다면, 비디오 프로세서는 제 1 모션-벡터 변경을 모션 정제로서 할당하지 않을 것을 결정할 수 있다. 대신에, 비디오 프로세서는 중간 모션 벡터 및 미리결정된 검색 범위 내에서의 제 2 모션-벡터 변경에 근거하여 제 2 수정된 모션 벡터를 발생시킬 수 있다(예컨대, 제 2 수정된 모션 벡터 = 중간 모션 벡터 + 제 2 모션-벡터 변경). 비디오 프로세서는, 중간 모션 벡터와 관련된 매칭 비용 및 제 2 수정된 모션 벡터와 관련된 또 하나의 다른 현재 매칭 비용에 근거하여 모션 정제로서 제 2 모션-벡터 변경을 할당할지 여부를 결정할 수 있다. 만약 제 2 수정된 모션 벡터와 관련된 다른 현재 매칭 비용이 중간 모션 벡터와 관련된 매칭 비용보다 작다면, 비디오 프로세서는 모션 정제를 제 2 모션-벡터 변경이 되도록 도출할 수 있다. 그 다음에, 중간 모션 벡터는 제 2 수정된 모션 벡터가 되도록 업데이트될 수 있다. 만약 제 2 수정된 모션 벡터와 관련된 다른 현재 매칭 비용이 중간 모션 벡터와 관련된 매칭 비용보다 크거나 같다면, 비디오 프로세서는 제 2 모션-벡터 변경을 모션 정제로서 할당하지 않을 것을 결정할 수 있다.

유사한 동작들을 수행함으로써, 비디오 프로세서는, 미리결정된 반복-정지 조건이 충족될 때까지, 중간 모션 벡터를 반복적으로 업데이트할 수 있다. 예를 들어, 미리결정된 반복-정지 조건은, 미리결정된 검색 범위 내에서의 이용가능한 모션-벡터 변경들이 검출되고 프로세싱된다면, 또는 반복들의 총 수가 미리결정된 상한을 충족시킨다면, 충족될 수 있다. 비디오 프로세서는, 미리결정된 반복-정지 조건이 충족되는 경우, 비디오 블록에 대한 정제된 모션 벡터(714)를 중간 모션 벡터가 되도록 결정할 수 있다.

모션 정제를 결정하기 위해 계산 기반 도출과 검색 기반 도출의 조합이 사용되는 제 3 예시적 프로세스에서, 계산 기반 도출은 시초에 중간 모션 벡터를 빠르게 정제하기 위해 사용될 수 있고, 그 다음에 정제된 모션 벡터(714)를 획득하기 위한 추가 정제를 제공하기 위해 검색 기반 도출이 후속될 수 있다. 구체적으로, 비디오 프로세서는, 계산 기반 도출을 통해 중간 모션 벡터에 대한 모션 정제를 결정할 수 있고, 그리고 계산 기반 도출을 통해 결정된 모션 정제에 근거하여 중간 모션 벡터를 업데이트할 수 있다. 그 다음에, 비디오 프로세서는, 검색 기반 도출을 통해 중간 모션 벡터에 대한 모션 정제를 다시 결정할 수 있고, 그리고 검색 기반 도출을 통해 결정된 모션 정제에 근거하여 중간 모션 벡터를 다시 업데이트할 수 있다. 결과로서, 정제된 모션 벡터(714)가 비디오 블록에 대해 획득될 수 있다.

비디오 블록에 대한 정제된 모션 벡터(714)를 획득한 이후에, 비디오 프로세서는 비디오 블록 내의 각각의 서브-블록에 대한 모션 벡터(718)를 발생시키기 위해 서브-블록 모션 벡터 정제 프로세스(716)를 수행할 수 있다. 구체적으로, 비디오 프로세서는, 비디오 블록 내의 각각의 서브-블록에 대한 모션 벡터를 정제하되, 서브-블록에 대한 모션 벡터에 대한 시작 포인트로서 비디오 블록의 정제된 모션 벡터(714)를 사용함으로써, 정제할 수 있다. 비디오 프로세서는 서브-블록 레벨에서 모션 벡터를 정제하기 위해 비디오 블록의 아핀 모션 모델을 적용할 수 있다. 예를 들어, 비디오 프로세서는, 앞에서 설명된 쌍방 매칭 기반 모션 정제 프로세스(706)를 통해 비디오 블록에 대한 복수의 정제된 CPMV들을 획득할 수 있고, 그 다음에, 아핀 모션 모델이 4-파라미터 아핀 모션 모델인지 아니면 6-파라미터 아핀 모션 모델인지 여부에 따라, 정제된 CPMV들을 사용하여 각각의 서브 블록에 대한 모션 벡터를 도출하기 위해 앞서의 수식 (1) 또는 수식 (2)를 적용할 수 있다.

본 개시내용과 일관되게, 쌍방 매칭 기반 모션 정제 프로세스(706)의 예시적 적용 조건들이 본 명세서에서 제공된다. 구체적으로, 쌍방 매칭을 위해, 모션 궤적이 가정된다. 하지만, 모션 궤적이 선형이 아닌 경우, 쌍방 매칭은 신뢰가능한 모션 벡터들을 도출하기 위해 사용될 수 없다. 예를 들어, 쌍방 매칭은 회전, 줌, 및 뒤틀림(warping)과 같은 복잡한 모션들에 대해서는 잘 작동하지 않을 수 있다. 더 신뢰가능한 모션 정제를 도출하기 위해서, 특정 적용 조건들이 쌍방 매칭의 과도한 사용을 제한하기 위해 결정될 수 있다.

일부 구현예들에서, 두 개의 참조 프레임들이 현재 비디오 프레임의 두 개의 상이한 측면들 상에 있을 때(예컨대, 하나의 참조 프레임은 현재 비디오 프레임에 선행하고, 다른 참조 프레임은 현재 비디오 프레임에 후행할 때)에만, 쌍방 매칭 기반 모션 정제 프로세스(706)가 적용된다. 일부 구현예들에서, 두 개의 참조 프레임들이 현재 비디오 프레임의 동일한 측면 상에 있고(예컨대, 두 개의 참조 프레임들이 현재 비디오 프레임에 선행하거나, 또는 두 개의 참조 프레임들이 현재 비디오 프레임에 후행하고), 그리고 두 개의 참조 프레임들 간의 시간적 거리가, 미리결정된 임계치를 만족시킬 때(예를 들어, 시간적 거리가, 미리정의된 값보다 더 작을 때(또는 더 클 때)), 쌍방 매칭 기반 모션 정제 프로세스(706)가 적용될 수 있다. 일부 구현예들에서, 두 개의 참조 프레임들이 현재 비디오 프레임의 두 개의 상이한 측면들 상에 있고, 참조 프레임들 중 하나와 현재 비디오 프레임 간의 제 1 시간적 거리가 참조 프레임들 중 다른 하나와 현재 비디오 프레임 간의 제 2 시간적 거리와 동일할 때, 쌍방 매칭 기반 모션 정제 프로세스(706)가 적용될 수 있다.

본 개시내용과 일관되게, 쌍방 매칭 기반 모션 정제 프로세스(706)는 블록 레벨에서 아핀 모션에 적용될 수 있고, 반면 서브-블록 모션 벡터 정제(716)는 서브-블록 레벨에서 규칙적인 모션에 적용될 수 있다. 그 이유는, 서브-블록 레벨에서는 규칙적인 모션만이 포함되는 반면, 블록 레벨에서는 아핀 모션(예컨대, 줌 인/아웃, 회전, 또는 원근 모션, 등)이 또한 포함될 수 있기 때문이다. 예를 들어, 규칙적인 모션은, 줌 인/아웃, 회전, 원근 모션, 또는 다른 불규칙적인 모션 없이 병진 모션을 포함할 수 있다. 일부 구현예들에서, 규칙적인 모션은 2-파라미터 아핀 모션 모델에 상응할 수 있다.

도 9는 본 개시내용의 일부 구현예들에 따른 비디오에서의 모션 정제를 위한 예시적인 방법(900)의 흐름도이다. 방법(900)은 비디오 인코더(20) 또는 비디오 디코더(30)와 관련된 비디오 프로세서에 의해 구현될 수 있고, 그리고 아래에서 설명되는 바와 같이 단계(902) 내지 단계(906)를 포함할 수 있다. 단계들 중 일부는 본 명세서에서 제공되는 개시내용을 수행하기 위해 선택적일 수 있다. 더욱이, 단계들 중 일부는 동시에 수행될 수 있고, 또는 도 9에서 보여지는 것과는 다른 순서로 수행될 수 있다.

단계(902)에서, 비디오 프로세서는 비디오로부터 비디오 프레임의 비디오 블록에 대한 초기 모션 벡터를 결정할 수 있다.

단계(903)에서, 비디오 프로세서는, 비디오에서의 제 1 참조 프레임으로부터의 제 1 참조 블록과 비디오에서의 제 2 참조 프레임으로부터의 제 2 참조 블록의 가중된 조합에 근거하여 매칭 타겟을 결정할 수 있다. 예를 들어, 비디오 프로세서는, 초기 모션 벡터에 근거하여, 비디오의 제 1 참조 프레임 및 제 2 참조 프레임으로부터 제 1 참조 블록 및 제 2 참조 블록을 각각 결정할 수 있다. 비디오 프로세서는 제 1 참조 블록에 대한 제 1 가중치 및 제 2 참조 블록에 대한 제 2 가중치를 각각 결정할 수 있다. 비디오 프로세서는 제 1 가중치 및 제 2 가중치를 사용하여 제 1 참조 블록과 제 2 참조 블록의 가중된 조합을 결정할 수 있다. 비디오 프로세서는 제 1 참조 블록과 제 2 참조 블록의 가중된 조합에 근거하여 매칭 타겟을 결정할 수 있다.

일부 구현예들에서, 제 1 가중치 및 제 2 가중치는 정상적인 가중된 쌍방-예측들을 위해 인코더 측에서 도출된 대응하는 가중치들과 동일할 수 있다. 예를 들어, 정상적인 가중된 쌍방-예측들은 리스트 0 예측에 대한 가중치 및 리스트 1 예측에 대한 가중치를 가질 수 있다. 제 1 가중치 및 제 2 가중치는 리스트 0 예측에 대한 가중치 및 리스트 1 예측에 대한 가중치와 각각 동일할 수 있다. 대안적으로, 제 1 가중치 및 제 2 가중치는 미리결정된 값들을 가질 수 있다. 예를 들어, 제 1 가중치 및 제 2 가중치 각각은 0.5일 수 있다. 또 하나의 다른 예에서, 제 1 가중치는 0일 수 있고, 제 2 가중치는 1일 수 있다. 또는, 제 1 가중치는 1일 수 있고, 제 2 가중치는 0일 수 있다.

단계(904)에서, 비디오 프로세서는, 정제된 모션 벡터가 비디오 블록에 대해 획득될 때까지 매칭 타겟에 근거하여 초기 모션 벡터를 반복적으로 업데이트하기 위해 비디오 블록 레벨에서 쌍방 매칭 기반 모션 정제 프로세스를 수행할 수 있다. 예를 들어, 비디오 프로세서는, 중간 모션 벡터를 초기화하기 위해 초기 모션 벡터를 사용할 수 있고, 매칭 타겟에 근거하여 중간 모션 벡터에 대한 모션 정제를 결정할 수 있고, 그리고 모션 정제에 근거하여 중간 모션 벡터를 업데이트할 수 있다. 비디오 프로세서는 미리결정된 반복-정지 조건이 충족되는지 여부를 결정할 수 있다.

미리결정된 반복-정지 조건이 충족됨에 응답하여, 비디오 프로세서는 중간 모션 벡터를 정제된 모션 벡터가 되도록 결정할 수 있다. 미리결정된 반복-정지 조건이 충족되지 않음에 응답하여, 비디오 프로세서는, 중간 모션 벡터에 대한 모션 정제를 결정하는 것 및 미리결정된 반복-정지 조건이 충족될 때까지 모션 정제에 근거하여 중간 모션 벡터를 업데이트하는 것을 반복적으로 계속 행할 수 있다.

일부 구현예들에서, 모션 정제는 계산 기반 도출, 검색 기반 도출, 또는 계산 기반 도출과 검색 기반 도출의 조합을 통해 결정될 수 있다.

단계(906)에서, 비디오 프로세서는, 비디오 블록 내의 각각의 서브-블록에 대한 모션 벡터를 정제하되, 서브-블록에 대한 모션 벡터에 대한 시작 포인트로서 비디오 블록의 정제된 모션 벡터를 사용하여, 정제할 수 있다. 비디오 프로세서는 서브-블록 레벨에서 모션 벡터를 정제하기 위해 비디오 블록의 아핀 모션 모델을 적용할 수 있다.

도 10은 본 개시내용의 일부 구현예들에 따른 비디오에서의 모션 정제를 위한 또 하나의 다른 예시적인 방법(1000)의 흐름도이다. 방법(1000)은 비디오 인코더(20) 또는 비디오 디코더(30)와 관련된 비디오 프로세서에 의해 구현될 수 있고, 그리고 아래에서 설명되는 바와 같이 단계(1002) 내지 단계(1016)를 포함할 수 있다. 단계들 중 일부는 본 명세서에서 제공되는 개시내용을 수행하기 위해 선택적일 수 있다. 더욱이, 단계들 중 일부는 동시에 수행될 수 있고, 또는 도 10에서 보여지는 것과는 다른 순서로 수행될 수 있다.

단계(1002)에서, 비디오 프로세서는 비디오로부터 비디오 프레임의 비디오 블록에 대한 초기 모션 벡터를 결정하되, 비디오 블록의 병합 리스트에 근거하여, 결정할 수 있다.

단계(1004)에서, 비디오 프로세서는 초기 모션 벡터에 근거하여 비디오의 제 1 참조 프레임 및 제 2 참조 프레임으로부터 매칭 타겟을 결정할 수 있다.

단계(1006)에서, 비디오 프로세서는 비디오 블록의 중간 모션 벡터를 초기화하기 위해 초기 모션 벡터를 사용할 수 있다.

단계(1008)에서, 비디오 프로세서는 매칭 타겟에 근거하여 중간 모션 벡터에 대한 모션 정제를 결정할 수 있다.

단계(1010)에서, 비디오 프로세서는 모션 정제에 근거하여 중간 모션 벡터를 업데이트할 수 있다.

단계(1012)에서, 비디오 프로세서는 미리결정된 반복-정지 조건이 충족되는지 여부를 결정할 수 있다. 미리결정된 반복-정지 조건이 충족이 충족됨에 응답하여, 방법(1000)은 단계(1014)로 진행할 수 있다. 그렇지 않으면, 방법(1000)은 단계(1008)로 되돌아 갈 수 있다.

단계(1014)에서, 비디오 프로세서는 중간 모션 벡터를 비디오 블록에 대한 정제된 모션 벡터가 되도록 결정할 수 있다.

단계(1016)에서, 비디오 프로세서는 병합 리스트로부터 초기 모션 벡터를 식별하기 위한 병합 인덱스, 제 1 참조 프레임을 식별하기 위한 제 1 참조 인덱스, 및 제 2 참조 프레임을 식별하기 위한 제 2 참조 인덱스를 포함하는 비트스트림을 발생시킬 수 있다.

도 11은 본 개시내용의 일부 구현예들에 따른 사용자 인터페이스(1150)와 결합된 컴퓨팅 환경(1110)을 보여준다. 컴퓨팅 환경(1110)은 데이터 프로세싱 서버의 일부일 수 있다. 컴퓨팅 환경(1110)은 프로세서(1120), 메모리(1130), 및 입력/출력(Input/Output, I/O) 인터페이스(1140)를 포함한다.

프로세서(1120)는 전형적으로, 디스플레이, 데이터 획득, 데이터 통신들, 및 이미지 프로세싱과 관련된 동작들과 같은, 컴퓨팅 환경(1110)의 전체 동작들을 제어한다. 프로세서(1120)는 앞에서-설명된 방법들에서의 단계들 중 일부 혹은 모두를 수행하기 위한 명령들을 실행하기 위해 하나 이상의 프로세서들을 포함할 수 있다. 더욱이, 프로세서(1120)는 프로세서(1120)와 다른 컴포넌트들 간의 상호작용을 용이하게 하는 하나 이상의 모듈(module)들을 포함할 수 있다. 프로세서(1120)는 중앙 프로세싱 유닛(Central Processing Unit, CPU), 마이크로프로세서(microprocessor), 단일 칩 머신(single chip machine), 그래픽 프로세싱 유닛(Graphical Processing Unit, GPU), 등일 수 있다.

메모리(1130)는 컴퓨팅 환경(1110)의 동작을 지원하기 위해 데이터의 다양한 타입들을 저장하도록 구성된다. 메모리(1130)는 미리결정된 소프트웨어(1132)를 포함할 수 있다. 이러한 데이터의 예들은 컴퓨팅 환경(1110) 상에서 동작되는 임의의 애플리케이션들 또는 방법들을 위한 명령들, 비디오 데이터세트들, 이미지 데이터, 등을 포함한다. 메모리(1130)는, 정적 랜점 액세스 메모리(Static Random Access Memory, SRAM), 전기적으로 소거가능하고 프로그래밍가능한 판독-전용 메모리(Electrically Erasable Programmable Read-Only Memory, EEPROM), 소거가능하고 프로그래밍가능한 판독-전용 메모리(Erasable Programmable Read-Only Memory, EPROM), 프로그래밍가능한 판독-전용 메모리(Programmable Read-Only Memory, PROM), 판독-전용 메모리(Read-Only Memory, ROM), 자기 메모리, 플래시 메모리, 자기 혹은 광학 디스크와 같은, 휘발성 또는 비-휘발성 메모리 디바이스들의 임의의 타입, 또는 이들의 조합을 사용함으로써 구현될 수 있다.

I/O 인터페이스(1140)는 키보드, 클릭 휠, 버튼들, 등과 같은 주변 인터페이스 모듈들과 프로세서(1120) 간의 인터페이스를 제공한다. 버튼들은 홈 버튼, 스캔 시작 버튼, 및 스캔 정지 버튼을 포함할 수 있지만, 이러한 것으로만 한정되는 것은 아니다. I/O 인터페이스(1140)는 인코더 및 디코더와 결합될 수 있다.

일부 구현예들에서, 앞에서-설명된 방법들을 수행하기 위해, 컴퓨팅 환경(1110)에서 프로세서(1120)에 의해 실행가능한, 예를 들어, 메모리(1130) 내의 복수의 프로그램들을 포함하는 비-일시적 컴퓨터-판독가능 저장 매체가 또한 제공된다. 대안적으로, 비-일시적 컴퓨터-판독가능 저장 매체에는, 비디오 데이터를 디코딩할 때 디코더(예컨대, 도 3에서의 비디오 디코더(30))에 의한 사용을 위해 예를 들어, 앞에서 설명된 인코딩 방법을 사용하여 인코더(예컨대, 도 2에서의 비디오 인코더(20))에 의해 발생된 인코딩된 비디오 정보(예컨대, 하나 이상의 신택스 요소들을 포함하는 비디오 정보)를 포함하는 데이터 스트림 또는 비트스트림이 저장될 수 있다. 비-일시적 컴퓨터-판독가능 저장 매체는 예를 들어, ROM, 랜덤 액세스 메모리(RAM), CD-ROM, 자기 테이프, 플로피 디스크, 광학 데이터 저장 디바이스, 등일 수 있다.

일부 구현예들에서, 컴퓨팅 디바이스가 또한 제공되고, 이러한 컴퓨팅 디바이스는 하나 이상의 프로세서들(예컨대, 프로세서(1120))을 포함하고, 그리고 비-일시적 컴퓨터-판독가능 저장 매체 또는 메모리(1130)를 포함하며, 여기에는 하나 이상의 프로세서들에 의해 실행가능한 복수의 프로그램들이 저장되고, 하나 이상의 프로세서들은, 복수의 프로그램들의 수신시, 앞에서-설명된 방법들을 수행하도록 구성된다.

일부 구현예들에서, 앞에서-설명된 방법들을 수행하기 위해, 컴퓨팅 환경(1110)에서 프로세서(1120)에 의해 실행가능한, 예를 들어, 메모리(1130) 내의 복수의 프로그램들을 포함하는 컴퓨터 프로그램 제품이 또한 제공된다. 예를 들어, 컴퓨터 프로그램 제품은 비-일시적 컴퓨터-판독가능 저장 매체를 포함할 수 있다.

일부 구현예들에서, 컴퓨팅 환경(1110)은, 앞에서의 방법들을 수행하기 위해, 하나 이상의 ASIC들, DSP들, 디지털 신호 프로세싱 디바이스(Digital Signal Processing Device, DSPD)들, 프로그래밍가능한 로직 디바이스(Programmable Logic Device, PLD)들, FPGA들, GPU들, 제어기들, 마이크로-제어기들, 마이크로프로세서들, 또는 다른 전자 컴포넌트들로 구현될 수 있다.

본 개시내용의 설명은 예시의 목적들을 위해 제시되었지, 본 개시내용에 한정되도록 의도된 것이 아니며 완벽하도록 의도된 것이 아니다. 앞서의 설명들 및 관련된 도면들에서 제시되는 가르침들의 혜택을 갖는 본 발명의 기술분야에서 통상의 기술을 가진 자들에게는 많은 수정들, 변형들, 및 대안적 구현예들이 명백할 것이다.

다르게 특정적으로 기재되지 않는다면, 본 개시내용에 따른 방법의 단계들의 순서는 오로지 예시적이도록 의도된 것이고, 그리고 본 개시내용에 따른 방법의 단계들은 앞에서 특정적으로 설명된 순서에 한정되지 않으며, 하지만 실제 조건들에 따라 변경될 수 있다. 추가적으로, 본 개시내용에 따른 방법의 단계들 중 적어도 하나의 단계는 실제 요건들에 따라 조정, 결합, 또는 삭제될 수 있다.

본 개시내용의 원리들을 설명하기 위해서, 그리고 본 발명의 기술분야에서 숙련된 다른 사람들로 하여금 다양한 구현예들을 위해 본 개시내용을 이해할 수 있도록 하기 위해서, 그리고 고려되는 특정 사용에 적합하게 되는 바와 같이 다양한 수정들로 기저의 원리들 및 다양한 구현예들을 최상으로 활용할 수 있도록 하기 위해서, 예들이 선택되었고 설명되었다. 따라서, 본 개시내용의 범위는 개시되는 구현예들의 특정 예들에 한정돼서는 안되고, 그리고 수정들 및 다른 구현예들이 본 개시내용의 범위 내에 포함되도록 의도된 것임이 이해돼야 한다.

Claims

비디오(video)에서의 모션 정제(motion refinement)를 위한 비디오 코딩 방법(video coding method)으로서, 상기 비디오 코딩 방법은,
하나 이상의 프로세서(processor)들에 의해, 상기 비디오로부터 비디오 프레임(video frame)의 비디오 블록(video block)에 대한 초기 모션 벡터(initial motion vector)를 결정하는 것과;
상기 하나 이상의 프로세서들에 의해, 상기 비디오에서의 제 1 참조 프레임(reference frame)으로부터의 제 1 참조 블록과 상기 비디오에서의 제 2 참조 프레임으로부터의 제 2 참조 블록의 가중된 조합(weighted combination)에 근거하여 매칭 타겟(matching target)을 결정하는 것과;
상기 하나 이상의 프로세서들에 의해, 정제된 모션 벡터가 상기 비디오 블록에 대해 획득될 때까지 상기 매칭 타겟에 근거하여 상기 초기 모션 벡터를 반복적으로 업데이트(update)하기 위해 블록 레벨(block level)에서 쌍방 매칭 기반 모션 정제 프로세스(bilateral matching based motion refinement process)를 수행하는 것과; 그리고
상기 하나 이상의 프로세서들에 의해, 상기 비디오 블록 내의 각각의 서브-블록(sub-block)에 대한 모션 벡터를 정제하되, 상기 서브-블록에 대한 상기 모션 벡터에 대한 시작 포인트(starting point)로서 상기 비디오 블록의 상기 정제된 모션 벡터를 사용하여, 정제하는 것을 포함하고,
서브-블록 레벨(sub-block level)에서 상기 모션 벡터를 정제하는 것은 상기 비디오 블록의 아핀 모션 모델(affine motion model)을 적용하는 것을 특징으로 하는 비디오 코딩 방법.
제1항에 있어서,
상기 매칭 타겟을 결정하는 것은 또한,
상기 제 1 참조 블록에 대한 제 1 가중치(weight) 및 상기 제 2 참조 블록에 대한 제 2 가중치를 각각 결정하는 것과, 그리고
상기 제 1 가중치 및 상기 제 2 가중치를 사용하여 상기 제 1 참조 블록과 상기 제 2 참조 블록의 상기 가중된 조합을 결정하는 것을 포함하는 것을 특징으로 하는 비디오 코딩 방법.
제2항에 있어서,
상기 제 1 가중치 및 상기 제 2 가중치는 가중된 쌍방-예측들(weighted bi-predictions)을 위해 인코더 측(encoder side)에서 도출(derive)되는 대응하는 가중치들과 동일하거나, 또는
상기 제 1 가중치 및 상기 제 2 가중치는 미리결정된 값들 갖는 것을 특징으로 하는 비디오 코딩 방법.
제1항에 있어서,
상기 쌍방 매칭 기반 모션 정제 프로세스를 수행하는 것은 또한,
상기 초기 모션 벡터를 사용하여 중간 모션 벡터(intermediate motion vector)를 초기화하는 것과,
상기 매칭 타겟에 근거하여 상기 중간 모션 벡터에 대한 모션 정제를 결정하는 것과, 그리고
상기 모션 정제에 근거하여 상기 중간 모션 벡터를 업데이트하는 것을 포함하는 것을 특징으로 하는 비디오 코딩 방법.
제4항에 있어서,
상기 쌍방 매칭 기반 모션 정제 프로세스를 수행하는 것은 또한,
미리결정된 반복-정지 조건(predetermined iteration-stop condition)이 충족되는지 여부를 결정하는 것과,
상기 미리결정된 반복-정지 조건이 충족됨에 응답하여, 상기 중간 모션 벡터를 상기 정제된 모션 벡터가 되도록 결정하는 것, 또는
상기 미리결정된 반복-정지 조건이 충족되지 않음에 응답하여, 상기 미리결정된 반복-정지 조건이 충족될 때까지, 상기 중간 모션 벡터에 대한 상기 모션 정제를 결정하는 것 및 상기 모션 정제에 근거하여 상기 중간 모션 벡터를 업데이트하는 것을 반복적으로 계속 행하는 것을 포함하는 것을 특징으로 하는 비디오 코딩 방법.
제5항에 있어서,
상기 모션 정제는, 계산 기반 도출(calculation based derivation), 검색 기반 도출(search based derivation), 또는 상기 계산 기반 도출과 상기 검색 기반 도출의 조합을 통해 결정되는 것을 특징으로 하는 비디오 코딩 방법.
제6항에 있어서,
상기 모션 정제는 상기 계산 기반 도출를 통해 결정되고,
상기 중간 모션 벡터에 대한 상기 모션 정제를 결정하는 것은 또한,
상기 중간 모션 벡터에 근거하여 상기 비디오 블록의 현재 예측을 결정하는 것과,
상기 현재 예측과 상기 매칭 타겟 간의 가정된 모션 모델(assumed motion model)을 결정하는 것과, 여기서 상기 가정된 모션 모델은 모션 정제 계산을 위해 사용되고, 그리고
상기 가정된 모션 모델에 근거하여 상기 중간 모션 벡터에 대한 상기 모션 정제를 계산하는 것을 포함하는 것을 특징으로 하는 비디오 코딩 방법.
제7항에 있어서,
상기 미리결정된 반복-정지 조건은, 상기 중간 모션 벡터가 수렴(converge)한다면, 또는 반복들의 총 수가 미리결정된 임계치를 만족시킨다면, 충족되는 것을 특징으로 하는 비디오 코딩 방법.
제7항에 있어서,
상기 가정된 모션 모델의 파라미터(parameter)들의 총 수는 상기 아핀 모션 모델의 파라미터들의 총 수와 동일한 것을 특징으로 하는 비디오 코딩 방법.
제7항에 있어서,
상기 가정된 모션 모델의 파라미터들의 총 수는 상기 아핀 모션 모델의 파라미터들의 총 수와 다른 것을 특징으로 하는 비디오 코딩 방법.
제6항에 있어서,
상기 모션 정제는 상기 검색 기반 도출을 통해 결정되고,
상기 중간 모션 벡터에 대한 상기 모션 정제를 결정하는 것은 또한,
상기 중간 모션 벡터 및 미리결정된 검색 범위 내에서의 제 1 모션-벡터 변경(motion-vector change)에 근거하여 제 1 수정된 모션 벡터(modified motion vector)를 발생시키는 것과, 그리고
상기 중간 모션 벡터와 관련된 매칭 비용(matching cost) 및 상기 제 1 수정된 모션 벡터와 관련된 현재 매칭 비용에 근거하여 상기 모션 정제로서 상기 제 1 모션-벡터 변경을 할당할지 여부를 결정하는 것을 포함하는 것을 특징으로 하는 비디오 코딩 방법.
제11항에 있어서,
상기 제 1 수정된 모션 벡터와 관련된 상기 현재 매칭 비용은,
상기 제 1 수정된 모션 벡터에 근거하여 상기 비디오 블록의 현재 예측을 결정하는 것과, 그리고
상기 매칭 타겟 및 상기 비디오 블록의 상기 현재 예측에 근거하여 상기 제 1 수정된 모션 벡터와 관련된 상기 현재 매칭 비용을 결정하는 것을
행함으로써 결정되는 것을 특징으로 하는 비디오 코딩 방법.
제11항에 있어서,
상기 비디오 코딩 방법은 또한, 상기 제 1 수정된 모션 벡터와 관련된 상기 현재 매칭 비용이 상기 중간 모션 벡터와 관련된 상기 매칭 비용보다 작음에 응답하여,
상기 모션 정제를 상기 제 1 모션-벡터 변경이 되도록 도출하여 상기 중간 모션 벡터가 상기 제 1 수정된 모션 벡터가 되도록 업데이트되게 하는 것을 포함하는 것을 특징으로 하는 비디오 코딩 방법.
제11항에 있어서,
상기 비디오 코딩 방법은 또한, 상기 제 1 수정된 모션 벡터와 관련된 상기 현재 매칭 비용이 상기 중간 모션 벡터와 관련된 상기 매칭 비용보다 크거나 같음에 응답하여,
상기 모션 정제로서 상기 제 1 모션-벡터 변경을 할당하지 않는 것과,
상기 중간 모션 벡터 및 상기 미리결정된 검색 범위 내에서의 제 2 모션-벡터 변경에 근거하여 제 2 수정된 모션 벡터를 발생시키는 것과, 그리고
상기 중간 모션 벡터와 관련된 상기 매칭 비용 및 상기 제 2 수정된 모션 벡터와 관련된 또 하나의 다른 현재 매칭 비용에 근거하여 상기 모션 정제로서 상기 제 2 모션-벡터 변경을 할당할지 여부를 결정하는 것을 포함하는 것을 특징으로 하는 비디오 코딩 방법.
제11항에 있어서,
상기 미리결정된 반복-정지 조건은, 상기 미리결정된 검색 범위 내에서의 이용가능한 모션-벡터 변경들이 검출되고 프로세싱된다면, 또는 반복들의 총 수가 미리결정된 임계치를 충족시킨다면, 충족되는 것을 특징으로 하는 비디오 코딩 방법.
제6항에 있어서,
상기 모션 정제는 상기 계산 기반 도출과 상기 검색 기반 도출의 상기 조합을 통해 결정되고,
상기 쌍방 매칭 기반 모션 정제 프로세스를 수행하는 것은,
상기 매칭 타겟에 근거하여 상기 계산 기반 도출을 통해 상기 중간 모션 벡터에 대한 상기 모션 정제를 결정하는 것과,
상기 계산 기반 도출을 통해 결정된 상기 모션 정제에 근거하여 상기 중간 모션 벡터를 업데이트하는 것과,
상기 매칭 타겟에 근거하여 상기 검색 기반 도출을 통해 상기 중간 모션 벡터에 대한 상기 모션 정제를 다시 결정하는 것과, 그리고
상기 검색 기반 도출을 통해 결정된 상기 모션 정제에 근거하여 상기 중간 모션 벡터를 다시 업데이트하는 것을 포함하는 것을 특징으로 하는 비디오 코딩 방법.
제1항에 있어서,
상기 쌍방 매칭 기반 모션 정제 프로세스는 아래와 같은 조건들
상기 제 1 참조 프레임과 상기 제 2 참조 프레임 중 하나는 상기 비디오 프레임에 선행하고 상기 제 1 참조 프레임과 상기 제 2 참조 프레임 중 다른 하나는 상기 비디오 프레임에 후행하는 것, 또는
상기 제 1 참조 프레임과 상기 제 2 참조 프레임 양쪽 모두가 상기 비디오 프레임에 선행하거나 후행하고 상기 제 1 참조 프레임과 상기 제 2 참조 프레임 간의 시간적 거리(temporal distance)가 미리결정된 임계치를 만족시키는 것
중 하나가 충족될 때 상기 정제된 모션 벡터를 획득하기 위해 수행되는 것을 특징으로 하는 비디오 코딩 방법.
비디오에서의 모션 정제를 위한 비디오 코딩 장치로서, 상기 비디오 코딩 장치는,
비디오의 적어도 하나의 비디오 프레임을 저장하도록 구성된 메모리와, 여기서 상기 비디오 프레임은 적어도 하나의 비디오 블록을 포함하고; 그리고
하나 이상의 프로세서들을 포함하고,
상기 하나 이상의 프로세서들은,
상기 비디오 블록에 대한 초기 모션 벡터를 결정하는 것과,
상기 비디오에서의 제 1 참조 프레임으로부터의 제 1 참조 블록과 상기 비디오에서의 제 2 참조 프레임으로부터의 제 2 참조 블록의 가중된 조합에 근거하여 매칭 타겟을 결정하는 것과,
정제된 모션 벡터가 상기 비디오 블록에 대해 획득될 때까지 상기 매칭 타겟에 근거하여 상기 초기 모션 벡터를 반복적으로 업데이트하기 위해 블록 레벨에서 쌍방 매칭 기반 모션 정제 프로세스를 수행하는 것과, 그리고
상기 비디오 블록 내의 각각의 서브-블록에 대한 모션 벡터를 정제하되, 상기 서브-블록에 대한 상기 모션 벡터에 대한 시작 포인트로서 상기 비디오 블록의 상기 정제된 모션 벡터를 사용하여, 정제하는 것을
행하도록 구성되고,
상기 비디오 프로세서는, 서브-블록 레벨에서 상기 모션 벡터를 정제하기 위해 상기 비디오 블록의 아핀 모션 모델을 적용하는 것을 특징으로 하는 비디오 코딩 장치.
제18항에 있어서,
상기 매칭 타겟을 결정하기 위해, 상기 하나 이상의 프로세서들은 또한,
상기 제 1 참조 블록에 대한 제 1 가중치 및 상기 제 2 참조 블록에 대한 제 2 가중치를 각각 결정하는 것과, 그리고
상기 제 1 가중치 및 상기 제 2 가중치를 사용하여 상기 제 1 참조 블록과 상기 제 2 참조 블록의 상기 가중된 조합을 결정하는 것을
행하도록 구성되는 것을 특징으로 하는 비디오 코딩 장치.
명령들이 저장되어 있는 비-일시적 컴퓨터-판독가능 저장 매체로서, 상기 명령들은 하나 이상의 프로세서들에 의해 실행될 때, 상기 하나 이상의 프로세서들로 하여금 비디오에서의 모션 정제를 위한 비디오 코딩 방법을 수행하도록 하고, 상기 비디오 코딩 방법은,
비디오로부터 비디오 프레임의 비디오 블록에 대한 초기 모션 벡터를 결정하되, 상기 비디오 블록의 병합 리스트(merge list)에 근거하여, 결정하는 것과,
상기 비디오에서의 제 1 참조 프레임으로부터의 제 1 참조 블록과 상기 비디오에서의 제 2 참조 프레임으로부터의 제 2 참조 블록의 가중된 조합에 근거하여 매칭 타겟을 결정하는 것과;
정제된 모션 벡터가 상기 비디오 블록에 대해 획득될 때까지 상기 매칭 타겟에 근거하여 상기 초기 모션 벡터를 반복적으로 업데이트하기 위해 블록 레벨에서 쌍방 매칭 기반 모션 정제 프로세스를 수행하는 것과;
상기 비디오 블록 내의 각각의 서브-블록에 대한 모션 벡터를 정제하되, 상기 서브-블록에 대한 상기 모션 벡터에 대한 시작 포인트로서 상기 비디오 블록의 상기 정제된 모션 벡터를 사용하여, 정제하는 것과, 여기서 서브-블록 레벨에서 상기 모션 벡터를 정제하는 것은 상기 비디오 블록의 아핀 모션 모델을 적용하고; 그리고
상기 병합 리스트로부터 상기 초기 모션 벡터를 식별하기 위한 병합 인덱스(merge index), 상기 제 1 참조 프레임을 식별하기 위한 제 1 참조 인덱스(reference index), 및 상기 제 2 참조 프레임을 식별하기 위한 제 2 참조 인덱스를 포함하는 비트스트림(bitstream)을 발생시키는 것을 포함하고,
상기 비트스트림은 상기 비-일시적 컴퓨터-판독가능 저장 매체에 저장되는 것을 특징으로 하는 비-일시적 컴퓨터-판독가능 저장 매체.