KR102480191B1

KR102480191B1 - 비디오 코딩을 위한 일반화된 다중-가설 예측 시스템 및 방법

Info

Publication number: KR102480191B1
Application number: KR1020227009791A
Authority: KR
Inventors: 춘-치 첸; 샤오유 시우; 유웬 히; 얀 예
Original assignee: 브이아이디 스케일, 인크.
Priority date: 2016-05-13
Filing date: 2017-05-11
Publication date: 2022-12-21
Also published as: EP3456049A1; EP4060992A1; EP3456049B1; JP2024074929A; JP2023009262A; KR20190018624A; JP2019519148A; CN115118970A; WO2017197146A1; CN115118971A; US20190230350A1; KR20220043240A; JP7469439B2; US11363253B2; CN109496430B; CN109496430A; KR102379874B1; US20220312001A1

Abstract

일반화된 양 예측을 사용하는 비디오 코딩에 대한 시스템 및 방법이 설명된다. 예시적인 실시형태에서, 비디오의 현재 블록을 비트스트림에 코딩하기 위해, 제1 참조 블록이 제1 참조 픽처로부터 선택되고 제2 참조 블록이 제2 참조 픽처로부터 선택된다. 각각의 참조 블록은 가중치와 관련되는데, 여기서 가중치는, 예를 들면, 0과 1 사이의 범위에 이르는 임의의 가중치일 수도 있다. 현재 블록은 참조 블록의 가중된 합을 사용하여 예측된다. 가중치는 복수의 후보 가중치 중으로부터 선택될 수도 있다. 후보 가중치는 비트스트림에서 시그널링될 수도 있거나 또는 템플릿에 기초하여 암시적으로 유도될 수도 있다. 후보 가중치는 범위를 벗어나는 또는 실질적으로 중복인 후보 가중치를 방지하기 위해 프루닝될 수도 있다. 일반화된 양 예측은 프레임 레이트 상향 변환에서 추가적으로 사용될 수도 있다.

Description

비디오 코딩을 위한 일반화된 다중-가설 예측 시스템 및 방법{SYSTEMS AND METHODS FOR GENERALIZED MULTI-HYPOTHESIS PREDICTION FOR VIDEO CODING}

관련 출원에 대한 교차 참조

본 출원은 다음의 미국 특허 가출원의 정식(non-provisional) 출원이며, 이들로부터 35 U.S.C. §119(c) 하에서의 이익을 주장한다: 2016년 5월 13일자로 출원된 발명의 명칭이 "Systems and Methods for Generalized Multi-Hypothesis Prediction for Video Coding"인 출원 번호 제62/336,227호; 2016년 5월 27일자로 출원된 발명의 명칭이 "Systems and Methods for Generalized Multi-Hypothesis Prediction for Video Coding"인 출원 번호 제62/342,772호; 2016년 9월 23일자로 출원된 발명의 명칭이 "Systems and Methods for Generalized Multi-Hypothesis Prediction for Video Coding"인 출원 번호 제62/399,234호; 및 2016년 10월 31일자로 출원된 발명의 명칭이 "Systems and Methods for Generalized Multi-Hypothesis Prediction for Video Coding"인 출원 번호 제62/415,187호. 이들 출원 모두는 참조에 의해 그 전체가 본원에 통합된다.

비디오 코딩 시스템은 이러한 신호의 저장 필요성 및/또는 송신 대역폭을 감소시키도록 디지털 비디오 신호를 압축하기 위해 널리 사용된다. 블록 기반의, 웨이블릿 기반의, 그리고 및 오브젝트 기반의 시스템과 같은 다양한 타입의 비디오 코딩 시스템 중에서, 요즘, 블록 기반의 하이브리드 비디오 코딩 시스템이 가장 널리 사용되고 배치된다. 블록 기반의 비디오 코딩 시스템의 예는, MPEG-1/2/4 파트 2, H.264/MPEG-4 파트 10 AVC, VC-1, 및 ITU-T/SG16/Q.6/VCEG 및 ISO/IEC/MPEG의 JCT-VC(Joint Collaborative Team on Video Coding; 비디오 코딩에 관한 협업팀)에 의해 개발된 고효율 비디오 코딩(High Efficiency Video Coding; HEVC)으로 칭해지는 최신 비디오 코딩 표준과 같은 국제 비디오 코딩 표준을 포함한다.

블록 기반의 코딩을 사용하여 인코딩되는 비디오는, 예를 들면, 인터넷을 통해 전자적으로 송신되는 데이터의 상당한 부분을 담당한다. 고화질 비디오 콘텐츠가 더 적은 비트를 사용하여 저장 및 송신될 수 있도록 비디오 압축의 효율성을 증가시키는 것이 바람직하다.

예시적인 실시형태에서, 일반화된 양 예측(generalized bi-prediction; GBi)을 수행하기 위한 시스템 및 방법이 설명된다. 예시적인 방법은 현재 픽처, 제1 참조 픽처 및 제2 참조 픽처를 포함하는 복수의 픽처를 포함하는 비디오를 인코딩 및 디코딩(일괄적으로 "코딩")하는 것을 포함하는데, 각각의 픽처는 복수의 블록을 포함한다. 예시적인 방법에서, 현재 픽처 내의 적어도 하나의 현재 블록에 대해, 한 세트의 가중치(weight) 중으로부터 제1 가중치 및 제2 가중치를 식별하는 블록 레벨 인덱스(block-level index)가 코딩되는데, 한 세트의 가중치 내의 가중치 중 적어도 하나의 가중치는 0, 0.5 또는 1과 동일하지 않은 값을 갖는다. 현재 블록은 제1 참조 픽처 내의 제1 참조 블록 및 제2 참조 픽처 내의 제2 참조 블록의 가중된 합으로서 예측되는데, 제1 참조 블록은 제1 가중치에 의해 가중되고 제2 블록은 제2 가중치에 의해 가중된다.

몇몇 실시형태에서(또는 몇몇 블록의 경우), 제1 및 제2 가중치를 식별하는 블록 레벨 정보는, 그 블록에 대한 인덱스를 코딩하는 것 이외의 수단에 의해 현재 블록에 대해 코딩될 수도 있다. 예를 들면, 블록은 병합 모드(merge mode)에서 코딩될 수도 있다. 이러한 경우, 블록 레벨 정보는, 복수의 병합 후보 블록으로부터 후보 블록을 식별하는 정보일 수도 있다. 그 다음, 제1 및 제2 가중치는, 식별된 후보 블록을 코딩하기 위해 사용되는 가중치에 기초하여 식별될 수도 있다.

몇몇 실시형태에서, 제1 및 제2 참조 블록은 또한, 현재 픽처에 대한 비트스트림에 시그널링된 적어도 하나의 스케일링 인자(scaling factor)만큼 스케일링된다.

몇몇 실시형태에서, 한 세트의 가중치는 비트스트림에 코딩되어, 상이한 한 세트의 가중치가, 상이한 슬라이스, 픽처, 또는 시퀀스에서의 사용을 위해 적응되는(adapted) 것을 허용한다. 다른 실시형태에서, 한 세트의 가중치는 미리 결정된다. 몇몇 실시형태에서, 두 개의 가중치 중 오직 하나만이 비트스트림에 시그널링되고, 다른 가중치는, 1로부터 시그널링된 가중치를 감산하는 것에 의해 유도된다.

몇몇 실시형태에서, 코드워드(codeword)는 각각의 가중치에 할당되고, 가중치는 대응하는 코드워드를 사용하여 식별된다. 가중치에 대한 코드워드의 할당은 미리 결정된 할당일 수도 있거나, 또는 할당은 이전에 코딩된 블록에서 사용되는 가중치에 기초하여 적응될 수도 있다.

일반화된 양 예측을 수행하기 위한 예시적인 인코더 및 디코더도 또한 본원에서 설명된다.

본원에서 설명되는 시스템 및 방법은 샘플 값의 블록을 예측하기 위한 새로운 기술을 제공한다. 이러한 기술은 인코더와 디코더 둘 모두에 의해 사용될 수 있다. 블록의 예측은, 인코딩 방법에서, 비트스트림에 인코딩되는 잔차(residual)를 결정하기 위해 원래의 입력 블록으로부터 감산될 수 있는 샘플 값의 블록으로 나타난다. 디코딩 방법에서, 잔차가 비트스트림으로부터 디코딩되어 예측 블록에 추가되어, 원래의 입력 블록과 동일한 또는 근사하는 재구성된 블록을 획득할 수 있다. 본원에서 설명되는 바와 같은 예측 방법은, 따라서, 적어도 몇몇 구현예에서, 비디오를 인코딩 및 디코딩하는 데 필요한 비트 수를 감소시키는 것에 의해 비디오 인코더 및 디코더의 동작을 향상시킨다. 비디오 인코더 및 디코더의 동작에 대한 예시적인 예측 방법의 또 다른 이점은 발명을 실시하기 위한 구체적인 내용에서 제공된다.

하기에서 먼저 간략히 설명되는 첨부의 도면과 연계하여 예로서 제시되는 하기의 설명으로부터, 더욱 상세한 이해가 얻어질 수도 있다.
도 1은 블록 기반의 비디오 인코더의 한 예를 예시하는 기능 블록도이다.
도 2는 블록 기반의 비디오 디코더의 한 예를 예시하는 기능 블록도이다.
도 3은 템플릿 T_c 및 관련된 예측 블록 T₀ 및 T₁을 사용하는 예측의 개략적인 예시이다.
도 4는 시간에 따른 조도 변화(Illuminance change)의 개략적인 예시를 제공하는 그래프이다.
도 5는 몇몇 실시형태에 따른 일반화된 양 예측을 사용하도록 구성되는 비디오 인코더를 예시하는 기능 블록도이다.
도 6은 비디오 인코더에서 사용하기 위한 예시적인 일반화된 양 예측 모듈의 기능 블록도이다.
도 7은 일반화된 양 예측에서 사용하기 위한 암시적인 가중 값(weight value)의 예시적인 디코더측 유도의 개략적인 예시이다.
도 8은 weight_idx를 이진화하기 위한 트리 구조의 개략적인 예시인데, 여기서 각각의 원은 시그널링될 비트를 나타낸다.
도 9는 몇몇 실시형태에 따른 일반화된 양 예측을 사용하도록 구성되는 비디오 디코더를 예시하는 기능 블록도이다.
도 10은 비디오 디코더에서 사용하기 위한 예시적인 일반화된 양 예측 모듈의 기능 블록도이다.
도 11a 및 도 11b는 코드워드 할당 방법: 일정한 할당(도 11a) 및 대안적 할당(도 11b)의 개략적인 예시를 제공한다.
도 12a 및 도 12b는, 블록 적응적 코드워드 할당(block-adaptive codeword assignment): 가중 값 필드(도 12a) 및 일정한 할당으로부터 업데이트되는 결과적으로 나타나는 코드워드 할당(도 12b)의 예를 제공하는 개략적인 예시이다.
도 13은 병합 후보 위치의 개략적인 예시이다.
도 14는 중첩된 블록 모션 보상(overlapped block motion compensation; OBMC)의 한 예의 개략적인 예시인데, 여기서 m은 OBMC를 수행하기 위한 기본 프로세싱 단위이고, N1 내지 N8은 인과 관계 이웃(causal neighborhood)의 서브블록이며, B1 내지 B7은 현재 블록의 서브블록이다.
도 15는 프레임 레이트 상향 변환(frame rate up conversion; FRUC)의 예를 예시하는데, 여기서 v₀는 참조 목록 L0에 대응하는 주어진 모션 벡터이고 v₁은 v₀ 및 시간 거리에 기초한 스케일링된 MV이다.
도 16은 코딩된 비트스트림 구조의 한 예를 예시하는 도면이다.
도 17은 예시적인 통신 시스템을 예시하는 도면이다.
도 18은, 몇몇 실시형태에서 인코더 또는 디코더로서 사용될 수도 있는 예시적인 무선 송수신 유닛(wireless transmit/receive unit; WTRU)을 예시하는 도면이다.

블록 기반의 인코딩.

도 1은 일반적인 블록 기반의 하이브리드 비디오 인코딩 시스템(100)의 블록도이다. 입력 비디오 신호(102)는 블록 단위로 프로세싱될 수도 있다. HEVC에서, 고해상도(1080p 및 그 이상) 비디오 신호를 효율적으로 압축하기 위해 확장된 블록 사이즈("코딩 단위(coding unit)" 또는 CU로 칭해짐)가 사용된다. HEVC에서, CU는 최대 64×64 픽셀일 수 있다. CU는 또한, 예측 단위(prediction unit) 또는 PU로 구획될 수 있는데, 이것에 대해 별개의 예측 방법이 적용된다. 각각의 입력 비디오 블록(MB 또는 CU)에 대해, 공간 예측(160) 및/또는 시간 예측(162)이 수행될 수도 있다. 공간 예측(또는, "인트라 예측(intra prediction)")은 현재 비디오 블록을 예측하기 위해 동일한 비디오 픽처/슬라이스의 이미 코딩된 이웃 블록으로부터의 픽셀을 사용한다. 공간 예측은, 비디오 신호에서는 본질적인 공간 중복성을 감소시킨다. 시간 예측("인터 예측(inter prediction)" 또는 "모션 보상 예측(motion compensated prediction)"으로도 또한 칭해짐)은, 현재 비디오 블록을 예측하기 위해, 이미 코딩된 비디오 픽처로부터의 픽셀을 사용한다. 시간 예측은, 비디오 신호에서는 본질적인 시간 중복성을 감소시킨다. 주어진 비디오 블록에 대한 시간 예측 신호는, 현재 블록과 그것의 참조 블록 사이의 모션의 양 및 방향을 나타내는 하나 이상의 모션 벡터에 의해 시그널링될 수도 있다. 또한, (H.264/AVC 또는 HEVC와 같은 최근의 비디오 코딩 표준에 대한 경우에서 처럼) 다수의 참조 픽처가 지원되면, 각각의 비디오 블록에 대해, 참조 픽처의 참조 인덱스가 또한 송신될 수도 있다. 참조 픽처 인덱스는, 시간 예측 신호가 참조 픽처 저장소(164)의 어떤 참조 픽처로부터 유래하는지를 식별하기 위해 사용된다. 공간 및/또는 시간 예측 이후에, 인코더 내의 모드 결정 블록(180)은, 예를 들면, 레이트 왜곡 최적화 방법(rate-distortion optimization method)에 기초하여, 최상의 예측 모드를 선택한다. 그 다음, 예측 블록은 현재 비디오 블록으로부터 감산된다(116); 예측 잔차는 변환(104)을 사용하여 상관 해제되고 목표 비트 레이트를 달성하기 위해 양자화(106)된다. 양자화된 잔차 계수는 역양자화되고(110) 역변환되어(112) 재구성된 잔차를 형성하는데, 재구성된 잔차는, 그 다음, 예측 블록(126)에 다시 가산되어 재구성된 비디오 블록을 형성한다. 재구성된 비디오 블록이 참조 픽처 저장소(164)에 저장되고 미래의 비디오 블록을 코딩하기 위해 사용되기 이전에, 재구성된 비디오 블록에 대해 추가적인 루프 내 필터링 예컨대 디블로킹 필터 및 적응 루프 필터(Adaptive Loop Filter)가 적용될 수도 있다(166). 출력 비디오 비트스트림(120)을 형성하기 위해, 코딩 모드(인터 또는 인트라), 예측 모드 정보, 모션 정보, 및 양자화된 잔차 계수 모두가 엔트로피 코딩 유닛(108)으로 전송되어 추가적으로 압축 및 패킹되어 비트스트림을 형성한다.

블록 기반의 디코딩.

도 2는 블록 기반의 비디오 디코더(200)의 일반적인 블록도를 나타낸다. 비디오 비트스트림(202)은 엔트로피 디코딩 유닛(208)에서 언패킹되고(unpacked) 엔트로피 디코딩된다. 코딩 모드 및 예측 정보는, 공간 예측 유닛(260)(인트라 코딩된 경우) 또는 시간 예측 유닛(262)(인터 코딩된 경우) 중 하나로 전송되어, 예측 블록을 형성한다. 잔차 변환 계수는, 역양자화 유닛(210) 및 역변환 유닛(212)으로 전송되어, 잔차 블록을 재구성한다. 그 다음, 예측 블록 및 잔차 블록은 226에서 함께 가산된다. 재구성된 블록은 또한, 재구성된 블록이 참조 픽처 저장소(264)에 저장되기 이전에, 루프 내 필터링을 통과할 수도 있다. 그 다음, 참조 픽처 저장소 내의 재구성된 비디오는 디스플레이 디바이스를 구동하기 위해 전송되고, 뿐만 아니라 미래의 비디오 블록을 예측하기 위해 사용된다.

현대의 비디오 코덱에서, 양방향 모션 보상 예측(MCP)은, 픽처 사이의 시간 상관을 활용하는 것에 의해 시간 중복성을 제거함에 있어서 자신의 높은 효율성으로 알려져 있으며, 대부분의 최신 기술의 비디오 코덱에서 널리 채택되고 있다. 그러나, 양 예측 신호는, 0.5와 동일한 가중 값을 사용하여 두 개의 단 예측(uni-prediction) 신호를 결합하는 것에 의해 간단히 형성된다. 특히, 하나의 참조 픽처로부터 다른 참조 픽처로 조도가 급격하게 변하는 몇몇 조건에서, 이것은 단 예측 신호를 결합하는 데 반드시 최적은 아니다. 따라서, 몇몇 전역적(global) 또는 국소적(local) 가중 값 및 오프셋 값을, 참조 픽처 내의 샘플 값의 각각에 적용하는 것에 의해, 시간에 따른 조도 변화를 보상하는 것을 목표로 하는 여러가지 예측 기술이 개발되었다.

가중된 양 예측.

가중된 양 예측은, 모션 보상을 수행할 때, 페이딩 전이(fading transition)와 같은, 시간에 따른 조도 변화를 보상하기 위해 주로 사용되는 코딩 도구이다. 각각의 슬라이스에 대해, 두 세트의 승산 가중 값 및 가산 오프셋 값이 명시적으로 나타내어지고, 각각의 참조 목록에 대해 한 번에 하나씩, 모션 보상 예측에 개별적으로 적용된다. 이 기술은, 조도가 픽처마다 선형적으로 그리고 동등하게 변하는 경우 가장 효과적이다.

국소적 조도 보상.

국소적 조도 보상에서, 파라미터(승산 가중 값 및 가산 오프셋 값의 두 개의 쌍)가 블록 단위 기반으로 적응된다. 슬라이스 레벨에서 이들 파라미터를 나타내는 가중된 양 예측과는 달리, 이 기술은, 최적의 파라미터를, 템플릿(T_C)의 재구성 신호와 템플릿의 예측 신호(T₀ 및 T₁) 사이의 조도 변화에 적응시키는 것에 의지한다(도 3 참조). 결과적으로 나타나는 파라미터는, (가중 값과 오프셋 값 사이의 제1 쌍의 경우) T_C와 T₀ 사이에서 그리고 (가중 값과 오프셋 값 사이의 제2 쌍의 경우) T_C와 T₁ 사이에서 조도 차이를 개별적으로 최소화하는 것에 의해 최적화된다. 그 다음, 가중된 양 예측에 대한 것과 동일한 모션 보상 프로세스가 유도된 파라미터를 가지고 수행된다.

조도 변화의 영향.

공간 및 시간에 걸친 조도에서의 변화는, 모션 보상된 예측의 성능에 심각하게 영향을 줄 수 있을 것이다. 도 4에서 알 수 있는 바와 같이, 조도가 시간 방향을 따라 흐려지는 경우, 모션 보상 예측은 양호한 성능을 제공하지 못한다. 예를 들면, 오브젝트의 샘플은 t-3에서부터 t까지의 시간의 기간에 걸쳐 이동하고, 이 샘플의 강도 값은 그것의 모션 궤적을 따라 v_t-3에서부터 v_t까지로 변한다. 이 샘플이 t 번째 픽처에서 예측될 것이다는 것을 가정하면, 그것의 예측값은 v_t-3와 v_t-1 이내로 한정되며, 따라서 불량한(poor) 모션 보상 예측이 발생할 수도 있다. 가중된 양 예측 및 국소적 조도 보상의 앞서 언급된 기술은, 이 문제를 완전히 해결하지 못할 수도 있다. 조도가 픽처 내에서 집중적으로 변동될 수도 있기 때문에, 가중된 양 예측은 실패할 수도 있다. 블록과 그와 관련된 템플릿 블록 사이의 낮은 조도 상관으로 인해, 국소적 조도 보상은 때로는 가중 값 및 오프셋 값의 불량한 추정치를 생성할 것이다. 이들 예는, 전역적 설명 및 템플릿 기반의 국소적 설명이, 공간 및 시간에 걸친 조도 변화를 표현하기에 충분하지 않다는 것을 나타낸다.

예시적인 실시형태.

본원에서 설명되는 예시적인 실시형태는 가중된 모션 보상 예측에 대한 예측 효율성을 향상시킬 수도 있다. 몇몇 실시형태에서, 다중 가설 예측 신호를 선형적으로 결합하기 위한 블록 레벨 가중 값 및 모션 보상된 예측을 사용하는 일반화된 다중 가설 예측을 위한 시스템 및 방법이 제안된다. 몇몇 실시형태에서, 일반화된 양 예측 프레임워크는 가중 값을 사용하여 설명된다. 몇몇 실시형태에서, 유한한 세트의 가중치가 시퀀스, 픽처 또는 슬라이스 레벨에서 사용되며, 한 세트의 가중치에 대한 구성 프로세스가 설명된다. 몇몇 실시형태에서, 가중 값은 주어진 한 세트의 가중치에 기초하여 결정되고 현재 블록 및 그 것의 참조 블록의 신호를 고려하여 최적화된다. 시그널링 가중 값을 위한 예시적인 코딩 방법이 설명된다. 제안된 예측을 위한 모션 추정 프로세스에 대한 예시적인 인코더 검색 기준이 설명되고, 개시된 시간 예측 기술과 조합한 제안된 예측 프로세스가 설명된다.

본 개시에서, 일반화된 다중 가설 예측을 사용하는 시간 예측을 위한 시스템 및 방법이 설명된다. 일반화된 양 예측을 사용하는 예시적인 인코더 및 디코더는 도 5 및 도 9와 관련하여 설명된다. 본원에 개시되는 시스템 및 방법은 다음과 같은 섹션으로 편제된다. 섹션 "일반화된 다중 가설 예측"은, 일반화된 다중 가설 예측을 사용하는 예시적인 실시형태를 설명한다. 섹션 "일반화된 양 예측"은, 일반화된 양 예측의 예시적인 프레임워크 및 예측 프로세스를 개시한다. 섹션 "가중치 세트의 구성" 및 "가중치 인덱스 코딩"은, 각각, 가중치 세트에 대한 예시적인 구성 프로세스를 설명하고, 이 세트에서의 가중치의 선택을 시그널링하기 위한 예시적인 기술을 설명한다. 섹션 "고급 시간 예측 기술에 대한 확장(Extensions to Advanced Temporal Prediction Techniques)"에서는, 예시적인 제안된 예측 방법을, 국소적 조도 보상 및 가중된 양 예측, 병합 모드, 중첩된 블록 모션 보상, 아핀 예측(affine prediction), 양방향 옵티컬 플로우(bi-directional optical flow), 및 프레임 레이트 상향 변환 양 예측으로 지칭되는 디코더측 모션 벡터 유도 기술을 비롯한, 고급(advanced) 인터 예측 기술과 결합하기 위한 시스템 및 방법이 설명된다. 섹션 "GBi 예측 검색 전략"에서는, 예시적인 예측 방법의 효율성을 향상시키기 위한 예시적인 인코더 전용 방법(encoder-only method)이 설명된다.

일반화된 다중 가설 예측.

본원에서 설명되는 예시적인 시스템 및 방법은 일반화된 다중 가설 예측을 활용한다. 일반화된 다중 가설 예측은, 다수의 모션 보상된 예측 신호를 선형적으로 결합하는 것에 기초하여 픽셀의 강도 값의 추정치를 제공하기 위한 다중 가설 예측의 일반화된 형태로서 설명될 수도 있다. 일반화된 다중 가설 예측은, 그들을 서로 결합하는 것에 의해 상이한 품질을 갖는 다수의 예측의 이점을 활용할 수도 있다. 정확한 추정치에 도달하기 위해, 모션 보상된 예측 신호가 미리 정의된 함수 f(·)를 통해 프로세싱될 수도 있고(예를 들면, 감마 보정, 국소적 조도 보정, 다이나믹 레인지 변환), 그 다음, 선형적으로 결합될 수도 있다. 일반화된 다중 가설 예측은 식 (1)을 참조하여 설명될 수 있는데:

여기서, P[x]는 픽처 위치 x에 위치되는 샘플 x의 결과적으로 나타나는 예측 신호를 나타내고, w_i는 i 번째 참조 픽처로부터 i 번째 모션 가설에 적용되는 가중 값을 나타내며, P_i[x + v_i]는 모션 벡터(MV) v_i를 사용한 x의 모션 보상된 예측 신호이고, n은 모션 가설의 총 수이다.

모션 보상된 예측과 관련하여 고려할 하나의 인자는, 최대 레이트 왜곡 성능에 도달하기 위해 모션 필드의 정확도 및 필요한 모션 오버헤드가 어떻게 균형이 맞추어지는지이다. 정확한 모션 필드는 더 나은 예측을 의미한다; 그러나 필요한 모션 오버헤드는 때로는 예측 정확도 이점보다 중요할 수도 있다. 이와 같이, 예시적인 실시형태에서, 제안된 비디오 인코더는, 상이한 수 n의 모션 가설 사이에서 적응적으로 스위칭할 수 있고, 최적의 레이트 왜곡 성능을 제공하는 n 값은 각기 각각의 PU에 대해 발견된다. 일반화된 다중 가설 예측이 어떻게 작동하는지의 설명을 용이하게 하기 위해, 비록 n 의 다른 값이 대안적으로 사용될 수도 있지만, 두 개의 모션 가설이 대부분의 현대 비디오 코딩 표준에서 일반적으로 사용되기 때문에, 다음의 섹션에서는 n = 2의 값이 예로서 선택된다. 예시적인 실시형태의 이해를 단순화하기 위해, 수학식 f(·)는 항등 함수로서 취급되고 따라서 명시적으로 기술되지 않는다. f(·)가 항등 함수가 아닌 경우에 대한 본원에서 개시되는 시스템 및 방법의 적용은, 본 개시의 관점에서 기술 분야의 숙련된 자에게 명백할 것이다.

일반화된 양 예측.

용어 일반화된 양 예측(GBi)은 본원에서는, 모션 가설의 수가 2로 제한되는, 즉 n = 2인 일반화된 다중 가설 예측의 특별한 경우를 가리키도록 사용된다. 이 경우, 식 (1)에 의해 주어지는 바와 같은 샘플 x에서의 예측 신호는 다음과 같이 단순화될 수도 있는데

여기서 w₀ 및 w₁은 블록 내의 모든 샘플에서 공유되는 두 개의 가중 값이다. 이 식에 기초하여, 가중 값 w₀ 및 w₁을 조정하는 것에 의해 아주 다양한 예측 신호가 생성될 수 있다. w₀ 및 w₁에 대한 몇몇 구성은 종래의 단 예측 및 양 예측과 동일한 예측으로 이어질 수도 있는데, 예컨대, (w₀, w₁)은, 참조 목록 L0을 갖는 단 예측의 경우 (1,0)이고, 참조 목록 L1을 갖는 단 예측의 경우 (0, 1)이고, 두 개의 참조 목록을 갖는 양 예측의 경우 (0.5, 0.5)이다. (1, 0) 및 (0, 1)의 경우, 제로와 동일한 가중 값과 관련되는 다른 세트가 예측 신호 P[x]에 어떠한 영향도 미치지 않기 때문에, 모션 정보의 단지 하나의 세트만이 시그널링된다.

w₀ 및 w₁의 값에서의, 특히 하이 레벨의 정밀도에서의 유연성은, 높은 시그널링 오버헤드의 비용을 초래할 수 있다. 시그널링 오버헤드를 절약하기 위해, 몇몇 실시형태에서, 단위 이득 제약이 적용되고, 즉 w₀ + w₁ = 1이고, 따라서 블록당 단지 하나의 가중 값이 GBi 코딩 PU에 대해 명시적으로 나타내어진다. 가중치 시그널링의 오버헤드를 더 감소시키기 위해, 가중 값은 PU 레벨 대신 CU 레벨에서 시그널링될 수도 있다. 설명의 용이함을 위해, w₁이 본 개시의 논의에서 시그널링되며, 따라서 식 (2)는 다음과 같이 추가로 단순화될 수 있다

예시적인 실시형태에서, 시그널링 오버헤드를 더 제한하기 위해, 빈번하게 사용되는 가중 값이 세트(이하, W_L1로 칭해짐) 내에 배치될 수도 있고, 따라서, 각각의 가중 값은, 제한된 범위 내에서 인덱스 값, 즉, W_L1에서 자신이 어떤 엔트리를 점유하는지를 가리키는 weight_idx에 의해 나타내어질 수 있다.

예시적인 실시형태에서, 일반화된 양 예측은, 두 개의 참조 블록의 가중된 평균을 생성하는 것을 지원하기 위한 추가적인 디코딩 부담을 초래하지 않는다. 현대의 비디오 표준(예를 들면, AVC, HEVC)의 대부분이 가중된 양 예측을 지원하기 때문에, GBi 예측에서의 사용을 위해 동일한 예측 모듈이 적응될 수 있다. 예시적인 실시형태에서, 일반화된 양 예측은, 종래의 단 예측 및 양 예측뿐만 아니라, 아핀 예측, 고급 시간 모션 벡터 유도 및 양방향 옵티컬 플로우와 같은 다른 고급 시간 예측 기술에도 또한 적용될 수도 있다. 이들 기술은, 매우 낮은 모션 오버헤드를 갖는 더 미세한 단위(예를 들면, 4×4)에서 모션 필드 표현을 유도하는 것을 목표로 한다. 아핀 예측은, 하나의 PU 내의 각각의 단위의 모션이 모델 파라미터에 기초하여 유도될 수 있는 모델 기반의 모션 필드 코딩 방법이다. 고급 시간 모션 벡터 유도는, 시간 참조 픽처의 모션 필드로부터 각각의 단위의 모션을 유도하는 것을 수반한다. 양방향 옵티컬 플로우는, 옵티컬 플로우 모델을 사용하여 각각의 픽셀에 대한 모션 세분화를 유도하는 것을 수반한다. 단위의 사이즈가 무엇이든 간에, 일단 가중 값이 블록 레벨에서 명시되면, 제안된 비디오 코덱은, 이들 유도된 모션 및 주어진 가중 값을 사용하여 단위별로 일반화된 양 예측을 수행할 수 있다.

일반화된 양 예측을 활용하는 예시적인 인코더 및 디코더는 하기에서 더욱 상세하게 설명된다.

일반화된 양 예측을 위한 예시적인 인코더.

도 5는 일반화된 양 예측을 수행하도록 적응된 예시적인 비디오 인코더의 블록도이다. 도 1에서 도시되는 비디오 인코더와 유사하게, 공간 예측 및 시간 예측은 예시적인 비디오 인코더에서 두 개의 기본 픽셀 도메인 예측 모듈이다. 공간 예측 모듈은 도 1에서 예시되는 것과 동일할 수도 있다. 도 1에서 "모션 예측"으로 라벨링되는 시간 예측 모듈은, 일반화된 양 예측(GBi) 모듈(502)에 의해 대체될 수도 있다. 일반화된 양 예측(GBi) 모듈은, 가중된 평균화 방식으로 두 개의 별개의 모션 보상 예측(motion compensated prediction; MCP) 신호를 결합하도록 동작할 수도 있다. 도 6에서 묘사되는 바와 같이, GBi 모듈은 다음과 같이 최종 인터 예측 신호를 생성하기 위한 프로세스를 구현할 수도 있다. GBi 모듈은, 현재 비디오 블록과 양 예측 사이의 가중된 양 예측 오차를 최소화하는 두 개의 참조 블록을 가리키는 두 개의 최적의 모션 벡터(MV)를 검색하기 위해 참조 픽처(들)에서 모션 추정을 수행할 수도 있다. GBi 모듈은 이들 두 개의 최적의 MV를 사용한 모션 보상을 통해 이들 두 개의 예측 블록을 페치(fetch)할 수도 있다. GBi 모듈은 두 개의 예측 블록의 가중된 평균으로서 일반화된 양 예측의 예측 신호를 후속하여 계산할 수도 있다.

몇몇 실시형태에서, 모든 이용 가능한 가중 값은 단일의 세트 내에서 명시된다. 가중 값이 PU 레벨에서 참조 목록 둘 모두에 대해 시그널링되는 경우 - 이것은, 그들이 양 예측 PU당 두 개의 별개의 가중 값을 시그널링한다는 것을 의미함 - 가중 값이 많은 수의 비트를 필요로 할 수도 있기 때문에, 단위 이득 제약(가중 값의 합은 1과 동일함)이 적용될 수도 있다. 이 제약 하에서, PU당 단지 하나의 단일의 가중 값만이 시그널링되고 한편 다른 하나는, 1로부터 시그널링된 가중 값을 감산하는 것으로부터 유도될 수 있다. 설명의 용이함을 위해, 본 개시에서, 참조 목록 L1과 관련되는 가중 값이 시그널링되고, 한 세트의 가중 값이 W_L1에 의해 나타내어진다. 시그널링 오버헤드를 더 감소시키기 위해, 가중 값은 W_L1에서의 엔트리 위치를 가리키는 인덱스 값 weight_idx에 의해 코딩된다. W_L1에 대한 적절한 할당을 통해, 종래의 단 예측(하나의 참조 목록에 대해 0과 동일한 가중치를 그리고 다른 하나의 목록에 대해 1과 동일한 가중치를 가짐) 및 종래의 양 예측(참조 목록 둘 모두에 대해 0.5와 동일한 가중 값을 가짐) 둘 모두는 GBi의 프레임워크 하에서 표현될 수 있다. W_L1 = {0, 0.5, 1}의 특별한 경우에, GBi 모듈은 도 1에서 묘사되는 바와 같은 모션 예측 모듈의 동일한 기능성(functionality)을 달성할 수 있다.

{0, 0.5, 1} 외에, 슬라이스, 픽처 또는 시퀀스 레벨에서, 자신의 수를 나타내는 비 음의 정수를 갖는 W_L1에 대한 여분의 가중 값, extra_number_of_weights이 명시될 수도 있고, 따라서, GBi 프레임워크에서는 extra_number_of_weights + 3 개의 별개의 가중치가 존재한다. 특히, 예시적인 실시형태에서, extra_number_of_weights가 제로보다 더 큰 경우, 이들 여분의 가중 값 중 하나는, 슬라이스, 픽처, 또는 시퀀스 레벨에서 존재하는 플래그 implicit_weight_flag의 제어에 의존하여, 블록 단위 기반으로 유도될 수 있다. 이 플래그가 1과 동일하게 설정되면, 이 특정한 가중 값은 시그널링되지 않지만, 그러나, 도 7에서 도시되는 바와 같이, 바로 이웃한 역 L자 형상 이웃(템플릿으로 칭해짐)의 일반화된 양 예측 신호와 템플릿의 재구성 신호 사이의 차이를 최소화할 수 있는 것을 발견하는 것에 의해 유도될 수도 있다. W_L1의 구성에 관련되는 전술한 프로세스는 가중치 세트 구성 모듈(504)에 의해 수행될 수도 있다.

조도 변화의 높은 다이나믹스(dynamics)를 갖는 픽처에 W_L1의 여분의 가중 값을 적응하게 만들기 위해, 두 개의 스케일링 인자(gbi_scaling_factors)가 적용될 수도 있고 픽처 레벨에서 시그널링될 수도 있다. 그들과 함께, 가중치 세트 구성 모듈은 GBi 예측을 위한 여분의 가중의 값을 스케일링할 수 있다. 인터 예측(즉, 제안된 비디오 인코더에서의 GBi 예측) 및 인트라 예측 이후에, 원래의 신호는 이 최종 예측 신호로부터 감산될 수도 있고, 코딩을 위한 결과적으로 나타나는 예측 잔차 신호가 이런 식으로 생성된다.

예시적인 제안된 비디오 인코더에서, 블록 모션(모션 벡터 및 참조 픽처 인덱스) 및 가중 값 인덱스는, 각각의 인터 코딩된 PU에 대해 나타내어질 유일한 블록 레벨 정보이다.

예시적인 실시형태에서, GBi 예측의 블록 모션 정보는, 기저의 비디오 코덱의 것과 동일한 방식으로 코딩된다. weight_idx가 0 또는 1과 동일한 가중치와 관련되는 경우, 즉 단 예측과 등가의 경우를 제외하면, PU당 두 세트의 모션 정보가 시그널링된다.

가중치 인덱스 코딩 모듈(506)은 예시적인 비디오 인코더에서 각각의 PU의 weight_idx를 이진화하기 위해 사용된다. 가중치 인덱스 코딩 모듈의 출력은 weight_idx의 고유의 이진 표현 binary_weight_idx일 수도 있다. 예시적인 이진화 스킴(scheme)의 트리 구조가 도 8에 예시되어 있다. 종래의 인터 예측에서와 같이, binary_weight_idx의 제1 비트는, 각각의 인터 PU에 대해 단 예측(0 또는 1과 동일한 가중 값과 관련되는 가중치 인덱스) 및 양 예측(W_L1에서 0 및 1 이외의 가중 값과 관련되는 가중치 인덱스)을 구별할 수도 있다. 단 예측 브랜치(branch)에서, L0 참조 목록(0과 동일한 가중 값과 관련되는 가중치 인덱스) 또는 L1 참조 목록(1과 동일한 가중 값과 관련되는 가중치 인덱스) 중 어떤 것이 참조되는지를 나타내기 위해 다른 비트가 시그널링된다. 양 예측 브랜치에서, 각각의 리프 노드는, W_L1에서 0도 1도 아닌 나머지 가중 값 중 하나와 관련되는 고유의 가중치 인덱스 값을 할당받는다. 슬라이스 또는 픽처 레벨에서, 예시적인 비디오 인코더는 여러 가지 미리 정의된 할당 방식 사이에서 적응적으로 스위칭할 수도 있거나 또는 이전에 코딩된 블록으로부터의 가중 값의 사용에 기초하여 PU 단위 기반으로 동적으로 고유의 리프 노드에 각각의 가중치를 할당할 수도 있다. 일반적으로, 빈번하게 사용되는 가중치 인덱스는 양 예측 브랜치에서 루트에 가까운 리프 노드에 할당되는 반면, 다른 것은, 반대로, 루트로부터 더 먼 리프 노드에 할당된다. 도 8의 이 트리를 가로지르는 것을 통해, 모든 weight_idx가 엔트로피 코딩을 위한 고유의 binary_weight_idx로 변환될 수 있다.

일반화된 양 예측의 디코딩 프레임워크.

도 9는 몇몇 실시형태에서의 비디오 디코더의 블록도이다. 도 9의 디코더는, 도 5에서 예시되는 비디오 인코더에 의해 생성되는 비트스트림을 디코딩하도록 동작할 수도 있다. 코딩 모드 및 예측 정보는, 공간 예측 또는 일반화된 양 예측 중 어느 하나를 사용하여 예측 신호를 유도하기 위해 사용될 수도 있다. 일반화된 양 예측의 경우, 블록 모션 정보 및 가중 값이 수신되고 디코딩된다.

가중치 인덱스 디코딩 모듈(902)은, 제안된 비디오 인코더의 가중치 인덱스 코딩 모듈(506)에 의해 코딩되는 가중치 인덱스를 디코딩한다. 가중치 인덱스 디코딩 모듈(902)은 도 8에서 명시되는 것과 동일한 트리 구조를 재구성하고, 트리 상의 각각의 리프 노드는 제안된 비디오 인코더와 동일한 방식으로 고유의 weight_idx를 할당받는다. 이러한 방식으로, 이 트리는 제안된 비디오 인코더 및 디코더에 걸쳐 동기화된다. 이 트리를 가로지르는 것을 통해, 모든 수신된 binary_weight_idx는, 트리 상의 소정의 리프 노드에서 자신의 관련된 weight_idx를 찾을 수도 있다. 도 5의 비디오 인코더와 같은 예시적인 비디오 디코더는, 가중치 세트 W_L1를 구성하기 위한 가중치 세트 구성 모듈(904)을 포함한다. implicit_weight_flag가 1과 동일한 경우 W_L1의 여분의 가중 값 중 하나가, 명시적으로 시그널링되는 대신, 유도될 수도 있고, W_L1 내의 모든 여분의 가중 값은 gbi_scaling_factors에 의해 나타내어지는 스케일링 인자를 사용하여 추가로 스케일링될 수도 있다. 그 다음, 가중 값의 재구성은, W_L1로부터 weight_idx에 의해 가리켜지는 하나를 페치하는 것에 의해 행해질 수도 있다.

디코더는 각각의 블록에서의 가중 값의 선택에 의존하여 한 세트 또는 두 세트의 모션 정보를 수신할 수도 있다. 재구성된 가중 값이 0 도 아니고 1 도 아닌 경우, 두 세트의 모션 정보가 수신될 수 있다; 그렇지 않은 경우(그것이 0 또는 1인 경우), 넌제로 가중치와 관련되는 한 세트의 모션 정보만이 수신된다. 예를 들면, 가중 값이 0과 동일하면, 참조 목록 L0에 대한 모션 정보만이 시그널링될 것이다; 그렇지 않고 가중 값이 1과 동일하면, 참조 목록 L1에 대한 모션 정보만이 시그널링될 것이다.

블록 모션 정보 및 가중 값을 통해, 도 10에서 예시되는 일반화된 양 예측 모듈(1050)은, 두 개의 모션 보상된 예측 블록의 가중된 평균으로서, 일반화된 양 예측의 예측 신호를 계산하도록 동작할 수도 있다.

코딩 모드에 따라, 공간 예측 신호 또는 일반화된 양 예측 신호 중 어느 하나가 재구성된 잔차 신호와 합해져서 재구성된 비디오 블록 신호를 얻을 수도 있다.

가중치 세트의 구성.

명시적인 시그널링된 가중치, 디코더측 유도된 가중치, 및 스케일링된 가중치를 사용하여, 가중치 세트 W_L1의 예시적인 구성 프로세스가 이하에서, 한 세트의 가중치 W_L1의 사이즈를 소형화하기 위한 예시적인 프루닝 프로세스(pruning process)와 함께, 설명된다.

명시적인 가중 값.

명시적인 가중 값은, 시퀀스, 픽처 및 슬라이스 레벨의 각각에서 시그널링될 수도 있고 계층적으로(hierarchically) 관리될 수도 있다. 더 낮은 레벨에서 명시되는 가중치는 더 높은 레벨의 것들을 대체할 수도 있다. 더 높은 레벨에서의 명시적인 가중치의 수를 p라고 가정하고, 상대적으로 더 낮은 레벨에서 q라고 가정하면, 더 낮은 레벨에서 가중 값 목록을 구성할 때 대체를 위한 다음 규칙이 적용될 수도 있다.

p > q 일 때 더 높은 레벨에서의 마지막 q 개의 가중 값은 더 낮은 레벨에서의 q 개의 가중치에 의해 대체된다.

p ≤ q 인 경우, 더 높은 레벨에서의 모든 가중치는 더 낮은 레벨에서 명시되는 것들에 의해 대체된다.

명시적인 가중 값의 수는, 시퀀스, 픽처 및 슬라이스 레벨의 각각에서 extra_number_of_weights에 의해 나타내어질 수도 있다. 몇몇 실시형태에서, 슬라이스 레벨에서, 기본 가중치 세트는, 종래의 단 예측 및 양 예측을 지원하기 위해 GBi에 대해, {0, 0.5, 1}을 형성하는 세 개의 디폴트 값을 항상 포함하고, 그러므로, 전체적으로 (extra_number_of_weights + 3) 개의 가중치가 각각의 블록에 대해 사용될 수 있다. 예를 들면, 시퀀스, 픽처 및 슬라이스 레벨에서 존재하는 extra_number_of_weights의 값이, 각각, 2(예를 들면, w_A, w_B), 1(예를 들면, w_C) 및 3(예를 들면, w_D, w_E, w_F)인 경우, 시퀀스, 픽처 및 슬라이스 레벨에서의 이용 가능한 가중 값은, 각각, {w_A, w_B}, {w_A, w_C} 및 {0, 0.5, 1} ∪{w_D, w_E, w_F}이다. 이 예에서, 섹션 "일반화된 양 예측"에서 언급되는 W_L1은, 슬라이스 레벨 가중치 세트이다.

암시적인 가중 값의 유도 프로세스.

몇몇 실시형태에서, 슬라이스 레벨 가중치 세트 W_L1 내의 가중 값은, 시그널링 없이, 인코더 및 디코더 둘 모두에서 템플릿 매칭을 통해 유도된다. 도 7에서 묘사되는 바와 같이, 이 암시적인 가중 값은, 현재 블록의 모션 정보를 갖는 템플릿의 예측 신호(T₀ 및 T₁)와 템플릿의 재구성 신호(즉, T_c) 사이의 차이를 최소화하는 것에 의해 유도될 수도 있다. 이 문제는 다음과 같이 공식화될 수 있는데

여기서, v₀ 및 v₁은 현재 블록의 모션 벡터이다. 식 (4)가 2차 함수(quadratic function)이기 때문에, T₀과 T₁이 정확하게 동일하지 않으면 유도된 가중치의 닫힌 형태 표현(closed-form expression)이 획득될 수 있다; 즉

이다.

이 방법의 유효성은, 현재 블록 신호의 가중 값이 관련된 템플릿 예측 신호의 것과 상관되는 경우 볼 수 있다; 그러나, 특히 현재 블록 내의 픽셀 및 그것의 관련된 템플릿이 상이한 모션 오브젝트 내에 위치되는 경우, 이것은 항상 보장되는 것은 아니다. GBi의 예측 성능을 최대화하기 위해, extra_number_of_weights ≥ 1인 경우 플래그 implicit_weight_flag가 슬라이스, 픽처 또는 시퀀스 레벨에서 시그널링되어 암시적인 가중치가 사용되는지의 여부를 결정할 수도 있다. 일단 이것이 1과 동일하게 설정되면, W_L1에서의 마지막 슬라이스 레벨 가중 값이 유도되고 따라서 시그널링될 필요가 없다. 예를 들면, 상기의 섹션 "명시적인 가중 값"에서 앞서 언급된 w_F는 시그널링될 필요가 없고, implicit_weight_flag가 1과 동일한 경우 블록의 가중치는 암시적으로 유도될 수도 있다.

가중 값의 스케일링 프로세스.

몇몇 실시형태에서, 명시적인 가중 값은 픽처 레벨에서 나타내어지는 두 개의 스케일링 인자인 gbi_scaling_factors를 사용하는 것에 의해 추가로 스케일링될 수도 있다. 시간 경과에 따른 픽처에서의 조도 변화의 높은 다이나믹스로 인해, 이들 가중 값의 다이나믹 레인지는 모든 이들 경우를 커버하기에는 충분하지 않을 수도 있다. 비록 가중된 양 예측이 픽처 사이의 조도 차이를 보상할 수 있지만, 그것은 기저의 비디오 코덱에서 항상 활성화되도록 보장되는 것은 아니다. 이와 같이, 이들 스케일링 인자는, 가중된 양 예측이 사용되지 않는 경우, 다수의 참조 픽처에 걸친 조도 차이를 조절하기 위해 사용될 수도 있다.

제1 스케일링 인자는 W_L1의 각각의 명시적인 가중 값을 확대할 수도 있다. 이를 통해, 식 (3)의 GBi의 예측 함수는 다음과 같이 표현될 수도 있는데

여기서 α는 현재 픽처의 제1 스케일링 인자이고 w₁'은 스케일링된 가중 값(즉, α*(w₁ - 0.5) + 0.5)을 나타낸다. 식 (6)에서의 첫 번째 식은 식 (3)과 동일한 형태로 표현될 수도 있다. 유일한 차이점은 식 (6) 및 (3)에 적용되는 가중 값이다.

제2 스케일링 인자는, P₀ 및 P₁의 관련된 참조 픽처 사이의 조도 면에서의 차이를 감소시키기 위해 사용될 수도 있다. 이 스케일링 인자를 통해, 식 (6)은 또한 다음과 같이 다시 공식화될 수 있는데:

여기서, s₀ 및 s₁은, 각각, 현재 픽처 및 그것의 두 개의 참조 픽처에서 시그널링되는 제2 스케일링 인자를 나타낸다. 식 (7)에 따라, 변수 s에 대한 하나의 최적의 할당은, 현재 픽처 내의 샘플의 평균 값일 수도 있다. 따라서, 제2 스케일링 인자가 적용된 이후, 참조 픽처의 평균 값은 유사할 것으로 예상될 수도 있다. 교환 가능한 속성(commutative property)으로 인해, P₀과 P₁에 스케일링 인자를 적용하는 것은, 그들을 가중 값에 적용하는 것과 동일하고, 따라서, 식 (7)은 다음과 같이 재해석될 수 있다:

따라서, 가중치 세트의 구성 프로세스는, 명시적인 가중치, 암시적인 가중치, 스케일링 인자 및 참조 픽처의 함수로서 표현될 수 있다. 예를 들면, 전술한 슬라이스 레벨 가중치 세트 W_L1은

이 되고, L0에 대한 가중치 세트는

이 되는데, 여기서, s₁은 현재 블록에 대한 목록 L1 내의의 참조 픽처의 평균 샘플 값이고, s₀은 현재 블록에 대한 목록 L0 내의 참조 픽처의 평균 샘플 값이다.

가중 값의 프루닝.

예시적인 실시형태는 W_L1에서 가중 값의 수를 추가로 감소시키도록 동작한다. 가중 값을 프루닝하기 위한 두 가지 예시적인 접근법이 이하에서 상세하게 설명된다. 제1 접근법은 모션 보상된 예측 결과에 응답하여 동작하고, 제2 접근법은 0과 1 사이의 범위 밖의 가중 값에 기초하여 동작한다.

예측 기반의 접근법. PU의 모션 정보가 주어지는 경우, 실질적으로 서로 상이한 양 예측을 모든 가중치가 생성하는 것은 아니다. 예시적인 실시형태는, W_L1을 더욱 콤팩트하게 만들기 위해, 중복적(redundant) 가중 값(이들은 유사한 양 예측 신호를 생성함)을 프루닝하는 것 및 중복적 값 중에서 단지 하나의 가중치만을 유지하는 것에 의해 이 속성을 이용한다. 그렇게 하기 위해, 두 개의 상이한 가중 값의 양 예측 신호 사이의 유사도를 계산하기 위한 함수가 사용될 수도 있다. 이 함수는 다음과 같이 동작하는 코사인 유사도 함수(cosine similarity function)일 수도 있지만, 그러나 이것으로 제한되는 것은 아닌데:

여기서 w⁽ⁱ⁾ 및 w^(j)는 W_L1 내의 두 개의 독립적인 가중 값이고, v₀ 및 v₁은 주어진 양 예측 모션 정보이며, P[x;w,v₀,v₁]은, 주어진 w, v₀ 및 v₁을 갖는 식 (3), (6) 및 (8)에서 명시되는 바와 같은 동일한 예측 함수를 나타낸다. 식 (9)의 값이 주어진 (슬라이스 레벨에서 weight_pruning_threshold에 의해 나타내어지는) 주어진 임계치 아래로 떨어지는 경우, 가중치 중 하나는 이 슬라이스 레벨 신택스(syntax)인 pruning_smaller_weight_flag에 따라 프루닝될 수도 있다. 이 플래그가 1과 동일하게 설정되면, 프루닝 프로세스는 W_L1로부터의 w⁽ⁱ⁾ 및 w^(j)로부터 더 작은 가중치를 제거한다. 그렇지 않으면(이 플래그가 0과 동일하게 설정되는 경우), 더 큰 플래그가 제거된다. 예시적인 실시형태에서, 이 프루닝 프로세스는 W_L1 내의 가중 값의 각각의 쌍에 적용되고, 그 결과, 결과적으로 나타나는 W_L1 내의 어떠한 두 개의 가중 값도 유사한 양 예측 신호를 생성하지 않을 것이다. 두 개의 가중 값 사이의 유사도는 또한, 절대 변환 차이의 합(sum of absolute transformed differences; SATD)을 사용하는 것에 의해 평가될 수 있다. 계산적 복잡성을 감소시키기 위해, 이 유사도는 두 개의 서브샘플링된 예측 블록을 사용하여 평가될 수도 있다. 예를 들면, 그것은 수평 및 수직 방향 둘 모두에서 샘플의 서브샘플링된 행 또는 서브샘플링된 열을 가지고 계산될 수도 있다.

가중 값 기반의 접근법. 0과 1 사이의 범위를 벗어나는 가중 값(또는, 간략히, 범위 밖 가중치)은, 상이한 코딩 구조(예를 들면, 계층적 구조 또는 저 지연 구조) 하에서의 코딩 성능의 관점에서, 상이하게 거동할 수 있을 것이다. 이 사실을 이용하기 위해, 예시적인 실시형태는 한 세트의 시퀀스 레벨 인덱스 weight_control_idx를 활용하여, 각각의 시간 레이어(temporal layer)에 대한 범위 밖 가중치의 사용을 개별적으로 제한한다. 이러한 실시형태에서, 각각의 weight_control_idx는 특정한 시간 레이어에서의 모든 픽처와 관련된다. 이 인덱스가 구성되는 방법에 의존하여, 범위 밖 가중치는 다음과 같이 조건부적으로 프루닝될 수도 있거나 또는 사용에 이용 가능할 수도 있다.

● weight_control_idx = 0인 경우, W_L1은 관련된 픽처에 대해 변경되지 않고 유지된다.

● weight_control_idx = 1인 경우, W_L1 내의 범위 밖 가중치는 관련된 픽처에 대해 이용 가능하지 않다.

● weight_control_idx = 2인 경우, W_L1 내의 범위 밖 가중치는, 자신의 참조 프레임이 순전히 과거의 것으로부터만 유래하는 관련된 픽처 중 일부에 대해서만 이용 가능하다(예를 들면, HEVC 및 JEM에서의 저 지연 구성).

● weight_control_idx = 3인 경우, W_L1 내의 범위 밖 가중치는, HEVC 및 JEM 내의 슬라이스 레벨 플래그인 mvd_l1_zero_flag가 활성화되는 경우에만 관련된 픽처에 대해 이용 가능하다.

가중치 인덱스 코딩.

가중치 인덱스 코딩을 위한 코드워드 할당 및 이진화를 위한 예시적인 시스템 및 방법이 하기에서 더욱 상세하게 설명된다.

가중치 인덱스 코딩을 위한 이진화 프로세스.

예시적인 실시형태에서, 각각의 가중치 인덱스(weight_idx)는, 엔트로피 인코딩 이전에, 체계적인 코드를 통해 고유의 이진 표현(binary_weight_idx)으로 변환된다. 예시의 목적을 위해, 제안된 이진화 방법의 트리 구조는 도 8에서 예시된다. binary_weight_idx의 제1 비트는 단 예측(즉, 0 또는 1과 동일한 가중치와 관련됨)과 양 예측을 구별하기 위해 사용된다. (0과 동일한 가중 값을 가리키는 가중치 인덱스와 관련되는) 참조 목록 L0 또는 (1과 동일한 가중 값을 가리키는 가중치 인덱스와 관련되는) 참조 목록 L1 중 어느 하나인, 두 개의 참조 목록 중 어떤 것이 참조되는지를 나타내기 위해, 단 예측 브랜치에서 다른 비트가 시그널링된다. 양 예측 브랜치에서, 각각의 리프 노드는, W_L1에서 0도 1도 아닌 나머지 가중 값 중 하나와 관련되는 고유의 가중치 인덱스 값을 할당받는다. 예시적인 비디오 코덱은, 잘려진 1진 코드(truncated unary code)(예를 들면, 도 8) 및 지수 골롬(Exponential-Golomb) 코드와 같은, 양 예측 브랜치를 이진화하기 위한 다양한 체계적인 코드를 지원한다. 양 예측 브랜치에서의 각각의 리프 노드가 고유의 weight_idx를 할당받는 예시적인 기술이 이하에서 더욱 상세하게 설명된다. 이 트리 구조를 조사하는 것을 통해, 각각의 가중치 인덱스가 고유의 코드워드(예를 들면, binary_weight_idx)에 매핑될 수도 있거나 또는 그들로부터 복구될 수도 있다.

가중치 인덱스 코딩을 위한 적응적 코드워드 할당.

예시적인 이진 트리 구조에서, 각각의 리프 노드는 하나의 코드워드에 대응한다. 가중치 인덱스의 시그널링 오버헤드를 감소시키기 위해, 다양한 적응적 코드워드 할당 방법이 사용되어, 양 예측 브랜치에서의 각각의 리프 노드를 고유의 가중치 인덱스에 매핑할 수도 있다. 예시적인 방법은, 미리 결정된 코드워드 할당, 블록 적응적 코드워드 할당, 시간 레이어 기반의 코드워드 할당, 및 시간 지연 CTU 적응 코드워드 할당(time-delay CTU-adaptive codeword assignment)을 포함한다. 이들 예시적인 방법은, 이전에 코딩된 블록에서 사용된 가중 값의 발생에 기초하여 양 예측 브랜치에서의 코드워드 할당을 업데이트한다. 빈번하게 사용되는 가중치는, 더 짧은 길이를 갖는 코드워드(즉, 양 예측 브랜치에서의 더 얕은 리프 노드)에 할당될 수도 있고, 한편 다른 것은 상대적으로 더 긴 길이를 갖는 코드워드에 할당될 수도 있다.

1) 미리 결정된 코드워드 할당. 미리 결정된 코드워드 할당을 사용하여, 일정한 코드워드 할당이 양 예측 브랜치에서의 리프 노드에 제공될 수도 있다. 이 방법에서, 0.5 가중치와 관련되는 가중치 인덱스는 가장 짧은 코드워드를 할당받을 수도 있다, 즉, 예를 들면, 도 8에서 노드 i. 0.5 이외의 가중 값은 두 개의 세트로 분리될 수도 있다: 세트 1은 0.5보다 더 큰 모든 값을 포함하며, 그것은 오름차순으로 정렬된다; 세트 2는 0.5보다 더 작은 모든 값을 포함하며, 그것은 내림차순으로 정렬된다. 그 다음, 이들 두 개의 세트는 인터리빙되어(interleaved), 세트 1 또는 세트 2 중 어느 하나로부터 시작하는 세트 3을 형성한다. 짧은 것에서부터 긴 것까지의 길이를 갖는 모든 나머지 코드워드는 세트 3 내의 가중 값에 순서대로 할당된다. 예를 들면, 양 예측 브랜치에서의 한 세트의 모든 가능한 가중 값이 {0.1, 0.3, 0.5, 0.7, 0.9}인 경우, 인터리빙이 세트 1에서부터 시작하면, 세트 1은 {0.7, 0.9}이고, 세트 2는 {0.3, 0.1}이고, 세트 3은 {0.7, 0.3, 0.9, 0.1}이다. 짧은 것에서부터 긴 것까지의 길이를 갖는 코드워드는 0.5, 0.7, 0.3, 0.9 및 0.1에 순차적으로 할당된다.

이 할당은, 두 세트의 모션 정보가 전송될 때 몇몇 코덱이 하나의 모션 벡터 차이를 드랍할 수도 있는 상황에서 변할 수도 있다. 예를 들면, 이 거동은 HEVC에서 슬라이스 레벨 플래그인 mvd_l1_zero_flag로부터 발견될 수 있다. 이 경우, 0.5보다 더 크고 0.5에 가장 가까운 가중 값(예를 들면, w⁺)과 관련되는 가중치 인덱스에 대안적 코드워드 할당이 할당된다. 그 다음, w⁺보다 더 큰(또는 더 작은) 것들로부터 n 번째로 가장 작은(또는 가장 큰) 것인 가중 값과 관련되는 가중치 인덱스는, (2n + 1) 번째 또는(2n 번째) 가장 짧은 코드 워드를 할당받는다. 이전 예에 기초하여, 짧은 것에서부터 긴 것까지의 길이를 갖는 코드워드는 0.7, 0.5, 0.9, 0.3 및 0.1에 순차적으로 할당된다. 예 둘 모두의 결과적으로 나타나는 할당은, 도 11a 및 도 11b에서 예시된다.

2) 인과 관계로 이웃하는(causal-neighboring) 가중치를 사용한 블록 적응적 코드워드 할당. 인과 관계로 이웃하는 블록에서 사용되는 가중 값은, 현재 블록을 위해 사용되는 것과 상관될 수도 있다. 이 지식 및 주어진 코드워드 할당 방법(예를 들면, 일정한 할당 또는 대안적 할당)에 기초하여, 인과 관계로 이웃하는 블록으로부터 발견될 수 있는 가중치 인덱스는, 더 짧은 코드워드 길이를 갖는 양 예측 브랜치에서의 리프 노드로 승격된다. 모션 벡터 예측 목록의 구성 프로세스와 유사하게, 인과 관계로 이웃하는 블록은, 도 12a에서 묘사되는 바와 같이 순서화된 시퀀스로 액세스될 수도 있고, 최대 두 개의 가중치 인덱스가 승격될 수도 있다. 이 예시로부터 알 수 있는 바와 같이, 좌측 하부 블록으로부터 좌측 블록까지, 최초 이용 가능한 가중치 인덱스는 (만약 있다면) 가장 짧은 코드워드 길이를 가지고 승격될 수도 있다; 우측 상부 블록으로부터 좌측 상부 블록까지, 최초 이용 가능 가중치 인덱스는 (만약 있다면) 두 번째로 가장 짧은 코드워드 길이를 가지고 승격될 수도 있다. 다른 가중치 인덱스의 경우, 그들은, 원래 주어진 할당에서의 그들의 코드워드 길이에 따라, 가장 얕은 것에서부터 가장 깊은 것까지 리프 노드의 나머지에 할당될 수도 있다. 도 12b는, 주어진 코드워드 할당이 그 자체를 인과 관계로 이웃하는 가중치에 어떻게 적응시킬 수도 있는지를 나타내는 예를 제공한다. 이 예에서, 일정한 할당이 사용되며 0.3 및 0.9와 같은 가중 값이 승격된다.

3) 시간 레이어 기반의 코드워드 할당. 시간 레이어 기반의 코드워드 할당을 사용하는 예시적인 방법에서, 제안된 비디오 인코더는 일정한 코드워드 할당과 대안적인 코드워드 할당 사이에서 적응적으로 스위칭한다. 동일한 시간 레이어에서의 또는 동일한 QP 값을 갖는 이전에 코딩된 픽처로부터의 가중치 인덱스의 사용에 기초하여, 가중치 인덱스의 최소 예상 코드워드 길이를 갖는 최적의 코드워드 할당 방법은 다음과 같이 발견될 수도 있는데:

여기서, L_m(w)은 소정의 코드워드 할당 방법 m을 사용하는 w의 코드워드 길이를 나타내고,

는 양 예측에 대해서만 사용되는 가중 값 세트이고, Prob_k(w)는 시간 레이어에서 k 개의 픽처에 걸친 w의 누적 확률을 나타낸다. 일단 최상의 코드워드 할당 방법이 결정되면, 그것은 가중치 인덱스를 인코딩하는 데 또는 현재 픽처에 대한 이진 가중치 인덱스를 파싱하는 데 적용될 수도 있다.

시간 픽처에 걸친 가중치 인덱스의 사용을 축적하기 위한 여러 가지 상이한 방법이 고려된다. 예시적인 방법은 공통의 식으로 공식화될 수 있는데:

여기서 w_i는 W_L1 내의 소정의 가중치이고, Count_j(w)는 시간 레이어의 j 번째 픽처에서의 소정의 가중 값의 발생을 나타내고, n은 기억될 최근 픽처 수를 결정하고, λ는 망각하는 항(forgetting term)이다. n 및 λ는 인코더 전용 파라미터이기 때문에, 그들은 그들 자신을 각각의 픽처에서 다양한 인코딩 조건에 적응시킬 수 있는데, 예컨대 장면 변화의 경우 n = 0이고 모션 비디오의 경우 더 작은 λ이다.

몇몇 실시형태에서, 코드워드 할당 방법의 선택은, 슬라이스 레벨 신택스 엘리먼트를 사용하여 명시적으로 나타내어질 수도 있다. 이와 같이, 디코더는 시간에 걸친 가중치 인덱스의 사용을 유지할 필요가 없고, 따라서, 시간 픽처에 걸친 가중치 인덱스에 대한 파싱 의존성은 완전히 방지될 수 있다. 이러한 방법은 또한, 디코딩 강건성을 향상시킨다.

4) CTU 적응 코드워드 할당. 이전에 코딩된 픽처의 가중치 사용에만 전적으로 기초한 코드워드 할당을 위한 상이한 방법 사이의 스위칭은, 현재 픽처의 것과 항상 잘 매치하지는 않을 수도 있다. 이것은 현재 픽처의 가중치 사용에 대한 고려의 부족 때문일 수 있다. CTU 적응 코드워드 할당을 사용하는 예시적인 실시형태에서, Prob_k(w_i)는 현재 CTU 행 내의 그리고 CTU 행 바로 위의 코딩된 블록의 가중치 사용에 기초하여 업데이트될 수도 있다. 현재 픽처가 시간 레이어에서 (k + 1) 번째 Prob_k(w_i)픽처이다는 것을 가정하면, Prob_k(w_i)는 다음과 같이 CTU 단위로 업데이트될 수도 있는데:

여기서, B는 현재 CTU 행 내의 그리고 CTU 행 바로 위의 한 세트의 코딩된 CTU를 나타내고, Count'_j(w)는 세트 B에서 수집되는 j 번째 CTU에서의 소정의 가중 값의 발생을 나타낸다. 일단 Prob_k(w_i)가 업데이트되면, 그것은 식 (10)에 적용되고, 따라서 최상의 코드워드 할당 방법이 결정될 수도 있다.

고급 시간 예측 기술에 대한 확장.

국소적 조도 보상, 가중된 양 예측, 병합 모드, 양방향 옵티컬 플로우, 아핀 모션 예측, 중첩된 블록 모션 보상, 및 프레임 레이트 상향 변환 양 예측을 포함하는 다른 코딩 기술과 함께 일반화된 양 예측의 적용을 확장하기 위한 실시형태가 하기에서 논의된다.

국소적 조도 보상 및 가중된 양 예측.

예시적인 일반화된 양 예측 기술은, 다른 기술 중에서도, 국소적 조도 보상(illuminance compensation; IC) 및/또는 가중된 양 예측 위에서 수행될 수 있다. IC 및 가중된 양 예측 둘 모두는 참조 블록의 조도 변화를 보상하도록 동작한다. 그들 사이의 하나의 차이점은, IC의 사용에서는, 가중치(c₀ 및 c₁) 및 오프셋 값(o₀ 및 o₁)이 블록 단위의 템플릿 매칭을 통해 유도되고, 한편, 가중된 양 예측의 사용에서는, 이들 파라미터가 슬라이스 단위로 명시적으로 시그널링된다는 것이다. 이들 파라미터(c₀, c₁, o₀, o₁)를 통해, GBi의 예측 신호는 다음과 같이 계산될 수 있는데

여기서는, 상기의 섹션 "가중 값의 스케일링 프로세스"에서 설명되는 가중 값의 스케일링 프로세스가 적용된다. 이 스케일링 프로세스가 적용되지 않는 경우, GBi의 예측 신호는 다음과 같이 계산될 수도 있다

.

예를 들면, 식 (13) 또는(14)에서 기술되는 이들 결합된 예측 프로세스의 사용은, 시퀀스 레벨, 픽처 레벨, 또는 슬라이스 레벨에서 시그널링될 수도 있다. 시그널링은, GBi와 IC의 조합에 대해서 그리고 GBi와 가중된 양 예측의 조합에 대해서 개별적으로 수행될 수도 있다. 몇몇 실시형태에서, 식 (13) 또는 (14)의 결합된 예측 프로세스는, 가중 값(w₁)이 0, 0.5 또는 1이 아닌 경우에만 적용된다. 특히, 결합된 예측 프로세스의 사용이 활성화되면, 블록 레벨 IC 플래그(이것은 IC의 사용을 나타내기 위해 사용됨)의 값은, (w₁ ≠0, 0.5, 1인) GBi가 IC와 결합되는지의 여부를 결정한다. 그렇지 않으면, 결합된 예측 프로세스가 사용되지 않는 경우, (w₁ ≠0, 0.5, 1인) GBi 및 IC는 두 개의 독립적인 예측 모드로서 수행하고, 각각의 블록에 대해, 이 블록 레벨 IC 플래그는 시그널링될 필요가 없고 따라서 제로로서 유추된다.

몇몇 실시형태에서, GBi가 IC와 결합될 수 있는지 또는 가중된 양 예측과 결합될 수 있는지의 여부는, bi_ic_comb_flag 및 gbi_wb_comb_flag와 같은 플래그를 사용하여, 개별적으로, 시퀀스 파라미터 세트(sequence parameter set; SPS), 픽처 파라미터 세트(picture parameter set; PPS), 또는 슬라이스 헤더에서 하이 레벨 신택스와 함께 시그널링된다. 몇몇 실시형태에서, gbi_ic_comb_flag가 0과 동일한 경우, GBi 및 IC는 결합되지 않으며, 따라서 (w₁ ≠0, 0.5, 1인) GBi 가중 값 및 IC 플래그는 임의의 양 예측 코딩 단위에 대해 공존하지 않을 것이다. 예를 들면, 몇몇 실시형태에서, GBi 가중치가 코딩 단위에 대해 w₁ ≠0, 0.5, 1에서 시그널링되면, 시그널링될 IC 플래그는 없으며, 이 플래그 값은 제로로 추론된다; 그렇지 않으면, IC 플래그는 명시적으로 시그널링된다. 몇몇 실시형태에서, gbi_ic_comb_flag가 1과 동일하면, GBi 및 IC는 결합되고 GBi 가중치 및 IC 플래그 둘 모두는 하나의 코딩 단위에 대해 독립적으로 시그널링된다. 동일한 의미론이 gbi_wb_comb_flag에 적용될 수 있다.

병합 모드.

몇몇 실시형태에서, 병합 모드는, 인과 관계로 이웃하는 블록으로부터의 모션 정보를 추론하기 위해서 뿐만 아니라, 동시에 그 블록의 가중치 인덱스를 또한 추정하기 위해 사용된다. (도 13에서 묘사되는 바와 같은) 인과 관계로 이웃하는 블록에 대한 액세스 순서는, HEVC에서 명시되는 것과 동일할 수도 있는데, 여기서 공간 블록은 좌측, 상부, 우측 상부, 좌측 하부 및 우측 상부 블록의 시퀀스에서 액세스되고, 한편 시간 블록은 우측 하부 블록과 중앙 블록의 시퀀스에서 액세스된다. 몇몇 실시형태에서, 공간 블록으로부터의 최대 네 개 및 시간 블록으로부터의 최대 하나를 갖는 최대 다섯 개의 병합 후보가 구성된다. 병합 후보가 주어지면, 식 (3),(8),(13) 또는(14)에서 명시되는 GBi 예측 프로세스가 적용될 수도 있다. 가중치 인덱스는, 선택된 병합 후보의 가중치 정보로부터 그것이 추론되기 때문에, 시그널링될 필요가 없다는 것을 유의한다.

JEM 플랫폼에서, 고급 시간적 모션 벡터 예측(advanced temporal motion vector prediction; ATMVP)으로 칭해지는 추가적인 병합 모드가 제공된다. 본 개시의 몇몇 실시형태에서, ATMVP는 GBi 예측과 결합된다. ATMVP에서, 하나의 CU 내의 각각의 4×4 단위의 모션 정보는 시간 참조 픽처의 모션 필드로부터 유도된다. ATMVP를 사용하는 예시적인 실시형태에서, GBi 예측 모드가 인에이블되는 경우(예를 들면, extra_number_of_weights가 0보다 더 큰 경우), 각각의 4×4 유닛에 대한 가중치 인덱스는 시간 참조 픽처에서의 대응하는 시간 블록의 것으로부터 또한 추론될 수도 있다.

양방향 옵티컬 플로우.

몇몇 실시형태에서, GBi의 가중 값은 양방향 옵티컬 플로우(bi-directional optical flow; BIO) 모델에 적용될 수도 있다. 모션 보상된 예측 신호(P₀[x + v₀] 및 P₁[x + v₁])에 기초하여, BIO는, L0 및 L1에서의 두 개의 대응하는 샘플 사이의 차이를, 그들의 공간적으로 수직인 그리고 수평인 기울기 값의 관점에서, 감소시키기 위한 오프셋 값 o_BIO[x]를 추정할 수도 있다. 이 오프셋 값을 GBi 예측과 결합하기 위해, 식 (3)은 다음과 같이 다시 공식화될 수도 있는데

여기서 w₁은 GBi 예측을 수행하기 위해 사용되는 가중 값이다. 이 오프셋 값은, P₀ 및 P₁에서의 예측 신호가 스케일링된 이후의 가산 오프셋으로서, 식 (8), (13) 또는 (14)와 같은 다른 GBi 변형에도 또한 적용될 수도 있다.

아핀 예측.

예시적인 실시형태에서, GBi 예측은 종래의 양 예측에 대한 확장과 유사한 방식으로 아핀 예측과 결합될 수도 있다. 그러나, 모션 보상을 수행하기 위해 사용되는 기본 프로세싱 단위에서 차이가 있다. 아핀 예측은 PU의 세밀한 단위의(fine-granularity) 모션 필드 표현을 형성하기 위한 모델 기반의 모션 필드 유도 기술인데, 각각의 4×4 단위의 모션 필드 표현은 단방향 또는 양방향 병진 모션 벡터(translation motion vector) 및 주어진 모델 파라미터에 기초하여 유도된다. 모든 모션 벡터가 동일한 참조 픽처를 가리키기 때문에, 4×4 단위의 각각에 가중 값을 적응시킬 필요는 없다. 이와 같이, 가중 값은 각각의 단위에 걸쳐 공유될 수도 있고, PU당 단지 하나의 가중치 인덱스만이 시그널링될 수도 있다. 4×4 단위의 모션 벡터 및 가중 값을 통해, GBi는 단위 기반으로 수행될 수 있고, 따라서, 동일한 식 (3), (8), (13) 및 (14)는 변경 없이 직접적으로 적용될 수도 있다.

중첩된 블록 모션 보상.

중첩된 블록 모션 보상(overlapped block motion compensation; OBMC)은, 이 샘플 자체의 모션 벡터 및 그것의 인과 관계 이웃 내의 모션 벡터로부터 유도되는 모션 보상된 신호에 기초하여 샘플의 강도 값의 예측을 제공하기 위한 방법이다. GBi의 예시적인 실시형태에서, 가중 값은 OBMC에 대한 모션 보상에서 또한 고려될 수도 있다. 도 14에서는, 현재 블록의 서브블록(B₁)이 세 개의 모션 보상된 예측 블록을 갖는 예가 나타나 있는데, 세 개의 모션 보상된 예측 블록의 각각은 블록(N₁, N₅ 또는 B₁) 그 자체로부터의 가중 값 및 모션 정보를 사용하는 것에 의해 형성되고, B₁의 결과적으로 나타나는 예측 신호는 세 개의 가중된 평균일 수도 있다.

프레임 레이트 상향 변환.

몇몇 실시형태에서, GBi는 프레임 레이트 상향 변환(frame-rate up conversion; FRUC)과 함께 동작할 수도 있다. FRUC에 대해 두 개의 상이한 모드가 사용될 수도 있다. 현재 픽처가 L0의 제1 참조 픽처와 L1의 제1 참조 픽처 사이에 속하면, 양 예측 모드가 사용될 수도 있다. L0의 제1 참조 픽처 및 L1의 제1 참조 픽처 둘 모두가 전방(forward) 참조 픽처이거나 또는 후방(backward) 참조 픽처인 경우, 단 예측 모드가 사용될 수도 있다. FRUC의 양 예측 사례는 하기에서 상세히 논의된다. JEM에서, FRUC 양 예측에 대해 동일한 가중치(즉, 0.5)가 사용된다. FRUC 양 예측의 두 예측자의 품질이 상이할 수도 있지만, 동일한 가중치를 사용하여 동일하지 않은 예측 품질을 갖는 두 개의 예측자(predictor)를 결합하는 것은 차선책일 수도 있다. GBi의 사용은, 동일하지 않은 가중치의 사용으로 인해 최종 양 예측 품질을 향상시킬 수 있다. 예시적인 실시형태에서, GBi의 가중 값은, FRUC 양 예측으로 코딩된 블록에 대해 유도되고, 따라서 시그널링될 필요가 없다. W_L1 내의 각각의 가중 값은, FRUC 양 예측의 MV 유도 프로세스를 사용하여, PU의 4×4 서브블록 각각에 대해 독립적으로 평가된다. 4×4 블록에 대한 최소 바이래터럴 매칭 에러(bilateral matching error)(즉, 두 개의 참조 목록과 관련되는 두 개의 단방향 모션 보상된 예측자 사이의 절대 차이의 합)로 이어지는 가중 값이 선택된다.

예시적인 실시형태에서, FRUC 양 예측은, 바이래터럴 매칭을 사용하는 것에 의해 MV를 유도하는 디코더측 MV 유도 기술이다. 각각의 PU에 대해, 인과 관계로 이웃하는 블록으로부터 수집되는 후보 MV의 목록이 형성된다. 일정한 모션 가정 하에서, 각각의 후보 MV는 다른 참조 목록의 제1 참조 픽처 상으로 선형적으로 투영되는데, 여기서, 투영을 위한 스케일링 인자는 (예를 들면, 시간 t₀ 또는 t₁에서의) 참조 픽처와 현재 픽처(t_c) 사이의 시간 거리에 비례하여 설정된다. v₀이 참조 목록 L0과 관련되는 후보 MV인 도 15를 예로 들면, v₁은

로서 계산된다. 따라서, 바이래터럴 매칭 에러는 여전히 각각의 후보 MV에 대해 계산될 수 있고, 최소 바이래터럴 매칭 에러에 도달하는 초기 MV가 후보 목록으로부터 선택된다. 이 초기 MV를 v₀ ^INIT로 표시한다. 초기 MV v₀ ^INIT가 가리키는 곳부터 시작하여, 미리 정의된 검색 범위 내에서 MV를 찾기 위해 디코더측 모션 추정이 수행되고, 최소 바이래터럴 매칭 에러에 도달하는 MV는 PU 레벨 MV로서 선택된다. v₁이 투영된 MV인 것으로 가정하면, 최적화 프로세스는 다음과 같이 공식화될 수 있다

.

FRUC 양 예측이 GBi와 결합되는 경우, 식 (16)의 검색 프로세스는 W_L1 내의 가중 값 w를 사용하여 다시 공식화된다; 즉,

이다.

이 PU 레벨 v₀는 또한, 식 (18)에서 도시되는 바와 같이, PU 내의 각각의 4×4 서브블록에 대해서, 식 (17)에서 동일한 바이래터럴 매칭을 사용하여 독립적으로 개선될 수도 있다.

W_L1 내의 이용 가능한 가중 값 w의 각각에 대해, 식 (18)이 평가될 수도 있고, 바이래터럴 매칭 에러를 최소화하는 가중 값은 최적의 가중치로서 선택된다. 평가 프로세스가 끝에서, PU의 각각의 4×4 서브블록은 그 자신의 양 예측 MV 및 일반화된 양 예측을 수행하기 위한 가중 값을 갖는다. 이러한 망라적 검색 방법( exhaustive search method)의 복잡성은, 가중치와 모션 벡터가 공동 방식으로 검색되기 때문에, 높을 수도 있다. 다른 실시형태에서, 최적의 모션 벡터 및 최적의 가중치에 대한 검색은 두 단계에서 수행될 수도 있다. 제1 단계에서, 각각의 4×4 블록에 대한 모션 벡터는, 식 (18)을 사용하여, w를 초기 값, 예를 들면, w = 0.5로 설정하는 것에 의해 획득될 수도 있다. 제2 단계에서, 최적의 모션 벡터가 주어지면, 최적의 가중치가 검색될 수도 있다.

또 다른 실시형태에서, 모션 검색 정확도를 향상시키기 위해, 세 개의 단계가 적용될 수도 있다. 제1 단계에서, 초기 모션 벡터 v₀ ^INIT를 사용하여 초기 가중치가 검색된다. 이 초기 최적 가중치를 w^INIT로 표시한다. 제2 단계에서, 각각의 4×4 블록에 대한 모션 벡터는 식 (18)을 사용하여 w를 w^INIT로 설정하는 것에 의해 획득될 수도 있다. 제3 단계에서, 최적의 모션 벡터가 주어지면, 최종적인 최적 가중치가 검색될 수도 있다.

식 (17) 및 (18)로부터, 목표는, 두 개의 참조 목록과 각각 관련되는 두 개의 가중된 예측자 사이의 차이를 최소화하는 것이다. 음의 가중치는 이 목적에 적합하지 않을 수도 있다. 하나의 실시형태에서, FRUC 기반의 GBi 모드는 제로보다 더 큰 가중 값만을 평가할 것이다. 복잡성을 감소시키기 위해, 절대 차이의 합의 계산은, 각각의 서브블록 내의 부분 샘플을 사용하여 수행될 수도 있다. 예를 들면, 절대 차이의 합은, 짝수 번째 행 및 열(또는, 대안적으로 홀수 번째 행 및 열)에 위치하는 샘플만을 사용하여 계산될 수도 있다.

GBi 예측 검색 전략.

양 예측 검색을 위한 초기 참조 목록.

양 예측의 모션 추정(motion estimation; ME) 스테이지에서 두 개의 참조 목록 중 어떤 것이 먼저 검색되어야 하는지를 결정하는 것에 의해, GBi의 예측 성능을 향상시키기 위한 방법이 하기에서 설명된다. 종래의 양 예측에서와 같이, ME 스테이지 비용을 최소화하기 위해 결정될 참조 목록 L0 및 참조 목록 L1과 각각 관련되는 두 개의 모션 벡터가 있다; 즉:

인데, 여기서, I[x]는 현재 픽처에서 x에 위치되는 샘플 x의 원래의 신호이고, P[x]는 GBi의 예측 신호이고, t_i 및 u_j는, 각각, L0의 i 번째 참조 픽처 및 L1의 j 번째 참조 픽처를 가리키는 모션 벡터이고, λ는 ME 스테이지에서 사용되는 라그랑지안(Lagrangian) 파라미터이고, Bits(·) 함수는 입력 변수를 인코딩하기 위한 비트의 수를 추정한다. 식 (3), (8), (13) 및 (14)의 각각은 식 (19)에서 P[x]를 대신하기 위해 적용될 수 있다. 설명의 단순화를 위해, 식 (3)을 다음 프로세스의 예로서 고려한다. 따라서, 식 (19)의 비용 함수는 다음과 같이 재작성될 수 있다:

결정될 두 개의 파라미터(t_i 및 u_j)가 있기 때문에, 반복적 프로시져가 활용될 수도 있다. 제1 이러한 프로시져는 다음과 같이 진행할 수도 있다:

1. {u_j|∀j}에서의 최상의 모션을 가지고 t_i, ∀i를 최적화한다.

2. {t_i|∀i}에서의 최상의 모션을 가지고 u_j, ∀j를 최적화한다.

3. t_i 및 u_j가 변경되지 않거나 또는 최대 반복 횟수가 도달될 때까지 단계 1 및 2를 반복한다.

제2 예시적인 반복 프로시져는 다음과 같이 진행될 수도 있다:

1. {t_i|∀i}에서의 최상의 모션을 가지고 u_j, ∀j를 최적화한다.

2. {u_j|∀j}에서의 최상의 모션을 가지고 t_i, ∀i를 최적화한다.

3. u_j 및 t_i가 변경되지 않거나 또는 최대 반복 횟수가 도달될 때까지 단계 1 및 2를 반복한다.

어떤 반복 프로시져가 선택되는지는, t_i 및 u_j의 ME 스테이지 비용 전적으로 의존할 수도 있다; 즉:

인데, 여기서 ME 스테이지 비용 함수는 다음과 같을 수도 있다:

그러나, 1-w₁ 및 w₁이 동일하지 않은 경우, 이 초기화 프로세스가 최적이 아닐 수도 있다. 가중 값 중 하나가 0에 매우 가까운, 예를 들면, w₁ = lim_w→0w이고, 그리고 그것의 관련된 모션의 ME 스테이지 비용이 다른 것보다 더 낮게 되는 통상적인 예. 이 경우, 식 (20)은 다음으로 축퇴된다(degenerate)

.

u_j에 대한 소비된 오버헤드는 예측 신호에 아무런 기여도 하지 않으며, GBi에 대한 불량한 검색 결과로 나타나게 된다. 본 개시에서, 가중 값의 크기는 식 (21) 대신 사용된다; 즉

이다.

가중치 인덱스에 대한 이진 검색.

평가될 가중 값의 수가 인코더에 추가적인 복잡성을 도입할 수 있기 때문에, 예시적인 실시형태는 이진 검색 방법을 활용하여 인코딩의 초기 스테이지에서 더 낮은 가능성의 가중 값을 프루닝한다. 하나의 그러한 검색 방법에서, 종래의 단 예측(0 및 1 가중치와 관련되는) 및 양 예측(0.5 가중치와 관련됨)이 맨 처음 수행되고, W_L1 내의 가중 값은 4 개의 그룹, 즉, A = [w_min, 0], B = [0, 0.5], C = [0.5, 1] 및 D = [1, w_max]로 분류될 수도 있다. w_min 및 w_max는, 각각, W_L1 내의 최소 및 최대 가중 값을 나타내며, 일반성의 손실 없이, w_min < 0이고 w_max > 1인 것이 가정된다. 가능한 가중 값의 범위를 결정하기 위해 다음 규칙이 적용될 수도 있다.

● w = 0이 w = 1보다 더 나은 ME 스테이지 비용을 제공하면, 다음의 규칙이 적용된다:

○ w = 0.5가 w = 0 및 w = 1보다 더 나은 ME 스테이지 비용을 제공하면, B에서의 가중 값에 기초하여 가중치 세트 W⁽⁰⁾이 형성된다.

○ 그렇지 않으면, A에서의 가중 값에 기초하여 W⁽⁰⁾이 형성된다.

●그렇지 않으면(w = 1이 w = 0보다 더 나은 ME 스테이지 비용이 제공하면), 다음의 규칙이 적용된다:

○ w = 0.5가 w = 0 및 w = 1보다 더 나은 ME 스테이지 비용을 제공하면, C에서의 가중 값에 기초하여 W⁽⁰⁾이 형성된다.

○ 그렇지 않으면, D에서의 가중 값에 기초하여 W⁽⁰⁾이 형성된다.

W⁽⁰⁾가 형성된 이후, w_min 및 w_max의 값은, 각각, W⁽⁰⁾의 최소 값 및 최대 값에 따라 리셋될 수도 있다. A에서의 w_min 및 D에서의 w_max의 ME 스테이지 비용은, W⁽⁰⁾이 A 및 D와 각각 관련되면, 계산될 수도 있다.

반복 프로세스는, k 번째 반복에서 두 개보다 많은 가중 값이 세트에 남아있을 때까지, W^(k)를 계속 업데이트하도록 동작할 수도 있다. 프로세스가 k 번째 반복에 있다고 가정하면, 반복 프로세스는 다음과 같이 명시될 수도 있다:

1. (w_min + w_max)/2에 가장 가까운 가중 값인 w_middle를 사용하여 GBi를 수행한다.

2. w_middle이 w_min 및 w_max보다 더 나은 ME 스테이지 비용을 제공하면, [w_min, w_middle] 및 [w_middle, w_max] 둘 모두를 독립적으로 테스트하기 위해 W^{(k + 1)}에 대해 재귀 프로세스가 호출되며, 반복 프로세스는 단계 6으로 점프한다.

3. 그렇지 않고 w_middle이 w_min 및 w_max보다 더 나쁜 ME 스테이지 비용을 제공하면, 반복 프로세스는 종료된다.

4. 그렇지 않고 w_min이 w_max보다 더 나은 ME 스테이지 비용을 제공하면, [w_min, w_middle]에서의 가중 값에 기초하여 W^{(k + 1)}가 형성되고, 반복 프로세스는 단계 6으로 점프한다.

5. 그렇지 않으면(w_min이 w_max보다 더 나쁜 ME 스테이지 비용을 제공하면), [w_middle, w_max]에서의 가중 값에 기초하여 W^{(k + 1)}가 형성되고 반복 프로세스는 단계 6으로 점프한다.

6. W^{(k + 1)}에 남아 있는 가중 값의 수가 2보다 더 크면, w_min 및 w_max는 W^{(k + 1)}에서의 최소 값 및 최대 값에 따라 리셋되고 반복 프로세스는 단계 1로 복귀한다; 그렇지 않으면, 반복 프로세스는 종료된다.

반복 프로세스가 중지된 이후, 모든 테스트 값 중에서 가장 낮은 ME 스테이지 비용을 달성하는 가중 값이, 일반화된 양 예측을 수행하기 위해 선택될 수도 있다.

비 2N×2N(non-2N×2N) 파티션에 대한 가중 값 추정.

몇몇 실시형태에서, 2N×2N 파티션에 대한 각각의 가중 값을 테스트한 이후, 0, 0.5 및 1 이외의 최상의 수행 가중 값은, 비 2N×2N 파티션의 최적의 가중 값에 대한 추정치로서의 역할을 할 수 있다. 몇몇 실시형태에서, n 개의 고유의 추정치가 있다는 것을 가정하면, 0, 0.5, 1와 동일한 가중 값 및 n 개의 추정치만이 비 2N×2N 파티션에 대해 평가된다.

비 2N×2N 파티션에 대한 파티션 사이즈 추정.

몇몇 실시형태에서, 비 2N×2N 파티션 모두가 예시적인 비디오 인코더에 의해 테스트되는 것은 아니다. 비 2N×2N 파티션은 다음의 두 개의 하위 카테고리로 분류될 수 있다: 2N×N 및 N×2N 파티션 타입을 갖는 대칭 모션 파티션(symmetric motion partitions; SMP) 및 2N×nU, 2N×nD, nL×2N 및 nR×2N 파티션 타입을 갖는 비대칭 모션 파티션(asymmetric motion partition; AMP). SMP의 파티션에 대한 레이트 왜곡(Rate-Distortion; R-D) 비용이 2N×2N의 것보다 더 적으면, AMP의 파티션 타입 중 일부가 인코더에서 평가될 것이다. AMP의 어떤 파티션 타입을 테스트할지의 결정은, R-D 비용의 관점에서, 2N×N 및 N×2N 중 어떤 것이 더 나은 성능을 나타내는지에 의존할 수도 있다. 2N×N의 레이트 왜곡 비용이 더 적으면, 파티션 타입, 2N×nU 및 2N×nD가 추가로 체크될 수도 있다; 그렇지 않으면(N×2N의 비용이 더 적으면), 파티션 타입 nLx2N 및 nR×2N이 추가로 체크될 수도 있다.

다중 패스 인코딩(multi-pass encoding)을 위한 빠른 파라미터 추정.

다중 패스 인코더를 사용하는 예시적인 실시형태에서, 이전의 인코딩 패스로부터 최적화되는 예측 파라미터(예컨대, 블록 모션 및 가중 값)가 후속하는 인코딩 패스에서 초기 파라미터 추정치로서 채택될 수 있다. 이러한 인코더에서, 픽처로부터 분할되는 코딩 블록은, 2 배 또는 그 이상으로 예측 및 인코딩될 수도 있어서, 인코딩 복잡도의 상당한 증가로 나타날 수도 있다. 이러한 복잡성을 감소시키기 위한 하나의 기술은, 초기 인코딩 패스로부터 최적화된 예측 파라미터를 버퍼링하고, 그들을 이어지는 인코딩 패스에서 추가적인 개선을 위한 초기 파라미터 추정치로서 취하는 것이다. 예를 들면, 인터 예측 모드가 초기 패스에서 최상의 모드가 되는 경우, 인코더는 인코딩 패스의 나머지에서 인터 예측 모드만을 평가한다. 몇몇 실시형태에서, W_L1 내의 가중 값의 선택, 선택된 가중 값과 관련되는 양 예측 MV, IC 플래그, OBMC 플래그, 정수 모션 벡터(Integer Motion Vector; IMV) 플래그 및 코딩된 블록 플래그(coded block flag; CBF)와 같은, GBi에 관련이 있는 예측 파라미터에 대해 버퍼링이 수행된다. 그러한 실시형태에서, 이들 버퍼링된 파라미터의 값은 이어지는 인코딩 패스에서 재사용될 수 있거나 또는 개선될 수 있다. 특히, 전술한 양 예측 MV가 취해지는 경우, 이들 MV는 양 예측 검색을 위한 초기 검색 위치로서 역할을 할 수 있다. 그 다음, 그들은 모션 추정 스테이지에서 개선될 것이게, 나중에, 다음 인코딩 패스에 대한 초기 검색 위치로서 취해질 것이다.

예시적인 비트스트림 통신 프레임워크.

도 16은 코딩된 비트스트림 구조의 한 예를 예시하는 개략적인 도면이다. 코딩된 비트스트림(1000)은 다수의 NAL(Network Abstraction layer; 네트워크 추상 레이어) 단위(1001)로 구성된다. NAL 단위는 코딩된 슬라이스(1006)와 같은 코딩된 샘플 데이터, 또는 파라미터 세트 데이터, 슬라이스 헤더 데이터(1005) 또는 보충 향상 정보 데이터(supplemental enhancement information data; 1007)(이것은 SEI 메시지로 칭해질 수도 있음)와 같은 하이 레벨 신택스 메타데이터를 포함할 수도 있다. 파라미터 세트는, 다수의 비트스트림 레이어에 적용될 수도 있는 필수 신택스 엘리먼트(예를 들면, 비디오 파라미터 세트(1002)(video parameter set; VPS)), 또는 하나의 레이어 내의 코딩된 비디오 시퀀스에 적용될 수도 있는 필수 신택스 엘리먼트(예를 들면, 시퀀스 파라미터 세트(1003)(SPS)), 또는 하나의 코딩된 비디오 시퀀스 내의 다수의 코딩된 픽처에 적용될 수도 있는 필수 신택스 엘리먼트(예를 들면, 픽처 파라미터 세트(1004)(PPS))를 포함하는 하이 레벨 신택스 구조이다. 파라미터 세트는 비디오 비트스트림의 코딩된 픽처와 함께 전송될 수 있거나, 또는 (신뢰 가능한 채널을 사용한 대역외 송신, 하드 코딩, 등등을 포함하는) 다른 수단을 통해 전송될 수 있다. 슬라이스 헤더(1005)도 또한, 소정의 슬라이스 또는 픽처 타입에만 관련되는 또는 상대적으로 적은 몇몇 관련 정보를 포함할 수도 있는 하이 레벨 신택스 구조이다. SEI 메시지(1007)는, 디코딩 프로세스에 의해 필요로 되지 않을 수도 있는 그러나 픽처 출력 타이밍 또는 디스플레이뿐만 아니라 손실 검출 및 은닉(concealment)과 같은 다양한 다른 목적을 위해 사용될 수 있는 정보를 반송한다(carry).

도 17은 통신 시스템의 예를 예시하는 개략적인 도면이다. 통신 시스템(1300)은 인코더(1302), 통신 네트워크(1304), 및 디코더(1306)를 포함할 수도 있다. 인코더(1302)는, 유선 연결 또는 무선 연결일 수도 있는 연결(1308)을 통해 네트워크(1304)와 통신할 수도 있다. 인코더(1302)는 도 1의 블록 기반의 비디오 인코더와 유사할 수도 있다. 인코더(1302)는 단일의 레이어 코덱(예를 들면, 도 1) 또는 다중레이어 코덱을 포함할 수도 있다. 예를 들면, 인코더(1302)는, 픽처 레벨 ILP 지원을 갖는 다중 레이어(예를 2 레이어) 스케일러블 코딩 시스템일 수도 있다. 디코더(1306)는, 유선 연결 또는 무선 연결일 수도 있는 연결(1310)을 통해 네트워크(1304)와 통신할 수도 있다. 디코더(1306)는 도 2의 블록 기반의 비디오 디코더와 유사할 수도 있다. 디코더(1306)는 단일 레이어 코덱(예를 들면, 도 2) 또는 다중레이어 코덱을 포함할 수도 있다. 예를 들면, 디코더(1306)는, 픽처 레벨 ILP 지원을 갖는 다중 레이어(예를 들면 2 레이어) 스케일러블 디코딩 시스템일 수도 있다.

인코더(1302) 및/또는 디코더(1306)는, 디지털 텔레비전, 무선 브로드캐스트 시스템, 네트워크 엘리먼트/단말, 서버, 예컨대 콘텐츠 또는 웹 서버(예를 들면, 하이퍼텍스트 전송 프로토콜(Hypertext Transfer Protocol; HTTP) 서버), 개인 휴대형 정보 단말(personal digital assistant; PDA), 랩탑 컴퓨터 또는 데스크탑 컴퓨터, 태블릿 컴퓨터, 디지털 카메라, 디지털 레코딩 디바이스, 비디오 게이밍 디바이스, 비디오 게임 콘솔, 셀룰러 또는 위성 무선 전화, 디지털 미디어 플레이어, 및/또는 등등과 같은 그러나 이들로 제한되지는 않는 아주 다양한 유선 통신 디바이스 및/또는 무선 송수신 유닛(WTRU)으로 통합될 수도 있다.

통신 네트워크(1304)는 적절한 타입의 통신 네트워크일 수도 있다. 예를 들면, 통신 네트워크(1304)는 음성, 데이터, 비디오, 메시징, 브로드캐스트, 등등과 같은 콘텐츠를 다수의 무선 유저에게 제공하는 다중 액세스 시스템일 수도 있다. 통신 시스템(1304)은, 무선 대역폭을 비롯한 시스템 리소스의 공유를 통해 다수의 무선 유저가 이러한 콘텐츠에 액세스하는 것을 가능하게 할 수도 있다. 예를 들면, 통신 시스템(1304)은, 코드 분할 다중 액세스(code division multiple access; CDMA), 시분할 다중 액세스(time division multiple access; TDMA), 주파수 분할 다중 액세스(frequency division multiple access; FDMA), 직교 FDMA(orthogonal FDMA; OFDMA), 싱글 캐리어 FDMA(single-carrier FDMA; SC-FDMA), 및/또는 등등과 같은 하나 이상의 채널 액세스 방법을 활용할 수도 있다. 통신 네트워크(1304)는 다수의 연결된 통신 네트워크를 포함할 수도 있다. 통신 네트워크(1304)는, 셀룰러 네트워크, 와이파이 핫스팟, 인터넷 서비스 제공자(Internet Service Provider; ISP) 네트워크, 및/또는 등등과 같은 하나 이상의 사설 상업 네트워크 및/또는 인터넷을 포함할 수도 있다.

도 18은 본원에서 설명되는 바와 같은 인코더 또는 디코더가 구현될 수도 있는 예시적인 WTRU의 시스템 도면이다. 도시되는 바와 같이, 예시적인 WTRU(1202)는 프로세서(1218), 트랜스시버(1220), 송신/수신 엘리먼트(1222), 스피커/마이크로폰(1224), 키패드 또는 키보드(1226), 디스플레이/터치패드(1228), 비착탈식 메모리(1230), 착탈식 메모리(1232), 전원(1234), 글로벌 포지셔닝 시스템(global positioning system; GPS) 칩셋(1236), 및/또는 다른 주변장치(1238)를 포함할 수도 있다. WTRU(1202)는 한 실시형태와 여전히 부합하면서 전술한 엘리먼트의 임의의 부조합을 포함할 수도 있다는 것이 인식될 것이다. 또한, 인코더(예를 들면 인코더(100)) 및/또는 디코더(예를 들면, 디코더(200))가 통합되는 단말은, 도 18의 WTRU(1202)를 참조로 본원에서 묘사되고 설명되는 엘리먼트 중 일부 또는 전체를 포함할 수도 있다.

프로세서(1218)는 범용 프로세서, 특수 목적의 프로세서, 종래의 프로세서, 디지털 신호 프로세서(digital signal processor; DSP), 그래픽 프로세싱 유닛(graphics processing unit; GPU), 복수의 마이크로프로세서, DSP 코어와 관련하는 하나 이상의 마이크로프로세서, 컨트롤러, 마이크로컨트롤러, 주문형 반도체(Application Specific Integrated Circuit; ASIC), 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array; FPGA) 회로, 임의의 다른 타입의 집적 회로(integrated circuit; IC), 상태 머신, 및 등등일 수도 있다. 프로세서(1218)는 신호 코딩, 데이터 프로세싱, 전력 제어, 입력/출력 프로세싱, 및/또는 WTRU(1202)가 유선 및/또는 무선 환경에서 동작하는 것을 가능하게 하는 임의의 다른 기능성을 수행할 수도 있다. 프로세서(1218)는, 송신/수신 엘리먼트(1222)에 커플링될 수도 있는 트랜스시버(1220)에 커플링될 수도 있다. 도 18이 프로세서(1218) 및 트랜스시버(1220)를 별개의 컴포넌트로서 묘사하지만, 프로세서(1218) 및 트랜스시버(1220)는 전자적 패키지 및/또는 칩에 함께 집적될 수도 있다는 것이 인식될 것이다.

송신/수신 엘리먼트(1222)는 무선 인터페이스(1215)를 통해 다른 단말로 신호를 송신하도록, 및/또는 그 다른 단말로부터 신호를 수신하도록 구성될 수도 있다. 예를 들면, 하나 이상의 실시형태에서, 송신/수신 엘리먼트(1222)는 RF 신호를 송신하도록 및/또는 수신하도록 구성되는 안테나일 수도 있다. 하나 이상의 실시형태에서, 송신/수신 엘리먼트(1222)는, 예를 들면, IR, UV, 또는 가시광 신호를 송신 및/또는 수신하도록 구성되는 방출기(emitter)/검출기(detector)일 수도 있다. 하나 이상의 실시형태에서, 송신/수신 엘리먼트(1222)는 RF 및 광 신호 둘 모두를 송신 및/또는 수신하도록 구성될 수도 있다. 송신/수신 엘리먼트(1222)는 무선 신호의 임의의 조합을 송신하도록 및/또는 수신하도록 구성될 수도 있다는 것이 인식될 것이다.

또한, 비록 송신/수신 엘리먼트(1222)가 도 18에서 단일의 엘리먼트로서 묘사되지만, WTRU(1202)는 임의의 수의 송신/수신 엘리먼트(1222)를 포함할 수도 있다. 더 구체적으로는, WTRU(1202)는 MIMO 기술을 활용할 수도 있다. 따라서, 하나의 실시형태에서, WTRU(1202)는, 무선 인터페이스(air interface)(1215)를 통해 무선 신호를 송신 및 수신하기 위한 두 개 이상의 송신/수신 엘리먼트(1222)(예를 들면, 다수의 안테나)를 포함할 수도 있다.

트랜스시버(1220)는, 송신/수신 엘리먼트(1222)에 의해 송신될 신호를 변조하도록 및/또는 송신/수신 엘리먼트(1222)에 의해 수신되는 신호를 복조하도록 구성될 수도 있다. 상기에서 언급되는 바와 같이, WTRU(1202)는 다중 모드 성능을 가질 수도 있다. 따라서, 트랜스시버(1220)는, WTRU(1202)가, 예를 들면, UTRA 및 IEEE 802.11과 같은 다수의 RAT를 통해 통신하는 것을 가능하게 하기 위한 다수의 트랜스시버를 포함할 수도 있다.

WTRU(1202)의 프로세서(1218)는, 스피커/마이크로폰(1224), 키패드(1226), 및/또는 디스플레이/터치패드(1228)(예를 들면, 액정 디스플레이(liquid crystal display; LCD) 디스플레이 유닛 또는 유기 발광 다이오드(organic light-emitting diode; OLED) 디스플레이 유닛)에 커플링될 수도 있고, 그리고 이들로부터 유저 입력 데이터를 수신할 수도 있다. 프로세서(1218)는 유저 데이터를 스피커/마이크로폰(1224), 키패드(1226), 및/또는 디스플레이/터치패드(1228)로 또한 출력할 수도 있다. 또한, 프로세서(1218)는, 비착탈식 메모리(1230) 및/또는 착탈식 메모리(1232)와 같은 임의의 타입의 적절한 메모리의 정보에 액세스할 수도 있고, 그리고 그 임의의 타입의 적절한 메모리에 데이터를 저장할 수도 있다. 비착탈식 메모리(1230)는 랜덤 액세스 메모리(random-access memory; RAM), 리드 온리 메모리(read-only memory; ROM), 하드디스크, 또는 임의의 다른 타입의 메모리 저장 디바이스를 포함할 수도 있다. 착탈식 메모리(1232)는 가입자 식별 모듈(subscriber identity module; SIM) 카드, 메모리 스틱, 시큐어 디지털(secure digital; SD) 메모리 카드, 및 등등을 포함할 수도 있다. 하나 이상의 실시형태에서, 프로세서(1218)는, WTRU(1202) 상에 물리적으로 위치되지 않는 메모리, 예컨대 서버 또는 가정용 컴퓨터(도시되지 않음) 상의 메모리의 정보에 액세스할 수도 있고, 그리고 그 메모리에 데이터를 저장할 수도 있다.

프로세서(1218)는 전원(1234)으로부터 전력을 수신할 수도 있고, WTRU(1202)의 다른 컴포넌트로 전력을 분배하도록 및/또는 그 전력을 제어하도록 구성될 수도 있다. 전원(1234)은 WTRU(1202)에 전력을 공급하기 위한 임의의 적절한 디바이스일 수도 있다. 예를 들면, 전원(1234)은 하나 이상의 드라이 셀 배터리(예를 들면, 니켈 카드뮴(NiCd), 니켈 아연(NiZn), 니켈 금속 수소(NiMH), 리튬 이온(Li ion), 등등), 솔라 셀, 연료 전지, 및 등등을 포함할 수도 있다.

프로세서(1218)는, WTRU(1202)의 현재 위치에 관한 위치 정보(예를 들면, 경도 및 위도)를 제공하도록 구성될 수도 있는 GPS 칩셋(1236)에 또한 커플링될 수도 있다. 또한, GPS 칩셋(1236)으로부터의 정보 외에, 또는 그 정보 대신, WTRU(1202)는 무선 인터페이스(1215)를 통해 단말(예를 들면, 기지국)으로부터 위치 정보를 수신할 수도 있고 및/또는 두 개 이상의 가까운 기지국으로부터 수신되고 있는 신호의 타이밍에 기초하여 자신의 위치를 결정할 수도 있다. WTRU(1202)는 한 실시형태와 여전히 부합하면서 임의의 적절한 위치 결정 방법을 통해 위치 정보를 획득할 수도 있다는 것이 인식될 것이다.

프로세서(1218)는 또한, 추가적인 피쳐, 기능성, 및/또는 유선 또는 무선 연결성을 제공하는 하나 이상의 소프트웨어 및/또는 하드웨어 모듈을 포함할 수도 있는 다른 주변장치(1238)에 커플링될 수도 있다. 예를 들면, 주변장치(1238)는, 가속도계, 방위 센서, 모션 센서, 근접 센서, 전자 콤파스, 위성 트랜스시버,(사진 및/또는 비디오용의) 디지털 카메라 및/또는 비디오 레코더, 범용 직렬 버스(universal serial bus; USB) 포트, 진동 디바이스, 텔레비전 트랜스시버, 핸즈프리 헤드셋, Bluetooth®모듈, 주파수 변조(frequency modulated; FM) 무선 유닛, 및 소프트웨어 모듈 예컨대 디지털 뮤직 플레이어, 미디어 플레이어, 비디오 게임 플레이어 모듈, 인터넷 브라우저, 및 등등을 포함할 수도 있다.

예로서, WTRU(1202)는 무선 신호를 송신 및/또는 수신하도록 구성될 수도 있고 유저 기기(user equipment; UE), 이동국, 고정식 또는 이동식 가입자 유닛, 페이저, 셀룰러 전화, 개인 휴대형 정보 단말(PDA), 스마트폰, 랩탑, 넷북, 태블릿 컴퓨터, 퍼스널 컴퓨터, 무선 센서, 가전기기(consumer electronics), 또는 압축된 비디오 통신을 수신 및 프로세싱할 수도 있는 임의의 다른 단말을 포함할 수도 있다.

WTRU(1202) 및/또는 통신 네트워크(예를 들면, 통신 네트워크(1304))는, 광대역 CDMA(wideband CDMA; WCDMA)를 사용하여 무선 인터페이스(1215)를 확립할 수도 있는 무선 기술 예컨대 범용 이동 통신 시스템(Universal Mobile Telecommunications System; UMTS) 지상 무선 액세스(Terrestrial Radio Access)(UTRA)를 구현할 수도 있다. WCDMA는 고속 패킷 액세스(High-Speed Packet Access; HSPA) 및/또는 진화된 HSPA(Evolved HSPA; HSPA+)와 같은 통신 프로토콜을 포함할 수도 있다. HSPA는 고속 다운링크 패킷 액세스(High-Speed Downlink Packet Access; HSDPA) 및/또는 고속 업링크 패킷 액세스(High-Speed Uplink Packet Access; HSUPA)를 포함할 수도 있다. WTRU(1202) 및/또는 통신 네트워크(예를 들면, 통신 네트워크(1304))는, 롱 텀 에볼루션(Long Term Evolution; LTE) 및/또는 LTE 어드밴스드(LTE-Advanced; LTE-A)를 사용하여 무선 인터페이스(1215)를 확립할 수도 있는 무선 기술 예컨대 진화된 UMTS 지상 무선 액세스(Evolved UMTS Terrestrial Radio Access; E-UTRA)를 구현할 수도 있다.

WTRU(1202) 및/또는 통신 네트워크(예를 들면, 통신 네트워크(1304))는, IEEE 802.16(예를 들면, 와이맥스(Worldwide Interoperability for Microwave Access; WiMAX)), CDMA2000, CDMA2000 1X, CDMA2000 EV-DO, IS-2000(Interim Standard 2000), IS-95(Interim Standard 95), IS-856(Interim Standard 856), 이동 통신용 글로벌 시스템(Global System for Mobile communications; GSM), GSM 에볼루션을 위한 향상된 데이터 레이트(Enhanced Data rates for GSM Evolution; EDGE), GSM EDGE(GERAN), 및 등등과 같은 무선 기술을 구현할 수도 있다. WTRU(1202) 및/또는 통신 네트워크(예를 들면, 통신 네트워크(1304))는 IEEE 802.11, IEEE 802.15, 또는 등등과 같은 무선 기술을 구현할 수도 있다.

설명된 실시형태 중 하나 이상의 실시형태의 다양한 하드웨어 엘리먼트는, 각각의 모듈과 관련하여 본원에서 설명되는 다양한 기능을 수행하는(carry out)(즉, 수행하는(perform), 실행하는, 및 등등을 하는)하는 "모듈"로 지칭된다는 것을 유의한다. 본원에서 사용되는 바와 같이, 모듈은, 주어진 구현을 위한 관련 기술 분야에서 숙련된 자에 의해 적절한 것으로 간주되는 하드웨어(예를 들면, 하나 이상의 프로세서, 하나 이상의 마이크로프로세서, 하나 이상의 마이크로컨트롤러, 하나 이상의 마이크로칩, 하나 이상의 주문형 반도체(ASIC), 하나 이상의 필드 프로그래머블 게이트 어레이(FPGA), 하나 이상의 메모리 디바이스)를 포함한다. 각각의 설명된 모듈은 또한, 각각의 모듈에 의해 수행되는 것으로 설명되는 하나 이상의 기능을 수행하도록 실행 가능한 명령어를 포함할 수도 있고, 그들 명령어는 하드웨어(즉, 하드웨어에 내장되는) 명령어, 펌웨어 명령어, 소프트웨어 명령어, 및/또는 등등의 형태를 취할 수 있거나 또는 그들을 포함할 수 있으며, RAM, ROM, 등등으로 일반적으로 칭해지는 것과 같은, 임의의 적절한 비일시적 컴퓨터 판독가능 매체 또는 매체들에 저장될 수도 있다는 것을 유의한다.

비록 피쳐 및 엘리먼트가 특정한 조합으로 상기에서 설명되었지만, 기술 분야에서 통상의 지식을 가진 자는, 각각의 피쳐 또는 엘리먼트는 단독으로 또는 다른 피쳐 및 엘리먼트와 임의의 조합으로 사용될 수 있다는 것을 인식할 것이다. 또한, 본원에서 설명되는 방법은, 컴퓨터 또는 프로세서에 의한 실행을 위해 컴퓨터 판독가능한 매체에 통합되는 컴퓨터 프로그램, 소프트웨어, 또는 펌웨어로 구현될 수도 있다. 컴퓨터 판독가능한 매체의 예는 전자 신호(유선 또는 무선 연결을 통해 송신됨) 및 컴퓨터 판독가능한 저장 매체를 포함한다. 컴퓨터 판독가능한 저장 매체의 예는, 리드 온리 메모리(ROM), 랜덤 액세스 메모리(RAM), 레지스터, 캐시 메모리, 반도체 메모리 디바이스, 내장 하드 디스크 및 착탈식 디스크와 같은 자기 매체, 광자기 매체, 및 CD-ROM 디스크 및 디지털 다기능 디스크(digital versatile disk; DVD)와 같은 광학 매체를 포함하지만, 그러나 이들로 제한되지는 않는다. 소프트웨어와 관련하는 프로세서는, WTRU, UE, 단말, 기지국, RNC, 또는 임의의 호스트 컴퓨터에서 사용하기 위한 무선 주파수 트랜스시버를 구현하기 위해 사용될 수도 있다.

Claims

비디오 인코딩 방법으로서,
현재 픽처 내의 적어도 현재 블록에 대해, 제1 가중치 및 제2 가중치를 식별하는 블록 레벨 정보를 인코딩하는 단계 - 상기 제1 가중치 및 제2 가중치 중 적어도 하나는 0, 0.5 또는 1과 동일하지 않은 값을 가짐 - ; 및
상기 현재 블록 내의 각각의 서브블록에 대해:
상기 현재 블록의 아핀(affine) 모션 모델에 기초하여, 제1 서브블록 모션 벡터 및 제2 서브블록 모션 벡터를 획득하는 단계; 및
상기 서브블록을, 상기 제1 서브블록 모션 벡터에 의해 가리켜지는 제1 참조 픽처(reference picture) 내의 제1 참조 블록과 상기 제2 서브블록 모션 벡터에 의해 가리켜지는 제2 참조 픽처 내의 제2 참조 블록의 가중된 합으로서 예측하는 단계 - 상기 제1 참조 블록은 상기 제1 가중치에 의해 가중되고, 상기 제2 참조 블록은 제2 가중치에 의해 가중됨 -
를 포함하고,
상기 제1 가중치 및 상기 제2 가중치는 상기 현재 블록 내의 서브블록들의 각각에 걸쳐 공유되는 것인, 방법.
제1항에 있어서,
상기 블록 레벨 정보를 인코딩하는 단계는 잘려진 1진 코드(truncated unary code)를 사용하여 코드워드에 가중치 인덱스(weight index)를 매핑하는 단계 및 비트스트림에 상기 코드워드를 엔트로피 인코딩하는 단계를 포함하는 것인, 방법.
제1항에 있어서,
상기 현재 블록의 예측은 상기 현재 블록 내의 각각의 서브블록의 예측을 포함하고,
잔차(residual)를 생성하기 위해, 입력 블록으로부터 상기 현재 블록의 예측을 감산하는 단계; 및
상기 현재 픽처에 대한 비트스트림에 상기 잔차를 인코딩하는 단계
를 더 포함하는 방법.
비디오 디코딩 방법으로서,
현재 픽처 내의 적어도 현재 블록에 대해, 제1 가중치 및 제2 가중치를 식별하는 블록 레벨 정보를 디코딩하는 단계 - 상기 제1 가중치 및 제2 가중치 중 적어도 하나는 0, 0.5 또는 1과 동일하지 않은 값을 가짐 - ; 및
상기 현재 블록 내의 각각의 서브블록에 대해:
상기 현재 블록의 아핀(affine) 모션 모델에 기초하여, 제1 서브블록 모션 벡터 및 제2 서브블록 모션 벡터를 획득하는 단계; 및
상기 서브블록을, 상기 제1 서브블록 모션 벡터에 의해 가리켜지는 제1 참조 픽처(reference picture) 내의 제1 참조 블록과 상기 제2 서브블록 모션 벡터에 의해 가리켜지는 제2 참조 픽처 내의 제2 참조 블록의 가중된 합으로서 예측하는 단계 - 상기 제1 참조 블록은 상기 제1 가중치에 의해 가중되고, 상기 제2 참조 블록은 제2 가중치에 의해 가중됨 -
를 포함하고,
상기 제1 가중치 및 상기 제2 가중치는 상기 현재 블록 내의 서브블록들의 각각에 걸쳐 공유되는 것인, 방법.
제4항에 있어서,
상기 블록 레벨 정보를 디코딩하는 단계는 비트스트림으로부터의 코드워드를 엔트로피 디코딩하는 단계 및 잘려진 1진 코드(truncated unary code)를 사용하여 상기 코드워드로부터 가중치 인덱스(weight index)를 복구하는 단계를 포함하는 것인, 방법.
제4항에 있어서,
상기 현재 블록의 예측은 상기 현재 블록 내의 각각의 서브블록의 예측을 포함하고,
상기 현재 픽처에 대한 비트스트림으로부터 상기 현재 블록에 대한 잔차를 디코딩하는 단계; 및
재구성된 블록을 생성하기 위해 상기 예측된 현재 블록에 상기 잔차를 가산하는 단계
를 더 포함하는 방법.
제1항 또는 제4항에 있어서,
상기 제2 가중치는 1로부터 상기 제1 가중치를 감산함으로써 식별되는 것인, 방법.
제1항 또는 제4항에 있어서,
상기 제1 가중치 및 상기 제2 가중치는 미리 결정된 세트의 가중치들 중으로부터 식별되는 것인, 방법.
프로세서를 포함하는 비디오 인코딩 장치로서, 상기 프로세서는 적어도:
현재 픽처 내의 적어도 현재 블록에 대해, 제1 가중치 및 제2 가중치를 식별하는 블록 레벨 정보를 인코딩하는 것 - 상기 제1 가중치 및 제2 가중치 중 적어도 하나는 0, 0.5 또는 1과 동일하지 않은 값을 가짐 - ; 및
상기 현재 블록 내의 각각의 서브블록에 대해:
상기 현재 블록의 아핀(affine) 모션 모델에 기초하여, 제1 서브블록 모션 벡터 및 제2 서브블록 모션 벡터를 획득하는 것; 및
상기 서브블록을, 상기 제1 서브블록 모션 벡터에 의해 가리켜지는 제1 참조 픽처(reference picture) 내의 제1 참조 블록과 상기 제2 서브블록 모션 벡터에 의해 가리켜지는 제2 참조 픽처 내의 제2 참조 블록의 가중된 합으로서 예측하는 것 - 상기 제1 참조 블록은 상기 제1 가중치에 의해 가중되고, 상기 제2 참조 블록은 제2 가중치에 의해 가중됨 -
을 수행하도록 구성되고,
상기 제1 가중치 및 상기 제2 가중치는 상기 현재 블록 내의 서브블록들의 각각에 걸쳐 공유되는 것인, 장치.
제9항에 있어서,
상기 블록 레벨 정보를 인코딩하는 것은 잘려진 1진 코드(truncated unary code)를 사용하여 코드워드에 가중치 인덱스(weight index)를 매핑하는 것 및 비트스트림에 상기 코드워드를 엔트로피 인코딩하는 것을 포함하는 것인, 장치.
제9항에 있어서,
상기 현재 블록의 예측은 상기 현재 블록 내의 각각의 서브블록의 예측을 포함하고, 상기 프로세서는 또한,
잔차(residual)를 생성하기 위해, 입력 블록으로부터 상기 현재 블록의 예측을 감산하는 것; 및
상기 현재 픽처에 대한 비트스트림에 상기 잔차를 인코딩하는 것
을 수행하도록 구성되는 것인, 장치.
프로세서를 포함하는 비디오 디코딩 장치로서, 상기 프로세서는 적어도:
현재 픽처 내의 적어도 현재 블록에 대해, 제1 가중치 및 제2 가중치를 식별하는 블록 레벨 정보를 디코딩하는 것 - 상기 제1 가중치 및 제2 가중치 중 적어도 하나는 0, 0.5 또는 1과 동일하지 않은 값을 가짐 - ; 및
상기 현재 블록 내의 각각의 서브블록에 대해:
상기 현재 블록의 아핀(affine) 모션 모델에 기초하여, 제1 서브블록 모션 벡터 및 제2 서브블록 모션 벡터를 획득하는 것; 및
상기 서브블록을, 상기 제1 서브블록 모션 벡터에 의해 가리켜지는 제1 참조 픽처(reference picture) 내의 제1 참조 블록과 상기 제2 서브블록 모션 벡터에 의해 가리켜지는 제2 참조 픽처 내의 제2 참조 블록의 가중된 합으로서 예측하는 것 - 상기 제1 참조 블록은 상기 제1 가중치에 의해 가중되고, 상기 제2 참조 블록은 제2 가중치에 의해 가중됨 -
을 수행하도록 구성되고,
상기 제1 가중치 및 상기 제2 가중치는 상기 현재 블록 내의 서브블록들의 각각에 걸쳐 공유되는 것인, 장치.
제12항에 있어서,
상기 블록 레벨 정보를 디코딩하는 것은 비트스트림으로부터의 코드워드를 엔트로피 디코딩하는 것 및 잘려진 1진 코드(truncated unary code)를 사용하여 상기 코드워드로부터 가중치 인덱스(weight index)를 복구하는 것을 포함하는 것인, 장치.
제12항에 있어서,
상기 현재 블록의 예측은 상기 현재 블록 내의 각각의 서브블록의 예측을 포함하고, 상기 프로세서는 또한:
상기 현재 픽처에 대한 비트스트림으로부터 상기 현재 블록에 대한 잔차를 디코딩하는 것; 및
재구성된 블록을 생성하기 위해 상기 예측된 현재 블록에 상기 잔차를 가산하는 것
을 수행하도록 구성되는 것인, 장치.
제9항 또는 제12항에 있어서,
상기 제2 가중치는 1로부터 상기 제1 가중치를 감산함으로써 식별되는 것인, 장치.
제9항 또는 제12항에 있어서,
상기 제1 가중치 및 상기 제2 가중치는 미리 결정된 세트의 가중치들 중으로부터 식별되는 것인, 장치.
하나 이상의 프로세서로 하여금 제1항 또는 제4항의 방법을 수행하게 하는 명령어를 포함하는 컴퓨터 판독가능 매체.