KR20220047725A

KR20220047725A - 암시적 다중 변환 선택을 위한 변환 선택

Info

Publication number: KR20220047725A
Application number: KR1020217039461A
Authority: KR
Inventors: 카람 나서; 파브리체 르레안넥; 탄기 포이리에르
Original assignee: 인터디지털 브이씨 홀딩스 인코포레이티드
Priority date: 2019-05-31
Filing date: 2020-05-28
Publication date: 2022-04-19
Also published as: EP3977732A1; CN113950834A; WO2020243258A1; US20220312040A1; SG11202113262WA; JP2022534999A; CA3141992A1

Abstract

비디오 압축 스킴에서 압축 효율을 향상시키는 방법 및 장치가 다중 변환 선택을 갖는 새로운 도구들의 사용을 가능하게 해준다. 일 실시예에서, 변환 쌍 선택은 저주파수 분리가능하지 않은 변환들을 나타내는 플래그에 기초한다. 또 다른 실시예에서, 변환 쌍 선택은 저주파수 분리가능하지 않은 변환들을 나타내는 플래그에 그리고 행렬 기반 인트라 예측을 나타내는 플래그에 기초한다. 또 다른 실시예에서, 암시적 다중 변환 선택 모드가 사용될 때, 변환 쌍 선택은 저주파수 분리가능하지 않은 변환들을 나타내는 플래그에 기초한다. 비트스트림 신택스가 플래그들을 운반하기 위해 사용된다.

Description

암시적 다중 변환 선택을 위한 변환 선택

본 실시예들 중 적어도 하나는 일반적으로 비디오 인코딩 또는 디코딩을 위한 방법 또는 장치에 관한 것이다.

높은 압축 효율을 달성하기 위해, 이미지 및 비디오 코딩 스킴들은 보통은 공간 및/또는 모션 벡터 예측을 포함하는 예측, 및 비디오 콘텐츠 내의 공간적 및 시간적 중복성을 이용하기 위한 변환들을 채택한다. 일반적으로, 인트라 또는 인터 예측은 인트라 또는 인터 프레임 상관을 활용하기 위해 사용되며, 그러면 종종 예측 오류들 또는 예측 잔차들이라고 표시되는 원래의 이미지와 예측된 이미지 사이의 차이들이 변환되며, 양자화되고, 엔트로피 코딩된다. 비디오를 재구성하기 위해, 압축된 데이터는 엔트로피 코딩, 양자화, 변환, 및 예측에 대응하는 역 프로세스들에 의해 디코딩된다. 변환들 및 역변환들을 포함하는 다수의 코딩 도구가 코딩 및 디코딩 프로세스에서 사용될 수 있다.

종래 기술의 결점들 및 단점들이 인코딩 및 디코딩에서 블록 형상 적응적 인트라 예측 방향들에 관한, 본 명세서에 설명된 일반적인 양태들에 의해 해결될 수 있다.

제1 양태에 따르면, 방법이 제공된다. 방법은 비트스트림에서 적어도 하나의 비디오 블록을 인코딩하기 위해 암시적 변환 선택 모드가 사용될 때 다중 변환 선택 모드의 사용을 나타내는 신택스 정보를 설정하는 단계; 상기 신택스 정보에 대응하는 적어도 하나의 변환을 이용하여 상기 적어도 하나의 비디오 블록을 인코딩하고; 및 상기 인코딩된 적어도 하나의 비디오 블록을 포함하는 상기 비트스트림을 저장, 운반, 또는 송신하는 단계를 포함한다.

제2 양태에 따르면, 방법이 제공된다. 방법은 비디오 블록들을 디코딩하기 위해 암시적 변환 선택 모드가 사용될 때 다중 변환 선택 모드의 사용을 나타내는 신택스 정보에 대해 비트스트림을 파싱하는 단계; 및 암시적 변환 선택 모드가 사용될 때 상기 신택스 정보에 대응하는 다중 변환 선택 모드 중 적어도 하나의 변환을 사용하여 상기 비트스트림에서 적어도 하나의 비디오 블록을 디코딩하는 단계를 포함한다.

또 다른 양태에 따르면 장치가 제공된다. 장치는 프로세서를 포함한다. 프로세서는 전술한 방법들 중 임의의 것을 실행함으로써 비디오의 블록을 인코딩하거나 비트스트림을 디코딩하도록 구성될 수 있다.

적어도 하나의 실시예의 또 다른 일반적인 양태에 따르면, 디바이스가 제공되는데, 이 디바이스는 디코딩 실시예들 중 임의의 것에 따른 장치; 및 (i) 신호를 수신하도록 구성된 안테나- 신호는 비디오 블록을 포함함 -, (ii) 수신된 신호를 비디오 블록을 포함하는 주파수들의 대역으로 제한하도록 구성된 대역 제한기, 또는 (iii) 비디오 블록을 나타내는 출력을 디스플레이하도록 구성된 디스플레이 중 적어도 하나를 포함한다.

적어도 하나의 실시예의 또 다른 일반적인 양태에 따르면, 설명된 인코딩 실시예들 또는 변형들 중 임의의 것에 따라 생성된 데이터 콘텐츠를 포함하는 비일시적 컴퓨터 판독가능 매체가 제공된다.

적어도 하나의 실시예의 또 다른 일반적인 양태에 따르면, 설명된 인코딩 실시예들 또는 변형들 중 임의의 것에 따라 생성된 비디오 데이터를 포함하는 신호가 제공된다.

적어도 하나의 실시예의 또 다른 일반적인 양태에 따르면, 비트스트림은 설명된 인코딩 실시예들 또는 변형들 중 임의의 것에 따라 생성된 데이터 콘텐츠를 포함하도록 포맷팅된다.

적어도 하나의 실시예의 또 다른 일반적인 양태에 따르면, 프로그램이 컴퓨터에 의해 실행될 때, 컴퓨터로 하여금 설명된 디코딩 실시예들 또는 변형들 중 임의의 것을 수행하게 야기하는 명령어들을 포함하는 컴퓨터 프로그램 제품이 제공된다.

이들 및 다른 양태, 일반적 양태들의 특징 및 이점은 첨부 도면과 관련하여 읽혀질 것인, 예시적인 실시예들에 대한 이하의 상세한 설명으로부터 분명해질 것이다.

도 1은 표준 일반 비디오 압축 스킴을 도시한다.
도 2는 표준 일반 비디오 압축 스킴을 도시한다.
도 3은 LFNST 플래그에 좌우되어 변환 쌍들을 선택하기 위한 제안된 방법의 예시적인 흐름도를 도시한다.
도 4는 LFNST 플래그 및 MIP 플래그에 좌우되어 변환 쌍들을 선택하기 위한 제안된 방법의 예시적인 흐름도를 도시한다.
도 5는 LFNST CU 플래그 및 MIP CU 플래그에 좌우되어 변환 쌍들을 선택하기 위한 제안된 방법의 예시적인 흐름도를 도시한다.
도 6은 LFNST CU 플래그에 좌우되어 변환 쌍들을 선택하기 위한 제안된 방법의 예시적인 흐름도를 도시한다.
도 7은 설명된 일반적인 양태들 하에서의 인코딩 방법의 일 실시예를 도시한다.
도 8은 설명된 일반적인 양태들 하에서의 디코딩 방법의 일 실시예를 도시한다.
도 9는 인트라 예측 모드 확장을 이용한 인코딩 또는 디코딩을 위한 장치의 일 실시예를 도시한다.
도 10은 설명된 실시예들이 구현될 수 있는 전형적인 프로세서 배열을 도시한다.

다음의 일반적인 양태들은 비디오 압축 분야에 속해 있다. 이들은 다가오는 비디오 압축 표준인 VVC(Versatile Video Coding)의 압축 효율을 향상시키는 것을 목표로 한다. VTM(VVC(Versatile Video coding) test model)은 비디오 압축을 개선하기 위한 표준화 노력이다. 구체적으로는, 이 양태들은 이 표준의 변환 설계에 영향을 미치며, 여기서 2개의 도구, 즉 LFNST(Low-frequency Non-Separable Transform) 및 MIP(Matrix-based intra prediction)를 채택하기 때문에 압축 부족이 새로 도입된다.

DCT2에 부가하여, VVC 변환 설계는 DCT8 및 DST7인 다른 변환들을 포함하고, 여기서 그 전체가 다중 변환 선택(multiple transform selection, MTS)이라고 알려져 있다. 코더는 정의된 변환들: DCT2, DST7 및 DCT8의 하나의 조합을 선택할 수 있다. 수평 및 수직 변환들의 가능한 쌍들은 다음과 같다:

MTS는 그것을 비활성화할 수 있는 SPS(Sequence Parameter Set) 플래그에 의해 제어되고, {DCT2, DCT2}의 쌍만이 고려된다.

MTS 플래그가 인에이블될 때, MTS-off 경우에 비해 약 1.7%의 코딩 이득이 달성되는 반면, 다중의 후보 간의 RDO(Rate Distortion Optimization) 경쟁으로 인해 큰 인코딩 시간이 필요하며, 이는 시간 소모적이다. 대안적으로, MTSImplicit라고 명명된 또 다른 변환 시그널링 모드가 VVC에서 최근에 채택되었다. 이 모드에서, 변환 선택은 변환 블록의 치수에 좌우되어 미리 정의된다(암시적). VVC의 사양에서, MTSImplicit를 갖는 루마 블록들에 대한 변환의 선택은 다음과 같다:

동일한 선택 메커니즘이 인트라-서브파티셔닝(intra-subpartioning, ISP)에 대해 사용된다. 이러한 타입의 선택은 DCT2와 DST7 사이의 조합들인 새로운 쌍들을 생성한다. 다음의 표는 이들이 발생하는 경우들을 요약한다:

최근에, 2개의 새로운 코딩 도구가 JVET(Joint Video Experts Team) 표준에 채택되었다. 첫 번째는 이전에 NSST(non-separable secondary transform)로 알려진 LFNST(Low Frequency Non-Separable Transform)이다. 이것은 변환 도메인에서 중복성을 고려하고 "또 다른" 분리가능하지 않은 변환을 적용하여 양자화되고 코딩될 잔차들의 희소 표현(sparse representation)을 산출하는 효율적인 도구이다. VVC 테스트 모델 VTM-5.0의 버전에서는, 2개의 LFNST 변환 세트가 정의된다. 하나의 변환 세트는 큰 잔차 블록들에 대한 것이고, 다른 것은 작은 잔차 블록들에 대한 것이다. 각각의 세트에 대해, 4개의 변환 그룹이 정의되고, 여기서 각각의 그룹은 2개의 변환 행렬을 포함한다. 그룹의 선택은 인트라-예측 모드에 좌우되고, 변환 인덱스는 비트스트림으로 코딩된다.

DCT2, DST7 및 DCT8인 1차 변환들과는 달리, LFSNT는 훈련된 변환이다. 다시 말해서, LFNST의 기저 함수들은 잔차 데이터의 몇몇 큰 데이터세트로부터 학습함으로써 획득된다. 데이터세트의 성질 및 훈련 방법은 어느 공개 문서에도 설명되지 않는다.

제2 도구는 MIP(Matrix based Intra Prediction)이다. 이것은 또한 그것의 이웃하는 참조 샘플들로부터 블록을 예측하는 훈련된 도구이다. 이것은 기존의 인트라 예측에 대한 확장으로서 고려될 수 있고, 여기서 예측 신호는 예측 방향을 따른 단순한 카피가 아니라 행렬로 참조 샘플들을 곱함으로써 생성된다. LFNST와 유사하게, 곱셈에 대해 사용되는 행렬들은 훈련된 행렬들인데, 이들을 획득하기 위해 사용되는 데이터세트에 관한 설명은 없다.

MTSImplicit 변환 설계와의 이들 도구의 상호작용을 이해하기 위해, 시뮬레이션이 공통 테스트 조건으로 VTM-5.0을 사용하여 실행되었다. 간결성을 위해, 하나의 프레임 인트라 코딩을 이용한 시뮬레이션 결과들이 제시된다. 앵커는 MTS가 디스에이블된(--MTS=0) VTM-5.0이고 테스트는 암시적 변환 설계(--MTS=0 --MTSImplicit=1)이다. 결과는 하기 표에 보여져 있다:

알 수 있는 바와 같이, 암시적 변환 설계의 예상된 이득 대신에 0.3%의 손실이 있다. 2개의 새로운 도구가 비활성화될 때 코딩 이득을 검증하기 위해 또 다른 테스트가 수행된다. 즉, 앵커 및 테스트들은 동일하지만 LFNST 및 MIP는 0에 설정된다. 결과가 하기 표에 제공된다:

따라서, 새로운 도구들이 스위치 오프될 때 예상된 이득이 유지된다고 결론내릴 수 있다.

도구들 각각의 영향을 이해하기 위해, 2개의 도구가 개별적으로 비활성화된다. 하기 표는 LFNST만을 제로로 스위칭하고 MIP를 활성화된 상태로 유지한 결과들을 제시한다:

그리고 하기 표는 MIP가 오프이고 LFNST가 오프인 경우에 대한 것이다.

시뮬레이션 결과들로부터, MIP 및/또는 LFNST는 암시적 변환 설계와 양립하지 않는다는 것이 관찰될 수 있다. 그러나, LFNST의 영향은 MIP보다 훨씬 더 심각하다. 비양립성의 이유는 그 도구들이 MTSImplicit 도구에서 지정된 새로운 변환 쌍들을 갖지 않는 잔차들로 훈련된다는 것이다. 실제로, MTSImplicit는 이들 2개의 도구와 조합되어 사용될 때 코딩 효율의 손실을 초래한다.

설명된 일반적인 양태들은 MTSImplicit 손실 문제를 해결하고 도구들 LFNST 및 MIP와의 상호작용을 고려함으로써 ImplicitMTS의 변환 설계를 개선한다. MTSImplicit 설계는 새로 추가된 도구들인 LFNST 및 MIP와 잘 들어맞지 않는다. 이 문제를 해결하기 위해, 가장 간단한 방법은 이들 도구가 활성화될 때 암시적 선택을 비활성화시키는 것이다.

실시예 1: LFNST 및/또는 MIP가 활성화될 때 DCT2를 갖는 암시적 MTS

VTM5에서, MTSImplicit 변환의 선택은 다음과 같이 설명된다:

LFNST 및 MIP와의 상호작용의 문제를 해결하기 위해, MIP의 SPS 플래그(sps_mip_flag) 및/또는 LFNST의 플래그(lfnst_enabled_flag)가 검사될 필요가 있다:

대응하는 흐름도가 도 3에 도시되어 있다.

이 방법의 이점을 보여주기 위해, 시뮬레이션이, 테스트로서의 새로운 방법인 VTM5.0에 의해(둘 다 다음의 옵션들을 가짐: --MTS=0 및 -MTSImplicit=1), 표 2의 설명(1-프레임 분석)에서와 동일한 조건으로 실행되었고, 다음의 결과가 획득된다:

추가적인 조건들이 또한 테스트되었다. 즉, LFNST가 비활성화되는 경우, 다음의 결과들이 획득된다:

마지막으로, MIP가 비활성화될 때, 다음이 획득된다.

방법을 구현하는 다른 방식은 LFNST 플래그 및 MIP 플래그 둘 다를 고려하는 것이다:

대응하는 흐름도가 도 4에 도시된다.

이 실시예의 변형에서, LFNST 또는 MIP가 현재 CU에 대해 활성화되는 경우, 암시적 MTS는 DCT2, DCT2가 된다.

실시예 2: LFNST 및/또는 MIP가 사용될 때 DCT2를 갖는 암시적 MTS

SPS 플래그를 검사하는 것 이외에, 현재 코딩 유닛(CU)을 추가로 조사하고, MIP 또는 LFNST가 사용되는지를 확인할 수 있다. 이 경우, 암시적 mts 선택은 DCT2일 것이다. VTM5.0에서, lfnstIdx는 0 내지 2의 값들을 갖는 LFNST의 인덱스이다. 0은 어떤 LFNST도 없음을 나타낸다. MIP의 경우, 플래그 mipFlag는 MIP가 사용되는지를 나타낸다. 따라서, 수정은 다음과 같다:

대응하는 흐름도가 도 5에 도시된다.

이 방법의 어려움은 변환 선택이 선택된 예측 모드에 의존한다는 것이다. 일반적으로, 이러한 의존성을 갖지 않는 것이 바람직하다. 그러나, 현재적으로 LFNST는 인트라-모드 의존적이기 때문에, 방법은 받아들일만하다.

유사하게, LFNST가 사용되는 경우만을 고려할 수 있다:

대응하는 흐름도가 도 6에 도시되어 있다.

하나의 프레임 분석이 또한 여기서 수행된다. 앵커는 테스트로서의 새로운 방법인 VTM5.0이고(둘 다 다음의 옵션들을 가짐: --MTS=0 및 --MTSImplicit=1), 다음의 결과들이 획득된다:

실시예 1의 방법에 비해 이점을 보여주기 위해, 앵커로서의 실시예 1과 테스트로서의 현재의 방법을 이용하여 하나의 프레임 분석이 실행되었다. 다음의 결과들이 획득된다:

여기에 설명된 일반적인 양태들 하에서의 방법(700)의 일 실시예가 도 7에 도시되어 있다. 방법은 시작 블록(701)에서 시작하고, 제어는, 암시적 변환 선택 모드가 비트스트림에서 적어도 하나의 비디오 블록을 인코딩하기 위해 사용될 때 다중 변환 선택 모드의 사용을 나타내는 신택스 정보를 설정하기 위한 블록(710)으로 진행한다. 제어는 블록(710)으로부터, 신택스 정보에 대응하는 적어도 하나의 변환을 이용하여 적어도 하나의 비디오 블록을 인코딩하기 위한 블록(720)으로 진행한다. 제어는 블록(720)으로부터, 인코딩된 적어도 하나의 비디오 블록을 포함하는 비트스트림을 저장, 운반, 또는 송신하기 위한 블록(730)으로 진행한다.

여기에 설명된 일반적인 양태들 하에서의 방법(800)의 일 실시예가 도 8에 도시되어 있다. 방법은 시작 블록(801)에서 시작하고, 제어는, 암시적 변환 선택 모드가 비디오 블록들을 디코딩하기 위해 사용될 때 다중 변환 선택 모드의 사용을 나타내는 신택스 정보에 대한 비트스트림을 파싱하기 위한 블록(810)으로 진행한다. 제어는, 블록(810)으로부터, 암시적 변환 선택 모드가 이용될 때 상기 신택스 정보에 대응하는 다중 변환 선택 모드 중 적어도 하나의 변환을 이용하여 상기 비트스트림에서 적어도 하나의 비디오 블록을 디코딩하기 위한 블록(820)으로 진행한다.

도 9는 코딩 또는 디코딩 도구들을 사용하여 비디오를 압축, 인코딩 또는 디코딩하기 위한 장치(900)의 일 실시예를 도시한다. 장치는 프로세서(910)를 포함하고, 적어도 하나의 포트를 통해 메모리(920)에 인터커넥트될 수 있다. 프로세서(910) 및 메모리(920) 둘 다는 또한 외부 연결들에 대한 하나 이상의 부가 인터커넥션을 가질 수 있다.

프로세서(910)는 또한 비트스트림 내에 정보를 삽입 또는 수신하고, 다양한 코딩 도구를 이용하여 압축, 인코딩 또는 디코딩하도록 구성된다.

이 출원은 도구, 특징, 실시예, 모델, 접근법 등을 포함하는 다양한 양태를 설명한다. 다수의 이 양태들은 특별한 점을 설명하고, 적어도 개별 특성들을 보여주기 위해, 제한하는 것일 수 있는 방식으로 종종 설명된다. 그러나, 이는 설명의 명료함을 위한 것이고, 그들 양태들의 적용 또는 범위를 제한하지 않는다. 실제로, 추가의 양태들을 제공하기 위해 상이한 양태들 모두가 조합되고 교환될 수 있다. 더구나, 양태들은 마찬가지로 초기의 출원들에서 설명된 양태들과 조합되고 교환될 수 있다.

이 출원에서 설명되고 고려되는 양태들은 많은 상이한 형태들로 구현될 수 있다. 도 1, 도 2, 및 도 10은 일부 실시예들을 제공하지만, 다른 실시예들이 고려되며, 도 1, 도 2, 및 도 10의 논의는 구현들의 범위를 한정하지 않는다. 양태들 중 적어도 하나는 일반적으로 비디오 인코딩 및 디코딩에 관한 것이고 적어도 하나의 다른 양태는 일반적으로 생성되거나 또는 인코딩된 비트스트림을 송신하는 것에 관한 것이다. 이들 및 다른 양태들은 방법, 장치, 설명된 방법들 중 임의의 것에 따라 비디오 데이터를 인코딩 또는 디코딩하기 위한 명령어들을 저장하는 컴퓨터 판독가능 저장 매체, 및/또는 설명된 방법들 중 임의의 것에 따라 생성된 비트스트림을 저장하는 컴퓨터 판독가능 저장 매체로서 구현될 수 있다.

본 출원에서, "재구성된" 및 "디코딩된"이라는 용어들은 상호교환가능하게 사용될 수 있으며, "픽셀" 및 "샘플"이라는 용어들은 상호교환가능하게 사용될 수 있으며, "이미지", "픽처" 및 "프레임"이라는 용어들은 상호교환가능하게 사용될 수 있다. 필수적은 아니지만 통상적으로, 용어 "재구성된"은 인코더 측에서 사용되는 한편, "디코딩된"은 디코더 측에서 사용된다.

다양한 방법들이 본 명세서에서 설명되었고, 방법들 각각은 설명된 방법을 달성하기 위한 하나 이상의 단계 또는 액션을 포함한다. 방법의 적절한 동작을 위해 단계들 또는 액션들의 특정 순서가 요구되지 않으면, 특정 단계들 및/또는 액션들의 순서 및/또는 사용은 수정되거나 조합될 수 있다.

이 출원에서 설명되는 다양한 방법 및 다른 양태들은 도 1 및 도 2에 도시된 바와 같은 비디오 인코더(100) 및 디코더(200)의 모듈들, 예를 들어, 인트라 예측, 엔트로피 코딩, 및/또는 디코딩 모듈들(160, 360, 145, 330)을 수정하기 위해 사용될 수 있다. 더구나, 본 양태들은 VVC 또는 HEVC로만 제한되지 않고, 예를 들어, 이미 존재하든 또는 장래에 개발되든 간에, 다른 표준들 및 권고안들과, (VVC 및 HEVC를 포함한) 임의의 이러한 표준들 및 권고안들의 확장들에 적용될 수 있다. 달리 표시되지 않거나 또는 기술적으로 배제되지 않는 한, 이 출원에서 설명되는 양태들은 개별적으로 또는 조합하여 사용될 수 있다.

다양한 수치 값들이 본 출원에서 사용된다. 특정 값들은 예시적인 목적들을 위한 것이고 설명되는 양태들은 이러한 특정 값들로만 제한되지는 않는다.

도 1은 인코더(100)를 예시한다. 이 인코더(100)의 변형들이 구상되지만, 인코더(100)는 모든 예상되는 변형들을 설명하지 않고서 명료함을 위해 아래에서 설명된다.

인코딩되기 전에, 비디오 시퀀스는 프리-인코딩 처리(101), 예를 들어, 입력 컬러 픽처에 컬러 변환을 적용하는 것(예를 들어, RGB 4:4:4로부터 YCbCr 4:2:0로의 변환), 또는 (예를 들면 컬러 컴포넌트들 중 하나의 것의 히스토그램 등화를 사용하여) 압축에 더 탄력적인 신호 분포를 얻기 위하여 입력 픽처 컴포넌트들의 리매핑을 수행하는 것을 거칠 수 있다. 메타데이터는 전처리와 연관되고 비트스트림에 첨부될 수 있다.

인코더(100)에서, 픽처는 아래에서 설명되는 바와 같이 인코더 요소들에 의해 인코딩된다. 인코딩될 픽처는 예를 들어, CU들의 유닛들로 파티셔닝되고(102) 처리된다. 각각의 유닛은 예를 들어, 인트라 또는 인터 모드를 사용하여 인코딩된다. 유닛이 인트라 모드에서 인코딩될 때, 이는 인트라 예측(160)을 수행한다. 인터 모드(inter mode)에서는, 모션 추정(motion estimation)(175) 및 보상(compensation)(170)이 수행된다. 인코더는 유닛을 인코딩하기 위해 사용할 인트라 모드 또는 인터 모드 중 어느 하나를 결정(105)하고, 예를 들어, 예측 모드 플래그에 의해 인트라/인터 결정을 표시한다. 예측 잔차들은, 예를 들어, 원래의 이미지 블록에서 예측된 블록을 감산함으로써(110) 계산된다.

예측 잔차들이 이어서 변환되고(125) 양자화된다(130). 양자화된 변환 계수들뿐만 아니라 모션 벡터들(motion vectors) 및 다른 신택스 요소들은 엔트로피 코딩(145)되어 비트스트림을 출력한다. 인코더는 변환을 건너뛰고 비변환된 잔차 신호에 직접적으로 양자화를 적용할 수 있다. 인코더는 변환 및 양자화 둘 다를 건너뛸 수 있는데, 즉, 잔차는 변환 또는 양자화 프로세스들의 적용 없이 직접 코딩될 수 있다.

인코더는 추가적 예측들을 위한 참조를 제공하기 위해 인코딩된 블록을 디코딩한다. 예측 잔차들을 디코딩하기 위해, 양자화된 변환 계수들은 탈양자화되고(140) 역변환된다(150). 디코딩된 예측 잔차들 및 예측된 블록을 조합하면(155), 이미지 블록이 재구성된다. 인 루프 필터들(165)은, 예를 들어, 인코딩 아티팩트들을 줄이기 위한 디블로킹(deblocking)/SAO(Sample Adaptive Offset) 필터링을 수행하기 위해 재구성된 픽처에 적용된다. 필터링된 이미지는 참조 픽처 버퍼(180)에 저장된다.

도 2는 비디오 디코더(200)의 블록도를 도시한다. 디코더(200)에서, 비트스트림은 아래에서 설명되는 바와 같이 디코더 요소들에 의해 디코딩된다. 비디오 디코더(200)는 일반적으로 도 1에 설명된 바와 같은 인코딩 패스에 역인 디코딩 패스를 수행한다. 인코더(100)는 또한 비디오 데이터를 인코딩하는 일환으로서 비디오 디코딩을 일반적으로 수행한다.

특히, 디코더의 입력은 비디오 인코더(100)에 의해 생성될 수 있는 비디오 비트스트림을 포함한다. 비트스트림은, 변환 계수들, 모션 벡터들, 및 다른 코딩된 정보를 획득하기 위해 먼저 엔트로피 디코딩된다(230). 픽처 파티션 정보는 픽처가 파티셔닝되는 방법을 표시한다. 그러므로 디코더는 디코딩된 픽처 파티셔닝 정보에 따라 픽처를 분할할 수 있다(235). 변환 계수들은 예측 잔차들을 디코딩하기 위해 탈양자화되고(240) 역변환된다(250). 디코딩된 예측 잔차들 및 예측된 블록을 조합하면(255), 이미지 블록이 재구성된다. 예측된 블록은 인트라 예측(260) 또는 모션 보상 예측(즉, 인터 예측)(275)으로부터 획득될 수 있다(270). 인 루프 필터들(265)은 재구성된 이미지에 대해 적용된다. 필터링된 이미지는 참조 픽처 버퍼(280)에 저장된다.

디코딩된 픽처는 포스트-디코딩 처리(285), 예를 들어, 역 컬러 변환(예를 들어, YCbCr 4:2:0부터 RGB 4:4:4로의 변환) 또는 프리-인코딩 처리(101)에서 수행되는 리매핑 프로세스의 역을 수행하는 역 리매핑을 추가로 거칠 수 있다. 포스트-디코딩 처리는 프리-인코딩 처리에서 도출되고 비트스트림에서 시그널링되는 메타데이터를 사용할 수 있다.

도 10은 다양한 양태들 및 실시예들이 구현되는 시스템의 예의 블록도를 예시한다. 시스템(1000)은 아래에서 설명되는 다양한 컴포넌트들을 포함하는 디바이스로서 실시될 수 있고 이 문서에서 설명되는 양태들 중 하나 이상을 수행하도록 구성된다. 그러한 디바이스들의 예들은 개인용 컴퓨터, 랩톱 컴퓨터, 스마트폰, 태블릿 컴퓨터, 디지털 멀티미디어 셋톱 박스, 디지털 텔레비전 수신기, 개인 비디오 기록 시스템, 접속된 가전 기기, 및 서버와 같은 다양한 전자 디바이스들을 포함하지만 이에 한정되지는 않는다. 시스템(1000)의 요소들은, 단독으로 또는 조합하여, 단일 집적 회로(IC), 다중 IC, 및/또는 이산 컴포넌트들로 구현될 수 있다. 예를 들어, 적어도 하나의 실시예에서, 시스템(1000)의 처리 및 인코더/디코더 요소들은 다중 IC 및/또는 이산 컴포넌트들에 걸쳐 분산된다. 다양한 실시예들에서, 시스템(1000)은, 예를 들어, 통신 버스를 통해 또는 전용 입력 및/또는 출력 포트들을 통해 하나 이상의 다른 시스템에, 또는 다른 전자 디바이스들에 통신가능하게 결합된다. 다양한 실시예들에서, 시스템(1000)은 본 문서에서 설명된 양태들 중 하나 이상을 구현하도록 구성된다.

시스템(1000)은, 예를 들어, 본 문서에 설명된 다양한 양태들을 구현하기 위해, 그 안에 로딩된 명령어들을 실행하도록 구성된 적어도 하나의 프로세서(1010)를 포함한다. 프로세서(1010)는 임베디드 메모리, 입력 출력 인터페이스, 및 본 기술분야에 공지된 다양한 다른 회로들을 포함할 수 있다. 시스템(1000)은 적어도 하나의 메모리(1020)(예를 들어, 휘발성 메모리 디바이스, 및/또는 비휘발성 메모리 디바이스)를 포함한다. 시스템(1000)은 EEPROM(Electrically Erasable Programmable Read-Only Memory), ROM(Read-Only Memory), PROM(Programmable Read-Only Memory), RAM(Random Access Memory), DRAM(Dynamic Random Access Memory), SRAM(Static Random Access Memory), 플래시, 자기 디스크 드라이브, 및/또는 광 디스크 드라이브를 포함하지만 이에 한정되지는 않는 비휘발성 메모리 및/또는 휘발성 메모리를 포함할 수 있는 저장 디바이스(1040)를 포함한다. 저장 디바이스(1040)는 비제한적 예들로서, 내부 저장 디바이스, 부착된 저장 디바이스(분리식(detachable) 및 비분리식 저장 디바이스들을 포함함), 및/또는 네트워크 액세스가능한 저장 디바이스를 포함할 수 있다.

시스템(1000)은, 예를 들어, 인코딩된 비디오 또는 디코딩된 비디오를 제공하기 위해 데이터를 처리하도록 구성된 인코더/디코더 모듈(1030)을 포함하고, 인코더/디코더 모듈(1030)은 그 자신의 프로세서 및 메모리를 포함할 수 있다. 인코더/디코더 모듈(1030)은 인코딩 및/또는 디코딩 기능들을 수행하기 위해 디바이스에 포함될 수 있는 모듈(들)을 나타낸다. 알려진 바와 같이, 디바이스는 인코딩 및 디코딩 모듈들 중 하나 또는 둘 모두를 포함할 수 있다. 또한, 인코더/디코더 모듈(1030)은 시스템(1000)의 별도 요소로서 구현될 수 있거나, 또는 본 기술분야의 통상의 기술자에게 공지된 바와 같이 하드웨어 및 소프트웨어의 조합으로서 프로세서(1010) 내에 통합될 수 있다.

본 문서에 설명된 다양한 양태들을 수행하기 위해 프로세서(1010) 또는 인코더/디코더(1030) 상에 로딩될 프로그램 코드는 저장 디바이스(1040)에 저장될 수 있고, 후속하여 프로세서(1010)에 의한 실행을 위해 메모리(1020) 상에 로딩될 수 있다. 다양한 실시예들에 따르면, 프로세서(1010), 메모리(1020), 저장 디바이스(1040), 및 인코더/디코더 모듈(1030) 중 하나 이상은 본 문서에 설명된 프로세스들의 수행 동안 다양한 아이템들 중 하나 이상을 저장할 수 있다. 이러한 저장된 아이템들은 입력 비디오, 디코딩된 비디오 또는 디코딩된 비디오의 부분들, 비트스트림, 행렬들, 변수들, 및 수학식들, 공식들, 연산들 및 연산 로직의 처리로부터의 중간 또는 최종 결과들을 포함할 수 있지만, 이에 제한되지는 않는다.

몇몇 실시예에서, 프로세서(1010) 및/또는 인코더/디코더 모듈(1030)의 내부에 있는 메모리는 명령어들을 저장하기 위해 및 인코딩 또는 디코딩 동안 필요한 처리를 위한 작업 메모리를 제공하기 위해 사용된다. 그러나, 다른 실시예들에서, 처리 디바이스 외부의 메모리(예를 들어, 처리 디바이스는 프로세서(1010) 또는 인코더/디코더 모듈(1030) 중 하나일 수 있음)가 이러한 기능들 중 하나 이상을 위해 사용된다. 외부 메모리는 메모리(1020) 및/또는 저장 디바이스(1040), 예를 들어, 동적 휘발성 메모리 및/또는 비휘발성 플래시 메모리일 수 있다. 몇몇 실시예에서, 외부 비휘발성 플래시 메모리는 예를 들어, 텔레비전의 운영 체제를 저장하기 위해 사용된다. 적어도 하나의 실시예에서, RAM과 같은 고속 외부 동적 휘발성 메모리는 MPEG-2(MPEG는 Moving Picture Experts Group를 지칭하고, MPEG-2는 ISO/IEC13818로도 지칭되고, 13818-1은 H.222로도 알려져 있고, 13818-2는 H.262로도 알려져 있음), HEVC(HEVC는 H.265 및 MPEG-H 파트 2로도 알려져 있는 고효율 비디오 코딩을 지칭함), 또는 VVC(Versatile Video Coding, JVET, Joint Video Experts Team에 의해 개발되고 있는 새로운 표준)와 같은 비디오 코딩 및 디코딩 동작들을 위한 작업 메모리로서 사용된다.

시스템(1000)의 요소들에의 입력은 블록(1130)에 표시된 바와 같이 다양한 입력 디바이스들을 통해 제공될 수 있다. 이러한 입력 디바이스들은 (i) 예를 들어, 브로드캐스터에 의해 공중을 통해 송신된 RF 신호를 수신하는 무선 주파수(RF) 부분, (ii) 컴포넌트(COMP) 입력 단자(또는 COMP 입력 단자들의 세트), (iii) 범용 직렬 버스(USB) 입력 단자, 및/또는 (iv) 고선명 멀티미디어 인터페이스(HDMI) 입력 단자를 포함하지만, 이에 한정되지는 않는다. 도 10에 도시되지 않은 다른 예들은 합성 비디오를 포함한다.

다양한 실시예들에서, 블록(1130)의 입력 디바이스들은 관련 기술분야에 알려진 바와 같은 연관된 각자의 입력 처리 요소들을 갖는다. 예를 들어, RF 부분은 (i) 원하는 주파수를 선택하는 것(또한 신호를 선택하는 것, 또는 주파수들의 대역에 신호를 대역 제한하는 것으로 지칭됨), (ii) 선택된 신호를 다운컨버팅하는 것, (iii) 주파수들의 더 좁은 대역으로 다시 대역 제한하여 특정 실시예들에서 채널로 지칭될 수 있는 (예를 들어) 신호 주파수 대역을 선택하는 것, (iv) 다운컨버팅된 및 대역 제한된 신호를 복조하는 것, (v) 오류 정정을 수행하는 것, 및 (vi) 원하는 데이터 패킷들의 스트림을 선택하도록 디멀티플렉싱하기 위해 적절한 요소들과 연관될 수 있다. 다양한 실시예들의 RF 부분은 이러한 기능들을 수행하기 위한 하나 이상의 요소, 예를 들어, 주파수 선택기들, 신호 선택기들, 대역 제한기들, 채널 선택기들, 필터들, 다운컨버터들, 복조기들, 오류 정정기들, 및 디멀티플렉서들을 포함한다. RF 부분은, 예를 들어, 수신된 신호를 더 낮은 주파수(예를 들어, 중간 주파수 또는 근 기저대역 주파수)로 또는 기저대역으로 다운컨버팅하는 것을 포함하여, 다양한 이러한 기능들을 수행하는 튜너를 포함할 수 있다. 하나의 셋톱 박스 실시예에서, RF 부분 및 그것의 연관된 입력 처리 요소는 유선(예를 들어, 케이블) 매체를 통해 송신되는 RF 신호를 수신하고, 필터링, 다운컨버팅, 및 원하는 주파수 대역으로의 재차 필터링에 의해 주파수 선택을 수행한다. 다양한 실시예들은 전술한 (및 다른) 요소들의 순서를 재배열하고, 이 요소들의 일부를 제거하고, 및/또는 유사하거나 상이한 기능들을 수행하는 다른 요소들을 추가한다. 요소들을 추가하는 것은, 예를 들어, 증폭기들과 아날로그-투-디지털 변환기를 삽입하는 것과 같이 기존 요소들 사이 내에 요소들을 삽입하는 것을 포함할 수 있다. 다양한 실시예들에서, RF 부분은 안테나를 포함한다.

또한, USB 및/또는 HDMI 단말기들은 USB 및/또는 HDMI 접속들을 통해 다른 전자 디바이스들에 시스템(1000)을 접속하기 위한 각자의 인터페이스 프로세서들을 포함할 수 있다. 입력 처리의 다양한 양태들, 예를 들어, 리드-솔로몬(Reed-Solomon) 오류 정정이, 예를 들어, 별도의 입력 처리 IC 내에서 또는 필요에 따라 프로세서(1010) 내에서 구현될 수 있다는 것을 이해해야 한다. 유사하게, USB 또는 HDMI 인터페이스 처리의 양태들은 필요에 따라 별도의 인터페이스 IC들 내에서 또는 프로세서(1010) 내에서 구현될 수 있다. 복조된, 오류 정정된, 및 디멀티플렉싱된 스트림은, 예를 들어, 프로세서(1010), 및 출력 디바이스 상의 프레젠테이션을 위해 필요한 대로 데이터 스트림을 처리하기 위해 메모리 및 저장 요소들과 조합하여 동작하는 인코더/디코더(1030)를 포함하는 다양한 처리 요소들에 제공된다.

시스템(1000)의 다양한 요소들이 통합된 하우징 내에서 제공될 수 있다. 통합된 하우징 내에서, 다양한 요소들이 인터커넥션될 수 있고, 적절한 접속 배열, 예를 들어, I2C(Inter-IC) 버스, 배선, 및 인쇄 회로 기판을 포함하여 관련 기술분야에 공지된 바와 같은 내부 버스를 사용하여 그 사이에서 데이터를 송신할 수 있다.

시스템(1000)은 통신 채널(1060)을 통해 다른 디바이스들과의 통신을 가능하게 하는 통신 인터페이스(1050)를 포함한다. 통신 인터페이스(1050)는 통신 채널(1060)을 통해 데이터를 송신하고 수신하도록 구성된 송수신기를 포함할 수 있지만, 이에 한정되는 것은 아니다. 통신 인터페이스(1050)는 모뎀 또는 네트워크 카드를 포함할 수 있지만, 이에 한정되지는 않으며, 통신 채널(1060)은 예를 들어, 유선 및/또는 무선 매체 내에 구현될 수 있다.

다양한 실시예들에서, Wi-Fi 네트워크, 예를 들어, IEEE 802.11(IEEE는 Institute of Electrical and Electronics Engineers를 지칭함)과 같은 무선 네트워크를 사용하여 데이터가 시스템(1000)에 스트리밍되거나 또는 다른 방식으로 제공된다. 이러한 실시예들의 Wi-Fi 신호는 Wi-Fi 통신들을 위해 적응되는 통신 인터페이스(1050) 및 통신 채널(1060)을 통해 수신된다. 이러한 실시예들의 통신 채널(1060)은 스트리밍 애플리케이션들 및 다른 OTT(over-the-top) 통신들을 허용하기 위한 인터넷을 포함하는 외부 네트워크들에 대한 액세스를 제공하는 액세스 포인트 또는 라우터에 통상적으로 접속된다. 다른 실시예들은 입력 블록(1130)의 HDMI 접속을 통해 데이터를 전달하는 셋톱 박스를 사용하여 스트리밍된 데이터를 시스템(1000)에 제공한다. 또 다른 실시예들은 입력 블록(1130)의 RF 접속을 사용하여 스트리밍된 데이터를 시스템(1000)에 제공한다. 위에 언급한 바와 같이, 다양한 실시예들은 비 스트리밍 방식으로 데이터를 제공한다. 추가적으로, 다양한 실시예들은 Wi-Fi 이외의 무선 네트워크들, 예를 들어, 셀룰러 네트워크 또는 블루투스 네트워크를 사용한다.

시스템(1000)은 디스플레이(1100), 스피커들(1110), 및 다른 주변기기 디바이스들(1120)을 포함하는 다양한 출력 디바이스들에 출력 신호를 제공할 수 있다. 다양한 실시예들의 디스플레이(1100)는, 예를 들어, 터치스크린 디스플레이, 유기 발광 다이오드(OLED) 디스플레이, 곡면 디스플레이, 및/또는 폴더블 디스플레이 중 하나 이상을 포함한다. 디스플레이(1100)는 텔레비전, 태블릿, 랩톱, 셀 폰(mobile phone), 또는 다른 디바이스를 위한 것일 수 있다. 디스플레이(1100)는 (예를 들어, 스마트폰에서와 같이) 다른 컴포넌트들과 통합되거나, 또는 별개일 수 있다(예를 들어, 랩톱에 대한 외부 모니터). 다른 주변기기 디바이스들(1120)은, 실시예들의 다양한 예들에서, 독립형 디지털 비디오 디스크(또는 디지털 다기능 디스크)(DVR, 둘 모두에 대해), 디스크 플레이어, 스테레오 시스템, 및/또는 조명 시스템 중 하나 이상을 포함한다. 다양한 실시예들은 시스템(1000)의 출력에 기초하여 기능을 제공하는 하나 이상의 주변기기 디바이스(1120)를 사용한다. 예를 들어, 디스크 플레이어는 시스템(1000)의 출력을 재생하는 기능을 수행한다.

다양한 실시예들에서, 제어 신호들은 AV.Link, CEC(Consumer Electronics Control), 또는 사용자 개입을 이용하거나 이용하지 않고 디바이스-투-디바이스 제어를 가능하게 하는 다른 통신 프로토콜들과 같은 시그널링을 이용하여 시스템(1000)과 디스플레이(1100), 스피커들(1110), 또는 다른 주변기기 디바이스들(1120) 사이에서 통신된다. 출력 디바이스들은 각자의 인터페이스들(1070, 1080, 및 1090)을 통한 전용 접속들을 통해 시스템(1000)에 통신가능하게 결합될 수 있다. 대안적으로, 출력 디바이스들은 통신 인터페이스(1050)를 통해 통신 채널(1060)을 사용하여 시스템(1000)에 접속될 수 있다. 디스플레이(1100) 및 스피커들(1110)은, 예를 들어, 텔레비전과 같은 전자 디바이스에서 시스템(1000)의 다른 컴포넌트들과 함께 단일 유닛에 통합될 수 있다. 다양한 실시예들에서, 디스플레이 인터페이스(1070)는, 예를 들어, 타이밍 제어기(T Con) 칩과 같은 디스플레이 드라이버를 포함한다.

디스플레이(1100) 및 스피커(1110)는 대안적으로, 예를 들어, 입력(1130)의 RF 부분이 별도의 셋톱 박스의 일부인 경우, 다른 컴포넌트들 중 하나 이상으로부터 분리될 수 있다. 디스플레이(1100) 및 스피커들(1110)이 외부 컴포넌트들인 다양한 실시예들에서, 출력 신호는, 예를 들어, HDMI 포트들, USB 포트들, 또는 COMP 출력들을 포함하는 전용 출력 접속들을 통해 제공될 수 있다.

실시예들은 프로세서(1010)에 의해 구현되는 컴퓨터 소프트웨어에 의해 또는 하드웨어에 의해, 또는 하드웨어 및 소프트웨어의 조합에 의해 수행될 수 있다. 비제한적인 예로서, 실시예들은 하나 이상의 집적 회로에 의해 구현될 수 있다. 메모리(1020)는 기술적 환경에 적절한 임의의 유형의 것일 수 있고 비제한적 예들로서, 광 메모리 디바이스들, 자기 메모리 디바이스들, 반도체 기반 메모리 디바이스들, 고정식 메모리, 및 이동식 메모리와 같은 임의의 적절한 데이터 저장 기술을 사용하여 구현될 수 있다. 프로세서(1010)는 기술적 환경에 적절한 임의의 유형의 것일 수 있고, 비제한적 예들로서 마이크로프로세서들, 범용 컴퓨터들, 특수 목적 컴퓨터들, 및 멀티 코어 아키텍처에 기초한 프로세서들 중 하나 이상을 포함할 수 있다.

다양한 구현들은 디코딩을 수반한다. "디코딩"은, 이 출원에서 사용되는 바와 같이, 디스플레이를 위해 적절한 최종 출력을 산출하기 위해, 예를 들어, 수신된 인코딩된 시퀀스에 대해 수행되는 프로세스들의 전부 또는 일부를 포함할 수 있다. 다양한 실시예들에서, 그러한 프로세스들은 디코더에 의해 통상적으로 수행되는 프로세스들, 예를 들어, 엔트로피 디코딩, 역 양자화, 역 변환, 및 디퍼렌셜 디코딩 중 하나 이상을 포함한다. 다양한 실시예들에서, 그러한 프로세스들은 또한, 또는 대안적으로, 이 출원에서 설명된 다양한 구현들의 디코더에 의해 수행되는 프로세스들을 포함한다.

추가 예들로서, 일 실시예에서, "디코딩"은 엔트로피 디코딩만을 지칭하고, 또 다른 실시예에서, "디코딩"은 디퍼렌셜 디코딩만을 지칭하고, 또 다른 실시예에서, "디코딩"은 엔트로피 디코딩 및 디퍼렌셜 디코딩의 조합을 지칭한다. "디코딩 프로세스"라는 문구가 구체적으로 동작들의 서브세트를 지칭하도록 의도되는지 또는 일반적으로 더 넓은 디코딩 프로세스를 지칭하도록 의도되는지는 특정 설명들의 맥락에 기초하여 명백할 것이며, 본 기술분야의 통상의 기술자에 의해 잘 이해될 것으로 여겨진다.

다양한 구현들은 인코딩을 수반한다. "디코딩"에 관한 상기 논의와 유사한 방식으로, 이 출원에서 사용되는 "인코딩"은 예를 들어 인코딩된 비트스트림을 생성하기 위해 입력 비디오 시퀀스에 대해 수행되는 프로세스들의 전부 또는 일부를 포함할 수 있다. 다양한 실시예들에서, 그러한 프로세스들은 인코더에 의해 통상적으로 수행되는 프로세스들, 예를 들어, 파티셔닝, 디퍼렌셜 인코딩, 변환, 양자화, 및 엔트로피 인코딩 중 하나 이상을 포함한다. 다양한 실시예들에서, 그러한 프로세스들은 또한, 또는 대안적으로, 이 출원에서 설명된 다양한 구현들의 인코더에 의해 수행되는 프로세스들을 포함한다.

추가 예들로서, 일 실시예에서 "인코딩"은 엔트로피 인코딩만을 지칭하고, 또 다른 실시예에서 "인코딩"은 디퍼렌셜 인코딩만을 지칭하며, 또 다른 실시예에서 "인코딩"은 디퍼렌셜 인코딩 및 엔트로피 인코딩의 조합을 지칭한다. "인코딩 프로세스"라는 문구가 구체적으로 동작들의 서브세트를 지칭하도록 의도되는지 또는 일반적으로 더 넓은 인코딩 프로세스를 지칭하도록 의도되는지는 특정 설명들의 맥락에 기초하여 명백할 것이며, 본 기술분야의 통상의 기술자에 의해 잘 이해될 것으로 여겨진다.

본 명세서에서 사용되는 신택스 요소들은 설명적 용어들이라는 점에 유의한다. 이와 같이, 이들은 다른 신택스 요소 명칭들의 사용을 배제하지 않는다.

도면이 흐름도로서 제시될 때, 그것은 또한 대응하는 장치의 블록도를 제공한다는 것이 이해되어야 한다. 유사하게, 도면이 블록도로서 제시될 때, 그것은 또한 대응하는 방법/프로세스의 흐름도를 제공한다는 것이 이해되어야 한다.

다양한 실시예들은 파라메트릭 모델들 또는 레이트 왜곡 최적화를 참조할 수 있다. 특히, 인코딩 프로세스 동안, 계산 복잡도의 제약이 종종 주어지면, 레이트와 왜곡 사이의 균형 또는 절충이 보통은 고려된다. 그것은 RDO(Rate Distortion Optimization) 메트릭을 통해, 또는 LMS(Least Mean Square), MAE(Mean of Absolute Errors), 또는 다른 그러한 측정들을 통해 측정될 수 있다. 레이트 왜곡 최적화는 보통은 레이트 및 왜곡의 가중 합인 레이트 왜곡 함수를 최소화하는 것으로서 공식화된다. 레이트 왜곡 최적화 문제를 해결하기 위한 상이한 접근법들이 있다. 예를 들어, 이 접근법들은, 코딩 및 디코딩 이후에 재구성된 신호의 그 코딩 비용 및 관련 왜곡의 완전한 평가와 함께, 모든 고려된 모드들 또는 코딩 파라미터 값들을 포함하는, 모든 인코딩 옵션들의 광범위한 테스팅에 기초할 수 있다. 인코딩 복잡성을 피하기 위해, 특히 재구성된 것이 아니라 예측 또는 예측 잔차 신호에 기초한 근사화된 왜곡의 계산을 사용하여 더 빠른 접근법들이 또한 사용될 수 있다. 이들 2개의 접근법의 혼합은 또한, 예컨대, 가능한 인코딩 옵션들 중 일부에 대해서만 근사화된 왜곡, 및 다른 인코딩 옵션들에 대한 완전한 왜곡을 사용함으로써 사용될 수 있다. 다른 접근법들은 가능한 인코딩 옵션들의 서브세트만을 평가한다. 보다 일반적으로, 많은 접근법들은 최적화를 수행하기 위해 다양한 기법들 중 임의의 기법을 사용하지만, 최적화가 반드시 코딩 비용 및 관련 왜곡 둘 다의 완전한 평가인 것은 아니다.

본 명세서에서 설명되는 구현들 및 양태들은, 예를 들어, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림, 또는 신호로 구현될 수 있다. 단일 구현 형태의 맥락에서만 논의되더라도(예를 들어, 방법으로서만 논의되더라도), 논의되는 특징들의 구현은 다른 형태들(예를 들어, 장치 또는 프로그램)로 또한 구현될 수 있다. 장치는 예를 들어, 적절한 하드웨어, 소프트웨어, 및 펌웨어로 구현될 수 있다. 방법들은, 예를 들어, 컴퓨터, 마이크로프로세서, 집적 회로, 또는 프로그래머블 로직 디바이스를 포함하여, 예를 들어 일반적으로 처리 디바이스들을 지칭하는 프로세서로 구현될 수 있다. 프로세서들은 또한 예를 들어, 컴퓨터들, 셀 폰들, 휴대용/개인 정보 단말기들(portable/personal digital assistants, PDA들), 및 최종 사용자들 사이의 정보의 통신을 용이하게 하는 다른 디바이스들과 같은 통신 디바이스들을 포함한다.

"일 실시예" 또는 "실시예" 또는 "일의 구현" 또는 "구현"뿐만 아니라 그의 다른 변형들에 대한 언급은, 실시예와 관련하여 설명된 특정한 특징, 구조, 특성 등이 적어도 하나의 실시예에 포함된다는 것을 의미한다. 따라서, 본 출원 전반에 걸친 다양한 위치들에서 등장하는 구문 "일 실시예에서" 또는 "실시예에서" 또는 "일 구현에서" 또는 "구현에서"뿐만 아니라 임의의 다른 변형들의 등장은 반드시 모두 동일한 실시예를 참조하는 것은 아니다.

또한, 본 출원은 다양한 정보 피스들을 "결정"하는 것을 지칭할 수 있다. 정보를 결정하는 것은, 예를 들어, 정보를 추정하는 것, 정보를 계산하는 것, 정보를 예측하는 것, 또는 정보를 메모리로부터 검색하는 것 중 하나 이상을 포함할 수 있다.

또한, 이 출원은 다양한 정보 피스들에 "액세스"하는 것을 지칭할 수 있다. 정보에 액세스하는 것은, 예를 들어, 정보를 수신하는 것, (예를 들어, 메모리로부터) 정보를 검색하는 것, 정보를 저장하는 것, 정보를 이동시키는 것, 정보를 복사하는 것, 정보를 계산하는 것, 정보를 결정하는 것, 정보를 예측하는 것, 또는 정보를 추정하는 것 중 하나 이상을 포함할 수 있다.

또한, 이 출원은 다양한 정보 피스들을 "수신"하는 것을 지칭할 수 있다. 수신하는 것은, "액세스하는 것"에서와 같이 광의의 용어로 의도된다. 정보의 수신은 예를 들어, 정보의 액세스 또는 (예로서, 메모리로부터의) 정보의 검색 중 하나 이상을 포함할 수 있다. 또한, "수신"은 통상적으로 예를 들어, 정보의 저장, 정보의 처리, 정보의 송신, 정보의 이동, 정보의 복사, 정보의 소거, 정보의 계산, 정보의 결정, 정보의 예측 또는 정보의 추정과 같은 동작들 동안 하나의 방식 또는 다른 방식으로 수반된다.

예를 들어, "A/B", "A 및/또는 B(A and/or B)" 및 "A 및 B 중 적어도 하나(at least one of A and B)"의 경우들에서, 이하의 "/", "및/또는(and/or)", 및 "~ 중 적어도 하나(at least one of)" 중 임의의 것의 사용은, 처음 열거된 옵션 (A)만을 선택함, 또는 2번째로 열거된 옵션 (B)만을 선택함, 또는 옵션들 둘 다(A 및 B)를 선택함을 포괄하려는 의도임을 알 것이다. 추가 예로서, "A, B 및/또는 C" 및 "A, B 및 C 중 적어도 하나"의 경우들에서, 이러한 어구는 첫번째로 열거된 옵션 (A)만의 선택, 또는 두번째로 열거된 옵션 (B)만의 선택, 또는 세번째로 열거된 옵션 (C)만의 선택, 또는 첫번째와 두번째로 열거된 옵션들 (A 및 B)만의 선택, 또는 첫번째와 세번째로 열거된 옵션들 (A 및 C)만의 선택, 또는 두번째와 세번째로 열거된 옵션들 (B 및 C)만의 선택, 또는 3개의 옵션 (A 및 B 및 C) 전부의 선택을 포괄하는 것으로 의도된다. 이것은 본 기술분야 및 관련 기술분야의 통상의 기술자에게 명백한 바와 같이 열거된 많은 항목들에 대해 확장될 수 있다.

또한, 본 명세서에 이용된 바와 같이, 단어 "신호"는 다른 것들 중에서도, 대응하는 디코더에게 무언가를 나타내는 것을 지칭한다. 예를 들어, 특정 실시예들에서, 인코더는 복수의 변환, 코딩 모드들 또는 플래그들 중 특정한 하나를 시그널링한다. 이러한 방식으로, 실시예에서, 동일한 변환, 파라미터, 또는 모드가 인코더 측 및 디코더 측 모두에서 사용된다. 따라서, 예를 들어, 인코더는 디코더가 동일한 특정 파라미터를 사용할 수 있도록 디코더에 특정 파라미터를 송신(명시적 시그널링)할 수 있다. 반대로, 디코더가 특정 파라미터뿐만 아니라 다른 것들을 이미 갖는 경우, 단순히 디코더가 특정 파라미터를 알고 선택하는 것을 허용하기 위해 송신 없이(암시적 시그널링) 시그널링이 사용될 수 있다. 임의의 실제 기능들의 송신을 피함으로써, 다양한 실시예들에서 비트 절감이 실현된다. 시그널링은 다양한 방식들로 달성될 수 있다는 것을 알아야 한다. 예를 들어, 다양한 실시예들에서, 하나 이상의 신택스 요소, 플래그 등이 정보를 대응하는 디코더에 시그널링하는데 이용된다. 전술한 것은 단어 "신호"의 동사 형태와 관련되지만, 단어 "신호"는 명사로서 또한 본 명세서에서 사용될 수 있다.

본 기술분야의 통상의 기술자에게 분명할 바와 같이, 구현들은, 예를 들어, 저장 또는 송신될 수 있는 정보를 운반하도록 포맷팅된 다양한 신호들을 산출할 수 있다. 정보는, 예를 들어, 방법을 수행하기 위한 명령어, 또는 설명된 구현들 중 하나에 의해 산출된 데이터를 포함할 수 있다. 예를 들어, 신호가 설명된 실시예의 비트스트림을 운반하기 위해 포맷팅될 수 있다. 이러한 신호는 예를 들어(예를 들어, 스펙트럼의 무선 주파수 부분을 사용하여) 전자기파로서 또는 기저대역 신호로서 포맷팅될 수 있다. 포맷팅은, 예를 들어, 데이터 스트림을 인코딩하는 것과 인코딩된 데이터 스트림으로 캐리어를 변조하는 것을 포함할 수 있다. 신호가 운반하는 정보는, 예를 들어, 아날로그 또는 디지털 정보일 수 있다. 신호는 공지된 것으로서 다양한 상이한 유선 또는 무선 링크를 통해 송신될 수 있다. 그 신호는 프로세서 판독가능 매체 상에 저장될 수 있다.

다양한 청구항 카테고리들 및 유형들에 걸쳐 다수의 실시예를 설명한다. 이러한 실시예들의 특징들은 단독으로 또는 임의의 조합으로 제공될 수 있다. 게다가, 실시예들은 다양한 청구항 카테고리들 및 유형들에 걸쳐, 하기의 특징들, 디바이스들, 또는 양태들 중 하나 이상을, 단독으로 또는 임의의 조합으로 포함할 수 있다:

● 다중 변환 선택을 갖는 저주파수 분리가능하지 않은 변환들을 사용하여 비디오 데이터를 인코딩 또는 디코딩하는 프로세스 또는 디바이스.

● 다중 변환 선택을 갖는 낮은 행렬 기반 인트라-예측을 사용하여 비디오 데이터를 인코딩 또는 디코딩하는 프로세스 또는 디바이스.

● 암시적 다중 변환 선택을 갖는 저주파수 분리가능하지 않은 변환들을 사용하여 비디오 데이터를 인코딩 또는 디코딩하는 프로세스 또는 디바이스.

● 암시적 다중 변환 선택을 갖는 낮은 행렬 기반 인트라-예측을 사용하여 비디오 데이터를 인코딩 또는 디코딩하는 프로세스 또는 디바이스.

● 설명된 신택스 요소들, 또는 그의 변형들 중 하나 이상을 포함하는 비트스트림 또는 신호.

● 설명된 실시예들 중 임의의 것에 따라 생성된 정보를 전달하는 신택스를 포함하는 비트스트림 또는 신호.

● 설명된 실시예들 중 임의의 것에 따른 생성 및/또는 송신 및/또는 수신 및/또는 디코딩.

● 설명된 실시예들 중 임의의 것에 따른 방법, 프로세스, 장치, 명령어들을 저장하는 매체, 데이터 또는 신호를 저장하는 매체.

● 디코더가 인코더에 의해 사용되는 것에 대응하는 방식으로 코딩 모드를 결정할 수 있게 하는 신택스 요소들을 시그널링에 삽입한다.

● 설명된 신택스 요소들, 또는 그의 변형들 중 하나 이상을 포함하는 비트스트림 또는 신호를 생성 및/또는 송신 및/또는 수신 및/또는 디코딩하는 것.

● 설명된 실시예들 중 임의의 것에 따른 변환 방법(들)을 수행하는 TV, 셋톱 박스, 셀 폰, 태블릿, 또는 다른 전자 디바이스.

● 설명된 실시예들 중 임의의 것에 따른 변환 방법(들) 결정을 수행하고, 결과 이미지를 (예를 들어, 모니터, 스크린 또는 다른 유형의 디스플레이를 사용하여) 디스플레이하는 TV, 셋톱 박스, 셀 폰, 태블릿, 또는 다른 전자 디바이스.

● 인코딩된 이미지를 포함하는 신호를 수신하기 위한 채널을 선택, 대역 제한, 또는 (예를 들어, 튜너를 사용하여) 튜닝하고, 설명된 실시예들 중 임의의 것에 따른 변환 방법(들)을 수행하는 TV, 셋톱 박스, 셀 폰, 태블릿, 또는 다른 전자 디바이스.

● 인코딩된 이미지를 포함하는 신호를 OTA(over the air)로 (예컨대, 안테나를 사용하여) 수신하고 변환 방법(들)을 수행하는 TV, 셋톱 박스, 셀 폰, 태블릿, 또는 다른 전자 디바이스.

Claims

방법으로서:
비트스트림에서 적어도 하나의 비디오 블록을 인코딩하기 위해 암시적 변환 선택 모드가 사용될 때 다중 변환 선택 모드의 사용을 나타내는 신택스 정보를 설정하는 단계;
상기 신택스 정보에 대응하는 적어도 하나의 변환을 사용하여 상기 적어도 하나의 비디오 블록을 인코딩하고; 및
상기 인코딩된 적어도 하나의 비디오 블록을 포함하는 상기 비트스트림을 저장, 운반, 또는 송신하는 단계를 포함하는 방법.
장치로서:
프로세서를 포함하고, 상기 프로세서는:
비트스트림에서 적어도 하나의 비디오 블록을 인코딩하기 위해 암시적 변환 선택 모드가 사용될 때 다중 변환 선택 모드의 사용을 나타내는 신택스 정보를 설정하는 것;
상기 신택스 정보에 대응하는 적어도 하나의 변환을 사용하여 상기 적어도 하나의 비디오 블록을 인코딩하는 것; 및
상기 인코딩된 적어도 하나의 비디오 블록을 포함하는 상기 비트스트림을 저장, 운반, 또는 송신하는 것을 수행하도록 구성되는 장치.
방법으로서:
비디오 블록들을 디코딩하기 위해 암시적 변환 선택 모드가 사용될 때 다중 변환 선택 모드의 사용을 나타내는 신택스 정보에 대해 비트스트림을 파싱하는 단계; 및
암시적 변환 선택 모드가 사용될 때 상기 신택스 정보에 대응하는 다중 변환 선택 모드 중 적어도 하나의 변환을 사용하여 상기 비트스트림에서 적어도 하나의 비디오 블록을 디코딩하는 단계를 포함하는 방법.
장치로서:
프로세서를 포함하고, 상기 프로세서는:
비디오 블록들을 디코딩하기 위해 암시적 변환 선택 모드가 사용될 때 다중 변환 선택 모드의 사용을 나타내는 신택스 정보에 대해 비트스트림을 파싱하는 것; 및
암시적 변환 선택 모드가 사용될 때 상기 신택스 정보에 대응하는 다중 변환 선택 모드 중 적어도 하나의 변환을 사용하여 상기 비트스트림에서 적어도 하나의 비디오 블록을 디코딩하는 것을 수행하도록 구성되는 장치.
제1항 또는 제3항의 방법, 또는 제2항 또는 제4항의 장치에 있어서, 상기 신택스 정보는 적어도 하나의 플래그를 포함하는 방법 또는 장치.
제1항 또는 제3항의 방법, 또는 제2항 또는 제4항의 장치에 있어서, 상기 신택스 정보는 다중 변환 선택 모드를 나타내는 적어도 하나의 플래그를 포함하는 방법 또는 장치.
제1항 또는 제3항의 방법, 또는 제2항 또는 제4항의 장치에 있어서, 상기 신택스 정보는 다중 변환 선택 암시적 모드를 나타내는 적어도 하나의 플래그를 포함하는 방법 또는 장치.
제1항 또는 제3항의 방법, 또는 제2항 또는 제4항의 장치에 있어서, 상기 신택스 정보는 저주파수 분리가능하지 않은 변환 모드를 나타내는 적어도 하나의 플래그를 포함하는 방법 또는 장치.
제1항 또는 제3항의 방법, 또는 제2항 또는 제4항의 장치에 있어서, 상기 신택스 정보는 행렬 기반 인트라 예측 모드를 나타내는 적어도 하나의 플래그를 포함하는 방법 또는 장치.
제1항 또는 제3항의 방법, 또는 제2항 또는 제4항의 장치에 있어서, 다중 변환 선택 모드는 코딩 유닛 크기에 의해 컨디셔닝되는 방법 또는 장치.
제1항 또는 제3항의 방법, 또는 제2항 또는 제4항의 장치에 있어서, 변환은 수평 및 수직 성분들로 구성되는 방법 또는 장치.
디바이스로서:
제4항 내지 제11항 중 어느 한 항에 따른 장치; 및
(i) 상기 비디오 블록을 포함하는 신호를 수신하도록 구성된 안테나, (ii) 상기 수신된 신호를 상기 비디오 블록을 포함하는 주파수들의 대역에 제한하도록 구성된 대역 제한기, 및 (iii) 비디오 블록을 나타내는 출력을 디스플레이하도록 구성된 디스플레이 중 적어도 하나를 포함하는 디바이스.
프로세서를 사용한 재생을 위해, 제1항 및 제5항 내지 제11항 중 어느 한 항의 방법에 따라 또는 제2항 및 제5항 내지 제11항 중 어느 한 항의 장치에 의해 생성되는 데이터 콘텐츠를 포함하는 비일시적 컴퓨터 판독가능 매체.
프로세서를 사용한 재생을 위해, 제1항 및 제5항 내지 제11항 중 어느 한 항의 방법에 따라, 또는 제2항 및 제5항 내지 제11항 중 어느 한 항의 장치에 의해 생성되는 비디오 데이터를 포함하는 신호.
프로그램이 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금 제1항, 제3항 및 제5항 내지 제11항 중 어느 한 항의 방법을 수행하게 야기하는 명령어들을 포함하는 컴퓨터 프로그램 제품.