KR20210128385A

KR20210128385A - 비디오 인코딩 및 비디오 디코딩

Info

Publication number: KR20210128385A
Application number: KR1020217023509A
Authority: KR
Inventors: 사베리오 블라시; 안드레 세익사스 디아스; 고살라 쿨루파나
Original assignee: 브리티쉬브로드캐스팅코퍼레이션
Priority date: 2018-12-28
Filing date: 2019-11-05
Publication date: 2021-10-26
Also published as: EA202191811A1; US20220103833A1; US20230412818A1; GB201821283D0; CN113228679A; US11778201B2; WO2020136365A1; EP3903497A1; GB2580326A

Abstract

병합 예측된 블록의 디코딩이, 블록의 삼각형 파티션들에 대해, 인터 예측 및 인트라 예측의 결합을 사용하여 수행된다. 사용될 인터 예측 및 인트라 예측의 결합은 수신된 비트스트림 상에서 시그널링된다. 결합은 알고리즘적, 예를 들어 산술적일 수 있다.

Description

비디오 인코딩 및 비디오 디코딩

본 개시는 비디오 인코딩 및 비디오 디코딩에 관한 것이다.

비디오 압축이 송신 채널 상의 페이로드를 감소시키는 기회들을 제공한다. 공지된 비디오 코딩 표준들은 비디오를 정의하는 비트스트림 데이터의 송신을 가능하게 하여서, 비트스트림의 수신기는 인코딩된 비트스트림이 도출되었던 원본 비디오에 실질적으로 충실한 디코딩된 비디오를 구성하는 방식으로 비트스트림을 디코딩할 수 있다.

초기 비디오 코딩 표준들은 비교적 낮은 또는 중간 품질 복원이 허용 가능한 장비 상의 비디오의 재생을 목적으로 고안되었다. 이는 핸드헬드 디바이스들 또는 개인용 컴퓨팅 디바이스들을 포함한다. 대부분, 특정 레벨들의 품질의 허용가능성은 재생 장비의 능력에 의한 것만큼 사용자 요구에 의해 좌우된다.

수신기 장비가 품질 및 능력에서 개선됨에 따라, 사용자는 원본 비디오의 더 높은 품질의 재생을 요구한다. 따라서 기술적 목적은 지금까지 구현된 것보다 더 높은 품질로 플레이어 상의 비디오의 재생을 가능하게 하는 것이다.

도 1은 일 실시예에 따른 통신 네트워크의 개략도이며;
도 2는 도 1의 통신 네트워크의 발신기(emitter)의 개략도이며;
도 3은 도 2의 발신기 상에 구현되는 인코더를 예시하는 도면이며;
도 4는 도 3의 인코더의 예측 모듈에서 수행되는 예측 프로세스의 흐름도이며;
도 5는 도 1의 통신 네트워크의 수신기의 개략도이며;
도 6은 도 4의 수신기 상에 구현되는 디코더를 예시하는 도면이며;
도 7은 도 6의 디코더의 예측 모듈에서 수행되는 예측 프로세스의 흐름도이다.

본 개시의 양태들은 첨부의 청구항들의 요지에 해당할 수 있다.

일상적인 말로, 본 명세서에서 개시되는 특정한 실시예들에서, 병합 예측된 블록의 디코딩이 인터 예측 및 인트라 예측의 결합을 사용하여 블록의 삼각형 파티션들에 대해 수행된다. 사용될 인터 예측 및 인트라 예측의 결합은 수신된 비트스트림 상에서 시그널링된다. 결합은 알고리즘적, 예를 들어 산술적일 수 있다.

본 명세서에서 개시되는 실시예들은 리던던시(redundancy)들을 더 효율적으로 파티셔닝하고 활용하는 것에 의해 비디오 코덱에서 예측을 수행하는 방법에 관한 것이다. 독자에 의해 이해될 바와 같이, 비디오 프레젠테이션이 일반적으로 재생 장비 상의 순차적 디스플레이를 위해, 복수의 프레임들을 포함한다. 다양한 전략들이 발신기로부터 수신기로 통신 채널 상에서 송신되는 비트스트림 상에서 결국 각각의 프레임을 기술하기 위해 요구되는 데이터의 양을 감소하는데 사용된다. 이해될 바와 같이, 발신기는 프레임 데이터를 비트스트림으로 인코딩하기 위한 인코더를 포함할 것이고, 수신기는 비트스트림에서 전달되는 정보를 기반으로 프레임 데이터를 생성하기 위한 디코더를 포함할 것이다.

본 개시의 실시예들에서, 비디오 프레젠테이션의 각각의 프레임이 블록들로 파티셔닝된다. 인코더에서, 블록의 콘텐츠는 이전에 압축된 콘텐츠에 기초하여 예측된다. 이 블록 예측은 실제 블록으로부터 감산되어, 잔여 차이들(잔차들)의 세트를 초래한다. 일 실시예에서, 잔차 데이터는 주파수 도메인으로 변환을 사용하여 인코딩될 수 있다. 그러나, 독자에 의해 인식될 바와 같이, 시간 도메인으로부터 주파수 도메인으로의 데이터의 변환은 특정한 구현예들에 특정될 수 있고, 개시된 실시예들의 수행에 필수적이지는 않다.

비디오 인코딩 및 디코딩에 대한 접근법이 블록들이 이른바 "삼각형" 파티셔닝에 따라 파티셔닝되는 것을 허용한다. 이는 대각선을 따라 블록을 두 개의 부분들로 분할하는 것으로 구성된다. 두 개의 결과적인 삼각형 파티션들은 상이한 병합 후보들이 각각의 삼각형 파티션을 예측하는데 사용되는 병합 예측을 사용하여 예측될 수 있다.

병합 예측은 파티션의 콘텐츠가 다른 이웃 블록 또는 이웃 블록 파티션에 관계된 모션 정보를 기반으로 예측될 수 있는 주어진 샘플 세트에 대한 인터 예측을 컴퓨팅하도록 채용될 수 있다.

특정한 상황들에서, 인터 예측은 특정 삼각형 파티션에 대해 양호한 예측을 제공하지 않을 수 있다. 따라서, 본 개시에서 설명되는 실시예들은 인트라 예측과 같은 다른 예측 유형들이 더 정확한 결과들로 이어질 전망과 함께 삼각형 파티션들에 대해 채용될 수 있는 인코딩 프로세스와, 대응하는 디코딩 프로세스를 제공한다.

일 실시예에서, 블록에서 각각의 삼각형 파티션에 대해 하나씩, 두 개의 예측들이 컴퓨팅된다. 각각의 예측은 각각 인터 예측(예를 들면 병합 예측에 의해 컴퓨팅됨)과 인트라 예측(비트스트림에서 시그널링되거나, 또는 유추되는 모드에 의해 컴퓨팅됨)의 결합으로서 형성된다.

일 실시예에서, 삼각형 파티션들 중 하나 또는 둘 다는 인터 예측 및 인트라 예측의 결합 ― 그 결합은 가중 평균에 의해 발생됨 ― 을 사용하여 예측되며, 여기서 가중값들은 유추되거나 또는 비트스트림에서 시그널링된다.

실시예들은 인터 예측에 연관된 가중값이 0이고 인트라 예측에 연관된 가중값이 1인 경우를 수용할 수 있으며; 이러한 경우, 두 개의 삼각형 파티션들 중 하나 또는 둘 다가 인트라 예측을 사용하여 완전히 예측될 것이다.

마찬가지로, 실시예들은 인터 예측에 연관된 가중값이 1이고 인트라 예측에 연관된 가중값이 0인 경우를 수용할 수 있으며; 이러한 경우, 두 개의 삼각형 파티션들 중 하나가 인터 예측을 사용하여 완전히 예측될 것이다.

배경으로, "VVC"라는 제목으로 비디오 압축 표준의 확립을 위한 작업이 MPEG 및 VCEG에 의해 형성된 JVET에 의해 의뢰되었다. 초안 VVC 사양에서 현재 채택된 삼각형 예측에 대한 접근법이 이제 설명될 것이다.

가능한 40 개 삼각형 후보들의 리스트가 고려된다. 이 리스트는 다음의 모든 가능한 조합들로 구성된다:

1. 가능한 5 개 병합 후보들;

2. 두 개의 대각선들의 각각을 따라 블록을 분할하는 것에 해당하는 상이한 2 개의 "분할들".

이 프로세스에서, 각각의 삼각형 파티션은 상이한 병합 후보들을 사용해야만 한다. 따라서, 총 5x5 - 5 = 20 개의 가능한 병합 후보 쌍들이 이용 가능하다. 블록이 어느 하나의 대각선을 따라 분할될 수 있다는 점을 고려하면, 이는 삼각형 후보들의 총 수가 40 개가 되게 한다.

두 개의 삼각형 예측들 사이의 에지는 평활화 필터에 의해 평활화된다.

총 40 개 후보들이 미리 정의된 룩업 테이블(look-up table)에 저장되게 하는 메커니즘에 의해 시그널링이 일어난다. 그 다음에, 시그널링에 대한 하나의 접근법에서, 후보가 리스트에서의 처음 두 개의 후보들 중 하나인지의 여부를 결정하기 위해 한 비트가 시그널링되며; 이것이 그 경우라면, 추가적인 비트가 그 후보가 리스트에서 첫 번째인지 또는 두 번째인지를 식별하기 위해 시그널링된다. 그 후보가 리스트에서의 처음 두 개의 후보들 중 하나가 아니면, 데이터 압축에 대한 추가의 접근법이 사용된다. 하나의 옵션은 룩업 테이블의 나머지 38 개 엘리먼트들 중에서 현재 엘리먼트의 위치를 시그널링하기 위해 지수 골롬(exponential Golomb) 코딩의 형태를 사용하는 것이다.

독자는 본 명세서에서 개시되는 실시예들이 위의 접근법으로 그것들의 적용이 제한되지 않는다 ― 파티셔닝을 위한, 삼각형 후보들의 리스트를 어셈블하기 위한, 시그널링하기 위한, 및 시그널링하기 위한 데이터를 인코딩하기 위한 상이한 기법들이 채용될 수 있고 본 개시는 임의의 하나의 구현예로 강제되지 않는다 ― 는 것을 이해할 것이다.

본 명세서에서 개시되는 실시예들은 블록의 두 개의 삼각형 파티션들의 각각을 컴퓨팅하기 위해 인트라 예측 및 인터 예측의 결합을 사용한다. 결과적인 가중된 인트라 및 인터 예측들은 그 다음에 기존의 VVC 삼각형 예측들과 동일한 방식으로 처리되며, 이는 그들 예측들이 블록의 두 개의 삼각형 파티션들 사이의 경계를 형성하는 에지에서 평활화될 수 있다는 것을 의미한다.

위에서 언급된 바와 같이, 가능한 삼각형 후보들 중 어느 것이 인코딩에서 채용되었는지를 식별하기 위해, 인코더에 의한 시그널링과, 대응하여, 디코더에 의해 수신된 비트스트림 상에서 시그널링되는 정보의 해석을 가능하게 하기 위해 룩업 테이블이 확립될 수 있다.

하나의 실시예에서, 지금까지 설명된 룩업 테이블은 삼각형 파티션들 중의 하나를 예측하기 위해 인트라 예측을 수행하는 것에 대응하는 추가적인 후보들을 포함하도록 확장될 수 있다. 예를 들면, 추가적인 8 개 후보들이 인트라 예측 후보를 사용하여 두 개의 삼각형 파티션들 중 하나를 예측하는 것을 고려하기 위해 가능한 삼각형 조합들의 리스트에 포함될 수 있다. 해당 인트라 예측을 식별하는데 사용될 수 있는 인덱스들 ― 인덱스가 상이한 각각의 인트라 예측 모드를 위해 사용됨 ― 은 삼각형 파티션들 중 하나를 예측하는데 사용되며, 여기서 이들 인덱스들은 인터 예측을 위해 사용되는 다양한 병합 후보들을 식별하는데 사용되는 현존 인덱스들과는 상이하다.

추가적인 8 개 후보들은, 예를 들면 다음을 사용하는 것에 해당할 수 있다:

1. 하나의 삼각형 파티션을 인트라 예측하기 위한 평면 예측과 다른 삼각형 파티션을 인터 예측하기 위한 병합 후보 0 또는 병합 후보 1. 총 4 개의 가능한 옵션들이 이용 가능하다. 두 개의 상이한 "분할들"을 고려하면, 이는 추가적인 후보들의 총 수가 8이 되게 한다.

2. 하나의 삼각형 파티션을 인트라 예측하기 위한 평면 예측 또는 DC 예측과 다른 삼각형 파티션을 인터 예측하기 위한 병합 후보 0. 다시, 총 4 개의 가능한 옵션들이 이용 가능하다. 두 개의 상이한 "분할들"을 고려하면, 이는 추가적인 후보들의 총 수가 8이 되게 한다.

독자는, 위에서 제안된 8 개 외에도, 인트라 예측 모드를 이용한 하나의 삼각형 파티션과 인터 예측을 이용한 다른 삼각형 파티션의 예측으로 형성되는 상이한 옵션들을 나타내기 위해 추가의 후보들이 리스트에 추가될 수 있다는 것을 이해할 것이다.

다른 실시예에서, 인트라 예측된 블록들에서 인트라 예측 모드를 인코딩 및 디코딩하기 위해 사용되는 최고 가능 모드들(Most Probable Modes)(MPM)의 리스트를 컴퓨팅하는데 사용되는 프로세스는 삼각형 파티션들의 각각에서 사용하는 인트라 예측 모드를 시그널링하는데 사용될 수 있다. 예를 들면, 룩업 테이블에서의 각각의 엘리먼트는 특정 인트라 예측 모드를 지칭하는 MPM 리스트에서의 특정 위치를 지칭할 수 있다.

다른 실시예에서, 룩업 테이블은 삼각형 파티션들 중의 하나를 예측하기 위해 인트라 예측 및 인터 예측의 결합을 수행하는 것에 대응하는 추가적인 후보들을 포함하도록 확장될 수 있다. 인트라 예측과 인터 예측이 두 개의 삼각형 파티션들 중 하나 또는 둘 다에 대해 컴퓨팅된다. 단지 하나의 삼각형 파티션이 인트라 예측 및 인터 예측의 결합을 사용하여 예측되면, 다른 삼각형 파티션은 기존의 병합 인터 예측 또는 기존의 인트라 예측을 사용하여 예측된다. 인트라 예측 및 인터 예측의 결합은 예를 들면 가중 평균에 의해 일어날 수 있다.

예를 들면, 추가적인 8 개 후보들이 가능한 삼각형 조합들의 리스트에 포함될 수 있다. 인덱스가 특정 인트라 예측 모드, 주어진 가중값, 및 특정 병합 후보 인터 예측의 주어진 결합을 식별하는데 사용되는 인덱스들이 인트라 예측 및 인터 예측의 결합이 필요함을 식별하기 위해 사용되며, 여기서 이들 인덱스들은 기존의 인터 예측을 위해 사용되는 병합 후보들을 식별하는데 사용되는 현존 인덱스들과는 상이하다. 추가적인 8 개 후보들은, 예를 들면, 하나의 삼각형 파티션을 예측하기 위한 병합 후보 0 및 다른 삼각형 파티션을 인터 예측하기 위한 병합 후보 0과 조합하여 평면 예측을 사용하는 것에 대응할 수 있으며, 여기서 가중값들의 두 개의 쌍들, 예를 들면 (0.5, 0.5)의 동일한 가중값 쌍과, (0.75, 0.25)의 비대칭 가중값 쌍이 인터 예측 및 인트라 예측의 결합을 수행하는데 사용된다. 총 4 개의 가능한 옵션들이 이용 가능하다. 두 개의 상이한 "분할들"을 고려하면, 이는 추가적인 후보들의 총 수가 8이 되게 한다.

인트라 예측 모드 및 인터 예측의 결합에 의해 적어도 하나의 삼각형 파티션을 예측하는 것을 포함하는 상이한 옵션들을 나타내기 위해 8 개를 초과하는 후보들이 리스트에 추가될 수 있으며; 동일한 블록의 다른 삼각형 파티션은 인터 예측에 의해 예측될 수 있다.

다른 실시예에서, 기존의 인터 예측 대신 인트라 예측 및 인터 예측의 결합이 사용되는지의 여부를 시그널링하기 위해, 추가적인 플래그가 두 개의 삼각형 파티션들의 각각에 대해 비트스트림 상에서 시그널링된다. 추가적인 시그널링은 상이한 인트라 예측 모드들의 사용을 결정하기 위해 시그널링될 수 있다. 예를 들면, 인트라 예측 모드의 시그널링을 위해 MPM을 컴퓨팅하는 메커니즘이 구현되면, 시그널링은 사용할 적절한 인트라 예측 모드를 결정하기 위해 MPM이 전개되어야 함을 지시할 수 있다. 마찬가지로, 인트라 예측 모드들의 미리 정의된 리스트가 구현될 수 있고, 시그널링은 인트라 예측 모드가 미리 정의된 리스트로부터 어떻게 선택되어야 하는지를 결정하기 위해 채용될 수 있다. 추가적인 시그널링은 인트라 예측 및 인터 예측의 결합을 수행하기 위한 상이한 가중값들의 사용을 결정하기 위해 추가로 시그널링될 수 있다.

본 개시에서 설명되는 일 실시예가 고정된 가중값 세트를 채용한다. 가중값들은 룩업 테이블들에서 이용 가능하며, 룩업 테이블들에서 상이한 가중값들이 블록 사이즈와 같은 또는 다른 가용 정보에 따라 달라지는 상이한 특성들을 갖는 블록들에 이용될 수 있다. 룩업 테이블들은 적절히 구성되는 인코더들 및 디코더들에 미리 제공될 수 있다. 대안적으로, 룩업 테이블들은 인코딩된 비디오의 송신물의 일부로서, 또는 사전 구성 송신물로서 중 어느 하나로서 인코더에서부터 디코더로 송신될 수 있다.

그 다음에 룩업 테이블로부터 올바른 엘리먼트를 추출하기 위한 인덱스가 예측을 수행할 때 올바른 가중값 세트가 선택 및 사용될 수 있도록 비트스트림으로부터 디코딩된다.

다른 실시예에서, 인덱스를 LUT 엔트리에 전달하는 대신, 가중값 또는 가중값들은 비트스트림으로부터 직접 추출될 수 있다.

도 1에 도시된 바와 같이, 발신기(20)와 수신기(30)가 통신 채널(40)을 통해 통신하는 개략적인 비디오 통신 네트워크(10)를 포함하는 배열체가 예시된다. 실제로, 통신 채널(40)이 위성 통신 채널, 케이블 네트워크, 지상 기반 무선 브로드캐스트 네트워크, 국내 및 소규모 사업장 구내에 대한 인터넷 서비스들의 제공을 위해 사용되는 바와 같은 POTS 구현 통신 채널, 광섬유 통신 시스템들, 또는 위 및 임의의 다른 상상가능한 통신 매체 중 임의의 것의 조합을 포함할 수 있다.

더욱이, 본 개시는 매체를 판독하고 그로부터 비트스트림을 획득할 수 있는 적절히 구성되는 수신기로의 전달을 위해, 인코딩된 비트스트림의 머신 판독가능 레코드가 저장되는 저장 매체의 물리적 전달에 의한 통신으로 또한 확장된다. 이것의 일 예가 디지털 다기능 디스크(DVD) 또는 동등물의 제공이다. 다음 설명은 전자 또는 전자기 신호 캐리어에 의한 것과 같은 신호 송신에 초점을 맞추지만, 저장 매체를 수반하는 전술한 접근법을 배제하는 것으로서 읽혀지지 않아야 한다.

도 2에 도시된 바와 같이, 발신기(20)는 구조 및 기능에서 컴퓨터 장치이다. 이는 범용 컴퓨터 장치와 특정한 특징들을 공유할 수 있지만, 발신기(20)가 배치될 전문화된 기능이 주어지면, 일부 특징들은 구현예 특정일 수 있다. 독자는 범용 유형일 수 있는 특징들과, 비디오 발신기에서의 사용을 위해 구체적으로 구성되는 것이 요구될 수 있는 특징을 이해할 것이다.

발신기(20)는 따라서 그래픽 및 유사한 동작들을 프로세싱함에 있어서의 특정 사용을 위해 구성되는 그래픽 프로세싱 유닛(202)을 포함한다. 발신기(20)는 또한 일반적으로 제공되거나, 또는 수학적 연산들, 오디오 프로세싱, 통신 채널 관리 등과 같은 다른 목적들을 위해 구성되는 하나 이상의 다른 프로세서들(204)을 포함한다.

입력 인터페이스(206)가 사용자 입력 액션들의 수신을 위한 설비를 제공한다. 이러한 사용자 입력 액션들은, 예를 들면, 하나 이상의 제어 버튼들 및/또는 스위치들, 키보드, 마우스 또는 다른 포인팅 디바이스를 포함하는 특정 입력 유닛, 스피치를 수신하고 제어 커맨드들로 프로세싱하는 것이 가능하게 된 스피치 인식 유닛, 태블릿 또는 스마트폰과 같은 다른 디바이스로부터의 프로세스들을 수신하고 제어하도록 구성되는 신호 프로세서, 또는 원격 제어 수신기와의 사용자 상호작용에 의해 야기될 수 있다. 이 리스트는 완전하지 않을 것이라는 것이 이해될 것이고 다른 입력 형태들이 사용자가 개시하든 또는 자동화되든, 독자에 의해 예상될 수 있다.

비슷하게, 출력 인터페이스(214)가 사용자 또는 다른 디바이스로의 신호들의 출력을 위한 설비를 제공하도록 동작 가능하다. 이러한 출력은 로컬 비디오 디스플레이 유닛(video display unit)(VDU) 또는 임의의 다른 디바이스를 구동하기 위한 디스플레이 신호를 포함할 수 있다.

통신 인터페이스(208)는 브로드캐스트든 또는 단 대 단이든, 신호들의 하나 이상의 수신자들과 통신 채널을 구현한다. 본 실시예의 맥락에서, 통신 인터페이스는 발신기(20)에 의해 인코딩되는, 비디오 신호를 정의하는 비트스트림을 포함하는(bearing) 신호의 방출을 야기하도록 구성된다.

프로세서들(204)과, 구체적으로는 본 개시의 이익을 위해, GPU(202)는, 인코더의 동작 시, 컴퓨터 프로그램들을 실행하도록 동작 가능하다. 이를 하기 위해, 비교적 느린 액세스 기반일지라도 대규모 데이터 저장소를 제공하도록 구현되고, 실제로, 컴퓨터 프로그램들을, 그리고 현재 맥락에서, 인코딩 프로세스의 실행을 위한 준비에서, 비디오 프레젠테이션 데이터를 저장할 대용량 저장 디바이스(208)에 의해 제공되는 데이터 저장 설비들에 의지한다.

판독 전용 메모리(Read Only Memory)(ROM)(210)에는 발신기(20)의 기능의 핵심을 제공하도록 설계되는 실행가능 프로그램들이 사전 구성되고, 랜덤 액세스 메모리(212)가 컴퓨터 프로그램의 실행을 추구하여 데이터 및 프로그램 명령어들의 빠른 액세스 및 저장을 위해 제공된다.

발신기(20)의 기능이 도 3을 참조하여 이제 설명될 것이다. 도 3은 화상들의 시퀀스로서 순차적 디스플레이를 위한 복수의 프레임들을 포함하는 비디오 프레젠테이션을 나타내는 데이터파일 상에, 실행가능 명령어들에 의해 발신기(20) 상에 구현되는 인코더에 의해 수행되는 프로세싱 파이프라인을 도시한다.

데이터파일은 비디오 프레젠테이션을 수반하는 오디오 재생 정보와, 프레젠테이션의 카탈로그화를 가능하게 하는 전자 프로그램 안내 정보, 자막, 또는 메타데이터와 같은 추가의 보충적인 정보를 또한 포함할 수 있다. 데이터파일의 이들 양태들의 프로세싱은 본 개시에 관련이 없다.

도 3을 참조하면, 화상들의 시퀀스에서의 현재 화상 또는 프레임은 파티셔닝 모듈(230)에 전해지며 거기서 인코더에 의한 프로세싱을 위한 주어진 사이즈의 직사각형 블록들로 파티셔닝된다. 이 프로세싱은 순차적이거나 또는 병렬적일 수 있다. 접근법은 특정 구현예의 프로세싱 능력들에 따라 달라질 수 있다.

각각의 블록은 그 다음에 예측 모듈(232)에 입력되며, 예측 모듈은 시퀀스에 존재하는 시간적 및 공간적 리던던시들을 폐기하고 이전에 코딩된 콘텐츠를 사용하여 예측 신호를 획득하는 것을 추구한다. 이러한 예측의 컴퓨테이션을 가능하게 하는 정보는 비트스트림에 인코딩된다. 이 정보는 예측을 완료하는데 필요한 다른 정보의 수신기에서의 추론의 가능성을 포함하여, 컴퓨테이션을 가능하게 하는 충분한 정보를 포함해야 한다.

예측 신호는 잔차 신호를 획득하기 위해 원래 신호로부터 감산된다. 이는 그 다음에 변환 모듈(234)에 입력되며, 변환 모듈은 데이터의 더 적합한 표현을 사용함으로써 블록 내의 공간적 리던던시들을 추가로 감소시키려고 시도한다. 독자는, 일부 실시예들에서, 도메인 변환이 옵션적인 스테이지일 수 있고 완전히 필요 없을 수 있다는 것에 주의할 것이다. 도메인 변환의 채용, 또는 그 외의 것이, 비트스트림에서 시그널링될 수 있다.

결과적인 신호는 그 다음에 양자화 모듈(236)에 의해 일반적으로 양자화되고, 최종적으로 현재 블록에 대한 예측을 컴퓨팅하는데 필요한 정보와 계수들로 형성된 결과적인 데이터는 짧은 이진 코드들에 의해 콤팩트 형태로 신호를 표현하기 위해 통계적인 리던던시를 사용하는 엔트로피 코딩 모듈(238)에 입력된다.　 다시, 독자는 엔트로피 코딩이, 일부 실시예들에서, 옵션적인 특징일 수 있고 특정한 경우들에서 함께 생략될 수 있다는 것에 주의해야 할 것이다. 엔트로피 코딩의 채용은, 엔트로피 코딩 모드(예를 들어, 허프만 코딩)에 대한 인덱스 및/또는 코드 북과 같이, 디코딩을 가능하게 하는 정보와 함께 비트스트림에서 시그널링될 수 있다.

발신기(20)의 인코딩 설비의 반복된 액션에 의해, 블록 정보 엘리먼트들의 비트스트림이 경우에 따라 수신기 또는 복수의 수신기들로의 송신을 위해 구성될 수 있다. 비트스트림은 또한 복수의 블록 정보 엘리먼트들에 걸쳐 적용되는 정보 엘리먼트들을 포함(bear)할 수 있고 따라서 블록 정보 엘리먼트들과는 독립적으로 비트스트림 신택스로 유지된다. 이러한 정보 엘리먼트들의 예들은 구성 옵션들, 프레임들의 시퀀스에 적용 가능한 파라미터들, 및 전체 비디오 프레젠테이션에 관련된 파라미터들을 포함한다.

예측 모듈(232)은 이제 도 4를 참조하여 더 상세히 설명될 것이다. 이해될 바와 같이, 이는 일 예일 뿐이고, 본 개시 및 첨부의 청구항들의 범위 내의 다른 접근법들이 생각될 수 있다.

다음 프로세스는 인터 예측된 프레임에서 각각의 모션 보상된 블록에 대해 수행된다.

예측 모듈(232)은 프레임으로부터 파티셔닝된 주어진 블록에 대해, 그 블록에 삼각형 파티셔닝을 적용하는 것이 유리한지의 여부를 결정하고, 그렇다면, 그 블록에 대한 삼각형 파티션들과, 그 블록이 삼각형 파티셔닝을 받은 방식과 그 다음에 삼각형 파티션들이 디코딩될 방법에 관해 디코더로의 시그널링을 가능하게 하는 파티셔닝 정보를 생성하도록 구성된다. 그 다음에 예측 모듈은, 적용 가능하다면, 삼각형 파티셔닝의 선택된 모드를 적용한 다음, 예측을 결정하고, 그것을 기반으로 잔차들이 이전에 언급된 바와 같이 생성될 수 있다. 채용된 예측은 적절히 구성되는 디코더에 의한 수신 및 해석을 위해, 비트스트림에서 시그널링된다. 인코더가 삼각형 파티셔닝을 블록에 적용하는 것이 유리하지 않다고 결정하는 경우, 기존의 인터 예측 및/또는 기존의 인트라 예측 기법들을 포함한 기존의 예측 방법들이 블록의 콘텐츠를 예측하기 위해 채용될 수 있다. 인코더는, 플래그에 의해, 비트스트림 상에서, 삼각형 파티셔닝이 채용되었는지의 여부를 시그널링할 것이다.

그러므로 도 4에 예시된 인코더 측 알고리즘으로 가면, 단계 S102에서, 후보 삼각형 파티션들의 세트가 당해 블록을 위해 어셈블된다. 후보들은, 이전에 설명된 바와 같이, 병합 후보들 및 대각 분할들의 가능한 조합들을 사용하여 어셈블된다. 이는 두 개의 대각선 분할들에 걸쳐 다양한 병합 예측 옵션들로부터 획득되는 40 개 후보들과 그에 더하여, 위에서 설명된 바와 같은 인트라 예측을 수반하는 후보들에 대한 확장을 포함할 것이다. 따라서, 이는, 이전에 논의된 바와 같이, 인터 예측 및 인트라 예측의 결합을 수반하는 후보들의 선택 가능성을 가능하게 할 수 있다. 다른 예로서, LUT는 두 개의 대각선 분할들에 걸쳐 5 개 MPM 인트라 예측 모드 옵션들로부터 획득되는 40 개 후보들을 포함할 수 있다. 이는, 이전에 논의된 바와 같이, 각각의 삼각형 파티션에 대한 인트라 예측을 수행하는 것을 수반하는 후보들의 선택 가능성을 가능하게 할 수 있다.

그 다음에 루프가 단계 S104에서 시작되어, 동작들이 각각의 후보 삼각형 파티션에 대해 수행된다. 각각의 삼각형 파티션 후보에 대해, 단계 S106에서, 해당 후보에 연관된 모드를 사용하여 예측이 결정된다. 단계 S108에서, 해당 예측을 위해, 원본 데이터에 대해 예측의 정확도의 점수를 포함하는 품질 측정치가 결정된다. 단계 S110은 루프의 폐쇄를 의미한다.

따라서, 모든 후보들이 고려될 때, 단계 S112에서, 최상의 품질 스코어를 갖는 후보는 선택된다. 이 후보의 속성들은 그 다음에 이를테면 룩업 테이블에서 확립된 인코딩을 사용하여 또는 위에서 설명된 바와 같은 골롬 코드를 사용하여 인코딩된다. 이들 속성들은 비트스트림에 송신을 위해 추가된다.

수신기의 구조적인 아키텍처는 도 5에서 예시된다. 이는 컴퓨터에 의해 구현되는 장치라는 엘리먼트들을 갖는다. 수신기(30)는 따라서 그래픽 및 유사한 동작들을 프로세싱함에 있어서의 특정 사용을 위해 구성되는 그래픽 프로세싱 유닛(302)을 포함한다. 수신기(30)는 또한 일반적으로 제공되거나, 또는 수학적 연산들, 오디오 프로세싱, 통신 채널 관리 등과 같은 다른 목적들을 위해 구성되는 하나 이상의 다른 프로세서들(304)을 포함한다.

독자가 인식할 바와 같이, 수신기(30)는 셋톱 박스, 핸드헬드 개인용 전자 디바이스, 개인용 컴퓨터, 또는 비디오 프레젠테이션들의 재생에 적합한 임의의 다른 디바이스의 형태로 구현될 수 있다.

입력 인터페이스(306)가 사용자 입력 액션들의 수신을 위한 설비를 제공한다. 이러한 사용자 입력 액션들은, 예를 들면, 하나 이상의 제어 버튼들 및/또는 스위치들, 키보드, 마우스 또는 다른 포인팅 디바이스를 포함하는 특정 입력 유닛, 스피치를 수신하고 제어 커맨드들로 프로세싱하는 것이 가능하게 된 스피치 인식 유닛, 태블릿 또는 스마트폰과 같은 다른 디바이스로부터의 프로세스들을 수신하고 제어하도록 구성되는 신호 프로세서, 또는 원격 제어 수신기와의 사용자 상호작용에 의해 야기될 수 있다. 이 리스트는 완전하지 않을 것이라는 것이 이해될 것이고 다른 입력 형태들이 사용자가 개시하든 또는 자동화되든, 독자에 의해 예상될 수 있다.

비슷하게, 출력 인터페이스(314)가 사용자 또는 다른 디바이스로의 신호들의 출력을 위한 설비를 제공하도록 동작 가능하다. 이러한 출력은 로컬 텔레비전 디바이스를 구동하기 위한 적합한 포맷에서 텔레비전 신호를 포함할 수 있다.

통신 인터페이스(308)는 브로드캐스트든 또는 단 대 단이든, 신호들의 하나 이상의 수신자들과 통신 채널을 구현한다. 본 실시예의 맥락에서, 통신 인터페이스는 수신기(30)에 의해 인코딩되는, 비디오 신호를 정의하는 비트스트림을 포함하는 신호의 방출을 야기하도록 구성된다.

프로세서들(304)과, 구체적으로는 본 개시의 이익을 위해, GPU(302)는, 수신기의 동작 시, 컴퓨터 프로그램들을 실행하도록 동작 가능하다. 이를 하기 위해, 비교적 느린 액세스 기반일지라도 대규모 데이터 저장소를 제공하도록 구현되고, 실제로, 컴퓨터 프로그램들을, 그리고 현재 맥락에서, 수신 프로세스의 실행으로부터 초래되는, 비디오 프레젠테이션 데이터를 저장할 대용량 저장 디바이스(308)에 의해 제공되는 데이터 저장 설비들에 의지한다.

판독 전용 메모리(ROM)(310)에는 수신기(30)의 기능의 핵심을 제공하도록 설계되는 실행가능 프로그램들이 사전 구성되고, 랜덤 액세스 메모리(312)가 컴퓨터 프로그램의 실행을 추구하여 데이터 및 프로그램 명령어들의 빠른 액세스 및 저장을 위해 제공된다.

수신기(30)의 기능이 도 6을 참조하여 이제 설명될 것이다. 도 6은 발신기(20)의 인코더 기능에 의해 인코딩된 프레임들의 복원을 포함하여, 비디오 프레젠테이션이 도출될 수 있는 구조화된 정보를 포함하는 수신기(30)에서 수신된 비트스트림에 대해, 실행가능 명령어들에 의해 수신기(20) 상에 구현되는 디코더에 의해 수행되는 프로세싱 파이프라인을 도시한다.

도 6에 예시된 디코딩 프로세스는 인코더에서 수행되는 프로세스를 역으로 하는 것을 목표로 한다. 독자는 이것이 디코딩 프로세스가 인코딩 프로세스의 정확한 역임을 의미하지 않는다는 것을 인식할 것이다.

수신된 비트 스트림이 각각의 정보 엘리먼트가 블록에 관련되는 일련의 인코딩된 정보 엘리먼트들을 포함한다. 블록 정보 엘리먼트가 엔트로피 디코딩 모듈(330)에서 디코딩되어 현재 블록에 대한 예측을 컴퓨팅하는데 필요한 정보 및 계수들의 블록이 획득된다. 계수들의 블록은 역 양자화 모듈(332)에서 일반적으로 역 양자화되고 일반적으로 변환 모듈(334)에 의해 공간 도메인으로 역 변환된다.

위에서 언급된 바와 같이, 독자는 각각 엔트로피 인코딩, 양자화 및 변환이 발신기에서 채용되었다면, 엔트로피 디코딩, 역 양자화 및 역 변환만이 수신기에서 채용될 필요가 있다는 것을 인식할 것이다.

예측 모듈(336)에 의해, 현재 또는 이전 프레임들로부터의 이전에 디코딩된 샘플들로부터 그리고 비트 스트림으로부터의 디코딩된 정보를 사용하여, 예측 신호가 이전과 같이 생성된다. 원래의 화상 블록의 복원이 그 다음에 복원 블록(338)에서 디코딩된 잔차 신호 및 계산된 예측 블록으로부터 도출된다.　 예측 모듈(336)은 삼각형 파티셔닝의 사용을 시그널링하는, 비트스트림 상의 정보에 응답하고, 이러한 정보가 존재하면, 비트스트림으로부터 삼각형 파티셔닝이 구현된 모드를 판독하고 따라서 블록 정보 샘플의 복원에서 채용되어야 하는 예측 기법을 판독한다.

연속적으로 수신된 블록 정보 엘리먼트들에 대한 디코딩 기능의 반복된 액션에 의해, 화상 블록들은 재생을 위한 비디오 프레젠테이션 생성하기 위해 어셈블될 수 있는 프레임들로 복원될 수 있다

이전에 설명된 인코더 알고리즘을 보완하는 예시적인 디코더 알고리즘이 도 7에 예시된다.

이전에 언급된 바와 같이, 수신기(30)의 디코더 기능은 비트스트림으로부터 블록 정보를 정의하는, 발신기(20)의 인코더 설비에 의해 인코딩된 바와 같은 일련의 블록 정보 엘리먼트들과 수반되는 구성 정보를 추출한다.

일상적인 말로, 디코더는 현재 블록에 대한 예측을 구축함에 있어서, 이전 예측들로부터의 정보 자체를 이용한다. 이렇게 함에 있어서, 디코더는 인터 예측으로부터의, 즉, 이전 프레임으로부터의 지식과, 인트라 예측, 즉, 동일한 프레임의 다른 블록으로부터의 지식을 결합할 수 있다.

따라서, 병합 예측된 블록의 경우, 단계 S202에서, 예측 후보의 형성을 가능하게 하는 정보는 비트스트림으로부터 추출된다. 이는 삼각형 예측이 사용되었는지의 여부를 지시하는 구문 형식의 이진수일 수 있는 플래그의 형태일 수 있다.

단계 S204에서, 이 플래그의 값에 따라 결정이 내려진다. 삼각형 예측이 병합 예측된 블록에 대해 사용되는 것이면, 단계 S206에서, 가능한 삼각형 예측 옵션들의 리스트를 포함하는 룩업 테이블이 고려된다. 이 리스트는 미리 결정될 수 있거나, 또는 가용 정보(이를테면 사이즈 또는 블록)로부터 유추된 정보에 따라 달라질 수 있다. 이는 수신기에서 미리 저장될 수 있거나, 또는 이는 비트스트림 상에서 수신기에 송신될 수 있다. 이 사전 송신은 현재 비트스트림 송신의 시작 송신에 있을 수 있거나 또는, 예를 들면, 특정 사양으로 인코딩된 비트스트림들을 디코딩할 수 있도록 수신기를 구성하기 위해 수신기에 대한 사전구성 송신으로 있을 수 있다.

단계 S208에서, 룩업 테이블에서의 항목이 예측을 생성함에 있어서 채용되는 것임을 시그널링하기 위해 인덱스가 비트스트림으로부터 추출된다. 단계 S210에서, 룩업 테이블은, 인덱스에 따라, 사용될 삼각형 예측 모드를 정의하는 속성들의 세트를 획득하기 위해 참조된다. 그 속성들은, 종합적으로, 예측 구성 속성들로서 간주될 수 있으며, 그 속성들은 디코더가 블록 샘플들의 예측을 구성하는 방식, 삼각형 파티셔닝이 채용될지의 여부, 및 그렇다면, 인터 예측, 인트라 예측, 또는 그것들의 결합이 사용될 것인지의 여부를 구성하기 위해 디코더에 의해 사용될 수 있다. 그 속성들은 예를 들면 이를테면 가중값 파라미터들, 또는 미리 결정된 가중값 파라미터들의 다른 테이블에 대한 인덱스를 포함하여, 그 결합이 구현되어야 하는 방법을 또한 특정할 수 있다.

인덱스에 대응하는 룩업 테이블로부터 추출된 속성들의 세트에 따르면, 다음이 결정된다:

블록을 두 개의 삼각형 파티션들로 파티셔닝하는 특정 방식(즉, 블록이 분할되어야 하는 대각선의 방향)

a) 다음 중 하나 이상을 포함할 수 있는 제1 삼각형 파티션을 예측하는 특정 방식:

i) 삼각형 파티션에서 샘플들에 대한 인터 예측을 형성하기 위한 특정 인터 예측 모드;

ii) 삼각형 파티션에서 샘플들에 대한 인트라 예측을 형성하기 위한 특정 인트라 예측 모드;

iii) 인트라 예측 및 인터 예측 중의 각각에서의 각각의 샘플을 결합하여 삼각형 파티션에서 해당 샘플의 결합 예측을 형성하기 위한 특정 쌍의 가중값들;

b) 다음 중 하나 이상을 포함할 수 있는 제2 삼각형 파티션을 예측하는 특정 방식:

iii) 인트라 예측 및 인터 예측 중의 각각에서의 각각의 샘플을 결합하여 삼각형 파티션에서 해당 샘플의 결합 예측을 형성하기 위한 특정 쌍의 가중값들.

단계 S212에서, 단계 S210에서 결정된 특정 특성들을 사용하여 예측이 생성된다.

대안에서, 삼각형 예측이 이전에 설명된 플래그를 사용하여 시그널링되지 않았으면, 기존의 기법들은, 단계 S220에서, 병합 예측된 블록의 예측을 생성하기 위해 사용된다.

본 발명은 위에서 설명된 실시예들과 다양한 수정들로 제한되지 않고 개선들은 본 개시에서 설명되는 개념들로부터 벗어남 없이 이루어질 수 있다는 것이 이해될 것이다. 상호 배타적인 경우를 제외하면, 특징들 중 임의의 것은 따로따로 또는 임의의 다른 특징들과 조합하여 채용될 수 있고 본 개시는 본 개시에서 설명되는 하나 이상의 특징들의 모든 조합들 및 하위 조합들로 확장되고 그러한 조합들 및 하위 조합들을 포함한다.

Claims

비트스트림 상의 블록을 디코딩하기 위한 디코더로서, 상기 디코더는 상기 비트스트림으로부터 삼각형 예측 구성 정보를 추출하도록 동작 가능하며, 상기 삼각형 예측 구성 정보를 기반으로 상기 디코더는 상기 블록의 삼각형 파티션에 대응하는 두 개의 부분들을 포함하는 예측을 생성하도록 동작 가능하며, 상기 부분들 중 적어도 하나의 부분은 인트라 예측에 의해 획득된 정보를 사용하여 예측되는, 디코더.
제1항에 있어서, 상기 디코더는 상기 부분들 중 적어도 하나의 부분이 병합 예측을 사용하여 예측되는 상기 예측을 생성하도록 동작 가능한, 디코더.
제1항 또는 제2항에 있어서, 상기 디코더는 상기 부분들 중 적어도 하나의 부분이 인터 예측 및 인트라 예측의 결합을 기반으로 예측되는 상기 예측을 생성하도록 동작 가능한, 디코더.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 디코더는, 상기 비트스트림으로부터, 복수의 예측 구성 속성 세트 중 하나의 예측 구성 속성 세트에 대한 인덱스를 포함하는 삼각형 예측 정보를 추출하도록 동작 가능하며, 각각의 예측 구성 속성 세트는 특정 삼각형 파티션 기반 예측 모드에 따라 예측을 생성하도록 상기 디코더를 구성하는데 사용될 수 있는, 디코더.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 디코더는, 상기 비트스트림으로부터, 특정 삼각형 파티션 기반 예측 모드에 따라 예측을 생성하기 위해 상기 디코더를 구성하도록 사용될 수 있는 예측 구성 속성들을 추출하도록 동작 가능한, 디코더.
제4항 또는 제5항에 있어서, 각각의 예측 구성 속성 세트는 블록의 샘플들이 제1 및 제2 삼각형 파티션들로 삼각으로 파티셔닝되는 방향을 나타내는 분할 속성을 포함하는, 디코더.
제4항 내지 제6항 중 어느 한 항에 있어서, 각각의 예측 구성 속성 세트는,
상기 디코더가 상기 제1 삼각형 파티션에서의 상기 샘플들에 대한 인터 예측을 형성하기 위한 기반이 되는 인터 예측 모드 지시자;
상기 디코더가 상기 제1 삼각형 파티션에서의 상기 샘플들에 대한 인트라 예측을 형성하기 위한 기반이 되는 인트라 예측 모드 지시자; 및
상기 인트라 예측 및 인터 예측의 각각에서의 상기 샘플들이 상기 제1 삼각형 파티션에서 해당 샘플의 결합 예측을 형성하도록 결합되기 위한 기반에 되는 가중값들(weightings)
중 적어도 하나를 포함하는, 디코더.
제4항 내지 제7항 중 어느 한 항에 있어서, 각각의 예측 구성 속성 세트는,
상기 디코더가 상기 제2 삼각형 파티션에서의 상기 샘플들에 대한 인터 예측을 형성하기 위한 기반이 되는 인터 예측 모드 지시자;
상기 디코더가 상기 제2 삼각형 파티션에서의 상기 샘플들에 대한 인트라 예측을 형성하기 위한 기반이 되는 인트라 예측 모드 지시자; 및
상기 인트라 예측 및 인터 예측의 각각에서의 상기 샘플들이 상기 제2 삼각형 파티션에서 해당 샘플의 결합 예측을 형성하도록 결합되기 위한 기반에 되는 가중값들
중 적어도 하나를 포함하는, 디코더.
제4항 내지 제8항 중 어느 한 항에 있어서, 상기 예측 구성 속성들은 인터 예측을 위해 사용되는 병합 후보들의 리스트를 기반으로 적어도 부분적으로 컴퓨팅되는, 디코더.
제4항 내지 제9항 중 어느 한 항에 있어서, 상기 예측 구성 속성들은 인트라 예측을 위해 사용되는 최고 가능 모드들(most probable modes)의 리스트를 기반으로 적어도 부분적으로 컴퓨팅되는, 디코더.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 디코더는, 상기 비트스트림으로부터, 각각의 삼각형 예측 파티션에 대한 플래그를 포함하는 정보를 추출하도록 동작 가능하며, 각각의 플래그는 특정 삼각형 파티션 기반 예측 모드에 따라 상기 삼각형 파티션이 인트라 예측에 의해 예측되어야 하는지의 여부를 결정하는, 디코더.
비트스트림 상의 블록을 디코딩하는 방법으로서, 상기 비트스트림으로부터 삼각형 예측 구성 정보를 추출하는 단계, 및 상기 블록의 삼각형 파티션에 대응하는 두 개의 부분들을 포함하는 예측을 생성하는 단계를 포함하며, 상기 부분들 중 적어도 하나의 부분은 인트라 예측에 의해 획득된 정보를 사용하여 예측되는, 방법.
비트스트림 상의 디스패치용 블록을 인코딩하도록 동작 가능한 인코더로서, 상기 인코더는 상기 블록의 삼각형 파티션에 대응하는 두 개의 부분들을 포함하는 예측을 생성하도록 동작 가능하며, 상기 부분들 중 적어도 하나의 부분은 인트라 예측에 의해 획득된 정보를 사용하여 예측되며, 상기 인코더는 상기 블록의 해당 예측을 생성함에 있어서 디코더에 의한 사용을 위한 삼각형 예측 구성 정보를 상기 비트스트림 상에 배치하도록 동작 가능한, 인코더.
비트스트림 상의 디스패치용 블록을 인코딩하는 방법으로서, 상기 블록의 삼각형 파티션에 대응하는 두 개의 부분들을 포함하는 예측을 생성하는 단계 - 상기 부분들 중 적어도 하나의 부분은 인트라 예측에 의해 획득된 정보를 사용하여 예측됨 -, 및 상기 블록의 해당 예측을 생성함에 있어서 디코더에 의한 사용을 위한 삼각형 예측 구성 정보를 상기 비트스트림 상에 배치하는 단계를 포함하는, 방법,
인코딩된 블록을 정의하는 정보를 포함하는(bearing) 신호로서, 상기 정보는 제1항 내지 제11항 중 어느 한 항에 따른 디코더에 의한 사용에 적합한 삼각형 예측 구성 정보를 포함하는, 신호.
인코딩된 블록을 정의하는 정보를 저장하는 저장 매체로서, 상기 정보는 제1항 내지 제11항 중 어느 한 항에 따른 디코더에 의한 사용에 적합한 삼각형 예측 구성 정보를 포함하는, 저장 매체.