KR101646856B1

KR101646856B1 - 감소된 해상도 화소 보간

Info

Publication number: KR101646856B1
Application number: KR1020147002146A
Authority: KR
Inventors: 무하메드 제이드 코반; 페이송 천; 마르타 카르체비츠
Original assignee: 퀄컴 인코포레이티드
Priority date: 2011-07-01
Filing date: 2012-06-29
Publication date: 2016-08-08
Also published as: CN103650495A; US9055304B2; JP2014521257A; KR20140030317A; US20130010865A1; EP2727345A1; JP5766878B2; WO2013006473A1

Abstract

오프셋을 적용하는 것이 중간 값의 비트심도를 감소시키도록 보간 필터링 동작을 수행하는 중에 획득된 중간 값들에 오프셋이 적용될 수 있다. 중간 값은 감소된 비트심도로 저장될 수 있고, 취출되는 경우, 오프셋이 다시 가산될 수 있어 원래의 비트심도를 갖는 중간 값을 이용하여 추후 산출이 수행될 수 있다.

Description

감소된 해상도 화소 보간{REDUCED RESOLUTION PIXEL INTERPOLATION}

본 출원은 2011 년 7 월 1 일에 출원된 미국 가출원 제 61/504,149 호; 2011 년 7 월 8 일에 출원된 미국 가출원 제 61/506,016 호; 2011 년 7 월 9 일에 출원된 미국 가출원 제 61/506,059 호; 2011 년 7 월 13 일에 출원된 미국 가출원 제 61/507,564 호; 및 2011 년 10 월 19 일에 출원된 미국 가출원 제 61/549,131 호에 대한 우선권을 주장하며; 그 각각의 전체 내용들이 참조로 본원에 포함된다.

본 개시물은 비디오 코딩에 관한 것이다.

디지털 비디오 능력들은 디지털 텔레비전들, 디지털 직접 방송 시스템들, 무선 방송 시스템들, PDA (personal digital assistant) 들, 랩탑 컴퓨터나 데스크탑 컴퓨터, 태블릿 컴퓨터들, 디지털 카메라들, 디지털 레코딩 디바이스들, 비디오 게임 디바이스들, 비디오 게임 콘솔들, 셀룰러 전화나 위성 무선 전화, 스마트 폰들 등을 포함하여 광범위한 디바이스들에 포함될 수 있다. 디지털 비디오 디바이스들은, 보다 효율적으로 디지털 비디오 정보를 송수신하기 위해, MPEG-2, MPEG-4, 또는 ITU-T H.264/MPEG-4, Part 10, AVC (Advanced Video Coding) 에 의해 정의된 표준들에서 설명된 것과 같은 비디오 압축 기법들을 구현한다. 비디오 압축 기법들은 공간 예측 및/또는 시간 예측을 수행하여 비디오 시퀀스들에 내재하는 중복을 감소시키거나 제거할 수도 있다.

블록 기반 인터 코딩은 비디오 시퀀스의 연속적인 코딩된 유닛들의 비디오 블록들 사이의 시간 중복을 감소시키거나 제거하기 위해 시간 예측에 의존하는 매우 유용한 코딩 기법이다. 코딩된 유닛들은 비디오 프레임들, 비디오 프레임들의 슬라이스들, 화상들의 그룹들, 또는 인코딩된 비디오 블록들의 다른 정의된 유닛을 포함할 수도 있다. 인터 코딩을 위해, 비디오 인코더는 2 개 이상의 인접한 코딩된 유닛들의 대응하는 비디오 블록들의 이동을 추적하도록 모션 추정 및 모션 보상을 수행한다. 모션 추정은 하나 이상의 참조 프레임들 또는 다른 코딩된 유닛들에서 대응하는 예측 비디오 블록들에 대한 비디오 블록들의 변위를 나타내는 모션 벡터들을 발생시킨다. 모션 보상은 모션 벡터들을 이용하여 하나 이상의 참조 프레임들 또는 다른 코딩된 유닛들로부터 예측 비디오 블록들을 발생시킨다. 모션 보상 후에, 코딩되는 원래의 비디오 블록들로부터 예측 비디오 블록들을 감산함으로써 레지듀얼 (residual) 비디오 블록들이 형성된다.

비디오 인코더는 또한 변환, 양자화, 및 엔트로피 코딩 프로세스들을 적용하여 레지듀얼 블록들의 통신과 연관된 비트 레이트를 더 감소시킬 수도 있다. 변환 기법들은 이산 코사인 변환 (discrete cosine transform; DCT) 들 또는 개념적으로 유사한 프로세스들을 포함할 수도 있다. 대안으로, 웨이브렛 변환들, 정수 변환들, 또는 다른 유형의 변환들이 이용될 수도 있다. DCT 프로세스에서, 예로서, 화소 값들의 세트가 변환 계수들로 컨버팅되는데, 변환 계수들은 주파수 도메인에서 화소 값들의 에너지를 표현할 수도 있다. 양자화는 변환 계수들에 적용되고, 일반적으로 임의의 주어진 변환 계수와 연관된 비트들의 수를 감소시키는 프로세스를 수반한다. 엔트로피 코딩은 코딩 모드들, 모션 정보, 코딩된 블록 패턴들, 및 양자화된 변환 계수들의 시퀀스를 집합적으로 압축하는 하나 이상의 프로세스들을 포함한다. 엔트로피 코딩의 예들은 컨텐츠 적응 가변 길이 코딩 (content adaptive variable length coding; CAVLC) 및 컨텍스트 적응 이진 산출 코딩 (context adaptive binary arithmetic coding; CABAC) 를 포함하나 이로 제한되지는 않는다.

코딩된 비디오 블록은 예측 블록, 및 코딩되는 블록과 예측 블록 사이의 차이들을 나타내는 데이터의 레지듀얼 블록을 생성하거나 식별하는데 이용될 수 있는 예측 정보에 의해 표현될 수도 있다. 예측 정보는 데이터의 예측 블록을 식별하는데 이용되는 하나 이상의 모션 벡터들을 포함할 수도 있다. 모션 백터들을 고려하면, 디코더는 레지듀얼을 코딩하는데 이용되었던 예측 블록들을 복원하는 것이 가능하다. 따라서, 레지듀얼 블록들의 세트 및 모션 블록들의 세트 (및 가능하게는 일부 추가적인 구문) 을 고려하면, 디코더는 원래 인코딩되었던 비디오 프레임을 복원할 수 있다. 모션 추정 및 모션 보상에 기초한 인터 코딩은 연속적인 비디오 프레임들 또는 다른 유형의 코딩된 유닛들이 종종 매우 유사하기 때문에 매우 좋은 압축을 달성할 수 있다. 인코딩된 비디오 시퀀스는 레지듀얼 데이터의 블록들, 모션 벡터들, 및 가능하게는 다른 유형의 구문을 포함할 수도 있다.

인터 코딩에서 달성될 수 있는 압축의 수준을 개선하기 위해 보간 기법들이 개발되어 왔다. 예를 들어, 비디오 블록을 코딩하는데 이용되는, 모션 보상 중에 발생된 예측 데이터는 비디오 프레임 또는 모션 예측에서 이용되는 다른 코딩된 유닛의 비디오 블록들의 화소들로부터 보간될 수도 있다. 보간은 종종 예측 1/2 화소 (1/2 펠 (half-pel)) 값들 및 예측 1/4 화소 (1/4 펠 (quarter-pel)) 값들을 발생시키도록 수행된다. 1/2 펠 값 및 1/4 펠 값은 서브 화소 위치들과 연관된다. 서브 화소 해상도로 비디오 블록들을 식별하는데 분수 (fractional) 모션 벡터들이 이용되어 비디오 시퀀스에서의 단편적인 이동을 켭쳐할 수도 있고, 그렇게 함으로써 정수 비디오 블록들보다 코딩되는 비디오 블록들과 보다 유사한 예측 블록들을 제공한다.

본 개시물은 비디오 인코딩 및/또는 디코딩 프로세스의 예측 스테이지 중에 인코더 및 디코더에 의해 적용되는 필터링 기법들을 설명한다. 화소 데이터는 통상적으로 일련의 화소 값들 (예를 들어, 휘도 값들 및/또는 색차 값들) 로 표현된다. 이러한 화소 값들은 보통 8 비트 값들 또는 10 비트 값들 중 어느 일방이지만, 다른 비트 심도들이 또한 이용될 수도 있다. 보간 필터링은 통상적으로 화소 값들을 이용하여 일련의 곱셈 동작 및 가산 동작을 수행하는 것을 수반한다. 이러한 곱셈 동작 및 가산 동작으로 인해, 일부 사례들에서, 10 비트 화소 값들을 갖는 보간 필터링은 17 비트인 중간 값들을 초래한다. 그러나, 레지스터들 및 다른 컴퓨터 컴포넌트들이 통상적으로 16 비트 또는 32 비트의 유닛들로 동작하기 때문에 17 비트 값들은 바람직하지 않을 수 있다. 이러한 중간 값들이 17 비트일 수도 있을지라도, 이러한 17 비트 값들에 의해 커버되는 값들은 범위는 여전이 오직 16 비트일 수도 있다. 이에 따라, 본 개시물은 오프셋 (offset) 을 중간 화소 값들에 적용하여 중간 값들의 비트심도를 감소시키는 기법들을 설명한다. 중간 값들은 그러면 감소된 비트심도로 저장될 수 있다. 추후 산출들을 위해 취출되는 (retrieve) 경우, 오프셋이 중간 값들에 다시 가산될 수도 있어, 보다 낮은 정확도의 값들이 저장될지라도, 보다 높은 정확도의 값들을 이용하여 산출이 수행된다. 이에 따라, 본 개시물의 기법들은, 일부 사례들에서, 효율적으로 저장될 수 있는 중간 값들을 유지함으로써 코딩 시스템의 효율을 개선하는 한편, 동시에, 중간 값들의 비트심도를 감소시키는 것과 연관된 정확도의 손실을 최소화한다.

일 예에서, 방법은 화소들의 블록을 획득하며 (여기서, 화소들의 블록은 화소들의 블록 내의 정수 화소 (integer pixel) 포지션들에 대응하는 정수 화소 값들을 포함한다), 제 1 필터링 동작을 정수 화소 값들의 그룹에 적용하여 제 1 중간 화소 값을 발생시키며, 제 1 오프셋을 제 1 중간 화소 값에 가산하여 제 2 중간 화소 값을 발생시키는 단계 (여기서 제 1 오프셋을 가산하는 것은 제 2 중간 값이 제 1 중간 화소 값보다 작은 심도를 갖도록 한다); 제 2 중간 화소 값을 저장하는 단계; 제 2 중간 화소 값을 취출하며, 제 2 오프셋을 취출된 제 2 중간 값에 가산하며, 가산된 제 2 오프셋을 갖는 취출된 제 2 중간 화소 값을 포함하는 중간 화소 값들의 그룹에 제 2 필터링 동작을 적용하여 서브 화소 위치에 대한 제 1 화소 값을 계산하고, 적어도 서브 화소 위치에 대한 제 1 화소 값에 기초하여 예측 블록을 발생시키는 단계를 포함한다.

다른 예에서, 비디오 코딩 디바이스는 화소들의 블록을 획득하며 (여기서 화소들의 블록은 화소들의 블록 내의 정수 화소 포지션들에 대응하는 정수 화소 값들을 포함한다), 제 1 필터링 동작을 정수 화소 값들의 그룹에 적용하여 제 1 중간 화소 값을 발생시키며, 제 1 오프셋을 제 1 중간 화소 값에 가산하여 제 2 중간 화소 값을 발생시키며 (여기서 제 1 오프셋을 가산하는 것은 제 2 중간 값이 제 1 중간 화소 값보다 작은 심도를 갖도록 한다), 제 2 중간 화소 값을 저장하며; 제 2 중간 화소 값을 취출하며, 제 2 오프셋을 취출된 제 2 중간 값에 가산하며, 가산된 제 2 오프셋을 갖는 취출된 제 2 중간 화소 값을 포함하는 중간 화소 값들의 그룹에 제 2 필터링 동작을 적용하여 서브 화소 위치에 대한 제 1 화소 값을 계산하고, 적어도 서브 화소 위치에 대한 제 1 화소 값에 기초하여 예측 블록을 발생시키도록 구성되는 비디오 코더를 포함한다.

다른 예에서, 장치는 화소들의 블록을 획득하는 수단 (여기서 화소들의 블록은 화소들의 블록 내의 정수 화소 포지션들에 대응하는 정수 화소 값들을 포함한다), 제 1 필터링 동작을 정수 화소 값들의 그룹에 적용하여 제 1 중간 화소 값을 발생시키는 수단, 제 1 오프셋을 제 1 중간 화소 값에 가산하여 제 2 중간 화소 값을 발생시키는 수단 (여기서 제 1 오프셋을 가산하는 것은 제 2 중간 값이 제 1 중간 화소 값보다 작은 심도를 갖도록 한다), 제 2 중간 화소 값을 저장하는 수단, 제 2 중간 화소 값을 취출하는 수단, 제 2 오프셋을 취출된 제 2 중간 값에 가산하는 수단, 가산된 제 2 오프셋을 갖는 취출된 제 2 중간 화소 값을 포함하는 중간 화소 값들의 그룹에 제 2 필터링 동작을 적용하여 서브 화소 위치에 대한 제 1 화소 값을 계산하는 수단, 적어도 서브 화소 위치에 대한 제 1 화소 값에 기초하여 예측 블록을 발생시키는 수단을 포함한다.

다른 예에서, 컴퓨터 판독가능 저장 매체는 실행 시에 하나 이상의 프로세서들로 하여금 화소들의 블록을 획득하며 (여기서, 화소들의 블록은 화소들의 블록 내의 정수 화소 포지션들에 대응하는 정수 화소 값들을 포함한다), 제 1 필터링 동작을 정수 화소 값들의 그룹에 적용하여 제 1 중간 화소 값을 발생시키며, 제 1 오프셋을 제 1 중간 화소 값에 가산하여 제 2 중간 화소 값을 발생시키며 (여기서 제 1 오프셋을 적용하는 것은 제 2 중간 값이 제 1 중간 화소 값보다 작은 심도를 갖도록 한다), 제 2 중간 화소 값을 저장하며, 제 2 중간 화소 값을 취출하며, 제 2 오프셋을 취출된 제 2 중간 값에 가산하며, 가산된 제 2 오프셋을 갖는 취출된 제 2 중간 화소 값을 포함하는 중간 화소 값들의 그룹에 제 2 필터링 동작을 적용하여 서브 화소 위치에 대한 제 1 화소 값을 계산하고, 적어도 서브 화소 위치에 대한 제 1 화소 값에 기초하여 예측 블록을 발생시키는 명령들을 저장한다.

본 개시물의 하나 이상의 양상들의 세부사항들이 첨부 도면들 및 하기의 설명에서 제시된다. 본 개시물에서 설명된 본 기법들의 다른 특징들, 목표들 및 이점들은 설명 및 도면들로부터, 그리고 청구항들로부터 자명할 것이다.

도 1 은 본 개시물의 기법들을 구현할 수도 있는 비디오 인코딩 및 디코딩 시스템의 일 예를 도시하는 블록 다이어그램이다.
도 2 는 본 개시물과 일관되는 필터링 기법들을 수행할 수도 있는 비디오 인코더의 예를 도시하는 블록 다이어그램이다.
도 3 은 예측 데이터와 연관된 정수 화소 포지션들, 및 보간된 예측 데이터와 연관된 서브 화소 포지션들을 도시하는 개념적 다이어그램이다.
도 4 는 예측 데이터와 연관된 정수 화소 포지션들, 및 보간된 예측 데이터와 연관된 수직 서브 화소 포지션들과 수평 서브 화소 포지션들을 도시하는 개념적 다이어그램이다.
도 5 는 예측 데이터와 연관된 정수 화소 포지션들, 및 보간된 예측 데이터와 연관된 비수직 및 비수평 서브 화소 2L 서브 화소 포지션들을 도시하는 개념적 다이어그램이다.
도 6 은 서브 화소 위치에 대해 대칭적인 계수를 갖는 수평 8 화소 필터 지원을 도시하는 개념적 다이어그램이다.
도 7 은 서브 화소 위치에 대해 대칭적인 계수가 없는 수평 8 화소 필터 지원을 도시하는 개념적 다이어그램이다.
도 8 은 서브 화소 위치에 대해 대칭적인 계수를 갖는 수직 8 화소 필터 지원을 도시하는 개념적 다이어그램이다.
도 9 는 서브 화소 위치에 대해 대칭적인 계수가 없는 수직 8 화소 필터 지원을 도시하는 개념적 다이어그램이다.
도 10 은 본원에 설명된 방식으로 인코딩되는 비디오 시퀀스를 디코딩할 수도 있는 비디오 디코더의 예를 도시하는 블록 다이어그램이다.
도 11 은 본 개시물의 기법들을 도시하는 플로 다이어그램이다.
도 12 는 예측 데이터와 연관된 정수 화소 포지션들, 및 보간된 예측 데이터와 연관된 서브 화소 포지션들을 도시하는 개념적 다이어그램이다.
도 13 은 예측 데이터와 연관된 정수 화소 포지션들, 및 보간된 예측 데이터와 연관된 서브 화소 포지션들을 도시하는 개념적 다이어그램이다.

본 개시물은 비디오 인코딩 및/또는 디코딩 프로세스의 예측 스테이지 중에 인코더 및 디코더에 의해 적용되는 필터링 기법들을 설명한다. 화소 데이터는 통상적으로 일련의 화소 값들 (예를 들어, 휘도 값들 및/또는 색차 값들) 로 표현된다. 이러한 화소 값들은 보통 8 비트 값들 또는 10 비트 값들 중 어느 일방이지만, 다른 비트 심도들이 또한 이용될 수도 있다. 보간 필터링은 통상적으로 화소 값들을 이용하여 일련의 곱셈 동작 및 가산 동작을 수행하는 것을 수반한다. 이러한 곱셈 동작 및 가산 동작으로 인해, 일부 사례들에서, 10 비트 화소 값들을 갖는 보간 필터링은 17 비트인 중간 값들을 초래한다. 그러나, 레지스터들 및 다른 컴퓨터 컴포넌트들이 통상적으로 16 비트 또는 32 비트의 유닛들로 동작하기 때문에 17 비트 값들은 바람직하지 않을 수 있다. 이러한 중간 값들이 17 비트일 수도 있을지라도, 본 개시물은 오직 16 비트인 값들의 범위 내에서 이러한 17 비트 값들을 유지하는 기법들을 설명한다. 본 개시물은 또한 오프셋을 중간 화소 값들에 적용하여 중간 값들의 비트심도를 감소시키는 기법들을 설명한다. 중간 값들은 그러면 감소된 비트심도로 저장될 수 있다. 추후 산출들을 위해 취출되는 경우, 오프셋이 중간 값들에 다시 가산될 수도 있어, 보다 낮은 정확도의 값들이 저장될지라도, 보다 높은 정확도의 값들을 이용하여 산출이 수행된다. 이에 따라, 본 개시물의 기법들은, 일부 사례들에서, 효율적으로 저장될 수 있는 중간 값들을 유지함으로써 코딩 시스템의 효율을 개선하는 한편, 동시에, 중간 값들의 비트심도를 감소시키는 것과 연관된 정확도의 손실을 최소화할 수도 있다.

도 1 은 일반적으로 화소 보간 프로세스 중에 중간 값들을 프로세싱하는 기법들과 관련되는 본 게시물의 양상들을 구현하는데 이용될 수도 있는 일 예시적인 비디오 인코딩 및 디코딩 시스템 (10) 을 도시하는 블록 다이어그램이다. 도 1 에 도시된 바와 같이, 시스템 (10) 은 통신 채널 (15) 을 통해 목적지 디바이스 (16) 에 인코딩된 비디오 데이터를 송신하는 소스 디바이스 (12) 를 포함한다. 소스 디바이스 (12) 및 목적지 디바이스 (16) 는 광범위한 디바이스들 중 임의의 디바이스를 포함할 수도 있다. 일부 사례들에서, 소스 디바이스 (12) 및 목적지 디바이스 (16) 는 무선 핸드셋들, 이른바 셀룰러 또는 위성 무선전화들과 같은 무선 통신 디바이스들, 또는 통신 채널 (15) 이 무선이 경우, 통신 채널 (15) 을 통해 비디오 정보를 통신할 수 있는 임의의 무선 디바이스들을 포함할 수도 있다. 그러나, 예측 코딩 중 예측 데이터의 필터링 및 발생에 관한 것인 본 개시물의 기법들은 반드시 무선 애플리케이션들 또는 설정들로 제한되지는 않는다. 따라서, 본 개시물의 양상들은 또한 물리적 와이어들, 광 섬유들, 또는 다른 물리적 매체나 무선 매체를 통해 통신하는 디바이스들을 포함하여, 광범위의 다른 설정들 및 디바이스들에서 유용할 수도 있다. 또한, 인코딩 기법 또는 디코딩 기법은 또한 반드시 임의의 다른 디바이스와 통신하지는 않는 독립형 디바이스에도 적용될 수도 있다.

도 1 의 예에서, 소스 디바이스 (12) 는 비디오 소스 (20), 비디오 인코더 (22), 변조기/복조기 (모뎀) (23), 및 송신기 (24) 를 포함할 수도 있다. 목적지 디바이스 (16) 는 수신기 (26), 모뎀 (27), 비디오 디코더 (28), 및 디스플레이 디바이스 (30) 를 포함할 수도 있다. 본 개시물에 따라, 소스 디바이스 (12) 의 비디오 인코더 (22) 는 비디오 인코딩 프로세스의 일부로서 본 개시물의 기법들 중 하나 이상의 기법을 적용하도록 구성될 수도 있다. 유사하게, 목적지 디바이스 (16) 의 비디오 디코더 (28) 는 비디오 디코딩 프로세스의 일부로서 본 개시물의 기법들 중 하나 이상의 기법을 적용하도록 구성될 수도 있다.

다시, 도 1 의 도시된 시스템 (10) 은 단지 예일 뿐이다. 블록 기반 예측 인코딩을 지원하는 임의의 인코딩 디바이스에 의해, 또는 블록 기반 예측 디코딩을 지원하는 임의의 디코딩 디바이스에 의해 본 개시물의 다양한 기법들이 수행될 수도 있다. 소스 디바이스 (12) 및 목적지 디바이스 (16) 는 소스 디바이스 (12) 가 목적지 디바이스 (16) 로의 송신을 위해 코딩된 비디오 데이터를 발생시키는 이러한 코딩 디바이스들의 예들일 뿐이다. 일부 경우들에서, 디바이스들 (12, 16) 은 디바이스들 (12, 16) 의 각각이 비디오 인코딩 컴포넌트 및 비디오 디코딩 컴포넌트를 포함하는 실질적으로 대칭적인 방식으로 동작할 수도 있다. 그러므로, 시스템 (10) 은, 예를 들어, 비디오 스트리밍, 비디오 재생, 비디오 브로드캐스팅, 또는 비디오 전화통화를 위해, 비디오 디바이스들 (12, 16) 사이의 단방향 또는 양방향 비디오 송신을 지원할 수도 있다.

소스 디바이스 (12) 의 비디오 소스 (20) 는 비디오 카메라와 같은 비디오 캡쳐 디바이스, 이전에 캡쳐된 비디오를 포함하는 비디오 아카이브 (archive), 또는 비디오 컨텐츠 제공자로부터의 비디오 피드를 포함할 수도 있다. 다른 대안으로, 비디오 소스 (20) 는 소스 비디오로 컴퓨터 그래픽 기반 데이터, 또는 라이브 비디오, 보관된 비디오, 및 컴퓨터로 발생된 비디오의 조합을 발생시킬 수도 있다. 일부 경우들에서, 비디오 소스 (20) 가 비디오 카메라인 경우, 소스 디바이스 (12) 및 목적지 디바이스 (16) 는 이른바 카메라 폰들 또는 비디오 폰들을 형성할 수도 있다. 각각의 경우에, 캡쳐되거나, 미리 캡쳐되거나 컴퓨터로 발생된 비디오는 비디오 인코더 (22) 에 의해 인코딩될 수도 있다. 인코딩된 비디오 정보는 그 다음에 예를 들어, 코드 분할 다중 접속 (code division multiple access; CDMA) 과 같은 통신 표준 또는 다른 통신 표준에 따라 모뎀 (23) 에 의해 변조되어, 송신기 (24) 및 통신 채널 (15) 을 통해 목적지 디바이스 (16) 에 송신될 수도 있다. 모뎀 (23) 은 다양한 믹서들, 필터들, 증폭기들, 또는 신호 변조를 위해 설계된 다른 컴포넌트들을 포함할 수도 있다. 송신기 (24) 는 증폭기들, 필터들, 및 하나 이상의 안테나들을 포함하여, 데이터를 송신하도록 설계된 회로들을 포함할 수도 있다.

목적지 디바이스 (16) 의 수신기 (26) 는 통신 채널 (15) 을 통해 정보를 수신하고, 모뎀 (27) 은 정보를 복조한다. 송신기 (24) 처럼, 수신기 (26) 는 증폭기들, 필터들, 및 하나 이상의 안테나들을 포함하여, 데이터를 수신하도록 설계된 회로들을 포함할 수도 있다. 일부 사례들에서, 송신기 (24) 및/또는 수신기 (26) 는 수신 회로 및 송신 회로 양자 모두를 포함하는 단일 송수신기 컴포넌트 내에 포함될 수도 있다. 모뎀 (27) 은 다양한 믹서들, 필터들, 증폭기들, 또는 신호 복조를 위해 설계된 다른 컴포넌트들을 포함할 수도 있다. 일부 사례들에서, 모뎀들 (23 및 27) 은 변조 및 복조 양자 모두를 수행하는 컴포넌트들을 포함할 수도 있다.

다시, 비디오 인코더 (12) 에 의해 수행되는 비디오 인코딩 프로세스는 모션 보상 중에 본원에 설명된 기법들 중 하나 이상의 기법을 구현할 수도 있다. 비디오 디코더 (28) 에 의해 수행되는 비디오 디코딩 프로세스는 또한 디코딩 프로세스의 모션 보상 스테이지 중에 이러한 기법들을 수행할 수도 있다. 용어 "코더" 는 본원에서 비디오 인코딩 또는 비디오 디코딩을 수행하는 특수 컴퓨터 디바이스 또는 장치를 지칭하는데 이용된다. 용어 "코더" 는 일반적으로 임의의 비디오 인코더, 비디오 디코더, 또는 결합된 인코더/디코더 (코덱) 를 지칭한다. 용어 "코딩" 은 인코딩 또는 디코딩을 지칭한다. 디스플레이 디바이스 (30) 는 디코딩된 비디오 데이터를 사용자에게 디스플레이하고, 음극선관 (cathode ray tube; CRT), 액정 디스플레이 (liquid crystal display; LCD), 플라즈마 디스플레이, 유기 발광 다이오드 (organic light emitting diode; OLED) 디스플레이, 또는 다른 유형의 디스플레이 디바이스와 같은 다양한 디스플레이 디바이스들 중 임의의 것을 포함할 수도 있다.

도 1 의 예에서, 통신 채널 (15) 은 무선 주파수 (radio frequency; RF) 스펙트럼이나 하나 이상의 물리적 송신 라인들과 같은 임의의 무선 또는 유선 통신 매체, 또는 무선 매체와 유선 매체의 임의의 조합을 포함할 수도 있다. 통신 채널 (15) 은 근거리 통신망, 광역 통신망, 또는 인터넷 (Internet) 과 같은 글로벌 통신망과 같은 패킷 기반 네트워크의 일부분을 형성할 수도 있다. 통신 채널 (15) 은 일반적으로 소스 디바이스 (12) 로부터 목적지 디바이스 (16) 로 비디오 데이터를 송신하기 위한, 임의의 적합한 통신 매체, 또는 상이한 통신 매체들의 집합을 표현한다. 통신 채널 (15) 은 라우터들, 스위치들, 기지국들, 또는 소스 디바이스 (12) 로부터 목적지 디바이스 (16) 로 통신을 가능하게 하는데 유용할 수도 있는 임의의 다른 장비를 포함할 수도 있다.

비디오 인코더 (22) 및 비디오 디코더 (28) 는 다르게는 MPEG-4, Part 10, AVC (Advanced Video Coding) 라고 설명되는 ITU-T H.264 표준과 같은 하나 이상의 비디오 압축 표준들에 따라 동작할 수도 있거나, 차세대 비디오 압축 표준에 따라 동작할 수도 있다. 본 개시물의 기법들은, 그러나, 임의의 특정 비디오 코딩 표준으로 제한되지 않는다. 비록 도 1 에 도시되지는 않았으나, 일부 양상들에서, 비디오 인코더 (22) 및 비디오 디코더 (28) 는 공통의 데이터 스트림 또는 별도의 데이터 스트림들에서의 오디오 및 비디오 양자 모두의 인코딩을 처리하기 위해, 오디오 인코더 및 오디오 디코더와 각각 통합될 수도 있고, 적절한 MUX-DEMUX 유닛들, 또는 다른 하드웨어 및 소프트웨어를 포함할 수도 있다. 적용가능한 경우, MUX-DEMUX 유닛들은 ITU H.223 다중화기 프로로톨, 또는 사용자 데이터그램 프로토콜 (user datagram protocol; UDP) 과 같은 다른 프로토콜들에 따를 수도 있다.

비디오 인코더 (22) 및 비디오 디코더 (28) 각각은 하나 이상의 마이크로프로세서들, 디지털 신호 프로세서 (digital signal processor; DSP) 들, 주문형 집적 회로 (application specific integrated circuit; ASIC) 들, 필드 프로그램가능 게이트 어레이 (field programmable gate array; FPGA) 들, 이산 로직, 소프트웨어, 하드웨어, 펌웨어, 또는 이들의 조합들로 구현될 수도 있다. 비디오 인코더 (22) 및 비디오 디코더 (28) 의 각각은 하나 이상의 인코더들 또는 디코더들에 포함할 수도 있으며, 이들 중 어느 일방은 각각의 모바일 디바이스, 가입자 디바이스, 브로드캐스트 디바이스, 서버 등에서 인코딩 능력 및 디코딩 능력을 제공하는 결합된 코덱의 일부분으로서 통합될 수도 있다.

비디오 시퀀스는 통상적으로 일련의 비디오 프레임들을 포함한다. 비디오 인코더 (22) 는 개개의 비디오 프레임들 내의 비디오 블록들에 대해 동작하여 비디오 데이터를 인코딩한다. 비디오 블록들은 고정 사이즈 또는 가변 사이즈를 가질 수도 있고, 특정 코딩 표준에 따라 사이즈가 상이할 수도 있다. 각각의 비디오 프레임은 일련의 슬라이스들을 포함한다. 각각의 슬라이스는 서브 블록들로 배열될 수도 있는 일련의 매크로블록들을 포함할 수도 있다. 예로서, ITU-T H.264 표준은 루마 컴포넌트들에 대해 16 × 16, 8 × 8, 또는 4 × 4 와 같은 다양한 블록 사이즈들로 인트라 예측을, 그리고 크로마 컴포넌트들에 대해 8 × 8 을, 또한 루마 컴포넌트들과 대응하는 크로마 컴포넌트들에 대해 스케일링된 사이즈들에 대해 16 × 16, 16 × 8, 8 × 16, 8 × 8, 8 × 4, 4 × 8, 및 4 × 4 와 같은 다양한 블록 사이즈들로 인터 예측을 지원한다. 비디오 블록들은, 예를 들어, 이산 코사인 변환 (DCT) 과 같은 변환 프로세스 또는 개념적으로 유사한 변환 프로세스 다음에, 화소 데이터의 블록들, 또는 변환 계수들의 블록들을 포함할 수도 있다.

보다 작은 비디오 블록들은 보다 좋은 해상도를 제공할 수 있고, 높은 디테일 수준들을 포함하는 비디오 프레임의 위치들에 이용될 수도 있다. 일반적으로, 매크로블록들 및 다양한 서브 블록들이 비디오 블록들이 되는 것으로 여겨질 수도 있다. 또한, 슬라이스는 매크로블록들 및/또는 서브 블록들과 같은 일련의 비디오 블록들이 되는 것으로 여겨질 수도 있다. 각각의 슬라이스는 비디오 프레임의 독립적으로 디코딩가능한 유닛일 수도 있다. 대안으로, 프레임들 그 자체들이 디코딩가능한 유닛들일 수도 있거나, 프레임의 다른 부분들이 디코딩가능한 유닛들로 정의될 수도 있다. 용어 "코딩된 유닛" 은 전체 프레임, 프레임의 슬라이스, 또는 이용되는 코딩 기법들에 따라 정의된 다른 독립적으로 디코딩가능한 유닛과 같은 비디오 프레임의 임의의 독립적으로 디코딩가능한 유닛을 지칭한다.

비디오 블록들을 인코딩하기 위해, 비디오 인코더 (22) 는 인트라 예측 또는 인터 예측을 수행하여 예측 블록을 발생시킨다. 비디오 인코더 (22) 는 인코딩될 원래의 비디오 블록들로부터 예측 블록들을 감산하여 레지듀얼 블록들을 발생시킨다. 따라서, 레지듀얼 블록들은 코딩되는 블록들과 예측 블록들 사이의 차이들을 나타낸다. 비디오 인코더 (22) 는 레지듀얼 블록들에 대해 변환을 수행하여 변환 계수들의 블록들을 발생시킬 수도 있다. 인트라 또는 인터 기반 예측 코딩 및 변환 기법들 다음에, 비디오 인코더 (22) 는 양자화를 수행한다. 양자화는 일반적으로 가능하게는 계수들을 표현하는데 이용되는 데이터의 양을 감소시키기 위해 계수들이 양자화되는 프로세스를 지칭한다. 양자화 다음에, 컨텍스트 적응 가변 길이 코딩 (CAVLC) 또는 컨텍스트 적응 이진 산술 코딩 (CABAC) 과 같은 엔트로피 코딩 방법론에 따라 엔트로피 코딩이 수행될 수도 있다. 비디오 인코더 (22) 에 의해 수행되는 인코딩 프로세스의 각각의 단계의 보다 세부사항들이 도 2 에서 보다 상세히 하기에서 설명될 것이다.

목적지 디바이스 (16) 에서, 비디오 디코더 (28) 는 인코딩된 비디오 데이터를 수신한다. 비디오 디코더 (28) 는 CAVLC 또는 CABAC 와 같은 엔트로피 코딩 방법론에 따라 수신된 비디오 데이터를 엔트로피 디코딩하여 양자화된 계수들을 획득한다. 비디오 디코더 (28) 는 역 양자화 (탈양자화) 함수 및 역 변환 함수를 적용하여 화소 도메인에서 레지듀얼 블록을 복원한다. 비디오 디코더 (28) 는 또한 인코딩된 비디오 데이터에 포함된 제어 정보 또는 구문 정보 (예를 들어, 코딩 모드, 모션 벡터들, 필터 계수들을 정의하는 구문 등) 에 기초하여 예측 블록을 발생시킨다. 비디오 디코더 (28) 는 예측 블록을 복원된 레지듀얼 블록과 합하여 디스플레이를 위한 복원된 비디오 블록을 생성한다. 비디오 디코더 (28) 에 의해 수행되는 디코딩 프로세스의 각각의 단계의 보다 세부사항들이 도 10 을 참조하여 보다 상세히 하기에서 설명될 것이다.

본 개시물의 양상들에 따르면, 비디오 인코더 (22) 및 비디오 디코더 (28) 는 모션 보상 중에 하나 이상의 보간 필터링 기법들을 이용할 수도 있다. 특히, 본 개시물의 일 양상에 따라, 비디오 인코더 (22) 및/또는 비디오 디코더 (28) 는 10 비트 값들에 대해 보간 필터링을 수행하고 17 비트 값들에 오프셋을 적용해 보간 값들이 정확도의 최소 손실을 갖는 16 비트로 감소되도록 할 수도 있다. 오프셋을 적용하는 것은, 예를 들어, 라운딩 팩터를 가산하는 것 및 보간 값들에 대해 우측 쉬프트 (shift) 동작을 수행하는 것을 포함한다.

도 2 는 본 개시물과 일관되는 필터링 기법들을 수행할 수도 있는 비디오 인코더 (50) 의 예를 도시하는 블록 다이어그램이다. 비디오 인코더 (50) 는 본원에서 "코더" 로 지칭되는 특수 비디오 컴퓨터 디바이스 또는 장치의 일 예이다. 비디오 인코더 (50) 는 디바이스 (20) 의 비디오 인코더 (22), 또는 상이한 디바이스의 비디오 인코더에 대응할 수도 있다. 비디오 인코더 (50) 는 비디오 프레임들 내의 블록들의 인트라 코딩 및 인터 코딩을 수행할 수도 있으나, 인트라 코딩 컴포넌트들은 설명의 용이함을 위해 도 2 에 도시되지 않는다. 인트라 코딩은 주어진 비디오 프레임 내의 비디오에서 공간적 중복을 감소시키거나 제거하기 위해 공간 예측에 의존한다. 인터 코딩은 비디오 시퀀스의 인접한 프레임들 내의 비디오에서 시간적 중복을 감소시키거나 제거하기 위해 시간 예측에 의존한다. 인트라 모드 (I 모드) 는 공간 기반 압축 모드를 지칭할 수도 있고, 예측 (P 모드) 또는 양방향 (B 모드) 과 같은 인터 모드들은 시간 기반 압축 모드들을 지칭할 수도 있다. 본 개시물의 기법들은 인터 코딩 중에 적용되므로, 공간 예측 유닛과 같은 인트라 코딩 유닛들은 설명의 간단함 및 용이함을 위해 도 2 에 도시되지 않는다.

도 2 에 도시된 바와 같이, 비디오 인코더 (50) 는 인코딩될 비디오 프레임 내의 비디오 블록을 수신한다. 도 2 의 예에서, 비디오 인코더 (50) 는 예측 모듈 (32), 메모리 (34), 가산기 (48), 변환 모듈 (38), 양자화 모듈 (40), 및 엔트로피 코딩 모듈 (46) 을 포함한다. 비디오 블록 복원을 위해, 비디오 인코더 (50) 는 또한 역 양자화 모듈 (42), 역 변환 모듈 (44), 및 가산기 (51) 를 포함한다. 블록 경계들을 필터링하여 복원된 비디오로부터 블록화 아티팩트들을 제거하기 위해 디블록킹 필터 (미도시) 가 또한 포함될 수도 있다. 원하는 경우, 디블록킹 필터는 통상적으로 가산기 (51) 의 출력을 필터링할 것이다.

예측 모듈 (32) 은 모션 추정 (motion estimation; ME) 모듈 (35), 및 모션 보상 (motion compensation; MC) 모듈 (37) 을 포함할 수도 있다. 필터 모듈 (39) 은, 본 개시물에 따라, 예측 모듈 (32) 에 포함될 수도 있고, ME 모듈 (35) 및 MC 모듈 (37) 중 하나 또는 양자 모두에 의해 작동되어 보간 또는 모션 추정 및/또는 모션 보상의 일부분으로서 보간 유사 필터링을 수행할 수도 있다. 필터 모듈 (39) 은 본원에 설명된 바와 같은 다수의 상이한 유형의 보간 및 보간형 필터링을 가능하게 하기 위한 복수의 상이한 필터들을 사실상 표현할 수도 있다. 따라서, 예측 모듈 (32) 은 복수의 보간 또는 보간 유사 필터들을 포함할 수도 있다. 또한, 필터 모듈 (39) 은 복수의 서브 화소 위치들에 대한 복수의 필터 인덱스들을 포함할 수도 있다. 필터 인덱스들은 비트 패턴 및 서브 화소 위치를 특정 보간 필터와 연관시킨다. 인코딩 프로세스 중에, 비디오 인코더 (50) 는 (도 2 에서 "비디오 블록" 이라고 라벨링된) 코딩될 비디오 블록을 수신하고, 예측 모듈 (32) 은 인터 예측 코딩을 수행하여 (도 2 에서 "예측 블록" 이라고 라벨링된) 예측 블록을 발생시킨다. 구체적으로, ME 모듈 (35) 은 모션 추정을 수행하여 메모리 (34) 내의 예측 블록을 식별할 수도 있고, MC 모듈 (37) 은 모션 보상을 수행하여 예측 블록을 발생시킬 수도 있다.

모션 추정은 통상적으로 비디오 블록들에 대한 모션을 추정하는 모션 벡터들을 발생시키는 프로세스로 여겨진다. 모션 벡터는, 예를 들어, 현재 프레임 (또는 다른 코딩된 유닛) 내의 코딩될 블록에 대한 예측 또는 참조 프레임 (또는 다른 코딩된 유닛, 예를 들어, 슬라이스) 내의 예측 블록의 변위를 나타낼 수도 있다. 참조 프레임 (또는 프레임의 부분) 은 현재 비디오 블록이 속하는 비디오 프레임 (또는 비디오 프레임의 부분) 전 또는 후에 시간적으로 위치될 수도 있다. 모션 보상은 통상적으로 메모리 (34) 로부터 예측 블록을 불러오거나 발생시키는 것, 또는 가능하게는 모션 추정에 의하여 결정된 모션 벡터에 기초하여 필터링된 예측 데이터를 보간하거나 그렇지 않으면 발생시키는 프로세스로 여겨진다.

ME 모듈 (35) 은 비디오 블록을 하나 이상의 참조 프레임들 (예를 들어, 이전 프레임 및/또는 후속하는 프레임) 의 비디오 블록들과 비교함으로써 코딩될 비디오 블록에 대해 적절한 모션 벡터를 선택한다. ME 추정 (35) 은 분수 화소 (fractional pixel) 정확도로, 때때로 분수 화소, 또는 서브 화소 모션 추정이라고 지칭되는 모션 추정을 수행할 수도 있다. 이와 같이, 용어들 분수 화소, 분수 펠, 및 서브 화소 모션 추정이 상호교환가능하게 이용될 수도 있다. 분수 화소 모션 추정에서, ME 모듈 (35) 은 정수 화소 위치 이외의 위치에 대한 변위를 나타내는 모션 벡터를 선택할 수도 있다. 이러한 방식으로, 분수 화소 모션 추정은 예측 모듈 (32) 이 정수 화소 (또는 전체 화소) 위치들보다 높은 정확도로 모션을 추적하는 것을 허용함으로써, 보다 정확한 예측 블록을 발생시킨다. 분수 화소 모션 추정은 1/2 화소 정확도, 1/4 화소 정확도, 1/8 화소 정확도, 및 임의의 보다 미세한 정확도를 가질 수도 있다. ME 모듈 (35) 은 모션 추정 프로세스 중에 임의의 필요한 보간들을 위해 필터(들) (39) 를 작동시킬 수도 있다.

분수 화소 모션 보상을 수행하기 위해, MC 모듈 (37) 은 (때때로 보간 필터링이라고 지칭되는) 보간을 수행하여 (본원에서 서브 화소 값 또는 분수 화소 값이라고 지칭되는) 서브 화소 해상도로 데이터를 발생시킬 수도 있다. MC 모듈 (37) 은 이러한 보간을 위해 필터(들) (39) 를 작동시킬 수도 있다. 예측 모듈 (32) 은 본원에 설명된 기법들을 이용하여 보간 (또는 정수 화소들의 보간 유사 필터링) 을 수행할 수도 있다.

코딩될 비디오 블록에 대한 모션 벡터가 ME 모듈 (35) 에 의해 선택되면, MC 모듈 (37) 이 그 모션 벡터와 연관된 예측 비디오 블록을 발생시킨다. MC 모듈 (37) 은 ME 모듈 (35) 에 의해 결정된 모션 벡터에 기초하여 메모리 (34) 로부터 예측 블록을 불러올 수도 있다. 분수 화소 정확도를 갖는 모션 벡터의 경우에, MC 모듈 (37) 은 메모리 (34) 로부터 데이터를 필터링하여 서브 화소 해상도에 대해 이러한 데이터를 보간하는데, 예를 들어, 이러한 프로세스를 위해 필터(들) (39) 를 작동시킨다. 일부 경우들에서, 서브 화소 예측 데이터를 발생시키는데 이용된 보간 필터링 기법 또는 모드는 코딩된 비트스트림에의 포함을 위해 엔트로피 코딩 모듈 (46) 에 하나 이상의 보간 구문 요소들로서 나타내어질 수도 있다.

예측 모듈 (32) 이 예측 블록을 발생시키면, 비디오 인코더 (50) 는 코딩되는 원래의 비디오 블록으로부터 예측 블록을 감함으로써 (도 2 에서 "레지듀얼 블록" 이라고 라벨링된) 레지듀얼 비디오 블록을 형성한다. 가산기 (48) 는 이러한 감산 동작을 수행하는 컴포넌트 또는 컴포넌트들을 표현한다. 변환 모듈 (38) 은 이산 코사인 변환 (DCT) 또는 개념적으로 유사한 변환과 같은 변환을 레지듀얼 블록에 적용하여, 레지듀얼 변환 블록 계수들을 포함하는 비디오 블록을 생성한다. 변환 모듈 (38) 은, 예를 들어, DCT 와 개념적으로 유사한 H.264 표준에 의해 정의된 것과 같은 다른 변환들을 수행할 수도 있다. 웨이블릿 (wavelet) 변환들, 정수 변환들, 서브 대역 변환들, 또는 다른 유형의 변환들이 또한 이용될 수 있다. 임의의 경우에, 변환 모듈 (38) 은 레지듀얼 블록에 변환을 적용하여, 레지듀얼 변환 계수들의 블록을 생성한다. 변환은 레지듀얼 정보를 화소 도메인으로부터 주파수 도메인으로 컨버팅할 수도 있다.

양자화 유닛 (40) 이 레지듀얼 변환 계수들을 양자화하여 비트 레이트를 더 감소시킨다. 양자화 프로세스는 계수들의 일부 또는 전부와 연관된 비트 심도를 감소시킬 수도 있다. 양자화 다음에, 엔트로피 코딩 모듈 (46) 이 양자화된 변환 계수들을 엔트로피 코딩한다. 예를 들어, 엔트로피 코딩 모듈 (46) 은 CAVLC, CABAC, 또는 다른 엔트로피 코딩 방법론을 수행할 수도 있다.

엔트로피 코딩 모듈 (46) 은 또한 예측 모듈 (32) 로부터 획득된 하나 이상의 예측 구문 요소들 또는 비디오 인코더 (50) 의 다른 컴포넌트를 코딩할 수도 있다. 하나 이상의 예측 구문 요소들은 코딩 모드, 하나 이상의 모션 벡터들, 서브 화소 데이터를 발생시키는데 이용된 보간 기법, 필터 계수들의 세트 또는 서브세트, 또는 예측 블록의 발생과 연관된 다른 정보를 포함할 수도 있다. 계수 예측 및 양자화 모듈 (41) 은 본 개시물의 일부 양상들에 따라 필터 계수들과 같은 예측 구문을 예측 인코딩 및 양자화할 수도 있다. 엔트로피 인코딩 유닛 (46) 에 의한 엔트로피 코딩 다음에, 인코딩된 비디오 및 구문 요소들은 다른 디바이스로 송신되거나, 추후 송신 또는 취출을 위해 보관될 수도 있다.

역 양자화 모듈 (42) 및 역 변환 모듈 (44) 은, 예를 들어, 참조 블록으로 추후 이용을 위해, 각각 역 양자화 및 역 변환을 적용하여 화소 도메인에서 레지듀얼 블록을 복원한다. (도 2 에서 "레지듀얼 블록" 이라고 라벨링된) 복원된 레지듀얼 블록은 변환 모듈 (38) 에 제공된 레지듀얼 블록의 복원된 버전을 표현할 수도 있다. 복원된 레지듀얼 블록은 양자화 동작 및 역 양자화 동작에 의해 야기된 디테일의 손실로 인해 합산기 (48) 에 의해 발생된 레지듀얼 블록과 상이할 수도 있다. 합산기 (51) 는 복원된 레지듀얼 블록을 예측 모듈 (32) 에 의해 생성된 모션 보상된 예측 블록에 가산하여 메모리 (34) 에 저장을 위해 복원된 비디오 블록을 생성한다. 복원된 비디오 블록은 후속하는 비디오 프레임 또는 후속하는 코딩된 유닛 내의 블록을 후속하여 코딩하는데 이용될 수도 있는 참조 블록으로서 예측 모듈 (32) 에 의해 이용될 수도 있다.

상술된 바와 같이, 예측 모듈 (32) 은 분수 화소 (또는 하위 화소) 정확도로 모션 추정을 수행할 수도 있다. 예측 모듈 (32) 이 분수 화소 모션 추정을 이용하는 경우, 예측 모듈 (32) 은 본 개시물에서 설명된 인터보간 동작들을 이용하여 서브 화소 해상도 (예를 들어, 서브 화소 값 또는 분수 화소 값) 로 데이터를 발생시킬 수도 있다. 다시 말해, 보간 동작들은 정수 화소 포지션들 사이의 포지션들에서의 값들을 계산하는데 이용된다. 정수 화소 포지션들 사이의 거리의 절반에 위치된 서브 화소 포지션들은 1/2 화소 (1/2 펠) 포지션들이라고 지칭될 수도 있으며, 정수 화소 포지션과 1/2 화소 포지션 사이의 거리의 절반에 위치된 서브 화소 포지션들은 1/4 화소 (1/4 펠) 포지션들이라고 지칭될 수도 있으며, 정수 화소 포지션 (또는 1/2 화소 포지션) 과 1/4 화소 포지션 사이의 거리의 절반에 위치된 서브 화소 포지션들은 1/8 화소 (1/8 펠) 포지션들이라고 지칭되는 등이다.

도 3 은 예측 데이터와 연관된 정수 화소 (또는 전체 화소) 포지션들, 및 보간된 예측 데이터와 연관된 서브 화소 (또는 분수 화소) 포지션들을 도시하는 개념적 다이어그램이다. 도 3 의 개념적 도면에서, 상이한 박스들은 프레임 또는 프레임의 블록 내에서의 화소 및 서브 화소 위치들 또는 포지션들을 표현하다. (실선들을 갖는 박스들 내에) 대문자로 적힌 문자들은 정수 화소 위치들을 표현하는 반면, (점선들을 갖는 박스들 내의) 소문자들은 서브 화소 위치들을 표현한다. 특히, 화소 위치들 (A1-A6, B1-B6, C1-C6, D1-D6, E1-E6, 및 F1-F6) 은 프레임, 슬라이스, 또는 다른 코딩된 유닛 내에서의 정수 화소 위치들의 6 × 6 어레이를 표현한다. 본 개시물에서 추후에 설명되는 예들과 함께 이용될 추가적인 정수 화소 위치들 (G3 및 H3) 이 도 3 에 또한 도시된다. 서브 화소 위치들 ("a" 내지 "o") 은, 예를 들어, 정수 화소 위치들 (C3, C4, D3, D4) 사이의, 정수 화소 (C3) 과 연관된 15 개의 서브 화소 위치들을 표현한다. 유사한 서브 화소 위치들이 모든 정수 화소 위치에 대해 존재할 수도 있다. 서브 화소 위치들 ("a" 내지 "o") 은 정수 화소 (C3) 와 연관된 모든 1/2 화소 및 1/4 화소 화소 위치를 표현한다.

정수 화소 위치들은 비디오 데이터가 원래 발생된 경우에 포토다이오드와 같은 물리적 센서 요소와 연관될 수도 있다. 포토다이오드는 센서의 위치에서의 광원의 강도를 측정하고, 화소 강도 값을 정수 화소 위치와 연관시킬 수도 있다. 다시, 각각의 정수 화소 위치는 연관된 15 개의 서브 화소 위치들 (또는 가능하게는 더 많음) 의 세트를 가질 수도 있다. 정수 화소 위치들과 연관된 서브 화소 위치들의 수는 원하는 정확도에 의존할 수도 있다. 도 3 에 도시된 예에서, 원하는 정확도는 1/4 화소 정확도이며, 이 경우, 정수 화소 위치들의 각각은 15 개의 상이한 서브 화소 포지션들과 대응한다. 보다 많거나 보다 적은 서브 화소 포지션들이 원하는 정확도에 기초하여 각각의 정수 화소 위치와 연관될 수도 있다. 1/2 화소 정확도에 있어서, 예를 들어, 각각의 정수 화소 위치는 3 개의 서브 화소 위치들과 대응할 수도 있다. 다른 예로서, 정수 화소 위치들의 각각은 1/8 화소의 정확도에 있어서 63 개의 서브 화소 포지션들과 대응할 수도 있다. 각각의 화소 위치는 하나 이상의 화소 값들, 예를 들어, 하나 이상의 휘도 값 및 색차 값을 정의할 수도 있다.

Y 는 휘도를 표현할 수도 있고, Cb 및 Cr 은 3차원 YCbCr 색공간의 색차의 2 개의 상이한 값들을 표현할 수도 있다. 각각의 화소 위치는 3 차원 색공간에 대한 3 개의 화소 값들을 사실상 정의할 수도 있다. 본 개시물의 기법들은, 그러나, 간단함을 위해 일 차원에 대한 예측을 지칭할 수도 있다. 기법들이 일 차원에서의 화소 값들에 대해 설명되는 정도까지, 유사한 기법들이 다른 차원들로 확장될 수도 있다. 일부 경우들에서, 색차 값들은 예측 전에 서브 샘플링되나, 인간의 시력이 화소 색상보다는 화소 강도에 더 민감하기 때문에 예측은 임의의 서브 샘플리 없이 휘도 공간에서 통상적으로 일어난다.

도 3 의 예에서, 정수 화소 ("C3") 와 연관된, 서브 화소 포지션들이라고도 지칭되는 서브 화소 위치들은, 1/4 화소 정확도에 대해 예시된다. 화소 (C3) 과 연관된 15 개의 서브 화소 포지션들은 "a", "b", "c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", 및 "o" 라고 라벨링된다. 다른 정수 화소 위치들과 연관된 다른 부분 위치들의 대부분은 간단함을 위해 도시되지 않는다. 서프 화소 위치들 ("b", "h", 및 "j") 은 1/2 화소 위치들로 지칭될 수도 있고, 서브 화소 위치들 ("a", "c", "d", "e", "f", "g", "i", "k", "l", "m", 및 "o") 은 1/4 화소 위치들로 지칭될 수도 있다. 또한, 본 개시물에서, 정수 화소들과 동일한 수평 축을 따라 배향된 서브 화소 포지션들은 수평 서브 화소들로 지칭될 수 있다. 서브 화소들 ("a", "b", 및 "c") 은 수평 서브 화소들의 예들이다. 정수 화소와 동일한 수직 축으로 배향된 서브 화소들은 수직 서브 화소들이라고 지칭될 수 있다. 서브 화소들 ("d", "h", 및 "l") 은 수직 서브 화소들의 예들이다. 본 개시물의 양상들은 단일 선형 보간 필터를 이용하여 수평 서브 화소들 및 수직 서브 화소들에 대한 화소 값들을 결정하는 것을 포함하고, 따라서 본 개시물은 수평 서브 화소들 및 수직 서브 화소들을 집합적으로 1L 서브 화소들이라고 지칭할 수도 있다. 도 4 는 정수 화소들 (C1-C6, A3, B3, C3, D3, E3, 및 F3) 의 그룹에 대한 1L 서브 화소들 (a, b, c, d, h, l) 을 도시하는 개념적 다이어그램이다.

본 개시물의 양상들은, 하나는 수직 방향으로 적용되고 하나는 수평 방향으로 적용되는, 2 개의 선형 보간 필터들을 이용하여, 서브 화소들 ("e", "f", "g", "i", "j", "k", "m", "n", 및 "o") 과 같은 비수직, 비수평 서브 화소들에 대한 화소 값들을 결정하는 것을 포함한다. 이에 따라, 본 개시물은 서브 화소들 ("e", "f", "g", "i", "j", "k", "m", "n", 및 "o") 과 같은 비수직, 비수평 서브 화소들을 2L 서브 화소들로 지칭할 수도 있다. 도 5 는 정수 화소들 (C1-C6, A3, B3, C3, D3, E3, 및 F3) 의 그룹에 대한 2L 서브 화소들 (e, f, g, i, j, k, m, n, o) 을 도시하는 개념적 다이어그램이다.

도 6 은 계수 대칭을 보이는 음영을 갖는, 서브 화소 포지션 ("b") 에 대한 8 개의 수평 선형 화소 지원 포지션들 (C0-C7) 을 도시하는 개념적 다이어그램이다. 이러한 경우에, 계수 대칭은 필터 지원 포지션들 (C0-C7) 에 대한 전체 계수들의 세트를 정의하기 위해 C0, C1, C2, 및 C3 에 대해 오직 4 개의 필터 계수들만이 필요하다는 것을 의미한다. C0 은 C7 과 대칭이며, C1 은 C6 과 대칭이며, C2 는 C5 와 대칭이고, C3 은 C4 와 대칭이다. 따라서, 서브 화소 포지션 ("b") 을 보간하는데 필요한 8 개의 계수들의 세트를 정의하기 위해, 오직 4 개의 계수들만이 인코딩된 비디오 스트림의 일부분으로서 통신되거나, 필터 모듈 (39) 에 의해 저장될 필요가 있다. 남은 계수들은 통신된 계수들에 기초하여 디코더에서 발생될 수도 있다. 특히, 디코더는 대칭이 적용됨을 알도록 프로그래밍될 수 있고, 대칭은 통신된 계수들에 기초하여 임의의 남은 계수들을 어떻게 발생시킬지를 정의할 수 있다.

도 7 은, 임의의 계수 대칭이 없음을 보이는 음영을 갖는, 서브 화소에 대한 8 개의 수평 선형 화소 지원 포지션들을 도시하는 개념적 다이어그램이다. 따라서, 서브 화소 포지션 ("a") 에 대한 필터 지원을 위한 계수들의 세트를 정의하기 위한 모두 8 개의 계수들이 필요하다. 그러나, 화소 대칭은 서브 화소 포지션 ("a") 에 대한 이러한 동일한 계수들이 또한 서브 화소 포지션 ("c") 에 대한 필터 지원을 도출하는데 이용될 수 있음을 의미한다. 서브 포지션 ("a") 에 대한 필터 지원을 위한 8 개의 계수들이 일 차원 어레이로 뷰잉되는 경우, 서브 화소 ("c") 에 대한 8 개의 계수들은 어레이를 플립핑함으로써 (flip) 알게 되어, 서브 화소 ("a") 에 대한 값을 결정하는 경우 C7 에 대한 계수가 서브 화소 ("c") 에 대한 값을 결정하는 경우의 C0 에 대한 계수일 수 있으며, C6 에 대한 계수가 C1 에 대한 계수일 수 있는 등이다. 따라서, 예를 들어, 적응 보간 필터링 (AIF) 을 이용하여, 필터 계수들이 비디오 인코더 (22) 에서 계산되는 경우, 서브 화소 포지션들 ("a" 및 "c") 을 보간하는데 필요한 8 개의 계수들의 2 개의 상이한 세트들을 정의하기 위해 오직 8 개의 계수들만이 비디오 디코더 (28) 에 비트 스트림으로 통신될 필요가 있다.

도 8 은 계수 대칭을 보이는 음영을 갖는, 서브 화소 ("h") 에 대한 8 개의 수직 선형 화소 지원 포지션들 (G3, A3, B3, C3, D3, E3, F3, 및 H3) 을 도시하는 개념적 다이어그램이다. 이러한 경우에, 계수 대칭은 필터 지원 포지션들 (G3, A3, B3, C3, D3, E3, F3, 및 H3) 에 대한 계수들의 전체 세트를 정의하기 위해 G3, A3, B3, 및 C3 에 대해 오직 4 개의 필터 계수들만을 필요로 한다는 것을 의미한다. G3 는 H3 와 대칭이며, A3 는 F3 와 대칭이며, B3 는 E3 와 대칭이고, C3 는 D3 와 대칭이다. 대칭으로 인해, G3 와 연관된 계수는 또한 H3 와 이용될 수 있으며, A3 와 연관된 계수는 또한 F3 와 이용될 수 있는 등이다. 따라서, AIF 를 이용하는 경우, 예를 들어, 서브 화소 포지션 ("h") 을 보간하는데 필요한 8 개의 계수들의 세트를 정의하기 위해 인코딩된 비디오 비트스트림의 일부분으로서 오직 4 개의 계수들만이 통신될 필요가 있다.

도 9 는, 임의의 계수 대칭이 없음을 보이는 음영을 갖는, 서브 화소에 대한 8 개의 수직 선형 화소 지원 포지션들을 도시하는 개념적 다이어그램이다. 따라서, 서브 화소 포지션 ("d") 에 대한 필터 지원을 위한 계수들의 세트를 정의하기 위해 모두 8 개의 계수들이 필요하다. 도 7 에 대하여 위에서 언급된 바와 같이, 그러나, 화소 대칭은 서브 화소 포지션 ("d") 에 대한 이러한 동일한 계수들이 서브 화소 포지션 ("l") 에 대한 필터 지원을 도출하는데 또한 이용될 수 있음을 의미한다. 따라서 AIF 를 이용하는 경우, 예를 들어, 서브 화소 포지션들 ("d" 및 "l") 을 보간하는데 필요한 8 개의 계수들의 2 개의 상이한 세트들을 정의하기 위해 오직 8 개의 계수들만이 비디오 디코더 (28) 에 비트 스트림으로 통신될 필요가 있다.

비디오 인코더 (50) 의 예측 모듈 (32) 은 필터 모듈 (39) 에 의한 보간 필터링을 이용하여 서브 화소 위치들 ("a" 내지 "o") 에 대한 화소 값들을 결정할 수도 있다. 1/2 화소 포지션들 ("b" 및 "h") 에 있어서, 탭이라고도 불리는 각각의 필터 계수는 각각 수평 방향 및 수직 방향에서 정수 화소 포지션에 대응할 수도 있다. 특히, 1/2 화소 포지션 ("b") 에 있어서, 8 탭 필터의 탭들은 C0, C1, C2, C3, C4, C5, C6, 및 C7 에 대응한다. 서브 화소 포지션들 (C0 및 C7) 은 도 3 에는 도시되지 않으나, 예를 들어, 도 6 및 도 7 에서 예로 볼 수 있다. 마찬가지로, 1/2 화소 포지션 ("h") 에 있어서, 8 탭 필터의 탭들은 G3, A3, B3, C3, D3, E3, F3, 및 H3 에 대응한다. 예를 들어, 서브 화소 포지션들 ("b" 및 "h") 에 대한 화소 값들은 식 (1) 및 식 (2) 를 이용하여 계산될 수도 있다:

포지션 ("b") 과 함께, 1/4 화소 포지션들 ("a" 및 "c") 에 있어서, 8 탭 필터의 탭들은 C0, C1, C2, C3, C4, C5, C6, 및 C7 에 대응할 수도 있으나, 포지션 ("b") 에 대해서와는 달리, 필터 계수들은 비대칭이고 포지션 ("b") 과는 상이할 수도 있다. 예를 들어, 서브 화소 포지션들 ("a" 및 "c") 에 대한 화소 값들은 식 (3) 및 식 (4) 를 이용하여 계산될 수도 있다:

포지션 ("h") 과 함께, 1/4 화소 포지션들 ("d" 및 "l") 에 있어서, 8 탭 필터의 탭들은 G3, A3, B3, C3, D3, E3, F3, 및 H3 에 대응할 수도 있으나, 포지션 ("h") 에 대해서와는 달리, 필터 계수들은 비대칭이고 포지션 ("h") 에 대한 것과 상이할 수도 있다. 예를 들어, 서브 화소 포지션들 ("d" 및 "l") 에 대한 화소 값들은 식 (5) 및 식 (6) 을 이용하여 계산될 수도 있다:

위에서 식 (1) - 식 (6) 에 대해 주어진 예시적인 계수들이 일반적으로 수평 서브 화소들 및 수직 서브 화소들 양자 모두에 대해 동일한 계수들을 이용하기는 하나, 수평 서브 화소들 및 수직 서브 화소들에 대한 계수들이 동일한 것이 요구되지는 않는다. 예를 들어, 식 (1) 과 식 (2), 식 (3) 과 식 (5), 및 식 (4) 와 식 (6) 은 위의 예들에서 동일한 계수들을 각각 가지나, 일부 구현들에서, 각각이 상이한 계수들을 가질 수도 있다.

비디오 인코더 (50) 의 예측 모듈 (32) 은 또한, 필터 모듈 (39) 에 의한 보간 필터링을 이용하여, 2L 서브 화소 위치들 ("e", "f", "g", "i", "j", "k", "m", "n", 및 "o") 대한 화소 값들을 결정할 수도 있다. 2L 서브 화소 포지션들에 있어서, 수직 필터링이 수평 필터링에 뒤따르거나, 그 반대이다. 제 1 필터링 동작은 중간 값들을 결정하고, 제 2 필터링 동작은 서브 화소 위치에 대한 화소 값을 결정하기 위해 중간 값들을 이용한다. 예를 들어, "j" 에 대한 값을 결정하기 위해, 다음의 식들을 이용하여, "aa", "bb", "b", "hh", "ii", 및 "jj" 에 대한 중간 값들을 결정하는데 8 탭 수평 필터들이 이용될 수 있다:

식 (7) - 식 (14) 에서 수행되는 곱셈 동작 및 가산 동작으로 인해, "aa", "bb", "b", "hh", "ii", "jj", "kk", 및 "ll" 에 대한 중간 값들이 일부 예시들에서는 17 비트 값들일 수도 있다. 예를 들어, "aa", "bb", "b", "hh", "ii", "jj", "kk", 및 "ll" 이 0 부터 1023 까지 범위의 10 비트 값들인 경우, 위의 예시적인 계수들을 이용하여, 식 (7) - 식 (14) 는 양의 필터 계수들이 곱해진 화소 값들이 1023 이고 음의 필터 계수들이 곱해진 화소 값들이 0 인 상황에서 90024 까지 높은 값을 초래할 수 있다. 식 (7) - 식 (14) 에 의해 생성된 17 비트 값들은, 그러나, 오직 16 비트 값들의 범위만을 커버할 수도 있다. 이에 따라, 본 개시물의 기법들은 오프셋을 17 비트 값들에 가산하여 중간 값들을 16 비트 값들로 감소시키는 것을 포함한다. 오프셋은 우측 쉬프트 동작을 이용하여 적용될 수도 있다. 또한, 오프셋은 16 비트로 감소되는 경우 식 (7) - 식 (14) 의 값들이 라운드 업되도록 하는 라운딩 팩터를 포함할 수도 있다.

8 탭 수직 필터를 위에서 결정된 16 비트 중간 값들에 적용함으로써, "j" 에 대한 값이 다음의 식을 이용하여 결정될 수 있다:

식 (15) 에서 수행되는 곱셈 동작 및 가산 동작으로 인해, j 에 대한 값은 21 비트 값일 수도 있다. 이에 따라, 21 비트 값을 10 비트 값으로 감소시키기 위해, 본 개시물의 기법들은 21 비트 값에 대해 우측 쉬프트 동작을 수행하여 중간 값들을 10 비트 값들로 감소시키는 것을 포함한다. 식 (15) 의 오프셋 값은 10 비트로 감소되는 경우 식 (15) 의 값들이 라운드 업되도록 하는 라운딩 항을 포함할 수도 있다.

위의 예는 수평 필터링이 우선 적용되고 수직 필터링이 뒤따르는 기법이 설명되었다. 일부 실시예들에서는, 그러나, 수직 필터링이 우선 적용되고 수평 필터링이 뒤따를 수도 있다. 예를 들어, 도 3 에 도시되지 않은 2 개의 추가적인 값들에 더해 "cc", "dd", "h", "ee", "ff", 및 "gg" 에 대한 중간 값들을 알아내는데 8 탭 수직 필터들이 이용될 수 있고, "j" 에 대한 화소 값을 결정하기 위해 이러한 중간 값들에 8 탭 수평 필터들이 적용될 수 있다.

서브 화소 ("j") 에 대해 위에서 설명된 절차와 유사하게, 중간 값들을 결정하기 위해 수평 필터링 동작을 우선 수행하고 그 다음에 수직 필터를 이러한 중간 값들에 적용함으로써, 또는 중간 값들을 결정하기 위해 수직 필터링 동작을 우선 수행하고 그 다음에 수평 필터를 수직 필터링에 의해 결정된 중간 값들에 적용함으로써, 서브 화소 위치들 ("e", "f", "g", "i", "k", "m", "n", 및 "o") 에 대한 화소 값들이 결정될 수 있다. 화소 ("j") 에 대해 위의 예들에서와 같이 이용된 수평 필터 및 수직 필터 양자 모두가 대칭적인 계수들을 이용하는 반면, 다른 2D 서브 화소 값들에 대한 화소 값들을 결정하는데 이용되는 수평 필터 또는 수직 필터 중 어느 하나 또는 양자 모두는 대칭적이지 않을 수도 있다. 예를 들어, 일 예시적인 구현에서, 서브 화소 위치들 ("e", "g", "m", 및 "o") 에 대한 수평 필터 및 수직 필터 양자 모두는 비대칭적인 계수들을 이용할 수도 있다. 서브 화소 위치들 ("f" 및 "n") 은 대칭적인 계수들을 갖는 수평 필터 및 비대칭적인 계수들을 갖는 수직 필터를 이용할 수도 있고, 서브 화소 위치들 ("i" 및 "k") 은 비대칭적인 계수들을 갖는 수평 필터 및 대칭적인 필터 계수들을 갖는 수직 필터를 이용할 수도 있다.

서브 화소 위치들에서 보간된 데이터를 발생시키기 위해 필터 모듈 (39) 에 의해 적용되는 실제 필터들은 매우 다양한 실시예들의 대상이 될 수도 있다. 일 예로서, 예측 모듈 (32) 은 AIF 를 이용할 수도 있으며, 여기서 필터 계수들은 비디오 인코더 (22) 에 의해 계산되어 비디오 디코더 (28) 에 비트 스트림으로 송신된다. 다른 예로서, 예측 모듈 (32) 은 스위칭된 필터링을 이용할 수도 있으며, 여기서 비디오 인코더 (22) 및 비디오 디코더 (28) 양자 모두에 의해 다수의 필터들이 알려지며, 이용될 특정 필터가 비디오 인코더 (22) 로부터 비디오 디코더 (28) 에 비트 스트림으로 시그널링된다. 스위칭된 필터링의 예에서, 비디오 인코더 (22) 및 비디오 디코더 (28) 는 각각의 서브 화소 포지션에 대한 4 개의 고유한 필터들을 저장할 수도 있고, 서브 화소 포지션에 대해 이용될 특정 필터는 2 비트를 이용하여 비디오 인코더 (22) 로부터 비디오 디코더 (28) 로 시그널링될 수 있다.

예측 모듈 (32) 은 수평 방향으로 그리고 수직 방향으로 분리가능한 보간 필터들을 이용할 수도 있다. 1L 서브 화소 포지션들에 있어서, 예측 모듈 (32) (예를 들어, 예측 모듈 (32) 의 MC 모듈 (37)) 은 서브 화소 위치에 따라 오직 수평 방향 필터들만을 또는 오직 수직 방향 필터들만을 적용한다. 일 예에서, 수평 방향 필터 및 수직 방향 필터는 8 포지션 (또는 8 탭) 필터들을 포함한다. 예측 모듈 (32) 은 필터 지원으로서 정수 화소 포지션들 (C0, C1, C2, C3, C4, C5, C6, 및 C7 (C0 및 C7 은 도 3 에 도시되지 않음)) 을 갖는 서브 화소 포지션들 ("a", "b", "c") 에 대해 수평 방향 필터들을 적용하고, 필터 지원으로서 정수 화소 포지션들 (G3, A3, B3, C3, D3, E3, F3, 및 H3 (도 3 참조)) 을 갖는 서브 화소 포지션들 ("d", "h", 및 "l") 에 대해 수직 방향 필터들을 적용한다. 남은 서브 화소 포지션들, 즉, 2L 서브 화소 포지션들에 있어서, 예측 모듈 (32) 은 우선 수평 필터링, 뒤이어 수직 필터링을, 또는 우선 수직 필터링, 뒤이어 수평 필터링을 적용한다. 2L 서브 화소 포지션들에 대해 이용되는 수평 필터 및 수직 필터는 각각 6 탭 필터일 수도 있다.

도 10 은 본원에 설명된 방식으로 인코딩된 비디오 시퀀스를 디코딩할 수도 있는 비디오 디코더의 예를 도시하는 블록 다이어그램이다. 비디오 디코더 (60) 는 본원에서 "코더" 로 지칭되는 특수 비디오 컴퓨터 디바이스 또는 장치의 일 예이다. 비디오 디코더 (60) 는 수신된 비트스트림을 엔트로피 디코딩하여 양자화된 계수들 및 예측 구문 요소들을 발생시키는 엔트로피 디코딩 모듈 (52) 을 포함한다. 예측 구문 요소들은 코딩 모드, 하나 이상의 모션 벡터들, 서브 화소 데이터를 발생시키는데 이용되는 보간 기법을 식별하는 정보, 보간 필터링에서의 이용을 위한 계수들, 및/또는 예측 블록의 발생과 연관된 다른 정보를 포함할 수도 있다.

예측 구문 요소들, 예를 들어, 계수들은 예측 모듈 (55) 로 포워딩된다. 예측이 고정 필터의 계수들에 대한, 또는 다른 것에 대한 계수들을 코딩하는데 이용되는 경우, 계수 예측 및 역 양자화 모듈 (53) 은 구문 요소들을 디코딩하여 실제 계수들을 정의할 수 있다. 또한, 양자화가 예측 구문 중 임의의 예측 구문에 적용되는 경우, 계수 예측 및 역 양자화 모듈 (53) 은 또한 이러한 양자화를 제거할 수도 있다. 필터 계수들은, 예를 들어, 본 개시물에 따라 예측 코딩되고 양자화될 수도 있고, 이러한 경우, 계수 예측 및 역 양자화 모듈 (53) 은 이러한 계수들을 예측 디코딩하고 탈양자화하기 위해 비디오 디코더 (60) 에 의해 이용될 수 있다.

비디오 인코더 (50) 의 예측 모듈 (32) 에 대하여 위에서 상세히 설명된 것과 상당히 동일한 방식으로, 예측 모듈 (55) 은 예측 구문 요소들 및 메모리 (62) 에 저장된 하나 이상의 이전에 디코딩된 블록들에 기초하여 예측 데이터를 발생시킬 수도 있다. 특히, 예측 모듈 (55) 은 모션 보상 중에 본 개시물의 보간 필터링 기법들 중 하나 이상을 수행하여 1/4 화소 정확도와 같은 특정 정확도로 예측 블록을 발생시킬 수도 있다. 이처럼, 본 개시물의 기법들 중 하나 이상의 기법이 예측 블록을 발생시키는데에서 비디오 디코더 (60) 에 의해 이용될 수도 있다. 예측 모듈 (55) 은 보간 및 본 개시물의 보간 유사 필터링 기법들에 이용되는 필터들을 포함하는 모션 보상 모듈을 포함할 수도 있다. 모션 보상 컴포넌트는 설명의 간단함과 용이함을 위해 도 10 에서 도시되지 않는다.

역 양자화 모듈 (56) 은 양자화된 계수들을 역 양자화, 즉, 탈양자화한다. 역 양자화 프로세스는 H.264 디코딩에 대해 정의된 프로세스일 수도 있다. 역 변환 모듈 (58) 은 역 변환, 예를 들어, 역 DCT, 또는 개념적으로 유사한 역 변환 프로세스를 변환 계수들에 적용하여 화소 도메인에서 레지듀얼 블록들을 생성한다. 합산기 (64) 는 레지듀얼 블록을 예측 모듈 (55) 에 의해 발생된 대응하는 예측 블록과 합산하여 비디오 인코더 (50) 에 의해 인코딩된 원래의 블록의 복원된 버전을 형성한다. 원하는 경우, 디블록킹 필터가 또한 디코딩된 블록들을 필터링하는데 적용되어 블록화 아티팩트들을 제거할 수도 있다. 디코딩된 비디오 블록들은 그 다음에 참조 프레임 저장부 (62) 에 저장되며, 참조 프레임 저장부 (62) 는 후속하는 모션 보상을 위해 참조 블록들을 제공하고 또한 (도 1 의 디스플레이 디바이스 (30) 와 같은) 디스플레이 디바이스를 구동하기 위한 디코딩된 비디오를 생성한다.

도 11 은 본 개시물의 기법들을 도시하는 플로 다이어그램이다. 도 11 의 기법들은, 예를 들어, 비디오 인코더 (50) 의 예측 모듈 (32), 또는 비디오 디코더 (60) 의 예측 모듈 (55) 에 의해 수행될 수도 있다. 예측 모듈은 화소들의 블록 내의 정수 화소 포지션들에 대응하는 정수 화소 값들을 포함하는 화소들의 블록을 획득한다 (1101). 예측 모듈은 제 1 필터링 동작을 정수 화소 값들의 그룹에 적용하여 제 1 중간 화소 값을 발생시킨다 (1102). 정수 화소 값들의 그룹은, 예를 들어, 10 비트 값들일 수도 있다. 예측 모듈은 제 1 오프셋을 중간 화소 값에 적용하여 제 2 중간 화소 값을 발생시킨다 (1103). 제 1 중간 화소 값은, 예를 들어, 17 비트 값일 수도 있고, 제 1 오프셋은 제 1 중간 화소 값을 16 비트의 제 2 중간 화소 값으로 감소시킬 수도 있다. 예측 모듈은 제 2 중간 화소 값을 저장한다 (1104). 제 2 중간 화소 값이 16 비트이므로, 제 2 중간 화소 값은, 예를 들어, 16 비트 레지스터에 효율적으로 저장될 수도 있다. 예측 모듈은 제 2 중간 화소 값을 취출할 수도 있다 (1105). 예측 모듈은 제 2 오프셋을 취출된 제 2 중간 값에 가산할 수도 있다. 예측 모듈은 제 2 필터링 동작을 가산된 제 2 오프셋 값을 갖는 취출된 제 2 중간 화소 값에 적용하여 서브 화소 위치에 대한 제 1 화소 값을 계산할 수도 있다 (1107). 예측 모듈은 적어도 서브 화소 위치에 대한 제 1 화소 값에 기초하여 예측 블록을 발생시킬 수도 있다 (1108).

도 12 및 도 13 은 예측 데이터와 연관된 정수 화소 포지션들, 및 보간된 예측 데이터와 연관된 서브 화소 포지션들을 도시하는 개념적 다이어그램들이다. 도 12 및 도 13 은 본 개시물에서 설명된 기법들의 예들을 도시한다. 이러한 기법들은, 예를 들어, 비디오 인코더 (50), 비디오 디코더 (60), 또는 다른 유형의 비디오 코더들에 의해 수행될 수도 있다. 도 12 에서, 음영된 블록들 내에 대문자들 (A_i _{, j}) 로 라벨링된 포지션들은 루마 샘플들의 주어진 2 차원 어레이 (refPicLX_L) 내의 전체 샘플 위치들에서의 루마 샘플들을 표현한다. 도 12 에서, 정수 샘플들은 대문자들을 갖는 음영된 블록들로 도시되고, 분수 샘플 포지션들은 1/4 샘플 루마 보간에 대한 소문자들을 갖는 음영되지 않은 블록들로 도시된다.

이러한 샘플들은 예측된 루마 샘플 값 (predSampleLX_L[x_L, y_L]) 을 발생시키는데 이용될 수도 있다. 루마 샘플들의 주어진 어레이 (refPicLX_L) 내의 대응하는 루마 샘플들 (A_i _{, j}) 의 각각에 대한 위치들 (xA_i _,　j,　yA_i _,　j) 은 다음과 같이 도출될 수도 있다:

여기서 (xInt_L, yInt_L) 은 전체 샘플 유닛들에서의 루마 위치이다.

변수들 (쉬프트1, 쉬프트2, 쉬프트3, 오프셋1, 및 오프셋2) 은 다음과 같이 도출될 수도 있다:

· 변수 (쉬프트1) 는 BitDepthY - 8 과 동일하게 설정될 수도 있다. 변수 (쉬프트 2) 은 BitDepthY - 2 와 동일하게 설정될 수도 있고, 변수 (쉬프트 3) 는 14 - BitDepthY 와 동일하게 설정될 수도 있다. BitDepthY 은 8 + bit_depth_luma_minus8 과 동일하게 설정될 수도 있는데, 여기서 bit_depth_luma_minus8 + 8 은 루마 어레이의 샘플들의 비트 심도를 명시한다.

· 변수 (쉬프트1) 가 0 과 동일한 경우, 변수 (오프셋1) 는 0 과 동일하게 설정된다. 그렇지 않으면, 변수 (오프셋1) 는 1 << (쉬프트1 - 1) 과 동일하게 설정될 수도 있다.

· 변수 (오프셋2) 는 1 << (쉬프트2 - 1) 와 동일하게 설정될 수도 있다.

전체 샘플 위치들 (xA_i _{, j}, yA_i _{, j}) 에서의 루마 샘플들 (A_i _{, j}) 을 고려하면, 부분 샘플 포지션들에서의 루마 샘플들 ('a₀ _,0' 내지 'r₀ _,0') 이 다음의 규칙들에 의해 도출될 수도 있다. a₀ _,0, b₀ _,0, c₀ _,0, d₀ _,0, h₀ _,0, 및 n₀ _, ₀ 로 라벨링된 샘플들은 8 탭 필터를 가장 가까운 정수 포지션 샘플들에 적용하고 필터링된 값을 클리핑함으로써 도출될 수도 있다:

e₀ _,0, f₀ _,0, g₀ _,0, i₀ _,0, j₀ _,0, k₀ _,0, p₀ _,0, q₀ _,0, 및 r₀ _, ₀ 로 라벨링된 샘플들은 가장 가까운 정수 포지션 샘플들에 수직 방향으로 8 탭 필터를 적용하여 우선 d1_i _,0, h1_i,0, 및 n1_i _, ₀ 로 표시된 중간 값들을 산출함으로써 도출될 수도 있다 (여기서 i = -3..4):

최종 예측 값들 (e₀ _,0, f₀ _,0, g₀ _,0, i₀ _,0, j₀ _,0, k₀ _,0, p₀ _,0, q₀ _,0, 및 r₀ _,0) 은 8 탭 필터를 중간 값들 (d1_i _,0, h1_i _,0, 및 n1_i _,0) 에 적용함으로써 도출될 수 있다 (여기서 i = 수평 방향으로 -3..4 이다):

음영되지 않은 블록들 내에 소문자들로 라벨링된 포지션들은 1/4 화소 샘플 분수 위치들에서의 루마 샘플들을 표현한다. 분수 샘플 유닛들 (xFrac_L, yFrac_L) 에서의 루마 위치 오프셋은 전체 샘플 및 분수 샘플 위치들에서 발생된 루마 샘플들 중 어느 것이 예측된 루마 샘플 값 (predSampleLX_L[x_L, y_L]) 에 할당되는지를 명시한다. predSampleLX_L[x_L, y_L] 의 값이 출력될 수도 있다.

본 개시물의 기법들은 또한 크로마 샘플 보간 프로세스에 적용될 수도 있다. 이러한 프로세스에 대한 예시적인 입력들은:

- 전체 샘플 유닛들에서의 크로마 위치 (xInt_C, yInt_C),

- 분수 샘플 유닛들에서의 크로마 위치 (xFrac_C, yFrac_C)

- 크로마 참조 샘플 어레이 (refPicLX_C) 이다.

이러한 프로세스의 출력은 예측된 크로마 샘플 값 (predSampleLX_C[x_C, y_C]) 일 수 있다.

도 13 은 8 번째 샘플 크로마 보간에 대한 정수 샘플들 (대문자들을 갖는 음영된 블록들) 및 분수 샘플 포지션들 (소문자들을 갖는 음영되지 않은 블록들) 을 도시한다. 도 13 에서, 음영된 블록들 내에 대문자들 (B_i _{, j}) 로 라벨링된 포지션들은 크로마 샘플들의 주어진 2 차원 어레이 (refPicLX_C) 내의 전체 샘플 위치들에서의 크로마 샘플들을 표현한다. 이러한 샘플들은 예측된 크로마 샘플 값 (predSampleLX_C[x_C, y_C]) 을 발생시키는데 이용될 수도 있다. 크로마 샘플들의 주어진 어레이 (refPicLX_C) 내의 대응하는 크로마 샘플들 (B_i _{, j}) 의 각각에 대한 위치들 (xB_i _{, j}, yB_i _{, j}) 은 다음과 같이 도출된다:

변수들 (쉬프트1, 쉬프트2, 쉬프트3, 오프셋1, 및 오프셋2) 은 다음과 같이 도출된다.

- 변수 (쉬프트1) 는 BitDepth_C - 8 와 동일하게 설정되며, 변수 (쉬프트2) 는 BitDepth_C - 2 와 동일하게 설정되고, 변수 (쉬프트3) 는 14 - BitDepth_C 와 동일하게 설정된다.

- 변수 (쉬프트1) 가 0 과 동일한 경우, 변수 (쉬프트1) 는 0 과 동일하게 설정되며, 그렇지 않으면, 변수 (오프셋1) 는 1 << (쉬프트1 - 1) 와 동일하게 설정된다.

- 변수 (오프셋2) 는 1 << (쉬프트2 - 1) 와 동일하게 설정된다.

전체 샘플 위치들 (xB_i _{, j}, yB_i _{, j}) 에서의 크로마 샘플들 (B_i _{, j}) 을 고려하여, 분수 샘플 포지션들에서의 크로마 샘플들 ('ab₀ _,0' 내지 'hh₀ _,0') 은 다음의 규칙들에 의해 도출된다.

ab₀ _,0, ac₀ _,0, ad₀ _,0, ae₀ _,0, af₀ _,0, ag₀ _,0, 및 ah₀ _, ₀ 로 라벨링된 샘플들은 가장 가까운 정수 포지션 샘플들에 4 탭 필터를 적용하여 필터링된 값을 클리핑함으로써 도출될 수도 있다:

ba₀ _,0, ca₀ _,0, da₀ _,0, ea₀ _,0, fa₀ _,0, ga₀ _,0, 및 ha₀ _, ₀ 로 라벨링된 샘플들은 가장 가까운 정수 포지션 샘플들에 4 탭 필터를 적용하여 필터링된 값을 클리핑함으로써 도출될 수도 있다:

각각 b, c, d, e, f, g, 및 h 에 의해 대체되는 X 에 대해 Xb₀ _,0, Xc₀ _,0, Xd_0,0, Xe₀ _,0, Xf₀ _,0, Xg₀ _,0 및 Xh₀ _, ₀ 로 라벨링된 샘플들은, 4 탭 필터를 수직 방향으로 가장 가까운 정수 포지션 샘플들에 적용하여 ba_i _,0, ca_i _,0, da_i _,0, ea_i _,0, fa_i _,0, ga_i _,0 및 ha_i _, ₀ 로 표시된 중간 값들을 우선 산출함으로써 도출될 수 있다 (여기서 i = -1..2):

각각 b, c, d, e, f, g, 및 h 에 의해 대체되는 X 에 대한 최종 예측 값들 (Xb_0,0, Xc₀ _,0, Xd₀ _,0, Xe₀ _,0, Xf₀ _,0, Xg₀ _,0, 및 Xh₀ _,0) 은 4 탭 필터를 중간 값들 (Xa_i _,0) 에 적용함으로써 도출될 수도 있다 (여기서 i = 수평 방향으로 -1..2):

본 개시물의 기법들에 따르면, e₀ _,0, f₀ _,0, g₀ _,0, i₀ _,0, j₀ _,0, k₀ _,0, p₀ _,0, q₀ _,0, 및 r_0,0 을 보간하기 위해, 예측 모듈은 2 스테이지 보간 필터링 (즉, 수직 방향에서의 하나의 필터링 동작, 및 수평 방향에서의 하나의 필터링 동작) 을 수행할 수도 있다. 중간 값들을 보다 효율적으로 저장하기 위해, 2 개의 스테이지들 사이에서 결정된 중간 값들을 16 비트로 유지하는 것이 바람직할 수도 있다. 설명을 위한 목적으로 제 1 스테이지의 보간 필터링이 다음과 같다고 가정한다:

여기서 C₁ ~ C₈ 은 보간 필터 계수들을 표현하고, A₁ ~A₈ 은 전체 샘플 값들을 표현한다. 현재의 HEVC 보간 필터들은 계수들 (-1, 4, -11, 40, 40, -11, 4 ,-1) 이 C1 내지 C8 에 대해 이용되는 경우 일반적으로 7 비트 이득을 생성한다. 다른 계수들이 또한 이용될 수도 있고, 다른 계수들은 유사하게 7 비트 이득을 초래할 수도 있다. 입력 값들이 10 비트 값들에 대해 0 - 1023 인 양의 값들을 가지기 때문에, 필터링된 계수 값들은 양의 값들 쪽으로 바이어스된다. 본 개시물의 기법들은 동적 범위를 제한할 수도 있고, 또한 동시에 값들을 16 비트 값들로 가져온다. 가능하게는 코딩 이득에 영향을 미치지 않으면서 이를 달성하는 일 방식은 16 비트 범위 내로 값들을 얻기 위해 중간 값들을 라운딩과 함께 1 만큼 우측 쉬프트하는 것이다. 구현이 16 비트 값들의 이용을 요구하는 경우, 다음의 의사 코드로 보여진 바와 같이, 이러한 16 비트 범위의 값들은 값들이 부호를 지닌 16 비트 값들에 맞도록 오프셋만큼 쉬프트될 수 있다.

이 예에서, x 는 16 비트 범위를 가지나, x 의 값들은 16 비트보다 더 클 수도 있다 (예를 들어, 17 비트). 17 비트 x 값들을 16 비트로 가져오기 위해, 적절한 오프셋 (위의 식들에서 오프셋2) 이 x 값들로부터 감산될 수 있어 x 값들이 16 비트 값들로 저장될 수 있다. 추후에, x 값들이 재사용될 경우, 이러한 오프셋이 x 에 다시 가산되어 원래의 값을 획득할 수 있다. x 값들의 범위는 x 의 최대 값과 최소 값의 차이로 정의된다. 이에 따라, 최대 값이 17 비트일지라도, 최대치와 최소치의 값들의 범위는 오직 16 비트일 수도 있다.

이러한 방식으로, 오프셋의 값은 17 비트 값들을 16 비트 값들로 감소시키기에 충분한 값일 수도 있다. 오프셋은 비규범적일 수도 있는데, 이는 코딩 표준 또는 비트스트림 구성에 관계 없이 코딩 디바이스에 의해 특정 오프셋이 구현될 수도 있음을 의미한다. 일 비디오 디코더는, 예를 들어, 동일한 인코딩된 비디오 데이터를 디코딩하는 경우에 제 2 비디오 디코더와는 상이한 오프셋 값을 이용할 수도 있다.

필터링된 값들이 쉬프트 양만큼 쉬프트되기 때문에, 제 2 스테이지의 필터링에서, 제 2 스테이지의 쉬프트 양들은 쉬프트 양만큼 감소될 수도 있고, 대응하는 라운딩 오프셋들이 이에 따라 조정될 수도 있다.

오프셋들을 요구하지 않으면서 정확도를 16 비트로 유지하기 위한 다른 대안은, 데이터가 17 비트이고 범위가 16 비트인 경우, 추가 비트만큼 우측으로 쉬프트하는 것이다. 그래서, 위에서 소개된 라운딩 오프셋이 있거나 라운딩 오프셋이 없는 1 만큼의 우측 쉬프트는 라운딩이 있거나 라운딩이 없는 2 만큼의 우측 쉬프트로 대체될 수 있다. 필터링의 순서는 우선 수직으로 뒤이어 수평일 수도 있거나 그 반대일 수도 있다. 제 1 스테이지 필터링 후에 우측 쉬프트들이 없는 중간 값들이 16 비트를 초과할 수 있는 (overflow) 2D 필터링의 경우에 있어서는, 현재의 중간 값들이 2 만큼 우측 쉬프트된다. 이에 따라, 제 2 스테이지는 1 적은 우측 쉬프트를 가져 이러한 추가 쉬프트를 보상할 것이다. 이러한 설명 모두는 입력 샘플들이 실질적으로 10 비트 (비트심도 + 비트증분) 인 경우에 대한 것이다.

본 개시물의 기법들은 또한 높은 정확도의 양방향 예측을 이용하는 보간에 적용될 수도 있다. 이러한 경우들에서, 각각의 예측 방향에 대해 수평 필터링에 뒤이어 수직 필터링이 (또는 그 반대로) 수행되고, 2 개의 스테이지의 필터링의 출력은 최종 2 개의 예측들 최종 평균까지 보다 높은 정확도로 유지된다. 제 1 스테이지 필터링 후에 데이터를 16 비트로 유지하기 위해, 필터링된 데이터는 (라운딩과 함께 또는 라운딩이 없이) 2 비트 만큼 우측 쉬프트될 수도 있다. 제 2 스테이지 후에, 데이터가 7 비트만큼 우측 쉬프트뒤어 최종 16 비트 값이 달성될 수도 있다. 다운 쉬프트가 라운딩과 함께 또는 라운딩이 없이 행해질 수도 있다. 이는 1 비트 쉬프트가 제 1 스테이지에서 적용되었고 7 비트 쉬프트가 제 2 스테이지에서 적용되었고 17 비트 데이터를 16 비트 정수 값으로 이동시키는데 오프셋이 이용되는 위에서 설명된 경우에 대한 대안이다. 최종적으로, 2 개의 예측 방향들은 2 개의 예측 방향들을 합하고 라운딩과 함께 4 만큼 다운 쉬프팅함으로써 평균화될 수도 있다.

8 비트 입력 데이터에 있어서, 양방향 예측의 경우에 있어 16 비트보다 큰 데이터 값들을 가지는 문제가 또한 발생할 수도 있다. 이러한 경우에, 제 1 필터링 스테이지 후에 오프셋 (또는 우측 쉬프트 동작) 을 적용할 필요가 없을 수도 있으나, 제 2 스테이지 필터링 후에 데이터가 6 비트만큼 다운 쉬프트될 수도 있다. 최종 결과치들은 16 비트 범위를 갖는 17 비트 값들일 수도 있다. 위에서 설명된 바와 같이, 17 비트 값들에 오프셋이 가산되어 저장을 위해 16 비트 값들로 감소시킬 수도 있다. 취출되거나 추후 산출들의 경우에, 오프셋이 다시 16 비트 값들에 가산되어 원래의 17 비트 값들로 되돌릴 수도 있다. 일부 사례들에서, 오프셋을 이용하는 대신에, 중간 값들이 (라운딩 오프셋과 함께 또는 라운딩 오프셋이 없이) 7 비트만큼 다운쉬프트될 수도 있다. (2 개의 예측 방향들을 합하고 라운딩과 함께 4 만큼 다운 쉬프트하는) 10 비트 경우에서와 같이 2 개의 예측 방향들에 대한 유사한 종류의 평균화가 수행될 수도 있다.

중간 데이터 값들을 16 비트 범위 내로 유지하기 위한 다른 방식은, 제 1 스테이지 필터링 후에, 필터링된 결과들을 다음과 같이 우측 쉬프트하는 것일 수도 있다:

쉬프트 = BitDepth_Y - 8,

x = x >> 쉬프트,

여기서는 라운딩 오프셋이 없다.

그 다음에, 제 2 스테이지 필터링에 있어서, 결과들을 16 비트 범위 내로 유지하기 위해, 라운딩 오프셋을 이용하지 않으면서 6 대신 7 만큼 값들이 우측 쉬프트된다.

유사한 논의들이 크로마에 대해서도 있다. 크로마 샘플들의 2D 필터링에 있어서, 크로마 보간 필터들에 대한 최대 이득은 27+46=73 이다. 이는

인 필터에 대한 것이다. 그래서, 10 비트 입력에 있어서 최대 값은 1023*73 일 것이다. 이러한 값을 16 비트 범위 값으로 낮추는 일 방식은 라운딩 오프셋과 함께 또는 라운딩 오프셋이 없이 1 만큼 우측 쉬프트하는 것이다. 대안으로, 라운딩과 함께 또를 라운딩 없이 2 만큼 우측 쉬프트함으로써 16 비트 값들로 낮춰질 수 있다. 이러한 추가 우측 쉬프트들은 제 2 스테이지 필터링 후에 1 적게 쉬프팅됨으로써 보상될 것이다.

크로마 양방향 예측의 경우는 상술된 루마 경우와 유사할 수도 있다. 각각의 리스트 예측 값들에 대해 16 비트 값들을 가지기 위해, 제 2 스테이지 필터링 후에 1 추가 비트만큼 샘플 값들이 쉬프트될 수 있으며, 따라서 7 비트가 된다. 이러한 추가 비트 쉬프트는 양방향 예측 평균화 스테이지에서 보상될 것이다.

양방향 예측이 이용되는 경우 최종 예측 샘플들을 형성하기 위해 상이한 종류의 예측을 혼합할 가능성이 있을 수도 있다. 예를 들어, 1D 양방향 예측을 이용하여 일 예측이 수행될 수도 있는 반면 2D 양방향 예측을 이용하여 다른 것이 수행될 수도 있다. 2D 양방향 예측 값들을 16 비트 값들로 유지하기 위한 추가 1 비트 쉬프트의 도입으로, 2D 양방향 예측과 1D 양방향 예측의 해상도가 상이하다. 1D 양방향 예측은 1 추가 비트 정확도를 갖는다 (4 비트 이득이 있다 (6 비트 필터 이득 - 2 비트 우측 쉬프트)). 2D 양방향 예측은 2D 필터링 - 2 비트 우측 쉬프트 - 7 비트 우측 이득 = 3 비트 이득으로부터 6+6 이득을 갖는다. 모든 이득들을 동일하게 유지하기 위해 1 추가 비트만큼 다운 쉬프트하여 2D 양방향 예측의 경우와 유사하게 3 비트 이득을 갖도록 하는 것이 좋을 수도 있다. 그래서, 1D 양방향 예측 샘플들은 (10 비트 입력에 있어서) 2 대신에 3 만큼 우측 쉬프트됨으로써 획득될 것이다. 유사한 경우가 8 비트 입력 샘플들에 적용된다. 이러한 경우에, 1D 양방향 예측 샘플들은 1 비트만큼 쉬프트될 수도 있다.

본 개시물의 기법들은, 무선 핸드셋, 집적 회로 (IC) 또는 IC 들의 세트 (즉, 칩 셋) 를 포함하여, 매우 다양한 디바이스들 또는 장치들에서 구현될 수도 있다. 설명된 임의의 컴포넌트들, 모듈들, 또는 유닛들이 기능적 양상들을 강조하기 위해 제공되고, 반드시 상이한 하드웨어 유닛들에 의한 실현을 요구하지는 않는다.

이에 따라, 본원에 설명된 기법들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 하드웨어로 구현되는 경우, 모듈들, 유닛들, 또는 컴포넌트들로 설명된 임의의 특징부들은 집적 논리 디바이스로 함께 또는 분산되나 상호동작가능한 논리 디디바이스들로 별도로 구현될 수도 있다. 소프트웨어로 구현되는 경우, 기법들은 프로세서에서 실행되는 경우 상술된 방법들 중 하나 이상의 방법을 수행하는 명령들을 포함하는 컴퓨터 판독가능 매체에 의해 적어도 부분적으로 실현될 수도 있다. 컴퓨터 판독가능 매체는 비일시적, 컴퓨터 판독가능 저장 매체를 포함할 수도 있고, 패키징 재료들을 포함할 수도 있는 컴퓨터 프로그램 제품의 일부분을 형성할 수도 있다. 컴퓨터 판독가능 저장 매체는 동기식 동적 랜덤 액세스 메모리 (SDRAM) 과 같은 랜덤 액세스 메모리 (RAM), 판독 전용 메모리 (ROM), 비휘발성 랜덤 액세스 메모리 (NVRAM), 전기적으로 소거가능한 프로그램가능 판독 전용 메모리 (EEPROM), 플래시 메모리, 자기적 또는 광학적 데이터 저장 매체들 등을 포함할 수도 있다. 기법들은, 추가적으로 또는 대안으로, 명령들 또는 데이터 구조들의 형태를 코드를 반송하거나 통신하는, 그리고 컴퓨터에 의해 액세스, 판독, 및/또는 실행될 수 있는 컴퓨터 판독가능 통신 매체에 의해 적어도 부분적으로 실현될 수도 있다.

하나 이상의 디지털 신호 프로세서 (digital signal processor; DSP) 들과 같은 하나 이상의 프로세서들, 범용 마이크로프로세서들, 주문형 집적회로 (application specification integrated circuit; ASIC) 들, 필드 프로그램가능 게이트 어레이 (field programmable gate array; FPGA) 들, 또는 임의의 다른 등가의 분산 또는 집적 논리 회로망에 의해 코드가 실행될 수도 있다. 따라서, 본원에서 사용된 용어 "프로세서" 는 임의의 앞서 설명된 구조 또는 본원에서 설명된 기법들의 구현에 적합한 임의의 다른 구조를 지칭할 수도 있다. 또한, 일부 사례들에서, 본원에서 설명된 기능성은 인코딩 및 디코딩을 위해 구성된 전용 소프트웨어 모듈이나 하드웨어 모듈들 내에서, 또는 결합된 비디오 코덱에 포함되어 제공될 수도 있다. 또한, 본 기법들은 하나 이상의 회로들 또는 로직 소자들에서 완전히 구현될 수 있다.

본 개시물의 다양한 양상들이 설명되었다. 이들 및 다른 양상들은 다음의 청구항들의 범위 내에 있다.

Claims

비디오 코딩 디바이스에 의해, 화소들의 블록을 획득하는 단계로서, 상기 화소들의 블록은 상기 화소들의 블록 내의 정수 화소 포지션들에 대응하는 정수 화소 값들을 포함하는, 상기 화소들의 블록을 획득하는 단계;
상기 비디오 코딩 디바이스에 의해, 상기 화소들의 블록에 연관된 정수 화소 값들의 그룹에 제 1 보간 필터링 동작을 적용하여 제 1 비트 심도를 갖는 제 1 중간 화소 값을 발생시키는 단계로서, 상기 제 1 중간 화소 값은 제 2 비트 심도와 연관된 값들의 범위 내로 제한되고, 상기 제 2 비트 심도는 상기 제 1 비트 심도와 연관된 비트 심도 값보다 작은 비트 심도 값을 포함하는, 상기 제 1 중간 화소 값을 발생시키는 단계;
상기 비디오 코딩 디바이스에 의해, 상기 제 1 중간 화소 값에 제 1 오프셋 값을 가산하여 적어도 부분적으로 우측 쉬프트(shift) 동작을 수행하는 것에 의해 제 2 중간 화소 값을 발생시키는 단계로서, 상기 제 1 오프셋 값을 가산하는 것은 상기 제 2 중간 화소 값이 상기 제 2 비트 심도와 연관된 값들의 범위 내에 있도록 하는, 상기 제 2 중간 화소 값을 발생시키는 단계;
상기 비디오 코딩 디바이스에 의해, 상기 제 2 중간 화소 값을 저장하는 단계;
상기 비디오 코딩 디바이스에 의해, 상기 제 2 중간 화소 값을 취출하는 (retrieving) 단계;
상기 비디오 코딩 디바이스에 의해, 취출된 상기 제 2 중간 화소 값에 제 2 오프셋 값을 가산하는 단계;
상기 비디오 코딩 디바이스에 의해, 가산된 상기 제 2 오프셋 값을 갖는 상기 취출된 제 2 중간 화소 값을 포함하는 중간 화소 값들의 그룹에 제 2 보간 필터링 동작을 적용하여 서브 화소 위치에 대한 제 1 화소 값을 계산하는 단계; 및
상기 비디오 코딩 디바이스에 의해, 적어도 상기 서브 화소 위치에 대한 제 1 화소 값에 기초하여 예측 블록을 발생시키는 단계를 포함하는, 화소들의 블록을 코딩하는 방법.
제 1 항에 있어서,
상기 비디오 코딩 디바이스에 의해, 상기 취출된 제 2 중간 화소 값에 제 2 오프셋 값을 가산하는 단계는 상기 제 1 중간 화소 값을 초래하는, 화소들의 블록을 코딩하는 방법.
제 1 항에 있어서,
상기 우측 쉬프트 동작을 수행하는 것은 1 비트 우측 쉬프트 동작을 수행하는 것을 포함하는, 화소들의 블록을 코딩하는 방법.
제 1 항에 있어서,
상기 제 2 오프셋 값은 것은 상기 제 1 오프셋 값과 크기가 동일한, 화소들의 블록을 코딩하는 방법.
제 1 항에 있어서,
상기 제 1 중간 화소 값의 상기 제 1 비트 심도는 17 비트와 동일한, 화소들의 블록을 코딩하는 방법.
제 1 항에 있어서,
상기 제 2 중간 화소 값의 상기 제 2 비트 심도는 16 비트와 동일한, 화소들의 블록을 코딩하는 방법.
제 1 항에 있어서,
상기 제 1 화소 값은 17 비트의 비트 심도를 가지는, 화소들의 블록을 코딩하는 방법.
제 6 항에 있어서,
상기 비디오 코딩 디바이스에 의해, 상기 제 1 화소 값의 비트 심도를 10 비트로 감소시키는 단계를 더 포함하는, 화소들의 블록을 코딩하는 방법.
제 1 항에 있어서,
상기 정수 화소 값들의 그룹의 각 정수 화소 값은 10 비트 정수 값인, 화소들의 블록을 코딩하는 방법.
제 1 항에 있어서,
상기 비디오 코딩 디바이스는 비디오 디코더를 포함하는, 화소들의 블록을 코딩하는 방법.
제 1 항에 있어서,
상기 비디오 코딩 디바이스는 비디오 인코더를 포함하는, 화소들의 블록을 코딩하는 방법.
화소들의 블록을 코딩하는 비디오 코딩 디바이스로서,
비디오 데이터를 저장하도록 구성되는 메모리; 및
비디오 프로세서를 포함하고,
상기 비디오 프로세서는,
화소들의 블록을 획득하는 것으로서, 상기 화소들의 블록은 상기 화소들의 블록 내의 정수 화소 포지션들에 대응하는 정수 화소 값들을 포함하는, 상기 화소들의 블록을 획득하는 것;
상기 화소들의 블록과 연관된 정수 화소 값들의 그룹에 제 1 보간 필터링 동작을 적용하여 제 1 비트 심도를 갖는 제 1 중간 화소 값을 발생시키는 것으로서, 상기 제 1 중간 화소 값은 제 2 비트 심도와 연관된 값들의 범위 내로 제한되고, 상기 제 2 비트 심도는 상기 제 1 비트 심도와 연관된 비트 심도 값보다 작은 비트 심도 값을 포함하는, 상기 제 1 중간 화소 값을 발생시키는 것;
상기 제 1 중간 화소 값에 제 1 오프셋 값을 가산하여 적어도 부분적으로 우측 쉬프트 동작을 수행하는 것에 의해 제 2 중간 화소 값을 발생시키는 것으로서, 상기 제 1 오프셋 값을 가산하는 것은 상기 제 2 중간 화소 값이 상기 제 2 비트 심도와 연관된 값들의 범위 내에 있도록 하는, 상기 제 2 중간 화소 값을 발생시키는 것;
상기 제 2 중간 화소 값을 저장하는 것;
상기 제 2 중간 화소 값을 취출하는 (retrieve) 것;
취출된 상기 제 2 중간 화소 값에 제 2 오프셋 값을 가산하는 것;
가산된 상기 제 2 오프셋 값을 갖는 상기 취출된 제 2 중간 화소 값을 포함하는 중간 화소 값들의 그룹에 제 2 보간 필터링 동작을 적용하여 서브 화소 위치에 대한 제 1 화소 값을 계산하는 것; 및
적어도 상기 서브 화소 위치의 상기 제 1 화소 값에 기초하여 예측 블록을 발생시키는 것을 실행하도록 구성되는, 비디오 코딩 디바이스.
제 12 항에 있어서,
상기 비디오 프로세서는 상기 취출된 제 2 중간 화소 값에 제 2 오프셋 값을 가산하도록 구성되고, 상기 가산은 상기 제 1 중간 화소 값을 초래하는, 비디오 코딩 디바이스.
제 12 항에 있어서,
상기 비디오 프로세서는 1 비트 우측 쉬프트 동작을 수행하도록 더 구성되는, 비디오 코딩 디바이스.
제 12 항에 있어서,
상기 제 2 오프셋 값은 상기 제 1 오프셋 값과 크기가 동일한, 비디오 코딩 디바이스.
제 12 항에 있어서,
상기 제 1 중간 화소 값의 상기 제 1 비트 심도는 17 비트와 동일한, 비디오 코딩 디바이스.
제 12 항에 있어서,
상기 제 2 중간 화소 값은 17 비트의 비트 심도를 가지는, 비디오 코딩 디바이스.
제 12 항에 있어서,
상기 제 1 화소 값은 17 비트의 비트 심도를 가지는, 비디오 코딩 디바이스.
제 18 항에 있어서,
상기 비디오 프로세서는 상기 제 1 화소 값의 비트 심도를 10 비트로 감소시키도록 더 구성되는, 비디오 코딩 디바이스.
제 12 항에 있어서,
상기 정수 화소 값들의 그룹의 각 정수 화소 값은 10 비트 정수 값인, 비디오 코딩 디바이스.
제 12 항에 있어서,
상기 비디오 프로세서는 비디오 디코더를 포함하는, 비디오 코딩 디바이스.
제 12 항에 있어서,
상기 비디오 프로세서는 비디오 인코더를 포함하는, 비디오 코딩 디바이스.
제 12 항에 있어서,
상기 비디오 코딩 디바이스는,
마이크로프로세서; 및
상기 비디오 프로세서를 포함하는 무선 통신 디바이스
중 적어도 하나를 포함하는, 비디오 코딩 디바이스.
화소들의 블록을 획득하는 수단으로서, 상기 화소들의 블록은 상기 화소들의 블록 내의 정수 화소 포지션들에 대응하는 정수 화소 값들을 포함하는, 상기 화소들의 블록을 획득하는 수단;
상기 화소들의 블록에 연관된 정수 화소 값들의 그룹에 제 1 보간 필터링 동작을 적용하여 제 1 비트 심도를 갖는 제 1 중간 화소 값을 발생시키는 수단으로서, 상기 제 1 중간 화소 값은 제 2 비트 심도와 연관된 값들의 범위 내로 제한되고, 상기 제 2 비트 심도는 상기 제 1 비트 심도와 연관된 비트 심도 값보다 작은 비트 심도 값을 포함하는, 상기 제 1 중간 화소 값을 발생시키는 수단;
상기 제 1 중간 화소 값에 제 1 오프셋 값을 가산하여 적어도 부분적으로 우측 쉬프트 동작을 수행하는 것에 의해서 제 2 중간 화소 값을 발생시키는 수단으로서, 상기 제 1 오프셋 값을 가산하는 것은 상기 제 2 중간 화소 값이 상기 제 2 비트 심도와 연관된 값들의 범위 내에 있도록 하는, 상기 제 2 중간 화소 값을 발생시키는 수단;
상기 제 2 중간 화소 값을 저장하는 수단;
상기 제 2 중간 화소 값을 취출하는 (retrieving) 수단;
취출된 상기 제 2 중간 화소 값에 제 2 오프셋 값을 가산하는 수단;
가산된 상기 제 2 오프셋 값을 갖는 상기 취출된 제 2 중간 화소 값을 포함하는 중간 화소 값들의 그룹에 제 2 보간 필터링 동작을 적용하여 서브 화소 위치에 대한 제 1 화소 값을 계산하는 수단; 및
적어도 상기 서브 화소 위치에 대한 상기 제 1 화소 값에 기초하여 예측 블록을 발생시키는 수단을 포함하는, 화소들의 블록을 코딩하는 장치.
명령들을 저장하는 컴퓨터 판독가능 저장 매체로서,
상기 명령들은, 실행 시에, 하나 이상의 프로세서들로 하여금,
화소들의 블록을 획득하는 것으로서, 상기 화소들의 블록은 상기 화소들의 블록 내의 정수 화소 포지션들에 대응하는 정수 화소 값들을 포함하는, 상기 화소들의 블록을 획득하는 것;
상기 화소들의 블록에 연관된 정수 화소 값들의 그룹에 제 1 보간 필터링 동작을 적용하여 값들의 범위 내의 제 1 비트 심도를 갖는 제 1 중간 화소 값을 발생시키는 것으로서, 상기 제 1 중간 화소 값은 제 2 비트 심도와 연관된 값들의 범위 내로 제한되고, 상기 제 2 비트 심도는 상기 제 1 비트 심도와 연관된 비트 심도 값보다 작은 비트 심도를 포함하는, 상기 제 1 중간 화소 값을 발생시키는 것;
상기 제 1 중간 화소 값에 제 1 오프셋 값을 가산하여 적어도 부분적으로 우측 쉬프트 동작을 수행하는 것에 의해 제 2 중간 화소 값을 발생시키는 것으로서, 상기 제 1 오프셋 값을 가산하는 것은 상기 제 2 중간 화소 값이 상기 제 2 비트 심도와 연관된 값들의 범위 내에 있도록 하는, 상기 제 2 중간 화소 값을 발생시키는 것;
상기 제 2 중간 화소 값을 저장하는 것;
상기 제 2 중간 화소 값을 취출하는 (retrieve) 것;
취출된 상기 제 2 중간 화소 값에 제 2 오프셋 값을 가산하는 것;
가산된 상기 제 2 오프셋 값을 갖는 상기 취출된 제 2 중간 화소 값을 포함하는 중간 화소 값들의 그룹에 제 2 보간 필터링 동작을 적용하여 서브 화소 위치에 대한 제 1 화소 값을 계산하는 것; 및
적어도 상기 서브 화소 위치에 대한 상기 제 1 화소 값에 기초하여 예측 블록을 발생시키는 것을 실행하도록 하는, 컴퓨터 판독가능 저장 매체.