KR101949720B1

KR101949720B1 - 평면 표현을 이용한 향상된 인트라-예측 부호화

Info

Publication number: KR101949720B1
Application number: KR1020187006898A
Authority: KR
Inventors: 프랭크 잰 보센; 샌딥 카누무리
Original assignee: 가부시키가이샤 엔.티.티.도코모
Priority date: 2010-12-21
Filing date: 2011-12-21
Publication date: 2019-02-19
Also published as: JP6242438B2; CN104796714B; CA3029043C; BR112013016043B1; JP2018186581A; US10205963B2; PT3373582T; KR20160085376A; JP6397555B2; AU2011349244B2; US10841611B2; EP2993903A1; CA2900863A1; CN104811713B; JP2020018024A; PT3370421T; US20190052898A1; US10771812B2; KR20130128441A; EP3373582B1

Abstract

본 발명은, 제1 예측값이 각각의 수평 경계 화소의 값과 수직 경계 화소의 하나의 화소의 값 간의 선형 보간을 이용하여 계산되고, 제2 예측값이 각각의 수직 경계 화소의 값과 수평 경계 화소의 하나의 화소의 값 간의 선형 보간을 이용하여 계산되는, 저복잡도 평면 모드 부호화를 제공한다. 그리고나서, 제1 예측값과 제2 예측값은 예측 블록의 각각의 예측 화소값을 구하기 위해 평균이 구해진다. 예측 블록과 타겟 블록 간의 잔차가 디코더에 시그널링된다.

Description

평면 표현을 이용한 향상된 인트라-예측 부호화{ENHANCED INTRA-PREDICTION CODING USING PLANAR REPRESENTATIONS}

본 특허 출원은 35 U.S.C. §119(e) 하에서 2010년 12월 21일자로 출원된 미국 가특허 출원 번호 61/425,670호 및 2011년 3월 4일자로 출원된 미국 가특허 출원 번호 61/449,528의 출원일의 이점을 주장하며, 상기한 특허 출원의 전체 내용이 참조에 의해 본 명세서에 원용된다.

본 발명은 비디오 부호화에 관한 것으로, 보다 구체적으로는 저복잡도 평면 예측 모드 부호화(low complexity planar prediction mode coding)로 향상된 인트라-프레임 예측에 관한 것이다.

디지털 비디오는 디지털 비디오 시퀀스의 각각의 프레임 및 전체 프레임(예컨대, 일련의 프레임)을 압축되지 않은 방식으로 표현하기 위해서는 많은 양의 데이터를 필요로 한다. 대부분의 애플리케이션은 대역폭 한계 때문에 압축되지 않은 디지털 비디오를 컴퓨터 네트워크를 통해 전송하는 것이 가능한 것은 아니다. 또한, 압축되지 않은 디지털 비디오는 많은 양의 저장 공간을 필요로 한다. 디지털 비디오는 일반적으로 저장 요건을 감소시키고 대역폭 요건을 감소시키기 위해 여러 방식으로 인코딩된다.

디지털 비디오를 인코딩하는 한 가지 기술은 인터-프레임 예측(inter-frame prediction) 또는 인터-예측(inter-prediction)이다. 인터-예측은 상이한 프레임들 간의 시간적 중복성(temporal redundancy)을 이용한다. 비디오의 시간적으로 인접한 프레임들은 통상적으로 실질적으로 동일하게 유지되는 화소 블록을 포함한다. 인코딩 프로세스 동안, 모션 벡터가 하나의 프레임 내의 화소 블록의 움직임을 다른 프레임 내의 유사한 화소 블록에 연관(interrelate)시킨다. 이에 따라, 시스템은 화소 블록을 2회 인코딩할 필요가 없으며, 화소 블록을 1회 인코딩하고, 다른 화소 블록을 예측하기 위한 모션 벡터를 제공한다.

디지털 비디오를 인코딩하기 위한 또 다른 기술은 인트라-프레임 예측(intra-frame prediction) 또는 인트라-예측(intra-prediction)이다. 인트라-예측은 다른 프레임 내의 화소를 참조하지 않고 프레임 또는 프레임의 일부분을 인코딩한다. 인트라-예측은 하나의 프레임 내의 화소 블록들 간의 공간적 중복성을 이용한다. 공간적으로 인접한 화소 블록들이 일반적으로 유사한 속성을 갖기 때문에, 인접한 블록들 간의 공간적 상관 관계를 참조함으로써 부호화 프로세스의 효율이 향상된다. 이러한 상관 관계는 인접한 블록들에 사용된 예측 모드에 기초한 타겟 블록의 예측에 의해 이용될 수도 있다.

통상적으로, 인코더는 화소 예측기를 포함하고, 이 화소 예측기는 인터-예측기, 인트라-예측기 및 모드 셀렉터를 포함한다. 인터-예측기는 수신된 이미지에 대한 예측을 움직임 보상된 참조 프레임에 기초하여 수행한다. 인트라-예측기는 수신된 이미지에 대한 예측을 현재 프레임 또는 화상(picture)의 이미 처리된 부분에 기초하여 수행한다. 인트라-예측기는 또한 복수의 상이한 인트라-예측 모드를 포함하고, 각각의 예측 모드 하에서 예측을 수행한다. 인터-예측기 및 인트라-예측기로부터의 출력들은 모드 셀렉터에 제공된다.

모드 셀렉터는 인터-예측 부호화 또는 인트라-예측 부호화 중의 어느 부호화 방법이 이용되는지를 결정하며, 인트라-예측 부호화가 이용되는 때에는, 복수의 인트라-예측 모드 중에서 어느 모드의 인트라-예측 부호화가 이용되는지를 결정한다. 결정 프로세스에서, 모드 셀렉터는 어느 인코딩 방법 또는 어느 모드가 부호화 효율 및 처리 비용에 대해 가장 효율적인 결과를 제공하는지를 분석하기 위해 비용 함수(cost function)를이용한다.

인트라-예측 모드는 DC 모드 및 방향성 모드(directional mode)를 포함한다. DC 모드는 블록에 걸쳐 화소값이 일정한 블록을 표현하는데 적합하다. 방향성 모드는 특정한 방향으로 스트라이프 패턴(stripe pattern)을 갖는 블록을 표현하는데 적합하다. 이미지가 급격한 변화 없이 부드럽고(smooth), 그 화소값이 하나의 블록에서 서서히 변화되는, 또 다른 이미지 패턴이 있다. DC 모드 및 방향성 모드는 이미지 컨텐츠에서의 작은 점진적 변화를 예측하는데 적합하지 않으며, 특히 낮은 비트레이트 내지 중간 비트레이트에서 바람직하지 않은 블로킹 아티팩트(annoying blocking artifact)를 생성할 수 있다. 이것은, 서서히 변화되는 화소값을 갖는 블록들이 인코딩될 때에, 그 블록들의 AC 계수가 영(0)으로 양자화되는 경향이 있지만, DC 계수는 영이 아닌 값(non-zero value)을 갖기 때문이다.

이 문제점을 해소하기 위해, H.264/AVC 표준 하에서의 인트라-예측 모드는, 화소값이 작은 평면 기울기(planar gradient)로 서서히 변화되는 부드러운 이미지를 갖는 블록을 표현하기 위해 평면 모드(planar mode)를 추가로 포함한다. H.264/AVC 표준의 평면 모드 하에서는, 평면 기울기가 근사되고, 디코더에 비트스트림으로 시그널링된다.

본 발명은 인트라-예측 부호화의 부호화 효율을 향상시킬 수 있는 저복잡도 평면 모드 부호화를 제공하는 것을 목적으로 한다.

본 발명에서는, 평면 예측 모드 하에서, 인코더가 제1 예측값 및 제2 예측값을 계산한다. 제1 예측값은 각각의 수평 경계 화소의 값과 수직 경계 화소의 하나의 화소의 값 간의 선형 보간을 이용하여 계산된다. 제2 예측값은 각각의 수직 경계 화소의 값과 수평 경계 화소의 하나의 화소의 값 간의 선형 보간을 이용하여 계산된다. 인코더는 또한 예측 블록의 각각의 예측 화소값을 구하기 위해 제1 예측값과 제2 예측값의 평균을 구한다.

본 발명의 일특징에서, 인코더는 예측 블록과 타겟 블록 간의 잔차(residual)를 비트스트림으로 디코더에 시그널링한다.

본 발명의 또 다른 특징에서, 1차 변환 커널(transform kernel) H^N(i.j) 세트가 2차 변환 커널 G^N(i,j) 세트로 스위칭된다. 인코더는 2차 변환 커널 G^N(i,j) 세트를 이용하여 잔차를 변환한다.

2차 변환 커널 G^N(i,j) 세트는 다음 수식,

(a)

;

(b)

; 및

(c)

중의 하나에 의해 정해진다.

본 발명의 또 다른 특징에서, N×N 크기에 대한 2차 변환 커널 G^N(i,j) 세트는 M×M 크기에 대한 1차 변환 커널 H^M(i.j) 세트에 의해 정해지며, 여기서 M＞N이다. 구체적으로, 2차 변환 커널 G^N(i,j) 세트는 2N×2N 크기의 변환 커널(H^2N)이 지원되면

에 의해 정해지거나, 그렇지 않은 경우에는 G^N(i,j)=H^N(i,j)이다.

본 발명은 또한 디코딩을 위해 이용되는 저복잡도 평면 모드 부호화를 제공한다. 평면 모드 하에서, 디코더는 제1 예측값 및 제2 예측값을 계산한다. 제1 예측값은 각각의 수평 경계 화소의 값과 수직 경계 화소의 하나의 화소의 값 간의 선형 보간을 이용하여 계산된다. 제2 예측값은 각각의 수직 경계 화소의 값과 수평 경계 화소의 하나의 화소의 값 간의 선형 보간을 이용하여 계산된다. 디코더는 그 후 예측 블록의 각각의 예측 화소값을 구하기 위해 제1 예측값과 제2 예측값의 평균을 구한다. 디코더는 평면 모드 하에서 인코더에서 생성된 인코더로부터 시그널링된 잔차를 디코딩하고, 이미지 데이터를 재구축하기 위해 예측 블록에 디코딩된 잔차를 가산한다.

도 1은 본 발명을 구현할 수 있는 일례의 하드웨어 아키텍처를 도시하는 블록도이다.
도 2는 본 발명을 적용할 수 있는 비디오 인코더의 전반적인 도시를 보여주는 블록도이다.
도 3은 본 발명을 적용할 수 있는 비디오 디코더의 전반적인 도시를 보여주는 블록도이다.
도 4는 본 발명의 실시예에 따른 인코더의 기능 모듈을 도시하는 블록도이다.
도 5는 본 발명의 실시예에 따른 비디오 인코더에 의해 수행되는 인코딩 프로세스를 보여주는 흐름도이다.
도 6은 본 발명의 실시예에 따른 디코더의 기능 모듈을 보여주는 블록도이다.
도 7은 본 발명의 실시예에 따른 비디오 디코더에 의해 수행되는 디코딩 프로세스를 보여주는 흐름도이다.
도 8은 8×8 화소 P( i,j )을 포함하고 있는 타겟 블록과 화소 P( i,j )를 예측하기 위해 이용되는 참조 화소의 개략적 표현을 보여주는 도면이다.
도 9는 JCT-VC Al19에서 제안된 평면 모드 부호화에 따라 예측 화소를 생성하는 프로세스를 나타내는 개략적 표현을 보여주는 도면이다.
도 10은 본 발명의 평면 모드 부호화에 따라 예측 화소를 생성하는 프로세스를 나타내는 개략적 표현을 보여주는 도면이다.
도 11은 본 발명의 평면 모드 부호화에 따라 예측 화소를 생성하는 프로세스를 나타내는 또 다른 개략적 표현을 보여주는 도면이다.
도 12는 1차 변환 커널 세트와 2차 변환 커널 세트 간에 스위칭하는 프로세스를 보여주는 흐름도이다.

도 1은 본 발명을 구현할 수 있는 컴퓨터(100)의 일례의 하드웨어 아키텍처를 도시하고 있다. 도 1에 도시된 하드웨어 아키텍처는 본 발명의 실시예를 구현하는 비디오 인코더 및 비디오 디코더 양자 모두에 공통될 수도 있다는 것에 유의하기 바란다. 컴퓨터(100)는 프로세서(101), 메모리(102), 저장 장치(105) 및 하나 이상의 입력 및/또는 출력(I/O) 장치(106)(또는 주변 장치)를 포함하며, 이들은 로컬 인터페이스(107)를 통해 통신 가능하게 연결되어 있다. 로컬 인터페이스(105)는 예컨대 종래 기술로 공지된 바와 같이 하나 이상의 버스 또는 기타 유선 또는 무선 접속부이어도 되지만, 이러한 것으로 한정되지 않는다.

프로세서(101)는 소프트웨어, 구체적으로는 메모리(102)에 저장된 소프트웨어를 실행하는 하드웨어 장치이다. 프로세서(101)는 임의의 맞춤형 또는 상업적으로 입수 가능한 프로세서, 중앙 처리 장치(CPU), 컴퓨터(100)에 관련된 여러 개의 프로세서 중의 보조 프로세서, 반도체 기반 마이크로프로세서(마이크로칩 또는 칩 세트 형태의), 또는 소프트웨어 명령을 실행하기 위한 일반적인 임의의 장치이어도 된다.

메모리(102)는 휘발성 메모리 요소(예컨대, 랜덤 액세스 메모리(DRAM, SRAM, SDRAM 등과 같은 RAM)) 및 비휘발성 메모리 요소(예컨대, ROM, 하드 드라이브, 테이프, CDROM 등) 중의 임의의 하나 또는 조합을 포함할 수 있는 컴퓨터 판독 가능 매체를 포함한다. 또한, 메모리(102)는 전자식 저장 매체, 자기식 저장 매체, 광학식 저장 매체 및/또는 기타 타입의 저장 매체를 통합하여도 된다. 컴퓨터 판독 가능 매체는 명령 실행 시스템, 기기 또는 장치에 의해 사용되거나 또는 이들과 함께 사용하기 위한 프로그램을 저장, 통신, 전파 또는 전송할 수 있는 어떠한 수단이어도 된다. 메모리(102)는, 다양한 컴포넌트가 서로 원격으로 위치되어 있지만 프로세서(101)에 의해 액세스될 수 있는 분산 아키텍처를 가질 수 있다는 점에 유의하기 바란다.

메모리(102) 내의 소프트웨어(103)는, 아래에 설명되는 바와 같이 컴퓨터(100)의 논리적 기능을 구현하기 위한 실행 가능한 명령의 정렬된 목록(ordered listing)을 각각이 포함하고 있는 하나 이상의 개별 프로그램을 포함할 수도 있다. 도 1의 예에서, 메모리(102) 내의 소프트웨어(103)는 본 발명에 따라 컴퓨터(100)의 비디오 인코딩 또는 비디오 디코딩 기능을 규정한다. 또한, 반드시 그러할 필요는 없지만, 메모리(102)가 운영 체제(O/S)(104)를 포함하고 있는 것도 가능하다. 운영 체제(104)는 본질적으로 컴퓨터 프로그램의 실행을 제어하고, 스케줄링, 입력-출력 제어, 파일 및 데이터 관리, 메모리 관리, 및 통신 제어 및 관련 서비스를 제공한다.

컴퓨터(100)의 저장 장치(105)는 고정형 저장 장치 또는 휴대용 저장 장치를 포함한 다수의 상이한 타입의 저장 장치 중의 하나이어도 된다. 일례로서, 저장 장치(105)는 자기 테이프, 디스크, 플래시 메모리, 휘발성 메모리, 또는 상이한 저장 장치이어도 된다. 또한, 저장 장치(105)는 보안 디지털 메모리 카드 또는 임의의 다른 탈착 가능 저장 장치(105)이어도 된다.

I/O 장치(106)는 예컨대 터치 스크린, 키보드, 마우스, 스캐너, 마이크로폰, 또는 기타 입력 장치와 같은 입력 장치를 포함할 수 있으며, 이러한 예는 위에 언급한 것으로 한정되지 않는다. 더욱이, I/O 장치(106)는 또한 예컨대 디스플레이 또는 기타 출력 장치와 같은 출력 장치를 포함할 수 있으며, 이러한 예는 위에 언급한 것으로 한정되지 않는다. I/O 장치(106)는 또한 입력 및 출력을 통해 통신하는 장치, 예컨대 변조기/복조기(예컨대, 또 다른 장치, 시스템 또는 네트워크를 액세스하기 위한 모뎀), 무선 주파수(RF), 무선 또는 기타 송수신기, 전화 인터페이스, 브리지, 라우터, 또는 입력단 및 출력단으로서 기능하는 기타 장치를 추가로 포함할 수 있으며, 이러한 예는 위에 언급된 것으로 한정되지 않는다.

당해 기술 분야에 통상의 지식을 가진 사람에 의해 널리 알려진 바와 같이, 비디오 압축은 비디오 시퀀스에서 중복 정보를 제거함으로써 달성된다. 다수의 상이한 비디오 부호화 표준이 존재하며, 그 예는 MPEG-1, MPEG-2, MPEG-4, H.261, H.263 및 H.264/AVC를 포함한다. 본 발명은 임의의 특정한 비디오 부호화 표준이 적용되는 것으로 한정되도록 의도되지 않는다는 것에 유의하기 바란다. 그러나, 본 발명의 이하의 설명은 본 명세서에서 참조에 의해 원용되고 있는 H.264/AVC 표준의 예를 이용하여 제공된다. H.264/AVC 표준은 최신의 비디오 부호화 표준이며, MPEG-1, MPEG-2, MPEG-4, H.261, 및 H.263과 같은 이전의 부호화 표준에 비하여 현저한 성능 향상을 달성한다.

H.264/AVC에서, 비디오의 각각의 프레임 또는 화상은 여러 개의 슬라이스로 나누어질 수 있다. 슬라이스는 그 후 매크로블록으로 지칭되는 16×16 화소의 블록으로 분할되며, 이 블록이 그 후 8×16, 16×8, 8×8, 4×8, 8×4 및 그 아래의 4×4 화소의 블록으로 추가로 분할될 수 있다. H.264/AVC 표준에 의해 지원되는 5개 타입의 슬라이스가 있다. I 슬라이스에서는, 매크로블록 모두가 인트라-예측을 이용하여 부호화된다. P 슬라이스에서는, 매크로블록이 인트라-예측 또는 인터-예측을 이용하여 부호화될 수 있다. P 슬라이스는 매크로블록 당 단지 하나의 모션 보상 예측(MCP) 신호가 이용될 수 있다. B 슬라이스에서는, 매크로블록이 인트라-예측 또는 인터-예측을 이용하여 부호화될 수 있다. 예측 당 2개의 MCP 신호가 이용될 수 있다. SP 슬라이스는 P 슬라이스가 상이한 비디오 스트림 간에 효율적으로 스위칭되도록 한다. SI 슬라이스는 랜덤 액세스 또는 에러 복구에 대해서는 SP 슬라이스에 대해 정확히 매칭되지만 인트라-예측만을 이용한다.

도 2 본 발명이 적용될 수 있는 비디오 인코더의 전반적인 도시를 보여주는 도면이다. 도면에 도시된 블록은 메모리(102) 내의 소프트웨어(103)를 실행하는 프로세서(101)에 의해 실현되는 기능 모듈을 나타낸다. 비디오 프레임의 화상(200)이 비디오 인코더(201)에 제공된다. 비디오 인코더는 화상(200)을 매크로블록(200A)의 단위로 처리한다. 각각의 매크로블록은 화상(200)의 여러 개의 화소를 포함한다. 각각의 매크로블록에 대해서는, 변환 계수로의 변환이 수행되고, 그에 후속하여 변환 계수 레벨로의 양자화가 수행된다. 더욱이, 화소 데이터에 대해 직접적으로 부호화 단계를 수행하지 않고 예측된 화소값에 대한 그 화소 데이터의 차에 대해 부호화 단계를 수행하기 위해 인트라-예측 또는 인터-예측이 이용되며, 이로써 보다 용이하게 압축되는 작은 값이 달성된다.

각각의 슬라이스에 대해, 인코더(201)는 각각의 슬라이스의 매크로블록의 부호화된 버전을 형성하는 다수의 구문 요소(syntax element)를 생성한다. 변환 계수 레벨 또는 스킵된(skiped) 변환 계수 레벨을 나타내주는 유효성 맵(significance map)과 같은 변환 계수의 부호화에 관련되는 구문 요소의 모든 잔여 데이터 요소는 잔여 데이터 구문 요소로 지칭된다. 이들 잔여 데이터 구문 요소 외에, 인코더(201)에 의해 생성된 구문 요소는 각각의 매크로블록을 각각 인코딩하고 디코딩하는 방식에 관한 제어 정보를 포함하고 있는 제어 정보 구문 요소를 포함한다. 즉, 구문 요소는 2개의 범주로 분류될 수 있다. 제1 범주인 제어 정보 구문 요소는 예컨대 슬라이스-기반 및 매크로블록-기반 제어 정보뿐만 아니라 매크로블록 타입, 서브-매크로블록 타입, 및 공간적 타입과 시간적 타입 양자 모두의 예측 모드에 대한 정보에 관련된 요소를 포함한다. 제2 범주에서는, 양자화 단계에 대응하는 레벨의 단위로 나타내진 유효 계수(significant coefficient)의 값 및 양자화된 변환 계수의 블록 내의 모든 유효 계수의 위치를 나타내는 유효성 맵과 같은 잔여 데이터 요소 모두가 결합(combine)되고, 잔여 데이터 구문 요소로 된다.

인코더(201)는, 각각의 슬라이스에 대해 구문 요소를 인코딩하고 산술 코드워드(arithmetic codeword)를 생성하는 엔트로피 부호화기(entrophy coder)를 포함한다. 슬라이스에 대한 산술 코드워드를 생성할 때, 엔트로피 부호화기는 비디오 신호 비트 스트림에서의 구문 요소의 데이터 값들 간의 통계 의존성(statistical dependency)을 이용한다. 인코더(201)는 화상(200)의 슬라이스에 대하여 인코딩된 비디오 신호를 도 3에 도시된 비디오 디코더(301)에 출력한다.

도 3은 본 발명을 적용할 수 있는 비디오 디코더의 전반적인 도시를 보여주는 도면이다. 마찬가지로, 이 도면에 도시된 블록은 메모리(102) 내의 소프트웨어(103)를 실행하는 프로세서(101)에 의해 실현되는 기능 모듈을 나타낸다. 비디오 디코더(301)는 인코딩된 비디오 신호를 수신하고, 먼저 이 신호를 역으로 구문 요소로 엔트로피 디코딩한다. 디코더(301)는, 매크로블록×매크로블록으로 그리고나서 슬라이스 후 슬라이스(slice after slice)로, 화상(300)의 화소의 화상 샘플(300A)을 재구축하기 위해, 구문 요소를 사용한다.

도 4는 비디오 인코더(201)의 기능 모듈을 도시하는 도면이다. 이러한 기능 모듈은 메모리(102) 내의 소프트웨어(103)를 실행하는 프로세서(101)에 의해 실현된다. 입력 비디오 화상은, 크로미넌스("크로마") 및 휘도("루마")(예컨대 색조, 포화, 및 값 등의 다른 성분들도 가능함)와 같은 원래 컬러의 성분을 표현하는 샘플 포인트에 의해 정해지는 자연 발생적인(압축되지 않은) 비디오 이미지의 필드 또는 프레임이다. 입력 비디오 화상은, 화상 컬러의 루마 성분의 16×16 화소로 이루어지는 정사각형 화상 영역을 각각 표현하는 매크로블록(400)으로 분할된다. 입력 비디오 화상은, 또한, 화상 컬러의 두 개의 크로마 성분의 각각의 크로마 성분의 8×8 화소를 각각 표현하는 매크로블록으로 파티션화된다. 일반적인 인코더 동작에서, 입력된 매크로블록은 인터-예측 또는 인트라-예측을 이용하여 시간적으로 또는 공간적으로 예측된다. 그러나, 설명을 위해, 매크로블록(400)은 모두 I-슬라이스 타입 매크로블록이며, 인트라-예측만이 적용되는 것으로 가정한다.

인트라-예측은 인트라-예측 모듈(401)에서 달성되며, 인트라-예측 모듈의 동작은 이하에서 상세히 설명된다. 인트라-예측 모듈(401)은, 이전에 인코딩되고, 재구축되고, 프레임 메모리(403)에 저장된 이웃 블록의 수평 및 수직 경계 화소로부터 예측 블록(402)을 생성한다. 타겟 블록(400)과 예측 블록(402) 간의 차인 예측 블록(402)의 잔차(residual)(404)는 변환 모듈(405)에 의해 변환되고, 그 후 양자화기(406)에 의해 양자화된다. 변환 모듈(405)은 잔차(404)를 변환 계수의 블록으로 변환한다. 양자화기(406)는 변환 계수를 양자화하여 양자화된 변환 계수(407)로 한다. 그리고나서, 양자화된 변환 계수(407)는 엔트로피-부호화 모듈(408)에서 엔트로피-부호화되고, 인코딩된 비디오 신호(409)로서 전송된다(선택된 인트라-예측 모드에 관한 기타 정보와 함께).

비디오 인코더(201)는 타겟 블록에 대한 인트라-예측을 수행하기 위한 디코딩 기능부를 포함한다. 디코딩 기능부는 역양자화기(410) 및 역변환 모듈(411)을 포함하며, 역양자화기 및 역변환 모듈이 양자화된 변환 계수(407)에 대하여 역양자화 및 역변환을 수행하여 디코딩된 예측 잔차(412)를 생성하고, 이 디코딩된 예측 잔차가 예측 블록(402)에 가산된다. 디코딩된 예측 잔차(410)와 예측 블록(402)을 합한 것이 재구축된 블록(413)이며, 재구축된 블록(413)이 프레임 메모리(403)에 저장되고, 다음 타겟 블록(400)의 디코딩을 위한 예측 블록(402)을 생성하기 위해 이 재구축된 블록(413)이 인트라-예측 모듈(401)에 의해 프레임 메모리(403)로부터 판독되어 사용될 것이다. 필요한 경우, 재구축된 이미지로부터 블로킹 아티팩트(blocking artifact)를 제거하기 위해 프레임 메모리(403)의 입력단 또는 출력단 중의 어느 하나에 디블로킹 필터(deblocking filter)가 위치될 수도 있다.

도 5는 비디오 인코더(201)에 의해 수행되는 프로세스를 나타내는 흐름도이다. H.264/AVC 표준에 따르면, 인트라 예측은, 이전에 인코딩되고 재구축된 이웃 블록의 경계 화소("참조 화소")의 보간(interpolation)을 이용하여, 복수의 예측 모드 하에서 타겟 블록(400)의 각각의 화소를 예측하는 것을 포함한다. 예측 모드는 양의 정수 0, 1, 2,…에 의해 식별되며, 각각의 정수는 타겟 블록(400) 내의 특정 화소를 예측하기 위한 상이한 명령 또는 알고리즘에 연관된다. 인트라-예측 모듈(401)은 각각의 예측 모드 하에서 인트라-예측을 수행하고, 상이한 예측 블록을 생성한다. 전체 검색(full search, FS) 알고리즘 하에서는, 생성된 예측 블록의 각각을 타겟 블록(400)과 비교하여, 예측 모드들 중에서 예측 잔차(404)를 최소화하거나 더욱 작은 예측 잔차(404)를 생성하는 최적의 예측 모드를 찾는다(단계 501). 최적의 예측 모드의 식별이 압축되고(단계 502), 기타 제어 정보 구문 요소와 함께 디코더(301)에 시그널링될 것이다.

각각의 예측 모드는 전술한 바와 같이 예측의 일반적인 방향에 의해 기술될 수 있다(즉, 수평으로 위, 수직 및 대각선 아래 왼쪽). 예측 방향은 각도 방향에 의해 그래픽으로 기술될 수 있다. 예측 모드에 대응하는 각도는, 타겟 화소를 예측하는 데 사용되는 참조 화소의 가중된 평균 위치로부터 타겟 화소 위치로의 방향에 대하여 일반적인 관계를 갖는다. DC 예측 모드에서, 예측 블록(402)은, 예측 블록(402)의 각각의 화소가 참조 화소의 평균값으로 균일하게 설정되도록, 생성된다.

다시 도 5를 참조하면, 인트라-예측 모듈(401)이 예측 블록(402)을 출력하고, 이 예측 블록을 타겟 블록(400)으로부터 감산하여 잔차(404)를 획득한다(단계 503). 변환 모듈(405)이 잔차(404)를 변환 계수의 블록으로 변환한다(단계 504). 양자화기(406)가 변환 계수를 양자화하여 양자화된 변환 계수로 한다. 엔트로피 부호화 모듈(408)이 양자화된 변환 계수를 엔트로피-인코딩하며(단계 506), 이것이 최적의 예측 모드의 압축된 식별과 함께 보내진다. 역양자화기(410)가 양자화된 변환 계수를 역으로 양자화한다(단계 507). 역변환 모듈(411)이 디코딩된 예측 잔차(412)를 구하기 위해 역변환을 수행하며(단계 508), 이 디코딩된 예측 잔차가 예측 블록(402)에 가산되어 재구축된 블록(413)이 된다(단계 509).

도 6은 비디오 디코더(301)의 기능 모듈을 도시한다. 이러한 기능 모듈은 메모리(102) 내의 소프트웨어(103)를 실행하는 프로세서(101)에 의해 실현된다. 인코더(201)로부터의 인코딩된 비디오 신호가 먼저 엔트로피 디코더(600)에 의해 수신되고, 양자화된 변환 계수(601)로 다시 엔트로피-디코딩된다. 양자화된 변환 계수(601)는 역양자화기(602)에 의해 역으로 양자화되고, 역변환 모듈(603)에 의해 역으로 변환되어 예측 잔차(604)를 생성하게 된다. 인트라-예측 모듈(605)은 인코더(201)에 의해 선택된 예측 모드를 통지받는다. 선택된 예측 모드에 따라, 인트라 예측 모듈(605)은 도 5의 단계 503에서 수행된 것과 유사한 인트라-예측 프로세스를 수행하여, 이전에 재구축되어 프레임 메모리(607)에 저장된 이웃 블록의 경계 화소를 이용하여 예측 블록(606)을 생성한다. 예측 블록(606)은 디코딩된 비디오 신호의 블록(608)을 재구축하기 위해 예측 잔차(604)에 가산된다. 재구축된 블록(608)은 다음 블록의 예측에 사용하기 위해 프레임 메모리(607)에 저장된다.

도 7은 비디오 인코더(201)에 의해 수행되는 프로세스를 보여주는 흐름도이다. 비디오 디코더(301)가 비디오 인코더(201)로부터 시그널링된 최적의 예측 모드의 식별을 디코딩한다(단계 701). 디코딩된 예측 모드를 이용하여, 인트라-예측 모듈(605)이 이전에 재구축되어 프레임 메모리(607)에 저장된 이웃 블록의 경계 화소를 이용하여 예측 블록(606)을 생성한다(단계 702). 산술 디코더(600)가 인코더(201)로부터의 인코딩된 비디송 신호를 다시 양자화된 변환 계수(601)로 디코딩한다(단계 703). 역양자화기(602)가 양자화된 변환 계수를 역으로 양자화하여 변환 계수로 한다(단계 704). 역변환 모듈(603)이 변환 계수를 역으로 변환하여 예측 잔차(604)로 하고(단계 705), 이 예측 잔차가 예측 블록(606)에 가산되어 디코딩된 비디오 신호의 블록(608)을 재구축한다(단계 706).

비디오 인코더(201)에 의해 수행된 인코딩 프로세스를 도 8을 참조하여 추가로 설명한다. 도 8은 8×8 화소 P( i,j )를 포함하는 타겟 블록과 화소 P( i,j )를 예측하기 위해 사용되는 참조 화소의 개략적인 표현을 보여주고 있다. 도 8에서, 참조 화소는 17개의 수평 화소와 17개의 수직 화소로 이루어지며, 여기서 좌측의 위쪽 화소는 수평 경계와 수직 경계 양자 모두에 공통되어 있다. 따라서, 타겟 블록에 대한 예측 화소를 생성하기 위해서는 32개의 상이한 화소가 이용 가능하다. 도 8이 예측될 8×8 블록을 도시하고 있지만, 이하의 설명은 상이한 구성에서 다양한 개수의 화소에 적용할 수 있도록 하기 위해 일반화되어 이루어진다. 예컨대, 예측될 블록은 4×4 어레이의 화소를 포함할 수 있다. 예측 블록은 또한 8×8 어레이의 화소, 16×16 어레이의 화소, 또는 더 큰 어레이의 화소를 포함할 수도 있다. 정사각형 어레이 및 직사각형 어레이 양자 모두를 포함하는 다른 화소 구성 또한 예측 블록을 구성할 수 있다.

화소

의 블록이 수평 및 수직 참조 화소

를 이용하여 인트라-예측 부호화를 거치는 것으로 가정한다. 여기서, P _O ( i,j )는 타겟 블록의 원래 화소값(original pixel value)을 나타내고, P _P ( i,j )는 예측된 화소값을 나타내고, P _R ( i,j )는 잔차값을 나타내고, P _Q (i,j)는 화소 P( i,j )에 대한 압축된 잔차값을 나타내고, P _C ( i,j )는 화소 P( i,j )에 대한 압축된 값을 나타내며, 이하의 수식은 이들의 관계를 정의한다:

는 순방향 변환 커널(forward transform kernel)을 표현하는 N×N 행렬이다.

는 역방향 변환 커널(inverse transform kernel)을 표현하는 N×N 행렬이다. P _T (1:N,1:N)은 비트스트림 내의 변환되고 양자화된 잔차 신호를 나타낸다. Q _F ()는 양자화 연산을 나타내고, Q _I ()는 역양자화 연산을 나타낸다.

예측된 화소값 P _P ( i,j )은 참조 화소

로 수행되는 인트라-예측 모드에 의해 결정된다. H.264/AVC는 인트라 4×4 예측, 인트라 8×8 예측, 및 인트라 16×16 예측을 지원한다. 인트라 4×4 예측은 하나의 수직 예측 모드, 하나의 수평 예측 모드, 하나의 DC 예측 모드, 및 6개의 각도 예측 모드를 포함하는 9개의 예측 모드 하에서 수행된다. 인트라 8×8 예측은 인트라 4×4 예측에서 수행된 것과 같이 9개의 예측 모드 하에서 수행된다. 인트라 16×16 예측은 하나의 수직 예측 모드, 하나의 수평 예측 모드, 하나의 DC 예측 모드, 및 하나의 평면 예측 모드를 포함하는 4개의 예측 모드 하에서 수행된다. 예컨대, DC 예측 모드, 수직 예측 모드, 및 수평 예측 모드 하에서 구해진 예측된 화소값 P _P ( i,j )은 아래와 같이 정의된다:

DC 예측 모드:

수직 예측 모드:

수평 예측 모드:

최근에 Joint Collaborative Team on Video Coding(JCT-VC)에 제출된 제안 No. JCT-VC Al19가 본 명세서에 참조에 의해 원용되어 있다. 제안 No. JCT-VC Al19는 작은 평면 기울기(small planar gradient)로 점차적으로 변경되는 화소값을 예측하기 위해 선형 보간 연산 및 이중 선형 보간 연산(bi-linear interpolation operation)의 조합을 이용하는 저복잡도 평면 모드 연산을 제안한다. 제안된 평면 모드 프로세스는 도 9에 개략적으로 도시되어 있다. 프로세스는 예측될 블록에서의 우측 하단 화소의 값 P _P ( N,N )을 식별하는 것으로 개시한다. 그리고나서, 블록의 하단 행(bottom low)의 예측된 화소값 P _P ( N,j )을 획득하기 위해 값 P _P ( N,N )과 참조 화소값 P _C ( N,0 ) 사이에서 선형 보간이 수행된다. 마찬가지로, 블록의 최우측 열(rightmost column)의 예측된 화소값 P _P ( i,N )을 획득하기 위해 값 P _P ( N,N )과 참조 화소값 P _C ( 0,N ) 사이에서 선형 보간이 수행된다. 그 후, 블록의 나머지 화소값 P _P (i,j)을 획득하기 위해 예측된 화소값 P _P ( N,j ) 및 P _P ( i,N )과 참조 화소값 P _C ( i,0 ) 및 P _C ( 0,j ) 사이에서 이중 선형 보간이 수행된다. 제안된 평면 모드 프로세스는 아래의 수식으로 표현될 수 있다:

우측 열:

하단 행:

나머지 화소:

JCT-VC Al19에서 제안된 평면 모드 프로세스에서는 해소될 두 가지 문제가 있다. 제안된 프로세스에서, 우측 하단 화소의 값 P _P ( N,N )은 은 비트스트림으로 디코더에 시그널링되고, 디코더에서 타겟 블록을 디코드하기 위해 이용된다. 달리 말하면, 디코더는 제안된 평면 하에서 예측을 수행하기 위해 우측 하단 화소의 값을 필요로 한다. 또한, 제안된 프로세스에서, 잔차는 평면 모드 하에서는 얻어지지 않으므로 디코더에 시그널링되지 않는다. 잔차 시그널링의 생략은 전송될 인코딩된 비디오 데이터의 감소에 기여할 수 있지만, 평면 모드의 적용을 낮은 비트-레이트 비디오 부호화로 제한한다.

본 발명에 따른 평면 모드는 JCT-VC Al19에서 제안된 평면 모드 프로세스에 연관된 전술한 문제를 해소하기 위해 설계된다. 본 발명의 실시예에 따라, 우측 하단 화소의 값 P _P ( N,N )은 참조 화소로부터 구해진다. 따라서, 우측 하단 화소의 화소값 P _P ( N,N )을 디코더에 시그널링할 필요가 없다. 본 발명의 다른 실시예에서, 평면 모드 하에서 형성된 예측 블록은 잔차를 구하기 위해 이용되며, 이 잔차가 디코더에 시그널링하기 위해 변환 및 양자화된다. 중간(mid) 또는 하급(coarse) 양자화 파라미터를 이용한 종래의 이산 코사인 변환(DCT) 및 양자화의 적용은 평면 모드 하에서 획득된 잔차로부터 제로 AC 계수 및 논-제로 DC 계수를 산출하는 경향이 있다. 이를 방지하기 위해, 본 발명의 실시예는 평면 모드 하에서 획득된 잔차를 변환하기 위해 1차 변환 커널 대신 2차 변환 커널을 이용한다. 또한, 다른 실시예는 양자화 파라미터가 타겟 블록에서의 공간적 활동도(spatial activity)에 따라 적응적으로 변경되는 적응 양자화(adaptive quantization)를평면 모드 하에서 수행한다.

본 발명의 실시예에서, 우측 하단 화소의 값 P _P ( N,N )은 참조 화소로부터 계산된다. 값 P _P ( N,N )은 다음의 3가지 방법 중의 하나에 따라 계산된다:

방법 1:

여기서, 연산자 "≫"는 라운딩(rounding)을 갖거나 갖지 않는 우측 시프트 연산(right-shift operation)을 나타낸다.

방법 2:

여기서, w_h 및 w_v는 P _C (0, 1:N ) 및 P _C ( 1:N,0 )을 이용하여 결정된 가중치이다. 예컨대, w_h 및 w_v는 다음과 같이 계산된다:

여기서, 연산자 "var()"는 변수를 산출하기 위한 연산자를 나타낸다.

방법 3:

여기서,

이고,

이다.

는 산술 연산을 나타낸다. 본 발명의 실시예에서, 산술 연산은

로서 정의된다. 본 발명의 또 다른 실시예에서, 산술 연산은 간략하게

로서 정의된다. 본 발명에서는 우측 하단 화소의 값 P _P ( N,N )이 디코더에 시그널링되지 않는다는 것에 유의하기 바란다. 그 대신, 디코더는 인코더에 의해 채용된 방법에 따라 값 P _P ( N,N )을 계산하며, 이 방법은 사전에 결정될 수도 있거나 또는 그 방법의 식별이 디코더에 시그널링될 수도 있다.

도 10은 본 발명의 실시예에 따른 평면 모드 하에서 수행된 화소값을 예측하는 프로세스를 보여주는 개략도이며, 이 프로세스에서는 상기한 방법 1이 실시된다. 프로세스는 방법 1을 이용하여 블록 내의 우측 하단 화소의 값 P _P ( N,N )을 계산하는 것으로 개시한다. 값 P _P ( N,N )이 계산된 후, 블록의 하단 행의 예측된 화소값 P _P (N,j)을 획득하기 위해 값 P _P ( N,N )과 참조 화소값 P _C ( N,0 ) 간에 선형 보간이 수행된다. 마찬가지로, 블록의 최우측 열의 예측된 화소값 P _P ( i,N )을 획득하기 위해 값 P _P (N,N)과 참조 화소값 P _C ( 0,N ) 간에 선형 보간이 수행된다. 그 후, 블록의 나머지 화소값 P _P ( i,j )을 획득하기 위해 예측된 화소값 P _P ( N,j ) 및 P _P ( i,N )과 참조 화소값 P _C (i,0) 및 P _C ( 0,j ) 간에 이중 선형 보간이 수행된다. 이하의 수식 및 도 11에 의해 나타낸 바와 같이, 방법 1은 타겟 블록의 화소값 P _P ( i,j )을 예측하는 연산을 간략화할 수 있다:

여기서,

이고,

분수 정확도(fractional accuracy)가 요구되면,

이다.

상기한 수식은 블록의 화소값 P _P ( i,j )을 계산하기 위해 값 N에 의한 제산(division)을 필요로 한다. 제산 연산은 다음과 같이 정수 연산방식(integer arithmetic)을 이용함으로써 방지될 수 있다:

여기서,

이고,

이다.

정수 정확도가 충분하면, 화소값 P _P ( i,j )는 아래에 의해 표현될 수 있으며,

여기서,

이고,

이다.

방법 1은 다음과 같이 수정될 수도 있다:

여기서,

은 산술 연산을 나타낸다. 본 발명의 실시예에서, 산술 연산은

로서 정의된다.

방법 1은 다음과 같이 추가로 수정될 수 있다:

여기서,

은 이하의 4개의 수식 중의 하나에 의해 정의될 수 있는 함수를 나타낸다:

수식 1:

수식 2:

수식 3:

수식 4:

, 여기서

은 어레이

에 필터가 적용될 때의 x_(N+i)의 필터링된 값이다. 본 발명의 실시예에서, 필터는 3-탭 필터

이어도 된다.

상기 실시예들에서, 수직 및 수평 참조 화소

는 예측을 위해 모두 이용할 수 있다. 참조 화소는 타겟 블록이 슬라이스 또는 프레임의 경계에 위치되는 경우에는 이용 가능하지 않을 수도 있다. 수직 참조 화소

가 예측에 이용 가능하지 않고, 수평 참조 화소

가 이용 가능하면, 예측을 위한 수직 참조 화소를 생성하기 위해 어사인먼트(assignment)

가 수행된다. 수평 참조 화소

가 예측에 이용 가능하지 않고, 수직 참조 화소

가 이용 가능하면, 예측을 위한 수평 참조 화소를 생성하기 위해 어사인먼트

가 수행된다. 수직 참조 화소 또는 수평 참조 화소 중의 어느 것도 예측을 위해 이용 가능하지 않으면, 수직 및 수평 참조 화소를 생성하기 위해 어사인먼트

가 수행된다. 수식에서, N_b는 화소값을 표현하기 위해 사용된 비트 심도(bit-depth)를 나타낸다.

본 발명의 실시예에서, 다른 예측 모드 하에서 생성된 예측 블록과 같이, 평면 모드 하에서 생성된 예측 블록은 잔차 P _R ( 1:N,1:N )를 구하기 위해 이용되며, 이 잔차가 변환 모듈(405)에 의해 변환되고, 양자화기(406)에 의해 양자화된다. 변환되고 양자화된 잔차 P _T ( 1:N,1:N )는 비트스트림으로 디코더에 시그널링된다. 또한, 변환되고 양자화된 잔차 P _T ( 1:N,1:N )는 역변환 모듈(410) 및 역양자화기(411)에 의해 역으로 변환 및 양자화되어, 압축된 잔차 P _Q (1:N,1:N)가 되며, 이 압축된 잔차가 후속의 타겟 블록을 예측하는데 사용하기 위해 프레임 메모리(403)에 저장된다.

변환 및 양자화된 잔차 P _T ( 1:N,1:N ) 전체가 비트스트림으로 디코더에 시그널링될 수도 있다. 이와 달리, 잔차 중의 일부 P _T ( 1:K,1:K ) 만이 비트스트림으로 디코더에 시그널링될 수도 있다. K는 N보다 작으며(K＜N), 예컨대 1과 같이 사전에 정해진 값으로 설정된다. K의 값은 비스트림으로 디코더에 시그널링될 수도 있다. 디코더가 잔차 중의 일부 P _T ( 1:K,1:K ) 만을 수신하면, 디코더는 잔차의 일부분을 디코드하고, 잔차의 나머지 부분을 영(0)으로 설정한다. 잔차의 일부만이 디코더에 시그널링되지만, 후속 타겟 블록을 예측하는 목적을 위해 압축된 잔차 P _Q (1:N,1:N)를 획득하기 위해 전체 잔차 P _T ( 1:N,1:N )가 역으로 변환 및 양자화된다.

또한, 본 발명의 또 다른 실시예에서, 양자화 파라미터는 평면 모드 하에서 생성된 잔차를 양자화하기 위해 적응적으로 변경된다. 평면 모드는 작은 평면 기울기로 점차적으로 변경되는 화소값을 갖는 부드러운 이미지를 갖는 블록에 적용된다. 이러한 부드러운 블록으로부터의 잔차는 중간 또는 하급 양자화 파라미터로 영(0)으로 양자화되는 경향이 있다. 양자화가 논-제로 계수를 산출하도록 하기 위해, 본 발명의 실시예에서, 양자화 파라미터는 평면 모드 하에서 생성된 잔차가 양자화될 때에는 더 미세한 양자화 파라미터로 스위칭된다. 평면 모드 하에서 생성된 잔차를 양자화하기 위해 사용되는 양자화 파라미터(QP_Planar)는 기본 양자화 파라미터(QP_baseP)로 정의될 수 있다. QP_baseP는 더 미세한 양자화 파라미터를 표현하는 사전 결정된 값으로 설정될 수 있다. QP_baseP가 디코더에 알려져 있지 않으면, 이 파라미터는 비트스트림으로 디코더에 시그널링될 수 있거나, 또는 보다 구체적으로 H.264/AVC에서 정의된 바와 같이 슬라이스 헤더 또는 화상 파라미터 세트로 시그널링 될 수 있다.

본 발명의 실시예에서, QP_Planar는 단순히 QP_baseP(QP_Planar=QP_baseP)로 설정된다. QP_Planar는 QP_baseP와 QP_N의 합(QP_Planar=QP_baseP+QP_N)으로 정의될 수도 있으며, 여기서 QP_N은 N의 값과 관련하여 QP_N의 값을 나열하고 있는 탐색표를 이용하여 결정된다. QP_Planar는 이와 달리 QP_Planar= QP_baseP+QP_diff(N)으로서 정의될 수도 있다. QP_diff(N)은 값 N의 함수이며, 비트스트림으로 디코더에 시그널링되거나, 또는 보다 구체적으로는 H.264/AVC에서 정의된 바와 같이 슬라이스 헤더 또는 화상 파라미터 세트로 시그널링된다. 디코더는 자신의 비디오 코덱 체계에서 지원되는 값 N의 각각에 대한 비트스트림으로부터 QP_diff(N)을 결정한다.

본 발명의 또 다른 실시예에서, 차동 양자화 파라미터(differential quantizationparameter)(QP_delta)를 추가함으로써, QP_baseP는 QP_baseP= QP_baseP+QP_delta로서 수정된다. QP_delta는 공간적 활동도에 대해 적응적으로 QP_baseP를 조정하기 위해 블록 또는 블록의 그룹에서의 공간적 활동도로부터 결정된 양자화 파라미터이다. QP_delta는 비트스트림으로 디코더에 시그널링된다. QP_delta가 블록의 공간적 활동도로부터 결정되므로, 이 파라미터는 블록 내의 이미지 콘텐츠에 따라서는 영(0)이 될 수도 있으며, 평면 예측 모드를 위한 QP_baseP에 영향을 주지 않는다.

또한, 본 발명의 다른 실시예에서, QP_Planar는 평면 모드 이외의 예측 모드 하에서 생성된 잔차를 양자화하기 위해 이용되는 정상 양자화 파라미터 QP_normal로 결정된다. 이러한 실시예에서, QP_Planar는 아래의 다섯 가지 방식 중의 하나에 따라 결정된다:

1. QP_Planar = QP_normal

2. QP_Planar = QP_normal + QP_N, 여기서 QP_N은 N의 값에 관련하여 QP_N의 값을 나열하고 있는 탐색표로부터 결정됨.

3. QP_Planar = QP_normal + QP_diff(N), 여기서 QP_diff(N)은 값 N의 함수이고, 비트스트림으로 디코더에 시그널링됨.

4. QP_Planar = QP_normal + QP_delta, 여기서 QP_delta는 QP_normal을 적응적으로 조정하기 위해 블록 또는 블록의 그룹에서의 공간적 활동도로부터 결정된 양자화 파라미터이며, 비트스트림으로 디코더에 시그널링됨.

5. QP_Planar = QP_normal + QP_N + QP_delta

본 발명의 또 다른 실시예에서, 변환 모듈(405) 및 역변환 모듈(410)은, 1차 순방향 변환 및 역변환 커널(

및

) 세트를 이용하는 대신, 평면 모드 하에서 생성된 잔차의 순방향 변환 및 역변환을 위해 2차 순방향 변환 및 역변환 커널(

및

) 세트를 이용한다. 1차 변환 커널 세트는 평면 모드 이외의 예측 모드 하에서 생성된 잔차를 변환하기 위해 이용되며, 고주파 에너지(high frequency energy)가 있는 블록에 적합하다. 한편, 평면 예측 모드에 놓이게 될 블록은 그 안에서 낮은 공간적 활동도를 가지며, 부드러운 이미지를 갖는 블록에 적합화된 변환 커널을 요구한다. 본 실시예에서, 변환 모듈(405) 및 역변환 모듈(410)은 도 12에 도시된 바와 같이 1차 변환 커널 세트와 2차 변환 커널 세트 간에 스위칭하며, 평면 모드 이외의 예측 모드 하에서 생성된 잔차를 변환할 때에는 1차 변환 커널 세트를 이용하는 반면, 평면 예측 모드 하에서 생성된 잔차를 변환할 때에는 2차 변환 커널 세트를 이용한다. 그러나, 2차 변환 커널 세트는 평면 예측 모드 하에서 생성된 잔차를 변환하기 위해 이용되는 것으로 제한되지 않고, 평면 모드 이외의 예측 모드 하에서 생성된 잔차를 변환하기 위해 이용될 수도 있다는 것에 유의하기 바란다.

2차 순방향 변환 커널(

) 세트는 이하의 옵션 중의 하나로부터 구해지는 픽스드 포인트 근사(fixed-point approximation)이어도 된다:

옵션 1(타입-7 DST):

옵션 2(타입-4 DST):

옵션 3(타입-2 DST, 흔히 DCT로서 알려짐):

옵션 4:

2N×2N 크기의 변환 커널(

)이 비디오 코덱에 의해 지원되면,

. 그렇지 않은 경우에는,

. 따라서, 옵션 4에서, 비디오 코덱에서 지원되는 최저 및 최대 변환 크기가 4×4 및 32×32이면, 4×4 크기에 대한 2차 변환 커널 세트는 8×8 크기에 대한 1차 변환 커널 세트로부터 구해진다. 마찬가지로, 8×8 크기에 대한 2차 변환 커널 세트는 16×16 크기에 대한 1차 변환 커널 세트로부터 구해지고, 16×16 크기에 대한 2차 변환 커널 세트는 32×32 크기에 대한 1차 변환 커널 세트로부터 구해진다. 그러나, 지원되는 최대 크기가 32×32인 크기 제한으로 인해, 32×32 크기에 대한 2차 변환 커널 세트는 32×32 크기에 대한 1차 변환 커널 세트로부터 구해진다.

계수 인자(scaling factor) k_i는

를 충족하도록 정해질 수 있다. 계수 인자 k_i는 H.264/AVC에서 이용되는 바와 같이 양자화 파라미터를 조정하기 위해 이용될 수도 있다. 2차 역변환 커널

세트는 순방향 변환 커널

를 이용하여

로부터 구해질 수 있으며, 여기서 I^N은 N×N 크기의 항등 행렬을 나타낸다.

1차 변환 커널 세트가

특성을 충족하면, 옵션 4에서 정의된 2차 변환 커널 세트가 바람직하다. 옵션 4는 2차 세트가 1차 세트로부터 구해질 수 있기 때문에 2차 변환 커널 세트가 1차 변환 커널 세트와 별도로 저장될 필요가 없다는 이점이 있다. 2N×2N 크기에 대한 1차 변환 커널(

) 세트가 타입-3 DCT의 근사이면, 상기한 특성이 충족되며, N×N 크기에 대한 2차 변환 커널(

) 세트가 타입-4 DST의 근사가 될 것이다. 1차 변환 커널 세트가 상기한 특성을 충족하지 못하면, 옵션 1에서 정의된 2차 변환 커널 세트가 바람직하다.

평면 예측 모드는 2가지 방식 중의 하나로 선택될 수 있다. 첫 번째 방식에서는, 평면 예측 모드 하에서 생성된 예측 블록이 기타 예측 모드 하에서 생성된 예측 블록과 함께 부호화 효율에 대해 평가된다. 평면 모드 하에서 생성된 예측 블록이 예측 블록들 중에서 최상의 부호화 효율을 보이면, 평면 모드가 선택된다. 이와 달리, 부호화 효율에 대해 평면 모드가 단독으로 평가된다. 평면 예측 모드는 이미지가 부드럽고 그 평면 기울기가 작은 영역에 바람직하다. 따라서, 블록에서의 고주파 에너지의 양 및 블록의 에지를 따른 이미지 불연속성을 확인하기 위해 타겟 블록의 콘텐츠가 분석된다. 고주파 에너지의 양이 임계치 미만이고, 블록의 에지를 따라 커다란 불연속성이 발견되지 않으면, 평면 모드가 선택된다. 그렇지 않은 경우에는, 기타 예측 모드 하에서 생성된 예측 블록이 하나의 모드를 선택하기 위해 평가된다. 양쪽 모두의 경우에, 평면 예측 모드의 선택은 비트스트림으로 디코더에 시그널링된다.

전술한 상세한 설명을 읽고 난 후의 당업자에는 의심의 여지없이 본 발명에 대한 많은 변경과 변형이 명백하게 될 것이며, 예시로서 보여주고 설명한 임의의 구체적인 실시예는 발명을 제한하려는 의도가 없다는 사실을 이해해야 한다. 따라서, 다양한 실시예들의 세부 구성에 대한 참조는 청구항들의 범위를 제한하려는 의도가 없으며, 그 자체로 본 발명의 본질적인 것으로서 간주되는 특징들을 원용할 뿐이다.

Claims

평면 모드에서, 타겟 블록 내의 화소값을 예측하기 위한 비디오 인코딩 방법으로서, 비디오 인코더의 프로세서에 의해 실행되는 컴퓨터 실행 가능한 복수의 단계를 포함하는 비디오 인코딩 방법에 있어서,
상기 타겟 블록의 외측(外側)이면서 또한 상측(上側)에 있는 수평 경계 화소의 각각의 값과 상기 타겟 블록의 외측(外側)이면서 또한 좌측(左側)에 있는 수직 경계 화소 중의 하나의 값 간의 선형 보간을 이용하여 제1 예측값을 계산하는 단계;
상기 수직 경계 화소의 각각의 값과 상기 수평 경계 화소 중의 하나의 값 간의 선형 보간을 이용하여 제2 예측값을 계산하는 단계; 및
상기 제1 예측값과 상기 제2 예측값을 평균하여, 예측 블록 내의 예측 화소값의 각각을 도출하는 단계
를 포함하고,
상기 타겟 블록 내의 오른쪽 아래의 화소(bottom-right pixel)의 예측값은 시그널링되지 않는,
비디오 인코딩 방법.
제1항에 있어서,
상기 예측 블록과 상기 타겟 블록 간의 잔차(residual)를 시그널링하는 단계를 더 포함하는 비디오 인코딩 방법.
제2항에 있어서,
변환 커널의 1차 세트(primary set) H^N(i,j)로부터 변환 커널의 2차 세트(secondary set) G^N(i,j) 로 스위칭하는 단계; 및
변환 커널의 상기 2차 세트 G^N(i,j)를 이용하여 상기 잔차를 변환하는 단계를 더 포함하는 비디오 인코딩 방법.
제3항에 있어서,
변환 커널의 상기 2차 세트 G^N(i,j) 가, 다음 수식,
(a)
;
(b)
; 및
(c)

중의 하나에 의해 정의되는, 비디오 인코딩 방법.
제3항에 있어서,
크기 N×N의 변환 커널의 상기 2차 세트 G^N(i,j)는, 크기 M×M의 변환 커널의 1차 세트 H^M(i,j)에 의해 정의되고, 여기서 M＞N인, 비디오 인코딩 방법.
제5항에 있어서,
변환 커널의 상기 2차 세트 G^N(i,j)는,
크기 2N×2N의 변환 커널 (H^2N)이 지원되는 경우,
에 의해 정의되고,
크기 2N×2N의 변환 커널 (H^2N)이 지원되지 않는 경우, G^N(i,j)=H^N(i,j)에 의해 정의되는, 비디오 인코딩 방법.
평면 모드 하에서 타겟 블록 내의 화소값을 예측하기 위한 비디오 디코딩 방법으로서, 비디오 디코더의 프로세서에 의해 실행되는 컴퓨터 실행 가능한 복수의 단계를 포함하는 비디오 디코딩 방법에 있어서,
상기 타겟 블록의 외측(外側)이면서 또한 상측(上側)에 있는 수평 경계 화소의 각각의 값과 상기 타겟 블록의 외측(外側)이면서 또한 좌측(左側)에 있는 수직 경계 화소 중의 하나의 값 간의 선형 보간을 이용하여 제1 예측값을 계산하는 단계;
상기 수직 경계 화소의 각각의 값과 상기 수평 경계 화소 중의 하나의 값 간의 선형 보간을 이용하여 제2 예측값을 계산하는 단계; 및
상기 제1 예측값과 상기 제2 예측값을 평균하여, 예측 블록 내의 예측 화소값의 각각을 도출하는 단계
를 포함하고,
상기 타겟 블록 내의 오른쪽 아래의 화소(bottom-right pixel)의 예측값은, 상기 수직 경계 화소 및 상기 수평 경계 화소만으로부터 도출되는,
비디오 디코딩 방법.
제7항에 있어서,
인코더로부터의 상기 타겟 블록 내의 상기 오른쪽 아래의 화소의 상기 예측값은 시그널링되지 않는, 비디오 디코딩 방법.
제7항 또는 제8항에 있어서,
인코더에 있어서 상기 평면 모드 하에서 생성된, 상기 인코더로부터 시그널링된 잔차를 디코딩하는 단계; 및
디코딩된 상기 잔차를 상기 예측 블록에 가산하여 이미지 데이터를 재구축하는 단계를 더 포함하는 비디오 디코딩 방법.
평면 모드 하에서 타겟 블록 내의 화소값을 예측하는 비디오 인코더로서,
컴퓨터 시스템의 프로세서; 및
상기 프로세서에 의해 실행 가능한 프로그램을 저장하는 메모리
를 포함하며,
상기 프로세서는,
상기 타겟 블록의 외측(外側)이면서 또한 상측(上側)에 있는 수평 경계 화소의 각각의 값과 상기 타겟 블록의 외측(外側)이면서 또한 좌측(左側)에 있는 수직 경계 화소 중의 하나의 값 간의 선형 보간을 이용하여 제1 예측값을 계산하고;
상기 수직 경계 화소의 각각의 값과 상기 수평 경계 화소 중의 하나의 값 간의 선형 보간을 이용하여 제2 예측값을 계산하고;
상기 제1 예측값과 상기 제2 예측값을 평균하여, 예측 블록 내의 예측 화소값의 각각을 도출하고;
상기 타겟 블록 내의 오른쪽 아래의 화소(bottom-right pixel)의 예측값의 시그널링이 회피되는,
비디오 인코더.
제10항에 있어서,
상기 프로세서는 상기 예측 블록과 상기 타겟 블록 간의 잔차를 시그널링하는, 비디오 인코더.
제11항에 있어서,
상기 프로세서는,
변환 커널의 1차 세트 H^N(i,j)로부터 변환 커널의 2차 세트 G^N(i,j)로 스위칭하고,
변환 커널의 상기 2차 세트 G^N(i,j)를 이용하여 상기 잔차를 변환하는, 비디오 인코더.
제12항에 있어서,
변환 커널의 상기 2차 세트 G^N(i,j)는, 다음 수식,
(a)
;
(b)
; 및
(c)

중의 하나에 의해 정의되는, 비디오 인코더.
제12항에 있어서,
크기 N×N의 변환 커널의 상기 2차 세트 G^N(i,j)가, 크기 M×M의 변환 커널의 상기 1차 세트 H^M(i,j)에 의해 정의되고, 여기서 M＞N인, 비디오 인코더.
제14항에 있어서,
변환 커널의 상기 2차 세트 G^N(i,j)는,
크기 2N×2N의 변환 커널
이 지원되는 경우,
에 의해 정의되고,
크기 2N×2N의 변환 커널
이 지원되지 않는 경우,
에 의해 정의되는, 비디오 인코더.
평면 모드 하에서 타겟 블록 내의 화소값을 예측하는 비디오 디코더에 있어서,
컴퓨터 시스템의 프로세서 및 상기 프로세서에 의해 실행 가능한 프로그램을 저장하는 메모리를 포함하며,
상기 프로세서는,
상기 타겟 블록의 외측(外側)이면서 또한 상측(上側)에 있는 수평 경계 화소의 각각의 값과 상기 타겟 블록의 외측(外側)이면서 또한 좌측(左側)에 있는 수직 경계 화소 중의 하나의 값 간의 선형 보간을 이용하여 제1 예측값을 계산하고;
상기 수직 경계 화소의 각각의 값과 상기 수평 경계 화소 중의 하나의 값 간의 선형 보간을 이용하여 제2 예측값을 계산하고;
상기 제1 예측값과 상기 제2 예측값을 평균하여, 예측 블록 내의 예측 화소값의 각각을 도출하고,
상기 타겟 블록 내의 오른쪽 아래의 화소(bottom-right pixel)의 예측값은, 상기 수직 경계 화소 및 상기 수평 경계 화소만으로부터 도출되는,
비디오 디코더.
제16항에 있어서,
인코더로부터 상기 타겟 블록 내의 상기 오른쪽 아래의 화소의 상기 예측값은 시그널링되지 않는, 비디오 디코더.
제16항 또는 제17항에 있어서,
상기 프로세서는,
인코더로부터 시그널링된 잔차를 디코딩하고,
디코딩된 상기 잔차를 상기 예측 블록에 가산하는, 비디오 디코더.