KR20190129641A

KR20190129641A - 참조 샘플의 평균값 구하는 방법을 이용한 비디오 신호 처리 방법 및 장치

Info

Publication number: KR20190129641A
Application number: KR1020180054588A
Authority: KR
Inventors: 김동철; 고건중; 정재홍; 손주형; 곽진삼
Original assignee: 주식회사 윌러스표준기술연구소; (주)휴맥스
Priority date: 2018-05-12
Filing date: 2018-05-12
Publication date: 2019-11-20

Abstract

본 발명은 비디오 신호의 처리 방법 및 장치에 관한 것으로, 보다 상세하게는 비디오 신호를 인코딩하거나 디코딩하는 비디오 신호 처리 방법 및 장치에 관한 것이다.

Description

참조 샘플의 평균값 구하는 방법을 이용한 비디오 신호 처리 방법 및 장치{A METHOD AND AN APPARATUS FOR PROCESSING A VIDEO SIGNAL USING A CALCULATION METHOD OF THE AVERAGE DC VALUE FOR PREDICTION }

압축 부호화란 디지털화한 정보를 통신 회선을 통해 전송하거나, 저장 매체에 적합한 형태로 저장하기 위한 일련의 신호 처리 기술을 의미한다. 압축 부호화의 대상에는 음성, 영상, 문자 등의 대상이 존재하며, 특히 영상을 대상으로 압축 부호화를 수행하는 기술을 비디오 영상 압축이라고 일컫는다. 비디오 신호에 대한 압축 부호화는 공간적인 상관관계, 시간적인 상관관계, 확률적인 상관관계 등을 고려하여 잉여 정보를 제거함으로써 이루어진다. 그러나 최근의 다양한 미디어 및 데이터 전송 매체의 발전으로 인해, 더욱 고효율의 비디오 신호 처리 방법 및 장치가 요구되고 있다.

본 발명의 목적은 비디오 신호의 코딩 효율을 높이고자 함에 있다.

상기와 같은 과제를 해결하기 위해, 본 발명의 일 실시예를 따른 영상 복호화 방법은 직사각형 블록의 참조 샘플에 대한 DC모드 적용을 위한 샘플 평균값을 구하고 현재 예측할 블록에 대한 예측블록을 생성하는 단계를 포함한다.

본 발명의 실시예에 따르면, 비디오 신호의 코딩 효율이 높아질 수 있다.

도 1은 본 발명의 실시예에 따른 비디오 신호 인코더 장치의 개략적인 블록도.
도 2는 본 발명의 실시예에 따른 비디오 신호 디코더 장치의 개략적인 블록도.
도 3은 코딩 유닛을 분할하는 본 발명의 일 실시예를 나타내는 도면.
도 4는 도 3의 분할 구조를 계층적으로 나타내는 방법의 일 실시예를 도시한 도면.
도 5는 코딩 유닛을 분할하는 본 발명의 추가적인 실시예를 나타낸 도면.
도 6은 화면내 예측을 위한 참조 픽셀 획득 방법을 나타낸 도면.
도 7은 화면내 예측에 사용되는 예측 모드들의 일 실시예를 도시한 도면.
도 8은 정사각블록의 참조 샘플들에 대한 평균값을 구하는 예를 나타낸 도면이다
도 9는 직사각형 블록의 참조 샘플들에 대한 평균 값을 구하는 예를 나타낸 도면이다.
도 10은 인코더와 디코더에서 현재 블록 예측에 사용되는 DC모드의 평균 값을 구하는 예를 나타낸 순서도 도면이다.

본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도, 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가진 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.

본 발명에서 다음 용어는 다음과 같은 기준으로 해석될 수 있고, 기재되지 않은 용어라도 하기 취지에 따라 해석될 수 있다. 코딩은 경우에 따라 인코딩 또는 디코딩으로 해석될 수 있고, 정보(information)는 값(values), 파라미터(parameter), 계수(coefficients), 성분(elements) 등을 모두 포함하는 용어로서, 경우에 따라 의미는 달리 해석될 수 있으므로 본 발명은 이에 한정되지 아니한다. '유닛'은 영상(픽쳐) 처리의 기본 단위 또는 픽쳐의 특정 위치를 지칭하는 의미로 사용되었으며, 경우에 따라서는 '블록', '파티션' 또는 '영역' 등의 용어와 서로 혼용하여 사용될 수 있다. 또한, 본 명세서에서 유닛은 코딩 유닛, 예측 유닛, 변환 유닛을 모두 포함하는 개념으로 사용될 수 있다.

도 1은 본 발명의 일 실시예에 따른 비디오 신호 인코딩 장치의 개략적인 블록도이다. 도 1을 참조하면, 본 발명의 인코딩 장치(100)는 크게 변환부(110), 양자화부(115), 역양자화부(120), 역변환부(125), 필터링부(130), 예측부(150) 및 엔트로피 코딩부(160)를 포함한다.

변환부(110)는 입력 받은 비디오 신호에 대한 화소값을 변환하여 변환 계수 값을 획득한다. 예를 들어, 이산 코사인 변환(Discrete Cosine Transform, DCT) 또는 웨이블릿 변환(Wavelet Transform) 등이 사용될 수 있다. 특히 이산 코사인 변환은 입력된 픽쳐 신호를 일정 크기의 블록 형태로 나누어 변환을 수행하게 된다. 변환에 있어서 변환 영역 내의 값들의 분포와 특성에 따라서 코딩 효율이 달라질 수 있다.

양자화부(115)는 변환부(110)에서 출력된 변환 계수 값을 양자화한다. 역양자화부(120)에서는 변환 계수 값을 역양자화하고, 역변환부(125)에서는 역양자화된 변환 계수값을 이용하여 원래의 화소값을 복원한다.

필터링부(130)는 복원된 픽쳐의 품질 개선을 위한 필터링 연산을 수행한다. 예를 들어, 디블록킹 필터 및 적응적 루프 필터 등이 포함될 수 있다. 필터링을 거친 픽쳐는 출력되거나 참조 픽쳐로 이용하기 위하여 복호 픽쳐 버퍼(Decoded Picture Buffer, 156)에 저장된다.

코딩 효율을 높이기 위하여 픽쳐 신호를 그대로 코딩하는 것이 아니라, 예측부(150)를 통해 이미 코딩된 영역을 이용하여 픽쳐를 예측하고, 예측된 픽쳐에 원 픽쳐와 예측 픽쳐 간의 레지듀얼 값을 더하여 복원 픽쳐를 획득하는 방법이 사용된다. 인트라 예측부(152)에서는 현재 픽쳐 내에서 화면내 예측을 수행하며, 인터 예측부(154)에서는 복호 픽쳐 버퍼(156)에 저장된 참조 픽쳐를 이용하여 현재 픽쳐를 예측한다. 인트라 예측부(152)는 현재 픽쳐 내의 복원된 영역들로부터 화면내 예측을 수행하여, 화면내 부호화 정보를 엔트로피 코딩부(160)에 전달한다. 인터 예측부(154)는 다시 모션 추정부(154a) 및 모션 보상부(154b)를 포함하여 구성될 수 있다. 모션 추정부(154a)에서는 복원된 특정 영역을 참조하여 현재 영역의 모션 벡터값을 획득한다. 모션 추정부(154a)에서는 참조 영역의 위치 정보(참조 프레임, 모션 벡터 등) 등을 엔트로피 코딩부(160)로 전달하여 비트스트림에 포함될 수 있도록 한다. 모션 추정부(154a)에서 전달된 모션 벡터값을 이용하여 모션 보상부(154b)에서는 화면간 모션 보상을 수행한다.

엔트로피 코딩부(160)는 양자화된 변환 계수, 화면간 부호화 정보, 화면내 부호화 정보 및 인터 예측부(154)로부터 입력된 참조 영역 정보 등을 엔트로피 코딩하여 비디오 신호 비트스트림을 생성한다. 여기서 엔트로피 코딩부(160)에서는 가변 길이 코딩(Variable Length Coding, VLC) 방식과 산술 코딩(arithmetic coding) 등이 사용될 수 있다. 가변 길이 코딩(VLC) 방식은 입력되는 심볼들을 연속적인 코드워드로 변환하는데, 코드워드의 길이는 가변적일 수 있다. 예를 들어, 자주 발생하는 심볼들을 짧은 코드워드로, 자주 발생하지 않은 심볼들은 긴 코드워드로 표현하는 것이다. 가변 길이 코딩 방식으로서 컨텍스트 기반 적응형 가변 길이 코딩(Context-based Adaptive Variable Length Coding, CAVLC) 방식이 사용될 수 있다. 산술 코딩은 연속적인 데이터 심볼들을 하나의 소수로 변환하는데, 산술 코딩은 각 심볼을 표현하기 위하여 필요한 최적의 소수 비트를 얻을 수 있다. 산술 코딩으로서 컨텍스트 기반 적응형 산술 부호화(Context-based Adaptive Binary Arithmetic Code, CABAC)가 이용될 수 있다.

상기 생성된 비트스트림은 NAL(Network Abstraction Layer) 유닛을 기본 단위로 캡슐화 되어 있다. NAL 유닛은 부호화된 슬라이스 세그먼트를 포함하는데, 상기 슬라이스 세그먼트는 정수 개의 코딩 트리 유닛(Coding Tree Unit)으로 이루어진다. 비디오 디코더에서 비트스트림을 디코딩하기 위해서는 먼저 비트스트림을 NAL 유닛 단위로 분리한 후, 분리 된 각각의 NAL 유닛을 디코딩해야 한다.

도 2는 본 발명의 일 실시예에 따른 비디오 신호 디코딩 장치(200)의 개략적인 블록도이다. 도 2를 참조하면 본 발명의 디코딩 장치(200)는 크게 엔트로피 디코딩부(210), 역양자화부(220), 역변환부(225), 필터링부(230), 예측부(250)를 포함한다.

엔트로피 디코딩부(210)는 비디오 신호 비트스트림을 엔트로피 디코딩하여, 각 영역에 대한 변환 계수, 모션 정보 등을 추출한다. 역양자화부(220)는 엔트로피 디코딩된 변환 계수를 역양자화하고, 역변환부(225)는 역양자화된 변환 계수를 이용하여 원래의 화소값을 복원한다.

한편, 필터링부(230)는 픽쳐에 대한 필터링을 수행하여 화질을 향상시킨다. 여기에는 블록 왜곡 현상을 감소시키기 위한 디블록킹 필터 및/또는 픽쳐 전체의 왜곡 제거를 위한 적응적 루프 필터 등이 포함될 수 있다. 필터링을 거친 픽쳐는 출력되거나 다음 프레임에 대한 참조 픽쳐로 이용하기 위하여 복호 픽쳐 버퍼(Decoded Picture Buffer, 256)에 저장된다.

또한, 본 발명의 예측부(250)는 인트라 예측부(252) 및 인터 예측부(254)를 포함하고, 전술한 엔트로피 디코딩부(210)를 통해 디코딩된 부호화 타입, 각 영역에 대한 변환 계수, 모션 정보 등을 활용하여 예측 픽쳐를 복원하게 된다.

이와 관련하여, 상기 인트라 예측부(252)에서는 현재 픽쳐 내의 디코딩된 샘플로부터 화면내 예측을 수행하게 된다. 인터 예측부(254)는 복호 픽쳐 버퍼(256)에 저장된 참조 픽쳐 및 모션 정보를 이용하여 예측 픽쳐를 생성한다. 인터 예측부(254)는 다시 모션 추정부(254a) 및 모션 보상부(254b)를 포함하여 구성될 수 있다. 모션 추정부(254a)에서는 현재 블록과 코딩에 사용하는 참조 픽쳐의 참조 블록간의 위치 관계를 나타내는 모션 벡터를 획득하여 모션 보상부(254b)로 전달한다.

상기 인트라 예측부(252) 또는 인터 예측부(254)로부터 출력된 예측값, 및 역변환부(225)로부터 출력된 화소값이 더해져서 복원된 비디오 프레임이 생성된다.

이하에서는, 상기 인코딩 장치(100)와 디코딩 장치(200)의 동작에 있어서, 도 3 내지 도 5를 참조하여 코딩 유닛 및 예측 유닛 등을 분할하는 방법을 설명하기로 한다.

코딩 유닛이란 상기에서 설명한 비디오 신호의 처리 과정에서, 예를 들어 화면내(intra)/화면간(inter) 예측, 변환(transform), 양자화(quantization) 및/또는 엔트로피 코딩(entropy coding) 등의 과정에서 픽쳐를 처리하기 위한 기본 단위를 의미한다. 하나의 픽쳐를 코딩하는 데 있어서 사용되는 코딩 유닛의 크기는 일정하지 않을 수 있다. 코딩 유닛은 사각형 형태를 가질 수 있고, 하나의 코딩 유닛은 다시 여러 개의 코딩 유닛으로 분할 가능하다.

도 3은 코딩 유닛을 분할하는 본 발명의 일 실시예를 나타낸다. 예를 들어, 2N X 2N 크기를 가지는 하나의 코딩 유닛은 다시 N X N 크기를 가지는 네 개의 코딩 유닛으로 분할될 수 있다. 이러한 코딩 유닛의 분할은 재귀적으로 이루어질 수 있으며, 모든 코딩 유닛들이 동일한 형태로 분할될 필요는 없다. 다만, 코딩 및 처리과정에서의 편의를 위하여 최대 코딩 유닛의 크기 및/또는 최소 코딩 유닛의 크기에 대한 제한이 있을 수 있다.

하나의 코딩 유닛에 대하여, 해당 코딩 유닛이 분할되는지 여부를 나타내는 정보를 저장할 수 있다. 도 4는 도 3에서 도시하는 코딩 유닛의 분할 구조를 플래그 값을 이용하여 계층적으로 나타내는 방법에 대한 일 실시예를 도시한 것이다. 코딩 유닛의 분할 여부를 나타내는 정보는 해당 유닛이 분할 된 경우 '1', 분할되지 않은 경우 '0'의 값으로 할당할 수 있다. 도 4에서 도시하듯이, 분할 여부를 나타내는 플래그 값이 1이면 해당 노드에 대응하는 코딩 유닛은 다시 4개의 코딩 유닛으로 나누어지고, 0이면 더 이상 나누어지지 않고 해당 코딩 유닛에 대한 처리 프로세스가 수행될 수 있다.

상기에서 설명한 코딩 유닛의 구조는 재귀적인 트리 구조를 이용하여 나타낼 수 있다. 즉, 하나의 픽쳐 또는 최대 크기 코딩 유닛을 루트(root)로 하여, 다른 코딩 유닛으로 분할되는 코딩 유닛은 분할된 코딩 유닛의 개수만큼의 자식(child) 노드를 가지게 된다. 따라서, 더 이상 분할되지 않는 코딩 유닛이 리프(leaf) 노드가 된다. 하나의 코딩 유닛에 대하여 정방형 분할만이 가능하다고 가정할 때, 하나의 코딩 유닛은 최대 4개의 다른 코딩 유닛으로 분할될 수 있으므로 코딩 유닛을 나타내는 트리는 쿼드 트리(Quad tree) 형태가 될 수 있다.

인코더에서는 비디오 픽쳐의 특성(예를 들어, 해상도)에 따라서 혹은 코딩의 효율을 고려하여 최적의 코딩 유닛의 크기가 선택되고 이에 대한 정보 또는 이를 유도할 수 있는 정보가 비트스트림에 포함될 수 있다. 예를 들면, 최대 코딩 유닛의 크기 및 트리의 최대 깊이가 정의될 수 있다. 정방형 분할을 할 경우, 코딩 유닛의 높이 및 너비는 부모 노드의 코딩 유닛의 높이 및 너비의 반이 되므로, 상기와 같은 정보를 이용하면 최소 코딩 유닛 크기를 구할 수 있다. 혹은 역으로, 최소 코딩 유닛 크기 및 트리의 최대 깊이를 미리 정의하여 이용하고, 이를 이용하여 최대 코딩 유닛의 크기를 유도하여 이용할 수 있다. 정방형 분할에서 유닛의 크기는 2의 배수 형태로 변화하기 때문에, 실제 코딩 유닛의 크기는 2를 밑으로 하는 로그값으로 나타내어 전송 효율을 높일 수 있다.

디코더에서는 현재 코딩 유닛이 분할되었는지 여부를 나타내는 정보를 획득할 수 있다. 이러한 정보는 특정 조건 하에만 획득하게(전송되게) 하면 효율을 높일 수 있다. 예를 들어 현재 코딩 유닛이 분할 가능한 조건은 현재 위치에서 현재 코딩 유닛 크기를 더한 것이 픽쳐의 크기보다 작고, 현재 유닛 크기가 기 설정된 최소 코딩 유닛 크기보다 큰 경우이므로, 이러한 경우에만 현재 코딩 유닛이 분할되었는지를 나타내는 정보를 획득할 수 있다.

만약 상기 정보가 코딩 유닛이 분할되었음을 나타내는 경우, 분할될 코딩 유닛의 크기는 현재 코딩 유닛의 반이 되고, 현재 처리 위치를 기준으로 하여 4개의 정방형 코딩 유닛들로 분할된다. 각 분할된 코딩 유닛들에 대해서 상기와 같은 처리를 반복할 수 있다.

도 5는 코딩 유닛을 분할하는 본 발명의 추가적인 실시예를 나타낸다. 본 발명의 추가적인 실시예에 따르면, 전술한 쿼드 트리 형태의 코딩 유닛은 수평 분할 또는 수직 분할의 바이너리 트리(binary tree) 구조로 더욱 분할될 수 있다. 즉, 루트 코딩 유닛에 대하여 정사각형의 쿼드 트리 분할이 먼저 적용되며, 쿼드 트리의 리프 노드에서 직사각형의 바이너리 트리 분할이 추가적으로 적용될 수 있다. 일 실시예에 따르면, 바이너리 트리 분할은 대칭적인 수평 분할 또는 대칭적인 수직 분할일 수 있으나, 본 발명은 이에 한정되지 않는다.

바이너리 트리의 각 분할 노드에서, 분할 형태(즉, 수평 분할 또는 수직 분할)를 지시하는 플래그가 추가적으로 시그널링 될 수 있다. 일 실시예에 따르면, 상기 플래그의 값이 '0'인 경우 수평 분할이 지시되고, 상기 플래그의 값이 '1'인 경우 수직 분할이 지시될 수 있다.

다만, 본 발명의 실시예에서 코딩 유닛의 분할 방법은 전술한 방법들로 한정되지 않으며, 비대칭적인 수평/수직 분할, 3개의 직사각형 코딩 유닛으로 분할되는 트리플 트리(triple tree) 등이 적용될 수도 있다.

코딩을 위한 픽쳐 예측(모션 보상)은 더 이상 나누어지지 않는 코딩 유닛(즉 코딩 유닛 트리의 리프 노드)을 대상으로 이루어진다. 이러한 예측을 수행하는 기본 단위를 이하에서는 예측 유닛(prediction unit) 또는 예측 블록(prediction block)이라고 한다.

이하, 본 명세서에서 사용되는 유닛 이라는 용어는 예측을 수행하는 기본 단위인 상기 예측 유닛을 대체하는 용어로 사용될 수 있다. 다만, 본 발명이 이에 한정되는 것은 아니며, 더욱 광의적으로는 상기 코딩 유닛을 포함하는 개념으로 이해될 수 있다.

디코딩이 수행되는 현재 유닛을 복원하기 위해서 현재 유닛이 포함된 현재 픽쳐 또는 다른 픽쳐들의 디코딩된 부분이 이용될 수 있다. 복원에 현재 픽쳐만을 이용하는, 즉 화면내 예측만을 수행하는 픽쳐(슬라이스)를 인트라 픽쳐 또는 I 픽쳐(슬라이스), 화면내 예측과 화면간 예측을 모두 수행할 수 있는 픽쳐(슬라이스)를 인터 픽쳐(슬라이스)라고 한다. 인터 픽쳐(슬라이스) 중 각 유닛을 예측하기 위하여 최대 하나의 모션 벡터 및 레퍼런스 인덱스를 이용하는 픽쳐(슬라이스)를 예측 픽쳐(predictive picture) 또는 P 픽쳐(슬라이스)라고 하며, 최대 두 개의 모션 벡터 및 레퍼런스 인덱스를 이용하는 픽쳐(슬라이스)를 쌍예측 픽쳐(Bi-predictive picture) 또는 B 픽쳐(슬라이스) 라고 한다.

인트라 예측부에서는 현재 픽쳐 내의 복원된 영역들로부터 대상 유닛의 픽셀값을 예측하는 화면내 예측(Intra prediction)을 수행한다. 예를 들어, 현재 유닛을 중심으로, 좌측 및/또는 상단에 위치한 유닛들의 복원된 픽셀로부터 현재 유닛의 픽셀값을 예측할 수 있다. 이때, 현재 유닛의 좌측에 위치한 유닛들은 현재 유닛에 인접한 좌측 유닛, 좌측 상단 유닛 및 좌측 하단 유닛을 포함할 수 있다. 또한, 현재 유닛의 상단에 위치한 유닛들은 현재 유닛에 인접한 상단 유닛, 좌측 상단 유닛 및 우측 상단 유닛을 포함할 수 있다.

한편, 인터 예측부에서는 현재 픽쳐가 아닌 복원된 다른 픽쳐들의 정보를 이용하여 대상 유닛의 픽셀값을 예측하는 화면간 예측(Inter prediction)을 수행한다. 이때, 예측에 이용되는 픽쳐를 참조 픽쳐(reference picture)라고 한다. 화면간 예측 과정에서 현재 유닛을 예측하는데 어떤 참조 영역을 이용하는지는, 해당 참조 영역이 포함된 참조 픽쳐를 나타내는 인덱스 및 모션 벡터(motion vector) 정보 등을 이용하여 나타낼 수 있다.

화면간 예측에는 L0 예측, L1 예측 및 쌍예측(Bi-prediction)이 있을 수 있다. L0 예측은 L0 픽쳐 리스트에 포함된 1개의 참조 픽쳐를 이용한 예측이고, L1 예측은 L1 필쳐 리스트에 포함된 1개의 참조 픽쳐를 이용한 예측을 의미한다. 이를 위해서는 1세트의 모션 정보(예를 들어, 모션 벡터 및 참조 픽쳐 인덱스)가 필요할 수 있다. 쌍예측 방식에서는 최대 2개의 참조 영역을 이용할 수 있는데, 이 2개의 참조 영역은 동일한 참조 픽쳐에 존재할 수도 있고, 서로 다른 픽쳐에 각각 존재할 수도 있다. 즉, 쌍예측 방식에서는 최대 2세트의 모션 정보(예를 들어, 모션 벡터 및 참조 픽쳐 인덱스)가 이용될 수 있는데, 2개의 모션 벡터가 동일한 참조 픽쳐 인덱스에 대응될 수도 있고 서로 다른 참조 픽쳐 인덱스에 대응될 수도 있다. 이때, 참조 픽쳐들은 시간적으로 현재 픽쳐 이전이나 이후 모두에 표시(또는 출력)될 수 있다.

모션 벡터 및 참조 픽쳐 인덱스를 이용하여 현재 유닛의 참조 유닛을 획득할 수 있다. 상기 참조 유닛은 상기 참조 픽쳐 인덱스를 가진 참조 픽쳐 내에 존재한다. 또한, 상기 모션 벡터에 의해서 특정된 유닛의 픽셀값 또는 보간(interpolation)된 값이 상기 현재 유닛의 예측값(predictor)으로 이용될 수 있다. 서브펠(sub-pel) 단위의 픽셀 정확도를 갖는 모션 예측을 위하여 이를 테면, 휘도 신호에 대하여 8-탭 보간 필터가, 색차 신호에 대하여 4-탭 보간 필터가 사용될 수 있다. 다만, 서브펠 단위의 모션 예측을 위한 보간 필터는 이에 한정되지 않는다. 이와 같이 모션 정보를 이용하여, 이전에 디코딩된 픽쳐로부터 현재 유닛의 텍스쳐를 예측하는 모션 보상(motion compensation)이 수행된다.

이하, 도 6 및 도 7을 참고로 본 발명의 실시예에 따른 화면내 예측 방법을 더욱 구체적으로 설명하도록 한다. 전술한 바와 같이, 인트라 예측부에서는 현재 유닛의 좌측 및/또는 상단에 위치한 인접 픽셀들을 참조 픽셀로 이용하여 현재 유닛의 픽셀값을 예측한다.

도 6에 도시된 바와 같이, 현재 유닛의 크기가 NXN일 경우, 현재 유닛의 좌측 및/또는 상단에 위치한 최대 4N+1개의 인접 픽셀들을 사용하여 참조 픽셀들이 설정될 수 있다. 참조 픽셀로 사용될 적어도 일부의 인접 픽셀이 아직 복원되지 않은 경우, 인트라 예측부는 기 설정된 규칙에 따른 참조 샘플 패딩 과정을 수행하여 참조 픽셀을 획득할 수 있다. 또한, 인트라 예측부는 화면내 예측의 오차를 줄이기 위해 참조 샘플 필터링 과정을 수행할 수 있다. 즉, 인접 픽셀들 및/또는 참조 샘플 패딩 과정에 의해 획득된 픽셀들에 필터링을 수행하여 참조 픽셀들이 획득할 수 있다. 인트라 예측부는 이와 같이 획득된 참조 픽셀들을 이용하여 현재 유닛의 픽셀들을 예측한다.

도 7은 화면내 예측에 사용되는 예측 모드들의 일 실시예를 도시한다. 화면내 예측을 위해, 화면내 예측 방향을 지시하는 화면내 예측 모드 정보가 시그널링될 수 있다. 현재 유닛이 화면내 예측 유닛일 경우, 비디오 신호 디코딩 장치는 비트스트림으로부터 현재 유닛의 화면내 예측 모드 정보를 추출한다. 비디오 신호 디코딩 장치의 인트라 예측부는 추출된 화면내 예측 모드 정보에 기초하여 현재 유닛에 대한 화면내 예측을 수행한다.

본 발명의 일 실시예에 따르면, 화면내 예측 모드는 총 67개의 모드를 포함할 수 있다. 각각의 화면내 예측 모드는 기 설정된 인덱스(즉, 인트라 모드 인덱스)를 통해 지시될 수 있다. 예를 들어, 도 7에 도시된 바와 같이 인트라 모드 인덱스 0은 평면(planar) 모드를 지시하고, 인트라 모드 인덱스 1은 DC 모드를 지시하며, 인트라 모드 인덱스 2~66은 서로 다른 방향 모드들(즉, 각도 모드들)을 각각 지시할 수 있다. 화면내 예측부는 현재 유닛의 화면내 예측 모드 정보에 기초하여, 현재 유닛의 화면내 예측에 사용될 참조 픽셀들 및/또는 보간된 참조 픽셀들을 결정한다. 인트라 모드 인덱스가 특정 방향 모드를 지시할 경우, 현재 유닛의 현재 픽셀로부터 상기 특정 방향에 대응하는 참조 픽셀 또는 보간된 참조 픽셀이 현재 픽셀의 예측에 사용된다. 따라서, 화면내 예측 모드에 따라 서로 다른 세트의 참조 픽셀들 및/또는 보간된 참조 픽셀들이 화면내 예측에 사용될 수 있다.

참조 픽셀들 및 화면내 예측 모드 정보를 이용하여 현재 유닛의 화면내 예측이 수행되고 나면, 비디오 신호 디코딩 장치는 역변환부로부터 획득된 현재 유닛의 잔차 신호를 현재 유닛의 화면내 예측값과 더하여 현재 유닛의 픽셀 값들을 복원한다.

도 8은 정사각블록의 참조 샘플들에 대한 평균값을 구하는 예를 나타낸 도면이다. 상기 평균 값은 예측블록의 샘플값으로 사용할 수 있다. 현재 예측 블록의 가로 샘플 수와 세로 샘플수가 같은 경우 다음과 같이 덧셈과 shift 연산자만으로 평균을 구할 수 있다. 여기서 bitshift(A+offset,(+/-)B) 로 shift 연산을 설명한다. 대상 값 A에 대해 B만큼 오른쪽(>>)/왼쪽(<<) shift연산을 수행한다. 오른쪽 shift연산은 2의 지수승 만큼 나누는 동작을 하고 왼쪽 shift연산은 2의 지수승 만큼 곱하는 동작을 한다. Offset은 2의 (지수승-1) 정도의 값을 갖으며 반올림 효과를 가져온다. 따라서, 다음과 같은 수식1로 구할 수 있다.

수식1

Bitshift(0+1+2+3+4+5+6+7 + 2^(log2(8)-1), -log2(8))

도 9는 직사각형 블록의 참조 샘플들에 대한 평균 값을 구하는 예를 나타낸 도면이다. 직사각형 블록을 상기 수식1과 같이 적용할 때 shift 연산 값에 해당하는 값이 2의 지수승 형태여야 하는 데, 8x4인 경우 그 합이 12여서 2의 지수승으로 나타낼 수 없어 적용할 수 없다. 다른 방법으로 다음과 같은 방법을 적용할 수 있다. 전체 샘플대한 평균 대신 좌측 샘플 과 상측 샘플을 분리하여 평균을 구하고 다시 평균을 구하는 방법이다. 이때 도 9와 같은 블록의 형태이면 짧은 변에 해당하는 평균은 두번째 구하는 평균에서 그 비중이 커지고 긴변에 해당하는 평균은 두번째 구하는 평균에서 그 비중이 작아져 이를 보정하는 방법이 필요하다.

다음과 같은 관계식을 이용하여

제1 가중치 비율 : 2*H/(H+W) , 짧은 변에 적용

제2 가중치 비율 : 2*W/(H+W) , 긴 변에 적용

상기 제1 가중치 비율과 제2 가중치 비율을 이용하여 가로 대 세로 비 각각에 대해 다음과 같이 구할 수 있다.

실시 예1) W:H=1:2

제1가중치 비율 : 0.66667 (0.67 : 소수점 3째자리 반올림)

제2가중치 비율 : 1.3333 (1.33 : 소수점 3째자리 반올림)

실시 예2) W:H=1:4

제1가중치 비율 : 0.40000 (0.4 : 소수점 3째자리 반올림)

제2가중치 비율 : 1.6000 (1.6 : 소수점 3째자리 반올림)

실시 예3) W:H=1:8

제1가중치 비율 : 0.22222 (0.22 : 소수점 3째자리 반올림)

제2가중치 비율 : 1.7778 (1.78 : 소수점 3째자리 반올림)

실시 예4) W:H=1:16

제1가중치 비율 : 0.11765 (0.12 : 소수점 3째자리 반올림)

제2가중치 비율 : 1.8824 (1.88 : 소수점 3째자리 반올림)

더 큰 비율에 혹은 다양한 비율에 대해서도 동일한 방법을 확장 적용 가능하다. (xx : 소수점 3째자리 반올림)은 소수점 2째자리 값까지 사용하는 방법으로 소수점 3째자리에서 반올림한 경우이다. 정확도와 스케일링 수의 크기를 고려하여 정할 수 있다.

다음은 직사각형 블록의 참조 샘플의 평균 값을 구할 때 필요한 값을 계산하는 과정이다. 일 실시예로 W가 H보다 큰 경우이다. 크기를 구분하는 것은 작은 곳과 큰 곳에 적용할 가중치 값을 구분하여 적용하기 위함이다. 따라서 반대의 경우로 H가 W더 커도 같은 방식을 적용할 수 있다.

1. W>H, 짧은변(H)의 샘플값들을 전체블록의 넓이와 높이의 합의 크기로 나누어 평균을 구한다. 즉, 짧은 변 샘플값들의 합/(블록의 넓이(W)+블록의 높이(H)), 제1평균 이라 칭함.

2. W>H, 긴변(W)의 샘플들을 제1 평균을 구하는 방법을 적용하여 구한다, 이를 제2평균이라 칭함.

3. W>H, bitshift(sum(짧은변의 샘플들)+offset_1, -log2(짧은변길이(H)); bitshift(A, B) 함수는 bit shift operator로 A값에 shift(>> or >>)연산을 수행하여 2^n(n은 정수)만큼 나누거나 곱하는 역할을 수행한다. 짧은 변의 샘플의 합을 log2(짧은 변 길이) 만큼 오른쪽 shift연산을 수행하여 제3의 평균을 구한다. 제3의 평균을 다시 2로 나눈 것을 제4 평균이라 한다.

4. W>H, 긴 변에 대해서도 제3의 평균을 구하는 방법을 적용하여 제5평균을 구하고 다시 2로 나누어 제6 평균을 구한다.

5. 제1평균/제4평균=제3 가중치 비율 (제 3 가중치 비율은 상기 제1 가중치 비율을 구하는 방법으로 대체할 수 있다. 혹은 해당 방법으로 미리 구한 값을 사용할 수 있다.)

6. 제2평균/제6평균=제4 가중치 비율(동일하게 제4 가중치 비율은 상기 제2 가중치 비율을 구하는 방법으로 대체 할 수 있다. 혹은 해당 방법으로 미리 구한 값을 사용할 수 있다)

7. 위에서 구한 제3 가중치 비율 과 제4 가중치 비율(혹은 제1 가중치 비율과 제2가중치 비율)은 부동 소수점 형태로 값이 구성된다. 소수점 연산의 정확도를 고려하여 특정 소수점 이하를 버림, 올림, 내림하여 고정 소수점을 만들 수 있다. 이렇게 만들어진 고정 소수점에 대해 2^K(K는 정수로 제1지수값)만큼 곱하여 정수크기를 갖도록 한다. 이를 각각 제1 정수 값과 제2 정수 값이라 한다. 이과정에서 오차가 발생할 수 있어 이를 보상하기 위해 보정할 수 있다.

위1~7의 과정을 가로 대 세로의 비의 경우의 수에 맞춰 반복하여 최종 제1정수값, 제2정수값들을 구하도록 한다. 가로 대 세로의 비가 1:2, 1:4, 1:8, 1:16, 1:32 등으로 1:2^m(m은 정수)비들에 대해서 고려할 수 있다. 블록 형태에 따라 예로 든 각각의 가로 대 세로의 비율에 대한 제3 가중치 비율(상기 단계 5), 제4 가중치 비율은(상기 단계6) 다음과 같을 수 있다.

W(가로)xH(세로)=1:2

제3 가중치 비율: 1.3333

제4 가중치 비율 : 0.66667

WxH=1:4

제3 가중치 비율: 1.5873

제4 가중치 비율: 0.4

WxH=1:8

제3 가중치 비율: 1.7921

제4 가중치 비율: 0.22222

WxH=1:16

제3 가중치 비율: 1.8382

제4 가중치 비율: 0.11765

상기 제3 가중치 비율 및 제4 가중치 비율은 일 예로 가로변의 평균과 세로변의 평균의 비에 따라서, 혹은 평균의 크기, 가로 대 세로의 비율에 따라서 보정하여 사용할 수 있다. 고정 소수점의 정확도에 따라서도 보정의 방법을 다르게 할 수 있다. 구해진 값에 일정 값을 덧셈/뺄셈/곱셈/나눗셈을 적용하여 변경 가능하다. 일 예로, 가로 대 세로의 비가 1:16인 경우 제1 비율을 1.8382에서 1.86으로, 제2 비율은 0.11765에서 1.14로 보정하는 것이 실제 직사각형 평균과 가까워 질 수 있다.

위에서 구한 제1정수값과 제2 정수 값은 직사각형 블록의 평균을 구할 때 사용된다. 예를 들어 WxH=8x4 블록에 대해 평균을 구할 때 가로변에 대해 bitshift(sum(가로(W)변의 샘플들)+offset_3, -log2(가로변길이(W)) 구하고 제7평균이라 한다. Offset_3은 2^(log2(W)-1)로 사용할 수 있다. 세로변에 대해 bitshift(sum(세로(H)변의 샘플들)+offset_4, -log2(가로변길이(W))로 구하여 제8평균이라 한다. 이때 offset_4는 은 2^(log2(H)-1)로 사용할 수 있다. 이렇게 구한 제7,8평균에 제1정수값, 제2정수값을 각각 곱하고 offset값으로 2^(제1지수값-1)을 더한 값을 제1지수값으로 오른쪽 shift( >>)를 각각 수행 후 다시 평균을 구한다. 식으로 표현하면 다름과 같다.

수식2

bitshift(bitshift(제7평균*제1정수값+2^(제1지수값-1),-제1지수값)+bitshift(제7평균*제1정수값+2^(제1지수값-1),-제1지수값)+offset_5 ,-C);

offset_5는 임의 값, 미리 정한 값 혹은 2^(C-1)의 값을 사용할 수 있다. 여기에서 (-)부호는 오른쪽 shift(>>)를 의미하며 2의 지수승에 해당하는 나눗셈을 한다. C는 임의 값 , 미리 정한 값 혹은 여기에서는 2개요소에 대한 평균을 구하는 것으로 1을 사용할 수 있다.

도 10은 인코더와 디코더에서 현재 블록 예측에 사용되는 DC모드의 평균 값을 구하는 예를 나타낸 순서도 도면이다. 먼저 W와H의 비율을 맞는 제1 정수값 및 제2 정수값을 선택한다. 그 다음, bitshift연산으로 W와 H 각각의 평균을 구한다. W의 평균에 제1정수값을 곱하고 offset을 더한 후, 제1 지수값으로 bitshift연산을 적용하고 H에 대해서도 동일하게 적용한다. 다시, 두 평균값에 대해 다시 bitshift연산으로 평균을 구하여 현재 예측 블록의 예측 값으로 사용한다.

이상에서는 본 발명을 구체적인 실시예를 통하여 설명하였으나, 당업자라면 본 발명의 취지 및 범위를 벗어나지 않고 수정, 변경을 할 수 있다. 따라서 본 발명의 상세한 설명 및 실시예로부터 본 발명이 속하는 기술분야에 속한 사람이 용이하게 유추할 수 있는 것은 본 발명의 권리범위에 속하는 것으로 해석된다.

100 : 인코딩 장치 200 : 디코딩 장치

Claims

비디오 신호 처리 장치 및 방법.