WO2011149291A2

WO2011149291A2 - 비디오 신호의 처리 방법 및 장치

Info

Publication number: WO2011149291A2
Application number: PCT/KR2011/003876
Authority: WO
Inventors: 임재현; 김정선; 박승욱; 성재원; 전병문; 박준영; 전용준; 최영희
Original assignee: 엘지전자 주식회사
Priority date: 2010-05-26
Filing date: 2011-05-26
Publication date: 2011-12-01
Also published as: CN105681810A; US12028511B2; US10491892B2; US20210297660A1; KR101782929B1; US11057618B2; KR102004836B1; KR20180075711A; CN102934440A; KR102233820B1; US20160330444A1; KR102344855B1; CN105744282B; CN105681810B; KR101873767B1; KR102439252B1; CN105791859B; CN105791860A; CN105791860B; CN105744282A

Abstract

본 발명은 비디오 신호를 인코딩 또는 디코딩 하는 방법 및 장치에 관한 것이다. 본 발명에 따르면 영상 예측의 정확도를 높이기 위해, 현재 유닛의 영상 예측을 위한 다수의 참조 유닛들을 획득하고 이들을 조합하여 유닛 예측값을 획득할 수 있다. 특히, 본 발명은 기존의 화면간 예측에 사용되는 모션 벡터 예측값 또는 모션 벡터를 이용하여 다양한 참조 유닛들을 유도해 내는 방법을 제공하고, 현재 유닛의 예측값을 획득하기 위해 상기 참조 유닛들을 조합하는 방법을 제공한다. 또한, 본 발명은 병합 모드에 대해서도 다수의 참조 유닛을 획득하고 이를 조합하여 영상 예측을 수행하는 방법을 제공한다.

Description

비디오 신호의 처리 방법 및 장치

본 발명은 비디오 신호의 처리 방법 및 장치에 관한 것으로, 보다 상세하게는 비디오 신호를 인코딩하거나 디코딩하는 비디오 신호 처리 방법 및 장치에 관한 것이다.

압축 부호화란 디지털화한 정보를 통신 회선을 통해 전송하거나, 저장 매체에 적합한 형태로 저장하기 위한 일련의 신호 처리 기술을 의미한다. 압축 부호화의 대상에는 음성, 영상, 문자 등의 대상이 존재하며, 특히 영상을 대상으로 압축 부호화를 수행하는 기술을 비디오 영상 압축이라고 일컫는다. 비디오 신호에 대한 압축 부호화는 공간적인 상관관계, 시간적인 상관관계, 확률적인 상관관계 등을 고려하여 잉여 정보를 제거함으로써 이루어진다. 그러나 최근의 다양한 미디어 및 데이터 전송 매체의 발전으로 인해, 더욱 고효율의 비디오 신호 처리 방법 및 장치가 요구되고 있다.

비디오 신호의 처리 과정에서 화면간 예측은 현재 유닛의 모션 벡터가 가리키는 참조 유닛을 통해 유닛 예측값을 획득하고, 이를 이용하여 현재 유닛의 디코딩을 수행하게 되는데, 상기 유닛 예측값의 정확도가 높을수록 디코딩을 위해 전송되는 정보가 줄어들 수 있다.

이때, 제한된 참조 유닛을 통해 현재 유닛의 유닛 예측값을 획득하게 되면 영상의 특성에 따라 영상 예측 정확도가 떨어지고, 예측 효율이 떨어지게 될 수 있다. 그러나, 보다 정확한 영상 예측을 위해 참조 유닛의 정보를 늘리게 된다면 오히려 이를 위해 전송되는 정보가 증가하게 되는 문제점이 있다.

따라서, 디코딩이 수행되는 현재 유닛의 영상 예측 정확도를 높이면서도 이를 위해 전송되는 정보의 양을 최소화할 수 있는 효율적인 비디오 신호 처리 방법이 요구된다.

본 발명은 상기와 같은 요구를 해결하기 위해 고안된 것으로서, 현재 유닛의 영상 예측을 위한 다수의 참조 유닛들을 획득하고 이들을 조합하여 유닛 예측값을 획득함으로 영상 예측의 정확도를 높이고자 하는데 그 목적이 있다.

특히, 본 발명은 기존의 화면간 예측에 사용되는 모션 벡터 예측값 또는 모션 벡터를 이용하여 다양한 참조 유닛들을 유도해 내는 방법을 제공하고, 현재 유닛의 예측값을 획득하기 위해 상기 참조 유닛들을 조합하는 방법을 제공하고자 하는 목적을 가지고 있다.

또한, 본 발명은 화면간 예측의 병합 모드에 있어서도 다수의 참조 유닛을 이용한 영상 예측을 수행하는 방법을 제공하고자 하는 목적이 있다.

이에 더하여, 다음 유닛의 디코딩을 위하여, 다수의 참조 유닛을 이용해 병합 모드를 수행한 유닛의 모션 정보를 저장하는 방법을 제공하고자 하는데에도 그 목적이 있다.

본 발명에 따른 비디오 신호 처리 방법에 의하면, 다수의 참조 유닛들을 조합하여 현재 유닛의 예측값을 획득하고 이를 이용하여 디코딩을 수행하게 되므로 영상 예측의 정확도를 높일 수 있게 된다. 이에 따라 영상 신호의 복원을 위해 전송되는 정보의 양을 줄일 수 있게 된다.

또한, 본 발명의 실시예에 따르면 기존의 화면간 예측에 사용되는 모션 벡터 예측값 또는 모션 벡터를 이용하여 다양한 참조 유닛들을 유도해 내므로 참조 유닛의 추가를 위해 전송되는 정보의 양을 줄일 수 있게 되고 효율적인 영상 처리가 가능하게 된다.

또한, 다양한 참조 유닛 후보군들에서 참조 유닛을 적응적으로 선택하여 현재 유닛의 유닛 예측값을 획득할 수 있게 함으로 영상 예측의 효율성을 더욱 높일 수 있게 된다.

도 1은 본 발명의 실시예에 따른 비디오 신호 인코더 장치의 개략적인 블록도이다.

도 2는 본 발명의 실시예에 따른 비디오 신호 디코더 장치의 개략적인 블록도이다.

도 3은 본 발명의 실시예에 따라 코딩 유닛을 분할하는 일 예를 나타내는 도면이다.

도 4는 도 3의 분할 구조를 계층적으로 나타내는 방법에 대한 일 실시예를 도시한 도면이다.

도 5는 본 발명의 실시예에 따라 예측 유닛 내에서의 다양한 서브-예측 유닛으로의 분할 형태를 도시한 도면이다.

도 6은 현재 유닛의 공간적 이웃 유닛의 예를 나타낸 도면이다.

도 7은 현재 유닛의 시간적 이웃 유닛을 나타낸 도면이다.

도 8은 현재 유닛의 모션 벡터 예측값 및 모션 벡터가 각각 가리키는 참조 유닛을 표현한 도면이다.

도 9는 모션 벡터를 프레임간의 시간적 거리에 따라 스케일링 하는 방법을 나타내는 도면이다.

도 10 내지 도 12는 본 발명의 실시예에 따라 다수의 참조 유닛을 조합하여 현재 유닛의 예측값을 획득하는 과정을 나타내는 순서도이다.

도 13은 현재 유닛과 병합 될 수 있는 이웃 유닛의 일 실시예를 나타내는 도면이다.

도 14는 플래그 값을 통해서 도 13의 두 개의 이웃 유닛 중 하나의 이웃 유닛과의 병합 수행 여부를 획득하기 위한 일 실시예를 나타내고 있다.

도 15는 현재 유닛의 다중-추측 병합에 사용될 수 있는 참조 유닛들을 나타내는 도면이다.

도 16은 인덱스 값을 통해서 다중-추측 병합에 사용되는 이웃 유닛들의 조합을 획득하기 위한 일 실시예를 나타내고 있다.

도 17은 현재 프레임과 참조 프레임들 간의 시간적 거리를 개략적으로 나타내고 있다.

도 18은 서로 다른 이웃 유닛의 모션 정보를 이용하여 다중-추측 병합이 수행되는 현재 유닛을 도시하고 있다.

도 19는 다중-추측 병합을 수행한 유닛을 이웃 유닛으로 갖는 현재 유닛을 도시하고 있다.

상기와 같은 목적을 달성하기 위해 본 발명에 따른 비디오 신호의 처리 방법은, 현재 유닛이 다중-추측 화면간 예측을 수행하는지 여부를 판별하는 단계; 현재 유닛이 다중-추측 화면간 예측을 수행할 경우, 화면간 예측을 위한 다수의 참조 유닛들을 획득하는 단계; 상기 획득된 다수의 참조 유닛들을 조합하여 현재 유닛의 예측값을 획득하는 단계; 및 상기 현재 유닛의 예측값을 이용하여 현재 유닛의 픽셀값을 복원하는 단계; 를 포함하되, 상기 다중-추측 화면간 예측이란 다수의 참조 유닛들을 조합하여 현재 유닛의 예측값으로 사용하는 것임을 특징으로 한다.

이 때, 상기 화면간 예측을 위한 다수의 참조 유닛을 획득하는 단계는, 현재 유닛의 L0 예측 방향에 대한 모션 벡터 예측값 및 모션 벡터값, 현재 유닛의 L1 예측 방향에 대한 모션 벡터 예측값 및 모션 벡터값에 의해 획득되는 참조 유닛들의 조합을 통해 획득할 수 있다.

또는, 상기 화면간 예측을 위한 다수의 참조 유닛을 획득하는 단계는, 현재 유닛의 모션 벡터값 및 상기 모션 벡터의 스케일링 된 모션 벡터값에 의해 획득되는 참조 유닛들의 조합을 통해 획득할 수 있다.

본 발명의 실시예에 따른 비디오 신호의 처리 방법에 의하면, 현재 유닛이 병합 모드를 사용하는지 여부를 나타내는 병합 플래그를 획득하는 단계; 상기 병합 플래그가 현재 유닛이 병합 모드임을 나타내고, 유효한 병합 후보 유닛의 개수가 1보다 큰 경우, 병합에 사용될 이웃 유닛들의 조합을 나타내는 인덱스 값을 획득하는 단계; 상기 인덱스 값에 기초하여 선택된 이웃 유닛들의 모션 정보를 이용하여 다중-추측 병합에 사용될 다수의 참조 유닛들을 획득하는 단계; 상기 획득된 다수의 참조 유닛들을 조합하여 현재 유닛의 예측값을 획득하는 단계; 및 상기 현재 유닛의 예측값을 이용하여 현재 유닛의 픽셀값을 복원하는 단계; 를 포함하되, 상기 다중-추측 병합이란 다수의 이웃 유닛들의 모션 정보를 이용하여 각각의 참조 유닛들을 획득하고, 상기 참조 유닛들을 조합하여 현재 유닛의 예측값으로 사용하는 것임을 특징으로 한다.

이 때, 상기 현재 유닛의 예측값을 획득하는 단계는, 상기 참조 유닛들의 이미지값을 평균하여 현재 유닛의 예측값으로 획득할 수 있다.

또는, 상기 현재 유닛의 예측값을 획득하는 단계는, 상기 참조 유닛들과 현재 프레임 간의 시간적 거리에 반비례하는 가중치를 각 참조 유닛의 이미지값에 부여하여 선형적으로 결합하여 현재 유닛의 예측값으로 획득할 수 있다.

이하 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위하여 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

본 발명에서 다음 용어는 다음과 같은 기준으로 해석될 수 있고, 기재되지 않은 용어라도 하기 취지에 따라 해석될 수 있다. 코딩은 경우에 따라 인코딩 또는 디코딩으로 해석될 수 있고, 정보(information)는 값(values), 파라미터(parameter), 계수(coefficients), 성분(elements) 등을 모두 포함하는 용어로서, 경우에 따라 의미는 달리 해석될 수 있으므로 본 발명은 이에 한정되지 아니한다. '유닛'은 영상 처리의 기본 단위 또는 영상의 특정 위치를 지칭하는 의미로 사용되었으며, 경우에 따라서는 '블록', '파티션' 또는 '영역' 등의 용어와 서로 혼용하여 사용될 수 있다. 또한, 본 명세서에서 유닛은 코딩 유닛, 예측 유닛, 변환 유닛을 모두 포함하는 개념으로 사용될 수 있다.

도 1은 본 발명의 일 실시예에 따른 비디오 신호 인코딩 장치의 개략적인 블록도이다. 도 1을 참조하면, 본 발명의 인코딩 장치(100)는 크게 변환부(110), 양자화부(115), 역양자화부(120), 역변환부(125), 필터링부(130), 예측부(150) 및 엔트로피 코딩부(160)를 포함한다.

변환부(110)는 입력받은 비디오 신호에 대한 화소값을 변환하여 변환 계수 값을 획득한다. 예를 들어, 이산 코사인 변환(DCT: Discrete Cosine Transform) 또는 웨이블릿 변환(Wavelet Transform) 등이 사용될 수 있다. 특히 이산 코사인 변환은 입력된 영상 신호를 일정 크기의 블록 형태로 나누어 변환을 수행하게 된다. 변환에 있어서 변환 영역 내의 값들의 분포와 특성에 따라서 코딩 효율이 달라질 수 있다.

양자화부(115)는 변환부(110)에서 출력된 변환 계수 값을 양자화한다. 역양자화부(120)에서는 변환 계수 값을 역양자화하고, 역변환부(125)에서는 역양자화된 변환 계수값을 이용하여 원래의 화소값을 복원한다.

필터링부(130)는 복원된 영상의 품질 개선을 위한 필터링 연산을 수행한다. 예를 들어, 디블록킹 필터 및 적응적 루프 필터 등이 포함될 수 있다. 필터링을 거친 영상은 출력되거나 참조 영상으로 이용하기 위하여 저장부(156)에 저장된다.

코딩 효율을 높이기 위하여 영상 신호를 그대로 코딩하는 것이 아니라, 이미 코딩된 영역을 이용하여 영상을 예측하고, 예측된 영상에 원 영상과 예측 영상간의 레지듀얼 값을 더하여 복원 영상을 획득하는 방법이 사용된다. 인트라 예측부(152)에서는 현재 영상 내에서 화면내 예측을 수행하며, 인터 예측부(154)에서는 저장부(156)에 저장된 참조 영상을 이용하여 현재 영상을 예측한다. 인트라 예측부(152)는 현재 영상 내의 복원된 영역들로부터 화면내 예측을 수행하여, 화면내 부호화 정보를 엔트로피 코딩부(160)에 전달한다. 인터 예측부(154)는 다시 움직임 보상부(162) 및 움직임 추정부(164)를 포함하여 구성될 수 있다. 움직임 추정부(164)에서는 복원된 특정 영역을 참조하여 현재 영역의 모션 벡터값을 획득한다. 움직임 추정부(164)에서는 참조 영역의 위치 정보(참조 프레임, 모션 벡터 등) 등을 엔트로피 코딩부(160)로 전달하여 비트스트림에 포함될 수 있도록 한다. 움직임 추정부(164)에서 전달된 모션 벡터값을 이용하여 움직임 보상부(162)에서는 화면간 움직임 보상을 수행한다.

엔트로피 코딩부(160)는 양자화된 변환 계수, 화면간 부호화 정보, 화면내 부호화 정보 및 인터 예측부(154)로부터 입력된 참조 영역 정보 등을 엔트로피 코딩하여 비디오 신호 비트스트림을 생성한다. 여기서 엔트로피 코딩부(160)에서는 가변 길이 코딩(VLC: Variable Length Coding) 방식과 산술 코딩(arithmetic coding) 등이 사용될 수 있다. 가변 길이 코딩(VLC) 방식은 입력되는 심볼들을 연속적인 코드워드로 변환하는데, 코드워드의 길이는 가변적일 수 있다. 예를 들어, 자주 발생하는 심볼들을 짧은 코드워드로, 자주 발생하지 않은 심볼들은 긴 코드워드로 표현하는 것이다. 가변 길이 코딩 방식으로서 컨텍스트 기반 적응형 가변 길이 코딩(CAVLC: Context-based Adaptive Variable Length Coding) 방식이 사용될 수 있다. 산술 코딩은 연속적인 데이터 심볼들을 하나의 소수로 변환하는데, 산술 코딩은 각 심볼을 표현하기 위하여 필요한 최적의 소수 비트를 얻을 수 있다. 산술 코딩으로서 컨텍스트 기반 적응형 산술 부호화(CABAC: Context-based Adaptive Binary Arithmetic Code)가 이용될 수 있다.

도 2는 본 발명의 일 실시예에 따른 비디오 신호 디코딩 장치(200)의 개략적인 블록도이다. 도 2를 참조하면 본 발명의 디코딩 장치(200)는 크게 엔트로피 디코딩부(210), 역양자화부(220), 역변환부(225), 필터링부(230), 예측부(250)를 포함한다.

엔트로피 디코딩부(210)는 비디오 신호 비트스트림을 엔트로피 디코딩하여, 각 영역에 대한 변환 계수, 모션 벡터 등을 추출한다. 역양자화부(220)는 엔트로피 디코딩된 변환 계수를 역양자화하고, 역변환부(225)는 역양자화된 변환 계수를 이용하여 원래의 화소값을 복원한다.

한편, 필터링부(230)는 영상에 대한 필터링을 수행하여 화질을 향상시킨다. 여기에는 블록 왜곡 현상을 감소시키기 위한 디블록킹 필터 및/또는 영상 전체의 왜곡 제거를 위한 적응적 루프 필터 등이 포함될 수 있다. 필터링을 거친 영상은 출력되거나 다음 프레임에 대한 참조 영상으로 이용하기 위하여 프레임 저장부(256)에 저장된다.

또한, 본 발명의 예측부(250)는 인트라 예측부(252) 및 인터 예측부(254)를 포함하고, 전술한 엔트로피 디코딩부(210)를 통해 디코딩된 부호화 타입, 각 영역에 대한 변환 계수, 모션 벡터 등의 정보를 활용하여 예측 영상을 복원하게 된다.

이와 관련하여, 상기 인트라 예측부(252)에서는 현재 영상 내의 디코딩된 샘플로부터 화면내 예측을 수행하게 된다.

인터 예측부(254)는 프레임 저장부(256)에 저장된 참조 영상을 이용하여 모션 벡터를 추정하고 예측 영상을 생성한다. 인터 예측부(254)는 다시 움직임 보상부(262) 및 움직임 추정부(264)를 포함하여 구성될 수 있다. 움직임 추정부(264)에서는 현재 블록과 코딩에 사용하는 참조 프레임의 참조 블록간의 관계를 나타내는 모션 벡터를 획득하여 움직임 보상부(262)로 전달한다.

상기 인트라 예측부(252) 또는 인터 예측부(254)로부터 출력된 예측값, 및 역변환부(225)로부터 출력된 화소값이 더해져서 복원된 비디오 프레임이 생성된다.

이하에서는, 상기 인코더 장치와 디코더 장치의 동작에 있어서, 도 3 내지 도 5를 참조하여 코딩 유닛 및 예측 유닛 등을 분할하는 방법을 설명하기로 한다.

코딩 유닛이란 상기에서 설명한 비디오 신호의 처리 과정에서, 예를 들어 화면내(intra)/화면간(inter) 예측, 변환(transform), 양자화(quantization) 및/또는 엔트로피 코딩(entropy coding) 등의 과정에서 영상을 처리하기 위한 기본 단위를 의미한다. 하나의 영상을 코딩하는 데 있어서 사용되는 코딩 유닛의 크기는 일정하지 않을 수 있다. 코딩 유닛은 사각형 형태를 가질 수 있고, 하나의 코딩 유닛은 다시 여러 개의 코딩 유닛으로 분할 가능하다.

도 3은 본 발명의 실시 예에 따라 코딩 유닛을 분할하는 일 예를 나타낸 것이다. 예를 들어, 2N x 2N 크기를 가지는 하나의 코딩 유닛은 다시 네 개의 NxN 크기를 가지는 코딩 유닛으로 분할될 수 있다. 이러한 코딩 유닛의 분할은 재귀적으로 이루어질 수 있으며, 모든 코딩 유닛들이 동일한 형태로 분할될 필요는 없다. 다만, 코딩 및 처리과정에서의 편의를 위하여 코딩 유닛의 최대 크기(310) 또는 최소 크기(320)에 대한 제한이 있을 수 있다.

하나의 코딩 유닛에 대하여, 해당 코딩 유닛이 분할되는지 여부를 나타내는 정보를 저장할 수 있다. 예를 들어, 도 3과 같이 하나의 코딩 유닛은 4개의 정방형 코딩 유닛으로 나누어질 수 있다고 가정하자. 도 4는 도 3에서 도시하는 코딩 유닛의 분할 구조를 0과 1을 이용하여 계층적으로 나타내는 방법에 대한 일 실시예를 도시한 것이다. 코딩 유닛의 분할 여부를 나타내는 정보는 해당 유닛이 분할 된 경우 '1', 분할되지 않은 경우 '0'의 값으로 할당할 수 있다. 도 4에서 도시하듯이, 분할 여부를 나타내는 플래그 값이 1이면 해당 노드에 대응하는 코딩 유닛은 다시 4개의 코딩 유닛으로 나누어지고, 0이면 더 이상 나누어지지 않고 해당 코딩 유닛에 대한 처리 프로세스가 수행될 수 있다.

코딩 유닛이 반드시 4개의 정방향 영역으로만 나누어질 수 있는 것은 아니다. 이러한 경우에는 분할 정보에 미리 정해진 분할 방식에 대한 코드를 매핑시켜서 나타낼 수 있다. 예를 들어, 해당 정보 값이 1이면 해당 코딩 유닛은 2개의 수평 직사각형 서브 코딩 유닛으로 나누어지고, 2이면 해당 코딩 유닛은 2개의 수직 직사각형 서브 코딩 유닛으로 나누어지고, 3이면 4개의 정사각형 서브 코딩 유닛으로 나누어지도록 설정할 수도 있다. 이러한 방법은 분할 방식의 몇 가지 실시 예를 나타낸 것으로, 본 발명을 한정하는 것은 아니다.

상기에서 설명한 코딩 유닛의 구조는 재귀적인 트리 구조를 이용하여 나타낼 수 있다. 즉, 하나의 픽쳐 또는 최대 크기 코딩 유닛을 루트(root)로 하여, 다른 코딩 유닛으로 분할되는 코딩 유닛은 분할된 코딩 유닛의 개수만큼의 자식(child) 노드를 가지게 된다. 따라서, 더 이상 분할되지 않는 코딩 유닛이 리프(leaf) 노드가 된다. 하나의 코딩 유닛에 대하여 정방형 분할만이 가능하다고 가정할 때, 하나의 코딩 유닛은 최대 4개의 다른 코딩 유닛으로 분할될 수 있으므로 코딩 유닛을 나타내는 트리는 쿼드 트리(Quard tree) 형태가 될 수 있다.

인코더에서는 비디오 영상의 특성(예를 들어, 해상도)에 따라서 혹은 코딩의 효율을 고려하여 최적의 코딩 유닛의 크기를 선택하고 이에 대한 정보 또는 이를 유도할 수 있는 정보가 비트스트림에 포함될 수 있다. 예를 들면, 최대 코딩 유닛의 크기 및 트리의 최대 깊이를 정의할 수 있다. 정방형 분할을 할 경우, 코딩 유닛의 높이 및 너비는 부모 노드의 코딩 유닛의 높이 및 너비의 반이 되므로, 상기와 같은 정보를 이용하면 최소 코딩 유닛 크기를 구할 수 있다. 혹은 역으로, 최소 코딩 유닛 크기 및 트리의 최대 깊이를 미리 정의하여 이용하고, 이를 이용하여 필요할 경우에 최대 코딩 유닛의 크기를 유도하여 이용할 수 있다. 정방형 분할에서 유닛의 크기는 2의 배수 형태로 변화하기 때문에, 실제 코딩 유닛의 크기는 2를 밑으로 하는 로그값으로 나타내어 전송 효율을 높일 수 있다.

디코더에서는 현재 코딩 유닛이 분할되었는지 여부를 나타내는 정보를 획득할 수 있다. 이러한 정보는 특정 조건 하에만 획득하게(전송되게) 하면 효율을 높일 수 있다. 예를 들어 현재 코딩 유닛이 분할 가능한 조건은 현재 위치에서 현재 코딩 유닛 크기를 더한 것이 픽쳐의 크기보다 작고, 현재 유닛 크기가 기설정된 최소 코딩 유닛 크기보다 큰 경우이므로, 이러한 경우에만 분할되었는지를 나타내는 정보를 획득할 수 있다.

만약 상기 정보가 코딩 유닛이 분할되었음을 나타내는 경우, 분할될 코딩 유닛의 크기는 현재 코딩 유닛의 반이 되고, 현재 처리 위치를 기준으로 하여 4개의 정방형 코딩 유닛들로 분할된다. 각 분할된 코딩 유닛들에 대해서 상기와 같은 처리를 반복할 수 있다.

코딩을 위한 픽쳐 예측(모션 보상)은 더 이상 나누어지지 않는 코딩 유닛(즉 코딩 유닛 트리의 리프 노드)을 대상으로 이루어진다. 이러한 예측을 수행하는 기본 단위를 이하에서는 예측 유닛(prediction unit) 또는 예측 블록(prediction block)이라고 한다. 예측 유닛은 다양한 형태로 분할 가능한데, 정방형, 직사각형 등의 대칭적인 형태나, 비대칭적인 형태, 혹은 기하학적 형태의 서브-예측 유닛으로의 분할이 가능하다. 예를 들면, 하나의 예측 유닛은 분할되지 않거나(2Nx2N), 도 5에 나타난 바와 같이 NxN, 2NxN, Nx2N 등의 크기의 서브-예측 유닛으로 나누어질 수 있다. 또한, 예측 유닛의 가능한 분할 형태는 인트라 코딩 유닛과 인터 코딩 유닛에서 각기 다르게 정의될 수 있다. 예를 들면, 인트라 코딩 유닛에서는 2Nx2N 또는 NxN 형태의 분할만 가능하고, 인터 코딩 유닛에서는 2Nx2N, 2NxN, Nx2N 또는 NxN 형태의 분할이 가능하도록 설정할 수 있다. 이때, 비트스트림에는 상기 예측 유닛이 분할되었는지 여부, 혹은 어떠한 형태로 분할되었는지에 대한 정보가 포함될 수 있다. 혹은 이러한 정보는 다른 정보들로부터 유도될 수도 있다.

이하, 본 명세서에서 사용되는 유닛 이라는 용어는 예측을 수행하는 기본 단위인 상기 예측 유닛 또는 서브-예측 유닛을 대체하는 용어로 사용될 수 있다. 다만, 본 발명이 이에 한정되는 것은 아니며, 더욱 광의적으로는 상기 코딩 유닛을 포함하는 개념으로 이해될 수 있다.

디코딩이 수행되는 현재 유닛을 복원하기 위해서 현재 유닛이 포함된 현재 픽쳐 또는 다른 픽쳐들의 디코딩된 부분을 이용할 수 있다. 복원에 현재 픽쳐만을 이용하는, 즉 화면내 예측만을 수행하는 픽쳐(슬라이스)를 인트라 픽쳐 또는 I 픽쳐(슬라이스), 각 유닛을 예측하기 위하여 최대 하나의 모션 벡터 및 레퍼런스 인덱스를 이용하는 픽쳐(슬라이스)를 예측 픽쳐(predictive picture) 또는 P 픽쳐(슬라이스), 최대 두 개의 모션 벡터 및 레퍼런스 인덱스를 이용하는 픽쳐(슬라이스)를 쌍예측 픽쳐(Bi-predictive picture) 또는 B 픽쳐(슬라이스) 라고 한다.

인트라 예측부에서는 현재 픽쳐 내의 복원된 영역들로부터 대상 유닛의 픽셀값을 예측하는 화면내 예측(Intra prediction)을 수행한다. 예를 들어, 현재 유닛을 중심으로, 상단, 좌측, 좌측 상단 및/또는 우측 상단에 위치한 유닛들의 부호화된 픽셀로부터 현재 유닛의 픽셀값을 예측할 수 있다.

인트라 모드는 픽셀값 예측에 사용되는 참조 픽셀들이 위치한 참조 영역의 방향 및 예측 방식에 따라 크게 수직(Vertical), 수평(Horizontal), DC, Angular 모드 등으로 나눌 수 있다. 수직 모드는 대상 유닛의 수직으로 인접한 영역의 값을 참조하여 현재 유닛의 예측값으로, 수평 모드는 수평으로 인접한 영역의 값을 참조하여 예측값으로 이용한다. DC 모드에서는 참조 영역들의 평균값을 예측값으로 이용하게 된다. 한편, Angular 모드는 참조 영역이 임의의 방향에 위치한 경우로, 현재 픽셀과 참조 픽셀 간의 각도로 해당 방향을 나타낼 수 있다. 편의를 위하여, 기 정해진 각도 및 예측 모드 번호를 사용할 수 있고, 사용되는 각도의 수는 대상 유닛의 크기에 따라서 달라질 수 있다.

이렇게 다양한 예측 방법들에 대하여 몇 가지 특정 모드들을 정의하여 이용할 수 있다. 예측 모드는 그 모드를 나타내는 값 자체로 전송될 수도 있으나, 전송 효율을 높이기 위하여, 현재 유닛의 예측 모드 값을 예측하는 방법을 이용할 수 있다. 이때 디코더에서는 예측 모드에 대한 예측값이 그대로 사용되는지, 실제 값과의 차이가 얼마인지를 이용한 정보로 현재 유닛의 예측 모드를 획득할 수 있다.

한편, 인터 예측부에서는 현재 픽쳐가 아닌 복원된 다른 픽쳐들의 정보를 이용하여 대상 유닛의 픽셀값을 예측하는 화면간 예측(Inter prediction)을 수행한다. 이때, 예측에 이용되는 픽쳐를 참조 픽쳐(reference picture)라고 한다. 화면간 예측 과정에서 현재 유닛을 예측하는데 어떤 참조 영역을 이용하는지는, 해당 참조 영역이 포함된 참조 픽쳐를 나타내는 인덱스 및 모션 벡터(motion vector) 정보 등을 이용하여 나타낼 수 있다.

화면간 예측에는 순방향 예측(forward direction prediction), 역방향 예측(backward direction prediction) 및 쌍예측(Bi-prediction)이 있을 수 있다. 순방향 예측은 시간적으로 현재 픽쳐 이전에 표시(또는 출력)되는 1개의 참조 픽쳐를 이용한 예측이고, 역방향 예측은 시간적으로 현재 픽쳐 이후에 표시(또는 출력)되는 1개의 참조 픽쳐를 이용한 예측을 의미한다. 이를 위해서는 1개의 모션 정보 (예를 들어, 모션 벡터 및 참조 픽쳐 인덱스)가 필요할 수 있다. 쌍예측 방식에서는 최대 2개의 참조 영역을 이용할 수 있는데, 이 2개의 참조 영역은 동일한 참조 픽쳐에 존재할 수도 있고, 서로 다른 픽쳐에 각각 존재할 수도 있다. 즉, 쌍예측 방식에서는 최대 2개의 모션 정보(예를 들어 모션 벡터 및 참조 픽쳐 인덱스)가 이용될 수 있는데, 2개의 모션 벡터가 동일한 참조 픽쳐 인덱스를 가질 수도 있고 서로 다른 참조 픽쳐 인덱스를 가질 수도 있다. 이때, 참조 픽쳐들은 시간적으로 현재 픽쳐 이전이나 이후 모두에 표시(또는 출력)될 수 있다.

현재 유닛의 모션 정보(motion information)는 모션 벡터 정보(motion vector information)와 참조 픽쳐 인덱스(reference picture index)를 포함할 수 있다. 상기 모션 벡터 정보는 모션 벡터, 모션 벡터 예측값(motion vector prediction, mvp) 또는 모션 벡터 차분값(motion vector difference, mvd)을 포함할 수 있고, 상기 모션 벡터 예측값을 특정하는 인덱스 정보를 의미할 수도 있다. 차분 모션 벡터는 상기 모션 벡터와 모션 벡터 예측값 간의 차분값을 의미한다.

모션 벡터 및 참조 픽쳐 인덱스를 이용하여 현재 유닛의 참조 유닛을 획득할 수 있다. 상기 참조 유닛은 상기 참조 픽쳐 인덱스를 가진 참조 픽쳐 내에 존재한다. 또한, 상기 모션 벡터에 의해서 특정된 유닛의 픽셀값 또는 보간(interpolation)된 값이 상기 현재 유닛의 예측값(predictor)으로 이용될 수 있다. 즉, 모션 정보를 이용하여, 이전에 디코딩된 픽쳐로부터 현재 유닛의 영상을 예측하는 모션 보상(motion compensation)이 수행된다.

한편, 현재 픽쳐에 대하여, 화면 간 예측을 위하여 사용되는 픽쳐들로 참조 픽쳐 리스트를 구성할 수 있다. B 픽쳐의 경우에는 두 개의 참조 픽쳐 리스트를 필요로 하며, 이하에서는 각각을 참조 픽쳐 리스트 0(또는 L0), 참조 픽쳐 리스트 1(또는 L1)으로 지칭한다.

모션 벡터와 관련한 전송량을 줄이기 위하여, 이전에 코딩된 유닛들의 모션 정보를 이용하여 모션 벡터 예측값(mvp)을 획득하고, 이에 대한 차분값(mvd)만을 전송하는 방법을 이용할 수 있다. 디코더에서는 디코딩된 다른 유닛들의 모션 정보들을 이용하여 현재 유닛의 모션 벡터 예측값을 구하고, 전송된 차분값을 이용하여 현재 유닛에 대한 모션 벡터값을 획득하게 된다. 모션 벡터 예측값을 획득함에 있어서는, 이미 코딩된 유닛들의 모션 정보을 이용하여 다양한 모션 벡터 후보 값들을 획득하고 그 중 하나를 모션 벡터 예측값으로 획득하는 모션 벡터 경쟁(Motion vector competition) 방법을 이용할 수 있다.

이러한 모션 벡터 경쟁에 이용되는 모션 벡터 후보들로는 공간적 이웃 유닛또는 시간적 이웃 유닛의 모션 벡터를 포함할 수 있다. 공간적 이웃 유닛이란 현재 유닛과 동일한 픽쳐 내에서 현재 유닛에 인접하는 유닛들을 가리키며(도 6 참조), 시간적 이웃 유닛이란 현재 유닛과 다른 픽쳐에서 현재 유닛과 대응 되는 위치(co-located)에 존재하는 유닛을 가리킨다(도 7 참조).

예를 들어 도 6을 참조로 하면, 상기 공간적 이웃 유닛의 모션 벡터로는 현재 유닛의 좌측에 이웃하는 유닛들(A₀, A₁, …, A_nA)의 집합인 좌측 그룹에서 선정된 유닛의 모션 벡터 a', 현재 유닛의 상단에 이웃하는 유닛들(B₀, B₁, …, B_nB)의 집합인 상단 그룹에서 선정된 유닛의 모션 벡터 b', 및 현재 유닛의 대각선에 인접하는 유닛들(C, D, E)의 집합인 코너 그룹에서 선정된 유닛의 모션 벡터 c'가 포함될 수 있다. 또한, 상기 모션 벡터 a', b' 및 c'의 중앙값(median(a', b', c'))이 유도될 수 있으며, 상기 중앙값도 모션 벡터 후보에 포함될 수 있다.

이처럼 현재 유닛의 공간적 이웃 유닛 및 시간적 이웃 유닛의 모션 벡터를 포함하는 모션 벡터 후보들로부터 현재 유닛의 모션 벡터 예측값을 획득하며, 이를 전송된 차분값과 더하여 현재 유닛에 대한 모션 벡터값을 획득할 수 있다. 이때, 현재 픽쳐(또는 슬라이스)가 P 픽쳐(슬라이스)일 경우에는 L0 또는 L1 중 어느 하나의 예측 방향(참조 픽쳐 리스트)에 대한 모션벡터 예측값 및 모션 벡터를 획득할 수 있으며, 현재 픽쳐(또는 슬라이스)가 B 픽쳐(슬라이스)일 경우에는 L0 및 L1 모두의 예측 방향에 대한 모션 벡터 예측값 및 모션 벡터를 획득할 수 있다.

상기 획득된 현재 유닛의 모션 벡터 예측값 및 모션 벡터를 이용하여 현재 유닛의 영상 예측을 위한 참조 유닛을 얻을 수 있다. 도 8에 도시된 바와 같이, 현재 유닛의 모션 벡터 예측값(mvp)을 통해 얻은 참조 유닛을 Pred_a라 하고, 상기 모션 벡터 예측값(mvp)과 모션 벡터 차분값(mvd)을 합한 모션 벡터(mv)를 통해 얻은 참조 유닛을 Pred_b라 한다면, 현재 유닛의 영상 예측을 위해서 다음과 같은 참조 유닛 후보를 사용할 수 있다.

a) L0 예측에 대한 Pred_a, b) L1 예측에 대한 Pred_a, c) 쌍예측에 대한 Pred_a, d) L0 예측에 대한 Pred_b, e) L1 예측에 대한 Pred_b, f) 쌍예측에 대한 Pred_b, g) 스킵/직접 모드의 Pred_a.

이때, 쌍예측에 대한 Pred_a는 L0 예측에 대한 Pred_a와 L1 예측에 대한 Pred_a를 평균하여 얻을 수 있으며, 쌍예측에 대한 Pred_b는 L0 예측에 대한 Pred_b와 L1 예측에 대한 Pred_b를 평균하여 얻을 수 있다. 또한, 스킵/직접 모드의 Pred_a는 현재 유닛이 P 픽쳐(또는 슬라이스)에 해당할 경우에는 해당 픽쳐(슬라이스)의 L0 또는 L1 예측에 대한 Pred_a를 사용할 수 있으며, 현재 유닛이 B 픽쳐(또는 슬라이스)에 해당할 경우에는 L0 예측에 대한 Pred_a와 L1 예측에 대한 Pred_a를 평균하여 얻을 수 있다. 스킵 모드 또는 직접 모드는 모션 정보를 별도로 전송하지 않고 해당 모드에 대한 플래그만을 전송하므로, 현재 유닛의 모션 벡터 예측 방향이 지정되지 않기 때문이다.

이때, 현재 유닛의 더욱 정확한 영상 예측을 위해, 상기 참조 유닛 후보들을 이용하여 다중-추측 화면간 예측(Multi-hypothesis inter prediction)을 수행할 수 있다. 본 발명에서 다중-추측 화면간 예측이란 두 개 이상의 다수의 참조 유닛들(predictor)을 조합하여 현재 유닛의 영상을 예측하는 것을 말한다. 다중-추측 화면간 예측을 수행하기 위해서는 참조하고자 하는 여러 개의 참조 유닛의 위치를 디코더에게 직접 알려주거나, 혹은 디코더가 유도해 낼 수 있어야 한다. 상기 다중-추측 화면간 예측을 수행할지의 여부는 별도의 플래그 값을 통해 전달하거나, 참조 가능한 유닛들의 개수에 따라 유도되도록 할 수 있다.

이때, 본 발명에서는 상기 a) 내지 g)에서 유효한 참조 유닛 후보들을 두 개 이상 조합하여 현재 유닛의 예측값을 획득하고 이를 이용하여 영상 예측을 수행할 수 있다. 예를 들어, L0 예측에 대한 Pred_a와 L0 예측에 대한 Pred_b를 조합하여 현재 유닛의 예측값을 구할 수 있으며, L0 예측에 대한 Pred_b와 쌍예측에 대한 Pred_b를 조합하는 것도 가능하다. 이때, 참조 유닛의 조합은 각 참조 유닛의 픽셀값을 평균하여 구할 수 있으며, 가중치를 주어 합산하는 것도 가능하다.

한편, 상기 다중-추측 화면간 예측을 위한 참조 유닛 후보군을 더욱 확장하여, L0 및 L1 각각의 예측 방향에 대하여 복수의 모션 벡터를 이용할 수도 있다. 즉, 현재 유닛의 이웃 유닛들로부터 L0 및 L1 예측 방향 각각에 대하여 다수의 모션 벡터 예측값과 모션 벡터를 획득하고 이를 통해 다수의 참조 유닛들을 얻을 수 있으며, 상기 참조 유닛들을 조합하여 현재 유닛의 예측값을 구할 수 있다. 이때, L0 및 L1 예측 방향 각각에 대하여 다수의 모션 벡터 예측값 및 모션 벡터를 획득하기 위해, 현재 유닛의 공간적 이웃 유닛과 시간적 이웃 유닛에 존재하는 모든 유효한 모션 벡터들을 현재 유닛의 모션 벡터 예측값으로 사용할 수 있다. 또한, 상기 다수의 모션 벡터 예측값을 전송된 각각에 대한 모션 벡터 차분값과 합산하여 다수의 모션 벡터를 획득할 수 있다. 따라서, 현재 유닛의 모션 벡터 예측값(mvp)을 통해 얻은 참조 유닛을 Pred_a라 하고, 상기 모션 벡터 예측값(mvp)과 모션 벡터 차분값(mvd)을 합한 모션 벡터(mv)를 통해 얻은 참조 유닛을 Pred_b라 한다면, 현재 유닛의 영상 예측을 위한 참조 유닛 후보를 다음과 같이 확장할 수 있다.

a') L0 예측의 하나의 모션 정보에 대한 Pred_a, b') L0 예측의 N₀개의 모션 정보에 대한 Pred_a, c') L0 예측의 하나의 모션 정보에 대한 Pred_b, d') L0 예측의 N₀개의 모션 정보에 대한 Pred_b, e') L1 예측의 하나의 모션 정보에 대한 Pred_a, f') L1 예측의 N₁개의 모션 정보에 대한 Pred_a, g') L1 예측의 하나의 모션 정보에 대한 Pred_b, h') L1 예측의 N₁개의 모션 정보에 대한 Pred_b, i') 상기 a') 내지 h')의 조합.

이때, 상기 참조 유닛 후보군에 포함된 참조 유닛의 조합은 전술한 바와 같이 각 참조 유닛의 픽셀값을 평균하여 구할 수 있으며, 가중치를 주어 합산하는 것도 가능하다.

본 발명의 다른 실시예에 따르면, 상기 다중-추측 화면간 예측을 위한 다수의 참조 유닛들을 획득하기 위해 모션 벡터 스케일링 기법이 사용될 수 있다. 모션 벡터 스케일링이란 참조 프레임들과 현재 프레임 간의 시간적(temporal) 거리에 따라 모션 벡터를 비례 확대 또는 비례 축소 시키는 기법을 말한다. 화면간 예측을 수행할 때 모션 벡터 스케일링 기술을 이용하면, 서로 다른 참조 프레임으로부터 각각 1개씩의 참조 유닛을 획득할 수 있으며, 이들을 조합하여 다중-추측 화면간 예측을 수행할 수 있다. 이를 통해, 디코더는 하나의 모션 벡터 만으로도 여러 개의 참조 유닛을 얻을 수 있으며, 이들을 조합함으로 더욱 정확한 영상 예측을 수행할 수 있다.

도 9는 프레임들 간의 시간적 거리를 이용하여 모션 벡터 스케일링을 수행하는 방법을 나타내고 있다. 현재 유닛의 L0 방향의 모션 벡터를 mvL0라 하고 상기 mvL0의 참조 프레임을 ref0라 할 때, 상기 mvL0를 다른 참조 프레임인 ref1에 대하여 스케일링한 mvL0N_scaled는 다음과 같이 나타낼 수 있다.

mvL0N_scaled = mvL0 * (td/tb)

여기서, tb는 현재 프레임과 ref0 간의 시간적 거리를 나타내며, td는 현재 프레임과 ref1 간의 시간적 거리를 나타낸다. 각 프레임 간의 시간적 거리는 각 프레임 간의 POC(Picture Order Count) 값의 차를 통해 구할 수 있다.

이처럼 현재 유닛의 모션 벡터 mvL0를 이용하여 ref0 프레임에서 제 1 참조 유닛을 획득하고, 현재 유닛의 스케일링된 모션 벡터 mvL0N_scaled를 이용하여 ref1 프레임에서 제 2 참조 유닛을 획득한 후, 상기 두 개의 참조 유닛을 조합하여 현재 유닛의 예측값을 구할 수 있다. 본 발명에서 모션 벡터 스케일링을 이용한 다중-추측 화면간 예측에 사용되는 참조 유닛의 개수는 두 개로 한정하지 않는다. 즉, DPB(Decoded Picture Buffer)에 저장된 참조 프레임의 개수가 두 개 이상일 경우, 모션 벡터를 상기 DPB에 저장된 각 프레임에 대하여 스케일링함으로 이용 가능한 참조 유닛의 개수를 늘릴 수 있다.

다수의 참조 유닛들을 사용하여 현재 유닛의 예측값을 구할 경우, 각각의 참조 유닛을 조합하는 방법으로는, i)각 참조 유닛의 이미지 값을 평균하는 방법, ii) 각 참조 유닛과 현재 프레임 간의 시간적 거리에 반비례하는 가중치를 각 참조 유닛의 이미지 값에 부여하여 선형적으로 결합하는 방법, iii) 각 참조 유닛과 현재 프레임 간의 시간적 거리의 제곱에 반비례하는 가중치를 각 참조 유닛의 이미지 값에 부여하여 선형적으로 결합하는 방법 등이 사용될 수 있다.

또한, 본 발명의 실시예에 따르면, 상기 모션 벡터 스케일링을 이용한 다중-추측 화면간 예측은 고정된 개수의 참조 유닛을 이용할 수도 있고, 가변적인 개수의 참조 유닛을 이용할 수도 있다. 첨부된 도 10은 고정된 개수의 참조 유닛을 이용하여 다중-추측 화면간 예측을 수행하는 실시예를 도시하고 있다.

도 10을 참조로 하면, 고정된 개수의 참조 유닛을 사용하는 경우, 기존의 화면간 예측 방법에서와 같이 현재 유닛의 모션 벡터를 코딩하여 모션 벡터 차분값을 전송하고, 모션 벡터 스케일링을 이용한 다중-추측 화면간 예측 수행 여부를 알려주는 플래그(scaling_multi_hypothesys_flag)를 추가로 전송할 수 있다.

디코더에서는 상기 전송된 모션 벡터 차분값을 획득하여(S1010), 현재 유닛의 모션 벡터를 구하고, 상기 모션 벡터가 가리키는 참조 유닛을 획득한다(S1020). 다음으로, 상기 전송된 플래그(scaling_multi_hypothesys_flag)를 획득하여(S1030), 상기 플래그가 0일 경우 일반적인 화면간 예측과 같이 S1020 단계에서 획득된 참조 유닛을 현재 유닛의 예측값으로 설정하고(S1070) 현재 유닛의 디코딩을 수행한다(S1080). 만약, 상기 플래그(scaling_multi_hypothesys_flag)가 1일 경우, 미리 설정된 개수에 따라 참조 유닛을 추가로 획득한다(S1050) 이때, 추가되는 참조 유닛은 본 발명의 실시예에 따라 현재 유닛의 모션 벡터를 스케일링하여 서로 다른 프레임으로부터 획득할 수 있다. 디코더는 상기 추가된 참조 유닛을 포함한 다수의 참조 유닛들을 조합하여 현재 유닛의 예측값을 획득하고(S1060), 이를 이용하여 현재 유닛의 디코딩을 수행할 수 있다(S1080).

한편, 본 발명의 실시예에 따르면 가변적인 개수의 참조 유닛을 이용하여 다중-추측 화면간 예측을 수행할 수도 있는데, 도 11 및 도 12는 이에 대한 실시예를 도시하고 있다. 도 11 및 도 12의 실시예에 대한 설명에 있어서 도 10의 실시예와 동일하거나 유사한 구성에 대해서는 중복된 설명을 생략하기로 한다.

먼저 도 11의 실시예에 따르면, 현재 유닛의 예측값을 획득하기 위해 사용되는 참조 유닛들의 개수를 별도로 전송하는 방법을 사용할 수 있다. 즉, 전송되는 플래그(scaling_multi_hypothesys_flag) 값이 1일 경우, 참조 유닛 추가 개수를 알려주는 변수(add_predictor_num)를 추가로 전송할 수 있다.

디코더에서는 획득된 상기 플래그(scaling_multi_hypothesys_flag)가 1일 경우, 전송된 변수(add_predictor_num)를 획득하고(S1150), 상기 변수(add_predictor_num)의 값에 기초하여 참조 유닛을 추가로 획득한다(S1154). 이때, 추가되는 참조 유닛은 본 발명의 실시예에 따라 현재 유닛의 모션 벡터를 스케일링하여 서로 다른 프레임으로부터 획득할 수 있다. 디코더는 상기 추가된 참조 유닛을 포함한 다수의 참조 유닛들을 조합하여 현재 유닛의 예측값을 획득하고(S1160), 이를 이용하여 현재 유닛의 디코딩을 수행할 수 있다(S1180).

또한 도 12를 참조 하면, 전송되는 플래그(scaling_multi_hypothesys_flag) 값이 1일 경우, 참조 유닛 추가 여부를 알려주는 플래그(add_predictor_flag)를 반복적으로 전송하는 방법을 사용할 수 있다.

디코더에서는 획득된 상기 플래그(scaling_multi_hypothesys_flag)가 1일 경우, 상기 참조 유닛 추가 여부 플래그(add_predictor_flag)가 1이고 DPB의 유효한 잔존 참조 프레임이 1개 이상일 때 참조 유닛을 추가로 획득 한다(S1254). 상기 참조 유닛 추가 과정은, 전송된 참조 유닛 추가 여부 플래그(add_predictor_flag)가 0이거나, 더 이상 참조 유닛을 추가할 수 없을 때까지(예를 들어, 해당 예측 방향의 참조 유닛을 추가할 수 있는 유효한 참조 프레임이 DPB에 더 이상 남아 있지 않는 경우) 반복 한다. 이와 같은 과정을 통해 획득된 참조 유닛들을 조합하여 현재 유닛의 예측값을 획득할 수 있으며(S1260), 이를 이용하여 현재 유닛의 디코딩을 수행할 수 있다(S1280).

본 발명의 실시예에 있어서, DPB에 저장된 프레임 중에서 참조 유닛의 추가를 위해 선택되는 프레임은 다양한 우선 순위에 따라 결정될 수 있다. 예를 들어, i) 레퍼런스 인덱스 값이 낮은 순서대로 선택되거나, ii) 실제 전송한 현재 유닛의 레퍼런스 인덱스 값과 가까운 레퍼런스 인덱스 값을 갖는 순서대로 선택되거나, iii) 실제 전송한 현재 유닛의 레퍼런스 인덱스가 가리키는 참조 프레임과 시간적 거리가 가까운 순서대로 선택될 수 있다.

또한, 모션 벡터 스케일링을 이용하여 참조 유닛을 추가하는 이러한 방법은 L0 및 L1 예측 방향에 대한 모션 벡터 예측값 및 모션 벡터를 조합하는 방법과 결합하여 사용할 수도 있다. 즉, L0 및 L1 예측 방향에 대한 각각의 모션 벡터 예측값 및 모션 벡터에 대하여 모션 벡터 스케일링을 통해 다양한 참조 유닛들을 획득할 수 있으며, 이렇게 획득된 참조 유닛들을 조합하여 현재 유닛의 영상 예측을 수행할 수 있다.

한편, 현재 유닛의 화면간 예측에 필요한 예측 정보(예를 들어 레퍼런스 인덱스, 모션 벡터, 예측 방향 등)는 직접 비트스트림에 포함되어 전송되지 않고, 주변 유닛을 이용하여 유도할 수 있다. 이러한 방법을 사용하면 예측 정보에 할당되는 비트 수를 줄여 압축률을 높일 수 있는 효과가 있다. 보다 구체적으로, 화면간 예측을 이용하여 코딩된 이웃 유닛의 예측 정보를 현재 유닛의 예측 정보로써 이용할 수 있다. 이러한 방식이 사용되는 경우를 현재 유닛이 예측 정보를 가져온 이웃 유닛과 병합(Merge) 되었다고 하고, 이러한 예측 방식을 병합 모드(Merge mode)라고 한다.

병합 모드를 위하여 비트스트림은 현재 유닛이 병합이 되었는지 여부를 나타내는 정보(예를 들면, merge_flag 와 같은 플래그), 어느 이웃 유닛과 병합되었는지를 나타내는 병합 정보(예를 들어 특정 이웃과의 병합 여부를 나타내는 플래그 또는 특정 이웃을 나타내는 인덱스 정보 등) 등을 포함할 수 있다. 어느 유닛과의 병합인지를 나타내는 정보는 현재 유닛이 병합되었음을 지시하는 경우(상기 예에서, merge_flag가 TRUE 또는 1인 경우)에만 획득하게 할 수 있다.

예를 들어 도 13 및 도 14를 참조로 하면, 병합 모드에서 현재의 유닛(X)은 상단 이웃 유닛(A) 또는 좌측 이웃 유닛(B)과 병합될 수 있다. 이때 상단 이웃 유닛 및 좌측 이웃 유닛 중 병합에 유효한 유닛(인터 모드인 유닛)이 있다면, 현재 유닛의 병합 여부를 나타내는 merge_flag(1402)를 획득할 수 있다. 상기 merge_flag가 0이라면 일반적인 화면간 예측을 수행할 수 있으며, 상기 merge_flag가 1이라면 병합 모드를 수행할 수 있다. 이때, 상기 merge_flag가 1이면서 병합에 유효한 이웃 유닛의 개수(NumMergeCandidates)가 1보다 크면 어느 이웃 유닛과 병합되는지를 나타내는 merge_left_flag(1404)를 획득할 수 있다. 상기 merge_left_flag는 현재 유닛을 기준으로 어느 방향의 이웃 유닛과 병합을 수행할 것인지에 대한 정보를 포함한다. 이때, 현재 유닛은 병합이 수행되는 이웃 유닛의 모션 정보를 이용하여 참조 유닛을 획득하고, 이를 이용하여 영상 예측을 수행한다.

본 발명의 실시예에 따르면, 이러한 병합 모드에서 두 개 이상의 병합 대상 이웃 유닛의 모션 정보를 이용하여 각각의 참조 유닛을 획득하고, 이들을 조합하여 현재 유닛의 예측값으로 사용하는 다중-추측 병합(Multi-hypothesys merging)을 수행할 수 있다. 즉, 도 15에서 현재 유닛(X)의 병합 대상 이웃 유닛인 유닛 A와 유닛 B가 모두 유효할 경우(인터 모드일 경우), 각 이웃 유닛의 모션 정보를 현재 유닛에 적용하여 Ref 0 프레임 및 Ref 1 프레임에서 참조 유닛을 획득하고, 이들을 조합하여 현재 유닛의 영상 예측을 수행할 수 있다.

이때, 병합 대상이 되는 이웃 유닛은 다양하게 변경할 수 있다. 즉, 도 15에서 현재 유닛의 좌측 상단 코너에 이웃하는 유닛(C)이 유효할 경우 상기 유닛 C도 함께 병합에 사용될 수 있다. 또는, 현재 유닛의 우측 상단 코너에 이웃하는 유닛과 현재 유닛의 좌측 하단 코너에 이웃하는 유닛도 유효할 경우 병합 후보에 포함시킬 수 있다.

이처럼 다수의 이웃 유닛의 모션 정보를 이용하여 다중-추측 병합을 수행할 때, 병합에 사용될 이웃 유닛들의 조합을 나타내는 인덱스 값인 merge_mode를 전송하여 이를 획득하게 할 수 있다. 즉, 도 16에 도시된 바와 같이, merge_flag가 1이면서 병합에 유효한 이웃 유닛의 개수(NumMergeCandidates)가 1보다 클 경우 인덱스 값인 merge_mode(1604)를 획득할 수 있으며, 상기 merge_mode 값에 따라 선택되는 이웃 유닛들을 조합하여 현재 유닛의 다중-추측 병합을 수행할 수 있다.

상기 merge_mode는 현재 유닛과 병합을 수행할 이웃 유닛을 택일적으로 선택하는 merge_left_flag와는 달리, 어떠한 이웃 유닛들의 조합을 이용하여 병합을 수행할지를 알려준다. 예를 들어, 도 15와 같이 현재 유닛의 상단 이웃 유닛과 좌측 이웃 유닛만이 병합 후보로 사용되는 경우에는, 상기 merge_mode가 0이면 상단 이웃 유닛(A)과, 1이면 좌측 이웃 유닛(B)과, 2이면 상기 두 개의 이웃 유닛(A, B)과 병합을 수행할 수 있다. 물론, 병합 모드의 병합 후보가 되는 이웃 유닛들이 이와 다를 경우에는 상기 merge_mode 인덱스를 다르게 정의할 수 있다.

본 발명의 실시예에 따라 다중-추측 병합을 수행할 경우, 두 개 이상의 이웃 유닛들을 이용하여 병합을 수행하기 위한 다양한 방법이 제안될 수 있다. 예를 들어, 이웃 유닛 A, B의 모션 벡터를 mvA, mvB 라 하고, 각각의 참조 유닛을 predA, predB 라고 한다면, 현재 유닛 X의 유닛 예측값 predX는 다음과 같이 구할 수 있다.

i) 각 참조 유닛의 이미지 값을 평균하는 방법.

즉, predX = (predA + predB + 1)>>1

ii) 각 참조 유닛의 모션 벡터 mvA 및 mvB를 스케일링하여 mvA', mvB'를 구한 후, 상기 스케일링 된 모션 벡터를 통해 획득한 새로운 참조 유닛 predA' 및 predB'의 이미지 값을 평균하는 방법.

iii) 각 참조 유닛과 현재 프레임 간의 시간적 거리에 반비례하는 가중치를 각 참조 유닛의 이미지 값에 부여하여 선형적으로 결합하는 방법. 즉, 도 17에서 mvA의 참조 프레임이 ref 0이고, mvB의 참조 프레임이 ref 1이라고 할 때, 이웃 유닛 A의 참조 프레임(ref 0)과 현재 프레임 간의 시간적 거리는 'd'이며, 이웃 유닛 B의 참조 프레임(ref 1)과 현재 프레임 간의 시간적 거리는 '2d'가 된다. 따라서 이러한 시간적 거리를 고려한 가중치를 부여하여 현재 유닛 X의 예측값 predX를 다음과 같이 구할 수 있다.

predX = (2*predA + predB)/3

한편, 현재 유닛이 병합 모드로 디코딩 된 경우, 다음 유닛의 디코딩을 위해 현재 유닛에 대한 모션 정보가 저장되어야 한다. 도 18에 도시된 바와 같이, 다중-추측 병합을 수행한 현재 유닛(X)은 두 개 이상의 이웃 유닛(A, B)의 모션 정보(motion_info(A), motion_info(B))를 함께 사용하여 병합을 수행하게 된다. 이때, 각 유닛의 모션 정보(motion_info(A), motion_info(B))는 서로 다른 값을 가질 수 있으며, 서로 다른 각 이웃 유닛의 모션 정보를 모두 저장하게 된다면 다중-추측 병합이 수행됨에 따라 저장해야 할 모션 정보가 기하 급수적으로 늘어나게 된다. 따라서, 다중-추측 병합을 수행한 현재 유닛의 모션 정보를 저장하기 위하여 다음과 같은 방법을 사용할 수 있다.

a) 기존 화면간 예측 코딩 방법 중 RD(Rate Distortion) 관점에서 최적이었던 모드의 정보로 저장.

b) 병합 대상이 되는 두 개 또는 그 이상의 유효한 이웃 유닛 모션 정보들의 평균값으로 저장(이때, 정수가 아닌 경우에는 올림, 내림 또는 반올림한 값을 사용할 수 있다.).

c) 병합 대상이 되는 두 개 또는 그 이상의 유효한 이웃 유닛 모션 정보들 중 가장 작은 값으로 저장.

d) 인터 모드를 갖는 이웃 유닛들의 모션 정보 중 최빈값.

e) 이웃 유닛들의 모션 정보의 중앙값.

f) 영상 특성에 따라 상기 a) 내지 e)의 방법을 선택적으로 조합.

또한, 도 19에 도시된 바와 같이, 현재 유닛(X)의 이웃 유닛(A)이 다중-추측 병합을 수행한 유닛일 경우, 현재 유닛(X)의 모션 정보를 처리하기 위해서는 상기 이웃 유닛(A)의 모션 정보를 참조해야 하기 때문에, 해당 이웃 유닛의 모션 정보를 처리하기 위한 방법이 필요하다. 따라서, 다중-추측 병합을 수행한 이웃 유닛의 모션 정보를 참조하기 위하여 다음과 같은 방법을 사용할 수 있다.

a') 다중-추측 병합을 수행한 유닛의 모션 정보를 저장하기 위하여 제안된 상기 a) 내지 f)의 방법에 따라 저장된 모션 정보를 참조.

b') 다중-추측 병합을 수행한 이웃 유닛은 유효하지 않은 유닛으로 간주(예를 들어, 인트라 모드로 처리).

c') 다중-추측 병합을 수행한 이웃 유닛 주변의 다른 이웃 유닛의 모션 정보를 참조.

d') 다중-추측 병합 적용의 연속성을 체크하여, 임계값을 넘는지의 여부에 따라 모션 정보를 다르게 참조.

e') 영상 특성에 따라 상기 a') 내지 d')의 방법을 선택적으로 조합.

이처럼 본 발명의 실시예에 따라 다중-추측 화면간 예측 또는 다중-추측 병합을 수행하게 되면, 보다 정확한 유닛 예측값을 획득할 수 있으며, 영상 복원을 위해 전송되는 비트-레이트를 줄일 수 있게 된다.

이상에서 설명된 실시예들은 본 발명의 구성요소들과 특징들이 소정 형태로 결합된 것들이다. 각 구성요소 또는 특징은 별도의 명시적 언급이 없는 한 선택적인 것으로 고려되어야 한다. 각 구성요소 또는 특징은 다른 구성요소나 특징과 결합되지 않은 형태로 실시될 수 있다. 또한, 일부 구성요소들 및/또는 특징들을 결합하여 본 발명의 실시예를 구성하는 것도 가능하다. 본 발명의 실시예들에서 설명되는 동작들의 순서는 변경될 수 있다. 어느 실시예의 일부 구성이나 특징은 다른 실시예에 포함될 수 있고, 또는 다른 실시예의 대응하는 구성 또는 특징과 교체될 수 있다.

본 발명이 적용되는 디코딩/인코딩 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 본 발명에 따른 데이터 구조를 가지는 멀티미디어 데이터도 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 상기 인코딩 방법에 의해 생성된 비트스트림은 컴퓨터가 읽을 수 있는 기록 매체에 저장되거나, 유/무선 통신망을 이용해 전송될 수 있다.

본 발명에 따른 실시예는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어적인 구현에 의하면, 여기에 설명되는 실시예는 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시예들이 제어부 자체로 구현될 수 있다.

소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 쓰여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 메모리에 저장되고, 제어부에 의해 실행될 수 있다.

이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.

본 발명은 비디오 신호를 인코딩 또는 디코딩 하는데 적용될 수 있다.

Claims

현재 유닛이 다중-추측 화면간 예측을 수행하는지 여부를 판별하는 단계;

현재 유닛이 다중-추측 화면간 예측을 수행할 경우, 화면간 예측을 위한 다수의 참조 유닛들을 획득하는 단계;

상기 획득된 다수의 참조 유닛들을 조합하여 현재 유닛의 예측값을 획득하는 단계; 및

상기 현재 유닛의 예측값을 이용하여 현재 유닛의 픽셀값을 복원하는 단계;

를 포함하되, 상기 다중-추측 화면간 예측이란 다수의 참조 유닛들을 조합하여 현재 유닛의 예측값으로 사용하는 것임을 특징으로 하는 비디오 신호의 처리 방법.
제 1항에 있어서,

상기 화면간 예측을 위한 다수의 참조 유닛들을 획득하는 단계는,

현재 유닛의 L0 예측 방향에 대한 모션 벡터 예측값 및 모션 벡터값, 현재 유닛의 L1 예측 방향에 대한 모션 벡터 예측값 및 모션 벡터값에 의해 획득되는 참조 유닛들의 조합을 통해 획득하는 것을 특징으로 하는 비디오 신호의 처리 방법.
제 1항에 있어서,

상기 화면간 예측을 위한 다수의 참조 유닛들을 획득하는 단계는,

현재 유닛의 모션 벡터값 및 상기 모션 벡터의 스케일링 된 모션 벡터값에 의해 획득되는 참조 유닛들의 조합을 통해 획득하는 것을 특징으로 하는 비디오 신호의 처리 방법.
현재 유닛이 병합 모드를 사용하는지 여부를 나타내는 병합 플래그를 획득하는 단계;

상기 병합 플래그가 현재 유닛이 병합 모드임을 나타내고, 유효한 병합 후보 유닛의 개수가 1보다 큰 경우, 병합에 사용될 이웃 유닛들의 조합을 나타내는 인덱스 값을 획득하는 단계;

상기 인덱스 값에 기초하여 선택된 이웃 유닛들의 모션 정보를 이용하여 다중-추측 병합에 사용될 다수의 참조 유닛들을 획득하는 단계;

상기 획득된 다수의 참조 유닛들을 조합하여 현재 유닛의 예측값을 획득하는 단계; 및

상기 현재 유닛의 예측값을 이용하여 현재 유닛의 픽셀값을 복원하는 단계;

를 포함하되, 상기 다중-추측 병합이란 다수의 이웃 유닛들의 모션 정보를 이용하여 각각의 참조 유닛들을 획득하고, 상기 참조 유닛들을 조합하여 현재 유닛의 예측값으로 사용하는 것임을 특징으로 하는 비디오 신호의 처리 방법.
제 1항 또는 제 4항에 있어서,

상기 현재 유닛의 예측값을 획득하는 단계는,

상기 참조 유닛들의 이미지값을 평균하여 현재 유닛의 예측값으로 획득하는 것을 특징으로 하는 비디오 신호의 처리 방법.
제 1항 또는 제 4항에 있어서,

상기 현재 유닛의 예측값을 획득하는 단계는,

상기 참조 유닛들과 현재 프레임 간의 시간적 거리에 반비례하는 가중치를 각 참조 유닛의 이미지값에 부여하여 선형적으로 결합하여 현재 유닛의 예측값으로 획득하는 것을 특징으로 하는 비디오 신호의 처리 방법.