KR101138921B1

KR101138921B1 - 다중 시점 기반의 비디오 인코딩 장치 및 방법

Info

Publication number: KR101138921B1
Application number: KR1020100065455A
Authority: KR
Inventors: 정제창; 오형철; 이혁
Original assignee: 중앙대학교 산학협력단; 한양대학교 산학협력단
Priority date: 2010-07-07
Filing date: 2010-07-07
Publication date: 2012-05-14
Also published as: KR20120004781A

Abstract

상이성 추정(DE)는 멀티-시점 비디오 코딩에서 시점 간의 중복성을 감소시키기 위하여 사용된다. 종래의 완전 검색(FS)을 사용하는 블록 매칭 알고리즘은 매우 큰 연산량을 요구하기 때문에, 상이성 추정을 위한 고속 알고리즘이 필요하다. 본 발명에서는 상이성 추정을 위한 이진 블록 매칭 알고리즘의 실험 결과가 제공되며, 시각적 품질을 향상시키기 위하여 효율적인 시점 보간 기술이 제공된다.
제1 시점의 비디오 프레임과 시간적으로 대응되는 제2 시점의 비디오 프레임을 코딩하는 다중 시점 기반의 비디오 인코딩 장치는, 상기 제1 시점의 비디오 프레임의 시점이 상기 제2 시점의 비디오 프레임의 시점으로 전환되도록 상기 제1 시점의 비디오 프레임에 대하여 시점 변형을 수행하는 시점 변형부와, 상기 시점 변형이 수행된 제1 시점의 비디오 프레임을 참조 프레임으로 사용하여, 상기 제1 비디오 프레임에 대하여 상기 제2 시점의 비디오 프레임이 갖는 중복성을 제거하는 상이성 추정부와, 상기 중복성이 제거된 제2 시점의 비디오 프레임을 부호화하는 부호화부로 이루어진다.

Description

다중 시점 기반의 비디오 인코딩 장치 및 방법{Apparatus and method for encoding multi-view video}

본 발명은 비디오 압축 방법에 관한 것으로, 보다 상세하게는, 다중 시점 비디오 코딩에 사용되는 상이성 추정에 있어서 연산량을 감소시키는 기술에 관한 것이다.

인터넷을 포함한 정보통신 기술이 발달함에 따라 문자, 음성뿐만 아니라 화상통신이 증가하고 있다. 기존의 문자 위주의 통신 방식으로는 소비자의 다양한 욕구를 충족시키기에는 부족하며, 이에 따라 문자, 영상, 음악 등 다양한 형태의 정보를 수용할 수 있는 멀티미디어 서비스가 증가하고 있다. 멀티미디어 데이터는 그 양이 방대하여 대용량의 저장매체를 필요로 하며 전송시에 넓은 대역폭을 필요로 한다. 따라서 문자, 영상, 오디오를 포함한 멀티미디어 데이터를 전송하기 위해서는 압축코딩기법을 사용하는 것이 필수적이다.

데이터를 압축하는 기본적인 원리는 데이터의 중복(redundancy) 요소를 제거하는 과정이다. 이미지에서 동일한 색이나 객체가 반복되는 것과 같은 공간적 중복이나, 동영상 프레임에서 인접 프레임이 거의 변화가 없는 경우나 오디오에서 같은 음이 계속 반복되는 것과 같은 시간적 중복, 또는 인간의 시각 및 지각 능력이 높은 주파수에 둔감한 것을 고려한 심리시각 중복을 제거함으로써 데이터를 압축할 수 있다.

이러한 종래의 비디오 압축 기법에 한걸음 나아가서, 최근 들어서는 다양한 멀티미디어 서비스들이 이용되고 있고 실제적인 멀티미디어 시스템에 대한 요구도 급격히 증가하고 있다. 자유 시점 TV(FTV, free-viewpoint television) 및 3D TV(three dimension television)는 새로운 시대의 멀티미디어 기술들을 통합하고 있다. FTV는 컴퓨터 그래픽 분야에서 알려진 바와 같이, 시청자로 하여금 특정 동작 범위 내에서 시점 및 방향을 선택할 수 있게 해 주고, 3D TV는 사용자로 하여금 시청되는 장면에 대한 3차원적 깊이를 느낄 수 있게 해 준다.

다중 시점 비디오는 이러한 새로운 멀티미디어 기술들을 소비자들에게 제공하는 핵심 기술이라고 볼 수 있다. 다중 시점 비디오는 다중 카메라들에 의하여 포착된 다중 비디오 시퀀스들로 구성된다. 각각의 카메라의 위치가 "시점"(view or viewpoint)라고 정의될 수 있다. 이러한 다중 시점 비디오에서는 시퀀스들의 수가 많기 때문에, 데이터의 양 또한 매우 커진다. 또한, 단일 시점 비디오에서 시간적 중복성(temporal redundancies)과 같은 시점들 사이의 중복성도 추가로 존재하게 된다.

많은 양의 데이터를 효율적으로 전송하기 위해서, MPEG(moving picture experts group) 및 VCEG(video coding experts group)으로 구성되는 JVT(the joint video team)는 다중 시점 비디오 코딩(MVC, multi-view video coding)에 관하여 연구를 지속하고 있다. 상기 시점 간의 중복성을 감소시키는 것은 이러한 MVC에서의 핵심 이슈로 여겨지고 있다.

JVT에서 계층적 B 픽쳐(hierarchical B pictures) 기법을 사용하는 효율적인 시점 간의 참조 구조가 제안되었고, 현재 소프트웨어로서 JMVM(joint multi-view video model)이 개발되어 있다. 다음의 도 1은 JMVM의 참조 구조를 보여준다. JMVM은 도 1에 도시된 바와 같이, 시간에 따른 프레임의 변화뿐만 아니라, 시점에 따른 프레임의 변화도 고려하여 코딩을 수행한다. 즉, 기존의 시간에 따른 프레임 간의 중복성을 제거하기 위한 모션 추정(ME, motion estimation)에 더하여, 동일한 시간적 위치에 존재하는 시점 간의 중복성을 제거하기 위한 상이성 추정(DE, disparity estimation)이 아울러 사용된다. 그러나, JMVM에서는, 상이성 추정에 있어서, 모션 추정과 유사하게, 많은 연산량을 요하는 완전 검색(FS, full search) 알고리즘이 사용된다.

이와 같이 상이성 추정에 있어서 모션 추정과 마찬가지의 완전 검색(full search) 알고리즘이 주로 사용되는 이유는 하드웨어적 구현이 용이하기 때문이다(모션 추정에 있어서 사용되는 모듈을 그대로 재사용할 수 있으므로). 이러한 완전 검색 알고리즘은 주어진 검색 영역 내에서, 모든 후보 벡터들에 대한 매칭 에러가 최소 값이 되는 위치를 검색하는 것이지만, 알려진 바와 같이 완전 검색 알고리즘은 매우 큰 연산 부하를 유발한다는 문제가 있다.

본 발명은 상기한 필요성을 감안하여 창안된 것으로, 다중 시점 비디오 코딩에서 상이한 시점 간에 중복성을 제거하기 위한 상이성 추정에 있어서, 적절한 품질을 유지하면서도 연산량을 감소시킬 수 있는 기술을 제공하는 것을 목적으로 한다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른, 제1 시점의 비디오 프레임과 시간적으로 대응되는 제2 시점의 비디오 프레임을 코딩하는 다중 시점 기반의 비디오 인코딩 장치에 있어서, 상기 제1 시점의 비디오 프레임의 시점이 상기 제2 시점의 비디오 프레임의 시점으로 전환되도록 상기 제1 시점의 비디오 프레임에 대하여 시점 변형을 수행하는 시점 변형부; 상기 시점 변형이 수행된 제1 시점의 비디오 프레임을 참조 프레임으로 사용하여, 상기 제1 비디오 프레임에 대하여 상기 제2 시점의 비디오 프레임이 갖는 중복성을 제거하는 상이성 추정부; 및 상기 중복성이 제거된 제2 시점의 비디오 프레임을 부호화하는 부호화부를 포함한다.

상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른, 제1 시점의 비디오 프레임을 부호화하는 제1 비디오 인코더와, 상기 제1 비디오 프레임과 시간적으로 대응되는 제2 시점의 비디오 프레임을 부호화하는 제2 비디오 인코더를 포함하는 다중 시점 기반의 비디오 인코딩 장치에 있어서, 상기 제2 비디오 인코더는 상기 제1 시점의 비디오 프레임의 시점이 상기 제2 시점의 비디오 프레임의 시점으로 전환되도록 상기 제1 시점의 비디오 프레임에 대하여 시점 변형을 수행하는 시점 변형부; 상기 시점 변형이 수행된 제1 시점의 비디오 프레임을 참조 프레임으로 사용하여, 상기 제1 비디오 프레임에 대하여 상기 제2 시점의 비디오 프레임이 갖는 중복성을 제거하는 상이성 추정부; 및 상기 중복성이 제거된 제2 시점의 비디오 프레임을 부호화하는 부호화부를 포함한다.

상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른, 제1 시점의 비디오 프레임과 시간적으로 대응되는 제2 시점의 비디오 프레임을 코딩하는 다중 시점 기반의 비디오 인코딩 방법에 있어서, 상기 제1 시점의 비디오 프레임의 시점이 상기 제2 시점의 비디오 프레임의 시점으로 전환되도록 상기 제1 시점의 비디오 프레임에 대하여 시점 변형을 수행하는 단계; 상기 시점 변형이 수행된 제1 시점의 비디오 프레임을 참조 프레임으로 사용하여, 상기 제1 비디오 프레임에 대하여 상기 제2 시점의 비디오 프레임이 갖는 중복성을 제거하는 단계; 및 상기 중복성이 제거된 제2 시점의 비디오 프레임을 부호화하는 단계를 포함한다.

본 발명에 따르면, 다중 시점 비디오 코딩/디코딩에 있어서 연산량을 감소시킴으로써, 실시간 방송이 필요한 3D TV나 FTV에서 시간 지연을 감소시키는 효과가 있다.

도 1은 다중 시점 비디오 코딩(MVC)에 있어서의 다른 시점의 시퀀스 간의 참조 구조를 보여주는 도면이다.
도 2는 시점 변형(view warping)의 원리를 보여주는 도면이다.
도 3은 본 발명의 일 실시예에 따른 비디오 인코딩 장치의 구성을 개략적으로 도시하는 블록도이다.
도 4는 도 3의 비디오 인코딩 장치의 구성을 보다 상세하게 도시한 블록도이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 발명에서는 전술한 완전 검색 알고리즘의 계산상의 복잡성을 감소시키기 위하여 이진 블록 매칭이 사용된다. 그것은 8비트 프레임을 1비트 평면으로 변환하고 종래의 SAD(sum of absolute difference)를 이용한 에러 매칭 기술 대신에, 후술할 NNMP(number of non-matching points)를 사용한다. 비트 평면 매칭의 장점은 병렬 처리가 가능하다는 점이다. 물론, 사용자는 8비트 픽셀들을 1비트 픽셀들로 변환함에 따라 손실되는 정보로 인하여, 다소간의 영상 품질의 저하를 감수할 수 밖에 없다. 이진 블록 매칭 알고리즘이 직접 상이성 추정에 사용될 때 발생되는 이러한 문제를 극복하기 위한 효율적인 방법이 제공된다.

상이성 추정에 있어서, 기존의 완전 검색(FS) 알고리즘은 최적의 매칭 블록을 찾기 위하여 검색 영역 내에서 모든 후보들을 검색한다. 일반적으로, SAD가 매칭 에러의 판단을 위하여 사용되는데, 두 개의 블록들의 SAD는 다음의 수학식 1과 같이 주어진다.

여기서, f는 영상의 세기를 나타내고, i 및 j는 영상의 위치를 나타내며, (m, n)은 상기 후보 변위(벡터)를 대표한다. 또한, s는 상기 검색 영역을 나타내며, t 및 t-1은 각각 현재 시점(제2 카메라 번호)과 이전의 시점(제1 카메라 번호)을 각각 나타낸다. 결국, FS 알고리즘은 최소의 SAD를 갖는 위치 (m, n)를 상이성 벡터(DV, disparity vector)로 결정한다. 그러나, 그것은 많은 검색 위치들과 반복적인 계산 과정으로 인하여 상당한 계산 복잡성을 갖는다. 모션 벡터(MV, motion vector)가 시간적으로 다른 위치의 프레임 간의 블록 매칭시의 변위를 의미하는 것이라면, 상기 상이성 벡터란 시점 간의 블록 매칭시의 변위를 의미한 것이다.

1비트 변환 기반의 상이성 추정

1비트 변환(1BT)은 영상 프레임을 필터링하기 위하여 다음의 수학식 2와 같은 형태의 다중 대역 통과 필터를 사용한다. 여기서, i 및 j는 영상의 위치를 나타낸다.

대역 통과 필터는 영상 프레임의 에지 정보를 보존하기 위하여 사용된다. 고주파 통과 필터는 상기 에지를 추출할 수는 있지만, 원래 프레임 내에서 고주파수 잡음 또한 유발한다. 상기 참조 프레임 및 현재 프레임 간의 에러가 계산되기 전에, 이 두 프레임들은 수학식 2와 같은 필터에 의하여 변환된다. 그 후, 1비트 영상 프레임은 다음의 수학식 3과 같이 구해진다. 예를 들어, 8비트(256개의 휘도 스텝)로 표현된 원래의 입력 영상은 이러한 1비트 변환에 의하여 1비트(2개의 휘도 스텝)로 변환된다. 따라서, 훨씬 단순화된 영상을 기준으로 상이성 추정을 수행할 수 있는 것이다.

여기서, F는 프레임을 의미하고, F_f는 상기 컨볼루션 커널(K)을 적용함에 의하여 얻어지는 필터링된 버전의 F를 의미한다. 1BT란 이와 같이 프레임을 이진 표현으로 변환하는 전체 과정으로서, 이 과정에 의하여 화소 값이 문턱값 F_f보다 크면 1로 그렇지 않으면 0으로 설정되므로 프레임 내의 한 화소는 1비트로서 표현된다. 이러한 변환 이후에, 두 개의 1비트 영상 프레임들에 대한 매칭 에러(NNMP라고 불림)는 다음의 수학식 4와 같이 주어진다.

여기서, "

"는 부울 대수에 따른 XOR 연산을 의미하고, s는 검색 영역을 의미하며, N은 상기 블록 크기를 나타낸다. 또한, t나 t-1은 각각, 동일한 시간적 위치에서 각각 현재 시점(제2 카메라의 번호)과 이전의 시점(제1 카메라의 번호)을 각각 나타낸다. SAD는 픽셀 단위로 매칭 에러를 계산함에 비하여, 이진 블록 상이성 추정은 최소의 NNMP를 갖는 위치 (m, n)를 상이성 벡터(DV, Disparity Vector)로 설정한다. 그런데, NNMP가 사용될 경우, 한 번에 많은 픽셀들로부터 매칭 에러를 얻을 수 있게 된다. NNMP를 사용하면, 8비트 메모리(1바이트)가 사용된다고 할 때, 한번에 8개의 매칭 에러가 계산된다. 만약, 32비트 메모리를 사용하면, 한번에 32개의 매칭 에러가 계산된다.

2비트 변환 기반의 상이성 추정

2BT 이진 블록 상이성 추정은 프레임을 8x8 블록들로 분할하고, 평균(μ) 및 근사(approximate) 표준 편차(σ_a)를 계산한다. 상기 근사 표준 편차는 다음의 수학식 (5)와 같이 계산될 수 있다.

상기 σ²는 주변 문턱값 윈도우 내의 분산을 의미한다. 상기 주변 문턱값 윈도우의 크기는 일반적으로 40x40이다. 상기 2BT 변환은 하나의 프레임을 2비트 픽셀 표현으로 변환한다. 상기 2BT는 다음의 수학식 6과 같이 표현될 수 있다.

여기서, I는 영상의 세기이고, (i, j)는 영상의 위치를 나타내며, B₁(i,j)는 제1 비트를 의미하며, 화소 값(I(i,j))이 평균(μ)을 넘는 경우에는 1을, 그렇지 않은 경우에 0을 갖는다. 또한, B₂(i,j)는 제2 비트를 의미하며, 화소 값(I(i,j))이 일정한 구간(예: μ-σ_a에서 μ+σ_a 사이의 구간) 바깥에 있는 경우에는 1을, 그렇지 않은 경우에는 0을 갖는다. 이와 같이, 프레임 내의 한 화소는 제1 및 제2 비트의 조합에 의하여 2비트로 표시될 수 있다. 예를 들어, 8비트(256개의 휘도 스텝)로 표현된 원래의 입력 영상은 이러한 2비트 변환에 의하여 2비트(4개의 휘도 스텝)로 변환된다. 따라서, 훨씬 단순화된 영상을 기준으로 상이성 추정을 수행할 수 있는 것이다.

또한, 특정 매크로블록에 대한 상이성 벡터는 SAD가 아니라 다음의 수학식 7과 같은 2비트에 관한 NNMP에 기초하여 결정된다.

여기서, B₁ ^t(i,j) 및 B₁ ^t- ¹(i,j)는 각각, 동일한 시간적 위치에서 현재 시점(제1 카메라의 번호) 및 이전 시점(제2 카메라의 번호)에 대한 2BT 결과를 의미하고, "||"는 부울 대수의 OR 연산을 의미한다. 2BT 이진 블록 상이성 추정은 1BT 이진 블록 모션 추정보다 높은 품질과 낮은 연산 복잡성을 나타낸다.

이진 블록 상이성 추정의 효과

이진 블록 모션 추정의 효과를 평가하기 위하여, 1BT 및 2BT가 두 개의 다중 시점 비디오 시퀀스들에 적용되었다. 상기 다중 시점 비디오 시퀀스들은 1024x768의 해상도를 갖는 Breakdancers 및 Ballet이다.

시퀀스	시점 번호	알고리즘	PSNR
Breakdancers	1과 2 사이	FS	33.2419
	4와 5 사이	FS	34.5259
	1과 2 사이	1BT	23.9854
	4와 5 사이	1BT	24.1359
	1과 2 사이	2BT	28.768
	4와 5 사이	2BT	29.9194
Ballet	1과 2 사이	FS	31.3025
	4와 5 사이	FS	32.3953
	1과 2 사이	1BT	24.952
	4와 5 사이	1BT	25.7047
	1과 2 사이	2BT	27.5585
	4와 5 사이	2BT	28.3633

표 1은 편향되지 않은 참조 프레임(즉, 다중 시점 프레임으로부터 변경없이 그대로 이용되는 참조 프레임)을 이용한 이진 블록 상이성 추정 결과에 대한 PSNR(peak signal-to-noise ratio)을 보여준다. 상기 이진 블록 매칭 알고리즘은, 모션 추정에 사용되는 것보다 상이성 추정에 사용되는 경우 더 좋지 않은 결과를 나타낸다. 이러한 현상은 주로 두 가지 문제점으로부터 기인한다.

첫째는 이진 블록 모션 추정이 갖는 한계이다. 이진 블록의 상이성 추정이 갖는 동적 범위(dynamic range)가 작기 때문에, 이진 블록 기반의 상이성 추정은 근본적인 한계를 갖는다. 예를 들어, 하나의 매크로블록이 갖는 1BT의 동적 범위는 0 내지 256인 반면에, SAD의 동적 범위는 0 내지 255*256이다.

둘째는 두 개의 시점 간의 차이점에 기인한다. 상이성 벡터의 값은 배경 영역에 대해서는 대략 30 내지 50 픽셀 정도이지만, 전방 사물에 대해서는 100 픽셀을 상회한다.

상이성 추정은 제한된 검색 영역을 갖는 편향(bias)되지 않은 위치에서 수행되기 때문에, 상기 상이성 벡터는 상이한 위치에서 발견될 수 있다는 문제가 있다. 이러한 문제는 시점 변형(view warping)을 사용하여 초기 검색 위치를 편향함에 의하여 감소될 수 있다.

이러한 시점 변형은 가상 현실이나 3차원 애니메이션 분야 등에서는 통상적으로 이용되고 있는 렌더링 기술이다. 예를 들어, 3차원 공간 상에서 정의된 객체의 임의의 위치에서의 모든 좌표 정보가 정의되어 있다고 하면, 이러한 객체를 임의의 각도에서 바라보는 경우 영상이 어떻게 표시되는가는 간단한 시점 변형에 의하여 구해질 수 있는 것이다.

본 발명은 이러한 시점 변형을 다중 시점 비디오 코딩에 응용한다. 즉, 카메라들에 의하여 촬영되는 객체의 깊이 맵을 알 수 있다면 상기 객체를 한 시점에서 다른 시점으로 변환할 때의 정확한 영상을 합성할 수가 있다. 도 2는 이와 같은 시점 변형의 원리를 보여주는 도면이다.

복수의 카메라들(또는 사용자의 두 눈)(27, 28)로부터 객체의 여러 지점(21, 24)까지의 거리는 상이하다. 이러한 여러 지점들은 시점의 차이와 무관하게 거의 변화가 없는 영상, 즉 배경 영상(20) 위의 서로 다른 위치에 존재하게 된다. 예를 들어, 지점(21)은 좌측 카메라(27)에서 바라보면 위치(23)에 위치하고, 우측 카메라(28)에서 바라보면 위치(22)에 위치한다. 마찬가지로, 지점(24)는 좌측 카메라(27)에서 바라보면 위치(26)에 위치하고, 우측 카메라(28)에서 바라보면 위치(25)에 위치한다.

만약, 우측 카메라(28)의 시점에서 얻어진 영상으로부터 좌측 카메라(27)의 시점에서 얻어진 영상으로 시점 변형을 한다고 하면, 카메라들(27, 28)로부터의 거리가 각각 d₁ 및 d₂로 상이한 지점(21) 및 지점(24)은 시점 변형에 의하여 이동되어야 하는 변위는 각각 l₁ 및 l₂가 된다. 즉, 카메라들(27, 28)로부터의 거리가 가까울수록 이러한 변위는 더욱 커지는 것이다. 보다 구체적으로는, l₁은 d₁의 함수로 표현되고, 및 l₂는 d₂의 함수로 표현될 수 있다. 이와 같은 방식을, 거리(깊이)를 알고 있는 객체의 모든 지점에 대하여 적용하면 정확한 시점 변형이 이루어지는 것이다. 이와 같은 모든 지점에 대한 깊이 정보를 강도(intensity)로 표현한 것을 깊이 맵(depth map) 내지 깊이 맵 영상(depth map image)이라고 한다.

이러한 깊이 맵은 카메라들(27, 28)에 부가적으로 구비된 거리 감지 센서(초음파, 레이저 센서 등)를 이용하여 얻는 것이 바람직하지만, 미리 정의된 객체의 좌우 영상의 차이를 비교함으로써 구해질 수도 있다. 즉, 테스트 객체의 각각의 지점들이 갖는 시점들 사이의 변위를 구하고 이로부터 상기 지점들이 갖는 깊이와 상기 변위의 관계를 역으로 계산하는 방식(이를 일반적으로 시점 보간이라고 함)으로 깊이 맵을 구할 수도 있다. 후자의 방식은 시점 변형의 정밀도 면에서는 다소 불리할 수 있지만, 시점 변형이 약간 부정확하더라도 어차피 상이성 추정에 의하여 대응되는 부분을 찾기 때문에 크게 문제가 되지 않을 수 있다. 어떤 방식이든 간에 시점 변형에 소요되는 연산량은 상대적으로 크지 않다.

한편 시점 변형에 추가해, 보다 더 높은 정확도를 위하여, 본 발명에서는 상이성 벡터를 얻기 위한 블록 매칭에 있어서 1/4 픽셀(quarter-pel) 정밀도 연산이 사용되는 것이 바람직하다. 본 발명에 따르면, 어차피 완전 검색에 비하여 연산량이 상당히 감소되기 때문에 1/4 픽셀 정밀도를 사용함에 따른 연산 복잡성의 증가를 충분히 보충할 수 있게 되기 때문이다.

도 3은 본 발명의 일 실시예에 따른 비디오 인코딩 장치(300)의 구성을 개략적으로 도시하는 블록도이다. 비디오 인코딩 장치(300)는 제1 시점의 비디오 프레임(S₁)과 시간적으로 대응되는 제2 시점의 비디오 프레임(S₂)을 코딩하는 다중 시점 기반의 비디오 인코딩 장치로서, 시점 변형부(310), 상이성 추정부(320) 및 부호화부(350)를 포함하여 구성될 수 있다.

시점 변형부(310)는 상기 제1 시점의 비디오 프레임의 시점이 상기 제2 시점의 비디오 프레임의 시점으로 전환되도록 상기 제1 시점의 비디오 프레임에 대하여 시점 변형을 수행한다. 시점 변형부(310)는 전술한 바와 같이, 상기 제1 시점의 비디오 프레임이 갖는 깊이 맵을 이용하여 상기 시점 변형을 수행한다. 이러한 시점 변형에 사용되는 깊이 맵은 거리 감지 센서 또는 시점 보간 등 다양한 방법에 의하여 얻어질 수 있다.

상이성 추정부(320)는 상기 시점 변형이 수행된 제1 시점의 비디오 프레임을 참조 프레임으로 사용하여, 상기 제1 비디오 프레임에 대하여 상기 제2 시점의 비디오 프레임이 갖는 중복성을 제거한다. 구체적으로 상이성 추정부(320)는 다음의 두가지 과정을 통하여 이와 같은 중복성 제거를 수행할 수 있다.

첫째, 상이성 추정부(320)는 이진 블록 매칭을 이용하여 상기 제2 시점의 비디오 프레임이 상기 참조 프레임에 대하여 갖는 변위를 나타내는 상이성 벡터를 계산할 수 있다. 본 발명의 바람직한 실시예에 있어서는, 상기 이진 블록 매칭은 1비트 변환 기반의 이진 블록 매칭(1BT) 또는 2비트 변환 기반의 이진 블록 매칭(2BT)이다. 이와 같이, 이진 블록 매칭을 사용하는 경우에 상이성 벡터를 구함에 있어서는 종래의 SAD를 이용하기 보다는, 상기한 바와 같은, 매칭되지 않는 포인트들의 수(NNMP)를 이용하는 것이 보다 바람직하다.

둘째, 상이성 추정부(320)는 상기 상이성 벡터에 의하여 참조 프레임을 보상한 후, 상기 제2 시점의 비디오 프레임을 상기 보상된 참조된 참조 프레임으로부터 차분한다. 상기 참조 프레임의 보상이란 종래의 모션 추정에 따른 모션 보상과 유사한 과정으로서, 상이성 벡터에 의하여 대응되는 블록에 의하여 참조 프레임을 재구성하는 것을 의미한다. 상기 상이성 벡터 계산 및 상기 참조 프레임의 보상에 있어서는 1/4 픽셀(quarter-pel) 정밀도 연산이 이용될 수 있다.

부호화부(350)는 상기 중복성이 제거된 제2 시점의 비디오 프레임을 부호화하여 비디오 스트림을 생성한다. 이러한 부호화부(350)는 통상적으로 알려져 있는 공간적 변환 과정, 양자화 과정 및 엔트로피 부호화 과정을 통하여 상기 중복성이 제거된 제2 시점의 비디오 프레임을 부호화할 수 있다.

도 4는 도 3의 비디오 인코딩 장치(300)의 구성을 보다 상세하게 도시한 블록도이다.

도 4에서, 비디오 인코딩 장치(300)는 제1 시점의 비디오 프레임(S₁)을 부호화하는 제1 비디오 인코더(100)와, 상기 제1 시점의 비디오 프레임(S₁)과 시간적으로 대응되는 제2 시점의 비디오 프레임(S₂)을 부호화하는 제2 비디오 인코더(200)를 포함하는 다중 시점 기반의 비디오 인코딩 장치이다. 비디오 인코딩 장치(300)는 제1 시점의 비디오 프레임과 상기 부호화된 제2 시점의 비디오 프레임을 다중화하여 비디오 스트림을 생성하는 다중화부(340)를 더 포함할 수 있다.

제1 비디오 인코더(100)는 다른 시점의 비디오 프레임을 참조하지 않고, 모션 추정 기반의 통상의 비디오 인코딩 방식으로 상기 제1 시점의 비디오 프레임(S₁)을 부호화할 수 있다. 따라서, 제1 비디오 인코더(100)는 제1 시퀀스 입력부(110), 모션 추정부(120), 공간적 변환부(130), 양자화부(140) 및 엔트로피 부호화부(150)를 포함하여 구성될 수 있다. 예를 들어, 모션 추정부(120)는 모션 벡터(MV₁)에 의하여 참조 프레임(F_1r)을 보상하고, 상기 현재 프레임을 상기 보상된 프레임으로부터 차분함에 의하여 잔차 블록(R_m1)을 생성한 후, 공간적 변환, 양자화 및 엔트로피 부호화 과정을 거친다. 엔트로피 부호화부(150)는 양자화된 결과 및 상기 모션 벡터(MV₁)에 대한 무손실 부호화(가변장 부호화, 산술 부호화, 허프만 부호화 등)를 수행하여 다중화부(340)에 제공한다.

한편, 제2 비디오 인코더(200)는 제1 비디오 인코더(100)와 마찬가지로, 제2 시퀀스 입력부(210), 모션 추정부(220), 공간적 변환부(230), 양자화부(240) 및 엔트로피 부호화부(250)를 포함할 수 있다. 다만, 제2 비디오 인코더(200)는 제1 시점의 비디오 프레임(S₁)을 참조하여 제2 비디오 프레임(S₂)을 부호화할 수 있기 때문에, 시점 변형부(310) 및 상이성 추정부(320)를 더 포함하며, 상이성 추정부(320)에서 얻어진 잔차(residual)(R_d)와 모션 추정부(220)에서 얻어진 잔차(R_m2) 중에서 블록(매크로블록 또는 서브 매크로블록을 포괄하는 개념임) 단위로 유리한 쪽을 선택하는 선택부(330)를 더 포함할 수 있다.

전술한 도 3에서의 설명에서와 같이, 시점 변형부(310)는 상기 제1 시점의 비디오 프레임의 시점이 상기 제2 시점의 비디오 프레임의 시점으로 전환되도록 상기 제1 시점의 비디오 프레임에 대하여 시점 변형을 수행한다. 이를 위하여 시점 변형부(310)는 제1 비디오 인코더(100)로부터 제공되는 제1 시점의 비디오 프레임(S₁) 중 현재 프레임(F_o1)을 수신하고, 여기에 시점 변형을 수행하여 전환된 프레임(F_o1')을 상이성 추정부(320)에 제공한다.

한편, 전술한 도 3에서의 설명에서와 같이, 상이성 추정부(320)는 상기 시점 변형이 수행된 제1 시점의 비디오 프레임(S₁, 자세히는 F_o1)을 참조 프레임으로 사용하여, 상기 제1 비디오 프레임에 대하여 상기 제2 시점의 비디오 프레임(S₂, 자세히는 F_o2)이 갖는 중복성을 제거한다. 이 때, 상이성 추정부(320)는 상이성 벡터(DV₂)를 생성하여 엔트로피 부호화부(250)에 제공하고 잔차 블록(R_d)를 생성하여 선택부(330)에 제공한다.

선택부(330)는 블록 단위로, 상이성 추정부(320)로부터 제공된 잔차 블록(R_d)과 모션 추정부(220)로부터 제공된 잔차 블록(R_m2) 중에서 비용(cost)이 낮은 영역을 선택한다. 이러한 비용은 단순히 잔차 블록의 에너지가 작은 쪽을 선택하는 방법도 있으나, 보다 정확하게는 R-D(rate-distortion) 최적화 기법을 이용하는 것이 바람직할 것이다.

그 후, 공간적 변환부(230)는 상기 선택된 블록에 대하여 공간적 변환을 수행하고, 양자화부(240)는 상기 공간적 변환이 수행된 결과에 대하여 양자화를 수행하며, 엔트로피 부호화부(250)는 상기 양자화의 결과와, 상기 상이성 추정부(320)에서 얻어지는 상이성 벡터(DV₂) 및/또는 상기 모션 추정부(220)로부터 얻어지는 모션 벡터(MV₂)에 대하여 엔트로피 부호화를 수행한다.

이상의 실시예들에서는 두 개의 시점을 갖는 영상을 처리하는 것으로 하여 설명하였으나, 3개 이상의 시점을 갖는 영상의 인코딩을 위해서도 본 발명이 적용될 수 있음은 당업자라면 충분히 이해할 수 있을 것이다. 예를 들어, 전술한 제2 시점의 시퀀스와 제1 시점의 시퀀스와의 관계는, 제3 시점의 시퀀스와 제2 시점의 시퀀스의 관계에도 마찬가지로 적용될 수 있는 것이다.

지금까지 도 3 및 4의 각 구성요소는 소프트웨어(software) 또는, FPGA(field-programmable gate array)나 ASIC(application-specific integrated circuit)과 같은 하드웨어(hardware)를 의미할 수 있다. 그렇지만 상기 구성요소들은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 어드레싱(addressing)할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 상기 구성요소들 안에서 제공되는 기능은 더 세분화된 구성요소에 의하여 구현될 수 있으며, 복수의 구성요소들을 합하여 특정한 기능을 수행하는 하나의 구성요소로 구현할 수도 있다.

종래의 기술과 본 발명의 효과를 비교하고자 실험을 수행하였으며, 검색 영역은 32로 설정하였다. 본 발명에서는 참조 픽쳐로서 변형된 시점을 사용하고, 에러 계산을 위하여 이진 블록 매칭을 사용하였다. 표 2는 이러한 실험 결과를 보여준다.

시퀀스	시점 번호	알고리즘	PSNR
Breakdancers	1과 2 사이	본 발명에 따른 1BT	25.7838
	4와 5 사이	본 발명에 따른 1BT	26.2399
	1과 2 사이	본 발명에 따른 2BT	30.4183
	4와 5 사이	본 발명에 따른 2BT	31.4893
Ballet	1과 2 사이	본 발명에 따른 1BT	26.3166
	4와 5 사이	본 발명에 따른 1BT	26.6178
	1과 2 사이	본 발명에 따른 2BT	27.6256
	4와 5 사이	본 발명에 따른 2BT	29.2032

전술한 표 1과 비교할 때, 표 2는 이진 블록 매칭에 시점 변형(view warping)을 부가함에 의하여 보다 향상된 결과를 보여준다. 때때로, 본 발명에 따른 결과는 종래의 완전 검색(FS) 기법보다 더 나은 품질을 보여주기도 한다. 그것은 상기 시점 변형이 상기 품질 저하를 효과적으로 보상하였음을 의미한다. 물론, 상기 시점 변형 연산의 추가로 인하여 연산량이 어느 정도 증가되지만, 본 발명에서는 상이성 추정에 있어서 기존의 FS 대신 연산량 부담이 적은 이진 블록 매칭을 사용하므로, 전체적인 연산량은 종래의 FS 기법에 비하여 오히려 감소될 수 있다.

따라서, 다중 시점 비디오 코딩(MVC, multi-view video coding)은 이진 블록 매칭 및 시점 변형에 기초한 병렬 처리를 사용하여 실시간 시스템에서 구현될 수 있게 된다. 단일 명령 다중 데이터(SIMD, single instruction multiple data)와 같은 새로운 병렬 처리 기술이 사용될 수 있기 때문에, 상기 계산량은 더욱 감소될 수 있는 것이다.

이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야 한다.

100: 제1 비디오 인코더 110: 제1 시퀀스 입력부
120, 220: 모션 추정부 130, 230: 공간적 변환부
140, 240: 양자화부 150, 250: 엔트로피 부호화부
200: 제2 비디오 인코더 210: 제2 시퀀스 입력부
310: 시점 변형부 320: 상이성 추정부
330: 선택부 340: 다중화부

Claims

제1 시점의 비디오 프레임과 시간적으로 대응되는 제2 시점의 비디오 프레임을 코딩하는 다중 시점 기반의 비디오 인코딩 장치에 있어서,
상기 제1 시점의 비디오 프레임의 시점이 상기 제2 시점의 비디오 프레임의 시점으로 전환되도록 상기 제1 시점의 비디오 프레임에 대하여 시점 변형을 수행하는 시점 변형부;
상기 시점 변형이 수행된 제1 시점의 비디오 프레임을 참조 프레임으로 사용하여, , 이진 블록 매칭을 기초로 상기 제2 시점의 비디오 프레임이 상기 참조 프레임에 대하여 갖는 변위를 나타내는 상이성 벡터를 계산하고, 상기 제2 시점의 비디오 프레임을 상기 상이성 벡터에 의하여 보상된 참조 프레임으로부터 차분함에 의해, 상기 제1 비디오 프레임에 대하여 상기 제2 시점의 비디오 프레임이 갖는 중복성을 제거하는 상이성 추정부; 및
블록 단위로, 상기 상이성 벡터에 의해 중복성이 제거된 제2 비디오 프레임과, 모션 벡터에 의하여 중복성이 제거된 제2 비디오 프레임 중에서 비용이 낮은 영역을 선택하여, 비디오 프레임을 부호화하는 부호화부를 포함하며,
상기 상이성 추정부는 상기 상이성 벡터를 계산하는 기준으로 매칭되지 않는 포인트들의 수(NNMP)를 사용하는 비디오 인코딩 장치.
제1항에 있어서, 상기 시점 변형부는
상기 제1 시점의 비디오 프레임이 갖는 깊이 맵을 이용하여 상기 시점 변형을 수행하는 비디오 인코딩 장치.
삭제
제1항에 있어서, 상기 이진 블록 매칭은
1비트 변환 기반의 이진 블록 매칭인 비디오 인코딩 장치.
제1항에 있어서, 상기 이진 블록 매칭은
2비트 변환 기반의 이진 블록 매칭인 비디오 인코딩 장치.
삭제
제1항에 있어서, 상기 부호화부는
공간적 변환 과정, 양자화 과정 및 엔트로피 부호화 과정을 통하여 상기 중복성이 제거된 제2 비디오 프레임을 부호화하는 비디오 인코딩 장치.
제1 시점의 비디오 프레임을 부호화하는 제1 비디오 인코더와, 상기 제1 비디오 프레임과 시간적으로 대응되는 제2 시점의 비디오 프레임을 부호화하는 제2 비디오 인코더를 포함하는 다중 시점 기반의 비디오 인코딩 장치에 있어서, 상기 제2 비디오 인코더는
상기 제1 시점의 비디오 프레임의 시점이 상기 제2 시점의 비디오 프레임의 시점으로 전환되도록 상기 제1 시점의 비디오 프레임에 대하여 시점 변형을 수행하는 시점 변형부;
상기 시점 변형이 수행된 제1 시점의 비디오 프레임을 참조 프레임으로 사용하여, 이진 블록 매칭을 기초로 상기 제2 시점의 비디오 프레임이 상기 참조 프레임에 대하여 갖는 변위를 나타내는 상이성 벡터를 계산하고, 상기 제2 시점의 비디오 프레임을 상기 상이성 벡터에 의하여 보상된 참조 프레임으로부터 차분함에 의해, 상기 제1 비디오 프레임에 대하여 상기 제2 시점의 비디오 프레임이 갖는 중복성을 제거하는 상이성 추정부; 및
상기 중복성이 제거된 제2 시점의 비디오 프레임을 부호화하는 부호화부를 포함하며,
상기 상이성 추정부는 상기 상이성 벡터를 계산하는 기준으로 매칭되지 않는 포인트들의 수(NNMP)를 사용하고,
상기 부호화부는 제2 비디오 프레임의 시간적 중복성을 제거하는 모션 추정부; 및 블록 단위로, 상기 상이성 추정부에서 중복성이 제거된 제2 비디오 프레임과 상기 모션 추정부에 의하여 중복성이 제거된 제2 비디오 프레임 중에서 비용이 낮은 영역을 선택하는 선택부를 포함하는 비디오 인코딩 장치.
제8항에 있어서,
상기 부호화된 제1 시점의 비디오 프레임과 상기 부호화된 제2 시점의 비디오 프레임을 다중화하여 비디오 스트림을 생성하는 다중화부를 더 포함하는 비디오 인코딩 장치.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
제1 시점의 비디오 프레임과 시간적으로 대응되는 제2 시점의 비디오 프레임을 코딩하는 다중 시점 기반의 비디오 인코딩 방법에 있어서,
상기 제1 시점의 비디오 프레임의 시점이 상기 제2 시점의 비디오 프레임의 시점으로 전환되도록 상기 제1 시점의 비디오 프레임에 대하여 시점 변형을 수행하는 단계;
상기 시점 변형이 수행된 제1 시점의 비디오 프레임을 참조 프레임으로 사용하여, 이진 블록 매칭을 기초로 상기 제2 시점의 비디오 프레임이 상기 참조 프레임에 대하여 갖는 변위를 나타내는 상이성 벡터를 계산하고, 상기 제2 시점의 비디오 프레임을 상기 상이성 벡터에 의하여 보상된 참조 프레임으로부터 차분함에 의해, 상기 제1 비디오 프레임에 대하여 상기 제2 시점의 비디오 프레임이 갖는 중복성을 제거하는 단계, 여기에서 상기 상이성 벡터를 계산하는 기준으로 매칭되지 않는 포인트들의 수(NNMP)를 사용하며; 및
블록 단위로, 상기 상이성 벡터에 의해 제거된 제2 시점의 비디오 프레임과, 모션 벡터에 의해 중복성이 제거된 제2 비디오 프레임 중에서 비용이 낮은 영역을 선택하여, 비디오 프레임을 부호화하는 단계를 포함하는 비디오 인코딩 방법.