KR20200052763A

KR20200052763A - 영상의 삼차원 구체 움직임 정보 기반 부호화/복호화 방법 및 그 장치

Info

Publication number: KR20200052763A
Application number: KR1020180136164A
Authority: KR
Inventors: 박도현; 윤용욱; 김현호; 도지훈; 김재곤; 임화섭
Original assignee: 가온미디어 주식회사; 한국항공대학교산학협력단
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2020-05-15

Abstract

본 발명의 실시 예에 따른 영상 부호화 장치의 부호화 방법은, 처리할 가상 현실 영상의 영상 정보를 획득하는 단계; 상기 영상 정보를 전처리하는 단계; 상기 전처리된 영상 정보에 대응하는 화면 간 예측 부호화를 수행하는 단계를 포함하고, 상기 예측 부호화는 삼차원 구체 움직임 벡터를 이용한 AMVP 모드 부호화를 포함한다.

Description

영상의 삼차원 구체 움직임 정보 기반 부호화/복호화 방법 및 그 장치{A METHOD FOR ENCODING/DECODING A VIDEO BASED ON MOVING INFORMATION OF 3-DIMENSIONAL SPHERE}

본 발명은 영상의 부호화/복호화 방법 및 장치에 관한 것이다.

최근 디지털 영상 처리와 컴퓨터 그래픽 기술이 발전함에 따라, 현실 세계를 재현하고 이를 실감나게 경험하도록 하는 가상현실(VIRTUAL REALITY, VR) 기술에 관한 연구가 활발히 진행되고 있다.

특히, HMD(Head Mounted Display)와 같은 최근의 VR 시스템은, 사용자의 양안에 3차원 입체 영상을 제공할 수 있을 뿐만 아니라, 그 시점을 전방위로 트래킹할 수 있기에, 360도 회전 시청 가능한 실감나는 가상현실(VR) 영상 컨텐츠를 제공할 수 있다는 점에서 많은 관심을 받고 있다.

그러나, 360 VR 컨텐츠는 시간 및 양안 영상이 공간적으로 복합 동기화된 동시 전방위의 다시점 영상 정보로 구성되기 때문에, 영상의 제작 및 전송에 있어서, 모든 시점의 양안 공간에 대해 동기화된 2개의 대형 영상을 부호화하여 압축 및 전달하게 된다. 이는 복잡도 및 대역폭 부담을 가중시키며, 특히 복호화 장치에서는 사용자 시점을 벗어나 실제로 시청되지 않는 영역에 대하여도 복호화가 이루어짐으로써 불필요한 프로세스가 낭비되는 문제점이 있다.

이에 따라, 영상의 전송 데이터량과 복잡도를 감소시키고, 대역폭 및 복호화 장치의 배터리 소모 측면에서도 효율적인 부호화 방법이 요구된다.

보다 구체적으로, 이차원 평면 영상 부호화/복호화기를 이용하여 360카메라, 카메라 리그등으로부터 획득된 삼차원 구체(3D sphere) 영상의 예측 부호화/복호화를 수행하기 위해서는 획득된 삼차원 구체 영상을 투영(projection), 프레임 패킹(frame packing) 등을 통해 이차원 평면영상으로 변환해야한다.

그러나, 삼차원 구체 영상에서 변환된 이차원 평면 영상은 일반적인 이차원 평면 영상과는 다른 특성을 지니고 있다. 예를 들면, 삼차원 공간상의 강체가 투영 방법과 투영되는 이차원 평면 영상의 위치에 따라 다른 모양으로 투영되고 카메라의 움직임 또는 줌 인/아웃으로 인해 발생하는 전역 움직임(global motion)이 변환된 이차원 평면 영상 내에서 하나 이상의 다양한 형태로 발생한다는 특성이 있다.

위와 같이 삼차원 구체 영상에서 변환된 이차원 평면 영상의 특성은 일반적인 이차원 평면 영상보다 공간적/시간적 상관성을 저하시키고 이는 종래의 영상 예측 부호화/복호화기에서 부호화 성능의 저하를 야기한다.

본 발명은 상기와 같은 과제를 해결하기 위한 것으로, 가상 현실 영상의 공간적 구조 정보를 이용하여, 360도 카메라나 VR용 영상과 같은 가상 현실 영상을 효율적으로 부호화/복호화하는 방법 및 장치를 제공하는 데 그 목적이 있다.

또한, 본 발명은 삼차원 구체 영상에서 변환된 이차원 평면 영상의 특성을 이용하여, 360카메라나 카메라 리그등으로부터 획득된 삼차원 구체 공간 영상을 효율적으로 부호화/복호화하는 방법 및 장치를 제공하는데 그 목적이 있다.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 실시예에 따른 영상 부호화 방법은, 처리할 가상 현실 영상의 영상 정보를 획득하는 단계; 상기 영상 정보를 전처리하는 단계; 상기 전처리된 영상 정보에 대응하는 화면 간 예측 부호화를 수행하는 단계를 포함하고, 상기 예측 부호화는 삼차원 구체 움직임 벡터를 이용한 머지 모드 부호화를 포함한다.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 실시예에 따른 영상 복호화 방법은, 복호화할 가상 현실 영상의 영상 정보를 획득하는 단계; 영상 정보에 대응하는 화면 간 예측 복호화를 수행하는 단계; 및 상기 예측 복호화된 영상 정보를 후처리하는 단계를 포함하고, 상기 예측 부호화는 삼차원 구체 움직임 벡터를 이용한 머지 모드 복호화를 포함한다.

또한, 상기 방법은 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.

본 발명의 실시 예에 따르면, 가상 현실 영상에 최적화된 삼차원 구체 움직임 정보 기반의 움직임 예측 부호화 및 복호화를 제공하여, 영상의 전송 데이터량과 대역폭 및 복잡도를 효율적으로 감소시킬 수 있다.

도 1 및 2는 본 발명의 실시 예에 따른 전체 시스템을 도시한 블록도이다.
도 3 내지 도 4는 본 발명의 다양한 실시 예에 따른 공간적 구조 정보의 시그널링 방법을 설명하기 위한 도면들이다.
도 5 내지 도 8은 본 발명의 실시 예에 따른 360도 가상 현실 영상의 부호화 및 복호화 프로세스를 도시한 도면들이다.
도 9 및 도 10은 본 발명의 실시 예에 따른 부호화 장치 및 복호화 장치를 설명하기 위한 도면들이다.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시 예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부재가 다른 부재 상에 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 본원 명세서 전체에서 사용되는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본원의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본원 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.

본원 명세서 전체에서, 마쿠시 형식의 표현에 포함된 이들의 조합의 용어는 마쿠시 형식의 표현에 기재된 구성 요소들로 이루어진 군에서 선택되는 하나 이상의 혼합 또는 조합을 의미하는 것으로서, 상기 구성 요소들로 이루어진 군에서 선택되는 하나 이상을 포함하는 것을 의미한다.

본 발명의 실시 예에서, 가상 현실 영상을 부호화하는 방법의 일예로, 현재까지 개발된 비디오 부호화 표준 중에서 최고의 부호화 효율을 가지는 MPEG(Moving Picture Experts Group)과 VCEG(Video Coding Experts Group)에서 공동으로 표준화한 HEVC(High Efficiency Video Coding) 또는 현재 표준화가 진행 중인 부호화 기술을 이용하여 부호화를 수행할 수 있으나, 이에 한정되지는 아니한다.

통상, 부호화 장치는 인코딩 과정과 디코딩 과정을 포함하고, 복호화 장치는 디코딩 과정을 구비한다. 복호화 장치의 디코딩 과정은 부호화 장치의 디코딩 과정과 동일하다. 따라서, 이하에서는 부호화 장치를 위주로 설명하기로 한다.

도 1은 본 발명의 일실시예에 따른 전체 시스템 구조를 도시한다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 전체 시스템은, 전처리 장치(10), 부호화 장치(100), 복호화 장치(200), 후처리 장치(20)를 포함한다.

본 발명의 실시 예에 따른 시스템은 본 발명의 실시 예에 따른 가상 현실 영상 정보를 처리할 수 있다. 가상 현실 영상은 사용자가 실제로 그곳에 있는 듯한 경험을 제공하는 영상으로서, 사용자의 시각에 동기화되어 전방위를 표현할 수 있는 영상일 수 있으며, 360 비디오 또는 가상 현실 비디오라고도 불릴 수 있다.

이러한 본 발명의 실시 예에 따른 시스템은 복수의 시점별 영상들을 병합 또는 스티치(stitch)등의 작업을 통해 전처리하여, 동기화된 비디오 프레임을 획득하는 전처리 장치(10)와, 상기 동기화된 비디오 프레임을 부호화하여 비트스트림을 출력하는 부호화 장치(100)와, 상기 비트스트림을 전송받아 상기 동기화된 비디오 프레임을 복호화하는 복호화 장치(200) 및 상기 비디오 프레임의 후처리를 통해 각 시점별 동기화된 영상이 각각의 디스플레이로 출력되도록 하는 후처리 장치(20)를 포함하여 구성될 수 있다.

여기서, 입력 영상은 다시점별 개별 영상을 포함할 수 있으며, 예를 들어 하나 이상의 카메라가 시간 및 공간 동기화된 상태에서 촬영되는 다양한 시점의 서브 이미지 정보를 포함할 수 있다. 이에 따라 전처리 장치(10)는 취득된 다시점 서브 이미지 정보를 시간에 따라 공간적 병합 또는 스티치 처리함으로써 동기화된 가상 현실 영상 정보를 획득할 수 있다.

예를 들어, 전처리 장치(10)는 삼차원 구체(Sphere) 영상을투영(Projection) 및 프레임 패킹(Frame packing)을 통해 이차원 평면 영상으로 변환할 수 있다. 이 때, 전처리 장치(10)는 Equirectangular(ERP), Cubemap(CMP), Segmented Sphere Projection(SSP), Rotated Sphere Projection(RSP) 등의 특정된 변환 방법을 이용하여 변환을 처리할 수 있다.

그리고, 부호화 장치(100)는 상기 동기화된 가상 현실 영상 정보를 스캐닝 및 예측 부호화하여 비트스트림을 생성하며, 생성된 비트스트림은 복호화 장치(200)로 전송될 수 있다. 특히, 본 발명의 실시 예에 따른 부호화 장치(100)는 상기 동기화된 영상 정보로부터 공간적 구조 정보를 추출할 수 있으며, 복호화 장치(200)로 시그널링할 수 있다.

여기서 공간적 구조 정보(spatial layout information)는 상기 전처리 장치(10)로부터 하나 이상의 서브 이미지들이 병합되어 하나의 비디오 프레임으로 구성됨에 따라, 각각의 서브 이미지들의 속성 및 배치에 대한 기본 정보를 포함할 수 있다. 또한, 각 서브 이미지들 및 서브 이미지들간 관계에 대한 부가 정보를 더 포함할 수 있으며, 이에 대하여는 후술하도록 한다.

이에 따라, 본 발명의 실시 예에 따른 공간적 구조 정보가 복호화 장치(200)로 전달될 수 있다. 그리고, 복호화 장치(200)는 공간적 구조 정보와, 사용자 시점 정보를 참조하여 가상 현실 영상 비트스트림의 복호화 대상 및 복호화 순서를 결정할 수 있으며, 이는 효율적인 복호화를 유도할 수 있다.

그리고, 복호화된 비디오 프레임은 다시 후처리 장치(20)를 통해 각각의 디스플레이별 서브 이미지로 분리되어 HMD 와 같은 복수의 동기화된 디스플레이 시스템으로 제공되며, 이에 따라 사용자는 가상 현실과 같이 현실감있는 가상 현실 영상을 제공받을 수 있게 된다. 여기서, 동기화된 디스플레이 시스템은 삼차원 구체 영상을 출력할 수 있으며, 삼차원 구체 영상 디스플레이 장치라고도 할 수 있다.

도 2는 본 발명의 일 실시 예에 따른 가상 현실 영상 부호화 장치의 구성을 나타내는 블록도이다.

도 2를 참조하면, 본 발명의 실시 예에 따른 부호화 장치(100)는 가상 현실 영상 획득부(110), 공간적 구조 정보 생성부(120), 공간적 구조 정보 시그널링부(130), 영상 부호화부 및 전송 처리부(150)를 포함한다.

가상 현실 영상 획득부(110)는 360도 카메라와 같은 가상 현실 영상 획득 수단을 이용하여 가상 현실 영상을 획득한다. 가상 현실 영상은 시간 및 공간 동기화된 복수의 서브 이미지를 포함할 수 있으며, 전처리 장치(10)로부터 수신되거나 별도의 외부 입력 장치로부터 수신될 수도 있다.

그리고, 공간적 구조 정보 생성부(120)는 상기 가상 현실 영상을 시간 단위의 비디오 프레임으로 분할하고, 상기 비디오 프레임에 대한 공간적 구조 정보를 추출한다. 공간적 구조 정보는 각각의 서브 이미지들의 속성 및 배치 상태에 따라 결정될 수 있으며, 전처리 장치(10)로부터 획득되는 정보에 따라 결정될 수도 있다.

그리고, 공간적 구조 정보 시그널링부(130)는 상기 공간적 구조 정보를 복호화 장치(200)로 시그널링하기 위한 정보 처리를 수행한다. 예를 들어, 공간적 구조 정보 시그널링부(130)는 영상 부호화부에서 부호화된 영상 데이터에 포함시키거나, 별도의 데이터 포맷을 구성하거나, 부호화된 영상의 메타데이터에 포함시키기 위한 하나 이상의 프로세스를 수행할 수 있다.

그리고, 영상 부호화부는 가상 현실 영상을 시간 흐름에 따라 부호화한다. 또한, 영상 부호화부는 공간적 구조 정보 생성부(120)에서 생성되는 공간적 구조 정보를 참조 정보로 이용하여, 영상 스캐닝 순서 및 참조 이미지 등을 결정할 수 있다.

따라서, 영상 부호화부는 전술한 바와 같이 HEVC(High Efficiency Video Coding)를 이용하여 부호화를 수행할 수 있으나, 공간적 구조 정보에 따라, 가상 현실 영상에 대해 보다 효율적인 방식으로 개선될 수 있다.

그리고, 전송 처리부(150)는 부호화된 영상 데이터와, 상기 공간적 구조 정보 시그널링부(130)로부터 삽입된 공간적 구조 정보를 결합하여 복호화 장치(200)로 전송하기 위한 하나 이상의 변환 및 송신 처리를 수행할 수 있다.

도 3 내지 도 4는 본 발명의 다양한 실시 예에 따른 공간적 구조 정보의 시그널링 방법을 설명하기 위한 도면들이다.

전술한 바와 같이 입력 영상의 서브 이미지들은 다양한 방식으로 배치될 수 있다. 이에 따라, 공간적 구조 정보는 배치 정보를 시그널링하기 위한 테이블 인덱스를 별도 포함할 수 있다. 예를 들어, 도 11에 도시된 바와 같이 가상 현실 영상은 변환 방법에 따라 Equirectangular (ERP), Cubemap (CMP), Equal-area (EAP), Octahedron (OHP), Viewport generation using rectilinear projection, Icosahedron (ISP), Crasters Parabolic Projection for CPP-PSNR calculation, Truncated Square Pyramid (TSP), Segmented Sphere Projection (SSP), Adjusted Cubemap Projection (ACP), Rotated Sphere Projection (RSP)등의 레이아웃이 예시될 수 있으며, 공간적 구조 정보에는 각각의 레이아웃에 대응되는 도 4에 도시된 테이블 인덱스가 삽입될 수 있다.

보다 구체적으로, 각 공간적 구조 정보에 따라 360도에 대응하는 좌표계의 3차원 영상이 2차원 영상으로 투영(Projection)될 수 있다.

ERP는 360도 영상을 하나의 면(face)에 투영 변환하는 것으로, 2차원 이미지의 샘플링 위치에 대응하는 u, v 좌표계 위치 변환 및 상기 u, v 좌표계 위치에 대응하는 구(sphere)상의 경도와 위도 좌표 변환 처리를 포함할 수 있다. 이에 따라, 공간적 구조 정보는 ERP 인덱스와, 단일 면 정보(예를 들어 face index가 0으로 설정)를 포함할 수 있다.

CMP는 360도 영상을 6개의 정육각형 면(face)에 투영하는 것으로, PX, PY, PZ, NX, NY, NZ(P는 positive, N은 negative를 나타냄)에 대응하는 각 면 인덱스(face index, f)에 투영된 서브 이미지들이 배치될 수 있다. 예를 들어 CMP영상의 경우, ERP 영상을 3 x 2 큐브맵 영상으로 변환된 영상을 포함할 수 있다.

이에 따라, 공간적 구조 정보는 CMP 인덱스와, 서브 이미지에 대응하는 각 면 인덱스 정보가 포함될 수 있다. 후처리 장치(20)는 면 인덱스에 따라 서브 이미지상의 2차원 위치 정보를 처리하여, 3차원 좌표계에 대응되는 위치 정보를 산출하고, 이에 따른 3차원 360도 영상으로 역변환 출력할 수 있다.

ACP는 CMP와 같이 360도 영상을 6개의 정육각형 면(face)에 투영함에 있어서, 2차원으로의 투영 변환 및 3차원으로의 역변환에 각각 대응하여 3차원 굴곡 변형에 맞게 조정된 함수를 적용하는 것으로, 그 처리 함수는 상이하나, 이용되는 공간적 구조 정보는 ACP 인덱스와 서브 이미지별 면 인덱스 정보가 포함될 수 있다. 따라서, 후처리 장치(20)는 면 인덱스에 따라 서브 이미지상의 2차원 위치 정보를 조정된 함수에 따라 역변환 처리하여, 3차원 좌표계에 대응되는 위치 정보를 산출하고, 이에 따른 3차원 360도 영상으로 출력할 수 있다.

EAP는 ERP와 동일하게 하나의 면(face)에 투영되는 변환으로서, 2차원 이미지의 샘플링 위치에 즉시 대응하는 구(sphere)상의 경도와 위도 좌표 변환 처리를 포함할 수 있다. 공간적 구조 정보는 EAP 인덱스와 단일 면 정보를 포함할 수 있다.

OHP는 360도 영상을 8개의 정팔각형 면(face)에 6개의 꼭지점들(vertices) 을 이용하여 투영하는 것으로, 면 {F0, F1, F2, F3, F4, F5, F6, F7}과 꼭지점(V0, V1, V2, V3, V3, V4, V5)를 이용하여 투영된 서브 이미지들이 변환 영상에 배치될 수 있다.

이에 따라, 공간적 구조 정보는 OHP 인덱스와, 서브 이미지에 대응하는 각 면 인덱스(face index) 정보 및 상기 면 인덱스 정보에 매칭되는 하나 이상의 꼭지점(vertex) 인덱스 정보가 포함될 수 있다. 또한, 변환 영상의 서브 이미지 배치는 컴팩트한 경우와 컴팩트하지 않는 경우로 구분될 수 있다. 이에 따라, 공간적 구고 정보는 컴팩트 여부 식별 정보를 더 포함할 수 있다. 예를 들어, 컴팩트하지 않는 경우와, 컴팩트한 경우의 면 인덱스와 꼭지점 인덱스 매칭 정보 및 역변환 프로세스가 상이하게 결정될 수 있다. 예를 들어, 면 인덱스 4에는 컴팩트가 아닌 경우 꼭지점 인덱스 V0, V5, V1 로 매칭될 수 있으며, 컴팩트인 경우 V1, V0, V5로 다른 매칭이 처리될 수 있다.

후처리 장치(20)는 면 인덱스 및 꼭지점 인덱스에 따라, 서브 이미지상의 2차원 위치 정보를 역변환 처리하여 3차원 좌표계에 대응되는 벡터 정보를 산출하고, 이에 따른 3차원 360도 영상으로 역변환 출력할 수 있다.

ISP는 360도 영상을 20개의 면(face)과 12개의 꼭지점들(vertices) 을 이용하여 투영하는 것으로, 각 변환에 따른 서브 이미지들이 변환 영상에 배치될 수 있다. 공간적 구조 정보는 OHP와 유사하게 ISP 인덱스와, 면 인덱스, 꼭지점 인덱스, 컴팩트 식별 정보 중 적어도 하나를 포함할 수 있다.

SSP는 360도 영상의 구체를 북극, 적도 및 남극의 3개 세그먼트로 구분하여 처리하는 것으로, 북극 및 남극은 인덱스로 식별되는 두 개의 원으로 각각 매핑되며, 두 극 세그먼트간 모서리는 회색의 비활성 샘플로 처리되고, 적도는 ERP와 동일한 투영법이 이용될 수 있다. 이에 따라, 공간적 구조 정보는 SSP 인덱스와, 각 적도, 북극 및 남극 세그먼트에 대응하는 면 인덱스를 포함할 수 있다.

RSP는 360도 영상의 구체를 두개의 동일한 크기의 구획으로 분할하고, 2차원 변환 영상에 상기 분할된 영상을 펼쳐 두개의 행으로 배치하는 방식을 포함할 수 있다. 그리고, RSP는 CMP와 유사한 3X2종횡비로서 6개의 면을 이용하여 상기 배치를 구현할 수 있다. 이에 따라, 변환 영상에는 상단 세그먼트의 제1 구획 영상과 하단 세그먼트의 제2 구획 영상이 포함될 수 있다. 공간적 구조 정보는 RSP 인덱스와 구획 영상 인덱스 및 면 인덱스 중 적어도 하나가 포함될 수 있다.

TSP는 360도 영상을 6개의 큐브면으로 투영한 프레임을 잘린 사각형 피라미드의 면에 대응하여 변형 투영하는 방식을 포함할 수 있다. 이에 따라, 각 면에 대응하는 서브 이미지의 크기 및 형태가 모두 상이할 수 있다. 공간적 구조 정보는 TSP 식별 정보 및 면 인덱스 중 적어도 하나가 포함될 수 있다.

Viewport generation using rectilinear projection은 360도 영상을 시각(viewing angle)을 Z 축으로 하여 투영된 2차원 영상으로 변환 획득하는 것으로, 공간적 구조 정보는 Viewport generation using rectilinear projection 인덱스 정보와, 시점을 나타내는 시각 포트(Viewport) 정보를 더 포함할 수 있다.한편, 공간적 구조 정보는 상기 영상 변환에 있어서 적용될 보간 필터 정보를 더 포함할 수 있다. 예를 들어, 보간 필터 정보는 각 투영 변환 방식에 따라 상이할 수 있으며, 최인접 필터(nearest neighbor), 바이리니어 필터, 바이큐빅 필터, Lanczos 필터 중 적어도 하나를 포함할 수 있다.

한편, 전처리 변환 및 후처리 역변환의 처리 성능 평가를 위한 변환 방식 및 그 인덱스가 별도 정의될 수 있다. 예를 들어, 성능 평가는 전처리 장치(10)에서 전처리 방식을 결정하기 위해 이용될 수 있으며, 그 방식으로는 서로 다른 두 변환 영상을 CPP(Crasters Parablic Projection) 도메인으로 변환하여 PSNR 을 측정하는 CPP 방식이 예시될 수 있다.

다만, 도 4에 도시된 테이블은 입력 영상에 따라 임의적으로 배치된 것으로, 부호화 효율 및 시장의 컨텐츠 분포 등에 따라 변경될 수 있다.

이에 따라, 복호화 장치(200)는 별도 시그널링되는 테이블 인덱스를 파싱하여, 복호화 처리에 이용할 수 있다.

특히, 본 발명의 실시 예에서 상기 각 레이아웃 정보는 영상의 일부 복호화에 유용하게 이용될 수 있다. 즉 CUBIC LAYOUT과 같은 서브 이미지 배치 정보는 독립적 서브 이미지와 의존적 서브 이미지를 구분하는데 이용 수 있으며 이에 따라 효율적인 부호화 및 복호화 스캐닝 순서를 결정하거나, 특정 시점에 대한 일부 복호화를 수행하는데 이용될 수도 있다.

도 5 내지 도 11은 본 발명의 실시 예에 따른 360도 가상 현실 영상의 부호화 및 복호화 프로세스를 도시한 도면이다.

본 발명의 실시 예에 따르면, 본 발명의 실시 예에 따른 부호화 장치(100) 또는 복호화 장치(200)는 이차원으로 변환된 360 도 가상 현실 영상 정보를 처리함에 있어서, 삼차원 구체 영상의 삼차원 구체 움직임 벡터를 이용하여 움직임 보상 예측 처리를 수행할 수 있다.

보다 구체적으로, 카메라로 획득한 360 영상은 전처리 장치(10)를 통해 부호화를 위한 ERP 등과 같은 다양한 포맷으로 변환된다. 변환된 이차원 영상은 부호화 장치(100)를 통한 부호화를 통해 압축된 영상을 생성하게 된다. 그리고, 복호화 장치(200)는 상기 압축된 영상을 복호화하고, 역변환하여 삼차원 구체 영상을 생성 및 출력하게 한다.

여기서, 상기 이차원 영상의 효율적 부호화 및 복호화를 위해, 부호화 장치(100) 또는 복호화 장치(200)는, 삼차원 구체 움직임 벡터를 이용한 움직임 예측 보상 처리를 수행할 수 있는 바, 이를 위해, 본 발명의 실시 예에 따른 부호화 장치(100) 또는 복호화 장치(200)는 화면 간 예측 정보 유도부(11) 및 예측 정보 기반 움직임 보상부(12)를 포함한다.

화면 간 예측 정보 유도부(11)는, 먼저 유도될 예측 정보의 종류, 참조 픽처 및 참조 방향을 결정하고, 예측 모드를 결정하며, 예측 모드에 따른 예측 정보를 유도하여 예측 정보 기반 움직임 보상부(12)로 전달한다.

여기서, 화면 간 예측 정보 유도부(11)는, 현재 블록에 대한 화면간 예측에서 화면간 예측 정보를 유도함에 있어, 이차원 평면 움직임 벡터, 삼차원 구체 움직임 벡터, 참조 픽처 인덱스 및 참조 방향을 먼저 결정할 수 있다.

그리고, 화면 간 예측 정보 유도부(11)는 MERGE 인덱스, AMVP 인덱스, MERGE 플래그 중 어느 하나를 파싱하여, 예측 모드를 결정할 수 있다.

그리고, 화면 간 예측 정보 유도부(11)는, 공간적 주변 블록의 화면간 예측 정보, 시간적 주변 블록의 화면간 예측 정보, 움직임 경향성 기반 화면간 예측 정보, 움직임 비-균일성 보정 화면간 예측 정보 중 적어도 하나 이상을 이용한 예측 정보를 획득하여, 예측 정보 기반 움직임 보상부(12)로 전달할 수 있다.

그리고, 예측 정보 기반 움직임 보상부(12)는, 예측 정보에 기초한 움직임 보정 또는 보상 처리를 수행할 수 있다.

특히, 본 발명의 실시 예에 따른 움직임 벡터는 삼차원 구체 움직임 벡터를 포함할 수 있고, 이에 따른 예측 정보는 삼차원 구체 움직임 벡터 기반의 움직임 경향성 기반 화면 간 예측 정보와, 움직임 비-균일성 보정 화면간 예측 정보를 포함할 수 있으며, 이러한 예측 정보 기반 움직임 보정 또는 보상 처리가 수행될 수 있는 바 보다 구체적으로 후술하도록 한다.

도 6을 참조하면, 도 6(A)와 같이 이차원 평면 움직임 벡터는 현재 블록의 이차원 평면에서의 이동 거리를 의미할 수 있으며, 이차원 평면에서 x축에서의 이동 거리(Vx), y축에서의 이동거리(Vy) 중 하나 이상의 값을 가질 수 있다.

이에 대해, 본 발명의 실시 예에 따른 삼차원 구체 움직임 벡터는, 도 6(B)와 같이, 현재 블록의 삼차원 구체에서의 이동 거리(Vx, Vy, Vz) 정보 및 구체의 회전 정도(각도) 정보 중 적어도 하나를 포함할 수 있다.

일 예로, 도 6(B)를 참조하면, 삼차원 구체 움직임 벡터는 삼차원 공간에서 x축 회전각(Pitch; 피치), y 축 회전각(yaw; 요), z축 회전각(roll; 롤) 중 하나 이상의 값을 가질 수 있다.

그리고, 이러한 삼차원 구체 움직임 벡터에 대응하는 참조 픽처 인덱스 및 방향 정보가 설정될 수 있다. 참조 픽처 인덱스는 참조 픽처 리스트의 색인 정보 일 수 있는 바, 참조 방향은 양방향 예측 또는 단방향 예측을 의미할 수 있다. 단방향 예측일 경우 순방향(L0) 예측 또는 역방향(L1) 예측을 의미할 수 있다. 이 때, 각 방향마다 하나 이상의 참조 픽처 리스트를 구성할 수 있다.

그리고, 예측 모드는 본 발명의 실시 예에 따라 삼차원 구체 움직임 벡터를 이용하는 머지(MERGE) 또는 에이엠브이피(AMVP) 모드 중 적어도 하나를 포함하는 복수의 모드 중 어느 하나가 결정될 수 있으며, 이에 따른 색인 정보로서 인덱스 정보가 결정될 수 있다. 예를 들어, MERGE 인덱스는 MERGE 리스트의 색인 정보일 수 있고, AMVP 인덱스는 AMVP 리스트의 색인 정보 일 수 있다.

또한, MERGE 플래그는 MERGE 모드 또는 AVMP 모드를 지시하는 지시자 일 수 있다. 해당 플래그가 1일 경우 MERGE 모드를 의미할 수 있다. 해당 플래그가 0일 경우 AMVP를 지시할 수 있다. 모드 플래그에는 삼차원 구체 움직임 벡터를 이용하는 것을 나타내는 플래그가 더 포함될 수도 있다.

도 7은 본 발명의 실시 예에 따른 AMVP 모드 기반 움직임 보상 처리를 설명하기 위한 도면이다.

전술한 바와 같이, 예측 정보 기반 움직임 보상부(12)는 현재 블록의 화면간 예측 정보를 유도함에 있어 AMVP 모드를 이용할 수 있다.

그리고, 화면 간 예측 정보 유도부(11)는, AMVP 모드를 위한 예측 정보를 획득할 수 있으며, 이를 위해, 화면 간 예측 정보 유도부(11)는, 삼차원 구체 움직임 탐색, 이차원 평면 움직임 탐색, AMVP 리스트 생성을 포함하는 하나 이상의 프로세스를 수행할 수 있다.

화면 간 예측 정보 유도부(11)는, AMVP 모드 기반 움직임 보상을 수행함에 있어, 이차원 평면 움직임 탐색을 처리할 수 있다.

부호화 장치(100)는, 화면 간 예측 정보 유도부(11)를 통해 일정한 탐색 범위 내에서 현재 블록의 부호화에 사용될 이차원 평면 움직임 벡터(Vx, Vy)를 결정할 수 있다. 현재 블록의 부호화에 사용될 이차원 평면 움직임 벡터는 탐색 범위 내에서 최소 비용으로 부호화될 수 있는 참조 블록을 생성하는 움직임 벡터일 수 있다.

그리고, 화면 간 예측 정보 유도부(11)는, AMVP를 수행함에 있어, 삼차원 구체 움직임 탐색을 처리할 수 있다.

부호화 장치(100)는, 화면 간 예측 정보 유도부(11)를 통해 일정한 회전 각 범위 내에서 현재 블록의 부호화에 사용될 삼차원 구체 움직임 벡터(피치, 요, 롤)을 결정할 수 있다. 현재 블록의 부호화에 사용될 삼차원 구체 움직임 벡터는 회전 각 범위 내에서 최소 비용으로 부호화될 수 참조 블록을 생성하는 있는 움직임 벡터일 수 있다.

화면 간 예측 정보 유도부(11)는, 삼차원 구체 움직임 탐색에서 참조 블록을 생성함에 있어, 참조 픽처 구체화, 참조 구체 회전, 참조 블록 투영 및 프레임 패킹 중 하나 이상을 이용할 수 있다.

여기에서, 참조 픽처 구체화는 이차원 평면 영상을 삼차원 구체 영상으로 변환하는 프로세스를 포함할 수 있다. 이 때, 이차원 평면 영상은 삼차원 구체 영상의 전처리 장치(10)의 출력으로부터 획득될 수 있다. 반대로 이차원 평면 영상에서 삼차원 구체 영상으로의 변환은 삼차원 구체 영상에서 이차원 평면 영상으로 변환의 역순일 수 있다.

이와 같은 변환 처리는 도 7(A)와 같이 CMP 평면 영상과 삼차원 구체 영상 사이의 변환일 수 있으며, 도 7(B)와 같이 ERP 평면 영상과 삼차원 구체 영상 사이의 변환일 수 있다.

여기에서, 참조 구체 회전은 다음 수학식 1을 통해 수행될 수 있다.

이와 같은 좌표 변환에 따라, 삼차원 구체 영상에서 이차원 평면 영상으로 변환될 수 있으며, 참조 블록 투영 및 프레임 패킹이 처리됨으로써 이차원 평면 영상이 획득될 수 있다. 이 때, 변환 처리는 이차원 평면 영상 내부에 존재하는 특정 블록에 대한 변환 처리를 포함할 수 있다.

예를 들어, 전처리 장치(10)는, 참조 구체에서 현재 블록과 동일한 위치, 동일한 크기를 가진 블록에 대한 변환(프로젝션 및 프레임 패킹)을 수행할 수 있다.

이에 따라, 부호화 장치(100)의 화면 간 예측 정보 유도부(11)는, 정해진 참조 픽처를 삼차원 구체로 일정한 크기를 가지는 피치, 요를 이용하여 참조 구체를 회전하고 회전된 참조 구체를 현재 블록과 동일한 위치, 동일한 크기로 투영하여 참조 블록을 생성할 수 있다.

이에 따라, 화면 간 예측 정보 유도부(11)는, 삼차원 구체 움직임 탐색을 수행 할 수 있다. 부호화 장치(100)는 참조 블록의 비용을 산출하기 위해, 전술된 방법으로 생성된 참조 블록과 현재 블록에 대한 원본 사이의 SAD, SATD, MR-SAD, RD-Cost 중 적어도 하나 이상의 연산을 수행할 수 있다.

한편, 부호화 장치(100) 및 복호화 장치(200) 각각의 예측 정보 기반 움직임 보상부(12)가 AMVP 모드 기반 움직임 보상을 수행함에 있어, 화면 간 예측 정보 유도부(11)는 AMVP 리스트를 생성할 수 있다.

이 때, AMVP 리스트는 양의 정수 N개의 화면간 예측 정보로 구성할 수 있으며, 공간적 주변 블록의 화면간 예측 정보, 시간적 주변 블록의 화면간 예측 정보, 움직임 경향성 기반 화면간 예측 정보, 움직임 비-균일성 보정 화면간 예측 정보 중 적어도 하나 이상의 화면간 예측 정보가 특정 순서에 따라서 AMVP 후보 리스트에 포함될 수 있다.

이에 따라, 화면 간 예측 정보 유도부(11)는 움직임 경향성 기반 화면간 예측 정보를 유도할 수 있으며, 이는 현재 블록과 경계가 맞닿은 블록과 현재 블록으로부터 소정의 거리 내에 위치한 블록의 조합일 수 있다. 이 때, 현재 블록으로부터 소정의 거리 내에 위치한 블록은 현재 블록과 경계가 맞닿지 않는 블록일 수 있다.

움직임 벡터 결합은 다음과 같은 수식으로 수행할 있다. MV_adjacent는 현재 블록에 경계가 맞닿은 블록의 움직임 벡터일 수 있고 MV_non-adjacent는 현재 블록으로부터 소정의 거리 내에 위치한 블록의 움직임 벡터일 수 있다. MV_current는 현재 블록의 움직임 벡터를 의미할 수 있고 움직임 벡터 결합의 결과일 수 있다.

이에 따라, (MV_current) = 2 x (MV_adjacent) - (MV_non-adjacent) 와 같이 움직임 경향성 기반 화면간 예측 정보가 산출될 수 있다.

이와 같이, 화면 간 예측 정보 유도부(11)는 부호화/복호화가 완료된 현재 블록의 인접 블록의 화면간 예측 정보를 이용하여, 현재 블록의 화면간 예측 정보로 선택할 수 있으며, 또한 움직임 벡터 결합을 수행할 때 스케일링을 적용할 수 있다.

또한, 화면 간 예측 유도부(11)는 움직임 비-균일성 보장 화면간 예측 정보를 이용할 수 있다. 여기서, 움직임 비-균일성 보상 화면간 예측 정보는 개선된 움직임 벡터를 가지는 공간적 주변 블록의 화면간 예측 정보일 수 있다. 이 때, 공간적 주변 블록의 움직임 벡터를 개선함에 있어 다음과 같은 처리를 수행할 수 있다.

화면 간 예측 정보 유도부(11)는, 공간적 주변 블록의 움직임 벡터 개선에 있어, 공간적 주변 블록의 삼차원 구체상의 위치와 현재 블록의 삼차원 구체상의 위치 관계 정보를 획득할 수 있다.

이 때, 주변 블록 및 현재 블록의 기준이 되는 위치는 블록의 중간, 좌-상단 꼭지점, 우-상단 꼭지점, 좌-하단 꼭지점, 우-하단 꼭지점이 될 수 있으며, 두 블록의 삼차원 구체상 위치의 관계 정보는 삼차원 구체상의 두 위치의 차이 정보를 포함할 수 있다.

그리고, 화면 간 예측 정보 유도부(11)는 공간적 주변 블록의 움직임 벡터 개선에 있어, 공간적 주변 블록의 참조 블록의 삼차원 구체상의 위치 및 공간적 주변 블록과 현재 블록의 삼차원 구체상의 위치 관계를 더하여 현재 블록의 참조 블록의 삼차원 구체상의 위치를 획득할 수 있다.

이후, 화면 간 예측 정보 유도부(11)는, 공간적 주변 블록의 움직임 벡터 개선에 있어, 현재 블록의 참조 블록의 삼차원 구체상의 위치으로 부터 개선된 이차원 평면상의 참조 블록 위치를 획득할 수 있다.

예측 정보 기반 움직임 보상부(12)가 AMVP 모드 기반 움직임 보상을 수행함에 있어, 화면 간 예측 정보 유도부(11)는 특정 순서에 따라서 AMVP 리스트를 구성할 수 있으며, 가용한 화면간 예측 정보를 AMVP 리스트에 추가할 수 있다. 즉, 특정 순서에 맞는 화면간 예측 정보가 존재할 경우에 AMVP 리스트에 추가될 수 있다.

예측 정보 기반 움직임 보상부(12)가 AMVP 모드 기반 움직임 보상을 수행함에 있어, 화면 간 예측 정보 유도부(11)는 특정 순서에 따라서 AMVP 리스트를 구성할 때, 가용한 공간적 후보의 화면간 예측 정보가 이미 AMVP 리스트 내에 존재하는 다른 움직임 정보와 중복되는 경우 AMVP 리스트에 추가하지 않을 수 있다.

예측 정보 기반 움직임 보상부(12)가 AMVP 모드 기반 움직임 보상을 수행함에 있어, 부호화 장치(100)의 화면 간 예측 정보 유도부(11)는 참조 픽처 인덱스 및 참조 방향, 이차원 평면 움직임 벡터 차분값, 삼차원 구체 움직임 벡터 차분값, AMVP 인덱스를 지정하고, 이를 복호화 장치(200)로 시그널링할 수 있다.

여기서, 참조 픽처 인덱스 및 참조 방향은 움직임 예측의 결과일 수 있으며, 부호화 장치(100)의 화면 간 예측 정보 유도부(11)는 참조 픽처를 지정할 수 있다.

예를 들면, 부호화 장치(100)의 화면 간 예측 정보 유도부(11)는 참조 픽처 인덱스 및 참조 방향을 지정하기 위해, 삼차원 구체 움직임 예측의 결과에 따른 참조 구체를 지정할 수 있다.

또한, 예를 들면, 예를 들면, 부호화 장치(100)의 화면 간 예측 정보 유도부(11)는 참조 픽처 인덱스 및 참조 방향을 지정하기 위해, 이차원 평면 움직임 예측의 결과에 따른 참조 픽처를 지정할 수도 있다.

한편, AMVP 인덱스는 전술된 AMVP 후보 리스트의 색인 값을 나타내며, 예를 들면, AMVP 인덱스는 이차원 평면 움직임 벡터 예측값(Vx, Vy) 중 적어도 하나 이상을 지시할 수 있다.

또한, 예를 들면, AMVP 인덱스는 삼차원 구체 움직임 벡터 예측값(피치, 롤, 요) 중 적어도 하나 이상을 지시할 수 있다.

그리고, 예를 들면, AMVP 인덱스는 삼차원 구체 움직임 벡터 예측값(Vx, Vy, Vz) 중 적어도 하나 이상을 지시할 수 있다.

한편, 화면 간 예측 정보 유도부(11)는 이차원 평면 움직임 벡터 차분값을 산출할 수 있으며, 이는 이차원 평면 움직임 벡터 예측의 결과인 이차원 평면 움직임 벡터와 AMVP 인덱스가 지시하는 이차원 평면 움직임 벡터 예측값의 차이일 수 있다.

또한, 화면 간 예측 정보 유도부(11)는 삼차원 구체 움직임 벡터 차분값을 산출할 수 있으며, 이는 삼차원 구체 움직임 벡터 예측의 결과인 삼차원 구체 움직임 벡터와 AMVP 인덱스가 지시하는 삼차원 구체 움직임 벡터 예측값의 차이일 수 있다.

한편, 도 8은 본 발명의 실시 예에 따른 예측 정보 기반 움직임 보상부(12)의 처리를 설명하기 위한 도면이다.

도 8을 참조하면, 예측 정보 기반 움직임 보상부(12)는, 현재 블록의 움직임 보정 및 보상에 있어 복호화 장치(200) 상의 움직임 보정, 이차원 평면 기반 움직임 보상, 삼차원 구체 기반 움직임 보상 중 적어도 하나를 이용하여 움직임 보정 및 보상을 수행할 수 있다. 이때, 움직임 보상은 단방향 또는 양방향 움직임 보상일 수 있다.

현재 블록의 움직임 보정 프로세스는 복호화 장치(200)에서 처리되는 움직임 보정을 포함할 수 있다. 복호화 장치(200)는 움직임 보정을 위해, 수신된 현재 블록의 움직임 벡터를, 움직임 비-균일성 보상 개선 및 복호화기 움직임 정보 탐색 중 하나 이상의 방법을 이용하여 획득할 수 있다.

여기서, 움직임 비-균일성 보상은 복호화 장치(200)로 수신된 움직임 벡터를 전술한 화면 간 예측 정보 유도부(11)의 움직임 비-균일성 보상 움직임 예측 정보 및 움직임 벡터 개선 처리에 의해 획득하는 프로세스를 포함할 수 있다.

여기서, 복호화 장치(200)는 수신된 움직임 벡터가 양방향일 때, 화면 간 예측 정보 유도부(11)는 움직임 정보 탐색을 수행할 수 있다.

예를 들어, 도 8(A)에 도시된 바와 같이, 복호화 장치(200)가 움직임 정보 탐색시, 화면 간 예측 정보 유도부(11)는 두 참조 블록의 주변을 탐색하고, 획득된 화면간 예측 정보로부터 움직임 보상된 블록과의 비용이 가장 낮은 주변을 참조할 수 있도록 움직임 벡터를 개선하는 프로세스를 수행할 수 있다.

또한, 복호화 장치(200)가 움직임 정보 탐색을 수행할 때, 화면 간 예측 정보 유도부(11)는 움직임 비-균일성 보상된 움직임 벡터에 따라 움직임 벡터 주변의 탐색 범위를 제한할 수 있다.

예를 들면, 움직임 비-균일성 보상된 움직임 벡터가 전송된 움직임 벡터를 기준으로 좌-상단 위치를 가르킨다면 도 8(B)에 도시된 바와 같은 형태에 있어서 제 3 탐색 영역의 탐색을 제한할 수 있다.

한편, 현재 블록에 대한 움직임 보상은 이차원 평면 기반 움직임 보상일 수 있으며 단방향 또는 양방향 움직임 보상일 수 있다. 이 때, 예측 정보 기반 움직임 보상부(12)는 하나 이상의 다수의 참조 블록을 혼합하여 움직임 보상을 수행할 수 있다.

여기서, 삼차원 구체 기반 움직임 보상에 사용되는 다수의 참조 블록은 참조 삼차원 구체 영상에서 이차원 평면 이미지로의 투영 결과로부터 획득될 수 있으며, 이 때, 이차원 평면 이미지 중 현재 블록과 동일 위치, 동일 크기의 블록이 참조 블록으로 획득될 수 있다.

예를 들면, 예측 정보 기반 움직임 보상부(12)는, 이차원 평면 기반 움직임 보상에 있어서, 1개의 참조 픽처 리스트 L0의 하나의 픽처 내의 참조 블록을 사용하여 움직임 보상할 수 있다.

또한, 예를 들면, 예측 정보 기반 움직임 보상부(12)는, 이차원 평면 기반 움직임 보상에 있어서, 1개의 참조 픽처 리스트 L0의 하나의 픽처 내의 복수의 참조 블록들을 혼합하여 움직임 보상할 수 있다.

또한, 예를 들면, 예측 정보 기반 움직임 보상부(12)는, 이차원 평면 기반 움직임 보상에 있어서, 1개의 참조 픽처 리스트 L0의 복수의 픽처 내의 복수의 참조 블록들을 혼합하여 움직임 보상할 수 있다.

또한, 예를 들면, 예측 정보 기반 움직임 보상부(12)는, 이차원 평면 기반 움직임 보상에 있어서, 2개의 참조 픽처 리스트 L0, L1의 각각 리스트 마다 하나의 픽처 내의 하나의 참조 블록을 혼합하여 움직임 보상할 수 있다.

또한, 예를 들면, 예측 정보 기반 움직임 보상부(12)는, 이차원 평면 기반 움직임 보상에 있어서, 2개의 참조 픽처 리스트 L0,L1의 각각 리스트 마다 복수의 픽처 내의 복수의 참조 블록을 혼합하여 움직임 보상할 수 있다.

그리고, 예측 정보 기반 움직임 보상부(12)는, 이차원 평면 기반 움직임 보상을 수행함에 있어, 복수의 참조 블록을 혼합하여 이용할 수 있으며, 복수의 참조 블록들의 평균, 가중치 평균, 중간값 등과 같은 다수의 혼합 방법 중 하나 이상의 방법을 이용할 수 있다.

한편, 예측 정보 기반 움직임 보상부(12)는, 이차원 평면 기반 움직임 보상을 수행함에 있어, 이차원 평면 움직임 벡터 정보가 부화소 단위일 때, DCT 필터, DST 필터, Bi-linear 필터 등과 같은 다수의 보간 필터 중 하나 이상을 이용하여 보상된 화소간 보간(Interpolation)을 처리할 수도 있다.

한편, 현재 블록에 대한 움직임 보상은 삼차원 구체 기반 움직임 보상일 수 있으며 단방향 또는 양방향 움직임 보상일 수 있다. 이 때, 예측 정보 기반 움직임 보상부(12)는, 하나 이상의 다수의 참조 블록을 혼합하여 움직임 보상을 수행할 수 있다.

예를 들면, 예측 정보 기반 움직임 보상부(12)는, 삼차원 구체 기반 움직임 보상에 있어서, 1개의 참조 픽처 리스트 L0의 하나의 픽처 내의 참조 블록을 사용하여 움직임 보상할 수 있다.

또한, 예를 들면, 예측 정보 기반 움직임 보상부(12)는, 삼차원 구체 기반 움직임 보상에 있어서, 1개의 참조 픽처 리스트 L0의 하나의 픽처 내의 복수의 참조 블록들을 혼합하여 움직임 보상할 수 있다.

또한, 예를 들면, 예측 정보 기반 움직임 보상부(12)는, 삼차원 구체 기반 움직임 보상에 있어서, 1개의 참조 픽처 리스트 L0의 복수의 픽처 내의 복수의 참조 블록들을 혼합하여 움직임 보상할 수 있다.

또한, 예를 들면, 예측 정보 기반 움직임 보상부(12)는, 삼차원 구체 기반 움직임 보상에 있어서, 2개의 참조 픽처 리스트 L0, L1의 각각 리스트 마다 하나의 픽처 내의 하나의 참조 블록을 혼합하여 움직임 보상할 수 있다.

또한, 예를 들면, 예측 정보 기반 움직임 보상부(12)는, 삼차원 구체 기반 움직임 보상에 있어서, 2개의 참조 픽처 리스트 L0,L1의 각각 리스트 마다 복수의 픽처 내의 복수의 참조 블록을 혼합하여 움직임 보상할 수 있다.

또한, 예측 정보 기반 움직임 보상부(12)는, 삼차원 구체 기반 움직임 보상을 수행함에 있어, 복수의 참조 블록의 혼합에 할 때, 평균, 가중치 평균, 중간값 등과 같은 다수의 혼합 방법 중 하나 이상의 방법을 이용할 수 있다.

그리고, 예측 정보 기반 움직임 보상부(12)는, 삼차원 구체 기반 움직임 보상을 수행함에 있어, 삼차원 구체 움직임 벡터 정보가 부화소 단위일 때, DCT 필터, DST 필터, Bi-linear 필터 등과 같은 다수의 보간 필터 중 하나 이상을 이용하여 화소간 보간(Interpolation)을 수행할 수도 있다.

도 9는 본 발명의 일실시예에 따른 동영상 부호화 장치의 구성을 블록도로 도시한 것으로, 본 발명의 실시 예에 따른 가상 현실 영상의 각각의 서브 이미지 또는 전체 프레임을 입력 비디오 신호로서 입력받아 처리할 수 있다.

도 9를 참조하면, 본 발명에 따른 동영상 부호화 장치(100)는 픽쳐 분할부(160), 변환부, 양자화부, 스캐닝부, 엔트로피 부호화부, 인트라 예측부(169), 인터 예측부(170), 역양자화부, 역변환부, 후처리부(171), 픽쳐 저장부(172), 감산부 및 가산부(168)를 포함한다.

픽쳐 분할부(160)는 입력되는 비디오 신호를 분석하여 픽쳐를 가장 큰 코딩 유닛(LCU:Largest Coding Unit)마다 소정 크기의 코딩 유닛으로 분할하여 예측 모드를 결정하고, 상기 코딩 유닛별로 예측 유닛의 크기를 결정한다.

그리고, 픽쳐 분할부(160)는 부호화할 예측 유닛을 예측 모드(또는 예측 방법)에 따라 인트라 예측부(169) 또는 인터 예측부(170)로 보낸다. 또한, 픽쳐 분할부(160)는 부호화할 예측 유닛을 감산부로 보낸다.

픽쳐는 복수의 슬라이스로 구성되고, 슬라이스는 복수개의 최대 부호화 단위(Largest coding unit: LCU)로 구성될 수 있다.

상기 LCU는 복수개의 부호화 단위(CU)로 분할될 수 있고, 부호기는 분할여부를 나타내는 정보(flag)를 비트스트림에 추가할 수 있다. 복호기는 LCU의 위치를 어드레스(LcuAddr)를 이용하여 인식할 수 있다.

분할이 허용되지 않는 경우의 부호화 단위(CU)는 예측 단위(Prediction unit: PU)로 간주되고, 복호기는 PU의 위치를 PU인덱스를 이용하여 인식할 수 있다.

예측 단위(PU)는 복수개의 파티션으로 나뉠 수 있다. 또한 예측 단위(PU)는 복수개의 변환 단위(Transform unit: TU)로 구성될 수 있다.

이 경우, 픽쳐 분할부(160)는 결정된 부호화 모드에 따른 소정 크기의 블록 단위(예를 들면, PU 단위 또는 TU 단위)로 영상 데이터를 감산부로 보낼 수 있다.

동영상 부호화 단위로 CTB (Coding Tree Block)을 사용하며, 이 때 CTB는 다양한 정사각형 모양으로 정의된다. CTB는 코딩단위 CU(Coding Unit)라고 부른다.

코딩단위(CU)는 분할에 따른 쿼드트리(Quad Tree)의 형태를 가질 수 있다. 또한, QTBT(Quadtree plus binary tree) 분할의 경우 코딩단위는 상기 쿼드트리 또는 단말 노드에서 이진 분할된 바이너리 트리(Binary Tree)의 형태를 가질 수 있으며, 부호화기의 표준의 따라 최대 크기가 256X256에서 64X64로 구성될 수 있다.

또한, 보다 정밀하고 효율적인 부호화 및 복호화를 위하여, 본 발명의 실시 예에 따른 부호화 장치(10)는 쿼드 트리 및 이진 트리 분할에 의해, 특정 방향 길이가 길게 분할된 코딩 유닛의 가장자리 영역 등을 용이하게 분할하게 할 수 있는 삼진 트리(ternary tree) 또는 삼중 트리(triple tree) 구조로 코딩 유닛을 분할할 수도 있다. 나아가, 분할 방식이 다중화되는 것을 지원하기 위해, 복수 타입의 트리 구조 분할을 지원하는 멀티 타입 트리(multi type tree)의 구조도 고려될 수 있다.

여기서, 멀티 타입 트리 또는 삼진 트리 구조는 본 발명의 실시 예에 따른 가상 현실 영상에 대응하는 패딩 및 블렌딩 처리에 있어서 보다 효과적으로 이용될 수 있으며, 멀티 타입 트리 또는 삼진 트리 구조의 분할은 별도 제한 없이 모든 코딩 유닛에 대해 처리될 수 있다. 그러나, 전술한 바와 같이 부호화 및 복호화 효율을 고려하면, 특정 조건의 코딩 유닛에 대하여만 멀티 타입 트리 또는 삼진 트리 구조를 허용하는 것이 바람직할 수 있다.

또한, 멀티 타입 트리 또는 삼진 트리 구조는 코딩 트리 유닛에 대한 다양한 방식의 삼진 분할이 필요할 수 있으나, 부호화 및 복호화 복잡도 및 시그널링에 의한 전송 대역폭을 고려하여, 최적화된 소정 형태만이 허용되는 것이 바람직할 수 있다.

따라서, 픽쳐 분할부(160)는 현재 코딩 유닛의 분할을 결정함에 있어서, 현재 코딩 유닛이 미리 설정된 조건에 대항하는 경우에만 특정 형태의 삼진 트리 구조로의 분할여부를 판단 및 결정할 수 있다. 또한, 이와 같은 삼진 트리의 허용에 따라, 바이너리 트리의 분할 비율도 1:1만이 아닌 3:1, 1:3 등으로 확장 및 가변될 수 있다. 따라서, 본 발명의 실시 예에 따른 코딩 유닛의 분할 구조는 비율에 따라 쿼드 트리, 이진 트리 또는 삼진 트리로 세분화 분할되는 복합 트리 구조를 포함할 수 있다.

본 발명의 실시 예에 따르면, 픽쳐 분할부(160)는 블록의 최대 사이즈(예를 들어, 픽셀 기반 128 x 128, 256 x 256 등)에 대응하여, 쿼드 트리 분할을 처리하고, 쿼드 트리 분할된 단말 노드에 대응하는 이중 트리 구조 및 삼중 트리 구조 분할 중 적어도 하나를 처리하는 복합 분할 처리를 수행할 수 잇다.

특히, 본 발명의 실시 예에 따르면 픽쳐 분할부(110)는 분할 테이블에 따라, 현재 블록의 특성 및 사이즈에 대응하는 이진 트리 분할인 제1 이진 분할(BINARY 1), 제2 이진 분할(BINARY 2)과, 삼진 트리 분할인 제1 삼진 분할(TRI 1) 또는 제2 삼진 분할(TRI 2) 중 어느 하나의 분할 구조를 결정할 수 있다.

여기서, 제1 이진 분할은 N:N의 비율을 갖는 수직 또는 수평 분할에 대응할 수 있으며, 제2 이진 분할은 3N:N 또는 N:3N의 비율을 갖는 수직 또는 수평 분할에 대응될 수 있고, 각 이진 분할된 root CU는 분할 테이블에 명시된 각 사이즈의 CU0 및 CU1으로 분할될 수 있다.

한편, 제1 삼진 분할은 N:2N:N의 비율을 갖는 수직 또는 수평 분할에 대응할 수 있으며, 제2 삼진 분할은 N:6N:N의 비율을 갖는 수직 또는 수평 분할에 대응될 수 있고, 각 삼진 분할된 root CU는 분할 테이블에 명시된 각 사이즈의 CU0, CU1 및 CU2로 분할될 수 있다.

예를 들어, 픽쳐 분할부(160)는 최대 크기가 64X64인 경우, 최대 코딩단위 LCU(Largest Coding Unit)일 때 깊이(Depth)를 0으로 하여 깊이가 3이 될 때까지, 즉 8X8크기의 코딩단위(CU)까지 재귀적(Recursive)으로 최적의 예측단위를 찾아 부호화를 수행한다. 또한, 예를 들어 QTBT로 분할된 단말 노드의 코딩 유닛에 대해, PU(Prediction Unit) 및 TU(Transform Unit)는 상기 분할된 코딩 유닛과 동일한 형태를 갖거나 더 분할된 형태를 가질 수 있다.

예측을 수행하는 예측단위는 PU(Prediction Unit)로 정의되며, 각 코딩단위(CU)는 다수개의 블록으로 분할된 단위의 예측이 수행되며, 정사각형과 직사각형의 형태로 나뉘어 예측을 수행한다.

변환부는 입력된 예측 유닛의 원본 블록과 인트라 예측부(169) 또는 인터 예측부(170)에서 생성된 예측 블록의 잔차신호인 잔차 블록을 변환한다. 상기 잔차 블록은 코딩 유닛 또는 예측 유닛으로 구성된다. 코딩 유닛 또는 예측 유닛으로 구성된 잔차 블록은 최적의 변환 단위(Transform Unit)로 분할되어 변환된다. 예측 모드(intra or inter)에 따라 서로 다른 변환 매트릭스가 결정될 수 있다. 또한, 인트라 예측의 잔차 신호는 인트라 예측 모드에 따라 방향성을 가지므로 인트라 예측 모드에 따라 적응적으로 변환 매트릭스가 결정될 수 있다.

변환 단위는 2개(수평, 수직)의 1차원 변환 매트릭스에 의해 변환될 수 있다. 예를 들어, 인터 예측의 경우에는 미리 결정된 1개의 변환 매트릭스가 결정된다.

반면에, 인트라 예측의 경우, 인트라 예측 모드가 수평인 경우에는 잔차 블록이 수직방향으로의 방향성을 가질 확률이 높아지므로, 수직방향으로는 DCT 기반의 정수 매트릭스를 적용하고, 수평방향으로는 DST 기반 또는 KLT 기반의 정수 매트릭스를 적용한다. 인트라 예측 모드가 수직인 경우에는 수직방향으로는 DST 기반 또는 KLT 기반의 정수 매트릭스를, 수평 방향으로는 DCT 기반의 정수 매트릭스를 적용한다.

DC 모드의 경우에는 양방향 모두 DCT 기반 정수 매트릭스를 적용한다. 또한, 인트라 예측의 경우, 변환 단위의 크기에 의존하여 변환 매트릭스가 적응적으로 결정될 수도 있다.

양자화부는 상기 변환 매트릭스에 의해 변환된 잔차 블록의 계수들을 양자화하기 위한 양자화 스텝 사이즈를 결정한다. 양자화 스텝 사이즈는 미리 정해진 크기 이상의 부호화 단위(이하, 양자화 유닛이라 함)별로 결정된다.

상기 미리 정해진 크기는 8x8 또는 16x16일 수 있다. 그리고, 결정된 양자화 스텝 사이즈 및 예측 모드에 따라 결정되는 양자화 매트릭스를 이용하여 상기 변환 블록의 계수들을 양자화한다.

양자화부는 현재 양자화 유닛의 양자화 스텝 사이즈 예측자로서 현재 양자화 유닛에 인접한 양자화 유닛의 양자화 스텝 사이즈를 이용한다.

양자화부는 현재 양자화 유닛의 좌측 양자화 유닛, 상측 양자화 유닛, 좌상측 양자화 유닛 순서로 검색하여 1개 또는 2개의 유효한 양자화 스텝 사이즈를 이용하여 현재 양자화 유닛의 양자화 스텝 사이즈 예측자를 생성할 수 있다.

예를 들어, 상기 순서로 검색된 유효한 첫번째 양자화 스텝 사이즈를 양자화 스텝 사이즈 예측자로 결정할 수 있다. 또한, 상기 순서로 검색된 유효한 2개의 양자화 스텝 사이즈의 평균값을 양자화 스텝 사이즈 예측자로 결정할 수도 있고, 1개만이 유효한 경우에는 이를 양자화 스텝 사이즈 예측자로 결정할 수 있다.

상기 양자화 스텝 사이즈 예측자가 결정되면, 현재 부호화 단위의 양자화 스텝 사이즈와 상기 양자화 스텝 사이즈 예측자 사이의 차분값을 엔트로피 부호화부로 전송한다.

한편, 현재 코딩 유닛의 좌측 코딩 유닛, 상측 코딩 유닛, 좌상측 코딩 유닛 모두가 존재하지 않을 가능성이 있다. 반면에 최대 코딩 유닛 내의 부호화 순서 상으로 이전에 존재하는 코딩 유닛이 존재할 수 있다.

따라서, 현재 코딩 유닛에 인접한 양자화 유닛들과 상기 최대 코딩 유닛 내에서는 부호화 순서상 바로 이전의 양자화 유닛의 양자화 스텝 사이즈가 후보자가 될 수 있다.

이 경우, 1) 현재 코딩 유닛의 좌측 양자화 유닛, 2) 현재 코딩 유닛의 상측 양자화 유닛, 3) 현재 코딩 유닛의 좌상측 양자화 유닛, 4) 부호화 순서상 바로 이전의 양자화 유닛 순서로 우선순위를 둘 수 있다. 상기 순서는 바뀔 수 있고, 상기 좌상측 양자화 유닛은 생략될 수도 있다.

상기 양자화된 변환 블록은 역양자화부와 스캐닝부로 제공된다.

스캐닝부는 양자화된 변환 블록의 계수들을 스캐닝하여 1차원의 양자화 계수들로 변환한다. 양자화 후의 변환 블록의 계수 분포가 인트라 예측 모드에 의존적일 수 있으므로, 스캐닝 방식은 인트라 예측 모드에 따라 결정된다.

또한, 계수 스캐닝 방식은 변환 단위의 크기에 따라 달리 결정될 수도 있다. 상기 스캔 패턴은 방향성 인트라 예측 모드에 따라 달라질 수 있다. 양자화 계수들의 스캔순서는 역방향으로 스캔한다.

상기 양자화된 계수들이 복수개의 서브셋으로 분할된 경우에는 각각의 서브셋 내의 양자화 계수들에 동일한 스캔패턴을 적용한다. 서브셋 간의 스캔패턴은 지그재그 스캔 또는 대각선 스캔을 적용한다. 스캔 패턴은 DC를 포함하는 메인 서브셋으로부터 순방향으로 잔여 서브셋들로 스캔하는 것이 바람직하나, 그 역방향도 가능하다.

또한, 서브셋 내의 양자화된 계수들의 스캔패턴과 동일하게 서브셋 간의 스캔패턴을 설정할 수도 있다. 이 경우, 서브셋 간의 스캔패턴이 인트라 예측 모드에 따라 결정된다. 한편, 부호기는 상기 변환 유닛내의 0이 아닌 마지막 양자화 계수의 위치를 나타낼 수 있는 정보를 복호기로 전송한다.

각 서브셋 내의 0이 아닌 마지막 양자화 계수의 위치를 나타낼 수 있는 정보도 복호기로 전송할 수 있다.

역양자화(135)는 상기 양자화된 양자화 계수를 역양자화한다. 역변환부는 역양자화된 변환 계수를 공간 영역의 잔차 블록으로 복원한다. 가산기는 상기 역변환부에 의해 복원된 잔차블록과 인트라 예측부(169) 또는 인터 예측부(170)로부터의 수신된 예측 블록을 합쳐서 복원 블록을 생성한다.

후처리부(171)는 복원된 픽쳐에 발생하는 블록킹 효과의 제거하기 위한 디블록킹 필터링 과정, 화소 단위로 원본 영상과의 차이값을 보완하기 위한 적응적 오프셋 적용 과정 및 코딩 유닛으로 원본 영상과의 차이값을 보완하기 위한 적응적 루프 필터링 과정을 수행한다.

디블록킹 필터링 과정은 미리 정해진 크기 이상의 크기를 갖는 예측 유닛 및 변환 단위의 경계에 적용하는 것이 바람직하다. 상기 크기는 8x8일 수 있다. 상기 디블록킹 필터링 과정은 필터링할 경계(boundary)를 결정하는 단계, 상기 경계에 적용할 경계 필터링 강도(bounary filtering strength)를 결정하는 단계, 디블록킹 필터의 적용 여부를 결정하는 단계, 상기 디블록킹 필터를 적용할 것으로 결정된 경우, 상기 경계에 적용할 필터를 선택하는 단계를 포함한다.

상기 디블록킹 필터의 적용 여부는 i) 상기 경계 필터링 강도가 0보다 큰지 여부 및 ii) 상기 필터링할 경계에 인접한 2개의 블록(P 블록, Q블록) 경계 부분에서의 화소값들이 변화 정도를 나타내는 값이 양자화 파라미터에 의해 결정되는 제1 기준값보다 작은지 여부에 의해 결정된다.

상기 필터는 적어도 2개 이상인 것이 바람직하다. 블록 경계에 위치한 2개의 화소들간의 차이값의 절대값이 제2 기준값보다 크거나 같은 경우에는 상대적으로 약한 필터링을 수행하는 필터를 선택한다.

상기 제2 기준값은 상기 양자화 파라미터 및 상기 경계 필터링 강도에 의해 결정된다.

적응적 오프셋 적용 과정은 디블록킹 필터가 적용된 영상내의 화소와 원본 화소간의 차이값(distortion)을 감소시키기 위한 것이다. 픽쳐 또는 슬라이스 단위로 상기 적응적 오프셋 적용 과정을 수행할지 여부를 결정할 수 있다.

픽쳐 또는 슬라이스는 복수개의 오프셋 영역들로 분할될 수 있고, 각 오프셋 영역별로 오프셋 타입이 결정될 수 있다. 오프셋 타입은 미리 정해진 개수(예를 들어, 4개)의 에지 오프셋 타입과 2개의 밴드 오프셋 타입을 포함할 수 있다.

오프셋 타입이 에지 오프셋 타입일 경우에는 각 화소가 속하는 에지 타입을 결정하여, 이에 대응하는 오프셋을 적용한다. 상기 에지 타입은 현재 화소와 인접하는 2개의 화소값의 분포를 기준으로 결정한다.

적응적 루프 필터링 과정은 디블록킹 필터링 과정 또는 적응적 오프셋 적용 과정을 거친 복원된 영상과 원본 영상을 비교한 값을 기초로 필터링을 수행할 수 있다. 적응적 루프 필터링은 상기 결정된 ALF는 4x4 크기 또는 8x8 크기의 블록에 포함된 화소 전체에 적용될 수 있다.

적응적 루프 필터의 적용 여부는 코딩 유닛별로 결정될 수 있다. 각 코딩 유닛에 따라 적용될 루프 필터의 크기 및 계수는 달라질 수 있다. 코딩 유닛별 상기 적응적 루프 필터의 적용 여부를 나타내는 정보는 각 슬라이스 헤더에 포함될 수 있다.

색차 신호의 경우에는, 픽쳐 단위로 적응적 루프 필터의 적용 여부를 결정할 수 있다. 루프 필터의 형태도 휘도와 달리 직사각형 형태를 가질 수 있다.

적응적 루프 필터링은 슬라이스별로 적용 여부를 결정할 수 있다. 따라서, 현재 슬라이스에 적응적 루프 필터링이 적용되는지 여부를 나타내는 정보는 슬라이스 헤더 또는 픽쳐 헤더에 포함된다.

현재 슬라이스에 적응적 루프 필터링이 적용됨을 나타내면, 슬라이스 헤더 또는 픽쳐 헤더는 추가적으로 적응적 루프 필터링 과정에 사용되는 휘도 성분의 수평 및/또는 수직 방향의 필터 길이를 나타내는 정보를 포함한다.

슬라이스 헤더 또는 픽쳐 헤더는 필터 세트의 수를 나타내는 정보를 포함할 수 있다. 이때 필터 세트의 수가 2 이상이면, 필터 계수들이 예측 방법을 사용하여 부호화될 수 있다. 따라서, 슬라이스 헤더 또는 픽쳐 헤더는 필터 계수들이 예측 방법으로 부호화되는지 여부를 나타내는 정보를 포함할 수 있으며, 예측 방법이 사용되는 경우에는 예측된 필터 계수를 포함한다.

한편, 휘도 뿐만 아니라, 색차 성분들도 적응적으로 필터링될 수 있다. 따라서, 색차 성분 각각이 필터링되는지 여부를 나타내는 정보를 슬라이스 헤더 또는 픽쳐 헤더가 포함할 수 있다. 이 경우, 비트수를 줄이기 위해 Cr과 Cb에 대한 필터링 여부를 나타내는 정보를 조인트 코딩(즉, 다중화 코딩)할 수 있다.

이때, 색차 성분들의 경우에는 복잡도 감소를 위해 Cr과 Cb를 모두 필터링하지 않는 경우가 가장 빈번할 가능성이 높으므로, Cr과 Cb를 모두 필터링하지 않는 경우에 가장 작은 인덱스를 할당하여 엔트로피 부호화를 수행한다.

그리고, Cr 및 Cb를 모두 필터링하는 경우에 가장 큰 인덱스를 할당하여 엔트로피 부호화를 수행한다.

픽쳐 저장부(172)는 후처리된 영상 데이터를 후처리부(171)로부터 입력받아 픽쳐(picture) 단위로 영상을 복원하여 저장한다. 픽쳐는 프레임 단위의 영상이거나 필드 단위의 영상일 수 있다. 픽쳐 저장부(172)는 다수의 픽쳐를 저장할 수 있는 버퍼(도시되지 않음)를 구비한다.

인터 예측부(170)는 상기 픽쳐 저장부(172)에 저장된 적어도 하나 이상의 참조 픽쳐를 이용하여 움직임 추정을 수행하고, 참조 픽쳐를 나타내는 참조 픽쳐 인덱스 및 움직임 벡터를 결정한다.

그리고, 결정된 참조 픽쳐 인덱스 및 움직임 벡터에 따라, 픽쳐 저장부(172)에 저장된 다수의 참조 픽쳐들 중 움직임 추정에 이용된 참조 픽쳐로부터, 부호화하고자 하는 예측 유닛에 대응하는 예측 블록을 추출하여 출력한다.

인트라 예측부(169)는 현재 예측 유닛이 포함되는 픽처 내부의 재구성된 화소값을 이용하여 인트라 예측 부호화를 수행한다.

인트라 예측부(169)는 예측 부호화할 현재 예측 유닛을 입력받아 현재 블록의 크기에 따라 미리 설정된 개수의 인트라 예측 모드 중에 하나를 선택하여 인트라 예측을 수행한다.

인트라 예측부(169)는 인트라 예측 블록을 생성하기 위해 참조 화소를 적응적으로 필터링한다. 참조 화소가 이용 가능하지 않은 경우에는 이용 가능한 참조 화소들을 이용하여 참조 화소들을 생성할 수 있다.

엔트로피 부호화부는 양자화부에 의해 양자화된 양자화 계수, 인트라 예측부(169)로부터 수신된 인트라 예측 정보, 인터 예측부(170)로부터 수신된 움직임 정보 등을 엔트로피 부호화한다.

도시되지는 않았으나, 인터 예측부(170)는 움직임 정보 결정부, 움직임 정보 부호화 모드 결정부, 움직임 정보 부호화부, 예측 블록 생성부, 잔차 블록 생성부, 잔차 블록 부호화부 및 멀티플렉서를 포함하여 구성될 수 있다.

움직임 정보 결정부는 현재 블록의 움직임 정보를 결정한다. 움직임 정보는 참조 픽쳐 인덱스와 움직임 벡터를 포함한다. 참조 픽쳐 인덱스는 이전에 부호화되어 복원된 픽쳐 중 어느 하나를 나타낸다.

현재 블록이 단방향 인터 예측 부호화되는 경우에는 리스트 0(L0)에 속하는 참조 픽쳐들 중의 어느 하나를 나타낸다. 반면에, 현재 블록이 양방향 예측 부호화되는 경우에는 리스트 0(L0)의 참조 픽쳐들 중 하나를 나타내는 참조픽쳐 인덱스와 리스트 1(L1)의 참조 픽쳐들 중의 하나를 나타내는 참조픽쳐 인덱스를 포함할 수 있다.

또한, 현재 블록이 양방향 예측 부호화되는 경우에는 리스트 0과 리스트 1을 결합하여 생성된 복합 리스트(LC)의 참조 픽쳐들 중의 1개 또는 2개의 픽쳐를 나타내는 인덱스를 포함할 수 있다.

*움직임 벡터는 각각의 참조픽쳐 인덱스가 나타내는 픽쳐 내의 예측 블록의 위치를 나타낸다. 움직임 벡터는 화소단위(정수단위)일수도 있으나, 서브화소단위일 수도 있다.

예를 들어, 1/2, 1/4, 1/8 또는 1/16 화소의 해상도를 가질 수 있다. 움직임 벡터가 정수단위가 아닐 경우에는 예측 블록은 정수 단위의 화소들로부터 생성된다.

움직임 정보 부호화 모드 결정부는 현재 블록의 움직임 정보를 스킵 모드로 부호화할지, 머지 모드로 부호화할지, AMVP 모드로 부호화할지를 결정한다.

스킵 모드는 현재 블록의 움직임 정보와 동일한 움직임 정보를 갖는 스킵 후보자가 존재하고, 잔차신호가 0인 경우에 적용된다. 또한, 스킵 모드는 현재 블록이 코딩 유닛과 사이즈가 같을 때 적용된다. 현재 블록은 예측 유닛으로 볼 수 있다.

머지 모드는 현재 블록의 움직임 정보와 동일한 움직임 정보를 갖는 머지 후보자가 존재할 때 적용된다. 머지 모드는 현재 블록이 코딩 유닛과 사이즈가 다르거나, 사이즈가 같을 경우에는 잔차 신호가 존재하는 경우에 적용된다. 머지 후보자와 스킵 후보자는 동일할 수 있다.

AMVP 모드는 스킵 모드 및 머지 모드가 적용되지 않을 때 적용된다. 현재 블록의 움직임 벡터와 가장 유사한 움직임 벡터를 갖는 AMVP 후보자를 AMVP 예측자로 선택한다.

움직임 정보 부호화부는 움직임 정보 부호화 모드 결정부에 의해 결정된 방식에 따라 움직임 정보를 부호화한다. 움직임 정보 부호화 모드가 스킵 모드 또는 머지 모드일 경우에는 머지 움직임 벡터 부호화 과정을 수행한다. 움직임 정보 부호화 모드가 AMVP일 경우에는 AMVP 부호화 과정을 수행한다.

예측 블록 생성부는 현재 블록의 움직임 정보를 이용하여 예측 블록을 생성한다. 움직임 벡터가 정수 단위일 경우에는, 참조픽쳐 인덱스가 나타내는 픽쳐 내의 움직임 벡터가 나타내는 위치에 대응하는 블록을 복사하여 현재 블록의 예측 블록을 생성한다.

그러나, 움직임 벡터가 정수 단위가 아닐 경우에는, 참조픽쳐 인덱스가 나타내는 픽쳐내의 정수 단위 화소들로 부터 예측 블록의 화소들을 생성한다.

이 경우, 휘도 화소의 경우에는 8탭의 보간 필터를 사용하여 예측 화소를 생성할 수 있다. 색차 화소의 경우에는 4탭 보간 필터를 사용하여 예측 화소를 생성할 수 있다.

잔차 블록 생성부는 현재 블록과 현재 블록의 예측 블록을 이용하여 잔차 블록을 생성한다. 현재 블록의 크기가 2Nx2N인 경우에는 현재 블록과 현재 블록에 대응하는 2Nx2N 크기의 예측 블록을 이용하여 잔차 블록을 생성한다.

그러나, 예측에 이용되는 현재 블록의 크기가 2NxN 또는 Nx2N인 경우에는 2Nx2N을 구성하는 2개의 2NxN 블록 각각에 대한 예측 블록을 구한 후, 상기 2개의 2NxN 예측 블록을 이용하여 2Nx2N 크기의 최종 예측 블록을 생성할 수 있다.

그리고, 상기 2Nx2N 크기의 예측 블록을 이용하여 2Nx2N 의 잔차 블록을 생성할 수도 있다. 2NxN 크기의 2개의 예측블록들의 경계부분의 불연속성을 해소하기 위해 경계 부분의 픽셀들을 오버랩 스무딩할 수 있다.

잔차 블록 부호화부는 생성된 잔차 블록을 하나 이상의 변환 유닛으로 나눈다. 그리고, 각 변환 유닛을 변환 부호화, 양자화 및 엔트로피 부호화된다. 이때, 변환 유닛의 크기는 잔차 블록의 크기에 따라 쿼드트리 방식으로 결정될 수 있다.

잔차 블록 부호화부는 인터 예측 방법에 의해 생성된 잔차 블록을 정수기반 변환 매트릭스를 이용하여 변환한다. 상기 변환 매트릭스는 정수기반 DCT 매트릭스이다.

잔차 블록 부호화부는 상기 변환 매트릭스에 의해 변환된 잔차 블록의 계수들을 양자화하기 위해 양자화 매트릭스를 이용한다. 상기 양자화 매트릭스는 양자화 파라미터에 의해 결정된다.

상기 양자화 파라미터는 미리 정해진 크기 이상의 코딩 유닛별로 결정된다. 상기 미리 정해진 크기는 8x8 또는 16x16일 수 있다. 따라서, 현재 코딩 유닛이 상기 미리 정해진 크기보다 작은 경우에는 상기 미리 정해진 크기 내의 복수개의 코딩 유닛 중 부호화 순서상 첫번째 코딩 유닛의 양자화 파라미터만을 부호화하고, 나머지 코딩 유닛의 양자화 파라미터는 상기 파라미터와 동일하므로 부호화할 필요가 없다.

그리고, 결정된 양자화 파라미터 및 예측 모드에 따라 결정되는 양자화 매트릭스를 이용하여 상기 변환 블록의 계수들을 양자화한다.

상기 미리 정해진 크기 이상의 코딩 유닛별로 결정되는 양자화 파라미터는 현재 코딩 유닛에 인접한 코딩 유닛의 양자화 파라미터를 이용하여 예측 부호화된다. 현재 코딩 유닛의 좌측 코딩 유닛, 상측 코딩 유닛 순서로 검색하여 유효한 1개 또는 2개의 유효한 양자화 파라미터를 이용하여 현재 코딩 유닛의 양자화 파라미터 예측자를 생성할 수 있다.

예를 들어, 상기 순서로 검색된 유효한 첫번째 양자화 파라미터를 양자화 파라미터 예측자로 결정할 수 있다. 또한, 좌측 코딩 유닛, 부호화 순서상 바로 이전의 코딩 유닛 순으로 검색하여 유효한 첫번째 양자화 파라미터를 양자화 파라미터 예측자로 결정할 수 있다.

양자화된 변환 블록의 계수들은 스캐닝되어 1차원의 양자화 계수들로 변환한다. 스캐닝 방식은 엔트로피 부호화 모드에 따라 달리 설정될 수 있다. 예를 들어, CABAC으로 부호화될 경우에는 인터 예측 부호화된 양자화 계수들은 미리 정해진 하나의 방식(지그재그, 또는 대각선 방향으로의 래스터 스캔)으로 스캐닝될 수 있다. 반면에 CAVLC으로 부호화될 경우에는 상기 방식과 다른 방식으로 스캐닝될 수 있다.

예를 들어, 스캐닝 방식이 인터의 경우에는 지그재그, 인트라의 경우에는 인트라 예측 모드에 따라 결정될 수 있다. 또한, 계수 스캐닝 방식은 변환 단위의 크기에 따라 달리 결정될 수도 있다.

상기 스캔 패턴은 방향성 인트라 예측 모드에 따라 달라질 수 있다. 양자화 계수들의 스캔순서는 역방향으로 스캔한다.

멀티플렉서는 상기 움직임 정보 부호화부에 의해 부호화된 움직임 정보들과 상기 잔차 블록 부호화부에 의해 부호화된 잔차 신호들을 다중화한다. 상기 움직임 정보는 부호화 모드에 따라 달라질 수 있다.

즉, 스킵 또는 머지일 경우에는 예측자를 나타내는 인덱스만을 포함한다. 그러나, AMVP일 경우에는 현재 블록의 참조 픽쳐 인덱스, 차분 움직임 벡터 및 AMVP 인덱스를 포함한다.

한편, 전술한 인터 예측부(170)의 동작은 이차원 영상의 처리를 기준으로 설명하였으나, 본 발명의 실시 예에 따른 360도 영상의 이차원 변환 영상을 처리하는 경우, 인터 예측부(170)는 전술한 화면 간 예측 정보 유도부(11) 및 예측 정보 기반 움직임 보상부(12)를 포함할 수 있으며, 전술한 삼차원 구체 벡터 기반의 움직임 예측 정보 획득 및 보상 프로세스를 더 처리할 수 있다.

이하, 인트라 예측부(169)의 동작에 대한 일실시예를 상세히 설명하기로 한다.

먼저, 픽쳐 분할부(160)에 의해 예측 모드 정보 및 예측 블록의 크기를 수신하며, 예측 모드 정보는 인트라 모드를 나타낸다. 예측 블록의 크기는 64x64, 32x32, 16x16, 8x8, 4x4등의 정방형일 수 있으나, 이에 한정하지 않는다. 즉, 상기 예측 블록의 크기가 정방형이 아닌 비정방형일 수도 있다.

다음으로, 예측 블록의 인트라 예측 모드를 결정하기 위해 참조 화소를 픽쳐 저장부(172)로부터 읽어 들인다.

상기 이용 가능하지 않은 참조화소가 존재하는지 여부를 검토하여 참조 화소 생성 여부를 판단한다. 상기 참조 화소들은 현재 블록의 인트라 예측 모드를 결정하는데 사용된다.

현재 블록이 현재 픽쳐의 상측 경계에 위치하는 경우에는 현재 블록의 상측에 인접한 화소들이 정의되지 않는다. 또한, 현재 블록이 현재 픽쳐의 좌측 경계에 위치하는 경우에는 현재 블록의 좌측에 인접한 화소들이 정의되지 않는다.

이러한 화소들은 이용 가능한 화소들이 아닌 것으로 판단한다. 또한, 현재 블록이 슬라이스 경계에 위치하여 슬라이스의 상측 또는 좌측에 인접하는 화소들이 먼저 부호화되어 복원되는 화소들이 아닌 경우에도 이용 가능한 화소들이 아닌 것으로 판단한다.

상기와 같이 현재 블록의 좌측 또는 상측에 인접한 화소들이 존재하지 않거나, 미리 부호화되어 복원된 화소들이 존재하지 않는 경우에는 이용 가능한 화소들만을 이용하여 현재 블록의 인트라 예측 모드를 결정할 수도 있다.

그러나, 현재 블록의 이용 가능한 참조화소들을 이용하여 이용 가능하지 않은 위치의 참조화소들을 생성할 수도 있다. 예를 들어, 상측 블록의 화소들이 이용 가능하지 않은 경우에는 좌측 화소들의 일부 또는 전부를 이용하여 상측 화소들을 생성할 수 있고, 그 역으로도 가능하다.

즉, 이용 가능하지 않은 위치의 참조화소로부터 미리 정해진 방향으로 가장 가까운 위치의 이용 가능한 참조화소를 복사하여 참조화소로 생성할 수 있다. 미리 정해진 방향에 이용 가능한 참조화소가 존재하지 않는 경우에는 반대 방향의 가장 가까운 위치의 이용 가능한 참조화소를 복사하여 참조화소로 생성할 수 있다.

한편, 현재 블록의 상측 또는 좌측 화소들이 존재하는 경우에도 상기 화소들이 속하는 블록의 부호화 모드에 따라 이용 가능하지 않은 참조 화소로 결정될 수 있다.

예를 들어, 현재 블록의 상측에 인접한 참조 화소가 속하는 블록이 인터 부호화되어 복원된 블록일 경우에는 상기 화소들을 이용 가능하지 않은 화소들로 판단할 수 있다.

이 경우에는 현재 블록에 인접한 블록이 인트라 부호화되어 복원된 블록에 속하는 화소들을 이용하여 이용 가능한 참조 화소들을 생성할 수 있다. 이 경우에는 부호기에서 부호화 모드에 따라 이용 가능한 참조 화소를 판단한다는 정보를 복호기로 전송해야 한다.

다음으로, 상기 참조 화소들을 이용하여 현재 블록의 인트라 예측 모드를 결정한다. 현재 블록에 허용 가능한 인트라 예측 모드의 수는 블록의 크기에 따라 달라질 수 있다. 예를 들어, 현재 블록의 크기가 8x8, 16x16, 32x32인 경우에는 34개의 인트라 예측 모드가 존재할 수 있고, 현재 블록의 크기가 4x4인 경우에는 17개의 인트라 예측 모드가 존재할 수 있다.

상기 34개 또는 17개의 인트라 예측 모드는 적어도 하나 이상의 비방향성 모드(non-directional mode)와 복수개의 방향성 모드들(directional modes)로 구성될 수 있다.

하나 이상의 비방향성 모드는 DC 모드 및/또는 플래너(planar) 모드일수 있다. DC 모드 및 플래너모드가 비방향성 모드로 포함되는 경우에는, 현재 블록의 크기에 관계없이 35개의 인트라 예측 모드가 존재할 수도 있다.

이 때에는 2개의 비방향성 모드(DC 모드 및 플래너 모드)와 33개의 방향성 모드를 포함할 수 있다.

플래너 모드는 현재 블록의 우하측(bottom-right)에 위치하는 적어도 하나의 화소값(또는 상기 화소값의 예측값, 이하 제1 참조값이라 함)과 참조화소들을 이용하여 현재 블록의 예측 블록을 생성한다.

상기한 바와 같이, 본 발명의 일실시예에 따른 동영상 복호화 장치의 구성은 앞서 설명한 동영상 부호화 장치의 구성으로부터 도출될 수 있으며, 예를 들어 앞서 설명한 바와 같은 부호화 과정의 역과정을 수행함으로써 영상을 복호화할 수 있다.

도 10은 본 발명의 일실시예에 따른 동영상 복호화 장치의 구성을 블록도로 도시한 것이다.

도 10을 참조하면, 본 발명에 따른 동영상 복호화 장치는, 엔트로피 복호화부(210), 역양자화/역변환부(220), 가산기(270), 디블록킹 필터(250), 픽쳐 저장부(260), 인트라 예측부(230), 움직임 보상 예측부(240) 및 인트라/인터전환 스위치(280)를 구비한다.

엔트로피 복호화부(210)는, 동영상 부호화 장치로부터 전송되는 부호화 비트 스트림을 복호하여, 인트라 예측 모드 인덱스, 움직임 정보, 양자화 계수 시퀀스 등으로 분리한다. 엔트로피 복호화부(210)는 복호된 움직임 정보를 움직임 보상 예측부(240)에 공급한다.

*엔트로피 복호화부(210)는 상기 인트라 예측 모드 인덱스를 상기 인트라 예측부(230), 역양자화/역변환부(220)로 공급한다. 또한, 상기 엔트로피 복호화부(210)는 상기 역양자화 계수 시퀀스를 역양자화/역변환부(220)로 공급한다.

역양자화/역변환부(220)는 상기 양자화 계수 시퀀스를 2차원 배열의 역양자화 계수로 변환한다. 상기 변환을 위해 복수개의 스캐닝 패턴 중에 하나를 선택한다. 현재 블록의 예측모드(즉, 인트라 예측 및 인터 예측 중의 어느 하나)와 인트라 예측 모드 중 적어도 하나에 기초하여 복수개의 스캐닝 패턴 중 하나를 선택한다.

상기 인트라 예측 모드는 인트라 예측부 또는 엔트로피 복호화부로부터 수신한다.

역양자화/역변환부(220)는 상기 2차원 배열의 역양자화 계수에 복수개의 양자화 매트릭스 중 선택된 양자화 매트릭스를 이용하여 양자화 계수를 복원한다. 복원하고자 하는 현재 블록의 크기에 따라 서로 다른 양자화 매트릭스가 적용되며, 동일 크기의 블록에 대해서도 상기 현재 블록의 예측 모드 및 인트라 예측 모드 중 적어도 하나에 기초하여 양자화 매트릭스를 선택한다.

그리고, 상기 복원된 양자화 계수를 역변환하여 잔차 블록을 복원한다.

가산기(270)는 역양자화/역변환부(220)에 의해 복원된 잔차 블록과 인트라 예측부(230) 또는 움직임 보상 예측부(240)에 의해 생성되는 예측 블록을 가산함으로써, 영상 블록을 복원한다.

디블록킹 필터(250)는 가산기(270)에 의해 생성된 복원 영상에 디블록킹 필터 처리를 실행한다. 이에 따라, 양자화 과정에 따른 영상 손실에 기인하는 디블록킹 아티펙트를 줄일 수 있다.

픽쳐 저장부(260)는 디블록킹 필터(250)에 의해 디블록킹 필터 처리가 실행된 로컬 복호 영상을 유지하는 프레임 메모리이다.

인트라 예측부(230)는 엔트로피 복호화부(210)로부터 수신된 인트라 예측 모드 인덱스에 기초하여 현재 블록의 인트라 예측 모드를 복원한다. 그리고, 복원된 인트라 예측 모드에 따라 예측 블록을 생성한다.

움직임 보상 예측부(240)는 움직임 벡터 정보에 기초하여 픽쳐 저장부(260)에 저장된 픽쳐로부터 현재 블록에 대한 예측 블록을 생성한다. 소수 정밀도의 움직임 보상이 적용될 경우에는 선택된 보간 필터를 적용하여 예측 블록을 생성한다.

여기서, 움직임 보상 예측부(240)의 동작은 이차원 영상의 처리를 기준으로 설명하였으나, 본 발명의 실시 예에 따른 360도 영상의 이차원 변환 영상을 처리하는 경우, 움직임 보상 예측부(240)는 전술한 화면 간 예측 정보 유도부(11) 및 예측 정보 기반 움직임 보상부(12)를 포함할 수 있으며, 전술한 삼차원 구체 벡터 기반의 움직임 예측 정보 획득 및 보상 프로세스를 더 처리할 수 있다.

인트라/인터 전환 스위치(280)는 부호화 모드에 기초하여 인트라 예측부(230)와 움직임 보상 예측부(240)의 어느 하나에서 생성된 예측 블록을 가산기(270)에 제공한다.

이와 같은 방식으로 복원된 현재 블록의 예측 블록과 복호화한 현재 블록의 잔차 블록을 이용하여 현재 블록이 복원된다.

본 발명의 일실시예에 따른 동영상 비트스트림은 하나의 픽처에서의 부호화된 데이터를 저장하는데 사용되는 단위로서, PS(parameter sets)와 슬라이스 데이터를 포함할 수 있다.

PS(parameter sets)는, 각 픽처의 헤드에 상당하는 데이터인 픽처 파라미터 세트(이하 간단히 PPS라 한다)와 시퀀스 파라미터 세트(이하 간단히 SPS라 한다)로 분할된다. 상기 PPS와 SPS는 각 부호화를 초기화하는데 필요한 초기화 정보를 포함할 수 있으며, 본 발명의 실시 예에 따른 공간적 구조 정보(SPATIAL LAYOUT INFORMATION)가 포함될 수 있다.

SPS는 램덤 액세스 유닛(RAU)으로 부호화된 모든 픽처를 복호화하기 위한 공통 참조 정보로서, 프로파일, 참조용으로 사용 가능한 픽처의 최대 수 및 픽처 크기 등을 포함할 수 있다.

PPS는, 랜덤 액세스 유닛(RAU)으로 부호화된 각 픽처에 대해, 픽처를 복호화하기 위한 참조 정보로서 가변 길이 부호화 방법의 종류, 양자화 단계의 초기값 및 다수의 참조 픽처들을 포함할 수 있다.

한편, 슬라이스 헤더(SH)는 슬라이스 단위의 코딩시 해당 슬라이스에 대한 정보를 포함한다.

상술한 본 발명에 따른 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있다.

컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상기 방법을 구현하기 위한 기능적인(function) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

Claims

영상 부호화 장치의 부호화 방법에 있어서,
처리할 가상 현실 영상의 영상 정보를 획득하는 단계;
상기 영상 정보를 전처리하는 단계;
상기 전처리된 영상 정보에 대응하는 화면 간 예측 부호화를 수행하는 단계를 포함하고,
상기 예측 부호화는 삼차원 구체 움직임 벡터를 이용한 AMVP 모드 부호화를 포함하는
영상 부호화 장치의 부호화 방법.
영상 부호화 장치의 복호화 방법에 있어서,
복호화할 가상 현실 영상의 영상 정보를 획득하는 단계;
영상 정보에 대응하는 화면 간 예측 복호화를 수행하는 단계; 및
상기 예측 복호화된 영상 정보를 후처리하는 단계를 포함하고,
상기 예측 부호화는 삼차원 구체 움직임 벡터를 이용한 AMVP 모드 복호화를 포함하는
영상 부호화 장치의 부호화 방법.