WO2013051896A1

WO2013051896A1 - 비디오 부호화/복호화 방법 및 그 장치

Info

Publication number: WO2013051896A1
Application number: PCT/KR2012/008097
Authority: WO
Inventors: 강정원; 김휘용; 이하현; 방건; 최진수; 정원식; 허남호; 김진웅
Original assignee: 한국전자통신연구원
Priority date: 2011-10-05
Filing date: 2012-10-05
Publication date: 2013-04-11

Abstract

본 발명에 따른 비디오 복호화 방법은, 베이스 레이어 영상이 속한 시점과 다른 시점에 속한 영상에 대응하는 제1 복호화 정보를 기반으로, 베이스 레이어 영상에 대응하는 제1 비트스트림에 대해 복호화를 수행하는 단계 및 베이스 레이어 영상에 대응하는 제2 복호화 정보, 및 인핸스먼트 레이어 영상이 속한 시점과 다른 시점에 속한 영상에 대응하는 제3 복호화 정보를 기반으로, 인핸스먼트 레이어 영상에 대응하는 제2 비트스트림에 대해 복호화를 수행하는 단계를 포함한다.

Description

비디오 부호화/복호화 방법 및 그 장치

본 발명은 영상 처리에 관한 것으로서, 보다 상세하게는 비디오 부호화/복호화 방법 및 장치에 관한 것이다.

최근 HD(High Definition) 해상도를 가지는 방송 서비스가 국내뿐만 아니라 세계적으로 확대되면서, 많은 사용자들이 고해상도, 고화질의 영상에 익숙해지고 있으며 이에 따라 많은 기관들이 차세대 영상기기에 대한 개발에 박차를 가하고 있다. 또한 HDTV와 더불어 HDTV의 4배 이상의 해상도를 갖는 UHD(Ultra High Definition)에 대한 관심이 증대되면서 보다 높은 해상도, 고화질의 영상에 대한 압축기술이 요구되고 있다.

영상 압축을 위해, 시간적으로 이전 및/또는 이후의 픽쳐로부터 현재 픽쳐에 포함된 픽셀 값을 예측하는 인터(inter) 예측 기술, 현재 픽쳐 내의 픽셀 정보를 이용하여 현재 픽쳐에 포함된 픽셀 값을 예측하는 인트라(intra) 예측 기술, 출현 빈도가 높은 심볼(symbol)에 짧은 코드를 할당하고 출현 빈도가 낮은 심볼에 긴 코드를 할당하는 엔트로피 부호화 기술 등이 사용될 수 있다.

영상 압축 기술에는 유동적인 네트워크 환경을 고려하지 않고 하드웨어의 제한적인 동작 환경하에서 일정한 네트워크 대역폭을 제공하는 기술이 있다. 그러나 수시로 대역폭이 변화하는 네트워크 환경에 적용되는 영상 데이터를 압축하기 위해서는 새로운 압축 기술이 요구되고, 이를 위해 스케일러블(scalable) 영상 부호화/복호화 방법이 사용될 수 있다.

한편, 3D 영상을 이용한 디지털 방송 서비스는, UDTV 서비스와 함께 HDTV에 이은 차세대 방송 서비스로 주목 받고 있으며, 고화질의 상용 3D 디스플레이의 출시 등과 같은 관련 기술의 발달을 바탕으로, 각 가정에서 3D 영상을 즐길 수 있는 3DTV 서비스가 수년 내에 제공될 수 있을 것으로 예상된다. 3D 영상을 제공하기 위해, 다시점(multiview) 영상 부호화/복호화 방법이 사용될 수 있다. 3D 비디오 서비스에서는, 공간적으로 분할된 디스플레이 패널(display panel)에 두 시점 (視點; view) 이상의 영상이 표시되며, 각각의 개별 시점의 영상들은 동시에 재생될 수 있다. 따라서, 사람의 두 눈에 각각 서로 다른 시점의 영상이 제공될 수 있고, 재생되는 영상들은 3차원 영상으로 인식될 수 있다.

본 발명의 기술적 과제는 공간, 시간, 화질 및 시점 스케일러빌리티를 지원하는 비디오 부호화 방법 및 장치를 제공함에 있다.

본 발명의 다른 기술적 과제는 공간, 시간, 화질 및 시점 스케일러빌리티를 지원하는 비디오 복호화 방법 및 장치를 제공함에 있다.

본 발명의 또 다른 기술적 과제는 공간, 시간, 화질 및 시점 스케일러빌리티를 지원하는 비디오 처리 시스템을 제공함에 있다.

본 발명의 일 실시 형태는 비디오 복호화 방법이다. 상기 방법은, 베이스 레이어 영상(base layer image)이 속한 시점(view)과 다른 시점에 속한 영상에 대응하는 제1 복호화 정보를 기반으로, 상기 베이스 레이어 영상에 대응하는 제1 비트스트림에 대해 복호화를 수행하는 단계 및 상기 베이스 레이어 영상에 대응하는 제2 복호화 정보, 및 인핸스먼트 레이어 영상(enhancement layer image)이 속한 시점과 다른 시점에 속한 영상에 대응하는 제3 복호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대응하는 제2 비트스트림에 대해 복호화를 수행하는 단계를 포함할 수 있다.

상기 베이스 레이어 영상 및 상기 인핸스먼트 레이어 영상은 서로 다른 공간(spatial) 해상도를 가질 수 있다.

상기 베이스 레이어 영상 및 상기 인핸스먼트 레이어 영상은 서로 다른 화질(quality) 해상도를 가질 수 있다.

상기 제1 복호화 정보, 상기 제2 복호화 정보 및 상기 제3 복호화 정보는 텍스쳐 정보, 움직임 정보, 잔차 신호 정보 및 복호화된 신호 정보 중에서 적어도 하나를 포함할 수 있다.

상기 방법은, 상기 제1 비트 스트림에 대응되는 제1 NAL 유닛(Network Absolute Layer unit) 및 상기 제2 비트 스트림에 대응되는 제2 NAL 유닛을 기반으로 다중화된, 단일 비트 스트림을 수신하는 단계 및 상기 단일 비트 스트림으로부터 상기 제1 비트 스트림 및 상기 제2 비트 스트림을 추출하는 단계를 더 포함할 수 있다.

상기 제1 NAL 유닛에 대응되는 제1 NAL 유닛 헤더는, 제1 공간 식별자(spatial identifier), 제1 시간 식별자(temporal identifier), 제1 화질 식별자(quality identifier) 및 제1 시점 식별자(view identifier) 중에서 적어도 하나를 포함할 수 있고, 상기 제2 NAL 유닛에 대응되는 제2 NAL 유닛 헤더는, 제2 공간 식별자, 제2 시간 식별자, 제2 화질 식별자 및 제2 시점 식별자 중에서 적어도 하나를 포함할 수 있다. 이 때, 상기 제1 공간 식별자, 상기 제1 시간 식별자, 상기 제1 화질 식별자 및 상기 제1 시점 식별자는, 각각 상기 베이스 레이어 영상에 대응되는 공간 해상도, 시간 해상도, 화질 해상도 및 시점 해상도를 지시할 수 있고, 상기 제2 공간 식별자, 상기 제2 시간 식별자, 상기 제2 화질 식별자 및 상기 제2 시점 식별자는, 각각 상기 인핸스먼트 레이어 영상에 대응되는 공간 해상도, 시간 해상도, 화질 해상도 및 시점 해상도를 지시할 수 있다.

상기 추출하는 단계에서는, 상기 제1 NAL 유닛 헤더에 포함된 정보를 기반으로 상기 제1 비트 스트림을 추출할 수 있고, 상기 제2 NAL 유닛 헤더에 포함된 정보를 기반으로 상기 제2 비트 스트림을 추출할 수 있다.

상기 제1 비트스트림에 대해 복호화를 수행하는 단계에서는, 상기 제1 복호화 정보를 기반으로, 상기 베이스 레이어 영상에 대해 시점 간 예측(inter-view prediction)을 수행할 수 있다.

상기 제2 비트스트림에 대해 복호화를 수행하는 단계에서는, 상기 제2 복호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대해 인터 레이어 텍스쳐 예측(inter layer texture prediction), 인터 레이어 움직임 정보 예측(inter layer motion information prediction) 및 인터 레이어 잔차 신호 예측(inter layer residual signal prediction) 중에서 적어도 하나를 수행할 수 있다.

상기 제2 비트스트림에 대해 복호화를 수행하는 단계에서는, 상기 제3 복호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대해 시점 간 예측(inter-view prediction)을 수행할 수 있다.

본 발명의 또 다른 실시 형태는 비디오 부호화 방법이다. 상기 방법은, 베이스 레이어 영상(base layer image)이 속한 시점(view)과 다른 시점에 속한 영상에 대응하는 제1 부호화 정보를 기반으로, 상기 베이스 레이어 영상에 대해 부호화를 수행함으로써 상기 베이스 레이어 영상에 대응하는 제1 비트스트림을 생성하는 단계 및 상기 베이스 레이어 영상에 대응하는 제2 부호화 정보, 및 인핸스먼트 레이어 영상(enhancement layer image)이 속한 시점과 다른 시점에 속한 영상에 대응하는 제3 부호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대해 부호화를 수행함으로써 상기 인핸스먼트 레이어 영상에 대응하는 제2 비트스트림을 생성하는 단계를 포함할 수 있다.

상기 제1 부호화 정보, 상기 제2 부호화 정보 및 상기 제3 부호화 정보는 텍스쳐 정보, 움직임 정보, 잔차 신호 정보 및 부호화된 신호 정보 중에서 적어도 하나를 포함할 수 있다.

상기 방법은, 상기 제1 비트스트림 및 상기 제2 비트스트림을 기반으로 다중화를 수행함으로써 단일 비트 스트림을 생성하는 단계를 더 포함할 수 있다.

상기 베이스 레이어 영상에 대해 부호화를 수행하는 단계에서는, 상기 제1 부호화 정보를 기반으로, 상기 베이스 레이어 영상에 대해 시점 간 예측(inter-view prediction)을 수행할 수 있다.

상기 인핸스먼트 레이어 영상에 대해 부호화를 수행하는 단계에서는, 상기 제2 부호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대해 인터 레이어 텍스쳐 예측(inter layer texture prediction), 인터 레이어 움직임 정보 예측(inter layer motion information prediction) 및 인터 레이어 잔차 신호 예측(inter layer residual signal prediction) 중에서 적어도 하나를 수행할 수 있다.

상기 인핸스먼트 레이어 영상에 대해 부호화를 수행하는 단계에서는, 상기 제3 부호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대해 시점 간 예측(inter-view prediction)을 수행할 수 있다.

본 발명에 따른 비디오 부호화 방법은 공간, 시간, 화질 및 시점 스케일러빌리티를 지원할 수 있다.

본 발명에 따른 비디오 복호화 방법은 공간, 시간, 화질 및 시점 스케일러빌리티를 지원할 수 있다.

본 발명에 따른 비디오 처리 시스템은 공간, 시간, 화질 및 시점 스케일러빌리티를 지원할 수 있다.

도 1은 영상 부호화 장치의 일 실시예에 따른 기본 구성을 나타내는 블록도이다.

도 2는 영상 복호화 장치의 일 실시예에 따른 기본 구성을 나타내는 블록도이다.

도 3은 본 발명이 적용될 수 있는, 복수 레이어를 이용한 스케일러블 비디오 코딩 구조의 일 실시예를 개략적으로 나타내는 도면이다.

도 4는 다시점 영상 부호화/복호화 과정에서의 예측 방법의 실시예를 개략적으로 나타내는 개념도이다.

도 5는 본 발명에 따라 영상 부호화 및 복호화를 수행하는 시스템의 일 실시예를 개략적으로 나타내는 블록도이다.

도 6은 2개의 공간적 해상도 및 N개의 시점에 대응되는 스케일러빌리티 지원을 위한 영상 부호화 방법의 일 실시예를 개략적으로 나타내는 흐름도이다.

도 7은 2개의 화질적 해상도 및 N개의 시점에 대응되는 스케일러빌리티 지원을 위한 영상 부호화 방법의 일 실시예를 개략적으로 나타내는 흐름도이다.

도 8은 2개의 공간적 해상도, 2개의 화질적 해상도 및 N개의 시점에 대응되는 스케일러빌리티 지원을 위한 영상 부호화 방법의 일 실시예를 개략적으로 나타내는 흐름도이다.

도 9는 본 발명에 따라 2개의 공간적 해상도 및 2개의 시점에 대응되는 스케일러빌리티를 지원하는 비디오 부호화기 구조의 일 실시예를 개략적으로 나타내는 블록도이다.

이하, 도면을 참조하여 본 발명의 실시예에 대하여 구체적으로 설명한다. 본 명세서의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 해당 설명을 생략할 수도 있다.

본 명세서에서 어떤 구성 요소가 다른 구성 요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있는 것을 의미할 수도 있고, 중간에 다른 구성 요소가 존재하는 것을 의미할 수도 있다. 아울러, 본 명세서에서 특정 구성을 “포함”한다고 기술하는 내용은 해당 구성 이외의 구성을 배제하는 것이 아니며, 추가적인 구성이 본 발명의 실시 또는 본 발명의 기술적 사상의 범위에 포함될 수 있음을 의미한다.

제1, 제2 등의 용어는 다양한 구성들을 설명하는데 사용될 수 있지만, 상기 구성들은 상기 용어에 의해 한정되지 않는다. 상기 용어들은 하나의 구성을 다른 구성으로부터 구별하는 목적으로 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성은 제2 구성으로 명명될 수 있고, 유사하게 제2 구성도 제1 구성으로 명명될 수 있다.

또한 본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성 단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두 개의 구성부가 하나의 구성부를 이루거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있다. 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리 범위에 포함된다.

스케일러블(scalable) 비디오 부호화/복호화 방법 또는 장치는 스케일러빌리티(scalability)를 제공하지 않는 일반적인 영상 부호화/복호화 방법 또는 장치의 확장(extension)에 의해 구현될 수 있다. 또한, 3D 비디오 부호화/복호화 과정에서는 각각의 시점에 대응되는 영상에 대해 영상 부호화/복호화 과정이 수행될 수 있다. 도 1의 블록도는 스케일러블 비디오 부호화 장치 및 3D 비디오 부호화 장치의 기초가 될 수 있는 영상 부호화 장치의 일 실시예를 나타낸다.

도 1을 참조하면, 영상 부호화 장치(100)는 인터 예측부(110), 인트라 예측부(120), 스위치(125), 감산기(130), 변환부(135), 양자화부(140), 엔트로피 부호화부(150), 역양자화부(160), 역변환부(170), 가산기(175), 필터부(180) 및 픽쳐 버퍼(190)를 포함할 수 있다.

영상 부호화 장치(100)는 입력 영상에 대해 인트라(intra) 모드 또는 인터(inter) 모드로 부호화를 수행하고 비트스트림(bitstream)을 출력할 수 있다. 인트라 모드인 경우 스위치(125)가 인트라로 전환되고, 인터 모드인 경우 스위치(125)가 인터로 전환된다. 영상 부호화 장치(100)는 입력 영상의 입력 블록에 대한 예측 블록을 생성한 후, 입력 블록과 예측 블록의 차분을 부호화할 수 있다.

인트라 모드인 경우, 인트라 예측부(120)는 현재 블록 주변의 이미 부호화된 블록의 픽셀 값을 이용하여 공간적 예측을 수행하여 예측 블록을 생성할 수 있다. 인터 모드인 경우, 인터 예측부(110)는, 움직임 예측 과정에서 픽쳐 버퍼(190)에 저장되어 있는 참조 영상에서 입력 블록에 대응하는 영역을 찾아 움직임 벡터를 구할 수 있다. 인터 예측부(110)는 움직임 벡터와 픽쳐 버퍼(190)에 저장되어 있는 참조 영상을 이용하여 움직임 보상을 수행함으로써 예측 블록을 생성할 수 있다. 이 때, 예측이 수행되는 처리 단위와 예측 방법 및 구체적인 내용이 정해지는 처리 단위는 서로 다를 수 있다. 예컨대, PU 단위로 예측 모드가 정해져서 TU 단위로 예측이 수행될 수도 있고, PU 단위로 예측 모드가 정해지고 TU 단위로 예측이 수행될 수도 있다.

감산기(130)는 입력 블록과 생성된 예측 블록의 차분에 의해 잔차 블록(residual block)을 생성할 수 있다. 변환부(135)는 잔차 블록에 대해 변환(transform)을 수행하여 변환 계수(transform coefficient)를 출력할 수 있다. 그리고 양자화부(140)는 입력된 변환 계수를 양자화 파라미터에 따라 양자화하여 양자화된 계수(quantized coefficient)를 출력할 수 있다.

엔트로피 부호화부(150)는, 양자화부(140)에서 산출된 값들 또는 부호화 과정에서 산출된 부호화 파라미터 값 등을 기초로, 양자화된 계수를 확률 분포에 따라 엔트로피 부호화하여 비트스트림(bitstream)을 출력할 수 있다.

양자화된 계수는 역양자화부(160)에서 역양자화되고 역변환부(170)에서 역변환될 수 있다. 역양자화, 역변환된 계수는 가산기(175)를 통해 예측 블록과 더해지고 복원 블록이 생성될 수 있다.

복원 블록은 필터부(180)를 거치고, 필터부(180)는 디블록킹 필터(deblocking filter), SAO(Sample Adaptive Offset), ALF(Adaptive Loop Filter) 중 적어도 하나 이상을 복원 블록 또는 복원 픽쳐에 적용할 수 있다. 필터부(180)를 거친 복원 블록은 픽쳐 버퍼(190)에 저장될 수 있다.

도 1에서 상술한 바와 같이 스케일러블(scalable) 비디오 부호화/복호화 방법 또는 장치는 스케일러빌리티(scalability)를 제공하지 않는 일반적인 영상 부호화/복호화 방법 또는 장치의 확장(extension)에 의해 구현될 수 있다. 또한, 3D 비디오 부호화/복호화 과정에서는 각각의 시점에 대응되는 영상에 대해 영상 부호화/복호화 과정이 수행될 수 있다. 도 2의 블록도는 스케일러블 비디오 복호화 장치 및 3D 비디오 복호화 장치의 기초가 될 수 있는 영상 복호화 장치의 일 실시예를 나타낸다.

도 2를 참조하면, 영상 복호화 장치(200)는 엔트로피 복호화부(210), 역양자화부(220), 역변환부(230), 인트라 예측부(240), 인터 예측부(250), 필터부(260) 및 픽쳐 버퍼(270)를 포함할 수 있다.

영상 복호화 장치(200)는 부호화 장치에서 출력된 비트스트림을 입력 받아 인트라 모드 또는 인터 모드로 복호화를 수행하고 재구성된 영상, 즉 복원 영상을 출력할 수 있다. 인트라 모드인 경우 스위치가 인트라로 전환되고, 인터 모드인 경우 스위치가 인터로 전환될 수 있다.

영상 복호화 장치(200)는 입력 받은 비트스트림으로부터 복원된 잔차 블록(residual block)을 얻고 예측 블록을 생성한 후 복원된 잔차 블록과 예측 블록을 더하여 재구성된 블록, 즉 복원 블록을 생성할 수 있다.

엔트로피 복호화부(210)는, 입력된 비트스트림을 확률 분포에 따라 엔트로피 복호화한다. 엔트로피 복호화에 의해, 양자화된 (변환) 계수가 생성될 수 있다.

양자화된 계수는 역양자화부(220)에서 역양자화되고 역변환부(230)에서 역변환되며, 양자화된 계수가 역양자화/역변환된 결과, 복원된 잔차 블록(residual block)이 생성될 수 있다.

인트라 모드인 경우, 인트라 예측부(240)는 현재 블록 주변의 이미 부호화된 블록의 픽셀값을 이용하여 공간적 예측을 수행하여 예측 블록을 생성할 수 있다. 인터 모드인 경우, 인터 예측부(250)는 움직임 벡터 및 픽쳐 버퍼(270)에 저장되어 있는 참조 영상을 이용하여 움직임 보상을 수행함으로써 예측 블록을 생성할 수 있다. 이 때, 예측이 수행되는 처리 단위와 예측 방법 및 구체적인 내용이 정해지는 처리 단위는 서로 다를 수 있다. 예컨대, PU 단위로 예측 모드가 정해져서 TU 단위로 예측이 수행될 수도 있고, PU 단위로 예측 모드가 정해지고 TU 단위로 예측이 수행될 수도 있다.

복원된 잔차 블록과 예측 블록은 가산기(255)를 통해 더해지고, 더해진 블록은 필터부(260)를 거친다. 필터부(260)는 디블록킹 필터, SAO, ALF 중 적어도 하나를 복원 블록 또는 복원 픽쳐에 적용할 수 있다. 필터부(260)는 재구성된 영상, 즉 복원 영상을 출력할 수 있다. 복원 영상은 픽쳐 버퍼(270)에 저장되어 인터 예측에 사용될 수 있다.

이하, 블록은 영상 부호화 및 복호화의 단위를 의미한다. 영상 부호화 및 복호화 시 부호화 혹은 복호화 단위는, 하나의 영상을 세분화된 유닛으로 분할하여 부호화 혹은 복호화 할 때 그 분할된 단위를 말하므로, 매크로 블록, 부호화 유닛 (CU: Coding Unit), 예측 유닛 (PU: Prediction Unit), 변환 유닛(TU: Transform Unit), 변환 블록(transform block) 등으로 불릴 수 있다. 따라서, 본 명세서에서 블록(및/또는 부호화/복호화 대상 블록)이라 함은, 상기 블록(및/또는 부호화/복호화 대상 블록)에 대응하는 부호화 유닛, 예측 유닛 및/또는 변환 유닛을 의미할 수 있다. 이러한 구분은 해당 기술 분야에서 통상의 지식을 가진 자라면 용이하게 할 수 있을 것이다.

한편, 통신 및 영상 기술의 발달에 따라서, 영상 정보를 이용하는 다양한 기기가 서로 다른 성능을 가지고 이용되고 있다. 핸드폰과 같은 기기들은 비교적 낮은 해상도의 동영상을 비트 스트림 기반으로 재생하기도 한다. 이에 비하여, PC(Personal Computer)와 같은 기기들은 비교적 높은 해상도의 동영상을 재생할 수 있다.

따라서, 다양한 성능의 기기들에 최적의 동영상 서비스를 제공하기 위한 방법이 고려될 필요가 있다. 이에 대한 해법 중 하나가 스케일러블 비디오 코딩(Scalable Video Coding: SVC, 이하, ‘SVC’라 함)이다.

도 3은 본 발명이 적용될 수 있는, 복수 레이어를 이용한 스케일러블 비디오 코딩 구조의 일 실시예를 개략적으로 나타내는 도면이다. 도 3에서 GOP(Group of Picture)는 픽쳐의 그룹을 나타낸다.

영상 데이터를 전송하기 위해서는 전송 매체가 필요하며, 그 성능은 다양한 네트워크 환경에 따라 전송 매체별로 차이가 있다. 이러한 다양한 전송 매체 또는 네트워크 환경에의 적용을 위해 스케일러블 비디오 코딩 방법이 제공될 수 있다.

스케일러블 비디오 코딩 방법(Scalable Video Coding: SVC, 이하 ‘SVC’라 함)은 레이어(layer) 간의 텍스쳐 정보, 움직임 정보, 잔차 신호 등을 활용하여 레이어 간의 중복성을 제거하여 부호화/복호화 성능을 높이는 코딩 방법이다. 예를 들어, 스케일러블 비디오 부호화/복호화 과정에서는 레이어 간의 중복성을 제거하여 부호화/복호화 효율을 향상시키기 위해, 인터 레이어 텍스쳐 예측(inter layer texture prediction), 인터 레이어 움직임 정보 예측(inter layer motion information prediction) 및/또는 인터 레이어 잔차 신호 예측(inter layer residual signal prediction) 등이 적용될 수 있다. SVC는, 전송 비트율, 전송 에러율, 시스템 자원 등의 주변 조건에 따라, 공간적, 시간적, 화질적 관점에서 다양한 스케일러빌리티를 제공할 수 있다.

SVC는, 다양한 네트워크 상황에 적용 가능한 비트스트림을 제공할 수 있도록, 복수 레이어(multiple layers) 구조를 사용할 수 있다. 예를 들어 SVC는, 일반적인 영상 부호화 방법을 이용하여 영상 정보를 처리하는 베이스 레이어(base layer)와 함께, 베이스 레이어의 부호화 정보 및 일반적인 영상 부호화 방법을 함께 사용하여 영상 정보를 처리하는 인핸스먼트 레이어(enhancement layer)를 포함할 수 있다.

레이어 구조는 복수의 공간 레이어, 복수의 시간 레이어, 복수의 화질 레이어 등을 포함할 수 있다. 서로 다른 공간 레이어에 포함된 영상들은 서로 다른 공간적 해상도를 가질 수 있으며, 서로 다른 시간 레이어에 포함된 영상들은 서로 다른 시간적 해상도(프레임율)를 가질 수 있다. 또한 서로 다른 화질 레이어에 포함된 영상들은 서로 다른 화질, 예를 들어 서로 다른 SNR(Signal-to-Noise Ratio) 및/또는 서로 다른 QP(Quantization Parameter) 값을 가질 수 있다.

여기서, 레이어(layer)는 공간(예를 들어, 영상 크기), 시간(예를 들어, 부호화 순서, 영상 출력 순서), 화질, 복잡도 등을 기준으로 구분되는 영상 및/또는 비트스트림(bitstream)의 집합을 의미할 수 있다. 또한, 복수의 레이어들은 서로 간에 종속성을 가질 수도 있다.

도 3을 참조하면, 상술한 바와 같이, SVC 구조는 복수의 레이어를 포함할 수 있다. 도 3에서는 각 레이어의 픽쳐들이 POC(Picture Order Count)에 따라 배열되어 있는 예를 보여준다. 각 레이어, 즉 베이스 레이어와 인핸스먼트 레이어들은 서로 다른 비트율, 해상도, 크기 등의 특성을 가질 수 있다. 베이스 레이어에 대한 비트스트림은 기본적인 영상 정보를 포함할 수 있고, 인핸스먼트 레이어에 대한 비트스트림은 베이스 레이어의 품질(정확도, 크기 및/또는 프레임 레이트(frame rate) 등)이 더 향상된 영상에 대한 정보를 포함할 수 있다.

따라서, 각 레이어는 서로 다른 특성을 고려하여 부호화/복호화될 수 있다. 예컨대, 도 1의 부호화 장치 및 도 2의 복호화 장치가 각 레이어 별로 해당 레이어의 픽쳐를 도 1 및 도 2에서 상술한 바와 같이 부호화하고 복호화할 있다.

또한, 각 레이어의 픽쳐는 다른 레이어의 정보를 이용하여 부호화/복호화될 수도 있다. 예컨대, 각 레이어의 픽쳐는 다른 레이어의 정보를 이용한 인터 레이어 예측(inter layer prediction)을 통해 부호화되고 복호화될 수 있다. 따라서, SVC 구조에 있어서, 도1와 도 2에서 설명한 부호화 장치 및 복호화 장치의 예측부는 다른 레이어, 즉 참조 레이어(reference layer)의 정보를 이용한 예측을 수행할 수 있다. 부호화 장치 및 복호화 장치의 예측부는 다른 레이어의 정보를 이용하여 인터 레이어 텍스쳐(texture) 예측, 인터 레이어 움직임 정보 예측, 인터 레이어 잔차 신호(residual) 예측 등을 수행할 수 있다.

인터 레이어 텍스쳐 예측에서는 다른 레이어의 텍스쳐 정보를 기반으로 현재 레이어(부호화 또는 복호화 대상 레이어)의 텍스쳐가 예측될 수 있다. 인터 레이어 움직임 정보 예측에서는 다른 레이어의 움직임 정보(움직임 벡터, 참조 픽쳐 등)를 기반으로 현재 레이어의 움직임 정보가 예측될 수 있다. 인터 레이어 잔차 신호 예측에서는 다른 레이어의 잔차 신호를 기반으로 현재 레이어의 잔차 신호가 예측될 수 있다.

SVC에서는 다른 레이어의 정보를 이용하여 현재 레이어가 부호화되고 복호화되므로, 레이어 간의 중복된 정보를 처리하는 복잡도가 감소될 수 있으며, 중복된 정보를 전송하는 오버헤드가 감소될 수도 있다.

3D 영상에서는, 동일한 장면이 두 대 이상의 카메라를 이용하여 동시에 촬영될 수 있으므로, 복수의 시점(視點; view)이 존재할 수 있다. 여기서, 하나의 시점은, 하나의 카메라로부터 획득된 영상의 시점을 의미할 수 있다. 도 4의 실시예에서 T0 내지 T8은 시간을 나타낸다.

도 4의 실시예를 참조하면, 시점 0(view 0), 시점 1(view 1), 시점 2(view 2) 이렇게 3개 시점의 영상이 제공될 수 있다. 시점의 수는 세 개에 한정되는 것이 아니고, 2개 또는 4개 이상의 시점이 존재할 수도 있다. 부호화/복호화 대상 시점 내의 다른 영상으로부터의 예측은 시간적 예측(temporal prediction), 다른 시점 내의 영상으로부터의 예측은 시점 간 예측(inter-view prediction)이라 할 수 있다. 여기서, 부호화/복호화 대상 시점은 현재 부호화/복호화 대상 영상을 포함하는 시점을 의미할 수 있다. 또한 다른 시점은 부호화/복호화 대상 시점을 제외한 시점으로서, 부호화/복호화 대상 시점에서 이용 가능한 시점을 의미할 수 있다.

도 4의 실시예를 참조하면, 다시점 영상에서는, 여러 시점에서 획득된 영상들이 부호화/복호화에 사용될 수 있으므로, 현재 예측 대상 블록에 대한 부호화/복호화를 수행함에 있어 시점 간 예측과 시간적 예측이 함께 사용될 수 있다. 다시점 영상 부호화/복호화에서는, 시간적 예측을 통해 시간적 중복성을 제거하고 시점 간 예측을 통해 시점 간의 영상 내 중복성을 제거함으로써, 부호화/복호화 효율이 향상될 수 있다. 즉, 다시점 영상에서는, 시간적 스케일러빌리티 및 시점 스케일러빌리티가 제공될 수 있다. 다시점 영상에서의 시간적 스케일러빌리티 및 시점 스케일러빌리티는 도 4의 실시예에 도시된 바와 같이, 계층적 B 구조(hierarchical B 구조)를 기반으로 구현될 수 있다. 이하, 본 명세서에서 부호화/복호화를 위한 코딩 구조는 계층적 B 구조에 해당된다고 가정한다.

한편, 도 3에서 상술한 스케일러블 비디오 코딩 방법은 공간적, 시간적 및 화질적 스케일러빌리티를 동시에 또는 각각 제공할 수 있다. 또한, 도 4에서 상술한 3D 비디오 코딩 방법은 시간적 및 시점 스케일러빌리티를 제공할 수 있다. 그러나, 도 4의 실시예에 따른 시점 스케일러빌리티는 도 3의 실시예에 따른 공간적, 시간적 및 화질적 스케일러빌리티와는 독립적으로 제공되므로, 도 3의 실시예에서 제공되는 공간적 및 화질적 스케일러빌리티와 결합되어 사용되기 어려운 구조를 가질 수 있다. 따라서, 3D 비디오 서비스 제공 시에는 단말의 사양에 따라 공간적 해상도 및 화질적 해상도를 변경하기 위해, 트랜스코딩(transcoding) 및/또는 별도의 부호화/복호화 과정이 수행되어야 하는 문제점이 발생할 수 있다.

따라서, 3D 비디오 서비스 제공 시에 하나의 통합된 부호화 과정 및/또는 하나의 통합된 복호화 과정을 통해, 단말의 사양에 따라 서로 다른 공간적, 시간적, 화질적 해상도를 제공함과 동시에 복수의 시점 중에서 3D 영상 생성에 필요한 시점을 선택적으로 제공할 수 있는 영상 부호화/복호화 방법이 요구된다. 이를 위해, 시간적, 화질적 및 시점 스케일러빌리티를 동시에 지원하거나 또는 공간적, 시간적, 화질적 및 시점 스케일러빌리티를 동시에 지원할 수 있는 영상 부호화/복호화 방법이 제공될 수 있다.

도 5는 본 발명에 따라 영상 부호화 및 복호화를 수행하는 시스템의 일 실시예를 개략적으로 나타내는 블록도이다. 본 발명에 따른 시스템은 부호화기(510), 비트스트림 추출기(520) 및 복호화기(530)를 포함할 수 있다.

도 5를 참조하면, 부호화기(510)는 N개의 카메라에서 동시에 획득된 N개의 영상이 입력될 수 있다(N은 자연수). 이 때, 상기 N개의 카메라는 서로 다른 시점을 가질 수 있으므로, 상기 N개의 영상은 서로 다른 시점에서 획득된 영상에 해당될 수 있다. 도 5의 실시예에서 상기 N개의 영상은 제1 시점 영상, 제2 시점 영상, … , 제N-1 시점 영상 및 제N 시점 영상이라 한다. 예를 들어, 상기 N개의 영상은 A1xA2(예를 들어, HD의 경우 1920x1080)의 공간 해상도 및 30 fps(frame/sec)의 시간 해상도를 가질 수 있다.

도 5의 부호화기(510)는 공간적, 시간적, 화질적 및 시점 스케일러빌리티를 지원할 수 있다. 따라서, 부호화기(510)는 서로 다른 시점을 갖는 N개의 영상을 입력 받아 부호화된 한 개의 비트 스트림을 출력할 수 있다. 또한, 부호화기(510)는 부호화 과정에서 생성된 공간, 시간, 화질 및 시점 레이어에 관한 정보를 부호화한 후, 부호화된 정보를 비트 스트림에 포함시켜 전송할 수 있다. 여기서, 일례로 상기 정보는 3D 영상 생성에 필요한 공간적, 시간적, 화질적 및/또는 시점 해상도에 대응되는 최상위 레이어를 지시하는 정보일 수 있다.

도 5의 비트 스트림 추출기(520)는 공간적, 시간적, 화질적 및 시점 스케일러빌리티를 지원할 수 있다. 따라서, 비트 스트림 추출기(520)는 부호화기(510)로부터 전송된 비트 스트림을 입력 받은 후, 3D 영상 생성에 필요한 공간 해상도, 시간 해상도, 화질 해상도 및 시점 수에 대응되는 최상위 레이어를 포함하는 비트 스트림을 출력할 수 있다. 이 때, 일례로 상기 공간 해상도는 A1xA2, 상기 시간 해상도는 B fps, 상기 화질 해상도는 C, 상기 시점 수는 D개일 수 있다. 여기서, A1, A2, B 및 C는 임의의 수에 해당될 수 있으며, D는 임의의 자연수를 나타낼 수 있다. 이 때, 비트 스트림 추출기(520)는 부호화기(510)로부터 전송된, 공간, 시간, 화질 및 시점 레이어에 관한 정보를 이용할 수 있다.

비트 스트림 추출기(520)에서 출력된 비트 스트림은 복호화기(530)를 통해 복호화될 수 있다. 도 5에 도시된 복호화기(530)는 공간적, 시간적, 화질적 및 시점 스케일러빌리티를 지원할 수 있다. 따라서, 복호화기(530)는 비트 스트림 추출기(520)에서 출력된 비트 스트림을 복호화함으로써, 각각 A1xA2의 공간 해상도, B fps의 시간 해상도 및 C의 화질 해상도를 갖는 D개의 복호화된 영상을 출력할 수 있다. 상기 D개의 복호화된 영상은 서로 다른 시점을 가질 수 있고, YUV 형태의 신호에 해당될 수 있다. 또한, 복호화기(530)에서 출력된 D개의 영상 각각은 1개의 부분 비트 스트림에 대응될 수 있다. 즉, 복호화기(530)로 입력되는 비트 스트림은 D개의 부분 비트 스트림으로 구성될 수 있다.

도 5의 실시예에서, 상기 D개의 영상은 각각 제1 시점 출력 영상, 제2 시점 출력 영상, …, 제D 시점 출력 영상으로 표시된다. 이 때, 서로 다른 시점을 갖는 D개의 영상은 각각 A1xA2의 공간 해상도, B fps의 시간 해상도 및 C의 화질 해상도를 가질 수 있다.

도 6은 2개의 공간적 해상도 및 N개의 시점에 대응되는 스케일러빌리티 지원을 위한 영상 부호화 방법의 일 실시예를 개략적으로 나타내는 흐름도이다. 여기서, N은 2 이상의 자연수를 의미할 수 있다.

시간적 스케일러빌리티 및 시점 스케일러빌리티는 계층적 B 구조(hierarchical B 구조)를 기반으로 구현될 수 있다. 계층적 B 구조를 기반으로 한 시간적 스케일러빌리티 및 시점 스케일러빌리티 제공 방법은 도 4에서 상술한 바 있으므로, 도 6에서는 이에 대한 구체적인 설명은 생략하기로 한다.

도 6의 실시예에서는 서로 다른 시점에서 획득된 N개의 영상이 부호화될 수 있다. 도 6의 실시예에서는 상기 N개의 영상을 각각 제1 시점 영상, 제2 시점 영상, …, 제N 시점 영상이라 한다. 후술되는 실시예에서 방법들은 일련의 단계로서 순서도를 기초로 설명되지만, 본 발명은 단계들의 순서에 한정되는 것을 아니며, 어떤 단계는 후술되는 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다.

또한, 도 6의 실시예는 공간적 레이어가 두 개인 경우에 대해 서술되지만, 본 발명은 이에 한정되는 것은 아니다. 후술되는 실시예들은 공간적 레이어가 두 개 이상인 경우에도 부호화 과정에 동일하거나 유사한 방식으로 적용될 수 있다.

도 6을 참조하면, 부호화기는 부호화하고자 하는 베이스 레이어의 해상도에 맞도록 제1 시점 영상에 대한 다운 컨버팅(down converting)을 수행할 수 있다(S610). 부호화기는 제1 시점 영상에 대한 다운 컨버팅을 수행함으로써, 제1 시점 영상에 대응되는 베이스 레이어 영상을 생성할 수 있다. 이하, 도 6의 실시예에서 제1 시점 영상에 대응되는 베이스 레이어 영상은 제1 베이스 레이어 영상이라 한다.

제1 베이스 레이어 영상이 생성되면, 부호화기는 제1 베이스 레이어 영상에 대해, 도 1에 도시된 실시예에서와 같이 부호화를 수행할 수 있다(S640). 이 때, 부호화기는 부호화 과정에서 제1 베이스 레이어 영상 내에서의 공간적(spatial) 중복성 및/또는 시간적(temporal) 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다.

그리고, 부호화기는 제1 시점 영상을 기반으로, 상기 제1 시점 영상에 대응되는 인핸스먼트 레이어 영상(이하, ‘제1 인핸스먼트 레이어 영상’이라 함)에 대해 부호화를 수행할 수 있다(S670). 이 때, 부호화기는 제1 베이스 레이어 영상에서와 마찬가지로, 부호화 과정에서 제1 인핸스먼트 레이어 영상 내에서의 공간적(spatial) 중복성 및/또는 시간적(temporal) 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다.

또한, 제1 인핸스먼트 레이어 영상을 부호화함에 있어, 부호화기는 제1 인핸스먼 레이어 및 하위 레이어(예를 들어, 제1 베이스 레이어) 간의 중복성을 제거하기 위해, 하위 공간적 레이어(예를 들어, 제1 베이스 레이어)의 부호화 관련 정보를 이용할 수 있다. 여기서, 하위 공간적 레이어의 부호화 관련 정보에는 인트라 관련 정보(예를 들어, 텍스쳐 정보), 인터 관련 정보(예를 들어, 움직임 정보), 잔차 신호 정보 및 복호화된 신호 정보 등이 있을 수 있다. 이 때, 부호화기는 레이어 간의 중복성을 제거하기 위해, 하위 공간적 레이어의 부호화 관련 정보를 기반으로 인터 레이어 텍스쳐 예측, 인터 레이어 움직임 정보 예측 및/또는 인터 레이어 잔차 신호 예측 등을 수행할 수 있다.

다시 도 6을 참조하면, 부호화기는 부호화하고자 하는 베이스 레이어의 해상도에 맞도록 제2 시점 영상에 대한 다운 컨버팅을 수행할 수 있다(S620). 부호화기는 제2 시점 영상에 대한 다운 컨버팅을 수행함으로써, 제2 시점 영상에 대응되는 베이스 레이어 영상을 생성할 수 있다. 이하, 도 6의 실시예에서 제2 시점 영상에 대응되는 베이스 레이어 영상은 제2 베이스 레이어 영상이라 한다.

제2 베이스 레이어 영상이 생성되면, 부호화기는 제2 베이스 레이어 영상에 대해 부호화를 수행할 수 있다(S650). 이 때, 부호화기는 제1 베이스 레이어 영상에서와 마찬가지로, 부호화 과정에서 제2 베이스 레이어 영상 내에서의 공간적(spatial) 중복성 및/또는 시간적(temporal) 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다.

또한, 제2 베이스 레이어 영상을 부호화함에 있어, 부호화기는 제2 베이스 레이어 영상 및 제1 베이스 레이어 영상(상기 제2 베이스 레이어 영상의 시점과 다른 시점을 갖는 영상) 간의 중복성을 제거하기 위해, 제1 베이스 레이어 영상의 부호화 관련 정보를 이용할 수 있다. 여기서, 제1 베이스 레이어의 부호화 관련 정보에는 인트라 관련 정보, 인터 관련 정보, 잔차 신호 정보 및 복호화된 신호 정보 등이 있을 수 있다. 이 때, 부호화기는 제1 베이스 레이어의 부호화 관련 정보를 기반으로 제2 베이스 레이어 영상에 속한 픽쳐, 블록 및/또는 기타 부호화 관련 정보에 대해 시점 간 예측(inter-view prediction)을 수행함으로써, 시점 간의 중복성을 제거할 수 있다.

그리고, 부호화기는 제2 시점 영상을 기반으로, 상기 제2 시점 영상에 대응되는 인핸스먼트 레이어 영상(이하, ‘제2 인핸스먼트 레이어 영상’이라 함)에 대해 부호화를 수행할 수 있다(S680). 이 때, 부호화기는 제2 베이스 레이어 영상에서와 마찬가지로, 부호화 과정에서 제2 인핸스먼트 레이어 영상에서의 공간적 중복성 및/또는 시간적 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다.

또한, 제2 인핸스먼트 레이어 영상을 부호화함에 있어, 부호화기는 제2 인핸스먼 레이어 및 하위 레이어(예를 들어, 제2 베이스 레이어) 간의 중복성을 제거하기 위해, 하위 공간적 레이어(예를 들어, 제2 베이스 레이어)의 부호화 관련 정보를 이용할 수 있다. 여기서, 하위 공간적 레이어의 부호화 관련 정보에는 인트라 관련 정보(예를 들어, 텍스쳐 정보), 인터 관련 정보(예를 들어, 움직임 정보), 잔차 신호 정보 및 복호화된 신호 정보 등이 있을 수 있다. 이 때, 부호화기는 레이어 간의 중복성을 제거하기 위해, 하위 공간적 레이어의 부호화 관련 정보를 기반으로 인터 레이어 텍스쳐 예측, 인터 레이어 움직임 정보 예측 및/또는 인터 레이어 잔차 신호 예측 등을 수행할 수 있다.

또한, 제2 인핸스먼트 레이어 영상을 부호화함에 있어서, 부호화기는 제2 인핸스먼트 레이어 영상 및 제1 인핸스먼트 레이어 영상(상기 제2 인핸스먼트 레이어 영상의 시점과 다른 시점을 갖는 영상) 간의 중복성을 제거하기 위해, 제1 인핸스먼트 레이어 영상의 부호화 관련 정보를 이용할 수 있다. 여기서, 제1 인핸스먼트 레이어 영상의 부호화 관련 정보에는 인트라 관련 정보, 인터 관련 정보, 잔차 신호 정보 및 복호화된 신호 정보 등이 있을 수 있다. 이 때, 부호화기는 제1 인핸스먼트 레이어의 부호화 관련 정보를 기반으로 제2 인핸스먼트 레이어 영상에 속한 픽쳐, 블록 및/또는 기타 부호화 관련 정보에 대해 시점 간 예측을 수행함으로써, 상기 제2 인핸스먼트 레이어 영상에 대한 시점 간의 중복성을 제거할 수 있다.

다시 도 6을 참조하면, 부호화기는 제3 시점 영상 내지 제N 시점 영상에 대해서도 각각 부호화를 수행할 수 있다. 이 때, 부호화기는 제2 시점 영상에서와 동일하거나 유사한 방식으로 상기 제3 시점 영상 내지 제N 시점 영상 각각에 대한 부호화를 수행할 수 있다. 다만, 제2 시점 영상에서는 시점 간의 중복성을 제거하기 위해, 제1 시점 영상의 부호화 관련 정보만이 이용되지만, 제n 시점 영상(n은 3 이상의 자연수)에서는 시점 간의 중복성을 제거하기 위해, 제1 시점 영상 내지 제n-1 시점 영상의 부호화 관련 정보들이 모두 이용될 수 있다. 즉, 부호화기는 제n 시점 영상에 대해 제1 시점 영상 내지 제n-1 시점 영상의 부호화 관련 정보 중에서 적어도 하나를 기반으로 상기 제n 시점 영상에 대한 부호화를 수행할 수 있다.

예를 들어, 제N 시점 영상에 대한 부호화가 수행되는 경우, 부호화기는 제N 시점 영상에 대한 다운 컨버팅을 수행함으로써, 제N 시점 영상에 대응되는 제N 베이스 레이어 영상을 생성할 수 있다(S630).

제N 베이스 레이어 영상이 생성되면, 부호화기는 제N 베이스 레이어 영상에 대해 부호화를 수행할 수 있다(S660). 이 때, 부호화기는 부호화 과정에서 제N 베이스 레이어 영상에서의 공간적 중복성 및/또는 시간적 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다.

또한, 제N 베이스 레이어 영상을 부호화함에 있어, 부호화기는 다른 시점의 영상에 대응되는 베이스 레이어 영상의 부호화 관련 정보를 기반으로 시점 간 예측을 수행함으로써, 시점 간 중복성을 제거할 수 있다. 이 때, 상기 다른 시점의 영상에 대응되는 베이스 레이어 영상은 제1 베이스 레이어 영상 내지 제N-1 베이스 레이어 영상 중에서 적어도 하나에 해당될 수 있다. 부호화 관련 정보에 관한 실시예는 상술한 바 있으므로, 여기서는 생략하기로 한다.

그리고, 부호화기는 제N 시점 영상을 기반으로, 상기 제N 시점 영상에 대응되는 인핸스먼트 레이어 영상(이하, ‘제N 인핸스먼트 레이어 영상’이라 함)에 대해 부호화를 수행할 수 있다(S690). 이 때, 부호화기는 부호화 과정에서 제N 인핸스먼트 레이어 영상에서의 공간적 중복성 및/또는 시간적 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다. 또한, 부호화기는 제N 인핸스먼트 레이어에 대응되는 하위 공간적 레이어의 부호화 관련 정보를 이용함으로써, 레이어 간의 중복성을 제거할 수 있다.

또한, 제N 인핸스먼트 레이어 영상을 부호화함에 있어, 부호화기는 다른 시점의 영상에 대응되는 인핸스먼트 레이어 영상의 부호화 관련 정보를 기반으로 시점 간 예측을 수행함으로써, 시점 간 중복성을 제거할 수 있다. 이 때, 상기 다른 시점의 영상에 대응되는 인핸스먼트 레이어 영상은 제1 인핸스먼트 레이어 영상 내지 제N-1 인핸스먼트 레이어 영상 중에서 적어도 하나에 해당될 수 있다. 부호화 관련 정보에 관한 실시예는 상술한 바 있으므로, 여기서는 생략하기로 한다.

다시 도 6을 참조하면, 부호화기는 제1 시점 영상에 대응되는 비트 스트림 내지 제N 시점 영상에 대응되는 비트 스트림에 대해 다중화(multiplexing)를 수행함으로써, 부호화된 단일 비트 스트림을 생성할 수 있다(S695). 생성된 비트 스트림은 복호화기로 전송될 수 있다.

상술한 실시예에 의하면, 공간적 스케일러빌리티 및 시점 스케일러빌리티가 동시에 제공될 수 있다.

비록 도 6의 실시예는 부호화기의 관점에서 서술되었지만, 본 발명은 이에 한정되는 것은 아니다. 도 6에서 공간적 중복성 및 시점 간 중복성 등을 제거하기 위해 적용되는 예측, 참조 과정의 실시예들은 복호화기에 대해서도 부호화기와 동일하거나 유사한 방식으로 적용될 수 있다. 예를 들어, 상술한 S640 내지 S690의 과정에서 레이어 내의 중복성, 레이어 간의 중복성 및 시점 간의 중복성을 제거하기 위해 적용되는 예측 과정들은 복호화기에도 동일한 방식으로 적용될 수 있다.

도 7은 2개의 화질적 해상도 및 N개의 시점에 대응되는 스케일러빌리티 지원을 위한 영상 부호화 방법의 일 실시예를 개략적으로 나타내는 흐름도이다. 여기서, N은 2 이상의 자연수를 의미할 수 있다.

도 7의 실시예에서는 서로 다른 시점에서 획득된 N개의 영상이 부호화될 수 있다. 도 7의 실시예에서는 상기 N개의 영상을 각각 제1 시점 영상, 제2 시점 영상, …, 제N 시점 영상이라 한다. 후술되는 실시예에서 방법들은 일련의 단계로서 순서도를 기초로 설명되지만, 본 발명은 단계들의 순서에 한정되는 것을 아니며, 어떤 단계는 후술되는 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다.

또한, 도 7의 실시예는 화질 레이어가 두 개인 경우에 대해 서술되지만, 본 발명은 이에 한정되는 것은 아니다. 후술되는 실시예들은 화질 레이어가 두 개 이상인 경우에도 부호화 과정에 동일하거나 유사한 방식으로 적용될 수 있다.

한편, 복수의 화질 해상도를 지원하는 스케일러블 부호화 과정에서는, 도 6의 실시예에서와 달리, 복수의 레이어 각각에 대한 영상을 생성하기 위해 다운 컨버팅 과정을 수행하지 않을 수 있다. 화질적 스케일러빌리티는, 상위 레이어의 영상에 대해, 하위 레이어의 영상에 비해 작은 QP(Quantization Parameter) 값을 적용함으로써 제공될 수 있다. 즉, 부호화기는 상위 레이어 영상의 부호화 시에 하위 레이어 영상보다 작은 QP 값을 적용할 수 있다. 여기서, QP는 양자화 스텝의 크기가 클수록 큰 값을 가지고, 양자화 스텝의 크기가 작을수록 작은 값을 가진다. 양자화 스텝의 크기가 큰 경우에는 양자화 에러가 많이 발생할 수 있으므로, 영상의 화질 해상도는 QP 값이 작을수록 높아질 수 있다.

도 7을 참조하면, 부호화기는 제1 시점 영상에 대응되는 베이스 레이어 영상(이하, ‘제1 베이스 레이어 영상’이라 함)에 대해, 도 1에 도시된 실시예에서와 같이 부호화를 수행할 수 있다(S710). 이 때, 부호화기는 부호화 과정에서 제1 베이스 레이어 영상 내에서의 공간적(spatial) 중복성 및/또는 시간적(temporal) 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다.

그리고, 부호화기는 제1 시점 영상을 기반으로, 상기 제1 시점 영상에 대응되는 인핸스먼트 레이어 영상(이하, ‘제1 인핸스먼트 레이어 영상’이라 함)에 대해 부호화를 수행할 수 있다(S740). 이 때, 부호화기는 제1 베이스 레이어 영상에서와 마찬가지로, 부호화 과정에서 제1 인핸스먼트 레이어 영상 내에서의 공간적(spatial) 중복성 및/또는 시간적(temporal) 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다.

또한, 제1 인핸스먼트 레이어 영상을 부호화함에 있어, 부호화기는 제1 인핸스먼 레이어 및 하위 레이어(예를 들어, 제1 베이스 레이어) 간의 중복성을 제거하기 위해, 하위 화질 레이어(예를 들어, 제1 베이스 레이어)의 부호화 관련 정보를 이용할 수 있다. 여기서, 하위 화질 레이어의 부호화 관련 정보에는 인트라 관련 정보(예를 들어, 텍스쳐 정보), 인터 관련 정보(예를 들어, 움직임 정보), 잔차 신호 정보 및 복호화된 신호 정보 등이 있을 수 있다. 이 때, 부호화기는 레이어 간의 중복성을 제거하기 위해, 하위 화질 레이어의 부호화 관련 정보를 기반으로 인터 레이어 텍스쳐 예측, 인터 레이어 움직임 정보 예측 및/또는 인터 레이어 잔차 신호 예측 등을 수행할 수 있다.

다시 도 7을 참조하면, 부호화기는 제2 시점 영상에 대응되는 베이스 레이어 영상(이하, ‘제2 베이스 레이어 영상’이라 함)에 대해 부호화를 수행할 수 있다(S720). 이 때, 부호화기는 제1 베이스 레이어 영상에서와 마찬가지로, 부호화 과정에서 제2 베이스 레이어 영상 내에서의 공간적(spatial) 중복성 및/또는 시간적(temporal) 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다.

또한, 제2 베이스 레이어 영상을 부호화함에 있어, 부호화기는 제2 베이스 레이어 영상 및 제1 베이스 레이어 영상(상기 제2 베이스 레이어 영상의 시점과 다른 시점을 갖는 영상) 간의 중복성을 제거하기 위해, 제1 베이스 레이어 영상의 부호화 관련 정보를 이용할 수 있다. 여기서, 제1 베이스 레이어의 부호화 관련 정보에는 인트라 관련 정보, 인터 관련 정보, 잔차 신호 정보 및 복호화된 신호 정보 등이 있을 수 있다. 이 때, 부호화기는 제1 베이스 레이어의 부호화 관련 정보를 기반으로 제2 베이스 레이어 영상에 속한 픽쳐, 블록 및/또는 기타 부호화 관련 정보에 대해 시점 간 예측을 수행함으로써, 시점 간의 중복성을 제거할 수 있다.

그리고, 부호화기는 제2 시점 영상을 기반으로, 상기 제2 시점 영상에 대응되는 인핸스먼트 레이어 영상(이하, ‘제2 인핸스먼트 레이어 영상’이라 함)에 대해 부호화를 수행할 수 있다(S750). 이 때, 부호화기는 제2 베이스 레이어 영상에서와 마찬가지로, 부호화 과정에서 제2 인핸스먼트 레이어 영상 내에서의 공간적 중복성 및/또는 시간적 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다.

또한, 제2 인핸스먼트 레이어 영상을 부호화함에 있어, 부호화기는 제2 인핸스먼 레이어 및 하위 레이어(예를 들어, 제2 베이스 레이어) 간의 중복성을 제거하기 위해, 하위 화질 레이어(예를 들어, 제2 베이스 레이어)의 부호화 관련 정보를 이용할 수 있다. 여기서, 하위 화질 레이어의 부호화 관련 정보에는 인트라 관련 정보(예를 들어, 텍스쳐 정보), 인터 관련 정보(예를 들어, 움직임 정보), 잔차 신호 정보 및 복호화된 신호 정보 등이 있을 수 있다. 이 때, 부호화기는 레이어 간의 중복성을 제거하기 위해, 하위 화질 레이어의 부호화 관련 정보를 기반으로 인터 레이어 텍스쳐 예측, 인터 레이어 움직임 정보 예측 및/또는 인터 레이어 잔차 신호 예측 등을 수행할 수 있다.

다시 도 7을 참조하면, 부호화기는 제3 시점 영상 내지 제N 시점 영상에 대해서도 각각 부호화를 수행할 수 있다. 이 때, 부호화기는 제2 시점 영상에서와 동일하거나 유사한 방식으로 상기 제3 시점 영상 내지 제N 시점 영상 각각에 대한 부호화를 수행할 수 있다. 다만, 제2 시점 영상에서는 시점 간의 중복성을 제거하기 위해, 제1 시점 영상의 부호화 관련 정보만이 이용되지만, 제n 시점 영상(n은 3 이상의 자연수)에서는 시점 간의 중복성을 제거하기 위해, 제1 시점 영상 내지 제n-1 시점 영상의 부호화 관련 정보들이 모두 이용될 수 있다. 즉, 부호화기는 제n 시점 영상에 대해 제1 시점 영상 내지 제n-1 시점 영상의 부호화 관련 정보 중에서 적어도 하나를 기반으로 상기 제n 시점 영상에 대한 부호화를 수행할 수 있다.

예를 들어, 제N 시점 영상에 대한 부호화가 수행되는 경우, 부호화기는 제N 시점 영상에 대응되는 제N 베이스 레이어 영상에 대해 부호화를 수행할 수 있다(S730). 이 때, 부호화기는 부호화 과정에서 제N 베이스 레이어 영상 내에서의 공간적 중복성 및/또는 시간적 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다.

그리고, 부호화기는 제N 시점 영상을 기반으로, 상기 제N 시점 영상에 대응되는 인핸스먼트 레이어 영상(이하, ‘제N 인핸스먼트 레이어 영상’이라 함)에 대해 부호화를 수행할 수 있다(S760). 이 때, 부호화기는 부호화 과정에서 제N 인핸스먼트 레이어 영상 내에서의 공간적 중복성 및/또는 시간적 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다. 또한, 부호화기는 제N 인핸스먼트 레이어에 대응되는 하위 화질 레이어의 부호화 관련 정보를 이용함으로써, 레이어 간의 중복성을 제거할 수 있다.

다시 도 7을 참조하면, 부호화기는 제1 시점 영상에 대응되는 제1 비트 스트림 내지 제N 시점 영상에 대응되는 제N 비트 스트림에 대해 다중화(multiplexing)를 수행함으로써, 부호화된 단일 비트 스트림을 생성할 수 있다(S770). 생성된 비트 스트림은 복호화기로 전송될 수 있다.

상술한 실시예에 의하면, 화질적 스케일러빌리티 및 시점 스케일러빌리티가 동시에 제공될 수 있다.

비록 도 7의 실시예는 부호화기의 관점에서 서술되었지만, 본 발명은 이에 한정되는 것은 아니다. 도 7에서 화질적 중복성 및 시점 간 중복성 등을 제거하기 위해 적용되는 예측, 참조 과정의 실시예들은 복호화기에 대해서도 부호화기에서와 동일하거나 유사한 방식으로 적용될 수 있다. 예를 들어, 상술한 S710 내지 S760의 과정에서 레이어 내의 중복성, 레이어 간의 중복성 및 시점 간의 중복성을 제거하기 위해 적용되는 예측 과정들은 복호화기에도 동일한 방식으로 적용될 수 있다.

도 8은 2개의 공간적 해상도, 2개의 화질적 해상도 및 N개의 시점에 대응되는 스케일러빌리티 지원을 위한 영상 부호화 방법의 일 실시예를 개략적으로 나타내는 흐름도이다. 여기서, N은 2 이상의 자연수를 나타낼 수 있다.

도 8의 실시예에서는 서로 다른 시점에서 획득된 N개의 영상이 부호화될 수 있다. 도 8의 실시예에서는 상기 N개의 영상을 각각 제1 시점 영상, 제2 시점 영상, …, 제N 시점 영상이라 한다. 후술되는 실시예에서 방법들은 일련의 단계로서 순서도를 기초로 설명되지만, 본 발명은 단계들의 순서에 한정되는 것을 아니며, 어떤 단계는 후술되는 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다.

또한, 도 8의 실시예는 공간 레이어가 두 개이고 화질 레이어가 두 개인 경우에 대해 서술되지만, 본 발명은 이에 한정되는 것은 아니다. 후술되는 실시예들은 공간 레이어가 두 개 이상이거나 및/또는 화질 레이어가 두 개 이상인 경우에도 부호화 과정에 동일하거나 유사한 방식으로 적용될 수 있다.

도 8의 실시예에서는 제1 시점 영상 내지 제N 시점 영상 각각에 대해 다운 컨버팅을 수행함으로써, 베이스 레이어 영상이 생성될 수 있다. 또한, 도 8의 실시예에서는 두 개의 인핸스먼트 레이어가 존재할 수 있다. 도 8의 실시예에서, 상기 두 개의 인핸스먼트 레이어 중에서 하위 레이어에 해당되는 레이어는 하위 인핸스먼트 레이어로 지칭하고, 상기 두 개의 인핸스먼트 레이어 중에서 상위 레이어에 해당되는 레이어는 상위 인핸스먼트 레이어로 지칭하기로 한다.

베이스 레이어 영상은 하위 인핸스먼트 레이어 및 상위 인핸스먼트 레이어에 비해 낮은 공간적 해상도를 가질 수 있고, 하위 인핸스먼트 레이어 및 상위 인핸스먼트 레이어는 서로 동일한 공간적 해상도를 가질 수 있다. 따라서, 도 8의 실시예에서는 2개의 공간적 해상도가 지원될 수 있다. 또한, 부호화기는 상위 인핸스먼트 레이어 영상의 부호화 시에 하위 인핸스먼트 레이어 영상보다 작은 QP 값을 적용할 수 있다. 이 경우, 도 8의 실시예에서는 2개의 화질적 해상도가 지원될 수 있다. 따라서, 도 8의 부호화 과정은 공간적, 화질적 및 시점 스케일러빌리티를 모두 지원할 수 있다.

도 8을 참조하면, 부호화기는 제1 시점 영상에 대한 다운 컨버팅(down converting)을 수행함으로써, 제1 시점 영상에 대응되는 베이스 레이어 영상(이하, ‘제1 베이스 레이어 영상’이라 함)을 생성할 수 있다(S813). 제1 베이스 레이어 영상이 생성되면, 부호화기는 제1 베이스 레이어 영상에 대해, 도 1에 도시된 실시예에서와 같이 부호화를 수행할 수 있다(S823). 또한, 부호화기는 제1 시점 영상에 대응되는 제1 하위 인핸스먼트 레이어 영상에 대해 부호화를 수행하고(S833), 제1 시점 영상에 대응되는 제1 상위 인핸스먼트 레이어 영상에 대해 부호화를 수행할 수 있다(S843). 이 때, 부호화기는 레이어 간의 중복성을 제거하기 위해, 하위 레이어의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있다. 각 단계에 대응되는 구체적인 부호화 과정은 상술한 도 6 및 도 7의 실시예에서와 유사하므로, 여기서는 생략하기로 한다.

다시 도 8을 참조하면, 부호화기는 제2 시점 영상에 대한 다운 컨버팅을 수행함으로써, 제2 시점 영상에 대응되는 베이스 레이어 영상(이하, ‘제2 베이스 레이어 영상’이라 함)을 생성할 수 있다(S816). 제2 베이스 레이어 영상이 생성되면, 부호화기는 제2 베이스 레이어 영상에 대해 부호화를 수행할 수 있다(S826). 이 때, 부호화기는 시점 간의 중복성을 제거하기 위해, 제1 베이스 레이어의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있다.

그리고, 부호화기는 제2 시점 영상에 대응되는 제2 하위 인핸스먼트 레이어 영상에 대해 부호화를 수행할 수 있다(S836). 이 때, 부호화기는 레이어 간의 중복성을 제거하기 위해, 하위 레이어의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있고, 시점 간의 중복성을 제거하기 위해, 제1 하위 인핸스먼트 레이어의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있다. 또한, 부호화기는 제2 시점 영상에 대응되는 제2 상위 인핸스먼트 레이어 영상에 대해 부호화를 수행할 수 있다(S846). 이 때, 부호화기는 레이어 간의 중복성을 제거하기 위해, 하위 레이어의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있고, 시점 간의 중복성을 제거하기 위해, 제1 상위 인핸스먼트 레이어의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있다.

제2 시점 영상의 부호화를 위한 각 단계에 대응되는 구체적인 부호화 과정은 상술한 도 6 및 도 7의 실시예에서와 유사하므로, 여기서는 생략하기로 한다.

다시 도 8을 참조하면, 부호화기는 제3 시점 영상 내지 제N 시점 영상에 대해서도 각각 부호화를 수행할 수 있다. 이 때, 부호화기는 제2 시점 영상에서와 동일하거나 유사한 방식으로 상기 제3 시점 영상 내지 제N 시점 영상 각각에 대한 부호화를 수행할 수 있다. 다만, 제2 시점 영상에서는 시점 간의 중복성을 제거하기 위해, 제1 시점 영상의 부호화 관련 정보만이 이용되지만, 제n 시점 영상(n은 3 이상의 자연수)에서는 시점 간의 중복성을 제거하기 위해, 제1 시점 영상 내지 제n-1 시점 영상의 부호화 관련 정보들이 모두 이용될 수 있다. 즉, 부호화기는 제n 시점 영상에 대해 제1 시점 영상 내지 제n-1 시점 영상의 부호화 관련 정보 중에서 적어도 하나를 기반으로 상기 제n 시점 영상에 대한 부호화를 수행할 수 있다.

예를 들어, 제N 시점 영상에 대한 부호화가 수행되는 경우, 부호화기는 제N 시점 영상에 대한 다운 컨버팅을 수행함으로써, 제N 시점 영상에 대응되는 제N 베이스 레이어 영상을 생성할 수 있다(S819). 제N 베이스 레이어 영상이 생성되면, 부호화기는 제N 베이스 레이어 영상에 대해 부호화를 수행할 수 있다(S829). 이 때, 부호화기는 시점 간의 중복성을 제거하기 위해, 다른 시점의 영상에 대응되는 베이스 레이어 영상의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있다.

그리고, 부호화기는 제N 시점 영상에 대응되는 제N 하위 인핸스먼트 레이어 영상에 대해 부호화를 수행할 수 있다(S839). 이 때, 부호화기는 레이어 간의 중복성을 제거하기 위해, 하위 레이어의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있고, 시점 간의 중복성을 제거하기 위해, 다른 시점의 영상에 대응되는 하위 인핸스먼트 레이어 영상의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있다. 또한, 부호화기는 제N 시점 영상에 대응되는 제N 상위 인핸스먼트 레이어 영상에 대해 부호화를 수행할 수 있다(S849). 이 때, 부호화기는 레이어 간의 중복성을 제거하기 위해, 하위 레이어의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있고, 시점 간의 중복성을 제거하기 위해, 다른 시점의 영상에 대응되는 상위 인핸스먼트 레이어 영상의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있다.

제N 시점 영상의 부호화를 위한 각 단계에 대응되는 구체적인 부호화 과정은 상술한 도 6 및 도 7의 실시예에서와 유사하므로, 여기서는 생략하기로 한다.

다시 도 8을 참조하면, 부호화기는 제1 시점 영상에 대응되는 비트 스트림 내지 제N 시점 영상에 대응되는 비트 스트림에 대해 다중화(multiplexing)를 수행함으로써, 부호화된 단일 비트 스트림을 생성할 수 있다(S850). 생성된 비트 스트림은 복호화기로 전송될 수 있다.

상술한 실시예에 의하면, 공간적 스케일러빌리티, 화질적 스케일러빌리티 및 시점 스케일러빌리티가 동시에 제공될 수 있다.

비록 도 8의 실시예는 부호화기의 관점에서 서술되었지만, 본 발명은 이에 한정되는 것은 아니다. 도 8에서 공간적 중복성 및 시점 간 중복성 등을 제거하기 위해 적용되는 예측, 참조 과정의 실시예들은 복호화기에 대해서도 부호화기와 동일하거나 유사한 방식으로 적용될 수 있다. 예를 들어, 상술한 S823 내지 S849의 과정에서 레이어 내의 중복성, 레이어 간의 중복성 및 시점 간의 중복성을 제거하기 위해 적용되는 예측 과정들은 복호화기에도 동일한 방식으로 적용될 수 있다.

도 9의 실시예에서는 서로 다른 시점에서 획득된 2개의 영상이 부호화될 수 있다. 도 9의 실시예에서 상기 2개의 영상은 각각 좌영상(913), 우영상(943)이라 한다. 여기서, 좌영상(913) 및 우영상(943)은 각각 UHD(Ultra High Definition) 영상에 해당될 수 있다.

도 9를 참조하면, 다운 컨버터 916은 부호화하고자 하는 베이스 레이어의 해상도에 맞도록 좌영상(913)에 대한 다운 컨버팅을 수행할 수 있다. 다운 컨버터(916)는 좌영상(913)에 대한 다운 컨버팅을 수행함으로써, 좌영상(913)에 대응되는 베이스 레이어 영상(923)을 생성할 수 있다. 이하, 도 9의 실시예에서 좌영상(913)에 대응되는 베이스 레이어 영상(923)은 ‘베이스 레이어 좌영상’이라 한다. 여기서, 베이스 레이어 좌영상은 HD(High Definition) 영상에 해당될 수 있다.

업 컨버터 926은 베이스 레이어 좌영상(923)에 대한 업 컨버팅(up converting)을 수행할 수 있다. 이 때, 부호화기는 좌영상(913) 및 업 컨버팅된 베이스 레이어 좌영상(923)의 차이에 해당되는 차분 좌영상(930)을 도출하고, 상기 차분 좌영상(930)에 대한 부호화를 수행함으로써 좌영상(913)에 대응되는 비트스트림을 생성할 수 있다. 도 9에서 좌영상(913)에 대응되는 비트스트림은 UHD로 표시된다. 또한, 부호화기는 베이스 레이어 좌영상(923)에 대한 부호화를 수행함으로써 베이스 레이어 좌영상(923)에 대응되는 비트스트림을 생성할 수 있다. 도 9에서 베이스 레이어 좌영상(923)에 대응되는 비트스트림은 HD로 표시된다.

다시 도 9를 참조하면, 다운 컨버터 946은 부호화하고자 하는 베이스 레이어의 해상도에 맞도록 우영상(943)에 대한 다운 컨버팅을 수행할 수 있다. 다운 컨버터(946)는 우영상(943)에 대한 다운 컨버팅을 수행함으로써, 우영상(943)에 대응되는 베이스 레이어 영상(953)을 생성할 수 있다. 이하, 도 9의 실시예에서 우영상(943)에 대응되는 베이스 레이어 영상(953)은 ‘베이스 레이어 우영상’이라 한다. 여기서, 베이스 레이어 우영상은 HD(High Definition) 영상에 해당될 수 있다.

업 컨버터 956은 베이스 레이어 우영상(943)에 대한 업 컨버팅을 수행할 수 있다. 이 때, 부호화기는 우영상(943) 및 좌영상(913) 간의 차분 또는 우영상(943) 및 업 컨버팅된 베이스 레이어 우영상(953) 간의 차분에 의해, 우영상(943)에 대응되는 차분 우영상(960)을 도출할 수 있다. 부호화기는 상기 차분 우영상(960)에 대한 부호화를 수행함으로써 우영상(943)에 대응되는 비트스트림을 생성할 수 있다. 도 9에서 우영상(943)에 대응되는 비트스트림은 3D-UHD로 표시된다.

또한, 부호화기는 베이스 레이어 우영상(953) 및 베이스 레이어 좌영상(923) 간의 차분에 의해, 베이스 레이어 우영상(953)에 대응되는 ‘베이스 레이어 차분 우영상(970)’을 도출할 수 있다. 이 때, 부호화기는 베이스 레이어 차분 우영상(970)에 대해 부호화를 수행함으로써 베이스 레이어 우영상(953)에 대응되는 비트스트림을 생성할 수 있다. 도 9에서 베이스 레이어 우영상(953)에 대응되는 비트스트림은 3D-HD로 표시된다.

부호화기는 상기 생성된 비트 스트림 UHD, HD, 3D-HD 및 3D-UHD에 대해 다중화를 수행함으로써 단일 비트 스트림(980)을 출력할 수 있다. 이 때, 일례로 출력된 단일 비트 스트림(980)은 각각의 레이어에 해당되는 NAL 유닛(Network Abstraction Layer unit)들이 다중화되어 있는 형태를 가질 수 있다. 이 때, 각각의 NAL 유닛에 대응되는 NAL 유닛 헤더(NAL unit header)에는, 상기 각각의 NAL 유닛이 어떤 레이어에 대한 부호화/복호화 관련 정보를 포함하는지를 나타내기 위해, 공간적 해상도를 나타내는 공간 식별자(spatial identifier), 시간적 해상도를 나타내는 시간 식별자(temporal identifier), 화질적 해상도를 나타내는 화질 식별자(quality identifier) 및 시점 해상도를 나타내는 시점 식별자(view identifier) 등이 포함될 수 있다.

또한, 부호화기는 3D 영상 생성에 필요한 공간적, 시간적, 화질적 및/또는 시점 해상도에 대응되는 최상위 레이어를 지시하는 식별자를 전송할 수 있다. 이 때, 비트 스트림 추출기는 상기 최상위 레이어를 지시하는 식별자 및 각 NAL 유닛 헤더에 포함된 정보를 기반으로, 단일 비트 스트림(980)으로부터 3D 영상 생성에 필요한 비트 스트림을 추출할 수 있다. 여기서, 추출된 비트 스트림은, 3D 영상 생성에 필요한 공간 해상도, 시간 해상도, 화질 해상도 및 시점 수에 대응되는 최상위 레이어를 포함하는 비트 스트림에 해당될 수 있다.

한편, 복호화기는 상술한 부호화 과정을 통해 부호화된 비트 스트림에 대해, 복호화를 수행할 수 있다.

예를 들어, 서로 다른 시점에서 획득된 N개(여기서, N은 2 이상의 자연수임)의 영상에 대해 복호화가 수행된다고 가정한다. 이 때, 상기 N개의 영상은 각각 제1 시점 영상, 제2 시점 영상,…, 제N 시점 영상이라 한다.

이 때, 복호화기는 부호화기로부터 전송된 정보를 기반으로, 제1 시점 영상에 대응되는 제1 베이스 레이어 영상에 대한 복호화를 수행할 수 있다. 이 때, 복호화기는 도 2에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다. 또한, 복호화기는 제1 시점 영상에 대응되는 제1 인핸스먼트 레이어 영상(들)에 대한 복호화를 수행할 수 있다. 이 때, 복호화기는 도 2에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있고, 하위 레이어의 부호화/복호화 관련 정보를 기반으로 인터 레이어 텍스쳐 예측, 인터 레이어 움직임 정보 예측 및/또는 인터 레이어 잔차 신호 예측 등을 수행할 수 있다.

그리고, 복수의 시점에 대한 복호화가 수행되는 경우, 복호화기는 제2 시점 영상에 대응되는 제2 베이스 레이어 영상에 대한 복호화를 수행할 수 있다. 이 때, 복호화기는 도 2에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있고, 제1 베이스 레이어 영상(제2 베이스 레이어 영상과 다른 시점에 대응되는 영상)의 부호화/복호화 관련 정보를 기반으로 시점 간 예측(inter-view prediction)을 수행할 수 있다.

또한, 복호화기는 제2 시점 영상에 대응되는 제2 인핸스먼트 레이어 영상(들)에 대한 복호화를 수행할 수 있다. 이 때, 복호화기는 도 2에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있고, 하위 레이어의 부호화/복호화 관련 정보를 기반으로 인터 레이어 텍스쳐 예측, 인터 레이어 움직임 정보 예측 및/또는 인터 레이어 잔차 신호 예측 등을 수행할 수 있다. 그리고 복호화기는 제1 인핸스먼트 레이어 영상(제2 인핸스먼트 레이어 영상과 다른 시점에 대응되는 영상)의 부호화/복호화 관련 정보를 기반으로 시점 간 예측을 수행할 수 있다.

복호화기는 제2 시점 영상에서와 유사한 방식으로, 제1 시점 영상 및 제2 시점 영상이 아닌 다른 시점의 영상에 대해서도 복호화를 수행할 수 있다. 이 때, 복호화기는 3D 영상 생성에 필요한 최대의 시점 수에 따라, 제1 시점 영상 내지 제n 시점 영상(여기서, n은 3D 영상 생성에 필요한 최대의 시점 수를 나타낼 수 있음)에 대한 복호화를 수행할 수 있다.

한편, 상술한 실시예들에서는 시점 간의 중복성을 제거하기 위해, 부호화/복호화 대상 영상이 속한 시점과 다른 시점의 영상이 시점 간 예측에 사용될 수 있다. 이 때, 상술한 실시예들에서는 부호화/복호화 대상 영상이 속한 레이어와 동일한 레이어에 속한 영상이 부호화/복호화에 사용될 수 있다. 그러나, 본 발명은 이에 한정되는 것은 아니며, 부호화기/복호화기는 시점 간 예측을 위해 부호화/복호화 대상 영상 속한 레이어와 다른 레이어에 속한 영상을 사용할 수도 있다.

상술한 실시예들에서, 방법들은 일련의 단계 또는 블록으로서 순서도를 기초로 설명되고 있으나, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당해 기술 분야에서 통상의 지식을 가진 자라면 순서도에 나타난 단계들이 배타적이지 않고, 다른 단계가 포함되거나, 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.

상술한 실시예는 다양한 양태의 예시들을 포함한다. 다양한 양태들을 나타내기 위한 모든 가능한 조합을 기술할 수는 없지만, 해당 기술 분야의 통상의 지식을 가진 자는 다른 조합이 가능함을 인식할 수 있을 것이다. 따라서, 본 발명은 이하의 특허청구범위 내에 속하는 모든 다른 교체, 수정 및 변경을 포함한다고 할 것이다.

Claims

베이스 레이어 영상(base layer image)이 속한 시점(view)과 다른 시점에 속한 영상에 대응하는 제1 복호화 정보를 기반으로, 상기 베이스 레이어 영상에 대응하는 제1 비트스트림에 대해 복호화를 수행하는 단계; 및
상기 베이스 레이어 영상에 대응하는 제2 복호화 정보, 및 인핸스먼트 레이어 영상(enhancement layer image)이 속한 시점과 다른 시점에 속한 영상에 대응하는 제3 복호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대응하는 제2 비트스트림에 대해 복호화를 수행하는 단계를 포함하는 비디오 복호화 방법.
제 1항에 있어서,
상기 베이스 레이어 영상 및 상기 인핸스먼트 레이어 영상은 서로 다른 공간(spatial) 해상도를 갖는 것을 특징으로 하는 비디오 복호화 방법.
제 1항에 있어서,
상기 베이스 레이어 영상 및 상기 인핸스먼트 레이어 영상은 서로 다른 화질(quality) 해상도를 갖는 것을 특징으로 하는 비디오 복호화 방법.
제 1항에 있어서,
상기 제1 복호화 정보, 상기 제2 복호화 정보 및 상기 제3 복호화 정보는 텍스쳐 정보, 움직임 정보, 잔차 신호 정보 및 복호화된 신호 정보 중에서 적어도 하나를 포함하는 것을 특징으로 하는 비디오 복호화 방법.
제 1항에 있어서,
상기 제1 비트 스트림에 대응되는 제1 NAL 유닛(Network Absolute Layer unit) 및 상기 제2 비트 스트림에 대응되는 제2 NAL 유닛을 기반으로 다중화된, 단일 비트 스트림을 수신하는 단계; 및
상기 단일 비트 스트림으로부터 상기 제1 비트 스트림 및 상기 제2 비트 스트림을 추출하는 단계를 더 포함하는 것을 특징으로 하는 비디오 복호화 방법.
제 5항에 있어서,
상기 제1 NAL 유닛에 대응되는 제1 NAL 유닛 헤더는, 제1 공간 식별자(spatial identifier), 제1 시간 식별자(temporal identifier), 제1 화질 식별자(quality identifier) 및 제1 시점 식별자(view identifier) 중에서 적어도 하나를 포함하고,
상기 제2 NAL 유닛에 대응되는 제2 NAL 유닛 헤더는, 제2 공간 식별자, 제2 시간 식별자, 제2 화질 식별자 및 제2 시점 식별자 중에서 적어도 하나를 포함하고,
상기 제1 공간 식별자, 상기 제1 시간 식별자, 상기 제1 화질 식별자 및 상기 제1 시점 식별자는, 각각 상기 베이스 레이어 영상에 대응되는 공간 해상도, 시간 해상도, 화질 해상도 및 시점 해상도를 지시하고,
상기 제2 공간 식별자, 상기 제2 시간 식별자, 상기 제2 화질 식별자 및 상기 제2 시점 식별자는, 각각 상기 인핸스먼트 레이어 영상에 대응되는 공간 해상도, 시간 해상도, 화질 해상도 및 시점 해상도를 지시하는 것을 특징으로 하는 비디오 복호화 방법.
제 6항에 있어서,
상기 추출하는 단계에서는,
상기 제1 NAL 유닛 헤더에 포함된 정보를 기반으로 상기 제1 비트 스트림을 추출하고, 상기 제2 NAL 유닛 헤더에 포함된 정보를 기반으로 상기 제2 비트 스트림을 추출하는 것을 특징으로 하는 비디오 복호화 방법.
제 1항에 있어서,
상기 제1 비트스트림에 대해 복호화를 수행하는 단계에서는,
상기 제1 복호화 정보를 기반으로, 상기 베이스 레이어 영상에 대해 시점 간 예측(inter-view prediction)을 수행하는 것을 특징으로 하는 비디오 복호화 방법.
제 1항에 있어서,
상기 제2 비트스트림에 대해 복호화를 수행하는 단계에서는,
상기 제2 복호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대해 인터 레이어 텍스쳐 예측(inter layer texture prediction), 인터 레이어 움직임 정보 예측(inter layer motion information prediction) 및 인터 레이어 잔차 신호 예측(inter layer residual signal prediction) 중에서 적어도 하나를 수행하는 것을 특징으로 하는 비디오 복호화 방법.
제 1항에 있어서,
상기 제2 비트스트림에 대해 복호화를 수행하는 단계에서는,
상기 제3 복호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대해 시점 간 예측(inter-view prediction)을 수행하는 것을 특징으로 하는 비디오 복호화 방법.
베이스 레이어 영상(base layer image)이 속한 시점(view)과 다른 시점에 속한 영상에 대응하는 제1 부호화 정보를 기반으로, 상기 베이스 레이어 영상에 대해 부호화를 수행함으로써 상기 베이스 레이어 영상에 대응하는 제1 비트스트림을 생성하는 단계; 및
상기 베이스 레이어 영상에 대응하는 제2 부호화 정보, 및 인핸스먼트 레이어 영상(enhancement layer image)이 속한 시점과 다른 시점에 속한 영상에 대응하는 제3 부호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대해 부호화를 수행함으로써 상기 인핸스먼트 레이어 영상에 대응하는 제2 비트스트림을 생성하는 단계를 포함하는 비디오 부호화 방법.
제 11항에 있어서,
상기 베이스 레이어 영상 및 상기 인핸스먼트 레이어 영상은 서로 다른 공간(spatial) 해상도를 갖는 것을 특징으로 하는 비디오 부호화 방법.
제 11항에 있어서,
상기 베이스 레이어 영상 및 상기 인핸스먼트 레이어 영상은 서로 다른 화질(quality) 해상도를 갖는 것을 특징으로 하는 비디오 부호화 방법.
제 11항에 있어서,
상기 제1 부호화 정보, 상기 제2 부호화 정보 및 상기 제3 부호화 정보는 텍스쳐 정보, 움직임 정보, 잔차 신호 정보 및 부호화된 신호 정보 중에서 적어도 하나를 포함하는 것을 특징으로 하는 비디오 부호화 방법.
제 11항에 있어서,
상기 제1 비트스트림 및 상기 제2 비트스트림을 기반으로 다중화를 수행함으로써 단일 비트 스트림을 생성하는 단계를 더 포함하는 것을 특징으로 하는 비디오 부호화 방법.
제 11항에 있어서,
상기 베이스 레이어 영상에 대해 부호화를 수행하는 단계에서는,
상기 제1 부호화 정보를 기반으로, 상기 베이스 레이어 영상에 대해 시점 간 예측(inter-view prediction)을 수행하는 것을 특징으로 하는 비디오 부호화 방법.
제 11항에 있어서,
상기 인핸스먼트 레이어 영상에 대해 부호화를 수행하는 단계에서는,
상기 제2 부호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대해 인터 레이어 텍스쳐 예측(inter layer texture prediction), 인터 레이어 움직임 정보 예측(inter layer motion information prediction) 및 인터 레이어 잔차 신호 예측(inter layer residual signal prediction) 중에서 적어도 하나를 수행하는 것을 특징으로 하는 비디오 부호화 방법.
제 11항에 있어서,
상기 인핸스먼트 레이어 영상에 대해 부호화를 수행하는 단계에서는,
상기 제3 부호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대해 시점 간 예측(inter-view prediction)을 수행하는 것을 특징으로 하는 비디오 부호화 방법.