WO2013157826A1

WO2013157826A1 - 영상 정보 디코딩 방법, 영상 디코딩 방법 및 이를 이용하는 장치

Info

Publication number: WO2013157826A1
Application number: PCT/KR2013/003204
Authority: WO
Inventors: 강정원; 이하현; 최진수; 김진웅
Original assignee: 한국전자통신연구원
Priority date: 2012-04-16
Filing date: 2013-04-16
Publication date: 2013-10-24
Also published as: KR20180035760A; JP2018152866A; CN108769708B; KR20160086806A; JP2018152871A; KR101904242B1; CN108769687A; CN104303503A; CN108769707B; EP3570546A1; EP3893511A1; WO2013157828A1; KR20140071517A; KR20130118253A; KR20130116783A; US11483578B2; JP6556906B2; JP2022160641A; JP7431290B2; JP7041294B2

Abstract

본 발명은 영상 정보 디코딩 방법에 대한 것으로, 디코딩 방법은 인코딩된 영상에 관련된 정보를 포함하는 NAL(Network Abstraction Layer) 유닛을 포함하는 비트스트림을 수신하는 단계와, 상기 NAL 유닛의 NAL 유닛 헤더를 파싱하는 단계를 포함하고, 상기 NAL 유닛 헤더는 인코딩 시 전체 비트스트림에서 비 참조 픽처 인지 또는 참조 픽처 인지 여부를 나타내는 1비트의 플래그 정보를 포함하지 않을 수 있다.

Description

영상 정보 디코딩 방법, 영상 디코딩 방법 및 이를 이용하는 장치

본 발명은 비디오 부호화 및 복호화 처리에 관한 것으로서, 보다 상세하게는 비트스트림 내 비디오의 정보를 디코딩하는 방법 및 장치에 관한 것이다.

최근 HD(High Definition) 해상도를 가지는 방송 서비스가 국내뿐만 아니라 세계적으로 확대되면서, 많은 사용자들이 고해상도, 고화질의 영상에 익숙해지고 있으며 이에 따라 많은 기관들이 차세대 영상기기에 대한 개발에 박차를 가하고 있다. 또한 HDTV와 더불어 HDTV의 4배 이상의 해상도를 갖는 UHD(Ultra High Definition)에 대한 관심이 증대되면서 보다 높은 해상도, 고화질의 영상에 대한 압축기술이 요구되고 있다.

영상 압축을 위해, 시간적으로 이전 및/또는 이후의 픽처로부터 현재 픽처에 포함된 화소값을 예측하는 인터(inter) 예측 기술, 현재 픽처 내의 화소 정보를 이용하여 현재 픽처에 포함된 화소값을 예측하는 인트라(intra) 예측 기술, 출현 빈도가 높은 심볼(symbol)에 짧은 부호를 할당하고 출현 빈도가 낮은 심볼에 긴 부호를 할당하는 엔트로피 부호화 기술 등이 사용될 수 있다.

영상 압축 기술에는 유동적인 네트워크 환경을 고려하지 않고 하드웨어의 제한적인 동작 환경하에서 일정한 네트워크 대역폭을 제공하는 기술이 있다. 그러나 수시로 대역폭이 변화하는 네트워크 환경에 적용되는 영상 데이터를 압축하기 위해서는 새로운 압축 기술이 요구되고, 이를 위해 스케일러블(scalable) 비디오 부호화/복호화 방법이 사용될 수 있다.

본 발명의 기술적 과제는 계층적 비트스트림 내 추출 및 스케일러빌리티 정보를 기술하는 방법 및 장치를 제공함에 있다.

본 발명의 다른 기술적 과제는 유연한 방식으로 다양한 종류의 비트스트림의 스케일러빌리티 정보를 표현하는 방법 및 장치를 제공함에 있다.

본 발명의 또 다른 기술적 과제는 계층적 비트스트림 내 추출 및 스케일러빌리티 정보를 패킷 레벨에서의 적응적으로 변환 가능하게 제공하는 방법 및 장치를 제공함에 있다.

본 발명의 일 실시예에 따른 영상 정보 디코딩 방법은 인코딩된 영상에 관련된 정보를 포함하는 NAL(Network Abstraction Layer) 유닛을 포함하는 비트스트림을 수신하는 단계와, 상기 NAL 유닛의 NAL 유닛 헤더를 파싱하는 단계를 포함하고, 상기 NAL 유닛 헤더는 상기 NAL 유닛이 인코딩 시 전체 비트스트림에서 비 참조 픽처 인지 또는 참조 픽처 인지 여부를 나타내는 1비트의 플래그 정보를 포함하지 않을 수 있다.

본 발명의 일 실시예에 따른 영상 디코딩 방법은 수신된 픽처를 디코딩하는 단계와, 디코딩된 픽처를 DPB(decoded picture buffer)에 참조 픽처로 표시하는 단계와, 상기 디코딩된 픽처의 다음 픽처에 대한 슬라이스 헤더를 파싱하는 단계와, 상기 슬라이스 헤더에 포함되어 있는 참조 픽처 정보에 기초하여 상기 디코딩된 픽처가 참조 픽처인지 비 참조 픽처인지 여부를 표시하는 단계를 포함할 수 있다.

본 발명의 다른 실시예에 활성화되는 파라미터 세트에 대한 정보를 포함하는 SEI(Supplemental enhancement information) 메시지를 수신하는 단계와, 상기 파라미터 세트에 대한 정보를 파싱할 수 있다.

본 발명의 일 실시예에 따르면, 계층적 비트스트림 내 추출 및 스케일러빌리티 정보를 기술하는 방법 및 장치가 제공될 수 있다.

본 발명의 일 실시예에 따르면 유연한 방식으로 다양한 종류의 비트스트림의 스케일러빌리티 정보를 표현하는 방법 및 장치가 제공된다. .

본 발명의 다른 실시예에 따르면 계층적 비트스트림 내 추출 및 스케일러빌리티 정보를 패킷 레벨에서의 적응적으로 변환 가능하게 제공하는 방법 및 장치가 제공된다.

도 1은 영상 부호화 장치의 일 실시예에 따른 구성을 나타내는 블록도이다.

도 2는 영상 복호화 장치의 일 실시예에 따른 구성을 나타내는 블록도이다.

도 3은 본 발명이 적용될 수 있는, 복수 계층을 이용한 스케일러블 비디오 코딩 구조의 일 실시예를 개략적으로 나타내는 개념도이다.

도 4는 본 발명에 따른 영상 정보의 인코딩 방법을 설명한 제어 흐름도이다.

도 5는 본 발명에 따른 영상 정보의 디코딩 방법을 설명하기 위한 제어 흐름도이다.

이하, 도면을 참조하여 본 발명의 실시 형태에 대하여 구체적으로 설명한다. 본 명세서의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

어떤 구성 요소가 다른 구성 요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 아울러, 본 발명에서 특정 구성을 “포함”한다고 기술하는 내용은 해당 구성 이외의 구성을 배제하는 것이 아니며, 추가적인 구성이 본 발명의 실시 또는 본 발명의 기술적 사상의 범위에 포함될 수 있음을 의미한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

또한 본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리범위에 포함된다.

또한, 일부의 구성 요소는 본 발명에서 본질적인 기능을 수행하는 필수적인 구성 요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성 요소일 수 있다. 본 발명은 단지 성능 향상을 위해 사용되는 구성 요소를 제외한 본 발명의 본질을 구현하는데 필수적인 구성부만을 포함하여 구현될 수 있고, 단지 성능 향상을 위해 사용되는 선택적 구성 요소를 제외한 필수 구성 요소만을 포함한 구조도 본 발명의 권리범위에 포함된다.

도 1은 영상 부호화 장치의 일 실시예에 따른 구성을 나타내는 블록도이다. 스케일러블(scalable) 비디오 부호화/복호화 방법 또는 장치는 스케일러빌리티(scalability)를 제공하지 않는 일반적인 영상 부호화/복호화 방법 또는 장치의 확장(extension)에 의해 구현될 수 있으며, 도 1의 블록도는 스케일러블 비디오 부호화 장치의 기초가 될 수 있는 영상 부호화 장치의 일 실시예를 나타낸다.

도 1을 참조하면, 상기 영상 부호화 장치(100)는 움직임 예측부(111), 움직임 보상부(112), 인트라 예측부(120), 스위치(115), 감산기(125), 변환부(130), 양자화부(140), 엔트로피 부호화부(150), 역양자화부(160), 역변환부(170), 가산기(175), 필터부(180) 및 참조영상 버퍼(190)를 포함한다.

영상 부호화 장치(100)는 입력 영상에 대해 인트라(intra) 모드 또는 인터(inter) 모드로 부호화를 수행하고 비트스트림(bit stream)을 출력할 수 있다. 인트라 예측은 화면 내 예측, 인터 예측은 화면 간 예측을 의미한다. 인트라 모드인 경우 스위치(115)가 인트라로 전환되고, 인터 모드인 경우 스위치(115)가 인터로 전환된다. 영상 부호화 장치(100)는 입력 영상의 입력 블록에 대한 예측 블록을 생성한 후, 입력 블록과 예측 블록의 차분을 부호화할 수 있다.

인트라 모드인 경우, 인트라 예측부(120)는 현재 블록 주변의 이미 부호화된 블록의 화소값을 이용하여 공간적 예측을 수행하여 예측 블록을 생성할 수 있다.

인터 모드인 경우, 움직임 예측부(111)는, 움직임 예측 과정에서 참조 영상 버퍼(190)에 저장되어 있는 참조 영상에서 입력 블록과 가장 매치가 잘 되는 영역을 찾아 움직임 벡터를 구할 수 있다. 움직임 보상부(112)는 움직임 벡터와 참조 영상 버퍼(190)에 저장되어 있는 참조 영상을 이용하여 움직임 보상을 수행함으로써 예측 블록을 생성할 수 있다.

감산기(125)는 입력 블록과 생성된 예측 블록의 차분에 의해 잔여 블록(residual block)을 생성할 수 있다. 변환부(130)는 잔여 블록에 대해 변환(transform)을 수행하여 변환 계수(transform coefficient)를 출력할 수 있다. 그리고 양자화부(140)는 입력된 변환 계수를 양자화 파라미터에 따라 양자화하여 양자화된 계수(quantized coefficient)를 출력할 수 있다.

엔트로피 부호화부(150)는, 양자화부(140)에서 산출된 값들 또는 부호화 과정에서 산출된 부호화 파라미터 값 등을 기초로, 심볼(symbol)을 확률 분포에 따라 엔트로피 부호화하여 비트스트림(bit stream)을 출력할 수 있다. 엔트로피 부호화 방법은 다양한 값을 갖는 심볼을 입력 받아, 통계적 중복성을 제거하면서, 복호 가능한 2진수의 열로 표현하는 방법이다.

여기서, 심볼이란 부호화/복호화 대상 구문 요소(syntax element) 및 부호화 파라미터(coding parameter), 잔여 신호(residual signal)의 값 등을 의미한다. 부호화 파라미터는 부호화 및 복호화에 필요한 매개변수로서, 구문 요소와 같이 부호화기에서 부호화되어 복호화기로 전달되는 정보뿐만 아니라, 부호화 혹은 복호화 과정에서 유추될 수 있는 정보를 포함할 수 있으며 영상을 부호화하거나 복호화할 때 필요한 정보를 의미한다. 부호화 파라미터는 예를 들어 인트라/인터 예측모드, 이동/움직임 벡터, 참조 영상 색인, 부호화 블록 패턴, 잔여 신호 유무, 변환 계수, 양자화된 변환 계수, 양자화 파라미터, 블록 크기, 블록 분할 정보 등의 값 또는 통계를 포함할 수 있다. 또한 잔여 신호는 원신호와 예측 신호의 차이를 의미할 수 있고, 또한 원신호와 예측 신호의 차이가 변환(transform)된 형태의 신호 또는 원신호와 예측 신호의 차이가 변환되고 양자화된 형태의 신호를 의미할 수도 있다. 잔여 신호는 블록 단위에서는 잔여 블록이라 할 수 있다.

엔트로피 부호화가 적용되는 경우, 높은 발생 확률을 갖는 심볼에 적은 수의 비트가 할당되고 낮은 발생 확률을 갖는 심볼에 많은 수의 비트가 할당되어 심볼이 표현됨으로써, 부호화 대상 심볼들에 대한 비트열의 크기가 감소될 수 있다. 따라서 엔트로피 부호화를 통해서 영상 부호화의 압축 성능이 높아질 수 있다.

엔트로피 부호화를 위해 지수 골룸(exponential golomb), CAVLC(Context-Adaptive Variable Length Coding), CABAC(Context-Adaptive Binary Arithmetic Coding)과 같은 부호화 방법이 사용될 수 있다. 예를 들어, 엔트로피 부호화부(150)에는 가변 길이 부호화(VLC: Variable Lenghth Coding/Code) 테이블과 같은 엔트로피 부호화를 수행하기 위한 테이블이 저장될 수 있고, 엔트로피 부호화부(150)는 저장된 가변 길이 부호화(VLC) 테이블을 사용하여 엔트로피 부호화를 수행할 수 있다. 또한 엔트로피 부호화부(150)는 대상 심볼의 이진화(binarization) 방법 및 대상 심볼/빈(bin)의 확률 모델(probability model)을 도출한 후, 도출된 이진화 방법 또는 확률 모델을 사용하여 엔트로피 부호화를 수행할 수도 있다.

양자화된 계수는 역양자화부(160)에서 역양자화되고 역변환부(170)에서 역변환될 수 있다. 역양자화, 역변환된 계수는 가산기(175)를 통해 예측 블록과 더해지고 복원 블록이 생성될 수 있다.

복원 블록은 필터부(180)를 거치고, 필터부(180)는 디블록킹 필터(deblocking filter), SAO(Sample Adaptive Offset), ALF(Adaptive Loop Filter) 중 적어도 하나 이상을 복원 블록 또는 복원 픽처에 적용할 수 있다. 필터부(180)를 거친 복원 블록은 참조 영상 버퍼(190)에 저장될 수 있다.

도 2는 영상 복호화 장치의 일 실시예에 따른 구성을 나타내는 블록도이다. 도 1에서 상술한 바와 같이 스케일러블 비디오 부호화/복호화 방법 또는 장치는 스케일러빌리티를 제공하지 않는 일반적인 영상 부호화/복호화 방법 또는 장치의 확장에 의해 구현될 수 있으며, 도 2의 블록도는 스케일러블 비디오 복호화 장치의 기초가 될 수 있는 영상 복호화 장치의 일 실시예를 나타낸다.

도 2를 참조하면, 상기 영상 복호화 장치(200)는 엔트로피 복호화부(210), 역양자화부(220), 역변환부(230), 인트라 예측부(240), 움직임 보상부(250), 필터부(260) 및 참조 영상 버퍼(270)를 포함한다.

영상 복호화 장치(200)는 부호화기에서 출력된 비트스트림을 입력 받아 인트라 모드 또는 인터 모드로 복호화를 수행하고 재구성된 영상, 즉 복원 영상을 출력할 수 있다. 인트라 모드인 경우 스위치가 인트라로 전환되고, 인터 모드인 경우 스위치가 인터로 전환될 수 있다. 영상 복호화 장치(200)는 입력 받은 비트스트림으로부터 복원된 잔여 블록(residual block)을 얻고 예측 블록을 생성한 후 복원된 잔여 블록과 예측 블록을 더하여 재구성된 블록, 즉 복원 블록을 생성할 수 있다.

엔트로피 복호화부(210)는, 입력된 비트스트림을 확률 분포에 따라 엔트로피 복호화하여, 양자화된 계수(quantized coefficient) 형태의 심볼을 포함한 심볼들을 생성할 수 있다. 엔트로피 복호화 방법은 2진수의 열을 입력 받아 각 심볼들을 생성하는 방법이다. 엔트로피 복호화 방법은 상술한 엔트로피 부호화 방법과 유사하다.

양자화된 계수는 역양자화부(220)에서 역양자화되고 역변환부(230)에서 역변환되며, 양자화된 계수가 역양자화/역변환 된 결과, 복원된 잔여 블록(residual block)이 생성될 수 있다.

인트라 모드인 경우, 인트라 예측부(240)는 현재 블록 주변의 이미 부호화된 블록의 화소값을 이용하여 공간적 예측을 수행하여 예측 블록을 생성할 수 있다. 인터 모드인 경우, 움직임 보상부(250)는 움직임 벡터 및 참조 영상 버퍼(270)에 저장되어 있는 참조 영상을 이용하여 움직임 보상을 수행함으로써 예측 블록을 생성할 수 있다.

복원된 잔여 블록과 예측 블록은 가산기(255)를 통해 더해지고, 더해진 블록은 필터부(260)를 거친다. 필터부(260)는 디블록킹 필터, SAO, ALF 중 적어도 하나 이상을 복원 블록 또는 복원 픽처에 적용할 수 있다. 필터부(260)는 재구성된 영상, 즉 복원 영상을 출력한다. 복원 영상은 참조 영상 버퍼(270)에 저장되어 화면 간 예측에 사용될 수 있다.

상기 영상 복호화 장치(200)에 포함되어 있는 엔트로피 복호화부(210), 역양자화부(220), 역변환부(230), 인트라 예측부(240), 움직임 보상부(250), 필터부(260) 및 참조 영상 버퍼(270) 중 영상의 복호화에 직접적으로 관련된 구성요소들, 예컨대, 엔트로피 복호화부(210), 역양자화부(220), 역변환부(230), 인트라 예측부(240), 움직임 보상부(250), 필터부(260) 등을 다른 구성요소와 구분하여 복호화부 또는 디코딩부로 표현할 수 있다.

또한, 영상 복호화 장치(200)는 비트스트림에 포함되어 있는 인코딩된 영상에 관련된 정보를 파싱하는 도시하지 않은 파싱부를 더 포함할 수 있다. 파싱부는 엔트로피 복호화부(210)를 포함할 수도 있고, 엔트로피 복호화부(210)에 포함될 수도 있다. 이러한 파싱부는 또한 디코딩부의 하나의 구성요소로 구현될 수도 있다.

도 3은 본 발명이 적용될 수 있는, 복수 계층을 이용한 스케일러블 비디오 코딩 구조의 일 실시예를 개략적으로 나타내는 개념도이다. 도 3에서 GOP(Group of Picture)는 픽처군 즉, 픽처의 그룹을 나타낸다.

영상 데이터를 전송하기 위해서는 전송 매체가 필요하며, 그 성능은 다양한 네트워크 환경에 따라 전송 매체별로 차이가 있다. 이러한 다양한 전송 매체 또는 네트워크 환경에의 적용을 위해 스케일러블 비디오 코딩 방법이 제공될 수 있다.

스케일러블 비디오 코딩 방법은 계층(layer) 간의 텍스쳐 정보, 움직임 정보, 잔여 신호 등을 활용하여 계층 간 중복성을 제거하여 부호화/복호화 성능을 높이는 코딩 방법이다. 스케일러블 비디오 코딩 방법은, 전송 비트율, 전송 에러율, 시스템 자원 등의 주변 조건에 따라, 공간적, 시간적, 화질적 관점에서 다양한 스케일러빌리티를 제공할 수 있다.

스케일러블 비디오 코딩은, 다양한 네트워크 상황에 적용 가능한 비트스트림을 제공할 수 있도록, 복수 계층(multiple layers) 구조를 사용하여 수행될 수 있다. 예를 들어 스케일러블 비디오 코딩 구조는, 일반적인 영상 부호화 방법을 이용하여 영상 데이터를 압축하여 처리하는 기본 계층을 포함할 수 있고, 기본 계층의 부호화 정보 및 일반적인 영상 부호화 방법을 함께 사용하여 영상 데이터를 압축 처리하는 향상 계층을 포함할 수 있다.

여기서, 계층(layer)은 공간(spatial, 예를 들어, 영상 크기), 시간(temporal, 예를 들어, 부호화 순서, 영상 출력 순서, 프레임 레이트), 화질, 복잡도 등을 기준으로 구분되는 영상 및 비트스트림(bitstream)의 집합을 의미한다. 또한 기본 계층은 참조 계층 또는 Base layer, 향상 계층은 Enhancement layer를 의미할 수 있다. 또한 복수의 계층들은 서로 간에 종속성을 가질 수도 있다.

도 3을 참조하면, 예를 들어 기본 계층은 SD(standard definition), 15Hz의 프레임율, 1Mbps 비트율로 정의될 수 있고, 제1 향상 계층은 HD(high definition), 30Hz의 프레임율, 3.9Mbps 비트율로 정의될 수 있으며, 제2 향상 계층은 4K-UHE(ultra high definition), 60Hz의 프레임율, 27.2Mbps 비트율로 정의될 수 있다. 상기 포맷(format), 프레임율, 비트율 등은 하나의 실시예로서, 필요에 따라 달리 정해질 수 있다. 또한 사용되는 계층의 수도 본 실시예에 한정되지 않고 상황에 따라 달리 정해질 수 있다.

예를 들어, 전송 대역폭이 4Mbps라면 상기 제1향상계층 HD의 프레임 레이트를 줄여서 15Hz이하로 전송할 수 있다. 스케일러블 비디오 코딩 방법은 상기 도 3의 실시예에서 상술한 방법에 의해 시간적, 공간적, 화질적 스케일러빌리티를 제공할 수 있다.

스케일러블 비디오 코딩은 이하 부호화 관점에서는 스케일러블 비디오 부호화, 복호화 관점에서는 스케일러블 비디오 복호화와 동일한 의미를 가진다.

상술한 바와 같이, 이종의 통신망 및 다양한 단말로 인해 스케일러빌리티는 현재 비디오 포맷의 중요한 기능이 되었다. AVC(Advanced Video Coding)의 확장 표준인 SVC(Scalable Video Coding)는 압축효율을 최대한 유지하면서 다양한 범위의 비트레이트를 가지는 비트스트림을 생성할 수 있도록 개발되었다. 다양한 디바이스 및 네트워크의 특성과 변화를 만족시키기 위해서 SVC 비트스트림은 쉽게 다양한 방식으로 추출될 수 있다. 즉, SVC 표준은 공간적(spatial), 시간적(temporal), 화질(SNR) 스케일러빌리티를 제공한다.

한편, 복수의 계층을 포함하는 비트스트림은 패킷 스위칭 네트워크(packet-switching network)를 통하여 비디오의 적응적 전송을 용이하게 하는 NAL (Network Abstraction Layer) unit들로 구성된다. 복수의 계층과 유사하게 비트스트림 내 복수의 다시점 영상을 포함하는 멀티 뷰 비디오 코딩(multi-view video coding)에서 복수의 시점간의 관계는 복수의 레이어를 지원하는 비디오에서의 공간적 계층(spatial layer)간의 관계와 유사하다.

콘텐츠 전달경로(content delivery path)에서의 모든 노드에서 비트스트림을 효과적이며 효율적으로 변환하기 위해서는 비트스트림의 스케일러빌리티 정보가 매우 중요하다. 현재 단일 레이어에 대한 비디오 코딩에 대한 표준(high efficiency video coding)에서는 NAL Unit(이하, NALU) 헤더(header)에 계층 정보와 관련된 2개의 필드인 temporal_id와 reserved_one_5bits가 존재한다. 3 bits의 길이를 갖는 temporal_id는 비디오 비트스트림의 시간적 레이어(temporal layer)를 나타내며, reserved_one_5bits는 추후에 다른 계층 정보를 나타내기 위한 영역에 해당한다.

시간적 레이어는 비디오 코딩 레이어(video coding layer, VCL) NAL unit으로 구성된 시간적으로 스케일될 수 있는 비트스트림의 레이어를 의미하며, 시간적 레이어는 특정의 temporal_id 값을 갖는다.

본 발명은 복수의 레이어를 지원하는 비트스트림 내에서 영상의 추출 정보(extraction) 및 계층적 정보(scalability information)를 효과적으로 기술하고, 이를 시그널링 하기 위한 방법 및 이를 구현하는 장치에 관한 발명이다.

본 발명에서는 비트스트림을 2가지 타입, 시간 스케일러빌리티(temporal scalability)만을 지원하는 기본 타입(base type)과 시간을 포함한 공간/화질/시점을 지원하는 스케일러빌리티를 가질 수 있는 확장 타입(extended type)으로 나누어 설명한다.

비트스트림의 첫 번째 타입은 단일 계층 비디오를 지원하는 비트스트림에 대한 것이며, 두 번째 타입은 HEVC 기반 계층적 비디오 부호화에서 향상 계층을 위한 것이다. 이하에서는 두 가지 비트스트림 타입들의 스케일러빌리티 정보를 표현하기 위한 개선 방안을 제안한다. 본 발명에 따르면, 확장 타입에서 5bit의 reserved_one_5bits는 스케일러블 계층의 식별자를 나타내는 layer_id로 사용될 수 있다.

NALU 헤더에서 nal_ref_flag 제거

nal_ref_flag는 비 참조 픽처(non-reference picture)를 나타내기 위해서 사용된다. 이 정보는 비 참조 픽처와 참조 픽처(reference picture) 사이의 대략적인 우선 순위를 나타내기는 하지만, 전송을 위한 nal_ref_flag의 사용은 다소 제한적이다.

참조 픽처(Reference picture)는 디코딩 순서상 뒤따라오는 픽처(subsequent pictures)의 디코딩 시 화면 간 예측을 위해 사용될 수 있는 샘플들을 포함하는 픽처를 의미하다.

비 참조 픽처(non-reference picture)는 디코딩 순서상 뒤따라오는 픽처의 디코딩 시 화면 간 예측을 위하여 사용되지 않는 샘플들을 포함하는 픽처를 의미한다.

nal_ref_flag는 인코딩 할 당시 해당 nal 유닛이 전체 비트스트림 상에서 비 참조 픽처인지 참조 픽처인지 여부를 나타내는 정보를 나타내는 플래그이다.

nal_ref_flag가 1이면, NALU는 SPS(sequence parameter set), PPS(picture parameter set), APS(adaptation parameter set) 또는 참조 픽처의 슬라이스를 포함하는 것을 의미하고, nal_ref_flag가 0이면 NALU는 비 참조 픽처의 일부 혹은 전부를 포함하는 슬라이스를 포함하는 것을 의미한다.

이때, nal_ref_flag 값이 1인 NALU는 참조 픽처의 슬라이스를 포함할 수 있으며, nal_ref_flag는 VPS(video parameter set), SPS(sequence parameter set), PPS(picture parameter set)의 NALU들에 대해서 1의 값을 가진다. 특정 픽처의 VCL NALU 중 하나가 nal_ref_flag 값이 0인 경우, 해당 픽처의 모든 VCL NALU에 대해 nal_ref_flag는 0의 값을 가진다.

한편, 모든 비 참조 픽처(non-reference picture)들, 특히 대부분 최상위 시간적 레이어에 해당하는 비 참조 픽처가 추출된다면, 추출 후 남은 모든 픽처들의 nal_ref_flag 는 1이 된다.

그러나, 적응 변환된(추출된) 비트스트림의 일부 픽처들, 즉 남은 비트스트림에서 최상위 시간적 레이어에 해당하는 픽처는 nal_ref_flag가 1이 라고 하더라도 비 참조 픽처들이 된다.

다시 말해서, NALU 헤더의 다른 신택스 요소들(예를 들어, temporal_id)이 적응 변환(추출)을 지원하는데 있어서 보다 효과적일 수 있다. 즉, 비트스트림이 포함하는 전체 시간적 레이어의 개수와 NALU 헤더의 temporal_id 값을 이용하여, 원하는 시간적 레이어를 포함하는 비트스트림을 추출할 수 있다.

또한, nal_ref_flag는 nal_ref_flag를 포함하는 NALU으로 구성된 픽처를 디코딩(복원)한 다음 DPB(decoded picture buffer)와 같은 메모리에 저장할 때, 해당 픽처를 추후에 참조 픽처로 사용할지 여부를 표시할 때도 사용될 수 있다. nal_ref_flag가 1 인 경우 추후에 참조 픽처로 사용되는 것으로 표시하고, nal_ref_flag가 0 인 경우 추후에 참조 픽처로 사용하지 않는 다고 표시할 수 있다.

nal_ref_flag를 통하여 해당 NALU이 비 참조 픽처 인지 참조 픽처 인지 여부를 판단하지 않고, 디코딩된 픽처를 DPB에 저장할 때 참조 픽처로 표시할 수 있다. 이 경우, 디코딩된 픽처가 비 참조 픽처이지만 참조 픽처로 표시되더라도, 디코딩 순서상 해당 픽처의 다음 픽처를 디코딩 함에 있어서, 다음 픽처의 헤더(slice header)에 전달되는 참조 픽처 리스트에 해당 픽처가 포함되어 있지 않을 것이므로, 문제가 발생하지 않는다.

즉, 다음 픽처를 디코딩할 때 슬라이스 헤더에 포함되어 있는 참조 픽처 리스트에 의하여 이전에 디코딩된 픽처가 참조 픽처인지 또는 비 참조 픽처 인지 표시된다. 따라서, nal_ref_flag를 통하여 디코딩된 픽처가 참조 픽처 인지 여부가 판단되지 않고 참조 픽처로 표시된다 하여도 디코딩된 픽처를 참조 픽처 또는 비 참조 픽처로 판단하는데 문제가 발생하지 않는다.

본 발명에서는 NALU 헤더에서 nal_ref_flag을 삭제하거나 nal_ref_flag의 의미(semantics)를 변경할 것을 제안한다. nal_ref_flag 삭제와 관련된 실시예는 다음과 같다.

실시예 1

nal_ref_flag를 slice_ref_flag로 변경하고, 플래그의 위치를 NALU 헤더에서 슬라이스 헤더(slice header)로 옮긴다. 슬라이스 헤더의 신택스는 표 1과 같이 수정될 수 있다.

표 1

표 1에서, slice_ref_flag의 값이 1이면 슬라이스가 참조 픽처의 일부인 것을 지시하며, 0 이면 슬라이스가 비 참조 픽처의 일부인 것을 지시한다.

실시예 2

nal_ref_flag를 au_ref_flag로 변경하고, 플래그의 위치를 NALU 헤더에서 억세스 유닛 디리미터(access unit delimiter)로 옮긴다. 억세스 유닛 디리미터의 신택스는 표 2과 같을 수 있다

표 2

표 2에서, au_ref_flag이 1 이면, 억세스 유닛이 참조 픽처를 포함하는 것을 지시하며, 0 이면 억세스 유닛이 비 참조 픽처를 포함하는 것을 지시한다.

실시예 3

nal_ref_flag을 다른 신택스로 이동시키지 않고 nal_ref_flag을 NALU 헤더에서 삭제한다.

인코딩 시 전체 비트스트림에서 비 참조 픽처 인지 또는 참조 픽처 인지 여부를 나타내는 1 비트의 플래그 정보인 nal_ref_flag가 삭제되면, nal_ref_flag에 의하여 수행되었던 픽처가 참조 픽처 인지 여부에 대한 판단은 다른 과정을 통하여 수행될 수 있다. 수신된 픽처를 디코딩하고 난 후, 디코딩된 픽처를 DPB(decoded picture buffer)에 무조건 참조 픽처로 표시한다. 즉, 디코딩된 픽처가 참조 픽처인지 여부를 판단하지 않고 참조 픽처로 표시될 수 있다.

그런 후, 디코딩된 픽처의 다음 픽처에 대한 슬라이스 헤더를 파싱하고, 슬라이스 헤더에 포함되어 있는 참조 픽처 정보에 기초하여 디코딩된 픽처가 참조 픽처인지 비 참조 픽처인지 여부를 표시 할 수 있다.

실시예 4

NALU 헤더에서 nal_ref_flag를 삭제하고, 비 참조 픽처의 NALU 이라는 정보를 나타내기 위해서 temporal_id를 사용할 수 있다. temporal_id는 “7”, 또는 비트스트림에 포함된 최대 시간적 레이어의 개수-1 (즉, max_temporal_layers_minus1), 또는“0”을 제외한 기설정된 값이 될 수 있다.

실시예 5

NALU 헤더에서 nal_ref_flag를 삭제하고, 비 참조 픽처의 NALU이라는 정보를 나타내기 위해서 reserved_one_5bits를 priority_id 구성 요소로 사용할 수 있다. priority_id는 해당 NALU의 우선순위(priority)를 나타내는 식별자로서 상이한 공간, 시간 및 화질에 관계없이 우선순위에 따른 비트스트림 축출 기능을 제공하기 위하여 사용된다.

즉, 만약에 temporal_id = Ta가 최상위 시간적 레이어의 식별자라면, temporal_id = Ta 이며 priority_id = 31 (혹은 다른 특정 값)인 NALU를 비 참조 픽처의 NALU 임을 나타내기 위해서 사용한다.

nal_ref_flag을 시그널링 하기 위하여 사용되었던 1 bit은 다음 중 어느 하나로 사용될 수 있다.

(1) nal_unit_type을 지시하는 데 사용될 수 있다. nal_unit_type은 7bits 신호가 될 수 있고, NALU 타입의 개수는 2배로 증가할 수 있다.

(2) temporal_id를 지시하는데 사용될 수 있다. temporal_id는 4bist 신호가 될 수 있으며, 최대 시간적 레이어의 수가 2배로 증가될 수 있다.

(3) layer_id를 지시하기 위해 사용될 수 있다. layer_id는 계층적 비트스트림의 스케일러블 계층의 식별자를 의미하며, reserved_one_5bits 신택스 요소에 의하여 시그널링될 수 있다. 스케일러블 계층을 식별하기 위하여 사용되었던 reserved_one_5bits의 5bit에 nal_ref_flag 의 시그널링을 위해 사용하였던 1 bit이 추가되어 layer_id는 6 bit 신호가 될 수 있다. 6bit을 사용하게 되면 64개의 스케일러블 계층을 식별할 수 있다.

(4) reserved_one_5bits가 priority를 나타내는지의 여부를 알려주는 flag로 사용될 수 있다.

(5) reserved_bit으로 사용될 수 있다.

만약 nal_ref_flag를 NALU 헤더에서 삭제하지 않는다면, nal_ref_flag의 의미는 다음과 같이 수정될 수 있다.

nal_ref_flag가 0이면 NALU는 비 참조 픽처의 슬라이스만을 포함하는 것을 지시하고 nal_ref_flag가 1이면 NALU는 참조 픽처 또는 비 참조 픽처의 슬라이스를 포함할 수 있다는 것을 지시한다.

비디오 파라미터 세트의 활성화 시그널링

비디오 파라미터 세트(video parameter set)는 영상을 디코딩하기 위한 가장 기본적인 정보를 포함하며 기존의 SPS에 존재했던 내용을 포함할 수 있다.

비디오 파라미터 세트에는 시간적 스케일러빌러티를 지원하는 시간적 레이어를 지칭하는 서브 레이어(sub-layer)에 대한 정보와 공간적(spatial), 퀄러티적(quality) 및 시점적(view) 스케일러빌러티를 지원하는 복 수의 계층에 대한 정보를 포함할 수 있다. 즉, 비디오 파라미터 세트는 복수의 계층 정보, 즉 HEVC extension을 위한 신택스를 포함할 수도 있다.

A. 비디오 파라미터 세트(Video Parameter Set)

비디오 파라미터 세트에 대한 신택스는 <표 3>와 같다.

표 3

표 3에서 대부분의 신택스들은 단일 레이어를 포함하는 비트스트림에 적용되는 SPS 신택스들과 동일한 의미를 가지며, 추가적인 부분은 다음과 같다.

- video_parameter_set_id은 비디오 파라미터 세트(video parameter set)의 식별자를 의미하며, SPS(sequence parameter set), SEI(supplemental enhancement information), 억세스 유닛 디리미터(access unit delimiter)들에서 참조될 수 있다.

- priority_id_flag가 1이면 reserved_one_5bits가 SVC 표준의 priority_id와 동일하게 사용될 수 있음을 나타내고, priority_id_flag가 0이면 reserved_one_5bits가 layer_id로 사용됨을 의미한다.

- extension_info_flag가 0이면 비트스트림이 HEVC의 단일계층 표준을 따른다는 것을 지시하고, 1이면 스케일러빌러티 지원을 위한 향상 계층(HEVC extension을 지원하는 경우)을 나타내고 계층과 관련된 정보가 제공된다.

B. 시퀀스 파라미터 세트(Sequence Parameter Set, SPS) 수정

표 4와 같이 기존 신택스 중 일부는 VPS에 반영되고, SPS에서 삭제될 수 있다. 한편, SPS에는 vps_id 신택스 요소가 추가될 수 있다. vps_id 추가된 SPS 신택스는 표 4와 같다. 표 4에서 삭제된 신택스는 신택스 중간을 지나는 선으로 표현된다.

vps_id는 SPS에 의해 참조되는 비디오 파라미터 세트(video parameter set)를 식별하기 위한 식별자를 지시하며, vps_id는 0에서 X의 범위를 가질 수 있다.

표 4

C. 비디오 파라미터 세트(Video Parameter Set)를 위한 활성화(activation) 시그널링

슬라이스 헤더에는 해당 슬라이스가 참조하는 픽처 파라미터 세트에 대한 인덱스 정보가 포함되어 있고, 픽처 파라미터 세트에는 해당 픽처가 참조하는 시퀀스 파라미터 세트에 대한 인덱스 정보가 포함되어 있다. 시퀀스 파라미터 세트에는 해당 시퀀스가 참조하는 비디오 파라미터 세트에 대한 정보가 포함되어 있다. 이와 같이 파라미터 세트에 대한 정보를 파싱하여 파싱된 해당 파라미터 세트 정보를 참조하는 것을 활성화(activation)라고 한다.

특정 파라미터 세트에 대한 정보를 이용하기 위하여, 즉 파라미터 세트를 활성화하기 위하여는 슬라이스 헤더부터 점차적으로 파싱되어야 한다. 어느 SPS가 활성화되는지(active) 알기 위해서 모든 슬라이스 헤더(slice header) 및 관련된 PPS가 분석되어야 함을 의미한다.

단일 계층을 포함하는 비트스트림 중 서브 레이어(시간적 레이어) 중 일부를 추출할 때, 추출기(extractor)는 NALU 헤더와 복수의 파라미터 세트(parameter set)들을 분석(파싱)할 필요가 있다.

만약, 비디오 파라미터 세트 또는 시퀀스 파라미터 세트에 NALU의 추출을 위한 정보가 포함되어 있다면 추출기는 슬라이스 헤더부터 순차적으로 상위의 파라미터 세트를 파싱해야 한다. 이는 추출기가 파라미터 세트(parameter set)들과 슬라이스 헤더(slice header)의 모든 신택스 요소들을 이해해야 한다는 것을 의미한다.

또한, 영상의 디코딩 과정에서도 복잡한 파싱 과정 없이 vps_id 또는 sps_id를 찾고 필요한 파라미터 세트만을 활성화할 수 있다. 이 경우, 비디오 파라미터 세트 또는 시퀀스 파라미터 세트가 활성화될 파라미터 인덱스 정보를 포함할 경우 복잡한 슬라이스 헤더(slice header) 및 관련된 PPS에 대한 파싱 절차를 감소시킬 수 있다.

한편 이러한 신택스들의 요소 가운데 일부분만이 비트스트림 추출을 위해서 필요한 정보들을 포함할 수 있다. 그럼에도 불구하고 추출기가 모든 신택스 요소들을 분석하는 것은 커다란 부담이 될 수 있다. 이러한 문제를 해결하기 위해서, 다음과 같은 방법을 제안한다.

본 발명에서, 파라미터 세트의 활성화(activation)는 추출기가 슬라이스 헤더(slice header) 및 이와 관련된 PPS(picture parameter set)의 분석 없이 어떠한 파라미터 세트가 활성화 되는지 알 수 있도록 시그널링 하는 것을 의미한다.

본 발명에 따르면, 어떠한 비디오 파라이터 세트, 시퀀스 파라미터 세트 또는 픽처 파라미터 세트가 활성화되는지 여부를 별도로 시그널링하여 추출기는 모든 슬라이스 헤더(slice header) 및 관련되는 PPS를 분석해야 하는 부담을 감소시킬 수 있다.

비디오 파라미터 세트는 업데이트 될 수도 있다. 추출기가 슬라이스 헤더를 분석하지 않고, 현재 활성화되는 VPS 및 관련된 SPS 혹은 PPS를 알 수 있도록 다음의 방법 가운데 한 가지가 사용될 수 있다.

(1) vps_id, sps_id, pps_id를 억세스 유닛 디리미터(access unit delimiter)에 포함시킬 수 있다. vps_id, sps_id, pps_id은 각각 관련된 AU 내의 NALU들을 위해 사용된 비디오 파라미터 세트, 시퀀스 파라미터 세트, 픽처 파라미터 세트의 식별자들을 나타낸다.

억세스 유닛 디리미터(Access unit delimiter) 내에 각 식별자의 존재 여부를 나타내기 위해서 vps_id_present_flag, sps_id_present_flag, pps_id_present_flag를 사용하였으며, 제안하는 억세스 유닛 디리미터의 신택스는 표 5와 같다.

표 5

(1-1) 또 다른 방법은 표 6과 같이 sps_id 및 pps_id를 제외하고 vps_id만을 억세스 유닛 디리미터(access unit delimiter)에 포함시킬 수 있다.

표 6

(2) 비디오 파라미터 세트의 활성화 시그널링을 위한 또 다른 방법은 새로운 SEI 메시지(parameter_set_reference)를 사용하는 것이다. SEI 메시지는 관련된 AU내의 NALU들을 위해 사용된 비디오 파라미터 세트, 시퀀스 파라미터 세트, 픽처 파라미터 세트의 식별자들을 나타내는 vps_id, sps_id, pps_id의 존재 여부를 알려주기 위한 신택스를 포함한다.

각 식별자의 존재 여부를 나타내기 위해서 vps_id_present_flag, sps_id_present_flag, pps_id_present_flag신택스가 사용될 수 있으며, SEI 신택스는 표 7과 같다.

표 7

(2-1) 또한, <표 8>과 같이 pps_id를 제외하고 sps_id와 vps_id를 SEI 메시지에 포함시켜서 활성화를 알려줄 수도 있다. SEI 메시지에 포함되어 있는 sps_id와 vps_id는 해당 SEI 메시지와 관련된 억세스 유닛(access unit)의 비디오 코딩 레이어 NALU이 참조하는 sps_id와 vps_id를 포함할 수 있다. 따라서, sps_id와 vps_id는 활성화되는 가능성이 있는 파라미터 세트의 정보를 나타낼 수 있다.

표 8

표 8에서, vps_id는 현재 활성화되는 비디오 파라미터 세트의 video_parameter_set_id를 나타낸다. vps_id 값은 0~15의 값을 가질 수 있다.

sps_id_present_flag 가 1의 값을 가지는 경우 현재 활성화 되는 시퀀스 파라미터 세트의 sequence_parameter_set_id 가 해당 SEI 메시지에 포함되어 있다는 것을 나타내고, sps_id_present_flag가 0의 값을 가지는 경우, 활성화되는 시퀀스 파라미터 세트의 sequence_parameter_set_id가 해당 SEI 메시지에 포함되지 않음을 나타낸다.

sps_id는 현재 활성화되는 시퀀스 파라미터 세트의 sequence_parameter_set_id를 나타낸다. sps_id 는 0~31의 값, 더 한정적으로는 0~15의 값을 가질 수 있다.

psr_extension_flag 가 0인 경우 parameter set reference SEI message extension 신택스 요소가 parameter set reference SEI 메시지에 포함되지 않음을 나타내고, psr_extension_flag는 1이면 parameter set reference SEI message extension 신택스 요소를 parameter set reference SEI 메시지가 포함되어 신택스를 확장하여 사용하는 것을 의미한다.

psr_extension_length는 psr_extension_data의 길이를 나타낸다. psr_extension_length는 0~256의 범위를 값을 가질 수 있고, psr_extension_data_byte는 어떠한 값도 가질 수 있다.

(2-2) 또한, 표 9와 같이 pps_id를 제외하고 한 개 이상의 sps_id와 vps_id를 SEI 메시지에 포함시켜서 시그널링 할 수도 있다.

표 9

표 9에서, vps_id는 현재 활성화되는 비디오 파라미터 세트의 video_parameter_set_id를 나타낸다. vps_id는 0~15의 값을 가질 수 있다.

num_reference_sps는 현재 활성화되는 vps_id를 참조하는 시퀀스 파라미터 세트의 개수를 나타낸다.

sps_id(i)는 현재 활성화되는 시퀀스 파라미터 세트의 sequence_parameter_set_id를 나타내며, sps_id는 0~31의 값, 더 한정적으로는 0~15의 값을 가질 수 있다.

(2-3) 또한, 표 10과 같이 sps_id 및 pps_id를 제외하고 vps_id만을 SEI 메시지에 포함시켜서 시그널링 할 수도 있다.

표 10

(3) 비디오 파라미터 세트의 활성화 시그널링을 위한 또 다른 방법은 Buffering period SEI 메시지에 vps_id, sps_id, pps_id를 알려주는 정보를 포함시키는 것이다. 표 11은 vps_id, sps_id, pps_id 식별자의 존재 여부를 나타내기 위한 vps_id_present_flag, sps_id_present_flag, pps_id_present_flag를 포함하고 있는 신택스를 나타낸다.

표 11

(3-1) 또한, 표 12와 같이, sps_id 및 pps_id를 제외하고 vps_id만을 Buffering period SEI 메시지에 포함시켜서 파라미터 세트의 활성화를 시그널링 할 수도 있다.

표 12

(4) 파라미터 세트의 활성화 시그널링을 위한 또 다른 방법은 Recovery point SEI 메시지에 vps_id, sps_id, pps_id 들을 알려주는 정보를 포함시키는 것이다. 표 13은 vps_id, sps_id, pps_id 식별자의 존재 여부를 나타내기 위한 vps_id_present_flag, sps_id_present_flag, pps_id_present_flag를 포함하고 있는 신택스를 나타낸다.

표 13

(4-1) 또한, 표 14와 같이, sps_id 및 pps_id를 제외하고 vps_id만을 Recovery point SEI 메시지에 포함시켜서 알려주는 방법도 있을 수 있다.

표 14

상술한 vps_id 혹은 sps_id를 전달하는 메시지들은 IRAP(intra random access point) 억세스 유닛에 포함될 수 있다.

상술한 정보 시그널링 방법 중 적어도 하나가 억세스 유닛에 포함되어 사용된다면, 추출기는 비트스트림을 추출하기 위해서 상기 시그널링 방법을 통하여 vps_id, sps_id, pps_id 값을 알아내고, 하나 이상의 vps/sps/pps를 관리할 수 있다.

또한, 디코딩 장치 또는 디코딩을 수행하는 디코딩부는 상기 시그널링 방법을 통하여 vps_id, sps_id, pps_id 값을 알아 내고, 해당 파라미터 세트를 활성화하여 파라미터 세트와 관련된 AU들을 디코딩할 수 있다.

확장 타입(Extended type)에서 비트스트림의 표현

이하에서는 계층 확장을 지원하는 비트스트림을 포함하는 경우 스케일러블 계층에 대한 정보를 표시하고 이를 시그널링 하기 위한 VPS의 extension_info()와 새로운 SEI 메시지를 제안한다. 확장 타입(Extended type)에서 비트스트림을 표현하기 위하여는 다음과 같은 정보들이 시그널링 될 수 있다.

layer_id는 레이어의 우선선위(priority) 값을 전달하는지 여부를 나타내는지를 시그널링 한다.

이 때, 각 layer_id 값에 대응하여 공간 계층(dependency_id 값에 의해 식별), 화질 계층(quality_id 값에 의해 식별), 시점들(view_id 값에 의해 식별) 등을 시그널링할 수 있으며, 시간적 레이어는 NALU 헤더의 temporal_id에 의해 식별될 수 있다.

또한, layer_id와 관련되는 비디오의 영역은 region_id에 의해 시그널링 될 수 있다.

또한, 스케일러블 계층 가운데 dependency 정보, 각 스케일러블 계층의 bitrate 정보, 각 스케일러블 계층의 품질 정보들이 시그널링 될 수 있다.

extension_info() 신택스는 표 15와 같다.

표 15

표 15의 신택스에 대한 의미는 다음과 같다.

- num_frame_sizes_minus1 plus 1은 부호화된 비디오 시퀀스 내에 포함된 다른 종류의 영상의 크기 정보(예를 들어, pic_width_in_luma_samples[i], pic_height_in_luma_samples[i], pic_cropping_flag[i], pic_cropping_flag[i], pic_crop_left_offset[i], pic_crop_right_offsetv[i], pic_crop_top_offset[i], pic_crop_bottom_offset[i])의 최대 개수를 나타낸다. num_frame_sizes_minus1값은 0~X의 범위를 가질 수 있다. 다른 종류의 영상이란 상이한 해상도를 갖는 영상을 포함할 수 있다.

- num_rep_formats_minus1 plus 1은 부호화된 비디오 시퀀스 내에 포함된 다른 종류의 비트 뎁스(bit depth)와 색차 포맷(chroma format) (예를 들어, bit_depth_luma_minus8[i], bit_depth_chroma_minus8[i], and chroma_format_idc values[i])의 최대 개수를 나타낸다. num_rep_formats_minus1값은 0~X의 범위를 갖는다.

- pic_width_in_luma_samples[i], pic_height_in_luma_samples[i], pic_cropping_flag[i], pic_cropping_flag[i], pic_crop_left_offset[i], pic_crop_right_offsetv[i], pic_crop_top_offset[i], pic_crop_bottom_offset[i]는 부호화된 비디오 시퀀스의 i번째 pic_width_in_luma_samples, pic_height_in_luma_samples, pic_cropping_flag, pic_cropping_flag, pic_crop_left_offset, pic_crop_right_offsetv, pic_crop_top_offset, pic_crop_bottom_offset 값들을 나타낸다.

- bit_depth_luma_minus8[ i ], bit_depth_chroma_minus8[ i ], 및chroma_format_idc[ i ]는 부호화된 비디오 시퀀스의 i번째 bit_depth_luma_minus8, bit_depth_chroma_minus8, and chroma_format_idc 값을 나타낸다.

- num_layers_minus1은 비트스트림에서 가능한 스케일러블 계층의 수를 나타낸다.

- dependency_id_flag가 1이면 layer_id 값과 관련된 한 개 이상의 dependency_id값이 있음을 나타낸다.

- quality_id_flag 가 1이면 layer_id 값과 관련된 한 개 이상의 quality_id 값이 있음을 나타낸다.

- view_id_flag이 1이면 layer_id값과 관련된 한 개 이상의 view_id값이 있음을 나타낸다.

- region_id_flag 이 1이면 layer_id 값과 관련된 한 개 이상의 region_id 값이 있음을 나타낸다.

- layer_dependency_info_flag 이 1이면, 스케일러블 계층의 dependency 정보를 제공함을 나타낸다.

- frame_size_idx[i]은 layer_id값이 i 인 계층에 적용되는 frame size의 세트에 대한 인덱스를 나타낸다. frame_size_idx[i]는 0 ~ X 범위의 값을 갖는다.

- rep_format_idx[i]는 layer_id 값이 i인 계층에 적용되는 비트 뎁스(bit depth)와 색차 포맷(chroma format)의 세트에 대한 인덱스를 나타낸다. rep_format_idx[i]는 0 ~ X 범위의 값을 갖는다.

- one_dependency_id_flag[i] 이 1이면 layer_id 값이 i와 관련된 한 개의 dependency_id만이 존재함을 나타내고, one_dependency_id_flag[i] 이 0이면 layer_id값이 i와 관련된 두 개 혹은 그 이상의 dependency_id 값이 존재함을 나타낸다.

- dependency_id[i]는 layer_id 값이 i와 관련된 dependency_id 값을 나타낸다.

- dependency_id_min[i] 및 dependency_id_max[i]는 layer_id 값이 i와 관련된 최소 dependency_id 값과 최대 dependency_id 값을 각각 나타낸다.

- one_quality_id_flag[i] 이 1이면 layer_id 값이 i와 관련된 한 개의 quality_id만이 존재함을 나타내고. one_quality_id_flag[i] 이 0이면 layer_id 값이 i와 관련된 두 개 혹은 그 이상의 quality_id 값이 존재함을 나타낸다.

- quality_id[i]은 layer_id값이 i와 관련된 quality_id 값을 나타낸다.

- quality_id_min[i] 및 quality_id_max[i]는 layer_id값이 i와 관련된 최소 qualtiy_id 값과 최대 quality_id 값을 각각 나타낸다.

- one_view_id_flag[i] 이 1이면 layer_id 값이 i와 관련된 한 개의 view_id가 존재함을 나타내고, 0이면 layer_id값이 i와 관련된 두 개 혹은 그 이상의 view_id 값이 존재함을 나타낸다.

- view_id[i]은 layer_id 값이 i와 관련된 view_id 값을 나타낸다.

- depth_flag[i] 이 1이면 layer_id값이 i인 현재 스케일러블 계층이 3D 비디오 비트스트림의 깊이 정보를 포함하고 있음을 나타낸다.

- view_id_min[i] 및 view_id_max[i]은 layer_id 값이 i와 관련된 최소 view_id 값과 최대 view_id 값을 각각 나타낸다.

- num_regions_minus1 plus1는 layer_id 값이 i와 관련된 영역의 개수를 나타낸다.

- region_id[j]는 layer_id값이 i와 관련된 영역 j의 식별자를 나타낸다.

- num_directly_dependent_layers[ i ]는 현재 스케일러블 계층 i가 직접적으로 연관이 되는 스케일러블 계층(디코딩시 예측신호를 형성하는데 필요한 계층)의 수를 나타낸다.

- directly_dependent_layer_id_delta_minus1[ i ][ j ] plus 1는 현재 스케일러블 계층인 layer_id[i]와 현재 스케일러블 계층이 직접적으로 연관이 있는 j번째 스케일러블 계층의 계층 식별자 사이의 차이를 나타낸다. j번째 직접적으로 연관이 되는 스케일러블 계층의 계층 식별자는 (layer_id[i] ? directly_dependent_layer_id_delta_minus1[ i ][ j ] ? 1 )과 같다.

또 다른 실시예에 따른 extension_info() 신택스는 표 16과 같다.

표 16

다른 실시예에 따르면, pic_width_in_luma_samples[i], pic_height_in_luma_samples[i], bit_depth_luma_minus8[i], bit_depth_chroma_minus8[i], 및 chroma_format_idc[i]는 상이한 영상, 즉 상이한 해상도를 갖는 픽처에 대한 정보로 시그널링 될 수 있다.

비트 레이트와 퀄러티 정보의 시그널링을 위한 활성화 SEI 메시지에 대한 신택스는 표 17과 같다.

표 17

표 17의 신택스에 대한 의미는 다음과 같다

- num_layers_minus1는 비트스트림에서 제공 가능한 스케일러블 계층의 수를 나타낸다.

- bitrate_info_flag이 1이면 각각의 스케일러블 계층에 대한 비트 레이트 정보가 제공되는 것을 지시한다.

- quality_info_flag이 1이면 각각의 스케일러블 계층에 대한 퀄러티 값에 대한 정보가 제공됨을 나타낸다.

- quality_type_flag이 1이면 각각의 스케일러블 계층에 대한 퀄러티 타입에 대한 정보가 제공됨을 나타낸다.

- max_bitrate[i]는 layer_id값이 i인 스케일러블 계층의 최대 비트 레이트를 나타내고, average_bitrate[i]는 layer_id값이 i인 스케일러블 계층의 평균 비트 레이트를 나타낸다.

- quality_value[i]는 스케일러블 계층 i의 퀄러티 값을 나타낸다.

- quality_type_uri[ QualityTypeUriIdx ]는 UTF-8 character들로 부호화된 null0terminated string의 QualityTypeUriIdx-th 바이트(byte)이며, 퀄러티 값들의 타입에 대한 표현을 포함하는 URI(universal resource identifier)를 나타낸다.

이하에서는 효율적인 비트스트림 추출을 위한 기술 방식 개선으로 VPS(video parameter set)를 개선시키는 방안을 제안한다.

계층 참조(Layer referencing)

복수의 계층을 지원하는 비트스트림에서 layer_id와 스케일러빌러티 차원 ID(scalability dimension ID)간의 관계를 지시하는 방법으로 layer_id와 스케일러빌러티 차원 ID(scalability dimension ID) 간의 매핑 방법을 알려주는 제1 방법과 layer_id의 비트를 분할(partitioning 또는 splicing)하여 할당된 비트에 어떠한 차원 타입이 존재하는지를 알려주는 제2 방법이 존재할 수 있다.

복수의 계층을 지원하는 비트스트림에서 차원 타입(dimension type)이란 공간적 스케일러빌러티, 퀄러티적 스케일러빌러티와 같은 스케일러빌러티의 타입을 의미하고 차원 ID(dimension ID)는 특정한 차원 타입이 가질 수 있는 레이어에 대한 인덱스를 의미할 수 있다.

복수의 계층을 지원하는 비트스트림에서, 특정 차원(dimension)에서는 특정 계층(이해를 돕기 위해 단일계층의 비트스트림에서 시간적 스케일러빌리티를 지원하는 경우를 예를들어, 시간적 레이어(sub-layer) 3)이 다음의 낮은 계층(예를 들어 시간적 레이어 (sub-layer)를 직접적으로 참조하는 것은 일반적일 수 있다.

공간 스케일러빌리티를 지원하는 경우를 예를 들면, 공간 레이어 2가 다음의 낮은 공간 계층1을 직접적으로 참조한다거나 함을 의미한다.

따라서, 상기와 같은 경우를 나타내기 위하여 기본 참조(default direct dependency)를 가지는 차원을 먼저 기술할 것을 제안한다.

그런 후, 특정 연관성(dependency)을 계층(scalable layer)에 대한 설명 파트(description loop)에서 구체적으로 기술할 수 있다.

이하에서는 상기 두 가지 방법을 이용하여 계층 참조에 대한 시그널링을 하기 위한 방안을 제시한다. vps_extension을 위한 개선된 신택스는 표 18 내지 표 21과 같다.

표 18

표 18은 제1 방법을 이용하여 layer_id와 스케일러빌러티 차원 ID(scalability dimension ID)를 매핑시키고 있는 신택스를 나타내고 있다. 표 18의 신택스에 대한 의미는 다음과 같다.

- all_default_dependency_flag이 1이면 모든 계층 차원들이 기본 참조(default dependency)를 가진다는 것을 지시한다. 즉, 특정 차원 i에서 dimension_id[i] = n인 계층은 디폴트로 dimension_id[i] = n-1을 가지는 다른 계층을 직접적으로 참조함을 의미한다.

all_default_dependency_flag이 0이면 모든 계층 차원들이 기본 참조를 가지는 것은 아님을 나타낸다. all_default_dependency_flag이 0이면 아래의 num_default_dim_minus1이 시그널링 된다.

- num_default_dim_minus1 은 기본 참조(default dependency)를 가지는 차원들의 수를 나타낸다.

- dimension [j] 는 기본 참조(default dependency)를 가지는 계층 차원의 타입을 명시한다. 즉, 기본 참조(default dependency)를 가지는 차원들의 수를 하나씩

증가시키면서 기본 참조를 갖는 계층 차원의 타입에 대한 정보가 시그널링된다. 해당 차원에서 상위 계층(예를 들어 dimension_id =n)은 다음 하위 계층(예를 들어, dimension_id = n-1)을 직접적으로 참조할 것이다.

-specific_dependency_flag[i]이 1이면 해당 계층을 위해 구체적으로 기술된 직접 참조(direct dependences/references)가 있음을 의미한다. 따라서, specific_dependency_flag[i]이 1이면 해당 계층이 직접 참조하는 레이어의 개수와 해당 레이어의 ID가 시그널링 된다.

계층 C가 계층 B를 직접적으로 참조한다는 것은 계층 C를 복호화 하기 위해서, 디코더는 계층 B의 정보(디코딩 되거나 디코딩 되지 않은)를 사용해야만 한다는 의미이다. 그러나, 만약 계층 B가 직접적으로 계층 A의 정보를 사용한다면, 계층 C는 계층 A를 직접적으로 참조한다고 여겨지지 않는다.

표 19

표 19는 제2 방법을 이용하여 layer_id의 비트를 스케일러빌러티 차원 타입에 할당하고, 할당된 차원 타입의 길이를 시그널링하는 신택스를 나타내고 있다.

표 19에 포함된 num_dimensions_minus1 는 NALU 헤더 내에 존재하는 계층 차원의 수를 나타낸다. 즉, NALU 헤더에 존재하는 계층 차원의 수를 파악하고, 해당 계층 차원 마다 존재하는 계층 타입과 차원 타입에 할당된 비트 수를 파악한다.

표 19의 신택스 계층 참조를 위한 신택스 all_default_dependency_flag, num_default_dim_minus1, dimension [j] 및 specific_dependency_flag[i]에 대한 설명은 표 18에 포함되어 있는 신택스와 동일한 의미를 갖는다.

표 20과 표 21은 표 18 및 표 19와 다른 방식의 신택스를 나타낸다. 표 20은 제1 방법을 이용하는 경우 기본 참조(default dependency)를 나타내는 다른 신택스를 나타내고, 표 21은 제2 방법을 이용하는 경우 기본 참조(default dependency)를 나타내는 다른 신택스를 나타낸다.

표 20

표 21

표 20 및 표 21의 신택스 중 표 18 및 표 19와 중복되는 신택스에 대한 설명은 생략된다.

표 20 및 표 21에 포함되어 있는 새로운 신택스 default_dependency_flag [i]는 차원 타입 i 가 기본 참조를 사용하는지 여부를 나타낸다. 해당 차원에서 높은 계층(예를 들어 dimension_id[i]=n)은 바로 아래 계층(예를 들어, dimension_id[i]=n-1)을 직접적으로 참조한다.

즉, num_dimensions_minus1 와 dimension_type[i]에 의하여 특정 차원 타입이 지정되면, 해당 차원 타입이 기본 참조를 사용하는지 여부를 시그널링하고, 그렇지 않은 경우 해당 계층이 직접적으로 참조하는 레이어에 대한 정보를 시그널링한다.

본 발명에 따른 차원 타입(dimensions type)을 나타내면 표 22와 같다.

표 22

본 발명에 따를 경우, 기존의 차원 타입에서 차원 타입 4 및 5, 즉 priority ID 및 region ID를 나타내는 타입이 추가되었다.

dimension_type[i][j]은 기본적으로 0에서 5사이의 값을 가질 수 있다. 다른 값들은 추후에 정의될 수 있으며, 디코더는 0에서 5사이의 값이 아닌 경우에 dimension_type[i][j]의 값을 무시할 수 있다.

dimension_type이 4의 값을 가지는 경우, 해당 dimension_id는 SVC 표준에서 비트스트림의 priority 계층의 id를 나타낸다.

dimension_type이 5의 값을 가지는 경우, 해당 dimension_id는 비트스트림의 특정 영역의 id를 나타낸다. 특정 영역은 비트스트림 내에서 하나 이상의 시공간 세그먼트(spatial-temporal segment)가 될 수 있다.

도 4는 본 발명에 따른 영상 정보의 인코딩 방법을 설명하기 위한 제어 흐름도이다.

도시된 바와 같이, 부호화 장치는 영상에 관련된 정보를 포함하는 NAL(Network Abstraction Layer) 유닛을 인코딩 한다(S401).

NAL 유닛의 NAL 유닛 헤더는 NAL 유닛이 비 참조 픽처의 적어도 일부 또는 전부를 포함하는 슬라이스를 포함하는지 여부를 나타내는 정보를 포함하지 않는다.

한편, NAL 유닛 헤더는 스케일러블 계층을 지원하는 비트스트림에서 스케일러블 계층을 식별하기 위한 계층 식별 정보를 포함하고 있다.

이 때, NAL 유닛 헤더에 포함되지 않은 NAL 유닛이 비 참조 픽처의 적어도 일부 또는 전부를 포함하는 슬라이스를 포함하는지 여부를 나타내는 정보를 시그널링 하기 위하여 사용되었던 비트는 계층 식별 정보를 시그널링 하기 위하여 사용될 수 있다.

또한, NAL 유닛은 영상의 디코딩을 위하여 필요한 다양한 상기 파라미터 세트에 대한 정보를 포함할 수 있다.

부호화 장치는 활성화되는 파라미터 세트에 대한 정보를 포함하는 SEI(Supplemental enhancement information) 메시지는 독립된 NAL 유닛으로 인코딩 할 수 있다.

활성화되는 파라미터 세트에 대한 정보는 활성화되는 비디오 파라미터 세트를 인덱싱하는 정보 및 활성화되는 시퀀스 파라미터 세트를 인덱싱하는 정보 중 적어도 하나를 포함할 수 있다.

또한, 활성화되는 파라미터 세트에 대한 정보는 활성화되는 비디오 파라미터 세트를 인덱싱하는 정보와, 활성화되는 비디오 파라미터 세트를 참조하는 시퀀스 파라미터 세트의 개수를 나타내는 정보 및 시퀀스 파라미터 세트를 인덱싱하는 정보를 포함할 수 있다.

이러한 파라미터 세트에 대한 정보는 복호화 장치가 시간적 스케일러빌러티를 제공하는 서브 레이어를 추출할 때 이용될 수 있다.

또한, 디코딩 장치 또는 디코딩을 수행하는 디코딩부는 비디오 코딩 레이어 NALU을 디코딩할 때 필요한 파라미터 세트를 활성화할 때 상기 파라미터 세트에 대한 정보를 이용할 수 있다.

부호화 장치는 인코딩된 영상에 관련된 정보를 포함하는 NAL 유닛을 비트스트림으로 전송한다(S402).

도 5를 참조하면, 복호화 장치는 비트스트림을 통하여 인코딩된 영상에 관련된 정보를 포함하는 NAL 유닛을 수신한다(S501).

복호화 장치는 NAL 유닛의 헤더 및 NAL 페이로드(payload)를 파싱한다(S502).영상 정보에 대한 파싱은 엔트로피 복호화부 또는 별도의 파싱부에서 수행될 수 있다.

복호화 장치는 파싱을 통하여 NAL 유닛 헤더 및 NAL 페이로드에 포함되어 있는 다양한 정보를 획득할 수 있다.

NAL 유닛 헤더는 스케일러블 계층을 지원하는 비트스트림에서 스케일러블 계층을 식별하기 위한 계층 식별 정보를 포함할 수 있으며, NAL 유닛이 인코딩 시 전체 비트스트림에서 비 참조 픽처 인지 또는 참조 픽처 인지 여부를 나타내는 1비트의 플래그 정보를 포함하지 않을 수 있다.

또한, 복호화 장치는 파싱을 통하여 SEI 메시지에 포함되어 있는 해당 SEI 메시지와 관련된 NALU를 디코딩하기 위하여 필요한 파라미터 세트에 대한 정보를 획득할 수 있다.

추가적으로 파라미터 세트에 대한 정보는 비트스트림을 복호화 할 때 또는 세션 협상(예를 들어 IP 망에서의 스트리밍 시 session negotiation)할 때 이용될 수 있다.

상술한 실시예에서, 방법들은 일련의 단계 또는 블록으로서 순서도를 기초로 설명되고 있으나, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당해 기술 분야에서 통상의 지식을 가진 자라면 순서도에 나타난 단계들이 배타적이지 않고, 다른 단계가 포함되거나, 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.

상술한 실시예는 다양한 양태의 예시들을 포함한다. 다양한 양태들을 나타내기 위한 모든 가능한 조합을 기술할 수는 없지만, 해당 기술 분야의 통상의 지식을 가진 자는 다른 조합이 가능함을 인식할 수 있을 것이다. 따라서, 본 발명은 이하의 특허청구범위 내에 속하는 모든 다른 교체, 수정 및 변경을 포함한다고 할 것이다.

Claims

인코딩된 영상에 관련된 정보를 포함하는 NAL(Network Abstraction Layer) 유닛을 포함하는 비트스트림을 수신하는 단계와;

상기 NAL 유닛의 NAL 유닛 헤더를 파싱하는 단계를 포함하고,

상기 NAL 유닛 헤더는 상기 NAL 유닛이 인코딩 시 전체 비트스트림에서 비 참조 픽처 인지 또는 참조 픽처 인지 여부를 나타내는 1비트의 플래그 정보를 포함하지 않는 것을 특징으로 하는 영상 정보 디코딩 방법.
제1항에 있어서,

상기 NAL 유닛 헤더는 스케일러블 계층을 지원하는 비트스트림에서 상기 스케일러블 계층을 식별하기 위한 계층 식별 정보를 포함하는 것을 특징으로 하는 영상 정보 디코딩 방법.
제2항에 있어서,

상기 NAL 유닛이 인코딩 시 전체 비트스트림에서 비 참조 픽처 인지 또는 참조 픽처 인지 여부를 나타내는 1 비트의 플래그 정보를 시그널링 하기 위하여 사용되었던 상기 1 비트는 상기 계층 식별 정보를 시그널링 하기 위하여 사용되는 것을 특징으로 하는 영상 정보 디코딩 방법.
수신된 픽처를 디코딩하는 단계와;

디코딩된 픽처를 DPB(decoded picture buffer)에 참조 픽처로 표시하는 단계와;

상기 디코딩된 픽처의 다음 픽처에 대한 슬라이스 헤더를 파싱하는 단계와;

상기 슬라이스 헤더에 포함되어 있는 참조 픽처 정보에 기초하여 상기 디코딩된 픽처가 참조 픽처인지 비 참조 픽처인지 여부를 표시하는 단계를 포함하는 영상 디코딩 방법.
활성화되는 파라미터 세트에 대한 정보를 포함하는 SEI(Supplemental enhancement information) 메시지를 수신하는 단계와;

상기 파라미터 세트에 대한 정보를 파싱하는 영상 정보 디코딩 방법.
제5항에 있어서,

상기 활성화되는 파라미터 세트에 대한 정보는 활성화되는 비디오 파라미터 세트를 인덱싱하는 정보 및 활성화되는 시퀀스 파라미터 세트를 인덱싱하는 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 영상 정보 디코딩 방법.
제5항에 있어서,

상기 활성화되는 파라미터 세트에 대한 정보는 활성화되는 비디오 파라미터 세트를 인덱싱하는 정보와, 상기 활성화되는 비디오 파라미터 세트를 참조하는 시퀀스 파라미터 세트의 개수를 나타내는 정보 및 상기 시퀀스 파라미터 세트를 인덱싱하는 정보를 포함하는 것을 특징으로 하는 영상 정보 디코딩 방법.
제5항에 있어서,

상기 파라미터 세트에 대한 정보는 시간적 스케일러빌러티를 제공하는 서브레이어를 추출할 때 이용되는 것을 특징으로 하는 영상 정보 디코딩 방법.
제5항에 있어서,

상기 파라미터 세트에 대한 정보는 비디오 코딩 레이어 NALU을 디코딩하기 위한 파라미터 세트들을 참조(활성화)하기 위해 이용되는 것을 특징으로 하는 영상 정보 디코딩 방법.
인코딩된 영상에 관련된 정보를 포함하는 NAL(Network Abstraction Layer) 유닛을 수신하고, 상기 NAL 유닛의 NAL 유닛 헤더를 파싱하는 파싱부를 포함하고,

상기 NAL 유닛 헤더는 상기 NAL 유닛이 인코딩 시 전체 비트스트림에서 비 참조 픽처 인지 또는 참조 픽처 인지 여부를 나타내는 1비트의 플래그 정보를 포함하지 않는 것을 특징으로 하는 영상 정보 디코딩 장치.
제10항에 있어서,

상기 NAL 유닛 헤더는 스케일러블 계층을 지원하는 비트스트림에서 상기 스케일러블 계층을 식별하기 위한 계층 식별 정보를 포함하는 것을 특징으로 하는 영상 정보 디코딩 장치.
제10항에 있어서,

상기 NAL 유닛이 인코딩 시 전체 비트스트림에서 비 참조 픽처 인지 또는 참조 픽처 인지 여부를 나타내는 1 비트의 플래그 정보를 시그널링 하기 위하여 사용되었던 비트는 상기 계층 식별 정보를 시그널링 하기 위하여 사용되는 것을 특징으로 하는 영상 정보 디코딩 장치.
수신된 픽처의 슬라이스 헤더를 파싱하는 파싱부와;

수신된 픽처를 디코딩하는 디코딩부와

디코딩된 픽처를 저장하는 DPB(decoded picture buffer)를 포함하고,

상기 디코딩된 픽처는 상기 DPB에 참조 픽처로 표시되고, 상기 디코딩된 픽처의 다음 픽처에 대한 슬라이스 헤더에 포함되어 있는 참조 픽처 정보에 기초하여 상기 디코딩된 픽처가 참조 픽처인지 비 참조 픽처인지 여부가 재 표시되는 것을 특징으로 하는 영상 디코딩 장치.
활성화되는 파라미터 세트에 대한 정보를 포함하는 SEI(Supplemental enhancement information) 메시지를 수신하고, 상기 파라미터 세트에 대한 정보를 파싱하는 파싱부를 포함하는 영상 정보 디코딩 장치.
제14항에 있어서,

상기 활성화되는 파라미터 세트에 대한 정보는 활성화되는 비디오 파라미터 세트를 인덱싱하는 정보 및 활성화되는 시퀀스 파라미터 세트를 인덱싱하는 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 영상 정보 디코딩 장치.
제14항에 있어서,

상기 활성화되는 파라미터 세트에 대한 정보는 활성화되는 비디오 파라미터 세트를 인덱싱하는 정보와, 상기 활성화되는 비디오 파라미터 세트를 참조하는 시퀀스 파라미터 세트의 개수를 나타내는 정보 및 상기 시퀀스 파라미터 세트를 인덱싱하는 정보를 포함하는 것을 특징으로 하는 영상 정보 디코딩 장치.
제14항에 있어서,

상기 파라미터 세트에 대한 정보는 시간적 스케일러빌러티를 제공하는 서브 레이어를 추출할 때 이용되는 것을 특징으로 하는 영상 정보 디코딩 장치.
제14항에 있어서,

상기 파라미터 세트에 대한 정보는 비디오 코딩 레이어 NALU을 디코딩하기 위한 파라미터 세트들을 참조(활성화)하기 위해 이용되는 것을 특징으로 하는 영상 정보 디코딩 장치.