KR20140145114A

KR20140145114A - 비디오 인코딩 방법, 비디오 디코딩 방법 및 이를 이용하는 장치

Info

Publication number: KR20140145114A
Application number: KR1020147021858A
Authority: KR
Inventors: 헨드리헨드리; 전병문; 김정선; 정상오
Original assignee: 엘지전자 주식회사
Priority date: 2012-03-22
Filing date: 2013-03-22
Publication date: 2014-12-22
Also published as: US9955178B2; KR102312989B1; KR20210021122A; KR20200085921A; US20200296400A1; US11838526B2; KR20210068620A; KR20210127772A; KR20220130274A; KR102132784B1; US11202090B2; WO2013141665A1; KR102361012B1; US20220060730A1; US10708610B2; KR20220020439A; KR102447003B1; KR102261939B1; US20190149832A1; KR102219089B1

Abstract

본 발명은 비디오 인코딩 방법과 디코딩 방법 및 이를 이용하는 장치에 관한 것으로서, 본 발명에 따른 비디오 인코딩 방법은 LCU(Largest Coding Unit)들의 행인 서브스트림들을 병렬적으로 인코딩하는 단계 및 상기 인코딩된 서브스트림들을 포함하는 비트스트림을 전송하는 단계를 포함하며, 상기 서브스트림들의 개수는 엔트리 포인트들의 개수와 동일할 수 있다.

Description

비디오 인코딩 방법, 비디오 디코딩 방법 및 이를 이용하는 장치{VIDEO ENCODING METHOD, VIDEO DECODING METHOD AND APPARATUS USING SAME}

본 발명은 비디오 인코딩 및 디코딩 기술에 관한 것으로서, 더 구체적으로는 비디오의 병렬적 디코딩에 관한 기술이다.

최근 고해상도, 고품질의 영상에 대한 요구가 다양한 응용 분야에서 증가하고 있다. 영상이 고해상도를 가지고 고품질이 될수록 해당 영상에 관한 정보량도 함께 증가한다.

따라서 기존의 유무선 광대역 회선과 같은 매체를 이용하여 영상 정보를 전송하거나 기존의 저장 매체를 이용해 영상 정보를 저장하는 경우에는, 정보의 전송 비용과 저장 비용이 증가하게 된다.

고해상도, 고품질 영상의 정보를 효과적으로 전송하거나 저장하고, 재생하기 위해 고효율의 영상 압축 기술을 이용할 수 있다.

영상 압축의 효율을 높이기 위해, 인터 예측과 인트라 예측을 이용할 수 있다. 인터 예측(inter prediction) 방법에서는 다른 픽처의 정보를 참조하여 현재 픽처(picture)의 픽셀값을 예측하며, 인트라 예측(intra prediction) 방법에서는 동일한 픽처 내에서 픽셀 간 연관 관계를 이용하여 픽셀값을 예측한다.

예측된 영상의 처리 단위, 예컨대 블록에 대하여는 영상을 원본과 동일하게 만들기 위한 다양한 방법이 적용될 수 있다. 이를 통해 디코딩 장치는 해당 영상을 더 정확하게(원본과 더 일치하게) 디코딩할 수 있으며, 인코딩 장치는 해당 영상이 더 정확하게 복원될 수 있도록 인코딩할 수 있다.

본 발명은 병렬적 디코딩을 효과적으로 수행할 수 있도록 비디오 정보를 구성하는 방법 및 장치를 제공하는 것을 목적으로 한다.

본 발명은 병렬적 디코딩을 효과적으로 수행할 수 있는 서브스트림 구조를 제공하는 것을 목적으로 한다.

본 발명은 다양한 프로세싱 코어의 구성에 대응하여 효과적으로 병렬적 디코딩을 수행할 수 있는 방법 및 장치를 제공하는 것을 목적으로 한다.

본 발명은 프로세싱 코어의 개수가 다양해지는 경우에도 효과적으로 병렬적 디코딩이 수행될 수 있도록 서브스트림의 개수를 최대화하는 방법 및 장치를 제공하는 것을 목적으로 한다.

본 발명의 일 실시형태는 비디오 디코딩 방법으로서, LCU(Largest Coding Unit)들의 행인 서브스트림들을 포함하는 비트스트림을 수신하는 단계 및 상기 서브스트림들을 병렬적으로 디코딩하는 단계를 포함하며, 상기 서브스트림들의 개수는 엔트리 포인트들의 개수와 동일할 수 있다.

본 발명의 다른 실시형태는 비디오 인코딩 방법으로서, LCU(Largest Coding Unit)들의 행인 서브스트림들을 병렬적으로 인코딩하는 단계 및 상기 인코딩된 서브스트림들을 포함하는 비트스트림을 전송하는 단계를 포함하며, 상기 서브스트림들의 개수는 엔트리 포인트들의 개수와 동일할 수 있다.

본 발명의 또 다른 실시형태는 비디오 디코딩 장치로서, LCU(Largest Coding Unit)들의 행인 서브스트림들을 포함하는 비트스트림을 병렬적으로 디코딩하며, 상기 서브스트림들의 개수는 엔트리 포인트들의 개수와 동일할 수 있다.

본 발명의 또 다른 실시형태는 비디오 인코딩 장치로서, LCU(Largest Coding Unit)들의 행인 서브스트림들을 병렬적으로 인코딩하고 상기 인코딩된 서브스트림들을 포함하는 비트스트림을 전송하며, 상기 서브스트림들의 개수는 엔트리 포인트들의 개수와 동일할 수 있다.

본 발명에 의하면 병렬적 디코딩을 효과적으로 수행할 수 있도록 비디오 정보를 구성할 수 있다. 예컨대, 본 발명에 의하면, 병렬적 디코딩을 효과적으로 수행할 수 있도록 서브스트림을 구성할 수 있다.

본 발명에 의하면, 다양한 프로세싱 코어의 구성에 대응하여 효과적으로 병렬적 디코딩을 수행할 수 있다. 예컨대, 본 발명에 의하면, 프로세싱 코어의 개수가 다양해지는 경우에도 효과적으로 병렬적 디코딩이 수행될 수 있다.

도 1은 본 발명의 일 실시예에 따른 비디오 인코딩 장치를 개략적으로 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 비디오 디코딩 장치를 개략적으로 나타낸 블록도이다.
도 3은 슬라이스에 관한 일 예를 개략적으로 설명하는 도면이다.
도 4는 타일과 슬라이스에 관한 일 예를 개략적으로 설명하는 도면이다.
도 5는 타일과 슬라이스에 관한 다른 예를 개략적으로 설명하는 도면이다.
도 6은 WPP 서브스트림에 대하여 개략적으로 설명하는 도면이다.
도 7은 픽처 내 소정의 영역이 서브스트림으로 분할된 일 예를 개략적으로 도시한 것이다.
도 8은 도 7의 예에 따른 비트스트림 내 LCU 순서를 개략적으로 설명하는 도면이다.
도 9는 도 7의 예에 따른 비트스트림을 하나의 프로세싱 코어를 이용하여 디코딩하는 경우의 일 예를 개략적으로 설명하는 도면이다.
도 10은 본 발명에 따라서 LCU 행들이 각각 서브스트림이 되는 일 예를 개략적으로 설명하는 도면이다.
도 11은 본 발명에 따라서, 정렬된 비트스트림 내 LCU들을 개략적으로 설명하는 도면이다.
도 12는 본 발명에 따른 비디오 인코딩 방법을 개략적으로 설명하는 순서도이다.
도 13은 본 발명에 따른 비디오 디코딩 방법을 개략적으로 설명하는 순서도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니다. 본 명세서에서 사용하는 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명의 기술적 사상을 한정하려는 의도로 사용되는 것은 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

한편, 본 발명에서 설명되는 도면상의 각 구성들은 비디오 인코딩 장치/디코딩 장치에서 서로 다른 특징적인 기능들에 관한 설명의 편의를 위해 독립적으로 도시된 것으로서, 각 구성들이 서로 별개의 하드웨어나 별개의 소프트웨어로 구현된다는 것을 의미하지는 않는다. 예컨대, 각 구성 중 두 개 이상의 구성이 합쳐져 하나의 구성을 이룰 수도 있고, 하나의 구성이 복수의 구성으로 나뉘어질 수도 있다. 각 구성이 통합 및/또는 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리범위에 포함된다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 이하, 도면상의 동일한 구성 요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성 요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 일 실시예에 따른 비디오 인코딩 장치를 개략적으로 도시한 블록도이다. 도 1을 참조하면, 인코딩 장치(100)는 픽처 분할부(105), 예측부(110), 변환부(115), 양자화부(120), 재정렬부(125), 엔트로피 인코딩부(130), 역양자화부(135), 역변환부(140), 필터부(145) 및 메모리(150)를 구비한다.

픽처 분할부(105)는 입력된 픽처를 적어도 하나의 처리 단위 블록으로 분할할 수 있다. 이때, 처리 단위로서의 블록은 예측 유닛(Prediction Unit, 이하 ‘PU’라 함)일 수도 있고, 변환 유닛(Transform Unit, 이하 ‘TU’라 함)일 수도 있으며, 코딩 유닛(Coding Unit, 이하 ‘CU’라 함)일 수도 있다.

픽처 분할부(105)에서 분할되는 처리 단위 블록들은 쿼드 트리(quad-tree) 구조를 가질 수 있다.

예측부(110)는 후술하는 바와 같이, 인터 예측을 수행하는 인터 예측부와 인트라 예측을 수행하는 인트라 예측부를 포함한다. 예측부(110)는, 픽처 분할부(105)에서 픽처의 처리 단위에 대하여 예측을 수행하여 예측 블록을 생성한다. 예측부(110)에서 픽처의 처리 단위는 CU일 수도 있고, TU일 수도 있고, PU일 수도 있다. 또한, 예측부(110)는 해당 처리 단위에 대하여 실시되는 예측이 인터 예측인지 인트라 예측인지를 결정하고, 각 예측 방법의 구체적인 내용(예컨대, 예측 모드 등)을 정할 수 있다. 이때, 예측이 수행되는 처리 단위와 예측 방법 및 예측 방법의 구체적인 내용이 정해지는 처리 단위는 다를 수 있다. 예컨대, 예측의 방법과 예측 모드 등은 PU 단위로 결정되고, 예측의 수행은 TU 단위로 수행될 수도 있다.

인터 예측을 통해서는 현재 픽처의 이전 픽처 및/또는 이후 픽처 중 적어도 하나의 픽처의 정보를 기초로 예측을 수행하여 예측 블록을 생성할 수 있다. 또한, 인트라 예측을 통해서는 현재 픽처 내의 픽셀 정보를 기초로 예측을 수행하여 예측 블록을 생성할 수 있다.

인터 예측의 방법으로서, 스킵(skip) 모드, 머지(merge) 모드, MVP(Motion Vector Predtiction) 등을 이용할 수 있다. 인터 예측에서는 PU에 대하여, 참조 픽처를 선택하고 PU에 대응하는 참조 블록을 선택할 수 있다. 참조 블록은 정수 픽셀 단위로 선택될 수 있다. 이어서, 현재 PU와의 레지듀얼(residual) 신호가 최소화되며 움직임 벡터 크기 역시 최소가 되는 예측 블록이 생성된다.

예측 블록은 정수 샘플 단위로 생성될 수도 있고, 1/2 픽셀 단위 또는 1/4 픽셀 단위와 같이 정수 이하 픽셀 단위로 생성될 수도 있다. 이때, 움직임 벡터 역시 정수 픽셀 이하의 단위로 표현될 수 있다.

인터 예측을 통해 선택된 참조 픽처의 인덱스, 움직임 벡터(ex. Motion Vector Predictor), 레지듀얼 신호 등의 정보는 엔트로피 인코딩되어 디코딩 장치에 전달된다. 스킵 모드가 적용되는 경우에는 레지듀얼을 예측 블록을 복원 블록으로 할 수 있으므로, 레지듀얼을 생성, 변환, 양자화, 전송하지 않을 수 있다.

인트라 예측을 수행하는 경우에는, PU 단위로 예측 모드가 정해져서 PU 단위로 예측이 수행될 수 있다. 또한, PU 단위로 예측 모드가 정해지고 TU 단위로 인트라 예측이 수행될 수도 있다.

인트라 예측에서 예측 모드는 33개의 방향성 예측 모드와 적어도 2개 이상의 비방향성 모드를 가질 수 있다. 비향성성 모드는 DC 예측 모드 및 플래이너 모드(Planar 모드)을 포함할 수 있다.

인트라 예측에서는 참조 샘플에 필터를 적용한 후 예측 블록을 생성할 수 있다. 이때, 참조 샘플에 필터를 적용할 것인지는 현재 블록의 인트라 예측 모드 및/또는 사이즈에 따라 결정될 수 있다.

PU는 다양한 사이즈/형태의 블록일 수 있으며, 예컨대 인터 예측의 경우에 PU는 2N×2N 블록, 2N×N 블록, N×2N 블록, 또는 N×N 블록 (N은 정수) 등일 수 있다. 인트라 예측의 경우에 PU는 2N×2N 블록 또는 N×N 블록 (N은 정수) 등일 수 있다. 이때, N×N 블록 크기의 PU는 특정한 경우에만 적용하도록 설정할 수 있다. 예컨대 최소 크기 CU에 대해서만 NxN 블록 크기의 PU를 이용하도록 정하거나 인트라 예측에 대해서만 이용하도록 정할 수도 있다. 또한, 상술한 크기의 PU 외에, N×mN 블록, mN×N 블록, 2N×mN 블록 또는 mN×2N 블록 (m＜1) 등의 PU를 더 정의하여 사용할 수도 있다.

생성된 예측 블록과 원본 블록 사이의 레지듀얼 값(레지듀얼 블록 또는 레지듀얼 신호)은 변환부(115)로 입력된다. 또한, 예측을 위해 사용한 예측 모드 정보, 움직임 벡터 정보 등은 레지듀얼 값과 함께 엔트로피 인코딩부(130)에서 인코딩되어 디코딩 장치에 전달된다.

변환부(115)는 변환 블록 단위로 레지듀얼 블록에 대한 변환을 수행하고 변환 계수를 생성한다.

변환 블록은 샘플들의 직사각형 블록으로서 동일한 변환이 적용되는 블록이다. 변환 블록은 변환 유닛(TU)일 수 있으며, 쿼드 트리(quad tree) 구조를 가질 수 있다.

변환부(115)는 레지듀얼 블록에 적용된 예측 모드와 블록의 크기에 따라서 변환을 수행할 수 있다.

예컨대, 레지듀얼 블록에 인트라 예측이 적용되었고 블록이 4x4의 레지듀얼 배열이라면, 레지듀얼 블록을 DST(Discrete Sine Transform)를 이용하여 변환하고, 그 외의 경우라면 레지듀얼 블록을 DCT(Discrete Cosine Transform)를 이용하여 변환할 수 있다.

변환부(115)는 변환에 의해 변환 계수들의 변환 블록을 생성할 수 있다.

양자화부(120)는 변환부(115)에서 변환된 레지듀얼 값들, 즉 변환 계수들을 양자화하여 양자화된 변환 계수를 생성할 수 있다. 양자화부(120)에서 산출된 값은 역양자화부(135)와 재정렬부(125)에 제공된다.

재정렬부(125)는 양자화부(120)로부터 제공된 양자화된 변환 계수를 재정렬한다. 양자화된 변환 계수를 재정렬함으로써 엔트로피 인코딩부(130)에서의 인코딩 효율을 높일 수 있다.

재정렬부(125)는 계수 스캐닝(Coefficient Scanning) 방법을 통해 2차원 블록 형태의 양자화된 변환 계수들을 1차원의 벡터 형태로 재정렬할 수 있다.

엔트로피 인코딩부(130)는 재정렬부(125)에 의해 재정렬된 양자화된 변환 계수들에 대한 엔트로피 인코딩을 수행할 수 있다. 엔트로피 인코딩에는 예를 들어, 지수 골롬(Exponential Golomb), CAVLC(Context-Adaptive Variable Length Coding), CABAC(Context-Adaptive Binary Arithmetic Coding) 등과 같은 인코딩 방법을 사용할 수 있다. 엔트로피 인코딩부(130)는 재정렬부(125) 및 예측부(110)로부터 전달받은 CU의 양자화된 변환 계수 정보 및 블록 타입 정보, 예측 모드 정보, 분할 단위 정보, PU 정보 및 전송 단위 정보, 움직임 벡터 정보, 참조 픽처 정보, 블록의 보간 정보, 필터링 정보 등 다양한 정보를 인코딩할 수 있다.

또한, 엔트로피 인코딩부(130)는 필요한 경우에, 전송하는 파라미터 셋(parameter set) 또는 신택스에 일정한 변경을 가할 수도 있다.

역양자화부(135)는 양자화부(120)에서 양자화된 값(양자화된 변환 계수)들을 역양자화하고, 역변환부(140)는 역양자화부(135)에서 역양자화된 값들을 역변환한다.

역양자화부(135) 및 역변환부(140)에서 생성된 레지듀얼 값과 예측부(110)에서 예측된 예측 블록이 합쳐져 복원 블록(Reconstructed Block)이 생성될 수 있다.

도 1에서는 가산기를 통해서, 레지듀얼 블록과 예측 블록이 합쳐져 복원 블록이 생성되는 것으로 설명하고 있다. 이때, 가산기를 복원 블록을 생성하는 별도의 유닛(복원 블록 생성부)로 볼 수도 있다.

필터부(145)는 디블록킹 필터, ALF(Adaptive Loop Filter), SAO(Sample Adaptive Offset)를 복원된 픽처에 적용할 수 있다.

디블록킹 필터는 복원된 픽처에서 블록 간의 경계에 생긴 왜곡을 제거할 수 있다. ALF(Adaptive Loop Filter)는 디블록킹 필터를 통해 블록이 필터링된 후 복원된 영상과 원래의 영상을 비교한 값을 기초로 필터링을 수행할 수 있다. ALF는 고효율을 적용하는 경우에만 수행될 수도 있다. SAO는 디블록킹 필터가 적용된 레지듀얼 블록에 대하여, 픽셀 단위로 원본 영상과의 오프셋 차이를 복원하며, 밴드 오프셋(Band Offset), 에지 오프셋(Edge Offset) 등의 형태로 적용된다.

한편, 인터 예측에 사용되는 복원 블록에 대해서 필터부(145)는 필터링을 적용하지 않을 수도 있다.

메모리(150)는 필터부(145)를 통해 산출된 복원 블록 또는 픽처를 저장할 수 있다. 메모리(150)에 저장된 복원 블록 또는 픽처는 인터 예측을 수행하는 예측부(110)에 제공될 수 있다.

도 2는 본 발명의 일 실시예에 따른 비디오 디코딩 장치를 개략적으로 나타낸 블록도이다. 도 2를 참조하면, 비디오 디코딩 장치(200)는 엔트로피 디코딩부(210), 재정렬부(215), 역양자화부(220), 역변환부(225), 예측부(230), 필터부(235) 메모리(240)를 포함할 수 있다.

비디오 인코딩 장치에서 영상 비트스트림이 입력된 경우, 입력된 비트스트림은 비디오 인코딩 장치에서 영상 정보가 처리된 절차에 따라서 디코딩될 수 있다.

예컨대, 비디오 인코딩 장치에서 엔트로피 인코딩을 수행하기 위해 CAVLC 등의 가변 길이 부호화(Variable Length Coding: VLC, 이하 ‘VLC’ 라 함)가 사용된 경우에, 엔트로피 디코딩부(210)도 인코딩 장치에서 사용한 VLC 테이블과 동일한 VLC 테이블로 구현하여 엔트로피 디코딩을 수행할 수 있다. 또한, 비디오 인코딩 장치에서 엔트로피 인코딩을 수행하기 위해 CABAC을 이용한 경우에, 엔트로피 디코딩부(210)는 이에 대응하여 CABAC을 이용한 엔트로피 디코딩을 수행할 수 있다.

엔트로피 디코딩부(210)에서 디코딩된 정보 중 예측 블록을 생성하기 위한 정보는 예측부(230)로 제공되고, 엔트로피 디코딩부(210)에서 엔트로피 디코딩이 수행된 레지듀얼 값, 즉 양자화된 변환 계수는 재정렬부(215)로 입력될 수 있다.

재정렬부(215)는 엔트로피 디코딩부(210)에서 엔트로피 디코딩된 비트스트림의 정보, 즉 양자화된 변환 계수를 인코딩 장치에서 재정렬한 방법을 기초로 재정렬할 수 있다.

재정렬부(215)는 1차원 벡터 형태로 표현된 계수들을 다시 2차원의 블록 형태의 계수로 복원하여 재정렬할 수 있다. 재정렬부(215)는 현재 블록(변환 블록)에 적용된 예측 모드와 변환 블록의 크기를 기반으로 계수에 대한 스캐닝을 수행하여 2 차원 블록 형태의 계수(양자화된 변환 계수) 배열을 생성할 수 있다.

역양자화부(220)는 인코딩 장치에서 제공된 양자화 파라미터와 재정렬된 블록의 계수값을 기초로 역양자화를 수행할 수 있다.

역변환부(225)는 비디오 인코딩 장치에서 수행된 양자화 결과에 대해, 인코딩 장치의 변환부가 수행한 DCT 및 DST에 대해 역DCT 및/또는 역DST를 수행할 수 있다. 역변환은 인코딩 장치에서 결정된 전송 단위 또는 영상의 분할 단위를 기초로 수행될 수 있다. 인코딩 장치의 변환부에서 DCT 및/또는 DST는 예측 방법, 현재 블록의 크기 및 예측 방향 등 복수의 정보에 따라 선택적으로 수행될 수 있고, 디코딩 장치의 역변환부(225)는 인코딩 장치의 변환부에서 수행된 변환 정보를 기초로 역변환을 수행할 수 있다.

예측부(230)는 엔트로피 디코딩부(210)에서 제공된 예측 블록 생성 관련 정보와 메모리(240)에서 제공된 이전에 디코딩된 블록 및/또는 픽처 정보를 기초로 예측 블록을 생성할 수 있다.

현재 PU에 대한 예측 모드가 인트라 예측(intra prediction) 모드인 경우에, 현재 픽처 내의 픽셀 정보를 기초로 예측 블록을 생성하는 인트라 예측을 수행할 수 있다.

현재 PU에 대한 예측 모드가 인터 예측(inter prediction) 모드인 경우에, 현재 픽처의 이전 픽처 또는 이후 픽처 중 적어도 하나의 픽처에 포함된 정보를 기초로 현재 PU에 대한 인터 예측을 수행할 수 있다. 이때, 비디오 인코딩 장치에서 제공된 현재 PU의 인터 예측에 필요한 움직임 정보, 예컨대 움직임 벡터, 참조 픽처 인덱스 등에 관한 정보는 인코딩 장치로부터 수신한 스킵 플래그, 머지 플래그 등을 확인하고 이에 대응하여 유도될 수 있다.

복원 블록은 예측부(230)에서 생성된 예측 블록과 역변환부(225)에서 제공된 레지듀얼 블록을 이용해 생성될 수 있다. 도 2에서는 가산기에서 예측 블록과 레지듀얼 블록이 합쳐져 복원 블록이 생성되는 것으로 설명하고 있다. 이때, 가산기를 복원 블록을 생성하는 별도의 유닛(복원 블록 생성부)로 볼 수 있다.

스킵 모드가 적용되는 경우에는 레지듀얼이 전송되지 않으며 예측 블록을 복원 블록으로 할 수 있다.

복원된 블록 및/또는 픽처는 필터부(235)로 제공될 수 있다. 필터부(235)는 복원된 블록 및/또는 픽처에 디블록킹 필터링, SAO(Sample Adaptive Offset) 및/또는 ALF 등을 적용할 수 있다.

메모리(240)는 복원된 픽처 또는 블록을 저장하여 참조 픽처 또는 참조 블록으로 사용할 수 있도록 할 수 있고 또한 복원된 픽처를 출력부로 제공할 수 있다.

한편, 인코딩 장치와 디코딩 장치는 픽처를 소정의 단위로 분할하여 처리(인코딩/디코딩) 할 수 있다.

예컨대, 픽처는 슬라이스와 타일로 분할될 수 있다.

슬라이스는 하나 이상의 슬라이스 시그먼트(segment)들의 시퀀스이다. 슬라이스 시퀀스는 독립(independent) 슬라이스 시그먼트로부터 시작하며 다음 독립 슬라이스 시그먼트 전까지 존재하는 종속(dependent) 슬라이스 시그먼트들을 포함한다.

슬라이스 시그먼트는 코딩 트리 유닛(Coding Tree Unit: CTU)의 시퀀스일 수 있다. 코딩 트리 유닛은 쿼드 트리(Quad-Tree) 구조의 코딩 유닛으로서, 최대 크기 코딩 유닛(Largest Coding Unit: LCU)일 수 있다. 본 명세서에서는 발명의 이해를 돕기 위해 필요한 곳에서 코딩 트리 유닛(이하, CTU 라 함), 최대 코딩 유닛(이하, LCU라 함)을 혼용하여 설명할 수도 있다.

도 3은 슬라이스에 관한 일 예를 개략적으로 설명하는 도면이다.

현재 픽처(300)는 슬라이스 경계(350)에 의해 두 개의 슬라이스로 구분된다. 첫 번째 슬라이스는 4 개의 코딩 트리 유닛을 포함하는 독립 슬라이스 시그먼트(310)와 슬라이스 시그먼트 경계(330)를 전후로 32개의 CTU를 포함하는 제1 종속 슬라이스 시그먼트(320) 및 24개의 CTU을 포함하는 제2 종속 슬라이스 시그먼트(340)로 구성될 수 있다.

또 하나의 독립 슬라이스 시그먼트(360)는 28개의 CTU로 구성된다.

타일(tile) 역시 CTU 또는 LCU의 시퀀스일 수 있다. CTU는 쿼드 트리(Quad-Tree) 구조의 코딩 유닛으로서, LCU일 수 있다. 앞서 말한 바대로, 본 명세서에서는 발명의 이해를 돕기 위해 필요한 곳에서 CTU, LCU를 혼용하여 설명할 수 있다.

구체적으로, 타일은 하나의 행(row) 및 하나의 열(column)로 규정될 수 있는 영역 내에 함께 나타나는(co-occurring) 정수 개의 CTU들 또는 LCU들일 수 있다.

도 4는 타일과 슬라이스에 관한 일 예를 개략적으로 설명하는 도면이다.

현재 픽처(400)는 하나의 슬라이스만 포함하며 타일 경계(410) 좌우의 두 타일로 나뉘어진다. 현재 픽처(400) 내의 슬라이스는 독립 슬라이스 시그먼트(420)와 슬라이스 시그먼트 경계(430, 440, 450)에 의해 나뉘는 4 개의 종속 슬라이스 시그먼트들로 구성된다.

도 5는 타일과 슬라이스에 관한 다른 예를 개략적으로 설명하는 도면이다.

현재 픽처(500)는 타일 경계(510) 좌우의 두 타일로 나뉘어진다. 타일 경계(510) 좌측의 타일은 슬라이스 경계(550)을 기준으로 하는 두 개의 슬라이스를 포함한다. 슬라이스 경계(550) 위쪽의 슬라이스는 독립 슬라이스 시그먼트(520)과 종속 슬라이스 시그먼트(540)을 포함하며, 슬라이스 경계(550) 아래쪽의 슬라이스는 독립 슬라이스 시그먼트(530)과 종속 슬라이스 시그먼트(560)을 포함한다. 슬라이스 경계(590)를 기준으로 하는 다음 슬라이스, 즉 두 번째 타일 내의 슬라이스는 독립 슬라이스 시그먼트(530)과 종속 슬라이스 시그먼트(580)을 포함한다.

인코딩과 디코딩은 타일 단위로 수행될 수도 있고, CTU의 행(이하, 설명의 편의를 위해, CTU의 행(또는 스트림) 혹은 LCU의 행(또는 스트림)을 ‘서브스트림’이라 한다) 단위로 수행될 수도 있다. 타일 또는 서브스트림에서 각 샘플들은 CTU 혹은 LCU 단위로 처리될 수 있다.

이때, 디코딩 과정은 병렬적으로 처리될 수 있다. 예컨대, 디코딩 과정은 각 타일별로 병렬 진행될 수도 있고, 서브스트림별로 병렬 진행될 수도 있다.

타일 구조에서의 병렬 처리(parallel processing) 경우에 각 타일은 동시에 디코딩될 수 있다. 이때, 병렬 처리 가능한 타일의 최대 개수가 미리 정해져 있을 수도 있다. 예컨대, 최대 4개의 타일을 병렬 처리할 수 있도록 설정할 수 있다. 병렬 처리가 가능한 타일들의 개수4개 이하인 경우에, 디코딩 장치는 1 내지 4개의 타일들을 한번에 처리할 수 있다.

서브스트림별로 디코딩이 진행되는 경우에는 n 번째(n은 정수) 서브스트림에 대하여 디코딩이 진행된 후, n 번째 째 서브스트림의 두 번째 CTU 혹은 LCU에 대한 디코딩이 완료된 후, n+1 번째 서브스트림에 대한 디코딩이 진행될 수 있다.

서브스트림은 복수의 디코딩 과정이 병렬적으로 진행되는 경우에, 각 디코딩 과정에 있어서 디코딩 대상이 되는 비트스트림의 일부분으로서 LCU들 혹은 CTU들의 행(row)일 수 있다.

n번째 서브스트림(n 번째 CTU(LCU) 행)의 2 번째 CTU(LCU)에 대한 엔트로피 디코딩이 완료되면, 관련된 콘텍스트 정보가 저장된다. n+1번째 서브스트림의 1 번째 CTU(LCU)는, n번째 서브스트림의 2번째 CTU(LCU)에 대한 콘텍스트 정보를 기반으로 엔트로피 디코딩될 수 있다.

이와 같이, 각 서브스트림이 일정한 차이를 두고 병렬적으로 파싱되는 것을 WPP(Wavefront Parallel Processing)이라고 한다. WPP에 의해서 슬라이스 또는 픽처 내에서 CTU(LCU)의 병렬적인 처리가 가능하다.

타일 구조와 WPP는 인코딩 장치가 픽처를 몇 개의 부분으로 나눌 수 있도록 하며, 이렇게 나뉘어지 부분들은 디코딩 장치에서 병렬적인 방식(parallel manner)으로 디코딩될 수 있다.

타일 구조(타일 서브스트림) 또는 WPP 서브스트림을 이용하여 디코딩을 병렬적으로 진행하기 위한 비트스트림상의 액세스 포인트를 엔트리 포인트라고 한다. 예컨대, 엔트리 포인트는 비트스트림상에서 병렬 처리의 대상이 되는 각 WPP서브스트림의 시작점 또는 각 타일의 시작점일 수 있다.

따라서, 병렬 처리를 위해 각 타일의 엔트리 포인트(entry point)를 시그널링하거나 WPP서브스트림 슬라이스 헤더의 엔트리 포인트를 시그널링하는 것이 중요하다.

도 6은 WPP 서브스트림에 대하여 개략적으로 설명하는 도면이다.

도 6의 예에서, 픽처 내 소정의 영역(600)은 서브스트림 A(610), 서브스트림 B(620), 서브스트림 C(630) 등 복수의 서브스트림을 포함한다.

각 서브스트림은 첫 번째 LCU부터 순차적으로 디코딩된다. 각 서브스트림의 두 번째 이후의 LCU들은 이전 LCU들의 엔트로피 디코딩 결과, 즉 콘텍스트를 기반으로 엔트로피 디코딩될 수 있다.

WPP의 경우, 각 서브스트림들은 병렬적으로 디코딩 될 수 있으며, 첫 번째 서브스트림 다음의 서브스트림들에서 첫 번째 LCU들은 이전 서브스트림의 두 번째 LCU에 대한 콘텍스트 변수들의 값을 기반으로 엔트로피 디코딩될 수 있다.

예컨대, WPP를 적용하여 디코딩을 병렬적으로 진행하는 경우에, 디코딩 대상 영역(600) 내 첫 번째 행(610)의 첫 번째 LCU(A1)부터 디코딩 과정이 진행된다. 첫 번째 행(610)의 두 번째 LCU(A2)에 대한 엔트로피 디코딩이 완료되면, 디코딩 장치는 A2에 대한 콘텍스트 변수들(context variables)의 값을 저장한다.

두 번째 행(620)의 첫 번째 LCU(B1)는 첫 번째 행(610)의 두 번째 LCU(A2)에 대한 콘텍스트 변수들의 값을 기반으로 엔트로피 디코딩된다. 두 번째 행(620)의 두 번째 LCU(B2)에 대한 엔트로피 디코딩이 완료되면, 디코딩 장치는 B2에 대한 콘텍스트 변수들의 값을 저장한다.

세 번째 행(630)의 첫 번째 LCU(C1)는 두 번째 행(610)의 두 번째 LCU(B2)에 대한 콘텍스트 변수들의 값을 기반으로 엔트로피 디코딩된다. 세 번째 행(630)의 두 번째 LCU(C2)에 대한 엔트로피 디코딩이 완료되면, 디코딩 장치는 B2에 대한 콘텍스트 변수들의 값을 저장한다.

동일한 방법으로 네 번째 행과 그 이후의 행들에 대해서도 직전 행의 두 번째 LCU에 대한 콘텍스트 변수 값들을 이용하여 엔트로피 디코딩될 수 있다.

WPP가 적용되는 경우, 엔트리 포인트는 각 서브스트림에 대한 디코딩 시작점(액세스 포인트)을 지시할 수 있다.

도 6에서 픽처 내 소정의 영역(600)은 현재 픽처의 일부 영역일 수도 있고, 현재 픽처의 슬라이스일 수도 있으며, 현재 픽처의 전체 영역일 수도 있다.

상술한 바와 같이, WPP가 적용되는 경우에는 WPP가 적용되는 영역(예컨대, 전체 픽처 또는 슬라이스)이 하나 이상의 서브스트림으로 나뉠 수 있고, 슬라이스 헤더에서 각 서브스트림의 첫 번째 비트를 액세스할 위치로서 엔트리 포인트가 시그널링 될 수 있다.

도 7은 픽처 내 소정의 영역이 서브스트림으로 분할된 일 예를 개략적으로 도시한 것이다.

도 7에서는, 픽처 내 소정의 영역(700)은 서브스트림 0(710, 740), 서브스트림 1(720, 750), 서브스트림 2(730)의 세 서브스트림으로 분할된 경우를 예로서 설명하고 있다.

서브스트림 0의 첫 번째 행(row, 710)은 0 번째 LCU부터 5번째 LCU로 구성되며, 서브스트림 0의 두 번째 행(740)은 18번째 LCU부터 23번째 LCU로 구성된다. 서브스트림 1의 첫 번째 행(720)은 6 번째 LCU부터 11번째 LCU로 구성되며, 서브스트림 1의 두 번째 행(750)은 24번째 LCU부터 29번째 LCU로 구성된다. 또한, 서브스트림 2(730)는 12번째 LCU부터 17번째 LCU로 구성된다.

서브스트림들은 비트스트림 내에서 일련의 시퀀스로 전송되며, 이때 각 서브스트림의 액세스 포인트는 엔트리 포인트로 시그널링될 수 있다.

WPP가 적용되는 경우, 3개의 프로세싱 코어(core)가 디코딩을 병렬적으로 처리한다면, 첫 번째 프로세싱 코어는 서브스트림 0을 디코딩하고, 두 번째 프로세싱 코어는 서브스트림 1을 디코딩하며, 세 번째 프로세싱 코어는 서브스트림 2를 디코딩할 수 있다.

이때, 첫 번째 프로세싱 코어는 서브스트림 0의 첫 번째 행(710)을 디코딩한 후, 두 번째 행(720)을 순차적으로 디코딩할 수 있다. 두 번째 프로세싱 코어 역시 서브스트림 1의 첫 번째 행(720)을 디코딩한 후, 두 번째 행(740)을 순차적으로 디코딩할 수 있다.

도 7에서 픽처 내 소정의 영역(700)은 전체 픽처일 수도 있고, 픽처 내 슬라이스, 슬라이스 시그먼트 혹은 타일일 수도 있다.

도 8은 도 7의 예에 따른 비트스트림 내 LCU 순서를 개략적으로 설명하는 도면이다.

LCU들은 비트스트림 내에서 서브스트림별로 재정렬될 수 있다. LCU들의 재정렬은 예컨대, 도 1의 재정렬부(125)에서 수행될 수도 있다. 예컨대, 도 8을 참조하면, 서브스트림 0에 이어서 서브스트림 1과 서브스트림 2가 전송된다. 서브스트림 0의 액세스 지점은 엔트리 포인트(810)에 의해 지시되며, 서브스트림 1의 액세스 지점은 엔트리 포인트(820)에 의해 지시되고, 서브스트림 2의 액세스 지점은 엔트리 포인트(830)에 의해 지시될 수 있다.

도 7에서와 같이, 3 개의 코어를 이용한 WPP가 적용되는 경우라면, 첫 번째 프로세싱 코어가 서브스트림 0을 디코딩하고, 두 번째 프로세싱 코어가 서브스트림 1을 디코딩하며, 세 번째 프로세싱 코어가 서브스트림 2를 디코딩한다.

첫 번째 프로세싱 코어는 0번째 LCU부터 5번째 LCU까지 디코딩한 후 18번째 LCU부터 23번째 LCU까지 디코딩한다. 두 번째 프로세싱 코어는 6번째 LCU부터 11번째 LCU까지 디코딩한 후 24번째 LCU부터 29번째 LCU까지 디코딩한다.

한편, 상술한 바와 같이, LCU들은 비트스트림 내에서 도 7과 같이 서브스트림별로 재정렬되는데, 디코더 혹은 프로세싱 코어의 개수가 서브스트림보다 적은 경우에는 디코딩 과정의 복잡도가 증가하거나 디코딩이 곤란해지는 문제가 발생할 수 있다.

도 9는 도 7의 예에 따른 비트스트림을 하나의 프로세싱 코어를 이용하여 디코딩하는 경우의 일 예를 개략적으로 설명하는 도면이다. 도 9의 예에서도, LCU들의 재정렬은 예컨대, 도 1의 재정렬부(125)에서 수행될 수 있다.

WPP 가 적용되어, 도 9와 같이 LCU들이 재정렬된 경우에 하나의 프로세싱 코어를 이용하여 디코딩을 수행하면, 프로세싱 코어는 우선 0번째 LCU부터 5번째 LCU까지 디코딩한다(①). 이어서 프로세싱 코어는 6번째 LCU부터 11번째 LCU까지 디코딩하고(②), 12번째 LCU부터 17번째 LCU까지 디코딩한다(③). 그리고 나서 다시 비트스트림의 앞쪽으로 이동하여 18번째 LCU부터 23번째 LCU까지 디코딩하고(④), 24번째 LCU부터 29번째 LCU까지 디코딩한다(⑤).

따라서, 싱글 프로세싱 코어를 사용하는 경우에는 비트스트림의 전후로 이동하면서 디코딩을 수행하게 된다.

또한, 이 과정에서 액세스 지점을 지시하는 엔트리 포인트는 도시된 바와 같이 각 서브스트림에서 첫 번째 LCU의 시점들(910, 920, 930)만을 지시한다. 즉, 프로세싱 코어는 전후로 움직이면서 6 개의 지점(0번째 LCU, 6번째 LCU, 12번째 LCU, 18 번째 LCU, 24번째 LCU)에 액세스해야 하지만, 액세스 지점을 지시하는 엔트리 포인트는 3 개만 전송되는 문제가 생긴다.

영상 서비스의 종류와 수요가 다양해지고 있는 상황에서 비디오 디코딩을 수행하는 디코딩 장치(디코더) 역시 다양한 종류의 장치가 이용될 수 있다. 다시 말하면, 동일한 비디오 스트림을 어떤 경우에는 복수의 프로세싱 코어를 이용하여 디코딩하고, 어떤 경우에는 단일 프로세싱 코어를 이용하여 디코딩하는 상황이 존재하게 된다.

따라서, 단일 프로세싱 코어를 이용하여 디코딩을 수행하는 경우에도 복잡도가 크게 증가하지 않고 디코딩이 곤란해지지 않도록 WPP를 위한 서브스트림을 구성할 필요가 있다.

이하, 본 발명에 따라서, WPP가 적용되는 경우에 서브스트림을 구성하는 방법을 도면을 참조하여 구체적으로 설명한다. 본 발명에 의하면, 단일 프로세싱 코어를 이용하는 경우에도 WPP 하에서 디코딩 복잡도가 증가하지 않고 효율적인 디코딩이 가능하다.

실시예 1 - WPP 가 적용되는 경우 서브스트림의 개수 최대화

병렬 디코딩에 있어서, 디코딩 처리의 단위가 되는 서브스트림의 개수를 최대화한다는 것은, 픽처 내에서 하나의 LCU 행(row)이 하나의 서브스트림이 된다는 것을 의미한다.

즉, 본 실시예에 의하면, 서브스트림의 개수가 LCU 행의 개수와 동일하도록 서브스트림이 구성된다. 서브스트림의 개수가 LCU 행의 개수와 동일하면, 비트스트림 내 LCU의 순서(order)는 래스터 스캔의 순서가 될 수 있다.

도 10은 본 발명에 따라서 LCU 행들이 각각 서브스트림이 되는 일 예를 개략적으로 설명하는 도면이다.

도 10에서는 픽처 내 소정의 영역(1000)이 5 개의 LCU 행으로 구성되는 경우를 예로서 설명한다.

이때, 서브스트림 0(1010)은 0 번째 LCU부터 5번째 LCU로 구성되는 첫 번째 LCU행이다. 서브스트림 1(1020)은 6 번째 LCU부터 11번째 LCU로 구성되는 두 번째 LCU 행이다. 서브스트림 2(1030)은 12 번째 LCU부터 17번째 LCU로 구성되는 세 번째 행이다. 서브스트림 3(1040)은 18 번째 LCU부터 13번째 LCU로 구성되는 네 번째 행이다. 서브스트림 4(1050)은 24 번째 LCU부터 29번째 LCU로 구성되는 다섯 번째 LCU 행이다.

따라서, 본 실시예에서는 각 LCU 열이 하나의 서브스트림이다.

한편, 도 10에서 픽처 내 소정의 영역(1000)은 전체 픽처일 수도 있고, 픽처 내 슬라이스, 슬라이스 시그먼트 혹은 타일일 수도 있다.

도 11은 본 발명에 따라서, 정렬된 비트스트림 내 LCU들을 개략적으로 설명하는 도면이다. 도 11에서는 도 10에 따른 서브스트림이 비트스트림 내에서 재정렬된 경우를 예로서 설명한다.

도 11의 예에서. WPP가 적용되면 비스스트림에서는 첫 번째 서브스트림, 두 번째 서브스트림, 세 번째 서브스트림, 네 번째 서브스트림, 다섯 번째 서브스트림의 순서로 정렬된다.

프로세싱 코어는 첫 번째 서브스트림을 디코딩하고(①), 두 번째 서브스트림을 디코딩하며(②), 이어서 세 번째 서브스트림을 디코딩하고(③), 네 번째 서브스트림을 디코딩하며(④), 마지막으로 다섯 번째 서브스트림을 디코딩한다(⑤).

즉, 본 발명에 따라서 하나의 LCU 행이 하나의 서브스트림이 되면, WPP가 적용되는 경우에, 디코딩 장치는 비트스트림을 순차적으로 디코딩할 수 있게 된다.

각 LCU 행이 하나의 서브스트림인 경우에, 비트스트림이 바이트 정렬되면, 각 LCU 행마다 즉, 각 서브스트림마다 바이트 정렬을 위한 패딩 비트가 추가될 수도 있다.

한편, 서브스트림의 개수를 최대로 하면, PPS(Picture Parameter Set)와 슬라이스 헤더에 소정의 변화를 가할 수도 있다.

PPS의 경우, WPP가 적용될 때 소정의 신택스 요소를 시그널링하여 서브스트림의 개수를 특정할 수 있었다. 예를 들어, num_substream_minus1 등과 같은 신택스 요소를 전송하여, 픽처 내 서브스트림의 개수를 특정할 수 있었다.

하지만, 서브스트림의 개수를 최대로 하는 경우에는 서브스트림의 개수를 지시하는 정보를 전송할 필요가 없다. 따라서, 서브스트림의 개수를 특정하는 신택스 요소를 전송하지 않을 수 있다. 이때, 서브스트림의 개수는 LCU 행의 개수에 의해 특정될 수도 있고, 엔트리 포인트의 개수에 의해 특정될 수도 있다.

예컨대, 픽처 내 서브스트림의 개수는 픽처 내 LCU 행의 개수에 의해 특정되거나 픽처 내 엔트리 포인트의 개수에 의해 특정될 수 있다. 이때, 엔트리 포인트의 개수는 엔트리 포인트 오프셋의 개수 + 1일 수 있으며, 엔트리 포인트 오프셋의 개수는 슬라이스 헤더에서 시그널링될 수 있다.

상술한 바와 같이, 슬라이스 헤더에서는 엔트리 포인트의 개수가 소정의 신택스 요소에 의해 시그널링될 수 있다. 슬라이스 내 서브스트림의 개수는 슬라이스 내 엔트리 포인트의 개수와 같을 수 있다. 혹은 슬라이스 시그먼트 내 서브스트림의 개수는 슬라이스 시그먼트 내 엔트리 포인트의 개수와 같을 수 있다.

이때, 엔트리 포인트의 개수를 직접 시그널링하지 않고, 엔트리 포인트 오프셋의 개수를 시그널링하여 엔트리 포인트의 개수를 특정할 수도 있다.

예컨대, 첫 번째 엔트리 포인트가 시그널링되고, 첫 번째 엔트리 포인트와 두 번째 엔트리 포인트 사이의 오프셋이 전송됨으로써 두 번째 엔트리 포인트가 특정될 수 있다. 이어서 세 번째 엔트리 포인트는 두 번째 엔트리 포인트 및 두 번째 엔트리 포인트와 세 번째 엔트리 포인트 사이의 오프셋에 의해 특정될 수 있다.

이처럼, n 번째 엔트리 포인트는 이전 엔트리 포인트와 오프셋에 의해 특정될 수 있는데, 오프셋의 개수에 의해 엔트리 포인트의 개수가 특정될 수 있다.

이때, 서브스트림의 개수를 최대로 하면, 엔트리 포인트의 개수가 서브스트림의 개수 즉 LCU 행의 개수와 동일하므로, 엔트리 포인트 오프셋의 개수를 특정하는 신택스 요소 즉, 엔트리 포인트의 개수를 지시하는 신택스 요소를 전송하지 않을 수도 있다.

혹은 엔트리 포인트의 개수를 특정할 수 있는 정보, 예컨대 엔트리 포인트 오프셋의 개수를 특정하는 신택스 요소를 통해 서브스트림의 개수(LCU 행의 개수)가 특정될 수 있다, 가령, 엔트리 포인트 오프셋의 개수를 특정하는 신택스 요소를 num_entry_point_offset라고 하면, num_entry_point_offset에 의해 특정되는 엔트리 포인트 오프셋의 개수가 n이라고 할 때, 엔트리 포인트의 개수 즉 서브스트림의 개수와 LCU 행의 개수는 n+1이 된다.

표 1은 엔트리 포인트 오프셋의 개수를 시그널링하는 슬라이스 헤더의 일 예를 나타낸 것이다.

표 1에서, tiles_or_entropy_coding_sync_idc의 값이 1이면 타일별로 병렬적인 디코딩을 적용하고, tiles_or_entropy_coding_sync_idc의 값이 2이면, WPP를 적용하며, tiles_or_entropy_coding_sync_idc의 값이 0이면 타일이나 WPP를 적용하지 않는다.

표 1에서 타일 또는 WPP가 적용되는 경우에는, 슬라이스 헤더 내 엔트리 포인트 오프셋의 개수를 전송할 수 있다. num _ entry _ point _ offsets는 슬라이스 헤더 내 엔트리 포인트 오프셋의 개수를 특정하며, 슬라이스 헤더 내 엔트리 포인트의 개수는 슬라이스 헤더 내 엔트리 포인트 오프셋의 개수보다 1 큰 값을 가진다.

구체적으로 num _ entry _ point _ offsets는 슬라이스 헤더 내 신택스 요소 entry_point_offset_minus1[ i ]의 개수를 특정한다. 슬라이스 헤더 내 num_entry_point_offsets가 없을 때는 num_entry_point_offsets의 값을 0으로 추정할 수 있다.

픽처 내에 타일이 하나밖에 없고 WPP가 적용되는 경우, num_entry_point_offsets은 0 이상 픽처 높이의 CTB 단위(즉, 픽처의 높이 방향으로 CTB의 개수, PicHeightInCtbs) -1 이하의 값을 가질 수 있다.

픽처 내에 타일이 2 이상 있고 WPP가 적용되지 않는 경우, num_entry_point_offsets은 0이상 타일 열의 개수 (num_tile_coulmn_minus1 + 1) * 타일 행의 개수 (num_tile_row_minus1 + 1) - 1 이하의 값을 가질 수 있다.

픽처 내에 타일이 2 이상 있고 WPP가 적용되는 경우, num_entry_point_offsets은 0이상 타일 열의 개수 (num_tile_coulmn_minus1 + 1) * 픽처 높이의 CTB 단위(즉, 픽처의 높이 방향으로 CTB의 개수, PicHeightInCtbs) - 1 이하의 값을 가질 수 있다.

이때, num_entry_point_offsets이 그 개수를 특정하는 신택스 요소entry_point_offset_minus1[ i ] + 1은 i번째 엔트리 포인트에 대한 오프셋을 의미한다. 슬라이스 시그먼트 헤더에 따른 슬라이스 시그먼트 데이터는, num_entry_point_offsets 이 슬라이스 시그먼트 내 엔트리 포인트 오프셋의 개수를 특정하는 경우에, num_entry_point_offsets+1의 서브스트림으로 구성될 수 있다.

슬라이스 시그먼트 내에서 서브스트림을 특정하는 서브스트림 인덱스는 0 이상 num_entry_point_offsets 이하의 값을 가질 수 있다.

슬라이스 시그먼트 데이터의 첫 번째 바이트를 바이트 0(byte 0)이라고 하면, 0 번째 서브스트림인 서브스트림 0은 슬라이스 시그먼트 데이터의 0 이상 entry_point_offset_minus1[ 0 ] 이하의 바이트들로 구성될 수 있다.

따라서, k 번째 서브스트림이 슬라이스 시그먼트 데이터의 iniByte[k] 이상 finByte[k] 이하의 바이트로 구성된다고 할 때, iniByte[k]와 finByte[k]는 수식 1과 같이 정의될 수 있다.

＜수식 1＞

intByte[ k ] = ∑ entry_point_offset_minus1[i] + 1

finByte[ k ] = iniByte[ k ] + entry_point_offset_minus1[ k ]

수식 1에서 entry_point_offset_minus1[i]는 i=0부터 i=k-1까지 합산된다.

WPP가 적용되는 경우에, 서브스트림의 개수(즉, num_entry_point_offsets + 1)은 슬라이스 시그먼트 내 LCU 행들의 개수와 동일하게 된다.

표 1에서는 설명의 편의를 위해, 간단히 슬라이스 헤더에서 엔트리 포인트 오프셋의 개수를 전송하는 것으로 설명하였으나, 앞서 설명한 바와 같이, 엔트리 포인트 오프셋의 개수가 전송되는 슬라이스 헤더는 슬라이스 시그먼트 헤더일 수도 있다.

또한, 표 1에서는 타일이 적용되는지와 WPP가 적용되는지를 하나의 지시자로 지시하였으나, 이와 달리 타일을 적용하여 병렬적인 디코딩을 할 것인지 WPP를 적용할 것인지를 각각의 신택스 요소로 전송할 수도 있다. 예컨대, WPP를 적용할 것인지를 플래그를 통해 전송할 수도 있다.

표 2는 표 1에서 설명한 엔트리 포인트 오프셋의 개수에 관한 정보를 슬라이스 시그먼트 헤더에서 전송하는 경우를 간단히 나타낸 것이다.

표 2에서, tiles_enabled_flag의 값이 1이면 타일을 적용할 수 있다는 것을 지시하며, entropy_coding_sync_enabled_flag의 값이 1이면 WPP가 적용된다는 것을 지시한다.

타일이 적용되거나 WPP가 적용되는 경우에는 슬라이스 시그먼트 헤더 내 엔트리 포인트 오프셋의 개수를 전송할 수 있다. num _ entry _ point _ offsets는 슬라이스 시그먼트 헤더 내 엔트리 포인트 오프셋의 개수를 특정하며, 슬라이스 시그먼트 헤더 내 엔트리 포인트의 개수는 슬라이스 시그먼트 헤더 내 엔트리 포인트 오프셋의 개수보다 1 큰 값을 가진다.

서브스트림의 개수를 최대화하는 경우, 즉 서브스트림의 개수를 LCU 행의 개수와 동일하게 하는 경우 혹은 서브스트림의 개수를 엔트리 포인트의 개수와 동일하게 하는 경우에는, 슬라이스 헤더 혹은 슬라이스 시그먼트 헤더에서 전송되는 엔트리 포인트의 개수(엔트리 포인트 오프셋의 개수)를 통해 서브스트림의 개수 혹은 LCU 행의 개수를 특정할 수 있다.

실시예 2 - LCU 가 재정렬되는지를 지시하는 정보의 전송

실시예 2에서는, LCU가 재정렬되는지를 지시하는 정보가 인코딩 장치로부터 디코딩 장치로 시그널링되게 한다. 예컨대, ctb_reordering_flag를 통해 LCU(CTU)가 재정렬되는지를 지시할 수 있다.

ctb_reordering_flag의 값이 거짓(false)인 경우에, 서브스트림의 개수를 지시하는 정보(예컨대, num_substream_minus1)가 PPS에 존재하지 않는다. 슬라이스 내 서브스트림의 개수는 엔트리 포인트의 개수와 동일하다. 즉, num_substream_minus1가 지시하려던 값은 엔트리 포인트 오프셋의 값 즉, num_entry_point_offset에 의해 지시되는 값과 동일하다고 추정하게 된다.

ctb_reordering_flag의 값이 참(true)이면, 서브스트림의 개수를 지시하는 정보(예컨대, num_substream_minus1)가 PPS에 존재한다.

LCU가 재정렬되는지에 상관없이 단일 WPP 서브스트림으로 코딩된 픽처와 멀티 WPP 서브스트림으로 코딩된 픽처 모두 단일 프로세싱 코어 또는 멀티 프로세싱 코어를 이용하여 디코딩 될 수 있다. 다만, 디코딩의 용이성에 있어서 차이가 있을 수 있다.

예를 들어, ctb_reordering_flag의 값이 거짓이면, 비트스트림의 디코딩에 단일 프로세싱 코어를 사용하는 것이 좋다고 판단할 있다. 또한 ctb_reordering_flag의 값이 참이면, 비트스트림의 디코딩에 멀티 프로세싱 코어를 사용하는 것이 좋다고 판단할 수 있다.

표 3은 본 발명에 따라서 변경된 PPS의 일 예를 나타낸 것이다.

표 3에서 tiles_or_entropy_coding_sync_idc의 값이 1이면 타일을 적용하고, tiles_or_entropy_coding_sync_idc의 값이 2이면 WPP를 적용한다는 것을 지시한다.

ctb _ reordering _ flag 의 값이 1이면 서브스트림의 개수를 지시하는 신택스 요소(예컨대, num_substreams_minus1)가 존재하고, 비트스트림 내에서 코딩된 트리 블록(coded treeblock)은 래스터 스캔 순서(raster scan order)대로 정렬되어 있지 않을 수 있다는 것을 지시한다. ctb_reordering_flag의 값이 0이면, 서브스트림의 개수를 지시하는 신택스 요소(예컨대, num_substreams_minus1)가 존재하지 않고, 비트스트림 내에서 코딩된 트리 블록(coded treeblock)은 래스터 스캔 순서(raster scan order)대로 정렬되어 있다는 것을 지시한다.

ctb_reordering_flag의 값이 0일 때, 슬라이스 내 서브스트림의 개수는 엔트리 포인트들의 개수와 동일하고, 엔트리 포인트의 개수는 엔트리 포인트 오프셋의 개수에 의해 특정될 수 있다. 예컨대, 엔트리 포인트의 개수는 엔트리 포인트 오프셋의 개수보다 1 큰 값일 수 있다.

이와 함께, 슬라이스 헤더에서 엔트리 포인트 오프셋의 개수를 지시하는 신택스 요소 num_entry_point_offset에도 변화를 줄 수 있다.

예컨대, 슬라이스 헤더에서 전송되는 num _ entry _ point _ offset은 슬라이스 헤더 내 엔트리 포인트 오프셋들의 개수를 특정하는데, 타일을 적용하는 경우(tiles_or_entropy_coding_sync_idc == 1)에 엔트리 포인트 오프셋의 개수는 0 이상 타일 열의 개수 (num_tile_coulmn_minus1 + 1) * 타일 행의 개수 (num_tile_row_minus1 + 1) - 1 이하의 값을 가질 수 있다.

또한, WPP를 적용(tiles_or_entropy_coding_sync_idc == 2)하고, ctb_reordering_flag의 값이 1이면 엔트리 포인트 오프셋의 개수는 0 이상 서브스트림의 개수 - 1 (num_substreams_minus1) 이하의 값을 가지도록 할 수 있다.

또한, WPP를 적용(tiles_or_entropy_coding_sync_idc == 2)하고, ctb_reordering_flag의 값이 0이면 엔트리 포인트 오프셋의 개수는 0 이상 픽처의 LCU단위 높이 - 1 (PicHeightInCtbs - 1) 이하의 값을 가질 수 있다.

num_entry_point_offset이 존재하지 않는 경우(not present)에, num_entry_point_offset의 값은 0으로 추정될 수 있다.

도 12는 본 발명에 따른 비디오 인코딩 방법을 개략적으로 설명하는 순서도이다.

도 12를 참조하면, 인코딩 장치는 입력된 비디오를 인코딩 한다(S1210). 인코딩 장치가 수행하는 비디오 인코딩의 구체적인 방법은 도 1에서 설명한 바와 같다. 이때, 인코딩 장치는 LCU(Largest Coding Unit)들의 행인 서브스트림들을 병렬적으로 인코딩할 수 있다.

WPP가 적용되는 경우에는 n 번째(n은 정수) 서브스트림에 대하여 인코딩이 진행된 후, n 번째 째 서브스트림의 두 번째 CTU 혹은 LCU에 대한 인코딩이 완료된 후, n+1 번째 서브스트림에 대한 인코딩이 진행될 수 있다.

예컨대, 엔트로피 인코딩의 경우, n번째 서브스트림의 2 번째 LCU에 대한 엔트로피 인코딩이 완료되면, n+1번째 서브스트림의 1 번째 LCU는, n번째 서브스트림의 2번째 LCU에 대한 콘텍스트 정보를 기반으로 엔트로피 인코딩될 수 있다.

이때, 픽처 내에서, 슬라이스 내에서 혹은 슬라이스 시그먼트 내에서 서브스트림들의 개수는 LCU행들의 개수와 동일하다.

또한, 픽처 내에서, 슬라이스 내에서 혹은 슬라이스 시그먼트 내에서 서브스트림들의 개수는 엔트리 포인트들의 개수와 동일할 수 있다. 이때, 엔트리 포인트들의 개수는 엔트리 포인트 오프셋들의 개수에 의해 특정될 수 있다. 예컨대, 엔트리 포인트들의 개수는 엔트리 포인트 오프셋들의 개수보다 1 큰 값을 가질 수 있다.

인코딩 장치는 인코딩된 비디오 정보를 비트스트림으로 시그널링할 수 있다(S1220). 이때, 비트스트림은 엔트리 포인트 오프셋의 개수를 특정하는 정보를 포함할 수 있다. 엔트리 포인트 오프셋의 개수를 특정하는 정보는 PPS에서 전송될 수도 있고, 슬라이스 헤도 혹은 슬라이스 시그먼트 헤더에서 전송될 수도 있다.

서브스트림의 개수가 최대화된 경우에, 각 서브스트림의 마지막에는 바이트 정렬을 위한 비트가 추가되어, 서브스트림 단위에서 바이트 정렬되도록 할 수도 있다.

한편, 서브스트림의 개수를 최대화하는 경우에, 각 서브스트림의 액세스 지점은 엔트리 포인트에 의해 특정될 수 있다. 예컨대, 두 번째 서브스트림의 액세스 지점은 첫 번째 엔트리 포인트에 엔트리 포인트 오프셋이 더해진 지점이 될 수 있다.

도 13은 본 발명에 따른 비디오 디코딩 방법을 개략적으로 설명하는 순서도이다.

도 13을 참조하면, 디코딩 장치는 비트스트림을 통해서 비디오 정보를 수신한다(S1310). 비트스트림은 LCU(Largest Coding Unit)들의 행인 서브스트림들을 포함한다. 또한, 비트스트림은 엔트리 포인트 오프셋의 개수를 특정하는 정보를 포함할 수 있다. 엔트리 포인트 오프셋의 개수를 특정하는 정보는 PPS에서 전송될 수도 있고, 슬라이스 헤도 혹은 슬라이스 시그먼트 헤더에서 전송될 수도 있다.

픽처 내에서, 슬라이스 내에서 혹은 슬라이스 시그먼트 내에서 서브스트림들의 개수는 LCU행들의 개수와 동일하다.

한편, 서브스트림의 개수가 최대화된 경우에, 각 서브스트림의 마지막에는 바이트 정렬을 위한 비트가 추가되어, 서브스트림 단위에서 바이트 정렬되도록 할 수도 있다.

디코딩 장치는 수신한 비디오 정보를 디코딩할 수 있다(S1320). 이때, 디코딩 장치는 타일별로 혹은 서브스트림별로 병렬적인 디코딩을 수행할 수 있다.

예컨대, WPP가 적용되는 경우에는 n 번째(n은 정수) 서브스트림에 대하여 디코딩이 진행된 후, n 번째 째 서브스트림의 두 번째 CTU 혹은 LCU에 대한 디코딩이 완료된 후, n+1 번째 서브스트림에 대한 디코딩이 진행될 수 있다.

예컨대, 엔트로피 디코딩의 경우, n번째 서브스트림의 2 번째 LCU에 대한 엔트로피 디코딩이 완료되면, 관련된 콘텍스트 정보가 저장되며, n+1번째 서브스트림의 1 번째 LCU는, n번째 서브스트림의 2번째 LCU에 대한 콘텍스트 정보를 기반으로 엔트로피 디코딩될 수 있다.

서브스트림의 개수를 최대화하는 경우에, 각 서브스트림의 액세스 지점은 엔트리 포인트에 의해 특정될 수 있다. 예컨대, 두 번째 서브스트림의 액세스 지점은 첫 번째 엔트리 포인트에 엔트리 포인트 오프셋이 더해진 지점이 될 수 있다.

상술한 예시적인 시스템에서, 방법들은 일련의 단계 또는 블록으로써 순서도를 기초로 설명되고 있지만, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 상술한 실시예들은 다양한 양태의 예시들을 포함한다. 따라서, 본 발명은 이하의 특허청구범위 내에 속하는 모든 다른 교체, 수정 및 변경을 포함한다고 할 것이다.

지금까지 본 발명에 관한 설명에서 일 구성 요소가 타 구성 요소에 "연결되어" 있다거나 "접속되어"있다고 언급된 때에는, 상기 일 다른 구성 요소가 상기 타 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 상기 두 구성 요소 사이에 다른 구성 요소가 존재할 수도 있다고 이해되어야 한다. 반면에, 일 구성 요소가 타 구성 요소에 "직접 연결되어"있다거나 "직접 접속되어"있다고 언급된 때에는, 두 구성 요소 사이에 다른 구성요소가 존재하지 않는 것으로 이해되어야 한다.

Claims

LCU(Largest Coding Unit)들의 행인 서브스트림들을 포함하는 비트스트림을 수신하는 단계; 및
상기 서브스트림들을 병렬적으로 디코딩하는 단계를 포함하며,
상기 서브스트림들의 개수는 상기 LCU들의 행들의 개수와 동일한 것을 특징으로 하는 비디오 디코딩 방법.
제1항에 있어서, 상기 디코딩 단계에서는,
이전 서브스트림의 두 번째 LCU에 대한 디코딩이 완료된 후, 상기 서브스트림의 두 번째 LCU에 대한 콘텍스트 정보에 기반하여 현재 서브스트림의 첫 번째 LCU에 대한 디코딩을 개시하는 것을 특징으로 하는 비디오 디코딩 방법.
제1항에 있어서, 상기 서브스트림들의 개수는 신택스 요소에 의해 지시되지 않고 엔트리 포인트 오프셋들의 개수에 의해 특정되는 것을 특징으로 하는 비디오 디코딩 방법.
제3항에 있어서, 상기 서브스트림들의 개수는 상기 엔트리 포인트 오프셋들의 개수보다 하나 더 많은 것을 특징으로 하는 비디오 디코딩 방법.
제1항에 있어서, 하나의 서브스트림은 하나의 LCU 행에 대응하는 것을 특징으로 하는 비디오 디코딩 방법.
제1항에 있어서, 상기 비트스트림은 바이트 단위 정렬을 위한 비트를 포함하며,
상기 바이트 단위 정렬을 위한 비트는 상기 서브스트림들 각각의 마지막에 추가되어, 상기 서브스트림들을 각각 바이트 단위로 정렬시키는 것을 특징으로 하는 비디오 디코딩 방법.
제1항에 있어서, 상기 비트스트림은 상기 서브스트림 LCU들이 재배열되는지를 지시하는 정보를 포함하는 것을 특징으로 하는 비디오 디코딩 방법.
LCU(Largest Coding Unit)들의 행인 서브스트림들을 병렬적으로 인코딩하는 단계; 및
상기 인코딩된 서브스트림들을 포함하는 비트스트림을 전송하는 단계를 포함하며,
상기 서브스트림들의 개수는 상기 LCU들의 행들의 개수와 동일한 것을 특징으로 하는 비디오 인코딩 방법.
제8항에 있어서, 상기 인코딩 단계에서는,
이전 서브스트림의 두 번째 LCU에 대한 인코딩이 완료된 후, 상기 서브스트림의 두 번째 LCU에 대한 콘텍스트 정보에 기반하여 현재 서브스트림의 첫 번째 LCU에 대한 인코딩을 개시하는 것을 특징으로 하는 비디오 인코딩 방법.
제8항에 있어서, 상기 서브스트림들의 개수는 신택스 요소에 의해 특정되지 않고 엔트리 포인트 오프셋들의 개수에 의해 특정되는 것을 특징으로 하는 비디오 인코딩 방법.
제10항에 있어서, 상기 서브스트림들의 개수는 상기 엔트리 포인트 오프셋들의 개수보다 하나 더 많은 것을 특징으로 하는 비디오 인코딩 방법.
제8항에 있어서, 하나의 서브스트림은 하나의 LCU 행에 대응하는 것을 특징으로 하는 비디오 디코딩 방법.
제8항에 있어서, 상기 비트스트림은 바이트 단위 정렬을 위한 비트를 포함하며,
상기 바이트 단위 정렬을 위한 비트는 상기 서브스트림들 각각의 마지막에 추가되어, 상기 서브스트림들을 각각 바이트 단위로 정렬시키는 것을 특징으로 하는 비디오 인코딩 방법.
제8항에 있어서, 상기 비트스트림은 상기 서브스트림 LCU들이 재배열되는지를 지시하는 정보를 포함하는 것을 특징으로 하는 비디오 인코딩 방법.
LCU(Largest Coding Unit)들의 행인 서브스트림들을 포함하는 비트스트림을 병렬적으로 디코딩하며,
상기 서브스트림들의 개수는 엔트리 포인트들의 개수와 동일한 것을 특징으로 하는 비디오 디코딩 장치.
제15항에 있어서, 상기 비트스트림 내 서브스트림들에 대하여,
이전 서브스트림의 두 번째 LCU에 대한 디코딩이 완료된 후, 상기 서브스트림의 두 번째 LCU에 대한 콘텍스트 정보에 기반하여 현재 서브스트림의 첫 번째 LCU에 대한 디코딩을 개시하는 것을 특징으로 하는 비디오 디코딩 장치.
LCU(Largest Coding Unit)들의 행인 서브스트림들을 병렬적으로 인코딩하고 상기 인코딩된 서브스트림들을 포함하는 비트스트림을 전송하며,
상기 서브스트림들의 개수는 엔트리 포인트들의 개수와 동일한 것을 특징으로 하는 비디오 인코딩 장치.
제17항에 있어서, 상기 비트스트림에 포함되되는 서브스트림에 대한 인코딩은,
이전 서브스트림의 두 번째 LCU에 대한 인코딩이 완료된 후, 상기 서브스트림의 두 번째 LCU에 대한 콘텍스트 정보에 기반하여 현재 서브스트림의 첫 번째 LCU에 대한 인코딩을 개시하는 것을 특징으로 하는 비디오 인코딩 장치.