WO2018194190A1

WO2018194190A1 - 비디오 신호를 엔트로피 인코딩, 디코딩하는 방법 및 장치

Info

Publication number: WO2018194190A1
Application number: PCT/KR2017/004141
Authority: WO
Inventors: 구문모
Original assignee: 엘지전자(주)
Priority date: 2017-04-18
Filing date: 2017-04-18
Publication date: 2018-10-25

Abstract

본 발명은, 비디오 신호에 대해 엔트로피 디코딩을 수행하는 방법에 있어서, 복수개의 빈(bin)들을 포함하는 적어도 하나의 비트스트림을 수신하는 단계; 및 상기 비트스트림에 대해 엔트로피 디코딩을 수행하는 단계를 포함하되, 상기 엔트로피 디코딩을 수행하는 단계는, 이진 산술 디코딩을 위한 초기화를 수행하는 단계; 현재 확률 상태에 기초하여 기정의된 다중 입력 확률 상태 천이 테이블로부터 다음 확률 상태를 확인하는 단계, 여기서 상기 기정의된 다중 입력 확률 상태 천이 테이블은 상기 복수개의 빈(bin)들과 상기 현재 확률 상태 간의 모든 가능한 조합에 대한 다음 확률 상태 값들을 나타냄; 상기 현재 확률 상태에 기초하여 기정의된 다중 입력 구간 길이 테이블로부터 새로운 구간 길이를 산출하는 단계, 여기서 상기 기정의된 다중 입력 구간 길이 테이블은 구간 길이와 확률의 곱을 근사화하기 위한 테이블을 나타냄; 및 상기 새로운 구간 길이에 기초하여 상기 복수개의 빈(bin)들의 값을 결정하는 단계를 포함하는 것을 특징으로 하는 방법을 제공한다.

Description

비디오 신호를 엔트로피 인코딩, 디코딩하는 방법 및 장치

본 발명은 비디오 신호를 엔트로피 인코딩, 디코딩하는 방법 및 장치에 관한 것이다. 보다 구체적으로, 복수개의 빈(bin)들을 동시에 처리하기 위한 CABAC(Context-based Adaptive Binary Arithmetic Coding) 확률 업데이트를 수행하는 방법에 관한 것이다.

엔트로피 코딩은 부호화 과정을 통해 결정된 신택스 엘리먼트들을 무손실 압축하여 RBSP(Raw Byte Sequence Payload)를 생성하는 과정이다. 엔트로피 코딩은 신택스의 통계를 이용하여 자주 발생하는 신택스에 대해서는 짧은 비트를 할당하고, 그렇지 않은 신택스에는 긴 비트를 할당하여 신택스 엘리먼트들을 간결한 데이터로 표현한다.

그 중, CABAC(Context-based Adaptive Binary Arithmetic Coding)은 이진 산술 코딩을 수행하는 과정에서 신택스의 컨텍스트와 이전에 발생한 심볼에 기초하여 적응적으로 업데이트된 컨텍스트 모델을 사용한다. 그러나, 산술 코딩 알고리즘(arithmetic coding algorithm) 등에 내재된 데이터 의존성으로 인해 엔트로피 코딩 부분이 전체 성능의 병목이 될 가능성이 크다.

또한, 많은 비트량이 발생하는 프레임들이 연속되는 경우 실시간 처리를 위해 수개의 프레임을 버퍼링해야 하므로 시스템 구현상 상당한 크기의 버퍼 메모리가 요구될 수 있다.

따라서, 엔트로피 코딩의 쓰루풋(throughput)을 향상시키고, 나아가 복수개의 빈(bin) 들을 동시에 코딩할 때 적용될 수 있는 효율적인 확률 갱신 방법이 필요하다.

본 발명은, 엔트로피 코딩의 쓰루풋(throughput)을 향상시키기 위한 방법을 제안하고자 한다.

본 발명은, 복수개의 빈(bin) 들을 단일 또는 다수의 비트스트림으로 코딩하는 구조를 제안하고자 한다.

본 발명은, 복수개의 빈(bin) 들을 동시에 코딩할 때 적용될 수 있는 효율적인 확률 갱신 방법을 제안하고자 한다.

본 발명은, 엔트로피 코딩의 쓰루풋(throughput)을 향상시키기 위한 방법을 제공한다.

본 발명은, 복수개의 빈(bin) 들에 대한 확률 상태 천이 테이블(probability state transition table) 또는 레인지 길이 테이블(range length table) 중 적어도 하나에 기초하여 확률 갱신을 수행하는 방법을 제공한다.

본 발명은, 모든 가능한 입력 값들에 대한 구간 정보 또는 구간 오프셋 값 중 적어도 하나에 기초하여 복수개의 빈(bin) 값들을 디코딩하는 방법을 제공한다.

본 발명은 복수개의 빈(bin) 들을 동시에 코딩할 때 적용될 수 있는 효율적인 확률 갱신 방법을 제공함으로써 엔트로피 코딩의 쓰루풋(throughput)을 향상시킬 수 있다.

또한, 본 발명은 복수개의 빈(bin) 들에 대한 코딩 결과를 확률 갱신에 한꺼번에 반영할 때 테이블 룩업(table look-up)을 통한 근사를 한 번만 적용할 수 있도록 하고, 보다 정확한 레인지 길이(range length) 값을 구할 수 있는 방법을 제공함으로써, 엔트로피 부호화에 대한 성능을 향상시킬 수 있다.

도 1은 본 발명이 적용되는 실시예로서, 비디오 신호의 인코딩이 수행되는 인코더의 개략적인 블록도를 나타낸다.

도 2는 본 발명이 적용되는 실시예로서, 비디오 신호의 디코딩이 수행되는 디코더의 개략적인 블록도를 나타낸다.

도 3은 본 발명이 적용되는 실시예로서, CABAC(Context-based Adaptive Binary Arithmetic Coding)이 적용되는 엔트로피 인코딩부의 개략적인 블록도를 나타낸다.

도 4는 본 발명이 적용되는 실시예로서, CABAC(Context-based Adaptive Binary Arithmetic Coding)이 적용되는 엔트로피 디코딩부의 개략적인 블록도를 나타낸다.

도 5는 본 발명이 적용되는 실시예로서, CABAC(Context-based Adaptive Binary Arithmetic Coding)에 따라 수행되는 인코딩 흐름도를 나타낸다.

도 6은 본 발명이 적용되는 실시예로서, CABAC(Context-based Adaptive Binary Arithmetic Coding)에 따라 수행되는 디코딩 흐름도를 나타낸다.

도 7은 본 발명이 적용되는 실시예로서, 복수개의 빈(bin)들을 동시에 처리하는 과정을 설명하기 위한 도면이다.

도 8은 본 발명이 적용되는 실시예로서, 2개의 빈(bin)들이 동시에 처리되는 경우 입력 조합에 따른 테이블에 기초하여 다음 상태(next state)를 출력하는 과정을 설명하기 위한 확률 업데이트부의 개략적인 블록도를 나타낸다.

도 9 내지 도 10은 본 발명이 적용되는 실시예들로서, 레인지 길이 테이블 및 확률 천이 테이블을 이용하여 이진 심볼을 코딩하는 것을 설명하기 위한 도면이다.

도 11은 본 발명이 적용되는 실시예로서, 입력 코딩 데이터에 대한 테이블 룩업(table look-up) 한번으로 새로운 레인지 길이(range length)를 획득하는 과정을 설명하기 위한 도면이다.

도 12는 본 발명이 적용되는 실시예로서, 복수개의 빈(bin)들이 동일 컨텍스트를 참조하는지 여부에 기초하여 확률 상태 천이 테이블에 접근하는 방법을 설명하기 위한 도면이다.

도 13은 본 발명이 적용되는 실시예로서, 다중 입력 확률 상태 천이 테이블에 기초하여 인코딩을 수행하는 과정을 나타내는 흐름도이다.

도 14는 본 발명이 적용되는 실시예로서, 다중 입력 확률 상태 천이 테이블에 기초하여 디코딩을 수행하는 과정을 나타내는 흐름도이다.

도 15는 본 발명이 적용되는 실시예로서, LPS(Least Probable Symbol) 확률 테이블(probability table)을 나타낸다.

도 16은 본 발명이 적용되는 실시예로서, 2개의 입력 빈(bin)들에 대한 확률 상태 천이 테이블(probability state transition table)을 나타낸다.

도 17은 본 발명이 적용되는 실시예로서, 상기 도 16의 확률 상태 천이 과정을 고려한 모든 확률 상태 테이블을 나타낸다.

도 18은 본 발명이 적용되는 실시예로서, 상기 도 17의 확률 값들을 4개의 레인지의 중간값들에 적용한 테이블을 나타낸다.

도 19는 본 발명이 적용되는 실시예로서, 구간 오프셋 값과 비교하여 빈(bin) 값을 디코딩하기 위한 테이블을 나타낸다.

도 20은 본 발명이 적용되는 실시예로서, 입력 빈(bin)들의 구성에 따른 구간 분할을 설명하기 위한 도면이다.

본 발명은, 비디오 신호에 대해 엔트로피 인코딩을 수행하는 방법에 있어서, 복수개의 빈(bin)들을 포함하는 적어도 하나의 비트스트림을 수신하는 단계; 및 상기 복수개의 빈들에 대응되는 컨텍스트 정보에 기초하여 확률 업데이트를 수행하는 단계;를 포함하되, 상기 확률 업데이트를 수행하는 단계는, 현재 확률 상태에 기초하여 기정의된 다중 입력 확률 상태 천이 테이블로부터 다음 확률 상태를 확인하는 단계, 여기서 상기 기정의된 다중 입력 확률 상태 천이 테이블은 상기 복수개의 빈(bin)들과 상기 현재 확률 상태 간의 모든 가능한 조합에 대한 다음 확률 상태 값들을 나타냄; 상기 현재 확률 상태에 기초하여 기정의된 다중 입력 구간 길이 테이블로부터 새로운 구간 길이를 산출하는 단계, 여기서 상기 기정의된 다중 입력 구간 길이 테이블은 구간 길이와 확률의 곱을 근사화하기 위한 테이블을 나타냄; 및 상기 새로운 구간 길이에 대해 재정규화를 수행하는 단계를 포함하는 것을 특징으로 하는 방법을 제공한다.

본 발명에서, 상기 복수개의 빈(bin)들은 동시에 처리되는 것을 특징으로 한다.

본 발명에서, 상기 복수개의 빈(bin)들이 하나의 비트스트림에 포함되어 있는 경우, 상기 컨텍스트 정보는 공통된 하나의 컨텍스트 셋인 것을 특징으로 한다.

본 발명에서, 상기 복수개의 빈(bin)들이 복수개의 비트스트림에 포함되어 있는 경우, 상기 컨텍스트 정보는 적어도 하나의 컨텍스트 셋을 포함하고, 상기 적어도 하나의 컨텍스트 셋은 각각 상기 복수개의 비트스트림에 대응되는 것을 특징으로 한다.

본 발명에서, 상기 기정의된 다중 입력 구간 길이 테이블은 상기 현재 확률 상태의 확률값과 레인지 구간의 중간값을 곱한 결과 값에 기초하여 정의된 것을 특징으로 한다.

본 발명에서, 확률 업데이트가 상기 복수개의 빈들에 대응되는 컨텍스트 정보에 기초하여 수행되고, 상기 복수개의 빈(bin)들이 하나의 비트스트림에 포함되어 있는 경우, 상기 컨텍스트 정보는 공통된 하나의 컨텍스트 셋인 것을 특징으로 한다.

본 발명에서, 확률 업데이트가 상기 복수개의 빈들에 대응되는 컨텍스트 정보에 기초하여 수행되고, 상기 복수개의 빈(bin)들이 복수개의 비트스트림에 포함되어 있는 경우, 상기 컨텍스트 정보는 적어도 하나의 컨텍스트 셋을 포함하고, 상기 적어도 하나의 컨텍스트 셋은 각각 상기 복수개의 비트스트림에 대응되는 것을 특징으로 한다.

본 발명은, 비디오 신호에 대해 엔트로피 인코딩을 수행하는 장치에 있어서, 복수개의 빈(bin)들을 포함하는 적어도 하나의 비트스트림을 수신하는 비트스트림 수신부; 및 상기 복수개의 빈들에 대응되는 컨텍스트 정보에 기초하여 확률 업데이트를 수행하는 엔트로피 인코딩부;를 포함하되, 상기 엔트로피 인코딩부는, 현재 확률 상태에 기초하여 기정의된 다중 입력 확률 상태 천이 테이블로부터 다음 확률 상태를 확인하고, 상기 현재 확률 상태에 기초하여 기정의된 다중 입력 구간 길이 테이블로부터 새로운 구간 길이를 산출하는 확률 업데이트부; 및 상기 새로운 구간 길이에 대해 재정규화를 수행하는 재정규화부를 포함하고, 상기 기정의된 다중 입력 확률 상태 천이 테이블은 상기 복수개의 빈(bin)들과 상기 현재 확률 상태 간의 모든 가능한 조합에 대한 다음 확률 상태 값들을 나타내고, 상기 기정의된 다중 입력 구간 길이 테이블은 구간 길이와 확률의 곱을 근사화하기 위한 테이블을 나타내는 것을 특징으로 하는 장치를 제공한다.

본 발명에서, 상기 복수개의 빈(bin)들은 동시에 처리되고, 상기 복수개의 빈(bin)들이 하나의 비트스트림에 포함되어 있는 경우, 상기 컨텍스트 정보는 공통된 하나의 컨텍스트 셋을 나타내고, 상기 복수개의 빈(bin)들이 복수개의 비트스트림에 포함되어 있는 경우, 상기 컨텍스트 정보는 적어도 하나의 컨텍스트 셋을 포함하고, 상기 적어도 하나의 컨텍스트 셋은 각각 상기 복수개의 비트스트림에 대응되는 것을 특징으로 한다.

본 발명은, 비디오 신호에 대해 엔트로피 디코딩을 수행하는 장치에 있어서, 복수개의 빈(bin)들을 포함하는 적어도 하나의 비트스트림을 수신하는 비트스트림 수신부; 및 상기 비트스트림에 대해 엔트로피 디코딩을 수행하는 엔트로피 디코딩부를 포함하되, 상기 엔트로피 디코딩부는, 이진 산술 디코딩을 위한 초기화를 수행하는 초기화부; 현재 확률 상태에 기초하여 기정의된 다중 입력 확률 상태 천이 테이블로부터 다음 확률 상태를 확인하고, 상기 현재 확률 상태에 기초하여 기정의된 다중 입력 구간 길이 테이블로부터 새로운 구간 길이를 산출하고, 상기 새로운 구간 길이에 기초하여 상기 복수개의 빈(bin)들의 값을 결정하는 확률 업데이트부를 포함하고, 상기 기정의된 다중 입력 확률 상태 천이 테이블은 상기 복수개의 빈(bin)들과 상기 현재 확률 상태 간의 모든 가능한 조합에 대한 다음 확률 상태 값들을 나타내고, 상기 기정의된 다중 입력 구간 길이 테이블은 구간 길이와 확률의 곱을 근사화하기 위한 테이블을 나타내는 것을 특징으로 하는 장치를 제공한다.

이하, 본 발명의 실시예들에 따른 예시적인 엘리먼트들 및 동작들이 첨부된 도면들을 참조하여 기술된다. 그러나 상기 도면들을 참조하여 기술되는 본 발명의 상기 엘리먼트들 및 동작들은 단지 실시예들로서 제공되는 것이고, 이것에 의해서 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 제한되지는 않는다는 것을 밝혀두고자 한다.

또한, 본 발명에서 사용되는 용어는 가능한 한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 특정한 경우는 출원인이 임의로 선정한 용어를 사용하여 설명한다. 그러한 경우에는 해당 부분의 상세 설명에서 그 의미가 명확하게 기재된다. 따라서, 본 명세서의 설명에서 사용된 용어의 명칭 만에 기초하여 본 발명이 단순 해석되어서는 안 될 것이며 그 해당 용어의 의미까지 파악하여 해석되어야 함을 밝혀두고자 한다.

또한, 본 발명에서 사용되는 용어들은 발명을 설명하기 위해 선택된 일반적인 용어들이나, 유사한 의미를 갖는 다른 용어가 있는 경우 보다 적절한 해석을 위해 대체 가능할 것이다. 예를 들어, 신호, 데이터, 샘플, 픽쳐, 프레임, 블록은 각 코딩 과정에서 적절하게 대체되어 해석될 수 있을 것이다.

또한, 본 명세서에서 설명되는 실시예들의 개념과 방법들은, 다른 실시예들에도 적용가능하며, 본 명세서에서 모두 명시하여 기재하지 않더라도 본 발명의 기술적 사상 범위 내에서 각 실시예들의 조합도 적용가능할 것이다.

도 1을 참조하면, 인코더(100)는 영상 분할부(110), 변환부(120), 양자화부(130), 역양자화부(140), 역변환부(150), 필터링부(160), 복호 픽쳐 버퍼(DPB: Decoded Picture Buffer)(170), 인터 예측부(180), 인트라 예측부(185) 및 엔트로피 인코딩부(190)를 포함하여 구성될 수 있다.

영상 분할부(110)는 인코더(100)에 입력된 입력 영상(또는, 픽쳐, 프레임)를 하나 이상의 처리 유닛으로 분할할 수 있다. 예를 들어, 상기 처리 유닛은 코딩 트리 유닛(CTU: Coding Tree Unit), 코딩 유닛(CU: Coding Unit), 예측 유닛(PU: Prediction Unit) 또는 변환 유닛(TU: Transform Unit)일 수 있다.

인코더(100)는 입력 영상 신호에서 인터 예측부(180) 또는 인트라 예측부(185)로부터 출력된 예측 신호를 감산하여 잔여 신호(residual signal)를 생성할 수 있고, 생성된 잔여 신호는 변환부(120)로 전송된다.

변환부(120)는 잔여 신호에 변환 기법을 적용하여 변환 계수(transform coefficient)를 생성할 수 있다. 예를 들어, 변환 기법은 DCT(Discrete Cosine Transform), DST(Discrete Sine Transform), KLT(Karhunen-Loeve Transform), GBT(Graph-Based Transform), 또는 CNT(Conditionally Non-linear Transform) 중 적어도 하나를 포함할 수 있다. 여기서, GBT는 픽셀 간의 관계 정보를 그래프로 표현한다고 할 때 이 그래프로부터 얻어진 변환을 의미한다. CNT는 이전에 복원된 모든 픽셀(all previously reconstructed pixel)를 이용하여 예측 신호를 생성하고 그에 기초하여 획득되는 변환을 의미한다. 또한, 변환 과정은 정사각형의 동일한 크기를 갖는 픽셀 블록에 적용될 수도 있고, 정사각형이 아닌 가변 크기의 블록에도 적용될 수 있다.

양자화부(130)는 변환 계수를 양자화하여 엔트로피 인코딩부(190)로 전송하고, 엔트로피 인코딩부(190)는 양자화된 신호를 엔트로피 코딩하여 비트스트림으로 출력할 수 있다.

양자화부(130)로부터 출력된 양자화된 신호는 예측 신호를 생성하기 위해 이용될 수 있다. 예를 들어, 양자화된 신호는 루프 내의 역양자화부(140) 및 역변환부(150)를 통해 역양자화 및 역변환을 적용함으로써 잔여 신호를 복원할 수 있다. 복원된 잔여 신호를 인터 예측부(180) 또는 인트라 예측부(185)로부터 출력된 예측 신호에 더함으로써 복원 신호가 생성될 수 있다.

필터링부(160)는 복원 신호에 필터링을 적용하여 이를 재생 장치로 출력하거나 복호 픽쳐 버퍼(170)에 전송한다. 복호 픽쳐 버퍼(170)에 전송된 필터링된 신호는 인터 예측부(180)에서 참조 픽쳐로 사용될 수 있다. 이처럼, 필터링된 픽쳐를 화면간 예측 모드에서 참조 픽쳐로 이용함으로써 화질 뿐만 아니라 부호화 효율도 향상시킬 수 있다.

복호 픽쳐 버퍼(170)는 필터링된 픽쳐를 인터 예측부(180)에서의 참조 픽쳐로 사용하기 위해 저장할 수 있다.

인터 예측부(180)는 복원 픽쳐를 참조하여 시간적 중복성 및/또는 공간적 중복성을 제거하기 위해 시간적 예측 및/또는 공간적 예측을 수행한다. 이때, 인터 예측 모드에서 전송되는 움직임 정보의 양을 줄이기 위해 주변 블록과 현재 블록 간의 움직임 정보의 상관성에 기초하여 움직임 정보를 예측할 수 있다.

인트라 예측부(185)는 현재 부호화를 진행하려고 하는 블록의 주변에 있는 샘플들을 참조하여 현재 블록을 예측할 수 있다. 상기 인트라 예측부(185)는 인트라 예측을 수행하기 위해 다음과 같은 과정을 수행할 수 있다. 먼저, 예측 신호를 생성하기 위해 필요한 참조 샘플을 준비할 수 있다. 그리고, 준비된 참조 샘플을 이용하여 예측 신호를 생성할 수 있다. 이후, 예측 모드를 부호화하게 된다. 이때, 참조 샘플은 참조 샘플 패딩 및/또는 참조 샘플 필터링을 통해 준비될 수 있다. 참조 샘플은 예측 및 복원 과정을 거쳤기 때문에 양자화 에러가 존재할 수 있다. 따라서, 이러한 에러를 줄이기 위해 인트라 예측에 이용되는 각 예측 모드에 대해 참조 샘플 필터링 과정이 수행될 수 있다.

상기 인터 예측부(180) 또는 상기 인트라 예측부(185)를 통해 생성된 예측 신호는 복원 신호를 생성하기 위해 이용되거나 잔여 신호를 생성하기 위해 이용될 수 있다.

도 2를 참조하면, 디코더(200)는 엔트로피 디코딩부(210), 역양자화부(220), 역변환부(230), 필터링부(240), 복호 픽쳐 버퍼(DPB: Decoded Picture Buffer Unit)(250), 인터 예측부(260) 및 인트라 예측부(265)를 포함하여 구성될 수 있다.

그리고, 디코더(200)를 통해 출력된 복원 영상 신호는 재생 장치를 통해 재생될 수 있다.

디코더(200)는 도 1의 인코더(100)로부터 출력된 신호을 수신할 수 있고, 수신된 신호는 엔트로피 디코딩부(210)를 통해 엔트로피 디코딩될 수 있다.

역양자화부(220)에서는 양자화 스텝 사이즈 정보를 이용하여 엔트로피 디코딩된 신호로부터 변환 계수(transform coefficient)를 획득한다.

역변환부(230)에서는 변환 계수를 역변환하여 잔여 신호를 획득하게 된다.

획득된 잔여 신호를 인터 예측부(260) 또는 인트라 예측부(265)로부터 출력된 예측 신호에 더함으로써 복원 신호가 생성된다.

필터링부(240)는 복원 신호에 필터링을 적용하여 이를 재생 장치로 출력하거나 복호 픽쳐 버퍼부(250)에 전송한다. 복호 픽쳐 버퍼부(250)에 전송된 필터링된 신호는 인터 예측부(260)에서 참조 픽쳐로 사용될 수 있다.

본 명세서에서, 인코더(100)의 필터링부(160), 인터 예측부(180) 및 인트라 예측부(185)에서 설명된 실시예들은 각각 디코더의 필터링부(240), 인터 예측부(260) 및 인트라 예측부(265)에도 동일하게 적용될 수 있다.

본 발명이 적용되는 엔트로피 인코딩부(300)는 이진화부(310), 컨텍스트 모델링부(320), 이진 산술 인코딩부(330) 및 메모리(360)를 포함하고, 상기 이진 산술 인코딩부(330)는 정규 이진 인코딩부(regular binary encoding unit)(340) 및 바이패스 이진 인코딩부(bypass binary encoding unit)(350)를 포함한다. 여기서, 상기 정규 이진 인코딩부(regular binary encoding unit)(340) 및 상기 바이패스 이진 인코딩부(bypass binary encoding unit)(350)는 각각 정규 코딩 엔진, 바이패스 코딩 엔진이라 불릴 수 있다.

상기 이진화부(310)은 데이터 심볼들의 시퀀스를 수신하고 이진화를 수행함으로써 0 또는 1의 이진화된 값으로 구성된 이진 심볼(bin) 스트링을 출력할 수 있다. 상기 이진화부(310)은 신택스(syntax) 요소들을 이진 심볼들로 매핑할 수 있다. 서로 다른 여러 이진화 과정들, 예를 들어, 단항(unary: U), 끝이 잘린 단항(truncated unary: TU), k차 Exp-Golomb (EGk), 및 고정 길이(Fixed Length) 과정 등이 이진화를 위해 사용될 수 있다. 상기 이진화 과정은 신택스 요소의 유형을 기반으로 선택될 수 있다.

출력된 이진 심볼 스트링은 컨텍스트 모델링부(320)으로 전송된다.

상기 컨텍스트 모델링부(320)은 메모리로부터 현재 블록을 코딩하는데 필요한 확률 정보를 선택하여 상기 이진 산술 인코딩부(330)로 전송한다. 예를 들어, 코딩할 신택스 엘리먼트에 기초하여 컨텍스트 메모리를 선택하고 빈 인덱스(binIdx)를 통해 현재 신택스 엘리먼트 코딩에 필요한 확률 정보를 선택할 수 있다. 여기서, 컨텍스트는 심볼의 발생 확률에 관한 정보를 의미하고, 컨텍스트 모델링은 이진화 결과인 빈(bin)을 입력으로 하여 이진 산술 코딩에 필요한 빈(bin)의 확률을 추정하는 과정을 의미한다.

상기 컨텍스트 모델링부(320)는 높은 코딩 효율을 성취하기 위해 필요한 정확한 확률 추정을 제공할 수 있다. 이에 따라, 서로 다른 이진 심볼들에 대해 서로 다른 컨텍스트 모델들이 사용될 수 있고 이러한 컨텍스트 모델의 확률은 이전에 코딩된 이진 심볼의 값들을 기반으로 업데이트될 수 있다. 이때, 이전에 코딩된 이진 심볼의 값들은 상기 메모리(360)에 저장되고, 상기 컨텍스트 모델링부(320)는 이로부터 이전에 코딩된 이진 심볼의 값들을 이용할 수 있다.

유사한 분포를 가지는 이진 심볼들은 동일한 컨텍스트 모델을 공유할 수 있다. 이러한 각 이진 심볼에 대한 컨텍스트 모델은 확률 추정을 위해, 빈(bin)의 신택스 정보, 빈 스트링에서의 빈의 위치를 나타내는 빈 인덱스(binIdx), 빈(bin)이 들어 있는 블록의 이웃 블록의 특정 신택스 요소의 디코딩된 값 중 적어도 하나가 이용될 수 있다.

상기 이진 산술 인코딩부(330)는 정규 이진 인코딩부(regular binary encoding unit)(340) 및 바이패스 이진 인코딩부(bypass binary encoding unit)(350)를 포함하고, 출력된 스트링에 대한 엔트로피 인코딩을 수행하고 압축된 데이터 비트들을 출력한다.

상기 정규 이진 인코딩부(regular binary encoding unit)(340)는 재귀적 구간 분할(recursive interval division)을 기반으로 산술 코딩을 수행한다.

먼저, 0 내지 1의 초기값을 가지는 구간(또는 범위)이 이진 심볼의 확률을 기반으로 두 개의 하위 구간들로 분할된다. 인코딩된 비트들은 이진 소수로 변환되는 경우 이진 심볼 값들이 연속적으로 디코딩되는 과정에서 매번 0과 1을 나타내는 간격들 중 하나를 선택할 수 있는 오프셋으로 사용될 수 있다..

구간 분할 과정에 있어서, 한 이진 심볼을 디코딩할 때 상기 두 개의 분할된 하위 구간들 중 하나가 선택되며, 선택된 하위 구간에 대해 다시 해당 이진 확률을 기반으로 분할되는 과정을 반복하게 된다. 상기 구간 및 오프셋은 제한된 비트 정밀도를 가지며, 따라서 상기 구간이 특정한 값 아래로 떨어질 때마다 오버플로우를 방지하기 위해 재정규화(renormalization)가 필요할 수 있다. 상기 재정규화(renormalization)는 각각의 이진 심볼이 디코딩된 이후에 발생할 수 있다.

상기 바이패스 이진 인코딩부(bypass binary encoding unit)(350)는 컨텍스트 모델 없이 인코딩을 수행하며, 현재 코딩되는 빈(bin)의 확률을 0.5로 고정하여 코딩을 수행한다. 이는 신택스의 확률을 결정하기 어렵거나 고속으로 코딩하고자 할 때 이용될 수 있다.

본 발명이 적용되는 엔트로피 디코딩부(400)는 컨텍스트 모델링부(410), 이진 산술 디코딩부(420), 메모리(450) 및 역이진화부(460)를 포함하고, 상기 이진 산술 디코딩부(420)는 정규 이진 디코딩부(regular binary decoding unit)(430) 및 바이패스 이진 디코딩부(bypass binary decoding unit)(440)를 포함한다.

상기 엔트로피 디코딩부(400)는 비트스트림을 수신하고 그로부터 정규 모드(regular mode)에 따라 이진 산술 디코딩을 수행할지 바이패스 모드(bypass mode)에 따라 이진 산술 디코딩을 수행할지 여부를 결정할 수 있다. 예를 들어, 상기 엔트로피 디코딩부(400)는 바이패스 플래그(bypass flag)를 확인함으로써 이를 결정할 수 있다. 여기서, 바이패스 플래그(bypass flag)는 바이패스 모드(bypass mode)인지 여부를 나타내고, 상기 바이패스 모드(bypass mode)는 컨텍스트 모델을 이용하지 않고, 현재 코딩되는 빈(bin)의 확률을 0.5로 고정하여 코딩을 수행하는 것을 의미한다.

상기 바이패스 플래그(bypass flag)에 따라 바이패스 모드(bypass mode)가 아닌 경우, 상기 정규 이진 디코딩부(regular binary decoding unit)(430)는 정규 모드(regular mode)에 따라 이진 산술 디코딩을 수행한다.

이때, 상기 컨텍스트 모델링부(410)는 상기 메모리(450)로부터 현재 비트스트림을 디코딩하는데 필요한 확률 정보를 선택하여 상기 정규 이진 디코딩부(regular binary decoding unit)(430)로 전송한다.

한편, 상기 바이패스 플래그(bypass flag)에 따라 바이패스 모드(bypass mode)인 경우, 상기 바이패스 이진 디코딩부(bypass binary decoding unit)(440)는 바이패스 모드(bypass mode)에 따라 이진 산술 디코딩을 수행한다.

상기 역이진화부(460)는 상기 이진 산술 디코딩부(420)에서 디코딩된 이진수 형태의 빈(bin)을 입력받아 정수 형태의 신택스 엘리먼트 값으로 변환 출력하게 된다. 다만, 반드시 정수 형태의 신택스 엘리먼트 값일 필요는 없다.

인코더는, 신택스 엘리먼트에 대해 이진화를 수행할 수 있다(S510).

상기 인코더는, 정규 모드에 따라 이진 산술 코딩을 수행할지 또는 바이패스 모드에 따라 이진 산술 코딩을 수행할지 여부를 확인할 수 있다(S520). 예를 들어, 상기 인코더는 바이패스 플래그(bypass flag)에 기초하여 정규 모드인지 바이패스 모드인지 여부를 확인할 수 있으며, 예를 들어 상기 바이패스 플래그(bypass flag)가 1이면 바이패스 모드를 나타내고, 0이면 정규 모드를 나타낼 수 있다.

정규 모드의 경우, 상기 인코더는 컨텍스트 모델을 선택할 수 있고(S530), 상기 컨텍스트 모델에 기초하여 이진 산술 인코딩을 수행할 수 있다(S540). 그리고, 상기 인코더는, 컨텍스트 모델을 업데이트할 수 있으며(S550), 상기 S530 단계에서 업데이트된 컨텍스트 모델에 기초하여 다시 적합한 컨텍스트 모델을 선택할 수 있다.

한편, 바이패스 모드의 경우, 상기 인코더는 확률 0.5에 기초하여 이진 산술 인코딩을 수행할 수 있다(S560).

먼저, 디코더는 비트스트림을 수신할 수 있다(S610).

상기 디코더는 정규 모드(regular mode)에 따라 이진 산술 디코딩을 수행할지 바이패스 모드(bypass mode)에 따라 이진 산술 디코딩을 수행할지 여부를 결정할 수 있다. 예를 들어, 상기 디코더는 상기 비트스트림으로부터 바이패스 플래그(bypass flag)를 추출하여 정규 모드인지 바이패스 모드인지 여부를 확인할 수 있다(S620). 여기서, 상기 바이패스 플래그(bypass flag)는 신택스의 종류에 따라 사전에 결정되어 있을 수 있으며, 또는 신택스를 구성하는 심볼들 내에서도 정규 모드 또는 바이패스 모드가 혼합되어 있을 수도 있다.

상기 바이패스 플래그(bypass flag)가 정규 모드를 나타내는 경우, 상기 디코더는 컨텍스트 모델을 선택할 수 있고(S630), 상기 컨텍스트 모델에 기초하여 이진 산술 디코딩을 수행할 수 있다(S640). 그리고, 상기 디코더는, 컨텍스트 모델을 업데이트할 수 있으며(S650), 상기 S630 단계에서 업데이트된 컨텍스트 모델에 기초하여 다시 적합한 컨텍스트 모델을 선택할 수 있다.

한편, 상기 바이패스 플래그(bypass flag)가 바이패스 모드를 나타내는 경우, 상기 디코더는 확률 0.5에 기초하여 이진 산술 디코딩을 수행할 수 있다(S660).

상기 디코더는 디코딩된 빈스트링(bin string)에 대해 역이진화를 수행할 수 있다(S670). 예를 들어, 디코딩된 이진수 형태의 빈(bin)을 입력받아 정수 형태의 신택스 엘리먼트 값으로 변환 출력할 수 있다.

본 발명은 복수개의 빈(bin)들이 동시에 CABAC(Context-based Adaptive Binary Arithmetic Coding)으로 코딩되는 상황에서 효율적으로 구현될 수 있는 확률 갱신 방법들을 제시한다.

본 발명에서 제안하는 방식들은 동시에 코딩되는 비트스트림 개수나 비트스트림들 간의 컨텍스트(context) 공유 여부 등에 관계 없이 적용될 수 있으나 주로 비트스트림이 하나이거나 비트스트림들 간에 컨텍스트(context)를 공유하는 경우에 주로 적용될 수 있다.

또한, 복수개의 빈(bin)들에 대한 코딩 결과를 확률 갱신에 한꺼번에 반영할 때 테이블 룩업(table look-up)을 통한 근사를 여러 번 적용하지 않고 한 번만 적용할 수 있도록 하고, 보다 정확한 레인지 길이 값(range length value)을 구할 수 있는 방법도 제시한다.

최근 비디오 표준에서는 고화질, 고프레임율, 고해상도의 영상을 코딩하는 경우 산술 코딩(arithmetic coding) 알고리즘 등에 내재된 데이터 의존성으로 인해 엔트로피 코딩(entropy coding) 부분이 전체 성능의 병목이 될 가능성이 크다. 또한, 많은 비트량이 발생되는 프레임들이 연속되는 경우 실시간 처리를 위해 복수개의 프레임을 버퍼링해야 하므로 시스템 구현 상 상당한 크기의 버퍼 메모리가 요구될 수 있다.

따라서, 엔트로피 코딩(entropy coding) 부분의 쓰루풋(throughput) 향상이 필요하며, 이를 위해 본 발명은 복수개의 빈(bin)들을 단일 또는 다수의 비트스트림으로 코딩하는 구조를 제안한다. 다만, 복수개의 빈(bin)들을 동시에 처리하게 되면 코딩 데이터 조합의 수가 많아져 확률 갱신 과정이 복잡해질 수 있기 때문에, 본 발명은 복수개의 빈(bin)들을 동시에 코딩할 때 적용될 수 있는 효율적인 확률 갱신 방법을 제안한다.

현재의 비디오 표준들에서 널리 적용되는 엔트로피 코딩(entropy coding) 방법으로 산술 코딩(arithmetic coding)을 들 수 있다. 예를 들어, 이진 심볼(binary symbol)들을 코딩하면서 해당 심볼(symbol)에 대한 확률이 적응적으로 변하는 CABAC(Context-Adaptive Binary Arithmetic Coding)이 이용될 수 있다. 여기서, 이진 심볼(binary symbol)은 0 또는 1의 값을 가지는 심볼(symbol)을 말하며, 멀티 심볼(multi-symbol), 비이진 심볼(non-binary symbol), 또는 다치 심볼은 3개 이상의 값(0~N-1, N > 2) 을 가질 수 있는 심볼(symbol)을 말한다. 산술 인코딩(arithmetic encoding) 엔진으로 입력되는 가능한 모든 단위 숫자들의 집합을 알파벳(alphabet)이라고 하고, 이 경우 알파벳(alphabet)이 0과 1로 구성되어 있다고 하거나 알파벳 심볼(alphabet symbol)로 0과 1이 가능하다고 말하기도 한다.

산술 코딩(arithmetic coding)에서는 [0, 1]의 확률 구간을 각 심볼(symbol) 값에 대한 확률들로 나누게 되는데 각 구간의 길이는 해당 심볼(symbol) 값에 대한 확률 값을 가리킨다. 이 나누어진 확률 구간이 현재의 심볼(symbol)을 코딩할 때 적용되는 확률 구간이며, 현재 주어진 구간을 이 확률 구간에 비례하여 나눈 후 해당 심볼(symbol)에 대한 구간을 선택하게 된다. 이 선택된 구간이 다음 심볼(symbol)을 코딩할 때 사용될 구간이 된다. 모든 확률 값은 1보다 작기 때문에 심볼(symbol)들이 코딩되면서 계속 구간 길이가 작아지게 되므로, 재정규화(renormalization)라는 과정을 통해 구간 길이(interval length)를 스케일링(scaling)함으로써 구간 길이(interval length) 값이 특정 범위 안에 항상 놓이도록 할 수 있다.

본 발명은, CABAC 엔진에서 복수개의 이진 심볼(binary symbol)들(또는 빈(bin)들)을 동시에 처리하는 것을 가정한다. 복수개의 빈(bin)들을 동시에 처리할 때는 상기 도 7과 같이 복수개의 비트스트림으로 코딩할 수도 있고 단일 비트스트림으로 코딩할 수도 있다. 하나의 비트스트림은 코딩되는 모든 심볼(symbol)들의 정보를 함축하고 있는 구간 정보(interval information)를 출력하고, 여기서 상기 구간 정보(interval information)는 구간 시작(interval starting)을 나타내는 변수와 길이 변수에 의해 정의될 수 있다. 예를 들어, 상기 구간 시작(interval starting)을 나타내는 변수는 "base" 로 표시하고, 길이 변수는 "length" 로 표시할 수 있으며, 비트스트림은 (base, length) 쌍으로 표현할 수 있다.

상기 도 7을 살펴보면, 복수개의 빈(bin)들이 입력되면, 컨텍스트 저장부(720)에 저장된 컨텍스트를 참조하여 적어도 하나의 비트스트림으로 코딩될 수 있다. 예를 들어, 상기 도 7의 경우, s_i1, s_i2, s_i3, s_i4는 동시에 코딩되는 빈(bin)들을 말하며, 상기 s_i1, s_i2, s_i3, s_i4는 동일한 컨텍스트를 참조하여 각각 제1비트스트림, 제2비트스트림, 제3비트스트림, 제4비트스트림으로 코딩될 수 있다. 그러나, 본 발명은 이에 한정되지 않으며 상기 s_i1, s_i2, s_i3, s_i4는 서로 다른 컨텍스트를 참조하여 코딩될 수도 있다. 상기 제1비트스트림 내지 상기 제4비트스트림은 각각 (base1, length1) 내지 (base4, length4)로 표현될 수 있다.

확률 업데이트부(probability updating unit)(710)는 각 비트스트림마다 자신의 컨텍스트에 기초하여 대응되는 빈(bin)들을 처리할 수 있다. 또는, 동일한 컨텍스트에 기초하여 복수개의 빈(bin)들을 동시에 처리할 수도 있다.

본 발명의 일실시예로, 상기 도 7의 확률 업데이트부(710)는 N 개의 빈(bin)들이 동시에 처리되는 경우 모든 조합들에 대한 테이블을 구성하여 한 번에 다음 상태(next state)들을 출력할 수 있다. 여기서, 상기 테이블은 (curr. state, next state)로 구성될 수 있다.

예를 들어, N = 2, 즉 2개의 빈(bin)들이 동시에 처리되는 경우를 가정하면, 도 8에서와 같이 총 6개의 입력 조합(M, L, MM, ML, LM, LL)이 가능하다. 여기서, M은 MPS(Most Probable Symbol)가 입력되는 경우, L은 LPS(Least Probable Symbol)가 입력되는 경우, MM은 MPS 2개가 입력되는 경우, ML은 MPS와 LPS가 연이어 입력되는 경우, LM은 LPS와 MPS가 연이어 입력되는 경우, LL은 LPS 2개가 입력되는 경우를 나타낸다.

상기 도 8의 경우, 동시에 2개의 빈(bin)들이 처리될 수 있으므로 2개까지 서로 다른 컨텍스트를 사용할 수 있다. 그리고, 2개의 테이블 액세스 요청(table access request)를 받을 수 있도록 구성되어 있다.

N > 2인 경우에 대해서도 모든 입력 조합들을 고려하여 상기 도8에서와 같은 테이블을 구성할 수 있으나 조합 수가 많아져 테이블의 크기가 커지는 단점이 존재한다. 상기 도 8에서 제시된 테이블 이외에도, 확률 상태와 구간 길이 변수(interval length variable)의 상위 비트 2개를 인덱스로 입력 받아 다음 LPS에 대한 구간 길이를 구하는 테이블을 정의할 수 있다. 예를 들어, 구간 길이 변수의 7번째 비트(bit)를 MSB(Most Significant Bit)로 하고, 6번째 비트(bit)를 LSB(Least Significant Bit)로 하는 인덱스를 입력 받을 수 있다. 이 경우, 입력 조합 M/L/MM/ML/LM/LL에 대해 각기 구간 길이 값을 계산하여 해당 테이블을 구성할 수 있다.

본 발명의 일실시예로, 2개의 빈(bin)들이 하나의 비트스트림으로 코딩되고 확률 상태 천이 테이블(probability state transition table)을 따르되, 상기 도 8의 테이블에서 MM/ML/LM/LL에 대한 다음 상태(next state) 또는 다음 LPS의 구간 길이를 구하기 위한 테이블을 다르게 구성할 수 있다.

예를 들어, LL이 입력되었을 때 현재 구간 길이 변수의 7번째 비트(bit)와 6번째 비트(bit)를 추출하고, 테이블 룩업(table look-up)을 통해 첫번째 LPS에 대한 구간 길이를 획득할 수 있다. 예를 들어, 레인지 변수(range variable)에서 최상위 비트(bit)를 제외한 나머지 최상위 2 비트(bit)를 추출할 수 있다.

이 후, 갱신된 구간 길이 값에서 다시 7번째 비트(bit)와 6번째 비트(bit)를 추출하고 동일한 방식으로 두번째 LPS에 대한 구간 길이를 획득할 수 있다. 여기서, 두번째 LPS에 대해서는 갱신된 확률 상태를 테이블 입력으로 줄 수 있다.

다른 실시예로, 첫번째 LPS로 인한 확률과 두번째 LPS로 인한 확률의 곱을 LL에 대한 확률로 계산하고 이 확률 값에 대응하는 구간 길이 값을 새롭게 계산하여 테이블을 구축할 수 있다.

이에 대해서는 도 9 내지 도 12에서 보다 상세히 설명하도록 한다.

상기 도 9는 2개의 입력 이진 심볼(binary symbol)을 코딩하는 경우를 나타내고, 상기 도 10은 확률 상태(probability state)와 레인지 길이(range length)의 결과 값들뿐만 아니라, 상기 도 9의 과정을 수행한 후의 결과인 중간 상태(Intermediate state) 값도 나타낸다.

본 발명의 일실시예로, 2개의 입력 이진 심볼(binary symbol)에 대해 두 번의 테이블 룩업을 통해 레인지 길이(range length)를 산출하는 방법을 제공한다.

먼저, 상기 도 9를 살펴보면, 현재 확률 상태 인덱스(pStateIdx)가 19이면 레인지 길이(range length) 값의 7번째 비트(bit)와 6번째 비트(bit)는 "10"을 나타낸다. 즉, 최상위 비트를 제외한 나머지 최상위 2 비트를 의미하고, 이때 qRangeIdx = 2 이다.

이때, 입력 이진 심볼(binary symbol)로 LL이 주어진 경우, 레인지 길이(range length)를 계산하기 위한 레인지 길이 테이블(range length table)과 확률 천이 테이블(probability transition table)을 2번 액세스하여 최종적으로 레인지 길이(range length)를 산출할 수 있다.

그러나, 이러한 경우, 레인지 길이(range length) 값과 확률의 곱셈 두 번을 각각 테이블 룩업(table look-up)으로 근사하기 때문에 최종적으로 산출되는 레인지 길이(range length) 값이 부정확할 가능성이 크다.

따라서, 본 발명에서는 보다 정확도를 향상시키기 위해 한번의 테이블 룩업을 통해 레인지 길이(range length)를 산출하는 방법을 제공한다.

일실시예로, 상기 도 11은 레인지 인덱스(qRangeIdx)와 입력 코딩 데이터 LL을 테이블 인덱스로 입력했을 때, 해당 엔트리(entry)를 어떻게 계산하는지를 보여준다. 엔트리(entry)의 형태로는 재정규화된 레인지 길이(range length) 값과 재정규화를 위한 레프트 쉬프트 어마운트(left shift amount)가 가능할 수 있다.

도 11(a)를 살펴보면, 입력 코딩 데이터에 대한 테이블 엔트리(table entry)를 구하기 위해, 인코더는 레인지 인덱스(qRangeIdx)에 대응되는 레인지 길이(range length) 구간의 중간값을 산출할 수 있다. 예를 들어, qRangeIdx = 2 이면, 그에 대응되는 레인지 길이(range length) 구간은 [384,448) 이고, 중간값은 416 이다.

그리고, 상기 인코더는, 입력 코딩 데이터에 대한 확률 상태(probability state)의 변화를 확인할 수 있고, 이후 각 확률 상태에 대응되는 확률값을 상기 중간값에 곱함으로써 새로운 레인지 길이(range length)를 산출할 수 있다. 예를 들어, 확률 상태 인덱스 pStateIdx = 19이고, 입력 코딩 데이터가 LL 인 경우, 상기 입력 코딩 데이터 LL에 대한 확률 상태(probability state)의 변화를 확인하면, 상기 도 11(b)에 따라 19 -> 15 -> 12 와 같이 변하는 것을 확인할 수 있다.

그리고, 각 확률 상태에 대응되는 확률값을 상기 중간값에 곱하면 다음 수학식 1과 같이 새로운 레인지 길이(range length)를 산출할 수 있다.

수학식 1

여기서, 416 은 qRangeIdx = 2 에 대응되는 레인지 길이(range length) 구간의 중간값을 나타내고, 도 11(c)를 살펴보면, 0.18574449 는 pStateIdx = 19 에 대응되는 LPS 확률값을 나타내며, 0.22879875 는 pStateIdx = 15 에 대응되는 LPS 확률값을 나타낸다.

이와 같이, 인코더는 도 11(b)의 확률 상태 천이 테이블에 기초하여 입력 코딩 데이터 LL에 대한 확률 상태(probability state)의 변화를 확인한 후, 각 확률 상태에서의 확률을 상기 도 11(a)로부터 획득한 중간값에 모두 곱함으로써 새로운 레인지 길이(range length)를 산출할 수 있다.

상기 인코더는 상기 새로운 레인지 길이(range length)가 [256, 512) 범위 안에 포함되도록 스케일링을 수행함으로써 최종 레인지 길이(range length)를 획득할 수 있다. 예를 들어, 다음 수학식 2와 같이 재정규화를 수행함으로써 최종 레인지 길이(range length)를 획득할 수 있다. 본 명세서에서는 이를 재정규화된 레인지 길이(renormalized range length)라 한다.

수학식 2

본 발명은, 모든 레인지 인덱스(qRangeIdx)와 입력 코딩 데이터(M/L/MM/ML/LM/LL)에 대해 상기 방법을 적용함으로써, 각각의 대응되는 엔트리(entry) 값을 계산할 수 있고 그에 따라 테이블을 구성할 수 있다.

상기 실시예에 따른 재정규화된 레인지 길이(renormalized range length) 값은 283이고, 상기 도 9의 실시예의 경우 재정규화된 레인지 길이(renormalized range length) 값은 264로 서로 다른 결과 값을 보여준다.

한편, 상기 실시예에서 재정규화되기 전 새로운 레인지 길이 값(17.67921256)을 적절한 소수점 자리까지 표시할 수 있는 고정 소수점 숫자로 표현할 수 있다면 재정규화를 위한 레프트 쉬프트 어마운트(left shift amount)를 테이블 엔트리(table entry)에 포함시키지 않더라도 충분한 정확도를 유지하면서 레프트 쉬프트 어마운트(left shift amount)를 재정규화 과정에서 유도하도록 구성할 수 있다.

본 발명은, 복수개의 빈(bin)들이 동일 컨텍스트를 참조하는지 여부에 기초하여 적어도 하나의 확률 상태 천이 테이블에 접근하도록 구성할 수 있다.

일실시예로, 2개의 빈(bin)들(bin1, bin2)이 동일한 컨텍스트를 이용하는 경우, bin2는 제2 확률 상태 천이 테이블로 입력되어 다음 확률 상태1(next state 1)만 유효하게 출력될 수 있다.

다른 실시예로, 2개의 빈(bin)들(bin1, bin2)이 각각 서로 다른 컨텍스트(ctx1, ctx2)를 이용하는 경우, bin1은 제1 확률 상태 천이 테이블로 입력되어 다음 확률 상태1(next state 1)이 출력되고, bin2는 제2 확률 상태 천이 테이블로 입력되어 다음 확률 상태2(next state 2)가 출력될 수 있다.

이와 같이 모든 빈(bin)들의 입력 조합에 대해 해당 테이블들을 새롭게 구성하는 것이 아니라 상기 도 12에서와 같이 확률 상태 천이 테이블을 연속해서 두 번 접근하도록 구성할 수도 있다.

또한, 본 발명은 동일한 방식으로 LPS 구간(interval) 길이를 획득하기 위한 테이블도 두 번 연속해도 접근하도록 구성할 수 있다.

또한, 본 발명은 동시에 처리하는 빈(bin)들의 수가 3개 이상인 경우에도 상기 도 12와 유사하게 구성할 수 있다. 다만, 각 빈(bin)이 어떤 컨텍스트를 참조하는지 또는 참조하는 컨텍스트가 겹치는지 여부 등에 따라 서로 다른 구조를 가질 수 있다.

본 명세서에서, 복수개의 빈(bin)들로 이루어진 입력을 편의상 "다중 입력"이라 칭할 수 있다.

인코더는, 복수개의 빈(bin)들이 입력되면(S1310), 본 발명이 적용되는 확률 상태 천이 테이블 및/또는 레인지 길이 테이블에 액세스할 수 있다(S1320, S1330). 여기서, 본 발명이 적용되는 확률 상태 천이 테이블을 다중 입력 확률 상태 천이 테이블이라 부를 수 있고, 본 발명이 적용되는 레인지 길이 테이블을 다중 입력 레인지 길이 테이블이라 부를 수 있다.

상기 인코더는, 상기 다중 입력 확률 상태 천이 테이블에 기초하여 입력 코딩 데이터에 대한 확률 상태(probability state)의 변화를 확인할 수 있다(S1320). 예를 들어, 상기 인코더는 상기 입력 코딩 데이터에 대한 현재 확률 상태(pStateIdx)에 따라 천이되는 확률 상태를 확인할 수 있다.

상기 인코더는, 다중 입력 레인지 길이 테이블에 기초하여 새로운 레인지 길이를 획득할 수 있다(S1330). 예를 들어, 상기 인코더는 상기 다중 입력 레인지 길이 테이블에 기초하여 레인지 길이의 중간값을 획득할 수 있고, 상기 다중 입력 확률 상태 천이 테이블에 기초하여 각 확률 상태에서의 확률을 상기 중간값에 모두 곱함으로써 새로운 레인지 길이(range length)를 산출할 수 있다.

상기 인코더는, 상기 새로운 레인지 길이(range length)가 레인지 길이 구간 안에 포함되도록 재정규화 또는 스케일링을 수행함으로써 재정규화된 레인지 길이(renormalized range length)를 획득할 수 있다(S1340).

상기 인코더는, 상기의 과정을 거친 후 비트스트림을 출력할 수 있다(S1350).

디코더는, 비트스트림을 입력 받아 MSB(Most Significant Bit) 부터 차례로 디코딩을 수행할 수 있다(S1410). 상기 디코더는 이진 산술 디코딩을 수행하기 전, 엔진 초기화를 하고 입력 비트의 오프셋을 저장할 수 있다.

상기 디코더는 신택스 요소에 대해 상기 인코더에서와 동일한 재정규화 과정을 수행할 수 있다(S1420). 이후, 산술 코딩 수행시 재정규화가 필요한 경우 왼쪽 쉬프트 연산(left shift operation)을 통해 오프셋의 MSB(Most Significant Bit)를 제거하고 LSB(Least Significant Bit)에 새로운 비트를 추가할 수 있다.

상기 디코더는, 현재 확률 상태 및 재정규화된 레인지 길이에 기초하여 다중 입력 레인지 길이 테이블에 액세스할 수 있고(S1430), 그에 따라 새로운 레인지 길이를 획득할 수 있다. 여기서, 상기 현재 확률 상태는 다중 입력 확률 상태 천이 테이블에 기초하여 결정될 수 있다.

상기 디코더는, 모든 가능한 입력 값들에 대한 구간 정보들과 구간 오프셋에 기초하여 복수개의 빈(bin) 값을 결정할 수 있다(S1440).

상기와 같이, 복수개의 빈 값이 결정되면(S1440), 본 발명이 적용되는 다중 입력 레인지 길이 테이블 및/또는 다중 입력 확률 상태 천이 테이블에 액세스할 수 있다(S1430, S1450).

본 발명은, 입력 조합에 따른 새로운 LPS(Least Probable Symbol) 확률 테이블(probability table)을 정의한다.

본 발명의 일실시예로, 다중 입력 확률 상태 천이 테이블 및 다중 입력 레인지 길이 테이블을 제공하기 위해 상기 도 15의 LPS(Least Probable Symbol) 확률 테이블(probability table)을 이용할 수 있다.

기존의 확률 상태 천이 테이블은 입력 빈(bin) 1개에 대한 다음 확률 상태(next probability state)를 나타낸다. 따라서, 본 발명이 적용되는 복수개의 빈(bin)들에 대한 확률 상태 천이 테이블(다중 입력 확률 상태 천이 테이블)은 입력 빈(bin) 1개에 대한 확률 상태 천이 테이블을 빈(bin)의 개수만큼 반복해서 적용하는 방식으로 획득될 수 있다. 예를 들어, 2개의 입력 빈(bin)들에 대한 확률 상태 천이 테이블은 이하 도 16에서 상세히 설명하도록 한다.

상기 도 16을 살펴보면, 확률 상태 인덱스(pStateIdx)가 0과 1일 때 MPS 값은 변하게 된다. 즉, 확률 상태 인덱스(pStateIdx)가 0일 때 LM 입력이 들어왔다면 첫 번째 입력 L에 의해 MPS 값이 바뀌게 되므로 상태 천이 관점에서 두 번째 입력 M은 L과 같게 된다.

마찬가지로, 현재 확률 상태 인덱스(pStateIdx)가 1일 때 LL 입력에 대해 MPS의 변화를 고려하면 LM과 동등하게 된다. 상기 현재 확률 상태 인덱스(pStateIdx)가 1일 때 입력이 LL이면 MPS 값이 바뀌게 된다.

상기 도 17(a) 및 도 17(b)를 살펴보면, M과 L에 대한 확률들을 더하면 1이 되고, MM, ML, LM, LL에 대한 확률들을 더하면 1이 되는 것을 확인할 수 있다. 이는 입력 1개 또는 2개일 때의 가능한 모든 경우들에 대한 확률을 나타내기 때문이다.

한편, 상기 도 17(a) 및 도 17(b)에서 제시한 확률 값들을 4개의 레인지 길이의 구간에 대한 중간값들에 모두 적용하면, 다음 도 18의 테이블을 획득할 수 있다. 여기서, 상기 중간값들은 도 11(a)의 레인지 인덱스(qRangeIdx)에 따른 레인지 길이의 구간에 대한 중간값을 나타내고, 상기 도 18의 테이블은 상기 도 17의 확률값과 중간값의 곱을 모두 구한 경우를 나타낸다.

도 18은 본 발명이 적용되는 실시예로서, 상기 도 17의 확률 값들을 4개의 레인지 길이의 구간의 중간값들에 적용한 테이블을 나타낸다.

본 발명이 적용되는 도 18(a) 및 도 18(b)를 의 테이블은 상기 도 17의 확률값과 레인지 길이의 구간에 대한 중간값을 곱한 후, 128을 추가로 곱한 값들을 나타낸다. 예를 들어, 원래의 레인지 값은 맨 상위 비트가 1인 9 비트 값이었으므로 128을 곱하게 되면 16 비트로 표현 가능한 숫자가 된다.

따라서, 16 비트 수의 맨 상위 비트가 1이 되도록 왼쪽 쉬프트 연산(left shift operation)을 적용하여 재정규화를 수행할 수 있고, 상위 9 비트만 남기거나 하위 7 비트 값을 보고 반올림한 후 상위 9 비트만 남기게 되면 원래의 레인지 값에 대한 비트 길이를 유지할 수 있다.

상기 도 19(a) 및 도 19(b)는 디코딩 시에 구간 오프셋 값과 비교하여 빈(bin) 값을 디코딩하기 위한 테이블이다.

예를 들어, 구간을 [0, 1]의 범위로 정규화했다고 가정했을 때, 입력 빈(bin)들의 구성에 따라 구간은 도 20에서와 같이 분할될 수 있다.

본 발명의 실시예에 따르면, 현재 디코딩하는 빈(bin)이 1개인 경우 도 20(a)와 같이 M 값만 알면 전체 구간에 대한 정보를 알 수 있다. 또는, L 값을 알아도 전체 구간에서 L을 빼면 M을 구할 수도 있다.

다른 예로, 상기 도 19의 테이블에서 M 대신에 L을 저장할 수도 있다.

한편, 현재 디코딩하는 빈(bin)이 2개라면 상기 도 20(b)에서와 같이 MM, MM+ML, MM+ML+LM을 전체 구간에 대한 정보를 알 수 있다.

이 경우, 마찬가지로 상기 도 19에서 LL, LL+LM, LL+LM+ML을 저장하고 있어도 약간의 계산을 통해 구간 오프셋이 어떤 구간에 속하는지를 구분해 낼 수 있다.

다른 예로, 상기 도 19의 테이블 정보만으로도 각 입력의 경우에 대한 구간 길이를 알 수도 있다. 예를 들어, 상기 도 20(b)에서 알 수 있듯이 LL의 길이는 "(전체 구간 길이) - (MM+ML+LM)"와 같이 계산할 수 있고, LM의 길이는 "(MM+ML+LM) - (MM+ML)"를 계산함으로써 알 수 있다.

다른 예로, 상기 도 18의 테이블 정보에 기초하여 상기 도 19의 테이블에서 제공하는 정보를 생성할 수도 있다. 예를 들어, MM+ML+LM은 MM, ML, LM의 길이를 누적하면 된다. 또한, 상기 도 18에서도 M과 L 중에 하나만 포함하면 나머지 하나를 알 수 있으며, MM, ML, LM, LL 중에서도 3 개만 포함시키면 나머지 하나를 알 수 있다.

상기 기술된 것과 같이, 본 발명에서 설명한 실시예들은 프로세서, 마이크로 프로세서, 컨트롤러 또는 칩 상에서 구현되어 수행될 수 있다. 예를 들어, 상기 도 1 내지 4, 도 7 내지 8 및 도 12에서 도시한 기능 유닛들은 컴퓨터, 프로세서, 마이크로 프로세서, 컨트롤러 또는 칩 상에서 구현되어 수행될 수 있다.

또한, 본 발명이 적용되는 디코더 및 인코더는 멀티미디어 방송 송수신 장치, 모바일 통신 단말, 홈 시네마 비디오 장치, 디지털 시네마 비디오 장치, 감시용 카메라, 비디오 대화 장치, 비디오 통신과 같은 실시간 통신 장치, 모바일 스트리밍 장치, 저장 매체, 캠코더, 주문형 비디오(VoD) 서비스 제공 장치, 인터넷 스트리밍 서비스 제공 장치, 3차원(3D) 비디오 장치, 화상 전화 비디오 장치, 및 의료용 비디오 장치 등에 포함될 수 있으며, 비디오 신호 및 데이터 신호를 처리하기 위해 사용될 수 있다.

또한, 본 발명이 적용되는 처리 방법은 컴퓨터로 실행되는 프로그램의 형태로 생산될 수 있으며, 컴퓨터가 판독할 수 있는 기록 매체에 저장될 수 있다. 본 발명에 따른 데이터 구조를 가지는 멀티미디어 데이터도 또한 컴퓨터가 판독할 수 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 판독할 수 있는 기록 매체는 컴퓨터로 읽을 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 상기 컴퓨터가 판독할 수 있는 기록 매체는, 예를 들어, 블루레이 디스크(BD), 범용 직렬 버스(USB), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크 및 광학적 데이터 저장 장치를 포함할 수 있다. 또한, 상기 컴퓨터가 판독할 수 있는 기록 매체는 반송파(예를 들어, 인터넷을 통한 전송)의 형태로 구현된 미디어를 포함한다. 또한, 인코딩 방법으로 생성된 비트 스트림이 컴퓨터가 판독할 수 있는 기록 매체에 저장되거나 유무선 통신 네트워크를 통해 전송될 수 있다.

이상, 전술한 본 발명의 바람직한 실시예는, 예시의 목적을 위해 개시된 것으로, 당업자라면 이하 첨부된 특허청구범위에 개시된 본 발명의 기술적 사상과 그 기술적 범위 내에서, 다양한 다른 실시예들을 개량, 변경, 대체 또는 부가 등이 가능할 것이다.

Claims

비디오 신호에 대해 엔트로피 인코딩을 수행하는 방법에 있어서,

복수개의 빈(bin)들을 포함하는 적어도 하나의 비트스트림을 수신하는 단계; 및

상기 복수개의 빈들에 대응되는 컨텍스트 정보에 기초하여 확률 업데이트를 수행하는 단계;

를 포함하되,

상기 확률 업데이트를 수행하는 단계는,

현재 확률 상태에 기초하여 기정의된 다중 입력 확률 상태 천이 테이블로부터 다음 확률 상태를 확인하는 단계, 여기서 상기 기정의된 다중 입력 확률 상태 천이 테이블은 상기 복수개의 빈(bin)들과 상기 현재 확률 상태 간의 모든 가능한 조합에 대한 다음 확률 상태 값들을 나타냄;

상기 현재 확률 상태에 기초하여 기정의된 다중 입력 구간 길이 테이블로부터 새로운 구간 길이를 산출하는 단계, 여기서 상기 기정의된 다중 입력 구간 길이 테이블은 구간 길이와 확률의 곱을 근사화하기 위한 테이블을 나타냄; 및

상기 새로운 구간 길이에 대해 재정규화를 수행하는 단계

를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

상기 복수개의 빈(bin)들은 동시에 처리되는 것을 특징으로 하는 방법.
제2항에 있어서,

상기 복수개의 빈(bin)들이 하나의 비트스트림에 포함되어 있는 경우, 상기 컨텍스트 정보는 공통된 하나의 컨텍스트 셋인 것을 특징으로 하는 방법.
제2항에 있어서,

상기 복수개의 빈(bin)들이 복수개의 비트스트림에 포함되어 있는 경우, 상기 컨텍스트 정보는 적어도 하나의 컨텍스트 셋을 포함하고, 상기 적어도 하나의 컨텍스트 셋은 각각 상기 복수개의 비트스트림에 대응되는 것을 특징으로 하는 방법.
제1항에 있어서,

상기 기정의된 다중 입력 구간 길이 테이블은 상기 현재 확률 상태의 확률값과 레인지 구간의 중간값을 곱한 결과 값에 기초하여 정의된 것을 특징으로 하는 방법.
비디오 신호에 대해 엔트로피 디코딩을 수행하는 방법에 있어서,

복수개의 빈(bin)들을 포함하는 적어도 하나의 비트스트림을 수신하는 단계; 및

상기 비트스트림에 대해 엔트로피 디코딩을 수행하는 단계

를 포함하되,

상기 엔트로피 디코딩을 수행하는 단계는,

이진 산술 디코딩을 위한 초기화를 수행하는 단계;

현재 확률 상태에 기초하여 기정의된 다중 입력 확률 상태 천이 테이블로부터 다음 확률 상태를 확인하는 단계, 여기서 상기 기정의된 다중 입력 확률 상태 천이 테이블은 상기 복수개의 빈(bin)들과 상기 현재 확률 상태 간의 모든 가능한 조합에 대한 다음 확률 상태 값들을 나타냄;

상기 현재 확률 상태에 기초하여 기정의된 다중 입력 구간 길이 테이블로부터 새로운 구간 길이를 산출하는 단계, 여기서 상기 기정의된 다중 입력 구간 길이 테이블은 구간 길이와 확률의 곱을 근사화하기 위한 테이블을 나타냄; 및

상기 새로운 구간 길이에 기초하여 상기 복수개의 빈(bin)들의 값을 결정하는 단계

를 포함하는 것을 특징으로 하는 방법.
제6항에 있어서,

상기 복수개의 빈(bin)들은 동시에 처리되는 것을 특징으로 하는 방법.
제7항에 있어서,

확률 업데이트가 상기 복수개의 빈들에 대응되는 컨텍스트 정보에 기초하여 수행되고,

상기 복수개의 빈(bin)들이 하나의 비트스트림에 포함되어 있는 경우, 상기 컨텍스트 정보는 공통된 하나의 컨텍스트 셋인 것을 특징으로 하는 방법.
제7항에 있어서,

확률 업데이트가 상기 복수개의 빈들에 대응되는 컨텍스트 정보에 기초하여 수행되고,

상기 복수개의 빈(bin)들이 복수개의 비트스트림에 포함되어 있는 경우, 상기 컨텍스트 정보는 적어도 하나의 컨텍스트 셋을 포함하고, 상기 적어도 하나의 컨텍스트 셋은 상기 복수개의 비트스트림에 대응되는 것을 특징으로 하는 방법.
제6항에 있어서,

상기 기정의된 다중 입력 구간 길이 테이블은 상기 현재 확률 상태의 확률값과 레인지 구간의 중간값을 곱한 결과 값에 기초하여 정의된 것을 특징으로 하는 방법.
비디오 신호에 대해 엔트로피 인코딩을 수행하는 장치에 있어서,

복수개의 빈(bin)들을 포함하는 적어도 하나의 비트스트림을 수신하는 비트스트림 수신부; 및

상기 복수개의 빈들에 대응되는 컨텍스트 정보에 기초하여 확률 업데이트를 수행하는 엔트로피 인코딩부;

를 포함하되,

상기 엔트로피 인코딩부는,

현재 확률 상태에 기초하여 기정의된 다중 입력 확률 상태 천이 테이블로부터 다음 확률 상태를 확인하고, 상기 현재 확률 상태에 기초하여 기정의된 다중 입력 구간 길이 테이블로부터 새로운 구간 길이를 산출하는 확률 업데이트부; 및

상기 새로운 구간 길이에 대해 재정규화를 수행하는 재정규화부

를 포함하고,

상기 기정의된 다중 입력 확률 상태 천이 테이블은 상기 복수개의 빈(bin)들과 상기 현재 확률 상태 간의 모든 가능한 조합에 대한 다음 확률 상태 값들을 나타내고, 상기 기정의된 다중 입력 구간 길이 테이블은 구간 길이와 확률의 곱을 근사화하기 위한 테이블을 나타내는 것을 특징으로 하는 장치.
제11항에 있어서,

상기 복수개의 빈(bin)들은 동시에 처리되고,

상기 복수개의 빈(bin)들이 하나의 비트스트림에 포함되어 있는 경우, 상기 컨텍스트 정보는 공통된 하나의 컨텍스트 셋을 나타내고,

상기 복수개의 빈(bin)들이 복수개의 비트스트림에 포함되어 있는 경우, 상기 컨텍스트 정보는 적어도 하나의 컨텍스트 셋을 포함하고, 상기 적어도 하나의 컨텍스트 셋은 각각 상기 복수개의 비트스트림에 대응되는 것을 특징으로 하는 장치.
제11항에 있어서,

상기 기정의된 다중 입력 구간 길이 테이블은 상기 현재 확률 상태의 확률값과 레인지 구간의 중간값을 곱한 결과 값에 기초하여 정의된 것을 특징으로 하는 장치.
비디오 신호에 대해 엔트로피 디코딩을 수행하는 장치에 있어서,

복수개의 빈(bin)들을 포함하는 적어도 하나의 비트스트림을 수신하는 비트스트림 수신부; 및

상기 비트스트림에 대해 엔트로피 디코딩을 수행하는 엔트로피 디코딩부

를 포함하되,

상기 엔트로피 디코딩부는,

이진 산술 디코딩을 위한 초기화를 수행하는 초기화부;

현재 확률 상태에 기초하여 기정의된 다중 입력 확률 상태 천이 테이블로부터 다음 확률 상태를 확인하고, 상기 현재 확률 상태에 기초하여 기정의된 다중 입력 구간 길이 테이블로부터 새로운 구간 길이를 산출하고, 상기 새로운 구간 길이에 기초하여 상기 복수개의 빈(bin)들의 값을 결정하는 확률 업데이트부

를 포함하고,

상기 기정의된 다중 입력 확률 상태 천이 테이블은 상기 복수개의 빈(bin)들과 상기 현재 확률 상태 간의 모든 가능한 조합에 대한 다음 확률 상태 값들을 나타내고, 상기 기정의된 다중 입력 구간 길이 테이블은 구간 길이와 확률의 곱을 근사화하기 위한 테이블을 나타내는 것을 특징으로 하는 장치.
제14항에 있어서,

상기 복수개의 빈(bin)들은 동시에 처리되고,

상기 확률 업데이트부는 상기 복수개의 빈들에 대응되는 컨텍스트 정보에 기초하여 확률 업데이트를 수행하고,

상기 복수개의 빈(bin)들이 하나의 비트스트림에 포함되어 있는 경우, 상기 컨텍스트 정보는 공통된 하나의 컨텍스트 셋을 나타내고,

상기 복수개의 빈(bin)들이 복수개의 비트스트림에 포함되어 있는 경우, 상기 컨텍스트 정보는 적어도 하나의 컨텍스트 셋을 포함하고, 상기 적어도 하나의 컨텍스트 셋은 각각 상기 복수개의 비트스트림에 대응되는 것을 특징으로 하는 장치.