KR20170058335A

KR20170058335A - 분리 가능한 변환에 기초하여 적응적으로 비디오 신호를 인코딩 및 디코딩하는 방법 및 장치

Info

Publication number: KR20170058335A
Application number: KR1020167036420A
Authority: KR
Inventors: 새드아미르; 에네스 에길메즈힐라미; 흐슈안 챠오융
Original assignee: 엘지전자 주식회사
Priority date: 2014-09-19
Filing date: 2015-07-14
Publication date: 2017-05-26
Also published as: US20170280140A1; WO2016043417A1

Abstract

본 발명은, 적응적 비디오 코딩을 수행하는 방법에 있어서, 그룹 인덱스와 MxM 및 NxN 차원의 선형 변환들을 포함하는 변환 서브셋을 결정하는 단계; 상기 결정된 변환 서브셋들 중 변환 유닛에 대한 최적의 변환 서브셋을 선택하는 단계; 및 상기 최적의 변환 서브셋을 인코딩하는 단계를 포함하되, 상기 선형 변환들은 널(null) 변환과 사전에 정의된 변환들 중 적어도 하나에 대응되고, 상기 변환 유닛의 행과 열 각각은 서로 다른 선형 변환을 가질 수 있는 것을 특징으로 하는 방법을 제공한다.

Description

분리 가능한 변환에 기초하여 적응적으로 비디오 신호를 인코딩 및 디코딩하는 방법 및 장치{METHOD AND APPARATUS FOR ENCODING AND DECODING VIDEO SIGNAL ADAPTIVELY ON BASIS OF SEPARABLE TRANSFORMATION}

본 발명은 비디오 신호를 처리하기 위한 방법 및 장치에 관한 것이며, 보다 상세하게는, 분리 가능한 변환(separable transform)에 기초하여 적응적으로 비디오 신호를 인코딩 및 디코딩하는 방법 및 장치에 관한 것이다.

압축 코딩은 디지털화된 정보를 통신 라인으로 전송하거나 디지털화된 정보를 저장 매체에 적절한 형태로 저장하기 위한 일련의 신호 처리 기술들을 의미한다. 비디오, 이미지 및 음성과 같은 미디어가 압축 코딩의 대상이 될 수 있다. 특히, 비디오에 대한 압축 코딩을 수행하는 기술을 비디오 압축이라 부른다.

차세대 비디오 컨텐츠는 높은 공간 해상도, 높은 프레임 속도 및 고차원의 비디오 화면 표현을 제공할 것으로 기대되고 있다. 이러한 컨텐츠의 처리를 위해서는 상당한 양의 메모리 저장 용량, 메모리 접근 속도, 및 처리 능력이 필요하다.

이에 따라, 선형 변환을 비디오 시퀀스 내 서로 다른 부분의 신호의 통계적 특성에 적응시킴으로써 보다 효율적인 비디오 압축 방법을 제공하는 것이 필요하게 되었다.

가장 일반적인 형태의 적응에서,

픽셀의 비디오 블록이

회 연산을 필요로 하는

행렬로써 변환된다. 분리 가능한 변환(separable transform)을 사용하는 경우, 비디오 블록의 각 수직 및 수평의 N 픽셀 라인은

회 연산의 작은 복잡도를 가지는

행렬을 사용하여 변환될 수 있으며, 일부 빠른 변환은

회 연산으로 계산될 수 있다. 그러나, 이러한 연산 복잡도를 가지는 최고 수준의 적응성을 얻기 위해서는 2N개에 이르는 서로 다른 라인 변환이 허용될 필요가 있다.

본 발명은 변환 행렬 데이터를 인코딩하고, 각각의 2N개 라인에서 어떤 변환을 사용할 것인지를 인코딩하기 위한 비트레이트 오버헤드를 감소시키는 방법을 제공한다. 본 발명에서는, 변환 행렬 라인 내의 모든 원소들이 양자화 과정을 통해 0으로 되는 경우가 빈번히 발생되고, 이는 실제 변환과 관련이 없는 0의 행렬(null transform)로 대체될 수 있다는 점에 기반한다.

본 발명은 비디오 세그먼트(블록, 프레임 등)에 대해 그래프 기반 신호 표현을 이용하여 라인 변환의 집합을 인코딩할 수 있다. 그리고, 널 변환(null transform) 및 DCT와 같은 다른 기본 변환들을 추가함으로써 변환 집합을 형성할 수 있다. 상기 변환 집합은 인코딩될 수 있으며, 이때 변환 집합 내 각 변환들은 인덱스로 정의될 수 있다.

그리고, 본 발명은 각 비디오 세그먼트에 대해 변환 집합들 중에서 최적의 변환 집합(optimal transform set)을 선택하고, 선택된 최적의 변환 집합은 부가 정보(side information)로 인코딩하여 전송할 수 있다.

본 발명은, 변환을 적응적으로 변경시키는 유연성을 확보하며, 연산 복잡도를 감소시킬 수 있으며, 또한 코딩 변환 계수를 보완할 수 있다.

또한, 본 발명은, 서로 다른 비디오 세그먼트들에서 변화하는 통계적 특성에 대해 보다 빠른 적응을 가능하게 하며, 변환을 수행함에 있어서의 변동성을 제공할 수 있다.

또한, 본 발명은, 고정된 분리 가능한 변환을 이용함으로써 비디오 신호를 코딩하기 위한 연산 복잡도를 감소시킬 수 있으며, 변환 행렬의 전송 및 변환 선택에서의 오버헤드를 현저히 감소시킬 수 있다.

도 1 및 2는 본 발명이 적용되는 일실시예들로써, 비디오 신호를 처리하는 인코더 및 디코더의 개략적 블록도를 예시한다.
도 3은 본 발명이 적용되는 일실시예로써,

변환 블록 내 잔여 픽셀 값들의 표본 변동을 예시하는 도면이다.
도 4는 본 발명이 적용되는 일실시예로써, 분리 가능한 변환(separable transform)을 설명하기 위한 행 변환과 열 변환을 나타낸다.
도 5는 본 발명이 적용되는 일실시예로써, 각 행과 열마다 다른 변환 타입이 적용되는 분리 가능한 변환(separable transform)을 설명하기 위한 행 변환과 열 변환을 나타낸다.
도 6은 본 발명이 적용되는 일실시예로써, 분리 가능한 변환(separable transform)의 각 행과 열에 적용가능한 변환 타입의 예를 나타낸다.
도 7은 본 발명이 적용되는 일실시예로써, 분리 가능한 변환(separable transform)의 선택 및 0의 신호 처리(zero signaling)를 결합하는 변환 유닛의 개략적인 블록도를 예시한다.
도 8 및 9는 본 발명이 적용되는 일실시예들로써, 분리 가능한 변환(separable transform) 선택 및 0의 신호 처리(zero signaling)에 기초하여 비디오 신호를 코딩하는 방법을 설명하는 흐름도이다.

발명의 실시를 위한 최선의 형태

본 발명은, 적응적 비디오 코딩을 수행하는 방법에 있어서, 그룹 인덱스와

및

차원의 선형 변환들을 포함하는 변환 서브셋을 결정하는 단계; 상기 결정된 변환 서브셋들 중 변환 유닛에 대한 최적의 변환 서브셋을 선택하는 단계; 및 상기 최적의 변환 서브셋을 인코딩하는 단계를 포함하되, 상기 선형 변환들은 널(null) 변환과 사전에 정의된 변환들 중 적어도 하나에 대응되고, 상기 변환 유닛의 행과 열 각각은 서로 다른 선형 변환을 가질 수 있는 것을 특징으로 하는 방법을 제공한다.

또한, 본 발명은, 상기 최적의 변환 서브셋에 기초하여 잔여 블록(residual block)의 변환 계수를 산출하는 단계; 상기 변환 계수를 양자화하는 단계; 및 상기 양자화된 변환 계수의 인덱스들을 인코딩하는 단계를 더 포함하는 것을 특징으로 한다.

또한, 본 발명에서, 상기 최적의 변환 서브셋은 변환 블록들 각각에 대해 선택되는 것을 특징으로 한다.

또한, 본 발명에서, 상기 변환 블록들은 가변 크기의 블록들 또는 정사각형이 아닌 블록들을 포함하는 것을 특징으로 한다.

또한, 본 발명에서, 상기 방법은 비디오 세그먼트에 대해 반복적으로 수행되는 것을 특징으로 한다.

또한, 본 발명은, 비디오 신호를 적응적으로 디코딩하는 방법에 있어서, 인덱스를 포함하는 비디오 신호를 수신하는 단계; 상기 비디오 신호로부터 인덱스를 추출하는 단계; 및 상기 인덱스에 해당하는 최적의 역변환 서브셋을 기반으로 잔여 블록의 역변환을 수행하는 단계를 포함하는 것을 특징으로 하는 방법을 제공한다.

또한, 본 발명은, 적응적 비디오 코딩을 수행하는 장치에 있어서, 그룹 인덱스와

및

차원의 선형 변환들을 포함하는 변환 서브셋을 결정하고, 상기 결정된 변환 서브셋들 중 변환 유닛에 대한 최적의 변환 서브셋을 선택하며, 상기 최적의 변환 서브셋을 코딩하는 변환 유닛을 포함하되, 상기 선형 변환들은 널(null) 변환과 사전에 정의된 변환들 중 적어도 하나에 대응되고, 상기 변환 유닛의 행과 열 각각은 서로 다른 선형 변환을 가질 수 있는 것을 특징으로 하는 장치를 제공한다.

또한, 본 발명은, 상기 최적의 변환 서브셋에 기초하여 산출된 잔여 블록(residual block)의 변환 계수를 양자화하는 양자화 유닛; 및 상기 양자화된 변환 계수의 그룹 인덱스를 인코딩하는 엔트로피 인코딩 유닛을 더 포함하는 것을 특징으로 한다.

또한, 본 발명은, 비디오 신호를 적응적으로 디코딩하는 장치에 있어서, 그룹 인덱스를 포함하는 비디오 신호를 수신하고, 상기 비디오 신호로부터 상기 그룹 인덱스를 추출하며, 상기 그룹 인덱스에 대응되는 최적의 역변환 서브셋에 기초하여 잔여 블록의 역변환을 수행하는 역변환 유닛을 포함하는 것을 특징으로 하는 장치를 제공한다.

발명의 실시를 위한 형태

이하, 첨부된 도면을 참조하여 본 발명의 실시예의 구성과 그 작용을 설명하며, 도면에 의해서 설명되는 본 발명의 구성과 작용은 하나의 실시예로서 설명되는 것이며, 이것에 의해서 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 제한되지는 않는다.

아울러, 본 발명에서 사용되는 용어는 가능한 한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 특정한 경우는 출원인이 임의로 선정한 용어를 사용하여 설명한다. 그러한 경우에는 해당 부분의 상세 설명에서 그 의미를 명확히 기재하므로, 본 발명의 설명에서 사용된 용어의 명칭만으로 단순 해석되어서는 안 될 것이며 그 해당 용어의 의미까지 파악하여 해석되어야 함을 밝혀두고자 한다.

또한, 본 발명에서 사용되는 용어들은 발명을 설명하기 위해 선택된 일반적인 용어들이나, 유사한 의미를 갖는 다른 용어가 있는 경우 보다 적절한 해석을 위해 대체 가능할 것이다. 예를 들어, 신호, 데이터, 샘플, 픽쳐, 프레임, 블록 등의 경우 각 코딩 과정에서 적절하게 대체되어 해석될 수 있을 것이다.

도 1 및 2는 본 발명이 적용되는 일실시예들로써, 비디오 신호를 처리하는 인코더 및 디코더의 개략적 블록도를 예시한다.

도 1의 인코더(100)는 변환 유닛(110), 양자화 유닛(120), 역양자화 유닛(130), 역 변환 유닛(140), 버퍼(150), 예측 유닛(160), 및 엔트로피 인코딩 유닛(170)을 포함한다.

상기 인코더(100)는 비디오 신호를 수신하고 상기 비디오 신호로부터 상기 예측 유닛(160)에서 출력된 예측된 신호를 차감하여 예측 에러를 생성한다.

생성된 상기 예측 에러는 상기 변환 유닛(110)으로 전송된다. 상기 변환 유닛(110)은 상기 예측 에러에 변환 방식을 적용함으로써 변환 계수를 생성한다.

이러한 경우, 본 발명은 예측 및 선형 변환을 결합하는 종래의 형태의 비디오 코딩에 적용될 수 있다.

기존 변환 과정은 정사각형의 동일한 크기를 갖는 픽셀 블록(예를 들어,

픽셀 블록)에 적용되었다. 그러나, 본 발명은 변환되는 픽셀 블록의 선택을 확장할 뿐만 아니라, 정사각형이 아닌 가변 크기의 블록을 허용할 수 있다.

본 발명은 수학식 1과 같이

행렬로 구성된 잔여 신호 값들(즉, 원본 픽셀 값에서 예측 픽셀 값을 뺀 값)의 블록을 처리하는 경우를 고려할 수 있다.

본 발명에 따르면, 코딩 툴 구현시 복잡도를 감소시키기 위해 상기 수학식 1의 행렬 R의 선형 변환(linear transform)이 수학식 2과 같이 고정된 분리 가능한 형태(fixed separable form)로 정의될 수 있다.

여기서, C는 변환 계수 행렬(transform coefficient matrix)을 나타내고, U 및 V는 각각

및

차원의 직교 행렬(orthogonal transform)을 나타낸다.

코딩 이전에, 상기 변환 계수 행렬은 양자화되어 행렬

를 생성할 수 있다. 그리고, 디코더에 의해 복원된 상기 잔여 행렬은 아래 수학식 3과 같이 역변환을 사용하여 산출될 수 있다.

이 공식을 이용하여, 상기 변환 계수 행렬 C는

회의 연산(뎃셈 및 곱셈)으로 계산될 수 있다. U 및 V가 이산 코사인 변환(Discrete Cosine Transform: DCT)에 대응되는 경우에, 상기 변환 계수 행렬 C는

회의 연산으로 계산될 수 있다.

수학식 3을 참조하면, 비디오 코딩 시스템에서,

,

일 때(즉, U가 V의 전치 행렬(transpose matrix)일 때) C는

또는

회의 연산으로 계산될 수 있다.

상기 양자화 유닛(120)은 상기 변환 계수를 양자화하고 상기 양자화된 계수를 엔트로피 인코딩 유닛(170)으로 전송한다.

상기 엔트로피 인코딩 유닛(170)은 상기 양자화된 계수에 대해 엔트로피 코딩을 수행하고 엔트로피 코딩된 신호를 출력한다.

한편, 양자화 유닛(120)에 의해 출력된 상기 양자화된 신호는 예측 신호를 생성하기 위해 사용될 수 있다. 예를 들어, 상기 인코더(100) 루프 내의 상기 역양자화 유닛(130) 및 상기 역변환 유닛(140)은 상기 양자화된 신호에 역양자화 및 역변환을 수행하여 상기 양자화된 신호가 예측 에러로 복원되도록 할 수 있다. 복원된 신호는 상기 복원된 예측 에러를 상기 예측 유닛(160)에 의해 출력된 예측 신호에 더함으로써 생성될 수 있다.

상기 버퍼(150)는 상기 복원된 신호를 상기 예측 유닛(160)의 향후 참조를 위해 저장할 수 있다.

상기 예측 유닛(160)은 이전에 복원되어 상기 버퍼(150)에 저장된 신호를 사용하여 예측 신호를 생성할 수 있다.

도 2의 디코더(200)는 엔트로피 디코딩 유닛(210), 역양자화 유닛(220), 역 변환 유닛(230), 버퍼(240), 및 예측 유닛(250)을 포함한다.

도 2의 디코더(200)는 도 1의 인코더(100)에 의해 출력된 신호를 수신한다.

상기 엔트로피 디코딩 유닛(210)은 수신된 신호에 대한 엔트로피 디코딩을 수행한다. 상기 역양자화 유닛(220)은 양자화 단계 크기에 대한 정보를 기반으로 엔트로피 디코딩된 신호로부터 변환 계수를 획득한다. 상기 역변환 유닛(230)은 상기 변환 계수에 대한 역변환을 수행함으로써 예측 에러를 획득한다. 복원된 신호 상기 획득된 예측 에러를 상기 예측 유닛(250)에 의해 출력된 예측 신호에 더함으로써 생성된다.

상기 버퍼(240)는 상기 예측 유닛(250)의 향후 참조를 위해 상기 복원된 신호를 저장한다.

상기 예측 유닛(250)은 이전에 복원되어 상기 버퍼(240)에 저장된 신호를 사용하여 예측 신호를 생성한다.

본 발명이 적용되는 상기 예측 방법은 상기 인코더(100) 및 상기 디코더(200) 모두에 사용될 것이다.

도 3은 본 발명이 적용되는 일실시예로써,

변환 블록 내 잔여 픽셀 값들의 표본 변동을 예시하는 도면이다.

수학식 2와 같은 고정되고 분리 가능한 블록 선형 변환의 정의에서의 주된 문제점은 모든 잔여 블록이 동일한 등방성 통계 특성(isotropic statistical properties)을 가질 수 있다는 것이다. 그러나, 실제로는 도 3에 도시된 것과 같이 비디오 유형에 따라, 또는 해당 픽셀 블록에 대해 사용된 예측에 따라 상당히 다른 분포들이 관찰된다.

잔여 블록들에 대한 분포 변화(distribution variations) 특성을 이용하고 보다 나은 압축을 얻기 위한 방법 중 하나는 각 블록에 대해 다른 선형 변환을 사용하는 것, 즉 적응적으로 선형 변환을 적용하는 것이다.

예를 들어, 본 발명은 잔여 블록들이 특정 개수의 클래스들로 분리되어 있는 경우(잔여 블록 분류), 각 클래스의 블록들에 대한 통계를 수집하여, 상기 클래스에 대한 KLT(Karhunen-Lo'eve Transform: KLT)를 계산하고, 그 분류에 해당하는 변환을 각 블록에 적용할 수 있다.

선형 변환이 전체 잔여 블록에 적용될 수 있기 때문에, 본 발명은 그 일반적인 형태를 나타내기 위해 표시를 변경할 수 있다. 본 발명이 행렬 R 및 C를 행(row) 중심으로 스캔하면서 p 및 f를 수학식 4에서와 같이 MN 차원 벡터로 정의하는 경우를 고려할 수 있다.

그러면, 본 발명은 수학식 5와 같이 표시될 수 있다.

여기서,

는 해당 블록에 대해 이용 가능한 행렬 중 선택된 행렬을 나타낸다.

이러한 경우에, 행렬

가

차원을 가지기 때문에, 본 발명은 상기 수학식 5의 분리 불가능한 변환(non-separable transforms)을 사용하여 R 로부터 C를 계산하기 위해

연산을 필요로 할 수 있다. 이러한 연산의 복잡도는 수학식 2의 분리 가능한 실시예의 경우보다 상당히 클 수 있다.

따라서, 본 발명이 적용되는 적응적 변환을 구현하는 방식으로 아래와 같은 방법을 제안할 수 있다.

첫 번째 실시예는, 인코더 및 디코더에서 이용 가능한 정보만을 사용하여 서로 다른 변환들{

}을 계산하고 선택하는 것이다.

두 번째 실시예는, 인코더가 서로 다른 변환들{

}을 계산하고 선택하도록 하고, 디코더에 모든 변환 행렬 및 각 블록에 대해 어떠한 변환을 사용해야 하는지에 대한 정보를 전송하는 것이다.

세 번째 실시예는, 상기 두 접근 방식을 혼합한 것으로, 상기 인코더가 변환에 대한 결정을 하지만, 코딩 변환 데이터에 대해 필요한 오버헤드를 최소화하기 위해 상기 인코더 및 디코더가 정보를 공유하는 것이다.

첫 번째 실시예는 일관된 통계적 특성을 가지는 데이터에 보다 적합할 수 있고, 두 번째 실시예는 조밀하지 않은 잔여 신호의 코딩 집합에 요구되는 낮은 비트레이트에 비해 조밀한 행렬 전체를 인코딩하기 위한 오버헤드가 매우 크기 때문에 간단한 경우에 적용될 수 있다.

그리고, 상기 두 기술의 결합은 보다 나은 압축 결과를 생성할 수 있고, 이 방식은 적응을 위해 사용되는 비트레이트를 유지하고 부가 정보를 제어할 필요가 있다. 또한, 본 발명은 상기 실시예들의 문제점을 극복하기 위해 다른 실시예를 제공할 수 있다.

도 4는 본 발명이 적용되는 일실시예로써, 분리 가능한 변환(separable transform)을 설명하기 위한 행 변환과 열 변환을 나타낸다.

본 발명은 상기 실시예들의 문제점을 해결하기 위해 다음과 같이 설계될 수 있다.

첫 번째로, 각 블록에 적용되는 선형 변환을 이에 대한 통계적 특성에 합치되도록 변경하는 것이 바람직하다.

두 번째로, 분리 불가능한 변환(non-separable transform)의 높은 계산 복잡도를 회피하는 것이다.

세 번째로, 전반적인 코딩에서의 이득을 얻기 위해 변환 행렬 데이터의 전송 및 변환 선택에 이용되는 오버 헤드가 작아야 한다.

따라서, 본 발명의 일 실시예에서는, 다음과 같이 분리 가능한 변환(separable transform)을 정의할 수 있다.

도 4를 살펴보면, 도 4(a)는

블록에 대해 적용되는 행 변환(row transform)을 나타내고, 도 4(b)는

블록에 대해 적용되는 열 변환(column transform)을 나타낸다.

도 4(a)에서는 각 행마다 동일하게 DCT 변환 행렬이 적용되는 것을 확인할 수 있고, 도 4(b)에서는 각 열마다 동일하게 DCT 변환 행렬이 적용되는 것을 확인할 수 있다.

도 5는 본 발명이 적용되는 일실시예로써, 각 행과 열마다 다른 변환 타입이 적용되는 분리 가능한 변환(separable transform)을 설명하기 위한 행 변환과 열 변환을 나타낸다.

본 발명은

행렬

를 사용하는 대신, 수학식 6 및 7에서와 같은

및

직교 행렬(orthogonal matrix)을 사용할 수 있다.

이러한

행렬 집합들은 R의 행과 열을 변환하기 위해 순차적으로 이용될 수 있고, 이를 통해 C를 획득할 수 있다. 인코더에서의 전체 과정은, 수학식 8 내지 12에서와 같은 다음 연산들의 시퀀스로 정의될 수 있다.

예를 들어, 상기 수학식 8에서는 행렬 행으로부터의 벡터를 획득하는 것을 나타내고, 상기 수학식 9에서는 수평 변환을 수행하는 것을 나타내고, 상기 수학식 10에서는 변환된 열로부터의 벡터를 획득하는 것을 나타내며, 상기 수학식 11에서는 수직 변환을 수행하는 것을 나타낸다. 또한, 상기 수학식 12에서는 벡터로부터의 행렬 열을 산출하는 것을 나타낸다.

상기 설명된 과정의 역순에 따라, 디코더는 역 행렬

및

을 이용하여 역변환(inverser transform)을 수행할 수 있다. 이때, 상기 역변환에 대한 최대 연산 개수는

이 될 수 있다.

본 발명이 적용되는 비디오 신호의 잔여 신호에 대한 변환의 중요한 특성은 양자화된 변환 계수들

의 행렬이 많은 개수의 0으로 구성될 수 있다는 것이다. 또는, 모든 요소가 0과 같은 블록을 가질 수도 있다. 따라서, 본 발명은 보다 일반적인 방법을 제시하고자 한다.

의 조밀하지 않은(sparse) 특징을 이용하기 위해, 본 발명은

및

행렬이 0의 행렬, 즉 널 변환(null transform)을 포함할 수 있도록 한다.

상기 널 변환(null transform)은 실제 변환시 이용되는 것은 아니지만, 대신 해당 신호가 0으로 취급되는 신호를 디코더에 보내기 위해 사용되며, 따라서 어떠한 선형 변환(linear transform)에 의해서도 영향을 받지 않는다.

따라서, 본 발명의 다른 실시예는 각 행과 열마다 다른 변환 타입이 적용되는 분리 가능한 변환(separable transform)을 정의할 수 있다.

도 5를 살펴보면, 도 5(a)는

블록에 대해 적용되는 행 변환(row transform)을 나타내고, 도 5(b)는

블록에 대해 적용되는 열 변환(column transform)을 나타낸다.

도 5(a)에서는 각 행마다 다른 변환 행렬이 적용되는 것을 확인할 수 있고, 도 5(b)에서는 각 열마다 다른 변환 행렬이 적용되는 것을 확인할 수 있다. 예를 들어, 도 5(a)를 살펴보면, 첫번째 행에서는 DCT 변환이, 두번째 행에서는 널 변환(null transform)이, 세번째 행에서는 DST 변환이, 네번째 행에서는 DCT 변환이, 그리고 i번째 행에서는 KLT 변환이 적용될 수 있다. 그리고, 도 5(b)를 살펴보면, 첫번째 열에서는 DCT 변환이, 두번째 열에서는 널 변환(null transform)이, 세번째 열에서는 DST 변환이, 네번째 열에서는 DCT 변환이, 그리고 i번째 열에서는 KLT 변환이 적용될 수 있다.

도 6은 본 발명이 적용되는 일실시예로써, 분리 가능한 변환(separable transform)의 각 행과 열에 적용가능한 변환 타입의 예를 나타낸다.

본 발명은 각 행과 열마다 다른 변환 타입이 적용되는 분리 가능한 변환(separable transform)을 정의하며, 이때 상기 다른 변환 타입은 변환 타입 식별자에 의해 정의될 수 있다.

또한, 상기 다른 변환 타입은 널 변환(null transform) 및 사전에 정의된 변환들 중 적어도 하나를 포함할 수 있다. 예를 들어, 상기 사전에 정의된 변환은 DCT(Discrete Cosine Transform), ADST(Asymmetric Discrete Sine Transform), DST(Discrete Sine Transform), DFT(Discrete Fourier Transform), KLT(Karhunen-Lo'eve Transform) 등을 포함할 수 있다.

도 6을 살펴보면, 본 발명은 각 행과 열마다 적용될 변환 타입을 식별하기 위해

를 정의할 수 있다. 예를 들어,

이면 널 변환(null transform)을 나타내고, 1이면 DCT(Discrete Cosine Transform)를 나타내고, 2이면 DST(Discrete Sine Transform)를 나타내고, 3이면 KLT(Karhunen-Lo'eve Transform), 4이면 DFT(Discrete Fourier Transform)를 나타낼 수 있다. 또한, 다른 변환 타입을 추가하기 위해 예약된 영역을 정의할 수도 있다.

도 7은 본 발명이 적용되는 일실시예로써, 분리 가능한 변환(separable transform)의 선택 및 0의 신호 처리(zero signaling)를 결합하는 변환 유닛의 개략적인 블록도를 예시한다.

도 7을 참조하면, 본 발명이 적용되는 변환 유닛(110)은 변환 인코딩 유닛(111), 변환 추가 유닛(112), 변환 선택 유닛(113) 및 인덱스 생성 유닛(114)을 포함한다.

본 발명은 비디오 세그먼트(블록, 프레임 등)에 대해 반복되는 점진적 코딩(progressive coding) 방식을 제공한다.

상기 변환 인코딩 유닛(111)은, 예를 들어, 그래프 라플라시안(Laplacian)에 기반하여 크기가

및

(또는

인 경우는 하나의 크기)인 직교 라인 변환의 집합을 인코딩할 수 있다.

상기 변환 추가 유닛(112)은 널 변환(null transform) 및 사전에 정의된 변환을 추가함으로써 아래 수학식 13에서와 같은 2개의 변환 집합을 형성할 수 있다.

상기 수학식 13에서, G는 행(row)에 대한 변환들의 집합을 나타내고, H는 열(column)에 대한 변환들의 집합을 나타낸다. 여기서, 행 변환 집합 G는

개의 변환

을 포함할 수 있고, 열 변환 집합 H는

개의 변환

을 포함할 수 있고, 상기

개의 변환 요소들은 서로 다른 변환 행렬일 수 있다. 예를 들어,

는 DCT이고,

은 DST이고,

은 KLT일 수 있고,

는 ADST이고,

은 DCT이고, 은 KLT일 수 있다.

한편, 상기 행 변환 집합 G 및 열 변환 집합 H는 인코더 및 디코더 중 적어도 하나에 이미 저장되어 있을 수 있거나, 또는 다른 코딩 정보로부터 유추할 수 있다.

다른 예로, 상기 행 변환 집합 G 및 열 변환 집합 H는 인코딩되어 디코더로 전송될 수 있다. 또는, 인코더 및 디코더 중 적어도 하나에 저장된 변환 테이블에 대응되는 인덱스 정보만 디코더에 전송하고, 디코더는 수신된 인덱스 정보에 기초하여 상기 행 변환 집합 G 및 열 변환 집합 H를 생성할 수 있다.

그리고, 전송된 변환들에 대한 인덱스 배열(index array)을 인코딩함으로써 변환 집합을 정의할 수 있다. 예를 들어, 상기 인덱스 배열은 아래 수학식 14와 같이 인덱스 집합으로 표현할 수 있다.

상기 수학식 14에서,

는 행 변환(row transform)에 대응되는 인덱스들의 집합(index set)을 나타내고,

는 열 변환(column transform)에 대응되는 인덱스들의 집합을 나타낸다. 그리고,

이고,

는 각 행 변환에 대응되는 인덱스를 나타내고,

는 각 열 변환에 대응되는 인덱스를 나타내며, k는 그룹 인덱스를 나타낸다.

각 행과 열에 대한 인덱스 집합과 그에 대응되는 변환 집합과의 관계는 아래 수학식 15와 같이 정의될 수 있다.

상기 수학식 15에서,

와

는 각각 행 변환과 열 변환을 나타내며,

와

는 각각 인덱스

와

에 대응되는 행 변환과 열 변환을 나타낸다.

예를 들어, 그룹 인덱스

에 대해,

M개의 행 변환 집합이 정의될 수 있고,

N개의 열 변환 집합이 정의될 수 있다.

이때, 상기 M 개의 행 변환 각각은 기정의된 행 변환 집합 중 어느 하나에 대응될 수 있다. 구체적 예로, 상기 M 개의 행 변환 각각은 상기 수학식 13의 행 변환 집합 G에 포함된

개의 변환

중 어느 하나에 대응될 수 있다.

또한, 상기 N 개의 열 변환 각각은 기정의된 열 변환 집합 중 어느 하나에 대응될 수 있다. 구체적 예로, 상기 N 개의 열 변환 각각은 상기 수학식 13의 열 변환 집합 H의

개의 변환

중 어느 하나에 대응될 수 있다.

각 비디오 블록에 대해, 상기 변환 선택 유닛(113)은 상기 전송된

개의 행/열 변환 집합들 중에서 최적의 행/열 변환 집합을 선택할 수 있으며, 상기 인덱스 생성 유닛(114)은 상기 최적의 행/열 변환 집합에 대응되는 그룹 인덱스 k를 인코딩할 수 있다. 이때, 상기 최적의 행/열 변환 집합은 율-왜곡(Rate Distortion, RD) 비용 함수에 기초하여 선택될 수 있다.

한편, 전송된 패턴과 실제 패턴 사이의 차이(예를 들어, 널 변환의 더 많은 사용)는 상기 그룹 인덱스 k를 인코딩한 직후에 코딩될 수 있다.

또한, 잔여 블록 R의 변환 C는 수학식 8의 연산들의 시퀀스를 사용하여 계산될 수 있다.

이후, 상기 양자화 유닛(120)은 변환 C를 양자화하여

를 획득하고 정수로 양자화된

의 그룹 인덱스를 인코딩할 수 있다.

상기 디코더는 최적의 그룹 인덱스 k를 탐색하는 단계를 제외하고 인코더 연산을 단순히 역으로 실행함으로써 정의될 수 있다. 디코딩 과정은 도 9에서 보다 상세히 설명하도록 한다.

도 8 및 9는 본 발명이 적용되는 실시예에 따른 분리 가능한 변환 선택 및 0의 신호 처리의 결합을 기반으로 하는 비디오 신호의 코딩 방법을 예시하는 흐름도이다.

본 발명의 실시예에서, 분리 가능한 변환 선택 및 영의 신호 처리의 결합에 기초하는 적응적 비디오 인코딩을 수행하는 방법이 제공된다.

도8을 참조하면, 상기 인코더는

및

차원의 직교 변환을 인코딩할 수 있다(S810). 이러한 경우에, 상기

및

차원의 직교 변환은 그래프 라플라시안(laplacian)에 기반할 수있다.

상기 인코더는 널 변환(null transform) 및 사전에 정의된 변환(predefined transform) 중 적어도 하나를 추가함으로써 별도의 직교 변환 집합을 생성할 수 있다(S820). 이때, 상기 널 변환(null transform) 및 사전에 정의된 변환(predefined transform)은 변환 타입 식별자(transform type identifier,

)로 정의될 수 있고, 인코더는 변환 타입 식별자를 코딩하여 전송함으로써 전송 효율을 높일 수 있다.

상기 인코더는 율-왜곡(Rate Distortion, RD) 비용을 최소화하는 최적의 변환 집합(optimal transform set)을 선택할 수 있다(S830). 이 경우, 상기 최적의 변환 집합(optimal transform set)은 변환 블록 각각에 대해 선택될 수 있다. 또한, 상기 변환 블록들은 가변 크기의 블록이나, 정사각형이 아닌 블록을 포함할 수 있다.

상기 인코더는 상기 최적의 변환 집합(optimal transform set)에 대응되는 그룹 인덱스를 인코딩할 수 있다(S840). 예를 들어, 상기 그룹 인덱스는 수학식 14에서와 같이 정의될 수 있다. 또한, 상기 직교 변환들이

및

의 크기를 가지는 경우, 해당 그룹 인덱스의

개의 인덱스 배열들(index arrays)이 인코딩된다.

상기 과정은 비디오 세그먼트에 대해 반복적으로 수행될 수 있다.

본 발명의 또 다른 실시예에서, 분리 가능한 변환 선택 및 0의 신호(zero signaling) 처리에 기초하여 적응적 비디오 디코딩을 수행하는 방법이 제공된다.

도 9를 참조하면, 상기 디코더는 그룹 인덱스를 포함하는 비디오 신호를 수신하고(S910), 비디오 신호로부터 그룹 인덱스를 추출할 수 있다(S920). 상기 디코더는 추출된 그룹 인덱스에 대응되는 역변환 집합(inverse-transform set)을 획득할 수 있다. 예를 들어, 상기 역변환 집합은 인코더에서 선택된 최적의 변환 집합에 대응될 수 있다. 상기 역변환 집합은 인코더 및 디코더 중 적어도 하나에 이미 저장되어 있을 수 있고, 이 경우 상기 역변환 집합은 상기 그룹 인덱스를 이용하여 디코더 내 저장된 곳으로부터 불러올 수 있다.

한편, 상기 디코더는 수신된 비디오 신호에 대해 엔트로피 디코딩 및 역양자화를 수행하여 역양자화된 변환 계수를 획득할 수 있다. 여기서, 상기 역양자화된 변환 계수는 인코더에서 선택된 최적의 변환 집합에 기초하여 변환된 계수를 의미할 수 있다.

이후, 상기 디코더는 상기 역변환 집합(inverse-transform set)에 기초하여 잔여 신호(residual signal)에 대해 역변환을 수행할 수 있다(S930). 여기서, 상기 잔여 신호(residual signal)는 상기 역양자화된 변환 계수(dequantized transform coefficient)를 의미할 수 있다. 그리고, 상기 역변환 집합은 널 변환(null transform) 및 사전에 정의된 변환(predefined transform)이 추가된 별도의 변환 집합 중 어느 하나에 대응될 수 있다.

상기와 같이 역변환된 잔여 신호는 예측 신호에 더해짐으로써 복원 신호를 생성할 수 있다.

상기 기술된 것과 같이, 본 발명에서 설명한 실시예들은 프로세서, 마이크로 프로세서, 컨트롤러 또는 칩 상에서 구현되어 수행될 수 있다. 예를 들어, 상기 도 1, 도 2 및 도 7에서 도시한 기능 유닛들은 컴퓨터, 프로세서, 마이크로 프로세서, 컨트롤러 또는 칩 상에서 구현되어 수행될 수 있다.

본 발명이 적용되는 디코더 및 인코더는 멀티미디어 방송 송수신 장치, 모바일 통신 단말, 홈 시네마 비디오 장치, 디지털 시네마 비디오 장치, 감시용 카메라, 비디오 대화 장치, 비디오 통신과 같은 실시간 통신 장치, 모바일 스트리밍 장치, 저장 매체, 캠코더, 주문형 비디오(VoD) 서비스 제공 장치, 인터넷 스트리밍 서비스 제공 장치, 3차원(3D) 비디오 장치, 화상 전화 비디오 장치, 및 의료용 비디오 장치 등에 포함될 수 있으며, 비디오 신호 및 데이터 신호를 처리하기 위해 사용될 수 있다.

또한, 본 발명이 적용되는 디코딩/인코딩 방법은 컴퓨터로 실행되는 프로그램의 형태로 생산될 수 있으며, 컴퓨터가 판독할 수 있는 기록 매체에 저장될 수 있다. 본 발명에 따른 데이터 구조를 가지는 멀티미디어 데이터도 또한 컴퓨터가 판독할 수 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 판독할 수 있는 기록 매체는 컴퓨터로 읽을 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 상기 컴퓨터가 판독할 수 있는 기록 매체는, 예를 들어, 블루레이 디스크(BD), 범용 직렬 버스(USB), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크 및 광학적 데이터 저장 장치를 포함할 수 있다. 또한, 상기 컴퓨터가 판독할 수 있는 기록 매체는 반송파(예를 들어, 인터넷을 통한 전송)의 형태로 구현된 미디어를 포함한다. 또한, 인코딩 방법으로 생성된 비트 스트림이 컴퓨터가 판독할 수 있는 기록 매체에 저장되거나 유무선 통신 네트워크를 통해 전송될 수 있다.

이상, 전술한 본 발명의 바람직한 실시예는, 예시의 목적을 위해 개시된 것으로, 당업자라면 이하 첨부된 특허청구범위에 개시된 본 발명의 기술적 사상과 그 기술적 범위 내에서, 다양한 다른 실시예들을 개량, 변경, 대체 또는 부가 등이 가능할 것이다.

Claims

적응적 비디오 코딩을 수행하는 방법에 있어서,
그룹 인덱스와 MxM 및 NxN 차원의 선형 변환들을 포함하는 변환 서브셋을 결정하는 단계;
상기 결정된 변환 서브셋들 중 변환 유닛에 대한 최적의 변환 서브셋을 선택하는 단계; 및
상기 최적의 변환 서브셋을 인코딩하는 단계를 포함하되,
상기 선형 변환들은 널(null) 변환과 사전에 정의된 변환들 중 적어도 하나에 대응되고,
상기 변환 유닛의 행과 열 각각은 서로 다른 선형 변환을 가질 수 있는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 최적의 변환 서브셋에 기초하여 잔여 블록(residual block)의 변환 계수를 산출하는 단계;
상기 변환 계수를 양자화하는 단계; 및
상기 양자화된 변환 계수의 그룹 인덱스를 인코딩하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 최적의 변환 서브셋은 변환 블록들 각각에 대해 선택되는 것을 특징으로 하는 방법.
제3항에 있어서,
상기 변환 블록들은 가변 크기의 블록들 또는 정사각형이 아닌 블록들을 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 방법은 비디오 세그먼트에 대해 반복적으로 수행되는 것을 특징으로 하는 방법.
비디오 신호를 적응적으로 디코딩하는 방법에 있어서,
그룹 인덱스를 포함하는 비디오 신호를 수신하는 단계;
상기 비디오 신호로부터 상기 그룹 인덱스를 추출하는 단계; 및
상기 그룹 인덱스에 대응되는 최적의 역변환 서브셋에 기초하여 잔여 블록의 역변환을 수행하는 단계를 포함하는 것을 특징으로 하는 방법.
제6항에 있어서,
상기 최적의 역변환 서브셋은 변환 블록들 각각에 대응되는 것을 특징으로 하는 방법.
제7항에 있어서,
상기 변환 블록은 가변 크기의 블록 또는 정사각형이 아닌 블록을 포함하는 것을 특징으로 하는 방법.
적응적 비디오 코딩을 수행하는 장치에 있어서,
그룹 인덱스와 MxM 및 NxN 차원의 선형 변환들을 포함하는 변환 서브셋을 결정하고, 상기 결정된 변환 서브셋들 중 변환 유닛에 대한 최적의 변환 서브셋을 선택하며, 상기 최적의 변환 서브셋을 코딩하는 변환 유닛을 포함하되,
상기 선형 변환들은 널(null) 변환과 사전에 정의된 변환들 중 적어도 하나에 대응되고,
상기 변환 유닛의 행과 열 각각은 서로 다른 선형 변환을 가질 수 있는 것을 특징으로 하는 장치.
제9항에 있어서,
상기 최적의 변환 서브셋에 기초하여 산출된 잔여 블록(residual block)의 변환 계수를 양자화하는 양자화 유닛; 및
상기 양자화된 변환 계수의 그룹 인덱스를 인코딩하는 엔트로피 인코딩 유닛을 더 포함하는 것을 특징으로 하는 장치.
제9항에 있어서,
상기 최적의 변환 서브셋은 변환 블록들 각각에 대해 선택되는 것을 특징으로 하는 장치.
제11항에 있어서,
상기 변환 블록들은 가변 크기의 블록들 또는 정사각형이 아닌 블록들을 포함하는 것을 특징으로 하는 장치.
비디오 신호를 적응적으로 디코딩하는 장치에 있어서,
그룹 인덱스를 포함하는 비디오 신호를 수신하고, 상기 비디오 신호로부터 상기 그룹 인덱스를 추출하며, 상기 그룹 인덱스에 대응되는 최적의 역변환 서브셋에 기초하여 잔여 블록의 역변환을 수행하는 역변환 유닛
을 포함하는 것을 특징으로 하는 장치.
제13항에 있어서,
상기 최적의 역변환 서브셋은 변환 블록들 각각에 대응되는 것을 특징으로 하는 장치.
제14항에 있어서,
상기 변환 블록은 가변 크기의 블록 또는 정사각형이 아닌 블록을 포함하는 것을 특징으로 하는 장치.