WO2017135661A1

WO2017135661A1 - 그래프 기반 분리 가능한 변환 (graph-based separable transform)을 이용하여 비디오 신호를 인코딩 / 디코딩하는 방법 및 장치

Info

Publication number: WO2017135661A1
Application number: PCT/KR2017/001050
Authority: WO
Inventors: 이. 에길메즈힐라미; 챠오융-쉬안; 오르테가안토니오; 이범식; 예세훈
Original assignee: 엘지전자 주식회사; 유니버시티 오브 서던 캘리포니아
Priority date: 2016-02-01
Filing date: 2017-02-01
Publication date: 2017-08-10
Also published as: US11503292B2; US20210243441A1

Abstract

본 발명은, 그래프 기반 분리가능 변환 (graph-based separable transform, GBST)에 기초하여 비디오 신호를 인코딩하는 방법에 있어서, 라인 그래프를 나타내는 근접 행렬 (incidence matrix)을 생성하는 단계; 레지듀얼 신호의 행과 열로부터 행 및 열에 대한 샘플 공분산 행렬 (sample covariance matrix)을 훈련하는 단계; 상기 근접 행렬 및 상기 행 및 열에 대한 샘플 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)을 계산하는 단계; 및 상기 행 및 열에 대한 그래프 라플라시안 행렬에 고유 분해 (eigen decomposition)를 수행함으로써 GBST 를 획득하는 단계를 포함하는 것을 특징으로 하는 방법을 제공한다.

Description

【명세서】

【발명의 명칭】

그래프 기반 분리 가능한 변환 (GRAPH -BASED SEPARABLE TRANSFORM)을 이용하여 비디오 신호를 인코딩 / 디코딩하는 방법 및 장치 【기술분야】

본 발명은 그래프 기반 분리 가능한 변환 (graph-based separable transform, 이하 ' GBST '라 함)을 이용하여 비디오 신호를 인코딩 , 디코딩하는 방법 및 장치에 관한 것이다. 구체적으로, 최적화된 가중치를 갖는 라인 그래프에 기초하는 분리 가능한 변환을 디자인하는 기술에 관한 것이다. 【배경기슬】

차세대 비디오 ^'컨텐츠는 고해상도^' (high spatial resolution) , 고프레임율 (high frame rate ) 및 영상 표현의 고차원화 (high dimensionality of scene representation)라는 특징을 갖게 될 것이다. 그러한 컨텐츠를 처리하기 위해서는 메모리 저장 (memory storage) , 메모리 액세스율 (memory access rate) 및 처리 전력 (processing power) 측면에서 엄청난 증가를 가져을 것이다. 따라서, 차세대 비디오 컨텐츠를 보다 효율적으로 처리하기 위한 코딩 틀을 디자인할 필요가 있다.

특히, 그래프는 픽셀 간 관계 정보를 기술하는데 유용한 데이터 표현 형태로써, 이러한 픽셀 간 관계 정보를 그래프로 표현하여 처리하는 그래프 기반 신호 처리 방식이 활용되고 있다. 이러한 그래프 기반 신호 처리는 각 신호 샘플이 꼭지점 (vertex)을 나타내며 신호의 관계들이 양의 가중치를 가지는 그래프 에지로 나타내어지는 그래프를 사용하여 샘플링, 필터링, 변환 등과 같은 개념들을 일반화할 수 있다. 따라서, 보다 효율적인 그래프 기반의 신호 처리 방법이 비디오 압축 분야뿐만 아니라 많은 응용 분야에서 요구된다.

또한, 많은 이미지 /비디오 압축 표준들은 이산 코사인 변환 (Discrete Cosine Transform, 이하 3CT'라 함)을 채택한다. 비록 DCT가 낮은 복잡도를 가짐에도 불구하고, 그러한 고정 블록 변환을 이용하는 주요 문제점은 모든 레지듀얼 블록들이 동일한 통계적 특징들을 공유하는 것을 가정한다는 점이다. 그러나, 실제 레지듀얼 블록들은 비디오 컨텐츠 및 예측 모드들에 의존하여 매우 상이한 통계적 특징들을 가진다. 따라서, 레지듀얼 블록들의 통계적 특징에 맞게 변환 ( transform)들을 변경할 수 있다면 보다 양호한 압축을 수행할 수 있다.

【발명의 상세한 설명】

【기술적 과제】

본 발명은, 그래프 기반 표현을 사용하는 강인한 변환을 설계하기 위한 방법을 제공하고자 한다. ^"

또한, 본 발명은, 최적의 가중치를 갖는 라인 그래프에 기반하는 그래프 기반 분리 가능한 변환을 제공하고자 한다.

또한, 본 발명은, 행별 및 열별 레지듀얼 신호의 통계 (row-wise and column -wise residual block statistics )에 기초하여 분리 가능한 라인 그래프를 디자인하고자 한다.

또한, 본 발명은, 인트라 예측 또는 인터 예측을 위한 레지듀얼 신호들의 모델에 대해 최적의 분리 가능한 변환을 생성하고자 한다.

또한, 본 발명은, 통계적인 그래프 모델들의 범위에 적용 가능한 최적화된 변환을 생성하는 방법을 제공하고자 한다 .

[기술적 해결방법]

본 발명은, 최적의 가중치를 갖는 라인 그래프에 기반하는 그래프 기반 분리 가능한 변환을 제공한다.

또한, 본 발명은, 행별 및 열별 레지듀얼 신호의 통계 (row— wise and column-wise residual block statistics )어 1 기초하여 분리 가능한 라인 그래프를 디자인하는 방법을 제공한다.

또한, 본 발명은, 근접 행렬 ( incidence matrix) 및 행 /열에 대한 샘플 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)을 계산하는 방법을 제공한다.

또한, 본 발명은, 일반화된 라플라시안 행렬을 추정하기 위한, 레지듀얼 신호의 모델링을 위해 서로 다른 2개의 가우시안 마르코프 랜덤 필드 (Gaussian Markov Random Field, 이하 ^¾ GMRF'라 함)를 이용하는 방법을 제공한다. 또한, 본 발명은, 인트라 예측 또는 인터 예측을 위한 레지듀얼 신호들의 모델에 대해 최적의 그래프 기반 분리 가능한 변환 (GBST)을 생성하는 방법을 제공한다.

【발명의 효과】

본 발명은 그래프 기반 표현을 사용하는 강인한 변환을 설계하기 위한 방법을 제공하며 , 이를 통해 보다 양호한 압축을 수행할 수 있다.

본 발명은, 최적의 가중치를 갖는 라인 그래프에 기반하는 2차원 그래프 기반 분리 가능한 변환 (GBST)을 제공함으로써 , 2차원 DCT 및 분리 가능한 1"루넨 -루베 변환 (Karhunen-Loeve transform, 이하 라 함)의 성능을 능가할 수 있다. 예를 들어, 본 발명이 적용되는 GBST는, 분리 가능한 KLT에 비교할 때, 훈련 데이터로부터 보다 적은 파라미터에 대한 학습을 요구함으로써 더욱 강인한 변환을 유도할 수 있다.

또한, GBST는, 인트라 예측 및 인터 예측 코딩에 대해, 다른 변환 방식들과 비교할 때, 보다 강인하고 효율적인 일반화된 변환 방식을 제공할 수 있다,

【도면의 간단한 설명】

도 1은 본 발명이 적용되는 실시예로서, 비디오 신호의 인코딩이 수행되는 인코더의 개략적인 블록도를 나타낸다.

도 2는 본 발명이 적용되는 실시예로서, 비디오 신호의 디코딩이 수행되는 디코더의 개략적인 블록도를 나타낸다.

도 3은 본 발명이 적용되는 실시예로서, 코딩 유닛의 분할 구조를 설명하기 위한 도면이다.

도 4는 본 발명이 적용되는 일실시예로서, 1차원 그래프와 2차원 그래프에 기초하여 그래프 기반 변환 행렬올 획득하는 과정을 설명하기 위한 도면이다. ^'

도 5는 본 발명이 적용되는 실시예로서 , 그래프 기반 신호를 처리하는 인코더의 개략적 블록도를 예시한다 .

도 6은 본 발명이 적용되는 실시예로서, 그래프 기반 신호를 처리하는 디코더의 개략작 블록도를 예시한다.

도 7은 본 발명아 적용되는 일실시예로서, 그래프 기반 변환을 수행하는 그래프 기반 변환부의 내부 블록도를 나타낸다. 도 8은 본 발명이 적용되는 일실시예로서, 인트라 예측 또는 인터 예측의 레지듀얼 신호에 대한 1차원 GMRF 모델들을 나타낸다.

도 9는 본 발명이 적용되는 일실시예로서, 최적의 가중치를 갖는 라인 그래프에 기반하는 그래프 기반 분리 가능한 변환 (GBST)을 생성하는 과정을 설명하기 위한 흐름도이다.

도 10은 본 발명이 적용되는 일실시예로서, 최적의 가중치를 갖는 라인 그래프에 기반하는 그래프 기반 분리 가능한 변환 (GBST)에 기초하여 디코딩을 수행하는 과정을 설명하기 위한 흐름도이다.

도 11은 본 발명이 적용되는 일실시예로서, 인트라 예측 모드 및 인터 예측 모드에 대해 최적화된 그래프들을 나타낸다 . .

도 12는 본 발명이 적용되는 일실시예로서, 인트라 예측 및 인터 예측의 레지듀얼 신호에 대한 분리 가능한 카루넨 -루베 변환 (Karhunen-Loeve transform)와 그래프 기반 분리 가능한 변환 (GBST)의 코딩 성능을 비교한 표이다.

도 13은 본 발명이 적용되는 일실시예로서, 인트라 예측의 레지듀얼 신호에 대한 하이브리드 이산 코사인 변환 (DCT) /비대칭 이산 사인 변환 (Asymmetric Discrete Sine Transform, 이하 ^X ADST'라 함 -)와 그래프 기반 분리 가능한 변환 (GBST)의 코딩 성능을 비교한 표이다.

【발명의 실시를 위한 최선의 형태】

본 발명은, 그래프 기반 분리가능 변환 (graph— based separable transform, GBST)에 기초하여 비디오 신호를 인코딩하는 방법에 있어서, 라인 그래프를 나타내는 근접 행렬 ( incidence matrix)올 생성하는 단계 ; 레지듀얼 신호의 행과 열로부터 행 및 열에 대한 샘플 공분산 행렬 ( sample covariance matrix)을 훈련하는 단계 ; 상기 근접 행렬 및 상기 행 및 열에 대한 샘플 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)을 계산하는 단계 ; 및 상기 행 및 열에 대한 그래프 라플라시안 행렬에 고유 분해 ( eigen decomposition)를 수행함으로써 GBST 를 획득하는 단계를 포함하는 것을 특징으로 하는 방법을 제공한다.

또한, 본 발명에서, 상기 행 및 열에 대한 그래프 라플라시안 행렬은 링크 가중치 파라미터 ( link weighting parameter) 및 재귀 루프 파라미터 (recursive loop parameter)에 의해 정의되는 것을 특징으로 한다. 또한, 본 발명에서, 서로 다른 2개의 가우시안 마르코프 랜덤 필드 (Gaussian Markov Random Field, GMRF)는, 인터 레지듀얼 신호 및 인트라 레지듀얼 신호의 모델링을 위해 이용되는 것을 특징으로 한다.

또한, 본 발명에서, 상기 인트라 레지듀얼 신호의 경우, 1차원 GMRF 는 참조 샘플의 왜곡 성분 (distortion component ) , 현재 샘폴의 가우시안 노이즈 성분 (Gausian noise component ) 또는 공간 상관 계수 ( spatial correlation coef ficient ) 중 적어도 하나를 포함하는 모델인 것을 특징으로 한다.

또한, 본 발명에서, 상기 인터 레지듀얼 신호의 경우, 1차원 GMRF 는 참조 샘플의 왜곡 성분, 현재 샘플의 가우시안 노이즈 성분, 시간 상관 계수 (temporal correlation coeff icient ) 또는 공간 상관 계수 ( spatial correlation coef f icient) 증 적어도 하나를 포함하는 모델인 것을 특징으로 한다 . 또한, 본 발명은, 그래프 기반 분리가능 변환 (graph-based separable transform, GBST)에 기초하여 비디오 신호를 디코딩하는 법에 있어서, 상기 비디오 신호로부터 레지듀얼 신호를 추출하는 단계; 상기 GBST에 기초하여 상기 레지듀얼 신호에 대해 역변환을 수행하는 단계; 및 상기 역변환된 레지듀얼 신호를 예측 신호와 합함으로써 복원 신호를 생성하는 단계를 포함하되 상기 GBST는 상기 레지듀얼 신호의 행들 및 열들의 GMRF 모델링에 의해 획득된 라인 그래프들에 기초하여 생성된 변환을 나타내는 것을 특징으로 하는 방법을 제공한다. ᅳ

또한, 본 발명에서, 상기 GBST는 다음 단계들, 라인 그래프를 나타내는 근접 행렬 ( incidence matrix)을 생성하는 단계 ; 레지듀얼 신호의 행과 열로부터 행 및 열에 대한 샘플 공분산 행렬 ( sample covariance matrix)을 훈련하는 단계; 상기 근접 행렬 및 상기 행 및 열에 대한 상기 샘플 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)을 계산하는 단계 ; 및 상기 행 및 열에 대한 그래프 라플라시안 행렬에 고유 분해 (eigen decomposition) 수행할으로써 GBST 를 획득하는 단계에 따라 생성된 것을 특징으로 한다.

또한, 본 발명은, 그래프 기반 분리가능 변환 ( graph-based separable transform, GBST)에 기초하여 비디오 신호를 인코당하는 장치에 있어서 , 라인 그래프를 나타내는 근접 행렬 ( incidence matrix)을 생성하는 그래프 생성부; 레지듀얼 신호의 행과 열로부터 행 및 열에 대한 샘플 공분산 행렬 ( sample covariance matrix)을 훈련하고, 상기 근접 행렬 및 상기 행 및 열에 대한 샘풀 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)을 계산하고, 상기 행 및 열에 대한 그래프 라플라시안 행렬에 고유 분해 ( eigen decomposition)를 수행함으로써 GBST 를 획득하는 GBST부를 포함하는 것을 특징으로 하는 장치를 제공한다.

또한, 본 발명은, 그래프 기반 분리가능 변환 (graph-based separable transform, GBST)에 기초하여 비디오 신호를 디코딩하는 장치에 있어서, 상기 비디오 신호로부터 레지듀얼 신호를 추출하는 파성부; 상기 GBST에 기초하여 상기 레지듀얼 신호에 대해 역변환을 수행하는 역변환부; 및 상기 역변환된 레지듀얼 신호를 예측 신호와 합함으로써 복원 신호를 생성하는 복원부를 포함하되, 상기 GBST는 상기 레지듀얼 신호의 행들 및 열들의 GMRF 모델링에 의해 획득된 라인 그래프들에 기초하여 생성된 변환을 나타내는 것을 특징으로 하는 장치를 제공한다. ·

【발명의 실시를 위한 형태】

이하, 첨부된 도면을 참조하여 본 발명의 실시예의 구성과 그 작용을 설명하며 , 도면에 의해서 설명되는 본 발명의 구성과 작용은 하나의 실시예로서 설명되는 것이며 , 이것에 의해서 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 제한되지는 않는다.

아울러, 본 발명에서 사용되는 용어는 가능한 한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 특정한 경우는 출원인이 임의로 선정한 용어를 사용하여 설명한다 . 그러한 경우에는 해당 부분의 상세 설명에서 그 의미를 명확히 기재하므로, 본 발명의 설명에서 사용된 용어의 명칭만으로 단순 해석되어서는 안 될 것이며 그 해당 용어의 의미까지 파악하여 해석되어야 함을 밝혀두고자 한다. 또한, 본 발명에서 사용되는 용어들은 발명을 설명하기 위해 선택된 일반적인 용어들이나, 유사한 의미를 갖는 다른 용어가 있는 경우 보다 적절한 해석을 위해 대체 가능할 것이다. 예를 들어, 신호, 데이터, 샘플, 픽쳐, 프레임, 블록 등의 경우 각 코딩 과정에서 적절하게 대체되어 해석될 수 있을 것이다. 또한, 파티셔닝 (partitioning) , 분해 (decomposition) , 스플리팅 (splitting) 및 분할 (division) 등의 경우에도 각 코딩 과정에서 적절하게 대체되어 해석될 수 있을 것이다ᅳ 도 1은 본 발명이 적용되는 실시예로서, 비디오 신호의 인코딩이 수행되는 인코더의 개략적인 블록도를 나타낸다.

도 1을 참조하면 , 인코더 (100)는 영상 분할부 (110) , 변환부 (120) , 양자화부 (130) , 역양자화부 (140) , 역변환부 (150) , 필터링부 (160) , 복호 픽쳐 버퍼 (DPB: Decoded Picture Buffer) (170) , 인터 예측부 (180) , 인트라 예측부 (185) 및 엔트로피 인코딩부 (190)를 포함하여 구성될 수 있다. 영상 분할부 (110)는 인코더 (100)에 입력된 입력 영상 (input image) (또는, 픽쳐 , 프레임)를 하나 이상의 처리 유닛으로 분할할 수 있다. 예를 들어 , 상기 처리 유닛은 코딩 트리 유닛 (CTU: Coding Tree Unit) , 코딩 유닛 (CU: Coding Unit) , 예측 유닛 (PU: Prediction Unit) 또는 변환 유닛 (TU_: Transform Unit) ¾ 수 있다.

다만, 상기 용어들은 본 발명에 대한 설명의 편의를 위해 사용할 뿐이며, 본 발명은 해당 용어의 정의에 한정되지 않는다. 또한, 본 명세서에서는 설명의 편의를 위해, 비디오 신호를 인코딩 또는 디코딩하는 과정에서 이용되는 단위로써 코딩 유닛이라는 용어를 사용하지만, 본 발명은 그에 한정되지 않으며 발명 내용에 따라 적절하게 해석 가능할 것이다. 인코더 (100)는 입력 영상 신호에서 인터 예측부 (180) 또는 인트라 예측부 (185)로부터 출력된 예측 신호 (prediction signal)를 감산하여 잔여 신호 (residual signal)를 생성할 수 있고, 생성된 잔여 신호는 변환부 (120)로 전송된다.

변환부 (120)는 잔여 신호에 변환 기법을 적용하여 변환 계수 (transform coefficient)를 생성할 수 있다. 변환 과정은 정사각형의 동일한 크기를 갖는 픽셀 불록에 적용될 수도 있고, 정사각형이 아닌 가변 크기의 블록에도 적용될 수 있다.

상기 변환부 (120)는 픽샐 간 관계 정보를 그래프로 표현하여 처리하는 그래프 기반 신호 처리 방식을 이용할 수 있다. 예를 들어, 상기 변환부 (120)는 그래프^' 기반 변환부 (Graph-Based Transform Unit)를 포함할 수 있고, 상기 그래프 기반 변환부 (GBT unit)는 라인 그래프를 나타내는 근접 행렬 (incidence matrix)을 생성하고, 레지듀얼 신호의 행과 열로부터 행 및 열에 대한 샘플 공분산 행렬 (sample covariance matrix)을 훈련하고, 상기 근접 행렬 및 상기 행 및 열에 대한 샘플 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)을 계산하고, 상기 행 및 열에 대한 그래프 라플라시안 행렬에 고유 분해 (eigen decomposition) f- 수행함으로써 GBST 를 획득할 수 있다.

본 발명의 일실시예는, 최적의 가중치를 갖는 라인 그래프에 기반하는 그래프 기반 분리 가능한 변환을 제공한다.

본 발명의 일실시예는, 행별 및 열별 레지듀얼 신호의 통계 ( row-wise and column-wise residual block statistics)어 1 기초하여 분리 가능한 라인 그래프를 디자인하는 방법을 제공한다.

본 발명의 일실시예는, 근접 행렬 ( incidence matrix) 및 행 /열에 대한 샘플 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)을 계산하는 방법을 제공한다.

본 발명의 일실시예는, 일반화된 라풀라시안 행렬을 추정하기 위한 레지듀얼 신호의 모델링을 위해 서로 다른 2개의 가우시안 마르코프 랜덤 필드 (Gaussian Markov Random Field, 이하 ^> GMRF '라 함)를 이용하는 방법을 제공한다.

본 발명의 일실시예는, 인트라 예측 또는 인터 예측을 위한 레지듀얼 신호들의 모델에 대해 최적의 그래프 기반 분리 가능한 변환 (GBST)을 생성하는 방법을 제공한다.

다른 예로, 상기 변환부 ( 120 )는 그래프 기반 변환부 (Graph-Based Transform Unit )를 포함할 수 있고, 상기 그래프 기반 변환부 (GBT unit)는 비디오 데이터에 대해 적어도 하나의 데이터 클러스터 (data cluster)를 생성하고, 그에 대응되는 적어도 하나의 그래프 라플라시안 행렬 ( graph laplacian matrix)을 생성하고, 이를 포함하는 다중 그래프 기반 모델들 (multiple graph based nrodels 기초하여 변환 최적화 ( transform optimization)를 수행함으로써 최적화된 변환 행렬을 생성할 수 있다. 본 발명이 적용되는 그래프 기반 변환부는 별개의 기능 유닛으로 존재할 수 있고, 이 경우 상기 그래프 기반 변환부는 상기 변환부 (120) 앞에 위치할 수 있으나, 본 발명은 이에 한정되지 않는다.

양자화부 (130)는 변환 계수를 양자화하여 엔트로피 인코딩부 (190)로 전송하고, 엔트로피 인코딩부 (190)는 양자화된 신호 (quantized signal)를 엔트로피 코딩하여 비트스트림으로 출력할 수 있다.

양자화부 (130)로부터 출력된 양자화된 신호 (quantized signal)는 예측 신호를 생성하기 위해 이용될 수 있다. 예를 들어, 양자화된 신호 (quantized signal)는 루프 내의 역양자화부 (140) 및 역변환부 (150)를 통해 역양자화 및 역변환을 적용함으로써 잔여 신호를 복원할 수 있다. 복원된 잔여 신호를 인터 예측부 (180) 또는 인트라 예측후 (185)로부터 출력된 예측 신호 (prediction signal)에 더함으로써 복원 신호 (reconstructed signal)가 생성될 수 있다.

한편, 위와 같은 압축 과정에서 인접한 블록들이 서로 다른 양자화 파라미터에 의해 양자화됨으로써 블록 경계가 보이는 열화가 발생될 수 있다. 이러한 현상을 블록킹 열화 (blocking artifacts)라고 하며, 이는 화질을 평가하는 중요한 요소 중의 하나이다. 이러한 열화를 줄이기 위해 필터링 과정을 수행할 수 있다. 이러한 필터링 과정을 통해 블록킹 열화를 제거함과 동시에 현재 픽쳐에 대한 오차를 줄임으로써 화질을 향상시킬 수 있게 된다.

필터링부 (ISO)는 복원 신호에 필터링을 적용하여 이를 재생 장치로 출력하거나 복호 픽쳐 버퍼 (170)에 전송한다. 복호 픽쳐 버퍼 (170)에 전송된 필터링된 신호는 인터 예측부 (180)에서 참조 픽쳐로 사용될 수 있다. 이처럼 , 필터링된 픽쳐를 화면간 예측 모드에서 참조 픽쳐로 이용함으로써 화질 뿐만 아니라 부호화 효율도 향상시킬 수 있다.

복호 픽쳐 버퍼 ₍₁₇₀₎는 필터링된 픽쳐를 인터 예측부 (180)에서의 참조 픽쳐로 사용하기 위해 저장할 수 있다.

인터 예측부 (180)는 복원 픽쳐 (reconstructed picture)를 참조하여 시간적 중복성 및 /또는 공간적 중복성을 제거하기 위해 시간적 예측 및 /또는 공간적 예측을 수행한다. 여기서, 예측을 수행하기 위해 이용되는 참조 픽쳐는 이전 시간에 부호화 /복호화 시 블록 단위로 양자화와 역양자화를 거친 변환된 신호이기 때문에 , 블로킹 아티팩트 (blocking artifact)나 링잉 아티팩트 (ringing artifact)가 존재할 수 있다.

따라서 , 인터 예측부 (180)는 이러한 신호의 불연속이나 양자화로 인한 성능 저하를 해결하기 위해, 로우패스 필터 (lowpass filter)를 적용함으로써 픽셀들 사이의 신호를 서브 픽셀 단위로 보간할 수 있다. 여기서, 서브 픽셀은 보간 필터를 적용하여 생성된 가상의 화소를 의미하고, 정수 픽셀은 복원된 픽쳐에 존재하는 실제 화소를 의미한다. 보간 방법으로는 선형 보간, 양선형 보간 (bi- linear ^' interpolation) , 위너 필터 (wiener filter) 등이 적용될 수 있다.

보간 필터는 복원 픽쳐 (reconstructed picture)에 적용되어 예측의 정밀도를 향상시킬 수 있다. 예를 들어, 인터 예측부 (180)는 정수 픽셀에 보간 필터를 적용하여 보간 픽셀을 생성하고, 보간 픽셀돌 (interpolated pixels)로 구성된 보간 블록 (interpolated block)^■§： 예측 블록 (prediction block)으로사용하여 예측을 수행할 수 있다. 인트라 예측부 (185)는 현재 부호화를 진행하려고 하는 블록의 주변에 있는 샘플들올 참조하여 현재 블특을 예측할 수 있다. 상기 인트라 예측부 (185)는 인트라 예측을 수행하기 위해 다음과 같은 과정을 수행할 수 있다. 먼저, 예측 신호를 생성하기 위해 필요한 참조 샘플을 준비할 수 있다. 그리고, 준비된 참조 샘플을 이용하여 예측 신호를 생성할 수 있다. 이후, 예측 모드를 부호화하게 된다. 이때, 참조 샘플은 참조 샘플 패딩 및 /또는 참조 샘플 필터링을 통해 준비될 수 있다. 참조 샘플은 예측 및 복원 과정을 거쳤기 때문에 양자화 에러가 존재할 수 있다. 따라서, 이러한 에러를 줄이기 위해 인트라 예측에 이용되는 각 예측모드에 대해 참조 샘플 필터링 과정이 수행될 수 있다. 상기 인터 예측부 (180) 또는 상기 인트라 예측부 (185)를 통해 생성된 예측 신호 (prediction signal)는 복원 신호를 생성하기 위해 이용되거나 잔여 신호를 생성하기 위해 이용될 수 있다. 도 2는 본 발명이 적용되는 실시예로서, 비디오 신호의 디코딩이 수행되는 디코더의 개략적인 블록도를 나타낸다.

도 2를 참조하면, 디코더 (200)는 파싱부 (미도시) , 엔트로피 디코딩부 (210) , 역양자화부 (220) , 역변환부 (230) , 필터링부 (240) , 복호 픽쳐 버퍼 (DPB: Decoded Picture Buffer Unit) (250) , 인터 예축부 (260) , 인트라 예측부 (265) 및 복원부 (미도시 )를 포함하여 구성될 수 있다.

그리고, 디코더 (200)를 통해 출력된 복원 영상 신호 (reconstructed video signal)는 재생 장치를 통해 재생될 수 있다 .

디코더 (200)는 도 1의 인코더 (100)로부터 출력된 신호을 수신할 수 있고, 수신된 신호는 엔트로피 디코딩부 (210)를 통해 엔트로피 디코딩될 수 있다.

본 발명의 일실시예로, 상기 디코더 또는 상기 엔트로피 디코딩부 (210)는 모드 인텍스를 수신할 수 있다. 여기서 , 상기 모드 인텍스는 다증 그래프 기반 모델들에 기초하여 최적화된 변환 행렬에 대응될 수 있다 . 예를 들어, 상기 모드 인덱스는 DCT 행렬을 나타내거나, EA-GBT 행렬을 나타낼 수 있다.

상기 모드 인덱스는 상기 엔트로피 디코딩부 (210)를 통해 엔트로피 디코딩되고, 역변환부 (230)에서 역변환을 수행하기 위해 이용될 수 있다.

다만, 본 발명은 이에 한정되지 않으며 , 예를 들어 상기 모드 인덱스는 .. 본 발명의 디코딩을 위해 필수적인 요소가 아닐 수 있다.

역양자화부 (220)에서는 양자화 스템 사이즈 정보를 이용하여 엔트로피 디코딩된 신호로부터 변환 계수 (transform coefficient)를 획득한다. 여기서 , 획득된 변환 계수는 상기 도 1의 변환부 (120)에서 설명한 다양한 실시예들이 적용된 것일 수 있다. 역변환부 (230)에서는 변환 계수를 역변환하여 잔여 신호 (residual signal)를 획득하게 된다. 예를 들어 , 상기 역변환시 GBST가 이용될 수 있으며, 상기 GBST는 레지듀얼 신호의 행들 및 열들의 가우시안 마르코프 랜덤 필드 (GMRF) 모델링에 의해 획득된 라인 그래프들에 기초하여 생성된 변환일 수 있다.

획득된 잔여 신호를 인터 예측부 (260) 또는 인트라 예측부 (265)로부터 출력된 예측 신호 (prediction signal)에 더함으로써 복원 신호 (reconstructed signal)가 생성된다.

필터링부 (240)는 복원 신호 (reconstructed signal)에 필터링을 적용하여 이를 재생 장치로 출력하거나 복호 픽쳐 버퍼부 (250)에 전송한다. 복호 픽쳐 버퍼부 (250)에 전송된 필터링된 신호는 인터 예측부 (260)에서 참조 픽쳐로 사용될 수 있다.

본 명세서에서 , 인코더 (100)의 필터링부 (160) , 인터 예측부 (180) 및 인트라 예측부 (185)에서 설명된 실시예들은 각각 디코더의 필터링부 (240) , 인터 예측부 (260) 및 인트라 예측부 (265)에도 동일하게 적용될 수 있다. 도 3은 본 발명이 적용되는 실시예로서, 코딩 유닛의 분할 구조를 설명하기 위한 도면이다.

인코더는 하나의 영상 (또는 픽쳐)올 사각형 형태의 코딩 트리 유닛 (CTU: Coding Tree Unit) 단위로 분할할 수 있다. 그리고, 래스터 스캔 순서 (raster scan order)에 따라 하나의 CTU씩 순차적으로 인코딩한다. 예를 들어, -CTU의 크기는 64x64, 32x32, 16x16 증 어느 하나로 정해질 수 있으나, 본 발명은 이에 한정되지 않는다. 인코더는 입력된 영상의 해상도 또는 입력된 영상의 특성 둥에 따라 CTU의 크기를 선택하여 사용할 수 있다 . CTU은 휘도 (luma) 성분에 대한 코딩 트리 블록 (CTB: Coding Tree Block)과 이에 대웅하는 두 개의 색차 (chroma) 성분에 대한 코딩 트리 블톡 (C B: Coding Tree Block)을 포함할 수 있다.

하나의 CTU은 쿼드트리 (quadtree, 이하 'QT'라 함) 구조로 분해될 수 있다. 예를 들어, 하나의 CTU은 정사각형 형태를 가지면서 각 변의 길이가 절반씩 감소하는 4개의 유닛으로 분할될 수 있다. 이러한 QT 구조의 분해는 재귀적으로 수행될 수 있다.

도 3을 참조하면 , QT의 루트 노드 (root node)는 CTU와 관련될 수 있다. QT는 리프 노드 (leaf node)에 도달할 때까지 분할될 수 있고, 이때 상기 리프 노드는 코딩 유닛 (CU: Coding Unit)으로 지칭될 수 있다.

CU은 입력 영상의 처리 과정, 예컨대 인트라 (intra)/인터 (inter) 예측이 수행되는 코딩의 기본 단위를 의미할 수 있다. CU은 휘도 (luma) 성분에 대한 코딩 블록 (CB: Coding Block)과 이에 대웅하는 두 개의 색차 (chroma) 성분에 대한 CB를 포함할 수 있다. 예를 들어, CU의 크기는 64X64, 32x32, 16x16, 8x8 중 어느 하나로 정해질 수 있으나, 본 발명은 이에 한정되지 않으며, 고해상도 영상일 경우, CU의 크기는 더 커지거나 다양해질 수 있다. 도 3을 참조하면 , CTU는 루트 노드 (root node)에 해당되고, 가장 작은 깊이 (depth) (즉, 레벨 0) 값을 가진다. 입력 영상의 특성에 따라 CTU가 분할되지 않을 수도 있으며, 이 경우 CTU은 CU에 해당된다.

CTU은 QT 형태로 분해될 수 있으며, 그 결과 레벨 1의 깊이를 가지는 하위 노드들이 생성될 수 있다. 그리고, 레벨 1의 깊이를 가지는 하위 노드에서 더 이상 분할되지 않은 노드 (즉, 리프 노드)는 CU에 해당한다. 예를 들어 , 도 3 (b)에서 노드 a, b 및 j에 대웅하는 CU(a) , CU(b) , CU(j)는 CTU에서 한 번 분할되었으며, 레벨 1의 깊이를 가진다.

레벨 1의 깊이를 가지는 노드 중 적어도 어느 하나는 다시 QT 형태로 분할될 수 있다. 그리고, 레벨 2의 깊이를 가지는 하위 노드에서 더 이상 분할되지 않은 노드 (즉, 리프 노드)는 CU에 해당한다. 예를 들어 , 도 3 (b)에서 노드 c, h 및 i에 대웅하는 CTJ(c) , CU(h) , CU(i)는 CTU에서 두 번 분할되었으며 , 레벨 2의 깊이를 가진다.

또한, 레벨 2의 깊이를 가지는 노드 중 적어도.어느 하나는 다시 QT 형태로 분할될 수 있다. 그리고, 레벨 3의 깊이를 가지는 하위 노드에서 더 이상 분할되지 않은 노드 (즉, 리프 노드)는 CU에 해당한다. 예를 들어 , 도 3 (b)에서 노드 d, e, f, g에 대응하는 CU(d) , CU(e) , CU(f ) , CU(g)는 CTU에서 3번 분할되었으며, 레벨 3의 깊이를 가진다.

인코더에서는 비디오 영상의 특성 (예를 들어 , 해상도)에 따라서 혹은 부호화의 효율을 고려하여 CU의 최대 크기 또는 최소 크기를 결정할 수 있다. 그리고, 이에 대한 정보 또는 이를 유도할 수 있는 정보가 비트스트림에 포함될 수 있다. 최대 크기를 가지는 CU를 최대 코딩 유닛 (LCU: Largest Coding Unit)이라고 지칭하며 , 최소 크기를 가지는 CU를 최소 코딩 유닛 (SCU: Smallest Coding Unit)이라고 지칭할 수 있다.

또한, 트리 구조를 갖는 CU은 미리 정해진 최대 깊이 정보 (또는, 최대 레벨 정보)를 가지고 계충적으로 분할될 수 있다 . 그리고, 각각의 분할된 CU은 깊이 정보를 가질 수 있다. 깊이 정보는 CU의 분할된 횟수 및 /또는 정도를 나타내므로, CU의 크기에 관한 정보를 포함할 수도 있다.

LCU가 QT 형태로 분할되므로, LCU의 크기 및 최대 깊이 정보를 이용하면 SCU의 크기를 구할 수 있다. 또는 역으로, SCU의 크기 및 트리의 최대 깊이 정보를 이용하면, L J의 크기를 구할 수 있다.

하나의 CU에 대하여, 해당 CU이 분할 되는지 여부를 나타내는 정보가 디코더에 전달될 수 있다. 예를 들어, 상기 정보는 분할 플래그로 정의될 수 있으며, 신택스 엘리먼트 "split__CUᅳ flag"로 표현될 수 있다. 상기 분할 플래그는 SCU을 제외한 모든 CU에 포함될 수 있다. 예를 들어, 상기 분할 플래그의 값이 '1'이면 해당 CU은 다시 4개의 CU으로 나누어지고, 상기 분할 플래그의 값이 '0'이면 해당 CU은 더 이상 나누어지지 않고 해당 CU에 대한 코딩 과정이 수행될 수 있다.

앞서 도 3의 실시예에서는 CU의 분할 과정에 대해 예로 들어 설명하였으나, 변환을 수행하는 기본 단위인 변환 유닛 (TU: Transform Unit)의 분할 과정에 대해서도 상술한 QT 구조를 적용할 수 있다.

TU는 코딩하려는 CU로부터 QT 구조로 계층적으로 분할될 수 있다. 예를 들어 , J은 변환 유닛 (TU)에 대한 트리의 루트 노트 (root node)에 해당될 수 있다.

TU는 QT 구조로 분할되므로 CU로부터 분할된 TU는 다시 더 작은 하위 TU로 분할될 수 있다. 예를 들어, TU의 크기는 32x32, 16x16, 8x8, 4x4 중 어느 하나로 정해질 수 있으나, 본 발명은 이에 한정되지 않으며, 고해상도 영상일 경우, TU의 크기는 더 커지거나 다양해질 수 있다.

하나의 TU에 대하여, 해당 TU이 분할 되는지 여부를 나타내는 정보가 디코더에 전달될 수 있다. 예를 들어, 상기 정보는 분할 변환 플래그로 정의될 수 있으며, 신택스 엘리먼트 "split_transform_flag "로 표현될 수 있다. 상기 분할 변환 플래그는 최소 크기의 Τϋ을 제외한 모든 TU에 포함될 수 있다. 예를 들어 , 상기 분할 변환 폴래그의 값이 ，1'이면 해당 TU은 다시 4개의 Τϋ으로 나누어지고, 상기 분할 변환 플래그의 값이 ，0 '이면 해당 TU은 더 이상 나누어지지 않는다 . 상기에서 설명한 바와 같이, CU는 인트라 예측 또는 인터 예측이 수행되는 코딩의 기본 단위이다. 입력 영상을 보다 효과적으로 코딩하기 위하여 CU를 예측 유닛 (PU: Prediction Unit) 단위로 분할할 수 있다.

PU는 예측 블록을 생성하는 기본 단위로서, 하나의 CU 내에서도 Ρϋ 단위로 서로 다르게 예측 블록올 생성할 수 있다. PU는 PU가 속하는 CU의 코딩 모드로 인트라 예측 모드가 사용되는지 인터 예측 모드가 사용되는지에 따라 상이하게 분할될 수 있다. 도 4는 본 발명이 적용되는 일실시예로서, 1차원 그래프와 2차원 그래프에 기초하여 그래프 기반 변환 행렬을 획득하는 과정을 설명하기 위한 도면이다.

본 발명의 일실시예로, 이미지 내 픽셀 블록의 처리를 위해 사용될 수 있는 그래프 타입은 도 4를 통해 설명될 수 있다 . 예를 들어 , 도 4 (a)는 픽셀 블록의 각 라인에 대응되는 1차원 그래프를 나타내고, 도 4 (b)는 픽셀 블특에 대응되는 2차원 그래프를 나타낼 수 있다.

그래프 꼭지점 (vertex)은 픽셀 블록의 각 픽셀에 연관되며, 그래프 꼭지점의 값은 픽샐 값으로 표현될 수 있다. 그리고, 그래프 에지 (graph edge)는 그래프 꼭지점을 연결하는 선을 의미할 수 있다. 상기 그래프 에지는 신호 내의 어떠한 형태의 통계적 의존성을 나타내기 위해 사용되며, 그 강도를 나타내는 값을 에지 가중치 (edge weight)라 할 수 있다.

예를 들어 , 도 4 (a)를 살펴보면, 1차원 그래프를 나타내며 , 0,1, 2, 3은 각 꼭지점의 위치를 나타내고, ^,^,^는 각 꼭지점 간의 에지 가중치를 나타낸다. 도 4(b)를 ，살펴보면 , 2차원 그래프를 나타내며 , ay (i = 0,l,2,3, j=0_;l, 2) , b_kl (k=0, 1,2, 1 = 0, 1,2, 3)는 각 꼭지점 간의 에지 가중치를 나타낸다.

각 꼭지점은 모든 다른 꼭지점에 연결될 수 있으며 , 0의 에지 가중치는 서로 연관되지 않거나 약하게 연관된 꼭지점들을 연결하는 에지에 할당될 수 있다. 다만, 표현의 간단화를 위해, 0의 에지 가중치를 갖는 에지는 완전히 제거될 수 있다. 그래프 기반 변환 (GBT)의 정의

본 발명이 적용되는 일실시예로 , 그래프 신호로부터 획득되는 변환을 그래프 기반 변환 (Graph-Based Transform, 이하 'GBT'라 함)이라 정의할 수 있다. 예를 들어, TU를 구성하는 픽샐 간의 관계 정보를 그래프로 표현한다고 할 때, 이 그래프로부터 얻어진 변환을 GBT라고 할 수 있다.

픽셀 간의 관계 정보는 다양한 방법으로 표현될 수 있다. 예를 들어, 픽셀 값들 사이의 유사성, 동일한 PU에 속해 있는지 여부, 같은 오브젝트에 속해 있는지 여부 등에 기초하여 픽샐 간의 관계 정보를 표현할 수 있다. 상기 픽셀 간 관계 정보는 각 픽셀올 그래프의 꼭지점에 대응시켰을 때 픽샐들 간의 에지 유무 및 에지 가증치 ( dge weight) 값으로 표현될 수 있다.

이 경우, 상기 GBT는 다음과 같은 과정을 통해 획득될 수 있다. 예를 돌어, 인코더 또는 디코더는 비디오 신호의 타겟 블톡으로부터 그래프 정보를 획득할 수 있다. 가증치 적용된 그래프 g(A,S)가 주어졌을 때, 그래프 정보로부터 다음 수학식 1과 같이 라플라시안 행켤 (Laplacian matrix) L을 획득할 수 있다.

【수학식 1】

L = D - A + V

상기 수학식 1에서 , D는 차수 행렬 (Degree matrix)을 나타내고, 예를 들어 상기 차수 행렬은 각 꼭지점의 차수에 대한 정보를 포함하는 대각 행렬 (diagonal matrix)을 의미할 수 있다. A는 인접 픽셀과의 연결 관계 (예를 들어 , 에지 )를 가중치로 나타내는 인접 행렬 (adj acency matrix)을 나타낸다 . V는 G의 노드들에서의 자기 루프 ( self - loop)를 나타내는 대각 행렬 (diagonal matrix)을 나타낸다 .

그리고, 라플라시안 행렬 ( Laplacian matrix) L에 대해 아래 수학식 2와 같이 고유 분해 (eigen decomposition)를 수행함으로써 GBT 커널을 획득할 수 있다.

【수학식 2】

― L = UAU^T

상기 수학식 2에서 , L은 라플라시안 행렬 (Laplacian matrix) , ϋ는 고유 행렬 ( eigen matrix) , Λ는 대각 고유값 행렬 (diagonal eigenvalue matrix) , ！^는 ϋ의 전치 행렬 (transpose matrix)을 의미한다. 상기 수학식 2에서 , 상기 고유 행렬 ( eigen matrix) U는 해당 그래프 모델에 맞는 신호에 대해 특화된 그래프 기반 푸리에 (Fourier) 변환을 제공할 수 있다. 예를 들어, 상기 수학식 2를 만족하는 고유 행렬 ( eigen matrix) U는 GBT 커널을 의미할 수 있다.

여기서 , 고유 행렬 (eigen matrix) U의 열들 (columns )은 GBT의 기초 백터들 (basis vectors )을 의미할 수 있다. 그래프가 자기 루프 ( self - loop )가 없으면 , 라플라시안 행렬 ( Laplacian matrix)은 상기 수학식 1에서 V= 0 인 경우와 같다. 그래프 기반분리 가능한변환 (GBST)의 정의

본 발명에서 , 그래프 기반 분리 가능한 변환 (GBST)은 가중치 적용된 라인 그래프들의 일반화된 그래프 라플라시안 행렬로부터 유도되는 2개의 그래프 기반 변환들 ( GBTS )을 이용하여 정의될 수 있다.

U_row 및 U_c이가 GBT의 (NxN) 기저 행렬 (basis matrix)이라 하면 , 상기 U_row 및 U_c이는 (NXN) 블록 X의 각 행 및 각 열에 적용될 수 있다. 이때, 상기 블록 X의 GBST는 다음 수학식 3과 같이 정의될 수 있다.

【수학식 3】

여기서 , X는 블록 X의 GBST를 나타내고, U_row 및 ！；띠는 (NxN) 블록 X의 각 행 및 각 열에 대한 GBT의 기저 행렬들을 나타내고 , 11 ₀₁는 U_c이의 전 71 행렬 ( transpose matrix)을 나타낸다. 도 5는 본 발명이 적용되는 실시예로서, 그래프 기반 신호를 처리하는 인코더의 개략적 블록도를 예시한다.

상기 도 1 및 도 2에서와 같은 비디오 코딩 구조에서는 DCT와 같은 고정된 변환이 이용될 수 있다. DCT는 낮은 복잡도를 가짐에도 불구하고, 고정 블록 변환을 이용한다는 점에서 문제가 있다. 이는 암묵적으로 모든 레지듀얼 신호가 동일한 등방성 통계 특성을 가지고 있다고 가정하에 수행되는 것이다. 그러나, 실제 레지듀얼 블록들은 비디오 컨텐츠 및 예측 모드들에 의존하여 매우 상이한 통계적 특징들을 갖기 때문에, 레지듀얼 블록들의 통계적 특징들을 적응적으로 변경할 필요가 있다.

본 발명은, 최적의 라인 그래프에 기반하는 그래프 기반 분리 가능한 변환 (GBST)을 설계하기 위한 새로운 프레임워크를 제안한다 . 먼저 , 각 예측 모드 내에서 관측되는 레지듀얼 블록들의 행-별 및 열-별 통계적 특성돌에 기반하여 2개의 분리 가능한 라인 그래프들을 생성할 수 있다. 이후,^' 2개의 분리 가능한 라인 그래프들에 대웅되는 그래프 기반 변환 (GBT)을 이용하여 , 즉 레지듀얼 블록들의 행들 및 열들에 GBT를 적용함으로써 GBST를 생성할 수 있다. 상기 도 5를 살펴보면, 본 발명이 적용되는 인코더 (500)는 그래프 기반 변환부 (510) , 양자화부 (520) , 역양자화부 (530) , 역변환부 (540) , 버퍼 (550) , 예측부 (560) 및 엔트로피 인코딩부 (570)을 포함한다.

인코더 (500)는 비디오 신호를 수신하고 상기 비디오 신호로부터 상기 예측부 (560)에서 출력된 예측된 신호를 차감하여 레지듀얼 신호를 생성한다. 상기 생성된 레지듀얼 신호는 상기 그래프 기반 변환부 (510)으로 전송되고, 상가 그래프 기반 변환부 (510)은 변환 방식을 상기 레지듀얼 신호에 적용함으로써 변환 계수를 생성한다 .

예를 들어 , 상기 그래프 기반 변환부 (510)는 레지듀얼 블록들의 행-별 및 열-별 통계적 특성들에 기반하여 2개의 분리 가능한 라인 그래프들을 생성할 수 있다. 이후, 2개의 분리 가능한 라인 그래프들에 대응되는 그래프 기반 변환 (GBT)을 이용하여 , 즉 레지듀얼 블록들의 행들 및 열들에 GBT를 적용함으로써 GBST를 생성할 수 있다.

상기 양자화부 (520)은 상기 생성된 GBST 계수를 양자화하여 상기 양자화된 계수를 엔트로피 인코딩부 (570)으로 전송한다.

상기 엔트로피 인코딩부 (570)은 상기 양자화된 신호에 대한 엔트로피 코딩을 수행하고 엔트로피 코딩된 신호를 출력한다 .

상기 양자화부 (520〉에 의해 출력된 상기 양자화된 신호는 예측 신호를 생성하기 위해 사용될 수 있다. 예를 들어 , 상기 인코더 (500)의 루프 내의 상기 역양자화부 (530) 및 상기 역변환부 (540)은 상기 양자화된 신호가 레지듀얼 신호로 복원되도록 상기 양자화된 신호에 대한 역양자화 및 역변환을 수행할 수 있다. 복원된 신호는 상기 복원된 레지듀얼 신호를 상기 예측부 (560)에 의해 출력된 예측 신호에 더함으로써 생성될 수 있다.

상기 버퍼 (550)는 예측부 (560)의 향후 참조를 위해 복원된 신호를 저장한다.

상기 예측부 ₍₅₆₀)은 이전에 복원되어 상기 버퍼 (550)에 저장된 신호를 사용하여 예측 신호를 생성할 수 있다. 이러한 경우, 본 발명은 앵커 (anchor) 이미지 내 영역을 사용하여 목표 이미지 내 영역을 효율적으로 예측하는 것에 관련된 것이다. 여기서, 상기 앵커 이미지는 참조 이미지, 참조 픽쳐 또는 참조 프레임을 의미할 수 있다ᅳ 효율은 율 -왜곡 (Rate-Distortion) 비용 또는 레지듀얼 신호 내 왜곡을 정량화하는 평균 제곱 에러를 산출함으로써 결정될 수 있다. 도 6은 본 발명이 적용되는 실시예로서, 그래프 기반 신호를 처리하는 디코더의 개략적 블록도를 예시한다 .

도 6의 디코더 (600)는 도 5의 인코더 (500)에 의해 출력된 신호를 수신하고 수신된 신호로부터 레지듀얼 신호를 획득할 수 있다.

상기 엔트로피 디코딩부 (610)은 상기 레지듀얼 신호에 대해 엔트로피 디코딩을 수행한다. 상기 역양자화부 (620)은 양자화 단계 크기 (quantization step size) 정보를 기초로 하여 상기 엔트로피 디코딩된 신호로부터 변환 계수를 획득한다. 여기서, 상기 변환 계수는 GBST 계수를 의미할 수 있다. 상기 역변환부 (630)은 변환 계수에 대한 역변환을 수행함으로써 레지듀얼 신호를 취득한다. 이때, 상기 역변환은 상기 인코더 (500)에서 생성된 GBST에 대한 역변환을 의미할 수 있다. 여기서, 상기 GBST는 상기 레지듀얼 신호의 행들 및 열들의 GMRF 모델링에 의해 획득된 라인 그래프들에 기초하는 것을 특징으로 한다.

본 발명의 다른 일실시예로, 상기 역변환부 (630)는 DCT 또는 GBST에 대응되는 모드 인텍스를 수신하고, 상기 모드 인텍스에 대응되는 그래프 기반 변환 커널을 획득할 수 있다. 상기 획득된 그래프 기반 커널을 이용하여 변환 유닛을 복원할 수 있다. 여기서, 상기 그래프 기반 변환 커널은 최적의 가중차를 갖는 라인 그래프에 기반하는 GBST를 나타낼 수 있다 .

상기 레지듀얼 신호를 상기 예측부 (650)에 의해 출력된 예측 신호에 더함으로써 복원 신호가 생성될 수 있다.

상기 버퍼 (640)는 상기 예측부 (650)의 향후 참조를 위해 상기 복원 신호를 저장한다.

상기 예측부 (650)은 이전에 복원되어 상기 버퍼 (S40)에 저장된 신호를 기반으로 예측 신호를 생성한다 . 도 7은 본 발명이 적용되는 일실시예로서, 그래프 기반 변환을 수행하는 그래프 기반 변환부의 내부 블록도를 나타낸다，

도 7을 참조하면, 그래프 기반 변환부는 클러스터링부 (미도시) , 그래프 모델링부 ( 710 ) , 변환 최적화부 ( 720 ) 및 변환 수행부 ( 730 )를 포함할 수 있다. 상기 유닛들은 인코더에 필수적으로 포함되어야 하는 것은 아니며, 외부에 저장된 정보를 이용하거나 인코더 내 기정의된 정보를 이용할 수 있다.

클러스터링부 (미도시)는 입력된 비디오 데이터에 대해 클러스터링을 수행하여 적어도 하나의 데이터 클러스터를 생성할 수 있다. 이때, 상기 클러스터링은 예측 모드에 기초하여 수행될 수 있다. 예를 들어, 상기 예측 모드가 인트라 예측 모드인 경우, 상기 적어도 하나의 데이터 클러스터는 상기 인트라 예측 모드에 대한 인트라 레지듀얼 데이터를 나타낸다. 또는, 상기 예측 모드가 인터 예측 모드인 경우, 상기 적어도 하나의 데이터 클러스터는 상기 인터 예측 모드에 대한 인터 레지듀얼 데이터를 나타낸다.

그래프 모델링부. ( 710 )는 데이터 클러스터돌에 대응되는 다중 그래프 기반 모델들을 생성할 수 있고, 상기 다중 그래프 기반 모델들에 대웅되는 그래프 라플라시안 행렬을 생성할 수 있다. 이때, 상기 다중 그래프 기반 모델들 각각은 상기 인트라 예측 모드 또는 상기 인터 예측 모드에 대해 생성될 수 있으며, 예를 들어 도 8에서와 같이 1차원 GMRF 모델이 이용될 수 있다. 변환 최적화부 ( 720 )는 상기 다중 그래프 기반 모델들에 기초하여 변환 최적화를 수행할 수 있다. 여기서 , 상기 변환 최적화는 아래에서 보다 상세히 설명하도록 한다. 그래프 기반 변환의 최적성 (optimality)

KLT7 높은 레이트 }¾ (high rate assumption) 하에서 평균 ^곱 오차 (Mean Square Error, MSE) 기준 측면에서 공통 가우시안 소스들 (jointly Gaussian sources)의 직교 변환 코딩 (orthogonal transform coding)에 대하여 최적임은 잘 알려진 사실이다. 일반화된 그래프 라플라시안에 기초하여 유도된 GBT는 GMRF 모델에 대한 특정 조건 하에서 최적의 KLT와 동일한 효과를 가질 수 있다. 랜덤 백터들 X G 및 y Ε Μ ¹^ 어트랙티브 GMRF (attractive

GMRF)에 기반하여 결합 분포 (jointly distributed)되고 레지듀얼 샘플들이

_Γ =_Χ-Ε[^χΜ인 경우 관측된 샘플들 _{(observed samples) y}를 이용하여 _x가 최적 예측되면, 일반화된 라플라시안으로부터 유도된 GBT는 높은 비트레이트에서 레지듀얼 백터 r의 직교 변환 코딩에 대하여 최적이다. 여기서, 어트랙티브 GMRF (attractive GMRF)라 함은, 본 명세서 내 수학식 6에서 , J_x 의 모든 비 -대각 성분들 (off -diagonal elements)이 음수가 아닌 경우의 결과 모델을 의미할 수 있다.

이하에서 설명될, 도 8(a) 및 8(b)에서와 같이 X의 샘플들 및 y의 관측된 샘플들이 어트랙티브 GMRF에 기반하여 결합되어 모델링될 수 있다. r의 레지듀얼 샘풀들이 y로부터 X의 최적 예측에 의해 획득된다고 하면, r의 공분산 행렬의 대각화, K_r = E[rr*j는, Κ_Γ = U ^_1U*을 유도하고, 여기서 U의 열들 (columns)은 KLT 기저 백터들 (basis vectors)이다. 등가적으로, KLT는 정확도 행렬 (precision matrix) Jr = UAU* 을 대각화함으로써 획득될 수 있다. 다음 수학식 4에서 보여지는 바와 같이, J_r은 일반화된 그래프 라플라시안 형태 (L= D - A + V)로 기재될 수 있고

(A)i,j 이다. 따라서, 일반화된

그래프 라플라시안에 기반하여 유도된 GBT는 최적이다.

요약하면 , 1차원 GMRF가 어트랙티브한 (attractive) 경우, GBT는 예측 변환 코딩에 대하여 최적이다. 실제적으로, 이옷 샘플들이 이미지 신호들에서 양으로 상관된다는 것이 일반적으로 가정되기 때문에, 어트랙티브 GMRF는 유효한 모델이다. 이후에 논의될 인트라 및 인터 예측 신호 모델들에서, i= 0,1,...,N-1에 대하여 ≥ ⁰ 및 i= 0,1,..., N 에 대하여 ≥ ⁰ 을 선택하는 것은 어트랙티브 GMRF 모델들을 유도한다. 이러한 경우, 이후의 수_학식 13 및ᅵ 17에서 언급되는 예측 행렬들은 모두상가수학식 1에서 일반화된 그래프 라플라시안 형태를 갖는다. 최적 GBST 구축 (optimal GBST construction)을 위한 그래프 학습 ( graph learning) 먼저 , 비디오 신호 는 다음 수학식 4와 같이 모델링될 수 있다.

【수학식 4】

1

p(r|L)二

( r ^/2|L -1/2 exp 여기서, L은 상기 수학식 1에서와 같은 일반화된 그래프 라플라시안 형태를 갖는 정확도 행렬 (precision matrix)를 나타낸다 . 인트라 및 인터 예측 레지듀얼 모델들은 또한 상기 수학식 4에서의 분포를 따른다. 비디오 신호의 레지듀얼 데이터로부터 최적의 일반화된 그래프 라플라시안을 찾기 위하여, 다음 수학식 5와 같은 최적화 문제가 구성될 수 있다.

【수학식 5】

.maximize Iog|L|― Tr (LS)

W, V

* to

+ diagCv)

w o

여기서 , S는 레지듀얼 신호 r의 샘플 공분산 ( sample covariance)를 나타내고, B는 그래프 (예를 들어 , 그래프 링크들의 세트)의 구조를 나타내는 근접 행렬 ( incidence matrix)를 나타낸다.

상기 수학식 5에서 , 목표 함수 (obj ective function)는 상기 수학식 4에서의 우도 항목의 자연 로그 (natural logarithm of likelihood term)를 취함으로써 유도되고, L은 제한 사항들 ( constraints )에 의해 _w 및 V로 각각 백터화된 링크 가중치들 ( link weights ) 및 재귀 -루프 가중치들 ( self - loop weights )을 갖는 일반화된 그래프 라플라시안이 될 수 있다.

상기 수학식 ₅에서 제안된 구성은 볼록 최적화 문제 (_convex optimization problem)이고, 이는 CVX와 같은 볼록 최적화 도구 ( convex optimization tool )를 이용하여 해결될 수 있다. 예를 들어 , 본 발명은 이러한 문제를 최적으로 해결하기 위해 고속 블록 -좌표 하강 알고리즘 ( fast block- coordinate descent algorithm)을 사용할 수 있다 . 최적 GBST 구성

GBST 구성에 대하여, 상기 수학식 5의 최적화 문제는 상기 수학식 3의 그래프 기반 변환들 (GBTS) , U_row 및 U_c이올 정의하는 2개의 별개의 라인 그래프들을 최적화함으로써 해결될 수 있다. 별개의 변환올 설계하고자 하기 때문에 , 각 라인 그래프는 독립적으로 최적화될 수 있다. 따라서 , 본 발명은 레지듀얼 블록들의 행들 및 열들로부터 생성된 샘플 공분산 행렬들 S_row 및 S_c이에 기반하여 최적의 라인 그래프들을 찾을 수 있다.

GGL(B,S)는 근접 행렬 (incidence matrix) (B) 및 공분산 행렬 (S)을 갖는 상기 수학식 5에서의 그래프 학습 문제 (graph learning problem)의 경우를 표시한다고 하자. NxN 레지듀얼 블록들에 대하여, 본 발명의 GBST는 다음과 같은 단계에 따라 구성될 수 있다.다만, 본 발명은 이에 한정되지 않으며, 본 발명은 정방형 (square) 블록뿐만 아니라 비정방형 (non- square) 블록에도 적용가능할 것이다.

먼저, 인코더는 라인 그래프를 표현하는 근접 행렬 1 을 생성할 수 있다. 그리고, 데이터 세트 내의 레지듀얼 블록들의 N행들 및 N열들로부터 2개의 샘플 공분산 행렬들 S_row 및 ₀₁를 훈련시킬 수 있다.

이후, 일반화된 그래프 라플라시안 행렬들 L_row 및 L_col을 결정하기 위해, 상기 수학식 5, GGL(B_line,S_row) 및 GGL(B_line,S_col)를 해결할 수 있다.

그리고, 상기 인코더는, L_row 및 L_c이에 고유 분해를 수행함으로써, 상기 수학식 ₃에서와 같이, _GBST를 정의하는 GBTS, U_row 및 이을 획득할 수 있다. 한편 , 변환 수행부 ( 730 )는 상기 변환 최적화를 수행한 결과에 따라 생성된 최적화된 GBST 행렬을 이용하여 변환을 수행할 수 있다 . 도 8은 본 발명이 적용되는 일실시예로서, 인트라 예측 또는 인터 예측의 레지듀얼 신호에 대한 1차원 GMRF 모델들을 나타낸다.

본 발명은, 최적의 라인 그래프에 기반하는 그래프 기반 분리 가능한 변환 (GBST)을 설계하기 위한 새로운 프레임워크를 제안한다. 먼저 , 각 예축 모드 내에서 관측되는 레지듀얼 블록들의 행-별 및 열-별 통계적 특성들에 기반하여 2개의 분리 가능한 라인 그래프들을 생성할 수 있다. 이후, 2개의 분리 가능한 라인 그래프들에 대웅되는 그래프 기반 변환 (GBT )을 이용하여 , 즉 레지듀얼 블록들의 행들 및 열들에 GBT 생성 방법을 적용함으로써 GBST를 생성할 수 있다.

본 발명은, 최적의 가중치를 갖는 라인 그래프에 기반하는 2차원 그래프 기반 분리 가능한 변환 ( GBST)을 제공함으로써 , 2차원 DCT 및 분리 가능한 카루넨 -루베 변환 ( Karhunen-Loeve transform , 이하 'KLT' 라 함)의 성능을 능가할 수 있다. 예를 들어, 본 발명이 적용되는 GBST는, 분리 가능한 KLT에 비교할 때, 훈련 데이터로부터 보다 적은 파라미터에 대한 학습을 요구함으로써 더욱 강인한 변환을 유도할 수 있다. 레지듀얼 신호들에 대한 모델들

레지듀얼 신호들을 모델링하기 위해, 가우시안 마르코프 랜덤 필드들 (GMRFs )을 이용하고, 이는 그래프 기반 프레임워크에 대한 확률론적 해석을 제공한다. 관심 있는 랜덤 백터 ^{X e R} 가 영 평균 < zero mean)을 가진다고 가정하면, X에 대한 GMRF 모델은 정확도 행렬 (precision matrix) J_x 에 기초하여 정의될 수 있고, X는 다음 수학식 6과 같은 분포를 가진다.

【수학식 6】

여기서, 는 행렬식 연산자를 표시한다 . J_x 의 모든 비 -대각 성분들 (of f -diagonal elements )이 음수가 아니면 , 결과 모델은 어트랙티브 (attractive ) GMRF 라고 부른다.

상기 도 8을 살펴보면, 인트라 예측 레지듀얼 신호 및 인터 예측 레지듀얼 신호들에 대한 2개의 기본적인 1차원 GMRF 모델들이 제시된다. 도 8 (a)와 도 8 (b)의 2개의 모델들 간에 주요 차이는 예측을 위하여 이용된 참조 샘플들의 개수이다. 즉, 상기 도 8 (a)의 인트라 예측에서는, 이웃 블록으로부터의 단일 참조 샘플이 현재 샘플들을 예측하는데 이용되고, 상기 도 8 (b)의 인터 예측의 경우, 블록 내의 각 샘플은 참조 프레임 내의 정합 블록에서 동일한 위치에 있는 대웅하는 샘플들을 이용하여 예측된다. 인트라 예측 레지듀얼 신호의 모델링

인트라 예측 레지듀얼 신호의 모델링의 경우, 참조 샘플 y는 N개의 샘플들 ^{X =} ^2 ' ' ^* XN†^: 를 예측하기 위해 이용된다. 다음 수학식 7과 같이, 레지듀얼 신호들을 1차원 GMRF로 모델링하기 위해 재귀 구성 (recursive formulation )을 이용할 수 있다. 【수학식 7】

3^1 ― po(y + d) + i

X2 = Pixi

XN-l = PN-2XN-2 + N-

여기서 , ^~·Α^_(θ,σ ) 는 참조 샘플 y에서의 왜곡을 나타내고 , 는 고정 분산 ° 를 갖는 Xi (i = l,"',N)에서의 i.i.d. 가우시안 잡음 (Gaussian noise)이다. 랜덤 변수들 d 및 _ei (i = l, ··· ,Ν)는 독립적이라고 가정한다. 샘플들 간에 공간 상관 계수들 (spatial correlation coefficients)은 Ρθ₅ Pi，…， PVᅳ 1 에 의해 표시된다. 상기 수학식 ₇은 Qx = y + d + e 와 같이 압축적으로 기재할 수 있고, 여기서 y, d, e 및 Q는 다음 수학식 8 내지 11과 같다. 【수학식 8】 y = [(poy) o ' ' · o

【수학식 9】

【수학식 10] e = fei e2^{♦ «} * ev] 【수학식 11]

여기서, x는 X = p + Q^' + Q— ^로 작성될 수 있고, 여기서

P = Q Υ는 χ에 대한 최적 예측이다. 따라서 , 레지듀얼 백터 r = X ᅳ p 이고, 이의 공분산 행렬은 다음 수학식 12와 같다. 【수학식 12】

Kr = Q— [(G + d)(G + d)*] (Q-¹) 공분산-행렬와 역변환은 수학식 13에서와 -같이 예측 행렬 Jr = K_r

2

을 제공하고, 여기서 사다

【수학식 13]

-pi 1+/I -P2 0 ： 0 — i 1 +^■ i -ps ^' ' ：

^"·. ^*·. ^'*- 0

^'· —pN-2 1 + P%-i —pN- 1

0 - ' · · · · 0 —pN-i 1 인터 예측 레지듀얼 신호의 모델링 이전 프레임의 N 개의 참조 샘플들, y^^yN은

X = [^l 2 '' ' 의 N 개의 샘플들을 예측하기 위해 이용될 수 있다. 다음 수학식 14의 재귀 구성 (recursive formulation)은 1차원 GMRF를 모델링할 수 있다.

【수학식 14]

XI = po(y + ^) + pi(yi + 1) + ei

XN-1― PN-2^N-2 + PN-liVN-l + <¾V— 1) + GjV-l av =^; pN-iXN-i + PN(VN + dN ) +예 여기서, . 〜 (0₅ 는 참조 샘플 _yi의 왜곡을 나타내고,

^€i 〜 (⁰，°^* )는 _Xi (i=i, ···,!!)에서의 i.i.d. 가우시안 잡음 (Gaussian noise)이다. 왜곡 ά ^ V(0, σ²)를 갖는, 이웃 블록의 샘플 y는 _GMRF 모델의 일부이지만, 인터 예측 레지듀얼 신호들을 모델링하기 때문에 예측에서 이용되지 않는다. 더욱이, 랜덤 . 변수들 d, _ei 및 (i=l, '",N)는 독립적이라고 가정된다. 공간 상관 계수들 (spatial correlation coefficients) ,

Ρο쎄 에 부가하여 , idPN 로 표시되는 시간 상관 계수들 (temporal correlation coefficients)이 이러한 모델에서 ^ᅵ용된다. 상기 수학식 ₁₄는 Qx = + 3와 같은 백터 -행렬 형태 (_vector- matrix form)로 작성될 수 있다 . 여기서 , Q는 수학식 11에서 설명되었고, y ― {(poy + piyi ) P2V2 - · · ΡΝΙ/ΝΪ 및 ά = [(pod + βιάι) 2<h ' · - pNdn 를 나타낸다. 그리고, X는 ^{X =} Q + C na+e) 로 작성될 수 있으므로 χ에 대한 최적 예측을 나타낸다. 따라서, 레지듀얼 백터 다음 수학식 15와 같이 나타낼 수 있고, 그 공분산 행렬은 다음 수학식 16과 같이 나타낼 수 있다.

【수학식 15】

f = Q^_1(d + e

【수학식 16]

공분산 행렬 '을 역변환함으로써, 본 발명은 다음 수학식 17에서와 같이 정확도 행렬 ^Jf 을 획득할 수 있다 .

【수학식 17 ]

여기

이다. y는 예측에 사용되지 않기 때문에, y에서 왜곡 d는 층분히 크다고 가정할 수 있다. 즉, :» σ_β：라고 가정할 수 있다ᅳ 따라서, 상기 수학식

17에서 첫번째 대각 엔트리는 (^ )¹，¹ 에 대한 다음 수학식 ₁₈과 같은 근사화와 같다.

【수학식 18】

본 발명이 적용되는 인코더는, 라인 그래프를 나타내는 근접 행렬 (incidence matrix)을 생성할 수 있다 (S910) . 예를 들어 , 상기 근접 행렬은 라인 그래프를 나타내고, B_line으로 표현될 수 있다.

상기 인코더는, 레지듀얼 신호의 행과 열로부터 행 및 열에 대한 샘플 공분산 행렬 (sample covariance matrix)을 훈련入 j킬 수 있다 (S920) . 예를 돌어, 레지듀얼 블특들의 N개의 행돌 및 N개의 열들로부터 2개의 샘플 공분산 행렬들 S 및 S_c이를 훈련시킬 수 있다.

상기 인코더는, 상기 근접 행렬 (incidence matrix) 및 상기 행 (row) 및 열 (column)에 대한 샘플 공분산 행렬 (sample covariance matrix)에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)을 계산할 수 있다 (S930) . 예를 들어 , 일반화된 그래프 라플라시안 행렬들 L_row 및 ₀₁을 결정하기 위해, 상기 수학식 5, GGL(B_line,S_row) 및 GGL(B_line,S_col)를 해결할 수 있다.

상기 인코더는, 상기 행 및 열에 대한 그래프 라플라시안 행렬에 고유 분해 (eigen decomposition) ·수행함으로써 GBST 를 획득할 수 있다 (SS40) . 예를 들어 , 상기 수학식 3에서와 같이 , GBST를 정의하는 GBTS, U_row 및 이을 획득할 수 있다. 도 10은 본 발명이 적용되는 일실시예로서, 최적의 가중치를 갖는 라인 그래프에 기반하는 그래프 기반 분리 가능한 변환 (GBST)에 기초하여 디코딩을 수행하는 과정을 설명하기 위한 흐름도이다.

본 발명이 적용되는 디코더는, 비디오 신호로부터 레지듀얼 신호를 추출할 수 있다 (S1010) .

상가 디코더는, 라인 그래프들에 기초하여 생성된 GBST에 기초하여 상기 레지듀얼 신호에 대해 역변환을 수행할 수 있다 (S1020) . 여기세, 상기 라인 그래프들은 상기 레지듀얼 신호의 행들 및 열들의 GMRF 모델링에 의해 획득된 것일 수 있다.

상기 디코더는, 상기 역변환된 레지듀얼 신호를 예측 신호와 합함으로써 복원 신호를 생성할 수 있다 (S1030) . 도 11은 본 발명이 적용되는 일실시예로서, 인트라 예측 모드 및 인터 예측 모드에 대해 최적화된 그래프들을 나타낸다.

도 11(a)는 인트라 수평 모드 (mode 10)에 대한 최적화된 그래프를 나타내고, 도 11(b)는 인트라 대각 모드 (mode 18)에 대한 최적화된 그래프를 나타내며 , 도 11(c)는 Nx2N 크기의 Ρϋ 파티션의 인터 예측 모드에 대한 최적화된 그래프를 나타낸다.

상기 도 ll(a)~(c)의 (B)는 8x8 블톡들에 대한 픽셀 값들의 샘플 분산을 나타내고, 여기서 질은 색들은 더 큰 분산을 나타낸다.

각 블록들의 행들 및 열들과 연관된 최적화된 그래프들은 각각 (i) 및 (ii)에서 도시된다. 모든 가중치들은 최대 링크 가중치로 정규화되고, 링크 가중치들은 더 짙은 색들이 더 큰 가중치들을 나타낸다. 상기 도 ll(a)~(c)에서 노드돌에 부착된 막대들은 그 가중치들이 바들의 길이에 비례하는 재귀 -루프들을 나타낸다 .

이하에서는, 본 발명 하에서 GBTS 및 KLT, DCT 및 ADST와 같은 변환들 간의 관계에 대해 설명하도록 한다 . 본 설명은, 1차원 변환 쌍을 이용하여 정의되는 GBST에 대하여 용이하게 (trivially) 확장하여 적용될 수 있다.

(1) KLT: 상기 GBT의 최적성 부분에서 설명한 조건이 만족된다면 GBT는 KLT와 등가일 수 있다. 그러나, 본 발명의 GBT는 분리 가능한 KLT보다 더욱 강인한 변환을 제공한다 . 이는 KLT가 을 요구하고, 반면에 GBT는 연관된 1차원 모델을 학습하기 위해 (^ΛΓ)만을 요구하기 때문이다. 따라서 , 본 발명은 신호 모델을 학습하는데 더 양호한 일반화를 제공하고, 이는 강인한 변환 설계를 가능하게 한다.

(2) DCT 및 ADST: 기본 (underlying) 신호 모델이 1차원 GMRF인 경우 1차원 DCT가 KLT를 근사화하는 것은 잘 알려진 사실이다. 이에 따라, 1차원 DCT가 균일 가중치의 라인 그래프 (uniformly weighted line graph)의 결합 라플라시안 (combinational Laplacian)의 고유 분해 (eigen decomposition)에 의해 획득될 수 있다. 1차원 ADST는 그 링크 가증치들이 모두 w_u 와 동일한 일반화된 그래프 라플라시안으로부터 유도되는 GBT이고, 첫번째 샘플에서 단일 재귀-루프를 갖고, 해당 가중치로 (V)l,l = W 갖는다. 이러한 결과들에 기반하여, i = 0,l N-1 에 대하여 찌 ᅳ 1을 가정하면 , GBT는 다음과 같이 유도될 수 있다 . 예를 들어, (i)상기 수학식 7의 인트라 예측 모델에 대하여 ^σ ~ 이면 , GBT는 1차원 DCT로 유도될 수 있고, (ii)상기 수학식 7의 인트라 예측 모델에 대하여 0^" <§: 0^인 경우 는 1차원 ADST로 유도될 수 있으며, (iii) 상기 수학식 ₁₄의 인터 예측 모델에 대하여 71 = = 7¥이면 GBT는 丄차원 DCT로 유도될 수 있다.

또한, 상기 수학식 13 및 17을 살펴보면, 인트라 예측에 있어서, 더 나은 예측 (즉, 더 작은 σ)은 참조 샘플에 인접한 샘플에서 더 큰 재귀 -루프를 생성한다는 점을 확인할 수 있다 . 이는 잠재적으로 ADST에 근사한 GBT를 유도한다 . 반대로 , 나쁜 예측은 작은 재귀 -루프 가중치를 생성한다 .

따라서, 예측 품질에 의존하여 최적 GBT가 ADST 또는 DCT에 근접될 수 있다. 인터 예측에서, 다중 참조 샘플들은 각 위치에서 재귀—루프 가증치에 영향을 미친다. 실제적으로, 예측 품질은 샘플돌에 걸쳐서 유사하고 (즉, σ ί¾ ^ σΝ ) , 최적 변환은 ADST 보다 오히려 일반적으로 DCT에 근접한다. 분리 가능한 KLT 및 2차원 DCT에 대하여 본 발명의 GBST의 성능을 보여주기 위하여, 레지듀얼 블록들의 클래스와 정합되는 상이한 변환을 이용하여 제공되는 모드 -의존 변환 코딩 방식이 채택될 수 있다.

예를 들어 , HEVC 참조 소프트웨어 ( HM 버전 14 )를 사용하는 상이한 비디오 시퀀스로부터의 레지듀얼 블록 데이터를 획득하고, 이후 훈련 및 시험을 위한 2개의 별도의 데이터 세트돌을 생성할 수 있다. 예를 들어, 훈련 데이터 세트의 경우, 레지듀얼 블록들은 704x576 해상도를 갖는, 6개의 상이한 비디오 시원스들로부터 획득되었다. 그리고, 시험 데이터 세트의 경우, 레지듀얼 블록들은 832x480 해상도를 갖는, 2개의 비디오 시퀀스들로부터 수집되었다 . 모든 데이터 세트들에서, 레지듀얼 블록들은 인코더에 의해 제공되는 부가 정보에 기반하여 분류될 수 있다. 특히, 인트라 예측 블록들은 35개의 인트라 예측 모드들에 기반하여 분류될 수 있다 . 유사하게 , 인터 예측 블록들은 예측 유닛 ( PU) 파티션들을 이용하여 7개의 상이한 클래스들로 분류된다. 예를 들어, 2개의 정사각형 PU 파티션들이 하나의 클래스로 그룹화되고 나머지 6개의 PU 파티션들은 다른 클래스로 결정될 수 있다. 따라서, 총 35 + 7 = 42의 클래스들을 갖는다.

각 클래스 및 블록 크기에 대하여, 최적 GBST가 훈련 데이터 세트를 사용하여 구축될 수 있다. 최적 변환들이 모든 데이터 세트들에서 레지듀얼 블록들과 연관되어 적용되어, 변환 계수들이 양자화되고, 이후 산술 코딩을 사용하여 엔트로피 코딩된다.

상기 도 11을 살펴보면, 2개의 인트라 예측 모드들 및 1개의 인터 예측 파티션에 대하여 최적화된 가중화된 라인 그래프들의 예시를 도시한다 . 참조 샘플에 연결된 픽셀들에서 재귀-루프의 가중치는 더 큰 것을 확인할 수 있다. 상기 도 11 (a)의 경우, 행들과 연관된 그래프는 첫번째 픽셀에서 큰 재귀 루프를 가지는 반면에 , 다른 그래프는 우세한 (dominant) 재귀 -루프 가중치를 갖지 않는다.

상기 도 11 (b)의 경우, 2개의 그래프들은 그들의 첫번째 노드에서 큰 재귀-루프 가중치를 갖는다.

한편 , 도 11 ( c )에서 , 재귀 -루프 가중치는 인터 예측에 기인하여 각각의 노드에서 일반적으로 크다. 더욱이, PU 분할이 수직이기 때문에, 행들에 대응하는 그래프는 증간 부분에서 작은 링크 가증치를 갖는다. 도 12는 본 발명이 적용되는 일실시예로서, 인트라 예측 및 인터 예측의 레지듀얼 신호에 대한 분리 가능한 카루넨 루베 변환 (Karhunen-Loeve transform)와 그래프 기반 분리 가능한 변환 (GBST)의 코딩 성능을 비교한 표이다.

상기 도 12를 살펴보면 , BD—레이트 (Bj ntegaard delta rate) 및 BD- PSNR (Peak signal - to-noise ratio) 메 S릭 측면에서 압축 결과들을 나타낸다.

상기 도 12는 인트라 및 인터 예측 레지듀얼들에 대하여 분리 가능한 KLT 및 본 발명의 GBST의 코딩 성능을 보이고 있으며 , 각 성능은 HEVC에서의 변환 코딩 ( transform coding)을 적용했을 때와 비교한 결과이다 (HEVC에서는 2차원 ADST를 사용하여 코딩된 4x4 인트라 예측 블록들을 제외하고 모든 블록들에 2차원 DCT가 적용된다) .

인트라 및 인터 예측 코딩에 대하여, 본 발명의 GBST는 시험 데이터 세트에 관하여 분리 가능한 KLT을 능가하고, 훈련 데이터 세트에 대해서는 유사한 성능을 보여준다 . 이는 GBST가 분리 가능한 KLT와 비교하여 더 강인하고 더 양호한 일반화를 제공한다는 것을 실증적으로 보여준다. 도 13은 본 발명이 적용되는 일실시예로서 , 인트라 예측의 레지듀얼 신호에 대한 하이브리드 이산 코사인 변환 (DCT) /비대칭 이산 사인 변환 (Asymmetric Discrete Sine Transform , 이하 \ADST '라 함)와 그래프 기반 분리 가능한 변환 (GBST )의 코딩 성능을 비교한 표이다.

상기 도 13을 살펴보면, GBST 및 하이브리드 DCT/ADST 의 성능 비교 결과를 나타낸다. 이들은 수직, 수평 및 DC 모드들만을 사용하여 예측된 4 X 4 블록들에 적용된 것이다.

상기 도 13의 결과는 2차원 DCT에 관하여 BD 이득을 나타낸다. 본 발명의 GBST는 모든 데이터 세트들에 관하여 하이브리드 DCT/ADST 를 능가하는 것을 확인할 수 있다.

상기에서 살펴본 바와 같이 , 본 발명에서는 그래프 기반 분리 가능한 변환들 (GBSTS ) 및 이들의 최적 설계를 위한 그래프 학습 구성을 설명하였다. 인트라 및 인터 예측 '레지듀얼들에 대한 2개의 GMRF 모델들을 제시하고, 레지듀얼 신호들이 어트랙티브 GMRF 모델들을 따르는 경우 그래프 기반 변환들 (GBTs )이 최적임을 입증하였다. GBSTs가 DCT 및 ADST와 같이 잘 알려진 변환으로 단순화되는 경우들 또한 설명하였으며, 상기 도 12 내지 13에서와 같이 본 발명이 적용된 실험 결과들은 GBST가 압축 성능 관점에서 KLT 및 하이브리드 DCT/ADST을 능가하는 것을 확인할 수 있다. 본 명세서에서 설명하는 실시예들은 인코더를 기반으로 주로 설명하고 있으나, 본 발명은 이에 한정되지 않는다. 변환부 또는 그래부 기반 변환부의 각 기능 유닛들은 인코더뿐 아니라 디코더에서도 수행될 수 있으며, 이 경우 상기 실시예들에서 설명한 변환부 또는 그래프 기반 변환부의 모든 기능 유닛들은 디코더에 필수적으로 포함되어야 하는 것은 아니며, 일부가 포함될 수도 있으며 , 또는 외부에 저장된 정보를 이용하거나 인코더 /디코더 내 기정의된 정보를 이용할 수 있다.

상기 기술된 것과 같이 , 본 발명에서 설명한 실시예들은 프로세서, 마이크로 프로세서, 컨트롤러 또는 칩 상에서 구현되어 수행돨 수 있다. 예를 들어, 상기 도 1 , 도 2 및 도 5 내지 도 7에서 도시한 기능 유닛들은 컴퓨터, 프로세서, 마이크로 프로세서, 컨트롤러 또는 칩 상에서 구현되어 수행될 수 있다.

또한, 본 발명이 적용되는 디코더 및 인코더는 멀티미디어 방송 송수신 장치, 모바일 통신 단말, 홈 시네마 비디오 장치, 디지털 시네마 비디오 장치, 감시용 카메라, 비디오 대화 장치, 비디오 통신과 같은 실시간 통신 장치, 모바일 스트리밍 장치 , 저장 매체 , 캠코더 , 주문형 비디오 (VoD) 서비스 제공 장치, 인터넷 스트리밍 서비스 제공 장치, 3차원 ( 3D) 비디오 장치, 화상 전화 비디오 장치, 및 의료용 비디오 장치 등에 포함될 수 있으며, 비디오 신호 및 데이터 신호를 처리하기 위해 사용될 수 있다. 또한, 본 발명이 적용되는 처리 방법은 컴퓨터로 실행되는 프로그램의 형태로 생산될 수 있으며, 컴퓨터가 판독할 수 있는 기록 매체에 저장될 수 있다. 본 발명에 따른 데이터 구조를 가지는 멀티미디어 데이터도 또한 컴퓨터가 판독할 수 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 판독할 수 있는 기록 매체는 컴퓨터로 읽을 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 상기 컴퓨터가 판독할 수 있는 기록 매체는, 예를 들어, 블루레이 디스크 ( BD ) , 범용 직렬 버스 (USB ) , ROM , RAM , CD-ROM , 자기 테이프, 플로피 디스크 및 광학적 데이터 저장 장치를 포함할 수 있다. 또한, 상기 컴퓨터가 판독할 수 있는 기특 매체는 반송파 (예를 들어 , 인터넷을 통한 전송)의 형태로 구현된 미디어를 포함한다. 또한, 인코딩 방법으로 생성된 비트 스트림이 컴퓨터가 판독할 수 있는 기록 매체에 저장되거나 유무선 통신 네트워크를 통해 전송될 수 있다.

【산업상 이용가능성】

이상, 전술한 본 발명의 바람직한 실시예는, 예시의 목적을 위해 개시된 것으로, 당업자라면 이하 첨부된 특허청구범위에 개시된 본 발명의 기술적 사상과 그 기술적 범위 내에서 , 다양한 다른 실시예들을 개량, 변경 , 대체 또는 부가 등이 가능할 것이다.

Claims

【청구의 범위】

【청구항 1】

그래프 기반 분리가능 변환 (graph-based separable transform, GBST)에 기초하여 비디오 신호를 인코딩하는 방법에 있어서,

라인 그래프를 나타내는 근접 행렬 ( incidence matrix)을 생성하는 단계;

레지듀얼 신호의 행과 열로부터 행 및 열에 대한 샘플 공분산 행렬 ( sample covariance matrix)을 문련하는 단계 ;

상기 근접 행렬 및 상기 행 및 열에 대한 샘플 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)을 계산하는 단계; 및

상기 행 및 열에 대한 그래프 라플라시안 행렬에 고유 분해 ( eigen decomposition) ¾ 수행함으로써 GBST 를 획득하는 단계

를 포함하는 것을 특징으로 하는 방법 .

【청구항 2】

제 1항에 있어서,

상기 행 및 열에 대한 그래프 라플라시안 행렬은 링크 가중치 파라미터 ( link weighting parameter) 및 재귀 루프 파라미터 ( recursive loop parameter)에 의해 정의되는 것을 특징으로 하는 방법 .

【청구항 3】 제 1항에 있어서,

서로 다른 2개의 가우시안 마르코프 랜덤 필드 (Gaussian Markov Random Field, GMRF)는, 인터 레지듀얼 신호 및 인트라 레지듀얼 신호의 모델링을 위해 이용되는 것을 특징으로 하는 방법 .

【청구항 4】

제 3항에 있어서,

상기 인트라 레지듀얼 신호의 경우, 1차원 GMRF 는 참조 샘플의 왜곡 성분 (distortion component) , 현재 샘플의 가우시안 노이즈 성분 (Gausian noise component ) 또는 공간 상관 계수 ( spatial correlation coef f icient ) 중 적어도 하나를 포함하는 모델인 것을 특징으로 하는 방법.

【청구항 5】

제 3항에 있어서,

상기 인터 레지듀얼 신호의 경우, 1차원 GMRF 는 참조 샘플의 왜곡 성분, 현재 샘플의 가우_.시안 노이즈 성분, 시간 상관 계수 ( temporal correlation coef ficient) 5£^- 공간 상관 계수 ( spatial correlation coeff icient ) 중 적어도 하나를 포함하는 모델인 것을 특징으로 하는 방법 .

【청구항 6】

그래프 기반 분리가능 변환 (graph-based separable transform , GBST)에 기초하여 비디오 신호를 디코딩하는 방법에 있어서 , 상기 비디오 신호로부터 레지듀얼 신호를 추출하는 단계; 상기 GBST에 기초하여 상기 레지듀얼 신호에 대해 역변환을 수행하는 단계; 및

상기 역변환된 레지듀얼 신호를 예측 신호와 합함으로써 복원 신호를 생성하는 단계

를 포함하되 ,

상기 GBST는 상기 레지듀얼 신호의 행들 및 열들의 GMRF 모델링에 의해 획득된 라인 그래프들에 기초하여 생성된 변환을 나타내는 것을 특징으로 하는 방법.

【청구항 7】

제 6항에 있어서,

상기 GBST는 다음 단계들,

레지듀얼 신호의 행과 열로부터 행 및 열에 대한 샘플 공분산 행렬 (sample covariance matrix)을 푼련하는 단계 ;

상기 근접 행렬 및 상기 행 및 열에 대한 상기 샘플 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)을 계산하는 단계 ; 및

상기 행 및 열에 대한 그래프 라플라시안 행렬에 고유 분해 ( eigen decomposition)를 수행함으로써 GBST 를 획득하는 단계 에 따라 생성된 것을 특징으로 하는 방법 .

【청구항 8】

그래프 기반 분리가능 변환 (graph-based separable transform, GBST)에 기초하여 비디오 신호를 인코딩하는 장치에 있어서 ,

라인 그래프를 나타내는 근접 행렬 ( incidence matrix)을 생성하는 그래프 생성부;

레지듀얼 신호의 행과 열로부터 행 및 열에 대한 샘플 공분산 행렬 ( sample covariance matrix)을 훈련하고, 상기 근접 행렬 및 상기 행 및 열에 대한 샘플 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)올 계산하고, 상기 행 및 열에 대한 그래프 라플라시안 행렬에 고유 분해 ( eigen decomposition)를 수행함으로써 GBST 를 획득하는 GBST부

를 포함하는 것을 특징으로 하는 장치 .

【청구항 9】

제 8항에 있어서,

상기 행 및 열에 대한 그래프 라플라시안 행렬은 링크 가증치 파라미터 ( link weighting parameter) 및 재귀 루프 파라미터 ( recursive loop parameter)에 의해 정의되는 것을 특징으로 하는 장치 .

【청구항 10】 제 8항에 있어서,

서로 다른 2개의 가우시안 마르코프 랜덤 필드 ( Gaussian Markov Random Field, GMRF)는, 인터 레지듀얼 신호 및 인트라 레지듀얼 신호의 모델링올 위해 이용되는 적용되는 것을 특징으로 하는 장치 .

【청구항 11】

제 10항에 있어서,

상기 인트라 레지듀얼 신호의 경우, 1차원 GMRF 는 참조 샘플의 왜곡 성분, 현재 샘플의 가우시안 노이즈 성분 또는 공간 상관 계수 중 적어도 하나를 포함하는 모델인 것을 특징으로 하는 장치 .

【청구항 12】

제 10항에 있어서,

상기 인터 레지듀얼 신호의 경우, 1차원 GMRF 는 참조 샘플의 왜곡 성분, 현재 샘플의 가우시안 노이즈 성분, 시간 상관 계수 또는 공간 상관 계수 중 적어도 하나를 포함하는 모델인 것을 특징으로 하는 장치 .

【청구항 13】

그래프 기반 분리가능 ¾¾· ( graph-based separable transform , GBST)에 기초하여 비디오 신호를 디코딩하는 장치에 있어서 ,

상기 비디오 신호로부터 레지듀얼 신호를 추출하는 파싱부;

상기 GBST에 기초하여 상기 레지듀얼 신호에 대해 역변환을 수행하는 역변환부; 및

상기 역변환된 레지듀얼 신호를 예측 신호와 합함으로써 복원 신호를 생성하는 복원부

를 포함하되 ,

상기 GBST는 상기 레지듀얼 신호의 행들 및 열들의 GMRF 모델링에 의해 획득된 라인 그래프들에 기초하여 생성된 변환을 나타내는 것을 특징으로 하는 장치 .

【청구항 14】

제 13항에 있어서,

상기 GBST는 다음 단계들,

레지듀얼 신호의 행과 열로부터 행 및 열에 대한 샘플 공분산 행렬 ( sample covariance matrix)을 푼련하는 단계 ;

상기 근접 행렬 및 상기 행 및 열에 대한 상기 샘플 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라폴라시안 행렬 (graph laplacian matrix)을 계산하는 단계 ; 및

상기 행 및 열에 대한 그래프 라플라시안 행렬에 고유 분해 (eigen decomposition)를 수행함으로써 GBST 를 획득하는 단계

에 따라 생성된 것을 특징으로 하는 장치 .