KR100637367B1

KR100637367B1 - 비디오 코딩

Info

Publication number: KR100637367B1
Application number: KR1020017005248A
Authority: KR
Inventors: 카르쩨비쯔마르타; 옥템레벤트
Original assignee: 노키아 모빌 폰즈 리미티드
Priority date: 1998-10-27
Filing date: 1999-10-25
Publication date: 2006-10-20
Also published as: WO2000030352A2; WO2000030352A8; CN1756366A; EP1127458A2; KR20010080914A; JP4573438B2; GB2343319A; EP1127458B1; CN1235412C; CN1328745A; GB9823442D0; DE69904749T2; DE69904749D1; GB2343319B; AU3420400A; US6507617B1; JP2003522432A; WO2000030352A3; CN100518328C

Abstract

본 발명은 모션 보상 예측을 사용하는 비디오 시퀀스들의 압축을 위한 시스템에 관한 것이다. 그러한 시스템의 주요 파트는 벡터 필드 코딩이다. 벡터 필드 코딩의 목적은 모션 벡터 필드를 나타내는데 필요한 비트들의 수를 최소화하면서, 동시에 매우 낮은 예측 오차를 유지하는 것이다. 본 발명은 모션 필드 코더의 모션 분석기에서 새로운 행렬 연산을 개시한다.

Description

비디오 코딩{Video coding}

본 발명은 비디오 데이타 인코딩과 디코딩에 관한 것이며, 보다 구체적으로 모션 보상 예측(motion compensated prediction)을 사용하는 비디오 데이타의 압축(compression)과 해제(decompression)에 관한 것이다.

모션 보상 예측을 사용하는 비디오 코딩 시스템의 구성도가 첨부된 도면의 도 1과 도 2에 도시된다. 도 1은 인코더를 도시하고 도 2는 대응하는 디코더를 도시한다. 그러한 시스템에서의 모션 보상 예측이 이하에서 간략히 설명된다.

전형적인 비디오 시퀀스(sequence)에서 연속적인 프레임들의 내용 변화는 대부분 장면에서 모션(움직임)의 결과이다. 이러한 모션은 카메라 모션 또는 장면에서 묘사되는 대상의 모션에 기인할 수 있다. 따라서, 전형적인 비디오 시퀀스들은 중요한 일시적 상관에 의해 특징지어지며, 여기에서 상관은 모션의 궤도를 따라 가장 높게 나타나고, 비디오 시퀀스들의 효율적인 압축은 이 비디오 시퀀스들의 특성 개발을 요구한다. 모션 보상(Motion compensated:MC) 예측은 비디오의 압축을 위한 널리 알려진 기법이다. 그것은 전형적인 비디오 시퀀스에 있어서 특정 프레임에서의 이미지 세기(intensity) 값은, 이러한 두 프레임들 사이의 모션 궤도가 주어졌을 때, 이미 코딩된 일부 다른 프레임의 이미지 세기를 사용하여 예측될 수 있다는 사실을 이용한다.

도 1에 도시된 인코더에서, 모션 추정(Motion Estimation) 블럭은 현재 프레임으로 부르는 코딩된 프레임들(I_n(x,y))과 R_ref(x,y)로 표시되는 기준 프레임 사이의 픽셀들의 모션 벡터들(Δx(x,y), Δy(x,y))을 계산한다. 상기 기준 프레임은 주어진 순간에 인코더와 디코더의 프레임 메모리에서 유용한, 이전에 코딩된 프레임들(즉, 코딩되는 하나의 프레임을 앞서는 프레임) 중 하나이다. 한 쌍의 숫자들( Δx(x,y), Δy(x,y))은 현재 프레임의 위치(x,y)에서 픽셀의 모션 벡터로 불리고, Δx(x, y)와 Δy(x,y)는 각각 수평과 수직 변위의 값들이다.

모션 벡터 필드로 불리는, 현재 프레임에서 모든 픽셀들의 일련의 모션 벡터는 모션 필드 코딩 블럭에 의해 압축되어 디코더로 전송된다. 모션 벡터 필드의 압축이 대체적으로 손실이 있다는 것을 나타내기 위해 압축된 모션 벡터들은

로 표시된다. 모션 보상(MC) 예측 블럭에서, 압축된 모션 벡터들

과 기준 프레임은 예측 프레임 P_n(x,y)을 구성하는데 사용된다:

상기 예측 오차, 즉, 현재 프레임 I_n(x,y)과 예측 프레임 P_n(x,y) 사이의 차:

는 압축되어 디코더로 보내진다. 상기 압축된 예측 오차는 _n(x,y)로 나타낸다.

도 2에 도시된 디코더에서, 현재의 코딩된 프레임 _n(x,y)의 픽셀들은 수신된 모션 벡터들을 사용하여 기준 프레임(R_ref(x,y))에서 예측 픽셀들을 찾아내고 수신된 예측 오차, _n(x,y)를 더함으로써, 즉, 다음과 같이 재구성된다.

_n(x,y)은 코딩 시에 나타나는 손실로 인해 I_n(x,y)와 동일하지 않다. 코딩된 프레임과 원래의 프레임 간의 차이

는 재구성 오차로 불려진다.

모션 보상 예측의 목적은 디코더에 전송되어질 필요가 있는 많은 양의 정보들과 인코딩 시에 나타나는 손실 사이에 최적의 트레이드-오프(trade-off), 즉,

1. 예측 오차의 양을 최소화시키고,

2. 모션 벡터 필드를 나타내는데 요구되는 정보의 양을 최소화시키는 것을 찾아내는 것이다.

프레임의 다수의 픽셀들로 인해, 각각의 픽셀에 대해 개별적인 모션 벡터를 전송하는 것은 효율적이지 않다. 대신에, 대부분의 비디오 코딩 구조에서, 세그먼트의 모든 모션 벡터들이 적은 수의 계수들에 의해 묘사될 수 있도록 현재 프레임은 더 큰 이미지 세그먼트들로 나누어진다. 현재 프레임이 세그먼트들로 나누어져 있다는 점에 의존하여 두 가지 형태의 모션 보상기 코더가 구분될 수 있다;

1. 현재 프레임이 고정되고 알려진 블럭들, 예를 들어, 국제 표준(International Standard) ISO/IEC MPEG1 또는 ITU-TH.T61 코덱(도 3a 참조)에서의 16*16 픽셀 블럭으로 나누어지는 블럭 기반의 코더들, 또는

2. 현재의 프레임이 임의 형태의 세그먼트들, 예를 들어, 도 3b의 세그먼트 알고리듬에 의해 얻어지는 세그먼트들로 나누어지는 세그먼테이션(segmentation)기반의, 즉, 지역 기반의 코더들.

전형적인 비디오 시퀀스의 프레임은 서로 다른 모션과 함께 다수의 대상들을 포함한다. MC 예측은 프레임I_n(x,y)을 다수의 세그먼트들(S_k)로 나누고 상기 프레임과 기준 프레임(R_ref(x,y)) 사이의 세그먼트들의 모션을 추정함으로써 수행된다. 실제로, 세그먼트는 적어도 수십 개의 픽셀들을 포함한다. 이러한 픽셀들의 모션 벡터를 간략히 표현하기 위해서, 그들의 값은 소수 파라미터들의 함수로 나타낼 수 있다. 그러한 함수는 모션 벡터 필드 모형으로 불린다. 모션 보상 비디오 코딩 구조는 일반적인 공식(수학식 5, 6)을 사용하여 이미지 세그먼트의 모션 벡터들을 접근시킨다:

여기에서, 파라미터(c_n)는 모션 계수들로 불리고 압축되어 디코더로 전송된다. 압축된 모션 계수들은 _n로 표시될 것이다. 함수들(f_n)은 기본 함수들로 불리며 인코더와 디코더에 모두 알려져 있어야 한다. 세그먼테이션 정보는 모션 표현의 고유한 부분이고 그것은 또한 코딩되어 디코더로 전송되어질 필요가 있다. 디코더에서, 세그먼테이션 정보와 계수들(_n)은 각 세그먼트에 대해서 압축된 모션 벡터필드를 얻는데 사용된다:

인코더에서, 모션 필드 코딩 블럭은 모션 벡터의 표시를 위해 요구되는 비트 수를 최소화하는 것과 동시에, 낮은 예측 오차를 유지하는 것을 목표로 한다. 상기 모션 벡터 필드를 나타내는데 요구되는 전체적인 비트 수는

. 이미지의 세그먼트들의 수

. 각 세그먼트 당 모션 계수들의 수

. 모션 계수들을 표시하는데 요구되는 비트들의 수에 의존한다.

모션 필드 코딩을 수행하기 위한 종래의 시스템이 도 4에 도시되며, 4개의 메인 블럭들: QR 모션 분석기(1), 세그먼트 병합 블럭(2), 직교화 블럭(3) 및 모션 계수 이동 블럭(4)으로 구성된다. 그러한 시스템은 PCT출원 공개 WO97/16025 및 WO97/40628에서 설명된다.

모션 필드 코딩 블럭의 입력은:

.모션 추정 블럭에서 구해지는 모션 벡터 필드(Δx(x,y), Δy(x,y)),

.현재 프레임,

.기준 프레임, 및

.현재 프레임의 초기 세그먼테이션이다. 상기 초기 세그먼테이션은 모션 추정 전에 또는 모션 추정 동안 인코더에서 얻어질 수 있다. 상기 세그먼테이션은 또한 외부 수단들에 의해서 인코더에 제공될 수 있다.

모션 필드 코딩 블럭은 디코더에 보내져야 하는 전체 비트들의 수를 다음과 같이 줄일 수 있다.

. 예측 오차를 크게 증가시키지 않고, 예측될 수 있는 그 세그먼트들을 모션 계수들의 공통 벡터와 결합시켜(combining, merging) 세그먼트들의 수를 줄임으로써 줄일 수 있다. 그러한 세그먼트들을 결합시키는 프로세스는 모션 어시스트 병합(motion assisted merging)으로 불리며 세그먼트 병합 블럭(2)에 의해 수행된다.

. 이러한 계수들이 작은 수의 비트들로 표현될 수 있도록, 해당 모션 계수들의 양자화(양자화 블럭(5)에 의해 수행되는)에 대해 낮은 감도를 갖는 두 개의 기 본 함수들을 사용함으로써 줄일 수 있다. 이산적 직교 함수들에 해당하는 계수들이 양자화에 대해 견고(robust)하다는 것이 발견되었다. 따라서, 세그먼트 병합 후에, 기본 함수들은 상기 세그먼트를 둘러싸는 직사각형에 대하여 직교된다. 이것은 직교화 블럭(3)에 의해 수행된다.

. 각 세그먼트에 대해, 만족스럽게 낮은 예측 오차를 얻는 최소 개수의 기본 함수들을 찾아냄으로써 줄일 수 있다. 단지 이들 선택된 기본 함수들에 해당하는 계수들은 디코더로 전송되어야만 한다. 그러한 기본 함수들의 적응적 선택의 프로세스와 해당 모션 계수들은 모션 계수 이동 블럭(4)에 의해 수행된다.

QR모션 분석기(1)의 함수는 세그먼트들의 다른 조합들과 기본함수에 상응하는 모션 계수들을 효율적으로 계산하기 위해 세그먼트 병합 블럭(2)과 모션 계수 이동 블럭(4)에 의해 하부(downstream)에 사용될 수 있는 모션 벡터 필드의 표시를 찾아내는 것이다. 상기 QR 모션 분석기(1)와 세그먼트 병합 블럭(2)은 다음과 같이 동작한다.

상기 QR 모션 분석기(1)는 행렬 동작을 포함하는 다수의 단계들을 수행한다. 이들은 PCT 출원 공개 WO97/16025와 WO97/40628에 상세히 설명된다. 제1단계에서 예측 프레임은 상기 예측 프레임이 모션 벡터들에 대해 선형적이 되도록 접근된다. 제2스텝에서, 행렬(E_k)와 벡터(q_k)는 예측 프레임의 각 세그먼트(S_k)에 대해 구성되고 제곱 예측 오차의 최소화를 위해 사용된다. 제3단계에서, 행렬(E_k)을 두 행렬들(Q_k, R_k)의 적(product)으로 분해하기 위해, 잘 알려진 QR 인수분해 알고리듬 이 사용되며, 여기에서, Q_k는 단위 행렬을 나타내고, R_k는 상위 삼각 행렬(upper triangular matrix)을 나타낸다. 또한, 보조 벡터(z_k)는 인수 행렬(Q_k)과 벡터(q_k)로부터 계산된다. 상기 행렬(R_k)과 보조 벡터(z_k)의 일부는 세그먼트 병합 블럭(2)으로 인가된다.

상기 세그먼트 병합 블럭은 결합된 영역에서의 픽셀 값들이 공통 모션 계수 벡터를 사용하여 예측될 수 있는지를 찾아냄으로써 인접한 세그먼트들(S_i, S_j)의 쌍을 위한 병합 동작을 수행한다. 만일, 예측 오차로 정의되는 왜곡을 과도하게 증가시키지 않고, 결합된 세그먼트들의 영역이 모션 계수들의 하나의 벡터를 사용하여 코딩될 수 있다면, 결과적으로 재구성 오차와 전송된 비트들의 개수 사이에서 더 나은 트래이드-오프를 산출하고, 따라서 이러한 세그먼트들이 병합된다. 행렬 동작에서, 행렬 방정식이 먼저 형성되고, 그에 따라 인수 행렬들이 알려진 행렬 계산 방법을 사용하여 처리된다. 그 결과는 행렬 방정식이며, 여기에서 하나의 행렬은 병합된 세그먼트들의 영역에서 제곱 예측 오차를 계산하기 쉽다는 것에 근거하여 항들을 포함한다. 만일, 제곱 예측 오차가 선택된 표준에 따라서 허용할 만하다면, 상기 세그먼트들은 병합된다.

모든 쌍의 세그먼트들이 고려된 후에, 세그먼트 병합 블럭(2)의 출력은:

ⅰ. 감소된 세그먼트 수에 의한 이미지의 새로운 분할,

ⅱ. 각각의 새로운 세그먼트에 대한 블럭 출력 행렬(R^l _k), 벡터(z^l _k),

ⅲ. 디코더로 보내지고, 상기 디코더로 하여금 병합되는 세그먼트들을 확인하도록 하는 병합 정보이다.

전체적인, 모션 필드 코딩 블럭의 출력들은:

. 이미지 세그먼테이션을 나타내는 정보,

. 계수들이 디코더로 전송되도록 하는 정보,

. 전송된 모션 계수들을 위한 양자화된 값들이다.

모션 필드 코딩은 계산적으로 간단하며 이로 인해 인코더가 입력되는 속도로 데이타를 처리하는 것을 가능하게 한다.

본 발명은 상술한 바와 같이 모션 필드 코딩 시스템에서의 변화를 소개한다.

따라서, 제1관점에서 본 발명은 비디오 데이타의 모션 보상 인코딩을 위해 비디오 코덱(codec)을 제공하고, 상기 비디오 코덱은 기준 프레임에 대하여 코딩되는 현재 프레임의 비디오 픽섹들의 모션 벡터를 제공하고, 압축된 모션 정보를 제공하기 위해 모션 벡터 필드를 코딩하기 위한 모션 필드 코더를 포함하고, 상기 모션 필드 코더는 각 세그먼트에서의 왜곡을 위해 소정의 척도(Δe_k)가 (E_kc_k-q _k)의 함수가 되도록, 현재 프레임의 각 세그먼트(k)에 대해 근사 행렬(E_x)과 근사 벡터(q_k)를 계산하고 저장하기 위한 수단(여기에서, c_k는 일련의 다항식 기본 함수들(f_n)의 모션 계수들(c_n)로서 상기 모션 벡터 필드에 근접하는 벡터), 출력 행렬(A_k)과 출력 벡터(d_k)를 포함하는 모션 분석기 출력 파라미터들을 생성하기 위한 수단을 포함하 며, 여기에서, A_k는 E_k의 전치 행렬과 E_k의 적(product)이고, d_k는 E_k의 전치 행렬과 q_k의 적이다.

여기에서, 표시(k)는 비디오 프레임의 임의의 세그먼트를 나타내는 일반적인 표시이다.

본 발명에 의해서, 모션 분석기에서 모션 벡터 필드의 표현은 종래 시스템에서의 그것과는 다르며, 그것은 실질적으로 더 낮은 계산적 복잡성을 갖도록 구해지며, 결과적으로 계산 전력, 메모리를 덜 요구하며 소형화를 가능하게 한다. 보다 명확하게, 이러한 변화들은 성능을 손상시키지 않고 실질적으로 계산들을 단순화하며, 이로 인해 인코딩 프로세스를 가속화한다.

모션 필드 코더는 모션 분석기의 출력을 수신하는 세그먼트 병합 블럭을 포함하는 것이 바람직하며, 세그먼트 병합 블럭은 상기 결합된 영역에서의 픽셀 값들이 공통 모션 계수 벡터를 사용하여 예측될 수 있는 경우에, 인접한 세그먼트들(S_i와 S_j)의 쌍을 병합하기 위한 병합 수단을 포함하며, 상기 병합 수단은 다음 선형 방정식

을 풀음으로써 병합된 세그먼트(S_k)를 위한 공통 모션 계수 벡터(c_k)를 결정하고, 여기에서, A_k는 모션 분석기 출력 행렬들(A_i, A_j)의 합에 의해 주어지는 병합된 행렬을 나타내고 d_k는 각각 세그먼트들(S_i,S_j)의 모션 분석기 출력 벡터들(d_i,d_j)의 합에 의해 주어지는 병합된 벡터이다.

모션 어시스트(assisted) 병합을 위한 그러한 해결책은 결합된 세그먼트의 뛰어난 예측을 허용하는 모션 계수들의 하나의 벡터를 제공한다.

본 발명의 제2관점에서, 기준 프레임에 대하여 코딩되는 현재 프레임의 비디오 픽셀들의 모션 벡터 필드를 제공하는 과정 및 압축된 모션 정보를 제공하기 위해 모션 벡터 필드를 코딩하는 과정을 포함하는, 비디오 데이타의 모션 보상 인코딩을 위한 방법이 제공되며, 상기 모션 벡터 필드의 코딩 과정은 각 세그먼트에서왜곡을 위한 소정의 척도(Δe_k)가 (E_kc_k-q_k)의 함수가 되도록 근사 행렬(E_k)과 근사 벡터(q_k)를 계산하고 저장하는 과정(여기에서, c_k는 일련의 다항식 기본 함수(f_n)의 모션 계수들(c_n)로서 상기 모션 벡터 필드에 근접하는 벡터) 및 출력 행렬(A_k)과 출력 벡터(d_k)를 포함하는 모션 분석기 출력 파라미터들을 생성하는 과정을 포함하며, 여기에서, A_k는 E_k의 전치 행렬과 E_k의 적이고, d_k는 E_k의 전치 행렬과 q_k의 적이다.

본 발명은 본 발명의 원리에 따라서 동작하는 디코더를 더 포함한다.

본 발명은 이제 다음의 첨부된 도면을 참조하여 실시예에 의해 설명될 것이다:

도 1은 알려진 인코더의 구성도이다;

도 2는 알려진 디코더의 구성도이다;

도 3a는 블럭 기반의 모션 보상을 위한 현재 프레임의 분할을 도시한다;

도 3b는 세그먼테이션 기반의 모션 보상을 위한 현재 프레임의 분할을 도시한다.

도 4는 종래의 모션 필드 코딩 시스템의 구성도이다.

도 5는 본 발명의 바람직한 실시예에 따른 모션 필드 코딩 시스템의 구성도이다.

도 6은 도 5의 실시예에 따른 모션 분석기의 구성도이다.

도 1을 참조하면, 도 1에 도시된 비디오 인코더의 출력은 세그먼트(S_k)로 분할되는 압축된 프레임이고, 각 세그먼트들(S_k)은, 각 세그먼트의 각각의 픽셀(x, y)에 대한 모션 벡터들[Δx(x,y), Δy(x,y)]에 관한 정보에 의해 수반된다. 곧, 좌표(x_i, y_i)(여기에서, i=1, 2,....P)로 표현되는 P개의 픽셀로 구성되는 세그먼트(S_k)에 대하여, 모션 필드 인코더의 작업은 상기 모션 추정 블럭에 의해 출력되는 모션 벡터 필드[Δx(x,y), Δy(x,y)]로부터 모션 계수들을 찾아내야 한다. c=(c₁,c₂, ...c_N+M)로 표시되는 모션 계수들은 압축된 모션 벡터 필드[

]를 나타내며, 이는 다음 형태의 선형 모션 모형을 사용하여 필요한 만큼 정확하게 [Δx(x,y), Δy(x,y)]를 접근시키고:

이로 인해 제곱 예측 오차가 최소가 되며, SPE는 다음 수학식 10과 같이 주어진다.

도 5는 본 발명에 따른 모션 필드 인코더의 실시예를 도시한다. 그 입력들은 기준 프레임과 현재의 프레임을 포함한다. 이 블럭으로의 제3입력은 상기 모션 추정 필드 블럭에 의해 생성되는 모션 벡터 필드[Δx(x,y), Δy(x,y)]이다.

이러한 작업을 실행하기 위해, 상기 모션 필드 인코더는 모션 분석기 블럭(1), 세그먼트 병합 블럭(2), 직교화 블럭(3) 및 모션 계수 이동 블럭(4)의, 4개의 메인 빌딩 블럭들로 구성된다. 상기 세그먼트 병합 블럭(2), 직교화 블럭(3) 및 모션 계수 이동 블럭(4)은 정확하지 않은 예측을 초래하여 결과적으로 제곱 예측 오차를 증가시킬 수 있는 모션 정보의 양을 줄인다.

모션 분석기(1)의 목적은 세그먼트 병합의 충돌, 직교화 및 예측 오차의 계수 이동을 효율적으로 판단하는데 적절한 모션 필드를 표현하는 것이다. 이러한 표현은 뒤이은 3개의 블럭들(세그먼트 합병 블럭(2), 직교화 블럭(3) 및 모션 계수 이동 블럭(4))에서, 병합된 세그먼트들을 위한 모션 계수들의 빠르고 유동적인 결정을 위해 그리고 계수 이동을 위해 이후에 사용된다. 도 6은 본 발명에 따른 모션 분석기의 실시예를 나타낸다.

상기 직교화 블럭(3)과 계수 이동 블럭(4)은 PCT 출원공개 WO97/16025와 WO97/40628에 상세하게 설명되고, 그러한 설명들은 여기에서 참조로서 통합된다.

모션 분석기로 전환하면, 각 세그먼트(S_k)에 대해 모션 분석기는 다음 동작들을 수행한다;

단계 1. 오차의 근사화

좌표축(x_i, y_i)(여기에서, i는 1, 2,...P)으로 표현되는 P개의 픽셀들로 구성되는 세그먼트(S_k)의 모션 벡터 필드가 다음 수학식 11에 따라서 근접할 때,

결과적인 예측 오차는 다음 수학식 12와 동일하다.

근사화 과정에서, 수학식 12의 R_ref(ㆍ)는 그것이 점차 선형적으로 (x(x_p, y_p),y(x_p, y_p))에 의존하게 되도록, 알려진 근사 방법을 사용하여 접근된다. 따라서, 수학식 12에서 제곱 예측 오차(SPE_k)는 다음과 같이 접근될 수 있다.

상기 값들 e_i,₁,..e_i,_N-M,과 q_i는 사용된 근사화 방법에 의존한다.

단계 2. 행렬의 구성

수학식 13에서 제곱 아래의 성분들은 계수(c_n)의 선형적인 조합들이기 때문에, 수학식 13의 최소화는 다음 행렬 표현의 최소화와 완전히 동일하다.

여기에서, E_k, q_k, 및 c_k는 다음과 같이 주어진다.

단계 3. 출력 계산

상기 모션 분석기(1)의 출력들은 다음과 같다:

1)행렬(A_k)

2)벡터(d_k)

상기 세그먼트 병합 블럭(2)에서 실행되는 병합 동작은 두 세그먼트들(S_i, S_j)이 새로운 세그먼트(S_k)로 결합될 수 있는지를 판단하여 공통 모션 계수 벡터(c_k)에 의한 모션 보상이 S_k에서 선택된 오차 척도를 지나치게 증가시키도록 하지 않게 한다.

특정의 세그먼트 쌍(S_i 및 S_j)에 대해서, 병합동작은 다음 단계들로 구성된다:

단계 1. 공통 모션계수의 측정

본 발명의 이러한 바람직한 실시예는 선형 방정식의 시스템을 해결함으로써 c_k가 발견될 수 있다는, 이전에 알려지지 않은 특성을 이용한다.

여기에서,

이고, A_i,d_i, 및 A_j, d_j 는 각각 세그먼트들(S_i,S _j)에 대해서, 모션 분석기 블럭(1)에 의해 생성된다.

단계 2. 세그먼트 병합

모션 계수 벡터(c_k)를 사용하여, 세그먼트들(S_i,S_j)이 병합될 수 있는지가 결정된다. 만일, 그들이 병합된다면, 새롭게 생성되는 세그먼트(S_k)의 행렬(A_k)과 벡터(d_k)는 수학식 19에 따라서 계산된다. 즉,

단계 1~2는 세그먼트들의 모든 인접한 쌍들에 적용된다.

세그먼트 병합 이후에 얻어지는, 새로운 세그먼테이션의 각 세그먼트(S_k)에 대해서, 다음의 값들이 계산된다:

1) (N+M)×(N+M) 상위 삼각 행렬(R¹ _k), 즉, 다음 형태를 갖는 행렬은

행렬(A_k)의 콜레스키(Cholesky) 인수 분해를 계산함으로써 구해지며, 여기에서, 기호(×)는 0이 아닌 성분을 나타낸다:

2) 벡터(z^l _k)는 다음 일련의 방정식들을 풀음으로써 구해진다.

세그먼테이션 정보와 함께, 행렬(R^l _k)과 벡터(z^l _k)는 직교화 블럭(3)에 대한 예시적인 입력 파라미터들이다.

바람직한 실시예에서, 다음 다항식 기본 함수(f_n)가 사용된다:

선형화 단계는 수학식 24를 중심으로 하여 R_ref(ㆍ)의 1차 테일러 전개를 이용함으로써 수행되고,

x와 y에 대해서 다음과 같이 나타난다:

G_x(x'_i,y'_i)과 G_y(x'_i,y'_i)는 x와 y에 관한 기준 프레임(R_ref(ㆍ))의 도함수 값이다. 그러한 접근을 사용하여, 수학식 15의 행렬(E_k)과 벡터(q_k)는 다음 수학식 26, 27과 같다.

공통 모션 계수 측정은 다음과 같이 실행된다.

수학식 18은 다음과 같이 풀어진다:

1)(N+M)×(N+M) 행렬(A_k)의 콜레스키 인수 분해를 계산하고,

여기에서, R¹ _k은 (N+M)×(N+M) 상위 삼각 행렬이다.

2)먼저, 2개의 일련의 수학식을 풀어서

z^l _k를 얻고, 그리고 나중에

실제의 모션 계수 백터를 얻는다. 두 수학식은 삼각 행렬들의 사용으로 인하여 반대의 치환에 의해 풀릴 수 있다,

세그먼트들의 병합은 다음과 같이 수행된다.

세그먼트(S_k)의 라그랑지안(Lagrangian) 값은 다음과 같이 정의된다:

왜곡(D(S_k))은 원래의 그리고 코딩된 세그먼트 사이의 제곱 오차이다. 상기 세그먼트는 모션 계수 벡터(c_k)를 사용하여 그것을 예측하고 결과적으로 상기 예측 오차를 압축함으로써 코딩된다. 2차(2-D) 이산 코사인 변환(Discrete Cosine Transform:DCT)이 상기 예측 오차를 압축하는데 사용된다.

비율(rate)(R(S_k))은 모션 계수들과 DCT계수들을 코딩하는데 소비되는 비트 수들과 동일하다. 파라미터(λ)는 코딩된 프레임의 질(quality)과, 압축에 요구되는 비트 수들 사이에 트레이드 오프된 파라미터를 제공하는 소정의 값을 갖는다.

이러한 세그먼트들이 하나의 세그먼트(S_k)로 병합된다면, 세그먼트들(S_i및 S_j)이 병합되어야만 하는지를 결정하기 위해, 라그랑지안 값(ΔL_ij)은 다음 표준과 같이 사용된다:

세그먼트(S_k)의 예측을 얻는데 필요한 상기 모션 계수들은 수학식 18을 사용하여 계산된다.

세그먼트 병합 절차는 초기 세그먼테이션으로부터 시작하여 다음과 같이 진 행된다:

1)가능한 한 음(negative)-의 드레스홀드보다 작은 ΔL_ij를 갖는, 인접한 세그먼트들(S_i 및 S_j)의 쌍(pair)들은 '인접하지 않은 것(non-neighbors)'으로 정의된다.(이 단계는 아래의 단계 4에서 수행되는, 갱신 개수의 상당한 감소에 기인하여 전체적인 계산적 손실을 줄이기 위해 특히 중요하다).

2)모든 쌍들 중에서 라그랑지안 값의 최대의 감소를 나타내는, 인접한 세그먼트들의 쌍이 구해진다.

3)만일, 이러한 감소가 0보다 크면, 이 세그먼트들은 병합된다.

4)새롭게 병합된 세그먼트의 인덱스가 k라 가정하면, 새롭게 생성된 세그먼트(S_k)의 모든 인접한 세그먼트들 S_l(l=1, ...L)에 대한 라그랑지안 값(ΔL_kl)의 감소는 다음과 같이 재계산된다:

a)l=1, ...L에 대하여, 세그먼트들(S_k 및 S_l)의 결합된 영역에서 제곱 예측 오차(Δe_kl)의 증가는, 만일, 그들이 새로운 세그먼트(S_m)를 형성하기 위해 병합된다면, 다음과 같이 계산된다:

b)라그랑지안 값의 감소는, 제곱 예측 오차의 증가가 가장 작은 세그먼트로부터 제곱 예측 오차의 증가가 가장 큰 세그먼트까지 진행되면서 계산된다. 상기 계산은, 세그먼트(S_l)를 만나서 ΔL_kl가 양(positive)이 되고 Δe_kl이 -가능한 한 적응적인-드레스홀드보다 더 커지게 되면 중지된다. 나머지 세그먼트들에 대해서, 라그랑지안 값의 감소는 음의 값이 된다.

5)단계들 1~3은 모든 가능한 쌍들에 대해서, 라그랑지안 값의 감소가 음이 될 때까지 반복된다.

세그먼트들(S_i 및 S_j)을 하나의 세그먼트(S_k)로 병합하는 것으로 인해, 상기 예측 오차의 증가가 미리 설정된 드레스홀드보다 더 작으면, 행렬(A_k)과 벡터(d_k)는 수학식 19를 사용하여 재 계산되고, 따라서 공통 모션 계수 벡터(c_k)는 수학식 18을 사용하여 계산된다. 만일, 그렇지 않으면:

1)세그먼트(S_k)의 모션 계수 벡터(c_k)는 모션 추정을 사용하여 구해지고,

2)행렬(A_k)과 벡터(d_k)는 수학식들 16~17을 사용하여 재 계산된다.

픽셀 값의 측정에 있어서, R_ref(x,y)의 값은 정수의 좌표들(x와 y)에 의해서만 정의된다. 모션 보상 예측이, 기준 프레임(R_ref) 내에 정수가 아닌(non-integer) 위치들(x,y)에서 휘도와 색도 값을 측정하는 것을 요구할 때, 3차 컨볼루션 보간(cubic convolution interpolation)이 사용된다. x와 y방향에서의 이미지 도함수들, (G_x(x,y), G_y(x,y))도 또한 3차 컨벌루션을 사용하여 계산된다. 3차 컨볼루션 보간에 의해 구해지는 연속적인 함수의 도함수들이 계산되고, 그들은 이미지 도함수로서 해석된다.

본 발명은 그 본질적인 특성으로부터 벗어나지 않고 다른 특정 형태로 구현될 수 있다. 따라서, 발명의 범위를 나타내는 것으로서, 앞서 말한 자세한 설명들보다는 첨부된 클레임들과 여기에서의 다른 일반적인 설명들로 레퍼런스가 생성되어야 한다.

시스템은 다양한 방법으로 구현될 수 있다. 다음의 내용들은 달라질 수 있다:

1) 다른 다항식 기본 함수들이 수학식 11에서 사용될 수 있고,

2) 다른 방법들이 수학식 12에서 선형화하는데 사용될 수 있고,

3)두 세그먼트들을 병합할 것인지 또는 병합하지 않을 것인지를 결정하기 위해 다른 표준이 사용될 수 있고,

4) 다른 방법들이 수학식 18을 풀기 위해 사용될 수 있다.

또한, 이 명세서(이 용어는 청구항을 포함한다)에서 공개되고 그리고/또는 도면들에 도시된 각 특징은 다른 공개된 그리고/또는 도시된 특징들과 독립적으로 본 발명에서 결합될 수 있다. 이런 관점에서, 그것은 청구된 발명과 관련되어있는지 또는 제기된 문제점들의 일부 또는 모두를 덜어주는지에 관계없이, 임의의 새로운 특징들 또는 여기에 공개된 특징들의 조합을 간결하게 또는 그에 따라 일반화하여 포함할 수 있다.

여기에 제출된 바와 같이, 부가된 요약서는 참조로서 명세서에 포함된다.

Claims

비디오 데이타의 모션 보상된 인코딩을 위한 비디오 인코더(encodeer)에 있어서,

상기 비디오 인코더는 기준 프레임에 대하여 코딩된 현재 프레임의 비디오 픽셀의 모션 벡터 필드를 제공하고,

상기 모션 벡터 필드를 코딩하여 압축된 모션 정보를 제공하는 모션 필드 코더를 포함하고,

상기 모션 필드 코더는 모션 분석기를 포함하며,

상기 모션 분석기는,

현재 프레임의 각 세그먼트(k)에 대하여 근사 행렬(E_k)과 근사 벡터(q_k)를 계산하고 저장하여 각 세그먼트에서의 왜곡을 위한 소정의 척도(Δe_k)가 (E_kc_k-q_k)와 같은 함수가 되도록하는, 계산하고 저장하는 수단; 및

출력 행렬(A_k)과 출력 벡터(d_k)를 포함하는 모션 분석기 출력 파라미터들을 생성하는 수단을 포함하고,

여기서 c_k는 상기 모션 벡터 필드를 일련의 다항식 기본 함수(f_n)의 모션 계수들(c_n)로 근사시키는 벡터이고, A_k는 E_k의 전치행렬과 E_k의 적(product)이고, d_k는 E_k의 전치 행렬과 q_k의 적인 것을 특징으로 하는 비디오 인코더.
제1항에 있어서, 상기 모션 필드 코더는,

상기 모션 분석기의 출력을 수신하는 세그먼트 병합 블럭을 더 포함하고,

상기 세그먼트 병합 블럭은,

결합된 영역에서의 픽셀 값들이 공통모션 계수 벡터를 사용하여 예측될 수 있는 경우, 인접한 세그먼트들(S_i및 S_j)의 쌍들을 병합하는 수단을 포함하며,

상기 병합하는 수단은 다음 선형 방정식

을 풂으로써 병합된 세그먼트(S_k)에 대한 공통 모션 계수 벡터(c_k)를 결정하고,

여기서 A_k는 상기 모션 분석기 출력 행렬들(A_i 와 A_j)의 합으로 주어지는 병합된 행렬이고, d_k는 세그먼트들(S_i과 S_j) 각각의 모션 분석기 출력 벡터들(d_i및 d_j)의 합으로 주어지는 병합된 벡터인 것을 특징으로 하는 비디오 인코더.
제2항에 있어서, 상기 인접한 세그먼트들은,

인접하지 않는 것(non-neighbors)으로 정의될 수 있는 것을 특징으로 하는 비디오 인코더.
제2항 또는 제3항에 있어서, 상기 세그먼트들(S_i과 S_j)은 다음 표준(criteria)

에 따른 라그랑지안 값(Lagrangian cost)(ΔL_ij)의 감소에 기초하여 하나의 세그먼트(S_k)로 병합되는 것을 특징으로 하는 비디오 인코더.
제2항 또는 제3항에 있어서, 상기 세그먼트 병합 블럭은,

소정의 드레스홀드보다 작은 라그랑지안 값(ΔL_ij)을 갖는 인접한 세그먼트들(S_i,과 S_j)의 쌍을 인접하지 않은 쌍(pair)으로 정의하는 수단;

인접한 세그먼트들의 모든 쌍들 중에서 라그랑지안 값의 최대 감소를 나타내는 인접한 세그먼트들의 쌍을 찾아내는 수단; 및

상기 감소가 0을 초과하는 경우 상기 인접한 세그먼트들을 병합하는 수단을 더 포함하는 것을 특징으로 하는 비디오 인코더.
제5항에 있어서, 상기 세그먼트 병합 블록은,

새롭게 생성된 세그먼트(S_k)의 인접한 세그먼트들에 대한 라그랑지안 값을 재계산하는 수단을 더 포함하며,

상기 재계산하는 수단은,

S_k와 S_l의 결합된 영역에서 l= 1,..,L에 대하여 다음 수학식

에 따라서 제곱 예측 오차(Δe_k)의 증가를 계산하는 수단; 및

세그먼트(S_l)를 만나서 ΔL_kl가 양(positive)이 되고 Δe_kl가 드레스홀드를 초과하게 될 때까지, 예측 오차의 증가가 가장 작은 세그먼트로부터 예측 오차의 증가가 가장 큰 세그먼트까지 계속되는 라그랑지안 값의 감소를 계산하는 수단을 포함하는 것을 특징으로 하는 비디오 인코더.
제2항 또는 제3항에 있어서,

상기 세그먼트들(S_i 및 S_j)이 병합되는 것으로 결정되는 경우, 상기 세그먼트(S_k)의 병합된 행렬(A_k)과 병합된 벡터(d_k)는 다음 수학식

과 같이 계산되는 것을 특징으로 하는 비디오 인코더.
제2항 또는 제3항에 있어서, 상기 병합된 세그먼트 출력 파라미터들 각각에 대해, 행렬(R^l _k)과 벡터(z^l _k)가 제공되며,

1)행렬(R^l _k)은 다음 행렬식

에 따라서 구성되고, 여기서 기호(×)는 0이 아닌 성분을 나타내고, 상기 행렬(R^l _k)은 다음 행렬(A_k)

의 인수분해에 의해 구해지며,

2)벡터(z^l _k)는 일련의 방정식들

을 풂으로써 구해지는 것을 특징으로 하는 비디오 인코더.
비디오 데이타의 모션 보상 인코딩을 위한 방법에 있어서,

기준 프레임에 대하여 코딩된 현재 프레임의 비디오 픽셀들의 모션 벡터 필드를 제공하는 과정; 및

상기 모션 벡터 필드를 코딩하여 압축된 모션 정보를 제공하는, 모션 벡터 필드를 코딩하는 과정을 포함하고,

상기 모션 벡터 필드를 코딩하는 과정은,

각 세그먼트(k)에 대하여 근사 행렬(E_k)과 근사 벡터(q_k)를 계산하고 저장하여 각 세그먼트에서의 왜곡을 위한 소정의 척도(Δe_k)가 (E_kc_k-q_k)와 같은 함수가 되도록 하는, 계산하고 저장하는 과정; 및

출력 행렬(A_k)과 출력 벡터(d_k)를 포함하는 모션 분석기 출력 파라미터들을 생성하는 과정을 포함하며,

여기서 c_k는 상기 모션 벡터 필드를 일련의 다항식 기본 함수(f_n)의 모션 계수들(c_n)로 근사시키는 벡터이고, A_k는 E_k의 전치행렬과 E_k의 적(product)이고, d_k는 E_k의 전치 행렬과 q_k의 적인 것을 특징으로 하는 방법.
제9항에 있어서, 상기 모션 벡터 필드를 코딩하는 과정은,

결합된 영역에서의 픽셀 값들이 공통모션 계수 벡터를 사용하여 예측될 수 있는 경우, 인접한 세그먼트들(S_i및 S_j)의 쌍들을 병합하는 과정을 더 포함하고,

상기 인접한 세그먼트들(S_i및 S_j)의 쌍들을 병합하는 과정은,

다음 선형 방정식

을 풂으로써 병합된 세그먼트(S_k)에 대한 공통 모션 계수 벡터(c_k)를 결정하는 과정을 포함하며,

여기서 A_k는 모션 분석기 출력 행렬들(A_i 와 A_j)의 합으로 주어지는 병합된 행렬이고, d_k는 세그먼트들(S_i과 S_j) 각각의 모션 분석기 출력 벡터들(d_i및 d_j)의 합으로 주어지는 병합된 벡터인 것을 특징으로 하는 방법.
제10항에 있어서, 상기 인접한 세그먼트들은,

인접하지 않는 것으로 정의될 수 있는 것을 특징으로 하는 방법.
제10항 또는 제11항에 있어서, 상기 세그먼트들(S_i과 S_j)은 다음 표준

에 따른 라그랑지안 값(ΔL_ij)의 감소에 기초하여 을 하나의 세그먼트(S_k)로 병합되는 것을 특징으로 하는 방법.
제9항 내지 제11항 중 어느 한 항에 있어서, 상기 모션 벡터 필드를 코딩하는 과정은,

소정의 드레스홀드보다 작은 라그랑지안 값(ΔL_ij)을 갖는 인접한 세그먼트들(S_i,과 S_j)의 쌍을 인접하지 않은 쌍으로 정의하는 과정;

인접한 세그먼트들의 모든 쌍들 중에서 라그랑지안 값의 최대 감소를 나타내는 인접한 세그먼트들의 쌍을 찾는 과정; 및

상기 감소가 0을 초과하는 경우에 상기 인접한 세그먼트들을 병합하는 과정을 더 포함하는 것을 특징으로 하는 방법.
제13항에 있어서, 상기 모션 벡터 필드를 코딩하는 과정은,

새롭게 생성되는 세그먼트(S_k)의 인접한 세그먼트들에 대한 라그랑지안 값을 재계산하는 과정을 더 포함하며,

상기 재계산하는 과정은,

S_k와 S_l의 결합된 영역에서 l= 1,..,L에 대하여 다음 수학식

에 따라서 제곱 예측 오차(Δe_k)의 증가를 계산하는 과정; 및

세그먼트(S_l)를 만나서 ΔL_kl가 양(positive)이 되고 Δe_kl가 드레스홀드를 초과하게 될 때까지, 예측 오차의 증가가 가장 작은 세그먼트로부터 예측 오차의 증가가 가장 큰 세그먼트까지 계속되는 라그랑지안 값의 감소를 계산하는 과정을 포함하는 것을 특징으로 하는 방법.
제10항 또는 11항에 있어서,

상기 세그먼트들(S_i 및 S_j)이 병합되는 경우, 상기 세그먼트(S_k)의 병합된 행렬(A_k)과 병합된 벡터(d_k)는 다음 수학식

과 같이 계산되는 것을 특징으로 하는 방법.
제10항 또는 제11항에 있어서, 상기 병합된 세그먼트 출력 파라미터들 각각에 대해, 행렬(R^l _k)과 벡터(z^l _k)가 제공되며,

1)행렬(R^l _k)은 다음 행렬식

에 따라서 구성되고, 여기에 기호(×)는 0이 아닌 성분을 나타내고, 상기 행렬(R^l _k)은 다음 행렬(A_k)

의 인수 분해에 의해 구해지며,

2)벡터(z^l _k)는 일련의 방정식들

을 풂으로써 구해지는 것을 특징으로 하는 방법.
비디오 데이타의 모션 보상된 인코딩을 위한 인코더로부터의 인코딩된 데이터를 디코딩하는 비디오 디코더(decoder)로서, 상기 인코딩된 데이터는 인코딩된 예측오차와 모션정보를 포함하는, 비디오 디코더에 있어서,

상기 인코딩된 예측오차를 디코딩하는 예측오차 디코딩 블록;

상기 모션정보와 기준 프레임에 응답하여 예측픽셀들을 발생하는 모션 예측 블럭; 및

상기 디코딩된 예측오차와 상기 예측픽셀들을 더하여 상기 비디오 데이터를 복원하는 가산부를 구비하며,

상기 모션정보는 기준 프레임에 대하여 코딩된 현재 프레임의 비디오 픽셀의 모션 벡터 필드가 코딩되어 압축됨으로써 발생되고,

상기 모션 벡터 필드는 현재 프레임의 각 세그먼트(k)에 대하여 근사 행렬(E_k)과 근사 벡터(q_k)를 계산하고 저장하여 각 세그먼트에서의 왜곡을 위한 소정의 척도(Δe_k)가 (E_kc_k-q_k)와 같은 함수가 되도록하고, 그리고 출력 행렬(A_k)과 출력 벡터(d_k)를 포함하는 모션 분석기 출력 파라미터들을 생성함으로써 코딩되어 압축되며,

여기서 c_k는 상기 모션 벡터 필드를 일련의 다항식 기본 함수(f_n)의 모션 계수들(c_n)로 근사시키는 벡터이고, A_k는 E_k의 전치행렬과 E_k의 적(product)이고, d_k는 E_k의 전치 행렬과 q_k의 적인 것을 특징으로 하는 비디오 디코더.
비디오 데이타의 모션 보상된 인코딩을 위한 인코더로부터의 인코딩된 데이터를 디코딩하는 방법로서, 상기 인코딩된 데이터는 인코딩된 예측오차와 모션정보를 포함하는, 방법에 있어서,

상기 인코딩된 예측오차를 디코딩하는 단계;

상기 모션정보와 기준 프레임에 응답하여 예측픽셀들을 발생하는 단계; 및

상기 디코딩된 예측오차와 상기 예측픽셀들을 더하여 상기 비디오 데이터를 복원하는 단계를 구비하며,

상기 모션정보는 기준 프레임에 대하여 코딩된 현재 프레임의 비디오 픽셀의 모션 벡터 필드가 코딩되어 압축됨으로써 발생되고,

상기 모션 벡터 필드는 현재 프레임의 각 세그먼트(k)에 대하여 근사 행렬(E_k)과 근사 벡터(q_k)를 계산하고 저장하여 각 세그먼트에서의 왜곡을 위한 소정의 척도(Δe_k)가 (E_kc_k-q_k)와 같은 함수가 되도록하고, 그리고 출력 행렬(A_k)과 출력 벡터(d_k)를 포함하는 모션 분석기 출력 파라미터들을 생성함으로써 코딩되어 압축되며,

여기서 c_k는 상기 모션 벡터 필드를 일련의 다항식 기본 함수(f_n)의 모션 계수들(c_n)로 근사시키는 벡터이고, A_k는 E_k의 전치행렬과 E_k의 적(product)이고, d_k는 E_k의 전치 행렬과 q_k의 적인 것을 특징으로 하는 방법.