KR20140005260A

KR20140005260A - 이미지들의 시퀀스의 코딩 방법 및 대응하는 재구성 방법

Info

Publication number: KR20140005260A
Application number: KR1020137021969A
Authority: KR
Inventors: 싸파 쉐리기; 크리스띤느 기유모; 도미니끄 또로; 필립쁘 기요뗄
Original assignee: 톰슨 라이센싱
Priority date: 2011-01-21
Filing date: 2011-05-24
Publication date: 2014-01-14
Also published as: CN103314584A; TW201233184A; US20140029672A1; BR112013018033A2; WO2012097881A1; EP2666290A1; JP2014504119A

Abstract

본 발명은 이미지들의 시퀀스를 코딩하는 방법에 관한 것이다. 코딩 방법은 현재 이미지에 대해 상기 현재 이미지의 요약을 생성하는 단계; 상기 요약을 제1 비트스트림으로 인코딩하는 단계; 상기 요약으로부터 중간 이미지를 재구성하는 단계; 및 상기 중간 이미지를 참조 이미지로서 사용하여 현재 이미지를 제2 비트스트림으로 인코딩하는 단계를 포함한다.

Description

이미지들의 시퀀스의 코딩 방법 및 대응하는 재구성 방법{METHOD OF CODING A SEQUENCE OF IMAGES AND CORRESPONDING RECONSTRUCTION METHOD}

본 발명은 비디오 코딩 및 디코딩에 관한 것이다. 특히, 본 발명은 이미지들의 시퀀스의 코딩 방법 및 시퀀스의 재구성의 방법에 관한 것이다. 본 발명은 더 낮은 비트레이트에 대해 동일한 품질을 유지함으로써 비디오 코딩 성능의 개선을 다룬다.

이미지들의 시퀀스의 이미지를 인코딩할 때, 이미지를 공간적으로 또는 시간적으로 우선 예측하고 이미지의 예측에서 기인하는 잔여 신호를 인코딩하는 것은 공지되어 있다. 공간적 예측은 또한 INTRA 예측으로 지칭되고 시간적 예측은 또한 INTER 예측으로 지칭된다. ITU-T Rec. H.264/ISO/IEC 14496-10 AVC 비디오 코딩 표준은 코딩되는 블록의 공간적 추정에 대응하는 3개의 상이한 인트라 예측 모드들, 인트라4x4, 인트라8x8 및 인트라16x16을 지정한다. 이 상이한 모드들은 예측 블록의 픽셀들을 구축하기 위해 상이한 방향 예측 모드들을 이용할 수 있다. 인트라4x4 및 인트라8x8에서, 9개의 인트라 예측 모드들이 정의된다. 이 모드들 중 8개는 예측되는 블록을 둘러싸는 픽셀들의 1D 방향 외삽으로 구성된다. 부가 예측 모드(DC 모드)는 예측 블록의 픽셀들을 이용가능 주위 픽셀들의 평균으로서 정의한다.

텍스처가 이용가능한 예측 방향들 중 하나와 맞는 단방향 지향 구조에 대응할 때, 이 구조들은 적절한 방향 1D 예측에 의해 적절히 외삽될 수 있다. 그러나, 복합 2D 패턴들의 경우에, H.264/AVC 인트라 예측 모드들은 신호를 정확하게 전파 및 예측할 수 없다.

본 발명은 종래 기술의 단점들 중 적어도 하나를 경감하는 것을 목적으로 한다. 본 발명의 일 목적은 현재 이미지의 이미지 요약(예를 들어 에피톰)에 기초한 코더/디코더 방식을 사용함으로써 인트라 예측의 원리, 및 이것을 개선하는 것이며, 이미지 요약은 참조 이미지로서 간접적으로 사용된다.

따라서, 본 발명은 현재 이미지에 대해 다음 단계들을 포함하는 이미지들의 시퀀스를 코딩하는 방법에 관한 것이다.

- 현재 이미지의 요약을 생성하는 단계;

- 요약을 제1 비트스트림으로 인코딩하는 단계;

- 요약으로부터 현재 이미지와 동일한 크기의 중간 이미지를 재구성하는 단계; 및

- 중간 이미지를 참조 이미지로서 사용하여 현재 이미지를 제2 비트스트림으로 인코딩하는 단계.

본 발명의 일 양태에 따르면, 현재 이미지의 요약은 텍스처 에피톰 및 할당 맵을 포함한다.

유리하게, 할당 맵은 고정 길이 코딩 또는 가변 길이 코딩을 사용하여 인코딩된다.

유리하게, 제2 비트스트림은,

- ITU-T Rec. H.264/ISO/IEC 14496-10 AVC 비디오 코딩 표준; 및

- ISO/IEC 13818-2 MPEG2를 포함하는 비디오 코딩 표준 세트에 속하는 하나의 비디오 코딩에 순응한다.

본 발명은 또한 현재 이미지에 대해 다음 단계들을 포함하는 이미지들의 시퀀스를 재구성하는 방법에 관한 것이다.

- 현재 이미지의 이미지 요약을 디코딩하는 단계;

- 요약으로부터 중간 이미지를 재구성하는 단계; 및

- 중간 이미지를 참조 이미지로서 사용하여 현재 이미지를 재구성하는 단계 - 중간 이미지는 현재 이미지와 동일한 크기임 -.

이미지 요약의 사용은 2D 텍스처 예측을 사용함으로써 방향성 인트라 예측의 문제를 해결하고 있다. 실제로, 요약 이미지는 실제 텍스처로 구성되고 원래 이미지에서만 나온다. 요약 이미지의 주요 목적은 원래 이미지 내에서 중복을 제거하고 이미지 텍스처를 최상으로 표현하는 가장 적절한 패턴들(또는 패치들)을 유지하는 것이다. 이 패턴들은 배향된 단방향 보간들 대신에 2D 패치들이 고려되므로 2D 텍스처에 더 적절한 예측을 제공할 수 있다.

본 발명의 다른 특성들 및 장점들은 동봉된 도면의 도움으로, 예시될 것인 본 발명의 비제한적인 실시예의 설명을 통해 나타날 것이다.
- 도 1은 본 발명의 제1 실시예에 따른 코딩 방법을 도시한다.
- 도 2는 본 발명의 제2 실시예에 따른 코딩 방법을 도시한다.
- 도 3은 종래 기술에 따른 에피톰의 생성 및 에피톰으로부터의 이미지의 재구성을 예시한다.
- 도 4는 본 발명의 제2 실시예에 따른 코딩 방법의 상세를 도시한다.
- 도 5는 허용 오차(ε)를 갖는 우측 이미지 상의 화이트 라인에 의해 범위가 정해지는 정합된 패치 세트와 정합되는 주어진 이미지 블록(B_i)을 도시한다.
- 도 6은 차트 초기화 단계를 도시한다: 좌측 상에서, 이미지 내의 그레이 블록들은 현재 차트에 의해 현재 재구성되는 블록들이며, 현재 에피톰(EC_n)은 단일 패치(E₀)에 의해 초기에 표현된다.
- 도 7은 차트 확장 단계를 도시한다.
- 도 8은 원래 이미지(a)로부터 생성되는 에피톰(b), 및 에피톰(c)으로부터 재구성되는 이미지의 일 예를 도시한다.
- 도 9는 본 발명의 제1 실시예에 따른 재구성의 방법을 도시한다.
- 도 10은 본 발명의 제2 실시예에 따른 재구성의 방법을 도시한다.
- 도 11은 본 발명에 따른 코딩 장치를 도시한다.
- 도 12는 본 발명에 따른 디코딩 장치를 도시한다.

본 발명은 이미지들의 시퀀스의 코딩 방법에 관한 것이다. 코딩 방법은 시퀀스의 현재 이미지에 대해 기재된다. 본 발명에 따른 코딩 방법은 현재 이미지의 이미지 요약을 사용하여 그것을 인코딩한다. 본 발명은 또한 대응하는 재구성 방법에 관한 것이다.

도 1은 본 발명에 따른 코딩 방법을 도시한다.

단계 20에서, 이미지 요약은 현재 이미지(Icurr)로부터 생성된다.

특정 실시예에 따르면, 이미지 요약은 에피톰이다. 그러나, 본 발명은 이러한 종류의 요약에 제한되지 않는다. 임의의 종류의 요약(예를 들어 패치 딕셔너리(patch dictionary))은 이미지가 이러한 요약으로부터 재구성될 수 있으면 사용될 수 있다.

단계 22에서, 이미지 요약은 제1 스트림(F1)으로 인코딩된다. 일 예로서, 요약은 인트라 전용 코딩 모드들을 사용하는 H.264 표준에 순응하여 인코딩된다. 변형에 따르면, 이미지 요약은 2000년 3월 참고문헌 JPEG 2000 파트, ISO/IEC JTC1/SC 29/WG 1 Std.에 정의되어 있는 JPEG 표준에 순응하여 인코딩된다.

단계 24에서, 이미지 요약은 디코딩된 요약으로 디코딩된다. 단계 24는 단계 22의 역이다.

단계 26에서, 중간 이미지는 디코딩된 요약으로부터 재구성된다.

단계 28에서, 현재 이미지(Icurr)는 중간 이미지를 참조 이미지로서 사용하여 제2 비트스트림(F2)으로 인코딩된다. 일 예로서, 현재 이미지는 H.264에 순응하여 인코딩된다. 변형에 따르면, 현재 이미지는 MPEG2 ISO-IEC 13818 비디오 코딩 표준에 순응하여 인코딩된다. 통상의 코딩 모드들(인터 및 인트라 코딩 모드들)이 사용될 수 있다. 현재 이미지의 블록이 인터 코딩 모드에 따라 인코딩되는 경우, 이 때 참조 이미지, 즉 디코딩된 에피톰으로부터 재구성되는 이미지 중간 이미지에서 블록과 대응 블록 사이의 차이가 인코딩된다. 대응 블록은 모션 벡터에 의해 참조 이미지에서 식별되거나 참조 이미지 내의 공동로컬화된 블록일 수 있다. 양방향 예측은 또한 참조 이미지의 2개의 블록들에 의해 가능하다. 또한 잔여로 공지되어 있는 차이는 실제로 블록과 참조 이미지로부터 유도되는 그의 예측 사이에서 계산되는 예측 오차이다. 통상, 잔여는 우선 DCT 계수들과 같은 계수들의 블록으로 변환된다. 그 다음, 계수들은 양자화된 계수들의 블록으로 양자화된다. 양자화된 계수들은 공지된 산술 코딩, CABAC(Context-Adaptive Binary Arithmetic Coding을 나타냄), CAVLC(Context-Adaptive Variable-Length Coding을 나타냄) 등과 같은 엔트로피 코딩을 사용하여 비트스트림으로 최종적으로 인코딩된다. 본 발명은 잔여들을 인코딩하기 위해 사용되는 인코딩 타입에 제한되지 않는다. 비트스트림(F2)은 예측 오차 잔여 비트스트림이다.

변형에 따르면, 제1 및 제2 비트스트림들은 단일 비트스트림으로 다중화된다.

도 2는 이미지 요약이 에피톰인 본 발명의 특정 실시예에 따른 코딩 방법을 도시한다. 이미지의 에피톰은 이미지의 텍스처 및 구조 성질들의 본질을 포함하는 그의 응축된 표현이다.

단계 20에서, 에피톰은 현재 이미지(Icurr)로부터 생성된다. 그러므로, 이러한 특정 실시예에 따르면, 현재 이미지(Icurr)가 팩터화되며(factorized), 즉 텍스처 에피톰(E) 및 변환 맵(Φ)이 현재 이미지를 위해 생성된다. 에피톰 원리는 우선 ACM SIGGRAPH 2008(ACM Transaction on Graphics, 2008년 27권, 제3호, 1-10페이지)의 회보에 발표되어 있는 명칭이 "Factoring Repeated Content Within and Among Images"인 호페 등의 논문에 개시되었다. 텍스처 에피톰(E)은 현재 이미지로부터 취해지는 텍스처들(예를 들어 차트 세트)로 구성된다. 변환 맵(Φ)은 현재 이미지(Icurr)의 각각의 블록과 텍스처 에피톰(E)의 패치 사이의 관련성들을 계속 추적하는 할당 맵이다. 도 3은 호페의 방법을 예시한다. 이미지(I)로부터, 텍스처 에피톰(E) 및 변환 맵(Φ)이 생성되어 모든 이미지 블록들은 정합된 에피톰 패치들로부터 재구성될 수 있다. 정합된 패치는 또한 변환된 패치로 공지되어 있다. 변환 맵은 또한 문헌에서 벡터 맵 또는 할당 맵으로 공지되어 있다. 텍스처 에피톰(E) 및 변환 맵(Φ)의 경우, 현재 이미지(I')를 재구성할 수 있다. 이하에서, 에피톰은 텍스처 에피톰(E) 및 변환 맵(Φ) 둘 다를 나타낸다. 도 4는 에피톰 생성 방법을 예시한다. 그러나, 본 발명은 이러한 에피톰 생성 방법에 결코 제한되지 않는다. 에피톰의 다른 형태들은 문헌에 제안되어 있다. 2008년 Computer Vision and Pattern Recognition CVPR에 발표되어 있는 명칭이 "Summarizing visual data using bidirectional similarity"인 문헌에서, 시마코프 등은 양방향 유사성 측정으로부터 이미지 요약의 생성을 개시한다. 그들의 접근법은 2개의 요건들을 만족시키는 것을 목적으로 한다: 입력 데이터에 있지 않았던 가능한 새로운 시각적 아티팩트들(artifacts)은 가능한 한 적게 도입하면서(즉, 시각적 일관성을 보존하면서) 입력 데이터로부터의 시각적 정보는 가능한 한 많이 포함하는 것.

컴퓨터 비전의 국제 저널 2008년 2월 76권 제2호에 발표되어 있는 명칭이 "비디오 Epitomes"인 문헌에서, 이미지 청 등은 에피톰을 추출하기 위해 통계적 방법을 개시한다. 이 접근법은 컬러 정보 및 특정 공간적 패턴을 캡처하는 확률적 모델에 기초한다.

단계 210에서, 에피톰 구성 방법은 자기 유사성들을 현재 이미지(Icurr) 내에서 발견하는 단계를 포함한다. 따라서, 현재 이미지는 블록들의 규칙적인 그리드로 분할된다. 현재 이미지(Icurr) 내의 각각의 블록에 대해, 패치 세트를 유사한 콘텐츠를 갖는 동일한 이미지에서 검색한다. 즉, 각각의 블록(B_i)(∈ 블록 그리드)에 대해, 주어진 허용 오차(ε)를 갖는 B_i에 근사하는 정합들(또는 정합된 패치들)의 리스트(L_match(B_i) = {M_i _,0, M_i _,l, ...})가 결정된다. 현재 실시예에서, 정합의 절차는 평균 유클리드 거리를 사용하는 블록 정합 알고리즘에 의해 수행된다. 그러므로, 단계 210에서, 블록(Bi)에 대한 거리가 ε보다 아래인 현재 이미지 내의 패치들(M_j,l)은 리스트(L_match(B_i))에 추가된다. 거리는 예를 들어 블록(Bi)과 패치(M_j,l) 사이의 픽셀 바이 픽셀 차이의 절대값을 B_i 내의 픽셀들의 수로 나누는 것과 같다. 변형에 따르면, 거리는 SSE(Sum of Square Errors)와 같으며, 오차들은 블록(Bi)과 패치(M_j,l) 사이의 픽셀 바이 픽셀 차이이다_.소모적 검색은 전체 이미지에서 수행된다. 모든 정합 리스트들이 이미지 블록 세트를 위해 생성되어 왔다면 정합된 패치(M_j _,l)에 의해 표현될 수 있는 이미지 블록 세트를 표시하는 새로운 리스트(L'_match(M_j,l))가 단계 220에서 구축된다. 전체 검색 단계 동안 발견되는 모든 정합된 블록들(M_j _,l)은 반드시 이미지의 블록 그리드와 정렬되는 것은 아니고 따라서 도 5에 도시된 바와 같은 "픽셀 그리드"에 속한다는 점에 주목한다.

단계 240에서, 에피톰 차트들이 구성된다. 이 목적 때문에, 텍스처 패치들이 추출되며, 더 정확하게 선택되어, 에피톰 차트들을 구성하며, 모든 에피톰 차트들의 결합은 텍스처 에피톰(E)을 구성한다. 각각의 에피톰 차트는 텍스처에 대해 이미지의 특정 영역들을 표현한다. 단계 240은 이하에 상술된다.

단계 2400에서, 지수 n은 0과 동일하게 설정되며, n은 정수이다.

단계 2402에서, 제1 에피톰 차트(EC_n)가 초기화된다. 에피톰 차트를 초기화하기 위해 수개의 후보 정합된 패치들이 사용될 수 있다. 각각의 에피톰 차트는 아직 재구성되지 않은 나머지 블록들 중 가장 대표적인 것인 정합된 패치에 의해 초기화된다. Y ∈ R^NxM은 입력 이미지를 나타내는 것으로 하고 Y' ∈ R^NxM은 후보 정합된 패치 및 이전에 구성된 에피톰 차트들에 의해 재구성된 이미지를 나타내는 것으로 한다. 차트를 초기화하기 위해, MSE(Mean Square Error) 기준의 최소화에 기초하는 이하의 선택 기준이 사용된다:

선택된 기준은 전체 이미지에 관한 예측 오차들을 고려한다. 이 기준은 재구성 오차를 최소화하면서 가장 많은 블록들의 재구성을 허용하는 텍스처 패턴에 의해 에피톰이 확장되는 것을 허용한다. 현재 실시예에서, 제로값은 이미지 재구성 오차를 컴퓨팅할 때 에피톰 패치들에 의해 아직 예측되지 않았던 이미지 픽셀들에 할당된다. 도 6은 제1 에피톰 패치(E0)가 선택되면 재구성되는 이미지 블록들을 도시한다.

단계 2404에서, 에피톰 차트(EC_n)는 입력 이미지로부터의 영역만큼 점진적으로 증가되고, 에피톰 차트가 확대될 때마다, 도 7에 도시된 바와 같은 이미지에서 예측될 수 있는 부가 블록들의 수를 계속 추적한다. 이 단계는 또한 에피톰 차트 확장으로 공지되어 있다. 초기 에피톰 차트(EC_n(0))는 초기화 단계에서 유지되는 텍스처 패치에 대응한다. 에피톰 증가 단계는 현재 차트(EC_n(k))를 중첩시키고 다른 이미지 블록들을 표현하는 정합된 패치들(M_j _,l)의 세트를 결정함으로써 우선 진행된다. 그러므로, 현재 에피톰 차트의 확장으로서 사용될 수 있는 수개의 후보들 영역들(ΔE)이 존재한다. 각각의 차트 증가 후보(ΔE)에 대해, 재구성될 수 있는 보충 이미지 블록들은 픽셀들(ΔE)의 세트를 포함하는 정합된 패치(M_j _,k)에만 관련되는 리스트(L'_match(M_j,k))로부터 결정된다. 그 다음, 비율 왜곡 기준에 따른 최상의 정합을 초래하는, 발견된 후보 차트 증가 세트 중에서 최적 후보(ΔE_opt)가 선택된다. Y ∈ R^NxM은 입력 이미지를 나타내는 것으로 하고 Y' ∈ R^NxM은 현재 에피톰(E_curr) 및 차트 증가 후보(ΔE)에 의해 재구성된 이미지를 나타내는 것으로 한다. 현재 에피톰(E_curr)은 이전에 구성된 에피톰 차트들 및 현재 에피톰 차트(EC_n(k))로 구성된다는 점에 주목한다. 이 선택은 라그랑지안 기준(FC_ext)의 최소화에 따라 실제로 수행된다.

바람직한 실시예에서, λ 값은 1000으로 설정된다. 기준의 제1 항은 현재 에피톰

및 증분(ΔE)에 포함되는 텍스처 정보에 의해 입력 이미지가 재구성될 때 픽셀 당 평균 예측 오차를 지칭한다. 초기화 단계에서와 같이, 이미지 픽셀들이 현재 에피톰(E_curr)에 영향을 받지 않고 증분에서도 영향을 받지 않을 때, 제로값이 그들에 할당된다. 따라서, FC_ext는 전체 이미지 상에 컴퓨팅되고 재구성된 이미지 블록들 상에서만 컴퓨팅되지 않는다. 기준의 제2 항은 에피톰을 구성할 때 픽셀 당 비율에 대응하며, 에피톰은 현재 에피톰 및 그의 증분 내의 픽셀들의 수를 이미지 내의 픽셀들의 전체 수로 나누는 것으로서 대략 추정된다. 국부적으로 최적의 증분(ΔE_opt)을 선택한 후에_, 현재 에피톰 차트는 EC_n(k + 1) = EC_n(k) + ΔE_opt가 된다. 할당 맵은 EC_n(k+1)에 의해 새롭게 재구성되는 블록들을 위해 갱신된다.

그 다음, 현재 차트는 현재 차트(EC_n(k))를 중첩시키고 다른 블록들을 표현하는 더 많은 정합된 패치들(M_j,l)이 존재하지 않을 때까지 다음 반복(k+1) 동안 확장된다. 그러한 중첩 패치들이 존재하면, 이 때 방법은 EC_n(k+1)을 갖는 단계 2404에서 계속된다. 현재 차트가 더 이상 확장될 수 없을 때 및 전체 이미지가 현재 에피톰에 의해 아직 재구성되지 않을 때(단계 2406), 지수(n)는 단계 2408에서 1만큼 증분되고 다른 에피톰 차트는 이미지 내의 새로운 위치에서 생성된다. 따라서, 방법은 단계 2402에서 새로운 에피톰 차트로 계속되며, 즉 새로운 차트는 그의 확장 전에 우선 초기화된다. 프로세스는 전체 이미지가 에피톰에 의해 재구성될 때 종료된다(단계 2406). 텍스처 에피톰의 일 예는 도 8b에 의해 주어진다(이 에피톰은 9개의 에피톰 차트들로 구성됨). 도 8의 (a)는 도 8b의 에피톰이 생성되는 이미지(Icurr)를 도시한다. 텍스처 에피톰(E)은 모든 에피톰 차트들(EC_n)의 결합을 포함한다_. 할당 맵은 그의 재구성에 사용되는 패치의 텍스처 에피톰 내의 위치를 현재 이미지의 각각의 블록(Bi)에 대해 표시한다.

에피톰이 이미지에 대해 생성되면, 이 이미지의 근사는 텍스처 에피톰 및 변환 맵으로부터 재구성될 수 있다. 그러나, 허용 오차(ε)로 인해, 원래 이미지와 재구성된 이미지 사이의 나머지 차이들이 존재한다. 따라서, 비디오 코딩 응용들에 대해, 그의 나머지 차이들을 더 인코딩하는 것이 필요하다. 도 2로 되돌아가면, 단계 22에서, 에피톰(E, Φ)은 제1 스트림(F1)으로 인코딩된다. 텍스처 에피톰(E)은 인트라 전용 인코더에 의해 인코딩된다. 일 예로서, 텍스처 에피톰(E)은 인트라 전용 코딩 모드를 사용하는 H.264 표준에 순응하여 인코딩된다. 변형에 따르면, 텍스처 에피톰은 JPEG 표준에 순응하여 인코딩된다. 다른 변형에 따르면, 텍스처 에피톰은 균질 이미지, 예를 들어 픽셀들이 모두 128과 같은 이미지를 참조 이미지로서 사용하는 인터 코딩 모드에서 인코딩된다. 다른 변형에 따르면, 텍스처 에피톰은 인트라 및 인터 예측 모드들 둘 다를 사용하는 종래의 인코더(예를 들어 H.264, MPEG2 등)를 사용하여 인코딩된다. 이 방법들은 통상 예측 신호, DCT, 양자화 및 엔트로피 코딩으로부터 잔여 신호를 컴퓨팅하는 단계들을 포함한다. 변환 맵(Φ)은 FLC(fixed length code) 또는 VLC(variable length code)에 의해 인코딩된다. 그러나, 다른 것들(CABAC...)이 사용될 수도 있다. 변환 맵은 또한 벡터 맵으로 지칭되는 벡터들의 맵이다.

단계 24에서, 텍스처 에피톰(E)이 디코딩된다. 이 단계는 엔트로피 코딩은 제쳐놓고, 텍스처 에피톰 코딩 단계의 역이다. 일 예로서, 텍스처 에피톰 코딩 단계가 예측 신호, DCT 및 양자화로부터 잔여 신호를 컴퓨팅하는 단계를 포함하며, 이 때 디코딩 단계(24)는 역양자화, 역 DCT 및 재구성된 신호를 획득하기 위해 예측 신호를 잔여 신호에 추가하는 단계를 포함한다.

단계 26에서, 중간 이미지는 디코딩된 텍스처 에피톰(E) 및 변환 맵(Φ)으로부터 재구성된다.

도 8의 (b)의 에피톰으로 재구성되는 중간 이미지의 일 예는 도 8의 (c)에 도시된다. 이미지 블록들은 래스터 스캔으로 처리된다. 재구성은 변환 맵 때문에 식별되는 패치의 간단한 사본일 수 있다. 서브 펠(sub-pel) 재구성이 사용되면, 이 때 보간이 이루어진다. 단계 28에서, 현재 이미지는 중간 이미지를 참조 이미지로서 사용하여 인코딩된다. 일 예로서, 현재 이미지는 H.264 비디오 코딩 표준에 순응하여 인코딩된다. 변형에 따르면, 현재 이미지는 MPEG2 비디오 코딩 표준에 순응하여 인코딩된다. 통상의 코딩 모드들(인터 및 인트라 코딩 모드들)이 사용될 수 있다. 현재 이미지의 블록이 인터 코딩 모드에 따라 인코딩된 경우, 이 때 참조 이미지, 즉 디코딩된 에피톰으로부터 재구성되는 이미지 중간 이미지에서 블록과 대응 블록 사이의 차이가 인코딩된다. 대응 블록은 또한 인코딩되는 모션 벡터에 의해 참조 이미지에서 식별된다. 양방향 예측이 또한 가능하다. 변형에 따르면, 어떤 모션 벡터도 인코딩되지 않고 참조 이미지 내의 공동로컬화된 블록이 사용된다. 또한 잔여로 공지되어 있는 차이는 실제로 블록과 참조 이미지로부터 유도되는 그의 예측 사이에서 계산되는 예측 오차이다. 통상, 잔여는 우선 DCT 계수들과 같은 계수들의 블록으로 변환된다. 그 다음, 계수들은 양자화된 계수들의 블록으로 양자화된다. 양자화된 계수들은 공지된 산술 코딩, CABAC(Context-Adaptive Binary Arithmetic Coding을 나타냄), CAVLC(Context-Adaptive Variable-Length Coding을 나타냄) 등과 같은 엔트로피 코딩을 사용하여 비트스트림으로 최종적으로 인코딩된다. 본 발명은 잔여들을 인코딩하기 위해 사용되는 인코딩 타입에 제한되지 않는다. 비트스트림(F2)은 예측 오차 잔여 비트스트림이다.

도 3의 특정 실시예에 따른 코딩 방법은 텍스처 에피톰(E)을 예를 들어 간단한 블록 정합 기술에 기초하여 구축하도록 자기 유사성들을 주어진 허용 오차(ε)에 따라 현재 이미지(Icurr) 내에서 추적하는 단계를 포함한다. 그 다음, 에피톰은 입력 이미지(Icurr) 및 할당 맵으로 불려지는 벡터들의 맵으로부터 취해지는 텍스처들로부터 구성되며, 할당 맵은 여기서 간단한 병진 파라미터들을 포함하고 입력 이미지의 각각의 블록과 에피톰의 블록 사이의 관련성들을 계속 추적한다.

두번째, 중간 이미지는 텍스처 에피톰 및 할당 맵으로부터 재구성된다. 최종적으로, 현재 이미지(Icurr)는 인터 이미지 예측의 의미에서 재구성된 이미지(Irec)를 참조 이미지로서 사용하여 인코딩된다. 특정 실시예에 따른 인코딩 방법의 단계들은 이하와 같이 요약된다:

1. 현재 이미지(Icurr)의 에피톰(텍스처 에피톰 및 할당 맵으로 구성됨)을 구축하며, 더 일반적으로 Icurr의 이미지 요약을 구축하고;

2. 에피톰(텍스처 및 맵)을 제1 비트스트림으로 인코딩하고;

3. 디코딩된 텍스처 에피톰 및 맵으로부터 이미지를 재구성하고;

4. 중간 이미지(Irec)를 참조 이미지로서 사용하는 현재 이미지(Icurr)를 제2 비트스트림으로 인코딩하여 그것을 SNR 확장성의 사상에서의 예측으로서 사용한다.

2개의 비트스트림들(F1 및 F2)(인코딩된 에피톰의 텍스처 에피톰 및 할당 맵에 대한 것 및 현재 이미지(Icurr)에 대한 것)은 최종적으로 디코더에 송신되거나 하드 디스크 또는 DVD와 같은 저장 매체 상에 저장된다.

도 9는 본 발명에 따른 재구성 방법을 도시한다.

단계 32에서, 이미지 요약은 제1 비트스트림(F1)으로부터 디코딩된다. 이 단계는 코딩 방법에 의한 단계 22의 역 단계이다.

단계 34에서, 중간 이미지를 재구성하기 위해 이미지 요약이 사용된다. 이 단계는 코딩 방법의 단계 26과 동일하다.

단계 36에서, 현재 이미지는 중간 이미지를 참조 이미지로서 사용하여 재구성된다. 현재 이미지의 블록이 인터 코딩 모드에 따라 인코딩된 경우, 이 때 참조 이미지, 즉 디코딩된 에피톰으로부터 재구성되는 중간 이미지에서 블록과 대응 블록 사이의 차이가 디코딩된다. 대응 블록은 모션 벡터에 의해 참조 이미지에서 식별된다. 참조 이미지의 2개의 블록들을 갖는 양방향 예측이 가능하다. 변형에 따르면, 어떤 모션 벡터도 인코딩되지 않고 참조 이미지 내의 공동로컬화된 블록이 사용된다. 차이는 실제로 인코더 측 상에서, 블록과 참조 이미지로부터 유도되는 그의 예측 사이에서 계산되는 예측 오차이다. 통상, 양자화된 계수들은 우선 공지된 산술 코딩, CABAC, CAVLC 등과 같은 엔트로피 디코딩을 사용하여 제2 비트스트림으로부터 디코딩된다. 그 다음, 양자화된 계수들은 DCT 계수들과 같은 역양자화된 계수들의 블록으로 역양자화된다. 역양자화된 계수들은 최종적으로 예를 들어 역 DCT를 사용하여, 잔여들의 블록으로 변환된다. 그 다음, 잔여들의 블록은 참조 이미지 내의 대응 블록에 추가된다.

변형에 따르면, 재구성 방법은 제1 및 제2 비트스트림이 다중화될 때 비트스트림을 제1 및 제2 비트스트림들으로 역다중화하는 단계 30을 더 포함한다.

도 10에 도시된 특정 실시예에 따르면, 이미지 요약은 에피톰이다. 그러므로, 단계 32는 벡터들의 텍스처 에피톰 및 할당 맵을 디코딩하는 단계를 포함한다.

중간 이미지의 이미지 재구성은 현재 이미지를 재구성할 때 임의의 드리프트를 회피하기 위해 디코딩된 텍스처 에피톰 및 할당 맵으로부터 인코더 및 디코더 측들에서 대칭적으로 실현된다.

도 11은 본 발명에 따른 코딩 장치를 도시한다.

제1 입력(IN) 상에서, 코딩 장치(ENC)는 현재 이미지(Icurr)를 수신한다. 입력(IN)은 IFM에 연결된다. 모듈(IFM)은 인코딩 방법의 단계 20에 따른 현재 이미지(Icurr)의 요약을 생성하도록 적응된다. IFM(image factorization module)은 제1 인코딩 모듈(ENC1)에 연결된다. 제1 인코딩 모듈(ENC1)은 인코딩 방법의 단계 22에 따라 요약을 제1 비트스트림으로 인코딩하도록 적응된다. 코딩 장치(ENC)는 제1 인코딩 모듈(ENC1)에 연결되는 제2 인코딩 모듈(ENC2)을 더 포함한다. 제2 인코딩 모듈(ENC2)은 인코딩 방법의 단계들 24, 26 및 28에 따른 현재 이미지를 제2 비트스트림으로 인코딩하도록 적응된다. 특히, 제2 인코딩 모듈(ENC2)은 제1 인코딩 모듈(ENC1)에 의해 인코딩되는 이미지 요약을 디코딩하도록 적응되어, 디코딩된 요약으로부터 중간 이미지를 재구성하고 중간 이미지를 참조 이미지로서 사용하여 현재 이미지(Icurr)를 인코딩한다. 인코딩 장치(ENC)는 제1 및 제2 비트스트림들을 단일 비트스트림 또는 전송 스트림으로 다중화하도록 적응되는 다중화 모듈(MUX)을 더 포함할 수 있다. 이 경우에 다중화 모듈은 단일 출력(OUT)에 연결된다. 변형에 따르면, 다중화 모듈은 2개의 출력들을 포함하는 코딩 장치 외부에 있으며, 하나는 제1 비트스트림을 위한 것이고 하나는 제2 비트스트림을 위한 것이다.

도 12는 본 발명에 따른 디코딩 장치(DEC)를 도시한다. 디코딩 장치는 제1 입력(IN) 상에 비트스트림을 수신한다. 입력은 역다중화 모듈(DEMUX)에 연결된다. 역다중화 모듈(DEMUX)은 비트스트림을 이미지 요약을 나타내는 제1 비트스트림 및 잔여들, 또는 더 정확하게 예측 오차 잔여를 나타내는 제2 비트스트림으로 역다중화하도록 적응된다. 변형에 따르면, 역다중화 모듈(DEMUX)은 2개의 입력들을 포함하는 디코딩 장치 외부에 있으며, 하나는 제1 비트스트림을 위한 것이고 하나는 제2 비트스트림을 위한 것이다. 디코딩 장치(DEC)는 재구성 방법의 단계 32에 따른 제1 비트스트림으로부터 이미지 요약을 디코딩하도록 적응되는 제1 디코딩 모듈(DEC1)을 더 포함한다. 디코딩 장치는 제1 디코딩 모듈(DEC1)에 연결되는 제2 디코딩 모듈(DEC2)을 더 포함한다. 제2 디코딩 모듈(DEC2)은 재구성 방법의 단계들 34, 36 및 38에 따른 제2 비트스트림으로부터 현재 이미지를 재구성하도록 적응된다. 특히, 제2 디코딩 모듈(DEC2)은 디코딩된 요약으로부터 중간 이미지를 재구성하고 중간 이미지를 참조 이미지로서 사용하는 현재 이미지(Icurr)를 재구성하도록 적응된다.

인트라 코딩에 기초하는 기존 방법들과 비교하면, 본 발명은 비율 왜곡 성능을 개선하는 장점들을 갖는다. 본 발명의 주요 특성들은 현재 이미지가 인코딩되는 것을 예측하는 이미지 요약의 사용이며, 이미지 요약, 예를 들어 에피톰은 재구성된 이미지를 제공하며, 이렇게 재구성된 이미지(정상 크기, 즉 에피톰이 생성되는 원래 이미지의 크기와 동일한 크기)는 비디오 인코더 내의 참조 이미지로서 사용된다. 유리하게, 재구성된 이미지는 인코딩되는 이미지와 동일한 크기이다. 그러므로, 공지된 "스킵 모드"와 같은 효율적인 모드는 블록들을 현재 이미지에서 인코딩하기 위해 사용되고 따라서 그의 인코딩 비용을 감소시킬 수 있다.

본 발명의 주요 타켓 응용들은 비디오 분배(압축을 포함함) 및 비디오 압축에 관련되는 디스플레이 기술 응용들이다.

우선, 본 발명은 현재 이미지를 위해 컴퓨팅되는 잔여(즉 참조 이미지에서 블록과 대응 블록 사이의 차이)를 코딩하기 위해 사용되는 인코딩 방법에 의해 제한되지 않는다. 게다가, 방법은 에피톰, 즉 텍스처 에피톰 및 할당 맵을 구성하는데 사용되는 방법에 결코 제한되지 않는다. 실제로, 본 발명에 따른 코딩 방법은 단지, 요약을 생성하는 데 사용되는 어떤 방법일지라도, 이미지가 인코딩되기 위해서는 이미지 요약을 필요로 한다.

Claims

이미지들의 시퀀스를 코딩하는 방법으로서, 현재 이미지에 대하여,
- 상기 현재 이미지의 요약(summary)을 생성하는 단계;
- 상기 요약을 제1 비트스트림으로 인코딩하는 단계를 포함하며;
상기 코딩 방법은,
- 상기 요약으로부터 상기 현재 이미지와 동일한 크기의 중간 이미지를 재구성하는 단계; 및
- 상기 중간 이미지를 참조 이미지로서 사용하여 상기 현재 이미지를 제2 비트스트림으로 인코딩하는 단계
를 더 포함하는 것을 특징으로 하는 코딩 방법.
제1항에 있어서, 상기 현재 이미지의 요약은 텍스처 에피톰(texture epitome) 및 할당 맵을 포함하는 코딩 방법.
제2항에 있어서, 상기 할당 맵은 고정 길이 코딩을 사용하여 인코딩되는 코딩 방법.
제2항에 있어서, 상기 할당 맵은 가변 길이 코딩을 사용하여 인코딩되는 코딩 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 제2 비트스트림은,
- ITU-T Rec. H.264/ISO/IEC 14496-10 AVC 비디오 코딩 표준; 및
- ISO/IEC 13818-2 MPEG2
를 포함하는 비디오 코딩 표준 세트에 속하는 하나의 비디오 코딩 표준에 부합하는 코딩 방법.
현재 이미지를 포함하는 이미지들의 시퀀스를 재구성하는 방법으로서,
- 상기 현재 이미지의 이미지 요약을 디코딩하는 단계를 포함하며;
상기 재구성 방법은,
- 상기 요약으로부터 중간 이미지를 재구성하는 단계; 및
- 상기 중간 이미지를 참조 이미지로서 사용하여 상기 현재 이미지를 재구성하는 단계 - 상기 중간 이미지는 상기 현재 이미지와 동일한 크기임 -
를 더 포함하는 것을 특징으로 하는 재구성 방법.