KR20150047639A

KR20150047639A - 다중 경로 비디오 코딩 및 디코딩을 위한 방법 및 장치

Info

Publication number: KR20150047639A
Application number: KR1020157009755A
Authority: KR
Inventors: 베이베이 왕; 펭 인
Original assignee: 톰슨 라이센싱
Priority date: 2006-09-22
Filing date: 2007-02-15
Publication date: 2015-05-04
Also published as: KR20090073112A; CN101518085A; JP5529537B2; EP2070334A1; JP2012235520A; CN102833544A; JP5639619B2; BRPI0716540A2; JP2010504689A; WO2008036112A1

Abstract

다중 경로 비디오 인코딩 기법을 이용해서 비디오 신호 데이터를 인코딩 및 디코딩하는 비디오 인코더, 비디오 디코더 및 대응 방법이 제공된다. 비디오 인코더는 움직임 추정기(116) 및 분해 모듈(174)을 포함한다. 움직임 추정기는 비디오 신호 데이터에 대해 움직임 추정을 수행하여, 제1 인코딩 경로에서 비디오 신호 데이터에 대응하는 움직임 잔여를 얻는다. 움직임 추정기와 신호 통신하는 분해 모듈은 후속하는 인코딩 경로에서 움직임 잔여를 분해한다.

Description

다중 경로 비디오 코딩 및 디코딩을 위한 방법 및 장치{METHOD AND APPARATUS FOR MULTIPLE PASS VIDEO CODING AND DECODING}

본 출원은, 본 명세서에 전체가 참고용으로 병합된, 2006년 9월 22일에 출원된 "다중 경로 비디오 코딩 및 디코딩을 위한 방법 및 장치"라는 명칭의 PCT 국제 출원 번호 PCT/US2006/037139호의 우선권을 주장한다.

본 발명은 일반적으로 비디오 인코딩 및 디코딩에 관한 것이고, 특히 다중 경로 비디오 인코딩 및 디코딩을 위한 방법 및 장치에 관한 것이다.

국제 표준화 기구/국제 전기 표준 회의(ISO/IEC: International Organization for Standardization/International Electrotechnical Commission) MPEG-4(Moving Picture Experts Group-4) 파트 10 어드밴스드 비디오 코딩(AVC: Advanced Video Coding) 표준/국제 전기통신 연합, 전기통신 섹터(ITU-T: International Telecommunication Union, Telecommunication Sector) H.264 표준(이후, "MPEG4/H.264 표준" 또는 간단히 "H.264 표준")은 현재 가장 강력한 최신식 비디오 코딩 표준이다. 모든 다른 비디오 코딩 표준과 같이, H.264 표준은 블록 기반의 움직임 보상 및 이산 코사인 변환(DCT: Discrete Cosine Transform)형 변환 코딩을 이용한다. DCT가 비디오 코딩에 있어서 효율적이고, 방송 고선명 텔레비전(HDTV: high definition television)과 같은 고성능의 애플리케이션에 적합하다는 것이 잘 공지되어 있다. 하지만, DCT 알고리즘은, 전용 비디오 셀 폰과 같은 매우 낮은 비트 레이트를 요구하는 애플리케이션에 대해서도 적합한 것은 아니다. 매우 낮은 비트 레이트에서, DCT 변환은, 디블로킹(deblocking) 필터를 이용하더라도, 블로킹 아티팩트(blocking artifact)들을 가져올 것이고, 이는 매우 낮은 비트 레이트에서 코딩될 수 있는 계수들이 거의 없으며, 각 계수가 매우 간격이 넓은 양자화 단계를 갖는 경향이 있기 때문이다.

매칭 추적(MP: Matching Pursuit)은, 임의의 신호를 함수들의 리던던트 사전(redundant dictionary)으로부터 선택된 파형들의 선형 확장으로 분해하는 그리디(greedy) 알고리즘이다. 이러한 파형들은 신호 구조를 최적으로 매치시키도록 선택된다.

1-D 신호 f(t)를 가지며, 오버컴플릿(over-complete) 사전 세트 G로부터 기저 벡터를 이용해서 이 신호를 분해하기를 원한다고 가정한다.

여기에서, γ는 특정 사전 요소와 관련된 인덱싱(indexing) 파라미터이다. 분해는 γ를 선택하여 내적의 절대값을 다음과 같이 최대화하는 것으로 시작된다:

그러면 잔여(residual) 신호가 다음과 같이 계산된다:

그리고나서, 이 잔여 신호는 원 신호와 동일한 방식으로 확장된다. 그 절차는, 확장 계수의 설정 넘버가 생성되거나, 그 잔여에 대한 소정 에너지 임계치가 도달될 때까지 반복적으로 계속된다. 각 단계 n은 사전 함수 γ_n를 생성한다. 전체 M 단계 후, 신호는 사전 요소들의 선형 함수에 의해 다음과 같이 근사화될 수 있다:

n 샘플들의 신호의 MP 분해의 복잡도는 차수 kㆍNㆍdㆍnlog₂n가 되는 것으로 입증된다. 여기에서 d는 변환을 고려하지 않으면서 사전의 사이즈에 따르고, N은 선택된 확장 계수의 수이고, 상수 k는 사전 함수를 선택하기 위한 전략에 따른다. 높은 오버컴플릿 사전이 주어지면, MP는, 그 복잡도가 o(nlog₂n)으로서 정의되는, H.264 표준에서 사용되는 8×8 및 4×4 DCT 정수 변환보다 더 많이 계산을 요구한다.

일반적으로, MP 알고리즘은 임의의 세트의 잔여 기저 형태들에 적합하다. 가버(Gabor) 함수의 오버컴플릿 기저를 이용해서 신호를 확장하는 것이 제안되었다. 2-D 가버 사전은 매우 리던던트하고, 각 형태는 코딩된 잔여 화상의 임의의 정수-화소 위치에 존재할 수 있다. MP가 훨씬 더 큰 사전 세트를 갖고, 각각의 코딩된 기저 함수가 잔여 신호의 구조에 잘 매칭되기 때문에, 프레임 기반의 가버 사전은 의사(artificial) 블록 구조를 갖지 않는다.

가버 리던던트 사전 세트는, MP 알고리즘(이후, "종래 기술의 가버 기반의 MP 비디오 코딩 접근법"으로서 지칭됨)을 이용해서 제안된 비디오 코딩 시스템에 대해, MP에 기초한 매우 낮은 비트 레이트의 비디오 코딩에 대해 적응되어 왔다. 제안된 시스템은, 매우 낮은 비트 레이트의 화상 코딩에 대한 시뮬레이션 모델, 또는 간단히 "SIM3"로서 지칭되는 낮은 비트 레이트의 하이브리드 DCT 시스템의 프레임워크에 기초하고, 여기에서, DCT 잔여 코더는 MP 코더로 대체된다. 이 코더는 MP를 이용해서, 사전 분리가능 2-D 가버 함수들로 움직임 잔여 화상을 분해한다. 이 제안된 시스템은 낮은 비트 레이트의 로우(low) 움직임 시퀀스들에서 잘 동작하는 것으로 보여진다.

스무스(smooth) 16×16 사인 제곱(sine-square) 윈도는 종래 기술의 가버 기반의 MP 비디오 코딩 접근법의 8×8 파티션(partition)들에 대한 예측 화상에 적용되었다. 종래 기술의 가버 기반의 MP 비디오 코딩 접근법의 MP 비디오 코덱은 ITU-T H.263 코덱에 기초한다. 하지만, H.264 표준은, 루마(luma) 움직임 보상에 대해 4×4만큼 작을 수 있는 작은 블록 사이즈의 가변 블록-사이즈 움직임 보상을 가능하게 한다. 또한, H.264 표준은 기선(baseline) 및 메인 프로파일에 대해, 대부분의 다른 현저한 종래의 비디오 코딩 표준들에서와 같은 8×8이 아닌, 4×4 DCT형 변환에 주로 기초한다. 인트라 코딩에 대한 방향성 공간 예측은 예측 신호의 품질을 향상시킨다. 이와 같은 모든 중요한 설계 특성들은 H.264 표준이 더욱 효과적이게 하지만, 이는 H.264 표준에 MP를 적용할 시에 보다 복잡한 상황들을 처리해야 하는 것을 요구한다. 스무스 16×16 사인 제곱 윈도는 다음과 같이 표현된다:

움직임 보상에 대해 H.264 표준에 의해 도입된 일부 특성들로부터 이익을 얻고 공간 도메인에서의 변환을 대체하는 하이브리드 코딩 기법(이후, "종래 기술의 하이브리드 코딩 기법")이 제안되었다. 예측 오류는 MP 알고리즘을 이용해서 코딩되고, 이 알고리즘은 적절하게 설계된 2차원의 이방성 리던던트 사전으로 신호를 분해한다. 또한, 고속 원자 검색 기술이 소개되었다. 하지만, 제안된 종래 기술의 하이브리드 코딩 기법은, 1-패스 또는 2-패스 기법을 이용하는지 여부를 기술하지 않는다. 또한, 제안된 종래 기술의 하이브리드 코딩 기법은, 움직임 보상부가 H.264 표준에 따른다고 개시하였지만, 임의의 디블로킹 필터가 코딩 기법에서 이용되었는지 여부, 또는 매우 낮은 비트 레이트에서 예측 화상에 의해 야기되는 블로킹 아티팩트를 스무스하게 하도록 임의의 다른 방법들이 이용되었는지 여부를 기술하지 않는다.

종래 기술의 상기 및 기타 단점 및 결점은, 다중 경로 비디오 인코딩 및 디코딩을 위한 방법 및 장치에 관한 본 발명에 의해 해결된다.

본 발명의 일 양상에 따라서, 다중 경로 비디오 인코딩 기법을 이용해서 비디오 신호 데이터를 인코딩하는 비디오 인코더가 제공된다. 비디오 인코더는 움직임 추정기 및 분해 모듈을 포함한다. 움직임 추정기는 비디오 신호 데이터에 대해 움직임 추정을 수행하여, 제1 인코딩 경로에서 비디오 신호 데이터에 대응하는 움직임 잔여(residual)를 얻는다. 움직임 추정기와 신호 통신하는 분해 모듈은 후속하는 인코딩 경로에서 움직임 잔여를 분해한다.

본 발명의 다른 양상에 따라서, 다중 경로 비디오 인코딩 기법을 이용해서 비디오 신호 데이터를 인코딩하는 방법이 제공된다. 이 방법은, 비디오 신호 데이터에 대해 움직임 추정을 수행하여, 제1 인코딩 경로에서 비디오 신호 데이터에 대응하는 움직임 잔여를 얻는 단계, 및 후속하는 인코딩 경로에서 움직임 잔여를 분해하는 단계를 포함한다.

본 발명의 또 다른 양상에 따라서, 비디오 비트스트림을 디코딩하는 비디오 디코더가 제공된다. 비디오 디코더는, 엔트로피 디코더, 원자 디코더, 역변환기, 움직임 보상기, 디블로킹 필터, 및 합성기를 포함한다. 엔트로피 디코더는 비디오 비트스트림을 디코딩하여 분해된 비디오 비트스트림을 얻는다. 엔트로피 디코더와 신호 통신하는 원자 디코더는 분해된 비트스트림에 대응하는 분해된 원자를 디코딩하여 디코딩된 원자를 얻는다. 원자 디코더와 신호 통신하는 역변환기는 디코딩된 원자에 역변환을 적용하여 재구성된 잔여 화상을 형성한다. 엔트로피 디코더와 신호 통신하는 움직임 보상기는 분해된 비트스트림에 대응하는 움직임 벡터를 이용해서 움직임 보상을 수행하여 재구성된 예측 화상을 형성한다. 움직임 보상기와 신호 통신하는 디블로킹 필터는 재구성된 예측 화상에 디블로킹 필터링을 수행하여 재구성된 예측 화상을 스무스하게 한다. 역변환기 및 중첩 블록 움직임 보상기와 신호 통신하는 합성기는 재구성된 예측 화상과 잔여 화상을 합성하여 재구성된 화상을 얻는다.

본 발명의 또 다른 양상에 따라서, 비디오 비트스트림을 디코딩하는 방법이 제공된다. 이 방법은, 비디오 비트스트림을 디코딩하여 분해된 비디오 비트스트림을 얻는 단계, 분해된 비트스트림에 대응하는 분해된 원자를 디코딩하여 디코딩된 원자를 얻는 단계, 디코딩된 원자에 역변환을 적용하여 재구성된 잔여 화상을 형성하는 단계, 분해된 비트스트림에 대응하는 움직임 벡터를 이용해서 움직임 보상을 수행하여 재구성된 예측 화상을 형성하는 단계, 재구성된 예측 화상에 디블로킹 필터링을 수행하여 재구성된 예측 화상을 스무스하게 하는 단계, 및 재구성된 예측 화상과 잔여 화상을 합성하여 재구성된 화상을 얻는 단계를 포함한다.

본 발명의 상기 및 기타 양상, 특징 및 장점은, 첨부 도면과 관련하여 기술될 예시적 실시예들의 후술하는 상세한 설명으로부터 명백해질 것이다.

본 발명은 후술하는 예시적 도면에 따라 더욱 잘 이해될 것이다.
도 1a 및 1b는, 본 발명의 원리가 본 발명의 일 실시예에 따라 적용될 수 있는 2중 경로 H.264 표준 기반의 MP 인코더/디코더(CODEC)의 인코더의 예시적인 제1 및 제2 경로부에 대한 도면이다.
도 2는, 본 발명의 원리가 본 발명의 일 실시예에 따라 적용될 수 있는 2중 경로 H.264 표준 기반의 MP 인코더/디코더(CODEC)의 예시적인 디코더에 대한 도면이다.
도 3은 본 발명의 일 실시예에 따른 입력 비디오 시퀀스를 인코딩하기 위한 예시적인 방법에 대한 도면이다.
도 4는 본 발명의 일 실시예에 따른 입력 비디오 시퀀스를 디코딩하기 위한 예시적인 방법에 대한 도면이다.

본 발명은, 다중 경로 비디오 인코딩 및 디코딩을 위한 방법 및 장치에 관한 것이다. 유익하게, 본 발명은, 매우 낮은 비트 레이트의 애플리케이션에서 예를 들어, H.264 표준에서 이용되는 DCT 변환에 의해 도입되는 블로킹 아티팩트를 정정한다. 또한, 본 발명이 낮은 비트 레이트의 애플리케이션만으로 제한되는 것은 아니며, 본 발명의 범위를 유지하면서 다른 (더 높은) 비트 레이트에도 이용될 수 있다는 것이 이해될 것이다.

본 설명은 본 발명의 원리를 기술한다. 따라서, 당업자는, 본 명세서에서 명확하게 기술 또는 도시되지 않더라도, 본 발명의 원리를 구체화하고 그 사상 및 범위 내에 포함되는 다양한 구성을 고안해낼 수 있을 것이다.

본 명세서에서 언급된 모든 예 및 조건부 언어는, 발명자에 의해 제공되는 본 발명의 원리 및 개념에 대한 독자들의 이해를 도와 그 기술을 증진시키는 교육학적 목적을 위한 것으로서, 그러한 특정하게 언급된 예들 및 조건들로 제한되지는 않는 것으로 해석되어야 한다.

또한, 본 발명의 특정 예뿐만 아니라, 본 발명의 원리, 양상 및 실시예들을 인용하는 본 명세서의 모든 설명은 그 구조적 및 기능적 등가물들을 모두 포함하는 것으로 의도된다. 또한, 이러한 등가물들은 현재 공지된 등가물뿐만 아니라 미래에 개발될 등가물, 즉, 구조에 관계없이 동일한 기능을 행하도록 개발된 임의의 구성 요소들을 모두 포함하는 것으로 의도된다.

따라서, 예를 들어, 당업자는, 본 명세서에서 제시된 블록도들이 본 발명을 구현하는 예시적인 회로의 개념도를 나타내는 것임을 이해할 것이다. 마찬가지로, 임의의 플로차트, 순서도, 상태 전이도, 의사코드 등이, 컴퓨터 또는 프로세서가 명확하게 도시되는지 여부에 관계없이, 실질적으로 컴퓨터 판독가능 매체로 표현되어 컴퓨터 또는 프로세서에 의해 실행될 수 있는 다양한 프로세스를 나타낸다는 것을 이해할 것이다.

도면에 도시된 다양한 구성 요소들의 기능은, 전용 하드웨어뿐만 아니라 적절한 소프트웨어와 결합되어 소프트웨어를 실행시킬 수 있는 하드웨어의 사용을 통해 제공될 수 있다. 프로세서에 의해 제공될 때, 기능들은 단일의 전용 프로세서, 단일의 공유 프로세서, 또는 일부가 공유될 수도 있는 복수의 개별 프로세서에 의해 제공될 수 있다. 또한, "프로세서" 또는 "컨트롤러"라는 용어의 명시적인 이용은 소프트웨어를 실행할 수 있는 하드웨어를 배타적으로 지칭하는 것으로 해석되어서는 안 되며, 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 ROM(read only memory), RAM(random access memory), 및 비휘발성 저장 장치를 제한 없이 함축적으로 포함할 수 있다.

다른 하드웨어, 관용 및/또는 주문도 포함될 수 있다. 마찬가지로, 도면에 도시된 임의의 스위치들은 단지 개념적인 것이다. 이들의 기능은, 프로그램 로직의 동작을 통해서, 전용 로직을 통해서, 프로그램 제어 및 전용 로직의 상호작용을 통해서, 또는 수동으로도 수행될 수 있으며, 특정 기술은 컨텍스트로부터 보다 명확하게 이해되는 바와 같이 구현자에 의해 선택가능하다.

본 명세서의 청구항에서, 특정 기능을 수행하기 위한 수단으로서 표시되는 임의의 구성 요소는, 예를 들어, a) 그 기능을 수행하는 회로 소자의 조합 또는 b) 소프트웨어가 그 기능을 수행하도록 하는 적절한 회로와 결합된, 펌웨어, 마이크로코드 등을 포함하는 임의의 형태의 소프트웨어를 포함하는, 그 기능을 수행하는 임의의 수단을 포괄하는 것으로 의도된다. 이러한 청구항에 의해 정의되는 바와 같은 본 발명은, 다양한 인용된 수단에 의해 제공되는 기능성들이 청구항이 청구하는 식으로 함께 결합되어 얻어진다는 사실에 근거한다. 따라서, 이러한 기능성들을 제공할 수 있는 임의의 수단은 본 명세서에 도시된 것과 동일한 것으로 간주된다.

본 발명의 원리에 따라서, 다중 경로 비디오 인코딩 및 디코딩 기법이 제공된다. 다중 경로 비디오 인코딩 및 디코딩 기법에는 매칭 추적(MP)이 사용될 수 있다. 예시적 실시예에서, 2중 경로 H.264 기반의 코딩 기법이 MP 비디오 코딩에 대해 개시된다.

H.264 표준은, 다른 비디오 압축 표준과 유사하게 블록 기반의 움직임 보상 및 DCT형 변환을 적용한다. 매우 낮은 비트 레이트에서, DCT 변환은, 디블로킹 필터를 이용하더라도, 블로킹 아티팩트들을 가져올 것이고, 이는 매우 낮은 비트 레이트에서 코딩될 수 있는 계수들이 거의 없으며, 각 계수가 매우 간격이 넓은 양자화 단계를 갖는 경향이 있기 때문이다. 본 발명의 원리에 따라서, 오버컴플릿 기저를 사용하는 MP가 잔여 화상을 코딩하도록 적용된다. 움직임 보상 및 모드 결정부는 H.264 표준에 따른다. 중첩 블록 움직임 보상(OBMC: Overlapped block motion compensation)은 예측 화상을 스무스하게 하는 데 적용된다. 또한, 새로운 접근법이 MP 외의 기저를 선택하기 위해 제공된다.

본 발명의 원리에 따라서, 비디오 인코더 및/또는 디코더는 예측 화상에 OBMC를 적용하여, 예측 모델에 의해 야기되는 블로킹 아티팩트를 감소시킨다. MP 알고리즘은 잔여 화상을 코딩하는 데 이용된다. MP의 장점은, 블록 기반이 아니고 프레임 기반이어서, 코딩 잔여 차에 의해 야기되는 블로킹 아티팩트가 없다는 점이다.

도 1a 및 1b를 참조하면, 2중 경로 H.264 표준 기반의 MP 인코더/디코더(CODEC)의 인코더의 예시적인 제1 및 제2 경로부가 일반적으로 참조 번호 110 및 160으로 표시된다. 인코더는 일반적으로 참조 번호 190으로 표시되고, 디코더부는 일반적으로 참조 번호 191로 표시된다.

도 1a를 참조하면, 제1 경로부(110)의 입력은 합성기(112)의 비반전 입력, 인코더 제어 모듈(114)의 입력, 및 움직임 추정기(116)의 제1 입력과 신호 통신으로 접속된다. 합성기(112)의 제1 출력은 버퍼(118)의 제1 입력과 신호 통신으로 접속된다. 합성기(112)의 제2 출력은 정수 변환/크기 조정(scaling)/양자화 모듈(120)의 입력과 신호 통신으로 접속된다. 정수 변환/크기 조정/양자화 모듈(120)의 출력은 크기 조정/역변환 모듈(122)의 제1 입력과 신호 통신으로 접속된다.

인코더 제어 모듈(114)의 제1 출력은 인트라 프레임 예측기(126)의 제1 입력과 신호 통신으로 접속된다. 인코더 제어 모듈(114)의 제2 출력은 움직임 보상기(124)의 제1 입력과 신호 통신으로 접속된다. 인코더 제어 모듈(114)의 제3 출력은 움직임 추정기(116)의 제2 입력과 신호 통신으로 접속된다. 인코더 제어 모듈(114)의 제4 출력은 크기 조정/역변환 모듈(122)의 제2 입력과 신호 통신으로 접속된다. 인코더 제어 모듈(114)의 제5 출력은 버퍼(118)의 제1 입력과 신호 통신으로 접속된다.

움직임 추정기(116)의 출력은 움직임 보상기(124)의 제2 입력 및 버퍼(128)의 제2 입력과 신호 통신으로 접속된다. 합성기(112)의 반전 입력은 움직임 보상기(124)의 출력 또는 인트라 프레임 예측기(126)의 출력과 신호 통신으로 선택적으로 접속된다. 움직임 보상기(124) 또는 인트라 프레임 예측기(126) 중 선택된 하나의 출력은 합성기(128)의 제1 입력과 신호 통신으로 접속된다. 크기 조정/역변환 모듈(122)의 출력은 합성기(128)의 제2 입력과 신호 통신으로 접속된다. 합성기(128)의 출력은 인트라 프레임 예측기(126)의 제2 입력, 움직임 추정기(116)의 제3 입력, 및 움직임 보상기(124)의 입/출력과 신호 통신으로 접속된다. 버퍼(118)의 출력은 제1 경로부(110)의 출력으로서 이용가능하다.

제1 경로부(110)에 있어서, 인코더 제어 모듈(114), 정수 변환/크기 조정/양자화 모듈(120), 버퍼(118), 및 움직임 추정기(116)는 인코더(190)에 포함된다. 또한, 제1 경로부에 있어서, 크기 조정/역변환 모듈(122), 인트라 프레임 예측기(126), 및 움직임 보상기(124)는 디코더부(191)에 포함된다.

제1 경로부(110)의 입력은 입력 비디오(111)를 수신하고, 제2 경로부(160)에서 이용하기 위한 제어 데이터(예를 들어, 움직임 벡터, 모드 선택, 예측 화상, 등)를 버퍼(118)에 저장한다.

도 1b를 참조하면, 제2 경로부(160)의 제1 입력은 엔트로피 코더(166)의 입력과 신호 통신으로 접속된다. 이 제1 입력은, 제1 경로부(110)로부터 제어 데이터(162)(예를 들어, 모드 선택, 등) 및 움직임 벡터(164)를 수신한다. 제2 경로부(160)의 제2 입력은 합성기(168)의 비반전 입력과 신호 통신으로 접속된다. 제2 경로부(160)의 제3 입력은 중첩 블록 움직임 보상(OBMC)/디블로킹 모듈(170)의 입력과 신호 통신으로 접속된다. 제2 경로부(160)의 제2 입력은 입력 비디오(111)를 수신하고, 제2 경로부의 제3 입력은 제1 경로부(110)로부터 예측 화상(187)을 수신한다.

잔여(172)를 제공하는 합성기(168)의 출력은 원자 파인더(atom finder)(174)의 입력과 신호 통신으로 접속된다. 코딩된 잔여(178)를 제공하는 원자 파인더(174)의 출력은 원자 코더(176)의 입력 및 합성기(180)의 제1 비반전 입력과 신호 통신으로 접속된다. OBMC/디블로킹 모듈(170)의 출력은 합성기(168)의 반전 입력 및 합성기(180)의 제2 비반전 입력과 신호 통신으로 접속된다. 출력 비디오를 제공하는 합성기(180)의 출력은 기준 버퍼(182)의 입력과 신호 통신으로 접속된다. 원자 코더(176)의 출력은 엔트로피 코더(166)의 입력과 신호 통신으로 접속된다. 엔트로피 코더(166)의 출력은 제2 경로부(160)의 출력으로서 이용가능하고, 출력 비트스트림을 제공한다.

제2 경로부(160)에 있어서, 엔트로피 코더는 인코더(190)에 포함되고, 합성기(168), OBMC 모듈(170), 원자 파인더(174), 원자 코더(176), 및 기준 버퍼(182)는 디코더부(191)에 포함된다.

도 2를 참조하면, 2중 경로 H.264 표준 기반의 MP 인코더/디코더(CODEC)의 예시적인 디코더가 일반적으로 참조 번호 200으로 표시된다.

디코더(200)의 입력은 엔트로피 디코더(210)의 입력과 신호 통신으로 접속된다. 엔트로피 디코더의 출력은 원자 디코더(220)의 입력 및 움직임 보상기(250)의 입력과 신호 통신으로 접속된다. 잔여를 제공하는 역변환 모듈(230)의 출력은 합성기(270)의 제1 비반전 입력과 신호 통신으로 접속된다. 움직임 보상기(250)의 출력은 OBMC/디블로킹 모듈(260)의 입력과 신호 통신으로 접속된다. OBMC/디블로킹 모듈(260)의 출력은 합성기(270)의 제2 비반전 입력과 신호 통신으로 접속된다. 합성기의 출력은 디코더(200)의 출력으로서 이용가능하다.

H.263 코덱에 기초한 종래 기술의 가버 기반의 MP 비디오 코딩 접근법의 MP 비디오 코덱과 다르게, 본 발명은 ITU-T H.264/AVC 코딩 시스템에 적용가능하다. 프레임 기반의 잔여 코딩으로 인해, OBMC를 예측 화상에 적용하고, 이는 H.264/AVC 코덱에서는 구현되지 않는다.

본 발명에 따른 일 실시예에서, 비디오 인코딩 기법의 제1 경로는 H.264 표준에 따른다. 제1 경로에서 실제 코딩은 없다. 예를 들어, 모드 선택, 예측 화상 및 움직임 벡터와 같은 모든 제어 데이터가 제2 경로를 위해 버퍼에 저장된다. DCT 변환은 레이트 왜곡 최적화(RDO: Rate Distortion Optimization)를 이용하는 모드 선택 및 움직임 보상에 대해 제1 경로에서 여전히 적용된다. DCT 계수를 이용하여 잔여 화상을 코딩하는 대신, 모든 잔여 화상이 제2 경로를 위해 저장된다. 본 발명의 일 실시예에서, 16×16 제한 인트라 코딩 또는 H.264 표준 호환 제한 인트라 코딩을 적용하고, 특히 인트라 코딩된 매크로블록과 인터 코딩된 매크로블록 간의 경계부를 처리하는 것이 제안되었다.

제2 경로에서, 움직임 벡터 및 제어 데이터는 엔트로피 코딩에 의해 코딩될 수 있다. 잔여 화상은 MP에 의해 코딩될 수 있다. 원자 검색 및 파라미터 코딩은, 예를 들어, 종래 기술의 가버 기반의 MP 비디오 코딩 접근법에 따라서 수행될 수 있다. 재구성된 화상은 기준 프레임을 위해 저장된다.

MP 비디오 코딩의 이점들 중 하나는, MP가 블록 기반이 아니어서 블로킹 아티팩트가 없다는 것이다. 하지만, 움직임 예측이 블록 기반으로 수행되어 부정확한 경우, MP 비디오 코딩은, 매우 낮은 비트 레이트에서 소정의 블로킹 아티팩트들을 여전히 발생시킨다. 시뮬레이션은, 원자들이 움직이는 윤곽, 및 움직임 벡터(MV)가 매우 정확하지는 않은 영역에서 나타나는 것을 보여준다. 움직임 추정의 개선은 원자들이 잔여를 더욱 잘 나타내도록 한다.

움직임 예측으로부터 아티팩트를 제거하기 위해서, 일 방법은 H.264형 또는 개선된 디블로킹 필터를 이용하여 예측 화상의 뭉툭한 경계를 스무스하게 하는 것과 관련된다. 다른 접근법에서, 중첩 블록(OBMC)을 이용하는 스무더(smoother) 움직임 모델이 채용된다. 종래 기술의 가버 기반의 MP 비디오 코딩 접근법에서는, 16×16 사인 제곱 윈도가 적응되었다. N×N 사인 제곱 윈도는, 예를 들어, 종래 기술의 하이브리드 코딩 기법에 따라서 정의될 수 있다. 16×16 사인 제곱 윈도는 8×8 블록에 대해 설계되고, 16×16 블록은 4개의 8×8 블록으로서 처리된다.

하지만, H.264 표준에서는, 루마 블록 사이즈 16×16, 16×8, 8×16, 및 8×8 샘플들을 갖는 파티션들이 지원된다. 8×8 샘플들을 갖는 파티션들이 선택되는 경우, 8×8 파티션은 8×4, 4×8 또는 4×4 루마 샘플들 및 대응하는 색채(chroma) 샘플들로 더 분할된다. 여기에서, 추가의 분할 형태들을 처리하기 위한 4개의 접근법들이 제안된다. 첫 번째 접근법은 4×4 파티션에 대해 8×8 사인 제곱 윈도를 이용하는 것이다. 4×4 위의 모든 다른 파티션들에 대해서, 이 파티션들을 다수의 4×4 파티션들로 나눈다. 두 번째 접근법은 8×8 및 그 위의 파티션들에 대해 16×16 사인 제곱 윈도를 이용하지만, 8×8보다 작은 파티션들에 대해서는 건드리지 않는 것이다. 세 번째 접근법은 모든 파티션들에 대해 적응적 OBMC를 사용하는 것이다. 이러한 세 개의 접근법은 모두 OBMC만을 구현하고 디블로킹 필터는 구현하지 않으며, 네 번째 접근법은 OBMC와 디블로킹 필터(들)를 결합하는 것이다.

잔여 코딩에 대해 구현된, 종래 기술의 가버 기반의 MP 비디오 코딩 접근법의 리던던트 가버 사전 세트 외에도, 더욱 오버컴플릿한 베이스(base)의 활용을 제안한다. 낮은 비트 레이트에서, 변환 움직임 모델은 무빙 에지와 같은 관련 시각적 특성들의 자연스런 움직임을 정확하게 나타내지 못한다. 따라서, 대부분의 잔여 오류 에너지는 이 영역들에 위치한다. 따라서, 에지 검출 리던던트 사전을 이용하여 오류 화상을 나타내는 것이 중요하다. 2-D 가버 사전이 활용될 수 있는, 낮은 리던던시를 갖는 이산 웨이브렛 변환(예를 들어, 2-D DDWT(Dual-Tree Discrete Wavelet Transform)), 또는 소정의 다른 에지 검출 사전이 이용될 수 있다. 2-D DDWT는 2-D DWT보다 더 많은 서브밴드/방향들을 갖는다. 각각의 서브밴드는 하나의 방향을 나타내고, 이는 에지 검출적이다. 노이즈 정형(noise shaping) 후, 2-D DDWT는 동일하게 유지되는 계수로 표준 2-D DWT에 비해 더 높은 PSNR을 달성한다. 따라서, 2-D DDWT는 에지 정보를 코딩하는 데 더 적합하다. 예측 화상에 OBMC를 적용한 후, 오류 화상은 더 스무스한 에지를 가질 것이다. 파라메트릭(parametric) 오버컴플릿 2-D 사전은 더 스무스한 에지를 제공하기 위해 이용될 수 있다.

도 3을 참조하면, 입력 비디오 시퀀스를 인코딩하기 위한 예시적인 방법이 일반적으로 참조 번호 300으로 표시된다. 방법(300)은 제어를 판정 블록 310으로 보내는 개시 블록 305를 포함한다. 판정 블록 310은 현재 프레임이 I 프레임인지 여부를 판정한다. 현재 프레임이 I 프레임이면, 제어는 기능 블록 355로 보내진다. 그렇지 않으면, 제어는 기능 블록 315로 보내진다.

기능 블록 355는 H.264 표준 호환 프레임 코딩을 수행하여 출력 비트스트림을 제공하고, 제어를 종료 블록 370으로 보낸다.

기능 블록 315는 H.264 표준 호환 움직임 보상을 수행하고, 제어를 기능 블록 320으로 보낸다. 기능 블록 320은 움직임 벡터(MV), 제어 데이터, 및 예측 블록을 저장하고, 제어를 판정 블록 325로 보낸다. 판정 블록 325는 프레임의 엔드(end)에 도달했는지 여부를 판정한다. 프레임의 엔드에 도달했다면, 제어는 기능 블록 330으로 보내진다. 그렇지 않으면, 제어는 기능 블록 315로 되돌아간다.

기능 블록 330은 예측 화상에 대해 OBMC 및/또는 디블로킹 필터링을 수행하고, 제어를 기능 블록 335로 보낸다. 기능 블록 335는 원 화상 및 예측 화상으로부터 잔여 화상을 얻고, 제어를 기능 블록 340으로 보낸다. 기능 블록 340은 MP를 이용해서 잔여를 코딩하고, 제어를 기능 블록 345로 보낸다. 기능 블록 345는 엔트로피 코딩을 수행하여 출력 비트스트림을 제공하고, 제어를 종료 블록 370으로 보낸다.

도 4를 참조하면, 입력 비디오 시퀀스를 디코딩하기 위한 예시적인 방법이 일반적으로 참조 번호 400으로 표시된다. 방법(400)은 제어를 판정 블록 410으로 보내는 개시 블록 405를 포함한다. 판정 블록 410은 현재 프레임이 I 프레임인지 여부를 판정한다. 현재 프레임이 I 프레임이면, 제어는 기능 블록 435로 보내진다. 그렇지 않으면, 제어는 기능 블록 415로 보내진다.

기능 블록 435는 H.264 표준 호환 디코딩을 수행하여 재구성된 화상을 제공하고, 제어를 종료 블록 470으로 보낸다.

기능 블록 415는 움직임 벡터, 제어 데이터, 및 MP 원자를 디코딩하고, 제어를 기능 블록 420 및 기능 블록 425로 보낸다. 기능 블록 420은 디코딩된 원자를 이용해서 잔여 화상을 재구성하고, 제어를 기능 블록 430으로 보낸다. 기능 블록 425는, 움직임 벡터 및 다른 제어 데이터를 디코딩하고 OBMC 및/또는 디블로킹 필터링을 적용함으로써 예측 화상을 재구성하고, 제어를 기능 블록 430으로 보낸다. 기능 블록 430은 재구성된 잔여 화상과 재구성된 예측 화상을 합성하여 재구성된 화상을 제공하고, 제어를 종료 블록 470으로 보낸다.

이제, 본 발명의 다수의 부수적 장점/특징의 일부에 대해서 설명될 것이며, 이들의 일부는 상술하였다. 예를 들어, 한 장점/특징은, 다중 경로 비디오 인코딩 기법을 이용해서 비디오 신호 데이터를 인코딩하는 비디오 인코더로서, 비디오 인코더는 움직임 추정기 및 분해 모듈을 포함한다. 움직임 추정기는 비디오 신호 데이터에 대해 움직임 추정을 수행하여, 제1 인코딩 경로에서 비디오 신호 데이터에 대응하는 움직임 잔여를 얻는다. 움직임 추정기와 신호 통신하는 분해 모듈은 후속하는 인코딩 경로에서 움직임 잔여를 분해한다.

다른 장점/특징은 상술한 바와 같은 비디오 인코더로서, 여기에서 다중 경로 비디오 코딩 기법은 2중 경로 비디오 인코딩 기법이다. 비디오 인코더는, 움직임 추정기 및 분해 모듈과 신호 통신하는, 제2 인코딩 경로에서의 후속 이용을 위해 제1 인코딩 경로에서 얻어진 움직임 잔여를 저장하는 버퍼를 더 포함한다. 분해 모듈은 제2 인코딩 경로에서 리던던트 가버 사전 세트를 이용해서 움직임 잔여를 분해한다.

또 다른 장점/특징은 상술한 바와 같은 2중 경로 비디오 인코딩 기법을 이용하는 비디오 인코더로서, 여기에서 움직임 추정기는, 제1 인코딩 경로에서 국제 전기통신 연합, 전기통신부(ITU-T) H.264 표준에 따라 움직임 추정 및 코딩 모드 선택을 수행한다.

또 다른 장점/특징은 상술한 바와 같은 2중 경로 비디오 인코딩 기법을 이용하는 비디오 인코더로서, 여기에서 비디오 인코더는 예측 모듈 및 중첩 블록 움직임 보상기를 더 포함한다. 버퍼와 신호 통신하는 예측 모듈은 제1 인코딩 경로에서 비디오 신호 데이터에 대응하는 예측 화상을 형성한다. 버퍼와 신호 통신하는 중첩 블록 움직임 보상기는 16×16 사인 제곱 윈도를 이용해서 예측 화상에 대해 중첩 블록 움직임 보상(OBMC)을 수행하여, 제2 인코딩 경로에서 예측 화상을 스무스하게 한다. 버퍼는, 제2 인코딩 경로에서의 후속 이용을 위해 제1 인코딩 경로에서 예측 화상을 그 내부에 저장한다.

또한, 다른 장점/특징은 상술한 바와 같은 2중 경로 비디오 인코딩 기법을 이용하는 비디오 인코더로서, 여기에서 비디오 인코더는 예측 모듈 및 중첩 블록 움직임 보상기를 더 포함한다. 버퍼와 신호 통신하는 예측 모듈은 제1 인코딩 경로에서 비디오 신호 데이터에 대응하는 예측 화상을 형성한다. 버퍼와 신호 통신하는 중첩 블록 움직임 보상기는 제2 인코딩 경로에서 예측 화상의 8×8 및 그보다 큰 파티션에 대해서만 중첩 블록 움직임 보상(OBMC)을 수행한다. 버퍼는, 제2 인코딩 경로에서의 후속 이용을 위해 제1 인코딩 경로에서 예측 화상을 그 내부에 저장한다.

또한, 다른 장점/특징은 상술한 바와 같은 2중 경로 비디오 인코딩 기법을 이용하는 비디오 인코더로서, 여기에서 비디오 인코더는 예측 모듈 및 중첩 블록 움직임 보상기를 더 포함한다. 버퍼와 신호 통신하는 예측 모듈은 제1 인코딩 경로에서 비디오 신호 데이터에 대응하는 예측 화상을 형성한다. 버퍼와 신호 통신하는 중첩 블록 움직임 보상기는 제2 인코딩 경로에서 예측 화상의 4×4 파티션에 대해 8×8 사인 제곱 윈도를 이용해서 중첩 블록 움직임 보상(OBMC)을 수행한다. 예측 화상의 모든 파티션은 제2 인코딩 경로에서 OBMC가 수행될 때 4×4 파티션으로 분할된다. 버퍼는, 제2 인코딩 경로에서의 후속 이용을 위해 제1 인코딩 경로에서 예측 화상을 그 내부에 저장한다.

또한, 다른 장점/특징은 상술한 바와 같은 2중 경로 비디오 인코딩 기법을 이용하는 비디오 인코더로서, 여기에서 비디오 인코더는 예측 모듈 및 중첩 블록 움직임 보상기를 더 포함한다. 버퍼와 신호 통신하는 예측 모듈은 제1 인코딩 경로에서 비디오 신호 데이터에 대응하는 예측 화상을 형성한다. 버퍼와 신호 통신하는 중첩 블록 움직임 보상기는 제2 인코딩 경로에서 예측 화상의 모든 파티션에 대해 적응적 중첩 블록 움직임 보상(OBMC)을 수행한다. 버퍼는, 제2 인코딩 경로에서의 후속 이용을 위해 제1 인코딩 경로에서 예측 화상을 그 내부에 저장한다.

또한, 다른 장점/특징은 상술한 바와 같은 2중 경로 비디오 인코딩 기법을 이용하는 비디오 인코더로서, 여기에서 비디오 인코더는 예측 모듈 및 디블로킹 필터를 더 포함한다. 버퍼와 신호 통신하는 예측 모듈은 제1 인코딩 경로에서 비디오 신호 데이터에 대응하는 예측 화상을 형성한다. 버퍼와 신호 통신하는 디블로킹 필터는 제2 인코딩 경로에서 예측 화상에 대해 디블로킹 동작을 수행한다. 버퍼는, 제2 인코딩 경로에서의 후속 이용을 위해 제1 인코딩 경로에서 예측 화상을 그 내부에 저장한다.

또한, 다른 장점/특징은 상술한 바와 같은 2중 경로 비디오 인코딩 기법을 이용하는 비디오 인코더로서, 여기에서 분해 모듈은 듀얼 트리(dual-tree) 웨이브렛 변환을 수행하여 움직임 잔여를 분해한다.

또 다른 장점/특징은 상술한 바와 같은 2중 경로 비디오 인코딩 기법 및 듀얼 트리 웨이브렛 변환을 이용하는 비디오 인코더로서, 여기에서 분해 모듈은 노이즈 정형을 이용해서 듀얼 트리 웨이브렛 변환의 계수를 선택한다.

또한, 다른 장점/특징은 상술한 바와 같은 2중 경로 비디오 인코딩 기법을 이용하는 비디오 인코더로서, 여기에서 분해 모듈은 파라메트릭 오버컴플릿 2-D 사전을 적용하여 제2 인코딩 경로에서 움직임 잔여를 분해한다.

또한, 다른 장점/특징은 비디오 비트스트림을 디코딩하는 비디오 디코더로서, 여기에서 비디오 디코더는, 엔트로피 디코더, 원자 디코더, 역변환기, 움직임 보상기, 디블로킹 필터, 및 합성기를 포함한다. 엔트로피 디코더는 비디오 비트스트림을 디코딩하여 분해된 비디오 비트스트림을 얻는다. 엔트로피 디코더와 신호 통신하는 원자 디코더는 분해된 비트스트림에 대응하는 분해된 원자를 디코딩하여 디코딩된 원자를 얻는다. 원자 디코더와 신호 통신하는 역변환기는 디코딩된 원자에 역변환을 적용하여 재구성된 잔여 화상을 형성한다. 엔트로피 디코더와 신호 통신하는 움직임 보상기는 분해된 비트스트림에 대응하는 움직임 벡터를 이용해서 움직임 보상을 수행하여 재구성된 예측 화상을 형성한다. 움직임 보상기와 신호 통신하는 디블로킹 필터는, 재구성된 예측 화상에 디블로킹 필터링을 수행하여 재구성된 예측 화상을 스무스하게 한다. 역변환기 및 중첩 블록 움직임 보상기와 신호 통신하는 합성기는 재구성된 예측 화상과 잔여 화상을 합성하여 재구성된 화상을 얻는다.

본 발명의 상기 및 기타 특징 및 장점은 본 명세서의 교시에 기초해서 당업자에 의해 용이하게 확인될 수 있을 것이다. 본 발명의 교시가 다양한 형태의 하드웨어, 소프트웨어, 펌웨어, 전용 프로세서, 또는 이들의 조합으로 구현될 수 있다는 것을 이해할 것이다.

가장 바람직하게, 본 발명의 교시는 하드웨어 및 소프트웨어의 조합으로서 구현된다. 또한, 소프트웨어는 프로그램 저장부에 실재적으로 구현되는 애플리케이션 프로그램으로서 구현될 수 있다. 애플리케이션 프로그램은 임의의 적합한 구조를 갖는 머신으로 업로드되어 이 머신에 의해 실행될 수 있다. 바람직하게, 머신은, 하나 이상의 중앙 처리 장치(CPU), RAM, 및 입/출력(I/O) 인터페이스와 같은 하드웨어를 갖는 컴퓨터 플랫폼으로 구현된다. 컴퓨터 플랫폼은 또한 운영 체계 및 마이크로명령어 코드를 포함할 수 있다. 본 명세서에서 기술된 다양한 프로세스 및 기능은, CPU에 의해 실행될 수 있는, 마이크로명령어 코드의 일부 또는 애플리케이션 프로그램의 일부, 또는 이들의 임의의 조합일 수 있다. 또한, 추가의 데이터 저장부 및 인쇄부와 같은 다양한 다른 주변부가 컴퓨터 플랫폼에 연결될 수 있다.

또한, 첨부 도면에 도시된 구성 시스템 요소 및 방법들의 일부가 양호하게 소프트웨어로 구현되기 때문에, 시스템 구성 요소들 또는 프로세스 기능 블록들 간의 실제 접속은, 본 발명이 프로그램되는 방식에 따라서 달라질 수 있다. 본 명세서의 교시를 통해서, 당업자는 본 발명의 상기 및 유사 구현들 또는 구성들을 고안할 수 있을 것이다.

예시적인 실시예들이 첨부 도면을 참조해서 본 명세서에서 기술되었지만, 본 발명은 이러한 명확한 실시예들로 제한되는 것은 아니며, 본 발명의 범위 또는 사상에서 벗어나지 않으면서 다양한 변경 및 수정들이 당업자에 의해 이루어질 수 있다는 것을 이해해야 한다. 이러한 모든 변경 및 수정들은 첨부된 청구항에서 정의되는 바와 같이 본 발명의 범위 내에 포함되는 것으로 의도된다.

Claims

다중 경로 비디오 인코딩 기법을 이용해서 비디오 신호 데이터를 인코딩하기 위한 비디오 인코더로서,
제1 인코딩 경로에서 상기 비디오 신호 데이터에 대응하는 움직임 잔여(motion residual)를 얻기 위해 상기 비디오 신호 데이터에 대한 움직임 추정을 수행하는 움직임 추정기(116)와,
상기 움직임 추정기와 신호 통신하고, 후속하는 인코딩 경로에서 상기 움직임 잔여를 기저 벡터들의 선형 확장으로 분해(decompose)하는 분해 모듈(174) - 상기 후속하는 인코딩 경로는 상기 제1 인코딩 경로를 뒤따름(follow) -
을 포함하는 비디오 인코더.
다중 경로 비디오 인코딩 기법을 이용해서 비디오 신호 데이터를 인코딩하기 위한 방법으로서,
상기 비디오 신호 데이터에 대해 움직임 추정을 수행하여, 제1 인코딩 경로에서 상기 비디오 신호 데이터에 대응하는 움직임 잔여를 얻는 단계(315)와,
후속하는 인코딩 경로에서 상기 움직임 잔여를 기저 벡터들의 선형 확장으로 분해하는 단계(340) - 상기 후속하는 인코딩 경로는 상기 제1 인코딩 경로를 뒤따름 -
를 포함하는 인코딩 방법.