KR20050065582A

KR20050065582A - 자유롭고 리프팅 기반의 움직임 보상된 시간적 필터링을위한 효과적인 움직임 벡터 예측

Info

Publication number: KR20050065582A
Application number: KR1020057006015A
Authority: KR
Inventors: 데르 스차르 미하엘라 반; 디팍 투라가
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2002-10-07
Filing date: 2003-09-24
Publication date: 2005-06-29
Also published as: WO2004032519A1; JP2006502677A; EP1552703A1; US20050286632A1; AU2003263533A1

Abstract

움직임 벡터 비트들의 수를 감소시키는 비디오 코딩 방법 및 장치, 움직임 벡터들을 시간적으로 예측하고 차이들을 코딩함으로써 각각의 시간 분해 레벨에서 움직임 벡터를 상이하게 코딩하는 방법 및 장치.

Description

자유롭고 리프팅 기반의 움직임 보상된 시간적 필터링을 위한 효과적인 움직임 벡터 예측{Efficient motion－vector prediction for unconstrained and lifting－based motion compensated temporal filtering}

본 출원은 2002년 10월 7일에 제출된, U.S. 임시 출원 일련 번호 60/416,592호의 35 USC 119(e) 하에서 이익을 주장하고, 참조에 의해 여기서 통합된다.

본 발명은 일반적으로 비디오 코딩에 관한 것이고, 특히, 자유롭고 리프팅 기반의 움직임 보상된 시간적 필터링에서 차분 움직임 벡터 코딩(differential motion vector coding)을 이용하는 웨이브렛(wavelet) 기반의 코딩에 관한 것이다.

자유로운 움직임 보상된 시간적 필터링(UMCTF) 및 리프팅 기반의 움직임 보상된 시간적 필터링(MCTF)는 움직임 보상된 웨이브렛 코딩을 위하여 사용된다. 이들 MCTF 구성들(scheme)은 비디오에서의 시간적 상관을 제거하기 위하여 예를 들어, 쌍방향 필터링, 다수의 참조 프레임들 등과 같은 유사한 움직임 보상 기술들을 사용한다. UMCTF 및 리프팅 기반의 MCTF은 단일 방향 MCTF 구성들을 능가한다.

도 1은 다수의 참조 프레임들없이 단지 쌍방향 필터링만을 가진 UMCTF의 예를 도시하는 도면.

도 2는 본 발명의 원리들을 구현하기 위하여 사용될 수 있는 인코더의 실시예를 도시한 도면.

도 3은 2개의 상이한 시간적 분해 레벨들에서 3개의 움직임 벡터들을 고려하는 예시적인 GOF를 도시한 도면.

도 4는 본 발명의 방법의 톱 다운 예측 및 코딩 실시예를 도시한 흐름도.

도 5A, 5B, 6A, 6B, 및 7은 본 발명의 방법의 톱 다운 예측 및 코딩 실시예를 사용하여 2개의 차이 비디오 시퀀스들에 대한 결과들을 도시하는 도면.

도 8은 움직임 추정 동안 톱 다운 예측의 예를 도시한 도면.

도 9는 움직임 예측 동안 톱 다운 예측을 사용하여 2개의 차이 비디오 시퀀스들에 대한 결과들을 도시한 도면.

도 10은 본 발명의 방법의 보텀 업(bottom up) 예측 및 코딩 실시예를 도시한 흐름도.

도 11A, 11B, 12A, 12B, 및 13은 본 발명의 방법의 보텀 업 예측 및 코딩 실시예를 사용하여 2개의 차이 시퀀스들에 대한 결과들을 도시한 도면.

도 14는 움직임 예측 동안 톱 다운 예측을 사용하여 2개의 차이 비디오 시퀀스들에 대한 결과들을 도시한 도면.

도 15는 움직임 추정 동안 톱 다운 예측을 사용하여 프레임들의 그룹 내의 프레임에 대한 움직임 벡터 비트들을 도시한 도면.

도 16은 리프팅을 가진 쌍방향 MCTF의 2개의 레벨들을 도시한 도면.

도 17은 본 발명의 방법의 혼합된, 하이브리드 예측 및 코딩 실시예를 도시한 도면.

도 18은 본 발명의 원리들을 구현하기 위하여 사용될 수 있는 디코더의 실시예를 도시한 도면.

도 19는 본 발명의 원리들이 구현될 수 있는 시스템의 실시예를 도시한 도면.

좋은 시간적 비상관성을 제공하는 데 있어서, UMCTF 및 리프팅 기반의 MCTF는, 인코딩될 필요가 있는 부가적인 움직임 벡터(MVs)들의 전송을 요청하는 단점을 가지고 있다. 이것은 도 1에 도시되어 있고, 이것은 다수의 참조 프레임들없이 단지 쌍방향 필터링을 가진 UMCTF의 예를 도시한다. 보여질 수 있는 바와 같이, 각각의 시간적 분해 레벨들에서의 MV들(레벨 0에서 MV1과 MV2, 및 레벨 1 에서 MV3)은 독립적으로 추정되고 인코딩된다. 쌍방향 움직임 추정이 다수의 시간적 분해 레벨들에서 수행되기 때문에, 부가적인 MV들 비트들의 수는 분해 레벨들의 수와 함께 증가한다. 유사하게, 시간적 필터링 동안 사용된 참조 프레임들의 수가 클 수록, 전송될 필요가 있는 MV들의 수는 더 크다. 하이브리드 비디오 코딩 구성 또는 Haar 시간적 분해와 비교하면, MV 필드들의 수는 거의 2배이다. 이것은 저 전송 비트율들로 쌍방향 움직임 보상된 웨이브렛 코딩에 대하여 UMCTF 및 리프팅 기반의 MCTF의 효율에 부정적인 영향을 줄 수 있다.

따라서, 자유로운 또는 리프팅 기반의 MCTF 구성에서 MV들의 코딩을 위하여 쓰여지는 비트들의 수를 감소시키는 방법이 필요하다.

본 발명은 움직임 벡터 비트들의 수를 감소시키는 방식으로 비디오를 코딩하는 방법들 및 디바이스들을 지향한다. 본 발명에 따르면, 움직임 벡터들은 움직임 벡터들을 시간적으로 예측하고, 차이들의 코딩함으로써, 각각의 시간적 분해 레벨에서 차분적으로 코딩된다.

본 발명은 쌍방향 움직임 보상된 웨이브렛 코딩을 위한 자유롭고 리프팅 기반의 움직임 보상된 시간적 필터링 동안 생성된 움직임 벡터들(MVs)을 인코딩하기 위하여 필요되는 비트들의 수를 감소시키는 차분 움직임 벡터 코딩 방법이다. 본 발명은 다양한 시간적 레벨들에서 MV들을 차분적으로 인코딩한다. 이것은 어떤 종래의 코딩 구성을 사용하여 시간적으로 MV들을 예측하고 차이들을 인코딩함으로써 일반적으로 달성될 수 있다.

도 2는 번호(100)에 표기된 본 발명의 원리들을 구현하기 위하여 사용될 수 있는 인코더의 실시예를 도시한다. 인코더(100)는 하나의 유닛으로서 인코딩된, 프레임들의 그룹(GOFs)으로 입력 비디오를 분할하기 위한 파티셔닝 유닛(120)을 포함한다. 움직임 추정 유닛(132) 및 시간적 필터링 유닛(134)을 가지는 자유롭거나 또는 리프팅 기반의 MCTF 유닛(130)은 포함된다. 움직임 추정 유닛(132)은 쌍방향 움직임 추정 또는 앞으로 자세히 설명될 본 발명의 방법에 따른 각각의 GOF에서의 프레임들에 대한 추정을 수행한다. 시간적 필터링 유닛(134)는 움직임 추정 유닛(132)에 의해 제공된 움직임 벡터들(MV) 및 프레임 수들에 따른 각각의 GOF 프레임들 간의 시간적 중복들(redundancy)을 제거한다. 공간 분해 유닛(140)은 MCTF 유닛(130)에 의해 제공된 프레임들 내의 공간 중복들을 감소시키기 위하여 포함된다. 동작 동안, MCTF 유닛(130)으로부터 수신된 프레임들은 공간 분해 유닛(140)에 의해 2D 웨이브렛 변환에 따른 웨이브렛 계수들로 공간적으로 변환될 수 있다. 웨이브렛 변환의 많은 상이한 종류의 공지된 필터들 및 구현들이 있다. 중요 인코딩 유닛(150)은 웨이브렛 계수들의 크기와 같은 중요 정보에 따라, 공간 분해 유닛(140)의 출력을 인코딩하기 위하여 포함되고, 여기서, 큰 계수들이 작은 계수들보다 중요하다. 엔트로피 인코딩 유닛(160)은 출력 비트 스트림을 생성하기 위하여 포함된다. 엔트로피 인코딩 유닛(160)은 출력 비트 스트림으로 웨이브렛 계수들을 엔트로피 인코딩한다. 엔트로피 인코딩 유닛(160)은 또한 다음에 자세히 설명될 바와 같이, 본 발명의 방법에 따른 움직임 추정 유닛(130)에 의해 제공된 MV들 및 프레임 수들을 엔트로피 인코딩한다. 이 정보는 디코딩을 가능하게 하기 위하여 출력 비트스트림에 포함된다. 적당한 엔트로피 인코딩 기술의 예들은 수리 인코딩(arithmetic encoding) 및 변수 길이 인코딩을 제한없이 포함한다.

차분 움직임 벡터 인코딩 방법은 도 3의 GOF를 참조하여 기술될 것이고, 기술의 단순화를 위하여 레벨 0 및 레벨 1로 불릴 수 있는 2개의 상이한 시간적 분해 레벨들에서 3개의 움직임 벡터들을 고려한다. MV1 및 MV2는 시간적 분해 레벨 0에서 이전의 A-프레임(좌측 A-프레임) 및 이후 A-프레임(우측 A-프레임)에 연결된 H-프레임(중앙 프레임)을 연결하는 쌍방향 움직임 벡터들이다. 이 시간적 분해 레벨에서의 필터링 후에, A-프레임들은 MV3가 이들 2개의 프레임들에 연결된 움직임 벡터에 대응하는 다음 시간적 분해 레벨 즉, 레벨 1에서 필터링된다.

톱 다운 예측 및 본 발명의 방법의 코딩 실시예에 따라, 도 4에 도시된 단계들, 레벨 0에서 MV들은 레벨 1에서 예측되기 위하여 사용되고 이런식으로 계속된다. 도 3의 간소화된 예를 사용하여, 단계(200)은 MV1 및 MV2를 결정하는 단계를 포함한다. MV1 및 MV2는 움직임 추정 동안 레벨 0에서 움직임 추정 유닛(132)에 의해 기존처럼 결정될 수 있다. 움직임 추정 동안, H-프레임 내의 픽셀들의 그룹들 또는 영역들은 MV1을 얻기 위하여 이전 A-프레임 내의 유사한 픽셀들의 그룹들 및 영역들과 매칭되고, H-프레임 내의 픽셀들의 그룹들 및 영역들은 MV2를 얻기 위해 이후 A-프레임 내의 유사한 픽셀들의 그룹 또는 영역들과 매칭된다. 단계(210)에서, MV3는 MV1 및 MV2에 기초한 개선(refinement)으로서 레벨 1에 대하여 추정되거나 예측된다. MV3에 대한 추정은 레벨 0으로부터 이전 A-프레임 내의 유사한 픽셀들의 그룹들 및 영역들에 대등한 레벨 0으로부터의 이후 A-프레임 내의 픽셀들의 그룹들 및 영역들의 추정이다. MV3의 추정 및 예측은 MV1 및 MV2 간의 차이를 계산함으로써 얻어질 수 있다. 단계(220)에서, 엔트로피 엔코딩 유닛(160)(도 2)는 MV1 및 MV2를 엔트로피 인코딩한다. 본 방법은 여기서 종료될 수 있거나, 선택적으로 단계(230)에서, 엔트로피 인코딩 유닛(160)은 또한 MV3에 대하여 개선을 인코딩할 수 있다.

MV1 및 MV2는 정확할 가능성이 높기 때문에(프레임들 간의 더 작은 거리로 인하여), MV3에 대한 예측은 양호할 가능성이 높고, 따라서, 코딩 효율이 증가된다. 2개의 상이한 비디오 시퀀스들에 대한 결과들은 도 5A, 5B, 6A, 및 6B에 도시되어 있다. 2개의 시퀀스들 모두 30Hz에서 QCIF이다. 16 프레임들의 GOF 크기 , 4개의 레벨 시간적 분해, 및 16x16의 고정된 블록 크기, 및 ±64의 탐색 범위는 이들 예시들에서 사용되었다. 결과들은 순행(forward) 및 역행(backward) MV들을 개별적으로 나타내고, 결과들의 컨텐트 의존 성질을 강조하기 위하여 시퀀스에서 상이한 GOF들에 걸쳐서 도시된다. 샘플 그래프들은 또한 MV들을 코딩하기 위한 어떤 예측 및 공간 예측을 사용하지 않은 결과들을 도시한다. 코딩을 위해 필요한 결과 비트들은 표 7에 요약된다.

예측된 바와 같이, 도 5A 및 도 5B의 코스트가드 비디오 시퀀스에서 더 큰 시간적으로 상관된 움직임으로 인하여, 비트에서 더 큰 절약이 있다. 이들 결과들의 컨텐트 의존 성질을 인식하는 것은 중요하다. 예를 들어, 도 6A 및 6B의 포어맨(Foreman) 비디오 시퀀스의 끝부분에서, 움직임은 매우 작고, 공간적으로 매우잘 상관되어 있다. 이것은 MV들의 공간 예측 코딩에 의하여 매우 좋은 성능을 초래한다. 또한, GOF 5주위의 코스트가드 비디오 시퀀스에서의 갑작스런 카메라 움직임 동안, 공간적 및 시간적 움직임의 예측은 많은 이득들을 제공하지 않는다.

본 발명의 방법의 톱 다운 예측 및 코딩 실시예가 비트율 절약을 실현하기 때문에, 본 발명의 이 실시예는 또한 움직임 추정 과정 동안 이용될 수 있다. 이것의 예가 도 8에서 도시된다.

예측 후의 상이한 탐색 범위 크기들을 고려한 후에, 이것이 비트율, 품질, 및 추정의 복잡성 간의 흥미로운 트레이드오프들을 제공한다는 것이 관찰되었다. 도 9의 표는 시간 예측 위치 주위에 상이한 탐색 크기 윈도우들의 결과들을 요약한다(시간적 예측은 탐색 센터로서 사용됨).

ME(움직임 추정) 행에 대한 어떠한 추정도 도 7에서의 결과들과 대응하지 않는다. 예상된 바와 같이, 코스트가드 비디오 시퀀스에서 더 큰 시간적으로 상관된 움직임으로 인하여, MV 비트들에서 더 큰 절약이 있다. 'MV에 대한 비예측(no pred for MV)' 행을 다른 행들과 비교함으로써 볼 수 있는 바와 같이, 시간적 MV 예측은 추정 동안 MV 비트들을 더 감소시키는 데 있어서 도움을 준다. MV 비트들에서 이 감소는 질감에 대한 더 많은 비트들을 허용하고, 따라서, 움직임이 시간적으로 상관할 때, 더 높은 PSNR을 허용한다. 예측 후의 증가된 비트 범위를 가지고, 매치들(match)의 품질은 개선되어서, MV에 대한 비트들의 증가에도 불구하고, PSNR은 실질적으로 증가한다. 결과들이 움직임의 컨텐트 및 성질에 따라 GOF마다 변할 수 있다는 것이 언급되어야 한다. 일부 GOF들에 대하여, 개선들은 0.4dB 까지의 PSNR에서 관찰되거나, 12%까지의 공간 예측에 걸쳐서 MV 비트 절약이 관찰된다.

톱 다운 예측 및 코딩 실시예를 사용하는 것의 단점 중의 하나는 모든 움직임 벡터들이 시간적 재구성 전에 디코딩될 필요가 있다는 사실이다. 그래서, MV1 및 MV2는 MV3가 디코딩될 수 있기 전에 디코딩될 필요가 있고, 레벨 1은 재구성될 수 있다. 이것은 더 높은 레벨들 일부가 독립적으로 디코딩될 필요가 있는 시간적 스케일링 가능성(temporal scalability)에 대해서는 바람직하지 않다.

톱 다운 예측 및 코딩 실시예는 더 높은 시간적 레벨들에서 움직임 추정이 필터링된 프레임들 상에서 수행되는 리프팅 프레임 네트워크 내에서 MV들을 코딩하기 위하여 사용될 수 있다. 그러나, 차분 MV 코딩의 이득들은 L-프레임들을 생성하기 위하여 사용된 시간적 평균 때문에 더 작기 쉽다. 우선, 시간적 평균은 장면 내의 물체들의 매끄러움 및 번짐을 초래한다. 또한, 좋은 매치들이 발견될 수 없을 때, 어떤 바람직하지 않은 아티팩트들은 생성된다. 이 경우에, 평균 프레임들 간의 움직임 벡터들을 예측하기 위하여 필터링되지 않은 프레임들 간의 움직임 벡터들을 사용하는 것, 또는 그 반대는 허술한 예측들을 초래할 수 있다. 이것은 움직임 벡터 코딩의 감소된 효율을 야기할 수 있다.

도 10의 흐름도를 참조하여, 본 발며의 방법의 보텀 업 예측 및 코딩 실시예가 도시된다. 이 실시예에서, 레벨 1의 MV들은 레벨 0에서의 MV들을 예측하기 위하여 사용되고, 이런식으로 계속 사용된다. 도 3의 간략화된 예시를 다시 사용하여, 단계(300)는 MV3를 결정하는 단계를 포함한다. MV3는 움직임 추정 동안 레벨 1에서 움직임 추정 유닛(132)에 의해 종래의 방식으로 결정될 수 있다. 움직임 추정 동안, 레벨 0으로부터의 이후 A-프레임 내의 픽셀들의 그룹들 및 영역들은 레벨 0으로부터의 이전 A-프레임 내의 유사한 픽셀들의 그룹들 및 영역들과 매칭될 수 있다. 단계(310)에서, 레벨 0에 대한 MV1 및 MV2는 MV3에 기초하여 개선으로서 각각 추정되고 예측된다. MV1에 대한 예측은 이전 A-프레임 내의 유사한 픽셀들의 그룹들 및 영역들과 대등한 H-프레임 내의 픽셀들의 그룹들 또는 영역들의 예측이다. MV2에 대한 예측은 이전 A-프레임 내의 유사한 픽셀들의 그룹들 및 영역들과 대등한 H-프레임 내의 픽셀들의 그룹들 또는 영역들의 예측이다. MV1에 대한 예측은 MV3와 MV2 간의 차이를 계산함으로써 얻어질 수 있다. 단계(320)에서 엔트로피 인코딩 유닛(160)(도 2)은 MV3를 엔트로피 인코딩한다. 본 방법은 여기서 종료되거나 단계(330)에서, 엔트로피 인코딩 유닛(160)은 또한 MV1 및/또는 MV2에 대한 인코딩할 수 있다.

보텀 업 예측 및 코딩 실시예는 시간적 분해 구성의 상이한 레벨들에서 프로그레시브하게 사용될 수 있는 시간적으로 계층적인 움직임 벡터들을 생성한다. 그래서, MV3는 MV2 및 MV1을 디코딩해야 하는 것없이 레벨 1을 재구성하기 위하여 사용될 수 있다. 또한, MV3가 MV2 및 MV1보다 더 중요하기 때문에, 시간적으로 분해된 프레임들을 가지고서, 그것은 더 안정한 비트스트림들을 생성하기 위하여 불평등 에러 보호(UEP) 구조들과 함께 쉽게 조합될 수 있다. 이것은 특히 저 비트율 시나리오에서 이익일 수 있다. 그러나, 예측 구조는 앞서 기술된 톱 다운 실시예보다 덜 효율적이기 쉽다. 이것은 MV3가 부정확하기 쉽기 때문이고(소스와 참조 프레임 간의 더 큰 거리로 인하여), 부정확한 예측의 사용은 증가된 비트들을 초래할 수 있다. 톱 다운 실시예에서와 같이, 실험들은 동일한 해상도들 및 동일한 움직임 파라미터들에서 포어맨 및 코스트가드 비디오 시퀀스들 상에서 수행되었다. 결과들은 코딩 단독(움직임 추정 동안 예측 없음)에 대한 시간적 예측의 이득들을 도시하기 위하여 도 11A, 11B, 12A, 및 12B에서 나타내어 진다. 이것의 결과들은 도 13의 표에 요약된다.

예상되는 예측으로서, 결과들은 톱 다운 실시예에서와 같이 좋지 않고, 특히 움직임이 시간적으로 상관되지 않는 GOF들에 대한 성능에서 상당한 저하가 있다. 도 11A 및 11B로부터, 시간적 예측이 코스트가드 비디오 시퀀스의 GOF 5에 대하여 상당히 초라하게 수행된다는 것이 보여질 수 있다. 이것은 GOF 5 주위에서 갑작스런 카메라 움직임이 있고, 결과 움직임이 낮은 시간적 상관을 가지기 때문이다. 이들 결과들의 컨텐트 의존 성질 및 시간적 필터링을 사용하는 것에 대한 결정이 적응적으로 온 되거나 오프될 수 있다는 사실이 다시 강조되어야 한다.

위의 실험들 중 일부는 움직임 추정 동안 보텀 업 실시예를 사용하여 반복되고, 그 결과는 도 14의 테이블에서 요약된다. 보여질 수 있는 바와 같이, 결과들은 톱 다운 예측 실시예들에서 처럼 좋지 않다. 더 흥미롭게도, 그러나, 코스트가드 비디오 시퀀스에 대한 결과들을 보면, MV들에 대한 비트들의 수가 시간적 예측 후에, 증가된 윈도우 크기를 가지고 감소한다는 것이 보여질 수 있다. 이것은 반 직관적으로 보일 수 있지만, 그것은 다음과 같이 설명될 수 있다. 시간적 예측이 나쁠 때, 작은 탐색 윈도우는 이 더 정확한 예측을 찾는 것을 허용하는 것 대신에, 이 허술한 예측에 가깝도록 결과를 제한한다. 예측으로부터의 이 작은 거리가 현재의 레벨에서 더 적은 비트들로 귀결됨에도 불구하고, 다음(이른) 시간적 레벨에 대하여 좋은 예측을 가지지 않는 것은 성능을 현격히 저하시킨다. 이것은 실제적으로 명확하게 도 15의 표에서의 결과에 의해서 지시된다. 모든 이들 결과들은 시간적 분해의 4개의 레벨을 가진 16개의 프레임 GOF로부터 온다. MV 비트들은 5개의 프레임들, 레벨 3에서 필터링되는 프레임 8, 레벨 2에서 필터링되는 프레임 4 및 12, 레벨 1에서 필터링되는 프레임 2 및 6에 대하여 도시된다. 프레임 8의 MV들은 프레임 4 및 12의 MV들을 예측하기 위하여 사용되고, 프레임 4의 MV들은 프레임 2 및 6의 MV들을 예측하기 위하여 사용된다.

프레임 8에 대하여, 시간적 예측이 없어서, 비트들의 수는 두 경우들과 동일하다. 비트들의 수는 더 작은 윈도우 크기로 인하여, 프레임 4 및 12에 대하여 ±4 윈도우 만큼 더 작다. 그러나, 이것이 레벨 1에서 프레임들에 대한 허술한 예측으로 귀결된다는 사실은 프레임 6으로부터의 MV 비트들이 ±16 윈도우 크기만큼 더 작다는 사실에 의해 지시된다. 사실은, 레벨 2에서의 모든 절약은 레벨 1에서 완전히 무효화된다. 그러나, 움직임이 시간적으로 상관되면, 이 구성의 사용은 개선된 PSNR 뿐만아니라 비트율 절약으로 귀결될 수 있다.

결과들을 개선시키기 위한 아이디어의 흥미로운 확장은 가능하다. 예측들이 가능한 정확하기를 원해지기 때문에, 큰 윈도우 크기는 레벨 3에서 시작될 필요가 있고, 상이한 레벨들에 걸쳐서 윈도우 크기를 감소시킬 필요가 있다. 예를 들어, ±64 윈도우 크기를 사용하는 것은 레벨 3 및 레벨 2에서 사용될 수 있고 그후 레벨 1에서 ±16 윈도우 크기로 감소된다. 이것은 개선된 PSNR 따라 감소된 비트들을 초래한다.

위의 논의 모두는 움직임 추정이 모든 시간적 레벨들에서 원래의 프레임들 상에서 수행되는 UMCTF 프레임네트워크를 위한 것이다. 움직임 추정이 필터링된 L-프레임 상에서 더 높은 시간적 레벨들에서 수행되는 리프팅 기반의 구현을 위한 위의 구성들을 받아들이는 것은 어려울 것이다. 앞서 기술되었던 톱 다운 실시예는 어려움 없이 적응될 수 있을 것이고, L-프레임들이 더 낮은 시간적 레벨들에서 추정된 움직임 벡터들을 고려함으로써 계산되기 때문에, 결과들은 UMCTF보다 약간 더 좋을 것이라는 것이 예상된다. 그러나, 보텀 업 실시예에서, 어떤 어려움들은 만나질 수 있고, 특히, 캐주얼티(casualty) 문제들을 만날 수 있다.

도 16에서 도시된 바와 같이, 움직임 추정 동안, 보텀 업 예측 실시예를 수행하기 위하여, MV3는 MV1 및 MV2를 예측하기 위하여 사용될 필요가 있다. 그러나, MV3에 대한 추정이 필터링된 L-프레임 상에서 수행될 필요가 있다면, MV1 및 MV2는 이미 예측되었어야 할 필요가 있다. 이것은 그들이 L-프레임들의 생성 동안 사용되기 때문이다. 그래서, MV3는 MV1 및 MV2의 추정 동안 사용될 수 없었어야 했다. 대신에, MV3에 대한 움직임 추정은 필터링되지 않은 프레임(즉, 원래의 프래임들) 상에서 수행되고, 그후, 추정 동안 보텀 업 예측이 사용된다. 그러나, 이득들은 UMCTF보다 더 나쁘기 쉽다. 물론, 보텀 업 예측 실시예는 움직임 벡터들의 코딩 동안 사용될 수 있지만(추정 동안 예측없이), 톱 다운 실시예와 관련하여 언급한 바와 같이, 상이한 레벨들에서 움직임 벡터들 간에 어떤 미스매치들이 존재할 수 있다.

도 17의 흐름도를 참조하면, 본 발명의 방법의 혼합된, 하이브리드 예측 및 코딩 실시예가 도시된다. 이 실시예에서, 다른 레벨들로부터 MV들을 예측하기 위하여 하나의 분해 레벨로부터의 MV들을 사용하는 대신에, 상이한 레벨들로부터 MV들의 조합이 다른 MV들을 예측하기 위하여 사용된다. 예를 들어, 더 높은 레벨 MV(들) 및 현재 레벨로부터의 순방향 MV(들)이 역방향 MV(들)을 예측하기 위하여 사용될 수 있다. 도 3의 간단화된 예시를 다시 사용하면, 단계(400)는 MV1 및 MV3을 결정하는 단계를 더 포함하고, 이들 모두 움직임 추정 동안 레벨 0(MV1) 및 레벨 1(MV3)에서, 움직임 추정 유닛(132)에 의하여, 종래의 방식으로 결정될 수 있다. 단계(410)에서, 레벨 0에 대한 MV2는 MV1 및 MV3에 기초하여 개선으로서 추정되거나 예측될 수 있다. MV2의 추정은 MV1 및 MV3 간의 차이를 계산함으로써 얻어질 수 있다. 단계(420)에서, 엔트로피 인코딩 유닛(160)(도2)는 MV1 및 MV3을 엔트로피 인코딩한다. 본 방법은 여기서 종료될 수 있거나, 단계(430)에서 엔트로피 인코딩 유닛(160)은 MV2에 대한 개선으로서 또한 인코딩될 수 있다.

도 18은 번호(500)으로 표기된 본 발명의 원리들을 구현하기 위하여 사용될 수 있는 디코더의 실시예를 도시한다. 디코더(500)는 입력 비트스트림을 디코딩하기 위하여 엔트로피 디코딩 유닛(510)을 포함한다. 작동 동안, 입력 비트 스트림은 각각의 GOF에 대응하는 웨이브렛 계수들을 생성할 인코딩 측에서 수행되는 엔트로피 코딩 기술의 역으로 디코딩될 것이다. 또한 엔트로피 디코딩은 본 발명에 따라 예측된 MV들과 후에 이용될 프레임 넘버들을 포함하는 MV들을 생성한다.

중요 디코딩 유닛(significance decoding unit)(520)은 중요 정보에 따라 엔트로피 디코딩 유닛(510)으로부터의 웨이브렛 계수들을 디코딩하기 위하여 포함된다. 따라서, 동작 동안, 웨이브렛 계수들은 인코더 측에 사용된 기술의 역을 사용함으로써 올바른 공간 순서에 따라 정렬될 것이다. 더 보여질 바와 같이, 공간 재구성 유닛(530)은 또한 중요 디코딩 유닛(520)으로부터의 웨이브렛 계수들을 부분적으로 디코딩된 프레임들로 변환하기 위하여 포함된다. 작동 동안, 각각의 GOF에 대응하는 웨이브렛 계수들은 인코더측에 수행된 웨이브렛 변환의 역으로 변환될 것이다. 이것은 본 발명에 따라 움직임 보상된 시간적으로 필터링된 부분적으로 디코딩된 프레임들을 생성할 것이다.

이전에 기술된 바와 같이, 본 발명에 따른 움직임 보상된 시간적 필터링은 각각의 GOF가 다수의 H-프레임들 및 A-프레임들에 의해 나타내어 지도록 귀결된다. H-프레임은 GOF 내의 각각의 프레임과 동일 프레임 내의 다른 프레임들 간의 차이이고, A-프레임은 인코더 측에서의 시간적 필터링 및 움직임 추정에 의해 처리되지 않은 제 1 또는 최종 프레임이다. 역 시간적 필터링 유닛(540)은 인코더 측에서 수행된 시간적 필터링의 역을 수행함으로써, 엔트로피 디코딩 유닛(510)에 의해 제공된 MV들 및 프레임 넘버들에 기초하여 공간 재구성 유닛(530)으로부터 각각의 GOF에 포함된 H-프레임들을 재구성하기 위하여 포함된다.

도 19는 번호(600)으로 표기된 본 발명의 원리들이 구현될 수 있는 시스템의 실시예를 도시한다. 예시의 방식으로, 시스템(600)은 텔레비전, 셋톱작스, 데스크탑, 랩탑 또는 팜탑, 개인용 디지털 어시스턴트(PDA), 비디오 카세트 레코더(VCR), 디지털 비디오 레코더(DVR), TiVO 디바이스 등과 같은 비디오/이미지 저장 디바이스 뿐만 아니라 이들 및 다른 디바이스들의 조합들 및 부분들을 나타낼 수 있다. 시스템(600)은 하나 이상의 비디오 소스들(610), 하나 이상의 입력/출력 디바이스들(620), 프로세서(630), 메모리(640) 및 디스플레이 디바이스(650)를 포함한다.

비디오/이미지 소스(들)(610)은 예를 들어, 텔레비전 리시버, VCR 또는 다른 비디오/이미지 저장 디바이스를 나타낼 수 있다. 소스(들)(610)은 예를 들어, 인터넷, WAN(wide area netrwork), 메트로폴리탄 에리아 네트워크(metropolitan area network), LAN(local area network), 지상 방송 시스템, 케이블 네트워크, 위성 네트워크, 무선 네트워크 또는 전화 네트워크와 같은 글로벌 컴퓨터 통신 네트워크 뿐만 아니라 이들 및 다른 종류의 네트워크들의 부분들 또는 조합들 상에서 서버 또는 서버들로부터 비디오를 수신하기 위한 하나 이상의 네트워크 연결들을 대안적으로 나타낼 수 있다.

입력/출력 디바이스들(620), 프로세서(630), 및 메모리(640)은 통신 매체(650) 상에서 통신한다. 통신 매체(650)은 예를 들어 버스, 통신 네트워크, 하나 이상의 회로들의 내부 연결들, 회로 카드 또는 다른 디바이스 뿐만 아니라 이들 및 다른 통신 매체의 부분들 및 조합들을 나타낼 수 있다. 소스(들)(610)으로부터의 입력 비디오 데이터는 메모리(640) 내에 저장된 하나 이상의 소프트웨어 프로그램들에 따라 처리되고, 디스플레이 디바이스에 공급되는 출력 비디오/이미지들을 생성하기 위하여 프로세서(360)에 의하여 실행된다.

특히, 메모리(640) 내에 저장된 소프트웨어 프로그램들은 앞서 기술된 본 발명의 방법을 포함할 수 있다. 이 실시예에서, 본 발명의 방법은 시스템(600)에 의해서 실행되는 컴퓨터 판독 가능한 코드에 의해 구현될 수 있다. 코드는 메모리(640)에 저장될 수 있거나, CD-롬 또는 플로피 디스크와 같은 메모리 매체로부터 판독되거나 다운로드될 수 있다. 다른 실시예들에서, 하드웨어 회로는 본 발명을 구현하기 위한 소프트웨어 명령들의 대체 또는 조합으로 사용될 수 있다.

MCTF 프레임워크에서 시간적 분해의 다중 레벨들에 걸친 시간적 MV 예측은 UMCTF 및 리프팅 기반의 MCTF 프레임워크들 내에서 생성된 부가적인 세트의 움직임 벡터들을 효과적으로 코딩하기 위하여 필요하다. MV들은, 추정 과정은 어떤 예측도 사용하지 않는 곳에서, 추정이 또한 시간적 예측을 사용할 때, 차분적으로 코딩될 수 있다. 톱 다운 실시예가 더 효과적임에도 불구하고, 보텀 업 실시예에서처럼 시간적 스케일링 가능성을 지원하지 않는다. 움직임이 시간적으로 상관될 때, 이들 구성들의 사용은 어떤 예측도 없는 경우에 약 5-13% MV 비트들을 감소시키고, 공간 예측 상에서는 3-5%가량 감소시킨다. MV 비트들에서의 이 감소 때문에, 더 많은 비트들이 질감 코딩으로 할당될 수 있고 따라서, 결과 PSNR은 개선된다. 50Kbps에서 약 0.1-0.2dB의 PSNR 개선들은 QCIF 시퀀스에서 관찰된다. 중요하게, 결과들은 상당한 컨텐트 의존을 지시한다. 사실은, 시간적으로 상관된 움직임을 가진 GOF들에 대하여, 그러한 구성들은 MV 비트들을 현저히 감소시킬 수 있고, PSNR을 0.4dB까지 개선할 수 있다. 따라서, 본 발명의 방법은 움직임의 내용 및 성질에 기초하여 적응적으로 사용될 수 있다. 본 발명으로 달성된 개선들은 이용될 수 있는 더 큰 시간적 상관으로 인하여 다중 참조 프레임이 사용될 때, 더 중요할 수 있다. MV 예측이 움직임 추정 동안 사용될 때, 상이한 트레이드오프들은 비트율, 품질 및 움직임 추정의 복잡성 간에 만들어 질 수 있다.

본 발명이 위에서 특정 실시예들에 관하여 기술하지만, 본 발명은 거기에 한정되거나 제한되기를 의도하지 않는다는 것이 이해되어야 한다. 따라서, 본 발명은 첨부된 청구범위의 정신 및 범위 내에서 포함되는 다양한 구조들 및 수정들을 커버하는 것을 의도한다.

Claims

비디오를 인코딩하는 방법에 있어서,

상기 비디오를 프레임들의 그룹으로 분할하는 단계(120);

적어도 제 1 및 제 2 시간적 분해 레벨들을 제공하기 위하여 상기 프레임들을 시간적으로 필터링하는 단계(134);

상기 제 1 분해 레벨로부터 적어도 2개의 움직임 벡터들을 결정하는 단계(132, 200);

상기 제 1 시간적 분해 레벨로부터 상기 적어도 2개의 움직임 벡터들의 개선(refinement)으로서 상기 제 2 시간적 분해 레벨에 대한 적어도 하나의 움직임 벡터를 추정하는 단계(210); 및

상기 제 1 시간적 분해 레벨로부터 상기 적어도 2개의 움직임 벡터들을 인코딩하는 단계(220)를 포함하는, 비디오 인코딩 방법.
제 1 항에 있어서, 상기 제 2 시간적 분해 레벨의 상기 추정된 적어도 하나의 움직임 벡터를 인코딩하는 단계(230)를 더 포함하는, 비디오 인코딩 방법.
비디오를 인코딩하는 방법에 있어서,

상기 비디오를 프레임들의 그룹으로 분할하는 단계(120);

적어도 제 1 및 제 2 시간적 분해 레벨들을 제공하기 위하여 상기 프레임들을 시간적으로 필터링하는 단계(134);

상기 제 2 시간적 분해 레벨로부터 적어도 하나의 움직임 벡터를 결정하는 단계(132, 300);

상기 제 2 시간적 분해 레벨로부터 상기 적어도 하나의 움직임 벡터의 개선으로서 상기 제 1 시간적 분해 레벨에 대한 적어도 2개의 움직임 벡터들을 추정하는 단계(310); 및

상기 제 2 시간적 분해 레벨로부터 상기 적어도 하나의 움직임 벡터를 인코딩하는 단계(320)를 포함하는, 비디오 인코딩 방법.
제 3 항에 있어서, 상기 제 1 시간적 분해 레벨의 상기 추정된 적어도 2개의 움직임 벡터들을 인코딩하는 단계(330)를 더 포함하는, 비디오 인코딩 방법.
비디오를 인코딩하는 방법에 있어서,

상기 비디오를 프레임들의 그룹으로 분할하는 단계(120);

적어도 제 1 및 제 2 시간적 분해 레벨들을 제공하기 위하여 상기 프레임들을 시간적으로 필터링하는 단계(134);

상기 제 1 시간적 분해 레벨로부터 적어도 하나의 움직임 벡터를 결정하고, 상기 제 2 시간적 분해 레벨로부터 적어도 하나의 움직임 벡터를 결정하는 단계(132, 400);

상기 제 1 시간적 분해 레벨로부터의 상기 적어도 하나의 움직임 벡터 및 상기 제 2 시간적 분해 레벨로부터의 상기 적어도 하나의 움직임 벡터의 개선으로서 상기 제 1 시간적 분해 레벨의 적어도 제 2 움직임 벡터를 추정하는 단계(410); 및

상기 제 1 시간적 분해 레벨로부터의 상기 적어도 하나의 움직임 벡터 및 상기 제 2 시간적 분해 레벨로부터의 상기 적어도 하나의 움직임 벡터를 인코딩하는 단계(420)를 포함하는, 비디오 인코딩 방법.
제 5 항에 있어서, 상기 제 1 시간적 분해 레벨의 상기 추정된 적어도 제 2 움직임 벡터를 인코딩하는 단계(430)를 더 포함하는, 비디오 인코딩 방법.
비디오를 인코딩하는 장치에 있어서,

상기 비디오를 프레임들의 그룹으로 분할하는 수단(120);

적어도 제 1 및 제 2 시간적 분해 레벨들을 제공하기 위하여 상기 프레임들을 시간적으로 필터링하는 수단(134);

상기 제 1 시간적 분해 레벨로부터 적어도 2개의 움직임 벡터들을 결정하는 수단(132, 200);

상기 제 1 시간적 분해 레벨로부터 상기 적어도 2개의 움직임 벡터들의 개선으로서 상기 제 2 시간적 분해 레벨에 대한 적어도 하나의 움직임 벡터를 추정하는 수단(210); 및

상기 제 1 시간적 분해 레벨로부터 상기 적어도 2개의 움직임 벡터들을 인코딩하는 수단(220)을 포함하는, 비디오 인코딩 장치.
제 7 항에 있어서, 상기 제 2 시간적 분해 레벨의 상기 추정된 적어도 하나의 움직임 벡터를 인코딩하는 수단(230)을 더 포함하는, 비디오 인코딩 장치.
비디오를 인코딩하는 메모리 매체에 있어서,

상기 비디오를 프레임들의 그룹으로 분할하는 코드(120);

적어도 제 1 및 제 2 시간적 분해 레벨들을 제공하기 위하여 상기 프레임들을 시간적으로 필터링하는 코드(134);

상기 제 1 시간적 분해 레벨로부터 적어도 2개의 움직임 벡터들을 결정하는 코드(132, 200);

상기 제 1 시간적 분해 레벨로부터 상기 적어도 2개의 움직임 벡터들의 개선으로서 상기 제 2 시간적 분해 레벨에 대한 적어도 하나의 움직임 벡터를 추정하는 코드(210); 및

상기 제 1 시간적 분해 레벨로부터 상기 적어도 2개의 움직임 벡터들을 인코딩하는 코드(220)를 포함하는, 비디오 인코딩 메모리 매체.
제 9 항에 있어서, 상기 제 2 시간적 분해 레벨의 상기 추정된 적어도 하나의 움직임 벡터를 인코딩하는 코드(230)를 더 포함하는, 비디오 인코딩 메모리 매체.
비디오를 인코딩하는 장치에 있어서,

상기 비디오를 프레임들의 그룹으로 분할하는 수단(120);

적어도 제 1 및 제 2 시간적 분해 레벨들을 제공하기 위하여 상기 프레임들을 시간적으로 필터링하는 수단(134);

상기 제 2 시간적 분해 레벨로부터 적어도 하나의 움직임 벡터를 결정하는 수단(132, 300);

상기 제 2 시간적 분해 레벨로부터 상기 적어도 하나의 움직임 벡터의 개선으로서 상기 제 1 시간적 분해 레벨에 대한 적어도 2개의 움직임 벡터들을 추정하는 수단(310); 및

상기 제 2 시간적 분해 레벨로부터 상기 적어도 하나의 움직임 벡터를 인코딩하는 수단(320)을 포함하는, 비디오 인코딩 장치.
제 11 항에 있어서, 상기 제 1 시간적 분해 레벨의 상기 추정된 적어도 2개의 움직임 벡터들을 인코딩하는 수단(330)을 더 포함하는, 비디오 인코딩 장치.
비디오를 인코딩하는 메모리 매체에 있어서,

상기 비디오를 프레임들의 그룹으로 분할하는 코드(120);

적어도 제 1 및 제 2 시간적 분해 레벨들을 제공하기 위하여 상기 프레임들을 시간적으로 필터링하는 코드(134);

상기 제 2 시간적 분해 레벨로부터 적어도 하나의 움직임 벡터를 결정하는 코드(132, 300);

상기 제 2 시간적 분해 레벨로부터 상기 적어도 하나의 움직임 벡터의 개선으로서 상기 제 1 시간적 분해 레벨에 대한 적어도 2개의 움직임 벡터들을 추정하는 코드(310); 및

상기 제 2 시간적 분해 레벨로부터 상기 적어도 하나의 움직임 벡터를 인코딩하는 코드(320)를 포함하는, 비디오 인코딩 메모리 매체.
제 13 항에 있어서, 상기 제 2 시간적 분해 레벨의 상기 추정된 적어도 2개의 움직임 벡터들을 인코딩하는 코드(330)를 더 포함하는, 비디오 인코딩 메모리 매체.
비디오를 인코딩하는 장치에 있어서,

상기 비디오를 프레임들의 그룹으로 분할하는 수단(120);

적어도 제 1 및 제 2 시간적 분해 레벨들을 제공하기 위하여 상기 프레임들을 시간적으로 필터링하는 수단(134);

상기 제 1 시간적 분해 레벨로부터의 적어도 하나의 움직임 벡터 및 상기 제 2 시간적 분해 레벨로부터의 적어도 하나의 움직임 벡터를 결정하는 수단(132, 400);

상기 제 1 시간적 분해 레벨로부터의 상기 적어도 하나의 움직임 벡터 및 상기 제 2 시간적 분해 레벨로부터의 상기 적어도 하나의 움직임 벡터의 개선으로서 상기 제 1 시간적 분해 레벨의 적어도 제 2 움직임 벡터를 추정하는 수단(410); 및

상기 제 1 시간적 분해 레벨로부터 상기 적어도 하나의 움직임 벡터 및 상기 제 2 시간적 분해 레벨로부터 상기 적어도 하나의 움직임 벡터를 인코딩하는 수단(420)을 포함하는, 비디오 인코딩 장치.
제 15 항에 있어서, 상기 제 1 시간적 분해 레벨의 상기 추정된 적어도 제 2 움직임 벡터를 인코딩하는 수단(430)을 더 포함하는, 비디오 인코딩 장치.
비디오를 인코딩하는 메모리 매체에 있어서,

상기 비디오를 프레임들의 그룹으로 분할하는 코드(120);

상기 제 1 시간적 분해 레벨로부터 적어도 하나의 움직임 벡터를 결정하고 상기 제 2 시간적 분해 레벨로부터 적어도 하나의 움직임 벡터를 결정하는 코드(132, 400);

상기 제 1 시간적 분해 레벨로부터의 상기 적어도 하나의 움직임 벡터 및 상기 제 2 시간적 분해 레벨로부터의 상기 적어도 하나의 움직임 벡터의 개선으로서 상기 제 1 시간적 분해 레벨의 적어도 제 2 움직임 벡터를 추정하는 코드(410); 및

상기 제 1 시간적 분해 레벨로부터의 상기 적어도 하나의 움직임 벡터 및 상기 제 2 시간적 분해 레벨로부터의 상기 적어도 하나의 움직임 벡터를 인코딩하는 코드(420)를 포함하는, 비디오 인코딩 메모리 매체.
제 17 항에 있어서, 상기 제 1 시간적 분해 레벨의 상기 추정된 적어도 제 2 움직임 벡터를 인코딩하는 코드(430)를 더 포함하는, 비디오 인코딩 메모리 매체.