KR20110107827A

KR20110107827A - 차동 움직임 벡터들의 개선된 공간적인 필터링을 갖는 다중-후보 움직임 추정

Info

Publication number: KR20110107827A
Application number: KR1020117017915A
Authority: KR
Inventors: 마이클 엘. 슈미트; 비키 더블유. 창
Original assignee: 어드밴스드 마이크로 디바이시즈, 인코포레이티드
Priority date: 2008-12-31
Filing date: 2009-12-23
Publication date: 2011-10-04
Also published as: WO2010078212A1; JP2012514429A; EP2382786A1; CN102342102A; US20100166073A1

Abstract

실시예들은 비디오 이미지의 매크로블록에 대해 몇몇 후보 움직임 벡터들의 리스트를 결정하고 다중 계산 시도들(multiple computation passes)을 통해서 그들을 유지하는 병렬 처리 시스템에서 수행되는 움직임 추정 방법을 포함한다. 모든 후보 움직임 벡터들은 차동 벡터들의 최상의 조합이 후보 리스트의 상부에 올라가도록 잠재적인 인접한 예측자들(potential neighboring predictors)로서 사용된다. 차동 움직임 벡터들의 다수의 조합은, 단순히 매크로블록들의 쌍들 사이를 비교하는 프로세스 동안이 아닌, 최대 8개까지의 인접한 매크로블록들 사이에서의 움직임 벡터들을 비교하는 프로세스 동안에 고려된다. 움직임 추정 시스템은 매우 병렬 GPU 플랫폼에서와 같이 다수의 컴퓨트 엔진(compute engines)들을 이용하도록 구성된다. 이는 시도(pass)마다 하나를 제외하고 매크로블록들 사이에 어떠한 의존들도 가지지 않음으로써 달성된다. 이는 시도마다 계산들의 수가 매우 많아지게 한다.

Description

차동 움직임 벡터들의 개선된 공간적인 필터링을 갖는 다중-후보 움직임 추정{MULTIPLE-CANDIDATE MOTION ESTIMATION WITH ADVANCED SPATIAL FILTERING OF DIFFERENTIAL MOTION VECTORS}

본 출원은 발명의 명칭이 "차동 움직임 벡터들의 개선된 공간적인 필터링을 갖는 다중-후보 움직임 추정(Multiple-Candidate Motion Estimation With Advanced Spatial Filtering of Differential Motion Vectors)"이고 2008년 12월 31일 제출된 미국 출원 번호 12/347,932의 혜택을 주장한다.

개시된 실시예들은 일반적으로 비디오 압축 기술에 관한 것이며, 보다 구체적으로는 병렬 처리 시스템들을 이용하는 움직임 추정 및 보상에 대한 방법들 및 시스템들에 관한 것이다.

비디오 시스템들에 전달되는 데이터의 양을 감소시키기 위해서, 비디오 데이터는 흔히 코딩 방식을 통해 압축된다. 비디오 코덱은 디지털 비디오에 대해 비디오 압축(video compression) 및/또는 압축해제(decompression)를 할 수 있는 디바이스 또는 펌웨어/소프트웨어 프로그램이다. 움직임을 갖는 비디오의 영역들에서, 다수의 픽셀이 하나의 프레임으로부터 다음까지 변화하며, 비디오 압축 방식은 변화하고 있는 많은 픽셀과 엇비슷해지기 위해서 많은 데이터를 보내야한다. 고-주파수 세부 변화들의 극단적인 경우들에서, 비디오 품질이 감소할 수 있다. 비디오 품질을 유지하기 위해서 그렇지만 전달되는 데이터의 양을 감소시키기 위해서, 다양한 여러 가지 압축 기술들이 개발되어왔다. 예를 들어, MPEG-기반의 비디오 압축은 전형적으로 매크로블록들(macroblocks)이라고 부르는 인접한 픽셀들의 네모 형태의 그룹들에서 동작한다. 픽셀들의 이러한 블록들은 하나의 프레임으로부터 다음 프레임까지 비교되며, 비디오 압축 코덱은 이러한 블록들 내의 차동들(differences)만을 보낸다. 따라서, 어떠한 움직임(motion)도 갖지 않는 비디오의 영역들은 약간의 전달되는 데이터를 요구한다.

또한, 예측 기술들(prediction technique)이 효율적인 인코딩(encoding)을 할 수 있도록 비디오 압축 시스템들에서 사용된다. MPEG 비디오에서 사용되는 일시적인 예측 기술(temporal prediction technique)은 움직임 추정(motion estimation)을 근거로 한다. 움직임 추정은 대부분의 경우들에서, 연속적인 비디오 프레임들이 프레임들 내에서 움직이는 객체들에 의해 일어나는 변화들을 제외하면 유사하게 될 전제(premise)를 근거로 한다. 움직임 벡터는 움직임 추정 과정(motion estimation process)에서 핵심 요소(key element)이다. 움직임 벡터는 참조 픽처(reference picture)라고도 부르는 디코딩된 픽처에서의 좌표들로부터 다른 픽처에서의 좌표들까지의 옵셋을 제공하는 인터 예측(inter prediction)에 사용되는 2차원 벡터이다. 그것은 참조 픽처에서 이러한 매크로블록 (또는 비슷한 것)의 위치를 근거로 픽처에서 매크로블록을 나타내기 위해서 사용된다. 일반적으로, 움직임 추정은 대개 비디오 시퀀스에서 인접한 프레임들로부터, 하나의 2차원 이미지로부터 다른 이미지까지의 변환을 설명하는 움직임 벡터들을 결정하는 프로세스이다. 움직임 벡터들은 사각형 블록들(rectangular blocks), 임의의 형상의 패치들 또는 심지어 개별 픽셀들과 같은 전체 이미지 (글로벌 움직임 추정) 또는 특정한 부분들에 관한 것일 수 있다. 움직임 벡터들은 트랜스레이셔널 모델(translational model) 또는 실제 비디오 카메라의 움직임과 비슷할 수 있는 다른 모델들에 의해 나타낼 수 있다.

다음 이미지에 대한 변환을 합성하기 위해서 움직임 벡터들을 이미지에 적용하는 것은 움직임 보상(motion compensation)이라고 부른다. 움직임 추정과 움직임 보상의 조합은 MPEG 1, 2 및 4 표준들뿐만 아니라 많은 다른 비디오 코덱들에 의해 사용되는 비디오 압축 방법의 핵심 부분이다.

전술한 바와 같이, 비디오 코덱들의 설계는 일반적으로 비디오 프레임들의 시퀀스에서 대부분의 픽셀이 상당한 양으로 변화하지 않는 통계적인 사실을 근거로 하거나, 또는 그들이 변화할 때 그들이 공간적으로 또는 일시적으로 그들의 이웃 픽셀들과 여전히 비슷하다는 것을 근거로 한다. 움직임 벡터들의 사용은 일시적으로 유사성(temporally similarity)을 이용하며(픽셀들의 하나의 블록이 프레임으로부터 프레임까지 동일하게 남음), 그리고 차동적으로 움직임 벡터들을 인코딩하는 것은 공간적인 유사성(spatial similarity)을 이용한다(프레임에서 픽셀들의 하나의 블록이 그것의 이웃과 같은 동일한 움직임을 가짐). MPEG-2 및 H.264와 같은 코덱들은 차동 인코딩(differential encoding)을 사용함으로써 움직임 벡터들의 공간적인 유사성을 이용한다. 도 1은 공지된 방법들인, 본 발명에 따른 인접한 매크로블록들(neighboring macroblocks)에서 수행되는 공간적인 필터링의 개념을 나타낸다. 도 1에서, 각각의 블록(102)은 16x16 픽셀들의 매크로블록을 다수의 행들(rows)로 조직화한 것을 나타낸다. 처리 동안에, 인접한 블록들은 페어-와이즈(pair-wise) 방식으로 서로 비교되며, 적어도 2개의 패스(pass)들이 각각의 블록과, 그것의 인접한 블록 또는 블록들을 비교하기 위해서 요구된다. 각각의 블록은 각각 그것의 2개의 이웃과 비교된다. 따라서, 매크로블록(2)에 대해, 도 1에서 화살표에 의해 도시된 바와 같이, 제1 비교가 매크로블록(1)과 수행되며 제2 비교가 매크로블록(3)과 수행된다. 공지된 공간적인 필터링 방식들에 따라, 이미지에서 매크로블록들의 전체 세트의 처리는 오드-이븐 페어들(odd-even pairs), 그 다음에 이븐-오드 페어들(even-odd pairs)에 따라 행동한다. 따라서, 도 1의 예시 프레임 구조에 대해, 처리는 다음과 같이 픽처 프레임 블록들의 왼쪽 에지에 관하여 진행한다.

제1 패스: 1-2, 3-4, 5-6, 7-8 ... 46-47, 48-49, 50-51, 52-53 ... 91-92, 93-94, 95-96, 97-98, ...

제2 패스: 2-3, 4-5, 6-7 ... 47-48, 49-50, 51-52 ... 92-93, 94-95, 96-97 ...

움직임 검출 시스템들에서 이러한 본 발명의 공간적인 필터링 방법은 직렬로 2개 이상의 연속적인 패스들을 수행하며, 따라서 각각의 패스에 대해 여분의 처리 오버헤드를 소비한다. 비록 이러한 방법이 어느 정도의 병렬 처리를 사용할 수 있지만, 그것은 일반적으로 다중 계산 패스들을 통해서 비디오 이미지의 매크로블록에 대해 몇몇 후보 움직임 벡터들을 위한 데이터를 유지하지 않으며, 따라서 현대의 멀티프로세서 설계들을 완전히 이용하지 않는다.

따라서, 원하는 것은 높은 품질 비디오 및 낮은 비트율들에 감소된 처리 오버헤드를 제공하기 위해서 본 발명의 그래픽 처리 유닛들의 병렬 처리 성능들을 충분히 사용하는 움직임 추정 시스템이다.

실시예들은 첨부한 도면들의 그림들에서 예로서 도시되고 하지만 이에 한정되지 않는 것으로 나타내며, 동일한 참조번호들은 동일한 요소들을 나타낸다.
도 1은 공지된 기술들인 본 발명에 따른 인접한 매크로블록들에서 수행되는 공간적인 필터링 방법을 나타낸다.
도 2는 실시예에 따른, 움직임 추정 컴포넌트의 실시예들을 구현하는 인코더 파이프라인의 블록 다이어그램이다.
도 3은 실시예에 따른, 움직임 추정 프로세스가 수행되는 이미지 또는 이미지 프래그먼트에 대해 매크로블록들의 예시 세트를 나타낸다.
도 4는 실시예에 따른, 매크로블록에 대해 움직임 벡터를 결정하는 주요 단계들을 나타내는 플로우차트이다.
도 5는 실시예에 따른, 각각의 매크로블록에 대해 후보 움직임 벡터들을 계산하는 방법을 나타낸다.
도 6은 실시예에 따른, 매크로블록에 대해 최상의 움직임 벡터를 결정하기 위해서 후보 움직임 벡터들을 비교하는 방법을 나타내는 플로우차트이다.
도 7은 실시예에 따른, 움직임 벡터들 사이에 차동들을 미세 조정하는(fine tuning) 방법을 나타내는 플로우차트이다.

본 명세서에 개시된 바와 같이 본 발명의 실시예들은 전술한 바와 같은 통상적인 방법들의 문제점들에 대한 해결책을 제공한다. 이후의 개시에서, 다양한 예시들이 도면으로 주어지며, 하지만 조금도 제한되기 위해 의도되지 않는다. 실시예들은 소프트웨어 또는 하드웨어 인코더 파이프라인에 통합되고, 인코더가 낮은 비트율 (높은 보상 비율)로 비디오 품질의 동일한 또는 유사한 상대적인 레벨을 유지하게 하는 움직임 추정 컴포넌트(motion estimation component)를 포함한다. 움직임 추정 컴포넌트는 가장 낮은 비트율을 획득하며, 본 발명의 공지된 인코더들에서 사용되는 다른 방법들보다 적은 계산들을 수행한다.

MPEG-기반의 비디오 압축 시스템들에서, 프레임에서 최소 독립적으로 인코딩된 직사각형은 매크로블록(macroblock)이라 부르고, 16x16 픽셀들의 크기를 가지며, 각각의 프레임은 초당 1/30의 주기성(periodicity)을 가진다. 일부 시스템들은 버려지는 어떠한 활동(activity)이 없거나 약간의 활동을 포괄하는 활동의 레벨을 결정하기 위해서 16x16 픽셀들의 전체 프레임을 통계학적으로 분석함으로써 압축을 수행한다 (이것은 공간적인 활동에서만 사실이다). 일반적으로 표준 압축 시스템들은 상대적으로 작은 활동을 나타내는 픽셀들을 버린다. 전체 움직임 비디오에 대해서, 이러한 형식의 분석은 압축된 이미지가 원래의 압축되지 않은 버전과 동일하게 나타나도록 개념적으로 대수롭지 않은 정보가 버려지며 인간의 지각이 손실 데이터(missing data)를 채우기 위해 의존하는 압축을 수행하기에 일반적으로 적합하다. 일반적으로, 모든 코덱은 비디오 시퀀스 내에서 프레임들의 주어진 세트에 대해 품질의 변화하는 정도를 제공할 수 있다. 전형적으로, 품질(quality)은 퍼-프레임 기반(per-frame basis)에서 비트율 및 품질을 세트하는 비트율 제어 메커니즘(bitiate control mechanism) (비트율 할당(bitrate allocation))을 통해 제어된다.

일반적인 설계 목표는 디지털 비디오 데이터를 인코드할 수 있는 가장 낮은 비트율을 이용하게 하는 것이다. 비디오 압축을 위한 H.264 표준은 설계의 복잡성을 지나치게 증가시킴 없이, 이전 표준들보다 실질적으로 낮은 비트율들(예를 들어, MPEG-2, H.263, 또는 MPEG-4 파트 2의 비트율의 절반 또는 그 이하)로 우수한 비디오 품질을 제공하기 위해서 개발되었다. H.264 (또한, MPEG-4 파트 10 또는 MPEG-4 AVC로 알려짐) 사양은 비디오 압축을 위한 표준이 되었고, 그것이 이전 표준들보다 더 효율적으로 비디오를 압축하게 하고 애플리케이션에 대해 더 많은 유연성을 폭넓은 다양한 네트워크 환경들에 제공하게 하는 다수의 특징을 포함한다. 이러한 특징들은 움직이는 영역들의 정확한 세크멘테이션 및 능력이 매크로블록 당 다중 움직임 벡터들을 이용할 수 있게 하는, 16x16의 크기 및 4x4의 크기의 블록 크기들을 갖는 가변적인 블록-크기 움직임 보상 (움직임 추정)을 포함한다.

이러한 설명을 위해서, "H.264"는 또한 MPEG-4 파트(Part) 10 또는 MPEG-4 AVC(Advanced Video Coding)로 알려진 비디오 압축에 대한 표준을 참조한다. H.264는 ISO/IEC 동영상 전문가 그룹(ISO/IEC Moving Picture Experts Group (MPEG))과 함께 ITU-T 비디오 코딩 전문가 그룹(ITU-T Video Coding Experts Group (VCEG))에 의해 개발된 블록-오리엔티드 움직임-추정-기반 코덱들(block-oriented motion-estimation-based codecs) 중 하나이다.

H.264 코덱들과 같은 많은 현재의 비디오 코덱들은 이미지에서 인접한 매크로블록들 사이의 일시적이고 공간적인 유사성을 이용하기 위해서 차동 인코딩(differential encoding)의 형식을 사용한다. 인코딩 시스템의 실시예들은 도 1에서 도시된 바와 같이, 인접한 매크로블록들에서 수행되는 본 발명의 공간적인 필터링 기술들을 능가하는 개선을 제공한다. 도 2는 실시예에 따른, 움직임 추정 컴포넌트의 실시예들을 구현하는 인코더 파이프라인(encoder pipeline)의 블록 다이어그램이다. 움직임 추정 컴포넌트는 매우 병렬적인 컴퓨팅 환경에서 다중 처리 엔진들의 사용을 통해서 다중 이웃 매크로블록들에 대해 반복하는 비교 및 스코어링 단계들을 수행함으로써, 각각의 매크로블록에 대해 최상의 움직임 벡터(best motion vector)를 찾음으로써 비디오 품질을 최대화하도록 구성된다.

도 2의 시스템(200)은 입력 비디오 프레임들(202)을 수신하고 인코딩된 비디오 비트스트림(216)을 생산하는 인코더 파이프라인의 실시예이다. 입력 비디오 프레임들(202)은 움직임 추정 컴포넌트(motion estimation component)(204) 및 인트라-예측 유닛(intra-prediction unit)(206)에 입력된다. 그 다음에 이러한 컴포넌트들의 출력이 포워드 이산 코사인 변환(forward discrete cosine transform : fDCT) 모듈과 같은 변환 프로세스(transform process)(T) 및 양자화 프로세스(quantization process)(Q)를 통해서 원래의 입력 비디오 프레임들과 결합된다. 그 다음에 양자화된 데이터는 인버스 양자화 프로세스(inverse quantization process)(Q^-1) 및 iDCT와 같은 인버스 변환 프로세스(inverse transform process)(T^-1)를 통해서 처리된다. 인버스 변환된 데이터는 그 후 인트라-예측 유닛(206)의 움직임 추정 출력과 결합되고 선택적인 인-루프 디블록킹 필터(optional in-loop deblocking filter)(210)에 제공되어 참조 프레임들(reference frames)(208)을 생성하게 된다. 비트율 제어 유닛(bitrate control unit)(212)은 양자화(Q) 과정에서의 제어를 제공하며, 또한 출력 비트스트림(216)을 생산하는 손실없는 엔트로피 디코드 모듈(lossless entropy decode module)(214)로부터 입력을 받아들인다. 비트율 제어 유닛(212)은 소스(source)로부터 압축되지 않은 비디오 데이터(202)를 수신하고, 표준 H.264 인코딩과 같은 인코딩 방법에 따라 압축된 비디오 신호(216)를 생산한다. 비율 컨트롤러 컴포넌트(rate controller component)는 동적으로 비트율 파라미터에 의해 지정되는 목표 비트율을 달성하도록 인코더 파라미터들을 조정한다. 비율 컨트롤러는 각각의 영역, 개별 피처(individual picture), 그룹 피처들, 및/또는 비디오 시퀀스에서 서브-픽처에 한 묶음의 비트들을 할당한다.

하나의 실시예에서, 움직임 추정 컴포넌트(204)는 다수의 처리 단계 또는 패스 이내의 인접한 계산들 사이에 임의의 의존들을 요구하지 않는 방식으로 제안되는 인접한 움직임 벡터들의 필터링 및 분석을 수행하는 방법을 구현한다. 이는 매크로블록 당 분리된 컴퓨팅 엔진들의 사용을 촉진한다. 이러한 컴퓨팅 엔진들은 그래픽 처리 유닛(graphics processing unit : GPU)에서 개별 쉐이더 프로세서(individual shader processor)이거나 또는 움직임 추정에 대한 전용 하드웨어 회로일 수 있다. 따라서, 도 2의 시스템은 다중 중앙 처리 유닛(central processing unit : CPU) 코어들, 다중 GPU 코어들, 또는 하이브리드 멀티-코어 CPU/GPU 시스템을 포함하는 시스템과 같은 병렬 프로세서 컴퓨팅 환경에서 구현될 수 있다. 또한, 움직임 추정 컴포넌트의 실시예들이 GPU 쉐이더 시스템에서 사용될 수 있다. 일반적으로, 쉐이더는 렌더링 효과들(rendering effects)을 수행하기 위해 주로 그래픽 리소스들에 의해 사용되는 소프트웨어 명령어들의 세트이다. 쉐이더들은 스크린의 영역에서 각각의 픽셀에 대해 또는 모델의 모든 정점(vertex)에 대해 한번에 큰 세트의 소자들에 변환들을 적용하기 위해 쓴다. 따라서, 쉐이더들은 특히 본 발명의 멀티-코어 GPU 시스템들에서와 같이 병렬 처리에 적합하다.

컴포넌트(204)에 의해 수행되는 움직임 추정 방법은 몇몇 후보 움직임 벡터들의 리스트를 결정하고 다중 계산 패스들을 통해서 그들을 계속 유지한다. 이러한 방법은 초기 패스에서 단일 최상의 비용 점수가 그것의 매크로블록에 대한 결과들을 조기에(prematurely) 지배하는 것을 방지한다. 모든 후보 움직임 벡터들은 차동 벡터들(differential vectors)의 최상의 조합이 후보 리스트의 상부에 오르도록 잠재적인 인접한 예측기들(potential neighboring predictors)로 사용된다. 차동 움직임 벡터들의 다수의 조합이 두 매크로블록들 사이에 대조적으로, 8개까지의 인접한 매크로블록들 중에서 움직임 벡터들을 비교하는 프로세스 동안에 고려된다. 움직임 추정 시스템은 매우 병렬적인 GPU 플랫폼에서와 같이 다수의 컴퓨트 엔진들을 사용하도록 구성된다. 이는 패스당 하나를 제외하고 매크로블록들 사이에 어떠한 의존들도 가지지 않음으로써 달성된다. 이는 패스 당 계산들의 수가 매우 커지게 한다.

하나의 실시예에서, 다중 병렬 프로세서들을 이용하는 멀티-패스 프로세스는 최상의 움직임 벡터를 결정하기 위해서 매크로블록들의 세트에서 실행된다. 도 1에 도시된 바와 같이 매크로블록들의 개별 페어들을 비교하는 대신에, 본 방법은 차동들을 (8개까지의 이웃들과 같은 그러한) 단일 매크로블록의 다수의 가능한 가까운 이웃들과 비교한다. 도 3은 실시예에 따른, 움직임 추정 프로세스가 수행되는 이미지 또는 이미지 프래그먼트(image fragment)에 대한 매크로블록들의 예시 세트를 나타낸다. 도 3의 이미지 프래그먼트는 16x16 블록들 또는 그보다 작을 수 있는 다수의 매크로블록들을 포함한다. 도 3의 비디오 이미지 패턴에 대해서, 대부분의 매크로블록들은 8개까지 이웃들을 가진다. 따라서, 예시 매크로블록(47)에 대해서, 차동 비교들은 도 3의 화살표들에 의해 도시된 바와 같이, 8개의 이웃들(1, 2, 3, 46, 48, 91, 92 및 93)에 대해 수행된다.

도 4는 실시예에 따른, 매크로블록에 대해 움직임 벡터를 결정하는 주요 단계들을 나타내는 플로우차트이다. 하나의 실시예에서, 프로세스는 3개의 패스들에서 진행되며, 제1 패스는 일반적으로 비디오 이미지의 다수의 매크로블록들의 각각의 매크로블록에 대한 후보 움직임 벡터들을 결정하고 분류한다(블록 402). 제2 패스는 최상의 움직임 벡터가 결정될 때까지 각각의 후보 움직임 벡터와 인접한 후보 움직임 벡터들을 비교하고, 반복하는 스코어링 프로세스(scoring process)를 수행한다(블록 404). 제3 패스는 매크로블록 움직임 벡터들 사이에 임의의 차동들을 미세 조정하기 위해서 공간적인 필터링 단계를 수행하는 것을 포함하는 선택적인 단계이다(블록 406). 각각의 패스들에 대한 상세한 처리 단계들이 이후의 플로우차트들에서 설명된다.

도 5는 실시예에 따른, 각각의 매크로블록에 대해 후보 움직임 벡터들을 계산하는 방법을 나타낸다. 블록(502)에서, 각각의 매크로블록에 대한 하나 이상의 후보 움직임 벡터들(candidate motion vectors : CMVs)이 계산된다. 후보 움직임 벡터들은 일부 공지된 통상적인 방법들 중 하나를 이용하여 계산될 수 있다. 비록 임의의 유사한 메트릭이 사용될 수 있더라도, 이러한 프로세스의 예시가 4개의 후보 및 최소한의 절대 차이들의 합(sum of absolute differences : SAD)을 이용하여 제공될 것이다.

움직임 추정 프로세스에서 블록-매칭(block-matching)에 대한 SAD 메트릭은 원래의 블록(original block)에서 각각의 픽셀과 비교에 이용되는 블록에서 대응하는 픽셀 사이에 차이의 절대값을 취함으로써 동작한다. 이러한 차이들은 차 영상(difference image)의 L ¹ 놈(norm)인 블록 유사성(block similarity)의 단일 메트릭(simple metric)을 생성하기 위해서 합산된다. 대안적인 실시예들에서, 절대 차이들의 제곱의 합(sum of the square of absolute differences : SSAD)과 같은 다른 메트릭들이 사용될 수 있다. 또 다른 가능한 메트릭은 원래의 블록에서의 픽셀들과 비교에 사용되는 블록에서 대응하는 픽셀들 사이에 차이들의 주파수 변환, 일반적으로 하다마드 변환(Hadamard transform : SAHD)을 취함으로써 동작하는 절대 변환된 차이들의 합(sum of absolute transformed differences : SATD)이다. 변환 그 자체는 전체 매크로블록보다는 종종 작은 블록의 변환이다. 예를 들어, 전체 16x16이 변환되기보다는 일련의 4x4 블록들이 변환될 수 있다. 일반적으로, SATD는 그것의 증가된 복잡성으로 인해 SAD보다 느리지만, 객관적이고 주관적인 메트릭들의 관점으로부터 더욱 정확하게 품질을 예측할 수 있게 하는 이점을 가진다.

하나의 실시예에서, 계층적인 검색 방법(hierarchical searching method)이 각각의 매크로블록에 대한 CMV들을 계산하기 위해서 사용된다. 박스 영역이 블록 주변에 정의되고, 그 다음에 다중 영역들로 나뉜다. 그 다음에 프로세스는 마치 그것이 관심 영역에 있는 것처럼 각각의 영역을 검색한다. 하나의 예시에서, 4개의 영역들이 정의되고, 4개의 CMV 값들이 결정된다. 이러한 값들은 CMV₁, CMV₂, CMV₃, 및 CMV₄로 표시된다. 이 방법에서, 영역은 각각의 치수의 1/2과 같은 정의된 비율로 다운샘플된다. 따라서, 영역의 크기가 100x100인 경우, 다운샘플링 연산이 100x100의 영역 내의 16x16 블록의 검색 대신에, 25x25의 영역 내의 4x4 블록의 검색을 산출한다.

각각의 매크로블록은 CMV₁ _-4와 같은 CMVs의 리스트를 가질 것이다. 그 다음에 각각의 매크로블록에 대한 후보 움직임 벡터들의 리스트가 비용 단위로 분류된다(블록 504). 일반적으로 최소 비용이 최상의 후보(best candidate)를 산출한다. 하나의 실시예에서, 비용은 다음의 방정식에 의해 계산된다:

비용 = SAD + λ(dMV)

상기 방정식에서, dMV는 예측된 움직임 벡터(predicted motion vector)로부터 차동을 갖는, 차동 움직임 벡터(differential motion vector)이다. 예측된 움직임 벡터는 0, 0 또는 어떤 다른 움직임 벡터일 수 있다. 람다(λ) 팩터는 시스템의 요구 사항들에 따라 선택될 수 있는 값인 정규화 팩터(normalization factor)이다.

도 5의 블록(506)에 도시된 바와 같이, 가장 낮은 비용 (최상의) 후보가 다음 패스를 위한 예측기(predictor)로 사용된다. 즉, 가장 낮은 비용 CMV 후보가 비용 방정식에서 dMV 값을 대체한다. 비-선택된 후보들이 이후의 사용을 위해 계속 유지되고(블록 508), 프로세스의 제1 패스의 출력은 SAD들 및 비용을 갖는 분류된 리스트이다(블록 510).

도 6은 실시예에 따른, 매크로블록에 대해 최상의 움직임 벡터를 결정하기 위해서 후보 움직임 벡터들을 비교하는 방법을 나타내는 플로우차트이다. 블록(602)에 도시된 바와 같이, 프로세스는 예를 들어, 단일 매크로블록 번호(47)가 각각 그것의 8개의 이웃들(1, 2, 3, 46, 48, 91, 92 및 93)과 비교되는 도 3에 도시된 바와 같이, 각각 그것의 8개의 이웃을 가지는 각각의 후보 움직임 벡터의 비교를 수행함으로써 시작한다. 에지들 주위에 일부 매크로블록들은 적은 이웃들을 가질 수 있으며, 따라서 이러한 매크로블록들에 대한 비교 단계는 8개 미만의 매크로블록들을 포함할 수 있다. 비교 단계는 각각의 이웃 매크로블록의 분류된 리스트에서 후보 움직임 벡터들의 전체 리스트를 검사하고, (예를 들어, 앞선 비용 방정식을 이용함으로써) 그것의 비용을 계산한다. 패스 1 프로세스에서 최상의 CMV는 이와 같이 이러한 과정, 비용 = SAD + λ(CMV_best)으로 비용 방정식에서 차동 움직임 벡터에 대한 참조로 대신하게 된다. 제2 패스의 비교 단계는 본질적으로 CMV들 사이에 유사성의 정도(degree)를 결정한다. CMV 값들이 동일하면, 그 다음에 어떠한 비트들도 비교되는 매크로블록들 사이에 변화되지 않는다. 후보 움직임 벡터들은 하나의 블록으로부터 각각 8개의 주위 블록들까지 가능한 차동들인 차동 움직임 벡터들(dMV)의 그룹으로부터 선택된다.

블록(604)에서, 각각의 이웃의 리스트에서 단일 최소(single least) CMV에 대한 점수가 증가된다. 간단한 구현에서, 각각의 이웃의 리스트에서 단일 최소 비용 CMV는 그것의 점수에 추가되는 하나의 스코어링 값(scoring value)을 획득한다. 바꾸어 말하면, 단일 매크로블록에 대한 계산들은 각각 그것의 8개의 이웃에서 하나의 CMV에 추가되는 하나의 스코어링 포인트를 초래한다. 대안적으로, 가중된 점수들은 각각의 리스트에서 다중 CMVs들에 추가된다.

하나의 실시예에서, 블록(604)에 대해서, 플래그(flag)가 세트될 수 있으며 (또는, 일부 공용 가능한 글로벌 카운터가 증가될 수 있으며), 이에 따라 가장 높은 점수를 갖는 CMV가 변화들의 총계를 변화시키는 각각의 시간이 패스 당 변화들의 수가 낮을 때의 표시를 제공하기 위해서 축적될 수 있으며, 이에 따라 과도한 패스들이 사용되지 않는다. 대안적으로, 패스들의 일부 고정된 수가 테스팅, 이용 가능한 시간, 품질 세팅들 등등을 근거로 사용될 수 있다.

모든 스코어링이 완료된 이후에, 각각의 매크로블록에 대한 CMV들의 리스트는 가장 높은 점수가 리스트의 상부에 위치되게 분류된다(블록 606). 가장 높은 점수는 가장 최소 비용과는 다른 것임에 주목해야 한다. 일반적으로, 분류 단계는 일부 매크로블록들에 대해 "최상의(best)" 움직임 벡터를 변화시킬 수 있다. 최상이 스코어링 계산에 사용될 수 있기 때문에, 일부 새로운 최상의 CMV들이 있을 수 있다. 블록(608)에서, 최적의 결과(optimum result)에 도달되는지 여부를 결정한다. 하나의 실시예에서, 이것은 추가 반복들이 중요한 개선을 추가하지 않는 상대적인 평형점(relative equilibrium point)을 정의한다. 증분 개선 값(incremental improvement value)이 이러한 최적의 결과를 결정하기 위해서 정의될 수 있다. 최적의 결과에 도달되지 않으면, 프로세스는 상대적인 평형이 최적의 결과에 또는 최적의 결과에 근접할 때까지 블록(602)으로부터 반복한다. 그 다음에 가장 높은 점수를 가지며 분류된 CMV가 각각의 매크로블록에 대해 최종 결과로서 생기는 움직임 벡터로 세트된다 (블록 610).

도 7은 실시예에 따른, 움직임 벡터들 사이에 차동들을 미세 조정하는 방법을 나타내는 플로우차트이다. 블록(702)에 도시된 바와 같이, 최상의 움직임 벡터는 후보 움직임 벡터들의 리스트로부터 결정된다. 이러한 최상의 움직임 벡터는 모든 이웃들이 공간적으로 유사한 점에서, 유익할 것으로 여겨지는 움직임 벡터를 나타낸다. 블록(704)에서, 프로세스는 벡터들 사이에 차동들을 미세하게 조정하는 공간적인 필터링 단계(spatial filtering step : SFODMV)를 수행한다. 이것은 계수 비트들(coefficient bits)에서 일부 작은 증가에 0으로 감소될 수 있는 마이너 차동들(minor differentials)을 조정하는데 도움을 준다. 이러한 단계는 시스템의 품질 및 성능 세팅들에 따라 선택적으로 고려될 수 있고, 일부 경우들에서 이러한 미세 조정이 불필요하다.

일반적으로, 도 5 내지 7에 도시된 비디오 이미지의 각각의 매크로블록에 대한 최상의 움직임 벡터를 계산하기 위한 전체 움직임 추정 프로세스는 통상적인 방법들보다 낮은 비트율들로 보다 나은 비디오 이미지를 생산한다. 방법은 몇몇 후보 움직임 벡터들의 리스트를 포함하고, 다중 계산 패스들을 통해서 그들을 계속 유지하며, 이것은 초기 패스에서 단일 최상의 SAD 점수가 그것의 매크로블록에 대한 결과들을 조기에 지배하는 것을 방지한다. 추가로, 모든 후보 움직임 벡터들은 차동 벡터들의 최상의 조합이 리스트의 상부에 오르도록 잠재적인 인접한 예측기들로 사용된다. 더욱이, 매크로블록들의 개별 페어들만을 비교하는 대신에, 차동 움직임 벡터들의 다수의 조합이 시도되며, 프로세스는 차동들과 모든 8개의 가능한 인접한 이웃들을 비교한다.

실시예에서, 비록 특정한 코덱이 예측기로서 이러한 이웃을 지원할 수 없을지라도 모든 가능한 이웃들이 검사된다. 이것은 인버스 예측기(inverse predictor)가 유효할지도 모르고 예측기의 방향이 전체 이미지에 대해 평균으로 가장 작은 dMV를 결정하기 위해 노력하는 매우 작은 차이를 만들기 때문에 행해진다.

하나의 실시예에서, 방법은 매우 병렬적인 GPU 플랫폼과 같은 다수의 컴퓨트 엔진들을 이용하는 컴퓨팅 플랫폼에서 구현된다. 이것은 방법이 적당량의 시간에서, 요구되는 상대적으로 큰 수의 계산들을 수행할 수 있게 한다. 이것은 일반적으로 패스당 하나를 제외하고 매크로블록들 사이에 어떠한 의존들도 가지지 않음으로써 달성된다. 패스당 계산들의 수는 클 수 있지만, 매크로블록들 사이에 어떠한 의존들(dependencies)도 없다.

사용되는 프로세서들의 수는 시스템의 제약조건들 및 비디오 스트림 압축 애플리케이션의 요구사항들에 의존한다. 예를 들어, 전형적인 경우에, 한번에 약 5000개의 쓰레드(thread)들이 10,000개의 매크로블록들을 처리하기 위해 사용될 수 있다. 이것은 160개의 개별 프로세서들을 가지고 방정식 160(4(N))을 통해서 결정되는 시스템에 의해 제공될 수 있으며, 여기서 4는 하나의 그룹에서 하나의 프로세서 상에서 동시에 처리되는 쓰레드들의 수를 나타내고, N(=2, 4, 또는 8)은 메모리 지연(memory latency)을 극복하기 위해서 동시에 스케줄될 수 있는 그룹들의 수를 나타낸다.

설명된 움직임 추정 과정에서, 제안되는 인접한 움직임 벡터들의 필터링 및 분석은 비록 "최상의(best)" 제안된 벡터들이 동일하지 않더라도, 2개의 벡터를 동일하게 만들도록 시도한다. 이것은 일부 경우들에서 벡터들을 동일하게 만듦으로써 저장되는 비트들이 압축하기 위해서 약간 큰 잔류 데이터(residual data)를 가짐으로써 손실되는 비트들보다 많을 수 있기 때문에, 비디오 품질 및/또는 낮은 비트율을 개선하는 것을 돕는다. 필터링의 이러한 형식이 GPU 처리에 매우 적당하게 되며, 여기서 모든 블록들은 CPU 상에서 행해지는 순차적인 블록 처리보다는 오히려 컴퓨팅의 GPU 쉐이더 모델에서 병렬적으로 고려되고 비교된다. 그러나, 개념은 CPU들, GPU들 및 전용 하드웨어 인코더들에 적용할 수 있다. 사용되는 특정한 필터링이 사용되고 있는 실제 코덱을 근거로 선택될 수 있다.

일반적으로, 본 명세서에 개시된 실시예들은 비디오 인코더에서 움직임 추정을 수행하는 방법을 총괄하며, 방법은 후보 움직임 벡터들의 리스트를 형성하기 위해서 비디오 이미지의 각각의 매크로블록에 대해 하나 이상의 후보 움직임 벡터들을 계산하는 단계와, 각각의 후보 움직임 벡터에 대해 비용을 계산하는 단계와, 가장 낮은 비용으로부터 가장 높은 비용까지 비용 단위로 후보 움직임 벡터들의 리스트를 분류하는 단계와, 비용 계산을 근거로 가장 낮은 비용 후보 움직임 벡터를 이용하여 제1 매크로블록들의 계산된 후보 움직임 벡터들과 복수의 이웃 매크로블록들의 계산된 후보 움직임 벡터들을 비교하는 단계와, 증가된 기초 점수를 수신하는 각각의 매크로블록에 대해 가장 낮은 비용 후보 움직임 벡터를 갖는 각각의 매크로블록에 대한 각각의 후보 움직임 벡터에 기초 점수(base score)를 할당하는 단계와, 그리고 이웃 매크로블록에서 후보 움직임 벡터와의 그것의 유사성에 따라 포인트만큼 각각의 후보 움직임 벡터의 기초 점수 또는 증가된 기초 점수를 증가시키는 단계를 포함한다. 반복하는 과정을 통해서, 방법은 후보 움직임 벡터들의 새로운 리스트를 생성하기 위해서 가장 낮은 점수로부터 가장 높은 점수까지의 점수를 근거로 후보 움직임 벡터들의 리스트를 재분류하고, 후보 움직임 벡터들의 새로운 리스트의 각각의 후보 움직임 벡터와 복수의 이웃 매크로블록들의 계산된 후보 움직임 벡터들을 재비교하고, 가장 높은 스코어링 후보 움직임 벡터를 결정하기 위해서 후보 움직임 벡터들을 재스코어링(re-scoring)하며, 이러한 단계들을 가장 높은 스코어링 후보 벡터의 다수의 변화들이 정의된 최소 임계 아래일 때까지 반복한다. 방법은 또한 매크로블록들에 대해 움직임 벡터들 사이의 마이너 차동들을 조정하기 위해서 각각의 매크로블록에 대해 움직임 벡터에서 공간적인 필터링 단계를 수행할 수 있다. 방법은 멀티-프로세서 시스템의 전용 처리 엔진이 각각의 매크로블록에 대해 하나 이상의 후보 움직임 벡터들을 계산하는 단계를 수행하는 멀티-프로세서 컴퓨팅 환경에서 실행될 수 있다.

본 명세서에 개시된 움직임 추정 프로세스의 실시예들은 인트라-예측 블록(206) 및 관련된 회로가 포함되는 도 2의 회로에서와 같이 표준 예측 MPEG 방식들에 적용될 수 있다. 비디오 스트림을 처리하는 것에서, MPEG 인코더는 3가지 형식의 코딩된 프레임들을 생산한다. 제1 형식의 프레임은 소위 "I" 프레임 또는 인트라-코딩된 프레임이라고 부른다. 이것은 가장 간단한 형식의 프레임이고, 스틸 이미지의 코딩된 표시이다. 일반적으로, 어떠한 움직임 추정 처리도 I-프레임들에서 수행되지 않으며, 이들의 목적은 프레임들의 다음 세트를 디코딩하기 위한 시작 지점을 디코더에 제공하기 위한 것이다. 다음 형식의 프레임은 "P" 프레임 또는 예측된 프레임이라고 부른다. 디코딩에 따라, P-프레임은 이전 P-프레임들 또는 I-프레임들 내에 포함되는 정보로부터 생성된다. 제3 형식의 프레임 및 가장 일반적인 형식은 "B" 프레임 또는 양방향 프레임(bi-directional frame)이다. B-프레임들은 전방 및 후방으로 예측되고, 가장 최근 및 다음 P 또는 I-프레임으로부터 구성된다. P-프레임들 및 B-프레임들 모두는 인터-코딩된 프레임들(inter-coded frames)이다. 코덱 인코더는 이후의 시퀀스: IBBP...로서 스트림을 인코딩할 수 있다. 디지털 디비오 전송에서, B-프레임들은 종종 사용되지 않는다. 이 경우에, 시퀀스는 다수의 P-프레임들에 이어서 I-프레임들만으로 구성될 수 있다.

비록 실시예들이 H.264 표준에 관하여 개시되었지만, 다른 비슷한 표준들이 또한, 도 2의 인코더 회로를 근거로 사용될 수 있음에 주목해야 한다. 실시예들은 또한 16x16만큼 크고 4x4만큼 작은 블록 크기들, 또는 16x8, 8x16, 8x8, 8x4, 및 4x8와 같은 중간 크기들을 갖는 가변적인 블록-크기 움직임 시스템들을 총괄할 수 있다.

실시예들은 트랜스코딩 시스템들(transcoding systems)에서 사용될 수 있다.

트랜스코딩은 다른 포맷에 대한 하나의 디지털로 인코딩된 포맷의 직접 디지털-디지털 변환(direct digital-to-digital conversion)이다. 트랜스코딩은 콘텐트 적응(content adaptation)의 많은 영역들에서 발견될 수 있고, 흔히 호환성이 없거나 쓸모없게 된 데이터를 더 적당한 포맷으로 변환하기 위해서 사용된다. 그것은 또한 컴퓨터와 MP3 플레이어에서 재생을 위해 CD 포맷으로부터 MP3 포맷으로 변환한 음악들과 같이 서로 다른 재생 디바이스들에서 사용되기 위한 서로 다른 형식들의 디지털 매체(media) 상에서 콘텐트를 보관하거나 분류하기 위해서 사용된다. 또한, 트랜스코딩은 이동 전화기 콘텐트 적응(mobile phone content adaption)의 영역에서 일반적으로 사용된다. 이 경우에, 트랜스코딩은 이동 디바이스들의 다이버서티(diversity)와 이들의 성능들로 인해 필요하다. 이러한 다이버서티는 소스 콘텐트가 목표 디바이스에서 충분히 재생할 수 있음을 확인하기 위해서 콘텐트 적응의 중간 상태를 요구한다.

비록 움직임 추정 시스템 및 프로세스의 실시예들이 GPU 쉐이더들(shaders)과 같은 GPU 컴포넌트들을 총괄하더라도, 병렬 컴퓨팅의 일부 형태로 구현하는 임의의 컴퓨팅 디바이스 상에서 방법이 사용될 수 있다. 더욱이, 비록 실시예들이 처리 시스템에 대해 전용 또는 집적된 그래픽 렌더링 디바이스들(integrated graphics rendering devices)인 GPU 디바이스들 또는 비주얼 처리 유닛들(visual processing units : VPU)을 포함하는 그래픽 시스템들을 참조하여 개시되었더라도, 이러한 실시예들이 또한 병렬로 사용되는 많은 다른 형식들의 비디오 생산 엔진들에 사용될 수 있음에 주목해야 한다. 이러한 비디오 생산 엔진들(video production engines)은 디지털 프로젝터들과 같은 이산 비디오 발생기들(discrete video generators)의 형태로 구현될 수 있거나 또는, 그들은 분리형 IC(integrated circuit) 디바이스들의 형태로 또는 비디오-기반의 컴퓨터 시스템들에 대한 애드-온 카드들(add-on cards)로 제공되는 전자 회로일 수 있다. 하나의 실시예에서, GPU 제어 시스템을 포함하는 시스템은 개인용 컴퓨터, 워크스테이션, 핸드헬드 컴퓨팅 디바이스(handheld computing device), 디지털 텔레비전, 매체 재생 디바이스, 스마트 통신 디바이스, 및 게임 콘솔(game console), 또는 임의의 다른 비슷한 처리 디바이스로 구성하는 그룹으로부터 선택되는 컴퓨팅 디바이스(computing device)를 포함한다.

본 명세서에 개시된 시스템들 및/또는 컴포넌트들은 하나 이상의 전자 회로들로 구현될 수 있다. 본 명세서에 개시된 이러한 회로들은 제조 과정들의 제어 및 마스크워크들(maskworks)을 통해 구현될 수 있으며, 이는 그 다음에 관련된 회로를 제조하기 위해서 사용될 것이다. 기술 분야에서 당업자에게 알려진 이러한 제조 프로세스 제어 및 마스크워크 생성은 예를 들어, 베릴로그(Verilog), VHDL 또는 다른 하드웨어 기술 언어들(hardware description languages)에서의 명령들을 포함하는 컴퓨터 판독 가능 매체에서 컴퓨터 명령들의 스토리지를 포함한다.

본 명세서에 개시된 시스템의 양상들은 필드 프로그램가능 게이트 어레이들(field programmable gate array : FPGAs)과 같은 프로그램가능 로직 디바이스들(programmable logic devices : PLDs), 프로그램가능 어레이 로직(programmable array logic : PAL) 디바이스들, 전기적으로 프로그램가능 로직 및 메모리 디바이스들과 표준 셀-기반의 디바이스들뿐만 아니라 주문형 집적 회로들(application specific integrated circuits)을 포함하는, 다양한 회로 중 임의의 것 내에 프로그래밍되는 기능성으로 구현될 수 있다. 양상들을 구현하기 위한 일부 다른 가능성들은 메모리 다바이스들, (EEPROM과 같은) 메모리를 갖는 마이크로컨트롤러들, 임베디드된 마이크로프로세서들, 펌웨어, 소프트웨어 등을 포함한다. 더욱이, 비디오 스트림 마이그레이션 시스템(video stream migration system)의 양상들은 소프트웨어-기반의 회로 에뮬레이션, 이산 로직(discrete logic) (연속하는 그리고 조합하는), 커스텀 디바이스들(custom devices), 퍼지 (뉴럴) 로직, 양자 디바이스들(quantum devices), 및 상기 디바이스들 형식들 중 임의의 것의 하이브리드들을 갖는 마이크로프로세서들에서 구현될 수 있다. 근본적인 디바이스 기술들(underlying device technologies)은 예를 들어, CMOS(complementary metal-oxide semiconductor)와 같은 금속-산화물 반도체 전계-효과 트랜지스터(metal-oxide semiconductor field-effect transistor : MOSFET) 기술들, 에미터-커플드 로직(emitter-coupled logic : ECL)과 같은 바이폴라 기술들, 폴리머 기술들 (예를 들어, 실리콘-컨쥬게이트된 폴리머(silicon-conjugated polymer)와 금속-컨쥬게이트된 폴리머-금속 구조들(metal-conjugated polymer-metal structures)), 혼합형 아날로그 및 디지털(mixed analog and digital) 등인 다양한 컴포넌트 형식들로 제공될 수 있다.

또한, 주목할 사항으로서, 본 명세서에 개시된 다양한 기능들은 이들의 행동으로서 레지스터 전달(register transfer), 로직 컴포넌트, 및/또는 다른 특성들의 면에서, 임의 수의 하드웨어 및 펌웨어의 조합들을 이용하여 및/또는 다양한 머신-판독가능 또는 컴퓨터-판독가능 매체에 수록되는 데이터 및/또는 명령들을 이용하여 설명될 수 있다. 데이터 및/또는 명령들이 포맷되는 컴퓨터-판독가능 매체는 다양한 형태들로 비휘발성 저장 매체(예를 들어, 광의, 자기의 또는 반도체 저장 매체) 및 무선의, 광의 또는 유선의 시그널링 매체 또는 이들의 임의의 조합을 통해서 이러한 포맷된 데이터 및/또는 명령들을 전달하기 위해 사용될 수 있는 반송파들(carrier waves)을 포함하여 구현될 수 있지만, 이에 한정되지 않는다. 반송파들에 의해 이러한 포맷된 데이터 및/또는 명령들의 전달들의 예시들은 인터넷 및/또는 하나 이상의 데이터 전송 프로토콜들 (예를 들어, HTTP, FTP, SMTP 등등)을 통해 다른 컴퓨터 네트워크들 상에서의 전달들(trnasfers) (업로드들, 다운로드들, 이메일 등등)을 포함하지만, 이에 한정되지 않는다. 추가로, 실시예들은 (비디오 편집 소프트웨어, 콘텐트 생성 소프트웨어 등과 같은) 비디오 인코딩을 가능하게 하는 애플리케이션들을 포함할 수 있다. 이러한 애플리케이션들은 본 명세서에 개시된 본 발명의 양상들을 구현하기 위해서 (CPUs 및/또는 GPUs 또는 이들의 조합들과 같은) 일반적인 및/또는 특정 목적 프로세서들을 프로그램하는 명령들을 포함할 수 있다. 이러한 애플리케이션들은 본 명세서에 개시된 방식들로 생산되는 인코딩된 비디오 데이터를 발생시킬 수 있다.

문맥이 명확하게 다르게 요구되지 않으면, 개시 및 특허 청구 범위들의 전체에서, 용어들 "포함한다(comprise)", "포함하는(comprising)" 등이 독점적이거나 철저한 의미(exhaustive sense)에 반대되는 포괄적인 의미로 해석되어야 한다. 즉, "포함하며(including), 이에 한정되는 것이 아닌 것"의 의미로 해석되어야 한다. 또한, 단수 또는 복수 번호를 이용하는 용어들은 각각 복수 또는 단수를 포함한다. 추가로, 용어들 "본 명세서에서(herein)", "아래에(hereunder)", "위(above)", "아래(below)" 및 비슷한 의미의 용어들은 이 출원의 전체를 참조하는 것이지, 이 출원의 임의의 특정한 부분들을 참조하는 것은 아니다. 용어 "또는"이 2개 이상의 아이템들의 리스트에 대한 참조로 사용될 때, 이 용어는 리스트에 있는 아이템들 중 임의의 것, 리스트에 있는 아이템들 모두 및 리스트에 있는 아이템들의 임의의 조합과 같은, 용어의 해석들의 모든 것을 포괄한다.

움직임 추정 방법 및 시스템의 도시된 실시예들의 앞선 상세한 설명은 개시되는 정확한 형태 또는 명령들로 실시예들을 철저하게 하거나 또는 제한하는 것으로 생각해서는 안 된다. 그래픽 처리 유닛들 또는 ASIC들에서 과정들의 특정한 실시예들 및 과정들을 위한 예시들이 설명 목적들을 위해 본 명세서에서 개시됨에도 불구하고, 다양한 동등한 수정들이 관련 기술 분야에서 당업자들이 인식할 수 있는 바와 같이, 개시된 방법들 및 구조들의 범위 내에서 가능할 수 있다.

전술한 다양한 실시예들의 요소들 및 행동들은 추가 실시예들을 제공하기 위해서 결합될 수 있다. 이들과 다른 변화들이 앞서 상세하게 설명된 개시의 관점에서 개시된 시스템에 의해 만들어질 수 있다.

일반적으로, 이후의 특허 청구 범위들에서, 사용되는 표현들은 상세한 설명 및 특허 청구 범위들에 개시된 특정한 실시예들에 대한 개시된 방법을 한정하기 위한 것으로 해석되어서는 안 되며, 하지만 특허 청구 범위들로 운영하는 모든 동작들 또는 과정들을 포함하는 것으로 해석되어야 한다. 따라서, 개시된 구조들 및 방법들은 개시에 의해 제한되는 것이 아니라, 인용된 방법의 범위는 특허 청구 범위들에 의해 전체가 결정되어야 한다.

개시된 실시예들의 일부 양상들이 일부 특허 청구 범위 형태들로 아래 표시됨에도 불구하고, 발명자는 수많은 특허 청구 범위 형태들로 방법론의 다양한 양상들을 심사숙고한다. 예를 들어, 하나의 양상만이 기계-판독가능 매체에서 구현되는 것으로 인용될 수 있음에도 불구하고, 다른 양상들이 기계-판독가능 매체에서 마찬가지로 구현될 수 있다. 따라서, 발명자는 다른 양상들에 대한 이러한 추가적인 특허 청구 범위 형태들을 추구하기 위해서 출원을 제출한 이후에, 추가적인 특허 청구 범위들을 추가하기 위한 권리를 보유한다.

Claims

비디오 인코더에서 움직임 추정을 수행하는 방법으로서, 상기 방법은,
후보 움직임 벡터들의 리스트를 형성하기 위해서 비디오 이미지의 각각의 매크로블록에 대해 하나 이상의 후보 움직임 벡터들을 계산하는 단계;
각각의 후보 움직임 벡터에 대해 비용을 계산하는 단계;
가장 낮은 비용으로부터 가장 높은 비용까지 비용 단위로 상기 후보 움직임 벡터들의 리스트를 분류하는 단계; 및
상기 비용 계산을 근거로 가장 낮은 비용 후보 움직임 벡터를 이용하여 제1 매크로블록의 상기 계산된 후보 움직임 벡터들과 복수의 이웃 매크로블록들의 상기 계산된 후보 움직임 벡터들을 비교하는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
증가된 기초 점수를 수신하는 각각의 매크로블록에 대해 가장 낮은 비용 후보 움직임 벡터를 갖는 각각의 매크로블록에 대한 각각의 후보 움직임 벡터에 기초 점수(base score)를 할당하는 단계; 및
이웃 매크로블록에서 후보 움직임 벡터와의 그것의 유사성에 따라 포인트만큼 각각의 후보 움직임 벡터의 상기 기초 점수 또는 상기 증가된 기초 점수를 증가시키는 단계를 더 포함하는 것을 특징으로 하는 방법.
제2항에 있어서,
상기 복수의 이웃 매크로블록들은,
2개에서 8개 사이의 매크로블록들을 포함하는 것을 특징으로 하는 방법.
제2항에 있어서,
후보 움직임 벡터들의 새로운 리스트를 생성하기 위해서 가장 높은 점수로부터 가장 낮은 점수까지의 점수를 근거로 상기 후보 움직임 벡터들의 리스트를 재분류하는 단계;
상기 후보 움직임 벡터들의 새로운 리스트의 각각의 후보 움직임 벡터와 상기 복수의 이웃 매크로블록들의 상기 계산된 후보 움직임 벡터들을 재비교하는 단계; 및
가장 높은 스코어링 후보 움직임 벡터를 결정하기 위해서 상기 후보 움직임 벡터들을 재스코어링(re-scoring)하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제4항에 있어서,
상기 재분류하는 단계, 상기 재비교하는 단계 및, 상기 재스코어링하는 단계는,
가장 높은 스코어링 후보 벡터의 다수의 변화들이 정의된 최소 임계보다 아래에 있을 때까지 반복적으로 되풀이되는 것을 특징으로 하는 방법.
제5항에 있어서,
가장 높은 스코어링 후보 벡터의 다수의 변화를 추적하기 위해서 플래그 값을 세팅하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제6항에 있어서,
상기 정의된 최소 임계는,
최대 플래그 값, 정의된 반복 횟수, 및 상기 반복 횟수를 수행하기 위한 처리 시간의 최대량으로 구성하는 그룹으로부터 선택되는 것을 특징으로 하는 방법.
제5항에 있어서,
상기 각각의 매크로블록에 대한 상기 움직임 벡터가 되기 위한 각각의 매크로블록에 대해 가장 높은 스코어링 후보 움직임 벡터를 정의하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제8항에 있어서,
상기 매크로블록들에 대해 상기 움직임 벡터들 사이의 마이너 차동들(minor differences)을 조정하기 위해서 각각의 매크로블록에 대해 상기 움직임 벡터에서 공간적인 필터링 단계를 수행하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제9항에 있어서,
상기 공간적인 필터링 단계는,
상기 움직임 벡터들의 하나 이상의 계수 비트들을 점진적으로 증가시킴으로써 상기 움직임 벡터들 사이의 상기 차동들을 0으로 감소시키는 것을 특징으로 하는 방법.
제10항에 있어서,
상기 비용은,
메트릭 값을 차동 움직임 벡터에 정규화 값을 곱한 것과 합산된 값을 사용하여 계산되는 것을 특징으로 하는 방법.
제11항에 있어서,
상기 메트릭은,
절대 차이들의 합(sum of absolute differences : SAD), 절대 차이들의 제곱의 합(sum of the square of absolute differences : SSAD), 또는 변환 차이들의 합(sum of the transformed differences : SATD) 중 하나인 것을 특징으로 하는 방법.
제1항에 있어서,
멀티프로세서 시스템의 전용 처리 엔진은,
각각의 매크로블록에 대해 상기 하나 이상의 후보 움직임 벡터들을 계산하는 단계를 수행하는 것을 특징으로 하는 방법.
제13항에 있어서,
상기 멀티프로세서 시스템은,
멀티코어 중앙 처리 유닛(CPU), 멀티코어 그래픽 처리 유닛(GPU), 또는 하이브리드 CPU/GPU 시스템 중 하나를 포함하는 것을 특징으로 하는 방법.
제14항에 있어서,
상기 멀티프로세서 시스템은,
GPU 쉐이더 시스템을 포함하는 것을 특징으로 하는 방법.
비디오 인코딩 파이프라인에서 사용하기 위한 움직임 추정 시스템으로서, 상기 움직임 추정 시스템은,
후보 움직임 벡터들의 리스트를 형성하기 위해서 비디오 이미지의 각각의 매크로블록에 대해 하나 이상의 후보 움직임 벡터들을 계산하는 제1 회로;
각각의 후보 움직임 벡터에 대해 비용을 계산하고, 가장 낮은 비용으로부터 가장 높은 비용까지 비용 단위로 상기 후보 움직임 벡터들의 리스트를 분류하는 제2 회로;
상기 비용 계산을 근거로 가장 낮은 비용 후보 움직임 벡터를 이용하여 제1 매크로블록의 상기 계산된 후보 움직임 벡터들과 복수의 이웃 매크로블록들의 상기 계산된 후보 움직임 벡터들을 비교하는 비교 회로와, 여기서 상기 복수의 이웃 매크로블록들은 2개에서 8개 사이의 매크로블록들을 포함하며; 및
증가된 기초 점수를 수신하는 각각의 매크로블록에 대해 가장 낮은 비용 후보 움직임 벡터를 갖는 각각의 매크로블록에 대한 각각의 후보 움직임 벡터에 기초 점수를 할당하며, 이웃 매크로블록에서 후보 움직임 벡터와의 그것의 유사점에 따라 포인트만큼 각각의 후보 움직임 벡터의 상기 기초 점수 또는 상기 증가된 기초 점수를 증가시키는 스코러 회로(scorer circuit)를 포함하는 것을 특징으로 하는 움직임 추정 시스템.
제16항에 있어서,
각각의 매크로블록에 대해 최상의 후보 움직임 벡터(best candidate motion vector)는,
가장 높은 스코어링 후보 벡터의 다수의 변화들이 정의된 최소 임계보다 아래에 있을 때까지, 상기 후보 움직임 벡터들의 리스트가 후보 움직임 벡터들의 새로운 리스트를 생성하기 위해서 가장 높은 점수로부터 가장 낮은 점수까지의 점수를 근거로 재분류되고, 상기 후보 움직임 벡터들의 새로운 리스트의 각각의 후보 움직임 벡터가 상기 복수의 이웃 매크로블록들의 상기 계산된 후보 움직임 벡터들과 재비교되고, 상기 후보 움직임 벡터들이 가장 높은 스코어링 후보 움직임 벡터를 결정하기 위해서 재스코어링되는 반복적인 처리 방법을 통해 결정되는 것을 특징으로 하는 움직임 추정 시스템.
제17항에 있어서,
상기 가장 높은 스코어링 후보 벡터의 다수의 변화를 추적하고, 상기 다수의 변화들이 언제 정의된 임계값을 초과하는지를 결정하는 글로벌 카운터 회로(global counter circuit)를 더 포함하는 것을 특징으로 하는 움직임 추정 시스템.
제18항에 있어서,
상기 매크로블록들에 대한 상기 움직임 벡터들 사이의 마이너 차동들을 조정하기 위해서 각각의 매크로블록에 대해 상기 움직임 벡터에서 공간적인 필터링 단계를 수행하는 공간적인 필터 회로를 더 포함하는 것을 특징으로 하는 움직임 추정 시스템.
제16항에 있어서,
상기 비디오 인코더 파이프라인은,
멀티프로세서 시스템의 일부를 포함하며,
상기 제1 회로 및 상기 제2 회로는,
각각의 매크로블록에 대해 상기 하나 이상의 후보 움직임 벡터들을 계산하기 위해서 상기 멀티프로세서 시스템의 전용 처리 엔진의 일부를 포함하는 것을 특징으로 하는 움직임 추정 시스템.
제20항에 있어서,
상기 멀티프로세서 시스템은,
멀티코어 중앙 처리 유닛(CPU), 멀티코어 그래픽 처리 유닛(GPU), 또는 하이브리드 CPU/GPU 시스템 중 하나를 포함하는 것을 특징으로 하는 움직임 추정 시스템.
제14항에 있어서,
상기 멀티프로세서 시스템은,
GPU 쉐이더 시스템을 포함하는 것을 특징으로 하는 움직임 추정 시스템.
멀티프로세서 컴퓨팅 시스템 내의 비디오 인코더에서 움직임 추정을 수행하는 방법으로서, 상기 방법은,
복수의 처리 엔진들에서 후보 움직임 벡터들의 리스트를 형성하기 위해서 비디오 이미지의 각각의 매크로블록에 대해 복수의 후보 움직임 벡터들의 비용을 계산하는 단계와, 여기서 각각의 처리 엔진은 각각의 단일 매크로블록에 대해 전용이며;
각각의 후보 움직임 벡터에 대해 상대적인 점수를 생성하기 위해서 제1 매크로블록의 상기 계산된 후보 움직임 벡터들과 8개까지의 이웃 매크로블록들의 상기 계산된 후보 움직임 벡터들을 비교하는 단계;
하나 이상의 후속적인 비용 계산 단계들에서 각각의 매크로블록에 대해 상기 후보 움직임 벡터들의 비용을 결정하기 위해서 가장 높은 스코어링 후보 움직임 벡터를 이용하는 단계; 및
최상의 후보 움직임 벡터가 각각의 블록에 대해 결정될 때까지 반복적으로 상기 후보 움직임 벡터들을 비교하고 재스코어링하는 단계를 포함하는 것을 특징으로 하는 방법.
제23항에 있어서,
상기 최상의 후보 움직임 벡터는,
정의된 임계에 도달된 이후에 가장 높은 점수를 갖는 후보 움직임 벡터인 것을 특징으로 하는 방법.
제23항에 있어서,
상기 매크로블록들에 대해 상기 움직임 벡터들 사이의 마이너 차동들을 조정하기 위해서 각각의 매크로블록에 대해 상기 최상의 움직임 벡터에서 공간적인 필터링 단계를 수행하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제23항에 있어서,
상기 멀티프로세서 시스템은,
멀티코어 중앙 처리 유닛(CPU), 멀티코어 그래픽 처리 유닛(GPU), 또는 하이브리드 CPU/GPU 시스템 중 하나를 포함하는 것을 특징으로 하는 방법.
제26항에 있어서,
상기 멀티프로세서 시스템은,
GPU 쉐이더 시스템을 포함하는 것을 특징으로 하는 방법.