KR101540138B1

KR101540138B1 - 적응적 조사영역을 갖는 모션추정 장치 및 방법

Info

Publication number: KR101540138B1
Application number: KR1020107016142A
Authority: KR
Inventors: 프랑소와 로시뇰; 촌 탐 레딘; 티 뚜이-하 트란
Original assignee: 퀄컴 인코포레이티드
Priority date: 2007-12-20
Filing date: 2008-12-18
Publication date: 2015-07-28
Also published as: JP5844394B2; JP5453304B2; TW200943969A; JP2011508517A; US20090161763A1; WO2009085232A1; KR20100103838A; JP2014116951A; US8265158B2; CN101946514A; CN101946514B

Abstract

본 발명은 동작을 추정하고 보정하는 방법과 장치에 관한 것으로, 첫번째 프레임의 화소블록의 움직임을 추정하는 모션추정법을 제공하는데, 이 방법은 화소블록에 대응하면서 제1 에러값을 갖는 제1 매칭블록을 확인하기 위해 두번째 프레임의 제1 영역을 조사하는 단계; 화소블록에 대응하면서 제2 에러값을 갖는 제2 매칭블록을 확인하기 위해 두번째 프레임의 제2 영역을 조사하는 단계; 및 제1 및 제2 에러값을 기반으로 제1 및 제2 모션벡터들 사이의 최종 모션벡터를 선택하는 단계;를 포함하고, 제1 에러값은 화소블록과 제1 매칭블록 사이의 최소의 에러 판단기준이고, 제2 에러값은 화소블록과 제2 매칭블록 사이의 최소의 에러 판단기준이다.

Description

적응적 조사영역을 갖는 모션추정 장치 및 방법{MOTION ESTIMATION WITH AN ADAPTIVE SEARCH RANGE}

본 발명은 비디오/영상 코딩분야에 관한 것으로, 구체적으로는 동작을 추정하고 보정하는 방법과 장치에 관한 것이다.

디지털 통신망, 디지털 저장매체, 대규모 집적장치, 디지털 오디오/비디오 신호처리 분야에서의 기술적 진보는 아주 다양한 애플리케이션에서 경제적인 디지털 비디오의 송신과 저장 쪽으로 진행되고 있다. 디지털 비디오신호의 저장과 송신은 많은 애플리케이션에서 아주 중요하므로, 디지털 비디오 코딩기술도 대중화되고 있다.

비주얼 정보는 거의 모든 실생활에서 중요한 역할을 하고있다. 영상과 비디오에 관련된 정보량이 아주 막대하여, 비디오코딩은 중요한 기술일 수 밖에 없다. 모션 추정과 보정은 각종 비디오코딩 방식에서 핵심 역할을 담당한다. 압축, 노이즈제거, 주사변환은 물론, 프레임/플드 속도변환을 위한 영상보간과 같은 다양한 애플리케이션에 모션추정이 이용된다.

그러나, 휴대폰 통신이나 인터넷이 무서운 속도로 개발되고 있어서, 현재의 모션추정과 보정체계로는 인터넷이나 휴대폰을 통한 비디오 스트리밍과 같은 급속도로 증가하는 요구사항을 충족할 수 없다.

본 발명은 종래의 이와 같은 문제점을 감안하여 안출된 것으로, 비디오코딩과 압축에 있어 좀더 효율적인 모션 추정과 보정 시스템을 제공하는 것을 목적으로 한다.

이런 목적 달성을 위해, 본 발명은 첫번째 프레임의 화소블록의 움직임을 추정하는 모션추정법을 제공하는데, 이 방법은 화소블록에 대응하면서 제1 에러값을 갖는 제1 매칭블록을 확인하기 위해 두번째 프레임의 제1 영역을 조사하는 단계; 화소블록에 대응하면서 제2 에러값을 갖는 제2 매칭블록을 확인하기 위해 두번째 프레임의 제2 영역을 조사하는 단계; 및 제1 및 제2 에러값을 기반으로 제1 및 제2 모션벡터들 사이의 최종 모션벡터를 선택하는 단계;를 포함하고, 제1 에러값은 화소블록과 제1 매칭블록 사이의 최소의 에러 판단기준이고, 제2 에러값은 화소블록과 제2 매칭블록 사이의 최소의 에러 판단기준이다.

이하, 첨부 도면들을 참조하여 본 발명에 대해 자세히 설명한다.

도 1은 본 발명에 따른 비디오 코딩장치의 블록도;
도 2는 본 발명에 따른 비디오 프레임;
도 3은 본 발명에 따른 동영상 비디오;
도 4는 본 발명에 따른 다른 비디오 프레임;
도 5는 본 발명에 따른 모션추정법의 일례;
도 6은 본 발명에 따른 다른 모션추정법의 일례;
도 7은 본 발명에 따른 모션추정장치의 블록도;
도 8은 본 발명에 따른 다른 모션추정장치의 블록도;
도 9a는 본 발명에 따른 또다른 모션추정장치의 블록도;
도 9b는 본 발명에 따른 격자구조도;
도 10은 본 발명에 따른 모션벡터 히스토그램;
도 11은 본 발명에 따른 모션추정장치의 블록도.

도 1은 본 발명에 따른 고성능 비디오 코딩시스템(100)의 블록도이다. 이하 후술하는 각종 기능장치들은 실제로는 개별적으로 작동되기도 하고 프로세서나 ASIC와 같은 하드웨어나 소프트웨어와 같이 동작하기도 한다.

도 1의 시스템(100)의 인코더(104)는 카메라(102)로부터 비디오신호(I)를 받고, 이 신호(I)를 인코딩하여 비트스트림(B)을 구한다. 비트스트림(B)은 메모리에 저장되거나 통신망을 통해 전송된다. 도 1의 시스템의 디코더(106)는 비트스트림(B)을 받아 비디오신호(I)로 재구성한다. 모니터나 스크린과 같은 디스플레이(108)는 디코더(106)에 연결되어 재구성된 비디오신호(I)를 디스플레이한다. 이상 설명한대로, 모션추정이 비디오코딩에 핵심적인 역할을 하므로, 시스템(100)에 MEU(110; motion estimation unit)가 있다. 경우에 따라서는, MEU(110)와 같은 모션추정기가 디코더(106)의 일부분이거나, 디코더(106) 안에 있는 MCIIU(111; motion compensation image interpolation unit)의 일부분일 수 있다. MCIIU(111)는 비디오의 미싱프레임(missing frame)을 복구하기 위한 영상보간 동작을 실행한다. 모션추정기에 대해서는 도 7에서 자세히 설명한다.

자연적인 비주얼신(visual scene)은 시공간적으로 연속적인 것이다. 비주얼신은 실제 장면을 (영상평면의 사각형 그리드에) 시공간적으로 샘플링하여 디지털 형태로 나타나는 것이 보통이다. 즉 스틸영상(프레임) 여러장이 일정한 시간간격으로 샘플링되는 것이다. 도 1의 카메라(102)의 신호(I)는 비주얼신을 하나 이상의 스틸영상(프레임)(I₁,I₂,...,I_n-1,I_n)으로 나타낸 것이다.

도 2a는 카메라(102)로 캡처할 수 있는 자연적인 장면의 스틸영상(200) 중의 하나를 보여준다. 이 영상(200)은 언덕(212,214,216)과 나무(206,208,210)를 배경으로 하여 도로(204)를 주행하는 자동차(202)를 보여준다. 이 영상(200)은 도 2b와 같이 PxQ의 그리드(R)에 샘플링하여 디지털 형태로 나타낼 수 있다. 그리드(R) 상의 각각의 지점 R(p,q)(0≤p≤P-1; 0≤q≤Q-1)이 화소에 해당한다. 화소마다 휘도나 컬러를 설명할 수 있는 숫자로 표현될 수 있다. 디지털 측면에서는 화소가 2진수로 표현되고, 각각의 프레임은 해당 화소값의 어레이나 행렬로 표현될 수 있다. 주지하는 바와 같이, 프레임내의 화소수는 변할 수 있다. 따라서, 본 발명은 프레임에 포함되는 화소수에 한정되지 않는다.

일반적으로, 스틸영상(200)은 카메라(102)와 같은 캡처장비의 센서(예; CCD 어레이)에 스틸영상(200)의 초점을 맞춰 2차원으로 샘플링된 영상이다. CCD 어레이의 출력에서 화소어레이를 구할 수 있다. 어떤 경우에는, 컬러영상을 위해, CCD 어레이의 출력을 컬러성분으로 필터링하고, 각각의 컬러성분마다 해당 화소어레이를 가질 수 있다. 예를 들어, RGB(적녹청) 컬러모델의 컬러영상의 각 컬러성분마다 화소어레이가 있을 수 있다.

전술한 바와 같이, 비주얼신을 일련의 프레임(I₁,I₂,...,I_n-1,I_n)으로 표현할 수 있다. 이들 프레임은 일련의 완전프레임(순차프레임)이나 비월주사 프레임으로 샘플링되는 것이 일반적이지만, 본 발명이 이런 종류의 순차나 비월주사 프레임에 한정된다는 것은 아니다.

도 3은 도로(204)를 주행하는 자동차(202)의 동영상 비디오(300)이다. 이 비디오(300)는 주기적인 시간간격으로 일련의 프레임(302,304,306,308)으로 캡처된다. 이들 프레임을 재생하면 자동차(202)가 움직이는 동영상으로 나타난다. 편의상, 도 3에는 비디오(300)의 프레임수를 302~308의 4개로 도시했지만, 프레임 수(n)는 몇개라도 가능함은 당연하다. 즉, 본 발명의 시스템에 포함되거나 지원되는 프레임의 수를 한정하지 않는다.

비디오(300)의 각 프레임도 도 2에서 설명한대로 디지털 형태로 나타낼 수 있다. 따라서, 비디오(300)의 각각의 프레임도 다수의 비트로 표현된다. 일반적으로, 단위시간당 취해지는 프레임수인 프레임율이 높을수록 동작이 부드러워 비디오(300)의 전체적인 화질도 우수해진다. 그러나, 프레임율을 높이면 비디오(300)를 표현하는데 필요한 비트수도 증가한다.

대부분의 비디오의 저장용량과 대역폭이 한정되어 있기 때문에, 주어진 비디오를 나타내는데 필요한 비트수(비트율과 비디오 화질 사이에 균형을 맞추기 위해 인코더(104)에서 각종 코딩(또는 압축) 체계가 구현된다.

일반적으로, 대부분의 비디오 코딩체계는 압축을 위해 시공간적으로 장면장면에 있는 반복정보를 활용할 수 있다. 시간 도메인에서는, 시간적으로 인접한 프레임들, 즉 프레임율이 높을 때 시간 순서대로의 연속되는 프레임들 사이에 높은 상관관계(유사성)가 있다. 공간 도메인에서는 서로 가까이 있어 인접한 화소들 사이에 높은 상관관계가 있다.

도 3과 같이, 프레임(302,304,306,308)에서 언덕(212,214,216)이나 나무(206,208,210)와 도로(204)와 같은 배경과 연관된 화소들은 모든 프레임에서 동일하게 반복된다. 따라서, 모든 프레임 각각에서 반복정보를 표현하지 않으면 비디오(300)를 나타내는데 필요한 전체 비트수를 줄일 수 있다. 이 작업은 프레임내의 공통 화소들을 확인하여 이루어진다.

그러나, 화소 기반에서 프레임을 처리하는 것은 아주 복잡하다. 이런 복잡성을 줄이고 압축율을 더 개선하기 위해, 브레임을 다수의 구역(블록)으로 나누고 블록 기반으로 처리하기도 한다. 일반적으로, 이런 구역(블록)은 다수의 이웃한 화소들을 포함하고 사이즈가 변할 수 있다. 적용례에 따라서는 이들 블록이 서로 겹칠 수도 있다.

도 4a의 프레임(302)은 크기가 일정한 5x5 블록(402)으로 나누어지고, 블록마다 화소수는 16x16이다. 편의상 도 4a의 프레임(302)의 화소블록 수가 5x5개로 표현되었지만, 살제로는 화소블록수는 제한 없이 UxV(U<P; V<Q)이고 각 블록내의 화소수도 제한이 없다. 즉, 본 발명은 프레임의 화소블록의 수나 크기에 제한을 두지 않는다.

비디오 화질을 더 높이기 위해 여러 크기의 블록들로 프레임을 나누기도 한다. 도 4b의 프레임(302)은 여러 크기의 화소블록(402,404,406)으로 나누어진 것이다. 도면에는 3가지의 화소블록만 표시했지만, 실제로는 UxV개의 화소블록이 가능하고, 각각의 화소블록도 uxv개의 화소블록으로 나눌 수 있으며, 둘다 갯수에 제한이 없다(u<U, v<V). 즉, 본 발명에서는 프레임에 포함된 화소블록의 갯수와 크기에 제한을 두지 않는다.

비디오 프레임들 사이의 변화는 물체의 동작(예; 움직이는 자동차), 카메라 동작(예; 패닝, 틸트, 줌, 회전 등), 언커버 영역(예; 움직이는 물체로 가려진 배경 부분)과 조명의 변화로 인해 생긴다. 조명 변화 이외의 동작은 대개 프레임 사이의 화소의 움직임에 관련된 것이다. 따라서, 연속되는 프레임들 사이의 각 화소의 궤적을 예측하면(모션추정), (관련 궤도에 맞게) 각각의 화소를 기준 프레임(과거나 미래 프레임)에서 움직임으로써(즉, 모션 보정) 현재 프레임을 정확히 재구성할 수 있다. 하나 이상의 프레임들이 하나의 기준 프레임으로 표현될 수 있으므로, 비디오 영상을 전체적으로 표현하는데 필요한 비트수도 줄어든다.

그러나, 전술한 바와 같이, 화소 기준으로 프레임을 처리하는 것은 계산이 복잡해 비용이 많이 든다. 따라서, 이런 복잡성을 줄이기 위해, 어떤 경우에는 MEU(110)가 블록 기반으로 각종 모션추정을 한다.

도 4에서 설명한대로, 주어진 프레임(302)를 크기가 한가지나 여러가지인 다수의 화소블록으로 나눈다. 블록기반 모션추정에 있어서, 현재의 블록을 기준 프레임의 같은 크기의 다른 움직인 블록과 비교한다. 현재의 블록과 움직인 기준블록이 가장 잘 맞을 때 생기는 모션벡터(MV; motion vector)가 2개의 블록사이의 움직임이나 동작을 최적으로 설명한다. 어떤 경우에는 모션벡터가 2차원으로서 수평수직 성분을 포함하기도 한다. 따라서, 움직인 블록을 확인하고 기준프레임내의 모든 해당 움직인 블록들을 각각의 모션벡터로 보정하면 현재 프레임을 표현할 수 있다.

예를 들어, 비디오(300)의 프레임(304)에서 움직인 블록들을 확인하고, 이렇게 움직인 블록들에 관련된 모션벡터들을 계산한 다음, 기준프레임(302)내의 움직인 블록들을 해당 모션벡터로 보정하면 프레임(304)을 기준프레임(302)으로 표현할 수 있다. 따라서, 프레임(304)과 관련된 모든 화소값들을 저장하는 대신, 프레임(304)내의 이동 블록들에 관련된 MV와 프레임(302,304) 사이의 차이(예컨대, 자동차(202)가 움직이면서 드러난 영역)만 저장하면 된다.

MEU(110)가 기준프레임과 현재 프레임내의 블록들 사이의 모션추정을 위해 블록매칭을 하기도 한다. 일례로, MEU(110)는 기준프레임내의 대응하는 "최적매칭" 블록을 찾기 위해 현재 블록에 포함된 모든 화소에 대해 가 절대오차합(SAD; sum of absolute differences), 최소차제곱합(SSD; sum of squared differences), SATD(sum of absolute transform differences)와 같은 오차 판별기준을 이용하기도 한다. 대개, 편의성이나 비용 때문에 SAD 방법이 가장 널리 이용된다.

MEU(110)가 검색구역내의 가능한 모든 모션벡터에 대한 최소의 블록 매치오차값(예; 최소 SAD 값)을 찾는데 풀스케일 전수조사를 하기도 한다. 최소 매치오차값을 갖는 모션벡터는 대부분의 화소에 대한 최적의 모션추정을 나타내고, 관련 블록은 최적의 매치블록으로 선택된다.

도 5는 본 발명에 따른 MEU(110)에 의한 풀스케일 전수조사의 일례로서, 502가 기준프레임이고, 504는 현재 프레임이다. 이들 프레임(502,504)는 도 3에서 설명한 프레임과 비슷하다. 현재 프레임(504)의 현재 블록(506)은 도 4에서 설명한 화소블록과 비슷하다. 도 5에서 보듯이, 블록(506)에 속하는 영상이 프레임(502)에서 프레임(504)으로 이동한다.

도 5의 전수조사 영역(503) 은 기준프레임(502)에서 현재 블록(506)에 가장 잘 맞는 최적의 매치블록과 해당 모션벡터를 확인하는 블록 매칭과정을 실행하는데 사용된다. 프레임(504)내의 블록(506)의 공간위치가 기준프레임(502)에 움직임 제로 블록(507)로 표시된다.

전수조사 영역(503)은 영상의 해상도(포맷)나 프레임율이나 응용례에 따라 좌우되어, 수평길이 -M/2 ~ +M/2, 수직길이 -N/2 ~ +N/2의 (M+1 x N+1)의 화소수를 갖는 정사각형일 수 있는데, 이때 M과 N은 짝수이고 M+1≤P, N+1≤Q이다. 여러 영상 포맷들 사이의 모션벡터 사이에 속도가 비슷하게 표현될 수 있도록 전수조사 영역(503)이 영상 포맷에 비례할 수도 있다. 속도는 어떤 프레임에 있는 물체가 경계선을 지나 다른 프레임으로 옮기는데 필요한 시간으로 정의될 수 있다. 예컨대, HDTV 1080p 영상시퀀스에 사용되는 조사영역이 비슷한 모션벡터를 얻기 위해서는 HDTV 720p 영상시퀀스에 사용되는 조사영역보다 225% 커야 한다. 프레임(502)의 전수조사 영역(503)이 움직임 제로 블록(507)의 중심에 있을 수도 있다.

현재 블록(506)과 같은 크기를 갖는 기준 프레임(502)내의 이동블록(508,510)은 전수 조사영역(503)내의 가능한 모든 블록(506)의 움직임과 관련된 블록 매치 오차를 계산하기 위해 단위블록씩 움직일 수 있다. 이렇게 최소 매치오차에 해당하는 움직임을 최적의 매치블록으로 확인할 수 있다. 예컨대, 도 5에서 블록(508)은 "최적매치" 후보로 볼 수 있지만, 블록(510)도 기준프레임(502)내의 블록(506)에 대한 다른 "최적매치" 후보로 볼 수 있다. 도 5의 블록(508,510) 각각이 할당된 모션벡터 MV1과 MV2일 수 있다. 편의상, 도 5의 전수조사영역(503)에는 최적매치 후보로서 2개의 블록(508,510)과 대응 모션벡터(MV1,MV2)가 최적매치 후보로 표시되어 있지만, 실제로는 MV든 블록이든 최적매치 후보의 갯수는 몇개라도 가능하다. 즉, 본 발명은 조사영역내의 MV의 갯수에 제한을 두지 않는다.

전술한 바와 같이, MEU(110)는 전수조사에 의해 기준프레임(502)에서 최적매치 블록(508,510)를 확인할 수 있지만, 전수조사 방식은 프레임내의 블록수가 많아 비경제임은 물론, 도 5와 같이 최적매치 블록도 여러개이다. 모션보정이나 영상보간을 할 때 최적매치 블록이 잘못되어 미스매치되면 영상에 뚜렷한 잡티가 생길 수 있다. 이런 미스매치가 일어나는 영상 특징들은 많다. 예컨대, 직선특징의 경우, 직선특징에 평행한 모션벡터가 생길 수 있고, 그 길이도 어떤 길이도 가능하다. 또, 직선특징과 관련된 모션벡터도 랜덤하게 선택될 수 있어, 직선특징 부근의 다른 화소들을 보간할 때 에러가 생길 수 있다.

예를 들어, 도 5에서 프레임(502)내의 블록(510)과 관련된 MV2가 현재 블록(506)과 관련된 실제 모션벡터라 하자. 이 경우에도 매칭블록(508,510)이 모두 비슷하게 낮은 오차값을 갖기 때문에, MEU(110)는 블록(506)에 대한 최적매칭 블록으로서 블록(508)을 잘못 선택할 수 있다. 이런 미스매치는 비디오 화질을 악화시킨다.

영상보간에 모션벡터를 사용하기 때문에, 물체의 실제 움직임과 영상시퀀스의 상세사항을 정확히 표현하면, 영상과 상세사항이 적절히 보간된 공간위치로 움직여 보간된 영상의 잡티를 피할 수 있다.

격자구조나 주기적 구조와 같은 각종 반벅적인 구조들이 영상에 있기 때문에, 이들 구조를 확인하면 실제 동작 표현을 개선하는데 도움이 된다. 경우에 따라, MEU(110)가 영상내의 각종 격자구조를 확인할 수 있는 격자구조 맵을 만드는 격자구조 검색을 할 수 있다. 격자구조 맵에는 수평 모션벡터 성분들을 분류하는 수평 피치값과, 수직 모션벡터 성분들을 분류하는 수직 피치값이 들어있다. 피치 주기는 격자구조의 최소 반복단위이다.

MEU(110)에서 할 수 있는 격자구조 검색에 대해 도 9를 참조하여 설명한다.

격자구조는 건물, 창문, 그릴, 담장, 텍스트와 같은 물체에 뚜렷하다. 도 5에서 설명한 전수조사법에서, MEU(110)는 전수조사영역(503) 내부에서 에러값이 비슷하게 낮은 다수의 최적매칭 모션벡터들을 확인한다. 예컨대, 격자구조의 수평 피치가 10화소이고 실제 수평 동작이 +3화소이면, MEU(110)가 3-10에 의해 -7 화소나 3+10에 의해 +13 화소의 수평동작을 찾을 수 있다. 실제 모션벡터에 대응하는 국부적인 최소오차가 하나만 있어도, 장면에서의 빛의 변화나 카메라의 패닝이나 다른 광학적 효과와 같은 영향 때문에, 최소 오차값이 하나 이상의 최적매칭 후보들에 연결될 수 있다. 조사영역(503)의 크기를 줄이면, 최소값의 수도 줄어들어, 실제 모션벡터에 최소 오차값을 더잘 연결할 수 있다. 그러나, 전수조사영역(503)이 작으면, 물체의 움직임 범위도 제한되어 전체 모션추정에 해가 될 수 있다. 따라서, 모션추정에 악영향을 주지 않고 미스매치를 방지하기 위해, MEU(110)가 최적매칭 블록이나 모션벡터를 찾는데 적응적 조사방식을 사용할 수 있다.

도 6은 본 발명에 따른 MEU(110)에 의한 적응적 검색체계도로서, 기준프레임(502)과 현재 프레임(504)을 볼 수 있으며, 도 5에서 설명한 것과 마찬가지로 블록(506)의 위치가 프레임(502)에서 프레임(504)으로 바뀐다.

도 6과 같이, 전수조사영역(503) 외에도 적응적 조사영역(603)을 기준프레임(502)에 사용해 현재 블록(506)과 관련된 최적매칭 블록이나 모션벡터를 확인하는 블록매칭 과정을 실시한다. 이런 전수조사영역(503)과 적응적 조사영역(603)은 움직임 제로 블록(507)을 중심에 둘 수도 있다.

전수조사 블록매칭이 전수조사영역(503)에서 일어나고 적응적 조사영역(603)에 포함될 수 있는 모든 이동에 대해 블록매칭 에러들의 소집합들을 모을 수 있다. 영역(503,603)에서 계산된 블록매칭 에러들을 비교해 최적매칭블록의 위치에 해당하는 최소에러를 찾을 수 있다. 예를 들어, 도 6에서는 적응적 조사영역(603)에 있는 블록(510)이 최적매칭 블록이고, 모션벡터(605)가 이에 해당하는 모션벡터이다. 전술한 바와 같이, 전수조사영역(503)과 적응적 조사영역(603)이 갖는 최적매칭 블록이 다수이고 이에 해당하는 모션벡터도 다수일 수 있다. 편의상, 다음 설명에서는 전수조사영역(503)에 있는 모든 최적매칭 MV와 해당 블록매칭 에러들을 각각 총체적으로 최적매칭벡터(607)과 블록매칭에러(609)라 한다. 마찬가지로, 적응적 조사영역(603)에 있는 모든 최적매칭 MV와 해당 블록매칭 에러들을 각각 총체적으로 최적매칭벡터(605)와 블록매칭에러(611)라 한다.

적응적 조사영역(603)이 가로 [-m/2 ~ +m/2], 세로 [-n/2 ~ +n/2] 화소의 (m+1 x n+1) 화소를 갖는 사각형일 수 있는데, 여기서 m과 n은 짝수로서 m<M, n<N이다. 또, 적응적 조사영역(603)이 (Oh,Ov) 화소의 모션 옵셋값을 가질 수도 있는데, Oh와 Ov는 정응적 조사영역(603)의 중심과 전수조사영역(503)의 중심 사이의 가로축과 세로축 옵셋값이다. 격자구조 맵과 모션벡터 히스토그램(MVH)에서 m, n, Ov, Oh를 구할 수도 있다.

MVH는 2차원 히스토그램 어레이로서 가로축과 세로축에서 가능한 모든 수평운동량 MVh[-n/2 ~ +n/2]와 Th[2~N]이다. MVH가 장면에서의 작은 영상과 비슷할 수도 있는데, 여기서 각각의 히스토그램 빈(histogram bin)이 영상화소와 비슷하다. 또, 프레임마다 2개의 히스토그램이 생길 수도 있는데, 하나는 수평 모션벡터 성분과 수평 기간을 위한 것이고, 다른 하나는 수직 모션벡터 성분과 수직 기간을 위한 것이다. MEU(110)에서 사용할 수 있는 MVH에 대해 도 10에서 자세히 설명한다.

일반적으로, 격자구조에서 2개의 후보 벡터성분들 사이의 거리는 피치값의 배수이다. 식 (1)은 피치가 T인 격자구조에서의 실제 모션벡터(MVT)와 선택된 모션벡터(MVS) 사이의 관계를 보여준다.

MVT_h= MVS_h + k*T_h (1)

여기서 h는 모션벡터와 피치의 수평성분, k는 선택된 모션벡터가 실제 모션벡터에서 벗어난 피치값을 표시하는 정수이다. 이상상태에서는 k=0이다.

식 (1)에서 알 수 있듯이, m이 세로 피치값(Tv)보다 작고 n이 가로 피치값(Th)보다 작으면 적응적 조사구역(603)의 최소값을 1로 한정할 수 있다. 어떤 경우에는 적응적 조사영역(603)의 치수인 m, n, Oh, Ov를 아래 식 (2)와 (3)으로 정할 수 있다.

m = Tv-1 (2)

n = Th-1 (3)

위의 식에서 Th와 Tv가 2 이상이라고 할 수 있다. Tv=0이면 수직 격자구조가 검색되지 않고 m을 M에대해 일정한 값이며 Ov=0으로 할 수 있다. Th=0이면, 수평격자구조가 검색되지 않고, n은 N에 대해 일정한 값이며 Oh=0으로 할 수 있다.

고속동작이 있을 때 적응적 조사영역(603)이 잘릴 수도 있다. 블록매칭에러를 위한 더 복잡한 계산이 불필요하도록, 적응적 조사영역(603)이 전수조사영역(503)의 일부분을 포함하고, 배제된 모든 영역에서의 블록매칭은 무시할 수도 있다. 예를 들어, 옵셋(Oh=N/2)에 대해, 적응적 조사영역(603)의 중심 위치가 전수조사영역의 우측경계선에 있으면, 적응적 조사영역(604)의 좌측 절반만 고려하면 된다.

조사영역(503,603)의 크기가 영상의 해상도에 좌우될 수도 있다. 예컨대, 고화질 HD-1080의 조사영역(503,603)의 크기는 HD-720보다 크고, HD-480보다는 더 클 수 있다. 어떤 경우, HD-720의 조사영역(503,603)이 SD-480의 2배이고, HD-1080의 조사영역은 SD-480의 3배이기도 하다.

편의상, 도 6의 프레임(502)은 2개의 조사영역인 전수조사영역(503)과 적응적 조사영역(603)을 갖는 것으로 설명했지만, 실제로는 조사영역의 갯수가 무제한이다. 즉, 본 발명은 프레임내의 조사영역의 갯수를 제한하지 않는다.

또, 적응적 조사영역(603)과 전수조사영역(503)이 각각 최적매칭블록을 하나씩 확인하는 것으로 설명했지만, 실제로는 하나의 조사영역이 최적매칭블록을 몇개라도 확인할 수 있다. 즉, 본 발명은 조사영역에 포함된 최적매칭블록의 갯수를 제한하지 않는다.

전술한 바와 같이, "최적매칭" 블록은 SAD, SSD, SATD와 같은 블록매칭 에러를 최소화하는 블록이다. 경우에 따라, MEU(110)는 오차범위를 만족하는 최적매칭블록을 선택하기도 하고, 최적매칭블록을 선택하기 위한 오차범위가 외부에서 프로그램되어 MEU(110)로 보내지기도 한다.

도 7은 본 발명에 따른 비디오코딩 시스템(100)의 MEU(110)의 블록도이다. MEU(110)의 DU(704; delay unit)는 비디오신호(I)를받아 기준프레임(502)과 같은 프레임을 추출하고, 이런 프레임은 현재 프레임(504)과 공간적으로 정렬된다. MEU(110)의 AMSU(702; adaptive motion estimation search unit)은 현재 프레임(504)과 기준프레임(502)을 DU(704)로부터 받는다. AMSU(702)는 전수조사 모션벡터(607)와 블록매칭에러(609)와 적응적 조사 모션벡터(605)와 블록매칭에러(611)를 확인하는 적응적 조사를 실시한다.

LSDU(706; lattice structure detection unit)는 비디오신호(I)를 받고, 비디오신호(I)에 포함된 프레임을 위한 블록기반 격자구조맵(712)을 만든다. AMSU(702)는 LSDU(706)로부터 격자구조맵(712)을 받는다.

MHGU(708; motion histogram generator unit)는 LSDU(706)로부터 격자구조맵(712)을 받고, AMSU(702)로부터는 전수조사 모션벡터(607)를 받는다. MHGU(708)는 옵셋값 Oh나 Ov와 같은 모션 옵셋 인자(714)를 만든다.

MVSU(710; motion vector selection unit)은 모션벡터(607,605)와 블록매칭 에러(609,611)와 격자구조맵(712)를 받는다. MVSU(710)는 최적매칭 블록을 나타내는 최종 모션벡터(716)를 선택한다.

초기화나 장면전환시, 현재 프레임(504)과 기준프레임(502)을 받은 AMSU(702)는 전수조사를 하여 전수조사 모션벡터(607)와 해당하는 블록매칭에러(609)를 확인한다. 그와 동시에, MHGU(708)는 LSDU(706)로부터 격자구조맵(712)을 받아 모션벡터(607)를 나타내는 2차원 MVH(711)를 만든다. MHGU(708)에서 생긴 MVH(711)에 대해서는 도 10에서 설명한다.

경우에 따라서는, 현재 프레임(504)의 최종 블록이 AMSU(702)에 의해 처리될 때까지, MHGU(708)의 MVH(711)가 현재 프레임(504) 전체에 대해 격자구조맵(712)에 의해 분류된 동작정보를 모은다. MHGU는 격자구조맵(712)의 각각의 주기에 대한 모션옵셋인자(714)를 계산하기 위해 MVH(711)를 더 처리한다. AMSU(702)는 모션옵셋인자(714)와 격자구조맵(712)을 받아, 적응적 조사영역(603)의 m, n, Oh, Ov와 같은 치수를 구하기도 한다.

블록이 AMSU(702)에서 모션추정을 겪으면서, 전수조사영역(503)에서 생기는 모든 움직임에 대해 블록매칭에러(609)와 해당 모션벡터(607)가 계산되고, 적응적 조사영역(603)에서 생기는 모든 움직임에 대해서는 블록매칭에러(611)와 해당 모션벡터(605)가 계산된다. 모션벡터(607,605)와 블록매칭에러(609,611)는 MVSU(710)로 보내지고, MVSU는 격자구조맵(712)에 의한 블록매칭에러(609,611)와 비교해 최종 모션벡터(716)를 선택한다. MVSU(710)에 대해서는 도 11에서 설명한다.

2개의 프레임(502,504)을 바꿔서 후진은 물론 전진 모션벡터도 구할 수 있다. 도 8은 본 발명에 따른 AMSU(702)의 블록도이다. 여기서, BMU(802; block matching unit)는 현재 프레임(504)과 기준프레임(502)을 받고, 전수조사영역(503)에서 가능한 모든 움직임(dx,dy)에 대해 SAD와 같은 블록매칭에러 평가를 통해 블록매칭에러(820)를 생성한다. MSCU(804; motion vector scanner unit)는 움직임(814)을 생성하고, 경우에 따라서는 (-M/2,-N/2) 위치에서 시작해 (M/2,N/2)로 끝나는 래스터 주사방식으로 움직임(814)을 생성하기도 한다.

FSEU(812; full search evaluation unit)과 ASEU(810; adaptive search evaluation unit)는 움직임(814)과 블록매칭에러(820)를 받는다. 블록매칭에러(820)는 해당 움직임과 함께 FESU(812)와 ASEU(810)에 보내지기도 한다. FSEU(812)는 전수조사영역(503)에 대한 최소 블록매칭에러를 평가하고 해당 블록매칭에러(609)와 함께 최적매칭 모션벡터(607)를 생성할 수 있다.

SACU(806; search area computation unit)는 격자구조맵(712)과 모션인자(714)를 받고, 적응적 조사영역(603)의 m이나 n과 같은 치수(816)를 계산한다. CU(808; comparator unit)는 움직임(814,816)을 받고, (dx,dy) 동작값이 적응적 조사영역(603)에 있는지 여부를 확인하기 위해 현재 프레임(504)의 전수조사 블록매칭을 하는 동안 (dx,dy) 각각의 동작값을 비교한다. CU(808)는 (dx,dy)가 적응적 조사영역(603)에 있는지 여부를 2진신호(818)로 확인하기도 한다.

ASEU(810)는 이 신호(818)를 받고 적응적 조사영역(603)에 있는 모든 (dx,dy) 이동값에 대해 해당 최적매칭벡터(605)와 함께 최소 블록매칭에러(611)를 계산한다.

도 9a는 본 발명에 따른 LSDU(706)의 블록도이다. SWU(902; sampling window unit)는 프레임(502)을 받고, 프레임(502)의 화소에 대해 윈도우 기반 샘플링을 하여 화소샘플(912)을 구한다. SWU(902)가 표준화된 1차원 샘플링 윈도우를 가질 수도 있는데, 이런 윈도우의 크기는 검색된 피치의 주기에 좌우된다. 또, 피치 범위가 [2~N]일 경우, 화소수가 2N 이상인 샘플링 윈도우를 사용할 수 있다. 샘플링된 화소들의 평균값을 구해 이 값을 각각의 화소샘플에서 감산하여 SWU(902)가 프레임(502)의 화소샘플(912)을 평균 제로까지 표준화할 수도 있다.

WU(904; weighting unit)는 화소샘플(912)를 받고, 가중치가 부여된(이하, "가중치"라 함) 화소샘플(914)을 구하기 위해 가중치 부여기능을 한다. WU(904)가 하는 가중치 부여기능은 샘플링 윈도우 중심 둘레의 화소샘플에 관심을 두고 윈도우 가장자리의 화소샘플에는 관심을 두지 않는다. WU(904)가 가중치 샘플(914)을 구하기 위해 화소샘플(912)에 해밍(Hamming) 윈도우변조나 가중치부여를 하기도 한다. 해밍윈도우를 이용하면 이웃 블록들에서의 주기를 좀더 일정하게 검색할 수 있다.

FFT(906; Fast Fourier Transform unit)는 가중치 샘플(914)를 받고, 변환계수(916)를 구하기 위해 퓨리에 변환을 한다. 변환계수(916)는 계수의 크기성분만을 가질 수도 있다.

PPCU(908; peak and period computation unit)는 변환계수(916)를 받고, 가장 강력한 진폭 최대치를 검출하기 위해 변환계수(916)의 진폭 스펙트럼에 대한 최대치 검출을 한다. PPCU(908)는 최적 최대치의 주파수값을 선택하여 피치주기맵(918)으로 변환하기도 한다. FPU(910; filter period unit)는 피치주기맵(918)을 받고, 이 맵을 필터링하여 격자구조맵(712)을 만든다. 피치주기맵(918)을 필터링하여, FPU(910)는 일관성(평활도)를 개선하고, 맵(918)의 검출된 주기에 대한 독립되거나 잘못된 검출을 피할 수 있다.

도 9b는 프레임(502)의 격자구조(930)의 일례를 보여준다. 원(932)은 가로 피치주기 Th를 보여주기 위한 프레임(502)의 가로(수평) 성분을 보여준다. 가로 피치주기 Thdhk 같은 정보가 격자구조맵(712)에 들어있다.

블록기반으로 격자구조의 주기값을 검색하는데 윈도우 주파수변환이 아닌 윈도우신호 자기상관법과 같은 다른 방법을 이용할 수도 있다. 또, 여러가지 해상도의 프레임에 대해 계층적으로 격자구조를 검색할 수도 있다. 계층적 검색법을 사용하면, 여러가지 이미지다운 샘플링 단계들을 통해 더 넓은 범위의 피치주기를 검색할 수 있다. 예를 들어, 영상 크기가 2배로 작아지면, 주기는 2배로 작아지게 되고, 그만큼 주기검색범위는 2배로 커지게 된다.

도 7에서 설명한 바와 같이, MHGU(708)는 AMSU(702)에서 사용할 수 있는 모션옵셋 인자(714)를 계산하는데 사용되는 MVH(711)를 생성한다. 도 10은 MHGU(708)에서 생성되는 히스토그램 MVH(711)의 일례를 보여준다.

도 10의 MVH(711)는 히스토그램 빈(1004)을 갖는다. 가로축(MVh)은 -N/2에서 N/2까지 가능한 모든 수평운동값을 나타내고, 세로축(Th)은 2에서 NrKWLDML 검색가능한 모든 수평 피치주기를 나타낸다. 도 10의 히스토그램 MVH는 몇몇 화소블록에서 검색된 피치주기가 4이고 나머지 화소블록에선 5인 격자구조의 프레임을 지적한다. 또, 주기값 4와 5 둘다에서 가장 많이 생기는 모션벡터는 MV₀로서 각각 75회와 90회 생긴다. 피치주기 4의 경우, MV₀와 MV₊₄가 정확히 1피치 떨어져 있는데, 이는 MV₊₄가 프레임의 특정 블록에서 미스매칭됨을 나타낸다.

MHGU(708)는 주로 MVH(711)를 분석해 모션옵셋값(714)을 생성하지만, MVH(711)를필터링하여 격자구조맵(712)의 각 주기에 최적의 모션을 결정하기도 한다. 예를 들어, 도 10의 MVH9711)에 의하면, 주기가 4나 5인 격자구조에 속하는 블록의 적응적 조사영역(603)은 가로옵셋 Oh를 0으로 정하고 폭 n은 식 (3)에서 구한 값으로 정하도록 기능한다.

모든 히스토그램 빈(1004)은 모든 새로운 프레임이 들어오면 리셋될 수 있다. 전술한 바와 같이, MHGU(708)는 프레임마다 히스토그램을 2개 생성하는데, 한쪽 히스토그램은 수평 모션벡터성분과 주기를 위한 것이고, 다른 하나는 수직 모션벡터와 주기를 위한 것이다.

도 11은 본 발명에 따른 MVSU(710; motion vector selection unit)의 블록도이다. 도 11에서, MVCU(1102; motion vector comparison unit)는 전수조사와 적응적조사 모션벡터(607,605) 및 격자구조맵(712)를 받고, 각각의 블록에 대해 이들 모션벡터(607,605) 사이의 절대값 차이를 비교하기도 한다. 절대값 차이가 0이 아니고 격자구조맵(712)의 피치값의 수배이면, MVCU(1102)가 현재 블록위치의 입력프레임에 격자구조가 있음을 나타내는 유효신호(1110)를 생성한다. 이런 유효신호(1110)는 2진신호일 수 있다.

멀티플렉서(1106)는 유효신호(1110)를 받고 인자(1112,1114) 중의 하나를 선택한다. 유효신호(1110)를 근거로, 멀티플렉서(1106)가 벌점인자(1116)를 보낼 수 있는데, 벌점인자는 옵셋값을 포함한다. MECU(1104; match error computation unit)는 매칭에러(609,611)와 벌점인자(1116)를 받고, 선택신호(1118)를 낸다. 벌점인자(1116)를 통해 해당 전수조사 매칭에러(609)에는 벌점을 주고 해당 적응조사 모션벡터(605)에는 선택상의 가점을 준다. 예를 들어, 격자구조가 있으면, 멀티플렉서(1106)가 유효신호(1110)를 통해 벌점인자(1116)를 보내, MECU(1104)가 적응조사 모션벡터(605)를 더 잘 선택하도록 하는데, 이는 전수조사 매칭에러(609)에 벌점이 부여되었기 때문이다. 격자구조가 없으면, 멀티플렉서(1106)는 유효신호(1110)를 통해 벌점인자(1116)를 생성하여, MECU(1104)가 전수조사 매칭에러(609)에 작은 벌점을 부여하도록 함으로써, 블록매칭에러(609,611)가 비슷할 때 (선택신호(1118)와 멀티플렉서(1108)를 통해) 적응조사 모션벡터(605)가 선택되도록 한다. 경우에 따라서는, 벌점이 없는 전수조사 매칭에러(609)가 적응조사 매칭에러(611)보다 작거나 같을 수도 있다.

또, 선택신호(1118)가 2진신호일 수 있다. 선택신호(1118)를 근거로, 멀티플렉서(1108)는 전수조사와 적응조사 모션벡터(607,605) 중에서 최종 모션벡터(716)를 선택할 수 있다.

Claims

제 1 프레임 내의 화소 블록의 모션 추정 방법으로서,
상기 화소 블록에 대응하는 제 1 매칭 블록을 식별하기 위해 제 2 프레임 내의 제 1 영역을 검색하는 단계로서, 상기 제 1 매칭 블록은 상기 화소 블록과 상기 제 1 매칭 블록 사이의 적어도 하나의 에러 판단기준의 최소값인 제 1 에러값을 포함하고, 상기 제 1 매칭 블록과 관련된 제 1 모션 벡터를 계산하는, 상기 제 1 영역을 검색하는 단계;
상기 화소 블록에 대응하는 제 2 매칭 블록을 식별하기 위해 상기 제 2 프레임 내의 제 2 영역을 검색하는 단계로서, 상기 제 2 매칭 블록은 상기 화소 블록과 상기 제 2 매칭 블록 사이의 적어도 하나의 에러 판단기준의 최소값인 제 2 에러값을 포함하고, 상기 제 2 매칭 블록과 관련된 제 2 모션 벡터를 계산하는, 상기 제 2 영역을 검색하는 단계; 및
상기 제 1 및 제 2 에러값에 기초하여 상기 제 1 및 제 2 모션 벡터들 사이에서 최종 모션 벡터를 선택하는 단계; 를 포함하는 모션 추정 방법.
제 1 항에 있어서,
상기 제 1 영역을 검색하는 단계는,
상기 제 1 영역을 제 1 복수개의 화소 블록들을 포괄하는 영역으로서 제공하는 단계; 및
상기 화소 블록과 상기 제 1 매칭 블록 사이의 상기 적어도 하나의 에러 판단기준의 최소값인 상기 제 1 에러값을 포함하는 상기 제 1 매칭 블록을 식별하기 위해 상기 제 1 복수개의 화소 블록들 각각을 검색하는 단계;
를 더 포함하는, 모션 추정 방법.
제 1 항에 있어서,
상기 제 2 영역을 검색하는 단계는,
상기 제 1 프레임의 제 1 격자 구조 맵을 감지하는 단계로서, 상기 격자 구조 맵은 상기 제 1 프레임 내의 적어도 하나의 반복 구조와 관련된 적어도 하나의 피치 주기값을 포함하는, 상기 제 1 격자 구조 맵을 감지하는 단계;
상기 제 1 프레임에 대한 제 1 히스토그램을 생성하는 단계로서, 상기 제 1 히스토그램은 상기 제 1 및 제 2 모션 벡터들, 및 상기 제 1 격자 구조 맵으로부터 유도되고, 상기 제 1 히스토그램은 상기 제 1 및 제 2 모션 벡터들 및 상기 적어도 하나의 피치 주기값 사이의 관계를 포함하는, 상기 제 1 히스토그램을 생성하는 단계;
상기 제 1 격자 구조 맵 및 상기 제 1 히스토그램으로부터 적어도 하나의 파라미터를 유도하는 단계;
상기 제 2 영역을 제 2 복수개의 화소 블록들을 포괄하는 영역으로서 제공하는 단계로서, 상기 제 2 영역은 상기 제 1 영역의 부분으로서 포함되고, 상기 제 2 영역은 상기 적어도 하나의 파라미터로부터 유도된 적어도 하나의 차원을 더 포함하는, 상기 제 2 영역을 제공하는 단계; 및
상기 제 2 매칭 블록을 식별하기 위해 상기 제 2 복수개의 화소 블록들을 각각 검색하는 단계로서, 상기 제 2 매칭 블록은 상기 화소 블록 및 상기 제 2 매칭 블록 사이의 상기 적어도 하나의 에러 판단기준의 최소값을 포함하는 상기 제 2 에러값을 포함하는, 상기 제 2 복수개의 화소 블록들을 각각 검색하는 단계를 더 포함하는, 모션 추정 방법.
제 1 항에 있어서,
상기 최종 모션 벡터를 선택하는 단계는;
제 1 격자 구조 맵 내에 포함된 상기 적어도 하나의 피치 주기값에 기초하여 제 1 벌점값을 계산하는 단계로서, 상기 제 1 벌점값은 상기 제 1 에러값 및/또는 상기 제 2 에러값을 적응시키는, 상기 제 1 벌점값을 계산하는 단계; 및
상기 적응된 제 1 및 제 2 에러값들에 기초하여 상기 제 1 모션 벡터와 상기 제 2 모션 벡터 사이의 상기 최종 모션 벡터를 선택하는 단계를 더 포함하는, 모션 추정 방법.
제 1 프레임 내의 화소 블록의 모션 추정을 위한 장치로서,
상기 화소 블록에 대응하는 제 1 매칭 블록과 관련된 제 1 모션 벡터를 계산하는, 제 2 프레임을 검색하기 위해 커플링된 적응 모션 검색부 (Adaptive Motion Search Unit, AMSU) 로서, 상기 제 1 매칭 블록은 상기 화소 블록 및 상기 제 1 매칭 블록 사이의 적어도 하나의 에러 판단기준의 최소값인 제 1 에러값을 포함하고, 상기 적응 모션 검색부는 상기 화소 블록에 대응되는 제 2 매칭 블록과 관련된 제 2 모션 벡터를 더 계산하고, 상기 제 2 매칭 블록은 상기 화소 블록 및 상기 제 2 매칭 블록 사이의 상기 적어도 하나의 에러 판단기준의 최소값인 제 2 에러값을 포함하는, 상기 적응 모션 검색부;
상기 제 1 프레임의 제 1 격자 구조 맵을 감지하기 위해 커플링된 격자 구조 감지부 (Lattice Structure Detection Unit, LSDU) 로서, 상기 제 1 격자 구조 맵은 상기 제 1 프레임 내의 적어도 하나의 반복 구조와 관련된 적어도 하나의 피치 주기값을 포함하는, 상기 격자 구조 감지부;
상기 제 1 프레임에 대한 제 1 히스토그램을 생성하기 위해 커플링된 모션 히스토그램 생성부 (Motion Histogram Generating Unit, MHGU) 로서, 상기 제 1 히스토그램은 상기 제 1 모션 벡터 및 상기 제 1 격자 구조 맵으로부터 유도되고, 상기 제 1 히스토그램은 상기 제 1 모션 벡터와 적어도 하나의 상기 피치 주기값 사이의 관계를 포함하는, 상기 모션 히스토그램 생성부; 및
상기 제 1 및 제 2 에러값들에 기초하여 상기 제 1 및 제 2 모션 벡터들 사이의 최종 모션 벡터를 선택하기 위해 커플링된 모션 벡터 선택부 (Motion Vector Selection Unit, MVSU) 를 포함하는 제 1 이미지 내의 화소 블록의 모션 추정을 위한 장치.