KR20090069461A

KR20090069461A - 엠펙-2 메인 프로파일에서 ｈ.264/ａｖｃ 베이스라인프로파일로의 트랜스코딩 방법

Info

Publication number: KR20090069461A
Application number: KR1020070137134A
Authority: KR
Inventors: 정제창; 이강준; 하창우
Original assignee: 중앙대학교 산학협력단; 한양대학교 산학협력단
Priority date: 2007-12-26
Filing date: 2007-12-26
Publication date: 2009-07-01
Also published as: KR100929607B1

Abstract

픽쳐 그룹의 구조 변환을 포함하는 트랜스코딩, 예를 들어 엠펙-2 메인 프로파일에서 H.264/AVC 베이스라인 프로파일로의 트랜스코딩 절차에 관하여 개시한다. 본 발명의 일 실시예에 의하면, 우선 엠펙-2 메인 프로파일에서의 움직임 벡터를 이용하여 현재 매크로블록에 대한 예측 움직임 벡터를 구한다. 그리고 예측 움직임 벡터를 이용하여 참조 프레임에서의 탐색 범위를 결정하는데, 특히 양방향 예측인 경우에는 선형성을 고려하여 탐색 범위를 적응적으로 결정한다. 계속해서, 탐색 범위의 복잡도, 예컨대 탐색 범위에 포함되는 매크로블록들의 블록 모드 정보를 이용하여 현재 매크로블록의 블록 모드를 적응적으로 결정한다. 예를 들어, 탐색 범위에 포함되는 매크로블록들이 모두 SKIP 모드일 경우에, 현재 매크로블록은 SKIP 모드이거나 또는 MODE_16×16으로 결정한다.

Description

엠펙-2 메인 프로파일에서 Ｈ.264/ＡＶＣ 베이스라인 프로파일로의 트랜스코딩 방법{Procedure for transcoding MPEG-2 main profile into H.264/AVC baseline profile}

본 발명은 트랜스코딩에 관한 것으로, 보다 구체적으로 MPEG(Motion Picture Expert Groups)-2 메인 프로파일(Main Profile)에 따라 부호화된 데이터를 H.264/AVC(Advanced Video Coding) 베이스라인 프로파일(Baseline Profile)에 따라 부호화된 데이터로 변환하기 위한 트랜스코딩 방법에 관한 것이다.

높은 부호화 효율을 갖는 H.264/AVC 표준은 최근 새로운 멀티미디어 서비스를 위한 동영상 압축 표준으로 널리 채택되어 사용되고 있다. 특히, 그 구현이 상대적으로 간단한 H.264/AVC 베이스라인 프로파일은 디지털 멀티미디어 방송(Digital Multimedia Broadcasting, DMB), 아이피 티브이(Internet Protocol TeleVision, IPTV), 또는 멀티미디어 저장 장치 등과 같은 많은 디지털 동영상 관련 서비스의 동영상 압축 표준으로 사용되고 있다. 반면, 고화질 티브이(High Definition TeleVision, HDTV)나 디브이디(Digital Versatile Disk, DVD)와 같은 기존의 디지털 동영상 관련 서비스에서는 MPEG-2 메인 프로파일을 동영상 압축 표 준으로 채택하여 사용하고 있다. 따라서 MPEG-2 메인 프로파일에 따라 압축된 동영상 데이터를 H.264/AVC 베이스라인 프로파일에 따라 압축된 동영상 데이터로 변환하는 트랜스코딩(Transcoding) 기술은 멀티미디어 콘텐츠의 범용성을 높이기 위해서 필요하다.

그런데, MPEG-2 메인 프로파일은 양방향 예측을 지원하지만, H.264/AVC 베이스라인 프로파일은 이러한 양방향 예측을 지원하지 않는다. 따라서 MPEG-2 메인 프로파일과 H.264/AVC 베이스라인 프로파일은 픽쳐 그룹(Group Of Picture, GOP) 구조가 서로 다르다. 그리고 H.264/AVC에서는 다양한 블록 크기의 움직임 추정을 사용하기 때문에, 움직임 추정에서 높은 계산 복잡도를 유발하며, 또한 매크로블록(MacroBlock, MB)의 모드를 결정하는 절차가 필요하다. 따라서 MPEG-2 메인 프로파일에서 H.264/AVC 베이스라인 프로파일로의 트랜스코딩 성능을 향상시키기 위해서는, 트랜스코딩에 따른 화질의 열화를 최소화하면서 움직임 추정과 매크로블록 모드 결정 과정에서 발생하는 복잡도를 감소시키는 것이 중요하다.

보다 유연한 콘텐츠 변환이 가능한 케스케이디드 픽셀 도메인 트랜스코더(Cascaded Pixel Domain Transcoder, CPDT) 구조에 있어서, 픽쳐 그룹(GOP) 변환을 수반하는 트랜스코딩에서의 보다 빠른 움직임 재추정을 달성하기 위하여 여러 가지 방법이 제안되었다. 예를 들어, T. Shanableh와 M. Ghanbari는 시간축을 따라 선형적으로 변화하는 움직임 벡터의 특성을 이용하는 방법을 제안하였다("The importance of bi-directionally predicted pictures in video streams," IEEE Trans. Circuits Syst. Video Technol., vol. 11, no. 3, pp.402-414, Mar, 2001). 하지만, 이 방법은 많은 초기 탐색점을 사용하기 때문에, 움직임 재추정에 있어서 복잡도가 증가하는 단점이 있다. 그리고 J. Xin 등은 이러한 움짐임 재추정에서의 복잡도를 감소시키기 위하여 보다 개량된 방법을 제안하였는데(J. Xin, A. Verto, s. Sekiguchi, and K. Sugimoto, "Motion and mode mapping for MPEG-2 to H.264/AVC transcoding," in Proc, IEEE Int. Conf. Multimedia and expo, 2006, pp.313-316), 이 방법에 의하면 단순히 시간축을 따라 변환된 움직임 벡터를 초기 탐색점으로 사용하여 복잡도를 많이 감소시켰다. 하지만, 이 방법은 율-왜곡(Rate Distortion, RD) 성능의 감소라는 다른 부작용을 가져왔다.

그리고 MPEG-2에서 H.264/AVC로의 트랜스코딩에 있어서 빠른 블록 모드의 선택을 위하여 여러 가지 방법이 제안되었다. 예를 들어, Zhou 등은 탑-다운(top-Down) 분할 구조에 따른 방법을 제안하였고(Z. Zhou, S. Sun, S. Lei, and M. T. Sun, "Motion Information and coding mode reuse for MPEG-2 to H.264 transcoding," in Proc., IEEE Int. Symp. Circuits Syst. 2005, vol. 2, pp.1230-1233), Chen 등은 움직임 보상 후에 각 8×8 블록의 나머지 에너지의 분산에 다른 블록 모드의 선택 방법(G. Chen, Y. Zhang, S. Lin, and F. Dai "Efficient block size selection for MPEG-2 to H.264 transcoding," in Proc. ACM Int. Conf. Multimedia, 2004, pp300-303)을 제안하였다.

그러나 이러한 방법들은 복잡도의 감소 및 비트율 감소의 효과가 별로 만족스럽지 못하였다. 이러한 단점을 보완하기 위하여, 주변 블록과 임계값을 사용하여 스킵 모드도 고려한 빠른 블록 모드의 선택 방법도 제안되었지만, 모호한 모드 선 택으로 인하여 오히려 추가적인 계산 복잡성을 유발하였다.

본 발명이 해결하고자 하는 과제는 픽쳐 그룹의 구조 변환을 수반하는 트랜스코딩, 즉 MPEG-2의 메인 프로파일(양방향 예측을 지원하는 코딩)에서 H.264/AVC의 베이스라인 프로파일(양방향 예측을 지원하지 않는 코딩)로 변환을 수행하는데 있어서, 화질의 열화를 최소화하면서 빠르고 효과적인 블록 모드의 결정이 가능한 트랜스코딩 방법을 제공하는 것이다.

상기한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 엠펙-2 메인 프로파일에서 H.264/AVC 베이스라인 프로파일로의 트랜스코딩 방법은 엠펙-2 메인 프로파일에서의 움직임 벡터를 이용하여 현재 매크로블록에 대한 예측 움직임 벡터를 구하는 단계, 상기 예측 움직임 벡터를 이용하여 참조 프레임에서의 탐색 범위를 결정하는 단계, 및 상기 탐색 범위에 포함되는 매크로블록들의 블록 모드 정보를 이용하여 상기 현재 매크로블록의 블록 모드를 결정하는 단계를 포함한다.

상기 실시예의 일 측면에 의하면, 상기 예측 움직임 벡터는 하기 수학식 (E-1)을 이용하여 구할 수 있다.

(E-1)

여기서, MV_pmv는 트랜스코딩된 동영상 코덱(H.264/AVC)에서의 예측 움직임 벡터, MV_original는 트랜스코딩되기 이전의 동영상 코덱(MPEG-2)에서의 예측 움직임 벡터, N_f 및 N_b는 각각 현재 프레임과 전방향 또는 후방향 참조 프레임 사이에 B-픽쳐의 개수이다.

상기 실시예의 다른 측면에 의하면, 상기 엠펙-2 메인 프로파일에서의 움직임 벡터가 양방향 예측인 경우에, 전방향 예측으로부터 구한 제1 예측 움직임 벡터와 후방향 예측으로부터 구한 제2 예측 움직임 벡터와의 차이에 따라서 상기 탐색 범위를 적응적으로 결정할 수 있다. 이 경우에, 상기 탐색 범위는 하기 수학식(E-2)를 이용하여 적응적으로 결정할 수 있다.

(E-2)

상기 실시예의 또 다른 측면에 의하면, 상기 탐색 범위에 포함되는 매크로블록들의 블록 모드 정보를 이용하여 상기 탐색 범위를 'all skip' 유형, 'skip+16' 유형, 'all 16' 유형, 'above mode 8×8' 유형, 및 'complex' 유형 중의 어느 하나 의 유형으로 판정하고, 판정된 유형에 따라서 적응적으로 상기 현재 매크로블록의 블록 모드를 결정할 수 있다. 이 경우에, 상기 탐색 범위가 'all skip' 유형으로 판정되는 경우에, 상기 현재 매크로블록의 블록 모드는 SKIP 모드 또는 MODE_16×16 중의 하나로 결정할 수 있다. 그리고 AVER_SKIP과 SAD_SKIP을 이용하여, 상기 현재 매크로블록의 블록 모드는 SKIP 모드 또는 MODE_16×16 중의 하나로 결정할 수 있다.

본 발명은 MPEG-2 메인 프로파일에서 H.264/AVC 베이스라인 프로파일과 같은 GOP 구조 변경을 포함하는 트랜스코딩에 있어서 효과적이다. 본 발명에 의하면, 움직임벡터의 선형성 측정에 의한 적응적 탐색 영역의 선택과 참조 영역의 복잡도에 기반한 적응적인 블록 모드의 결정 방법에 의해, 화질의 열화를 최소화하면서 계산 복잡도를 획기적으로 줄일 수 있다.

이하, 첨부 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 설명한다.

도 1은 본 발명의 일 실시예에 따른 엠펙-2 메인 프로파일에서 H.264/AVC 베이스라인 프로파일로의 트랜스코딩 절차를 보여 주는 흐름도이다.

도 1을 참조하면, 우선 엠펙-2 메인 프로파일에서의 움직임 벡터를 이용하여 현재 매크로블록에 대한 예측 움직임 벡터(Predictive Motion Vector, PMV)를 구한다(S11). 전술한 바와 같이, 엠펙-2 메인 프로파일과 H.264/AVC 베이스라인 프로파 일은 GOP 구조가 상이하며, 엠펙-2 메인 프로파일에 존재하는 양방향 예측이 H.264/AVC 베이스라인 프로파일에서는 존재하지 않는다. 따라서 예측 움직임 벡터(PMV)를 구하는데 있어서는 이러한 점을 고려하여야 한다.

시간축에서의 움직임 벡터의 조정

MPEG-2 메인 프로파일에서 H.264/AVC 베이스라인 프로파일로의 트랜스코딩에 있어서, 트랜스코딩 장치에 입력으로 들어오는 입력 비트스트림과 출력으로 나가는 출력 비트스트림의 픽쳐 그룹(GOP) 구조는 다르다. 즉, MPEG-2 메인 프로파일은 양 방향 예측의 B-픽쳐를 포함하지만, H.264/AVC 베이스라인 프로파일은 B-슬라이스를 포함하지 않으며, I-슬라이스 및 P-슬라이스만으로 구성된다.

따라서 MPEG-2 메인 프로파일의 B-픽쳐에서는 세 가지 타입의 움직임 추정 모드, 즉 전방향 예측, 후방향 예측, 및 양방향 예측이 사용된다. 전방향 예측에 의한 움직임 추정은 과거 프레임을 참조 프레임으로 사용하는 것이며, 후방향 예측에 의한 움직임 추정은 미래 프레임을 참조 프레임으로 사용한다. 그리고 양방향 예측에 의한 움직임 추정에 있어서는 전방향과 후방향 움직임 추정의 평균값을 사용한다. 이러한 세 가지 타입의 움직임 추정에 있어서 참조 프레임은 반드시 I-픽쳐나 P-픽쳐이어야 한다.

반면, H.264/AVC 베이스라인 프로파일은 B-슬라이스를 포함하지 않기 때문에, P-슬라이스에서의 전방향 예측에 의한 움직임 추정만이 사용된다. 그 결과, MPEG-2에서의 후방향 예측이나 양방향 예측에 의한 움직임 벡터는 H.264/AVC에서는 그대로 사용할 수가 없으며, P-슬라이스의 전방향 예측에 의한 움직임 벡터를 구해 야한다.

트랜스코딩의 효율을 높이기 위한 한 가지 방법은 GOP 구조 변경에 맞춰서 트랜스코딩 전의 정보를 트랜스코딩 후의 정보로 이용하는 것이다. 예를 들어, MPEG-2의 B-픽쳐가 H.264/AVC의 P-슬라이스로 변경되거나 또는 GOP 변환으로 인하여 참조 프레임의 영상이 변경되는 경우에, 트랜스코딩 전의 움직임 벡터를 이용하여 트랜스코딩 후의 움직임 벡터를 구하는데 이용하면, 트랜스코딩의 효율을 향상시킬 수가 잇다. 예를 들어, B-픽쳐가 P-슬라이스로 변경되는 경우에, B-픽쳐의 후방향이나 양방향 예측에 의한 움직임 벡터를 재사용하여 H.264/AVC에서의 예측 움직임 벡터(Predictive Motion Vector, PMV)로 사용하면, 트랜스코딩된 P-슬라이스의 움직임 벡터를 보다 효율적으로 구할 수 있다.

간단한 구현을 위하여, 트랜스코딩된 H.264/AVC 베이스라인 프로파일에서는 직전에 부호화된 한 장의 프레임만을 참조 프레임으로 사용하고 또한 움직임 벡터가 시간축을 따라서 선형적으로 변한다고 가정하면, PMV는 아래의 수학식1로 계산되어 진다.

MV_pmv = MV_original/N_f , 전방향 예측

MV_pmv = MV_original×(N_f/N_b) , 후방향 예측

여기서, MV_pmv는 트랜스코딩된 동영상 코덱(H.264/AVC)에서의 예측 움직임 벡터, MV_original는 트랜스코딩되기 이전의 동영상 코덱(MPEG-2)에서의 예측 움직임 벡 터, N_f 및 N_b는 각각 현재 프레임과 전방향 또는 후방향 참조 프레임 사이에 B-픽쳐의 개수이다.

도 2a 및 도 2b는 수학식 1에 의해 계산된 예측 움직임 벡터를 나타내고 있다. 특히, 도 2a에서 PMV_backward는 후방향 예측에서 추정된 PMV를, PMV_{inter F}는 양방향 예측에서 전방향 예측으로부터 추정된 PMV를, PMV_{inter B}는 양방향 예측에서 후방향 움직임 추정으로부터 계산된 PMV를 나타낸다. 수학식 1에 의해 추정된 PMV는 시간축을 따라 선형적으로 움직이는 물체를 포함한 매크로블록에 있어서 초기 탐색점으로 잘 작동한다. 하지만, 이러한 방법은 시간축을 따라 비선형적으로 움직이는 물체를 포함한 경우에 있어서는 PMV로써 부정확하다.

계속해서 도 1을 참조하면, 단계 S11에서 구한 예측 움직임 벡터(PMV)를 이용하여 참조 프레임에서의 탐색 범위(Search Range) 또는 탐색 영역(Search Region)을 결정한다(S12). 여기서, 탐색 범위 또는 탐색 영역이란 율-왜곡 최적화 절차에서 현재 매크로블록의 블록 모드를 결정하는데 있어서 참조되는 참조 프레임 상의 영역이다. 후술하는 바와 같이, 본 발명의 실시예에 의하면 참조 프레임의 복잡도(보다 구체적으로는 참조 영역을 구성하는 매크로블록들의 블록 모드 정보)를 이용하여, 현재 매크로블록의 블록 모드를 적응적으로 추정하기 때문에, 탐색 영역 또는 탐색 범위는 이러한 참조 프레임의 복잡도를 계산하는데 이용된다.

매크로블록 모드와 참조 영역의 복잡도와의 연관성

MPEG-2와는 달리 부호화 효율을 높이기 위해 H.264/AVC에서는 움직임 추정을 위해 다양한 크기의 블록 사이즈를 지원한다. 예를 들어, H.264/AVC의 P슬라이스, 즉 인터 모드 예측 부호화에서는 다음과 같은 매크로블록 모드들을 지원한다. 즉, SKIP 모드, MODE_16×16, MODE_16×8, MODE_8×16, MODE_8×8, MODE_8×4, MODE_4×8, MODE_4×4, INTRA_4, 및 INTRA_16이 그것이다. 여기서, 'MODE_'은 인터예측 모드를 나타내고, SKIP은 스킵 모드를, 'INTRA_'는 인트라예측 모드를 나타낸다.

H.264/AVC에 따른 영상 부호화 알고리즘에서 복잡도의 상당한 부분은 율-왜곡 최적화(Rate-Distortion Optimization, RDO) 과정을 통한 블록 모드의 선택 과정에서 발생한다. 따라서 부호화 알고리즘에서의 부호화 복잡도를 감소시키는데 있어서, 블록 모드 결정 절차에서의 복잡도의 감소는 실제 H.264/AVC에 따른 영상 부호화 알고리즘의 복잡도 감소와 직결된다고 할 수 있다.

H.264/AVC에 따른 영상 부호화 알고리즘에 따라서 부호화된 P-슬라이스의 매크로블록들에 대한 블록 모드에 대한 통계치를 보면, 단순한 화면의 경우에는 전술한 여러 가지 블록 모드 중에서 통상적으로 SKIP 모드와 MODE_16×16이 높은 비율을 차지한다. 반면, 복잡한 화면의 경우에는 작은 크기의 블록 모드가 최적의 모드로 선택되는 비율이 높다. 따라서 블록 모드를 결정하기 이전에 어떤 영역이 복잡한지 또는 단순한지를 판단할 수 있다면, 블록 모드의 결정 과정에서 가능성이 낮은 특정 모드를 배제함으로써, RDO 계산의 복잡성을 감소시킬 수가 있다.

본 발명의 실시예에 의하면, 참조 영역의 복잡도 정보, 예컨대 블록 모드 정보가 현재 블록의 매크로블록 모드와 밀접한 관련이 있다는 사실을 이용한다. 보다 구체적으로, MPEG-2 메인 프로파일에서는 I-픽쳐와 P-픽쳐는 B-픽쳐 또는 P-픽쳐의 참조 프레임으로 사용된다. 도 3에 도시된 바와 같이, 참조 프레임인 I-픽쳐와 P-픽쳐에서의 참조 영역의 복잡도 정보를 알고 있고, 또한 이러한 참조 영역의 복잡도 정보와 현재 매크로블록의 블록 모드 정보와의 연관성을 찾을 수 있다면, 보다 적은 계산량을 가지고서도 현재 매크로블록의 블록 모드를 정확하게 예측할 수가 있다.

본 발명의 발명자들은 참조 영역의 블록 모드 정보, 즉 H.264/AVC의 RDO 절차에 의해 결정된 블록 모드는 현재 프레임의 블록 모드와 밀접하게 연관되어 있다는 것을 발견하였다. 표 1은 참조 영역이 평탄한 영역인 경우, 즉 참조 영역의 블록 모드가 SKIP 모드이거나 또는 MODE_16×16으로 구성되어 있는 경우에, RDO 절차를 통해서 결정된 현재 프레임의 블록 모드의 구성 비율을 보여 준다. 표 1을 참조하면, 모든 영상 시퀀스에 있어서, 참조 영역이 평탄한 영역인 경우에, 현재 프레임의 블록 모드도 SKIP 모드와 MODE_16×16의 비율이 매우 높다는 것을 알 수 있다. 이러한 사실은 현재의 프레임의 블록 모드와 참조 영역의 블록 모드가 매우 연관되어 있다는 것을 보여 주는 것이다. 본 발명에서는 블록 모드를 결정해야 하는 현재 매크로블록의 블록 모드와 참조 영역을 구성하는 매크로블록들의 블록 모드가 밀접하게 관련되어 있다는 사실을 이용한다.

시간축에 따른 선형성 측정을 통한 적응적 움직임 탐색 영역 설정

전술한 바와 같이, GOP 변환을 포함하는 트랜스코딩에서 단순히 수학식 1을 이용하여 예측 움직임 벡터(PMV)를 구하는 경우에, 시간축에 대해 비선형적으로 움직이는 물체를 포함한 매크로블록에 있어서는 예측 오차가 크게 발생한다. 이러한 비선형적인 움직임에 의해 파생되는 예측 오차를 감소시킬 수 있도록, 본 발명의 실시예에서는 양방향 예측에 있어서 전방향 예측에서 유도된 PMV_{inter F}와 후방향 예측에서 유도된 PMV_{inter B}를 비교하여 적응적으로 움직임 추정을 위한 탐색 범위를 결정한다.

도 4의 (a) 및 (b)는 움직임 추정을 위한 적응적 탐색 범위의 결정을 위한 양방향 예측에서의 움직임 벡터 선형성을 비교하여 보여 주는 도면이다. 본 발명의 실시예에서는 도 4의 (a)에 도시된 바와 같이, 양방향 예측에서 전방향 예측으로부터 구한 PMV_{inter F}와 후방향 예측으로부터 구한 PMV_{inter B}가 서로 비슷하면, 현재 매크로블록도 선형적으로 움직인다고 가정한다. 반대로, 도 4의 (b)에 도시된 바와 같이, 전방향 예측으로부터 구한 PMV_{inter F}와 후방향 예측으로부터 구한 PMV_{inter B}가 차이가 발생하면, 현재 매크로블록은 비선형적으로 움직이는 것으로 가정한다.

도 5는 전방향 예측으로부터 구한 PMV_{inter F}와 후방향 예측으로부터 구한 PMV_{inter B}m이 차이에 따른 PMV_{inter F}와 탐색 범위 32로 전역 탐색 방법에 의해 탐색된 실제 움직임 벡터와의 차이를 나타내고 있다. 본 발명의 실시예에서는, 도 5에 도시된 이러한 특성을 이용하여 MPEG-2 비트스트림에서 양방향 예측이 사용된 경우에 H.264/AVC 부호화기에서 적응적인 탐색 영역을 선택할 수 있다. 그리고 전방향 예측에 있어서는 평균적인 예측 오차가 3이고 후방향 탐색에 있어서는 평균적인 예측 오차가 6이므로, 이를 이용하여 고정된 탐색영역이 적용된다.

따라서 본 발명의 실시예에 따른 시간축을 따라 움직임 벡터의 선형성에 기반한 적응적 움직임 탐색 영역 설정은 다음의 수학식 2와 같은 알고리즘에 따라서 이루어질 수 있다.

이와 같이, 본 발명의 실시예에 의하면, 엠펙-2 메인 프로파일에서의 움직임 벡터가 양방향 예측인 경우에, 전방향 예측으로부터 구한 제1 예측 움직임 벡터와 후방향 예측으로부터 구한 제2 예측 움직임 벡터와의 차이에 따라서 RDO 절차에 이용될 탐색 범위를 적응적으로 결정한다.

계속해서 도 1을 참조하면, 단계 S12에서 구한 탐색 범위에 포함되는 매크로블록들의 블록 모드 정보를 이용하여 현재 매크로블록의 블록 모드를 결정한다(S13). 이를 위하여, 본 발명의 실시예에서는 탐색 범위를 구성하는 매크로블록들의 블록 모드의 조합에 따라서, 상기 탐색 범위를 소정의 유형으로 분류한 다음, 탐색 범위의 유형에 따라서 적응적으로 블록 모드를 결정한다. 예를 들어, 본 발명의 실시예에서는 상기 탐색 범위에 포함되는 매크로블록들의 블록 모드 정보를 이용하여 상기 탐색 범위를 'all skip' 유형, 'skip+16' 유형, 'all 16' 유형, 'above mode 8×8' 유형, 및 'complex' 유형 중의 어느 하나의 유형으로 판정하고, 판정된 유형에 따라서 적응적으로 상기 현재 매크로블록의 블록 모드를 결정한다.

참조 영역 복잡도에 기반한 적응적 모드 선택 방법

앞서 언급했던 것처럼, 현재 매크로 블록의 블록 모드는 참조 영역 또는 탐색 범위를 구성하는 매크로블록들의 블록 모드와 높은 상관성을 가지고 있다. 특히, 참조 영역이 SKIP 모드와 MODE_16×16으로 구성된 평탄한 영역인 경우에는, 현재 매크로블록의 블록 모드도 SKIP과 MODE_16×16이 될 가능성이 높다. 그리고 현재의 매크로블록의 블록 모드가 특정 모드(SKIP과 MODE_16×16모드)로 부호화 될 비율은, 참조 영역에서의 SKIP 모드와 MODE_16×16의 결합 비율에 따라 달라진다.

도 6은 참조 영역에 포함되는 매크로블록들의 블록 모드의 구성 비율에 따른 다양한 유형의 참조 영역을 나타내고 있다. 도 6의 (a)는 'all skip' 유형으로서, 참조 영역에 포함되는 모든 매크로블록이 SKIP 모드로 구성되어 있는 경우이다. 도 6의 (b)는 'skip+16' 유형으로서, 참조 영역이 SKIP 모드와 MODE_16×16이 혼합되어 구성되어 있는 경우이다. 도 6의 (c)는 'all 16' 유형으로서, 레퍼런스 영역이 모두 MODE_16×16으로 구성되어 있는 경우를 나타낸다. 도 6의 (d)는 참조 영역의 모든 블록의 크기가 8×8 이상일 경우로써, 본 발명의 실시예에서는 이를 'above mode 8×8'로 표현한다. 그리고 도 6의 (e)는 MODE_8×8보다 작은 크기의 블록이 참조 영역에 포함되어 있는 경우로써, 본 발명의 실시예에서는 이를 'complex' 유형으로 표시한다.

표 2는 참조 영역이 'all skip' 유형, 'skip+16' 유형, 'all 16' 유형일 경 우에, 현재 매크로블록의 블록 모드가 SKIP 모드와 MODE_16×16으로 되는 비율을 나타내고 있다. 표 2를 참조하면, 참조 영역이 'all skip' 유형일 경우에, 전체적으로 현재의 매크로 블록이 SKIP 모드와 MODE_16×16으로 부호화 되는 비율이 상당히 높고 특히 SKIP 모드의 비율이 높게 나타난다는 것을 알 수 있다. 그리고 참조 영역이 'skip+16' 유형인 경우에도 전체적으로 SKIP 모드와 MODE_16×16으로 부호화되는 비율이 높게 나타나지만 SKIP 모드의 비율은 'all skip' 유형에서의 비율보다는 떨어진다는 것을 알 수 있다. 또한, 참조 영역이 'all 16' 유형인 경우에는 현재 매크로블록은 MODE_16×16으로 부호화되는 비율이 SKIP 모드로 부호화되는 비율보다 더 높게 나타난다는 것을 알 수 있다. 본 발명의 실시예에서는 참조 영역의 매크로블록 모드 구성과 현재 매크로블록의 블록 모드 사이의 이러한 상관관계를 이용하여 참조 영역의 종류에 따라 적응적으로 현재 매크로블록에 대한 블록 모드를 선택한다.

본 발명의 실시예의 일 측면에 의하면, 보다 정확한 모드 예측을 위해 후술하는 세 가지의 경계값이 사용될 수 있다. 이러한 경계값은 예시적인 것이며, 이를 이용하면 참조 영역에 따라 다른 경계값을 사용하여 보다 정확한 모드 예측이 가능해질 수 있다. 본 실시예에서는 경계값의 계산을 위해 Sum of Absolute Difference (SAD) 가 사용되었는데, 여기에만 한정되는 것은 아니다.

- AVER_SKIP : 참조 영역에서 SKIP 모드 매크로블록들의 예측 위치에서의 SAD의 평균(the average of the SAD in predicted motion position of the SKIP mode MBs in the reference region)

- AVER₁₆ : 참조 영역에서의 MODE_16×16 매크로블록들의 최소 SAD의 평균(the average of the minimum SAD of MODE 16×16 MBs in reference region)

- AVERs_{KIP_FRAME} : 이전 프레임에서의 SKIP 모드 매크로블록들의 SAD의 평균(the average of the SAD of the SKIP mode MBs in the previous frame)

그리고 상기 세 개의 경계값은 아래의 두 개의 SAD값과 비교된다.

SAD_SKIP : 예측된 SKIP 위치에서의 SAD(the SAD in the predicted SKIP position)

SAD₁₆ : 탐색 영역에서의 최소 SAD(the minimum SAD in search range)

이하에서는, 이러한 세 가지의 경계값과 두 개의 SAD를 이용하는 본 발명의 실시예에 따른 모드 결정 절차에 대하여 설명한다. 후술하는 절차는 단지 예시적인 것으로서, 본 발명의 실시예가 여기에만 한정되는 것은 아니다.

전체적인 모드 선택 과정에 있어서, 참조 영역이 'above mode 8×8' 유형일 경우에는, 움직임 보상 후 남은 각각의 8×8블록의 DCT 계수의 절대값의 합의 분산을 이용하여 현재 매크로블록의 블록 모드를 판단한다. 이러한 방법은 매크로 블록이 MODE_16×16, MODE_16×8, MODE_8×16, MODE_8×8으로 부호화되는 비교적 덜 복잡한 영역에 있어서 좋은 성능을 나타낸다.

MPEG-2에서 B픽쳐로 부호화 된 프레임의 블록 모드 선택에 있어서, 표 2에서 살펴보았듯이, 참조 영역이 'all skip' 유형일 경우에는, 현재 매크로블록은 SKIP 모드와 MODE_16×16으로 부호화되는 비율이 거의 대부분을 차지한다. 따라서 본 발명의 실시예에서는 AVER_SKIP과 SAD_SKIP의 비교에 의해 SKIP과 MODE_16×16 두 가지 모드 중에서 하나를 선택한다. 그리고 본 실시예의 일 측면에 의하면, AVER_SKIP에 상수 1.2를 곱하여 가중치를 줌으로서 SKIP으로 판단되는 비율을 높일 수 있는데 이것은 'all skip' 유형일 경우에는 현재 매크로블록의 블록 모드가 SKIP모드로 결정되는 비율이 더 높기 때문이다.

참조 영역이 'skip+16' 유형인 경우에 있어서는, 표 2에서 볼 수 있듯이 SKIP 모드와 MODE_16×16의 비율이 시퀀스의 종류에 따라 다르게 나타난다. 이것은 이 영역에 있어서는 SAD 비교에 의해 모드 선택이 매우 어렵다는 것을 나타낸다. 따라서, 본 발명의 실시예에서는 두 개의 SAD 값을 사용할 수 있다. 예를 들어, 만약 SAD_SKIP이 AVER_SKIP보다 작고 SAD₁₆이 AVER₁₆보다 작다고 하면, 블록 모드를 SKIP 모드로 판단한다. 그렇지 않고, SAD₁₆만이 AVER₁₆보다 작다면 RD 비용(cost)이 SKIP과 MODE_16×16의 선택을 위해 계산된다. 최종적으로 두 개의 SAD 값이 모두 경계값보다 크다면 각각의 8×8블록의 움직임 보상후의 에너지의 분산이 모드 선택을 위해 사용된다.

참조 영역이 'all 16' 유형인 경우에는, 표 2에서 보듯이 MODE_16×16의 비율이 SKIP 모드의 비율보다 더 높다. 또한, 'all 16' 유형인 경우에 있어서는 AVER_SKIP을 사용할 수 없으므로 AVERs_{KIP_FRAME}을 이용하여 SAD_SKIP이 AVERs_{KIP_FRAME}보다 작은 경우에는 SKIP 모드로 판정하고, 반대로 SAD₁₆만이 AVER₁₆보다 작다면 MODE_16×16으로 부호화하며, 나머지 경우에 있어서는 각각의 8×8블록의 움직임 보상후의 에너지의 분산이 모드 선택을 위해 사용된다.

뒤따르는 B 픽쳐와 P 픽쳐에 있어서 참조 영역 복잡도를 판단하는 P 픽쳐는 더욱 정확한 모드 선택이 필요하다. 따라서 P 픽쳐에 있어서 참조 영역이 'all skip' 유형, 'skip+16' 유형, 또는 'all 16' 유형인 경우에는, SKIP 모드, MODE_16×16, MODE_16×8, MODE_8×16, MODE_8×8 들의 RD 비용을 계산하여 최소의 RD 비용을 가진 값을 최적의 모드로 결정한다. P 픽쳐의 다른 참조 영역에 있어서는 B 픽쳐의 방법과 동일하게 모드 선택이 이루어진다.

참조 영역이 'complex' 유형인 경우에 있어서는, 모든 블록 모드들의 RD 비용이 계산되고 최소의 RD 비용을 갖는 블록 모드가 선택되어 진다. 비록 이러한 과정에서 높은 계산 복잡도가 요구되지만 기존의 모드 예측에 있어서 많은 예측 오차를 발생시키는 복잡한 영역에서의 모드 선택의 오차를 줄일 수 있고 복잡한 영역에서만 이러한 과정을 수행하여 계산 복잡도를 최대한 줄였다.

본 발명의 실시예에 따라서 제안한 방법의 전체적인 수행과정은 수학식 3 및 수학식 4의 의사 코드와 같다.

실험 결과

트랜스코더를 구현함에 있어서, 복호기 부분의 MPEG-2 메인프로파일을 위해 TM5를 사용하였고 부호기 부분의 H.264/AVC 베이스라인 프로파일을 위해 J.M 8.6이 사용되었다. 입력 비트스트림을 위해 CIF(352×288) 크기의 시퀀스를 초당 30프레 임씩 4Mbps로 부호화하였고 GOP 구조는 N=12, M=4를 사용하였다. 출력 비트스트림을 위해 H.264/AVC 베이스라인 부호화기는 이전에 부호화된 한 장의 프레임을 레퍼런스로 사용하였다. 따라서 출력 비트스트림의 GOP 구조는 N=∞, M=1이다. MPEG-2에서 I 픽쳐로 부호화된 프레임은 모든 모드를 탐색영역 16에서 RDO을 통해 결정된 모드로 부호화하였다. 모든 실험은 1Gb의 메모리 크기와 함께 Intel Pentium Core2 1.86GHz에서 수행되었다.

도 7부터 도 10까지 각 테스트 시퀀스 별 RD 성능을 비교하기 위해, 탐색 영역 16을 가지고 모든 모드의 RD 비용을 계산하여 최소의 RD 비용을 가진 모드를 선택하는 방법을 "reference method"로 표시하였다. Adaptive Search Range Selection (ASRS)에 있어서는, 탐색영역은 수학식 2에 의해 결정된 탐색영역에서 모든 모드의 RD 비용을 구해서 최소의 RD 비용을 가지는 모드가 최적의 모드로 선택된다. ASRS+Adaptive Mode Decision Method(AMDM)에 있어서는, 탐색영역은 수학식 2의해 결정되고, 블록 모드의 선택은 앞서 설명한 참조 영역 복잡성에 의한 적응적 모드 선택 방법에 따라 결정된다.

도 7 내지 도 10을 참조하면, Akiyo 시퀀스의 경우에는 모든 방법의 RD 성능이 거의 같게 나타나고 있다. 하지만 계산 복잡도에 있어서 Reference 방법과 비교하여 ASRS에 의해 20%, ASRS+AMDM 방법에 의해 84%가 감소하였다. Foreman 시퀀스의 경우에는, 같은 bit-rate에서 Reference 방법과 비교한 평균적인 PSNR 감소는 ASRS에 있어서 0.05dB 미만이고 ASRS+AMDM 방법은 0.1dB 미만을 나타낸다. Reference 방법에 비교한 계산 복잡도 감소는 ASRS가 16%, ASRS+AMDM는72%의 감소 가 발생했다. Bus 시퀀스의 경우에 있어서는 Reference 방법과 비교한 R-D 성능에 있어서 ASRS에 의해 0.03dB, ASRS+AMDM에 의해 0.1dB 정도의 감소가 발생하였지만, 계산 복잡도에서 각각 13%, 71%의 감소를 가져왔다. Football 시퀀스에 있어서는 Reference와 ASRS방법의 R-D 성능은 거의 같음을 볼 수 있고, Reference와 비교한 ASRS+AMDM은 2000kbps이하에 있어서 평균 0.1dB의 성능감소를 2000kbps 이상에 있어서는 평균적으로 0.15dB의 성능감소를 볼 수 있다. 계산 복잡도는 각각 12%와 70%가 감소하였다. 아래의 표 3은 각각의 시퀀스 별 부호화 시간을 나타내고 있다. 표 3을 참조하면, 평탄한 영역을 많이 포함한 Akiyo 시퀀스의 계산 복잡도 감소가 두드러진다는 것을 알 수 있다.

이상에서 상세하게 설명한 본 발명의 실시예는 단지 본 발명의 기술 사상을 보여주기 위한 예시적인 것으로서, 상기 실시예에의 의하여 본 발명의 기술 사상이 한정되는 것으로 해석되어서는 안 된다. 본 발명의 보호 범위는 후술하는 본 발명의 특허청구범위에 의하여 특정된다.

도 2a 및 도 2b는 GOP 변환이 있는 경우에 시간축을 따라서 조정된 예측 움직임 벡터를 보여 주는 도면이다.

도 3은 MPEG-2의 움직임 벡터에 의하여 지시되는 참조 영역을 보여 주는 도면이다.

도 4는 MPEG-2에서의 움직임 추정이 양방향 예측인 경우에, 움직임 벡터의 선형성을 비교하여 보여 주는 도면이다.

도 5는 양방향의 움직임 벡터들로부터 각각 구한 두 개의 예측 움직임 벡터의 차이에 따른 실제 움직임 벡터와 예측 움직임 벡터와의 오차를 보여 주는 그래프이다.

도 6은 본 발명의 실시예에 따른 트랜스코딩에서 이용되는 참조 영역의 여러 가지 유형들을 보여 주는 도면이다.

도 7은 Akiyo 시퀀스에 대하여 본 발명의 실시예에 따른 방법과 종래의 방법에 따른 RD 성능을 비교하여 보여 주는 그래프이다.

도 8은 Foremam 시퀀스에 대하여 본 발명의 실시예에 따른 방법과 종래의 방법에 따른 RD 성능을 비교하여 보여 주는 그래프이다.

도 9는 Bus 시퀀스에 대하여 본 발명의 실시예에 따른 방법과 종래의 방법에 따른 RD 성능을 비교하여 보여 주는 그래프이다.

도 10은 Football 시퀀스에 대하여 본 발명의 실시예에 따른 방법과 종래의 방법에 따른 RD 성능을 비교하여 보여 주는 그래프이다.

Claims

엠펙-2 메인 프로파일에서 H.264/AVC 베이스라인 프로파일로의 트랜스코딩 방법에 있어서,

엠펙-2 메인 프로파일에서의 움직임 벡터를 이용하여 현재 매크로블록에 대한 예측 움직임 벡터를 구하는 단계;

상기 예측 움직임 벡터를 이용하여 참조 프레임에서의 탐색 범위를 결정하는 단계; 및

상기 탐색 범위에 포함되는 매크로블록들의 블록 모드 정보를 이용하여 상기 현재 매크로블록의 블록 모드를 결정하는 단계를 포함하는 엠펙-2 메인 프로파일에서 H.264/AVC 베이스라인 프로파일로의 트랜스코딩 방법.
제1항에 있어서, 상기 예측 움직임 벡터는 하기 수학식 (E-1)을 이용하여 구하는 것을 특징으로 하는 엠펙-2 메인 프로파일에서 H.264/AVC 베이스라인 프로파일로의 트랜스코딩 방법.

(E-1)

여기서, MV_pmv는 트랜스코딩된 동영상 코덱(H.264/AVC)에서의 예측 움직임 벡터, MV_original는 트랜스코딩되기 이전의 동영상 코덱(MPEG-2)에서의 예측 움직임 벡 터, N_f 및 N_b는 각각 현재 프레임과 전방향 또는 후방향 참조 프레임 사이에 B-픽쳐의 개수이다.
제1항에 있어서, 상기 엠펙-2 메인 프로파일에서의 움직임 벡터가 양방향 예측인 경우에, 전방향 예측으로부터 구한 제1 예측 움직임 벡터와 후방향 예측으로부터 구한 제2 예측 움직임 벡터와의 차이에 따라서 상기 탐색 범위를 적응적으로 결정하는 것을 특징으로 하는 엠펙-2 메인 프로파일에서 H.264/AVC 베이스라인 프로파일로의 트랜스코딩 방법.
제3항에 있어서, 상기 탐색 범위는 하기 수학식(E-2)를 이용하여 적응적으로 결정하는 것을 특징으로 하는 엠펙-2 메인 프로파일에서 H.264/AVC 베이스라인 프로파일로의 트랜스코딩 방법.

(E-2)
제1항에 있어서, 상기 탐색 범위에 포함되는 매크로블록들의 블록 모드 정보를 이용하여 상기 탐색 범위를 'all skip' 유형, 'skip+16' 유형, 'all 16' 유형, 'above mode 8×8' 유형, 및 'complex' 유형 중의 어느 하나의 유형으로 판정하고, 판정된 유형에 따라서 적응적으로 상기 현재 매크로블록의 블록 모드를 결정하는 것을 특징으로 하는 엠펙-2 메인 프로파일에서 H.264/AVC 베이스라인 프로파일로의 트랜스코딩 방법.
제5항에 있어서, 상기 탐색 범위가 'all skip' 유형으로 판정되는 경우에, 상기 현재 매크로블록의 블록 모드는 SKIP 모드 또는 MODE_16×16 중의 하나로 결정하는 것을 특징으로 하는 엠펙-2 메인 프로파일에서 H.264/AVC 베이스라인 프로파일로의 트랜스코딩 방법.
제6항에 있어서, AVER_SKIP과 SAD_SKIP을 이용하여, 상기 현재 매크로블록의 블록 모드는 SKIP 모드 또는 MODE_16×16 중의 하나로 결정하는 것을 특징으로 하는 엠펙-2 메인 프로파일에서 H.264/AVC 베이스라인 프로파일로의 트랜스코딩 방법.