KR100845303B1

KR100845303B1 - 고속 부호화를 위한 되먹임 구조를 가진 동영상 압축부호화 장치 및 최적 모드 결정 방법

Info

Publication number: KR100845303B1
Application number: KR1020060095244A
Authority: KR
Inventors: 석진욱; 조창식; 이정우
Original assignee: 한국전자통신연구원
Priority date: 2006-09-29
Filing date: 2006-09-29
Publication date: 2008-07-10
Also published as: US20080080616A1; KR20080029333A; US8194740B2

Abstract

본 발명은 H.264 동영상 부호화기에서 화질 열화를 최소화 시키면서 고속의 동영상 부호화를 이르기 위한 H.264 동영상 부호화기의 구조이다.

이러한 본 발명은 H.264 동영상 부호화에서 고화질 부호화에 절대 필요한 Rate-Distortion Optimization을 Feed-Back 추정을 통해 구현하고 Rate-Distortion Optimization을 위해 여러번 수행되어지는 DCT-IDCT 연산을 최소화 시켜 고속의 H.264 부호화가 이루어지도록 한다.

본 발명의 동영상 압축 부호화 장치는, 현재 프레임 데이터에 대하여 B-슬라이스 체크를 수행하기 위한 B-슬라이스 체크부; 최대 분할 블록을 사용하는 인터 모드에 대하여 움직임 예측 및 움직임 보상을 수행하여 예측 비트값을 구하기 위한 최대 인터 모드 예측 비트값 산정부; 최소 분할 블록을 사용하는 인트라 모드에 대하여 움직임 예측 및 움직임 보상을 수행하여 예측 비트값을 구하기 위한 최소 인트라 모드 예측 비트값 산정부; 선형 파라미터 및 통계값들을 사용하여 상기 최대 분할 블록의 인터 모드 및 최소 분할 블록의 인트라 모드를 제외한 모드들에 대하여 예측 비트값들을 구하기 위한 선형 예측 비트값 추정부; 상기 최대 인터 모드 예측 비트값 산정부, 최소 인트라 모드 예측 비트값 산정부 및 선형 예측 비트값 추정부가 구한 예측 비트값들을 비교하여 적합한 인코딩 모드를 결정하기 위한 모드 결정부; 및 상기 모드 결정부에서 결정한 모드로 현재 프레임 데이터를 부호화하기 위한 부호화부를 포함하는 것을 특징으로 한다.

H.264, Rate-Distortion Optimization, DCT, Feed-Back

Description

고속 부호화를 위한 되먹임 구조를 가진 동영상 압축 부호화 장치 및 최적 모드 결정 방법{Video compressing encoding device based on feed-back structure for a fast encoding and Decision method of optimal mode}

도 1은 일반적인 H.264 부호화기의 구성을 도시한 블록도.

도 2는 일반적인 H.264 동영상 부호화 방법에서 각 모드별 예측값 판단 순서를 도시한 흐름도.

도 3은 종래 기술에 따른 H.264 동영상 압축 부호화 방법을 도시한 개념도.

도 4는 일반적인 H.264 동영상 압축 부호화 장치 구성 중 움직임 추정부의 세부 구성을 도시한 블록도.

도 5는 일반적인 H.264 동영상 압축 부호화 장치 구성 중 움직임 보상부의 세부 구성을 도시한 블록도.

도 6은 본 발명 일실시예에 따른 H.264 동영상 압축 부호화 장치의 구성을 도시한 블록도.

도 7은 도 6의 H.264 동영상 압축 부호화 장치 구성 중 선형 피드백 예측부의 세부 구성을 도시한 블록도.

* 도면의 주요 부분에 대한 부호의 설명

100 : 부호화부

200 : B-슬라이스 체크부

300 : 최대 인터 모드 예측 비트값 산정부

400 : 선형 예측 비트값 추정부

460 : 선형 피드백 연산부

500 : 최소 인트라 모드 예측 비트값 산정부

600 : 모드 결정부

본 발명은 H.264 등과 같은 동영상 압축 부호화 장치로서 DR 최적화(Rate-Distortion Optimization)를 위해 수행되는 연산의 양을 최소한으로 줄이면서 화질 저하를 피하기 위한 동영상 압축 부호화 장치 및 이에 사용되는 최적 모드 결정 방법에 관한 것이다.

화상회의, 고화질 텔레비전, 주문형 동영상(VOD) 수신기, MPEG(Moving Picture Experts Group) 영상을 지원하는 퍼스널 컴퓨터, 게임기, 지상파 디지털 방송 수신기, 디지털 위성 방송 수신기 및 케이블 텔레비전(CATV) 등에서 사용되는 디지털 영상 데이터는 영상 자체의 특성과 아날로그 신호를 디지털화하는 과정에서 데이터량이 크게 늘어나기 때문에 그대로 사용되기보다는 효율적인 압축방법에 의 해 압축된다.

디지털 영상 데이터의 압축은 크게 3가지 방법을 이용하고 있다. 시간적인 중복성(temporal redundancy)을 줄이는 방법과 공간적인 중복성(spatial redundancy)을 줄이는 방법 그리고 발생 부호의 통계적 특성을 이용하여 줄이는 방법이 주로 이용된다. 이중에서 시간적인 중복성을 줄이는 대표적인 방법이 바로 움직임 추정 및 보상 방법으로서 MPEG이나 H.263 등 대부분의 동영상 압축 표준안에서 사용되고 있다.

현재 화면의 특정 부분에 대해 이전 또는 이후의 기준 화면으로부터 가장 유사한 부분을 찾고, 두 부분의 차이 성분만을 전송하는 움직임 추정 및 보상 방법은, 가능한 한 움직임 벡터를 정밀하게 찾을수록 전송할 차이 성분이 줄어들어 데이터를 더욱 효과적으로 줄일 수 있지만 이전 또는 이후의 화면에서 가장 유사한 부분을 찾기 위해서는 상당한 추정 시간과 계산량이 요구되어 진다.

H.264 코덱의 경우에는 기존의 SAD 위주의 탐색 방법 대신 RDO(Rate Distortion Optimization)에 기반한 비용(cost) 함수를 통해 탐색을 수행한다. H.264에서 사용하는 비용 함수는 기존의 SAD 값에 부호화된 계수의 개수에 라그랑지안 멀티플라이어를 곱한것의 합으로 이루어진 Rate-Distortion Cost를 사용하여 탐색을 하게된다. 이때 부호화된 계수의 개수는 양자화 계수값에 비례하는 값으로 치환되어 결정되며 여기에 고정된 라그랑지안 멀티플라이어 값을 곱하여 보상 비용(cost)값을 결정하여 탐색을 수행한다.

또한, H.264 동영상 부호화에서는 압축효율과 높은 화질을 동시에 얻기 위하 여 기존의 동영상 부호화에서는 16x16 대블록 혹은 8x8 대블록 단위로 부호화를 수행한 것과 달리, 모두 8가지의 서로 다른 블록화 모드를 가지고 각각의 블록중에서 최소 값을 가지는 모드를 선택하도록 구성되어 있다.

그러나 8가지의 서로 다른 블록화 모드를 결정하기 위해서 각 모드에 대하여 정화소, 부화소 탐색뿐 아니라, 각종 부호화 연산이 모두 독립적으로 수행되어야 하기 때문에 기존의 동영상 부호화 알고리즘에 비하여 많은 계산량과 계산시간을 소비한다. 그러므로 블록 모드 결정을 위한 연산을 최소로 줄여 연산시간을 줄이면서 화질 저하를 피할 수 있어야 IP-TV를 위한 동영상 부호화기를 실제로 구현할 수 있다.

도 1은 일반적인 H.264 동영상 부호화기에 대한 블록 구성도로서 이중 움직임 추정기는 정화소 단위의 움직임 벡터를 추정하는 정화소 추정기와, 찾아낸 정화소의 움직임 벡터를 근거로 하여 최적의 반화소 및 1/4 화소 단위의 움직임 벡터를 추정하는 부화소 추정기로 구성된다.

도시한 종래의 H.264 부호화기는 움직임 예측 모듈(22, ME, motion estimation), 움직임 보상 모듈(24, MC, motion compensation), 인트라 모드 예측 모듈(32, IME, intra mode estimation), 인트라 예보(34, IP, intra prediction), 역양자화 모듈(58, IQ, dequantization), 역변환 모듈(56, IDCT, inverse transform), 엔트로피 부호화 모듈(64), 디블록킹 필터(92, Deblocking Filter) 및 프레임 메모리(12, 14, 18) 등으로 구성된다.

움직임 예측 모듈(22)은 여러 장의 참조 영상으로부터 움직임 벡터를 찾는 기능과 비트율과 에러가 가장 적은 최적의 매크로 블록 타입을 찾는 매크로 블록 모드 결정 기능을 수행한다. 움직임 보상 모듈(24)은 움직임 예측 모듈(22)에서 찾은 움직임 벡터와 매크로 블록 모드 타입에 따라서 참조 영상으로부터 보상 영상을 획득하는 기능을 수행하기 위한 것인데, 도 1에서 움직임 보상 모듈(24)은 비교되는 두 영상의 차이를 획득하는 구조만으로 한정되고, 이후 보상 영상을 획득하기 위한 과정은 DCT 블록(25) 및 양자화(54)에 의해 계속된다.

인트라 모드 예측 모듈(32)은 매크로 블록을 인트라(intra)로 코딩할 시에 인접한 주위의 블록들로부터 예측을 수행하여 최적의 인트라 예측 모드를 선택하는 기능을 수행하며, 인트라 예보 모듈(34)에서는 선택된 인트라 예측 모드를 이용하여 이전에 코딩된 인접 블록으로부터 인트라 예측이 된 보상 영상을 획득하는 기능을 수행한다. 인트라 모드 예측 모듈(32)은 인터 모드의 움직임 예측 모듈(22)과 기능이 유사하므로 인트라 모드의 움직임 예측 모듈이라 칭하기도 하며, 인트라 예보 모듈(34)은 인터 모드의 움직임 보상 모듈(24)과 기능이 유사하므로, 인트라 모드의 움직임 보상 모듈이라 칭하기도 한다.

DCT모듈(52)은 4x4 이산코사인 변환을 수행하고, 양자화 모듈(54)은 DCT 모듈(52)에서 변환된 계수들을 양자화하는 기능을 수행하며, IDCT 모듈(56)과 역양자화 모듈(58)은 DCT 모듈(52)과 양자화 모듈(54)에서 수행된 것을 반대로 수행한다.

IDCT 모듈(56)의 수행 결과(Dn')가 디블록킹 필터(92)를 통과하지 않은 복원 영상이다. 엔트로피 부호화기(64)는 양자화된 DCT 계수들의 발생 확률에 따른 비트 할당을 사용하여 엔트로피 부호화를 수행한다. 디블록킹 필터 모듈(92)에서는 IDCT 모듈(56)을 통해서 획득된 복원 영상을 좀 더 좋은 화질의 영상으로 개선하는 기능을 수행하고, 이 개선된 영상은 프레임 메모리 모듈(18)에 저장되어 이후에 입력되는 영상들의 참조 영상이 된다.

H.264 표준에서는 종래의 MPEG-1 또는 MPEG-2 또는 MPEG-4 표준과 달리 여러 장의 참조 영상들을 갖고, 바로 이전 프레임뿐만 아니라 그 전에 코딩되었던 다수의 영상들도 참조 영상으로 사용할 수 있다. 이를 다중 참조 프레임이라고 한다.

H.264 표준에는 종래의 MPEG 표준들과 비슷하게 I_슬라이스(Slice), P_슬라이스, B_슬라이스, SI_슬라이스 및 SP_슬라이스 등이 존재하는데, H.264 표준은 슬라이스 단위로 부호화를 수행한다. 설명의 편의상 슬라이스를 하나의 프레임으로 인식할 수 있다. 즉 I_슬라이스는 종래의 MPEG 표준에서의 I_픽쳐(picture), P_슬라이스는 종래의 P_픽쳐, B_슬라이스는 종래의 B_픽쳐와 거의 유사하다.

H.264 규격에서는 현재 입력받은 프레임 데이터를 이루는 각 매크로 블록을 이전 프레임 데이터에 대한 무빙 벡터 및 차이값으로 표시하는 인터 모드와, 동일한 현제 프레임 데이터에 대한 무빙 벡터 및 차이값으로 표시하는 인트라 모드가 존재한다. 인터 모드는 매크로 블록의 크기에 따라 P16x16, P16x8, P8x16, P8x8, P8x4, P4x8, P4x4 모드가 존재하며, 인트라 모드는 매크로 블록의 크기에 따라 I16x16, I4x4 모드가 존재하며, H.264 부호화 장치는 이 중 비용(cost)이 저렴하여 압축 효율이 높은 모드를 선택하여 부호화를 수행한다.

여기서, 상기 모드들 중에서 최적의 블록 모드를 선택하는 방법이 RDO(Rate-distortion optimization)이고, 이를 이용한 움직임 예측 및 모드 결정 알고리즘은 30~40% 정도의 부호화 속도를 희생하여, 5~10% 정도의 비트율을 절약할 수 있다.

따라서, H.264 규격의 경우 최적의 모드를 찾기 위해 입력받은 프레임 데이터에 대하여 도 2에 도시한 바와 같은 순서대로(구현에 따라서는 B-슬라이스 체크 다음에 I16x16 모드를 수행하기도 한다) 모든 모드에 대한 움직임 예측 및 움직임 보상을 수행하여 보상 비용을 산출하고, 산출된 보상 비용을 비교하여 최적 모드를 결정하는 것이 일반적이다.

도 3은 기존 RDO를 사용하는 경우 H.264 동영상 부호화 장치에서 사용하는 부호화 과정을 도시한 개념도이다. 도 3을 개념도라 칭한 것은 도 3에 도시한 블록 구조를 모두 독립적인 하드웨어로 구현할 수도 있지만, 그 경우 하드웨어 부담이 커지기 때문에 모드 결정을 위한 블록(1200 ~ 1700)들 중 2개 이상의 블록을 하나의 하드웨어의 순차적인 동작으로 구현하도록 구현하는 경우가 많은 것을 감안한 것이다. 도 3에서 움직임 예측(ME) 블록 및 움직임 보상(MC) 블록은 도 4 및 도 5에 도시한 구조를 가질 수 있으며, 부호화부(1100)는 도 1에 도시한 H.264 부호화기의 구조를 가질 수 있다.

도 3에서 B 슬라이스 체크부(1200)는 이전 프레임 및 이후 프레임을 사용하여 무빙 벡터가 0인 분할 블록으로 처리하는 SKIP 모드에서의 예측값을 산출하기 위한 것이며, P16x16, P16x8/P8x16, P8x8 이하의 모드별로 구비하는 3개의 인터 모드 예측부(1300, 1400, 1500)는 연속되는 동영상 부분에서 각 인터 모드별 예측 비트값을 산출하기 위한 것이며, I16x16, I4x4의 모드별로 구비하는 2개의 인트라 예측부는 연속되지 않는 동영상 부분에서 각 인트라 모드별 예측 비트값을 산출하기 위한 것이다. 구현에 따라서는 상기 P8x8 모드는 다시 P8x8, P8x4, P4x8, P4x4 모드로 구분하여 처리할 수도 있다.

도시한 바와 같이 종래기술에 따른 동영상 부호화 장치는, 입력되는 프레임 데이터에 대하여, 6개의 예측 비트값 산정부(1200 ~ 1700)에서 7가지의 모드에 대한 예측 비트값들(16x8/8x16 모드 정예측부는 16x8 및 8x16 모드에 대한 두 예측 비트값을 산출한다)을 각각 산출한다.

모드 결정부(1900)는 상기 7개의 예측값들을 검토하여 이중 가장 적합한 모드를 선택하고, 최종 부호화부(1100)는 상기 결정된 모드에 따라 입력되는 프레임 데이터를 변환한다.

도 3에서 도 5를 통해 알 수 있는 것은 도 1로 나타나 있는 기본 H.264 동영상 부호화기가 RDO를 사용할 경우 사실상 각 블록 모드 마다 한번씩 수행된다는 사실이다. 또한, 움직임 추정(ME)의 경우에는 5개의 참조영상에 대하여 모두 한 번씩 수행되어야 하기 때문에 동영상 부호화의 연산량은 크게 늘어난다.

각 블록을 독립된 하드웨어 모듈로 구현하는 경우에는 하드웨어 구성 비용 부담이 크며, 하나의 예측값 연산 하드웨어 모듈로 구현하는 경우에는 상기 하드웨어 모듈이 8번(각 모드별 7번, 결정된 모드로 1번)의 예측값 연산을 수행하게 되 어, 동영상 부호화에 따른 연산량이 상당히 많음을 알 수 있다.

따라서, 본 발명은 상술한 종래의 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 동영상 압축 부호화 연산에서 효과적으로 RDO를 수행하면서 연산량을 최소한으로 줄일 수 있는 동영상 압축 부호화 장치를 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명의 동영상 압축 부호화 장치는, 현재 프레임 데이터에 대하여 B-슬라이스 체크를 수행하기 위한 B-슬라이스 체크부; 최대 분할 블록을 사용하는 인터 모드에 대하여 움직임 예측 및 움직임 보상을 수행하여 예측 비트값을 구하기 위한 최대 인터 모드 예측 비트값 산정부; 최소 분할 블록을 사용하는 인트라 모드에 대하여 움직임 예측 및 움직임 보상을 수행하여 예측 비트값을 구하기 위한 최소 인트라 모드 예측 비트값 산정부; 선형 파라미터 및 통계값들을 사용하여 상기 최대 분할 블록의 인터 모드 및 최소 분할 블록의 인트라 모드를 제외한 모드들에 대하여 예측 비트값들을 구하기 위한 선형 예측 비트값 추정부; 상기 최대 인터 모드 예측 비트값 산정부, 최소 인트라 모드 예측 비트값 산정부 및 선형 예측 비트값 추정부가 구한 예측 비트값들을 비교하여 적합한 인코딩 모드를 결정하기 위한 모드 결정부; 및 상기 모드 결정부에서 결정한 모드로 현재 프레임 데이터를 부호화하기 위한 부호화부를 포함하는 것을 특징으로 한다.

상기 목적을 달성하기 위한 본 발명의 동영상 압축 부호화 방법은, (a) 입력받은 현재 프레임 데이터에 대하여 B-슬라이스 체크를 수행하는 단계; (b) 최대 분할 블록을 사용하는 인터 모드에 대하여 움직임 예측 및 움직임 보상을 수행하여 예측 비트값을 구하는 단계; (c) 상기 최대 분할 블록을 사용하는 모드를 제외한 인터 모드 및 최소 분할 블록을 사용하는 모드를 제외한 인트라 모드에 대하여 움직임 예측을 수행하는 단계; (d) 상기 (c) 단계의 움직임 예측 결과에 선형 파라미터를 적용하여 모드별 예측 비트값을 구하는 단계; (f) 상기 최소 분할 블록을 사용하는 인트라 모드에 대하여 움직임 예측 및 움직임 보상을 수행하여 선형 예측 비트값을 구하는 단계; (g) 상기 선형 예측 비트값들을 비교하여 최적의 모드를 결정하는 단계; 및 (h) 상기 결정된 최적 모드로 현재 프레임 데이터를 부호화하는 단계를 포함하는 것을 특징으로 한다.

종래에는 RDO(Rate Distortion Optimization)를 수행하기 위해 움직임 추정(ME) 과정과 움직임 보상(MC)의 모든 과정을 선택가능한 모든 블록 모드에 대하여 전부 수행하는 방식으로 많은 연산량과 연산 시간을 필요로 하였다.

반면에, 본 발명에서는 RDO를 선형 파라미터를 적용한 연산으로 간단하게 RD(Rate Distortion)값을 추정할 수 있는 별도의 RD 추정기를 구비하며, 상기 선형 파라미터는 되먹임(Feedback) 과정을 통해 실시간적으로 갱신한다.

이러한 방식을 사용할 경우 최대 분할 블록의 인터 모드 및 최소 분할 블록의 인트라 모드를 제외한 대부분의 블록 모드에 대한 보상 비용 산정 과정에서 MC 과정이 불필요하게 되므로, 부호화 절차 중 최적 모드 결정에 필요한 연산량을 대폭 줄일 수 있다.

이하, 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.

(실시예)

본 실시예에서는, 본 발명의 사상에 따른 고속 부호화를 위한 피드백 구조를 H.264 부호화 장치에 적용한 경우로 구체화하여 설명하겠다. 따라서, H.264 규격에 적용한 본 실시예의 경우 최대 분할 블록의 인터 모드는 P16x16 모드이며, 최소 분할 블록의 인트라 모드는 I4x4 모드이며, 보상 비용은 RD값이다.

도 6은 본 발명 일실시예에 따른 동영상 압축 부호화 장치의 구조를 도시한다. 본 실시예의 동영상 압축 부호화 장치는, 현재 프레임 데이터에 대하여 B-슬라이스 체크를 수행하기 위한 B-슬라이스 체크부(200); P16x16 모드에 대하여 움직임 예측(ME) 및 움직임 보상(MC)을 수행하여 예측 비트값을 구하기 위한 최대 인터 모드 예측 비트값 산정부(300); I4x4 모드에 대하여 동일 프레임내 픽셀들에 대한 예측 및 보상을 수행하여 보상 비용을 구하기 위한 최소 인트라 모드 예측 비트값 산정부(500); 선형 파라미터 및 통계값들을 사용하여 상기 P16x16 모드 및 상기 I4x4 모드를 제외한 모드들에 대하여 예측 비트값을 구하기 위한 선형 예측 비트값 추정부(400); 상기 최대 인터 모드 예측 비트값 산정부(300), 최소 인트라 모드 예측 비트값 산정부(500) 및 선형 예측 비트값 추정부(400)가 구한 선형 예측 비트값들(Y₀, Y₁, Y₂, Y₃, Y₄, Y₅, Y₆)을 비교하여 적합한 인코딩 모드를 결정하기 위한 모드 결정부(600); 및 상기 모드 결정부(600)에서 결정한 모드로 현재 프레임 데이터를 부호화하기 위한 H.264 부호화부(100)를 포함하는 것을 특징으로 한다.

상기 B-슬라이스 체크부(200)는 종래 기술에 따른 경우와 동일하게 구현할 수도 있지만, 하드웨어 부담을 줄이기 위해 루미넌스 성분 데이터에 대해서만 B-슬라이스 체크를 수행하여 예측 비트값(Y₀)을 구하도록 구현할 수도 있다.

상기 최대 인터 모드 예측 비트값 산정부(300) 및 최소 인트라 모드 예측 비트값 산정부(500)도 종래 기술에 따른 경우와 동일하게 구현할 수도 있지만, 하드웨어 부담을 줄이기 위해 루미넌스 성분 데이터에 대해서만 움직임 예측(ME), 움직임 보상(MC) 및 보상 비용 산정을 수행하도록 구현할 수도 있다. 이 경우 상기 최대 인터 모드 예측 비트값 산정부의 세부 구성은 루미넌스 움직임 예측부(310, 510), 루미넌스 움직임 보상부(320, 520) 및 라이팅부(350, 550)로 이루어질 수 있다. 여기서 상기 라이팅부(350, 550)는 부호화부(100)의 라이팅부(150)와는 달리 부호화 시퀀스는 출력하지 않고 선형 예측값(Y₁, Y₆)만을 출력한다.

상기 선형 예측 비트값 추정부(400)는, 인터 16x8 모드의 움직임 추정을 수행하기 위한 제1 움직임 추정부(411), 상기 제1 움직임 추정부(411)의 결과값들로 부터 선형 예측값 추정에 필요한 통계값 벡터(E_dY2, E_dUV2,σ_dY2,σ_dUV2)을 구하기 위한 제1 통계값 산출부(471), 인터 8x16 모드의 움직임 추정을 수행하기 위한 제2 움직임 추정부(412), 상기 제2 움직임 추정부(412)의 결과값들로부터 선형 예측값 추정에 필요한 통계값 벡터(E_dY3, E_dUV3,σ_dY3,σ_dUV3)을 구하기 위한 제2 통계값 산출부(472), 인터 8x8 모드 이하의 인터 모드의 움직임 추정을 수행하기 위한 제3 움직임 추정부(413), 상기 제3 움직임 추정부(413)의 결과값들로부터 선형 예측값 추정에 필요한 통계값 벡터(E_dY4, E_dUV4,σ_dY4,σ_dUV4)을 구하기 위한 제3 통계값 산출부(473), 및 상기 4개의 통계값 벡터((E_dY2, E_dUV2,σ_dY2,σ_dUV2), (E_dY3, E_dUV3,σ_dY3,σ_dUV3), (E_dY4, E_dUV4,σ_dY4,σ_dUV4), (E_dY5, E_dUV5,σ_dY5,σ_dUV5)) 각각에 대하여 선형 파라미터를 적용하여 상기 수학식 1에 따른 선형 예측값을 구하기 위한 선형 피드백 연산부(460)를 포함하도록 구현할 수 있다.

상기 선형 피드백 연산부(460)는 도 7에 도시한 바와 같이, 상기 선형 파라미터(P)와, 상기 루미넌스 오차의 평균값 및 분산값, 크로미넌스 오차의 평균값 및 분산값(X = (E_dY, E_dUV,σ_dY,σ_dUV))으로부터 선형 예측 비트값(Y)을 산정하기 위한 선형 연산기(462); 상기 산정된 선형 예측 비트값(Y)과 도 6의 부호화부(100)에서 출력하는 실제 선형 예측 비트값(Y_r)의 오차(E_ε)를 구하기 위한 감산기(466); 상기 선형 예측 비트값들의 오차(E_ε)로부터 상기 선형 파라미터의 갱신값(

)을 산출 하기 위한 파라미터 갱신기(464); 및 상기 갱신된 파라미터(

)를 저장하기 위한 파라미터 저장기(468)를 포함하도록 구현할 수 있다.

한편, 도면에서는 통계값 산출부(471 ~ 474)를 각 모드별로 하나씩 구비하는 것을 도시하였지만, 상당히 단순한 연산에 속하므로 하나의 통계값 산출부로 4개 모드에 대한 통계값 벡터를 순차적으로 구하도록 구현할 수도 있다. 반대로, 도면에서는 선형 피드백 예측부(460)를 하나의 모듈로 도시하였지만, 각 모드별로 선형 피드백 예측부를 따로따로 구비하도록 구현할 수도 있다.

상기 모드 결정부(600)는 7개의 선형 예측값들(Y₀, Y₁, Y₂, Y₃, Y₄, Y₅, Y₆)을 입력받아 각 예측값들에 대하여 후술하는 수학식 4를 적용하여 RD값을 구하고, RD값에 따라 가장 보상 비용이 적은 모드를 선택한다.

상기 구성의 본 실시예에 따른 동영상 압축 부호화 장치에서 수행되는 부호화 방법은, (a) 입력받은 현재 프레임 데이터에 대하여 B-슬라이스 체크를 수행하는 단계; (b) 최대 분할 블록을 사용하는 인터 모드(H.264에서는 P16x16)에 대하여 움직임 예측 및 움직임 보상을 수행하여 예측 비트값을 구하는 단계; (c) 상기 최대 분할 블록을 사용하는 모드를 제외한 인터 모드 및 최소 분할 블록을 사용하는 모드를 제외한 인트라 모드에 대하여 움직임 예측을 수행하는 단계; (d) 상기 (c) 단계의 움직임 예측 결과에 선형 파라미터를 적용하여 모드별 예측 비트값을 구하는 단계; (f) 상기 최소 분할 블록을 사용하는 인트라 모드(H.264에서는 I4x4)에 대하여 움직임 예측 및 움직임 보상을 수행하여 선형 예측 비트값을 구하는 단계; (g) 상기 선형 예측 비트값들을 비교하여 최적의 모드를 결정하는 단계; 및 (h) 상기 결정된 최적 모드로 현재 프레임 데이터를 부호화하는 단계를 포함한다.

상기 (a) 단계는 도 6의 b-슬라이스 체크부(200)에서 수행되며, 종래기술에 따라 구현할 수도 있지만, 보다 연산량을 절감하기 위해 상기 (a) 단계는 현재 프레임 데이터 중 루미넌스 성분 데이터에 대하여만 B-슬라이스 체크를 수행하도록 구현하는 것이 바람직하다.

상기 (b) 단계는 도 6의 최대 인터 모드 예측 비트값 산정부(300)에서 수행되며, 움직임 예측을 수행하고 움직임 예측값에 따라 해당 매크로 블록 데이터를 DCT 변환하고 양자화하는 절차를 수행한다. 보다 연산량을 절감하기 위해서는 크로미넌스 성분 픽셀값들로 이루어진 크로미넌스 프레임에 대하여는 움직임 예측(ME) 및 움직임 보상(MC)을 수행하지 않고, 루미넌스 성분 픽셀값들로 이루어진 루미넌스 프레임에 대하여만 움직임 예측(ME) 및 움직임 보상(MC)을 수행하여 상기 최대 분할 블록을 사용하는 인터모드에 대한 보상 비용을 구하도록 구현할 수도 있다.

상기 (c) 단계 내지 (e) 단계는 본 발명의 주된 특징부를 구성하는 부분으로 도 6의 선형 예측 비트값 추정부(400)에서 수행된다. 상기 (c) 단계에서 각 인터 모드(H.264에서는 16x8, 8x16, 8x8, 8x4, 4x8, 4x4)에 대해서는 레퍼런스 프레임과의 움직임 예측을 수행하고, 각 인트라 모드(H.264에서는 16x16)에 대해서는 동일 프레임내 픽셀값들과의 움직임 예측을 수행한다.

상기 (d) 단계는, 상기 (c) 단계의 각 모드별 움직임 예측 결과로부터 움직임 예측 결과로부터 각 모드별 루미넌스 오차의 평균값 및 분산값, 크로미넌스 오차의 평균값 및 분산값을 추출하는 (d1) 단계; 및 상기 각 모드별 선형 파라미터와, 상기 각 모드별 루미넌스 오차의 평균값 및 분산값, 크로미넌스 오차의 평균값 및 분산값으로부터 각 모드별 선형 예측 비트값을 연산하는 (d2) 단계로 이루어질 수 있다.

에서는 먼저 (c) 단계의 각 모드들에 대한 움직임 예측 결과값들로부터 각 모드의 통계값(오차 평균값 및 분산값)를 구하는 (d1) 단계; 및 상기 각 모드의 통계값과 선형 파라미터를 상기 수학식 1에 적용하여 모드별 예측 비트수를 구하는 (d2) 단계로 이루어질 수 있다.

상기 (d2) 단계에서는 후술할 수학식 1에 따라 모드별 예측 비트수를 산정하며, 상기 (e) 단계에서는 상기 (d2) 단계에서 구한 각 모드별 예측 비트수를 후술할 수학식 2에 적용하여 (c) 단계의 각 모드별 RD값을 구할 수 있다.

상기 (f) 단계는 도 6의 최소 인트라 모드 예측 비트값 산정부(500)에서 수행되며, 종래 기술의 경우와 동일한 방식으로 수행하도록 구현할 수도 있지만, 보다 연산량을 절감하기 위해서는 크로미넌스 성분 픽셀값들로 이루어진 크로미넌스 프레임에 대하여는 동일 프레임 픽셀값들과의 예측 및 보상을 수행하지 않고, 루미넌스 성분 픽셀값들로 이루어진 루미넌스 프레임에 대하여만 상기 예측 및 보상을 수행하여 상기 최소 분할 블록을 사용하는 인트라모드에 대한 예측 비트값을 구하도록 구현할 수도 있다.

또한, 구현에 따라 상기 선형 파라미터를 갱신하는 단계를 더 포함할 수 있다. 선형 파라미터의 갱신은 상기 (c) 단계 내지 (e) 단계의 과정이 1회 수행되는 매크로 블록 단위로 이루어질 수도 있지만, 하나의 프레임을 처리하는 중에는 동일한 선형 파라미터를 적용하는 것이 바람직하므로, 하나의 프레임을 처리한 후 상기 선행 파라미터를 갱신하도록 구현하는 것이 더 유리하다.

마지막으로, 본 발명의 주요한 특징부인 선형 피드백 연산부(460)의 동작에 대하여 상세히 살펴보기로 한다.

본 발명과 같이 RD값을 계산하기 위해서는 선형 피드백 연산부(460)가 블록별 예측 비트값을 정확히 추정하거나 매우 작은 오차를 가지고 예측 비트값 추정을 하여야 한다.

선형 피드백 연산부(460)는 입력으로 움직임 보상(MC) 과정에서 구해지는 DCT값 혹은 이에 상응하는 정보인 오차의 평균값과 오차의 분산값 등을 사용한다. 선형 피드백 연산부(460)의 내부에는 입력 값에 대응하는 파라미터들을 가지고 있으며 이에 대한 입력 값과 내장한 선형 파라미터와의 선형 혹은 비선형 결합을 통해 예측 비트값을 구한다.

구해진 예측 비트값과 실제 예측 비트값과의 오차를 파라미터 보정값으로 하여 파라미터를 수정해가며 추정을 계속하면 최소 오차를 가지면서 예측 비트값 추정이 가능해진다. 도 7은 이러한 작동을 하기 위한 개념도로서 입력은 명암 성분과 색상성분의 블록 오차의 평균 값과 분산이며 파라미터는 이에 대응하는 값으로 입 력 통계값 벡터은 X, 선행 파라미터 벡터는 P로 표시되었다.

상기 선형 피드백 연산부(460)의 동작 원리를 수학식과 입력 예를 통해 자세히 살펴보도록 한다.

상기 선형 예측 비트값 추정부(400) 내 각 움직임 추정부(411 ~ 414)는 현재 프레임 데이터에서 구획된 매크로 블록의 픽셀들을 현재 프레임의 무빙벡터로 정의되는 윈도우 영역의 픽셀들과의 오차(블록간 오차)를 산출한다.

명암(루미넌스) 성분을 Y, 색상(크로미넌스) 성분을 UV로 표시할 때, 상기 통계값 추출부(471 ~ 474)에서 추출한 명암 성분의 블록간 오차의 평균값을 E_dY, 색상 성분의 평균 값을 E_dUV라 하자. 또한, 명암 성분의 블록간 분산을 σ_dY, 색상 성분의 분산을 σ_dUV라 하고 각각을 성분으로 하는 입력 벡터를 X=(E_dY, E_dUV,σ_dY,σ_dUV)로 놓은 다음, 이에 대응하는 파라미터 벡터를 P=(P₁, P₂, P₃, P₄)로 놓자.

이때, 각 블록 모드에 따라 파라미터가 나누어져서 P16x16, P16x8, P8x16, P8x8, I16x16, I4x4의 6가지 파라미터 셋트가 나타나므로, 파라미터는 6x4의 행렬 형태로 나타난다. 만일 최적 블록 모드가 P16x16으로 주어진다면 이에 대한 X=(E_dY, E_dUV,σ_dY,σ_dUV)와 파라미터 P=(P₁, P₂, P₃, P₄), 그리고 해당 블록 모드의 헤더 정보에 대응하는 고정값 b를 가정하면 선형 예측 비트값(Y)는 수학식 1과 같이 나타난다.

수학식 1에서 Y값은 RD(Rate Distortion)값 계산을 위한 레이트(Rate)값의 선형 예측값이다. 이 값과 움직임 보상(MC) 과정을 거쳐 실제로 나타난 Rate값을 Y_R이라 하면 오차값 E_ε은 수학식 2와 같이 정의 된다.

수학식 2에서 정의된 오차 값 E_ε를 최소화 시키도록 파라미터를 조정하는 것이 목표이므로 목표 함수를 E_ε ²으로 놓으면 파라미터의 갱신은 목표함수의 최급강하 방향으로 파라미터를 수학식 3과 같이 계산함으로서 얻어진다.

수학식 3에서 t는 적응 이득으로서 확률화 아미오 규칙(Stochastic Armijo's Rule)에 의해 구해진다. 갱신된 파라미터

는 다음 부분에서 P로 치환되어 다음 입력에 대한 파라미터로 Rate값의 예측에 사용되어진다.

상기 과정으로 구해진 레이트값의 선형 예측값은 하기 수학식 4에 따라 RD(Rate Distortion)값 산출에 사용된다.

RD = SAD + λY_n

최초의 현재 프레임 데이터에 대하여 선형 예측 비트값 추정 연산은, 상기 선형 파라미터(P)는 초기값을 적용하여 수행된다. 초기값을 부여하는 방법으로는 예컨대, 20 내외의 일정한 값으로 모두 같게 놓거나, 10~20 사이의 아무 값으로 놓거나, 이전 인코딩의 결과를 참조하여 결정된 파라미터 초기값을 적용할 수 있다.

상술한 바와 같이, 선형 예측된 Rate값 Y를 사용하여 이전에 구해진 SAD 혹은 SSD값 등과 라그랑지안을 형성하면 구하고자 하는 RD 값이 되므로 직접 움직임 보상(MC)을 수행하지 않고도 RDO를 수행할 수 있게 되어 H.264 부호화 연산량을 크게 줄일 수 있게 된다.

이상, 본 발명을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 발명은 상기 실시예에 한정되지 않고, 본 발명의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러가지 변형이 가능하다.

상기 구성에 따른 본 발명의 동영상 압축 부호화 장치 및 부호화 방법을 실시함에 따라, 동영상 압축 부호화 연산에서 효과적으로 RDO를 수행하면서 연산량을 최소한으로 줄일 수 있는 효과가 있다.

Claims

현재 프레임 데이터에 대하여 B-슬라이스 체크를 수행하기 위한 B-슬라이스 체크부;

최대 분할 블록을 사용하는 인터 모드에 대하여 움직임 예측 및 움직임 보상을 수행하여 예측 비트값을 구하기 위한 최대 인터 모드 예측 비트값 산정부;

최소 분할 블록을 사용하는 인트라 모드에 대하여 움직임 예측 및 움직임 보상을 수행하여 예측 비트값을 구하기 위한 최소 인트라 모드 예측 비트값 산정부;

선형 파라미터 및 통계값들을 사용하여 상기 최대 분할 블록의 인터 모드 및 최소 분할 블록의 인트라 모드를 제외한 모드들에 대하여 예측 비트값들을 구하기 위한 선형 예측 비트값 추정부;

상기 최대 인터 모드 예측 비트값 산정부, 최소 인트라 모드 예측 비트값 산정부 및 선형 예측 비트값 추정부가 구한 예측 비트값들을 비교하여 적합한 인코딩 모드를 결정하기 위한 모드 결정부; 및

상기 모드 결정부에서 결정한 모드로 현재 프레임 데이터를 부호화하기 위한 부호화부

를 포함하는 것을 특징으로 하는 동영상 압축 부호화 장치.
제1항에 있어서, 상기 B-슬라이스 체크부는,

상기 현재 프레임 데이터 중 루미넌스 성분 데이터에 대해서만 B-슬라이스 체크를 수행하는 것을 특징으로 하는 동영상 압축 부호화 장치.
제1항에 있어서, 상기 최대 인터 모드 예측 비트값 산정부는,

상기 현재 프레임 데이터 중 루미넌스 성분 데이터에 대해서만 움직임 예측 및 움직임 보상을 수행하는 것을 특징으로 하는 동영상 압축 부호화 장치.
제1항에 있어서, 상기 최소 인트라 모드 예측 비트값 산정부는,

상기 현재 프레임 데이터 중 루미넌스 성분 데이터에 대해서만 움직임 예측 및 움직임 보상을 수행하는 것을 특징으로 하는 동영상 압축 부호화 장치.
제1항에 있어서, 상기 선형 예측 비트값 추정부는,

상기 최대 분할 블록의 인터 모드 및 최소 분할 블록의 인트라 모드를 제외한 각 모드에 대하여 움직임 예측을 수행하기 위한 움직임 예측부;

상기 움직임 예측부의 각 모드별 움직임 예측 결과로부터 각 모드별 루미넌스 오차의 평균값 및 분산값, 크로미넌스 오차의 평균값 및 분산값을 추출하기 위한 통계값 추출부; 및

상기 각 모드별 선형 파라미터와, 상기 각 모드별 루미넌스 오차의 평균값 및 분산값, 크로미넌스 오차의 평균값 및 분산값으로부터 각 모드별 선형 예측 비트값을 산정하기 위한 선형 예측 비트 연산부

를 포함하는 것을 특징으로 하는 동영상 압축 부호화 장치.
제5항에 있어서, 상기 선형 예측 비트 연산부는,

상기 선형 파라미터와, 상기 루미넌스 오차의 평균값 및 분산값, 크로미넌스 오차의 평균값 및 분산값으로부터 선형 예측 비트값을 산정하기 위한 선형 연산기;

상기 산정된 선형 예측 비트값과 상기 부호화부에서 출력하는 실제 선형 예측 비트값의 오차를 구하기 위한 감산기;

상기 선형 예측 비트값들의 오차로부터 상기 선형 파라미터의 갱신값을 산출하기 위한 파라미터 갱신기; 및

상기 갱신된 파라미터를 저장하기 위한 파라미터 저장기

를 포함하는 것을 특징으로 하는 동영상 압축 부호화 장치.
제6항에 있어서, 상기 선형 연산기는,

하기 수학식에 따라 선형 선형 예측 비트값을 산정하는 것을 특징으로 하는 동영상 압축 부호화 장치.

입력벡터 : X=(E_dY, E_dUV,σ_dY,σ_dUV)

파라미터 벡터 : P=(P₁, P₂, P₃, P₄)

Y : 루미넌스 성분, UV : 크로미넌스 성분

E_dY : 루미넌스 성분의 블록간 오차의 평균값

E_dUV : 크로미넌스 성분의 블록간 오차의 평균값

σ_dY : 루미넌스 성분의 블록간 분산

σ_dUV : 크로미넌스 성분의 블록간 분산

P^T : 벡터 P의 transpose 벡터

b : 헤더 정보에 대응하는 고정값
제7항에 있어서, 상기 감산기는,

하기 수학식에 따른 오차를 구하는 것을 특징으로 하는 동영상 압축 부호화 장치.

Y_R : 움직임 보상(MC) 과정을 거쳐 실제로 나타난 Rate값

E_ε: 상기 수학식에 의해 정의되는 오차값
제8항에 있어서, 상기 파라미터 갱신기는,

하기 수학식에 따라 상기 선형 파라미터의 갱신값을 구하는 것을 특징으로 하는 동영상 압축 부호화 장치.

E_ε: 청구항 8의 수학식에 의해 정의되는 오차값

t : 확률화 아미오 규칙(Stochastic Armijo's Rule)에 의해 구해지는 적응 이득
삭제
(a) 입력받은 현재 프레임 데이터에 대하여 B-슬라이스 체크를 수행하는 단계;

(b) 최대 분할 블록을 사용하는 인터 모드에 대하여 움직임 예측 및 움직임 보상을 수행하여 예측 비트값을 구하는 단계;

(c) 상기 최대 분할 블록을 사용하는 모드를 제외한 인터 모드 및 최소 분할 블록을 사용하는 모드를 제외한 인트라 모드에 대하여 움직임 예측을 수행하는 단계;

(d) 상기 (c) 단계의 움직임 예측 결과에 선형 파라미터를 적용하여 모드별 예측 비트값을 구하는 단계;

(f) 상기 최소 분할 블록을 사용하는 인트라 모드에 대하여 움직임 예측 및 움직임 보상을 수행하여 선형 예측 비트값을 구하는 단계;

(g) 상기 선형 예측 비트값들을 비교하여 최적의 모드를 결정하는 단계; 및

(h) 상기 결정된 최적 모드로 현재 프레임 데이터를 부호화하는 단계

를 포함하는 것을 특징으로 하는 동영상 압축 부호화 방법.
제11항에 있어서, 상기 (a) 단계는,

상기 현재 프레임 데이터 중 루미넌스 성분 데이터에 대해서만 B-슬라이스 체크를 수행하는 것을 특징으로 하는 동영상 압축 부호화 방법.
제11항에 있어서, 상기 (b) 단계는,

상기 현재 프레임 데이터 중 루미넌스 성분 데이터에 대해서만 움직임 예측 및 움직임 보상을 수행하는 것을 특징으로 하는 동영상 압축 부호화 방법.
제11항에 있어서, 상기 (f) 단계는,

상기 현재 프레임 데이터 중 루미넌스 성분 데이터에 대해서만 움직임 예측 및 움직임 보상을 수행하는 것을 특징으로 하는 동영상 압축 부호화 방법.
제11항에 있어서, 상기 (d) 단계는,

(d1) 상기 (c) 단계의 각 모드별 움직임 예측 결과로부터 움직임 예측 결과로부터 각 모드별 루미넌스 오차의 평균값 및 분산값, 크로미넌스 오차의 평균값 및 분산값을 추출하는 단계; 및

(d2) 상기 각 모드별 선형 파라미터와, 상기 각 모드별 루미넌스 오차의 평균값 및 분산값, 크로미넌스 오차의 평균값 및 분산값으로부터 각 모드별 선형 예측 비트값을 연산하는 단계

를 포함하는 것을 특징으로 하는 동영상 압축 부호화 방법.
제15항에 있어서, 상기 (d2) 단계는,

하기 수학식에 따라 선형 예측 비트값을 산정하는 것을 특징으로 하는 동영상 압축 부호화 방법.

입력벡터 : X=(E_dY, E_dUV,σ_dY,σ_dUV)

파라미터 벡터 : P=(P₁, P₂, P₃, P₄)

Y : 루미넌스 성분, UV : 크로미넌스 성분

E_dY : 루미넌스 성분의 블록간 오차의 평균값

E_dUV : 크로미넌스 성분의 블록간 오차의 평균값

σ_dY : 루미넌스 성분의 블록간 분산

σ_dUV : 크로미넌스 성분의 블록간 분산

P^T : 벡터 P의 transpose 벡터

b : 헤더 정보에 대응하는 고정값
삭제
제16항에 있어서,

(i) 상기 (h) 단계의 산출 데이터에 따라 상기 선형 파라미터를 갱신하는 단계

를 더 포함하는 것을 특징으로 하는 동영상 압축 부호화 방법.
제18항에 있어서, 상기 (i) 단계는,

하기 수학식에 따라 상기 선형 파라미터의 갱신값을 구하는 것을 특징으로 하는 동영상 압축 부호화 방법.

Y_R : 움직임 보상(MC) 과정을 거쳐 실제로 나타난 Rate값

E_ε: 상기 수학식에 의해 정의되는 오차값

t : 확률화 아미오 규칙(Stochastic Armijo's Rule)에 의해 구해지는 적응 이득