KR20070009915A

KR20070009915A - 픽쳐 드롭 및 합성을 통하여 레이트 컨트롤을 수행하는비디오 코딩 방법, 그 방법을 이용한 비디오 인코더, 및트랜스코더

Info

Publication number: KR20070009915A
Application number: KR1020050064542A
Authority: KR
Inventors: 신규환
Original assignee: 삼성전자주식회사
Priority date: 2005-07-16
Filing date: 2005-07-16
Publication date: 2007-01-19
Also published as: KR100714695B1; US20070014364A1

Abstract

본 발명은 비디오 코딩에 관한 것으로서, 동영상을 인코딩 또는 트랜스코딩할 때 보다 효율적으로 비트를 할당할 수 있도록 하는 비디오 코딩 방법 및 장치에 관한 것이다.

본 발명에 따른 비디오 코딩 방법은 복수의 픽쳐 중에서 드롭될 픽쳐를 결정하는 단계와, 상기 드롭될 픽쳐와 인접하는 픽쳐 및 상기 드롭될 픽쳐의 가중합을 구함으로써 합성 픽쳐를 생성하는 단계와, 상기 생성된 합성 픽쳐를 부호화하여 비트스트림을 생성하는 단계로 이루어진다.

비디오, 압축, MPEG, B 픽쳐

Description

픽쳐 드롭 및 합성을 통하여 레이트 컨트롤을 수행하는 비디오 코딩 방법, 그 방법을 이용한 비디오 인코더, 및 트랜스코더{Method for performing rate control by picture dropping and picture composition, video encoder, and transcoder thereof}

도 1은 픽쳐의 종류에 따라 소요되는 비트량을 나타내는 도면.

도 2는 DVD 타이틀의 한 챕터에서 사용된 비트율의 변화를 GOP 별로 표시한 도면.

도 3과 같이 연속된 비디오 시퀀스의 일 예를 나타낸 도면.

도 4는 도 3의 비디오 시퀀스에 종래의 픽쳐 드롭 방법을 적용한 결과 시퀀스를 나타낸 도면.

도 5는 도 3의 비디오 시퀀스에 본 발명에 따른 B 픽쳐 합성 모드를 적용한 결과 시퀀스를 나타낸 도면.

도 6은 도 1과 같은 환경에서 B 픽쳐를 드롭하고 합성하는 예를 나타낸 도면.

도 7은 알파 혼합의 개념을 설명하는 개략도.

도 8은 모션 블러링의 기본 개념을 설명하는 도면.

도 9는 도 7의 알파 혼합에 모션 블러링을 추가한 과정을 나타낸 도면.

도 10은 본 발명의 일 실시예에 따른 비디오 인코더의 구성을 나타낸 블록도.

<도면의 주요부분에 대한 부호 설명>

100 : 비디오 인코더 105 : 모션 추정부

110 : 모션 보상부 115 : 차분기

120 : 변환부 125 : 양자화부

130 : 역 양자화부 135 : 역 변환부

140 : 가산기 101, 145 : 버퍼

150 : 엔트로피 부호화부 160 : 드롭 결정부

170 : 픽쳐 합성부

본 발명은 비디오 코딩에 관한 것으로서, 동영상을 인코딩 또는 트랜스코딩할 때 보다 효율적으로 비트를 할당할 수 있도록 하는 레이트 컨트롤 방법 및 장치에 관한 것이다.

인터넷을 포함한 정보통신 기술이 발달함에 따라 문자, 음성뿐만 아니라 화상통신이 증가하고 있다. 기존의 문자 위주의 통신 방식으로는 소비자의 다양한 욕구를 충족시키기에는 부족하며, 이에 따라 문자, 영상, 음악 등 다양한 형태의 정보를 수용할 수 있는 멀티미디어 서비스가 증가하고 있다. 멀티미디어 데이터는 그 양이 방대하여 대용량의 저장매체를 필요로 하며 전송시에 넓은 대역폭을 필요로 한다. 예를 들면 640*480의 해상도를 갖는 24 bit 트루 컬러의 이미지는 한 픽쳐당 640*480*24 bit의 용량 다시 말해서 약 7.37Mbit의 데이터가 필요하다. 이를 초당 30 픽쳐로 전송하는 경우에는 221Mbit/sec의 대역폭을 필요로 하며, 90분 동안 상영되는 영화를 저장하려면 약 1200G bit의 저장공간을 필요로 한다. 따라서 문자, 영상, 오디오를 포함한 멀티미디어 데이터를 전송하기 위해서는 압축코딩기법을 사용하는 것이 필수적이다.

데이터를 압축하는 기본적인 원리는 데이터의 중복(redundancy)을 제거하는 과정이다. 이미지에서 동일한 색이나 객체가 반복되는 것과 같은 공간적 중복이나, 동영상 픽쳐에서 인접 픽쳐가 거의 변화가 없는 경우나 오디오에서 같은 음이 계속 반복되는 것과 같은 시간적 중복, 또는 인간의 시각 및 지각 능력이 높은 주파수에 둔감한 것을 고려한 심리시각 중복을 제거함으로써 데이터를 압축할 수 있다. 데이터 압축의 종류는 소스 데이터의 손실 여부와, 각각의 픽쳐에 대해 독립적으로 압축하는지 여부와, 압축과 복원에 필요한 시간이 동일한 지 여부에 따라 각각 손실/무손실 압축, 픽쳐 내/픽쳐간 압축, 대칭/비대칭 압축으로 나눌 수 있다. 이 밖에도 압축 복원 지연 시간이 50ms를 넘지 않는 경우에는 실시간 압축으로 분류하고, 픽쳐들의 해상도가 다양한 경우는 스케일러블 압축으로 분류한다. 문자 데이터나 의학용 데이터 등의 경우에는 무손실 압축이 이용되며, 멀티미디어 데이터의 경우에는 주로 손실 압축이 이용된다. 한편 공간적 중복을 제거하기 위해서는 픽쳐 내 압축이 이용되며 시간적 중복을 제거하기 위해서는 픽쳐간 압축이 이용된다.

그러나, 비트스트림을 전송할 네트워크의 대역폭이 충분하지 않거나, 비트스트림을 디코딩하는 기기 성능의 제약이 있는 경우에는 보다 작은 크기의 비트스트림이 요구되며, 상기 압축 기법 만으로는 이러한 요구를 충족시키지 못하는 경우가 많다.

따라서, 종래의 비디오 인코더 내지 트랜스코더는 움직임을 예측하고, 영상을 변환하여 최종적으로 압축된 비트스트림을 생성하는 과정에서 비트율 조정(bit-rate control)을 수행한다. 이러한 비트율 조정은 대개 GOP(Group Of Picture) 별로 수행된다. MPEG(Moving Picture Expert Group) 계열의 동영상 압축 방법에서 한 GOP에는 I 픽쳐, P 픽쳐, B 픽쳐와 같이, 예측 방법에 따라 서로 다른 픽쳐의 종류가 존재한다. 일반적으로 이러한 픽쳐들은 서로 다른 크기를 가진다.

MPEG 계열의 동영상 압축 방식에서는 픽쳐의 종류에 따라 도 1과 같이 서로 다른 크기의 비트를 요구한다. 특히, 다른 픽쳐를 참조하지 않고 스스로 재생이 가능한 I 픽쳐의 경우에는 가장 많은 비트를 요구한다. 그리고, I 픽쳐나 다른 P 픽쳐를 단방향으로 참조하여 차이나는 부분으로 이루어지는 P 픽쳐는 더 적은 비트를 필요로 하며, I 픽쳐나 P 픽쳐를 양방향으로 참조하여 차이나는 부분으로 이루어지는 B 픽쳐는 가장 적은 비트를 필요로 한다. 이러한 픽쳐 종류에 따른 비트 요구량의 변동 외에도, 전반적인 장면의 복잡도나 움직임의 속도에 따라 하나의 GOP에서 필요로 하는 최적화된 비트 요구량은 많은 차이를 보이게 된다.

특히, DVD와 같이 비트율의 변동이 심한 VBR(Variable Bit-Rate) 소스의 경우 네트워크 스트리밍에 적합하지 않다. 도 2는 DVD 타이틀의 한 챕터(chapter)에 서 사용된 비트율의 변화를 GOP 별로 표시한 도면이다. 도 2에서 보면, GOP 인덱스가 변화함에 따라서 한 GOP 단위의 평균 비트율이 3.5Mbps 부터 9Mbps까지 급격하게 변하고 있는 것을 알 수 있다. 이러한 특성을 갖는 VBR 소스 데이터를 그대로 네트워크로 스트리밍하게 되면, 높은 비트율을 갖는 시퀀스에서는 필요한 시간 내에 비디오 디코더에 상기 소스 데이터가 도달하지 못하여 버퍼 언더런(buffer underrun)이 발생할 수 있다. 이렇게 되면 비디오 디코더에서는 화면이 끊기는 현상이 일어난다.

그렇다고 해서, 상기 VBR 소스 데이터의 최대 비트율을 기준으로 네트워크의 대역폭을 설정한다면, 최대 비트율과 평균 비트율과의 차이에 해당하는 부분만큼의 네트워크 자원이 낭비되는 결과가 된다. 더욱이 네트워크의 가용 대역폭이 변화된다면 주어진 VBR 소스 데이터를 전송하기는 어려워진다.

따라서, 네트워크로 비디오 데이터를 전송하기 위해서는, 상기 비디오 데이터를 미리 CBR(Constant Bit-Rate)로 압축하거나, 기 생성된 VBR 데이터를 CBR 데이터로 변환(즉, 트랜스코딩)하는 것이 일반적이다. 만약, 네트워크의 가용 대역폭이 변화한다면 상기 CBR은 부분적 CBR(piecewise-CBR)이 될 것이다.

이와 같은, 종래의 방법에서는 주어진 대역폭(bandwidth)에 맞추어야 하는 CBR 특성상, 많은 비트를 필요로 하는 복잡한 장면에서는 I 픽쳐에 충분한 비트를 할당하기 어려우며, 따라서 상기 I 픽쳐에 의하여 영향을 받는 픽쳐(예를 들어, 동일 GOP 내의 P 픽쳐, B 픽쳐들)의 전반적인 품질이 저하된다. 반면에, 만약 I 픽쳐에 너무 많은 비트를 할당한다면 B 픽쳐와 P 픽쳐에 할당되는 비트가 모자라게 되 므로 마찬가지로 비디오 품질이 저하된다.

따라서, 어느 정도 품질을 유지하기 위해서는 비트율의 변동을 피하기가 어려우며, 반면에 비트율을 일정하게 유지하기 위해서는 비디오 품질의 저하를 피하기가 어렵다. 이러한 문제를 감안하여, 일본공개특허 2004-158929호는 비트 예산(Bit Budget)이 상당히 부족한 경우에는 일부 B 픽쳐를 고의로 드롭(dropping)함으로써 데이터량을 감소시키는 방법을 제시하고 있다. 그러나, 이와 같이 일부 픽쳐를 드롭하게 되면, 재생되는 비디오가 정지되는 부분이 잠시나마 존재하게 됨으로써 주관적인 비디오 품질이 많이 저하되는 문제가 있다.

본 발명이 이루고자 하는 기술적 과제는, 전송되는 비디오 데이터의 양을 감소시키면서도 주관적인 비디오 품질의 저하를 방지하는 방법 및 장치를 제공하는 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른 비디오 인코딩 방법은, (a) 복수의 픽쳐 중에서 드롭될 픽쳐를 결정하는 단계; (b) 상기 드롭될 픽쳐와 인접하는 픽쳐 및 상기 드롭될 픽쳐의 가중합을 구함으로써 합성 픽쳐를 생성하는 단계; 및 (c) 상기 생성된 합성 픽쳐를 부호화하여 비트스트림을 생성하 는 단계를 포함한다.

상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른 트랜스코딩 방법은, (a) 입력된 비트스트림을 디코딩하는 단계; (b) 상기 디코딩 결과 생성되는 복수의 픽쳐 중에서 드롭될 픽쳐를 결정하는 단계; (c) 상기 드롭될 픽쳐와 인접하는 픽쳐 및 상기 드롭될 픽쳐의 가중합을 구함으로써 합성 픽쳐를 생성하는 단계; 및 (d) 상기 생성된 합성 픽쳐를 부호화하여 또 다른 비트스트림을 생성하는 단계를 포함한다.

상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른 비디오 인코더는, 복수의 픽쳐 중에서 드롭될 픽쳐를 결정하는 수단; 상기 드롭될 픽쳐와 인접하는 픽쳐 및 상기 드롭될 픽쳐의 가중합을 구함으로써 합성 픽쳐를 생성하는 수단; 및 상기 생성된 합성 픽쳐를 부호화하여 비트스트림을 생성하는 수단을 포함한다.

상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른 트랜스코더는, 입력된 비트스트림을 디코딩하는 수단; 상기 디코딩 결과 생성되는 복수의 픽쳐 중에서 드롭될 픽쳐를 결정하는 수단; 상기 드롭될 픽쳐와 인접하는 픽쳐 및 상기 드롭될 픽쳐의 가중합을 구함으로써 합성 픽쳐를 생성하는 수단; 및 상기 생성된 합성 픽쳐를 부호화하여 또 다른 비트스트림을 생성하는 수단을 포함한다.

기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

이하 첨부된 도면들을 참조하여 본 발명의 실시예를 상세히 설명한다.

본 발명은 트랜스코더나 인코더에서 새로운 동영상 비트스트림을 CBR (Constant Bit-Rate)로 생성할 때, I 픽쳐에 보다 많은 비트가 요구되는 경우 인코더 또는 트랜스코더에서 일부의 B 픽쳐를 삭제하여 남는 비트를 I 픽쳐에 제공할 수 있도록 하는 것을 주안점으로 한다. B 픽쳐를 단순히 드롭(dropping)하면 사용자는 자연스럽지 못한 화면을 보게 되므로, 남겨지는 B 픽쳐에 드롭될 B 픽쳐를 합성하는 방식을 사용한다.

만약, 도 3과 같이 연속된 비디오 시퀀스가 있다고 할 때, 종래의 픽쳐 드롭 방법에 따라 디스플레이되는 시퀀스는 도 4와 같이 도시될 수 있고, 본 발명에서 제시하는 B 픽쳐 합성 모드에 따라 디스플레이되는 화면은 도 5와 같이 도시될 수 있다.

도 4에서 보면, 종래의 픽쳐 드롭 방법은 복수의 픽쳐 중 일부 픽쳐(픽쳐 3)를 드롭하고 그 직전의 픽쳐(픽쳐 2)가 계속해서 표시한다. 따라서, 사용자는 움직임이 잠시 멈추었다가 다음 픽쳐(픽쳐 4)에서 갑자기 큰 움직임을 보이는 것을 관 찰할 수 있으며, 따라서 주관적 화질의 저하로 나타날 수 있다.

반면에 도 5에서 보면, 본 발명도 복수의 픽쳐 중 일부 픽쳐(픽쳐 3)를 드롭하는 것은 마찬가지이만, 드롭된 픽쳐의 이미지와 그 직전 픽쳐의 이미지를 가중합산하여 합성된 픽쳐(픽쳐 2')을 표시하는 점에서 차이가 있다. 픽쳐 2'는 픽쳐 2에서 표시된 이미지 및 픽쳐 3에서 표시된 이미지를 모두 포함하고 있으므로 픽쳐 2 및 픽쳐 3의 위치에 픽쳐 2'로 대치하게 되면, 사용자는 종래의 픽쳐 드롭 방법에 비하여 훨씬 자연스러운 화면을 볼 수 있게 된다.

보다 자세히 설명하면, 사용자는 최초의 이동 물체(51)로부터 최후의 이동 물체(54) 사이에서의 동작을 연속적으로 인식하게 되므로, 그 동안 어느 정도의 방향성을 예측하게 된다. 따라서, 두 개의 이동 물체(52, 53)을 모두 포함하는 픽쳐(픽쳐 2')가 연속하여 두 번 표시되더라도, 상기 예측에 따라 픽쳐 2'가 첫번째 표시될 때에는 이동 물체(52)에 보다 주목하게 되고, 두번째 표시될 때에는 이동 물체(53)에 보다 주목하게 된다. 결국, 이는 자연스러운 비디오 시퀀스의 흐름에 따른 주관적 화질의 향상으로 이어질 수 있는 것이다.

도 6은 도 1과 같은 환경에서 B 픽쳐를 드롭하고 합성하는 예를 나타낸 도면이다. 도 6에서는 연속된 3개의 B 픽쳐 중에서 두 개의 B 픽쳐가 드롭된다. 이 경우 어떤 B 픽쳐를 드롭할 것인가가 문제인데, 출력 비디오의 균형을 고려한다면, 연속된 3개의 B 픽쳐 중에서 가운데의 B 픽쳐를 남기고 좌우의 B 픽쳐를 드롭하는 것이 바람직할 것이다. 드롭된 2개의 B 픽쳐는 상기 남은 B 픽쳐에 합성된다. 이와 같이 합성되는 B 픽쳐는 2개, 3개 또는 그 이상의 B 픽쳐의 합성으로 이루어질 수 있다.

한편, 이하에서는 본 발명에 따른 B 픽쳐 합성을 구현하기 위한 전체 동작 과정에 대하여 설명한다. 상기 동작 과정을 크게 나누어 보면, 현재 가용 비트와 사용된 비트를 비교하여 B 픽쳐 합성 여부를 결정하는 '비트율 비교 단계'와, 삭제될 B 픽쳐의 비트를 다른 픽쳐에 할당하는 '비트 재할당 단계'와, 주변부의 B 픽쳐를 합성하는 'B 픽쳐 합성 단계'와, 합성된 B 픽쳐에 코드를 삽입하는 '중복픽쳐 설정 단계'로 구성될 수 있다. 본 명세서의 B 픽쳐라 함은 단순히 MPEG 계열의 코덱에서 사용되는 B 픽쳐만을 의미하는 것은 아니고, 다른 픽쳐의 참조 픽쳐로 제공되지 않는 픽쳐를 의미한다.

B 픽쳐를 드롭하거나 합성하는 이유는 대부분의 동영상 표준(특히, MPEG-2)에서 B 픽쳐는 다른 픽쳐를 복원하는데 사용되지 않기 때문에, 드롭 또는 합성하여도 후속 픽쳐의 화질에 영향을 주지 않기 때문이다. 만일 P 픽쳐나 I 픽쳐를 합성한다면, 이를 참조하는 픽쳐를 예측하여 잔차 신호(residual signal)를 구하는 과정에서 오히려 큰 잔차를 남기게 되므로 요구 비트량이 더 커지는 문제가 발생할 수 있다. 다만, 다른 픽쳐에 영향을 작게 미치는 것이 확인되는 P 픽쳐의 경우라면 직전 또는 직후의 B 픽쳐와 합성하는 것도 생각할 수 있을 것이다.

이하에서는, 상기 4개의 단계별로 수행되는 과정을 상세히 설명한다.

비트율 비교 단계

본 단계에서는, 인코딩되는 GOP가 목적 비트율에 부합될 수 있는지 점검한다. MPEG-2의 TM5(Test Model 5) 인코더를 예를 들면, 주어진 비트율에서 현재 인 코딩된 픽쳐들이 더 많은 비트를 필요로 하면 다음 GOP에 가용한 비트(R)이 계속 음수 값을 가지게 된다. 이러한 경우 양자화 파라미터(quantization parameter)를 가장 큰 값으로 사용하더라도, 즉 가장 낮은 화질로 인코딩하더라도, 생성되는 GOP는 목적 비트율을 계속 초과하게 된다. 따라서, 본 발명에서 제안하는 B 픽쳐 합성 모드를 동작(switch on) 시킴으로써 목적 비트율에 도달할 수 있다.

또한, 양자화 파라미터의 평균이 계속하여 상당히 큰 값을 유지하는 경우에도 B 픽쳐 합성 모드를 동작시킴으로써 확보되는 비트를 이용하여 각 픽쳐의 양자화 파라미터 값을 낮춤으로써, 보다 향상된 비디오 화질을 도모할 수 있다.

비트 재할당 단계

B 픽쳐를 제거하는 목적은 다른 픽쳐에 더 많은 비트를 할당하거나, 목적 비트율에 맞추기 위함이다. 한 GOP가 갖는 픽쳐의 수를 N이라고 하고, 상기 GOP 내에서 드롭되는 B 픽쳐의 개수를 N_bx라고 하면, GOP 내에는 N-N_bx개의 픽쳐가 존재하는 것처럼 판단하고 소정의 비트 할당 알고리듬에 의하여 상기 GOP에 할당되는 비트를 각 픽쳐에 할당할 수 있다. 이러한 알고리듬은 MPEG-2의 TM5 인코더에서 상세된 알고리듬, 또는 기타 다양한 알고리듬을 사용할 수 있다.

MPEG2의 TM5 인코더를 예를 들면, GOP 내에서 I, P, B 픽쳐들을 위한 각각의 목표 비트 T_i, T_p, T_b 값을 산출할 때에 B 픽쳐의 개수 N_b에서 상기 N_bx를 차분한 나머지 값으로 N_b를 치환하여 목표 비트를 산출할 수 있다.

B 픽쳐 합성 단계

드롭될 B 픽쳐와 잔존하는 B 픽쳐를 합성하는 방법으로는 일반적인 인코더 및 캐스케이드 픽셀-영역 트랜스코더(Cascaded Pixel-Domain Transcoder)에서 사용할 수 있는 픽셀-영역 혼합(Pixel-Domain Blending) 방법과, 변환-영역 트랜스코더(Transform-Domain Transcoder)에서 사용할 수 있는 변환-영역 혼합(Transform-Domain Blending) 방법이 있다.

픽셀-영역 혼합 방법은 기본적으로 드롭될 것으로 결정된 픽쳐 및 그와 인접하는 픽쳐의 가중합을 구하는 과정으로 진행된다. 상기 가중합은 하나의 픽쳐에 대한 YUV 성분별로 구할 수 있다. 이러한 가중합을 구하는 방법으로는 일 예로서, 알파 혼합(Alpha-Blending)과 같은 선형 결합 방법이 사용될 수 있다. 알파 혼합에 사용되는 알파(a) 값은 보다 복잡한 알고리즘에 의해 구해질 수 있지만, 단순히 a를 0.5로 하여(동일한 가중치로) 두 픽쳐를 합성할 수 있다.

도 7은 알파 혼합의 개념을 설명하는 개략도이다. 두 개의 B 픽쳐(B₂, B₃)에서 움직이지 않는 배경은 합성된 픽쳐(B₂₃)에서도 동일하게 표현되고, 움직임이 있는 영역만이 상기 두 개의 B 픽쳐들의 일부를 반영하여 상기 합성된 픽쳐 상에 나타난다.

상기 합성된 픽쳐의 휘도(luminence) 값은 다음의 수학식 1과 같은 알파 혼합에 의하여 생성될 수 있으며, 상기 합성된 픽쳐의 채도(chroma) 값도 마찬가지로 구할 수 있다.

B₂₃ = a * B₂ + (1 - a) * B₃

만약, 두 개의 픽쳐(B₁, B₃)를 드롭한 후 세 개의 픽쳐(B₁, B₂, B₃)를 합성하는 실시예를 상정한다면, 합성 픽쳐(B₁₂₃)는 상기 알파 혼합법은 다음의 수학식 2와 표시될 수 있다.

B₁₂₃ = a₁ * B₁ + a₂ * B₂+ (1- a₁ - a₂) * B₃

수학식 2와 같은 경우에 a를 1/3로 하여(동일한 가중치를 적용하여) 합성 픽쳐(B₁₂₃)를 구할 수도 있다.

상기와 같은 B 픽쳐 합성 단계는 인코더 단에서 수행될 수도 있고, 트랜스코더 단에서 수행될 수도 있다. 상기 B 픽쳐 합성 단계가 인코더에서 수행되는 경우에는 상기 B₁, B₂,B₃는 오리지널 픽쳐 그대로 인코딩될 경우의 B 픽쳐를 의미하고, 트랜스코더에서 수행되는 경우에는 상기 B₁, B₂,B₃는 인코딩 후 디코딩된 픽쳐 중의 B 픽쳐를 의미한다.

한편, 상기 B 픽쳐 합성 단계를 거친 후 모션 블러링(motion blurring)를 적용함으로써 보다 실감나는 영상을 생성할 수도 있다. 도 8과 같이, 모션 블러링을 적용하기 위해서는 우선 모션 블러링을 적용할 영역(81)과, 모션 방향(82)이 정의되어야 한다. 상기 모션 방향(82)은 소정의 영역이 시간에 따라서 움직이는 방향을 의미하며, 모션 벡터에 의하여 결정될 수 있다. 모션 방향(82)은 픽쳐 참조 방향에 따라서 모션 벡터와 동일한 방향 또는 모션 벡터와 반대 방향이 될 수 있다.

적용 영역(81)과 모션 방향(82)이 정의되면 모션 블러링을 수행할 수 있고, 이에 따라서 블러 이미지(83)가 생성될 수 있다. 모션 블러링시에는 블러링 강도를 달리할 수도 있다. 모션 블러링은 실제 그래픽 편집 분야에서 많이 사용되고 있는 기술로서 당업자라면 충분히 채택하여 사용할 수 있을 것이므로 그 구체적 알고리듬은 생략하기로 한다.

이와 같은 모션 블러링을 상기 B 픽쳐 합성 단계를 거친 영상에 적용하면 예를 들어, 도 9와 같이 나타날 수 있다. 이 경우, 상기 모션 블러링은 두 이동 물체 사이에서 적용되는 것이 바람직하다.

한편, 픽셀-영역 합성 방법 이외에, 변환-영역 혼합 방법도 생각할 수 있다. 이 경우, 상기 캐스캐이드 픽셀-영역 트랜스코더(Cascaded Pixel-Domain Transcoder)보다 좀더 빠른 변환을 위해서는 변환-영역 트랜스코더(Transform-Domain Transcoder)의 사용이 고려된다. 변환-영역에서 픽쳐 합성이 가능하다면 트랜스코딩시에 디코딩 과정을 거치지 않고 직접 목적 비트스트림을 생성할 수 있기 때문이다. 변환-영역에서도 모션 벡터에 의하여 모션 보상된 거리를 고려하면 B 픽쳐를 합성하는 과정을 그대로 적용할 수 있을 것이다.

중복픽쳐 설정 단계

마지막으로, 상기 B 픽쳐 합성 단계에서 합성된 픽쳐를 디코더 단에서 정확한 시간에 맞추어 표시하는 방법이 필요하다. 이는 MPEG-2와 같은 표준에서 지원되는 픽쳐 재표시 비트를 사용하면 B 합성 모드에 따라 생성된 비트스트림을 디코더 가 별다른 추가 정보를 제공 받지 않고서도 각각의 픽쳐를 시간에 맞추어 표시할 수 있다. MPEG-2의 경우에, 인코더는 "picture coding extension"의 "top_field_first" 비트와 "repeat_first_field" 비트를 이용하여, 합성된 픽쳐(B₂₃)의 표시 정책을 디코더 단으로 전달할 수 있다.

상기 두 개의 비트는 필드 픽쳐를 사용하는 경우 상하위 필드 중 어느 필드를 먼저 나타낼 것인가와, 먼저 나타내는 필드의 반복 회수를 나타내며, 프로그레시브 시퀀스의 프레임 픽쳐에서는 두 비트를 조합하여 해당 프레임을 몇 회 반복하여 표시할 것인가를 나타낸다.

프로그레시브 시퀀스에서 어떤 프레임 픽쳐에 대하여 기록된 top_field_first 비트가 0이고 repeat_first_field 비트가 0이면(즉, 비트 조합이 '00'이면), 해당 픽쳐를 한번만 표시한다. 그리고, 비트 조합이 '01'이면 해당 픽쳐를 두번 표시하고, '11'이면 해당 픽쳐를 세번 표시하게 된다.

재생 순서를 기준으로 {I, B₁, B₂, B₃, P, B₄ ...} 의 순서를 갖는 GOP가 있고 B₁과 B₂와 B₃가 B₁₂₃로 합성되었다면, B₁₂₃ 픽쳐는 B₁ 위치에서 전송되고 세번 반복하여 표시되도록 하는 것이 바람직할 것이다. 따라서, 인코더는 B₂₃ 픽쳐의 top_first_field 비트 및 repeat_first_field 비트를 각각 '1' 및 '1'로 표시하여 디코더 단으로 전송할 수 있다. 상기 비트들은 수신한 디코더는 비트 조합이 '11'인 것을 확인하고 B₁₂₃ 픽쳐를 연속하여 세 번 표시하게 된다. 즉, 디코더는 원래의 (original) B₁, B₂, B₃가 표시되어야 할 시간에 B₁₂₃ 픽쳐를 계속 표시할 수 있는 것이다.

마찬가지로, 인코더는 비트 조합을 '00'으로 표시하여 원래의 B₁이 표시될 시간에 디코더가 B₁₂₃를 한 번 표시하도록 할 수도 있고, 비트 조합을 '01'로 표시하여 원래의 B₁, B₂가 표시될 시간에 B₁₂₃를 두 번 표시할 수도 있다.

한편, telecine 기술(영화의 24 프레임률을 NTSC(National Television Systems Committee)의 29.97 프레임률로 변환하는 방법)을 통하여 이미 프레임률이 증가된 비디오 시퀀스에 이상에서 설명한 B 픽쳐 합성 모드를 적용할 때에는, 비트율을 용이하게 조절할 수 있도록 하기 위하여, 이미 반복된 B 픽쳐는 드롭 및 합성시 제외되도록 하는 것이 바람직하다.

도 10은 본 발명의 일 실시예에 따른 비디오 인코더(100)의 구성을 나타낸 블록도이다. 입력되는 현재 픽쳐(F)은 버퍼(101)에 일시 저장된다. 상기 픽쳐(F)가 I 픽쳐이면 변환부(120)에, P 픽쳐, B 픽쳐이면 가산기(115) 및 모션 추정부(105)에 제공된다. 다만, 상기 B 픽쳐가 드롭될 픽쳐(B₃) 또는 합성될 픽쳐(B₂)라면 픽쳐 합성부(170)에 제공된다. 본 명세서에서, I 픽쳐는 다른 픽쳐를 참조하지 않고 부호화되는 픽쳐를 의미하고, P 픽쳐 및 B 픽쳐는 다른 픽쳐를 참조하여 부호화되는 픽쳐를 의미한다. 특히 B 픽쳐는 다른 픽쳐를 양방향으로 참조하는 픽쳐이다.

드롭 결정부(160)는 복수의 픽쳐 중에서 드롭될 픽쳐를 결정한다. 이를 위하 여 드롭 결정부(160)는 인코딩되는 GOP가 목적 비트율에 부합될 수 있는지 비교한다. 이러한 비트율 비교를 위하여 드롭 결정부(160)는 엔트로피 부호화부(150)에서 생성되는 비트스트림의 크기를 피드백 받는다. 또한, 그리고, 목적 비트율에서 초과되는 부분만큼을 줄이기 위하여 드롭할 소정의 B 픽쳐를 선택한다. 만약, B 픽쳐의 드롭으로 인하여 가용 비트가 남는 경우에는 다른 픽쳐에 비트를 재할당할 수 있다.

픽쳐 합성부(170)는 상기 드롭될 것으로 결정된 픽쳐(B₃)와, 그와 인접하는 픽쳐(B₂)의 가중합을 구함으로써 합성 픽쳐를 생성한다. 하나의 드롭될 픽쳐와 인접하는 픽쳐는 전, 후의 2개가 존재할 수 있다.

상기 가중합은 수학식 1과 같은 알파 혼합에 의하여 구해질 수 있다. 물론, 도 10에서는 한 개의 픽쳐를 드롭한 후 두 개의 픽쳐를 합성하는 경우를 상정한 것이지만, 두 개의 픽쳐를 드롭한 후 세 개의 픽쳐를 합성하는 경우에 가중합도 마찬가지로 수학식 2와 같은 알파 혼합에 의하여 구해질 수 있다. 상기 알파 혼합은 도 10의 예와 같이 픽셀-영역(pixel domain)에서 수행되는 것으로 할 수 있지만, 변환부(120)에 의한 공간적 변환을 거친 후의 변환-영역(transform domain)될 수도 있음은 전술한 바와 같다.

한편, 픽쳐 합성부(170)는 상기 구한 합성 픽쳐에 모션 블러링을 추가적으로 적용할 수도 있다. 이 경우, 픽쳐 합성부(170)는 상기 합성 픽쳐 중에서 소정의 영역을 선정하여 상기 영역이 갖는 모션 벡터에 따라 모션 블러링을 수행한다. 상기 합성 픽쳐에 적용되는 모션 블러링에 관해서는 도 8 및 도 9의 설명에서 전술한 바와 같다.

픽쳐 합성부(170)에서 생성되는 합성 픽쳐(B₂₃)는 모션 추정부(105) 및 가산기(115)에 제공된다.

모션 추정부(105)는 P 픽쳐, B 픽쳐, 또는 합성 픽쳐(B₂₃)를 입력 받는데, 상기 입력된 픽쳐 주변의 참조 픽쳐를 참조하여 상기 입력된 모션 벡터에 대해 모션 추정을 수행함으로써 모션 벡터(MV)를 구한다. 그런데, 상기 참조 픽쳐로는 오리지널 이미지가 사용될 수도 있고(개루프 코딩 방식), 디코딩된 이미지가 사용될 수도 있다(폐루프 코딩 방식). 다만, 도 10은 폐루프 코딩 방식을 가정하여 도시된 것이다.

상기 모션 추정을 위해서 블록 매칭(block matching) 알고리듬이 널리 사용되고 있다. 즉, 주어진 블록을 참조 픽쳐의 특정 탐색영역 내에서 픽셀 또는 서브 픽셀(1/2 픽셀, 1/4픽셀 등) 단위로 움직이면서 그 에러가 최저가 되는 경우의 변위를 움직임 벡터로 추정하는 것이다. 모션 추정을 위하여 고정된 블록을 이용할 수도 있지만, 계층적 가변 사이즈 블록 매칭법(Hierarchical Variable Size Block Matching; HVSBM)에 의한 계층적인 방법을 사용할 수도 있다.

모션 보상부(110)는 상기 모션 벡터(MV)를 이용하여, 상기 모션 추정부(105)에 입력된 픽쳐에 대한 참조 픽쳐(F_r')을 모션 보상하고 예측 픽쳐(P)를 구한다. 상기 예측 픽쳐(P)는 차분기(115)로 입력된다.

차분기(115)는 상기 제공되는 P 픽쳐, B 픽쳐, 또는 합성 픽쳐(B₂₃)에서 해당 예측 픽쳐를 차분하여 잔차 픽쳐(R)를 계산하고 이를 변환부(120)에 제공한다.

변환부(120)는 상기 잔차 픽쳐(R)에 대하여, 공간적 변환을 수행함으로써 변환 계수(T)를 생성한다. 이러한 공간적 변환 방법으로는, DCT(Discrete Cosine Transform), 웨이블릿 변환(wavelet transform) 등이 사용될 수 있다. DCT를 사용하는 경우 상기 변환 계수는 DCT 계수가 될 것이고, 웨이블릿 변환을 사용하는 경우 상기 변환 계수는 웨이블릿 계수가 될 것이다.

양자화부(125)는 상기 변환 계수를 양자화(quantization) 한다. 상기 양자화(quantization)는 임의의 실수 값으로 표현되는 상기 변환 계수를 불연속적인 값(discrete value)으로 나타내는 과정을 의미한다. 예를 들어, 양자화부(125)는 임의의 실수 값으로 표현되는 상기 변환 계수를 소정의 양자화 스텝(quantization step)으로 나누고, 그 결과를 정수 값으로 반올림하는 방법으로 양자화를 수행할 수 있다.

양자화부(125)에 의하여 양자화된 결과, 즉 양자화 계수(Q)는 엔트로피 부호화부(150) 및 역 양자화부(130)에 제공된다.

역 양자화부(130)는 상기 양자화 계수를 역 양자화한다. 이러한 역 양자화 과정은 양자화 과정에서 사용된 것과 동일한 양자화 스텝을 이용하여 양자화 과정에서 생성된 인덱스로부터 그에 매칭되는 값을 복원하는 과정이다.

역 변환부(135)는 상기 역 양자화된 결과를 입력받아 역 변환을 수행한다. 이러한 역 변환은 변환부(120)의 변환 과정의 역 과정으로 수행되며, 구체적으로는 역 DCT 변환, 역 웨이블릿 변환 등이 사용될 수 있다. 가산기(140)는 상기 역 변환된 결과와 상기 모션 보상부(110)에서 출력되어 가산기(115)로 입력되었던 예측 픽쳐를 가산함으로써 복원된 픽쳐(F')를 생성할 수 있다.

버퍼(145)는 가산기(140)로부터 제공되는 결과를 저장한다. 따라서 버퍼(145)에는 복원된 현재의 픽쳐(F') 뿐만이 아니라, 미리 복원된 참조 픽쳐(F_r')도 저장될 수 있다.

엔트로피 부호화부(150)는 모션 추정부(105)에서 추정된 모션 벡터(MV)와, 양자화부(125)로부터 제공되는 양자화 계수(Q)를 무손실 부호화하여 비트스트림을 생성한다. 이러한 무손실 부호화 방법으로는, 허프만 부호화(Huffman coding), 산술 부호화(arithmetic coding), 가변 길이 부호화(variable length coding), 기타 다양한 방법이 이용될 수 있다.

엔트로피 부호화부(150)는 상기 합성 픽쳐를 반복하여 표시하는 회수를 디코더에 전달하기 위한 플래그를 상기 비트스트림에 기록할 수 있다. 상기 플래그는 전술한 바와 같이, top_first_field 비트 및 repeat_first_field 비트의 조합으로 이루어질 수 있다.

이상과 같이 도 10에서는 본 발명의 일 실시예에 따른 B 픽쳐 합성 모드가 적용된 비디오 인코더(100)의 구성을 도시하였다. B 픽쳐 합성 모드는 비디오 인코더(100) 외에도 트랜스코더에도 적용될 수 있다. 상기 트랜스코더는 도 10의 구성 을 그대로 포함하며, 버퍼(101)의 입력 부분에 비디오 디코더가 추가된다는 점에서만 차이가 있을 뿐이다. 따라서, 트랜스코더의 경우 버퍼(101)에 입력되는 픽쳐(F)는 오리지널 픽쳐가 아니라 디코딩된 픽쳐가 될 것이다.

이상의 도 10의 각 구성요소는 소프트웨어(software) 또는, FPGA(field-programmable gate array)나 ASIC(application-specific integrated circuit)과 같은 하드웨어(hardware)를 의미할 수 있다. 그렇지만 상기 구성요소들은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 어드레싱(addressing)할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 상기 구성요소들 안에서 제공되는 기능은 더 세분화된 구성요소에 의하여 구현될 수 있으며, 복수의 구성요소들을 합하여 특정한 기능을 수행하는 하나의 구성요소로 구현할 수도 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

본 발명의 적용으로, 장면의 구성이 편차가 심한 비디오 시퀀스의 경우에도 일정 비트율을 유지하면서도 I 픽쳐와 P 픽쳐에 할당될 비트를 충분히 확보할 수 있으며, 삭제된 B 픽쳐의 정보도 합성에 의해 보존되기 때문에, 주관적인 품질이 향상된 CBR 스트림을 얻어내는 것이 가능해진다.

따라서, 홈 네트워크 내의 전송이나 인터넷 전송 시에 주어진 대역폭에서 향상된 품질을 나타내는 비트스트림을 제공하는 것이 가능하다.

또한, 현재 가용한 대역폭에 적응적인 비트율 변환 트랜스코더에 본 방법을 적용하면 좀더 안정적인 CBR 특성을 구현할 수 있다.

Claims

(a) 복수의 픽쳐 중에서 드롭될 픽쳐를 결정하는 단계;

(b) 상기 드롭될 픽쳐와 인접하는 픽쳐 및 상기 드롭될 픽쳐의 가중합을 구함으로써 합성 픽쳐를 생성하는 단계; 및

(c) 상기 생성된 합성 픽쳐를 부호화하여 비트스트림을 생성하는 단계를 포함하는 비디오 인코딩 방법.
제1항에 있어서, 상기 가중합은

알파 혼합법에 의하여 구하는 비디오 인코딩 방법.
제1항에 있어서, 상기 (b) 단계는

픽셀-영역(pixel domain)에서 수행되는 비디오 인코딩 방법.
제1항에 있어서, 상기 (b) 단계는

변환-영역(transform domain)에서 수행되는 비디오 인코딩 방법.
제1항에 있어서,

상기 드롭될 픽쳐를 B₃라고 표시하고, 상기 인접하는 픽쳐를 B₂라고 표시하 고, 가중치를 α로 표시할 때, 상기 합성 픽쳐는 a * B₁ + (1 - α) * B₂로 표시되는 비디오 인코딩 방법.
제5항에 있어서, 상기 a는 0.5인 비디오 인코딩 방법.
제1항에 있어서,

상기 드롭될 픽쳐를 B₁,B₃라고 표시하고, 상기 인접하는 픽쳐를 B₂라고 표시하고, 가중치를 α, β로 표시할 때, 상기 합성 픽쳐는 a * B₁ + (1 - α - β) * B₂+ β * B₃로 표시되는 비디오 인코딩 방법.
제7항에 있어서, 상기 a는 1/3인 비디오 인코딩 방법.
제1항에 있어서, 상기 드롭될 픽쳐는

B 픽쳐(bi-directional picture)인 비디오 인코딩 방법.
제1항에 있어서, 상기 (b) 단계는

상기 드롭될 픽쳐와 인접하는 픽쳐 및 상기 드롭될 픽쳐의 가중합을 구하는 단계; 및

상기 가중합에 의하여 생성되는 픽쳐 중 소정의 영역을 선정하여 상기 영역 이 갖는 모션 벡터에 따라 모션 블러링을 수행함으로써 합성 픽쳐를 생성하는 단계를 포함하는 비디오 인코딩 방법.
제1항에 있어서, 상기 (c) 단계는

상기 생성된 합성 픽쳐에 대한 예측 픽쳐를 구하는 단계;

상기 합성 픽쳐와 상기 예측 픽쳐를 차분함으로써 잔차 픽쳐를 생성하는 단계;

상기 잔차 픽쳐를 공간적 변환하여 변환 계수를 생성하는 단계; 및

상기 변환 계수를 양자화하는 단계를 포함하는 비디오 인코딩 방법.
제1항에 있어서, 상기 비트스트림은

상기 합성 픽쳐를 반복하여 표시하는 회수를 디코더에 전달하기 위한 플래그를 포함하는 비디오 인코딩 방법.
(a) 입력된 비트스트림을 디코딩하는 단계;

(b) 상기 디코딩 결과 생성되는 복수의 픽쳐 중에서 드롭될 픽쳐를 결정하는 단계;

(c) 상기 드롭될 픽쳐와 인접하는 픽쳐 및 상기 드롭될 픽쳐의 가중합을 구함으로써 합성 픽쳐를 생성하는 단계; 및

(d) 상기 생성된 합성 픽쳐를 부호화하여 또 다른 비트스트림을 생성하는 단 계를 포함하는 비디오 트랜스코딩 방법.
복수의 픽쳐 중에서 드롭될 픽쳐를 결정하는 수단;

상기 드롭될 픽쳐와 인접하는 픽쳐 및 상기 드롭될 픽쳐의 가중합을 구함으로써 합성 픽쳐를 생성하는 수단; 및

상기 생성된 합성 픽쳐를 부호화하여 비트스트림을 생성하는 수단을 포함하는 비디오 인코더.
제14항에 있어서, 상기 가중합은

알파 혼합법에 의하여 구하는 비디오 인코더.
제14항에 있어서, 상기 수단은

픽셀-영역(pixel domain)에서 수행되는 비디오 인코더.
제14항에 있어서, 상기 수단은

변환-영역(transform domain)에서 수행되는 비디오 인코더.
제14항에 있어서,

상기 드롭될 픽쳐를 B₃라고 표시하고, 상기 인접하는 픽쳐를 B₂라고 표시하 고, 가중치를 α로 표시할 때, 상기 합성 픽쳐는 a * B₁ + (1 - α) * B₂로 표시되는 비디오 인코더.
제18항에 있어서, 상기 a는 0.5인 비디오 인코더.
제14항에 있어서,

상기 드롭될 픽쳐를 B₁,B₃라고 표시하고, 상기 인접하는 픽쳐를 B₂라고 표시하고, 가중치를 α, β로 표시할 때, 상기 합성 픽쳐는 a * B₁ + (1 - α - β) * B₂+ β * B₃로 표시되는 비디오 인코더.
제20항에 있어서, 상기 a는 1/3인 비디오 인코더.
제14항에 있어서, 상기 드롭될 픽쳐는

B 픽쳐(bi-directional picture)인 비디오 인코더.
제14항에 있어서, 상기 수단은

상기 드롭될 픽쳐와 인접하는 픽쳐 및 상기 드롭될 픽쳐의 가중합을 구하는 수단; 및

상기 가중합에 의하여 생성되는 픽쳐 중 소정의 영역을 선정하여 상기 영역 이 갖는 모션 벡터에 따라 모션 블러링을 수행함으로써 합성 픽쳐를 생성하는 수단을 포함하는 비디오 인코더.
제14항에 있어서, 상기 수단은

상기 생성된 합성 픽쳐에 대한 예측 픽쳐를 구하는 수단;

상기 합성 픽쳐와 상기 예측 픽쳐를 차분함으로써 잔차 픽쳐를 생성하는 수단;

상기 잔차 픽쳐를 공간적 변환하여 변환 계수를 생성하는 수단; 및

상기 변환 계수를 양자화하는 수단을 포함하는 비디오 인코더.
제14항에 있어서, 상기 비트스트림은

상기 합성 픽쳐를 반복하여 표시하는 회수를 디코더에 전달하기 위한 플래그를 포함하는 비디오 인코더.
입력된 비트스트림을 디코딩하는 수단;

상기 디코딩 결과 생성되는 복수의 픽쳐 중에서 드롭될 픽쳐를 결정하는 수단;

상기 드롭될 픽쳐와 인접하는 픽쳐 및 상기 드롭될 픽쳐의 가중합을 구함으로써 합성 픽쳐를 생성하는 수단; 및

상기 생성된 합성 픽쳐를 부호화하여 또 다른 비트스트림을 생성하는 수단을 포함하는 비디오 트랜스코더.