KR20050030641A

KR20050030641A - 교대되는 샷을 포함하는 비디오 시퀀스의 디지털 데이터를압축하는 방법

Info

Publication number: KR20050030641A
Application number: KR1020057001595A
Authority: KR
Inventors: 에드앙 프랑꼬; 도미니끄 또래; 장 끼쁘레오
Original assignee: 톰슨 라이센싱 소시에떼 아노님
Priority date: 2002-07-30
Filing date: 2003-07-23
Publication date: 2005-03-30
Also published as: MXPA05001204A; WO2004014081A1; JP4729304B2; AU2003262536A1; JP2005535194A; CN1672420A; CN100499811C; US20060093030A1; EP1535472A1; FR2843252A1

Abstract

본 방법은, 다음의 단계, 즉 시퀀스를 교대되는 비디오 샷(shot)으로 분할하는 단계(1)와; 등급을 구하기 위해 카메라 앵글에 따라 상기 샷을 분류하는 단계(2)와; 한 등급에 관한 배경에 대응하는 이미지인 스프라이트(sprite)나 비디오 객체 평면을 상기 등급에 대해 생성하는 단계(3)와; 큰 스프라이트로 불리는 이미지를 형성하기 위해, 적어도 두 개의 스프라이트를 동일한 스프라이트나 비디오 객체 평면으로 그룹화하는 단계(5)와; 상기 큰 스프라이트에 대응하는 샷에 대해, 이들 샷에 관한 시퀀스로부터 이미지 전경 객체(image foreground object)를 추출하는 단계(4)와; 상기 큰 스프라이트와 상기 추출된 전경 객체를 별도로 인코딩하는 단계를 포함하는 것을 특징으로 한다. 본 방법은 비디오 데이터의 송신 및 저장에 응용된다.

Description

교대되는 샷을 포함하는 비디오 시퀀스의 디지털 데이터를 압축하는 방법{METHOD FOR COMPRESSING DIGITAL DATA OF A VIDEO SEQUENCE COMPRISING ALTERNATED SHOTS}

본 발명은 교대되는 샷(shot)으로 구성된 비디오 시퀀스의 디지털 데이터를 "스프라이트(sprites)"를 이용하여 압축하는 방법 및, 이 방법을 구현하는 디바이스에 관한 것이다. 본 발명은 일반적으로 비디오 압축 환경 내에 있고, 특히 MPEG-4 비디오 표준의 환경 내에 있다.

용어, "스프라이트"는 예컨대 일반적으로 디스플레이되고 있는 비디오보다 더 큰 크기이며, 특정한 시간 동안에 존속하는 비디오 객체 평면(VOP)으로서 MPEG-4 표준 내에서 한정된다. 스프라이트는 배경과 같은 다소 정적인 영역을 나타내기 위해 사용되며, 매크로블록으로의 분할을 사용하여 인코딩된다. 개관적인 배경(panoramic background)을 나타내는 스프라이트를 송신하고, 예컨대 스프라이트의 테이퍼링된(tapered) 변형을 나타내는, 카메라의 이동을 기술하는 변위 파라미터를 인코딩함으로써, 이러한 단일 스프라이트로부터 시퀀스의 연속 이미지를 재구성하는 것이 가능하다.

본 발명은 특히 유사한 카메라 앵글로부터 교대로 생성된 연속적인 샷을 포함하는 비디오 시퀀스에 관한 것이다. 이러한 시퀀스는 예컨대 인터뷰 시퀀스일 수 있고, 이 시퀀스에서 인터뷰어와 인터뷰 대상자가 교대로 보여지며, 이들 각각은 다른, 그러나 대부분 정적인 배경에 대비하여 보여진다. 이러한 교대로 보여지는 절차는 두 개의 서로 다른 카메라 앵글로 제한되지 않는다. 시퀀스는 Q개의 서로 다른 카메라 앵글로부터 초래된 N개의 샷으로 구성될 수 있다.

종래기술 유형의 인코딩 기술은 이러한 유형의 시퀀스를 고려하지 않으며, 그러므로 인코딩 가격이나 압축 인자는 다른 시퀀스의 가격이나 인자와 동일하다. 사실, 종래의 접근법은, 각 샷이 시작할 때, 그 바로 다음에 예측 모드의 이미지가 오는 인트라 모드의 이미지를 인코딩하는 것이다. 만약 제 1 카메라 앵글로부터 취해진 샷이 처음에 보여지고, 그 다음에 또 다른 카메라 앵글로부터 취해진 샷이 보여지고, 그 다음에 제 1 카메라 앵글로부터 취해진 샷이 보여진다면, 이 샷의 제 1 이미지는, 비록 촬영된 장면의 배경에 의해 형성된 큰 부분이 제 1 샷의 이미지와 유사할 지라도, 전체적으로 인트라 모드로 인코딩된다.

이미 이전에 보여져왔던 배경을 재인코딩하는 이러한 문제점에 대한 알려진 해법은, 샷 변화가 검출될 때마다 샷의 마지막 이미지를 저장하는 것이다. 새로운 샷의 시작 시에, 제 1 이미지는 저장된 이미지 중에서 이 제 1 이미지에 가장 유사한 이미지를 기준으로서 시간 예측함으로써 인코딩되고, 그러므로 이러한 이미지는 동일한 카메라 앵글에 대응한다. 이러한 해법은, 예컨대 개발 중인 표준 MPEG-4 10장에서 이용 가능한 "멀티-프레임 참조"로 알려진 툴에 의해 직접 유래되는 것으로 간주될 수 있다. 이러한 해법은 그러나 많은 메모리를 필요로 하고, 구현하기 어려우며, 비용이 많이 든다.

도 1은 본 발명에 따른 인코딩 방법의 흐름도.

도 2는 큰 스프라이트 내의 스프라이트의 통합을 도시한 도면.

도 3은 큰 스프라이트의 상단 및 하단 에지에서의 스프라이트 블록을 도시한 도면.

도 4는 DC/AC 예측에 의한 인코딩을 위한, 이러한 환경에서의 현재의 블록을 도시한 도면.

본 발명은 전술된 단점을 극복하는 것을 목적으로 한다.

본 발명의 요지는 비디오 시퀀스의 디지털 데이터를 압축하는 방법으로서, 다음의 단계, 즉

- 상기 시퀀스를 교대되는 비디오 샷으로 분할하는 단계와;

- 등급을 구하기 위해 카메라 앵글에 따라 상기 샷을 분류하는 단계와;

- 한 등급에 관한 배경에 대응하는 복합 이미지인 스프라이트나 비디오 객체 평면(video object plane)을 상기 등급에 대해 생성하는 단계와;

- 큰 스프라이트로 불리는 이미지를 형성하기 위해, 적어도 두 개의 스프라이트를 동일한 스프라이트나 비디오 객체 평면으로 그룹화하는 단계와;

- 상기 큰 스프라이트에 대응하는 샷에 대해, 이들 샷에 관한 시퀀스로부터 이미지 전경 객체를 추출하는 단계와;

- 상기 큰 스프라이트와 상기 추출된 전경 객체를 별도로 인코딩하는 단계를 포함하는 것을 특징으로 하는 비디오 시퀀스의 디지털 데이터를 압축하는 방법이다.

특정한 실시예에 따라, 스프라이트는 큰 스프라이트를 생성하기 위해 서로 위 아래로 배치된다.

특정한 실시예에 따라, 스프라이트의 이러한 위치지정은 큰 스프라이트의 인코딩 비용의 함수로서 계산된다.

사용된 인코딩은 예컨대 MPEG-4 인코딩이고, 큰 스프라이트는 MPEG-4 표준에서 한정된 스프라이트에 따라 인코딩된다.

특정한 실시예에 따라, 본 방법은, 데이터스트림을 전달하기 위해 상기 추출된 전경 객체에 관한 데이터와, 상기 큰 스프라이트에 관한 데이터에 대한 멀티플렉싱 동작(8)을 실행한다.

본 발명의 또 다른 요지는, 전술된 방법에 따라 이미지 시퀀스를 인코딩하기 위한 압축된 데이터스트림으로서, 상기 큰 스프라이트에 적용될 수 있는 변형 파라미터와 관련된 상기 큰 스프라이트에 대한 인코딩 데이터와, 상기 추출된 전경 객체에 대한 인코딩 데이터를 포함하는 것을 특징으로 하는, 전술된 방법에 따라 이미지 시퀀스를 인코딩하기 위한 압축된 데이터스트림이다.

본 발명의 또 다른 요지는, 전술된 방법에 따라 데이터를 인코딩하기 위한 인코더로서, 상기 시퀀스를 샷으로 분류하고, 각 등급에 대한 스프라이트를 생성하고, 및 이들 스프라이트를 연결함으로써 큰 스프라이트를 구성하는 처리 회로와, 상기 큰 스프라이트에 관한 상기 시퀀스로부터 이미지 전경 객체를 추출하는 회로와, 상기 큰 스프라이트와 상기 추출된 전경 객체를 인코딩하는 인코딩 회로를 포함하는 것을 특징으로 하는, 인코더이다.

본 발명의 또 다른 요지는, 전술된 방법에 따라 교대되는 샷을 포함하는 비디오 시퀀스의 비디오 데이터를 디코딩하는 디코더로서, 큰 스프라이트에 관한 데이터 및 전경 객체에 관한 데이터를 위한 디코딩 회로와; 상기 디코딩 데이터로부터 이미지를 생성하는 회로를 포함하는 것을 특징으로 하는, 디코더이다.

스프라이트는 동일한 카메라 앵글에 의해 생성된 비디오 샷 세트의 배경을 묘사하기 위해 사용된다. 이러한 스프라이트는 한번씩만 인코딩된다. 그러면, 이들 비디오 샷의 각 이미지에 대해, 본 방법은 이미지의 배경에서 볼 수 잇는 것을 재생성하기 위해 스프라이트에 적용될 변형 파라미터를 인코딩하는 것이다. 배경 객체에 관해서, 이들은 직사각형이 아닌 비디오 객체 또는 VOP(Video Object Plane: 비디오 객체 평면)으로서 인코딩된다. 디코딩하자마자, 이들 VOP는 최종 이미지를 얻기 위해 배경과 함께 구성된다. 시퀀스는 몇몇 카메라 앵글로부터 생성된 샷을 포함하므로, 몇몇 스프라이트가 필요하다. 본 발명의 특정한 실시예는 이들 여러 스프라이트를 하나의 큰 스프라이트로 연결하는 것이며, 그리하여, 전체 비디오 시퀀스의 여러 배경을 요약한다.

본 발명 덕분에, 이 배경이 다시 보일 때마다 배경을 재인코딩하는 것이 피해진다. 이러한 유형의 비디오 시퀀스의 압축 가격은 MPEG-2 또는 H.263 유형의 종래의 인코딩 방식에 비해 줄어든다.

다른 특성 및 장점은 비제한적인 예에 의해 제시된 다음의 설명 및 첨부된 도면을 참조하여 더 분명하게 될 것이다.

도 1은 본 발명에 따른 인코딩 방법의 간략화된 흐름도를 도시한다. 본 방법은 두 개의 주요한 단계, 즉 분석 단계와 인코딩 단계로 나누어질 수 있다.

분석 단계는 비디오 시퀀스를 샷으로 분할하는 단계인 제 1 단계(1)를 포함한다. 제 2 단계(2)는 샷이 생성되는 카메라 앵글에 따라 샷을 분류한다. 등급은 동일한 카메라 앵글로부터 생성된 샷의 서브셋으로서 한정된다. 제 3 단계는, 서브셋 각각에 대해, 서브셋의 샷에서 볼 수 있는 배경을 "요약하는" 스프라이트의 생성을 실행한다. 서브셋의 각 샷의 각 이미지에 대해, 배경에서 볼 수 있는 것이 스프라이트로부터 재생성될 수 있게 하는 변형 파라미터가 다시 계산된다. 이미지 분할 단계(4)는 여러 샷의 각 이미지에 대한 분할을 실행하며, 분할의 목적은 배경을 전경으로부터 구별하는 것이다. 이러한 단계는 전경 객체가 각 이미지로부터 추출되게 한다. 단계(4)와 병렬로 실행되고 그러므로 단계(3) 바로 다음에 오는 단계(5)는 큰 스프라이트 내의 각 스프라이트의 위치를 고려하는 변형 파라미터의 업데이트를 사용하여 여러 스프라이트를 하나의 큰 스프라이트로 연결하는 것이다.

인코딩 단계는 분석 단계 바로 다음에 온다. 단계(6 및 7)는 각각 단계(4 및 5) 바로 다음에 오며, 전경을 인코딩하는 비디오 비트스트림과 큰 스프라이트를 인코딩하는 비디오 비트스트림 각각을 생성한다. 그러면, 이들 비트스트림은 비디오-인코딩 스트림을 전달하기 위해 단계(8)에서 멀티플렉싱된다.

샷으로 분할하는 단계(1)는 예컨대 샷의 변화를 검출하기 위한 알고리즘을 사용함으로써 연속적인 이미지를 비교하여 시퀀스를 비디오 샷으로 나눈다. 분류 단계(2)는, 그 컨텐츠에 따라서, 얻어진 여러 샷을 비교하고, 유사한 샷, 다시 말해 동일한 또는 거의 동일한 카메라 앵글로부터 생성된 샷을 동일한 등급으로 그룹화한다.

단계(4)는 전경 객체의 추출을 구현한다. 비디오 시퀀스의 각 이미지에 대해, 배경 및 전경을 구별하는 연속적인 이진 마스크가 계산된다. 이러한 단계(4) 다음에, 각 샷에 대해 전경 및 배경으로부터의 일부를 지시하는 이진 또는 그 외의 형태의 마스크 연속이 이용 가능하다. 비-이진 처리의 경우에, 마스크는 사실 그레이-형상 카드(grey-shape card)에 대응한다.

이러한 큰 스프라이트의 인코딩 비용이 전술된 바와 같이 최소화되도록 단계(5)에서 실행된, 스프라이트를 큰 스프라이트로 연결하는 절차가 달성될 수 있다. 인코딩 정보는 특히 텍스쳐에 관한 정보 및 변형에 관한 정보이다. 변형에 관한 정보는 예컨대 시간의 함수로서 큰 스프라이트에 적용될 수 있고 큰 스프라이트가 생성될 때 업데이트되는 연속적인 변형 파라미터이다. 사실, 큰 스프라이트에 적용될 때, 여러 샷에 필요한 배경이 생성되고 업데이트되게 하는 것은 이들 변형 파라미터이다. 이러한 인코딩 정보는 큰 스프라이트 비트스트림이 생성되게 하기 위해 단계(7)에서 송신된다.

여기서, 두 비트스트림, 즉 큰 스프라이트를 인코딩하는 하나와, 단일 객체로 그룹화된 전경의 모든 객체를 인코딩하는 다른 하나가 생성된다. 이들 비트스트림은 그러면 단계(8)에서 멀티플렉싱된다. MPEG-4 표준에서, 객체마다의 기본 스트림이 생성된다. 그러므로, 여러 기본 스트림을 송신하거나 인코딩된 데이터의 송신을 위한 큰 스프라이트에 관한 스트림과의 멀티플렉싱을 생략하는 것을 쉽게 상상할 수 있다.

객체 추출 단계(4)는 선행하는 단계와 동시에 또는 이 단계 훨씬 이전에 실행될 수 있게 사실 선행하는 스프라이트 생성 단계와 매우 상관된다는 점을 주목해야 할 것이다. 마찬가지로, 단계(4 및 6)의 동작과 병렬로 기술된 단계(5 및 7)의 동작은 이들 단계(4 및 6)에 연속해서 또는 이들 단계 이전에 실행될 수 있다. 더나아가, 예컨대 객체를 추출하기 위한 단계와 같은 분석 단계 중 몇몇 단계는 MPEG-7 유형의 컨텐츠 설명이 인코딩될 비디오 문서에 이용 가능한 경우에 회피될 수 있다.

앞서 지시된 바와 같이, 관심을 두고 있는 큰 스프라이트를 인코딩하는 비용을 최소화하는데에 연결이 적용될 수 있다. 이러한 연결의 범위는 세배가 된다: 텍스쳐, 형상(존재한다면), 및 연속적인 변형 파라미터. 그러나, 주된 기준은 텍스쳐를 인코딩하는 비용이다.

이러한 비용을 최소화하는 방법은 MPEG-4 표준을 사용하며, 간단한 방식으로, 다시 말해, 스프라이트를 수평으로 적층시킴으로써, 즉 MPEG-4 공간 예측 툴 DC/AC의 동작에 의존하는 방법에 의해 이들 스프라이트의 조립을 실행하는 실시예에서 이하에서 제공된다. MPEG-4 표준 체제에서, 공간 예측은 수평으로 또는 수직으로 실행된다. 이것은 체계적으로 각 블록의 제 1 DCT 계수에 적용되고(DC 예측 모드), 또한 부가적으로 각 블록의 제 1 행 또는 제 1 열의 다른 DCT 계수에 적용될 수 있다(AC 예측 모드). 연결을 위한 최적 위치를 결정하는 것, 다시 말해 그 공통 에지 상에서 텍스쳐가 연속되는 인접한 스프라이트를 조립함으로써 최소 텍스쳐 인코딩 비용을 찾는 것이 고안된다.

큰 스프라이트는 가장 넓은 스프라이트에 의해 개시된다. 그러면, 남은 스프라이트 중 가장 넓은 스프라이트, 다시 말해 두 번째로 가장 넓은 스프라이트를 통합하는 새로운 큰 스프라이트가 계산된다. 도 2는 큰 스프라이트(9)와 새로운 큰 스프라이트를 얻기 위해, 다시 말해 스프라이트(9)에 대해 배치되는 두 번째로 큰 스프라이트(10)를 도시한다.

도 3은 직사각형 스프라이트(10)를 도시하며, 좀더 구체적으로 상단 에지를 따라서의 매크로 블록(11)의 연속과 스프라이트의 하단 에지를 따라서의 매크로 블록(12)의 연속을 도시한다. 고려된 스프라이트의 매크로블록은 스프라이트가 큰 스프라이트 아래에 위치할 때는 상단 에지에 인접해 있고 스프라이트가 큰 스프라이트 위에 위치할 때는 하단 에지에 인접해 있는 비어 있지 않는 매크로블록이다. 스프라이트가 직사각형이 아닌 경우, 이 스프라이트를 포함하는 직사각형의 상단 및 하단 에지에서의 비어 있지 않는 매크로블록이 고려된다. 빈 매크로블록은 무시된다.

이산 코사인 변환(DCT)은 고려된 매크로블록(또는 매크로블록의 휘도 블록), 다시 말해 여러 스프라이트의 상단 및 하단 에지를 따라서의 비어 있지 않는 매크로블록이나 블록 상에서 실행된다. 그러면, 최적의 상단 및 하단 위치가 두 스프라이트의 경계에서 텍스쳐에 대한 연속성 기준을 최소화함으로써 계산된다.

앞서 계산된 큰 스프라이트(9)에 통합될 스프라이트(10)의 좌표(X, Y)에 의해 한정된 주어진 위치(X, Y)에 대해, 전역적인 기준 값{C(X, Y)}이 계산된다. 위치(X, Y)는 예컨대 통합될 상단 스프라이트의 하단 좌측 코너의 좌표나, 통합될 하단 스프라이트의 상단 좌측 코너의 좌표이며, 이때 원점은 큰 스프라이트의 미리 결정된 점으로부터 한정된다. 좌표(X, Y)는 스프라이트가 큰 스프라이트 외부로 확장되지 않게 하도록 제한된다.

이러한 주어진 위치(X, Y)와 테스트된 모든 위치에 대해, 이러한 위치의 위 또는 아래에는 큰 스프라이트를 구비한 N개의 인접한 블록이 위치해있을 것이다. 이들 인접한 블록, 즉 큰 스프라이트에 속해 있고 통합될 스프라이트에 속해 있는 블록의 이들 두 행 중에서, N개의 하단 블록의 행이 고려될 것이다. 이들 N개의 블록 중 각 블록(B_k)에 대해, 어떤 방향이 DC/AC 예측의 가능한 방향일지가 먼저 결정된다.

도 4는 현재의 블록과 주변의 블록, 즉 그 좌측에 있는 블록 A, 블록 A 위에 있는 블록 B, 및 현재의 블록 위에 있는 블록 C를 도시한다. 종래의 DC/AC 공간 예측 툴에 의해 결정되는 바와 같이, 블록 A 및 B 간의 DC 계수의 그레디언트, 즉｜DC_A-DC_B｜와, 블록 C 및 B 간의 그레디언트, 즉｜DC_C-DC_B｜가 결정된다. 만약 어떠한 인접한 블록 A, B 또는 C 도 없다면, DC 계수는 1024인 디폴트값을 취한다.

- 만약 ｜DC_A-DC_B｜<｜DC_C-DC_B｜라면, DC/AC 예측은 아마도 수직 방향에서 실행될 것이다. 현재의 블록에 대해, 수직 예측에 대응하는 그 제 1 행의 나머지 행이 그러므로 상단 블록 C의 제 1 행으로부터 결정될 것이다.

- 만약 ｜DC_A-DC_B｜≥｜DC_C-DC_B｜라면, DC/AC 예측은 아마도 수평 방향에서 실행될 것이다. 현재의 블록에 대해, 수평 예측에 대응하는 그 제 1 열의 나머지 열은 그러므로 좌측 블록 A의 제 1 열로부터 결정될 것이다.

그러면, 잔류 AC 계수의 에너지, 다시 말해 예측의 예상 방향에 따라 제 1 행 또는 제 1 열의 예측을 사용하여 계산된다:

ΔAC_i는 잔류 AC의 계수에 대응한다, 다시 말해 현재의 블록의 제 1 행이나 제 1 열의 7개의 AC 계수와, 현재 블록의 상단 블록 또는 현재의 블록의 좌측 블록의 제 1 행이나 열의 7개의 AC 계수 각각 간의 차이에 대응한다.

초기 AC 계수, 다시 말해 예측 이전의 에너지가 또한 계산된다:

AC_i는 현재의 블록의 제 1 행이나 제 1 열의 7개의 계수(AC)에 대응한다.

현재의 블록에 대해, 에너지가 가능한 한 낮게 되게 하는 위치를 결정하는 것이 바람직하다. 이 에너지는, 블록의 위치에 따라서 변하는 부분에 대해서는, ΔDC에 의존하며, 가능하게는 예측이 있는 경우에는 ΔAC_s에 의존한다. 이것은 다음과 같다:

- DC/AC 예측이 있을 때, 다시 말해 E_{AC_pred} <E_{AC_init}라면:

- 어떠한 DC/AC 예측도 없을 때, 다시 말해 E_{AC_pred} ≥E_{AC_init}라면:

E(B_k)= ΔDC²

행의 N개의 블록 각각에 대해 계산이 실행되고, 주어진 위치에 대해 기준(C)은 다음과 같다:

최적 위치(X_opt, Y_opt)는 테스트된 위치 모두에 걸쳐서 C(X, Y)를 최소화시키는 위치이다.

통합될 스프라이트 및 큰 스프라이트에서의 그 위치가 결정되면, 통합될 스프라이트의 변형 파라미터는 업데이트된다. 이를 위해, 새로운 스프라이트가 큰 스프라이트에 통합되는 점의 좌표(X_opt, Y_opt)는 그 변형 파라미터의 변환 성분에 추가된다. 테이퍼링된 모델의 경우, 6개의 변형 파라미터(a, b, c, d, e, f)가 있으며, 그 중 두 파라미터, 즉 a 및 b는 변형의 변환 성분 즉 상수를 특징이다. 그러므로, a는 a+X_opt로 변환되어야 하고, b는 b+Y_opt로 변환되어야 한다.

새로운 변형 파라미터는 일시적으로 대응하는 샷이 비디오 시퀀스 내로 삽입되는 위치에서 큰 스프라이트의 변형 파라미터 목록 내에 삽입된다.

연결의 결과는 다음과 같다:

- 몇몇 스프라이트 대신에 하나의 큰 스프라이트,

- 비디오 시퀀스의 여러 샷에 대응하는 몇몇 리스트 대신에 변형 파라미터의 하나의 목록.

연속적인 변형 파라미터는 배경에서 볼 수 있는 것이 비디오 시퀀스의 각 이미지에 대해 큰 스프라이트로부터 재생성되게 한다.

비디오 시퀀스에 대한 사전-분석 단계, 및 그 다음에 이러한 분석에 의존한 인코딩 단계를 실행함으로써, 인코딩이 달성될 수 있다.

MPEG-4 표준의 특정한 경우에, 인코딩은 스프라이트 인코딩 툴(문서 ISO/IEC JTC 1/SC 29/WG 11 N 2502의 7.8장, 189쪽 내지 195쪽 참조)을 사용하여 비트스트림을 생성하는 것이다. 제 2 비트스트림은 직사각형이 아닌 객체에 대한 인코딩 툴, 특히 2진 형태에 대한 인코딩 툴(문서 ISO/IEC JTC 1/SC 29/WG 11 N 2502의 7.5장, 147쪽 내지 158쪽 참조)을 기반으로 하고, 추가로, 만약 마스크가 2진이 아니라면 그레이-형상의 인코딩 툴(문서 ISO/IEC JTC 1/SC 29/WG 11 N 2502의 7.5.4장, 160쪽 내지 162쪽 참조)을 기반으로 한다.

본 발명의 또 다른 요지는 전술된 방법에 따라 이미지 시퀀스의 인코딩으로부터 초래된 압축된 데이터스트림이다. 이러한 스트림은 큰 스프라이트에 적용 가능한 변형 파라미터와 관련된 큰 스프라이트에 대한 인코딩 데이터와, 장면의 재생성을 위해 전경의 객체에 대한 인코딩 데이터를 포함한다.

본 발명의 또 다른 요지는 이러한 방법을 사용하는 인코더 및 디코더이다. 이것은 예컨대 시퀀스를 샷으로 분류하고, 각 등급에 대한 스프라이트를 생성하고, 이들 스프라이트를 연결함으로써 큰 스프라이트를 구성하기 위한 처리 회로를 포함하는 인코더에 관련된다. 이것은 또한 큰 스프라이트 및 전경 객체를 디코딩하여 비디오 시퀀스의 교대하는 샷으로된 이미지를 생성하기 위한 회로를 포함하는 디코더에 관련된다.

본 발명의 응용은 스프라이트를 이용하는 비디오-인코딩 표준, 특히 MPEG4 표준을 사용하는 디지털 이미지의 송신 및 저장에 관련된다.

상술한 바와 같이, 본 발명은 교대되는 샷으로 구성된 비디오 시퀀스의 디지털 데이터를 "스프라이트"를 이용하여 압축하는 방법 및, 이 방법을 구현하는 디바이스에 이용된다.

Claims

비디오 시퀀스의 디지털 데이터를 압축하는 방법에 있어서,

상기 시퀀스를 교대되는 비디오 샷(shot)으로 분할하는 단계(1)와;

등급을 구하기 위해 카메라 앵글에 따라 상기 샷을 분류하는 단계(2)와;

한 등급에 관한 배경에 대응하는 복합 이미지인 스프라이트(sprite)나 비디오 객체 평면을 상기 등급에 대해 생성하는 단계(3)와;

큰 스프라이트로 불리는 이미지를 형성하기 위해, 적어도 두 개의 스프라이트를 동일한 스프라이트나 비디오 객체 평면으로 그룹화하는 단계(5)와;

상기 큰 스프라이트에 대응하는 샷에 대해, 이들 샷에 관한 시퀀스로부터 이미지 전경 객체(image foreground object)를 추출하는 단계(4)와;

상기 큰 스프라이트와 상기 추출된 전경 객체를 별도로 인코딩하는 단계를,

포함하는 것을 특징으로 하는, 비디오 시퀀스의 디지털 데이터를 압축하는 방법.
제 1항에 있어서, 상기 스프라이트는 상기 큰 스프라이트를 생성하기 위해 서로 위아래로 배치되는(5) 것을 특징으로 하는, 비디오 시퀀스의 디지털 데이터를 압축하는 방법.
제 2항에 있어서, 상기 스프라이트의 위치지정은 상기 큰 스프라이트의 인코딩 비용의 함수로서 계산되는 것을 특징으로 하는, 비디오 시퀀스의 디지털 데이터를 압축하는 방법.
제 1항에 있어서, 상기 큰 스프라이트는 MPEG4 표준에서 한정되고 인코딩된 바와 같은 스프라이트인 것을 특징으로 하는, 비디오 시퀀스의 디지털 데이터를 압축하는 방법.
제 1항에 있어서, 데이터스트림을 전달하기 위해, 멀티플렉싱 동작(8)이 상기 추출된 전경 객체에 관한 데이터와, 상기 큰 스프라이트에 관한 데이터에 대해 실행되는 것을 특징으로 하는, 비디오 시퀀스의 디지털 데이터를 압축하는 방법.
제 1항에 기재된 방법에 따라 이미지 시퀀스를 인코딩하기 위한 압축된 데이터스트림에 있어서,

상기 큰 스프라이트에 적용될 수 있는 변형 파라미터와 관련된 상기 큰 스프라이트에 대한 인코딩 데이터와, 상기 추출된 전경 객체에 대한 인코딩 데이터를 포함하는 것을,

특징으로 하는, 이미지 시퀀스를 인코딩하기 위한 압축된 데이터스트림.
제 1항에 기재된 방법에 따라 데이터를 인코딩하는 인코더에 있어서,

상기 시퀀스를 샷으로 분류하고, 각 등급에 대한 스프라이트를 생성하고, 및 이들 스프라이트를 연결함으로써 큰 스프라이트를 구성하는 처리 회로와;

상기 큰 스프라이트에 관한 상기 시퀀스로부터 이미지 전경 객체를 추출하는 회로와;

상기 큰 스프라이트와 상기 추출된 전경 객체를 인코딩하는 인코딩 회로를,

포함하는 것을 특징으로 하는, 인코더.
제 1항의 방법에 따라 교대되는 샷을 포함하는 비디오 시퀀스의 비디오 데이터를 디코딩하는 디코더에 있어서,

큰 스프라이트에 관한 데이터 및 전경 객체에 관한 데이터를 위한 디코딩 회로와;

상기 디코딩된 데이터로부터 이미지를 생성하는 회로를,

포함하는 것을 특징으로 하는, 디코더.