KR20030014689A - 스프라이트 생성을 위한 글로벌 동작추정 - Google Patents

스프라이트 생성을 위한 글로벌 동작추정 Download PDF

Info

Publication number
KR20030014689A
KR20030014689A KR1020027016607A KR20027016607A KR20030014689A KR 20030014689 A KR20030014689 A KR 20030014689A KR 1020027016607 A KR1020027016607 A KR 1020027016607A KR 20027016607 A KR20027016607 A KR 20027016607A KR 20030014689 A KR20030014689 A KR 20030014689A
Authority
KR
South Korea
Prior art keywords
sprite
input image
field
initial
parameter data
Prior art date
Application number
KR1020027016607A
Other languages
English (en)
Inventor
파누소포네 크리트
첸 쑤에민
Original Assignee
제너럴 인스트루먼트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 제너럴 인스트루먼트 코포레이션 filed Critical 제너럴 인스트루먼트 코포레이션
Publication of KR20030014689A publication Critical patent/KR20030014689A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/53Multi-resolution motion estimation; Hierarchical motion estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/112Selection of coding mode or of prediction mode according to a given display mode, e.g. for interlaced or progressive display mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/21Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with binary alpha-plane coding for video objects, e.g. context-based arithmetic encoding [CAE]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/23Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with coding of regions that are present throughout a whole video segment, e.g. sprites, background or mosaic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/527Global motion vector estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/56Motion estimation with initialisation of the vector search, e.g. estimating a good candidate to initiate a search

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Processing Or Creating Images (AREA)

Abstract

완전 자동 스프라이트 생성시스템은 초기 추정을 위한 첫번재-순서 예측(210)과, 아웃라이어 배제를 위한 지연된 삭제(230) 및, 인터레이스된 소스를 위한 필드-기반 스프라이트 생성을 이용한다. 선택적으로, 초기 추정을 위한 보다 높은-순서 예측(220)은 좀더 복잡한 동작을 처리하기 위해 이용된다. 본 발명은 스프라이트, 예컨대 3차원 시퀀스, 주식 시세 표시기, 양방향 광고를 생성하는데 유용하고 그 외의 이용에도 유용하다. 본 발명은 기존의 MPEG-4 구조에 의해 처리되지 않는 아웃라이어 및 고속동작의 문제를 처리한다. 자동 스프라이트 생성은 스프라이트 형성에 이용하기 위한 보통 장면을 나누는 연속하는 이미지의 그룹을 제공하기 위해 입력 이미지의 숏 검출(310; 예컨대, 패닝 또는 줌잉)을 수행함으로써 제공된다. 스프라이트를 형성하기 위한 동작 파라메터 데이터의 초기 추정(710)은 적어도 2개의 이전 입력 이미지의 동작 파라메터 데이터를 이용하여 개선된다(715). 지연된 아웃라이어 배제(600)는 에러가 연속하는 스프라이트 반복에서 증가하는 화소를 삭제하여 2단계에서 수행된다. 인터레이스된 입력 이미지의 경우, 스프라이트 및 동작 파라메터의 세트는 각 필드를 위해 인코드되어 전송된 후, 디코더에서 디코드되어 프리젠테이션 엔진(1090)에서 조합된다.

Description

스프라이트 생성을 위한 글로벌 동작추정{GLOBAL MOTION ESTIMATION FOR SPRITE GENERATION}
1. 서론
스프라이트(sprite)는 전체 가시장면을 나타내는 정지화상이다. 스프라이트는 루미넌스(luminance), 크로미넌스(chrominance) 및 그레이스케일 알파 데이터(grayscale alpha data)의 2차원 배열로 표현된다.
실제로, 스프라이트는 컴퓨터 애니메이션 그래픽이나 정적배경의 일부에서 취해진 천연 이미지의 수집으로부터 생성된다. 이러한 장면에서, 스프라이트는 사진측량에서의 이미지 모자이크, 이미지 프로세싱 및 컴퓨터 그래픽과 같은 동일한 의미를 갖는다.
예컨대, 도 9에 나타낸 바와 같이, 스프라이트(950)는 연속하는 이미지 910 및 930에 의해 형성된다. 스프라이트(950)에서의 각 특징부는 입력 이미지(예컨대, 프레임) 910 및 930으로부터의 대응하는 특징부로 나타난다. 동작 파라메터는 입력 이미지 특징부와 가장 가까운 매치(match)를 이루는 스프라이트의워핑(warping)을 나타낸다. 스프라이트는, 예컨대 카메라 동작 또는 대상의 동작으로 인해, 시퀀스의 각 입력 프레임에 다르게 워핑되어야만 한다.
예컨대, 나무대상(912”)은 제1입력 이미지(910)로부터의 나무대상(912)에 기초한다. 집대상(914”)은 각각의 제1 및 제2입력 이미지 910 및 930으로부터의 집대상 914 및 914’에 기초한다. 나무대상(916”)은 제2입력 이미지(930)의 나무대상(916’)에 기초한다.
더욱이, 스프라이트가 패닝(panning)과 같은 카메라 동작 또는 전경대상(foreground object)에 기인한 소정 프레임으로 전혀 가시화할 수 없는 시퀀스에서의 배경대상이면, 입력 프레임의 적절한 화소를 수집하여 시퀀스를 통해 그것을 점차 갱신함으로써 완전한 스프라이트가 얻어질 수 있다.
스프라이트는 비디오 게임, 양방향 광고, 가상여행 등과 같은 다양한 애플리케이션에 대중화 되고 있다. 스프라이트는 장면을 두루 탐색항해 하기 위한 효과적인 방식을 제공한다. 소정 각도에서의 장면의 소정 부분은 스프라이트를 적절하게 워핑(warping) 및 크로핑(cropping) 함으로써 구성될 수 있다. 따라서, 그것은 인터넷 상의 광고에서 사용이 증가된다. 예컨대, 스프라이트는 자동차의 내부에 이루어질 수 있으며, 사용자는 주위를 둘러보고 및/또는 줌인 또는 줌아웃하도록 시야각을 회전시킬 수 있다.
또 다른 예는, 동영상이 아니라, 우리의 연구에 따른 20개 이상의 요인에 의해 데이터량을 감소시킬 수 있는 스프라이트를 이용하여 주식 시세 표시기를 보낸다. 또한, 로고(예컨대, 역 표시기, 광고 등)가 스프라이트로서 보내질 수 있다.
스프라이트는, 새로운 화상에 재방문하는 스프라이트의 장면의 부분을 재인코드하는데 매우 쉽거나 과다하기 때문에, 코딩효율의 관점에서 매우 효과적이다. 따라서, MPEG-4(국제표준 ISO/IEC 14496-2 최종안, "Information Technology - Coding of audio-visual objects, Part 2 : visual," MPEG98/N2502, Dec. 1998)는 그 비주얼 부분에 그것들을 포함함으로써 스프라이트 코딩 도구를 표준화시켰다. 정적 스프라이트는 스프라이트 조각(piece)의 워핑 결과만을 제공하고, 반면 동적 스프라이트(DS; Dynamic Sprite) 및 글로벌 동작보상(GMC; Global Motion Compensation)은 그 워핑 결과가 미리 디코드된 비디오 대상면(VOP; Video Object Plane)과 조화되어 로컬적으로 조절될 수 있도록 한다. 스프라이트 조각은 근본적으로 이미지이지만, 이미지 모자이크(예컨대, 모자이크 조각)로부터 기원한다.
정적 스프라이트는 이미 MPEG-4 비주얼 버전1에 채용되어 있으며, DS 및 GMC는 버전2에 포함될 예정이다. 버전1 신택스(syntax)에 따르면, 정적 스프라이트 조각은 시퀀스의 개시시에, 또는 낮은 대기모드에서 조각마다 즉시 규칙적인 인트라 VOP로 코딩된다. 또한, 글로벌 동작 파라메터(투시 동작모델을 위해 8까지)도 모두 VOP로 코딩된다. 그러나, 스프라이트 조각 및 글로벌 동작 파라메터는 MPEG-4 인코더의 부분이 아니라 MPEG-4 인코더에 입력으로 할 필요가 있다.
비록, MPEG-4 비디오가 스프라이트를 위한 코딩 도구를 제공할 지라도, 스프라이트를 어떻게 생성하는지의 기준에 따라 일일이 열거하지는 않는다. MPEG-4 비디오 검증모델 버전9.1(소식부; 1998년 2월, ISO/IEC 14496-2 MPEG-4 Video Verification Model Version 9.1, MPEG98/M3100)에는 기준 알고리즘의 간단한 설명만이 제공된다.
따라서, 오프라인 스프라이트 생성을 위한 개선된 글로벌 동작추정기술을 제공할 필요가 있다. 그 기술은 MPEG-4(MPEG98/M31002 및 1998년 2월, J. Konrad 및 F. Dufaux에 의한 "Improved global motion estimation for N3,"로 명칭된 ISO/IEC JTC1/SC29/WG11 MPEG98/M3096과 관련한)의 핵심실험에 의해 개발된 기준 알고리즘을 확대한다.
오리지날 MPEG-4 방법은 투시 글로벌 동작추정을 위한 반복 비선형 최소 알고리즘을 사용한다. 그와 같은 반복 알고리즘은 초기 추정의 품질에 상당히 의존한다.
따라서, 그것은 스프라이트 코딩의 성능을 향상시키는데 바람직하고 자동 스프라이트 생성시스템, 초기 추정을 위한 첫번째-순서 예측, 아웃라이어(outlier) 배제를 위한 지연된 삭제 및, 인터레이스된 소스를 위한 필드 기반 스프라이트 생성과 같은 새로운 도구를 제공함으로써 소스 시퀀스에 유연성을 더 제공하는데 바람직하다.
또한, 그것은 프리-워핑(pre-warping) 및 순환기술에 기초한 보다 정확한 초기 추정을 결정하기 위한 기술을 제공하는데 바람직하다.
또한, 그것은 효과적인 아웃라이어 배제 구성을 갖는 동작 파라메터와 스프라이트 생성의 정확도를 향상시키는데 바람직하다.
또한, 그것은 제어 및 비제어 조건 하에서 동작 파라메터와 스프라이트 생성의 질을 향상시키는데 바람직하다. 제어된 조건은 장면, 프레임에서 프레임으로천천히 이동하는 비디오에 노이즈가 없는 통상 환경에서 기대되는 이상적인 조건이다.
본 발명은 상기와 같은 장점 및 그 외의 장점을 갖는 시스템을 제공한다.
본 발명은, 스프라이트 생성 및 3차원 동작추정에 관한 것으로, 글로벌 동작추정을 위해 새롭게 개발된 기술에 관한 것이다.
도 1은 본 발명에 따른 스프라이트 생성장치를 나타낸 도면이다.
도 2는 글로벌 동작추정방법의 순서도를 나타낸 도면이다.
도 3은 본 발명에 따른 자동 스프라이트 생성시스템을 나타낸 도면이다.
도 4는 아웃라이어의 예를 나타낸 도면이다.
도 5a는 절단 2차처리(TQ) 아웃라이어 배제방법을 야기하는 정렬되지 않은이미지를 나타낸 도면이다.
도 5b는 절단 2차처리(TQ) 아웃라이어 배제방법을 야기하는 아웃라이어를 나타낸 도면이다.
도 6은 본 발명에 따른 지연된 삭제 알고리즘을 나타낸 도면이다.
도 7은 본 발명에 따른 글로벌 동작추정의 방법을 나타낸 도면이다.
도 8은 스프라이트 디코더를 나타낸 도면이다.
도 9는 스프라이트의 형성을 나타낸 도면이다.
도 10은 본 발명에 따른 인터레이스된 소스를 처리하기 위한 인코더 및 디코더를 나타낸 도면이다.
본 발명은, 스프라이트 생성 및 3차원 동작추정에 관한 것으로, 글로벌 동작추정을 위해 새롭게 개발된 기술에 관한 것이다.
MPEG-4로 제시된 스프라이트 생성 알고리즘은, 부분적으로 글로벌 동작추정기술이 아웃라이어에 영향을 받기 쉽고 고속동작의 문제 때문에, 아직 실용적으로 사용하지 못하고 있다.
본 발명은, 완전한 자동 스프라이트 생성시스템과, 초기 추정을 위한 첫번째-순서 예측, 아웃라이어 배제를 위한 지연된 삭제 및, 인터레이스된 소스를 위한 필드 기반 스프라이트 생성을 제공함으로써 상기 및 그 외의 염려를 처리한다.
선택적으로, 초기 추정을 위한 보다 높은 순서의 예측이 보다 복잡한 동작을 처리하기 위해 이용된다.
본 발명은, 예컨대 3차원 시퀀스, 주식 시세 표시기, 양방향 광고 및 또 다른 다양한 이용을 위한 스프라이트를 생성하는데 유용하다.
특히, 스프라이트 형성에 이용하기 위한 보통의 정적배경을 나누는 연속하는 이미지의 그룹을 제공하기 위해 입력 이미지의 숏(shot) 검출을 수행함으로써 자동 스프라이트 생성이 제공된다. 숏 검출은 동작 파라메터의 초기 추정에서의 블록매칭이 턴 온될 경우에 패닝이나, 또는 초기 추정에서의 블록매칭이 턴 오프될 경우에 줌잉(zooming)을 검출한다.
일련의 입력 이미지로부터 스프라이트를 형성하기 위한 동작 파라메터 데이터의 초기 추정은, 예컨대 적어도 2개의 이전 입력 이미지의 동작 파라메터의 선형 예측 또는 비선형 예측을 이용하여, 초기 입력 이미지를 선행하는 적어도 2개의 입력 이미지의 동작 파라메터에 기초하여 제공된다. 특정 실시예에 있어서, 동작 파라메터의 초기 추정(Sn)은 Sn=Sn-1+ (Sn-1- Sn-2)에 따라 제공되고, 여기서 Sn-1은 초기 입력 이미지를 선행하는 입력 이미지의 동작 파라메터이고, Sn-2는 다음의 선행 입력 이미지의 동작 파라메터이다.
다른 실시예에 있어서, 지연된 아웃라이어 배제는 스프라이트와 초기 입력 이미지간 레지스트레이션(registration)을 제공하기 위한 동작 파라메터의 적어도 제1 및 제2연속추정을 제공함으로써 달성된다. 초기 입력 이미지의 화소와 스프라이트의 화소간 적어도 제1 및 제2에러는 각각 적어도 제1 및 제2추정에 기초하여 결정된다. 제2추정은 제1에러에 기초하여 제1추정을 갱신함으로써 얻어진다. 제2에러가 제1에러를 초과하는 화소는 스프라이트 생성에 고려하여 삭제된다.
다른 실시예에 있어서, 인터레이스된 제1 및 제2필드로 이루어지는 일련의 입력 이미지로부터 스프라이트 데이터를 생성하기 위한 방법은, 각각의 입력 이미지의 제1 및 제2필드를 위한 각각의 동작 파라메터 데이터의 세트를 갖는 각각의 제1 및 제2필드 스프라이트를 생성하는 단계와, 적어도 하나의 디코더에 전송을 위해 상기 제2필드 스프라이트 및 관련된 동작 파라메터와 따로 상기 제1필드 스프라이트 및 관련된 동작 파라메터를 인코딩하는 단계를 포함한다.
디코더에서 스프라이트 데이터를 처리하기 위한 대응하는 방법은, 인코더로부터 전송된 데이터를 수신하는 단계를 포함하며, 여기서 상기 데이터는 인코드된 제1필드 스프라이트 및 관련된 동작 파라메터 데이터와, 따로 인코드된 제2필드 스프라이트 및 관련된 동작 파라메터 데이터를 포함한다. 제1 및 제2필드 스프라이트는 인코더에서 적어도 하나의 초기 입력 이미지의 인터레이스된 제1 및 제2필드로부터 생성된다. 상기 방법은, 제1필드 스프라이트 출력을 제공하기 위해 인코드된 제1필드 스프라이트 및 관련된 동작 파라메터 데이터를 디코딩하는 단계와, 제2필드 스프라이트 출력을 제공하기 위해 인코드된 제2필드 스프라이트 및 관련된 동작 파라메터 데이터를 디코딩하는 단계 및, 텔레비전 또는 컴퓨터 모니터와 같은 디스플레이를 위한 조합된 스프라이트 출력을 형성하기 위해 제1필드 스프라이트 출력과 제2필드 스프라이트 출력을 조합하는 단계를 더 포함한다.
대응하는 방법 및 장치가 제공된다.
본 발명은 스프라이트 이미지 생성에 관한 것이다.
2. 스프라이트 생성 및 글로벌 동작추정
본 섹션에서는 MPEG-4 인코더의 스프라이트 생성의 개요를 설명한다. MPEG-4 인코더에 요구된 입력은 스프라이트 조각 및 동작 파라메터이다. 이러한 동작 파라메터는 특수한 케이스(전이동작모델에 대한)로서 기존의 동작벡터(MPEG-2에서와 같이)를 포함한다. MPEG-4 인코더는 인트라 코딩모드를 이용하여 스프라이트 조각을 압축한다. 어느 순간의 이미지는 동작 파라메터에 따라 워핑된 스프라이트 조각의 1, 2, 3 또는 4 코너(동작모델에 따른)인 스프라이트 궤도(스프라이트 기준점)에 의해 표현된다.
스프라이트 조각 및 동작 파라메터는 가까운 관계이고, 따라서 스프라이트생성에 있어서 동시에 결정된다. 스프라이트 조각은 글로벌 동작 파라메터에 따라 새로운 화상을 워핑(warping)하고 그것을 혼합(blending) 구성에 기초하여 현재 스프라이트 상에 갱신함으로써 구성된다. 중요한 문제는 모든 이미지에 대한 동작 파라메터를 어떻게 찾느냐이다. 이러한 문제는 일반적인 경우의 이미지 레지스트레이션에서 문제가 된다. 최적의 해결책은 레지스터링(새로운 이미지)과 레지스터된(스프라이트) 이미지간 상관관계를 최대화하는 동작(워핑) 파라메터이다. 전이동작만을 갖는 화상 레지스트레이션에 대한 통계적 접근은, 1974년 5월, W. K. Pratt에 의한 "Correlation techniques of image registration,"으로 명칭된 IEEE Trans. Aerospace Electronics and Systems, vol. AES-10, pp. 353-358에 기술되어 있다.
3차원(3D) 공간에서의 완전한 기하학적 변형을 필요로 하는 3차원(3D) 동작은 동작의 모든 범위, 예컨대 2개의 화상간 회전, 줌 및 시어(shear)를 가능하게 한다. 3차원 동작추정방법의 개요는, 1997년 7월, T. S. Huang, 및 A. N. Netravali에 의한 "Motion and structure from feature correspondences: A review,"로 명칭된 Proc. IEEE, vol. 82, pp. 252-268에 기술되어 있다.
천연 이미지의 경우, MPEG-4 스프라이트 코딩은 카메라 동작을 거치고 정적배경을 포함하는 화상 시퀀스에 적절하다. 이러한 상황은, 임의 형태의 코딩이 입력을 관련된 알파평면에 의한 몇개의 대상으로 나누어질 수 있도록 함으로써, 때때로 이동부분이 또 다른 대상으로 분리되어 스프라이트로부터 삭제되기 때문에, MPEG-4에 유효하다. 이러한 추정하에, 새로운 이미지의 부분은 이전의 이미지나스프라이트의 부분으로부터 변형을 거치고, 따라서 스프라이트의 화소는, 이하와 같이, MPEG98/M3100 및 1997년 H. Y. Shum과 R. Szeliski에 의한 "Panoramic image mosaics,"로 명칭된 Technical Report, MSR-TR-97-23, Microsoft Research에 기술된 평면 투시변형에 의해 마스크된 화상의 화소와 관련된다:
여기서, m[0]에서 m[8]은 투시계수이고(m[8]은 평면의 경우에 1로 설정된다), (x,y) 및 (x',y')는 각각의 워핑 이미지 및 스프라이트의 화소의 좌표이다. 인버스 워핑(inverse warping)은 이하와 같은 스프라이트의 화소와 마스크된 이미지의 화소간의 관계를 기술한다:
평면 투시변형의 투시계수는 마스크된 이미지와 스프라이트간 변형을 기술하는 파라메터이다. 글로벌 동작추정은 차례로 변형 및 투시계수를 결정하는 스프라이트 상의 마스크된 이미지의 최선의 레지스트레이션(동작 파라메터)을 찾기를 시도한다. 일단 마스크된 이미지가 인버스 워핑을 통해 변형되면, 그것은 갱신된 스프라이트를 구성하기 위해 현재 스프라이트에 혼합된다. 통상, 인버스 워핑은 포워드 워핑(forward warping)의 현재 스프라이트의 스트레칭(stretching)에 의해야기된 갱신된 스프라이트의 홀을 피하기 위해 포워드 워핑 대신에 이용된다. 본 발명은 포워드 또는 리버스(reverse) 워핑 모두에 적용가능하다.
혼합(blending)은 오프라인 스프라이트 생성의 최종과정이다. 혼합은 2개의 입력을 취하여 가중요소에 따라 그들을 함께 혼합한다. 가중요소는 소정 위치에서 2개의 입력간 혼합비율을 지정한다. MPEG-4에서, 그것은 스프라이트의 어떤 화소에 대한 가변정수이고, 대응하는 화소가 갱신될 때마다 정의된 상수에 의해 증가된다. 동일한 가중치를 갖는 스프라이트에 새로운 이미지를 점차적으로 추가함으로써(갱신함으로써), 단일 이미지의 노이즈가 원활하게 제거된다. 온라인 스프라이트 코딩과정에서의 혼합은 새로운 VOP 및 스프라이트를 이용하여 갱신된 스프라이트를 구성한다. 이러한 경우에 있어서, 혼합요소는 0(zero)과 1간 부유점 상수이다(혼합요소는 항상 정적 스프라이트에 대해 1이다).
3. MPEG-4 투시동작추정 알고리즘
스프라이트 생성의 MPEG-4의 활동은 핵심실험 N3 내에서 수행된다. 2가지의 글로벌 동작추정 알고리즘(MPEG98/M3096 및 1996년 9월 C. Gu, T. Markoc, R. Szeliski와 M. C. Lee에 의한 "Results report on core experiment N3 - Sprite generation,"으로 명칭된 ISO/IEC JTC1/SC29/WG11 MPEG96/M1350)은 N3에서 연구되어지고 스프라이트 코딩의 핵심실험에 폭 넓게 이용된다. M1350 제안은 MPEG-4 VM(M3100)의 부가로 기준 알고리즘을 형성했다. M3096 제안은 M3100에 기초하여 개선된 방법이다. 이하의 서브섹션은 이들 2개의 알고리즘을 보다 상세히 설명한다.
3.1 MPEG96/M1350 제안
도 1은 본 발명에 따른 오프라인 스프라이트 생성장치(100)의 개요를 나타낸다.
오프라인 스프라이트 생성장치(100)는, M1350에 기초하지만, 동작추정기능(110)을 위한 새로운 알고리즘을 제안하는 MPEG-4 VM에 기초한다. 도 1의 모든 요소는 스프라이트 조각을 생성하기 위해 필요하다. 동작추정기능(110)은 마스크 데이터, VOP 데이터 및, 프레임 메모리(140)로부터의 데이터를 수신한다. 워핑기능(120)은 VOP 데이터에 기초한 워핑과 동작추정기능(110)의 출력을 제공한다. 혼합기능(130)은 VOP에 기초한 혼합 및 스프라이트를 제공하기 위해 워핑기능과 프레임기능의 출력을 제공한다. 특히, 혼합기능(130)은 기존의 스프라이트 조각에 현재 VOP를 혼합함으로써(적절한 워핑 후에) 스프라이트 조각을 갱신한다.
이전 섹션에서 기술한 바와 같이 유사한 워핑 및 혼합이 이 과정에서 이용된다. MPEG-4에 채용된 투시동작모델이 비선형이기 때문에, 입력 이미지의 최적의 변형 파라메터를 찾음으로써 입력 이미지와 스프라이트간 에러를 최소화 하려는 동작추정은 비선형 최소화기술에 달려 있다. MPEG-4 VM의 투시동작추정의 핵심과정은 본질적으로 반복 알고리즘인 "LM(Levenberg Marquardt)"이라 부르는 비선형 최소화기술(1992년, W. H. Press, S. A. Teukolsky, W. T. Vetterling 및 B. P. Flannery에 의한 "Numerical recipes in C,"로 명칭된 Cambridge Univ. Press 참조)이다. LM기술은 χ2매리트 기능(비록 χ2이 VM에 사용되지 않을 지라도)에 따라 아주 가파른 강하와 인버스 헤시안(Hessian) 방법간 그 알고리즘을 적절하게 조절함으로써 효과적으로 비선형 최소-스퀘어 문제를 해결한다. LM은 일반식을 해결하려 한다.
Δm = A-1b
여기서, A는 이하와 같은 성분을 갖는 근사 헤시안 매트릭스(Hessian matrix)이다;
b는 이하와 같은 성분을 갖는 가중 기울기 벡터이다;
가우시안 피라미드는 처리를 빠르게 하기 위해 LM과 함께 사용될 수 있다. 피라미드간 동작 파라메터는 이하와 관련된다;
m6= m6/2,m7= m7/2,m2= m2*2,m5= m5*2.
3.2 MPEG96/M1350 제안
도 2는 MPEG-4 VM 투시동작추정의 개선을 기술한다.
이 기술은 전이동작 파라메터를 추정하기 위해 3단계 조사 블록매칭 알고리즘(블록 210)을 이용하여 초기 추정으로 시작한다. 이 추정은 가장 조잡한(가장 낮은) 해상도에서 수행된다. 초기 추정으로부터 얻어진 동작 파라메터는 조잡한 해상도에서 반복적으로 시작하여 보다 우수한(보다 높은) 해상도의 결과로 개선하는 것(블록 220, 280)이 수행되는 LM 알고리즘을 시작한다. 모든 단계의 결과는 32 반복(블록 250~240) 후의 결과이다. 그러나, 일단 갱신된 파라메터가 미리 설정된 임계치보다 작으면 반복을 정지한다(반복 240).
"절단 2차처리(TQ; Truncated Quadratic)"와 같은 아웃라이어 삭제방법에 의해 아웃라이어의 영향이 감소된다. 상기 단계의 LM에 의해 결정된 동작 파라메터에 따라 입력 이미지와 스프라이트를 함께 정렬한 후, 양쪽 대상 내부에 모든 화소의 에러(이 경우 2차함수)를 계산한다. 화상의 10% 이상의 에러에 기여하는 화소는 다음의 최소화로부터 삭제된다. 절단 2차처리 과정은 모든 해상도의 첫번째 반복에서 수행한다.
4. 제안된 변경기술
본 발명에 따른 본 섹션은 조절되지 않은 조건에서의 성능을 향상시키기 위한 투시동작추정의 변경을 기술한다. 그와 같은 조건은, 카메라의 페스트 팬(fast fan)과 같은 장면에서 고급동작이 있을 경우에 생길 것이다. 제안된 변경기술은 스프라이트와 입력 이미지간 다른 프레임차를 최소화하기 위해 LM을 사용한다. 초기 추정의 높은 정밀도는 글로벌 최소화로 집중시키기 위해 필요하다. 제1서브섹션(4.1)은 이러한 문제를 보다 상세하게 기술한다.
또한, 초기 추정의 정밀도를 개선하기 위한 MPEG-4 VM의 변경도 기술한다. 또한, 제2서브섹션(4.2)은 노이즈가 장면에 존재하는 조절되지 않은 조건에서의 또 다른 문제를 기술한다. 제2서브섹션은 TQ방법이 아웃라이어 삭제에 적절하지 않고, 다른 양호한 것이 제안되는 것을 나타낸다. 제3서브섹션(4.3)은 인터레이스된 소스를 처리하기 위한 방법을 기술한다. 이러한 문제는 아직 핵심 실험 N3에서 조사되지 않았다.
천연 비디오 시퀀스로부터의 온라인 스프라이트 생성은 자동으로 스프라이트에 적합한 입력 시퀀스를 생성할 수 있는 전처리 단계를 필요로 한다.
도 3은 본 발명의 자동 스프라이트 생성시스템의 개요를 나타낸다. 이 시스템은 동일한 정적배경을 나누고 따라서 스프라이트 생성에 적합한 그룹 이미지에 대한 숏(shot) 검출(블록 310)을 포함한다. 숏은 동일한 장면(정적을 필요로 하지 않는)을 하나의 카메라로 커버링 하는 화상의 시퀀스이다. 스프라이트 조각은 시스템이 적합한 입력 이미지를 수신할 때마다 자동으로 갱신된다. 스프라이트는, 동일한 장면에 충분한 데이터가 있으면 사용가능하고, 그렇지 않으면 이 시퀀스는 스프라이트 코딩에 적합하지 않은 것으로 고려된다. 양호한 숏 검출 알고리즘은, 글로벌 동작추정이 그 파라메터를 적절하게 조절할 수 있도록, 그 숏의 동작의 특성을 나타내야만 한다(예컨대, 팬/줌 동작이 있으면 초기 추정에서 턴 온/오프 블록매칭). 공지의 숏 검출구성이 사용된다.
자동 마스킹 처리(블록 310)는 전경 대상(예컨대, 배경과 다르게 움직이는 대상)이 장면에 존재할 경우 필요하다. 블루 스크린 기술(K. Panusopone 및 X. Chen에 의해 1998년 9월 17일 출원되고, "Modify Chroma Keyed Technique For Simple Shape Coding for Digital Video"로 명칭된 공통 양도되어 공통 계류중인 미국 특허출원 제09/156,790호 참조)과 유사하게, 마스크는 전경과 배경간 색 거리차로부터 합성될 수 있다. 그와 같은 경우, 전경을 커버할 수 있는 전체 배경은우선(priori) 취해질 필요가 있다.
이용가능한 데이터는 블록 310 및 340 모두에 의해 이용된다. 도 3은 숏 검출이 이용가능한 데이터(동일한 숏의 모든 화상이 이용가능한 데이터인)를 갖는 동일한 숏만을 검출할 경우에 하나의 숏만을 고려한다.
동일한 숏 결정블록(320)은 입력 프레임이 동일한 숏에 속하는지의 여부를 결정하기 위해 이전 이용가능한 데이터의 지식을 갖는 입력 프레임을 분석한다. 이러한 분석은 상관 파라메터의 계산을 포함한다.
"충분한 데이터" 결정블록(350)은 비디오 시퀀스의 지속기간의 트랙을 유지한다. 스프라이트를 위한 유용한 입력은 스프라이트의 상당한 경향을 개발하기에 충분하다.
스프라이트 생성블록(340)은 도 1에 의해 커버된다.
4.1 초기 추정
MPEG-4 VM 투시동작추정은 연속하는 이미지중 약간의 변형이 있다는 가정하에 수행한다. 이 경우, LM은 초기 추정으로서 가장 최근의 이미지의 동작 파라메터에 의해 합리적으로 모인다. 이러한 가정을 유지하기 위해, 입력 시퀀스는 느린 동작만을 가질 필요가 있다. 그러나, 이것은 카메라맨에게 상당한 불편함을 준다. 우리의 실험에서는, 이전의 동작 파라메터를 재사용하는 것은 최종 파라메터가 초기 추정과 거의 다를 때 LM을 사용하는 만족스러운 결과를 이끌지 못한다는 것을 확인했다. 이러한 문제의 해결책은 초기 추정을 결정하기 위한 과거의 동작 히스토리를 사용하는 것이다. 이러한 구성에 있어서, 초기 추정은, 파라메터가연속하는 이미지간 차이가 있을 지라도 동작이 동일한 패턴으로 발생할 수록 최종 파라메터에 가까워질 수 있다.
자동 상관관계에 기초한 선형 예측(예컨대, 차동 펄스코드 변조(DPCM; Differential pulse code modulation)이나 비선형 예측(예컨대, 스프라인 보간(spline interpolation)중 어느 것이든 초기 추정을 결정하는데 사용할 수 있다. 아주 간단하게, 이하와 같이 제2순서 예측이 수학적으로 기술된다:
여기서,는 n번째 이미지의 동작 파라메터이고, 어깨 기호 "t"는 이항을 나타낸다. 이 제2순서 예측은 과거의 동작 파라메터와 다음에서 과거 이미지간 나머지의 추가에 의해 과거 동작 파라메터를 재사용하는 것과 차이가 있다. 제2순서 예측은 카메라가 동일한 스피드 이상으로 또는 이하로 동작하는 것을 가정하여 수행한다. 이러한 예측의 결점은, 동작이 이전의 2개의 이미지의 패턴을 따르지 못하는 드믄 경우가 생기는 것이고, 그 경우 예측된 초기 추정이 동작 파라메터를 재사용하여 얻어진 것 보다 나빠질 수 있다는 것이다.
M3096에 사용된 바와 같이 블록매칭은, 연속하는 이미지쌍이 예컨대 줌잉의 경우 전이 이외에 다른 파라메터의 강한 동작을 가지면 전체적으로 부적절한 추정을 선택하기 때문에, 초기 추정에 적합하지 않다. 그러나, 입력 시퀀스가 스포츠 시퀀스와 같은 예측불가능한 팬을 경험할 경우 블록매칭이 추천된다.
4.2 아웃라이어 배제
천연 입력 이미지의 모든 배경이 정적인 것을 보증하기가 극히 어렵다. 3가지의 움직임의 줄기(leaf)로 인해, 또는 숏동안 사람이 그들 머리를 돌리기 때문에 일어나는 아웃라이어는 LM처리에 대해 잘못된 기여를 야기한다. 아웃라이어가 장면에서 지배적이면, 예컨대 나머지 장면으로부터의 에러와 특히 강하게 비교되면 아웃라이어의 영향이 심하다. LM 성능은, 아웃라이어로부터의 에러가 배제되기 때문에 아웃라이어 삭제에 의해 극적으로 향상된다. 더욱이, 동작 파라메터가 대부분 최적이면 아웃라이어는 많은 에러를 제공한다.
도 4는 아웃라이어의 예를 나타낸다. 예컨대, 2개의 동일한 얼굴의 이미지가 400 및 450으로 도시되어 있으며, 이미지1(400)에서 눈(410, 415)은 감겨져 있고, 반면 이미지2(450)에서 눈(410', 415')은 뜨고 있다. 따라서, 뜨고 있는 눈(410', 415')은 동작 파라메터가 최적일 경우 아웃라이어이다.
TQ는 에러의 최고 10퍼센트를 제공하는 모든 화소를 선택적으로 제거하기 위해 상기 원리로 수행한다. 즉, 도 2에 따라, 현재 VOP는 이전 VOP(조잡한 해상도의 경우) 또는 이전 스테이지(좀더 조잡한 해상도)로부터 얻어진 워핑 파라메터에 의해 워핑된다. 다음에, 현재 VOP의 모든 화소의 에러가 저장되고, 에러의 상위 10퍼센트를 산출하는 화소가 선언된 아웃라이어이다.
그러나, 동작 파라메터가 최적에 가깝지 않으면, 이러한 간단한 기술은 불완전하게 수행한다. 그와 같은 경우의 TQ에 문제는 장면의 중요한 특징이 잘못 정렬되어 아웃라이어와 같이 작용한다는 것이다.
본 발명은 아웃라이어 배제를 위한 지연된 삭제를 사용함으로써 이러한 문제를 극복한다.
도 5a 및 5b는 절단 2차처리방법에 따른 문제의 예를 나타낸다. 예컨대, 도 5a에 나타낸 바와 같은 잘못 정렬된 각각의 심볼의 2개의 연속하는 프레임 510, 520를 갖는다고 하자. 도 5b의 이미지(550)는 워핑 파라메터가 제로(이전 정보가 이용할 수 없는 것이라 가정할 경우)인 경우의 아웃라이어를 나타낸다. 여기서, 도 5b의 모든 상세화는 불행하게도 TQ에 따라 삭제될 것이고, 따라서 나머지 상세화는 정확한 글로벌 동작을 결정할 수 없다.
일반적으로, 아웃라이어 화소는 노이즈와 같이 좀더 랜덤하게 작용하고, 그 의미는 보다 나쁜 동작 파라메터를 보다 좋은 동작 파라메터와 매치시키는 반면 중요한 특징부에서는 그것이 일어나지 않는다는 것을 의미한다. 즉, 그 불일치는, 중요한 특징부, 예컨대 보다 양호한 매치(좀더 반복)에 의한 보다 낮은 에러를 보통 가져오는 라인에서는 발생하지 않는다. 몇몇 결정적인 특징부만이 최적의 동작 파라메터를 결정하는데 충분하다는 것을 아는 것이 중요하다. 사실상, 결정적인 특징부를 식별하는 것이 매우 어렵기 때문에, 가능한한 많은 테스트 데이터가 처리에 이용된다. 테스트 데이터는 결정적인 특징부 및 아웃라이어만을 포함하지는 않지만, 최적의 동작 파라메터에 대한 어떤 정보를 노출시키지 않고 항상 잘 매치하는 명확한 배경과 같은 무의미한 데이터를 포함한다. 소량의 에러만이 허용될 경우 나머지 테스트 데이터에 그 무의미한 데이터가 지배할 것이다. 그와 같은 경우의 최종 결과는 최적의 동작 파라메터를 닮지 않을 것이다. 보다 많은 에러가 허용되고 중요한 특징부에 무의미한 데이터의 비율이 보다 많이 평가되면 보다 양호한 결과가 얻어질 수 있다. 물론, 에러량이 너무 높고 아웃라이어가 요인이 되면 그 성능은 저하하기 시작할 것이다.
도 6은 본 발명에 따른 지연된 삭제 처리과정을 기술한다. 여기서, 아웃라이어 배제의 성능은 지연된 삭제 처리과정의 추가에 의해 향상될 수 있다. 특히, 완 패스(one pass)에 에러를 처리하는 대신에, 좀더 신뢰할 수 있는 정보를 투-패스(two-pass: 또는 그 이상)로 이용할 수 있다.
제1반복(610)에 있어서, LM 최소화 기술이 수행되고, 에러(el)가 모든 화소에 대해 계산된다. 블록 620에서 미리 설정된 임계치보다 많은 에러를 제공하는 화소는 가능한 아웃라이어로서 마크된다. 이들 화소는 그들이 중요한 특징부이면 보다 양호하게 그들을 정렬할 수 있도록 또 다른 반복 이후에 다시 체크된다. 블록 640에서, 두번째 패스에서 보다 높은 에러를 갖는 화소는 노이즈와 같이 작용하고 선언된 아웃라이어이다. 블록 650에서, 아웃라이어는 삭제된다.
이러한 개념에 기초한 다른 구성은 3개 이상의 스테이지에 기초한 지연된 삭제와 같은 좀더 복잡성에 의해, 아웃라이어 등을 지정하기 위한 향상된 방법에 의해 실행될 수 있다. 3개 이상의 갱신 스테이지의 경우에 있어서는 성능 및 복잡성간 취사 선택이 있다.
4.3 인터레이스된 소스에 대한 스프라이트 생성
현재, MPEG-4만이 프레임 포맷의 스프라이트 조각을 처리한다. 거기에는 현재 MPEG-4 신택스 하의 스프라이트로서 인터레스된 입력 이미지를 코드하기 위한가능한 2가지 방식이 있다. 제1방법은 소스를 디인터레이싱(deinterlacing) 함으로써 싱글 프레임 입력을 형성하고 정규의 스프라이트 생성을 수행한다. 제2방법은 각 필드에 기초하여 2개의 스프라이트를 형성한 후 프레임 스프라이트를 생성하기 위해 양 필드 스프라이트를 조합한다. 이들 2가지의 해결책은 인코드하기 위한 하나의 스프라이트 조각과 전송하기 위한 한세트의 파라메터를 갖는다. 그러나, 이들 접근방식은 많은 경우 최적의 성능의 결과를 가져오지는 않는다.
도 10은 본 발명에 따른 인터레이스된 소스를 처리하기 위한 인코더(1000) 및 디코더(1050; 디코더 집단에 있어서)를 나타낸다. 여기서, MPEG-4 신택스는, 예컨대 스프라이트 생성 및 인코딩 기능(1010 및 1030)에서 2개의 독립된 입력(각 필드에 하나)으로서 인터레이스된 소스를 처리하기 위해 변경된다. 인코딩되고, mux(1020)에서 멀티플렉스되어, 네트워크(1040)를 통해 전송된 후, 2개의 필드 스프라이트 및 관련된 동작 파라메터 데이터는 demux(1060)에서 디멀티플렉스되고 디코딩 기능(1070 및 1080)에서 디코드된다.
필드 스프라이트는 각각의 기능(1070 및 1080)으로부터 출력되고, 예컨대 디스플레이(1095)를 위해, 조합된 스프라이트 출력을 형성하도록 프리젠테이션 엔진(1090)에서 조합된다.
인코더(1000) 및 디코더(1050)는 간단한 형태로 나타냈다. 더욱이, 기능 1010 및 1030과, 1070 및 1080이 분리되어 있는 것처럼 도시되어 있지만, 실제로는 해당 기술분야에 숙련된 자에게는 명백한 공통 소프트웨어 및/또는 하드웨어를 이용할 것이다.
본 실시예에 있어서, 2개의 스프라이트 조각은 각각 인코드되고, 2개 세트의 동작 파라메터는 전송되어 디코드된다. 그러나, 이러한 스프라이트의 성능은, 예컨대 복잡한 동작을 위한 또 다른 2개의 MPEG-4 추종 방법보다 양호하며, 여기서 동일한 프레임의 2개의 필드는 다른 변형(동작 파라메터)을 가질 것이다.
5. 스프라이트 생성 가이드라인
몇가지의 관찰이 스프라이트 생성에 대한 우리의 실험에 의해 수집되었다. 이들 관찰은 성공적인 스프라이트 생성을 위한 가이드라인이다.
1. 초기 추정은 최소 처리를 위한 가장 중요한 요인이다. 보다 양호한 추정은 최적의 스프라이트 동작 파라메터를 얻기 위한 최고의 기회를 갖는다.
2. 카메라의 속도는 우리의 초기 추정이 선형 예측모델(거리 잔량)에 기초하기 때문에 일정하다(소정 속도로).
3. 좀더 복잡한 예측모델(예컨대, 속도 잔량)은 카메라 속도의 아주 복잡한 기능을 보상할 수 있다.
4. 예측모델이 신뢰할 수 있는 초기 추정을 예측할 수 있기 전에 관련된 과거 히스토리를 채울 필요가 있기 때문에 카메라의 속도나 방향의 변경이 점진적인 비율로 행해질 수 있는 것이 추천된다.
5. 블록매칭(예컨대, M3096)에 기초한 초기 추정은, 현재 이미지가 줌잉, 시어(shear) 또는 회전을 경험하면 불완전하게 수행되지만, 보통은 복잡한 팬의 경우에 도움을 준다. 시어는 직사각형을 평행사변형으로 변경하는 효과이다.
6. 아웃라이어 배제는 장면의 중요한 특징부의 보존을 돕는다. 그것은, 신뢰할 수 있는 아웃라이어 배제없이 미세항목(예컨대, 텍스트)을 정렬하는 것은 매우 곤란하다.
7. 두번째 패스의 초기 추정으로서 첫번째 패스의 최종 동작 파라메터를 사용하는 투-패스 시스템은 가벼운 향상(1dB 이하, PSNR)을 가져온다. 보다 높은 정렬 시스템(예컨대, 3, 4)은 투-패스 시스템을 통해 무시할만한 향상을 가져올 것으로 기대된다.
8. 어떤 입력 이미지의 잘못된 레지스트레이션에 의해 생성된 스프라이트의 에러는 에러가 발생하는 순서에 상관없이 동일한 효과를 갖는다. 또한, 이것은 좀더 일반적인 표현, 예컨대 발생의 순서(VOP 넘버)에 있어서 진리이다.
도 7은 본 발명에 따른 글로벌 동작추정 처리를 나타낸다.
그 처리는 도 2에 기초하지만 블록 710, 715 및 720은 다르다.
특히, 블록(710)에서, 동작 파라메터의 향상된 초기 추정이 얻어진다. 8개의 동작 파라메터(예컨대, m[0] 내지 m[8])를 이용한 선형 예측이나, 또는 블록매칭이 이용된다. 또한, 비선형 예측이 이용된다. 더욱이, 이들 동작 파라메터는 동작 파라메터로부터 유도된 4개 코너의 위치를 이용하는 MPEG-4의 스프라이트 코딩의 부분은 아니다.
블록(715)에서, 스프라이트의 첫번째 2개의 반복은 보다 높은 화소 해상도에서 수행된다.
블록(600)에서, 도 6의 지연된 아웃라이어 배제가 수행된다.
도 8은 I-VOP를 위한 형태/텍스처 디코더(810), S-VOP(스프라이트 VOP)를 위한 형태/텍스처 디코더(830) 및 워핑 벡터 디코더, 스프라이트 버퍼(820) 및 재구성된 샘플을 제공하기 위한 워핑기능(850)을 포함하는 스프라이트 디코더(800)를 나타낸다.
6. 시뮬레이션 결과
변경될 수 있는 제안된 시스템의 파라메터는 블록매칭을 위한 조사범위이고, 에러 절단을 위한 임계치이다. 다른 변수는 제안된 시스템과 M3096간 명확한 비교를 이끌어내기 위해, 상수 즉 반복수, 정지 임계치, 화소 해상도(예컨대, 128×128, 256×256 및 512×512)를 유지한다. 모든 입력 시퀀스는 전경 대상을 배제하기 위해 크롭(crop)되거나 마스크된다. 조절되지 않은 조건은 좀더 엄격한 변형을 만들어내기 위해 이미지의 일정한 수를 스킵(skip)함으로써 시뮬레이트된다.
본 발명에 의해 생성된 최종 스프라이트 조각을 얻기 위해 다양한 타겟된 애플리케이션(예컨대, 주식 시세 표시기, 통화 시세 표시기)에 테스트가 실행된다. 또한, 스프라이트는 제안된 시스템의 코딩 효율을 설명하기 위해 MPEG-4 인코더에 의해 그들 관련된 동작 파라메터와 함께 인코드된다. 이들 테스트는 본 발명의 성공을 증명한다.
7. 결론
본 메모는 스프라이트 생성을 위한 MPEG-4 기반 글로벌 동작추정을 위한 향상된 기술을 기술한다. 제안된 기술은 실제로 일어날 수 있는 제어되지 않은 상황에서 현재 MPEG-4 구성보다 양호한 수행을 행한다. VM 글로벌 동작추정에 대한몇가지 해결책은, 즉 초기 추정기술, 아웃라이어 배제를 위한 지연된 삭제 및, 인터레이스된 소스를 위한 스프라이트 생성을 제안한다. 제안된 기술은 현재 MPEG-4 인코더 필요성을 뒷받침하고, 또한 MPEG-4 버전2에서의 GMC 및 DC를 위한 신뢰할 수 있는 동작 파라메터를 제공할 수 있다.
비록 본 발명이 상술한 다양한 특정의 실시예와 연관지어 기술했을 지라도, 본 발명의 목적 및 배경을 이탈하지 않는 범위 내에서 다양하게 실시할 수 있는 것은 물론이다.

Claims (22)

  1. 적어도 초기 입력 이미지로부터 스프라이트를 생성하기 위한 방법에 있어서,
    상기 초기 입력 이미지를 선행하는 적어도 2개의 입력 이미지의 동작 파라메터 데이터에 기초하여 스프라이트와 초기 입력 이미지간 레지스트레이션을 제공하기 위한 동작 파라메터 데이터의 초기 추정을 제공하는 단계를 구비하여 이루어진 것을 특징으로 하는 방법.
  2. 제1항에 있어서, 상기 초기 추정은 상기 초기 입력 이미지를 선행하는 적어도 2개의 입력 이미지의 동작 파라메터 데이터의 선형기능에 기초하여 제공되는 것을 특징으로 하는 방법.
  3. 제1항에 있어서, 상기 초기 추정은 상기 초기 입력 이미지를 선행하는 적어도 2개의 입력 이미지의 동작 파라메터 데이터의 비선형기능에 기초하여 제공되는 것을 특징으로 하는 방법.
  4. 제1항에 있어서, 초기 추정(Sn)은 Sn=Sn-1+ (Sn-1- Sn-2)에 따라 제공되고, 여기서 Sn-1은 초기 입력 이미지를 선행하는 입력 이미지의 동작 파라메터이고, Sn-2는 다음의 선행 입력 이미지의 동작 파라메터인 것을 특징으로 하는 방법.
  5. 제1항에 있어서, 상기 초기 입력 이미지를 선행하는 적어도 2개의 입력 이미지는 상기 초기 입력 이미지와 관련된 스프라이트가 아니라 다른 스프라이트와 관련된 것을 특징으로 하는 방법.
  6. 다수의 입력 이미지로부터 스프라이트를 생성하기 위한 방법에 있어서,
    상기 스프라이트를 형성하는데 이용하기 위한 보통 장면을 나누는 연속하는 이미지의 그룹을 제공하기 위해 상기 입력 이미지에 숏 검출을 수행하는 단계를 구비하여 이루어진 것을 특징으로 하는 방법.
  7. 제6항에 있어서, 상기 장면은 정적배경인 것을 특징으로 하는 방법.
  8. 제6항에 있어서, 상기 숏 검출은 줌잉 및 패닝중 적어도 하나를 검출하는 것을 특징으로 하는 방법.
  9. 제6항에 있어서, 패닝이 검출되면, 블록매칭을 이용하여 스프라이트와 초기 입력 이미지간 레지스트레이션을 제공하기 위한 동작 파라메터 데이터의 초기 추정을 제공하는 단계를 더 구비하여 이루어진 것을 특징으로 하는 방법.
  10. 제6항에 있어서, 줌잉이 검출되면, 블록매칭 턴 오프에 의해 스프라이트와초기 입력 이미지간 레지스트레이션을 제공하기 위한 동작 파라메터 데이터의 초기 추정을 제공하는 단계를 더 구비하여 이루어진 것을 특징으로 하는 방법.
  11. 제6항에 있어서, 상기 숏 검출은 장면 검출로 이루어진 것을 특징으로 하는 방법.
  12. 적어도 초기 입력 이미지로부터 스프라이트를 생성하기 위한 방법에 있어서,
    스프라이트와 초기 입력 이미지간 레지스트레이션을 제공하기 위한 동작 파라메터 데이터의 적어도 제1 및 제2의 연속추정을 제공하는 단계와,
    각각 적어도 제1 및 제2추정에 기초하여 초기 입력 이미지의 화소와 스프라이트의 화소간 적어도 제1 및 제2에러를 결정하는 단계 및,
    상기 스프라이트의 생성을 고려하여 제2에러가 제1에러를 초과하는 화소를 삭제하는 단계를 구비하여 이루어지고,
    상기 제2추정은 상기 제1에러에 기초하여 상기 제1추정을 갱신함으로써 얻어지는 것을 특징으로 하는 방법.
  13. 제12항에 있어서, 상기 제1에러가 가능한 아웃라이어로서 임계치를 초과하는 초기 입력 이미지 및/또는 스프라이트의 화소를 나타내는 단계를 더 구비하여 이루어지고,
    상기 제2에러는 가능한 아웃라이어로서 나타낸 적어도 화소에서 얻어지는 것을 특징으로 하는 방법.
  14. 제12항에 있어서, 상기 제1 및 제2에러는 Levenberg-Marquardt 최소화 기술을 이용하여 결정되는 것을 특징으로 하는 방법.
  15. 인터레이스된 제1 및 제2필드로 이루어진 적어도 하나의 초기 입력 이미지로부터 스프라이트 데이터를 생성하기 위한 방법에 있어서,
    적어도 하나의 입력 이미지의 각 제1 및 제2필드에 대한 각각의 동작 파라메터를 갖는 각각의 제1 및 제2필드 스프라이트를 생성하는 단계와,
    적어도 하나의 디코더에 전송을 위해 상기 제2필드 스프라이트 및 관련된 동작 파라메터와 따로 상기 제1필드 스프라이트 및 관련된 동작 파라메터를 인코딩하는 단계를 구비하여 이루어진 것을 특징으로 하는 방법.
  16. 제15항에 있어서, 적어도 하나의 디코더에 프리젠테이션 엔진은 조합된 스프라이트 출력을 형성하기 위해 전송된 제1필드 스프라이트와 제2필드 스프라이트를 조합하는 것을 특징으로 하는 방법.
  17. 디코더에서 스프라이트 데이터를 처리하기 위한 방법에 있어서,
    인코드된 제1필드 스프라이트 및 관련된 동작 파라메터 데이터와, 따로 인코드된 제2필드 스프라이트 및 관련된 동작 파라메터 데이터로 이루어진 인코더로부터 전송된 데이터를 수신하는 단계와,
    제1필드 스프라이트 출력을 제공하기 위해 인코드된 제1필드 스프라이트 및 관련된 동작파라메터 데이터를 디코딩하는 단계,
    제2필드 스프라이트 출력을 제공하기 위해 인코드된 제2필드 스프라이트 및 관련된 동작 파라메터 데이터를 디코딩하는 단계 및,
    조합된 스프라이트 출력을 형성하기 위해 상기 제1필드 스프라이트 출력과 제2필드 스프라이트 출력을 조합하는 단계를 구비하여 이루어고,
    상기 제1 및 제2필드 스프라이트는 인코더에서 적어도 하나의 초기 입력 이미지의 각 인터레이스된 제1 및 제2필드로부터 생성되는 것을 특징으로 하는 방법.
  18. 적어도 초기 입력 이미지로부터 스프라이트를 생성하기 위한 장치에 있어서,
    상기 초기 입력 이미지를 선행하는 적어도 2개의 입력 이미지의 동작 파라메터 데이터에 기초하여 스프라이트와 초기 입력 이미지간 레지스트레이션을 제공하기 위한 동작 파라메터 데이터의 초기 추정을 제공하기 위한 수단을 구비하여 구성된 것을 특징으로 하는 장치.
  19. 다수의 입력 이미지로부터 스프라이트를 생성하기 위한 장치에 있어서,
    상기 스프라이트를 형성하는데 이용하기 위한 보통 장면을 나누는 연속하는 이미지의 그룹을 제공하기 위해 입력 이미지의 숏 검출을 수행하기 위한 수단을 구비하여 구성된 것을 특징으로 하는 장치.
  20. 적어도 초기 입력 이미지로부터 스프라이트를 생성하기 위한 장치에 있어서,
    스프라이트와 초기 입력 이미지간 레지스트레이션을 제공하기 위한 동작 파라메터 데이터의 적어도 제1 및 제2의 연속추정을 제공하기 위한 수단과,
    각각 적어도 제1 및 제2추정에 기초하여 초기 입력 이미지의 화소와 스프라이트의 화소간 적어도 제1 및 제2에러를 결정하기 위한 수단 및,
    상기 스프라이트의 생성을 고려하여 제2에러가 제1에러를 초과하는 화소를 삭제하기 위한 수단을 구비하여 구성되고,
    상기 제2추정은 상기 제1에러에 기초하여 상기 제1추정을 갱신함으로써 얻어지는 것을 특징으로 하는 장치.
  21. 인터레이스된 제1 및 제2필드로 이루어진 적어도 하나의 초기 입력 이미지로부터 스프라이트 데이터를 생성하기 위한 장치에 있어서,
    적어도 하나의 입력 이미지의 각 제1 및 제2필드에 대한 각각의 동작 파라메터를 갖는 각각의 제1 및 제2필드 스프라이트를 생성하기 위한 수단을 구비하여 구성된 것을 특징으로 하는 장치.
  22. 스프라이트 데이터를 처리하기 위한 디코더에 있어서,
    인코드된 제1필드 스프라이트 및 관련된 동작 파라메터 데이터와, 따로 인코드된 제2필드 스프라이트 및 관련된 동작 파라메터 데이터로 이루어진 인코더로부터 전송된 데이터를 수신하기 위한 수단과,
    제1필드 스프라이트 출력을 제공하기 위해 인코드된 제1필드 스프라이트 및 관련된 동작파라메터 데이터를 디코딩하기 위한 수단,
    제2필드 스프라이트 출력을 제공하기 위해 인코드된 제2필드 스프라이트 및 관련된 동작 파라메터 데이터를 디코딩하기 위한 수단 및,
    조합된 스프라이트 출력을 형성하기 위해 상기 제1필드 스프라이트 출력과 제2필드 스프라이트 출력을 조합하기 위한 프리젠테이션 엔진을 구비하여 구성되고,
    상기 제1 및 제2필드 스프라이트는 인코더에서 적어도 하나의 초기 입력 이미지의 각 인터레이스된 제1 및 제2필드로부터 생성되는 것을 특징으로 하는 디코더.
KR1020027016607A 2000-06-06 2001-05-24 스프라이트 생성을 위한 글로벌 동작추정 KR20030014689A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/587,961 2000-06-06
US09/587,961 US7084877B1 (en) 2000-06-06 2000-06-06 Global motion estimation for sprite generation

Publications (1)

Publication Number Publication Date
KR20030014689A true KR20030014689A (ko) 2003-02-19

Family

ID=24351891

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020027016607A KR20030014689A (ko) 2000-06-06 2001-05-24 스프라이트 생성을 위한 글로벌 동작추정

Country Status (8)

Country Link
US (1) US7084877B1 (ko)
EP (1) EP1287702B1 (ko)
KR (1) KR20030014689A (ko)
CN (3) CN1578465A (ko)
AU (1) AU2001264992A1 (ko)
CA (1) CA2410501C (ko)
TW (1) TW511379B (ko)
WO (1) WO2001095632A2 (ko)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7085434B2 (en) * 2002-10-01 2006-08-01 International Business Machines Corporation Sprite recognition in animated sequences
US7113185B2 (en) * 2002-11-14 2006-09-26 Microsoft Corporation System and method for automatically learning flexible sprites in video layers
GB0227570D0 (en) 2002-11-26 2002-12-31 British Telecomm Method and system for estimating global motion in video sequences
GB0227566D0 (en) 2002-11-26 2002-12-31 British Telecomm Method and system for estimating global motion in video sequences
US8638846B1 (en) * 2003-06-23 2014-01-28 At&T Intellectual Property Ii, L.P. Systems and methods for encoding and decoding video streams
US20070064014A1 (en) * 2003-08-07 2007-03-22 Koninklijke Philips Electronics N.V. Graphics overlay detection
EP1531428A3 (en) * 2003-11-14 2015-08-19 Canon Kabushiki Kaisha Methods and devices for creating, downloading and managing an animation
JP4631057B2 (ja) * 2004-02-18 2011-02-16 国立大学法人大阪大学 内視鏡システム
TWI246338B (en) * 2004-04-09 2005-12-21 Asustek Comp Inc A hybrid model sprite generator and a method to form a sprite
US7982738B2 (en) * 2004-12-01 2011-07-19 Microsoft Corporation Interactive montages of sprites for indexing and summarizing video
US8464170B2 (en) * 2005-09-09 2013-06-11 Microsoft Corporation 2D editing metaphor for 3D graphics
WO2007043829A1 (en) * 2005-10-13 2007-04-19 Lg Electronics Inc. Method and apparatus for encoding/decoding
TWI388216B (zh) 2005-10-13 2013-03-01 Lg Electronics Inc 用於編碼/解碼之方法與裝置
US7742624B2 (en) * 2006-04-25 2010-06-22 Motorola, Inc. Perspective improvement for image and video applications
US8495171B1 (en) 2012-05-29 2013-07-23 Limelight Networks, Inc. Indiscriminate virtual containers for prioritized content-object distribution
US20110029899A1 (en) 2009-08-03 2011-02-03 FasterWeb, Ltd. Systems and Methods for Acceleration and Optimization of Web Pages Access by Changing the Order of Resource Loading
US9058402B2 (en) 2012-05-29 2015-06-16 Limelight Networks, Inc. Chronological-progression access prioritization
US8346784B1 (en) 2012-05-29 2013-01-01 Limelight Networks, Inc. Java script reductor
US9015348B2 (en) 2013-07-19 2015-04-21 Limelight Networks, Inc. Dynamically selecting between acceleration techniques based on content request attributes
US9258525B2 (en) 2014-02-25 2016-02-09 Alcatel Lucent System and method for reducing latency in video delivery
US9691140B2 (en) * 2014-10-31 2017-06-27 Intel Corporation Global matching of multiple images
US10567739B2 (en) 2016-04-22 2020-02-18 Intel Corporation Synthesis of transformed image views
EP3646602A1 (en) 2017-07-05 2020-05-06 Huawei Technologies Co., Ltd. Apparatus and method for coding panoramic video
US20190313107A1 (en) * 2018-03-15 2019-10-10 University-Industry Cooperation Group Of Kyung Hee University Image encoding/decoding method and apparatus
US11204409B2 (en) * 2018-10-11 2021-12-21 University Of Virginia Patent Foundation Systems and methods for motion-compensated reconstruction of magnetic resonance images

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5823256B2 (ja) 1979-07-09 1983-05-13 株式会社 高田工場 乗物用幼児拘束装置
US5825929A (en) 1995-10-05 1998-10-20 Microsoft Corporation Transformation block optimization method
US6037988A (en) 1996-03-22 2000-03-14 Microsoft Corp Method for generating sprites for object-based coding sytems using masks and rounding average
US5982438A (en) 1996-03-22 1999-11-09 Microsoft Corporation Overlapped motion compensation for object coding
JP2001507541A (ja) * 1996-12-30 2001-06-05 シャープ株式会社 スプライトベースによるビデオ符号化システム
US6005980A (en) 1997-03-07 1999-12-21 General Instrument Corporation Motion estimation and compensation of video object planes for interlaced digital video

Also Published As

Publication number Publication date
CA2410501A1 (en) 2001-12-13
CN1433640A (zh) 2003-07-30
CN1574965A (zh) 2005-02-02
WO2001095632A2 (en) 2001-12-13
CA2410501C (en) 2007-08-14
WO2001095632A3 (en) 2002-06-06
EP1287702B1 (en) 2016-07-06
CN1578465A (zh) 2005-02-09
US7084877B1 (en) 2006-08-01
AU2001264992A1 (en) 2001-12-17
TW511379B (en) 2002-11-21
EP1287702A2 (en) 2003-03-05

Similar Documents

Publication Publication Date Title
KR20030014689A (ko) 스프라이트 생성을 위한 글로벌 동작추정
TWI572196B (zh) 用於次世代視訊編碼之投射式內插預測產生之技術
US8155202B2 (en) System and method for encoding scrolling raster images
Yu et al. Content adaptive representations of omnidirectional videos for cinematic virtual reality
US6205260B1 (en) Sprite-based video coding system with automatic segmentation integrated into coding and sprite building processes
US6738424B1 (en) Scene model generation from video for use in video processing
EP3043320B1 (en) System and method for compression of 3d computer graphics
US6751350B2 (en) Mosaic generation and sprite-based coding with automatic foreground and background separation
Wallach et al. Accelerated MPEG compression of dynamic polygonal scenes
Tekalp et al. Two-dimensional mesh-based visual-object representation for interactive synthetic/natural digital video
Noimark et al. Streaming scenes to MPEG-4 video-enabled devices
US20060109908A1 (en) Method of retrieving video picture and apparatus therefor
JPH10285602A (ja) 映像データをエンコードするための動的なスプライト
EP1016286A1 (en) Method for generating sprites for object-based coding systems using masks and rounding average
JP2003533101A (ja) 予測符号化オブジェクトベース画像信号を予測符号化ブロックベース画像信号にトランスコーディングするトランスコーディング方法およびトランスコーダ
AU693117B2 (en) Method and apparatus for data analysis
CA2480444C (en) Methods and apparatus for efficient global motion compensation encoding and associated decoding
US11290735B1 (en) Visual element encoding parameter tuning
JP2001506101A (ja) 輪郭線中心(Contour―Based)移動推定用システムおよび方法
JPH10336673A (ja) 映像信号符号化システムにおける縁部検出方法及びその装置
Gu et al. Morphological moving object segmentation and tracking for content-based video coding
Lu et al. Fast and robust sprite generation for MPEG-4 video coding
KR100287209B1 (ko) 동적움직임평가에 의한 저전송률 동영상부호화방법 및 장치
WO2001049028A1 (en) Scene model generation from video for use in video processing
Servais et al. Affine motion compensation using a content-based mesh

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
SUBM Surrender of laid-open application requested