KR20010108160A

KR20010108160A - 비디오/오디오 신호 처리 방법 및 비디오/오디오 신호처리 장치

Info

Publication number: KR20010108160A
Application number: KR1020017009621A
Authority: KR
Inventors: 쿤엠.피터
Original assignee: 이데이 노부유끼; 소니 가부시끼 가이샤
Priority date: 1999-11-29
Filing date: 1999-11-29
Publication date: 2001-12-07
Also published as: WO2001041451A1; EP1147669A1; US7356082B1; KR100673282B1; CN100387061C; EP1147669B1; JP2003516053A; CN1335021A; DE69934605D1; DE69934605T2; AU1412100A; US20080043848A1

Abstract

메타데이터 추출부는 비디오/오디오 신호의 압축영역에서 비디오/오디오 신호의 특징을 나타내는 적어도 한 특징점을 추출하는 특징점 선택 및 움직임 추정부(62)를 구비한다. 이에 따라, 처리를 위한 시간 혹은 비용의 감소가 실현될 수 있고 효과적으로 처리하는 것을 가능하게 한다.

Description

비디오/오디오 신호 처리 방법 및 비디오/오디오 신호 처리 장치{Video/audio signal processing method and video/audio signal processing apparatus}

비디오 저장장치의 용량의 증대로, 사용자가 편리하게 브라우징하도록 비디오 콘텐트를 구성하고 요약할 필요성이 나타나고 있다. 비디오 브라우징은 바람직하게는 자동적으로 추출되는 것인 메타데이터(즉, 데이터에 관한 데이터)에 의해 가능하게 된다.

도 1은 화소 영역(pel domain)에서 MPEG(동화상 전문가 그룹) 압축된 비디오로부터 움직임에 관련된 메타데이터 추출에 대한 종래기술을 도시한 것이다. MPEG 비디오를 화소 영역에서 완전하게 디코딩하는 것은 MPEG 디코딩부(11)에 의해 수행된다. 움직임 추정부(12)(이 기술에 숙련된 자에게 알려진 광학적 흐름 계산 혹은 블록매칭에 의거함)는 비디오 스트림의 화소 표현으로부터 움직임 벡터를 계산한다. 파라미터 및 카메라 움직임 계산부(13)는 이들 움직임 벡터로부터 움직임에 관계된 메타데이터를 계산한다.

화소 영역에서 카메라 움직임 추정에 대해서는, “US 5,751,838 : 5/1998 : Ingemar J. Cox, Sebastien Roy: Correction of camera motion between two image frames: 382/107” 특허 및 공보가 있다.

“Yi Tong Tse, Richard L. Baker: Global Zoom/Pan estimation and compensation for video compression: ICASSP 91, 1991, pp. 2725-2728”에서는, 비디오 부호화를 위한 카메라 줌 및 패닝을 추정한다. 그러나, 이 방법은 모델이 된 것들 이외의 다른 카메라 움직임 유형의 경우엔 신뢰할 수 없는 결과를 초래할 수 있다.

“A. Akutsu, Y. Tonomura, H. Hashimoto, Y. Ohba: Video indexing using motion vectors: SPIE vol. 1818 Visual Communications and Image Processing, 1992, pp. 1522-1530”에서는, 기술된 방법이 카메라 움직임의 양(amount)을 추출하지는 못하지만, 호크 변환(Hough transformation)을 사용하여 화소영역에서 카메라 움직임을 추출한다.

“Jong-Il Park, Nobuyuki Yagi, Kazumasa Enami, Kiyoharu Aizawa, Mitsutoshi Hatori: Estimation of Camera Parameters from Image Sequence for model based video coding: IEEE Trans. CSVT, vol. 4, no. 3, Jun. 1994, pp 288-296” 및 “Jong-Il Park, Choong Woong Lee: Robust estimation of camera parameters from image sequence for video composition: Singal Processing:Image Communication: vol. 9, 1996, pp 43-53”에서는 텍스처 그라디언트를 사용하여 화소영역에서 특징점을 찾고 이들 특징점의 움직임으로부터 카메라 움직임을 판정한다.

“Jong-Il Park, Choong Woong Lee: Robust estimation of camera parameters from image sequence for video composition: Signal Processing: Image Communication: vol. 9, 1996, pp 43-53”에서는 보다 확고하게 화소영역에서 카메라 움직임 추정을 행하는 영외 제거방법(outlier rejection method)을 사용한다.

“Y. P. Tan, S. R. Kulkarni, P. J. Ramadge: A new method for camera motion parameter estimation: Proc. ICIP, 1995, pp 406-409”에서는 소량의 카메라 움직임의 가정에 의거하여 화소영역에서 카메라 움직임 추정을 위한 회귀 최소 제곱방법을 기술하고 있다.

“Philippe Joly, Hae-Kwang Kim: Efficient automatic analysis of camera work and microsegmentation of video using spatiotemporal images: Signal Processing: Image communication, vol. 8, 1996, pp. 295-307”에서는 소벨 연산기 혹은 임계 에지 검출부 및 라인 패턴에의 에지들의 공간-시간적 투영에 의거하여 화소영역에서의 카메라 움직임 추정 알고리즘을 개시하고 있다. 라인 패턴은 움직임 방향으로 에지들을 추출하기 위해서 호크 변환을 사용하여 분석된다.

“M. V. Srinivasan, S. Venkatesh, R. Hosi: Qualitative estimation of camera motion parameters from video sequence: Pattern recognition, Elsevier,vol. 30, no. 4, 1997, pp 593-606”에서, 카메라 움직임 파라미터는 화소영역에서 비압축된 비디오로부터 추출되며, 여기서 카메라 팬(camera pan), 틸트(tilt), 회전 및 줌의 량이 개별적으로 제공된다.

“Richard R. Schultz, Mark G. Alford: Multiframe integration via the projective transform with automated block matching feature point selection: ICASSP 99, 1999”에서는 카메라 병진(camera translation), 회전, 줌, 팬 및 틸트를 파악하기 위해서 비선형 투영 변환 모델에 의거하여 화소영역에서 서브-화소 해상도 이미지 등록 알고리즘을 제안하고 있다.

“R. S. Jasinschi, T. Naveen, P. Babic-Vovk, A. J. Tabatabai: Apparent 3-D camera velocity extraction and its Applications: IEEE Picture Coding Symposium, PCS 99, 1999”에서는 응용 데이터베이스 질의 및 스프라이트(모자이크) 생성을 위해 화소영역에서의 카메라 속도 추정에 대해 기술하고 있다.

비디오 콘텐트의 방대한 저장 크기에 기인하여, 더욱 더 비디오물은 압축된 MPEG-1/MPEG-2 혹은 MPEG-4 포맷으로 얻어지고 있다. 그러나, 화소영역(위에 열거된)용으로 개발된 카메라 움직임 추정 알고리즘은 MPEG 압축 영역에 직접 적용할 수는 없다. 그러므로 MPEG 압축 비트스트림의 시간 소비적인 디코딩이 필요하고 뿐만 아니라 많은 화소영역에서의 움직임 추정 및 카메라 움직임 추정에 있어서는 상당히 많은 계산이 수행되어야 한다(도 1).

더구나, MPEG 비디오 압축해제 및 화소영역에서의 카메라 움직임 추정에 대한 계산상의 부담을 우회하기 위해서, 압축된 영역에서 수행되는 카메라 움직임 추정이 제안되었다. 압축영역에서 카메라 움직임 추정에 관한 이전의 작업은 MPEG 움직임 벡터를 사용하여 이들을 카메라 움직임을 기술하는 파라미터 움직임 모델에 맞추는 것에 의거하고 있다.

도 2는 MPEG 압축된 비디오로부터 움직임 관련 메타데이터 추출에 대한 최신의 기술을 도시한 것이다. MPEG 비디오의 파싱(parsing)은 MPEG 비트스트림 파싱부(parsing unit; 21)에 의해 수행된다. 이 파싱된 비트스트림으로부터 움직임 벡터가 추출되고(22) 파라미터 및 카메라 움직임 계산부(23)로 보내진다.

“V. Kobla, D. Doermann, K-I. Lin, C. Faloutsos: Compressed domain video indexing techniques using DCT and motion vector information in MPEG video: SPIE Conf on Storage and Retrieval for Image and Video Databases V: vol. 3022, Feb. 1997, pp. 200-211”에서는 전체 병진 움직임 방향을 판정하기 위해서 방향성 히스토그램을 사용함으로써 MPEG 압축 영역 움직임 벡터으로부터 "흐름-벡터"를 판정한다. 그러나, 이 기본적인 모델은 카메라 줌 및 회전을 검출할 수 없다.

“Roy Wang, Thomas Huang: Fast Camera Motion Analysis in MPEG domain: ICIP 99, Kobe, 1999”에서는 MPEG 영역에서 고속 카메라 움직임 분석 알고리즘을 기술하고 있다. 알고리즘은 P-프레임 및 B-프레임으로부터 MPEG 움직임 벡터를 사용하여 B-프레임 혹은 I-프레임으로부터 움직임 벡터를 보간(interpolating)하는 것에 의거하고 있다. 이들 움직임 벡터로부터 카메라 움직임 파라미터 추출의 신뢰도를 향상시키기 위해서 파라미터 카메라 움직임 추정을 위한 영외 제거 최소 제곱 알고리즘이 사용된다.

그러나, 카메라 움직임 추정을 위해 MPEG 움직임 벡터를 사용하는 것은 몇 가지 결점이 있다.

먼저, 압축된 MPEG 스트림에서 움직임 벡터는 실제 움직임을 나타내는 것이 아니라 엔코더에서 고속 혹은 비트 속도에 효율적인 압축을 위해 선택되는 것이고 MPEG에 의해 표준화되지 않은 엔코더 제조업자의 엔코딩 방법(strategy)에 의존하여 현저하게 다를 수 있다. 예를 들면, 고속 MPEG 엔코딩에 있어서는 높은 비트속도 및 고 품질의 MPEG 엔코딩과는 반대로 복잡성이 낮은 움직임 추정 알고리즘이 채용되는데, 증가된 탐색범위에 따라 움직임 추정 알고리즘들의 사용에 대해서는 “Peter Kuhn: Algorithms, Complexity Analysis and VLSI-Architectures for MPEG-4 Motion Estimation: Kluwer Academic Publishers, June 1999, ISBN 792385160”을 참조한다.

더욱이, 카메라 움직임 추정을 위해 MPEG 움직임 벡터를 사용하는 것의 성능은 현저하게 MPEG의 화상그룹(GOP) 구조, 비디오 샘플링 레이트(예를 들면, 초 당 5...30 프레임들) 및 기타 인자들에 달려 있으며, 그러므로 정확한 카메라 움직임 추정에 대해 신뢰할 수 없다.

더구나, MPEG 움직임 벡터(특히 작은 것들)는 흔히 잡음에 현저히 영향을 받으므로 신뢰할 수 없다.

더구나, 일부 고속 움직임 추정 알고리즘에서 사용되는 제약된 움직임 추정 탐색영역의 경우, 긴 움직임 벡터가 존재하지 않을 수도 있다.

더구나, I-프레임만으로 된 MPEG 비디오는 전혀 움직임 벡터를 포함하지 않는다. 그러므로 MPEG 움직임 벡터 채용에 의거한 알고리즘은 여기서는 적용할 수 없다. I-프레임만의 MPEG 비디오는 유효한 MPEG 비디오 포맷인데, 이것은 프레임을 정밀하게 커팅하는 능력에 기인하여 비디오 편집에서 사용된다. 이 분야에서 움직임 관련 메타데이터는 예를 들면 카메라 작업의 판정에 있어서 매우 중요하다.

더구나, DV 및 MJPEG와 같은 어떤 압축된 비디오 포맷들은 MPEG 포맷처럼 유사한 DCT(이산 코사인 변환)-구조에 의거하지만 움직임 벡터를 전혀 포함하고 있지 않다. 그러므로, 압축된 스트림에 포함된 움직임 벡터에 의거한 카메라 움직임 추정 알고리즘은 이들 경우엔 적용할 수 없다.

더구나, B-프레임으로부터 I-프레임에 대한 움직임 벡터의 보간은 새로운 이미지 콘텐트가 발생하는 빠른 카메라 혹은 객체의 움직임인 경우엔 가능하지 않다.

이 발명은 비디오/오디오 신호 처리 방법 및 비디오/오디오 신호 처리 장치에 관한 것으로, MPEG 압축된 영역으로부터 카메라 움직임 추출 및 비디오 요약(summarization)과 같은 응용(그러나 이것으로 제한되는 것은 아님)을 용이하게 하도록 이를 위한 계산적으로 효율적인 방법을 제공한다.

도 1은 움직임 메타데이터 추출에서 종래기술을 도시한 도면.

도 2는 움직임 메타데이터 추출에서 다른 종래기술을 도시한 도면.

도 3은 비디오 브라우징 및 메타데이터 추출부를 개략적으로 도시한 도면.

도 4는 블록 및 매크로블록에 관한 통상의 명명을 나타낸 도면.

도 5는 압축영역 특징점 움직임 추정 개념을 간략히 개략적으로 도시한 도면.

도 6은 메타데이터 추출부의 데이터 흐름도.

도 7은 MPEG 비트스트림 파싱, DCT 계수 추출 및 움직임 벡터 추출부를 도시한 도면.

도 8은 특징점 등록 및 선택된 블록에 적용된 IDCT 알고리즘을 사용한 움직임 추정의 제어흐름을 도시한 도면.

도 9는 블록 관계도 메트릭의 계산흐름을 도시한 도면.

도 10은 DCT 영역에서 특징점 선택 및 움직임 추정의 제어 흐름을 도시한 도면.

도 11은 8 x 8 DCT 블록의 DCT 계수 번호매김을 도시한 도면.

도 12는 비디오 요약을 위한 특징점 라이프-타임의 데이터 구조를 도시한 도면.

도 13은 카메라 움직임 방향을 도시한 도면.

도 14는 비디오 브라우징부의 예에 관한 개요도.

도 15는 카메라 팬, 줌 및 회전 키프레임 예를 보인 비디오 브라우징부를 도시한 도면.

도 16은 비디오 브라우징부의 그래프 표현을 보인 도면.

전술한 현존의 기술에 비추어, 본 발명의 목적은 압축된 비디오로부터 움직임 관련 메타데이터의 추출 및 브라우징을 위한 비디오/오디오 신호 처리 방법 및 비디오/오디오 신호 처리 장치를 제공하는 것이다.

본 발명에서, 움직임 메타데이터의 주된 응용은 비디오 요약, 카메라 움직임 표면 및 움직임 기반 비디오 브라우징을 포함한다.

본 발명에 따른 비디오/오디오 신호 처리방법은 전술한 목적을 달성하기 위해, 공급된 비디오/오디오 신호를 처리하는데 적합하다. 장치는 공급된 비디오/오디오 신호를 처리하는 비디오/오디오 신호 처리 방법에 있어서, 상기 비디오/오디오 신호의 압축영역에서 상기 비디오/오디오 신호의 특징을 나타내는 적어도 한 압축영역 특징점을 추출하는 단계; 상기 추출단계에 의해 추출된 특징점의 움직임 추정을 수행하는 단계; 및 상기 비디오/오디오 신호를 구성하는 소정 수의 프레임을 통해 움직임 벡터에 연관된 특징점을 추적하는 단계를 포함한다.

본 발명에 따른 비디오/오디오 신호 처리 방법에서, 비디오/오디오 신호의 특징점은 압축영역에서 추출되고, 추출된 특징점의 움직임 추정이 수행되고, 움직임 벡터에 연관된 특징점이 추적된다.

또한, 본 발명에 따른 비디오/오디오 신호 처리 장치는 전술한 목적을 달성하기 위해서 공급된 비디오/오디오 신호를 처리하도록 된 것이다. 장치는 공급된 비디오/오디오 신호를 처리하는 비디오/오디오 신호 처리 장치에 있어서, 상기 비디오/오디오 신호의 압축영역에서 상기 비디오/오디오 신호의 특징을 나타내는 적어도 한 압축영역 특징점을 추출하는 수단; 상기 추출단계에 의해 추출된 특징점의 움직임 추정을 수행하는 수단; 및 상기 비디오/오디오 신호를 구성하는 소정 수의 프레임을 통해 움직임 벡터에 연관된 특징점을 추적하는 수단을 포함한다.

본 발명에 따른 비디오/오디오 신호 처리 장치에서, 비디오/오디오 신호의 특징점은 압축영역에서 압축영역 특징점을 추출하는 수단에 의해서 추출되고, 추출된 특징점의 움직임 추정은 특징점의 움직임 추정을 수행하는 수단에 의해서 수행되고, 움직임 벡터에 연관된 특징점은 특징점을 추적하는 수단에 의해 추적된다.

더욱이, 비디오/오디오 신호 처리방법은 전술한 목적을 달성하기 위해서 공급된 비디오/오디오 신호를 처리하여 브라우징하도록 된 것이다. 방법은 카메라움직임 천이 그래프를 계층적으로 형성하는 단계, 상기 그래프 형성 단계는 적어도 하나의 주 카메라 움직임 천이 그래프를 가지며 비디오 시퀀스에 대해 도시된 천이 경로로 다른 카메라 움직임을 표현하는 복수의 노드를 갖는 그래프 레이아웃을 제공하는 단계를 포함하고; 노드에 카메라 움직임 비디오 시퀀스의 키프레임을 나타냄으로서 카메라 움직임 천이 그래프를 통해 브라우징하는 단계; 및 노드에 상기 카메라 움직임의 그래프 표현을 나타냄으로써 카메라 움직임 천이 그래프를 통해 브라우징하는 단계를 포함한다.

본 발명에 따른 비디오/오디오 신호 처리방법에서, 카메라 움직임 천이 그래프는 계층적으로 형성되고, 노드에서 카메라 움직임 비디오 시퀀스의 키프레임을 나타냄으로써 카메라 움직임 천이 그래프를 통한 브라우징이 실행되고, 노드에서 카메라 움직임의 그래프 표현을 나타냄으로써 카메라 움직임 천이 그래프를 통한 브라우징이 수행된다.

더구나, 본 발명에 따른 비디오/오디오 신호처리 장치는 전술한 목적을 달성하기 위해서 공급된 비디오/오디오 신호를 처리하여 브라우징하도록 된 것이다. 장치는, 카메라 움직임 천이 그래프를 계층적으로 형성하는 수단, 상기 그래프 형성 수단은 적어도 하나의 주 카메라 움직임 천이 그래프를 가지며 비디오 시퀀스에 대해 도시된 천이 경로로 다른 카메라 움직임을 표현하는 복수의 노드를 갖는 그래프 레이아웃을 제공하는 수단을 포함하고; 노드에 카메라 움직임 비디오 시퀀스의 키프레임을 나타냄으로써 카메라 움직임 천이 그래프를 통해 브라우징하는 수단; 및 노드에 상기 카메라 움직임의 그래프 표현을 나타냄으로써 카메라 움직임 천이그래프를 통해 브라우징하는 수단을 포함한다.

본 발명에 따른 비디오/오디오 신호 처리 장치에서, 카메라 움직임 천이 그래프는 계층적으로 형성되고, 노드에서 카메라 움직임 비디오 시퀀스의 키프레임을 나타냄으로써 카메라 움직임 천이 그래프를 통한 브라우징이 실행되고, 노드에서 카메라 움직임의 그래프 표현을 나타냄으로써 카메라 움직임 천이 그래프를 통한 브라우징이 수행된다.

또한, 본 발명에 따른 비디오/오디오 신호 처리 방법은 전술한 목적을 달성하기 위해서 브라우징을 위해 복합 비디오 선택의 계층적 분해를 추출하도록 된 것이다. 방법은, 비디오를 식별하는 단계; 각각의 비디오 세그먼트를 나타내는 상기 비디오 쇼트(shot)로부터 키 프레임들을 수집하는 단계; 카메라 움직임 혹은 전역 움직임 정보에 따라 상기 수집된 키 프레임들을 분류하는 단계; 및 비디오의 그래픽 표현을 형성하는 단계로서, 상기 그래픽 표현은 상기 분류단계의 결과와, 비디오 쇼트의 각 부분에 연관된 카메라 움직임 정보 및 시간에 의거하며, 상기 그래픽 표현 단계는 노드에 의해 비디오 쇼트의 각각의 카테고리를 나타내는 단계를 포함하는 것인 상기 비디오의 그래픽 표현 단계를 포함한다.

본 발명에 따른 비디오/오디오 신호처리 방법에서, 비디오가 식별되고, 키 프레임이 비디오 쇼트로부터 수집되고, 수집된 키 프레임이 분류되고, 비디오의 그래픽 표현이 형성된다.

또한, 본 발명에 따른 비디오/오디오 신호 처리 장치는 전술한 목적을 달성하기 위해서 브라우징을 위해 복합 비디오 선택의 계층적 분해를 추출하도록 된 것이다. 장치는 비디오를 식별하는 수단; 각각의 비디오 세그먼트를 나타내는 상기 비디오 쇼트(shot)로부터 키 프레임들을 수집하는 수단; 카메라 움직임 혹은 전역 움직임 정보에 따라 상기 수집된 키 프레임들을 분류하는 수단; 및 비디오의 그래픽 표현을 형성하는 수단으로서, 상기 그래픽 표현은 상기 분류단계의 결과와, 비디오 쇼트의 각 부분에 연관된 카메라 움직임 정보 및 시간에 의거하며, 상기 그래픽 표현 수단은 노드에 의해 비디오 쇼트의 각각의 카테고리를 나타내는 수단을 포함하는 것인 상기 비디오의 그래픽 표현 수단을 포함한다.

본 발명에 따른 비디오/오디오 신호처리 장치에서, 비디오가 비디오를 식별하는 수단에 의해 식별되고, 키 프레임이 키 프레임을 수집하는 수단에 의해 비디오 쇼트로부터 수집되고, 수집된 키 프레임이 분류하는 수단에 의해 분류되고, 비디오의 그래픽 표현이 비디오의 그래픽 표현을 형성하는 수단에 의해 형성된다.

더구나, 본 발명에 따른 비디오/오디오 신호처리 방법은 전술한 목적을 달성하기 위해서 공급된 비디오/오디오 신호를 처리하도록 된 것이다. 방법은 상기 비디오/오디오 신호의 압축영역에서 상기 비디오/오디오 신호의 특징을 나타내는 적어도 한 압축영역 특징점을 추출하는 단계를 포함한다.

본 발명에 따른 비디오/오디오 신호 처리방법에서, 비디오/오디오 신호의 특징점은 압축영역에서 추출된다.

또한, 본 발명에 따른 비디오/오디오 신호처리 장치는 전술한 목적을 달성하기 위해서 공급된 비디오/오디오 신호를 처리하도록 된 것이다. 장치는 상기 비디오/오디오 신호의 압축영역에서 상기 비디오/오디오 신호의 특징을 나타내는 적어도 한 압축영역 특징점을 추출하는 수단을 포함한다.

본 발명에 따른 비디오/오디오 신호 처리 장치에서, 비디오/오디오 신호의 특징점은 압축영역 특징점을 추출하는 수단에 의해 압축영역에서 추출된다.

더구나, 본 발명에 따른 비디오/오디오 신호처리 방법은 공급된 비디오/오디오 신호를 처리하도록 된 것이다. 방법은 상기 비디오/오디오 신호의 압축영역에서 상기 비디오/오디오 신호의 특징을 나타내는 적어도 한 특징점의 움직임 추정을 수행하는 단계를 포함한다.

본 발명에 따른 비디오/오디오 신호 처리방법에서, 추출된 특징점의 움직임 추정이 수행된다.

더구나, 본 발명에 따른 비디오/오디오 신호처리 장치는 공급된 비디오/오디오 신호를 처리하도록 된 것이다. 장치는 상기 비디오/오디오 신호의 압축영역에서 상기 비디오/오디오 신호의 특징을 나타내는 적어도 한 특징점의 움직임 추정을 수행하는 수단을 포함한다.

본 발명에 따른 비디오/오디오 신호 처리 장치에서, 추출된 특징점의 움직임 추정은 움직임 추정을 수행하는 수단에 의해 수행된다.

본 발명에 따른 실시예를 첨부한 도면을 참조하여 기술한다.

카메라 움직임 추정, 객체 움직임 추정, 비디오 요약, 비디오 트랜스코딩, 움직임 활동 측정, 비디오 장면 검출, 및 비디오 키프레임 검출을 포함하는 응용을 가진 신규한 압축영역 특징점 선택 및 움직임 추정 알고리즘을 본 발명에서 기술한다.

객체 식별, 객체 추적, 전역 움직임 추정, 및 비디오 요약을 위한 현존의 특징점 선택 방법들은 화소영역에서 적용되므로 압축된 비디오 비트스트림의 시간 소비적인 디코딩을 요한다.

개시된 특징점 선택 알고리즘은 압축된 영역에서 직접 작동되므로 이에 따라 압축된 비디오 스트림의 계산적으로 고가이고 시간 소비적인 디코딩을 피하게 된다. 후보 특징점을 결정하는 압축 영역 사전-선택 메카니즘은 계산 복잡성을 현저히 감소시킨다.

특징점 선택 알고리즘은 DCT(이산 코사인 변환) 계수에 포함된 텍스처 정보 및 MPEG(동화상 전문가 그룹) 움직임 벡터(존재하여 있을 때)를 사용하므로 DCT 기반 압축 정지화상(움직임 JPEG(조인트 포토그래픽 전문가 그룹), MJPEG과 같은) 및 압축된 비디오(MPEG-1/MPEG-2/MPEG-4, ITU-T(International Telecommunication Union-Telecommunication Standardization Sector) 권고안 H.261, H.263, H.26X, 혹은 DV 포맷)에 직접 적용할 수 있다.

발명에 대한 본 개시에서는 압축영역(예로서 MPEG-1을 사용하는)에서 특징점의 추출, 및 MPEG 압축영역에서 존재하는 움직임 벡터와 예측 에러 에너지를 이용함으로써 이들 특징점에 대한 움직임 추정을 기술한다.

더욱이, 본 발명에서는 압축영역에서 이 특징점 선택 알고리즘을 사용하는 다음의 응용을 개시한다.

(1) 객체 식별 및 분류

(2) 추적을 위한 객체 움직임 추정(예를 들면 파라미터 움직임 모델 혹은 칼만 필터를 사용하여)

(3) 전역 (카메라) 움직임 추정(파라미터 카메라 움직임 모델을 사용하여)

(4) 이 방법에 의해 추출된 움직임 벡터를 사용함으로써 움직임 활동 계산

(5) 비디오 트랜스코딩(프레임 내 특징점의 위치에 따라 관련 영역을 판정하고 다시 엔코딩하는 것을 용이하게 하기 위해 카메라 움직임 파라미터를 사용하여 적합한 양자화 제어에 의한 관련 영역에 대한 보다 많은 비트를 사용하거나, 후속 엔코딩을 위해 움직임 벡터를 제공하는 것)

(6) 비디오 장면 내 전경/배경 구획화(특징점의 라이프 기간을 추적함으로써, 전역 움직임 및 특징점의 객체 움직임을 판정하는 것)

(7) 비디오 요약 및 비디오 장면 검출(특징점의 라이프 타임을 추적함에 의해서 검출. 많은 수의 이전에 존재하는 특징점이 사라지고 많은 수의 새로운 특징점이 나타날 때, 이것은 비디오 요약에 사용될 수 있는 새로운 장면 시작에 대한 표시이다).

(8) 비디오 키프레임 검출(키프레임은 많은 수의 특징점이 시간에 걸쳐 바뀌지 않는 비디오 스트림의 부분들로부터 선택된다)

(9) 비디오 브라우징(계층적 비디오 표현에 대해 전술한 방법에 따라 키프레임만이 아니라 특징점에 관계된 특징점 및 객체/전역 움직임을 사용함)

(10) 비디오 모자이크화(몇 개의 비디오 프레임 중 작은 부분들을 병합하여 다일의 큰 이미지를 생성함. 특징점은 여기서는 기준점으로서 사용됨).

도 3은 메타데이터 추출 및 비디오 브라우징부를 개략적으로 도시한 것이다. 기술된 장치는 저장매체(31)(CD-ROM, DVD-RAM, DVD-ROM, 비디오 테이프, 하드 디스크, RAM, ROM 등과 같은 광학, 자기, 전자식 및 전기-기계 매체), 메타데이터(MD30)를 비디오 브라우징부(35)에 공급하는 메타데이터 추출부(36)로 구성된다. 메타데이터 추출부(36) 및 비디오 브라우징부(35)의 구현은 프로그래머블 컴퓨터(34)에 의거할 수 있는데, 그러나 다른 수단도 가능하다. 비디오 브라우징부(35)는 사람 사용자(33)에 의해 상호작용되는 사용자 인터페이스부(32)에 의해 제어된다.

제 1 양호한 실시예를 상세히 기술하다.

여기에서는 먼저 전체적인 개요를 제공하고, 이어서 제 1 양호한 실시예에로, 압축영역에서의 특징점 선택 및 움직임 추출의 기본적인 방법을 기술한다. 다른 양호한 실시예에서는 제 1 양호한 실시예에 대한 상이한 방법 및 이 특징점 선택 및 움직임 추정방법의 응용에 대해 기술한다.

도 4는 16 x 16 화소 크기의 MPEG 매크로블록(MB)과 이들의 8 x 8 화소크기의 블록을 나타낸 것이다. 기준 프레임은 일반적으로 현 시간에 비교되는 시간적으로 상이한 시점에서의 프레임이다. 일반성을 놓치지 않고, 이 맥락에서 기준 프레임은 시간적으로 현재 프레임의 다음의 것으로 가정한다. 기준 MBcur은현재(cur) 프레임의 MB 혹은 MPEG-4의 경우 현재 비디오 객체 플레인(VOP; video object plane)의 MB이며, MBref는 기준(ref) 프레임의 MB 혹은 MPEG-4의 경우 기준 비디오 객체 플레인(VOP)의 MB이고, 이것은 현재 프레임 혹은 VOP와는 다른 시점에 연관된다. 본 발명에서, “프레임”이라는 용어는 MPEG-4에서 사용되는 임의의 형상의 객체(VOP)를 또한 포함한다. MV는 각각 x방향 y 방향으로 성분 MV_x및 MV_y를 갖는 움직임 벡터이다.

“인트라(intra)”는 여기서는 MPEG와 H.26X 기준 및 권고안에서 인트라 부호화된 매크로블록에 대해서, 그리고 DV 포맷 및 MJPEG에서 DCT만이 부호화된 블록에 대해서 사용된다. “P형”은 MPEG와 H.26X 기준 및 권고안에서 예측 부호화된 매크르블록에 대해서 사용되며 “B형”은 MPEG와 H.26X 기준 및 권고안에서 양방향 예측된 매크로블록에 대해서 사용된다.

도 5는 특징점 및 움직임 추정방법을 개략적으로 도시한 것이다. 특징점(혹은 이 예에서는 에지점)은 예를 들면 밝기, 컬러 혹은 텍스처가 급작스럽게 변화된 위치들이므로 움직임 추정 및 움직임 추적에 적합하다. 51은 몇몇의 에지점을 갖고 t=t0에서의 현재의 프레임 내 비디오 객체를 나타낸 것이고, 이들 에지점 중 하나가 예를 들면 위치 52에 있다. t=t1에서 기준 프레임에 대해서, 이 에지점(52)(t=t1에서 기준 프레임 내 54로 번호가 다시 매겨졌음)은 위치 55로 이동한다. 이동은 움직임 벡터(53)에 연관된다. 움직임 벡터를 찾기 위해서, 움직임 추정 기술이 예측 움직임 벡터 주위의 탐색영역(56) 내에서 수행된다. 본 발명에 의해 개시된 방법 중 일부는 압축영역에서 특징점을 발견하는 방법에 관한 기술과, 압축영역에서 두 개의 관련된 특징점 간에 움직임을 계산상 효율적으로 추정하기 위한 기술이다. 상이한 시각에서 동일한 두 개의 특징점(혹은 몇 개의 특징점이 객체를 나타내는 경우 두 개 이상의 특징점)을 함께 연관시켜 이들의 움직임 벡터를 확실하게 찾기 위해서, 본 발명은 화소영역에서 뿐만이 아니라 압축영역에서 특징점에 대한 서명 기술을 또한 개시한다. 서명 기술에 대해선 도 8의 단계 S83에서 보다 상세히 설명한다.

도 6은 메타데이터 추출분의 데이터 흐름을 도시한 것이다. 파싱부(61)는 MPEG 비트스트림 파싱, 아울러 DCT-계수 및 움직임 벡터 추출을 행하고, 도 7에 또한 기술되어 있다. 파싱부(61)는 현재의 매크로블록의 유형(I: 인트라, B: 양방향 예측, P: 예측), 추출된 MPEG 움직임 벡터(이 매크로블록 유형에 대해 존재한다면) 및 현재의 프레임에 대한 DCT-계수(존재한다면)를, 특징점 선택부 및 움직임 추정부(62)에 공급한다.

특징점 선택부(63)는 특징점 선택 충실도 파라미터에 의해 제어된다. 이것은 이들 입력 데이터로부터 현재 프레임 내 특징점 좌표를 계산하고 이들을 특징점 움직임 추정부(64)와, 파라미터 및 카메라 움직임 계산부(64)와, 비디오 요약부(66)로 보낸다. 특징점 선택부(63)로부터, 후보 움직임 벡터 MV(x, y), 필요 움직임 벡터 해상도 및 탐색 영역이 특징점 움직임 추정부(64)로 보내진다. 특징점 선택 및 움직임 추정의 제어 흐름을 도 8에 도시하였다. 특징점 움직임 추정부(64)는 현재 프레임의 특징점 좌표와, 기준 프레임의 특징점 좌표로부터 계산하여, 이들 움직임 벡터를 파라미터 및 카메라 움직임 계산부(65)로 출력한다.

파라미터 및 카메라 움직임 계산부(65)는 이전 단계로부터 움직임 벡터를 취하여, 파라미터 움직임 모델의 파라미터 및 카메라 움직임 파라미터를 계산하고 이들은 비디오 요약부(66)로 보내진다.

비디오 요약부(66)는 특징점 라이프-타임 목록(67)과, 특징점 및 움직임 기반 장면 변화 검출 및 키프레임 추출부(68)의 기본 단계로 구성된다.

특징점 라이프-타임 목록(67)은 특징점 좌표 및 서명, 특징점에 연관된 움직임 벡터 및 움직임 벡터에 대해 계산된 거리 특정치를 포함하는 것으로, 예를 들면 도 12를 참조한다. 특징점 및 움직임 기반 장면 변화 검출 및 키프레임 추출부(68)는 장면변화에 대한 프레임 수, 대응하는 중요도와 함께 키프레임들 및 카메라 움직임 파라미터를 메타데이터로서 도 3에 35로 보인 비디오 브라우징부로 전한다.

비디오 요약부(66)는 요약의 깊이, 즉 대응하는 카메라 혹은 파라미터 움직임 파라미터와 함께 키프레임 수에 관하여 (선택적으로) 외부에서 제어될 수 있다.

도 7은 파상부를 도시한 것으로, 이 파싱부는 예를 들면 MPEG 트랜스포트 스트림으로부터 MPEG 비디오 비트스트림을 추출하는 MPEG 비트스트림 파싱부(71)로 구성된다. 프레임- 및 매크로블록- 유형 추출부(72)는 매크로블록 유형을 추출하며, 현재의 매크로블록(MB)이 P-MB 혹은 B-MB(각각 P-VOP 혹은 B-VOP)(74)인 경우, 움직임 벡터는 움직임 벡터 추출부(75)를 사용하여 이 매크로블록(혹은 VOP)에 대해 추출된다. 미리 파싱된 비트스트림으로부터, DCT-계수 추출부(73)는 I-프레임, P-프레임, 혹은 B-프레임(혹은 MPEG-4에서는 I-VOP, P-VOP, 혹은 B-VOP) 내 인트라블록에 대한 DCT 계수를 추출한다.

도 8은 선택된 수의 블록에 대해서만 IDCT(역 이산 코사인 변환)을 사용하는 특징점 선택 및 움직임 추정 처리를 기술한 것이다.

MPEG 스트림(도 1 참조)을 완전히 디코딩함에 있어서는 CIF 포맷(352 x 288 화소)가 사용될 때 cur 및 ref에 대해서 2 x 396 x 4 = 3168 IDCT 계산을 요한다. 그러나, 예를 들면, 카메라 움직임 추정에 있어서는 연관된 움직임 벡터와 함께 cur 내 단지 6 특징점(num=6)만이 예를 들면 6 파라미터 움직임 모델에 대해 필요하다. 이 예에서, 각각의 특징점에 대해서, 작은 [-4, +4] 화소 탐색영역(예를 들면, 예측기 주위의)을 사용할 때 cur에서 한번의 IDCT 계산과 ref에서 4번의 IDCT 계산이 필요하다. 이것은 IDCT 계산에 있어 요구되는 계산능력면에서 약 100 인자만큼의 상당한 잇점을 제공한다. 큰 움직임의 경우, MPEG 움직임 벡터는 탐색영역에 대한 예측기로서도 사용될 수 있다. [-4, +4] 화소 탐색영역은 통상은 예측기로서 MPEG 움직임 벡터를 사용할 때 충분하다. 그러나, 탐색영역은 적응형으로 선택될 수 있다.

도 8에서, 단계 S81은 현재 프레임 내 모든 8 x 8 블록에 대한 블록 관계도 메트릭을 계산하고, 이들의 관련도에 따라 이들 블록을 분류하고 가장 높은 관계도를 갖는 cur 내 블록의 수 “num”을 결정한다. 블록 관계도 메트릭의 계산에 대해 도 9에서 보다 상세히 설명한다. 인트라-매크로블록 내 블록들만이 “새로운”관련 점들 중 하나로서 선택될 수 있고, (일단 선택되었으면) 관련 점은 I-프레임, P-프레임, 및 B-프레임을 통해 추적될 수 있다. 단계 S81에 대한 양호한 실시예는도 9에 상세히 기술되어 있다.

도 8의 단계 82에서, 8 x 8 블록 IDCT( 및 P-매크로블록 혹은 B-매크로블록 내 블록들에 대한 MC, 즉 움직임 보상)는 “num”선택된 cur 블록에 대해 계산된다. 8 x 8 블록 IDCT 및 MC 계산은 이 기술에 숙련된 자에겐 공지된 방법이다.

도 8에서, 단계 S83은 단계 S81에서 선택된 모든 “num”cur 블록들에 대해 블록 서명 추출을 수행한다. 블록 서명의 계산에 있어서는, a) 화소영역 내 블록 서명의 계산; 및 b) 여기 개시되는, DCT 영역에서 블록 서명의 계산인 두 가지 양호한 실시예가 존재한다. 단계 S82에 의해서 화소영역에서 이미 변환되는 cur 내 이들 “num”블록들에 대해서만 블록 서명이 계산되어야 하므로, 이 단계로부터 화소 영역 블록 서명에 대한 계산 부담이 현저히 추가되지는 않게 된다.

간단한 화소영역 블록 특징으로서 블록의 모든 혹은 선택된 화소 수가 서명으로서 사용될 수 있으며 SAD(절대 차이값들의 합), MSE(평균 제곱 에러) 혹은 이 기술에 숙련된 자에게 공지된 하우스도르프-거리와 같은 다른 기준을 사용하여 서명매칭이 수행될 수 있다. 그러나, 이것은 표현 효율면에서 매우 적합하지 않기 때문에, 화소영역에서 보다 높은 레벨의 블록 특징점 서명이, 양호한 실시예를 나타내고 있다. 이들 보다 높은 레벨의 서명 특징은, 캐니(John Canny: A computational approach to edge detection: IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 8, no. 6, p679-698, 1986), 소벨, 프리위트와 같은 에지 검출기술과, 루카스/카나데(Bruce D. Lucas and Takeo Kanade: An Iterative Image Registration Technique with an Application to StereoVision: International Joint Conference on Artificial Intelligence, pp 674-679, 1981), 마르/힐드레스(David Marr, Ellen Hildreth: Theory of edge detection: Proc. of the Royal Society of London B, vol. 207, pp. 187-217, 1980)와 같은 텍스처 및 컬러 분류, 이미지 등록 기술; 혹은 이들의 매칭기준과 함께 사용될 수 있고 바라직한 실시예이며 이 기술에 숙련된 자에게 공지된 다른 것들을 포함한다.

DCT-영역 블록 서명 계산에 있어서 도 11에서 모든 혹은 선택된 DCT 계수는 특징점 등록용으로 사용될 수 있다. DCT 블록 서명을 위한 DCT 계수는 단지 휘도(Y) 블록만으로부터, 혹은 대안으로 크로미넌스(U, V) DCT 블록으로부터 취해질 수 있다. 여기서는 휘도 블록의 DCT 계수의 사용만에 대해서 기술하는데, 그러나, 크로미넌스 블록에의 확장은 이 기술에 숙련된 자에 의해 쉽게 수행될 수 있다. 양호한 실시예는, 응용 시나리오에 따라, a) D00, b) D00, D01, D02, D03; 및 c) 모든 DCT 계수를 포함한다. C_hv(현재 DCT 블록의 서명)의 DCT 계수와 D_hv(비교되는 DCT 블록의 서명을 나타내는 계수)의 DCT 계수 간 거리 계산을 위한 양호한 실시예는,

을 포함한다.

여기서, (예를 들면 h=v=0 및 hmax=vmax = 7) 및 각 항은 가중치 인자 phv에 의해 선택적으로 가중치가 부여될 수 있다. 이들 파라미터를 사용하여, DCT-블록 서명은 각종의 응용, 예를 들면 비디오 시퀀스로부터 이미지 모자이크화에 맞게 할 수 있고, 비디오 요약 혹은 카메라 움직임에 대해 선택되는 것과는 다른 h, v, hmax, vmax, phv 값들이 선택될 수도 있다. 보다 높은 레벨의 DCT-블록 서명에 대해서, 양호한 실시예는 “K. R. Rao. P. YiP: Discrete Cosine Transform-Algorithms, Advantages, Applications: Academic Press 1990” 및 “Bo Shen, Ishwar K. Sethi: Direct feature extraction from compressed images: SPIE 2670, Storage & retrieval for Image and Video Databases IV, 1996”에 기술된 것으로 이 기술에 숙련된 자에겐 공지된 것인 DCT-블록 활동 특징, DCT-방향성 특징, DCT-에너지 특성을 포함한다.

도 8의 단계 S84에서, 예측된 움직임 벡터(MV), 기준 블록위치 및 탐색영역은 하나의 선택된 cur 블록에 대해 계산된다. 움직임 예측방법은 응용에 상당히 의존한다. 예를 들면, 6 파라미터 모델을 사용한 카메라 움직임 추출에 있어서, ref 내 특징점의 위치는 이전 프레임으로부터 얻어진 밀접하게 결합된 움직임 모델로부터 예측될 수 있다. 마찬가지로 특징점의 움직임은 객체 추적을 위해 예측될 수 있다. P-매크로블록 혹은 B-매크로블록의 경우에, 압축된 MEPG 비트스트림로부터 추출된 움직임 벡터는 ref 내 탐색영역의 중심으로서 사용될 수 있다. 이 경우, 및 특히 MPEG 움직임 벡터가 작은 경우, 탐색영역은 작게 선택될 수 있다. 이것은 단지 4 블록의 IDCT 디코딩 및 움직임 보상으로 이미 충분할 수 있음을 나타낸다. 인트라-매크로블록의 경우, 블록 중 하나 혹은 몇 개가 새로운 것이면 DCT-블록 서명 혹은 화소영역 블록 서명에 의해 결정되어야 한다. 블록이 새로운 경우, 양호한 실시예는 응용에 따라, 보다 큰 탐색 영역을 설정한다.

블록목록의 움직임 벡터 이력에서보다 하나 혹은 몇 개 먼 프레임 내에 이미 블록이 존재함을 블록서명이 나타내는 경우, 이 기술에 숙련된 자에게 공지된 움직임 벡터 예측 방법에 의해 다음 움직임 방향 및 탐색범위가 결정될 수 있다. I-기준 프레임/P-기준 프레임/B-기준 프레임 내 모든, 단계 S84에서 계산된 블록 위치에 들에 대한 도 8의 단계 S85에서 8 x 8 블록 IDCT가 계산된다. 상기 단계 S84에서의 계산된 움직임 벡터 예측기를 중심으로 하여 상기 단계 S84에서의 계산된 탐색 영역 내에 블록위치들이 있다. P-기준 매크로블록 및 B-기준 매크로블록에 대해서 MC(움직임 보상)가 계산된다.

기술은 MPEG-1/MPEG-2/MPEG-4 표준 디코더에서 사용되는 것과 동일하며 이 기술에 숙련된 자들에겐 공지된 것이다. IDCT( 및 P-매크로블록 및 B-매크로블록의 경우엔 MC)는 전체 프레임만이 아니라 cur 내 “num”블록에 연관된 ref 내 소 탐색영역에 대해 적용되므로 전체 프레임의 완전한 디코딩보다 현저히 빠름에 유의한다.

도 8의 단계 S86에서, 8 x 8 블록 움직임 추정은 cur 내 선택된 블록에 대해 ref 내 탐색영역 내 최상의 움직임 벡터를 발견하기 위해서, 예측된 MV을 중심으로 탐색영역 내의 ref 내 모든 탐색위치들에 대해 화소영역에서 수행된다(이들 모두 단계 S84에서 계산된 것임). 화소영역에서 8 x 8 움직임 추정에 있어서, 바람직한구현은 이 기술에 숙련된 자에게 공지된 것인, 전체 탐색 블록 매칭, 화소 회귀 탐색 등과 같은 움직임 추정 방법들, 참조로 “Peter Kuhn: Algorithms, Complexity Analysis and VLSI-Architectures for MPEG-4 Motion Estimation: Kluwer Academic Publishers, June 1999, ISBN 792385160”이 포함된다(그러나 이것으로 한정되는 것은 아니다). P-매크로블록/B-매크로블록에 대해서 탐색영역(따라서 요구되는 계산능력)은 MPEG-비트스트림으로부터 움직임 벡터가 움직임 벡터 예측기로서 사용되기 때문에 매우 작을 수 있음에 유의한다(그러나, 대부분의 경우 16 x 16 매크로블록에 대한 것이고 항상 신뢰할 수 있는 것은 아니다). 움직임 추정부에 대한 양호한 실시예 중 하나는 블록크기가 8 x 8로 한정되지 않으며 8 x 8 블록만이 아니라 4 x 4와 같은 블록을 사용하는 가변 블록크기 움직임 추정을 커버할 수 있는 구현이다. 움직임 추정의 또다른 양호한 실시예는 외부에서 제어할 수 있는 움직임 변위 해상도로서, 이것은 예를 들면, 1 화소, 2 화소 혹은 0.5 화소로 설정될 수 있고 이 기술에 숙련된 자들에게 공지된 방법들에 의해 구현될 수 있다. 예를 들면, 루카스/카나데 특징과 같은, 특정의 특징들을 사용할 때, 계산 복잡도와 추적 충실도 면에서 이들 특징점에 관한 블록-매칭 움직임 추정을 수행하기보다는 계산된 탐색영역 내에서 루카스/카나데/도마시 특징 추적기를 채용하는 것이 바람직하다.

도 8의 단계 S87에서, 최상으로 매칭되는 8 x 8 블록위치(단계 S86에서 결정된)의 움직임 벡터에 의해 지정된 ref 내 블록에 대한 블록 서명은 단계 S83에서 기술된 것과 동일한 방법에 의해 계산된다. DCT-블록 서명을 사용할 때 최상으로 매칭되는 8 x 8 블록 위치의 모든 화소는 DCT영역으로 변환되어야 함에 유의한다.

도 8의 단계 S88에서, cur 내 블록의 위치(이에 대해 단계 S84, S85, S86, S87이 수행되었음), 단계 S87에서 계산된 블록서명, 움직임 벡터 및 최상의 움직임 벡터(단계 S86에서 계산된)가 지정하는 기준 블록과 현재 블록 간 계산된 거리(채용된 움직임 추정 알고리즘에 따라, MSE: 평균 제곱 에러, SAD: 절대 차이값의 합)는 데이터 구조에 저장되고, 양호한 실시예는 예를 들면 도 12에 도시한 바와 같다. 거리 계산의 결과가 응용에 의해 주어진 임계치 이상이고 마지막 “num”블록이 이미 처리되고 있는 경우, 하나 이상의 다음의 방법, 즉 블록 관련 목록으로부터 취해진 “num”블록들을 증가하거나, 움직임 추정부의 탐색영역을 증가시키는 것을 적용한다. 이 방법에 의해서 압축된 비디오의 상이한 콘텐트물 및 코딩 구조에도 적용할 수 있게 된다.

도 8에서, 단계 S89는 단계 S83에서 모든 결정된 “num”블록들이 이미 처리되었는지 체크한다. 모든 결정된 “num” 블록들이 이미 처리되었다면(예), 특징점 기반 움직임 추정 알고리즘은 이 프레임에 대해 여기서 정지하고, 처리되지 않았으면(아니오), 단계 S90으로 진입된다.

도 8의 단계 S90에서, 지금까지 어떠한 움직임 추정도 수행되지 않은 결정된 “num”블록 위치 중 다음 것을 액세스하여, 단계 S84, S85, S86, S87, S88을 포함하는 루프를 다시 수행한다.

도 9에 블록 관계도 메트릭의 계산의 양호한 실시예를 도시하였다. 블록 관계도 메트릭은 움직임 추정 혹은 움직임 추적에 대한 블록의 적합성을 알려 주는데, 통상, 에지, 컬러, 혹은 다른 현저한 텍스처 그라디엔트와 같은 시각적인 특징들에 의해 결정된다(그러나 이것으로 한정되는 것은 아니다). P-프레임 혹은 B-프레임을 사용할 수 있을 때, 이들 프레임의 P-매크로블록 및 B-매크로블록 내 포함된 움직임 정보는 높은 관계도를 나타내는 블록들을 찾게 하는데 사용될 수 있다.

도 9의 단계 S91에서, 현재 프레임(MBcur)에 대한 매크로블록 카운터를 제로로 설정한다. 이 카운터는 현재 프레임 내 매크로블록의 유형(I-유형, P-유형 B-유형)에 관계없이 이들 모든 매크로블록에 대해 되풀이된다.

도 9의 단계 S92에서, MBcur에 연관된 매크로블록, 기준 프레임 내 MBref이 선택된다. MBcur에 대한 움직임 벡터가 있다면(이 정보는, 압축된 비트스트림의 다음 엔코드된 프레임을 액세스할 수 있으므로 얻어질 수 있다), MBref는 움직임 벡터가 연관된 매크로블록이다. MBcur에 대해 움직임 벡터가 없다면(혹은 제로 길이를 가진 움직임 벡터), MBref는 MBcur와 동일한 매크로블록 수를 갖는다. MBcur 및 MBref에 대한 매크로블록 유형 또한 이 단계에서 압축된 비트스트림으로부터 추출된다.

도 9의 단계 S93에서, 조건이 테스트된다. MBcur의 매크로블록 유형이 인트라이고 MBref가 P형 혹은 B형 매크로블록인 경우 단계 S94에 진입한다.

도 9의 단계 S98에서, 또다른 조건이 테스트된다. MBcur의 매크로블록 유형이 P형이거나 MBcur이 B형인 경우 단계 S99에 진입한다.

도 9의 단계 S104에서, 또다른 조건이 테스트된다. MBcur의 매크로블록 유형이 인트라이고 MBref가 또한 인트라인 경우, 단계 S105에 진입한다. 단계 S105 및 그 후속 단계들은 모든 무예측 DCT만으로 부호화된 MPEG 포맷 및 DV 혹은 MJPEG같은 다른 포맷을 다룬다.

도 9의 단계 S94에서, 매크로블록(도 4) 내의 DCT-블록에 대한 블록 카운터는 제로로 설정되고 단계 S95에 진입한다.

도 9에서, 단계 S95는 블록_MBcur,i의 관계도의 계산에 대한 양호한 실시예를 도시한 것으로, 여기서 이 8 x 8 DCT 블록의 관계도는 다음과 같이 정의된다.

그리고 “k”는 응용에 따라 선택될 가중치 인자이고 추적의 경우보단(예를 들면 루카스/카나데/토마시같은 특징점 추적 기술에 의한) 움직임 추정(예를 들면 블록 매칭에 의한)에 대해 다르게 선택될 수 있다. DCT 영역에서 8 x 8 블록의 활동 측정에 대한 양호한 실시예는 다음과 같이 정의되고, 여기서 D_hv는 DCT 계수이다(도 11).

hmax=vmax인 값들은 보통 7로 선택되는데, 그러나 보다 고속이고 보다 잡음에 강한 구현에 대해서는 (1...6) 사이에서 선택될 수도 있다. 그러나, “K. R. Rao, P. Yip: Discrete Cosine Transform - Algorithms, Advantages, Applications: Academic Press 1990” 및 “Bo Shen, Ishwar K. Sethi: Direct feature extraction from compressed images: SPIE 2670, Storage & retrieval forImage and Video Databases IV, 1996”에 정의된 다른 DCT-활동 혹은 에지 특징은 본 발명의 가능한 실시예들을 나타낸다. DCTenergy는 다음과 같이 정의된다.

계산 복잡성이 감소된 또다른 양호한 실시예는 모든 단일의 관계도 계산에 대해서 DCT-에너지를 1로 설정하거나 움직임 벡터의 합(및 제곱이 된 합은 아님)만을 사용하는 것이다.

도 9에서, 단계 S96 및 단계 S97은 MBcur의 4 개의 모든 블록이 처리될 때까지 단계 S95을 반복한다.

도 9의 단계 S99에서, 매크로블록(도 4) 내의 블록들에 대한 블록 카운터는 제로로 설정되고 단계 S100에 진입한다.

도 9의 단계 S100에서, 이 블록의 관계도는 P-매크로블록 혹은 B-매크로블록에서처럼, 0으로 설정되고, 매크로블록 화소들은 이전 프레임(혹은 B-프레임의 경우엔 미래의 프레임)으로부터 예측되고 어떠한 새로운 특징점도 여기서는 시작할 수 없다.

그러나, 도 9의 단계 S101에서, 이미 다른 프레임으로부터 추적된 현존의 블록 특징점은 “num”현재 블록 특징점의 특징점 목록내에 여전히 유지된다. 단계 S82에서 이들 특징점에 대해서 매크로블록이 P 혹은 B 유형일 때, IDCT 및 MC가 수행되어야 함에 유의한다.

도 9에서, 단계 S102 및 단계 S103은 MBcur의 모든 4 개의 블록이 처리될 때까지 4 번 단계 S100 및 S101을 반복한다.

도 9의 단계 S105에서 매크로블록(도 4) 내의 블록들에 대한 블록 카운터는 제로로 설정되고 단계 S106에 진입한다.

도 9에서 단계 S106은 현재의 매크로블록과 기준 매크로블록이 인트라-매크로블록인 경우 MBcur에 대해 블록 관계도를 계산한다. 블록 관계도는 다음과 같이 계산된다.

여기서 DCT-영역에서 활동치의 계산은 상기한 바와 같이 표현된다. 기준 프레임 내 대응하는 블록의 활동치 계산에 있어서, 대응하며 이웃하는 kmax 블록의 몇 개의 활동 측정치를 합하여 이에 현재 블록의 활동치를 더한다. 이웃 블록들의 활동치는 연이은 움직임 추정을 위한 탐색영역의 크기를 나타낸다. 값 kmax는 프레임 크기 및 응용 제약조건에 의존한다. 값 m_k는 먼 기준 DCT 블록의 활동치에 가중치를 부여하고 응용 제약조건에 대해 결정되는데, 그러나 m_k는 작은 값으로서 양호한 실시예의 경우 1 미만이며, 그러나 다른 실시예(예를 들면 계산상으로 보다 제약적인)의 경우엔 제로일 수도 있다.

도 9에서, 단계 S107 및 단계 S108은 MBcur의 모든 4 개의 블록이 처리될 때까지 단계 S106을 4회 반복한다.

도 9에서, 단계 S109 및 S110은 모든 현재의 매크로블록이 이미 처리되었는지 판정하고, 프레임 MBcur의 모든 매크로블록에 대해 반복하다.

도 9에서, 단계 S111은 블록 관계도 목록의 분류, 이미 추적된 특징점들을 통합 및 출력될 “num”블록의 결정에 관한 것이다. MBcur 내 블록들은 이들의 블록 관계도 값에 관하여 분류되고 최상의 “num”특징점들이 결정되어야 한다. 분류 알고리즘은 이 기술에 숙련된 자는 아는 것이다. 선택될 특징점 수는 주로 목표 응용에 의존한다. 예를 들면, 밀접하게 결합된 6 파라미터 모델에 의거한 6 파라미터 카메라 움직임 추정에 있어서, 6 특징점 및 이들의 연관된 움직임 벡터가 함께 필요하다. 그러므로, 이 경우, 높은 관계도를 갖는 적어도 6 블록이 선택되어야 한다. 비디오 요약에 있어서, 특징점을 나타내는 선택된 블록 수는 외부에서 선택되는 충실도 파라미터에 의존한다. 다른 응용에 있어서는, 특징점의 상한 개수는 화상 내 8 x 8 블록의 수로 제한될 뿐이다. 특징점의 추적이 매우 짧은 움직임 벡터만을 유발하거나(흔히 잡음에 의해 왜곡됨), 나중에 움직임 추정 처리가 불충분한 결과(즉, 매우 큰 거리 측정치가 발생)를 초래하는 경우, 본 발명의 양호한 실시예 중 하나는 더 이상이 특징점이 남아있지 않을 때까지 다음 n 특징점들의 관계도 값에 따라 이들 특징점을 선택하는 것이다. 특징점 추적 응용에 있어서, 높은 관계도를 갖는 새로이 계산된 블록 특징점은 먼 프레임들로부터 이미 추적된 현존의 블록 특징들에 병합되어야 한다.

제 2 양호한 실시예를 상세히 기술한다.

도 10은 DCT 기반 움직임 추정을 사용한 본 발명의 제 2 양호한 실시예를 도시한 것이다. 이 방법은 현재 블록 혹은 탐색영역에 대한 어떠한 매크로블록도, IDCT를 사용하여 DCT 영역에서 화소영역으로 변환될 필요가 없다는 잇점을 제공한다. 그러나, P 프레임 혹은 B 프레임이 압축된 비디오 비트스트림에 존재하는 경우에, 움직임 보상(MC)은 압축영역에서 수행되어야 하는데, 이것은 정확도 면에서 손실을 나타낼 수 있다. 블록 경계를 넘나들은 DCT-기반 움직임 추정은 정확도 면에서 손실을 야기할 수도 있다. DV, MJPEG과 같은 압축된 비트스트림에 관해서 인트라-프레임이 압도적인 비디오 분야에, 그리고 방송 업계에서 주로 사용되는 인트라-프레임만이 있는 MPEG의 분야에 본 발명의 제 2 양호한 실시예의 주 응용이 예상된다.

도 10의 단계 S121에서, cur 내 모든 8 x 8 블록에 대한 블록 관계도 메트릭은 도 8의 단계 S81에서 기술된 것과 동일한 방법을 사용하여 계산된다.

도 10의 단계 S122에서, 모든 선택된 “num”cur 블록에 대한 블록 서명이 계산된다. 기본적으로 도 8의 단계 S83에서 기술된 DCT 영역 및 화소영역에서의 방법들이 적용될 수 있다. 그러나, 도 10의 단계 S122에 기술된 DCT 영역에서 블록 서명 방법은 이 단계를 위해 IDCT는 전혀 필요 없고 도 10의 전체 알고리즘이 IDCT없이 수행될 수 있다는 잇점을 제공한다. 그러나, P-매크로블록 및 B-매크로블록에 대해서는 압축영역에서든 화소영역에서든 움직임 보상이 필요하다.

도 10의 단계 S123에서, 예측된 움직임 벡터, 계산된 기준 블록위치 및 ref 내 탐색영역은 도 8의 단계 S84에서 기술된 바와 동일한 방법을 사용하여 계산된다.

도 10의 단계 S124에서, ref 내 탐색영역의 P-매크로블록 및 B-매크로블록에 대해, 움직임 보상(MC)은 DCT 압축영역에서 계산되어야 한다. 몇몇 양호한 실시예 중 하나는 “Shih-Fu Chang, David G. Messerschmidt: Manipulation and Compositing of MC-DCT Compressed Video: IEEE Journal on Selected Areas in Communication, vol. 13, no. 1, 1995" 및 “Yoshiaki Shibata, Zhigang Chen, Roy H. Campell: A fast degradation-free algorithm for DCT block extraction in the compressed domain: ICASSP 99, 1999”에 의한 개정판에서 기술된 알고리즘들이다.

도 10의 단계 S125에서, 움직임 추정은 예측된 움직임 벡터를 중심으로 ref 내 모든 탐색위치들에 대해 DCT 영역에서 계산된다. 최상의 탐색위치에 대해서, 움직임 벡터만이 아니라 거리 메트릭의 값이 저장된다. DCT-영역에서 움직임 추정의 계산을 위한 양호한 실시예는 예를 들면 미국특허 “US 5,790,686: 8/1998: Ut-va Koc, K. J. Ray Liu: DCT-based motion estimation method: 382/107”에 열거되어 있다.

도 10의 단계 S126에서, ref 내 최상의 움직임 벡터 위치에 대한 블록 서명이 계산된다. 기본적으로 도 10의 단계 S122에 기술된 DCT 영역 및 화소영역에서의 방법들이 적용될 수 있다. 그러나, 도 8의 단계 S83에 기술된 DCT 영역에서의 블록 서명 방법은 이 단계를 위해 IDCT는 전혀 필요 없고 도 10에 도시한 전체 알고리즘이 IDCT를 전혀 필요로 함이 없이 수행될 수 있다는 잇점을 제공한다. 화소영역에서 블록 서명 방법은 단지 두 개의 IDCT만을 요하며, 그 하나는 “num”현재블록 각각에 대한 것이고 다른 하나는 계산적으로 여전히 매우 적은 압축영역 움직임 추정의 최상의 변위된 블록에 대한 것이다.

도 10의 단계 S127에서, 위치, 블록서명, 움직임 벡터, ref 내 최상의 블록에 대한 거리 기준은 블록목록에 저장된다. 거리 계산의 결과가 응용에 의해 주어진 임계치 이상이고 마지막 “num”블록이 이미 처리되고 있는 경우, 하나 이상의 다음의 방법, 즉 블록 관련 목록으로부터 취해진 “num”블록들을 증가하거나, 움직임 추정부의 탐색영역을 증가시키는 것을 적용한다. 이 방법에 의해서 압축된 비디오의 상이한 콘텐트물 및 코딩 구조에도 적용할 수 있게 된다.

도 10의 단계 S128과 단계 S129에서 지금까지 어떠한 움직임 추정도 수행되지 않은 결정된 “num”블록 위치 중 다음 것을 액세스하여, 단계 S123, S124, S125, S126, S127을 포함하는 루프를 다시 수행한다.

제 3의 양호한 실시예를 상세히 기술한다.

본 발명의 다른 양호한 실시예는 비디오 요약이다. 이것은 특징점(이들의 특징점 서명에 의해 구별될 수 있는)들의 라이프-타임 목록 및 프레임 내 이들의 연관된 위치, 이들의 움직임 벡터, 이들의 거리(움직임 벡터 계산의) 및 이들의 서명을 유지함으로써 실현된다. 매우 많은 새로운 특징점이 새로운 프레임 내에 나타나는 경우, 장면변경일 높인 확률이 있다. 마찬가지로, 매우 많은 특징점이 한 프레임에서 다른 프레임으로 사라질 때, 이것 또한 장면변경일 확률이 높다. 장면에 대한 이러한 프레임에서 키프레임이 선택되고, 이 경우 매우 많은 특징점이 존재하며 전체 움직임양은 적다.

도 12는 비디오 요약을 위한 특징점 라이프 타임 목록의 데이터 구조의 양호한 실시예를 도시한 것이다. 131, 138, 141로 나타낸 바와 같이, 고유하게 표시하기 위해 feature_point_id가 부여된 매 특징점마다 연계목록이 존재한다. feature_point_id 데이터구조는 하나 혹은 몇 개의 특징점을 객체에 연관시키는 object_id 필드를 포함한다. 이들 feature_point_id는 연계 목록으로서 포인터 136을 사용하여 연결된다. 모든 feature_point_id는 비디오 스트림 내 각각의 특징점의 시각의 다른 목록을 가리키며(예를 들면 132), 각각의 엔트리는 특정 시각(예를 들면, location_0 = (x, y), time)에서의 이 특징점(예를 들면 134, 135, 137)의 공간-시간적 위치에 대한 데이터와, 특정 시각에서의 이 특징점이 다음 시각에서 동일한 특징점으로 움직임-벡터에 대한 데이터(예를 들면 MV_0 = (MV_x, MV_y))와, 움직임 벡터의 신뢰도의 판정을 위한 특징점 움직임 벡터 계산의 거리값(distance_0)과, 동일한 feature_point_id 하에 맞는 특징점들을 연관시키는 특징점의 서명(signature_0)을 포함한다. 일부 구현에 있어서, 이들 데이터 필드 몇몇은 선택적일 수 있고 혹은 다른 것들이 필요할 수도 있음에 유의한다.

특징점의 시각은 연계 목록에 의해 연결되며, 여기서 마지막 엔트리를 제 1 엔트리에 연계시키는 것은 예를 들면 객체(많은 특징점을 포함하는) 혹은 특정의 움직임 패턴이 나타나는 비디오의 일부분을 반복 재생하는 것과 같은 기능성을 가능하게 한다. 이들 연계된 목록에 있어서는 feature_point_id들이 장면 내에서 사라진 이후의 이들의 시간에 의거하여 이들 featrue_point_id들을 제거하는 메카니즘이 존재한다. 또한 서명 공간에서 특징점들의 거리를 이용하는 새로운 feature_point_id들을 부가시키는 메카니즘이 존재한다. 서명 공간에서 이 거리는 이것이 새로운 특징점인지 아니면 기존의 것에 연관될 것인지 판정한다. 새로운 feature_point_id를 현존의 객체에 부가시키는 다른 메카니즘은 이 객체로부터 이들의 공간적인 거리를 포함한다. 하나의 feature_point_id의 특징 필드에 포함된 움직임 벡터로부터, 이 기술에 숙련된 자가 아는 바와 같이(예를 들면 칼만필터 혹은 루카스/카나데/토마시 특징 추적, 그러나 이것으로 한정되는 것은 아님), 이 특징점에 대한 시간에 따른 움직임 궤적이 구성될 수 있다.

하나의 object_id로 그룹을 이룬(그룹형성은 예를 들면 서명 및 이들의 위치의 공간적인 거리에 의거하여 행해질 수 있음) 몇몇의 feature_point_id들의 움직임 벡터를 사용해서, 이 기술에 숙련된 자가 아는 바와 같이, feature_point_id들에 의해 식별된 객체의 파라메트릭 움직임을 계산할 수 있다. 객체로서 사각형상의 배경 프레임을 선택한 경우, 이 연계 목록의 방법을 카메라 움직임을 표현하는데도 사용할 수 있는데, 이에 대해서는 다음 양호한 실시예에서 보다 상세히 설명한다.

제 4의 양호한 실시예를 상세히 기술한다.

도 13은 카메라의 가능한 움직임 방향을 도시한 것으로, 이에는 줌, 3 방향의 회전 및 3 방향의 병진이 있다. 본 발명의 양호한 실시예 중 하나는 압축영역에서 비디오 시퀀스에 대해 줌, 팬, 틸트 등과 같은 카메라 움직임을 계산하기 위해서 도 12의 데이터 구조에 포함된 추출된 움직임 메타데이터를 사용하는 것이다.카메라 움직임의 고속이고 효율적인 계산은 예를 들면 효율적인 비디오 브라우징(키프레임 및 이들의 연관된 카메라 움직임을 보여줌), 비디오 편집(예를 들면, 줌 아웃이 끝난 프레임에서 비디오를 컷하는 것), 한 압축된 표현(예를 들면, MPEG-2)에서 또다른 압축된 표현(예를 들면, MPEG-4)으로 트랜스코딩을 용이하게 하는데 유용하다.

도 6, 62에서 얻어진 특징점 움직임 벡터에 의거하여 카메라 움직임 파라미터를 추출하기 위해서, 양호한 실시예 중 하나는 카메라 움직임 모델(M. V. Srinivasan, S. Venkatesh, R. Hosi: Qualitative estimation of camera motion parameters from video sequence: Pattern recognition, Elsevier, vol. 30, no. 4, 1997, pp 593-606)를 이의 카메라 움직임 파라미터 추출방법과 함께 사용하는 것이다.

이 알고리즘에서 각각의 움직임 벡터(u_x, u_y)에 대해 상기 식에 의해 기술된 합성 움직임 벡터 필드는 r_x, r_y, r_z및 r_zoom에 대한 파라미터에 의거하여 계산되며, 여기서 X 및 Y는 이미지 평면에서 화소 좌표이다. 이어서 계산된 합성 벡터 필드에서 실제 벡터 필드(도 6의 단계 62에 의해 제공된)가 감해지고 남은 움직임 벡터 필드의 평행성이 평가된다. 잔류 움직임 벡터 필드는 카메라 움직임의 병진성분을 나타낸다.t _x,r _y,r _z, 및r _zoom에 대한 최적의 파라미터는 잔류 움직임 벡터 필드의모든 움직임 벡터가 평행일 때 발견된다. 알고리즘은 잔류(병진의) 움직임 벡터의 최상의 근사 평행성이 얻어질 때까지 파라미터r _x,r _y,r _z, 및r _zoom을 가변시킴으로써 4-차원 심플렉스 최소화를 수행한다. 그러나, 이 기술에 숙련된 자에게 알려진, 움직임 벡터로부터 카메라 혹은 객체 움직임에 대한 파라미터 움직임 모델을 결정하는 다른 방법 또한 가능하다.

도 14는 비디오 브라우징부를 그래픽으로 표현한 예를 개략적으로 도시한 것이다. 이 비디오 브라우징부(혹은 비디오 브라우징 사용자 인터페이스)는 움직임 정보(즉, 메타데이터), 특히 계층적 분해와 쇼트(shot) 및 키프레임 레벨로 비디오 요약을 할 수 있게 하는 카메라 움직임 메타데이터를 채용한다. 쇼트는 여기서는 시공간에서 단일의 연속한 행동을 하나의 카메라로 캡쳐한 일련의 비디오 프레임으로서 정의된다. 본 발명은 일반적이며 이 비디오 브라우저는 카메라 움직임으로 제약되는 것이 아니라 파라메트릭 객체 움직임과 같은 움직임 및 장면에 관계된 일반적인 메타데이터를 커버한다. 본 발명은 사각형상의 프레임으로 제약되지 않으며, 이들의 움직임 메타데이터에 연관된 임의의 형상의 객체의 브라우징에도 적용될 수 있다. 다음의 예에서, 비디오 브라우징부를 일반성을 잃지 않고 카메라 움직임과 사각형상 객체의 경우에 대해서 기술한다. 비디오 브라우징에 있어서 계층적 카메라 움직임 상태 천이 그래프 모델이 적용된다.

유사한 움직임 메타데이터의 세그먼트를 먼저 이 기술에 숙련된 자에게 공지된 그라디언트 및 클러스터링 기술로 확인한다. 이들로부터 수집된 키프레임을 도출하고 이를 사용하여 각각의 비디오 세그먼트를 나타낸다. 각각의 세그먼트로부터 키 프레임들 간 카메라 움직임 천이 호(arc)는 브라우저 내에서 시각적으로 표현되는 카메라 움직임 파라미터에 의해 기술된다. 사용자가 작은 카메라 움직임과 큰 카메라 움직임을 시각적으로 구별하거나, 느린 카메라 줌과 고속의 카메라 줌을 구별할 수 있게 하기 위해서 비디오 브라우저에 카메라 움직임량이 표시된다.

도 14는 예를 들면 3 개의 움직임 메타데이터 상태에서 카메라 팬, 카메라 줌 및 카메라 회전을 도시한 것이다.

도 14의 단계 151는 x 방향으로 0.5의 일정한 카메라 팬의 카메라 팬 상태를 기술한 것이다. 화살표는 카메라 팬 움직임의 방향과 이의 길이로서 카메라 움직임의 상대 속도를 나타낸다. 카메라 팬에 대한 바람직한 그래픽 표현 중 하나는 카메라 팬을 포함하는 연속적인 프레임들을 모자이크로 표현하는 것이다. 모자이크 표현의 생성은 이 기술에 숙련된 자에게는 공지된 것이다. “M. Irani, P. Anandan, J. Bergen, R. Kumar, S. Hsu: Efficient representations of video sequennces and their applications: Signal Processing, Image Communications, vol. 8, 1996”.

도 14의 단계 152는 상태천이 그래프에서 카메라 줌 상태의 그래픽 표현의 양호한 실시예를 나타낸 것으로, 시간 “t0”에서 2의 카메라 줌이 발생하고 있다. 카메라 줌 표현에서 섬네일(즉, 키프레임)은 카메라 줌의 중심을 나타낸다. 카메라 줌 윈도우 내 화살표의 길이는 상대적인 카메라 줌 속도를 나타낸다. 중심으로의 화살표의 방향은 줌을 나타낸다. 중심 밖으로 화살표의 방향은 줌 아웃을 나타낸다.

도 14의 단계 153은 카메라 회전의 그래픽 표현의 바람직한 실시에를 나타낸 것으로, 아이콘 내 섬네일은 카메라 회전의 초점의 대표적인 프레임을 나타낸다. 화살표는 회전방향을 나타내며 화살표의 길이는 카메라 회전의 상대적인 속도를 나타낸다.

각각의 카메라 움직임 아이콘은 특정의 카메라 움직임 상태를 나타내며 카메라 움직임 아이콘들 간 화살표는 특정의 카메라 움직임 상태들 간 카메라 움직임 상태천이를 나타낸다. 천이는 예를 들면, 그라디언트 기술에 의해서 혹은 연속한 프레임들 간 각 유형의 카메라 움직임의 양에 임계치를 적용함으로써 간단하게 발견될 수 있다. 그러나, 보다 향상된 알고리즘은 이 기술에 숙련된 자에게 알려진 바와 같이 적용될 수 있다. 줌의 센터는 모든 (인위적으로 늘린) 움직임 벡터의 교차점에 의해 결정된다.

도 15는 도 14에 나타낸 비디오 브라우징부를 확대하여 도시한 것이다. 바람직한 기능성 중 하나는 보다 상세히 표현된 것을 보여주게 되는 3 상태 아이콘(161, 163, 164) 중 하나에 BROWSE 명령(양호한 실시예는 마우스로 클릭하거나, 기능키 혹은 터치펜을 누른다)이다. 팬 상태 윈도우(161)에 BROWSE 명령이 주어졌을 때, 카메라 팬의 키프레임 표현이 162로 도시된다. 줌 상태 윈도우(163)에 BROWSE 명령이 주어졌을 때, 카메라 줌의 키 프레임 표현이 166으로 도시된다. 166에서, 키프레임들(168)의 일 부분은 시각적으로 표시가 되어 있다(양호한 실시예는 중심영역의 줌 센터 주위에 상이한 색을 가진 사각형상의 프레임이 될 것이다). 이러한 색으로 표시된 프레임에 명령(양호한 실시예에서는 마우스 혹은 터치펜으로 클림함)이 주어졌을 때, 동일 움직임 메타데이터의 다음 낮은 계층의 레벨을 그래픽 표현으로 167로 나타내었다. BROWSE 명령이 회전상태 윈도우(164)에 주어졌을 때, 카메라 팬의 키프레임 표현이 165로 도시된다. 기능성의 다른 양호한 실시예는 3 상태 아이콘(161, 163, 164)에 혹은 키프레임 표현(162, 165, 166, 167)에의 PLAY 명령(양호한 실시예는 마우스로 두 번 클릭하거나 기능 키 혹은 터치펜을 누른다)을 포함하며, 비디오 시퀀스의 일부는 이 특정의 메타데이터(구체적으로 이 예에선 카메라 움직임)를 나타내고 있다. 이에 따라, 이 상태에 속하는 비디오 시퀀스의 일부가 작동하게 된다.

도 16은 비디오 브라우징부의 기능성에 대한 또다른 양호한 실시예를 도시한 것으로, 3 상태 아이콘(171, 173, 174) 중 하나에 혹은 이들의 하위의 키프레임 표현(도 15 참조)에 GRAPH 명령(양호한 실시예는 마우스 버튼, 기능키 혹은 터치펜으로 클릭함)이 주어였을 때 메타데이터의 그래픽 표현(양호한 실시예: 시간/프레임 넘버 축을 따른 카메라 메타데이터)이 도시되어 있다.

상세히 기술된 바와 같이, 본 발명에 따른 비디오/오디오 신호 처리방법은 공급된 비디오/오디오 신호를 처리하도록 된 것이다. 장치는, 비디오/오디오 신호의 압축영역에서 비디오/오디오 신호의 특징을 나타내는 적어도 하나의 압축영역 특징점을 추출하는 단계; 상기 추출단계에 의해 추출된 특징점의 움직임 추정을 수행하는 단계; 및 비디오/오디오 신호를 구성하는 소정 수의 프레임을 통해 움직임 벡터에 연관된 특징점을 추적하는 단계를 포함한다.

이에 따라, 본 발명에 따른 비디오/오디오 신호 처리방법에서, 비디오/오디오 신호의 특징점은 압축영역에서 추출되며, 추출된 특징점의 움직임 평가가 수행되고, 움직임 벡터에 연관된 특징점이 추적되므로, 처리를 위한 시간 혹은 비용의 감소가 실현될 수 있고 효과적으로 처리하는 것을 가능하게 한다.

또한, 본 발명에 따른 비디오/오디오 신호 처리 장치는 공급된 비디오/오디오신호를 처리하도록 된 것이다. 장치는 비디오/오디오 신호의 압축영역에서 비디오/오디오 신호의 특징을 나타내는 적어도 하나의 압축영역 특징점을 추출하는 수단; 상기 추출 수단에 의해 추출된 특징점의 움직임 추정을 수행하는 수단; 및 비디오/오디오 신호를 구성하는 소정 수의 프레임을 통해 움직임 벡터에 연관된 특징점을 추적하는 수단을 포함한다.

이에 따라, 본 발명에 따른 비디오/오디오 처리 장치에서, 비디오/오디오 신호의 특징점이 압축영역에서 압축영역 특징점을 추출하는 수단에 의해 추출되고, 추출된 특징점의 움직임 추정은 특징점의 움직임 추정을 수행하는 수단에 의해 수행되며, 움직임 벡터에 연관된 특징점은 특징점을 추적하는 수단에 의해 추적되므로, 처리를 위한 시간 혹은 비용의 감소가 실현될 수 있고, 효과적으로 처리하는 것을 가능하게 한다.

더욱이, 비디오/오디오 신호처리 방법은 공급된 비디오/오디오 신호를 처리하여 브라우징하도록 된 것이다. 방법은 카메라 움직임 천이 그래프를 계층적으로 형성하는 단계, 상기 그래프 형성 단계는 적어도 하나의 주 카메라 움직임 천이 그래프를 가지며 비디오 시퀀스에 대해 도시된 천이 경로로 다른 카메라 움직임을 표현하는 복수의 노드를 갖는 그래프 레이아웃을 제공하는 단계를 포함하고; 노드에 카메라 움직임 비디오 시퀀스의 키프레임을 나타냄으로서 카메라 움직임 천이 그래프를 통해 브라우징하는 단계; 및 노드에 상기 카메라 움직임의 그래프 표현을 나타냄으로써 카메라 움직임 천이 그래프를 통해 브라우징하는 단계를 포함한다.

이에 따라, 본 발명에 따른 비디오/오디오 신호 처리방법에서, 카메라 움직임 천이 그래프는 계층적으로 형성되고, 노드에서 카메라 움직임 비디오 시퀀스의 키프레임을 나타냄으로써 카메라 움직임 천이 그래프를 통한 브라우징이 실행되고, 노드에서 카메라 움직임의 그래프 표현을 나타냄으로써 카메라 움직임 천이 그래프를 통한 브라우징이 수행되므로, 처리를 위한 시간 혹은 비용의 감소가 실현될 수 있고, 효과적으로 처리하는 것을 가능하게 한다.

더구나, 본 발명에 따른 비디오/오디오 신호처리 장치는 공급된 비디오/오디오 신호를 처리하여 브라우징하도록 된 것이다. 장치는, 카메라 움직임 천이 그래프를 계층적으로 형성하는 수단, 상기 그래프 형성 수단은 적어도 하나의 주 카메라 움직임 천이 그래프를 가지며 비디오 시퀀스에 대해 도시된 천이 경로로 다른 카메라 움직임을 표현하는 복수의 노드를 갖는 그래프 레이아웃을 제공하는 수단을 포함하고; 노드에 카메라 움직임 비디오 시퀀스의 키프레임을 나타냄으로서 카메라 움직임 천이 그래프를 통해 브라우징하는 수단; 및 노드에 상기 카메라 움직임의 그래프 표현을 나타냄으로써 카메라 움직임 천이 그래프를 통해 브라우징하는 수단을 포함한다.

이에 따라, 본 발명에 따른 비디오/오디오 신호 처리 장치에서, 카메라 움직임 천이 그래프는 그래프를 형성하는 수단에 의해 계층적으로 형성되고, 노드에서 카메라 움직임 비디오 시퀀스의 키프레임을 나타냄으로써 카메라 움직임 천이 그래프를 통한 브라우징이 브라우징하는 제 1 수단에 의해 실행되고, 노드에서 카메라 움직임의 그래프 표현을 나타냄으로써 카메라 움직임 천이 그래프를 통한 브라우징이 브라우징하는 제 2 수단에 의해 수행되므로, 처리를 위한 시간 혹은 비용의 감소가 실현될 수 있고, 효과적으로 처리하는 것을 가능하게 한다.

또한, 본 발명에 따른 비디오/오디오 신호 처리 방법은 브라우징을 위해 복합 비디오 선택의 계층적 분해를 추출하도록 된 것이다. 방법은, 비디오를 식별하는 단계; 각각의 비디오 세그먼트를 나타내는 상기 비디오 쇼트(shot)로부터 키 프레임들을 수집하는 단계; 카메라 움직임 혹은 전역 움직임 정보에 따라 상기 수집된 키 프레임들을 분류하는 단계; 및 비디오의 그래픽 표현을 형성하는 단계로서, 상기 그래픽 표현은 상기 분류단계의 결과와, 비디오 쇼트의 각 부분에 연관된 카메라 움직임 정보 및 시간에 의거하며, 상기 그래픽 표현 단계는 노드에 의해 비디오 쇼트의 각각의 카테고리를 나타내는 단계를 포함하는 것인 상기 비디오의 그래픽 표현 단계를 포함한다.

본 발명에 따른 비디오/오디오 신호처리 방법에서, 비디오가 식별되고, 키 프레임이 비디오 쇼트로부터 수집되고, 수집된 키 프레임이 분류되고, 비디오의 그래픽 표현이 형성되므로, 처리를 위한 시간 혹은 비용의 감소가 실현될 수 있고, 효과적으로 처리하는 것을 가능하게 한다.

또한, 본 발명에 따른 비디오/오디오 신호 처리 장치는 브라우징을 위해 복합 비디오 선택의 계층적 분해를 추출하도록 된 것이다. 장치는 비디오를 식별하는 수단; 각각의 비디오 세그먼트를 나타내는 상기 비디오 쇼트(shot)로부터 키 프레임들을 수집하는 수단; 카메라 움직임 혹은 전역 움직임 정보에 따라 상기 수집된 키 프레임들을 분류하는 수단; 및 비디오의 그래픽 표현을 형성하는 수단으로서, 상기 그래픽 표현은 상기 분류단계의 결과와, 비디오 쇼트의 각 부분에 연관된 카메라 움직임 정보 및 시간에 의거하며, 상기 그래픽 표현 수단은 노드에 의해 비디오 쇼트의 각각의 카테고리를 나타내는 수단을 포함하는 것인 상기 비디오의 그래픽 표현 수단을 포함한다.

이에 따라, 본 발명에 따른 비디오/오디오 신호처리 장치에서, 비디오가 비디오를 식별하는 수단에 의해 식별되고, 키 프레임이 키 프레임을 수집하는 수단에 의해 비디오 쇼트로부터 수집되고, 수집된 키 프레임이 분류하는 수단에 의해 분류되고, 비디오의 그래픽 표현이 비디오의 그래프 표현을 형성하는 수단에 의해 형성되므로, 처리를 위한 시간 혹은 비용의 감소가 실현될 수 있고, 효과적으로 처리하는 것을 가능하게 한다.

더구나, 본 발명에 따른 비디오/오디오 신호처리 방법은 공급된 비디오/오디오 신호를 처리하도록 된 것이다. 방법은 상기 비디오/오디오 신호의 압축영역에서 상기 비디오/오디오 신호의 특징을 나타내는 적어도 한 압축영역 특징점을 추출하는 단계를 포함한다.

본 발명에 따른 비디오/오디오 신호 처리방법에서, 비디오/오디오 신호의 특징점은 압축영역에서 추출되므로, 처리를 위한 시간 혹은 비용의 감소가 실현될 수있고, 효과적으로 처리하는 것을 가능하게 한다.

또한, 본 발명에 따른 비디오/오디오 신호처리 장치는 공급된 비디오/오디오 신호를 처리하도록 된 것이다. 장치는 상기 비디오/오디오 신호의 압축영역에서 상기 비디오/오디오 신호의 특징을 나타내는 적어도 한 압축영역 특징점을 추출하는 수단을 포함한다.

따라서, 본 발명에 따른 비디오/오디오 신호 처리 장치에서, 비디오/오디오 신호의 특징점은 압축영역 특징점을 추출하는 수단에 의해 압축영역에서 추출되므로, 처리를 위한 시간 혹은 비용의 감소가 실현될 수 있고, 효과적으로 처리하는 것을 가능하게 한다.

이에 따라, 본 발명에 따른 비디오/오디오 신호 처리방법에서, 추출된 특징점의 움직임 추정이 수행되므로, 처리를 위한 시간 혹은 비용의 감소가 실현될 수 있고, 효과적으로 처리하는 것을 가능하게 한다.

이에 따라, 본 발명에 따른 비디오/오디오 신호 처리 장치에서, 추출된 특징점의 움직임 추정은 움직임 추정을 수행하는 수단에 의해 수행되므로, 처리를 위한 시간 혹은 비용의 감소가 실현될 수 있고, 효과적으로 처리하는 것을 가능하게 한다.

Claims

공급된 비디오/오디오 신호들을 처리하는 비디오/오디오 신호 처리 방법에 있어서,

상기 비디오/오디오 신호들의 압축된 영역에서 상기 비디오/오디오 신호들의 특징들을 나타내는 적어도 하나의 압축된 영역 특징점을 추출하는 단계;

상기 추출단계에 의해 추출된 특징점들의 움직임 추정을 수행하는 단계; 및

상기 비디오/오디오 신호들을 구성하는 소정 수의 프레임들을 통해 움직임 벡터에 연관된 특징점들을 추적하는 단계를 포함하는 비디오/오디오 신호 처리방법.
제 1항에 있어서, 상기 추출단계는 상기 움직임 추정단계에 의거하여 다음 특징점으로서 선택된 특징점의 후보로서 높은 관계도를 갖는 블록을 결정하기 위해서 현재 프레임 내 모든 블록들의 블록 관계도 메트릭을 계산하는 단계를 포함하는 비디오/오디오 신호 처리방법.
제 2항에 있어서, 상기 추출단계는 상기 메트릭 계산단계 의해 선택된 높은 관계도의 블록들에 대해서만 상기 압축영역을 변환하는 역변환을 수행하고 예측 부호화된 매크로블록 혹은 양방향 예측 부호화된 매크로블록에 대한 움직임 보상을 수행하는 단계를 포함하는 비디오/오디오 신호 처리방법.
제 3항에 있어서, 상기 역변환은 역 이산 코사인 변환인 비디오/오디오 신호 처리방법.
제 2항에 있어서, 상기 현재 프레임은 임의의 형상의 비디오 객체 플레인을 포함하는 비디오/오디오 신호 처리방법.
제 4항에 있어서, 블록 내 이산 코사인 변환 계수들의 일부 혹은 전부를 사용하여 이산 코사인 변환 영역에서 선택된 높은 관계도의 현재 블록에 대해 블록 서명을 계산하여 추출하는 단계를 포함하는 비디오/오디오 신호 처리방법.
제 4항에 있어서, 블록 내 개별적으로 가중치가 부여된 이산 코사인 변환 계수들의 일부 혹은 전부를 사용하여 이산 코사인 변환 영역에서 선택된 높은 관계도의 현재 블록에 대해 블록 서명을 계산하여 추출하는 단계를 포함하는 비디오/오디오 신호 처리방법.
제 4항에 있어서, 화소영역에서 선택된 높은 관계도의 현재 블록에 대해 블록서명을 계산하는 비디오/오디오 신호 처리방법.
제 1항에 있어서, 상기 움직임 추정단계는 추정된 움직임 벡터, 기준블록의위치 및 기준 프레임 내 탐색영역을 계산하는 단계를 포함하는 비디오/오디오 신호 처리방법.
제 9항에 있어서, 상기 압축된 영역을 변환하는 역변환을 기준 프레임의 탐색영역 내 인트라-매크로블록 내 모든 블록들에 적용하는 것을 포함하는 비디오/오디오 신호 처리방법.
제 10항에 있어서, 상기 역변환은 역 이산 코사인 변환인 비디오/오디오 신호 처리방법.
제 11항에 있어서, 예측 부호화된 매크로블록 내 혹은 기준 프레임의 탐색영역 내 양방향 예측 부호화된 매크로블록 내 모든 블록들에 관해 역 IDCT 및 움직임 보상을 수행하는 것을 포함하는 비디오/오디오 신호 처리방법.
제 9항에 있어서, 상기 움직임 보상단계 및 상기 특징점 추적단계는,

절대 에러의 합, 평균 제곱 에러 혹은 어떤 다른 거리 기준에 대해서 기준블록까지 현재 블록의 가장 적은 거리를 나타내는 최상의 움직임 벡터를 발견하기 위해서 예측된 움직임 벡터를 주위의 기준 프레임 내 모든 탐색 위치들에 대해 화소영역에서 움직임 예측 혹은 특징점 추적을 수행하는 단계를 포함하는 비디오/오디오 신호 처리방법.
제 13항에 있어서, 상기 움직임 추정 블록은 가변 블록 크기들로 움직임 추정을 수행하는 비디오/오디오 신호 처리방법.
제 13항에 있어서, 특징점 위치, 블록서명, 움직임 벡터 및 기준 프레임 내 최상의 블록위치에 대한 블록거리를 특징점 목록에 저장하는 것을 포함하는 비디오/오디오 신호 처리방법.
제 9항에 있어서, 상기 움직임 추정블록 및 상기 특징점 추적단계는,

절대 에러의 합, 평균 제곱 에러 혹은 어떤 다른 거리 기준에 대해서 기준블록까지 현재 블록의 가장 적은 거리를 나타내는 최상의 움직임 벡터를 발견하기 위해서 예측된 움직임 벡터를 주위의 기준 프레임 내 모든 탐색 위치들에 대해 화소영역에서 움직임 예측 혹은 특징점 추적을 수행하는 단계; 및

상기 최상의 움직임 벡터 위치를 갖는 블록의 DCT 영역에서 블록서명을 계산하는 단계를 포함하는 비디오/오디오 신호 처리방법.
제 16항에 있어서, 특징점 위치, 블록서명, 움직임 벡터 및 기준 프레임 내 최상의 블록위치에 대한 블록거리를 특징점 목록으로서 저장하는 것을 포함하는 비디오/오디오 신호 처리방법.
제 1항에 있어서, 상기 움직임 벡터 및 모든 관계된 현재 블록들에 대한 블록 서명이 결정되는 비디오/오디오 신호 처리방법.
제 4항에 있어서, 상기 블록 관계도 메트릭 계산단계는 현재의 매크로블록이 인트라 유형의 매크로블록이고 기준 매크로블록이 예측 부호화된 매크로블록 혹은 양방향 예측 부호화된 매크로블록일 때 블록 관계도 메트릭을 계산하며, 상기 블록 관계도 메트릭은 움직임 벡터 및 기준 매크로블록을 고려하여 관련된 블록에 대한 예측 에러 에너지에 의거하여 발견된 관계도 측정치를 사용하여 계산된 것인 비디오/오디오 신호 처리방법.
제 4항에 있어서, 현재 매크로블록이 예측 부호화된 매크로블록 혹은 양방향 예측 부호화된 매크로블록인 경우에 블록 관계도 메트릭을 제로로 설정하는 것과;

상기 기준 프레임으로부터 이미 추적된 특징점들의 목록을 갱신하는 것을 포함하는 비디오/오디오 신호 처리방법.
제 4항에 있어서, 현재의 매크로블록이 인트라 부호화된 매크로블록이고 기준 매크로블록 또한 인트라 부호화된 매크로블록인 경우에 블록 관계도 메트릭을 계산하는 것을 포함하며, 상기 블록 관계도 메트릭은 현재 매크로블록 내 블록으로부터 DCT 활동치와 기준 매크로블록을 고려하여 발견된 DCT 활동치에 의거하여 발견된 관계도 측정치를 사용하여 계산된 것인 비디오/오디오 신호 처리방법.
제 1항에 있어서, 상기 비디오/오디오 신호들은 MPEG1, MPEG2, MPEG4, DV, MJPEG, ITU-T 권고안 H.261 혹은 H.263에 따라 압축 부호화되는 비디오/오디오 신호 처리방법.
제 1항에 있어서, 상기 추출된 특징점들은 객체 움직임 추정에 대한 이들 특징점들에 연관된 메타데이터와 함께 사용되는 비디오/오디오 신호 처리방법.
제 1항에 있어서, 상기 추출된 특징점들은 카메라 움직임을 추정하기 위해 이들 특징점들에 연관된 메타데이터와 함께 사용되는 비디오/오디오 신호 처리방법.
제 1항에 있어서, 상기 추출된 특징점들은 비디오에 대한 움직임 활동치 모델을 계산하기 위해 이들 특징점들에 연관된 메타데이터와 함께 사용되는 비디오/오디오 신호 처리방법.
제 21항에 있어서, 상기 추정된 카메라 움직임은 하나의 압축된 비디오 표현을 다른 압축된 비디오 표면으로 이들 간 트랜스코딩 처리를 용이하게 하는데 사용되는 비디오/오디오 신호 처리방법.
공급된 비디오/오디오 신호들을 처리하는 비디오/오디오 신호 처리 장치에 있어서,

상기 비디오/오디오 신호들의 압축된 영역에서 상기 비디오/오디오 신호들의 특징들을 나타내는 적어도 하나의 압축된 영역 특징점을 추출하는 수단;

상기 추출단계에 의해 추출된 특징점들의 움직임 추정을 수행하는 수단; 및

상기 비디오/오디오 신호들을 구성하는 소정 수의 프레임들을 통해 움직임 벡터에 연관된 특징점들을 추적하는 수단을 포함하는 비디오/오디오 신호 처리 장치.
제 27항에 있어서, 상기 추출수단은 상기 움직임 추정수단에 의거하여 다음 특징점으로서 선택된 특징점의 후보로서 높은 관계도를 갖는 블록을 결정하기 위해서 현재 프레임 내 모든 블록들의 블록 관계도 메트릭을 계산하는 수단을 포함하는 비디오/오디오 신호 처리 장치.
제 28항에 있어서, 상기 추출수단은 상기 메트릭 계산수단에 의해 선택된 높은 관계도의 블록들에 대해서만 상기 압축된 영역을 변환하는 역변환을 수행하고 예측 부호화된 매크로블록 혹은 양방향 예측 부호화된 매크로블록에 대한 움직임 보상을 수행하는 수단을 포함하는 비디오/오디오 신호 처리 장치.
제 29항에 있어서, 상기 역변환은 역 이산 코사인 변환인 비디오/오디오 신호 처리 장치.
제 28항에 있어서, 상기 현재 프레임은 임의의 형상의 비디오 객체 플레인을 포함하는 비디오/오디오 신호 처리 장치.
제 30항에 있어서, 상기 추출수단은 블록 내 이산 코사인 변환 계수들의 일부 혹은 전부를 사용하여 이산 코사인 변환 영역에서 선택된 높은 관계도의 현재 블록에 대해 블록 서명을 계산하여 추출하는 수단을 포함하는 비디오/오디오 신호 처리 장치.
제 30항에 있어서, 상기 추출수단은 블록 내 개별적으로 가중치가 부여된 이산 코사인 변환 계수들의 일부 혹은 전부를 사용하여 이산 코사인 변환 영역에서 선택된 높은 관계도의 현재 블록에 대해 블록 서명을 계산하여 추출하는 수단을 포함하는 비디오/오디오 신호 처리 장치.
제 30항에 있어서, 상기 추출수단은 화소영역에서 선택된 높은 관계도의 현재 블록에 대해 블록서명을 계산하는 비디오/오디오 신호 처리 장치.
제 27항에 있어서, 상기 움직임 추정수단은 추정된 움직임 벡터, 기준블록의 위치 및 기준 프레임 내 탐색영역을 계산하는 수단을 포함하는 비디오/오디오 신호처리 장치.
제 35항에 있어서, 상기 움직임 추정수단은 상기 압축된 영역을 변환하는 역변환을 기준 프레임의 탐색영역 내 인트라-매크로블록 내 모든 블록들에 적용하는 비디오/오디오 신호 처리 장치.
제 36항에 있어서, 상기 역변환은 역 이산 코사인 변환인 비디오/오디오 신호 처리 장치.
제 37항에 있어서, 상기 움직임 추정수단은 예측 부호화된 매크로블록 내 혹은 기준 프레임의 탐색영역 내 양방향 예측 부호화된 매크로블록 내 모든 블록들에 관해 역 IDCT 및 움직임 보상을 수행하는 비디오/오디오 신호 처리 장치.
제 35항에 있어서, 상기 움직임 추정수단 및 상기 특징점 추적수단은,

절대 에러의 합, 평균 제곱 에러 혹은 어떤 다른 거리 기준에 대해서 기준블록까지 현재 블록의 가장 적은 거리를 나타내는 최상의 움직임 벡터를 발견하기 위해서 예측된 움직임 벡터를 주위의 기준 프레임 내 모든 탐색 위치들에 대해 화소영역에서 움직임 예측 혹은 특징점 추적을 수행하는 비디오/오디오 신호 처리 장치.
제 39항에 있어서, 상기 움직임 추정 블록은 가변 블록 크기들로 움직임 추정을 수행하는 비디오/오디오 신호 처리 장치.
제 39항에 있어서, 상기 움직임 추정수단 및 상기 특징점 추적수단은, 특징점 위치, 블록서명, 움직임 벡터 및 기준 프레임 내 최상의 블록위치에 대한 블록거리를 특징점 목록으로서 저장하는 비디오/오디오 신호 처리 장치.
제 35항에 있어서, 상기 움직임 추정블록 및 상기 특징점 추적수단은,

절대 에러의 합, 평균 제곱 에러 혹은 어떤 다른 거리 기준에 대해서 기준블록까지 현재 블록의 가장 적은 거리를 나타내는 최상의 움직임 벡터를 발견하기 위해서 예측된 움직임 벡터를 주위의 기준 프레임 내 모든 탐색 위치들에 대해 화소영역에서 움직임 예측 혹은 특징점 추적을 수행하는 수단, 및 성기 최상의 움직임 벡터 위치를 갖는 블록의 DCT 영역에서 블록서명을 계산하는 수단을 포함하는 비디오/오디오 신호 처리 장치.
제 42항에 있어서, 상기 움직임 추정블록 및 상기 특징점 추적수단은, 특징점 위치, 블록서명, 움직임 벡터 및 기준 프레임 내 최상의 블록위치에 대한 블록거리를 특징점 목록으로서 저장하는 비디오/오디오 신호 처리 장치.
제 27항에 있어서, 상기 움직임 벡터 및 모든 관계된 현재 블록들에 대한 블록 서명이 결정되는 비디오/오디오 신호 처리 장치.
제 30항에 있어서, 상기 블록 관계도 메트릭 계산수단은 현재의 매크로블록이 인트라 유형의 매크로블록이고 기준 매크로블록이 예측 부호화된 매크로블록 혹은 양방향 예측 부호화된 매크로블록일 때 블록 관계도 메트릭을 계산하며, 상기 블록 관계도 메트릭은 움직임 벡터 및 기준 매크로블록을 고려하여 관련된 블록에 대한 예측 에러 에너지에 의거하여 발견된 관계도 측정치를 사용하여 계산된 것인 비디오/오디오 신호 처리 장치.
제 30항에 있어서, 상기 추출수단은 현재 매크로블록이 예측 부호화된 매크로블록 혹은 양방향 예측 부호화된 매크로블록인 경우에 블록 관계도 메트릭을 제로로 설정하고, 상기 기준 프레임으로부터 이미 추적된 특징점의 목록을 갱신하는 비디오/오디오 신호 처리 장치.
제 30항에 있어서, 상기 추출수단은 현재의 매크로블록이 인트라 부호화된 매크로블록이고 기준 매크로블록 또한 인트라 부호화된 매크로블록인 경우에 블록 관계도 메트릭을 계산하며, 상기 블록 관계도 메트릭은 현재 매크로블록 내 블록으로부터 DCT 활동치와 기준 매크로블록을 고려하여 발견된 DCT 활동치에 의거하여 발견된 관계도 측정치를 사용하여 계산되는 것인 비디오/오디오 신호 처리 장치.
제 27항에 있어서, 상기 비디오/오디오 신호들은 MPEG1, MPEG2, MPEG4, DV, MJPEG, ITU-T 권고안 H.261 혹은 H.263에 따라 압축 부호화되는 비디오/오디오 신호 처리방법.
제 27항에 있어서, 상기 추출된 특징점들은 객체 움직임 추정에 대한 이들 특징점들에 연관된 메타데이터와 함께 사용되는 비디오/오디오 신호 처리 장치.
제 27항에 있어서, 상기 추출된 특징점들은 카메라 움직임을 추정하기 위해 이들 특징점들에 연관된 메타데이터와 함께 사용되는 비디오/오디오 신호 처리 장치.
제 27항에 있어서, 상기 추출된 특징점들은 비디오에 대한 움직임 활동치 모델을 계산하기 위해 이들 특징점들에 연관된 메타데이터와 함께 사용되는 비디오/오디오 신호 처리 장치.
제 50항에 있어서, 상기 추정된 카메라 움직임은 하나의 압축된 비디오 표현을 다른 압축된 비디오 표면으로 이들 간 트랜스코딩 처리를 용이하게 하는데 사용되는 비디오/오디오 신호 처리 장치.
공급된 비디오/오디오 신호들을 처리하여 브라우징하는 방법에 있어서,

카메라 움직임 천이 그래프를 계층적으로 형성하는 단계, 상기 그래프 형성 단계는 적어도 하나의 주 카메라 움직임 천이 그래프를 가지며 비디오 시퀀스에 대해 도시된 천이 경로로 다른 카메라 움직임을 표현하는 복수의 노드들을 갖는 그래프 레이아웃을 제공하는 단계를 포함하고;

노드들에 카메라 움직임 비디오 시퀀스의 키프레임을 나타냄으로서 카메라 움직임 천이 그래프를 통해 브라우징하는 단계; 및

노드들에 상기 카메라 움직임의 그래프 표현을 나타냄으로써 카메라 움직임 천이 그래프를 통해 브라우징하는 단계를 포함하는 비디오/오디오 신호 처리 및 브라우징 방법.
공급된 비디오/오디오 신호들을 처리하여 브라우징하는 장치에 있어서,

카메라 움직임 천이 그래프를 계층적으로 형성하는 수단, 상기 그래프 형성 수단은 적어도 하나의 주 카메라 움직임 천이 그래프를 가지며 비디오 시퀀스에 대해 도시된 천이 경로로 다른 카메라 움직임을 표현하는 복수의 노드들을 갖는 그래프 레이아웃을 제공하는 수단을 포함하고;

노드들에 카메라 움직임 비디오 시퀀스의 키프레임을 나타냄으로서 카메라 움직임 천이 그래프를 통해 브라우징하는 수단; 및

노드들에 상기 카메라 움직임의 그래프 표현을 나타냄으로써 카메라 움직임 천이 그래프를 통해 브라우징하는 수단을 포함하는 비디오/오디오 신호 처리 및 브라우징 장치.
브라우징을 위해 복합 비디오 선택의 계층적 분해를 추출하는 방법에 있어서,

비디오를 식별하는 단계;

각각의 비디오 세그먼트를 나타내는 상기 비디오 쇼트(shot)들로부터 키 프레임들을 수집하는 단계;

카메라 움직임 혹은 전역 움직임 정보에 따라 상기 수집된 키 프레임들을 분류하는 단계; 및

비디오의 그래픽 표현을 형성하는 단계로서, 상기 그래픽 표현은 상기 분류단계의 결과와, 비디오 쇼트의 각 부분에 연관된 카메라 움직임 정보 및 시간에 의거하며, 상기 그래픽 표현 단계는 노드에 의해 비디오 쇼트의 각각의 카테고리를 나타내는 단계를 포함하는 상기 비디오의 그래픽 표현 단계를 포함하는 복합 비디오 선택의 계층적 분해를 추출하는 방법.
브라우징을 위해 복합 비디오 선택의 계층적 분해를 추출하는 장치에 있어서,

비디오를 식별하는 수단;

각각의 비디오 세그먼트를 나타내는 상기 비디오 쇼트(shot)들로부터 키 프레임들을 수집하는 수단;

카메라 움직임 혹은 전역 움직임 정보에 따라 상기 수집된 키 프레임들을 분류하는 수단; 및

비디오의 그래픽 표현을 형성하는 수단으로서, 상기 그래픽 표현은 상기 분류단계의 결과와, 비디오 쇼트의 각 부분에 연관된 카메라 움직임 정보 및 시간에 의거하며, 상기 그래픽 표현 수단은 노드에 의해 비디오 쇼트의 각각의 카테고리를 나타내는 수단을 포함하는 상기 비디오의 그래픽 표현 수단을 포함하는 복합 비디오 선택의 계층적 분해를 추출하는 장치.
공급된 비디오/오디오 신호들을 처리하는 비디오/오디오 신호 처리방법에 있어서,

상기 비디오/오디오 신호들의 압축된 영역에서 상기 비디오/오디오 신호들의 특징들을 나타내는 적어도 하나의 압축된 영역 특징점을 추출하는 단계를 포함하는 비디오/오디오 신호 처리방법.
제 57항에 있어서, 상기 추출단계는 상기 움직임 추정단계에 의거하여 다음 특징점으로서 선택된 특징점의 후보로서 높은 관계도를 갖는 블록을 결정하기 위해서 현재 프레임 내 모든 블록들의 블록 관계도 메트릭을 계산하는 단계를 포함하는 비디오/오디오 신호 처리방법.
제 58항에 있어서, 상기 추출단계는 상기 메트릭 계산단계 의해 선택된 높은 관계도의 블록들에 대해서만 상기 압축된 영역을 변환하는 역변환을 수행하고 예측부호화된 매크로블록 혹은 양방향 예측 부호화된 매크로블록에 대한 움직임 보상을 수행하는 단계를 포함하는 비디오/오디오 신호 처리방법.
제 59항에 있어서, 상기 역변환은 역 이산 코사인 변환인 비디오/오디오 신호 처리방법.
제 58항에 있어서, 상기 현재 프레임은 임의의 형상의 비디오 객체 플레인을 포함하는 비디오/오디오 신호 처리방법.
제 60항에 있어서, 블록 내 이산 코사인 변환 계수들의 일부 혹은 전부를 사용하여 이산 코사인 변환 영역에서 선택된 높은 관계도의 현재 블록에 대해 블록 서명을 계산하여 추출하는 단계를 포함하는 비디오/오디오 신호 처리방법.
제 60항에 있어서, 블록 내 개별적으로 가중치가 부여된 이산 코사인 변환 계수들의 일부 혹은 전부를 사용하여 이산 코사인 변환 영역에서 선택된 높은 관계도의 현재 블록에 대해 블록 서명을 계산하여 추출하는 단계를 포함하는 비디오/오디오 신호 처리방법.
제 60항에 있어서, 화소영역에서 선택된 높은 관계도의 현재 블록에 대해 블록서명을 계산하는 비디오/오디오 신호 처리방법.
제 60항에 있어서, 상기 블록 관계도 메트릭 계산단계는 현재의 매크로블록이 인트라 유형의 매크로블록이고 기준 매크로블록이 예측 부호화된 매크로블록 혹은 양방향 예측 부호화된 매크로블록일 때 블록 관계도 메트릭을 계산하며, 상기 블록 관계도 메트릭은 움직임 벡터 및 기준 매크로블록을 고려하여 관련된 블록에 대한 예측 에러 에너지에 의거하여 발견된 관계도 측정치를 사용하여 계산된 것인 비디오/오디오 신호 처리방법.
제 60항에 있어서, 현재 매크로블록이 예측 부호화된 매크로블록 혹은 양방향 예측 부호화된 매크로블록인 경우에 블록 관계도 메트릭을 제로로 설정하는 것과;

상기 기준 프레임으로부터 이미 추적된 특징점들의 목록을 갱신하는 것을 포함하는 비디오/오디오 신호 처리방법.
제 60항에 있어서, 현재의 매크로블록이 인트라 부호화된 매크로블록이고 기준 매크로블록이 인트라 부호화된 매크로블록인 경우에 블록 관계도 메트릭을 계산하는 것을 포함하며, 상기 블록 관계도 메트릭은 현재 매크로블록 내 블록으로부터 DCT 활동치와 기준 매크로블록을 고려하여 발견된 DCT 활동치에 의거하여 발견된 관계도 측정치를 사용하여 계산된 것인 비디오/오디오 신호 처리방법.
제 57항에 있어서, 상기 비디오/오디오 신호들은 MPEG1, MPEG2, MPEG4, DV, MJPEG, ITU-T 권고안 H.261 혹은 H.263에 따라 압축 부호화되는 비디오/오디오 신호 처리방법.
공급된 비디오/오디오 신호들을 처리하는 비디오/오디오 신호 처리 장치에 있어서,

상기 비디오/오디오 신호들의 압축된 영역에서 상기 비디오/오디오 신호들의 특징들을 나타내는 적어도 하나의 압축된 영역 특징점을 추출하는 수단을 포함하는 비디오/오디오 신호 처리 장치.
제 69항에 있어서, 상기 추출수단은 상기 움직임 추정단계에 의거하여 다음 특징점으로서 선택된 특징점의 후보로서 높은 관계도를 갖는 블록을 결정하기 위해서 현재 프레임 내 모든 블록들의 블록 관계도 메트릭을 계산하는 수단을 포함하는 비디오/오디오 신호 처리 장치.
제 70항에 있어서, 상기 추출수단은 상기 메트릭 계산단계 의해 선택된 높은 관계도의 블록들에 대해서만 상기 압축된 영역을 변환하는 역변환을 수행하고 예측 부호화된 매크로블록 혹은 양방향 예측 부호화된 매크로블록에 대한 움직임 보상을 수행하는 수단을 포함하는 비디오/오디오 신호 처리 장치.
제 71항에 있어서, 상기 역변환은 역 이산 코사인 변환인 비디오/오디오 신호 처리 장치.
제 70항에 있어서, 상기 현재 프레임은 임의의 형상의 비디오 객체 플레인을 포함하는 비디오/오디오 신호 처리 장치.
제 72항에 있어서, 블록 내 이산 코사인 변환 계수들의 일부 혹은 전부를 사용하여 이산 코사인 변환 영역에서 선택된 높은 관계도의 현재 블록에 대해 블록 서명을 계산하여 추출하는 수단을 포함하는 비디오/오디오 신호 처리 장치.
제 72항에 있어서, 블록 내 개별적으로 가중치가 부여된 이산 코사인 변환 계수들의 일부 혹은 전부를 사용하여 이산 코사인 변환 영역에서 선택된 높은 관계도의 현재 블록에 대해 블록 서명을 계산하여 추출하는 수단을 포함하는 비디오/오디오 신호 처리 장치.
제 72항에 있어서, 화소영역에서 선택된 높은 관계도의 현재 블록에 대해 블록서명을 계산하는 비디오/오디오 신호 처리 장치.
제 72항에 있어서, 상기 블록 관계도 메트릭 계산수단은 현재의 매크로블록이 인트라 유형의 매크로블록이고 기준 매크로블록이 예측 부호화된 매크로블록 혹은 양방향 예측 부호화된 매크로블록일 때 블록 관계도 메트릭을 계산하며, 상기 블록 관계도 메트릭은 움직임 벡터 및 기준 매크로블록을 고려하여 관련된 블록에 대한 예측 에러 에너지에 의거하여 발견된 관계도 측정치를 사용하여 계산된 것인 비디오/오디오 신호 처리 장치.
제 72항에 있어서, 현재 매크로블록이 예측 부호화된 매크로블록 혹은 양방향 예측 부호화된 매크로블록인 경우에 블록 관계도 메트릭을 제로로 설정하며,

상기 기준 프레임으로부터 이미 추적된 특징점들의 목록을 갱신하는 수단을 포함하는 비디오/오디오 신호 처리 장치.
제 72항에 있어서, 현재의 매크로블록이 인트라 부호화된 매크로블록이고 기준 매크로블록이 인트라 부호화된 매크로블록인 경우에 블록 관계도 메트릭을 계산하는 수단을 포함하며, 상기 블록 관계도 메트릭은 현재 매크로블록 내 블록으로부터 DCT 활동치와 기준 매크로블록을 고려하여 발견된 DCT 활동치에 의거하여 발견된 관계도 측정치를 사용하여 계산되는 것인 비디오/오디오 신호 처리 장치.
제 69항에 있어서, 상기 비디오/오디오 신호들은 MPEG1, MPEG2, MPEG4, DV, MJPEG, ITU-T 권고안 H.261 혹은 H.263에 따라 압축 부호화되는 비디오/오디오 신호 처리 장치.
공급된 비디오/오디오 신호들을 처리하는 비디오/오디오 신호 처리방법에 있어서,

상기 비디오/오디오 신호들의 압축된 영역에서 상기 비디오/오디오 신호들의 특징들을 나타내는 적어도 하나의 특징점의 움직임 추정을 수행하는 단계를 포함하는 비디오/오디오 신호 처리방법.
제 81항에 있어서, 상기 움직임 추정단계는 추정된 움직임 벡터, 기준블록의 위치 및 기준 프레임 내 탐색영역을 계산하는 단계를 포함하는 비디오/오디오 신호 처리방법.
제 82항에 있어서, 상기 압축된 영역을 변환하는 역변환을 기준 프레임의 탐색영역 내 인트라-매크로블록 내 모든 블록에 적용하는 것을 포함하는 비디오/오디오 신호 처리방법.
제 83항에 있어서, 상기 역변환은 역 이산 코사인 변환인 비디오/오디오 신호 처리방법.
제 84항에 있어서, 예측 부호화된 매크로블록 혹은 기준 프레임의 탐색영역 내 양방향 예측 부호화된 매크로블록 내 모든 블록들에 대해 역 IDCT 및 움직임 보상을 수행하는 것을 포함하는 비디오/오디오 신호 처리방법.
제 81항에 있어서, 상기 비디오/오디오 신호들은 MPEG1, MPEG2, MPEG4, DV, MJPEG, ITU-T 권고안 H.261 혹은 H.263에 따라 압축 부호화되는 비디오/오디오 신호 처리방법.
공급된 비디오/오디오 신호들을 처리하는 비디오/오디오 신호 처리 장치에 있어서,

상기 비디오/오디오 신호들의 압축된 영역에서 상기 비디오/오디오 신호들의 특징들을 나타내는 적어도 하나의 특징점의 움직임 추정을 수행하는 수단을 포함하는 비디오/오디오 신호 처리 장치.
제 87항에 있어서, 상기 움직임 추정수단은 추정된 움직임 벡터, 기준블록의 위치 및 기준 프레임 내 탐색영역을 계산하는 수단을 포함하는 비디오/오디오 신호 처리 장치.
제 88항에 있어서, 상기 압축된 영역을 변환하는 역변환을 기준 프레임의 탐색영역 내 인트라-매크로블록 내 모든 블록들에 적용하는 수단을 포함하는 비디오/오디오 신호 처리 장치.
제 89항에 있어서, 상기 역변환은 역 이산 코사인 변환인 비디오/오디오 신호 처리 장치.
제 90항에 있어서, 예측 부호화된 매크로블록 혹은 기준 프레임의 탐색영역 내 양방향 예측 부호화된 매크로블록 내 모든 블록들에 대해 역 IDCT 및 움직임 보상을 수행하는 수단을 포함하는 비디오/오디오 신호 처리 장치.
제 87항에 있어서, 상기 비디오/오디오 신호들은 MPEG1, MPEG2, MPEG4, DV, MJPEG, ITU-T 권고안 H.261 혹은 H.263에 따라 압축 부호화되는 비디오/오디오 신호 처리 장치.