KR101420885B1

KR101420885B1 - 비디오 시놉시스 생성 방법 및 시스템

Info

Publication number: KR101420885B1
Application number: KR1020087014270A
Authority: KR
Inventors: 슈무엘 페레그; 알랙산더 라브-아차
Original assignee: 이슘 리서치 디벨롭먼트 컴퍼니 오브 더 히브루 유니버시티 오브 예루살렘, 엘티디.
Priority date: 2005-11-15
Filing date: 2006-11-15
Publication date: 2014-07-17
Also published as: EP1955205B1; JP2009516257A; WO2007057893A3; AU2006314066A1; EP1955205A2; CN101366027A; BRPI0620497A2; JP4972095B2; CN101366027B; US20090219300A1; WO2007057893A2; US20120092446A1; CA2640834C; US8514248B2; KR20080082963A; BRPI0620497B1; AU2006314066B2; US8102406B2; DK1955205T3; CA2640834A1

Abstract

컴퓨터 구현 방법 및 시스템은 제 1 다이내믹 신의 비디오 프레임의 제 1 시퀀스를 제 2 다이내믹 신을 묘사하는 최소 두 개의 비디오 프레임의 제 2 시퀀스로 변환한다. 각각의 x,y 좌표에 위치된 다수의 픽셀을 가지는 최소 하나의 객체의 움직임을 나타내는 제 1 시퀀스 내의 비디오 프레임의 서브셋은 획득되고, 제 1 다이내믹 신 내의 최소 하나의 객체의 비공간적 중복 출현(non-spatially overlapping appearances)을 나타내는 포션(portion)은 상기 서브셋으로부터 선택된다. 상기 포션은 최소 세 개의 상이한 입력 프레임으로부터 제 2 시퀀스의 최소 두 개의 연속적인 프레임으로, 객체 내의 픽셀의 각각의 x,y 좌표의 변경 없이 카피되고, 제 2 시퀀스의 최소 하나의 프레임은 제 1 시퀀스 내의 상이한 프레임에 출현한 최소 두 개의 포션을 포함한다.

Description

비디오 시놉시스 생성 방법 및 시스템{Method and system for producing a video synopsis}

본원은 2006년 11월 2일에 출원된 미국 특허출원 10/556,601(Peleg 등) "시공간의 비디오 워핑 방법 및 시스템(Method and system for spatio-temporal video warping)" 일부 계속 출원이며, 2006년 5월 11일에 공개된 WO2006/048875에 대응하며 가출원(provisional application)인 2005년 11월 15일에 출원된 출원 번호 60/736,313 및 2006년 1월 17일에 출원된 60/759,044에 의한 우선권을 주장하며 위 출원의 모든 내용이 본 명세서에 참조된다.

본 발명은 일반적으로 렌더링(rendering)을 기반으로 한 이미지 및 비디오에 관한 것으로서, 신(scene)의 복수의 원본 이미지(original image)로부터 포션(portion)들을 조합함으로써 새 이미지 및 비디오를 창조하는 것에 관한 것이다. 구체적으로, 본 발명은 비디오 추출(video abstraction) 또는 비디오 시놉시스(video synopsis) 목적을 위한 기술에 관한 것이다.

본 발명에 대한 배경 기술로 관련되는 것으로 고려되는 선행 기술 참조문헌이 이하 나열되고 그 내용은 이하 참고문헌으로 참조된다. 추가적인 참고문헌은 상술한 US 가출원 번호 60/736,313 및 60/759,044에 언급되고 그 내용은 이하 참조문 헌으로 참조된다. 본원에서 참조문헌을 기재하였다 하더라도, 상기 문헌이 본원에 개시된 발명의 특허성에 어떤 식으로 관련되었다는 것을 의미하는 것은 아니다. 각 참조문헌은 대괄호에 기재된 번호에 의해 식별되고, 그에 따라 선행 기술은 본 명세서 상에서 대괄호에 기재된 번호에 의해 언급될 것이다.

[1] A. Agarwala, M. Dontcheva, M. Agrawala, S. Drucker, A. Colburn, B. Curless, D. Salesin, and M. Cohen. Interactive digital photomontage. In SIGGRAPH₅ pages 294-302, 2004.

[2] A. Agarwala, K. C. Zheng, C. Pal, M. Agrawala, M. Cohen, B. Curless, D. Salesin, and R. Szeliski. Panoramic video textures. In SIGGRAPH, pages 821-827, 2005.

[3] J. Assa, Y. Caspi, and D. Cohen-Or. Action synopsis: Pose selection and illustration. In SIGGRAPH, pages 667-676, 2005.

[4] O. Boiman and M. Irani. Detecting irregularities in images and in video. In ICCV, pages I: 462-469, Beijing, 2005.

[5] A. M. Ferman and A. M. Tekalp. Multiscale content extraction and representation for video indexing. Proc. of SPIE, 3229:23-31, 1997.

[6] M. Irani, P. Anandan, J. Bergen, R. Kumar, and S. Hsu. Efficient representations of video sequences and their applications. Signal Processing: Image Communi- cation, 8(4):327-351, 1996.

[7] C. Kim and J. Hwang. An integrated scheme for object - based video abstraction. In ACM Multimedia, pages 303-311 , New York, 2000.

[8] S. Kirkpatrick, C. D. Gelatt, and M. P. Vecchi. Optimization by simulated annealing. Science, 4598(13):671-680, 1983.

[9] V. Kolmogorov and R. Zabih. What energy functions can be minimized via graph cuts ? In ECCV, pages 65-81, 2002.

[10] Y. Li, T. Zhang, and D. Tretter. An overview of video bstraction techniques. Technical Report HPL-2001-191, HP Laboratory, 2001.

[11] J. Oh, Q. Wen, J. lee, and S. Hwang. Video abstraction. In S. Deb, editor, Video Data Mangement and Information Retrieval, pages 321-346. Idea Group Inc. and IRM Press, 2004.

[12] C. Pal and N. Jojic. Interactive montages of sprites for indexing and summarizing security video. In Video Proceedings of CVPR05, page II: 1192, 2005.

[13] A. Pope, R. Kumar, H. Sawhney, and C.Wan. Video abstraction: Summarizing video content for retrieval and visualization. In Signals, Systems and Computers, pages 915-919, 1998.

[14] WO2006/048875 Method and system for spatio - temporal video warping, pub. May 11, 2006 by S. Peleg, A. Rav-Acha and D. Lischinski. This corresponds to USSN 10/556,601 filed Nov. 2, 05.

[15] A. M. Smith and T. Kanade. Video skimming and characterization through the combination of image and language understanding. In CATVD, pages 61-70, 1998.

[16] A. Stefanidis, P. Partsinevelos, P. Agouris, and P. Doucette. Summarizing video datasets in the spatiotemporal domain. In DEXA Workshop, pages 906-912, 2000.

[17] H. Zhong, J. Shi, and M. Visontai. Detecting unusual activity in video. In CVPR, pages 819-826, 2004.

[18] X. Zhu, X. Wu, J. Fan, A. K. Elmagarmid, and W. G. Aref. Exploring video content structure for hierarchical summarization. Multimedia Syst, 10(2): 98-115, 2004.

[19] J. Barron, D. Fleet, S. Beauchemin and T. Burkitt.. Performance of optical flow techniques, volume 92, pages 236-242.

[20] V. Kwatra, A. Schodl, I. Essa, G. Turk and A. Bobick. Graphcut textures : image and video synthesis using graph cuts. In SIGGRAPH, pages 227-286, July 2003.

[21] C. Kim and J. Hwang, Fast and Automatic Video Object Segmentation and Tracking for Content-Based Applications, IEEE Transactions on Circuits and Systems for Video Technology, Vol. 12, No. 2, February 2002, pp 122-129.

[22] US Patent 6,665,003

비디오 시놉시스(video synopsis) (또는 추출)은 비디오 브라우징(video browsing) 및 비디오 검색(video retrieval)을 목적으로 한 시간적 압축 표현(temporally compact representation)이다.

비디오 시놉시스를 위한 두 가지 주 접근 방법이 있다. 일 접근 방법에서는, 중요 이미지(키 프레임)의 세트는 원본 비디오 시퀀스(original video sequence)로부터 선택된다. 선택된 키 프레임은 비디오를 최선으로 대표하는 것들이다[7, 18]. 다른 접근에서는 짧은 비디오 시퀀스의 수집이 선택된다[15]. 제 2 접근은 압축성이 낮지만, 신 다이내믹(scene dynamic)에 보다 우수한 효과를 제공한다. 이들 접근 방법(및 다른 접근 방법)은 비디오 추출(video abstraction)에 대한 포괄적인 조사에 기술된다[10, 11].

상기 둘 모두의 접근 방법에서, 전체 프레임은 기본 빌딩 블럭(fundamental building block)으로 사용된다. 상이한 방법론은 비디오 인덱싱(video indexing)을 위해 모자이크 이미지를 임의의 메타 데이터(meta data)와 함께 사용한다[6, 13, 12]. 상기 방법론에서 정적인 시놉시스 이미지(static synopsis image)는 상이한 시간으로부터의 객체(object)를 포함한다.

객체 기반 접근(object-based approach)은 객체가 입력 비디오(input video)로부터 추출되는 것으로도 알려진다[7, 5, 16]. 그러나, 이 방법은 중요한 키 프레임 식별을 위해 객체 검출을 사용하고 상이한 시간 간격으로부터의 액티비티(activity)를 결합하지 않는다.

상기 방법들은 반복된 민-컷(iterated min-cut)을 사용한 단일 파노라믹 이미지를 생성하는 기술[1] 및 반복된 민-컷을 사용한 파노라믹 무비를 생성하는 기술[2]로도 알려져 있다. 두 개의 방법 모두에서, (입력 프레임의 개수에서) 지수적 복잡도(exponential complexity)에 대한 문제에 접근하게 되므로, 상기 방법들은 적은 수의 프레임에 대해서 더욱 적절하다. 상기 분야에서 관련된 연구가 민-컷을 사용한 두 개의 무비 조합에 연관된다[20].

WO2006/048875 [14]는 비디오 내에서 시간 흐름 조종(manipulating the temporal flow in a video) 방법 및 시스템을 개시한다. 제 1 다이내믹 신의 비디오 프레임의 제 1 시퀀스는 일 관점에서 제 2 다이내믹 신을 묘사하는 비디오 프레임의 제 2 시퀀스로 변환되어, 제 1 다이내믹 신의 최소 하나의 특징에 대하여 비디오 프레임의 제 1 시퀀스 각각의 포션이 비디오 프레임의 제 1 시퀀스의 주변 포션(surrounding portion)과 상이한 속도로 표본화되고; 표본화된 포션은 제 2 시퀀스의 해당 프레임으로 카피된다. 이는 변경될 다이내믹 신 내에서 특징들의 시간적 동기성(temporal synchrony)을 허용한다.

본 발명의 제 1 관점에 따르면, 제 1 다이내믹 신의 비디오 프레임의 제 1 시퀀스를 제 2 다이내믹 신을 묘사하는 최소 두 개의 비디오 프레임의 제 2 시퀀스로 변환하는 컴퓨터로 구현된 방법을 제공하며, 상기 방법은 다음과 같은 단계를 포함한다:

(a) 각각의 x, y 좌표에 위치된 다수의 픽셀을 포함하는 최소 하나의 객체의 움직임을 나타내는 상기 제 1 시퀀스 내의 비디오 프레임의 서브셋(subset)을 획득하는 단계;

(b) 상기 서브셋으로부터 상기 제 1 다이내믹 신 내의 상기 최소 하나의 객체의 비공간적 중복 출현(non-spatially overlapping appearances)을 나타내는 포션(portion)을 선택하는 단계;

(c) 상기 객체 내의 픽셀의 각각의 x, y 좌표를 변경하지 않고, 상기 포션을 최소 세 개의 상이한 입력 프레임으로부터 제 2 시퀀스의 최소 두 개의 연속적인 프레임으로 카피하는 단계로서, 제 2 시퀀스의 프레임 중 최소 하나는 제 1 시퀀스 내의 상이한 프레임에 출현하는 최소 두 개의 포션을 포함하는 단계.

본 발명의 제 2 관점에 따르면, 제 1 다이내믹 신의 비디오 프레임의 제 1 시퀀스를 제 2 다이내믹 신을 묘사하는 최소 두 개의 비디오 프레임의 제 2 시퀀스로 변환하는 시스템을 제공하며, 상기 시스템은 다음과 같은 구성 요소를 포함한다:

각각의 x, y 좌표에 위치된 다수의 픽셀을 포함하는 최소 하나의 객체의 움직임을 나타내는 상기 제 1 시퀀스 내의 비디오 프레임의 서브셋을 저장하는 제 1 메모리,

상기 제 1 메모리와 연결되며, 상기 서브셋으로부터 상기 제 1 다이내믹 신 내의 상기 최소 하나의 객체의 비공간적 중복 출현을 나타내는 포션을 선택하는 선택 유닛,

상기 객체 내의 픽셀의 각각의 x, y 좌표를 변경하지 않고, 상기 포션을 최소 세 개의 상이한 입력 프레임으로부터 제 2 시퀀스의 최소 두 개의 연속적인 프레임으로 카피하는 프레임 생성기로서, 상기 제 2 시퀀스의 프레임 중 최소 하나는 상기 제 1 시퀀스 내의 상이한 프레임에 출현하는 최소 두 개의 포션을 포함하는 프레임 생성기, 및

상기 제 2 시퀀스의 프레임을 저장하는 제 2 메모리.

본 발명은 제 3 관점에 따른 다이내믹 신을 묘사하는 출력 비디오 프레임의 시퀀스를 실체적으로 구현하는 데이터 캐리어를 더 포함하며, 상기 출력 비디오 프레임의 최소 두 개의 연속적인 프레임은 각각의 x, y 좌표를 가지는 다수의 픽셀을 포함하고, 상기 객체 내의 픽셀의 각각의 x, y 좌표의 변경 없이 최소 세 개의 상이한 입력 프레임으로부터의 객체의 포션으로부터 유래되고, 상기 출력 비디오 프레임 중 최소 하나는 상이한 입력 프레임에 출현한 최소 두 개의 포션을 포함한다.

본 발명에 의해 개시된 다이내믹 비디오 시놉시스는 다음과 같은 두 가지 특성에서 상술한 종래의 비디오 추출 접근과 다르다: (ⅰ)비디오 시놉시스는 비디오 그 자체이며, 신(scene)의 다이내믹(dynamic)을 표현한다. (ⅱ) 시공간적 중복성(spatio-temporal redundancy)을 가능한 한 감소하기 위해, 액티비티(activities) 간의 상대적인 타이밍(relative timing)을 변경한다.

예로서, 도 1의 시공간(space-time volume)으로 대표되는 개략적인 비디오 클립을 고려한다. 비디오는 사람이 지면을 걷는 것으로 시작되고, 비활성 기간(period of inactivity) 후, 새가 하늘을 난다. 비활성 프레임은 대부분의 비디오 추출 방법에서 생략된다. 비디오 시놉시스는 사람 및 새를 동시에 재생함으로써실질적으로 더욱 압축적이다. 이는 다른 액티비티가 그 공간적 위치에서 일어나지 않은 경우, 이벤트의 근원 시간 간격(original time interval)으로부터 다른 시간 간격으로 이벤트를 시프트함으로써 이미지 영역의 최적화 사용을 구현한다. 이러한 조정(manipulation)은 [14]에 처음으로 제시된 대로 이벤트의 연대순 일관성을 완화한다.

본 발명은 또한 마코프 랜덤 필드(Markov Random Field)에 최적화를 사용하여 시놉시스 비디오를 생성하는 저-수준(low-level) 방법을 제시한다[9].

본 발명에 의해 제공된 선택지 중 하나는 단일 객체의 다수의 다이내믹 출현(appearance)을 표시하는 기능(ability)이다. 이 결과는 이동하는 객체의 종래 비디오 시놉시스에서 사용된 "스트로보스코픽(stroboscopic)" 사진의 일반화이다[6, 1]. 이를 수행하기 위한 두 개의 상이한 구성이 제시된다. 제 1 구성에서, 상이한 시각(instances of time)에서 객체의 스냅샷은 출력 비디오에 제시되어, 시작 위치에서 종료 위치까지 비디오를 걸쳐 객체의 경과 과정(progress)의 표시(indication)를 제공한다. 제 2 구성에서, 객체는 정의된 시작 또는 종료 위치를 가지지 않고, 랜덤하고 비예측적으로 이동한다. 이 경우에서, 상이한 시각에서 객체의 스냅샷은 다시 출력 비디오 내에 제시되지만, 이번에는 객체의 실제 개수보다 더 많은 개수의 객체의 임프레션(impression)이 주어진다. 두 구성 모두 공통으로 공유하는 바는 관심 객체의 다이내믹 경과 과정(dynamic progress)에 기여하지 않는 입력 비디오 데이터로부터의 카피 없이, 입력 비디오로부터 상이한 시간에 취한 다수의 스냅샷이 공간적 중복을 피하는 방식으로 출력 비디오에 카피되는 것이다.

본 발명의 문맥 및 부가된 청구항 내에서, 용어 "비디오"는 포스트-프로세싱(post-processing)을 받을 수 있는 컴퓨터 이미지 파일로서 이해할 수 있고 임의의 종류의 무비 파일, 예컨대 디지털, 아날로그를 포함하는 것을 제공하는 가장 일반적인 용어로서 "무비"와 동의어이다. 카메라는 바람직하게 회전하고 줌(zoom)을 할 수 있으나 - 현재까지 제안된 기술로 수행된 바와 같은 병진 운동(translation motion)을 하도록 요하지 않는 고정된 위치에 있다. 본 발명에서 고려되는 신들(scenes)은, 예를 들어, 연속적인 프레임이 공간적 및 시간적 연속성을 가지는 다이내믹 신을 묘사하지 않는 입체 이미지(stereoscopic image)의 디스플레이에 관한 미국 특허 6,665,003 [22] 및 다른 참조 문헌들과 달리, 다이내믹하다. 본 발명의 일 관점에 따르면, 우리는 문제점을 폴리노미얼 시간(polynomial time) 내에서 그래프 상의 최대 흐름(maximal flow)을 구함으로써 해결할 수 있는 단일 민-컷 문제[5]로 공식화한다.

본 발명의 사용을 기술하기 위해 다이내믹 파노라믹 비디오를 제작하기 위한 "공간-시간 체적(space-time volume)"으로 불리는 구성이 만들어질 것이다. 공간-시간 체적은 이미지의 입력 시퀀스로부터 시간 축을 따라 모든 프레임을 순서대로 적층함으로써 형성될 수 있다. 그러나, 실제적 구현을 고려하는 한, 예를 들면 실제로 다이내믹 소스 신(dynamic source scene)의 2D 프레임을 시간에서 적층함으로써 공간-시간 체적을 형성할 필요는 없다. 더욱 전형적으로, 소스 프레임은 개별적으로 처리되어 타겟 프레임(target frame)을 형성하나, 공간-시간 체적은 개념적 구성보다 물리적 구성일지라도 공간 시간 체적을 설명하기 위한 이해를 도울 것이다.

본 발명을 이해하고 실제로 어떻게 수행될 수 있는지 설명하기 위해, 바람직한 실시예가, 비제한적 예시로서만, 다음과 같은 첨부한 도면을 참조로 이하 기술될 것이다:

도 1은 시간적으로 이동된 특징을 동시에 재생함으로써 압축적 비디오 시놉시스를 생성하기 위한 본 발명의 접근을 도시하는 그림 표현이다.

도 2a 및 2b는 본 발명에 따라 생성된 비디오 시놉시스를 묘사하는 개략 표현이다.

도 3a, 3b 및 3c는 본 발명에 따른 시간적 재배열의 예를 도시하는 그림 표현이다.

도 4는 도 3b에 묘사된 다이내믹 스트로보스코픽 효과(dynamic stroboscopic effect)를 사용한 비디오 시놉시스의 단일 프레임을 도시하는 그림 표현이다.

도 5a, 5b 및 5c는 짧은 시놉시스가 액티비티의 손실 없이 그리고 스트로보스코픽 효과 없이 보다 긴 시퀀스를 기술할 수 있는 경우의 예를 도시하는 그림 표현이다.

도 6은 본 발명에 따른 파노라믹 비디오 시놉시스의 다른 예를 도시하는 그림 표현이다.

도 7a, 7b 및 7c는 거리 감시(street surveillance)로부터의 비디오 시놉시 스의 세부 사항을 도시하는 그림 표현이다.

도 8a 및 8b는 울타리 감시로부터의 비디오 시놉시스의 세부 사항을 도시하는 그림 표현이다.

도 9는 본 발명의 다른 실시예에 따른 무비의 액티비티 밀도 증가를 도시하는 그림 표현이다.

도 10은 도 10에 도시된 무비를 생성하기 위해 사용된 프로세스의 개략도이다.

도 11은 본 발명에 따른 시스템의 주 기능성을 도시하는 블록도이다.

도 12는 본 발명에 따라 수행된 주 동작을 도시하는 흐름도이다.

1. 액티비티 검출(Activity Detection)

본 발명은 각각의 모든 입력 픽셀이 그 "중요도"의 레벨에 따라 분류되었음을 가정한다. 이하 "중요도"의 레벨을 액티비티 레벨로 사용할 것이며, 임의의 다른 측정은 요구되는 응용을 기반으로 한 "중요도"를 위해 사용될 수 있음이 명백하다. 중요도(또는 액티비티) 레벨의 산출은 가정되고 그 자체는 본 발명의 특징이 아니다. 이는 불규칙성 검출[4, 17], 이동하는 객체 검출, 및 객체를 추적하는 다양한 방법 중 하나를 사용함으로써 수행될 수 있다. 다른 방법으로, 인식 알고리즘, 예컨대 얼굴 검출을 기반으로 수행될 수 있다.

일례로, 단순하고 일반적으로 사용되는 액티비티 표시자(activity indicator)가 선택될 수 있으며, 이는 위치 (x,y)에서 시간적 중앙값(temporal median)과의 입력 픽셀 I(x,y,t)의 색차(color difference)가 주어진 기준값보다 큰 경우 "액티브(active)"라고 분류된다. 액티브 픽셀은 특성 함수에 의해 정의된다:

χ(p) = 1 (p가 액티브인 경우)

0 (그 외)

액티비티 표시자에서 노이즈를 제거하기 위해, 시놉시스 프로세스를 계속하기 전에 중앙값 필터(median filter)가 χ에 적용된다.

연속적 액티비티 측정(continuous activity measure)을 사용하는 것이 가능할지라도, 본 발명자는 2진의 경우에 초점을 두었다. 연속적 액티비티 측정은 다음의 상세한 설명에 기술된 거의 모든 방정식에 최소의 변경만을 적용함으로써 사용될 수 있다[4, 17, 1].

비디오 시놉시스를 계산하는 두 개의 다른 실시예를 기술한다. 일 접근 방법(섹션 2)은 그래프 표현(graph representation) 및 그래프-컷(graph-cut)을 사용한 비용 함수의 최적화(optimization of cost function)를 사용한다. 다른 접근 방법(섹션 3)은 객체 분할(object secmentation) 및 추적을 사용한다.

2. 에너지 최소화(Energy Minimization)에 의한 비디오 시놉시스

입력 비디오 시퀀스의 N 프레임이 3D 공간-시간 체적 I(x,y,t) 내에서 표현된다고 하고, (x,y)는 이 픽셀의 공간 좌표이고, 1≤t≤N이며 t는 프레임 번호이다.

다음과 같은 특성을 가지는 시놉시스 비디오 S(x,y,t)를 생성하고자 한다:

● 비디오 시놉시스 S는 실질적으로 원본 비디오(original video) I보다 실질적으로 짧아야 한다.

● 원본 비디오로부터의 최대 "액티비티"는 시놉시스 비디오에 나타나야 한다.

● 비디오 시놉시스 내 객체의 모션은 원본 비디오 내의 객체의 모션과 유사해야 한다.

● 비디오 시놉시스는 보기 좋아야하고, 눈에 띄는 균열 또는 조각난 객체는 방지되어야 한다.

상술한 특성을 가지는 시놉시스 비디오 S는 매핑 M으로 생성되며, 이는 시놉시스 S 내의 각각의 모든 좌표 (x,y,t)에 I로부터의 소스 픽셀의 좌표를 할당한다. 우리는 픽셀의 시간 이동(time shift)에 중점을 두며, 공간 위치는 고정되도록 유지한다. 따라서, 임의의 시놉시스 픽셀 S(x,y,t)는 입력 픽셀 I(x,y,M(x,y,t))로부터 나온다. 시간 이동 M은 에너지 최소화 문제(energy minimization problem)를 해결함으로써 획득되며, 비용 함수는 다음과 같이 주어지며

여기서 E_a(M)은 액티비티의 손실을 나타내고, E_d(M)는 균열의 불연속성(discontinuity across seams)을 나타낸다. 액티비티의 손실은 시놉시스 비디오 S에 나타나지 않는 입력 비디오 I 내의 액티브 픽셀의 개수일 것이며,

불연속 비용(discontinuity cost) E_d는 시놉시스 비디오 내의 시공간적 주변(spatiotemporal neighbor)과 입력 비디오 내의 해당 주변 간의 균열의 색차(color differences across seams)의 합으로 정의되며(유사한 공식은 [1]에서 발견할 수 있다):

여기서 e_i는 여섯 개의 시공간적 주변을 나타내는 여섯 개의 단위 벡터이다.

도 2a 및 2b는 이동하는 객체의 움직임이 도면 상의 "액티비티 스트립(activity strip)"으로 묘사되며 비용 함수를 최소화함으로써 짧은 비디오 시놉시스를 생성하는 공간-시간 동작(space-time operation)을 묘사하는 개략 표현이다. 상부는 원본 비디오를 나타내며, 하부는 비디오 시놉시스를 나타낸다. 구체적으로, 도 2a에서 더 짧은 비디오 시놉시스 S는 가장 액티브한 픽셀을 포함함으로써 입력 비디오 l로부터 생성된다. 매끄러움(smoothness)을 보증하기 위해, S 내의 픽셀 A가 l 내의 픽셀 B에 대응하는 경우, 이들의 "선을 넘는(cross border)" 주변(neighbor)은 유사해야 한다. (3)을 최소화하는 최적의 M을 구하는 것은 매우 큰 최적화 문제이다. 근사해(approximate solution)가 도 2b에 도시되며, 시놉시스 비디오 내의 연속적인 픽셀은 연속적인 입력 픽셀로부터 나오도록 제한된다.

비용 함수 E(M) (식 1)은 3D MRF(Markov random field)에 대응하며 각 노드는 출력 무비(output movie)의 3D 체적 내의 픽셀에 대응하고, 입력 프레임에 대응하는 임의의 시간 값에 할당될 수 있다. 노드의 가중치(weight)는 액티비티 비용에 의해 결정되며, 노드들 간의 가장자리가 불연속 비용에 따라 결정된다. 따라서 비용 함수는 반복된 그래프-컷(iterative graph-cut)과 같은 알고리즘[9]에 의해 최소화될 수 있다.

2.1. 2D 그래프를 사용한 제한된 해(restricted solution)

임의의 시간에서 나오는 비디오 시놉시스 내의 각 픽셀을 허용하는, 식 (1)의 최적화는 스케일이 큰 문제이다. 예를 들면, 5초의 비디오 시놉시스로 요약되는 3분의 입력 비디오는 각각 5400 라벨(label)을 가지는 대략 2²⁵ 노드의 그래프를 초래한다.

이는 다이내믹 텍스쳐(dynamic texture) 또는 수평 경로에서 이동하는 객체의 경우에 대해 [2]에서 설명되며, 3D MRF는 위 문제를 1D 문제로 축소시킴으로써 효율적으로 해결될 수 있다. 이 과정에서, 객체는 보다 일반적인 방법으로 이동한다고 하고, 따라서 여기서는 다른 제약을 사용할 수 있다. 시놉시스 비디오 S 내의 연속적인 픽셀은 입력 비디오 I 내의 연속적인 픽셀로부터 나오도록 제한된다. 이 제한 하에서, 3D 그래프는 각 노드가 시놉시스 무비 내의 공간적 위치에 대응하는 2D 그래프로 축소된다. 도 2b에 설명된 바와 같이, 각 노드의 라벨 M(x,y)은 S의 제 1 프레임에 도시된 I 내의 프레임 번호 t를 결정한다. 균열(seam)은 M(x₁,y₁) ≠M(x₂,y₂)인 경우 S 내의 두 개의 이웃하는 위치 (x₁,y₁) 및 (x₂,y₂) 사이에 존재하고, 균열을 따른 불연속 비용 E_d(M)은 S 내의 모든 프레임에 걸친 그 공간적 위치에서의 색차의 합이다.

여기서, e_i는 네 개의 공간적 주변을 기술하는 네 개의 단위 벡터이다.

각 노드에 대한 라벨의 번호는 N-K이며, 여기서 N 및 K는 각각 입력 및 출력 비디오 내의 프레임 개수이다. 각 픽셀에 대한 액티비티 손실은:

3. 객체-기반 시놉시스

전술한 바와 같은 다이내믹 비디오 시놉시스를 위한 저-레벨 접근(low-level approach)는 눈에 띄는 균열을 방지와 같은 국부적 특성(local properties)을 만족하도록 제한된다. 객체가 검출될 수 있는 경우, 보다 높은 레벨의 객체-기반 특성이 포함될 수 있다. 예를 들면, 스트로보스코픽 효과의 방지는 체적 내의 각각의 객체의 검출 및 추적을 요구한다. 이 섹션은 다이내믹 비디오 시놉시스를 위한 객 체-기반 접근 방법의 구현을 기술한다. 다수의 객체-기반 비디오 요약 방법은 문헌(예컨대 [7, 5, 16])에 개시되고, 이들 모두는 검출된 객체를 중요한 프레임의 선택을 위해 사용한다. 상기 방법과는 다르게, 본 발명은 객체를 시간 상에서 시프트하여 입력 시퀀스 내에 나타나지 않은 새로운 시놉시스 프레임을 생성하여, 공간 및 시간을 보다 효율적으로 사용하게 한다.

일 실시예에서, 이동하는 객체는 상술한 바와 같이 각 픽셀을 시간적 중앙값과 비교하여 그에 의한 차를 기준값(threshold)과 비교함으로써 검출된다. 뒤이어 공간적 중앙값 필터(spatialmedian filter)를사용한 노이즈 제거가 이어지고, 시공간적으로 연결된 구성요소의 그룹화가 이어진다. 이 작업에 사용될 수 있는 객체 검출 및 추적을 위한 다른 많은 방법이 문헌 상에 설명된다.(예를 들어, [7, 17, 21]) 객체 검출 및 추적의 각 프로세스는 객체의 일 세트를 야기하며, 여기서 각 객체 b는 그 특성 함수에 의해 표현된다.

도 3a, 3b 및 3c는 본 발명에 따른 시간적 재배열의 예를 도시하는 그림 표현이다. 각 도면의 상부는 원본 비디오를 나타내고, 하부는 이동하는 객체의 움직임이 도면 상에 "액티비티 스트립"으로 묘사된 비디오 시놉시스를 나타낸다. 도 3a는 다른 시간에 기록된 두 개의 객체가 비디오 시놉시스 내에서 동일한 시간 간격(time interval)으로 시프트되는 것을 도시한다. 도 3b는 긴 시간 간격동안 이동하는 단일 객체가 더 짧은 시간 간격을 가지는 단편으로 분할되는 것을 도시하며, 상기 단편은 동시에 재생되어 다이내믹 스트로보스코픽 효과를 생성한다. 도 3c는 객체 체적이 단편으로 분할되는 경우, 객체의 교차점이 시놉시스를 교란시키지 않는 것을 도시한다.

각각의 객체로부터, 단편(segment)은 객체가 나타난 프레임의 서브셋(subset)을 선택함으로써 생성된다. 상기 단편은 상이한 시간 간격을 표현할 수 있으며, 선택적으로 상이한 샘플링 속도(sampling rate)를 취할 수 있다.

비디오 시놉시스 S는 입력 비디오 I로부터 다음과 같은 단계를 사용하여 구성될 것이다:

(1) 객체 b₁ ... b_r 은 입력 비디오 I로부터 추출된다.

(2) 비중복된(non-overlapping) 단편 B의 세트는 원본 객체로부터 선택된다.

(3) 시간적 시프트(temporal shift) M은 각각의 선택된 단편에 적용되며, 객체들 간의 교합(occlusion)을 방지하고 균열 없는 결합이 가능한 더 짧은 비디오 시놉시스를 생성한다. 이는 도 1 및 도 3a 내지 3c에 설명된다. 도 4는 도 3b에 묘사된 바와 같은 다이내믹 스트로보스코픽 효과를 사용한 비디오 시놉시스의 단일 프레임에 대한 예를 도시하는 그림 표현이다.

단편을 선택하고 상기 단편을 시간 상에서 시프트하여 짧고 균열없는 비디오 시놉시스를 획득하기를 원하므로, 위의 단계 (2) 및 (3)은 상호 관련된다. 위의 (2) 및 (3)의 단계는 완벽할 필요는 없다. 언급한 "비중복된 단편"은 경미한 중복이 허용될 수 있고, 언급한 "교합 방지"는 시간 상에서 시프트된 객체들 간의 경미 한 중복이 허용될 수 있으나, 시각적으로 비디오를 나타내기 위해 이는 최소화되어야 한다.

객체 기반 표현에서, 최종 시놉시스 내의 픽셀은 다수의 소스(상이한 객체로부터 나옴)를 가질 수 있고 따라서 모든 객체가 함께 결합되는(stitched together) 후처리 단계를 추가한다. 배경 이미지는 시퀀스의 모든 프레임에 걸쳐 픽셀의 중앙값을 취함으로써 생성된다. 그리고 나서 선택된 객체는 혼합될 수 있으며, 이 경우 각 프레임 및 중앙 이미지 내의 픽셀 값 간의 거리(RGB 공간에서)에 비례한 가중치를 사용한다. 상기 결합 메커니즘은 [6]에서 사용된 방법 중 하나와 유사하다.

단일 시놉시스 픽셀 (x,y,t)∈S 에 매핑된 모든 픽셀의 세트를 src(x,y,t)로 정의하고, 객체(또는 단편) b 내의 (액티브) 픽셀의 개수를

로 표시한다.

그리고 나서, 단편 B의 서브셋 선택 및 시간적 시프트 M을 위한 비용을 측정하는 에너지 함수를 정의한다. 상기 비용은 액티비티 손실 E_a, 객체들 간의 교합에 대한 페널티(penalty) 및 긴 시놉시스 비디오를 불리하게 하는 항 E_l을 포함한다:

여기서

3.1. 기결정된 길이의 비디오 시놉시스

더 긴 비디오로부터 구성된 기결정된 길이 K의 짧은 시놉시스 비디오의 경우를 기술한다. 이 구성에서, 각 객체는 길이 K의 중복되고 연속적인 단편으로 분할된다. 모든 단편은 시간 시프트(time shifted)되어 시간 t=1에서 시작하고, 어떤 단편을 시놉시스 비디오에 포함시킬 것인지 결정한다. 명백하게, 이 구성에서는 임의의 객체는 시놉시스 비디오에 나타나지 않을 수 있다.

우선 모든 단편 쌍(pair of segments) 간의 교합 비용을 정의한다. b_i 및 b_j가 시간 t_i 및 t_j에 나타나는 두 개의 단편이라고 하고, 각 단편의 지지(support)는 각 단편의 특성 함수 χ에 의해 표현된다고 한다.(식 5와 같음)

시간 t=1로 시프트된 후, 두 개의 단편 간의 비용은 두 개의 단편 간의 색차의 합으로 되도록 정의된다.

시놉시스 비디오에 대해, 식 6에서 비용을 최소화하는 단편 B의 부분적 세트 를 선택하며 여기서 E_l은 상수 K이고, 교합 비용은 다음과 같다.

동일한 시공간적 픽셀을 두 번 나타내는 것을 방지하기 위해(허용되나 낭비적임), 원본 무비에서 교차하는 단편 b_i 및 b_j에 대해 v(b_i,b_j)=∞로 설정한다. 또한, 스트로보스코픽 효과가 기대되지 않는 경우, 동일한 객체로부터 샘플링된 모든 b_i 및 b_j에 대해 v(b_i,b_j)=∞로 설정함으로써 방지될 수 있다.

가상 어닐링(simulated aneealing) [8]은 에너지 함수를 최소화하기 위해 사용된다. 각 상태(state)는 시놉시스 내에 포함된 단편의 서브셋을 기술하고, 주변 상태는 단편이 제거되거나, 추가되거나 또는 다른 단편으로 교체된 세트로 취해진다.

단편을 선택한 후, 길이 K의 시놉시스 무비는 모든 시프트된 단편을 함께 지나침(pasting)으로써 구성된다. 상기 접근 방법을 사용한 비디오 시놉시스로부터의 일 프레임의 예가 도 4에 주어진다.

3.2. 무손실 비디오 시놉시스

임의의 응용 예컨대 비디오 감시를 위해, 모든 액티비티가 나타나도록 보장되는 더 긴 시놉시스 비디오를 선호할 수 있다. 이 경우, 객체는 이전 섹션에서 수행된 바와 같이 객체 단편의 세트가 선택되지 않으나, 객체 단편의 압축 시간적 재 배열(compact temporal re-arrangement)을 구하게 된다.

또 다시, 에너지를 최소화하기 위해 가상 어닐링을 사용한다. 이 경우, 하나의 상태는 모든 단편에 대한 한 세트의 시간 시프트에 대응하고, 두 개의 상태는, 시간 시프트가 하나의 단편에 대해서만 다른 경우, 주변(neighbors)으로 정의된다. 이 경우에 지적되어야 할 두 개의 쟁점이 존재한다:

● 처음 또는 마지막 프레임 내에 나타난 객체 단편은 시놉시스 비디오에 남아야 하며; (그렇지 않으면 이들은 갑자기 나타나거나 사라진다). 따라서 이 모든 객체의 시간적 시프트를 고정함으로써 각 상태가 위 제한을 만족하도록 한다.

● 입력 비디오의 시간적 배열은 일반적으로 에너지 함수의 국부적 최소값이고, 따라서 어닐링 프로세스를 초기화하기 위한 바람직한 선택은 아니다. 더 짧은 비디오와 함께 가상 어닐링을 개시하였으며, 모든 객체가 중복되었다.

도 5a, 5b 및 5c는 짧은 시놉시스가 액티비티의 손실이 없고 스트로보스코픽 효과가 없는 더 긴 시퀀스를 기술할 수 있는 경우 상기 접근 방법의 예를 도시하는 그림 표현이다. 세 개의 객체는 동시에 재생하기 위해 시간 시프트될 수 있다. 구체적으로, 도 5a는 원본 비디오(상부) 및 비디오 시놉시스(하부)의 개략적인 공간-시간 다이어그램을 묘사한다. 도 5b는 원본 비디오로부터의 세 개의 프레임을 묘사하며; 도 5a의 다이어그램으로부터 도시된 바와 같이, 원본 비디오에는 각각의 인물이 개별적으로 나타나지만, 시놉시스 비디오에서는 세 개의 모든 객체가 함께 나타날 수 있다. 도 5c는 세 명의 인물 모두가 동시에 나타난 시놉시스 비디오로부터의 일 프레임을 묘사한다.

4. 파노라믹 비디오 시놉시스

비디오 카메라가 신(scene)을 스캐닝하는 경우, 파노라믹 모자이크를 사용함으로써 많은 중복(redundancy)이 제거될 수 있다. 그러나, 종래의 방법은 단일의 파노라믹 이미지를 구성하며, 이 경우 신 다이내믹이 상실된다. 제한된 다이내믹은 스트로보스코픽 이미지 [6,1,3]에 의해 표현될 수 있으며, 여기서 이동하는 객체는 다수의 위치에서 그의 경로를 따라 표시된다.

파노라믹 시놉시스 비디오는 신의 다른 지역에서 다른 시간에 일어난 동작을 동시에 표시함으로써 생성될 수 있다. 상당한 압축이 획득될 수 있으며, 이는 각 객체에 대한 액티비티의 지연(duration)이 카메라에 의해 관찰된 시간으로 제한되기 때문이다. 특수한 경우로는 카메라가 도 6에 도시된 달리는 암사자와 같은 객체를 추적하는 경우가 있다. 카메라가 달리는 암사자를 추적하는 경우, 시놉시스 비디오는 배경의 파노라믹 모자이크이고, 전경은 달리는 암사자의 다수의 다이내믹한 카피를 포함한다. 이 경우, 짧은 비디오 시놉시스는 스트로보스코픽 효과를 허용함으로써만 획득될 수 있다.

파노라믹 비디오 시놉시스 구성은 일반적인 비디오 시놉시스와 유사한 방식으로 수행되며, 모든 프레임을 임의의 레퍼런스 프레임으로 정렬하는 예비 스테이지가 포함된다. 정렬한 후, 객체의 이미지 좌표는 전역 좌표계(global coordinate system)로부터 취해지며, 이는 입력 이미지 중 하나의 좌표 시스템일 수 있다.

이동하는 객체의 구분이 완벽하지 않은 경우일지라도 비디오의 처리가 가능하게 하기 위해, 전적으로 교합(occlusion)을 방지하는 대신 교합을 불리하게(penalize) 한다. 구분이 완벽하지 않은 경우에도, 상기 교합에 대한 페널티(occlusion penalty)은 객체의 시간적 배열에서 유연함을 가능하게 하며, 객체의 픽셀은 임의의 배경을 포함할 수 있다.

추가적인 항(term)이 추가될 수 있으며, 이는 시놉시스 비디오의 시간적 정렬을 입력 비디오의 정렬로 바이어스한다.

매우 방대한 가능성에 기인하여, 가능한 모든 단편-선택 B 및 시간적 시프트 M에 걸쳐 위 에너지를 최소화함은 매우 소모적이다. 그러나, 상기 문제는 해를 제한함으로써 두드러지게 축소될 수 있다. 두 개의 제한된 구성이 다음 섹션에 기술된다.

5. 감시의 예(Surveillance Examples)

비디오 시놉시스의 흥미로운 응용은 저장된 감시 비디오의 액세스일 수 있다. 비디오 내의 특정 이벤트를 검사하는 것이 필요한 경우, 이는 비디오 시놉시스롤 통해 보다 빠르게 수행될 수 있다.

상기 지적한 바와 같이, 도 5는 짧은 시간 간격 안에 임의의 액티비티의 손실 없이 모든 액티비티를 압축하는 비디오 시놉시스의 능력의 예를 도시한다. 이는 커피점을 감시하는 카메라로부터 수집된 비디오를 사용하여 수행될 수 있다. 두 개의 추가적인 예가 실제 감시 카메라로부터 주어진다. 도 8a, 8b 및 8c는 거리 감시 로부터의 비디오 시놉시스의 세부 사항을 도시하는 그림 표현이다. 도 8a는 원본 비디오(22 초)로부터의 전형적인 프레임을 도시한다. 도 8b는 압축된 액티비티를 도시하는 비디오 시놉시스 무비(2초)로부터의 프레임을 묘사한다. 도 8c는 더 짧은 비디오 시놉시스(0.7초)로부터의 프레임을 묘사하며, 더욱 압축된 액티비티를 도시한다. 위 도면들에 도시된 이미지는 도시 거리를 감시하는 카메라에 의해 캡쳐된 비디오로부터 가져왔으며, 보행자가 가끔씩 화면의 필드를 가로지른다. 이들의 상당 수는 매우 압축된 시놉시스에 수집될 수 있다.

도 8a 및 8b는 울타리(fence) 감시로부터의 비디오 시놉시스의 세부 사항을 도시하는 그림 표현이다. 울타리 근처에는 액티비티가 거의 없고, 때때로 울타리를 향해 기어오는 군인을 볼 수 있다. 비디오 시놉시스는 군인이 기어오고 걷는 경우를 동시에 나타내거나, 선택적으로 스트로보스코픽하게 재생함으로써 시놉시스 비디오를 보다 짧게 한다.

6. 비디오 시놉시스를 통한 비디오 인덱싱

비디오 시놉시스는 비디오 인덱싱에 사용될 수 있으며, 비디오 내의 동작에 액세스하기 위한 효율적이고 직관적인 링크를 사용자에게 제공한다. 이는 각각의 모든 시놉시스 픽셀을 원본 비디오 내의 해당 객체의 모습에 포인팅하는 포인터와 결합함으로써 수행된다. 비디오 시놉시스에서, 비디오의 정보는 "액티비티의 공간(space of activities)"으로 투영되며, 이는 액티비티만의 문제(matter)이며, 액티비티의 시간적 정황(temporal context)과는 관계 없다(여전히 공간적 정 황(spatial context)을 유지한다). 액티비티가 짧은 시간 간격에 집중되기 때문에, 비디오 내의 특정 액티비티가 쉽게 액세스될 수 있다.

후술할 내용으로부터 명백해지지만, 비디오 카메라가 다이내믹 신을 스캐닝하는 경우, 영역(region)이 입력 비디오 내에서 가시화되는(visible) 절대 "연대적 시간(chronological time)"은 신 다이내믹의 파트(part)가 아니다. 각 지역의 가시성(visibility) 시간 간격 동안의 "국부적 시간(local time)"은 신에서의 다이내믹의 기술(description)과 더욱 관련성 있고, 다이내믹 모자이크를 구성하는 경우 유지되어야 한다. 상술한 실시예는 본 발명의 제 1 관점을 나타낸다. 제 2 관점에 따라, 균열없는 파노라믹 모자이크를 생성하는 방법을 설명할 것이며, 이는 이미지 간의 결합(stiching)이 신 내의 객체로부터의 부분 절단을 가능한 한 방지하는 것이며, 이는 객체가 이동할 수 있는 경우에도 적용된다.

7. 3D 민-컷(min-cut)을 사용한 파노라믹 이미지 생성

I₁,...,I_N을 입력 시퀀스의 프레임이라고 한다. 시퀀스는 종래의 방법 중 하나를 사용하여 단일 레퍼런스 프레임에 정렬된다고 가정한다. 단순화를 위해, 정렬 후 모든 프레임은 동일한 사이즈(카메라의 시야 영역의 외측 픽셀은 비유효(non-valid)라고 표시될 것이다)라고 가정한다. 또한 카메라가 시계 방향으로 패닝(panning) 한다고 가정한다. (상이한 움직임이 유사한 방식으로 다루어질 수 있다.)

P(x,y)는 구성된 파노라믹 이미지라고 한다. P 내의 각 픽셀 (x,y)를 위해, 상기 픽셀을 취한 곳으로부터 프레임 M(x,y)를 선택할 필요가 있다. (즉, M(x,y)=k이면 P(x,y) = I_k(x,y)). 명백하게, 카메라가 시계 방향으로 패닝한다는 가정하에서, 좌측 열(column)은 첫 프레임으로부터 취해야 하며, 우측 열은 마지막 프레임으로부터 취해야 한다. (다른 경계 조건이 더 작은 시야 영역의 파노라믹 이미지를 생성하기 위해 선택될 수 있다.)

궁극적인 목표는 균열없는 파노라믹 이미지를 생성하는 것이다. 이를 수행하기 위해, 객체 내부의 결합을 피하도록 노력해야할 것이며, 특히 객체가 이동하는 경우이다. [1]에서 사용된 스코어와 유사한 균열 스코어(seam score)를 사용하나, 그러나 NP-난제(hard problem)를 해결(근사적으로)하는 대신이며, 보다 제한된 문제를 위한 최적의 해를 구할 것이다:

8. 에너지 최소화 문제(Energy Minimization Problem)로의 문제 공식화

전술한 공식과의 주된 차이점은 결합 비용(stiching cost)이며, 이는 다음과 같이 정의된다:

여기서:

min M = min(M(x,y),M(x',y'))

max M = max(M(x,y),M(x',y')) 이다.

상기 비용은 프레임의 할당이 연속적이라고 가정하는 경우 합리적이며, 이는 (x,y) 및 (x',y')가 인접하는 픽셀(neighboring pixel)임을 의미하며, 소스 프레임 M(x,y) 및 M(x',y')는 근접하다. 상기 비용의 주된 효과는 상기 문제를 그래프 상의 민-컷 문제로 해결하도록 해주는 것이다.

최소화할 에너지 함수는 다음과 같다:

여기서:

N(x,y)는 (x,y)의 인접한 픽셀(pixels in the neighborhood)이다.

E(x,y,x',y')는 각 인접 픽셀을 위한 결합 비용이며, 이는 식 1에 기술된 바와 같다.

Valid(x,y,k)가 1 ⇔ Ik(x,y)는 유효한 픽셀이다.(즉, 카메라의 시야 영역 내이다.)

D는 매우 큰 수이다.(무한대를 의미)

9. 단일 파노라마의 구축

다음으로 2D 멀티-라벨 문제(지수적 복잡도(exponential complexity)을 가진다)를 3D 이진 문제(다항의 복잡도(polynomial complexity)을 가지고, 실제적으로 신속하게 해결할 수 있다)로 변환하는 방법을 설명한다. 각각의 픽셀 x,y 및 입력 프레임 k를 위해, M(x,y)≤ k인 경우 및 그 경우에 한하여 1인 이진 변수 b(x,y,k)를 정의한다. (M(x,y)는 픽셀 (x,y)의 소스 프레임이다.)

각각의 1≤k≤N에 대해 주어진 b(x,y,k)를 유의하며, b(x,y,k) = 1인 최소의 k인 경우의 M(x,y)를결정할 수 있다. 에너지 항을 작성할 것이며, 상기 에너지 항의 최소화는 균열 없는 파노라마를 제공할 것이다. 각각의 근접 픽셀 (x,y) 및 (x',y')를 위해 그리고 각각의 k를 위해, 오차 항(error term)을 추가한다:

이는 b(x,y,k)≠b(x',y',k')인 경우 할당(assignment)을 위함이다.(상기 오차 항은 대칭적이다.)

또한 b(x,y,k)=1 이지만 b(x,y,k+1)=0인 경우의 할당을 위해 무한의 페널티(infinite penalty)를 추가한다. (이는 M(x,y)≤k는 불가능하나 M(x,y)＞k인 것과 같다.)

최종적으로, I_k(x,y)가 비유효한 픽셀인 경우, k＞1 또는 k=1의 b(x,y,k)=1이면 할당 b(x,y,k)=1∧b(x,y,k+1)=0에 무한한 페널티를 부여함으로써 상기 픽셀의 선택을 막을 수 있다. (상기 할당은 M(x,y)=k를 함축한다.)

위의 모든 항은 3D 그리드(grid)에서 변수 쌍(pairs of vaiables)이며, 따라서 3D 이진 MRF 상에서 에너지 함수의 최소화로써 기술할 수 있고, 민-컷[9]을 사용한 다항의 시간(polynomial time) 상에서 최소할 수 있다.

10. 4D 민-컷을 사용한 파노라믹 무비의 생성

파노라믹 무비(길이 L)의 생성을 위해, 파노라믹 이미지의 시퀀스를 생성해야 한다. 각각의 파노라믹 이미지를 독립적으로 구성하는 것은 바람직하지 않으며, 이는 시간적 일관성이 강조되지 않기 때문이다. 다른 방법은 첫 프레임으로서 초기 모자이크 이미지로 시작하고, 연속적인 모자이크 이미지를 위해 이전 모자이크로부터 사용된 연속적인 프레임으로부터 각각의 픽셀을 취한다(M_l(x,y)=M(x,y)+l). 이 가능성(possibility)은 도면의 도 2b를 참조로 상술한 바와 유사하다.

본 발명의 제 2 관점에 따르면, 상이한 공식을 대신 사용하며, 이는 임의의 파노라믹 프레임으로부터 다른 파노라믹 프레임으로 변화할 기회를 결합에 부여하며, 이는 이동하는 객체를 성공적으로 결합하기 위해 매우 중요하다.

전술한 3D 그래프의 L 경우(instance)로 구성된 4D 그래프를 구성한다:

b(x,y,k,l)=1 ⇔ Ml(x,y)≤k.

시간적 일관성을 실시하기 위해, 각각의 l<L에 대해 할당 b(x,y,N,l)=1에 무한의 페널티(infinite penalty)를 부여하고, 각각의 l>1에 대해 할당 b(x,y,1,l)=0에 무한의 페널티를 부여한다.

또한, 각각의 (x,y,k,l) (1≤l≤L-1, 1≤k≤N-1)을 위해 비용 함수를 다음과 같이 설정한다:

이는 할당 b(x,y,k,l)=1≠b(x,y,k+1,l+1)에 대한 것이다. (k=N-1을 위해 비용의 좌측 항(left term)만을 사용한다.) 상기 비용은 최종 무비에서 (시간적) 연속적인 픽셀의 표시를 조장한다. (예를 들면, 상기 픽셀이 배경에 있지 않은 경우이다.)

상기 방법의 변형은 각각의 픽셀 (x,y)을 연속적인 프레임의 동일한 픽셀에 연결하지 않으며, 픽셀 (u,v)의 시각적 흐름(optical flow)에 따른 해당 픽셀 (x+u,y+v)에 연결한다. 시각적 흐름을 계산하는 적절한 방법은 발견될 수 있으며, 예를 들면 [19]에서 발견할 수 있다. 시각적 흐름의 사용은 이동하는 객체의 경우를 보다 제대로 조작한다.

또 다시, 민-컷을 4D 그래프 상에 사용함으로써 에너지 함수를 최소화할 수 있으며, 이진 해(binary solution)는 결합 문제를 감소하는 파노라믹 무비를 정의한다.

11. 실제적인 개선책(Practical Improvements)

4D 그래프를 저장하기 위해서는 방대한 양의 메모리가 요구될 수 있다. 따라서, 메모리 요구 및 알고리즘의 실행 시간(runtime)을 모두 감소하는 다수의 개선 책을 사용한다:

● 전술한 바와 같이, 에너지는 비유효 픽셀(non-valid pixel)에 대한 버텍스들(vertices)을 명백히 저장하지 않으면서 최소화할 수 있다. 따라서 버텍스들의 개수는 입력 비디오 내의 픽셀의 개수로 감소하며, 출력 비디오 내의 프레임 개수만큼 곱해진다.

● 출력 비디오 내의 각 프레임에 대해 해결하는 대신, 출력 프레임의 샘플된 세트(sampled set)에 대해서만 해결할 수 있으며, 상기 샘플된 세트 간의 결합 함수(stiching function)를 인터폴레이트(interpolate)할 수 있다. 이 개선책은 신 내의 모션이 매우 크지 않다는 가정을 기반으로 한다.

● 각 픽셀이 입력 프레임의 부분적인 세트(partial set)로부터만 나오도록 제한할 수 있다. 이는 특히 비디오로부터 취한 프레임의 시퀀스에 대해서 이치에 부합하며, 이 경우 연속적인 프레임의 각각의 쌍(each pair of consecutive frames) 간의 모션은 매우 작다. 이 경우, 각 픽셀을 위한 소스 프레임의 세트를 샘플링함에 의해서 많은 부분을 잃지는 않을 것이다. 그러나 일관된 방법으로 소스 프레임을 샘플링하는 것이 바람직하다. 예를 들면, 프레임 k가 l 번째 출력 ㅍ mfp임 내의 픽셀 (x,y)을 위한 가능한 소스인 경우, k+1 프레임은 l+1 번째 출력 프레임 내의 픽셀 (x,y)를 위한 가능한 소스 프레임이어야 한다.

● 다중-해상도 프레임워크(multi-resolution framework)를 사용하며([2]에서 예로서 수행된 바와 같다), 이는 저 해상도 이미지를 위해 열등한 해(coarse solution)를 제공하고 (흐리게하고(blurring) 서브샘플링(sub-sampling)한다), 상 기 해는 오직 경계(boundary)에서만 다듬어진다.

12. 비디오와 관심 스코어(Interest Score)의 조합

이하 관심 스코어에 따른 무비 조합(combining movies) 방법을 기술한다. 다수의 응용(application), 예컨대 집약되는(denser)(또는 드물어지는(sparser)) 액티비티의 무비를 생성하거나, 사용자의 특정 방법으로 신을 제어하는 방법이 있다.

[14]에 기술된 다이내믹 파노라마는 특수한 경우로 간주될 수 있으며, 이는 동일한 무비의 상이한 부분이 결합되어 보다 넓은 시야 영역(field of view)의 무비를 획득하며: 이 경우에서, 관심 스코어는 각각의 시간 상에서 각각의 픽셀의 "가시성(visibility)"에 따라 정의된다. 보다 일반적으로, 동일한 무비의 상이한 부부분(시간 또는 공간 상에서 시프트함)을 조합함은 다른 경우에서 사용될 수 있다. 예를 들면, 무비에서 액티비티를 보다 집약되게 제작하기 위해, 동작(action)이 발생한 무비의 상이한 부분을 많은 동작이 있는 새로운 무비에 조합할 수 있다. 도 1 내지 8을 참조로 상술된 실시예는 액티비티를 최대화하는 특수한 경우를 기술하고, 상이한 방법론을 사용한다.

언급되어야 할 두 개의 쟁점은 다음과 같다:

1. 무비를 "질 좋은(good looking)" 무비로 조합하는 방법이다. 예를 들면, 결합 문제(stiching problem)을 방지하는 것이 있다.

2. 관심 스코어를 최대화하는 방법이다.

이하 사용될 수 있는 상이한 스코어를 기술하는 것으로 시작하여, 그리고 나 서 무비를 조합하기 위해 사용되는 구성을 기술한다.

무비를 위한 관심 함수(interest function)로서 사용될 수 있는 주된 특징 중 하나는 픽셀의 "중요도(importance)" 레벨이다. 실험에서는, 픽셀의 "액티비티"가 픽셀의 중요도를 표시하는 것으로 간주하였으나, 중요도의 다른 측정도 역시 적합하다. 액티비티 레벨의 평가 자체는 본 발명의 특징은 아니며, 섹션 1(액티비티 검출)에 상술한 다양한 방법 중 하나를 사용함으로써 수행될 수 있다.

13. 다른 스코어

무비를 조합하기 위해 사용될 수 있는 다른 스코어는 다음과 같다:

● 가시성 스코어(Visibility Score): 카메라가 움직이는 경우 또는 비디오 내의 홀(hole)을 채우도록 시도하는 경우, 보이지 않는 픽셀이 존재한다. 이에 대해 비유효 픽셀을 불리하게(penalize) 할 수 있다.(무한한 스코어(infinite score)를 사용할 필요는 없음) 상기 방법으로, 홀을 채우는 것을 조장할 수 있으나(또는 시양 영역을 확장할 수 있으나), 홀을 채우지 않는 것을 선호하거나, 또는 홀을 채우는 것이 열악한 결합(stiching)을 초래하는 경우 작은 시야 영역을 사용할 수 있다.

● 배향(Orientation): 액티비티 측정은 지향하는(directional) 방법으로 대체될 수 있다. 예를 들면, 수직으로 이동하는 영역보다 수평으로 이동하는 영역을 선호할 수 있다.

● 사용자 특정(User specified): 사용자는 선호하는 관심 함수, 예컨대 색 깔, 텍스쳐 등을 특정할 수 있다. 또한, 사용자는 수동으로 영역을 (및 시간 슬랏(time slot)) 상이한 스코어로 특정할 수 있다. 예를 들면, 마스크(mask)를 그림에 있어서, 1은 최대 액티비티가 요구됨을 표시하며, 반면에 0은 액티비티가 없음이 요구됨을 표시하며, 사용자는 신 내의 다이내믹을 제어하여, 특정 장소에서 발생하게 한다.

14. 알고리즘

[20]에 사용된 방법과 유사한 방법을, 다음과 같은 변경을 적용하여 사용한다:

● 일 무비 또는 다른 무비로부터 선택된 각각의 픽셀에 대해 관심 스코어를 추가한다. 상기 스코어는 각 무비의 각 픽셀로부터 종단의 버텍스(terminal vertices)(소스 및 싱크)까지의 가장자리(edge)를 사용하여 추가될 수 있으며, 상기 가장자리의 가중치는 관심 스코어이다.

● (선택적으로) 각각의 연속적인 프레임의 쌍(consecutive pair of frames) 간의 광학적 흐름(optical flow)을 계산한다. 그리고 나서, 일관성을 강조하기 위해, 시간적 주변(temporal neighbors) ((x,y,t)에서 (x,y,t+1)) 간의 가장자리를 광학적 흐름에 따른 주변(neighbor) ((x,y,t)에서 (x+u(x,y),y+v(x,y),t+1)) 간의 가장자리로 대체한다. 이는 보다 두드러지지 않는 흐름을 뒤따르게 하도록 결합(stich)를 조장함으로써, 결합된 무비(stiched movie) 간의 변천(transition)을 강화한다.

● 조합할 무비의 부분(또는 무비)을 결정하는 경우, 결합 비용뿐만 아니라 관심 스코어도 고려해야 한다. 예를 들면, 집약되는 액티비티 레벨의 무비를 생성하는 경우, 스코어를 최대화하는 무비의 세트 S를 선택한다.

도 9b는 무비의 액티비티 밀도(activity density)가 향상됨에 따른 위 효과를 설명하는 그림 표현이며, 원본 프레임은 도 9a에 도시된다. 두 개 이상의 무비가 조합되는 경우, 반복적인 접근 방법(iterative approach)을 사용하며, 여기서 각 반복(iteration)마다 새로운 무비가 최종 무비(resulting movie)로 조합된다. 정확하게 수행하기 위해, 이전 반복으로부터 야기된 이전 균열(old seams) 및 이전 스코어를 고려해야 한다. 관심 스코어는 없지만, 이 구성은 [20]에 의해 기술된다. 최종 비디오로부터의 샘플 프레임은 도 9b에 도시된다.

도 10은 프로세스의 개략도이다. 상기 예에서, 비디오는 그 자체가 시간적으로 시프트된 버전과 조합된다. 조합(combination)은 상술한 조건(criteria), 즉 관심 스코어는 최대화하는 반면 결합 비용(stiching cost)은 최소화함)에 따른 민-컷을 사용하여 수행된다.

도 11을 언급하면, 카메라(11)에 의해 캡쳐된 제 1 다이내믹 신의 비디오 프레임의 제 1 시퀀스를 제 2 다이내믹 신을 묘사하는 최소 두 개의 비디오 프레임의 제 2 시퀀스로 변환하기 위한 본 발명에 따른 시스템(10)의 블록도를 도시한다. 상기 시스템은 각각의 x,y 좌표에 위치된 다수의 픽셀을 포함하는 최소 하나의 객체의 움직임을 나타내는, 제 1 시퀀스 내의 비디오 프레임의 서브셋을 저장하는 제 1 메모리(12)를 포함한다. 선택 유닛(13)은 상기 제 1 메모리(12)와 연결되며, 상기 서브셋으로부터 상기 제 1 다이내믹 신 내의 최소 하나의 객체의 비공간적 중복 출현(non-spatially overlapping appearances)을 나타내는 포션(portion)을 선택한다. 프레임 생성기(14)는 상기 포션(portion)을 최소 세 개의 상이한 입력 프레임으로부터 상기 제 2 시퀀스의 최소 두 개의 연속적인 프레임으로, 상기 객체의 픽셀의 각각의 x,y 좌표의 변화 없이 카피하고, 그러한 제 2 시퀀스의 최소 하나의 프레임은 제 1 시퀀스 내의 상이한 프레임에 출현한 최소 두 개의 포션을 포함한다. 제 2 시퀀스의 프레임은 수반하는 프로세싱 또는 표시 유닛(16)에 의해 표시하기 위해 제 2 메모리(15) 내에 저장된다. 상기 프레임 생성기(14)는 제 2 시퀀스로 카피하기 전에 최소 두 개의 포션(portion)을 공간적으로 워핑하기 위한 워핑 유닛(warping unit)(17)을 포함할 수 있다.

상기 시스템(10)은 실제에서는 종래 기술에 잘 알려진 바와 같은, 그래픽 카드를 구비한 적절하게 프로그램된 컴퓨터 또는 워크스테이션과 적절한 주변 장치에 의해 실현될 수 있다.

상기 시스템(10)에서, 최소 세 개의 상이한 입력 프레임은 시간적으로 인접할 수 있다. 상기 시스템(10)은 비디오 프레임의 제 1 시퀀스를 예비-정렬(pre-aligning)하기 위한 상기 제 1 메모리와 연결된 선택적인 정렬 유닛(18)을 더 포함할 수 있다. 이 경우에서, 상기 카메라(11)는 상기 정렬 유닛(18)과 연결될 것이며, 상기 제 1 메모리(12) 내에 예비-정렬된 비디오 프레임을 저장한다. 상기 정렬 유닛(18)은 다음과 같은 단계로 동작할 수 있다:

제 1 시퀀스 내의 프레임 간의 이미지 모션 파라미터를 계산하는 단계;

제 1 다이내믹 신 내의 정적인(stationary) 객체가 비디오 내에서 정적으로 되도록 제 1 시퀀스 내의 비디오 프레임을 워핑하는 단계.

이와 같이, 상기 시스템(10)은 정렬된 공간-시간 체적을 "타임 프론트(time front)" 표면에 의해 쓸어내리고(sweeeping) 타임 슬라이스(time sllices)의 시퀀스를 생성하며 상기 선택 유닛(13)과 연결되는 선택적인 타임 슬라이스 생성기(time slice generator)(19)를 더 포함할 수 있다.

"타임 프론트" 및 "타임 슬라이스"는 참조로 한 상술한 WO2006/048875에 충분히 기술되었기 때문에, 위의 선택적인 특징은 상세하게 기술되지 않는다.

완전함을 위해, 도 12는 본 발명에 따른 상기 시스템(10)에 의해 수행된 이론적 동작을 도시한다.

15. 토의

비디오 시놉시스 비디오 내의 액티비티를 매우 짧은 시간 간격으로 압축하는 접근 방법으로 제시되었다. 상기 압축된 표현은 비디오 시퀀스 내의 액티비티로의 효율적인 접근을 허용할 수 있다. 두 개의 접근 방법이 제시되었다: 일 접근 방법은 저-레벨 그래프 최적화(low-level graph optimization)를 사용하며, 여기서 시놉시스 비디오 내의 각 픽셀은 상기 그래프 내의 노드(node)이다. 상기 접근 방법은 입력 비디오로부터 시놉시스 비디오를 직접 획득하는 이점을 가지나, 해의 복잡 도가 매우 높을 수 있다. 대신할 수 있는 접근 방법은 먼저 이동하는 객체를 검출하고, 상기 검출된 객체에 대해 최적화를 수행한다. 제 2 접근 방법에서는 모션 분할(motion segmentation)의 예비 단계가 필요하지만, 이는 더욱 신속하며, 객체 기반 제약(object based constraint)이 가능하다. 최종 비디오 시놉시스 내의 액티비티는 임의의 원본 비디오 내의 액티비티보다 더욱 압축되고, 그러한 시놉시스를 관찰하는 것은 비숙련 관찰자에게 어색할 수 있다. 그러나, 짧은 시간 내에 많은 정보를 관찰하는 것이 목표인 경우에는, 비디오 시놉시스는 이 목표를 달성시킨다. 특별한 주의가 다이내믹 스트로보스코피(dynamic stroboscopy) 획득의 가능성에 부여되어야 한다. 비디오 시놉시스의 길이의 감축을 더욱 허용하는 한, 다이내믹 스트로보스코피는 사용자에게 더욱 적응이 필요할 수 있다. 단일 객체의 다수의 곤간적 출현은 더욱 긴 액티비티 시간을 나타내는 것을 인식하기 위해서는 임의의 훈련이 필요하다. 다이내믹 비디오 시놉시스를 위한 구체적인 구현을 상세하게 설명하였으나, 많은 확장이 용이하게 가능하다. 예를 들면, 이진 "액티비티" 표시자(binary activity indicator)를 가지는 것보다, 액티비티 표시자(activity indicator)가 연속적일 수 있다. 연속적인 액티비티는 시놉시스 비디오를 생성하는 유효한 선택 사항들을 확장할 수 있으며, 예를 들어 객체의 액티비티 레벨을 기반으로 한 표시된 객체의 속도를 제어하는 것이다. 비디오 시놉시스는 많은 샷(shots)으로 구성된 긴 무비에 적용될 수도 있다. 이론적으로, 교합 페널티(occlusion penalty) 또는 불연속성 페널티(discontinuity penalty)에 기인한 상이한 신으로부터의 부분(parts)을 함께 결합하지 않을 것이다. 이 경우에서, 단일 의 샷을 위해 사용되는 단일의 배경 모델은 조절가능한 배경 평가자(estimator)로 교체되어야 한다. 긴 무비에 적용될 수 있는 다른 접근 방법은 샷 경계 검출을 위한 종래의 방법을 사용하고 각각의 샷에 개별적으로 비디오 시놉시스를 생성하는 것이다.

본 발명에 따른 시스템은 적절하게 프로그램된 컴퓨터일 수 있다. 이와 같이, 본 발명은 컴퓨터에 의해 읽을 수 있는 컴퓨터 프로그램을 수행하여 본 발명의 방법을 실행한다. 본 발명은 기계에 의해 실행가능한 지시 프로그램이 실체적으로 구현된 머신-리더블 메모리를 더 포함하여 본 발명의 방법을 수행한다.

Claims

제 1 다이내믹 신(dynamic scene)의 비디오 프레임의 제 1 시퀀스를, 제 2 다이내믹 신을 묘사하는(depicting) 적어도 두 개의 비디오 프레임의 제 2 시퀀스로 변환하여, 비디오 시놉시스를 생성하는 컴퓨터-구현 방법으로서,

(a) 적어도 하나의 객체(object)의 움직임을 나타내는 상기 제 1 시퀀스 내의 비디오 프레임의 서브셋(subset)을 획득하는 단계(상기 적어도 하나의 객체는 각각의 x,y 좌표에 위치된 다수의 픽셀을 포함함);

(b) 상기 서브셋으로부터, 상기 제 1 다이내믹 신 내의 상기 적어도 하나의 객체의 비공간적 중복 출현(non-spatially overlapping appearances)을 나타내는 포션들(portions)을 선택하는 단계; 및

(c) 상기 포션들을 적어도 세 개의 서로 다른 입력 프레임들로부터 상기 제 2 시퀀스의 적어도 두 개의 연속적인 프레임들로 카피하는 단계로서, 상기 객체 내의 픽셀의 각각의 x,y 좌표는 변경되지 않은 채 카피하는 단계를 포함하며,

상기 제 2 시퀀스의 적어도 하나의 프레임은 상기 제 1 시퀀스 내의 서로 다른 프레임들에 출현한 적어도 두 개의 포션들을 포함하고, 제 1 비디오 시퀀스 내에서 동시에 나타나는 적어도 두 개의 객체는 제 2 비디오 시퀀스 내에서 서로 다른 시간에 표시되는 것을 특징으로 하는

비디오 시놉시스를 생성하는 컴퓨터-구현 방법.
제 1항에 있어서,

상기 적어도 두 개의 포션들은 공통된 객체에 관련되는 것을 특징으로 하는

비디오 시놉시스를 생성하는 컴퓨터-구현 방법.
제 1항 또는 제 2항에 있어서,

상기 서브셋으로부터 포션들을 선택하는 단계는 관심 스코어(interest score)를 결정하는 단계를 포함하는 것을 특징으로 하는

비디오 시놉시스를 생성하는 컴퓨터-구현 방법.
제 3항에 있어서,

상기 관심 스코어는 액티비티의 측정(measure)인 것을 특징으로 하는

비디오 시놉시스를 생성하는 컴퓨터-구현 방법.
제 1항에 있어서,

상기 제 2 시퀀스는 상기 제 1 다이내믹 신 내의 관심있는 모든 객체를 포함하는 것을 특징으로 하는

비디오 시놉시스를 생성하는 컴퓨터-구현 방법.
제 1항에 있어서,

상기 제 2 시퀀스 내에도 출현하는 상기 제 1 다이내믹 신 내의 관심있는 객체의 개수는, 상기 개수를 최대화하는 것과 상기 제 2 시퀀스의 시각적 호감(appeal)을 유지하는 것 간에 트레이드오프(tradeoff)되어 결정되는 것을 특징으로 하는

비디오 시놉시스를 생성하는 컴퓨터-구현 방법.
제 1항에 있어서,

상기 제 1 다이내믹 신은 고정된 위치에서 카메라에 의해 캡쳐되는 것을 특징으로 하는

비디오 시놉시스를 생성하는 컴퓨터-구현 방법.
제 7항에 있어서,

상기 카메라는 상기 고정된 위치에서 축(axis)에 대해 회전되고, 상기 x,y 좌표는 전역 좌표(global coordinate)인 것을 특징으로 하는

비디오 시놉시스를 생성하는 컴퓨터-구현 방법.
제 1항에 있어서,

상기 제 1 시퀀스의 상기 적어도 세 개의 서로 다른 입력 프레임들은 시간적으로 인접한(temporally contiguous) 것을 특징으로 하는

비디오 시놉시스를 생성하는 컴퓨터-구현 방법.
제 1항에 있어서,

상기 제 2 시퀀스로 카피하는 단계 전에, 적어도 두 개의 상기 포션들을 공간적으로 워핑(warping)하는 단계를 포함하는 것을 특징으로 하는

비디오 시놉시스를 생성하는 컴퓨터-구현 방법.
제 1항에 있어서,

상기 선택된 포션들은 상기 제 1 다이내믹 신 내에서 공간적으로 인접한 것을 특징으로 하는

비디오 시놉시스를 생성하는 컴퓨터-구현 방법.
제 1항에 있어서,

정렬된 공간-시간 체적(space-time volume)을 생성하기 위해 비디오 프레임의 상기 제 1 시퀀스를 예비-정렬(pre-aligning)하는 단계를 포함하며,

상기 예비-정렬하는 단계는:

(a) 상기 제 1 시퀀스 내의 프레임 간의 이미지 모션 파라미터를 계산하는 단계; 및

(b) 상기 제 1 다이내믹 신 내의 정지된 객체(stationary object)가 비디오 내에서 정지되어 있도록, 상기 제 1 시퀀스 내의 상기 비디오 프레임을 워핑하는 단계를 포함하는 것을 특징으로 하는

비디오 시놉시스를 생성하는 컴퓨터-구현 방법.
제 1항에 있어서,

적어도 하나의 선택된 포션은 고속으로 이동하는 객체와 관련되는 것을 특징으로 하는

비디오 시놉시스를 생성하는 컴퓨터-구현 방법.
제 12항에 있어서,

이미지 슬라이스(image slices)를 선택하는 단계는, 상기 정렬된 공간-시간 체적을 "타임 프론트(time front)" 표면에 의해 쓸어내리는(sweeping) 단계 및 타임 슬라이스(time slices)의 시퀀스를 생성하는 단계를 포함하는 것을 특징으로 하는

비디오 시놉시스를 생성하는 컴퓨터-구현 방법.
삭제
제 1항에 있어서,

비디오 시놉시스를 위해 사용되는 것을 특징으로 하는

비디오 시놉시스를 생성하는 컴퓨터-구현 방법.
제 16항에 있어서,

감시를 위해 사용되는 것을 특징으로 하는

비디오 시놉시스를 생성하는 컴퓨터-구현 방법.
제 16항에 있어서,

무비(movie)의 액티비티 밀도(density)를 증가시키기 위해 사용되는 것을 특징으로 하는

비디오 시놉시스를 생성하는 컴퓨터-구현 방법.
제 16항에 있어서,

비디오 인덱싱(video indexing)을 위해 사용되는 것을 특징으로 하는

비디오 시놉시스를 생성하는 컴퓨터-구현 방법.
제 19항에 있어서,

상기 제 2 시퀀스 내의 각각의 픽셀을 위해, 상기 제 1 시퀀스 내의 해당 픽셀에 대한 포인터(pointer)를 유지하는 단계를 포함하는 것을 특징으로 하는

비디오 시놉시스를 생성하는 컴퓨터-구현 방법.
삭제
제 1 다이내믹 신의 비디오 프레임의 제 1 시퀀스를, 제 2 다이내믹 신을 묘사하는 적어도 두 개의 비디오 프레임의 제 2 시퀀스로 변환하여, 비디오 시놉시스를 생성하는 시스템(10)으로서,

컴퓨터 프로세서;

적어도 하나의 객체의 움직임을 나타내는 상기 제 1 시퀀스 내의 비디오 프레임의 서브셋을 저장하는 제 1 메모리(12)(상기 적어도 하나의 객체는 각각의 x,y 좌표에 위치된 다수의 픽셀을 포함함);

상기 제 1 메모리와 연결되며, 상기 서브셋으로부터 상기 제 1 다이내믹 신 내의 상기 적어도 하나의 객체의 비공간적 중복 출현을 나타내는 포션들을 선택하는 선택 유닛(13);

상기 포션들을 적어도 세 개의 서로 다른 입력 프레임들로부터 상기 제 2 시퀀스의 적어도 두 개의 연속적인 프레임들로 카피하는 프레임 생성기(14)(상기 카피는 상기 객체 내의 픽셀의 각각의 x,y 좌표가 변경되지 않은 채 수행되고, 상기 제 2 시퀀스의 적어도 하나의 프레임은 상기 제 1 시퀀스 내의 서로 다른 프레임들에 출현한 적어도 두 개의 포션들을 포함함); 및

상기 제 2 시퀀스의 프레임을 저장하는 제 2 메모리(15)를 포함하고,

제 1 비디오 시퀀스 내에서 동시에 나타나는 적어도 두 개의 객체는 제 2 비디오 시퀀스 내에서 서로 다른 시간에 표시되고, 상기 선택 유닛과 상기 프레임 생성기는 상기 컴퓨터 프로세서에 의해 실행되는 것을 특징으로 하는

비디오 시놉시스를 생성하는 시스템.
제 22항에 있어서,

상기 제 2 메모리와 연결되며, 상기 제 2 다이내믹 신을 표시하는 표시 장치(16)를 더 포함하는 것을 특징으로 하는

비디오 시놉시스를 생성하는 시스템.
제 22항 또는 제 23항에 있어서,

상기 적어도 세 개의 서로 다른 입력 프레임들은 시간적으로 인접한 것을 특징으로 하는

비디오 시놉시스를 생성하는 시스템.
제 22항에 있어서,

상기 프레임 생성기는:

상기 제 2 시퀀스로 카피하기 전에 적어도 두 개의 상기 포션들을 공간적으로 워핑하는 워핑 유닛(17)을 포함하는 것을 특징으로 하는

비디오 시놉시스를 생성하는 시스템.
제 22항에 있어서,

상기 제 1 메모리와 연결되며, 비디오 프레임의 상기 제 1 시퀀스를 예비-정렬하는 정렬 유닛(18)을 더 포함하고,

상기 예비-정렬은:

(a) 상기 제 1 시퀀스 내의 프레임 간의 이미지 모션 파라미터를 계산하는 단계; 및

(b) 상기 제 1 다이내믹 신 내의 정지된 객체가 비디오 내에서 정지되어 있도록 상기 제 1 시퀀스 내의 상기 비디오 프레임을 워핑하는 단계에 의해 수행되는 것을 특징으로 하는

비디오 시놉시스를 생성하는 시스템.
삭제
컴퓨터 판독가능 프로그램을 구비하는 비일시적(non-transitory) 컴퓨터 판독 가능 기록매체로서,

컴퓨터 판독가능 프로그램은, 제 1 항의 방법을 수행하도록 구성된 컴퓨터 판독 가능 프로그램을 포함하는

컴퓨터 판독 가능 기록 매체.
삭제