KR101456652B1

KR101456652B1 - 비디오 인덱싱 및 비디오 시놉시스 방법 및 시스템

Info

Publication number: KR101456652B1
Application number: KR1020097018271A
Authority: KR
Inventors: 쉬무엘 벨렉; 야엘 프리치; 알렉산더 라브-아차; 아비탈 구트만
Original assignee: 이섬 리서치 디벨러프먼트 컴파니 오브 더 히브루 유니버시티 오브 예루살렘 엘티디.
Priority date: 2007-02-01
Filing date: 2007-12-09
Publication date: 2014-11-04
Also published as: JP2010518673A; US20130027551A1; CN101689394A; CA2676632A1; BRPI0720802B1; US20100092037A1; KR20090117771A; BRPI0720802A2; CA2676632C; EP2119224A1; AU2007345938A1; JP5355422B2; AU2007345938B2; CN101689394B; EP3297272A1; WO2008093321A1; US8818038B2; US8311277B2

Abstract

소스 비디오로부터 시놉시스 비디오를 만드는 시스템 및 방법에 있어서, 적어도 3개의 다른 소스 객체들이 하나 이상 정의된 제약에 따라 선택되고, 각 소스 객체는 상기 소스 비디오의 적어도 3개의 다른 프레임으로부터 이미지 포인트들의 연결된 서브세트이다. 하나 이상의 시놉시스 객체들이 특정 시간주기로부터 도출된 이미지 포인트들을 이용해 시간 샘플링에 의해 각 선택된 소스 객체로부터 샘플된다. 각 시놉시스 객체에 대해 상기 시놉시스 비디오에서 디스플레이를 시작하기 위한 각각의 시간이 결정되고 각 시놉시스 객체와 각 프레임에 대해 상기 시놉시스 객체를 디스플레이 하기 위한 각각의 컬러변환이 결정될 수 있다. 시놉시스 비디오는 각각의 시간과 컬러변환시 선택된 시놉시스 객체를 디스플레이함으로써 디스플레이되어, 상기 시놉시스 비디오에서 상기 소스 비디오에서 각각 다른 시간에서 각각 도출된 적어도 3개의 포인트들이 동시에 디스플레이된다.

비디오 인덱싱, 비디오 시놉시스, 시놉시스 객체

Description

비디오 인덱싱 및 비디오 시놉시스 방법 및 시스템{Method and System for Video Indexing and Video Synopsis}

본 출원은 2006년 11월 15일자로 출원된 발명의 명칭이 "Method and system for producing a video synopsis"이며 2007년 5월 24일자로 공개된 WO 2007/057893(래브-아카(Rav-Acha) 등)의 일부계속출원이며, 2007년 2월 1일자로 출원된 가출원 일련번호 No 60/898,698; 2007년 4월 13일자로 출원된 60/911,839; 및 2007년 9월 12일자로 출원된 60/971,582의 우선권 혜택을 주장하며, 상기 참조문헌의 모든 내용은 본 명세서에 참조로 포함되어 있다.

본 발명은 비디오 요약 및 비디오 인덱싱 분야에 관한 것이다.

종래 기술

본 발명에 대한 배경으로 관련된 것으로 고려되는 종래 기술의 참조문헌들이 하기에 열거되어 있으며 상기 내용들은 본 명세서에 참조로 합체되어 있다. 추가 참조문헌들은 상술한 미국 가출원 일련번호 60/898,698; 60/911,839; 및 60/971,582에 언급되어 있고 상기 내용들은 본 명세서에 참조로 합체되어 있다. 본 명세서에서 상기 참조문헌들의 시인은 본 명세서에 개시된 본 발명의 특허성에 대해 이들이 어떤 식으로든 관련 있는 것을 의미하는 것으로 결론짓지 않아야 한다. 각 참조문헌은 []에 포함된 번호로 표시되며 따라서 종래 기술은 []에 포함된 번호로 명세서 전체에 걸쳐 언급될 것이다.

[1] A.Agarwala, M. Dontcheva, M. Agawala, S. Drucker, A. Colburm, B. Curless, D. Salesin, 및 M. Cohen. Interactive digital photomontage, In SIGGRAPH, 페이지 294-302, 2004년

[2] Y. Boykov 및 V. Kolmogorov. An experimental comparison of min-cut/max-flow algorithems for energy mminimization in vision. IEEE Trans. on Pattern Analysis and Machine Intelligence, 26(9):1124-1137, 2004년 9월

[3] S. Cohen. Background estimation as a laveling problem. In ICCV'05, 페이지 1034-1041, 워싱톤 DC, 2005년

[4] A. Divakaran, K. Peker, R. Radhakrishnan, Z. Xiong, 및 R. Cabasson. Video summarization using mpeg-7 motion activity and audio descriptors. Technical Report TR-2003-34, MERL - A Mitsubishi Electirc Research Laboratory, Cambridge, 메사츄세츠, 2003년 5월

[5] G. Doretto, Chiuso, Y. Wu, 및 S. Soatto. Dynamic textures, Int. J. Computer Vision, 51:91-109. 2003

[6] M. Irani, P. Anadndan, J. Bergern, R. Kumar, 및 S. Hsu. Efficient representations of video sequences and their applications. Signal Processing: Image Communication, 8(4):327-351, 1996년

[7] H. Kang, Y. Matsushita, X. Tang, 및 X. Chen. Space-time video motage. In CVPR'06, 페이지 1331-1338, 뉴욕, 2006년 6월

[8] C. Kim 및 J. Hwang. An integrated scheme for object-based video abstraction. In ACM Multimedia, 페이지 303-311, 뉴욕, 2000년

[9] S. Kirkpatrick, C.D. Gelatt, 및 M.P. Vecchi. Optimization by simulated annealing, Science, 4598(13):671-680, 1983

[10] V. Kolomogorov 및 R. Zabih. What energy functions can be minimized via graph cuts? In ECCV, 페이지 65-81, 2002년

[11] Y. Li, T. Zhang, 및 D. Tretter. An oveview of video abstraction techniques. Technical Report HPL-2001-191, HP Laboratory, 2001년

[12] J. Nam 및 A. Tewfik. Video abstract of video. In 3rd IEEE Workshop on Mutlimedia Signal Processing, 페이지 117-122, 코펜하겐, 1999년 9월

[13] J. Oh, Q. Wen, J. lee, 및 S. Hwang. Video abstraction. In S. Deb, editor, Video Data Management and Information Retrieval, 페이지 321-346. Idea Group Inc. 및 IRM Press, 2004년

[14] M. Oren, C. Papageorgiou, P. Shinha, E. Osuna, 및 T. Poggio, A trainable system for people detection. In Proceedings of Image Understanding Workshop, 페이지 207-214, 1997년

[15] M. Gangnet, P. Perez 및 A. Blake, Poisson image editing, In SIGGRAPH, 페이지 313-318, 2003년 7월

[16] C. Pal 및 N. Jojic. Interactive montages of sprites for indexing and summarizing security video. In Video Proceedings of CVPR05, 페이지 Ⅱ:1192, 2005년

[17] R. Patil, P. Rybski, T. Kanade, 및 M. Veloso. People detection and tracking in high resolution panoramic video mosaic. In Int. Conf. on Intelligent Robots and System(IROS 2004), volume 1, 페이지 1323-1328, 2004년 10월

[18] N. Petrovic, N. Jojic 및 T. Huang. Adaptive video fast forward. Mutlimedia Tools and Applications, 26(3):327-344, 2005년 8월

[19] A. Pope, R. Kumar, H. Sawhney, 및 C. Wan. Video abstraction: Summarizing video content for retieval and visualization. In Signals, Systems and Computers, 페이지 915-919, 1998.

[20] A. Rav-Acha, Y. Pritch, 및 S. Peleg. Making a long video short: Dynamic video sysnopsis. In CVRP'06, 페이지 435-441, 뉴욕, 2006년 6월

[21] A. M. Smith 및 T. Kandae. Video skimming and characterization through the combination of image and language understanding. In CAIVD, 페이지 61-70, 1998년

[22] J. Sun, W. Zhang, X. Tang, 및 H. Shum. Background cut. In ECCV, 페이지 628-641, 2006년

[23] Y. Weiss 및 W.T. Freeman. On the optimality of solutions of the max-product belief propagation algorithm in arbitray graphs. IEEE Transcations on Information Theory, 47(2):723-735, 2001년

[24] X. Zhu, X. WU, J. Fan, A.K. Elmagramid 및 W.G. Aref. Exploring video content structure for heirachical summarization. Mutlimedia Syst. 10(2):98-115, 2004년

[25] S. Peleg 및 A. Rav-Acha, WO 2007/057893 "Method and system for producding a video synopsis"

[26] J. Assa, Y. Caspi 및 D. Coher-Or. Action syopsis: Pose selection and illustration. In SIGGRAPH, 페이지 667-676, 2005년

[27] Carsten Rother, Lucas Bordeaux, Youssef Hamadi, 및 Andrew Blake. Autocollage. ACM Transcations on Graphics, 25(3):847-852, 2006년 7월

[28] Assem Agarwala. Efficient gradient-domain compositing using quadtrees. ACM Transactions on Graphics(Proceedings of SIGGRAPH 2007), 2007년

[29] G. Brostow 및 I. Essa. Motion based decompositing of video. In ICCV'99 페이지 8-13, Corfu, 1999

[30] J. Shi 및 J. Malik, Normalized cuts and image segmentaion, IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(8):888-905, 2000

[31] O. Boiman 및 M. Irani. Detecting irregularities in images and in video. In ICCV, 페이지 I: 462-469, 북경, 2005년

[32] B.M. Carvalho, G.T. Herman, 및 T.Y. Kong. Simulatneous fuzzy segmentation of multiple objects. Discrete Applied Mathematics, Vol 151, No. 1-3, 2005년 10월 pp 55-77

[33] G.T. Herman 및 B.M. Carvalho. Mutliseeded Segmentation Using Fuzzy Connectedness. IEEE Transactions on Pattern Analysis and Machine Intelligenece, v.23 no.5, pp. 406-474, 2001년 5월

[34] A. Levin, A. Rav-Acha, 및 D. Lishinski, Spectral Matting. IEEE Conf. on Computer Vision and Pattern Recognition(CVPR), Minneapolis, 2007년 6월

[35] N.E. Apostoloff 및 A.W. Fiitzgibbon, Bayyesian video matting using learnt image priors. In Proceedings IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR), 2004년 6월, 워싱턴 DC.

본 발명의 배경

로우 비디오(raw video)의 수집을 통한 분류는 시간 소모적인데, 이는 관심 중 어떤 것이 기록되었는지 판단하기 위해 비디오 클립을 볼 필요가 있기 때문이다. 이 지루한 작업은 개인용 비디오 수집에서 적합할 수 있으나, 감시 카메라 및 웹캠(webcams)에 의해 기록되는 엔드리스 비디오(endless video)가 수반되는 경우에는 불가능하다. 하루 24시간 시계(視界)를 포착하는 수 백만 개의 웹캠이 세계를 덮고 있다. 영국에서만 도시 거리를 덮고 있는 수 백만 개의 감시 카메라가 있다고 보고된다. 많은 웹캠들은 심지어 누구나 보도록 인터넷을 통해 공개적으로 비디오를 전송한다. 많은 보안 카메라들도 또한 상점, 공항 및 다른 공공장소에서 이용될 수 있다.

웹캠 이용시 문제점 중 하나는 웹캠이 원래의 편집되지 않은 데이터를 제공한다는 것이다. 따라서, 대부분의 감시 비디오는 결코 주시되거나 검사되지 않는다. 본 출원인은 앞선 참조문헌 WO 2007/057893 [25]에서, 장면의 다수의 원본 이미지들로부터 선택된 부분들을 조합하여 단축된 비디오를 만드는 비디오 시놉시스 방법을 제안하고 있다. 비디오 클립은 시간에 따른 시각적 활동을 기술하며, 시간축을 압축함으로써 더 짧은 시간내에 이러한 클립의 요약 시청이 가능해 진다. 선택된 프레임들 사이에 다수의 프레임들이 건너뛰어 지는 빨리감기가 비디오 요약에 사용되는 가장 공통된 툴(tool)이다. 꽃의 성장 등과 같이 매우 느린 과정의 비디오를 만드는 빨리감기의 특별한 경우를 "시간 경과"라 한다. 빨리감기는 빠뜨린 프레임들 중에 빠른 활동을 놓칠 수 있기 때문에, 적응형 빨리감기(adaptive fast forward) 방법이 개발되었다[12, 18, 4]. 이런 방법은 관심도가 낮고 활동이 낮은 주기의 플레임들을 스킵하고 관심도가 높고 활동이 큰 주기의 프레임들을 유지하기 위해 시도된다. 유사한 접근은 컨텐츠를 비디오로부터 가장 잘 나타내는 쇼트 비디오 시퀀스의 수집을 추출한다[21].

비디오 요약에 대한 많은 접근들은 시간 축을 완전히 제거하고 몇몇의 핵심 프레임을 선택함으로써 비디오의 시놉시스를 보여준다[8, 24]. 이들 키 프레임들은 임의로 선택될 수 있거나 몇가지 중요 기준에 따라 선택될 수 있다. 그러나, 키 프레임 표현은 비디오의 동적 측면을 상실한다. 비디오 요약에 대한 포괄적인 개론이 [11, 13]에 나타나 있다.

상기 양 접근에서, 전체 프레임은 기본 빌딩 블록들처럼 사용된다. 다른 방 법론은 비디오 인덱싱을 위해 몇몇 메타-데이터와 함께 모자이크 이미지를 사용한다[6, 19, 16]. 이 경우 정적 시놉시스 이미지는 다른 시간의 객체들을 포함한다.

비디오 시놉시스에 대한 객체 기반의 접근이 [20, 7]에 최초로 나타나 있으며, 상기 참조문헌에서 움직이는 객체는 시공간 영역에 표현된다. 비디오의 연속 프레임들에 걸쳐 객체(objects) 또는 활동(activities)을 나타내는 이미지 부분의 연결을 "튜브(tubes)"라 한다. 객체가 시공간량으로 튜브에 의해 표현되기 때문에, "객체" 및 "튜브"라는 용어는 하기의 설명에서 상호교환될 수 있게 사용된다. 이들 논문[20, 7]은 다른 시간의 활동을 조합한 시놉시스 비디오를 만드는 새로운 개념을 도입한다(도 1 참조).

객체 기반 접근의 일예가 본 출원인에 양도된 WO 2007/057893[25]에 개시되어 있으며, 상기 참조문헌에서 하나 이상의 객체들의 움직임을 보여주는 입력 비디오내 프레임 서브세트가 얻어 진다. 최초의 동적 장면에서 객체의 비공간적으로 중첩하는 모습을 보여주는 서브세트로부터 선택된 부분들이 다수의 입력 프레임들로부터 출력 비디오 시퀀스에서 감소된 개수의 프레임들에 복제되어 입력 비디오에서 다른 시간에 보여진 것처럼 객체의 다수 위치들이 출력 비디오에서 동시에 나타나 진다.

참조문헌[20, 7]에 개시된 접근은 연대기 순서가 강요되지 않는다면 더 많은 활동들이 더 짧은 비디오로 보여질 수 있다는 인식을 기초로 한다. 감시 카메라를 이용해 얻어진 엔드리스 비디오 시퀀스의 시놉시스에 대한 이러한 접근을 확장해 소정 한계로 출력 비디오의 지속시간을 제한하는 한편 그럼에도 불구하고 두드러진 장면 상실의 위험성을 줄이는 제어된 방식으로 행하는 것이 유용할 수 있다.

특히 비디오를 끝없이 수집하는 감수 카메라의 개수가 급격히 증가한다면, 긴 비디오의 효율적인 인덱싱, 검색 및 브라우징이 중요해 진다. 종래 비디오 인덱싱은 키워드로 비디오의 수동 주석(manual annotation)을 이용하나, 이 방법은 시간 소모적이며 감시 카메라에 비실용적이다. 입력 비디오로부터 대표적인 키 프레임 또는 대표적인 시간 간격의 선택을 기초로 한 다른 비디오 인덱싱 방법들이 제안되었다.

비디오 시놉시스는 다루어지는 시간주기에서 많은 객체들이 짧은 시놉시스 비디오에 나타날 때 인덱싱, 검색 및 브라우징에 유용할 수 있다. 그러나, 다른 많은 객체들이 동시에 나타나기 때문에, 간단한 시놉시스 비디오를 검사하는 것은 혼동을 줄 수 있다.
US2006117356(마이크로소프트)는 전체 비디오 레코딩내에 발생한 고유 이벤트들의 대화식 브라우징을 제공하는 비디오 브라우저를 개시하고 있다. 특히, 상기 비디오 브라우저는 상기 비디오를 처리해 비디오의 전체 주기내에 발생한 고유 이벤트들을 나타내는 비디오 스프라이트(video sprite) 세트를 생성한다. 이들 고유 이벤트는 비디오가 담은 총 주기의 모두 또는 일부내에 발생한 예컨대 운동 이벤트, 보안 이벤트 또는 다른 기정의된 이벤트 타입을 포함한다. 비디오가 스프라이트를 식별하기 위해 처리된 후, 상기 스프라이트들은 상기 비디오로부터 추출된 배경 이미지 위로 배열되어 대화식 정적 비디오 몽타주를 형성한다. 대화식 비디오 몽타주는 단일 정적 프레임에서 비디오내 발생한 모든 이벤트를 나타낸다. 상기 몽타주내 스프라이트들의 사용자 선택은 상기 선택된 스프라이트들이 식별되는 비디오의 일부분의 재생녹화 또는 동적 비디오 몽타주내에 선택된 스프라이트들의 동시 재생녹화를 하게 한다.
WO0178050(인모션 테크놀로지사(Inmotiion Technologies Ltd.))는 자동으로 예컨대 스포츠 행사의 스트로보스코프(stroboscope) 시퀀스를 얻기 위해 심지어 단일 비디오 카메라로부터 표준 비디오의 피트 수(footage)를 이용하기 위한 시스템 및 방법을 개시하고 있다. 시퀀스는 사진 특성의 정적 이미지로서 또는 카메라 이동이 현재 유지되는 비디오 시퀀스에 의해 나타낼 수 있으며, 어떤 경우 비디오 시퀀스는 스트로보스코프 사진에 카메라를 좌우로 움직여서 촬영하는 카메라 이동으로 또는 상기 움직이는 객체가 경로를 따라 복제들의 이동경로를 남기는 움직이는 듯한 스트로보스코프 사진으로 간주될 수 있다. 다수의 카메라들이 예컨대 확장된 시계(視界) 또는 다수 시퀀스의 비교를 위해 사용될 수 있다.
JP-2004-336172는 동시에 움직이는 객체들 간에 끊김없이 이벤트의 연대기적 순서를 유지하는 감시 비디오를 단축하는 시스템을 개시하고 있다. 연대기적 순서를 유지하는 것은 실질적으로 단축 가능성을 제한한다. 또한 시놉시스 비디오에서 객체의 본래 시간이 쉽게 결정될 수 있도록 객체를 인덱스하는 어떠한 제안도 없다.

본 발명의 제 1 태양에 따르면, 비디오 감시 카메라에 의해 생성된 실질적인 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하기 위한 컴퓨터 실행방법으로서, 상기 소스 비디오스트림에서 다른 각각의 시간으로부터 각각 도출된 적어도 3개의 포인트들이 상기 시놉시스 비디오에서 동시에 디스플레이되고, 같은 시간에서 도출된 적어도 2개의 포인트들 모두가 상기 시놉시스 비디오에서 다른 시간에 디스플레이되도록, 상기 소스 비디오스트림에서 적어도 3개의 다른 소스 객체들의 실시간 객체 기반의 설명을 수신하는 단계와, 각각의 소스 객체에 대한 기간 및 위치를 포함한 상기 객체 기반의 설명의 큐를 연이어 유지하는 단계와, 주어진 기준을 기초로 상기 큐로부터 적어도 3개의 소스 객체의 서브세트를 선택하는 단계와, 시간적 샘플링에 의해 하나 이상의 시놉시스 객체를 각 선택된 소스 객체로부터 샘플링하는 단계와, 상기 시놉시스 비디오에서 디스플레이를 시작하기 위해 각 시놉시스 객체에 대한 각각의 디스플레이 시간을 결정하는 단계와, 시놉시스 객체 또는 각각의 기정된 디스플레이 시간에서 각각 도출된 객체들을 디스플레이함으로써 상기 시놉시스 비디오를 생성하는 단계를 포함하고, 상기 각 소스는 상기 소스 비디오스트림의 적어도 3개의 다른 프레임들로부터 이미지 포인트들의 연결된 서브세트인 소스 비디오로부터 시놉시스 비디오를 생성하기 위한 컴퓨터 실행방법이 제공된다.

본 발명의 제 2 태양에 따르면, 비디오 감시 카메라에 의해 생성된 실질적인 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하기 위한 시스템으로서, 상기 소스 비디오스트림에서 적어도 3개의 다른 소스 객체들의 객체 기반의 설명의 연이어 유지된 큐를 저장하는 객체 메모리에 결합되도록 형성된 소스 객체 선택기와, 특정 시간주기로부터 도출된 이미지 포인트들을 이용해 시간적 샘플링을 하여 각 선택된 소스 객체로부터 하나 이상의 시놉시스 객체들을 샘플링하기 위해 상기 소스 객체 선택기에 결합된 시놉시스 객체 샘플러와, 상기 시놉시스 비디오에 디스플레이를 시작하기 위해 각 시놉시스 객체에 대한 각각의 시간을 결정하기 위해 상기 시놉시스 객체 샘플러에 결합된 시간선택유닛과, 상기 소스 비디오스트림내 다른 각각의 시간에서 각각 도출된 적어도 3개의 포인트들이 상기 시놉시스 비디오 프레임에서 동시에 디스플레이되도록 연속 시놉시스 비디오 프레임을 만들기 위해 상기 선택된 시놉시스 객체 또는 각각의 시간에서 도출된 객체를 스티칭하기 위해 상기 시간선택유닛에 결합되는 스티칭 유닛과, 상기 시놉시스 비디오 프레임을 저장하기 위해 상기 스티칭 유닛에 결합되는 시놉시스 프레임 메모리를 구비하고, 상기 객체 기반의 설명은 각 소스 객체에 대한 기간 및 위치를 포함하고, 상기 소스 객체 선택기는 하나 이상의 정의된 제한들에 따라 적어도 3개의 다른 소스 객체들을 선택하도록 형성되며, 각 소스는 상기 소스 비디오스트림으로부터 적어도 3개의 다른 프레임들로부터 이미지 포인트들의 연결된 서브세트인 소스 비디오로부터 시놉시스 비디오를 만드는 시스템이 제공된다.

본 발명에 의해 개시된 비디오 시놉시스는 비디오 브라우징과 검색을 가능하게 하고 다른 특징들의 인덱싱을 가능하게 하여 선택된 특징들이 분리되게 하여 디스플레이되는 특정 시간간격에 시간적 진행을 하게 하는 비디오의 시간적으로 압축된 표현이다. 본 발명의 몇몇 실시예에 따르면, 비디오 시놉시스를 기초로 한 계층적 비디오 인덱싱이 이용되며, 인덱싱은 소정의 객체 또는 활동의 클래스를 먼저 선택하고 단지 나중에 개개의 객체 또는 활동을 선택하는 것을 기초로 한다. 이 절차는 멀티레벨 계층적 인덱싱을 가능하게 하도록 반복될 수 있다.

본 발명이 고려되는 비디오 시놉시스의 일반적인 타입의 예가 도 1에 도시된 시공간량을 참조로 [25]에 기술되어 있다. 비디오는 지상에서 걷고 있는 사람으로 시작하고 비활동 주기 후 새가 하늘에 날오른다. 비활동 프레임은 대부분의 비디오 요약방법에서 생략된다. 비디오 시놉시스는 실질적으로 사람과 새가 동시에 움직이여 더 압축된다. 이는 다른 활동들이 이들 공간위치에서 전혀 발생하지 않을 때 본래 시간간격에서 다른 시간간격으로 이벤트를 이동함으로써 이미지 영역을 최적으로 사용하게 한다. 이러한 조작은 이벤트의 연대기적 일치를 이완시킨다. 유사한 기술들이 본 발명에 의해 이용될 수 있는 정도는 본 명세서에 반복되지 않을 것이며 완전한 설명을 위해 WO 2007/057893을 참조하라. 몇몇 태양에서는 WO 2007/057893의 향상으로 보여질 수 있는 본 발명을 간략히 하고 혼란시키지 않도록 하기 위해, 본 발명에 대한 이들 특징들만 상세히 기술할 것이다.

웹캠과 감시카메라에 의해 얻은 무한 비디오에 대한 이런 원리는 많은 추가적인 문제들을 포함한다:

·어떠한 저장도 무한하지 않기 때문에, 무한 비디오가 요약되는 경우 이벤트를 "무시"해하는 것이 필요하다.

·배경 모습이 긴 비디오에서, 가령, 낮에서 밤으로 실질적으로 변한다. 이들 변화는 시놉시스의 배경을 만들 때 그리고 객체를 배경에 삽입할 때 해결되어야 한다.

·다른 시간에서 그리고 심지어 또 다른 시간의 배경에 활동들이 동시에 나타날 수 있기 때문에, 출력 비디오를 제공하기 위해 이들 모두를 스티칭할 때 특별한 주의가 요구되어야 한다.

·큰 데이터량에도 불구하고 사용자 질의에 대한 빠른 응답이 요구된다.

비디오 시놉시스는 감시 카메라와 웹캠가 라이브 비디오스트림 이외에 엔드리스 비디오의 요약을 볼 능력을 시청자에게 제공함으로써 더 유용하게 할 수 있다. 이를 가능하게 하기 위해, 시놉시스 서버는 라이브 비디오 피드를 보고, 관심 이벤트에 대한 비디오를 분석하고 상기 비디오의 객체기반의 설명을 기록할 수 있다. 이 설명은 각 웹캠에 대해 상기 관심 객체, 객체의 지속시간, 위치 및 객체의 모습을 열거한다.

시스템에 의해 답해질 수 있는 질의는 "지난 시간동안 캡쳐된 이 웹캠에서 비디오의 시놉시스를 1분 내로 보고싶다" 또는 "지난 주의 시놉시스를 5분내로 보고 싶다" 등과 같을 수 있다. 이러한 질의에 대해 응답하여 대부분의 관심 이벤트("튜브")가 소정 주기로부터 수집되고 소정 길이의 시놉시스 비디오에 어셈블리된다. 시놉시스 비디오는 각 객체가 본래 시간에 대한 포인터를 포함하기 때문에 본래 비디오에 대한 인덱스이다.

웹캠 비디오가 엔드리스이고 객체의 개수가 제한되지 않으나, 각 웹캠에 대한 이용가능한 데이터 저장량은 제한될 수 있다. 유한한 객체 큐를 유지하기 위해, 공간이 고갈될 때 이 큐로부터 객체를 제거하기 위한 절차를 제안한다. 큐로부터 객체의 제거는 최종 최적화가 몇몇 객체들을 검사하게 하여 시놉시스에 포함을 위해 객체를 선택할 때 행해지는 유사한 중요도 기준에 따라 행해져야 한다.

본 발명의 내용 및 청구의 범위에서, "비디오"라는 용어는 후처리에 정정할 수 있는 컴퓨터 이미지 파일로서 이용될 수 있고 임의의 종류의 영화 파일, 예컨대, 디지털, 아날로그 파일을 단지 포함하는 경우 가장 일반적인 용어의 "영화"와 동의어이다. 카메라는 바람직하게는 회전하고 줌할 수 있는 것을 의미하는 고정된 위치에 있으나, 지금까지 제안된 기술에서 행해진 것처럼 평행이동되지 않는다. 본 발명에 관계된 장면은 적어도 몇 시간은 동적이다.

본 발명을 기술하기 위해 사용자는 시놉시스 비디오를 만들기 위해 "시공간량"으로서 언급되는 구성으로 만들어진다. 시공간량은 시간축을 따라 모든 프레임을 순차적으로 적층함으로써 이미지의 입력 시퀀스로부터 구성될 수 있다. 그러나, 실제 실행에 관한 한 예컨대 동적 소스 장면의 2D 프레임을 시간적으로 실제 적층함으로써 시공간량을 반드시 구성할 필요가 없음을 알아야 한다. 보다 일반적으로, 소스 프레임들은 타겟 프레임을 구성하기 위해 개별적으로 진행되나, 개념적 구성이라기보다는 물리적 구성인 것처럼 시공간량을 의미하는 것이 이해에 도움이 될 것이다.

본 발명을 이해하고 실제로 어떻게 수행될 수 있는지 알기 위해 첨부도면을 참도로 단지 비제한적인 예로써 실시예들이 기술되어 있다.

도 1은 시간적으로 옮겨진 피쳐(feature)들을 동시에 플레이시켜 압축 비디오 시놉시스를 만들기 위한 종래 기술의 접근을 나타낸 도면이다.

도 2a 내지 도 2d는 다른 시간에서 스투트가르트 공항에서 감시 카메라로부터 배경 이미지를 도시한 것이다.

도 3a 내지 도 3d는 도 2a 내지 도 2d의 해당 배경에 대해 "플랫(flattened)"하게 나타난 4개의 추출된 튜브들을 도시한 것이다.

도 4a 내지 도 4d는 "당구" 장면에서 2개의 추출된 튜브를 도시한 것이다.

도 5a 내지 도 5d는 도 2에 도시된 공항장면에서 활동의 공간적 분포를 도시한 것이다.

도 6은 움직이는 객체의 개수로 측정된 도 2에 도시된 공항장면에서 활동의 시간적 분포를 그래프로 도시한 것이다.

도 7은 본 발명의 실시예에 따른 시놉시스 기반의 계층적 비디오 인덱싱과 검색 구조를 도시한 블록도이다.

도 8은 도 12에 도시된 주창장의 감시 비디오에 나타난 컬러스터링 객체들의 결과를 도시한 것이다.

도 9는 다른 클러스터들의 사진들이 동시에 나타난 도 13에 도시된 주차장 비디오의 인덱싱 계층에서 "최상위 시놉시스"로부터의 프레임을 도시한 것이다.

도 10a 및 도 10b는 스투트가르트 공항에서 24시간에 걸쳐 캡쳐된 비디오로부터 시놉시스 프레임을 도시한 것이다.

도 11은 당구클럽에서 9시간에 걸쳐 캡쳐된 비디오에서 취한 3개의 프레임으로부터 만들어진 시놉시스 프레임을 도시한 것이다.

도 12a 및 도 12b는 세인트 피츠버그에서 하룻밤동안 캡쳐된 비디오로 만들어진 시놉시스 프레임을 도시한 것이다.

도 13a 및 도 13b는 조용한 주차장의 5시간에 걸쳐 찍은 웹캠으로 만든 시놉시스 프레임을 도시한 것이다.

도 14는 본 발명에 따른 시스템의 주요 기능을 도시한 블록도이다.

도 15는 본 발명에 따라 수행된 주요 동작을 도시한 흐름도이다.

도면에서 대표적인 프레임들로 도시된 비디오 시놉시스의 예들은 물론 비디오로 가장 잘 보여진다. 예들은 http://www.vision.huji.ac.il/video-synopsis/에 접속될 수 있다.

활동 튜브 산정

각 객체로부터, 상기 객체가 나타나는 프레임의 서브세트를 선택함으로써 세그먼트가 생성된다. 이러한 세그먼트는 선택적으로 다른 샘플속도 취한 다른 시간간격을 나타낼 수 있다.

엔드리스 비디오의 유용한 시놉시스를 만들기 위한 이러한 기술을 적용하기 위해, 관심 객체과 활동(튜브)이 식별되어야 한다. 많은 경우, 관심의 표시는 간단 하다. 움직이는 객체가 관심이다. 많은 예에서 관심의 표시로서 객체 이동을 사용하지만 예외도 주목되어야 한다. 나무의 잎 또는 하늘의 구름과 같이 몇몇 움직임은 중요하지 않을 수 있다. 장면에서 사람이나 다른 큰 동물들은 심지어 움직이지 않더라도 중요할 수 있다. 이들 예외를 언급하지 않지만, 객체 인식(예컨대, 사람 검출[14, 17]), 역동적인 직물[5], 또는 특이한 활동[31]의 검출을 포함할 수 있다. 다른 객체의 분류에 우선순위를 주는 비디오 시놉시스의 간단한 예를 제시할 것이다.

배경 구성

움직이는 전방 객체의 세그먼테이션(segmentation)을 가능하게 하기 위해, 배경 구성을 시작한다. 짧은 비디오 클립에서, 배경의 모습은 변하지 않고, 전체 클립에 걸쳐 시간적 중앙값을 이용해 형성될 수 있다. 감시 카메라의 경우, 배경 모습은 조명의 변화, 배경 객체들의 변화로 인해 시간적으로 변한다. 이 경우, 각 시간에 대한 배경은 각 프레임 전후 몇 분간 시간 중앙값을 이용해 계산될 수 있다. 통상적으로 4분에 대한 중앙값을 사용한다. 심지어 더 짧은 시간 윈도우[3, 9]를 이용할 때에도 배경구성을 위한 다른 방법들도 가능하나, 효율성으로 인해 중앙값을 이용한다.

도 2a 내지 도 2d는 스투트가르트 공항에 있는 감시 카메라로부터의 배경 이미지를 도시한 것이다. 도 2a 및 도 2b는 낮 이미지를 나타낸 반면, 도 2c 및 도 2d는 밤을 나타낸 것이다. 주차된 자동차들과 주차된 비행기들이 배경의 일부가 된다.

동적인 객체를 나타내는 시공간 튜브를 계산하기 위해 [22]의 간략화를 이용한다. 이는 전방 객체의 완만한 세그먼테이션을 얻기 위해 최소절단(min-cut)과 함께 배경 제거(background subtraction)를 조합하여 행해진다. [22]에서와 같이, 이동 경계에 대해 관계가 덜 할 것 같기 때문에 배경 그래디언트와 일치하는 이미지 그래디언트가 감쇠된다. 최종 발생한 "튜브"들은 3D 시공간량으로 연결된 구성요소들이며 이들의 그래디언트는 간략히 하기에 기술되어 있다.

B를 현재 배경 이미지라 하고, I를 처리될 현재 이미지라고 하자. V를 I에 있는 모든 픽셀의 세트라 하고, N을 I에 있는 모든 인접한 픽셀 쌍들의 세트라 하자. 라벨링 함수(f)는 전방(f_r=1) 또는 후방(f_r=0)으로서 이미지내에 있는 각 픽셀(r)에 라벨을 붙인다. 소정의 라벨링(f)은 통상적으로 깁스 에너지(Gibbs energy)를 최소화시킨다[2]:

여기서 E₁(f_r)은 단색(unitray-color)항이고, E₂(f_r,f_s)은 인접한 픽셀(r 및 s)들 간의 쌍 대조(pairwise-contrast)항이며, λ는 사용자 정의 가중치이다.

쌍 대조 항으로서, [22]에 제안된 공식을 사용한다:

여기서 β=2<∥I(r)-I(s)∥²>^-1는 가중치 인수이고(<.>는 이미지 샘플에 걸친 기대치임), d_rs는 배경 그래디언트에 의해 감쇠된 이미지 그래디언트로서 다음과 같이 주어진다:

이 식에서, z_rs는 전방과 후방 사이의 상이점(dissimilarity)을 측정한다:

K와 σ_z는 파라미터이며, [22]에 제안된 바와 같이 각각 5와 10으로 설정된다.

단색항에 대해, d_r=∥I(r)-B(r)∥을 이미지(I)와 현재 배경(B) 간의 컬러 차이라고 하자. 픽셀(r)에 대한 전방(1)과 배경(0) 코스트(cost)는

이며, 여기서, k₁ 및 k₂는 사용자 정의 임계치이다. 경험상 k₁ = 30/255 및 k₂ = 60/255가 본 실시예에서 잘 적용된다.

무한 가중치를 갖는 더 낮은 임계치를 사용하지 않는데, 이는 알고리즘의 나중 단계들이 전방으로서 잘못 식별된 픽셀들을 강하게 처리할 수 있기 때문이다. 같은 이유로, 시공간량으로 모든 전방 픽셀들의 마스크를 구성하고 이 마스크에 3D 형상학적 팽창(morphological dilation)을 적용한다. 그 결과, 각 객체는 배경으로부터 다수의 픽셀들에 의해 둘러싸여 진다. 이는 스티칭 알고리즘(stitching algorithm)에 의해 나중에 사용될 것이다.

마지막으로, 3D 마스크는 "활동 튜브"로 표시된 연결구성부품들로 그룹화된다. 도 3a 내지 도 3d는 도 2의 해당 배경에 대해 "플랫"하게 도시된 4개의 추출 튜브를 도시한 것이다. 좌측 튜브는 지상 차량에 대한 것인 반면, 우측 튜브는 뒤쪽에 활주로상의 비행기에 대한 것이다. 도 4a 및 도 4b는 시간적으로 구분된 다수의 플레이어들을 단일 프레임에 묘사하기 위해 "당구" 장면에서 2개의 추출 튜브를 이용해 도출된 시놉시스 프레임을 도시한 것이다.

각 튜브(b)는 특성함수로 표현된다:

여기서 B(x,y,t)는 배경 이미지에서의 픽셀이고, I(x,y,t)는 입력 이미지에서의 각 픽셀이며, t_b는 이 객체가 있는 시간간격이다.

객체가 움직이는 세그먼테이션에 대한 다른 방법들도 가능하다. 예컨대, 이진수 세그먼테이션에서, 이미지내의 모든 요소는 객체에 속하거나 객체에 속하지 않는 것으로 분류될 수 있다. 객체에 멤버십 등급을 이미지내의 각 요소에 할당하는 세그먼테이션은 또한 명확하지 않을 수 있다. 적절한 접근이 [32, 33, 34, 35]에 기술되어 있다. 퍼지 연결의 개념이 [33]에 설명되어 있다. 퍼지 세그먼테이션은 때로 퍼지 매팅(Fuzzy matting)이라 하고[35], 다른 배경의 객체들의 삽입을 위한 그래픽에 널리 사용된다[35]. 작업에서, 모든 객체는 이진수로 처리한다. 그러나, 퍼지 객체로의 확장은 직접적이다. 예컨대, 코스트 함수(cost function)의 모든 요소들은 관계된 요소들의 퍼지 멤버십 값에 의해 배가될 수 있다. 또한, 퍼지 객체가 이미지에 삽입되는 경우, 멤버십 값은 투명효과를 허용한 "알파 매팅(alpha matting)"에 사용될 수 있다.

튜브들 간의 에너지

튜브들 간의 상호작용 에너지를 정의한다. 이 에너지는 나중에 최대 활동을 갖는 한편 충돌을 피하는 시놉시스를 생성하는 최적화 단계에 사용되고 객체들 간에 중첩된다. B를 모든 활동 튜브들의 세트라 하자. 각 튜브(b)는 원래 비디오스트림 t_b=[t_b ^s, t_b ^e]에서 유한시간 세그먼트에 대해 정의된다.

시놉시스 비디오는 입력 비디오에서의 본래 시간으로부터 비디오 시놉시스에서의 시간 세그먼트

로 시간적으로 객체(b)를 이동시키는 시간적 매핑(M)을 기초로 생성된다. M(b)=

는 튜브(b)를 시놉시스로의 시간 이동을 나타내고, b는 출력 시놉시스 M(b)=Ø로 맵핑되지 않는 경우를 나타낸다. 하기의 에너지 함수를 최소화하는 하나로서 최적의 시놉시스 비디오를 정의한다:

여기서, E_a는 활동 코스트(activity cost)이며, E_t는 시간적 일치성 코스트(temporal consistency cost)이고, E_c는 충돌 코스트(collision cost)이며, 이 모두는 하기에 정의되어 있다. 가중치 α 및 β는 특정 질의에 대한 상대적 중요도에 따라 사용자가 정한다. 예컨대, 충돌 코스트의 가중치를 줄임으로써 객체들이 중첩될 수 있는 더 조밀한 비디오가 된다. 이 가중치를 늘림으로써 객체들이 중첩될 수 없고 활동성이 낮게 나타나는 듬성한 비디오가 될 것이다. β를 변화시켜 얻은 다 른 시놉시스트에 대한 예가 도 10b에 주어져 있다.

활동 튜브를 추출한 후 픽셀 기반의 코스트는 객체 기반의 코스트로 대체될 수 있다. 구체적으로, [25]에 기술된 바와 같은 종래 기술적 접근과 관련된 스티칭 코스트(Stitching cost)는 수학식(7)에서 충돌 코스트(후술됨)에 의해 대체된다. 이 코스트는 심지어 이들의 모습(예컨대 2사람)이 유사하더라도 2개의 다른 객체들을 함께 스티칭하기 위해 패널티를 준다. 또한, "시간적 일치성" 코스트는 객체들(또는 튜브들) 간의 시간적 관계의 위반에 대해 패널티를 주는 것으로 정의된다. 이러한 시놉시스의 특징은 픽셀 기반의 코스트로는 표현하기가 힘들다.

활동 코스트

활동 코스트는 최대 활동을 갖는 시놉시스 영화를 선호한다. 시놉시스에서 유효시간으로 맵핑되지 않는 객체들에 대해 패널티를 준다. 튜브가 시놉시스로부터 배제되지 않는 경우, 즉, M(b)=Ø이면,

여기서, χ_b(x,y,t)는 수학식(6)에서 정의된 특성함수이다. 각 튜브(b)에 대해, 튜브의 맵핑

=M(b)이 최종 시놉시스에 부분적으로 포함되고, 수학식(8)과 유사하게 활동 코스트를 정의하나, 상기 시놉시스에 들어가지 않은 픽셀들만 활동 코스트에 추가된다.

충돌 코스트

매 2개의 "이동된" 튜브와 이들 간의 모든 상대시간이동에 대해, 활동 수단에 의해 가중화된 시공간 중첩량으로서 충돌 코스트를 정의한다:

여기서

는 시놉시스 비디오에서의 b와 b'의 시간 교차이다. 이 표현은 픽셀의 컬러가 배경과 유사한 픽셀에 낮은 패널티를 줄 것이지만, 형상학적 팽창 프로세스에서 활동 튜브에 추가된다. 충돌 코스트 E_c의 가중치를 변경함으로써 도 10b에 도시된 바와 같이 시놉시스 비디오에서 객체의 밀도가 변한다.

시간적 일치성 코스트

시간적 일치성 코스트는 이벤트의 연대기적 순서를 보존하는 바이어스(bias)를 추가한다. 연대기적 순서의 보존은 강한 상호작용을 갖는 튜브들에 대해 더 중요하다. 예컨대, 서로 대화하는 두사람의 상대 시간을 유지하거나, 합당하게 2개의 사건의 연대기적 순서를 유지하는 것이 바람직하다. 그러나, 이런 상호작용을 검출하기가 매우 어렵다. 대신, 후술된 바와 같이 상대적인 시공간 거리에 대한 각 튜브 쌍들간의 상호작용량 d(b,b')이 추정된다:

여기서, d(b,b',t)는 프레임 t에서 b와 b'으로부터 가장 가까운 활동 픽셀 쌍 간의 유클리드 거리이고, σ_공간은 튜브들 간에 공간 상호작용의 범위를 결정한다.

튜브 b와 b'가 시놉시스 비디오에서 공통시간을 공유하지 않고, b가 b'보다 더 이른 시간에 맵핑된다면, 이들 상호작용은 시간에 따라 지수함수적으로 줄어든다:

여기서, σ_시간은 이벤트가 여전히 시간적 상호작용을 갖는 것으로 간주되는 시간 범위를 정의하는 파라미터이다.

시간적 일치성 코스트는 이들 관계가 위반되는 경우에 패널티를 줌으로써 객체들 간의 시간적 관계를 유지하기 위한 우선순위를 생성한다:

여기서 C는 시간적 일치성을 유지하지 않는 이벤트에 대한 상수 패널티이다.

에너지 최소화

수학식(7) 및 (15)에서 글로벌 에너지 함수는 단일 튜브 또는 튜브 쌍들에 정의된 에너지 항들의 합으로 작성되기 때문에, 브리프 프로파게이션(Brief Propagation)[23] 및 그래프 컷(Graph Cuts)[10]과 같은 다양한 MRF기반의 기술에 의해 최소화될 수 있다. 본 실행에서는 양호한 결과를 준 심플러 스티뮬레이티드 어닐링 메소드(simpler stimulated annealing method)[9]를 사용했다. 스티뮬레이티드 어닐링은 튜브가 시놉시스 비디오에서 전혀 사용되지 않는 특별한 경우를 포함한 모든 가능한 시간적 맵핑(M) 공간에 적용되었다.

각 상태는 시놉시스에 포함된 튜브들의 서브세트를 기술하고 이웃 상태들은 단일 활동튜브가 제거되거나 시놉시스에서 맵핑을 변경하는 상태로서 정의된다. 초기 상태로서 모든 튜브들이 시놉시스 무비의 초기로 이동된 상태를 사용했다. 또한, 컴퓨터 사용(computation)을 가속화시키기 위해, 튜브의 시간적 이동이 10 프레임의 점프내에 있게 제한할 수 있다.

엔드리스 비디오의 시놉시스

앞서 언급한 바와 같이, 하루 24시간 시계(視界)를 캡쳐하는 수 백만 대의 웹캠과 감시 카메라들이 세상을 덮고 있다. 이들 카메라를 이용하는데 있어 한가지 문제점은 카메라들이 편집되지 않은 원 데이터를 제공한다는 것이다. 예컨대, 2시간의 장편필름은 대개 로우 비디오(raw video) 피트 수의 수백 또는 심지어 수천 시간으로 만들어진다. 편집없이, 대부분의 웹캠 데이터는 관련성이 없다. 또한, 또 다른 대륙에서 카메라를 보는 것은 시차로 인해 비활동 시간동안에만 편리할 수 있다.

본 발명의 중요한 특징은 시청자에게 카메라에 의해 제공된 라이브 비디오스트림 이외에 엔드리스 비디오의 요약을 볼 수 있는 능력을 제공함으로써 웹캠 리소스를 더 유용하게 만드는 것이다. 사용자는 전주 동안 캡쳐된 모든 컨텐츠의 시놉시스를 5분내에 보고 싶어할 수 있다. 이를 가능하게 하기 위해, WO 2007/057893에 기재한 바와 같이 객체 기반의 시놉시스를 기초로 하나, 엔드리스 비디오를 다루게 하는 추가 구성요소를 포함하는 시스템을 기술한다.

이 시스템에서, 서버는 라이브 비디오 피드를 보고, 관심있는 이벤트에 대한 비디오를 분석하며, 상기 비디오의 객체기반의 설명을 기록할 수 있다. 이 설명은 대상 객체, 기간, 위치 및 모습을 각 카메라에 대해 나열한다.

엔드리스 비디오의 시놉시를 위해 이상처리(two phase process)가 제안된다:

1) 비디오 캡쳐동안 온라인 상(Online phase). 이 페이지는 실시간으로 행해진다.

·객체(튜브) 검출과 세그먼테이션

·검출된 객체를 객체 큐에 삽입

·공간적 한계에 다다를 경우 상기 객체 큐로부터 객체를 제거

2) 사용자 질의에 따라 시놉시스를 구성하는 응답 상(Response phase). 이 페이지는 관심의 시간주기내 활동량에 따라 몇분 걸릴 수 있다. 이 페이지는 다음을 포함한다:

· 변하는 배경의 시간경과 비디오를 구성하는 것. 배경 변화는 주로 낮밤 차로 인해 야기되나, 움직임이 시작(중지)되는 객체의 결과일 수 있다.

·시놉시스 비디오에 포함될 튜브 선택과 이들 튜브의 시각적으로 호소하는 시간적 배열을 산정함.

·튜브와 배경을 가간섭 비디오(coherent video)에 스티칭하기. 이 동작은 다른 시간의 활동들이 동시에 그리고 또 다른 시간으로부터 배경에 나타날 수 있음을 고려해야 한다.

고정 프레임의 전처리-필터링 아웃

많은 감시 카메라들과 웹캠들은 오랜 주기에 걸쳐 활동을 보이지 않는 장면들을 영상화한다. 저장 효율을 위해, 이런 시간주기에 해당하는 프레임들은 통상적으로 온라인 페이지 동안 필터된다. 나머지 프레임의 본래 시간은 각 프레임과 함께 기록된다. 한가지 실행으로, 프레임들은 2개의 기준에 따라 기록되었다:(1) 인커밍 프레임(incoming frame)과 마지막 보유 프레임 간에 차의 제곱 합(sum of squared difference, SSD)에 의해 측정된 장면에서의 글로벌 변화. 이 기준은 전체 프레임에서 점진적 조명 변화에 의해 표현된 밝기 변화를 추적함. (2) 작은 윈도우에서 최대 SSD에 의해 측정된 움직이는 객체의 존재.

매우 작은 기간을 갖는(예컨대, 1초 미만) 움직이는 객체들이 중요하지 않다고 가정함으로써, 비디오 활동은 몇 프레임에 단 한번만 측정될 수 있다.

객체 큐

엔드리스 비디오 처리에 있어 주요 난제 중 하나는 새로운 객체가 도착할 때 구 객체를 "망각"하도록 하는 방안를 개발하고 있다. 가장 오래된 활동을 폐기하는 순전한 방안은 좋지 않는데, 사용자가 전체 주기로부터 객체를 포함할 수 있는 긴 시간 기간의 요약을 얻고 싶을 수 있기 때문이다. 대신, 가능한 미래의 질의에 대해 각 객체의 중요도를 평가하고 이에 따라 객체를 폐기하는 다른 방안을 제안한다.

시공간량으로 튜브로 표현된 모든 검출된 객체들은 사용자 질의를 대기하는 큐에 저장된다. 객체가 상기 큐에 삽입되면, 활동 코스트(수학식(8))가 시놉시스 비디오의 미래 구성을 가속화하기 위해 계산된다. 웹캠에 의해 발생된 비디오가 엔드리스이기 때문에, 아마도 어느 시점에서 할당된 공간이 고갈될 것이고 객체들은 상기 큐로부터 제거되어야 할 것이다.

큐로부터 객체(튜브) 제거시, 최종 시놉시스에 가장 작게 포함될 것 같은 객체를 제거하는 것이 낫다. 본 실시예에서, 효율적으로 계산될 수 있는 3가지 간단한 기준, 즉, "중요도"(활동), "충돌 가능성", 및 "에이지(age)"를 사용했다. 그러나, 예컨대, 특정 형태나 활동에 관심이 있는 경우, 다른 선택들도 가능하다.

객체의 중요도에 대한 가능한 수단은 수학식(8)에 정의된 바와 같은 특성함수의 합이다.

사용자 질의를 받기 전에 충돌 코스트가 계산될 수 없기 때문에, 장면내에 공간활동분포를 이용해 튜브의 충돌 코스트에 대한 평가가 이루어진다. 이 공간활동은 각 공간 위치에서 합해서 1이되도록 정규화된 모든 객체들의 활동 픽셀들의 합인 이미지에 의해 표현된다. 유사공간활동분포는 각 개개의 객체에 대해 계산된 다(이번에는 정규화되지 않음). 이들 2개 활동분포간의 상관관계는 이 객체에 대한 "가능한 충돌"로 사용된다. 도 5a 및 도 5b는 도 2에 도시된 공항장면에서 활동의 공간분포를 나타낸 것으로, 여기서 강도(intensity)는 활동값의 로그(log)이다. 도 5a는 단일 튜브의 활동분포를 나타낸 것이고, 도 5b는 모든 튜브들에 대한 평균을 나타낸 것이다. 예상되는 바와 같이, 가장 높은 활동은 자동차 통로와 활주로에 있다. 튜브들의 가능한 충돌은 더 큰 활동을 갖는 지역에서 더 높다.

시놉시스에서 객체의 소정 분포를 고려하여, 큐로부터 오래된 객체의 제거를 착수하기 위한 여러 가지 가능한 접근들이 있다. 예컨대, 사용자는 새로운 이벤트에 초점을 두는데 관심을 둘 수 있지만 중요한 경우 이전 이벤트에 대한 몇몇 표현을 남겨둘 수 있다. 대안으로, 시놉시스는 매 시간간격의 균일한 표현을 가져야 한다. 예컨대, 24시간의 시놉시스에서 사용자는 적용가능하다면 각각 및 매 시간 객체를 보는데 관심있을 수 있다.

첫번째 접근으로 큐에 있는 객체의 밀도가 객체의 에이지에 따라 지수함수적으로 줄어들어야 한다고 가정할 수 있다. 예컨대, 에이지 축을 분리된 시간간격으로 나누면, t' 간격에서 객체의 개수(N_t)는

에 비례해야 하며, 여기서 σ는 감쇠계수이고, K는 큐에서 객체의 총 개수를 제어하기 위해 결정된다. 객체가 큐로부터 제거되어야 하는 경우, 각 시간간격(t)에서 객체의 개수는 N_t에 비교된다. 모집단이 N_t를 초과하는 시간간격(t)으로부터의 객체들만 활동코스트와 가능성있는 충돌을 이용해 평가될 것이다. 최소 활동과 최대 충돌을 갖는 객체는 제거될 것이다.

큐에 도달한 객체의 시간적 분포의 예가 도 6에 나타나 있으며, 29시간에 걸쳐 도 2의 공항장면에서 움직이는 객체의 개수에 의해 측정된 것으로 활동의 시간적 분포를 그래프로 도시한 것이다. 이 주기동안 1,920개의 객체가 있다. 큐에서 객체의 지수함적 감쇠로 인해 감쇠 지수함수에 곱해진 도착분포에 비례하는 에이지 분포가 있게 된다.

시놉시스 생성

객체 큐는 "나는 전날 동안 카메라 방송의 1분 시놉시스를 갖고 싶다"와 같은 질의를 통해 접속될 수 있다. 입력 비디오로부터 소정 주기와 시놉시스의 소정 길이를 가정하면, 시놉시스 비디오는 4개 동작, 즉, (ⅰ) 배경 비디오를 생성함 (ⅱ) 상기 배경 비디오가 정의된 후, 시놉시스에서 각 객체와 각 가능한 기간에 대해 일치성 코스트를 계산함 (ⅲ) 에너지 최소화 단계가 튜브(시공간 객체)가 시놉시스에서 그리고 언제 나타나는지를 결정함 (ⅳ) 선택된 튜브들이 최종 시놉시스를 얻기 위해 배경 시간경과와 결합되는 것을 이용해 생성된다. 이들 동작이 이 부분에서 기술되어 있다. 객체기반의 표현에 본래 비디오를 뺌으로써 질의에 대한 빠른 응답이 가능하다.

사용자 질의 후, 소정의 시간주기로부터의 객체들만 갖는 두번째(더 작은) 객체 큐가 생성된다. 빠른 최적화를 가능하게 하기 위해, 더 작은 큐에서 매 2개 객체들 간에 수학식(9)의 충돌 코스트가 미리 계산된다.

시간경과 배경

시놉시스 비디오의 배경은 활동 튜브를 시놉시스에 추가하기 전에 발생된 시간경과 배경 비디오이다. 배경 비디오는 2가지 과제가 있다:(ⅰ) 시간에 걸친 배경변화(예컨대, 낮밤 전환 등)를 나타내야 한다; (ⅱ) 활동 튜브의 배경을 나타내야 한다. 활동 튜브의 배경을 나타내는 것은 배경 비디오가 예컨대 대부분 밤시간을 무시하고 활동주기만을 방송할 때 가장 잘 행해지기 때문에 이들 2개의 목표들이 상충한다.

2개의 시간적 분포 즉 (ⅰ) 도 6에 도시된 바와 같이 비디오스트림의 시간적 활동분포(H_a)와 (ⅱ) 균일한 시간적 분포(H_t)를 구성함으로써 이 상충관계(trade-off)를 해결한다. 2개의 시간적 분포 λ·H_a + (1-λ)·H_t를 내삽함으로써 세번째 시간적 분포를 계산하며, 여기서 λ는 사용자가 정한 가중치이다. λ=0으로 배경 시간경과 비디오는 활동에 무관하게 시간적으로 균일한 반면 λ=1로 배경 시간경과 비디오는 활동주기로부터만 배경을 포함할 것이다. 대개 0.25<λ<0.5를 사용한다.

내삽된 시간적 분포에 따라 시간경과 배경 비디오에 대해 배경 프레임들이 선택된다. 매 2개의 선택된 배경 프레임들 간에 히스토그램의 면적이 같도록 이 선택이 행해진다. 더 많은 프레임들이 활동시간 기간에서 선택되는 반면 비활동 주기 들은 완전히 무시된다.

대안으로, 배경은 합성 배경으로 대체될 수 있고, 객체들이 이 합성 배경 위에 배치될 것이다.

배경과의 일치

움직이는 객체의 정확한 세그먼테이션을 가정하지 않기 때문에, 유사한 형태를 갖는 배경 이미지들에 튜브들을 기워넣는 것이 선호된다. 새 에너지 항 E_b(M)을 추가함으로써 배경 일치에 대한 이 튜브가 고려될 수 있다. 이 항은 객체를 시간경과 배경에 시티칭하는 코스트를 판단할 것이다. 공식적으로,

를 맵핑된 튜브(

)의 컬러 값이라 하고 B_out(x,y,t)을 시간경과 배경의 컬러값이라 하자. 그러면 다음과 같이 정할 수 있고

여기서, σ(

)는 맵핑된 활동튜브(

)의 경계에 있는 픽셀들의 세트이고 t_out은 출력 시놉시스의 기간이다. 이 코스트는 각 튜브가 (활동 마스크의 형상학적 팽창으로 인해) 본래 배경으로부터 픽셀에 의해 둘러싸이는 것으로 추정한다.

수학식(14)에서 배경 일치항이 수학식(7)에 기술된 에너지 함수에 추가되어 다음과 같이 주어진다:

여기서, α,β,γ는 질의에 따른 사용자 선택 가중치이다.

시놉시스 비디오 스티칭

다른 시간 주기로부터 튜브의 스티칭은 ([1, 16]과 같은) 기존 방법에 대해 문제를 일으킨다. 한꺼번에 모든 튜브를 스티칭함으로써 다른 객체들로부터의 컬러들이 혼합될 수 있으며, 이는 바람직하지 못한 효과이다. 다른 객체들 간에 선명한 전환을 보존하는 반면 객체와 배경 간의 이음매만 제거하는 것이 더 낫다. 객체들의 정확한 세그먼테이션이 이 문제를 해결할 수 있으나, 정확한 세그먼테이션은 비현실적이다. 대신, 각 튜브의 경계는 활동 튜브가 생성될 때 적용되는 형상학적 팽창으로 인해 배경 픽셀을 구성한다.

[27]에 제안된 알파 푸아송 이미지 블렌딩(α-Poisson Image Blending)은 객체들 간의 스티칭에 대한 양호한 방안일 수 있으나, 배경에 객체를 스티칭하기 위한 푸아송 에디팅(Poisson Editing)[15]처럼 좋지는 않다. 제안된 접근은 모든 객체들이 (조명 변화까지) 유사한 배경을 갖는 관찰을 이용하여 시간경과 배경에 무관하게 튜브를 스티치하는 것이다. 임의의 블렌딩 방법이 가능하며 본 출원인은 푸아송 에디팅의 변형을 이용했다: 다른 조명상태의 배경 이미지에 스티치되었더라도 객체의 본래 모습(예컨대, 저녁시간 배경 위에 스티치된 낮동안 본 사람들)을 보존 하는 정규화(regularization)를 추가했다.

배경에 벗어난 객체들은 소스 비디오에서 해당 객체와 그래프적으로 동일할 필요가 없는 것에 유의해야 한다. 예컨대, 시놉시스 비디오에서 적어도 하나의 객체는 객체를 공간적으로 감싸거나 기설정된 심볼 또는 아이콘에 의해 소스 비디오에서 해당 객체를 대체함으로써 형성될 수 있다. 또한, 객체가 시놉시스 비디오에 추가되는 경우, 객체의 픽셀값은 배경값을 반드시 대체할 필요가 없다. 새 값은 투명효과를 만드는 배경과 객체의 평균일 수 있다.

Ω를 경계∂Ω를 갖는 이미지라 하자. f,b를 전방 객체(튜브)와 배경(시간경과) 픽셀 컬러라고 하고, s를 Ω의 내부에 걸쳐 스티치된 객체의 미지의 값이라 하자. 정규화에 따른 포아송 블렌딩의 결과는

로 주어지며, 여기서 λ는 정규화 항의 가중치이다. [28]에서, 그래디언트 도메인에서 스티칭이 매우 효율적으로 행해질 수 있음이 나타났다.

각 튜브를 배경에 시티칭한 후, 각 픽셀은 활동측정

에 비례하는 가중치를 가지며 시티칭된 활동 튜브(

)로부터의 해당 픽셀의 가중치 평균이게 함으로써 튜브 중첩이 함께 블렌딩된다. 대안으로, 가중치 평균 대신 최대 활동측정을 갖는 픽셀을 취함으로써 투명도가 방지될 수 있다.

"객체 튜브"가 조합될 때 깊이 순서를 사용할 수 있고, 이 경우 더 가까운 튜브가 다른 튜브를 가로막는다. 수직 이미지 위치가 더 낮은 객체가 또한 더 가까운 것으로 가정하면 간단한 "지평면" 발견적 학습(heuristic)이 사용될 수 있다. 다른 깊이 순서 매기는(depth ordering) 방법은 [29]를 포함한다. 객체 가림(object occlusion) 경우의 빈도는 다른 코스트에 대한 (이러한 경우를 방지하는) 충돌 코스트의 상대 가중치에 따른다.

인덱싱

시놉시스 기반의 계층적 비디오 인덱싱은 감시 카메라의 경우에서 처럼 엔드리스 비디오라 하더라도 비디오 컨텐츠를 나타내고 브라우징하는 컴팩트하고 쉬운 방법을 제공하는 것을 목표로 한다. 도 7은 시놉시스 기반의 계층적 비디오 인덱싱과 검색의 개념적 구조를 도시한 것이다. 이 시스템에서 예컨대 "마지막 시간", "마지막 36시간" 등 인덱싱이 요구되는 비디오가 이미 선택된 것으로 가정한다.

제안된 인덱스를 형성하기 위해, 비디오가 최초로 분석되고 활동/중요 객체들이 비디오에서 추출되어 상기 비디오의 객체기반 표현을 생성한다.

인덱싱의 두번째 단계에서 객체는 임의의 클러스터링 방법을 이용해 유사한 객체의 클러스트들에 클러스트된다. 이러한 클러스터링을 수행하기 위한 가능한 방법은 모든 객체 쌍들 간에 몇몇 유사도 판단을 기초로 친화도(유사도) 매트릭스를 형성하는 것이다.

객체들 간의 친화도(유사도)

객체들 간의 친화도 판단은 객체의 시광간 표현들 간의 상관관계를 포함하나 이에 국한되지 않는 다양한 특징들을 기초로 할 수 있다. 효율적인 유사도 판단을 수행하기 위해, 비디오의 시공간 표현에서 3D 튜브로 표현된 객체들은 공통좌표 시스템에 먼저 왜곡될 수 있고 가능한 다른 위치와 스케일을 극복하도록 공간 시간정렬이 수행될 수 있다. 이러한 왜곡은 비디오와 다양한 투영 변형에서 객체의 시공간 위치에 불변인 유사도 판단이 되기 때문에 유용할 수 있다. 유사한 이동 경로를 가지나 비디오에서 다른 위치에 있는 유사한 객체들은 본래 모습이 원근 효과로 인해 다르더라도 유사한 것으로 간주될 것이다. 추가적인 친화도 판단은 객체의 형태, 크기 또는 컬러 및 해당기술분야에 알려진 다른 많은 가능한 유사도 판단일 수 있다.

클러스터링

일단 친화도 매트릭스가 구성된 후, [30]과 같은 클러스터링 방법은 각 객체를 해당 클래스로 분류하는데 사용될 수 있다. 클러스터링 방법은 "불규칙한" 객체와 행동을 식별하는데 도움을 주기 위해 또한 사용될 수 있음을 주목하는 것이 중요하다. 클래스 중 어느 하나로 잘 클러스트되지 않는 객체는 "고유" 또는 "불규칙"인 것으로 의심될 수 있고 후술되는 시놉시스 생성 방법에서 특별한 마킹으로 시각화될 수 있다.

주차장에서의 촬영인 24시간의 비디오 시퀀스로부터 추출된 객체에 대한 이러한 자동 클러스터링 방법의 예가 도 8에 도시되어 있다. 도 8에 묘사된 6개 프레임들에서 6개 클래스, 즉, (ⅰ) 우측으로 걸어가는 사람; (ⅱ)좌측으로 걸어가는 사람; (ⅲ) 건물 옆으로 걸어가는 사람; (ⅳ) 우측으로 이동하는 자동차; (ⅴ) 좌측으로 이동하는 자동차; (ⅵ) 주차장에 들어오거나 나가는 자동차로부터의 객체들 이 도시되어 있다.

대안으로, 확률 클러스터링이 사용될 수 있어, 이로써 어떤 객체가 어떤 클래스에 속하는지에 대한 어려운 판단을 하는 대신 확률 벡터가 각 객체와 다른 클래스에 대한 정의될 수 있다. 이는 계층적 인덱싱 프로세스에 사용될 수 있다. 예컨대, 객체는 이들 클래스에 잘 맞는 다면 하나 이상의 클래스와 연계될 수 있다. 불규칙 활동이 다른 클래스에 속하는 실질적으로 같은 확률을 갖는 객체에 의해 명백해진 것으로 검출된 경우에도 또한 사용될 수 있다.

계층적 인덱스

클러스터가 결정되고 객체가 클러스트로 그룹화되면, 인덱싱을 위한 계층적 비디오 시놉시스 시퀀스의 수집이 이 클러스터링(클러스터-SFC로부터의 시놉시스)을 기초로 생성될 수 있다.

가능한 인덱싱 계층은 "톱레벨 시놉시스", 즉, 각 클러스터로부터 몇가지 대표적인 것을 포함한 시놉시스 비디오를 사용자에게 먼저 나타낼 수 있다. 예컨대 도 8에 도시된 클러스터로부터, "톱레벨" 시놉시스는 우측으로 이동하는 자동차, 좌측으로 이동하는 자동차, 우측으로 걸어가는 사람, 좌측으로 걸어가는 사람 등 각 클래스로부터 하나의 객체를 나타낼 수 있다. 일한 시놉시스로부터 단일 프레임이 도 9에서 볼 수 있으며, 상기 도면에서는 다른 클러스터들의 그림이 동시에 나타나 있다. 사용자는 "톱레벨" 시놉시스에서 객체 중 하나를 선택함으로써 객체의 전체 클래스를 선택할 수 있다. 이 선택은 선택된 클러스터에서 객체만을 나타낸 시놉시스 비디오를 사용자에게 나타나게 한다.

톱레벨 시놉시스는 본래 비디오에서 각각 소정의 객체 또는 활동에 대해 얻로록 인터액티브 인덱싱 툴(interactive indexing tool)로서 사용될 수 있다. 사용자가 특정 클러스터 또는 클러스터의 집합을 선택하면, 계층내 다음 시놉시스가 디스플레이된다. 이러한 시놉시스는 이들 클러스터로부터 더 많은 표현들 또는 심지어 모든 객체들을 포함하게 된다. 이 단계에서 사용자는 그의 소정의 객체를 특정할 수 있고 입력 비디오에서 본래 시간에 얻을 수 있다. 각 클래스에 객체가 많이 있고 쇼트 시놉시스를 만들기 어려운 경우, 더 많은 레벨을 계층에 추가하여 각각의 본래 클러스터로부터 다수의 서브 클러스터를 만들 수 있다. 예컨대, "우측으로 이동하는 자동차" 클러스터를 선택함으로써 트럭과 세단의 2개 서브 클러스터를 만들 수 있다. 이 경우 대부분의 본래 객체들을 갖는 시놉시스를 보여주는 검색의 최종 결과를 얻기 전에 서브 클러스터들 중 하나를 선택하는 것이 요구될 것이다.

이러한 접근은 매우 빠른 검색과 시각적 질의를 기초로 하고 본래 비디오에서 모든 객체와 활동이 적절한 시간에 도달되게 할 수 있는 매우 큰 비디오에 인덱싱 툴을 제공한다.

예제

인터넷을 담은 몇몇 비디오스트림에 대한 비디오 시놉시스를 테스트하였다. 프레임률이 인터넷을 통해 일정하지 않고 프레임들이 주기적으로 떨어지기 때문에, 시간적 이웃을 사용할 때마다 프레임의 개수를 세는게 아니라 각 프레임의 절대시간을 사용한다.

도 10 및 도 12는 고정 야외 카메라에서 나온 것인 반면, 도 11은 일정 조명 을 갖는 고정 실내 카메라에서 나온 것이다. 대부분의 예에서 각 튜브의 주요 "관심"은 이동하는 픽셀의 개수였다.

도 10a 및 도 10b는 비디오 시놉시스에서 객체의 밀도의 충돌 코스트의 선택효과를 도시한 것이다. 도 10a는 스투트가르트 공항에서 24시간에 걸쳐 캡쳐된 비디오의 20초 시놉시스로부터의 프레임을 도시한 것이다. 도 10b는 코스트 함수에서 "충돌 페널티"를 줄임으로써 실질적으로 객체 밀도가 증가되어 객체들 간의 중첩을 더 많이 가능하게 하는 것을 도시한 것이다. 도 12는 우선순위에 기반한 형태를 도시한 것이다. 도 12a에서, 규칙 코스트 기능이 사용되었고 큰 객체(이동하는 자동차)들이 우선되었다. 도 12b에서는, 완전히 다른 보행자 활동을 나타내는 작고, 검은 객체들이 우선되었다. 도 11은 당구 크럽에서 9시간에 걸쳐 캡쳐된 비디오의 쇼트 시놉시스로부터의 프레임을 도시한 것이다. 시놉시스에서 테이블당 다수의 플레이어들을 주목하라.

맞춤식 에너지 함수

대부분의 경우 모든 객체들이 관심있는 것이 아니다. 교통감시 카메라는 자동차에만 관심있을 수 있는 반면, 다른 애플리케이션은 보행자를 우선할 수 있다. 객체의 필터링은 여러 장소에서 행해질 수 있다. 객체들은 큐에 들어오기 전에 필터될 수 있고 이 경우 객체들을 결코 검색할 수 없게 된다. 대안으로, 객체는 큐에 단계에서만 필터될 수 있다. 이 경우 큐는 모든 객체들을 포함할 것이며, 다른 큐들은 큐로부터 다른 객체들을 추출할 수 있다. 또한 각 애플리케이션에 대한 맞춤식 에너지 함수를 만들 수 있다.

맞춤화의 간단한 예가 도 12b에 도시되어 있으며, 상기 도면에는 단지 작고 어두운 물체들이 큐에서 선택되었다. 본래 시놉시스는 주로 자동차를 포함하나, 새 시놉시스는 주로 보행자를 포함한다. 또 다른 예가 도 13에 도시되어 있으며, 상기 도면에는 이동하는 객체들이 멈춰 배경의 일부가 되어있다. 도 13a는 조용한 주차장을 감시하는 웹캠에으로부터 5시간에 걸쳐 촬영한 쇼트 시놉시스의 프레임을 도시한 것이다. 높은 점수가 상 전이(예컨대, 멈춰 배경이 된 이동하는 객체들)에 주어진다. 비디오 시놉시스는 주로 주차장에 관여된 자동차들을 포함한다. 도 13b는 상 전이없는 객체들이 선호되는 다른 시놉시스를 도시한 것으로 단지 지나가는 자동차와 보행자들만 나타나 있다.

시놉시스 사양

비디오 시놉시스의 지속시간과 품질을 특정하기 위한 몇가지 방안이 있다.

(a) 사용자가 비디오 시놉시스의 소정 지속시간과 객체 충돌에 대한 패널티를 특정하게 하자. 이 경우, 최적단계는 상기 특정 제약하에서 시놉시스에 포함될 수 있는 활동량을 극대화할 것이다.

(b) 사용자가 비디오 비디오 시놉시스의 소정 지속시간과 상기 지속시간에 포함될 활동의 퍼센트를 특정하게 하자. 최적단계는 상기 특정 제약하에서 최소 충돌을 갖는 비디오 시놉시스를 생성할 것이다.

(c) 사용자가 상실된 객체의 허용된 퍼센트와 객체 충돌의 페널티를 특정하게 하자. 최적단계는 상기 특정 제약하에서 시놉시스의 지속시간을 최소화할 것이다.

본 실험에서는 옵션(a)을 이행하였으며, 상기 비디오 시놉시스의 지속시간은 강한 제약으로서 사용자에 의해 결정되었다.대부분의 객체들이 시놉시스에서 나타날 것으로 추정하면 감시 비디오는 옵션(b),(c)를 선호할 수 있다.

객체 기반의 속도변화

빨리감기는 비디오 요약에 사용되는 가장 통상적인 툴이며 전체 프레임에 항상 적용되어왔다. 예컨대, "시간경과" 비디오는 꽃의 성장 등과 같이 쇼트타임 슬로우 프로세스(short time slow process)로 디스플레이 된다. 현재의 몇몇 방법은 적응형 빨리감기[12,18,4]를 제안하고 있으나, 여전히 전체 프레임의 구조에 국한된다. 비디오 시놉시스들로 각 객체는 자신의 중요성 또는 객체의 본래 속도를 기초로 자신의 "빨리감기"를 가질 수 있다. 느린 객체는 가속될 수 있으나, 빠른 객체는 가속하지 않을 수 있다. 대안으로, 빠른 객체는 더 쉽게 보기 위해 느려질 수 있다.

객체 속도변화는 간단한 방식으로, 예를 들면, 모든 움직이는 객체들을 균일한 속도로 만들게 하는 식으로 행해질 수 있다. 이를 위해, 느린 객체는 속도가 높여지고 빠른 객체는 느려질 것이다. 대안으로, 객체 속도변화는 객체의 속도변화에 대해 몇가지 페널티를 주면서 최적단계 동안 결정될 수 있다. 상기 최적화 단계에 객체기반의 속도변화를 추가함으로써 최적화의 복잡도 증가를 이용해 시놉시스 비디오의 시간 압축률이 더 향상될 수 있다.

객체의 속도변화는 몇몇 선택된 시간주기에서 객체로부터 픽셀을 샘플링함으로써 행해질 수 있다. 선택된 시간주기의 개수가 튜브에서 프레임의 개수보다 작은 경우, 일반적인 효과는 객체 속도가 빨라진다는 것이다. 선택된 시간주기의 개수가 튜브에서 프레임의 개수보다 많은 경우, 객체 속도가 느려진다. 선택된 시간주기가 프레임에 정확하게 있지 않는다면, 이 때 픽셀은 시간적으로 가장 가까운 이웃 프레임에 있는 이웃 픽셀로부터 선택된 시간에 내삽될 수 있다. 임의의 가능한 내삽방법이 사용될 수 있다.

전경 및 배경 상 전이

상 전이는 움직이는 객체가 정지하거나 배경과 함께 병합될 때 또는 정지 객체가 이동하기 시작할 때 발생한다. 예들은 주차장에 주차되거나 나가는 자동차들이다. 대부분의 경우 상 전이는 중요한 이벤트이며 큐 단계에서 사용을 위해 각 상 전이를 검출하고 표시한다.

튜브의 시작과 끝에 해당하는 배경 변화를 살펴봄으로써 상 전이를 찾을 수 있다. 이들 전이는 배경의 변화를 설명하기 때문에 중요하다. 상 전이는 배경의 변화에 해당하기 때문에, 배경에 상 전이를 스티칭하는 것은 특별한 의도가 있어야 한다. 상 전이가 배경에 적시에 삽입되지 않은 경우 2가지 효과가 시놉시스 비디오에 발생할 수 있다. (ⅰ) 배경객체가 아무런 이유없이 깜빡이 효과를 일으키며 나타나고 사라질 것이다. (ⅱ) 움직이는 객체가 움직임을 멈추면 배경의 일부가 되기 보다는 사라질 것이다. 비디오 시놉시스에서 이런 효과를 최소화하기 위해, 상 전이가 본래 시간에 해당하는 시간에 시간경과 배경에 삽입되어야 한다.

시스템 하드웨어

도 14를 참조하면, 카메라(11)에 의해 캡쳐된 소스 비디오로부터 시놉시스를 생성하기 위한 본 발명에 따른 시스템(10)의 블록도가 도시되어 있다. 시스템(10)은 각각의 x,y,z 좌표에 위치된 복수의 픽셀들을 포함하는 적어도 하나의 객체의 이동을 보여주는 제 1 소스 비디오의 비디오 프레임 서브세트를 저장하기 위한 비디오 메모리(12)를 포함한다. 프리-프로세서(13)가 라인으로 캡쳐 비디오를 처리한다. 프리-프로세서(13)는 비디오 프레임을 사전정렬하기 위한 정렬부(14)를 포함할 수 있다. 이 경우, 카메라(11)가 정렬부(14)와 결합되어 비디오 메모리(12)에 사전정렬된 비디오 프레임을 저장하게 된다. 정렬부(14)는 소스 비디오에 있는 프레임들 간의 이미지 동작 파라미터를 계산하고, 상기 이미지 소스내 고정 객체들이 비디오에서 고정되도록 상기 소스 비디오에 있는 비디오 프레임들을 워핑(warping)함으로써 작동될 수 있다.

프리-프로세서(13)는 또한 소스 비디오내 객체들을 검출하는 소스 객체 검출기(15)를 포함하고 객체 메모리(16)내 검출된 객체들 큐시킨다. 상술한 바와 같이, 객체가 큐에 삽입될 때, 시놉시스 비디오의 미래 구성을 가속화시키기 위해 객체의 활동 코스트(수학식(8))가 계산되며, 이 또한 프리-프로세서(13)에 의해 행해진다. 프리-프로세서(13)는 엔드리스 소스 비디오로부터 시놉시스를 만들 때 사용하기 때문에 완결을 위해 나타난 것을 알아야 한다. 본 발명은 또한 정의된 기준에 따라 시놉시스 비디오를 만들기 위해 객체 큐를 조작하기 위해 객체 메모리(16)에 결합되도록 형성된 프리-프로세서(13)가 없는 축소된 시스템을 고려한다. 이러한 시스템은 후술되는 바와 같이 도 14에 나머지 구성요소들에 의해 구현된다.

따라서, 사용자 인터페이스(17)는 사용자 정의 제한들이 정의되게 하기 위한 객체 메모리(16)에 결합된다. 이러한 제한은 예컨대 요약될 소스 비디오내 시간 윈도우를 정의하기 위해 사용될 수 있다.또한 시놉시스 비디오의 필요한 지속시간을 정의하는데 사용될 수 있다. 사용자 인터페이스(17)는 또한 인덱싱을 목적으로 객체 또는 객체 클래스를 선택하는데 사용된다. 본 발명의 몇몇 실시예들이 사용자 인터페이스(17)를 필요로 하지 않는 경우에 제한들이 또한 기정의될 수 있음이 이해된다.

소스 객체 선택기(18)는 사용자 정의 제한 또는 시스템에 의해 정의된 디폴트 제한에 따른 적으도 3개의 다른 소스 객체들을 서브 세트로부터 선택하기 위해 객체 메모리(16)에 결합된다. 각각의 다른 소스 객체는 소스 비디오의 적어도 3개의 다른 프레임들로부터 이미지 포인트들의 연결된 서브세트이다. 클러스터링 유닛(19)은 사용자 인터페이스(17)를 이용해 사용자에 의해 정의될 수 있는 정의된 기준에 따라 객체를 클러스터링하기 위해 소스 객체 선택기(18)와 선택적으로 결합된다. 시놉시스 객체 샘플러(20)는 예컨대 몇몇 선택된 프레임들로부터 유도된 이미지 포인트들을 이용해 시간적 선택에 의해 각 선택된 소스 객체로부터 하나 이상의 시놉시스 객체를 샘플링하기 위해 제공된 경우 소스 객체 선택기(18)에 또는 클러스터링 유닛(19)에 결합된다. "샘플러"는 개개의 객체들의 속도를 바꾸는데 사용될 수 있다. 프레임 발생기(21)는 단지 선택된 클러스터들만이 시놉시스 비디오에 포함되게 하는 클러스터 선택기(22)를 포함한다. 프레임 발생기(21)는 또한 시놉시스 비디오에서 디스플레이를 시작하기 위한 각 시간을 각 시놉시스 객체에 대해 선택하기 위한 시간 선택기(23)를 포함한다. 프레임 발생기(21)는 각 시놉시스 객체와 각 프레임에 대해 시놉시스 객체를 디스플레이하기 위한 각각의 컬러 변환을 선택하기 위한 컬러 변환유닛(24)을 더 포함한다. 선택적으로, 프레임 발생기(21)는 시놉시스 비디오에 시티칭하기 전에 공간적으로 워핑하기 위한 워핑유닛(25)을 포함할 수 있다. 본 명세서 및 청구의 범위의 내용에서, "워핑"이란 용어는 객체의 임의의 공간적 편집을 포함하는 것으로 의도되어 있다. 상술한 바와 같이, 이는 이이콘과 같은 또 다른 객체에 의해 전체적으로 객체를 대체하는 것을 포함할 수 있다; 또는 시놉시스 비디오에 스티치되기전에 객체에 약간의 기하학적 조정을 하는 것을 포함할 수 있다. 프레임 발생기(21)내 스티칭 유닛(26)은 연속적인 시놉시스 비디오 프레임을 발생하기 위해 선택된 컬러변환 시놉시스 객체를 스티치한다. 시놉시스 비디오의 프레임은 디스플레이 유닛(28)에 의한 연이은 처리 또는 특정 시간 및 컬러 변환으로 시간적으로 이동된 객체를 디스플레이하는 디스플리에이를 위해 시놉시스 프레임 메모리(27)에 저장된다.

시스템(10)은 실제로 그래픽 카드 또는 워크스테이션 및 적절한 주변장치를 갖는 적절하게 프로그램된 컴퓨터에 의해 구현될 수 있으며, 모두가 해당기술분야에 잘 알려져 있다.

도 15는 본 발명의 실시예에 따른 시스템(10)에 의해 수행된 주요 동작을 도시한 흐름도이다.

결론

객체기반의 시놉시스는 예컨대 감시 카메라에 의해 기록된 엔드리스 비디오 스트림의 시놉시스인 쇼트 비디오를 만드는데 사용될 수 있다. 방법은 2가지 상을 포함한다. 실시간으로 수행되는 입력 상에서, 비디오 스트림이 분석되고 관심 객체가 배경으로부터 검출되고 세그먼트된다. 운동에 기초한 객체 관심기능을 설명하였으나, 객체 검출, 인식 및 세그먼테이션을 위한 임의의 다른 접근이 "튜브", 즉, 각 객체의 3D 시공간 표현의 생성을 위해 사용될 수 있다.

큐 관리는 무한 비디오와 유한 저장매체 간의 갭을 잇고, 사용자 큐에 빠른 응답을 가능하게 하는데 필요하다. 가득 찬 후, 어떤 객체가 큐로부터 제거되어야 하 지 판단하는데 여러가지 방법이 사용되었으나, 다른 방법도 가능하다. 심지어 큐로부터 제거를 위해 객체의 랜덤 선택이 좋게 작용할 수 있다.

두번째 상은 사용자 질의가 주어진 후에 발생한다. 큐의 서브세트는 관심의 주기를 기초로 추출되고 객체 튜브가 최적 비디오 시놉시스를 만들기 위해 (시간적 이동에 의해) 배열된다. 오프라인 계산을 필요로 하는 이 단계는 비디오 시놉시스를 사용자에게 전달한다.

몇가지 매우 관심있는 태양들은 배경에 주기성에 관계한다. 낮-밤 주기는 특히 검출에 익숙할 수 있다. 대부분의 경우 몇번의 낮이 단일 시놉시스에 의해 취재될 때, 시간경과 배경은 하루만 방송될 수 있는 반면, 활동은 모든 날에서 나올 것이다. 이는 질의를 명시하는 사용자에게 주어진 선택이어야 한다.

이진수 세그먼테이션에 특별히 제한된 경우가 아니면, "이미지 포인트"들에 대한 언급은 내삽 또는 퍼지 세그먼테이션과 같은 비이진수 세그먼테이션 방법에 의해 결정되는 것으로 이미지 포인트들을 포함하도록 의도되어 있음이 이해될 것이다.

소스 비디오가 모노크롬(monochrome)인 경우 컬러 변환유닛은 스티칭하기 전에 선택된 시놉시스 객체에 적용된 적절한 그레이 스케일의 변환을 판단하는데 사용될 수 있음이 또한 이해되어야 한다. 따라서, 청구의 범위의 내용에서, "컬러"라는 용어는 RGB에만 국한되는 것이 아니라 또한 모노크롬이도록 의도하고 있다.

컬러 또는 그레이스케일의 변환은 스티칭전에 선택된 시놉시스 객체에 적용될 수 있는 변환 중 단지 한 타입인 것에 또한 주목해야 한다. 상술한 바와 같이, 이는 배경 일치성을 확실히 하기 위해 긴 지속시간에 걸친 소스 비디오로부터 시놉시스 비디오 생성시 특별히 유익하다. 그러나, 시놉시스 비디오가 배경색이 필요한 시간 윈도우동안 충분히 일정한 소스 비디오로부터 도출될 때 덜 중요할 수 있다.

본 발명에 따른 시스템은 적절하게 프로그램된 컴퓨터일 수 있음이 이해될 것이다. 마찬가지로, 본 발명은 본 발명의 방법을 실행하기 위한 컴퓨터에 의해 판독될 수 있는 컴퓨터 프로그램을 고려한다. 본 발명은 또한 본 발명의 방법을 실행하기 위해 장치에 의해 실행될 수 있는 명령 프로그램을 명배히 구현하는 기계판독가능 메모리를 또한 고려한다.

본 발명의 상세한 내용에 포함됨.

Claims

비디오 감시 카메라에 의해 생성된 실질적인 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법으로서,

상기 소스 비디오스트림에서 다른 각각의 시간으로부터 각각 도출된 적어도 3개의 포인트들이 상기 시놉시스 비디오에서 동시에 디스플레이되고, 같은 시간에서 도출된 적어도 2개의 포인트들 모두가 상기 시놉시스 비디오에서 다른 시간에 디스플레이되도록,

상기 소스 비디오스트림에서 적어도 3개의 다른 소스 객체들의 실시간 객체 기반의 설명을 수신하는 단계와,

각각의 소스 객체에 대한 기간 및 위치를 포함한 상기 객체 기반의 설명의 큐를 연이어 유지하는 단계와,

주어진 기준을 기초로 상기 큐로부터 적어도 3개의 소스 객체의 서브세트를 선택하는 단계와,

시간적 샘플링에 의해 하나 이상의 시놉시스 객체를 각 선택된 소스 객체로부터 샘플링하는 단계와,

상기 시놉시스 비디오에서 디스플레이를 시작하기 위해 각 시놉시스 객체에 대한 각각의 디스플레이 시간을 결정하는 단계와,

시놉시스 객체 또는 각각의 기정된 디스플레이 시간에서 각각 도출된 객체들을 디스플레이함으로써 상기 시놉시스 비디오를 생성하는 단계를 포함하고,

상기 각 소스는 상기 소스 비디오스트림의 적어도 3개의 다른 프레임들로부터 이미지 포인트들의 연결된 서브세트인 소스 비디오로부터 시놉시스 비디오를 생성하는 방법.
제 1 항에 있어서,

상기 시놉시스 객체를 디스플레이하기 위해 각 시놉시스 객체와 상기 시놉시스 비디오에서 각 프레임에 대한 각각의 컬러변환을 결정하는 단계와,

상기 선택된 시놉시스 객체 또는 각각의 컬러변환에서 도출된 객체를 디스플레이하는 단계를 더 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 1 항에 있어서,

상기 객체들 중 하나는 배경 객체인 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 3 항에 있어서,

상기 객체와 상기 배경을 심리스 비디오(seamless video)에 스티칭(stitching)하는 단계를 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

소스 객체가 상기 큐에서 선택되고 코스트 기능을 최적화하기 위해 각 시놉시스 객체의 디스플레이를 시작하기 위한 각각의 시간이 결정되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 배경 객체는 합성적으로 생성되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 시놉시스 비디오에서 각 객체는 상기 각각의 객체가 눈에 보이는 소스 비디오스트림내 시간 세그먼트를 가리키는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 7 항에 있어서,

객체를 선택함으로써 상기 선택된 객체에 의해 지정된 상기 소스 비디오스트림내 상기 시간 세그먼트가 플레이되게 하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 시놉시스 비디오에서 적어도 하나의 객체는 기설정된 심볼에 의해 상기 소스 비디오스트림내 해당 객체를 대체함으로써 형성되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

객체들이 먼저 같은 클래스들로 클러스터되고, 상기 시놉시스 비디오는 적어도 기설정된 클러스터 개수로부터 객체들을 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

객체들이 먼저 같은 클래스들로 클러스터되고, 적어도 하나 선택된 클래스로부터 객체들이 디스플레이되지 않는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 7 항에 있어서,

객체들이 먼저 같은 클래스들로 클러스터되고, 객체를 선택하는 것은 상기 선택된 객체와 동일한 클래스로부터의 객체만을 포함하는 비디오 시놉시스를 가리키는 것인 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

하나 이상의 소스 객체를 선택하는 것은

상기 시놉시스 객체를 상기 시놉시스 비디오에 시티칭하기 위해 코스트 함수를 계산하는 단계와,

달성될 수 있는 가능한 한 최적에 가까운 상기 코스트 함수가 고려되는 시놉시스 객체를 선택하는 단계를 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 큐로부터 적어도 3개의 비중첩 소스 객체를 선택하는 단계는 사용자 정의 제한을 기초로 상기 소스 객체를 필터링하는 단계와 특정 시간 윈도우내에 나타나는 소스 객체에 필터된 소스 객체를 국한시키는 단계를 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

적어도 3개의 비중첩 소스 객체들을 선택하는 단계는 관심 스코어를 결정하는 단계를 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 15 항에 있어서,

상기 관심 스코어는 활동 척도인 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 시놉시스 비디오는 소스 비디오스트림내 모든 관심 객체들을 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 시놉시스 비디오에 또한 나타난 상기 소스 비디오스트림내 관심 객체들의 개수는 상기 시놉시스 비디오의 시각적 호소를 유지하면서 상기 개수를 최대화하는 것 사이에서 상충(trade-off)되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 소스 비디오는 단일 카메라에 의해 캡쳐되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 19 항에 있어서,

고정된 위치에 상기 단일 카메라를 유지하는 것을 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 20 항에 있어서,

상기 카메라는 상기 고정된 위치에서 축에 대해 회전되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

디스플레이하기 전에 상기 시놉시스 객체들 중 적어도 하나를 공간적으로 워핑(warping)하는 것을 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

(a) 상기 소스 비디오스트림에 있는 프레임들 간에 이미지 이동 파라미터들을 계산하는 단계와,

(b) 고정 객체들이 안정화된 소스 비디오스트림에서 정지상태로 나타나도록 상기 소스 비디오스트림에 있는 상기 비디오 프레임들을 워핑하는 단계에 의해 안정화된 소스 비디오스트림를 만들도록 상기 소스 비디오스트림을 사전정렬하는 단계를 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

감시 비디오용으로 사용되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

비디오 인덱싱, 비디오 브라우징 및 비디오 검색 그룹 중에 적어도 하나를 위해 사용되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
제 25 항에 있어서,

상기 시놉시스 비디오에 있는 픽셀에 대해 상기 소스 비디오스트림에서 해당 픽셀에 대한 포인터를 유지하는 단계를 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
비디오 감시 카메라에 의해 생성된 실질적인 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하기 위한 시스템(10)으로서,

상기 소스 비디오스트림에서 적어도 3개의 다른 소스 객체들의 객체기반의 설명의 연이어 유지된 큐를 저장하는 객체 메모리(16)에 결합되도록 형성된 소스 객체 선택기(18)와,

특정 시간주기로부터 도출된 이미지 포인트들을 이용해 시간적 샘플링을 하여 각 선택된 소스 객체로부터 하나 이상의 시놉시스 객체들을 샘플링하기 위해 상기 소스 객체 선택기(18)에 결합된 시놉시스 객체 샘플러(20)와,

상기 시놉시스 비디오에 디스플레이를 시작하기 위해 각 시놉시스 객체에 대한 각각의 디스플레이 시간을 결정하기 위해 상기 시놉시스 객체 샘플러(20)에 결합된 시간선택유닛(23)과,

상기 소스 비디오내 다른 각각의 시간에서 각각 도출된 적어도 3개의 포인트들이 상기 시놉시스 비디오 프레임에서 동시에 디스플레이되도록 연속 시놉시스 비디오 프레임을 만들기 위해 상기 선택된 시놉시스 객체 또는 각각의 시간에서 도출된 객체를 스티칭하기 위해 상기 시간선택유닛(23)에 결합되는 스티칭 유닛(26)과,

상기 시놉시스 비디오 프레임을 저장하기 위해 상기 스티칭 유닛(26)에 결합되는 시놉시스 프레임 메모리(27)를 구비하고,

상기 객체 기반의 설명은 각 소스 객체에 대한 기간 및 위치를 포함하고, 상기 소스 객체 선택기(18)는 하나 이상의 정의된 제한들에 따라 적어도 3개의 다른 소스 객체들을 선택하도록 형성되며, 각 소스는 상기 소스 비디오스트림으로부터 적어도 3개의 다른 프레임들로부터 이미지 포인트들의 연결된 서브세트인 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 만드는 시스템.
제 27 항에 있어서,

상기 시놉시스 비디오를 디스플레이하기 위해 상기 스티칭 유닛(25)에 결합된 디스플레이 유닛(28)을 더 구비하는 서브세트인 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 만드는 시스템.
제 27 항 또는 제 28 항에 있어서,

각 시놉시스 객체와 각 프레임에 대해 상기 시놉시스 객체를 디스플레이 하기 위한 각각의 컬러변환을 결정하기 위해 상기 시간선택유닛(23)에 결합되는 컬러변환유닛(24)과,

선택된 시놉시스 객체 또는 각각의 컬러변환시 도출된 객체를 스티칭하기 위해 상기 컬러변환유닛(24)에 결합되는 스티칭 유닛(26)을 더 구비하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 만드는 시스템.
제 27 항 또는 제 28 항에 있어서,

사용자 정의 제한들이 정의되게 하도록 상기 객체 메모리(16)에 결합되는 사용자 인터페이스(17)를 더 구비하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 만드는 시스템.
제 27 항 또는 제 28 항에 있어서,

정의된 기준에 따라 객체를 클러스터링 하기 위한 클러스터링 유닛(19)을 더 구비하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 만드는 시스템.
제 27 항 또는 제 28 항에 있어서,

상기 소스 비디오스트림에 상기 객체를 검출하기 위해 온라인으로 캡쳐된 비디오를 처리하기 위한 프리-프로세서(13)를 더 구비하고, 상기 프리-프로세서(13)는 상기 객체를 저장하기 위해 상기 객체 메모리(16)에 결합되도록 형성되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 만드는 시스템.
제 32 항에 있어서,

상기 프리-프로세서(13)는 상기 소스 비디오스트림에서 비디오 프레임을 사전정렬하기 위한 정렬유닛(14)을 구비하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 만드는 시스템.
제 33 항에 있어서,

상기 정렬유닛(14)은 제 1 시퀀스에서 프레임들 간에 이미지 이동 파라미터를 계산하고, 제 1 동적 장면의 정지 객체들이 비디오에서 정지상태에 있도록 상기 제 1 시퀀스에 있는 비디오 프레임들을 워핑하도록 형성되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 만드는 시스템.
제 27 항 또는 제 28 항에 있어서,

상기 프레임 발생기는 상기 시놉시스 비디오에 시티칭하기 전에 적어도 하나의 객체를 공간적으로 워핑하기 위한 워핑유닛(25)을 구비하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 만드는 시스템.
제 27 항 또는 제 28 항에 있어서,

비디오 인덱싱, 비디오 브라우징 및 비디오 검색 그룹 중에서 적어도 하나를 위해 형성되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 만드는 시스템.
컴퓨터상에 실행시 제 1 항 내지 제 3 항 중 어느 한 항의 방법을 수행하기 위한 컴퓨터 프로그램 코드 수단을 구비하는 컴퓨터 프로그램을 저장한 컴퓨터 판독가능한 기록매체.
삭제
삭제
삭제
삭제
삭제
삭제