KR101456652B1 - 비디오 인덱싱 및 비디오 시놉시스 방법 및 시스템 - Google Patents

비디오 인덱싱 및 비디오 시놉시스 방법 및 시스템 Download PDF

Info

Publication number
KR101456652B1
KR101456652B1 KR1020097018271A KR20097018271A KR101456652B1 KR 101456652 B1 KR101456652 B1 KR 101456652B1 KR 1020097018271 A KR1020097018271 A KR 1020097018271A KR 20097018271 A KR20097018271 A KR 20097018271A KR 101456652 B1 KR101456652 B1 KR 101456652B1
Authority
KR
South Korea
Prior art keywords
video
synopsis
source
objects
video stream
Prior art date
Application number
KR1020097018271A
Other languages
English (en)
Other versions
KR20090117771A (ko
Inventor
쉬무엘 벨렉
야엘 프리치
알렉산더 라브-아차
아비탈 구트만
Original Assignee
이섬 리서치 디벨러프먼트 컴파니 오브 더 히브루 유니버시티 오브 예루살렘 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=39261922&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR101456652(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 이섬 리서치 디벨러프먼트 컴파니 오브 더 히브루 유니버시티 오브 예루살렘 엘티디. filed Critical 이섬 리서치 디벨러프먼트 컴파니 오브 더 히브루 유니버시티 오브 예루살렘 엘티디.
Publication of KR20090117771A publication Critical patent/KR20090117771A/ko
Application granted granted Critical
Publication of KR101456652B1 publication Critical patent/KR101456652B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

소스 비디오로부터 시놉시스 비디오를 만드는 시스템 및 방법에 있어서, 적어도 3개의 다른 소스 객체들이 하나 이상 정의된 제약에 따라 선택되고, 각 소스 객체는 상기 소스 비디오의 적어도 3개의 다른 프레임으로부터 이미지 포인트들의 연결된 서브세트이다. 하나 이상의 시놉시스 객체들이 특정 시간주기로부터 도출된 이미지 포인트들을 이용해 시간 샘플링에 의해 각 선택된 소스 객체로부터 샘플된다. 각 시놉시스 객체에 대해 상기 시놉시스 비디오에서 디스플레이를 시작하기 위한 각각의 시간이 결정되고 각 시놉시스 객체와 각 프레임에 대해 상기 시놉시스 객체를 디스플레이 하기 위한 각각의 컬러변환이 결정될 수 있다. 시놉시스 비디오는 각각의 시간과 컬러변환시 선택된 시놉시스 객체를 디스플레이함으로써 디스플레이되어, 상기 시놉시스 비디오에서 상기 소스 비디오에서 각각 다른 시간에서 각각 도출된 적어도 3개의 포인트들이 동시에 디스플레이된다.
비디오 인덱싱, 비디오 시놉시스, 시놉시스 객체

Description

비디오 인덱싱 및 비디오 시놉시스 방법 및 시스템{Method and System for Video Indexing and Video Synopsis}
본 출원은 2006년 11월 15일자로 출원된 발명의 명칭이 "Method and system for producing a video synopsis"이며 2007년 5월 24일자로 공개된 WO 2007/057893(래브-아카(Rav-Acha) 등)의 일부계속출원이며, 2007년 2월 1일자로 출원된 가출원 일련번호 No 60/898,698; 2007년 4월 13일자로 출원된 60/911,839; 및 2007년 9월 12일자로 출원된 60/971,582의 우선권 혜택을 주장하며, 상기 참조문헌의 모든 내용은 본 명세서에 참조로 포함되어 있다.
본 발명은 비디오 요약 및 비디오 인덱싱 분야에 관한 것이다.
종래 기술
본 발명에 대한 배경으로 관련된 것으로 고려되는 종래 기술의 참조문헌들이 하기에 열거되어 있으며 상기 내용들은 본 명세서에 참조로 합체되어 있다. 추가 참조문헌들은 상술한 미국 가출원 일련번호 60/898,698; 60/911,839; 및 60/971,582에 언급되어 있고 상기 내용들은 본 명세서에 참조로 합체되어 있다. 본 명세서에서 상기 참조문헌들의 시인은 본 명세서에 개시된 본 발명의 특허성에 대해 이들이 어떤 식으로든 관련 있는 것을 의미하는 것으로 결론짓지 않아야 한다. 각 참조문헌은 []에 포함된 번호로 표시되며 따라서 종래 기술은 []에 포함된 번호로 명세서 전체에 걸쳐 언급될 것이다.
[1] A.Agarwala, M. Dontcheva, M. Agawala, S. Drucker, A. Colburm, B. Curless, D. Salesin, 및 M. Cohen. Interactive digital photomontage, In SIGGRAPH, 페이지 294-302, 2004년
[2] Y. Boykov 및 V. Kolmogorov. An experimental comparison of min-cut/max-flow algorithems for energy mminimization in vision. IEEE Trans. on Pattern Analysis and Machine Intelligence, 26(9):1124-1137, 2004년 9월
[3] S. Cohen. Background estimation as a laveling problem. In ICCV'05, 페이지 1034-1041, 워싱톤 DC, 2005년
[4] A. Divakaran, K. Peker, R. Radhakrishnan, Z. Xiong, 및 R. Cabasson. Video summarization using mpeg-7 motion activity and audio descriptors. Technical Report TR-2003-34, MERL - A Mitsubishi Electirc Research Laboratory, Cambridge, 메사츄세츠, 2003년 5월
[5] G. Doretto, Chiuso, Y. Wu, 및 S. Soatto. Dynamic textures, Int. J. Computer Vision, 51:91-109. 2003
[6] M. Irani, P. Anadndan, J. Bergern, R. Kumar, 및 S. Hsu. Efficient representations of video sequences and their applications. Signal Processing: Image Communication, 8(4):327-351, 1996년
[7] H. Kang, Y. Matsushita, X. Tang, 및 X. Chen. Space-time video motage. In CVPR'06, 페이지 1331-1338, 뉴욕, 2006년 6월
[8] C. Kim 및 J. Hwang. An integrated scheme for object-based video abstraction. In ACM Multimedia, 페이지 303-311, 뉴욕, 2000년
[9] S. Kirkpatrick, C.D. Gelatt, 및 M.P. Vecchi. Optimization by simulated annealing, Science, 4598(13):671-680, 1983
[10] V. Kolomogorov 및 R. Zabih. What energy functions can be minimized via graph cuts? In ECCV, 페이지 65-81, 2002년
[11] Y. Li, T. Zhang, 및 D. Tretter. An oveview of video abstraction techniques. Technical Report HPL-2001-191, HP Laboratory, 2001년
[12] J. Nam 및 A. Tewfik. Video abstract of video. In 3rd IEEE Workshop on Mutlimedia Signal Processing, 페이지 117-122, 코펜하겐, 1999년 9월
[13] J. Oh, Q. Wen, J. lee, 및 S. Hwang. Video abstraction. In S. Deb, editor, Video Data Management and Information Retrieval, 페이지 321-346. Idea Group Inc. 및 IRM Press, 2004년
[14] M. Oren, C. Papageorgiou, P. Shinha, E. Osuna, 및 T. Poggio, A trainable system for people detection. In Proceedings of Image Understanding Workshop, 페이지 207-214, 1997년
[15] M. Gangnet, P. Perez 및 A. Blake, Poisson image editing, In SIGGRAPH, 페이지 313-318, 2003년 7월
[16] C. Pal 및 N. Jojic. Interactive montages of sprites for indexing and summarizing security video. In Video Proceedings of CVPR05, 페이지 Ⅱ:1192, 2005년
[17] R. Patil, P. Rybski, T. Kanade, 및 M. Veloso. People detection and tracking in high resolution panoramic video mosaic. In Int. Conf. on Intelligent Robots and System(IROS 2004), volume 1, 페이지 1323-1328, 2004년 10월
[18] N. Petrovic, N. Jojic 및 T. Huang. Adaptive video fast forward. Mutlimedia Tools and Applications, 26(3):327-344, 2005년 8월
[19] A. Pope, R. Kumar, H. Sawhney, 및 C. Wan. Video abstraction: Summarizing video content for retieval and visualization. In Signals, Systems and Computers, 페이지 915-919, 1998.
[20] A. Rav-Acha, Y. Pritch, 및 S. Peleg. Making a long video short: Dynamic video sysnopsis. In CVRP'06, 페이지 435-441, 뉴욕, 2006년 6월
[21] A. M. Smith 및 T. Kandae. Video skimming and characterization through the combination of image and language understanding. In CAIVD, 페이지 61-70, 1998년
[22] J. Sun, W. Zhang, X. Tang, 및 H. Shum. Background cut. In ECCV, 페이지 628-641, 2006년
[23] Y. Weiss 및 W.T. Freeman. On the optimality of solutions of the max-product belief propagation algorithm in arbitray graphs. IEEE Transcations on Information Theory, 47(2):723-735, 2001년
[24] X. Zhu, X. WU, J. Fan, A.K. Elmagramid 및 W.G. Aref. Exploring video content structure for heirachical summarization. Mutlimedia Syst. 10(2):98-115, 2004년
[25] S. Peleg 및 A. Rav-Acha, WO 2007/057893 "Method and system for producding a video synopsis"
[26] J. Assa, Y. Caspi 및 D. Coher-Or. Action syopsis: Pose selection and illustration. In SIGGRAPH, 페이지 667-676, 2005년
[27] Carsten Rother, Lucas Bordeaux, Youssef Hamadi, 및 Andrew Blake. Autocollage. ACM Transcations on Graphics, 25(3):847-852, 2006년 7월
[28] Assem Agarwala. Efficient gradient-domain compositing using quadtrees. ACM Transactions on Graphics(Proceedings of SIGGRAPH 2007), 2007년
[29] G. Brostow 및 I. Essa. Motion based decompositing of video. In ICCV'99 페이지 8-13, Corfu, 1999
[30] J. Shi 및 J. Malik, Normalized cuts and image segmentaion, IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(8):888-905, 2000
[31] O. Boiman 및 M. Irani. Detecting irregularities in images and in video. In ICCV, 페이지 I: 462-469, 북경, 2005년
[32] B.M. Carvalho, G.T. Herman, 및 T.Y. Kong. Simulatneous fuzzy segmentation of multiple objects. Discrete Applied Mathematics, Vol 151, No. 1-3, 2005년 10월 pp 55-77
[33] G.T. Herman 및 B.M. Carvalho. Mutliseeded Segmentation Using Fuzzy Connectedness. IEEE Transactions on Pattern Analysis and Machine Intelligenece, v.23 no.5, pp. 406-474, 2001년 5월
[34] A. Levin, A. Rav-Acha, 및 D. Lishinski, Spectral Matting. IEEE Conf. on Computer Vision and Pattern Recognition(CVPR), Minneapolis, 2007년 6월
[35] N.E. Apostoloff 및 A.W. Fiitzgibbon, Bayyesian video matting using learnt image priors. In Proceedings IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR), 2004년 6월, 워싱턴 DC.
본 발명의 배경
로우 비디오(raw video)의 수집을 통한 분류는 시간 소모적인데, 이는 관심 중 어떤 것이 기록되었는지 판단하기 위해 비디오 클립을 볼 필요가 있기 때문이다. 이 지루한 작업은 개인용 비디오 수집에서 적합할 수 있으나, 감시 카메라 및 웹캠(webcams)에 의해 기록되는 엔드리스 비디오(endless video)가 수반되는 경우에는 불가능하다. 하루 24시간 시계(視界)를 포착하는 수 백만 개의 웹캠이 세계를 덮고 있다. 영국에서만 도시 거리를 덮고 있는 수 백만 개의 감시 카메라가 있다고 보고된다. 많은 웹캠들은 심지어 누구나 보도록 인터넷을 통해 공개적으로 비디오를 전송한다. 많은 보안 카메라들도 또한 상점, 공항 및 다른 공공장소에서 이용될 수 있다.
웹캠 이용시 문제점 중 하나는 웹캠이 원래의 편집되지 않은 데이터를 제공한다는 것이다. 따라서, 대부분의 감시 비디오는 결코 주시되거나 검사되지 않는다. 본 출원인은 앞선 참조문헌 WO 2007/057893 [25]에서, 장면의 다수의 원본 이미지들로부터 선택된 부분들을 조합하여 단축된 비디오를 만드는 비디오 시놉시스 방법을 제안하고 있다. 비디오 클립은 시간에 따른 시각적 활동을 기술하며, 시간축을 압축함으로써 더 짧은 시간내에 이러한 클립의 요약 시청이 가능해 진다. 선택된 프레임들 사이에 다수의 프레임들이 건너뛰어 지는 빨리감기가 비디오 요약에 사용되는 가장 공통된 툴(tool)이다. 꽃의 성장 등과 같이 매우 느린 과정의 비디오를 만드는 빨리감기의 특별한 경우를 "시간 경과"라 한다. 빨리감기는 빠뜨린 프레임들 중에 빠른 활동을 놓칠 수 있기 때문에, 적응형 빨리감기(adaptive fast forward) 방법이 개발되었다[12, 18, 4]. 이런 방법은 관심도가 낮고 활동이 낮은 주기의 플레임들을 스킵하고 관심도가 높고 활동이 큰 주기의 프레임들을 유지하기 위해 시도된다. 유사한 접근은 컨텐츠를 비디오로부터 가장 잘 나타내는 쇼트 비디오 시퀀스의 수집을 추출한다[21].
비디오 요약에 대한 많은 접근들은 시간 축을 완전히 제거하고 몇몇의 핵심 프레임을 선택함으로써 비디오의 시놉시스를 보여준다[8, 24]. 이들 키 프레임들은 임의로 선택될 수 있거나 몇가지 중요 기준에 따라 선택될 수 있다. 그러나, 키 프레임 표현은 비디오의 동적 측면을 상실한다. 비디오 요약에 대한 포괄적인 개론이 [11, 13]에 나타나 있다.
상기 양 접근에서, 전체 프레임은 기본 빌딩 블록들처럼 사용된다. 다른 방 법론은 비디오 인덱싱을 위해 몇몇 메타-데이터와 함께 모자이크 이미지를 사용한다[6, 19, 16]. 이 경우 정적 시놉시스 이미지는 다른 시간의 객체들을 포함한다.
비디오 시놉시스에 대한 객체 기반의 접근이 [20, 7]에 최초로 나타나 있으며, 상기 참조문헌에서 움직이는 객체는 시공간 영역에 표현된다. 비디오의 연속 프레임들에 걸쳐 객체(objects) 또는 활동(activities)을 나타내는 이미지 부분의 연결을 "튜브(tubes)"라 한다. 객체가 시공간량으로 튜브에 의해 표현되기 때문에, "객체" 및 "튜브"라는 용어는 하기의 설명에서 상호교환될 수 있게 사용된다. 이들 논문[20, 7]은 다른 시간의 활동을 조합한 시놉시스 비디오를 만드는 새로운 개념을 도입한다(도 1 참조).
객체 기반 접근의 일예가 본 출원인에 양도된 WO 2007/057893[25]에 개시되어 있으며, 상기 참조문헌에서 하나 이상의 객체들의 움직임을 보여주는 입력 비디오내 프레임 서브세트가 얻어 진다. 최초의 동적 장면에서 객체의 비공간적으로 중첩하는 모습을 보여주는 서브세트로부터 선택된 부분들이 다수의 입력 프레임들로부터 출력 비디오 시퀀스에서 감소된 개수의 프레임들에 복제되어 입력 비디오에서 다른 시간에 보여진 것처럼 객체의 다수 위치들이 출력 비디오에서 동시에 나타나 진다.
참조문헌[20, 7]에 개시된 접근은 연대기 순서가 강요되지 않는다면 더 많은 활동들이 더 짧은 비디오로 보여질 수 있다는 인식을 기초로 한다. 감시 카메라를 이용해 얻어진 엔드리스 비디오 시퀀스의 시놉시스에 대한 이러한 접근을 확장해 소정 한계로 출력 비디오의 지속시간을 제한하는 한편 그럼에도 불구하고 두드러진 장면 상실의 위험성을 줄이는 제어된 방식으로 행하는 것이 유용할 수 있다.
특히 비디오를 끝없이 수집하는 감수 카메라의 개수가 급격히 증가한다면, 긴 비디오의 효율적인 인덱싱, 검색 및 브라우징이 중요해 진다. 종래 비디오 인덱싱은 키워드로 비디오의 수동 주석(manual annotation)을 이용하나, 이 방법은 시간 소모적이며 감시 카메라에 비실용적이다. 입력 비디오로부터 대표적인 키 프레임 또는 대표적인 시간 간격의 선택을 기초로 한 다른 비디오 인덱싱 방법들이 제안되었다.
비디오 시놉시스는 다루어지는 시간주기에서 많은 객체들이 짧은 시놉시스 비디오에 나타날 때 인덱싱, 검색 및 브라우징에 유용할 수 있다. 그러나, 다른 많은 객체들이 동시에 나타나기 때문에, 간단한 시놉시스 비디오를 검사하는 것은 혼동을 줄 수 있다.
US2006117356(마이크로소프트)는 전체 비디오 레코딩내에 발생한 고유 이벤트들의 대화식 브라우징을 제공하는 비디오 브라우저를 개시하고 있다. 특히, 상기 비디오 브라우저는 상기 비디오를 처리해 비디오의 전체 주기내에 발생한 고유 이벤트들을 나타내는 비디오 스프라이트(video sprite) 세트를 생성한다. 이들 고유 이벤트는 비디오가 담은 총 주기의 모두 또는 일부내에 발생한 예컨대 운동 이벤트, 보안 이벤트 또는 다른 기정의된 이벤트 타입을 포함한다. 비디오가 스프라이트를 식별하기 위해 처리된 후, 상기 스프라이트들은 상기 비디오로부터 추출된 배경 이미지 위로 배열되어 대화식 정적 비디오 몽타주를 형성한다. 대화식 비디오 몽타주는 단일 정적 프레임에서 비디오내 발생한 모든 이벤트를 나타낸다. 상기 몽타주내 스프라이트들의 사용자 선택은 상기 선택된 스프라이트들이 식별되는 비디오의 일부분의 재생녹화 또는 동적 비디오 몽타주내에 선택된 스프라이트들의 동시 재생녹화를 하게 한다.
WO0178050(인모션 테크놀로지사(Inmotiion Technologies Ltd.))는 자동으로 예컨대 스포츠 행사의 스트로보스코프(stroboscope) 시퀀스를 얻기 위해 심지어 단일 비디오 카메라로부터 표준 비디오의 피트 수(footage)를 이용하기 위한 시스템 및 방법을 개시하고 있다. 시퀀스는 사진 특성의 정적 이미지로서 또는 카메라 이동이 현재 유지되는 비디오 시퀀스에 의해 나타낼 수 있으며, 어떤 경우 비디오 시퀀스는 스트로보스코프 사진에 카메라를 좌우로 움직여서 촬영하는 카메라 이동으로 또는 상기 움직이는 객체가 경로를 따라 복제들의 이동경로를 남기는 움직이는 듯한 스트로보스코프 사진으로 간주될 수 있다. 다수의 카메라들이 예컨대 확장된 시계(視界) 또는 다수 시퀀스의 비교를 위해 사용될 수 있다.
JP-2004-336172는 동시에 움직이는 객체들 간에 끊김없이 이벤트의 연대기적 순서를 유지하는 감시 비디오를 단축하는 시스템을 개시하고 있다. 연대기적 순서를 유지하는 것은 실질적으로 단축 가능성을 제한한다. 또한 시놉시스 비디오에서 객체의 본래 시간이 쉽게 결정될 수 있도록 객체를 인덱스하는 어떠한 제안도 없다.
본 발명의 제 1 태양에 따르면, 비디오 감시 카메라에 의해 생성된 실질적인 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하기 위한 컴퓨터 실행방법으로서, 상기 소스 비디오스트림에서 다른 각각의 시간으로부터 각각 도출된 적어도 3개의 포인트들이 상기 시놉시스 비디오에서 동시에 디스플레이되고, 같은 시간에서 도출된 적어도 2개의 포인트들 모두가 상기 시놉시스 비디오에서 다른 시간에 디스플레이되도록, 상기 소스 비디오스트림에서 적어도 3개의 다른 소스 객체들의 실시간 객체 기반의 설명을 수신하는 단계와, 각각의 소스 객체에 대한 기간 및 위치를 포함한 상기 객체 기반의 설명의 큐를 연이어 유지하는 단계와, 주어진 기준을 기초로 상기 큐로부터 적어도 3개의 소스 객체의 서브세트를 선택하는 단계와, 시간적 샘플링에 의해 하나 이상의 시놉시스 객체를 각 선택된 소스 객체로부터 샘플링하는 단계와, 상기 시놉시스 비디오에서 디스플레이를 시작하기 위해 각 시놉시스 객체에 대한 각각의 디스플레이 시간을 결정하는 단계와, 시놉시스 객체 또는 각각의 기정된 디스플레이 시간에서 각각 도출된 객체들을 디스플레이함으로써 상기 시놉시스 비디오를 생성하는 단계를 포함하고, 상기 각 소스는 상기 소스 비디오스트림의 적어도 3개의 다른 프레임들로부터 이미지 포인트들의 연결된 서브세트인 소스 비디오로부터 시놉시스 비디오를 생성하기 위한 컴퓨터 실행방법이 제공된다.
본 발명의 제 2 태양에 따르면, 비디오 감시 카메라에 의해 생성된 실질적인 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하기 위한 시스템으로서, 상기 소스 비디오스트림에서 적어도 3개의 다른 소스 객체들의 객체 기반의 설명의 연이어 유지된 큐를 저장하는 객체 메모리에 결합되도록 형성된 소스 객체 선택기와, 특정 시간주기로부터 도출된 이미지 포인트들을 이용해 시간적 샘플링을 하여 각 선택된 소스 객체로부터 하나 이상의 시놉시스 객체들을 샘플링하기 위해 상기 소스 객체 선택기에 결합된 시놉시스 객체 샘플러와, 상기 시놉시스 비디오에 디스플레이를 시작하기 위해 각 시놉시스 객체에 대한 각각의 시간을 결정하기 위해 상기 시놉시스 객체 샘플러에 결합된 시간선택유닛과, 상기 소스 비디오스트림내 다른 각각의 시간에서 각각 도출된 적어도 3개의 포인트들이 상기 시놉시스 비디오 프레임에서 동시에 디스플레이되도록 연속 시놉시스 비디오 프레임을 만들기 위해 상기 선택된 시놉시스 객체 또는 각각의 시간에서 도출된 객체를 스티칭하기 위해 상기 시간선택유닛에 결합되는 스티칭 유닛과, 상기 시놉시스 비디오 프레임을 저장하기 위해 상기 스티칭 유닛에 결합되는 시놉시스 프레임 메모리를 구비하고, 상기 객체 기반의 설명은 각 소스 객체에 대한 기간 및 위치를 포함하고, 상기 소스 객체 선택기는 하나 이상의 정의된 제한들에 따라 적어도 3개의 다른 소스 객체들을 선택하도록 형성되며, 각 소스는 상기 소스 비디오스트림으로부터 적어도 3개의 다른 프레임들로부터 이미지 포인트들의 연결된 서브세트인 소스 비디오로부터 시놉시스 비디오를 만드는 시스템이 제공된다.
본 발명에 의해 개시된 비디오 시놉시스는 비디오 브라우징과 검색을 가능하게 하고 다른 특징들의 인덱싱을 가능하게 하여 선택된 특징들이 분리되게 하여 디스플레이되는 특정 시간간격에 시간적 진행을 하게 하는 비디오의 시간적으로 압축된 표현이다. 본 발명의 몇몇 실시예에 따르면, 비디오 시놉시스를 기초로 한 계층적 비디오 인덱싱이 이용되며, 인덱싱은 소정의 객체 또는 활동의 클래스를 먼저 선택하고 단지 나중에 개개의 객체 또는 활동을 선택하는 것을 기초로 한다. 이 절차는 멀티레벨 계층적 인덱싱을 가능하게 하도록 반복될 수 있다.
본 발명이 고려되는 비디오 시놉시스의 일반적인 타입의 예가 도 1에 도시된 시공간량을 참조로 [25]에 기술되어 있다. 비디오는 지상에서 걷고 있는 사람으로 시작하고 비활동 주기 후 새가 하늘에 날오른다. 비활동 프레임은 대부분의 비디오 요약방법에서 생략된다. 비디오 시놉시스는 실질적으로 사람과 새가 동시에 움직이여 더 압축된다. 이는 다른 활동들이 이들 공간위치에서 전혀 발생하지 않을 때 본래 시간간격에서 다른 시간간격으로 이벤트를 이동함으로써 이미지 영역을 최적으로 사용하게 한다. 이러한 조작은 이벤트의 연대기적 일치를 이완시킨다. 유사한 기술들이 본 발명에 의해 이용될 수 있는 정도는 본 명세서에 반복되지 않을 것이며 완전한 설명을 위해 WO 2007/057893을 참조하라. 몇몇 태양에서는 WO 2007/057893의 향상으로 보여질 수 있는 본 발명을 간략히 하고 혼란시키지 않도록 하기 위해, 본 발명에 대한 이들 특징들만 상세히 기술할 것이다.
웹캠과 감시카메라에 의해 얻은 무한 비디오에 대한 이런 원리는 많은 추가적인 문제들을 포함한다:
·어떠한 저장도 무한하지 않기 때문에, 무한 비디오가 요약되는 경우 이벤트를 "무시"해하는 것이 필요하다.
·배경 모습이 긴 비디오에서, 가령, 낮에서 밤으로 실질적으로 변한다. 이들 변화는 시놉시스의 배경을 만들 때 그리고 객체를 배경에 삽입할 때 해결되어야 한다.
·다른 시간에서 그리고 심지어 또 다른 시간의 배경에 활동들이 동시에 나타날 수 있기 때문에, 출력 비디오를 제공하기 위해 이들 모두를 스티칭할 때 특별한 주의가 요구되어야 한다.
·큰 데이터량에도 불구하고 사용자 질의에 대한 빠른 응답이 요구된다.
비디오 시놉시스는 감시 카메라와 웹캠가 라이브 비디오스트림 이외에 엔드리스 비디오의 요약을 볼 능력을 시청자에게 제공함으로써 더 유용하게 할 수 있다. 이를 가능하게 하기 위해, 시놉시스 서버는 라이브 비디오 피드를 보고, 관심 이벤트에 대한 비디오를 분석하고 상기 비디오의 객체기반의 설명을 기록할 수 있다. 이 설명은 각 웹캠에 대해 상기 관심 객체, 객체의 지속시간, 위치 및 객체의 모습을 열거한다.
시스템에 의해 답해질 수 있는 질의는 "지난 시간동안 캡쳐된 이 웹캠에서 비디오의 시놉시스를 1분 내로 보고싶다" 또는 "지난 주의 시놉시스를 5분내로 보고 싶다" 등과 같을 수 있다. 이러한 질의에 대해 응답하여 대부분의 관심 이벤트("튜브")가 소정 주기로부터 수집되고 소정 길이의 시놉시스 비디오에 어셈블리된다. 시놉시스 비디오는 각 객체가 본래 시간에 대한 포인터를 포함하기 때문에 본래 비디오에 대한 인덱스이다.
웹캠 비디오가 엔드리스이고 객체의 개수가 제한되지 않으나, 각 웹캠에 대한 이용가능한 데이터 저장량은 제한될 수 있다. 유한한 객체 큐를 유지하기 위해, 공간이 고갈될 때 이 큐로부터 객체를 제거하기 위한 절차를 제안한다. 큐로부터 객체의 제거는 최종 최적화가 몇몇 객체들을 검사하게 하여 시놉시스에 포함을 위해 객체를 선택할 때 행해지는 유사한 중요도 기준에 따라 행해져야 한다.
본 발명의 내용 및 청구의 범위에서, "비디오"라는 용어는 후처리에 정정할 수 있는 컴퓨터 이미지 파일로서 이용될 수 있고 임의의 종류의 영화 파일, 예컨대, 디지털, 아날로그 파일을 단지 포함하는 경우 가장 일반적인 용어의 "영화"와 동의어이다. 카메라는 바람직하게는 회전하고 줌할 수 있는 것을 의미하는 고정된 위치에 있으나, 지금까지 제안된 기술에서 행해진 것처럼 평행이동되지 않는다. 본 발명에 관계된 장면은 적어도 몇 시간은 동적이다.
본 발명을 기술하기 위해 사용자는 시놉시스 비디오를 만들기 위해 "시공간량"으로서 언급되는 구성으로 만들어진다. 시공간량은 시간축을 따라 모든 프레임을 순차적으로 적층함으로써 이미지의 입력 시퀀스로부터 구성될 수 있다. 그러나, 실제 실행에 관한 한 예컨대 동적 소스 장면의 2D 프레임을 시간적으로 실제 적층함으로써 시공간량을 반드시 구성할 필요가 없음을 알아야 한다. 보다 일반적으로, 소스 프레임들은 타겟 프레임을 구성하기 위해 개별적으로 진행되나, 개념적 구성이라기보다는 물리적 구성인 것처럼 시공간량을 의미하는 것이 이해에 도움이 될 것이다.
본 발명을 이해하고 실제로 어떻게 수행될 수 있는지 알기 위해 첨부도면을 참도로 단지 비제한적인 예로써 실시예들이 기술되어 있다.
도 1은 시간적으로 옮겨진 피쳐(feature)들을 동시에 플레이시켜 압축 비디오 시놉시스를 만들기 위한 종래 기술의 접근을 나타낸 도면이다.
도 2a 내지 도 2d는 다른 시간에서 스투트가르트 공항에서 감시 카메라로부터 배경 이미지를 도시한 것이다.
도 3a 내지 도 3d는 도 2a 내지 도 2d의 해당 배경에 대해 "플랫(flattened)"하게 나타난 4개의 추출된 튜브들을 도시한 것이다.
도 4a 내지 도 4d는 "당구" 장면에서 2개의 추출된 튜브를 도시한 것이다.
도 5a 내지 도 5d는 도 2에 도시된 공항장면에서 활동의 공간적 분포를 도시한 것이다.
도 6은 움직이는 객체의 개수로 측정된 도 2에 도시된 공항장면에서 활동의 시간적 분포를 그래프로 도시한 것이다.
도 7은 본 발명의 실시예에 따른 시놉시스 기반의 계층적 비디오 인덱싱과 검색 구조를 도시한 블록도이다.
도 8은 도 12에 도시된 주창장의 감시 비디오에 나타난 컬러스터링 객체들의 결과를 도시한 것이다.
도 9는 다른 클러스터들의 사진들이 동시에 나타난 도 13에 도시된 주차장 비디오의 인덱싱 계층에서 "최상위 시놉시스"로부터의 프레임을 도시한 것이다.
도 10a 및 도 10b는 스투트가르트 공항에서 24시간에 걸쳐 캡쳐된 비디오로부터 시놉시스 프레임을 도시한 것이다.
도 11은 당구클럽에서 9시간에 걸쳐 캡쳐된 비디오에서 취한 3개의 프레임으로부터 만들어진 시놉시스 프레임을 도시한 것이다.
도 12a 및 도 12b는 세인트 피츠버그에서 하룻밤동안 캡쳐된 비디오로 만들어진 시놉시스 프레임을 도시한 것이다.
도 13a 및 도 13b는 조용한 주차장의 5시간에 걸쳐 찍은 웹캠으로 만든 시놉시스 프레임을 도시한 것이다.
도 14는 본 발명에 따른 시스템의 주요 기능을 도시한 블록도이다.
도 15는 본 발명에 따라 수행된 주요 동작을 도시한 흐름도이다.
도면에서 대표적인 프레임들로 도시된 비디오 시놉시스의 예들은 물론 비디오로 가장 잘 보여진다. 예들은 http://www.vision.huji.ac.il/video-synopsis/에 접속될 수 있다.
활동 튜브 산정
각 객체로부터, 상기 객체가 나타나는 프레임의 서브세트를 선택함으로써 세그먼트가 생성된다. 이러한 세그먼트는 선택적으로 다른 샘플속도 취한 다른 시간간격을 나타낼 수 있다.
엔드리스 비디오의 유용한 시놉시스를 만들기 위한 이러한 기술을 적용하기 위해, 관심 객체과 활동(튜브)이 식별되어야 한다. 많은 경우, 관심의 표시는 간단 하다. 움직이는 객체가 관심이다. 많은 예에서 관심의 표시로서 객체 이동을 사용하지만 예외도 주목되어야 한다. 나무의 잎 또는 하늘의 구름과 같이 몇몇 움직임은 중요하지 않을 수 있다. 장면에서 사람이나 다른 큰 동물들은 심지어 움직이지 않더라도 중요할 수 있다. 이들 예외를 언급하지 않지만, 객체 인식(예컨대, 사람 검출[14, 17]), 역동적인 직물[5], 또는 특이한 활동[31]의 검출을 포함할 수 있다. 다른 객체의 분류에 우선순위를 주는 비디오 시놉시스의 간단한 예를 제시할 것이다.
배경 구성
움직이는 전방 객체의 세그먼테이션(segmentation)을 가능하게 하기 위해, 배경 구성을 시작한다. 짧은 비디오 클립에서, 배경의 모습은 변하지 않고, 전체 클립에 걸쳐 시간적 중앙값을 이용해 형성될 수 있다. 감시 카메라의 경우, 배경 모습은 조명의 변화, 배경 객체들의 변화로 인해 시간적으로 변한다. 이 경우, 각 시간에 대한 배경은 각 프레임 전후 몇 분간 시간 중앙값을 이용해 계산될 수 있다. 통상적으로 4분에 대한 중앙값을 사용한다. 심지어 더 짧은 시간 윈도우[3, 9]를 이용할 때에도 배경구성을 위한 다른 방법들도 가능하나, 효율성으로 인해 중앙값을 이용한다.
도 2a 내지 도 2d는 스투트가르트 공항에 있는 감시 카메라로부터의 배경 이미지를 도시한 것이다. 도 2a 및 도 2b는 낮 이미지를 나타낸 반면, 도 2c 및 도 2d는 밤을 나타낸 것이다. 주차된 자동차들과 주차된 비행기들이 배경의 일부가 된다.
동적인 객체를 나타내는 시공간 튜브를 계산하기 위해 [22]의 간략화를 이용한다. 이는 전방 객체의 완만한 세그먼테이션을 얻기 위해 최소절단(min-cut)과 함께 배경 제거(background subtraction)를 조합하여 행해진다. [22]에서와 같이, 이동 경계에 대해 관계가 덜 할 것 같기 때문에 배경 그래디언트와 일치하는 이미지 그래디언트가 감쇠된다. 최종 발생한 "튜브"들은 3D 시공간량으로 연결된 구성요소들이며 이들의 그래디언트는 간략히 하기에 기술되어 있다.
B를 현재 배경 이미지라 하고, I를 처리될 현재 이미지라고 하자. V를 I에 있는 모든 픽셀의 세트라 하고, N을 I에 있는 모든 인접한 픽셀 쌍들의 세트라 하자. 라벨링 함수(f)는 전방(fr=1) 또는 후방(fr=0)으로서 이미지내에 있는 각 픽셀(r)에 라벨을 붙인다. 소정의 라벨링(f)은 통상적으로 깁스 에너지(Gibbs energy)를 최소화시킨다[2]:
Figure 112012101744330-pct00052
여기서 E1(fr)은 단색(unitray-color)항이고, E2(fr,fs)은 인접한 픽셀(r 및 s)들 간의 쌍 대조(pairwise-contrast)항이며, λ는 사용자 정의 가중치이다.
쌍 대조 항으로서, [22]에 제안된 공식을 사용한다:
Figure 112009053749685-pct00002
여기서 β=2<∥I(r)-I(s)∥2>-1는 가중치 인수이고(<.>는 이미지 샘플에 걸친 기대치임), drs는 배경 그래디언트에 의해 감쇠된 이미지 그래디언트로서 다음과 같이 주어진다:
Figure 112009053749685-pct00003
이 식에서, zrs는 전방과 후방 사이의 상이점(dissimilarity)을 측정한다:
Figure 112009053749685-pct00004
K와 σz는 파라미터이며, [22]에 제안된 바와 같이 각각 5와 10으로 설정된다.
단색항에 대해, dr=∥I(r)-B(r)∥을 이미지(I)와 현재 배경(B) 간의 컬러 차이라고 하자. 픽셀(r)에 대한 전방(1)과 배경(0) 코스트(cost)는
Figure 112012101744330-pct00053
이며, 여기서, k1 및 k2는 사용자 정의 임계치이다. 경험상 k1 = 30/255 및 k2 = 60/255가 본 실시예에서 잘 적용된다.
무한 가중치를 갖는 더 낮은 임계치를 사용하지 않는데, 이는 알고리즘의 나중 단계들이 전방으로서 잘못 식별된 픽셀들을 강하게 처리할 수 있기 때문이다. 같은 이유로, 시공간량으로 모든 전방 픽셀들의 마스크를 구성하고 이 마스크에 3D 형상학적 팽창(morphological dilation)을 적용한다. 그 결과, 각 객체는 배경으로부터 다수의 픽셀들에 의해 둘러싸여 진다. 이는 스티칭 알고리즘(stitching algorithm)에 의해 나중에 사용될 것이다.
마지막으로, 3D 마스크는 "활동 튜브"로 표시된 연결구성부품들로 그룹화된다. 도 3a 내지 도 3d는 도 2의 해당 배경에 대해 "플랫"하게 도시된 4개의 추출 튜브를 도시한 것이다. 좌측 튜브는 지상 차량에 대한 것인 반면, 우측 튜브는 뒤쪽에 활주로상의 비행기에 대한 것이다. 도 4a 및 도 4b는 시간적으로 구분된 다수의 플레이어들을 단일 프레임에 묘사하기 위해 "당구" 장면에서 2개의 추출 튜브를 이용해 도출된 시놉시스 프레임을 도시한 것이다.
각 튜브(b)는 특성함수로 표현된다:
Figure 112009053749685-pct00006
여기서 B(x,y,t)는 배경 이미지에서의 픽셀이고, I(x,y,t)는 입력 이미지에서의 각 픽셀이며, tb는 이 객체가 있는 시간간격이다.
객체가 움직이는 세그먼테이션에 대한 다른 방법들도 가능하다. 예컨대, 이진수 세그먼테이션에서, 이미지내의 모든 요소는 객체에 속하거나 객체에 속하지 않는 것으로 분류될 수 있다. 객체에 멤버십 등급을 이미지내의 각 요소에 할당하는 세그먼테이션은 또한 명확하지 않을 수 있다. 적절한 접근이 [32, 33, 34, 35]에 기술되어 있다. 퍼지 연결의 개념이 [33]에 설명되어 있다. 퍼지 세그먼테이션은 때로 퍼지 매팅(Fuzzy matting)이라 하고[35], 다른 배경의 객체들의 삽입을 위한 그래픽에 널리 사용된다[35]. 작업에서, 모든 객체는 이진수로 처리한다. 그러나, 퍼지 객체로의 확장은 직접적이다. 예컨대, 코스트 함수(cost function)의 모든 요소들은 관계된 요소들의 퍼지 멤버십 값에 의해 배가될 수 있다. 또한, 퍼지 객체가 이미지에 삽입되는 경우, 멤버십 값은 투명효과를 허용한 "알파 매팅(alpha matting)"에 사용될 수 있다.
튜브들 간의 에너지
튜브들 간의 상호작용 에너지를 정의한다. 이 에너지는 나중에 최대 활동을 갖는 한편 충돌을 피하는 시놉시스를 생성하는 최적화 단계에 사용되고 객체들 간에 중첩된다. B를 모든 활동 튜브들의 세트라 하자. 각 튜브(b)는 원래 비디오스트림 tb=[tb s, tb e]에서 유한시간 세그먼트에 대해 정의된다.
시놉시스 비디오는 입력 비디오에서의 본래 시간으로부터 비디오 시놉시스에서의 시간 세그먼트
Figure 112009053749685-pct00007
로 시간적으로 객체(b)를 이동시키는 시간적 매핑(M)을 기초로 생성된다. M(b)=
Figure 112009053749685-pct00008
는 튜브(b)를 시놉시스로의 시간 이동을 나타내고, b는 출력 시놉시스 M(b)=Ø로 맵핑되지 않는 경우를 나타낸다. 하기의 에너지 함수를 최소화하는 하나로서 최적의 시놉시스 비디오를 정의한다:
Figure 112009053749685-pct00009
여기서, Ea는 활동 코스트(activity cost)이며, Et는 시간적 일치성 코스트(temporal consistency cost)이고, Ec는 충돌 코스트(collision cost)이며, 이 모두는 하기에 정의되어 있다. 가중치 α 및 β는 특정 질의에 대한 상대적 중요도에 따라 사용자가 정한다. 예컨대, 충돌 코스트의 가중치를 줄임으로써 객체들이 중첩될 수 있는 더 조밀한 비디오가 된다. 이 가중치를 늘림으로써 객체들이 중첩될 수 없고 활동성이 낮게 나타나는 듬성한 비디오가 될 것이다. β를 변화시켜 얻은 다 른 시놉시스트에 대한 예가 도 10b에 주어져 있다.
활동 튜브를 추출한 후 픽셀 기반의 코스트는 객체 기반의 코스트로 대체될 수 있다. 구체적으로, [25]에 기술된 바와 같은 종래 기술적 접근과 관련된 스티칭 코스트(Stitching cost)는 수학식(7)에서 충돌 코스트(후술됨)에 의해 대체된다. 이 코스트는 심지어 이들의 모습(예컨대 2사람)이 유사하더라도 2개의 다른 객체들을 함께 스티칭하기 위해 패널티를 준다. 또한, "시간적 일치성" 코스트는 객체들(또는 튜브들) 간의 시간적 관계의 위반에 대해 패널티를 주는 것으로 정의된다. 이러한 시놉시스의 특징은 픽셀 기반의 코스트로는 표현하기가 힘들다.
활동 코스트
활동 코스트는 최대 활동을 갖는 시놉시스 영화를 선호한다. 시놉시스에서 유효시간으로 맵핑되지 않는 객체들에 대해 패널티를 준다. 튜브가 시놉시스로부터 배제되지 않는 경우, 즉, M(b)=Ø이면,
Figure 112009053749685-pct00010
여기서, χb(x,y,t)는 수학식(6)에서 정의된 특성함수이다. 각 튜브(b)에 대해, 튜브의 맵핑
Figure 112009053749685-pct00011
=M(b)이 최종 시놉시스에 부분적으로 포함되고, 수학식(8)과 유사하게 활동 코스트를 정의하나, 상기 시놉시스에 들어가지 않은 픽셀들만 활동 코스트에 추가된다.
충돌 코스트
매 2개의 "이동된" 튜브와 이들 간의 모든 상대시간이동에 대해, 활동 수단에 의해 가중화된 시공간 중첩량으로서 충돌 코스트를 정의한다:
Figure 112009053749685-pct00012
여기서
Figure 112009053749685-pct00013
는 시놉시스 비디오에서의 b와 b'의 시간 교차이다. 이 표현은 픽셀의 컬러가 배경과 유사한 픽셀에 낮은 패널티를 줄 것이지만, 형상학적 팽창 프로세스에서 활동 튜브에 추가된다. 충돌 코스트 Ec의 가중치를 변경함으로써 도 10b에 도시된 바와 같이 시놉시스 비디오에서 객체의 밀도가 변한다.
시간적 일치성 코스트
시간적 일치성 코스트는 이벤트의 연대기적 순서를 보존하는 바이어스(bias)를 추가한다. 연대기적 순서의 보존은 강한 상호작용을 갖는 튜브들에 대해 더 중요하다. 예컨대, 서로 대화하는 두사람의 상대 시간을 유지하거나, 합당하게 2개의 사건의 연대기적 순서를 유지하는 것이 바람직하다. 그러나, 이런 상호작용을 검출하기가 매우 어렵다. 대신, 후술된 바와 같이 상대적인 시공간 거리에 대한 각 튜브 쌍들간의 상호작용량 d(b,b')이 추정된다:
Figure 112009053749685-pct00014
여기서, d(b,b',t)는 프레임 t에서 b와 b'으로부터 가장 가까운 활동 픽셀 쌍 간의 유클리드 거리이고, σ공간은 튜브들 간에 공간 상호작용의 범위를 결정한다.
튜브 b와 b'가 시놉시스 비디오에서 공통시간을 공유하지 않고, b가 b'보다 더 이른 시간에 맵핑된다면, 이들 상호작용은 시간에 따라 지수함수적으로 줄어든다:
Figure 112009053749685-pct00015
여기서, σ시간은 이벤트가 여전히 시간적 상호작용을 갖는 것으로 간주되는 시간 범위를 정의하는 파라미터이다.
시간적 일치성 코스트는 이들 관계가 위반되는 경우에 패널티를 줌으로써 객체들 간의 시간적 관계를 유지하기 위한 우선순위를 생성한다:
Figure 112009053749685-pct00016
여기서 C는 시간적 일치성을 유지하지 않는 이벤트에 대한 상수 패널티이다.
에너지 최소화
수학식(7) 및 (15)에서 글로벌 에너지 함수는 단일 튜브 또는 튜브 쌍들에 정의된 에너지 항들의 합으로 작성되기 때문에, 브리프 프로파게이션(Brief Propagation)[23] 및 그래프 컷(Graph Cuts)[10]과 같은 다양한 MRF기반의 기술에 의해 최소화될 수 있다. 본 실행에서는 양호한 결과를 준 심플러 스티뮬레이티드 어닐링 메소드(simpler stimulated annealing method)[9]를 사용했다. 스티뮬레이티드 어닐링은 튜브가 시놉시스 비디오에서 전혀 사용되지 않는 특별한 경우를 포함한 모든 가능한 시간적 맵핑(M) 공간에 적용되었다.
각 상태는 시놉시스에 포함된 튜브들의 서브세트를 기술하고 이웃 상태들은 단일 활동튜브가 제거되거나 시놉시스에서 맵핑을 변경하는 상태로서 정의된다. 초기 상태로서 모든 튜브들이 시놉시스 무비의 초기로 이동된 상태를 사용했다. 또한, 컴퓨터 사용(computation)을 가속화시키기 위해, 튜브의 시간적 이동이 10 프레임의 점프내에 있게 제한할 수 있다.
엔드리스 비디오의 시놉시스
앞서 언급한 바와 같이, 하루 24시간 시계(視界)를 캡쳐하는 수 백만 대의 웹캠과 감시 카메라들이 세상을 덮고 있다. 이들 카메라를 이용하는데 있어 한가지 문제점은 카메라들이 편집되지 않은 원 데이터를 제공한다는 것이다. 예컨대, 2시간의 장편필름은 대개 로우 비디오(raw video) 피트 수의 수백 또는 심지어 수천 시간으로 만들어진다. 편집없이, 대부분의 웹캠 데이터는 관련성이 없다. 또한, 또 다른 대륙에서 카메라를 보는 것은 시차로 인해 비활동 시간동안에만 편리할 수 있다.
본 발명의 중요한 특징은 시청자에게 카메라에 의해 제공된 라이브 비디오스트림 이외에 엔드리스 비디오의 요약을 볼 수 있는 능력을 제공함으로써 웹캠 리소스를 더 유용하게 만드는 것이다. 사용자는 전주 동안 캡쳐된 모든 컨텐츠의 시놉시스를 5분내에 보고 싶어할 수 있다. 이를 가능하게 하기 위해, WO 2007/057893에 기재한 바와 같이 객체 기반의 시놉시스를 기초로 하나, 엔드리스 비디오를 다루게 하는 추가 구성요소를 포함하는 시스템을 기술한다.
이 시스템에서, 서버는 라이브 비디오 피드를 보고, 관심있는 이벤트에 대한 비디오를 분석하며, 상기 비디오의 객체기반의 설명을 기록할 수 있다. 이 설명은 대상 객체, 기간, 위치 및 모습을 각 카메라에 대해 나열한다.
엔드리스 비디오의 시놉시를 위해 이상처리(two phase process)가 제안된다:
1) 비디오 캡쳐동안 온라인 상(Online phase). 이 페이지는 실시간으로 행해진다.
·객체(튜브) 검출과 세그먼테이션
·검출된 객체를 객체 큐에 삽입
·공간적 한계에 다다를 경우 상기 객체 큐로부터 객체를 제거
2) 사용자 질의에 따라 시놉시스를 구성하는 응답 상(Response phase). 이 페이지는 관심의 시간주기내 활동량에 따라 몇분 걸릴 수 있다. 이 페이지는 다음을 포함한다:
· 변하는 배경의 시간경과 비디오를 구성하는 것. 배경 변화는 주로 낮밤 차로 인해 야기되나, 움직임이 시작(중지)되는 객체의 결과일 수 있다.
·시놉시스 비디오에 포함될 튜브 선택과 이들 튜브의 시각적으로 호소하는 시간적 배열을 산정함.
·튜브와 배경을 가간섭 비디오(coherent video)에 스티칭하기. 이 동작은 다른 시간의 활동들이 동시에 그리고 또 다른 시간으로부터 배경에 나타날 수 있음을 고려해야 한다.
고정 프레임의 전처리-필터링 아웃
많은 감시 카메라들과 웹캠들은 오랜 주기에 걸쳐 활동을 보이지 않는 장면들을 영상화한다. 저장 효율을 위해, 이런 시간주기에 해당하는 프레임들은 통상적으로 온라인 페이지 동안 필터된다. 나머지 프레임의 본래 시간은 각 프레임과 함께 기록된다. 한가지 실행으로, 프레임들은 2개의 기준에 따라 기록되었다:(1) 인커밍 프레임(incoming frame)과 마지막 보유 프레임 간에 차의 제곱 합(sum of squared difference, SSD)에 의해 측정된 장면에서의 글로벌 변화. 이 기준은 전체 프레임에서 점진적 조명 변화에 의해 표현된 밝기 변화를 추적함. (2) 작은 윈도우에서 최대 SSD에 의해 측정된 움직이는 객체의 존재.
매우 작은 기간을 갖는(예컨대, 1초 미만) 움직이는 객체들이 중요하지 않다고 가정함으로써, 비디오 활동은 몇 프레임에 단 한번만 측정될 수 있다.
객체 큐
엔드리스 비디오 처리에 있어 주요 난제 중 하나는 새로운 객체가 도착할 때 구 객체를 "망각"하도록 하는 방안를 개발하고 있다. 가장 오래된 활동을 폐기하는 순전한 방안은 좋지 않는데, 사용자가 전체 주기로부터 객체를 포함할 수 있는 긴 시간 기간의 요약을 얻고 싶을 수 있기 때문이다. 대신, 가능한 미래의 질의에 대해 각 객체의 중요도를 평가하고 이에 따라 객체를 폐기하는 다른 방안을 제안한다.
시공간량으로 튜브로 표현된 모든 검출된 객체들은 사용자 질의를 대기하는 큐에 저장된다. 객체가 상기 큐에 삽입되면, 활동 코스트(수학식(8))가 시놉시스 비디오의 미래 구성을 가속화하기 위해 계산된다. 웹캠에 의해 발생된 비디오가 엔드리스이기 때문에, 아마도 어느 시점에서 할당된 공간이 고갈될 것이고 객체들은 상기 큐로부터 제거되어야 할 것이다.
큐로부터 객체(튜브) 제거시, 최종 시놉시스에 가장 작게 포함될 것 같은 객체를 제거하는 것이 낫다. 본 실시예에서, 효율적으로 계산될 수 있는 3가지 간단한 기준, 즉, "중요도"(활동), "충돌 가능성", 및 "에이지(age)"를 사용했다. 그러나, 예컨대, 특정 형태나 활동에 관심이 있는 경우, 다른 선택들도 가능하다.
객체의 중요도에 대한 가능한 수단은 수학식(8)에 정의된 바와 같은 특성함수의 합이다.
사용자 질의를 받기 전에 충돌 코스트가 계산될 수 없기 때문에, 장면내에 공간활동분포를 이용해 튜브의 충돌 코스트에 대한 평가가 이루어진다. 이 공간활동은 각 공간 위치에서 합해서 1이되도록 정규화된 모든 객체들의 활동 픽셀들의 합인 이미지에 의해 표현된다. 유사공간활동분포는 각 개개의 객체에 대해 계산된 다(이번에는 정규화되지 않음). 이들 2개 활동분포간의 상관관계는 이 객체에 대한 "가능한 충돌"로 사용된다. 도 5a 및 도 5b는 도 2에 도시된 공항장면에서 활동의 공간분포를 나타낸 것으로, 여기서 강도(intensity)는 활동값의 로그(log)이다. 도 5a는 단일 튜브의 활동분포를 나타낸 것이고, 도 5b는 모든 튜브들에 대한 평균을 나타낸 것이다. 예상되는 바와 같이, 가장 높은 활동은 자동차 통로와 활주로에 있다. 튜브들의 가능한 충돌은 더 큰 활동을 갖는 지역에서 더 높다.
시놉시스에서 객체의 소정 분포를 고려하여, 큐로부터 오래된 객체의 제거를 착수하기 위한 여러 가지 가능한 접근들이 있다. 예컨대, 사용자는 새로운 이벤트에 초점을 두는데 관심을 둘 수 있지만 중요한 경우 이전 이벤트에 대한 몇몇 표현을 남겨둘 수 있다. 대안으로, 시놉시스는 매 시간간격의 균일한 표현을 가져야 한다. 예컨대, 24시간의 시놉시스에서 사용자는 적용가능하다면 각각 및 매 시간 객체를 보는데 관심있을 수 있다.
첫번째 접근으로 큐에 있는 객체의 밀도가 객체의 에이지에 따라 지수함수적으로 줄어들어야 한다고 가정할 수 있다. 예컨대, 에이지 축을 분리된 시간간격으로 나누면, t' 간격에서 객체의 개수(Nt)는
Figure 112009053749685-pct00017
에 비례해야 하며, 여기서 σ는 감쇠계수이고, K는 큐에서 객체의 총 개수를 제어하기 위해 결정된다. 객체가 큐로부터 제거되어야 하는 경우, 각 시간간격(t)에서 객체의 개수는 Nt에 비교된다. 모집단이 Nt를 초과하는 시간간격(t)으로부터의 객체들만 활동코스트와 가능성있는 충돌을 이용해 평가될 것이다. 최소 활동과 최대 충돌을 갖는 객체는 제거될 것이다.
큐에 도달한 객체의 시간적 분포의 예가 도 6에 나타나 있으며, 29시간에 걸쳐 도 2의 공항장면에서 움직이는 객체의 개수에 의해 측정된 것으로 활동의 시간적 분포를 그래프로 도시한 것이다. 이 주기동안 1,920개의 객체가 있다. 큐에서 객체의 지수함적 감쇠로 인해 감쇠 지수함수에 곱해진 도착분포에 비례하는 에이지 분포가 있게 된다.
시놉시스 생성
객체 큐는 "나는 전날 동안 카메라 방송의 1분 시놉시스를 갖고 싶다"와 같은 질의를 통해 접속될 수 있다. 입력 비디오로부터 소정 주기와 시놉시스의 소정 길이를 가정하면, 시놉시스 비디오는 4개 동작, 즉, (ⅰ) 배경 비디오를 생성함 (ⅱ) 상기 배경 비디오가 정의된 후, 시놉시스에서 각 객체와 각 가능한 기간에 대해 일치성 코스트를 계산함 (ⅲ) 에너지 최소화 단계가 튜브(시공간 객체)가 시놉시스에서 그리고 언제 나타나는지를 결정함 (ⅳ) 선택된 튜브들이 최종 시놉시스를 얻기 위해 배경 시간경과와 결합되는 것을 이용해 생성된다. 이들 동작이 이 부분에서 기술되어 있다. 객체기반의 표현에 본래 비디오를 뺌으로써 질의에 대한 빠른 응답이 가능하다.
사용자 질의 후, 소정의 시간주기로부터의 객체들만 갖는 두번째(더 작은) 객체 큐가 생성된다. 빠른 최적화를 가능하게 하기 위해, 더 작은 큐에서 매 2개 객체들 간에 수학식(9)의 충돌 코스트가 미리 계산된다.
시간경과 배경
시놉시스 비디오의 배경은 활동 튜브를 시놉시스에 추가하기 전에 발생된 시간경과 배경 비디오이다. 배경 비디오는 2가지 과제가 있다:(ⅰ) 시간에 걸친 배경변화(예컨대, 낮밤 전환 등)를 나타내야 한다; (ⅱ) 활동 튜브의 배경을 나타내야 한다. 활동 튜브의 배경을 나타내는 것은 배경 비디오가 예컨대 대부분 밤시간을 무시하고 활동주기만을 방송할 때 가장 잘 행해지기 때문에 이들 2개의 목표들이 상충한다.
2개의 시간적 분포 즉 (ⅰ) 도 6에 도시된 바와 같이 비디오스트림의 시간적 활동분포(Ha)와 (ⅱ) 균일한 시간적 분포(Ht)를 구성함으로써 이 상충관계(trade-off)를 해결한다. 2개의 시간적 분포 λ·Ha + (1-λ)·Ht를 내삽함으로써 세번째 시간적 분포를 계산하며, 여기서 λ는 사용자가 정한 가중치이다. λ=0으로 배경 시간경과 비디오는 활동에 무관하게 시간적으로 균일한 반면 λ=1로 배경 시간경과 비디오는 활동주기로부터만 배경을 포함할 것이다. 대개 0.25<λ<0.5를 사용한다.
내삽된 시간적 분포에 따라 시간경과 배경 비디오에 대해 배경 프레임들이 선택된다. 매 2개의 선택된 배경 프레임들 간에 히스토그램의 면적이 같도록 이 선택이 행해진다. 더 많은 프레임들이 활동시간 기간에서 선택되는 반면 비활동 주기 들은 완전히 무시된다.
대안으로, 배경은 합성 배경으로 대체될 수 있고, 객체들이 이 합성 배경 위에 배치될 것이다.
배경과의 일치
움직이는 객체의 정확한 세그먼테이션을 가정하지 않기 때문에, 유사한 형태를 갖는 배경 이미지들에 튜브들을 기워넣는 것이 선호된다. 새 에너지 항 Eb(M)을 추가함으로써 배경 일치에 대한 이 튜브가 고려될 수 있다. 이 항은 객체를 시간경과 배경에 시티칭하는 코스트를 판단할 것이다. 공식적으로,
Figure 112009053749685-pct00018
를 맵핑된 튜브(
Figure 112009053749685-pct00019
)의 컬러 값이라 하고 Bout(x,y,t)을 시간경과 배경의 컬러값이라 하자. 그러면 다음과 같이 정할 수 있고
Figure 112012101744330-pct00054
여기서, σ(
Figure 112009053749685-pct00021
)는 맵핑된 활동튜브(
Figure 112009053749685-pct00022
)의 경계에 있는 픽셀들의 세트이고 tout은 출력 시놉시스의 기간이다. 이 코스트는 각 튜브가 (활동 마스크의 형상학적 팽창으로 인해) 본래 배경으로부터 픽셀에 의해 둘러싸이는 것으로 추정한다.
수학식(14)에서 배경 일치항이 수학식(7)에 기술된 에너지 함수에 추가되어 다음과 같이 주어진다:
Figure 112009053749685-pct00023
여기서, α,β,γ는 질의에 따른 사용자 선택 가중치이다.
시놉시스 비디오 스티칭
다른 시간 주기로부터 튜브의 스티칭은 ([1, 16]과 같은) 기존 방법에 대해 문제를 일으킨다. 한꺼번에 모든 튜브를 스티칭함으로써 다른 객체들로부터의 컬러들이 혼합될 수 있으며, 이는 바람직하지 못한 효과이다. 다른 객체들 간에 선명한 전환을 보존하는 반면 객체와 배경 간의 이음매만 제거하는 것이 더 낫다. 객체들의 정확한 세그먼테이션이 이 문제를 해결할 수 있으나, 정확한 세그먼테이션은 비현실적이다. 대신, 각 튜브의 경계는 활동 튜브가 생성될 때 적용되는 형상학적 팽창으로 인해 배경 픽셀을 구성한다.
[27]에 제안된 알파 푸아송 이미지 블렌딩(α-Poisson Image Blending)은 객체들 간의 스티칭에 대한 양호한 방안일 수 있으나, 배경에 객체를 스티칭하기 위한 푸아송 에디팅(Poisson Editing)[15]처럼 좋지는 않다. 제안된 접근은 모든 객체들이 (조명 변화까지) 유사한 배경을 갖는 관찰을 이용하여 시간경과 배경에 무관하게 튜브를 스티치하는 것이다. 임의의 블렌딩 방법이 가능하며 본 출원인은 푸아송 에디팅의 변형을 이용했다: 다른 조명상태의 배경 이미지에 스티치되었더라도 객체의 본래 모습(예컨대, 저녁시간 배경 위에 스티치된 낮동안 본 사람들)을 보존 하는 정규화(regularization)를 추가했다.
배경에 벗어난 객체들은 소스 비디오에서 해당 객체와 그래프적으로 동일할 필요가 없는 것에 유의해야 한다. 예컨대, 시놉시스 비디오에서 적어도 하나의 객체는 객체를 공간적으로 감싸거나 기설정된 심볼 또는 아이콘에 의해 소스 비디오에서 해당 객체를 대체함으로써 형성될 수 있다. 또한, 객체가 시놉시스 비디오에 추가되는 경우, 객체의 픽셀값은 배경값을 반드시 대체할 필요가 없다. 새 값은 투명효과를 만드는 배경과 객체의 평균일 수 있다.
Ω를 경계∂Ω를 갖는 이미지라 하자. f,b를 전방 객체(튜브)와 배경(시간경과) 픽셀 컬러라고 하고, s를 Ω의 내부에 걸쳐 스티치된 객체의 미지의 값이라 하자. 정규화에 따른 포아송 블렌딩의 결과는
Figure 112009053749685-pct00024
로 주어지며, 여기서 λ는 정규화 항의 가중치이다. [28]에서, 그래디언트 도메인에서 스티칭이 매우 효율적으로 행해질 수 있음이 나타났다.
각 튜브를 배경에 시티칭한 후, 각 픽셀은 활동측정
Figure 112012101744330-pct00025
에 비례하는 가중치를 가지며 시티칭된 활동 튜브(
Figure 112012101744330-pct00055
)로부터의 해당 픽셀의 가중치 평균이게 함으로써 튜브 중첩이 함께 블렌딩된다. 대안으로, 가중치 평균 대신 최대 활동측정을 갖는 픽셀을 취함으로써 투명도가 방지될 수 있다.
"객체 튜브"가 조합될 때 깊이 순서를 사용할 수 있고, 이 경우 더 가까운 튜브가 다른 튜브를 가로막는다. 수직 이미지 위치가 더 낮은 객체가 또한 더 가까운 것으로 가정하면 간단한 "지평면" 발견적 학습(heuristic)이 사용될 수 있다. 다른 깊이 순서 매기는(depth ordering) 방법은 [29]를 포함한다. 객체 가림(object occlusion) 경우의 빈도는 다른 코스트에 대한 (이러한 경우를 방지하는) 충돌 코스트의 상대 가중치에 따른다.
인덱싱
시놉시스 기반의 계층적 비디오 인덱싱은 감시 카메라의 경우에서 처럼 엔드리스 비디오라 하더라도 비디오 컨텐츠를 나타내고 브라우징하는 컴팩트하고 쉬운 방법을 제공하는 것을 목표로 한다. 도 7은 시놉시스 기반의 계층적 비디오 인덱싱과 검색의 개념적 구조를 도시한 것이다. 이 시스템에서 예컨대 "마지막 시간", "마지막 36시간" 등 인덱싱이 요구되는 비디오가 이미 선택된 것으로 가정한다.
제안된 인덱스를 형성하기 위해, 비디오가 최초로 분석되고 활동/중요 객체들이 비디오에서 추출되어 상기 비디오의 객체기반 표현을 생성한다.
인덱싱의 두번째 단계에서 객체는 임의의 클러스터링 방법을 이용해 유사한 객체의 클러스트들에 클러스트된다. 이러한 클러스터링을 수행하기 위한 가능한 방법은 모든 객체 쌍들 간에 몇몇 유사도 판단을 기초로 친화도(유사도) 매트릭스를 형성하는 것이다.
객체들 간의 친화도(유사도)
객체들 간의 친화도 판단은 객체의 시광간 표현들 간의 상관관계를 포함하나 이에 국한되지 않는 다양한 특징들을 기초로 할 수 있다. 효율적인 유사도 판단을 수행하기 위해, 비디오의 시공간 표현에서 3D 튜브로 표현된 객체들은 공통좌표 시스템에 먼저 왜곡될 수 있고 가능한 다른 위치와 스케일을 극복하도록 공간 시간정렬이 수행될 수 있다. 이러한 왜곡은 비디오와 다양한 투영 변형에서 객체의 시공간 위치에 불변인 유사도 판단이 되기 때문에 유용할 수 있다. 유사한 이동 경로를 가지나 비디오에서 다른 위치에 있는 유사한 객체들은 본래 모습이 원근 효과로 인해 다르더라도 유사한 것으로 간주될 것이다. 추가적인 친화도 판단은 객체의 형태, 크기 또는 컬러 및 해당기술분야에 알려진 다른 많은 가능한 유사도 판단일 수 있다.
클러스터링
일단 친화도 매트릭스가 구성된 후, [30]과 같은 클러스터링 방법은 각 객체를 해당 클래스로 분류하는데 사용될 수 있다. 클러스터링 방법은 "불규칙한" 객체와 행동을 식별하는데 도움을 주기 위해 또한 사용될 수 있음을 주목하는 것이 중요하다. 클래스 중 어느 하나로 잘 클러스트되지 않는 객체는 "고유" 또는 "불규칙"인 것으로 의심될 수 있고 후술되는 시놉시스 생성 방법에서 특별한 마킹으로 시각화될 수 있다.
주차장에서의 촬영인 24시간의 비디오 시퀀스로부터 추출된 객체에 대한 이러한 자동 클러스터링 방법의 예가 도 8에 도시되어 있다. 도 8에 묘사된 6개 프레임들에서 6개 클래스, 즉, (ⅰ) 우측으로 걸어가는 사람; (ⅱ)좌측으로 걸어가는 사람; (ⅲ) 건물 옆으로 걸어가는 사람; (ⅳ) 우측으로 이동하는 자동차; (ⅴ) 좌측으로 이동하는 자동차; (ⅵ) 주차장에 들어오거나 나가는 자동차로부터의 객체들 이 도시되어 있다.
대안으로, 확률 클러스터링이 사용될 수 있어, 이로써 어떤 객체가 어떤 클래스에 속하는지에 대한 어려운 판단을 하는 대신 확률 벡터가 각 객체와 다른 클래스에 대한 정의될 수 있다. 이는 계층적 인덱싱 프로세스에 사용될 수 있다. 예컨대, 객체는 이들 클래스에 잘 맞는 다면 하나 이상의 클래스와 연계될 수 있다. 불규칙 활동이 다른 클래스에 속하는 실질적으로 같은 확률을 갖는 객체에 의해 명백해진 것으로 검출된 경우에도 또한 사용될 수 있다.
계층적 인덱스
클러스터가 결정되고 객체가 클러스트로 그룹화되면, 인덱싱을 위한 계층적 비디오 시놉시스 시퀀스의 수집이 이 클러스터링(클러스터-SFC로부터의 시놉시스)을 기초로 생성될 수 있다.
가능한 인덱싱 계층은 "톱레벨 시놉시스", 즉, 각 클러스터로부터 몇가지 대표적인 것을 포함한 시놉시스 비디오를 사용자에게 먼저 나타낼 수 있다. 예컨대 도 8에 도시된 클러스터로부터, "톱레벨" 시놉시스는 우측으로 이동하는 자동차, 좌측으로 이동하는 자동차, 우측으로 걸어가는 사람, 좌측으로 걸어가는 사람 등 각 클래스로부터 하나의 객체를 나타낼 수 있다. 일한 시놉시스로부터 단일 프레임이 도 9에서 볼 수 있으며, 상기 도면에서는 다른 클러스터들의 그림이 동시에 나타나 있다. 사용자는 "톱레벨" 시놉시스에서 객체 중 하나를 선택함으로써 객체의 전체 클래스를 선택할 수 있다. 이 선택은 선택된 클러스터에서 객체만을 나타낸 시놉시스 비디오를 사용자에게 나타나게 한다.
톱레벨 시놉시스는 본래 비디오에서 각각 소정의 객체 또는 활동에 대해 얻로록 인터액티브 인덱싱 툴(interactive indexing tool)로서 사용될 수 있다. 사용자가 특정 클러스터 또는 클러스터의 집합을 선택하면, 계층내 다음 시놉시스가 디스플레이된다. 이러한 시놉시스는 이들 클러스터로부터 더 많은 표현들 또는 심지어 모든 객체들을 포함하게 된다. 이 단계에서 사용자는 그의 소정의 객체를 특정할 수 있고 입력 비디오에서 본래 시간에 얻을 수 있다. 각 클래스에 객체가 많이 있고 쇼트 시놉시스를 만들기 어려운 경우, 더 많은 레벨을 계층에 추가하여 각각의 본래 클러스터로부터 다수의 서브 클러스터를 만들 수 있다. 예컨대, "우측으로 이동하는 자동차" 클러스터를 선택함으로써 트럭과 세단의 2개 서브 클러스터를 만들 수 있다. 이 경우 대부분의 본래 객체들을 갖는 시놉시스를 보여주는 검색의 최종 결과를 얻기 전에 서브 클러스터들 중 하나를 선택하는 것이 요구될 것이다.
이러한 접근은 매우 빠른 검색과 시각적 질의를 기초로 하고 본래 비디오에서 모든 객체와 활동이 적절한 시간에 도달되게 할 수 있는 매우 큰 비디오에 인덱싱 툴을 제공한다.
예제
인터넷을 담은 몇몇 비디오스트림에 대한 비디오 시놉시스를 테스트하였다. 프레임률이 인터넷을 통해 일정하지 않고 프레임들이 주기적으로 떨어지기 때문에, 시간적 이웃을 사용할 때마다 프레임의 개수를 세는게 아니라 각 프레임의 절대시간을 사용한다.
도 10 및 도 12는 고정 야외 카메라에서 나온 것인 반면, 도 11은 일정 조명 을 갖는 고정 실내 카메라에서 나온 것이다. 대부분의 예에서 각 튜브의 주요 "관심"은 이동하는 픽셀의 개수였다.
도 10a 및 도 10b는 비디오 시놉시스에서 객체의 밀도의 충돌 코스트의 선택효과를 도시한 것이다. 도 10a는 스투트가르트 공항에서 24시간에 걸쳐 캡쳐된 비디오의 20초 시놉시스로부터의 프레임을 도시한 것이다. 도 10b는 코스트 함수에서 "충돌 페널티"를 줄임으로써 실질적으로 객체 밀도가 증가되어 객체들 간의 중첩을 더 많이 가능하게 하는 것을 도시한 것이다. 도 12는 우선순위에 기반한 형태를 도시한 것이다. 도 12a에서, 규칙 코스트 기능이 사용되었고 큰 객체(이동하는 자동차)들이 우선되었다. 도 12b에서는, 완전히 다른 보행자 활동을 나타내는 작고, 검은 객체들이 우선되었다. 도 11은 당구 크럽에서 9시간에 걸쳐 캡쳐된 비디오의 쇼트 시놉시스로부터의 프레임을 도시한 것이다. 시놉시스에서 테이블당 다수의 플레이어들을 주목하라.
맞춤식 에너지 함수
대부분의 경우 모든 객체들이 관심있는 것이 아니다. 교통감시 카메라는 자동차에만 관심있을 수 있는 반면, 다른 애플리케이션은 보행자를 우선할 수 있다. 객체의 필터링은 여러 장소에서 행해질 수 있다. 객체들은 큐에 들어오기 전에 필터될 수 있고 이 경우 객체들을 결코 검색할 수 없게 된다. 대안으로, 객체는 큐에 단계에서만 필터될 수 있다. 이 경우 큐는 모든 객체들을 포함할 것이며, 다른 큐들은 큐로부터 다른 객체들을 추출할 수 있다. 또한 각 애플리케이션에 대한 맞춤식 에너지 함수를 만들 수 있다.
맞춤화의 간단한 예가 도 12b에 도시되어 있으며, 상기 도면에는 단지 작고 어두운 물체들이 큐에서 선택되었다. 본래 시놉시스는 주로 자동차를 포함하나, 새 시놉시스는 주로 보행자를 포함한다. 또 다른 예가 도 13에 도시되어 있으며, 상기 도면에는 이동하는 객체들이 멈춰 배경의 일부가 되어있다. 도 13a는 조용한 주차장을 감시하는 웹캠에으로부터 5시간에 걸쳐 촬영한 쇼트 시놉시스의 프레임을 도시한 것이다. 높은 점수가 상 전이(예컨대, 멈춰 배경이 된 이동하는 객체들)에 주어진다. 비디오 시놉시스는 주로 주차장에 관여된 자동차들을 포함한다. 도 13b는 상 전이없는 객체들이 선호되는 다른 시놉시스를 도시한 것으로 단지 지나가는 자동차와 보행자들만 나타나 있다.
시놉시스 사양
비디오 시놉시스의 지속시간과 품질을 특정하기 위한 몇가지 방안이 있다.
(a) 사용자가 비디오 시놉시스의 소정 지속시간과 객체 충돌에 대한 패널티를 특정하게 하자. 이 경우, 최적단계는 상기 특정 제약하에서 시놉시스에 포함될 수 있는 활동량을 극대화할 것이다.
(b) 사용자가 비디오 비디오 시놉시스의 소정 지속시간과 상기 지속시간에 포함될 활동의 퍼센트를 특정하게 하자. 최적단계는 상기 특정 제약하에서 최소 충돌을 갖는 비디오 시놉시스를 생성할 것이다.
(c) 사용자가 상실된 객체의 허용된 퍼센트와 객체 충돌의 페널티를 특정하게 하자. 최적단계는 상기 특정 제약하에서 시놉시스의 지속시간을 최소화할 것이다.
본 실험에서는 옵션(a)을 이행하였으며, 상기 비디오 시놉시스의 지속시간은 강한 제약으로서 사용자에 의해 결정되었다.대부분의 객체들이 시놉시스에서 나타날 것으로 추정하면 감시 비디오는 옵션(b),(c)를 선호할 수 있다.
객체 기반의 속도변화
빨리감기는 비디오 요약에 사용되는 가장 통상적인 툴이며 전체 프레임에 항상 적용되어왔다. 예컨대, "시간경과" 비디오는 꽃의 성장 등과 같이 쇼트타임 슬로우 프로세스(short time slow process)로 디스플레이 된다. 현재의 몇몇 방법은 적응형 빨리감기[12,18,4]를 제안하고 있으나, 여전히 전체 프레임의 구조에 국한된다. 비디오 시놉시스들로 각 객체는 자신의 중요성 또는 객체의 본래 속도를 기초로 자신의 "빨리감기"를 가질 수 있다. 느린 객체는 가속될 수 있으나, 빠른 객체는 가속하지 않을 수 있다. 대안으로, 빠른 객체는 더 쉽게 보기 위해 느려질 수 있다.
객체 속도변화는 간단한 방식으로, 예를 들면, 모든 움직이는 객체들을 균일한 속도로 만들게 하는 식으로 행해질 수 있다. 이를 위해, 느린 객체는 속도가 높여지고 빠른 객체는 느려질 것이다. 대안으로, 객체 속도변화는 객체의 속도변화에 대해 몇가지 페널티를 주면서 최적단계 동안 결정될 수 있다. 상기 최적화 단계에 객체기반의 속도변화를 추가함으로써 최적화의 복잡도 증가를 이용해 시놉시스 비디오의 시간 압축률이 더 향상될 수 있다.
객체의 속도변화는 몇몇 선택된 시간주기에서 객체로부터 픽셀을 샘플링함으로써 행해질 수 있다. 선택된 시간주기의 개수가 튜브에서 프레임의 개수보다 작은 경우, 일반적인 효과는 객체 속도가 빨라진다는 것이다. 선택된 시간주기의 개수가 튜브에서 프레임의 개수보다 많은 경우, 객체 속도가 느려진다. 선택된 시간주기가 프레임에 정확하게 있지 않는다면, 이 때 픽셀은 시간적으로 가장 가까운 이웃 프레임에 있는 이웃 픽셀로부터 선택된 시간에 내삽될 수 있다. 임의의 가능한 내삽방법이 사용될 수 있다.
전경 및 배경 상 전이
상 전이는 움직이는 객체가 정지하거나 배경과 함께 병합될 때 또는 정지 객체가 이동하기 시작할 때 발생한다. 예들은 주차장에 주차되거나 나가는 자동차들이다. 대부분의 경우 상 전이는 중요한 이벤트이며 큐 단계에서 사용을 위해 각 상 전이를 검출하고 표시한다.
튜브의 시작과 끝에 해당하는 배경 변화를 살펴봄으로써 상 전이를 찾을 수 있다. 이들 전이는 배경의 변화를 설명하기 때문에 중요하다. 상 전이는 배경의 변화에 해당하기 때문에, 배경에 상 전이를 스티칭하는 것은 특별한 의도가 있어야 한다. 상 전이가 배경에 적시에 삽입되지 않은 경우 2가지 효과가 시놉시스 비디오에 발생할 수 있다. (ⅰ) 배경객체가 아무런 이유없이 깜빡이 효과를 일으키며 나타나고 사라질 것이다. (ⅱ) 움직이는 객체가 움직임을 멈추면 배경의 일부가 되기 보다는 사라질 것이다. 비디오 시놉시스에서 이런 효과를 최소화하기 위해, 상 전이가 본래 시간에 해당하는 시간에 시간경과 배경에 삽입되어야 한다.
시스템 하드웨어
도 14를 참조하면, 카메라(11)에 의해 캡쳐된 소스 비디오로부터 시놉시스를 생성하기 위한 본 발명에 따른 시스템(10)의 블록도가 도시되어 있다. 시스템(10)은 각각의 x,y,z 좌표에 위치된 복수의 픽셀들을 포함하는 적어도 하나의 객체의 이동을 보여주는 제 1 소스 비디오의 비디오 프레임 서브세트를 저장하기 위한 비디오 메모리(12)를 포함한다. 프리-프로세서(13)가 라인으로 캡쳐 비디오를 처리한다. 프리-프로세서(13)는 비디오 프레임을 사전정렬하기 위한 정렬부(14)를 포함할 수 있다. 이 경우, 카메라(11)가 정렬부(14)와 결합되어 비디오 메모리(12)에 사전정렬된 비디오 프레임을 저장하게 된다. 정렬부(14)는 소스 비디오에 있는 프레임들 간의 이미지 동작 파라미터를 계산하고, 상기 이미지 소스내 고정 객체들이 비디오에서 고정되도록 상기 소스 비디오에 있는 비디오 프레임들을 워핑(warping)함으로써 작동될 수 있다.
프리-프로세서(13)는 또한 소스 비디오내 객체들을 검출하는 소스 객체 검출기(15)를 포함하고 객체 메모리(16)내 검출된 객체들 큐시킨다. 상술한 바와 같이, 객체가 큐에 삽입될 때, 시놉시스 비디오의 미래 구성을 가속화시키기 위해 객체의 활동 코스트(수학식(8))가 계산되며, 이 또한 프리-프로세서(13)에 의해 행해진다. 프리-프로세서(13)는 엔드리스 소스 비디오로부터 시놉시스를 만들 때 사용하기 때문에 완결을 위해 나타난 것을 알아야 한다. 본 발명은 또한 정의된 기준에 따라 시놉시스 비디오를 만들기 위해 객체 큐를 조작하기 위해 객체 메모리(16)에 결합되도록 형성된 프리-프로세서(13)가 없는 축소된 시스템을 고려한다. 이러한 시스템은 후술되는 바와 같이 도 14에 나머지 구성요소들에 의해 구현된다.
따라서, 사용자 인터페이스(17)는 사용자 정의 제한들이 정의되게 하기 위한 객체 메모리(16)에 결합된다. 이러한 제한은 예컨대 요약될 소스 비디오내 시간 윈도우를 정의하기 위해 사용될 수 있다.또한 시놉시스 비디오의 필요한 지속시간을 정의하는데 사용될 수 있다. 사용자 인터페이스(17)는 또한 인덱싱을 목적으로 객체 또는 객체 클래스를 선택하는데 사용된다. 본 발명의 몇몇 실시예들이 사용자 인터페이스(17)를 필요로 하지 않는 경우에 제한들이 또한 기정의될 수 있음이 이해된다.
소스 객체 선택기(18)는 사용자 정의 제한 또는 시스템에 의해 정의된 디폴트 제한에 따른 적으도 3개의 다른 소스 객체들을 서브 세트로부터 선택하기 위해 객체 메모리(16)에 결합된다. 각각의 다른 소스 객체는 소스 비디오의 적어도 3개의 다른 프레임들로부터 이미지 포인트들의 연결된 서브세트이다. 클러스터링 유닛(19)은 사용자 인터페이스(17)를 이용해 사용자에 의해 정의될 수 있는 정의된 기준에 따라 객체를 클러스터링하기 위해 소스 객체 선택기(18)와 선택적으로 결합된다. 시놉시스 객체 샘플러(20)는 예컨대 몇몇 선택된 프레임들로부터 유도된 이미지 포인트들을 이용해 시간적 선택에 의해 각 선택된 소스 객체로부터 하나 이상의 시놉시스 객체를 샘플링하기 위해 제공된 경우 소스 객체 선택기(18)에 또는 클러스터링 유닛(19)에 결합된다. "샘플러"는 개개의 객체들의 속도를 바꾸는데 사용될 수 있다. 프레임 발생기(21)는 단지 선택된 클러스터들만이 시놉시스 비디오에 포함되게 하는 클러스터 선택기(22)를 포함한다. 프레임 발생기(21)는 또한 시놉시스 비디오에서 디스플레이를 시작하기 위한 각 시간을 각 시놉시스 객체에 대해 선택하기 위한 시간 선택기(23)를 포함한다. 프레임 발생기(21)는 각 시놉시스 객체와 각 프레임에 대해 시놉시스 객체를 디스플레이하기 위한 각각의 컬러 변환을 선택하기 위한 컬러 변환유닛(24)을 더 포함한다. 선택적으로, 프레임 발생기(21)는 시놉시스 비디오에 시티칭하기 전에 공간적으로 워핑하기 위한 워핑유닛(25)을 포함할 수 있다. 본 명세서 및 청구의 범위의 내용에서, "워핑"이란 용어는 객체의 임의의 공간적 편집을 포함하는 것으로 의도되어 있다. 상술한 바와 같이, 이는 이이콘과 같은 또 다른 객체에 의해 전체적으로 객체를 대체하는 것을 포함할 수 있다; 또는 시놉시스 비디오에 스티치되기전에 객체에 약간의 기하학적 조정을 하는 것을 포함할 수 있다. 프레임 발생기(21)내 스티칭 유닛(26)은 연속적인 시놉시스 비디오 프레임을 발생하기 위해 선택된 컬러변환 시놉시스 객체를 스티치한다. 시놉시스 비디오의 프레임은 디스플레이 유닛(28)에 의한 연이은 처리 또는 특정 시간 및 컬러 변환으로 시간적으로 이동된 객체를 디스플레이하는 디스플리에이를 위해 시놉시스 프레임 메모리(27)에 저장된다.
시스템(10)은 실제로 그래픽 카드 또는 워크스테이션 및 적절한 주변장치를 갖는 적절하게 프로그램된 컴퓨터에 의해 구현될 수 있으며, 모두가 해당기술분야에 잘 알려져 있다.
도 15는 본 발명의 실시예에 따른 시스템(10)에 의해 수행된 주요 동작을 도시한 흐름도이다.
결론
객체기반의 시놉시스는 예컨대 감시 카메라에 의해 기록된 엔드리스 비디오 스트림의 시놉시스인 쇼트 비디오를 만드는데 사용될 수 있다. 방법은 2가지 상을 포함한다. 실시간으로 수행되는 입력 상에서, 비디오 스트림이 분석되고 관심 객체가 배경으로부터 검출되고 세그먼트된다. 운동에 기초한 객체 관심기능을 설명하였으나, 객체 검출, 인식 및 세그먼테이션을 위한 임의의 다른 접근이 "튜브", 즉, 각 객체의 3D 시공간 표현의 생성을 위해 사용될 수 있다.
큐 관리는 무한 비디오와 유한 저장매체 간의 갭을 잇고, 사용자 큐에 빠른 응답을 가능하게 하는데 필요하다. 가득 찬 후, 어떤 객체가 큐로부터 제거되어야 하 지 판단하는데 여러가지 방법이 사용되었으나, 다른 방법도 가능하다. 심지어 큐로부터 제거를 위해 객체의 랜덤 선택이 좋게 작용할 수 있다.
두번째 상은 사용자 질의가 주어진 후에 발생한다. 큐의 서브세트는 관심의 주기를 기초로 추출되고 객체 튜브가 최적 비디오 시놉시스를 만들기 위해 (시간적 이동에 의해) 배열된다. 오프라인 계산을 필요로 하는 이 단계는 비디오 시놉시스를 사용자에게 전달한다.
몇가지 매우 관심있는 태양들은 배경에 주기성에 관계한다. 낮-밤 주기는 특히 검출에 익숙할 수 있다. 대부분의 경우 몇번의 낮이 단일 시놉시스에 의해 취재될 때, 시간경과 배경은 하루만 방송될 수 있는 반면, 활동은 모든 날에서 나올 것이다. 이는 질의를 명시하는 사용자에게 주어진 선택이어야 한다.
이진수 세그먼테이션에 특별히 제한된 경우가 아니면, "이미지 포인트"들에 대한 언급은 내삽 또는 퍼지 세그먼테이션과 같은 비이진수 세그먼테이션 방법에 의해 결정되는 것으로 이미지 포인트들을 포함하도록 의도되어 있음이 이해될 것이다.
소스 비디오가 모노크롬(monochrome)인 경우 컬러 변환유닛은 스티칭하기 전에 선택된 시놉시스 객체에 적용된 적절한 그레이 스케일의 변환을 판단하는데 사용될 수 있음이 또한 이해되어야 한다. 따라서, 청구의 범위의 내용에서, "컬러"라는 용어는 RGB에만 국한되는 것이 아니라 또한 모노크롬이도록 의도하고 있다.
컬러 또는 그레이스케일의 변환은 스티칭전에 선택된 시놉시스 객체에 적용될 수 있는 변환 중 단지 한 타입인 것에 또한 주목해야 한다. 상술한 바와 같이, 이는 배경 일치성을 확실히 하기 위해 긴 지속시간에 걸친 소스 비디오로부터 시놉시스 비디오 생성시 특별히 유익하다. 그러나, 시놉시스 비디오가 배경색이 필요한 시간 윈도우동안 충분히 일정한 소스 비디오로부터 도출될 때 덜 중요할 수 있다.
본 발명에 따른 시스템은 적절하게 프로그램된 컴퓨터일 수 있음이 이해될 것이다. 마찬가지로, 본 발명은 본 발명의 방법을 실행하기 위한 컴퓨터에 의해 판독될 수 있는 컴퓨터 프로그램을 고려한다. 본 발명은 또한 본 발명의 방법을 실행하기 위해 장치에 의해 실행될 수 있는 명령 프로그램을 명배히 구현하는 기계판독가능 메모리를 또한 고려한다.
본 발명의 상세한 내용에 포함됨.

Claims (43)

  1. 비디오 감시 카메라에 의해 생성된 실질적인 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법으로서,
    상기 소스 비디오스트림에서 다른 각각의 시간으로부터 각각 도출된 적어도 3개의 포인트들이 상기 시놉시스 비디오에서 동시에 디스플레이되고, 같은 시간에서 도출된 적어도 2개의 포인트들 모두가 상기 시놉시스 비디오에서 다른 시간에 디스플레이되도록,
    상기 소스 비디오스트림에서 적어도 3개의 다른 소스 객체들의 실시간 객체 기반의 설명을 수신하는 단계와,
    각각의 소스 객체에 대한 기간 및 위치를 포함한 상기 객체 기반의 설명의 큐를 연이어 유지하는 단계와,
    주어진 기준을 기초로 상기 큐로부터 적어도 3개의 소스 객체의 서브세트를 선택하는 단계와,
    시간적 샘플링에 의해 하나 이상의 시놉시스 객체를 각 선택된 소스 객체로부터 샘플링하는 단계와,
    상기 시놉시스 비디오에서 디스플레이를 시작하기 위해 각 시놉시스 객체에 대한 각각의 디스플레이 시간을 결정하는 단계와,
    시놉시스 객체 또는 각각의 기정된 디스플레이 시간에서 각각 도출된 객체들을 디스플레이함으로써 상기 시놉시스 비디오를 생성하는 단계를 포함하고,
    상기 각 소스는 상기 소스 비디오스트림의 적어도 3개의 다른 프레임들로부터 이미지 포인트들의 연결된 서브세트인 소스 비디오로부터 시놉시스 비디오를 생성하는 방법.
  2. 제 1 항에 있어서,
    상기 시놉시스 객체를 디스플레이하기 위해 각 시놉시스 객체와 상기 시놉시스 비디오에서 각 프레임에 대한 각각의 컬러변환을 결정하는 단계와,
    상기 선택된 시놉시스 객체 또는 각각의 컬러변환에서 도출된 객체를 디스플레이하는 단계를 더 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  3. 제 1 항에 있어서,
    상기 객체들 중 하나는 배경 객체인 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  4. 제 3 항에 있어서,
    상기 객체와 상기 배경을 심리스 비디오(seamless video)에 스티칭(stitching)하는 단계를 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  5. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    소스 객체가 상기 큐에서 선택되고 코스트 기능을 최적화하기 위해 각 시놉시스 객체의 디스플레이를 시작하기 위한 각각의 시간이 결정되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  6. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 배경 객체는 합성적으로 생성되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  7. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 시놉시스 비디오에서 각 객체는 상기 각각의 객체가 눈에 보이는 소스 비디오스트림내 시간 세그먼트를 가리키는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  8. 제 7 항에 있어서,
    객체를 선택함으로써 상기 선택된 객체에 의해 지정된 상기 소스 비디오스트림내 상기 시간 세그먼트가 플레이되게 하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  9. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 시놉시스 비디오에서 적어도 하나의 객체는 기설정된 심볼에 의해 상기 소스 비디오스트림내 해당 객체를 대체함으로써 형성되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  10. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    객체들이 먼저 같은 클래스들로 클러스터되고, 상기 시놉시스 비디오는 적어도 기설정된 클러스터 개수로부터 객체들을 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  11. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    객체들이 먼저 같은 클래스들로 클러스터되고, 적어도 하나 선택된 클래스로부터 객체들이 디스플레이되지 않는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  12. 제 7 항에 있어서,
    객체들이 먼저 같은 클래스들로 클러스터되고, 객체를 선택하는 것은 상기 선택된 객체와 동일한 클래스로부터의 객체만을 포함하는 비디오 시놉시스를 가리키는 것인 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  13. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    하나 이상의 소스 객체를 선택하는 것은
    상기 시놉시스 객체를 상기 시놉시스 비디오에 시티칭하기 위해 코스트 함수를 계산하는 단계와,
    달성될 수 있는 가능한 한 최적에 가까운 상기 코스트 함수가 고려되는 시놉시스 객체를 선택하는 단계를 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  14. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 큐로부터 적어도 3개의 비중첩 소스 객체를 선택하는 단계는 사용자 정의 제한을 기초로 상기 소스 객체를 필터링하는 단계와 특정 시간 윈도우내에 나타나는 소스 객체에 필터된 소스 객체를 국한시키는 단계를 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  15. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    적어도 3개의 비중첩 소스 객체들을 선택하는 단계는 관심 스코어를 결정하는 단계를 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  16. 제 15 항에 있어서,
    상기 관심 스코어는 활동 척도인 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  17. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 시놉시스 비디오는 소스 비디오스트림내 모든 관심 객체들을 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  18. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 시놉시스 비디오에 또한 나타난 상기 소스 비디오스트림내 관심 객체들의 개수는 상기 시놉시스 비디오의 시각적 호소를 유지하면서 상기 개수를 최대화하는 것 사이에서 상충(trade-off)되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  19. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 소스 비디오는 단일 카메라에 의해 캡쳐되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  20. 제 19 항에 있어서,
    고정된 위치에 상기 단일 카메라를 유지하는 것을 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  21. 제 20 항에 있어서,
    상기 카메라는 상기 고정된 위치에서 축에 대해 회전되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  22. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    디스플레이하기 전에 상기 시놉시스 객체들 중 적어도 하나를 공간적으로 워핑(warping)하는 것을 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  23. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    (a) 상기 소스 비디오스트림에 있는 프레임들 간에 이미지 이동 파라미터들을 계산하는 단계와,
    (b) 고정 객체들이 안정화된 소스 비디오스트림에서 정지상태로 나타나도록 상기 소스 비디오스트림에 있는 상기 비디오 프레임들을 워핑하는 단계에 의해 안정화된 소스 비디오스트림를 만들도록 상기 소스 비디오스트림을 사전정렬하는 단계를 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  24. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    감시 비디오용으로 사용되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  25. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    비디오 인덱싱, 비디오 브라우징 및 비디오 검색 그룹 중에 적어도 하나를 위해 사용되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  26. 제 25 항에 있어서,
    상기 시놉시스 비디오에 있는 픽셀에 대해 상기 소스 비디오스트림에서 해당 픽셀에 대한 포인터를 유지하는 단계를 포함하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하는 방법.
  27. 비디오 감시 카메라에 의해 생성된 실질적인 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 생성하기 위한 시스템(10)으로서,
    상기 소스 비디오스트림에서 적어도 3개의 다른 소스 객체들의 객체기반의 설명의 연이어 유지된 큐를 저장하는 객체 메모리(16)에 결합되도록 형성된 소스 객체 선택기(18)와,
    특정 시간주기로부터 도출된 이미지 포인트들을 이용해 시간적 샘플링을 하여 각 선택된 소스 객체로부터 하나 이상의 시놉시스 객체들을 샘플링하기 위해 상기 소스 객체 선택기(18)에 결합된 시놉시스 객체 샘플러(20)와,
    상기 시놉시스 비디오에 디스플레이를 시작하기 위해 각 시놉시스 객체에 대한 각각의 디스플레이 시간을 결정하기 위해 상기 시놉시스 객체 샘플러(20)에 결합된 시간선택유닛(23)과,
    상기 소스 비디오내 다른 각각의 시간에서 각각 도출된 적어도 3개의 포인트들이 상기 시놉시스 비디오 프레임에서 동시에 디스플레이되도록 연속 시놉시스 비디오 프레임을 만들기 위해 상기 선택된 시놉시스 객체 또는 각각의 시간에서 도출된 객체를 스티칭하기 위해 상기 시간선택유닛(23)에 결합되는 스티칭 유닛(26)과,
    상기 시놉시스 비디오 프레임을 저장하기 위해 상기 스티칭 유닛(26)에 결합되는 시놉시스 프레임 메모리(27)를 구비하고,
    상기 객체 기반의 설명은 각 소스 객체에 대한 기간 및 위치를 포함하고, 상기 소스 객체 선택기(18)는 하나 이상의 정의된 제한들에 따라 적어도 3개의 다른 소스 객체들을 선택하도록 형성되며, 각 소스는 상기 소스 비디오스트림으로부터 적어도 3개의 다른 프레임들로부터 이미지 포인트들의 연결된 서브세트인 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 만드는 시스템.
  28. 제 27 항에 있어서,
    상기 시놉시스 비디오를 디스플레이하기 위해 상기 스티칭 유닛(25)에 결합된 디스플레이 유닛(28)을 더 구비하는 서브세트인 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 만드는 시스템.
  29. 제 27 항 또는 제 28 항에 있어서,
    각 시놉시스 객체와 각 프레임에 대해 상기 시놉시스 객체를 디스플레이 하기 위한 각각의 컬러변환을 결정하기 위해 상기 시간선택유닛(23)에 결합되는 컬러변환유닛(24)과,
    선택된 시놉시스 객체 또는 각각의 컬러변환시 도출된 객체를 스티칭하기 위해 상기 컬러변환유닛(24)에 결합되는 스티칭 유닛(26)을 더 구비하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 만드는 시스템.
  30. 제 27 항 또는 제 28 항에 있어서,
    사용자 정의 제한들이 정의되게 하도록 상기 객체 메모리(16)에 결합되는 사용자 인터페이스(17)를 더 구비하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 만드는 시스템.
  31. 제 27 항 또는 제 28 항에 있어서,
    정의된 기준에 따라 객체를 클러스터링 하기 위한 클러스터링 유닛(19)을 더 구비하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 만드는 시스템.
  32. 제 27 항 또는 제 28 항에 있어서,
    상기 소스 비디오스트림에 상기 객체를 검출하기 위해 온라인으로 캡쳐된 비디오를 처리하기 위한 프리-프로세서(13)를 더 구비하고, 상기 프리-프로세서(13)는 상기 객체를 저장하기 위해 상기 객체 메모리(16)에 결합되도록 형성되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 만드는 시스템.
  33. 제 32 항에 있어서,
    상기 프리-프로세서(13)는 상기 소스 비디오스트림에서 비디오 프레임을 사전정렬하기 위한 정렬유닛(14)을 구비하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 만드는 시스템.
  34. 제 33 항에 있어서,
    상기 정렬유닛(14)은 제 1 시퀀스에서 프레임들 간에 이미지 이동 파라미터를 계산하고, 제 1 동적 장면의 정지 객체들이 비디오에서 정지상태에 있도록 상기 제 1 시퀀스에 있는 비디오 프레임들을 워핑하도록 형성되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 만드는 시스템.
  35. 제 27 항 또는 제 28 항에 있어서,
    상기 프레임 발생기는 상기 시놉시스 비디오에 시티칭하기 전에 적어도 하나의 객체를 공간적으로 워핑하기 위한 워핑유닛(25)을 구비하는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 만드는 시스템.
  36. 제 27 항 또는 제 28 항에 있어서,
    비디오 인덱싱, 비디오 브라우징 및 비디오 검색 그룹 중에서 적어도 하나를 위해 형성되는 엔드리스 소스 비디오스트림으로부터 시놉시스 비디오를 만드는 시스템.
  37. 컴퓨터상에 실행시 제 1 항 내지 제 3 항 중 어느 한 항의 방법을 수행하기 위한 컴퓨터 프로그램 코드 수단을 구비하는 컴퓨터 프로그램을 저장한 컴퓨터 판독가능한 기록매체.
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
KR1020097018271A 2007-02-01 2007-12-09 비디오 인덱싱 및 비디오 시놉시스 방법 및 시스템 KR101456652B1 (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US89869807P 2007-02-01 2007-02-01
US60/898,698 2007-02-01
US91183907P 2007-04-13 2007-04-13
US60/911,839 2007-04-13
US97158207P 2007-09-12 2007-09-12
US60/971,582 2007-09-12
PCT/IL2007/001520 WO2008093321A1 (en) 2007-02-01 2007-12-09 Method and system for video indexing and video synopsis

Publications (2)

Publication Number Publication Date
KR20090117771A KR20090117771A (ko) 2009-11-12
KR101456652B1 true KR101456652B1 (ko) 2014-11-04

Family

ID=39261922

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097018271A KR101456652B1 (ko) 2007-02-01 2007-12-09 비디오 인덱싱 및 비디오 시놉시스 방법 및 시스템

Country Status (9)

Country Link
US (2) US8311277B2 (ko)
EP (2) EP2119224A1 (ko)
JP (1) JP5355422B2 (ko)
KR (1) KR101456652B1 (ko)
CN (1) CN101689394B (ko)
AU (1) AU2007345938B2 (ko)
BR (1) BRPI0720802B1 (ko)
CA (1) CA2676632C (ko)
WO (1) WO2008093321A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101805018B1 (ko) * 2016-07-08 2017-12-06 한양대학교 산학협력단 컴팩트 비디오 생성 장치, 방법 및 컴퓨터 프로그램이 기록된 기록매체

Families Citing this family (130)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10271017B2 (en) * 2012-09-13 2019-04-23 General Electric Company System and method for generating an activity summary of a person
JP4972095B2 (ja) 2005-11-15 2012-07-11 イッサム リサーチ ディベロップメント カンパニー オブ ザ ヘブライ ユニバーシティー オブ エルサレム 映像概要を生成する方法およびシステム
US8949235B2 (en) 2005-11-15 2015-02-03 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Methods and systems for producing a video synopsis using clustering
BRPI0720802B1 (pt) * 2007-02-01 2021-10-19 Briefcam, Ltd. Método e sistema para gerar uma sinopse de vídeo de uma fonte de fluxo de vídeo ininterrupta como a gerada por uma câmera de segurança de vídeo
US8666590B2 (en) * 2007-06-22 2014-03-04 Inthinc Technology Solutions, Inc. System and method for naming, filtering, and recall of remotely monitored event data
KR100919247B1 (ko) * 2008-03-12 2009-09-30 중앙대학교 산학협력단 파노라마 영상 생성장치 및 방법, 그리고 이를 이용한 객체추적장치 및 방법
FR2935498B1 (fr) * 2008-08-27 2010-10-15 Eads Europ Aeronautic Defence Procede d'identification d'un objet dans une archive video.
CN101370126B (zh) 2008-09-24 2012-02-08 中兴通讯股份有限公司 一种监控录像的播放控制方法及系统
EP2224357A1 (en) 2009-02-27 2010-09-01 BRITISH TELECOMMUNICATIONS public limited company Video segmentation
US8754941B1 (en) * 2009-09-22 2014-06-17 Altia Systems, Inc. Multi-imager video camera with frame-by-frame view switching
US8787618B2 (en) * 2010-04-13 2014-07-22 Sony Corporation Content information processing device, content information processing method, content information processing program, and personal digital assistant
US8599316B2 (en) 2010-05-25 2013-12-03 Intellectual Ventures Fund 83 Llc Method for determining key video frames
CN101887459B (zh) * 2010-06-28 2012-07-11 中国科学院计算技术研究所 网络视频话题检测的方法及其系统
DE102010031429A1 (de) 2010-07-16 2012-01-19 Robert Bosch Gmbh Verfahren zum Bereitstellen eines Kombinations-Videos
US9361523B1 (en) * 2010-07-21 2016-06-07 Hrl Laboratories, Llc Video content-based retrieval
US9171578B2 (en) * 2010-08-06 2015-10-27 Futurewei Technologies, Inc. Video skimming methods and systems
US20120162412A1 (en) * 2010-12-22 2012-06-28 Electronics And Telecommunications Research Institute Image matting apparatus using multiple cameras and method of generating alpha maps
WO2012089262A1 (en) * 2010-12-29 2012-07-05 Tele Atlas Polska Sp.Z.O.O Method and apparatus for use in forming an image
US8773532B2 (en) * 2011-06-13 2014-07-08 Alcatel Lucent Video surveillance system integrating real and logical video streams
US20130063556A1 (en) * 2011-09-08 2013-03-14 Prism Skylabs, Inc. Extracting depth information from video from a single camera
RU2471231C1 (ru) 2011-09-30 2012-12-27 Общество с ограниченной ответственностью "Ай Ти Ви групп" Способ поиска объектов в последовательности изображений, полученных от стационарной видеокамеры
TWI495339B (zh) * 2011-11-11 2015-08-01 Univ Nat Cheng Kung 摘要影像的製造方法
US8719687B2 (en) 2011-12-23 2014-05-06 Hong Kong Applied Science And Technology Research Method for summarizing video and displaying the summary in three-dimensional scenes
US9077932B2 (en) * 2012-04-06 2015-07-07 Realtek Semiconductor Corp. Multimedia system, relevant multimedia information display device and multimedia information transmission method
CN102708182B (zh) * 2012-05-08 2014-07-02 浙江捷尚视觉科技有限公司 一种快速视频浓缩摘要方法
US8787730B2 (en) * 2012-05-21 2014-07-22 Yahoo! Inc. Creating video synopsis for use in playback
US9274678B2 (en) * 2012-09-13 2016-03-01 Google Inc. Identifying a thumbnail image to represent a video
US20140278210A1 (en) * 2013-03-13 2014-09-18 International Business Machines Corporation Real-time Spatial Path Comparison
CN103279481B (zh) * 2013-04-23 2016-08-03 四川天翼网络服务有限公司 智慧天网情报图侦系统
US11165994B2 (en) 2013-05-13 2021-11-02 Texas Instruments Incorporated Analytics-driven summary views for surveillance networks
US20140365395A1 (en) * 2013-06-08 2014-12-11 Onekarte, Inc. Electronic business card application software and its system
US9363431B2 (en) * 2013-07-11 2016-06-07 Magisto Ltd. Method and system for capturing important objects using a camera based on predefined metrics
US9210319B2 (en) * 2013-07-11 2015-12-08 Magisto Ltd. Method and system for capturing important objects using a camera based on predefined metrics
US9508390B2 (en) * 2013-07-12 2016-11-29 Apple Inc. Trick play in digital video streaming
US9208385B2 (en) * 2013-07-23 2015-12-08 TCL Research America Inc. System and method for moving object detection and processing
JP6413134B2 (ja) * 2013-08-23 2018-10-31 国立大学法人山梨大学 映像内活動度可視化装置、方法及びプログラム
KR102072022B1 (ko) * 2013-09-02 2020-01-31 에스케이 텔레콤주식회사 관심영역 기반의 영상요약 장치와 그를 위한 컴퓨터로 읽을 수 있는 기록 매체
US9323993B2 (en) * 2013-09-05 2016-04-26 Xerox Corporation On-street parking management methods and systems for identifying a vehicle via a camera and mobile communications devices
US9202116B2 (en) * 2013-10-29 2015-12-01 National Taipei University Of Technology Image processing method and image processing apparatus using the same
US9172477B2 (en) 2013-10-30 2015-10-27 Inthinc Technology Solutions, Inc. Wireless device detection using multiple antennas separated by an RF shield
CN104717457B (zh) 2013-12-13 2018-05-18 华为技术有限公司 一种视频浓缩方法及装置
KR101804383B1 (ko) 2014-01-14 2017-12-04 한화테크윈 주식회사 요약 영상 브라우징 시스템 및 방법
CN103826125B (zh) * 2014-01-20 2017-10-27 北京创鑫汇智科技发展有限责任公司 用于已压缩监控视频的浓缩分析方法和装置
KR102070924B1 (ko) 2014-01-20 2020-01-29 한화테크윈 주식회사 영상 기록 시스템
CN103763562B (zh) * 2014-01-22 2016-11-16 复旦大学 一种基于线裁剪的视频浓缩方法
US9877086B2 (en) * 2014-01-26 2018-01-23 BriefCam Ltd. Method and system for producing relevance sorted video summary
CN103778237B (zh) * 2014-01-27 2017-02-15 北京邮电大学 一种基于活动事件时空重组的视频摘要生成方法
WO2015170141A1 (en) * 2014-05-07 2015-11-12 Sony Corporation Electronic device and method for controlling navigation in a video
KR101482226B1 (ko) * 2014-05-13 2015-01-22 주식회사 다이나맥스 시놉시스 영상감시 기능을 수행하는 cctv 통합관제시스템을 구현하기 위한 방법
KR101482924B1 (ko) * 2014-05-13 2015-01-15 주식회사 다이나맥스 시놉시스 영상을 생성하여 영상감시 기능을 수행하는 cctv 통합관제시스템
EP2960811A1 (en) * 2014-06-26 2015-12-30 Thomson Licensing Method and device for analyzing a database comprising a large number of video images
KR102170694B1 (ko) 2014-07-07 2020-10-27 한화테크윈 주식회사 비디오써머리를 제공하는 영상재생장치 및 영상재생장치에서 비디오써머리를 제공하는 방법
CN208027742U (zh) 2014-07-28 2018-10-30 菲力尔洛莱施公司 视频浓缩系统
US10102285B2 (en) 2014-08-27 2018-10-16 International Business Machines Corporation Consolidating video search for an event
US9449395B2 (en) 2014-09-15 2016-09-20 Winbond Electronics Corp. Methods and systems for image matting and foreground estimation based on hierarchical graphs
KR101849365B1 (ko) 2014-11-05 2018-04-16 한화테크윈 주식회사 영상 처리 장치 및 방법
US10424341B2 (en) 2014-11-12 2019-09-24 Massachusetts Institute Of Technology Dynamic video summarization
US9363449B1 (en) * 2014-11-13 2016-06-07 Futurewei Technologies, Inc. Parallax tolerant video stitching with spatial-temporal localized warping and seam finding
US9436876B1 (en) * 2014-12-19 2016-09-06 Amazon Technologies, Inc. Video segmentation techniques
KR102278945B1 (ko) 2015-01-27 2021-07-19 삼성전자주식회사 이미지 처리 방법 및 이를 지원하는 전자 장치
KR102375864B1 (ko) 2015-02-10 2022-03-18 한화테크윈 주식회사 요약 영상 브라우징 시스템 및 방법
US9582882B2 (en) 2015-03-02 2017-02-28 Nokia Technologies Oy Method and apparatus for image registration in the gradient domain
US9466108B1 (en) * 2015-03-31 2016-10-11 Nokia Technologies Oy Method and apparatus for multiple image registration in the gradient domain
US9762846B2 (en) 2015-05-08 2017-09-12 Microsoft Technology Licensing, Llc Real-time hyper-lapse video creation via frame selection
CN107635457B (zh) * 2015-05-21 2021-05-25 皇家飞利浦有限公司 识别视频序列中的活的皮肤组织
US10242441B2 (en) * 2015-05-21 2019-03-26 Koninklijke Philips N.V. Identifying living skin tissue in a video sequence using color and spatial similarities
WO2016184705A1 (en) * 2015-05-21 2016-11-24 Koninklijke Philips N.V. Determining a pulse signal from a video sequence
CN104935830B (zh) * 2015-06-03 2019-05-07 广东威创视讯科技股份有限公司 拼接显示装置视频信息渲染、显示方法和系统
US10593007B1 (en) * 2015-06-11 2020-03-17 Digimarc Corporation Methods and arrangements for configuring industrial inspection systems
US9721350B2 (en) * 2015-06-26 2017-08-01 Getalert Ltd. Methods circuits devices systems and associated computer executable code for video feed processing
CN105100718B (zh) * 2015-07-29 2018-11-23 西安冉科信息技术有限公司 一种基于视频摘要的智能视频分析方法
CN105141923B (zh) * 2015-09-08 2018-12-28 东方网力科技股份有限公司 一种视频浓缩方法及装置
CN108351965B (zh) 2015-09-14 2022-08-02 罗技欧洲公司 视频摘要的用户界面
EP3142117B1 (en) * 2015-09-14 2020-01-01 TP Vision Holding B.V. Content playback apparatus including a playback resume function
US10299017B2 (en) 2015-09-14 2019-05-21 Logitech Europe S.A. Video searching for filtered and tagged motion
US9805567B2 (en) 2015-09-14 2017-10-31 Logitech Europe S.A. Temporal video streaming and summaries
US9313556B1 (en) 2015-09-14 2016-04-12 Logitech Europe S.A. User interface for video summaries
KR102345579B1 (ko) * 2015-12-15 2021-12-31 삼성전자주식회사 이미지 관련 서비스를 제공하기 위한 방법, 저장 매체 및 전자 장치
CN105554456B (zh) * 2015-12-21 2018-11-23 北京旷视科技有限公司 视频处理方法和设备
KR102592904B1 (ko) * 2016-02-19 2023-10-23 삼성전자주식회사 영상 요약 장치 및 방법
EP3249651B1 (en) 2016-05-23 2018-08-29 Axis AB Generating a summary video sequence from a source video sequence
WO2018022853A1 (en) * 2016-07-28 2018-02-01 Kodak Alaris Inc. A method for dynamic creation of collages from mobile video
TWI604323B (zh) 2016-11-10 2017-11-01 財團法人工業技術研究院 視訊索引建立方法及應用其之裝置
TR201702177A2 (ko) 2017-02-14 2018-09-21 Akif Ekin
US10929707B2 (en) 2017-03-02 2021-02-23 Ricoh Company, Ltd. Computation of audience metrics focalized on displayed content
US10956495B2 (en) 2017-03-02 2021-03-23 Ricoh Company, Ltd. Analysis of operator behavior focalized on machine events
US10708635B2 (en) 2017-03-02 2020-07-07 Ricoh Company, Ltd. Subsumption architecture for processing fragments of a video stream
US10949705B2 (en) 2017-03-02 2021-03-16 Ricoh Company, Ltd. Focalized behavioral measurements in a video stream
US10713391B2 (en) 2017-03-02 2020-07-14 Ricoh Co., Ltd. Tamper protection and video source identification for video processing pipeline
US10929685B2 (en) 2017-03-02 2021-02-23 Ricoh Company, Ltd. Analysis of operator behavior focalized on machine events
US10720182B2 (en) 2017-03-02 2020-07-21 Ricoh Company, Ltd. Decomposition of a video stream into salient fragments
US10956494B2 (en) 2017-03-02 2021-03-23 Ricoh Company, Ltd. Behavioral measurements in a video stream focalized on keywords
US10943122B2 (en) 2017-03-02 2021-03-09 Ricoh Company, Ltd. Focalized behavioral measurements in a video stream
US10949463B2 (en) 2017-03-02 2021-03-16 Ricoh Company, Ltd. Behavioral measurements in a video stream focalized on keywords
US10956773B2 (en) 2017-03-02 2021-03-23 Ricoh Company, Ltd. Computation of audience metrics focalized on displayed content
US10719552B2 (en) 2017-03-02 2020-07-21 Ricoh Co., Ltd. Focalized summarizations of a video stream
CN107707975A (zh) * 2017-09-20 2018-02-16 天津大学 基于监控平台的视频智能剪辑方法
JP2019057836A (ja) * 2017-09-21 2019-04-11 キヤノン株式会社 映像処理装置、映像処理方法、コンピュータプログラム、及び記憶媒体
CN108012202B (zh) 2017-12-15 2020-02-14 浙江大华技术股份有限公司 视频浓缩方法、设备、计算机可读存储介质及计算机装置
US10379718B2 (en) * 2017-12-22 2019-08-13 Palo Alto Research Center Incorporated System and method for providing ambient information to user through layered visual montage
KR102108618B1 (ko) * 2018-01-19 2020-05-07 한국기술교육대학교 산학협력단 비디오 시놉시스를 이용한 범죄 확인 방법
US10740618B1 (en) * 2018-04-30 2020-08-11 Amazon Technologies, Inc. Tracking objects in live 360 video
US20200036909A1 (en) 2018-07-27 2020-01-30 BriefCam Ltd. System and method allowing simultaneous viewing of live and recorded video content
US10666877B2 (en) 2018-09-14 2020-05-26 Motorola Solutions, Inc. Synopsizing videos from multiple moving video cameras
EP3844672A1 (en) * 2018-09-26 2021-07-07 Five AI Limited Structure annotation
US10958854B2 (en) 2018-11-02 2021-03-23 BriefCam Ltd. Computer-implemented method for generating an output video from multiple video sources
US11675853B2 (en) * 2018-12-28 2023-06-13 Nbcuniversal Media, Llc Systems and methods for processing metadata
US10999534B2 (en) * 2019-03-29 2021-05-04 Cisco Technology, Inc. Optimized video review using motion recap images
CN110996183B (zh) * 2019-07-12 2022-01-21 北京达佳互联信息技术有限公司 视频摘要的生成方法、装置、终端及存储介质
KR102271929B1 (ko) 2019-09-17 2021-07-02 한국과학기술연구원 장면 이해를 통해 비디오 요약을 생성하는 방법 및 이를 위한 시스템
US11354909B2 (en) * 2019-09-26 2022-06-07 International Business Machines Corporation Adaptive queue management system
JP7446760B2 (ja) 2019-10-07 2024-03-11 キヤノン株式会社 情報処理装置、映像の要約方法、およびプログラム
US11238093B2 (en) * 2019-10-15 2022-02-01 Adobe Inc. Video retrieval based on encoding temporal relationships among video frames
JP2021064870A (ja) * 2019-10-15 2021-04-22 キヤノン株式会社 情報処理装置、情報処理システム、情報処理方法およびプログラム
JP7451172B2 (ja) 2019-12-24 2024-03-18 キヤノン株式会社 情報処理装置、映像の要約方法、およびプログラム
US10951858B1 (en) 2020-03-30 2021-03-16 Logitech Europe S.A. Advanced video conferencing systems and methods
US10965908B1 (en) 2020-03-30 2021-03-30 Logitech Europe S.A. Advanced video conferencing systems and methods
US10972655B1 (en) 2020-03-30 2021-04-06 Logitech Europe S.A. Advanced video conferencing systems and methods
US10904446B1 (en) 2020-03-30 2021-01-26 Logitech Europe S.A. Advanced video conferencing systems and methods
CN111601033A (zh) 2020-04-27 2020-08-28 北京小米松果电子有限公司 视频处理方法、装置及存储介质
US11430142B2 (en) * 2020-04-28 2022-08-30 Snap Inc. Photometric-based 3D object modeling
US11328160B2 (en) * 2020-06-10 2022-05-10 Ionetworks Inc. Video condensation and recognition method and system thereof
CN111783649B (zh) * 2020-06-30 2024-01-23 北京百度网讯科技有限公司 视频类型检测方法、装置、电子设备与存储介质
KR102223010B1 (ko) 2020-07-15 2021-03-05 (주)비상정보통신 객체 인식 기반의 채널 재조정 편집이 가능한 다중화면 검색기술 지원 시스템 및 방법
US11653052B2 (en) * 2020-10-26 2023-05-16 Genetec Inc. Systems and methods for producing a privacy-protected video clip
CN113326399A (zh) * 2021-06-16 2021-08-31 中国人民解放军91388部队 一种视频浓缩的方法、装置、电子设备及存储介质
KR102570126B1 (ko) * 2021-07-26 2023-08-22 세종대학교산학협력단 이상 객체 탐지 기반 영상 시놉시스 생성 방법 및 장치
WO2023042166A1 (en) * 2021-09-19 2023-03-23 Glossai Ltd Systems and methods for indexing media content using dynamic domain-specific corpus and model generation
WO2023129266A1 (en) * 2021-12-28 2023-07-06 The Adt Security Corporation Video rights management for an in-cabin monitoring system
US11928145B1 (en) 2022-12-09 2024-03-12 International Business Machines Corporation Creating a knowledge graph for a video

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004336172A (ja) 2003-04-30 2004-11-25 Secom Co Ltd 画像処理システム
JP2005210573A (ja) 2004-01-26 2005-08-04 Mitsubishi Electric Corp 映像表示システム
US20060117356A1 (en) 2004-12-01 2006-06-01 Microsoft Corporation Interactive montages of sprites for indexing and summarizing video

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5850352A (en) * 1995-03-31 1998-12-15 The Regents Of The University Of California Immersive video, including video hypermosaicing to generate from multiple video views of a scene a three-dimensional video mosaic from which diverse virtual video scene images are synthesized, including panoramic, scene interactive and stereoscopic images
US5774593A (en) 1995-07-24 1998-06-30 University Of Washington Automatic scene decomposition and optimization of MPEG compressed video
US5767922A (en) * 1996-04-05 1998-06-16 Cornell Research Foundation, Inc. Apparatus and process for detecting scene breaks in a sequence of video frames
US5911008A (en) 1996-04-30 1999-06-08 Nippon Telegraph And Telephone Corporation Scheme for detecting shot boundaries in compressed video data using inter-frame/inter-field prediction coding and intra-frame/intra-field coding
TW303555B (en) 1996-08-08 1997-04-21 Ind Tech Res Inst Digital data detecting method
US6735253B1 (en) 1997-05-16 2004-05-11 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web
DE60038880D1 (de) 1999-03-18 2008-06-26 Pirelli Lkw-reifen für schwere und mittelschwere transporte
US7184100B1 (en) * 1999-03-24 2007-02-27 Mate - Media Access Technologies Ltd. Method of selecting key-frames from a video sequence
US6514081B1 (en) * 1999-08-06 2003-02-04 Jeffrey L. Mengoli Method and apparatus for automating motion analysis
US6792411B1 (en) * 1999-08-27 2004-09-14 Eugene Howard Massey, Jr. Method for the sale of movies prior to the production thereof
US7016540B1 (en) 1999-11-24 2006-03-21 Nec Corporation Method and system for segmentation, classification, and summarization of video images
US6549643B1 (en) 1999-11-30 2003-04-15 Siemens Corporate Research, Inc. System and method for selecting key-frames of video data
US6665423B1 (en) 2000-01-27 2003-12-16 Eastman Kodak Company Method and system for object-oriented motion-based video description
AUPQ535200A0 (en) 2000-01-31 2000-02-17 Canon Kabushiki Kaisha Extracting key frames from a video sequence
KR100698106B1 (ko) 2000-03-07 2007-03-26 엘지전자 주식회사 엠펙(mpeg)압축 비디오 환경에서 계층적 혼합형장면 변화 검출 방법
EP1287518B1 (en) * 2000-04-07 2010-09-15 Dartfish SA Automated stroboscoping of video sequences
US6879332B2 (en) 2000-05-16 2005-04-12 Groxis, Inc. User interface for displaying and exploring hierarchical information
US20020051077A1 (en) 2000-07-19 2002-05-02 Shih-Ping Liou Videoabstracts: a system for generating video summaries
US6697523B1 (en) 2000-08-09 2004-02-24 Mitsubishi Electric Research Laboratories, Inc. Method for summarizing a video using motion and color descriptors
US6961731B2 (en) 2000-11-15 2005-11-01 Kooltorch, L.L.C. Apparatus and method for organizing and/or presenting data
US6925455B2 (en) 2000-12-12 2005-08-02 Nec Corporation Creating audio-centric, image-centric, and integrated audio-visual summaries
US7110458B2 (en) 2001-04-27 2006-09-19 Mitsubishi Electric Research Laboratories, Inc. Method for summarizing a video using motion descriptors
EP3388784B1 (en) * 2001-05-04 2019-07-17 Vexcel Imaging GmbH Method and large format camera for acquiring a large format image of a large area object
US6904420B2 (en) 2001-05-17 2005-06-07 Honeywell International Inc. Neuro/fuzzy hybrid approach to clustering data
US20060247070A1 (en) * 2001-06-11 2006-11-02 Recognition Insight, Llc Swing position recognition and reinforcement
US7296231B2 (en) * 2001-08-09 2007-11-13 Eastman Kodak Company Video structuring by probabilistic merging of video segments
US7480864B2 (en) 2001-10-12 2009-01-20 Canon Kabushiki Kaisha Zoom editor
US7149755B2 (en) 2002-07-29 2006-12-12 Hewlett-Packard Development Company, Lp. Presenting a collection of media objects
US7375731B2 (en) 2002-11-01 2008-05-20 Mitsubishi Electric Research Laboratories, Inc. Video mining using unsupervised clustering of video content
US7143352B2 (en) * 2002-11-01 2006-11-28 Mitsubishi Electric Research Laboratories, Inc Blind summarization of video content
US7131059B2 (en) 2002-12-31 2006-10-31 Hewlett-Packard Development Company, L.P. Scalably presenting a collection of media objects
US7127127B2 (en) 2003-03-04 2006-10-24 Microsoft Corporation System and method for adaptive video fast forward using scene generative models
JP4155118B2 (ja) * 2003-06-13 2008-09-24 カシオ計算機株式会社 静止画合成装置、及び動画像からの静止画合成方法
US7406123B2 (en) 2003-07-10 2008-07-29 Mitsubishi Electric Research Laboratories, Inc. Visual complexity measure for playing videos adaptively
US7409407B2 (en) 2004-05-07 2008-08-05 Mitsubishi Electric Research Laboratories, Inc. Multimedia event detection and summarization
JP4727342B2 (ja) * 2004-09-15 2011-07-20 ソニー株式会社 画像処理装置、画像処理方法、画像処理プログラム及びプログラム格納媒体
WO2006048875A2 (en) 2004-11-05 2006-05-11 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method and system for spatio-temporal video warping
US7594177B2 (en) 2004-12-08 2009-09-22 Microsoft Corporation System and method for video browsing using a cluster index
US7550404B2 (en) 2005-09-30 2009-06-23 Pq Corporation Wood-polymer-zeolite composites
US8949235B2 (en) * 2005-11-15 2015-02-03 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Methods and systems for producing a video synopsis using clustering
JP4972095B2 (ja) * 2005-11-15 2012-07-11 イッサム リサーチ ディベロップメント カンパニー オブ ザ ヘブライ ユニバーシティー オブ エルサレム 映像概要を生成する方法およびシステム
JP4229168B2 (ja) 2006-10-23 2009-02-25 コベルコクレーン株式会社 建設機械のブームフットピン着脱装置
BRPI0720802B1 (pt) 2007-02-01 2021-10-19 Briefcam, Ltd. Método e sistema para gerar uma sinopse de vídeo de uma fonte de fluxo de vídeo ininterrupta como a gerada por uma câmera de segurança de vídeo

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004336172A (ja) 2003-04-30 2004-11-25 Secom Co Ltd 画像処理システム
JP2005210573A (ja) 2004-01-26 2005-08-04 Mitsubishi Electric Corp 映像表示システム
US20060117356A1 (en) 2004-12-01 2006-06-01 Microsoft Corporation Interactive montages of sprites for indexing and summarizing video

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101805018B1 (ko) * 2016-07-08 2017-12-06 한양대학교 산학협력단 컴팩트 비디오 생성 장치, 방법 및 컴퓨터 프로그램이 기록된 기록매체
WO2018008871A1 (ko) * 2016-07-08 2018-01-11 한양대학교 산학협력단 컴팩트 비디오 생성 장치, 방법 및 컴퓨터 프로그램이 기록된 기록매체
US10701463B2 (en) 2016-07-08 2020-06-30 Iucf-Hyu (Industry-University Cooperation Foundation Hanyang University) Compact video generation device and method, and recording medium in which computer program is recorded

Also Published As

Publication number Publication date
JP2010518673A (ja) 2010-05-27
US20130027551A1 (en) 2013-01-31
CN101689394A (zh) 2010-03-31
CA2676632A1 (en) 2008-08-07
BRPI0720802B1 (pt) 2021-10-19
US20100092037A1 (en) 2010-04-15
KR20090117771A (ko) 2009-11-12
BRPI0720802A2 (pt) 2014-03-11
CA2676632C (en) 2017-11-07
EP2119224A1 (en) 2009-11-18
AU2007345938A1 (en) 2008-08-07
JP5355422B2 (ja) 2013-11-27
AU2007345938B2 (en) 2011-11-10
CN101689394B (zh) 2014-03-26
EP3297272A1 (en) 2018-03-21
WO2008093321A1 (en) 2008-08-07
US8818038B2 (en) 2014-08-26
US8311277B2 (en) 2012-11-13

Similar Documents

Publication Publication Date Title
KR101456652B1 (ko) 비디오 인덱싱 및 비디오 시놉시스 방법 및 시스템
Pritch et al. Nonchronological video synopsis and indexing
Pritch et al. Webcam synopsis: Peeking around the world
EP1955205B1 (en) Method and system for producing a video synopsis
Borgo et al. State of the art report on video‐based graphics and video visualization
Chen et al. Visual storylines: Semantic visualization of movie sequence
JP2010134923A (ja) クラスタリングを使用したビデオ概要の生成方法とシステム
WO1999005865A1 (en) Content-based video access
Zhu et al. Automatic scene detection for advanced story retrieval
Kopf et al. Automatic generation of summaries for the Web
Niu et al. Real-time generation of personalized home video summaries on mobile devices
Yeh Selecting interesting image regions to automatically create cinemagraphs
Pritch et al. Video Synopsis and Indexing
IL199678A (en) Method and system for video indexing and video synopsis
Zhang Video content analysis and retrieval
Podlesnyy Automatic Video Editing
Aggarwal et al. Automated Navigation System for News Videos: A Survey
Jiang et al. News video indexing and abstraction by specific visual cues: MSC and news caption
Zhu et al. Automatic video partition for high-level search
WO2006092752A2 (en) Creating a summarized overview of a video sequence
Zhang et al. Home video structuring with a two-layer shot clustering approach
Sumiya et al. A Spatial User Interface for Browsing Video Key Frames
AU2003202411A1 (en) Automatic Annotation of Digital Video Based on Human Activity

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190130

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20191015

Year of fee payment: 6