WO2015108236A1

WO2015108236A1 - 요약 영상 브라우징 시스템 및 방법

Info

Publication number: WO2015108236A1
Application number: PCT/KR2014/002533
Authority: WO
Inventors: 유연걸; 박동준; 신학철
Original assignee: 삼성테크윈 주식회사
Priority date: 2014-01-14
Filing date: 2014-03-26
Publication date: 2015-07-23
Also published as: KR101804383B1; KR20150084567A; US20170040036A1; US10032483B2

Abstract

본 발명의 실시예는 요약 영상 브라우징 시스템 및 방법을 개시한다. 본 발명의 요약 영상 브라우징 방법은, 입력 동영상으로부터 객체의 움직임 궤적을 추적하는 단계; 상기 입력 동영상으로부터 상기 객체를 추출하여 일련의 객체 세그먼트를 생성하는 단계; 및 상기 객체의 움직임 궤적을 따라 배경 영상에 상기 일련의 객체 세그먼트가 합성되고 상기 객체의 출현 시간에 따른 두께를 갖는 요약 영상을, 상기 입력 동영상에서 추출된 객체별로 생성하는 단계;를 포함할 수 있다.

Description

요약 영상 브라우징 시스템 및 방법

본 발명의 실시예는 요약 영상 브라우징 시스템 및 방법에 관한 것이다.

영상(이미지), 비디오 등 멀티미디어 서비스의 수요가 증가하고 휴대용 멀티미디어 기기가 보편적으로 보급되면서 방대한 양의 멀티미디어 데이터를 관리하고 소비자가 원하는 컨텐츠를 빠르고 정확하게 찾아내 제공하는 효율적인 멀티미디어 검색 및 브라우징 시스템의 필요성도 커지고 있다.

본 발명은 사용자가 편리하게 검색 결과를 파악할 수 있는 영상 브라우징 시스템 및 브라우징 방법을 제공하고자 한다.

본 발명의 실시예에 따른 요약 영상 브라우징 방법은, 입력 동영상으로부터 객체의 움직임 궤적을 추적하는 단계; 상기 입력 동영상으로부터 상기 객체를 추출하여 일련의 객체 세그먼트를 생성하는 단계; 및 상기 객체의 움직임 궤적을 따라 배경 영상에 상기 일련의 객체 세그먼트가 합성되고 상기 객체의 출현 시간에 따른 두께를 갖는 요약 영상을, 상기 입력 동영상에서 추출된 객체별로 생성하는 단계;를 포함할 수 있다.

상기 요약 영상은 표시 영역과 상기 객체의 정보를 나타내는 텍스트 영역을 포함하고, 상기 표시 영역의 테두리는 상기 객체의 카테고리에 따라 특정 색상이 할당될 수 있다.

상기 객체 세그먼트는 상기 객체의 움직임 궤적을 따라 상기 배경 영상에 중복되지 않게 배치되고, 특정 색상 또는 특정 도형으로 표시되고, 상기 배경 영상에서의 위치에 따라 크기가 달라질 수 있다.

상기 방법은, 객체별로 생성된 요약 영상들 중 검색 조건에 매칭하는 적어도 하나의 요약 영상을 상기 객체의 출현 시간 순서로 시간 축을 따라 정렬하여 디스플레이하는 단계;를 더 포함할 수 있다.

상기 방법은, 상기 정렬된 요약 영상들의 뷰 포인트를 변경하는 입력을 수신하는 단계; 및 각 요약 영상에 할당된 변환관계를 기초로 요약 영상별로 회전 및 이동하여 디스플레이하는 단계;를 더 포함할 수 있다.

상기 방법은, 상기 정렬된 요약 영상들 중 제1 요약 영상을 제2 요약 영상으로 드래그 앤 드롭하는 동작을 감지하는 단계; 및 상기 제1 요약 영상을 상기 제2 요약 영상과 병합한 합성 요약 영상을 나머지 요약 영상들과 정렬하여 디스플레이하는 단계;를 더 포함할 수 있다.

상기 방법은, 상기 정렬된 요약 영상들 중 출현 유지 시간이 일부 중첩하는 적어도 하나의 요약 영상을 병합한 합성 요약 영상을 나머지 요약 영상들과 정렬하여 디스플레이하는 단계;를 더 포함할 수 있다.

상기 합성 요약 영상 디스플레이 단계는, 상기 정렬된 요약 영상들 중 사용자에 의해 선택된 요약 영상과 출현 유지 시간이 일부 중첩하는 적어도 하나의 요약 영상을 병합한 합성 요약 영상을 나머지 요약 영상들과 정렬하여 디스플레이하는 단계;를 포함할 수 있다.

상기 방법은, 상기 정렬된 요약 영상들을 카테고리별로 재정렬하는 요청을 수신하는 단계; 및 상기 정렬된 요약 영상들을 카테고리별로 분류하고, 각 카테고리 내에서 객체 출현 시간 순서로 시간 축을 따라 정렬하여 디스플레이하는 단계;를 더 포함할 수 있다.

상기 방법은, 상기 정렬된 요약 영상들 중 요약 영상의 선택을 수신하는 단계; 및 상기 선택된 요약 영상을 하이라이트하고, 나머지 요약 영상들과 중첩하여 단독 디스플레이하는 단계;를 더 포함할 수 있다.

상기 방법은, 상기 하이라이트된 요약 영상에 재생 아이콘을 제공하는 단계; 및 상기 재생 아이콘의 선택이 수신되면, 상기 요약 영상의 객체를 시간 순서로 재생하는 단계;를 더 포함할 수 있다.

상기 방법은, 상기 정렬된 요약 영상들 중 적어도 하나의 요약 영상에 대한 배경 제거 또는 배경 추가 요청을 수신하는 단계; 및 상기 적어도 하나의 요약 영상의 배경을 제거 또는 추가하여 디스플레이하는 단계;를 더 포함할 수 있다.

상기 방법은, 검색 조건별로 검색된 요약 영상들을 클러스터링하는 단계;를 더 포함할 수 있다.

본 발명의 실시예에 따른 요약 영상 브라우징 시스템은, 입력 동영상으로부터 객체의 움직임 궤적을 추적하고, 상기 객체를 추출하여 일련의 객체 세그먼트를 생성하는 객체추출부; 및 상기 객체의 움직임 궤적을 따라 배경 영상에 상기 일련의 객체 세그먼트가 합성되고 상기 객체의 출현 시간에 따른 두께를 갖는 요약 영상을, 상기 입력 동영상에서 추출된 객체별로 생성하는 요약영상생성부;를 포함할 수 있다.

상기 시스템은, 객체별로 생성된 요약 영상들 중 검색 조건에 매칭하는 적어도 하나의 요약 영상을 상기 객체의 출현 시간 순서로 시간 축을 따라 정렬하여 디스플레이하는 브라우징 엔진;을 더 포함할 수 있다.

상기 브라우징 엔진은, 상기 정렬된 요약 영상들의 뷰 포인트 변경 요청에 응답하여, 각 요약 영상에 할당된 변환관계를 기초로 요약 영상별로 회전 및 이동하여 디스플레이할 수 있다.

상기 브라우징 엔진은, 사용자의 선택 또는 객체의 출현 유지 시간의 일부 중첩에 따라, 상기 정렬된 요약 영상들 중 일부 요약 영상을 병합한 합성 요약 영상을 나머지 요약 영상들과 정렬하여 디스플레이할 수 있다.

상기 브라우징 엔진은, 상기 정렬된 요약 영상들 중 선택된 요약 영상을 하이라이트하여 나머지 요약 영상들과 중첩하여 단독 디스플레이하고, 상기 하이라이트된 요약 영상에 재생 아이콘을 제공하고, 상기 재생 아이콘의 선택이 수신되면, 상기 요약 영상 내의 객체를 시간 순서로 재생할 수 있다.

상기 브라우징 엔진은, 검색 조건별로 검색된 요약 영상들을 클러스터링할 수 있다.

본 발명의 실시예는 객체 및 이미지 기반 요약 영상을 생성하여 3차원 구조로 정렬함으로써, 객체의 동향을 한눈에 파악할 수 있고, 사용자 편의성을 도모할 수 있다.

도 1은 본 발명의 실시 예에 따른 영상 브라우징 시스템을 개략적으로 도시한 블록도이다.

도 2는 도 1의 영상처리엔진을 개략적으로 도시한 블록도이다.

도 3은 본 발명의 실시예에 따른 영상 브라우징 방법을 개략적으로 도시한 흐름도이다.

도 4는 도 3의 요약 영상 생성 방법을 개략적으로 도시한 흐름도이다.

도 5는 본 발명의 실시예에 따라 입력 동영상으로부터 생성된 복수의 요약 영상들의 예를 도시한다.

도 6은 본 발명의 실시예에 따른 화면에 요약 영상이 시간 순서로 3차원적으로 정렬된 예를 도시한다.

도 7은 본 발명의 실시예에 따른 화면에 정렬된 요약 영상의 회전을 설명하는 예시도이다.

도 8은 본 발명의 실시예에 따른 화면에 정렬된 요약 영상을 카테고리별로 재정렬된 예를 도시한다.

도 9는 본 발명의 실시예에 따른 화면에 정렬된 요약 영상들 간의 상호작용을 나타내는 예시도이다.

도 10은 본 발명의 실시예에 따른 화면에 관심 요약 영상이 하이라이트된 예시도이다.

도 11은 본 발명의 실시예에 따른 화면에 정렬된 배경이 제거 또는 추가된 요약 영상을 나타내는 예시도이다.

도 12는 본 발명의 실시예에 따른 화면에 표시된 요약 영상의 클러스터링을 나타낸 예시도이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

이하의 실시예에서, 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

이하의 실시예에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 이하의 실시예에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 발명의 실시예들은 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 발명의 실시예들은 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩업 테이블(look-up table) 등과 같은 직접 회로 구성들을 채용할 수 있다. 본 발명의 실시예의 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 본 발명의 실시예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 발명의 실시예들은 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. 매커니즘, 요소, 수단, 구성과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.

도 1은 본 발명의 실시 예에 따른 영상 브라우징 시스템을 개략적으로 도시한 블록도이다. 도 2는 도 1의 영상처리엔진을 개략적으로 도시한 블록도이다.

도 1을 참조하면, 영상 브라우징 시스템(1)은 검색 결과를 사용자에게 보여주고, 사용자가 검색 결과를 파악할 수 있도록 하는 일련의 과정을 수행할 수 있다. 영상 브라우징 시스템(1)은 영상처리엔진(10), 데이터베이스(20), 쿼리엔진(30), 검색엔진(40) 및 브라우징엔진(50)을 포함할 수 있다.

영상처리엔진(10)은 입력 동영상 내에서 객체의 등장과 사라짐, 객체의 움직임 감지, 영상 꺼짐 등과 같은 영상 분석을 수행할 수 있다. 또한 영상처리엔진(10)은 배경 검출, 전경 및 객체 검출, 객체 카운팅, 카메라 탬퍼링(camera tampering) 검출, 얼굴 검출 등을 수행할 수 있다. 또한 영상처리엔진(10)은 영상의 밝기(brightness), 색상(color), 질감(texture) 및 윤곽선(shape) 정보도 산출할 수 있다.

영상처리엔진(10)은 배경 생성부(101), 객체 추출부(103) 및 요약 영상 생성부(105)를 포함할 수 있다.

배경 생성부(101)는 입력 동영상(video)을 구성하는 복수의 영상 프레임(image frame)으로부터 배경을 추출하여 배경 영상을 생성할 수 있다. 배경 생성부(101)는 복수의 영상 프레임에서 정지 영역을 배경으로 판단하고 배경 영상을 생성할 수 있다. 본 발명의 실시예에서 배경 영상 생성 방법은 특별히 제한되지 않으며, 다양한 공지의 방법을 적용할 수 있다.

입력 동영상은 영상 브라우징 시스템(1)에 연결된 영상 센서인 카메라(미도시)로부터 직접 전송된 동영상일 수 있고, 영상 브라우징 시스템(1)에 연결된 디지털 비디오 레코더(DVR: digital video recorder) 또는 네트워크 비디오 레코더(NVR: network video recorder)에 저장된 동영상일 수 있고, 또는 네트워크(미도시)를 통하여 다양한 경로로 입력되는 동영상일 수 있다.

객체 추출부(103)는 복수의 영상 프레임으로부터 움직임 영역을 관심 객체로 판단하고, 객체의 움직임 궤적을 추적할 수 있다. 객체 추출부(103)는 연속되는 영상 프레임 간의 객체 변화에 대한 정보를 수집해 나감으로써 동영상 내에서의 객체에 대한 추적 정보를 획득할 수 있다.

그리고, 객체 추출부(103)는 복수의 영상 프레임으로부터 객체를 추출하여 일련의 객체 세그먼트를 생성할 수 있다. 객체 세그먼트는 객체를 둘러싸는 블랍일 수 있다. 영상 프레임 내 위치에 따라 객체 크기가 변하므로, 객체 세그먼트는 그에 대응하여 크기(높이 및 폭)가 변할 수 있다. 객체 추출부(103)는 추적된 움직임 궤적을 따라 중요도를 고려하여 객체를 추출할 수 있다. 중요도는 동선(움직임 궤적) 방향의 변화 정도를 고려하여 정해질 수 있다. 객체 추출부(103)는 중요도에 따라 일부 영상 프레임에서는 객체의 추출을 생략할 수 있다.

요약 영상 생성부(105)는 객체의 움직임 궤적을 따라 배경 영상에 일련의 객체 세그먼트를 합성하여 요약 영상을 생성할 수 있다. 본 발명의 실시예에서 요약 영상은 객체의 연속적인 움직임을 배경 영상에 중복되지 않게 배치한, 객체를 기반으로 동영상을 축약한 동영상 요약 영상(Video summary image)이다.

움직임 궤적은 객체 세그먼트의 크기 변동 및 중복되지 않게 배치함으로 인해 지그재그 형태를 취할 수 있다. 요약 영상 생성부(105)는 부드러운(smooth) 동선 표시를 위해 궤적 평탄화(trajectory smoothing)를 수행할 수 있다.

요약 영상 생성부(105)는 배경과 전경(객체)의 뚜렷한 구별을 위해 시각화(visualization)를 수행할 수 있다. 시각화의 예로서, 객체를 특정 색상으로 표시하거나 특정 도형(사각형, 원형 등)으로 표시할 수 있다. 하나의 요약 영상은 일정 시간 동안 하나의 객체의 움직임을 요약한 영상이다. 따라서, 입력 동영상에서 생성되는 요약 영상의 수는 검출한 객체의 수에 대응할 수 있다. 요약 영상의 두께는 객체가 출현(등장)해서 사라질 때까지의 시간, 즉 출현 유지 시간(appearance duration)을 나타낼 수 있다. 따라서, 출현 유지 시간이 길수록 요약 영상의 두께가 두꺼워진다.

각 요약 영상은 객체의 움직임이 표시된 표시 영역과 객체의 정보를 나타내는 텍스트 영역을 포함할 수 있다. 표시 영역의 테두리는 객체의 카테고리(유형)에 따라 특정 색상이 할당될 수 있다. 테두리 색상과 객체 세그먼트 색상은 별개이다. 텍스트 영역에는 객체의 카테고리(예를 들어, 사람, 차량, 동물 등)에 대한 정보, 출현 유지 시간, 객체 세그먼트 색상 등이 객체의 정보로서 표시될 수 있다.

요약 영상 생성부(105)는 움직임 궤적, 객체 세그먼트, 객체 정보, 요약 영상 등을 인덱싱하여 데이터베이스화할 수 있다.

또한, 영상처리엔진(10)은 영상 분석을 수행하여 설정된 이벤트 발생 조건에 만족하는 경우 이벤트를 발생시킬 수 있다. 여기서 이벤트라 함은, 네트워크 에러가 발생한 경우, 새로운 카메라가 설정된 경우 등과 같이 시스템 내부에 설정된 시스템 이벤트를 포함할 수 있다. 또한 객체의 출현, 사용자가 특정한 이미지(예를 들어, 얼굴 인식이 불가능한 얼굴 등장) 발생, 화면 색깔이 바뀌는 경우, 설정된 영역에서 움직임 발생한 경우, 음원의 경우에 비정상적인 음원(예를 들어, 자동차 타이어 마찰음(스키드), 유리 깨지는 소리, 경보음, 충돌음 등) 발생, 사용자가 특정한 음원(예를 들어, 고함, 비명, 울음소리 등) 발생, 임계값 이상의 음성이 발생한 경우 등과 같이 사용자에 의해 설정된 사용자 이벤트를 포함할 수 있다.

데이터베이스(20)는 입력 동영상 및 동영상 분석 결과 등을 저장한다. 동영상의 분석 결과는 텍스트(text) 기반의 메타데이터 또는 영상(image) 기반의 메타데이터 형식으로 저장될 수 있다. 영상처리엔진(10)은 검색이 용이하도록 메타데이터를 구조화 및 정리하여 데이터베이스(20)에 저장할 수 있다.

쿼리 엔진(30)은 사용자로부터 입력 장치(60)를 통해 검색 조건을 입력받고, 검색 조건으로부터 사용자의 요구 사항을 분석하여 기 정의된 형태로 재구성한다. 예를 들어, 사용자는 입력 장치(60)를 통해 시간 구간, 객체의 카테고리(사람, 차량 등), 색상, 배경 영상의 특정 구역(관심 영역: ROI), 배경 영상의 특정 라인 및 특정 방향 등을 검색 조건으로 입력할 수 있다.

검색 엔진(40)은 검색 조건에 따라 데이터베이스(20)로 접근하여 필요한 정보를 찾을 수 있다. 검색 엔진(40)은 검색 조건에 매칭하는 또는 유사한 요약 영상을 데이터베이스(20)로부터 추출할 수 있다.

브라우징 엔진(50)은 검색된 요약 영상을 디스플레이 장치(70)에 실시간 렌더링할 수 있다. 브라우징 엔진(50)은 검색 조건에 매칭하는 객체별로 생성된 적어도 하나의 요약 영상을 객체의 출현 시간(등장 시간) 순서로 시간 축을 따라 정렬함으로써 디스플레이할 수 있다. 브라우징 엔진(50)은 복수의 요약 영상들을 3차원 공간 상의 각 레이어에 배치하여 3차원을 구성할 수 있다. 즉, 시간상 앞선 요약 영상이 시간상 뒤선 요약 영상보다 뒤 레이어에 배치된다.

앞 레이어의 요약 영상에 의해 뒤 레이어의 요약 영상이 적어도 일부 가려질 수 있고, 사용자는 요약 영상의 모니터링을 위해 이동 및/또는 회전할 수 있다. 브라우징 엔진(50)은 정렬된 요약 영상들의 뷰 포인트를 변경하는 제어신호를 입력받고, 각 요약 영상에 할당된 변환관계를 기초로 요약 영상별로 위치를 변경하여 디스플레이할 수 있다. 뷰 포인트 변경 제어신호는 예를 들어, 정의된 축을 중심으로 회전 또는 이동하는 마우스 또는 휠의 움직임, 화면 상의 터치 움직임 등일 수 있다. 사용자는 특정 레이어의 요약 영상을 관찰하기 위해서 레이어의 집합체를 3차원 공간에서 회전하거나 이동시킬 수 있다. 이에 따라 각 레이어의 요약 영상으로부터 관심 객체의 움직임 추이를 한 번에 확인할 수 있다.

본 발명의 실시예에서는 3차원을 평면(레이어)의 집합으로 모델링하고 각 평면에 독립적인 변환 관계를 할당할 수 있다. 여기에서 각 평면에 할당된 독립적인 변환은 어핀(Affine) 또는 호모그래피(Homography)와 같은 2차원 변환 관계를 이용할 수 있다. 본 발명의 실시예에서 3차원 표현은 몇 개의 평면으로 구성되기 때문에 사용자가 뷰 포인트를 변경했을 때 복수의 2차원 변환을 이용하여 고속으로 실시간 3차원 렌더링이 가능하다.

브라우징 엔진(50)은 정렬된 요약 영상들 중 선택된 일부 요약 영상을 병합하는 제어신호를 입력받고, 선택된 요약 영상들을 병합한 합성 요약 영상을 나머지 요약 영상들과 함께 정렬하여 디스플레이할 수 있다. 병합 제어신호는 예를 들어, 제1 요약 영상의 선택 및 제1 요약 영상을 제2 요약 영상으로 드래그 앤 드롭하는 동작일 수 있다. 브라우징 엔진(50)은 선택 및 드래그 앤 드롭 동작을 감지하고, 제1 요약 영상과 제2 요약 영상을 병합한 합성 요약 영상을 생성할 수 있다.

본 발명의 실시예에 따른 요약 영상은 합성 이미지 형태이며, 배경과 전경 및 전경의 시각화 요소로 이루어진다. 따라서, 둘 이상의 요약 영상을 하나의 요약 영상으로 병합(merge)할 수 있다. 브라우징 엔진(50)은 객체의 영상 블랍(Blob), 즉 세그먼트를 등장시간 및 위치를 이용하여, 동일 배경 영상에 렌더링(Rendering)할 수 있다. 이에 따라, 상이한 객체들 간의 상호작용기반 요약 영상을 제공할 수 있다.

브라우징 엔진(50)은 자동 설정에 의해 또는 사용자 선택에 의해 정렬된 요약 영상들 중 출현 유지 시간이 일부 중첩하는 적어도 하나의 요약 영상을 병합한 합성 요약 영상을 나머지 요약 영상들과 정렬하여 디스플레이할 수 있다.

브라우징 엔진(50)은 정렬된 요약 영상들을 카테고리별로 재정렬하는 제어신호를 입력받고, 정렬된 요약 영상들을 카테고리별로 재분류하고, 각 카테고리 내에서 객체 출현 시간 순서로 시간 축을 따라 정렬하여 디스플레이할 수 있다.

브라우징 엔진(50)은 정렬된 요약 영상들 중 요약 영상을 선택하는 제어신호를 입력받고, 선택된 요약 영상을 하이라이트하고, 나머지 요약 영상들 상부에 중첩하여 단독 디스플레이할 수 있다. 그리고, 브라우징 엔진(50)은 하이라이트된 요약 영상에 재생 아이콘을 제공하고, 재생 아이콘을 활성화하는 제어신호를 입력받고, 요약 영상 내 객체의 움직임을 연속적으로 재생할 수 있다. 또는 브라우징 엔진(50)은 재생될 요약 영상의 시간 구간을 포함하는 동영상을 재생시킬 수도 있다.

브라우징 엔진(50)은 정렬된 요약 영상들 중 적어도 하나의 요약 영상에 대한 배경을 제거하거나 배경을 추가하는 제어신호를 입력받고, 요약 영상별로 배경을 제거 또는 추가하여 디스플레이할 수 있다.

브라우징 엔진(50)은 검색 조건별로 검색된 요약 영상들을 클러스터링하는 제어신호를 입력받고, 하나 이상의 그룹으로 클러스터링할 수 있다. 클러스터에 포함되는 요약 영상의 수는 클러스터 크기를 나타내고, 클러스터의 크기는 해당 검색 조건의 발생 확률을 나타낸다.

사용자 단말(80)은 영상 브라우징 시스템(1)을 관리하는 사용자 또는 보안 관계자가 사용하는 단말로서, 컴퓨터 또는 이동 단말기일 수 있다. 사용자는 사용자 단말(80)을 통해 영상 브라우징 시스템(1)을 제어할 수 있다. 사용자 단말(80)은 영상 브라우징 시스템(1)에 질의(검색 조건)를 입력할 수 있는 사용자 인터페이스인 입력 장치(60)를 구비한다.

입력 장치(60)는 영상 브라우징 시스템(1)과 유선 또는 무선으로 연결되어 사용자가 영상 브라우징 시스템(1)의 동작 제어를 위한 입력 데이터를 발생시킨다. 입력 장치(60)는 키 패드(key pad), 돔 스위치(dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 마우스, 리모컨, 조그 휠, 조그 스위치 등으로 구성될 수 있다. 사용자 단말(80)은 입력 장치(60)를 사용하여 검색 조건을 수정, 추가, 또는 삭제를 수행하여, 결과 영상의 표시 조건을 설정할 수 있다. 사용자 단말(80)은 입력 장치(60)를 사용하여 표시된 결과 영상의 정렬, 병합, 재생 등을 조절할 수 있다.

디스플레이 장치(70)는 브라우징 엔진(50)으로부터 출력되는 결과 영상을 사용자에게 제공함으로써, 사용자가 표시되는 영상을 모니터링할 수 있도록 한다. 디스플레이 장치(70)는 시각적인 정보 및/또는 청각적인 정보를 사용자에게 제공할 수 있다. 디스플레이 장치(70)는 액정 디스플레이 패널(LCD), 유기 발광 디스플레이 패널(OLED), 전기 영동 디스플레이 패널(EPD) 등으로 이루어질 수 있다. 디스플레이 장치(70)는 사용자의 터치를 통하여 입력을 받을 수 있도록 터치스크린 형태로 구비되어, 입력 인터페이스로서 동작할 수 있다.

도 3은 본 발명의 실시예에 따른 영상 브라우징 방법을 개략적으로 도시한 흐름도이다. 도 4는 도 3의 요약 영상 생성 방법을 개략적으로 도시한 흐름도이다.

도 3 및 도 4를 함께 참조하면, 영상 브라우징 시스템은 입력 동영상으로부터 요약 영상을 생성할 수 있다(S31).

영상 브라우징 시스템은 복수의 영상 프레임으로부터 배경을 검출하여 배경 영상(background image)을 생성하고(S311), 객체의 움직임을 검출할 수 있다(S313).

영상 브라우징 시스템은 모든 영상 프레임에서 인식(Recognition), 움직임 검출(Motion detection)과 추적(Tracking) 기술을 이용하여 관심 물체를 시간상 연속적으로 추적하여, 관심 물체의 움직임 궤적(motion trajectory)을 추출 및 복원(recovery)할 수 있다(S315).

영상 브라우징 시스템은 복수의 영상 프레임으로부터 객체를 추출하여 일련의 객체 세그먼트를 생성할 수 있다(S317). 객체 세그먼트는 객체별로 특정 색상 또는 특정 도형으로 시각화될 수 있다.

영상 브라우징 시스템은 객체의 움직임 궤적을 따라 배경 영상에 일련의 객체 세그먼트를 합성하여 요약 영상을 생성할 수 있다(S319). 객체 세그먼트는 움직임 궤적을 따라 중복되지 않게 배치되고, 배경 영상에서의 위치에 따라 크기가 달라질 수 있다.

영상 브라우징 시스템은 추출된 관심 물체의 움직임 정보를 이용하여 입력 영상에서 관심 물체 영역을 분리한 후, 최종적으로 배경 영상과 합성하여 관심 객체에 해당하는 요약 영상을 생성할 수 있다.

도 5를 참조하면, 하나의 요약 영상은 하나의 객체의 움직임 요약을 나타낸다. 따라서, 요약 영상의 수는 검출한 객체의 수에 대응할 수 있다. 도 5의 예에서는 08시 00분부터 09시 25분까지 6명의 사람(Person 1 내지 Person 6)과 5대의 차량(Car 1 내지 Car5)이 등장했다 사라지고, 따라서 11개의 요약 영상이 생성되었다. 각 객체의 동선을 따라 배경 영상에 합성된 객체 세그먼트는 객체별로 상이한 색상 또는 상이한 도형으로 표시될 수 있다. 그리고, 배경 영상에서 객체의 위치에 따라 세그먼트의 크기가 달라질 수 있다.

각 요약 영상은 특정 색상의 테두리로 둘러싼 표시 영역과 객체의 정보를 나타내는 텍스트 영역을 포함할 수 있다. 동일한 카테고리에 속하는 객체들의 요약 영상은 동일한 색상의 테두리로 표시될 수 있다. 도 5는 사람이 푸른색 테두리(옅은 윤곽선)로 표시되고, 차량이 붉은색 테두리(짙은 윤곽선)로 표시된 예이다. 텍스트 영역에는 객체의 카테고리에 대한 정보, 출현 유지 시간, 객체 세그먼트의 색상 등이 객체의 정보로서 표시될 수 있다. 도 5에서는 표시 영역만이 색상을 갖는 테두리로 구분되고 있으나, 텍스트 영역 또한 표시 영역과 동일한 색상의 테두리로 둘러싸도록 설정할 수도 있다. 동일한 카테고리에 속하는 객체들은 색상 및/또는 넘버링에 의해 구분될 수 있다. 요약 영상의 두께는 출현 유지 시간에 비례할 수 있다. 예를 들어, 출현 유지 시간이 길수록 요약 영상의 두께는 두꺼워진다. 즉, 요약 영상은 원본 동영상에서 추출된 각 객체 동선의 시공간 볼륨(Spatio-temporal Volume)을 나타낸다.

다시 도 3을 참조하면, 영상 브라우징 시스템은 객체별로 생성된 요약 영상들을 객체의 출현 시간 순서로 시간 축을 따라 정렬하여 디스플레이할 수 있다(S35). 영상 브라우징 시스템은 검색 조건에 매칭하는 적어도 하나의 요약 영상들을 검출하여 디스플레이할 수 있다.

영상 브라우징 시스템은 3차원 공간에 객체별 요약 영상을 레이어별로 배치할 수 있다. 즉, 하나의 레이어는 하나의 관심 객체를 나타내고, 시간적으로 먼저 출현한 객체의 요약 영상은 3차원 공간에서 뒤 레이어에 배치하고, 나중에 출현한 객체의 요약 영상은 앞 레이어에 배치한다.

본 발명의 실시예에 따른 3차원 브라우징 방법은 객체별로 한 장의 요약 영상을 생성하고, 생성된 요약 영상을 3차원 공간의 각 레이어에 시간 순서로 배치하여 사용자의 편의성을 도모할 수 있다.

도 6을 참조하면, 시간적으로 먼저 출현한 객체의 요약 영상은 3차원 공간에서 가장 뒤 레이어에 배치되고, 가장 나중에 출현한 객체는 가장 앞 레이어에 배치된다. 각 요약 영상은 출현 유지 시간에 따라 상이한 두께를 가질 수 있다. 화면의 좌하단에는 카테고리별 색상에 대한 설명이 직관적으로 표시될 수 있다.

영상 브라우징 시스템은 설정에 따라 또는 사용자 입력에 따라 정렬된 요약 영상들의 디스플레이를 변경할 수 있다(S39).

사용자는 모든 레이어의 요약 영상을 효과적으로 보기 위해서, 3차원 뷰 포인트를 변경할 수 있다. 영상 브라우징 시스템은 사용자에 의해 입력되는 뷰 포인트 변경 입력을 수신하고, 각 레이어별(요약 영상별)로 독립적으로 3차원 회전 및/또는 이동시켜 실시간으로 렌더링할 수 있다. 영상 브라우징 시스템은 각 레이어에 독립적인 변환 관계를 할당함으로써 특정 레이어 또는 복수의 레이어의 요약 영상을 선택하고 이동시키거나 숨길 수 있다.

정렬된 요약 영상은 기 정해진 복수의 축을 기준으로 회전/이동이 가능하다. 도 7(a)에 도시된 바와 같이, 화면의 정면에 일렬로 정렬된 요약 영상들 각각에는 변환관계(H1, H2, ... Hn-1, Hn)가 설정되어, 도 7(b)에 도시된 바와 같이, 요약 영상별로 설정된 변환관계에 따라 개별적으로 또는 일괄적으로 회전 및/또는 이동될 수 있다.

영상 브라우징 시스템은 정렬된 요약 영상들을 카테고리별로 재정렬하는 요청을 수신하고, 객체의 카테고리별로 분류하여, 각 카테고리 내에서 객체 출현 시간 순서로 시간 축을 따라 정렬하여 디스플레이할 수 있다.

도 8은 본 발명의 실시예에 따른 화면에 정렬된 요약 영상을 카테고리별로 재정렬된 예를 도시한다. 도 8은 정렬된 요약 영상을 사람과 차량으로 분류하여 재정렬한 결과를 보여 주는 예시도이다.

또한 영상 브라우징 시스템은 영상 요약의 분류를 검색 조건과 연동함으로써 사용자의 편의성을 확보할 수 있다. 예를 들어, 검색 조건에 색상이 있을 경우, 요약 영상들을 색상에 따라 분류하여 시각화할 수 있다. 따라서, 영상 브라우징 시스템은 사용자가 요구하는 검색 조건과 부합한 분류 시각화를 제공할 수 있다.

영상 브라우징 시스템은 정렬된 요약 영상들 둘 이상의 요약 영상들의 병합 요청을 수신하고, 선택된 요약 영상들을 병합한 합성 요약 영상을 생성하고, 나머지 요약 영상들과 정렬하여 디스플레이할 수 있다.

하나의 레이어의 요약 영상은 하나의 객체 정보를 담고 있다. 사용자가 복수의 객체들(예를 들어, 차량과 차량, 또는 차량과 사람) 사이의 상호작용(interaction)을 검색하고자 하는 경우, 영상 브라우징 시스템은 복수의 레이어의 요약 영상들을 병합하여 하나의 레이어의 요약 영상에 복수의 객체 정보를 표시할 수 있다. 이때, 사용자는 병합될 레이어의 요약 영상을 선택하고(예를 들어, 마우스 클릭), 병합할 레이어의 요약 영상으로 드래그 앤 드롭함으로써, 두 요약 영상을 하나의 레이어의 요약 영상으로 병합할 수 있다.

도 9는 인접한 두 개 레이어, 네 번째 및 다섯 번째 요약 영상들이 병합된 합성 요약 영상과, 열 번째 및 열한 번째 요약 영상들이 병합된 합성 요약 영상을 도시한다. 사용자가 레이어 상에서 마우스를 옮기는 행위에 따라 선택된 요약 영상들이 병합될 수도 있다. 또는 자동으로 시간 구간이 일부 중첩하는 복수의 요약 영상들이 병합될 수도 있다. 이에 따라, 사용자는 객체별 움직임뿐만 아니라 상이한 객체들 간의 상호작용을 파악할 수 있다.

합성 요약 영상은 병합 전 요약 영상 각각의 두께를 합한 두께를 가질 수 있다. 상이한 카테고리의 객체에 대한 요약 영상들이 병합된 경우, 합성 요약 영상의 테두리는 카테고리별 테두리 색상을 모두 표시할 수 있다.

합성 요약 영상은 사용자가 확인할 수 있도록 화면의 일부 또는 전부에 디스플레이되거나, 순간적으로 하이라이트 되거나, 타 요약 영상들 상부에 배치될 수 있다.

영상 브라우징 시스템은 정렬된 요약 영상들 중 요약 영상의 선택을 수신하고, 선택된 요약 영상을 하이라이트하고, 나머지 요약 영상들과 중첩하여 단독 디스플레이할 수 있다. 이때 영상 브라우징 시스템은 하이라이트된 요약 영상에 재생 아이콘을 제공하고, 재생 아이콘을 활성화하는 선택이 수신되면, 선택된 요약 영상 내 객체의 움직임을 연속적으로 재생할 수 있다. 또는 영상 브라우징 시스템은 재생될 요약 영상의 시간 구간을 포함하는 동영상을 재생시킬 수도 있다.

도 10을 참조하면, 사용자가 관심을 가지는 레이어의 요약 영상을 선택했을 때, 선택된 요약 영상이 하이라이트(Highlight)되고, 재생 아이콘의 활성화에 따라 요약 영상 내의 객체가 움직임 궤적을 따라 움직이는 동작을 재생할 수 있다. 또는 재생 아이콘의 활성화에 따라 해당 요약 영상의 시간 구간의 원본 동영상을 재생할 수도 있다.

영상 브라우징 시스템은 정렬된 요약 영상들 중 적어도 하나의 요약 영상에 대한 배경 제거 또는 배경 추가 요청을 수신하고, 적어도 하나의 요약 영상의 배경을 제거 또는 추가하여 디스플레이할 수 있다.

도 11을 참조하면, 배경 영상은 제거되고, 관심 객체만 디스플레이되고 있다. 사용자가 관심 있는 레이어의 요약 영상을 다시 선택하면, 선택된 요약 영상에 배경 영상이 추가될 수 있다. 도 11의 예에서는 가장 하부 레이어의 요약 영상에만 배경 영상이 표시되고, 나머지 요약 영상들에는 배경 영상이 제거되어 있다.

영상 브라우징 시스템은 검색 조건별로 검색된 요약 영상들을 클러스터링할 수 있다. 사용자에 의해 클러스터링 요청이 수신되면, 영상 브라우징 시스템은 각 검색 조건에 해당되는 요약 영상의 개수, 즉 객체 수를 통해 클러스터를 구성하고 이를 시각화함으로써, 각 검색 조건에 대한 내용파악이 가능하다. 각 클러스터의 크기는 해당 검색 조건의 발생 확률을 나타낸다. 이에 따라 클러스터의 크기에 따라 해당 검색 조건에 따른 발생 확률과 내용 경향성을 한눈에 파악할 수 있다.

도 12는 제1 검색 조건(사람)에 따라 검색된 결과의 요약 영상들의 클러스터(a), 제2 검색 조건(차량)에 따라 검색된 결과의 요약 영상들의 클러스터(b), 제3 검색 조건(기차)에 따라 검색된 결과의 요약 영상들의 클러스터(c)를 도시하고 있다. 사용자는 검색 조건의 클러스터 크기로부터 검색 조건의 발생 확률을 파악하여 내용 경향성을 알 수 있다.

본 발명의 실시예는 요약 영상이 축약된 동영상이 아니라 객체 기반의 이미지이므로, 객체의 동향을 한눈에 파악할 수 있고, 3차원 구조로 정렬됨으로써 사용자 편의성을 도모할 수 있다.

본 발명에 따른 요약 영상 브라우징 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

Claims

입력 동영상으로부터 객체의 움직임 궤적을 추적하는 단계;

상기 입력 동영상으로부터 상기 객체를 추출하여 일련의 객체 세그먼트를 생성하는 단계; 및

상기 객체의 움직임 궤적을 따라 배경 영상에 상기 일련의 객체 세그먼트가 합성되고 상기 객체의 출현 시간에 따른 두께를 갖는 요약 영상을, 상기 입력 동영상에서 추출된 객체별로 생성하는 단계;를 포함하는, 요약 영상 브라우징 방법.
제1항에 있어서,

상기 요약 영상은 표시 영역과 상기 객체의 정보를 나타내는 텍스트 영역을 포함하고, 상기 표시 영역의 테두리는 상기 객체의 카테고리에 따라 특정 색상이 할당된, 요약 영상 브라우징 방법.
제1항에 있어서,

상기 객체 세그먼트는 상기 객체의 움직임 궤적을 따라 상기 배경 영상에 중복되지 않게 배치되고,

상기 객체 세그먼트는 특정 색상 또는 특정 도형으로 표시되고, 상기 배경 영상에서의 위치에 따라 크기가 달라지는, 요약 영상 브라우징 방법.
제1항에 있어서,

객체별로 생성된 요약 영상들 중 검색 조건에 매칭하는 적어도 하나의 요약 영상을 상기 객체의 출현 시간 순서로 시간 축을 따라 정렬하여 디스플레이하는 단계;를 더 포함하는, 요약 영상 브라우징 방법.
제4항에 있어서,

상기 정렬된 요약 영상들의 뷰 포인트를 변경하는 입력을 수신하는 단계; 및

각 요약 영상에 할당된 변환관계를 기초로 요약 영상별로 회전 및 이동하여 디스플레이하는 단계;를 더 포함하는, 요약 영상 브라우징 방법.
제4항에 있어서,

상기 정렬된 요약 영상들 중 제1 요약 영상을 제2 요약 영상으로 드래그 앤 드롭하는 동작을 감지하는 단계; 및

상기 제1 요약 영상을 상기 제2 요약 영상과 병합한 합성 요약 영상을 나머지 요약 영상들과 정렬하여 디스플레이하는 단계;를 더 포함하는, 요약 영상 브라우징 방법.
제4항에 있어서,

상기 정렬된 요약 영상들 중 출현 유지 시간이 일부 중첩하는 적어도 하나의 요약 영상을 병합한 합성 요약 영상을 나머지 요약 영상들과 정렬하여 디스플레이하는 단계;를 더 포함하는, 요약 영상 브라우징 방법.
제7항에 있어서, 상기 합성 요약 영상 디스플레이 단계는,

상기 정렬된 요약 영상들 중 사용자에 의해 선택된 요약 영상과 출현 유지 시간이 일부 중첩하는 적어도 하나의 요약 영상을 병합한 합성 요약 영상을 나머지 요약 영상들과 정렬하여 디스플레이하는 단계;를 포함하는, 요약 영상 브라우징 방법.
제4항에 있어서,

상기 정렬된 요약 영상들을 카테고리별로 재정렬하는 요청을 수신하는 단계; 및

상기 정렬된 요약 영상들을 카테고리별로 분류하고, 각 카테고리 내에서 객체 출현 시간 순서로 시간 축을 따라 정렬하여 디스플레이하는 단계;를 더 포함하는, 요약 영상 브라우징 방법.
제4항에 있어서,

상기 정렬된 요약 영상들 중 요약 영상의 선택을 수신하는 단계; 및

상기 선택된 요약 영상을 하이라이트하고, 나머지 요약 영상들과 중첩하여 단독 디스플레이하는 단계;를 더 포함하는, 요약 영상 브라우징 방법.
제10항에 있어서,

상기 하이라이트된 요약 영상에 재생 아이콘을 제공하는 단계; 및

상기 재생 아이콘의 선택이 수신되면, 상기 요약 영상의 객체를 시간 순서로 재생하는 단계;를 더 포함하는, 요약 영상 브라우징 방법.
제4항에 있어서,

상기 정렬된 요약 영상들 중 적어도 하나의 요약 영상에 대한 배경 제거 또는 배경 추가 요청을 수신하는 단계; 및

상기 적어도 하나의 요약 영상의 배경을 제거 또는 추가하여 디스플레이하는 단계;를 더 포함하는, 요약 영상 브라우징 방법.
제4항에 있어서,

검색 조건별로 검색된 요약 영상들을 클러스터링하는 단계;를 더 포함하는, 요약 영상 브라우징 방법.
입력 동영상으로부터 객체의 움직임 궤적을 추적하고, 상기 객체를 추출하여 일련의 객체 세그먼트를 생성하는 객체추출부; 및

상기 객체의 움직임 궤적을 따라 배경 영상에 상기 일련의 객체 세그먼트가 합성되고 상기 객체의 출현 시간에 따른 두께를 갖는 요약 영상을, 상기 입력 동영상에서 추출된 객체별로 생성하는 요약영상생성부;를 포함하는, 요약 영상 브라우징 시스템.
제14항에 있어서,

상기 요약 영상은 표시 영역과 상기 객체의 정보를 나타내는 텍스트 영역을 포함하고, 상기 표시 영역의 테두리는 상기 객체의 카테고리에 따라 특정 색상이 할당되고,

상기 객체 세그먼트는 상기 객체의 움직임 궤적을 따라 상기 배경 영상에 중복되지 않게 배치되고,

상기 객체 세그먼트는 특정 색상 또는 특정 도형으로 표시되고, 상기 배경 영상에서의 위치에 따라 크기가 달라지는, 요약 영상 브라우징 시스템.
제14항에 있어서,

객체별로 생성된 요약 영상들 중 검색 조건에 매칭하는 적어도 하나의 요약 영상을 상기 객체의 출현 시간 순서로 시간 축을 따라 정렬하여 디스플레이하는 브라우징 엔진;을 더 포함하는, 요약 영상 브라우징 시스템.
제16항에 있어서, 상기 브라우징 엔진은,

상기 정렬된 요약 영상들의 뷰 포인트 변경 요청에 응답하여, 각 요약 영상에 할당된 변환관계를 기초로 요약 영상별로 회전 및 이동하여 디스플레이하는, 요약 영상 브라우징 시스템.
제16항에 있어서, 상기 브라우징 엔진은,

사용자의 선택 또는 객체의 출현 유지 시간의 일부 중첩에 따라, 상기 정렬된 요약 영상들 중 일부 요약 영상을 병합한 합성 요약 영상을 나머지 요약 영상들과 정렬하여 디스플레이하는, 요약 영상 브라우징 시스템.
제16항에 있어서, 상기 브라우징 엔진은,

상기 정렬된 요약 영상들 중 선택된 요약 영상을 하이라이트하여 나머지 요약 영상들과 중첩하여 단독 디스플레이하고,

상기 하이라이트된 요약 영상에 재생 아이콘을 제공하고, 상기 재생 아이콘의 선택이 수신되면, 상기 요약 영상 내의 객체를 시간 순서로 재생하는, 요약 영상 브라우징 시스템.
제16항에 있어서, 상기 브라우징 엔진은,

검색 조건별로 검색된 요약 영상들을 클러스터링하는, 요약 영상 브라우징 시스템.