KR20160097870A

KR20160097870A - 요약 영상 브라우징 시스템 및 방법

Info

Publication number: KR20160097870A
Application number: KR1020150020291A
Authority: KR
Inventors: 백영민; 김대환; 전승선; 김지성
Original assignee: 한화테크윈 주식회사
Priority date: 2015-02-10
Filing date: 2015-02-10
Publication date: 2016-08-18
Also published as: US10073910B2; US20160232234A1; KR20220031599A; CN105872452A; KR102375864B1; CN105872452B; KR102437839B1

Abstract

본 발명의 실시예는 요약 영상 브라우징 시스템 및 방법을 개시한다.
본 발명의 실시예에 따른 요약 영상 브라우징 방법은, 입력 동영상으로부터 적어도 하나의 객체를 추적하는 단계; 상기 입력 동영상으로부터 상기 적어도 하나의 객체의 대표 영상 프레임을 선정하는 단계; 및 상기 적어도 하나의 객체의 대표 영상 프레임으로부터 추출된 객체 세그먼트를 합성한 요약 정지 영상을 생성하는 단계;를 포함한다.

Description

요약 영상 브라우징 시스템 및 방법{System and method for browsing summary image}

본 발명의 실시예는 요약 영상 브라우징 시스템 및 방법에 관한 것이다.

영상(이미지), 비디오 등 멀티미디어 서비스의 수요가 증가하고 휴대용 멀티미디어 기기가 보편적으로 보급되면서 방대한 양의 멀티미디어 데이터를 관리하고 소비자가 원하는 컨텐츠를 빠르고 정확하게 찾아내 제공하는 효율적인 멀티미디어 검색 및 브라우징 시스템의 필요성도 커지고 있다.

한국등록특허 10-0547370호

본 발명은 사용자가 편리하게 검색 결과를 파악할 수 있는 영상 브라우징 시스템 및 브라우징 방법을 제공하고자 한다.

본 발명의 실시예에 따른 요약 영상 브라우징 방법은, 입력 동영상으로부터 적어도 하나의 객체를 추적하는 단계; 상기 입력 동영상으로부터 상기 적어도 하나의 객체의 대표 영상 프레임을 선정하는 단계; 및 상기 적어도 하나의 객체의 대표 영상 프레임으로부터 추출된 객체 세그먼트를 합성한 요약 정지 영상을 생성하는 단계;를 포함한다.

상기 대표 영상 프레임 선정 단계는, 적어도 하나의 객체 선별 조건에 대해 가장 높은 스코어를 갖는 영상 프레임을 대표 영상 프레임으로 선정하는 단계;를 포함할 수 있다.

상기 요약 정지 영상 내의 객체 세그먼트의 크기 및 위치는 상기 대표 영상 프레임 내 객체 세그먼트의 크기 및 위치에 대응할 수 있다.

상기 요약 정지 영상 생성 단계는, 상기 요약 정지 영상에 설정된 최대 객체의 개수에 따라 상기 요약 정지 영상을 상기 객체의 출현 시간을 따르는 시간 순서로 적어도 하나 이상 생성하는 단계;를 포함할 수 있다.

상기 방법은, 상기 요약 정지 영상 내에서 객체의 선택 신호에 응답하여, 상기 선택된 객체의 움직임에 대한 프리뷰 영상을 제공하는 단계;를 더 포함할 수 있다.

상기 방법은, 상기 프리뷰 영상의 선택 신호에 응답하여, 상기 선택된 객체의 움직임을 시간 순서로 재생하는 단계;를 더 포함할 수 있다.

상기 방법은, 요약 정지 영상의 검색 조건을 수신하는 단계; 및 상기 대표 영상 프레임의 메타데이터를 생성하는 단계;를 더 포함할 수 있다.

상기 대표 영상 프레임 선정 단계는 상기 요약 정지 영상 요청 수신 단계에 선행하거나, 상기 메타데이터 생성 단계에 후행할 수 있다.

본 발명의 실시예에 따른 요약 영상 브라우징 시스템은, 입력 동영상으로부터 적어도 하나의 객체를 추적하고, 상기 적어도 하나의 객체의 대표 영상 프레임을 선정하는 영상 처리 엔진; 및 상기 적어도 하나의 객체의 대표 영상 프레임으로부터 추출된 객체 세그먼트를 합성한 요약 정지 영상을 출력하는 브라우징 엔진;을 포함한다.

상기 영상 처리 엔진은, 적어도 하나의 객체 선별 조건에 대해 가장 높은 스코어를 갖는 영상 프레임을 대표 영상 프레임으로 선정할 수 있다.

상기 브라우징 엔진은, 상기 요약 정지 영상에 설정된 최대 객체의 개수에 따라 상기 요약 정지 영상을 상기 객체의 출현 시간을 따르는 시간 순서로 적어도 하나 이상 생성할 수 있다.

상기 브라우징 엔진은, 상기 요약 정지 영상 내에서 객체의 선택 신호에 응답하여, 상기 선택된 객체의 움직임에 대한 프리뷰 영상을 제공할 수 있다.

상기 브라우징 엔진은, 상기 프리뷰 영상의 선택 신호에 응답하여, 상기 선택된 객체의 움직임을 시간 순서로 재생할 수 있다.

상기 시스템은, 요약 정지 영상의 검색 조건을 수신하는 쿼리엔진;을 더 포함할 수 있다.

상기 영상처리엔진은, 상기 요약 정지 영상의 검색 조건이 수신되기 전에 또는 수신된 후에 상기 대표 영상 프레임의 메타데이터를 생성할 수 있다.

본 발명의 실시예는 객체 기반 요약 정지 영상을 생성함으로써 다수의 객체를 한눈에 파악할 수 있고, 사용자 편의성을 도모할 수 있다.

도 1은 본 발명의 실시 예에 따른 영상 브라우징 시스템을 개략적으로 도시한 블록도이다.
도 2는 도 1의 영상처리엔진을 개략적으로 도시한 블록도이다.
도 3은 본 발명의 실시예에 따른 영상 브라우징 방법을 개략적으로 도시한 흐름도이다.
도 4 및 도 5는 본 발명의 실시예에 따라 입력 동영상으로부터 생성된 요약 정지 영상의 예를 도시한다.
도 6은 본 발명의 실시예에 따른 요약 정지 영상이 표시된 화면을 도시한 예이다.
도 7은 본 발명의 다른 실시예에 따른 영상 브라우징 방법을 개략적으로 도시한 흐름도이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

이하의 실시예에서, 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

이하의 실시예에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 이하의 실시예에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 발명의 실시예들은 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 발명의 실시예들은 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩업 테이블(look-up table) 등과 같은 직접 회로 구성들을 채용할 수 있다. 본 발명의 실시예의 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 본 발명의 실시예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 발명의 실시예들은 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. 매커니즘, 요소, 수단, 구성과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.

도 1은 본 발명의 실시 예에 따른 영상 브라우징 시스템을 개략적으로 도시한 블록도이다. 도 2는 도 1의 영상처리엔진을 개략적으로 도시한 블록도이다.

도 1을 참조하면, 영상 브라우징 시스템(1)은 검색 결과를 사용자에게 보여주고, 사용자가 검색 결과를 파악할 수 있도록 하는 일련의 과정을 수행할 수 있다. 영상 브라우징 시스템(1)은 영상처리엔진(10), 데이터베이스(20), 쿼리엔진(30), 검색엔진(40) 및 브라우징엔진(50)을 포함할 수 있다.

영상처리엔진(10)은 입력 동영상(video) 내에서 객체의 등장과 사라짐, 객체의 움직임 감지, 영상 꺼짐 등과 같은 영상 분석을 수행할 수 있다. 또한 영상처리엔진(10)은 배경 검출, 전경 및 객체 검출, 객체 카운팅, 카메라 탬퍼링(camera tampering) 검출, 얼굴 검출 등을 수행할 수 있다. 또한 영상처리엔진(10)은 영상의 밝기(brightness), 색상(color), 질감(texture) 및 윤곽선(shape) 정보도 산출할 수 있다.

입력 동영상은 영상 브라우징 시스템(1)에 연결된 영상 센서인 카메라(미도시)로부터 직접 전송된 동영상일 수 있고, 영상 브라우징 시스템(1)에 연결된 디지털 비디오 레코더(DVR: digital video recorder) 또는 네트워크 비디오 레코더(NVR: network video recorder)에 저장된 동영상일 수 있고, 또는 네트워크(미도시)를 통하여 다양한 경로로 입력되는 동영상일 수 있다.

영상처리엔진(10)은 객체 추적부(101) 및 대표 영상 선정부(103)를 포함할 수 있다.

객체 추적부(101)는 입력 동영상을 구성하는 복수의 영상 프레임(image frame)으로부터 움직임 영역을 관심 객체로 판단하고, 객체의 움직임 궤적을 추적할 수 있다. 객체 추적부(101)는 연속되는 영상 프레임 간의 객체 변화에 대한 정보를 수집해 나감으로써 동영상 내에서의 객체에 대한 추적 정보를 획득할 수 있다.

대표 영상 선정부(103)는 객체의 추적된 움직임 궤적을 따르는 영상 프레임들 중 기 설정된 선별 조건을 고려하여 대표 영상 프레임을 선정할 수 있다. 선별 조건은 사용자에 의해 다양하게 설정될 수 있다. 선별 조건은 객체의 외형 및 타 객체와의 위치 관계(객체 간 겹침 정도)를 포함할 수 있다. 예를 들어, 대표 영상 선정부(103)는 사람인지 차량인지를 판단하고, 사람인 경우 얼굴이 검출된 영상 프레임, 차량인 경우 번호판이 보이는 영상 프레임을 우선 선별할 수 있다. 대표 영상 선정부(103)는 객체의 크기가 큰 영상 프레임을 우선 선별할 수 있다. 대표 영상 선정부(103)는 블러(blur) 효과가 최소인 영상 프레임을 우선 선별할 수 있다. 대표 영상 선정부(103)는 타 객체와의 겹침(occlusion)이 없거나 겹침이 최소인 영상 프레임을 우선 선별할 수 있다. 대표 영상 선정부(103)는 사용자가 지정한 이벤트가 검출된 영상 프레임을 우선 선별할 수 있다. 이벤트는 특정 행동, 특정 음성 등을 포함할 수 있다. 객체 선별 조건은 객체의 식별력을 높여주므로, 대표 영상 프레임을 선별함으로써 사용자가 용이하게 객체를 식별하도록 할 수 있다. 선별 조건은 하나 또는 둘 이상 설정될 수 있다. 대표 영상 선정부(103)는 하나 또는 다수의 선별 조건들 각각에 대해 스코어를 설정하고, 객체별로 최종 스코어가 가장 높은 영상 프레임을 대표 영상 프레임으로 선정할 수 있다. 선별 조건에 대한 스코어는 사용자가 고려하는 우선순위에 따라 동일 또는 상이하게 설정될 수 있다. 예를 들어, 객체의 크기, 블러 효과, 겹침 정도를 선별 조건으로 하고, 각 선별 조건에 스코어가 설정된다. 객체별로 각 영상 프레임에 대해 만족하는 선별 조건의 스코어가 합산되고, 합산 결과 가장 높은 스코어를 갖는 영상 프레임이 대표 영상 프레임으로 선정될 수 있다.

대표 영상 선정부(103)는 객체별로 선정된 대표 영상 프레임으로부터 객체를 추출하여 객체 세그먼트를 생성할 수 있다. 객체 세그먼트는 객체를 둘러싸는 소정 사이즈의 블럭일 수 있다. 대표 영상 선정부(103)는 대표 영상 프레임의 시간정보(타임스탬프) 및 대표 영상 프레임 내 객체의 위치에 대한 메타데이터를 생성할 수 있다.

대표 영상 선정부(103)는 동영상이 입력되면 객체 추적 결과를 고려하여 선별 조건에 따라 객체별로 대표 영상 프레임을 선정하여 메타데이터를 생성 및 저장할 수 있다. 또는 대표 영상 선정부(103)는 동영상이 입력되고, 요약 정지 영상의 요청이 있으면, 입력 동영상 내의 객체들 간의 위치 관계를 추가 고려하여 선별 조건에 따라 객체별로 대표 영상 프레임을 선정하여 메타데이터를 생성 및 저장할 수 있다.

데이터베이스(20)는 입력 동영상 및 동영상 분석 결과 등을 저장한다. 동영상의 분석 결과는 텍스트(text) 기반의 메타데이터 또는 영상(image) 기반의 메타데이터 형식으로 저장될 수 있다. 영상처리엔진(10)은 검색이 용이하도록 메타데이터를 구조화 및 정리하여 데이터베이스(20)에 저장할 수 있다.

데이터베이스(20)는 영상 데이터베이스(201) 및 메타데이터 데이터베이스(203)를 포함할 수 있다. 입력 동영상 및 객체별 동영상(즉, 객체의 동선을 따르는 일련의 영상 프레임들)은 영상 데이터베이스(201)에 저장될 수 있다. 객체별 대표 영상 프레임의 시간정보 및 대표 영상 프레임 내 객체의 위치에 대한 메타데이터는 메타데이터 데이터베이스(203)에 저장될 수 있다. 또한 객체별 동영상에 대한 시간정보(타임스탬프)가 메타데이터 데이터베이스(203)에 저장될 수 있다. 또한 대표 영상 프레임으로부터 추출된 객체 세그먼트가 영상 기반의 메타데이터 형식으로 메타데이터 데이터베이스(203)에 저장될 수 있다.

또한, 영상처리엔진(10)은 복수의 영상 프레임에서 정지 영역을 배경으로 판단하고 배경 영상을 생성할 수 있다. 본 발명의 실시예에서 배경 영상 생성 방법은 특별히 제한되지 않으며, 다양한 공지의 방법을 적용할 수 있다.

또한, 영상처리엔진(10)은 영상 분석을 수행하여 설정된 이벤트 발생 조건에 만족하는 경우 이벤트를 발생시킬 수 있다. 여기서 이벤트라 함은, 네트워크 에러가 발생한 경우, 새로운 카메라가 설정된 경우 등과 같이 시스템 내부에 설정된 시스템 이벤트를 포함할 수 있다. 또한 객체의 출현, 사용자가 특정한 영상(예를 들어, 얼굴 인식이 불가능한 얼굴 등장) 발생, 화면 색깔이 바뀌는 경우, 설정된 영역에서 움직임 발생한 경우, 음원의 경우에 비정상적인 음원(예를 들어, 자동차 타이어 마찰음(스키드), 유리 깨지는 소리, 경보음, 충돌음 등) 발생, 사용자가 특정한 음원(예를 들어, 고함, 비명, 울음소리 등) 발생, 임계값 이상의 음성이 발생한 경우 등과 같이 사용자에 의해 설정된 사용자 이벤트를 포함할 수 있다.

쿼리 엔진(30)은 사용자로부터 입력 장치(60)를 통해 검색 조건을 입력받고, 검색 조건으로부터 사용자의 요구 사항을 분석하여 기 정의된 형태로 재구성한다. 예를 들어, 사용자는 입력 장치(60)를 통해 시간 구간, 객체 카테고리, 색상, 감시 영역 내의 관심 영역(ROI), 감시 영역 내의 특정 라인 및 특정 방향 등을 검색 조건으로 입력할 수 있다. 시간 구간은 예를 들어, 년월일시로 설정될 수 있다. 객체 카테고리는 객체 유형(사람, 차량, 동물 등), 특정 객체(홍길동, 흰색 차량, 고양이 등) 등으로 설정될 수 있다.

검색 엔진(40)은 재구성된 검색 조건을 수신하고, 검색 조건에 따라 데이터베이스(20)로 접근하여 필요한 정보를 찾을 수 있다. 검색 엔진(40)은 검색 조건에 대응하는 메타데이터 및 영상 프레임을 추출할 수 있다.

브라우징 엔진(50)은 검색 엔진(40)으로부터 객체별 대표 영상 프레임의 객체 세그먼트 및 배경 영상을 수신하고, 배경 영상에 객체 세그먼트를 합성하여 요약 정지 영상을 생성할 수 있다. 배경 영상은 입력 동영상으로부터 생성된 배경 영상 또는 임의의 정지 영상일 수 있다.

브라우징 엔진(50)은 배경과 전경(객체)의 뚜렷한 구별을 위해 시각화(visualization)를 수행할 수 있다. 시각화의 예로서, 객체를 특정 색상으로 표시하거나 특정 도형(사각형, 원형 등)으로 표시할 수 있다. 요약 정지 영상은 동영상 내 객체의 개수 및 객체 간의 겹침을 고려하여 하나 이상 생성될 수 있다. 둘 이상의 요약 정지 영상은 객체의 출현 시간(등장 시간)에 대응하는 시간 순서를 유지할 수 있다. 요약 정지 영상에는 객체의 정보를 나타내는 텍스트가 포함될 수 있다. 객체 정보는 객체의 카테고리(예를 들어, 사람, 차량, 동물 등)에 대한 정보, 출현 유지 시간, 객체 세그먼트의 색상 등을 포함할 수 있다.

브라우징 엔진(50)은 요약 정지 영상을 디스플레이(70)에 실시간 렌더링할 수 있다. 브라우징 엔진(50)은 검색 조건에 매칭하는 다수의 객체가 표시된 적어도 하나의 요약 정지 영상을 디스플레이할 수 있다. 브라우징 엔진(50)은 다수의 요약 정지 영상들을 객체의 출현 시간을 기초로 시간 순서로 정렬할 수 있다. 예를 들어, 시간상 앞선 요약 정지 영상을 시간상 뒤선 요약 정지 영상보다 앞 또는 뒤에 배치할 수 있다. 브라우징 엔진(50)은 요약 정지 영상의 한 화면이 꽉 찼다고 판단되면, 다음 요약 정지 영상을 생성한다. 브라우징 엔진(50)은 요청한 시간 구간 내의 모든 객체가 정지 영상으로 요약될 때까지 요약 정지 영상의 생성을 반복한다.

브라우징 엔진(50)은 다수의 객체 세그먼트들을 출현 시간 및 위치를 이용하여, 동일 배경 영상에 렌더링(Rendering)할 수 있다. 이에 따라, 상이한 객체들 간의 상호작용기반 요약 정지 영상을 제공할 수 있다.

브라우징 엔진(50)은 요약 정지 영상 내 특정 객체가 선택되면, 선택된 객체의 동영상을 프리뷰(preview) 영상으로 제공할 수 있다. 프리뷰 영상은 말풍선 도움말 형태로 선택된 객체의 주변에 제공될 수 있다. 브라우징 엔진(50)은 프리뷰 영상이 선택되면, 객체의 동영상이 재생되도록 할 수 있다. 이로써 사용자는 관심 있는 객체를 신속하게 검색함과 동시에 해당 시간 구간에 어떤 이벤트가 발생하였는지를 신속하게 확인할 수 있다.

사용자 단말(80)은 영상 브라우징 시스템(1)을 관리하는 사용자 또는 보안 관계자가 사용하는 단말로서, 컴퓨터 또는 이동 단말기일 수 있다. 사용자는 사용자 단말(80)을 통해 영상 브라우징 시스템(1)을 제어할 수 있다. 사용자 단말(80)은 영상 브라우징 시스템(1)에 질의(검색 조건)를 입력할 수 있는 사용자 인터페이스인 입력 장치(60)를 구비한다.

입력 장치(60)는 영상 브라우징 시스템(1)과 유선 또는 무선으로 연결되어 사용자가 영상 브라우징 시스템(1)의 동작 제어를 위한 입력 데이터를 발생시킨다. 입력 장치(60)는 키 패드(key pad), 돔 스위치(dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 마우스, 리모컨, 조그 휠, 조그 스위치 등으로 구성될 수 있다. 사용자 단말(80)은 입력 장치(60)를 사용하여 검색 조건을 수정, 추가, 또는 삭제를 수행하여, 결과 영상의 표시 조건을 설정할 수 있다. 사용자 단말(80)은 입력 장치(60)를 사용하여 표시된 결과 영상의 정렬, 병합, 재생 등을 조절할 수 있다.

디스플레이(70)는 브라우징 엔진(50)으로부터 출력되는 결과 영상을 사용자에게 제공함으로써, 사용자가 표시되는 영상을 모니터링할 수 있도록 한다. 디스플레이(70)는 시각적인 정보 및/또는 청각적인 정보를 사용자에게 제공할 수 있다. 디스플레이(70)는 액정 디스플레이 패널(LCD), 유기 발광 디스플레이 패널(OLED), 전기 영동 디스플레이 패널(EPD) 등으로 이루어질 수 있다. 디스플레이(70)는 사용자의 터치를 통하여 입력을 받을 수 있도록 터치스크린 형태로 구비되어, 입력 인터페이스로서 동작할 수 있다.

CCTV 영상보안 시스템은 카메라를 통하여 획득된 영상을 전송망을 통하여 전달받아 모니터를 이용하여 보안상황을 사람이 직접 감시하거나 DVR/NVR/VMS(Video management system) 등으로 저장한 후 사후에 저장된 영상을 검색하였다. 그러나 이러한 영상보안 시스템은 급속한 CCTV 카메라 수의 증가에 따라 사람에 의한 직접감시 및 분석의 한계가 존재하고, 또한 사후에 저장된 영상을 검색하는 시간도 카메라 수에 따라 기하급수적으로 증가하고 있다. 이로 인해 Video Synopsis/Summary 기술이 개발되었다. Video Summary는 장시간의 녹화 영상을 요약하여 압축된 영상을 제공하는 기술로 사용자가 효율적으로 녹화된 영상을 검색할 수 있도록 도와준다.

동영상 요약 기법은 움직이는 물체의 정보를 수집하여 새로운 결과 영상으로서 요약이 이루어진다. 따라서 사후 검색 목적으로 사용한다고 상정할 경우, 결과 화면에는 다수의 물체가 동시에 출현하여 움직이는 장면이 연출되고, 사용자가 해당 영상에서 원하는 물체가 존재하는 지를 판단해야 한다. 이때 영상의 요약 길이가 너무 짧으면, 화면의 복잡도가 높아서 감시하고자 하는 물체를 놓칠 수 있고, 영상의 요약 길이가 너무 길면, 일반 감시 영상을 재생하는 것보다 검색 효율이 떨어진다. 또한 감시 영상을 결과 영상으로 요약하기 위해서는 비교적 긴 시간이 요구되기 때문에 신속하게 사후 검색이 필요한 시점에서 검색 효율을 떨어트릴 수 있다.

본 발명의 실시예에서는 비디오 요약을 수행하되 움직이는 물체에 대해서 정지 영상으로 사용자에게 제공함으로써, 사용자가 감시 대상 물체를 놓치지 않고 찾을 수 있도록 도와준다. 본 발명의 실시예는 객체 간의 겹침이 최소이고, 객체간의 경로 상 겹침이 없는 영역이 최대가 되도록 출현한 객체를 배치하여 하나의 정지 영상으로 제공할 수 있다. 즉, 원본 동영상에서 존재하는 물체의 개수가 n개라고 했을 때, 해당 n개의 물체의 각각을 대표하는 주요한 하나의 장면(영상 프레임)을 선정해서 모든 n개의 물체가 정지 영상에 모두 표현될 수 있도록 비디오 요약을 수행한다. 만약 하나의 결과 요약 영상에 포함되는 물체의 겹침이 너무 많은 경우 복수의 정지 영상을 제공할 수도 있다. 정지 영상의 순서는 시간 순서를 유지함으로써 사용자가 관심 객체를 검색하는데 있어서 혼돈이 없도록 한다.

도 3은 본 발명의 실시예에 따른 영상 브라우징 방법을 개략적으로 도시한 흐름도이다.

영상 브라우징 시스템은 입력 동영상의 복수의 영상 프레임으로부터 객체를 검출하고 객체의 움직임을 추적할 수 있다(S31). 영상 브라우징 시스템은 모든 영상 프레임에서 인식(Recognition), 움직임 검출(Motion detection)과 추적(Tracking) 기술을 이용하여 하나 이상의 객체를 검출하고, 시간상 연속적으로 추적하여 객체의 움직임 궤적(motion trajectory)을 추출 및 복원(recovery)할 수 있다.

영상 브라우징 시스템은 객체별로 대표 영상 프레임을 선정할 수 있다(S32). 영상 브라우징 시스템은 얼굴 검출된 인물 영상, 번호판이 보이는 차량 영상, 객체의 사이즈가 큰 영상, 블러 효과가 적은 영상, 타 객체와의 겹침이 없거나 적은 영상, 특정 이벤트가 발생한 영상 등을 대표 영상 프레임의 선별 조건으로 설정할 수 있다. 선별 조건은 일부 객체들에 공통으로 설정될 수 있고, 또는 객체마다 다르게 설정될 수 있다. 선별 조건은 하나 또는 둘 이상 설정될 수 있다. 영상 브라우징 시스템은 하나 또는 다수의 선별 조건들 각각에 대해 스코어를 설정하고, 객체별로 최종 스코어가 가장 높은 영상 프레임을 대표 영상 프레임으로 선정할 수 있다. 선별 조건에 대한 스코어는 사용자가 고려하는 우선순위에 따라 동일 또는 상이하게 설정될 수 있다.

영상 브라우징 시스템은 객체별 대표 영상 프레임으로부터 메타데이터를 생성하여 저장할 수 있다(S33). 영상 브라우징 시스템은 객체별 대표 영상 프레임 및 대표 영상 프레임 내 객체의 위치 정보 및 시간 정보를 텍스트 기반 메타데이터 형식으로 데이터베이스화할 수 있다. 영상 브라우징 시스템은 각 객체의 전체 동선을 따르는 동영상을 제공할 수 있도록 각 객체가 출현한 시간 구간의 동영상에 대한 시간 정보를 텍스트 기반 메타데이터 형식으로 데이터베이스화할 수 있다. 영상 브라우징 시스템은 대표 영상 프레임으로부터 추출된 객체 세그먼트를 영상 기반 메타데이터 형식으로 데이터베이스화할 수 있다. 메타데이터는 객체별로 매칭되어 저장될 수 있다.

영상 브라우징 시스템은 사용자 단말로부터 요약 정지 영상 요청을 수신하면(S34), 요약 정지 영상을 렌더링하여 디스플레이한다(S35). 영상 브라우징 시스템은 사용자 단말로부터 검색 조건을 입력받고, 검색 조건에 대응하는 정보(메타데이터 및 영상 프레임)를 추출한다. 영상 브라우징 시스템은 검색 조건에 대응하는 객체들 각각의 객체 세그먼트를 배경 영상에 합성한 요약 정지 영상을 적어도 하나 생성할 수 있다. 객체 세그먼트는 객체별로 특정 색상 또는 특정 도형으로 시각화될 수 있다.

영상 브라우징 시스템은 요약 정지 영상으로부터 객체 재생 요청을 수신하면(S36), 선택된 객체의 동영상을 재생한다(S37). 영상 브라우징 시스템은 요약 정지 영상 내 객체 상으로 입력 수단(예를 들어, 마우스 커서, 디지털 펜, 손가락 등)이 위치함이 감지되면, 선택된 객체의 동영상을 프리뷰 형태로 제공할 수 있다. 영상 브라우징 시스템은 프리뷰 영상의 선택신호가 수신되면, 즉, 프리뷰 영상이 클릭되면, 선택된 객체가 출현한 시간 구간의 동영상을 재생할 수 있다. 객체 동영상은 타 객체는 제거되고 해당 객체만 움직이는 장면이 제공될 수 있다.

본 실시예에서는 동영상이 입력되면 객체 추적과 동시에 객체별로 선별 조건에 따라 대표 영상 프레임을 선정하여 메타데이터를 생성 및 저장한다. 이 경우 실시간으로 정지 요약 영상을 생성할 수 있다.

도 4 및 도 5는 본 발명의 실시예에 따라 입력 동영상으로부터 생성된 요약 정지 영상의 예를 도시한다. 도 4는 하나의 요약 정지 영상을 생성한 예이고, 도 5는 두 개의 요약 정지 영상을 생성한 예이다.

도 4(a)는 복수의 영상 프레임들로 구성된 입력 동영상을 도시한 예이다. 입력 동영상에서는 네 개의 객체가 각각 동시 또는 서로 다른 시간에 최초 출현하여 서로 다른 경로로 이동하고 있다고 가정한다. 각 객체가 출현한 시간 구간의 영상 프레임들, 즉 객체 동영상에 대한 시간 정보는 전술한 바와 같이 메타데이터로 저장될 수 있다. 하나의 영상 프레임에 서로 다른 객체가 동시에 출현할 수 있다. 따라서 하나의 영상 프레임이 서로 다른 객체에 매칭될 수 있다. 도 4(a)에서는 설명의 편의를 위해 배경 및 타 객체는 생략하고, 해당 객체만을 도시하였다.

도 4(a)의 객체별 영상 프레임들 중 대표 영상 프레임(RF1 내지 RF4)이 선정된다. 객체별로 설정된 선별 기준에 따라 객체별로 대표 영상 프레임(RF1 내지 RF4)이 선정될 수 있다. 객체별로 대표 영상 프레임(RF1 내지 RF4)에서 객체 세그먼트가 추출될 수 있다. 객체별 대표 영상 프레임 및 객체 세그먼트의 시간 정보 및 위치 정보가 메타데이터로 저장될 수 있다.

도 4(b)는 도 4(a)의 입력 동영상에서 네 개의 객체의 출현 순서 및 동선(화살표)을 설명하기 위한 도면이다. 도 4(a)의 입력 동영상에서 1번 내지 4번 객체(① 내지 ④)는 각각 도 4(b)에 표시된 위치에서 번호 순서대로 출현하여 각각 해당 실선으로 표시된 동선을 따라 이동하였다고 가정한다.

도 4(c)는 네 개의 객체(① 내지 ④)가 하나의 요약 정지 영상 내에 표시된 예이다. 각 대표 영상 프레임(RF1 내지 RF4)에서 추출된 네 개의 객체 세그먼트가 하나의 정지 영상에 모두 표시되었다. 객체들이 서로 겹치지 않도록 대표 영상 프레임이 선정되었음을 알 수 있다. 객체 세그먼트는 객체별로 상이한 색상 또는 상이한 도형으로 표시될 수 있다.

도 5(a)는 아홉 개의 객체가 출현하는 입력 동영상을 나타내고 있다. 아홉 개의 객체는 출현 순서 및 동선(화살표)이 각각 상이하다. 하나의 요약 정지 영상에 너무 많은 객체가 표시되면 사용자의 지정에 의해 객체 밀도 값을 변경할 수 있고, 이에 따라 요약 정지 영상의 개수가 증감할 수 있다.

도 5(b) 및 도 5(c)는 아홉 개의 객체를 두 개의 요약 정지 영상에 나누어 표시한 예이다. 도 5(b)는 시간 상으로 앞서 출현한 네 개의 객체를 표시한 제1 요약 정지 영상이다. 도 5(c)는 시간 상으로 뒤서 출현한 나머지 다섯 개의 객체를 표시한 제2 요약 정지 영상이다.

도 6은 본 발명의 실시예에 따른 요약 정지 영상이 표시된 화면을 도시한 예이다.

도 6(a)와 같이 화면에 요약 정지 영상이 표시된 상태에서, 도 6(b)에 도시된 바와 같이 마우스 커서와 같은 포인터를 특정 객체 위에 위치시키면 선택된 객체 주변에 풍선 도움말 형태의 레이어가 제공되고, 레이어 내에 객체의 프리뷰 영상이 표시될 수 있다. 프리뷰 영상이 클릭되면, 도 6(c)에 도시된 바와 같이, 선택된 객체가 동선을 따라 이동하는 객체 동영상이 전체 화면에 오버랩되어 재생될 수 있다. 재생이 완료되면, 다시 도 6(a)에 도시된 요약 정지 영상이 표시될 수 있다.

도 7은 본 발명의 다른 실시예에 따른 영상 브라우징 방법을 개략적으로 도시한 흐름도이다.

영상 브라우징 시스템은 입력 동영상의 복수의 영상 프레임으로부터 객체를 검출하고 객체의 움직임을 검출할 수 있다(S51). 영상 브라우징 시스템은 모든 영상 프레임에서 인식(Recognition), 움직임 검출(Motion detection)과 추적(Tracking) 기술을 이용하여 하나 이상의 객체를 검출하고, 시간상 연속적으로 추적하여 객체의 움직임 궤적(motion trajectory)을 추출 및 복원(recovery)할 수 있다.

영상 브라우징 시스템은 사용자 단말로부터 요약 정지 영상 요청을 수신하면(S52), 객체별로 대표 영상 프레임을 선정할 수 있다(S53). 영상 브라우징 시스템은 사용자 단말로부터 검색 조건을 입력받으면, 검색 조건에 대응하여 입력 동영상에서 객체별로 대표 영상 프레임을 선정할 수 있다. 객체별 대표 영상 프레임 선별 조건은 전술한 바와 같이 사용자에 의해 적어도 일부 객체들에 동일하게 또는 객체마다 다르게 설정될 수 있다. 선별 조건은 하나 또는 둘 이상 설정될 수 있다. 영상 브라우징 시스템은 하나 또는 다수의 선별 조건들 각각에 대해 스코어를 설정하고, 객체별로 최종 스코어가 가장 높은 영상 프레임을 대표 영상 프레임으로 선정할 수 있다. 선별 조건에 대한 스코어는 사용자가 고려하는 우선순위에 따라 동일 또는 상이하게 설정될 수 있다.

영상 브라우징 시스템은 객체별 대표 영상 프레임으로부터 메타데이터를 생성하여 저장할 수 있다(S54). 영상 브라우징 시스템은 객체별 대표 영상 프레임 및 대표 영상 프레임 내 객체의 위치 정보 및 시간 정보를 텍스트 기반 메타데이터 형식으로 데이터베이스화할 수 있다. 영상 브라우징 시스템은 각 객체의 전체 동선을 따르는 동영상을 제공할 수 있도록 각 객체의 동영상에 대한 시간정보를 메타데이터로 함께 저장할 수 있다. 영상 브라우징 시스템은 대표 영상 프레임으로부터 추출된 객체 세그먼트를 영상 기반 메타데이터 형식으로 데이터베이스화할 수 있다. 메타데이터는 객체별로 매칭되어 저장될 수 있다.

영상 브라우징 시스템은 검색 조건에 대응하는 요약 정지 영상을 렌더링하여 디스플레이한다(S55). 영상 브라우징 시스템은 검색 조건에 대응하는 객체들 각각의 대표 영상 프레임으로부터 추출된 객체 세그먼트를 합성한 요약 정지 영상을 적어도 하나 생성할 수 있다. 객체 세그먼트는 객체별로 특정 색상 또는 특정 도형으로 시각화될 수 있다.

영상 브라우징 시스템은 요약 정지 영상으로부터 객체 동영상의 재생 요청을 수신하면(S56), 선택된 객체의 동영상을 재생한다(S57). 영상 브라우징 시스템은 요약 정지 영상 내 객체 상으로 입력 수단(예를 들어, 마우스 커서, 디지털 펜, 손가락 등)이 위치함을 감지하면, 선택된 객체의 동영상을 프리뷰 형태로 제공할 수 있다. 영상 브라우징 시스템은 프리뷰 영상의 선택신호가 수신되면, 즉, 프리뷰 영상이 클릭되면, 선택된 객체가 출현한 시간 구간 동안의 전체 움직임 궤적을 보여주는 동영상을 재생할 수 있다. 객체 동영상은 타 객체는 제거되고 해당 객체만 움직이는 장면이 제공될 수 있다.

동영상이 입력되면 메타데이터를 미리 생성 및 저장하는 도 3의 실시예와 달리, 본 실시예에서는 요약 정지 영상 요청이 있으면, 메타데이터를 생성하여 저장한다. 이 경우 단순히 객체의 외형만으로 대표 영상 프레임을 선별하는 것이 아니라 타 객체와의 관계를 고려함으로써 하나의 요약 정지 영상에 객체 간의 겹침을 최소화하여 보다 많은 객체가 위치하도록 할 수 있다. 이로써 요약 정지 영상의 개수를 줄일 수 있다.

영상 브라우징 시스템은 사용자의 설정에 따라 도 3의 실시예와 도 7의 실시예가 선택적으로 수행되도록 할 수도 있다.

본 발명의 실시예들은 요약 영상이 축약된 동영상이 아니라 객체 기반의 영상이므로, 객체를 놓칠 가능성이 줄어들고 다수의 객체를 한눈에 파악할 수 있어 사용자 편의성을 도모할 수 있다. 특히 대표 영상 선별 점수를 통해 객체의 대표 영상이 선정되기 때문에 불필요한 재생시간 없이 객체의 유/무를 신속히 판단할 수 있다. 또한 본 발명의 실시예들은 적은 메모리 용량과 빠른 처리 속도를 제공할 수 있다. 본 발명의 실시예들은 모든 영상 프레임을 획득하여 데이터베이스화할 수도 있으나, 객체의 대표 영상만 보존할 수도 있기 때문에 요약 요청이 있는 즉시 사용자에게 요약 정보를 제공할 수 있다. 또한 본 발명의 실시예들은 사용자 검색의 편의성을 제공한다. 관심 있는 객체에 대해서 마우스 등의 포인트를 올려놓는 것으로 해당 객체가 출현하고 사라질 때까지의 영상이 재생됨으로써 찾고 있던 객체에 대한 정보를 신속히 획득할 수 있다.

본 발명에 따른 요약 영상 브라우징 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

Claims

입력 동영상으로부터 적어도 하나의 객체를 추적하는 단계;
상기 입력 동영상으로부터 상기 적어도 하나의 객체의 대표 영상 프레임을 선정하는 단계; 및
상기 적어도 하나의 객체의 대표 영상 프레임으로부터 추출된 객체 세그먼트를 합성한 요약 정지 영상을 생성하는 단계;를 포함하는 요약 영상 브라우징 방법.
제1항에 있어서, 상기 대표 영상 프레임 선정 단계는,
적어도 하나의 객체 선별 조건에 대해 가장 높은 스코어를 갖는 영상 프레임을 대표 영상 프레임으로 선정하는 단계;를 포함하는 요약 영상 브라우징 방법.
제1항에 있어서,
상기 요약 정지 영상 내의 객체 세그먼트의 크기 및 위치는 상기 대표 영상 프레임 내 객체 세그먼트의 크기 및 위치에 대응하는, 요약 영상 브라우징 방법.
제1항에 있어서, 상기 요약 정지 영상 생성 단계는,
상기 요약 정지 영상에 설정된 최대 객체의 개수에 따라 상기 요약 정지 영상을 상기 객체의 출현 시간을 따르는 시간 순서로 적어도 하나 이상 생성하는 단계;를 포함하는 요약 영상 브라우징 방법.
제1항에 있어서,
상기 요약 정지 영상 내에서 객체의 선택 신호에 응답하여, 상기 선택된 객체의 움직임에 대한 프리뷰 영상을 제공하는 단계;를 더 포함하는 요약 영상 브라우징 방법.
제5항에 있어서,
상기 프리뷰 영상의 선택 신호에 응답하여, 상기 선택된 객체의 움직임을 시간 순서로 재생하는 단계;를 더 포함하는 요약 영상 브라우징 방법.
제1항에 있어서,
요약 정지 영상의 검색 조건을 수신하는 단계; 및
상기 대표 영상 프레임의 메타데이터를 생성하는 단계;를 더 포함하는 요약 영상 브라우징 방법.
제7항에 있어서,
상기 대표 영상 프레임 선정 단계는 상기 요약 정지 영상 요청 수신 단계에 선행하거나, 상기 메타데이터 생성 단계에 후행하는, 요약 영상 브라우징 방법.
입력 동영상으로부터 적어도 하나의 객체를 추적하고, 상기 적어도 하나의 객체의 대표 영상 프레임을 선정하는 영상 처리 엔진; 및
상기 적어도 하나의 객체의 대표 영상 프레임으로부터 추출된 객체 세그먼트를 합성한 요약 정지 영상을 출력하는 브라우징 엔진;을 포함하는 요약 영상 브라우징 시스템.
제9항에 있어서, 상기 영상 처리 엔진은,
적어도 하나의 객체 선별 조건에 대해 가장 높은 스코어를 갖는 영상 프레임을 대표 영상 프레임으로 선정하는, 요약 영상 브라우징 시스템.
제9항에 있어서,
상기 요약 정지 영상 내의 객체 세그먼트의 크기 및 위치는 상기 대표 영상 프레임 내 객체 세그먼트의 크기 및 위치에 대응하는, 요약 영상 브라우징 시스템.
제9항에 있어서, 상기 브라우징 엔진은,
상기 요약 정지 영상에 설정된 최대 객체의 개수에 따라 상기 요약 정지 영상을 상기 객체의 출현 시간을 따르는 시간 순서로 적어도 하나 이상 생성하는, 요약 영상 브라우징 시스템.
제9항에 있어서, 상기 브라우징 엔진은,
상기 요약 정지 영상 내에서 객체의 선택 신호에 응답하여, 상기 선택된 객체의 움직임에 대한 프리뷰 영상을 제공하는, 요약 영상 브라우징 시스템.
제16항에 있어서, 상기 브라우징 엔진은,
상기 프리뷰 영상의 선택 신호에 응답하여, 상기 선택된 객체의 움직임을 시간 순서로 재생하는, 요약 영상 브라우징 시스템.
제9항에 있어서,
요약 정지 영상의 검색 조건을 수신하는 쿼리엔진;을 더 포함하는 요약 영상 브라우징 시스템.
제15항에 있어서, 상기 영상처리엔진은,
상기 요약 정지 영상의 검색 조건이 수신되기 전에 또는 수신된 후에 상기 대표 영상 프레임의 메타데이터를 생성하는, 요약 영상 브라우징 시스템.