KR102063135B1

KR102063135B1 - 딥러닝을 이용한 cctv 검색 및 지도 기반 표시 방법과 표시 장치

Info

Publication number: KR102063135B1
Application number: KR1020190140391A
Authority: KR
Inventors: 이완수
Original assignee: 주식회사 인콘
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2020-01-07
Anticipated expiration: 2039-05-27

Abstract

딥러닝을 이용한 CCTV 검색 및 지도 기반 표시 방법 및 장치가 제공된다.
본 발명에서, 멀티 스레드 영상 분석 모듈은, 키 프레임간의 차이를 파악함으로써 움직임을 파악한다.
멀티 스레드 영상 분석 모듈은, 상기 키 프레임 간의 차이가 있으면, 상기 움직임의 주체의 오브젝트 종류를 확인하기 위하여 딥 러닝을 이용한다.
상기 움직임의 주체의 오브젝트 종류가 검색 적합 오브젝트인지 확인하여, 검색 적합 오브젝트라면, 메타데이터 모듈이 이를 상기 데이터베이스에 기록해 둔다.
유사도 검색 모듈에, 상기 찾고자 하는 이미지가 입력되면, 당해 이미지의 특징점을 추출하여 상기 데이터베이스에 질의(query)를 행하여 상기 찾고자 하는 이미지에 대응하는 기저장된 데이터를 조회한다.
맵 디스플레이 모듈에서, 상기 데이터베이스에의 질의 결과를 이용하여, 상기 찾고자 하는 이미지와 유사한 오브젝트가 출현한 시간 흐름에 따라 상기 찾고자하는 이미지와 유사한 오브젝트의 이동 궤적을 지도 상에 디스플레이한다.

Description

딥러닝을 이용한 CCTV 검색 및 지도 기반 표시 방법과 표시 장치{CCTV SEARCHING METHOD AND APPARATUS USING DEEP LEARNING}

본 발명은 딥러닝을 이용한 CCTV 검색 및 지도 기반 표시 방법과 표시 장치에 관한 것이다.

CCTV는 보안을 위해 흔히 사용되는 촬상 장치이다. CCTV(Closed-circuit television)는 폐쇄회로 TV라고도 하며, 카메라를 이용하여 촬상된 영상을 불특정다수의 사람에게 보여주는 것이 아니라 특정목적을 위해 특정인들에게 제공되는 TV를 의미한다. 즉, CCTV는 유무선으로 밖과 연결되지 않아서 폐쇄회로라고 불리운다.

범죄 예방의 목적으로 CCTV가 설치되어 있는 경우도 많으며, 범죄가 일어난 후에는 당시의 상황을 재구성하기 위하여 CCTV에 녹화된 영상을 분석하는 작업이 필요하다. 그런데, 이 CCTV 영상 분석에는 많은 시간과 인력이 소요된다. 통상적으로는 많은 사람들이 여러 시간에 걸쳐서 녹화된 비디오를 돌려가면서 특이점을 발견한다.

최근에는 이러한 CCTV 영상 분석이 지나치게 비효율적이라는 인식에 따라, 그 분석에 컴퓨터를 이용하려는 시도가 있다.

지능형 CCTV 영상 분석 서버의 초기부터 현재까지 컴퓨터 비전 알고리즘을 기반으로 한 영상 분석이 대부분인 실정이다. 하지만 이러한 알고리즘 기반의 영상 분석은 예측 불가한 노이즈에 취약한 모습을 보이며, 오작동을 발생시키는 등 기술적인 문제점을 드러내었다. 이러한 문제점을 해결할 수 있는 방법으로 인공지능 기술인 딥 러닝(Deep Learning)이 각광받기 시작하였고, 이에 따라 국내외 대학이나 연구기관에서 많은 연구가 진행되고 있다.

상정할 수 있는 기술의 일예로는, 하나의 고정된 CCTV 에서 보여지는 대상(오브젝트(Object); 사람,자동차 등)이 발견된 시간을 보여주며, 특정한 대상 물체만을 표현하는 경우를 생각할 수 있다. 예컨대, 하나의 카메라(CCTV)로부터의 움직임을 파악하고 하나의 정지 화면에 각각 다른 시간대에서의 오브젝트(예컨대 사람)의 움직임을 표시해 두는 것이다. 어느 시간대의 움직임인지 알기 위해서는 정지 화면에서의 당해 오브젝트의 위에 시간을 14:30 등으로 표시해 둘 수 있다. 즉, 분석 후에, 정지 화면에 10명의 사람이 나타나 있고, 각각의 사람 위에는 (서로 다를 수 있는) 움직임 포착 시간이 12:10, 13:21, 14:00, 15:58 등으로 표시되어 있을 수 있다.

상정할 수 있는 기술의 다른 일예로서, 정해진 고정된 카메라에서 비쳐진 자동차 중에서 빨간색 차만 표시한 것으로 하루 중에 빨간색 자동차만을 검색하여 짧은 시간 내에 영상을 표출하는 경우를 생각할 수 있다. 이 또한 원리적으로 전술한 사람의 움직임 포착과 유사하다. 한편, 일부 자동차는 겹쳐진 것으로 표시되어 있으나, 당해 자동차에 표시된 시간이 상이하므로 비록 동일 장소이지만 다른 시간에 나타난 자동차임을 알 수 있다.

위의 두 가지 예는 모두 카메라 한대의 영상을 분석하여 영상을 요약해서 보여주는 경우에 대한 것이다. 본 발명에서는, 예컨대, 1대의 서버로 서로 다른 30개의 CCTV 24시간 녹화영상을 단 30분 만에 영상을 분석하여 특정한 객체의 이동 경로를 추적하고 노출된 객체 영상을 자동 편집하는 방법 및 장치를 제공하고자 한다. 이 과정에서 딥 러닝(Deep Learning)과 VIDEO SYNOPSIS(영상 요약) 기술이 적용될 수도 있을 것이다. 일예로, 이를 통하여 각 지자체별로 구축되어진 인프라를 활용할 수 있는 서비스의 제공이 가능하게 될 수 있다.

본 발명에 의하면, 딥러닝을 이용한 CCTV 검색 및 지도 기반 표시 방법으로서, (a) 복수의 카메라로부터 영상을 수신 및 저장하는 비디오 관리 서버; (b) 상기 비디오 관리 서버로부터 상기 영상을 수신받아 시분할하여 상기 복수의 카메라로부터의 영상을 동시에 처리하는 멀티 스레드 영상 분석 모듈로서, 복수의 영상 분석 모듈을 포함하며, 움직임이 발생하면 딥 러닝을 통해 관심 대상 오브젝트인지의 여부를 파악하는, 멀티 스레드 영상 분석 모듈; (c) 상기 멀티 스레드 영상 분석 모듈로부터의 분석 결과를 이용하여 메타데이터를 생성하는 메타데이터 모듈; (d) 상기 메타데이터 모듈로부터 생성된 영상 분석 결과가 하나 이상의 메타데이터로서 저장되는 데이터베이스; (e) 찾고자 하는 이미지를 입력받으면, 당해 이미지의 특징점을 추출하여 상기 데이터베이스에 질의(query)를 행하여 조회하는 유사도 검색 모듈; 및 (f) 상기 유사도 검색 모듈로부터의 비교 결과를 이용하여, 상기 찾고자 하는 이미지와 유사한 오브젝트가 출현한 시간 흐름에 따라 상기 찾고자하는 이미지와 유사한 오브젝트의 이동 궤적을 지도 상에 디스플레이하는 맵 디스플레이 모듈을 포함하는 다중 CCTV 동시 검색 시스템을 이용하여, (1) 상기 멀티 스레드 영상 분석 모듈에서, 키 프레임간의 차이를 파악함으로써 움직임을 파악하는 단계; (2) 상기 멀티 스레드 영상 분석 모듈에서, 상기 키 프레임 간의 차이가 있으면, 상기 움직임의 주체의 오브젝트 종류를 확인하기 위하여 딥 러닝을 이용하는 단계; (3) 상기 움직임의 주체의 오브젝트 종류가 검색 적합 오브젝트인지 확인하여, 검색 적합 오브젝트라면, 상기 메타데이터 모듈이 이를 상기 데이터베이스에 기록해두는 단계; (4) 상기 유사도 검색 모듈에, 상기 찾고자 하는 이미지가 입력되면, 당해 이미지의 특징점을 추출하여 상기 데이터베이스에 질의(query)를 행하여 상기 찾고자 하는 이미지에 대응하는 기저장된 데이터를 조회하는 단계; 및 (5) 상기 맵 디스플레이 모듈에서, 상기 데이터베이스에의 질의 결과를 이용하여, 상기 찾고자 하는 이미지와 유사한 오브젝트가 출현한 시간 흐름에 따라 상기 찾고자하는 이미지와 유사한 오브젝트의 이동 궤적을 지도 상에 디스플레이하는 단계를 포함하는, 딥러닝을 이용한 CCTV 검색 및 지도 기반 표시 방법이 제공된다.

바람직하게는, 상기 키 프레임은 GOP(Group of Pictures) 단위에 있어서 예측 프레임이 아닌 기준 프레임이다.

바람직하게는, 상기 키 프레임으로서 1초당 하나의 프레임이 선정된다.

바람직하게는, 상기 검색 적합 오브젝트는 사람 또는 자동차이다.

바람직하게는, 상기 딥 러닝은 심층신경망(DNN; deep neural network)을 이용한다.

바람직하게는, 상기 데이터베이스에 질의하여 유사도를 검색하는 기준은, 어떠한 종류의 오브젝트인지 대한 정보 및 그 오브젝트가 어떤 색깔인지에 대한 정보를 포함한다.

바람직하게는, 상기 (5) 단계에서 맵 디스플레이 모듈이 맵 디스플레이를 작성함에 있어서, 상기 메타데이터에는 상기 복수의 카메라끼리 서로 구분 가능한 카메라의 아이디(identification)가 포함되어 있다.

바람직하게는, 상기 카메라의 아이디 및 지리적 위치를 이용하여, 찾고자 하는 이미지에 대응하는 검색된 오브젝트의 이동 궤적을 상기 지도 상에 지리적으로 표시할 수 있다.

본 발명에 의하면, 딥러닝을 이용한 CCTV 검색 및 지도 기반 표시 장치로서, (a) 복수의 카메라로부터 영상을 수신 및 저장하는 비디오 관리 서버; (b) 상기 비디오 관리 서버로부터 상기 영상을 수신받아 시분할하여 상기 복수의 카메라로부터의 영상을 동시에 처리하는 멀티 스레드 영상 분석 모듈로서, 복수의 영상 분석 모듈을 포함하며, 움직임이 발생하면 딥 러닝을 통해 관심 대상 오브젝트인지의 여부를 파악하는, 멀티 스레드 영상 분석 모듈; (c) 상기 멀티 스레드 영상 분석 모듈로부터의 분석 결과를 이용하여 메타데이터를 생성하는 메타데이터 모듈; (d) 상기 메타데이터 모듈로부터 생성된 영상 분석 결과가 하나 이상의 메타데이터로서 저장되는 데이터베이스; (e) 찾고자 하는 이미지를 입력받으면, 당해 이미지의 특징점을 추출하여 상기 데이터베이스에 질의(query)를 행하여 조회하는 유사도 검색 모듈; 및 (f) 상기 유사도 검색 모듈로부터의 비교 결과를 이용하여, 상기 찾고자 하는 이미지와 유사한 오브젝트가 출현한 시간 흐름에 따라 상기 찾고자하는 이미지와 유사한 오브젝트의 이동 궤적을 지도 상에 디스플레이하는 맵 디스플레이 모듈을 포함하며, 상기 멀티 스레드 영상 분석 모듈은, 키 프레임간의 차이를 파악함으로써 움직임을 파악하고, 상기 키 프레임 간의 차이가 있으면, 상기 움직임의 주체의 오브젝트 종류를 확인하기 위하여 딥 러닝을 이용하며, 만약 상기 움직임의 주체의 오브젝트 종류가 검색 적합 오브젝트인지 확인하여, 검색 적합 오브젝트라면, 상기 메타데이터 모듈이 이를 상기 데이터베이스에 메타데이터로서 기록해 두며, 상기 유사도 검색 모듈은, 상기 찾고자 하는 이미지가 입력되면, 당해 이미지의 특징점을 추출하여 상기 데이터베이스에 질의(query)를 행하여 상기 찾고자 하는 이미지에 대응하는 기저장된 데이터를 조회하며, 상기 맵 디스플레이 모듈은, 상기 데이터베이스에의 질의 결과를 이용하여, 상기 찾고자 하는 이미지와 유사한 오브젝트가 출현한 시간 흐름에 따라 상기 찾고자하는 이미지와 유사한 오브젝트의 이동 궤적을 지도 상에 디스플레이하도록 구성된, 딥러닝을 이용한 CCTV 검색 및 지도 기반 표시 장치가 제공된다.

바람직하게는, 상기 맵 디스플레이 모듈이 편집 비디오를 작성함에 있어서, 상기 메타데이터에는 상기 복수의 카메라끼리 서로 구분 가능한 카메라의 아이디(identification)가 포함되어 있으며, 상기 카메라의 아이디 및 지리적 위치를 이용하여, 찾고자 하는 이미지에 대응하는 검색된 오브젝트의 이동 궤적을 상기 지도 상에 지리적으로 표시할 수 있다.

본 발명의 기술적 사상의 실시예들에 의하면 적어도 다음과 같은 효과가 있다.

기존의 CCTV 시스템은 빈번한 오탐지로 인한 신뢰성 하락의 문제, 새로운 유형이나 변화된 유형은 감지하지 못하는 경우가 발생하지만, 본 발명은 움직임을 감지하고 그 움직임의 대상이 원하는 오브젝트(예컨대, 사람 또는 자동차)인지 파악한다.

기존의 CCTV 시스템은 사건 발생 후 검색에 많은 인력과 시간을 소비하여 효율성이 저하되나, 본 발명은 이벤트 오브젝트 검색 모듈과 메타데이터 처리 모듈에 의해, 찾고자 하는 이미지와의 매칭 대상을 용이하게 찾을 수 있다.

본 발명은 영상을 분석하는 속도에 관한 지표로 순차 처리와 병렬 처리의 조합 능력으로 예컨대 30개 CCTV의 30일 분량의 영상을 짧은 시간(예컨대 6시간) 내에 분석하여 지도 기반으로 디스플레이하는 형태로서 요약 가능하다.

상기 지도 기반으로 디스플레이하는 형태로 요약하는 것만으로도 이동 궤적에 대한 분석 또한 자동적으로 행해진다.

필요에 따라서는, 이동 궤적을 찾을 뿐만 아니라, 특정 위치에 대해서는 이동 궤적에서 배제함으로써 검색 범위를 효율화하는 것도 가능하다.

본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.

도 1은 영상에서 움직임을 파악하는 것을 나타내기 위한 도면이다.
도 2는 움직이는 물체가 찾고자 하는 대상(오브젝트)인지의 여부를 파악하는 절차를 나타내는 도면이다.
도 3는 메타데이터로부터 시간의 흐름에 따른 비디오 데이터를 생성하는 것을 나타내는 도면이다.
도 4은 본 발명의 시스템의 개요를 나타내는 도면이다.
도 5은 도 4을 단순화하여 또는 다른 관점으로 나타낸 도면이다.
도 6(a)는 비디오 다중 처리를 설명하는 도면이다.
도 6(b)는 비디오 맵 디스플레이를 설명하는 도면이다.
도 7(a) 및 도 7(b)는 검색의 다른 예를 나타내는 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

하나의 구성 요소가 다른 구성 요소와 "연결된(connected to)" 또는 "커플링된(coupled to)" 이라고 지칭되는 것은, 다른 구성 요소와 직접 연결 또는 커플링된 경우 또는 중간에 다른 구성 요소를 개재한 경우를 모두 포함한다. 반면, 하나의 구성 요소가 다른 구성 요소와 "직접 연결된(directly connected to)" 또는 "직접 커플링된(directly coupled to)"으로 지칭되는 것은 중간에 다른 구성 요소를 개재하지 않은 것을 나타낸다. "및/또는"은 언급된 아이템들의 각각 및 하나 이상의 모든 조합을 포함한다.

구성 요소가 다른 구성 요소의 "위(on)" 또는 "상(on)"으로 지칭되는 것은 다른 구성 요소의 바로 위뿐만 아니라 중간에 다른 구성 요소를 개재한 경우를 모두 포함한다. 반면, 구성 요소가 다른 구성 요소의 "직접 위(directly on)" 또는 "바로 위"로 지칭되는 것은 중간에 다른 구성 요소를 개재하지 않은 것을 나타낸다. 공간적으로 상대적인 용어인 "아래(below)", "아래(beneath)", "하부(lower)", "위(above)", "상부(upper)" 등은 도면에 도시되어 있는 바와 같이 하나의 구성 요소들과 다른 구성 요소들과의 상관관계를 용이하게 기술하기 위해 사용될 수 있다. 공간적으로 상대적인 용어는 도면에 도시되어 있는 방향에 더하여 사용시 또는 동작시 소자의 서로 다른 방향을 포함하는 용어로 이해되어야 한다.

예를 들면, 도면에 도시되어 있는 소자를 뒤집을 경우, 다른 소자의 "아래(below)" 또는 "아래(beneath)"로 기술된 구성 요소는 다른 구성 요소의 "위(above)"에 놓여질 수 있다. 따라서, 예시적인 용어인 "아래"는 아래와 위의 방향을 모두 포함할 수 있다. 구성 요소는 다른 방향으로도 배향될 수 있고, 이에 따라 공간적으로 상대적인 용어들은 배향에 따라 해석될 수 있다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

비록 제1, 제2 등이 다양한 구성 요소들을 서술하기 위해서 사용되나, 이들 구성 요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성 요소를 다른 구성 요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성 요소는 본 발명의 기술적 사상 내에서 제2 구성 요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

도 1은 영상에서 움직임을 파악하는 것을 나타내기 위한 도면이다.

본 발명은 다수의 CCTV로부터 입력된 영상에서 특정한 오브젝트(Object; 사람, 자동차 등)을 검색하여 발생한 장소로부터 물체를 검색하는 솔루션으로써, 시분할 모듈을 사용하여 다수의 카메라 영상을 동시에 처리하고, 검색 대상이 발견된 시점으로부터 근거리에 존재하는 카메라를 발견된 시간 이후로 재검색함으로써 물체의 이동을 지도 기반으로 표현을 가능하게 하는 시스템이다.

도 1에서, VMS(Video Management System; 비디오 관리 시스템, 비디오 녹화/저장/재생 서버)는 복수의 카메라(미도시)로부터의 데이터를 입력받는다. 일예로, 30대의 카메라로부터의 1개월치의 영상이 VMS(비디오 관리 시스템; 비디오 녹화/저장/재생 서버)에 저장 및 관리될 수 있다.

저장된 영상 데이터에 대한 분석 방법의 일예는 아래와 같다.

GOP(Group of Pictures) 단위로 키 프레임(key frame) 간의 차이점을 파악한다. GOP란, MPEG 표준 비디오 압축 기술에서 사용되는 프레임(이미지)의 집합을 의미하며, 간단히 말하면 여러 장의 이미지를 하나로 그룹화해서 압축하는 방식이라고 말할 수 있다. GOP 내에는 크게 나누어 두 종류의 프레임으로 나눌 수 있는데, 키 프레임과 예측 프레임이 그것이다. 이 중에서, 예측 프레임은 세부적으로는 순방향 예측을 사용하는 P-frame과 양방향 예측을 사용하는 B-frame으로 나눌 수도 있다.

키 프레임은 GOP 간격을 결정할 때 기준이 되는 역할을 한다. 예측을 사용하지 않고 하나의 완전한 이미지를 구성하기 위한 데이터를 포함하고 있기 때문에 다른 프레임을 참조(reference)하지 않고 독립적인 부호화 및 인코딩(압축)이 가능하다. 원본 소스에 가장 근접하고 용량이 크며, 압축 방식은 JPEG와 유사하지만 동일하지는 않다. 데이터 스트림의 어느 위치에도 올 수 있으며, 데이터의 임의 접근(키 프레임 탐색)을 위해 사용되기도 한다.

이와 같이, 본 발명에서 GOP 단위로 키 프레임 간의 차이점을 파악한다. 키 프레임(40)과 키 프레임(50)(예컨대, 키 프레임(40)의 1초 후) 사이의 차는 프레임 차(45)로서 추출된다. 실제 이미지 전체에서는 키 프레임(40) 바로 직후의 프레임이 키 프레임(50)이 아닐 수 있고, 그 사이에 복수의 에측 프레임이 있을 수 있지만, 도 1에서는 GOP에서 예측 프레임은 생략하고, 하나의 GOP에서 키 프레임(40)을 선정하고, 다음 GOP에서 키 프레임(50)을 선정하여 키 프레임(40)과 키 프레임(50)을 비교한다. 키 프레임만을 추출하여 나란히 배열하면, 예컨대, 키 프레임(40)의 실제 시간과 키 프레임(50)의 실제 시간은 각각 시간 t(즉, t 시점)와 시간 t+1(즉, t+1 시점)로서 1초 차이가 날 수 있다.

마찬가지로, 키 프레임(60)와 키 프레임(50) 사이의 차는 프레임차(55)로서 추출된다. 이러한 프레임 차(45, 55)에서는 정지해 있는 주변의 이미지는 제거되고 움직이는 대상(예컨대, 사람이나 차)만이 남게 된다.

이렇게 GOP 단위로 키 프레임(40, 50, 60) 사이의 차이를 파악하면서, 검색 대상이 나오기 전까지는 건너뛰는 것이 바람직하다.

도 2는 움직이는 물체가 찾고자 하는 대상(오브젝트)인지의 여부를 파악하는 절차를 나타내는 도면이다.

도 2에서 't 시점과 t+1 시점의 프레임차'를 판단한다(단계 400). 이는 도 1에서도 언급된 바 있다.

단계 400에서 구한 값에 차이가 있는지의 여부(즉, 프레임차 사이의 차가 존재하는지의 여부)를 판단한다(단계 410). 차이가 있으면, 단계 420으로 이행하여, DNN 오브젝트 체킹을 행한다. 만약 차이가 없으면, 단계 410에서 좌측으로 분기하여 다음 시점의 영상을 읽어들여서 단계 400을 반복한다(단, 다음 시점의 영상에 대해 처리하는 바, 단계 400의 괄호 안에 기재된 바와 같이 't+2 시점과 t+1 시점의 프레임차' 사이의 차를 구한다).

DNN이란 심층 신경망(Deep neural network)을 말하며, 딥 러닝(deep learning)을 위해 사용하는 충분히 깊은 인공신경망을 말한다. '깊다'는 것은, 머신 러닝에서 사용되는 입력층-은닉층-출력층으로 이루어진 인공신경망에 있어서, 은닉층의 갯수가 많음을 의미하며, 이렇게 충분히 깊어진 인공신경망을 러닝 모델로 사용하는 머신러닝 패러다임을 딥러닝(deep Learning)이라고 한다.

이와 같이 DNN(심층 신경망)을 이용한 딥 러닝에 의해, 움직이는 오브젝트가 원하는 대상(사람 또는 자동차)인지의 여부를 판단한다(단계 430).

만약 원하는 대상(사람 또는 자동차)이라고 판단되면, 이를 메타데이터로서 기록한다(단계 440). 단계 440에서 메타데이터로서 기록한다 함은, 원하는 대상(사람 또는 자동차)에 대해 움직임이 발생한 것으로 파악한다는 것을 의미한다.

상기 단계 410에서 차이가 없다고 판단하면 그 좌측으로 분기하여 다음 시점의 영상을 읽어들여서 단계 400을 반복하였던 것과 마찬가지로, 단계 430에서 오브젝트가 원하는 대상이 아니라고 판단하면(즉, 사람이나 자동차가 아니라고 판단하면), 단계 430에서 좌측으로 분기하여 다음 시점의 영상을 읽어들여서 단계 400을 반복한다(단, 이때에도, 다음 시점의 영상에 대해 처리하는 바, 단계 400의 괄호 안에 기재된 바와 같이 't+2 시점과 t+1 시점의 프레임차' 사이의 차를 구한다).

도 3는 메타데이터로부터 시간의 흐름에 따른 비디오 데이터를 생성하는 것을 나타내는 도면이다.

도 2의 단계 440에서, 원하는 오브젝트(대상)의 움직임에 대한 메타데이터를 작성하는 것에 대해 설명한 바 있다. 그 메타데이터의 상세에 대해 도 3를 이용하여 설명한다.

도 3에는 편의상 3대의 CCTV에 대해서 예시되어 있으나, 일예로 하나의 지방자체단체에서 동시에 작동하는 CCTV는 3000대일 수 있다. 물론, 필요에 따라서는 이를 구역별로 나누어서 특정 구역의 CCTV 500대에서만 분석하는 등의 변형도 가능할 것이다.

CCTV 1에서 메타데이터(5001~5005)의 5개소에서 원하는 대상(예컨대, 사람 또는 자동차)의 움직임이 포착되었다고 가정하자. 메타데이터(5001~5005)에는 1. 어떠한 물체인지(즉, 사람 또는 자동차인지의 여부, 필요에 따라서는 사람과 자동차도 서로 구분 가능), 2. 색상, 3. 크기, 4. 시작 시간, 5. 끝 시간의 데이터가 기록되는 것이 바람직하다. 또한, CCTV 2에서 메타데이터(5006)의 1개소에서 원하는 대상(오브젝트)의 움직임이 포착되었다고 가정하고, CCTV 3에서 메타데이터(5007)의 1개소에서 원하는 대상의 움직임이 포착되었다고 가정하자.

물론 표시된 메타데이터(5001~5007)는 원하는 대상(사람 또는 자동차)의 움직임이 포착되었음을 의미할 뿐, 그 7개의 움직임이 동일한 대상(즉, 특정한 사람 또는 특정한 자동차)의 움직임을 의미한다고 볼 수는 없다. 그러나, CCTV를 사람이 일일이 육안으로 파악하는 것이 아니라 인공지능에 의해 검색을 행하기 위해서는 어떠한 특정한 대상의 움직임을 파악하기 위한 경우가 대부분일 것이다. 이를 위해, 1. 자동차이면서, 2. 빨간 색이면서, 3. 특정 범위의 크기를 갖는다는 세가지 조건이 모두 충족되면 일단은 동일한 특정의 대상이라고 판단한다. 물론, 실제로는 다른 대상일 수도 있으나, 더 이상 세부 조건을 부가하여 구분하는 것은 검색을 지나치게 어렵게 만들기 때문에 이 정도의 조건으로 구분하는 것이 바람직하다.

그러나, 만약에 세가지 조건을 모두 만족하는 물체(대상, 오브젝트)가 메타데이터(5001~5007) 중에서 너무 적은 갯수밖에 없다면(예컨대, 5001 뿐이라면) 당해 오브젝트의 이동 경로를 파악하는 것은 불가능하거나 매우 어렵다. 따라서, 세가지 조건 중의 두가지 조건이 충족되면(예컨대, 물체의 종류가 같고(즉, 자동차), 색상이 같다면(즉, 빨간 색)) 유사한 검색으로 취급한다.

그러면, 동일 또는 유사한 검색 결과는 전체 메타데이터(5001~5007의 7개소) 중에서 5001, 5003, 5007이 된다.

이들 3개의 메타데이터(5001, 5003, 5007)는 서로 시작 시간 및 종료 시간이 상이하며, 2개 이상의 CCTV(도 3의 예에서는 2개의 CCTV)에서 발견되어 있다. 그러면, 이러한 동일 또는 유사한 검색 결과를 갖는 메타데이터(5001, 5003, 5007)만을 모아서 편집하여 편집 비디오 영상(edited video footage)(5100)를 만들 수 있다. 도 3의 예에서는 이(5100)는 3개의 조각의 합으로 되어 있으며, 각 조각은 시간 순으로 배열되어 있다. 즉, 5001, 5003, 5007의 순으로 배열한다.

이렇게 해서 얻어진 편집 비디오 영상(5100)를 보는 것만으로도 특정의 대상에 대한 움직임 파악이 행해질 수 있다. 특히, 중요한 일특징으로서, 상기 편집 비디오 영상(5100)의 각각의 조각은 어느 CCTV에서 얻어진 것인지에 대한 정보를 담고 있다는 것이다. 즉, 편집 비디오 영상(5100)에서 5001, 5003은 CCTV 1로부터의 것이고 5007은 CCTV 3으로부터의 것임에 대한 정보가 포함되어 있다. 그런데, 이 CCTV 1, 2, 3 ...(도 3의 예에서는 CCTV 1, 3)은 단순히 숫자가 매겨진 것이 아니라, 당해 CCTV 하나하나가 특정의 위치를 나타낸다. CCTV는 서로 간에 간격을 두고(예컨대, 200~300미터) 특정의 물리적인 위치에 설치되어 있기 때문이다. 따라서, 특정의 오브젝트가 CCTV 1에서 특정 시간(5001의 시작 시간 및 5003의 시작 시간)에 나타나고 또한 CCTV 3에서 특정 시간(5007의 시작 시간)에 나타났다 함은 당해 오브젝트의 이동 궤적이 된다. 이처럼, 편집 비디오 영상(5100)에는 찾고자 하는 특정 오브젝트의 이동 궤적에 대한 정보까지 포함되어 있다고 볼 수 있다.

물론, 이러한 이동 궤적이 편집 비디오 영상(5100)의 동영상 자체에 시각적으로 곧바로 나타나는 것은 아니지만, 어떠한 CCTV로부터의 메타데이터인지에 대한 정보가 포함되어 있으므로, 별도의 과정을 거쳐서 이동 궤적을 지도상에 이미지화하여 표시하는 것도 가능하다.

도 4은 본 발명의 시스템의 개요를 나타내는 도면이다.

도면부호 601은 VMS(비디오 관리(녹화/저장/재생) 시스템)이다. 이는 CCTV로부터의 영상을 관리(녹화/저장/재생)한다.

도면부호 602에서, 영상 입력은 통신 방식인 TCP 방식의 SDK(software development kit)를 활용하여 비디오 데이터를 피딩(feeding)한다.

도면부호 603은 멀티 스레드(Multi-Thread) 방식의 영상 분석 모듈을 나타낸다.

도면부호 604는 하나하나의 영상 분석 모듈이다. 구체적으로, 동적 스레드 프로세스(Dynamic Thread Process)는, 움직임이 발생하면 DNN(deep neural network)을 통해 관심 대상인 오브젝트(사람, 자동차)인지의 여부를 파악한다(즉, DNN을 통해 오브젝트를 확인). 그 구체적인 과정에 대해서는 도 1, 2 등을 통해 설명한 바 있다. 이때, 일예로, 라운드 로빈(Round-Robin) 방식을 통해 미리 형성(pre-create) 된 프로세스(DNN)로부터 원하는 오브젝트인지의 여부를 확인하는 방식을 사용할 수 있다..

도면부호 605는 DNN 프로세스를 나타낸다. 이는 GPU 베이스(base)에 대한 DNN 프로세스로서, 일예로, GPU 메모리에서 허용되는 약 10개의 프로세스를 생성한다.

도면부호 606은 영상 분석 모듈(603, 604)로부터 시간, 위치, 색, 사이즈, 오브젝트의 종류 등을 예컨대 XML 형태로 메타데이터(meta data)화 시켜서 메타데이터 모듈(607)로 전달한다.

도면부호 607은 메타데이터 모듈이다. 분석된 내용이 원하는 오브젝트(사람, 자동차)라고 확인되면, 해당 데이터를 메타데이터 처리 프로세스가 데이터베이스화 시킨다.

도면부호 608은 영상 분석 결과가 저장되는 데이터베이스이다. 예컨대, 도 3에서 설명한 모든 메타데이터(5001~5007)는 데이터베이스(608)에 저장되어 있을 수 있다.

도면부호 609에서, 찾고자 하는 데이터를 입력한다.

도면부호 610은 유사도 검색 모듈이다. 도면부호 609에서 입력된 이미지에서 특징점을 추출하고 이러한 특징점을 중심으로 유사도 검색 모듈이 데이터베이스(608)로부터 쿼리(query)를 통해 조회한다. 예컨대, 도 3의 예에서 설명한 메타데이터 중에서 메타데이터(5001, 5003, 5007)가 쿼리를 통해 유사하다고 조회된 결과물일 수 있다.

도면부호 611은 찾아진 데이터베이스 정보를 토대로 VMS(601)로부터 데이터를 추출하여 편집 비디오 영상을 생성하는 것을 나타낸다. 이는 도 3를 통해 상세히 설명한 바 있으며, 도 3의 예를 기준으로 하면, 메타데이터(5001, 5003, 5007)에 대응하는 영상이 합쳐져서 하나의 요약본 비디오로서 생성될 것이다.

도면부호 612는, 도면부호 611에서 찾아진 메타데이터베이스 중 위치 정보를 토대로 하여 지도 상에 시각적으로 위치를 표시(mapping)하는 것을 나타낸다. 지도 상에 표시하는 것의 상세에 대해서는 도 6 등을 통해 후술하기로 한다.

도 5은 도 4을 단순화하여 또는 다른 관점으로 나타낸 도면이다.

도 5에서 CCTV로부터 VMS(비디오 관리 시스템; 실시간 녹화/저장/재생 시스템)를 통해 영상 프레임의 초당 이미지(예컨대 키 프레임)가 전달되면, 이벤트 오브젝트 검색 모듈(event object search module)을 통해 Faster-RNN 기반의 프로세스가 진행되고, 이 프로세스를 통해, 찾고자 하는 이미지가 해당되는 데이터임을 판단한다.

구체적으로, 도 5에서 비디오 소스 입력(701)은 복수의 CCTV를 의미하는 것일 수도 있고 또는 당해 CCTV로부터의 영상을 입력으로서 받은 VMS(601)를 의미하는 것일 수도 있다. 비디오 소스 입력(701)이 시분할 모듈(702)에 입력됨에 있어서, 여러 API를 포함하는 SDK(software development kit)를 이용하여 구현할 수 있다.

시분할 모듈(702)은 도 4에서 도면부호 602~606에 해당하는 장치 또는 과정을 의미한다. 즉, 복수의 카메라(CCTV)로부터의 입력을 시분할 처리하고, 복수의 카메라부터의 영상에서 추출한 키 프레임(예컨대 1초당 1개의 이미지)에 대해 딥 러닝(심층신경망(deep neural network)(예컨대, faster-RNN 등)을 이용한 머신 러닝)을 적용하여 처리를 행한다.

시분할 모듈(702)로부터의 처리 결과물은 메타데이터 처리 모듈(703)로 전달된다. 메타데이터 처리 모듈(703)은 도 4의 도면부호 607, 608, 610에 대응된다.

도 5에서, 이벤트 오브젝트 검색 모듈(704)에 찾고자 하는 이미지를 입력한다. 이벤트 오브젝트 검색 모듈(704)은 도 4의 도면부호 609에 대응된다. 찾고자 하는 이미지가 이벤트 오브젝트 검색 모듈(704)에 입력되면, 입력된 이미지에서 특징점을 추출하고 이러한 특징점을 중심으로 데이터베이스로부터 쿼리(query)를 통해 조회한다. 이러한 이벤트 오브젝트 검색 모듈(704)은 예컨대 API(application programming interface)를 이용하여 구현한 것일 수 있다. REST(REpresentational State Transfer)는 자원을 이름(자원의 표현)으로 구분하여 해당 자원의 상태(정보)를 주고 받는 모든 것을 의미하는데, 본 발명의 이벤트 오브젝트 검색 모듈(704)은 REST 적합 API(소위, RESTful API)를 통한 이벤트 트레이닝 모델 체인지를 통해 구현된 것일 수 있다.

설명의 편의상, 도 5의 메타데이터 처리 모듈(703)은 도 4의 도면부호 607, 608, 610에 대응되고, 도 5의 이벤트 오브젝트 검색 모듈(704)은 도 4의 도면부호 609에 대응된다고 설명하였으나, 이는 반드시 그럴 필요는 없고, 예컨대, 도 5의 메타데이터 처리 모듈(703)은 도 4의 도면부호 607, 608에 대응되고, 도 5의 이벤트 오브젝트 검색 모듈(704)은 도 4의 도면부호 609, 610에 대응되는 등으로 변형하여 그 기능을 적절히 분산하거나 처리 순서를 다소 변경하는 것도 가능하다.

도 5의 비디오 작성 모듈(705)은 도 4의 비디오 편집(611)에 대응된다.

도 5의 지도 위치별 표시 모듈(지도 기반의 위치 표시 디스플레이)(706)은 도 4의 맵 디스플레이(612)에 대응된다.

비디오 작성 모듈(705) 및 지도 위치별 표시 모듈(지도 기반의 위치 표시 디스플레이)(706)로의 외부 표출은 예컨대 API(application programming interface)를 이용하여 구현한 것일 수 있다.

도 6(a)는 비디오 다중 처리를 설명하는 도면이다.

도 6(b)는 비디오 맵 디스플레이를 설명하는 도면이다.

도 6(a)에서, 서로 다른 다수의 CCTV 영상(예컨대, 30 채널 또는 31 채널)으로부터 입력받은 영상에 대해, 단위별로 도 5과 같은 프로세스를 통하여 메타데이터를 생성하고, 생성된 메타데이터 데이터베이스로부터 찾고자 하는 오브젝트(즉, 원하는 오브젝트)의 유사성이 있는 것들을 파악하고, 도 1~3의 과정을 통하여 위치별 데이터를 지도에 표시함으로써 도 6(b)와 같이 실제 이동경로를 파악할 수 있게 된다.

도 6(a)에서, 복수의 소스 비디오 0~30으로부터의 입력이 이벤트 오브젝트 검색 모듈(704)에 입력된다. 도 6(a)의 복수의 소스 비디오 0~30은 도 5의 비디오 소스 입력(701)에 대응되거나, 또는 도 5의 비디오 소스 입력(701) 및 시분할 모듈(702)에 대응될 수 있다.

구체적으로, 도 6(a)에서, 오브젝트를 검색함에 있어서, 먼저 (PSMH 기반의) 최초 이벤트 탐색기(801)를 거친다. 이를 거친 후에 (ATSA 기반의) 축소 범위 탐색기(802)를 거친다. 이러한 과정을 통해 탐색 범위를 최소화 및 최적화하는 것이 가능하다.

이러한 도 6(a)의 과정(또는 도 1~3의 과정)을 거친 후에 편집 비디오 영상 및/또는 맵 디스플레이 데이터를 얻을 수 있다.

즉, CCTV 번호(고유의 ID)를 알면 당해 CCTV가 물리적/지리적으로 어디에 위치해 있는지 알 수 있고, 당해 편집 비디오 영상에 편입된 데이터가 어느 시간에 어느 CCTV에서 찍혔는지 파악할 수 있으므로, 지도상에 시간에 따른 이동 궤적을 표시하는 것이 가능해진다. 예컨대, 31개의 CCTV(카메라) 중에서 특정의 5개의 CCTV에 검색하고자 하는 오브젝트와 동일 또는 유사한 것으로 판단되는 자취가 나타났다면 이를 도 6(b)와 같이 나타낼 수 있다.

도 3의 예에서는 CCTV 1, 3에 나타나고 CCTV 2에 나타나지 않은 것이 도시되어 있으나, 도 6(b)의 예에서는 편의상, CAM a CAM b, CAM c, CAM d, CAM e의 순으로, 검색하고자 하는 오브젝트와 동일 또는 유사한 것으로 판단되는 자취가 나타났다고 가정하면 이를 도 6(b)와 같이 시간 순서에 따른 이동 궤적으로서 나타낼 수 있다.

도 7(a) 및 도 7(b)는 검색의 다른 예를 나타내는 도면이다.

도 7(a) 및 도 7(b)에서, 찾고자 하는 대상(이벤트 오브젝트 검색 모듈(704)에 검색 대상으로서 입력한 이미지)과 동일 또는 유사한 이미지가 CCTV A에서 최초 발견된 것을 나타낸다. CCTV A가 물리적/지리적으로 위치한 곳은 도 7(a)의 지도에 나타난 바와 같다. 그리고 CCTV A에서 당해 이미지가 발견된 후에 약간의 시간을 두고 CCTV B에서도, 찾고자 하는 대상과 동일 또는 유사한 이미지가 발견되었다. 그리고, 상당 시간이 경과하여도 CCTV C에서는, 찾고자 하는 대상과 동일 또는 유사한 이미지가 발견되지 않았다. CCTV B 및 C가 물리적/지리적으로 위치한 곳은 도 7(a)의 지도에 나타난 바와 같다.

그러면, 도 7(b)에 나타난 바와 같이, 찾고자 하는 대상은 특정 시간에 CCTV A에서 최초로 발견되고, CCTV B에서 추가로 발견되고, CCTV C에서는 발견되지 않은 셈이 된다. 그러면, 찾고자 하는 대상의 이동 궤적은 CCTV A 지점 → CCTV B 지점이 되고, 특히 CCTV C 지점은 이동 궤적에서 배제할 수 있다. 이 경우, CCTV B를 중심으로 탐색을 행함으로써 더욱 효율적인 조사를 행할 수 있게 된다.

참고로, 특정 위치에 CCTV에서 찾고자 하는 대상이 발견되지 않았다고 하더라도 이동 궤적에서 배제하는 것은 주의를 요한다. 예컨대, 인도를 포함하는 길에 설치된 CCTV이고 찾고자 하는 대상이 사람이라면 여러가지 변수가 있을 수 있으므로 CCTV C에 나타나지 않았다고 해도 이동 궤적에서 배제하는 것이 타당한지에 대해서는 의문이 있을 수 있다. 그러나, CCTV B 지점에서 CCTV C 지점으로 이동하는 경로도 계속하여 자동차 전용도로이고 찾고자 하는 대상이 자동차라면, CCTV B 지점에서는 발견되었으나 CCTV C 지점에서는 발견되지 않았다면 높은 확률로 당해 자동차가 CCTV B 지점을 지나고 CCTV C 지점을 지나지 않았음(예컨대, 중간에 IC를 이용하여 당해 자동차 전용도로를 빠져나갔음)을 추정할 수 있다.

이와 같이, 도로의 상태(이에 한정되는 것은 아니지만, 예컨대 자동차 전용도로인지), 찾고자 하는 대상의 종류(이에 한정되는 것은 아니지만, 예컨대 특정 색깔의 자동차인지) 등을 감안하여 특정 CCTV가 있는 위치를 이동 궤적에서 배제하는 것도 가능하다. 이동 궤적을 찾는 것도 중요하지만, 이동 궤적을 배제하는 것도 그에 못지 않게 큰 의미를 갖는 경우가 있으므로, 그러한 면에서도 본 실시예는 기술적인 효과를 갖는다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였으나, 본 발명은 상기 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 제조될 수 있으며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

40, 50, 60: 키 프레임
45, 55: 키 프레임의 차(difference)
5001~5007: 메타데이터
5100: 편집 비디오 영상
601: VMS(Video Management System)
603: 멀티 스레드 영상 분석 모듈
604: 영상 분석 모듈
607: 메타데이터 모듈
608: 데이터베이스
610: 유사도 검색 모듈
611: 비디오 작성 모듈
612: 맵 디스플레이
701: 비디오 소스 입력
702: 시분할 모듈
703: 메타데이터 처리 모듈
704: 이벤트 오브젝트 검색 모듈
705: 비디오 작성 모듈
706: 지도 기반 위치 디스플레이

Claims

CCTV 검색 및 지도 기반 표시 방법으로서,
복수의 카메라로부터 영상을 수신 및 저장하는 비디오 관리 서버;
상기 비디오 관리 서버로부터 상기 영상을 수신받아 시분할하여 상기 복수의 카메라로부터의 영상을 동시에 처리하는 멀티 스레드 영상 분석 모듈로서, 움직임이 발생하면 딥 러닝을 통해 관심 대상 오브젝트인지의 여부를 파악하는, 멀티 스레드 영상 분석 모듈;
상기 멀티 스레드 영상 분석 모듈로부터의 분석 결과를 이용하여, 상기 움직임에 대하여, 적어도 당해 움직임의 시간 및 당해 움직인 오브젝트의 종류를 포함하는 데이터인 메타데이터를 생성하는 메타데이터 모듈;
상기 메타데이터 모듈로부터 생성된 영상 분석 결과인 하나 이상의 상기 메타데이터가 저장되는 데이터베이스;
찾고자 하는 이미지를 입력받으면, 당해 이미지의 특징점을 추출하여 상기 데이터베이스에 질의(query)를 행하여 조회하는 유사도 검색 모듈;
상기 유사도 검색 모듈로부터의 비교 결과를 이용하여, 상기 찾고자 하는 이미지와 유사한 오브젝트가 출현한 시간 구간의 상기 메타데이터에 대응하는 영상을 조합하여, 상기 유사도 검색에서 찾아진 메타데이터에 대응하는 영상이 시간의 흐름에 따라 순차 나열된 편집 비디오를 제공하는 편집 비디오 작성 모듈; 및
상기 유사도 검색 모듈로부터의 비교 결과를 이용하여, 상기 찾고자 하는 이미지와 유사한 오브젝트가 출현한 시간 흐름에 따라 상기 찾고자하는 이미지와 유사한 오브젝트의 이동 궤적을 지도 상에 디스플레이하는 맵 디스플레이 모듈
을 포함하는 다중 CCTV 동시 검색 시스템을 이용하여,
상기 멀티 스레드 영상 분석 모듈에서, MPEG 표준 비디오 압축 기술에 있어서의 복수의 GOP(Group of Pictures) 각각의 키 프레임간의 차이를 파악함으로써 움직임을 파악하는 단계 (단, 상기 MPEG 표준 비디오 압축 기술에서 GOP(Group of Pictures)에 포함된 프레임은, (i) 다른 프레임을 참조하지 않고 독립적인 부호화 및 압축이 가능한 키 프레임과 (ii) P-frame 또는 B-frame인 예측 프레임으로 분류됨);
상기 멀티 스레드 영상 분석 모듈에서, 상기 키 프레임 간의 차이가 있으면, 상기 움직임의 주체의 오브젝트 종류를 확인하기 위하여 딥 러닝을 이용하는 단계;
상기 움직임의 주체의 오브젝트 종류가 검색 적합 오브젝트인지 확인하여, 검색 적합 오브젝트라면, 상기 메타데이터 모듈이 이를 상기 데이터베이스에 상기 메타데이터로서 기록해두는 단계;
상기 유사도 검색 모듈에, 상기 찾고자 하는 이미지가 입력되면, 당해 이미지의 특징점을 추출하여 상기 데이터베이스에 질의(query)를 행하여 상기 찾고자 하는 이미지에 대응하는 기저장된 데이터를 조회하는 단계;
상기 편집 비디오 작성 모듈에서, 상기 데이터베이스에의 질의 결과를 이용하여, 상기 찾고자 하는 이미지와 유사한 오브젝트가 출현한 시간 구간의 비디오를 편집하여 제공하는 단계로서, 상기 질의 결과에 따라 찾아진 유사한 오브젝트를 식별하는 정보를 포함하는 상기 메타데이터에 대응하는 영상이 시간의 흐름에 따라 순차 나열되도록 편집하는, 단계; 및
상기 맵 디스플레이 모듈에서, 상기 데이터베이스에의 질의 결과를 이용하여, 상기 찾고자 하는 이미지와 유사한 오브젝트가 출현한 시간 흐름에 따라 상기 찾고자하는 이미지와 유사한 오브젝트의 이동 궤적을 지도 상에 디스플레이하는 단계
를 포함하는, CCTV 검색 및 지도 기반 표시 방법.
CCTV 검색 및 지도 기반 표시 장치로서,
복수의 카메라로부터 영상을 수신 및 저장하는 비디오 관리 서버;
상기 비디오 관리 서버로부터 상기 영상을 수신받아 시분할하여 상기 복수의 카메라로부터의 영상을 동시에 처리하는 멀티 스레드 영상 분석 모듈로서, 움직임이 발생하면 딥 러닝을 통해 관심 대상 오브젝트인지의 여부를 파악하는, 멀티 스레드 영상 분석 모듈;
상기 멀티 스레드 영상 분석 모듈로부터의 분석 결과를 이용하여, 상기 움직임에 대하여, 적어도 당해 움직임의 시간 및 당해 움직인 오브젝트의 종류를 포함하는 데이터인 메타데이터를 생성하는 메타데이터 모듈;
상기 메타데이터 모듈로부터 생성된 영상 분석 결과인 하나 이상의 상기 메타데이터가 저장되는 데이터베이스;
찾고자 하는 이미지를 입력받으면, 당해 이미지의 특징점을 추출하여 상기 데이터베이스에 질의(query)를 행하여 조회하는 유사도 검색 모듈;
상기 유사도 검색 모듈로부터의 비교 결과를 이용하여, 상기 찾고자 하는 이미지와 유사한 오브젝트가 출현한 시간 구간의 상기 메타데이터에 대응하는 영상을 조합하여, 상기 유사도 검색에서 찾아진 메타데이터에 대응하는 영상이 시간의 흐름에 따라 순차 나열된 편집 비디오를 제공하는 편집 비디오 작성 모듈; 및
상기 유사도 검색 모듈로부터의 비교 결과를 이용하여, 상기 찾고자 하는 이미지와 유사한 오브젝트가 출현한 시간 흐름에 따라 상기 찾고자하는 이미지와 유사한 오브젝트의 이동 궤적을 지도 상에 디스플레이하는 맵 디스플레이 모듈
을 포함하며,
상기 멀티 스레드 영상 분석 모듈은, MPEG 표준 비디오 압축 기술에 있어서의 복수의 GOP(Group of Pictures) 각각의 키 프레임간의 차이를 파악함으로써 움직임을 파악하고, 상기 키 프레임 간의 차이가 있으면, 상기 움직임의 주체의 오브젝트 종류를 확인하기 위하여 딥 러닝을 이용하며 (단, 상기 MPEG 표준 비디오 압축 기술에서 GOP(Group of Pictures)에 포함된 프레임은, (i) 다른 프레임을 참조하지 않고 독립적인 부호화 및 압축이 가능한 키 프레임과 (ii) P-frame 또는 B-frame인 예측 프레임으로 분류됨),
상기 움직임의 주체의 오브젝트 종류가 검색 적합 오브젝트인지 확인하여, 검색 적합 오브젝트라면, 상기 메타데이터 모듈이 이를 상기 데이터베이스에 상기 메타데이터로서 기록해 두며,
상기 유사도 검색 모듈은, 상기 찾고자 하는 이미지가 입력되면, 당해 이미지의 특징점을 추출하여 상기 데이터베이스에 질의(query)를 행하여 상기 찾고자 하는 이미지에 대응하는 기저장된 데이터를 조회하며,
상기 편집 비디오 작성 모듈은, 상기 데이터베이스에의 질의 결과를 이용하여, 상기 찾고자 하는 이미지와 유사한 오브젝트가 출현한 시간 구간의 비디오를, 상기 질의 결과에 따라 찾아진 유사한 오브젝트를 식별하는 정보를 포함하는 상기 메타데이터에 대응하는 영상이 시간의 흐름에 따라 순차 나열되도록 편집하여 제공하도록 구성되며,
상기 맵 디스플레이 모듈은, 상기 데이터베이스에의 질의 결과를 이용하여, 상기 찾고자 하는 이미지와 유사한 오브젝트가 출현한 시간 흐름에 따라 상기 찾고자하는 이미지와 유사한 오브젝트의 이동 궤적을 지도 상에 디스플레이하도록 구성되는, CCTV 검색 및 지도 기반 표시 장치.