KR102450028B1

KR102450028B1 - 객체 정보 및 지역 정보를 이용한 탐색 지역 결정 방법 및 이를 수행하는 시스템

Info

Publication number: KR102450028B1
Application number: KR1020200076967A
Authority: KR
Inventors: 김익재; 최희승; 김학섭; 채승호; 양윤식
Original assignee: 한국과학기술연구원
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2022-10-05
Also published as: US20210406301A1; US11663801B2; KR20210158535A

Abstract

실시예들은 영상 질의에 포함된, 타겟 객체의 객체 정보를 획득하는 단계; 상기 객체 정보에 기초하여 타겟 객체의 비-영상 특징 세트를 생성하는 단계; 사용자 입력에 기초하여 탐색 후보 지역을 지정하는 단계; 상기 탐섹 후보 지역에 관한 정보를 지역 데이터베이스로부터 획득하는 단계; 및 상기 탐색 후보 지역에 관한 정보 및 비-영상 특징 세트의 적어도 일부 중 적어도 하나에 기초하여 탐색 지역을 결정하는 단계를 포함하는 탐색 지역 결정 방법 및 이를 수행하는 시스템에 관련된다.

Description

객체 정보 및 지역 정보를 이용한 탐색 지역 결정 방법 및 이를 수행하는 시스템{METHOD FOR DETERMINIG SERACH REGION USING REGION INFORMATION AND OBJECT INFORMATION AND SYSTME PERFORMING THE SAME}

본 발명의 실시예들은 대규모 CCTV 비디오에서 타겟 객체가 나타난 비디오를 검색하는 것을 지원하기 위해 탐색 지역을 결정하는 기술에 관한 것으로서, 보다 상세하게는 타겟 객체의 객체 정보와 탐색 후보 지역의 지역 정보를 이용하여 추기 검색을 수행하는 탐색 지역을 결정하는 방법 및 이를 수행하는 시스템에 관련된다.

최근 치안/보안에 대한 사회적 관심이 높아짐에 따라, 거리, 골목, 건물 내부 등에 설치되는 CCTV의 개수가 급격히 증가하고 있다. 따라서, 이러한 CCTV에 연결된 시스템에서는 1초에 수천 내지 수십만장 이상의 비디오 프레임을 획득하게 된다.

범죄, 실종 등의 사건 발생 시, 빠른 시간 내에 사용자가 검색하길 원하는 특정 타겟 객체(예컨대, 얼굴, 사람, 자동차 등)의 동선을 파악하는 것이 가장 중요하다. 그러나, 대규모 입력 프레임에서 특정 타겟 객체를 찾기 위해서는 많은 시간이 소모된다.

따라서, 초기 탐색 지역을 지정함으로써 입력 프레임의 범위를 집중하는 기술이 요구된다.

종래의 선행기술(한국 특허등록공보 제10-1142933호 (2012.05.11.))은 사용자의 이동 단말을 통해 사용자의 위치를 파악함으로써 CCTV 비디오의 검색 범위 및 시간을 줄일 수 있다. 그러나, 검색 타겟 객체가 이동 단말을 갖고 있지 않거나 검색 타겟 객체의 이동 단말을 알 수 없는 경우에는 신속한 검색이 어려운 한계가 있다.

특허등록공보 제10-1142933호 (2012.05.11.)

본 발명의 일 측면에 따르면 타겟 객체의 객체 정보와 탐색 후보 지역의 지역 정보를 이용하여 추기 검색을 수행하는 탐색 지역을 결정하는, 다수의 CCTV를 포함한 검색 시스템을 제공할 수도 있다.

이 외에도, 객체 정보 및 지역 정보를 이용한 탐색 지역 결정 방법 및 이를 기록한 컴퓨터 판독가능 기록 매체를 제공할 수도 있다.

본 발명의 일 측면에 따른 탐색 지역 결정 방법은 프로세서를 포함한 컴퓨팅 장치에 의해 수행되며, 상기 방법은: 영상 질의에 포함된, 타겟 객체의 객체 정보를 획득하는 단계; 상기 객체 정보에 기초하여 타겟 객체의 비-영상 특징 세트를 생성하는 단계; 사용자 입력에 기초하여 탐색 후보 지역을 지정하는 단계; 상기 탐섹 후보 지역에 관한 정보를 지역 데이터베이스로부터 획득하는 단계; 및 상기 탐색 후보 지역에 관한 정보 및 비-영상 특징 세트의 적어도 일부 중 적어도 하나에 기초하여 탐색 지역을 결정하는 단계를 포함할 수도 있다.

일 실시예에서, 상기 방법은: 상기 영상 질의에 포함된, 상기 타겟 패치의 적어도 일부를 나타낸 타겟 객체 패치를 획득하는 단계; 상기 타겟 객체 패치에 기초하여 상기 타겟 객체의 영상 특징 세트를 생성하는 단계를 더 포함할 수도 있다. 여기서, 상기 탐색 지역은 상기 타겟 객체의 영상 특징 세트에 더 기초하여 (즉, 상기 탐색 후보 지역에 관한 정보 및 비-영상 특징 세트의 적어도 일부 중 적어도 하나 그리고 영상 특징 세트에 기초하여) 결정된다.

일 실시예에서, 상기 탐색 후보 지역을 지정하는 단계는, 사용자 입력이 면적을 갖는 형상을 형성하는 경우, 형성된 형상에 대응하는 지역을 탐색 후보 지역으로 지정하는 단계; 상기 사용자 입력이 선을 형성하는 경우, 형성된 선을 경로로 포함하는 지역을 탐색 후보 지역으로 지정하는 단계; 상기 사용자 입력이 하나의 점(point)을 형성하는 경우, 상기 점을 기준으로 하나 이상의 탐색 후보 지역을 지정하는 단계; 및 상기 사용자 입력이 복수의 점(points)을 형성하는 경우, 상기 복수의 점에 기초하여 하나 이상의 경로를 생성하고, 생성된 경로를 포함한 지역을 탐색 후보 지역으로 지정하는 단계;를 포함 할 수도 있다.

일 실시예에서, 상기 지역 정보는 지정된 해당 지역의 지리적 정보, 상기 지역 내에 위치한 장소에 관한 정보, 해당 지역의 일부 또는 전부의 평상시 상황을 표현하는 상황 정보를 포함 할 수도 있다. 여기서, 상기 상황 정보는 상기 영상 질의가 입력?? 이전에 발생한 이벤트 발생 시간, 빈도 또는 위치, 해당 지역 내 객체의 이동량 또는 이동 방향을 포함한다.

일 실시예에서, 상기 방법은: 상기 탐색 후보 지역과 상기 타겟 객체 간의 상관관계를 특정 지역과 특정 객체 간의 연관성을 정의한 상관관계 룰에 기초하여 결정하는 단계를 더 포함 할 수도 있다.

일 실시예에서, 상기 객체 정보는 복수의 특징 항목 및 해당 항목에 대한 데이터를 포함 할 수도 있다. 여기서, 상기 복수의 특징 항목은 객체군, 색상 항목, 객체 치수 항목, 텍스처 정보, 외관 정보, 중 상기 타겟 객체와 관련된 이벤트 정보 하나 이상을 포함 할 수도 있다.

일 실시예에서, 상기 영상 특징 세트는, 타겟 패치 또는 관심객체의 패치에 나타난 사람 영상에서 바디 파트를 검출하여 골격(skeleton) 정보 및 바디파트(body-part) 정보를 산출하고; 골격 및 바디파트가 융합된 재구성 정보에서 글로벌 특징을 추출하며; 골격 정보 및 바디파트 정보 각각에서 파트별 특징을 추출하고, 그리고 상기 글로벌 특징 및 파트별 특징을 결합(concatenate)하여 튜브의 특징 결과 정보를 출력하도록 구성된 기계 학습 모델에 상기 타겟 객체 패치를 적용하여 생성될 수도 있다.

일 실시예에서, 상기 탐색 지역을 결정하는 단계는, 상기 탐색 후보 지역을 촬영한 촬영영상의 특징 세트와 상기 타겟 객체의 특징 세트에 기초하여 매칭 스코어를 산출하는 단계; 및 활성화 함수와 상기 매칭 스코어의 조합을 통해 각 탐색 후보 지역에서의 검색 확률을 하는 단계를 포함할 수도 있다.

일 실시예에서, 상기 매칭 스코어는 다음의 수학식을 통해 산출된다.

[수학식]

여기서, xt는 타겟 객체의 특징 세트, xj는 해당 탐색 후보 지역에서 촬영된 j번째 촬영영상의 특징 세트를 나타내고, 상기 타겟 객체의 특징 세트는 상기 타겟 객체의 영상 특징 세트를 서브 세트로 포함 할 수도 있다.

일 실시예에서, 상기 매칭 스코어는 다음의 수학식을 통해 산출되고,

[수학식]

여기서, xt는 타겟 객체의 특징 세트, xj는 해당 탐색 후보 지역에서 촬영된 j번째 촬영영상의 특징 세트를 나타내고, x_info는 객체정보에 포함된 비-영상 특징 세트를 나타내고, x_region는 탐색 후보 지역의 지역정보를 나타내며, 상기 타겟 객체의 특징 세트는 상기 타겟 객체의 비-영상 특징 세트 및 상기 타겟 객체의 영상 특징 세트를 서브 세트로 포함할 수도 있다.

일 실시예에서, 상기 x_info와 x_region는 특정 초기 값으로 설정되며, 상관관계가 정의된 객체와 지역에 대해서는 미리 지정된, 일정한 값이 합산될 수도 있다.

일 실시예에서, 상기 활성화 함수와 상기 매칭 스코어의 조합은 다음의 수학식으로 표현될 수도 있다.

[수학식]

여기서, x는 상기 매칭 스코어를 나타내고, λ와 γ는 상수로서, λ는 평탄화 인자(smoothing factor)를 나타내고 γ는 축소 인자(shirinking factor)를 나타낸다.

본 발명의 다른 일 측면에 따른 컴퓨터 판독가능 기록매체는 컴퓨팅 장치에 의해 판독가능하고, 상기 컴퓨팅 장치에 의해 동작 가능한 프로그램 명령어를 저장할 수도 있다. 여기서, 상기 프로그램 명령어가 상기 컴퓨팅 장치의 프로세서에 의해 실행되는 경우 상기 프로세서가 상술한 실시예들에 따른 탐색 지역 결정 방법을 수행하게 한다.

본 발명의 또 다른 일 측면에 따른 시스템은 복수의 CCTV 및 서버를 포함할 수도 있다. 여기서, 상기 서버는: 영상 질의에 포함된, 타겟 객체의 객체 정보를 획득하고, 상기 객체 정보에 기초하여 타겟 객체의 비-영상 특징 세트를 생성하는 특징 획득부; 사용자 입력에 기초하여 탐색 후보 지역을 지정하는 탐색 후보 지정부; 상기 탐색 후보 지역에 관한 정보를 지역 데이터베이스로부터 획득하고, 상기 탐색 후보 지역에 관한 정보 및 비-영상 특징 세트의 적어도 일부 중 적어도 하나에 기초하여 탐색 지역을 결정하는 탐색 지역 결정부; 및 결정된 탐색 지역에서 CCTV에 의해 촬영된 원본 비디오에서 타겟 객체를 촬영한 비디오를 검색하는 검색부를 포함할 수도 있다.

본 발명의 일 측면에 따른 검색 시스템은 대규모 CCTV로부터 획득된 대규모 비디오에서 타겟객체가 나타난 비디오 프레임(또는 비디오)을 검색하기 위해, 타겟객체를 촬영한 확률이 높은 탐색지역을 결정하여 우선적으로 검색을 수행한다. 이로 인해, 상기 검색 시스템은 검색 시간이 단축된다. 나아가, 검색 시간이 늘어남에 따라 발생하는 성능 저하 문제를 차단할 수도 있다.

특히, 타겟 객체가 자동차이거나 또는 사람이더라도 신원을 알 수 없어, 타겟 객체의 단말을 특정할 수 없는 경우에도 대규모 입력 프레임에서 타겟 객체를 신속하게 검색할 수 있다.

본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

본 발명 또는 종래 기술의 실시예의 기술적 해결책을 보다 명확하게 설명하기 위해, 실시예에 대한 설명에서 필요한 도면이 아래에서 간단히 소개된다. 아래의 도면들은 본 명세서의 실시예를 설명하기 위한 목적일 뿐 한정의 목적이 아니라는 것으로 이해되어야 한다. 또한, 설명의 명료성을 위해 아래의 도면들에서 과장, 생략 등 다양한 변형이 적용된 일부 요소들이 도시될 수 있다.
도 1은, 본 발명의 일 실시예에 따른, 검색 시스템의 개념도이다.
도 2는, 본 발명의 일 실시예에 따른, 골격/바디 특징 추출 모델의 네트워크 구조도이다.
도 3a 내지 도 3b는, 본 발명의 일 실시예에 따른, 사용자 입력에 따라 탐색 후보 지역을 지정하는 동작을 설명하기 위한 도면이다.
도 4은, 도 3a의 탐색 후보 지역의 지역 정보(neighborhood information)를 설명하기 위한 도면이다.
도 5는, 본 발명의 일 실시예에 따른, 탐색 지역 결정 방법의 흐름도이다.

여기서 사용되는 전문 용어는 단지 특정 실시예를 언급하기 위한 것이며, 본 발명을 한정하는 것을 의도하지 않는다. 여기서 사용되는 단수 형태들은 문구들이 이와 명백히 반대의 의미를 나타내지 않는 한 복수 형태들도 포함한다. 명세서에서 사용되는 "포함하는"의 의미는 특정 특성, 영역, 정수, 단계, 동작, 요소, 성분 및/또는 부품을 구체화하려는 것이며, 다른 특성, 영역, 정수, 단계, 동작, 요소, 성분 및/또는 부품의 존재나 부가를 제외시키는 것은 아니다.

다르게 정의하지는 않았지만, 여기에 사용되는 기술용어 및 과학용어를 포함하는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 의미와 동일한 의미를 가진다. 보통 사용되는 사전에 정의된 용어들은 관련기술문헌과 현재 개시된 내용에 부합하는 의미를 가지는 것으로 추가 해석되고, 정의되지 않는 한 이상적이거나 매우 공식적인 의미로 해석되지 않는다.

본 명세서에서 이벤트는 사건, 사고 등을 포함한다. 상기 이벤트는

이하에서, 도면을 참조하여 본 발명의 실시예들에 대하여 상세히 살펴본다.

도 1은, 본 발명의 일 실시예에 따른, 검색 시스템의 개념도이다.

도 1을 참조하면, 상기 검색 시스템(1)은 서버(10) 및 상기 서버(10)에 영상 및/또는 비디오를 공급하는 다수의 CCTV(30)를 포함한다. 상기 검색 시스템(1)은 사용자의 영상 질의를 수신하고, 영상 질의의 타겟 객체를 촬영한 영상(예컨대, 비디오 프레임) 또는 비디오를 검색할 수도 있다. 또한, 검색 결과를 사용자에게 제공할 수도 있다. 이러한 도 1의 동작에 대해서는 아래의 도 2 등을 참조하여 보다 상세하게 서술한다.

일 실시예에서, 상기 검색 시스템(1)은 특징 획득부(11); 탐색 후보 지정부(13); 상관관계 결저우(15), 탐색 지역 결정부(17); 및 검색부(19)를 포함한다. 일부 실시예들에서, 상기 검색 시스템(1)은 단일 특징 획득부(11)를 포함하며, 상기 단일 특징 획득부(11)가 타겟객체의 특징 세트와 촬영영상의 특징 세트(예컨대, 촬영영상에 포함된 촬영객체의 특징 세트)를 생성하도록 구성될 수도 있다. 다른 일부 실시예들에서, 상기 검색 시스템(1)은 타겟객체의 특징 세트를 생성하는 제1 특징 획득부(11)과 촬영영상의 특징 세트를 생성하는 제2 특징 획득부(11)를 포함할 수도 있다.

실시예들에 따른 검색 시스템(1)은 전적으로 하드웨어이거나, 전적으로 소프트웨어이거나, 또는 부분적으로 하드웨어이고 부분적으로 소프트웨어인 측면을 가질 수 있다. 예컨대 시스템은 데이터 처리 능력이 구비된 하드웨어 및 이를 구동시키기 위한 운용 소프트웨어를 통칭할 수 있다. 본 명세서에서 "부(unit)", “모듈(module)”“장치”, 또는 "시스템" 등의 용어는 하드웨어 및 해당 하드웨어에 의해 구동되는 소프트웨어의 조합을 지칭하는 것으로 의도된다. 예를 들어, 하드웨어는 CPU(Central Processing Unit), GPU(Graphic Processing Unit) 또는 다른 프로세서(processor)를 포함하는 데이터 처리 가능한 컴퓨팅 장치일 수 있다. 또한, 소프트웨어는 실행중인 프로세스, 객체(object), 실행파일(executable), 실행 스레드(thread of execution), 프로그램(program) 등을 지칭할 수 있다.

상기 CCTV(30)는 물리적 신호를 수신하여 촬영 범위 내의 상황(situation)을 촬영함으로써 비디오(또는 영상)를 생성하도록 구성된 촬영기기이다. 상기 CCTV(30)가 촬영하여 생성한 비디오는 원본 비디오로 지칭된다. 상기 시스템(1)은 상기 CCTV(30)가 동작하는 동안 실시간으로 촬영하여 촬영 범위의 객체 및/또는 배경을 포함한 원본 비디오를 획득한다.

복수 개의 CCTV(30)는 복수의 지역에 설치된다. 상기 복수의 지역은 다수의 CCTV(30)가 각 CCTV(30)의 촬영 영역이 서로 독립적으로 설치된 지역, 또는 자신의 촬영 영역의 적어도 일부를 공유하여, 동일한 객체가 다수의 CCTV(30) 중 적어도 일부에서 중복으로 촬영되도록 설치된 하나 이상의 부분 지역을 포함한다.

유/무선 통신을 통해 서버(10)에 연결된 CCTV(30)는 설치된 지역의 적어도 일부를 촬영 영역으로 가진다. 각각의 CCTV(30)는 해당 촬영 영역의 상황을 촬영하여 원본 비디오를 생성하고, 원본 비디오 및 관련된 상세 정보를 서버(10)에 전송한다.

일 실시예에서, 상기 복수의 지역은 독립적으로 설치된 지역, 또는 적어도 일부의 촬영 영역을 공유하는, 상기 복수의 CCTV 중 일부 CCTV(30)가 설치된 지역을 포함한다. 이 지역에 설치된 일부 CCTV(30)는 전체 CCTV(30) 중에서 둘 이상의 CCTV(30)이다. 그러면, 예를 들어 해당 지역에서 이동하는 객체가 복수의 CCTV(30)가 공유하는 촬영 영역을 통과하는 경우, 상기 객체가 나타난 원본 비디오는 복수 개가 획득된다. 즉, 객체가 복수의 CCTV(30)에 의해 중복 촬영된다.

예를 들어, 도 1에서 노인정 옆 사거리(E)에 4개의 CCTV(30)가 설치될 수도 있다. 상기 4개의 CCTV(30)는 일부 또는 전부가 객체(O)를 중복으로 촬영 가능한 촬영범위를 갖도록 설치될 수도 있다.

복수의 CCTV(30)는 복수의 원본 비디오를 생성하여 서버(10)로 공급하기 위해 서버(10)와 유/무선의 네트워크를 통해 연결된다. 이러한 CCTV(30)는 아날로그 CCTV, 디지털 CCTV, 고정식 CCTV, 이동식 CCTV 등에 제한되지 않으며, 실시간으로 영상 정보를 획득할 수 있는 다양한 촬영기기를 포함할 수 있다. 예를 들어, 스마트폰, 블랙박스 등 또한 본 발명의 CCTV(30)로 동작할 수 있다.

또한, 상기 CCTV(30)는 영상 또는 비디오를 생성하고, 그리고 생성한 영상 또는 비디오(예컨대, 원본 비디오)와 관련된 상세 정보를 생성하도록 더 구성된다. 상기 상세 정보는 원본 비디오를 촬영한 CCTV(30)의 식별정보(예컨대, 식별자(identifier)), CCTV(30)의 위치 정보, 원본 비디오의 촬영 시간, 및/또는 원본 비디오의 식별정보 등을 포함한다. 예를 들어, CCTV(30)가 촬영범위 내의 상황을 촬영하여 원본 비디오를 생성한 경우, 상기 원본 비디오를 이루는 복수의 프레임, 그리고 해당 CCTV(30)의 식별자, 프레임 식별자, 촬영시간 등을 포함한 상세 정보가 획득된다. 이러한 상세 정보는 관련된 원본 비디오가 전송될 경우, 함께 전송되며, 특별한 언급이 없는한 본 명세서에서 원본 비디오가 다른 구성요소로 전송되는 동작에서 관련된 상세 정보의 전송이 배제되는 것으로 의도되지 않는다.

서버(10)는 네트워크 서버로 구현되는 다수의 컴퓨터 시스템 또는 컴퓨터 소프트웨어로서, 다수 개의 CCTV(30)에 의해 생성된 영상(예컨대, 원본 비디오)을 유/무선의 네트워크를 통해 수신하도록 구성된다. 여기서, 네트워크 서버란, 사설 인트라넷 또는 인터넷과 같은 컴퓨터 네트워크를 통해 다른 네트워크 서버와 통신할 수 있는 하위 장치와 연결되어 작업 수행 요청을 접수하고 그에 대한 작업을 수행하여 수행 결과를 제공하는 컴퓨터 시스템 및 컴퓨터 소프트웨어(네트워크 서버 프로그램)를 의미한다. 그러나 이러한 네트워크 서버 프로그램 이외에도, 네트워크 서버 상에서 동작하는 일련의 응용 프로그램과 경우에 따라서는 내부에 구축되어 있는 각종 데이터베이스를 포함하는 넓은 개념으로 이해되어야 할 것이다.

상기 검색 시스템(1)은 하나 이상의 데이터베이스를 포함할 수도 있다.

일 실시예에서, 상기 검색 시스템(1)은 CCTV(30)로부터 획득된 원본 영상(또는 비디오)를 저장하는 CCTV 데이터베이스(50) 및/또는 CCTV 설치 지역에 관련한 정보를 저장하는 지역 데이터베이스(70)를 포함할 수도 있다. 지역 데이터베이스(70)에 대해서는 아래의 표들과 도 4 등을 참조하여 보다 상세하게 서술한다.

타겟 객체에 대한 영상 정보 제공 요청(이하, 영상 질의)을 수신하기 이전에, 상기 검색 시스템(1)은 CCTV 데이터베이스(50)에 원본 영상(또는 비디오)을 저장하거나, 또는 원본 영상(또는 비디오)에 기초한 영상 처리 정보를 추가로 저장할 수도 있다.

일 실시예에서, 상기 검색 시스템(1)은 (예컨대, 특징 획득부(11)에 의해) 촬영영상의 특징 세트를 추출하여 영상 처리 정보로 CCTV 데이터베이스(50)에 저장할 수도 있다. 그러면, 상기 검색 시스템(1)은 영상질의를 수신하면, 미리 저장된 촬영영상의 특징 세트를 이용하여 탐색 지역을 결정할 수도 있다.

특징 획득부(11)는 사용자 입력에 포함된 객체 또는 입력영상에 포함된 객체의 특징 데이터 세트를 생성할 수도 있다. 서버(10)가 타겟 객체에 대한 영상질의를 수신하면, 영상질의에 기초하여 타겟 객체의 특징 세트를 생성한다. 타겟 객체의 특징 세트는 객체 정보로부터 획득된, 비-영상 특징의 서브 세트 및/또는 타겟 객체 패치로부터 획득된, 영상 특징의 서브 세트로 이루어질 수도 있다.

일 실시예에서, 상기 영상질의는 타겟 객체의 객체 정보 및/또는 타겟객체의 적어도 일부가 나타난 타겟 객체 패치(target object patch)를 포함할 수도 있다.

특징 획득부(11)는 영상질의에 포함된 타겟 객체의 객체 정보를 수신할 수도 있다. 상기 객체 정보는 검색하고자 하는 타겟 객체를 표현할 수 있는 정보를 포함한다. 일 실시예에서, 상기 객체 정보는 복수의 비-영상 특징의 항목 및 각 항목에 대한 데이터를 포함한다. 해당 항목에 대한 정보항목과 각 항목에 대한 데이터로 이루어진다.

상기 복수의 비-영상 특징 항목은 객체군(object class)을 포함한다. 특정 실시예들에서, 상기 복수의 비-영상 특징 항목은 세부 항목을 더 포함할 수도 있다. 상기 세부 항목은 타겟 객체를 묘사하는, 객체군 이외의 다양한 항목이다. 상기 세부 항목은 예를 들어, 색상 항목, 객체 치수 항목, 텍스처 항목, 외관 특징 항목, 및 이벤트 항목 중 하나 이상을 포함할 수도 있다.

상기 객체군은 사건, 사고 등의 이벤트에 관련된 객체의 유형을 나타낸다. 상기 객체의 유형은, 예를 들어, 사람 및/또는 자동차 등을 포함한다.

또한, 상기 객체군은 객체의 세부 유형에 대한 기준인 객체의 하위 유형을 더 포함할 수 있다. 예를 들어, 상기 객체군은 사람의 유형의 하위 유형으로서 어린이, 노인, 치매환자 및/또는 정신지체자 등을 포함할 수도 있다. 상기 객체군은 자동차의 하위 유형으로서 승용차(car), 승합차, SUV(sports utility vehicle), 트럭 등을 포함할 수도 있다.

상기 하위 유형은 타겟 객체의 특수한 이동 패턴과 관련된다. 타겟 객체가 치매환자인 경우 치매환자 고유의 이동 패턴에 따라 이동할 가능성이 높다. 타겟 객체가 정신지체자일 경우 정신지체자 고유의 이동 패턴에 따라 이동할 가능성이 높다. 이러한 객체군별 이동 패턴에 대해서는 아래의 상관관계에서 보다 상세하게 서술한다.

상기 세부 정보는 타겟 객체의 인상착의와 관련된 색상의 데이터를 색상 항목에 대한 데이터로 포함할 수도 있다. 색상 항목의 데이터는, 예를 들어, 타겟 객체의 상의 및/또는 하의 색상의 데이터를 포함할 수도 있다.

상기 세부 정보는 타겟 객체의 사이즈와 관련된 치수의 데이터를 색상 항목에 대한 데이터로 포함할 수도 있다. 객체 치수 정보는 타겟 객체가 사람인 경우 신체 지수(예컨대, 키)를 포함하고, 타겟 객체가 객체(예컨대, 자동차)인 경우 객체의 사양(specification) 등을 포함할 수도 있다.

상기 세부 정보는 타겟 객체의 텍스쳐에 관련된 데이터를 텍스처 항목에 대한 데이터로 포함할 수도 있다. 사람의 경우 사람의 피부 텍스처는 나이와 깊은 관련이 있다. 따라서, 타겟 객체가 사람인 경우, 텍스처 정보는 나이 값을 포함할 수도 있다. 또는 상기 텍스처 정보는 타겟 객체가 객체인 경우 객체의 표면 재질에 관한 정보를 포함할 수도 있다.

상기 세부 정보는 다른 객체에는 상대적으로 낮은 빈도로 표현되는, 타겟 객체가 고유하게 갖는 외관에 관한 데이터를 외관 항목에 대한 데이터로 포함할 수도 있다. 외관 특징은 실종 전단에서 신체 특징 또는 특이사항으로 사용되는 정보를 포함한다. 외관 특징 정보는 예를 들어 점의 유무 또는 위치, 눈매의 형태, 악세서리 착용 정보 등을 포함할 수도 있다.

상기 세부 정보는 타겟 객체와 관련된 이벤트에 관한 데이터를 이벤트 항목에 대한 데이터로 포함할 수도 있다. 이벤트 정보는 이벤트의 유형, 발생 시간, 및/또는 발생 장소 등을 포함할 수도 있다. 상기 이벤트의 유형은 실종 등을 포함한 사건 및/또는 범죄, 교통사고 등을 포함한 사고를 포함한다.

상기 서버(10)는 영상 질의를 통해 획득한 타겟 객체의 비-영상 특징에 대한 정보를 이용하여 (예컨대, 특징 획득부(11)에 의해) 타겟 객체의 비-영상(non-image) 특징의 서브 세트를 생성할 수도 있다. 상기 서브 세트는 상기 객체 정보의 복수의 항목 중 적어도 일부의 항목에 대한 특징 값으로 이루어진다. 상기 특징 세트는 특징벡터로 지칭될 수도 있다. 특징벡터의 성분은 복수의 항목 중 적어도 일부의 항목의 성분에 대응한다.

특징 획득부(11)는 비-영상 특징의 항목 데이터가 수치인 경우 상기 수치를 특징 세트의 특징 값으로 사용할 수도 있다. 또한, 비-영상 특징의 항목 데이터를 미리 저장된 룰에 기초하여 대응 값으로 변환하여 특징 세트의 특징 값으로 사용할 수도 있다.

서버(10)는 색상 정보를 수치화하는 색상 테이블을 미리 저장할 수도 있다. 그러면, 서버(10)는 색상 정보에 대응하는 색상 값을 상기 색상 테이블을 통해 변환하여 색상 항목에 대한 특징 값을 생성할 수도 있다.

예를 들어, 서버(10)는 {객체군, 키}를 포함한 타겟 객체의 객체 정보를 획득한 경우, {상기 객체군에 대응하는 값, 키 수치}를 포함한 특징 벡터를 생성할 수도 있다(S250).

일부 실시예들에서, 특징 획득부(11)는 액세서리 착용 여부 항목, 정신지체자 항목, 치매환자 항목 등과 같이 예/아니오로 표현되는 정보는 이진 값(예컨대, 0 또는 1)을 특징 값으로 가질 수도 있다.

다른 일부 실시예들에서, 특징 획득부(11)는 영상 질의에 포함된 텍스트 질의를 기계 학습된 텍스트 분석 모델에 적용하여 이미지 레벨의 특징을 추출함으로써 텍스트로 표현된 정보의 특징을 획득할 수도 있다. 상기 텍스트 분석 모델은 텍스트의 모양에서 특징을 추출하여 해당 텍스트의 의미를 결정하도록 기계학습된 모델이다. 그러면 특징 획득부(11)는 추출된 특징으로 이루어진 타겟 객체의 특징 세트를 생성할 수도 있다.

특정 실시예들에서, 상기 텍스트 분석 모델은 텍스트 속성을 추출하여 텍스트의 카테고리를 분류하는 부분; 및 속성을 임베딩(embedding)하는 부분을 포함할 수도 있다.

이와 같이, 서버(10)는, 색상 정보, 나이 정보, 성별 정보, 액세서리 착용 여부 정보, 정신지체자 정보 및/또는 치매환자 정보 등을 포함한 영상질의를 수신하면, 서버(10)는 상기 객체 정보의 항목 중 적어도 하나의 항목에 대한 데이터에 기초하여 각 특징 항목에 대한 특징 값을 획득할 수도 있다. 그러면, 객체 정보의 항목에 대한 특징 값의 서브 세트를 포함한 특징 벡터를 생성할 수도 있다.

상기 서버(10)는 영상 질의를 통해 획득한 타겟 객체 패치를 이용하여 (예컨대, 특징 획득부(11)에 의해) 타겟 객체의 영상(image) 특징의 서브 세트를 생성할 수도 있다. 상기 영상 특징은 시각적 특징 또는 영상 속성으로 지칭될 수도 있다.

서버(10)가 타겟 객체 패치를 입력받으면 (예컨대, 특징 획득부(11)에 의해) 타겟 객체의 시각적 특징(visual features)의 세트를 패치로부터 추출한다. 상기 시각적 특징 세트의 일부 또는 전부는 타겟 객체의 특징 세트의 서브 세트를 이룰 수도 있다. 서버(10)는 추출된 영상 특징 세트를 탐색 지역을 결정하는데 사용할 수도 있다.

서버(10)는 다양한 영상 속성 추출 알고리즘을 통해 타겟 객체 패치로부터 시각적 특징 세트를 추출할 수도 있다. 상기 영상 속성 추출 알고리즘은 신경망(nueral network) 기반 알고리즘을 포함할 수도 있다.

일 실시예에서, 시각적 특징 세트는 어텐션 모델(attention model)을 통해 타겟 객체 패치로부터 추출될 수도 있다. 어텐션 모델은 인간의 시각적 집중(visual attention) 현상을 구현하도록 구성된 신경망(nueral nerwork) 구조를 갖는 모델이다.

어텐션 모델은 특징 추출 레이어를 포함한다. 상기 특징 추출 레이어는 하나 이상의 컨볼루션 레이어를 포함한다. 어텐션 모델은 추출된 특징에 기초하여 하나 이상의 특징맵(feature map)을 산출하도록 구성될 수도 있다.

상기 어텐션 모델은 훈련 영상의 쌍(pair of training image)에 기초하여 훈련된다. 어텐션 모델은 훈련 영상의 쌍의 각각의 영상으로부터 특징을 각각 추출하고, 각각의 특징에 기초하여 어텐션 맵(attention map)을 산출한다. 상기 어텐션 모델은 어텐션 맵에 따른 로스(idtification attention loss, Lia)를 최소화하도록 학습된다. 어텐션 모델의 구조 및 학습 과정에 대해서는 선행기술(Re-Identification with Consistent Attentive Siamese Networks, (2019.04.))에 보다 상세하게 기재되어 있는바, 자세한 설명은 생략한다.

다른 일 실시예에서, 시각적 특징 세트는 골격/바디 특징 추출 모델을 통해 타겟 객체 패치로부터 추출될 수도 있다.

도 2는, 본 발명의 일 실시예에 따른, 골격/바디 특징 추출 모델의 네트워크 구조도이다.

도 2를 참조하면, 골격/바디 특징 추출 모델은 타겟 객체 패치로부터 타겟 객체의 골격 및/또는 바디의 특징을 추출하도록 구성된다. 골격/바디 특징 추출 모델은, 타겟 객체가 사람인 경우, 사람이 나타난 영역에서 바디 파트를 검출하고 골격(skeleton) 정보 및 바디파트(body-part) 정보를 산출하도록 구성된다.

일 예에서, 골격/바디 특징 추출 모델은 Semantic segmentation, Instance segmentation 알고리즘을 통해 바디 파트를 검출할 수도 있다. 그러나, 이러한 알고리즘에 제한되지 않으며, 다양한 영역 분할 알고리즘에 의해 수행될 수도 있다.

또한, 골격/바디 특징 추출 모델은 골격 및 바디파트가 융합된 재구성 정보(예컨대, 마스크 재구성 영상)에서 글로벌 특징을 추출하도록 구성된다. 또한, 골격/바디 특징 추출 모델은 골격 정보 및 바디파트 정보 각각에서 파트별 특징을 추출하도록 구성된다.

또한, 골격/바디 특징 추출 모델은 상기 글로벌 특징 및 파트별 특징을 결합(concatenate)하여 타겟 객체 패치의 특징 결합 정보를 출력하도록 구성될 수도 있다.

서버(10)는 이러한 글로벌 특징, 파트별 특징 및/또는 특징 결합 결과를 포함한 시각적 특징 세트를 추출할 수도 있다.

서버(10)는 (예컨대, 특징 획득부(11)에 의해) 객체 정보로부터 획득된, 비-영상 특징 세트 및/또는 타겟 객체 패치로부터 획득된, 영상 특징 세트를 서브 세트로 갖는 타겟 객체의 특징 세트를 생성할 수도 있다.

탐색 후보 지정부(13)는 탐색 후보 지역을 지정할 수도 있다. 상기 탐색 후보 지역은 복수의 CCTV(30) 전체가 설치된 전체 지역에 포함된다.

일 실시예에서, 탐색 후보 지역은 사용자 입력에 기초하여 지정될 수도 있다. 서버(10)는 탐색 후보 지역을 지정하기 위한 사용자 입력을 수신할 수도 있다.

도 3은, 본 발명의 일 실시예에 따른, 사용자 입력에 따라 탐색 후보 지역을 지정하는 동작을 설명하기 위한 도면이다.

도 3을 참조하면, 상기 사용자 입력은 상기 전체 지역의 일부 또는 전부가 표시된 화면에서 부분 영역을 형성하는 입력, 상기 화면에서 선을 형성하는 입력 및/또는 점(point)을 포인팅하는 입력을 포함한다. 특정 실시예들에서, 이러한 사용자 입력은 드래그 입력, 포인팅 입력 및 이들의 조합 중 하나 이상의 입력으로 구현될 수도 있다. 상기 드래그 입력, 포인팅 입력 등은 터치 입력, 또는 (예컨대, 마우스 입력, 키보드 입력과 같은) 기타 입력 장치 등을 통해 입력될 수도 있다.

상기 부분 영역을 형성하는 입력은 드래그 입력으로 구현될 수도 있다.

일 실시예에서, 탐색 후보 지정부(13) 는 단일 드래그 입력에 의해 부분 영역을 형성할 수도 있다. 서버(10)는 드래그 입력을 수신하면, 드래그 거리에 대응하는 내부 길이를 갖는 형상을 형성하도록 구성된다. 상기 형상은 상기 화면의 부분 영역으로서, 예를 들어 다각형(polygon), 타원형(ellipse), 또는 원형(circle) 등일 수도 있다. 그러면, 서버(10)는 해당 부분 영역에 대응하는 지역을 탐색 후보 지역으로 지정할 수도 있다. 예를 들어, 도 3a에 도시된 네모 영역에 대응하는 지역을 탐색 후보 지역으로 지정할 수도 있다.

또는, 탐색 후보 지정부(13)는 복수의 드래그 입력에 의해 부분 영역을 형성할 수도 있다. 서버(10)는 드래그 입력을 수신하면 드래그 거리에 대응하는 선을 형성하도록 구성된다. 탐색 후보 지정부(13)는 다수의 드래그 입력에 따른 다수의 선을 연결하여 형상을 형성할 수도 있다. 그러면, 탐색 후보 지정부(13)는 해당 부분 영역에 대응하는 지역을 탐색 후보 지역으로 지정할 수도 있다.

상기 선(line)을 형성하는 입력은 드래그 입력, 포인트 입력 및 이들의 조합 중 하나 이상의 입력으로 구현될 수도 있다. 탐색 후보 지정부(13)는 사용자 입력에 따라서 시작 지점으로부터 종료 지점을 갖는 선을 형성할 수도 있다.

일 실시예에서, 서버(10)는 드래그 입력을 수신하면 드래그 거리에 대응하는 선을 형성하도록 구성된다. 탐색 후보 지정부(13)는 드래그 입력이 개시되는 포인팅 지점을 시작점으로 가지고 드래그 입력이 종료되는 릴리즈 지점을 종료 지점으로 갖는 선을 형성하고, 해당 선에 대응하는 경로를 결정할 수도 있다. 그러면, 해당 선에 대응하는 경로를 포함한 지역이 탐색 후보 지역으로 지정된다. 여기서, 해당 선에 대응하는 경로는 도 3b에 도시된 바와 같이 파란색 선이 나타내는 도로를 포함할 수도 있다.

그러면, 서버(10)는 해당 선에 대응하는 경로를 포함하는 지역을 탐색 후보 지역으로 지정할 수도 있다.

일 실시예에서, 서버(10)는 적어도 두 번의 포인팅 입력을 수신하면, 첫 번째 포인팅 입력 지점을 시작 지점으로 가지고 마지막 포인팅 입력 지점을 종료 지점으로 갖는 선을 형성하도록 구성된다. 탐색 후보 지정부(13)는 포인팅 순서 및 포인팅 위치에 기초하여 각 위치를 순서대로 연결함으로써 단일 선을 형성할 수도 있다. 상기 선은 중간 지점을 포함할 수도 있다. 그러면, 서버(10)는 해당 선에 대응하는 경로를 포함하는 지역을 탐색 후보 지역으로 지정할 수도 있다. 예를 들어, 탐색 후보 지정부(13)는 도 3b에 도시된 바와 같이 사거리(G)에서 시작하여 사거리(H)를 지나 사거리(D)로 진행하는 선을 형성하고, 해당 선에 대응하는 경로, 즉 도로를 포함한 지역을 탐색 후보 지역으로 지정할 수도 있다.

또 다른 일 실시예에서, 서버(10)는 적어도 두 번의 포인팅 입력을 수신하면, 각각의 선을 서로 연결하여 하나 이상의 선을 형성할 수도 있다. 상기 하나 이상의 선 중 어느 하나의 선은 다른 하나의 선을 통과할 수도 있다. 탐색 후보 지정부(13)는 각각의 선에 대응하는 경로를 전체 지역 내에서 결정할 수도 있다. 그러면, 탐색 후보 지정부(13)는 하나 이상의 선을 포함하는 탐색 후보 지역을 지정할 수도 있다.

상기 지점(point)을 형성하는 입력은 포인팅 입력으로 구현될 수도 있다.

일 예에서, 서버(10)는 단일 포인팅 입력을 수신하면 포인팅 입력 위치에서 지점을 형성하도록 구성된다. 탐색 후보 지정부(13)는 상기 지점로부터 소정 거리의 영역에 대응하는 지역을 탐색 후보 지역으로 지정할 수도 있다.

상기 탐색 후보 지정부(13)에는 탐색 후보 지역의 수가 미리 설정할 수도 있다. 상기 수는 1개 또는 n개(n은 2이상 자연수)일 수도 있다. 예를 들어, 서버(10)에는 탐색 후보 지역을 1개, 3개, 또는 5개 지정하도록 설정될 수도 있다.

일 실시예에서, 서버(10)는 복수의 탐색 후보 지역을 지정하기 위해, 다수의 사용자 입력을 입력받을 수도 있다. 여기서, 다수의 사용자 입력은 복수의 탐색 후보 지역의 지정을 위해 드래그 입력, 포인팅 입력 및 이들의 조합 중 어느 하나가 각각의 탐색 후보 지역 별로 복수회 입력되는 것을 나타낸다.

다른 일 실시예에서, 탐색 후보 지정부(13)는 단일 사용자 입력에 의해 형성된 단일 탐색 후보 지역에 기초하여 다수의 다른 탐색 후보 지역을 더 지정할 수도 있다.

예를 들어, 탐색 후보 지정부(13)가 포인팅 입력의 위치의 지점을 중심점으로 가지는, 소정의 거리로서 제1 직경을 갖는 원을 형성하여 하나의 탐색 후보 지역을 지정할 수도 있다. 이어서 서버(10)는 제1 직경을 점차 확장하여 제2 직경 및/또는 제3 직경을 갖는 다른 원을 추가 형성하여 다른 탐색 후보 지역을 더 지정할 수도 있다. 여기서 제2 직경은 제1 직경 보다 크고, 제3 직경 보다 작은 수치를 가진다.

이와 같이, 서버(10)는 사용자 입력에 따른 영역을 탐색 후보 지역으로 지정할 수도 있다.

상관관계 결정부(15)는 탐색 후보 지역의 지역 정보(neighborhoods information)를 획득한다. 일 실시예에서 상관관계 결정부(15)는 하나 이상의 탐색 후보 지역에 관한 지역 정보를 지역 데이터베이스(70)에서 검색할 수도 있다.

지역 정보는 해당 지역의 지리적 정보(예컨대 위치) 및/또는 해당 지역을 구성하는 지리적/지역적 구성요소에 관한 정보를 포함한다. 예를 들어, 지역 정보는 해당 지역 내 장소에 관한 정보, 상기 장소가 랜드마크인지 여부에 관한 정보 등을 포함할 수도 있다.

상기 장소는 해당 지역 내 건축물, 기반시설(infrastructure), 기타 시설물 등을 포함한, 다양한 시설물을 지칭한다. 기반시설은 기반시설의 식별정보(예컨대, 도로명, 위치), 또는 기반시설의 유형(예컨대, 직선도로, 교차로, 회전 로터리)을 포함한다. 건축물은 터미널, 건물 등을 포함한다. 기타 시설물은 버스정류장, 동상 등을 포함한다. 해당 지역 내 랜드마크에 해당하는 건축물, 기반시설, 또는 시설물에는 랜드마크 정보가 더 연관될 수도 있다.

서버(10)는 도 3a의 지역이 탐색 후보 지역으로 지정되면, 장소 정보로서 노인정에 관한 정보, 놀이터에 관한 정보, 버스정류장에 관한 정보, 도로(R_V1, R_V2, R_V3, R_V4, R_H1, R_H2)에 관한 정보 등을 포함할 수도 있다.

상기 장소 정보는 장소의 지리적 정보를 포함한다. 상기 지리적 정보는 절대적 위치 및/또는 상대적 위치를 포함한다. 상기 절대적 위치는, 예를 들어 경도/위도 등으로 표현될 수도 있다. 상기 상대적 위치는 해당 지역에 있는 랜드마크로부터의 상대적 위치를 나타낸다. 상기 상대적 위치는 랜드 마크의 위치, 해당 장소의 위치, 상기 랜드마크와 해당 장소 간의 거리, 상기 랜드마크와 해당 장소 간의 간격 정도 등을 포함한다.

예를 들어, 도 1 및 도 3a를 참조하면, “사거리(B)”의 상대적 위치는 랜드마크인 “놀이터”를 기준으로 표현될 수도 있다. “사거리(B)”의 상대적 위치는 “놀이터”로부터의 간격 정도(“근처”)를 포함할 수도 있다.

도 1 및 도 3a를 참조하면, “도로(R_H2)”의 상대적 위치는 랜드마크인 버스 정류장을 기준으로 표현될 수도 있다. “도로(R_H2)”의 상대적 위치는 버스 정류장으로부터의 간격 정도(“근처”)를 포함할 수도 있다.

또한, 지역 정보는 해당 지역의 일부 또는 전부의 평상시 상황을 묘사하는 상황 정보를 포함할 수도 있다. 평상시 상황은 사건, 사고 등의 이벤트가 발생하지 않은 상황을 나타낸다.

일 실시예에서, 상기 상황 정보는 평상시 해당 지역 상의 객체(들)의 이동량 및/또는 이동 방향을 포함할 수도 있다. 이동량, 이동 방향에 관한 정보는 촬영영상으로부터 획득될 수도 있다. 특정 실시예들에서, 서버(10)는 타겟 객체의 영상질의를 수신하기 이전에, 촬영영상에서 움직이는 객체를 검출하고 해당 객체의 이동량 및/또는 이동 방향을 미리 검출할 수도 있다. 이를 위해, 특징 획득부(11)는 비디오에서 객체를 추적하여 검출하는 기법을 통해 객체의 이동량 및/또는 이동방향을 획득할 수도 있다.

또한, 상황 정보는 해당 지역에서 발생하는 이벤트의 유형, 이벤트 발생 빈도 등을 포함한, 이벤트에 관한 통계 정보를 더 포함할 수도 있다. 서버(10)는 이러한 정보를 지역 정보로서 지역 데이터베이스(70)에 미리 저장할 수도 있다.

상관관계 결정부(15)는 영상질의를 통해 타겟 객체의 이벤트 발생 시간이 입력되면 해당 시간에서의 상황 정보를 획득할 수도 있다.

도 4은, 도 3a의 탐색 후보 지역의 지역 정보(neighborhood information)를 설명하기 위한 도면이다.

서버(10)가 사용자 입력에 따라 도 3a의 탐색 후보 지역을 지정한 경우, 상관관계 결정부(15)는 도 4에 도시된 정보를 포함한 상황 정보를 지역 데이터베이스(70)에서 검색할 수도 있다. 도 4의 정보는 아동 유괴 사건 및 차량 사고를 이벤트 유형으로 포함한 상황 정보를 포함한다. 또한, 도 4의 정보는 도 4에서 굵기가 나타내는 이동량 또는 이동 방향 정보를 포함할 수도 있다.

상관관계 결정부(15)는 (예컨대, 지역의 지리적 정보, 장소 정보, 및 상황 정보 중 하나 이상을 포함한) 지역 정보와 타겟 객체의 객체 정보에 기초하여 상관관계를 결정한다.

상관관계는 타겟 객체와 해당 지역의 연관성을 정의한 정보이다. 상기 상관관계는 특정 객체와 특정 장소 간의 연관성에 기초하여 결정된다. 일부 실시예에서, 서버(10)는 객체군과 장소 간의 연관성의 유무를 포함한 상관관계 룰을 미리 저장할 수도 있다.

상관관계 룰은 특정 객체와 특정 장소가 획득되면, 서로 연관성이 있다고 판단하는 기준이다.

예를 들어, 특정 객체군이 어린이인 경우, 상관관계 룰에서 어린이는 유치원, 학교, 놀이터, 기존의 유괴장소, 교통사고 발생장소 등과 연관성이 있다고 설정된다. 특정 객체군이 고령자인 경우, 상관관계 룰에서 고령자는 노인정, 대중교통 정류장 등과 연관성이 있다고 설정된다. 특정 객체군이 치매환자인 경우, 상관관계 룰에서 치매환자는 버스정류장 등과 같은 대중교통 정류장과 연관성이 있다고 설정된다.

제1 예에서, 서버(10)가 단계(S100)에서 객체군으로서 어린이, 기타 객체 정보로서 키와 정신지체 정보를 포함한 객체 정보를 획득하고 도 3a의 탐색 후보 지역이 지정된 경우, 서버(10)는 다음의 지역 정보와 상관관계 정보를 획득할 수도 있다.

제2 예에서, 서버(10)가 단계(S100)에서 객체군으로서 노인, 기타 객체 정보로서 거동불편과 치매 정보를 포함한 객체 정보를 획득하고 도 3a의 탐색 후보 지역이 지정된 경우, 서버(10)는 다음의 지역 정보와 상관관계 정보를 획득할 수도 있다.

이러한 과정을 통해 획득된 서버(10)는 이벤트 발생 시각, 지역의 상황, 해당 지역 내 장소와 타겟 객체와의 연관성 등을 고려하여 탐색 지역을 결정할 수도 있다. 탐색 지역 결정부(17)는 탐색 후보 지역에서 탐색 지역을 결정한다.

일 실시예에서, 탐색 지역 결정부(17)는 타겟 객체의 특징 세트와 탐색 후보 지역의 지역 정보를 이용하여 타겟 객체를 촬영한 CCTV 비디오를 검색하기 위한 탐색 지역을 결정할 수도 있다.

타겟 객체의 특징 셋트는 다음과 같이 정의 될수 있다.

x는 타겟 객체의 특징 세트, x_info는 영상에서 추출된 특징 벡터로서 영상 특징의 세트, x_region는 타겟객체의 객체정보에 포함된, 비-영상 특징의 세트, 는탐색 후보지역의 지역정보를 나탄낸다.

전술한 바와 같이, 타겟객체의 객체 정보는 사용자 입력에 의해 결정될 수도 있다. 또한, 탐색 후보지역의 지역정보는 미리 저장되거나, 또는 실시간 수집된 지역 관련 정보 중 적어도 일부가 사용될 수도 있다. 여기서, 실시간 수집되는 정보는 전술한 바와 같이, 해당 지역의 객체 이동량, 사건, 사고 관련 정보 등을 포함할 수도 있다. 타겟 객체의 탐색후보지역의 지역정보간의 상관관계는 사전에 등록하거나, 학습으로 결정될 수 있다.

복수의 탐색 후보 지역이 지정된 경우 일부 또는 전부가 탐색 지역으로 결정될 수도 있다. 또한, 단일 탐색 후보 지역이 지정된 경우 지정된 탐색 후보 지역이 탐색 지역으로 결정되지 않고, 다른 탐색 후보 지역을 다시 지정하는 과정이 수행될 수도 있다.

일 실시예에서, 탐색 지역 결정부(17)는 탐색 지역을 결정하기 위해, 타겟 객체의 특징 세트와 촬영영상(예컨대, 비디오 프레임)에 나타난 촬영 객체의 특징 세트에 기초하여 매칭 스코어를 산출할 수도 있다. 상기 매칭 스코어는 타겟 객체와 촬영 객체 간의 유사 정도를 나타낸다. 타겟 객체의 특징벡터와 동일 또는 유사한 특징벡터를 갖는 촬영 객체는 타겟 객체일 확률이 높다.

상기 촬영영상의 특징 세트의 특징 값에서 매칭 스코어를 산출하기 위해 사용되는 특징 값은 타겟 객체의 특징 세트에 의존한다.

일 실시예에서, 서버(10)는 상기 매칭 스코어를 산출하기 이전에, 촬영영상으로부터 추출된 영상 특징의 서브 세트를 포함한 상기 촬영영상의 특징 세트를 획득할 수도 있다. 예를 들어, 상기 타겟 객체의 특징 세트가 타겟 객체 패치로부터 추출된 영상 특징의 서브 세트를 포함한 경우, 서버(10)는 촬영영상으로부터 추출된 영상 특징의 서브 세트를 포함한 상기 촬영영상의 특징 세트를 미리 획득할 수도 있다.

매칭 스코어는 벡터 간의 다양한 유사도 산출 알고리즘을 통해 산출될 수도 있다. 상기 유사도 산출 알고리즘은 유클리디안 거리(Euclidian distance), 코사인 거리(Cosine distance), 마할라노비스 거리(Mahalanobis distance) 및 결합 베이지안(joint Bayesian) 중 하나 이상을 포함할 수도 있다.

예를 들어, 탐색 지역 결정부(17)가 코사인 거리 알고리즘을 통해 매칭 스코어를 산출하도록 구성된 경우, 매칭 스코어는 다음의 수학식을 통해 산출될 수도 있다.

여기서, xt는 타겟 객체의 특징 세트, xj는 탐색 후보 지역에서 촬영된 j번째 촬영영상의 특징 세트를 나타낸다. 상기 촬영영상의 특징 세트는 해당 촬영영상에 포함된 촬영객체의 특징 세트를 포함한다. 상기 타겟 객체의 특징 세트는 상기 타겟 객체의 비-영상 특징 세트 및 상기 타겟 객체의 영상 특징 세트 중 하나 이상을 서브 세트로 포함할 수도 있다.

상기 촬영영상의 특징 세트의 특징 값에서 매칭 스코어를 산출하기 위해 사용되는 특징 값은 타겟 객체의 특징 세트에 의존한다. 서버(10)는 타겟 객체의 특징 세트에 포함된 서브 세트에 대응하는 촬영영상의 특징 세트를 사용하여 매칭 스코어를 산출한다.

특정 실시예들에서, 상기 타겟객체의 특징 세트가 타겟 객체 패치로부터 추출된 영상 특징의 서브 세트 및 비-영상 특징의 서브 세트를 포함할 경우, 매칭 스코어는 다음의 수학식을 통해 산출될 수도 있다.

영상의 특징 벡터, 객체 정보(x_info), 지역 정보(x_region)를 포함한 타겟 객체의 특징 세트와 해당 지역을 촬영한 촬영영상의 특징세트를 수학식 2에 적용하여 최종 거리가 산출 된다. 상관관계가 정의된 객체와 지역에 관한 정보들에 대해서는 일정한 값이 상관관계 값으로 증가하며, 각 정보들(즉, 객체정보 및 지역정보)에 대해서는 다른 일정한 값이 증가한다. 반대로, 객체와 지역 간의 상관관계가 없는 경우(또는 해제된 경우) 해당 값들이 차감될 수도 있다. 일부 실시예들에서, 다른 일정한 값은 상관관계 값 보다는 작을 수도 있다.

그러면, 해당 탐색 후보 지역에 대한 타겟 객체의 매칭 스코어가 산출된다.

예를 들어, 타겟 객체의 객체 정보(x_info) 및 지역정보(x_region)는 초기값 1로 셋팅되며, 상관관계가 정의된 정보들에 대해서는 추가로 상관관계 값이 +1 증가되며, 각 정보들(즉, 객체정보 및 지역정보)에 대해서는 +0.1이 증가 된다.

또한, 상관관계가 약하거나, 기본값인 쌍들에서 검출이 이루어질 경우 시스템에서 자동적으로 학습이 수행되며, 해당 상관관계 값은 +1증가되며, 각 정보들은 +0.1씩 증가 된다.

반대로, 일정 시간 검출이 되지 않거나 사용자의 요구에 의해 상관관계가 해제되면, 각 정보들의 값은 -0.1이 감소된다. 각 상관관계는 시스템 사용자 및 학습에 의해 정의 될 수 있다.

상기 예시에서, 초기 값 1, 상관관계 값±1, 각 정보들의 값 ±0.1.은 단지 예시적인 것으로서 0.8 내지 1.2의 값, 0.05 내지 0.15의 값 등과 같은 다양한 값들이 사용될 수도 있다.

또한, 탐색 지역 결정부(17)는 탐색 지역을 결정하기 위해, 탐색 후보 지역의 지역 정보, 타겟 객체의 특징 세트와 촬영영상에 나타난 촬영객체의 특징 세트에 기초하여 검색 확률을 산출할 수도 있다. 여기서, 검색 확률은 탐색 후보 지역의 비디오에서 타겟 객체의 비디오를 검색할 수 있는지, 또는 검색할 수 없는지를 판단하는데 사용되는 확률을 나타낸다. 예를 들어, 검색 확률은 탐색 후보 지역의 비디오에서 타겟 객체의 비디오를 검색할 수 있다는 클래스 또는 타겟 객체의 비디오를 검색할 수 없다는 클래스를 분류하는 기준으로 사용될 수도 있다.

일 실시예에서, 서버(10)는 활성화 함수와 상기 매칭 스코어의 조합을 통해 검색 확률을 산출한다. 상기 활성화 함수는 로지스틱 함수(logistic function)의 종류인 시그모이드 함수(Sigmoid function), 소프트맥스 함수(Softmax), 또는 이들의 변형 함수를 포함할 수도 있다.

예를 들어, 서버(10)는 로지스틱 함수의 변형 함수와 매칭 스코어를 조합한 다음의 수학식을 통해 검색 확률을 산출할 수도 있다.

상기 수학식 4의 x는 상기 수학식 2 또는 3을 통해 산출한 매칭 스코어를 나타낸다. λ와 γ는 상수로서, λ는 평탄화 인자(smoothing factor)를 나타내고 γ는 축소 인자(shirinking factor)를 나타낸다. 평탄화 인자는 탐색 후보 지역의 촬영영상을 평탄화 처리하는 인자를 나타낸다. 축소 인자는 탐색 후보 지역의 촬영영상의 명암을 축소 처리하는 인자를 나타낸다. 상기 평탄화 인자는 예를 들어 0.1 내지 3 범위, 또는 0.4 내지 2.8 범위의 값일 수도 있다. 상기 축소 인자는 0.1 내지 10 범위, 또는 1 내지 7 범위의 값일 수도 있다.

탐색 지역 결정부(17)는 상기 검색 확률에 기초하여 탐색 지역을 결정한다. 특정 실시예들에서, 탐색 지역 결정부(17)는 임계 확률 이상의 검색 확률을 갖는 탐색 후보 지역(들)을 탐색 지역으로 결정한다.

일 실시예에서, 탐색 지역 결정부(17)는 상기 검색 확률에 기초하여 우선 순위를 탐색 후보 지역에 할당하고, 적어도 하나의 탐색 후보 지역을 탐색 지역으로 결정할 수도 있다. 또한, 시스템 사용자가 탐색 후보지역 결과에서 임의로 탐색후보지역을 결정할 수도 있다.

검색부(19)는 탐색 지역에서 촬영된 원본 비디오에서 타겟 객체를 촬영한 비디오를 검색할 수도 있다. 또한, 검색부(19)는 검색된 비디오를 사용자에게 검색 결과로 제공할 수도 있다.

서버(10)는 매칭 스코어와 검색 확률 중 적어도 하나에 기초하여 하나 이상의 탐색 후보 지역에서 탐색 지역을 결정한다. 이와 같이 탐색 지역이 결정되어 초기 타겟 객체의 검색이 해당 지역의 비디오에 대해서 수행될 경우 검색 성능 및 속도의 향상 효과를 얻을 수 있다.

상기 검색 시스템(1)이 본 명세서에 서술되지 않은 다른 구성요소를 포함할 수도 있다는 것이 통상의 기술자에게 명백할 것이다. 예를 들어, 데이터 입력 장치, 디스플레이 및/또는 인쇄와 같은 출력 장치, 메모리와 같은 저장장치, 네트워크, 네트워크 인터페이스 및 프로토콜 등을 더 포함할 수 있다.

본 발명의 다른 일 측면에 따른 탐색 지역 결정 방법은 프로세서를 포함한 컴퓨팅 장치에 의해 수행된다. 여기서, 컴퓨팅 장치는 컴퓨터, 서버 등을 포함할 수도 있다. 이하, 설명의 명료성을 위해, 도1의 검색 시스템(1)에 의해 수행되는 실시예들을 기초로 상기 탐색 지역 결정 방법을 보다 상세하게 서술한다.

도 5는, 본 발명의 일 실시예에 따른, 탐색 지역 결정 방법의 흐름도이다.

도 5를 참조하면, 상기 탐색 지역 결정 방법은 타겟 객체의 영상을 요청하는 영상질의를 수신하는 단계(S510)를 포함한다. 상기 영상질의는 타겟 객체의 객체 정보 및/또는 타겟 객체 패치를 포함할 수도 있다.

서버(10)는 타겟 객체의 객체 정보로부터 획득된 비-영상 특징의 서브 세트, 타겟 객체 패치로부터 추출된 영상 특징의 서브 세트, 및 이들의 조합 중 어느 하나를 이용하여 탐색 지역을 결정할 수도 있다.

상기 탐색 지역 결정 방법은 영상질의의 타겟객체의 객체 정보에 기초하여 비-영상 특징 세트 생성하는 단계(S511)를 포함한다.

일 실시예에서, 상기 객체 정보는 객체군 항목, 색상 항목, 객체 치수 항목, 텍스처 항목, 외관 특징 항목, 및 이벤트 항목 중 하나 이상을 포함한, 객체 항목 및 이에 대한 데이터를 포함할 수도 있다.

상기 비-영상 특징 세트는 일부 객체 항목에 대한 특징 값으로서 객체 정보의 값이 사용될 수도 있다. 상기 일부 객체 항목은, 예를 들어, 치수, 텍스처 등을 포함할 수도 있다.

상기 비-영상 특징 세트의 다른 일부 객체 항목에 대한 특징 값은 객체 정보의 항목 데이터를 변환한 값이 사용될 수도 있다. 상기 다른 일부 객체 항목은, 예를 들어, 색상, 정신지체, 치매 등을 포함할 수도 있다.

상기 비-영상 특징 세트의 또 다른 일부 객체 항목에 대한 특징 값은 항목 데이터가 의미하는 텍스트를 텍스트 질의로 활용하여 추출한 이미지 레벨의 특징이 사용될 수도 있다. 상기 또 다른 일부 객체 항목은, 예를 들어, 악세서리 착용 등을 포함할 수도 있다.

또한, 상기 탐색 지역 결정 방법은 타겟 객체 패치가 획득된 경우, 영상질의의 타겟객체 패치에 기초하여 영상 특징 세트 생성하는 단계(S512)를 포함할 수도 있다.

상기 영상 특징 세트는 다양한 영상 속성 추출 알고리즘을 통해 수행될 수도 있다. 상기 영상 속성 추출 알고리즘은 입력영상으로부터 시각적 특징을 추출하는 기계학습 모델을 포함할 수도 있다. 상기 영상 속성 추출 알고리즘은 예를 들어 어텐션 모델 또는 정보는 골격/바디 특징 추출 모델을 포함할 수도 있다.

단계(S511, S512)를 통해, 타겟 객체의 비-영상 특징 세트 및/또는 영상 특징 세트가 타겟 객체의 특징의 서브 세트로 획득될 수도 있다.

상기 탐색 지역 결정 방법은 사용자 입력에 따른 탐색 후보 지역을 지정하는 단계(S513)를 포함한다.

일 실시예에서, 상기 사용자 입력은 면적을 갖는 형상을 형성하는 입력, 선을 형성하는 입력, 및/또는 단일 지점 또는 복수의 지점을 형성하는 입력을 포함할 수도 있다. 상기 사용자 입력은 드래그 입력 또는 포인팅 입력으로 구현될 수도 있다.

단계(S513)에서 해당 형상에 대응하는 지역, 선에 대응하는 경로를 포함한 지역, 지점의 위치를 기준으로 한 지역을 탐색 후보 지역으로 결정할 수도 있다.

상기 탐색 지역 결정 방법은 탐색 후보 지역과 타겟 객체와의 상관관계를 결정하는 단계(S515)를 포함한다. 일 실시예에서, 상관관계는 타겟 객체와 해당 지역의 연관성을 정의한 정보이다. 상기 상관관계는 특정 객체와 특정 장소 간의 연관성에 기초하여 결정된다.

상기 단계(S515)에서 상관관계는 단계(S513)의 탐색 후보 지역과 단계(S510)의 객체 정보를 이용하여 결정될 수도 있다.

상기 탐색 지역 결정 방법은 탐색 지역을 결정하기 위한 검색 확률을 산출하는 단계(S517)를 포함한다. 단계(S517)에서 탐색 후보 지역의 지역 정보, 타겟 객체의 특징 세트와 촬영영상에 나타난 촬영객체의 특징 세트에 기초하여 검색 확률이 산출될 수도 있다.

일 실시예에서, 단계(S517)은: 매칭 스코어를 산출하는 단계; 및 활성화 함수와 상기 매칭 스코어의 조합을 통해 검색 확률을 산출하는 단계를 포함한다.

일부 실시예에서, 상기 매칭 스코어는 위의 수학식 1을 통해 산출될 수도 있다. 또한, 상기 검색 확률은 위의 수학식 2를 통해 산출될 수도 있다.

검색 확률에 기초하여 탐색 지역이 결정된다(S517).

단계(S517)에서 복수의 탐색 지역이 결정될 수도 있다. 일 실시예에서, 복수의 탐색 지역에 대해서 우선 순위가 각각 할당될 수도 있다. 상기 우선 순위는 검색 확률에 기초한다. 예를 들어, 검색 확률이 높을수록 높은 우선 순위를 가진다.

상기 탐색 지역 결정 방법은 탐색 지역의 촬영영상에서 타겟 객체가 촬영된 타겟 영상을 검색하는 단계(S519)를 포함한다. 타겟 영상이 검색되면, 검색된 영상을 사용자에게 제공한다.

복수의 탐색 지역이 결정된 실시예들에서, 어느 하나의 탐색 지역에서 타겟 영상이 검색되지 않은 경우 다음 순위를 갖는 탐색 지역에 대해 타겟 영상의 검색이 수행된다. 일부 실시예들에서, 다음 순위를 갖는 탐색 지역에 대해 타겟 영상의 검색을 위한 개시 입력이 더 입력될 수도 있다.

단일 탐색 지역이 결정된 실시예들에서, 탐색 지역에서 타겟 영상이 검색되지 않은 경우 다른 지역을 탐색 지역으로 결정하는 과정이 수행될 수도 있다. 예를 들어, 단계(S513)에서 다른 지역을 탐색 후보 지역으로 지정한 뒤 단계(S515 내지 S517)가 진행될 수도 있다.

이상에서 설명한 실시예들에 객체 정보 및 지역 정보를 이용한 방법 및 이를 수행하는 시스템에 의한 동작은 적어도 부분적으로 컴퓨터 프로그램으로 구현되어, 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 예를 들어, 프로그램 코드를 포함하는 컴퓨터-판독가능 매체로 구성되는 프로그램 제품과 함께 구현되고, 이는 기술된 임의의 또는 모든 단계, 동작, 또는 과정을 수행하기 위한 프로세서에 의해 실행될 수 있다.

상기 컴퓨터는 데스크탑 컴퓨터, 랩탑 컴퓨터, 노트북, 스마트 폰, 또는 이와 유사한 것과 같은 컴퓨팅 장치일 수도 있고 통합될 수도 있는 임의의 장치일 수 있다. 컴퓨터는 하나 이상의 대체적이고 특별한 목적의 프로세서, 메모리, 저장공간, 및 네트워킹 구성요소(무선 또는 유선 중 어느 하나)를 가지는 장치다. 상기 컴퓨터는 예를 들어, 마이크로소프트의 윈도우와 호환되는 운영 체제, 애플 OS X 또는 iOS, 리눅스 배포판(Linux distribution), 또는 구글의 안드로이드 OS와 같은 운영체제(operating system)를 실행할 수 있다.

상기 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록신원확인 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장신원확인 장치 등을 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 또한, 본 실시예를 구현하기 위한 기능적인 프로그램, 코드 및 코드 세그먼트(segment)들은 본 실시예가 속하는 기술 분야의 통상의 기술자에 의해 용이하게 이해될 수 있을 것이다.

이상에서 살펴본 본 발명은 도면에 도시된 실시예들을 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 그러나, 이와 같은 변형은 본 발명의 기술적 보호범위 내에 있다고 보아야 한다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 할 것이다.

현재 CCTV 사양의 고도화로 인해 대용량의 고화질 영상을 취득하기 용이하고, 또한 1초에 수백, 수천 내지 수만장의 영상을 획득할 수 있다. 이로 인해 대규모의 CCTV 군집에 연결된 영상 관제 시스템은 필연적으로 대규모 영상을 수신하고 이를 처리하게 된다.

본 발명의 일 측면에 따른 검색 시스템은 4차 산업 기술 중 하나인 머신 러닝(machine learning)을 통해 미리 학습된 다양한 CNN 모델을 통해, 영상 속성 데이터 세트를 추출함으로써 우선 검색 지역으로서 탐색 지역을 결정하게 하여, 효율적인 영상 검색을 가능하게 한다.

10: 서버
20: CCTV

Claims

프로세서를 포함한 컴퓨팅 장치에 의해 수행되는, 탐색 지역 결정 방법에 있어서,
영상 질의에 포함된, 타겟 객체의 객체 정보 및 타겟 패치의 적어도 일부를 나타낸 타겟 객체 패치를 획득하는 단계;
상기 객체 정보에 기초하여 타겟 객체의 비-영상 특징 세트를 생성하는 단계;
상기 타겟 객체 패치에 기초하여 상기 타겟 객체의 영상 특징 세트를 생성하는 단계;
사용자 입력에 기초하여 탐색 후보 지역을 지정하는 단계;
상기 탐색 후보 지역에 관한 정보를 지역 데이터베이스로부터 획득하는 단계; 및
상기 탐색 후보 지역에 관한 정보 및 비-영상 특징 세트의 적어도 일부 중 적어도 하나에 기초하여 탐색 지역을 결정하는 단계를 포함하고,
상기 탐색 지역은 상기 타겟 객체의 영상 특징 세트에 더 기초하여 결정되고,
상기 영상 특징 세트는,
상기 타겟 패치 또는 관심객체의 패치에 나타난 사람 영상에서 바디 파트를 검출하여 골격(skeleton) 정보 및 바디파트(body-part) 정보를 산출하고; 골격 및 바디파트가 융합된 재구성 정보에서 글로벌 특징을 추출하며; 골격 정보 및 바디파트 정보 각각에서 파트별 특징을 추출하고, 그리고 상기 글로벌 특징 및 파트별 특징을 결합(concatenate)하여 튜브의 특징 결과 정보를 출력하도록 구성된 기계 학습 모델에 상기 타겟 객체 패치를 적용하여 생성된 것을 특징으로 하는 탐색 지역 결정 방법.
삭제
제1항에 있어서, 상기 탐색 후보 지역을 지정하는 단계는,
사용자 입력이 면적을 갖는 형상을 형성하는 경우, 형성된 형상에 대응하는 지역을 탐색 후보 지역으로 지정하는 단계;
상기 사용자 입력이 선을 형성하는 경우, 형성된 선을 경로로 포함하는 지역을 탐색 후보 지역으로 지정하는 단계;
상기 사용자 입력이 하나의 점(point)을 형성하는 경우, 상기 점을 기준으로 하나 이상의 탐색 후보 지역을 지정하는 단계; 및
상기 사용자 입력이 복수의 점(points)을 형성하는 경우, 상기 복수의 점에 기초하여 하나 이상의 경로를 생성하고, 생성된 경로를 포함한 지역을 탐색 후보 지역으로 지정하는 단계;를 포함하는 탐색 지역 결정 방법.
제1항에 있어서,
상기 탐색 후보 지역에 관한 정보는 지정된 해당 지역의 지리적 정보, 상기 지역 내에 위치한 장소에 관한 정보, 해당 지역의 일부 또는 전부의 평상시 상황을 표현하는 상황 정보를 포함하고,
상기 상황 정보는 상기 영상 질의가 입력되기 이전에 발생한 이벤트 발생 시간, 빈도 또는 위치, 해당 지역 내 객체의 이동량 또는 이동 방향을 포함하는 것을 특징으로 하는 탐색 지역 결정 방법.
제1항에 있어서,
상기 탐색 후보 지역과 상기 타겟 객체 간의 상관관계를 특정 지역과 특정 객체 간의 연관성을 정의한 상관관계 룰에 기초하여 결정하는 단계를 더 포함하는 탐색 지역 결정 방법.
제1항에 있어서,
상기 객체 정보는 복수의 특징 항목 및 해당 항목에 대한 데이터를 포함하며,
상기 복수의 특징 항목은 객체군, 색상 항목, 객체 치수 항목, 텍스처 정보, 외관 정보, 중 상기 타겟 객체와 관련된 이벤트 정보 하나 이상을 포함하는 것을 특징으로 하는 탐색 지역 결정 방법.
삭제
제1항에 있어서, 상기 탐색 지역을 결정하는 단계는,
상기 탐색 후보 지역을 촬영한 촬영영상의 특징 세트와 상기 타겟 객체의 특징 세트에 기초하여 매칭 스코어를 산출하는 단계; 및
활성화 함수와 상기 매칭 스코어의 조합을 통해 각 탐색 후보 지역에서의 검색 확률을 하는 단계를 포함하는 것을 특징으로 하는 탐색 지역 결정 방법.
제8항에 있어서,
상기 매칭 스코어는 다음의 수학식을 통해 산출되고,
[수학식]

여기서, xt는 타겟 객체의 특징 세트, xj는 해당 탐색 후보 지역에서 촬영된 j번째 촬영영상의 특징 세트를 나타내고,
상기 타겟 객체의 특징 세트는 상기 타겟 객체의 영상 특징 세트를 서브 세트로 포함하는 것을 특징으로 하는 탐색 지역 결정 방법.
제8항에 있어서,
상기 매칭 스코어는 다음의 수학식을 통해 산출되고,
[수학식]

여기서, xt는 타겟 객체의 특징 세트, xj는 해당 탐색 후보 지역에서 촬영된 j번째 촬영영상의 특징 세트를 나타내고, x_info는 객체정보에 포함된 비-영상 특징 세트를 나타내고, x_region는 탐색 후보 지역의 지역정보를 나타내며,
상기 타겟 객체의 특징 세트는 상기 타겟 객체의 비-영상 특징 세트 및 상기 타겟 객체의 영상 특징 세트를 서브 세트로 포함하는 것을 특징으로 하는 탐색 지역 결정 방법.
제10항에 있어서,
상기 x_info와 x_region는 특정 초기 값으로 설정되며, 상관관계가 정의된 객체와 지역에 대해서는 미리 지정된, 일정한 값이 합산되는 것을 특징으로 하는 탐색 지역 결정 방법.
제8항에 있어서,
상기 활성화 함수와 상기 매칭 스코어의 조합은 다음의 수학식으로 표현되고,
[수학식]

여기서, x는 상기 매칭 스코어를 나타내고, λ와 γ는 상수로서, λ는 평탄화 인자(smoothing factor)를 나타내고 γ는 축소 인자(shrinking factor)를 나타내는 것을 특징으로 하는 탐색 지역 결정 방법.
컴퓨팅 장치에 의해 판독가능하고, 상기 컴퓨팅 장치에 의해 동작 가능한 프로그램 명령어를 저장하는 컴퓨터 판독가능 기록매체로서, 상기 프로그램 명령어가 상기 컴퓨팅 장치의 프로세서에 의해 실행되는 경우 상기 프로세서가 제1항, 제3항 내지 제6항 및 제8항 내지 제12항 중 어느 하나의 항에 따른 탐색 지역 결정 방법을 수행하게 하는 컴퓨터 판독가능 기록매체.
복수의 CCTV 및 서버를 포함한 시스템에 있어서, 상기 서버는:
영상 질의에 포함된, 타겟 객체의 객체 정보 및 타겟 패치의 적어도 일부를 나타낸 타겟 객체 패치를 획득하고, 상기 객체 정보에 기초하여 타겟 객체의 비-영상 특징 세트를 생성하고, 상기 타겟 객체 패치에 기초하여 상기 타겟 객체의 영상 특징 세트를 생성하는 특징 획득부;
사용자 입력에 기초하여 탐색 후보 지역을 지정하는 탐색 후보 지정부;
상기 탐색 후보 지역에 관한 정보를 지역 데이터베이스로부터 획득하고, 상기 탐색 후보 지역에 관한 정보 및 비-영상 특징 세트의 적어도 일부 중 적어도 하나에 기초하여 탐색 지역을 결정하는 탐색 지역 결정부; 및
결정된 탐색 지역에서 CCTV에 의해 촬영된 원본 비디오에서 타겟 객체를 촬영한 비디오를 검색하는 검색부를 포함하고,
상기 탐색 지역은 상기 타겟 객체의 영상 특징 세트에 더 기초하여 결정되고,
상기 영상 특징 세트는,
상기 타겟 패치 또는 관심객체의 패치에 나타난 사람 영상에서 바디 파트를 검출하여 골격(skeleton) 정보 및 바디파트(body-part) 정보를 산출하고; 골격 및 바디파트가 융합된 재구성 정보에서 글로벌 특징을 추출하며; 골격 정보 및 바디파트 정보 각각에서 파트별 특징을 추출하고, 그리고 상기 글로벌 특징 및 파트별 특징을 결합(concatenate)하여 튜브의 특징 결과 정보를 출력하도록 구성된 기계 학습 모델에 상기 타겟 객체 패치를 적용하여 생성된 것을 특징으로 하는 시스템.