KR20230064095A

KR20230064095A - 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치 및 방법

Info

Publication number: KR20230064095A
Application number: KR1020210149308A
Authority: KR
Inventors: 김남규; 연진욱; 김나현
Original assignee: 국민대학교산학협력단
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2023-05-10
Also published as: KR102647139B1

Abstract

본 발명은 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치 및 방법에 관한 것으로, 상기 장치는 제1 영역을 촬영하여 제1 영상을 생성하고 상기 제1 영상에서 객체를 인식하는 객체 인식부; 제2 영역의 제2 영상에서 상기 객체와 동일한 재식별 객체의 존재를 검출하는 재식별 객체 검출부; 행동모델을 통해 상기 객체 및 재식별 객체의 행동들을 탐지하는 행동 탐지부; 상기 행동들 각각의 특징을 해당 장소에 특정되는 정상 행동의 특징과 유사도 비교하여 이상행동을 탐지하는 이상행동 탐지부; 및 상기 이상행동이 탐지되면 상기 객체를 추적하는 객체 추적부를 포함한다.

Description

딥러닝 기반 영상분석을 통한 이상행동 탐지 장치 및 방법{APPARATUS AND METHOD FOR DETECTING ABNORMAL BEHAVIOR THROUGH DEEP LEARNING-BASED IMAGE ANALYSIS}

본 발명은 영상분석을 통한 이상행동 감지 및 객체 추적 기술에 관한 것으로, 보다 상세하게는 이상행동 학습을 통해 실시간으로 CCTV 카메라 영상에서 이상행동을 탐지하고 해당 객체를 추적하여 이동경로 정보를 획득할 수 있는 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치 및 방법에 관한 것이다.

우리나라 전체 229개 지자체 중 90%가 넘는 208개 지자체에서 CCTV 통합관제센터를 구축하고 운영하고 있다. 현재 지자체 통합관제센터 운용은 주로 사람(육안)에 의존하고 있다. 24시간 교대로 모니터 요원을 운용하고 있으나, 개인별 숙련도 차이나 집중력 저하로 인한 사건 검출에 실패하는 경우가 많다. 따라서 이상행동 발생에 즉각 대응 및 집중 모니터링 가능한 지능형 CCTV 도입이 점점 더 필요해지고 있으며 CCTV 화면 상에서 범죄의 징후가 발견되면 빠르게 알람을 울려 범죄를 방지하는 많은 솔루션이 제시되고 있다.

구체적으로는 객체 검출 및 추적을 통한 이상행동 분석 기법이 다수 제안되고는 있으나, 일반적인 객체 추적기를 사용하는 경우 주변 가림 등에 의해 객체를 놓치는 경우가 다수 발생하며 객체의 움직임에 따라 이상행동이 아님에도 이상행동으로 판단하는 오류가 자주 발생하는 정확도의 문제점이 있다.

범죄의 사전예방 및 모니터링을 위해 여러 영상에서 추적해야 하는 객체를 검출하고 추적의 정확도를 유지하는 것이 중요하고 또한, 이를 통해 객체가 금지된 구역에 침입하거나 배회하는지 여부, 폭행 또는 낙상 상황을 즉각적으로 분석하는 것이 중요하다.

한국등록특허 제10-2113533호 (2020.05.15)

본 발명의 일 실시예는 이상행동 학습을 통해 실시간으로 CCTV 카메라 영상에서 이상행동을 탐지하고 해당 객체를 추적하여 이동경로 정보를 획득할 수 있는 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치 및 방법을 제공하고자 한다.

본 발명의 일 실시예는 객체 재식별(Re-Identification)을 통해 여러 영상에서 동일하게 추적해야 하는 객체를 검출하여 객체 추적의 정확도를 정확도를 향상시키는 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치 및 방법을 제공하고자 한다.

본 발명의 일 실시예는 영상에 있는 장소별 행동패턴 분석을 통해 이상행동 판단의 오류 발생을 줄이고 이상 행동과 유사도가 높은 객체를 추적하여 이상징후에 빠르게 대응할 수 있는 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치 및 방법을 제공하고자 한다.

실시예들 중에서, 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치는 제1 영역을 촬영하여 제1 영상을 생성하고 상기 제1 영상에서 객체를 인식하는 객체 인식부, 제2 영역의 제2 영상에서 상기 객체와 동일한 재식별 객체의 존재를 검출하는 재식별 객체 검출부, 행동모델을 통해 상기 객체 및 재식별 객체의 행동들을 탐지하는 행동 탐지부, 상기 행동들 각각의 특징을 해당 장소에 특정되는 정상 행동의 특징과 유사도 비교하여 이상행동을 탐지하는 이상행동 탐지부, 및 상기 이상행동이 탐지되면 상기 객체를 추적하는 객체 추적부를 포함한다.

상기 객체 인식부는 바운딩 박스로 상기 제1 영상 내에 있는 다중 객체들을 탐지하고 인스턴스 세그멘테이션으로 상기 다중 객체들 각각에 대한 마스킹을 수행하여 상기 객체를 인식할 수 있다.

상기 객체 인식부는 상기 객체가 인식되면 복수의 계층으로 구성된 컨볼루션 신경망을 통해 상기 객체의 특징을 추출할 수 있다.

상기 재식별 객체 검출부는 다른 시간 또는 다른 공간에서 상기 제2 영상을 획득하고 상기 객체 및 재식별 객체의 특징들 각각을 신체 부위별로 분할한 제1 및 제2 특징정보들을 평균 풀링(average pooling)을 통해 비교하여 동일성을 판단할 수 있다.

상기 재식별 객체 검출부는 복수의 계층으로 구성된 컨볼루션 신경망으로 상기 특징들을 추출할 수 있다.

상기 행동 탐지부는 상기 행동모델을 통해 상기 객체 및 상기 재식별 객체의 자세(pose)를 파악하여 상기 객체 및 상기 재식별 객체의 행동 유형을 감지할 수 있다.

상기 이상행동 탐지부는 장소에 따른 정상행동 유형과 상기 객체 및 상기 재식별 객체의 행동 유형들 간의 코사인 유사도를 산출하여 유사도가 낮은 행동 유형의 객체를 추적 대상으로 선정할 수 있다.

상기 이상행동 탐지부는 상기 객체 및 상기 재식별 객체의 특징점(keypoint)들을 벡터로 변환하고 정규화하여 정규화된 키포인트 좌표를 통해 코사인 유사도를 계산할 수 있다.

상기 객체 추적부는 상기 객체의 이동 동선을 추적하고 시간변수를 통해 상기 객체의 예측 동선을 결정할 수 있다.

상기 객체 추적부는 상기 예측 동선을 관제 단말에 제공하여 범죄예방을 촉진할 수 있다.

실시예들 중에서, 딥러닝 기반 영상분석을 통한 이상행동 탐지 방법은 제1 영역을 촬영하여 제1 영상을 생성하고 상기 제1 영상에서 객체를 인식하는 단계, 제2 영역의 제2 영상에서 상기 객체와 동일한 재식별 객체의 존재를 검출하는 단계, 행동모델을 통해 상기 객체 및 재식별 객체의 행동들을 탐지하는 단계, 상기 행동들 각각의 특징을 해당 장소에 특정되는 정상 행동의 특징과 유사도 비교하여 이상행동을 탐지하는 단계, 및 상기 이상행동이 탐지되면 상기 객체를 추적하는 단계를 포함한다.

상기 객체를 인식하는 단계는 바운딩 박스로 상기 제1 영상 내에 있는 다중 객체들을 탐지하고 인스턴스 세그멘테이션으로 상기 다중 객체들 각각에 대한 마스킹을 수행하여 객체를 인식하는 단계, 및 상기 객체가 인식되면 복수의 계층으로 구성된 컨볼루션 신경망을 통해 상기 객체의 특징을 추출하는 단계를 포함할 수 있다.

상기 재식별 객체의 존재를 검출하는 단계는 상기 제1 영상과 다른 시간 또는 다른 공간에서 상기 제2 영상을 획득하고 상기 객체 및 재식별 객체의 특징들 각각을 신체 부위별로 분할한 제1 및 제2 특징정보들을 평균 풀링(average pooling)을 통해 비교하여 동일성을 판단할 수 있다.

상기 행동을 탐지하는 단계는 상기 행동모델을 통해 상기 객체 및 상기 재식별 객체의 자세(pose)를 파악하여 상기 객체 및 상기 재식별 객체의 행동 유형을 감지할 수 있다.

상기 이상행동을 탐지하는 단계는 장소에 따른 정상행동 유형과 상기 객체 및 상기 재식별 객체의 행동 유형들 간의 코사인 유사도를 산출하여 유사도가 낮은 행동 유형의 객체를 추적 대상으로 선정할 수 있다.

개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

본 발명의 일 실시예에 따른 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치 및 방법은 이상행동 학습을 통해 실시간으로 CCTV 카메라 영상에서 이상행동을 탐지하고 해당 객체를 추적하여 이동경로 정보를 획득할 수 있다.

본 발명의 일 실시예에 따른 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치 및 방법은 객체 재식별(Re-Identification)을 통해 여러 영상에서 동일하게 추적해야 하는 객체를 검출하여 객체 추적의 정확도를 정확도를 향상시킬 수 있다.

본 발명의 일 실시예에 따른 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치 및 방법은 영상에 있는 장소별 행동패턴 분석을 통해 이상행동 판단의 오류 발생을 줄이고 이상 행동과 유사도가 높은 객체를 추적하여 이상징후에 빠르게 대응할 수 있다.

도 1은 본 발명에 따른 딥러닝 기반 영상분석을 통한 이상행동 탐지 시스템을 설명하는 도면이다.
도 2는 도 1의 이상행동 탐지 장치의 시스템 구성을 설명하는 도면이다.
도 3은 도 1의 이상행동 탐지 장치의 기능적 구성을 설명하는 도면이다.
도 4는 본 발명에 따른 이상행동 탐지 과정의 일 실시예를 설명하는 순서도이다.
도 5는 본 발명에 따른 이상행동 탐지 과정을 설명하는 도면이다.
도 6은 오픈포즈 딥러닝 네트워크 구조를 나타내는 도면이다.
도 7은 본 발명에 따른 객체를 인식하는 과정을 설명하는 도면이다.
도 8은 본 발명에 따른 재식별 객체의 존재를 검출하는 과정을 설명하는 도면이다.

본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.

도 1은 본 발명에 따른 딥러닝 기반 영상분석을 통한 이상행동 탐지 시스템을 설명하는 도면이다.

도 1을 참조하면, 딥러닝 기반 영상분석을 통한 이상행동 탐지 시스템(100)은 카메라 단말(110), 관제 단말(130), 이상행동 탐지 장치(150) 및 데이터베이스(170)를 포함할 수 있다.

카메라 단말(110)은 범죄 예방을 목적으로 특정 장소에 설치되어 주변 촬영을 통해 감시 영상을 전송할 수 있는 적어도 하나 이상의 CCTV(Closed Circuit Television) 장치에 해당할 수 있다. 즉, 카메라 단말(110)은 보안 감시가 필요한 주요 지역, 예컨대 방범, 재난, 어린이보호구역, 문화재 감시, 청사 내외곽 등에 설치된 다수의 이기종 네트워크 카메라에 해당할 수 있다. 카메라 단말(110)은 설치 현장의 주변 영역을 촬영하고 촬영된 영상을 이상행동 탐지 장치(150)에게 제공할 수 있다. 카메라 단말(110)은 이상행동 탐지 장치(150)와 네트워크를 통해 연결될 수 있고, 복수의 카메라 단말(110)들이 이상행동 탐지 장치(150)와 동시에 또는 시간 간격을 두고 연결될 수도 있다.

관제 단말(130)은 이상행동 탐지 장치(150)와 연결되어 이상행동 객체의 동선을 제공받을 수 있는 컴퓨팅 장치에 해당할 수 있다. 즉, 관제 단말(130)은 원격지에서 카메라 단말(110)을 제어할 수 있고 카메라 단말(110)이 설치된 현장을 실시간 감시할 수 있으며, 이상행동 탐지 장치(150)에 의해 탐지된 이상행동 객체를 알림 제공받을 수 있다.

또한, 관제 단말(130)은 관제센터 운용자 소지의 스마트폰, 노트북 또는 컴퓨터로 구현될 수 있으며, 반드시 이에 한정되지 않고, 태블릿 PC 등 다양한 디바이스로도 구현될 수 있다.

이상행동 탐지 장치(150)는 본 발명에 따른 딥러닝 기반 영상분석을 통한 이상행동 탐지 방법을 수행하는 컴퓨터 또는 프로그램에 해당하는 서버로 구현될 수 있다. 이상행동 탐지 장치(150)는 카메라 단말(110) 및 관제 단말(130)과 유선 또는 무선 네트워크를 통해 연결될 수 있고 상호 간에 데이터를 주고받을 수 있다. 한편, 이상행동 탐지 장치(150)는 본 발명에 따른 딥러닝 기반 영상분석을 통한 이상행동 탐지 방법을 수행하는 과정에서 다양한 외부 시스템(또는 서버)과 연동하여 동작할 수 있다. 이상행동 탐지 장치(150)는 카메라 단말(110)로부터 촬영된 영상을 수신하고 영상 분석을 통해 실시간으로 행동 유형 및 다중의 객체를 탐지할 수 있다. 이상행동 탐지 장치(150)는 실시간으로 탐지된 객체들의 특징 정보를 기초로 객체 재식별 하여 여러 영상에 있는 동일한 객체의 이동경로를 추적할 수 있고, 해당 장소의 정상 행동 패턴과 다른 이상행동 객체를 감지하고 감지된 이상행동 객체를 추적할 수 있다.

데이터베이스(170)는 이상행동 탐지 장치(150)의 동작 과정에서 필요한 다양한 정보들을 저장하는 저장장치에 해당할 수 있다. 예를 들어, 데이터베이스(170)는 카메라 단말(110)로부터 촬영된 영상을 저장할 수 있고, 행동 모델 구축을 위한 학습 알고리즘 및 모델 정보를 저장할 수 있으며, 반드시 이에 한정되지 않고, 이상행동 탐지 장치(150)가 본 발명에 따른 영상 분석 기반 이상행동 탐지 방법을 수행하는 과정에서 다양한 형태로 수집 또는 가공된 정보들을 저장할 수 있다.

도 2는 도 1의 이상행동 탐지 장치의 시스템 구성을 설명하는 도면이다.

도 2를 참조하면, 이상행동 탐지 장치(150)는 프로세서(210), 메모리(230), 사용자 입출력부(250) 및 네트워크 입출력부(270)를 포함할 수 있다.

프로세서(210)는 이상행동 탐지 장치(150)가 동작하는 과정에서의 각 단계들을 처리하는 프로시저를 실행할 수 있고, 그 과정 전반에서 읽혀지거나 작성되는 메모리(230)를 관리할 수 있으며, 메모리(230)에 있는 휘발성 메모리와 비휘발성 메모리 간의 동기화 시간을 스케줄할 수 있다. 프로세서(210)는 이상행동 탐지 장치(150)의 동작 전반을 제어할 수 있고, 메모리(230), 사용자 입출력부(250) 및 네트워크 입출력부(270)와 전기적으로 연결되어 이들 간의 데이터 흐름을 제어할 수 있다. 프로세서(210)는 이상행동 탐지 장치(150)의 CPU(Central Processing Unit)로 구현될 수 있다.

메모리(230)는 SSD(Solid State Drive) 또는 HDD(Hard Disk Drive)와 같은 비휘발성 메모리로 구현되어 이상행동 탐지 장치(150)에 필요한 데이터 전반을 저장하는데 사용되는 보조기억장치를 포함할 수 있고, RAM(Random Access Memory)과 같은 휘발성 메모리로 구현된 주기억장치를 포함할 수 있다.

사용자 입출력부(250)는 사용자 입력을 수신하기 위한 환경 및 사용자에게 특정 정보를 출력하기 위한 환경을 포함할 수 있다. 예를 들어, 사용자 입출력부(250)는 터치 패드, 터치 스크린, 화상 키보드 또는 포인팅 장치와 같은 어댑터를 포함하는 입력장치 및 모니터 또는 터치스크린과 같은 어댑터를 포함하는 출력장치를 포함할 수 있다. 일 실시예에서, 사용자 입출력부(250)는 원격 접속을 통해 접속되는 컴퓨팅 장치에 해당할 수 있고, 그러한 경우, 이상행동 탐지 장치(150)는 독립적인 서버로서 수행될 수 있다.

네트워크 입출력부(270)은 네트워크를 통해 외부 장치 또는 시스템과 연결하기 위한 환경을 포함하고, 예를 들어, LAN(Local Area Network), MAN(Metropolitan Area Network), WAN(Wide Area Network) 및 VAN(Value Added Network) 등의 통신을 위한 어댑터를 포함할 수 있다.

도 3은 도 1의 이상행동 탐지 장치의 기능적 구성을 설명하는 도면이다.

도 3을 참조하면, 이상행동 탐지 장치(150)는 객체 인식부(310), 재식별 객체 식별부(330), 행동 탐지부(350), 이상행동 탐지부(370), 객체 추적부(390) 및 제어부(미도시)를 포함할 수 있다.

객체 인식부(310)는 제1 영역을 촬영하여 제1 영상을 생성하고 제1 영상에서 객체를 인식할 수 있다. 여기에서, 제1 영역은 카메라 단말(110)의 촬영 범위에 해당할 수 있다. 예컨대, 카메라 단말(110)이 360°카메라인 경우에 제1 영상은 360°로 촬영된 영상일 수 있다.

객체 인식부(310)는 카메라 단말(110)에서 촬영한 제1 영역의 영상(제1 영상)을 실시간으로 수신할 수 있다. 객체 인식부(310)는 영상으로부터 객체를 인식할 수 있다. 일 실시예에서, 객체 인식부(310)는 바운딩 박스(Bounding Box)로 제1 영상 내에 있는 다중 객체들을 탐지하고 인스턴스 세그멘테이션(Instance Segmentation)으로 다중 객체들 각각에 대한 마스킹을 수행하여 객체를 인식할 수 있다. 즉, 객체 인식부(310)는 Mask-Rcnn를 활용하여 영상 내 각 객체에 마스킹 처리할 수 있다. Mask-Rcnn은 객체가 있을 만한 영역(바운딩 박스)을 탐지 후 탐지한 영역 내 어떠한 범주가 있을지 예측하고 탐지한 영역 내 픽셀이 예측한 객체인지 아닌지 예측하는 객체 탐지 모델이다. 특히, Mask-Rcnn은 바운딩 박스로 영상 내에 있는 다중 객체를 탐지하는 것과 더불어 인스턴스 세그멘테이션으로 각 객체에 마스킹까지 할 수 있는 모델이다.

객체 인식부(310)는 객체가 인식되면 복수의 계층으로 구성된 컨볼루션 신경망(Convolutional Network)을 통해 객체의 특징을 추출할 수 있다. 여기에서, 객체 인식부(310)는 50개 계층으로 구성된 컨볼루션 신경망인 Resnet-50을 사용하여 객체의 특징을 추출할 수 있다.

재식별 객체 검출부(330)는 제2 영역의 제2 영상에서 객체와 동일한 재식별 객체의 존재를 검출할 수 있다. 여기에서, 제2 영상은 제1 영상과 다른 시간 또는 다른 공간에서 획득한 영상에 해당할 수 있다. 예를 들어, 제2 영상은 1대의 카메라 단말(110)에서 제1 영상의 촬영시간과 다른 시간에 촬영되거나 또는 카메라 단말(110)의 주변 다른 카메라 단말에서 촬영된 영상에 해당할 수 있다. 일 실시예에서, 재식별 객체 검출부(330)는 다른 시간 또는 다른 공간에서 제2 영상을 획득하고 객체 및 재식별 객체의 특징들 각각을 신체 부위별로 분할한 제1 및 제2 특징정보들을 평균 풀링(average pooling)을 통해 비교하여 동일성을 판단할 수 있다.

재식별(Re-Identification, Re-ID)은 카메라로 수집된 영상을 통해 한번 인식한 객체의 신원(ID)을 다른 카메라에서도 동일한 객체의 신원을 찾아내는 것을 목표로 한다. 딥러닝을 적용한 재식별 방법은 크게 식별, 검증, 임베딩 방법이 있다. 식별(Identification) 방법은 심층 신경망 훈련 시 신원(ID)을 이용하여 훈련하고, 테스트 시 심층 신경망의 말단인 ID 출력 계층(layer)의 이전 계층에서 출력된 특징 정보를 사용하여 유사도(similarity)를 구한다. 백본(backbone)으로 Mask-Rcnn에서 활용한 ResNet-50을 사용하며 ResNet-50의 출력 결과인 특징 정보를 얼굴, 어깨, 허리, 허벅지, 종아리, 발의 신체 부위별로 6등분으로 분할한 후 평균 풀링을 통해 나온 특징을 결합하여 동일한 사람인지 여부를 판단할 수 있다.

재식별 객체 검출부(330)는 복수의 계층으로 구성된 컨볼루션 신경망으로 특징들을 추출할 수 있다. 재식별 객체 검출부(330)는 컨볼루션 신경망을 통해 추출한 객체 및 재식별 객체의 특징들 각각을 신체 부위별로 분할한 제1 및 제2 특징정보들의 평균을 취하는 평균 풀링을 통해 비교하여 객체 및 재식별 객체 간의 동일성을 판단할 수 있다.

행동 탐지부(350)는 사전 학습된 행동모델을 통해 객체의 행동들을 탐지할 수 있다. 일 실시예에서, 행동 탐지부(310)는 학습된 데이터 셋을 기반으로 하여 영상 내 상황을 실시간 분석하고 객체에서 어떤 유형의 행동이 발생하였는지 감지할 수 있다. 보다 구체적으로, 행동 탐지부(310)는 여러가지 행동 데이터로 학습된 행동모델을 구축하는 단계와, 행동모델로 영상의 객체 행동을 분석하는 단계, 및 영상의 행동 즉, 객체의 자세(pose)를 파악하여 행동 유형을 감지하는 단계를 수행할 수 있다. 행동 탐지부(350)는 정상(Normal) 행동과 이상(Abnormal) 행동으로 분류된 데이터 셋을 각각 학습시킨 데이터를 기반으로 객체 행동을 분석한다. 예를 들어, 이상행동은 ① 방화, 화재, 폭발 ② 폭행 ③ 싸움 ④ 교통사고 ⑤ 절도 ⑥ 기물파손 ⑦ 실신 ⑧ 배회 ⑨ 주취행동(비틀거림, 주저앉음, 음주운전) ⑩ 침입, 월담 ⑪ 유기, 무단투기 ⑫ 자살 ⑬ 강도 ⑭ 납치 ⑮ 미행 등으로 분류될 수 있고, 이상행동 내 동작은 ① 걷기 ② 뛰기 ③ 밀기 ④ 안기 ⑤ 위로 뛰기 ⑥ 서있기 ⑦ 던지기 ⑧ 놓기 ⑨ 줍기 ⑩ 주먹질 ⑪ 발길질 ⑫ 쓰러짐 ⑬ 운반하기 ⑭ 다가가기 ⑮ 웅크리기, 두리번거리기, 불안정한 동작 등이 포함될 수 있다.

여기에서, 행동 탐지부(350)는 영상의 행동(자세)을 파악하기 위해, 오픈포즈(OpenPose) 라이브러리를 활용하여 객체에 사람의 관절(Point)을 입히고, 관절끼리의 점을 선으로 이어주어 하나의 자세(Pose)로 탐지한다.

오픈포즈 라이브러리는 딥러닝의 합성곱 신경망(Convolution Neural Network, CNN)을 기반으로 하며 사진에서 실시간으로 여러 사람의 몸, 손 그리고 얼굴의 특징점을 추출할 수 있는 라이브러리로, 사진이나 동영상 또는 카메라 입력을 통해서 여러 사람의 신체부위 특징점의 위치를 실시간으로 보여준다. 예를 들면, 오픈포즈 라이브러리는 NVIDIA GTX 1080 Ti 기준으로 초당 약 22프레임을 보여준다.

행동 탐지부(350)는 오픈포즈 라이브러리를 활용하여 영상 속 객체에 대한 관절의 위치를 인식할 수 있고 인식된 각 객체의 관절 위치를 통해 자세를 파악할 수 있다. 예를 들어, 행동 탐지부(350)는 각 객체의 관절 위치에 따라 걷기, 뛰기, 주먹질, 발길질, 쓰러짐, 웅크리기 등의 자세를 파악하여 객체의 행동들을 탐지할 수 있다.

이상행동 탐지부(370)는 행동들 각각의 특징을 해당 장소의 정상행동과 코사인 유사도 비교하여 이상행동을 탐지할 수 있다. 이상행동 탐지부(370)는 장소마다 평소 행동 패턴(Normal)을 학습시킨 뒤 이와 다른 비정상(Abnormal) 행동을 이상행동으로 구별해낼 수 있다. 이상행동 탐지부(370)는 장소마다 정상적인 행동이 다르다는 점을 고려하여 장소마다의 평소 행동 패턴을 학습하여 대표 행동을 설정하고 설정한 대표 행동을 실시간으로 탐지한 행동과 유사도 비교하여 유사도가 낮은 행동 객체를 추적 대상으로 선정할 수 있다. 여기에서, 이상행동이란 평소 상태나 상황과는 다른 어떠한 이상이 발생했을 경우 혹은 상황을 이루는 사람이나 객체가 이상한 상태일 때를 뜻한다. 예컨대, CCTV 영상 데이터의 관점에서의 이상행동은 범죄 혹은 사고 상황이라 할 수 있다. 이상행동 탐지부(370)는 해당 장소의 대표 행동과 실시간 영상 객체의 행동 간의 코사인 유사도(cosine similarity)를 통해 행동 유사도를 산출할 수 있다. 코사인 유사도는 -1에서 1 사이의 값을 가질 수 있으며, 서로 유사할수록 1에 가까운 값으로 표현될 수 있다.

즉, 이상행동 탐지부(370)는 장소마다 정상 행동유형을 학습시킨 후 객체의 행동과 유사도를 비교하여 유사도가 낮은 이상행동 객체를 추적 대상으로 선정할 수 있다. 예를 들면, 골프장의 정상행동은 '휘두르는 행동' 이라면, 도서관에서 '휘두르는 행동'은 비정상 행동이다. 이처럼, 장소마다 정상행동은 다르기 때문에 장소마다의 평소 행동 패턴을 학습하여 실시간으로 객체의 행동과 유사도 비교를 통해 이상행동을 탐지할 수 있다.

이상행동 탐지부(370)는 팔꿈치나 눈과 같은 17개의 신체 또는 얼굴 부분 집합을 키포인트로 하여 객체의 17개 키포인트와 해당 장소의 특정되는 정상 행동의 17개 키포인트 간에 유사성을 결정할 수 있다. 여기에서, 키포인트의 개수는 17개에 한정되는 것은 아니며 필요에 따라 다양하게 가감하여 정할 수 있다. 이상행동 탐지부(370)는 키포인트를 벡터로 변환하여 코사인 유사도를 계산할 수 있고, 이때 코사인 유사도는 벡터의 스칼라곱과 크기로 다음의 수학식 1과 같이 표현할 수 있다.

[수학식 1]

이렇게 계산된 유사도는 -1에서 1까지의 값을 가지며, -1은 서로 완전히 반대되는 경우, 0은 서로 독립적인 경우, 1은 서로 완전히 같은 경우를 의미한다.

코사인 유사도는 유클리드 거리와 관계가 있으며, A와 B의 두 벡터간의 단위 거리에 대해 정규화되었을 때 정규화된 키포인트 좌표를 통해 코사인 유사도를 계산할 수 있으며, 이는 다음의 수학식 2로 나타낼 수 있다.

[수학식 2]

객체 추적부(390)는 이상행동이 탐지되면 객체를 추적할 수 있다. 객체 추적부(390)는 객체의 이동 동선을 추적하고 시간변수를 통해 객체의 예측 동선을 결정할 수 있다. 객체 추적부(390)는 예측 동선을 관제 단말(130)에 제공하여 범죄예방을 촉진할 수 있다. 객체 추적부(390)는 이상행동 탐지 객체가 움직인 경로를 예측하기 위해서 시간변수(t)를 이용하여 두개의 연속되는 영상 프레임 사이의 차이를 계산하여 움직이는 객체를 추적할 수 있다. 객체 추적부(390)는 IOU(Intersection-Over-Union) 트래커(Tracker) 알고리즘으로 이전 프레임과 현재 프레임의 바운딩 박스 영역의 IOU를 비교하여 동일 객체를 결합시켜 해당 객체가 움직인 경로를 예측할 수 있다.

제어부(미도시)는 이상행동 탐지 장치(150)의 전체적인 동작을 제어하고, 객체 인식부(310), 재식별 객체 검출부(330), 행동 탐지부(350), 이상행동 탐지부(370) 및 객체 추적부(370) 간의 제어 흐름 또는 데이터 흐름을 관리할 수 있다.

도 4는 본 발명에 따른 이상행동 탐지 과정의 일 실시예를 설명하는 순서도이다.

도 4를 참조하면, 이상행동 탐지 장치(150)는 객체 인식부(310)를 통해 제1 영역을 촬영하여 제1 영상을 생성하고 제1 영상에서 객체를 인식할 수 있다(단계 S410).

이상행동 탐지 장치(150)는 재식별 객체 검출부(330)를 통해 제2 영역의 제2 영상에서 객체와 동일한 재식별 객체의 존재를 검출할 수 있다(단계 S430).

이상행동 탐지 장치(150)는 행동 탐지부(350)를 통해 객체 및 재식별 객체의 행동들을 행동모델을 통해 탐지할 수 있다(단계 S450).

이상행동 탐지 장치(150)는 이상행동 탐지부(370)를 통해 행동들 각각의 특징을 해당 장소에 특정되는 정상 행동의 특징과 유사도 비교하여 이상행동을 탐지할 수 있다(단계 S470).

이상행동 탐지 장치(150)는 이상행동이 탐지되면 객체 추적부(390)를 통해 객체를 추적할 수 있다(단계 S490).

도 5는 본 발명에 따른 이상행동 탐지 과정을 설명하는 도면이다.

도 5를 참조하면, 이상행동 탐지 장치(150)는 CCTV 카메라 영상 분석을 통해 실시간으로 이상행동 객체를 탐지하고 해당 객체를 추적하여 CCTV 통합관제시스템을 효과적으로 운용할 수 있다. 보다 구체적으로, 이상행동 탐지 장치(150)는 적어도 하나 이상의 카메라 단말(110)을 통해 촬영하여 생성되는 적어도 하나의 영상을 실시간으로 수신할 수 있다(단계 S510). 실시간으로 수신되는 영상들은 데이터베이스(170)에 저장될 수 있다. 여기에서, 데이터베이스(170)는 이상행동 탐지 장치(150) 내부의 메모리에 해당할 수 있고 또는 외부 서버에 있는 데이터베이스에 해당할 수 있다.

이상행동 탐지 장치(150)는 영상을 실시간 분석하여 행동을 탐지할 수 있다(단계 S520). 이상행동 탐지 장치(150)는 오픈포즈 라이브러리를 활용하여 수신된 영상의 객체 행동을 분석하고 관절의 움직임까지 파악된 특징맵을 생성할 수 있다. 오픈포즈(OpenPose)는 일반 카메라로도 사람의 스켈레톤 데이터를 따올 수 있게 만든 딥러닝 네트워크이다. 오픈포즈 딥러닝 네트워크 구조는 도 6에 도시한 바와 같다.

도 6은 오픈포즈 딥러닝 네트워크 구조를 나타내는 도면이다.

도 6을 참조하면, 이미지가 VGG-19 네트워크의 입력으로 들어가면, CNN의 컨볼루션 레이어(C)와 풀링 레이어(P)를 거쳐서 특징맵(F)을 생성하게 된다. 특징맵(F)은 처음에는 큰 의미없는 내용이 담겨 있지만 그 내용을 학습 데이터와 비교하며 차이점을 점점 줄여나가는 방향으로 최적화를 하면 학습 데이터에 맞는 특징을 갖게 된다. 그리고 이 특징맵(F)은 스테이지(Stage) 1의 입력으로 들어간다.

스테이지 1은 2개의 브랜치(branch)로 나누어진다. 첫 번째 브랜치의 CNN(p1)은 모든 사람의 관절 위치를 결정하는 컨피던스 맵(Confidence map)(S)을 생성한다. 컨피던스 맵은 특정 신체부위가 위치할 가능성에 따라 높은값(최저 0 ~ 최고 1)을 갖는 흑백 이미지라고 할 수 있다. 이 컨피던스 맵을 학습시켜 사진으로부터 각 관절의 위치를 추정할 수 있다. 두 번째 브랜치의 CNN(φ1)에서는 PAFs(Part affinity fields)를 예측하는데, PAFs(L)은 한 파트에서 다른 파트로 이어지는 방향을 인코딩한 2D 벡터로 인체 부위 사이의 연관 정도를 나타낸다. 이 정보는 관절이 연결된 정보를 담고 있고 누구의 것인가를 파악하는데 사용된다.

이후 스테이지 2부터는 스테이지 1의 출력인 컨피던스 맵(S)과 PAFs(L), VGG 네트워크의 출력인 특징맵(F)을 조합해서 CNN의 입력으로 사용한다. 이 과정을 반복하여 각 스테이지를 거칠수록 특징점(키포인트)를 학습하게 되고 특징점에 대한 예측 정확도가 올라간다.

또한, 이상행동 탐지 장치(150)는 영상을 실시간 분석하여 객체를 탐지할 수 있다(단계 S530). 이상행동 탐지 장치(150)는 RPN(Region Proposal Network)를 통한 객체 위치를 파악하고, 파악된 객체들의 특징맵을 생성할 수 있다. 여기에서, 이상행동 탐지 장치(150)는 Mask-Rcnn를 활용하여 실시간으로 CCTV 영상 내 바운딩 박스(Bounding Box)로 화면상의 다중의 객체를 탐지할 수 있다. 객체 탐지(Object detection) 방식은 주로 바운딩 박스로 영상 내에 객체를 탐지한다. 이때, 객체들이 겹쳐있거나 너무 많은 바운딩 박스가 영상 내에 쳐지게 되면 객체 탐지 성능 및 수행 속도가 저하된다. 이에, 픽셀 단위로 이미지 영역 분할하여 각 각체에 맞게 합쳐주는 인스턴스 세그멘테이션(Instance Segmentation)으로 다중 객체들 각각에 대한 마스킹(색칠)을 수행하여 겹쳐져 있는 객체들을 각각 구별해내고 배경을 추출하여 객체를 인식할 수 있다.

이상행동 탐지 장치(150)는 실시간으로 탐지된 객체들의 특징 정보를 기반으로 객체를 분류하고 객체를 재식별 할 수 있다(단계 S540). 이상행동 탐지 장치(150)는 객체의 자세를 분류하고 객체 마스킹 및 재식별로 여러 영상에 있는 동일한 객체를 검출할 수 있다. 보행자 재식별 기술은 한 대의 카메라에서 검출된 특정 보행자가 같은 카메라의 다른 시간대에 다시 나타났는지 또는 주변 다른 카메라에서 어느 시간에 포착되었는지를 찾는 기술로서 이를 이용하여 해당 인물의 이동경로를 추적할 수 있다. 딥러닝을 적용한 재식별 방법은 식별(Identification), 검증(Verification), 임베딩(Embedding) 방법으로 크게 3가지가 있다. 이상행동 탐지 장치(150)는 식별 방법을 통해 동일한 객체 여부를 판단하여 객체 재식별 할 수 있다. 식별 방법은 심층 신경망 훈련 시 신원(ID)을 이용하여 훈련하고 테스트 시 심층 신경망의 말단인 ID 출력 계층의 이전 계층에서 출력된 특징 정보를 사용하여 유사도를 구하고, 백본(backbone)으로 마스크(Mask) Rcnn에서 활용한 ResNet50을 사용하여 출력 결과인 특징 정보를 6등분(얼굴, 어깨, 허리, 허벅지, 종아리, 발)으로 분할한 이후 평균 풀링을 통해 나온 특징을 결합하여 동일한 사람인지 여부를 판단한다.

이상행동 탐지 장치(150)는 객체의 행동을 장소마다 특정되는 평상시 정상 행동 패턴과 유사성 비교하여 이상행동 객체를 선정하고 이상행동 객체 추적을 수행할 수 있다(단계 S550, S560). 이상행동 탐지 장치(150)는 이상행동 객체 추적시에 두개의 연속되는 이미지 프레임 사이의 차이를 계산하여 객체의 이동 동선을 예측할 수 있으며, 예측 동선을 관제 단말(130)에 제공할 수 있다.

도 7은 본 발명에 따른 객체를 인식하는 과정을 설명하는 도면이다.

도 7을 참조하면, 이상행동 탐지 장치(150)는 영상에서 객체를 인식하기 위해 우선, 백본(backbone)을 통해 특징을 추출한다. 여기에서, 이미지의 공간정보를 유지하면서 특징, 예를 들어 라인, 코너, 특징점 등을 추출하여 최종적으로 배열형태의 특징맵(Feature Map)을 추출한다. Mask-Rcnn은 백본으로 Resnet-50을 사용하여 영상의 특징을 추출하고 이후 추출된 특징 계층을 가지고 영상 내에 객체가 있을법한 위치에 바운딩 박스를 쳐주는 RPN(Region Proposal Network)를 수행한다. RPN에서 제안된 영역만을 가지고 객체가 있는 곳에 바운딩 박스를 잘 쳤는지 다시 확인하는 절차(box regression) 및 해당 객체의 종류를 판별(classification)하는 과정을 수행하게 된다. 이후, FCN(Fully Convolutional Network)을 통해 영상 내에 각 객체들에 마스크가 씌어지게 된다.

도 8은 본 발명에 따른 재식별 객체를 검출하는 과정을 설명하는 도면이다.

도 8을 참조하면, 이상행동 탐지 장치(150)는 복수의 계층으로 구성된 컨볼루션 신경망(CNN)으로 특징들을 추출하고 추출한 특징들 각각을 신체 부위별로 분할하여 분할한 특징정보들을 평균 풀링(average pooling)을 통해 비교하여 객체와 동일한 재식별 객체의 존재를 검출할 수 있다.

도 9에서, 컨볼루션 신경망(CNN)은 다수의 컨볼루션 레이어 및 풀링 레이어와 최종적인 커넥션 레이어로 이루어지며, 식별하고자 하는 이미지의 특정 영역 내의 픽셀 값들을 단일 값으로 컨볼루션한 것을 다시 풀링 레이어로 합친 값으로 필터를 적용해서 특정 이미지로 곡선이나 직선 같은 테두리나 특징을 검출한다. 검출한 특징 정보를 신체 부위별로, 예를 들면 얼굴, 어깨, 허리, 허벅지, 종아리, 발 등의 6등분으로 분할한 후 평균 풀링을 통해 나온 특징을 결합하여 동일한 객체 즉, 사람인지 여부를 판단한다.

일 실시예에 따른 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치 및 방법은 CCTV가 설치 장소마다 특정되는 정상 행동과 유사도가 낮은 비정상 행동의 이상행동을 스스로 식별하여 안전담당자에게 알리고 실시간으로 이상행동 객체를 이동 동선을 추적함으로써 용의자 체포율과 관제 요원의 업무 부담을 감소시킬 수 있고 사건 검출 실패율을 개선할 수 있으며, 추가적으로 범죄행위 식별을 통한 범죄예방 시스템 구축, 방화 및 테러 행위 식별을 통한 재난방지 시스템 구축 등 활용 범위를 다양화할 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: 영상 분석 기반 이상행동 탐지 시스템
110: 카메라 단말 130: 관제 단말
150: 이상행동 탐지 장치 170: 데이터베이스
210: 프로세서 230: 메모리
250: 사용자 입출력부 270: 네트워크 입출력부
310: 객체 인식부 330: 재식별 객체 검출부
350: 행동 탐지부 370: 이상행동 탐지부
390: 객체 추적부

Claims

제1 영역을 촬영하여 제1 영상을 생성하고 상기 제1 영상에서 객체를 인식하는 객체 인식부;
제2 영역의 제2 영상에서 상기 객체와 동일한 재식별 객체의 존재를 검출하는 재식별 객체 검출부;
행동모델을 통해 상기 객체 및 재식별 객체의 행동들을 탐지하는 행동 탐지부;
상기 행동들 각각의 특징을 해당 장소에 특정되는 정상 행동의 특징과 유사도 비교하여 이상행동을 탐지하는 이상행동 탐지부; 및
상기 이상행동이 탐지되면 상기 객체를 추적하는 객체 추적부를 포함하는 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치.
제1항에 있어서, 상기 객체 인식부는
바운딩 박스로 상기 제1 영상 내에 있는 다중 객체들을 탐지하고 인스턴스 세그멘테이션으로 상기 다중 객체들 각각에 대한 마스킹을 수행하여 상기 객체를 인식하는 것을 특징으로 하는 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치.
제2항에 있어서, 상기 객체 인식부는
상기 객체가 인식되면 복수의 계층으로 구성된 컨볼루션 신경망을 통해 상기 객체의 특징을 추출하는 것을 특징으로 하는 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치.
제1항에 있어서, 상기 재식별 객체 검출부는
다른 시간 또는 다른 공간에서 상기 제2 영상을 획득하고 상기 객체 및 재식별 객체의 특징들 각각을 신체 부위별로 분할한 제1 및 제2 특징정보들을 평균 풀링(average pooling)을 통해 비교하여 동일성을 판단하는 것을 특징으로 하는 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치.
제4항에 있어서, 상기 재식별 객체 검출부는
복수의 계층으로 구성된 컨볼루션 신경망으로 상기 특징들을 추출하는 것을 특징으로 하는 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치.
제1항에 있어서, 상기 행동 탐지부는
상기 행동모델을 통해 상기 객체 및 상기 재식별 객체의 자세(pose)를 파악하여 상기 객체 및 상기 재식별 객체의 행동 유형을 감지하는 것을 특징으로 하는 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치.
제1항에 있어서, 상기 이상행동 탐지부는
장소에 따른 정상행동 유형과 상기 객체 및 상기 재식별 객체의 행동 유형들 간의 코사인 유사도를 산출하여 유사도가 낮은 행동 유형의 객체를 추적 대상으로 선정하는 것을 특징으로 하는 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치.
제7항에 있어서, 상기 이상행동 탐지부는
상기 객체 및 상기 재식별 객체의 특징점(keypoint)들을 벡터로 변환하고 정규화하여 정규화된 키포인트 좌표를 통해 코사인 유사도를 계산하는 것을 특징으로 하는 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치.
제1항에 있어서, 상기 객체 추적부는
상기 객체의 이동 동선을 추적하고 시간변수를 통해 상기 객체의 예측 동선을 결정하는 것을 특징으로 하는 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치.
제9항에 있어서, 상기 객체 추적부는
상기 예측 동선을 관제 단말에 제공하여 범죄예방을 촉진하는 것을 특징으로 하는 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치.
제1 영역을 촬영하여 제1 영상을 생성하고 상기 제1 영상에서 객체를 인식하는 단계;
제2 영역의 제2 영상에서 상기 객체와 동일한 재식별 객체의 존재를 검출하는 단계;
행동모델을 통해 상기 객체 및 재식별 객체의 행동들을 탐지하는 단계;
상기 행동들 각각의 특징을 해당 장소에 특정되는 정상 행동의 특징과 유사도 비교하여 이상행동을 탐지하는 단계; 및
상기 이상행동이 탐지되면 상기 객체를 추적하는 단계를 포함하는 딥러닝 기반 영상분석을 통한 이상행동 탐지 방법.
제11항에 있어서, 상기 객체를 인식하는 단계는
바운딩 박스로 상기 제1 영상 내에 있는 다중 객체들을 탐지하고 인스턴스 세그멘테이션으로 상기 다중 객체들 각각에 대한 마스킹을 수행하여 객체를 인식하는 단계; 및
상기 객체가 인식되면 복수의 계층으로 구성된 컨볼루션 신경망을 통해 상기 객체의 특징을 추출하는 단계를 포함하는 딥러닝 기반 영상분석을 통한 이상행동 탐지 방법.
제11항에 있어서, 상기 재식별 객체의 존재를 검출하는 단계는
상기 제1 영상과 다른 시간 또는 다른 공간에서 상기 제2 영상을 획득하고 상기 객체 및 재식별 객체의 특징들 각각을 신체 부위별로 분할한 제1 및 제2 특징정보들을 평균 풀링(average pooling)을 통해 비교하여 동일성을 판단하는 것을 특징으로 하는 딥러닝 기반 영상분석을 통한 이상행동 탐지 방법.
제11항에 있어서, 상기 행동을 탐지하는 단계는
상기 행동모델을 통해 상기 객체 및 상기 재식별 객체의 자세(pose)를 파악하여 상기 객체 및 상기 재식별 객체의 행동 유형을 감지하는 것을 특징으로 하는 딥러닝 기반 영상분석을 통한 이상행동 탐지 방법.
제11항에 있어서, 상기 이상행동을 탐지하는 단계는
장소에 따른 정상행동 유형과 상기 객체 및 상기 재식별 객체의 행동 유형들 간의 코사인 유사도를 산출하여 유사도가 낮은 행동 유형의 객체를 추적 대상으로 선정하는 것을 특징으로 하는 딥러닝 기반 영상분석을 통한 이상행동 탐지 방법.