KR20210020723A

KR20210020723A - 폭행 감지 기능을 구비한 cctv 촬영 장치 및 cctv 영상에 기초한 폭행 감지 방법

Info

Publication number: KR20210020723A
Application number: KR1020190140799A
Authority: KR
Inventors: 조용범
Original assignee: 건국대학교 산학협력단
Priority date: 2019-08-14
Filing date: 2019-11-06
Publication date: 2021-02-24
Also published as: KR102384299B1

Abstract

본원은 폭행 감지 기능을 구비한 CCTV 촬영 장치 및 CCTV 촬영 장치에 의해 수행되는 CCTV 영상에 기초한 폭행 감지 방법이 개시되며, 본원의 일 실시예에 따른 CCTV 촬영 장치에 의해 수행되는 CCTV 영상에 기초한 폭행 감지 방법은, 촬영된 CCTV 영상에서 등장 인물을 식별하는 단계, 식별된 상기 등장 인물에 대한 키-포인트를 검출하는 단계, 검출된 상기 키-포인트 사이의 각도 정보를 계산하는 단계 및 기 생성된 분류 모델을 통해 상기 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지하는 단계를 포함할 수 있다.

Description

폭행 감지 기능을 구비한 CCTV 촬영 장치 및 CCTV 영상에 기초한 폭행 감지 방법{CCTV CAMERA DEVICE HAVING ASSAULT DETECTION FUNCTION AND METHOD FOR DETECTING ASSAULT BASED ON CCTV IMAGE PERFORMED}

본원은 폭행 감지 기능을 구비한 CCTV 촬영 장치 및 CCTV 촬영 장치에 의해 수행되는 CCTV 영상에 기초한 폭행 감지 방법에 관한 것이다.

최근 들어, 다양한 목적을 가지고 설치되는 폐쇄 회로 텔레비전(Closed Circuit Television, CCTV)의 수가 점차 증가하고 있으며, 영상 기술의 발전에 힘입어 CCTV 영상 역시 점차 선명해지고 고화질로 발전하고 있는 추세이다. 또한, 이러한 CCTV 시스템과 관련하여 각종 범죄, 폭력과 도난 사고 등의 발생이 증가함에 따라, 그 기능에 대한 사용자들의 기대도 높아지는 추세이다.

기존의 CCTV 시스템은 범죄나 도난 등의 발생시 사후적으로 범죄자 등을 색출하는 데 이용되는 것이 일반적이었다. 또한, CCTV는 감시 대상 공간에 대한 원거리 또는 원격 관찰을 가능하게 하고, 치안이 약하거나 유동인구가 적어 관찰하기 힘든 지역이나 수감자 등 집중적인 감시가 필요할 때 설치되어 사용될 수 있으나 CCTV 영상을 통해 소정의 영역을 감시하는 인원(경찰관, 경비원 등)이 CCTV 영상을 지속적으로 직접 육안으로 관찰하여야 하는 한계가 있었다.

또한, 폭행 상황이 발생한 경우 이를 중지시키기 위하여 즉각적인 조치가 필요함에도 불구하고, 폭행 상황을 실시간으로 감지하여 담당자에게 알림을 즉각적으로 전송하는 시스템은 아직 개발된 바 없으며, 별도의 서버 장치 등을 마련하여 CCTV 촬영 장치로부터 영상을 획득하여 이에 대한 분석을 통해 폭행 상황을 감지하는 경우에는 영상을 송수신하는 과정, 별도의 서버 장치에서 분석을 하는 과정 등에 추가적인 시간이 소요되어 즉각적인 조치가 이루어지기 어렵다는 한계가 있었다.

본원의 배경이 되는 기술은 한국공개특허공보 제10-2009-0035379호에 개시되어 있다.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 폭행 상황을 실시간으로 감지하고 폭행 상황이 감지되는 경우 보안 담당자 등의 사용자 단말에 해당 상황을 즉각적으로 알릴 수 있는 폭행 감지 기능을 구비한 CCTV 촬영 장치 및 CCTV 촬영 장치에 의해 수행되는 CCTV 영상에 기초한 폭행 감지 방법을 제공하는 것을 목적으로 한다.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 보안 관찰자가 직접 모니터링을 하고 그 정보를 판단하여 해당 현장으로 출동하기 전에 실시간으로 폭력 상황 발생의 알람을 듣고 예방할 수 있는 기계학습 기반의 폭행 방지 CCTV 시스템을 제공하는 것을 목적으로 한다.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 모니터링을 하는 대상에게 실시간으로 폭행이 발생했음을 알리며 교도소, 학교, 술집 등 폭행이 발생할 확률이 높은 곳에서 폭행이 일어나는 순간 해당 동작을 인식하기 때문에 이어질 더 큰 사태에 대해 빠른 예방책을 마련해 줄 수 있는 기계학습 CCTV를 통한 폭행 방지 시스템을 제공하는 것을 목적으로 한다.

본원은 전술한 데이터 수집을 위해서 CCTV 영상에 포함된 각 사람의 key-point를 기반으로 주변 사람의 각도를 추출하고 변화를 분석해서 폭행 가능성을 Labeling하여 보다 적은 연산량과 빠른 속도로 폭행이 발생할 가능성이 높을 때를 판단하여 알람 기능을 활용하여 보안 담당자에게 정보를 사전에 제공하는 것을 목적으로 한다.

다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 CCTV 촬영 장치에 의해 수행되는 CCTV 영상에 기초한 폭행 감지 방법은, 촬영된 CCTV 영상에서 등장 인물을 식별하는 단계, 식별된 상기 등장 인물에 대한 키-포인트를 검출하는 단계, 검출된 상기 키-포인트 사이의 각도 정보를 계산하는 단계 및 기 생성된 분류 모델을 통해 상기 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지하는 단계를 포함할 수 있다.

또한, 상기 키-포인트를 검출하는 단계는, 상기 등장 인물의 신체 중 관절의 위치에 대응되는 지점을 상기 키-포인트로 검출할 수 있다.

또한, 상기 키-포인트를 검출하는 단계는, 학습 이미지로부터 소정의 관절의 위치를 추출한 제1 피처 및 추출된 관절이 어느 등장 인물에 대한 것인지를 나타내는 제2피처를 획득하고, 상기 제1피처 및 상기 제2피처를 기 확보된 인간 자세 데이터와 비교하여 상기 제1피처 및 상기 제2피처를 최적화하는 피드-포워드 네트워크에 기초하여 생성되는 딥러닝 기반의 키-포인트 추출 알고리즘을 기초로 하여 상기 키-포인트를 검출할 수 있다.

또한, 상기 각도 정보를 계산하는 단계는, 관절의 위치에 대응되는 상기 키-포인트의 적어도 일부를 잇는 복수의 연결선을 생성하는 단계 및 각각의 관절의 위치에 대응되는 상기 키-포인트에 대하여 생성된 두 연결선 사이의 각도를 측정하여 해당 키-포인트에 대한 각도 정보로 결정하는 단계를 포함할 수 있다.

또한, 상기 기 생성된 분류 모델은, 폭행 상황을 포함하는 복수의 라벨링된 학습 영상 데이터에 기초하여 SVM(Support Vector Machine) 기법에 의해 생성되는 것일 수 있다.

또한, 본원의 일 실시예에 따른 CCTV 촬영 장치에 의해 수행되는 CCTV 영상에 기초한 폭행 감지 방법은, 상기 폭행 상황의 발생이 감지되는 경우, 상기 폭행 상황과 연계된 알림 신호를 생성 및 전송하는 단계를 포함할 수 있다.

한편, 본원의 일 실시예에 따른 폭행 감지 기능을 구비한 CCTV 촬영 장치는, 소정의 감시 대상 공간을 촬영하여 CCTV 영상을 생성하는 카메라부, 촬영된 상기 CCTV 영상에서 등장 인물을 식별하는 인물 식별부, 식별된 상기 등장 인물에 대한 키-포인트를 검출하고, 검출된 상기 키-포인트 사이의 각도 정보를 계산하는 연산부 및 기 생성된 분류 모델을 통해 상기 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지하는 폭행 감지부를 포함할 수 있다.

또한, 상기 연산부는, 상기 등장 인물의 신체 중 관절의 위치에 대응되는 지점을 상기 키-포인트로 검출할 수 있다.

또한, 상기 연산부는, 학습 이미지로부터 소정의 관절의 위치를 추출한 제1 피처 및 추출된 관절이 어느 등장 인물에 대한 것인지를 나타내는 제2피처를 획득하고, 상기 제1피처 및 상기 제2피처를 기 확보된 인간 자세 데이터와 비교하여 상기 제1피처 및 상기 제2피처를 최적화하는 피드-포워드 네트워크에 기초하여 생성되는 딥러닝 기반의 키-포인트 추출 알고리즘을 기초로 하여 상기 키-포인트를 검출할 수 있다.

또한, 상기 연산부는, 관절의 위치에 대응되는 상기 키-포인트의 적어도 일부를 잇는 복수의 연결선을 생성하고, 각각의 관절의 위치에 대응되는 상기 키-포인트에 대하여 생성된 두 연결선 사이의 각도를 측정하여 해당 키-포인트에 대한 각도 정보로 결정할 수 있다.

또한, 상기 폭행 감지부는, 폭행 상황을 포함하는 복수의 라벨링된 학습 영상 데이터에 기초하여 SVM(Support Vector Machine) 기법에 의해 생성된 상기 기 생성된 분류 모델을 활용하여 폭행 상황의 발생을 감지할 수 있다.

또한, 본원의 일 실시예에 따른 폭행 감지 기능을 구비한 CCTV 촬영 장치는, 상기 폭행 상황의 발생이 감지되는 경우, 상기 폭행 상황과 연계된 알림 신호를 생성 및 전송하는 알림 출력부를 포함할 수 있다.

한편, 본원의 일 실시예에 따른 CCTV 영상에 기초한 폭행 감지 장치는, CCTV 촬영 장치에 의해 촬영된 CCTV 영상을 수신하는 영상 수신부, 상기 CCTV 영상에서 등장 인물을 식별하는 인물 식별부, 식별된 상기 등장 인물에 대한 키-포인트를 검출하고, 검출된 상기 키-포인트 사이의 각도 정보를 계산하는 연산부 및 기 생성된 분류 모델을 통해 상기 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지하는 폭행 감지부를 포함할 수 있다.

또한, 본원의 일 실시예에 따른 CCTV 영상에 기초한 폭행 감지 장치는, 상기 폭행 상황의 발생이 감지되는 경우, 상기 폭행 상황과 연계된 알림 신호를 생성 및 전송하는 알림 출력부를 포함할 수 있다.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.

전술한 본원의 과제 해결 수단에 의하면, 폭행 상황을 실시간으로 감지하고 폭행 상황이 감지되는 경우 보안 담당자 등의 사용자 단말에 해당 상황을 즉각적으로 알릴 수 있는 폭행 감지 기능을 구비한 CCTV 촬영 장치 및 CCTV 촬영 장치에 의해 수행되는 CCTV 영상에 기초한 폭행 감지 방법을 제공할 수 있다.

전술한 본원의 과제 해결 수단에 의하면, 복잡한 연산 없이 키-포인트 사이의 각도 변화에 기초하여 폭행 발생 여부를 판단하는 SVM 기반의 분류 모델을 활용함으로써 연산 처리량, 처리 속도 등이 부족한 임베디드 환경의 CCTV 촬영 장치에도 본원의 폭행 감지 기능이 구비될 수 있는 이점이 있다.

전술한 본원의 과제 해결 수단에 의하면, 보안 관찰자가 직접 모니터링을 하고 그 정보를 판단하여 해당 현장으로 출동하기 전에 폭력 상황 발생의 알람을 듣고 예방할 수 있다.

전술한 본원의 과제 해결 수단에 의하면, 모니터링을 하는 대상에게 실시간으로 폭행이 발생했음을 알리며 교도소, 학교, 술집 등 폭행이 발생할 확률이 높은 곳에서 폭행이 일어나는 순간 해당 동작을 인식하기 때문에 이어질 더 큰 사태에 대해 빠른 예방책을 마련해 줄 수 있다.

전술한 본원의 과제 해결 수단에 의하면, CCTV 영상에 포함된 각 사람의 key-point를 기반으로 주변 사람의 각도를 추출하고 변화를 분석해서 폭행 가능성을 Labeling하여 보다 적은 연산량과 빠른 속도로 폭생이 발생할 가능성이 높을 때를 판단하여 알람기능을 활용하여 보안자에게 정보를 사전에 제공할 수 있다.

다만, 본원에서 얻을 수 있는 효과는 상기된 바와 같은 효과들로 한정되지 않으며, 또 다른 효과들이 존재할 수 있다.

도 1은 본원의 일 실시예에 따른 폭행 감지 기능을 구비한 CCTV 촬영 장치를 포함하는 폭행 방지 시스템의 개략적인 구성도이다.
도 2는 본원의 다른 실시예에 따른 CCTV 영상에 기초한 폭행 감지 장치를 포함하는 폭행 방지 시스템의 개략적인 구성도이다.
도 3은 CCTV 영상에서 식별된 등장 인물의 키-포인트를 검출하는 것을 설명하기 위한 도면이다.
도 4는 본원의 일 실시예에 따른 딥러닝 기반의 키-포인트 추출 알고리즘을 설명하기 위한 도면이다.
도 5는 본원의 일 실시예에 따른 폭행 감지 기능을 구비한 CCTV 촬영 장치의 개략적인 구성도이다.
도 6은 본원의 일 실시예에 따른 CCTV 영상에 기초한 폭행 감지 장치의 개략적인 구성도이다.
도 7은 본원의 일 실시예에 따른 CCTV 영상에 기초한 폭행 감지 방법의 동작 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결" 또는 "간접적으로 연결"되어 있는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

도 1은 본원의 일 실시예에 따른 폭행 감지 기능을 구비한 CCTV 촬영 장치를 포함하는 폭행 방지 시스템의 개략적인 구성도이다.

도 1을 참조하면, 본원의 일 실시예에 따른 폭행 방지 시스템(10)은, 폭행 감지 기능을 구비한 CCTV 촬영 장치(100), 네트워크(20) 및 사용자 단말(30)을 포함할 수 있다.

예를 들면, 사용자 단말(30)은, 스마트폰(Smartphone), 스마트패드(SmartPad), 태블릿 PC, 컴퓨터, 노트북 등과 PCS(Personal Communication System), GSM(Global System for Mobile communication), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말기 같은 모든 종류의 유/무선 통신 장치를 포함할 수 있다. 특히, 본원에서의 사용자 단말(30)은 CCTV 촬영 장치(100)에 의해 촬영되는 감시 대상 공간에 대한 보안 관리를 수행하는 지위에 있는 사람(예를 들면, 건물 내 보안 담당자, 경비원, 방범대원 등)이 보유한 사용자 단말(30)을 의미하는 것일 수 있다.

폭행 감지 기능을 구비한 CCTV 촬영 장치(100) 및 사용자 단말(20) 상호간은 네트워크(30)을 통해 연결될 수 있으며, 네트워크(30)는 단말들 및 서버들과 같은 각각의 노드 상호간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는, 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5G 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), wifi 네트워크, 블루투스(Bluetooth) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.

도 2는 본원의 다른 실시예에 따른 CCTV 영상에 기초한 폭행 감지 장치를 포함하는 폭행 방지 시스템의 개략적인 구성도이다.

도 2를 참조하면, 본원의 다른 실시예에 따른 폭행 방지 시스템(100)은, CCTV 촬영 장치(100), CCTV 영상에 기초한 폭행 감지 장치(200), 네트워크(20) 및 사용자 단말(30)을 포함할 수 있다.

도 1에 도시된 본원의 일 실시예에 따른 폭행 감지 기능을 구비한 CCTV 촬영 장치를 포함하는 폭행 방지 시스템과 도 2에 도시된 본원의 다른 실시예에 따른 CCTV 영상에 기초한 폭행 감지 장치를 포함하는 폭행 방지 시스템은, 도 1에 도시된 폭행 방지 시스템은 CCTV 촬영 장치(100)가 자체적으로 폭행 감지 기능을 구비하여 촬영된 CCTV 영상으로부터 폭행 상황을 감지하고 폭행 상황이 감지되면 폭행 상황과 연계된 알림 신호를 사용자 단말(30)에 생성 및 전송하는 반면, 도 2에 도시된 폭행 방지 시스템은 CCTV 촬영 장치(100)가 촬영한 CCTV 영상을 폭행 감지 장치(200)가 수신하고, 폭행 감지 장치(200)에 의해 수신된 CCTV 영상으로부터 폭행 상황을 감지하고 폭행 상황이 감지되면 폭행 상황과 연계된 알림 신호를 사용자 단말(30)에 생성 및 전송하는 점에서 구분될 수 있다.

달리 말해, 본원에서 개시하는 두가지 유형의 폭행 방지 시스템은 폭행 상황을 감지하는 주체에 의해 구분될 수 있다. 도1에 도시된 폭행 감지 시스템과 도2에 도시된 폭행 감지 시스템에서 CCTV 영상으로부터 폭행 상황을 감지하는 과정은 실질적으로 유사하게 수행되므로, 이하에서는, 설명의 편의를 위하여 도 1에 도시된 본원의 일 실시예에 따른 폭행 감지 기능을 구비한 CCTV 촬영 장치를 포함하는 폭행 방지 시스템에 의해 폭행 상황을 감지하는 과정에 대해 설명하도록 한다.

특히, 본원의 일 실시예에 따르면, 폭행 감지 기능을 구비한 CCTV 촬영 장치(100)를 포함하는 폭행 방지 시스템(10)의 경우, 촬영된 CCTV 영상을 별도의 서버 또는 장치 등에 전송할 필요 없이, CCTV 촬영 장치(100)가 자체적으로 폭행 감지 기능을 구비하므로 폭행 상황에 대한 즉각적인 조치(예를 들면, 실시간 감지)가 가능한 이점이 있을 수 있다.

또한, 본원에서의 폭행 감지 기능은 연산 시간이 길고, 고도의 처리 능력이 요구되는 딥러닝 등의 방식이 아닌, 기 학습된 분류 모델(SVM 분류 모델)을 이용하여 등장 인물의 키-포인트 각도 변화에 기초하여 단순히 '폭행이 발생하였다는 정보'만을 추출할 수 있도록 구현하여 복잡한 계산을 수행할 필요가 없어 판단(처리) 속도가 향상되므로, 본원에 의할 때 연산 능력이 비교적 떨어지는 기존에 설치된 CCTV 촬영 장치를 새로이 교체하지 않고도 본원의 폭행 감지 기능과 연계된 소프트웨어, 모듈 등을 추가로 설치하거나 탑재하기만 하면 별도 서버 등에 의하지 않고도 CCTV 촬영 장치 자체적으로 실시간의 폭행 감지가 수행될 수 있다는 이점이 있다.

본원의 일 실시예에 따른 폭행 감지 기능을 구비한 CCTV 촬영 장치(100)(이하, 'CCTV 촬영 장치(100)'라 한다.)는, 촬영된 CCTV 영상에서 등장 인물을 식별할 수 있다. 특히, CCTV 촬영 장치(100)는 촬영된 CCTV 영상에 복수의 등장 인물이 등장하는 경우, 매 프레임 별로 각각의 등장 인물이 등장하는 영역을 구분하도록 동작할 수 있다. 본원의 일 실시예에 따르면, CCTV 촬영 장치(100)는 CCTV 영상의 각 프레임에 포함된 픽셀마다의 색상 정보 등에 기초하여 배경 차분 기법을 이용하여 등장 인물을 식별할 수 있다. 다른 예로, CCTV 촬영 장치(100)는 인공지능 기반의 등장 인물 식별을 수행하거나 의미론적 영역 분할 기반의 등장 인물 식별을 수행하는 것일 수 있다.

또한, CCTV 촬영 장치(100)는, 식별된 등장 인물에 대한 키-포인트(Key-Point)를 검출할 수 있다. 본원의 일 실시예에 따르면, CCTV 촬영 장치(100)는, 식별된 등장 인물 각각의 신체 중 관절의 위치에 대응되는 지점을 키-포인트로 검출하는 것일 수 있다.

도 3은 CCTV 영상에서 식별된 등장 인물의 키-포인트를 검출하는 것을 설명하기 위한 도면이다.

도 3을 참조하면, 하나의 등장 인물에 대하여 복수의 키-포인트가 검출될 수 있으며, CCTV 촬영 장치(100)는 식별된 등장 인물에 신체 중 주요 관절 위치에 대응되는 기 설정된 수만큼의 키-포인트를 검출할 수 있다. 본원의 일 실시예에 따르면, CCTV 촬영 장치(100)는 검출된 키-포인트 각각의 좌표값을 계산할 수 있다. 예를 들어, CCTV 영상의 매 프레임의 가로축 및 세로축을 기준으로 하는 2차원 좌표값이 검출된 키-포인트 각각에 대하여 계산될 수 있다.

본원의 일 실시예에 따르면, 등장 인물 각각에 대해 검출되는 키-포인트의 수가 많을수록 해당 등장 인물의 행위나 동작을 정확하게 측정할 수 있으나, 폭행 상황 발생시 이에 대한 즉각적인 조치가 이루어져야 함을 고려하면, 폭행 상황에 대한 인식을 위한 연산은 빠른 속도로 수행되어야 한다. 따라서, 등장 인물 각각에 대한 신체의 모든 위치를 고려하는 것이 아니라 본원에서는 폭행 감지를 위한 연산 속도를 고려하여 검출되는 키-포인트의 수가 24개 이하의 범위에 속하도록 할 수 있다. 다만, 이에만 한정되는 것은 아니며, 등장 인물의 신체가 CCTV 영상 내에서 소정의 물체, 지형 지물 등에 의해 일부 가려지는 경우 이를 고려하여 해당 등장 인물에 대하여는 더 적은 수의 키-포인트만이 검출될 수 있다.

특히, 본원의 일 실시예에 따르면, CCTV 촬영 장치(100)는, 학습 이미지로부터 소정의 관절의 위치를 추출한 제1 피처 및 추출된 관절이 어느 등장 인물에 대한 것인지를 나타내는 제2피처를 획득하고, 제1피처 및 제2피처를 기 확보된 인간 자세 데이터와 비교하여 제1피처 및 상기 제2피처를 최적화하는 피드-포워드 네트워크에 기초하여 생성되는 딥러닝 기반의 키-포인트 추출 알고리즘을 기초로 하여 상기 키-포인트를 검출하도록 구현될 수 있다.

본원의 일 실시예에 따르면, 제1피처는 Confidence Maps일 수 있고, 제2피처는 Affinity Field일 수 있다.

도 4는 본원의 일 실시예에 따른 딥러닝 기반의 키-포인트 추출 알고리즘을 설명하기 위한 도면이다.

도 4를 참조하면, 딥러닝 기반의 키-포인트 추출 알고리즘은 입력 컬러 이미지((a); 학습 이미지)에서 등장 인물의 신체 부위 각각에 대한 2차원 Confidence maps(제1 피처, (b))를 예측할 수 있다. 딥러닝 기반의 키-포인트 추출 알고리즘 생성을 위한 학습 초반에는 제1피처가 유의미하지 않게 추출될 수 있으나, 이를 피드-포워드 네트워크(Feed-Forward Network)에 기초하여 기 확보된 인간 자세 데이터와의 비교를 통해 최적화하게 되면, 점차 등장 인물의 관절 위치에 근접한 키-포인트를 추출하게 된다. 제2 피처인 Affinity filed(c)는 추출된 관절 위치가 누구의 관절 위치인지를 나타내는 특성(벡터 필드 세트)을 반영한 것으로, 딥러닝 기반의 키-포인트 추출 알고리즘은 새로이 인가되는 입력 이미지로부터 제1피처와 제2피처를 추출하고, 이를 조합하여 도 4의 (e)와 같은 복수의 키-포인트를 포함하는 Human Skeleton을 추출할 수 있다. 특히, 등장 인물의 신체를 이루는 각 부분을 조합하여 Human Skeleton을 생성하는 경우, Greedy Relaxation을 통해 각 부분이 어느 등장 인물의 것인지를 판단할 수 있다.

CCTV 촬영 장치(100)는 검출된 키-포인트 사이의 각도 정보를 계산할 수 있다. 본원의 일 실시예에 따르면, 키-포인트 사이의 각도 정보를 계산하기 위하여, 관절의 위치에 대응되는 키-포인트의 적어도 일부를 잇는 복수의 연결선을 생성하고, 각각의 관절의 위치에 대응되는 키-포인트에 대하여 생성된 두 연결선 사이의 각도를 측정하여 해당 키-포인트에 대한 각도 정보로 결정할 수 있다. 이해를 돕기 위해 예시하면, CCTV 촬영 장치(100)는 도 3에 도시된 6번 키-포인트에 대한 각도 정보를 결정하기 위하여, 5번 키-포인트 및 6번 키-포인트를 잇는 연결선과 6번 키-포인트 및 7 번 키-포인트를 잇는 연결선 사이의 각도를 계산할 수 있고, 계산된 각도값을 6번 키-포인트에 대한 각도 정보로 결정할 수 있다. CCTV 촬영 장치(100)는 CCTV 영상에 포함된 프레임 각각에 대하여 복수의 등장 인물 별 키-포인트 각각에 대한 각도 정보를 계산할 수 있다. 본원의 일 실시예에 따르면, CCTV 촬영 장치(100)는 CCTV 영상에 포함된 매 프레임에 대하여 각도 정보를 계산하거나 소정의 간격(예를 들어, 프레임 간격 2, 3 등)을 갖는 프레임마다 각도 정보를 계산하도록 동작할 수 있다.

또한, CCTV 촬영 장치(100)는 기 생성된 분류 모델을 통해 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지할 수 있다.

여기서, 본원의 일 실시예에 따르면, 기 생성된 분류 모델은 폭행 상황을 포함하는 복수의 라벨링된 학습 영상 데이터에 기초하여 SVM(Support Vector Machine) 기법에 의해 생성된 것을 의미할 수 있다.

보다 구체적으로, 기 생성된 분류 모델을 생성하기 위하여, 폭행 상황을 포함하는 복수의 학습 영상 데이터(예를 들면, 영화, 드라마, 블랙박스 영상 등)를 활용하여 해당 학습 영상 데이터 각각에 대하여 등장 인물들을 폭행을 가하는 등장 인물, 폭행을 당하는 등장 인물, 폭행에 관여하지 않는 등장 인물 별로 라벨링하고, 라벨링 처리된 학습 영상 데이터를 SVM 기법을 통해 분류를 위한 학습을 반복 수행할 수 있다.

상술한 학습에 기초하여, 본원에서의 기 생성된 분류 모델은 CCTV 영상에서 소정의 간격의 프레임 변화에 따른 키-포인트 사이의 각도 정보의 변화 정도를 입력으로 하여 CCTV 영상 내 등장 인물 각각이 폭행을 가하는지 여부, 폭행을 당하는지 여부 및 폭행과 무관한지 여부 중 적어도 하나에 대한 분류 결과를 출력으로 제공할 수 있다.

또한, 본원의 일 실시예에 따르면, CCTV 촬영 장치(100)는 폭행 상황의 발생이 감지되는 경우, 폭행 상황과 연계된 알림 신호를 생성하고, 생성된 알림 신호를 사용자 단말(30)에 전송할 수 있다. 구체적으로, 본원에서의 '폭행 상황'은 등장 인물 중 어느 하나가 폭행을 당하는 제1상황 및 등장 인물 중 어느 하나가 폭행을 가하는 제2상황을 포함하는 개념으로 이해될 수 있다. 본원에서의 CCTV 촬영 장치(100)는 상술한 제1상황 및 제2상황 중 적어도 하나가 발생한 경우, 폭행 상황과 연계된 알림 신호를 생성하도록 동작할 수 있다.

또한, 본원의 일 실시에에 따르면, CCTV 촬영 장치(100)는 폭행 상황과 연계된 알림 신호를 출력하는 음향 출력 모듈을 포함할 수 있다. 이에 따라, CCTV 촬영 장치(100)는 생성된 알림 신호를 사용자 단말(300)에 전송하여 보안 담당자 등이 폭행 상황의 발생을 인식할 수 있도록 할뿐만 아니라, 생성된 알림 신호에 기초하여 CCTV 촬영 장치(100) 자체에도 음향 출력 모듈을 통해 경보음, 경고음, 사이렌 등의 음향을 방사하여 감시 대상 공간에서 발생한 폭행 상황을 중지하도록 유도할 수 있다. 다른 예로, CCTV 촬영 장치(100)는 폭행 상황과 연계된 알림 신호에 따라 점등되거나 점멸되어 폭행 상황의 중지를 유도하는 광원 모듈을 포함할 수 있다. 또한, 본원의 일 실시예에 따르면, 상술한 음향 출력 모듈 또는 광원 모듈에서 방사되는 음향의 세기, 유형, 방사되는 광의 세기, 색상 등은 후술하는 폭행 상황과 연계된 위험도에 기초하여 결정되는 것일 수 있다.

또한, 본원의 일 실시예에 따르면, CCTV 촬영 장치(100)는 폭행 상황의 발생이 감지되는 경우, 폭행 상황이 발생이 감지된 프레임의 전후 기 설정된 프레임수의 프레임 집합을 포함하는 클립 영상을 생성 및 저장할 수 있다. 이러한 클립 영상은 CCTV 촬영 장치(100)에 내장되는 저장매체 등에 자동으로 저장될 수 있으며, 이후 폭행에 대한 증거 자료로 기능하거나, 방대한 CCTV 영상 데이터에서 폭행 상황을 포함하는 부분 영상을 쉽게 탐색 가능하도록 활용될 수 있다.

또한, 본원의 일 실시예에 따르면, CCTV 촬영 장치(100)는 감지된 폭행 상황의 위험도를 분석할 수 있다. 또한, CCTV 촬영 장치(100)는 위험도에 기초하여 알림 신호의 경보 수준을 결정하도록 동작할 수 있다. 예를 들어, CCTV 촬영 장치(100)는 폭행을 가하는 등장 인물 또는 폭행을 당하는 등장 인물의 소정의 키-포인트 각도의 변화 정도에 기초하여 폭행 상황이 지속되는 시간을 파악하고 폭행 상황과 연계된 CCTV 영상 내 색상 정보, 객체 식별 정도 등에 기초하여 파악되는 출혈, 기물 파손, 흉기 등의 세부 상황 정보 등을 고려하여 폭행 상황의 위험도를 평가하는 것일 수 있다.

또한, 실시예에 따라 CCTV 촬영 장치(100)는 서로 다른 공간에 대한 복수의 CCTV 영상을 획득하거나, 복수의 CCTV 촬영 장치(100)에 의해 서로 다른 복수의 감시 대상 공간이 촬영되어 복수의 CCTV 영상이 획득되는 경우, CCTV 촬영 장치(100 또는 폭행 감지 장치(200)는 복수의 CCTV 영상 각각에 대하여 결정된 위험도에 기초하여 위험도가 높은 CCTV 영상에 대한 알림 신호를 위험도가 낮은 CCTV 영상에 대한 알림 신호보다 우선적으로 생성 및 전송하도록 동작할 수 있다.

도 5는 본원의 일 실시예에 따른 폭행 감지 기능을 구비한 CCTV 촬영 장치의 개략적인 구성도이다.

도 5를 참조하면, 본원의 일 실시예에 따른 폭행 감지 기능을 구비한 CCTV 촬영 장치(100)는, 카메라부(110), 인물 식별부(120), 연산부(130), 폭행 감지부(140) 및 알림 출력부(150)를 포함할 수 있다.

카메라부(110)는, 소정의 감시 대상 공간을 촬영하여 CCTV 영상을 생성할 수 있다.

인물 식별부(120)는, 촬영된 CCTV 영상에서 등장 인물을 식별할 수 있다.

연산부(130)는, 식별된 등장 인물 각각에 대한 키-포인트를 검출하고, 검출된 키-포인트 사이의 각도 정보를 계산할 수 있다.

본원의 일 실시예에 따르면, 연산부(130)는, 등장 인물의 신체 중 관절의 위치에 대응되는 지점을 키-포인트로 검출할 수 있다. 또한, 본원의 일 실시예에 따르면, 연산부(130)는, 학습 이미지로부터 소정의 관절의 위치를 추출한 제1 피처 및 추출된 관절이 어느 등장 인물에 대한 것인지를 나타내는 제2피처를 획득하고, 제1피처 및 제2피처를 기 확보된 인간 자세 데이터와 비교하여 제1피처 및 제2피처를 최적화하는 피드-포워드 네트워크에 기초하여 생성되는 딥러닝 기반의 키-포인트 추출 알고리즘을 기초로 하여 키-포인트를 검출할 수 있다.

또한, 본원의 일 실시예에 따르면, 연산부(130)는, 관절의 위치에 대응되는 키-포인트의 적어도 일부를 잇는 복수의 연결선을 생성하고, 각각의 관절의 위치에 대응되는 키-포인트에 대하여 생성된 두 연결선 사이의 각도를 측정하여 해당 키-포인트에 대한 각도 정보로 결정할 수 있다.

폭행 감지부(140)는, 기 생성된 분류 모델을 통해 검출된 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지할 수 있다. 여기서, 기 생성된 분류 모델은, 폭행 상황을 포함하는 복수의 라벨링된 학습 영상 데이터에 기초하여 SVM(Support Vector Machine) 기법에 의해 생성될 수 있다.

알림 출력부(150)는, 폭행 상황의 발생이 감지되는 경우, 폭행 상황과 연계된 알림 신호를 생성 및 전송할 수 있다.

도 6은 본원의 일 실시예에 따른 CCTV 영상에 기초한 폭행 감지 장치의 개략적인 구성도이다.

도 6을 참조하면, 본원의 일 실시예에 따른 CCTV 영상에 기초한 폭행 감지 장치(200)는, 영상 수신부(210), 인물 식별부(220), 연산부(230), 폭행 감지부(240) 및 알림 출력부(250)를 포함할 수 있다.

영상 수신부(210)는, CCTV 촬영 장치(100)에 의해 촬영된 CCTV 영상을 수신할 수 있다.

인물 식별부(220)는, 수신된 CCTV 영상에서 등장 인물을 식별할 수 있다.

연산부(230)는, 식별된 등장 인물 각각에 대한 키-포인트를 검출하고, 검출된 키-포인트 사이의 각도 정보를 계산할 수 있다.

폭행 감지부(240)는, 기 생성된 분류 모델을 통해 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지할 수 있다.

알림 출력부(250)는, 폭행 상황의 발생이 감지되는 경우, 폭행 상황과 연계된 알림 신호를 생성 및 전송할 수 있다.

이하에서는 상기에 자세히 설명된 내용을 기반으로, 본원의 동작 흐름을 간단히 살펴보기로 한다.

도 7은 본원의 일 실시예에 따른 CCTV 영상에 기초한 폭행 감지 방법의 동작 흐름도이다.

도 7에 도시된 CCTV 영상에 기초한 폭행 감지 방법은 앞서 설명된 폭행 감지 기능을 구비한 CCTV 촬영 장치(100) 또는 CCTV 영상에 기초한 폭행 감지 장치(200)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 폭행 감지 기능을 구비한 CCTV 촬영 장치(100) 또는 CCTV 영상에 기초한 폭행 감지 장치(200)에 대하여 설명된 내용은 CCTV 영상에 기초한 폭행 감지 방법에 대한 설명에도 동일하게 적용될 수 있다.

도 7을 참조하면, 단계 S710에서 인물 식별부(120, 220)는, CCTV 영상에서 등장 인물을 식별할 수 있다.

다음으로, 단계 S720에서 연산부(130, 230)는, 식별된 등장 인물에 대한 키-포인트를 검출할 수 있다.

다음으로, 단계 S730에서 연산부(130, 230)는, 검출된 키-포인트 사이의 각도 정보를 계산할 수 있다.

다음으로, 단계 S740에서 폭행 감지부(140, 240)는, 기 생성된 분류 모델을 통해 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지할 수 있다.

다음으로, 단계 S750에서 알림 출력부(150, 250)는 단계 S740에서 폭행 감지부(140, 240)가 폭행 상황이 발생한 것으로 감지했는지 여부를 판단할 수 있다. 만일, CCTV 영상으로부터 폭행 상황이 감지되지 않은 경우(NO), 알림 신호 생성 및 전송 절차(단계 S760)를 수행하지 않고, 새롭게 획득되는 CCTV 영상에 대한 선행 단계들을 반복 수행할 수 있다. 반대로, CCTV 영상으로부터 폭행 상황이 감지된 경우(YES) 단계 S760으로 진행할 수 있다.

단계 S760에서 알림 출력부(150, 250)는, 폭행 상황과 연계된 알림 신호를 생성하고, 생성된 알림 신호를 사용자 단말(30)로 전송할 수 있다.

상술한 설명에서, 단계 S710 내지 S760은 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

지금까지 상술한 폭행 감지 기능을 구비한 CCTV 촬영 장치(100) 및 CCTV 영상에 기초한 폭행 감지 장치(200)에 대한 설명은, 본원의 구현예에 따라서, 하기에서 서술하는 기계학습 기반의 폭행 방지 CCTV 시스템에 대한 설명을 통해서 이해될 수 있다. 따라서, 이하, 생략된 내용이라고 하더라도 상술한 CCTV 촬영 장치(100) 및 CCTV 영상에 기초한 폭행 감지 장치(200)에 대하여 설명된 내용은 하기의 기계학습 기반의 폭행 방지 CCTV 시스템에도 동일하게 적용될 수 있다.

본원의 일 실시예에 따른 기계학습 기반의 폭행방지 CCTV 시스템은 CCTV로부터 복수의 다양한 영상을 수신할 수 있다.

기계학습 기반의 폭행 방지 CCTV 시스템은 복수개의 CCTV에서 얻은 영상 정보를 실시간으로 감지할 수 있다. 기계학습 기반의 폭행 방지 CCTV 시스템은 딥러닝 방법으로 영상에 표시되는 대상이 되는 사람, 그 주변인 모두의 움직임을 실시간으로 파악해서 인식 정보를 저장한다. 또한, 본원의 일 실시예에 따르면, 기계학습 기반의 폭행 방지 CCTV 시스템은 모든 사람의 관절, 연결부에 해당하는 key-point를 딥러닝을 통해 추출할 수 있다. CCTV의 풀 영상 전체를 분석하여 영상인식을 통해 객체의 움직임을 파악하는 경우, 방대한 연산량이 필요하며 그에 따라 분석 시간도 상대적으로 길어지게 된다. 하지만, 본원의 일 실시예에 따른 기계학습 기반의 폭행 방지 CCTV 시스템은 영상 중 사람인 객체를 인식할 수 있는 key-point를 딥러닝을 통해 추출하고, key-point간의 각도 연산을 통해 폭행상황을 판단하기 때문에, 보다 적은 연산량으로 빠르게 실시간으로 폭생 발생 상황을 판단할 수 있다.

기계학습 기반의 폭행 방지 CCTV 시스템은 key-point 정보를 바탕으로 대상자의 움직임을 각도로 예측할 수 있다. 기계학습 기반의 폭행 방지 CCTV 시스템은 key-point 간의 각도를 추출 및 연산하고, 추출된 각도의 변화를 분석하여 폭행이 일어났는가를 판단할 수 있다. 예를 들어, 기계학습 기반의 폭행 방지 CCTV 시스템은 사람 영상의 관절, 연결부, 움직임 패턴을 포함하고 있고, 딥 러닝에 따라 key point 각도와 사람 영상의 행동 또는 움직임의 정보와 연계하여 판단한다.

또한, 본원의 일 실시예에 따르면, 기계학습 기반의 폭행 방지 CCTV 시스템은 폭행이 일어났는지 여부, 분류에 따른 CCTV 영상들을 Labeling한다. 본원의 일 실시예에 따르면, 기계학습 기반의 폭행 방지 CCTV 시스템은 먼저 임의로 폭행이 일어난 다양한 영상을 활용하여(영화, 폭행장면 블랙박스 등) 위에서 제시한 프로세스에 따라 영상 내 객체의 key-point의 각도를 추출한다. 그리고 각각 사람이 폭행을 하는지, 폭행을 당하는지를 구분하여 labeling한다. 그리고 처리된 데이터를 SVM(support vector machine)방법을 사용하여 classification을 훈련시킨다.

그 다음 만들어진 모듈을 활용하여 CCTV에 찍힌 영상을 실시간으로 감시하여 영상에서 폭행을 하거나 당하는 경우 중 하나만 있어도 경비원에게 경보를 보내줄 수 있다.

또한, 본원에서는 인공지능 기반으로 실시간 폭력방지 CCTV 시스템을 구현하였다. 본원에서 최종 목적으로 폭력방지를 목적으로 삼고, 인공지능 기법을 사용하여 사람 탐지, 추적 및 행위 판단을 한다. 또한 시스템의 운영환경상 필수로 실시간이 필요하다. 이를 위해 본원에서는 제품 단가를 고려하여 임베디드 graph를 사용하고 최적화를 하여 실시간으로 결과를 추출할 수 있게 구현되었다. 폭력 행위를 탐지하기 위하여, 본원에서는 먼저 인간 2D 포즈 추정을 하여야 한다. 인간의 2D 포즈 추정은 각각 인간의 신체 부분을 찾는데 중점을 두고 있다. 먼저, 각 영상에 서는 어떤 위치에 어떤 포즈가 어떤 크기로 발생할 수 있는지 알 수 없다. 둘째, 사람 간의 접촉 및 관절 움직임으로 인해 복잡한 공간 간섭을 유발하여 포즈 검출을 어렵게 만든다. 셋째, 영상의 인원이 늘어남에 따라 런타임 복잡성이 증가하는 경향이 있어 실시간 성능이 문제가 된다.

본원의 일 실시예에 따른 기계학습 기반의 폭행 방지 CCTV 시스템은 영상 중 사람인 객체를 인식할 수 있는 key-point를 딥러닝을 통해 추출하고, key-point간의 각도 연산을 통해 폭행상황을 판단하는 프로세스를 설명한다. 시스템은 입력으로 크기 w Х h의 컬러 영상에서 프레임 단위를 취하고, 이미지에서 각 사람에 대한2D 위치를 출력한다. 이를 위해 먼저, feed-forward network로 인간 신체 부위 위치의 2D confidence maps를 예측한다. 즉, Confidence map은 이미지 속 사람의 관절 위치를 파악하는데 사용된다. 그 과정은 학습 초기단계에선 input 이미지에 따른 별 의미 없는 feature를 뽑게 된다. 하지만, 이 feature를 human pose data와 비교를 하고, 그 차이점을 점점 줄여나가는 방향으로 optimize를 진행하게되면 feature들은 점점 사람의 관절 위치를 나타내는 방향으로 나타나게 될 것이다. 또한 part affinities의 2D 벡터 필드 (L) 세트를 동시에 예측한다. 즉, Affinity field는 이미지에서 추출된 관절의 주인이 누구인가를 파악하는데 사용된다. confidence map과 affinity field를 조합하여 완성된 human skeleton을 만들어야 한다. 조합할 때는 greedy relaxation을 통해 각 part를 조합하게 된다. confidence map을 통해 나온 각 part를 조합할 때 이미지 속 사람이 여러명이라면 greedy relaxation을 통해 각 part의 주인이 누구 인가에 대한 판단을 하게 된다.

마지막으로 영상에서 각 이미지의 사람 포즈의 좌표를 통해 multi classification을 통해 폭행을 하는지, 폭행을 당하는지, 아무 행위가 없는지를 결정한다. 여기서 각각 영상에서 사람 포즈의 좌표가 상대 위치에 있기에 각각 사람의 24좌표간의 각도를 계산하여 예측을 진행한다.

본원의 일 실시 예에 따른 CCTV 영상에 기초한 폭행 감지 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

또한, 전술한 CCTV 영상에 기초한 폭행 감지 방법은 기록 매체에 저장되는 컴퓨터에 의해 실행되는 컴퓨터 프로그램 또는 애플리케이션의 형태로도 구현될 수 있다.

전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.

10: 폭행 방지 시스템
100: 폭행 감지 기능을 구비한 CCTV 촬영 장치
110: 카메라부
120: 인물 식별부
130: 연산부
140: 폭행 감지부
150: 알림 출력부
200: CCTV 영상에 기초한 폭행 감지 장치
210: 영상 수신부
220: 인물 식별부
230: 연산부
240: 폭행 감지부
250: 알림 출력부
20: 네트워크
30: 사용자 단말

Claims

CCTV 촬영 장치에 의해 수행되는 CCTV 영상에 기초한 폭행 감지 방법에 있어서,
촬영된 CCTV 영상에서 등장 인물을 식별하는 단계;
식별된 상기 등장 인물에 대한 키-포인트를 검출하는 단계;
검출된 상기 키-포인트 사이의 각도 정보를 계산하는 단계; 및
기 생성된 분류 모델을 통해 상기 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지하는 단계,
를 포함하는, 폭행 감지 방법.
제1항에 있어서,
상기 키-포인트를 검출하는 단계는,
상기 등장 인물의 신체 중 관절의 위치에 대응되는 지점을 상기 키-포인트로 검출하는 것인, 폭행 감지 방법.
제2항에 있어서,
상기 키-포인트를 검출하는 단계는,
학습 이미지로부터 소정의 관절의 위치를 추출한 제1 피처 및 추출된 관절이 어느 등장 인물에 대한 것인지를 나타내는 제2피처를 획득하고,
상기 제1피처 및 상기 제2피처를 기 확보된 인간 자세 데이터와 비교하여 상기 제1피처 및 상기 제2피처를 최적화하는 피드-포워드 네트워크에 기초하여 생성되는 딥러닝 기반의 키-포인트 추출 알고리즘을 기초로 하여 상기 키-포인트를 검출하는 것을 특징으로 하는, 폭행 감지 방법
제2항에 있어서,
상기 각도 정보를 계산하는 단계는,
관절의 위치에 대응되는 상기 키-포인트의 적어도 일부를 잇는 복수의 연결선을 생성하는 단계; 및
각각의 관절의 위치에 대응되는 상기 키-포인트에 대하여 생성된 두 연결선 사이의 각도를 측정하여 해당 키-포인트에 대한 각도 정보로 결정하는 단계,
를 포함하는 것인, 폭행 감지 방법.
제4항에 있어서,
상기 기 생성된 분류 모델은,
폭행 상황을 포함하는 복수의 라벨링된 학습 영상 데이터에 기초하여 SVM(Support Vector Machine) 기법에 의해 생성되는 것인, 폭행 감지 방법.
제4항에 있어서,
상기 폭행 상황의 발생이 감지되는 경우, 상기 폭행 상황과 연계된 알림 신호를 생성 및 전송하는 단계,
를 더 포함하는, 폭행 감지 방법.
폭행 감지 기능을 구비한 CCTV 촬영 장치에 있어서,
소정의 감시 대상 공간을 촬영하여 CCTV 영상을 생성하는 카메라부;
촬영된 상기 CCTV 영상에서 등장 인물을 식별하는 인물 식별부;
식별된 상기 등장 인물에 대한 키-포인트를 검출하고, 검출된 상기 키-포인트 사이의 각도 정보를 계산하는 연산부; 및
기 생성된 분류 모델을 통해 상기 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지하는 폭행 감지부,
를 포함하는, CCTV 촬영 장치.
제7항에 있어서,
상기 연산부는,
상기 등장 인물의 신체 중 관절의 위치에 대응되는 지점을 상기 키-포인트로 검출하는 것인, CCTV 촬영 장치.
제8항에 있어서,
상기 연산부는,
학습 이미지로부터 소정의 관절의 위치를 추출한 제1 피처 및 추출된 관절이 어느 등장 인물에 대한 것인지를 나타내는 제2피처를 획득하고,
상기 제1피처 및 상기 제2피처를 기 확보된 인간 자세 데이터와 비교하여 상기 제1피처 및 상기 제2피처를 최적화하는 피드-포워드 네트워크에 기초하여 생성되는 딥러닝 기반의 키-포인트 추출 알고리즘을 기초로 하여 상기 키-포인트를 검출하는 것을 특징으로 하는, CCTV 촬영 장치.
제8항에 있어서,
상기 연산부는,
관절의 위치에 대응되는 상기 키-포인트의 적어도 일부를 잇는 복수의 연결선을 생성하고, 각각의 관절의 위치에 대응되는 상기 키-포인트에 대하여 생성된 두 연결선 사이의 각도를 측정하여 해당 키-포인트에 대한 각도 정보로 결정하는 것인, CCTV 촬영 장치.
제10항에 있어서,
상기 폭행 감지부는,
폭행 상황을 포함하는 복수의 라벨링된 학습 영상 데이터에 기초하여 SVM(Support Vector Machine) 기법에 의해 생성된 상기 기 생성된 분류 모델을 활용하여 폭행 상황의 발생을 감지하는 것인, CCTV 촬영 장치.
제10항에 있어서,
상기 폭행 상황의 발생이 감지되는 경우, 상기 폭행 상황과 연계된 알림 신호를 생성 및 전송하는 알림 출력부를 더 포함하는 것인, CCTV 촬영 장치.
CCTV 영상에 기초한 폭행 감지 장치에 있어서,
CCTV 촬영 장치에 의해 촬영된 CCTV 영상을 수신하는 영상 수신부;
상기 CCTV 영상에서 등장 인물을 식별하는 인물 식별부;
식별된 상기 등장 인물에 대한 키-포인트를 검출하고, 검출된 상기 키-포인트 사이의 각도 정보를 계산하는 연산부; 및
기 생성된 분류 모델을 통해 상기 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지하는 폭행 감지부,
를 포함하는, 폭행 감지 장치.
제13항에 있어서,
상기 폭행 상황의 발생이 감지되는 경우, 상기 폭행 상황과 연계된 알림 신호를 생성 및 전송하는 알림 출력부,
를 더 포함하는, 폭행 감지 장치.
제1항 내지 제6항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.