KR102648004B1

KR102648004B1 - 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템

Info

Publication number: KR102648004B1
Application number: KR1020210125773A
Authority: KR
Inventors: 김용호; 박정우; 엄동원
Original assignee: 주식회사 소이넷
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2024-03-18
Also published as: KR20230042926A

Abstract

본 발명은 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템에 관한 것으로, 본 발명의 일 실시예에 따르면, 감시 영상을 분석하여 객체를 검출하고, 검출된 객체의 포즈 및 행동 중 적어도 하나를 분석하는 객체 검출부, 얼굴 감지 및 얼굴 식별을 통해 가해자와 피해자를 확인하고, 시간 경과에 따라 피해자의 피해상황을 반영하도록 설정된 변화요소를 분석하는 객체 분석부, 및 분석된 변화요소가 폭력 발생 조건을 만족하는지 판단하여 판단 결과를 외부로 송신하는 폭력발생 판단부를 포함하는, 폭력감지장치를 제공한다.

Description

폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템{Apparatus and Method for Detecting Violence, Smart Violence Monitoring System having the same}

본 발명은 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템에 관한 것으로, 더욱 상세하게는 보육 시설에서 수집되는 영상을 분석하여 보육 아동에 대한 폭력 또는 이상행동을 감지할 수 있는 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템에 관한 것이다.

최근, 어린이집, 유치원 등의 보육시설에서 교사에 의한 아동 가혹행위가 많이 발생하여 사회 문제가 되고 있다.

이러한 문제점에 해결하고자, 보육시설에 감시카메라가 설치되고 있으나, 상시 분석이 불가능하며, 아동의 상태를 확인한 학부모가 감시카메라의 영상을 요구하여 확인한 후에나 가혹행위가 확인되고 있다.

또한, 어린이집 입장에서도 교사의 행동을 상시 확인할 수 있는 방법이 없으며, 사고 발생을 미연이 방지할 수 있는 방안이 필요한 상황이다.

따라서, 보육 시설과 학부모 사이에 상호 수용 가능한 방지 방안을 마련할 필요가 있다.

대한민국 공개특허 제10-2009-0035379호

본 발명이 이루고자 하는 기술적 과제는 보육 시설에서 수집되는 영상을 분석하여 보육 아동에 대한 폭력 또는 이상행동을 감지할 수 있는 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템을 제공하는 것이다.

또한, 본 발명이 이루고자 하는 기술적 과제는 보육 시설의 특수성을 반영할 수 있고, 고성능의 장비를 대체할 수 있는 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템을 제공하는 것이다.

본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 달성하기 위하여, 본 발명의 일 실시예에 따르면, 감시 영상을 분석하여 객체를 검출하고, 검출된 객체의 포즈 및 행동 중 적어도 하나를 분석하는 객체 검출부, 얼굴 감지 및 얼굴 식별을 통해 가해자와 피해자를 확인하고, 시간 경과에 따라 피해자의 피해상황을 반영하도록 설정된 변화요소를 분석하는 객체 분석부, 및 분석된 변화요소가 폭력 발생 조건을 만족하는지 판단하여 판단 결과를 외부로 송신하는 폭력발생 판단부를 포함하는, 폭력감지장치를 제공한다.

본 발명의 실시예에 있어서, 상기 객체 검출부는, 검출된 객체의 포즈를 분석하여 행동을 인식하고, 설정된 분석 모델을 이용하여 인식된 행동이 폭력과 관련된 것인지 분석하며, 복수의 객체 사이의 도심 거리를 측정하여 겹치는 객체를 확인할 수 있다.

본 발명의 실시예에 있어서, 상기 객체 분석부는, 얼굴인식 모델 및 얼굴 특징정보 추출모델 중 적어도 하나를 이용하여 겹치는 객체들의 얼굴 감지 및 얼굴 식별을 실시하여 가해자 및 피하자를 확인할 수 있다.

본 발명의 실시예에 있어서, 상기 객체 분석부는, 시간 경과에 따른 표정 변화 및/또는 감정 변화를 반영하도록, 피해자의 얼굴 상태가 포함된 장면, 및 피해자의 포즈 중 적어도 하나를 포함하는 상기 변화요소를 분석할 수 있다.

본 발명의 실시예에 있어서, 상기 객체 검출부는, 상기 감시 영상으로부터 오디오 분석을 통해 오디오 데이터를 추출하고, 상기 객체 분석부는, 상기 객체 검출부로부터 추출된 오디오 데이터를 수신하여 사운드를 인식할 수 있다.

본 발명의 실시예에 있어서, 상기 폭력발생 판단부는, 피해자의 얼굴 표정, 가해자와 피해자의 포즈 및 사운드 각각을 장면 기반 폭력, 인물포즈 기반 폭력 및 사운드 기반 폭력 각각의 케이스로 분류하고, 케이스별로 설정된 방식으로 스코어를 측정하며, 측정된 스코어를 합산한 후 기준 스코어와 비교하여 폭력 발생을 판단할 수 있다.

본 발명의 실시예에 있어서, 상기 폭력발생 판단부는, 장면 기반 폭력 케이스에서 상기 폭력 감지 모델을 이용하여 프레임 내 특징을 학습하는 CNN 기반 분류, 시간별 프레임간 특징을 학습하는 LSTM 기반 분류, 불변/로컬의 특징을 학습하는 광학흐름 기반 분류를 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정하거나, 인물포즈 기반 폭력 케이스에서 프레임 내 특징을 학습하는 CNN 기반 포즈 판단, 객체간 거리 및 기준값 초과 여부 계산을 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정하거나, 사운드 기반 폭력 케이스에서 LSTM 기반의 사운드 분류를 실시하여 정상 또는 비정상을 판단하도록 스코어를 측정할 수 있다.

상기 기술적 과제를 달성하기 위하여, 본 발명의 다른 실시예에 따르면, 보육 시설에 설치되고, 적어도 하나의 대상을 촬영하여 감시 영상을 생성하는 촬영장치, 폭력감지장치, 및 상기 폭력감지장치로부터 폭력 발생 알림과 의심징후의 감시 영상을 수신하여 재확인하고, 피해자의 보호자에게 폭력 발생을 통지하는 관제서버를 포함하는, 스마트 폭력감시시스템을 제공한다.

본 발명의 실시예에 있어서, 상기 관제서버는, 감시 영상의 분석을 통해 폭력 발생을 확인한 판정값을 추가 학습용 데이터로 상기 폭력감지장치에 제공할 수 있다.

상기 기술적 과제를 달성하기 위하여, 본 발명의 또 다른 실시예에 따르면, 영상 분석을 통해 감시 영상으로부터 객체를 검출하는 단계, 객체별 포즈를 검출하고, 액션을 인식하여 인식된 액션이 폭력과 관련된 것인지 판단하는 단계, 객체간 도심 거리를 측정하고, 측정된 도심 거리를 이용하여 겹치는 객체를 확인하는 단계, 겹치는 것으로 확인된 객체들의 얼굴 감지 및 얼굴 식별을 통해 가해자 및 피해자를 확인하고, 시간 경과에 따른 피해자의 표정 변화 및/또는 감정 변화를 반영하는 변화요소를 분석하는 단계, 오디오 분석을 통해 사운드를 인식하고, 인식된 사운드가 폭력과 관련이 있는지 판단하는 단계, 및 상기 변화요소와 인식된 사운드를 폭력발생 판단기준과 비교하여 폭력 발생을 판단하는 단계를 포함하는, 폭력감지방법을 제공한다.

본 발명의 실시예에 있어서, 상기 폭력 발생을 판단하는 단계에서는, 장면 기반 폭력 케이스에서 상기 폭력 감지 모델을 이용하여 프레임 내 특징을 학습하는 CNN 기반 분류, 시간별 프레임간 특징을 학습하는 LSTM 기반 분류, 불변/로컬의 특징을 학습하는 광학흐름 기반 분류를 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정하는 단계, 인물포즈 기반 폭력 케이스에서 프레임 내 특징을 학습하는 CNN 기반 포즈 판단, 객체간 거리 및 기준값 초과 여부 계산을 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정하는 단계, 사운드 기반 폭력 케이스에서 LSTM 기반의 사운드 분류를 실시하여 정상 또는 비정상을 판단하도록 스코어를 측정하는 단계, 및 케이스별로 설정된 방식으로 스코어를 측정하고, 측정된 스코어를 합산한 후 기준 스코어와 비교하여 폭력 발생을 판단하는 단계를 포함할 수 있다.

본 발명의 실시예에 따르면, 보육 시설에서 수집되는 영상을 분석하여 보육 아동에 대한 폭력 또는 이상행동을 감지할 수 있다.

또한, 본 발명이 이루고자 하는 기술적 과제는 보육 시설의 특수성을 반영할 수 있고, 고성능의 장비를 대체할 수 있다.

본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 설명 또는 청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.

도 1은 본 발명의 일 실시예에 따른 스마트 폭력감시시스템의 구성을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 폭력감지장치의 구성을 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따른 자세 및 동작 분석 모델의 예시를 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 객체간 겹침을 예시적으로 나타내는 도면이다.
도 5는 본 발명의 일 실시예에 따른 얼굴인식 모델의 예시를 나타내는 도면이다.
도 6은 본 발명의 일 실시예에 따른 얼굴 특징정보 추출 모델의 예시를 나타내는 도면이다.
도 7은 본 발명의 일 실시예에 따른 표정분석 모델의 예시를 나타내는 도면이다.
도 8은 본 발명의 일 실시예에 따른 폭력감지방법을 나타내는 순서도이다.
도 9는 본 발명의 일 실시예에 폭력 발생 판단 단계를 세부적으로 나타내는 순서도이다.

이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결(접속, 접촉, 결합)"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템의 구성을 나타내는 도면이다. 도 2는 본 발명의 일 실시예에 따른 폭력감지장치의 구성을 나타내는 도면이다. 도 3은 본 발명의 일 실시예에 따른 자세 및 동작 분석 모델의 예시를 나타내는 도면이다. 도 4는 본 발명의 일 실시예에 따른 객체간 겹침을 예시적으로 나타내는 도면이다. 도 5는 본 발명의 일 실시예에 따른 얼굴인식 모델의 예시를 나타내는 도면이다. 도 6은 본 발명의 일 실시예에 따른 얼굴 특징정보 추출 모델의 예시를 나타내는 도면이다. 도 7은 본 발명의 일 실시예에 따른 표정분석 모델의 예시를 나타내는 도면이다.

도 1 내지 도 7을 참조하면, 본 발명의 일 실시예에 따른 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템은 촬영장치(100), 폭력감지장치(200) 및 관제서버(300)를 포함할 수 있다.

상기 촬영장치(100)는 보육 시설에 설치되고, 보육아동 및 보육사(교사) 중 적어도 하나의 대상을 촬영하며, 촬영 대상과 관련된 영상 및 소리 중 적어도 하나를 포함하는 감시 영상을 생성할 수 있다. 이를 위하여, 상기 촬영장치(100)는 폐쇄회로(CCTV)를 포함할 수 있다.

상기 폭력감지장치(200)는 감시 영상으로부터 객체를 검출하고, 검출된 객체의 포즈 및 행동 중 적어도 하나를 분석하는 객체 검출부(210), 얼굴 감지 및 얼굴 식별을 통해 가해자와 피해자를 확인하고, 시간 경과에 따라 피해자의 피해상황을 반영하도록 설정된 변화요소를 분석하는 객체 분석부(220), 및 분석된 변화요소가 폭력 발생 조건을 만족하는지 판단하여 판단 결과를 외부로 송신하는 폭력발생 판단부(230)를 포함할 수 있다.

구체적으로, 상기 객체 검출부(210)는 촬영장치(100)를 통해 촬영된 감시 영상으로부터 영상 분석을 통해 적어도 하나의 객체를 검출할 수 있다. 여기서, 상기 객체 검출부(210)는 오픈 포즈(OpenPose), 코드북을 기반으로 하는 배경 모델링 방법(Codebook-based Background modeling), 및 휴먼 포즈 에스티메이션(Human Pose Estimation) 중 적어도 하나를 포함하는 검출 알고리즘을 이용하여 영상 프레임에서 객체를 검출할 수 있다. 예를 들면, 상기 객체 검출부(210)는 도 3을 참조하여 이미지나 영상에서 사람의 포즈를 검출하는 상기 휴먼 포즈 에스티메이션을 이용하여 신체의 주요 연결부위(관절)를 키-포인트 검출하고, 이들을 연결해 서있기, 걷기, 발차기 주먹질 등의 포즈(자세)를 인식할 수 있다.

또한, 상기 객체 검출부(210)는 보육아동과 보육사(교사) 각각의 객체의 포즈(자세)를 분석하여 액션(행동)을 인식하고, 인식된 액션(행동)이 발차기, 주먹질 등의 폭력과 관련된 것인지 판단할 수 있다. 여기서, 상기 객체 검출부(210)는 자세추정 모델(예: PoseNet, body key point) 및 시간별 프레임 분석 모델(예: LSTM) 중 적어도 하나를 이용하여 객체의 행동을 분석할 수 있다. 예를 들면, 상기 객체 검출부(210)는 보육사(교사)가 특정 방향을 지시하는 포즈(자세)를 취하고, 보육아동들이 갑자기 한쪽으로 몰려가 대기하거나, 모두 고개를 숙이는 행동을 인식하여 폭행, 체벌, 및 가혹행위 중 적어도 하나와 관련된 보육사(교사)의 행동을 분석할 수 있다.

또한, 상기 객체 검출부(210)는 보육아동과 보육사(교사) 각각의 객체 사이의 도심(중심) 거리를 측정할 수 있다. 여기서, 상기 객체 검출부(210)는 도 4를 참조하여 측정된 도심 거리를 이용하여 겹치는 객체(사람)을 확인할 수 있다. 예를 들면, 상기 객체 검출부(210)는 복수의 객체 각각의 상체를 기준으로 서로의 상체 사이의 중심 거리를 측정하고, 측정된 거리가 객체의 팔 길이 이하일 경우 복수의 객체가 겹치는 것으로 판단할 수 있다.

한편, 상기 객체 검출부(210)는 상기 촬영장치(100)로부터 수신된 감시 영상으로부터 오디오 분석을 통해 오디오 데이터를 추출할 수 있다.

상기 객체 분석부(220)는 겹치는 것으로 확인된 객체(사람)들의 얼굴 감지 및 얼굴 식별을 통해 가해자 및 피해자를 확인할 수 있다. 여기서, 객체 분석부(220)는 도 5와 같은 얼굴인식 모델(RetinaFace)을 이용하여 안면을 감지할 수 있고, 도 6과 같은 얼굴 특징정보 추출모델(Arcface)을 이용하여 얼굴의 특징을 추출하고, 특징정보 유사도 분석 알고리즘(예: Cosign Similarity)을 이용하여 안면을 식별할 수 있다.

또한, 상기 객체 분석부(220)는 도 7과 같은 표정분석(Facial Expression) 모델을 이용하여 시간 경과에 따른 피해자의 표정 변화 및/또는 감정 변화를 반영하도록, 피해자의 얼굴 상태가 포함된 장면, 및 피해자의 포즈 중 적어도 하나를 포함하는 상기 변화요소를 분석할 수 있다. 이를 통해, 상기 객체 분석부(220)는 상기 변화요소를 분석하여 피해자의 표정 변화 및/또는 감정 변화가 폭력과 관련이 있는지 확인할 수 있다. 예를 들면, 상기 객체 분석부(220)는 폭행, 체벌 또는 가혹행위를 당한 보육아동의 표정 변화를 통해 놀람, 슬픔, 눈물 흘림, 분노, 두려움 등의 피해자 감정을 확인할 수 있다.

한편, 상기 객체 분석부(220)는 상기 객체 검출부(210)로부터 추출된 오디오 데이터를 수신하여 사운드를 인식할 수 있다. 여기서, 상기 객체 분석부(220)는 오디오 데이터에 인공지능 알고리즘을 이용하여 학습된 학습 모델을 적용하여 비명, 울음, 체벌소리 등의 사운드를 인식할 수 있다. 또한, 상기 객체 분석부(220)는 인식된 사운드가 비명, 구타, 넘어짐 소리 등과 같이 폭력과 관련된 것인지 확인할 수 있다.

상기 폭력발생 판단부(230)는 상기 객체 분석부(220)에서 분석된 변화요소와 인식된 사운드를 폭력발생 판단기준과 비교하여 보육아동에게 폭력이 발생했는지 판단할 수 있다.

구체적으로, 상기 폭력발생 판단부(230)는 피해자의 얼굴 표정, 가해자와 피해자의 포즈 및 사운드 각각을 장면 기반 폭력, 인물포즈 기반 폭력 및 사운드 기반 폭력 각각의 케이스로 분류하고, 케이스별로 설정된 방식으로 스코어를 측정하며, 케이스별로 측정된 스코어를 합산하여 기준 스코어(폭력발생 판단기준)와 비교한 후 현재 상황이 폭력 상황인지 일반 상황인지 판단할 수 있다.

여기서, 상기 폭력발생 판단부(230)는 현재 시점과 이전 시점의 프레임을 입력 데이터로 하여 딥-러닝(deep-learning) 구성 요소들을 결합한 CNN(Convolutional Neural Networks) + LSTM(Long Short-Term Memory)을 기반으로 만들어진 폭력 감지 모델을 이용하여 폭력 발생을 판단할 수 있다. 예를 들면, 상기 폭력발생 판단부(230)는 장면 기반 폭력 케이스에서 상기 폭력 감지 모델을 이용하여 프레임 내 특징을 학습하는 CNN 기반 분류, 시간별 프레임간 특징을 학습하는 LSTM 기반 분류, 불변/로컬의 특징을 학습하는 광학흐름 기반 분류를 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정할 수 있다. 또는, 상기 폭력발생 판단부(230)는 인물포즈 기반 폭력 케이스에서 프레임 내 특징을 학습하는 CNN 기반 포즈 판단, 객체간 거리 및 기준값 초과 여부 계산을 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정할 수 있다. 또는, 상기 폭력발생 판단부(230)는 사운드 기반 폭력 케이스에서 LSTM 기반의 사운드 분류를 실시하여 정상 또는 비정상을 판단하도록 스코어를 측정할 수 있다.

이때, 상기 폭력발생 판단부(230)는 하기 수학식 1을 이용하여 스코어를 계산할 수 있다.

[수학식 1]

여기서, 는 분석된 감시 영상의 총 시간이고, 는 피해자의 변화요소(얼굴 표정/감정) 분석에 따른 폭력 여부를 0 또는 1로 표현한 값이고, 는 피해자의 변화요소에 따른 가중치를 수치로 나타낸 값이며, 는 피해자의 변화요소 분석에 따른 폭력 확률을 0.00 내지 1.00로 표현한 값이다.

또한, 상기 폭력발생 판단부(230)는 폭력 단계를 의심(스코어 0~10), 보통(스코어 10~20), 위험(스코어 20~40), 심각(스코어 40~200)으로 구분짓고, 합산된 스코어가 위험 이상일 경우, 현재 상황이 폭력 상황인 것으로 판단할 수 있다.

상기 폭력발생 판단부(230)는 폭력 상황으로 판단한 경우, 상기 관제서버(300)로 폭력 발생 알림과 함께 의심징후의 감시 영상을 전송할 수 있다.

상기 관제서버(300)는 상기 폭력감지장치(200)로부터 수신한 의심징후 감시 영상을 관제사 및/또는 근무자가 재확인하여 폭력 발생을 판단하고, 피해자의 보호자에게 폭력 발생을 통지할 수 있다. 이때, 상기 관제서버(300)는 보호자의 사용자 단말기(400)로 문자, 영상, 소리 중 적어도 하나의 형태로 폭력 발생을 통지할 수 있다.

또한, 상기 관제서버(300)는 감시 영상의 분석을 통해 폭력 발생을 확인한 판정값을 추가 학습용 데이터로 상기 폭력감지장치(200)에 제공할 수 있다. 추가 학습용 데이터를 수신한 상기 폭력감지장치(200)는 AI모델 추가 학습을 통해 폭력 감지 모델의 고도화를 수행할 수 있고, 신규 가중치 파일을 생성, 갱신 및/또는 배포할 수 있다.

이하에서는, 도 8 및 도 9를 참조하여, 본 발명의 일 실시예에 따른 폭력 감지 방법에 대해서 설명한다.

도 8은 본 발명의 일 실시예에 따른 폭력감지방법을 나타내는 순서도이고, 도 9는 본 발명의 일 실시예에 폭력 발생 판단 단계를 세부적으로 나타내는 순서도이다. 여기서는, 상술한 본 발명의 일 실시예에 따른 스마트 폭력감시시스템을 참조하여 폭력감지방법을 설명하되, 편의상 중복된 설명을 생략할 수 있다.

본 발명의 일 실시예에 따른 폭력 감지 방법은 영상 분석을 통해 감시 영상으로부터 객체를 검출하는 단계(S110), 객체별 포즈를 검출하는 단계(S120), 액션을 인식하는 단계(S130), 액션이 폭력과 관련된 것인지 판단하는 단계(S140), 객체간 도심 거리를 측정하는 단계(S150), 측정된 도심 거리를 이용하여 겹치는 객체(사람)를 확인하는 단계(S160), 겹치는 것으로 확인된 객체(사람)들의 얼굴 감지 및 얼굴 식별을 통해 가해자 및 피해자를 확인하고, 시간 경과에 따른 피해자의 표정 변화 및/또는 감정 변화를 반영하는 변화요소를 분석하는 단계(S170), 표정이 폭력과 관련된 것인지 판단하는 단계(S180), 감시 영상으로부터 오디오를 분석하는 단계(S210), 오디오 분석을 통해 추출된 오디오 데이터를 이용하여 사운드를 인식하는 단계(S220), 인식된 사운드가 폭력과 관련이 있는지 판단하는 단계(S230), 및 변화요소와 인식된 사운드를 폭력발생 판단기준과 비교하여 폭력 발생을 판단하는 단계(S300) 및 폭력 발생 알림을 송신하는 단계를 포함할 수 있다.

단계 S110에서는, 객체 검출부(210)가 촬영장치(100)를 통해 촬영된 감시 영상으로부터 영상 분석을 통해 적어도 하나의 객체를 검출할 수 있다.

단계 S120에서는, 객체 검출부(210)가 검출된 객체에서 주요 연결부위를 연결하여 포즈를 검출할 수 있다.

단계 S130에서는, 객체 검출부(210)가 객체의 포즈(자세)를 분석하여 액션(행동)을 인식할 수 있다.

단계 S140에서는, 객체 검출부(210)가 인식된 액션(행동)이 발차기, 주먹질 등의 폭력과 관련된 것인지 판단할 수 있다.

단계 S150에서는, 객체 검출부(210)가 보육아동과 보육사(교사) 각각의 객체 사이의 도심(중심) 거리를 측정할 수 있다.

단계 S160에서는, 객체 검출부(210)가 측정된 도심 거리를 이용하여 겹치는 객체(사람)을 확인할 수 있다.

단계 S170에서는, 객체 분석부(220)가 겹치는 것으로 확인된 객체(사람)들의 얼굴 감지 및 얼굴 식별을 통해 가해자 및 피해자를 확인할 수 있다. 여기서, 객체 분석부(220)는 얼굴인식 모델(RetinaFace)을 이용하여 안면을 감지할 수 있고, 얼굴 특징정보 추출모델(Arcface)을 이용하여 얼굴의 특징을 추출하고, 특징정보 유사도 분석 알고리즘(예: Cosign Similarity)을 이용하여 안면을 식별할 수 있다. 또한, 상기 객체 분석부(220)는 시간 경과에 따른 피해자의 표정 변화 및/또는 감정 변화를 반영하도록, 피해자의 얼굴 상태가 포함된 장면, 및 피해자의 포즈 중 적어도 하나를 포함하는 변화요소를 분석할 수 있다.

단계 S210에서는, 객체 검출부(210)가 촬영장치(100)로부터 수신된 감시 영상으로부터 오디오 분석을 통해 오디오 데이터를 추출할 수 있다.

단계 S220에서는, 객체 분석부(220)가 객체 검출부(210)로부터 추출된 오디오 데이터를 수신하여 사운드를 인식할 수 있다.

단계 S230에서는, 객체 분석부(220)가 인식된 사운드를 비명, 구타, 넘어짐 소리 등과 같이 폭력과 관련된 소리인지 확인할 수 있다.

단계 S300은, 장면 기반 폭력 케이스에서 상기 폭력 감지 모델을 이용하여 프레임 내 특징을 학습하는 CNN 기반 분류, 시간별 프레임간 특징을 학습하는 LSTM 기반 분류, 불변/로컬의 특징을 학습하는 광학흐름 기반 분류를 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정하는 단계, 인물포즈 기반 폭력 케이스에서 프레임 내 특징을 학습하는 CNN 기반 포즈 판단, 객체간 거리 및 기준값 초과 여부 계산을 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정하는 단계, 사운드 기반 폭력 케이스에서 LSTM 기반의 사운드 분류를 실시하여 정상 또는 비정상을 판단하도록 스코어를 측정하는 단계, 및 케이스별로 설정된 방식으로 스코어를 측정하고, 측정된 스코어를 합산한 후 기준 스코어와 비교하여 폭력 발생을 판단하는 단계를 포함할 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 후술하는 청구범위에 의하여 나타내어지며, 청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 촬영장치
200: 폭력감지장치
210: 객체 검출부
220: 객체 분석부
230: 폭력발생 판단부
300: 관제서버
400: 사용자 단말기

Claims

감시 영상을 분석하여 객체를 검출하고, 검출된 객체의 포즈를 분석하여 행동을 인식함으로써 인식된 행동이 폭력과 관련된 것인지를 판단하며, 객체간 도심 거리를 측정하여 겹치는 객체를 확인하는 객체 검출부;
겹치는 것으로 확인된 객체들의 얼굴 감지 및 얼굴 식별을 통해 가해자 및 피해자를 확인하고, 시간 경과에 따라 피해자의 피해상황을 반영하도록 설정된 변화요소를 분석하는 객체 분석부; 및
분석된 변화요소가 폭력 발생 조건을 만족하는지 판단하여 판단 결과를 외부로 송신하는 폭력발생 판단부;
를 포함하고,
상기 객체 검출부는,
객체들 각각의 상체를 기준으로 서로의 상체 사이의 도심 거리를 측정하고 측정된 거리가 객체의 팔 길이 이하인 경우 상기 객체들이 겹치는 것으로 확인하는 것을 특징으로 하는, 폭력감지장치.
삭제
제1항에 있어서,
상기 객체 분석부는,
얼굴인식 모델 및 얼굴 특징정보 추출모델 중 적어도 하나를 이용하여 겹치는 객체들의 얼굴 감지 및 얼굴 식별을 실시하여 가해자 및 피해자를 확인하는 것을 특징으로 하는, 폭력감지장치.
제3항에 있어서,
상기 객체 분석부는,
시간 경과에 따른 표정 변화 및 감정 변화를 반영하도록, 피해자의 얼굴 상태가 포함된 장면 및 피해자의 포즈 중 적어도 하나를 포함하는 상기 변화요소를 분석하는 것을 특징으로 하는, 폭력감지장치.
제1항에 있어서,
상기 객체 검출부는,
상기 감시 영상으로부터 오디오 분석을 통해 오디오 데이터를 추출하고,
상기 객체 분석부는,
상기 객체 검출부로부터 추출된 오디오 데이터를 수신하여 사운드를 인식하는 것을 특징으로 하는, 폭력감지장치.
제5항에 있어서,
상기 폭력발생 판단부는,
피해자의 얼굴 표정, 가해자와 피해자의 포즈 및 사운드 각각을 장면 기반 폭력, 인물포즈 기반 폭력 및 사운드 기반 폭력 각각의 케이스로 분류하고, 케이스별로 설정된 방식으로 스코어를 측정하며, 측정된 스코어를 합산한 후 기준 스코어와 비교하여 폭력 발생을 판단하는 것을 특징으로 하는, 폭력감지장치.
제6항에 있어서,
상기 폭력발생 판단부는,
장면 기반 폭력 케이스에서 상기 폭력 감지 모델을 이용하여 프레임 내 특징을 학습하는 CNN 기반 분류, 시간별 프레임간 특징을 학습하는 LSTM 기반 분류, 불변 및 로컬의 특징을 학습하는 광학흐름 기반 분류를 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정하거나,
인물포즈 기반 폭력 케이스에서 프레임 내 특징을 학습하는 CNN 기반 포즈 판단, 객체간 거리 및 기준값 초과 여부 계산을 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정하거나,
사운드 기반 폭력 케이스에서 LSTM 기반의 사운드 분류를 실시하여 정상 또는 비정상을 판단하도록 스코어를 측정하는 것을 특징으로 하는, 폭력감지장치.
보육 시설에 설치되고, 적어도 하나의 대상을 촬영하여 감시 영상을 생성하는 촬영장치;
제1항 또는 제3항 내지 제7항 중 어느 한 항에 따른 폭력감지장치; 및
상기 폭력감지장치로부터 폭력 발생 알림과 의심징후의 감시 영상을 수신하여 재확인하고, 피해자의 보호자에게 폭력 발생을 통지하는 관제서버;
를 포함하는, 스마트 폭력감시시스템.
제8항에 있어서,
상기 관제서버는,
감시 영상의 분석을 통해 폭력 발생을 확인한 판정값을 추가 학습용 데이터로 상기 폭력감지장치에 제공하는 것을 특징으로 하는, 스마트 폭력감시시스템.
영상 분석을 통해 감시 영상으로부터 객체를 검출하는 단계;
검출된 객체별 포즈를 분석하여 행동을 인식함으로써 인식된 행동이 폭력과 관련된 것인지 판단하는 단계;
객체간 도심 거리를 측정하여 겹치는 객체를 확인하는 단계;
겹치는 것으로 확인된 객체들의 얼굴 감지 및 얼굴 식별을 통해 가해자 및 피해자를 확인하고, 시간 경과에 따른 피해자의 표정 변화 및 감정 변화를 반영하는 변화요소를 분석하는 단계;
오디오 분석을 통해 사운드를 인식하고, 인식된 사운드가 폭력과 관련이 있는지 판단하는 단계; 및
상기 변화요소와 인식된 사운드를 폭력발생 판단기준과 비교하여 폭력 발생을 판단하는 단계;
를 포함하고,
상기 겹치는 객체를 확인하는 단계에서는,
객체들 각각의 상체를 기준으로 서로의 상체 사이의 도심 거리를 측정하고 측정된 거리가 객체의 팔 길이 이하인 경우 상기 객체들이 겹치는 것으로 확인하는 것을 특징으로 하는, 폭력감지방법.
제10항에 있어서,
상기 폭력 발생을 판단하는 단계에서는,
장면 기반 폭력 케이스에서 상기 폭력 감지 모델을 이용하여 프레임 내 특징을 학습하는 CNN 기반 분류, 시간별 프레임간 특징을 학습하는 LSTM 기반 분류, 불변 및 로컬의 특징을 학습하는 광학흐름 기반 분류를 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정하는 단계;
인물포즈 기반 폭력 케이스에서 프레임 내 특징을 학습하는 CNN 기반 포즈 판단, 객체간 거리 및 기준값 초과 여부 계산을 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정하는 단계;
사운드 기반 폭력 케이스에서 LSTM 기반의 사운드 분류를 실시하여 정상 또는 비정상을 판단하도록 스코어를 측정하는 단계; 및
케이스별로 설정된 방식으로 스코어를 측정하고, 측정된 스코어를 합산한 후 기준 스코어와 비교하여 폭력 발생을 판단하는 단계;
를 포함하는 것을 특징으로 하는, 폭력감지방법.