KR102648004B1 - 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템 - Google Patents

폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템 Download PDF

Info

Publication number
KR102648004B1
KR102648004B1 KR1020210125773A KR20210125773A KR102648004B1 KR 102648004 B1 KR102648004 B1 KR 102648004B1 KR 1020210125773 A KR1020210125773 A KR 1020210125773A KR 20210125773 A KR20210125773 A KR 20210125773A KR 102648004 B1 KR102648004 B1 KR 102648004B1
Authority
KR
South Korea
Prior art keywords
violence
victim
objects
occurrence
pose
Prior art date
Application number
KR1020210125773A
Other languages
English (en)
Other versions
KR20230042926A (ko
Inventor
김용호
박정우
엄동원
Original Assignee
주식회사 소이넷
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 소이넷 filed Critical 주식회사 소이넷
Priority to KR1020210125773A priority Critical patent/KR102648004B1/ko
Publication of KR20230042926A publication Critical patent/KR20230042926A/ko
Application granted granted Critical
Publication of KR102648004B1 publication Critical patent/KR102648004B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • G08B13/19602Image analysis to detect motion of the intruder, e.g. by frame subtraction
    • G08B13/19613Recognition of a predetermined image pattern or behaviour pattern indicating theft or intrusion
    • G08B13/19615Recognition of a predetermined image pattern or behaviour pattern indicating theft or intrusion wherein said pattern is defined by the user
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Psychiatry (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Social Psychology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Alarm Systems (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템에 관한 것으로, 본 발명의 일 실시예에 따르면, 감시 영상을 분석하여 객체를 검출하고, 검출된 객체의 포즈 및 행동 중 적어도 하나를 분석하는 객체 검출부, 얼굴 감지 및 얼굴 식별을 통해 가해자와 피해자를 확인하고, 시간 경과에 따라 피해자의 피해상황을 반영하도록 설정된 변화요소를 분석하는 객체 분석부, 및 분석된 변화요소가 폭력 발생 조건을 만족하는지 판단하여 판단 결과를 외부로 송신하는 폭력발생 판단부를 포함하는, 폭력감지장치를 제공한다.

Description

폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템{Apparatus and Method for Detecting Violence, Smart Violence Monitoring System having the same}
본 발명은 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템에 관한 것으로, 더욱 상세하게는 보육 시설에서 수집되는 영상을 분석하여 보육 아동에 대한 폭력 또는 이상행동을 감지할 수 있는 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템에 관한 것이다.
최근, 어린이집, 유치원 등의 보육시설에서 교사에 의한 아동 가혹행위가 많이 발생하여 사회 문제가 되고 있다.
이러한 문제점에 해결하고자, 보육시설에 감시카메라가 설치되고 있으나, 상시 분석이 불가능하며, 아동의 상태를 확인한 학부모가 감시카메라의 영상을 요구하여 확인한 후에나 가혹행위가 확인되고 있다.
또한, 어린이집 입장에서도 교사의 행동을 상시 확인할 수 있는 방법이 없으며, 사고 발생을 미연이 방지할 수 있는 방안이 필요한 상황이다.
따라서, 보육 시설과 학부모 사이에 상호 수용 가능한 방지 방안을 마련할 필요가 있다.
대한민국 공개특허 제10-2009-0035379호
본 발명이 이루고자 하는 기술적 과제는 보육 시설에서 수집되는 영상을 분석하여 보육 아동에 대한 폭력 또는 이상행동을 감지할 수 있는 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템을 제공하는 것이다.
또한, 본 발명이 이루고자 하는 기술적 과제는 보육 시설의 특수성을 반영할 수 있고, 고성능의 장비를 대체할 수 있는 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템을 제공하는 것이다.
본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 달성하기 위하여, 본 발명의 일 실시예에 따르면, 감시 영상을 분석하여 객체를 검출하고, 검출된 객체의 포즈 및 행동 중 적어도 하나를 분석하는 객체 검출부, 얼굴 감지 및 얼굴 식별을 통해 가해자와 피해자를 확인하고, 시간 경과에 따라 피해자의 피해상황을 반영하도록 설정된 변화요소를 분석하는 객체 분석부, 및 분석된 변화요소가 폭력 발생 조건을 만족하는지 판단하여 판단 결과를 외부로 송신하는 폭력발생 판단부를 포함하는, 폭력감지장치를 제공한다.
본 발명의 실시예에 있어서, 상기 객체 검출부는, 검출된 객체의 포즈를 분석하여 행동을 인식하고, 설정된 분석 모델을 이용하여 인식된 행동이 폭력과 관련된 것인지 분석하며, 복수의 객체 사이의 도심 거리를 측정하여 겹치는 객체를 확인할 수 있다.
본 발명의 실시예에 있어서, 상기 객체 분석부는, 얼굴인식 모델 및 얼굴 특징정보 추출모델 중 적어도 하나를 이용하여 겹치는 객체들의 얼굴 감지 및 얼굴 식별을 실시하여 가해자 및 피하자를 확인할 수 있다.
본 발명의 실시예에 있어서, 상기 객체 분석부는, 시간 경과에 따른 표정 변화 및/또는 감정 변화를 반영하도록, 피해자의 얼굴 상태가 포함된 장면, 및 피해자의 포즈 중 적어도 하나를 포함하는 상기 변화요소를 분석할 수 있다.
본 발명의 실시예에 있어서, 상기 객체 검출부는, 상기 감시 영상으로부터 오디오 분석을 통해 오디오 데이터를 추출하고, 상기 객체 분석부는, 상기 객체 검출부로부터 추출된 오디오 데이터를 수신하여 사운드를 인식할 수 있다.
본 발명의 실시예에 있어서, 상기 폭력발생 판단부는, 피해자의 얼굴 표정, 가해자와 피해자의 포즈 및 사운드 각각을 장면 기반 폭력, 인물포즈 기반 폭력 및 사운드 기반 폭력 각각의 케이스로 분류하고, 케이스별로 설정된 방식으로 스코어를 측정하며, 측정된 스코어를 합산한 후 기준 스코어와 비교하여 폭력 발생을 판단할 수 있다.
본 발명의 실시예에 있어서, 상기 폭력발생 판단부는, 장면 기반 폭력 케이스에서 상기 폭력 감지 모델을 이용하여 프레임 내 특징을 학습하는 CNN 기반 분류, 시간별 프레임간 특징을 학습하는 LSTM 기반 분류, 불변/로컬의 특징을 학습하는 광학흐름 기반 분류를 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정하거나, 인물포즈 기반 폭력 케이스에서 프레임 내 특징을 학습하는 CNN 기반 포즈 판단, 객체간 거리 및 기준값 초과 여부 계산을 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정하거나, 사운드 기반 폭력 케이스에서 LSTM 기반의 사운드 분류를 실시하여 정상 또는 비정상을 판단하도록 스코어를 측정할 수 있다.
상기 기술적 과제를 달성하기 위하여, 본 발명의 다른 실시예에 따르면, 보육 시설에 설치되고, 적어도 하나의 대상을 촬영하여 감시 영상을 생성하는 촬영장치, 폭력감지장치, 및 상기 폭력감지장치로부터 폭력 발생 알림과 의심징후의 감시 영상을 수신하여 재확인하고, 피해자의 보호자에게 폭력 발생을 통지하는 관제서버를 포함하는, 스마트 폭력감시시스템을 제공한다.
본 발명의 실시예에 있어서, 상기 관제서버는, 감시 영상의 분석을 통해 폭력 발생을 확인한 판정값을 추가 학습용 데이터로 상기 폭력감지장치에 제공할 수 있다.
상기 기술적 과제를 달성하기 위하여, 본 발명의 또 다른 실시예에 따르면, 영상 분석을 통해 감시 영상으로부터 객체를 검출하는 단계, 객체별 포즈를 검출하고, 액션을 인식하여 인식된 액션이 폭력과 관련된 것인지 판단하는 단계, 객체간 도심 거리를 측정하고, 측정된 도심 거리를 이용하여 겹치는 객체를 확인하는 단계, 겹치는 것으로 확인된 객체들의 얼굴 감지 및 얼굴 식별을 통해 가해자 및 피해자를 확인하고, 시간 경과에 따른 피해자의 표정 변화 및/또는 감정 변화를 반영하는 변화요소를 분석하는 단계, 오디오 분석을 통해 사운드를 인식하고, 인식된 사운드가 폭력과 관련이 있는지 판단하는 단계, 및 상기 변화요소와 인식된 사운드를 폭력발생 판단기준과 비교하여 폭력 발생을 판단하는 단계를 포함하는, 폭력감지방법을 제공한다.
본 발명의 실시예에 있어서, 상기 폭력 발생을 판단하는 단계에서는, 장면 기반 폭력 케이스에서 상기 폭력 감지 모델을 이용하여 프레임 내 특징을 학습하는 CNN 기반 분류, 시간별 프레임간 특징을 학습하는 LSTM 기반 분류, 불변/로컬의 특징을 학습하는 광학흐름 기반 분류를 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정하는 단계, 인물포즈 기반 폭력 케이스에서 프레임 내 특징을 학습하는 CNN 기반 포즈 판단, 객체간 거리 및 기준값 초과 여부 계산을 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정하는 단계, 사운드 기반 폭력 케이스에서 LSTM 기반의 사운드 분류를 실시하여 정상 또는 비정상을 판단하도록 스코어를 측정하는 단계, 및 케이스별로 설정된 방식으로 스코어를 측정하고, 측정된 스코어를 합산한 후 기준 스코어와 비교하여 폭력 발생을 판단하는 단계를 포함할 수 있다.
본 발명의 실시예에 따르면, 보육 시설에서 수집되는 영상을 분석하여 보육 아동에 대한 폭력 또는 이상행동을 감지할 수 있다.
또한, 본 발명이 이루고자 하는 기술적 과제는 보육 시설의 특수성을 반영할 수 있고, 고성능의 장비를 대체할 수 있다.
본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 설명 또는 청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.
도 1은 본 발명의 일 실시예에 따른 스마트 폭력감시시스템의 구성을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 폭력감지장치의 구성을 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따른 자세 및 동작 분석 모델의 예시를 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 객체간 겹침을 예시적으로 나타내는 도면이다.
도 5는 본 발명의 일 실시예에 따른 얼굴인식 모델의 예시를 나타내는 도면이다.
도 6은 본 발명의 일 실시예에 따른 얼굴 특징정보 추출 모델의 예시를 나타내는 도면이다.
도 7은 본 발명의 일 실시예에 따른 표정분석 모델의 예시를 나타내는 도면이다.
도 8은 본 발명의 일 실시예에 따른 폭력감지방법을 나타내는 순서도이다.
도 9는 본 발명의 일 실시예에 폭력 발생 판단 단계를 세부적으로 나타내는 순서도이다.
이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결(접속, 접촉, 결합)"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템의 구성을 나타내는 도면이다. 도 2는 본 발명의 일 실시예에 따른 폭력감지장치의 구성을 나타내는 도면이다. 도 3은 본 발명의 일 실시예에 따른 자세 및 동작 분석 모델의 예시를 나타내는 도면이다. 도 4는 본 발명의 일 실시예에 따른 객체간 겹침을 예시적으로 나타내는 도면이다. 도 5는 본 발명의 일 실시예에 따른 얼굴인식 모델의 예시를 나타내는 도면이다. 도 6은 본 발명의 일 실시예에 따른 얼굴 특징정보 추출 모델의 예시를 나타내는 도면이다. 도 7은 본 발명의 일 실시예에 따른 표정분석 모델의 예시를 나타내는 도면이다.
도 1 내지 도 7을 참조하면, 본 발명의 일 실시예에 따른 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템은 촬영장치(100), 폭력감지장치(200) 및 관제서버(300)를 포함할 수 있다.
상기 촬영장치(100)는 보육 시설에 설치되고, 보육아동 및 보육사(교사) 중 적어도 하나의 대상을 촬영하며, 촬영 대상과 관련된 영상 및 소리 중 적어도 하나를 포함하는 감시 영상을 생성할 수 있다. 이를 위하여, 상기 촬영장치(100)는 폐쇄회로(CCTV)를 포함할 수 있다.
상기 폭력감지장치(200)는 감시 영상으로부터 객체를 검출하고, 검출된 객체의 포즈 및 행동 중 적어도 하나를 분석하는 객체 검출부(210), 얼굴 감지 및 얼굴 식별을 통해 가해자와 피해자를 확인하고, 시간 경과에 따라 피해자의 피해상황을 반영하도록 설정된 변화요소를 분석하는 객체 분석부(220), 및 분석된 변화요소가 폭력 발생 조건을 만족하는지 판단하여 판단 결과를 외부로 송신하는 폭력발생 판단부(230)를 포함할 수 있다.
구체적으로, 상기 객체 검출부(210)는 촬영장치(100)를 통해 촬영된 감시 영상으로부터 영상 분석을 통해 적어도 하나의 객체를 검출할 수 있다. 여기서, 상기 객체 검출부(210)는 오픈 포즈(OpenPose), 코드북을 기반으로 하는 배경 모델링 방법(Codebook-based Background modeling), 및 휴먼 포즈 에스티메이션(Human Pose Estimation) 중 적어도 하나를 포함하는 검출 알고리즘을 이용하여 영상 프레임에서 객체를 검출할 수 있다. 예를 들면, 상기 객체 검출부(210)는 도 3을 참조하여 이미지나 영상에서 사람의 포즈를 검출하는 상기 휴먼 포즈 에스티메이션을 이용하여 신체의 주요 연결부위(관절)를 키-포인트 검출하고, 이들을 연결해 서있기, 걷기, 발차기 주먹질 등의 포즈(자세)를 인식할 수 있다.
또한, 상기 객체 검출부(210)는 보육아동과 보육사(교사) 각각의 객체의 포즈(자세)를 분석하여 액션(행동)을 인식하고, 인식된 액션(행동)이 발차기, 주먹질 등의 폭력과 관련된 것인지 판단할 수 있다. 여기서, 상기 객체 검출부(210)는 자세추정 모델(예: PoseNet, body key point) 및 시간별 프레임 분석 모델(예: LSTM) 중 적어도 하나를 이용하여 객체의 행동을 분석할 수 있다. 예를 들면, 상기 객체 검출부(210)는 보육사(교사)가 특정 방향을 지시하는 포즈(자세)를 취하고, 보육아동들이 갑자기 한쪽으로 몰려가 대기하거나, 모두 고개를 숙이는 행동을 인식하여 폭행, 체벌, 및 가혹행위 중 적어도 하나와 관련된 보육사(교사)의 행동을 분석할 수 있다.
또한, 상기 객체 검출부(210)는 보육아동과 보육사(교사) 각각의 객체 사이의 도심(중심) 거리를 측정할 수 있다. 여기서, 상기 객체 검출부(210)는 도 4를 참조하여 측정된 도심 거리를 이용하여 겹치는 객체(사람)을 확인할 수 있다. 예를 들면, 상기 객체 검출부(210)는 복수의 객체 각각의 상체를 기준으로 서로의 상체 사이의 중심 거리를 측정하고, 측정된 거리가 객체의 팔 길이 이하일 경우 복수의 객체가 겹치는 것으로 판단할 수 있다.
한편, 상기 객체 검출부(210)는 상기 촬영장치(100)로부터 수신된 감시 영상으로부터 오디오 분석을 통해 오디오 데이터를 추출할 수 있다.
상기 객체 분석부(220)는 겹치는 것으로 확인된 객체(사람)들의 얼굴 감지 및 얼굴 식별을 통해 가해자 및 피해자를 확인할 수 있다. 여기서, 객체 분석부(220)는 도 5와 같은 얼굴인식 모델(RetinaFace)을 이용하여 안면을 감지할 수 있고, 도 6과 같은 얼굴 특징정보 추출모델(Arcface)을 이용하여 얼굴의 특징을 추출하고, 특징정보 유사도 분석 알고리즘(예: Cosign Similarity)을 이용하여 안면을 식별할 수 있다.
또한, 상기 객체 분석부(220)는 도 7과 같은 표정분석(Facial Expression) 모델을 이용하여 시간 경과에 따른 피해자의 표정 변화 및/또는 감정 변화를 반영하도록, 피해자의 얼굴 상태가 포함된 장면, 및 피해자의 포즈 중 적어도 하나를 포함하는 상기 변화요소를 분석할 수 있다. 이를 통해, 상기 객체 분석부(220)는 상기 변화요소를 분석하여 피해자의 표정 변화 및/또는 감정 변화가 폭력과 관련이 있는지 확인할 수 있다. 예를 들면, 상기 객체 분석부(220)는 폭행, 체벌 또는 가혹행위를 당한 보육아동의 표정 변화를 통해 놀람, 슬픔, 눈물 흘림, 분노, 두려움 등의 피해자 감정을 확인할 수 있다.
한편, 상기 객체 분석부(220)는 상기 객체 검출부(210)로부터 추출된 오디오 데이터를 수신하여 사운드를 인식할 수 있다. 여기서, 상기 객체 분석부(220)는 오디오 데이터에 인공지능 알고리즘을 이용하여 학습된 학습 모델을 적용하여 비명, 울음, 체벌소리 등의 사운드를 인식할 수 있다. 또한, 상기 객체 분석부(220)는 인식된 사운드가 비명, 구타, 넘어짐 소리 등과 같이 폭력과 관련된 것인지 확인할 수 있다.
상기 폭력발생 판단부(230)는 상기 객체 분석부(220)에서 분석된 변화요소와 인식된 사운드를 폭력발생 판단기준과 비교하여 보육아동에게 폭력이 발생했는지 판단할 수 있다.
구체적으로, 상기 폭력발생 판단부(230)는 피해자의 얼굴 표정, 가해자와 피해자의 포즈 및 사운드 각각을 장면 기반 폭력, 인물포즈 기반 폭력 및 사운드 기반 폭력 각각의 케이스로 분류하고, 케이스별로 설정된 방식으로 스코어를 측정하며, 케이스별로 측정된 스코어를 합산하여 기준 스코어(폭력발생 판단기준)와 비교한 후 현재 상황이 폭력 상황인지 일반 상황인지 판단할 수 있다.
여기서, 상기 폭력발생 판단부(230)는 현재 시점과 이전 시점의 프레임을 입력 데이터로 하여 딥-러닝(deep-learning) 구성 요소들을 결합한 CNN(Convolutional Neural Networks) + LSTM(Long Short-Term Memory)을 기반으로 만들어진 폭력 감지 모델을 이용하여 폭력 발생을 판단할 수 있다. 예를 들면, 상기 폭력발생 판단부(230)는 장면 기반 폭력 케이스에서 상기 폭력 감지 모델을 이용하여 프레임 내 특징을 학습하는 CNN 기반 분류, 시간별 프레임간 특징을 학습하는 LSTM 기반 분류, 불변/로컬의 특징을 학습하는 광학흐름 기반 분류를 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정할 수 있다. 또는, 상기 폭력발생 판단부(230)는 인물포즈 기반 폭력 케이스에서 프레임 내 특징을 학습하는 CNN 기반 포즈 판단, 객체간 거리 및 기준값 초과 여부 계산을 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정할 수 있다. 또는, 상기 폭력발생 판단부(230)는 사운드 기반 폭력 케이스에서 LSTM 기반의 사운드 분류를 실시하여 정상 또는 비정상을 판단하도록 스코어를 측정할 수 있다.
이때, 상기 폭력발생 판단부(230)는 하기 수학식 1을 이용하여 스코어를 계산할 수 있다.
[수학식 1]
여기서, 는 분석된 감시 영상의 총 시간이고, 는 피해자의 변화요소(얼굴 표정/감정) 분석에 따른 폭력 여부를 0 또는 1로 표현한 값이고, 는 피해자의 변화요소에 따른 가중치를 수치로 나타낸 값이며, 는 피해자의 변화요소 분석에 따른 폭력 확률을 0.00 내지 1.00로 표현한 값이다.
또한, 상기 폭력발생 판단부(230)는 폭력 단계를 의심(스코어 0~10), 보통(스코어 10~20), 위험(스코어 20~40), 심각(스코어 40~200)으로 구분짓고, 합산된 스코어가 위험 이상일 경우, 현재 상황이 폭력 상황인 것으로 판단할 수 있다.
상기 폭력발생 판단부(230)는 폭력 상황으로 판단한 경우, 상기 관제서버(300)로 폭력 발생 알림과 함께 의심징후의 감시 영상을 전송할 수 있다.
상기 관제서버(300)는 상기 폭력감지장치(200)로부터 수신한 의심징후 감시 영상을 관제사 및/또는 근무자가 재확인하여 폭력 발생을 판단하고, 피해자의 보호자에게 폭력 발생을 통지할 수 있다. 이때, 상기 관제서버(300)는 보호자의 사용자 단말기(400)로 문자, 영상, 소리 중 적어도 하나의 형태로 폭력 발생을 통지할 수 있다.
또한, 상기 관제서버(300)는 감시 영상의 분석을 통해 폭력 발생을 확인한 판정값을 추가 학습용 데이터로 상기 폭력감지장치(200)에 제공할 수 있다. 추가 학습용 데이터를 수신한 상기 폭력감지장치(200)는 AI모델 추가 학습을 통해 폭력 감지 모델의 고도화를 수행할 수 있고, 신규 가중치 파일을 생성, 갱신 및/또는 배포할 수 있다.
이하에서는, 도 8 및 도 9를 참조하여, 본 발명의 일 실시예에 따른 폭력 감지 방법에 대해서 설명한다.
도 8은 본 발명의 일 실시예에 따른 폭력감지방법을 나타내는 순서도이고, 도 9는 본 발명의 일 실시예에 폭력 발생 판단 단계를 세부적으로 나타내는 순서도이다. 여기서는, 상술한 본 발명의 일 실시예에 따른 스마트 폭력감시시스템을 참조하여 폭력감지방법을 설명하되, 편의상 중복된 설명을 생략할 수 있다.
본 발명의 일 실시예에 따른 폭력 감지 방법은 영상 분석을 통해 감시 영상으로부터 객체를 검출하는 단계(S110), 객체별 포즈를 검출하는 단계(S120), 액션을 인식하는 단계(S130), 액션이 폭력과 관련된 것인지 판단하는 단계(S140), 객체간 도심 거리를 측정하는 단계(S150), 측정된 도심 거리를 이용하여 겹치는 객체(사람)를 확인하는 단계(S160), 겹치는 것으로 확인된 객체(사람)들의 얼굴 감지 및 얼굴 식별을 통해 가해자 및 피해자를 확인하고, 시간 경과에 따른 피해자의 표정 변화 및/또는 감정 변화를 반영하는 변화요소를 분석하는 단계(S170), 표정이 폭력과 관련된 것인지 판단하는 단계(S180), 감시 영상으로부터 오디오를 분석하는 단계(S210), 오디오 분석을 통해 추출된 오디오 데이터를 이용하여 사운드를 인식하는 단계(S220), 인식된 사운드가 폭력과 관련이 있는지 판단하는 단계(S230), 및 변화요소와 인식된 사운드를 폭력발생 판단기준과 비교하여 폭력 발생을 판단하는 단계(S300) 및 폭력 발생 알림을 송신하는 단계를 포함할 수 있다.
단계 S110에서는, 객체 검출부(210)가 촬영장치(100)를 통해 촬영된 감시 영상으로부터 영상 분석을 통해 적어도 하나의 객체를 검출할 수 있다.
단계 S120에서는, 객체 검출부(210)가 검출된 객체에서 주요 연결부위를 연결하여 포즈를 검출할 수 있다.
단계 S130에서는, 객체 검출부(210)가 객체의 포즈(자세)를 분석하여 액션(행동)을 인식할 수 있다.
단계 S140에서는, 객체 검출부(210)가 인식된 액션(행동)이 발차기, 주먹질 등의 폭력과 관련된 것인지 판단할 수 있다.
단계 S150에서는, 객체 검출부(210)가 보육아동과 보육사(교사) 각각의 객체 사이의 도심(중심) 거리를 측정할 수 있다.
단계 S160에서는, 객체 검출부(210)가 측정된 도심 거리를 이용하여 겹치는 객체(사람)을 확인할 수 있다.
단계 S170에서는, 객체 분석부(220)가 겹치는 것으로 확인된 객체(사람)들의 얼굴 감지 및 얼굴 식별을 통해 가해자 및 피해자를 확인할 수 있다. 여기서, 객체 분석부(220)는 얼굴인식 모델(RetinaFace)을 이용하여 안면을 감지할 수 있고, 얼굴 특징정보 추출모델(Arcface)을 이용하여 얼굴의 특징을 추출하고, 특징정보 유사도 분석 알고리즘(예: Cosign Similarity)을 이용하여 안면을 식별할 수 있다. 또한, 상기 객체 분석부(220)는 시간 경과에 따른 피해자의 표정 변화 및/또는 감정 변화를 반영하도록, 피해자의 얼굴 상태가 포함된 장면, 및 피해자의 포즈 중 적어도 하나를 포함하는 변화요소를 분석할 수 있다.
단계 S210에서는, 객체 검출부(210)가 촬영장치(100)로부터 수신된 감시 영상으로부터 오디오 분석을 통해 오디오 데이터를 추출할 수 있다.
단계 S220에서는, 객체 분석부(220)가 객체 검출부(210)로부터 추출된 오디오 데이터를 수신하여 사운드를 인식할 수 있다.
단계 S230에서는, 객체 분석부(220)가 인식된 사운드를 비명, 구타, 넘어짐 소리 등과 같이 폭력과 관련된 소리인지 확인할 수 있다.
단계 S300은, 장면 기반 폭력 케이스에서 상기 폭력 감지 모델을 이용하여 프레임 내 특징을 학습하는 CNN 기반 분류, 시간별 프레임간 특징을 학습하는 LSTM 기반 분류, 불변/로컬의 특징을 학습하는 광학흐름 기반 분류를 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정하는 단계, 인물포즈 기반 폭력 케이스에서 프레임 내 특징을 학습하는 CNN 기반 포즈 판단, 객체간 거리 및 기준값 초과 여부 계산을 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정하는 단계, 사운드 기반 폭력 케이스에서 LSTM 기반의 사운드 분류를 실시하여 정상 또는 비정상을 판단하도록 스코어를 측정하는 단계, 및 케이스별로 설정된 방식으로 스코어를 측정하고, 측정된 스코어를 합산한 후 기준 스코어와 비교하여 폭력 발생을 판단하는 단계를 포함할 수 있다.
본 발명의 실시예에 따르면, 보육 시설에서 수집되는 영상을 분석하여 보육 아동에 대한 폭력 또는 이상행동을 감지할 수 있다.
또한, 본 발명이 이루고자 하는 기술적 과제는 보육 시설의 특수성을 반영할 수 있고, 고성능의 장비를 대체할 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 후술하는 청구범위에 의하여 나타내어지며, 청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 촬영장치
200: 폭력감지장치
210: 객체 검출부
220: 객체 분석부
230: 폭력발생 판단부
300: 관제서버
400: 사용자 단말기

Claims (11)

  1. 감시 영상을 분석하여 객체를 검출하고, 검출된 객체의 포즈를 분석하여 행동을 인식함으로써 인식된 행동이 폭력과 관련된 것인지를 판단하며, 객체간 도심 거리를 측정하여 겹치는 객체를 확인하는 객체 검출부;
    겹치는 것으로 확인된 객체들의 얼굴 감지 및 얼굴 식별을 통해 가해자 및 피해자를 확인하고, 시간 경과에 따라 피해자의 피해상황을 반영하도록 설정된 변화요소를 분석하는 객체 분석부; 및
    분석된 변화요소가 폭력 발생 조건을 만족하는지 판단하여 판단 결과를 외부로 송신하는 폭력발생 판단부;
    를 포함하고,
    상기 객체 검출부는,
    객체들 각각의 상체를 기준으로 서로의 상체 사이의 도심 거리를 측정하고 측정된 거리가 객체의 팔 길이 이하인 경우 상기 객체들이 겹치는 것으로 확인하는 것을 특징으로 하는, 폭력감지장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 객체 분석부는,
    얼굴인식 모델 및 얼굴 특징정보 추출모델 중 적어도 하나를 이용하여 겹치는 객체들의 얼굴 감지 및 얼굴 식별을 실시하여 가해자 및 피해자를 확인하는 것을 특징으로 하는, 폭력감지장치.
  4. 제3항에 있어서,
    상기 객체 분석부는,
    시간 경과에 따른 표정 변화 및 감정 변화를 반영하도록, 피해자의 얼굴 상태가 포함된 장면 및 피해자의 포즈 중 적어도 하나를 포함하는 상기 변화요소를 분석하는 것을 특징으로 하는, 폭력감지장치.
  5. 제1항에 있어서,
    상기 객체 검출부는,
    상기 감시 영상으로부터 오디오 분석을 통해 오디오 데이터를 추출하고,
    상기 객체 분석부는,
    상기 객체 검출부로부터 추출된 오디오 데이터를 수신하여 사운드를 인식하는 것을 특징으로 하는, 폭력감지장치.
  6. 제5항에 있어서,
    상기 폭력발생 판단부는,
    피해자의 얼굴 표정, 가해자와 피해자의 포즈 및 사운드 각각을 장면 기반 폭력, 인물포즈 기반 폭력 및 사운드 기반 폭력 각각의 케이스로 분류하고, 케이스별로 설정된 방식으로 스코어를 측정하며, 측정된 스코어를 합산한 후 기준 스코어와 비교하여 폭력 발생을 판단하는 것을 특징으로 하는, 폭력감지장치.
  7. 제6항에 있어서,
    상기 폭력발생 판단부는,
    장면 기반 폭력 케이스에서 상기 폭력 감지 모델을 이용하여 프레임 내 특징을 학습하는 CNN 기반 분류, 시간별 프레임간 특징을 학습하는 LSTM 기반 분류, 불변 및 로컬의 특징을 학습하는 광학흐름 기반 분류를 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정하거나,
    인물포즈 기반 폭력 케이스에서 프레임 내 특징을 학습하는 CNN 기반 포즈 판단, 객체간 거리 및 기준값 초과 여부 계산을 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정하거나,
    사운드 기반 폭력 케이스에서 LSTM 기반의 사운드 분류를 실시하여 정상 또는 비정상을 판단하도록 스코어를 측정하는 것을 특징으로 하는, 폭력감지장치.
  8. 보육 시설에 설치되고, 적어도 하나의 대상을 촬영하여 감시 영상을 생성하는 촬영장치;
    제1항 또는 제3항 내지 제7항 중 어느 한 항에 따른 폭력감지장치; 및
    상기 폭력감지장치로부터 폭력 발생 알림과 의심징후의 감시 영상을 수신하여 재확인하고, 피해자의 보호자에게 폭력 발생을 통지하는 관제서버;
    를 포함하는, 스마트 폭력감시시스템.
  9. 제8항에 있어서,
    상기 관제서버는,
    감시 영상의 분석을 통해 폭력 발생을 확인한 판정값을 추가 학습용 데이터로 상기 폭력감지장치에 제공하는 것을 특징으로 하는, 스마트 폭력감시시스템.
  10. 영상 분석을 통해 감시 영상으로부터 객체를 검출하는 단계;
    검출된 객체별 포즈를 분석하여 행동을 인식함으로써 인식된 행동이 폭력과 관련된 것인지 판단하는 단계;
    객체간 도심 거리를 측정하여 겹치는 객체를 확인하는 단계;
    겹치는 것으로 확인된 객체들의 얼굴 감지 및 얼굴 식별을 통해 가해자 및 피해자를 확인하고, 시간 경과에 따른 피해자의 표정 변화 및 감정 변화를 반영하는 변화요소를 분석하는 단계;
    오디오 분석을 통해 사운드를 인식하고, 인식된 사운드가 폭력과 관련이 있는지 판단하는 단계; 및
    상기 변화요소와 인식된 사운드를 폭력발생 판단기준과 비교하여 폭력 발생을 판단하는 단계;
    를 포함하고,
    상기 겹치는 객체를 확인하는 단계에서는,
    객체들 각각의 상체를 기준으로 서로의 상체 사이의 도심 거리를 측정하고 측정된 거리가 객체의 팔 길이 이하인 경우 상기 객체들이 겹치는 것으로 확인하는 것을 특징으로 하는, 폭력감지방법.
  11. 제10항에 있어서,
    상기 폭력 발생을 판단하는 단계에서는,
    장면 기반 폭력 케이스에서 상기 폭력 감지 모델을 이용하여 프레임 내 특징을 학습하는 CNN 기반 분류, 시간별 프레임간 특징을 학습하는 LSTM 기반 분류, 불변 및 로컬의 특징을 학습하는 광학흐름 기반 분류를 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정하는 단계;
    인물포즈 기반 폭력 케이스에서 프레임 내 특징을 학습하는 CNN 기반 포즈 판단, 객체간 거리 및 기준값 초과 여부 계산을 실시하여 폭력 또는 일반을 판단하도록 스코어를 측정하는 단계;
    사운드 기반 폭력 케이스에서 LSTM 기반의 사운드 분류를 실시하여 정상 또는 비정상을 판단하도록 스코어를 측정하는 단계; 및
    케이스별로 설정된 방식으로 스코어를 측정하고, 측정된 스코어를 합산한 후 기준 스코어와 비교하여 폭력 발생을 판단하는 단계;
    를 포함하는 것을 특징으로 하는, 폭력감지방법.
KR1020210125773A 2021-09-23 2021-09-23 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템 KR102648004B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210125773A KR102648004B1 (ko) 2021-09-23 2021-09-23 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210125773A KR102648004B1 (ko) 2021-09-23 2021-09-23 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템

Publications (2)

Publication Number Publication Date
KR20230042926A KR20230042926A (ko) 2023-03-30
KR102648004B1 true KR102648004B1 (ko) 2024-03-18

Family

ID=85985907

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210125773A KR102648004B1 (ko) 2021-09-23 2021-09-23 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템

Country Status (1)

Country Link
KR (1) KR102648004B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102631950B1 (ko) * 2023-07-28 2024-01-31 주식회사 씨커뮤니케이션즈 지능형 cctv 시스템을 이용하여 이벤트의 발생을 감지하기 위한 장치 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766035A (zh) * 2020-12-01 2021-05-07 华南理工大学 一种面向公交车的乘客对司机的暴力行为识别系统与方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090035379A (ko) 2007-10-05 2009-04-09 주식회사 케이티 주차장내 영상감지를 이용한 지능형 보안방범 시스템 및 그제어방법
KR102179995B1 (ko) * 2018-08-30 2020-11-18 충북대학교 산학협력단 운전자 폭력 감지 방법
KR102149832B1 (ko) * 2018-10-25 2020-08-31 주식회사 유캔스타 딥러닝 기반의 자동 폭력 감지 시스템
KR102264275B1 (ko) * 2019-10-02 2021-06-14 경북대학교 산학협력단 폭력행위 관리시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766035A (zh) * 2020-12-01 2021-05-07 华南理工大学 一种面向公交车的乘客对司机的暴力行为识别系统与方法

Also Published As

Publication number Publication date
KR20230042926A (ko) 2023-03-30

Similar Documents

Publication Publication Date Title
KR102260120B1 (ko) 딥러닝기반 행동인식장치 및 그 장치의 구동방법
KR101850286B1 (ko) 딥 러닝 기반 cctv용 영상 인식 방법
CN112364696B (zh) 一种利用家庭监控视频提高家庭安全的方法及系统
CN108647582A (zh) 一种复杂动态环境下目标行为识别与预测方法
JP7405200B2 (ja) 人物検出システム
KR101765722B1 (ko) 인지형 차량 및 인상착의 객체 및 이벤트 인식, 추적, 검색, 예측을 위한 나레이티브 보고서 작성 시스템 및 방법
JP2018101317A (ja) 異常監視システム
JP2018173914A (ja) 画像処理システム、撮像装置、学習モデル作成方法、情報処理装置
KR102149832B1 (ko) 딥러닝 기반의 자동 폭력 감지 시스템
JP6336709B2 (ja) 警備装置、警備方法およびプログラム
CN114359976B (zh) 一种基于人物识别的智能安防方法与装置
KR20210062256A (ko) 행동 시퀀스 기반으로 이상행동 여부를 판단하는 방법, 프로그램 및 시스템
KR102648004B1 (ko) 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템
KR101552564B1 (ko) 가스센서 및 ip네트워크 카메라 기반 융합 보안 시스템
CN112330742A (zh) 公共区域重点人员活动路线记录方法及装置
KR102647139B1 (ko) 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치 및 방법
CN115171335A (zh) 一种融合图像和语音的独居老人室内安全保护方法及装置
KR20230097854A (ko) 발전소내 작업자의 위험행동 인지방법 및 시스템
KR102286229B1 (ko) 특징벡터 기반 싸움 이벤트 인식 방법
Nair et al. i-Surveillance crime monitoring and prevention using neural networks
Kodikara et al. Surveillance based Child Kidnap Detection and Prevention Assistance
Kulkarni et al. Automated System for Detection of Suspicious Activity in Examination Hall
Firmasyah et al. Preventing Child Kidnaping at Home Using CCTV that Utilizes Face Recognition with You Only Look Once (YOLO) Algorithm
Thao et al. FightNet deep learning strategy: An innovative solution to prevent school fighting violence
Sowmyayani et al. An efficient fall detection method for elderly care system

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant