KR102631950B1 - 지능형 cctv 시스템을 이용하여 이벤트의 발생을 감지하기 위한 장치 및 방법 - Google Patents

지능형 cctv 시스템을 이용하여 이벤트의 발생을 감지하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR102631950B1
KR102631950B1 KR1020230099067A KR20230099067A KR102631950B1 KR 102631950 B1 KR102631950 B1 KR 102631950B1 KR 1020230099067 A KR1020230099067 A KR 1020230099067A KR 20230099067 A KR20230099067 A KR 20230099067A KR 102631950 B1 KR102631950 B1 KR 102631950B1
Authority
KR
South Korea
Prior art keywords
human object
event
image
feature points
occurred
Prior art date
Application number
KR1020230099067A
Other languages
English (en)
Inventor
최종덕
Original Assignee
주식회사 씨커뮤니케이션즈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 씨커뮤니케이션즈 filed Critical 주식회사 씨커뮤니케이션즈
Priority to KR1020230099067A priority Critical patent/KR102631950B1/ko
Application granted granted Critical
Publication of KR102631950B1 publication Critical patent/KR102631950B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4318Generation of visual interfaces for content selection or interaction; Content or additional data rendering by altering the content in the rendering process, e.g. blanking, blurring or masking an image region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

본 개시는 CCTV 영상 내 객체의 움직임으로부터 객체의 행동 분류를 확인하고, 행동 분류를 고려하여 감시 영역 내 이벤트의 발생 여부를 검출하는 영상 관리 시스템에 관한 것이다. 본 개시에 따르면, 영상 분석 장치는 복수의 프레임들로 구성된 영상에서 관심 영역을 추출하고, 상기 관심 영역 내 사람 객체의 움직임과 미리 저장된 행동 규칙 모델들을 비교하여, 상기 사람 객체의 행동 분류를 결정하고, 상기 행동 분류에 따라 상기 사람 객체에 관한 특징점들의 종류를 결정하고, 상기 특징점들의 종류에 기초하여 상기 영상으로부터 상기 특징점들을 추출하고, 상기 특징점들의 움직임으로부터 이벤트의 발생 여부를 식별하고, 상기 이벤트가 발생한 것으로 식별된 경우, 상기 이벤트의 발생을 지시하는 분석 영상을 생성할 수 있다.

Description

지능형 CCTV 시스템을 이용하여 이벤트의 발생을 감지하기 위한 장치 및 방법{APPARATUS AND METHOD FOR DETECTING EVENT OCCURRENCE USING AN INTELLIGENT CCTV SYSTEM}
본 개시(disclosure)는 일반적으로 CCTV 영상을 분석하는 영상 관리 시스템에 관한 것으로, 보다 구체적으로 영상 내 객체의 움직임으로부터 객체의 행동 분류를 확인하고, 행동 분류를 고려하여 감시 영역 내 이벤트의 발생 여부를 검출하기 위한 장치 및 방법에 관한 것이다.
CCTV(closed circuit television) 시스템은 영상 촬영 장치를 이용하여 특정 영역을 감시하는 시스템으로서, 건물 보안, 범죄 예방, 안전 사고 모니터링, 및 신속한 사고 처리 등 다양한 분야에서 활용되고 있다. CCTV 시스템은 관제 센터에 근무자가 상주하여 CCTV 영상을 모니터링하여 영상 촬영 장치가 설치된 구역에서 이벤트가 발생하는지 여부를 확인하는 방식으로 운영되고 있다.
지능형 CCTV 감시 시스템은 CCTV 영상을 인공지능에 기반한 지능형 소프트웨어 프로그램이 특정 물체나 동작을 감지하여 자동으로 이를 식별하고 사용자에게 알려주는 시스템을 지시한다. 즉, 인공지능 기술이 발전함에 따라, 인공지능 기술을 이용하여 영상 이미지에 존재하는 객체를 인식하고 객체가 무엇인지 여부를 판정하는 딥러닝(deep learning) 기술에 관한 연구가 활발히 이루어지고 있다. 특히, 영상 이미지에서 객체를 인식하는 방법으로서, 합성곱 신경망(convolutional neural network, CNN)이 주로 사용되고 있다. CNN은 입력된 영상 이미지에 대하여 컨벌루션 레이어를 이용한 컨벌루션 필터를 적용하여, 영상 이미지의 특징 추출하기 위한 특징맵(feature map)의 생성 과정을 반복하여 수행한다. 또한 CNN을 기초로 하는 학습 장치는 반복적으로 생성된 특징맵을 처리하여 FC(fully-connected) 레이어에 입력하고, 영상 이미지에서 객체가 무엇인지 확률적인 연산을 수행한다. 이러한 CNN을 기초로 하는 학습 장치는 연산 결과 값에 따른 손실(loss)이 최소화되도록 컨벌루션 필터의 가중치를 지속적으로 학습한다. 인공지능을 이용한 지능형 CCTV 시스템은 기존의 시스템과 달리 24시간 영상을 감시할 필요가 없다는 장점이 있기 때문에, 지능형 CCTV에 관한 관심도가 지속적으로 증가하고 있다.
종래에 따르면, 지능형 CCTV 시스템은 객체나 이벤트를 검출하여 경보를 발생시키고, 사람은 경보 내용을 직접 확인하고 경보 내용에 맞는 대응을 수행한다. 따라서, 지능형 CCTV 시스템의 경보 발생 정확도는 시스템의 정상적인 운용에 있어 매우 중요한 요소이며, 딥러닝 기술의 발전에 따라 영상에서 객체 및 이벤트에 대한 검출 정확도가 상승하고 있으나, 여전히 오경보율이 낮지 않은 상황이다. 즉, 오경보가 빈번하게 발생하면 사람이 일일이 확인하는 과정에서 추가적인 비용 및 시간이 요구되며, 오경보가 지나치게 빈번하게 발생하면 객체를 오히려 놓치게 되는 문제가 있기 때문에, 지능형 CCTV에서 오경보율을 낮추고 객체 및 이벤트의 발생을 보다 정밀하게 검출하기 위한 기술 개발이 요구되고 있다.
전술한 기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지 기술을 지시하지 않는다.
등록특허공보 제10-2008290호(2019.08.07)
상술한 바와 같은 논의를 바탕으로, 본 개시(disclosure)는 영상 내 객체의 움직임으로부터 객체의 행동 분류를 확인하고, 행동 분류를 고려하여 감시 영역 내 이벤트의 발생 여부를 검출하기 위한 장치 및 방법을 제공한다.
또한, 본 개시는 영상 관리 시스템에서 영상 내 관심 영역에서 사람 객체의 움직임과 행동 규칙 모델을 비교하여, 사람 객체의 행동을 분류하기 위한 장치 및 방법을 제공한다.
또한, 본 개시는 영상 관리 시스템에서 행동 분류를 고려하여 사람 객체의 특징점들을 추출하고, 특징점들을 이용하여 이벤트의 발생 여부를 판단하기 위한 장치 및 방법을 제공한다.
또한, 본 개시는 영상 관리 시스템에서 특징점들의 움직임을 이용하여 이벤트의 위험도를 확인하기 위한 장치 및 방법을 제공한다.
또한, 본 개시는 영상 관리 시스템에서 이벤트가 발생한 것으로 식별된 경우 이벤트의 내용을 분석하기 위한 분석 영상을 생성하기 위한 장치 및 방법을 제공한다.
본 개시의 다양한 실시 예들에 따르면, 영상 분석 장치의 동작 방법은 복수의 프레임들로 구성된 영상에서 관심 영역을 추출하는 단계, 상기 관심 영역 내 사람 객체의 움직임과 미리 저장된 행동 규칙 모델들을 비교하여, 상기 사람 객체의 행동 분류를 결정하는 단계, 상기 행동 분류에 따라 상기 사람 객체에 관한 특징점들의 종류를 결정하고, 상기 특징점들의 종류에 기초하여 상기 영상으로부터 상기 특징점들을 추출하는 단계, 상기 특징점들의 움직임으로부터 이벤트의 발생 여부를 식별하는 단계, 및 상기 이벤트가 발생한 것으로 식별된 경우, 상기 이벤트의 발생을 지시하는 분석 영상을 생성하는 단계를 포함하고, 상기 행동 분류는 싸움, 배회, 침입, 쓰러짐, 유기, 및 방화 중 어느 하나를 지시할 수 있다.
다른 일 실시 예에 따르면, 상기 행동 분류가 싸움인 경우에서 상기 특징점들을 추출하는 단계는 상기 영상에서 제1 사람 객체의 골격 모델에 대한 제1 특징점들과 제2 사람 객체의 골격 모델에 대한 제2 특징점들을 추출하는 단계를 포함하고, 상기 이벤트의 발생 여부를 식별하는 단계는 상기 제1 특징점들과 상기 제2 특징점들을 이용하여, 상기 제1 사람 객체와 상기 제2 사람 객체 사이의 거리, 접근 속도, 상기 제1 사람 객체와 상기 제2 사람 객체 각각의 이동 속도, 및 상기 제1 사람 객체와 상기 제2 사람 객체의 상호 접근 후 정지 시간에 대한 접근 특징 벡터를 추출하는 단계, 학습된 인공 신경망을 이용하여, 상기 접근 특징 벡터로부터 싸움 발생 여부를 예측하는 단계, 및 상기 싸움이 발생할 것으로 예측되는 경우 상기 제2 사람 객체에 대응되는 관심 영역 내에서 상기 제1 사람 객체의 손과 발에 대한 특징점으로부터 싸움 발생 여부를 식별하는 단계를 포함할 수 있다.
다른 일 실시 예에 따르면, 상기 싸움 발생 여부를 식별하는 단계는 상기 제2 사람 객체에 대응되는 관심 영역 내에서, 상기 제1 사람 객체의 손에 대응되는 손 특징점의 움직임에 관련된 제1 움직임 벡터, 상기 제1 사람 객체의 발에 대응되는 발 특징점의 움직임에 관련된 제2 움직임 벡터를 산출하는 단계, 상기 제1 움직임 벡터와 상기 제2 움직임 벡터에 기반하여 위험도를 산출하는 단계, 및 상기 위험도가 미리 설정된 임계 값 이상인 경우, 싸움이 발생한 것으로 판단하는 단계를 포함할 수 있다.
다른 일 실시 예에 따르면, 상기 분석 영상을 생성하는 단계는 상기 이벤트의 내용을 설명하는 이벤트 정보를 생성하는 단계, 상기 행동 분류를 고려하여 상기 영상 내 이벤트 영역을 결정하는 단계, 및 상기 이벤트가 검출되는 검출 영상 프레임들에서 상기 이벤트 영역을 제외한 영역을 블러 처리하고, 상기 이벤트 정보를 상기 검출 영상 프레임들에 PIP로 표시하여 분석 영상을 생성하는 단계를 포함할 수 있다.
본 발명의 다양한 각각의 측면들 및 특징들은 첨부된 청구항들에서 정의된다. 종속 청구항들의 특징들의 조합들(combinations)은, 단지 청구항들에서 명시적으로 제시되는 것뿐만 아니라, 적절하게 독립항들의 특징들과 조합될 수 있다.
또한, 본 개시에 기술된 임의의 하나의 실시 예(any one embodiment) 중 선택된 하나 이상의 특징들은 본 개시에 기술된 임의의 다른 실시 예 중 선택된 하나 이상의 특징들과 조합될 수 있으며, 이러한 특징들의 대안적인 조합이 본 개시에 논의된 하나 이상의 기술적 문제를 적어도 부분적으로 경감시키거나, 본 개시로부터 통상의 기술자에 의해 식별될 수 있는(discernable) 기술적 문제를 적어도 부분적으로 경감시키고, 나아가 실시 예의 특징들(embodiment features)의 이렇게 형성된 특정한 조합(combination) 또는 순열(permutation)이 통상의 기술자에 의해 양립 불가능한(incompatible) 것으로 이해되지만 않는다면, 그 조합은 가능하다.
본 개시에 기술된 임의의 예시 구현(any described example implementation)에 있어서 둘 이상의 물리적으로 별개의 구성 요소들은 대안적으로, 그 통합이 가능하다면 단일 구성 요소로 통합될 수도 있으며, 그렇게 형성된 단일한 구성 요소에 의해 동일한 기능이 수행된다면, 그 통합은 가능하다. 반대로, 본 개시에 기술된 임의의 실시 예(any embodiment)의 단일한 구성 요소는 대안적으로, 적절한 경우, 동일한 기능을 달성하는 둘 이상의 별개의 구성 요소들로 구현될 수도 있다.
본 발명의 특정 실시 예들(certain embodiments)의 목적은 종래 기술과 관련된 문제점 및/또는 단점들 중 적어도 하나를, 적어도 부분적으로, 해결, 완화 또는 제거하는 것에 있다. 특정 실시 예들(certain embodiments)은 후술하는 장점들 중 적어도 하나를 제공하는 것을 목적으로 한다.
본 개시의 다양한 실시 예들에 따른 장치 및 방법은 영상 내 객체의 움직임으로부터 객체의 행동 분류를 확인하고, 행동 분류를 고려하여 감시 영역 내 이벤트의 발생 여부를 검출할 수 있게 한다.
또한, 본 개시의 다양한 실시 예들에 따른 장치 및 방법은 영상 관리 시스템에서 영상 내 관심 영역에서 사람 객체의 움직임과 행동 규칙 모델을 비교함으로써, 사람 객체의 행동을 예측 및 분류할 수 있게 한다.
또한, 본 개시의 다양한 실시 예들에 따른 장치 및 방법은 영상 관리 시스템에서 행동 분류를 고려하여 사람 객체의 특징점들을 추출하고, 특징점들을 이용하여 이벤트의 발생 여부를 판단할 수 있게 한다.
또한, 본 개시의 다양한 실시 예들에 따른 장치 및 방법은 영상 관리 시스템에서 특징점들의 움직임을 이용하여 이벤트의 위험도를 확인할 수 있게 한다.
또한, 본 개시의 다양한 실시 예들에 따른 장치 및 방법은 영상 관리 시스템에서 이벤트가 발생한 것으로 식별된 경우 이벤트의 내용을 분석하기 위한 분석 영상을 제공할 수 있게 한다.
본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
실시예들에 대한 이해를 돕기 위해 상세한 설명의 일부로 포함된, 첨부 도면은 다양한 실시예들을 제공하고, 상세한 설명과 함께 다양한 실시예들의 기술적 특징을 설명한다.
도 1은 본 개시의 다양한 실시 예들에 따른 CCTV 영상으로부터 이벤트의 발생 여부를 확인하는 영상 관리 시스템을 도시한다.
도 2는 본 개시의 다양한 실시 예들에 따른 영상 관리 시스템에서, 영상 분석 장치의 구성을 도시한다.
도 3은 본 개시의 다양한 실시 예들에 따른 영상 관리 시스템에서, 분석 영상을 생성하는 방법에 관한 모식도를 도시한다.
도 4는 본 개시의 다양한 실시 예들에 따른 영상 관리 시스템에서, 사람 객체에 대한 특징점의 일 예를 도시한다.
도 5는 본 개시의 다양한 실시 예들에 따른 영상 관리 시스템에서, 이벤트가 발생한 영상의 일 예를 도시한다.
도 6은 본 개시의 다양한 실시 예들에 따른 영상 관리 시스템에서, 영상 분석 장치의 동작 방법에 관한 흐름도를 도시한다.
본 개시에서 사용되는 용어들은 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 다른 실시 예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 개시에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 개시에 사용된 용어들 중 일반적인 사전에 정의된 용어들은, 관련 기술의 문맥상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 개시에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 개시에서 정의된 용어일지라도 본 개시의 실시 예들을 배제하도록 해석될 수 없다.
이하에서 설명되는 본 개시의 다양한 실시 예들에서는 하드웨어적인 접근 방법을 예시로서 설명한다. 하지만, 본 개시의 다양한 실시 예들에서는 하드웨어와 소프트웨어를 모두 사용하는 기술을 포함하고 있으므로, 본 개시의 다양한 실시 예들이 소프트웨어 기반의 접근 방법을 제외하는 것은 아니다.
이하 본 개시는 CCTV 영상을 분석하는 영상 관리 시스템에 관한 것이다. 구체적으로, 본 개시는 영상 내 객체의 움직임으로부터 객체의 행동 분류를 확인하고, 행동 분류를 고려하여 감시 영역 내 이벤트의 발생 여부를 검출하기 위한 기술을 설명한다.
아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 다양한 실시예들을 상세히 설명한다. 그러나 본 개시의 기술적 사상은 다양한 형태로 변형되어 구현될 수 있으므로 본 명세서에서 설명하는 실시예들로 제한되지 않는다. 본 명세서에 개시된 실시예들을 설명함에 있어서 관련된 공지 기술을 구체적으로 설명하는 것이 본 개시의 기술적 사상의 요지를 흐릴 수 있다고 판단되는 경우 그 공지 기술에 대한 구체적인 설명을 생략한다. 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
본 명세서에서 어떤 요소가 다른 요소와 "연결"되어 있다고 기술될 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라 그 중간에 다른 요소를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 어떤 요소가 다른 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 요소 외에 또 다른 요소를 배제하는 것이 아니라 또 다른 요소를 더 포함할 수 있는 것을 의미한다.
일부 실시예들은 기능적인 블록 구성들 및 다양한 처리 단계들로 설명될 수 있다. 이러한 기능 블록들의 일부 또는 전부는 특정 기능을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 본 개시의 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 본 개시의 기능 블록이 수행하는 기능은 복수의 기능 블록에 의해 수행되거나, 본 개시에서 복수의 기능 블록이 수행하는 기능들은 하나의 기능 블록에 의해 수행될 수도 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다.
또한, 본 개시에서, 특정 조건의 만족(satisfied), 충족(fulfilled) 여부를 판단하기 위해, 초과 또는 미만의 표현이 사용되었으나, 이는 일 예를 표현하기 위한 기재일 뿐 이상 또는 이하의 기재를 배제하는 것이 아니다. '이상'으로 기재된 조건은 '초과', '이하'로 기재된 조건은 '미만', '이상 및 미만'으로 기재된 조건은 '초과 및 이하'로 대체될 수 있다.
또한, 본 개시에서 영상은 평면 또는 공간에 배열된 광선, 혹은 매체에 의해 정보를 시각으로 포착하도록 구상화한 이미지를 지시한다. 본 개시의 일 실시 예에 따르면, 영상은 정지 영상, 및 동영상을 포함할 수 있다.
도 1은 본 개시의 다양한 실시 예들에 따른 CCTV 영상으로부터 이벤트의 발생 여부를 확인하는 영상 관리 시스템(100)을 도시한다.
영상 관리 시스템(100)은 적어도 하나의 영상 촬영 장치가 촬영한 영상을 수집, 및 정제하는 시스템을 지시한다. 영상 관리 시스템(100)에 따르면, 영상 촬영 장치는 미리 설정된 공간에 설치되어 감시 영역을 촬영하여 영상 데이터를 생성할 수 있으며, 영상 분석 장치는 영상 데이터를 수집하고 객체 인식을 통해 데이터를 정제하여 분석 영상을 생성할 수 있다. 관제 센터에 근무하는 근무자는 분석 영상을 처리 및 가공하여 감시 영역 내 이벤트가 발생하였는지 여부를 판단하고 대응 조치를 수행할 수 있다. 본 개시의 일 실시 예에 따르면, 영상 관리 시스템(100)은 영상 촬영 장치(110), 외부 서버(130), 영상 분석 장치(150), 및 네트워크(170)를 포함할 수 있다.
영상 촬영 장치(110)는 감시 영역을 촬영하여 영상 데이터를 생성하는 장치를 지시한다. 영상 촬영 장치(110)는 고정 렌즈가 구비되어 촬영 범위가 고정된 단일 고정식 카메라 또는 촬영 범위가 가변적인 PTZ(pan-tilt-zoom) 카메라로 구성될 수 있다. 여기서, PTZ 카메라는 수평 방향으로 회전되는 팬(pan) 동작과 수직 방향으로 회전되는 틸트(tilt) 동작 및 줌인/줌아웃 동작에 의해 한 대의 카메라로 다양한 감시 영역을 용이하게 변경시킬 수 있다. 영상 촬영 장치(110)는 유선 또는 무선 네트워크(170)를 통해 다른 장치와 연결되어 영상 데이터를 송신할 수 있다.
외부 서버(130)는 영상으로부터 이벤트를 검출하는 과정에서 이용되는 서버 장치를 지시한다. 일 예에 따르면, 외부 서버(130)는 관제 센터에서 운용하는 서버를 지시하거나, CCTV의 성능을 인증하는 기관에서 운용하는 서버를 지시하거나, 영상 분석 장치가 영상 분석에 이용하는 데이터를 저장하는 서버를 지시하는 등, 영상으로부터 이벤트를 검출하는 과정에서 필요한 모든 서버 장치를 지시할 수 있다. 본 개시의 일 실시 예에 따르면, 외부 서버(130)는 네트워크(170)를 통해 통신하여 명령, 코드, 파일, 컨텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다.
영상 분석 장치(150)는 영상 촬영 장치(110)로부터 영상을 수집하고, 수집한 영상을 정제하는 장치를 지시한다. 구체적으로, 영상 분석 장치(150)는 영상을 획득하여 사람 객체 및 이벤트의 발생 여부를 검출하고, 검출 결과에 따라 크롭핑(cropping) 하거나 필터링(filtering)하여 정제 영상을 생성할 수 있다. 본 개시의 일 실시 예에 따르면, 영상 분석 장치(150)는 컴퓨터 장치로 구현되는 고정형 단말이거나 이동형 단말을 포함할 수 있다. 구체적으로, 영상 분석 장치(150)는 스마트폰(smart phone), 휴대폰, 네비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA(personal digital assistants), PMP(portable multimedia player), 태블릿 PC를 지시할 수 있다.
도 1에 도시된 바와 같이, 영상 관리 시스템(100)의 구성요소들은 네트워크(170)를 통해 연결될 수 있다. 본 개시의 일 실시 예에 따르면, 네트워크(170)는 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 RF, 3GPP(3rd generation partnership project) 네트워크, LTE(long term evolution) 네트워크, 5GPP(5rd generation partnership project) 네트워크, WIMAX(world interoperability for microwave access) 네트워크, 인터넷(internet), LAN(local area network), Wireless LAN(wireless local area network), WAN(wide area network), PAN(personal area network), 블루투스 (bluetooth) 네트워크, NFC 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(digital multimedia broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.
영상 관리 시스템(100)에 따르면, 영상 촬영 장치(110)는 감시 영역에 대한 영상 데이터를 생성하여 영상 분석 장치(150)로 제공하고, 영상 분석 장치(150)는 영상 데이터를 분석하여 이벤트의 발생 여부를 판단한다. 이를 위하여, 영상 분석 장치(150)는 감시 영역에 대한 영상을 수집하고, 영상 내 객체의 행동으로부터 행동 분류를 결정한다. 여기서, 행동 분류는 싸움, 배회, 침입, 쓰러짐, 유기, 방화, 일반 중 어느 하나를 지시할 수 있다. 영상 분석 장치(150)는 객체의 행동 분류를 결정한 이후, 영상에서 사람 객체에 대한 특징점을 추출 및 분석하여 행동 분류에 대응되는 이벤트가 발생하였는지 여부를 판단하고, 판단 결과에 따라 영상을 정제하여 분석 영상을 생성할 수 있다. 이하에서, 영상 분석 장치(150)가 이벤트의 발생 여부를 판단하고 분석 영상을 생성하는 구체적인 구성 및 동작이 상세히 설명된다.
도 2는 본 개시의 다양한 실시 예들에 따른 영상 관리 시스템(100)에서, 영상 분석 장치(150)의 구성(200)을 도시한다. 이하 사용되는 '...부', '...기' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는, 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 영상 분석 장치(150)는 메모리(210), 프로세서(220), 통신부(230), 입출력 인터페이스(240), 및 디스플레이부(250)를 포함할 수 있다.
메모리(210)는 영상 분석 장치(150)의 동작을 위한 기본 프로그램, 응용 프로그램, 설정 정보 등의 데이터를 일시적 또는 영구적으로 저장한다. 메모리(210)는 RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있으나, 본 발명이 이에 한정되는 것은 아니다. 이러한 소프트웨어 구성요소들은 드라이브 메커니즘(drive mechanism)을 이용하여 메모리(210)와 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록 매체를 포함할 수 있다. 실시예에 따라서, 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록 매체가 아닌 통신부(230)를 통해 메모리(210)에 로딩될 수도 있다. 또한, 메모리(210)는 프로세서(220)의 요청에 따라 저장된 데이터를 제공할 수 있다. 본 개시의 일 실시 예에 따르면, 메모리(210)는 영상 촬영 장치(110)로부터 수집한 영상을 저장할 수 있다.
프로세서(220)는 영상 분석 장치(150)의 전반적인 동작들을 제어한다. 예를 들어, 프로세서(220)는 통신부(230)를 통해 신호가 송신 및 수신되도록 제어할 수 있다. 또한, 프로세서(220)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(210) 또는 통신부(230)에 의해 프로세서(220)로 제공될 수 있다. 예를 들어 프로세서(220)는 메모리(210)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다. 예를 들어, 프로세서(220)는 영상 분석 장치(150)가 후술하는 다양한 실시 예들에 따른 동작들을 수행하도록 제어할 수 있다.
본 개시의 일 실시 예에 따르면, 프로세서(220)는 복수의 프레임들로 구성된 영상에서 관심 영역을 추출하고, 관심 영역 내 사람 객체의 움직임과 미리 저장된 행동 규칙 모델들을 비교하여, 사람 객체의 행동 분류를 결정하고, 행동 분류에 따라 사람 객체에 관한 특징점들의 종류를 결정하고, 특징점들의 종류에 기초하여 영상으로부터 특징점들을 추출하고, 특징점들의 움직임으로부터 이벤트의 발생 여부를 식별하고, 이벤트가 발생한 것으로 식별된 경우, 이벤트의 발생을 지시하는 분석 영상을 생성하도록 제어할 수 있다.
또한, 프로세서(220)는 인공 신경망 모델 구조를 구현할 수 있다. 즉, 인공 신경망 모델은 프로세서(220)를 통해 하드웨어 또는 소프트웨어로 구현될 수 있다. 인공 신경망은 영상으로부터 이벤트 검출하는 과정에 관련된 빅데이터를 이용하여 학습될 수 있다. 이러한 학습은, 예를 들어, 인공지능 모델이 적용되는 영상 분석 장치(150) 자체에서 수행되거나, 별도의 학습용 서버를 통해 수행될 수도 있다. 학습 알고리즘은, 예를 들어, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)을 포함할 수 있으나, 전술한 예에 한정되지 않는다.
인공 신경망 모델은, 복수의 인공 신경망 레이어들을 포함할 수 있다. 인공 신경망은 DNN(deep neural network), CNN(convolutional neural network), RNN(recurrent neural network), RBM(restricted boltzmann machine), DBN(deep belief network), BRDNN(bidirectional recurrent deep neural network), 심층 Q-네트워크(deep Q-networks) 또는 중 둘 이상의 조합 중 하나일 수 있으나, 전술한 예에 한정되지 않는다. 인공지능 모델은 하드웨어 구조 이외에, 추가적으로 또는 대체적으로, 소프트웨어 구조를 포함할 수 있다.
본 명세서에 걸쳐, 신경망은 노드라 지칭될 수 있는 상호 연결된 계산 단위들의 집합으로 구성될 수 있다. 이러한 노드는 뉴런(neuron)들로 지칭될 수도 있다. 인공 신경망은 복수의 노드들을 포함하여 구성되며, 노드들은 하나 이상의 링크에 의해 상호 연결될 수 있다. 신경망 내에서, 링크를 통해 연결된 둘 이상의 노드들은 상대적으로 입력 노드 및 출력 노드의 관계를 형성할 수 있다. 입력 노드 및 출력 노드의 개념은 상대적인 것으로서, 하나의 노드에 대하여 출력 노드 관계에 있는 임의의 노드는 다른 노드와의 관계에서 입력 노드 관계에 있을 수 있으며, 그 역도 성립할 수 있다. 전술한 바와 같이, 입력 노드 대 출력 노드 관계는 링크를 중심으로 생성될 수 있다. 하나의 입력 노드에 하나 이상의 출력 노드가 링크를 통해 연결될 수 있다. 하나의 링크를 통해 연결된 입력 노드 및 출력 노드 관계에서, 출력 노드는 입력 노드에 입력된 데이터에 기초하여 그 값이 결정될 수 있다. 여기서, 입력 노드와 출력 노드를 상호 연결하는 노드는 가중치를 가질 수 있다. 가중치는 가변적일 수 있으며, 뉴럴 네트워크가 원하는 기능을 수행하기 위해, 사용자 또는 알고리즘에 의해 가변될 수 있다. 본 개시에 따른 인공 신경망은 영상으로부터 사람 객체에 대한 특징점을 추출하는 제1 인공 신경망, 특징 벡터를 이용하여 이벤트의 발생 여부를 예측하는 제2 인공 신경망을 포함할 수 있다. 제1 신경망은 영상을 입력 받고 영상 내 사람 객체를 추출하고, 사람 객체의 골격 모델에 관련된 특징점들을 추출하도록 학습될 수 있으며, 제2 신경망은 사람 객체의 움직임에 관련된 특징 벡터를 입력 받고 특징 벡터를 분류하여 이벤트가 발생하였는지 여부를 예측하도록 학습될 수 있다.
통신부(230)는 무선 채널을 통해 신호를 송수신하기 위한 기능들을 수행한다. 통신부(230)의 전부 또는 일부는 송신부, 수신부, 송수신부로 지칭될 수 있다. 통신부(230)는 통신망을 통해 영상 분석 장치(150)와 적어도 하나의 다른 노드가 서로 통신하기 위한 기능을 제공할 수 있다. 본 개시의 일 실시 예에 따르면, 영상 분석 장치(150)의 프로세서(220)가 메모리(210)와 같은 기록 장치에 저장된 프로그램 코드에 따라 요청 신호를 생성한 경우, 요청 신호는 통신부(230)의 제어에 따라 통신망을 통해 적어도 하나의 다른 노드로 전달될 수 있다. 역으로, 적어도 하나의 다른 노드의 프로세서의 제어에 따라 제공되는 제어 신호나 명령, 콘텐츠, 파일 등이 통신부(230)를 통해 영상 분석 장치(150)로 수신될 수 있다. 본 개시의 일 실시 예에 따르면, 통신부(230)는 복수의 프레임들로 구성된 영상을 수신할 수 있다. 또한, 통신부(230)는 정제 영상을 다른 장치로 송신할 수 있다.
입출력 인터페이스(240)는 입출력 장치(미도시)와의 인터페이스를 위한 수단일 수 있다. 이때 입력 장치는 예를 들어 키보드 또는 마우스 등의 장치를, 그리고 출력 장치는 이미지를 표시하기 위한 디스플레이부 등과 같은 장치의 형태로 구비될 수 있다. 다른 예로 입출력 인터페이스(240)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 구체적으로, 영상 분석 장치(150)의 프로세서(220)는 메모리(210)에 로딩된 컴퓨터 프로그램의 명령을 처리함에 있어서 서버가 제공하는 데이터를 이용하여 구성되는 서비스 화면이나 컨텐츠가 입출력 인터페이스(240)를 통해 디스플레이에 표시될 수 있다. 본 개시의 일 실시 예에 따르면, 입출력 인터페이스(240)는 디스플레이부(250)와의 인터페이스를 위한 수단을 포함할 수 있다. 입출력 인터페이스(240)는 디스플레이부(250)에 표시된 웹 브라우징 윈도우에 대한 사용자 입력을 수신할 수 있고, 전술한 사용자 입력에 응답하여 디스플레이부(250)를 통해 출력할 출력 데이터를 프로세서(220)로부터 전달받을 수 있다. 본 개시의 일 실시 예에 따르면, 입출력 인터페이스(240)는 이벤트의 발생 여부를 판단과정을 제어하기 위한 제어 신호를 입력 받을 수 있다.
디스플레이부(250)는 하나 이상의 디스플레이를 포함하는 디스플레이 모듈을 지시한다. 디스플레이부(250)에 포함된 하나 이상의 디스플레이 각각은 개별적으로 독립된 컨텐츠를 표시할 수 있고, 전술한 하나 이상의 디스플레이가 결합하여 단일 컨텐츠를 표시할 수도 있다. 본 개시의 일 실시 예에 따르면, 디스플레이부(250)에 포함된 하나 이상의 디스플레이는 물리적으로 분리된 다중 디스플레이를 포함할 수 있고, 물리적으로 결합된 다중 디스플레이일 수도 있으며, 하나의 화면을 분할하여 사용할 수 있는 디스플레이일 수도 있다. 본 개시의 일 실시 예에 따르면, 디스플레이부(250)는 이벤트 발생의 검출 과정을 디스플레이에 표시할 수 있다.
영상 분석 장치(150)는 영상으로부터 관심 영역(region of interest, ROI)을 추출할 수 있다. 이후, 영상 분석 장치(150)는 영상 상황을 관심 영역 내 사람 객체의 움직임과 행동 규칙을 비교하여 싸움, 배회, 침입, 쓰러짐, 유기, 방화, 일반 중 어느 하나의 행동 분류로 분류할 수 있으며, 행동 분류에 대응되는 특징점들의 종류에 맞게 사람 객체로부터 특징점들을 추출 및 분석하여 이벤트의 발생 여부를 판단할 수 있다. 이후, 영상 분석 장치(150)는 이벤트가 발생한 것으로 식별된 경우 영상을 크롭핑 또는 필터링하여 정제함으로써 분석 영상을 생성할 수 있다. 도 3에서, 영상 분석 장치(150)가 분석 영상을 생성하는 구체적인 과정이 상세히 설명된다.
도 3은 본 개시의 다양한 실시 예들에 따른 영상 관리 시스템(100)에서, 분석 영상(311)을 생성하는 방법에 관한 모식도(300)를 도시한다.
도 3을 참고하면, 영상 분석 장치(150)는 영상 촬영 장치(110)로부터 감시 영역에 대한 영상을 획득하고, 감시 영역 내 사람 객체에 대한 행동을 분류하고 이벤트가 발생하였는지 여부를 판단할 수 있다. 이후, 영상 분석 장치(150)는 판단 결과에 따라 이벤트 발생을 확인하기 위한 분석 영상(311)을 생성하고 이를 외부 장치로 송신할 수 있다.
영상 분석 장치(150)는 영상(301)을 획득한다. 영상 분석 장치(150)는 영상 촬영 장치(110)로부터 복수의 프레임들로 구성된 영상(301)을 획득할 수 있다. 여기서, 영상은 감시 영역을 촬영한 영상으로서, 적어도 하나의 사람 객체가 포함된 영상을 지시할 수 있다.
영상 분석 장치(150)는 영상에서 관심 영역(303)을 추출한다. 영상 분석 장치(150)는 가우시안 필터 또는 GMM(gaussian mixture model)을 적용하거나 픽셀의 밝기 값이나 색상 값의 변화를 이용하여, 영상에서 전경 영역과 배경 영역을 분리하고, 전경 영역에서 사람에 관한 영역을 관심 영역으로 추출할 수 있다. 본 개시의 일 실시 예에 따르면, 관심 영역(303)은 영상 내에서 사람 객체를 포함하는 사각형의 영역을 포함할 수 있다.
영상 분석 장치(150)는 관심 영역(303) 내 사람 객체의 움직임과 미리 저장된 행동 규칙 모델들을 비교하여 행동 분류(305)를 결정한다. 영상 분석 장치(150)는 관심 영역(303)에서 사람 객체의 윤곽선을 검출하고, 윤곽선의 움직임 모델을 행동 규칙 모델과 비교하여 행동 분류(305)를 결정할 수 있다. 여기서, 행동 분류는 싸움, 배회, 침입, 쓰러짐, 유기, 방화, 및 일반 중 어느 하나를 지시할 수 있다.
구체적으로, 영상 분석 장치(150)는 사람 객체에 대한 윤곽선의 움직임과 미리 저장된 행동 규칙 모델들 중 어느 하나에 속하는지 여부를 판단함으로써 행동 분류(305)를 결정할 수 있다.
영상 분석 장치(150)는 영상 내 관심 영역에서 에지(edge)에 따른 윤곽선을 검출할 수 있다. 본 개시의 일 실시 예에 따르면, 영상 분석 장치는 소벨 에지 디텍터(sobel edge detector)나 캐니 에지 디텍터(canny edge detector)를 이용하여 사람 객체에 대한 윤곽선을 검출할 수 있다.
또한, 영상 분석 장치(150)는 행동 분류들 각각에 대응되는 행동 규칙 모델들을 미리 저장할 수 있다. 본 개시의 일 실시 예에 따르면, 싸움에 대응되는 행동 규칙 모델은 복수의 사람 객체들의 일정 부분이 a초 이상 겹쳐지는 모델을 지시하고, 배회에 대응되는 행동 규칙 모델은 사람 객체가 영상 내 특정 영역 내 b초 이상 위치하는 모델을 지시하고, 침입에 대응되는 행동 규칙 모델은 사람 객체가 영상 내 금지 영역에 진입하는 모델을 지시하고, 쓰러짐에 대응되는 행동 규칙 모델은 사람 객체의 머리 부위가 영상 내 바닥에 닿는 상태로 c초 이상 유지하는 모델을 지시하고, 유기에 대응되는 행동 규칙 모델은 사람 객체에 연결된 물건 객체가 사람 객체로부터 멀어지는 모델을 지시하고, 방화에 대응되는 행동 규칙 모델은 사람 객체로부터 임계 거리 이내에서 픽셀의 명도가 임계 값 이상으로 밝은 상태를 d초이상 유지하는 모델을 지시할 수 있다. 또한, 영상 분석 장치(150)는 사람 객체의 움직임이 어느 모델에도 속하지 않는 경우 일반 모델로 분류할 수 있다. 본 개시는 행동 분류(305)의 예로서 싸움, 배회, 침입, 쓰러짐, 유기, 방화를 예시로 하였으나, 영상 분석 장치(150)는 치매 환자의 움직임 패턴이나 마약 운반과 같은 범죄자 행동 패턴을 학습하여 행동 분류에 포함시킴으로써, 행동 분류(305)의 종류를 확장할 수 있다.
영상 분석 장치(150)는 검출된 윤곽선의 움직임에서, 행동 규칙 모델들의 패턴과 비교하여 행동 분류(305)를 결정할 수 있다. 예를 들어, 영상 분석 장치(150)는 복수의 사람 객체들이 검출되는 영상에서 사람 객체 윤곽선들이 겹친 상황이 a초이상 유지된 경우, 행동 분류(305)를 싸움으로 결정할 수 있다. 동일한 방법으로, 영상에서 사람 객체의 윤곽선이 특정 영역내 b초 이상 위치하거나, 금지 영역에 위치하거나, 윤곽선 중 머리에 해당되는 부분이 바닥에 닿은 상태로 c초 이상 유지하거나, 사람 객체와 물건 객체가 멀어지거나, 픽셀 명도 값으로부터 방화를 검출한 경우, 이에 대응되는 행동 분류(305)를 결정할 수 있다.
영상 분석 장치(150)는 행동 분류(305)를 고려하여, 영상(301)으로부터 특징점(307)을 추출한다. 영상 분석 장치(150)는 행동 분류에 따라 사람 객체에 대한 특징점들의 종류를 결정하고, 미리 학습된 제1 인공 신경망을 이용하여 영상으로부터 특징점들을 추출할 수 있다.
구체적으로, 영상 분석 장치(150)는 CPM(convolutional pose machines)을 이용하여 사람 객체의 골격 지점에 대한 특징점들을 추출할 수 있다. CPM은 사람 객체의 포즈를 출력하는 네트워크를 학습시킨 모델로서, 사람의 관절 간의 관계를 이해하고 출력을 리파인하기 위해 Multi-State의 네트워크 형태로 구성하고 이를 평가한 모델을 지시한다. CPM은 CNN을 이용하여 골격 지점들의 히트 맵을 출력하는 네트워크 구조로 구성되며, 스테이지 1의 결과가 이미지 특징과 함께 스테이지 2의 입력으로 사용되고, 반복적으로 동일한 히트 맵 결과를 복수의 스테이지에 걸쳐서 처리함으로써 특징점의 위치 결과를 출력한다. CPM에서 추출하는 특징점들의 일 예는 도 4에서 예시된다.
영상 분석 장치(150)는 행동 분류(305)에 종류에 따라 특징점으로 추출할 대상을 확인하고, 이에 대응되는 특징점들을 추출할 수 있다. 예를 들어, 영상 분석 장치(150)는 행동 분류(305)가 싸움, 배회, 침입, 쓰러짐 중 어느 하나 인 경우, 도 4에 도시된 바와 같이 사람의 골격들에 대한 특징점들을 추출할 수 있다. 반면, 영상 분석 장치(150)는 행동 분류(305)가 유기인 경우, 사람 객체의 중심점과 사람 객체와 연결된 물건 객체의 중심점에 대한 특징점들을 추출할 수 있다. 또한, 영상 분석 장치(150)는 행동 분류(305)가 방화인 경우, 사람 객체의 중심점으로부터 미리 설정된 거리만큼 이격된 지점들에 대응되는 특징점들을 추출할 수 있다.
영상 분석 장치(150)는 특징점(307)을 이용하여 이벤트 정보(309)를 생성한다. 영상 분석 장치(150)는 특징점(307)의 움직임으로부터 이벤트의 발생 여부에 관한 이벤트 정보(309)를 생성할 수 있다.
본 개시의 일 실시 예에 따르면, 행동 분류(305)가 싸움인 경우에서, 영상 분석 장치(150)는 영상에서 제1 사람 객체의 골격 모델에 대한 제1 특징점들과 제2 사람 객체의 골격 모델에 대한 제2 특징점들을 이용하여, 제1 사람 객체와 제2 사람 객체가 서로 다가가는 특징에 대한 접근 특징 벡터를 이용하여 싸움 발생 여부를 예측하고, 타격에 대한 위험도를 산출하여 싸움 발생 여부를 판단할 수 있다.
구체적으로, 영상 분석 장치(150)는 제1 특징점들과 제2 특징점들을 이용하여 접근 특징 벡터를 추출한다. 본 개시의 일 실시 예에 따르면, 접근 특징 벡터는 제1 사람 객체와 제2 사람 객체 사이의 거리와 접근 속도, 제1 사람 객체의 이동 속도, 제2 사람 객체의 이동 속도, 접근 후 정지 시간을 요소로 하는 벡터를 지시할 수 있다. 영상은 픽셀 단위로 구분되기 때문에, 거리는 제1 사람 객체와 제2 사람 객체가 최초 정지한 상황에서 중심 특징점들 사이의 픽셀 거리로부터 연산되고, 접근 속도는 시간에 따른 픽셀 거리의 변화량으로부터 연산되고, 이동 속도는 사람 객체들 각각에서 시간에 따른 픽셀 거리의 이동량으로부터 연산되고, 정지 시간은 제1 사람 객체와 제2 사람 객체가 서로 접근하여 정지한 후 중심 특징점들 사이의 픽셀 거리로부터 연산될 수 있다.
이후, 영상 분석 장치(150)는 제2 인공 신경망을 이용하여 접근 특징 벡터로부터 싸움 발생 여부를 예측할 수 있다. 제2 인공 신경망은 비지도 학습을 통해 입력된 벡터를 그룹핑하여 분류하도록 학습된 신경망을 지시할 수 있다. 즉, 제2 인공 신경망은 접근 특징 벡터를 입력 받고, 싸움 발생이 발생한 것으로 의심되는지 여부를 판단할 수 있다.
이후, 영상 분석 장치(150)는 싸움이 발생할 것으로 예측되는 경우, 제2 사람 객체의 관심 영역 내 제1 사람 객체의 손과 발 특징점의 움직임으로부터 타격의 종류와 정도를 판단하기 위한 위험도를 산출하고, 위험도가 미리 설정된 임계 위험도 이상인 경우 싸움이 발생한 것으로 판단할 수 있다. 영상 분석 장치(150)는 제2 사람 객체에 대응되는 관심 영역 내에서, 제1 사람 객체의 손에 대응되는 손 특징점의 움직임에 관련된 제1 움직임 벡터, 제1 사람 객체의 발에 대응되는 발 특징점의 움직임에 관련된 제2 움직임 벡터를 산출할 수 있다. 여기서, 제1 움직임 벡터는 m x 5 크기의 벡터로서, m번의 타격 각각에서 제2 사람 객체의 중심점에 가장 가까운 제1 사람 객체의 손 특징점의 x좌표와 y좌표, 제2 사람 객체의 중심점의 x좌표와 y좌표, 및 제1 사람 객체의 손속도에 대한 벡터를 지시하고, 제2 움직임 벡터는 n x 5 크기의 벡터로서, n번의 타격 각각에서 제2 사람 객체의 중심점에 가장 가까운 제1 사람 객체의 발 특징점의 x좌표와 y좌표, 제2 사람 객체의 중심점의 x좌표와 y좌표, 및 제1 사람 객체의 발속도에 대한 벡터를 지시할 수 있다. 이후, 영상 분석 장치(150)는 제1 움직임 벡터와 제2 움직임 벡터에 기반하여 위험도를 산출할 수 있다. 위험도는 <수학식 1>에 기반하여 결정될 수 있다.
<수학식 1>을 참고하면, D는 위험도, α는 손에 대응되는 타격 상수, m은 손을 이용한 타격 수, xh1i와 yh1i 각각은 i 번째 타격에서 제1 사람 객체의 손 특징점의 x좌표와 y좌표, xh2i와 yh2i 각각은 i 번째 타격에서 제2 사람 객체의 중심점의 x좌표와 y좌표, vhi는 i 번째 타격에서 손 특징점의 이동 속도, β는 발에 대응되는 타격 상수, xf1j와 yf1j 각각은 j 번째 타격에서 제1 사람 객체의 발 특징점의 x좌표와 y좌표, xf2j와 yf2j 각각은 j 번째 타격에서 제2 사람 객체의 중심점의 x좌표와 y좌표, vfj는 j 번째 타격에서 발 특징점의 이동 속도를 지시할 수 있다.
영상 분석 장치(150)는 제1 움직임 벡터와 제2 움직임 벡터로부터 산출되는 위험도를 임계 위험도와 비교할 수 있다. 임계 위험도는 관리자의 설정에 따라 변경될 수 있다. 영상 분석 장치(150)는 위험도가 임계 위험도 이상인 경우 싸움이 발생한 것으로 판단할 수 있다.
본 개시의 일 실시 예에 따르면, 행동 분류(305)가 배회인 경우에서, 영상 분석 장치(150)는 사람 객체의 골격 모델에 대한 특징점들의 이동 경로를 이용하여 배회 이벤트가 발생하였는지 여부를 판단할 수 있다. 영상 분석 장치(150)는 추출되는 모든 특징점들이 b초이상 연속하여 검출되면 배회가 발생할 것으로 예측하고, 모든 특징점들이 특정 영역 내에 지속적으로 이동하는 경우 배회가 발생한 것으로 판단할 수 있다.
본 개시의 일 실시 예에 따르면, 행동 분류(305)가 침입인 경우에서, 영상 분석 장치(150)는 사람 객체의 골격 모델의 특징점들의 배치 정보에 따라 침입 이벤트가 발생하였는지 여부를 판단할 수 있다. 영상 분석 장치(150)는 추출되는 모든 특징점들이 영상 내 미리 설정된 금지 영역에서 검출되면 침입이 발생한 것으로 판단할 수 있다.
본 개시의 일 실시 예에 따르면, 행동 분류(305)가 쓰러짐인 경우에서, 영상 분석 장치(150)는 사람 객체의 골격 모델의 특징점들의 상호간 위치 변화를 확인하여 쓰러짐 이벤트가 발생하였는지 여부를 판단할 수 있다. 일반적인 상황에서 머리 특징점이 영상 내 상단에 배치되고, 발 특징점이 하단에 배치되지만, 쓰러짐이 발생한 경우 머리 특징점과 발 특징점에 역전이 발생한다. 따라서, 영상 분석 장치(150)는 머리 특징점과 발 특징점의 위치에 역전이 발생한 경우 쓰러짐이 발생할 것으로 예측하고, 역전이 발생한 이후 c초이상 유지된 경우 쓰러짐이 발생한 것으로 판단할 수 있다.
본 개시의 일 실시 예에 따르면, 행동 분류(305)가 유기 경우에서, 영상 분석 장치(150)는 사람 객체와 물건 객체의 특징점들의 이동에 기초하여 이벤트가 발생하였는지 여부를 판단할 수 있다. 영상 분석 장치(150)는 사람 객체의 중심 특징점과 물건 객체의 중심 특징점이 시간에 따라 멀어지는 경우 유기가 발생한 것으로 판단할 수 있다.
본 개시의 일 실시 예에 따르면, 행동 분류(305)가 방화인 경우에서, 영상 분석 장치(150)는 사람 객체의 중심점으로부터 미리 설정된 거리만큼 이격된 지점들에 대한 특징점들을 이용하여 방화 이벤트가 발생하였는지 여부를 판단할 수 있다. 영상 분석 장치(150)는 특정 방향에서 명도 값이 임계 값 이상 높은 특징점들이 분포한 영역이 있는 경우 방화가 발생할 것으로 예측하고, 해당 영역의 명도 값이 임계 값 이상인 상황이 d초 이상 유지되는 경우 방화가 발생한 것으로 판단할 수 있다.
영상 분석 장치(150)는 이벤트 정보(309)에 기초하여 영상(301)을 정제하여 분석 영상(311)을 생성할 수 있다. 영상 분석 장치(150)는 행동 분류에 따른 이벤트들 중 적어도 하나의 이벤트가 발생한 것으로 식별된 경우, 이벤트의 발생을 지시하는 분석 영상(311)을 생성할 수 있다.
구체적으로, 영상 분석 장치(150)는 행동 분류(305)를 참고하여 이벤트의 내용을 설명하는 이벤트 정보를 생성할 수 있다. 이벤트 정보는 이벤트의 종류, 발생 시각, 발생 위치를 포함할 수 있다. 또한, 영상 분석 장치(150)는 행동 분류(305)를 고려하여 영상 내 이벤트 영역을 결정한다. 예를 들어, 싸움 이벤트의 영역은 싸움 이벤트를 발생시킨 복수의 사람 객체들의 영역을 지시하고, 배회 이벤트의 영역은 배회 당사자의 이동 경로 영역을 지시하고, 침입 이벤트의 영역은 침입 순간에 대한 침입 지점 영역을 지시하고, 쓰러짐 이벤트는 사람 객체가 쓰러진 위치 영역을 지시하고, 유기 이벤트는 사람 객체와 물건 객체가 분리된 지점을 지시하고, 방화 이벤트는 방화를 발생시킨 사람 객체와 방화 지점에 대한 영역을 지시할 수 있다. 이후, 영상 분석 장치(150)는 이벤트가 검출되는 검출 영상 프레임들에서 이벤트 영역을 제외한 영역을 블러(blur) 처리하고, 이벤트 정보를 검출 영상 프레임들에 PIP(picture in picture)로 표시함으로써 분석 영상을 생성할 수 있다.
도 4는 본 개시의 다양한 실시 예들에 따른 영상 관리 시스템(100)에서, 사람 객체에 대한 특징점의 일 예(400)를 도시한다.
영상 분석 장치(150)는 제1 인공 신경망을 이용하여 사람 객체의 골격 모델에 관련된 특징점들을 추출할 수 있다. 본 개시의 일 실시 예에 따르면, 제1 인공 신경망은 CPM 모델을 이용하여 사람의 관절 관계를 고려하여 특징점을 추출하도록 학습된 신경망을 지시할 수 있다.
영상 분석 장치(150)는 사람 객체에 대하여 14개의 특징점들을 추출할 수 있다. 도 4를 참고하면, 사람 객체의 특징점들은 중심 특징점, 팔 특징점, 다리 특징점, 및 머리 특징점으로 구분될 수 있다. 여기서, 중심 특징점은 몸의 중심에 대한 특징점(401)을 포함하고, 팔 특징점은 어깨, 팔꿈치, 손의 위치에 관련된 특징점들(411 내지 416)을 포함하고, 다리 특징점은 엉덩이, 무릎, 발의 위치에 관련된 특징점들(421 내지 제426)을 포함하고, 머리 특징점은 머리의 중심에 대한 특징점(431)을 포함할 수 있다. 영상 분석 장치(150)는 사람 객체마다 신체 부위에 대한 특징점들을 추출하고, 특징점들을 이용하여 이벤트 발생 여부를 판단할 수 있다.
도 5는 본 개시의 다양한 실시 예들에 따른 영상 관리 시스템(100)에서, 이벤트가 발생한 영상의 일 예(500)를 도시한다.
도 5를 참고하면, 제1 사람 객체와 제2 사람 객체가 서로 다툼으로 인하여 싸움 이벤트가 발생한 영상이 예시된다. 영상 분석 장치(150)는 제1 사람 객체에 대응되는 관심 영역(510)과 제2 사람 객체에 대응되는 관심 영역(560)을 추출할 수 있으며, 관심 영역들 각각에서 사람 객체의 움직임과 행동 규칙 모델을 비교하여 행동 분류(305)를 결정할 수 있다. 도 5에 도시된 바와 같이, 행동 분류가 싸움으로 결정된 경우, 영상 분석 장치(150)는 제1 사람 객체에 대한 제1 특징점들, 제2 사람 객체에 대한 각각에 대한 제2 특징점들을 추출하고, 제1 특징점들과 제2 특징점들을 이용하여 특징 벡터를 추출함으로써 싸움이 발생할지 여부를 예측할 수 있다. 도 5는 특징 벡터를 산출하는 과정에서 제1 사람 객체의 중심 특징점과 제2 사람 객체의 중심 특징점 사이의 거리(521)를 예시한다. 이후, 영상 분석 장치(150)는 싸움이 발생할 것으로 예측되는 경우, 위험도를 판단하여 싸움 발생 여부를 판단할 수 있으며, 이에 따라 영상을 크롭핑 또는 필터링하여 정제함으로써 분석 영상을 생성할 수 있다.
도 6은 본 개시의 다양한 실시 예들에 따른 영상 관리 시스템(100)에서, 영상 분석 장치(150)의 동작 방법에 관한 흐름도(600)를 도시한다.
도 6을 참고하면 단계(601)에서, 영상 분석 장치(150)는 복수의 프레임들로 구성된 영상에서 관심 영역을 추출한다. 영상 분석 장치(150)는 영상 촬영 장치(110)로부터 사람 객체가 포함된 영상을 수신할 수 있다.
단계(603)에서, 영상 분석 장치(150)는 관심 영역 내 사람 객체의 움직임과 미리 저장된 행동 규칙 모델들을 비교하여, 사람 객체의 행동 분류를 결정한다. 영상 분석 장치(150)는 행동 규칙 모델들을 미리 저장할 수 있으며, 사람 객체의 윤곽선의 움직임을 이용하여 행동 분류(305)를 결정할 수 있다. 본 개시의 일 실시 예에 따르면, 행동 분류(305)는 싸움, 배회, 침입, 쓰러짐, 유기, 및 방화 중 어느 하나를 지시할 수 있다.
단계(605)에서, 영상 분석 장치(150)는 행동 분류에 따라 사람 객체에 관한 특징점들의 종류를 결정하고, 특징점들의 종류에 기초하여 영상으로부터 특징점들을 추출한다. 영상 분석 장치(150)는 행동 분류(305)가 싸움, 배회, 침입, 쓰러짐 중 어느 하나 인 경우, 사람의 골격들 모두에 대한 특징점들을 추출하고, 행동 분류(305)가 유기인 경우, 사람 객체의 중심점과 사람 객체와 연결된 물건 객체의 중심점에 대한 특징점들을 추출하고, 행동 분류(305)가 방화인 경우, 사람 객체의 중심점으로부터 미리 설정된 거리만큼 이격된 지점들에 대한 특징점들을 추출할 수 있다.
본 개시의 일 실시 예에 따르면, 행동 분류가 싸움인 경우에서, 영상 분석 장치(150)는 영상에서 제1 사람 객체의 골격 모델에 대한 제1 특징점들과 제2 사람 객체의 골격 모델에 대한 제2 특징점들을 추출할 수 있다.
단계(607)에서, 영상 분석 장치(150)는 특징점들의 움직임으로부터 이벤트의 발생 여부를 식별한다. 영상 분석 장치(150)는 특징점들의 움직임으로부터 이벤트의 발생 여부를 식별할 수 있다.
본 개시의 일 실시 예에 따르면, 행동 분류(305)가 싸움인 경우에서, 영상 분석 장치(150)는 제1 특징점들과 제2 특징점들을 이용하여, 제1 사람 객체와 제2 사람 객체 사이의 거리, 접근 속도, 제1 사람 객체와 제2 사람 객체 각각의 이동 속도, 및 제1 사람 객체와 제2 사람 객체의 상호 접근 후 정지 시간에 대한 접근 특징 벡터를 추출하고, 학습된 인공 신경망을 이용하여, 접근 특징 벡터로부터 싸움 발생 여부를 예측하고, 싸움이 발생할 것으로 예측되는 경우 제2 사람 객체에 대응되는 관심 영역 내에서 제1 사람 객체의 손과 발에 대한 특징점으로부터 싸움 발생 여부를 식별할 수 있다. 특히, 영상 분석 장치(150)는 싸움 발생 여부를 식별하기 위하여, 제2 사람 객체에 대응되는 관심 영역 내에서, 제1 사람 객체의 손에 대응되는 손 특징점의 움직임에 관련된 제1 움직임 벡터, 제1 사람 객체의 발에 대응되는 발 특징점의 움직임에 관련된 제2 움직임 벡터를 산출하고, 제1 움직임 벡터와 제2 움직임 벡터에 기반하여 위험도를 산출하고, 위험도가 미리 설정된 임계 값 이상인 경우, 싸움이 발생한 것으로 판단할 수 있다.
본 개시의 다른 일 실시 예에 따르면, 영상 분석 장치(150)는, 행동 분류(305)가 배회인 경우에서 사람 객체의 골격 모델에 대한 특징점들의 이동 경로를 이용하여 배회 이벤트가 발생하였는지 여부를 판단하고, 행동 분류(305)가 침입인 경우에서 사람 객체의 골격 모델의 특징점들의 배치 정보에 따라 침입 이벤트가 발생하였는지 여부를 판단하고, 행동 분류(305)가 쓰러짐인 경우에서 사람 객체의 골격 모델의 특징점들의 상호간 위치 변화를 확인하여 쓰러짐 이벤트가 발생하였는지 여부를 판단하고, 행동 분류(305)가 유기 경우에서 사람 객체와 물건 객체의 특징점들의 이동에 기초하여 이벤트가 발생하였는지 여부를 판단하고, 행동 분류(305)가 방화인 경우에서 사람 객체의 중심점으로부터 미리 설정된 거리만큼 이격된 지점들에 대한 특징점들을 이용하여 방화 이벤트가 발생하였는지 여부를 판단할 수 있다.
단계(609)에서, 영상 분석 장치(150)는 이벤트가 발생한 것으로 식별된 경우, 이벤트의 발생을 지시하는 분석 영상을 생성한다.
본 개시의 일 실시 예에 따르면, 영상 분석 장치(150)는 이벤트의 내용을 설명하는 이벤트 정보를 생성하고, 행동 분류를 고려하여 영상 내 이벤트 영역을 결정하고, 이벤트가 검출되는 검출 영상 프레임들에서 이벤트 영역을 제외한 영역을 블러 처리하고, 이벤트 정보를 검출 영상 프레임들에 PIP로 표시하여 분석 영상을 생성할 수 있다.
본 개시의 청구항 또는 명세서에 기재된 실시 예들에 따른 방법들은 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 조합의 형태로 구현될(implemented) 수 있다. 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능한 매체에 기록될 수 있으며, 하드웨어와 결합되어 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.
소프트웨어로 구현하는 경우, 하나 이상의 프로그램(소프트웨어 모듈)을 저장하는 컴퓨터 판독 가능 저장 매체가 제공될 수 있다. 컴퓨터 판독 가능 저장 매체에 저장되는 하나 이상의 프로그램은, 전자 장치(device) 내의 하나 이상의 프로세서에 의해 실행 가능하도록 구성된다(configured for execution). 하나 이상의 프로그램은, 전자 장치로 하여금 본 개시의 청구항 또는 명세서에 기재된 실시 예들에 따른 방법들을 실행하게 하는 명령어(instructions)를 포함한다.
이러한 프로그램(소프트웨어 모듈, 소프트웨어)은 랜덤 액세스 메모리 (random access memory), 플래시(flash) 메모리를 포함하는 불휘발성(non-volatile) 메모리, 롬(read only memory, ROM), 전기적 삭제가능 프로그램가능 롬(electrically erasable programmable read only memory, EEPROM), 자기 디스크 저장 장치(magnetic disc storage device), 컴팩트 디스크 롬(compact disc-ROM, CD-ROM), 디지털 다목적 디스크(digital versatile discs, DVDs) 또는 다른 형태의 광학 저장 장치, 마그네틱 카세트(magnetic cassette)에 저장될 수 있다. 또는, 이들의 일부 또는 전부의 조합으로 구성된 메모리에 저장될 수 있다. 또한, 각각의 구성 메모리는 다수 개 포함될 수도 있다.
또한, 프로그램은 인터넷(Internet), 인트라넷(Intranet), LAN(local area network), WAN(wide area network), 또는 SAN(storage area network)과 같은 통신 네트워크, 또는 이들의 조합으로 구성된 통신 네트워크를 통하여 접근(access)할 수 있는 부착 가능한(attachable) 저장 장치(storage device)에 저장될 수 있다. 이러한 저장 장치는 외부 포트를 통하여 본 개시의 실시 예를 수행하는 장치에 접속할 수 있다. 또한, 통신 네트워크상의 별도의 저장장치가 본 개시의 실시 예를 수행하는 장치에 접속할 수도 있다.
상술한 본 개시의 구체적인 실시 예들에서, 개시에 포함되는 구성 요소는 제시된 구체적인 실시 예에 따라 단수 또는 복수로 표현되었다. 그러나, 단수 또는 복수의 표현은 설명의 편의를 위해 제시한 상황에 적합하게 선택된 것으로서, 본 개시가 단수 또는 복수의 구성 요소에 제한되는 것은 아니며, 복수로 표현된 구성 요소라 하더라도 단수로 구성되거나, 단수로 표현된 구성 요소라 하더라도 복수로 구성될 수 있다.
한편 본 개시의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 개시의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 개시의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
110 영상 촬영 장치 130 외부 서버
150 영상 분석 장치 170 네트워크
210 메모리 220 프로세서
230 통신부 240 입출력 인터페이스
250 디스플레이부 301 영상
303 관심 영역 305 행동 분류
307 특징점 309 이벤트 정보
311 분석 영상
510 제1 사람 객체에 대한 관심 영역
560 제2 사람 객체에 대한 관심 영역
521 거리

Claims (4)

  1. 영상 분석 장치의 동작 방법에 있어서,
    복수의 프레임들로 구성된 영상에서 관심 영역을 추출하는 단계;
    상기 관심 영역 내 사람 객체의 움직임과 미리 저장된 행동 규칙 모델들을 비교하여, 상기 사람 객체의 행동 분류를 결정하는 단계;
    상기 행동 분류에 따라 상기 사람 객체에 관한 특징점들의 종류를 결정하고, 상기 특징점들의 종류에 기초하여 상기 영상으로부터 상기 특징점들을 추출하는 단계;
    상기 특징점들의 움직임으로부터 이벤트의 발생 여부를 식별하는 단계; 및
    상기 이벤트가 발생한 것으로 식별된 경우, 상기 이벤트의 발생을 지시하는 분석 영상을 생성하는 단계를 포함하고,
    상기 행동 분류는 싸움, 배회, 침입, 쓰러짐, 유기, 및 방화 중 어느 하나를 지시하고,
    상기 행동 분류가 싸움인 경우에서,
    상기 특징점들을 추출하는 단계는 상기 영상에서 제1 사람 객체의 골격 모델에 대한 제1 특징점들과 제2 사람 객체의 골격 모델에 대한 제2 특징점들을 추출하는 단계를 포함하고,
    상기 이벤트의 발생 여부를 식별하는 단계는,
    상기 제1 특징점들과 상기 제2 특징점들을 이용하여, 상기 제1 사람 객체와 상기 제2 사람 객체 사이의 거리, 접근 속도, 상기 제1 사람 객체와 상기 제2 사람 객체 각각의 이동 속도, 및 상기 제1 사람 객체와 상기 제2 사람 객체의 상호 접근 후 정지 시간에 대한 접근 특징 벡터를 추출하는 단계;
    학습된 인공 신경망을 이용하여, 상기 접근 특징 벡터로부터 싸움 발생 여부를 예측하는 단계; 및
    상기 싸움이 발생할 것으로 예측되는 경우 상기 제2 사람 객체에 대응되는 관심 영역 내에서 상기 제1 사람 객체의 손과 발에 대한 특징점으로부터 싸움 발생 여부를 식별하는 단계를 포함하고,
    상기 싸움 발생 여부를 식별하는 단계는,
    상기 제2 사람 객체에 대응되는 관심 영역 내에서, 상기 제1 사람 객체의 손에 대응되는 손 특징점의 움직임에 관련된 제1 움직임 벡터, 상기 제1 사람 객체의 발에 대응되는 발 특징점의 움직임에 관련된 제2 움직임 벡터를 산출하는 단계;
    상기 제1 움직임 벡터와 상기 제2 움직임 벡터에 기반하여 위험도를 산출하는 단계; 및
    상기 위험도가 미리 설정된 임계 값 이상인 경우, 싸움이 발생한 것으로 판단하는 단계를 포함하고,
    상기 위험도는 수학식 1에 기반하여 결정되고,
    (수학식 1)

    상기 D는 위험도, 상기 α는 손에 대응되는 타격 상수, 상기 m은 손을 이용한 타격 수, 상기 xh1i와 상기 yh1i 각각은 i 번째 타격에서 상기 제1 사람 객체의 손 특징점의 x좌표와 y좌표, 상기 xh2i와 상기 yh2i 각각은 i 번째 타격에서 상기 제2 사람 객체의 중심점의 x좌표와 y좌표, 상기 c는 상수, 상기 vhi는 i 번째 타격에서 손 특징점의 이동 속도, 상기 β는 발에 대응되는 타격 상수, 상기 xf1j와 상기 yf1j 각각은 j 번째 타격에서 상기 제1 사람 객체의 발 특징점의 x좌표와 y좌표, 상기 xf2j와 상기 yf2j 각각은 j 번째 타격에서 상기 제2 사람 객체의 중심점의 x좌표와 y좌표, 상기 vfj는 j 번째 타격에서 발 특징점의 이동 속도를 지시하는 방법.
  2. 삭제
  3. 삭제
  4. 청구항 1에 있어서,
    상기 분석 영상을 생성하는 단계는,
    상기 이벤트의 내용을 설명하는 이벤트 정보를 생성하는 단계;
    상기 행동 분류를 고려하여 상기 영상 내 이벤트 영역을 결정하는 단계; 및
    상기 이벤트가 검출되는 검출 영상 프레임들에서 상기 이벤트 영역을 제외한 영역을 블러(blur) 처리하고, 상기 이벤트 정보를 상기 검출 영상 프레임들에 PIP(picture in picture)로 표시하여 분석 영상을 생성하는 단계를 포함하는 방법.

KR1020230099067A 2023-07-28 2023-07-28 지능형 cctv 시스템을 이용하여 이벤트의 발생을 감지하기 위한 장치 및 방법 KR102631950B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230099067A KR102631950B1 (ko) 2023-07-28 2023-07-28 지능형 cctv 시스템을 이용하여 이벤트의 발생을 감지하기 위한 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230099067A KR102631950B1 (ko) 2023-07-28 2023-07-28 지능형 cctv 시스템을 이용하여 이벤트의 발생을 감지하기 위한 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102631950B1 true KR102631950B1 (ko) 2024-01-31

Family

ID=89717311

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230099067A KR102631950B1 (ko) 2023-07-28 2023-07-28 지능형 cctv 시스템을 이용하여 이벤트의 발생을 감지하기 위한 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102631950B1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102008290B1 (ko) 2017-11-14 2019-08-07 고려대학교 산학협력단 영상에서 객체의 행동을 인식하는 방법 및 그 장치
KR20200077370A (ko) * 2019-04-22 2020-06-30 주식회사 로민 영상 마스킹 장치 및 영상 마스킹 방법
KR102286229B1 (ko) * 2020-02-19 2021-08-06 한국기술교육대학교 산학협력단 특징벡터 기반 싸움 이벤트 인식 방법
KR20220084755A (ko) * 2020-12-14 2022-06-21 주식회사 에스원 경량화된 딥러닝 기반 싸움상황 감지 방법 및 이를 이용한 감지 시스템
KR20230039468A (ko) * 2021-09-13 2023-03-21 주식회사 포딕스시스템 영상의 객체 간 상호작용행위 검출 장치 및 방법
KR20230042926A (ko) * 2021-09-23 2023-03-30 주식회사 소이넷 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102008290B1 (ko) 2017-11-14 2019-08-07 고려대학교 산학협력단 영상에서 객체의 행동을 인식하는 방법 및 그 장치
KR20200077370A (ko) * 2019-04-22 2020-06-30 주식회사 로민 영상 마스킹 장치 및 영상 마스킹 방법
KR102286229B1 (ko) * 2020-02-19 2021-08-06 한국기술교육대학교 산학협력단 특징벡터 기반 싸움 이벤트 인식 방법
KR20220084755A (ko) * 2020-12-14 2022-06-21 주식회사 에스원 경량화된 딥러닝 기반 싸움상황 감지 방법 및 이를 이용한 감지 시스템
KR20230039468A (ko) * 2021-09-13 2023-03-21 주식회사 포딕스시스템 영상의 객체 간 상호작용행위 검출 장치 및 방법
KR20230042926A (ko) * 2021-09-23 2023-03-30 주식회사 소이넷 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템

Similar Documents

Publication Publication Date Title
Wang et al. Detection of abnormal visual events via global optical flow orientation histogram
Lee et al. Hierarchical abnormal event detection by real time and semi-real time multi-tasking video surveillance system
JP2018101317A (ja) 異常監視システム
KR102172239B1 (ko) 영상 기반 비정상 상황 모니터링 방법 및 시스템
US9965687B2 (en) System and method for detecting potential mugging event via trajectory-based analysis
KR20210053534A (ko) 딥러닝기반 행동인식장치 및 그 장치의 구동방법
Janakiramaiah et al. RETRACTED ARTICLE: Automatic alert generation in a surveillance systems for smart city environment using deep learning algorithm
CN111566661B (zh) 用于视觉活动分类的系统、方法、计算机可读介质
Roy et al. Suspicious and violent activity detection of humans using HOG features and SVM classifier in surveillance videos
Sabri et al. Low-cost intelligent surveillance system based on fast CNN
Veni et al. Road accident detection and severity determination from CCTV surveillance
Turchini et al. Convex polytope ensembles for spatio-temporal anomaly detection
KR102317459B1 (ko) Cctv 영상 분석을 통한 객체의 이벤트 발생 감지 방법, 장치 및 컴퓨터프로그램
Yadav et al. A Survey on video anomaly detection
Elarbi-Boudihir et al. Intelligent video surveillance system architecture for abnormal activity detection
US20210235012A1 (en) Electronic device and method for controlling electronic device
KR102631950B1 (ko) 지능형 cctv 시스템을 이용하여 이벤트의 발생을 감지하기 위한 장치 및 방법
KR102647139B1 (ko) 딥러닝 기반 영상분석을 통한 이상행동 탐지 장치 및 방법
Amrutha et al. A robust system for video classification: identification and tracking of suspicious individuals from surveillance videos
KR20220072499A (ko) 다중 뷰 영상 기반 행위 인지 방법, 장치 및 시스템
KR102286229B1 (ko) 특징벡터 기반 싸움 이벤트 인식 방법
Karthi et al. Forest fire detection: a comparative analysis of deep learning algorithms
Joshi et al. Unsupervised synthesis of anomalies in videos: Transforming the normal
Darawsheh et al. High-performance Detection and Predication Safety System using HUAWEI Atlas 200 DK AI Developer Kit
Nair et al. i-Surveillance crime monitoring and prevention using neural networks

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant