KR102663992B1 - 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법 및 테스트하는 방법, 그리고, 이를 이용한 학습 장치 및 테스트 장치 - Google Patents

비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법 및 테스트하는 방법, 그리고, 이를 이용한 학습 장치 및 테스트 장치 Download PDF

Info

Publication number
KR102663992B1
KR102663992B1 KR1020240009546A KR20240009546A KR102663992B1 KR 102663992 B1 KR102663992 B1 KR 102663992B1 KR 1020240009546 A KR1020240009546 A KR 1020240009546A KR 20240009546 A KR20240009546 A KR 20240009546A KR 102663992 B1 KR102663992 B1 KR 102663992B1
Authority
KR
South Korea
Prior art keywords
learning
bounding box
action
testing
image frame
Prior art date
Application number
KR1020240009546A
Other languages
English (en)
Inventor
김명준
Original Assignee
주식회사 딥핑소스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 딥핑소스 filed Critical 주식회사 딥핑소스
Priority to KR1020240009546A priority Critical patent/KR102663992B1/ko
Application granted granted Critical
Publication of KR102663992B1 publication Critical patent/KR102663992B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법에 있어서, (a) 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 - 상기 t는 2 이상의 정수임 - 이 획득되면, 학습 장치가, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 단계; (b) 상기 학습 장치가, (i) 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 학습용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제t 디스크릿 액션을 검출하는 프로세스, 및 (ii) 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임에서 상기 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 상기 학습용 제t 이미지 프레임에서 상기 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지를 각각 러닝 연산하여 상기 학습용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 상기 학습용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 상기 학습용 제1 액션 추정값 내지 상기 학습용 제t 액션 추정값을 참조하여 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 단계; 및 (c) 상기 학습 장치가, 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 상기 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 상기 제1 로스와 상기 제2 로스를 이용하여 상기 디스크릿 액션 검출 네트워크와 상기 컨티뉴어스 액션 검출 네트워크를 학습시키는 단계; 를 포함하는 방법에 관한 것이다.

Description

비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법 및 테스트하는 방법, 그리고, 이를 이용한 학습 장치 및 테스트 장치{METHOD FOR LEARNING AND TESTING A BEHAVIOR DETECTION MODEL BASED ON DEEP LEARNING CAPABLE OF DETECTING BEHAVIOR OF PERSON THROUGH VIDEO ANALYSIS, AND LEARNING DEVICE AND TESTING DEVICE USING THE SAME}
본 발명은 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 해동 검출 모델을 학습하는 방법 및 테스트하는 방법, 그리고, 이를 이용한 학습 장치 및 테스트 장치에 관한 것이다.
딥러닝 기술은 컴퓨터 비젼 및 음성 인식을 포함한 다양한 응용 분야에서 상당한 개선을 보여왔다.
특히, 컴퓨터 비젼에서는, CNN(Convolutional Neural Networks)으로 알려진 특정 유형의 딥러닝 모델이 오브젝트 인식 분야에서 매우 좋은 결과를 보여 주고 있으며, CNN은 실제 응용 프로그램에서 유용한 오브젝트 인식 및 감지에 대한 신뢰할 수 있는 결과를 보여주고 있다.
최근에는, 영상 관제 시스템이나, 스포츠 분석, 운전 보조 시스템, 스마트홈, 실버케어 시스템 등 다양한 분야에서 카메라에서 촬영되는 비디오를 분석하여 인간 행동을 인식하는 데 딥러닝 모델이 이용되고 있다.
비디오를 이용한 인간 행동 인식을 위한 딥러닝 모델에서는, 비디오의 이미지 프레임들에서 공간적인 특징과 시변적인 특징을 추출한 다음, 공간적인 특징과 시변적인 특징을 함축하고 함축된 정보를 통해 행동 범주를 예측한다.
이러한 딥러닝 모델을 위용한 행동 인식 기술은, CVPR 2015에 발표된 논문 'Long-term Recurrent Convolutional Networks for visual Recognition and Description'에서와 같이 CNN과 LSTM을 결합한 방법, ICCV2015 학회에서 발표된 논문 'Learning Spatiotemporal Features with 3D Convolutional Networks'에서와 같이 이미지 처리를 위한 2D CNN에서 차원을 하나 늘린 구조로, 늘어난 차원을 이용하여 시변 데이터를 처리하는 방법, NeurIPS2014 학회에서 발표된 논문 'Two-Stream Convolutional Networks for Action Recognition in Videos'에서와 같이 RGB 이미지는 Spatial stream CNN 블록을 통해 처리하며 옵티컬 플로우는 3개의 그레이 이미지를 모아 3채널 이미지로 변환한 뒤 Temporal stream CNN 블록으로 처리하고, 처리한 결과를 모아 예측 결과를 출력하는 방법, CVPR2016 학회에서 발표된 논문 'Convolutional Two-Stream Network Fusion for Video Action Recognition'에서와 같이 3D CNN과 3D 풀링(pooling)을 통해 시공간 정보의 결합 분포로 데이터를 처리하여 예측하는 방법 등이 있다.
하지만, 이와 같은 종래의 행동 인식 기술은 입력으로 비디오 데이터를 이용할 뿐만 아니라 3D 네트워크를 적용하여야 하므로, 실시간으로 행동 인식을 수행하는 실시간 어플리케이션에 적용하기 어려운 문제점이 있다.
또한, 인간 행동과 관련한 비디오 데이터인 학습 데이터를 확보하기가 어려우며, 그에 따라, 행동 인식을 위한 딥러닝 모델을 학습하는 데 어려움이 있다.
따라서, 본 출원인은 실시간 어플리케이션에 적용 가능하며 용이하게 학습 가능한 사람의 행동을 검출하는 딥러닝 모델을 제안하고자 한다.
본 발명은, 전술한 종래 기술의 문제점을 모두 해결하는 것을 그 목적으로 한다.
또한, 본 발명은 실시간 어플리케이션에 적용 가능한 행동 검출 모델을 제공하는 것을 다른 목적으로 한다.
또한, 본 발명은 충분한 학습 데이터를 이용하여 학습 가능한 행동 검출 모델을 제공하는 것을 또 다른 목적으로 한다.
또한, 발명은 이미지 처리 기술을 이용하여 비디오에서의 사람의 행동을 검출하는 행동 검출 모델을 제공하는 것을 또 다른 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
본 발명의 일 실시예에 따르면, 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법에 있어서, (a) 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 - 상기 t는 2 이상의 정수임 - 이 획득되면, 학습 장치가, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 단계; (b) 상기 학습 장치가, (i) 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 학습용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제t 디스크릿 액션을 검출하는 프로세스, 및 (ii) 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임에서 상기 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 상기 학습용 제t 이미지 프레임에서 상기 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지를 각각 러닝 연산하여 상기 학습용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 상기 학습용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 상기 학습용 제1 액션 추정값 내지 상기 학습용 제t 액션 추정값을 참조하여 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 단계; 및 (c) 상기 학습 장치가, 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 상기 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 상기 제1 로스와 상기 제2 로스를 이용하여 상기 디스크릿 액션 검출 네트워크와 상기 컨티뉴어스 액션 검출 네트워크를 학습시키는 단계; 를 포함하는 방법이 제공된다.
상기 일 실시예에서, 상기 (b) 단계에서, 상기 학습 장치는, 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 중 어느 하나인 학습용 특정 바운딩 박스 및 학습용 특정 스켈러튼 키포인트들을 참조하되, 상기 학습용 특정 바운딩 박스의 아스펙트비, 상기 학습용 특정 스켈러튼 키포인트들에서 스켈러튼 키포인트들 사이의 수직 거리들 중 적어도 어느 하나를 이용한 휴리스틱 분석에 의해 특정 디스크릿 액션을 검출하도록 할 수 있다.
상기 일 실시예에서, 상기 (b) 단계에서, 상기 학습 장치는, 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 중에서 동일한 학습용 디스크릿 액션이 검출되는 횟수가 기설정된 임계 횟수 이상일 경우, 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스 각각의 위치를 참조하여, 위치 변화가 기설정된 임계 위치변화 미만인 경우 상기 동일한 학습용 디스크릿 액션에 대응되는 상기 사람의 학습용 제1 서브 디스크릿 액션을 검출하며, 상기 위치 변화가 상기 기설정된 임계 위치변화 이상인 경우 상기 동일한 학습용 디스크릿 액션에 대응되거나 상기 학습용 제1 서브 디스크릿 액션에 대응되는 학습용 제2 서브 디스크릿 액션을 검출하도록 할 수 있다.
상기 일 실시예에서, 상기 (b) 단계에서, 상기 학습 장치는, 상기 (ii) 프로세스에서, 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지 각각에 대응되는 제1 클래시파이어 내지 제t 클래시파이어 각각을 통해, 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지 각각을 각각 러닝 연산하도록 할 수 있다.
상기 일 실시예에서, 상기 (c) 단계에서, 상기 학습 장치는, 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스와 이에 대응되는 각각의 바운딩 박스 그라운드 트루스들을 참조하여 생성한 제3_1 로스, 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 스켈러튼 키포인트들과 이에 대응되는 각각의 스켈러튼 키포인트 그라운드 트루스들을 참조하여 생성한 제3_2 로스를 이용하여 상기 키포인트 및 바운딩 박스 추출 네트워크를 더 학습시킬 수 있다.
상기 일 실시예에서, 상기 (a) 단계에서, 상기 학습 장치는, 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 중 어느 하나의 학습용 특정 이미지 프레임에 대하여, 피처 추출 블록을 통해 상기 학습용 특정 이미지 프레임에 컨볼루션 연산들을 수행하여 서로 다른 스케일을 가지는 학습용 피처맵들을 생성하도록 하고, 피처 퓨전 블록을 통해 상기 학습용 피처맵들 중에서의 적어도 일부인 학습용 제1 피처맵 내지 학습용 제k 피처맵 - 상기 k는 2 이상의 정수임 - 을 탑-다운 패스를 이용한 탑-다운 피처 퓨전과 바텀-업 패스를 이용한 바텀-업 피처 퓨전을 수행하여 학습용 제1 퓨전 피처맵 내지 학습용 제k 퓨전 피처맵을 생성하도록 하며, 디텍션 블록을 통해 상기 학습용 제1 퓨전 피처맵 내지 상기 학습용 제k 퓨전 피처맵 각각에서 상기 사람에 대응되는 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제k 바운딩 박스 및 학습용 제k 스켈러튼 키폰인트들을 검출하도록 하고, 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제k 바운딩 박스 및 상기 학습용 제k 스켈러튼 키포인트들을 이용하여 상기 학습용 특정 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 특정 바운딩 박스 및 학습용 특정 스켈러튼 키포인트들을 생성하도록 할 수 있다.
상기 일 실시예에서, 상기 (a) 단계에서, 상기 학습 장치는, 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 중 어느 하나의 학습용 특정 이미지 프레임에 대하여, 피처 추출 블록을 통해 상기 학습용 특정 이미지 프레임을 적어도 한번 컨볼루션 연산하여 학습용 피처맵을 생성하도록 하고, 오브젝트 디텍터를 통해 상기 피처맵을 러닝 연산하여 상기 학습용 특정 이미지 프레임에서 상기 사람을 검출한 학습용 특정 바운딩 박스를 생성하도록 하며, 포즈 에스티메이터를 통해 상기 피처맵을 러닝 연산하여 상기 학습용 특정 이미지 프레임에서 상기 사람에 대응되는 학습용 특정 스켈러튼 키포인트들을 생성하도록 할 수 있다.
본 발명의 다른 실시예에 따르면, 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 방법에 있어서, (a) 학습 장치에 의해, (i) 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 - 상기 t는 2 이상의 정수임 - 이 획득되면, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스, (ii) (ii-1) 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 학습용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 상기 학습용 제t 디스크릿 액션을 검출하는 프로세스 및 (ii-2) 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임에서 상기 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 상기 학습용 제t 이미지 프레임에서 상기 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지를 각각 러닝 연산하여 상기 학습용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 상기 학습용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 상기 학습용 제1 액션 추정값 내지 상기 학습용 제t 액션 추정값을 참조하여 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스, 및 (iii) 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 상기 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 상기 제1 로스와 상기 제2 로스를 이용하여 상기 디스크릿 액션 검출 네트워크와 상기 컨티뉴어스 액션 검출 네트워크를 학습시키는 프로세스가 수행된 상태에서, 카메라에서 촬영된 비디오에 대응되는 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임이 획득되면, 테스트 장치가, 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임 각각을 상기 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 테스트용 제1 바운딩 박스 내지 적어도 하나의 테스트용 제t 바운딩 박스, 및 적어도 하나의 테스트용 제1 스켈러튼 키포인트들 내지 적어도 하나의 테스트용 제t 스켈러튼 키포인트들을 생성하도록 하는 단계; 및 (b) 상기 테스트 장치가, (i) 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들을 상기 디스크릿 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 테스트용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 제1 디스크릿 액션 내지 상기 테스트용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 제t 디스크릿 액션을 검출하는 프로세스, 및 (ii) 상기 테스트용 제1 바운딩 박스 내지 상기 테스트용 제t 바운딩 박스를 상기 컨티뉴어스 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 테스트용 제1 이미지 프레임에서 상기 테스트용 제1 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제1 크롭 이미지 내지 상기 테스트용 제t 이미지 프레임에서 상기 테스트용 제t 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 상기 클래시파이어를 통해 상기 테스트용 제1 크롭 이미지 내지 상기 테스트용 제t 크롭 이미지를 각각 러닝 연산하여 상기 테스트용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 테스트용 제1 액션 추정값 내지 상기 테스트용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 테스트용 제t 액션 추정값을 생성하도록 하고, 상기 테스트용 제1 액션 추정값 내지 상기 테스트용 제t 액션 추정값을 참조하여 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 단계; 를 포함하는 방법이 제공된다.
상기 다른 실시예에서, 상기 (b) 단계에서, 상기 테스트 장치는, 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들 중 어느 하나인 테스트용 특정 바운딩 박스 및 테스트용 특정 스켈러튼 키포인트들을 참조하되, 상기 테스트용 특정 바운딩 박스의 아스펙트비, 상기 테스트용 특정 스켈러튼 키포인트들에서 스켈러튼 키포인트들 사이의 수직 거리들 중 적어도 어느 하나를 이용한 휴리스틱 분석에 의해 특정 디스크릿 액션을 검출하도록 할 수 있다.
상기 다른 실시예에서, 상기 (b) 단계에서, 상기 테스트 장치는, 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 테스트용 제1 디스크릿 액션 내지 상기 테스트용 제t 디스크릿 액션 중에서 동일한 테스트용 테스트용 디스크릿 액션이 검출되는 횟수가 기설정된 임계 횟수 이상일 경우, 상기 테스트용 제1 바운딩 박스 내지 상기 테스트용 제t 바운딩 박스 각각의 위치를 참조하여, 위치 변화가 기설정된 임계 위치변화 미만인 경우 상기 동일한 테스트용 디스크릿 액션에 대응되는 상기 사람의 테스트용 제1 서브 디스크릿 액션을 검출하며, 상기 위치 변화가 상기 기설정된 임계 위치변화 이상인 경우 상기 동일한 테스트용 디스크릿 액션에 대응되거나 상기 테스트용 제1 서브 디스크릿 액션에 대응되는 테스트용 제2 서브 디스크릿 액션을 검출하도록 할 수 있다.
본 발명의 또 다른 실시예에 따르면, 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 학습 장치에 있어서, 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하기 위한 인스트럭션들이 저장된 메모리; 및 상기 메모리에 저장된 상기 인스트럭션들에 따라 비디오 분석을 통해 상기 사람의 행동을 검출하는 딥러닝 기반의 상기 행동 검출 모델을 학습하는 동작을 수행하는 프로세서; 를 포함하며, 상기 프로세서는, (I) 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 - 상기 t는 2 이상의 정수임 - 이 획득되면, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스, (II) (i) 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 학습용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제t 디스크릿 액션을 검출하는 프로세스, 및 (ii) 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임에서 상기 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 상기 학습용 제t 이미지 프레임에서 상기 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지를 각각 러닝 연산하여 상기 학습용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 상기 학습용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 상기 학습용 제1 액션 추정값 내지 상기 학습용 제t 액션 추정값을 참조하여 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스, 및 (III) 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 상기 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 상기 제1 로스와 상기 제2 로스를 이용하여 상기 디스크릿 액션 검출 네트워크와 상기 컨티뉴어스 액션 검출 네트워크를 학습시키는 프로세스를 수행하는 학습 장치가 제공된다.
상기 또 다른 실시예에서, 상기 프로세서는, 상기 (II) 프로세스의 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 중 어느 하나인 학습용 특정 바운딩 박스 및 학습용 특정 스켈러튼 키포인트들을 참조하되, 상기 학습용 특정 바운딩 박스의 아스펙트비, 상기 학습용 특정 스켈러튼 키포인트들에서 스켈러튼 키포인트들 사이의 수직 거리들 중 적어도 어느 하나를 이용한 휴리스틱 분석에 의해 특정 디스크릿 액션을 검출하도록 할 수 있다.
상기 또 다른 실시예에서, 상기 프로세서는, 상기 (II) 프로세스의 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 중에서 동일한 학습용 디스크릿 액션이 검출되는 횟수가 기설정된 임계 횟수 이상일 경우, 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스 각각의 위치를 참조하여, 위치 변화가 기설정된 임계 위치변화 미만인 경우 상기 동일한 학습용 디스크릿 액션에 대응되는 상기 사람의 학습용 제1 서브 디스크릿 액션을 검출하며, 상기 위치 변화가 상기 기설정된 임계 위치변화 이상인 경우 상기 동일한 학습용 디스크릿 액션에 대응되거나 상기 학습용 제1 서브 디스크릿 액션에 대응되는 학습용 제2 서브 디스크릿 액션을 검출하도록 할 수 있다.
상기 또 다른 실시예에서, 상기 프로세서는, 상기 (II) 프로세스의 상기 (ii) 프로세스에서, 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지 각각에 대응되는 제1 클래시파이어 내지 제t 클래시파이어 각각을 통해, 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지 각각을 각각 러닝 연산하도록 할 수 있다.
상기 또 다른 실시예에서, 상기 프로세서는, 상기 (III) 프로세스에서, 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스와 이에 대응되는 각각의 바운딩 박스 그라운드 트루스들을 참조하여 생성한 제3_1 로스, 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 스켈러튼 키포인트들과 이에 대응되는 각각의 스켈러튼 키포인트 그라운드 트루스들을 참조하여 생성한 제3_2 로스를 이용하여 상기 키포인트 및 바운딩 박스 추출 네트워크를 더 학습시킬 수 있다.
상기 또 다른 실시예에서, 상기 프로세서는, 상기 (I) 프로세스에서, 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 중 어느 하나의 학습용 특정 이미지 프레임에 대하여, 피처 추출 블록을 통해 상기 학습용 특정 이미지 프레임에 컨볼루션 연산들을 수행하여 서로 다른 스케일을 가지는 학습용 피처맵들을 생성하도록 하고, 피처 퓨전 블록을 통해 상기 학습용 피처맵들 중에서의 적어도 일부인 학습용 제1 피처맵 내지 학습용 제k 피처맵 - 상기 k는 2 이상의 정수임 - 을 탑-다운 패스를 이용한 탑-다운 피처 퓨전과 바텀-업 패스를 이용한 바텀-업 피처 퓨전을 수행하여 학습용 제1 퓨전 피처맵 내지 학습용 제k 퓨전 피처맵을 생성하도록 하며, 디텍션 블록을 통해 상기 학습용 제1 퓨전 피처맵 내지 상기 학습용 제k 퓨전 피처맵 각각에서 상기 사람에 대응되는 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제k 바운딩 박스 및 학습용 제k 스켈러튼 키폰인트들을 검출하도록 하고, 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제k 바운딩 박스 및 상기 학습용 제k 스켈러튼 키포인트들을 이용하여 상기 학습용 특정 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 특정 바운딩 박스 및 학습용 특정 스켈러튼 키포인트들을 생성하도록 할 수 있다.
상기 또 다른 실시예에서, 상기 프로세서는, 상기 (I) 프로세스에서, 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 중 어느 하나의 학습용 특정 이미지 프레임에 대하여, 피처 추출 블록을 통해 상기 학습용 특정 이미지 프레임을 적어도 한번 컨볼루션 연산하여 학습용 피처맵을 생성하도록 하고, 오브젝트 디텍터를 통해 상기 피처맵을 러닝 연산하여 상기 학습용 특정 이미지 프레임에서 상기 사람을 검출한 학습용 특정 바운딩 박스를 생성하도록 하며, 포즈 에스티메이터를 통해 상기 피처맵을 러닝 연산하여 상기 학습용 특정 이미지 프레임에서 상기 사람에 대응되는 학습용 특정 스켈러튼 키포인트들을 생성하도록 할 수 있다.
본 발명의 또 다른 실시예에 따르면, 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 테스트 장치에 있어서, 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 인스트럭션들이 저장된 메모리; 및 상기 메모리에 저장된 상기 인스트럭션들에 따라 비디오 분석을 통해 상기 사람의 행동을 검출하는 딥러닝 기반의 상기 행동 검출 모델을 테스트하는 동작을 수행하는 프로세서; 를 포함하며, 상기 프로세서는, (I) 학습 장치에 의해, (i) 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 - 상기 t는 2 이상의 정수임 - 이 획득되면, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스, (ii) (ii-1) 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 학습용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 상기 학습용 제t 디스크릿 액션을 검출하는 프로세스 및 (ii-2) 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임에서 상기 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 상기 학습용 제t 이미지 프레임에서 상기 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지를 각각 러닝 연산하여 상기 학습용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 상기 학습용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 상기 학습용 제1 액션 추정값 내지 상기 학습용 제t 액션 추정값을 참조하여 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스, 및 (iii) 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 상기 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 상기 제1 로스와 상기 제2 로스를 이용하여 상기 디스크릿 액션 검출 네트워크와 상기 컨티뉴어스 액션 검출 네트워크를 학습시키는 프로세스가 수행된 상태에서, 카메라에서 촬영된 비디오에 대응되는 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임이 획득되면, 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임 각각을 상기 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 테스트용 제1 바운딩 박스 내지 적어도 하나의 테스트용 제t 바운딩 박스, 및 적어도 하나의 테스트용 제1 스켈러튼 키포인트들 내지 적어도 하나의 테스트용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스, 및 (II) (i) 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들을 상기 디스크릿 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 테스트용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 제1 디스크릿 액션 내지 상기 테스트용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 제t 디스크릿 액션을 검출하는 프로세스, 및 (ii) 상기 테스트용 제1 바운딩 박스 내지 상기 테스트용 제t 바운딩 박스를 상기 컨티뉴어스 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 테스트용 제1 이미지 프레임에서 상기 테스트용 제1 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제1 크롭 이미지 내지 상기 테스트용 제t 이미지 프레임에서 상기 테스트용 제t 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 상기 클래시파이어를 통해 상기 테스트용 제1 크롭 이미지 내지 상기 테스트용 제t 크롭 이미지를 각각 러닝 연산하여 상기 테스트용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 테스트용 제1 액션 추정값 내지 상기 테스트용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 테스트용 제t 액션 추정값을 생성하도록 하고, 상기 테스트용 제1 액션 추정값 내지 상기 테스트용 제t 액션 추정값을 참조하여 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스를 수행하는 테스트 장치가 제공된다.
상기 또 다른 실시예에서, 상기 프로세서는, 상기 (II) 프로세스의 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들 중 어느 하나인 테스트용 특정 바운딩 박스 및 테스트용 특정 스켈러튼 키포인트들을 참조하되, 상기 테스트용 특정 바운딩 박스의 아스펙트비, 상기 테스트용 특정 스켈러튼 키포인트들에서 스켈러튼 키포인트들 사이의 수직 거리들 중 적어도 어느 하나를 이용한 휴리스틱 분석에 의해 특정 디스크릿 액션을 검출하도록 할 수 있다.
상기 또 다른 실시예에서, 상기 프로세서는, 상기 (II) 프로세스의 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 테스트용 제1 디스크릿 액션 내지 상기 테스트용 제t 디스크릿 액션 중에서 동일한 테스트용 테스트용 디스크릿 액션이 검출되는 횟수가 기설정된 임계 횟수 이상일 경우, 상기 테스트용 제1 바운딩 박스 내지 상기 테스트용 제t 바운딩 박스 각각의 위치를 참조하여, 위치 변화가 기설정된 임계 위치변화 미만인 경우 상기 동일한 테스트용 디스크릿 액션에 대응되는 상기 사람의 테스트용 제1 서브 디스크릿 액션을 검출하며, 상기 위치 변화가 상기 기설정된 임계 위치변화 이상인 경우 상기 동일한 테스트용 디스크릿 액션에 대응되거나 상기 테스트용 제1 서브 디스크릿 액션에 대응되는 테스트용 제2 서브 디스크릿 액션을 검출하도록 할 수 있다.
이 외에도, 본 발명의 방법을 실행하기 위한 컴퓨터 프로그램을 기록하기 위한 컴퓨터 판독 가능한 기록 매체가 더 제공된다.
본 발명에 의하면, 실시간 어플리케이션에 적용 가능한 행동 검출 모델을 제공할 수 있게 된다.
또한, 본 발명에 의하면, 충분한 학습 데이터를 이용하여 학습 가능한 행동 검출 모델을 제공할 수 있게 된다.
또한, 본 발명에 의하면, 이미지 처리 기술을 이용하여 비디오에서의 사람의 행동을 검출하는 행동 검출 모델을 제공할 수 있게 된다.
본 발명의 실시예의 설명에 이용되기 위하여 첨부된 아래 도면들은 본 발명의 실시예들 중 단지 일부일 뿐이며, 본 발명이 속한 기술분야에서 통상의 지식을 가진 자(이하 "통상의 기술자")에게 있어서는 발명적 작업이 이루어짐 없이 이 도면들에 기초하여 다른 도면들이 얻어질 수 있다.
도 1은 본 발명의 일 실시예에 따른 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 학습 장치를 개략적으로 도시한 것이고,
도 2는 본 발명의 일 실시예에 따른 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법을 개략적으로 도시한 것이고,
도 3은 본 발명의 일 실시예에 따른 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법에서 키포인트 및 바운딩 박스 추출 네트워크의 하나의 동작 과정을 개략적으로 도시한 것이고,
도 4는 본 발명의 일 실시예에 따른 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법에서 키포인트 및 바운딩 박스 추출 네트워크의 다른 동작 과정을 개략적으로 도시한 것이고,
도 5a 및 도 5b는 본 발명의 일 실시예에 따른 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법에서 디스크릿 액션을 검출하는 상태를 예시적으로 도시한 것이고,
도 6은 본 발명의 일 실시예에 따른 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법에서 컨티뉴어스 액션 검출 네트워크의 동작 과정을 개략적으로 도시한 것이고,
도 7은 본 발명의 다른 실시예에 따른 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 테스트 장치를 개략적으로 도시한 것이고,
도 8은 본 발명의 다른 실시예에 따른 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 방법을 개략적으로 도시한 것이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 학습 장치를 개략적으로 도시한 것으로, 도 1을 참조하면, 학습 장치(100)는 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하기 위한 인스트럭션들이 저장된 메모리(101)와, 메모리(101)에 저장된 인스트럭션들에 따라 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 동작을 수행하는 프로세서(102)를 포함할 수 있다.
구체적으로, 학습 장치(100)는 전형적으로 컴퓨팅 장치(예컨대, 컴퓨터 프로세서, 메모리, 스토리지, 입력 장치 및 출력 장치, 기타 기존의 컴퓨팅 장치의 구성요소들을 포함할 수 있는 장치; 라우터, 스위치 등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS) 및 스토리지 영역 네트워크(SAN)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어(즉, 컴퓨팅 장치로 하여금 특정의 방식으로 기능하게 하는 인스트럭션들)의 조합을 이용하여 원하는 시스템 성능을 달성하는 것일 수 있으나, 이에 한정되는 것은 아니다.
또한, 컴퓨팅 장치의 프로세서는 MPU(Micro Processing Unit) 또는 CPU(Central Processing Unit), 캐쉬 메모리(Cache Memory), 데이터 버스(Data Bus) 등의 하드웨어 구성을 포함할 수 있다. 또한, 컴퓨팅 장치는 운영체제, 특정 목적을 수행하는 애플리케이션의 소프트웨어 구성을 더 포함할 수도 있다.
그러나, 컴퓨팅 장치가 본 발명을 실시하기 위한 미디엄, 프로세서 및 메모리가 통합된 형태인 integrated 프로세서를 포함하는 경우를 배제하는 것은 아니다.
한편, 학습 장치(100)의 프로세서(102)는 메모리(101)에 저장된 인스트럭션들에 따라, 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임이 획득되면, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스를 수행할 수 있다. 그리고, 학습 장치(100)의 프로세서(102)는 (i) 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 학습용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제t 디스크릿 액션을 검출하는 프로세스, 및 (ii) 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임에서 상기 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 상기 학습용 제t 이미지 프레임에서 상기 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지를 각각 러닝 연산하여 상기 학습용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 상기 학습용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 상기 학습용 제1 액션 추정값 내지 상기 학습용 제t 액션 추정값을 참조하여 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스를 수행할 수 있다. 이후, 학습 장치(100)의 프로세서(102)는 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 상기 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 상기 제1 로스와 상기 제2 로스를 이용하여 상기 디스크릿 액션 검출 네트워크와 상기 컨티뉴어스 액션 검출 네트워크를 학습시키는 프로세스를 수행할 수 있다.
이와 같이 구성된 본 발명의 일 실시예에 따른 학습 장치를 이용하여 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법을 도 2를 참조하여 설명하면 다음과 같다.
먼저, 학습 장치(100)는 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임(11)을 획득할 수 있다. 상기 t는 2 이상의 정수일 수 있다. 이때, 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임(11)에는 디스크릿 액션 그라운드 트루스 및 컨티뉴어스 액션 그라운드 트루스 중 적어도 하나의 그라운드 트루스가 어노테이션(annotation)되어 있을 수 있다. 이에 더하여, 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임(11)에는 사람에 대응되는 바운딩 박스 그라운드 트루스 및 스켈러튼 키포인트 그라운드 트루스가 어노테이션되어 있을 수도 있다.
그리고, 학습 장치(100)는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임(11) 각각을 키포인트 및 바운딩 박스 추출 네트워크(110)로 입력하여 키포인트 및 바운딩 박스 추출 네트워크(110)로 하여금 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들(12)을 생성하도록 할 수 있다.
일 예로, 도 3을 참조하면, 학습 장치(100)는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임(11) 각각을 키포인트 및 바운딩 박스 추출 네트워크(110)로 입력하여 키포인트 및 바운딩 박스 추출 네트워크(110)로 하여금, 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 중 어느 하나의 학습용 특정 이미지 프레임에 대하여, 피처 추출 블록(111)을 통해 학습용 특정 이미지 프레임에 컨볼루션 연산들을 수행하여 서로 다른 스케일을 가지는 학습용 피처맵들을 생성하도록 할 수 있다. 이때, 피처 추출 블록(111)은 CSP(Cross Stage Partial) 기법을 사용하는 YOLO(You Only Look Once) 모델의 백본 네트워크를 사용할 수 있으나, 본 발명이 이에 한정되는 것은 아니며, 컨볼루션 연산을 수행하는 컨볼루션 블록들을 이용하여 서로 다른 스케일을 가지는 다수의 피처맵들을 생성하는 다양한 네트워크를 사용할 수 있다.
그리고, 학습 장치(100)는 키포인트 및 바운딩 박스 추출 네트워크(110)로 하여금, 피처 퓨전 블록(112)을 통해 서로 다른 스케일을 가지는 학습용 피처맵들 중에서의 적어도 일부인 학습용 제1 피처맵 내지 학습용 제k 피처맵 각각에서 피처 퓨전을 수행하도록 할 수 있다. k는 2 이상의 정수일 수 있다. 이때, 피처 퓨전 블록(112)은 탑-다운 패스를 이용한 탑-다운 피처 퓨전과 바텀-업 패스를 이용한 바텀-업 피처 퓨전을 수행하여 학습용 제1 퓨전 피처맵 내지 학습용 제k 퓨전 피처맵을 생성할 수 있다. 즉, 탑-다운 패스에서는 특정 스케일의 학습용 피처맵을 업-샘플링하여 특정 스케일보다 큰 바로 다음 스케일의 학습용 피처맵에 피처들을 퓨전하며, 바텀-업 패스에서는 특정 스케일의 학습용 피처맵을 다운-샘플링하여 특정 스케일보다 작은 바로 다음 스케일의 학습용 피처맵에 피처들을 퓨전할 수 있다. 하지만, 본 발명이 이에 한정되는 것은 아니며, 학습용 제1 피처맵 내지 학습용 제k 피처맵 사이에서의 피처들을 퓨전하는 다양한 방법으로 수행될 수도 있다. 그리고, 도 3에서는 서로 다른 스케일을 가지는 4개의 학습용 피처맵을 이용하는 것으로 도시하였으나, 이는 설명의 편의를 위한 것으로, 본 발명이 이에 한정되는 것은 아니다.
이후, 학습 장치(100)는 키포인트 및 바운딩 박스 추출 네트워크(110)로 하여금, 디텍션 블록(113)을 통해 학습용 제1 퓨전 피처맵 내지 학습용 제k 퓨전 피처맵 각각에서 사람에 대응되는 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제k 바운딩 박스 및 학습용 제k 스켈러튼 키포인트들(114)을 검출하도록 할 수 있다. 이때, 디텍션 블록(113)은 서로 다른 스케일을 가지는 학습용 제1 퓨전 피처맵 내지 학습용 제t 퓨전 피처맵 각각을 각각의 디텍션 헤드를 통해 바운딩 박스와 스켈러튼 키포인트들을 검출하도록 함으로써, 서로 다른 스케일을 가지는 학습용 제1 퓨전 피처맵 내지 학습용 제t 퓨전 피처맵 각각에서 사람에 대응되는 바운딩 박스와 스켈러튼 키포인트들을 검출한 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제k 바운딩 박스 및 학습용 제k 스켈러튼 키포인트들(114)을 생성할 수 있다.
그리고, 학습 장치(100)는 키포인트 및 바운딩 박스 추출 네트워크(110)로 하여금, 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제k 바운딩 박스 및 학습용 제k 스켈러튼 키포인트들을 이용하여 학습용 특정 이미지 프레임에 위치하는 사람에 대응되는 학습용 특정 바운딩 박스 및 학습용 특정 스켈러튼 키포인트들을 생성하도록 할 수 있다.
다른 예로, 도 4를 참조하면, 학습 장치(100)는 키포인트 및 바운딩 박스 추출 네트워크(110)로 하여금, 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 중 어느 하나의 학습용 특정 이미지 프레임에 대하여, 피처 추출 블록(116)을 통해 학습용 특정 이미지 프레임을 적어도 한번 컨볼루션 연산하여 학습용 피처맵을 생성하도록 할 수 있다.
그리고, 학습 장치(100)는 키포인트 및 바운딩 박스 추출 네트워크(110)로 하여금, 오브젝트 디텍터(117)를 통해 학습용 피처맵을 러닝 연산하여 학습용 특정 이미지 프레임에서 사람을 검출한 학습용 특정 바운딩 박스(BB)를 생성하도록 하며, 포즈 에스티메이터(118)를 통해 학습용 피처맵을 러닝 연산하여 학습용 특정 이미지 프레임에서 사람에 대응되는 학습용 특정 스켈러튼 키포인트들(SK)을 생성하도록 할 수 있다. 이때, 오브젝트 디텍터(117)는 R-CNN 기반의 오브젝트 디텍터, YOLO 기반의 오브젝트 디텍터, SSD(Single Shot MultiBox Detector), RetinaNet 등과 같이 다양한 디텍션 네트워크로 구성될 수 있으며, 포즈 에스티메이터(118)는 PoseNet, OpenPose, ConvNet POSE, CPM(Convolutional Pose Machines), Stacked Hourglass Networks, CPN(Cascaded Pyramid Network), BlazePose, MoveNet 등 다양한 포즈 에스트메이션 네트워크로 구성될 수 있다.
다시, 도 2를 참조하면, 학습 장치(100)는 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제t 바운딩 박스 및 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크(120)로 입력하여 디스크릿 액션 검출 네트워크(120)로 하여금 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제t 바운딩 박스 및 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 학습용 제1 이미지 프레임에 위치하는 사람에 대응되는 학습용 제1 디스크릿 액션 내지 학습용 제t 이미지 프레임에 위치하는 사람에 대응되는 학습용 제t 디스크릿 액션(13)을 검출하는 프로세스를 수행할 수 있다.
이때, 학습 장치(100)는 디스크릿 액션 검출 네트워크(120)로 하여금, 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제t 바운딩 박스 및 학습용 제t 스켈러튼 키포인트들 중 어느 하나인 학습용 특정 바운딩 박스 및 학습용 특정 스켈러튼 키포인트들을 참조하되, 학습용 특정 바운딩 박스의 아스펙트비, 학습용 특정 스켈러튼 키포인트들에서 스켈러튼 키포인트들 사이의 수직 거리들 중 적어도 어느 하나를 이용한 휴리스틱 분석에 의해 특정 디스크릿 액션을 검출하도록 할 수 있다.
이에 더하여, 학습 장치(100)는 디스크릿 액션 검출 네트워크(120)로 하여금, 학습용 제1 디스크릿 액션 내지 학습용 제t 디스크릿 액션 중에서 동일한 학습용 디스크릿 액션이 검출되는 횟수가 기설정된 임계 횟수 이상일 경우, 학습용 제1 바운딩 박스 내지 학습용 제t 바운딩 박스 각각의 위치를 참조하여, 위치 변화가 기설정된 임계 위치변화 미만인 경우 동일한 학습용 디스크릿 액션에 대응되는 사람의 학습용 제1 서브 디스크릿 액션을 검출하며, 위치 변화가 기설정된 임계 위치변화 이상인 경우 동일한 학습용 디스크릿 액션에 대응되거나 학습용 제1 서브 디스크릿 액션에 대응되는 학습용 제2 서브 디스크릿 액션을 검출하도록 할 수 있다.
일 예로, 디스크릿 액션으로 사람의 “넘어짐(fall)” 액션을 검출하는 경우를 설명하면 다음과 같다.
도 5a에서와 같이, 이미지 상에 위치하는 정상적인 사람의 아스펙트비(aspect ratio)는 넘어지는 사람의 아스펙트비 보다 크게 나타날 수 있다. 따라서, 바운딩 박스의 아스펙트비가 기설정된 값 이상, 즉, 가로 길이보다 세로 길이가 커질 경우, 사람의 액션을 “넘어짐”으로 예측할 수 있다.
또한, 도 5b에서와 같이, 스켈러튼 키포인트들을 양쪽 어깨의 스켈러튼 키포인트들을 각각 P1, P4로 가정하고, 양쪽 허리의 스켈러튼 키포인트들을 각각 P2, P5로 가정하며, 양쪽 발의 스켈러튼 키포인트들을 각각 P3, P6으로 가정하고, P1과 P2 사이 또는 P4와 P5 사이의 수직 거리를 D1, P2와 P3 사이 또는 P5와 P6 사이의 수직 거리를 D2라 할 경우, 스켈러튼 키포인트들 사이의 수직 거리들을 이용하여 “넘어짐” 액션을 예측할 수 있다.
예들 들어, 이미지에서의 탑-레프트(top-left)의 좌표를 (0, 0)이라고 할 경우, 스켈러튼 키포인트들 사이의 수직 거리, 즉, y 좌표값이 다음의 조건을 만족하면 사람의 액션을 “넘어짐”으로 예측할 수 있다.
(i) P1(y) > P3(y) - D1 이고, P1(y) > P2(y) - D1/2 이며, P2(y) > P3(y) - D1/2 인 경우
(ii) P4(y) > P6(y) - D1 이고, P4(y) > P5(y) - D1/2 이며, P5(y) > P6(y) - D1/2 인 경우
이에 더하여, 기설정된 시간, 즉, 기설정된 이미지 프레임 개수에서 “넘어짐”으로 예측되는 횟수가 기설정된 임계 횟수 이상일 경우, 사람의 “넘어짐”으로 인하여 발생하는 “누움(laying)”으로 사람의 액션을 예측할 수 있다.
그리고, 사람의 액션이 “누움”으로 예측된 경우, 사람에 대응되는 바운딩 박스들의 위치 변화가 기설정된 임계 위치변화 미만인지 임계 위치변화 이상인지를 확인하여, “누움”으로 예측된 사람에 대응되는 바운딩 박스들의 위치 변화가 기설정된 임계 위치변화 미만일 경우에는 “누움”으로 사람의 액션을 동일하게 예측할 수 있으며, “누움”으로 예측된 사람에 대응되는 바운딩 박스들의 위치 변화가 기설정된 임계 위치변화 이상일 경우에는, “누움” 상태에서 “구름(rolling)”으로 사람의 액션을 예측할 수 있다. 이때, 사람의 바운딩 박스들의 위치 변화가 수평 방향으로의 위치 변화일 경우에는 사람이 “수평 방향으로 구름”으로 액션을 예측할 수 있으며, 사람의 바운딩 박스들의 위치 변화가 수직 방향으로의 위치 변화일 경우에는 사람이 “수직 방향으로 구름”으로 액션을 예측할 수 있다.
다시 도 2를 참조하면, 학습 장치(100)는 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크(130)로 입력하여 컨티뉴어스 액션 검출 네트워크(130)로 하여금, 학습용 제1 이미지 프레임에서 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 학습용 제t 이미지 프레임에서 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 학습용 제1 크롭 이미지 내지 학습용 제t 크롭 이미지를 각각 러닝 연산하여 학습용 제1 크롭 이미지 내의 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 학습용 제t 크롭 이미지 내의 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 학습용 제1 액션 추정값 내지 학습용 제t 액션 추정값을 참조하여 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임에 위치하는 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행할 수 있다. 이때, 컨티뉴어스 액션 검출 네트워크(130)에 포함된 클래시파이어는 학습용 크롭 이미지에서 추출된 특징만을 이용하여 사람의 액션을 추정한 액션 추정값을 예측할 수 있다. 그리고, 클래시파이어는 적어도 한번의 컨볼루션 연산을 통해 학습용 크롭 이미지에서 특징을 추출하고, 추출된 특징을 기설정된 액션 추정값 클래스들 중에서 해당하는 특정 액션 추정값을 예측하는 다양한 딥러닝 네트워크를 포함할 수 있디.
일 예로, 액션 추정값으로 “집다(pick)”, “보다(watch)”, “바구니 또는 카트에 넣다(add)” 등이 설정된 상태에서, 액션 추정값들이 “집다” - “집다” - “넣다”의 순서로 예측되면, 사람의 액션은 매장의 진열대에서 상품을 구매하기 위하여 바구니 또는 카드에 상품을 담는 액션인 “담다”로 예측할 수 있으며, 액션 추정값들이 “집다” - “보다” - “넣다”의 순서로 예측되면, 사람의 액션은 매장의 진열대에서 상품을 집어서 확인한 다음 상품을 구매하기 위하여 바구니 또는 카드에 상품을 담는 액션인 “담다”로 예측할 수 있다. 또한, 액션 추정값들이 “넣다” - “보다” - “집다”의 순서로 예측되면, 사람의 액션은 물건 등을 바구니 또는 카트에 넣은 다음, 물건 등을 확인한 후 상품을 다시 매장의 진열대에 놓는 액션인 “되돌려 놓다”로 예측할 수 있으며, 액션 추정값들이 “집다” - “집다” - “보다” - “집다”의 순서로 예측되면, 사람의 액션은 상품을 집어서 확인한 다음 상품을 구매하기 위하여 매장의 진열대에서 상품을 집는 액션인 “집다”로 예측할 수 있다. 하지만, 본 발명이 이에 한정되는 것은 아니며, 이미지 분석을 통해 예측된 액션 추정값들을 참조하여 사람의 다양한 컨티뉴어스 액션을 예측할 수 있다.
이때, 학습 장치(100)는 컨티뉴어스 액션 검출 네트워크(130)로 하여금, 학습용 제1 크롭 이미지 내지 학습용 제t 크롭 이미지 각각을 하나의 클래시파이어에 순차적으로 입력하여 하나의 클래시파이어를 통해 학습용 제1 크롭 이미지 내지 학습용 제t 크롭 이미지 각각을 순차적으로 러닝 연산함으로써, 학습용 제1 크롭 이미지에 대응되는 학습용 제1 액션 추정값 내지 학습용 제t 크롭 이미지에 대응되는 학습용 제t 액션 추정값을 순차적으로 생성할 수 있다.
또한, 상기에서와 같이 컨티뉴어스 액션 검출 네트워크(130)로 하여금 하나의 클래시파이어를 통해 학습용 제1 액션 추정값 내지 학습용 제t 액션 추정값을 생성하는 것과는 달리, 학습 장치(100)는 컨티뉴어스 액션 검출 네트워크(130)로 하여금, 학습용 제1 크롭 이미지 내지 학습용 제t 크롭 이미지 각각에 대응되는 제1 클래시파이어 내지 제t 클래시파이어 각각을 통해 학습용 제1 크롭 이미지 내지 학습용 제t 크롭 이미지 각각을 각각 러닝 연산하도록 할 수도 있다.
일 예로, 도 6을 참조하면, 컨티뉴어스 액션 검출 네트워크(130)는, 학습용 제(t-2) 크롭 이미지를 제(t-2) 클래시파이어를 통해 러닝 연산하여 학습용 제(t-2) 액션 추정값을 생성하도록 하고, 학습용 제(t-1) 크롭 이미지를 제(t-1) 클래시파이어를 통해 러닝 연산하여 학습용 제(t-1) 액션 추정값을 생성하도록 하며, 학습용 제t 크롭 이미지를 제t 클래시파이어를 통해 러닝 연산하여 학습용 제t 액션 추정값을 생성하도록 할 수 있다. 그리고, 컨티뉴어스 액션 검출 네트워크(130)는 학습용 제(t-2) 액션 추정값 내지 학습용 제t 액션 추정값을 참조하여 학습용 컨티뉴어스 액션을 예측한 결과를 생성할 수 있다.
다시, 도 2를 참조하면, 학습 장치(100)는 학습용 제1 디스크릿 액션 내지 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 제1 로스와 제2 로스를 이용하여 디스크릿 액션 검출 네트워크(120)와 컨티뉴어스 액션 검출 네트워크(130)를 학습시킬 수 있다.
또한, 학습 장치(100)는 학습용 제1 바운딩 박스 내지 학습용 제t 바운딩 박스와 이에 대응되는 각각의 바운딩 박스 그라운드 트루스들을 참조하여 생성한 제3_1 로스, 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제t 스켈러튼 키포인트들과 이에 대응되는 각각의 스켈러튼 키포인트 그라운드 트루스들을 참조하여 생성한 제3_2 로스를 이용하여 키포인트 및 바운딩 박스 추출 네트워크(110)를 더 학습시킬 수 있다. 또한, 이와는 달리, 학습 장치(100)는 디스크릿 액션 검출 네트워크(120)와 컨티뉴어스 액션 검출 네트워크(130)를 학습시키기 이전, 키포인트 및 바운딩 박스 추출 네트워크(110)를 미리 학습시킨 상태에서 디스크릿 액션 검출 네트워크(120)와 컨티뉴어스 액션 검출 네트워크(130)를 학습시킬 수도 있다.
도 7은 본 발명의 다른 실시예에 따른 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 테스트 장치를 개략적으로 도시한 것으로, 도 7을 참조하면, 테스트 장치(200)는 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하기 위한 인스트럭션들이 저장된 메모리(201)와, 메모리(201)에 저장된 인스트럭션들에 따라 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 동작을 수행하는 프로세서(202)를 포함할 수 있다.
구체적으로, 테스트 장치(200)는 전형적으로 컴퓨팅 장치(예컨대, 컴퓨터 프로세서, 메모리, 스토리지, 입력 장치 및 출력 장치, 기타 기존의 컴퓨팅 장치의 구성요소들을 포함할 수 있는 장치; 라우터, 스위치 등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS) 및 스토리지 영역 네트워크(SAN)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어(즉, 컴퓨팅 장치로 하여금 특정의 방식으로 기능하게 하는 인스트럭션들)의 조합을 이용하여 원하는 시스템 성능을 달성하는 것일 수 있으나, 이에 한정되는 것은 아니다.
또한, 컴퓨팅 장치의 프로세서는 MPU(Micro Processing Unit) 또는 CPU(Central Processing Unit), 캐쉬 메모리(Cache Memory), 데이터 버스(Data Bus) 등의 하드웨어 구성을 포함할 수 있다. 또한, 컴퓨팅 장치는 운영체제, 특정 목적을 수행하는 애플리케이션의 소프트웨어 구성을 더 포함할 수도 있다.
그러나, 컴퓨팅 장치가 본 발명을 실시하기 위한 미디엄, 프로세서 및 메모리가 통합된 형태인 integrated 프로세서를 포함하는 경우를 배제하는 것은 아니다.
한편, 테스트 장치(200)의 프로세서(202)는 메모리(201)에 저장된 인스트럭션들에 따라, 학습 장치에 의해, (i) 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임이 획득되면, 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 키포인트 및 바운딩 박스 추출 네트워크로 하여금 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스, (ii) (ii-1) 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제t 바운딩 박스 및 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 디스크릿 액션 검출 네트워크로 하여금 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제t 바운딩 박스 및 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 학습용 제1 이미지 프레임에 위치하는 사람에 대응되는 학습용 제1 디스크릿 액션 내지 학습용 제t 이미지 프레임에 위치하는 사람에 대응되는 학습용 제t 디스크릿 액션을 검출하는 프로세스 및 (ii-2) 학습용 제1 바운딩 박스 내지 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 컨티뉴어스 액션 검출 네트워크로 하여금, 학습용 제1 이미지 프레임에서 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 학습용 제t 이미지 프레임에서 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 학습용 제1 크롭 이미지 내지 학습용 제t 크롭 이미지를 각각 러닝 연산하여 학습용 제1 크롭 이미지 내의 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 학습용 제t 크롭 이미지 내의 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 학습용 제1 액션 추정값 내지 학습용 제t 액션 추정값을 참조하여 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임에 위치하는 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스, 및 (iii) 학습용 제1 디스크릿 액션 내지 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 제1 로스와 제2 로스를 이용하여 디스크릿 액션 검출 네트워크와 컨티뉴어스 액션 검출 네트워크를 학습시키는 프로세스가 수행된 상태에서, 카메라에서 촬영된 비디오에 대응되는 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임이 획득되면, 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 키포인트 및 바운딩 박스 추출 네트워크로 하여금 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 테스트용 제1 바운딩 박스 내지 적어도 하나의 테스트용 제t 바운딩 박스, 및 적어도 하나의 테스트용 제1 스켈러튼 키포인트들 내지 적어도 하나의 테스트용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스를 수행할 수 있다. 그리고, 테스트 장치(200)의 프로세서(202)는, 테스트용 제1 바운딩 박스 및 테스트용 제1 스켈러튼 키포인트들 내지 테스트용 제t 바운딩 박스 및 테스트용 제t 스켈러튼 키포인트들을 디스크릿 액션 검출 네트워크로 입력하여 디스크릿 액션 검출 네트워크로 하여금 테스트용 제1 바운딩 박스 및 테스트용 제1 스켈러튼 키포인트들 내지 테스트용 제t 바운딩 박스 및 테스트용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 테스트용 제1 이미지 프레임에 위치하는 사람에 대응되는 테스트용 제1 디스크릿 액션 내지 테스트용 제t 이미지 프레임에 위치하는 사람에 대응되는 테스트용 제t 디스크릿 액션을 검출하는 프로세스, 및 테스트용 제1 바운딩 박스 내지 테스트용 제t 바운딩 박스를 컨티뉴어스 액션 검출 네트워크로 입력하여 컨티뉴어스 액션 검출 네트워크로 하여금, 테스트용 제1 이미지 프레임에서 테스트용 제1 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제1 크롭 이미지 내지 테스트용 제t 이미지 프레임에서 테스트용 제t 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 테스트용 제1 크롭 이미지 내지 테스트용 제t 크롭 이미지를 각각 러닝 연산하여 테스트용 제1 크롭 이미지 내의 사람의 개별 액션을 검출한 테스트용 제1 액션 추정값 내지 테스트용 제t 크롭 이미지 내의 사람의 개별 액션을 검출한 테스트용 제t 액션 추정값을 생성하도록 하고, 테스트용 제1 액션 추정값 내지 테스트용 제t 액션 추정값을 참조하여 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임에 위치하는 사람에 대응되는 테스트용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스를 수행할 수 있다.
이와 같이 구성된 본 발명의 다른 실시예에 따른 테스트 장치를 이용하여 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 방법을 도 8을 참조하여 설명하면 다음과 같다. 아래의 설명에서는, 상기 도 2를 참조한 설명으로부터 용이하게 이해 가능한 부분에 대해서는 상세한 설명을 생략하기로 한다.
먼저, 도 2를 참조하여 설명에 따라, 키포인트 및 바운딩 박스 추출 네트워크(210), 디스크릿 액션 검출 네트워크(220), 및 컨티뉴어스 액션 검출 네트워크(230)가 학습된 상태에서, 카메라에서 촬영된 비디오에 대응되는 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임(21)이 획득되면, 테스트 장치(200)가, 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임(21) 각각을 키포인트 및 바운딩 박스 추출 네트워크(210)로 입력하여 키포인트 및 바운딩 박스 추출 네트워크(210)로 하여금 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임(21) 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 테스트용 제1 바운딩 박스 내지 적어도 하나의 테스트용 제t 바운딩 박스, 및 적어도 하나의 테스트용 제1 스켈러튼 키포인트들 내지 적어도 하나의 테스트용 제t 스켈러튼 키포인트들(22)을 생성하도록 할 수 있다.
그리고, 테스트 장치(200)는 테스트용 제1 바운딩 박스 및 테스트용 제1 스켈러튼 키포인트들 내지 테스트용 제t 바운딩 박스 및 테스트용 제t 스켈러튼 키포인트들(22)을 디스크릿 액션 검출 네트워크(220)로 입력하여 디스크릿 액션 검출 네트워크(220)로 하여금 테스트용 제1 바운딩 박스 및 테스트용 제1 스켈러튼 키포인트들 내지 테스트용 제t 바운딩 박스 및 테스트용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 테스트용 제1 이미지 프레임에 위치하는 사람에 대응되는 테스트용 제1 디스크릿 액션 내지 테스트용 제t 이미지 프레임에 위치하는 사람에 대응되는 테스트용 제t 디스크릿 액션(23)을 검출하는 프로세스를 수행할 수 있다.
이때, 테스트 장치(200)는, 디스크릿 액션 검출 네트워크(220)로 하여금, 테스트용 제1 바운딩 박스 및 테스트용 제1 스켈러튼 키포인트들 내지 테스트용 제t 바운딩 박스 및 테스트용 제t 스켈러튼 키포인트들 중 어느 하나인 테스트용 특정 바운딩 박스 및 테스트용 특정 스켈러튼 키포인트들을 참조하되, 테스트용 특정 바운딩 박스의 아스펙트비, 테스트용 특정 스켈러튼 키포인트들에서 스켈러튼 키포인트들 사이의 수직 거리들 중 적어도 어느 하나를 이용한 휴리스틱 분석에 의해 특정 디스크릿 액션을 검출하도록 할 수 있다.
이에 더하여, 테스트 장치(200)는, 디스크릿 액션 검출 네트워크(220)로 하여금, 테스트용 제1 디스크릿 액션 내지 테스트용 제t 디스크릿 액션 중에서 동일한 테스트용 테스트용 디스크릿 액션이 검출되는 횟수가 기설정된 임계 횟수 이상일 경우, 테스트용 제1 바운딩 박스 내지 테스트용 제t 바운딩 박스 각각의 위치를 참조하여, 위치 변화가 기설정된 임계 위치변화 미만인 경우 동일한 테스트용 디스크릿 액션에 대응되는 사람의 테스트용 제1 서브 디스크릿 액션을 검출하며, 위치 변화가 기설정된 임계 위치변화 이상인 경우 동일한 테스트용 디스크릿 액션에 대응되거나 스트용 제1 서브 디스크릿 액션에 대응되는 테스트용 제2 서브 디스크릿 액션을 검출하도록 할 수 있다.
또한, 테스트 장치(200)는, 테스트용 제1 바운딩 박스 내지 테스트용 제t 바운딩 박스를 컨티뉴어스 액션 검출 네트워크(230)로 입력하여 컨티뉴어스 액션 검출 네트워크(230)로 하여금, 테스트용 제1 이미지 프레임에서 테스트용 제1 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제1 크롭 이미지 내지 테스트용 제t 이미지 프레임에서 테스트용 제t 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제t 크롭 이미지를 생성하도록 하며, 컨티뉴어스 액션 검출 네트워크(230)에 포함된 적어도 하나의 클래시파이어를 통해 테스트용 제1 크롭 이미지 내지 테스트용 제t 크롭 이미지를 각각 러닝 연산하여 테스트용 제1 크롭 이미지 내의 사람의 개별 액션을 검출한 테스트용 제1 액션 추정값 내지 테스트용 제t 크롭 이미지 내의 사람의 개별 액션을 검출한 테스트용 제t 액션 추정값을 생성하도록 하고, 테스트용 제1 액션 추정값 내지 테스트용 제t 액션 추정값을 참조하여 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임에 위치하는 사람에 대응되는 테스트용 컨티뉴어스 액션을 검출하는 프로세스를 수행할 수 있다.
이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.
100: 학습 장치,
101: 메모리,
102: 프로세서,
200: 테스트 장치,
201: 메모리,
202: 프로세서

Claims (20)

  1. 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법에 있어서,
    (a) 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 - 상기 t는 2 이상의 정수임 - 이 획득되면, 학습 장치가, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 단계;
    (b) 상기 학습 장치가, (i) 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 학습용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제t 디스크릿 액션을 검출하는 프로세스, 및 (ii) 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임에서 상기 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 상기 학습용 제t 이미지 프레임에서 상기 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지를 각각 러닝 연산하여 상기 학습용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 상기 학습용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 상기 학습용 제1 액션 추정값 내지 상기 학습용 제t 액션 추정값을 참조하여 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 단계; 및
    (c) 상기 학습 장치가, 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 상기 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 상기 제1 로스와 상기 제2 로스를 이용하여 상기 디스크릿 액션 검출 네트워크와 상기 컨티뉴어스 액션 검출 네트워크를 학습시키는 단계;
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 (b) 단계에서,
    상기 학습 장치는, 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 중 어느 하나인 학습용 특정 바운딩 박스 및 학습용 특정 스켈러튼 키포인트들을 참조하되, 상기 학습용 특정 바운딩 박스의 아스펙트비, 상기 학습용 특정 스켈러튼 키포인트들에서 스켈러튼 키포인트들 사이의 수직 거리들 중 적어도 어느 하나를 이용한 휴리스틱 분석에 의해 특정 디스크릿 액션을 검출하도록 하는 방법.
  3. 제1항에 있어서,
    상기 (b) 단계에서,
    상기 학습 장치는, 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 중에서 동일한 학습용 디스크릿 액션이 검출되는 횟수가 기설정된 임계 횟수 이상일 경우, 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스 각각의 위치를 참조하여, 위치 변화가 기설정된 임계 위치변화 미만인 경우 상기 동일한 학습용 디스크릿 액션에 대응되는 상기 사람의 학습용 제1 서브 디스크릿 액션을 검출하며, 상기 위치 변화가 상기 기설정된 임계 위치변화 이상인 경우 상기 동일한 학습용 디스크릿 액션에 대응되거나 상기 학습용 제1 서브 디스크릿 액션에 대응되는 학습용 제2 서브 디스크릿 액션을 검출하도록 하는 방법.
  4. 제1항에 있어서,
    상기 (b) 단계에서,
    상기 학습 장치는, 상기 (ii) 프로세스에서, 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지 각각에 대응되는 제1 클래시파이어 내지 제t 클래시파이어 각각을 통해, 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지 각각을 각각 러닝 연산하도록 하는 방법.
  5. 제1항에 있어서,
    상기 (c) 단계에서,
    상기 학습 장치는, 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스와 이에 대응되는 각각의 바운딩 박스 그라운드 트루스들을 참조하여 생성한 제3_1 로스, 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 스켈러튼 키포인트들과 이에 대응되는 각각의 스켈러튼 키포인트 그라운드 트루스들을 참조하여 생성한 제3_2 로스를 이용하여 상기 키포인트 및 바운딩 박스 추출 네트워크를 더 학습시키는 방법.
  6. 제1항에 있어서,
    상기 (a) 단계에서,
    상기 학습 장치는, 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 중 어느 하나의 학습용 특정 이미지 프레임에 대하여, 피처 추출 블록을 통해 상기 학습용 특정 이미지 프레임에 컨볼루션 연산들을 수행하여 서로 다른 스케일을 가지는 학습용 피처맵들을 생성하도록 하고, 피처 퓨전 블록을 통해 상기 학습용 피처맵들 중에서의 적어도 일부인 학습용 제1 피처맵 내지 학습용 제k 피처맵 - 상기 k는 2 이상의 정수임 - 을 탑-다운 패스를 이용한 탑-다운 피처 퓨전과 바텀-업 패스를 이용한 바텀-업 피처 퓨전을 수행하여 학습용 제1 퓨전 피처맵 내지 학습용 제k 퓨전 피처맵을 생성하도록 하며, 디텍션 블록을 통해 상기 학습용 제1 퓨전 피처맵 내지 상기 학습용 제k 퓨전 피처맵 각각에서 상기 사람에 대응되는 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제k 바운딩 박스 및 학습용 제k 스켈러튼 키폰인트들을 검출하도록 하고, 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제k 바운딩 박스 및 상기 학습용 제k 스켈러튼 키포인트들을 이용하여 상기 학습용 특정 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 특정 바운딩 박스 및 학습용 특정 스켈러튼 키포인트들을 생성하도록 하는 방법.
  7. 제1항에 있어서,
    상기 (a) 단계에서,
    상기 학습 장치는, 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 중 어느 하나의 학습용 특정 이미지 프레임에 대하여, 피처 추출 블록을 통해 상기 학습용 특정 이미지 프레임을 적어도 한번 컨볼루션 연산하여 학습용 피처맵을 생성하도록 하고, 오브젝트 디텍터를 통해 상기 피처맵을 러닝 연산하여 상기 학습용 특정 이미지 프레임에서 상기 사람을 검출한 학습용 특정 바운딩 박스를 생성하도록 하며, 포즈 에스티메이터를 통해 상기 피처맵을 러닝 연산하여 상기 학습용 특정 이미지 프레임에서 상기 사람에 대응되는 학습용 특정 스켈러튼 키포인트들을 생성하도록 하는 방법.
  8. 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 방법에 있어서,
    (a) 학습 장치에 의해, (i) 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 - 상기 t는 2 이상의 정수임 - 이 획득되면, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스, (ii) (ii-1) 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 학습용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 상기 학습용 제t 디스크릿 액션을 검출하는 프로세스 및 (ii-2) 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임에서 상기 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 상기 학습용 제t 이미지 프레임에서 상기 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지를 각각 러닝 연산하여 상기 학습용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 상기 학습용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 상기 학습용 제1 액션 추정값 내지 상기 학습용 제t 액션 추정값을 참조하여 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스, 및 (iii) 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 상기 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 상기 제1 로스와 상기 제2 로스를 이용하여 상기 디스크릿 액션 검출 네트워크와 상기 컨티뉴어스 액션 검출 네트워크를 학습시키는 프로세스가 수행된 상태에서, 카메라에서 촬영된 비디오에 대응되는 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임이 획득되면, 테스트 장치가, 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임 각각을 상기 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 테스트용 제1 바운딩 박스 내지 적어도 하나의 테스트용 제t 바운딩 박스, 및 적어도 하나의 테스트용 제1 스켈러튼 키포인트들 내지 적어도 하나의 테스트용 제t 스켈러튼 키포인트들을 생성하도록 하는 단계; 및
    (b) 상기 테스트 장치가, (i) 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들을 상기 디스크릿 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 테스트용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 제1 디스크릿 액션 내지 상기 테스트용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 제t 디스크릿 액션을 검출하는 프로세스, 및 (ii) 상기 테스트용 제1 바운딩 박스 내지 상기 테스트용 제t 바운딩 박스를 상기 컨티뉴어스 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 테스트용 제1 이미지 프레임에서 상기 테스트용 제1 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제1 크롭 이미지 내지 상기 테스트용 제t 이미지 프레임에서 상기 테스트용 제t 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 상기 클래시파이어를 통해 상기 테스트용 제1 크롭 이미지 내지 상기 테스트용 제t 크롭 이미지를 각각 러닝 연산하여 상기 테스트용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 테스트용 제1 액션 추정값 내지 상기 테스트용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 테스트용 제t 액션 추정값을 생성하도록 하고, 상기 테스트용 제1 액션 추정값 내지 상기 테스트용 제t 액션 추정값을 참조하여 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 단계;
    를 포함하는 방법.
  9. 제8항에 있어서,
    상기 (b) 단계에서,
    상기 테스트 장치는, 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들 중 어느 하나인 테스트용 특정 바운딩 박스 및 테스트용 특정 스켈러튼 키포인트들을 참조하되, 상기 테스트용 특정 바운딩 박스의 아스펙트비, 상기 테스트용 특정 스켈러튼 키포인트들에서 스켈러튼 키포인트들 사이의 수직 거리들 중 적어도 어느 하나를 이용한 휴리스틱 분석에 의해 특정 디스크릿 액션을 검출하도록 하는 방법.
  10. 제8항에 있어서,
    상기 (b) 단계에서,
    상기 테스트 장치, 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 테스트용 제1 디스크릿 액션 내지 상기 테스트용 제t 디스크릿 액션 중에서 동일한 테스트용 테스트용 디스크릿 액션이 검출되는 횟수가 기설정된 임계 횟수 이상일 경우, 상기 테스트용 제1 바운딩 박스 내지 상기 테스트용 제t 바운딩 박스 각각의 위치를 참조하여, 위치 변화가 기설정된 임계 위치변화 미만인 경우 상기 동일한 테스트용 디스크릿 액션에 대응되는 상기 사람의 테스트용 제1 서브 디스크릿 액션을 검출하며, 상기 위치 변화가 상기 기설정된 임계 위치변화 이상인 경우 상기 동일한 테스트용 디스크릿 액션에 대응되거나 상기 테스트용 제1 서브 디스크릿 액션에 대응되는 테스트용 제2 서브 디스크릿 액션을 검출하도록 하는 방법.
  11. 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 학습 장치에 있어서,
    비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하기 위한 인스트럭션들이 저장된 메모리; 및
    상기 메모리에 저장된 상기 인스트럭션들에 따라 비디오 분석을 통해 상기 사람의 행동을 검출하는 딥러닝 기반의 상기 행동 검출 모델을 학습하는 동작을 수행하는 프로세서;
    를 포함하며,
    상기 프로세서는, (I) 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 - 상기 t는 2 이상의 정수임 - 이 획득되면, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스, (II) (i) 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 학습용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제t 디스크릿 액션을 검출하는 프로세스, 및 (ii) 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임에서 상기 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 상기 학습용 제t 이미지 프레임에서 상기 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지를 각각 러닝 연산하여 상기 학습용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 상기 학습용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 상기 학습용 제1 액션 추정값 내지 상기 학습용 제t 액션 추정값을 참조하여 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스, 및 (III) 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 상기 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 상기 제1 로스와 상기 제2 로스를 이용하여 상기 디스크릿 액션 검출 네트워크와 상기 컨티뉴어스 액션 검출 네트워크를 학습시키는 프로세스를 수행하는 학습 장치.
  12. 제11항에 있어서,
    상기 프로세서는,
    상기 (II) 프로세스의 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 중 어느 하나인 학습용 특정 바운딩 박스 및 학습용 특정 스켈러튼 키포인트들을 참조하되, 상기 학습용 특정 바운딩 박스의 아스펙트비, 상기 학습용 특정 스켈러튼 키포인트들에서 스켈러튼 키포인트들 사이의 수직 거리들 중 적어도 어느 하나를 이용한 휴리스틱 분석에 의해 특정 디스크릿 액션을 검출하도록 하는 학습 장치.
  13. 제11항에 있어서,
    상기 프로세서는,
    상기 (II) 프로세스의 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 중에서 동일한 학습용 디스크릿 액션이 검출되는 횟수가 기설정된 임계 횟수 이상일 경우, 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스 각각의 위치를 참조하여, 위치 변화가 기설정된 임계 위치변화 미만인 경우 상기 동일한 학습용 디스크릿 액션에 대응되는 상기 사람의 학습용 제1 서브 디스크릿 액션을 검출하며, 상기 위치 변화가 상기 기설정된 임계 위치변화 이상인 경우 상기 동일한 학습용 디스크릿 액션에 대응되거나 상기 학습용 제1 서브 디스크릿 액션에 대응되는 학습용 제2 서브 디스크릿 액션을 검출하도록 하는 학습 장치.
  14. 제11항에 있어서,
    상기 프로세서는,
    상기 (II) 프로세스의 상기 (ii) 프로세스에서, 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지 각각에 대응되는 제1 클래시파이어 내지 제t 클래시파이어 각각을 통해, 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지 각각을 각각 러닝 연산하도록 하는 학습 장치.
  15. 제11항에 있어서,
    상기 프로세서는,
    상기 (III) 프로세스에서, 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스와 이에 대응되는 각각의 바운딩 박스 그라운드 트루스들을 참조하여 생성한 제3_1 로스, 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 스켈러튼 키포인트들과 이에 대응되는 각각의 스켈러튼 키포인트 그라운드 트루스들을 참조하여 생성한 제3_2 로스를 이용하여 상기 키포인트 및 바운딩 박스 추출 네트워크를 더 학습시키는 학습 장치.
  16. 제11항에 있어서,
    상기 프로세서는,
    상기 (I) 프로세스에서, 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 중 어느 하나의 학습용 특정 이미지 프레임에 대하여, 피처 추출 블록을 통해 상기 학습용 특정 이미지 프레임에 컨볼루션 연산들을 수행하여 서로 다른 스케일을 가지는 학습용 피처맵들을 생성하도록 하고, 피처 퓨전 블록을 통해 상기 학습용 피처맵들 중에서의 적어도 일부인 학습용 제1 피처맵 내지 학습용 제k 피처맵 - 상기 k는 2 이상의 정수임 - 을 탑-다운 패스를 이용한 탑-다운 피처 퓨전과 바텀-업 패스를 이용한 바텀-업 피처 퓨전을 수행하여 학습용 제1 퓨전 피처맵 내지 학습용 제k 퓨전 피처맵을 생성하도록 하며, 디텍션 블록을 통해 상기 학습용 제1 퓨전 피처맵 내지 상기 학습용 제k 퓨전 피처맵 각각에서 상기 사람에 대응되는 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제k 바운딩 박스 및 학습용 제k 스켈러튼 키폰인트들을 검출하도록 하고, 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제k 바운딩 박스 및 상기 학습용 제k 스켈러튼 키포인트들을 이용하여 상기 학습용 특정 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 특정 바운딩 박스 및 학습용 특정 스켈러튼 키포인트들을 생성하도록 하는 학습 장치.
  17. 제11항에 있어서,
    상기 프로세서는,
    상기 (I) 프로세스에서, 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 중 어느 하나의 학습용 특정 이미지 프레임에 대하여, 피처 추출 블록을 통해 상기 학습용 특정 이미지 프레임을 적어도 한번 컨볼루션 연산하여 학습용 피처맵을 생성하도록 하고, 오브젝트 디텍터를 통해 상기 피처맵을 러닝 연산하여 상기 학습용 특정 이미지 프레임에서 상기 사람을 검출한 학습용 특정 바운딩 박스를 생성하도록 하며, 포즈 에스티메이터를 통해 상기 피처맵을 러닝 연산하여 상기 학습용 특정 이미지 프레임에서 상기 사람에 대응되는 학습용 특정 스켈러튼 키포인트들을 생성하도록 하는 학습 장치.
  18. 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 테스트 장치에 있어서,
    비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 인스트럭션들이 저장된 메모리; 및
    상기 메모리에 저장된 상기 인스트럭션들에 따라 비디오 분석을 통해 상기 사람의 행동을 검출하는 딥러닝 기반의 상기 행동 검출 모델을 테스트하는 동작을 수행하는 프로세서;
    를 포함하며,
    상기 프로세서는, (I) 학습 장치에 의해, (i) 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 - 상기 t는 2 이상의 정수임 - 이 획득되면, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스, (ii) (ii-1) 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 학습용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 상기 학습용 제t 디스크릿 액션을 검출하는 프로세스 및 (ii-2) 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임에서 상기 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 상기 학습용 제t 이미지 프레임에서 상기 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지를 각각 러닝 연산하여 상기 학습용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 상기 학습용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 상기 학습용 제1 액션 추정값 내지 상기 학습용 제t 액션 추정값을 참조하여 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스, 및 (iii) 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 상기 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 상기 제1 로스와 상기 제2 로스를 이용하여 상기 디스크릿 액션 검출 네트워크와 상기 컨티뉴어스 액션 검출 네트워크를 학습시키는 프로세스가 수행된 상태에서, 카메라에서 촬영된 비디오에 대응되는 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임이 획득되면, 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임 각각을 상기 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 테스트용 제1 바운딩 박스 내지 적어도 하나의 테스트용 제t 바운딩 박스, 및 적어도 하나의 테스트용 제1 스켈러튼 키포인트들 내지 적어도 하나의 테스트용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스, 및 (II) (i) 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들을 상기 디스크릿 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 테스트용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 제1 디스크릿 액션 내지 상기 테스트용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 제t 디스크릿 액션을 검출하는 프로세스, 및 (ii) 상기 테스트용 제1 바운딩 박스 내지 상기 테스트용 제t 바운딩 박스를 상기 컨티뉴어스 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 테스트용 제1 이미지 프레임에서 상기 테스트용 제1 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제1 크롭 이미지 내지 상기 테스트용 제t 이미지 프레임에서 상기 테스트용 제t 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 상기 클래시파이어를 통해 상기 테스트용 제1 크롭 이미지 내지 상기 테스트용 제t 크롭 이미지를 각각 러닝 연산하여 상기 테스트용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 테스트용 제1 액션 추정값 내지 상기 테스트용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 테스트용 제t 액션 추정값을 생성하도록 하고, 상기 테스트용 제1 액션 추정값 내지 상기 테스트용 제t 액션 추정값을 참조하여 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스를 수행하는 테스트 장치.
  19. 제18항에 있어서,
    상기 프로세서는,
    상기 (II) 프로세스의 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들 중 어느 하나인 테스트용 특정 바운딩 박스 및 테스트용 특정 스켈러튼 키포인트들을 참조하되, 상기 테스트용 특정 바운딩 박스의 아스펙트비, 상기 테스트용 특정 스켈러튼 키포인트들에서 스켈러튼 키포인트들 사이의 수직 거리들 중 적어도 어느 하나를 이용한 휴리스틱 분석에 의해 특정 디스크릿 액션을 검출하도록 하는 테스트 장치.
  20. 제18항에 있어서,
    상기 프로세서는,
    상기 (II) 프로세스의 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 테스트용 제1 디스크릿 액션 내지 상기 테스트용 제t 디스크릿 액션 중에서 동일한 테스트용 테스트용 디스크릿 액션이 검출되는 횟수가 기설정된 임계 횟수 이상일 경우, 상기 테스트용 제1 바운딩 박스 내지 상기 테스트용 제t 바운딩 박스 각각의 위치를 참조하여, 위치 변화가 기설정된 임계 위치변화 미만인 경우 상기 동일한 테스트용 디스크릿 액션에 대응되는 상기 사람의 테스트용 제1 서브 디스크릿 액션을 검출하며, 상기 위치 변화가 상기 기설정된 임계 위치변화 이상인 경우 상기 동일한 테스트용 디스크릿 액션에 대응되거나 상기 테스트용 제1 서브 디스크릿 액션에 대응되는 테스트용 제2 서브 디스크릿 액션을 검출하도록 하는 테스트 장치.
KR1020240009546A 2024-01-22 2024-01-22 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법 및 테스트하는 방법, 그리고, 이를 이용한 학습 장치 및 테스트 장치 KR102663992B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020240009546A KR102663992B1 (ko) 2024-01-22 2024-01-22 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법 및 테스트하는 방법, 그리고, 이를 이용한 학습 장치 및 테스트 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020240009546A KR102663992B1 (ko) 2024-01-22 2024-01-22 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법 및 테스트하는 방법, 그리고, 이를 이용한 학습 장치 및 테스트 장치

Publications (1)

Publication Number Publication Date
KR102663992B1 true KR102663992B1 (ko) 2024-05-10

Family

ID=91072134

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020240009546A KR102663992B1 (ko) 2024-01-22 2024-01-22 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법 및 테스트하는 방법, 그리고, 이를 이용한 학습 장치 및 테스트 장치

Country Status (1)

Country Link
KR (1) KR102663992B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090050890A (ko) * 2007-11-16 2009-05-20 삼성전자주식회사 행동 분석 시스템 및 방법
KR20110043775A (ko) * 2008-08-19 2011-04-27 디지맥 코포레이션 콘텐트 처리를 위한 방법들 및 시스템들
KR20130055029A (ko) * 2009-04-14 2013-05-27 퀄컴 인코포레이티드 모바일 디바이스들을 이용한 이미지 인식을 위한 시스템 및 방법
KR20140000315A (ko) * 2011-01-31 2014-01-02 마이크로소프트 코포레이션 깊이 맵을 이용하는 모바일 카메라 로컬라이제이션

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090050890A (ko) * 2007-11-16 2009-05-20 삼성전자주식회사 행동 분석 시스템 및 방법
KR20110043775A (ko) * 2008-08-19 2011-04-27 디지맥 코포레이션 콘텐트 처리를 위한 방법들 및 시스템들
KR20130055029A (ko) * 2009-04-14 2013-05-27 퀄컴 인코포레이티드 모바일 디바이스들을 이용한 이미지 인식을 위한 시스템 및 방법
KR20140000315A (ko) * 2011-01-31 2014-01-02 마이크로소프트 코포레이션 깊이 맵을 이용하는 모바일 카메라 로컬라이제이션

Similar Documents

Publication Publication Date Title
US11182621B2 (en) Systems and methods for behavior understanding from trajectories
Li et al. Scale-aware fast R-CNN for pedestrian detection
CN107358149B (zh) 一种人体姿态检测方法和装置
US10872262B2 (en) Information processing apparatus and information processing method for detecting position of object
US9098740B2 (en) Apparatus, method, and medium detecting object pose
CN105279484B (zh) 对象检测方法和对象检测装置
US20180114071A1 (en) Method for analysing media content
KR102465960B1 (ko) 변화점 검출을 활용한 다중클래스 다중물체 추적 방법
KR101930940B1 (ko) 영상 분석 장치 및 방법
CN109086873A (zh) 递归神经网络的训练方法、识别方法、装置及处理设备
Bae Object detection based on region decomposition and assembly
CN108830185B (zh) 基于多任务联合学习的行为识别及定位方法
CN109711344B (zh) 一种前端智能化的特定异常行为检测方法
JP2014093023A (ja) 物体検出装置、物体検出方法及びプログラム
JP2018181273A (ja) 画像処理装置及びその方法、プログラム
CN108280421B (zh) 基于多特征深度运动图的人体行为识别方法
US20080175447A1 (en) Face view determining apparatus and method, and face detection apparatus and method employing the same
CN109902576B (zh) 一种头肩图像分类器的训练方法及应用
Zhang et al. Modeling long-and short-term temporal context for video object detection
Zhang et al. An object counting network based on hierarchical context and feature fusion
KR102663992B1 (ko) 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법 및 테스트하는 방법, 그리고, 이를 이용한 학습 장치 및 테스트 장치
Babu et al. Fully complex-valued ELM classifiers for human action recognition
Kishore et al. DSLR-Net a depth based sign language recognition using two stream convents
Fujita A Fast-RCNN implementation for human silhouette detection in video sequences
Alom et al. Robust multi-view pedestrian tracking using neural networks

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant