KR102663992B1

KR102663992B1 - 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법 및 테스트하는 방법, 그리고, 이를 이용한 학습 장치 및 테스트 장치

Info

Publication number: KR102663992B1
Application number: KR1020240009546A
Authority: KR
Inventors: 김명준
Original assignee: 주식회사 딥핑소스
Priority date: 2024-01-22
Filing date: 2024-01-22
Publication date: 2024-05-10

Abstract

본 발명은 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법에 있어서, (a) 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 - 상기 t는 2 이상의 정수임 - 이 획득되면, 학습 장치가, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 단계; (b) 상기 학습 장치가, (i) 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 학습용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제t 디스크릿 액션을 검출하는 프로세스, 및 (ii) 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임에서 상기 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 상기 학습용 제t 이미지 프레임에서 상기 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지를 각각 러닝 연산하여 상기 학습용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 상기 학습용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 상기 학습용 제1 액션 추정값 내지 상기 학습용 제t 액션 추정값을 참조하여 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 단계; 및 (c) 상기 학습 장치가, 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 상기 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 상기 제1 로스와 상기 제2 로스를 이용하여 상기 디스크릿 액션 검출 네트워크와 상기 컨티뉴어스 액션 검출 네트워크를 학습시키는 단계; 를 포함하는 방법에 관한 것이다.

Description

비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법 및 테스트하는 방법, 그리고, 이를 이용한 학습 장치 및 테스트 장치{METHOD FOR LEARNING AND TESTING A BEHAVIOR DETECTION MODEL BASED ON DEEP LEARNING CAPABLE OF DETECTING BEHAVIOR OF PERSON THROUGH VIDEO ANALYSIS, AND LEARNING DEVICE AND TESTING DEVICE USING THE SAME}

본 발명은 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 해동 검출 모델을 학습하는 방법 및 테스트하는 방법, 그리고, 이를 이용한 학습 장치 및 테스트 장치에 관한 것이다.

딥러닝 기술은 컴퓨터 비젼 및 음성 인식을 포함한 다양한 응용 분야에서 상당한 개선을 보여왔다.

특히, 컴퓨터 비젼에서는, CNN(Convolutional Neural Networks)으로 알려진 특정 유형의 딥러닝 모델이 오브젝트 인식 분야에서 매우 좋은 결과를 보여 주고 있으며, CNN은 실제 응용 프로그램에서 유용한 오브젝트 인식 및 감지에 대한 신뢰할 수 있는 결과를 보여주고 있다.

최근에는, 영상 관제 시스템이나, 스포츠 분석, 운전 보조 시스템, 스마트홈, 실버케어 시스템 등 다양한 분야에서 카메라에서 촬영되는 비디오를 분석하여 인간 행동을 인식하는 데 딥러닝 모델이 이용되고 있다.

비디오를 이용한 인간 행동 인식을 위한 딥러닝 모델에서는, 비디오의 이미지 프레임들에서 공간적인 특징과 시변적인 특징을 추출한 다음, 공간적인 특징과 시변적인 특징을 함축하고 함축된 정보를 통해 행동 범주를 예측한다.

이러한 딥러닝 모델을 위용한 행동 인식 기술은, CVPR 2015에 발표된 논문 'Long-term Recurrent Convolutional Networks for visual Recognition and Description'에서와 같이 CNN과 LSTM을 결합한 방법, ICCV2015 학회에서 발표된 논문 'Learning Spatiotemporal Features with 3D Convolutional Networks'에서와 같이 이미지 처리를 위한 2D CNN에서 차원을 하나 늘린 구조로, 늘어난 차원을 이용하여 시변 데이터를 처리하는 방법, NeurIPS2014 학회에서 발표된 논문 'Two-Stream Convolutional Networks for Action Recognition in Videos'에서와 같이 RGB 이미지는 Spatial stream CNN 블록을 통해 처리하며 옵티컬 플로우는 3개의 그레이 이미지를 모아 3채널 이미지로 변환한 뒤 Temporal stream CNN 블록으로 처리하고, 처리한 결과를 모아 예측 결과를 출력하는 방법, CVPR2016 학회에서 발표된 논문 'Convolutional Two-Stream Network Fusion for Video Action Recognition'에서와 같이 3D CNN과 3D 풀링(pooling)을 통해 시공간 정보의 결합 분포로 데이터를 처리하여 예측하는 방법 등이 있다.

하지만, 이와 같은 종래의 행동 인식 기술은 입력으로 비디오 데이터를 이용할 뿐만 아니라 3D 네트워크를 적용하여야 하므로, 실시간으로 행동 인식을 수행하는 실시간 어플리케이션에 적용하기 어려운 문제점이 있다.

또한, 인간 행동과 관련한 비디오 데이터인 학습 데이터를 확보하기가 어려우며, 그에 따라, 행동 인식을 위한 딥러닝 모델을 학습하는 데 어려움이 있다.

따라서, 본 출원인은 실시간 어플리케이션에 적용 가능하며 용이하게 학습 가능한 사람의 행동을 검출하는 딥러닝 모델을 제안하고자 한다.

본 발명은, 전술한 종래 기술의 문제점을 모두 해결하는 것을 그 목적으로 한다.

또한, 본 발명은 실시간 어플리케이션에 적용 가능한 행동 검출 모델을 제공하는 것을 다른 목적으로 한다.

또한, 본 발명은 충분한 학습 데이터를 이용하여 학습 가능한 행동 검출 모델을 제공하는 것을 또 다른 목적으로 한다.

또한, 발명은 이미지 처리 기술을 이용하여 비디오에서의 사람의 행동을 검출하는 행동 검출 모델을 제공하는 것을 또 다른 목적으로 한다.

상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.

본 발명의 일 실시예에 따르면, 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법에 있어서, (a) 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 - 상기 t는 2 이상의 정수임 - 이 획득되면, 학습 장치가, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 단계; (b) 상기 학습 장치가, (i) 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 학습용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제t 디스크릿 액션을 검출하는 프로세스, 및 (ii) 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임에서 상기 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 상기 학습용 제t 이미지 프레임에서 상기 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지를 각각 러닝 연산하여 상기 학습용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 상기 학습용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 상기 학습용 제1 액션 추정값 내지 상기 학습용 제t 액션 추정값을 참조하여 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 단계; 및 (c) 상기 학습 장치가, 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 상기 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 상기 제1 로스와 상기 제2 로스를 이용하여 상기 디스크릿 액션 검출 네트워크와 상기 컨티뉴어스 액션 검출 네트워크를 학습시키는 단계; 를 포함하는 방법이 제공된다.

상기 일 실시예에서, 상기 (b) 단계에서, 상기 학습 장치는, 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 중 어느 하나인 학습용 특정 바운딩 박스 및 학습용 특정 스켈러튼 키포인트들을 참조하되, 상기 학습용 특정 바운딩 박스의 아스펙트비, 상기 학습용 특정 스켈러튼 키포인트들에서 스켈러튼 키포인트들 사이의 수직 거리들 중 적어도 어느 하나를 이용한 휴리스틱 분석에 의해 특정 디스크릿 액션을 검출하도록 할 수 있다.

상기 일 실시예에서, 상기 (b) 단계에서, 상기 학습 장치는, 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 중에서 동일한 학습용 디스크릿 액션이 검출되는 횟수가 기설정된 임계 횟수 이상일 경우, 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스 각각의 위치를 참조하여, 위치 변화가 기설정된 임계 위치변화 미만인 경우 상기 동일한 학습용 디스크릿 액션에 대응되는 상기 사람의 학습용 제1 서브 디스크릿 액션을 검출하며, 상기 위치 변화가 상기 기설정된 임계 위치변화 이상인 경우 상기 동일한 학습용 디스크릿 액션에 대응되거나 상기 학습용 제1 서브 디스크릿 액션에 대응되는 학습용 제2 서브 디스크릿 액션을 검출하도록 할 수 있다.

상기 일 실시예에서, 상기 (b) 단계에서, 상기 학습 장치는, 상기 (ii) 프로세스에서, 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지 각각에 대응되는 제1 클래시파이어 내지 제t 클래시파이어 각각을 통해, 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지 각각을 각각 러닝 연산하도록 할 수 있다.

상기 일 실시예에서, 상기 (c) 단계에서, 상기 학습 장치는, 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스와 이에 대응되는 각각의 바운딩 박스 그라운드 트루스들을 참조하여 생성한 제3_1 로스, 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 스켈러튼 키포인트들과 이에 대응되는 각각의 스켈러튼 키포인트 그라운드 트루스들을 참조하여 생성한 제3_2 로스를 이용하여 상기 키포인트 및 바운딩 박스 추출 네트워크를 더 학습시킬 수 있다.

상기 일 실시예에서, 상기 (a) 단계에서, 상기 학습 장치는, 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 중 어느 하나의 학습용 특정 이미지 프레임에 대하여, 피처 추출 블록을 통해 상기 학습용 특정 이미지 프레임에 컨볼루션 연산들을 수행하여 서로 다른 스케일을 가지는 학습용 피처맵들을 생성하도록 하고, 피처 퓨전 블록을 통해 상기 학습용 피처맵들 중에서의 적어도 일부인 학습용 제1 피처맵 내지 학습용 제k 피처맵 - 상기 k는 2 이상의 정수임 - 을 탑-다운 패스를 이용한 탑-다운 피처 퓨전과 바텀-업 패스를 이용한 바텀-업 피처 퓨전을 수행하여 학습용 제1 퓨전 피처맵 내지 학습용 제k 퓨전 피처맵을 생성하도록 하며, 디텍션 블록을 통해 상기 학습용 제1 퓨전 피처맵 내지 상기 학습용 제k 퓨전 피처맵 각각에서 상기 사람에 대응되는 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제k 바운딩 박스 및 학습용 제k 스켈러튼 키폰인트들을 검출하도록 하고, 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제k 바운딩 박스 및 상기 학습용 제k 스켈러튼 키포인트들을 이용하여 상기 학습용 특정 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 특정 바운딩 박스 및 학습용 특정 스켈러튼 키포인트들을 생성하도록 할 수 있다.

상기 일 실시예에서, 상기 (a) 단계에서, 상기 학습 장치는, 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 중 어느 하나의 학습용 특정 이미지 프레임에 대하여, 피처 추출 블록을 통해 상기 학습용 특정 이미지 프레임을 적어도 한번 컨볼루션 연산하여 학습용 피처맵을 생성하도록 하고, 오브젝트 디텍터를 통해 상기 피처맵을 러닝 연산하여 상기 학습용 특정 이미지 프레임에서 상기 사람을 검출한 학습용 특정 바운딩 박스를 생성하도록 하며, 포즈 에스티메이터를 통해 상기 피처맵을 러닝 연산하여 상기 학습용 특정 이미지 프레임에서 상기 사람에 대응되는 학습용 특정 스켈러튼 키포인트들을 생성하도록 할 수 있다.

본 발명의 다른 실시예에 따르면, 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 방법에 있어서, (a) 학습 장치에 의해, (i) 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 - 상기 t는 2 이상의 정수임 - 이 획득되면, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스, (ii) (ii-1) 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 학습용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 상기 학습용 제t 디스크릿 액션을 검출하는 프로세스 및 (ii-2) 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임에서 상기 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 상기 학습용 제t 이미지 프레임에서 상기 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지를 각각 러닝 연산하여 상기 학습용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 상기 학습용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 상기 학습용 제1 액션 추정값 내지 상기 학습용 제t 액션 추정값을 참조하여 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스, 및 (iii) 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 상기 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 상기 제1 로스와 상기 제2 로스를 이용하여 상기 디스크릿 액션 검출 네트워크와 상기 컨티뉴어스 액션 검출 네트워크를 학습시키는 프로세스가 수행된 상태에서, 카메라에서 촬영된 비디오에 대응되는 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임이 획득되면, 테스트 장치가, 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임 각각을 상기 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 테스트용 제1 바운딩 박스 내지 적어도 하나의 테스트용 제t 바운딩 박스, 및 적어도 하나의 테스트용 제1 스켈러튼 키포인트들 내지 적어도 하나의 테스트용 제t 스켈러튼 키포인트들을 생성하도록 하는 단계; 및 (b) 상기 테스트 장치가, (i) 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들을 상기 디스크릿 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 테스트용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 제1 디스크릿 액션 내지 상기 테스트용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 제t 디스크릿 액션을 검출하는 프로세스, 및 (ii) 상기 테스트용 제1 바운딩 박스 내지 상기 테스트용 제t 바운딩 박스를 상기 컨티뉴어스 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 테스트용 제1 이미지 프레임에서 상기 테스트용 제1 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제1 크롭 이미지 내지 상기 테스트용 제t 이미지 프레임에서 상기 테스트용 제t 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 상기 클래시파이어를 통해 상기 테스트용 제1 크롭 이미지 내지 상기 테스트용 제t 크롭 이미지를 각각 러닝 연산하여 상기 테스트용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 테스트용 제1 액션 추정값 내지 상기 테스트용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 테스트용 제t 액션 추정값을 생성하도록 하고, 상기 테스트용 제1 액션 추정값 내지 상기 테스트용 제t 액션 추정값을 참조하여 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 단계; 를 포함하는 방법이 제공된다.

상기 다른 실시예에서, 상기 (b) 단계에서, 상기 테스트 장치는, 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들 중 어느 하나인 테스트용 특정 바운딩 박스 및 테스트용 특정 스켈러튼 키포인트들을 참조하되, 상기 테스트용 특정 바운딩 박스의 아스펙트비, 상기 테스트용 특정 스켈러튼 키포인트들에서 스켈러튼 키포인트들 사이의 수직 거리들 중 적어도 어느 하나를 이용한 휴리스틱 분석에 의해 특정 디스크릿 액션을 검출하도록 할 수 있다.

상기 다른 실시예에서, 상기 (b) 단계에서, 상기 테스트 장치는, 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 테스트용 제1 디스크릿 액션 내지 상기 테스트용 제t 디스크릿 액션 중에서 동일한 테스트용 테스트용 디스크릿 액션이 검출되는 횟수가 기설정된 임계 횟수 이상일 경우, 상기 테스트용 제1 바운딩 박스 내지 상기 테스트용 제t 바운딩 박스 각각의 위치를 참조하여, 위치 변화가 기설정된 임계 위치변화 미만인 경우 상기 동일한 테스트용 디스크릿 액션에 대응되는 상기 사람의 테스트용 제1 서브 디스크릿 액션을 검출하며, 상기 위치 변화가 상기 기설정된 임계 위치변화 이상인 경우 상기 동일한 테스트용 디스크릿 액션에 대응되거나 상기 테스트용 제1 서브 디스크릿 액션에 대응되는 테스트용 제2 서브 디스크릿 액션을 검출하도록 할 수 있다.

본 발명의 또 다른 실시예에 따르면, 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 학습 장치에 있어서, 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하기 위한 인스트럭션들이 저장된 메모리; 및 상기 메모리에 저장된 상기 인스트럭션들에 따라 비디오 분석을 통해 상기 사람의 행동을 검출하는 딥러닝 기반의 상기 행동 검출 모델을 학습하는 동작을 수행하는 프로세서; 를 포함하며, 상기 프로세서는, (I) 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 - 상기 t는 2 이상의 정수임 - 이 획득되면, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스, (II) (i) 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 학습용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제t 디스크릿 액션을 검출하는 프로세스, 및 (ii) 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임에서 상기 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 상기 학습용 제t 이미지 프레임에서 상기 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지를 각각 러닝 연산하여 상기 학습용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 상기 학습용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 상기 학습용 제1 액션 추정값 내지 상기 학습용 제t 액션 추정값을 참조하여 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스, 및 (III) 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 상기 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 상기 제1 로스와 상기 제2 로스를 이용하여 상기 디스크릿 액션 검출 네트워크와 상기 컨티뉴어스 액션 검출 네트워크를 학습시키는 프로세스를 수행하는 학습 장치가 제공된다.

상기 또 다른 실시예에서, 상기 프로세서는, 상기 (II) 프로세스의 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 중 어느 하나인 학습용 특정 바운딩 박스 및 학습용 특정 스켈러튼 키포인트들을 참조하되, 상기 학습용 특정 바운딩 박스의 아스펙트비, 상기 학습용 특정 스켈러튼 키포인트들에서 스켈러튼 키포인트들 사이의 수직 거리들 중 적어도 어느 하나를 이용한 휴리스틱 분석에 의해 특정 디스크릿 액션을 검출하도록 할 수 있다.

상기 또 다른 실시예에서, 상기 프로세서는, 상기 (II) 프로세스의 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 중에서 동일한 학습용 디스크릿 액션이 검출되는 횟수가 기설정된 임계 횟수 이상일 경우, 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스 각각의 위치를 참조하여, 위치 변화가 기설정된 임계 위치변화 미만인 경우 상기 동일한 학습용 디스크릿 액션에 대응되는 상기 사람의 학습용 제1 서브 디스크릿 액션을 검출하며, 상기 위치 변화가 상기 기설정된 임계 위치변화 이상인 경우 상기 동일한 학습용 디스크릿 액션에 대응되거나 상기 학습용 제1 서브 디스크릿 액션에 대응되는 학습용 제2 서브 디스크릿 액션을 검출하도록 할 수 있다.

상기 또 다른 실시예에서, 상기 프로세서는, 상기 (II) 프로세스의 상기 (ii) 프로세스에서, 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지 각각에 대응되는 제1 클래시파이어 내지 제t 클래시파이어 각각을 통해, 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지 각각을 각각 러닝 연산하도록 할 수 있다.

상기 또 다른 실시예에서, 상기 프로세서는, 상기 (III) 프로세스에서, 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스와 이에 대응되는 각각의 바운딩 박스 그라운드 트루스들을 참조하여 생성한 제3_1 로스, 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 스켈러튼 키포인트들과 이에 대응되는 각각의 스켈러튼 키포인트 그라운드 트루스들을 참조하여 생성한 제3_2 로스를 이용하여 상기 키포인트 및 바운딩 박스 추출 네트워크를 더 학습시킬 수 있다.

상기 또 다른 실시예에서, 상기 프로세서는, 상기 (I) 프로세스에서, 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 중 어느 하나의 학습용 특정 이미지 프레임에 대하여, 피처 추출 블록을 통해 상기 학습용 특정 이미지 프레임에 컨볼루션 연산들을 수행하여 서로 다른 스케일을 가지는 학습용 피처맵들을 생성하도록 하고, 피처 퓨전 블록을 통해 상기 학습용 피처맵들 중에서의 적어도 일부인 학습용 제1 피처맵 내지 학습용 제k 피처맵 - 상기 k는 2 이상의 정수임 - 을 탑-다운 패스를 이용한 탑-다운 피처 퓨전과 바텀-업 패스를 이용한 바텀-업 피처 퓨전을 수행하여 학습용 제1 퓨전 피처맵 내지 학습용 제k 퓨전 피처맵을 생성하도록 하며, 디텍션 블록을 통해 상기 학습용 제1 퓨전 피처맵 내지 상기 학습용 제k 퓨전 피처맵 각각에서 상기 사람에 대응되는 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제k 바운딩 박스 및 학습용 제k 스켈러튼 키폰인트들을 검출하도록 하고, 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제k 바운딩 박스 및 상기 학습용 제k 스켈러튼 키포인트들을 이용하여 상기 학습용 특정 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 특정 바운딩 박스 및 학습용 특정 스켈러튼 키포인트들을 생성하도록 할 수 있다.

상기 또 다른 실시예에서, 상기 프로세서는, 상기 (I) 프로세스에서, 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 중 어느 하나의 학습용 특정 이미지 프레임에 대하여, 피처 추출 블록을 통해 상기 학습용 특정 이미지 프레임을 적어도 한번 컨볼루션 연산하여 학습용 피처맵을 생성하도록 하고, 오브젝트 디텍터를 통해 상기 피처맵을 러닝 연산하여 상기 학습용 특정 이미지 프레임에서 상기 사람을 검출한 학습용 특정 바운딩 박스를 생성하도록 하며, 포즈 에스티메이터를 통해 상기 피처맵을 러닝 연산하여 상기 학습용 특정 이미지 프레임에서 상기 사람에 대응되는 학습용 특정 스켈러튼 키포인트들을 생성하도록 할 수 있다.

본 발명의 또 다른 실시예에 따르면, 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 테스트 장치에 있어서, 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 인스트럭션들이 저장된 메모리; 및 상기 메모리에 저장된 상기 인스트럭션들에 따라 비디오 분석을 통해 상기 사람의 행동을 검출하는 딥러닝 기반의 상기 행동 검출 모델을 테스트하는 동작을 수행하는 프로세서; 를 포함하며, 상기 프로세서는, (I) 학습 장치에 의해, (i) 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 - 상기 t는 2 이상의 정수임 - 이 획득되면, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스, (ii) (ii-1) 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 학습용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 상기 학습용 제t 디스크릿 액션을 검출하는 프로세스 및 (ii-2) 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임에서 상기 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 상기 학습용 제t 이미지 프레임에서 상기 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지를 각각 러닝 연산하여 상기 학습용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 상기 학습용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 상기 학습용 제1 액션 추정값 내지 상기 학습용 제t 액션 추정값을 참조하여 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스, 및 (iii) 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 상기 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 상기 제1 로스와 상기 제2 로스를 이용하여 상기 디스크릿 액션 검출 네트워크와 상기 컨티뉴어스 액션 검출 네트워크를 학습시키는 프로세스가 수행된 상태에서, 카메라에서 촬영된 비디오에 대응되는 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임이 획득되면, 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임 각각을 상기 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 테스트용 제1 바운딩 박스 내지 적어도 하나의 테스트용 제t 바운딩 박스, 및 적어도 하나의 테스트용 제1 스켈러튼 키포인트들 내지 적어도 하나의 테스트용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스, 및 (II) (i) 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들을 상기 디스크릿 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 테스트용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 제1 디스크릿 액션 내지 상기 테스트용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 제t 디스크릿 액션을 검출하는 프로세스, 및 (ii) 상기 테스트용 제1 바운딩 박스 내지 상기 테스트용 제t 바운딩 박스를 상기 컨티뉴어스 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 테스트용 제1 이미지 프레임에서 상기 테스트용 제1 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제1 크롭 이미지 내지 상기 테스트용 제t 이미지 프레임에서 상기 테스트용 제t 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 상기 클래시파이어를 통해 상기 테스트용 제1 크롭 이미지 내지 상기 테스트용 제t 크롭 이미지를 각각 러닝 연산하여 상기 테스트용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 테스트용 제1 액션 추정값 내지 상기 테스트용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 테스트용 제t 액션 추정값을 생성하도록 하고, 상기 테스트용 제1 액션 추정값 내지 상기 테스트용 제t 액션 추정값을 참조하여 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스를 수행하는 테스트 장치가 제공된다.

상기 또 다른 실시예에서, 상기 프로세서는, 상기 (II) 프로세스의 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들 중 어느 하나인 테스트용 특정 바운딩 박스 및 테스트용 특정 스켈러튼 키포인트들을 참조하되, 상기 테스트용 특정 바운딩 박스의 아스펙트비, 상기 테스트용 특정 스켈러튼 키포인트들에서 스켈러튼 키포인트들 사이의 수직 거리들 중 적어도 어느 하나를 이용한 휴리스틱 분석에 의해 특정 디스크릿 액션을 검출하도록 할 수 있다.

상기 또 다른 실시예에서, 상기 프로세서는, 상기 (II) 프로세스의 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 테스트용 제1 디스크릿 액션 내지 상기 테스트용 제t 디스크릿 액션 중에서 동일한 테스트용 테스트용 디스크릿 액션이 검출되는 횟수가 기설정된 임계 횟수 이상일 경우, 상기 테스트용 제1 바운딩 박스 내지 상기 테스트용 제t 바운딩 박스 각각의 위치를 참조하여, 위치 변화가 기설정된 임계 위치변화 미만인 경우 상기 동일한 테스트용 디스크릿 액션에 대응되는 상기 사람의 테스트용 제1 서브 디스크릿 액션을 검출하며, 상기 위치 변화가 상기 기설정된 임계 위치변화 이상인 경우 상기 동일한 테스트용 디스크릿 액션에 대응되거나 상기 테스트용 제1 서브 디스크릿 액션에 대응되는 테스트용 제2 서브 디스크릿 액션을 검출하도록 할 수 있다.

이 외에도, 본 발명의 방법을 실행하기 위한 컴퓨터 프로그램을 기록하기 위한 컴퓨터 판독 가능한 기록 매체가 더 제공된다.

본 발명에 의하면, 실시간 어플리케이션에 적용 가능한 행동 검출 모델을 제공할 수 있게 된다.

또한, 본 발명에 의하면, 충분한 학습 데이터를 이용하여 학습 가능한 행동 검출 모델을 제공할 수 있게 된다.

또한, 본 발명에 의하면, 이미지 처리 기술을 이용하여 비디오에서의 사람의 행동을 검출하는 행동 검출 모델을 제공할 수 있게 된다.

본 발명의 실시예의 설명에 이용되기 위하여 첨부된 아래 도면들은 본 발명의 실시예들 중 단지 일부일 뿐이며, 본 발명이 속한 기술분야에서 통상의 지식을 가진 자(이하 "통상의 기술자")에게 있어서는 발명적 작업이 이루어짐 없이 이 도면들에 기초하여 다른 도면들이 얻어질 수 있다.
도 1은 본 발명의 일 실시예에 따른 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 학습 장치를 개략적으로 도시한 것이고,
도 2는 본 발명의 일 실시예에 따른 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법을 개략적으로 도시한 것이고,
도 3은 본 발명의 일 실시예에 따른 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법에서 키포인트 및 바운딩 박스 추출 네트워크의 하나의 동작 과정을 개략적으로 도시한 것이고,
도 4는 본 발명의 일 실시예에 따른 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법에서 키포인트 및 바운딩 박스 추출 네트워크의 다른 동작 과정을 개략적으로 도시한 것이고,
도 5a 및 도 5b는 본 발명의 일 실시예에 따른 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법에서 디스크릿 액션을 검출하는 상태를 예시적으로 도시한 것이고,
도 6은 본 발명의 일 실시예에 따른 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법에서 컨티뉴어스 액션 검출 네트워크의 동작 과정을 개략적으로 도시한 것이고,
도 7은 본 발명의 다른 실시예에 따른 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 테스트 장치를 개략적으로 도시한 것이고,
도 8은 본 발명의 다른 실시예에 따른 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 방법을 개략적으로 도시한 것이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.

이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 학습 장치를 개략적으로 도시한 것으로, 도 1을 참조하면, 학습 장치(100)는 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하기 위한 인스트럭션들이 저장된 메모리(101)와, 메모리(101)에 저장된 인스트럭션들에 따라 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 동작을 수행하는 프로세서(102)를 포함할 수 있다.

구체적으로, 학습 장치(100)는 전형적으로 컴퓨팅 장치(예컨대, 컴퓨터 프로세서, 메모리, 스토리지, 입력 장치 및 출력 장치, 기타 기존의 컴퓨팅 장치의 구성요소들을 포함할 수 있는 장치; 라우터, 스위치 등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS) 및 스토리지 영역 네트워크(SAN)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어(즉, 컴퓨팅 장치로 하여금 특정의 방식으로 기능하게 하는 인스트럭션들)의 조합을 이용하여 원하는 시스템 성능을 달성하는 것일 수 있으나, 이에 한정되는 것은 아니다.

또한, 컴퓨팅 장치의 프로세서는 MPU(Micro Processing Unit) 또는 CPU(Central Processing Unit), 캐쉬 메모리(Cache Memory), 데이터 버스(Data Bus) 등의 하드웨어 구성을 포함할 수 있다. 또한, 컴퓨팅 장치는 운영체제, 특정 목적을 수행하는 애플리케이션의 소프트웨어 구성을 더 포함할 수도 있다.

그러나, 컴퓨팅 장치가 본 발명을 실시하기 위한 미디엄, 프로세서 및 메모리가 통합된 형태인 integrated 프로세서를 포함하는 경우를 배제하는 것은 아니다.

한편, 학습 장치(100)의 프로세서(102)는 메모리(101)에 저장된 인스트럭션들에 따라, 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임이 획득되면, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스를 수행할 수 있다. 그리고, 학습 장치(100)의 프로세서(102)는 (i) 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 학습용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제t 디스크릿 액션을 검출하는 프로세스, 및 (ii) 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임에서 상기 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 상기 학습용 제t 이미지 프레임에서 상기 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지를 각각 러닝 연산하여 상기 학습용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 상기 학습용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 상기 학습용 제1 액션 추정값 내지 상기 학습용 제t 액션 추정값을 참조하여 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스를 수행할 수 있다. 이후, 학습 장치(100)의 프로세서(102)는 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 상기 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 상기 제1 로스와 상기 제2 로스를 이용하여 상기 디스크릿 액션 검출 네트워크와 상기 컨티뉴어스 액션 검출 네트워크를 학습시키는 프로세스를 수행할 수 있다.

이와 같이 구성된 본 발명의 일 실시예에 따른 학습 장치를 이용하여 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법을 도 2를 참조하여 설명하면 다음과 같다.

먼저, 학습 장치(100)는 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임(11)을 획득할 수 있다. 상기 t는 2 이상의 정수일 수 있다. 이때, 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임(11)에는 디스크릿 액션 그라운드 트루스 및 컨티뉴어스 액션 그라운드 트루스 중 적어도 하나의 그라운드 트루스가 어노테이션(annotation)되어 있을 수 있다. 이에 더하여, 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임(11)에는 사람에 대응되는 바운딩 박스 그라운드 트루스 및 스켈러튼 키포인트 그라운드 트루스가 어노테이션되어 있을 수도 있다.

그리고, 학습 장치(100)는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임(11) 각각을 키포인트 및 바운딩 박스 추출 네트워크(110)로 입력하여 키포인트 및 바운딩 박스 추출 네트워크(110)로 하여금 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들(12)을 생성하도록 할 수 있다.

일 예로, 도 3을 참조하면, 학습 장치(100)는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임(11) 각각을 키포인트 및 바운딩 박스 추출 네트워크(110)로 입력하여 키포인트 및 바운딩 박스 추출 네트워크(110)로 하여금, 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 중 어느 하나의 학습용 특정 이미지 프레임에 대하여, 피처 추출 블록(111)을 통해 학습용 특정 이미지 프레임에 컨볼루션 연산들을 수행하여 서로 다른 스케일을 가지는 학습용 피처맵들을 생성하도록 할 수 있다. 이때, 피처 추출 블록(111)은 CSP(Cross Stage Partial) 기법을 사용하는 YOLO(You Only Look Once) 모델의 백본 네트워크를 사용할 수 있으나, 본 발명이 이에 한정되는 것은 아니며, 컨볼루션 연산을 수행하는 컨볼루션 블록들을 이용하여 서로 다른 스케일을 가지는 다수의 피처맵들을 생성하는 다양한 네트워크를 사용할 수 있다.

그리고, 학습 장치(100)는 키포인트 및 바운딩 박스 추출 네트워크(110)로 하여금, 피처 퓨전 블록(112)을 통해 서로 다른 스케일을 가지는 학습용 피처맵들 중에서의 적어도 일부인 학습용 제1 피처맵 내지 학습용 제k 피처맵 각각에서 피처 퓨전을 수행하도록 할 수 있다. k는 2 이상의 정수일 수 있다. 이때, 피처 퓨전 블록(112)은 탑-다운 패스를 이용한 탑-다운 피처 퓨전과 바텀-업 패스를 이용한 바텀-업 피처 퓨전을 수행하여 학습용 제1 퓨전 피처맵 내지 학습용 제k 퓨전 피처맵을 생성할 수 있다. 즉, 탑-다운 패스에서는 특정 스케일의 학습용 피처맵을 업-샘플링하여 특정 스케일보다 큰 바로 다음 스케일의 학습용 피처맵에 피처들을 퓨전하며, 바텀-업 패스에서는 특정 스케일의 학습용 피처맵을 다운-샘플링하여 특정 스케일보다 작은 바로 다음 스케일의 학습용 피처맵에 피처들을 퓨전할 수 있다. 하지만, 본 발명이 이에 한정되는 것은 아니며, 학습용 제1 피처맵 내지 학습용 제k 피처맵 사이에서의 피처들을 퓨전하는 다양한 방법으로 수행될 수도 있다. 그리고, 도 3에서는 서로 다른 스케일을 가지는 4개의 학습용 피처맵을 이용하는 것으로 도시하였으나, 이는 설명의 편의를 위한 것으로, 본 발명이 이에 한정되는 것은 아니다.

이후, 학습 장치(100)는 키포인트 및 바운딩 박스 추출 네트워크(110)로 하여금, 디텍션 블록(113)을 통해 학습용 제1 퓨전 피처맵 내지 학습용 제k 퓨전 피처맵 각각에서 사람에 대응되는 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제k 바운딩 박스 및 학습용 제k 스켈러튼 키포인트들(114)을 검출하도록 할 수 있다. 이때, 디텍션 블록(113)은 서로 다른 스케일을 가지는 학습용 제1 퓨전 피처맵 내지 학습용 제t 퓨전 피처맵 각각을 각각의 디텍션 헤드를 통해 바운딩 박스와 스켈러튼 키포인트들을 검출하도록 함으로써, 서로 다른 스케일을 가지는 학습용 제1 퓨전 피처맵 내지 학습용 제t 퓨전 피처맵 각각에서 사람에 대응되는 바운딩 박스와 스켈러튼 키포인트들을 검출한 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제k 바운딩 박스 및 학습용 제k 스켈러튼 키포인트들(114)을 생성할 수 있다.

그리고, 학습 장치(100)는 키포인트 및 바운딩 박스 추출 네트워크(110)로 하여금, 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제k 바운딩 박스 및 학습용 제k 스켈러튼 키포인트들을 이용하여 학습용 특정 이미지 프레임에 위치하는 사람에 대응되는 학습용 특정 바운딩 박스 및 학습용 특정 스켈러튼 키포인트들을 생성하도록 할 수 있다.

다른 예로, 도 4를 참조하면, 학습 장치(100)는 키포인트 및 바운딩 박스 추출 네트워크(110)로 하여금, 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 중 어느 하나의 학습용 특정 이미지 프레임에 대하여, 피처 추출 블록(116)을 통해 학습용 특정 이미지 프레임을 적어도 한번 컨볼루션 연산하여 학습용 피처맵을 생성하도록 할 수 있다.

그리고, 학습 장치(100)는 키포인트 및 바운딩 박스 추출 네트워크(110)로 하여금, 오브젝트 디텍터(117)를 통해 학습용 피처맵을 러닝 연산하여 학습용 특정 이미지 프레임에서 사람을 검출한 학습용 특정 바운딩 박스(BB)를 생성하도록 하며, 포즈 에스티메이터(118)를 통해 학습용 피처맵을 러닝 연산하여 학습용 특정 이미지 프레임에서 사람에 대응되는 학습용 특정 스켈러튼 키포인트들(SK)을 생성하도록 할 수 있다. 이때, 오브젝트 디텍터(117)는 R-CNN 기반의 오브젝트 디텍터, YOLO 기반의 오브젝트 디텍터, SSD(Single Shot MultiBox Detector), RetinaNet 등과 같이 다양한 디텍션 네트워크로 구성될 수 있으며, 포즈 에스티메이터(118)는 PoseNet, OpenPose, ConvNet POSE, CPM(Convolutional Pose Machines), Stacked Hourglass Networks, CPN(Cascaded Pyramid Network), BlazePose, MoveNet 등 다양한 포즈 에스트메이션 네트워크로 구성될 수 있다.

다시, 도 2를 참조하면, 학습 장치(100)는 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제t 바운딩 박스 및 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크(120)로 입력하여 디스크릿 액션 검출 네트워크(120)로 하여금 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제t 바운딩 박스 및 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 학습용 제1 이미지 프레임에 위치하는 사람에 대응되는 학습용 제1 디스크릿 액션 내지 학습용 제t 이미지 프레임에 위치하는 사람에 대응되는 학습용 제t 디스크릿 액션(13)을 검출하는 프로세스를 수행할 수 있다.

이때, 학습 장치(100)는 디스크릿 액션 검출 네트워크(120)로 하여금, 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제t 바운딩 박스 및 학습용 제t 스켈러튼 키포인트들 중 어느 하나인 학습용 특정 바운딩 박스 및 학습용 특정 스켈러튼 키포인트들을 참조하되, 학습용 특정 바운딩 박스의 아스펙트비, 학습용 특정 스켈러튼 키포인트들에서 스켈러튼 키포인트들 사이의 수직 거리들 중 적어도 어느 하나를 이용한 휴리스틱 분석에 의해 특정 디스크릿 액션을 검출하도록 할 수 있다.

이에 더하여, 학습 장치(100)는 디스크릿 액션 검출 네트워크(120)로 하여금, 학습용 제1 디스크릿 액션 내지 학습용 제t 디스크릿 액션 중에서 동일한 학습용 디스크릿 액션이 검출되는 횟수가 기설정된 임계 횟수 이상일 경우, 학습용 제1 바운딩 박스 내지 학습용 제t 바운딩 박스 각각의 위치를 참조하여, 위치 변화가 기설정된 임계 위치변화 미만인 경우 동일한 학습용 디스크릿 액션에 대응되는 사람의 학습용 제1 서브 디스크릿 액션을 검출하며, 위치 변화가 기설정된 임계 위치변화 이상인 경우 동일한 학습용 디스크릿 액션에 대응되거나 학습용 제1 서브 디스크릿 액션에 대응되는 학습용 제2 서브 디스크릿 액션을 검출하도록 할 수 있다.

일 예로, 디스크릿 액션으로 사람의 “넘어짐(fall)” 액션을 검출하는 경우를 설명하면 다음과 같다.

도 5a에서와 같이, 이미지 상에 위치하는 정상적인 사람의 아스펙트비(aspect ratio)는 넘어지는 사람의 아스펙트비 보다 크게 나타날 수 있다. 따라서, 바운딩 박스의 아스펙트비가 기설정된 값 이상, 즉, 가로 길이보다 세로 길이가 커질 경우, 사람의 액션을 “넘어짐”으로 예측할 수 있다.

또한, 도 5b에서와 같이, 스켈러튼 키포인트들을 양쪽 어깨의 스켈러튼 키포인트들을 각각 P1, P4로 가정하고, 양쪽 허리의 스켈러튼 키포인트들을 각각 P2, P5로 가정하며, 양쪽 발의 스켈러튼 키포인트들을 각각 P3, P6으로 가정하고, P1과 P2 사이 또는 P4와 P5 사이의 수직 거리를 D1, P2와 P3 사이 또는 P5와 P6 사이의 수직 거리를 D2라 할 경우, 스켈러튼 키포인트들 사이의 수직 거리들을 이용하여 “넘어짐” 액션을 예측할 수 있다.

예들 들어, 이미지에서의 탑-레프트(top-left)의 좌표를 (0, 0)이라고 할 경우, 스켈러튼 키포인트들 사이의 수직 거리, 즉, y 좌표값이 다음의 조건을 만족하면 사람의 액션을 “넘어짐”으로 예측할 수 있다.

(i) P1(y) > P3(y) - D1 이고, P1(y) > P2(y) - D1/2 이며, P2(y) > P3(y) - D1/2 인 경우

(ii) P4(y) > P6(y) - D1 이고, P4(y) > P5(y) - D1/2 이며, P5(y) > P6(y) - D1/2 인 경우

이에 더하여, 기설정된 시간, 즉, 기설정된 이미지 프레임 개수에서 “넘어짐”으로 예측되는 횟수가 기설정된 임계 횟수 이상일 경우, 사람의 “넘어짐”으로 인하여 발생하는 “누움(laying)”으로 사람의 액션을 예측할 수 있다.

그리고, 사람의 액션이 “누움”으로 예측된 경우, 사람에 대응되는 바운딩 박스들의 위치 변화가 기설정된 임계 위치변화 미만인지 임계 위치변화 이상인지를 확인하여, “누움”으로 예측된 사람에 대응되는 바운딩 박스들의 위치 변화가 기설정된 임계 위치변화 미만일 경우에는 “누움”으로 사람의 액션을 동일하게 예측할 수 있으며, “누움”으로 예측된 사람에 대응되는 바운딩 박스들의 위치 변화가 기설정된 임계 위치변화 이상일 경우에는, “누움” 상태에서 “구름(rolling)”으로 사람의 액션을 예측할 수 있다. 이때, 사람의 바운딩 박스들의 위치 변화가 수평 방향으로의 위치 변화일 경우에는 사람이 “수평 방향으로 구름”으로 액션을 예측할 수 있으며, 사람의 바운딩 박스들의 위치 변화가 수직 방향으로의 위치 변화일 경우에는 사람이 “수직 방향으로 구름”으로 액션을 예측할 수 있다.

다시 도 2를 참조하면, 학습 장치(100)는 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크(130)로 입력하여 컨티뉴어스 액션 검출 네트워크(130)로 하여금, 학습용 제1 이미지 프레임에서 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 학습용 제t 이미지 프레임에서 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 학습용 제1 크롭 이미지 내지 학습용 제t 크롭 이미지를 각각 러닝 연산하여 학습용 제1 크롭 이미지 내의 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 학습용 제t 크롭 이미지 내의 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 학습용 제1 액션 추정값 내지 학습용 제t 액션 추정값을 참조하여 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임에 위치하는 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행할 수 있다. 이때, 컨티뉴어스 액션 검출 네트워크(130)에 포함된 클래시파이어는 학습용 크롭 이미지에서 추출된 특징만을 이용하여 사람의 액션을 추정한 액션 추정값을 예측할 수 있다. 그리고, 클래시파이어는 적어도 한번의 컨볼루션 연산을 통해 학습용 크롭 이미지에서 특징을 추출하고, 추출된 특징을 기설정된 액션 추정값 클래스들 중에서 해당하는 특정 액션 추정값을 예측하는 다양한 딥러닝 네트워크를 포함할 수 있디.

일 예로, 액션 추정값으로 “집다(pick)”, “보다(watch)”, “바구니 또는 카트에 넣다(add)” 등이 설정된 상태에서, 액션 추정값들이 “집다” - “집다” - “넣다”의 순서로 예측되면, 사람의 액션은 매장의 진열대에서 상품을 구매하기 위하여 바구니 또는 카드에 상품을 담는 액션인 “담다”로 예측할 수 있으며, 액션 추정값들이 “집다” - “보다” - “넣다”의 순서로 예측되면, 사람의 액션은 매장의 진열대에서 상품을 집어서 확인한 다음 상품을 구매하기 위하여 바구니 또는 카드에 상품을 담는 액션인 “담다”로 예측할 수 있다. 또한, 액션 추정값들이 “넣다” - “보다” - “집다”의 순서로 예측되면, 사람의 액션은 물건 등을 바구니 또는 카트에 넣은 다음, 물건 등을 확인한 후 상품을 다시 매장의 진열대에 놓는 액션인 “되돌려 놓다”로 예측할 수 있으며, 액션 추정값들이 “집다” - “집다” - “보다” - “집다”의 순서로 예측되면, 사람의 액션은 상품을 집어서 확인한 다음 상품을 구매하기 위하여 매장의 진열대에서 상품을 집는 액션인 “집다”로 예측할 수 있다. 하지만, 본 발명이 이에 한정되는 것은 아니며, 이미지 분석을 통해 예측된 액션 추정값들을 참조하여 사람의 다양한 컨티뉴어스 액션을 예측할 수 있다.

이때, 학습 장치(100)는 컨티뉴어스 액션 검출 네트워크(130)로 하여금, 학습용 제1 크롭 이미지 내지 학습용 제t 크롭 이미지 각각을 하나의 클래시파이어에 순차적으로 입력하여 하나의 클래시파이어를 통해 학습용 제1 크롭 이미지 내지 학습용 제t 크롭 이미지 각각을 순차적으로 러닝 연산함으로써, 학습용 제1 크롭 이미지에 대응되는 학습용 제1 액션 추정값 내지 학습용 제t 크롭 이미지에 대응되는 학습용 제t 액션 추정값을 순차적으로 생성할 수 있다.

또한, 상기에서와 같이 컨티뉴어스 액션 검출 네트워크(130)로 하여금 하나의 클래시파이어를 통해 학습용 제1 액션 추정값 내지 학습용 제t 액션 추정값을 생성하는 것과는 달리, 학습 장치(100)는 컨티뉴어스 액션 검출 네트워크(130)로 하여금, 학습용 제1 크롭 이미지 내지 학습용 제t 크롭 이미지 각각에 대응되는 제1 클래시파이어 내지 제t 클래시파이어 각각을 통해 학습용 제1 크롭 이미지 내지 학습용 제t 크롭 이미지 각각을 각각 러닝 연산하도록 할 수도 있다.

일 예로, 도 6을 참조하면, 컨티뉴어스 액션 검출 네트워크(130)는, 학습용 제(t-2) 크롭 이미지를 제(t-2) 클래시파이어를 통해 러닝 연산하여 학습용 제(t-2) 액션 추정값을 생성하도록 하고, 학습용 제(t-1) 크롭 이미지를 제(t-1) 클래시파이어를 통해 러닝 연산하여 학습용 제(t-1) 액션 추정값을 생성하도록 하며, 학습용 제t 크롭 이미지를 제t 클래시파이어를 통해 러닝 연산하여 학습용 제t 액션 추정값을 생성하도록 할 수 있다. 그리고, 컨티뉴어스 액션 검출 네트워크(130)는 학습용 제(t-2) 액션 추정값 내지 학습용 제t 액션 추정값을 참조하여 학습용 컨티뉴어스 액션을 예측한 결과를 생성할 수 있다.

다시, 도 2를 참조하면, 학습 장치(100)는 학습용 제1 디스크릿 액션 내지 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 제1 로스와 제2 로스를 이용하여 디스크릿 액션 검출 네트워크(120)와 컨티뉴어스 액션 검출 네트워크(130)를 학습시킬 수 있다.

또한, 학습 장치(100)는 학습용 제1 바운딩 박스 내지 학습용 제t 바운딩 박스와 이에 대응되는 각각의 바운딩 박스 그라운드 트루스들을 참조하여 생성한 제3_1 로스, 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제t 스켈러튼 키포인트들과 이에 대응되는 각각의 스켈러튼 키포인트 그라운드 트루스들을 참조하여 생성한 제3_2 로스를 이용하여 키포인트 및 바운딩 박스 추출 네트워크(110)를 더 학습시킬 수 있다. 또한, 이와는 달리, 학습 장치(100)는 디스크릿 액션 검출 네트워크(120)와 컨티뉴어스 액션 검출 네트워크(130)를 학습시키기 이전, 키포인트 및 바운딩 박스 추출 네트워크(110)를 미리 학습시킨 상태에서 디스크릿 액션 검출 네트워크(120)와 컨티뉴어스 액션 검출 네트워크(130)를 학습시킬 수도 있다.

도 7은 본 발명의 다른 실시예에 따른 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 테스트 장치를 개략적으로 도시한 것으로, 도 7을 참조하면, 테스트 장치(200)는 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하기 위한 인스트럭션들이 저장된 메모리(201)와, 메모리(201)에 저장된 인스트럭션들에 따라 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 동작을 수행하는 프로세서(202)를 포함할 수 있다.

구체적으로, 테스트 장치(200)는 전형적으로 컴퓨팅 장치(예컨대, 컴퓨터 프로세서, 메모리, 스토리지, 입력 장치 및 출력 장치, 기타 기존의 컴퓨팅 장치의 구성요소들을 포함할 수 있는 장치; 라우터, 스위치 등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS) 및 스토리지 영역 네트워크(SAN)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어(즉, 컴퓨팅 장치로 하여금 특정의 방식으로 기능하게 하는 인스트럭션들)의 조합을 이용하여 원하는 시스템 성능을 달성하는 것일 수 있으나, 이에 한정되는 것은 아니다.

한편, 테스트 장치(200)의 프로세서(202)는 메모리(201)에 저장된 인스트럭션들에 따라, 학습 장치에 의해, (i) 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임이 획득되면, 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 키포인트 및 바운딩 박스 추출 네트워크로 하여금 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스, (ii) (ii-1) 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제t 바운딩 박스 및 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 디스크릿 액션 검출 네트워크로 하여금 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제t 바운딩 박스 및 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 학습용 제1 이미지 프레임에 위치하는 사람에 대응되는 학습용 제1 디스크릿 액션 내지 학습용 제t 이미지 프레임에 위치하는 사람에 대응되는 학습용 제t 디스크릿 액션을 검출하는 프로세스 및 (ii-2) 학습용 제1 바운딩 박스 내지 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 컨티뉴어스 액션 검출 네트워크로 하여금, 학습용 제1 이미지 프레임에서 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 학습용 제t 이미지 프레임에서 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 학습용 제1 크롭 이미지 내지 학습용 제t 크롭 이미지를 각각 러닝 연산하여 학습용 제1 크롭 이미지 내의 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 학습용 제t 크롭 이미지 내의 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 학습용 제1 액션 추정값 내지 학습용 제t 액션 추정값을 참조하여 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임에 위치하는 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스, 및 (iii) 학습용 제1 디스크릿 액션 내지 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 제1 로스와 제2 로스를 이용하여 디스크릿 액션 검출 네트워크와 컨티뉴어스 액션 검출 네트워크를 학습시키는 프로세스가 수행된 상태에서, 카메라에서 촬영된 비디오에 대응되는 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임이 획득되면, 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 키포인트 및 바운딩 박스 추출 네트워크로 하여금 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 테스트용 제1 바운딩 박스 내지 적어도 하나의 테스트용 제t 바운딩 박스, 및 적어도 하나의 테스트용 제1 스켈러튼 키포인트들 내지 적어도 하나의 테스트용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스를 수행할 수 있다. 그리고, 테스트 장치(200)의 프로세서(202)는, 테스트용 제1 바운딩 박스 및 테스트용 제1 스켈러튼 키포인트들 내지 테스트용 제t 바운딩 박스 및 테스트용 제t 스켈러튼 키포인트들을 디스크릿 액션 검출 네트워크로 입력하여 디스크릿 액션 검출 네트워크로 하여금 테스트용 제1 바운딩 박스 및 테스트용 제1 스켈러튼 키포인트들 내지 테스트용 제t 바운딩 박스 및 테스트용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 테스트용 제1 이미지 프레임에 위치하는 사람에 대응되는 테스트용 제1 디스크릿 액션 내지 테스트용 제t 이미지 프레임에 위치하는 사람에 대응되는 테스트용 제t 디스크릿 액션을 검출하는 프로세스, 및 테스트용 제1 바운딩 박스 내지 테스트용 제t 바운딩 박스를 컨티뉴어스 액션 검출 네트워크로 입력하여 컨티뉴어스 액션 검출 네트워크로 하여금, 테스트용 제1 이미지 프레임에서 테스트용 제1 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제1 크롭 이미지 내지 테스트용 제t 이미지 프레임에서 테스트용 제t 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 테스트용 제1 크롭 이미지 내지 테스트용 제t 크롭 이미지를 각각 러닝 연산하여 테스트용 제1 크롭 이미지 내의 사람의 개별 액션을 검출한 테스트용 제1 액션 추정값 내지 테스트용 제t 크롭 이미지 내의 사람의 개별 액션을 검출한 테스트용 제t 액션 추정값을 생성하도록 하고, 테스트용 제1 액션 추정값 내지 테스트용 제t 액션 추정값을 참조하여 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임에 위치하는 사람에 대응되는 테스트용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스를 수행할 수 있다.

이와 같이 구성된 본 발명의 다른 실시예에 따른 테스트 장치를 이용하여 비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 방법을 도 8을 참조하여 설명하면 다음과 같다. 아래의 설명에서는, 상기 도 2를 참조한 설명으로부터 용이하게 이해 가능한 부분에 대해서는 상세한 설명을 생략하기로 한다.

먼저, 도 2를 참조하여 설명에 따라, 키포인트 및 바운딩 박스 추출 네트워크(210), 디스크릿 액션 검출 네트워크(220), 및 컨티뉴어스 액션 검출 네트워크(230)가 학습된 상태에서, 카메라에서 촬영된 비디오에 대응되는 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임(21)이 획득되면, 테스트 장치(200)가, 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임(21) 각각을 키포인트 및 바운딩 박스 추출 네트워크(210)로 입력하여 키포인트 및 바운딩 박스 추출 네트워크(210)로 하여금 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임(21) 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 테스트용 제1 바운딩 박스 내지 적어도 하나의 테스트용 제t 바운딩 박스, 및 적어도 하나의 테스트용 제1 스켈러튼 키포인트들 내지 적어도 하나의 테스트용 제t 스켈러튼 키포인트들(22)을 생성하도록 할 수 있다.

그리고, 테스트 장치(200)는 테스트용 제1 바운딩 박스 및 테스트용 제1 스켈러튼 키포인트들 내지 테스트용 제t 바운딩 박스 및 테스트용 제t 스켈러튼 키포인트들(22)을 디스크릿 액션 검출 네트워크(220)로 입력하여 디스크릿 액션 검출 네트워크(220)로 하여금 테스트용 제1 바운딩 박스 및 테스트용 제1 스켈러튼 키포인트들 내지 테스트용 제t 바운딩 박스 및 테스트용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 테스트용 제1 이미지 프레임에 위치하는 사람에 대응되는 테스트용 제1 디스크릿 액션 내지 테스트용 제t 이미지 프레임에 위치하는 사람에 대응되는 테스트용 제t 디스크릿 액션(23)을 검출하는 프로세스를 수행할 수 있다.

이때, 테스트 장치(200)는, 디스크릿 액션 검출 네트워크(220)로 하여금, 테스트용 제1 바운딩 박스 및 테스트용 제1 스켈러튼 키포인트들 내지 테스트용 제t 바운딩 박스 및 테스트용 제t 스켈러튼 키포인트들 중 어느 하나인 테스트용 특정 바운딩 박스 및 테스트용 특정 스켈러튼 키포인트들을 참조하되, 테스트용 특정 바운딩 박스의 아스펙트비, 테스트용 특정 스켈러튼 키포인트들에서 스켈러튼 키포인트들 사이의 수직 거리들 중 적어도 어느 하나를 이용한 휴리스틱 분석에 의해 특정 디스크릿 액션을 검출하도록 할 수 있다.

이에 더하여, 테스트 장치(200)는, 디스크릿 액션 검출 네트워크(220)로 하여금, 테스트용 제1 디스크릿 액션 내지 테스트용 제t 디스크릿 액션 중에서 동일한 테스트용 테스트용 디스크릿 액션이 검출되는 횟수가 기설정된 임계 횟수 이상일 경우, 테스트용 제1 바운딩 박스 내지 테스트용 제t 바운딩 박스 각각의 위치를 참조하여, 위치 변화가 기설정된 임계 위치변화 미만인 경우 동일한 테스트용 디스크릿 액션에 대응되는 사람의 테스트용 제1 서브 디스크릿 액션을 검출하며, 위치 변화가 기설정된 임계 위치변화 이상인 경우 동일한 테스트용 디스크릿 액션에 대응되거나 스트용 제1 서브 디스크릿 액션에 대응되는 테스트용 제2 서브 디스크릿 액션을 검출하도록 할 수 있다.

또한, 테스트 장치(200)는, 테스트용 제1 바운딩 박스 내지 테스트용 제t 바운딩 박스를 컨티뉴어스 액션 검출 네트워크(230)로 입력하여 컨티뉴어스 액션 검출 네트워크(230)로 하여금, 테스트용 제1 이미지 프레임에서 테스트용 제1 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제1 크롭 이미지 내지 테스트용 제t 이미지 프레임에서 테스트용 제t 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제t 크롭 이미지를 생성하도록 하며, 컨티뉴어스 액션 검출 네트워크(230)에 포함된 적어도 하나의 클래시파이어를 통해 테스트용 제1 크롭 이미지 내지 테스트용 제t 크롭 이미지를 각각 러닝 연산하여 테스트용 제1 크롭 이미지 내의 사람의 개별 액션을 검출한 테스트용 제1 액션 추정값 내지 테스트용 제t 크롭 이미지 내의 사람의 개별 액션을 검출한 테스트용 제t 액션 추정값을 생성하도록 하고, 테스트용 제1 액션 추정값 내지 테스트용 제t 액션 추정값을 참조하여 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임에 위치하는 사람에 대응되는 테스트용 컨티뉴어스 액션을 검출하는 프로세스를 수행할 수 있다.

이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

100: 학습 장치,
101: 메모리,
102: 프로세서,
200: 테스트 장치,
201: 메모리,
202: 프로세서

Claims

비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 방법에 있어서,
(a) 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 - 상기 t는 2 이상의 정수임 - 이 획득되면, 학습 장치가, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 단계;
(b) 상기 학습 장치가, (i) 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 학습용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제t 디스크릿 액션을 검출하는 프로세스, 및 (ii) 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임에서 상기 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 상기 학습용 제t 이미지 프레임에서 상기 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지를 각각 러닝 연산하여 상기 학습용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 상기 학습용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 상기 학습용 제1 액션 추정값 내지 상기 학습용 제t 액션 추정값을 참조하여 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 단계; 및
(c) 상기 학습 장치가, 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 상기 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 상기 제1 로스와 상기 제2 로스를 이용하여 상기 디스크릿 액션 검출 네트워크와 상기 컨티뉴어스 액션 검출 네트워크를 학습시키는 단계;
를 포함하는 방법.
제1항에 있어서,
상기 (b) 단계에서,
상기 학습 장치는, 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 중 어느 하나인 학습용 특정 바운딩 박스 및 학습용 특정 스켈러튼 키포인트들을 참조하되, 상기 학습용 특정 바운딩 박스의 아스펙트비, 상기 학습용 특정 스켈러튼 키포인트들에서 스켈러튼 키포인트들 사이의 수직 거리들 중 적어도 어느 하나를 이용한 휴리스틱 분석에 의해 특정 디스크릿 액션을 검출하도록 하는 방법.
제1항에 있어서,
상기 (b) 단계에서,
상기 학습 장치는, 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 중에서 동일한 학습용 디스크릿 액션이 검출되는 횟수가 기설정된 임계 횟수 이상일 경우, 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스 각각의 위치를 참조하여, 위치 변화가 기설정된 임계 위치변화 미만인 경우 상기 동일한 학습용 디스크릿 액션에 대응되는 상기 사람의 학습용 제1 서브 디스크릿 액션을 검출하며, 상기 위치 변화가 상기 기설정된 임계 위치변화 이상인 경우 상기 동일한 학습용 디스크릿 액션에 대응되거나 상기 학습용 제1 서브 디스크릿 액션에 대응되는 학습용 제2 서브 디스크릿 액션을 검출하도록 하는 방법.
제1항에 있어서,
상기 (b) 단계에서,
상기 학습 장치는, 상기 (ii) 프로세스에서, 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지 각각에 대응되는 제1 클래시파이어 내지 제t 클래시파이어 각각을 통해, 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지 각각을 각각 러닝 연산하도록 하는 방법.
제1항에 있어서,
상기 (c) 단계에서,
상기 학습 장치는, 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스와 이에 대응되는 각각의 바운딩 박스 그라운드 트루스들을 참조하여 생성한 제3_1 로스, 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 스켈러튼 키포인트들과 이에 대응되는 각각의 스켈러튼 키포인트 그라운드 트루스들을 참조하여 생성한 제3_2 로스를 이용하여 상기 키포인트 및 바운딩 박스 추출 네트워크를 더 학습시키는 방법.
제1항에 있어서,
상기 (a) 단계에서,
상기 학습 장치는, 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 중 어느 하나의 학습용 특정 이미지 프레임에 대하여, 피처 추출 블록을 통해 상기 학습용 특정 이미지 프레임에 컨볼루션 연산들을 수행하여 서로 다른 스케일을 가지는 학습용 피처맵들을 생성하도록 하고, 피처 퓨전 블록을 통해 상기 학습용 피처맵들 중에서의 적어도 일부인 학습용 제1 피처맵 내지 학습용 제k 피처맵 - 상기 k는 2 이상의 정수임 - 을 탑-다운 패스를 이용한 탑-다운 피처 퓨전과 바텀-업 패스를 이용한 바텀-업 피처 퓨전을 수행하여 학습용 제1 퓨전 피처맵 내지 학습용 제k 퓨전 피처맵을 생성하도록 하며, 디텍션 블록을 통해 상기 학습용 제1 퓨전 피처맵 내지 상기 학습용 제k 퓨전 피처맵 각각에서 상기 사람에 대응되는 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제k 바운딩 박스 및 학습용 제k 스켈러튼 키폰인트들을 검출하도록 하고, 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제k 바운딩 박스 및 상기 학습용 제k 스켈러튼 키포인트들을 이용하여 상기 학습용 특정 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 특정 바운딩 박스 및 학습용 특정 스켈러튼 키포인트들을 생성하도록 하는 방법.
제1항에 있어서,
상기 (a) 단계에서,
상기 학습 장치는, 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 중 어느 하나의 학습용 특정 이미지 프레임에 대하여, 피처 추출 블록을 통해 상기 학습용 특정 이미지 프레임을 적어도 한번 컨볼루션 연산하여 학습용 피처맵을 생성하도록 하고, 오브젝트 디텍터를 통해 상기 피처맵을 러닝 연산하여 상기 학습용 특정 이미지 프레임에서 상기 사람을 검출한 학습용 특정 바운딩 박스를 생성하도록 하며, 포즈 에스티메이터를 통해 상기 피처맵을 러닝 연산하여 상기 학습용 특정 이미지 프레임에서 상기 사람에 대응되는 학습용 특정 스켈러튼 키포인트들을 생성하도록 하는 방법.
비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 방법에 있어서,
(a) 학습 장치에 의해, (i) 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 - 상기 t는 2 이상의 정수임 - 이 획득되면, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스, (ii) (ii-1) 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 학습용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 상기 학습용 제t 디스크릿 액션을 검출하는 프로세스 및 (ii-2) 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임에서 상기 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 상기 학습용 제t 이미지 프레임에서 상기 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지를 각각 러닝 연산하여 상기 학습용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 상기 학습용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 상기 학습용 제1 액션 추정값 내지 상기 학습용 제t 액션 추정값을 참조하여 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스, 및 (iii) 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 상기 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 상기 제1 로스와 상기 제2 로스를 이용하여 상기 디스크릿 액션 검출 네트워크와 상기 컨티뉴어스 액션 검출 네트워크를 학습시키는 프로세스가 수행된 상태에서, 카메라에서 촬영된 비디오에 대응되는 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임이 획득되면, 테스트 장치가, 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임 각각을 상기 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 테스트용 제1 바운딩 박스 내지 적어도 하나의 테스트용 제t 바운딩 박스, 및 적어도 하나의 테스트용 제1 스켈러튼 키포인트들 내지 적어도 하나의 테스트용 제t 스켈러튼 키포인트들을 생성하도록 하는 단계; 및
(b) 상기 테스트 장치가, (i) 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들을 상기 디스크릿 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 테스트용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 제1 디스크릿 액션 내지 상기 테스트용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 제t 디스크릿 액션을 검출하는 프로세스, 및 (ii) 상기 테스트용 제1 바운딩 박스 내지 상기 테스트용 제t 바운딩 박스를 상기 컨티뉴어스 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 테스트용 제1 이미지 프레임에서 상기 테스트용 제1 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제1 크롭 이미지 내지 상기 테스트용 제t 이미지 프레임에서 상기 테스트용 제t 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 상기 클래시파이어를 통해 상기 테스트용 제1 크롭 이미지 내지 상기 테스트용 제t 크롭 이미지를 각각 러닝 연산하여 상기 테스트용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 테스트용 제1 액션 추정값 내지 상기 테스트용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 테스트용 제t 액션 추정값을 생성하도록 하고, 상기 테스트용 제1 액션 추정값 내지 상기 테스트용 제t 액션 추정값을 참조하여 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 단계;
를 포함하는 방법.
제8항에 있어서,
상기 (b) 단계에서,
상기 테스트 장치는, 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들 중 어느 하나인 테스트용 특정 바운딩 박스 및 테스트용 특정 스켈러튼 키포인트들을 참조하되, 상기 테스트용 특정 바운딩 박스의 아스펙트비, 상기 테스트용 특정 스켈러튼 키포인트들에서 스켈러튼 키포인트들 사이의 수직 거리들 중 적어도 어느 하나를 이용한 휴리스틱 분석에 의해 특정 디스크릿 액션을 검출하도록 하는 방법.
제8항에 있어서,
상기 (b) 단계에서,
상기 테스트 장치, 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 테스트용 제1 디스크릿 액션 내지 상기 테스트용 제t 디스크릿 액션 중에서 동일한 테스트용 테스트용 디스크릿 액션이 검출되는 횟수가 기설정된 임계 횟수 이상일 경우, 상기 테스트용 제1 바운딩 박스 내지 상기 테스트용 제t 바운딩 박스 각각의 위치를 참조하여, 위치 변화가 기설정된 임계 위치변화 미만인 경우 상기 동일한 테스트용 디스크릿 액션에 대응되는 상기 사람의 테스트용 제1 서브 디스크릿 액션을 검출하며, 상기 위치 변화가 상기 기설정된 임계 위치변화 이상인 경우 상기 동일한 테스트용 디스크릿 액션에 대응되거나 상기 테스트용 제1 서브 디스크릿 액션에 대응되는 테스트용 제2 서브 디스크릿 액션을 검출하도록 하는 방법.
비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하는 학습 장치에 있어서,
비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 학습하기 위한 인스트럭션들이 저장된 메모리; 및
상기 메모리에 저장된 상기 인스트럭션들에 따라 비디오 분석을 통해 상기 사람의 행동을 검출하는 딥러닝 기반의 상기 행동 검출 모델을 학습하는 동작을 수행하는 프로세서;
를 포함하며,
상기 프로세서는, (I) 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 - 상기 t는 2 이상의 정수임 - 이 획득되면, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스, (II) (i) 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 학습용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 제t 디스크릿 액션을 검출하는 프로세스, 및 (ii) 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임에서 상기 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 상기 학습용 제t 이미지 프레임에서 상기 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지를 각각 러닝 연산하여 상기 학습용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 상기 학습용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 상기 학습용 제1 액션 추정값 내지 상기 학습용 제t 액션 추정값을 참조하여 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스, 및 (III) 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 상기 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 상기 제1 로스와 상기 제2 로스를 이용하여 상기 디스크릿 액션 검출 네트워크와 상기 컨티뉴어스 액션 검출 네트워크를 학습시키는 프로세스를 수행하는 학습 장치.
제11항에 있어서,
상기 프로세서는,
상기 (II) 프로세스의 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 중 어느 하나인 학습용 특정 바운딩 박스 및 학습용 특정 스켈러튼 키포인트들을 참조하되, 상기 학습용 특정 바운딩 박스의 아스펙트비, 상기 학습용 특정 스켈러튼 키포인트들에서 스켈러튼 키포인트들 사이의 수직 거리들 중 적어도 어느 하나를 이용한 휴리스틱 분석에 의해 특정 디스크릿 액션을 검출하도록 하는 학습 장치.
제11항에 있어서,
상기 프로세서는,
상기 (II) 프로세스의 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 중에서 동일한 학습용 디스크릿 액션이 검출되는 횟수가 기설정된 임계 횟수 이상일 경우, 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스 각각의 위치를 참조하여, 위치 변화가 기설정된 임계 위치변화 미만인 경우 상기 동일한 학습용 디스크릿 액션에 대응되는 상기 사람의 학습용 제1 서브 디스크릿 액션을 검출하며, 상기 위치 변화가 상기 기설정된 임계 위치변화 이상인 경우 상기 동일한 학습용 디스크릿 액션에 대응되거나 상기 학습용 제1 서브 디스크릿 액션에 대응되는 학습용 제2 서브 디스크릿 액션을 검출하도록 하는 학습 장치.
제11항에 있어서,
상기 프로세서는,
상기 (II) 프로세스의 상기 (ii) 프로세스에서, 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지 각각에 대응되는 제1 클래시파이어 내지 제t 클래시파이어 각각을 통해, 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지 각각을 각각 러닝 연산하도록 하는 학습 장치.
제11항에 있어서,
상기 프로세서는,
상기 (III) 프로세스에서, 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스와 이에 대응되는 각각의 바운딩 박스 그라운드 트루스들을 참조하여 생성한 제3_1 로스, 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 스켈러튼 키포인트들과 이에 대응되는 각각의 스켈러튼 키포인트 그라운드 트루스들을 참조하여 생성한 제3_2 로스를 이용하여 상기 키포인트 및 바운딩 박스 추출 네트워크를 더 학습시키는 학습 장치.
제11항에 있어서,
상기 프로세서는,
상기 (I) 프로세스에서, 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 중 어느 하나의 학습용 특정 이미지 프레임에 대하여, 피처 추출 블록을 통해 상기 학습용 특정 이미지 프레임에 컨볼루션 연산들을 수행하여 서로 다른 스케일을 가지는 학습용 피처맵들을 생성하도록 하고, 피처 퓨전 블록을 통해 상기 학습용 피처맵들 중에서의 적어도 일부인 학습용 제1 피처맵 내지 학습용 제k 피처맵 - 상기 k는 2 이상의 정수임 - 을 탑-다운 패스를 이용한 탑-다운 피처 퓨전과 바텀-업 패스를 이용한 바텀-업 피처 퓨전을 수행하여 학습용 제1 퓨전 피처맵 내지 학습용 제k 퓨전 피처맵을 생성하도록 하며, 디텍션 블록을 통해 상기 학습용 제1 퓨전 피처맵 내지 상기 학습용 제k 퓨전 피처맵 각각에서 상기 사람에 대응되는 학습용 제1 바운딩 박스 및 학습용 제1 스켈러튼 키포인트들 내지 학습용 제k 바운딩 박스 및 학습용 제k 스켈러튼 키폰인트들을 검출하도록 하고, 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제k 바운딩 박스 및 상기 학습용 제k 스켈러튼 키포인트들을 이용하여 상기 학습용 특정 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 특정 바운딩 박스 및 학습용 특정 스켈러튼 키포인트들을 생성하도록 하는 학습 장치.
제11항에 있어서,
상기 프로세서는,
상기 (I) 프로세스에서, 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 중 어느 하나의 학습용 특정 이미지 프레임에 대하여, 피처 추출 블록을 통해 상기 학습용 특정 이미지 프레임을 적어도 한번 컨볼루션 연산하여 학습용 피처맵을 생성하도록 하고, 오브젝트 디텍터를 통해 상기 피처맵을 러닝 연산하여 상기 학습용 특정 이미지 프레임에서 상기 사람을 검출한 학습용 특정 바운딩 박스를 생성하도록 하며, 포즈 에스티메이터를 통해 상기 피처맵을 러닝 연산하여 상기 학습용 특정 이미지 프레임에서 상기 사람에 대응되는 학습용 특정 스켈러튼 키포인트들을 생성하도록 하는 학습 장치.
비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 테스트 장치에 있어서,
비디오 분석을 통해 사람의 행동을 검출하는 딥러닝 기반의 행동 검출 모델을 테스트하는 인스트럭션들이 저장된 메모리; 및
상기 메모리에 저장된 상기 인스트럭션들에 따라 비디오 분석을 통해 상기 사람의 행동을 검출하는 딥러닝 기반의 상기 행동 검출 모델을 테스트하는 동작을 수행하는 프로세서;
를 포함하며,
상기 프로세서는, (I) 학습 장치에 의해, (i) 카메라에서 촬영되는 비디오에 대응되는 학습용 제1 이미지 프레임 내지 학습용 제t 이미지 프레임 - 상기 t는 2 이상의 정수임 - 이 획득되면, 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각을 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 학습용 제1 바운딩 박스 내지 적어도 하나의 학습용 제t 바운딩 박스, 및 적어도 하나의 학습용 제1 스켈러튼 키포인트들 내지 적어도 하나의 학습용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스, (ii) (ii-1) 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들을 디스크릿(discrete) 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 학습용 제1 바운딩 박스 및 상기 학습용 제1 스켈러튼 키포인트들 내지 상기 학습용 제t 바운딩 박스 및 상기 학습용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 학습용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 상기 학습용 제t 디스크릿 액션을 검출하는 프로세스 및 (ii-2) 상기 학습용 제1 바운딩 박스 내지 상기 학습용 제t 바운딩 박스를 컨티뉴어스(continuous) 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 학습용 제1 이미지 프레임에서 상기 학습용 제1 바운딩 박스에 대응되는 영역을 크롭한 학습용 제1 크롭 이미지 내지 상기 학습용 제t 이미지 프레임에서 상기 학습용 제t 바운딩 박스에 대응되는 영역을 크롭한 학습용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 클래시파이어를 통해 상기 학습용 제1 크롭 이미지 내지 상기 학습용 제t 크롭 이미지를 각각 러닝 연산하여 상기 학습용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제1 액션 추정값 내지 상기 학습용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 학습용 제t 액션 추정값을 생성하도록 하고, 상기 학습용 제1 액션 추정값 내지 상기 학습용 제t 액션 추정값을 참조하여 상기 학습용 제1 이미지 프레임 내지 상기 학습용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 학습용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스, 및 (iii) 상기 학습용 제1 디스크릿 액션 내지 상기 학습용 제t 디스크릿 액션 각각과, 이에 대응되는 각각의 디스크릿 액션 그라운드 트루스를 참조하여 적어도 하나의 제1 로스를 생성하며, 상기 학습용 컨티뉴어스 액션과 이에 대응되는 컨티뉴어스 액션 그라운드 트루스를 참조하여 적어도 하나의 제2 로스를 생성하고, 상기 제1 로스와 상기 제2 로스를 이용하여 상기 디스크릿 액션 검출 네트워크와 상기 컨티뉴어스 액션 검출 네트워크를 학습시키는 프로세스가 수행된 상태에서, 카메라에서 촬영된 비디오에 대응되는 테스트용 제1 이미지 프레임 내지 테스트용 제t 이미지 프레임이 획득되면, 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임 각각을 상기 키포인트 및 바운딩 박스 추출 네트워크로 입력하여 상기 키포인트 및 바운딩 박스 추출 네트워크로 하여금 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임 각각에 위치하는 적어도 하나의 사람에 대응되는 적어도 하나의 테스트용 제1 바운딩 박스 내지 적어도 하나의 테스트용 제t 바운딩 박스, 및 적어도 하나의 테스트용 제1 스켈러튼 키포인트들 내지 적어도 하나의 테스트용 제t 스켈러튼 키포인트들을 생성하도록 하는 프로세스, 및 (II) (i) 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들을 상기 디스크릿 액션 검출 네트워크로 입력하여 상기 디스크릿 액션 검출 네트워크로 하여금 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들 각각을 러닝 연산하여 상기 테스트용 제1 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 제1 디스크릿 액션 내지 상기 테스트용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 제t 디스크릿 액션을 검출하는 프로세스, 및 (ii) 상기 테스트용 제1 바운딩 박스 내지 상기 테스트용 제t 바운딩 박스를 상기 컨티뉴어스 액션 검출 네트워크로 입력하여 상기 컨티뉴어스 액션 검출 네트워크로 하여금, 상기 테스트용 제1 이미지 프레임에서 상기 테스트용 제1 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제1 크롭 이미지 내지 상기 테스트용 제t 이미지 프레임에서 상기 테스트용 제t 바운딩 박스에 대응되는 영역을 크롭한 테스트용 제t 크롭 이미지를 생성하도록 하며, 적어도 하나의 상기 클래시파이어를 통해 상기 테스트용 제1 크롭 이미지 내지 상기 테스트용 제t 크롭 이미지를 각각 러닝 연산하여 상기 테스트용 제1 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 테스트용 제1 액션 추정값 내지 상기 테스트용 제t 크롭 이미지 내의 상기 사람의 개별 액션을 검출한 테스트용 제t 액션 추정값을 생성하도록 하고, 상기 테스트용 제1 액션 추정값 내지 상기 테스트용 제t 액션 추정값을 참조하여 상기 테스트용 제1 이미지 프레임 내지 상기 테스트용 제t 이미지 프레임에 위치하는 상기 사람에 대응되는 테스트용 컨티뉴어스 액션을 검출하는 프로세스를 수행하는 프로세스를 수행하는 테스트 장치.
제18항에 있어서,
상기 프로세서는,
상기 (II) 프로세스의 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 테스트용 제1 바운딩 박스 및 상기 테스트용 제1 스켈러튼 키포인트들 내지 상기 테스트용 제t 바운딩 박스 및 상기 테스트용 제t 스켈러튼 키포인트들 중 어느 하나인 테스트용 특정 바운딩 박스 및 테스트용 특정 스켈러튼 키포인트들을 참조하되, 상기 테스트용 특정 바운딩 박스의 아스펙트비, 상기 테스트용 특정 스켈러튼 키포인트들에서 스켈러튼 키포인트들 사이의 수직 거리들 중 적어도 어느 하나를 이용한 휴리스틱 분석에 의해 특정 디스크릿 액션을 검출하도록 하는 테스트 장치.
제18항에 있어서,
상기 프로세서는,
상기 (II) 프로세스의 상기 (i) 프로세스에서, 상기 디스크릿 액션 검출 네트워크로 하여금, 상기 테스트용 제1 디스크릿 액션 내지 상기 테스트용 제t 디스크릿 액션 중에서 동일한 테스트용 테스트용 디스크릿 액션이 검출되는 횟수가 기설정된 임계 횟수 이상일 경우, 상기 테스트용 제1 바운딩 박스 내지 상기 테스트용 제t 바운딩 박스 각각의 위치를 참조하여, 위치 변화가 기설정된 임계 위치변화 미만인 경우 상기 동일한 테스트용 디스크릿 액션에 대응되는 상기 사람의 테스트용 제1 서브 디스크릿 액션을 검출하며, 상기 위치 변화가 상기 기설정된 임계 위치변화 이상인 경우 상기 동일한 테스트용 디스크릿 액션에 대응되거나 상기 테스트용 제1 서브 디스크릿 액션에 대응되는 테스트용 제2 서브 디스크릿 액션을 검출하도록 하는 테스트 장치.