WO2023068441A1

WO2023068441A1 - 딥러닝을 이용한 행동 인식 방법 및 그 장치

Info

Publication number: WO2023068441A1
Application number: PCT/KR2021/017921
Authority: WO
Inventors: 백준기; 박하실; 신중철; 하진솔
Original assignee: 중앙대학교 산학협력단
Priority date: 2021-10-20
Filing date: 2021-11-30
Publication date: 2023-04-27
Also published as: KR20230056366A

Abstract

딥러닝을 이용한 행동 인식 방법 및 그 장치가 개시된다. 딥러닝을 이용한 행동 행동 인식 방법은, 비디오를 샘플링하여 샘플링된 프레임들로 구성된 비디오 클립을 생성하고, 상기 샘플링된 프레임들간의 차영상 세트를 생성하며, 상기 샘플링된 프레임들과 상기 차영상 세트를 딥러닝 기반 행동 인식 모델에 적용하여 시간적 특징과 공간적 특징을 가지는 시-공간 결합 특징맵을 생성한 후 양방향 지수 이동 평균값을 계산하여 시-공간 결합 특징맵의 가중치를 조정하여 상기 샘플링된 프레임들에 대한 3차원 특징을 가지는 시간적 연관성 중요도 맵과 융합하여 행동을 분류할 수 있다.

Description

딥러닝을 이용한 행동 인식 방법 및 그 장치

본 발명은 딥러닝을 이용한 행동 인식 방법 및 그 장치에 관한 것이다.

행동 인식은 실시간 지능형 감시 시스템, human-computer interaction, 자율 주행 시스템 등 다양한 분야에서 사용되기 위해 많은 연구가 이루어지고 있다. 따라서, 행동 인식은 비디오 분야에서 매우 중요한 과제라 볼 수 있으며, 행동 인식에 따른 대응을 위해 실시간으로 진행됨이 필수 불가결하다.

행동인식은 비디오 시퀀스에서 움직임을 인식하고 매칭되는 행동 class로 분류하는 연구이다. 비디오 시퀀스에서 행동은 전체 프레임 동안 이어지거나 이어지지 않을 수 있다. 따라서 비디오를 이미지 시퀀스로 이루어진 프레임으로 다룬다.

효율적인 행동 인식을 위해 딥러닝 을 사용한 많은 방법들이 연구되었다. 특히 행동인식은 이미지 분류 태스크의 연장선이라 볼수 있다는 점에서 CNN 특징맵을 사용한 많은 방법이 제안되었다. 종래의 2D 콘볼루션 특징맵을 사용한 2D 콘볼루션 신경망은 객체의 특징을 효과적으로 인식할 수 있다. 초기 2D CNN에서 의미 있는 성능을 가지는 Alexnet은 convolution layer, max-pooling layer, dropout layer, fully connected layer등을 포함한 8개의 layer로 구성되어 있다. 이후, 분류 성능을 높이기 위해 레이어를 더 깊게 구성하려는 모델들이 연구되었다. VGG16-net은 16개의 레이어를 가진 아케텍쳐로 convolution layer, pooling layer 그리고 fully connected layer를 가지며 3x3 필터 사이즈를 유지한다. 마찬가지로 Googlenet, Densenet등 높은 성능의 특징 분류를 위해 다양한 구조의 2D CNN 네트워크가 연구되었다.

그러나, 2D CNN의 특징은 공간적 특징만을 학습하기 때문에 구조적으로 시간적 특징을 반영하는데 한계가 있다.

본 발명은 딥러닝을 이용한 행동 인식 방법 및 그 장치를 제공하기 위한 것이다.

또한, 본 발명은 입력 영상에 대한 시-공간적 정보 적용이 가능한 딥러닝 모델을 통해 빠르고 정확하게 행동 인식이 가능한 딥러닝을 이용한 행동 인식 방법 및 그 장치를 제공하기 위한 것이다.

또한, 본 발명은 2D 딥러닝 모델과 3D 딥러닝 모델을 컨퓨전하여 시간적 연관성의 중요도를 높이고, 중요 행동 구간에 대한 가중치를 높게 부여하여 행동 인식의 정확도를 높일 수 있는 딥러닝을 이용한 행동 인식 방법 및 그 장치를 제공하기 위한 것이다.

본 발명의 일 측면에 따르면, 딥러닝을 이용한 행동 인식 방법이 제공된다.

본 발명의 일 실시예에 따르면, (a) 비디오를 샘플링하여 샘플링된 프레임들로 구성된 비디오 클립을 생성하고, 상기 샘플링된 프레임들간의 차영상 세트를 생성하는 단계; (b) 상기 샘플링된 프레임들과 상기 차영상 세트를 각각 학습된 딥러닝 기반 행동 인식 모델에 적용하여 공간적 특징을 포함하는 제1 특징맵과 시간적 특징을 포함하는 제2 특징맵을 추출하고, 상기 제1 특징맵과 상기 제2 특징맵을 결합하여 샘플링된 프레임들 각각에 대한 시-공간 결합 특징맵을 생성하는 단계; (c) 상기 시-공간 결합 특징맵을 이용하여 양방향 지수 이동 평균값을 계산한 후 상기 샘플링된 프레임들의 시-공간 결합 특징맵의 가중치를 각각 조정하는 단계; (d) 상기 비디오 클립을 상기 학습된 딥러닝 기반 행동 인식 모델에 적용하여 시간적 연관성 중요도 맵을 생성하는 단계; 및 (e) 상기 가중치 조정된 시-공간 결합 특징맵과 상기 시간적 연관성 중요도 맵을 상기 학습된 딥러닝 기반 행동 인식 모델에 적용하여 융합(late fusion)한 후 행동을 분류(classification)하는 단계를 포함하는 딥러닝을 이용한 행동 인식 방법이 제공될 수 있다.

상기 양방향 지수 이동 평균값은 상기 샘플링된 프레임들에 대해 프레임 순서가

일 때 시-공간 결합 특징맵을 중심으로 대칭적으로 나뉘어 가중치가 조정될 수 있다.

상기 양방향 지수 이동 평균값은 하기 수학식을 이용하여 계산되되,

여기서,

는 샘플링된 프레임에 대한 시-공간 결합 특징맵에 대한 특징벡터를 나타내고, n은 샘플링된 프레임에 대한 시간적 순서를 가지는 인덱스를 나타내고,

는 0과 1 사이의 값으로 양방상 지수 이동 평균의 비율 조정을 위한 상수값을 나타낸다.

상기 딥러닝 기반 행동 인식 모델은 복수의 2D CNN 모델과 3D CNN 모델을 포함하되, 상기 제1 특징맵과 상기 제2 특징맵은 상기 복수의 2D CNN 모델에 의해 생성되고, 상기 시간적 연관성 중요도 맵은 상기 3D CNN 모델에 의해 생성될 수 있다.

상기 (e) 단계는, 상기 가중치 조정된 시-공간 결합 특징맵의 활성화 함수인 소프트 맥스값과 상기 시간적 연관성 중요도 맵의 활성화 함수인 소프트맥스값은 동일한 가중치로 융합(fusion)되며, 융합된 결과값을 이용하여 행동을 분류할 수 있다.

본 발명의 다른 측면에 따르면, 딥러닝을 이용한 행동 인식 장치가 제공된다.

본 발명의 일 실시예에 따르면, 비디오를 샘플링하여 샘플링된 프레임들로 구성된 비디오 클립을 생성하고, 상기 샘플링된 프레임들간의 차영상 세트를 생성하는 전처리부; 상기 샘플링된 프레임들과 상기 차영상 세트를 딥러닝 기반 행동 인식 모델에 적용하여 시간적 특징과 공간적 특징을 가지는 시-공간 결합 특징맵을 생성한 후 양방향 지수 이동 평균값을 계산하여 시-공간 결합 특징맵의 가중치를 조정하여 상기 샘플링된 프레임들에 대한 3차원 특징을 가지는 시간적 연관성 중요도 맵과 융합하여 행동을 분류하는 행동 분류부를 포함하는 딥러닝을 이용한 행동 인식 장치가 제공될 수 있다.

상기 딥러닝 기반 행동 인식 모델은, 상기 샘플링된 프레임들을 제1 2D CNN 모델에 적용하여 공간적 특징을 포함하는 제1 특징맵을 생성하고, 상기 차영상 세트를 제2 2D CNN 모델에 적용하여 시간적 특징을 포함하는 제2 특징맵을 추출한 후 상기 제1 특징맵과 상기 제2 특징맵을 결합하여 샘플링된 프레임들 각각에 대한 시-공간 결합 특징맵을 생성하는 특징 추출부; 상기 비디오 클립을 상기 학습된 딥러닝 기반 행동 인식 모델에 적용하여 시간적 연관성 중요도 맵을 생성하는 3D CNN 모델부; 상기 시-공간 결합 특징맵을 이용하여 양방향 지수 이동 평균값을 계산한 후 상기 샘플링된 프레임들의 시-공간 결합 특징맵의 가중치를 조정하는 가중치 조정부; 및 상기 가중치 조정된 시-공간 결합 특징맵과 상기 시간적 연관성 중요도 맵을 상기 학습된 딥러닝 기반 행동 인식 모델에 적용하여 융합(late fusion)한 후 행동을 분류(classification)하는 융합 분류부를 포함할 수 있다.

상기 특징 추출부와 상기 3D CNN 모델부는 복수의 완전 연결층(FC layer)에 의해 연결되며, 상기 가중치 조정부는 상기 복수의 완전 연결층(FC layer) 후단에 배치되되, 상기 복수의 완전 연결층(FC layer)에 연결되어 상기 샘플링된 시-공간 결합 특징맵의 가중치가 조정될 수 있다.

상기 융합 분류부는, 상기 가중치 조정된 시-공간 결합 특징맵의 활성화 함수인 소프트 맥스값과 상기 시간적 연관성 중요도 맵의 활성화 함수인 소프트맥스값은 동일한 가중치로 융합(fusion)하되, 융합된 결과값을 이용하여 행동을 분류할 수 있다.

훈련 데이터 세트를 이용하여 상기 딥러닝 기반 행동 인식 모델을 학습하는 학습부를 더 포함할 수 있다.

본 발명의 일 실시예에 따른 딥러닝을 이용한 행동 인식 방법 및 그 장치를 제공함으로써, 입력 영상에 대한 시-공간적 정보 적용이 가능한 딥러닝 모델을 통해 빠르고 정확하게 행동 인식이 가능한 이점이 있다.

또한, 본 발명은 2D 딥러닝 모델과 3D 딥러닝 모델을 컨퓨전하여 시간적 연관성의 중요도를 높이고, 중요 행동 구간에 대한 가중치를 높게 부여하여 행동 인식의 정확도를 높일 수 있는 이점도 있다.

도 1은 본 발명의 일 실시예에 따른 딥러닝을 이용한 행동 인식 방법을 나타낸 순서도.

도 2는 본 발명의 일 실시예에 따른 차영상 세트를 예시한 도면.

도 3은 본 발명의 일 실시예에 따른 딥러닝 기반 행동 인식 모델의 구성을 예시한 도면.

도 4는 본 발명의 일 실시예에 따른 가중치 조정을 설명하기 위해 도시한 도면.

도 5는 종래와 본 발명의 일 실시예에 따른 행동 인식 결과를 나타낸 도면.

도 6은 본 발명의 일 실시예에 따른 가중치 조정을 위한

변화에 따른 결과를 나타낸 도면.

도 7 및 도 8은 종래와 본 발명의 일 실시예에 따른 행동 인식 정확도를 비교한 결과를 나타낸 도면.

도 9는 본 발명의 일 실시예에 따른 딥러닝 기반 행동 인식 장치의 구성을 나타낸 도면.

본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 딥러닝을 이용한 행동 인식 방법을 나타낸 순서도이고, 도 2는 본 발명의 일 실시예에 따른 차영상 세트를 예시한 도면이고, 도 3은 본 발명의 일 실시예에 따른 딥러닝 기반 행동 인식 모델의 구성을 예시한 도면이고, 도 4는 본 발명의 일 실시예에 따른 가중치 조정을 설명하기 위해 도시한 도면이고, 도 5는 종래와 본 발명의 일 실시예에 따른 행동 인식 결과를 나타낸 도면이고, 도 6은 본 발명의 일 실시예에 따른 가중치 조정을 위한

변화에 따른 결과를 나타낸 도면이며, 도 7 및 도 8은 종래와 본 발명의 일 실시예에 따른 행동 인식 정확도를 비교한 결과이다.

단계 110에서 딥러닝 기반 행동 인식 장치(100)는 비디오 프레임을 샘플링한다.

예를 들어, 일반적인 비디오의 프레임 레이트가 30frame/s일때, 행동하는 시간이 10초라고 가정하면 300 프레임의 입력이 요구된다. 행동 인식을 위해 비디오내의 모든 프레임을 이용하는 경우, 방대한 양의 연산량으로 인해 실제 구현하기 어려운 문제점이 있다.

따라서, 본 발명의 일 실시예에서는 연산량을 줄이기 위해 비디오의 프레임을 샘플링하여 짧은 비디오 클립을 생성할 수 있다.

이에 대해 보다 상세히 설명하기로 한다.

를 초기 비디오 프레임이라고 할 때, 샘플링된 비디오 프레임은

와 같다.

비디오 프레임 샘플링 방법은 수학식 1과 같이 나타낼 수 있다.

샘플링 된 비디오프레임은 동일한 간격을 가지며, 각 프레임 사이에는 연속성이 존재한다. 본 발명의 일 실시예에서는 효율적인 계산과 높은 성능을 위해 N=16으로 설정하며, 각 프레임은 112x112으로 사이즈를 조정하였다.

단계 115에서 딥러닝 기반 행동 인식 장치(100)는 샘플링된 비디오 프레임들에 대한 차영상 세트를 생성한다.

샘플링된 비디오 프레임의 RGB 공간은 공간적 정보를 포함하며, 각 프레임 순서는 시간적 정보를 포함한다. 본 발명의 일 실시예에서는 샘플링된 비디오 프레임을 이용하여 차영상을 생성할 수 있다.

차 영상은 이웃 프레임의 픽셀 간의 차분으로 생성된다. 이를 수학식으로 나타내면, 수학식 2와 같다.

여기서, I는 비디오 프레임을 나타내고, x, y는 프레임내의 각 픽셀의 위치를 나타내고, n은 각 프레임에 대한 시간 파라미터(temporal parameter)를 나타낸다.

도 2에는 UCF101 데이터 셋 일부의 차 영상 결과를 도시한 도면이다. 인접한 비디오 프레임의 차분을 이용하여 배경과 객체는 제거되고 움직임만 남은 차영상이 생성되는 것을 알 수 있다.

도 2의 (g)는 사람이 손을 사용하여 믹싱(mixing)하는 비디오이며, 고정된 카메라로 촬영한 비디오에서 차영상을 생성하는 경우, 움직임이 강한 사람의 상체와 믹싱(mixing) 하는 손의 특징(feature) 정보만 남는 것을 확인 할 수 있다.

카메라가 고정되지 않은 도 2의 (a), (f)의 경우 카메라의 움직임으로 인해 일부 배경이 제거되지 않았지만, 움직임이 강한 사람의 픽셀 값이 강력하게 남는 것을 확인할 수 있다.

단계 120에서 딥러닝 기반 행동 인식 장치(100)는 샘플링된 비디오 프레임과 차영상 세트를 이용하여 제1 특징맵과 제2 특징맵을 각각 생성한 후 이를 결합하여 시-공간 결합 특징맵을 생성한다.

이해와 설명의 편의를 도모하기 위해 도 3을 참조하여 딥러닝 기반 행동 인식 모델에 대해 우선 설명하기로 한다.

도 3을 참조하면, 본 발명의 일 실시예에 따른 딥러닝 기반 행동 인식 모델(300)은 특징 추출부(310), 3D CNN 모델부(320), 2개의 완전 연결층(330), 가중치 조정부(340) 및 융합 분류부(350)를 포함하여 구성된다.

특징 추출부(310)는 도 3에 도시된 바와 같이, 복수의 2D CNN 모델을 가진다.

이해와 설명의 편의를 도모하기 위해 제1 2D CNN 모델, 제2 2D CNN 모델이라 칭하여 설명하기로 한다. 여기서, 제1 2D CNN 모델과 제2 2D CNN 모델은 각각 복수일 수 있다.

제1 2D CNN 모델은 샘플링된 비디오 프레임들에 대한 콘볼루션 연산을 통해 공간적 특징을 가지는 제1 특징맵을 생성하기 위한 수단이다. 2D CNN 구조는 당업자에게는 자명한 사항이며, 콘볼루션 연산을 통한 특징맵을 생성하는 방법 또한 자명한 사항이므로 이에 대한 상세한 설명은 생략하기로 한다.

샘플링된 비디오 프레임들은 RGB 기반 영상들로, 제1 2D CNN 모델을 통한 콘볼루션 연산에 의해 객체의 공간적 정보(특징)을 가지는 제1 특징맵이 생성될 수 있다.

여기서, 제1 특징맵은 수학식 3을 이용하여 생성될 수 있다.

여기서,

는 백본 VGG16 네트워크의 보틀넥 특징맵(bottle neck feature map)을 나타낸다.

샘플링된 비디오 프레임은 RGB기반 프레임으로, RGB 공간은 공간적 정보를 포함하며, 각 프레임 순서는 시간적 정보를 포함한다.

제2 2D CNN 모델은 차영상 세트를 입력받은 후 콘볼루션 연산을 통해 시간적 특징(정보)를 가지는 제2 특징맵을 생성하기 위한 수단이다.

이를 수학식으로 나타내면, 수학식 4와 같다.

제2 특징맵은 제1 특징맵 생성과 동일하게 백본인 VGG 16 네트워크 모델을 통해 보틀랙 특징맵이 반환될 수 있다.

행동 인식을 위한 비디오 학습에서, 행동의 공간적 정보와 시간적 정보를 학습하는 것은 매우 중요하다. 따라서, 본 발명의 일 실시예에서는 공간적 정보를 포함하는 제1 특징맵과 시간적 정보를 포함하는 제2 특징맵을 결합하여 시-공간 결합 특징맵을 생성할 수 있다.

도 3을 참조하여 시-공간 결합 특징맵 생성시, 제1 샘플링된 비디오 프레임, 제2 샘플링된 비디오 프레임과 이에 대응하는 제1 차영상 및 제2 차영상이 존재한다고 가정하기로 한다.

제1 샘플링된 비디오 프레임, 제2 샘플링된 비디오 프레임이 각각 2D CNN 모델에 적용되어 RGB 기반 특징맵인 제1a 특징맵, 제1b 특징맵이 생성될 수 있다. 또한, 제1 차영상 및 제2 차영상이 2D CNN 모델에 적용되어 제2a 특징맵과 제2b 특징맵이 생성될 수 있다. 이때, 시-공간 결합 특징맵은 동일한 비디오 프레임에 상응하는 특징맵들을 결합하여 생성될 수 있다. 즉, 제1 샘플링된 비디오 프레임을 기준으로 생성된 제1a 특징맵, 제1 샘플링된 비디오 프레임의 차영상인 제1 차영상을 기준으로 생성된 제2a 특징맵이 결합되어 제1 시-공간 결합 특징맵이 생성될 수 있다. 또한, 즉, 제2 샘플링된 비디오 프레임을 기준으로 생성된 제1b 특징맵, 제2 샘플링된 비디오 프레임의 차영상인 제2 차영상을 기준으로 생성된 제2b 특징맵이 결합되어 제2 시-공간 결합 특징맵이 생성될 수 있다.

이와 같이 생성된 각각의 시-공간 결합 특징맵은 특징 추출부(310) 후단에 연결된 제1 및 제2 완전 연결층(330)으로 전달되어 특징 벡터

가 연산될 수 있다.

이를 수학식으로 나타내면 수학식 5와 같다.

여기서,

는 결합을 위한 특징맵 연결 연산자를 나타내고,

는 특징맵의 n번째에 대한 완전 연결층(FC layer)를 나타낸다.

3D CNN 모델부(320)은 샘플링된 프레임들을 3차원 데이터로 입력받은 후 콘볼루션 연산을 통해 시간적 연관성 중요도 맵을 생성하기 위한 수단이다.

가중치 조정부(340)는 하기에서 보다 상세히 설명되겠지만, 샘플링된 프레임들에 대한 시-공간 결합 특징맵을 기초로 양방향 지수 이동 평균값을 도출한 후 이를 기반으로 가중치를 조정하기 위한 수단이다.

융합 분류부(350)는 가중치 조정된 시-공간 결합 특징맵과 시간적 연관성 중요도 맵을 융합(fusion)한 후 융합된 결과를 기초로 행동을 분류하기 위한 수단이다. 이에 대해서도 하기에서 보다 상세히 설명하기로 한다.

단계 125에서 딥러닝 기반 행동 인식 장치(100)는 샘플링된 프레임들에 대한 시-공간 결합 특징맵을 이용하여 양방향 지수 이동 평균값을 계산하고, 이를 이용하여 가중치를 조정한다.

이에 대해 보다 상세히 설명하기로 한다.

양방향 지수 이동 평균값은 샘플링된 프레임들내에서 행동의 중요 구간에 가중치를 더 부여하기 위해 이용된다.

도 4는 행동 과정을 예시한 도면으로, 프레임을 일렬로 배치했을 때 행동은 준비 과정, 실행 과정 및 완료 과정과 같은 순서로 진행되는 것을 알 수 있다. 따라서, 행동 시퀀스는 집중이 필요한 구간이 존재한다.

본 발명의 일 실시예에서는 학습시, 행동을 시행하는 영상의 프레임 중간 부분(실행 과정)에 중요한 정보를 포함하는 것을 가정하였다.

따라서, 본 발명의 일 실시예에서는 비디오 클립에서 가운데 프레임에서 양극으로 가중치가 낮아지는 양방향 지수 이동 평균을 적용시켜, 가운데 프레임의 영상 정보의 가중치를 높였다. 양방향 지수 이동 평균은 샘플링된 프레임들 중 중간 프레임에 대한 특징맵(즉, 시-공간 결합 특징맵)의 가중치를 중심으로 재귀적인 계산과정을 거칠 수 있다. 양방향 지수 이동 평균값은 수학식 6을 이용하여 계산될 수 있다.

여기서,

는 샘플링된 프레임에 대한 시-공간 결합 특징맵에 대한 특징벡터를 나타내고,

도 6에는

을 변경하며 실험한 결과가 도시되어 있다. 도 6에서 보여지는 바와 같이,

가 1에 가까워질수록 행동 인식 정확도가 향상되는 것을 알 수 있다. 따라서, 본 발명의 일 실시예에서는

을 실험적으로 0.9로 설정하기로 한다.

수학식 6에서 재귀적으로 연산된 양방향 지수 이동 평균값은 분류를 위해 최종 손실을 연산하기 위해 수학식 7과 같이 계산된다.

여기서,

과

는 샘플링된 프레임들 중 중심 프레임(가운데 프레임)을 기준으로 가중치를 부여한 양 끝의 값으로, 최정적으로 완전 연결층 형식이다.

단계 130에서 딥러닝 기반 행동 인식 장치(100)는 샘플링된 프레임들을 3차원 데이터로써 3D CNN 모델에 적용하여 콘볼루션 연산을 통해 시간적 연관성 중요도 맵을 생성한다.

예를 들어, 샘플링된 프레임들을 3 x 16 x 112 x 112의 크기로 하여 3D CNN 모델에 적용하여 시간적 연관성 중요도 맵을 생성할 수 있다.

단계 135에서 딥러닝 기반 행동 인식 장치(100)는 가중치 조정된 시-공간 결합 특징맵과 시간적 연관성 중요도 맵을 상기 학습된 딥러닝 기반 행동 인식 모델에 적용하여 융합(late fusion)한 후 행동을 분류(classification)한다.

이에 대해 보다 상세히 설명하기로 한다.

도 3에 도시된 바와 같이, 가중치 조정된 시-공간 결합 특징맵은 활성화 함수(activation function)인 소프트 맥스(softmax)값이 도출될 수 있다. 또한, 시간적 연관성 중요도 맵의 활성화 함수인 소프트맥스값이 도출될 수 있다.

이를 수학식으로 나타내면 수학식 8 및 수학식 9와 같다.

여기서,

는 3D CNN 모델의 마지막 완전 연결층을 나타낸다.

이와 같이, 소프트 맥스 적용된 결과값을 동일한 가중치로 융합하면 수학식 10과 같이 나타낼 수 있다.

본 발명의 일 실시예에 따르면, 가중치 조정된 시-공간 결합 특징맵과 시간적 연관성 중요도 맵을 각각 소프트맥스 적용한 결과값을 동일한 가중치로 융합(fusion)한 후 융합된 결과값을 이용하여 행동을 분류할 수 있다.

이를 수학식으로 나타내면 수학식 11과 같다.

따라서, 상술한 수학식 11은 샘플링된 비디오 클림(프레임들)에 대한 행동 인식을 위한 목적함수이다. 걀과적으로, 목적함수는 수학식 11과 같이 최소제곱을 통해 행동 분류를 위한 각 라벨에 대한 연산을 수행할 수 있다. 손실값이 최소인 라벨로 행동이 분류될 수 있다.

도 5는 종래와 본 발명의 일 실시예에 따른 행동 분류 정확도 결과를 비교한 표이다.

도 5에서 "RGB"는 VGG16-net을 backbone으로 입력 영상의 RGB 영상만 사용한 결과이며, "RGB+Diff"는 RGB 영상과 차영상을 이용한 결과이며, RGB+Diff+Moving avg"은 RGB 영상과 차영상을 이용한 결과에 양방향 이동 평균값으로 가중치를 부여한 결과를 나타내며, RGB+Diff+Moving avg.+C3D"는 본 발명의 일 실시예에 따른 결과를 나타낸 것이다.

도 5에서 보여지는 바와 같이, 본 발명의 일 실시예에 따른 행동 인식 결과가 종래의 다른 기술들에 비해 행동 인식 정확도가 향상되는 것을 알 수 있다.

도 7 및 도 8은 종래와 본 발명의 일 실시예에 따른 행동 인식에 대한 정확도를 비교한 결과이다. 도 7 및 도 8에서 보여지는 바와 같이, 종래의 기술들에 비해 본 발명의 일 실시예에 따른 행동 인식 분류 정확도가 향상된 것을 알 수 있다.

도 10은 본 발명의 일 실시예에 따른 딥러닝 기반 행동 인식 장치의 내부 구성을 개략적으로 도시한 블록도이다.

도 10을 참조하면, 본 발명의 일 실시예에 따른 딥러닝 기반 행동 인식 장치(100)는 전처리부(910), 학습부(920), 행동 분류부(930), 메모리(940) 및 프로세서(950)를 포함하여 구성된다.

전처리부(910)는 비디오를 샘플링하여 비디오 클립을 생성하고, 비디오 클립에 대한 차영상 세트를 생성하기 위한 수단이다.

또한, 전처리부(910)는 비디오 클립을 딥러닝 기반 행동 인식 모델(300)의 3D CNN 모델에 적용하기 위한 포맷으로 변환할 수 있다.

학습부(920)는 트레이닝 세트를 이용하여 딥러닝 기반 행동 인식 모델을 학습하기 위한 수단이다.

행동 분류부(930)는 샘플링된 프레임들과 상기 차영상 세트를 학습된 딥러닝 기반 행동 인식 모델에 적용하여 시간적 특징과 공간적 특징을 가지는 시-공간 결합 특징맵을 생성한 후 양방향 지수 이동 평균값을 계산하여 시-공간 결합 특징맵의 가중치를 조정하여 상기 샘플링된 프레임들에 대한 3차원 특징을 가지는 시간적 연관성 중요도 맵과 융합하여 행동을 분류하기 위한 수단이다.

딥러닝 기반 행동 인식 모델은 특징 추출부(310), 3D CNN 모델부(320), 복수의 완전 연결층(330), 가중치 조정부(340) 및 융합 분류부(350)를 포함한다.

특징 추출부(310)는 샘플링된 프레임들을 제1 2D CNN 모델에 적용하여 공간적 특징을 포함하는 제1 특징맵을 생성하고, 차영상 세트를 제2 2D CNN 모델에 적용하여 시간적 특징을 포함하는 제2 특징맵을 추출한 후 상기 제1 특징맵과 제2 특징맵을 결합하여 샘플링된 프레임들 각각에 대한 시-공간 결합 특징맵을 생성할 수 있다.

3D CNN 모델부(320)비디오 클립을 상기 학습된 딥러닝 기반 행동 인식 모델에 적용하여 시간적 연관성 중요도 맵을 생성할 수 있다.

가중치 조정부(340)는 시-공간 결합 특징맵을 이용하여 양방향 지수 이동 평균값을 계산한 후 샘플링된 프레임들의 시-공간 결합 특징맵의 가중치를 조정할 수 있다.

융합 분류부(350)는 가중치 조정된 시-공간 결합 특징맵과 시간적 연관성 중요도 맵을 학습된 딥러닝 기반 행동 인식 모델에 적용하여 융합(late fusion)한 후 행동을 분류(classification)할 수 있다.

딥러닝 기반 행동 인식 모델은 도 3을 참조하여 설명한 바와 동일하므로 상세한 설명은 생략하기로 한다.

메모리(940)는 본 발명의 일 실시예에 따른 딥러닝 기반 행동 인식 방법을 수행하기 위해 필요한 다양한 명령어를 저장하기 위한 수단이다.

프로세서(950)는 본 발명의 일 실시예에 따른 딥러닝 기반 행동 인식 장치(100)의 내부 구성 요소들(예를 들어, 전처리부(910), 학습부(920), 행동 분류부(930), 메모리(940) 등)을 제어하기 위한 수단이다.

본 발명의 실시 예에 따른 장치 및 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

(a) 비디오를 샘플링하여 샘플링된 프레임들로 구성된 비디오 클립을 생성하고, 상기 샘플링된 프레임들간의 차영상 세트를 생성하는 단계;

(b) 상기 샘플링된 프레임들과 상기 차영상 세트를 각각 학습된 딥러닝 기반 행동 인식 모델에 적용하여 공간적 특징을 포함하는 제1 특징맵과 시간적 특징을 포함하는 제2 특징맵을 추출하고, 상기 제1 특징맵과 상기 제2 특징맵을 결합하여 샘플링된 프레임들 각각에 대한 시-공간 결합 특징맵을 생성하는 단계;

(c) 상기 시-공간 결합 특징맵을 이용하여 양방향 지수 이동 평균값을 계산한 후 상기 샘플링된 프레임들의 시-공간 결합 특징맵의 가중치를 각각 조정하는 단계;

(d) 상기 비디오 클립을 상기 학습된 딥러닝 기반 행동 인식 모델에 적용하여 시간적 연관성 중요도 맵을 생성하는 단계; 및

(e) 상기 가중치 조정된 시-공간 결합 특징맵과 상기 시간적 연관성 중요도 맵을 상기 학습된 딥러닝 기반 행동 인식 모델에 적용하여 융합(late fusion)한 후 행동을 분류(classification)하는 단계를 포함하는 딥러닝을 이용한 행동 인식 방법.
제1 항에 있어서,

상기 양방향 지수 이동 평균값은 상기 샘플링된 프레임들에 대해 프레임 순서가
일 때 시-공간 결합 특징맵을 중심으로 대칭적으로 나뉘어 가중치가 조정되는 것을 특징으로 하는 딥러닝을 이용한 행동 인식 방법.
제2 항에 있어서,

상기 양방향 지수 이동 평균값은 하기 수학식을 이용하여 계산되는 것을 특징으로 하는 딥러닝을 이용한 행동 인식 방법.

여기서,
는 샘플링된 프레임에 대한 시-공간 결합 특징맵에 대한 특징벡터를 나타내고, n은 샘플링된 프레임에 대한 시간적 순서를 가지는 인덱스를 나타내고,
는 0과 1 사이의 값으로 양방상 지수 이동 평균의 비율 조정을 위한 상수값을 나타냄.
제1 항에 있어서,

상기 딥러닝 기반 행동 인식 모델은

복수의 2D CNN 모델과 3D CNN 모델을 포함하되,

상기 제1 특징맵과 상기 제2 특징맵은 상기 복수의 2D CNN 모델에 의해 생성되고,

상기 시간적 연관성 중요도 맵은 상기 3D CNN 모델에 의해 생성되는 것을 특징으로 하는 딥러닝을 이용한 행동 인식 방법.
제1 항에 있어서,

상기 (e) 단계는,

상기 가중치 조정된 시-공간 결합 특징맵의 활성화 함수인 소프트 맥스값과 상기 시간적 연관성 중요도 맵의 활성화 함수인 소프트맥스값은 동일한 가중치로 융합(fusion)되며, 융합된 결과값을 이용하여 행동을 분류하는 것을 특징으로 하는 딥러닝을 이용한 행동 인식 방법.
제1 항 내지 제 5 항 중 어느 하나의 항에 따른 방법을 수행하기 위한 프로그램 코드를 기록한 컴퓨터로 판독 가능한 기록매체.
비디오를 샘플링하여 샘플링된 프레임들로 구성된 비디오 클립을 생성하고, 상기 샘플링된 프레임들간의 차영상 세트를 생성하는 전처리부;

상기 샘플링된 프레임들과 상기 차영상 세트를 딥러닝 기반 행동 인식 모델에 적용하여 시간적 특징과 공간적 특징을 가지는 시-공간 결합 특징맵을 생성한 후 양방향 지수 이동 평균값을 계산하여 시-공간 결합 특징맵의 가중치를 조정하여 상기 샘플링된 프레임들에 대한 3차원 특징을 가지는 시간적 연관성 중요도 맵과 융합하여 행동을 분류하는 행동 분류부를 포함하는 딥러닝을 이용한 행동 인식 장치.
제7 항에 있어서,

상기 딥러닝 기반 행동 인식 모델은,

상기 샘플링된 프레임들을 제1 2D CNN 모델에 적용하여 공간적 특징을 포함하는 제1 특징맵을 생성하고, 상기 차영상 세트를 제2 2D CNN 모델에 적용하여 시간적 특징을 포함하는 제2 특징맵을 추출한 후 상기 제1 특징맵과 상기 제2 특징맵을 결합하여 샘플링된 프레임들 각각에 대한 시-공간 결합 특징맵을 생성하는 특징 추출부;

상기 비디오 클립을 상기 학습된 딥러닝 기반 행동 인식 모델에 적용하여 시간적 연관성 중요도 맵을 생성하는 3D CNN 모델부;

상기 시-공간 결합 특징맵을 이용하여 양방향 지수 이동 평균값을 계산한 후 상기 샘플링된 프레임들의 시-공간 결합 특징맵의 가중치를 조정하는 가중치 조정부; 및

상기 가중치 조정된 시-공간 결합 특징맵과 상기 시간적 연관성 중요도 맵을 상기 학습된 딥러닝 기반 행동 인식 모델에 적용하여 융합(late fusion)한 후 행동을 분류(classification)하는 융합 분류부를 포함하는 것을 특징으로 하는 딥러닝을 이용한 행동 인식 장치.
제8 항에 있어서,

상기 특징 추출부와 상기 3D CNN 모델부는 복수의 완전 연결층(FC layer)에 의해 연결되며,

상기 가중치 조정부는 상기 복수의 완전 연결층(FC layer) 후단에 배치되되, 상기 복수의 완전 연결층(FC layer)에 연결되어 상기 샘플링된 시-공간 결합 특징맵의 가중치가 조정되는 것을 특징으로 하는 딥러닝을 이용한 행동 인식 장치.
제9 항에 있어서,

상기 양방향 지수 이동 평균값은 상기 샘플링된 프레임들에 대해 프레임 순서가
일 때 시-공간 결합 특징맵을 중심으로 대칭적으로 나뉘어 가중치가 조정되는 것을 특징으로 하는 딥러닝을 이용한 행동 인식 장치.
제8 항에 있어서,

상기 융합 분류부는,

상기 가중치 조정된 시-공간 결합 특징맵의 활성화 함수인 소프트 맥스값과 상기 시간적 연관성 중요도 맵의 활성화 함수인 소프트맥스값은 동일한 가중치로 융합(fusion)하되, 융합된 결과값을 이용하여 행동을 분류하는 것을 특징으로 하는 딥러닝을 이용한 행동 인식 장치.
제7 항에 있어서,

훈련 데이터 세트를 이용하여 상기 딥러닝 기반 행동 인식 모델을 학습하는 학습부를 더 포함하는 딥러닝을 이용한 행동 인식 장치.