KR20230018784A

KR20230018784A - 동영상 기반 행동인식 장치 및 이를 포함하는 동영상 기반 행동인식 시스템

Info

Publication number: KR20230018784A
Application number: KR1020210100707A
Authority: KR
Inventors: 박형민; 강민석; 박래홍
Original assignee: 서강대학교산학협력단
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2023-02-07

Abstract

본 발명의 실시예에 따른 동영상 기반 행동인식 장치는 프레임 변환기, 복수의 레이어들 및 동작 판단부를 포함할 수 있다. 프레임 변환기는 복수의 프레임들의 각각에 상응하는 레드 프레임, 그린 프레임 및 블루 프레임을 하나의 그레이 프레임으로 변환할 수 있다. 복수의 레이어들은 복수의 프레임들의 각각에 상응하는 그레이 프레임의 일부 채널을 그레이 프레임과 인접한 인접 그레이 프레임의 일부 채널로 대체하여 특징 프레임을 제공할 수 있다. 동작 판단부는 특징 프레임에 기초하여 복수의 프레임에 포함되는 움직임을 판단하여 동작 판단결과를 제공할 수 있다.
본 발명에 따른 동영상 기반 행동인식 장치는 복수의 프레임들의 각각에 상응하는 레드 프레임, 그린 프레임 및 블루 프레임을 하나의 그레이 프레임으로 변환하고, 그레이 프레임의 일부 채널을 그레이 프레임과 인접한 인접 그레이 프레임의 일부 채널로 대체하여 특징 프레임을 제공함으로써 동영상 속에서 발생하는 이벤트들을 보다 효율적으로 인식할 수 있다.

Description

동영상 기반 행동인식 장치 및 이를 포함하는 동영상 기반 행동인식 시스템{ACTION RECOGNITION DEVICE BASED ON VIDEO IMAGE AND ACTION RECOGNITION SYSTEM INCLUDING THE SAME}

본 발명은 동영상 기반 행동인식 장치 및 이를 포함하는 동영상 기반 행동인식 시스템에 관한 것이다.

최근, 주거지나 건물 주변의 방범을 위하여 CCTV를 사용하는 경우가 급속하게 증가하고 있다. CCTV로부터 제공되는 동영상에서 급속한 움직임들은 사건 사고등의 이벤트 발생을 의미할 수 있다. 최근, 동영상 속에서 발생하는 이벤트들을 보다 효율적으로 파악하기 위한 다양한 연구들이 진행되고 있다.

(한국등록특허) 제10-1675692호 (등록일자, 2016.11.07)

본 발명이 이루고자 하는 기술적 과제는 복수의 프레임들의 각각에 상응하는 레드 프레임, 그린 프레임 및 블루 프레임을 하나의 그레이 프레임으로 변환하고, 그레이 프레임의 일부 채널을 그레이 프레임과 인접한 인접 그레이 프레임의 일부 채널로 대체하여 특징 프레임을 제공함으로써 동영상 속에서 발생하는 이벤트들을 보다 효율적으로 인식할 수 있는 동영상 기반 행동인식 장치를 제공하는 것이다.

이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 동영상 기반 행동인식 장치는 프레임 변환기, 복수의 레이어들 및 동작 판단부를 포함할 수 있다. 프레임 변환기는 복수의 프레임들의 각각에 상응하는 레드 프레임, 그린 프레임 및 블루 프레임을 하나의 그레이 프레임으로 변환할 수 있다. 복수의 레이어들은 상기 복수의 프레임들의 각각에 상응하는 상기 그레이 프레임의 일부 채널을 상기 그레이 프레임과 인접한 인접 그레이 프레임의 일부 채널로 대체하여 특징 프레임을 제공할 수 있다. 동작 판단부는 상기 특징 프레임에 기초하여 상기 복수의 프레임에 포함되는 움직임을 판단하여 동작 판단결과를 제공할 수 있다.

일 실시예에 있어서, 상기 복수의 레이어들의 각각은 상기 특징 프레임의 일부 채널을 상기 특징 프레임과 인접한 인접 특징 프레임의 일부 채널로 대체할 수 있다.

일 실시예에 있어서, 상기 복수의 레이어들의 개수에 따라 상기 동작 판단결과의 정확도가 결정될 수 있다.

일 실시예에 있어서, 상기 복수의 레이어들의 개수가 증가함에 따라 상기 동작 판단결과의 정확도는 증가할 수 있다.

일 실시예에 있어서, 상기 동영상 기반 행동인식 장치는 색채 판단부를 더 포함할 수 있다. 색채 판단부는 상기 복수의 프레임들 중 일정한 프레임 간격으로 배치되는 간격 프레임들 또는 임의로 선택된 프레임들에 기초하여 상기 움직임의 대상의 색채 정보를 판단하여 색채 판단결과를 제공할 수 있다.

일 실시예에 있어서, 상기 일정한 프레임 간격은 상기 동영상 기반 행동인식 장치가 동작하는 동안에도 변경 가능할 수 있다.

일 실시예에 있어서, 상기 동영상 기반 행동인식 장치는 대상체 판단부를 더 포함할 수 있다. 대상체 판단부는 상기 동작 판단결과 및 상기 색채 판단결과에 기초하여 상기 대상체의 동작을 인식하여 대상체 판단결과를 제공할 수 있다.

이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 동영상 기반 행동인식 장치의 동작방법에서는, 프레임 변환기가 복수의 프레임들의 각각에 상응하는 레드 프레임, 블루 프레임 및 그린 프레임을 하나의 그레이 프레임으로 변환할 수 있다. 복수의 레이어들이 상기 복수의 프레임들의 각각에 상응하는 상기 그레이 프레임의 일부 채널을 상기 그레이 프레임과 인접한 인접 그레이 프레임의 일부 채널로 대체하여 특징 프레임을 제공할 수 있다. 동작 판단부가 상기 특징 프레임에 기초하여 상기 복수의 프레임에 포함되는 움직임을 판단하여 동작 판단결과를 제공할 수 있다.

일 실시예에 있어서, 상기 복수의 레이어들의 각각은 상기 특징 프레임의 일부 채널을 상기 특징 프레임과 인접한 인접 특징 프레임의 일부 채널로 대체할 수 있다. 상기 복수의 레이어들의 개수가 증가함에 따라 상기 동작 판단결과의 정확도는 증가할 수 있다.

이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 동영상 기반 행동인식 시스템은 프레임 변환기, 복수의 레이어들, 동작 판단부 및 색채 판단부를 포함할 수 있다. 프레임 변환기는 복수의 프레임들의 각각에 상응하는 레드 프레임, 블루 프레임 및 그린 프레임을 하나의 그레이 프레임으로 변환할 수 있다. 복수의 레이어들은 상기 복수의 프레임들의 각각에 상응하는 상기 그레이 프레임의 일부 채널을 상기 그레이 프레임과 인접한 인접 그레이 프레임의 일부 채널로 대체하여 특징 프레임을 제공할 수 있다. 동작 판단부는 상기 특징 프레임에 기초하여 상기 복수의 프레임에 포함되는 움직임을 판단하여 동작 판단결과를 제공할 수 있다. 색채 판단부는 상기 복수의 프레임들 중 일정한 프레임 간격으로 배치되는 간격 프레임들 또는 임의로 선택된 프레임들에 기초하여 상기 움직임의 대상의 색채 정보를 판단하여 색채 판단결과를 제공할 수 있다.

일 실시예에 있어서, 상기 동영상 기반 행동인식 시스템은 대상체 판단부를 더 포함할 수 있다. 대상체 판단부는 상기 동작 판단결과 및 상기 색채 판단결과에 기초하여 상기 대상체의 동작을 인식하여 대상체 판단결과를 제공할 수 있다.

이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 동영상 기반 행동인식 시스템의 동작방법에서는, 프레임 변환기가 복수의 프레임들의 각각에 상응하는 레드 프레임, 블루 프레임 및 그린 프레임을 하나의 그레이 프레임으로 변환할 수 있다. 복수의 레이어들이 상기 복수의 프레임들의 각각에 상응하는 상기 그레이 프레임의 일부 채널을 상기 그레이 프레임과 인접한 인접 그레이 프레임의 일부 채널로 대체하여 특징 프레임을 제공할 수 있다. 동작 판단부가 상기 특징 프레임에 기초하여 상기 복수의 프레임에 포함되는 움직임을 판단하여 동작 판단결과를 제공할 수 있다. 색채 판단부가 상기 복수의 프레임들 중 일정한 프레임 간격으로 배치되는 간격 프레임들 또는 임의로 선택된 프레임들에 기초하여 상기 움직임의 대상의 색채 정보를 판단하여 색채 판단결과를 제공할 수 있다.

위에서 언급된 본 발명의 기술적 과제 외에도, 본 발명의 다른 특징 및 이점들이 이하에서 기술되거나, 그러한 기술 및 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

이상과 같은 본 발명에 따르면 다음과 같은 효과가 있다.

본 발명에 따른 동영상 기반 행동인식 장치는 복수의 프레임들의 각각에 상응하는 레드 프레임, 그린 프레임 및 블루 프레임을 하나의 그레이 프레임으로 변환하고, 그레이 프레임의 일부 채널을 그레이 프레임과 인접한 인접 그레이 프레임의 일부 채널로 대체하여 특징 프레임을 제공함으로써 동영상 속에서 발생하는 이벤트들을 보다 효율적으로 인식할 수 있다.

또한, 본 발명에 따른 동영상 기반 행동인식 장치에서는, 레드 프레임, 그린 프레임 및 블루 프레임을 하나의 그레이 프레임으로 변환하는 그레이 프레임 변환 및 복수의 그레이 프레임들을 채널 차원으로 누적하여 2차원 CNN의 입력으로 제공함으로써, 2차원 CNN을 통해 시간적인 특징을 모델링 할 수 있다.

또한, 기존 2D convolution은 단일 정지 영상의 레드 프레임, 그린 프레임 및 블루 프레임에 대해 spatial 특징을 추출하지만, 본 별명에 따르면, 단일 프레임 영상의 레드 프레임, 그린 프레임 및 블루 프레임을 평균하여 하나의 그레이 프레임을 만들고 이를 인접 3 프레임에 대해 채널 축으로 누적하여 기존 컬러 영상과 동일 dimension 입력을 만든 후에　기존 2D convolution을 적용함으로써 3D convolution보다 훨씬 적은 계산량으로 대상체의 움직임에 대한 특징을 추출할 수 있다. 이 때, 채널 축으로 3 프레임보다 더 많거나 적은 개수의 프레임을 누적하고 이 채널 개수와 동일한 차원의 2D convolution kernel을 사용하여 2D convolution을 적용할 수 있다. 또한, 이 누적되는 인접 프레임들이 반드시 이웃하거나 동일 간격으로 한정되지 않을 수 있다.

이 밖에도, 본 발명의 실시 예들을 통해 본 발명의 또 다른 특징 및 이점들이 새롭게 파악될 수도 있을 것이다.

도 1은 본 발명의 실시예들에 따른 동영상 기반 행동인식 장치를 나타내는 도면이다.
도 2는 도 1의 동영상 기반 행동인식 장치에 포함되는 프레임 변환기의 동작을 설명하기 위한 도면이다.
도 3 및 4는 도 1의 동영상 기반 행동인식 장치에 포함되는 복수의 레이어들의 동작을 설명하기 위한 도면이다.
도 5는 도 1의 동영상 기반 행동인식 장치의 일 실시예를 나타내는 도면이다.
도 6은 도 1의 동영상 기반 행동인식 장치에서 사용되는 프레임 간격을 설명하기 위한 도면이다.
도 7은 도 1의 동영상 기반 행동인식 장치의 다른 실시예를 나타내는 도면이다.
도 8은 본 발명의 실시예들에 따른 동영상 기반 행동인식 장치의 동작방법을 나타내는 순서도이다.
도 9는 본 발명의 실시예들에 따른 동영상 기반 행동인식 시스템의 동작방법을 나타내는 순서도이다.

본 명세서에서 각 도면의 구성 요소들에 참조번호를 부가함에 있어서 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한한 동일한 번호를 가지도록 하고 있음에 유의하여야 한다.

한편, 본 명세서에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 정의하지 않는 한, 복수의 표현을 포함하는 것으로 이해되어야 하는 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다.

"포함하다" 또는 "가지다" 등의 용어는 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하, 첨부되는 도면을 참고하여 상기 문제점을 해결하기 위해 고안된 본 발명의 바람직한 실시예들에 대해 상세히 설명한다.

도 1은 본 발명의 실시예들에 따른 동영상 기반 행동인식 장치를 나타내는 도면이고, 도 2는 도 1의 동영상 기반 행동인식 장치에 포함되는 프레임 변환기의 동작을 설명하기 위한 도면이고, 도 3 및 4는 도 1의 동영상 기반 행동인식 장치에 포함되는 복수의 레이어들의 동작을 설명하기 위한 도면이다.

도 1 내지 4를 참조하면, 본 발명의 실시예에 따른 동영상 기반 행동인식 장치(10)는 프레임 변환기(100), 복수의 레이어들(200) 및 동작 판단부(300)를 포함할 수 있다. 본 발명에 따른 동영상 기반 행동인식 장치에서 프레임들을 그룹핑하기 이전에 전처리 단계로서 Motion Saliency Map(MSM)단계가 수행될 수 있다.

프레임 변환기(100)는 복수의 프레임들(MF)의 각각에 상응하는 레드 프레임(RF), 그린 프레임(GF) 및 블루 프레임(BF)을 하나의 그레이 프레임(GRF)으로 변환할 수 있다. 예를 들어, 본 발명에 따른 동영상 기반 동영상 행동인식 장치(10)로 제공되는 동영상은 복수의 프레임들(MF)을 포함할 수 있다. 복수의 프레임들(MF)은 제1 프레임(F1), 제2 프레임(F2) 내지 제N 프레임(N은 자연수)을 포함할 수 있고, 제1 프레임(F1)은 제1 레드 프레임(RF1), 제1 그린 프레임(GF1) 및 제1 블루 프레임(BF1)을 포함할 수 있다. 또한, 동일한 방식으로 제2 프레임(F2) 내지 제N 프레임도 각각 레드 프레임(RF), 그린 프레임(GF) 및 블루 프레임(BF)을 포함할 수 있다. 이 경우, 프레임 변환기(100)는 제1 레드 프레임(RF1), 제1 그린 프레임(GF1) 및 제1 블루 프레임(BF1)을 하나의 제1 그레이 프레임(GRF1)으로 변환할 수 있고, 제2 레드 프레임(RF2), 제2 그린 프레임(GF2) 및 제2 블루 프레임(BF2)을 하나의 제2 그레이 프레임(GRF2)으로 변환할 수 있다. 이와 동일한 방식으로, 프레임 변환기는 제3 그레이 프레임(GRF3) 내지 제N 그레이 프레임을 제공할 수 있다.

이 경우, 레드 프레임(RF), 그린 프레임(GF) 및 블루 프레임(BF)을 이용해서 그레이 프레임(GRF)으로 변환할 때, 레드 프레임(RF), 그린 프레임(GF) 및 블루 프레임(BF)에 각각 제1 가중치, 제2 가중치 및 제3 가중치를 곱하여 합산함으로써 그레이 프레임(GRF)을 생성할 수도 있다. 실시예에 따라서, 제1 가중치, 제2 가중치 및 제3 가중치는 서로 동일할 수도 있고, 서로 상이할 수도 있다.

또한, 프레임 변환기(100)는 제1 레드 프레임(RF1) 및 제2 레드 프레임(RF2)을 비교하여 하이라이트 정보를 제공할 수 있고, 제1 그린 프레임(GF1) 및 제2 그린 프레임(GF2)을 비교하여 하이라이트 정보를 제공할 수 있으며, 제1 블루 프레임(BF1) 및 제2 블루 프레임(BF2)을 비교하여 하이라이트 정보를 제공할 수 있다. 이 경우, 레드, 그린 및 블루 프레임들 간의 유클리디안 거리를 계산한 후, 컨볼루션 및 풀링 레이어를 이용해 움직이는 물체에 집중할 수 있는 하이라이트 정보를 생성할 수 있다. 프레임 변환기(100)는 그레이 프레임(GRF) 및 상기 하이라이트 정보를 이용하여 새로운 그레이 프레임을 생성할 수도 있다.

복수의 레이어들(200)은 복수의 프레임들(MF)의 각각에 상응하는 그레이 프레임(GRF)의 일부 채널을 그레이 프레임(GRF)과 인접한 인접 그레이 프레임의 일부 채널로 대체하여 특징 프레임(FF)을 제공할 수 있다. 일 실시예에 있어서, 복수의 레이어들(200)의 각각은 특징 프레임(FF)의 일부 채널을 특징 프레임(FF)과 인접한 인접 특징 프레임의 일부 채널로 대체할 수 있다. 인접 그레이 프레임은 그레이 프레임(GRF)과 일정한 프레임 간격을 갖는 프레임일 수 있고, 일정한 프레임 간격은 1 이상의 프레임 간격일 수 있다. 특징 프레임(FF)은 그레이 프레임(GRF) 및 인접 그레이 프레임에 기초하여 복수의 컨볼루션 연산들을 수행한 결과일 수 있다.

예를 들어, 복수의 레이어들(200)은 제1 레이어(L1), 제2 레이어(L2) 내지 제K 레이어(K는 자연수)를 포함할 수 있다. 복수의 레이어들(200)에 제공되는 그레이 프레임들은 제1 그레이 프레임(GRF1), 제2 그레이 프레임(GRF2) 내지 제N 그레이 프레임을 포함할 수 있다. 제1 레이어(L1)는 제1 그레이 프레임(GRF1) 내지 제3 그레이 프레임(GRF3)에 기초하여 제1_1 특징 프레임(FF1_1)을 생성할 수 있다. 이 경우, 그레이 프레임(GRF)은 제2 그레이 프레임(GRF2)일 수 있고, 인접 그레이 프레임은 제1 그레이 프레임(GRF1) 및 제3 그레이 프레임(GRF3)일 수 있다. 제4 그레이 프레임 내지 제6 그레이 프레임에 기초하여 제1_2 특징 프레임(FF1_2)을 생성할 수 있다. 동일한 방식으로, 제1 레이어(L1)는 제1_3 특징 프레임(FF1_3) 내지 제1_P 특징 프레임(P는 자연수)을 생성할 수 있다.

이후, 제2 레이어(L2)는 제1_1 특징 프레임(FF1_1) 및 제1_2 특징 프레임(FF1_2)에 기초하여 제2_1 특징 프레임(FF2_1)을 생성할 수 있다. 또한, 제1_1 특징 프레임(FF1_1), 제1_2 특징 프레임(FF1_2) 및 제1_3 특징 프레임(FF1_3)에 기초하여 제2_2 특징 프레임(FF2_2)을 생성할 수 있다. 이 경우, 특징 프레임(FF)은 제1_2 특징 프레임(FF1_2)일 수 있고, 인접 특징 프레임은 제1_1 특징 프레임(FF1_1) 및 제1_3 특징 프레임(FF1_3)일 수 있다. 동일한 방식으로, 제2 레이어(L2)는 제2_3 특징 프레임(FF2_3) 내지 제2_P 특징 프레임을 생성할 수 있다.

여기서, 제2_2 특징 프레임(FF2_2)을 생성하는 방법에 대해서 보다 상세하게 살펴보면, 제1_1 특징 프레임(FF1_1), 제1_2 특징 프레임(FF1_2) 및 제1_3 특징 프레임(FF1_3)의 각각은 제1 채널(CH1) 내지 제N 채널(CHN)을 포함할 수 있다. 또한, 제2_2 특징 프레임(FF2_2)도 제1 채널(CH1) 내지 제N 채널(CHN)을 포함할 수 있다. 제2 레이어(L2)는 제2_2 특징 프레임(FF2_2)의 제1 채널(CH1)을 제1_1 특징 프레임(FF1_1)의 제N 채널(CHN)로 대체하고, 제2_2 특징 프레임(FF2_2)의 제2 채널 내지 제N-1 채널을 제1_2 특징 프레임(FF1_2)의 제2 채널 내지 제N-1 채널로 대체하고, 제2_2 특징 프레임(FF2_2)의 제N 채널(CHN)을 제1_3 특징 프레임(FF1_3)의 제1 채널(CH1)로 대체하여 제2_2 특징 프레임(FF2_2)을 생성할 수 있다. 이와 같은 방식은 본 발명에 따른 동영상 기반 행동인식 장치(10)에서 사용되는 특징 프레임(FF)에 동일하게 적용될 수 있다. 다만, 특징 프레임(FF)을 생성하기 위하여 대체할 하위 특징 프레임이 존재하지 않는 경우, 특징 프레임의 일부 채널은 제로 패딩될 수 있다.

동작 판단부(300)는 특징 프레임(FF)에 기초하여 복수의 프레임들에 포함되는 움직임을 판단하여 동작 판단결과(AER)를 제공할 수 있다. 예를 들어, 제2_2 특징 프레임에는 복수의 그레이 프레임들 중 제1 그레이 프레임(GRF1) 내지 제9 그레이 프레임까지의 정보들이 포함될 수 있다. 이와 같이, 복수의 레이어들(200)을 사용하여 보다 넓은 프레임에 대한 정보를 포함하는 특징 프레임(FF)들을 형성할 수 있고, 특징 프레임(FF)에 따라 결정되는 동작 판단결과(AER)에 따라 동영상에서 발생하는 이벤트들을 보다 효과적으로 파악할 수 있다. 일 실시예에 있어서, 복수의 레이어들(200)의 개수에 따라 동작 판단결과(AER)의 정확도가 결정될 수 있다. 예를 들어, 복수의 레이어들(200)의 개수가 증가함에 따라 동작 판단결과(AER)의 정확도는 증가할 수 있다.

본 발명에 따른 동영상 기반 행동인식 장치(10)는 복수의 프레임들(MF)의 각각에 상응하는 레드 프레임(RF), 그린 프레임(GF) 및 블루 프레임(BF)을 하나의 그레이 프레임으로 변환하고, 그레이 프레임의 일부 채널을 그레이 프레임과 인접한 인접 그레이 프레임의 일부 채널로 대체하여 특징 프레임(FF)을 제공함으로써 동영상 속에서 발생하는 이벤트들을 보다 효율적으로 인식할 수 있다.

도 5는 도 1의 동영상 기반 행동인식 장치의 일 실시예를 나타내는 도면이고, 도 6은 도 1의 동영상 기반 행동인식 장치에서 사용되는 프레임 간격을 설명하기 위한 도면이고, 도 7은 도 1의 동영상 기반 행동인식 장치의 다른 실시예를 나타내는 도면이다.

도 1 내지 7을 참조하면, 본 발명의 실시예에 따른 동영상 기반 행동인식 장치(10)는 프레임 변환기, 복수의 레이어들(200) 및 동작 판단부(300)를 포함할 수 있고, 일 실시예에 있어서, 동영상 기반 행동인식 장치(10)는 색채 판단부(400)를 더 포함할 수 있다.

색채 판단부(400)는 복수의 프레임들(MF) 중 일정한 프레임 간격(FI)으로 배치되는 간격 프레임들 또는 임의로 선택된 프레임들에 기초하여 움직임 대상의 색채 정보를 판단하여 색채 판단결과(CER)를 제공할 수 있다. 예를 들어, 동작 판단부(300)로부터 제공되는 동작 판단결과(AER)만을 이용하는 경우, 대상체의 동작이 위험동작인지 여부를 파악하기 어려운 경우가 있을 수 있다. 이러한 경우, 대상체의 동작이 위험동작인지 여부를 보다 명확하게 파악하기 위해서 색채 판단결과(CER)를 사용할 수 있다.

예를 들어, 본 발명에 따른 동영상 기반 행동인식 장치(10)에 설정된 프레임 간격(FI)은 3일 수 있다. 이 경우, 색체 판단부는 복수의 프레임들(MF) 중 일부에 해당하는 제1 프레임(F1), 제4 프레임(F4), 제7 프레임(F7) 내지 제(3N-2) 프레임을 이용하여 움직임 대상의 색채 정보를 파악할 수 있다. 색채 판단부(400)는 2차원 CNN(2D Convolution Neural Network)를 포함할 수 있다.

일 실시예에 있어서, 일정한 프레임 간격(FI)은 동영상 기반 행동인식 장치(10)가 동작하는 동안에도 변경 가능할 수 있다. 예를 들어, 복수의 시간들은 제1 시간(T1) 내지 제4 시간(T4)을 포함할 수 있다. 본 발명에 따른 동영상 기반 행동인식 장치(10)의 동작시간(OPT)은 제1 시간(T1)부터 제4 시간(T4)까지 일 수 있다. 이 경우, 제1 시간(T1)에 사용자에 의해 설정되는 프레임 간격(FI)은 2일 수 있고, 제1 시간(T1) 이후, 제2 시간(T2)에 사용자는 프레임 간격(FI)을 3으로 변경할 수 있다. 또한, 제2 시간(T2) 이후, 제3 시간(T3)에 사용자는 프레임 간격(FI)을 4로 다시 변경할 수 있다.

일 실시예에 있어서, 동영상 기반 행동인식 장치(10)는 대상체 판단부(500)를 더 포함할 수 있다. 대상체 판단부(500)는 동작 판단결과(AER) 및 색채 판단결과(CER)에 기초하여 대상체의 동작을 인식하여 대상체 판단결과(OER)를 제공할 수 있다. 예를 들어, 동작 판단부(300)로부터 제공되는 동작 판단결과(AER)만을 이용하여 대상체의 동작이 위험동작인지 여부를 파악하기 어려운 경우, 색채 판단부(400)로부터 제공되는 색채 판단결과(CER)를 동작 판단결과(AER)와 조합한 대상체 판단결과(OER)를 이용하면 보다 효과적으로 이벤트를 파악할 수 있다.

도 8은 본 발명의 실시예들에 따른 동영상 기반 행동인식 장치의 동작방법을 나타내는 순서도이고, 도 9는 본 발명의 실시예들에 따른 동영상 기반 행동인식 시스템의 동작방법을 나타내는 순서도이다.

도 1 내지 9를 참조하면, 본 발명의 실시예에 따른 동영상 기반 행동인식 장치(10)의 동작방법에서는, 프레임 변환기가 복수의 프레임들(MF)의 각각에 상응하는 레드 프레임(RF), 블루 프레임(BF) 및 그린 프레임(GF)을 하나의 그레이 프레임으로 변환할 수 있다(S100). 복수의 레이어들(200)이 복수의 프레임들(MF)의 각각에 상응하는 그레이 프레임(GRF)의 일부 채널을 그레이 프레임과 인접한 인접 그레이 프레임의 일부 채널로 대체하여 특징 프레임(FF)을 제공할 수 있다(S200). 동작 판단부(300)가 특징 프레임(FF)에 기초하여 복수의 프레임에 포함되는 움직임을 판단하여 동작 판단결과(AER)를 제공할 수 있다(S300). 여기서, 인접 그레이 프레임은 그레이 프레임(GRF)과 일정한 프레임 간격을 갖는 프레임일 수 있고, 일정한 프레임 간격은 1 이상의 프레임 간격일 수 있다. 특징 프레임(FF)은 그레이 프레임(GRF) 및 인접 그레이 프레임에 기초하여 복수의 컨볼루션 연산들을 수행한 결과일 수 있다.

일 실시예에 있어서, 복수의 레이어들(200)의 각각은 특징 프레임(FF)의 일부 채널을 특징 프레임(FF)과 인접한 인접 특징 프레임의 일부 채널로 대체할 수 있다. 복수의 레이어들(200)의 개수가 증가함에 따라 동작 판단결과(AER)의 정확도는 증가할 수 있다.

본 발명의 실시예에 따른 동영상 기반 행동인식 시스템은 프레임 변환기, 복수의 레이어들(200), 동작 판단부(300) 및 색채 판단부(400)를 포함할 수 있다. 프레임 변환기는 복수의 프레임들(MF)의 각각에 상응하는 레드 프레임(RF), 블루 프레임(BF) 및 그린 프레임(GF)을 하나의 그레이 프레임으로 변환할 수 있다. 복수의 레이어들(200)은 복수의 프레임들(MF)의 각각에 상응하는 그레이 프레임(GRF)의 일부 채널을 그레이 프레임(GRF)과 인접한 인접 그레이 프레임의 일부 채널로 대체하여 특징 프레임(FF)을 제공할 수 있다. 동작 판단부(300)는 특징 프레임(FF)에 기초하여 복수의 프레임에 포함되는 움직임을 판단하여 동작 판단결과(AER)를 제공할 수 있다. 색채 판단부(400)는 복수의 프레임들(MF) 중 일정한 프레임 간격(FI)으로 배치되는 간격 프레임들 또는 임의로 선택된 프레임들에 기초하여 움직임의 대상의 색채 정보를 판단하여 색채 판단결과(CER)를 제공할 수 있다. 일 실시예에 있어서, 동영상 기반 행동인식 시스템은 대상체 판단부(500)를 더 포함할 수 있다. 대상체 판단부(500)는 동작 판단결과(AER) 및 색채 판단결과(CER)에 기초하여 대상체의 동작을 인식하여 대상체 판단결과(OER)를 제공할 수 있다. 여기서, 인접 그레이 프레임은 그레이 프레임(GRF)과 일정한 프레임 간격을 갖는 프레임일 수 있고, 일정한 프레임 간격은 1 이상의 프레임 간격일 수 있다. 특징 프레임(FF)은 그레이 프레임(GRF) 및 인접 그레이 프레임에 기초하여 복수의 컨볼루션 연산들을 수행한 결과일 수 있다.

본 발명의 실시예에 따른 동영상 기반 행동인식 시스템의 동작방법에서는, 프레임 변환기가 복수의 프레임들(MF)의 각각에 상응하는 레드 프레임(RF), 블루 프레임(BF) 및 그린 프레임(GF)을 하나의 그레이 프레임으로 변환할 수 있다(S100). 복수의 레이어들(200)이 복수의 프레임들(MF)의 각각에 상응하는 그레이 프레임의 일부 채널을 그레이 프레임과 인접한 인접 그레이 프레임의 일부 채널로 대체하여 특징 프레임(FF)을 제공할 수 있다(S200). 동작 판단부(300)가 특징 프레임(FF)에 기초하여 복수의 프레임에 포함되는 움직임을 판단하여 동작 판단결과(AER)를 제공할 수 있다(S300). 색채 판단부(400)가 복수의 프레임들(MF) 중 일정한 프레임 간격(FI)으로 배치되는 간격 프레임들 또는 임의로 선택된 프레임들에 기초하여 움직임의 대상의 색채 정보를 판단하여 색채 판단결과(CER)를 제공할 수 있다(S400). 일 실시예에 있어서, 일정한 프레임 간격(FI)은 동영상 기반 행동인식 장치(10)가 동작하는 동안에도 변경 가능할 수 있다.

본 발명에 따른 동영상 기반 행동인식 시스템의 동작방법에서는, 복수의 프레임들(MF)의 각각에 상응하는 레드 프레임(RF), 그린 프레임(GF) 및 블루 프레임(BF)을 하나의 그레이 프레임으로 변환하고, 그레이 프레임의 일부 채널을 그레이 프레임과 인접한 인접 그레이 프레임의 일부 채널로 대체하여 특징 프레임(FF)을 제공함으로써 동영상 속에서 발생하는 이벤트들을 보다 효율적으로 인식할 수 있다.

10: 동영상 기반 행동인식 장치 100: 프레임 변환기
200: 복수의 레이어들 300: 동작 판단부
400: 색채 판단부

Claims

복수의 프레임들의 각각에 상응하는 레드 프레임, 그린 프레임 및 블루 프레임을 하나의 그레이 프레임으로 변환하는 프레임 변환기;
상기 복수의 프레임들의 각각에 상응하는 상기 그레이 프레임의 일부 채널을 상기 그레이 프레임과 인접한 인접 그레이 프레임의 일부 채널로 대체하여 특징 프레임을 제공하는 복수의 레이어들; 및
상기 특징 프레임에 기초하여 상기 복수의 프레임에 포함되는 움직임을 판단하여 동작 판단결과를 제공하는 동작 판단부를 포함하는 동영상 기반 행동인식 장치.
제1항에 있어서,
상기 복수의 레이어들의 각각은,
상기 특징 프레임의 일부 채널을 상기 특징 프레임과 인접한 인접 특징 프레임의 일부 채널로 대체하는 것을 특징으로 동영상 기반 행동인식 장치.
제2항에 있어서,
상기 복수의 레이어들의 개수에 따라 상기 동작 판단결과의 정확도가 결정되는 것을 특징으로 하는 동영상 기반 행동인식 장치.
제3항에 있어서,
상기 복수의 레이어들의 개수가 증가함에 따라 상기 동작 판단결과의 정확도는 증가하는 것을 특징으로 하는 동영상 기반 행동인식 장치.
제4항에 있어서,
상기 동영상 기반 행동인식 장치는,
상기 복수의 프레임들 중 일정한 프레임 간격으로 배치되는 간격 프레임들 또는 임의로 선택된 프레임들에 기초하여 상기 움직임의 대상의 색채 정보를 판단하여 색채 판단결과를 제공하는 색채 판단부를 더 포함하는 것을 특징으로 하는 동영상 기반 행동인식 장치.
제5항에 있어서,
상기 일정한 프레임 간격은 상기 동영상 기반 행동인식 장치가 동작하는 동안에도 변경가능한 것을 특징으로 하는 동영상 기반 행동인식 장치.
제6항에 있어서,
상기 동영상 기반 행동인식 장치는,
상기 동작 판단결과 및 상기 색채 판단결과에 기초하여 상기 대상체의 동작을 인식하여 대상체 판단결과를 제공하는 대상체 판단부를 더 포함하는 것을 특징으로 하는 동영상 기반 행동인식 장치.
프레임 변환기가 복수의 프레임들의 각각에 상응하는 레드 프레임, 블루 프레임 및 그린 프레임을 하나의 그레이 프레임으로 변환하는 단계;
복수의 레이어들이 상기 복수의 프레임들의 각각에 상응하는 상기 그레이 프레임의 일부 채널을 상기 그레이 프레임과 인접한 인접 그레이 프레임의 일부 채널로 대체하여 특징 프레임을 제공하는 단계; 및
동작 판단부가 상기 특징 프레임에 기초하여 상기 복수의 프레임에 포함되는 움직임을 판단하여 동작 판단결과를 제공하는 단계를 포함하고,
상기 특징 프레임은 상기 그레이 프레임 및 상기 인접 그레이 프레임에 기초하여 복수의 컨볼루션 연산들을 수행한 결과인 것을 특징으로 하는 동영상 기반 행동인식 장치의 동작방법.
제8항에 있어서,
상기 복수의 레이어들의 각각은,
상기 특징 프레임의 일부 채널을 상기 특징 프레임과 인접한 인접 특징 프레임의 일부 채널로 대체하고,
상기 복수의 레이어들의 개수가 증가함에 따라 상기 동작 판단결과의 정확도는 증가하는 것을 특징으로 하는 동영상 기반 행동인식 장치의 동작방법.
복수의 프레임들의 각각에 상응하는 레드 프레임, 블루 프레임 및 그린 프레임을 하나의 그레이 프레임으로 변환하는 프레임 변환기;
상기 복수의 프레임들의 각각에 상응하는 상기 그레이 프레임의 일부 채널을 상기 그레이 프레임과 인접한 인접 그레이 프레임의 일부 채널로 대체하여 특징 프레임을 제공하는 복수의 레이어들;
상기 특징 프레임에 기초하여 상기 복수의 프레임에 포함되는 움직임을 판단하여 동작 판단결과를 제공하는 동작 판단부; 및
상기 복수의 프레임들 중 일정한 프레임 간격으로 배치되는 간격 프레임들 또는 임의로 선택된 프레임들에 기초하여 상기 움직임의 대상의 색채 정보를 판단하여 색채 판단결과를 제공하는 색채 판단부를 포함하는 동영상 기반 행동인식 시스템.
제10항에 있어서,
상기 동영상 기반 행동인식 시스템은,
상기 동작 판단결과 및 상기 색채 판단결과에 기초하여 상기 대상체의 동작을 인식하여 대상체 판단결과를 제공하는 대상체 판단부를 더 포함하는 것을 특징으로 하는 동영상 기반 행동인식 시스템.
프레임 변환기가 복수의 프레임들의 각각에 상응하는 레드 프레임, 블루 프레임 및 그린 프레임을 하나의 그레이 프레임으로 변환하는 단계;
복수의 레이어들이 상기 복수의 프레임들의 각각에 상응하는 상기 그레이 프레임의 일부 채널을 상기 그레이 프레임과 인접한 인접 그레이 프레임의 일부 채널로 대체하여 특징 프레임을 제공하는 단계;
동작 판단부가 상기 특징 프레임에 기초하여 상기 복수의 프레임에 포함되는 움직임을 판단하여 동작 판단결과를 제공하는 단계; 및
색채 판단부가 상기 복수의 프레임들 중 일정한 프레임 간격으로 배치되는 간격 프레임들 또는 임의로 선택된 프레임들에 기초하여 상기 움직임의 대상의 색채 정보를 판단하여 색채 판단결과를 제공하는 단계를 포함하고,
상기 특징 프레임은 상기 그레이 프레임 및 상기 인접 그레이 프레임에 기초하여 복수의 컨볼루션 연산들을 수행한 결과인 것을 특징으로 하는 동영상 기반 행동인식 시스템의 동작방법.
제12항에 있어서,
상기 일정한 프레임 간격은 상기 동영상 기반 행동인식 장치가 동작하는 동안에도 변경가능한 것을 특징으로 하는 동영상 기반 행동인식 시스템의 동작방법.