KR101969230B1

KR101969230B1 - 학습을 이용한 모션 인식 장치 및 방법과 이에 대한 기록 매체

Info

Publication number: KR101969230B1
Application number: KR1020170136310A
Authority: KR
Inventors: 이상훈; 이인웅
Original assignee: 연세대학교 산학협력단
Priority date: 2017-10-20
Filing date: 2017-10-20
Publication date: 2019-04-15

Abstract

학습을 이용한 모션 인식 장치 및 방법과 이에 대한 기록 매체가 개시된다. 개시된 장치는 하나의 모션에 대해 입력된 3D 스켈레톤 시퀀스를 이용하여 다수의 3D 스켈레톤 신(scene)을 생성하는 신 생성부; 각 3D 스켈레톤 신 별로 모션을 인식하는 모션 인식부; 및 각 3D 스켈레톤 신 별로 인식된 모션 결과에 기초하여 적합한 모션을 선택하는 모션 선택부를 포함하되, 상기 각 3D 스켈레톤 신은 다수의 서브 신들을 포함하고, 서로 다른 3D 스켈레톤 신에 포함된 서브 신들은 서로 다른 프레임 수를 가지며, 동일한 3D 스켈레톤 신에 포함된 서브 신들은 동일한 프레임 수를 갖되 서로 다른 프레임 위치를 가지고, 상기 서브 신은 상기 입력된 3D 스켈레톤 시퀀스의 일부 프레임을 LSTM 특징자 벡터로 변환하여 생성되며, 상기 신 생성부는 레퍼런스 3D 스켈레톤 시퀀스를 이용하여 사전에 학습되어 있는 것을 특징으로 한다. 개시된 장치에 따르면, 보다 정확한 모션 인식을 수행할 수 있는 장점이 있다.

Description

학습을 이용한 모션 인식 장치 및 방법과 이에 대한 기록 매체{Apparatus and Method for Motion Recognition using Learning, and Recording Medium thereof}

본 발명은 학습을 이용한 모션 인식 장치 및 방법과 이에 대한 기록 매체에 관한 것이다.

모션 인식은 모션 캡쳐 장비를 이용하여 얻은 3D 스켈레톤 시퀀스를 학습을 이용하여 판단하여 사람이 어떤 행동을 하는지 인식하도록 하는 데에 목적이 있다.

모션 인식에는 다양한 방식의 학습이 사용될 수 있는데, hidden markov model(HMM) 방식, long short-term memory(LSTM) 방식 등이 사용될 수 있다. 이 중 최근에 사용되는 LSTM 방식은 모션 인식 분야에서 좋은 성능을 보이고 있는 딥러닝 기계 학습 모델로서 최근 스켈레톤 기반의 모션 인식 분야에서 최고의 성능을 보여주고 있다. 그러나 종래의 방식은 스켈레톤 시퀀스 전체를 LSTM의 입력으로 넣어서 사용을 하므로 스켈레톤 시퀀스에서 중요한 스켈레톤과 중요하지 않은 스켈레톤을 하나의 특징점으로 인식하게 되어 보다 정확한 모션 인식이 이루어지지 않는 단점이 있다.

상기한 바와 같은 종래기술의 문제점을 해결하기 위해, 본 발명은 보다 정확성을 향상시킬 수 있는 학습을 이용한 모션 인식 장치 및 방법과 이에 대한 기록 매체를 제공한다.

상기한 목적을 달성하기 위해 본 발명의 바람직한 일 실시예에 따르면, 하나의 모션에 대해 입력된 3D 스켈레톤 시퀀스를 이용하여 다수의 3D 스켈레톤 신(scene)을 생성하는 신 생성부; 각 3D 스켈레톤 신 별로 모션을 인식하는 모션 인식부; 및 각 3D 스켈레톤 신 별로 인식된 모션 결과에 기초하여 적합한 모션을 선택하는 모션 선택부를 포함하되, 상기 각 3D 스켈레톤 신은 다수의 서브 신들을 포함하고, 서로 다른 3D 스켈레톤 신에 포함된 서브 신들은 서로 다른 프레임 수를 가지며, 동일한 3D 스켈레톤 신에 포함된 서브 신들은 동일한 프레임 수를 갖되 서로 다른 프레임 위치를 가지고, 상기 서브 신은 상기 입력된 3D 스켈레톤 시퀀스의 일부 프레임을 LSTM 특징자 벡터로 변환하여 생성되며, 상기 신 생성부는 레퍼런스 3D 스켈레톤 시퀀스를 이용하여 사전에 학습되어 있는 것을 특징으로 하는 학습을 이용한 모션 인식 장치가 제공된다.

각 서브 신 별로 모든 프레임의 LSTM 특징자 벡터를 취합하여 제1 벡터집합을 생성하는 벡터 취합부; 및 각 3D 스켈레톤 신 별로 제1 벡터집합들을 연결하여 제2 벡터집합을 생성하는 벡터 연결부를 더 포함하는 것을 특징으로 한다.

상기 제1 벡터집합의 벡터의 개수는 각 프레임의 LSTM 특징자 벡터 개수와 동일하고, 상기 제2 벡터집합의 벡터의 개수는 상기 제2 벡터집합 생성에 이용된 모든 제1 벡터집합의 벡터의 개수의 합과 동일한 것을 특징으로 한다.

각 서브 신의 프레임 중 적어도 하나는 동일한 3D 스켈레톤 신 내의 다른 서브 신들 중 적어도 하나에 포함되는 것을 특징으로 한다.

하나의 3D 스켈레톤 신에 포함된 각 서브 신은 상기 입력된 3D 스켈레톤 시퀀스에서 일방향으로 일정한 프레임 개수만큼 쉬프트 되어가며 생성되는 것을 특징으로 한다.

상기 모션 인식부는 각 3D 스켈레톤 신 별로 각 모션 라벨에 대한 확률을 산출하고, 상기 모션 선택부는 상기 산출된 확률을 취합하여 가장 높은 확률을 갖는 모션 라벨을 선택하는 것을 특징으로 한다.

또한, 본 발명의 다른 실시예에 따르면, (a)하나의 모션에 대해 입력된 3D 스켈레톤 시퀀스를 이용하여 다수의 3D 스켈레톤 신(scene)을 생성하는 단계; (b)각 3D 스켈레톤 신 별로 모션을 인식하는 단계; 및 (c)각 3D 스켈레톤 신 별로 인식된 모션 결과에 기초하여 적합한 모션을 선택하는 단계를 포함하되, 상기 각 3D 스켈레톤 신은 다수의 서브 신들을 포함하고, 서로 다른 3D 스켈레톤 신에 포함된 서브 신들은 서로 다른 프레임 수를 가지며, 동일한 3D 스켈레톤 신에 포함된 서브 신들은 동일한 프레임 수를 갖되 서로 다른 프레임 위치를 가지고, 상기 서브 신은 상기 입력된 3D 스켈레톤 시퀀스의 일부 프레임을 LSTM 특징자 벡터로 변환하여 생성되며, 상기 (a)단계는 레퍼런스 3D 스켈레톤 시퀀스를 이용하여 사전에 학습되어 있는 것을 특징으로 하는 학습을 이용한 모션 인식 방법이 제공된다.

(a)단계 이후에, (a1)각 서브 신 별로 모든 프레임의 LSTM 특징자 벡터를 취합하여 제1 벡터집합을 생성하는 단계; 및 (a2)각 3D 스켈레톤 신 별로 제1 벡터집합들을 연결하여 제2 벡터집합을 생성하는 단계를 더 포함하는 것을 특징으로 한다.

상기 (b)단계는 각 3D 스켈레톤 신 별로 각 모션 라벨에 대한 확률을 산출하고, 상기 (c)단계는 상기 산출된 확률을 취합하여 가장 높은 확률을 갖는 모션 라벨을 선택하는 것을 특징으로 한다.

또한, 본 발명의 또다른 실시예에 따르면, 상기의 모션 인식 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체가 제공된다.

본 발명은 보다 정확한 모션 인식을 수행할 수 있는 장점이 있다.

도 1은 본 발명의 바람직한 일 실시예에 따른 학습을 이용한 모션 인식 장치의 구조도이다.
도 2는 본 발명의 3D 스켈레톤 신 생성 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 서브 신 생성 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 모션 인식 및 선택 과정을 설명하기 위한 도면이다.
도 5는 본 발명의 바람직한 일 실시예에 따른 학습을 이용한 모션 인식 방법을 시간의 흐름에 따라 나타낸 순서도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 자세히 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명의 학습을 이용한 모션 인식 장치는 하나의 모션에 대해 입력된 3D 스켈레톤 시퀀스에서 모션(motion)을 인식하기 위하여 학습을 이용한다. 특히, 본 발명에서는 딥러닝 방식의 하나인 LSTM(long short term memory)을 이용하며, 입력되는 3D 스켈레톤 시퀀스에서 일부 프레임이 중첩되는 다수의 3D 스켈레톤 신(scene)을 생성하여 temporal sliding 구조를 사용한다. 또한, 본 발명은 3D 스켈레톤 신을 구성하는 프레임 개수별로 모션 인식을 수행하여 가장 많이 인식된 모션을 선택함으로 보다 정확한 모션 인식을 수행하게 된다.

입력되는 3D 스켈레톤 시퀀스는 프레임으로 구성될 수 있으며, 모션 캡쳐 장비를 이용하여 획득될 수 있다. 일례로, 영상 장비, 가속도 장비 또는 자이로 센서와 같은 장비들이 3D 스켈레톤 시퀀스 획득에 사용될 수 있다.

도 1은 본 발명의 바람직한 일 실시예에 따른 학습을 이용한 모션 인식 장치의 구조도이다.

도 1을 참조하면, 본 발명의 바람직한 일 실시예에 따른 학습을 이용한 모션 인식 장치는 신(scene) 생성부(110), 벡터 취합부(120), 벡터 연결부(130), 모션 인식부(140) 및 모션 선택부(150)를 포함할 수 있다.

신 생성부(110)는 입력되는 3D 스켈레톤 시퀀스에서 3D 스켈레톤 신을 생성할 수 있다. 3D 스켈레톤 신은 다수의 서브 신으로 구성될 수 있다. 특히, 서로 다른 3D 스켈레톤 신에 포함된 서브 신들은 서로 다른 프레임 수를 가질 수 있다. 한편, 동일한 3D 스켈레톤 신에 포함된 서브 신들은 동일한 프레임 수를 갖되 서로 다른 프레임 위치를 가질 수 있다.

도 2는 본 발명의 3D 스켈레톤 신 생성 과정을 설명하기 위한 도면이다.

도 2를 참조하면, 신 생성부(110)는 3D 스켈레톤 신에 포함되는 서브 신의 프레임의 개수를 변화 시켜가며 3D 스켈레톤 신을 생성할 수 있다. 도 2에서는 3D 스켈레톤 시퀀스와 동일한 프레임의 서브 신으로 구성된 제1 3D 스켈레톤 신(10), a개의 프레임의 서브 신으로 구성된 제2 3D 스켈레톤 신(20), b개의 프레임의 서브 신으로 구성된 제3 3D 스켈레톤 신(30) 및 c개의 프레임의 서브 신으로 구성된 제4 3D 스켈레톤 신(40)이 생성되었다.

본 발명의 학습을 이용한 모션 인식 장치는 3D 스켈레톤 신 별로 모션 인식을 하게 된다. 각 3D 스켈레톤 신마다 서브 신의 프레임 개수가 다르므로, 다양한 모션에서 중요한 스켈레톤을 인식하는 것이 용이해질 수 있다.

도 3은 본 발명의 서브 신 생성 과정을 설명하기 위한 도면이다.

도 3에서는 입력되는 3D 스켈레톤 시퀀스(10)가 8개의 프레임으로 구성된 경우에 하나의 3D 스켈레톤 신 내에서 생성되는 서브 신들을 예시하였다. 도 3을 참조하면, 신 생성부(110)는 입력된 3D 스켈레톤 시퀀스(10)에서 8개보다 작은 개수의 연속된 프레임으로 구성된 서브 신을 생성할 수 있다. 일례로, 도 2에서는 4개의 프레임으로 구성된 서브 신(21, 22, 23)을 생성하였다. 또한, 서브 신(21, 22, 23)은 다수 생성되며, 각 서브 신의 프레임 중 적어도 하나는 동일한 3D 스켈레톤 신 내의 다른 서브 신들 중 적어도 하나에 포함되도록 생성된다. 즉, 도 2에서 서브 신(21)의 일부 프레임은 서브 신(22)에도 포함된다.

입력된 3D 스켈레톤 시퀀스의 각 프레임은 LSTM 특징자 벡터로 변환될 수 있는데, 서브 신은 입력된 3D 스켈레톤 시퀀스의 일부 프레임을 LSTM 특징자 벡터로 변환하여 생성될 수 있다.

달리 표현하면, 서브 신은 입력되는 3D 스켈레톤 시퀀스(10) 내에서 일정한 프레임 수만큼 일방향으로 쉬프트 되어가며 생성될 수 있다. 일례로, 도 2의 (a)에서는 4개의 연속된 프레임으로 구성된 서브 신(21, 22, 23)이 일측으로 2개의 프레임만큼 쉬프트 되어가며 생성되었다.

벡터 취합부(120)는 각 서브 신 별로 모든 프레임의 LSTM 특징자 벡터들을 취합하여 제1 벡터집합을 생성한다. 일례로, 서브 신이 m개의 프레임으로 구성되며, 각 프레임이 n개의 LSTM 특징자 벡터로 구성된다면, 벡터 취합부(120)는 각 프레임의 벡터들을 n개의 벡터로 구성된 하나의 집합으로 취합한다. 결과적으로,

개의 벡터로 구성되었던 서브 신으로부터 벡터 취합부(120)는 n개의 벡터로 구성된 제1 벡터집합을 생성할 수 있다. 일례로, 도 3의 경우에는 10개의 제1 벡터집합이 생성될 수 있다.

벡터 연결부(130)는 프레임 개수별로 모션 인식을 수행하기 위해, 각 3D 스켈레톤 신 별로 제1 벡터집합들을 연결하여 제2 벡터집합을 생성한다. 일례로, 특정 3D 스켈레톤 신에 각 프레임이 n개의 벡터로 구성되는 m개의 프레임으로 구성된 서브 신이

개 존재한다면, 각 서브 신들에서 생성된 제1 벡터집합은 n개의 벡터만으로 구성되므로,

개의 제1 벡터집합을 모두 연결하면

개의 벡터로 구성된 제2 벡터집합을 생성할 수 있다. 일례로, 도 3의 경우에는 3개의 제2 벡터집합이 생성될 수 있다.

모션 인식부(140)는 벡터 연결부(130)에서 생성된 제2 벡터집합을 이용하여 모션 인식을 수행한다. 모션 인식부(140)는 모션 인식 결과를 각 3D 스켈레톤 신 별로 각 라벨에 대한 확률 분포로 산출할 수 있다.

모션 인식부(140)는 각 3D 스켈레톤 신 별로 모션 인식 결과를 산출하여 모션 선택부(150)로 전달한다.

모션 선택부(150)는 모션 인식부(140)의 모션 인식 결과를 취합하여 가장 높은 확률을 갖는 모션 라벨을 선택하여 최종 결과값으로 출력할 수 있다.

도 4는 본 발명의 모션 인식 및 선택 과정을 설명하기 위한 도면이다.

도 4는 도 2에 예시된 각 3D 스켈레톤 신 별 모션 인식 결과를 예시한다.

도 4를 참조하면, 각 3D 스켈레톤 신(10, 20, 30, 40)의 모션 인식 결과가 확률 분포로 산출되고, 산출된 결과값을 앙상블(Ensemble)하여 모션 선택부(140)는 최종 모션 라벨을 선택할 수 있다.

본 발명의 바람직한 일 실시예에 따른 학습을 이용한 모션 인식 장치의 신 생성부(110)는 LSTM 방식으로 사전에 학습되어 있을 수 있다. 학습은 레퍼런스 3D 스켈레톤 시퀀스를 입력값으로 하여 수행될 수 있다. 학습에 의해 LSTM 특징자 벡터를 생성하는 파라미터가 결정될 수 있다.

또한, 모션 선택부(150)가 앙상블 과정에서 가중치를 부여할 수도 있으며, 부여되는 가중치 또한 사전에 학습되어 결정될 수도 있을 것이다.

상술한 바와 같이, 본 발명의 바람직한 일 실시예에 따른 학습을 이용한 모션 인식 장치는 LSTM을 이용하여 각 3D 스켈레톤 신 별로 인식한 모션을 앙상블하여 보다 정확한 모션 인식을 수행할 수 있다.

도 4는 본 발명의 바람직한 일 실시예에 따른 학습을 이용한 모션 인식 방법을 시간의 흐름에 따라 나타낸 순서도이다.

도 4를 참조하면, 본 발명의 바람직한 일 실시예에 따른 학습을 이용한 모션 인식 방법은 신 생성 단계(S410), 벡터 취합 단계(S420), 벡터 연결 단계(S430), 모션 인식 단계(S440) 및 모션 선택 단계(S450)를 포함할 수 있다.

신 생성 단계(S410)는 신(scene) 생성부(110)에서 3D 스켈레톤 신을 생성하는 단계이다.

벡터 취합 단계(S420)는 벡터 취합부(120)에서 제1 벡터집합을 생성하는 단계이다.

벡터 연결 단계(S430)는 벡터 연결부(130)에서 제2 벡터집합을 생성하는 단계이다.

모션 인식 단계(S440)는 모션 인식부(140)에서 제2 벡터집합을 이용하여 모션 인식을 수행하는 단계이다.

모션 선택 단계(S450)는 모션 선택부(150)에서 모션 라벨을 선택하여 최종 결과값을 출력하는 단계이다.

앞서 설명한 기술적 내용들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예들을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다는 것을 이해할 것이다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

110: 신 생성부
120: 벡터 취합부
130: 벡터 연결부
140: 모션 인식부
150: 모션 선택부

Claims

하나의 모션에 대해 입력된 3D 스켈레톤 시퀀스를 이용하여 다수의 3D 스켈레톤 신(scene)을 생성하는 신 생성부;
각 3D 스켈레톤 신 별로 모션을 인식하는 모션 인식부; 및
각 3D 스켈레톤 신 별로 인식된 모션 결과에 기초하여 적합한 모션을 선택하는 모션 선택부를 포함하되,
상기 각 3D 스켈레톤 신은 다수의 서브 신들을 포함하고, 서로 다른 3D 스켈레톤 신에 포함된 서브 신들은 서로 다른 프레임 수를 가지며, 동일한 3D 스켈레톤 신에 포함된 서브 신들은 동일한 프레임 수를 갖되 서로 다른 프레임 위치를 가지고,
상기 서브 신은 상기 입력된 3D 스켈레톤 시퀀스의 일부 프레임을 LSTM 특징자 벡터로 변환하여 생성되며,
상기 신 생성부는 레퍼런스 3D 스켈레톤 시퀀스를 이용하여 사전에 학습되어 있으며,
각 서브 신 별로 모든 프레임의 LSTM 특징자 벡터를 취합하여 제1 벡터집합을 생성하는 벡터 취합부; 및
각 3D 스켈레톤 신 별로 제1 벡터집합들을 연결하여 제2 벡터집합을 생성하는 벡터 연결부를 더 포함하는 것을 특징으로 하는 학습을 이용한 모션 인식 장치.
삭제
제1항에 있어서,
상기 제1 벡터집합의 벡터의 개수는 각 프레임의 LSTM 특징자 벡터 개수와 동일하고,
상기 제2 벡터집합의 벡터의 개수는 상기 제2 벡터집합 생성에 이용된 모든 제1 벡터집합의 벡터의 개수의 합과 동일한 것을 특징으로 하는 학습을 이용한 모션 인식 장치.
제1항에 있어서,
각 서브 신의 프레임 중 적어도 하나는 동일한 3D 스켈레톤 신 내의 다른 서브 신들 중 적어도 하나에 포함되는 것을 특징으로 하는 학습을 이용한 모션 인식 장치.
제1항에 있어서,
하나의 3D 스켈레톤 신에 포함된 각 서브 신은 상기 입력된 3D 스켈레톤 시퀀스에서 일방향으로 일정한 프레임 개수만큼 쉬프트 되어가며 생성되는 것을 특징으로 하는 학습을 이용한 모션 인식 장치.
제1항에 있어서,
상기 모션 인식부는 각 3D 스켈레톤 신 별로 각 모션 라벨에 대한 확률을 산출하고,
상기 모션 선택부는 상기 산출된 확률을 취합하여 가장 높은 확률을 갖는 모션 라벨을 선택하는 것을 특징으로 하는 학습을 이용한 모션 인식 장치.
(a)하나의 모션에 대해 입력된 3D 스켈레톤 시퀀스를 이용하여 다수의 3D 스켈레톤 신(scene)을 생성하는 단계;
(b)각 3D 스켈레톤 신 별로 모션을 인식하는 단계; 및
(c)각 3D 스켈레톤 신 별로 인식된 모션 결과에 기초하여 적합한 모션을 선택하는 단계를 포함하되,
상기 각 3D 스켈레톤 신은 다수의 서브 신들을 포함하고, 서로 다른 3D 스켈레톤 신에 포함된 서브 신들은 서로 다른 프레임 수를 가지며, 동일한 3D 스켈레톤 신에 포함된 서브 신들은 동일한 프레임 수를 갖되 서로 다른 프레임 위치를 가지고,
상기 서브 신은 상기 입력된 3D 스켈레톤 시퀀스의 일부 프레임을 LSTM 특징자 벡터로 변환하여 생성되며,
상기 (a)단계는 레퍼런스 3D 스켈레톤 시퀀스를 이용하여 사전에 학습되어 있으며,
(a)단계 이후에,
(a1)각 서브 신 별로 모든 프레임의 LSTM 특징자 벡터를 취합하여 제1 벡터집합을 생성하는 단계; 및
(a2)각 3D 스켈레톤 신 별로 제1 벡터집합들을 연결하여 제2 벡터집합을 생성하는 단계를 더 포함하는 것을 특징으로 하는 학습을 이용한 모션 인식 방법.
삭제
제7항에 있어서,
상기 제1 벡터집합의 벡터의 개수는 각 프레임의 LSTM 특징자 벡터 개수와 동일하고,
상기 제2 벡터집합의 벡터의 개수는 상기 제2 벡터집합 생성에 이용된 모든 제1 벡터집합의 벡터의 개수의 합과 동일한 것을 특징으로 하는 학습을 이용한 모션 인식 방법.
제7항에 있어서,
각 서브 신의 프레임 중 적어도 하나는 동일한 3D 스켈레톤 신 내의 다른 서브 신들 중 적어도 하나에 포함되는 것을 특징으로 하는 학습을 이용한 모션 인식 방법.
제7항에 있어서,
하나의 3D 스켈레톤 신에 포함된 각 서브 신은 상기 입력된 3D 스켈레톤 시퀀스에서 일방향으로 일정한 프레임 개수만큼 쉬프트 되어가며 생성되는 것을 특징으로 하는 학습을 이용한 모션 인식 방법.
제7항에 있어서,
상기 (b)단계는 각 3D 스켈레톤 신 별로 각 모션 라벨에 대한 확률을 산출하고,
상기 (c)단계는 상기 산출된 확률을 취합하여 가장 높은 확률을 갖는 모션 라벨을 선택하는 것을 특징으로 하는 학습을 이용한 모션 인식 방법.
제7항의 모션 인식 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.