KR101969230B1 - 학습을 이용한 모션 인식 장치 및 방법과 이에 대한 기록 매체 - Google Patents

학습을 이용한 모션 인식 장치 및 방법과 이에 대한 기록 매체 Download PDF

Info

Publication number
KR101969230B1
KR101969230B1 KR1020170136310A KR20170136310A KR101969230B1 KR 101969230 B1 KR101969230 B1 KR 101969230B1 KR 1020170136310 A KR1020170136310 A KR 1020170136310A KR 20170136310 A KR20170136310 A KR 20170136310A KR 101969230 B1 KR101969230 B1 KR 101969230B1
Authority
KR
South Korea
Prior art keywords
skeleton
scene
motion
sub
scenes
Prior art date
Application number
KR1020170136310A
Other languages
English (en)
Inventor
이상훈
이인웅
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020170136310A priority Critical patent/KR101969230B1/ko
Application granted granted Critical
Publication of KR101969230B1 publication Critical patent/KR101969230B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06K9/00335
    • G06K9/00201
    • G06K9/481
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • G06T2207/20044Skeletonization; Medial axis transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

학습을 이용한 모션 인식 장치 및 방법과 이에 대한 기록 매체가 개시된다. 개시된 장치는 하나의 모션에 대해 입력된 3D 스켈레톤 시퀀스를 이용하여 다수의 3D 스켈레톤 신(scene)을 생성하는 신 생성부; 각 3D 스켈레톤 신 별로 모션을 인식하는 모션 인식부; 및 각 3D 스켈레톤 신 별로 인식된 모션 결과에 기초하여 적합한 모션을 선택하는 모션 선택부를 포함하되, 상기 각 3D 스켈레톤 신은 다수의 서브 신들을 포함하고, 서로 다른 3D 스켈레톤 신에 포함된 서브 신들은 서로 다른 프레임 수를 가지며, 동일한 3D 스켈레톤 신에 포함된 서브 신들은 동일한 프레임 수를 갖되 서로 다른 프레임 위치를 가지고, 상기 서브 신은 상기 입력된 3D 스켈레톤 시퀀스의 일부 프레임을 LSTM 특징자 벡터로 변환하여 생성되며, 상기 신 생성부는 레퍼런스 3D 스켈레톤 시퀀스를 이용하여 사전에 학습되어 있는 것을 특징으로 한다. 개시된 장치에 따르면, 보다 정확한 모션 인식을 수행할 수 있는 장점이 있다.

Description

학습을 이용한 모션 인식 장치 및 방법과 이에 대한 기록 매체{Apparatus and Method for Motion Recognition using Learning, and Recording Medium thereof}
본 발명은 학습을 이용한 모션 인식 장치 및 방법과 이에 대한 기록 매체에 관한 것이다.
모션 인식은 모션 캡쳐 장비를 이용하여 얻은 3D 스켈레톤 시퀀스를 학습을 이용하여 판단하여 사람이 어떤 행동을 하는지 인식하도록 하는 데에 목적이 있다.
모션 인식에는 다양한 방식의 학습이 사용될 수 있는데, hidden markov model(HMM) 방식, long short-term memory(LSTM) 방식 등이 사용될 수 있다. 이 중 최근에 사용되는 LSTM 방식은 모션 인식 분야에서 좋은 성능을 보이고 있는 딥러닝 기계 학습 모델로서 최근 스켈레톤 기반의 모션 인식 분야에서 최고의 성능을 보여주고 있다. 그러나 종래의 방식은 스켈레톤 시퀀스 전체를 LSTM의 입력으로 넣어서 사용을 하므로 스켈레톤 시퀀스에서 중요한 스켈레톤과 중요하지 않은 스켈레톤을 하나의 특징점으로 인식하게 되어 보다 정확한 모션 인식이 이루어지지 않는 단점이 있다.
상기한 바와 같은 종래기술의 문제점을 해결하기 위해, 본 발명은 보다 정확성을 향상시킬 수 있는 학습을 이용한 모션 인식 장치 및 방법과 이에 대한 기록 매체를 제공한다.
상기한 목적을 달성하기 위해 본 발명의 바람직한 일 실시예에 따르면, 하나의 모션에 대해 입력된 3D 스켈레톤 시퀀스를 이용하여 다수의 3D 스켈레톤 신(scene)을 생성하는 신 생성부; 각 3D 스켈레톤 신 별로 모션을 인식하는 모션 인식부; 및 각 3D 스켈레톤 신 별로 인식된 모션 결과에 기초하여 적합한 모션을 선택하는 모션 선택부를 포함하되, 상기 각 3D 스켈레톤 신은 다수의 서브 신들을 포함하고, 서로 다른 3D 스켈레톤 신에 포함된 서브 신들은 서로 다른 프레임 수를 가지며, 동일한 3D 스켈레톤 신에 포함된 서브 신들은 동일한 프레임 수를 갖되 서로 다른 프레임 위치를 가지고, 상기 서브 신은 상기 입력된 3D 스켈레톤 시퀀스의 일부 프레임을 LSTM 특징자 벡터로 변환하여 생성되며, 상기 신 생성부는 레퍼런스 3D 스켈레톤 시퀀스를 이용하여 사전에 학습되어 있는 것을 특징으로 하는 학습을 이용한 모션 인식 장치가 제공된다.
각 서브 신 별로 모든 프레임의 LSTM 특징자 벡터를 취합하여 제1 벡터집합을 생성하는 벡터 취합부; 및 각 3D 스켈레톤 신 별로 제1 벡터집합들을 연결하여 제2 벡터집합을 생성하는 벡터 연결부를 더 포함하는 것을 특징으로 한다.
상기 제1 벡터집합의 벡터의 개수는 각 프레임의 LSTM 특징자 벡터 개수와 동일하고, 상기 제2 벡터집합의 벡터의 개수는 상기 제2 벡터집합 생성에 이용된 모든 제1 벡터집합의 벡터의 개수의 합과 동일한 것을 특징으로 한다.
각 서브 신의 프레임 중 적어도 하나는 동일한 3D 스켈레톤 신 내의 다른 서브 신들 중 적어도 하나에 포함되는 것을 특징으로 한다.
하나의 3D 스켈레톤 신에 포함된 각 서브 신은 상기 입력된 3D 스켈레톤 시퀀스에서 일방향으로 일정한 프레임 개수만큼 쉬프트 되어가며 생성되는 것을 특징으로 한다.
상기 모션 인식부는 각 3D 스켈레톤 신 별로 각 모션 라벨에 대한 확률을 산출하고, 상기 모션 선택부는 상기 산출된 확률을 취합하여 가장 높은 확률을 갖는 모션 라벨을 선택하는 것을 특징으로 한다.
또한, 본 발명의 다른 실시예에 따르면, (a)하나의 모션에 대해 입력된 3D 스켈레톤 시퀀스를 이용하여 다수의 3D 스켈레톤 신(scene)을 생성하는 단계; (b)각 3D 스켈레톤 신 별로 모션을 인식하는 단계; 및 (c)각 3D 스켈레톤 신 별로 인식된 모션 결과에 기초하여 적합한 모션을 선택하는 단계를 포함하되, 상기 각 3D 스켈레톤 신은 다수의 서브 신들을 포함하고, 서로 다른 3D 스켈레톤 신에 포함된 서브 신들은 서로 다른 프레임 수를 가지며, 동일한 3D 스켈레톤 신에 포함된 서브 신들은 동일한 프레임 수를 갖되 서로 다른 프레임 위치를 가지고, 상기 서브 신은 상기 입력된 3D 스켈레톤 시퀀스의 일부 프레임을 LSTM 특징자 벡터로 변환하여 생성되며, 상기 (a)단계는 레퍼런스 3D 스켈레톤 시퀀스를 이용하여 사전에 학습되어 있는 것을 특징으로 하는 학습을 이용한 모션 인식 방법이 제공된다.
(a)단계 이후에, (a1)각 서브 신 별로 모든 프레임의 LSTM 특징자 벡터를 취합하여 제1 벡터집합을 생성하는 단계; 및 (a2)각 3D 스켈레톤 신 별로 제1 벡터집합들을 연결하여 제2 벡터집합을 생성하는 단계를 더 포함하는 것을 특징으로 한다.
상기 제1 벡터집합의 벡터의 개수는 각 프레임의 LSTM 특징자 벡터 개수와 동일하고, 상기 제2 벡터집합의 벡터의 개수는 상기 제2 벡터집합 생성에 이용된 모든 제1 벡터집합의 벡터의 개수의 합과 동일한 것을 특징으로 한다.
각 서브 신의 프레임 중 적어도 하나는 동일한 3D 스켈레톤 신 내의 다른 서브 신들 중 적어도 하나에 포함되는 것을 특징으로 한다.
하나의 3D 스켈레톤 신에 포함된 각 서브 신은 상기 입력된 3D 스켈레톤 시퀀스에서 일방향으로 일정한 프레임 개수만큼 쉬프트 되어가며 생성되는 것을 특징으로 한다.
상기 (b)단계는 각 3D 스켈레톤 신 별로 각 모션 라벨에 대한 확률을 산출하고, 상기 (c)단계는 상기 산출된 확률을 취합하여 가장 높은 확률을 갖는 모션 라벨을 선택하는 것을 특징으로 한다.
또한, 본 발명의 또다른 실시예에 따르면, 상기의 모션 인식 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체가 제공된다.
본 발명은 보다 정확한 모션 인식을 수행할 수 있는 장점이 있다.
도 1은 본 발명의 바람직한 일 실시예에 따른 학습을 이용한 모션 인식 장치의 구조도이다.
도 2는 본 발명의 3D 스켈레톤 신 생성 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 서브 신 생성 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 모션 인식 및 선택 과정을 설명하기 위한 도면이다.
도 5는 본 발명의 바람직한 일 실시예에 따른 학습을 이용한 모션 인식 방법을 시간의 흐름에 따라 나타낸 순서도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 자세히 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명의 학습을 이용한 모션 인식 장치는 하나의 모션에 대해 입력된 3D 스켈레톤 시퀀스에서 모션(motion)을 인식하기 위하여 학습을 이용한다. 특히, 본 발명에서는 딥러닝 방식의 하나인 LSTM(long short term memory)을 이용하며, 입력되는 3D 스켈레톤 시퀀스에서 일부 프레임이 중첩되는 다수의 3D 스켈레톤 신(scene)을 생성하여 temporal sliding 구조를 사용한다. 또한, 본 발명은 3D 스켈레톤 신을 구성하는 프레임 개수별로 모션 인식을 수행하여 가장 많이 인식된 모션을 선택함으로 보다 정확한 모션 인식을 수행하게 된다.
입력되는 3D 스켈레톤 시퀀스는 프레임으로 구성될 수 있으며, 모션 캡쳐 장비를 이용하여 획득될 수 있다. 일례로, 영상 장비, 가속도 장비 또는 자이로 센서와 같은 장비들이 3D 스켈레톤 시퀀스 획득에 사용될 수 있다.
도 1은 본 발명의 바람직한 일 실시예에 따른 학습을 이용한 모션 인식 장치의 구조도이다.
도 1을 참조하면, 본 발명의 바람직한 일 실시예에 따른 학습을 이용한 모션 인식 장치는 신(scene) 생성부(110), 벡터 취합부(120), 벡터 연결부(130), 모션 인식부(140) 및 모션 선택부(150)를 포함할 수 있다.
신 생성부(110)는 입력되는 3D 스켈레톤 시퀀스에서 3D 스켈레톤 신을 생성할 수 있다. 3D 스켈레톤 신은 다수의 서브 신으로 구성될 수 있다. 특히, 서로 다른 3D 스켈레톤 신에 포함된 서브 신들은 서로 다른 프레임 수를 가질 수 있다. 한편, 동일한 3D 스켈레톤 신에 포함된 서브 신들은 동일한 프레임 수를 갖되 서로 다른 프레임 위치를 가질 수 있다.
도 2는 본 발명의 3D 스켈레톤 신 생성 과정을 설명하기 위한 도면이다.
도 2를 참조하면, 신 생성부(110)는 3D 스켈레톤 신에 포함되는 서브 신의 프레임의 개수를 변화 시켜가며 3D 스켈레톤 신을 생성할 수 있다. 도 2에서는 3D 스켈레톤 시퀀스와 동일한 프레임의 서브 신으로 구성된 제1 3D 스켈레톤 신(10), a개의 프레임의 서브 신으로 구성된 제2 3D 스켈레톤 신(20), b개의 프레임의 서브 신으로 구성된 제3 3D 스켈레톤 신(30) 및 c개의 프레임의 서브 신으로 구성된 제4 3D 스켈레톤 신(40)이 생성되었다.
본 발명의 학습을 이용한 모션 인식 장치는 3D 스켈레톤 신 별로 모션 인식을 하게 된다. 각 3D 스켈레톤 신마다 서브 신의 프레임 개수가 다르므로, 다양한 모션에서 중요한 스켈레톤을 인식하는 것이 용이해질 수 있다.
도 3은 본 발명의 서브 신 생성 과정을 설명하기 위한 도면이다.
도 3에서는 입력되는 3D 스켈레톤 시퀀스(10)가 8개의 프레임으로 구성된 경우에 하나의 3D 스켈레톤 신 내에서 생성되는 서브 신들을 예시하였다. 도 3을 참조하면, 신 생성부(110)는 입력된 3D 스켈레톤 시퀀스(10)에서 8개보다 작은 개수의 연속된 프레임으로 구성된 서브 신을 생성할 수 있다. 일례로, 도 2에서는 4개의 프레임으로 구성된 서브 신(21, 22, 23)을 생성하였다. 또한, 서브 신(21, 22, 23)은 다수 생성되며, 각 서브 신의 프레임 중 적어도 하나는 동일한 3D 스켈레톤 신 내의 다른 서브 신들 중 적어도 하나에 포함되도록 생성된다. 즉, 도 2에서 서브 신(21)의 일부 프레임은 서브 신(22)에도 포함된다.
입력된 3D 스켈레톤 시퀀스의 각 프레임은 LSTM 특징자 벡터로 변환될 수 있는데, 서브 신은 입력된 3D 스켈레톤 시퀀스의 일부 프레임을 LSTM 특징자 벡터로 변환하여 생성될 수 있다.
달리 표현하면, 서브 신은 입력되는 3D 스켈레톤 시퀀스(10) 내에서 일정한 프레임 수만큼 일방향으로 쉬프트 되어가며 생성될 수 있다. 일례로, 도 2의 (a)에서는 4개의 연속된 프레임으로 구성된 서브 신(21, 22, 23)이 일측으로 2개의 프레임만큼 쉬프트 되어가며 생성되었다.
벡터 취합부(120)는 각 서브 신 별로 모든 프레임의 LSTM 특징자 벡터들을 취합하여 제1 벡터집합을 생성한다. 일례로, 서브 신이 m개의 프레임으로 구성되며, 각 프레임이 n개의 LSTM 특징자 벡터로 구성된다면, 벡터 취합부(120)는 각 프레임의 벡터들을 n개의 벡터로 구성된 하나의 집합으로 취합한다. 결과적으로,
Figure 112017103550387-pat00001
개의 벡터로 구성되었던 서브 신으로부터 벡터 취합부(120)는 n개의 벡터로 구성된 제1 벡터집합을 생성할 수 있다. 일례로, 도 3의 경우에는 10개의 제1 벡터집합이 생성될 수 있다.
벡터 연결부(130)는 프레임 개수별로 모션 인식을 수행하기 위해, 각 3D 스켈레톤 신 별로 제1 벡터집합들을 연결하여 제2 벡터집합을 생성한다. 일례로, 특정 3D 스켈레톤 신에 각 프레임이 n개의 벡터로 구성되는 m개의 프레임으로 구성된 서브 신이
Figure 112017103550387-pat00002
개 존재한다면, 각 서브 신들에서 생성된 제1 벡터집합은 n개의 벡터만으로 구성되므로,
Figure 112017103550387-pat00003
개의 제1 벡터집합을 모두 연결하면
Figure 112017103550387-pat00004
개의 벡터로 구성된 제2 벡터집합을 생성할 수 있다. 일례로, 도 3의 경우에는 3개의 제2 벡터집합이 생성될 수 있다.
모션 인식부(140)는 벡터 연결부(130)에서 생성된 제2 벡터집합을 이용하여 모션 인식을 수행한다. 모션 인식부(140)는 모션 인식 결과를 각 3D 스켈레톤 신 별로 각 라벨에 대한 확률 분포로 산출할 수 있다.
모션 인식부(140)는 각 3D 스켈레톤 신 별로 모션 인식 결과를 산출하여 모션 선택부(150)로 전달한다.
모션 선택부(150)는 모션 인식부(140)의 모션 인식 결과를 취합하여 가장 높은 확률을 갖는 모션 라벨을 선택하여 최종 결과값으로 출력할 수 있다.
도 4는 본 발명의 모션 인식 및 선택 과정을 설명하기 위한 도면이다.
도 4는 도 2에 예시된 각 3D 스켈레톤 신 별 모션 인식 결과를 예시한다.
도 4를 참조하면, 각 3D 스켈레톤 신(10, 20, 30, 40)의 모션 인식 결과가 확률 분포로 산출되고, 산출된 결과값을 앙상블(Ensemble)하여 모션 선택부(140)는 최종 모션 라벨을 선택할 수 있다.
본 발명의 바람직한 일 실시예에 따른 학습을 이용한 모션 인식 장치의 신 생성부(110)는 LSTM 방식으로 사전에 학습되어 있을 수 있다. 학습은 레퍼런스 3D 스켈레톤 시퀀스를 입력값으로 하여 수행될 수 있다. 학습에 의해 LSTM 특징자 벡터를 생성하는 파라미터가 결정될 수 있다.
또한, 모션 선택부(150)가 앙상블 과정에서 가중치를 부여할 수도 있으며, 부여되는 가중치 또한 사전에 학습되어 결정될 수도 있을 것이다.
상술한 바와 같이, 본 발명의 바람직한 일 실시예에 따른 학습을 이용한 모션 인식 장치는 LSTM을 이용하여 각 3D 스켈레톤 신 별로 인식한 모션을 앙상블하여 보다 정확한 모션 인식을 수행할 수 있다.
도 4는 본 발명의 바람직한 일 실시예에 따른 학습을 이용한 모션 인식 방법을 시간의 흐름에 따라 나타낸 순서도이다.
도 4를 참조하면, 본 발명의 바람직한 일 실시예에 따른 학습을 이용한 모션 인식 방법은 신 생성 단계(S410), 벡터 취합 단계(S420), 벡터 연결 단계(S430), 모션 인식 단계(S440) 및 모션 선택 단계(S450)를 포함할 수 있다.
신 생성 단계(S410)는 신(scene) 생성부(110)에서 3D 스켈레톤 신을 생성하는 단계이다.
벡터 취합 단계(S420)는 벡터 취합부(120)에서 제1 벡터집합을 생성하는 단계이다.
벡터 연결 단계(S430)는 벡터 연결부(130)에서 제2 벡터집합을 생성하는 단계이다.
모션 인식 단계(S440)는 모션 인식부(140)에서 제2 벡터집합을 이용하여 모션 인식을 수행하는 단계이다.
모션 선택 단계(S450)는 모션 선택부(150)에서 모션 라벨을 선택하여 최종 결과값을 출력하는 단계이다.
앞서 설명한 기술적 내용들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예들을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다는 것을 이해할 것이다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
110: 신 생성부
120: 벡터 취합부
130: 벡터 연결부
140: 모션 인식부
150: 모션 선택부

Claims (13)

  1. 하나의 모션에 대해 입력된 3D 스켈레톤 시퀀스를 이용하여 다수의 3D 스켈레톤 신(scene)을 생성하는 신 생성부;
    각 3D 스켈레톤 신 별로 모션을 인식하는 모션 인식부; 및
    각 3D 스켈레톤 신 별로 인식된 모션 결과에 기초하여 적합한 모션을 선택하는 모션 선택부를 포함하되,
    상기 각 3D 스켈레톤 신은 다수의 서브 신들을 포함하고, 서로 다른 3D 스켈레톤 신에 포함된 서브 신들은 서로 다른 프레임 수를 가지며, 동일한 3D 스켈레톤 신에 포함된 서브 신들은 동일한 프레임 수를 갖되 서로 다른 프레임 위치를 가지고,
    상기 서브 신은 상기 입력된 3D 스켈레톤 시퀀스의 일부 프레임을 LSTM 특징자 벡터로 변환하여 생성되며,
    상기 신 생성부는 레퍼런스 3D 스켈레톤 시퀀스를 이용하여 사전에 학습되어 있으며,
    각 서브 신 별로 모든 프레임의 LSTM 특징자 벡터를 취합하여 제1 벡터집합을 생성하는 벡터 취합부; 및
    각 3D 스켈레톤 신 별로 제1 벡터집합들을 연결하여 제2 벡터집합을 생성하는 벡터 연결부를 더 포함하는 것을 특징으로 하는 학습을 이용한 모션 인식 장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 제1 벡터집합의 벡터의 개수는 각 프레임의 LSTM 특징자 벡터 개수와 동일하고,
    상기 제2 벡터집합의 벡터의 개수는 상기 제2 벡터집합 생성에 이용된 모든 제1 벡터집합의 벡터의 개수의 합과 동일한 것을 특징으로 하는 학습을 이용한 모션 인식 장치.
  4. 제1항에 있어서,
    각 서브 신의 프레임 중 적어도 하나는 동일한 3D 스켈레톤 신 내의 다른 서브 신들 중 적어도 하나에 포함되는 것을 특징으로 하는 학습을 이용한 모션 인식 장치.
  5. 제1항에 있어서,
    하나의 3D 스켈레톤 신에 포함된 각 서브 신은 상기 입력된 3D 스켈레톤 시퀀스에서 일방향으로 일정한 프레임 개수만큼 쉬프트 되어가며 생성되는 것을 특징으로 하는 학습을 이용한 모션 인식 장치.
  6. 제1항에 있어서,
    상기 모션 인식부는 각 3D 스켈레톤 신 별로 각 모션 라벨에 대한 확률을 산출하고,
    상기 모션 선택부는 상기 산출된 확률을 취합하여 가장 높은 확률을 갖는 모션 라벨을 선택하는 것을 특징으로 하는 학습을 이용한 모션 인식 장치.
  7. (a)하나의 모션에 대해 입력된 3D 스켈레톤 시퀀스를 이용하여 다수의 3D 스켈레톤 신(scene)을 생성하는 단계;
    (b)각 3D 스켈레톤 신 별로 모션을 인식하는 단계; 및
    (c)각 3D 스켈레톤 신 별로 인식된 모션 결과에 기초하여 적합한 모션을 선택하는 단계를 포함하되,
    상기 각 3D 스켈레톤 신은 다수의 서브 신들을 포함하고, 서로 다른 3D 스켈레톤 신에 포함된 서브 신들은 서로 다른 프레임 수를 가지며, 동일한 3D 스켈레톤 신에 포함된 서브 신들은 동일한 프레임 수를 갖되 서로 다른 프레임 위치를 가지고,
    상기 서브 신은 상기 입력된 3D 스켈레톤 시퀀스의 일부 프레임을 LSTM 특징자 벡터로 변환하여 생성되며,
    상기 (a)단계는 레퍼런스 3D 스켈레톤 시퀀스를 이용하여 사전에 학습되어 있으며,
    (a)단계 이후에,
    (a1)각 서브 신 별로 모든 프레임의 LSTM 특징자 벡터를 취합하여 제1 벡터집합을 생성하는 단계; 및
    (a2)각 3D 스켈레톤 신 별로 제1 벡터집합들을 연결하여 제2 벡터집합을 생성하는 단계를 더 포함하는 것을 특징으로 하는 학습을 이용한 모션 인식 방법.
  8. 삭제
  9. 제7항에 있어서,
    상기 제1 벡터집합의 벡터의 개수는 각 프레임의 LSTM 특징자 벡터 개수와 동일하고,
    상기 제2 벡터집합의 벡터의 개수는 상기 제2 벡터집합 생성에 이용된 모든 제1 벡터집합의 벡터의 개수의 합과 동일한 것을 특징으로 하는 학습을 이용한 모션 인식 방법.
  10. 제7항에 있어서,
    각 서브 신의 프레임 중 적어도 하나는 동일한 3D 스켈레톤 신 내의 다른 서브 신들 중 적어도 하나에 포함되는 것을 특징으로 하는 학습을 이용한 모션 인식 방법.
  11. 제7항에 있어서,
    하나의 3D 스켈레톤 신에 포함된 각 서브 신은 상기 입력된 3D 스켈레톤 시퀀스에서 일방향으로 일정한 프레임 개수만큼 쉬프트 되어가며 생성되는 것을 특징으로 하는 학습을 이용한 모션 인식 방법.
  12. 제7항에 있어서,
    상기 (b)단계는 각 3D 스켈레톤 신 별로 각 모션 라벨에 대한 확률을 산출하고,
    상기 (c)단계는 상기 산출된 확률을 취합하여 가장 높은 확률을 갖는 모션 라벨을 선택하는 것을 특징으로 하는 학습을 이용한 모션 인식 방법.
  13. 제7항의 모션 인식 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.
KR1020170136310A 2017-10-20 2017-10-20 학습을 이용한 모션 인식 장치 및 방법과 이에 대한 기록 매체 KR101969230B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170136310A KR101969230B1 (ko) 2017-10-20 2017-10-20 학습을 이용한 모션 인식 장치 및 방법과 이에 대한 기록 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170136310A KR101969230B1 (ko) 2017-10-20 2017-10-20 학습을 이용한 모션 인식 장치 및 방법과 이에 대한 기록 매체

Publications (1)

Publication Number Publication Date
KR101969230B1 true KR101969230B1 (ko) 2019-04-15

Family

ID=66104887

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170136310A KR101969230B1 (ko) 2017-10-20 2017-10-20 학습을 이용한 모션 인식 장치 및 방법과 이에 대한 기록 매체

Country Status (1)

Country Link
KR (1) KR101969230B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210053534A (ko) 2019-11-04 2021-05-12 주식회사 넥스트케이 딥러닝기반 행동인식장치 및 그 장치의 구동방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150186713A1 (en) * 2013-12-31 2015-07-02 Konica Minolta Laboratory U.S.A., Inc. Method and system for emotion and behavior recognition
KR101762010B1 (ko) * 2015-08-28 2017-07-28 경희대학교 산학협력단 스켈레톤 자세 데이터세트를 이용한 비디오 기반 상호 활동 모델링 방법
KR20170104322A (ko) * 2016-03-07 2017-09-15 한국전자통신연구원 3차원 기반의 유사 안무 검색 방법 및 이를 이용한 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150186713A1 (en) * 2013-12-31 2015-07-02 Konica Minolta Laboratory U.S.A., Inc. Method and system for emotion and behavior recognition
KR101762010B1 (ko) * 2015-08-28 2017-07-28 경희대학교 산학협력단 스켈레톤 자세 데이터세트를 이용한 비디오 기반 상호 활동 모델링 방법
KR20170104322A (ko) * 2016-03-07 2017-09-15 한국전자통신연구원 3차원 기반의 유사 안무 검색 방법 및 이를 이용한 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Behrooz Mahasseni et al, 2016 IEEE Conference on Computer Vision and Pattern Recognition *
Jun Liu et al, arXiv.org Computer Vision and Pattern Recognition* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210053534A (ko) 2019-11-04 2021-05-12 주식회사 넥스트케이 딥러닝기반 행동인식장치 및 그 장치의 구동방법

Similar Documents

Publication Publication Date Title
CN106297776B (zh) 一种基于音频模板的语音关键词检索方法
KR101919831B1 (ko) 오브젝트 인식 장치, 분류 트리 학습 장치 및 그 동작 방법
JP6419830B2 (ja) 画像検索のためのシステム、方法、および装置
JP5724125B2 (ja) 音源定位装置
US9767790B2 (en) Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium
CN110347872B (zh) 视频封面图像提取方法及装置、存储介质及电子设备
US20110050939A1 (en) Image processing apparatus, image processing method, program, and electronic device
JP6039577B2 (ja) 音声処理装置、音声処理方法、プログラムおよび集積回路
CN111916061B (zh) 语音端点检测方法、装置、可读存储介质及电子设备
GB2518663A (en) Audio analysis apparatus
JP2009031951A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP5723446B2 (ja) 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路
JP4496992B2 (ja) 動物体アップフレーム検出方法及びプログラム及びプログラムを格納した記憶媒体及び動物体アップショット検出方法及び動物体アップフレームあるいはショット検出方法及びプログラム及びプログラムを格納した記憶媒体
JP5777390B2 (ja) 情報処理方法及び装置、パターン識別方法及び装置
JP5658285B2 (ja) 興味区間抽出装置、興味区間抽出方法
KR101969230B1 (ko) 학습을 이용한 모션 인식 장치 및 방법과 이에 대한 기록 매체
EP2115737A1 (en) Method and system to improve automated emotional recognition
JP2014186547A (ja) 移動物体追跡システム、方法及びプログラム
JP5908924B2 (ja) 音声処理装置、方法、プログラムおよび集積回路
Bettens et al. Real-time dtw-based gesture recognition external object for max/msp and puredata
CN117059123A (zh) 基于手势动作图的小样本数字人语音驱动动作重演方法
Terreran et al. Real-time object detection using deep learning for helping people with visual impairments
Panagiotakis et al. Beat synchronous dance animation based on visual analysis of human motion and audio analysis of music tempo
Tang et al. Afo-tad: Anchor-free one-stage detector for temporal action detection
CN113901889B (zh) 一种基于时间和空间建立行为识别热度图的方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant