KR20220124490A

KR20220124490A - 동작 유사도 평가 장치 및 동작 유사도 평가 방법

Info

Publication number: KR20220124490A
Application number: KR1020210028190A
Authority: KR
Inventors: 박성범; 이연건; 이재준; 한지수; 황진성
Original assignee: 주식회사 엔씨소프트
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2022-09-14

Abstract

일실시예에 따르면, 동작 유사도 평가 장치에 있어서, 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 동영상의 프레임 각각에서 상기 동영상에 포함된 동작에 대한 2D 골격 정보를 획득하고, 상기 2D 골격 정보와 기준 3D 골격 정보를 기초로 상기 기준 3D 골격 정보에서 기준 2D 골격 정보를 획득하고, 상기 2D 골격 정보와 상기 기준 2D 골격 정보를 기초로 유사도를 평가한다.

Description

동작 유사도 평가 장치 및 동작 유사도 평가 방법{DEVICE AND METHOD FOR EVALUATING MOTION SIMILARITY}

아래의 실시예들은 동작 유사도 평가 장치 및 동작 유사도 평가 방법에 관한 것이다.

머신 러닝(machine learning)은 인공 지능의 한 분야로, 패턴인식과 컴퓨터 학습 이론의 연구로부터 진화한 분야이며, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야를 말한다.

머신 러닝의 핵심은 표현(representation)과 일반화(generalization)에 있다. 표현이란 데이터의 평가이며, 일반화란 아직 알 수 없는 데이터에 대한 처리이다. 이는 전산 학습 이론 분야이기도 하다.

딥 러닝(deep learning)은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계학습(machine learning) 알고리즘의 집합으로 정의되며, 큰 틀에서 사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야라고 이야기할 수 있다.

합성곱 신경망(Convolutional neural network, CNN)은 시각적 영상을 분석하는 데 사용되는 다층의 피드-포워드적인 인공신경망의 한 종류이다. 딥 러닝에서 심층 신경망으로 분류되며, 시각적 영상 분석에 주로 적용된다.

일실시예에 따르면, 2D 골격 정보와 기준 3D 골격 정보를 기초로 기준 3D 골격 정보에서 기준 2D 골격 정보를 획득할 수 있는 동작 유사도 평가 장치 및 동작 유사도 평가 방법을 제공할 수 있다.

또한, 다른 실시예에 따르면, 2D 골격 정보와 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득할 수 있는 동작 유사도 평가 장치 및 동작 유사도 평가 방법을 제공할 수 있다.

또한, 또 다른 실시예에 따르면, 적어도 하나의 파라미터를 기초로 기준 3D 골격 정보를 2차원으로 투영하여 기준 2D 골격 정보를 획득할 수 있는 동작 유사도 평가 장치 및 동작 유사도 평가 방법을 제공할 수 있다.

또한, 또 다른 실시예에 따르면, 2D 골격 정보에 포함된 관절의 각도 정보와 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도를 평가할 수 있는 동작 유사도 평가 장치 및 동작 유사도 평가 방법을 제공할 수 있다.

또한, 또 다른 실시예에 따르면, 2D 골격 정보 및 기준 3D 골격 정보를 미리 설정된 골격 정보로 리타겟팅 할 수 있는 동작 유사도 평가 장치 및 동작 유사도 평가 방법을 제공할 수 있다.

또한, 또 다른 실시예에 따르면, 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보를 기초로 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도를 평가할 수 있는 동작 유사도 평가 장치 및 동작 유사도 평가 방법을 제공할 수 있다.

또한, 상기 적어도 하나의 프로세서는, 상기 2D 골격 정보와 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하고, 상기 획득한 적어도 하나의 파라미터를 기초로 상기 기준 3D 골격 정보를 2차원으로 투영하여 상기 기준 2D 골격 정보를 획득할 수 있다.

또한, 상기 적어도 하나의 프로세서는, 상기 2D 골격 정보에 포함된 관절의 각도 정보와 상기 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가할 수 있다.

또한, 상기 적어도 하나의 프로세서는, 상기 2D 골격 정보와 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하고, 상기 2D 골격 정보 및 상기 기준 3D 골격 정보를 미리 설정된 골격 정보로 리타겟팅 하고, 상기 획득한 적어도 하나의 파라미터를 기초로 상기 리타겟팅 한 기준 3D 골격 정보를 2차원으로 투영하여 리타겟팅 한 기준 2D 골격 정보를 획득할 수 있다.

또한, 상기 적어도 하나의 프로세서는, 상기 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 상기 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보를 기초로 유사도를 평가할 수 있다.

또한, 상기 적어도 하나의 프로세서는, 상기 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 상기 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가할 수 있다.

또한, 상기 적어도 하나의 프로세서는, 상기 동영상의 미리 설정된 프레임에서 획득한 상기 2D 골격 정보와 상기 동영상의 미리 설정된 프레임에 대응하는 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득할 수 있다.

다른 실시예에 따르면, 동영상의 프레임 각각에서 상기 동영상에 포함된 동작에 대한 2D 골격 정보를 획득하는 동작, 상기 2D 골격 정보와 기준 3D 골격 정보를 기초로 상기 기준 3D 골격 정보에서 기준 2D 골격 정보를 획득하는 동작 및 상기 2D 골격 정보와 상기 기준 2D 골격 정보를 기초로 유사도를 평가하는 동작을 포함한다.

또한, 상기 기준 2D 골격 정보를 획득하는 동작은, 상기 2D 골격 정보와 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하는 동작 및 상기 획득한 적어도 하나의 파라미터를 기초로 상기 기준 3D 골격 정보를 2차원으로 투영하여 상기 기준 2D 골격 정보를 획득하는 동작을 포함할 수 있다.

또한, 상기 유사도를 평가하는 동작은, 상기 2D 골격 정보에 포함된 관절의 각도 정보와 상기 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가하는 동작을 포함할 수 있다.

또한, 상기 기준 2D 골격 정보를 획득하는 동작은, 상기 2D 골격 정보와 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하는 동작, 상기 2D 골격 정보 및 상기 기준 3D 골격 정보를 미리 설정된 골격 정보로 리타겟팅 하는 동작 및 상기 획득한 적어도 하나의 파라미터를 기초로 상기 리타겟팅 한 기준 3D 골격 정보를 2차원으로 투영하여 리타겟팅 한 기준 2D 골격 정보를 획득하는 동작을 포함할 수 있다.

또한, 상기 유사도를 평가하는 동작은, 상기 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 상기 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보를 기초로 유사도를 평가하는 동작을 포함할 수 있다.

또한, 상기 유사도를 평가하는 동작은, 상기 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 상기 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가하는 동작을 포함할 수 있다.

또한, 상기 2D 골격 정보와 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하는 동작은, 상기 동영상의 미리 설정된 프레임에서 획득한 상기 2D 골격 정보와 상기 동영상의 미리 설정된 프레임에 대응하는 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하는 동작을 포함할 수 있다.

일실시예에 따르면, 2D 골격 정보와 기준 3D 골격 정보를 기초로 기준 3D 골격 정보에서 기준 2D 골격 정보를 획득할 수 있는 효과가 있다.

또한, 2D 골격 정보와 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득할 수 있는 효과가 있다.

또한, 적어도 하나의 파라미터를 기초로 기준 3D 골격 정보를 2차원으로 투영하여 기준 2D 골격 정보를 획득할 수 있는 효과가 있다.

또한, 2D 골격 정보에 포함된 관절의 각도 정보와 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도를 평가할 수 있는 효과가 있다.

또한, 2D 골격 정보 및 기준 3D 골격 정보를 미리 설정된 골격 정보로 리타겟팅 할 수 있는 효과가 있다.

또한, 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보를 기초로 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도를 평가할 수 있는 효과가 있다.

도 1은 일실시예에 따라 동작 유사도 평가 장치가 유사도 평가 결과를 생성하는 모습을 나타내는 도면이다.
도 2는 일실시예에 따른 동작 유사도 평가 장치의 구성을 나타내는 도면이다.
도 3은 일실시예에 따라 동작 유사도 평가 장치가 동작을 포함하는 동영상의 프레임 각각에서 동작에 대한 2D 골격 정보를 획득하는 모습을 나타내는 도면이다.
도 4는 일실시예에 따라 동작 유사도 평가 장치가 2D 골격 정보와 기준 3D 골격 정보를 기초로 기준 3D 골격 정보에서 기준 2D 골격 정보를 획득하는 모습을 나타내는 도면이다.
도 5는 일실시예에 따라 동작 유사도 평가 장치가 관절의 각도 정보를 기초로 유사도를 평가하는 모습을 나타내는 도면이다.
도 6은 일실시예에 따라 동작 유사도 평가 장치가 관절의 위치 정보를 기초로 유사도를 평가하는 모습을 나타내는 도면이다.
도 7은 일실시예에 따라 동작 유사도 평가 장치가 실제 유사도를 평가하는 모습을 나타내는 도면이다.
도 8은 일실시예에 따른 동작 유사도 평가 방법을 나타내는 플로우 차트이다.
도 9는 다른 실시예에 따른 동작 유사도 평가 방법을 나타내는 플로우 차트이다.
도 10은 또 다른 실시예에 따른 동작 유사도 평가 방법을 나타내는 플로우 차트이다.

본 명세서에 개시되어 있는 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 실시예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다.

실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 실시예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 실시예들의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 실시예들에 따른 권리 범위로부터 이탈되지 않은 채, 제1구성요소는 제2구성요소로 명명될 수 있고, 유사하게 제2구성요소는 제1구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다.

일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하의 설명에서 동일한 식별 기호는 동일한 구성을 의미하며, 불필요한 중복적인 설명 및 공지 기술에 대한 설명은 생략하기로 한다.

이하, 첨부한 도면을 참조하여 바람직한 실시예를 설명함으로써, 상세히 설명한다.

도 1은 일실시예에 따라 동작 유사도 평가 장치가 유사도 평가 결과를 생성하는 모습을 나타내는 도면이다.

도 1을 참조하면, 일실시예에 따라, 동작 유사도 평가 장치(100)는 동영상(200)을 획득할 수 있다. 이때, 동영상(200)은 동작을 포함할 수 있다. 또한, 동작은 댄스(dance) 동작 일 수 있으나, 동작이 이에 한정되는 것은 아니다.

일실시예에 따라, 동작 유사도 평가 장치(100)는 동영상(200)에 포함된 동작을 인식할 수 있다.

일실시예에 따라, 동작 유사도 평가 장치(100)는 기준(Reference, 이하 '기준'이라 한다) 3D 골격 정보(210)를 획득할 수 있다. 이때, 기준 3D 골격 정보(210)는 동영상(200)에 포함된 동작에 대한 기준 3D 골격 정보일 수 있으나, 기준 3D 골격 정보(210)가 이에 한정되는 것은 아니다. 또한, 기준 3D 골격 정보(210)는 동영상(200)에 포함된 동작(예컨대, 댄스 동작 등)에 대한 모션 캡쳐 정보일 수 있으나, 기준 3D 골격 정보(210)가 이에 한정되는 것은 아니다.

일실시예에 따라, 동작 유사도 평가 장치(100)는 동영상(200) 및 기준 3D 골격 정보(210)를 기초로 유사도 평가 결과(220)를 생성할 수 있다. 이때, 유사도 평가 결과(220)는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과(220)의 대상이 이에 한정되는 것은 아니다.

일실시에 따라, 동작 유사도 평가 장치(100)는 동영상(200)의 프레임 각각에 포함된 사람을 인식할 수 있다.

일실시에 따라, 동작 유사도 평가 장치(100)는 동영상(200)의 프레임 각각에서 인식한 사람이 포함된 영역에 대한 바운딩 박스(bounding box)를 동영상(200)의 프레임 각각에서 획득할 수 있다.

일실시에 따라, 동작 유사도 평가 장치(100)는 미리 설정된 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 획득한 각각의 바운딩 박스(bounding box)에서 골격을 구성하는 각 관절의 위치 히트 맵(Heat map)을 획득할 수 있다. 이때, 미리 설정된 딥 뉴럴 네트워크(Deep Neural Network)는 학습이 완료된 합성곱 신경망(Convolution Neural Network, CNN)일 수 있으나, 미리 설정된 딥 뉴럴 네트워크(Deep Neural Networks)가 이에 한정되는 것은 아니다.

일실시에 따라, 동작 유사도 평가 장치(100)는 획득한 각 관절의 위치 히트 맵(Heat map)을 기초로 각각의 바운딩 박스(bounding box)와 대응하는 2D 골격 정보를 획득할 수 있다.

일실시에 따라, 동작 유사도 평가 장치(100)는 동영상의 프레임 각각에서 획득한 2D 골격 정보와 기준 3D 골격 정보(210)를 정렬하여 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 획득할 수 있다.

ⅰ) 2D 골격 정보와 기준 2D 골격 정보를 기초로 유사도를 평가

일실시에 따라, 동작 유사도 평가 장치(100)는 획득한 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 기초로 기준 3D 골격 정보(210)를 2차원으로 투영하여 기준 2D 골격 정보를 획득할 수 있다.

일실시에 따라, 동작 유사도 평가 장치(100)는 획득한 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 기초로 기준 3D 골격 정보(210)를 2차원으로 투영하여 동영상(200)의 프레임 각각에 대응하는 기준 2D 골격 정보를 획득할 수 있다. 이때, 동영상의 프레임은 동영상에 포함된 동작이 포함된 프레임일 수 있으나, 동영상의 프레임이 이에 한정되는 것은 아니다.

일실시에 따라, 동작 유사도 평가 장치(100)는 2D 골격 정보와 기준 2D 골격 정보를 기초로 유사도를 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

일실시에 따라, 동작 유사도 평가 장치(100)는 동영상의 프레임 각각에서 획득한 2D 골격 정보에 포함된 관절의 각도 정보와 동영상의 프레임 각각에 대응하는 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가할 수 있다. 이때, 동영상의 프레임은 동영상에 포함된 동작이 포함된 프레임일 수 있으나, 동영상의 프레임이 이에 한정되는 것은 아니다. 또한, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보(210)의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

일실시에 따라, 동작 유사도 평가 장치(100)는 2D 골격 정보에 포함된 관절의 각도 정보와 2D 골격 정보에 포함된 관절의 각도 정보와 대응하는 기준 2D 골격 정보에 포함된 관절의 각도 정보 사이의 각도 편차를 각 프레임 마다 계산할 수 있다.

일실시에 따라, 동작 유사도 평가 장치(100)는 계산한 각도 편차를 기초로 유사도를 각 프레임 별로 평가할 수 있다. 이때, 유사도는 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

일실시에 따라, 동작 유사도 평가 장치(100)는 계산한 각도 편차가 작을수록 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)가 유사하다고 평가할 수 있다.

일실시에 따라, 동작 유사도 평가 장치(100)는 계산한 각도 편차가 클수록 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)가 비유사하다고 평가할 수 있다.

일실시에 따라, 동작 유사도 평가 장치(100)는 각 프레임 별로 평가한 유사도 평가 결과(220)를 생성할 수 있다. 이때, 유사도 평가 결과(220)는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과(220)의 대상이 이에 한정되는 것은 아니다.

일실시에 따라, 동작 유사도 평가 장치(100)는 동영상 전체로 평가한 유사도 평가 결과(220)를 생성할 수 있다. 이때, 유사도 평가 결과(220)는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과(220)의 대상이 이에 한정되는 것은 아니다.

ⅱ) 리타겟팅 한 2D 골격 정보와 리타겟팅 한 기준 2D 골격 정보를 기초로 유사도를 평가

일실시에 따라, 동작 유사도 평가 장치(100)는 골격 정보를 정규화(Normalization) 시키기 위하여 2D 골격 정보 및 기준 3D 골격 정보(210)를 미리 설정된 골격(예컨대, 정규화 된 표준 체형의 골격) 정보로 리타겟팅 할 수 있다.

일실시에 따라, 동작 유사도 평가 장치(100)는 골격 정보를 정규화(Normalization) 시키기 위하여 2D 골격 정보 및 기준 3D 골격 정보(210)를 미리 설정된 골격 정보(예컨대, 정규화 된 표준 체형의 골격 정보, 대한민국 남성 평균 키에 해당하는 골격 정보, 대한민국 여성 평균 키에 해당하는 골격 정보 등)로 리타겟팅 할 수 있다.

일실시에 따라, 동작 유사도 평가 장치(100)는 골격 정보를 정규화(Normalization) 시키기 위하여 2D 골격 정보를 기준 3D 골격 정보(210)로 리타겟팅 할 수 있다.

일실시에 따라, 동작 유사도 평가 장치(100)는 골격 정보를 정규화(Normalization) 시키기 위하여 기준 3D 골격 정보(210)를 2D 골격 정보로 리타겟팅 할 수 있다.

일실시에 따라, 동작 유사도 평가 장치(100)는 획득한 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 기초로 리타겟팅 한 기준 3D 골격 정보를 2차원으로 투영하여 리타겟팅 한 기준 2D 골격 정보를 획득할 수 있다.

일실시에 따라, 동작 유사도 평가 장치(100)는 획득한 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 기초로 리타겟팅 한 기준 3D 골격 정보를 2차원으로 투영하여 동영상의 프레임 각각에 대응하는 리타겟팅 한 기준 2D 골격 정보를 획득할 수 있다. 이때, 동영상의 프레임은 동영상에 포함된 동작이 포함된 프레임일 수 있으나, 동영상의 프레임이 이에 한정되는 것은 아니다.

일실시에 따라, 동작 유사도 평가 장치(100)는 리타겟팅 한 2D 골격 정보와 리타겟팅 한 기준 2D 골격 정보를 기초로 유사도를 평가할 수 있다. 이때, 유사도는 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

일실시에 따라, 동작 유사도 평가 장치(100)는 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보를 기초로 유사도를 평가할 수 있다. 이때, 유사도는 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

일실시에 따라, 동작 유사도 평가 장치(100)는 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 대응하는 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보 사이의 관절의 위치 차이를 각 프레임 마다 계산할 수 있다.

일실시에 따라, 동작 유사도 평가 장치(100)는 계산한 관절의 위치 차이를 기초로 유사도를 각 프레임 별로 평가할 수 있다. 이때, 유사도는 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

일실시에 따라, 동작 유사도 평가 장치(100)는 계산한 관절의 위치 차이가 작을수록 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)가 유사하다고 평가할 수 있다.

일실시에 따라, 동작 유사도 평가 장치(100)는 계산한 관절의 위치 차이가 클수록 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)가 비유사하다고 평가할 수 있다.

일실시에 따라, 동작 유사도 평가 장치(100)는 동영상의 프레임 각각에서 획득한 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 동영상의 프레임 각각에 대응하는 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가할 수 있다. 이때, 동영상의 프레임은 동영상에 포함된 동작이 포함된 프레임일 수 있으나, 동영상의 프레임이 이에 한정되는 것은 아니다. 또한, 유사도는 동영상(200)에 포함된 동작과 기준 3D 골격 정보(210)의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

일실시에 따라, 동작 유사도 평가 장치(100)는 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 대응하는 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 각도 정보 사이의 각도 편차를 각 프레임 마다 계산할 수 있다.

도 2는 일실시예에 따른 동작 유사도 평가 장치의 구성을 나타내는 도면이다.

도 2를 참조하면, 동작 유사도 평가 장치(100)는 프로세서(110), 입출력 인터페이스 모듈(120) 및 메모리(130)를 포함한다.

일실시예에 따라, 동작 유사도 평가 장치(100)에 포함된 프로세서(110), 입출력 인터페이스 모듈(120) 및 메모리(130)는 상호 연결되어 있으며, 상호 데이터를 전송하는 것이 가능하다.

일실시예에 따라, 프로세서(110)는 메모리(130)에 저장된 프로그램들 또는 명령들을 실행시킬 수 있다. 이때, 메모리(130)에는 동작 유사도 평가 장치(100)를 동작시키기 위한 동작프로그램(예컨대, OS)이 저장될 수 있다.

일실시예에 따라, 프로세서(110)는 동작 유사도 평가 장치(100)에 대한 정보를 관리하기 위한 프로그램을 실행시킬 수 있다.

일실시예에 따라, 프로세서(110)는 동작 유사도 평가 장치(100)의 동작을 관리하기 위한 프로그램을 실행시킬 수 있다.

일실시예에 따라, 프로세서(110)는 입출력 인터페이스 모듈(120)의 동작을 관리하기 위한 프로그램을 실행시킬 수 있다.

일실시예에 따라, 프로세서(110)는 입출력 인터페이스 모듈(120)을 통해 동영상을 획득할 수 있다. 이때, 동영상은 동작을 포함할 수 있다. 또한, 동작은 댄스(dance) 동작 일 수 있으나, 동작이 이에 한정되는 것은 아니다.

일실시예에 따라, 프로세서(110)는 동영상에 포함된 동작을 인식할 수 있다.

일실시예에 따라, 프로세서(110)는 입출력 인터페이스 모듈(120)을 통해 기준 3D 골격 정보를 획득할 수 있다. 이때, 기준 3D 골격 정보는 동영상에 포함된 동작에 대한 기준 3D 골격 정보일 수 있으나, 기준 3D 골격 정보가 이에 한정되는 것은 아니다. 또한, 기준 3D 골격 정보는 동영상에 포함된 동작(예컨대, 댄스 동작 등)에 대한 모션 캡쳐 정보일 수 있으나, 기준 3D 골격 정보가 이에 한정되는 것은 아니다.

일실시예에 따라, 프로세서(110)는 동영상 및 기준 3D 골격 정보를 기초로 유사도 평가 결과를 생성할 수 있다. 이때, 유사도 평가 결과는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과의 대상이 이에 한정되는 것은 아니다.

일실시예에 따라, 프로세서(110)는 동영상의 프레임 각각에 포함된 사람을 인식할 수 있다.

일실시예에 따라, 프로세서(110)는 동영상의 프레임 각각에서 인식한 사람이 포함된 영역에 대한 바운딩 박스(bounding box)를 동영상의 프레임 각각에서 획득할 수 있다.

일실시예에 따라, 프로세서(110)는 미리 설정된 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 획득한 각각의 바운딩 박스(bounding box)에서 골격을 구성하는 각 관절의 위치 히트 맵(Heat map)을 획득할 수 있다. 이때, 미리 설정된 딥 뉴럴 네트워크(Deep Neural Network)는 학습이 완료된 합성곱 신경망(Convolution Neural Network, CNN)일 수 있으나, 미리 설정된 딥 뉴럴 네트워크(Deep Neural Networks)가 이에 한정되는 것은 아니다.

일실시예에 따라, 프로세서(110)는 획득한 각 관절의 위치 히트 맵(Heat map)을 기초로 각각의 바운딩 박스(bounding box)와 대응하는 2D 골격 정보를 획득할 수 있다.

일실시예에 따라, 프로세서(110)는 [수학식 1]을 이용하여 동영상의 프레임 각각에서 획득한 2D 골격 정보와 기준 3D 골격 정보를 정렬하여 기준 3D 골격 정보에서 생성한 2D 골격 정보와 동영상에 포함된 동작에 대한 2D 골격 정보의 관절(Joint)간 거리 함수가 최소화되도록 3차원 회전과 관련된 파라미터

와 스케일과 관련된 파라미터

를 획득할 수 있다.

여기서,

는 투영 함수이고,

는 기준 3D 골격 정보이고,

는 3차원 회전과 관련된 파라미터이고,

는 스케일과 관련된 파라미터이고,

는 동영상에 포함된 동작에 대한 관절(Joint)과 관련된 2D 골격 정보이다.

일실시예에 따라, 프로세서(110)는 [수학식 1]을 이용하여 동영상에 포함된 동작이 시작되는 프레임과 동영상에 포함된 동작이 시작되는 프레임과 대응하는 기준 3D 골격 정보의 프레임을 1회 정렬하여 기준 3D 골격 정보에서 생성한 2D 골격 정보와 동영상에 포함된 동작에 대한 2D 골격 정보의 관절(Joint)간 거리 함수가 최소화되도록 3차원 회전과 관련된 파라미터

와 스케일과 관련된 파라미터

를 획득할 수 있다.

일실시예에 따라, 프로세서(110)는 [수학식 1]을 이용하여 동영상에 포함된 동작과 관련된 프레임 각각과 동영상에 포함된 동작과 관련된 프레임 각각과 대응하는 기준 3D 골격 정보의 프레임 각각을 정렬하여 기준 3D 골격 정보에서 생성한 2D 골격 정보와 동영상에 포함된 동작에 대한 2D 골격 정보의 관절(Joint)간 거리 함수가 최소화되도록 3차원 회전과 관련된 파라미터

와 스케일과 관련된 파라미터

를 획득할 수 있다.

일실시예에 따라, 프로세서(110)는 동영상에 포함된 동작과 관련된 프레임 전부를 샷(shot, 이하 '샷'이라 한다) 단위로 분할할 수 있다. 이때, 샷의 의미는 동작의 동선이 유사한 프레임의 그룹일 수 있으나, 샷의 의미가 이에 한정되는 것은 아니다.

일실시예에 따라, 프로세서(110)는 [수학식 1]을 이용하여 각각의 샷의 시작 프레임과 각각의 샷의 시작 프레임에 대응하는 기준 3D 골격 정보의 각각의 프레임을 정렬하여 기준 3D 골격 정보에서 생성한 2D 골격 정보와 동영상에 포함된 동작에 대한 2D 골격 정보의 관절(Joint)간 거리 함수가 최소화되도록 3차원 회전과 관련된 파라미터

와 스케일과 관련된 파라미터

를 획득할 수 있다.

일실시예에 따라, 프로세서(110)는 [수학식 2]를 이용하여 동영상의 프레임 각각에서 획득한 2D 골격 정보와 기준 3D 골격 정보를 정렬하여 기준 3D 골격 정보에서 생성한 2D 골격 정보와 동영상에 포함된 동작에 대한 2D 골격 정보의 관절(Joint)간 거리 함수가 최소화되도록 3차원 회전과 관련된 파라미터

와 스케일과 관련된 파라미터

를 획득할 수 있다.

여기서,

는 투영 함수이고,

는 기준 3D 골격 정보이고,

는 3차원 회전과 관련된 파라미터이고,

는 스케일과 관련된 파라미터이고,

는 동영상에 포함된 동작에 대한 프레임(Frame) 및 관절(Joint)과 관련된 2D 골격 정보이다.

일실시예에 따라, 프로세서(110)는 [수학식 2]를 이용하여 동영상에 포함된 동작과 관련된 프레임 전부와 동영상에 포함된 동작과 관련된 프레임 전부와 대응하는 기준 3D 골격 정보의 프레임 전부를 정렬하여 기준 3D 골격 정보에서 생성한 2D 골격 정보와 동영상에 포함된 동작에 대한 2D 골격 정보의 관절(Joint)간 거리 함수가 최소화되도록 3차원 회전과 관련된 파라미터

와 스케일과 관련된 파라미터

를 획득할 수 있다.

일실시예에 따라, 프로세서(110)는 [수학식 2]를 이용하여 각각의 샷의 전체 프레임과 각각의 샷의 전체 프레임에 대응하는 기준 3D 골격 정보의 각각의 프레임들을 정렬하여 기준 3D 골격 정보에서 생성한 2D 골격 정보와 동영상에 포함된 동작에 대한 2D 골격 정보의 관절(Joint)간 거리 함수가 최소화되도록 3차원 회전과 관련된 파라미터

와 스케일과 관련된 파라미터

를 획득할 수 있다.

ⅲ) 2D 골격 정보와 기준 2D 골격 정보를 기초로 유사도를 평가

일실시에 따라, 프로세서(110)는 획득한 3차원 회전과 관련된 파라미터

와 스케일과 관련된 파라미터

를 기초로 기준 3D 골격 정보를 2차원으로 투영하여 기준 2D 골격 정보를 획득할 수 있다.

와 스케일과 관련된 파라미터

를 기초로 기준 3D 골격 정보를 2차원으로 투영하여 동영상의 프레임 각각에 대응하는 기준 2D 골격 정보를 획득할 수 있다. 이때, 동영상의 프레임은 동영상에 포함된 동작이 포함된 프레임일 수 있으나, 동영상의 프레임이 이에 한정되는 것은 아니다.

일실시에 따라, 프로세서(110)는 2D 골격 정보와 기준 2D 골격 정보를 기초로 유사도를 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

일실시에 따라, 프로세서(110)는 동영상의 프레임 각각에서 획득한 2D 골격 정보에 포함된 관절의 각도 정보와 동영상의 프레임 각각에 대응하는 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가할 수 있다. 이때, 동영상의 프레임은 동영상에 포함된 동작이 포함된 프레임일 수 있으나, 동영상의 프레임이 이에 한정되는 것은 아니다. 또한, 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

일실시에 따라, 동작 프로세서(110)는 2D 골격 정보에 포함된 관절의 각도 정보와 2D 골격 정보에 포함된 관절의 각도 정보와 대응하는 기준 2D 골격 정보에 포함된 관절의 각도 정보 사이의 각도 편차를 각 프레임 마다 계산할 수 있다.

일실시에 따라, 프로세서(110)는 계산한 각도 편차를 기초로 유사도를 각 프레임 별로 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

일실시에 따라, 프로세서(110)는 계산한 각도 편차가 작을수록 동영상에 포함된 동작과 기준 3D 골격 정보가 유사하다고 평가할 수 있다.

일실시에 따라, 프로세서(110)는 계산한 각도 편차가 클수록 동영상에 포함된 동작과 기준 3D 골격 정보가 비유사하다고 평가할 수 있다.

일실시에 따라, 프로세서(110)는 계산한 각도 편차를 시각화 할 수 있다.

일실시에 따라, 계산한 각도 편차가 작은 경우, 프로세서(110)는 2D 골격 정보 중 각도 편차가 발생한 관절을 제1 색(예컨대, 파란색) 계열로 시각화 할 수 있다.

일실시에 따라, 계산한 각도 편차가 큰 경우, 프로세서(110)는 2D 골격 정보 중 각도 편차가 발생한 관절을 제2 색(예컨대, 빨간색) 계열로 시각화 할 수 있다.

일실시에 따라, 프로세서(110)는 각 프레임 별로 평가한 유사도 평가 결과를 생성할 수 있다. 이때, 유사도 평가 결과는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과의 대상이 이에 한정되는 것은 아니다.

일실시에 따라, 프로세서(110)는 동영상 전체로 평가한 유사도 평가 결과를 생성할 수 있다. 이때, 유사도 평가 결과는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과의 대상이 이에 한정되는 것은 아니다.

ⅳ) 리타겟팅 한 2D 골격 정보와 리타겟팅 한 기준 2D 골격 정보를 기초로 유사도를 평가

일실시에 따라, 프로세서(110)는 골격 정보를 정규화(Normalization) 시키기 위하여 2D 골격 정보 및 기준 3D 골격 정보를 미리 설정된 골격(예컨대, 정규화 된 표준 체형의 골격) 정보로 리타겟팅 할 수 있다.

일실시에 따라, 프로세서(110)는 골격 정보를 정규화(Normalization) 시키기 위하여 2D 골격 정보 및 기준 3D 골격 정보를 미리 설정된 골격 정보(예컨대, 예컨대, 정규화 된 표준 체형의 골격 정보, 대한민국 남성 평균 키에 해당하는 골격 정보, 대한민국 여성 평균 키에 해당하는 골격 정보 등)로 리타겟팅 할 수 있다.

일실시에 따라, 프로세서(110)는 골격 정보를 정규화(Normalization) 시키기 위하여 2D 골격 정보를 기준 3D 골격 정보로 리타겟팅 할 수 있다.

일실시에 따라, 프로세서(110)는 골격 정보를 정규화(Normalization) 시키기 위하여 기준 3D 골격 정보를 2D 골격 정보로 리타겟팅 할 수 있다.

와 스케일과 관련된 파라미터

를 기초로 리타겟팅 한 기준 3D 골격 정보를 2차원으로 투영하여 기준 2D 골격 정보를 획득할 수 있다.

와 스케일과 관련된 파라미터

를 기초로 리타겟팅 한 기준 3D 골격 정보를 2차원으로 투영하여 동영상의 프레임 각각에 대응하는 리타겟팅 한 기준 2D 골격 정보를 획득할 수 있다. 이때, 동영상의 프레임은 동영상에 포함된 동작이 포함된 프레임일 수 있으나, 동영상의 프레임이 이에 한정되는 것은 아니다.

일실시에 따라, 프로세서(110)는 리타겟팅 한 2D 골격 정보와 리타겟팅 한 기준 2D 골격 정보를 기초로 유사도를 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

일실시에 따라, 프로세서(110)는 동영상의 프레임 각각에서 획득한 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 동영상의 프레임 각각에 대응하는 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보를 기초로 유사도를 평가할 수 있다. 이때, 동영상의 프레임은 동영상에 포함된 동작이 포함된 프레임일 수 있으나, 동영상의 프레임이 이에 한정되는 것은 아니다. 또한, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

일실시에 따라, 프로세서(110)는 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 대응하는 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보 사이의 관절의 위치 차이를 각 프레임 마다 계산할 수 있다.

일실시에 따라, 프로세서(110)는 계산한 관절의 위치 차이를 기초로 유사도를 각 프레임 별로 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

일실시에 따라, 프로세서(110)는 계산한 관절의 위치 차이가 작을수록 동영상에 포함된 동작과 기준 3D 골격 정보가 유사하다고 평가할 수 있다.

일실시에 따라, 프로세서(110)는 계산한 관절의 위치 차이가 클수록 동영상에 포함된 동작과 기준 3D 골격 정보가 비유사하다고 평가할 수 있다.

일실시에 따라, 프로세서(110)는 계산한 관절의 위치 차이를 시각화 할 수 있다.

일실시에 따라, 계산한 관절의 위치 차이가 작은 경우, 프로세서(110)는 2D 골격 정보 중 관절의 위치 차이가 발생한 관절을 제1 색(예컨대, 파란색) 계열로 시각화 할 수 있다.

일실시에 따라, 계산한 관절의 위치 차이가 큰 경우, 프로세서(110)는 2D 골격 정보 중 관절의 위치 차이가 발생한 관절을 제2 색(예컨대, 빨간색) 계열로 시각화 할 수 있다.

일실시에 따라, 프로세서(110)는 각 프레임 별로 유사도 평가 결과를 생성할 수 있다. 이때, 유사도 평가 결과는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과의 대상이 이에 한정되는 것은 아니다.

일실시에 따라, 프로세서(110)는 동영상의 프레임 각각에서 획득한 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 동영상의 프레임 각각에 대응하는 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가할 수 있다. 이때, 동영상의 프레임은 동영상에 포함된 동작이 포함된 프레임일 수 있으나, 동영상의 프레임이 이에 한정되는 것은 아니다. 또한, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

일실시에 따라, 프로세서(110)는 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 대응하는 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 각도 정보 사이의 각도 편차를 각 프레임 마다 계산할 수 있다.

일실시에 따라, 동작 유사도 평가 장치(100)는 계산한 각도 편차가 작은 경우, 각도 편차를 제1 색(예컨대, 파란색) 계열로 시각화 할 수 있다.

일실시에 따라, 프로세서(110)는 계산한 각도 편차가 큰 경우, 각도 편차를 제2 색(예컨대, 빨간색) 계열로 시각화 할 수 있다.

일실시에 따라, 동작 유사도 평가 장치는 동영상 전체로 평가한 유사도 평가 결과를 생성할 수 있다. 이때, 유사도 평가 결과는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과의 대상이 이에 한정되는 것은 아니다.

일실시예에 따라, 입출력 인터페이스 모듈(120)은 네트워크를 통하여 외부 장치(예컨대, 단말, 동영상 저장 장치, 서버 등) 통신적으로 연결될 수 있다.

일실시예에 따라, 입출력 인터페이스 모듈(120)은 네트워크를 통하여 외부 장치(예컨대, 단말, 동영상 저장 장치, 서버 등)로 데이터를 전송할 수 있다.

일실시예에 따라, 입출력 인터페이스 모듈(120)은 네트워크를 통하여 외부 장치(예컨대, 단말, 동영상 저장 장치, 서버 등)가 전송한 데이터를 수신할 수 있다.

일실시예에 따라, 입출력 인터페이스 모듈(120)은 프로세서(110)가 시각화 한 각도 편차를 출력할 수 있다.

일실시예에 따라, 입출력 인터페이스 모듈(120)은 프로세서(110)가 시각화 한 관절의 위치 차이를 출력할 수 있다.

일실시예에 따라, 입출력 인터페이스 모듈(120)은 프로세서(110)가 생성한 유사도 평가 결과를 출력할 수 있다.

일실시예에 따라, 입출력 인터페이스 모듈(120)은 동작 유사도 평가 장치(100)와 일체형으로 제공될 수 있다.

일실시예에 따라, 입출력 인터페이스 모듈(120)은 동작 유사도 평가 장치(100)에서 분리되어 제공될 수 있다.

일실시예에 따라, 입출력 인터페이스 모듈(120)은 동작 유사도 평가 장치(100)와 통신적으로 연결된 별도의 장치일 수 있다.

일실시예에 따라, 입출력 인터페이스 모듈(120)은 외부 장치와 연결되기 위한 포트(예컨대, USB 포트)를 포함할 수 있다.

일실시예에 따라, 입출력 인터페이스 모듈(120)은 모니터, 터치스크린, 마우스, 전자펜, 마이크로폰, 키보드, 스피커, 이어폰, 헤드폰 또는 터치패드를 포함할 수 있다.

일실시예에 따라, 메모리(130)는 입출력 인터페이스 모듈(120)이 수신한 데이터를 저장할 수 있다.

일실시예에 따라, 메모리(130)는 입출력 인터페이스 모듈(120)이 전송한 데이터를 저장할 수 있다.

일실시예에 따라, 메모리(130)는 프로세서(110)가 획득한 파라미터를 저장할 수 있다.

일실시예에 따라, 메모리(130)는 프로세서(110)가 획득한 기준 2D 골격 정보를 저장할 수 있다.

일실시예에 따라, 메모리(130)는 프로세서(110)가 리타겟팅 한 2D 골격 정보를 저장할 수 있다.

일실시예에 따라, 메모리(130)는 프로세서(110)가 리타겟팅 한 기준 3D 골격 정보를 저장할 수 있다.

일실시예에 따라, 메모리(130)는 프로세서(110)가 리타겟팅 한 기준 2D 골격 정보를 저장할 수 있다.

일실시예에 따라, 메모리(130)는 프로세서(110)가 계산한 각도 편차를 저장할 수 있다.

일실시예에 따라, 메모리(130)는 프로세서(110)가 계산한 관절의 위치 차이를 저장할 수 있다.

일실시예에 따라, 메모리(130)는 프로세서(110)가 생성한 유사도 평가 결과를 저장할 수 있다.

여기서 사용된 '모듈'이라는 용어는 논리적인 구성 단위를 나타내는 것으로서, 반드시 물리적으로 구분되는 구성 요소가 아니라는 점은 본 발명이 속하는 기술분야의 당업자에게 자명한 사항이다.

도 3은 일실시예에 따라 동작 유사도 평가 장치가 동작을 포함하는 동영상의 프레임 각각에서 동작에 대한 2D 골격 정보를 획득하는 모습을 나타내는 도면이다.

도 3을 참조하면, 도 3(a)는 동영상의 프레임에서 사람이 포함된 영역에 바운딩 박스를 표시한 모습을 나타내는 도면이고, 도 3(b)는 각 관절의 위치 히트 맵(Heat map)을 획득하는 모습을 나타내는 도면이고, 도 3(c)는 획득한 각 관절의 위치 히트 맵(Heat map)의 모습을 나타내는 도면이고, 도 3(d)는 2D 골격 정보를 나타내는 도면이다.

도 3(a)를 참조하면, 일실시예에 따라, 동작 유사도 평가 장치는 동작(예컨대, 피겨 스케이팅 등)을 포함하는 동영상을 획득할 수 있다.

일실시예에 따라, 동작 유사도 평가 장치는 동작(예컨대, 피겨 스케이팅 등)을 포함하는 동영상의 프레임(300) 각각에 포함된 사람을 인식할 수 있다.

일실시예에 따라, 동작 유사도 평가 장치는 동작(예컨대, 피겨 스케이팅 등)을 포함하는 동영상의 프레임(300) 각각에서 인식한 사람이 포함된 영역에 대한 바운딩 박스(bounding box)(301)를 동영상의 프레임 각각에서 획득할 수 있다.

도 3(b)를 참조하면, 일실시예에 따라, 동작 유사도 평가 장치는 미리 설정된 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 획득한 각각의 바운딩 박스(bounding box)(310)에서 골격을 구성하는 각 관절의 위치 히트 맵(Heat map)(320)을 획득할 수 있다. 이때, 미리 설정된 딥 뉴럴 네트워크(Deep Neural Network)는 학습이 완료된 합성곱 신경망(Convolution Neural Network, CNN)일 수 있으나, 미리 설정된 딥 뉴럴 네트워크(Deep Neural Networks)가 이에 한정되는 것은 아니다.

도 3(c)를 참조하면, 히트 맵(Heat map)(330)은 미리 설정된 개수(예컨대, 17개)의 관절 위치에 대한 확률분포를 시각화 한 것일 수 있다.

일실시예에 따라, 히트 맵(Heat map)(330)에서 관절이 위치할 확률이 높은 위치는 제1색(예컨대, 붉은 색)으로 표현될 수 있다.

일실시예에 따라, 히트 맵(Heat map)(330)에서 관절이 위치할 확률이 낮은 위치는 제2색(예컨대, 푸른색)으로 표현될 수 있다.

도 3(d)를 참조하면, 일실시예에 따라, 동작 유사도 평가 장치는 획득한 각 관절의 위치 히트 맵(Heat map)을 기초로 각각의 바운딩 박스(bounding box)와 대응하는 2D 골격 정보(340)를 획득할 수 있다.

일실시예에 따라, 동작 유사도 평가 장치는 획득한 2D 골격 정보(340)를 동작(예컨대, 피겨 스케이팅 등)을 포함하는 동영상의 프레임(350)에 오버레이 하여 표시할 수 있다.

도 4는 일실시예에 따라 동작 유사도 평가 장치가 2D 골격 정보와 기준 3D 골격 정보를 기초로 기준 3D 골격 정보에서 기준 2D 골격 정보를 획득하는 모습을 나타내는 도면이다.

도 4를 참조하면, 도 4(a)는 동영상의 프레임 중 어느 하나의 프레임에 대응하는 기준 3D 골격 정보에서 2D 골격 정보를 생성하는 모습을 나타내는 모습이고, 도 4(b)는 기준 3D 골격 정보를 2차원으로 투영하는 모습을 나타내는 도면이다.

도 4(a)를 참조하면, 일실시예에 따라, 동작 유사도 평가 장치는 동영상의 프레임 중 어느 하나의 프레임에 대응하는 기준 3D 골격 정보(400)에서 3차원 회전과 스케일이 상이한 복수개의 투영(Projection) 된 2차원 골격 정보(410)를 생성할 수 있다.

일실시예에 따라, 동작 유사도 평가 장치는 복수개의 투영(Projection) 된 2차원 골격 정보(410)와 동영상에 포함된 동작에 대한 2D 골격 정보(420)를 정렬하여 적어도 하나의 파라미터를 획득할 수 있다. 이때, 적어도 하나의 파라미터는 3차원 회전과 관련된 파라미터 또는 스케일과 관련된 파라미터일 수 있으나, 적어도 하나의 파라미터가 이에 한정되는 것은 아니다.

도 4(b)를 참조하면, 일실시예에 따라, 동작 유사도 평가 장치는 복수개의 투영(Projection) 된 2차원 골격 정보(410)와 동영상에 포함된 동작에 대한 2D 골격 정보(420)를 정렬하여 획득한 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 기초로 기준 3D 골격 정보를 2차원 이미지 평면(image plane)에 투영하여 기준 2D 골격 정보(430)를 획득할 수 있다.

일실시예에 따라, 동작 유사도 평가 장치는 기준 3D 골격 정보를 2차원 이미지 평면(image plane)에 투영하기 위하여 깊이(depth)와 관련된 카메라 파라미터, 회전과 관련된 로테이팅(rotating) 파라미터 및 위치와 관련된 트랜스레이션(translation) 파라미터를 고려할 수 있으나, 동작 유사도 평가 장치가 기준 3D 골격 정보를 이미지 평면(image plane)에 투영하기 위하여 고려할 수 있는 파라미터가 이에 한정되는 것은 아니다.

도 5는 일실시예에 따라 동작 유사도 평가 장치가 관절의 각도 정보를 기초로 유사도를 평가하는 모습을 나타내는 도면이다.

도 5를 참조하면, 일실시예에 따라, 기준 3D 골격 정보에서 획득한 기준 2D 골격 정보(500)는 머리 관절의 각도 정보, 목 관절의 각도 정보, 좌_어깨 관절의 각도 정보, 좌_팔꿈치 관절의 각도 정보, 좌_손목 관절의 각도 정보, 우_어깨 관절의 각도 정보, 우_팔꿈치 관절의 각도 정보 및 우_손목 관절의 각도 정보를 포함할 수 있다.

일실시예에 따라, 동영상의 프레임에서 획득한 2D 골격 정보(510)는 머리 관절의 각도 정보, 목 관절의 각도 정보, 좌_어깨 관절의 각도 정보, 좌_팔꿈치 관절의 각도 정보, 좌_손목 관절의 각도 정보, 우_어깨 관절의 각도 정보, 우_팔꿈치 관절의 각도 정보 및 우_손목 관절의 각도 정보를 포함할 수 있다.

일실시예에 따라, 동작 유사도 평가 장치는 기준 3D 골격 정보에서 획득한 기준 2D 골격 정보(500)에 포함된 관절의 각도 정보와 동영상의 프레임에서 획득한 2D 골격 정보(510)에 포함된 관절의 각도 정보 사이의 각도 편차(520)를 계산할 수 있다.

일실시예에 따라, 동작 유사도 평가 장치는 계산한 각도 편차(520)가 작을수록 유사도가 높다고 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

일실시예에 따라, 동작 유사도 평가 장치는 계산한 각도 편차(520)가 클수록 유사도가 낮다고 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

일실시예에 따라, 동작 유사도 평가 장치는 계산한 각도 편차(520)를 시각화 할 수 있다.

일실시에 따라, 계산한 각도 편차(520)가 작은 경우, 동작 유사도 평가 장치는 동영상의 프레임에서 획득한 2D 비교 대상 골격 정보(510) 중 각도 편차(520)가 발생한 관절(530)(예컨대, 우_손목 관절)을 제1 색(예컨대, 푸른색) 계열로 시각화 할 수 있다.

일실시에 따라, 계산한 각도 편차(520)가 큰 경우, 동작 유사도 평가 장치는 동영상의 프레임에서 획득한 2D 비교 대상 골격 정보(510) 중 각도 편차(520)가 발생한 관절(530)(예컨대, 우_손목 관절)을 제2 색(예컨대, 빨간색) 계열로 시각화 할 수 있다.

도 6은 일실시예에 따라 동작 유사도 평가 장치가 관절의 위치 정보를 기초로 유사도를 평가하는 모습을 나타내는 도면이다.

도 6을 참조하면, 도 6 (a)는 유사도를 평가하기 위하여 리타겟팅 하기 전의 2D 골격 정보와 리타겟팅 하기 전의 기준 2D 골격 정보를 비교하는 모습을 나타내는 도면이고, 도 6(b)는 유사도를 평가하기 위하여 리타겟팅 한 2D 골격 정보와 리타겟팅 한 기준 2D 골격 정보를 비교하는 모습을 나타내는 도면이다.

도 6(a)를 참조하면, 일실시에 따라, 동작 유사도 평가 장치는 동작을 포함하는 동영상의 프레임 각각에서 동작에 대한 2D 골격 정보(610)를 획득할 수 있다.

일실시에 따라, 동작 유사도 평가 장치는 동영상의 프레임 각각에서 획득한 2D 골격 정보(610)와 동영상의 프레임 각각에 대응하는 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 획득할 수 있다.

일실시에 따라, 동작 유사도 평가 장치는 획득한 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 기초로 기준 3D 골격 정보를 2차원으로 투영하여 동영상의 프레임 각각에 대응하는 기준 2D 골격 정보(600)를 획득할 수 있다.

일실시에 따라, 동작 유사도 평가 장치는 유사도를 평가하기 위하여 리타겟팅 하기 전의 2D 골격 정보(610)에 포함된 관절의 위치 정보와 리타겟팅 하기 전의 기준 2D 골격 정보(600)에 포함된 관절의 위치 정보를 비교할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

일실시에 따라, 동작 유사도 평가 장치는 리타겟팅 하기 전의 2D 골격 정보(610)에 포함된 관절의 위치 정보와 리타겟팅 하기 전의 기준 2D 골격 정보(600)에 포함된 관절의 위치 정보를 비교할 때, 리타겟팅 하기 전의 2D 골격 정보(610)를 생성한 사람의 신체 조건(예컨대, 신장 등)과 리타겟팅 하기 전의 기준 2D 골격 정보(600)를 생성한 사람의 신체 조건(예컨대, 신장 등)을 고려하지 않기 때문에 동영상에 포함된 동작과 기준 3D 골격 정보가 매우 유사한 경우에도 리타겟팅 하기 전의 2D 골격 정보(610)를 생성한 사람과 리타겟팅 하기 전의 기준 2D 골격 정보(600)를 생성한 사람의 신체 조건(예컨대, 신장 등)이 차이가 많이 나는 경우(예컨대, 신장 차이가 30Cm 이상인 경우 등) 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도가 매우 낮게 평가될 수 있다.

도 6 (b)를 참조하면, 일실시에 따라, 동작 유사도 평가 장치는 동작을 포함하는 동영상의 프레임 각각에서 동작에 대한 2D 골격 정보를 획득할 수 있다.

일실시에 따라, 동작 유사도 평가 장치는 동영상의 프레임 각각에서 획득한 2D 골격 정보와 동영상의 프레임 각각에 대응하는 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 획득할 수 있다.

일실시에 따라, 동작 유사도 평가 장치는 골격 정보를 정규화(Normalization) 시키기 위하여 2D 골격 정보 및 기준 3D 골격 정보를 미리 설정된 골격 정보(예컨대, 예컨대, 정규화 된 표준 체형의 골격, 대한민국 남성 평균 키에 해당하는 골격 정보, 대한민국 여성 평균 키에 해당하는 골격 정보 등)로 리타겟팅 할 수 있다.

일실시에 따라, 동작 유사도 평가 장치는 리타겟팅 한 2D 골격 정보(630)를 생성할 수 있다.

일실시에 따라, 동작 유사도 평가 장치는 리타겟팅 한 기준 3D 대상 골격 정보를 생성할 수 있다.

일실시에 따라, 동작 유사도 평가 장치는 획득한 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 기초로 리타겟팅 한 기준 3D 골격 정보를 2차원으로 투영하여 동영상의 프레임 각각에 대응하는 리타겟팅 한 기준 2D 골격 정보(620)를 획득할 수 있다.

일실시에 따라, 동작 유사도 평가 장치는 유사도를 평가하기 위하여 리타겟팅 한 2D 골격 정보(630)에 포함된 관절의 위치 정보와 리타겟팅 한 기준 2D 골격 정보(620)에 포함된 관절의 위치 정보를 비교할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

일실시에 따라, 동작 유사도 평가 장치는 리타겟팅 하기 전 2D 골격 정보를 생성한 사람의 신체 조건(예컨대, 신장 등)과 리타겟팅 하기 전의 기준 2D 골격 정보를 생성한 사람의 신체 조건(예컨대, 신장 등)을 고려하여 2D 골격 정보와 기준 3D 골격 정보를 미리 설정된 골격 정보로 리타겟팅 하기 때문에 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도를 평가할 때, 2D 골격 정보를 생성한 사람의 신체 조건(예컨대, 신장 등)과 기준 2D 골격 정보를 생성한 사람의 신체 조건(예컨대, 신장 등)이 고려될 수 있다. 따라서, 2D 골격 정보를 생성한 사람의 신체 조건(예컨대, 신장 등)과 기준 2D 골격 정보를 생성한 사람의 신체 조건(예컨대, 신장 등)의 차이가 많이 나는 경우(예컨대, 신장 차이가 30Cm 이상인 경우 등)에도 동작 유사도 평가 장치는 리타겟팅 한 2D 골격 정보(630)에 포함된 관절의 위치 정보와 리타겟팅 한 기준 2D 골격 정보(620)에 포함된 관절의 위치 정보를 비교하여 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도를 정확하게 평가할 수 있다.

도 7은 일실시예에 따라 동작 유사도 평가 장치가 실제 유사도를 평가하는 모습을 나타내는 도면이다.

도 7을 참조하면, 도 7 (a)는 동작을 포함하는 동영상의 프레임에서 동작에 대한 2D 골격 정보를 획득한 모습을 나타낸 도면이고, 도 7(b)는 정답(Ground Truth)인 기준 2D 골격 정보를 나타내는 도면이다.

일실시예에 따라, 동작 유사도 평가 장치는 동영상의 프레임에서 획득한 2D 골격 정보와 동영상의 프레임에 대응하는 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하고, 획득한 적어도 하나의 파라미터를 기초로 기준 3D 골격 정보에서 동영상의 프레임에 대응하는 정답(Ground Truth)인 기준 2D 골격 정보를 획득할 수 있다.

도 7 (a) 및 (b)를 참조하면, 일실시예에 따라, 동작 유사도 평가 장치는 동영상의 프레임에서 획득한 2D 골격 정보와 동영상의 프레임에 대응하는 기준 3D 골격 정보를 정렬하여 획득한 적어도 하나의 파라미터를 기초로 정답(Ground Truth)인 기준 2D 골격 정보를 획득할 수 있기 때문에, 동작을 포함하는 동영상을 촬영한 카메라의 3차원 구도와 기준 3D 골격 정보를 생성한 카메라의 3차원 구도가 상이한 경우에도 동작 유사도 평가 장치는 카메라의 3차원 구도를 고려하여 유사도를 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

일실시예에 따라, 카메라의 3차원 구도가 상이하나, 동영상에 포함된 동작과 기준 3D 골격 정보가 유사한 경우, 동작 유사도 평가 장치는 동작을 포함하는 동영상의 프레임에서 동작에 대한 2D 골격 정보(700)와 기준 3D 골격 정보에서 동영상의 프레임에 대응하는 정답(Ground Truth)인 기준 2D 골격 정보(710)를 기초로 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도가 높다고 평가할 수 있다.

도 8은 일실시예에 따른 동작 유사도 평가 방법을 나타내는 플로우 차트이다.

도 8을 참조하면, 일실시예에 따른 동작 유사도 평가 장치가 동영상의 프레임 각각에서 상기 동영상에 포함된 동작에 대한 2D 골격 정보를 획득한다(800).

이때, 동작은 댄스 동작일 수 있으나, 동작이 이에 한정되는 것은 아니다.

또한, 동작 유사도 평가 장치는 동영상의 프레임 각각에 포함된 사람을 인식할 수 있다.

또한, 동작 유사도 평가 장치는 동영상의 프레임 각각에서 인식한 사람이 포함된 영역에 대한 바운딩 박스(bounding box)를 동영상의 프레임 각각에서 획득할 수 있다.

또한, 동작 유사도 평가 장치는 미리 설정된 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 획득한 각각의 바운딩 박스(bounding box)에서 골격을 구성하는 각 관절의 위치 히트 맵(Heat map)을 획득할 수 있다. 이때, 미리 설정된 딥 뉴럴 네트워크(Deep Neural Network)는 학습이 완료된 합성곱 신경망(Convolution Neural Network, CNN)일 수 있으나, 미리 설정된 딥 뉴럴 네트워크(Deep Neural Networks)가 이에 한정되는 것은 아니다.

또한, 동작 유사도 평가 장치는 획득한 각 관절의 위치 히트 맵(Heat map)을 기초로 각각의 바운딩 박스(bounding box)와 대응하는 2D 골격 정보를 획득할 수 있다.

동작 유사도 평가 장치가 2D 골격 정보와 기준 3D 골격 정보를 기초로 기준 3D 골격 정보에서 기준 2D 골격 정보를 획득한다(810).

이때, 동작 유사도 평가 장치는 동영상의 프레임 각각에서 획득한 2D 골격 정보와 동영상의 프레임 각각에 대응하는 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 획득할 수 있다.

또한, 동작 유사도 평가 장치는 획득한 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 기초로 기준 3D 골격 정보를 2차원으로 투영하여 동영상의 프레임 각각에 대응하는 기준 2D 골격 정보를 획득할 수 있다.

동작 유사도 평가 장치가 상기 2D 골격 정보에 포함된 관절의 각도 정보와 상기 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가한다(820).

이때, 동작 유사도 평가 장치는 2D 골격 정보에 포함된 관절의 각도 정보와 2D 골격 정보에 포함된 관절의 각도 정보와 대응하는 기준 2D 골격 정보에 포함된 관절의 각도 정보 사이의 각도 편차를 각 프레임 마다 계산할 수 있다.

또한, 동작 유사도 평가 장치는 계산한 각도 편차를 기초로 유사도를 각 프레임 별로 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

또한, 동작 유사도 평가 장치는 계산한 각도 편차가 작을수록 동영상에 포함된 동작과 기준 3D 골격 정보가 유사하다고 평가할 수 있다.

또한, 동작 유사도 평가 장치는 계산한 각도 편차가 클수록 동영상에 포함된 동작과 기준 3D 골격 정보가 비유사하다고 평가할 수 있다.

또한, 동작 유사도 평가 장치는 각 프레임 별로 평가한 유사도 평가 결과를 생성할 수 있다. 이때, 유사도 평가 결과는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과의 대상이 이에 한정되는 것은 아니다.

또한, 동작 유사도 평가 장치는 동영상 전체로 평가한 유사도 평가 결과를 생성할 수 있다. 이때, 유사도 평가 결과는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 평가 결과 일 수 있으나, 유사도 평가 결과의 대상이 이에 한정되는 것은 아니다.

도 9는 다른 실시예에 따른 동작 유사도 평가 방법을 나타내는 플로우 차트이다.

도 9를 참조하면, 일실시예에 따른 동작 유사도 평가 장치가 동영상의 프레임 각각에서 상기 동영상에 포함된 동작에 대한 2D 골격 정보를 획득한다(900).

이때, 댄스 동작일 수 있으나, 동작이 이에 한정되는 것은 아니다.

동작 유사도 평가 장치가 2D 골격 정보 및 기준 3D 골격 정보를 미리 설정된 골격 정보로 리타겟팅 한다(910).

또한, 동작 유사도 평가 장치는 골격 정보를 정규화(Normalization) 시키기 위하여 2D 골격 정보 및 기준 3D 골격 정보를 미리 설정된 골격 정보(예컨대, 예컨대, 정규화 된 표준 체형의 골격, 대한민국 남성 평균 키에 해당하는 골격 정보, 대한민국 여성 평균 키에 해당하는 골격 정보 등)로 리타겟팅 할 수 있다.

또한, 동작 유사도 평가 장치는 리타겟팅 한 2D 골격 정보를 획득할 수 있다.

또한, 동작 유사도 평가 장치는 리타겟팅 한 기준 3D 골격 정보를 획득할 수 있다.

동작 유사도 평가 장치가 리타겟팅 한 기준 3D 골격 정보에서 상기 동영상의 프레임 각각에 대응하는 리타겟팅 한 기준 2D 골격 정보를 획득한다(920).

이때, 동작 유사도 평가 장치는 획득한 적어도 하나의 파라미터(예컨대, 3차원 회전과 관련된 파라미터, 스케일과 관련된 파라미터 등)를 기초로 리타겟팅 한 기준 3D 골격 정보를 2차원으로 투영하여 동영상의 프레임 각각에 대응하는 리타겟팅 한 기준 2D 골격 정보를 획득할 수 있다.

동작 유사도 평가 장치가 상기 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 상기 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보를 기초로 유사도를 평가한다(930).

이때, 동작 유사도 평가 장치는 동영상의 프레임 각각에서 획득한 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 동영상의 프레임 각각에 대응하는 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보를 기초로 유사도를 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

또한, 동작 유사도 평가 장치는 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 대응하는 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보 사이의 관절의 위치 차이를 각 프레임 마다 계산할 수 있다.

또한, 동작 유사도 평가 장치는 계산한 관절의 위치 차이를 기초로 유사도를 각 프레임 별로 평가할 수 있다. 이때, 유사도는 동영상에 포함된 동작과 기준 3D 골격 정보의 유사도 일 수 있으나, 유사도 평가의 대상이 이에 한정되는 것은 아니다.

또한, 동작 유사도 평가 장치는 계산한 관절의 위치 차이가 작을수록 동영상에 포함된 동작과 기준 3D 골격 정보가 유사하다고 평가할 수 있다.

또한, 동작 유사도 평가 장치는 계산한 관절의 위치 차이가 클수록 동영상에 포함된 동작과 기준 3D 골격 정보가 비유사하다고 평가할 수 있다.

도 10은 또 다른 실시예에 따른 동작 유사도 평가 방법을 나타내는 플로우 차트이다.

도 10을 참조하면, 일실시예에 따른 동작 유사도 평가 장치가 동영상의 프레임 각각에서 상기 동영상에 포함된 동작에 대한 2D 골격 정보를 획득한다(1000).

동작 유사도 평가 장치가 2D 골격 정보 및 기준 3D 골격 정보를 미리 설정된 골격 정보로 리타겟팅 한다(1010).

동작 유사도 평가 장치가 리타겟팅 한 기준 3D 골격 정보에서 동영상의 프레임 각각에 대응하는 리타겟팅 한 기준 2D 골격 정보를 획득한다(1020).

동작 유사도 평가 장치가 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가한다(1030).

이때, 동작 유사도 평가 장치는 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 대응하는 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 각도 정보 사이의 각도 편차를 각 프레임 마다 계산할 수 있다.

이상에서, 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 실시예들의 목적 범위 안에서라면, 그 모든 구성 요소들이 적어도 하나로 선택적으로 결합하여 동작할 수도 있다.

또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다.

이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 저장매체로서는 자기 기록매체, 광 기록매체, 등이 포함될 수 있다.

또한, 이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재될 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다.

기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥 상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 발명에서 개시된 방법들은 상술된 방법을 달성하기 위한 하나 이상의 동작들 또는 단계들을 포함한다. 방법 동작들 및/또는 단계들은 청구항들의 범위를 벗어나지 않으면서 서로 상호 교환될 수도 있다. 다시 말해, 동작들 또는 단계들에 대한 특정 순서가 명시되지 않는 한, 특정 동작들 및/또는 단계들의 순서 및/또는 이용은 청구항들의 범위로부터 벗어남이 없이 수정될 수도 있다.

본 발명에서 이용되는 바와 같이, 아이템들의 리스트 중 "그 중 적어도 하나" 를 지칭하는 구절은 단일 멤버들을 포함하여, 이들 아이템들의 임의의 조합을 지칭한다. 일 예로서, "a, b, 또는 c: 중의 적어도 하나" 는 a, b, c, a-b, a-c, b-c, 및 a-b-c 뿐만 아니라 동일한 엘리먼트의 다수의 것들과의 임의의 조합 (예를 들어, a-a, a-a-a, a-a-b, a-a-c, a-b-b, a-c-c, b-b, b-b-b, b-b-c, c-c, 및 c-c-c 또는 a, b, 및 c 의 다른 임의의 순서 화한 것) 을 포함하도록 의도된다.

본 발명에서 이용되는 바와 같이, 용어 "결정하는"는 매우 다양한 동작들을 망라한다. 예를 들어, "결정하는"는 계산하는, 컴퓨팅, 프로세싱, 도출하는, 조사하는, 룩업하는 (예를 들어, 테이블, 데이터베이스, 또는 다른 데이터 구조에서 룩업하는), 확인하는 등을 포함할 수도 있다. 또한, "결정하는"은 수신하는 (예를 들면, 정보를 수신하는), 액세스하는 (메모리의 데이터에 액세스하는) 등을 포함할 수 있다. 또한, "결정하는"은 해결하는, 선택하는, 고르는, 확립하는 등을 포함할 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.

따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100... 동작 유사도 평가 장치
200... 동영상 210... 기준 3D 골격 정보
220?? 유사도 평가 결과
300... 동영상의 프레임
301... 사람이 포함된 영역에 대한 바운딩 박스
310... 바운딩 박스 320... 히트 맵
330... 히트 맵 340... 2D 골격 정보
350... 동영상의 프레임
400... 기준 3D 골격 정보 410... 투영된 2차원 골격 정보
420... 2D 골격 정보 430... 기준 2D 골격 정보
500... 기준 2D 골격 정보 510... 2D 골격 정보
520... 각도 편차 530... 각도 편차가 발생한 관절
600... 기준 2D 골격 정보 610... 2D 골격 정보
620... 리타겟팅 한 기준 2D 골격 정보 630... 리타겟팅 한 2D 골격 정보
700... 2D 골격 정보 710... 기준 2D 골격 정보

Claims

동작 유사도 평가 장치에 있어서,
적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는,
동영상의 프레임 각각에서 상기 동영상에 포함된 동작에 대한 2D 골격 정보를 획득하고,
상기 2D 골격 정보와 기준 3D 골격 정보를 기초로 상기 기준 3D 골격 정보에서 기준 2D 골격 정보를 획득하고,
상기 2D 골격 정보와 상기 기준 2D 골격 정보를 기초로 유사도를 평가하는 동작 유사도 평가 장치.
제1항에 있어서,
상기 적어도 하나의 프로세서는,
상기 2D 골격 정보와 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하고,
상기 획득한 적어도 하나의 파라미터를 기초로 상기 기준 3D 골격 정보를 2차원으로 투영하여 상기 기준 2D 골격 정보를 획득하는 동작 유사도 평가 장치.
제1항에 있어서,
상기 적어도 하나의 프로세서는,
상기 2D 골격 정보에 포함된 관절의 각도 정보와 상기 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가하는 동작 유사도 평가 장치.
제1항에 있어서,
상기 적어도 하나의 프로세서는,
상기 2D 골격 정보와 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하고,
상기 2D 골격 정보 및 상기 기준 3D 골격 정보를 미리 설정된 골격 정보로 리타겟팅 하고,
상기 획득한 적어도 하나의 파라미터를 기초로 상기 리타겟팅 한 기준 3D 골격 정보를 2차원으로 투영하여 리타겟팅 한 기준 2D 골격 정보를 획득하는 동작 유사도 평가 장치.
제4항에 있어서,
상기 적어도 하나의 프로세서는,
상기 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 상기 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보를 기초로 유사도를 평가하는 동작 유사도 평가 장치.
제4항에 있어서,
상기 적어도 하나의 프로세서는,
상기 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 상기 리타겟팅 한 상기 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가하는 동작 유사도 평가 장치.
제2항 또는 제4항 중 어느 한 항에 있어서,
상기 적어도 하나의 프로세서는,
상기 동영상의 미리 설정된 프레임에서 획득한 상기 2D 골격 정보와 상기 동영상의 미리 설정된 프레임에 대응하는 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하는 동작 유사도 평가 장치.
동영상의 프레임 각각에서 상기 동영상에 포함된 동작에 대한 2D 골격 정보를 획득하는 동작;
상기 2D 골격 정보와 기준 3D 골격 정보를 기초로 상기 기준 3D 골격 정보에서 기준 2D 골격 정보를 획득하는 동작; 및
상기 2D 골격 정보와 상기 기준 2D 골격 정보를 기초로 유사도를 평가하는 동작
을 포함하는 동작 유사도 평가 방법.
제8항에 있어서,
상기 기준 2D 골격 정보를 획득하는 동작은,
상기 2D 골격 정보와 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하는 동작; 및
상기 획득한 적어도 하나의 파라미터를 기초로 상기 기준 3D 골격 정보를 2차원으로 투영하여 상기 기준 2D 골격 정보를 획득하는 동작
을 포함하는 동작 유사도 평가 방법.
제8항에 있어서,
상기 유사도를 평가하는 동작은,
상기 골격 정보에 포함된 관절의 각도 정보와 상기 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가하는 동작
을 포함하는 동작 유사도 평가 방법.
제8항에 있어서,
상기 기준 2D 골격 정보를 획득하는 동작은,
상기 2D 골격 정보와 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하는 동작;
상기 2D 골격 정보 및 상기 기준 3D 골격 정보를 미리 설정된 골격 정보로 리타겟팅 하는 동작; 및
상기 획득한 적어도 하나의 파라미터를 기초로 상기 리타겟팅 한 기준 3D 골격 정보를 2차원으로 투영하여 리타겟팅 한 기준 2D 골격 정보를 획득하는 동작
을 포함하는 동작 유사도 평가 방법.
제11항에 있어서,
상기 유사도를 평가하는 동작은,
상기 리타겟팅 한 2D 골격 정보에 포함된 관절의 위치 정보와 상기 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 위치 정보를 기초로 유사도를 평가하는 동작
을 포함하는 동작 유사도 평가 방법.
제11항에 있어서,
상기 유사도를 평가하는 동작은,
상기 리타겟팅 한 2D 골격 정보에 포함된 관절의 각도 정보와 상기 리타겟팅 한 기준 2D 골격 정보에 포함된 관절의 각도 정보를 기초로 유사도를 평가하는 동작
을 포함하는 동작 유사도 평가 방법.
제9항 또는 제11항 중 어느 한 항에 있어서,
상기 2D 골격 정보와 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하는 동작은,
상기 동영상의 미리 설정된 프레임에서 획득한 상기 2D 골격 정보와 상기 동영상의 미리 설정된 프레임에 대응하는 상기 기준 3D 골격 정보를 정렬하여 적어도 하나의 파라미터를 획득하는 동작
을 포함하는 동작 유사도 평가 방법.
제8항 내지 제14항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체.