WO2023096133A1

WO2023096133A1 - 경량화된 자세 추정 모델 제공 장치 및 방법

Info

Publication number: WO2023096133A1
Application number: PCT/KR2022/014488
Authority: WO
Inventors: 고낙헌; 박재현; 곽현우; 한현영
Original assignee: 고낙헌
Priority date: 2021-11-24
Filing date: 2022-09-27
Publication date: 2023-06-01
Also published as: KR20230076644A

Abstract

본 문서에 개시되는 일 실시 예에 따른 컴퓨팅 디바이스에 의해 실행되는 경량화된 자세 추정 모델(pose estimation model) 제공 방법은 사용자에 대한 이미지를 포함하는 비디오 데이터를 획득하는 단계, 비디오 데이터에서 분석 주기에 따라 기준 프레임에 해당하는 제1 프레임을 설정하는 단계, 심층 신경망 모델(deep neural network model)을 이용하여 제1 프레임을 분석함으로써, 제1 프레임에 포함된 사용자의 관절에 대응하는 제1 프레임의 관절 좌표를 획득하는 단계, 및 제1 프레임의 관절 좌표에 대응하는 제1 특성 벡터와 제1 프레임에 후속하는 제2 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 각각 사이의 유사도에 기초하여 제2 프레임의 관절 좌표를 획득하는 단계를 포함할 수 있다.

Description

경량화된 자세 추정 모델 제공 장치 및 방법

본 문서에서 개시되는 실시 예들은 자세 추정 모델(pose estimation model)의 경량화를 구현하기 위한 장치 및 방법과 관련된다.

자세 추정(pose estimation)은 이미지에서 사람의 주요 관절의 구성과 위치를 추정하는 문제로 정의할 수 있다. 컴퓨터 비전 분야 내에서 자세 추정 문제는 인간 행동 인식(human action recognition) 및 인간-컴퓨터 상호작용(human-computer interaction) 등과 같은 다양한 분야에서 활용되며 오랜 기간 동안 연구되어 왔다. 과거에는 2D 이미지 내에서의 자세 추정에 집중하였지만, 최근에는 비디오 데이터가 기하급수적으로 증가함에 따라 비디오 이미지에서의 자세 추정에 대한 연구가 활발하게 진행되고 있다.

자세 추정을 위해서는 Lite-HRNet 등과 같은 다양한 모델이 사용될 수 있다. 비디오 데이터에 대한 자세 추정을 위해서는 비디오 데이터를 구성하는 프레임 각각에 대해 독립적으로 자세 추정 모델을 이용하여 분석을 수행할 필요성이 있다.

비디오 데이터를 구성하는 프레임 각각에 대해 독립적으로 분석을 수행하는 경우, 자세 추정을 위해 과도한 연산량이 요구될 수 있다. 따라서, 자세 추정 모델을 구동하는 하드웨어 환경에 따라 실시간으로 동작하는 것이 어려울 수 있고, 충분한 FPS(frame per second)가 보장되지 못할 수 있다. 비디오 데이터에서는 연속된 프레임 사이에 확실한 상관관계가 존재하므로, 모든 프레임 각각에 대해 추론(inference)을 진행하는 것은 비효율을 초래할 수 있다.

본 발명의 실시 예들은, 연속된 프레임 사이에 상관관계가 존재하는 비디오 데이터에서 프레임 간 관련성을 활용함으로써 자세 추정을 효율적으로 수행할 수 있는 장치 및 방법을 제공하기 위한 것이다.

일 실시 예에 따르면, 방법은 제1 프레임을 인코더에 입력함으로써, 제1 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터를 획득하는 단계, 및 제2 프레임을 인코더에 입력함으로써, 제2 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터를 획득하는 단계를 더 포함할 수 있다.

일 실시 예에 따르면, 제2 프레임의 관절 좌표를 획득하는 단계는, 제1 특성 벡터와 제2 프레임 중 제1 프레임의 관절 좌표의 주변 영역에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 각각 사이의 유사도를 비교하는 단계를 포함할 수 있다.

일 실시 예에 따르면, 방법은 제2 프레임의 관절 좌표에 대응하는 제2 특성 백터와 제2 프레임에 후속하는 제3 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 각각 사이의 유사도에 기초하여 제3 프레임의 관절 좌표를 획득하는 단계를 더 포함할 수 있다.

일 실시 예에 따르면, 방법은 제1 특성 벡터와 제2 프레임에 후속하는 제3 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 각각 사이의 제1 유사도 및 제2 프레임의 관절 좌표에 대응하는 제2 특성 벡터와 제3 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 각각 사이의 제2 유사도에 기초하여 제3 프레임의 관절 좌표를 획득하는 단계를 더 포함할 수 있다.

일 실시 예에 따르면, 제1 유사도와 제2 유사도에는 서로 상이한 가중치가 적용될 수 있다.

일 실시 예에 따르면, 유사도는 제1 특성 벡터와 제2 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 사이의 거리에 기초하여 산출될 수 있다.

일 실시 예에 따르면, 방법은 분석 주기를 사용자 입력 또는 컴퓨터 디바이스의 리소스에 따라 조정하는 단계를 더 포함할 수 있다.

본 문서에 개시되는 일 실시 예에 따른 경량화된 자세 추정 모델 제공 장치는 카메라와 통신하도록 구성된 통신 회로, 메모리, 및 통신 회로 및 메모리와 전기적으로 연결된 프로세서를 포함하고, 프로세서는 통신 회로를 이용하여 카메라로부터 사용자에 대한 이미지를 포함하는 비디오 데이터를 획득하고, 비디오 데이터에서 분석 주기에 따라 기준 프레임에 해당하는 제1 프레임을 설정하고, 메모리에 미리 저장된 심층 신경망 모델을 이용하여 제1 프레임을 분석함으로써, 제1 프레임에 포함된 사용자의 관절에 대응하는 제1 프레임의 관절 좌표를 획득하고, 제1 프레임의 관절 좌표에 대응하는 제1 특성 벡터와 제1 프레임에 후속하는 제2 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 각각 사이의 유사도에 기초하여 제2 프레임의 관절 좌표를 획득할 수 있다.

본 문서에 개시되는 일 실시 예에 따른 컴퓨팅 디바이스에 포함된 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장된 컴퓨터 기록 매체에 있어서, 명령어는, 적어도 하나의 프로세서로 하여금, 사용자에 대한 이미지를 포함하는 비디오 데이터를 획득하고, 비디오 데이터에서 분석 주기에 따라 기준 프레임에 해당하는 제1 프레임을 설정하고, 심층 신경망 모델을 이용하여 제1 프레임을 분석함으로써, 제1 프레임에 포함된 사용자의 관절에 대응하는 제1 프레임의 관절 좌표를 획득하고, 제1 프레임의 관절 좌표에 대응하는 제1 특성 벡터와 제1 프레임에 후속하는 제2 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 각각 사이의 유사도에 기초하여 제2 프레임의 관절 좌표를 획득하도록 할 수 있다.

본 문서에 개시되는 실시 예들에 따르면, 심층 신경망 모델에 의해 추론된 관절 좌표에 대응하는 특성 벡터와 후속 프레임의 특성 벡터 사이의 유사도에 기초하여 후속 프레임의 관절 좌표를 획득함으로써, 자세 추정의 정확도를 유지하면서 자세 추정을 위해 요구되는 연산량을 감소시킬 수 있다.

이 외에, 본 문서를 통해 직접적 또는 간접적으로 파악되는 다양한 효과들이 제공될 수 있다.

도 1은 일 실시 예에 따른 경량화된 자세 추정 모델 제공 장치에 의해 처리되는 예시적인 비디오 데이터를 도시한다.

도 2는 일 실시 예에 따른 경량화된 자세 추정 모델 제공 장치의 구성을 도시하는 블록도이다.

도 3은 일 실시 예에 따른 경량화된 자세 추정 모델 제공 장치의 예시적인 동작을 설명하기 위한 도면이다.

도 4는 일 실시 예에 따른 경량화된 자세 추정 모델 제공 장치의 예시적인 동작을 설명하기 위한 도면이다.

도 5는 일 실시 예에 따른 경량화된 자세 추정 모델 제공 장치의 예시적인 동작을 설명하기 위한 도면이다.

도 6은 일 실시 예에 경량화된 자세 추정 모델 제공 방법을 설명하기 위한 흐름도이다.

도면의 설명과 관련하여, 동일 또는 유사한 구성요소에 대해서는 동일 또는 유사한 참조 부호가 사용될 수 있다.

이하, 본 발명의 일부 실시 예들을 예시적인 도면을 통해서 상세하게 설명한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시 예의 다양한 변경, 균등물 또는 대체물을 포함하는 것으로 이해되어야 한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시 예를 설명함에 있어 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시 예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.

도 1은 일 실시 예에 따른 경량화된 자세 추정 모델 제공 장치의 동작 환경을 도시한다.

도 1을 참조하면, 일 실시 예에 따른 자세 추정 모델 제공 장치는 비디오 데이터를 분석함으로써, 비디오 데이터에 포함된 사용자(p)의 관절 좌표(111)를 획득할 수 있다. 예를 들어, 자세 추정 모델 제공 장치는 심층 신경망 모델을 이용하여 제1 프레임(110)을 분석함으로써, 제1 프레임(110)에 포함된 사용자(p)의 관절에 대응하는 관절 좌표(111)를 획득할 수 있다. 심층 신경망 모델을 이용한 분석을 위해서는 많은 연산량이 요구될 수 있다.

자세 추정 모델 제공 장치는 제2 프레임(120)에 포함된 사용자(p)의 관절에 대응하는 관절 좌표(121)를 획득하기 위한 처리를 수행할 수 있다. 이 경우 제2 프레임(120)에 대해 다시 심층 신경망 모델을 적용하는 경우 과도한 연산량이 요구될 수 있다. 비디오 데이터가 30fps인 것으로 가정하면, 사용자(p)의 움직임 속도를 고려할 때, 제1 프레임(110)과 제2 프레임(120) 사이의 상관관계는 상당히 높을 수 있다. 따라서, 제2 프레임(120)의 관절 좌표(121)를 획득할 때, 제1 프레임(110)의 관절 좌표(111)에 대응하는 특성 벡터와 제2 프레임(120)에 포함된 특성 벡터들 사이의 유사도를 산출하고, 유사도에 기초하여 제2 프레임(120)의 관절 좌표(121)를 획득할 수 있다. 특성 벡터 획득 및 유사도 산출에 요구되는 연산량은 심층 신경망 모델을 이용한 분석에 요구되는 연산량보다 크게 낮을 수 있다. 이로써, 자세 추정 모델의 경량화가 이루어질 수 있다.

도 2를 참조하면, 일 실시 예에 따른 자세 추정 모델 제공 장치(200)는 통신 회로(210), 메모리(220) 및 프로세서(230)를 포함할 수 있다. 자세 추정 모델 제공 장치(200)는, 예를 들어, 사용자 단말 형태로 구현될 수 있다.

통신 회로(210)는 카메라와 무선 또는 유선으로 통신하도록 구성될 수 있다. 통신 회로(210)는 카메라와 데이터를 송수신할 수 있다. 예를 들어, 통신 회로(210)는 카메라로부터 사용자에 대한 이미지를 포함하는 비디오 데이터를 실시간으로 수신할 수 있다.

메모리(220)는 휘발성 메모리 및/또는 비휘발성 메모리를 포함할 수 있다. 메모리(220)는 자세 추정 모델 제공 장치(200)에서 취급되는 다양한 데이터를 저장할 수 있다. 예를 들어, 메모리(220)는 자세 추정 모델 제공 장치(200) 내부에서 처리된 데이터 및 심층 신경망 모델 등을 저장할 수 있고, 카메라로부터 수신된 비디오 데이터를 저장할 수도 있다.

프로세서(230)는 통신 회로(210) 및 메모리(220)와 전기적으로 연결될 수 있다. 프로세서(230)는 통신 회로(210) 및 메모리(220)를 제어할 수 있고, 다양한 데이터 처리 및 연산을 수행할 수 있다. 도 2에서는 프로세서(230)가 단일의 구성인 것으로 도시되었으나, 복수의 구성으로 분리되어 구현될 수도 있다. 프로세서(230)는 메모리(220)에 저장된 소프트웨어 내지 인스트럭션을 실행함으로써, 이하와 같은 동작을 수행할 수 있다.

일 실시 예에 따르면, 프로세서(230)는 통신 회로(210)를 이용하여 카메라로부터 사용자에 대한 이미지를 포함하는 비디오 데이터를 획득할 수 있다. 프로세서(230)는 비디오 촬영을 수행하고 있는 카메라로부터 실시간으로 비디오 데이터를 수신할 수 있다.

일 실시 예에 따르면, 프로세서(230)는 비디오 데이터에서 분석 주기에 따라 기준 프레임에 해당하는 제1 프레임을 설정할 수 있다. 예를 들어, 분석 주기가 10인 경우, 1번째 프레임, 11번째 프레임 및 21번째 프레임 등을 기준 프레임으로 설정할 수 있다. 분석 주기가 길수록 처리 속도가 향상될 수 있고, 분석 주기가 짧을수록 처리의 정확도가 향상될 수 있으므로, 적절한 주기를 설정할 필요성이 있다. 예를 들어, 프로세서(230)는 분석 주기를 사용자 입력에 따라 조정할 수도 있고, 컴퓨터 디바이스(자세 추정 모델 제공 장치(100))의 리소스에 따라 조정할 수 있다. 프로세서(230)는 프로세서(230)의 속도 및 이용률, 메모리(220)의 사용 가능 영역 및 통신 네트워크 상태 등을 고려하여 리소스가 충분한 경우 분석 주기를 감소시키고, 리소스가 부족한 경우 분석 주기를 증가시킬 수 있다.

일 실시 예에 따르면, 프로세서(230)는 메모리(220)에 미리 저장된 심층 신경망 모델(deep neural network model)을 이용하여 제1 프레임을 분석함으로써, 제1 프레임에 포함된 사용자의 관절에 대응하는 제1 프레임의 관절 좌표를 획득할 수 있다. 프로세서(230)는, 예를 들어, Lite-HRNet 등과 같은 심층 신경망을 이용한 모델을 이용하여 제1 프레임을 분석할 수 있다. 심층 신경망 모델은 많은 연산량을 요구하지만, 정확한 관절 좌표의 추정을 수행할 수 있다.

일 실시 예에 따르면, 프로세서(230)는 제1 프레임을 인코더에 입력함으로써, 제1 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터를 획득할 수 있다. 비디오 데이터에 포함된 각 프레임은, 예를 들어, 256×256×3(가로 × 세로 × RGB)의 이미지일 수 있다. 인코더는 프레임이 입력되면 프레임에 대한 64×64×32(가로 × 세로 × 특성 벡터 성분)의 특성 벡터 맵을 출력할 수 있다.

일 실시 예에 따르면, 프로세서(230)는 제1 프레임에 후속하는 제2 프레임을 인코더에 입력함으로써, 제2 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터를 획득할 수 있다. 프로세서(230)는 연속하는 프레임 각각에 대해 순차적으로 인코더를 이용하여 복수의 특성 벡터를 포함하는 특성 벡터 맵을 획득할 수 있다.

인코더는 ResBlock(3, 64), BatchNorm, AvgPool, ResBlock(64, 256), BatchNorm, ResBlock(256, 256), BatchNorm, ResBlock(256, 32) 및 ReLU 등과 같은 레이어를 순차적으로 포함할 수 있다. ResBlock은 3x3 bottleneck convolution filter를 이용하여 구현될 수 있다. 인코더에 3채널 RGB 이미지(프레임)를 입력하면 1/4 크기의 64채널 특성 맵이 출력될 수 있다. 각각의 ResBlock에 포함된 convolution filter가 이미지의 특정한 3x3 영역에 위치해 있을 때, 해당 영역의 값들과 필터의 파라미터를 element wise로 곱한 뒤 모두 합산하여 하나의 값을 추출할 수 있고, 추출된 값은 행 영역의 정보를 종합한 하나의 특성(feature)으로 볼 수 있다. convolution filter가 이미지 상에서 슬라이딩하면서 모든 3x3 영역에 대해 상술한 작업을 수행하면, 추출된 특성 값들을 포함하는 맵이 생성될 수 있다. 생성된 특성 맵은 ResBlock에 입력된 이미지에 대해 필터링을 수행한 고차원적(high-level) 정보일 수 있다. 특성 맵을 다시 ResBlock에 입력하여 더 고차원적인 특성 맵(high-level feature map)을 추출해내는 과정을 반복하면, 단순히 픽셀 값들의 조합을 포함하는 저차원적인 원본 이미지(예: 프레임)에 비해 고차원적 정보를 포함하는 특성 맵이 획득될 수 있다.

일 실시 예에 따르면, 프로세서(230)는 제1 프레임의 관절 좌표에 대응하는 제1 특성 벡터와 제2 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 각각 사이의 유사도에 기초하여 제2 프레임의 관절 좌표를 획득할 수 있다. 프로세서(230)는 제1 프레임의 특성 벡터 맵에서 제1 프레임의 관절 좌표에 대응하는 제1 특성 벡터를 획득할 수 있다. 프로세서(230)는 제2 프레임의 특성 백터 맵에 포함된 64×64개의 특성 벡터를 획득할 수 있다. 프로세서(230)는 제1 특성 벡터와 제2 프레임의 특성 벡터 맵에 포함된 64×64개의 특성 벡터 사이의 유사도를 산출할 수 있다. 프로세서(230)는 제2 프레임의 특성 벡터 맵에 포함된 64×64개의 특성 벡터 중 제1 특성 벡터와 유사도가 가장 높은 제2 특성 벡터를 획득할 수 있다. 프로세서(230)는 제2 특성 벡터에 대응하는 지점의 좌표를 제2 프레임의 관절 좌표로서 획득할 수 있다. 특성 벡터 사이의 유사도는, 예를 들어, 제1 특성 벡터와 제2 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터(제2 프레임의 특성 벡터 맵에 포함된 특성 벡터들) 사이의 거리에 기초하여 산출될 수 있다. 거리 산출에는 L2 distance metric이 적용될 수 있다.

일 실시 예에 따르면, 프로세서(230)는 제1 특성 벡터와 제2 프레임 중 제1 프레임의 관절 좌표의 주변 영역에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 각각 사이의 유사도를 비교할 수 있다. 연속하는 프레임 사이의 시간 간격과 사용자의 움직임 속도를 고려할 때, 제1 특성 벡터와 제2 프레임의 특성 벡터 맵 전체를 비교하는 것은 비효율적일 수 있다. 따라서, 제2 프레임의 특성 벡터 맵 중 제1 프레임의 관절 좌표와 인접한 영역에 대응하는 특성 벡터에 대해서만 제1 특성벡터와의 유사도를 산출할 수 있다. 주변 영역의 크기는 사용자의 최대 속도를 고려하여 설정될 수 있다.

일 실시 예에 따르면, 프로세서(230)는 제2 프레임의 관절 좌표에 대응하는 제2 특성 백터와 제2 프레임에 후속하는 제3 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 각각 사이의 유사도에 기초하여 제3 프레임의 관절 좌표를 획득할 수 있다. 프로세서(230)는 제1 특성 벡터와 유사도가 가장 높은 제2 특성 벡터를 획득할 수 있다. 프로세서(230)는 제3 프레임의 특성 벡터 맵에 포함된 64×64개의 특성 벡터를 획득할 수 있다. 프로세서(230)는 제2 특성 벡터와 제3 프레임의 특성 벡터 맵에 포함된 64×64개의 특성 벡터 사이의 유사도를 산출할 수 있다. 프로세서(230)는 제3 프레임의 특성 벡터 맵에 포함된 64×64개의 특성 벡터 중 제2 특성 벡터와 유사도가 가장 높은 제3 특성 벡터를 획득할 수 있다. 프로세서(230)는 제3 특성 벡터에 대응하는 지점의 좌표를 제3 프레임의 관절 좌표로서 획득할 수 있다. 제3 프레임의 관절 좌표를 획득하는 예시적인 방식에 대해서는 도 4를 참조하여 상세히 설명한다.

일 실시 예에 따르면, 프로세서(230)는 제1 특성 벡터와 제3 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 각각 사이의 제1 유사도 및 제2 특성 벡터와 제3 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 각각 사이의 제2 유사도에 기초하여 제3 프레임의 관절 좌표를 획득할 수 있다. 프로세서(230)는 제3 프레임의 이전 프레임인 제2 프레임에 대한 제2 특성 벡터와 제3 프레임의 특성 벡터 맵에 포함된 64×64개의 특성 벡터 사이의 제2 유사도를 산출할 수 있다. 프로세서(230)는 이전 프레임과의 제2 유사도뿐만 아니라 기준 프레임(제1 프레임)과의 제1 유사도를 고려할 수 있다. 프로세서(230)는 기준 프레임인 제1 프레임에 대한 제1 특성 벡터와 제3 프레임의 특성 벡터 맵에 포함된 64×64개의 특성 벡터 사이의 제1 유사도를 산출할 수 있다. 프로세서(230)는 제1 유사도와 제2 유사도를 합산하여 유사도가 가장 높은 제3 특성 벡터를 획득할 수 있다. 일 실시 예에 따르면, 제1 유사도와 제2 유사도의 합산 시 제1 유사도와 제2 유사도에는 서로 상이한 가중치가 적용될 수도 있다. 프로세서(230)는 제3 특성 벡터에 대응하는 지점의 좌표를 제3 프레임의 관절 좌표로서 획득할 수 있다. 제3 프레임의 관절 좌표를 획득하는 예시적인 방식에 대해서는 도 5를 참조하여 상세히 설명한다.

상술한 것과 같이, 심층 신경망 모델을 이용하여 기준 프레임에 대한 관절 좌표를 획득한 후, 특성 벡터의 유사도를 이용하여 분석 주기 내의 후속 프레임에 대한 관절 좌표를 획득함으로써, 자세 추정의 정확도를 유지하면서 자세 추정을 위해 요구되는 연산량을 감소시킬 수 있다.

도 3을 참조하면, 일 실시 예에 따른 경량화된 자세 추정 모델은 비디오 데이터를 획득할 수 있다. 분석 주기는 N으로 설정될 수 있다. 이 경우, 프레임 1, 프레임 N+1 및 프레임 2N+1 등이 기준 프레임으로 설정될 수 있다. 기준 프레임인 프레임 1은 심층 신경망에 의해 분석될 수 있고, 이로써 프레임 1의 관절 좌표가 추정될 수 있다. 프레임 2는 인코더에 입력될 수 있고, 이로써 프레임 2의 특성 맵(또는 특성 벡터 맵)이 출력될 수 있다. 프레임 1의 관절 좌표에 대응하는 특성 벡터와 프레임 2의 특성 맵 사이의 유사도에 기초하여 프레임 2의 관절 좌표가 추정될 수 있다. 다음으로, 프레임 2의 관절 좌표에 대응하는 특성 벡터와 프레임 3의 특성 맵 사이의 유사도에 기초하여 프레임 3의 관절 좌표가 추정될 수 있고, 유사한 방식으로 프레임 4 내지 프레임 N의 관절 좌표가 추정될 수 있다.

다음으로, 다음 기준 프레임에 해당하는 프레임 N+1은 심층 신경망에 의해 분석될 수 있고, 이로써 프레임 N+1의 관절 좌표가 추정될 수 있다. 다음으로, 프레임 N+2 내지 프레임 2N의 관절 좌표는 프레임 2 내지 프레임 N과 각각 유사한 방식으로 특성 맵을 통해 관절 좌표가 추정될 수 있다.

도 4를 참조하면, 일 실시 예에 따른 경량화된 자세 추정 모델 제공 장치는 비디오 데이터를 수신할 수 있고, 256×256(가로×세로) 픽셀로 이루어진 제1 프레임(410)을 획득할 수 있다. 제1 프레임(410)은 심층 신경망 모델(440)에 의해 분석될 수 있다. 분석 결과에 의해 제1 프레임(410)의 제1 관절 좌표(411)가 획득될 수 있다. 관절이 16개인 경우, 제1 관절 좌표(411)는 (α₁, β₁) 내지 (α₁₆, β₁₆)을 포함할 수 있다. 제1 프레임(410)은 인코더(450)에 입력될 수 있고, 인코더(450)에 의해 제1 특성 맵(412)이 획득될 수 있다. 특성 맵에 포함된 특성 백터는 64×64(가로×세로)개일 수 있고, 특성 벡터 각각의 성분의 개수는 32개일 수 있다. 제1 특성 맵(412)에서 제1 관절 좌표(411) (α₁, β₁) 내지 (α₁₆, β₁₆) 각각에 대응하는 16개의 제1 특성 벡터(413)가 획득될 수 있다.

다음으로, 제1 프레임(410)에 후속하는 제2 프레임(420)이 획득될 수 있다. 제2 프레임(420)은 심층 신경망 모델(440)에 의한 분석 없이 인코더(450)에 입력될 수 있고, 인코더(450)에 의해 제2 특성 맵(421)이 획득될 수 있다. 16개의 제1 특성 벡터(413) 각각과 제2 특성 맵(421)에 포함된 64×64개의 특성 벡터 사이의 제1 거리 맵(422)(64×64×16 (가로×세로×제1 특성 벡터(413)의 개수))이 획득될 수 있다. 제1 거리 맵(422)에 기초하여 제1 특성 벡터(413) 각각과 거리가 가장 가까운 16개의 제2 특성 벡터(423)가 획득될 수 있다. 이로써, 제2 특성 벡터(423) 각각에 대응하는 제2 프레임(420)에 대한 16개의 제2 관절 좌표가 획득될 수 있다.

다음으로, 제2 프레임(420)에 후속하는 제3 프레임(430)이 획득될 수 있다. 제3 프레임(430)은 심층 신경망 모델(440)에 의한 분석 없이 인코더(450)에 입력될 수 있고, 인코더(450)에 의해 제3 특성 맵(431)이 획득될 수 있다. 16개의 제2 특성 벡터(423) 각각과 제3 특성 맵(431)에 포함된 64×64개의 특성 벡터 사이의 제2 거리 맵(432)이 획득될 수 있다. 제2 거리 맵(432)에 기초하여 제2 특성 벡터(423) 각각과 거리가 가장 가까운 16개의 제3 특성 벡터(433)가 획득될 수 있다. 이로써, 제3 특성 벡터(433) 각각에 대응하는 제3 프레임(430)에 대한 16개의 제3 관절 좌표가 획득될 수 있다.

유사한 방식으로, 제3 특성 벡터(433)와 제4 프레임의 비교를 통해 제4 관절 좌표가 획득될 수 있고, 제4 특성 벡터와 제5 프레임의 비교를 통해 제5 관절 좌표가 획득될 수 있다.

도 5는 일 실시 예에 따른 경량화된 자세 추정 모델 제공 장치의 예시적인 동작을 설명하기 위한 도면이다. 설명의 편의를 위해 도 4를 참조하여 설명한 특징에 대한 중복 설명은 생략한다.

도 5를 참조하면, 일 실시 예에 따른 경량화된 자세 추정 모델 제공 장치는 비디오 데이터를 수신할 수 있고, 제1 프레임(510)을 획득할 수 있다. 제1 프레임(510)의 제1 관절 좌표(511)는 심층 신경망 모델(540)에 의해 획득될 수 있다. 도 4를 참조하여 설명한 것과 유사한 방식으로 인코더(550)에 의해 제1 특성 맵(512) 및 제1 특성 벡터(513)가 획득될 수 있고, 제2 프레임(520)으로부터 제2 특성 맵(521), 제1 거리 맵(522) 및 제2 특성 벡터(523)가 획득될 수 있다.

다음으로, 제2 프레임(520)에 후속하는 제3 프레임(530)이 획득될 수 있다. 제3 프레임(530)은 심층 신경망 모델(540)에 의한 분석 없이 인코더(550)에 입력될 수 있고, 인코더(550)에 의해 제3 특성 맵(531)이 획득될 수 있다. 추정의 정확도를 향상시키기 위해 제2 거리 맵(532)의 산출 시에는 제2 특성 벡터(523)뿐만 아니라 기준 프레임인 제1 프레임(510)에 대한 제1 특성 벡터(513)가 함께 고려될 수 있다. 16개의 제2 특성 벡터(523) 각각과 제3 특성 맵(531)에 포함된 64×64개의 특성 벡터 사이의 거리 및 제1 특성 벡터(513) 각각과 제3 특성 맵(531)에 포함된 64×64개의 특성 벡터 사이의 거리를 합산하여 제2 거리 맵(532)이 획득될 수 있다. 제2 거리 맵(532)에 기초하여 제1 특성 벡터(513) 및 제2 특성 벡터(523) 각각과 거리가 가장 가까운 16개의 제3 특성 벡터(533)가 획득될 수 있다. 이로써, 제3 특성 벡터(533) 각각에 대응하는 제3 프레임(530)에 대한 16개의 제3 관절 좌표가 획득될 수 있다.

유사한 방식으로, 제1 특성 벡터(513) 및 제3 특성 벡터(533) 각각과 제4 프레임의 비교를 통해 제4 관절 좌표가 획득될 수 있고, 제1 특성 벡터(513) 및 제4 특성 벡터 각각과 제5 프레임의 비교를 통해 제5 관절 좌표가 획득될 수 있다.

이하에서는 도 2의 자세 추정 모델 제공 장치(200)가 도 6의 프로세스를 수행하는 것을 가정한다. 또한, 도 6의 설명에서, 자세 추정 모델 제공 장치에 의해 수행되는 것으로 기술된 동작은 프로세서(230)에 의해 제어되는 것으로 이해될 수 있다.

도 6을 참조하면, 단계 610에서, 장치는 사용자에 대한 이미지를 포함하는 비디오 데이터를 획득할 수 있다.

단계 620에서, 장치는 비디오 데이터에서 분석 주기에 따라 기준 프레임에 해당하는 제1 프레임을 설정할 수 있다.

단계 630에서, 장치는 심층 신경망 모델을 이용하여 제1 프레임을 분석함으로써, 제1 프레임에 포함된 사용자의 관절에 대응하는 제1 프레임의 관절 좌표를 획득할 수 있다.

단계 640에서, 장치는 제1 프레임의 관절 좌표에 대응하는 제1 특성 벡터와 제1 프레임에 후속하는 제2 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 각각 사이의 유사도에 기초하여 제2 프레임의 관절 좌표를 획득할 수 있다.

본 문서의 실시 예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제1," "제2," "첫째," 또는 "둘째," 등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 어떤 구성요소가 다른 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소를 통하여 연결될 수 있다.

본 문서에서, "~하도록 설정된(adapted to or configured to)"은 상황에 따라, 예를 들면, 하드웨어적 또는 소프트웨어적으로 "~에 적합한," "~하는 능력을 가지는," "~하도록 변경된," "~하도록 만들어진," "~를 할 수 있는," 또는 "~하도록 설계된"과 상호 호환적으로(interchangeably) 사용될 수 있다. 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 설정된 (또는 구성된) 프로세서"는 해당 동작들을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(예: CPU)를 의미할 수 있다.

본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어(firmware)로 구성된 유닛(unit)을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. "모듈"은 기계적으로 또는 전자적으로 구현될 수 있으며, 예를 들면, 어떤 동작들을 수행하는, 알려졌거나 앞으로 개발될, ASIC(application-specific integrated circuit) 칩, FPGAs(field-programmable gate arrays), 또는 프로그램 가능 논리 장치를 포함할 수 있다.

일 실시 예에 따른 장치(예: 모듈들 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는 프로그램 모듈의 형태로 컴퓨터로 판독 가능한 저장 매체에 저장된 명령어로 구현될 수 있다. 상기 명령어가 프로세서에 의해 실행될 경우, 프로세서가 상기 명령어에 해당하는 기능을 수행할 수 있다.

일 실시 예에 따른 구성 요소(예: 모듈 또는 프로그램 모듈) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소를 더 포함할 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램 모듈)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 일 실시 예에 따른 모듈, 프로그램 모듈 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

Claims

컴퓨팅 디바이스에 의해 실행되는 경량화된 자세 추정 모델(pose estimation model) 제공 방법에 있어서,

사용자에 대한 이미지를 포함하는 비디오 데이터를 획득하는 단계;

상기 비디오 데이터에서 분석 주기에 따라 기준 프레임에 해당하는 제1 프레임을 설정하는 단계;

심층 신경망 모델(deep neural network model)을 이용하여 상기 제1 프레임을 분석함으로써, 상기 제1 프레임에 포함된 상기 사용자의 관절에 대응하는 상기 제1 프레임의 관절 좌표를 획득하는 단계; 및

상기 제1 프레임의 관절 좌표에 대응하는 제1 특성 벡터와 상기 제1 프레임에 후속하는 제2 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 각각 사이의 유사도에 기초하여 상기 제2 프레임의 관절 좌표를 획득하는 단계를 포함하는 것을 특징으로 하는, 방법.
제 1 항에 있어서,

상기 제1 프레임을 인코더에 입력함으로써, 상기 제1 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터를 획득하는 단계; 및

상기 제2 프레임을 상기 인코더에 입력함으로써, 상기 제2 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터를 획득하는 단계를 더 포함하는 것을 특징으로 하는, 방법.
제 1 항에 있어서,

상기 제2 프레임의 관절 좌표를 획득하는 단계는,

상기 제1 특성 벡터와 상기 제2 프레임 중 상기 제1 프레임의 관절 좌표의 주변 영역에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 각각 사이의 유사도를 비교하는 단계를 포함하는 것을 특징으로 하는, 방법.
제 1 항에 있어서,

상기 제2 프레임의 관절 좌표에 대응하는 제2 특성 백터와 상기 제2 프레임에 후속하는 제3 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 각각 사이의 유사도에 기초하여 상기 제3 프레임의 관절 좌표를 획득하는 단계를 더 포함하는 것을 특징으로 하는, 방법.
제 1 항에 있어서,

상기 제1 특성 벡터와 상기 제2 프레임에 후속하는 제3 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 각각 사이의 제1 유사도 및 상기 제2 프레임의 관절 좌표에 대응하는 제2 특성 벡터와 상기 제3 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 각각 사이의 제2 유사도에 기초하여 상기 제3 프레임의 관절 좌표를 획득하는 단계를 더 포함하는 것을 특징으로 하는, 방법.
제 5 항에 있어서,

상기 제1 유사도와 상기 제2 유사도에는 서로 상이한 가중치가 적용되는 것을 특징으로 하는, 방법.
제 1 항에 있어서,

상기 유사도는 상기 제1 특성 벡터와 상기 제2 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 사이의 거리에 기초하여 산출되는 것을 특징으로 하는, 방법.
제 1 항에 있어서,

상기 분석 주기를 사용자 입력 또는 상기 컴퓨팅 디바이스의 리소스에 따라 조정하는 단계를 더 포함하는 것을 특징으로 하는, 방법.
경량화된 자세 추정 모델 제공 장치에 있어서,

카메라와 통신하도록 구성된 통신 회로;

메모리; 및

상기 통신 회로 및 상기 메모리와 전기적으로 연결된 프로세서를 포함하고,

상기 프로세서는,

상기 통신 회로를 이용하여 상기 카메라로부터 사용자에 대한 이미지를 포함하는 비디오 데이터를 획득하고,

상기 비디오 데이터에서 분석 주기에 따라 기준 프레임에 해당하는 제1 프레임을 설정하고,

상기 메모리에 미리 저장된 심층 신경망 모델을 이용하여 상기 제1 프레임을 분석함으로써, 상기 제1 프레임에 포함된 상기 사용자의 관절에 대응하는 상기 제1 프레임의 관절 좌표를 획득하고,

상기 제1 프레임의 관절 좌표에 대응하는 제1 특성 벡터와 상기 제1 프레임에 후속하는 제2 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 각각 사이의 유사도에 기초하여 상기 제2 프레임의 관절 좌표를 획득하는 것을 특징으로 하는, 장치.
컴퓨팅 디바이스에 포함된 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장된 컴퓨터 기록 매체에 있어서,

상기 명령어는, 상기 적어도 하나의 프로세서로 하여금,

사용자에 대한 이미지를 포함하는 비디오 데이터를 획득하고,

상기 비디오 데이터에서 분석 주기에 따라 기준 프레임에 해당하는 제1 프레임을 설정하고,

심층 신경망 모델을 이용하여 상기 제1 프레임을 분석함으로써, 상기 제1 프레임에 포함된 상기 사용자의 관절에 대응하는 상기 제1 프레임의 관절 좌표를 획득하고,

상기 제1 프레임의 관절 좌표에 대응하는 제1 특성 벡터와 상기 제1 프레임에 후속하는 제2 프레임에 포함된 포인트 각각에 대응하는 복수의 특성 벡터 각각 사이의 유사도에 기초하여 상기 제2 프레임의 관절 좌표를 획득하도록 하는 것을 특징으로 하는, 컴퓨터 기록 매체.