KR102150794B1

KR102150794B1 - 손 자세 인식 및 적응적 공간 탐색을 활용한 손 관절 추적 방법 및 그 장치

Info

Publication number: KR102150794B1
Application number: KR1020190048945A
Authority: KR
Inventors: 우운택; 박갑용
Original assignee: 한국과학기술원
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2020-09-02

Abstract

손 자세 인식 및 적응적 공간 탐색을 활용한 손 관절 추적 방법 및 그 장치가 개시된다. 본 발명의 일 실시예에 따른 손 자세 추적 방법은 손 자세를 포함하는 깊이 이미지를 수신하는 단계; 상기 깊이 이미지에 기초하여 상기 손 자세에 대한 제1 이미지와 제2 이미지를 생성하는 단계; 상기 제1 이미지에 기초하여 상기 제1 이미지에 대응하는 손 대표 자세를 분류하는 단계; 상기 제2 이미지와 상기 분류된 손 대표 자세에 기초하여 미리 설정된 파티클들 각각을 생성하는 단계; 상기 생성된 파티클들 각각에 대한 깊이 오류와 자세 오류를 계산하는 단계; 상기 계산된 깊이 오류와 자세 오류를 기반으로 상기 파티클들 각각과 검색 공간 범위를 업데이트하는 단계; 및 상기 업데이트된 파티클들 각각과 검색 공간 범위에 기초하여 손 자세를 추정하는 단계를 포함한다.

Description

손 자세 인식 및 적응적 공간 탐색을 활용한 손 관절 추적 방법 및 그 장치 {Hand Articulations Tracking Method Guided by Hand Pose Recognition and Search Space Adaptation and Apparatus Therefore}

본 발명은 손 관절 추적 기술에 관한 것으로서, 보다 구체적으로 1개의 깊이 카메라(depth camera)를 기반으로 손의 26 차원 관절 자세를 추적할 수 있는 손 관절 추적 방법 및 그 장치에 관한 것이다.

증강현실(AR)과 가상현실(VR)은 실제 생활에서는 제공할 수 없는 다양한 경험을 사용자에게 제공한다. 이러한 경험들은 교육, 오락, 게임과 같은 다양한 분야에 걸쳐 있다. 연구진은 AR과 VR에 대한 더 나은 경험을 제공하기 위해 인체 자세의 추적과 추정을 실시간으로 연구했다. 특히 손은 수화, 악기 연주, 상호작용 등에 가장 직관적이고 자주 사용되는 신체 부위다. 예를 들어, 도 1에 도시된 바와 같이, 손 추적은 증강 수화 어플리케이션을 사용한 트레이닝에 사용될 수 있다. 따라서 손의 상호작용이 대부분인 AR과 VR에서는 손의 추적이 매우 중요하다. 본 연구에서는 Intel RealSense와 같은 RGB-D 센서를 이용하여 손 관절 추적을 중점적으로 실시한다.

3D 손 추적은 손의 깊게 연결된 구조, 손가락과 손 부분 사이의 자기 충돌, 높은 자유도(DoF) 때문에 어렵다. 사용자에게 AR/VR에서의 자연스러운 손 상호작용 경험을 제공하려면 높은 DoF를 사용한 손 추적 기능이 필요하다. 지난 20년 동안, 이 문제를 해결하기 위해 수많은 기술들이 연구되었다. 손 추적에는 주로 모델 기반 접근법과 차별적 접근법의 두 가지 접근법이 있다.

모델 기반 접근법은 3D 가상 손 모델로 손 자세(pose)를 추적한다. 종래 일 실시예에 따른 기술은 한 손의 3D 관절에 대한 합리적인 추적 결과를 입증했다. 강력한 추적을 위해 더 많은 정보를 활용하기 위해 충돌, 그럴듯한 자세, 시간 연속성 등을 이용한 추가 페널티 항목을 사용할 수 있다. 종래 다른 일 실시예에 따른 기술은 실제 물체를 조작하는 손을 추적할 때 발생 및 손-객체 접촉에 대처하기 위한 새로운 정규화기(regularizer)에 기초하여 강력한 성능을 보였다. 또한 모델 적응은 정확도 향상을 위해 고려할 수 있다. 기존 연구들은 공동으로 손의 자세 추적과 손 모양 추정 문제를 다루었으며, 캡쳐된 사용자의 개인화된 기하학적 모델로 정확하고 견고한 성능을 보여주었다. 모델 기반 접근법은 일반화된 자세를 추적할 때의 장점을 보여준다. 그러나 이러한 접근 방식은 이전 프레임의 솔루션에 크게 의존하기 때문에 손이 빠르게 움직일 때 로컬 최소 값에서 벗어나기 어렵고 궁극적으로 오류가 축적된다. 따라서 재 초기화(reinitialization)가 필요하다. 특히, AR/VR 어플리케이션에서는 손이 빠르게 움직이거나 카메라의 시야로 이동하는 수많은 상황이 있다. 따라서 모델 기반 접근법은 실시간 어플리케이션에 대하여 단일 프레임의 추정 알고리즘과 결합되어야 한다.

차별적 접근법은 대규모 데이터 세트를 갖춘 트레이닝된 모델을 사용하여 3D 손 자세를 추정한다. 이 접근방식은 이전 프레임의 솔루션에 의존하지 않으며 모델 기반 접근방식과 달리 단일 프레임에 대한 솔루션을 추정할 수 있다. 종래 일 실시예에 따른 기술은 단일 프레임에서 적절한 성능을 보인 랜덤 디시젼 포레스트(Random decision forest, RDF)를 이용한 손 자세 추정 방법을 제안하였다. 그러나 차별적 접근법의 일반화 성능은 모델 기반 접근법보다 낮다. 대규모 데이터 세트를 기반으로 한 딥 러닝 기법의 개선과 증가된 컴퓨팅 파워로 인하여 현저하게 높은 성능을 달성하였다. 예를 들어, CNN에 기초한 손 관절 추정치는 다양한 연구들에서 입증되었다. 또한 대규모 데이터 세트를 생성하기 위한 연구가 수행되기도 하였다. 이 성과에도 불구하고, 보이지 않는 손 모양을 비효과적으로 일반화한다.

생성 및 차별적 접근법의 장점을 활용하고 단점을 최소화하기 위해 하이브리드 접근법이 제안되었다. 이 두 가지 방법을 보완적으로 사용하는 방법에 대해서는 몇 가지 관점이 있다. 먼저, 종래 일 실시예의 기술은 추적 손실을 줄이기 위해 복수의 초기화 방법을 제안하였으며, 이 방법은 파티클 무리 최적화(PSO) 기반 최적화 중에 여러 가설을 생성한다. 이것은 문제를 해결하는데, 이전 해결책의 가설이 부정확한 검색 범위에서 생성될 때 발생한다. 둘째, 종래 다른 일 실시예의 기술은 무작위 포레스트를 사용하여 관절의 위치를 퇴보시켰으며, 종래 또 다른 일 실시예의 기술은 CNN을 이용하여 퇴보시키고 PSO를 이용하여 정제한 것으로, CNN과 PSO를 모두 사용하였다. 그러나, 종래 기술들은 시간적 연속성을 활용하지 않기 때문에 연속적인 프레임 사이에서 견고하지 않을 가능성이 있다. 셋째, 종래 또 다른 일 실시예의 기술은 대응 추정을 위해 레이블된 깊이 이미지를 사용한다. 일반적인 손 추적 방법은 최근접 이웃 방법과 유사하게 모델과 관측 사이의 일치점을 정의한다. 트레이닝된 모델이 적절한 일반화를 보일 경우, 이 방법은 트레이닝된 모델과의 효과적인 대응 방법을 안내할 수 있다. 더욱이 상업적으로 개발된 소프트웨어는 이용 가능하다. 알고리즘에 대한 상세한 설명은 제공되지 않고 있지만, 운동학적 결과를 재초기화하여 나타낸다는 점을 고려하면 하이브리드 기반 접근법으로 분류될 가능성이 높다.

트레이닝된 모델의 출력 유형에 따라 하이브리드 방법의 전략을 결정할 수 있다. 그러나, 검색 공간의 분류와 업데이트에 의해 가이드되는 모델 기반의 접근방식은 없다. 모델 기반 손 추적 알고리즘은 일반적으로 이전 솔루션에서 경험적으로 검색 범위를 결정한다. 그러나, 이전 솔루션이 효과적인 출발점이 아닐 때는 문제를 나타낸다. 트레이닝된 모델에서 여러 개의 초기 시작 지점이 생성되지만, 초기 지점으로부터 검색하는 데 사용되는 자원은 빠른 동작으로 낭비될 수 있다. PSO와 같은 유전적 최적화가 채택되면 이 문제는 더욱 심각해진다.

PSO에서 파티클들은 특정 검색 공간에서 솔루션을 찾는다. 종래 일 실시예에 따른 기술은 검색공간 경계근처의 파티클의 행동(behavior)을 연구하여 견고한 PSO를 위한 하이브리드 경계조건을 제안하였다. 이 방법은 검색공간이 실제 솔루션을 커버할 때 효과적이다. 그러나 탐색 공간의 결정은 빠른 동작에서 어려움이 있다. 따라서 검색 공간 적응이 필요하다. PSO의 적응적 검색 공간이 여러 연구들에서 연구되었다. 예를 들어, 일 실시예 기술은 PSO에 적용되는 검색 공간 감소 알고리즘을 제안하였으며, 솔루션을 찾을 수 없을 것 같은 영역을 제거함으로써 솔루션을 찾는데 도움이 된다. 다른 일 실시예의 기술은 파티클 히트 수에 따라 계산 중에 위치가 이동하는 플로팅 경계(floating boundary)를 제안하였으나, 적절한 성능을 달성하기 위해 경계에서 충돌 횟수에 대한 적절한 임계값을 결정하는 것은 어려운 일이다. 또 다른 일 실시예의 기술은 파티클의 평균 및 표준 편차를 활용하여 검색 공간을 업데이트하였다.

본 발명의 실시예들은, 1개의 깊이 카메라(depth camera)를 기반으로 손의 26 차원 관절 자세를 추적할 수 있는 손 관절 추적 방법 및 그 장치를 제공한다.

본 발명의 일 실시예에 따른 손 자세 추적 방법은 손 자세를 포함하는 깊이 이미지를 수신하는 단계; 상기 깊이 이미지에 기초하여 상기 손 자세에 대한 제1 이미지와 제2 이미지를 생성하는 단계; 상기 제1 이미지에 기초하여 상기 제1 이미지에 대응하는 손 대표 자세를 분류하는 단계; 상기 제2 이미지와 상기 분류된 손 대표 자세에 기초하여 미리 설정된 파티클들 각각을 생성하는 단계; 상기 생성된 파티클들 각각에 대한 깊이 오류와 자세 오류를 계산하는 단계; 상기 계산된 깊이 오류와 자세 오류를 기반으로 상기 파티클들 각각과 검색 공간 범위를 업데이트하는 단계; 및 상기 업데이트된 파티클들 각각과 검색 공간 범위에 기초하여 손 자세를 추정하는 단계를 포함한다.

상기 손 대표 자세를 분류하는 단계는 미리 학습된 학습 모델의 뉴럴 네트워크를 이용하여 상기 제1 이미지에 대응하는 상기 손 대표 자세를 분류할 수 있다.

상기 계산하는 단계는 상기 수신된 깊이 이미지와 상기 파티클들 각각의 렌더링된 깊이 이미지 간의 깊이 오류를 계산하고, 상기 분류된 손 대표 자세와 상기 파티클들 각각의 손 모델의 자세 간의 자세 오류를 계산할 수 있다.

상기 계산하는 단계는 데이터 피팅을 이용하여 상기 깊이 오류를 계산하고, 컨볼루션 뉴럴 네트워크(CNN) 기반 프라이어를 이용하여 상기 자세 오류를 계산할 수 있다.

상기 업데이트하는 단계는 상기 계산된 깊이 오류와 자세 오류를 최소화함으로써, 상기 파티클들 각각과 검색 공간 범위를 업데이트할 수 있다.

상기 업데이트하는 단계는 이전 프레임에서 추정된 손 자세에 의해 생성된 제1 검색 공간 범위와 상기 분류된 손 대표 자세에 의해 생성된 제2 검색 공간 범위를 업데이트할 수 있다.

상기 파티클들 각각을 생성하는 단계는 이전 프레임에서 추정된 손 자세를 추가적으로 반영하여 상기 파티클들 각각을 생성할 수 있다.

상기 손 자세를 추정하는 단계는 일정 횟수 반복 수행에 의해 업데이트된 파티클들 각각의 위치와 검색 공간 범위에 기초하여 해당 프레임에서의 손 자세를 추정할 수 있다.

본 발명의 다른 일 실시예에 따른 손 자세 추적 방법은 손 자세를 포함하는 깊이 이미지에 기초하여 상기 손 자세에 대한 제1 이미지와 제2 이미지를 생성하는 단계; 상기 제1 이미지를 입력으로 하는 뉴럴 네트워크에 기초하여 상기 제1 이미지에 대응하는 손 대표 자세를 분류하는 단계; 상기 제2 이미지와 상기 분류된 손 대표 자세에 기초하여 생성된 파티클들 각각에 대한 깊이 오류와 자세 오류를 계산하는 단계; 상기 계산된 깊이 오류와 자세 오류를 기반으로 상기 파티클들 각각의 위치를 업데이트하고 상기 파티클들 각각의 검색 공간 범위를 적응적으로 업데이트하는 단계; 및 상기 업데이트된 파티클들 각각의 위치와 검색 공간 범위에 기초하여 손 자세를 추정하는 단계를 포함한다.

본 발명의 일 실시예에 따른 손 자세 추적 장치는 손 자세를 포함하는 깊이 이미지를 수신하는 수신부; 상기 깊이 이미지에 기초하여 상기 손 자세에 대한 제1 이미지와 제2 이미지를 생성하는 이미지 생성부; 상기 제1 이미지에 기초하여 상기 제1 이미지에 대응하는 손 대표 자세를 분류하는 분류부; 상기 제2 이미지와 상기 분류된 손 대표 자세에 기초하여 미리 설정된 파티클들 각각을 생성하는 파티클 생성부; 상기 생성된 파티클들 각각에 대한 깊이 오류와 자세 오류를 계산하는 계산부; 상기 계산된 깊이 오류와 자세 오류를 기반으로 상기 파티클들 각각과 검색 공간 범위를 업데이트하는 업데이트부; 및 상기 업데이트된 파티클들 각각과 검색 공간 범위에 기초하여 손 자세를 추정하는 추정부를 포함한다.

상기 분류부는 미리 학습된 학습 모델의 뉴럴 네트워크를 이용하여 상기 제1 이미지에 대응하는 상기 손 대표 자세를 분류할 수 있다.

상기 계산부는 상기 수신된 깊이 이미지와 상기 파티클들 각각의 렌더링된 깊이 이미지 간의 깊이 오류를 계산하고, 상기 분류된 손 대표 자세와 상기 파티클들 각각의 손 모델의 자세 간의 자세 오류를 계산할 수 있다.

상기 계산부는 데이터 피팅을 이용하여 상기 깊이 오류를 계산하고, 컨볼루션 뉴럴 네트워크(CNN) 기반 프라이어를 이용하여 상기 자세 오류를 계산할 수 있다.

상기 업데이트부는 상기 계산된 깊이 오류와 자세 오류를 최소화함으로써, 상기 파티클들 각각과 검색 공간 범위를 업데이트할 수 있다.

상기 업데이트부는 이전 프레임에서 추정된 손 자세에 의해 생성된 제1 검색 공간 범위와 상기 분류된 손 대표 자세에 의해 생성된 제2 검색 공간 범위를 업데이트할 수 있다.

상기 파티클 생성부는 이전 프레임에서 추정된 손 자세를 추가적으로 반영하여 상기 파티클들 각각을 생성할 수 있다.

상기 추정부는 일정 횟수 반복 수행에 의해 업데이트된 파티클들 각각의 위치와 검색 공간 범위에 기초하여 해당 프레임에서의 손 자세를 추정할 수 있다.

본 발명의 다른 일 실시예에 따른 손 자세 추적 장치는 손 자세를 포함하는 깊이 이미지를 전처리하여 상기 손 자세에 대한 제1 이미지와 제2 이미지를 생성하는 전처리부; 상기 제1 이미지를 입력으로 하는 뉴럴 네트워크에 기초하여 상기 제1 이미지에 대응하는 손 대표 자세를 분류하는 분류부; 및 상기 제2 이미지와 상기 분류된 손 대표 자세에 기초하여 생성된 파티클들 각각에 대한 깊이 오류와 자세 오류를 계산하고, 상기 계산된 깊이 오류와 자세 오류를 기반으로 상기 파티클들 각각의 위치를 업데이트하고 상기 파티클들 각각의 검색 공간 범위를 적응적으로 업데이트하며, 상기 업데이트된 파티클들 각각의 위치와 검색 공간 범위에 기초하여 손 자세를 추정하는 모델 기반 추적부를 포함한다.

본 발명의 실시예들에 따르면, 1개의 깊이 카메라(depth camera)를 기반으로 손의 26 차원 관절 자세를 추적할 수 있기 때문에 더욱 정교하고 다양한 상호작용을 가능하게 할 수 있다.

본 발명의 실시예들에 따르면, 빠르게 움직이는 손 동작에 대해서도 정확하고 안정적으로 손 자세를 추적할 수 있다.

이러한 본 발명은 원격의 사용자와의 AR/VR 교육, 게임, 의료, 회의 등 다양한 분야에 활용 가능하고, AR/VR 환경에서 원격의 사용자와의 상호작용을 하는 시나리오에 적용 할 수 있다.

도 1은 손 추적에 대한 일 예시도를 나타내 것이다.
도 2는 본 발명의 일 실시예에 따른 손 자세 추적 방법에 대한 동작 흐름도를 나타낸 것이다.
도 3은 본 발명의 일 실시예에 따른 손 자세 추적 방법의 파이프라인을 나타낸 것이다.
도 4는 3차원 손 모델 합성 데이터에 대한 일 예시도를 나타낸 것이다.
도 5는 본 발명에서의 손 자세 분류를 위한 CNN의 아키텍처에 대한 일 예시도를 나타낸 것이다.
도 6은 본 발명의 일 실시예에 따른 손 자세 추적 장치에 대한 구성을 나타낸 것이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

다수의 증강현실(AR) 및 가상현실(VR) 연구에서는 손 자세를 추정하고 움직임을 추적하기 위해 모델 기반 접근법을 사용하였다. 그러나 이러한 접근방식은 손이 빠르게 움직이거나 카메라의 시야로 이동하는 경우 한계를 나타낸다. 이러한 문제를 극복하기 위해 기존 기술들은 관절의 3D 추적을 위한 복수의 초기화를 이용한 하이브리드 전략을 시도하였지만 이 전략 또한 한계를 보여준다. 예를 들어, 유전적 최적화에서 이전 솔루션에서 생성된 가설은 빠르게 움직이는 손동작에서 잘못된 검색 공간에 대한 해결책을 찾을 수 있다. 또한 이 문제는 추적된 손은 느리게 이동하나, 트레이닝된 모델의 결과에서 선택된 검색 공간이 실제 솔루션을 포함하지 않는 경우에도 발생한다.

본 발명의 실시예들은, 깊이 이미지(depth image)에서 빠르게 움직이는 손 자세(pose)에도 효과적인 손 관절의 모델 기반 3D 추적에 대한 기술을 제공하는 것으로, 분류와 검색 공간 적응에 의해 가이드되는 모델 기반의 추적을 기반으로 손의 자세를 추정한다.

여기서, 본 발명은 컨볼루션 뉴럴 네트워크(CNN; convolutional neural network)(CNN)에 의한 분류로부터, 데이터 구동 프라이어(prior)는 목표 함수에 포함되며, 파티클 무리 최적화(PSO)에 추가적인 가설이 생성될 수 있다.

또한, 본 발명에서의 데이터 구동 프라이어와 이전 솔루션에 의해 생성된 두 가설 세트의 검색 공간은 각 가설 세트의 분포를 이용하여 적응적으로 업데이트될 수 있다.

본 발명은 CNN의 추정치와 이전 솔루션을 모두 활용한다. 구체적으로 본 발명은 분류된 키 자세(key pose)와 이전 프레임의 최종 솔루션으로 검색 범위를 지정할 수 있다. 따라서, 본 발명의 추적 결과는 CNN의 추정치뿐만 아니라 시간적 연속성이 이용되기 때문에 연속 프레임 간에 보다 견고할 수 있다.

본 발명의 기여는 다음과 같이 설명할 수 있다.

1) 분류에 의해 가이드되는 모델 기반 추적: 분류 결과는 추가 가설을 생성하고 비용 함수에 CNN 기반 프라이어(prior) 항목을 포함함으로써, 모델 기반 추적과 연결된다.

2) 적응적 검색 범위에 의해 가이드되는 모델 기반 추적: 두 세트의 가설들이 이전 솔루션과 CNN을 통한 추정치에 의해 생성되지만, 고정된 검색 공간 내에서 독립적으로 업데이트된다. 따라서, 본 발명은 검색 공간을 적응적으로 업데이트한다.

도 2는 본 발명의 일 실시예에 따른 손 자세 추적 방법에 대한 동작 흐름도를 나타낸 것이다.

도 2를 참조하면, 본 발명의 실시예에 따른 손 자세 추정 방법은 손 자세 예를 들어, 사용자의 손 자세를 촬영한 컬러 이미지(RGB 이미지 또는 YUV 컬러 이미지)와 깊이 이미지를 수신한다(S210).

여기서, 단계 S210은 1개의 깊이 카메라에 의해 촬영된 손 자세를 포함하는 컬러 이미지와 깊이 이미지를 수신할 수 있다.

단계 S210에 의해 수신된 컬러 이미지와 깊이 이미지에 기초하여 촬영된 손 자세에 대한 제1 이미지와 제2 이미지를 생성한다(S220).

여기서, 단계 S220은 컬러 이미지와 깊이 이미지를 이용한 전처리 과정(preprocessing)을 통해 제1 이미지와 제2 이미지를 생성할 수 있다.

단계 S220에 의해 제1 이미지와 제2 이미지가 생성되면 생성된 제1 이미지에 기초하여 제1 이미지에 대응하는 손 대표 자세를 분류한다(S230).

여기서, 단계 S230은 미리 학습된 컨볼루션 뉴럴 네트워크(CNN)을 이용하여 제1 이미지에 대응하는 손 대표 자세에 대한 클래스를 분류하고, 분류된 클래스에 대한 파라미터들 예컨대 DoF 파라미터들을 제공할 수 있다.

단계 S230에 의해 손 대표 자세가 분류되면 제2 이미지와 분류된 손 대표 자세 즉, 손 대표 자세에 대한 DoF 파라미터들에 기초하여 미리 설정된 파티클들 각각을 생성한다(S240).

여기서, 단계 S240은 이전 프레임에서 추정된 손 자세를 반영하여 파티클들 각각을 생성할 수 있다.

단계 S240에 의해 파티클들 각각이 생성되면 파티클들 각각에 대한 깊이 오류와 손 자세 오류를 계산하고, 계산된 깊이 오류와 손 자세 오류를 기반으로 파티클들 각각과 검색 공간 범위를 업데이트한다(S250, S260).

여기서, 단계 S260은 깊이 오류와 손 자세 오류를 기반으로 파티클들 각각의 검색 공간 범위를 업데이트하고 업데이트된 검색 공간 범위를 이용하여 파티클들 각각을 업데이트할 수 있다. 이 때, 검색 공간 범위는 이전 프레임에서 추정된 손 자세에 의해 생성된 검색 공간 범위와 분류된 손 대표 자세에 의해 생성된 검색 공간 범위를 포함할 수 있다.

단계 S260에 의해 파티클들 각각과 검색 공간 범위를 업데이트되면 업데이트된 파티클들 각각과 검색 공간 범위 기초하여 사용자의 손 자세를 추정한다(S270).

여기서, 단계 S250 내지 S270은 일정 횟수 동안 반복 수행될 수 있으며, 이렇게 반복 수행된 최종 솔루션 즉, 최종 손 자체를 해당 프레임에서 사용자의 손 자세로 추정할 수 있다.

이러한 일련의 과정을 통해 1개의 깊이 카메라에 의해 촬영되는 사용자의 손 자세를 추적할 수 있으며, 빠른 손 동작에 대한 손 자세 또한 정확하게 추적할 수 있다.

이러한 본 발명에 따른 방법에 대해 도 3 내지 도 5를 참조하여 상세히 설명하면 다음과 같다.

본 발명은 두 가지 주요 단계 즉, CNN과 모델 기반 추적(model-based tracking)을 포함한다. ASL(American Sign Language)에서 이산적 자세(discrete posture)는 CNN에 기반하여 분류되며, 분류된 자세는 모델 기반 추적을 위한 손 자세 파라미터로 디코딩될 수 있다. 가설 생성(또는 파티클 생성)은 이전 프레임에 대한 최종 솔루션과 분류된 자세에 기반하여 수행될 수 있다. 생성된 가설은 모델 기반 추적에 따라 솔루션을 검색하는 데 사용된다. 여기서, 솔루션은 1개의 깊이 카메라에 의해 촬영된 이미지에 포함된 손 자세의 추정 또는 추적된 손 자세일 수 있으며, 추정 또는 추적된 손 자세에 대한 DoF 파라미터들일 수 있다.

도 3은 본 발명의 일 실시예에 따른 손 자세 추적 방법의 파이프라인을 나타낸 것이다.

도 3에 도시된 바와 같이, 입력 이미지 예를 들어, 컬러 이미지(310)와 깊이 이미지(320)는 센서 예를 들어, Intel RealSense F200 센서로부터 획득될 수 있다. 본 발명은 YUV 컬러 공간에서 표현되는 컬러 및 깊이 정보에 기반하여 세그먼트된(segmented) 손 깊이 이미지를 가정하며, 구체적으로 본 발명은 손목 밴드 세그멘테이션의 경우 YUV 컬러 공간의 V 구성요소가 150-255 범위에 있고, 사용자가 손을 세그먼트하기 위하여 손목에 파란색 밴드를 착용하는 것으로 가정한다. 그러나 이 세그멘테이션 방법은 사용 가능한 고급 세그멘테이션 알고리즘의 다른 방법으로 대체될 수 있다.

두 개의 전처리된 이미지(preprocessed images) 예를 들어, 제1 이미지(330)와 제2 이미지(340)가 CNN(350)과 모델 기반 추적기(360)에 사용된다. CNN 입력의 경우, 본 발명은 미리 설정된 방법 예를 들어, 기존 기술(M. Oberweger, P. Wohlhart, and V. Lepetit, "Hands deep in deep learning for hand pose estimation," arXiv, vol. abs/1502.06807, 2015.)과 유사한 간단한 방법을 이용하여 손의 코스(coarse) 3D 바운딩 박스를 추정한다. 손의 중심-질량(COM; center-of-mass)을 중심으로 한 큐브가 추출되어 [-1,1]로 정규화된 깊이 값을 가지는 일정 크기의 이미지 예를 들어, 128×128 이미지로 크기가 조정될 수 있다. 모델 기반 추적기 입력의 경우, 본 발명은 깊이 카메라의 입력 이미지 크기를 조정하고 CPU 메모리에서 GPU 메모리로 복사되어 효율적인 계산이 이루어질 수 있다. PSO(Particle swarm optimization)는 파티클의 수에 대한 가설을 생성하기 때문에 입력 이미지도 파티클의 수와 함께 복사된다. 각 타일의 크기는 64×64이므로, 이미지는 타일 이미지의 크기와 동일한 크기로 조정될 수 있다. 비용 함수의 데이터 항목은 렌더링된 모델과 크기 조정된 깊이 이미지 사이의 픽셀 단위 거리로 정의된다. 전처리 후 전처리된 두 이미지들은 CNN 입력과 추적기 입력으로 사용될 수 있다.

모델 기반 추적기(360)는 가설 생성 즉, 파티클 생성(particle generation)을 위해 두 개의 출력들 즉, 이전 프레임의 최종 솔루션(final solution)과 CNN(350)에 의해 예측된 결과 즉, CNN에 의해 분류된 손 대표 자세에 대한 클래스를 디코딩한 손 대표 자세에 대한 DoF 파라미터들을 사용한다. 가설 즉, 파티클이 이전 프레임의 솔루션으로만 생성되면 손이 빠르게 움직일 때 손 추적 문제가 악화된다. 이 경우 대부분의 모델 기반 추적은 로컬 최소값에 해당하며 심각한 추적 오류를 발생시킨다. 이 문제를 해결하기 위해 본 발명은 단일 프레임 추정에 의한 재초기화를 채택할 수 있다. 따라서 가설 생성(particle generation)의 경우, 첫 번째 것은 이전 프레임에 대한 솔루션으로부터 획득되고, 두 번째 것은 CNN 결과로부터 획득된다. 그러나 본 발명의 CNN은 26가지 자세에 대해 이산적 라벨을 가진다. 이 이산적 정보를 모델 기반 추적기에 연결하기 위하여, 손바닥과 손가락들의 회전을 위한 23개의 파라미터들이 각 자세에 오프라인으로 할당된다. 나머지 이동 정보(translation information)는 손 깊이 이미지의 COM으로부터 획득된다. 따라서 3개의 이동, 3개의 회전, 20개의 손가락 각도를 포함한 26개의 DoF 파라미터들이 모두 사용하여 무리(swarm)에서 가설을 생성하는데 사용될 수 있다. 즉, 손 자체에 대한 이동과 회전에 대한 6개의 DoF와 각 손가락이 4개의 DoF를 가지기 때문에 전체 손가락에 대한 20개의 DoF를 포함하는 26개의 DoF를 가질 수 있다. 그리고, 본 발명에서의 파라미터는 DoF를 의미할 수 있다.

여기서, 이동 정보는 카메라를 기준으로 촬영된 손의 위치에 대한 정보를 의미할 수 있다.

PSO 알고리즘은 생성된 가설에 따라 모델 기반 추적에 사용될 수 있다. 렌더링 파이프라인에서, 타일 렌더링 기법이 사용될 수 있다. 이를 통해 픽셀 단위 거리가 깊이 카메라의 깊이 이미지와 렌더링된 손 모델의 깊이 이미지 사이에서 병렬로 계산된다. 또한, 손가락과 손바닥의 회전 정보에 대한 23개의 파라미터는 모델의 자세와 CNN에 의한 예측 간의 차이를 나타내는 데이터 구동 프라이어로 사용될 수 있다. 비록 다중 가설 생성과 CNN 기반 프라이어가 사용되지만, 이전 솔루션과 CNN 결과의 두 개의 검색 범위들은 큰 불일치(discrepancy)를 나타낼 수 있다. 이것은 손이 빠르게 움직이거나 CNN의 추정이 느린 손 움직임에도 불구하고 효과가 없을 때 발생한다. 이 경우 복수의 초기화 접근법만 사용할 경우에는 검색이 비효율적일 수 있다. 본 발명은 이런 두 가지 케이스를 모두 커버하기 위해 모델 기반 추적기에 적응형 검색 범위 방법을 적용한다. 결과적으로, 새로운 검색 범위는 각 무리의 파티클 분포로부터 계산될 수 있다.

손 모델(Hand Model)

본 발명은 파라메트릭 손 모델(parametric hand model)을 채택한다. 파라미터화(parameterization)에서 손 모델의 전체 자세(global pose)는 3D 이동(translation)과 3D 회전을 위한 6개의 DoF로 정의될 수 있다. 각 손가락은 세 개의 관절들(joints)로 표현되며, 베이스에서 하나의 안장 관절과 두 개의 힌지 관절들로 표현될 수 있다. 안장 관절은 2 개의 DoF로 파라미터화되고, 각 힌지 관절은 1개의 DoF로 파라미터화된다. 손의 외형은 관절들의 파라미터화를 기반으로 모델링된다. 본 발명은 418개의 정점들과 832개의 면들로 구성된 리프 모션(Leap Motion)의 예로부터 손 모델을 수정할 수 있다. 뼈 조작과 UV 재매핑에 대한 조정은 Autodesk MAYA 2018에서 수행되었다. 관절 길이 비율은 MAYA의 거리 측정 도구로 측정한 사용자의 실제 비율에 기반하여 배열된다.

손 모델의 깊이 맵은 카메라 교정(calibration) 정보가 포함된 26-Dof 손 자세에 기초하여 렌더링된다. 구체적으로, 본 발명은 입력으로 사용한 깊이 데이터로부터의 불일치를 계산하기 위해 깊이 맵을 렌더링할 수 있다. 유전적 최적화를 모델 기반 추적을 위한 PSO로 채택하기 때문에 가설은 각 반복에서 파티클의 수로 렌더링된다. 이를 달성하기 위해 타일 렌더링이 수행되며, 여기서 출력은 OpenGL 파이프라인에서 셰이더(shader)에 의해 처리되어 각각의 관측치와 직접 비교할 수 있도록 렌더링된다. 출력은 CUDA/OpenGL 상호운용성을 기준으로 GPU 메모리에 직접 기록되었기 때문에 계산 속도가 빨라진다. 본 발명은 손 모델을 생성하기 위해 기존 연구(A. Memo, L. Minto, and P. Zanuttigh, "Exploiting Silhouette Descriptors and Synthetic Data for Hand Gesture Recognition," in Smart Tools and Apps for Graphics - Eurographics Italian Chapter Conference, A. Giachetti, S. Biasotti, and M. Tarini, Eds. The Eurographics Association, 2015.)에서 사용한 오픈 소스 코드를 활용할 수 있다.

컨볼루션 뉴럴 네트워크

트레이닝 세트는 깊이 센서의 실제 데이터 세트와 도 4에 도시된 예와 같이, 깊이 이미지의 합성 데이터 세트로 구성된다. 합성 데이터는 실측 자료를 균일하게 얻는 장점이 있지만, 합성된 손의 모양이 실제 손과 다르다는 단점이 있다. 마찬가지로 실제 데이터의 외형은 테스팅 단계의 실제 손과 비슷하지만, 실측 자료를 균일하게 얻기는 어렵다. 합성 데이터는 깊이 센서와 동일한 교정 정보를 사용하여 가상 카메라로부터 획득할 수 있다. 깊이 이미지는 CNN의 입력에 대해서도 같은 방식으로 처리된다. 본 발명은 합성 데이터로부터 216개의 자세, ASL의 캐릭터당 실제 손으로부터 300개의 자세를 생성한다. 합성 데이터를 생성하는 동안 각 각도의 큰 변화(variance)가 손 모양을 크게 변경시킬 가능성이 있으므로 각도의 변화를 신중하게 선택해야 한다. 합성 트레이닝 데이터 세트는 도 4에 도시된 기준 자세에서 각 축(X, Y, Z)에 -20도에서 20도까지 손바닥을 회전시켜 만들 수 있다. 깊이 센서에 의한 트레이닝 데이터 세트는 보다 질적으로 획득된다. ASL에서 캐릭터를 나타내는 손 동작(movement)은 실시간으로 비디오에 기록될 수 잇다. 깊이 이미지는 해당 클래스에 따라 저장된다. 결과적으로, 13416개의 데이터가 생성될 수 있다.

도 5는 본 발명에서의 손 자세 분류를 위한 CNN의 아키텍처에 대한 일 예시도를 나타낸 것으로, 도 4와 같이 26가지 자세를 인식하기 위한 CNN 아키텍처를 나타낸 것이다.

도 5에 도시된 바와 같이, CNN은 3개의 컨볼루션 레이어들, 최대 풀링 레이어와 2 개의 완전 연결 레이어들(fully connected layer)로 구성될 수 있다. 마지막 완전 연결 레이어를 제외하고 모든 레이어는 ReLU(Rectified Linear Unit) 활성화 기능을 사용한다. 마지막으로 완전 연결 레이어는 소프트맥스 활성화 기능을 사용한다. 게다가, 본 발명은 모든 컨볼루션 레이어 앞에 2크기의 제로 패딩을 적용한다. 이 때, 본 발명은 모든 컨볼루션 레이어에 대해 5×5 필터를 사용하고, 모든 풀링에 대해 2×2 필터를 사용할 수 있다. 네트워크의 최종 출력은 자세들의 수와 같은 차원의 확률 벡터일 수 있다.

본 발명은 네트워크 출력 p와 예상 출력 y 사이의 오차 및 오버피팅(overfitting) 방지를 위해 가중치 감소(weight decay)에 대한 정규화 항목을 최소화함으로써, 아키텍처를 트레이닝시킨다. 본 발명은 예비 실험에서 깊이 이미지와 26개의 손 자세 파라미터 사이의 매핑을 직접 추론하면 문제에서 분리된 클래스를 인식하는 것보다 못한 결과가 나온다는 것을 알 수 있었다. 따라서 본 발명은 자세를 이산적 인식 문제로서 트레이닝시키고, 손실 함수를 정규화 항목을 가진 범주형 교차 엔트로피라고 정의한다. 손실 함수는 아래 <수학식 1>을 기반으로 설계될 수 있다.

[수학식 1]

여기서, λ는 정규화 계수 예를 들어, 0.0005를 의미하고, w는 가중치 파라미터를 의미할 수 있다.

테스트 단계에서, 최대 값 p를 갖는 클래스가 예측된 자세로 획득될 수 있다. 네트워크는 100 에포크(epoch)에 대해 128의 배치 크기를 사용하여 역전파(backpropagation)로 트레이닝될 수 있고, 학습 레이트는 0.054로 설정될 수 있으며, 0.9의 모멘텀을 사용할 수 있다. 본 발명은 기울기 하강(gradient descent) 알고리즘 ADAM을 사용하여 네트워크 파라미터를 최적화할 수 있고, 이는 케라스 라이브러리(Keras library)를 사용하여 파이톤(Python)에서 구현될 수 잇다.

예측된 클래스는 모델 기반 추적을 위한 손 자세 파라미터로 디코딩된다. 디코딩된 파라미터는 모델 기반 추적기에서 목적 함수(objective function) 및 가설 생성을 위해 사용된다. 구체적으로, 클래스는 도 4에서 정의한 키 자세들(key poses)로부터 얻은 손 모델의 회전 정보에 대한 23개의 파라미터를 얻기 위해 디코딩될 수 있다. 디코딩된 23개의 파라미터는 최적화 중에 분류된 손 자세와 모델 자세 사이의 자세 차이를 계산하는 비용에 사용된다. 그러나 모델 기반 추적에서 가설 생성을 위해서는, 손 모델의 나머지 3D 이동 정보가 추가로 필요하다. 따라서, 본 발명은 손 깊이 이미지의 중심으로부터 이동 정보를 증강시킨다. 결과적으로, 가설 생성은 분류 클래스의 26개 손 자세 파라미터에 근거하여 수행될 수 있다. 분류 클래스에 의한 디코딩된 세트는 모델 기반 추적 검색 공간에서 희박(sparse)하나 파라미터는 적절한 초기 솔루션일 수 있다.

모델 기반 추적

목적 함수는 모델 기반 추적을 위해 정의된다. 이 공식에서, 센서 입력의 깊이 이미지는 미리 처리하여 손 이미지가 세그먼트된다. 3D 손 모델이 주어지면, 본 발명은 목적 함수를 최소화함으로써 손의 자세 파라미터

를 추정하는 것을 목표로 한다. 이를 위해 본 발명은 아래 <수학식 2>와 같은 최적화 문제를 해결한다.

[수학식 2]

최적화 문제는 센서 입력의 손 깊이 이미지와 렌더링된 깊이 이미지 사이의 피팅 오류 E_d를 나타내는 데이터 항목을 손 모델의 자세와 CNN에 의해 추정된 자세 사이의 오류를 나타내는 프라이어 E_c와 결합할 수 있다. 피팅 오류에 대한 데이터 항목은 기존 연구(I. Oikonomidis, N. Kyriazis, and A. Argyros, "Efficient model-based 3D tracking of hand articulations using Kinect," Procedings of the British Machine Vision Conference, pp.101.1-101.11, 2011.)에서와 같이 정의될 수 있다. 관측치는 2D 깊이 이미지와 2진수 맵 {d_o, b_o}로 구성된다. 깊이 값이 존재하는 경우 픽셀 b_o은 1로 설정된다. 렌더링된 모델의 오류를 계산하기 위하여, 본 발명은 카메라 교정이 주어진 렌더링을 수행한다. 렌더링 출력은 2D 깊이 이미지와 그에 상응하는 2진수 맵 {d_r, b_r}이다. B_i를 관측 모델과 손 모델 모두를 포함하는 픽셀 세트 즉,

이고, B_u를 관측 모델 또는 손 모델 중 어느 하나를 포함하는 픽셀 세트 즉,

으로 가정하면, 본 발명은 R_i/u를 두 세트의 픽셀 수 비율

로 표기할 수 있으며, 목적 함수 E_d는 아래 <수학식 3>과 같이 정의될 수 있다.

[수학식 3]

여기서, d_M은 관측 모델과 렌더링된 모델 사이의 클램프된 깊이 차이 값을 의미하고, W와 H는 각각 타일된 이미지의 폭과 높이를 의미하며, ε은 아주 작은 값으로, 0에 의해 나누어지는 것을 방지하기 위하여 분모에 포함되는 미리 설정된 값일 수 있다.

데이터 구동 프라이어 E_c는 CNN에 의해 예측된 자세로부터 정의된다. 프라이어 항목에 대한 몇몇의 후보들 예를 들어, 충돌 자세, 시간적 자세 및 그럴듯한 자세(plausible pose) 등과 같은 후보들이 있다. 그러나, 이러한 프라이어들은 실제 솔루션과 이전 솔루션 간의 불일치가 커서 제약 조건들이 모델링에 적합하기 않기 때문에 특히 빠른 동작(rapid motion)에 큰 영향을 미치지 않는다. 따라서, 본 발명은 빠른 손 동작을 다루기 위해 CNN 기반 프라이어 항목을 이용할 수 있다. p_i를 23개의 자세 차원에서 인식 결과로 디코딩된 각도라 가정하면, 자세 오류 E_c는 아래 <수학식 4>와 같이 나타낼 수 있다.

[수학식 4]

여기서, N은 CNN 출력의 차원과 동일한 크기의 정규화 항목을 의미할 수 있다.

목적 함수는 PSO를 기반으로 최적화된다. PSO는 사회적 상호작용을 모방하는 단순한 규칙을 기반으로 솔루션 공간의 파티클을 업데이트함으로써, 동작하는 확률적 유전적 최적화 방법이다. 파티클은 여러 생성들에 대해 움직인다. 파티클과 생성의 곱(product)은 객관적 가치 평가의 수를 정의하며, 따라서 방법의 계산 요건을 정의한다. 본 발명에서는 모델 기반 추적기를 위해 파티클 수를 64개로, 생성 수를 30개로 설정할 수 있다. 각 생성 업데이트에 대한 파티클의 속도 v는 아래 <수학식 5>를 기반으로 수행될 수 있다.

[수학식 5]

여기서, x(k)는 파티클의 위치를 의미하고, p(k)는 파티클의 로컬 최적 위치를 의미하며, g(k)는 무리(swarm)의 모든 파티클의 글로벌 최적 위치를 의미하고, c₁은 인지적 구성요소를 의미하며, c₂는 사회적 구성요소를 의미하고, r₁과 r₂는 0에서 1로 균일하게 분포하는 랜덤 변수를 의미할 수 있다.

본 발명은 c₁=2.8, c₂=1.3, Ψ=c₁+c₂일 때

라 정의한다.

상기 내용이 주어지면, 각 생성에서 파티클 위치 x는 아래 <수학식 6>과 <수학식 7>에 기반하여 업데이트될 수 있다.

[수학식 6]

[수학식 7]

여기서, N은 생성 수를 의미할 수 있다.

즉, 본 발명은 파티클의 위치, 파티클의 로컬 최적 위치 및 모든 파티클의 글로벌 최적 위치에 기초하여 생성된 파티클들 각각의 파티클 위치를 업데이트할 수 있다.

경계 조건을 다루기 위하여, 본 발명은 댐핑(damping) 방법을 사용할 수 있다. 기존 연구(T. Huang and A. S. Mohan, "A hybrid boundary condition for robust particle swarm optimization," IEEE Antennas and Wireless Propagation Letters, vol. 4, no. 1, pp. 112-117, 2005.)에 따르면 채택된 "댐핑" 경계 조건은 기존의 "흡수"와 "반사" 경계의 특성을 결합한 것이다. 본 발명은 "흡수" 또는 "반사" 방법을 채택하면 "댐핑" 경계 조건을 채택하여 얻은 방법보다 못한 결과가 나올 수 있다. 특히 "흡수"법을 사용하는 경우 수많은 파티클들이 경계선에 머무르는 경우가 많다. 따라서 경계면에 파티클이 있을 경우 위치 x는 댐핑 방법으로 업데이트될 수 있다.

상술한 바와 같이, 본 발명에서는 생성된 파티클들 각각에 대하여 깊이 오류와 자세 오류를 최소화하는 방향으로 파티클들 각각의 파티클 위치를 업데이트할 수 있다.

적응적 검색 범위

원래의 PSO에서 파티클들은 고정된 검색 범위에서 해결책을 찾는다. 고정된 검색 범위는 일반적으로 이전 프레임의 솔루션을 중심으로 결정되며 최적화 중에는 업데이트되지 않는다. 손이 천천히 움직이면, 고정 검색 범위가 이전 프레임의 솔루션 근처에 있기 때문에 실제 솔루션을 덮을 가능성이 높다. 그러나 빠른 손 동작의 경우, 검색 범위는 실제 솔루션을 포함하지 않는다. 이로 인해 추적 오류가 누적되고, 로컬 최소 값에서 벗어나는 것이 어려워진다. CNN 추정치부터 검색 범위가 실제 솔루션에 해당할 가능성이 높지만, CNN의 추정치가 조밀하지 않아 적절한 검색 범위를 선택하는 것은 편리하지 않다. 본 발명의 CNN의 출력은 ASL 자세를 나타내기 위한 이산적 키 자세라는 것이다. 따라서, 검색 범위를 적응적으로 변경할 필요가 있다

각 검색 범위 내에서 두 개의 무리가 업데이트된다. 다차원 파라미터 공간 즉, 손 자세 공간의 각 차원은 일정한 범위로 경계를 정한다. 처음에는 이전 프레임의 최종 솔루션에서 1차 무리(32파티클)가 생성되고, CNN의 추정에 의해 2차 무리(32파티클)가 생성된다. 두 무리는 5회 반복하는 동안 고정 검색 범위 내에서 업데이트된다. 이후 새로운 검색 범위는 정규 분포에서 도출된다. 구체적으로, 아래 <수학식 9>에 나타낸 검색 범위를 계산하기 위해 아래<수학식 8>에 의한 정규 분포 함수를 정의한다. 다음에서, 명확하게 하기 위해 각 무리를 정의하는 아래첨자를 제거한다. i번째 차원의 새로운 검색 범위는 (1) 정규 분포의 평균값 μ_i, (2) 정규 분포의 표준 편차 σ_i, (3) 시스템 파라미터 a에 기반하여 정의될 수 있다.

[수학식 8]

[수학식 9]

여기서, σ_i ^L과 σ_i ^U는 각각 i 차원의 상부와 하부 경계의 표준편차를 의미할 수 있다.

기존 연구(S. Kitayama, K. Yamazaki, and M. Arakawa, "Adaptive range particle swarm optimization," Optimization and Engineering, vol. 10, no. 4, pp. 575-597, 2009.)와 유사하게, 새로운 시그마 σ^L _i,new, σ^U _i,new가 계산된다. 모든 파티클의 글로벌 최적 위치 g는 새로운 표준 편차에 사용된다. 새로운 표준 편차의 각 차원는 아래 <수학식 10>을 기반으로 업데이트될 수 있다.

[수학식 10]

여기서, a는 기존 연구(S. Kitayama, K. Yamazaki, and M. Arakawa, "Adaptive range particle swarm optimization," Optimization and Engineering, vol. 10, no. 4, pp. 575-597, 2009.)에서 자세히 설명한 시스템 파라미터를 의미하며, 시스템 파라미터 a는 아래 <수학식 11>에 기반하여 생성 동안 업데이트될 수 있다.

[수학식 11]

여기서, a_min=1.0×10⁵일 수 있으며, a_max의 범위는 0.883

a_max

0.969일 수 있다. 따라서, 시스템 파라미터 a는 생성 중에 증가하여 검색 범위가 작아진다.

즉, 본 발명에 따른 방법은 생성된 각각의 파티클에 대한 파티클의 위치를 업데이트하는 과정과 각각의 파티클에 대한 검색 공간 범위를 업데이트 과정을 미리 설정된 일정 횟수 반복 수행함으로써, 최종 업데이트된 검색 공간 범위를 이용하여 파티클의 위치를 업데이트하고, 이렇게 업데이트된 파티클의 위치에 기초하여 손 자세를 추정할 수 있다. 물론, 본 발명에 따른 방법은 이전 프레임에서 추정된 손 자세를 반영하여 해당 프레임의 손 자세를 추정할 수 있다.

이와 같이, 본 발명의 실시예에 따른 방법은 1개의 깊이 카메라를 기반으로 손의 26 차원 관절 자세를 추적할 수 있기 때문에 더욱 정교하고 다양한 상호작용을 가능하게 할 수 있다.

또한, 본 발명의 실시예에 따른 방법은 CNN을 이용하여 손 자세를 분류하고, 분류된 손 자세와 파티클 각각의 위치에 대한 업데이트 및 적응적 검색 공간 범위에 기초하여 손 자세를 추적함으로써, 빠르게 움직이는 손 동작에 대해서도 정확하고 안정적으로 손 자세를 추적할 수 있다.

도 6은 본 발명의 일 실시예에 따른 손 자세 추적 장치에 대한 구성을 나타낸 것으로, 도 2 내지 도 5의 방법을 수행하는 장치에 대한 개념적인 구성을 나타낸 것이다.

도 6을 참조하면, 본 발명의 실시예에 따른 장치(600)는 수신부(610), 이미지 생성부(620), 분류부(630), 파티클 생성부(640), 계산부(650), 업데이트부(660) 및 추정부(670)를 포함한다.

수신부(610)는 1개의 깊이 카메라에 의해 촬영된 손 자세를 포함하는 컬러 이미지와 깊이 이미지를 수신한다.

이미지 생성부(620)는 수신된 컬러 이미지와 깊이 이미지에 기초하여 손 자세에 대한 제1 이미지와 제2 이미지를 생성한다.

여기서, 이미지 생성부(620)는 수신된 컬러 이미지와 깊이 이미지를 전처리함으로써, 분류부(630)로 입력되는 제1 이미지와 파티클 생성부(640)로 입력되는 제2 이미지를 생성할 수 있다.

분류부(630)는 제1 이미지에 기초하여 제1 이미지에 대응하는 손 대표 자세를 분류한다.

여기서, 분류부(630)는 제1 이미지를 입력으로 하는 뉴럴 네트워크 예를 들어, CNN을 이용하여 제1 이미지에 대응하는 손 대표 자세를 분류할 수 있으며, 분류된 손 대표 자세에 대한 23개의 DoF 파라미터들을 제공할 수 있다.

파티클 생성부(640)는 제2 이미지와 분류된 손 대표 자세에 기초하여 미리 설정된 파티클들 각각을 생성한다.

여기서, 파티클 생성부(640)는 이전 프레임에서 추정된 손 자세를 추가적으로 반영하여 파티클들 각각을 생성할 수 있다.

계산부(650)는 생성된 파티클들 각각에 대한 깊이 오류와 자세 오류를 계산한다.

여기서, 계산부(650)는 수신된 깊이 이미지와 파티클들 각각의 렌더링된 깊이 이미지 간의 깊이 오류를 계산하고, 분류된 손 대표 자세와 파티클들 각각의 손 모델의 자세 간의 자세 오류를 계산할 수 있다.

이 때, 계산부(650)는 데이터 피팅을 이용하여 깊이 오류를 계산하고, CNN 기반 프라이어를 이용하여 자세 오류를 계산할 수 있다.

업데이트부(660)는 계산된 깊이 오류와 자세 오류를 기반으로 파티클들 각각의 위치와 검색 공간 범위를 업데이트한다.

이 때, 업데이트부(660)는 계산된 깊이 오류와 자세 오류를 최소화함으로써, 파티클들 각각의 위치와 검색 공간 범위를 업데이트할 수 있다.

나아가, 업데이트부(660)는 이전 프레임에서 추정된 손 자세에 의해 생성된 제1 검색 공간 범위와 분류된 손 대표 자세에 의해 생성된 제2 검색 공간 범위를 적응적으로 업데이트할 수 있다.

추정부(670)는 업데이트된 파티클들 각각의 위치와 검색 공간 범위에 기초하여 해당 프레임의 손 자세를 추정한다.

여기서, 추정부(670)는 일정 횟수 반복 수행에 의해 업데이트된 파티클들 각각의 위치와 검색 공간 범위에 기초하여 해당 프레임에서의 손 자세를 추정할 수 있다.

또한, 본 발명의 다른 일 실시예에 따른 장치는 도 3에 도시된 바와 같이, 전처리부, CNN 분류부 및 모델 기반 추적부를 포함할 수 있다.

즉, 전처리부는 손 자세를 포함하는 깊이 이미지와 컬러 이미지를 전처리하여 손 자세에 대한 제1 이미지와 제2 이미지를 생성한다.

CNN 분류부는 제1 이미지를 입력으로 하는 뉴럴 네트워크에 기초하여 제1 이미지에 대응하는 손 대표 자세를 분류한다.

모델 기반 추적부는 제2 이미지와 분류된 손 대표 자세에 기초하여 생성된 파티클들 각각에 대한 깊이 오류와 자세 오류를 계산하고, 계산된 깊이 오류와 자세 오류를 기반으로 파티클들 각각의 위치를 업데이트하고 파티클들 각각의 검색 공간 범위를 적응적으로 업데이트하며, 업데이트된 파티클들 각각의 위치와 검색 공간 범위에 기초하여 손 자세를 추정한다.

비록, 도 6과 도 7의 장치에서 그 설명이 생략되었더라도, 도 6과 도 7의 장치는 상기 도 2 내지 도 5에서 설명한 내용을 모두 포함할 수 있으며, 이러한 사항은 본 발명의 기술 분야에 종사하는 당업자에게 있어서 자명하다.

이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 시스템, 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

손 자세를 포함하는 깊이 이미지를 수신하는 단계;
상기 깊이 이미지에 기초하여 상기 손 자세에 대한 제1 이미지와 제2 이미지를 생성하는 단계;
상기 제1 이미지에 기초하여 상기 제1 이미지에 대응하는 손 대표 자세를 분류하는 단계;
상기 제2 이미지와 상기 분류된 손 대표 자세에 기초하여 미리 설정된 파티클들 각각을 생성하는 단계;
상기 생성된 파티클들 각각에 대한 깊이 오류와 자세 오류를 계산하는 단계;
상기 계산된 깊이 오류와 자세 오류를 기반으로 상기 파티클들 각각과 검색 공간 범위를 업데이트하는 단계; 및
상기 업데이트된 파티클들 각각과 검색 공간 범위에 기초하여 손 자세를 추정하는 단계
를 포함하는 손 자세 추적 방법.
제1항에 있어서,
상기 손 대표 자세를 분류하는 단계는
미리 학습된 학습 모델의 뉴럴 네트워크를 이용하여 상기 제1 이미지에 대응하는 상기 손 대표 자세를 분류하는 것을 특징으로 하는 손 자세 추적 방법.
제1항에 있어서,
상기 계산하는 단계는
상기 수신된 깊이 이미지와 상기 파티클들 각각의 렌더링된 깊이 이미지 간의 깊이 오류를 계산하고, 상기 분류된 손 대표 자세와 상기 파티클들 각각의 손 모델의 자세 간의 자세 오류를 계산하는 것을 특징으로 하는 손 자세 추적 방법.
제3항에 있어서,
상기 계산하는 단계는
데이터 피팅을 이용하여 상기 깊이 오류를 계산하고, 컨볼루션 뉴럴 네트워크(CNN) 기반 프라이어를 이용하여 상기 자세 오류를 계산하는 것을 특징으로 하는 손 자세 추적 방법.
제1항에 있어서,
상기 업데이트하는 단계는
상기 계산된 깊이 오류와 자세 오류를 최소화함으로써, 상기 파티클들 각각과 검색 공간 범위를 업데이트하는 것을 특징으로 하는 손 자세 추적 방법.
제1항에 있어서,
상기 업데이트하는 단계는
이전 프레임에서 추정된 손 자세에 의해 생성된 제1 검색 공간 범위와 상기 분류된 손 대표 자세에 의해 생성된 제2 검색 공간 범위를 업데이트하는 것을 특징으로 하는 손 자세 추적 방법.
제1항에 있어서,
상기 파티클들 각각을 생성하는 단계는
이전 프레임에서 추정된 손 자세를 추가적으로 반영하여 상기 파티클들 각각을 생성하는 것을 특징으로 하는 손 자세 추적 방법.
제1항에 있어서,
상기 손 자세를 추정하는 단계는
일정 횟수 반복 수행에 의해 업데이트된 파티클들 각각의 위치와 검색 공간 범위에 기초하여 해당 프레임에서의 손 자세를 추정하는 것을 특징으로 하는 손 자세 추적 방법.
손 자세를 포함하는 깊이 이미지에 기초하여 상기 손 자세에 대한 제1 이미지와 제2 이미지를 생성하는 단계;
상기 제1 이미지를 입력으로 하는 뉴럴 네트워크에 기초하여 상기 제1 이미지에 대응하는 손 대표 자세를 분류하는 단계;
상기 제2 이미지와 상기 분류된 손 대표 자세에 기초하여 생성된 파티클들 각각에 대한 깊이 오류와 자세 오류를 계산하는 단계;
상기 계산된 깊이 오류와 자세 오류를 기반으로 상기 파티클들 각각의 위치를 업데이트하고 상기 파티클들 각각의 검색 공간 범위를 적응적으로 업데이트하는 단계; 및
상기 업데이트된 파티클들 각각의 위치와 검색 공간 범위에 기초하여 손 자세를 추정하는 단계
를 포함하는 손 자세 추적 방법.
손 자세를 포함하는 깊이 이미지를 수신하는 수신부;
상기 깊이 이미지에 기초하여 상기 손 자세에 대한 제1 이미지와 제2 이미지를 생성하는 이미지 생성부;
상기 제1 이미지에 기초하여 상기 제1 이미지에 대응하는 손 대표 자세를 분류하는 분류부;
상기 제2 이미지와 상기 분류된 손 대표 자세에 기초하여 미리 설정된 파티클들 각각을 생성하는 파티클 생성부;
상기 생성된 파티클들 각각에 대한 깊이 오류와 자세 오류를 계산하는 계산부;
상기 계산된 깊이 오류와 자세 오류를 기반으로 상기 파티클들 각각과 검색 공간 범위를 업데이트하는 업데이트부; 및
상기 업데이트된 파티클들 각각과 검색 공간 범위에 기초하여 손 자세를 추정하는 추정부
를 포함하는 손 자세 추적 장치.
제10항에 있어서,
상기 분류부는
미리 학습된 학습 모델의 뉴럴 네트워크를 이용하여 상기 제1 이미지에 대응하는 상기 손 대표 자세를 분류하는 것을 특징으로 하는 손 자세 추적 장치.
제10항에 있어서,
상기 계산부는
상기 수신된 깊이 이미지와 상기 파티클들 각각의 렌더링된 깊이 이미지 간의 깊이 오류를 계산하고, 상기 분류된 손 대표 자세와 상기 파티클들 각각의 손 모델의 자세 간의 자세 오류를 계산하는 것을 특징으로 하는 손 자세 추적 장치.
제12항에 있어서,
상기 계산부는
데이터 피팅을 이용하여 상기 깊이 오류를 계산하고, 컨볼루션 뉴럴 네트워크(CNN) 기반 프라이어를 이용하여 상기 자세 오류를 계산하는 것을 특징으로 하는 손 자세 추적 장치.
제10항에 있어서,
상기 업데이트부는
상기 계산된 깊이 오류와 자세 오류를 최소화함으로써, 상기 파티클들 각각과 검색 공간 범위를 업데이트하는 것을 특징으로 하는 손 자세 추적 장치.
제10항에 있어서,
상기 업데이트부는
이전 프레임에서 추정된 손 자세에 의해 생성된 제1 검색 공간 범위와 상기 분류된 손 대표 자세에 의해 생성된 제2 검색 공간 범위를 업데이트하는 것을 특징으로 하는 손 자세 추적 장치.
제10항에 있어서,
상기 파티클 생성부는
이전 프레임에서 추정된 손 자세를 추가적으로 반영하여 상기 파티클들 각각을 생성하는 것을 특징으로 하는 손 자세 추적 장치.
제10항에 있어서,
상기 추정부는
일정 횟수 반복 수행에 의해 업데이트된 파티클들 각각의 위치와 검색 공간 범위에 기초하여 해당 프레임에서의 손 자세를 추정하는 것을 특징으로 하는 손 자세 추적 장치.
손 자세를 포함하는 깊이 이미지를 전처리하여 상기 손 자세에 대한 제1 이미지와 제2 이미지를 생성하는 전처리부;
상기 제1 이미지를 입력으로 하는 뉴럴 네트워크에 기초하여 상기 제1 이미지에 대응하는 손 대표 자세를 분류하는 분류부; 및
상기 제2 이미지와 상기 분류된 손 대표 자세에 기초하여 생성된 파티클들 각각에 대한 깊이 오류와 자세 오류를 계산하고, 상기 계산된 깊이 오류와 자세 오류를 기반으로 상기 파티클들 각각의 위치를 업데이트하고 상기 파티클들 각각의 검색 공간 범위를 적응적으로 업데이트하며, 상기 업데이트된 파티클들 각각의 위치와 검색 공간 범위에 기초하여 손 자세를 추정하는 모델 기반 추적부
를 포함하는 손 자세 추적 장치.
제18항에 있어서,
상기 모델 기반 추적부는
상기 깊이 이미지와 상기 파티클들 각각의 렌더링된 깊이 이미지 간의 깊이 오류를 계산하고, 상기 분류된 손 대표 자세와 상기 파티클들 각각의 손 모델의 자세 간의 자세 오류를 계산하는 것을 특징으로 하는 손 자세 추적 장치.
제18항에 있어서,
상기 모델 기반 추적부는
상기 계산된 깊이 오류와 자세 오류를 최소화함으로써, 상기 파티클들 각각의 위치와 검색 공간 범위를 업데이트하는 것을 특징으로 하는 손 자세 추적 장치.
제18항에 있어서,
상기 모델 기반 추적부는
이전 프레임에서 추정된 손 자세에 의해 생성된 제1 검색 공간 범위와 상기 분류된 손 대표 자세에 의해 생성된 제2 검색 공간 범위를 업데이트하는 것을 특징으로 하는 손 자세 추적 장치.
제18항에 있어서,
상기 모델 기반 추적부는
이전 프레임에서 추정된 손 자세를 추가적으로 반영하여 상기 파티클들 각각을 생성하는 것을 특징으로 하는 손 자세 추적 장치.