KR20220093871A

KR20220093871A - 도메인 전이학습을 통한 적외선 카메라 기반의 손 자세 추정 방법 및 시스템

Info

Publication number: KR20220093871A
Application number: KR1020200184994A
Authority: KR
Inventors: 우운택; 박갑용; 김태균
Original assignee: 한국과학기술원
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2022-07-05
Also published as: KR102660740B1; US20240153133A1; WO2022146109A1

Abstract

본 발명은 깊이 이미지에서 적외선 이미지로의 도메인 전이학습을 기반으로 빠른 손 동작에 대한 3차원 손 자세를 추정하는 손 자세 추정 방법 및 시스템에 관한 것으로서, 손 움직임에 대한 깊이 이미지 및 적외선 이미지를 처리하는 단계, 손 이미지 생성기(HIG)를 이용하여 상기 적외선 이미지에서 깊이 맵을 합성하며, 상기 깊이 맵 및 적외선 맵 각각에서 손 관절의 골격 위치를 추정하는 단계 및 상기 골격 위치와 손 깊이 이미지의 중심을 이용하여 3차원 손 자세를 산출하는 단계를 포함한다.

Description

도메인 전이학습을 통한 적외선 카메라 기반의 손 자세 추정 방법 및 시스템{HAND POSE ESTIMATION METHOD WITH A SINGLE INFRARED CAMERA VIA DOMAIN TRANSFER LEARNING AND THE SYSTEM THEREOF}

본 발명은 도메인 전이학습을 통한 적외선 카메라 기반의 손 자세 추정 방법 및 시스템에 관한 것으로서, 보다 상세하게는 깊이 이미지에서 적외선 이미지로의 도메인 전이학습을 기반으로 빠른 손 동작에 대한 3차원 손 자세를 추정하는 기술에 관한 것이다.

관절형 손 자세 추정은 컴퓨터 비전(CV), 증강 현실(AR), 가상 현실(VR) 분야에서 활발히 연구되고 있는 문제이다. 이 기술은 수화, 원격 협업, 시스템 제어, 가상 객체 조작 등과 같은 수작업 기반의 상호작용을 사용하는 다양한 애플리케이션에 필수적이다. 이러한 애플리케이션에서 빠른 손동작은 사용자가 작업을 신속하게 실행하려고 할 때 자주 발생한다. 그러나, 빠른 움직임에서, 비전 기반 솔루션의 일반적인 입력인 RGB와 깊이 이미지는 이미지 왜곡, 즉 모션 블러에 의해 심각하게 오염된다. 모션 블러에서 RGB 또는 깊이 입력을 사용하는 최첨단 방법의 상태는 부정확한 손 자세 추정을 산출한다. 따라서 빠른 손 동작에서 3D 손 자세 추정은 매우 중요하다.

기존의 3D 손 자세를 추정하는 방법에는 크게 두 가지 범주가 있다: 생성적과 판별적 접근법이다. 생성적 접근 방식은 가상 3D 손 모델을 깊이 이미지에 맞추기 위한 최적화 문제로 3D 손 관절을 추적한다. 이는 손 동작이 시간적 연속성으로 부드럽고 느리다고 가정하기 때문에, 보통 빠른 손 동작을 추적하지 못한다. 빠른 손 동작으로 오염된 깊이 이미지 입력은 큰 장애물이 되며, 가상 손 모델에 모션 블러를 적용하는 것은 매우 어려운 일이다.

판별적 접근 방식은 손 이미지와 골격 라벨 쌍에 대해 훈련된 분류기/리그레서(regressor)를 사용하여 단일 프레임에서 3D 손 자세를 추정할 수 있다. 이는 시간적 연속성에 의존하지 않지만 훈련 데이터셋에 흐릿한 이미지가 포함되지 않을 경우 여전히 모션 블러에 영향을 받는다. 기존의 손 자세 데이터셋에는 흐릿한 사례가 없다. 흐릿한 이미지가 훈련 데이터셋에 포함되지만, 모션 블러(blur)로 인해 일부 접합부가 깊이 영상 이미지에서 사라지기 때문에 자세의 모호성이 크다.

반면에, 하이브리드 접근법은 생성적 방법과 판별적 방법의 장점을 모두 결합한다. 이는 시간적 연속성을 가정하지 않고 손 관절의 추적을 할 수 있지만, 기존의 생성적 및 판별적 접근법이 모션 블러 되기 쉽기 때문에 모션 블러의 경우에는 솔루션이 아닐 수 있다.

전술한 방법의 문제를 해결하기 위해, 모션 블러 발생 시 3D 손 자세 추정을 위한 디블러링 또는 센서 퓨전 방법과 같은 가능한 대안이 있다. RGB 기반 디블러링 관련 방법이 실시간으로 오염된 RGB 장면에서 실제 물체를 디블러링하지만 애플리케이션 도메인은 빠른 관절 손동작이 아니다. 더욱이, RGB 프레임의 모션 블러 메커니즘은 깊이 프레임의 메커니즘과 상당히 다르기 때문에 깊이 이미지에 동일한 방법을 적용할 수 없다. 또한 기존의 깊이 기반 디블러링 방법도 각 탭으로부터의 내부 신호에 접근할 수 있어야 하는 특정 멀티탭 비행 시간(Time of Flight; ToF) 카메라로 제한된다.

최근에는 모션 블러 발생 시 3D 손 자세 추적을 제안하는 기술이 제안되었으며, 손에 부착된 자이로스코프와 깊이 카메라를 결합한다. 자이로스코프는 모션 블러를 겪지 않기 때문에 센서 융합 접근 방식은 모션 블러 현상을 처리한다. 그러나, 이는 제한된 모션 블러 사례를 일반적인 움직임보다는 빠른 손 회전에 의해서만 해결했다. 게다가, 자이로 센서를 착용하는 것은 사용자들에게 불편을 초래한다.

3D 손 자세 추정을 위한 모션 블러 문제를 피하기 위해, 본 발명은 다음과 같은 관찰을 활용한다. 코드화된 조명 기술을 사용하는 적외선 카메라의 적외선 이미지는 모션 블러로 덜 어려움을 겪지만, 해당 깊이 이미지는 빠른 모션으로 인해 심하게 왜곡된다. 기존 연구에 따르면, 적외선 이미지는 단일 방출 패턴에서 얻어진 반면 깊이 정보는 다중 방출 패턴에서 얻어진 것이기 때문에 이러한 관찰은 유효할 가능성이 있다. 따라서 적외선 이미지는 빠른 손 동작으로 인해 약하게 블러(blur)된다. 그러나 적외선 이미지에서 3D 손 골격에 주석을 다는 것은 비용이 많이 든다. 또한, 손 관절 라벨이 있는 기존의 적외선(IR) 이미지 데이터셋은 존재하지 않으며, 손 모양 변화로 인해 주석에 외부 센서를 사용할 수 없다. 또한 합성 깊이 이미지를 렌더링하는 것과 달리 3D 손 골격이 주어지는 곳에서 합성 적외선 손 이미지를 생성하는 것은 현실적인 적외선 손 이미지에 재료 특성, 텍스처 및 광원이 요구되지만 실제 합성 도메인 간격이 있기 때문에 중요하지 않다. 마찬가지로, 차별화 가능한 렌더링을 사용한 자체 지도 학습은 렌더링 모델이 흐릿하게 고려되지 않기 때문에 목표에 적합하지 않다.

A. Makris, N. Kyriazis, and A. A. Argyros. Hierarchical particle filtering for 3d hand tracking. 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), pp. 8-17, 2015.

본 발명의 목적은 도메인 전이학습을 기반으로 적외선 카메라로 획득되어 짝으로 이루어진 적외선 이미지 및 깊이 이미지를 이용함으로써, 빠른 손 움직임에 대해서도 성공적인 3차원 손 자세 추정이 가능하고자 한다.

본 발명의 실시예에 따른 도메인 전이학습을 통한 적외선 카메라 기반의 손 자세 추정 방법에 있어서, 손 움직임에 대한 깊이 이미지 및 적외선 이미지를 처리하는 단계, 손 이미지 생성기(HIG)를 이용하여 상기 적외선 이미지에서 깊이 맵을 합성하며, 상기 깊이 맵 및 적외선 맵 각각에서 손 관절의 골격 위치를 추정하는 단계 및 상기 골격 위치와 손 깊이 이미지의 중심을 이용하여 3차원 손 자세를 산출하는 단계를 포함한다.

본 발명의 실시예에 따른 도메인 전이학습을 통한 적외선 카메라 기반의 손 자세 추정 시스템에 있어서, 손 움직임에 대한 깊이 이미지 및 적외선 이미지를 처리하는 이미지 처리부, 손 이미지 생성기(HIG)를 이용하여 상기 적외선 이미지에서 깊이 맵을 합성하며, 상기 깊이 맵 및 적외선 맵 각각에서 손 관절의 골격 위치를 추정하는 골격 추정부 및 상기 골격 위치와 손 깊이 이미지의 중심을 이용하여 3차원 손 자세를 산출하는 자세 산출부를 포함한다.

본 발명의 실시예에 따르면, 도메인 전이학습을 기반으로 적외선 카메라로 획득되어 짝으로 이루어진 적외선 이미지 및 깊이 이미지를 이용함으로써, 빠른 손 움직임에 대해서도 성공적인 3차원 손 자세 추정이 가능할 수 있다.

또한, 본 발명의 실시예에 따르면, 단일 적외선 이미지에서 3차원 손 골격을 추정하는 새로운 판별적 방법을 제시하며, 손 관절의 골격 위치를 추정하는 손 포즈 추정기(Hand Pose Estimator; HPE)를 훈련시킴으로써, 빠른 손 동작에 의한 모션 블러로 인해 부정확한 추정을 최소화할 수 있다.

도 1은 본 발명의 실시예에 따른 손 자세 추정 방법의 동작 흐름도를 도시한 것이다.
도 2는 본 발명의 실시예에 따른 단일 적외선 카메라로 3차원 손 자세를 추정하는 예를 설명하기 위해 도시한 것이다.
도 3은 본 발명의 실시예에 따른 네트워크를 훈련시키기 위한 훈련 다이어그램을 도시한 것이다.
도 4는 본 발명의 실시예에 따른 손 이미지 생성기에 의해 생성된 샘플 예를 도시한 것이다.
도 5는 본 발명의 실시예에 따른 손 자세 추정 시스템의 세부 구성을 블록도로 도시한 것이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

본 발명의 실시예들은, 기존의 손 포즈 추정기(HPE) 이전에 BigHand2.2M 데이터셋에서의 짝으로 이루어진 깊이 이미지와 손 골격 위치 항목에 있도록 유도된 자기 지도 도메인 전이학습을 기반으로 하여 적외선 카메라에서 캡처한 짝으로 이루어진 적외선 이미지 및 깊이 이미지를 사용하는 것을 그 요지로 한다.

적외선 이미지에서 실제 골격 위치를 사용할 수 없지만 깊이 이미지에서 예측한 골격 위치는 자체 지도를 위해 이용할 수 있다. 구체적으로, 본 발명에서 제안된 구조의 한 분기에서, 적외선 이미지의 입력은 깊이 이미지와 적외선 이미지 쌍으로부터 훈련되는 깊이 맵을 생성한다. 이후 생성된 깊이 맵이 주어진 손 포즈 추정기(Hand Pose Estimator; HPE)는 3D 손 골격 위치를 추정하며, 이는 실제 깊이 맵이 주어진 기존 HPE의 결과로부터 훈련된다.

마찬가지로, 다른 분기에서 적외선 맵이 주어진 다른 손 포즈 추정기(Hand Pose Estimator; HPE)는 손 골격 위치를 생성하기 위한 깊이 맵이 주어진 기존 HPE의 출력에서 자체 지도를 통해 훈련된다.

이에, 제안하는 본 발명은 기존의 깊이 기반 손 포즈 추정기(Hand Pose Estimator; HPE)가 모션 블러로 인해 부정확한 추정을 제공할 때 3D 손 포즈를 성공적으로 추정한다. 또한, 제안된 본 발명은 공개적으로 사용 가능한 데이터셋과 새로운 도전적 데이터셋을 사용하여 정량적 및 정성적으로 평가된다.

이하에서는 도 1 내지 도 5를 참조하여 본 발명에 대해 상세히 설명한다.

도 1은 본 발명의 실시예에 따른 손 자세 추정 방법의 동작 흐름도를 도시한 것이다.

도 1의 방법은 도 5에 도시된 본 발명의 실시예에 따른 손 자세 추정 시스템에 의해 수행된다. 본 발명의 실시예에 따른 손 자세 추정 방법은 깊이 이미지와 적외선 이미지를 입력할 때, 3차원 손 골격 위치를 훈련시키는 것을 특징으로 하며, 이하에서 본 발명의 특징에 대해 설명한다.

도 1을 참조하면, 단계 S110에서, 손 움직임에 대한 깊이 이미지 및 적외선 이미지를 처리한다.

단계 S110은 입력되는 깊이 이미지에서 추정된 질량 중심(Center of Mass; CoM)을 중심으로 한 3차원 경계 박스에서 손 이미지를 분할하여 깊이 패치를 정규화하며, 3차원 경계 박스를 이용하여 적외선 이미지를 정규화할 수 있다.

보다 구체적으로, 본 발명은 손 물체를 전경으로 분할하기 위해 깊이 이미지와 적외선 이미지를 사전 처리할 수 있다. 이때, 손이 거리(0-50cm) 내에서 카메라에 가장 가까운 물체라고 가정한다. 우선 단계 S110은 깊이 이미지에서 질량 중심(CoM)을 추정한다. 그런 다음 질량 중심(CoM)을 중심으로 한 3차원 경계 박스(3D bounding box)에서 손 이미지를 분할하여 128×128로 크기로 조정한 후, 깊이 패치를 [-1,1]로 정규화한다. 이후에, 단계 S110은 적외선 이미지의 경우, 깊이 이미지에서 얻은 3차원 경계 박스를 사용하여 전경/배경 및 가능한 전경 영역/배경 영역에 대해 초기화된 GrabCut 알고리즘을 사용한다. 특히, 단계 S110은 분할된 깊이 이미지에 해당하는 픽셀을 가능한 전경으로, 또는 가능한 배경으로 초기화한다. 그런 다음 3D 경계 박스 외부 또는 최대 거리(50cm)를 초과하는 픽셀을 배경으로 초기화한다. 마지막으로 분할된 적외선 이미지는 동일한 3D 경계 박스에서 잘라내어 [-1,1]로 정규화한다.

단계 S120에서, 적외선 이미지에서 깊이 맵을 합성하며, 깊이 맵 및 적외선 맵 각각에서 손 관절의 골격 위치를 추정한다.

단계 S120은 손 이미지 생성기(Hand Image Generator; HIG,

)를 이용하여 적외선 이미지(

)에서 깊이 맵(

)을 합성한다. 또한, 단계 S120은 깊이 맵과 적외선 이미지의 입력이 주어지는 두 개의 손 포즈 추정기(Hand Pose Estimator; HPE)를 구성할 수 있다. 이때, 상기 두 개의 손 포즈 추정기는 깊이 손 포즈 추정기 및 적외선 손 포즈 추정기를 포함하며, 단계 S120은 깊이 손 포즈 추정기(HPE f^E1)를 이용하여 깊이 맵에서 손 관절의 골격 위치를 추론하고, 적외선 손 포즈 추정기(HPE f^E2)를 이용하여 적외선 맵에서 손 관절의 골격 위치를 추정할 수 있다.

단계 S130에서, 골격 위치와 손 깊이 이미지의 중심을 이용하여 3차원 손 자세를 산출한다.

단계 S130은 깊이 손 포즈 추정기(HPE f^E1) 및 적외선 손 포즈 추정기(HPE f^E2)를 통해 추정된 골격 위치와 손 깊이 이미지의 중심을 이용하여 3차원의 손 자세를 산출할 수 있다.

단계 S130은 깊이 손 이미지의 가중치 중심을 이용하여 국제 좌표에서 3차원 손 자세를 산출하며, 본 발명은 깊이 손 포즈 추정기(HPE f^E1) 및 적외선 손 포즈 추정기(HPE f^E2)를 훈련시킴으로써, 도 2에 도시된 바와 같은 깊이 맵에서의 흐릿한 블러(blur) 현상을 최소화할 수 있다.

본 발명의 실시예에 따른 손 자세 추정 방법은 단계 S120에서, 손의 중심으로부터 상대적인 손의 관절 위치를 추정하며, 이때, 본 발명은 63차원의 손 관절 위치를 52차원으로 축소하여 52차원(low dimension)의 공간에서 추정하는 것을 특징으로 한다. 이후에, 단계 S130은 단계 S120에서 추정했던 52차원에 매핑된 값들을 원래 dimension인 63차원(dimension)으로 복원(reconstruction)하며, 카메라 좌표계로부터의 손의 관절 위치를 얻기 위하여 카메라부터의 손 깊이 이미지의 중심을 사용하는 것을 특징으로 한다.

본 발명의 실시예에 따른 손 자세 추정 방법은 적외선 카메라에서 쌍으로 구성된 깊이 이미지와 적외선 이미지를 포함한 데이터셋을 이용하여 손 이미지 생성기(Hand Image Generator; HIG), 손 이미지 판별기(Hand Image Discriminator; HID) 및 두 개의 손 포즈 추정기(Hand Pose Estimator; HPE)를 학습시키는 단계(미도시)를 더 포함할 수 있다.

본 발명은 네트워크를 훈련시키기 위해, 일관성 손실을 위한 기존 HPE(손 포즈 추정기)의 출력을 적용한다. 이를 위해, 본 발명은 짝으로 된 깊이 및 손 골격 항목에 대한 감독 학습을 통해 기존 HPE f^E0을 훈련한다. 그 후, 분기에서의 HIG f^G와 첫 번째 HPE f^E1과 다른 분기에서의 두 번째 HPE f^E2를 모두 훈련시킨다. 훈련은 해당하는 비흐릿한 깊이 맵과 HPE f^E0의 추정치에서 자체 감독 하에 수행되며, 각 지점의 훈련은 엔드투엔드(end-to-end) 방식으로 진행된다. 또한, 본 발명은 약하게 흐려진 적외선 이미지를 사용하여 두 번째 HPE f^E2를 미세 조정한다. 전술한 훈련 과정에 대해서는 이하의 도 3을 통해 상세히 설명한다.

본 발명의 실시예에 따른 손 자세 추정 방법은 네트워크를 훈련시키기 위해 두 가지 유형의 데이터셋(BigHand2.2M 데이터셋 및 DepthIrHand 데이터셋)을 활용한다. BigHand2.2M 데이터셋은 220만 개의 깊이 이미지와 해당 3D 골격 위치를 가진 가장 큰 데이터셋이다. 많은 이전 연구들은 데이터셋에서 네트워크를 훈련시켜 단일 깊이 프레임에서 3D 골격 위치를 추정하는 성공적인 성과를 달성했다. 그러나 데이터셋에는 흐릿한 깊이 이미지가 포함되어 있지 않으므로 빠른 손 동작에 대한 정확도가 상당히 떨어진다. 흐릿한 깊이 이미지를 포함하지만 모션 블러 때문에 깊이 이미지의 일부 접합부가 보이지 않기 때문에 자세 모호성이 심오할 수 있다. 이를 보완하기 위해, 본 발명은 단일 적외선 카메라에서 쌍으로 구성된 깊이 이미지와 적외선 이미지를 포함한 DepthIrHand 데이터셋을 구성한다. 이는 BigHand2.2M 데이터셋의 훈련 샘플을 깊이 이미지 xd0 및 해당 3D 골격 위치로 나타내고, DepthIrHand 데이터 세트의 다른 훈련 샘플을 쌍으로 구성된 흐릿함 없는 깊이 이미지 및 적외선 이미지(xd1,xir1)와 약하게 흐려진 적외선 이미지 xir2로 나타낸다. 이에, 본 발명은 손 움직임의 질적 속도에 따라 개별적으로 흐릿하지 않은 사례와 흐릿한 사례를 나누어 훈련 세트를 수집한다.

이때, 본 발명의 실시예에 따른 손 자세 추정 방법은 BigHand2.2M 데이터셋에 사용된 골격 모델을 따른다. 이는 21개의 위치로 구성되어 있으며, 손목에 하나 손가락 각각에 네 개씩이다. 손가락 끝(TIP)과 세 개의 관절(DIP, PIP 및 MCP)을 각 손가락에 대해 모델링한 각 접합부 위치는 3차원 벡터로 표시되므로, 공격 위치에 대해 63차원 벡터를 유추할 수 있다.

도 2는 본 발명의 실시예에 따른 단일 적외선 카메라로 3차원 손 자세를 추정하는 예를 설명하기 위해 도시한 것이다.

도 2를 참조하면, 사용자가 착용한 적외선 카메라(Infrared Camera)가 빠르게 움직이는 사용자의 손(Fast-moving hand)을 포착한다. 그 결과, 깊이 이미지(depth)는 빠른 손 동작으로 인한 모션 블러(Motion blur)로 인해 오염된 것을 확인할 수 있으며, 적외선 이미지(IR)는 그에 비해 약하게 블러된다. 이에 따라서, 본 발명의 실시예에 따른 손 자세 추정 시스템은 깊이 이미지 및 적외선 이미지를 이용하여 손 관절 추출을 통한 3차원 손 자세를 보다 정확히 추정할 수 있다.

도 3은 본 발명의 실시예에 따른 네트워크를 훈련시키기 위한 훈련 다이어그램을 도시한 것이다.

도 3을 참조하면, 손 이미지 생성기(HIG, f^G)는 입력 적외선 이미지(xir)이 주어진 깊이 이미지(xd)를 합성한다. 본 발명은 네트워크를 훈련시키기 위해, 한 쌍의 흐릿하지 않은 깊이 이미지와 느린 손 움직임의 적외선 이미지를 사용하며, 훈련된 손 이미지 생성기(HIG f^G)는 깊이 이미지가 빠른 손 동작에 의해 흐릿해질 때 흐릿하지 않은 깊이 이미지를 합성하는 역할을 한다. 이를 훈련시키기 위해 조건부 GAN(Generative Adversarial Network) 아키텍처를 사용한다.

손 이미지 판별기(HID, f^D)는 합성된 깊이 맵이 인간의 손 깊이 맵과 일치하는지 여부를 분류하여 손 이미지 생성기(HIG, f^G)가 보다 현실적인 깊이 맵을 합성하도록 돕는다.

도 3에서 HPE f^E0(HPE#0)는 입력 깊이 이미지가 주어진 손 골격 위치를 추정한다. 실제 깊이 센서에서 사전 처리된 깊이 맵을 수신하며, HPE#0는 BigHand2.2M 데이터셋에 대해 훈련된다. 또한, HPE#0는 저차원 임베딩 계층을 이용하여 네트워크가 훈련 데이터의 저차원 표현을 학습하도록 한다. 임베딩은 원래 차원(63차원)보다 치수 낮은 52차원으로 설정하며, 테스트에서 저차원 표현은 63차원 손 골격 위치로 재구성된다.

또한, 도 3에서 HPE f^E1(깊이 손 포즈 추정기, HPE#1)는 입력 깊이 이미지가 주어진 손 골격 위치를 추정한다. 그러나 HPE#0과는 대조적으로, 손 이미지 생성기(HIG)에 의해 합성된 깊이 맵을 수용한다. 깊이 손 포즈 추정기는 이전에 훈련된 HPE#0에서 초기화된다. 본 발명은 손 이미지 생성기와 깊이 손 포즈 추정기 모두를 훈련시키기 위해 깊이 손 포즈 추정기의 파라미터를 훈련된 HPE#0과 동일한 깊이로 동결하려 했으나, 파라미터를 동결하지 않은 상태에서 훈련한 결과 정확도가 향상된 것을 확인하였으므로, 손 이미지 생성기 훈련과 동시에 깊이 손 포즈 추정기를 개선한다.

또한, 도 3에서, HPE f^E2(적외선 손 포즈 추정기, HPE#2)는 입력 적외선 이미지가 지정된 손 골격 위치를 추정한다. 깊이 이미지의 전처리에 의해 생성된 3차원 경계 박스에서 초기 시드를 얻는 GrabCut 알고리즘을 사용하여 마스크로 사전 처리된 적외선 맵을 수락한다. 적외선 손 포즈 추정기의 네트워크 아키텍처는 HPE#0과 동일하다. 본 발명은 이전에 훈련된 HPE#0에서 적외선 손 포즈 추정기(f^E2)를 초기화한다. 그 후, 본 발명은 DepthIrHand 데이터셋을 기반으로 네트워크를 훈련시킨다. 데이터셋에는 손 골격 위치가 지상 검증 자료로 포함되지 않기 때문에, 본 발명은 도메인 전이학습을 위한 자체 지도 훈련 방법을 사용한다. 이때, 첫 번째 훈련 단계에서 이전에 학습된 HPE#0의 결과에 전적으로 의존하며, 미세화를 위해 흐릿하거나 흐릿하지 않은 사례에 따라 선택적으로 다른 분기의 결과를 따른다.

이하에서는 흐릿하지 않은 데이터셋에 대한 전이학습과 흐릿한 데이터셋과 흐릿하지 않은 데이터셋 모두를 개선한 방법에 대해 설명한다.

흐릿하지 않은 데이터셋에 대한 전이학습

본 발명은 도 3에 도시된 바와 같이 DepthIrHand 데이터셋에 대한 HIG, HID 및 HPE를 학습시킨다. 데이터셋에는 실제 골격 접합부가 없으므로, 본 발명은 깊이 및 골격 입력을 포함한 BigHand2.2M 데이터셋에서 훈련된 HPE#0으로 인한 일관성 손실을 이용한다. 따라서, 본 발명은 HPE#0이 흐릿하지 않은 깊이 이미지에서만 잘 수행되기 때문에 짝으로 된 데이터(xd1, xir1)만 훈련에 사용한다. 입력 데이터 쌍(xd1, xir1)이 주어지면 이를 훈련시키기 위해 세 개의 분기를 구성한다.

예를 들면, HIG, HID 및 HPE f^E1을 훈련하는 첫 번째 분기, HPE f^E2를 훈련하는 두 번째 분기, 및 자체 지도를 위한 3차원 접합부 위치를 예측하는 세 번째 분기이다.

전술한 훈련에 앞서, 본 발명은 BigHand2.2M 데이터셋의 깊이 이미지 쌍과 그에 상응하는 손 골격 위치를 가진 지도 학습을 통해 HPE#0을 훈련시킨다. f^E0에 대한 손실 L_E0은 하기의 [수식 1]과 같이 정의된다.

[수식 1]

여기서, yembed는 원래 차원 벡터에서 매핑된 임베딩 공간의 저차원 벡터를 나타낸다.

첫 번째 분기에서, 본 발명은 DepthIrHand 데이터셋에 대해 HIG, HID 및 HPE f^E1의 엔드투엔드 교육을 수행한다. 훈련은 잘 훈련된 HPE#0의 결과 및 해당 깊이 맵에 의존한다. 이를 위해 하기와 같은 손실 함수를 정의한다.

[수식 2]

여기서, λ0와 λ1은 고정 가중치 파라미터를 나타낸다.

Ldepth는 실제 센서에서 합성 깊이 맵과 사전 처리된 깊이 맵 간의 차이를 계산한다. 이에, 본 발명은 DepthIrHand 데이터셋에서 깊이 이미지와 적외선 이미지의 쌍과 함께 Pix2pix-Net을 사용한다.

손 이미지 생성기(f^G)는 손실 L 깊이를 최소화하여 손 깊이 이미지를 합성하도록 훈련된다. 또한, 손 이미지 판별기(f^D)는 합성 깊이 맵과 실제 깊이 맵을 구별하도록 훈련된다. 이때, 손실 L 깊이는 하기의 [수식 3]과 같이 정의된다.

[수식 3]

여기서, λ2, λ3, λ4는 고정 가중치 파라미터를 나타낸다.

Linter는 HPE#0의 해당 층의 활성화와 일치하도록 HPE#1의 중간 층의 활성화에 사용된다. 이때, 채택되는 HPE는 컨볼루션 계층을 가진 특성 추출기와 완전히 연결된 계층을 가진 포즈 추정기로 구성되기 때문에, 본 발명은 특성 추출기의 마지막 컨볼루션 계층에 중간 손실을 적용한다. 여기서, 중간 손실 함수는 하기와 같이 정의된다.

[수식 4]

여기서,

와

은 각각 합성 깊이 맵의 HPE#1과 실제 깊이 맵의 사전 훈련된 HPE#0에 대한 마지막 계층 활성화를 나타낸다.

Lskel은 DepthIrHand 데이터셋에서 골격 접합부의 라벨이 지상 검증 자료로 포함되지 않기 때문에 사전 훈련된 HPE#0에서 골격 일관성 손실에 사용된다. 이때, 골격 손실 함수는 다음과 같이 정의된다.

[수식 5]

두 번째 분기에서, 본 발명은 사전 훈련된 HPE#0의 출력을 사용하여 HPE#2를 훈련시킨다. 구체적으로, 본 발명은 중간 출력과 사전 훈련된 HPE#0의 마지막 예측값을 이용하며, 이를 위한 손실 함수는 다음과 같이 정의된다.

[수식 6]

여기서, λ5 및 λ6은 고정 가중치 파라미터를 나타낸다.

Linter는 사전 훈련된 HPE#0의 해당 활성화와 HPE#2의 중간 활성화를 일치시키는 [수식 4]와 유사하게 작동한다. Lskel은 임베드 공간에서 HPE#0 골격 자세를 따르는 HPE#2의 출력에 사용된다. 손실 함수는 다음과 같이 정의된다.

[수식 7]

이때, HPE fE2 훈련은 HPE fE1 훈련과 유사하게 수행된다.

흐릿한 데이터셋과 흐릿하지 않은 데이터셋의 개선

[알고리즘 1]

[알고리즘 1]에 표시된 것처럼, 본 발명은 흐릿한 데이터셋과 흐릿하지 않은 데이터셋 모두에서 HPE f^E2를 세분화한다.

예비 실험에서, f^G가 흐릿한 적외선 이미지에서 흐릿하지 않은 깊이 이미지를 합성하기 때문에 f^G에 의해 합성된 깊이 맵이 주어진 HPE#1의 정확도는 특히 빠른 손 움직임의 경우 HPE#2보다 우수했다. 느린 움직임에서, 실제 깊이 맵이 주어진 HPE#0은 가장 높은 정확도를 보여주었다. 따라서 다른 대상의 감독을 통해 HPE#2를 세분화할 수 있다. 데이터셋(흐릿한 또는 흐릿하지 않은)에 따라 출력을 따르도록 손실 함수를 선택적으로 정의한다. 이 단계에서는 f^E0, f^E1, f^G의 파라미터를 동결한다.

f^E2를 미세화하기 위해 깨끗한 데이터 쌍(xd1,xir1)과 약하게 흐린 적외선 이미지 xir2를 활용한다. 보다 구체적으로, 본 발명은 HPE#2가 모션 블러 없이 사례에서 실제 깊이 맵이 주어진 HPE#0의 추정치를 따르도록 강제한다. 그러나 모션 블러로 인해 원래 깊이 맵이 주어진 HPE#0의 추정치가 제대로 관리되지 않으므로, 흐릿한 경우에는 합성 깊이 맵이 주어진 HPE#1의 추정치를 따른다. 이때, 자체 지도를 위한 손실 함수는 다음과 같이 정의된다.

[수식 8]

여기서 흐릿하지 않은 샘플 세트(xir1,xd1)의 경우 b0 = 1, b1 = 0로 설정하고 흐릿한 적외선 샘플 xir2의 경우 b0 = 0, b1 = 1로 설정한다.

도 4는 본 발명의 실시예에 따른 손 이미지 생성기에 의해 생성된 샘플 예를 도시한 것이다.

보다 상세하게는, 도 4(a)는 실제 적외선 이미지를 나타내며, 도 4(b)는 실제 깊이 이미지를 나타낸다. 또한, 도 4(c)는 손 이미지 생성기(Hand Image Generator; HIG)에서 합성된 깊이 이미지를 나타내며, 도 4(d)는 깊이 이미지 간의 색상 코드, 픽셀 단위 오류를 나타낸다.

도 4를 참조하면, 느린 동작을 나타낸 첫 번째 및 두 번째 열의 경우, 센서 노이즈로 인해 손의 윤곽 근처에 가장 큰 불일치가 나타나는 것을 확인할 수 있다. 또한, 빠른 동작을 나타낸 세 번째 및 네 번째 열의 경우, 깊이 이미지(도 4(b))에서 모션 블러(blur)로 인해 오염되어 가장 큰 불일치를 나타내는 것을 알 수 있다. 이러한 문제를 해소하기 위해, 도 4(c)의 세 번째 및 네 번째 열에 도시된 바와 같이, 손 이미지 생성기(Hand Image Generator; HIG)는 적외선 맵에서 깊이 맵을 합성함으로써, 깊이 이미지의 모션 블러에 효과적인 결과를 나타내는 것을 확인할 수 있다.

도 5는 본 발명의 실시예에 따른 손 자세 추정 시스템의 세부 구성을 블록도로 도시한 것이다.

도 5를 참조하면, 본 발명의 실시예에 따른 손 자세 추정 시스템은 깊이 이미지에서 적외선 이미지로의 도메인 전이학습을 기반으로 빠른 손 동작에 대한 3차원 손 자세를 추정한다.

이를 위해, 본 발명의 실시예에 따른 손 자세 추정 시스템(500)은 이미지 처리부(510), 골격 추정부(520), 자세 산출부(530) 및 학습부(540)를 포함한다.

이미지 처리부(510)는 손 움직임에 대한 깊이 이미지 및 적외선 이미지를 처리한다.

이미지 처리부(510)는 입력되는 깊이 이미지에서 추정된 질량 중심(Center of Mass; CoM)을 중심으로 한 3차원 경계 박스에서 손 이미지를 분할하여 깊이 패치를 정규화하며, 3차원 경계 박스를 이용하여 적외선 이미지를 정규화할 수 있다.

골격 추정부(520)는 적외선 이미지에서 깊이 맵을 합성하며, 깊이 맵 및 적외선 맵 각각에서 손 관절의 골격 위치를 추정한다.

골격 추정부(520)는 손 이미지 생성기(Hand Image Generator; HIG,

)를 이용하여 적외선 이미지(

)에서 깊이 맵(

)을 합성한다. 또한, 골격 추정부(520)는 깊이 맵과 적외선 이미지의 입력이 주어지는 두 개의 손 포즈 추정기(Hand Pose Estimator; HPE)를 구성할 수 있다. 이때, 상기 두 개의 손 포즈 추정기는 깊이 손 포즈 추정기 및 적외선 손 포즈 추정기를 포함하며, 골격 추정부(520)는 깊이 손 포즈 추정기(HPE f^E1)를 이용하여 깊이 맵에서 손 관절의 골격 위치를 추론하고, 적외선 손 포즈 추정기(HPE f^E2)를 이용하여 적외선 맵에서 손 관절의 골격 위치를 추정할 수 있다.

자세 산출부(530)는 골격 위치와 손 깊이 이미지의 중심을 이용하여 3차원 손 자세를 산출한다.

자세 산출부(530)는 깊이 손 포즈 추정기(HPE f^E1) 및 적외선 손 포즈 추정기(HPE f^E2)를 통해 추정된 골격 위치와 손 깊이 이미지의 중심을 이용하여 3차원의 손 자세를 산출할 수 있다.

자세 산출부(530)는 깊이 손 이미지의 가중치 중심을 이용하여 국제 좌표에서 3차원 손 자세를 산출하며, 본 발명은 깊이 손 포즈 추정기(HPE f^E1) 및 적외선 손 포즈 추정기(HPE f^E2)를 훈련시킴으로써, 도 2에 도시된 바와 같은 깊이 맵에서의 흐릿한 블러(blur) 현상을 최소화할 수 있다.

본 발명의 실시예에 따른 손 자세 추정 시스템(500)은 골격 추정부(520)에서, 손의 중심으로부터 상대적인 손의 관절 위치를 추정하며, 이때, 본 발명은 63차원의 손 관절 위치를 52차원으로 축소하여 52차원(low dimension)의 공간에서 추정하는 것을 특징으로 한다. 이후에, 자세 산출부(530)는 골격 추정부(520)에서 추정했던 52차원에 매핑된 값들을 원래 dimension인 63차원(dimension)으로 복원(reconstruction)하며, 카메라 좌표계로부터의 손의 관절 위치를 얻기 위하여 카메라부터의 손 깊이 이미지의 중심을 사용하는 것을 특징으로 한다.

학습부(540)는 적외선 카메라에서 쌍으로 구성된 깊이 이미지와 적외선 이미지를 포함한 데이터셋을 이용하여 손 이미지 생성기(Hand Image Generator; HIG), 손 이미지 판별기(Hand Image Discriminator; HID) 및 두 개의 손 포즈 추정기(Hand Pose Estimator; HPE)를 학습시킬 수 있다.

비록, 본 발명의 도 5의 시스템에서 그 설명이 생략되었더라도, 본 발명의 시스템을 구성하는 구성 수단은 도 1 내지 도 4에서 설명한 모든 내용을 포함할 수 있으며, 이는 이 기술 분야에 종사하는 당업자에게 있어서 자명하다.

이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(Field Programmable Gate Array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

도메인 전이학습을 통한 적외선 카메라 기반의 손 자세 추정 방법에 있어서,
손 움직임에 대한 깊이 이미지 및 적외선 이미지를 처리하는 단계;
손 이미지 생성기(HIG)를 이용하여 상기 적외선 이미지에서 깊이 맵을 합성하며, 상기 깊이 맵 및 적외선 맵 각각에서 손 관절의 골격 위치를 추정하는 단계; 및
상기 골격 위치와 손 깊이 이미지의 중심을 이용하여 3차원 손 자세를 산출하는 단계
를 포함하는 손 자세 추정 방법.
제1항에 있어서,
상기 처리하는 단계는
입력되는 상기 깊이 이미지에서 추정된 질량 중심(Center of Mass; CoM)을 중심으로 한 3차원 경계 박스에서 손 이미지를 분할하여 깊이 패치를 정규화하며, 상기 3차원 경계 박스를 이용하여 상기 적외선 이미지를 정규화하는, 손 자세 추정 방법.
제1항에 있어서,
상기 추정하는 단계는
52차원(low dimension)의 공간에서 손의 중심으로부터 상대적인 손 관절의 골격 위치를 추정하며,
상기 산출하는 단계는
상기 추정하는 단계에서 추정했던 상기 52차원에 매핑된 값들을 63차원(63 dimension)으로 복원하여 카메라 좌표계로부터의 상기 손 깊이 이미지의 중심을 사용하는 것을 특징으로 하는, 손 자세 추정 방법.
제3항에 있어서,
상기 추정하는 단계는
깊이 손 포즈 추정기(HPE f^E1)를 이용하여 상기 깊이 맵에서 손 관절의 골격 위치를 추론하며, 적외선 손 포즈 추정기(HPE f^E2)를 이용하여 상기 적외선 맵에서 손 관절의 골격 위치를 추정하는, 손 자세 추정 방법.
제4항에 있어서,
상기 산출하는 단계는
상기 깊이 손 포즈 추정기(HPE f^E1) 및 상기 적외선 손 포즈 추정기(HPE f^E2)를 통해 추정된 상기 골격 위치와 상기 손 깊이 이미지의 중심을 이용하여 3차원의 손 자세를 산출하는, 손 자세 추정 방법.
제1항에 있어서,
적외선 카메라에서 쌍으로 구성된 상기 깊이 이미지와 상기 적외선 이미지를 포함한 데이터셋을 이용하여 손 이미지 생성기(Hand Image Generator; HIG), 손 이미지 판별기(Hand Image Discriminator; HID) 및 두 개의 손 포즈 추정기(Hand Pose Estimator; HPE)를 학습시키는 단계
를 더 포함하는 손 자세 추정 방법.
도메인 전이학습을 통한 적외선 카메라 기반의 손 자세 추정 시스템에 있어서,
손 움직임에 대한 깊이 이미지 및 적외선 이미지를 처리하는 이미지 처리부;
손 이미지 생성기(HIG)를 이용하여 상기 적외선 이미지에서 깊이 맵을 합성하며, 상기 깊이 맵 및 적외선 맵 각각에서 손 관절의 골격 위치를 추정하는 골격 추정부; 및
상기 골격 위치와 손 깊이 이미지의 중심을 이용하여 3차원 손 자세를 산출하는 자세 산출부
를 포함하는 손 자세 추정 시스템.
제7항에 있어서,
상기 이미지 처리부는
입력되는 상기 깊이 이미지에서 추정된 질량 중심(Center of Mass; CoM)을 중심으로 한 3차원 경계 박스에서 손 이미지를 분할하여 깊이 패치를 정규화하며, 상기 3차원 경계 박스를 이용하여 상기 적외선 이미지를 정규화하는, 손 자세 추정 시스템.
제7항에 있어서,
상기 골격 추정부는
52차원(low dimension)의 공간에서 손의 중심으로부터 상대적인 손 관절의 골격 위치를 추정하며,
상기 자세 산출부는
상기 골격 추정부에서 추정했던 상기 52차원에 매핑된 값들을 63차원(63 dimension)으로 복원하여 카메라 좌표계로부터의 상기 손 깊이 이미지의 중심을 사용하는 것을 특징으로 하는, 손 자세 추정 시스템.
제9항에 있어서,
상기 골격 추정부는
깊이 손 포즈 추정기(HPE f^E1)를 이용하여 상기 깊이 맵에서 손 관절의 골격 위치를 추론하며, 적외선 손 포즈 추정기(HPE f^E2)를 이용하여 상기 적외선 맵에서 손 관절의 골격 위치를 추정하는, 손 자세 추정 시스템.
제10항에 있어서,
상기 자세 산출부는
상기 깊이 손 포즈 추정기(HPE f^E1) 및 상기 적외선 손 포즈 추정기(HPE f^E2)를 통해 추정된 상기 골격 위치와 상기 손 깊이 이미지의 중심을 이용하여 3차원의 손 자세를 산출하는, 손 자세 추정 시스템.
제7항에 있어서,
적외선 카메라에서 쌍으로 구성된 상기 깊이 이미지와 상기 적외선 이미지를 포함한 데이터셋을 이용하여 손 이미지 생성기(Hand Image Generator; HIG), 손 이미지 판별기(Hand Image Discriminator; HID) 및 두 개의 손 포즈 추정기(Hand Pose Estimator; HPE)를 학습시키는 학습부
를 더 포함하는 손 자세 추정 시스템.