KR20200068083A

KR20200068083A - 심층 합성곱 신경망을 이용하여 rgb-d 이미지로부터 손 구성요소 및 손가락 끝을 추적하기 위한 방법 및 장치

Info

Publication number: KR20200068083A
Application number: KR1020180149013A
Authority: KR
Inventors: 김수형; 이귀상; 양형정; 나인섭; 원해양
Original assignee: 전남대학교산학협력단
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2020-06-15
Also published as: KR102123289B1

Abstract

본 발명은 심층 합성곱 신경망(deep convolutional neural network)을 이용하여 RGB-D 이미지로부터 손 구성요소 및 손가락 끝을 추적하기 위한 장치에 관한 것이다. 본 발명의 일 실시예에 따른 전자 장치는 손을 포함하는 RGB 이미지 및 상기 RGB 이미지에 대응하는 깊이(depth) 이미지를 수신하는 이미지 획득부; 상기 RGB 이미지 및 깊이 이미지로부터 손 깊이 이미지를 추출하는 손 인식부; 상기 손 깊이 이미지로부터 손 구성요소 특징 맵 및 손가락 끝부분 특징 맵을 생성하는 인코더; 상기 손 구성요소 특징 맵으로부터 각 손 구성요소가 분할(segmentation)된 손 구성요소 이미지를 생성하는 제1 디코더; 및 상기 손가락 끝부분 특징 맵으로부터 각 손가락 끝부분이 분할된 손가락 끝부분 이미지를 생성하는 제2 디코더;를 포함할 수 있다.

Description

심층 합성곱 신경망을 이용하여 RGB-D 이미지로부터 손 구성요소 및 손가락 끝을 추적하기 위한 방법 및 장치{A method and apparatus for tracking hand component and fingertip from RGB-D image using deep convolutional neural network}

본 발명은 심층 합성곱 신경망에 관한 것으로, 더욱 상세하게는 심층 합성곱 신경망을 이용하여 RGB-D 이미지로부터 손 구성요소 및 손가락 끝을 추적하기 위한 방법 및 장치에 관한 것이다.

최근 컴퓨터 마우스를 제어하고 키보드를 통해 입력하거나 디지털 패드를 터치하고 펜으로 쓰는 것 대신에 손동작을 기반으로 하는 방법에 대한 연구가 활발히 진행되고 있다.

일반적으로 이러한 시스템은 입력 신호에 따라 결정하기 전에 손의 움직임이나 제스처를 필요로 한다. 사용자의 명령을 습득하는 데는 카메라 기반 또는 장비 기반 방법의 두 가지 주요한 방법이 있다. 카메라 기반 방법의 경우, 고성능 카메라를 사용하여 2D 객체 뿐 아니라 고정밀 손 모델링 문제를 해결할 수 있는 깊이 정보를 측정할 수 있다. 이러한 웨어러블 기기를 사용하지 않는 카메라 기반 방법은 자연스러운 인간과 기계 상호 작용 시스템의 사용을 위한 유망한 방법이다.

그러나 표본 추출 환경의 배경이 다양하기 때문에 손 영역 탐지와 손가락 끝부분 탐지는 여전히 어려운 문제가 있으나 이에 대한 연구는 미흡한 실정이다.

T. Sharp, C. Keskin, D. Robertson, J. Taylor, J. Shotton, D. Kim, C. Rhemann, I.Leichter, A. Vinnikov, Y. Wei, D. Freedman, P. Kohli, E. Krupka, A. Fitzgibb- on, S. Izadi, Accurate, robust, and flexible real-time hand traking, in: Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI), 2015, pp. 3633-3642. D. J. Tan, T. Cashman, J. Taylor, A. Fitzgibbon, D. Tarlow, S. Khamis, S. Izadi, J. Shotton, Fits like a glove: Rapid and reliable hand shape personalization, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 5610-5619. J. Taylor, L. Bordeaux, T. Cashman, B. Corish, C. Keskin, T. Sharp, E. Soto, D. Sweeney, J. Valentin, B. Luff, A. Topalian, E. Wood, S. Khamis, P. Kohli, S. Izdi, R. Banks, A. Fitzgibbon, J. Shotton, Efficient and precise interactive hand tracking through joint, continuous optimization of pose and correspondences, ACM Transactions on Graphics 35 (4) (2016) 143:1-143:12.

본 발명은 전술한 문제점을 해결하기 위하여 창출된 것으로, 심층 합성곱 신경망을 이용하여 RGB-D 이미지로부터 손 구성요소 및 손가락 끝을 추적하기 위한 방법 및 장치를 제공하는 것을 그 목적으로 한다.

또한, 본 발명은 하나의 인코더 뒤에 두 개의 디코더들이 위치하여, 하나의 인코더가 손 구성요소 특징 맵 및 손가락 끝부분 특징 맵을 생성하는 것을 그 목적으로 한다.

또한, 본 발명은 손 구성요소 데이터 집합과 손가락 끝부분 구성요소 데이터 집합에서 공통으로 지정된 라벨링 항목에 대하여는 한 컨볼루션 필터의 가중치를 산출한 후 나머지 컨볼루션 필터의 가중치로 동일하게 바로 사용하는 것을 그 목적으로 한다.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.

상기한 목적들을 달성하기 위하여, 본 발명의 일 실시예에 따른 전자 장치는, 손을 포함하는 RGB 이미지 및 상기 RGB 이미지에 대응하는 깊이(depth) 이미지를 수신하는 이미지 획득부; 상기 RGB 이미지 및 깊이 이미지로부터 손 깊이 이미지를 추출하는 손 인식부; 상기 손 깊이 이미지로부터 손 구성요소 특징 맵 및 손가락 끝부분 특징 맵을 생성하는 인코더; 상기 손 구성요소 특징 맵으로부터 각 손 구성요소가 분할(segmentation)된 손 구성요소 이미지를 생성하는 제1 디코더; 및 상기 손가락 끝부분 특징 맵으로부터 각 손가락 끝부분이 분할된 손가락 끝부분 이미지를 생성하는 제2 디코더;를 포함할 수 있다.

실시예에서, 상기 손 인식부는, 상기 RGB 이미지를 객체 탐지 모델에 적용하여 손을 포함하는 경계 영역(bounding box)을 생성하고, 상기 깊이 이미지에서 상기 경계 영역에 해당하는 영역으로부터 상기 손 깊이 이미지를 추출할 수 있다.

실시예에서, 상기 손 인식부는, 상기 깊이 이미지에서 상기 경계 영역에 해당하는 영역에서 깊이 임계값보다 작은 깊이의 영역을 제외하고 상기 손 깊이 이미지를 추출할 수 있다.

실시예에서, 상기 인코더는, 상기 손 깊이 이미지를 손 구성요소 데이터 집합의 라벨링 항목에 대한 다수의 가중치(weight)들을 갖는 제1 컨볼루션 필터에 적용하여 상기 손 구성요소 특징 맵을 생성하고, 상기 손 깊이 이미지를 손가락 끝부분 데이터 집합의 라벨링 항목에 대한 다수의 가중치들을 갖는 제2 컨볼루션 필터에 적용하여 상기 손가락 끝부분 특징 맵을 생성할 수 있다.

실시예에서, 상기 인코더는, 상기 손 구성요소 데이터 집합으로부터 상기 제1 컨볼루션 필터의 다수의 가중치들을 산출하고, 상기 손 구성요소 데이터 집합과 상기 손가락 끝부분 데이터 집합에서 동일한 라벨링 항목에 대하여, 상기 제1 컨볼루션 필터의 다수의 가중치들 중 적어도 하나를 이용하여 상기 제2 컨볼루션 필터의 다수의 가중치들을 산출할 수 있다.

실시예에서, 상기 인코더는, 상기 손가락 끝부분 데이터 집합으로부터 상기 제2 컨볼루션 필터의 다수의 가중치들을 산출하고, 상기 손가락 끝부분 데이터 집합과 상기 손 구성요소 데이터 집합에서의 동일한 라벨링 항목에 대하여, 상기 제2 컨볼루션 필터의 다수의 가중치들 중 적어도 하나를 이용하여 상기 제1 컨볼루션 필터의 다수의 가중치들을 산출할 수 있다.

실시예에서, 상기 손 구성요소 데이터 집합의 라벨링 항목은, 적어도 하나의 손가락, 배경, 손바닥 및 팔목 중 적어도 하나이고, 손가락 끝부분 데이터 집합의 라벨링 항목은, 적어도 하나의 손가락 끝부분, 상기 배경, 상기 손바닥 및 상기 팔목 중 적어도 하나일 수 있다.

실시예에서, 상기 제1 디코더는, 상기 손 구성요소 특징 맵으로부터 계산된 대표 픽셀 값과 손 구성요소 데이터 집합의 라벨링 항목에 대한 대표 값을 비교하여 오차를 산출하고, 상기 오차가 제1 임계값보다 작을 경우, 상기 대표 픽셀 값에 대응하는 각 손 구성요소를 라벨링하고, 상기 라벨링에 따라 상기 각 손 구성요소가 분할된 손 구성요소 이미지를 생성할 수 있다.

실시예에서, 상기 제2 디코더는, 상기 손가락 끝부분 특징 맵으로부터 각 손가락 구성요소에 대한 대표 픽셀 값과 손가락 끝부분 데이터 집합의 라벨링 항목에 대한 대표 값을 비교하여 오차를 산출하고, 상기 오차가 제2 임계값보다 작을 경우, 상기 대표 픽셀 값에 대응하는 각 손가락 끝부분을 라벨링하고, 상기 라벨링에 따라 상기 각 손가락 끝부분이 분할된 손가락 끝부분 이미지를 생성할 수 있다.

실시예에서, 전자 장치의 동작 방법은 손을 포함하는 RGB 이미지 및 상기 RGB 이미지에 대응하는 깊이(depth) 이미지를 수신하는 단계; 상기 RGB 이미지 및 깊이 이미지로부터 손 깊이 이미지를 추출하는 단계; 상기 손 깊이 이미지로부터 손 구성요소 특징 맵 및 손가락 끝부분 특징 맵을 생성하는 단계; 상기 손 구성요소 특징 맵으로부터 각 손 구성요소가 분할(segmentation)된 손 구성요소 이미지를 생성하고, 상기 손가락 끝부분 특징 맵으로부터 각 손가락 끝부분이 분할된 손가락 끝부분 이미지를 생성하는 단계;를 포함할 수 있다.

실시예에서, 상기 손 깊이 이미지를 추출하는 단계는, 상기 RGB 이미지를 객체 탐지 모델에 적용하여 손을 포함하는 경계 영역(bounding box)을 생성하는 단계; 및 상기 깊이 이미지에서 상기 경계 영역에 해당하는 영역으로부터 상기 손 깊이 이미지를 추출하는 단계;를 포함할 수 있다.

실시예에서, 상기 손 깊이 이미지를 추출하는 단계는, 상기 깊이 이미지에서 상기 경계 영역에 해당하는 영역에서 깊이 임계값보다 작은 깊이의 영역을 제외하고 상기 손 깊이 이미지를 추출하는 단계;를 포함할 수 있다.

실시예에서, 상기 손 구성요소 특징 맵 및 손가락 끝부분 특징 맵을 생성하는 단계는, 상기 손 깊이 이미지를 손 구성요소 데이터 집합의 라벨링 항목에 대한 다수의 가중치(weight)들을 갖는 제1 컨볼루션 필터에 적용하여 상기 손 구성요소 특징 맵을 생성하는 단계; 및 상기 손 깊이 이미지를 손가락 끝부분 데이터 집합의 라벨링 항목에 대한 다수의 가중치들을 갖는 제2 컨볼루션 필터에 적용하여 상기 손가락 끝부분 특징 맵을 생성하는 단계;를 포함할 수 있다.

실시예에서, 상기 손 구성요소 특징 맵을 생성하는 단계 이전에, 상기 손 구성요소 데이터 집합으로부터 상기 제1 컨볼루션 필터의 다수의 가중치들을 산출하는 단계; 및 상기 손 구성요소 데이터 집합과 상기 손가락 끝부분 데이터 집합에서 동일한 라벨링 항목에 대하여, 상기 제1 컨볼루션 필터의 다수의 가중치들 중 적어도 하나를 이용하여 상기 제2 컨볼루션 필터의 다수의 가중치들을 산출하는 단계;를 더 포함할 수 있다.

실시예에서, 상기 손 구성요소 특징 맵을 생성하는 단계 이전에, 상기 손가락 끝부분 데이터 집합으로부터 상기 제2 컨볼루션 필터의 다수의 가중치들을 산출하는 단계; 및 상기 손가락 끝부분 데이터 집합과 상기 손 구성요소 데이터 집합에서의 동일한 라벨링 항목에 대하여, 상기 제2 컨볼루션 필터의 다수의 가중치들 중 적어도 하나를 이용하여 상기 제1 컨볼루션 필터의 다수의 가중치들을 산출하는 단계;를 더 포함할 수 있다.

실시예에서, 상기 손 구성요소 이미지를 생성하는 단계는, 상기 손 구성요소 특징 맵으로부터 계산된 대표 픽셀 값과 손 구성요소 데이터 집합의 라벨링 항목에 대한 대표 값을 비교하여 오차를 산출하는 단계; 상기 오차가 제1 임계값보다 작을 경우, 상기 대표 픽셀 값에 대응하는 각 손 구성요소를 라벨링하는 단계; 및 상기 라벨링에 따라 상기 각 손 구성요소가 분할된 손 구성요소 이미지를 생성하는 단계;를 포함할 수 있다.

실시예에서, 상기 손가락 끝부분 이미지를 생성하는 단계는, 상기 손가락 끝부분 특징 맵으로부터 각 손가락 구성요소에 대한 대표 픽셀 값과 손가락 끝부분 데이터 집합의 라벨링 항목에 대한 대표 값을 비교하여 오차를 산출하는 단계; 상기 오차가 제2 임계값보다 작을 경우, 상기 대표 픽셀 값에 대응하는 각 손가락 끝부분을 라벨링하는 단계; 및 상기 라벨링에 따라 상기 각 손가락 끝부분이 분할된 손가락 끝부분 이미지를 생성하는 단계;를 포함할 수 있다.

상기한 목적들을 달성하기 위한 구체적인 사항들은 첨부된 도면과 함께 상세하게 후술될 실시예들을 참조하면 명확해질 것이다.

그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라, 서로 다른 다양한 형태로 구성될 수 있으며, 본 발명의 개시가 완전하도록 하고 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자(이하, "통상의 기술자")에게 발명의 범주를 완전하게 알려주기 위해서 제공되는 것이다.

본 발명의 일 실시예에 의하면, 하나의 인코더 뒤에 두 개의 디코더들이 위치하여, 하나의 인코더가 손 구성요소 특징 맵 및 손가락 끝부분 특징 맵을 생성함으로써, 연산 복잡도를 감소시킬 수 있다.

본 발명의 효과들은 상술된 효과들로 제한되지 않으며, 본 발명의 기술적 특징들에 의하여 기대되는 잠정적인 효과들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 RGB-D 이미지로부터의 손 구성요소 및 손가락 끝 추적 프로세스를 도시한 도면이다.
도 2a는 본 발명의 일 실시예에 따른 손 데이터의 예를 도시한 도면이다.
도 2b는 본 발명의 일 실시예에 따른 손 구성요소 데이터의 예를 도시한 도면이다.
도 2c는 본 발명의 일 실시예에 따른 손가락 끝부분 데이터의 예를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 손 이미지 추출의 예를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 신경 합성곱 신경망을 이용한 손가락 끝부분 추적 단계를 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 전자 장치의 기능적 구성을 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 손 구성요소 데이터에 대한 성능 그래프를 도시한 도면이다.
도 7은 본 발명의 일 실시예에 따른 손가락 끝부분 데이터에 대한 성능 그래프를 도시한 도면이다.
도 8은 본 발명의 일 실시예에 따른 손 구성요소 및 손가락 끝 추적의 예를 도시한 도면이다.

본 발명은 다양한 변경을 가할 수 있고, 여러 가지 실시예들을 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 이를 상세히 설명하고자 한다.

청구범위에 개시된 발명의 다양한 특징들은 도면 및 상세한 설명을 고려하여 더 잘 이해될 수 있을 것이다. 명세서에 개시된 장치, 방법, 제법 및 다양한 실시예들은 예시를 위해서 제공되는 것이다. 개시된 구조 및 기능상의 특징들은 통상의 기술자로 하여금 다양한 실시예들을 구체적으로 실시할 수 있도록 하기 위한 것이고, 발명의 범위를 제한하기 위한 것이 아니다. 개시된 용어 및 문장들은 개시된 발명의 다양한 특징들을 이해하기 쉽게 설명하기 위한 것이고, 발명의 범위를 제한하기 위한 것이 아니다.

본 발명을 설명함에 있어서, 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명을 생략한다.

이하, 본 발명의 일 실시예에 따른 심층 합성곱 신경망(deep convolutional neural network)을 이용하여 RGB-D 이미지로부터 손 구성요소 및 손가락 끝을 추적하기 위한 방법 및 장치를 설명한다.

도 1은 본 발명의 일 실시예에 따른 RGB-D 이미지로부터의 손 구성요소 및 손가락 끝 추적 프로세스(100)를 도시한 도면이다.

도 1을 참고하면, 손 구성요소 및 손가락 끝 추적 프로세스(100)는 손 이미지 추출 단계(110)와 손 구성요소 및 손가락 끝부분 추출 단계(120)를 포함할 수 있다.

손 이미지 추출 단계(110)는 카메라를 통해 손을 포함하는 RGB 이미지를 획득하고, 객체 탐지 모델(object detection model)을 이용하여 RGB 이미지에서 손을 포함하는 경계 영역(bounding box)을 생성할 수 있다. 예를 들어, 객체 탐지 모델로 YOLOv2가 사용될 수 있다. 이 경우, 도 2a를 참고하면, RGB 손 이미지들로 표시된 다수 개의 라벨링된(labeling) RGB 손 이미지로 구성된 손 데이터 집합을 사용하여 객체 탐지 모델을 학습, 검증 및 평가할 수 있다.

손 이미지 추출 단계(110)는 카메라를 통해 깊이(depth) 이미지를 획득하고, 깊이 이미지에서 손을 포함하는 경계 영역에 해당하는 영역을 추출한 후, 깊이 이미지의 해당 영역에서 깊이 임계값보다 작은 깊이의 영역(예: 배경)을 제외하고 손 깊이 이미지만을 추출할 수 있다. 이 경우, 손 깊이 이미지는 손가락 끝부분 추출 단계(120)의 입력으로 제공될 수 있다.

손 구성요소 및 손가락 끝부분 추출 단계(120)는 심층 합성곱 신경망을 이용하여 손 깊이 이미지에서의 각 관심 영역에 대해, 손 구성요소를 식별하고 손가락 끝부분을 식별할 수 있다. 예를 들어, 심층 합성곱 신경망으로 SegNet이 사용될 수 있다.

이 경우, 도 2b를 참고하면, 심층 합성곱 신경망은 손 구성요소 데이터 집합(FingerPaint)을 통해 학습될 수 있다. 손 구성요소 데이터 집합은 적어도 하나의 유형의 손 모양에 따라 생성되고, 적어도 하나의 항목(예: 5개의 손가락, 배경, 손바닥, 팔목)으로 라벨링된 깊이 이미지를 포함할 수 있다. 손 구성요소 데이터 집합의 70%는 학습 데이터로 사용되고, 30%는 평가 데이터로 사용될 수 있다. 손 구성요소 데이터 집합이 분리되지 않았기 때문에, 학습과 평가를 위해 각각 7:3의 비율로 다른 부분집합으로 분류될 수 있다.

또한, 도 2c를 참고하면, 심층 합성곱 신경망은 손가락 끝부분 데이터 집합(HandNet)을 통해 학습될 수 있다. 손가락 끝부분 데이터 집합은 적어도 하나의 유형의 손 모양에 따라 생성되고, 적어도 하나의 항목(예: 5개의 손가락 끝부분, 배경, 손바닥, 팔목)으로 라벨링된 깊이 이미지를 포함할 수 있다. 손가락 끝부분 데이터 집합은 학습, 검증 및 평가의 세 부분으로 나뉘어질 수 있다.

도 3은 본 발명의 일 실시예에 따른 손 이미지 추출의 예를 도시한 도면이다.

도 3을 참고하면, RGB 이미지 I(x,y)에서 추출된 손을 포함하는 경계 영역의 두 점은 ((x,y)_I, (x’,y’)_I)로 표현될 수 있다. 이 경우, 깊이 이미지를 D(x,y)라고 가정하면, 깊이 이미지에서 경계 영역에 대응하는 손 영역은 ((x,y)_D, (x’,y’)_D)로 표현될 수 있다. X=(x,x’)_D, Y=(y,y’)_D이면, D(X,Y)는 감지된 손 영역의 깊이 정보를 포함한다. m=mode(D(X,Y))는 배경으로부터 손을 인식할 수 있는 깊이 수준이므로 하기 <수학식 1>과 같이 깊이 이미지의 손 영역에서 모든 배경 픽셀을 제거하여 손 깊이 이미지만을 추출할 수 있다.

여기서, t(예: 300)는 손을 이진화하기 위한 실험적으로 결정된 깊이 임계값을 나타낼 수 있다. 직사각형 평행선 안의 픽셀만이 손으로 추출될 수 있다. 즉, <수학식 1>에 따른 손 깊이 이미지 D(X,Y)는 손 구성요소 및 손가락 끝 검출을 위한 입력으로 사용될 수 있다.

도 4는 본 발명의 일 실시예에 따른 신경 합성곱 신경망을 이용한 손 구성요소 및 손가락 끝부분 추적 단계(400)를 도시한 도면이다.

도 4를 참고하면, 손 구성요소 및 손가락 끝 추적 단계(400)는 인코딩 단계(410), 제1 디코딩 단계(420) 및 제2 디코딩 단계(430)를 포함할 수 있다.

인코딩 단계(410)는 입력으로 제공된 손 깊이 이미지를 이용하여 특징 맵(feature map)을 생성할 수 있다. 제1 디코딩 단계(420)는 인코딩 단계(410)에서 생성된 특징 맵을 이용하여 배경, 손바닥 및 손가락 5개를 나타내는 7개의 이진(binary) 이미지를 생성할 수 있다. 제2 디코딩 단계(430)는 인코딩 단계(410)에서 생성된 동일한 특징 맵을 이용하여 배경, 손 및 손가락 끝을 나타내는 또 다른 7개의 이진 이미지를 생성할 수 있다.

즉, 본 발명의 일 실시예에 따른 손 구성요소 및 손가락 끝 추적 프로세스(400)는 제1 디코딩 단계(420)와 제2 디코딩 단계(430)가 인코딩 단계(410)를 공유한다. 제1 디코딩 단계(420)와 제2 디코딩 단계(430)에는 두 개의 독립적인 프로세스가 포함되어 있지만 동일한 백본 네트워크(backbone network), 즉, 인코딩 단계(410)를 사용하여 우수한 성능을 달성할 수 있으며, 모델 복잡도는 실시간 애플리케이션에 적합하다. 결과적으로 손 구성요소 및 손가락 끝 추적 프로세스(400)의 복잡도는 매개변수가 감소되었지만 성능은 종래의 기술과 유사하다.

도 5는 본 발명의 일 실시예에 따른 전자 장치(500)의 기능적 구성을 도시한 도면이다.

도 5를 참고하면, 전자 장치(500)는 이미지 획득부(510), 저장부(520) 및 제어부(530)를 포함할 수 있다.

이미지 획득부(510)는 RGB 이미지, 깊이 이미지 및 트레이닝 객체 이미지를 획득할 수 있다. 일 실시예에서, 이미지 획득부(510)는 RGB 이미지, 깊이 이미지 및 트레이닝 객체 이미지를 촬영하는 촬영부(예: 카메라)를 포함할 수 있다. 일 실시예에서, 이미지 획득부(510)는 RGB 이미지, 깊이 이미지 및 트레이닝 객체 이미지를 외부 전자 장치로부터 수신하기 위한 통신부를 포함할 수 있다.

저장부(520)는 RGB 이미지, 깊이 이미지 및 트레이닝 객체 이미지를 저장할 수 있다. 저장부(520)는 비휘발성 메모리, 휘발성 메모리, 내장형 메모리, 착탈 가능한 외장형 메모리, 하드 디스크, 광 디스크, 광자기 디스크, 또는 본 발명이 속하는 기술분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함할 수 있다.

제어부(530)는 손 인식부(540)와 손 분할부(550)를 포함할 수 있다.

손 인식부(540)는 이미지 획득부(510)를 통해 RGB 이미지 및 깊이 이미지를 획득할 수 있다. 손인식부(540)는 객체 탐지 모델을 이용하여 RGB 이미지에서 손을 포함하는 경계 영역을 생성할 수 있다. 또한, 손 인식부(540)는 깊이 이미지에서 손을 포함하는 경계 영역에 해당하는 부분을 추출한 후, 깊이 임계값을 사용하여 깊이 이미지의 경계 영역에서 배경을 제외한 손 깊이 이미지만을 추출할 수 있다.

손 분할부(550)는 손 깊이 이미지를 심층 합성곱 신경망에 적용하여 손 구성요소 및 손가락 끝부분을 추출할 수 있다. 일 실시예에서, 손 분할부(550)는 인코더(552), 제1 디코더(554) 및 제2 디코더(556)를 포함할 수 있다.

인코더(552)는 손 깊이 이미지를 손 구성요소에 대한 컨볼루션 레이어(convolution layer)에 적용하여 손 구성요소 특징 맵을 생성할 수 있다. 또한, 인코더(552)는 손 깊이 이미지를 손가락 끝부분에 대한 컨볼루션 레이어에 적용하여 손가락 끝부분 특징 맵을 생성할 수 있다.

일 실시예에서, 인코더(552)는 신경 합성곱 신경망의 백본으로서, 다수의 컨볼루션 레이어(convolution layer)들을 포함할 수 있다.

일 실시예에서, 손 구성요소에 대한 컨볼루션 레이어는 손 구성요소 데이터 집합으로 산출된 가중치(weight)를 갖는 제1 컨볼루션 필터를 의미할 수 있다. 또한, 손가락 끝부분에 대한 컨볼루션 레이어는 손가락 끝부분 데이터 집합으로부터 산출된 가중치를 갖는 제2 컨볼루션 필터를 의미할 수 있다.

여기서, 손 구성요소 데이터 집합은 배경, 손바닥, 적어도 하나의 손가락을 포함하고, 손가락 끝부분 구성요소 데이터 집합은 배경, 손바닥, 적어도 하나의 손가락 끝부분을 포함할 수 있다.

이 경우, 손 구성요소 데이터 집합과 손가락 끝부분 구성요소 데이터 집합에서 공통으로 지정된 라벨링 항목(예: 배경, 손바닥)에 대하여는 손 구성요소에 대한 제1 컨볼루션 필터의 가중치와 손가락 끝부분에 대한 제2 컨볼루션 필터의 가중치가 동일하기 때문에, 인코더(552)는 매개변수를 이용하여 해당 가중치를 각각 산출하지 않고, 한 컨볼루션 필터의 가중치를 산출한 후 나머지 컨볼루션 필터의 가중치로 동일하게 바로 사용할 수 있다.

예를 들어, 인코더(552)는 손 구성요소 데이터 집합으로부터 제1 컨볼루션 필터의 다수의 가중치들을 산출하고, 손 구성요소 데이터 집합과 손가락 끝부분 구성요소 데이터 집합에서 동일한 라벨링 항목에 대하여, 제1 컨볼루션 필터의 다수의 가중치들 중 적어도 하나를 이용하여 제2 컨볼루션 필터의 다수의 가중치들을 산출할 수 있다.

예를 들어, 심층 합성곱 신경망을 사용하여 특징 맵을 생성하는 경우 20x20의 픽셀을 갖는 손 깊이 이미지를 5x5 컨볼루션 필터에 적용하면 16x16의 픽셀의 특징 맵을 생성할 수 있다. 이 경우, 배경 및 손바닥에 대하여는 별도로 매개변수를 이용하여 가중치를 산출하지 않고, 손 구성요소에 대한 5x5 컨볼루션 필터의 가중치를 손가락 끝부분에 대한 5x5 컨볼루션 필터의 가중치로 사용할 수 있다.

이로 인해, 손 구성요소 및 손가락 끝부분 산출을 위해 하나의 인코더(552)가 공유되는 경우, 컨볼루션 필터의 가중치를 산출하기 위한 매개변수가 상당히 감소하여 연산 효율성이 증대될 수 있다.

일 실시예에서, 인코더(552)는 풀링 레이어(pooling layer)를 포함할 수 있으며, 풀링 레이어를 이용하여 특성 맵의 크기를 감소시켜 복잡도(complexity)를 완화하고, 과적합(overfitting)을 방지할 수 있다.

제1 디코더(554)는 손 구성요소 특징 맵을 손 구성요소 데이터 집합의 특징 맵과 비교하여 배경, 손바닥 및 적어도 하나의 손가락이 분할(segmentation)된 손 구성요소 이미지를 생성할 수 있다.

구체적으로, 제1 디코더(554)는 손 구성요소 특징 맵으로부터 계산된 대표 픽셀 값과 손 구성요소 데이터 집합의 라벨링 항목에 대한 대표 값을 비교하여 오차를 산출할 수 있다. 이 경우, 제1 디코더(554)는 오차가 제1 임계값보다 작을 경우, 해당 대표 픽셀 값에 대응하는 각 손 구성요소를 라벨링하여, 라벨링에 따라 각 손 구성요소가 분할된 손 구성요소 이미지를 생성할 수 있다.

제2 디코더(556)는 손가락 끝부분 특징 맵을 손가락 끝부분 데이터 집합의 특징 맵과 비교하여 배경, 손 및 손가락 끝부분으로 분할된 손가락 끝부분 이미지를 생성할 수 있다.

구체적으로, 제2 디코더(556)는 손가락 끝부분 특징 맵으로부터 각 손가락 구성요소에 대한 대표 픽셀 값과 손가락 끝부분 데이터 집합의 라벨링 항목에 대한 대표 값을 비교하여 오차를 산출할 수 있다. 이 경우, 제2 디코더(556)는 오차가 제2 임계값보다 작을 경우, 해당 대표 픽셀 값에 대응하는 각 손가락 끝부분을 라벨링하여, 라벨링에 따라 각 손가락 끝부분이 분할된 손가락 끝부분 이미지를 생성할 수 있다.

즉, 본 발명의 일 실시예에 따른 전자 장치(500)는 하나의 인코더(552) 뒤에 두 개의 디코더들(554, 556)이 위치할 수 있다. 이러한 두 개의 디코더들(554, 556) 각각은 손 구성요소 및 손가락 끝 검출을 위해 사용될 수 있다.

도 6은 본 발명의 일 실시예에 따른 손 구성요소 데이터에 대한 성능 그래프를 도시한 도면이다.

도 6을 참고하면, 본 발명에 따른 손 구성요소 추출 방법은 비특허문헌 1과 비특허문헌 2에 의해 기술된 방법보다 우수한 성능을 보인다. 또한, 본 발명에 따른 손 구성요소 추출 방법은 분류 오차 임계값이 60%보다 클 때, 비특허문헌 3보다 높은 성능을 보였다. 일 실시예에서, 손 구성요소 추출 시간은 30fps일 수 있다. 또한, 본 발명에 따른 손 구성요소 추출 방법은 비특허문헌 1, 2에서 언급한 바와 같은 보정 단계를 거치지 않고도 다중 손 구성요소 분할을 처리할 수 있다.

도 7은 본 발명의 일 실시예에 따른 손가락 끝부분 데이터에 대한 성능 그래프를 도시한 도면이다.

도 7을 참고하면, 본 발명에 따른 손가락 끝부분 추출 방법 평가를 위해 오류 임계값에 대한 평균 탐지 정확도를 계산하고, 손가락 끝부분 데이터 집합을 사용하는 종래의 랜덤 의사결정 트리 및 합성곱 신경망과 비교할 수 있다. 일 실시예에서, 하기 <수학식 2>를 참고하면,

는 예측된 위치

와 실제 손가락 끝 중앙

사이의 거리 (cm)를 나타낼 수 있다.

이때, N은 검증 이미지의 총 수이다. 이 경우, 하기 <수학식 3>을 참고하면,

를 작은 임계값

와 비교함으로써, 검출 정밀도 P는 임계값

내에서 검출 성공의 합산을 나타낼 수 있다.

본 발명에 따른 손가락 끝부분 추출 방법의 성능은 오류 임계값의 0.1에서 0.6 범위에서 랜덤 의사결정 트리보다 낮지만, 대부분의 경우 1.0 오류 임계값의 정밀도를 기준으로 하여 손가락 끝부분 데이터 집합의 손가락 끝 감지 시스템을 비교한다. 이 경우, 본 발명에 따른 손가락 끝부분 추출 방법의 엄지 손가락에 대한 오류 임계값의 정밀도가 약 0.83이며, 0.76과 0.81을 얻은 다른 두 방법보다 높은 성능을 보임을 알 수 있다.

도 8은 본 발명의 일 실시예에 따른 손 구성요소 및 손가락 끝 추적의 예를 도시한 도면이다.

도 8을 참고하면, 본 발명에 따른 심층 합성곱 신경망은 많은 수의 매개 변수(최대 10,014,563)를 저장할 뿐 아니라 손 구성요소 데이터 집합과 손가락 끝부분 데이터 집합에서 높은 정확성을 달성했음을 확인할 수 있다. 공유 인코더인 백본은 손 깊이 이미지를 통해 손의 일반적인 표현을 배울 수 있으며, 각 디코더 자체는 첫 단계부터 학습을 통해 특정 작업(손 구성요소 분할, 손가락 끝부분 탐지)를 처리할 수 있다. 또한, 본 발명에 따른 심층 합성곱 신경망은 사용자가 손의 구성요소를 숨길 수 있으므로 국소 폐쇄 문제(local occlusion problem)를 해결함을 확인할 수 있다.

이상의 설명은 본 발명의 기술적 사상을 예시적으로 설명한 것에 불과한 것으로, 통상의 기술자라면 본 발명의 본질적인 특성이 벗어나지 않는 범위에서 다양한 변경 및 수정이 가능할 것이다.

따라서, 본 명세서에 개시된 실시예들은 본 발명의 기술적 사상을 한정하기 위한 것이 아니라, 설명하기 위한 것이고, 이러한 실시예들에 의하여 본 발명의 범위가 한정되는 것은 아니다.

본 발명의 보호범위는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 이해되어야 한다.

100: 손 구성요소 및 손가락 끝 추적 프로세스
110: 손 이미지 추출 단계
120: 손 구성요소 및 손가락 끝부분 추출 단계
400: 손 구성요소 및 손가락 끝부분 추적 단계
410: 인코딩 단계
420: 제1 디코딩 단계
430: 제2 디코딩 단계
500: 전자 장치
510: 이미지 획득부
520: 저장부
530: 제어부
540: 손 인식부
550: 손 분할부
552: 인코더
554: 제1 디코더
556: 제2 디코더

Claims

손을 포함하는 RGB 이미지 및 상기 RGB 이미지에 대응하는 깊이(depth) 이미지를 수신하는 이미지 획득부;
상기 RGB 이미지 및 깊이 이미지로부터 손 깊이 이미지를 추출하는 손 인식부;
상기 손 깊이 이미지로부터 손 구성요소 특징 맵 및 손가락 끝부분 특징 맵을 생성하는 인코더;
상기 손 구성요소 특징 맵으로부터 각 손 구성요소가 분할(segmentation)된 손 구성요소 이미지를 생성하는 제1 디코더; 및
상기 손가락 끝부분 특징 맵으로부터 각 손가락 끝부분이 분할된 손가락 끝부분 이미지를 생성하는 제2 디코더;
를 포함하는,
전자 장치.
제1항에 있어서,
상기 손 인식부는,
상기 RGB 이미지를 객체 탐지 모델에 적용하여 손을 포함하는 경계 영역(bounding box)을 생성하고,
상기 깊이 이미지에서 상기 경계 영역에 해당하는 영역으로부터 상기 손 깊이 이미지를 추출하는,
전자 장치.
제2항에 있어서,
상기 손 인식부는,
상기 깊이 이미지에서 상기 경계 영역에 해당하는 영역에서 깊이 임계값보다 작은 깊이의 영역을 제외하고 상기 손 깊이 이미지를 추출하는,
전자 장치.
제1항에 있어서,
상기 인코더는,
상기 손 깊이 이미지를 손 구성요소 데이터 집합의 라벨링 항목에 대한 다수의 가중치(weight)들을 갖는 제1 컨볼루션 필터에 적용하여 상기 손 구성요소 특징 맵을 생성하고,
상기 손 깊이 이미지를 손가락 끝부분 데이터 집합의 라벨링 항목에 대한 다수의 가중치들을 갖는 제2 컨볼루션 필터에 적용하여 상기 손가락 끝부분 특징 맵을 생성하는,
전자 장치.
제4항에 있어서,
상기 인코더는,
상기 손 구성요소 데이터 집합으로부터 상기 제1 컨볼루션 필터의 다수의 가중치들을 산출하고,
상기 손 구성요소 데이터 집합과 상기 손가락 끝부분 데이터 집합에서 동일한 라벨링 항목에 대하여, 상기 제1 컨볼루션 필터의 다수의 가중치들 중 적어도 하나를 이용하여 상기 제2 컨볼루션 필터의 다수의 가중치들을 산출하는,
전자 장치.
제4항에 있어서,
상기 인코더는,
상기 손가락 끝부분 데이터 집합으로부터 상기 제2 컨볼루션 필터의 다수의 가중치들을 산출하고,
상기 손가락 끝부분 데이터 집합과 상기 손 구성요소 데이터 집합에서의 동일한 라벨링 항목에 대하여, 상기 제2 컨볼루션 필터의 다수의 가중치들 중 적어도 하나를 이용하여 상기 제1 컨볼루션 필터의 다수의 가중치들을 산출하는,
전자 장치.
제4항에 있어서,
상기 손 구성요소 데이터 집합의 라벨링 항목은, 적어도 하나의 손가락, 배경, 손바닥 및 팔목 중 적어도 하나이고,
손가락 끝부분 데이터 집합의 라벨링 항목은, 적어도 하나의 손가락 끝부분, 상기 배경, 상기 손바닥 및 상기 팔목 중 적어도 하나인,
전자 장치.
제1항에 있어서,
상기 제1 디코더는,
상기 손 구성요소 특징 맵으로부터 계산된 대표 픽셀 값과 손 구성요소 데이터 집합의 라벨링 항목에 대한 대표 값을 비교하여 오차를 산출하고,
상기 오차가 제1 임계값보다 작을 경우, 상기 대표 픽셀 값에 대응하는 각 손 구성요소를 라벨링하고,
상기 라벨링에 따라 상기 각 손 구성요소가 분할된 손 구성요소 이미지를 생성하는,
전자 장치.
제1항에 있어서,
상기 제2 디코더는,
상기 손가락 끝부분 특징 맵으로부터 각 손가락 구성요소에 대한 대표 픽셀 값과 손가락 끝부분 데이터 집합의 라벨링 항목에 대한 대표 값을 비교하여 오차를 산출하고,
상기 오차가 제2 임계값보다 작을 경우, 상기 대표 픽셀 값에 대응하는 각 손가락 끝부분을 라벨링하고,
상기 라벨링에 따라 상기 각 손가락 끝부분이 분할된 손가락 끝부분 이미지를 생성하는,
전자 장치.
손을 포함하는 RGB 이미지 및 상기 RGB 이미지에 대응하는 깊이(depth) 이미지를 수신하는 단계;
상기 RGB 이미지 및 깊이 이미지로부터 손 깊이 이미지를 추출하는 단계;
상기 손 깊이 이미지로부터 손 구성요소 특징 맵 및 손가락 끝부분 특징 맵을 생성하는 단계;
상기 손 구성요소 특징 맵으로부터 각 손 구성요소가 분할(segmentation)된 손 구성요소 이미지를 생성하고,
상기 손가락 끝부분 특징 맵으로부터 각 손가락 끝부분이 분할된 손가락 끝부분 이미지를 생성하는 단계;
를 포함하는,
전자 장치의 동작 방법.
제10항에 있어서,
상기 손 깊이 이미지를 추출하는 단계는,
상기 RGB 이미지를 객체 탐지 모델에 적용하여 손을 포함하는 경계 영역(bounding box)을 생성하는 단계; 및
상기 깊이 이미지에서 상기 경계 영역에 해당하는 영역으로부터 상기 손 깊이 이미지를 추출하는 단계;
를 포함하는,
전자 장치의 동작 방법.
제11항에 있어서,
상기 손 깊이 이미지를 추출하는 단계는,
상기 깊이 이미지에서 상기 경계 영역에 해당하는 영역에서 깊이 임계값보다 작은 깊이의 영역을 제외하고 상기 손 깊이 이미지를 추출하는 단계;
를 포함하는,
전자 장치의 동작 방법.
제10항에 있어서,
상기 손 구성요소 특징 맵 및 손가락 끝부분 특징 맵을 생성하는 단계는,
상기 손 깊이 이미지를 손 구성요소 데이터 집합의 라벨링 항목에 대한 다수의 가중치(weight)들을 갖는 제1 컨볼루션 필터에 적용하여 상기 손 구성요소 특징 맵을 생성하는 단계; 및
상기 손 깊이 이미지를 손가락 끝부분 데이터 집합의 라벨링 항목에 대한 다수의 가중치들을 갖는 제2 컨볼루션 필터에 적용하여 상기 손가락 끝부분 특징 맵을 생성하는 단계;
를 포함하는,
전자 장치의 동작 방법.
제13항에 있어서,
상기 손 구성요소 특징 맵을 생성하는 단계 이전에,
상기 손 구성요소 데이터 집합으로부터 상기 제1 컨볼루션 필터의 다수의 가중치들을 산출하는 단계; 및
상기 손 구성요소 데이터 집합과 상기 손가락 끝부분 데이터 집합에서 동일한 라벨링 항목에 대하여, 상기 제1 컨볼루션 필터의 다수의 가중치들 중 적어도 하나를 이용하여 상기 제2 컨볼루션 필터의 다수의 가중치들을 산출하는 단계;
를 더 포함하는,
전자 장치의 동작 방법.
제13항에 있어서,
상기 손 구성요소 특징 맵을 생성하는 단계 이전에,
상기 손가락 끝부분 데이터 집합으로부터 상기 제2 컨볼루션 필터의 다수의 가중치들을 산출하는 단계; 및
상기 손가락 끝부분 데이터 집합과 상기 손 구성요소 데이터 집합에서의 동일한 라벨링 항목에 대하여, 상기 제2 컨볼루션 필터의 다수의 가중치들 중 적어도 하나를 이용하여 상기 제1 컨볼루션 필터의 다수의 가중치들을 산출하는 단계;
를 더 포함하는,
전자 장치의 동작 방법.
제13항에 있어서,
상기 손 구성요소 데이터 집합의 라벨링 항목은, 적어도 하나의 손가락, 배경, 손바닥 및 팔목 중 적어도 하나이고,
손가락 끝부분 데이터 집합의 라벨링 항목은, 적어도 하나의 손가락 끝부분, 상기 배경, 상기 손바닥 및 상기 팔목 중 적어도 하나인,
전자 장치의 동작 방법.
제10항에 있어서,
상기 손 구성요소 이미지를 생성하는 단계는,
상기 손 구성요소 특징 맵으로부터 계산된 대표 픽셀 값과 손 구성요소 데이터 집합의 라벨링 항목에 대한 대표 값을 비교하여 오차를 산출하는 단계;
상기 오차가 제1 임계값보다 작을 경우, 상기 대표 픽셀 값에 대응하는 각 손 구성요소를 라벨링하는 단계; 및
상기 라벨링에 따라 상기 각 손 구성요소가 분할된 손 구성요소 이미지를 생성하는 단계;
를 포함하는,
전자 장치의 동작 방법.
제10항에 있어서,
상기 손가락 끝부분 이미지를 생성하는 단계는,
상기 손가락 끝부분 특징 맵으로부터 각 손가락 구성요소에 대한 대표 픽셀 값과 손가락 끝부분 데이터 집합의 라벨링 항목에 대한 대표 값을 비교하여 오차를 산출하는 단계;
상기 오차가 제2 임계값보다 작을 경우, 상기 대표 픽셀 값에 대응하는 각 손가락 끝부분을 라벨링하는 단계; 및
상기 라벨링에 따라 상기 각 손가락 끝부분이 분할된 손가락 끝부분 이미지를 생성하는 단계;
를 포함하는,
전자 장치의 동작 방법.