KR102123289B1 - 심층 합성곱 신경망을 이용하여 rgb-d 이미지로부터 손 구성요소 및 손가락 끝을 추적하기 위한 방법 및 장치 - Google Patents
심층 합성곱 신경망을 이용하여 rgb-d 이미지로부터 손 구성요소 및 손가락 끝을 추적하기 위한 방법 및 장치 Download PDFInfo
- Publication number
- KR102123289B1 KR102123289B1 KR1020180149013A KR20180149013A KR102123289B1 KR 102123289 B1 KR102123289 B1 KR 102123289B1 KR 1020180149013 A KR1020180149013 A KR 1020180149013A KR 20180149013 A KR20180149013 A KR 20180149013A KR 102123289 B1 KR102123289 B1 KR 102123289B1
- Authority
- KR
- South Korea
- Prior art keywords
- hand
- fingertip
- image
- data set
- hand component
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 29
- 238000013527 convolutional neural network Methods 0.000 title abstract description 14
- 238000002372 labelling Methods 0.000 claims description 51
- 238000001514 detection method Methods 0.000 claims description 15
- 210000003811 finger Anatomy 0.000 description 27
- 238000000605 extraction Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 239000000284 extract Substances 0.000 description 7
- 238000012549 training Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000004247 hand Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003334 potential effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
Images
Classifications
-
- G06K9/00375—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G06K9/00355—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 심층 합성곱 신경망(deep convolutional neural network)을 이용하여 RGB-D 이미지로부터 손 구성요소 및 손가락 끝을 추적하기 위한 장치에 관한 것이다. 본 발명의 일 실시예에 따른 전자 장치는 손을 포함하는 RGB 이미지 및 상기 RGB 이미지에 대응하는 깊이(depth) 이미지를 수신하는 이미지 획득부; 상기 RGB 이미지 및 깊이 이미지로부터 손 깊이 이미지를 추출하는 손 인식부; 상기 손 깊이 이미지로부터 손 구성요소 특징 맵 및 손가락 끝부분 특징 맵을 생성하는 인코더; 상기 손 구성요소 특징 맵으로부터 각 손 구성요소가 분할(segmentation)된 손 구성요소 이미지를 생성하는 제1 디코더; 및 상기 손가락 끝부분 특징 맵으로부터 각 손가락 끝부분이 분할된 손가락 끝부분 이미지를 생성하는 제2 디코더;를 포함할 수 있다.
Description
본 발명은 심층 합성곱 신경망에 관한 것으로, 더욱 상세하게는 심층 합성곱 신경망을 이용하여 RGB-D 이미지로부터 손 구성요소 및 손가락 끝을 추적하기 위한 방법 및 장치에 관한 것이다.
최근 컴퓨터 마우스를 제어하고 키보드를 통해 입력하거나 디지털 패드를 터치하고 펜으로 쓰는 것 대신에 손동작을 기반으로 하는 방법에 대한 연구가 활발히 진행되고 있다.
일반적으로 이러한 시스템은 입력 신호에 따라 결정하기 전에 손의 움직임이나 제스처를 필요로 한다. 사용자의 명령을 습득하는 데는 카메라 기반 또는 장비 기반 방법의 두 가지 주요한 방법이 있다. 카메라 기반 방법의 경우, 고성능 카메라를 사용하여 2D 객체 뿐 아니라 고정밀 손 모델링 문제를 해결할 수 있는 깊이 정보를 측정할 수 있다. 이러한 웨어러블 기기를 사용하지 않는 카메라 기반 방법은 자연스러운 인간과 기계 상호 작용 시스템의 사용을 위한 유망한 방법이다.
그러나 표본 추출 환경의 배경이 다양하기 때문에 손 영역 탐지와 손가락 끝부분 탐지는 여전히 어려운 문제가 있으나 이에 대한 연구는 미흡한 실정이다.
T. Sharp, C. Keskin, D. Robertson, J. Taylor, J. Shotton, D. Kim, C. Rhemann, I.Leichter, A. Vinnikov, Y. Wei, D. Freedman, P. Kohli, E. Krupka, A. Fitzgibb- on, S. Izadi, Accurate, robust, and flexible real-time hand traking, in: Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI), 2015, pp. 3633-3642.
D. J. Tan, T. Cashman, J. Taylor, A. Fitzgibbon, D. Tarlow, S. Khamis, S. Izadi, J. Shotton, Fits like a glove: Rapid and reliable hand shape personalization, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 5610-5619.
J. Taylor, L. Bordeaux, T. Cashman, B. Corish, C. Keskin, T. Sharp, E. Soto, D. Sweeney, J. Valentin, B. Luff, A. Topalian, E. Wood, S. Khamis, P. Kohli, S. Izdi, R. Banks, A. Fitzgibbon, J. Shotton, Efficient and precise interactive hand tracking through joint, continuous optimization of pose and correspondences, ACM Transactions on Graphics 35 (4) (2016) 143:1-143:12.
본 발명은 전술한 문제점을 해결하기 위하여 창출된 것으로, 심층 합성곱 신경망을 이용하여 RGB-D 이미지로부터 손 구성요소 및 손가락 끝을 추적하기 위한 방법 및 장치를 제공하는 것을 그 목적으로 한다.
또한, 본 발명은 하나의 인코더 뒤에 두 개의 디코더들이 위치하여, 하나의 인코더가 손 구성요소 특징 맵 및 손가락 끝부분 특징 맵을 생성하는 것을 그 목적으로 한다.
또한, 본 발명은 손 구성요소 데이터 집합과 손가락 끝부분 구성요소 데이터 집합에서 공통으로 지정된 라벨링 항목에 대하여는 한 컨볼루션 필터의 가중치를 산출한 후 나머지 컨볼루션 필터의 가중치로 동일하게 바로 사용하는 것을 그 목적으로 한다.
본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.
상기한 목적들을 달성하기 위하여, 본 발명의 일 실시예에 따른 전자 장치는, 손을 포함하는 RGB 이미지 및 상기 RGB 이미지에 대응하는 깊이(depth) 이미지를 수신하는 이미지 획득부; 상기 RGB 이미지 및 깊이 이미지로부터 손 깊이 이미지를 추출하는 손 인식부; 상기 손 깊이 이미지로부터 손 구성요소 특징 맵 및 손가락 끝부분 특징 맵을 생성하는 인코더; 상기 손 구성요소 특징 맵으로부터 각 손 구성요소가 분할(segmentation)된 손 구성요소 이미지를 생성하는 제1 디코더; 및 상기 손가락 끝부분 특징 맵으로부터 각 손가락 끝부분이 분할된 손가락 끝부분 이미지를 생성하는 제2 디코더;를 포함할 수 있다.
실시예에서, 상기 손 인식부는, 상기 RGB 이미지를 객체 탐지 모델에 적용하여 손을 포함하는 경계 영역(bounding box)을 생성하고, 상기 깊이 이미지에서 상기 경계 영역에 해당하는 영역으로부터 상기 손 깊이 이미지를 추출할 수 있다.
실시예에서, 상기 손 인식부는, 상기 깊이 이미지에서 상기 경계 영역에 해당하는 영역에서 깊이 임계값보다 작은 깊이의 영역을 제외하고 상기 손 깊이 이미지를 추출할 수 있다.
실시예에서, 상기 인코더는, 상기 손 깊이 이미지를 손 구성요소 데이터 집합의 라벨링 항목에 대한 다수의 가중치(weight)들을 갖는 제1 컨볼루션 필터에 적용하여 상기 손 구성요소 특징 맵을 생성하고, 상기 손 깊이 이미지를 손가락 끝부분 데이터 집합의 라벨링 항목에 대한 다수의 가중치들을 갖는 제2 컨볼루션 필터에 적용하여 상기 손가락 끝부분 특징 맵을 생성할 수 있다.
실시예에서, 상기 인코더는, 상기 손 구성요소 데이터 집합으로부터 상기 제1 컨볼루션 필터의 다수의 가중치들을 산출하고, 상기 손 구성요소 데이터 집합과 상기 손가락 끝부분 데이터 집합에서 동일한 라벨링 항목에 대하여, 상기 제1 컨볼루션 필터의 다수의 가중치들 중 적어도 하나를 이용하여 상기 제2 컨볼루션 필터의 다수의 가중치들을 산출할 수 있다.
실시예에서, 상기 인코더는, 상기 손가락 끝부분 데이터 집합으로부터 상기 제2 컨볼루션 필터의 다수의 가중치들을 산출하고, 상기 손가락 끝부분 데이터 집합과 상기 손 구성요소 데이터 집합에서의 동일한 라벨링 항목에 대하여, 상기 제2 컨볼루션 필터의 다수의 가중치들 중 적어도 하나를 이용하여 상기 제1 컨볼루션 필터의 다수의 가중치들을 산출할 수 있다.
실시예에서, 상기 손 구성요소 데이터 집합의 라벨링 항목은, 적어도 하나의 손가락, 배경, 손바닥 및 팔목 중 적어도 하나이고, 손가락 끝부분 데이터 집합의 라벨링 항목은, 적어도 하나의 손가락 끝부분, 상기 배경, 상기 손바닥 및 상기 팔목 중 적어도 하나일 수 있다.
실시예에서, 상기 제1 디코더는, 상기 손 구성요소 특징 맵으로부터 계산된 대표 픽셀 값과 손 구성요소 데이터 집합의 라벨링 항목에 대한 대표 값을 비교하여 오차를 산출하고, 상기 오차가 제1 임계값보다 작을 경우, 상기 대표 픽셀 값에 대응하는 각 손 구성요소를 라벨링하고, 상기 라벨링에 따라 상기 각 손 구성요소가 분할된 손 구성요소 이미지를 생성할 수 있다.
실시예에서, 상기 제2 디코더는, 상기 손가락 끝부분 특징 맵으로부터 각 손가락 구성요소에 대한 대표 픽셀 값과 손가락 끝부분 데이터 집합의 라벨링 항목에 대한 대표 값을 비교하여 오차를 산출하고, 상기 오차가 제2 임계값보다 작을 경우, 상기 대표 픽셀 값에 대응하는 각 손가락 끝부분을 라벨링하고, 상기 라벨링에 따라 상기 각 손가락 끝부분이 분할된 손가락 끝부분 이미지를 생성할 수 있다.
실시예에서, 전자 장치의 동작 방법은 손을 포함하는 RGB 이미지 및 상기 RGB 이미지에 대응하는 깊이(depth) 이미지를 수신하는 단계; 상기 RGB 이미지 및 깊이 이미지로부터 손 깊이 이미지를 추출하는 단계; 상기 손 깊이 이미지로부터 손 구성요소 특징 맵 및 손가락 끝부분 특징 맵을 생성하는 단계; 상기 손 구성요소 특징 맵으로부터 각 손 구성요소가 분할(segmentation)된 손 구성요소 이미지를 생성하고, 상기 손가락 끝부분 특징 맵으로부터 각 손가락 끝부분이 분할된 손가락 끝부분 이미지를 생성하는 단계;를 포함할 수 있다.
실시예에서, 상기 손 깊이 이미지를 추출하는 단계는, 상기 RGB 이미지를 객체 탐지 모델에 적용하여 손을 포함하는 경계 영역(bounding box)을 생성하는 단계; 및 상기 깊이 이미지에서 상기 경계 영역에 해당하는 영역으로부터 상기 손 깊이 이미지를 추출하는 단계;를 포함할 수 있다.
실시예에서, 상기 손 깊이 이미지를 추출하는 단계는, 상기 깊이 이미지에서 상기 경계 영역에 해당하는 영역에서 깊이 임계값보다 작은 깊이의 영역을 제외하고 상기 손 깊이 이미지를 추출하는 단계;를 포함할 수 있다.
실시예에서, 상기 손 구성요소 특징 맵 및 손가락 끝부분 특징 맵을 생성하는 단계는, 상기 손 깊이 이미지를 손 구성요소 데이터 집합의 라벨링 항목에 대한 다수의 가중치(weight)들을 갖는 제1 컨볼루션 필터에 적용하여 상기 손 구성요소 특징 맵을 생성하는 단계; 및 상기 손 깊이 이미지를 손가락 끝부분 데이터 집합의 라벨링 항목에 대한 다수의 가중치들을 갖는 제2 컨볼루션 필터에 적용하여 상기 손가락 끝부분 특징 맵을 생성하는 단계;를 포함할 수 있다.
실시예에서, 상기 손 구성요소 특징 맵을 생성하는 단계 이전에, 상기 손 구성요소 데이터 집합으로부터 상기 제1 컨볼루션 필터의 다수의 가중치들을 산출하는 단계; 및 상기 손 구성요소 데이터 집합과 상기 손가락 끝부분 데이터 집합에서 동일한 라벨링 항목에 대하여, 상기 제1 컨볼루션 필터의 다수의 가중치들 중 적어도 하나를 이용하여 상기 제2 컨볼루션 필터의 다수의 가중치들을 산출하는 단계;를 더 포함할 수 있다.
실시예에서, 상기 손 구성요소 특징 맵을 생성하는 단계 이전에, 상기 손가락 끝부분 데이터 집합으로부터 상기 제2 컨볼루션 필터의 다수의 가중치들을 산출하는 단계; 및 상기 손가락 끝부분 데이터 집합과 상기 손 구성요소 데이터 집합에서의 동일한 라벨링 항목에 대하여, 상기 제2 컨볼루션 필터의 다수의 가중치들 중 적어도 하나를 이용하여 상기 제1 컨볼루션 필터의 다수의 가중치들을 산출하는 단계;를 더 포함할 수 있다.
실시예에서, 상기 손 구성요소 데이터 집합의 라벨링 항목은, 적어도 하나의 손가락, 배경, 손바닥 및 팔목 중 적어도 하나이고, 손가락 끝부분 데이터 집합의 라벨링 항목은, 적어도 하나의 손가락 끝부분, 상기 배경, 상기 손바닥 및 상기 팔목 중 적어도 하나일 수 있다.
실시예에서, 상기 손 구성요소 이미지를 생성하는 단계는, 상기 손 구성요소 특징 맵으로부터 계산된 대표 픽셀 값과 손 구성요소 데이터 집합의 라벨링 항목에 대한 대표 값을 비교하여 오차를 산출하는 단계; 상기 오차가 제1 임계값보다 작을 경우, 상기 대표 픽셀 값에 대응하는 각 손 구성요소를 라벨링하는 단계; 및 상기 라벨링에 따라 상기 각 손 구성요소가 분할된 손 구성요소 이미지를 생성하는 단계;를 포함할 수 있다.
실시예에서, 상기 손가락 끝부분 이미지를 생성하는 단계는, 상기 손가락 끝부분 특징 맵으로부터 각 손가락 구성요소에 대한 대표 픽셀 값과 손가락 끝부분 데이터 집합의 라벨링 항목에 대한 대표 값을 비교하여 오차를 산출하는 단계; 상기 오차가 제2 임계값보다 작을 경우, 상기 대표 픽셀 값에 대응하는 각 손가락 끝부분을 라벨링하는 단계; 및 상기 라벨링에 따라 상기 각 손가락 끝부분이 분할된 손가락 끝부분 이미지를 생성하는 단계;를 포함할 수 있다.
상기한 목적들을 달성하기 위한 구체적인 사항들은 첨부된 도면과 함께 상세하게 후술될 실시예들을 참조하면 명확해질 것이다.
그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라, 서로 다른 다양한 형태로 구성될 수 있으며, 본 발명의 개시가 완전하도록 하고 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자(이하, "통상의 기술자")에게 발명의 범주를 완전하게 알려주기 위해서 제공되는 것이다.
본 발명의 일 실시예에 의하면, 하나의 인코더 뒤에 두 개의 디코더들이 위치하여, 하나의 인코더가 손 구성요소 특징 맵 및 손가락 끝부분 특징 맵을 생성함으로써, 연산 복잡도를 감소시킬 수 있다.
본 발명의 효과들은 상술된 효과들로 제한되지 않으며, 본 발명의 기술적 특징들에 의하여 기대되는 잠정적인 효과들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 RGB-D 이미지로부터의 손 구성요소 및 손가락 끝 추적 프로세스를 도시한 도면이다.
도 2a는 본 발명의 일 실시예에 따른 손 데이터의 예를 도시한 도면이다.
도 2b는 본 발명의 일 실시예에 따른 손 구성요소 데이터의 예를 도시한 도면이다.
도 2c는 본 발명의 일 실시예에 따른 손가락 끝부분 데이터의 예를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 손 이미지 추출의 예를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 신경 합성곱 신경망을 이용한 손가락 끝부분 추적 단계를 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 전자 장치의 기능적 구성을 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 손 구성요소 데이터에 대한 성능 그래프를 도시한 도면이다.
도 7은 본 발명의 일 실시예에 따른 손가락 끝부분 데이터에 대한 성능 그래프를 도시한 도면이다.
도 8은 본 발명의 일 실시예에 따른 손 구성요소 및 손가락 끝 추적의 예를 도시한 도면이다.
도 2a는 본 발명의 일 실시예에 따른 손 데이터의 예를 도시한 도면이다.
도 2b는 본 발명의 일 실시예에 따른 손 구성요소 데이터의 예를 도시한 도면이다.
도 2c는 본 발명의 일 실시예에 따른 손가락 끝부분 데이터의 예를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 손 이미지 추출의 예를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 신경 합성곱 신경망을 이용한 손가락 끝부분 추적 단계를 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 전자 장치의 기능적 구성을 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 손 구성요소 데이터에 대한 성능 그래프를 도시한 도면이다.
도 7은 본 발명의 일 실시예에 따른 손가락 끝부분 데이터에 대한 성능 그래프를 도시한 도면이다.
도 8은 본 발명의 일 실시예에 따른 손 구성요소 및 손가락 끝 추적의 예를 도시한 도면이다.
본 발명은 다양한 변경을 가할 수 있고, 여러 가지 실시예들을 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 이를 상세히 설명하고자 한다.
청구범위에 개시된 발명의 다양한 특징들은 도면 및 상세한 설명을 고려하여 더 잘 이해될 수 있을 것이다. 명세서에 개시된 장치, 방법, 제법 및 다양한 실시예들은 예시를 위해서 제공되는 것이다. 개시된 구조 및 기능상의 특징들은 통상의 기술자로 하여금 다양한 실시예들을 구체적으로 실시할 수 있도록 하기 위한 것이고, 발명의 범위를 제한하기 위한 것이 아니다. 개시된 용어 및 문장들은 개시된 발명의 다양한 특징들을 이해하기 쉽게 설명하기 위한 것이고, 발명의 범위를 제한하기 위한 것이 아니다.
본 발명을 설명함에 있어서, 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명을 생략한다.
이하, 본 발명의 일 실시예에 따른 심층 합성곱 신경망(deep convolutional neural network)을 이용하여 RGB-D 이미지로부터 손 구성요소 및 손가락 끝을 추적하기 위한 방법 및 장치를 설명한다.
도 1은 본 발명의 일 실시예에 따른 RGB-D 이미지로부터의 손 구성요소 및 손가락 끝 추적 프로세스(100)를 도시한 도면이다.
도 1을 참고하면, 손 구성요소 및 손가락 끝 추적 프로세스(100)는 손 이미지 추출 단계(110)와 손 구성요소 및 손가락 끝부분 추출 단계(120)를 포함할 수 있다.
손 이미지 추출 단계(110)는 카메라를 통해 손을 포함하는 RGB 이미지를 획득하고, 객체 탐지 모델(object detection model)을 이용하여 RGB 이미지에서 손을 포함하는 경계 영역(bounding box)을 생성할 수 있다. 예를 들어, 객체 탐지 모델로 YOLOv2가 사용될 수 있다. 이 경우, 도 2a를 참고하면, RGB 손 이미지들로 표시된 다수 개의 라벨링된(labeling) RGB 손 이미지로 구성된 손 데이터 집합을 사용하여 객체 탐지 모델을 학습, 검증 및 평가할 수 있다.
손 이미지 추출 단계(110)는 카메라를 통해 깊이(depth) 이미지를 획득하고, 깊이 이미지에서 손을 포함하는 경계 영역에 해당하는 영역을 추출한 후, 깊이 이미지의 해당 영역에서 깊이 임계값보다 작은 깊이의 영역(예: 배경)을 제외하고 손 깊이 이미지만을 추출할 수 있다. 이 경우, 손 깊이 이미지는 손가락 끝부분 추출 단계(120)의 입력으로 제공될 수 있다.
손 구성요소 및 손가락 끝부분 추출 단계(120)는 심층 합성곱 신경망을 이용하여 손 깊이 이미지에서의 각 관심 영역에 대해, 손 구성요소를 식별하고 손가락 끝부분을 식별할 수 있다. 예를 들어, 심층 합성곱 신경망으로 SegNet이 사용될 수 있다.
이 경우, 도 2b를 참고하면, 심층 합성곱 신경망은 손 구성요소 데이터 집합(FingerPaint)을 통해 학습될 수 있다. 손 구성요소 데이터 집합은 적어도 하나의 유형의 손 모양에 따라 생성되고, 적어도 하나의 항목(예: 5개의 손가락, 배경, 손바닥, 팔목)으로 라벨링된 깊이 이미지를 포함할 수 있다. 손 구성요소 데이터 집합의 70%는 학습 데이터로 사용되고, 30%는 평가 데이터로 사용될 수 있다. 손 구성요소 데이터 집합이 분리되지 않았기 때문에, 학습과 평가를 위해 각각 7:3의 비율로 다른 부분집합으로 분류될 수 있다.
또한, 도 2c를 참고하면, 심층 합성곱 신경망은 손가락 끝부분 데이터 집합(HandNet)을 통해 학습될 수 있다. 손가락 끝부분 데이터 집합은 적어도 하나의 유형의 손 모양에 따라 생성되고, 적어도 하나의 항목(예: 5개의 손가락 끝부분, 배경, 손바닥, 팔목)으로 라벨링된 깊이 이미지를 포함할 수 있다. 손가락 끝부분 데이터 집합은 학습, 검증 및 평가의 세 부분으로 나뉘어질 수 있다.
도 3은 본 발명의 일 실시예에 따른 손 이미지 추출의 예를 도시한 도면이다.
도 3을 참고하면, RGB 이미지 I(x,y)에서 추출된 손을 포함하는 경계 영역의 두 점은 ((x,y)I, (x’,y’)I)로 표현될 수 있다. 이 경우, 깊이 이미지를 D(x,y)라고 가정하면, 깊이 이미지에서 경계 영역에 대응하는 손 영역은 ((x,y)D, (x’,y’)D)로 표현될 수 있다. X=(x,x’)D, Y=(y,y’)D이면, D(X,Y)는 감지된 손 영역의 깊이 정보를 포함한다. m=mode(D(X,Y))는 배경으로부터 손을 인식할 수 있는 깊이 수준이므로 하기 <수학식 1>과 같이 깊이 이미지의 손 영역에서 모든 배경 픽셀을 제거하여 손 깊이 이미지만을 추출할 수 있다.
여기서, t(예: 300)는 손을 이진화하기 위한 실험적으로 결정된 깊이 임계값을 나타낼 수 있다. 직사각형 평행선 안의 픽셀만이 손으로 추출될 수 있다. 즉, <수학식 1>에 따른 손 깊이 이미지 D(X,Y)는 손 구성요소 및 손가락 끝 검출을 위한 입력으로 사용될 수 있다.
도 4는 본 발명의 일 실시예에 따른 신경 합성곱 신경망을 이용한 손 구성요소 및 손가락 끝부분 추적 단계(400)를 도시한 도면이다.
도 4를 참고하면, 손 구성요소 및 손가락 끝 추적 단계(400)는 인코딩 단계(410), 제1 디코딩 단계(420) 및 제2 디코딩 단계(430)를 포함할 수 있다.
인코딩 단계(410)는 입력으로 제공된 손 깊이 이미지를 이용하여 특징 맵(feature map)을 생성할 수 있다. 제1 디코딩 단계(420)는 인코딩 단계(410)에서 생성된 특징 맵을 이용하여 배경, 손바닥 및 손가락 5개를 나타내는 7개의 이진(binary) 이미지를 생성할 수 있다. 제2 디코딩 단계(430)는 인코딩 단계(410)에서 생성된 동일한 특징 맵을 이용하여 배경, 손 및 손가락 끝을 나타내는 또 다른 7개의 이진 이미지를 생성할 수 있다.
즉, 본 발명의 일 실시예에 따른 손 구성요소 및 손가락 끝 추적 프로세스(400)는 제1 디코딩 단계(420)와 제2 디코딩 단계(430)가 인코딩 단계(410)를 공유한다. 제1 디코딩 단계(420)와 제2 디코딩 단계(430)에는 두 개의 독립적인 프로세스가 포함되어 있지만 동일한 백본 네트워크(backbone network), 즉, 인코딩 단계(410)를 사용하여 우수한 성능을 달성할 수 있으며, 모델 복잡도는 실시간 애플리케이션에 적합하다. 결과적으로 손 구성요소 및 손가락 끝 추적 프로세스(400)의 복잡도는 매개변수가 감소되었지만 성능은 종래의 기술과 유사하다.
도 5는 본 발명의 일 실시예에 따른 전자 장치(500)의 기능적 구성을 도시한 도면이다.
도 5를 참고하면, 전자 장치(500)는 이미지 획득부(510), 저장부(520) 및 제어부(530)를 포함할 수 있다.
이미지 획득부(510)는 RGB 이미지, 깊이 이미지 및 트레이닝 객체 이미지를 획득할 수 있다. 일 실시예에서, 이미지 획득부(510)는 RGB 이미지, 깊이 이미지 및 트레이닝 객체 이미지를 촬영하는 촬영부(예: 카메라)를 포함할 수 있다. 일 실시예에서, 이미지 획득부(510)는 RGB 이미지, 깊이 이미지 및 트레이닝 객체 이미지를 외부 전자 장치로부터 수신하기 위한 통신부를 포함할 수 있다.
저장부(520)는 RGB 이미지, 깊이 이미지 및 트레이닝 객체 이미지를 저장할 수 있다. 저장부(520)는 비휘발성 메모리, 휘발성 메모리, 내장형 메모리, 착탈 가능한 외장형 메모리, 하드 디스크, 광 디스크, 광자기 디스크, 또는 본 발명이 속하는 기술분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함할 수 있다.
제어부(530)는 손 인식부(540)와 손 분할부(550)를 포함할 수 있다.
손 인식부(540)는 이미지 획득부(510)를 통해 RGB 이미지 및 깊이 이미지를 획득할 수 있다. 손인식부(540)는 객체 탐지 모델을 이용하여 RGB 이미지에서 손을 포함하는 경계 영역을 생성할 수 있다. 또한, 손 인식부(540)는 깊이 이미지에서 손을 포함하는 경계 영역에 해당하는 부분을 추출한 후, 깊이 임계값을 사용하여 깊이 이미지의 경계 영역에서 배경을 제외한 손 깊이 이미지만을 추출할 수 있다.
손 분할부(550)는 손 깊이 이미지를 심층 합성곱 신경망에 적용하여 손 구성요소 및 손가락 끝부분을 추출할 수 있다. 일 실시예에서, 손 분할부(550)는 인코더(552), 제1 디코더(554) 및 제2 디코더(556)를 포함할 수 있다.
인코더(552)는 손 깊이 이미지를 손 구성요소에 대한 컨볼루션 레이어(convolution layer)에 적용하여 손 구성요소 특징 맵을 생성할 수 있다. 또한, 인코더(552)는 손 깊이 이미지를 손가락 끝부분에 대한 컨볼루션 레이어에 적용하여 손가락 끝부분 특징 맵을 생성할 수 있다.
일 실시예에서, 인코더(552)는 신경 합성곱 신경망의 백본으로서, 다수의 컨볼루션 레이어(convolution layer)들을 포함할 수 있다.
일 실시예에서, 손 구성요소에 대한 컨볼루션 레이어는 손 구성요소 데이터 집합으로 산출된 가중치(weight)를 갖는 제1 컨볼루션 필터를 의미할 수 있다. 또한, 손가락 끝부분에 대한 컨볼루션 레이어는 손가락 끝부분 데이터 집합으로부터 산출된 가중치를 갖는 제2 컨볼루션 필터를 의미할 수 있다.
여기서, 손 구성요소 데이터 집합은 배경, 손바닥, 적어도 하나의 손가락을 포함하고, 손가락 끝부분 구성요소 데이터 집합은 배경, 손바닥, 적어도 하나의 손가락 끝부분을 포함할 수 있다.
이 경우, 손 구성요소 데이터 집합과 손가락 끝부분 구성요소 데이터 집합에서 공통으로 지정된 라벨링 항목(예: 배경, 손바닥)에 대하여는 손 구성요소에 대한 제1 컨볼루션 필터의 가중치와 손가락 끝부분에 대한 제2 컨볼루션 필터의 가중치가 동일하기 때문에, 인코더(552)는 매개변수를 이용하여 해당 가중치를 각각 산출하지 않고, 한 컨볼루션 필터의 가중치를 산출한 후 나머지 컨볼루션 필터의 가중치로 동일하게 바로 사용할 수 있다.
예를 들어, 인코더(552)는 손 구성요소 데이터 집합으로부터 제1 컨볼루션 필터의 다수의 가중치들을 산출하고, 손 구성요소 데이터 집합과 손가락 끝부분 구성요소 데이터 집합에서 동일한 라벨링 항목에 대하여, 제1 컨볼루션 필터의 다수의 가중치들 중 적어도 하나를 이용하여 제2 컨볼루션 필터의 다수의 가중치들을 산출할 수 있다.
예를 들어, 심층 합성곱 신경망을 사용하여 특징 맵을 생성하는 경우 20x20의 픽셀을 갖는 손 깊이 이미지를 5x5 컨볼루션 필터에 적용하면 16x16의 픽셀의 특징 맵을 생성할 수 있다. 이 경우, 배경 및 손바닥에 대하여는 별도로 매개변수를 이용하여 가중치를 산출하지 않고, 손 구성요소에 대한 5x5 컨볼루션 필터의 가중치를 손가락 끝부분에 대한 5x5 컨볼루션 필터의 가중치로 사용할 수 있다.
이로 인해, 손 구성요소 및 손가락 끝부분 산출을 위해 하나의 인코더(552)가 공유되는 경우, 컨볼루션 필터의 가중치를 산출하기 위한 매개변수가 상당히 감소하여 연산 효율성이 증대될 수 있다.
일 실시예에서, 인코더(552)는 풀링 레이어(pooling layer)를 포함할 수 있으며, 풀링 레이어를 이용하여 특성 맵의 크기를 감소시켜 복잡도(complexity)를 완화하고, 과적합(overfitting)을 방지할 수 있다.
제1 디코더(554)는 손 구성요소 특징 맵을 손 구성요소 데이터 집합의 특징 맵과 비교하여 배경, 손바닥 및 적어도 하나의 손가락이 분할(segmentation)된 손 구성요소 이미지를 생성할 수 있다.
구체적으로, 제1 디코더(554)는 손 구성요소 특징 맵으로부터 계산된 대표 픽셀 값과 손 구성요소 데이터 집합의 라벨링 항목에 대한 대표 값을 비교하여 오차를 산출할 수 있다. 이 경우, 제1 디코더(554)는 오차가 제1 임계값보다 작을 경우, 해당 대표 픽셀 값에 대응하는 각 손 구성요소를 라벨링하여, 라벨링에 따라 각 손 구성요소가 분할된 손 구성요소 이미지를 생성할 수 있다.
제2 디코더(556)는 손가락 끝부분 특징 맵을 손가락 끝부분 데이터 집합의 특징 맵과 비교하여 배경, 손 및 손가락 끝부분으로 분할된 손가락 끝부분 이미지를 생성할 수 있다.
구체적으로, 제2 디코더(556)는 손가락 끝부분 특징 맵으로부터 각 손가락 구성요소에 대한 대표 픽셀 값과 손가락 끝부분 데이터 집합의 라벨링 항목에 대한 대표 값을 비교하여 오차를 산출할 수 있다. 이 경우, 제2 디코더(556)는 오차가 제2 임계값보다 작을 경우, 해당 대표 픽셀 값에 대응하는 각 손가락 끝부분을 라벨링하여, 라벨링에 따라 각 손가락 끝부분이 분할된 손가락 끝부분 이미지를 생성할 수 있다.
즉, 본 발명의 일 실시예에 따른 전자 장치(500)는 하나의 인코더(552) 뒤에 두 개의 디코더들(554, 556)이 위치할 수 있다. 이러한 두 개의 디코더들(554, 556) 각각은 손 구성요소 및 손가락 끝 검출을 위해 사용될 수 있다.
도 6은 본 발명의 일 실시예에 따른 손 구성요소 데이터에 대한 성능 그래프를 도시한 도면이다.
도 6을 참고하면, 본 발명에 따른 손 구성요소 추출 방법은 비특허문헌 1과 비특허문헌 2에 의해 기술된 방법보다 우수한 성능을 보인다. 또한, 본 발명에 따른 손 구성요소 추출 방법은 분류 오차 임계값이 60%보다 클 때, 비특허문헌 3보다 높은 성능을 보였다. 일 실시예에서, 손 구성요소 추출 시간은 30fps일 수 있다. 또한, 본 발명에 따른 손 구성요소 추출 방법은 비특허문헌 1, 2에서 언급한 바와 같은 보정 단계를 거치지 않고도 다중 손 구성요소 분할을 처리할 수 있다.
도 7은 본 발명의 일 실시예에 따른 손가락 끝부분 데이터에 대한 성능 그래프를 도시한 도면이다.
도 7을 참고하면, 본 발명에 따른 손가락 끝부분 추출 방법 평가를 위해 오류 임계값에 대한 평균 탐지 정확도를 계산하고, 손가락 끝부분 데이터 집합을 사용하는 종래의 랜덤 의사결정 트리 및 합성곱 신경망과 비교할 수 있다. 일 실시예에서, 하기 <수학식 2>를 참고하면, 는 예측된 위치 와 실제 손가락 끝 중앙 사이의 거리 (cm)를 나타낼 수 있다.
이때, N은 검증 이미지의 총 수이다. 이 경우, 하기 <수학식 3>을 참고하면, 를 작은 임계값 와 비교함으로써, 검출 정밀도 P는 임계값 내에서 검출 성공의 합산을 나타낼 수 있다.
본 발명에 따른 손가락 끝부분 추출 방법의 성능은 오류 임계값의 0.1에서 0.6 범위에서 랜덤 의사결정 트리보다 낮지만, 대부분의 경우 1.0 오류 임계값의 정밀도를 기준으로 하여 손가락 끝부분 데이터 집합의 손가락 끝 감지 시스템을 비교한다. 이 경우, 본 발명에 따른 손가락 끝부분 추출 방법의 엄지 손가락에 대한 오류 임계값의 정밀도가 약 0.83이며, 0.76과 0.81을 얻은 다른 두 방법보다 높은 성능을 보임을 알 수 있다.
도 8은 본 발명의 일 실시예에 따른 손 구성요소 및 손가락 끝 추적의 예를 도시한 도면이다.
도 8을 참고하면, 본 발명에 따른 심층 합성곱 신경망은 많은 수의 매개 변수(최대 10,014,563)를 저장할 뿐 아니라 손 구성요소 데이터 집합과 손가락 끝부분 데이터 집합에서 높은 정확성을 달성했음을 확인할 수 있다. 공유 인코더인 백본은 손 깊이 이미지를 통해 손의 일반적인 표현을 배울 수 있으며, 각 디코더 자체는 첫 단계부터 학습을 통해 특정 작업(손 구성요소 분할, 손가락 끝부분 탐지)를 처리할 수 있다. 또한, 본 발명에 따른 심층 합성곱 신경망은 사용자가 손의 구성요소를 숨길 수 있으므로 국소 폐쇄 문제(local occlusion problem)를 해결함을 확인할 수 있다.
이상의 설명은 본 발명의 기술적 사상을 예시적으로 설명한 것에 불과한 것으로, 통상의 기술자라면 본 발명의 본질적인 특성이 벗어나지 않는 범위에서 다양한 변경 및 수정이 가능할 것이다.
따라서, 본 명세서에 개시된 실시예들은 본 발명의 기술적 사상을 한정하기 위한 것이 아니라, 설명하기 위한 것이고, 이러한 실시예들에 의하여 본 발명의 범위가 한정되는 것은 아니다.
본 발명의 보호범위는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 이해되어야 한다.
100: 손 구성요소 및 손가락 끝 추적 프로세스
110: 손 이미지 추출 단계
120: 손 구성요소 및 손가락 끝부분 추출 단계
400: 손 구성요소 및 손가락 끝부분 추적 단계
410: 인코딩 단계
420: 제1 디코딩 단계
430: 제2 디코딩 단계
500: 전자 장치
510: 이미지 획득부
520: 저장부
530: 제어부
540: 손 인식부
550: 손 분할부
552: 인코더
554: 제1 디코더
556: 제2 디코더
110: 손 이미지 추출 단계
120: 손 구성요소 및 손가락 끝부분 추출 단계
400: 손 구성요소 및 손가락 끝부분 추적 단계
410: 인코딩 단계
420: 제1 디코딩 단계
430: 제2 디코딩 단계
500: 전자 장치
510: 이미지 획득부
520: 저장부
530: 제어부
540: 손 인식부
550: 손 분할부
552: 인코더
554: 제1 디코더
556: 제2 디코더
Claims (18)
- 손을 포함하는 RGB 이미지 및 상기 RGB 이미지에 대응하는 깊이(depth) 이미지를 수신하는 이미지 획득부;
상기 RGB 이미지 및 깊이 이미지로부터 손 깊이 이미지를 추출하는 손 인식부;
상기 손 깊이 이미지를 손 구성요소 데이터 집합의 라벨링 항목에 대한 다수의 가중치(weight)들을 갖는 제1 컨볼루션 필터에 적용하여 상기 손 구성요소 특징 맵을 생성하고,
상기 손 깊이 이미지를 손가락 끝부분 데이터 집합의 라벨링 항목에 대한 다수의 가중치들을 갖는 제2 컨볼루션 필터에 적용하여 상기 손가락 끝부분 특징 맵을 생성하는 인코더;
상기 손 구성요소 특징 맵으로부터 각 손 구성요소가 분할(segmentation)된 손 구성요소 이미지를 생성하는 제1 디코더; 및
상기 손가락 끝부분 특징 맵으로부터 각 손가락 끝부분이 분할된 손가락 끝부분 이미지를 생성하는 제2 디코더;
를 포함하는,
전자 장치.
- 제1항에 있어서,
상기 손 인식부는,
상기 RGB 이미지를 객체 탐지 모델에 적용하여 손을 포함하는 경계 영역(bounding box)을 생성하고,
상기 깊이 이미지에서 상기 경계 영역에 해당하는 영역으로부터 상기 손 깊이 이미지를 추출하는,
전자 장치.
- 제2항에 있어서,
상기 손 인식부는,
상기 깊이 이미지에서 상기 경계 영역에 해당하는 영역에서 깊이 임계값보다 작은 깊이의 영역을 제외하고 상기 손 깊이 이미지를 추출하는,
전자 장치.
- 삭제
- 제1항에 있어서,
상기 인코더는,
상기 손 구성요소 데이터 집합으로부터 상기 제1 컨볼루션 필터의 다수의 가중치들을 산출하고,
상기 손 구성요소 데이터 집합과 상기 손가락 끝부분 데이터 집합에서 동일한 라벨링 항목에 대하여, 상기 제1 컨볼루션 필터의 다수의 가중치들 중 적어도 하나를 이용하여 상기 제2 컨볼루션 필터의 다수의 가중치들을 산출하는,
전자 장치.
- 제1항에 있어서,
상기 인코더는,
상기 손가락 끝부분 데이터 집합으로부터 상기 제2 컨볼루션 필터의 다수의 가중치들을 산출하고,
상기 손가락 끝부분 데이터 집합과 상기 손 구성요소 데이터 집합에서의 동일한 라벨링 항목에 대하여, 상기 제2 컨볼루션 필터의 다수의 가중치들 중 적어도 하나를 이용하여 상기 제1 컨볼루션 필터의 다수의 가중치들을 산출하는,
전자 장치.
- 제1항에 있어서,
상기 손 구성요소 데이터 집합의 라벨링 항목은, 적어도 하나의 손가락, 배경, 손바닥 및 팔목 중 적어도 하나이고,
손가락 끝부분 데이터 집합의 라벨링 항목은, 적어도 하나의 손가락 끝부분, 상기 배경, 상기 손바닥 및 상기 팔목 중 적어도 하나인,
전자 장치.
- 제1항에 있어서,
상기 제1 디코더는,
상기 손 구성요소 특징 맵으로부터 계산된 대표 픽셀 값과 손 구성요소 데이터 집합의 라벨링 항목에 대한 대표 값을 비교하여 오차를 산출하고,
상기 오차가 제1 임계값보다 작을 경우, 상기 대표 픽셀 값에 대응하는 각 손 구성요소를 라벨링하고,
상기 라벨링에 따라 상기 각 손 구성요소가 분할된 손 구성요소 이미지를 생성하는,
전자 장치.
- 제1항에 있어서,
상기 제2 디코더는,
상기 손가락 끝부분 특징 맵으로부터 각 손가락 구성요소에 대한 대표 픽셀 값과 손가락 끝부분 데이터 집합의 라벨링 항목에 대한 대표 값을 비교하여 오차를 산출하고,
상기 오차가 제2 임계값보다 작을 경우, 상기 대표 픽셀 값에 대응하는 각 손가락 끝부분을 라벨링하고,
상기 라벨링에 따라 상기 각 손가락 끝부분이 분할된 손가락 끝부분 이미지를 생성하는,
전자 장치.
- 손을 포함하는 RGB 이미지 및 상기 RGB 이미지에 대응하는 깊이(depth) 이미지를 수신하는 단계;
상기 RGB 이미지 및 깊이 이미지로부터 손 깊이 이미지를 추출하는 단계;
상기 손 깊이 이미지를 손 구성요소 데이터 집합의 라벨링 항목에 대한 다수의 가중치(weight)들을 갖는 제1 컨볼루션 필터에 적용하여 상기 손 구성요소 특징 맵을 생성하는 단계; 및
상기 손 깊이 이미지를 손가락 끝부분 데이터 집합의 라벨링 항목에 대한 다수의 가중치들을 갖는 제2 컨볼루션 필터에 적용하여 상기 손가락 끝부분 특징 맵을 생성하는 단계;
상기 손 구성요소 특징 맵으로부터 각 손 구성요소가 분할(segmentation)된 손 구성요소 이미지를 생성하고,
상기 손가락 끝부분 특징 맵으로부터 각 손가락 끝부분이 분할된 손가락 끝부분 이미지를 생성하는 단계;
를 포함하는,
전자 장치의 동작 방법.
- 제10항에 있어서,
상기 손 깊이 이미지를 추출하는 단계는,
상기 RGB 이미지를 객체 탐지 모델에 적용하여 손을 포함하는 경계 영역(bounding box)을 생성하는 단계; 및
상기 깊이 이미지에서 상기 경계 영역에 해당하는 영역으로부터 상기 손 깊이 이미지를 추출하는 단계;
를 포함하는,
전자 장치의 동작 방법.
- 제11항에 있어서,
상기 손 깊이 이미지를 추출하는 단계는,
상기 깊이 이미지에서 상기 경계 영역에 해당하는 영역에서 깊이 임계값보다 작은 깊이의 영역을 제외하고 상기 손 깊이 이미지를 추출하는 단계;
를 포함하는,
전자 장치의 동작 방법.
- 삭제
- 제10항에 있어서,
상기 손 구성요소 특징 맵을 생성하는 단계 이전에,
상기 손 구성요소 데이터 집합으로부터 상기 제1 컨볼루션 필터의 다수의 가중치들을 산출하는 단계; 및
상기 손 구성요소 데이터 집합과 상기 손가락 끝부분 데이터 집합에서 동일한 라벨링 항목에 대하여, 상기 제1 컨볼루션 필터의 다수의 가중치들 중 적어도 하나를 이용하여 상기 제2 컨볼루션 필터의 다수의 가중치들을 산출하는 단계;
를 더 포함하는,
전자 장치의 동작 방법.
- 제10항에 있어서,
상기 손 구성요소 특징 맵을 생성하는 단계 이전에,
상기 손가락 끝부분 데이터 집합으로부터 상기 제2 컨볼루션 필터의 다수의 가중치들을 산출하는 단계; 및
상기 손가락 끝부분 데이터 집합과 상기 손 구성요소 데이터 집합에서의 동일한 라벨링 항목에 대하여, 상기 제2 컨볼루션 필터의 다수의 가중치들 중 적어도 하나를 이용하여 상기 제1 컨볼루션 필터의 다수의 가중치들을 산출하는 단계;
를 더 포함하는,
전자 장치의 동작 방법.
- 제10항에 있어서,
상기 손 구성요소 데이터 집합의 라벨링 항목은, 적어도 하나의 손가락, 배경, 손바닥 및 팔목 중 적어도 하나이고,
손가락 끝부분 데이터 집합의 라벨링 항목은, 적어도 하나의 손가락 끝부분, 상기 배경, 상기 손바닥 및 상기 팔목 중 적어도 하나인,
전자 장치의 동작 방법.
- 제10항에 있어서,
상기 손 구성요소 이미지를 생성하는 단계는,
상기 손 구성요소 특징 맵으로부터 계산된 대표 픽셀 값과 손 구성요소 데이터 집합의 라벨링 항목에 대한 대표 값을 비교하여 오차를 산출하는 단계;
상기 오차가 제1 임계값보다 작을 경우, 상기 대표 픽셀 값에 대응하는 각 손 구성요소를 라벨링하는 단계; 및
상기 라벨링에 따라 상기 각 손 구성요소가 분할된 손 구성요소 이미지를 생성하는 단계;
를 포함하는,
전자 장치의 동작 방법.
- 제10항에 있어서,
상기 손가락 끝부분 이미지를 생성하는 단계는,
상기 손가락 끝부분 특징 맵으로부터 각 손가락 구성요소에 대한 대표 픽셀 값과 손가락 끝부분 데이터 집합의 라벨링 항목에 대한 대표 값을 비교하여 오차를 산출하는 단계;
상기 오차가 제2 임계값보다 작을 경우, 상기 대표 픽셀 값에 대응하는 각 손가락 끝부분을 라벨링하는 단계; 및
상기 라벨링에 따라 상기 각 손가락 끝부분이 분할된 손가락 끝부분 이미지를 생성하는 단계;
를 포함하는,
전자 장치의 동작 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180149013A KR102123289B1 (ko) | 2018-11-27 | 2018-11-27 | 심층 합성곱 신경망을 이용하여 rgb-d 이미지로부터 손 구성요소 및 손가락 끝을 추적하기 위한 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180149013A KR102123289B1 (ko) | 2018-11-27 | 2018-11-27 | 심층 합성곱 신경망을 이용하여 rgb-d 이미지로부터 손 구성요소 및 손가락 끝을 추적하기 위한 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200068083A KR20200068083A (ko) | 2020-06-15 |
KR102123289B1 true KR102123289B1 (ko) | 2020-06-16 |
Family
ID=71081553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180149013A KR102123289B1 (ko) | 2018-11-27 | 2018-11-27 | 심층 합성곱 신경망을 이용하여 rgb-d 이미지로부터 손 구성요소 및 손가락 끝을 추적하기 위한 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102123289B1 (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111815708B (zh) * | 2020-07-17 | 2021-09-07 | 中国科学院自动化研究所 | 基于双通路卷积神经网络的服务机器人抓取检测方法 |
KR20220016695A (ko) * | 2020-08-03 | 2022-02-10 | 삼성전자주식회사 | 딥러닝에 기반한 이미지 분할 장치 및 방법 |
KR102436943B1 (ko) * | 2021-09-13 | 2022-08-26 | 에이아이다이콤 (주) | Rgb-d 영상에서의 기계학습 기반 물류박스 자동인식 방법 |
CN114170174B (zh) * | 2021-12-02 | 2024-01-23 | 沈阳工业大学 | 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101506197B1 (ko) | 2013-09-05 | 2015-03-27 | 주식회사 매크론 | 양손을 이용한 동작인식 입력방법 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101405706B1 (ko) * | 2012-06-27 | 2014-06-10 | 전남대학교산학협력단 | 수동, 능동 훈련이 가능한 바이오피드백 상지 기능적 전기자극 장치 |
KR101559502B1 (ko) * | 2013-12-26 | 2015-10-14 | 서경대학교 산학협력단 | 실시간 손 포즈 인식을 통한 비접촉식 입력 인터페이스 방법 및 기록 매체 |
-
2018
- 2018-11-27 KR KR1020180149013A patent/KR102123289B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101506197B1 (ko) | 2013-09-05 | 2015-03-27 | 주식회사 매크론 | 양손을 이용한 동작인식 입력방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20200068083A (ko) | 2020-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102123289B1 (ko) | 심층 합성곱 신경망을 이용하여 rgb-d 이미지로부터 손 구성요소 및 손가락 끝을 추적하기 위한 방법 및 장치 | |
Mukherjee et al. | Fingertip detection and tracking for recognition of air-writing in videos | |
Kumar et al. | A multimodal framework for sensor based sign language recognition | |
Nai et al. | Fast hand posture classification using depth features extracted from random line segments | |
RU2711029C2 (ru) | Классификация касаний | |
Ma et al. | Kinect Sensor‐Based Long‐Distance Hand Gesture Recognition and Fingertip Detection with Depth Information | |
Boulahia et al. | Dynamic hand gesture recognition based on 3D pattern assembled trajectories | |
Shen et al. | Dynamic hand gesture recognition: An exemplar-based approach from motion divergence fields | |
Wang et al. | Hidden‐Markov‐models‐based dynamic hand gesture recognition | |
Nair et al. | Hand gesture recognition system for physically challenged people using IOT | |
Zeng et al. | Hand gesture recognition using leap motion via deterministic learning | |
Misra et al. | Vision-based hand gesture recognition of alphabets, numbers, arithmetic operators and ASCII characters in order to develop a virtual text-entry interface system | |
Azad et al. | Dynamic 3D hand gesture recognition by learning weighted depth motion maps | |
Cheng et al. | Feature fusion for 3D hand gesture recognition by learning a shared hidden space | |
US20200226786A1 (en) | Detecting pose using floating keypoint(s) | |
KR20150108888A (ko) | 제스처 인식을 위한 부분 및 상태 검출 | |
Shukla et al. | A method for hand gesture recognition | |
Kalsh et al. | Sign language recognition system | |
Fang et al. | Real-time hand posture recognition using hand geometric features and fisher vector | |
Wu et al. | Depth-based hand gesture recognition | |
Beg et al. | Text writing in the air | |
Ranawat et al. | Hand gesture recognition based virtual mouse events | |
Caputo et al. | SFINGE 3D: A novel benchmark for online detection and recognition of heterogeneous hand gestures from 3D fingers’ trajectories | |
Krishan Kumar et al. | Two viewpoints based real‐time recognition for hand gestures | |
Choudhury et al. | A CNN-LSTM based ensemble framework for in-air handwritten Assamese character recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |