KR102206990B1

KR102206990B1 - 딥 뉴럴 네트워크를 사용하여 대략적에서 정밀적으로의 손 검출 방법

Info

Publication number: KR102206990B1
Application number: KR1020197003100A
Authority: KR
Inventors: 즈쉬안 양; 다하이 위; 좡 류; 쥔양 저우; 슈쥐안 차이; 스광 산; 시린 천
Original assignee: 미디어 그룹 코 엘티디; 시타테크 베이징 테크놀리지 씨오 엘티디
Priority date: 2017-06-06
Filing date: 2017-06-06
Publication date: 2021-01-22
Also published as: CN108521820A; EP3452955A4; KR20190026810A; JP2019530039A; WO2018223295A1; US10817716B2; CN108521820B; EP3452955A1; JP6762382B2; US20190122041A1

Abstract

이미지 중의 하나 또는 복수의 주체의 하나 또는 복수의 손을 포함하는 하나 또는 복수의 영역을 식별하는 검출 과정을 제공한다. 검출 과정은 대략적 CNN을 사용하여 이미지에서 이미지 중의 (하나 또는 복수의)주체의 (하나 또는 복수의)손의 부분을 포함하는 하나 또는 복수의 세그먼트를 대략적으로 위치 확정하는 것으로부터 시작할 수 있다. 그다음, 검출 과정은, 이러한 세그먼트를 조합하여 이미지 중의 (하나 또는 복수의)주체의 (하나 또는 복수의)손을 캡처한 하나 또는 복수의 영역을 획득할 수 있다. 그 다음, (하나 또는 복수의)조합 영역은, 그리드에 기반한 깊이 뉴럴 네트워크에 공급되어, 이미지에서 단지 캡처된 (하나 또는 복수의)주체의 (하나 또는 복수의)손만 포함한 (하나 또는 복수의)영역을 정밀하게 검출할 수 있다.

Description

딥 뉴럴 네트워크를 사용하여 대략적에서 정밀적으로의 손 검출 방법

본 발명은 컴퓨터화된 손 검출 분야에 관한 것이다.

일부 기존의 손 검출 기술은 머신(machine) 학습에 의존하여 이미지에서 캡처된(하나 또는 복수의) 손의 위치와 크기를 확정한다. 이러한 기술의 작업 하에서, 통상적으로 트레이닝 세트를 구축하여 신뢰적인 분류 또는 회귀 함수(regression function)를 생성한다. 검출된 손 및 밑층(underlying) 트레이닝 세트의 잡음과 왜곡은 신뢰적인 분류 또는 회귀를 억제할 수 있다.

여러가지 제스처, 조명 변화, 복잡한 배경, 이미지 중의 피부색 간섭 등으로 인해, 손 검출은 도전성이 있다. 손 검출을 위한 머신 학습 과정은 통상적으로 대량의 트레이닝 데이터가 수요되고, 이러한 트레이닝 데이터는 제어를 받지 않는 장면에서 관찰된 손의 위치와 크기를 표시한다.

이러한 기술의 트레이닝 데이터는 매뉴얼 주석(manual annotation)을 통해 획득할 수 있다. 손의 위치와 크기는 트레이닝 데이터로부터 추출할 수 있다. 이러한 기술에서의 일부는 콘볼루션 뉴럴 네트워크(CNN)를 사용하는데, 그는 트레이닝되어 손의 특징을 추출할 수 있다. 예를 들어, 2016년 1월 19일에 제출된 명칭이 "캐스케이드 콘볼루션 뉴럴 네트워크에 기반한 자기 중심 시야의 공중 핸드라이팅 및 공중 인터랙션 방법”인 중국 특허 출윈번호 CN1057181078A에서는, 트레이닝되어 특정된 각도로부터 주체의 손의 RGB 이미지를 분석하는 CNN를 설명하였다. 중국 특허 출윈번호CN1057181078A는 인용되는 것을 통해 여기에 결합된다. CN1057181078A에서 서술된 바와 같은 심층CNN은 손 검출 방면에서 좋은 성능을 구비한다.

심층CNN이 특징을 캡처하는 방면에 좋은 성능을 구비하는 것을 이미 증명하였지만, CNN에 기반한 기술은 통상적으로 트레이닝 및 테스트를 하기 위한 큰 계산 능력이 필요하다. 하나의 원인은 더 높은 정확도를 구현하기 위하여, CNN의 손 검출 기술에 기반하여 CNN에서 더 많은 레이어를 수요하고, 이에 따라 더 많은 계산 능력이 수요되기 때문이다. 이러한 심층CNN의 사용도 많은 시간을 소모할 것이다. 따라서, 기존의 CNN에 기반한 손 검출 기술을 개선하여 효율을 개선할 필요가 있다.

본 발명은 기존의 CNN에 기반한 손 검출 기술을 개선하여 효율을 개선하기 위한 것이다.

실시예는 이미지 중의 하나 또는 복수의 주체의 하나 또는 복수의 손을 포함하는 하나 또는 복수의 영역을 검출하는 과정을 제공할 수 있다. 그 다음, 당해 과정에 의해 검출된 이미지 중의 (하나 또는 복수의)영역이 제스처 식별 과정에 공급되어 검출된 (하나 또는 복수의)손의 제스처를 식별하기 위한 것에 있다. 일부 실시예에서, 검출 과정은 매우 간단하고 빨리 구현하는 대략적인 위치 확정 네트워크를 사용하여 이미지에서 이미지 중의 (하나 또는 복수의)주체의 (하나 또는 복수의)손의 부분을 포함하는 하나 또는 복수의 세그먼트를 대략적으로 위치 확정하는 것으로부터 시작할 수 있다. 그런 실시예에서, 그다음, 검출 과정은 이러한 세그먼트를 조합하여 이미지 중의 (하나 또는 복수의)주체의 (하나 또는 복수의)손을 캡처한 하나 또는 복수의 영역을 획득할 수 있다. 일부 실시예에서, 검출 과정은 이미지 중의 (하나 또는 복수의)조합 영역을 확장할 수 있어, 이들이 (하나 또는 복수의)주체의 (하나 또는 복수의)손에 대한 일부 컨텍스트 정보를 포함할 수 있도록 하고, 또한 그리드에 정합되게 할 수 있으며, 당해 그리드의 각 그리드 유닛은 서로 같은 예정된 크기를 가진다. 그 다음, (하나 또는 복수의)확장 영역은 정밀 그리드에 기반한 검출 네트워크에 공급되어, 이미지에서 캡처된 (하나 또는 복수의)주체의 (하나 또는 복수의)손만 포함하는 (하나 또는 복수의)정확한 영역을 검출할 수 있다. 기존 기술의 CNN에 기반한 손 검출 기술과 비교하면, 본 개시에 따른 실시예는 (하나 또는 복수의)주체의 (하나 또는 복수의)손만 포함한 것으로 예측된 개별 이미지 중의 (하나 또는 복수의)영역과 소요되는 컨텍스트를 정밀 그리드에 기반한 검출 네트워크에서 사용되는 CNN에 공급하는 것을 통해 정밀 그리드에 기반한 검출 네트워크에 공급되는 입력 이미지 데이터 양을 감소할 수 있다. 이는 정밀 그리드에 기반한 검출 네트워크의 입력 데이터 양을 감소함으로써, 손 검출을 위한 시간을 감소시킬 수 있다.

일부 실시예에서, 간단한 캐스케이드 CNN(예를 들어, 2개 서브 스테이지)를 트레이닝하고 이를 대략적인 위치 확정 네트워크로 사용하여 이미지에서 주체의 손을 포함하는 세그먼트를 위치 확정할 수 있다. 주어진 이미지 중의 위치 확정 세그먼트는 주체의 손의 다른 부분을 포함할 수 있다. 이것은 주체의 손의 대략적인 위치로 이해될 수 있다. 이러한 대략적인 위치 확정 네트워크에 사용되는 CNN는 매우 작고 또한 구현하기 쉽기에, 이를 구현하는데 소요되는 컴퓨팅 리소스가 상대적으로 비교적 적을 수 있다. 위치 확정 세그먼트에서의 손의 부분은 서로 중첩될 수 있다. 예를 들어, 제1 위치 확정 세그먼트는 제2 위치 확정 세그먼트에서의 주체의 손의 일부분(공간에서)과 부분적으로 중첩된 주체의 손의 일부분을 포함할 수 있다

일부 실시예에서, 조합 과정은 상술한 세그먼트를 조합하여 이미지에서 이미지 중의 (하나 또는 복수의)주체의 (하나 또는 복수의)손을 캡처하는 (하나 또는 복수의)영역을 획득하기 위한 것이다. 예를 들어, 이미지에서 단지 주체의 하나의 손을 캡처하였을 경우, 위치 확정 세그먼트는 조합되어 이미지 중의 손을 캡처한 영역을 획득할 수 있다. 다른 하나의 예로서, 이미지에서 주체의 두 손을 캡처하였을 경우, 위치 확정 세그먼트를 조합하여 2개의 영역을 형성할 수 있고, 각 영역이 주체의 하나의 손을 캡처하거나, 또는 하나의 영역이 주체의 두 손을 캡처한다. 일부 실시예에서, 이미지에서 복수의 주체를 캡처할 수 있다. 그런 실시예에서, 이미지 중의 복수의 영역을 획득하여, 당해 복수의 영역에서의 각각이 이미지 중의 주체의 하나 또는 복수의 손을 캡처할 수 있도록 한다. 그러나, 대략적인 위치 확정 네트워크의 정확도가 높지 않을 수 있기에, 일부 손을 포함하지 않은 영역이 존재할 수 있다. 이는 정밀 검출 네트워크에서 교정될 수 있다.

일부 실시예에서, 이미지 중의 조합 영역은 확장되어 조합 영역을 둘러싼 더 많은 둘러싸인 영역을 포함한다. 하나의 구현에서, 이미지를 그리드로 나눌 수 있고, 또한, 이미지에서 획득된 영역을 둘러싼 예정된 수량의 그리드 유닛을 응용하여 조합 영역을 확장할 수 있다. 이러한 방식으로, 이미지에서 주체의 손과 관련된 일부 컨텍스트 정보을 획득할 수 있다. 이러헌 컨텍스트 정보는 CNN에 기반한 검출에 도움이 될 수 있어, 더 높은 정확성을 구현한다. 또한, 손의 컨텍스트 정보를 포함하는 것은 주체의 손에 대한 검출이고, 동시에 이미지 중의 기타 관련되지 않은 정보를 과도하게 포함하지 않아 손의 검출을 위한 것에 있다. 따라서, 당해 조합 과정을 사용하여 CNN에 기반한 손 검출의 더 높은 정확도와 효율을 구현할 수 있다.

일부 실시예에서, 상기에서 서술한 처리 후의 영역은 그리드에 기반한 검출 네트워크에 송신될 수 있다. 정밀 그리드에 기반한 검출 네트워크에 공급하였을 경우, 조합 영역은 그리드로 나뉠 수 있다. 일부 실시예에서, 그리드에 기반한 검출 네트워크는 CNN를 포함할 수 있고, CNN는 처리 후의 영역의 각 그리드 유닛을 처리하여 처리 후의 영역에서 캡처된 주체의 손의 정확한 위치와 크기를 획득할 수 있다. 이 과정은 주체의 손의 정밀 검출로 이해될 수 있다.

기타 실시예는 본문에서 서술한 방법과 관련된 시스템과 컴퓨터 판독 가능 매체에 관한 것이다.

본 개시에서 발견한 그러한 혁신, 실시예 및/또는 예시를 합리적으로 서술하고 설명하기 위하여, 하나 또는 복수의 도면을 참조할 수 있다. 하나 또는 복수의 도면을 서술하기 위한 부가된 세부 사항 또는 예시는 임의의 보호받고자 하는 발명의 범위, 임의의 현재 서술된 실시예 및/또는 예시, 또는 본 개시에서 나타낸 임의의 혁신의 현재 생각되는 최적 모드에 대한 제한으로 간주되어서는 안된다.
도 1은 본 개시에 따른 이미지 중의 손 영역을 검출하는 것을 개념적으로 도시한다.
도 2는 본 개시에 따른 이미지에서 캡처된 주체의 손을 검출하기 위한 예시적인 방법을 도시한다.
도 3은 대략적인 위치 확정 네트워크가 이미지에서 캡처된 주체의 손의 부분을 포함한 세그먼트를 위치 확정할 수 있는데 사용되는 2개의 서브 스테이지의 캐스케이드 CNN를 도시한다.
도 4는 본 개시에 따른 대략적인 위치 확정 네트워크에 의해 위치 확정되고 주체의 손을 포함할 수 있는 복수의 부분의 세그먼트를 도시한다.
도 5는 위치 확정된 세그먼트의 조합을 통해 획득할수 있는 영역의 예시를 도시한다.
도 6은 이미지에서 캡처된 주체의 손을 포함하는 획득된 영역을 확장하는데 관한 일부 조작을 나타내는 예시적인 흐름도를 도시한다.
도 7은 도 6에 도시된 과정을 통해 획득된 이미지 영역의 예시를 도시한다.
도 8은 도 2에 도시된 방법을 사용하여 주체의 복수의 손을 식별할 수 있는 것을 개념적으로 도시한다.
도 9는 컴퓨터 시스템의 블록도이고, 당해 컴퓨터 시스템은 실시예, 실시예에 통합되거나, 또는 본 개시 내에 발견한 임의의 혁신, 실시예 및/또는 예시를 실천하기 위한 것을 포함할 수 있다.

머신 학습에서, 콘볼루션 뉴럴 네트워크(CNN(convolutional neural network) 또는 ConvNet)는 피드 포워드 인공 뉴럴 네트워크(feedforward artificial neural network)이고, 여기서 그의 뉴런(neuron) 사이의 연결 모드는 동물 시각 피질 조직(animal visual cortex)의 계발을 받는다. 각 피질 뉴런은 수용야(receptive field)라고 하는 공간의 제한된 영역에서 자극에 대해 반응을 한다. 서로 다른 뉴런의 수용야는 부분적으로 중첩되어, 그들이 시야에서 평평하게 보이도록 한다. 콘볼루션 연산을 통해 개체 뉴런이 그의 수용야 내의 자극에 대한 반응이 수학적으로 근사할 수 있다.

이미지 식별에 대하여, 콘볼루션 뉴럴 네트워크(CNN)는 통상적으로 여러 층의 수용야로 구성된다. 이러한 것은 입력 이미지의 부분을 처리하는 소형의 뉴런 집합이다. 일반적인 뉴럴 네트워크와는 달리, CNN의 레이어는 3차원, 너비, 높이, 깊이로 배치된 뉴런을 가질 수 있다 (주의할 것은, 본문에서 "깊이"는 체적을 활성화하는 제3 차원을 가리키는 것이지, 완정한 뉴럴 네트워크의 깊이를 가리키는 것이 아니며, 그는 네트워크에서의 레이어의 총수를 가리킬 수 있음). 예를 들어, CIFAR-10에서의 입력 이미지는 활성화된 입력 체적을 구비할 수 있고, 또한 당해 체적은 32Х32Х3(각각 너비, 높이, 깊이)인 차원을 구비한다. CNN은 너비, 높이, 깊이인 3차원으로 뉴런을 배치할 수 있다. CNN의 각 레이어는 모두 3D입력 체적을 뉴런이 활성화한 3D출력 체적으로 변환할 수 있다. 예를 들어, CNN은 이미지 데이터를 유지하는 입력층을 구비할 수 있고, 따라서 그의 너비와 높이는 이미지의 차원이고, 또한 깊이는 3(빨간색, 녹색, 파란색 채널)이다. RGB 입력 이미지를 예로 들면, 이는 32Х32Х3픽셀 값을 구비할 수 있다. 즉, 너비는 32픽셀을 구비하고, 높이는 32픽셀을 구비하며 또한 깊이는 3이다(즉, 3개의 색상 채널R, G 및 B).

손 검출은 예를 들어 가정용 전기 기구(에어컨과 같은)의 비접촉식 인터페이스를 설계하는데 있어서 중요하다. 이러한 인터페이스는 사용자가 제스처를 사용하여 가정용 전기 기구와 인터랙션하는 것을 허용할 수 있게 하는데, 예를 들어 가정용 전기 기구를 제어하도록 하는 것이다. 심층CNN을 구비한 오브젝트 검출은 이미 성공하였다. 오브젝트 검출에서의 방법은 손 검출에 사용될 수 있는데, 그중 일부 변화를 구비한다. 이러한 CNN에 기반한 손 검출의 관건은 각종 손 위치와 크기의 서로 다른 데이터 집합를 캡처하는 것이다. 이러한 기술에 사용되는 데이터 집합는 통상적으로 주체가 (하나 또는 복수의)손을 구비한 주체(예를 들어 사람)의 이미지를 캡처하는 것을 포함한다. 이미지는 통상적으로 사람의 얼굴 및/또는 신체를 디스플레이하는 거리로부터 주체를 캡처한다. 많은 상황에서, 이미지도 주체의 배경을 캡처할 수 있다. 그 다음, 이러한 이미지는 심층CNN에 공급되어 손 검출에 사용된다.

본 개시의 발명자에 의해 제공되는 견해는, 입력 데이터(예를 들어, 이미지)에는 대량의 이미지 중의 주체의 손과 무관한 정보를 포함하기에, 손 검출을 위한 기존의 CNN에 기반한 기술은 통상적으로 많은 시간을 소모한다. 많은 상황에서, 입력 데이터는 반드시 이러한 기술이 이용하는 심층CNN에서의 서로 다른 레이어를 통해 처리되여 손을 검출한다. 이는 대량의 계산 능력이 필요하므로, 많은 시간을 소모할 수 있다. 본 개시에 의해 제공되는 당해 문제에 대한 해결 방안은 간단한 CNN을 사용하여 대략적인 위치 확정 네트워크(coarse location network)로 하여 주체의 이미지에서 주체의 하나 또는 복수의 손을 포함하는 하나 또는 복수의 영역에 대해 대략적인 위치 확정(roughly locate)한다. 그 다음 이러한 영역은 그리드에 기반한 검출 네트워크를 사용하여 추가 처리되어, 단지 주체의 손을 포함하는 (하나 또는 복수의)이미지 영역에 대해 더 정밀한 검출을 실행할 수 있다. 이러한 방식으로, CNN에 기반한 손 검출 기술에 이용된 심층CNN으로 더 적은 정보가 처리될 할 뿐만아니라, 또한 입력 데이터에는 주체의 (하나 또는 복수의)손과 관련된 데이터만 포함하므로, 더 높은 정확도를 구현할 수 있다.

본 개시에 따른 손 검출은 일반적으로 3개의 단계로 나눌 수 있다. 제1 단계에서, 주체의 이미지를 수신할 수 있다. 당해 이미지는 이미지 중의 주체의 (하나 또는 복수의)손과 무관한 정보를 포함할 수 있다. 마찬가지로 제1 단계에서, 간단한 캐스케이드 CNN(예를 들어, 2개 서브 스테이지)을 사용하여 대략적인 위치 확정 네트워크로 하여 이미지에서 주체의 (하나 또는 복수의)손의 부분을 포함하는 하나 또는 복수의 세그먼트에 대해 대략적으로 위치 확정할 수 있다. 주체의 (하나 또는 복수의)손의 이런 위치는 주체의 손의 대략적 위치로 이해될 수 있다. 이러한 세그먼트는 서로 중첩된 주체의 (하나 또는 복수의)손의 부분을 포함할 수 있다.

제2 단계에서, 대략적인 위치 확정 네트워크에 의해 위치 확정된 세그먼트를 처리하여 이미지에서 주체의 손을 포함한다고 예측되는 하나 또는 복수의 영역 및 주체의 손을 둘러싼 일부 컨텍스트 정보를 획득할 수 있다. 이미지에서 주체의 하나의 손만 캡처할 경우, 하나의 영역을 획득할 수 있다. 이미지에서 주체의 두 손을 캡처할 경우, 두 손을 포함하는 하나의 영역 또는 2개의 영역을 획득할 수 있다. 물론, 이미지에 복수의 캡처된 주체가 존재할 경우, 복수의 영역을 획득할 수 있다. 그러나, 대략적인 위치 확정 네트워크의 정확도가 높지 않아도 되므로, 일부 손을 포함하지 않은 영역이 존재할 수 있다. 이것은 제3 단계에서 수정될 수 있다.

제3 단계에서, 제2 단계에서 획득한 이미지에서와 같은 영역은 그리드에 기반한 검출 네트워크에 공급(feed)될 수 있어, 단지 주체의 손을 포함하는 (하나 또는 복수의)이미지 영역을 더 정밀하게 식별하기 위한 것이다. 제3 단계의 결과는 단지 주체의 손을 포함하는 입력 이미지의 일부분이다. 이 단계는 주체의 손에 대해 더 정밀하게 검출하는 것으로 이해될 수 있다.

도 1은 본 개시에 따른 이미지에서 캡처된 주체의 손을 식별하는 것을 개념적으로 도시한다. 도 2는 본 개시에 따른 이미지에서 캡처된 주체의 손을 식별하기 위한 예시적인 방법(200)을 도시한다. 도 1과 도 2는 서로를 참조하여 서술된다. 먼저 도 2를 참조하면, 도 2에 도시된 특정된 계열의 처리 단계는 제한하려는 것에 목적이 있는 것이 아니다. 처리 단계는 응당 도 2에 도시된 순서와 다른 순서로 실행될 수 있고, 또한 도 2에 도시된 모든 단계는 모두 실행되는 것이 아님으로 인식해야 한다. 일부 구현에서, 방법(200)은 도 9에 도시된 것과 같은 시스템에 의해 생성될 수 있다.

일부 실시예에서, 방법(200)에 그려진 방법은 하나 또는 복수의 처리 기기(예를 들어, 디지털 프로세서, 아날로그 프로세서, 정보를 처리하도록 설계된 디지털 회로, 정보를 처리하도록 설계된 아날로그 회로, 상태 머신(state machine), 및/또는 전자적으로 정보를 처리하기 위한 기타 머신 장치)에서 생성될 수 있다. 당해 하나 또는 복수의 처리 기기는 전자 저장 매체에 전자적으로 저장된 명령에 응답하여 방법(200)의 일부 또는 전부 조작을 실행하는 하나 또는 복수의 기기를 포함할 수 있다. 당해 하나 또는 복수의 처리 기기는 하드웨어, 펌웨어 및/또는 소프트웨어를 통해 구성되어 방법(200)의 하나 또는 복수의 조작을 실행하도록 전문적으로 설계되는 하나 또는 복수의 기기를 포함할 수 있다.

202에서, 이미지의 데이터를 수신할 수 있다. 202에서 수신될 수 있는 이미지의 예시는 도 1에 도시된 108로 도시된다. 도 1에 도시된 바와 같이, 이미지(108)는 주체를 포함할 수 있고, 예를 들어 사람이며, 또한 주체는 어떤 방식으로 놓여 있는 적어도 하나의 손을 구비하는 것으로 캡처될 수 있다. 손 검출의 목표는 주체의 손의 위치와 크기를 찾는 것이다. 손 영역은 손에 대한 하나 또는 복수의 파라미터의 정의를 구비할 수 있다. 손 검출의 결과는 다음의 제스처 식별에 사용될 수 있다. 일부 실시예에서, 제스처는 가정용 전기 기구를 제어하기 위한 하나 또는 복수의 제어 명령으로 전환되거나 매핑될 수 있다.

도 2를 다시 참조한다. 204에서, 202에서 수신된 이미지 데이터가 대략적인 위치 확정 네트워크에 송신될 수 있고, 이미지에서 주체의 손의 부분을 포함하는 하나 또는 복수의 세그먼트에 대해 대략적으로 위치 확정하기 위한 것이다. 도 1을 참조하면, 당해 예시에서의 주체는 이미지(108)에서 캡처된 하나의 손을 구비한다. 단계 204의 목표는 이미지(108)에서의 복수의 세그먼트를 식별하는 것인 바, 본 예시에 도시된 112a-n와 같고, 이러한 세그먼트에서의 각각은 적어도 이미지(108)에서 캡처된 주체의 손의 일부분을 포함할 수 있다. 하나 또는 복수의 방법을 사용하여 204에서 실행되는 세그먼트의 위치 확정을 구현할 수 있다. 일부 구현에서, 세그먼트는 하기와 같이 표현될 수 있다.

여기서 R0_i는 하기와 같이 더 표현될 수 있다.

여기서 (x0_i, y0_i)는 이미지(108)에서 캡처된 주체의 손의 일부분을 구비한 것으로 예측된 제i 세그먼트의 좌표를 표시하고; (w0_i, h0_i)는 제i 세그먼트의 너비 및 높이를 표시하고, 또한 s0_i는 제i 세그먼트가 이미지(108)에서 캡처된 주체의 손의 일부분를 구비한 신뢰도를 표시한다.

일부 예시에서, 204에서 간단한 캐스케이드 CNN를 사용하여 대략적인 손 세그먼트의 위치 확정을 할 수 있다. 위에서 언급 한 바와 같이, 단계 204의 목표는 이미지(108)에서 세그먼트(112a-n)에 대해 대략적인 위치 확정을 하는 것이다. 당해 목적을 구현하기 위해, 이용된 대략적 CNN(102, coarse CNN)은 너무 깊지 않을 수 있다. 하나의 구현에서, 2개의 서브 스테이지가 캐스케이드 CNN을 사용하여 이미지(108)에서의 세그먼트(112a-n)를 위치 확정할 수 있다. 이는 도 3에 도시되어 있다. 도시된 바와 같이, 도 1에 도시된 대략적인 위치 확정 네트워크(102)에서 사용되는 캐스케이드 CNN은 직렬 연결된 제1 서브 스테이지(302) 및 제2 서브 스테이지를 구비할 수 있어, 이미지(108)의 이미지 데이터가 대략적 CNN(102)에 공급될 수 있고 또한 세그먼트(112a-n)가 위치 확정될 수 있도록 한다. 이러한 방식으로, 이미지(108)에서 캡처된 주체의 손과 무관한 정보의 대부분이 추가 처리되어 제거될 수 있으며, 또한 주체의 손과 관련된 데이터에 집중하여 추가 처리를 하기 위한 것일 수 있다.

도 2를 다시 참조하면, 206에서, 대략적인 위치 확정 네트워크로부터 206에서 위치 확정된 하나 또는 복수의 이미지 세그먼트를 수신할 수 있다. 이해해야 하는 것은, 206에서 수신된 각 세그먼트는 주체의 손의 부분을 포함할 수 있다. 이는 도 4에 도시되어 있다. 도 4에 도시된 바와 같이, 4개의 세그먼트(404a-d)가 주체의 손(402)의 일부분을 포함하는 것으로 예측한다. 도시된 바와 같이, 각 세그먼트는 서로 중첩된 손의 부분을 구비할 수 있다. 이 예시에서, 404a는 기타 3개의 모든 세그먼트와 중첩되고, 또한 기타 3개의 세그먼트도 404a와 마찬가지인 것이다.

도 2를 다시 참조하면, 208에서, 206에서 수신된 세그먼트가 조합되어 이미지에서 주체의 (하나 또는 복수의)손을 포함하는 것으로 예측되는 하나 또는 복수의 영역을 획득할 수 있다. 위에서 언급 한 바와 같이, 208에서 획득한 각 영역은 이미지에서 캡처된 주체의 서로 다른 손을 포함할 수 있다. 단계 208의 목표는 주체의 (하나 또는 복수의)손을 포함하는 (하나 또는 복수의)영역을 찾아내는 것이고, 또한 정밀 그리드(fine grid)에 기반한 검출 네트워크의 입력 사이의 중첩을 피하여 계산을 감소한다.

208에서 206에서 수신된 세그먼트를 조합하는 것을 통해 획득된 주어진 영역 집합 S1은 하기와 같이 표현될 수 있다.

여기서 R1_k는 S1영역 집합에서의 제k 영역을 표시한다. R1_k는 중첩된 R0세그먼트로부터 획득되고, 예를 들어R0_i와 R0_j이다. R0_i가 하기의 파라미터, R0_i =(x0_i, y0_i, w0_i, h0_i, s0_i)를 가지고; R0_j가 하기의 파라미터, R0_j =(x0_j, y0_j, w0_j, h0_j, s0_j)를 가지며; 또한 R1_k가 하기의 파라미터, (x1_k, y1_k, w1_k, h1_k)를 가진다고 가정한다. 그러면 하기의 관계를 사용하여 R1_k를 획득할 수 있다.

도 5는 도 4에 도시된 바와 같은 204에서 위치 확정한 세그먼트를 조합하는 것을 통해 획득할 수 있는 영역 502(S1)의 예시를 도시한다.

도 2를 다시 참조하면, 210에서, 208에서 획득한 영역을 확장(expand)할 수 있다. 단계 210의 목표는 208에서 획득한 영역에서 캡처된 주체의 손과 관련된 일부 컨텍스트 정보를 포함하는 것이고, 이것은 컨텍스트 정보가 단계 212에서 주체의 손을 더 식별하는데 도움이 될 수 있기 때문이다. 단계 210의 다른 하나의 목표는 영역을 확장하여, 영역이 그리드로 나뉠 수 있도록 하는 것이고, 이 그리드 유닛의 크기는 예정된 것이다. 도 6은 단계 210에서 포함할 수 있는 일부 조작을 나타내는 예시적인 흐름도(600)를 도시한다. 도 2를 참조하여 도 6을 서술한다.

602에서, 202에서 수신된 이미지(예를 들어, 이미지(108))는 n*n그리드로 나뉠 수 있다. 이미지(108)가 너비W와 높이H를 구비한다고 가정하면, 개별 이미지 블록은 하기의 차원: 너비= W/n, 높이= H/n를 구비할 수 있다.

604에서, 208에서 획득한 영역에서의 각각이 적어도 하나의 그리드 유닛의 크기만큼 확장되어 새로운 확장 영역을 획득할 수 있다. 도시된 바와 같이, R1_i를 예로 들면, R1_i는 하기의 파라미터 R1_i =(x1_i, y1_i, w1_i, h1_i)를 구비한다. 확장한 후의 영역은 R2_i이고 또한 하기의 파라미터, R2_i =(x2_i, y2_i, w2_i, h2_i)를 구비한다고 가정한다. R1_i 및 R2_i 사이의 관계는 하기와 같이 표현될 수 있다.

여기서 w는 그리드 유닛의 너비. 즉 W/n을 표시하고; 또한 h는 그리드 유닛의 높이, 즉 H/n을 표시한다. 이해해야 하는 것은, 이상의 조건 표현식은 여기서 R1_i는 적어도 하나의 이미지 블록만큼 확장되어 202에서 수신된 이미지의 경계를 넘을 수 있는 상황을 설명하기 위한 것이다. 이러한 상황에서, 수신된 이미지 202의 경계는 확장된 블록R2_i의 경계로 쓰인다.

606에서, 확장 영역의 경계가 그리드와 정렬(align)될 수 있다. S3이 606에서 정렬된 후의 영역의 세트이고, 또한 S3이 주체의 손 및 일부 컨텍스트 정보(contextual information)를 포함하는 m개의 영역 R3을 구비할 수 있다고 가정하면; 또한 하기와 같이 표현될 수 있다. S3 = {R3_1, R3_2, ... R3_i ..., R3_m}. R3_i는 S3에서의 제i 영역을 표시하고 또한 하기의 파라미터, R3_i =(x3_i, y3_i, w3_i, h3_i)를 구비할 수 있다. R3_i는 하기와 같이 표현될 수 있다.

여기서 w와 h는 그리드 유닛의 너비와 높이이다. 예시 영역(S3)은 도 1에서 114로 도시된다. 보여지는 바와 같이, 상술한 조작을 통해, 이미지에서 주체의 손 및 일부 컨텍스트를 식별할 수 있다.

도 7은 도 6에 도시된 과정을 통해 획득한 이미지 영역의 예시를 도시한다. 당해 예시에 도시된 바와 같이, 도 5에 도시된 조합의 제1 이미지 영역은 먼저 하나의 그리드 유닛만큼 확장되어 확장 영역(702)을 획득할 수 있다. 그 다음 확장 영역(702)의 경계는 정렬되어 이미지 중의 그리드 유닛에 매칭되어 다른 하나의 이미지 영역(704)을 획득할 수 있다.

도 2를 다시 참조하면, 212에서, 210에서 획득한 이미지 영역(도 7에 도시된 영역(704)과 같이)은 그리드에 기반한 검출 네트워크에 송신되어, 210에서 획득한 이미지 영역에서 캡처한 주체의 손을 더 정확(정밀한)하게 식별하기 위한 것일 수 있다. 211에서의 목표는 정밀 그리드에 기반한 검출 네트워크의 입력이 정밀 검출을 위한 충분한 컨텍스트를 구비하는 것을 확보하고, 또한 그의 그리드 유닛의 크기가 미리 확정된 그리드로 나뉠 수 있게 하는 것이다. 정밀 그리드에 기반한 검출 네트워크는 도 1에서 106으로 개념적으로 도시된다. 일부 구현에서, 정밀 검출 네트워크(106)는 복수의 레이어(예를 들어, 3개의 레이어보다 많음)를 구비할 수 있다. 정밀 검출 네트워크(106)는 수신된 이미지를 그의 그리드 유닛의 크기가 상기에서 기술한 것과 같은 w*h(즉, w = W/n; 또한 h = H/n)의 그리드로 나누는 것을 통하여 이미지를 처리하도록 설계될 수 있다. 정밀 검출 네트워크(106)는 그의 주체의 손과 관련된 신뢰도 점수로 정밀 검출 네트워크(106)에 의해 수신된 이미지 중의 각 그리드 유닛을 처리하도록 설계될 수 있다. 구현에서, 역치의 신뢰도 점수는 미리 확정될 수 있어, 역치의 신뢰도 점수보다 높은 신뢰도 점수을 가진 이미지 블록이 212에서 조합될 수 있어 주체의 손의 식별을 획득하도록 한다. 이것은 도 1에 도시되어 있는 바, 손 식별(116)은 이미지 영역(114)을 정밀 검출 네트워크(106)에 송신하는 것을 통해 획득할 수 있다. 이미지 영역(114)과 이미지 영역(116)을 비교하면, 영역(116)은 주체의 손에 더 집중하고 또한 영역(114)보다 작다.

일부 구현에서, 배치 경사 하강 방법(batch gradient descent method)을 사용하여 데이터를 트레이닝하는 것을 통해 대략적인 위치 확정 네트워크(102)를 트레이닝할 수 있다. 트레이닝 데이터는 이러한 이미지 중의 주체의 손의 위치와 크기의 매뉴얼 마킹(manual markings)을 구비하는 복수의 RGB이미지를 포함할 수 있다. 예를 들어, 트레이닝 데이터에서의 주어진 이미지에서 캡처한 주체의 손에 관해 라벨을 정의할 수 있다. 라벨의 왼쪽 상단 코너와 오른쪽 하단 코너의 좌표는 트레이닝 데이터로 마크될 수 있다. 매뉴얼 마킹의 기타 방법도 예측될 수 있다.

정밀 검출 네트워크(106)의 트레이닝에 관하여, 먼저 대략적인 위치 확정 네트워크를 트레이닝하기 위한 트레이닝 데이터를 대략적인 위치 확정 네트워크(102)에 송신하여, 단계 204에 따라 세그먼트를 획득할 수 있다. 이의 결과 세트가 W0라고 가정하면, 결과 세트 W0에서의 식별된 세그먼트는 이미지 중의 매뉴얼 마킹과 비교하여, 모든 마킹이 모두 결과 세트에 커버되었는지 여부를 확정할 수 있다. 만약 하나 또는 복수의 마킹이 결과 세트 W0에 커버되지 않았으면, 이러한 마킹을 커버하는 하나 또는 복수의 세그먼트는 단계 208와 단계 210에 따라 결과 세트 W0에 추가되어 새로운 집합 W1을 획득할 수 있다. 그 다음 새로운 집합 W1은 트레이닝 데이터(주체의 손을 구비한 매뉴얼 마킹)와 함께 대략적인 위치 확정 네트워크(106)에 송신되어 제2 CNN(106)를 트레이닝한다. 일부 구현에서, 배치 경사 하강 방법에서 이러한 데이터를 사용하여 대략적인 위치 확정 네트워크(106)를 트레이닝할 수 있다.

일부 구현에서, 도 1과 도 2에서 나타낸 방법을 사용하여 주체의 하나보다 많은 손을 식별할 수 있다. 이것은 도 8에서 개념적으로 나타냈다. 보여지는 바와 같이, 주체의 각 손의 세그먼트(802), 즉 802a와 802b는 먼저 대략적인 위치 확정 네트워크(102)를 사용하여 위치 확정될 수 있다. 조합과 확장 과정(104)을 사용하며, 그 다음 세그먼트(802a)는 804a로 처리될 수 있으며, 또한 세그먼트(804b)는 804b로 처리될 수 있다. 영역(804a)과 영역(804b)은 정밀 그리드에 기반한 검출 네트워크(106)를 사용하여 추가 처리되어, 주체의 오른손(806b)의 식별과 주체의 왼손(806a)의 식별을 획득할 수 있다.

도 9는 컴퓨터 시스템(900)의 블록도이다. 도 9는 단지 설명적일 뿐이다. 일부 실시예에서, 컴퓨터 시스템은 단일 컴퓨터 장치를 포함하고, 여기서 서브 시스템은 컴퓨터 장치의 어셈블리일 수 있다. 기타 실시예에서, 컴퓨터 시스템은 내부 어셈블리를 구비한 복수의 컴퓨터 장치를 포함할 수 있고, 각 컴퓨터 장치는 서브 시스템이다. 컴퓨터 시스템(900) 및 컴퓨터 시스템(900)의 임의의 어셈블리 또는 서브 시스템은 본문이 서술한 방법을 실행하도록 구성된 하드웨어 및/또는 소프트웨어 소자를 포함할 수 있다

컴퓨터 시스템(900)은 하나 또는 복수의 데이터 프로세서 또는 중앙 처리 유닛(CPU)(905), 하나 또는 복수의 그래픽 프로세서 또는 그래픽 처리 유닛(GPU)(910), 메모리 서브 시스템(915), 스토리지 서브 시스템(920), 하나 또는 복수의 입력/출력(I/O) 인터페이스(925), 통신 인터페이스(930) 등과 같은 잘 알고 있는 컴퓨터 어셈블리를 포함할 수 있다. 컴퓨터 시스템(900)은 상술한 어셈블리를 상호 연결시키고, 연결성과 기기 간 통신과 같은 기능을 제공하는 시스템 버스(935)를 포함할 수 있다.

하나 또는 복수의 데이터 프로세서 또는 중앙 처리 유닛(CPU)(905)은 응용에 특정된 기능을 제공하기 위한 로직 또는 프로그램 코드를 실행할 수 있다. (하나 또는 복수의)CPU(905)의 일부 예시는 하나 또는 복수의 마이크로 프로세서(예를 들어, 단일 코어 및 다중 코어) 또는 마이크로 컨트롤러, 하나 또는 복수의 필드 프로그래머블 게이트 어레이(FPGA) 및 전용 집적 회로(ASIC)를 포함할 수 있다. 본문에서 사용되는 것과 같이, 프로세서는 동일한 집적 칩에 있는 다중 코어 프로세서, 또는 단일 회로 기판에 있는 또는 네트워크로 연결된 복수의 처리 유닛을 포함한다.

하나 또는 복수의 그래픽 프로세서 또는 그래픽 처리 유닛(GPU)(910)은 그래픽과 서로 관련되거나 그래픽에 특정된 기능을 제공하기 위한 로직 또는 프로그램 코드를 실행할 수 있다. GPU(910)는 일반적인 비디오 카드에 의해 제공되는 그런 그래픽 처리 유닛과 같은 임의의 일반적인 그래픽 처리 유닛을 포함할 수 있다. 각종 실시예에서, GPU(910)는 하나 또는 복수의 벡터 또는 병렬 처리 유닛을 포함할 수 있다. 이러한 GPU는 사용자가 프로그래밍 가능하고, 또한 특정된 유형의 데이터(예를 들어, 비디오 데이터)를 인코딩/디코딩하기 위한 것이거나 2D 또는 3D 드로잉 작업, 텍스처링 작업, 착색 작업 등을 가속화 하기 위한 하드웨어 소자를 포함한다. 하나 또는 복수의 그래픽 프로세서 또는 그래픽 처리 유닛(GPU)(910)은 임의의 수량의 레지스터, 로직 유닛, 연산 유닛, 캐시, 메모리 인터페이스 등을 포함할 수 있다.

메모리 서브 시스템(915)은 예를 들어 머신 판독 가능 제품, 정보 저장 기기 또는 컴퓨터 판독 가능 저장 매체를 사용하여 정보를 저장할 수 있다. 일부 예시는 램(RAM), 롬(ROM), 휘발성 메모리, 비 휘발성 메모리 및 기타 반도체 메모리를 포함할 수 있다. 메모리 서브 시스템(915)은 데이터 및 프로그램 코드(940)를 포함할 수 있다.

스토리지 서브 시스템(920)은 또한 머신 판독 가능 제품, 정보 저장 기기 또는 컴퓨터 판독 가능 저장 매체를 사용하여 정보를 저장할 수 있다. 스토리지 서브 시스템(920)는 저장 매체(945)를 사용하여 정보를 저장할 수 있다. 스토리지 서브 시스템(920)에 의해 사용되는 저장 매체(945)의 일부 예시는 플로피 디스크, 하드 디스크, CD-ROM, DVD 및 바코드와 같은 광학 저장 매체, 이동식 저장 기기, 네트워크 저장 기기 등을 포함할 수 있다. 일부 실시예에서, 데이터 및 프로그램 코드(940)의 전부 또는 일부는 스토리지 서브 시스템(920)을 사용하여 저장할 수 있다.

하나 또는 복수의 입력/출력 (I/O)인터페이스(925)는 I/O조작을 실행할 수 있다. 하나 또는 복수의 입력 기기(950) 및/또는 하나 또는 복수의 출력 기기(955)는 하나 또는 복수의 I/O인터페이스(925)에 통신 가능하게 결합될 수 있다. 하나 또는 복수의 입력 기기(950)는 컴퓨터 시스템(900)에 사용되는 하나 또는 복수의 소스로부터 정보를 수신할 수 있다. 하나 또는 복수의 입력 기기(950)의 일부 예시는 컴퓨터 마우스, 트랙볼, 트랙 패드, 조이스틱, 무선 리모컨, 드로잉 태블릿(drawing tablet), 음성 명령 시스템, 안구 추적 시스템, 외부 저장 시스템, 터치 스크린으로 적당히 구성되는 모니터, 송수신기로 적당히 구성되는 통신 인터페이스 등을 포함할 수 있다. 각종 실시예에서, 하나 또는 복수의 입력 기기(950)는 컴퓨터 시스템(900)의 사용자가 하나 또는 복수의 비 그래픽 또는 그래픽 사용자 인터페이스와 인터랙션하는 것을 허용하여 명령, 버튼 클릭 등을 거쳐 평론을 입력할 수 있고, 오브젝트, 아이콘, 텍스트, 사용자 인터페이스 위젯 또는 모니터/디스플레이 기기에 나타나는 기타 사용자 인터페이스 요소를 선택할 수 있다.

하나 또는 복수의 출력 기기(955)는 컴퓨터 시스템(900)에 사용되는 하나 또는 복수의 목적지에 정보를 출력할 수 있다. 하나 또는 복수의 출력 기기(955)의 일부 예시는 프린터, 팩스, 마우스 또는 조이스틱에 사용되는 피드백 기기, 외부 저장 시스템, 모니터 또는 기타 디스플레이 기기, 송수신기로 적당히 구성되는 통신 인터페이스 등을 포함할 수 있다. 하나 또는 복수의 출력 기기(955)는 컴퓨터 시스템(900)의 사용자가 오브젝트, 아이콘, 텍스트, 사용자 인터페이스 위젯(widget) 또는 기타 사용자 인터페이스 요소를 조사하는 것을 허용할 수 있다. 디스플레이 기기 또는 모니터는 컴퓨터 시스템(900)과 함께 사용될 수 있고 , 또한 정보를 디스플레이하도록 구성된 하드웨어 및/또는 소프트웨어 소자를 포함할 수 있다

통신 인터페이스(930)는 통신 조작을 실행할 수 있는 바, 데이터를 송신하는 것과 수신하는 것을 포함한다. 통신 인터페이스(930)의 일부 예시는 네트워크 통신 인터페이스(예를 들어, 이더넷, Wi-Fi 등)를 포함할 수 있다. 예를 들어, 통신 인터페이스(930)는 컴퓨터 네트워크, USB허브 등과 같은 통신 네트워크/외부 버스(960)에 결합될 수 있다. 컴퓨터 시스템은 예를 들어 통신 인터페이스(930) 또는 내부 인터페이스를 통해 함께 연결된 복수의 같은 어셈블리 또는 서브 시스템을 포함할 수 있다. 일부 실시예에서, 컴퓨터 시스템, 서브 시스템 또는 장치는 네트워크를 통해 통신을 행할 수 있다. 이런 상황에서, 하나의 컴퓨터는 클라이언트로 간주될 수 있고, 또한 다른 하나의 컴퓨터는 서버로 간주될 수 있으며, 여기서 매개는 동일한 컴퓨터 시스템의 일부분일 수 있다. 클라이언트와 서버는 각자 복수의 시스템, 서브 시스템 또는 어셈블리를 포함할 수 있다.

컴퓨터 시스템(900)은 프로세서에 의해 실행되는 본문에서 개시된 기술을 실행, 조작 또는 기타 방식으로 구현하는 하나 또는 복수의 애플리케이션(예를 들어, 소프트웨어 어셈블리 또는 기능)을 더 포함할 수 있다. 이러한 애플리케이션은 데이터 및 프로그램 코드(940)으로 구현될 수 있다. 이 외에, 컴퓨터 프로그램 , 실행 가능한 컴퓨터 코드, 사람이 판독 가능한 소스 코드, 쉐이더 코드(shader code), 렌더링 엔진 등, 및 데이터(이미지 파일, 오브젝트의 기하학적 서술을 포함한 모델, 오브젝트의 순서적인 기하학적 서술, 모델의 과정 서술, 장면 디스크립터 파일 등과 같은 것임)는 메모리 서브 시스템(915) 및/또는 스토리지 서브 시스템(920)에 저장될 수 있다.

이러한 프로그램은 또한 각종 프로토콜에 부합되는 유선, 광학 및/또는 무선 네트워크(인터넷을 포함)를 통한 전송에 적합한 반송파 신호를 사용하여 인코딩하고 전송할 수 있다. 따라서, 본 발명의 실시예에 따른 컴퓨터 판독 가능 매체는 이러한 프로그램을 사용하여 인코딩한 데이터신호로 생성될 수 있다. 프로그램 코드로 인코딩한 컴퓨터 판독 가능 매체는 호환 기기와 함께 패키징될 수 있거나, 또는 기타 기기와 분리되어 제공될 수 있다(예를 들어, 인터넷을 거쳐 다운로드 되는 것). 어떠한 컴퓨터 판독 가능 매체는 단일 컴퓨터 제품(예를 들어, 하드 디스크 드라이브, CD또는 전체 컴퓨터 시스템)에 또는 내부에 상주할 수 있거나, 또한 시스템 또는 네트워크 내의 서로 다른 컴퓨터 제품에 또는 내부에 존재할 수 있다. 컴퓨터 시스템은 모니터, 프린터 또는 기타 적합한 디스플레이를 포함할 수 있는 바, 사용자에게 본문에서 언급된 임의의 결과를 제공하기 위한 것이다.

본문에 서술된 임의의 방법은 하나 또는 복수의 프로세서를 포함하는 컴퓨터 시스템에 의해 전체적으로 또는 부분적으로 실행될 수 있고, 당해 하나 또는 복수의 프로세서는 단계를 실행하도록 구성될 수 있다. 따라서, 실시예는 본문에서 서술된 임의의 방법의 단계를 실행하도록 구성되는 컴퓨터 시스템에 대해, 이는 상응한 단계 또는 상응한 단계 그룹를 실행하는 서로 다른 어셈블리를 잠재적으로 구비한다. 비록 일련번호로 단계를 보여주지만, 본문의 방법의 단계는 동시에 또는 서로 다른 순서로 실행될 수 있다. 이 외에, 이러한 단계의 부분은 기타 방법의 기타 단계에서 오는 일부와 함께 사용될 수 있다. 또한, 단계의 전부 또는 일부는 선택 가능한 것일 수 있다. 이 외에, 임의의 방법의 임의의 단계는 모듈, 회로 또는 이러한 단계를 실행하기 위한 기타 디바이스로 실행될 수 있다.

본 발명의 실시예의 정신과 범위를 벗어나지 않은 상황에서, 임의의 적합한 방식으로 특정된 실시예의 구체적인 세부 사항을 조합할 수 있다. 그러나, 본 발명의 기타 실시예는 각 단독적인 측면과 관련된 구체적인 실시예, 또는 이러한 단독적인 측면에 대해 구체적으로 조합할 수 있다.

설명과 서술의 목적을 위해 본 발명의 예시적인 실시예의 상기의 서술을 나타냈다. 이는 철저한 것이거나 본 발명을 서술된 정확한 형식으로 한정하려는 것이 아니다. 또한 상술한 교도에 감안하여, 많은 수정과 변화는 가능하다. 실시예를 선택하고 서술하는 것은 본 발명의 원리 및 그의 실제 응용을 더 잘 해석하기 위하여 이고, 따라서 본 분야의 다른 기술자가 각종 실시예에서 예상된 특정된 용도에 적합한 각종 수정으로 본 발명을 가장 좋게 이용할 수 있다.

발명의 교도가 본 개시에서 제공되는, 하나 또는 복수의 발명에서의 임의의 각종 실시예는 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합을 사용하여 로직의 형식으로 생성될 수 있다. 로직은 머신 액세스 가능 메모리, 머신 판독 가능 제품, 유형의 컴퓨터 판독 가능 매체, 컴퓨터 판독 가능 저장 매체 또는 기타 컴퓨터/머신 판독 가능 매체에 또는 그에 저장될 수 있고, 로직 머신을 지도하여 중압 처리 유닛(CPU또는 프로세서)이 본 개시에서 나타내는 발명의 각종 실시예에서 개시된 하나의 세트의 단계를 실행할 수 있는데 적합한 하나의 세트의 명령으로 한다. 코드 모듈이 실행되어 본 개시에서 나타내는 발명의 각종 실시예에서의 방법 또는 과정을 실행하도록 할 경우, 코드 모듈은 컴퓨터 시스템 또는 정보 처리 기기의 프로세서와 함께 조작할 수 있게 되므로, 로직은 소프트웨어 프로그램 또는 컴퓨터 프로그램 제품의 일부분을 형성할 수 있다. 본 개시와 본문에서 제공된 교도에 기반하여, 본 분야에서 통상의 지식을 가진자는 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합으로 생성하여 나타내기 위한 하나 또는 복수의 발명의 각종 실시예의 임의의 개시된 조작 또는 기능의 기타 방식, 변형, 수정, 교체 및/또는 방법을 인식한다.

발명의 교도가 본 개시에서 제공되는 그런 발명에서의 임의의 하나의 개시된 예시, 구현과 각종 실시예는 단지 설명일 뿐이고, 본 분야의 통상의 지식을 가진자에게 합리하고 명확하게 본 개시의 교도를 전달할 수 있다. 이러한 구현과 실시예는 예시적인 도시 또는 특정된 도면을 참조하여 서술할 수 있으므로, 서술된 방법 및/또는 특정된 구조의 각종 수정 또는 변경은 본 분야의 통상의 지식을 가진자에게 있어서 자명할 것이다. 본 개시 및 본문에서 찾아낸 이러한 교도에 의존하고 또한 발명의 교도를 통해 본 분야 기술이 진보하도록 하는 모든 이러한 수정, 변경 또는 변화는 모두 발명의 교도가 본 개시에서 나타낼 수 있는 하나 또는 복수의 발명의 범위 내에 있는 것으로 간주된다. 따라서, 본 서술과 도면은 제한하는 의미로 간주되어서는 안되며, 본 개시에서 나타낸 발명은 절대 어떤 방식으로도 전문적으로 도시된 그러한 실시예에 제한되는 것으로 간주되어서는 안되는 것을 이해해야 한다.

따라서, 이상의 서술과 임의의 도면, 도시 및 도는 설명적인 것이지 제한적인 것을 목적으로 하는 것이 아니다. 따라서, 본 개시에서 나타낸 임의의 발명의 범위는 이상의 서술과 도면에 도시된 이런 실시예를 간단히 참조하는 것을 통해 확정하여서는 안되고, 미결된 청구 범위 및 그의 전체 범위 또는 등가물을 참조하여 확정하여야 한다.

Claims

이미지 중의 주체의 손을 검출하기 위한 방법에 있어서,
상기 방법은 머신 판독 가능한 명령을 실행하도록 구성된 프로세서에 의해 실행되고, 상기 방법은,
이미지의 이미지 데이터를 수신하는 단계 - 상기 이미지는 하나 또는 복수의 주체의 하나 또는 복수의 손을 캡처함 -;
제1 위치 확정 네트워크를 사용하여 이미지 데이터를 처리하여 상기 이미지 중의 세그먼트를 획득하는 단계 - 상기 세그먼트에서의 각 세그먼트는 주체의 손의 부분을 포함함 -;
상기 세그먼트를 제1 이미지 영역으로 조합하는 단계;
제1 이미지 영역의 크기를 예정된 마진(margin)만큼 확장(expand)하는 단계; 및
그리드에 기반한 검출 네트워크를 사용하여 제1 이미지 영역을 처리하여 제2 이미지 영역을 획득하고, 제2 이미지 영역이 주체의 손을 캡처하는 단계를 포함하고,
상기 제1 이미지 영역의 크기를 예정된 마진만큼 확장하는 단계는,
상기 이미지를 nХn그리드로 나누는 단계 - 여기서 상기 예정된 마진은 개별적인 그리드 유닛의 크기임 -;
제1 이미지 영역을 상기 예정된 마진만큼 확장하는 단계; 및
제1 이미지 영역의 경계를 그리드와 정렬하는 단계를 포함하는
것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 방법.
제1항에 있어서,
제1 위치 확정 네트워크는 직렬 연결된 2개의 서브 스테이지를 구비한 콘볼루션 뉴럴 네트워크(CNN)를 포함하는
것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 방법.
제1항에 있어서,
상기 세그먼트는 제1 세그먼트 및 제2 세그먼트를 포함하고, 제1 세그먼트는 주체의 손의 제1 부분을 포함하며, 또한 제2 세그먼트는 주체의 적어도 하나의 손의 제2 부분을 포함하고, 여기서 제1 부분은 제2 부분과 적어도 부분적으로 중첩되는
것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 방법.
제1항에 있어서,
상기 그리드에 기반한 검출 네트워크는 심층 CNN을 포함하고, 상기 심층 CNN은 제1 이미지 영역의 그리드 유닛을 처리하도록 구성되는 복수의 레이어를 포함하는
것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 방법.
제4항에 있어서,
상기 그리드에 기반한 검출 네트워크는 3개보다 많은 레이어를 포함하는
것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 방법.
제1항에 있어서,
배치 경사 하강 방법을 사용하여 주체의 손의 위치와 크기의 마킹을 구비한 트레이닝 이미지 데이터를 사용하여 제1 위치 확정 네트워크를 트레이닝하는 것을 더 포함하는
것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 방법.
제6항에 있어서,
제1 위치 확정 네트워크를 사용하여 트레이닝 이미지 데이터를 처리하여 주체의 손의 부분을 포함하는 이미지 세그먼트를 획득하고, 상기 이미지 세그먼트를 조합하고 확장하여 주체의 손을 캡처한 이미지 영역을 획득하며, 및 이미지 영역을 사용하여 그리드에 기반한 검출 네트워크를 트레이닝하는 것을 더 포함하는
것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 방법.
이미지 중의 주체의 손을 검출하기 위한 시스템에 있어서,
상기 시스템은 프로세서를 포함하고, 상기 프로세서는 머신 판독 가능한 명령을 실행하여, 상기 머신 판독 가능한 명령이 실행될 경우, 상기 시스템이,
이미지의 이미지 데이터를 수신하고;
제1 위치 확정 네트워크를 사용하여 이미지 데이터를 처리하여 상기 이미지 중의 세그먼트를 획득하고;
상기 세그먼트를 제1 이미지 영역으로 조합하고;
제1 이미지 영역의 크기를 예정된 마진만큼 확장하고; 및
그리드에 기반한 검출 네트워크를 사용하여 제1 이미지 영역을 처리하여 제2 이미지 영역을 획득하고, 제2 이미지 영역이 주체의 손을 캡처하는 것을 실행하도록 구성되고,
상기 이미지는 하나 또는 복수의 주체의 하나 또는 복수의 손을 캡처하고,
상기 세그먼트에서의 각 세그먼트는 주체의 손의 부분을 포함하고,
상기 제1 이미지 영역의 크기를 예정된 마진만큼 확장하는 것은,
상기 이미지를 nХn그리드로 나누고;
제1 이미지 영역을 상기 예정된 마진만큼 확장하고; 및
제1 이미지 영역의 경계를 그리드와 정렬하는 것을 포함하며,
상기 예정된 마진은 개별적인 그리드 유닛의 크기인
것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 시스템.
제8항에 있어서,
제1 위치 확정 네트워크는 직렬 연결된 2개의 서브 스테이지를 구비한 콘볼루션 뉴럴 네트워크(CNN)를 포함하는
것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 시스템.
제8항에 있어서,
상기 세그먼트는 제1 세그먼트 및 제2 세그먼트를 포함하고, 제1 세그먼트는 주체의 손의 제1 부분을 포함하며, 또한 제2 세그먼트는 주체의 적어도 하나의 손의 제2 부분을 포함하고, 여기서 제1 부분은 제2 부분과 적어도 부분적으로 중첩되는
것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 시스템.
제8항에 있어서,
여기서 상기 그리드에 기반한 검출 네트워크는 심층 CNN을 포함하고, 상기 심층 CNN은 제1 이미지 영역의 그리드 유닛을 처리하도록 구성되는 복수의 레이어를 포함하는
것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 시스템.
제11항에 있어서,
상기 그리드에 기반한 검출 네트워크는 3개보다 많은 레이어를 포함하는
것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 시스템.
제8항에 있어서,
상기 프로세서는 또한
배치 경사 하강 방법을 사용하여 주체의 손의 위치와 크기의 마킹을 구비한 트레이닝 이미지 데이터를 실행하도록 하는
것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 시스템.
제13항에 있어서,
상기 프로세서는 또한 제1 위치 확정 네트워크를 사용하여 트레이닝 이미지 데이터를 처리하여 주체의 손의 부분을 포함하는 이미지 세그먼트를 획득하고, 이미지 세그먼트를 조합하고 확장하여 주체의 손을 캡처한 이미지 영역을 획득하며, 및 이미지 영역을 사용하여 그리드에 기반한 검출 네트워크를 트레이닝하는 것이 실행되도록 하는
것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 시스템.
삭제
삭제