KR102206990B1 - 딥 뉴럴 네트워크를 사용하여 대략적에서 정밀적으로의 손 검출 방법 - Google Patents

딥 뉴럴 네트워크를 사용하여 대략적에서 정밀적으로의 손 검출 방법 Download PDF

Info

Publication number
KR102206990B1
KR102206990B1 KR1020197003100A KR20197003100A KR102206990B1 KR 102206990 B1 KR102206990 B1 KR 102206990B1 KR 1020197003100 A KR1020197003100 A KR 1020197003100A KR 20197003100 A KR20197003100 A KR 20197003100A KR 102206990 B1 KR102206990 B1 KR 102206990B1
Authority
KR
South Korea
Prior art keywords
image
hand
subject
segment
grid
Prior art date
Application number
KR1020197003100A
Other languages
English (en)
Other versions
KR20190026810A (ko
Inventor
즈쉬안 양
다하이 위
좡 류
쥔양 저우
슈쥐안 차이
스광 산
시린 천
Original Assignee
미디어 그룹 코 엘티디
시타테크 베이징 테크놀리지 씨오 엘티디
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미디어 그룹 코 엘티디, 시타테크 베이징 테크놀리지 씨오 엘티디 filed Critical 미디어 그룹 코 엘티디
Publication of KR20190026810A publication Critical patent/KR20190026810A/ko
Application granted granted Critical
Publication of KR102206990B1 publication Critical patent/KR102206990B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06K9/00375
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06K9/4628
    • G06K9/6271
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

이미지 중의 하나 또는 복수의 주체의 하나 또는 복수의 손을 포함하는 하나 또는 복수의 영역을 식별하는 검출 과정을 제공한다. 검출 과정은 대략적 CNN을 사용하여 이미지에서 이미지 중의 (하나 또는 복수의)주체의 (하나 또는 복수의)손의 부분을 포함하는 하나 또는 복수의 세그먼트를 대략적으로 위치 확정하는 것으로부터 시작할 수 있다. 그다음, 검출 과정은, 이러한 세그먼트를 조합하여 이미지 중의 (하나 또는 복수의)주체의 (하나 또는 복수의)손을 캡처한 하나 또는 복수의 영역을 획득할 수 있다. 그 다음, (하나 또는 복수의)조합 영역은, 그리드에 기반한 깊이 뉴럴 네트워크에 공급되어, 이미지에서 단지 캡처된 (하나 또는 복수의)주체의 (하나 또는 복수의)손만 포함한 (하나 또는 복수의)영역을 정밀하게 검출할 수 있다.

Description

딥 뉴럴 네트워크를 사용하여 대략적에서 정밀적으로의 손 검출 방법
본 발명은 컴퓨터화된 손 검출 분야에 관한 것이다.
일부 기존의 손 검출 기술은 머신(machine) 학습에 의존하여 이미지에서 캡처된(하나 또는 복수의) 손의 위치와 크기를 확정한다. 이러한 기술의 작업 하에서, 통상적으로 트레이닝 세트를 구축하여 신뢰적인 분류 또는 회귀 함수(regression function)를 생성한다. 검출된 손 및 밑층(underlying) 트레이닝 세트의 잡음과 왜곡은 신뢰적인 분류 또는 회귀를 억제할 수 있다.
여러가지 제스처, 조명 변화, 복잡한 배경, 이미지 중의 피부색 간섭 등으로 인해, 손 검출은 도전성이 있다. 손 검출을 위한 머신 학습 과정은 통상적으로 대량의 트레이닝 데이터가 수요되고, 이러한 트레이닝 데이터는 제어를 받지 않는 장면에서 관찰된 손의 위치와 크기를 표시한다.
이러한 기술의 트레이닝 데이터는 매뉴얼 주석(manual annotation)을 통해 획득할 수 있다. 손의 위치와 크기는 트레이닝 데이터로부터 추출할 수 있다. 이러한 기술에서의 일부는 콘볼루션 뉴럴 네트워크(CNN)를 사용하는데, 그는 트레이닝되어 손의 특징을 추출할 수 있다. 예를 들어, 2016년 1월 19일에 제출된 명칭이 "캐스케이드 콘볼루션 뉴럴 네트워크에 기반한 자기 중심 시야의 공중 핸드라이팅 및 공중 인터랙션 방법”인 중국 특허 출윈번호 CN1057181078A에서는, 트레이닝되어 특정된 각도로부터 주체의 손의 RGB 이미지를 분석하는 CNN를 설명하였다. 중국 특허 출윈번호CN1057181078A는 인용되는 것을 통해 여기에 결합된다. CN1057181078A에서 서술된 바와 같은 심층CNN은 손 검출 방면에서 좋은 성능을 구비한다.
심층CNN이 특징을 캡처하는 방면에 좋은 성능을 구비하는 것을 이미 증명하였지만, CNN에 기반한 기술은 통상적으로 트레이닝 및 테스트를 하기 위한 큰 계산 능력이 필요하다. 하나의 원인은 더 높은 정확도를 구현하기 위하여, CNN의 손 검출 기술에 기반하여 CNN에서 더 많은 레이어를 수요하고, 이에 따라 더 많은 계산 능력이 수요되기 때문이다. 이러한 심층CNN의 사용도 많은 시간을 소모할 것이다. 따라서, 기존의 CNN에 기반한 손 검출 기술을 개선하여 효율을 개선할 필요가 있다.
본 발명은 기존의 CNN에 기반한 손 검출 기술을 개선하여 효율을 개선하기 위한 것이다.
실시예는 이미지 중의 하나 또는 복수의 주체의 하나 또는 복수의 손을 포함하는 하나 또는 복수의 영역을 검출하는 과정을 제공할 수 있다. 그 다음, 당해 과정에 의해 검출된 이미지 중의 (하나 또는 복수의)영역이 제스처 식별 과정에 공급되어 검출된 (하나 또는 복수의)손의 제스처를 식별하기 위한 것에 있다. 일부 실시예에서, 검출 과정은 매우 간단하고 빨리 구현하는 대략적인 위치 확정 네트워크를 사용하여 이미지에서 이미지 중의 (하나 또는 복수의)주체의 (하나 또는 복수의)손의 부분을 포함하는 하나 또는 복수의 세그먼트를 대략적으로 위치 확정하는 것으로부터 시작할 수 있다. 그런 실시예에서, 그다음, 검출 과정은 이러한 세그먼트를 조합하여 이미지 중의 (하나 또는 복수의)주체의 (하나 또는 복수의)손을 캡처한 하나 또는 복수의 영역을 획득할 수 있다. 일부 실시예에서, 검출 과정은 이미지 중의 (하나 또는 복수의)조합 영역을 확장할 수 있어, 이들이 (하나 또는 복수의)주체의 (하나 또는 복수의)손에 대한 일부 컨텍스트 정보를 포함할 수 있도록 하고, 또한 그리드에 정합되게 할 수 있으며, 당해 그리드의 각 그리드 유닛은 서로 같은 예정된 크기를 가진다. 그 다음, (하나 또는 복수의)확장 영역은 정밀 그리드에 기반한 검출 네트워크에 공급되어, 이미지에서 캡처된 (하나 또는 복수의)주체의 (하나 또는 복수의)손만 포함하는 (하나 또는 복수의)정확한 영역을 검출할 수 있다. 기존 기술의 CNN에 기반한 손 검출 기술과 비교하면, 본 개시에 따른 실시예는 (하나 또는 복수의)주체의 (하나 또는 복수의)손만 포함한 것으로 예측된 개별 이미지 중의 (하나 또는 복수의)영역과 소요되는 컨텍스트를 정밀 그리드에 기반한 검출 네트워크에서 사용되는 CNN에 공급하는 것을 통해 정밀 그리드에 기반한 검출 네트워크에 공급되는 입력 이미지 데이터 양을 감소할 수 있다. 이는 정밀 그리드에 기반한 검출 네트워크의 입력 데이터 양을 감소함으로써, 손 검출을 위한 시간을 감소시킬 수 있다.
일부 실시예에서, 간단한 캐스케이드 CNN(예를 들어, 2개 서브 스테이지)를 트레이닝하고 이를 대략적인 위치 확정 네트워크로 사용하여 이미지에서 주체의 손을 포함하는 세그먼트를 위치 확정할 수 있다. 주어진 이미지 중의 위치 확정 세그먼트는 주체의 손의 다른 부분을 포함할 수 있다. 이것은 주체의 손의 대략적인 위치로 이해될 수 있다. 이러한 대략적인 위치 확정 네트워크에 사용되는 CNN는 매우 작고 또한 구현하기 쉽기에, 이를 구현하는데 소요되는 컴퓨팅 리소스가 상대적으로 비교적 적을 수 있다. 위치 확정 세그먼트에서의 손의 부분은 서로 중첩될 수 있다. 예를 들어, 제1 위치 확정 세그먼트는 제2 위치 확정 세그먼트에서의 주체의 손의 일부분(공간에서)과 부분적으로 중첩된 주체의 손의 일부분을 포함할 수 있다
일부 실시예에서, 조합 과정은 상술한 세그먼트를 조합하여 이미지에서 이미지 중의 (하나 또는 복수의)주체의 (하나 또는 복수의)손을 캡처하는 (하나 또는 복수의)영역을 획득하기 위한 것이다. 예를 들어, 이미지에서 단지 주체의 하나의 손을 캡처하였을 경우, 위치 확정 세그먼트는 조합되어 이미지 중의 손을 캡처한 영역을 획득할 수 있다. 다른 하나의 예로서, 이미지에서 주체의 두 손을 캡처하였을 경우, 위치 확정 세그먼트를 조합하여 2개의 영역을 형성할 수 있고, 각 영역이 주체의 하나의 손을 캡처하거나, 또는 하나의 영역이 주체의 두 손을 캡처한다. 일부 실시예에서, 이미지에서 복수의 주체를 캡처할 수 있다. 그런 실시예에서, 이미지 중의 복수의 영역을 획득하여, 당해 복수의 영역에서의 각각이 이미지 중의 주체의 하나 또는 복수의 손을 캡처할 수 있도록 한다. 그러나, 대략적인 위치 확정 네트워크의 정확도가 높지 않을 수 있기에, 일부 손을 포함하지 않은 영역이 존재할 수 있다. 이는 정밀 검출 네트워크에서 교정될 수 있다.
일부 실시예에서, 이미지 중의 조합 영역은 확장되어 조합 영역을 둘러싼 더 많은 둘러싸인 영역을 포함한다. 하나의 구현에서, 이미지를 그리드로 나눌 수 있고, 또한, 이미지에서 획득된 영역을 둘러싼 예정된 수량의 그리드 유닛을 응용하여 조합 영역을 확장할 수 있다. 이러한 방식으로, 이미지에서 주체의 손과 관련된 일부 컨텍스트 정보을 획득할 수 있다. 이러헌 컨텍스트 정보는 CNN에 기반한 검출에 도움이 될 수 있어, 더 높은 정확성을 구현한다. 또한, 손의 컨텍스트 정보를 포함하는 것은 주체의 손에 대한 검출이고, 동시에 이미지 중의 기타 관련되지 않은 정보를 과도하게 포함하지 않아 손의 검출을 위한 것에 있다. 따라서, 당해 조합 과정을 사용하여 CNN에 기반한 손 검출의 더 높은 정확도와 효율을 구현할 수 있다.
일부 실시예에서, 상기에서 서술한 처리 후의 영역은 그리드에 기반한 검출 네트워크에 송신될 수 있다. 정밀 그리드에 기반한 검출 네트워크에 공급하였을 경우, 조합 영역은 그리드로 나뉠 수 있다. 일부 실시예에서, 그리드에 기반한 검출 네트워크는 CNN를 포함할 수 있고, CNN는 처리 후의 영역의 각 그리드 유닛을 처리하여 처리 후의 영역에서 캡처된 주체의 손의 정확한 위치와 크기를 획득할 수 있다. 이 과정은 주체의 손의 정밀 검출로 이해될 수 있다.
기타 실시예는 본문에서 서술한 방법과 관련된 시스템과 컴퓨터 판독 가능 매체에 관한 것이다.
본 개시에서 발견한 그러한 혁신, 실시예 및/또는 예시를 합리적으로 서술하고 설명하기 위하여, 하나 또는 복수의 도면을 참조할 수 있다. 하나 또는 복수의 도면을 서술하기 위한 부가된 세부 사항 또는 예시는 임의의 보호받고자 하는 발명의 범위, 임의의 현재 서술된 실시예 및/또는 예시, 또는 본 개시에서 나타낸 임의의 혁신의 현재 생각되는 최적 모드에 대한 제한으로 간주되어서는 안된다.
도 1은 본 개시에 따른 이미지 중의 손 영역을 검출하는 것을 개념적으로 도시한다.
도 2는 본 개시에 따른 이미지에서 캡처된 주체의 손을 검출하기 위한 예시적인 방법을 도시한다.
도 3은 대략적인 위치 확정 네트워크가 이미지에서 캡처된 주체의 손의 부분을 포함한 세그먼트를 위치 확정할 수 있는데 사용되는 2개의 서브 스테이지의 캐스케이드 CNN를 도시한다.
도 4는 본 개시에 따른 대략적인 위치 확정 네트워크에 의해 위치 확정되고 주체의 손을 포함할 수 있는 복수의 부분의 세그먼트를 도시한다.
도 5는 위치 확정된 세그먼트의 조합을 통해 획득할수 있는 영역의 예시를 도시한다.
도 6은 이미지에서 캡처된 주체의 손을 포함하는 획득된 영역을 확장하는데 관한 일부 조작을 나타내는 예시적인 흐름도를 도시한다.
도 7은 도 6에 도시된 과정을 통해 획득된 이미지 영역의 예시를 도시한다.
도 8은 도 2에 도시된 방법을 사용하여 주체의 복수의 손을 식별할 수 있는 것을 개념적으로 도시한다.
도 9는 컴퓨터 시스템의 블록도이고, 당해 컴퓨터 시스템은 실시예, 실시예에 통합되거나, 또는 본 개시 내에 발견한 임의의 혁신, 실시예 및/또는 예시를 실천하기 위한 것을 포함할 수 있다.
머신 학습에서, 콘볼루션 뉴럴 네트워크(CNN(convolutional neural network) 또는 ConvNet)는 피드 포워드 인공 뉴럴 네트워크(feedforward artificial neural network)이고, 여기서 그의 뉴런(neuron) 사이의 연결 모드는 동물 시각 피질 조직(animal visual cortex)의 계발을 받는다. 각 피질 뉴런은 수용야(receptive field)라고 하는 공간의 제한된 영역에서 자극에 대해 반응을 한다. 서로 다른 뉴런의 수용야는 부분적으로 중첩되어, 그들이 시야에서 평평하게 보이도록 한다. 콘볼루션 연산을 통해 개체 뉴런이 그의 수용야 내의 자극에 대한 반응이 수학적으로 근사할 수 있다.
이미지 식별에 대하여, 콘볼루션 뉴럴 네트워크(CNN)는 통상적으로 여러 층의 수용야로 구성된다. 이러한 것은 입력 이미지의 부분을 처리하는 소형의 뉴런 집합이다. 일반적인 뉴럴 네트워크와는 달리, CNN의 레이어는 3차원, 너비, 높이, 깊이로 배치된 뉴런을 가질 수 있다 (주의할 것은, 본문에서 "깊이"는 체적을 활성화하는 제3 차원을 가리키는 것이지, 완정한 뉴럴 네트워크의 깊이를 가리키는 것이 아니며, 그는 네트워크에서의 레이어의 총수를 가리킬 수 있음). 예를 들어, CIFAR-10에서의 입력 이미지는 활성화된 입력 체적을 구비할 수 있고, 또한 당해 체적은 32Х32Х3(각각 너비, 높이, 깊이)인 차원을 구비한다. CNN은 너비, 높이, 깊이인 3차원으로 뉴런을 배치할 수 있다. CNN의 각 레이어는 모두 3D입력 체적을 뉴런이 활성화한 3D출력 체적으로 변환할 수 있다. 예를 들어, CNN은 이미지 데이터를 유지하는 입력층을 구비할 수 있고, 따라서 그의 너비와 높이는 이미지의 차원이고, 또한 깊이는 3(빨간색, 녹색, 파란색 채널)이다. RGB 입력 이미지를 예로 들면, 이는 32Х32Х3픽셀 값을 구비할 수 있다. 즉, 너비는 32픽셀을 구비하고, 높이는 32픽셀을 구비하며 또한 깊이는 3이다(즉, 3개의 색상 채널R, G 및 B).
손 검출은 예를 들어 가정용 전기 기구(에어컨과 같은)의 비접촉식 인터페이스를 설계하는데 있어서 중요하다. 이러한 인터페이스는 사용자가 제스처를 사용하여 가정용 전기 기구와 인터랙션하는 것을 허용할 수 있게 하는데, 예를 들어 가정용 전기 기구를 제어하도록 하는 것이다. 심층CNN을 구비한 오브젝트 검출은 이미 성공하였다. 오브젝트 검출에서의 방법은 손 검출에 사용될 수 있는데, 그중 일부 변화를 구비한다. 이러한 CNN에 기반한 손 검출의 관건은 각종 손 위치와 크기의 서로 다른 데이터 집합를 캡처하는 것이다. 이러한 기술에 사용되는 데이터 집합는 통상적으로 주체가 (하나 또는 복수의)손을 구비한 주체(예를 들어 사람)의 이미지를 캡처하는 것을 포함한다. 이미지는 통상적으로 사람의 얼굴 및/또는 신체를 디스플레이하는 거리로부터 주체를 캡처한다. 많은 상황에서, 이미지도 주체의 배경을 캡처할 수 있다. 그 다음, 이러한 이미지는 심층CNN에 공급되어 손 검출에 사용된다.
본 개시의 발명자에 의해 제공되는 견해는, 입력 데이터(예를 들어, 이미지)에는 대량의 이미지 중의 주체의 손과 무관한 정보를 포함하기에, 손 검출을 위한 기존의 CNN에 기반한 기술은 통상적으로 많은 시간을 소모한다. 많은 상황에서, 입력 데이터는 반드시 이러한 기술이 이용하는 심층CNN에서의 서로 다른 레이어를 통해 처리되여 손을 검출한다. 이는 대량의 계산 능력이 필요하므로, 많은 시간을 소모할 수 있다. 본 개시에 의해 제공되는 당해 문제에 대한 해결 방안은 간단한 CNN을 사용하여 대략적인 위치 확정 네트워크(coarse location network)로 하여 주체의 이미지에서 주체의 하나 또는 복수의 손을 포함하는 하나 또는 복수의 영역에 대해 대략적인 위치 확정(roughly locate)한다. 그 다음 이러한 영역은 그리드에 기반한 검출 네트워크를 사용하여 추가 처리되어, 단지 주체의 손을 포함하는 (하나 또는 복수의)이미지 영역에 대해 더 정밀한 검출을 실행할 수 있다. 이러한 방식으로, CNN에 기반한 손 검출 기술에 이용된 심층CNN으로 더 적은 정보가 처리될 할 뿐만아니라, 또한 입력 데이터에는 주체의 (하나 또는 복수의)손과 관련된 데이터만 포함하므로, 더 높은 정확도를 구현할 수 있다.
본 개시에 따른 손 검출은 일반적으로 3개의 단계로 나눌 수 있다. 제1 단계에서, 주체의 이미지를 수신할 수 있다. 당해 이미지는 이미지 중의 주체의 (하나 또는 복수의)손과 무관한 정보를 포함할 수 있다. 마찬가지로 제1 단계에서, 간단한 캐스케이드 CNN(예를 들어, 2개 서브 스테이지)을 사용하여 대략적인 위치 확정 네트워크로 하여 이미지에서 주체의 (하나 또는 복수의)손의 부분을 포함하는 하나 또는 복수의 세그먼트에 대해 대략적으로 위치 확정할 수 있다. 주체의 (하나 또는 복수의)손의 이런 위치는 주체의 손의 대략적 위치로 이해될 수 있다. 이러한 세그먼트는 서로 중첩된 주체의 (하나 또는 복수의)손의 부분을 포함할 수 있다.
제2 단계에서, 대략적인 위치 확정 네트워크에 의해 위치 확정된 세그먼트를 처리하여 이미지에서 주체의 손을 포함한다고 예측되는 하나 또는 복수의 영역 및 주체의 손을 둘러싼 일부 컨텍스트 정보를 획득할 수 있다. 이미지에서 주체의 하나의 손만 캡처할 경우, 하나의 영역을 획득할 수 있다. 이미지에서 주체의 두 손을 캡처할 경우, 두 손을 포함하는 하나의 영역 또는 2개의 영역을 획득할 수 있다. 물론, 이미지에 복수의 캡처된 주체가 존재할 경우, 복수의 영역을 획득할 수 있다. 그러나, 대략적인 위치 확정 네트워크의 정확도가 높지 않아도 되므로, 일부 손을 포함하지 않은 영역이 존재할 수 있다. 이것은 제3 단계에서 수정될 수 있다.
제3 단계에서, 제2 단계에서 획득한 이미지에서와 같은 영역은 그리드에 기반한 검출 네트워크에 공급(feed)될 수 있어, 단지 주체의 손을 포함하는 (하나 또는 복수의)이미지 영역을 더 정밀하게 식별하기 위한 것이다. 제3 단계의 결과는 단지 주체의 손을 포함하는 입력 이미지의 일부분이다. 이 단계는 주체의 손에 대해 더 정밀하게 검출하는 것으로 이해될 수 있다.
도 1은 본 개시에 따른 이미지에서 캡처된 주체의 손을 식별하는 것을 개념적으로 도시한다. 도 2는 본 개시에 따른 이미지에서 캡처된 주체의 손을 식별하기 위한 예시적인 방법(200)을 도시한다. 도 1과 도 2는 서로를 참조하여 서술된다. 먼저 도 2를 참조하면, 도 2에 도시된 특정된 계열의 처리 단계는 제한하려는 것에 목적이 있는 것이 아니다. 처리 단계는 응당 도 2에 도시된 순서와 다른 순서로 실행될 수 있고, 또한 도 2에 도시된 모든 단계는 모두 실행되는 것이 아님으로 인식해야 한다. 일부 구현에서, 방법(200)은 도 9에 도시된 것과 같은 시스템에 의해 생성될 수 있다.
일부 실시예에서, 방법(200)에 그려진 방법은 하나 또는 복수의 처리 기기(예를 들어, 디지털 프로세서, 아날로그 프로세서, 정보를 처리하도록 설계된 디지털 회로, 정보를 처리하도록 설계된 아날로그 회로, 상태 머신(state machine), 및/또는 전자적으로 정보를 처리하기 위한 기타 머신 장치)에서 생성될 수 있다. 당해 하나 또는 복수의 처리 기기는 전자 저장 매체에 전자적으로 저장된 명령에 응답하여 방법(200)의 일부 또는 전부 조작을 실행하는 하나 또는 복수의 기기를 포함할 수 있다. 당해 하나 또는 복수의 처리 기기는 하드웨어, 펌웨어 및/또는 소프트웨어를 통해 구성되어 방법(200)의 하나 또는 복수의 조작을 실행하도록 전문적으로 설계되는 하나 또는 복수의 기기를 포함할 수 있다.
202에서, 이미지의 데이터를 수신할 수 있다. 202에서 수신될 수 있는 이미지의 예시는 도 1에 도시된 108로 도시된다. 도 1에 도시된 바와 같이, 이미지(108)는 주체를 포함할 수 있고, 예를 들어 사람이며, 또한 주체는 어떤 방식으로 놓여 있는 적어도 하나의 손을 구비하는 것으로 캡처될 수 있다. 손 검출의 목표는 주체의 손의 위치와 크기를 찾는 것이다. 손 영역은 손에 대한 하나 또는 복수의 파라미터의 정의를 구비할 수 있다. 손 검출의 결과는 다음의 제스처 식별에 사용될 수 있다. 일부 실시예에서, 제스처는 가정용 전기 기구를 제어하기 위한 하나 또는 복수의 제어 명령으로 전환되거나 매핑될 수 있다.
도 2를 다시 참조한다. 204에서, 202에서 수신된 이미지 데이터가 대략적인 위치 확정 네트워크에 송신될 수 있고, 이미지에서 주체의 손의 부분을 포함하는 하나 또는 복수의 세그먼트에 대해 대략적으로 위치 확정하기 위한 것이다. 도 1을 참조하면, 당해 예시에서의 주체는 이미지(108)에서 캡처된 하나의 손을 구비한다. 단계 204의 목표는 이미지(108)에서의 복수의 세그먼트를 식별하는 것인 바, 본 예시에 도시된 112a-n와 같고, 이러한 세그먼트에서의 각각은 적어도 이미지(108)에서 캡처된 주체의 손의 일부분을 포함할 수 있다. 하나 또는 복수의 방법을 사용하여 204에서 실행되는 세그먼트의 위치 확정을 구현할 수 있다. 일부 구현에서, 세그먼트는 하기와 같이 표현될 수 있다.
Figure 112019010889639-pct00001
여기서 R0_i는 하기와 같이 더 표현될 수 있다.
Figure 112019010889639-pct00002
여기서 (x0_i, y0_i)는 이미지(108)에서 캡처된 주체의 손의 일부분을 구비한 것으로 예측된 제i 세그먼트의 좌표를 표시하고; (w0_i, h0_i)는 제i 세그먼트의 너비 및 높이를 표시하고, 또한 s0_i는 제i 세그먼트가 이미지(108)에서 캡처된 주체의 손의 일부분를 구비한 신뢰도를 표시한다.
일부 예시에서, 204에서 간단한 캐스케이드 CNN를 사용하여 대략적인 손 세그먼트의 위치 확정을 할 수 있다. 위에서 언급 한 바와 같이, 단계 204의 목표는 이미지(108)에서 세그먼트(112a-n)에 대해 대략적인 위치 확정을 하는 것이다. 당해 목적을 구현하기 위해, 이용된 대략적 CNN(102, coarse CNN)은 너무 깊지 않을 수 있다. 하나의 구현에서, 2개의 서브 스테이지가 캐스케이드 CNN을 사용하여 이미지(108)에서의 세그먼트(112a-n)를 위치 확정할 수 있다. 이는 도 3에 도시되어 있다. 도시된 바와 같이, 도 1에 도시된 대략적인 위치 확정 네트워크(102)에서 사용되는 캐스케이드 CNN은 직렬 연결된 제1 서브 스테이지(302) 및 제2 서브 스테이지를 구비할 수 있어, 이미지(108)의 이미지 데이터가 대략적 CNN(102)에 공급될 수 있고 또한 세그먼트(112a-n)가 위치 확정될 수 있도록 한다. 이러한 방식으로, 이미지(108)에서 캡처된 주체의 손과 무관한 정보의 대부분이 추가 처리되어 제거될 수 있으며, 또한 주체의 손과 관련된 데이터에 집중하여 추가 처리를 하기 위한 것일 수 있다.
도 2를 다시 참조하면, 206에서, 대략적인 위치 확정 네트워크로부터 206에서 위치 확정된 하나 또는 복수의 이미지 세그먼트를 수신할 수 있다. 이해해야 하는 것은, 206에서 수신된 각 세그먼트는 주체의 손의 부분을 포함할 수 있다. 이는 도 4에 도시되어 있다. 도 4에 도시된 바와 같이, 4개의 세그먼트(404a-d)가 주체의 손(402)의 일부분을 포함하는 것으로 예측한다. 도시된 바와 같이, 각 세그먼트는 서로 중첩된 손의 부분을 구비할 수 있다. 이 예시에서, 404a는 기타 3개의 모든 세그먼트와 중첩되고, 또한 기타 3개의 세그먼트도 404a와 마찬가지인 것이다.
도 2를 다시 참조하면, 208에서, 206에서 수신된 세그먼트가 조합되어 이미지에서 주체의 (하나 또는 복수의)손을 포함하는 것으로 예측되는 하나 또는 복수의 영역을 획득할 수 있다. 위에서 언급 한 바와 같이, 208에서 획득한 각 영역은 이미지에서 캡처된 주체의 서로 다른 손을 포함할 수 있다. 단계 208의 목표는 주체의 (하나 또는 복수의)손을 포함하는 (하나 또는 복수의)영역을 찾아내는 것이고, 또한 정밀 그리드(fine grid)에 기반한 검출 네트워크의 입력 사이의 중첩을 피하여 계산을 감소한다.
208에서 206에서 수신된 세그먼트를 조합하는 것을 통해 획득된 주어진 영역 집합 S1은 하기와 같이 표현될 수 있다.
Figure 112019010889639-pct00003
여기서 R1_k는 S1영역 집합에서의 제k 영역을 표시한다. R1_k는 중첩된 R0세그먼트로부터 획득되고, 예를 들어R0_i와 R0_j이다. R0_i가 하기의 파라미터, R0_i =(x0_i, y0_i, w0_i, h0_i, s0_i)를 가지고; R0_j가 하기의 파라미터, R0_j =(x0_j, y0_j, w0_j, h0_j, s0_j)를 가지며; 또한 R1_k가 하기의 파라미터, (x1_k, y1_k, w1_k, h1_k)를 가진다고 가정한다. 그러면 하기의 관계를 사용하여 R1_k를 획득할 수 있다.
Figure 112019010889639-pct00004
도 5는 도 4에 도시된 바와 같은 204에서 위치 확정한 세그먼트를 조합하는 것을 통해 획득할 수 있는 영역 502(S1)의 예시를 도시한다.
도 2를 다시 참조하면, 210에서, 208에서 획득한 영역을 확장(expand)할 수 있다. 단계 210의 목표는 208에서 획득한 영역에서 캡처된 주체의 손과 관련된 일부 컨텍스트 정보를 포함하는 것이고, 이것은 컨텍스트 정보가 단계 212에서 주체의 손을 더 식별하는데 도움이 될 수 있기 때문이다. 단계 210의 다른 하나의 목표는 영역을 확장하여, 영역이 그리드로 나뉠 수 있도록 하는 것이고, 이 그리드 유닛의 크기는 예정된 것이다. 도 6은 단계 210에서 포함할 수 있는 일부 조작을 나타내는 예시적인 흐름도(600)를 도시한다. 도 2를 참조하여 도 6을 서술한다.
602에서, 202에서 수신된 이미지(예를 들어, 이미지(108))는 n*n그리드로 나뉠 수 있다. 이미지(108)가 너비W와 높이H를 구비한다고 가정하면, 개별 이미지 블록은 하기의 차원: 너비= W/n, 높이= H/n를 구비할 수 있다.
604에서, 208에서 획득한 영역에서의 각각이 적어도 하나의 그리드 유닛의 크기만큼 확장되어 새로운 확장 영역을 획득할 수 있다. 도시된 바와 같이, R1_i를 예로 들면, R1_i는 하기의 파라미터 R1_i =(x1_i, y1_i, w1_i, h1_i)를 구비한다. 확장한 후의 영역은 R2_i이고 또한 하기의 파라미터, R2_i =(x2_i, y2_i, w2_i, h2_i)를 구비한다고 가정한다. R1_i 및 R2_i 사이의 관계는 하기와 같이 표현될 수 있다.
Figure 112019010889639-pct00005
여기서 w는 그리드 유닛의 너비. 즉 W/n을 표시하고; 또한 h는 그리드 유닛의 높이, 즉 H/n을 표시한다. 이해해야 하는 것은, 이상의 조건 표현식은 여기서 R1_i는 적어도 하나의 이미지 블록만큼 확장되어 202에서 수신된 이미지의 경계를 넘을 수 있는 상황을 설명하기 위한 것이다. 이러한 상황에서, 수신된 이미지 202의 경계는 확장된 블록R2_i의 경계로 쓰인다.
606에서, 확장 영역의 경계가 그리드와 정렬(align)될 수 있다. S3이 606에서 정렬된 후의 영역의 세트이고, 또한 S3이 주체의 손 및 일부 컨텍스트 정보(contextual information)를 포함하는 m개의 영역 R3을 구비할 수 있다고 가정하면; 또한 하기와 같이 표현될 수 있다. S3 = {R3_1, R3_2, ... R3_i ..., R3_m}. R3_i는 S3에서의 제i 영역을 표시하고 또한 하기의 파라미터, R3_i =(x3_i, y3_i, w3_i, h3_i)를 구비할 수 있다. R3_i는 하기와 같이 표현될 수 있다.
Figure 112019010889639-pct00006
여기서 w와 h는 그리드 유닛의 너비와 높이이다. 예시 영역(S3)은 도 1에서 114로 도시된다. 보여지는 바와 같이, 상술한 조작을 통해, 이미지에서 주체의 손 및 일부 컨텍스트를 식별할 수 있다.
도 7은 도 6에 도시된 과정을 통해 획득한 이미지 영역의 예시를 도시한다. 당해 예시에 도시된 바와 같이, 도 5에 도시된 조합의 제1 이미지 영역은 먼저 하나의 그리드 유닛만큼 확장되어 확장 영역(702)을 획득할 수 있다. 그 다음 확장 영역(702)의 경계는 정렬되어 이미지 중의 그리드 유닛에 매칭되어 다른 하나의 이미지 영역(704)을 획득할 수 있다.
도 2를 다시 참조하면, 212에서, 210에서 획득한 이미지 영역(도 7에 도시된 영역(704)과 같이)은 그리드에 기반한 검출 네트워크에 송신되어, 210에서 획득한 이미지 영역에서 캡처한 주체의 손을 더 정확(정밀한)하게 식별하기 위한 것일 수 있다. 211에서의 목표는 정밀 그리드에 기반한 검출 네트워크의 입력이 정밀 검출을 위한 충분한 컨텍스트를 구비하는 것을 확보하고, 또한 그의 그리드 유닛의 크기가 미리 확정된 그리드로 나뉠 수 있게 하는 것이다. 정밀 그리드에 기반한 검출 네트워크는 도 1에서 106으로 개념적으로 도시된다. 일부 구현에서, 정밀 검출 네트워크(106)는 복수의 레이어(예를 들어, 3개의 레이어보다 많음)를 구비할 수 있다. 정밀 검출 네트워크(106)는 수신된 이미지를 그의 그리드 유닛의 크기가 상기에서 기술한 것과 같은 w*h(즉, w = W/n; 또한 h = H/n)의 그리드로 나누는 것을 통하여 이미지를 처리하도록 설계될 수 있다. 정밀 검출 네트워크(106)는 그의 주체의 손과 관련된 신뢰도 점수로 정밀 검출 네트워크(106)에 의해 수신된 이미지 중의 각 그리드 유닛을 처리하도록 설계될 수 있다. 구현에서, 역치의 신뢰도 점수는 미리 확정될 수 있어, 역치의 신뢰도 점수보다 높은 신뢰도 점수을 가진 이미지 블록이 212에서 조합될 수 있어 주체의 손의 식별을 획득하도록 한다. 이것은 도 1에 도시되어 있는 바, 손 식별(116)은 이미지 영역(114)을 정밀 검출 네트워크(106)에 송신하는 것을 통해 획득할 수 있다. 이미지 영역(114)과 이미지 영역(116)을 비교하면, 영역(116)은 주체의 손에 더 집중하고 또한 영역(114)보다 작다.
일부 구현에서, 배치 경사 하강 방법(batch gradient descent method)을 사용하여 데이터를 트레이닝하는 것을 통해 대략적인 위치 확정 네트워크(102)를 트레이닝할 수 있다. 트레이닝 데이터는 이러한 이미지 중의 주체의 손의 위치와 크기의 매뉴얼 마킹(manual markings)을 구비하는 복수의 RGB이미지를 포함할 수 있다. 예를 들어, 트레이닝 데이터에서의 주어진 이미지에서 캡처한 주체의 손에 관해 라벨을 정의할 수 있다. 라벨의 왼쪽 상단 코너와 오른쪽 하단 코너의 좌표는 트레이닝 데이터로 마크될 수 있다. 매뉴얼 마킹의 기타 방법도 예측될 수 있다.
정밀 검출 네트워크(106)의 트레이닝에 관하여, 먼저 대략적인 위치 확정 네트워크를 트레이닝하기 위한 트레이닝 데이터를 대략적인 위치 확정 네트워크(102)에 송신하여, 단계 204에 따라 세그먼트를 획득할 수 있다. 이의 결과 세트가 W0라고 가정하면, 결과 세트 W0에서의 식별된 세그먼트는 이미지 중의 매뉴얼 마킹과 비교하여, 모든 마킹이 모두 결과 세트에 커버되었는지 여부를 확정할 수 있다. 만약 하나 또는 복수의 마킹이 결과 세트 W0에 커버되지 않았으면, 이러한 마킹을 커버하는 하나 또는 복수의 세그먼트는 단계 208와 단계 210에 따라 결과 세트 W0에 추가되어 새로운 집합 W1을 획득할 수 있다. 그 다음 새로운 집합 W1은 트레이닝 데이터(주체의 손을 구비한 매뉴얼 마킹)와 함께 대략적인 위치 확정 네트워크(106)에 송신되어 제2 CNN(106)를 트레이닝한다. 일부 구현에서, 배치 경사 하강 방법에서 이러한 데이터를 사용하여 대략적인 위치 확정 네트워크(106)를 트레이닝할 수 있다.
일부 구현에서, 도 1과 도 2에서 나타낸 방법을 사용하여 주체의 하나보다 많은 손을 식별할 수 있다. 이것은 도 8에서 개념적으로 나타냈다. 보여지는 바와 같이, 주체의 각 손의 세그먼트(802), 즉 802a와 802b는 먼저 대략적인 위치 확정 네트워크(102)를 사용하여 위치 확정될 수 있다. 조합과 확장 과정(104)을 사용하며, 그 다음 세그먼트(802a)는 804a로 처리될 수 있으며, 또한 세그먼트(804b)는 804b로 처리될 수 있다. 영역(804a)과 영역(804b)은 정밀 그리드에 기반한 검출 네트워크(106)를 사용하여 추가 처리되어, 주체의 오른손(806b)의 식별과 주체의 왼손(806a)의 식별을 획득할 수 있다.
도 9는 컴퓨터 시스템(900)의 블록도이다. 도 9는 단지 설명적일 뿐이다. 일부 실시예에서, 컴퓨터 시스템은 단일 컴퓨터 장치를 포함하고, 여기서 서브 시스템은 컴퓨터 장치의 어셈블리일 수 있다. 기타 실시예에서, 컴퓨터 시스템은 내부 어셈블리를 구비한 복수의 컴퓨터 장치를 포함할 수 있고, 각 컴퓨터 장치는 서브 시스템이다. 컴퓨터 시스템(900) 및 컴퓨터 시스템(900)의 임의의 어셈블리 또는 서브 시스템은 본문이 서술한 방법을 실행하도록 구성된 하드웨어 및/또는 소프트웨어 소자를 포함할 수 있다
컴퓨터 시스템(900)은 하나 또는 복수의 데이터 프로세서 또는 중앙 처리 유닛(CPU)(905), 하나 또는 복수의 그래픽 프로세서 또는 그래픽 처리 유닛(GPU)(910), 메모리 서브 시스템(915), 스토리지 서브 시스템(920), 하나 또는 복수의 입력/출력(I/O) 인터페이스(925), 통신 인터페이스(930) 등과 같은 잘 알고 있는 컴퓨터 어셈블리를 포함할 수 있다. 컴퓨터 시스템(900)은 상술한 어셈블리를 상호 연결시키고, 연결성과 기기 간 통신과 같은 기능을 제공하는 시스템 버스(935)를 포함할 수 있다.
하나 또는 복수의 데이터 프로세서 또는 중앙 처리 유닛(CPU)(905)은 응용에 특정된 기능을 제공하기 위한 로직 또는 프로그램 코드를 실행할 수 있다. (하나 또는 복수의)CPU(905)의 일부 예시는 하나 또는 복수의 마이크로 프로세서(예를 들어, 단일 코어 및 다중 코어) 또는 마이크로 컨트롤러, 하나 또는 복수의 필드 프로그래머블 게이트 어레이(FPGA) 및 전용 집적 회로(ASIC)를 포함할 수 있다. 본문에서 사용되는 것과 같이, 프로세서는 동일한 집적 칩에 있는 다중 코어 프로세서, 또는 단일 회로 기판에 있는 또는 네트워크로 연결된 복수의 처리 유닛을 포함한다.
하나 또는 복수의 그래픽 프로세서 또는 그래픽 처리 유닛(GPU)(910)은 그래픽과 서로 관련되거나 그래픽에 특정된 기능을 제공하기 위한 로직 또는 프로그램 코드를 실행할 수 있다. GPU(910)는 일반적인 비디오 카드에 의해 제공되는 그런 그래픽 처리 유닛과 같은 임의의 일반적인 그래픽 처리 유닛을 포함할 수 있다. 각종 실시예에서, GPU(910)는 하나 또는 복수의 벡터 또는 병렬 처리 유닛을 포함할 수 있다. 이러한 GPU는 사용자가 프로그래밍 가능하고, 또한 특정된 유형의 데이터(예를 들어, 비디오 데이터)를 인코딩/디코딩하기 위한 것이거나 2D 또는 3D 드로잉 작업, 텍스처링 작업, 착색 작업 등을 가속화 하기 위한 하드웨어 소자를 포함한다. 하나 또는 복수의 그래픽 프로세서 또는 그래픽 처리 유닛(GPU)(910)은 임의의 수량의 레지스터, 로직 유닛, 연산 유닛, 캐시, 메모리 인터페이스 등을 포함할 수 있다.
메모리 서브 시스템(915)은 예를 들어 머신 판독 가능 제품, 정보 저장 기기 또는 컴퓨터 판독 가능 저장 매체를 사용하여 정보를 저장할 수 있다. 일부 예시는 램(RAM), 롬(ROM), 휘발성 메모리, 비 휘발성 메모리 및 기타 반도체 메모리를 포함할 수 있다. 메모리 서브 시스템(915)은 데이터 및 프로그램 코드(940)를 포함할 수 있다.
스토리지 서브 시스템(920)은 또한 머신 판독 가능 제품, 정보 저장 기기 또는 컴퓨터 판독 가능 저장 매체를 사용하여 정보를 저장할 수 있다. 스토리지 서브 시스템(920)는 저장 매체(945)를 사용하여 정보를 저장할 수 있다. 스토리지 서브 시스템(920)에 의해 사용되는 저장 매체(945)의 일부 예시는 플로피 디스크, 하드 디스크, CD-ROM, DVD 및 바코드와 같은 광학 저장 매체, 이동식 저장 기기, 네트워크 저장 기기 등을 포함할 수 있다. 일부 실시예에서, 데이터 및 프로그램 코드(940)의 전부 또는 일부는 스토리지 서브 시스템(920)을 사용하여 저장할 수 있다.
하나 또는 복수의 입력/출력 (I/O)인터페이스(925)는 I/O조작을 실행할 수 있다. 하나 또는 복수의 입력 기기(950) 및/또는 하나 또는 복수의 출력 기기(955)는 하나 또는 복수의 I/O인터페이스(925)에 통신 가능하게 결합될 수 있다. 하나 또는 복수의 입력 기기(950)는 컴퓨터 시스템(900)에 사용되는 하나 또는 복수의 소스로부터 정보를 수신할 수 있다. 하나 또는 복수의 입력 기기(950)의 일부 예시는 컴퓨터 마우스, 트랙볼, 트랙 패드, 조이스틱, 무선 리모컨, 드로잉 태블릿(drawing tablet), 음성 명령 시스템, 안구 추적 시스템, 외부 저장 시스템, 터치 스크린으로 적당히 구성되는 모니터, 송수신기로 적당히 구성되는 통신 인터페이스 등을 포함할 수 있다. 각종 실시예에서, 하나 또는 복수의 입력 기기(950)는 컴퓨터 시스템(900)의 사용자가 하나 또는 복수의 비 그래픽 또는 그래픽 사용자 인터페이스와 인터랙션하는 것을 허용하여 명령, 버튼 클릭 등을 거쳐 평론을 입력할 수 있고, 오브젝트, 아이콘, 텍스트, 사용자 인터페이스 위젯 또는 모니터/디스플레이 기기에 나타나는 기타 사용자 인터페이스 요소를 선택할 수 있다.
하나 또는 복수의 출력 기기(955)는 컴퓨터 시스템(900)에 사용되는 하나 또는 복수의 목적지에 정보를 출력할 수 있다. 하나 또는 복수의 출력 기기(955)의 일부 예시는 프린터, 팩스, 마우스 또는 조이스틱에 사용되는 피드백 기기, 외부 저장 시스템, 모니터 또는 기타 디스플레이 기기, 송수신기로 적당히 구성되는 통신 인터페이스 등을 포함할 수 있다. 하나 또는 복수의 출력 기기(955)는 컴퓨터 시스템(900)의 사용자가 오브젝트, 아이콘, 텍스트, 사용자 인터페이스 위젯(widget) 또는 기타 사용자 인터페이스 요소를 조사하는 것을 허용할 수 있다. 디스플레이 기기 또는 모니터는 컴퓨터 시스템(900)과 함께 사용될 수 있고 , 또한 정보를 디스플레이하도록 구성된 하드웨어 및/또는 소프트웨어 소자를 포함할 수 있다
통신 인터페이스(930)는 통신 조작을 실행할 수 있는 바, 데이터를 송신하는 것과 수신하는 것을 포함한다. 통신 인터페이스(930)의 일부 예시는 네트워크 통신 인터페이스(예를 들어, 이더넷, Wi-Fi 등)를 포함할 수 있다. 예를 들어, 통신 인터페이스(930)는 컴퓨터 네트워크, USB허브 등과 같은 통신 네트워크/외부 버스(960)에 결합될 수 있다. 컴퓨터 시스템은 예를 들어 통신 인터페이스(930) 또는 내부 인터페이스를 통해 함께 연결된 복수의 같은 어셈블리 또는 서브 시스템을 포함할 수 있다. 일부 실시예에서, 컴퓨터 시스템, 서브 시스템 또는 장치는 네트워크를 통해 통신을 행할 수 있다. 이런 상황에서, 하나의 컴퓨터는 클라이언트로 간주될 수 있고, 또한 다른 하나의 컴퓨터는 서버로 간주될 수 있으며, 여기서 매개는 동일한 컴퓨터 시스템의 일부분일 수 있다. 클라이언트와 서버는 각자 복수의 시스템, 서브 시스템 또는 어셈블리를 포함할 수 있다.
컴퓨터 시스템(900)은 프로세서에 의해 실행되는 본문에서 개시된 기술을 실행, 조작 또는 기타 방식으로 구현하는 하나 또는 복수의 애플리케이션(예를 들어, 소프트웨어 어셈블리 또는 기능)을 더 포함할 수 있다. 이러한 애플리케이션은 데이터 및 프로그램 코드(940)으로 구현될 수 있다. 이 외에, 컴퓨터 프로그램 , 실행 가능한 컴퓨터 코드, 사람이 판독 가능한 소스 코드, 쉐이더 코드(shader code), 렌더링 엔진 등, 및 데이터(이미지 파일, 오브젝트의 기하학적 서술을 포함한 모델, 오브젝트의 순서적인 기하학적 서술, 모델의 과정 서술, 장면 디스크립터 파일 등과 같은 것임)는 메모리 서브 시스템(915) 및/또는 스토리지 서브 시스템(920)에 저장될 수 있다.
이러한 프로그램은 또한 각종 프로토콜에 부합되는 유선, 광학 및/또는 무선 네트워크(인터넷을 포함)를 통한 전송에 적합한 반송파 신호를 사용하여 인코딩하고 전송할 수 있다. 따라서, 본 발명의 실시예에 따른 컴퓨터 판독 가능 매체는 이러한 프로그램을 사용하여 인코딩한 데이터신호로 생성될 수 있다. 프로그램 코드로 인코딩한 컴퓨터 판독 가능 매체는 호환 기기와 함께 패키징될 수 있거나, 또는 기타 기기와 분리되어 제공될 수 있다(예를 들어, 인터넷을 거쳐 다운로드 되는 것). 어떠한 컴퓨터 판독 가능 매체는 단일 컴퓨터 제품(예를 들어, 하드 디스크 드라이브, CD또는 전체 컴퓨터 시스템)에 또는 내부에 상주할 수 있거나, 또한 시스템 또는 네트워크 내의 서로 다른 컴퓨터 제품에 또는 내부에 존재할 수 있다. 컴퓨터 시스템은 모니터, 프린터 또는 기타 적합한 디스플레이를 포함할 수 있는 바, 사용자에게 본문에서 언급된 임의의 결과를 제공하기 위한 것이다.
본문에 서술된 임의의 방법은 하나 또는 복수의 프로세서를 포함하는 컴퓨터 시스템에 의해 전체적으로 또는 부분적으로 실행될 수 있고, 당해 하나 또는 복수의 프로세서는 단계를 실행하도록 구성될 수 있다. 따라서, 실시예는 본문에서 서술된 임의의 방법의 단계를 실행하도록 구성되는 컴퓨터 시스템에 대해, 이는 상응한 단계 또는 상응한 단계 그룹를 실행하는 서로 다른 어셈블리를 잠재적으로 구비한다. 비록 일련번호로 단계를 보여주지만, 본문의 방법의 단계는 동시에 또는 서로 다른 순서로 실행될 수 있다. 이 외에, 이러한 단계의 부분은 기타 방법의 기타 단계에서 오는 일부와 함께 사용될 수 있다. 또한, 단계의 전부 또는 일부는 선택 가능한 것일 수 있다. 이 외에, 임의의 방법의 임의의 단계는 모듈, 회로 또는 이러한 단계를 실행하기 위한 기타 디바이스로 실행될 수 있다.
본 발명의 실시예의 정신과 범위를 벗어나지 않은 상황에서, 임의의 적합한 방식으로 특정된 실시예의 구체적인 세부 사항을 조합할 수 있다. 그러나, 본 발명의 기타 실시예는 각 단독적인 측면과 관련된 구체적인 실시예, 또는 이러한 단독적인 측면에 대해 구체적으로 조합할 수 있다.
설명과 서술의 목적을 위해 본 발명의 예시적인 실시예의 상기의 서술을 나타냈다. 이는 철저한 것이거나 본 발명을 서술된 정확한 형식으로 한정하려는 것이 아니다. 또한 상술한 교도에 감안하여, 많은 수정과 변화는 가능하다. 실시예를 선택하고 서술하는 것은 본 발명의 원리 및 그의 실제 응용을 더 잘 해석하기 위하여 이고, 따라서 본 분야의 다른 기술자가 각종 실시예에서 예상된 특정된 용도에 적합한 각종 수정으로 본 발명을 가장 좋게 이용할 수 있다.
발명의 교도가 본 개시에서 제공되는, 하나 또는 복수의 발명에서의 임의의 각종 실시예는 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합을 사용하여 로직의 형식으로 생성될 수 있다. 로직은 머신 액세스 가능 메모리, 머신 판독 가능 제품, 유형의 컴퓨터 판독 가능 매체, 컴퓨터 판독 가능 저장 매체 또는 기타 컴퓨터/머신 판독 가능 매체에 또는 그에 저장될 수 있고, 로직 머신을 지도하여 중압 처리 유닛(CPU또는 프로세서)이 본 개시에서 나타내는 발명의 각종 실시예에서 개시된 하나의 세트의 단계를 실행할 수 있는데 적합한 하나의 세트의 명령으로 한다. 코드 모듈이 실행되어 본 개시에서 나타내는 발명의 각종 실시예에서의 방법 또는 과정을 실행하도록 할 경우, 코드 모듈은 컴퓨터 시스템 또는 정보 처리 기기의 프로세서와 함께 조작할 수 있게 되므로, 로직은 소프트웨어 프로그램 또는 컴퓨터 프로그램 제품의 일부분을 형성할 수 있다. 본 개시와 본문에서 제공된 교도에 기반하여, 본 분야에서 통상의 지식을 가진자는 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합으로 생성하여 나타내기 위한 하나 또는 복수의 발명의 각종 실시예의 임의의 개시된 조작 또는 기능의 기타 방식, 변형, 수정, 교체 및/또는 방법을 인식한다.
발명의 교도가 본 개시에서 제공되는 그런 발명에서의 임의의 하나의 개시된 예시, 구현과 각종 실시예는 단지 설명일 뿐이고, 본 분야의 통상의 지식을 가진자에게 합리하고 명확하게 본 개시의 교도를 전달할 수 있다. 이러한 구현과 실시예는 예시적인 도시 또는 특정된 도면을 참조하여 서술할 수 있으므로, 서술된 방법 및/또는 특정된 구조의 각종 수정 또는 변경은 본 분야의 통상의 지식을 가진자에게 있어서 자명할 것이다. 본 개시 및 본문에서 찾아낸 이러한 교도에 의존하고 또한 발명의 교도를 통해 본 분야 기술이 진보하도록 하는 모든 이러한 수정, 변경 또는 변화는 모두 발명의 교도가 본 개시에서 나타낼 수 있는 하나 또는 복수의 발명의 범위 내에 있는 것으로 간주된다. 따라서, 본 서술과 도면은 제한하는 의미로 간주되어서는 안되며, 본 개시에서 나타낸 발명은 절대 어떤 방식으로도 전문적으로 도시된 그러한 실시예에 제한되는 것으로 간주되어서는 안되는 것을 이해해야 한다.
따라서, 이상의 서술과 임의의 도면, 도시 및 도는 설명적인 것이지 제한적인 것을 목적으로 하는 것이 아니다. 따라서, 본 개시에서 나타낸 임의의 발명의 범위는 이상의 서술과 도면에 도시된 이런 실시예를 간단히 참조하는 것을 통해 확정하여서는 안되고, 미결된 청구 범위 및 그의 전체 범위 또는 등가물을 참조하여 확정하여야 한다.

Claims (16)

  1. 이미지 중의 주체의 손을 검출하기 위한 방법에 있어서,
    상기 방법은 머신 판독 가능한 명령을 실행하도록 구성된 프로세서에 의해 실행되고, 상기 방법은,
    이미지의 이미지 데이터를 수신하는 단계 - 상기 이미지는 하나 또는 복수의 주체의 하나 또는 복수의 손을 캡처함 -;
    제1 위치 확정 네트워크를 사용하여 이미지 데이터를 처리하여 상기 이미지 중의 세그먼트를 획득하는 단계 - 상기 세그먼트에서의 각 세그먼트는 주체의 손의 부분을 포함함 -;
    상기 세그먼트를 제1 이미지 영역으로 조합하는 단계;
    제1 이미지 영역의 크기를 예정된 마진(margin)만큼 확장(expand)하는 단계; 및
    그리드에 기반한 검출 네트워크를 사용하여 제1 이미지 영역을 처리하여 제2 이미지 영역을 획득하고, 제2 이미지 영역이 주체의 손을 캡처하는 단계를 포함하고,
    상기 제1 이미지 영역의 크기를 예정된 마진만큼 확장하는 단계는,
    상기 이미지를 nХn그리드로 나누는 단계 - 여기서 상기 예정된 마진은 개별적인 그리드 유닛의 크기임 -;
    제1 이미지 영역을 상기 예정된 마진만큼 확장하는 단계; 및
    제1 이미지 영역의 경계를 그리드와 정렬하는 단계를 포함하는
    것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 방법.
  2. 제1항에 있어서,
    제1 위치 확정 네트워크는 직렬 연결된 2개의 서브 스테이지를 구비한 콘볼루션 뉴럴 네트워크(CNN)를 포함하는
    것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 방법.
  3. 제1항에 있어서,
    상기 세그먼트는 제1 세그먼트 및 제2 세그먼트를 포함하고, 제1 세그먼트는 주체의 손의 제1 부분을 포함하며, 또한 제2 세그먼트는 주체의 적어도 하나의 손의 제2 부분을 포함하고, 여기서 제1 부분은 제2 부분과 적어도 부분적으로 중첩되는
    것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 방법.
  4. 제1항에 있어서,
    상기 그리드에 기반한 검출 네트워크는 심층 CNN을 포함하고, 상기 심층 CNN은 제1 이미지 영역의 그리드 유닛을 처리하도록 구성되는 복수의 레이어를 포함하는
    것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 방법.
  5. 제4항에 있어서,
    상기 그리드에 기반한 검출 네트워크는 3개보다 많은 레이어를 포함하는
    것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 방법.
  6. 제1항에 있어서,
    배치 경사 하강 방법을 사용하여 주체의 손의 위치와 크기의 마킹을 구비한 트레이닝 이미지 데이터를 사용하여 제1 위치 확정 네트워크를 트레이닝하는 것을 더 포함하는
    것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 방법.
  7. 제6항에 있어서,
    제1 위치 확정 네트워크를 사용하여 트레이닝 이미지 데이터를 처리하여 주체의 손의 부분을 포함하는 이미지 세그먼트를 획득하고, 상기 이미지 세그먼트를 조합하고 확장하여 주체의 손을 캡처한 이미지 영역을 획득하며, 및 이미지 영역을 사용하여 그리드에 기반한 검출 네트워크를 트레이닝하는 것을 더 포함하는
    것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 방법.
  8. 이미지 중의 주체의 손을 검출하기 위한 시스템에 있어서,
    상기 시스템은 프로세서를 포함하고, 상기 프로세서는 머신 판독 가능한 명령을 실행하여, 상기 머신 판독 가능한 명령이 실행될 경우, 상기 시스템이,
    이미지의 이미지 데이터를 수신하고;
    제1 위치 확정 네트워크를 사용하여 이미지 데이터를 처리하여 상기 이미지 중의 세그먼트를 획득하고;
    상기 세그먼트를 제1 이미지 영역으로 조합하고;
    제1 이미지 영역의 크기를 예정된 마진만큼 확장하고; 및
    그리드에 기반한 검출 네트워크를 사용하여 제1 이미지 영역을 처리하여 제2 이미지 영역을 획득하고, 제2 이미지 영역이 주체의 손을 캡처하는 것을 실행하도록 구성되고,
    상기 이미지는 하나 또는 복수의 주체의 하나 또는 복수의 손을 캡처하고,
    상기 세그먼트에서의 각 세그먼트는 주체의 손의 부분을 포함하고,
    상기 제1 이미지 영역의 크기를 예정된 마진만큼 확장하는 것은,
    상기 이미지를 nХn그리드로 나누고;
    제1 이미지 영역을 상기 예정된 마진만큼 확장하고; 및
    제1 이미지 영역의 경계를 그리드와 정렬하는 것을 포함하며,
    상기 예정된 마진은 개별적인 그리드 유닛의 크기인
    것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 시스템.
  9. 제8항에 있어서,
    제1 위치 확정 네트워크는 직렬 연결된 2개의 서브 스테이지를 구비한 콘볼루션 뉴럴 네트워크(CNN)를 포함하는
    것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 시스템.
  10. 제8항에 있어서,
    상기 세그먼트는 제1 세그먼트 및 제2 세그먼트를 포함하고, 제1 세그먼트는 주체의 손의 제1 부분을 포함하며, 또한 제2 세그먼트는 주체의 적어도 하나의 손의 제2 부분을 포함하고, 여기서 제1 부분은 제2 부분과 적어도 부분적으로 중첩되는
    것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 시스템.
  11. 제8항에 있어서,
    여기서 상기 그리드에 기반한 검출 네트워크는 심층 CNN을 포함하고, 상기 심층 CNN은 제1 이미지 영역의 그리드 유닛을 처리하도록 구성되는 복수의 레이어를 포함하는
    것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 시스템.
  12. 제11항에 있어서,
    상기 그리드에 기반한 검출 네트워크는 3개보다 많은 레이어를 포함하는
    것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 시스템.
  13. 제8항에 있어서,
    상기 프로세서는 또한
    배치 경사 하강 방법을 사용하여 주체의 손의 위치와 크기의 마킹을 구비한 트레이닝 이미지 데이터를 실행하도록 하는
    것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 시스템.
  14. 제13항에 있어서,
    상기 프로세서는 또한 제1 위치 확정 네트워크를 사용하여 트레이닝 이미지 데이터를 처리하여 주체의 손의 부분을 포함하는 이미지 세그먼트를 획득하고, 이미지 세그먼트를 조합하고 확장하여 주체의 손을 캡처한 이미지 영역을 획득하며, 및 이미지 영역을 사용하여 그리드에 기반한 검출 네트워크를 트레이닝하는 것이 실행되도록 하는
    것을 특징으로 하는 이미지 중의 주체의 손을 검출하기 위한 시스템.
  15. 삭제
  16. 삭제
KR1020197003100A 2017-06-06 2017-06-06 딥 뉴럴 네트워크를 사용하여 대략적에서 정밀적으로의 손 검출 방법 KR102206990B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2017/087354 WO2018223295A1 (en) 2017-06-06 2017-06-06 Coarse-to-fine hand detection method using deep neural network

Publications (2)

Publication Number Publication Date
KR20190026810A KR20190026810A (ko) 2019-03-13
KR102206990B1 true KR102206990B1 (ko) 2021-01-22

Family

ID=63434061

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197003100A KR102206990B1 (ko) 2017-06-06 2017-06-06 딥 뉴럴 네트워크를 사용하여 대략적에서 정밀적으로의 손 검출 방법

Country Status (6)

Country Link
US (1) US10817716B2 (ko)
EP (1) EP3452955A4 (ko)
JP (1) JP6762382B2 (ko)
KR (1) KR102206990B1 (ko)
CN (1) CN108521820B (ko)
WO (1) WO2018223295A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2581536B (en) * 2019-02-25 2024-01-17 Huawei Tech Co Ltd Joint shape and texture decoders for three-dimensional rendering
JP7190987B2 (ja) * 2019-08-09 2022-12-16 株式会社日立製作所 情報処理システム、および情報処理方法
CN111210434A (zh) * 2019-12-19 2020-05-29 上海艾麒信息科技有限公司 基于天空识别的图像替换方法及系统
CN115862144B (zh) * 2022-12-23 2023-06-23 杭州晨安科技股份有限公司 一种摄像机手势识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013114660A (ja) * 2011-12-01 2013-06-10 Pioneer Electronic Corp 手領域検出装置、手領域検出方法、プログラム及び記憶媒体

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6529614B1 (en) * 1998-08-05 2003-03-04 California Institute Of Technology Advanced miniature processing handware for ATR applications
JP2006323779A (ja) * 2005-05-20 2006-11-30 Canon Inc 画像処理方法、画像処理装置
KR100776801B1 (ko) * 2006-07-19 2007-11-19 한국전자통신연구원 화상 처리 시스템에서의 제스처 인식 장치 및 방법
JP5231159B2 (ja) * 2008-10-21 2013-07-10 Necソフト株式会社 人物検出装置及び方法、学習モデル作成装置及び方法、並びにプログラム
US8379987B2 (en) * 2008-12-30 2013-02-19 Nokia Corporation Method, apparatus and computer program product for providing hand segmentation for gesture analysis
WO2013063767A1 (en) * 2011-11-01 2013-05-10 Intel Corporation Dynamic gesture based short-range human-machine interaction
WO2014181278A1 (en) * 2013-05-09 2014-11-13 Koninklijke Philips N.V. Method and system for mesh segmentation and mesh registration
KR102216124B1 (ko) * 2013-09-06 2021-02-16 삼성전자주식회사 영상 처리 방법 및 영상 처리 장치
US9202144B2 (en) * 2013-10-30 2015-12-01 Nec Laboratories America, Inc. Regionlets with shift invariant neural patterns for object detection
JP2016006626A (ja) * 2014-05-28 2016-01-14 株式会社デンソーアイティーラボラトリ 検知装置、検知プログラム、検知方法、車両、パラメータ算出装置、パラメータ算出プログラムおよびパラメータ算出方法
CN105981041A (zh) * 2014-05-29 2016-09-28 北京旷视科技有限公司 使用粗到细级联神经网络的面部关键点定位
GB2532075A (en) * 2014-11-10 2016-05-11 Lego As System and method for toy recognition and detection based on convolutional neural networks
CN104573715B (zh) * 2014-12-30 2017-07-25 百度在线网络技术(北京)有限公司 图像主体区域的识别方法及装置
WO2016165060A1 (en) * 2015-04-14 2016-10-20 Intel Corporation Skin detection based on online discriminative modeling
US9760801B2 (en) * 2015-05-12 2017-09-12 Lawrence Livermore National Security, Llc Identification of uncommon objects in containers
US10007863B1 (en) * 2015-06-05 2018-06-26 Gracenote, Inc. Logo recognition in images and videos
CN105046196B (zh) * 2015-06-11 2018-04-17 西安电子科技大学 基于级联卷积神经网络的前车车辆信息结构化输出方法
US10452995B2 (en) * 2015-06-29 2019-10-22 Microsoft Technology Licensing, Llc Machine learning classification on hardware accelerators with stacked memory
US10410096B2 (en) * 2015-07-09 2019-09-10 Qualcomm Incorporated Context-based priors for object detection in images
US10074042B2 (en) * 2015-10-06 2018-09-11 Adobe Systems Incorporated Font recognition using text localization
KR101899590B1 (ko) * 2015-10-21 2018-09-17 에스케이 텔레콤주식회사 손 모양 및 동작 인식장치 및 방법
WO2017100903A1 (en) * 2015-12-14 2017-06-22 Motion Metrics International Corp. Method and apparatus for identifying fragmented material portions within an image
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
CN106920251A (zh) * 2016-06-23 2017-07-04 阿里巴巴集团控股有限公司 人手检测跟踪方法及装置
US10235771B2 (en) * 2016-11-11 2019-03-19 Qualcomm Incorporated Methods and systems of performing object pose estimation
CN106650699B (zh) * 2016-12-30 2019-09-17 中国科学院深圳先进技术研究院 一种基于卷积神经网络的人脸检测方法及装置
JP7229174B2 (ja) * 2017-04-14 2023-02-27 コーニンクレッカ フィリップス エヌ ヴェ 人識別システム及び方法
WO2019060787A1 (en) * 2017-09-21 2019-03-28 Lexset.Ai Llc DETECTION OF AT LEAST ONE OBJECT IN AN IMAGE, OR A SEQUENCE OF IMAGES, AND DETERMINATION OF A CATEGORY AND AT LEAST ONE DESCRIPTOR FOR EACH OF THESE OBJECTS, GENERATION OF SYNTHETIC LEARNING DATA, AND FORMATION OF A NEURONAL NETWORK USING SYNTHETIC LEARNING DATA

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013114660A (ja) * 2011-12-01 2013-06-10 Pioneer Electronic Corp 手領域検出装置、手領域検出方法、プログラム及び記憶媒体

Also Published As

Publication number Publication date
CN108521820A (zh) 2018-09-11
EP3452955A4 (en) 2019-07-03
KR20190026810A (ko) 2019-03-13
JP2019530039A (ja) 2019-10-17
WO2018223295A1 (en) 2018-12-13
US10817716B2 (en) 2020-10-27
CN108521820B (zh) 2021-08-20
EP3452955A1 (en) 2019-03-13
JP6762382B2 (ja) 2020-09-30
US20190122041A1 (en) 2019-04-25

Similar Documents

Publication Publication Date Title
KR102206990B1 (ko) 딥 뉴럴 네트워크를 사용하여 대략적에서 정밀적으로의 손 검출 방법
US10832039B2 (en) Facial expression detection method, device and system, facial expression driving method, device and system, and storage medium
US10997465B2 (en) Information processing device, information processing method, and storage medium
CN107077604B (zh) 用于心律检测的面部皮肤掩膜生成
US20130335318A1 (en) Method and apparatus for doing hand and face gesture recognition using 3d sensors and hardware non-linear classifiers
US11681910B2 (en) Training apparatus, recognition apparatus, training method, recognition method, and program
US8948493B2 (en) Method and electronic device for object recognition, and method for acquiring depth information of an object
CN104951064B (zh) 高效的自由空间手指识别
US20210149478A1 (en) Silhouette-based limb finder determination
US20160078679A1 (en) Creating a virtual environment for touchless interaction
WO2015050250A1 (ja) 画像処理装置、画像表示装置、画像処理方法及び媒体
US11666266B2 (en) Source localization of EEG signals
US20170228647A1 (en) Depth-based feature systems for classification applications
JP2017033556A (ja) 画像処理方法及び電子機器
JP6815743B2 (ja) 画像処理装置及びその方法、プログラム
KR102160955B1 (ko) 딥 러닝 기반 3d 데이터 생성 방법 및 장치
US12046019B2 (en) Surface automation in black box environments
US10599787B2 (en) Sweeping a profile along small circular arcs of a path
Jaiswal et al. Creative exploration of scaled product family 3D models using gesture based conceptual computer aided design (C-CAD) tool
Mantecón del Valle et al. New generation of human machine interfaces for controlling UAV through depth based gesture recognition
CN113033258B (zh) 一种图像特征提取方法、装置、设备和存储介质
JP7470069B2 (ja) 指示物体検出装置、指示物体検出方法及び指示物体検出システム
EP4436473A1 (en) A method and system for body part measurement for skin treatment

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant