KR20210084444A - 제스처 인식 방법 및 장치, 전자 디바이스 및 기록 매체 - Google Patents

제스처 인식 방법 및 장치, 전자 디바이스 및 기록 매체 Download PDF

Info

Publication number
KR20210084444A
KR20210084444A KR1020217010043A KR20217010043A KR20210084444A KR 20210084444 A KR20210084444 A KR 20210084444A KR 1020217010043 A KR1020217010043 A KR 1020217010043A KR 20217010043 A KR20217010043 A KR 20217010043A KR 20210084444 A KR20210084444 A KR 20210084444A
Authority
KR
South Korea
Prior art keywords
hand
image
posture
determining
detection frame
Prior art date
Application number
KR1020217010043A
Other languages
English (en)
Inventor
하이위 자오
카이거 천
다밍 뉴
Original Assignee
센스타임 인터내셔널 피티이. 리미티드.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 센스타임 인터내셔널 피티이. 리미티드. filed Critical 센스타임 인터내셔널 피티이. 리미티드.
Publication of KR20210084444A publication Critical patent/KR20210084444A/ko

Links

Images

Classifications

    • G06K9/00355
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • G06K9/6267
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07FCOIN-FREED OR LIKE APPARATUS
    • G07F17/00Coin-freed apparatus for hiring articles; Coin-freed facilities or services
    • G07F17/32Coin-freed apparatus for hiring articles; Coin-freed facilities or services for games, toys, sports, or amusements
    • G07F17/3225Data transfer within a gaming system, e.g. data sent between gaming machines and users
    • G07F17/3232Data transfer within a gaming system, e.g. data sent between gaming machines and users wherein the operator is informed
    • G07F17/3237Data transfer within a gaming system, e.g. data sent between gaming machines and users wherein the operator is informed about the players, e.g. profiling, responsible gaming, strategy/behavior of players, location of players
    • G07F17/3239Tracking of individual players

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Social Psychology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Psychiatry (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 제스처 인식 방법 및 장치, 전자 디바이스 및 기록 매체를 개시한다. 상기 방법은 처리 대기 이미지에 대해 검출을 실행하여 손 검출 결과를 얻는 것; 손 검출 결과에 손 검출 프레임이 포함되어 있는 것에 응답하여, 상기 손 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세와 일치한 것으로 확정하는 것; 상기 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 있는 것으로 확정하는 것; 및 상기 손이 목표 제스처를 취하고 있는 것으로 확정하는 것을 포함한다.

Description

제스처 인식 방법 및 장치, 전자 디바이스 및 기록 매체
[관련 출원들에 대한 상호 참조]
본 발명은 출원일이 2019년 12월 23일이고, 출원 번호가 10201912990Q이며, 출원 명칭이 "제스처 인식 방법 및 장치, 전자 디바이스 및 기록 매체"인 싱가포르 특허 출원의 우선권을 주장하며, 당해 특허 출원의 모든 내용을 본원에 인용한다.
[기술분야]
본 발명은 컴퓨터 비전 기술에 관한 것인바, 구체적으로는 제스처 인식 방법 및 장치, 전자 디바이스 및 기록 매체에 관한 것이다.
최근, 인공 지능 기술의 지속적인 발전과 함께 인공 지능 기술은 컴퓨터 비전, 음성 인식 등에서 비교적 양호한 효과를 얻고 있다. 인공 지능 기술을 사용하여, 일부 상대적으로 특수한 장면(예를 들면 데스크톱 게임 장면)에서 제스처 인식을 실행한다.
본 발명은 제스처 인식의 해결 방안을 제공한다.
본 발명의 제1 양태에 따르면, 제스처 인식 방법을 제공한다. 상기 방법은 처리 대기 이미지에 대해 검출을 실행하여 손 검출 결과를 얻는 것; 손 검출 결과에 손 검출 프레임이 포함되어 있는 것에 응답하여, 상기 손 검출 프레임 내의 상기 손 자세가 상기 목표 제스처 중의 상기 손 자세와 일치한 것으로 확정하는 것; 상기 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 있는 것으로 확정하는 것; 및 상기 손이 목표 제스처를 취하고 있는 것으로 확정하는 것을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 손 검출 결과에 상기 손 검출 프레임이 포함되어 있는 것에 응답하여, 상기 손 검출 프레임 내의 상기 손 자세가 상기 목표 제스처 중의 손 자세와 일치한 것으로 확정하는 것은, 손 검출 결과에 상기 손 검출 프레임이 포함되어 있는 것에 응답하여, 상기 처리 대기 이미지의 손 검출 프레임 내에 위치하는 이미지를 커팅하는 것; 및 상기 커팅된 이미지에 기반하여 상기 커팅된 이미지 내의 손 자세가 목표 제스처 중의 손 자세와 일치한 것으로 확정하는 것을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 목표 제스처 중의 손 자세는 양손이 모두 앞면이며, 상기 손 검출 프레임 내의 상기 손 자세가 상기 목표 제스처 중의 상기 손 자세와 일치한 것으로 확정하는 것은, 상기 손 검출 프레임 내의 이미지를 손 분류 신경망에 입력하여, 손이 앞면인 것 또는 손이 기타 자세인 것을 포함하는 손 분류 결과를 얻는 것; 및 2개의 손 검출 프레임의 손 분류 결과가 모두 앞면일 경우, 상기 손 검출 프레임 내의 상기 손 자세가 상기 목표 제스처 중의 상기 손 자세와 일치한 것으로 확정하는 것을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 손 분류 신경망은 손 이미지 샘플로 훈련하여 얻은 것이며, 상기 손 이미지 샘플은 손이 앞면인 이미지 샘플을 포함하고, 상기 손이 앞면인 이미지 샘플의 라벨 정보는 손바닥이다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 손이 상기 처리 대기 이미지의 상기 미리 정의된 영역 내에 있는 것으로 확정하는 것은, 상기 손 검출 프레임의 중심점이 상기 미리 정의된 영역 내에 있는 것으로 확정하는 것을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 처리 대기 이미지는 목표 영역에 대해 수집을 실행하여 얻은 이미지이며, 상기 미리 정의된 영역은 상기 처리 대기 이미지 내의, 상기 목표 영역 내의 2개의 서브 영역에 각각 대응하는 2개의 소정의 서브 영역을 포함하고, 상기 손 검출 프레임의 상기 중심점이 상기 미리 정의된 영역 내에 있는 것으로 확정하는 것은, 2개의 손 검출 프레임의 중심점이 각각 상기 2개의 소정의 서브 영역 내에 있는 것으로 확정하는 것을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 처리 대기 이미지는 상방으로부터의 시각으로 수집한 상기 목표 영역의 이미지이다.
본 발명의 제2 양태에 따르면, 제스처 인식 장치를 제공한다. 상기 장치는 처리 대기 이미지에 대해 검출을 실행하여 손 검출 결과를 얻기 위한 취득 유닛; 손 검출 결과에 손 검출 프레임이 포함되어 있는 것에 응답하여, 상기 손 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세와 일치한 것으로 확정하기 위한 제1 확정 유닛; 상기 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 있는 것으로 확정하기 위한 제2 확정 유닛; 및 상기 손이 목표 제스처를 취하고 있는 것으로 확정하기 위한 제3 확정 유닛을 구비한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 제1 확정 유닛은 구체적으로 손 검출 결과에 상기 손 검출 프레임이 포함되어 있는 것에 응답하여, 상기 처리 대기 이미지의 손 검출 프레임 내에 위치하는 이미지를 커팅하고, 상기 커팅된 이미지에 기반하여 상기 커팅된 이미지 내의 손 자세가 목표 제스처 중의 손 자세와 일치한 것으로 확정한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 목표 제스처 중의 손 자세는 양손이 모두 앞면이며, 상기 제1 확정 유닛은 상기 손 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세와 일치한 것으로 확정할 때에, 구체적으로, 상기 손 검출 프레임 내의 이미지를 손 분류 신경망에 입력하여, 손이 앞면인 것 또는 손이 기타 자세인 것을 포함하는 손 분류 결과를 얻고, 2개의 손 검출 프레임의 손 분류 결과가 모두 앞면일 경우, 상기 손 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세와 일치한 것으로 확정한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 손 분류 신경망은 손 이미지 샘플로 훈련하여 얻은 것이며, 상기 손 이미지 샘플은 손이 앞면인 이미지 샘플을 포함하고, 상기 손이 앞면인 이미지 샘플의 라벨 정보는 손바닥이다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 제2 확정 유닛은 구체적으로 상기 손 검출 프레임의 중심점이 상기 미리 정의된 영역 내에 있는 것으로 확정한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 처리 대기 이미지는 목표 영역에 대해 수집을 실행하여 얻은 이미지이며, 상기 미리 정의된 영역은 상기 처리 대기 이미지 내의, 상기 목표 영역 내의 2개의 서브 영역에 각각 대응하는 2개의 소정의 서브 영역을 포함하고, 상기 제2 확정 유닛은 구체적으로 2개의 손 검출 프레임의 중심점이 각각 상기 2개의 소정의 서브 영역 내에 있는 것으로 확정한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 처리 대기 이미지는 상방으로부터의 시각으로 수집한 상기 목표 영역의 이미지이다.
본 발명의 제3 양태에 따르면, 전자 디바이스를 제공하는바, 상기 디바이스는 프로세서 및 프로세서 상에서 운행 가능한 컴퓨터 명령을 기억하기 위한 메모리를 구비하며, 상기 프로세서는 상기 컴퓨터 명령이 실행될 때에, 본 발명의 임의의 실시 형태에 기재된 제스처 인식 방법이 실현된다.
본 발명의 제4 양태에 따르면, 컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 기록 매체를 제공하는바, 상기 프로그램이 프로세서에 의해 실행될 때에, 본 발명의 임의의 실시 형태에 기재된 제스처 인식 방법이 실현된다.
본 발명의 하나 또는 복수의 실시예의 제스처 인식 방법 및 장치, 전자 디바이스 및 기록 매체에 따르면, 손 검출 결과 중의 손 검출 프레임 내의 손 자세에 대해 검출을 실행하고, 손 자세가 목표 제스처 중의 손 자세와 일치한 것으로 확정한 기초 상에서, 또한 검출 위치 정보의 제약을 통해, 목표 제스처 인식을 실행함으로써, 일 프레임 이미지를 이용하여 고속으로 고정밀도의 목표 제스처의 인식을 실현할 수 있다.
이하, 본 명세서의 하나 또는 복수의 실시예 또는 종래 기술의 기술적 방안을 더 명확히 설명하기 위하여, 실시예 또는 종래 기술에 대한 설명에 사용될 필요가 있는 도면을 간단히 소개한다. 당연히, 아래에 설명하는 도면은 본 명세서의 하나 또는 복수의 실시예에 기재되는 몇몇의 실시예에 불과할 뿐, 당업자에 있어서 발명적 노력을 가하지 않고 이러한 도면에 기반하여 기타 도면을 얻을 수 있다.
도 1은 본 발명의 적어도 하나의 실시예에 의해 제공되는 제스처 인식 방법의 플로우 차트이다.
도 2는 본 발명의 적어도 하나의 실시예에 의해 제공되는 제스처 인식 방법의 적용 장면의 모식도이다.
도 3a∼3f는 본 발명의 적어도 하나의 실시예에 의해 제공되는 손 분류 결과의 모식도이다.
도 4는 본 발명의 적어도 하나의 실시예에 의해 제공되는 제스처 인식 방법의 적용 장면의 모식도이다.
도 5는 본 발명의 적어도 하나의 실시예에 의해 제공되는 제스처 인식 장치의 구성 모식도이다.
도 6은 본 발명의 적어도 하나의 실시예에 의해 제공되는 전자 디바이스의 구성 모식도이다.
이하, 당업자로 하여금 본 명세서의 하나 또는 복수의 실시예 중의 기술적 방안을 더 잘 이해하도록 하기 위하여, 본 명세서의 하나 또는 복수의 실시예 중의 도면을 참조하여, 본 명세서의 하나 또는 복수의 실시예 중의 기술적 방안을 명확하고 완전하게 설명한다. 당연히, 설명되는 실시예는 전부의 실시예가 아닌바, 본 명세서의 일부 실시예에 지나지 않는다. 본 명세서의 하나 또는 복수의 실시예에 기반하여 발명적 노력을 가하지 않고 당업자에 의해 얻을 수 있는 모든 기타 실시예는 모두 본 발명의 보호 범위에 속해야 한다.
본 발명의 적어도 하나의 실시예는 제스처 인식 방법을 제공하는바, 상기 제스처 인식 방법은 단말 디바이스 또는 서버 등의 전자 디바이스에 의해 실행될 수 있고, 단말 디바이스는 사용자 디바이스(User Equipment, UE), 모바일 디바이스, 사용자 단말, 단말, 셀룰러 전화, 무선 전화, 개인 디지털 보조(Personal Digital Assistant, PDA), 핸드 헬드 디바이스, 계산 디바이스, 차량용 디바이스, 웨어러블 디바이스 등일 수 있고, 상기 방법은 프로세서에 의해 메모리에 기억되어 있는 컴퓨터 판독 가능 명령을 호출하는 방식에 따라 실현될 수 있다.
도 1은 당해 제스처 인식 방법의 흐름을 나타내며, 도 1에 나타낸 바와 같이, 101∼104을 포함할 수 있다.
101에 있어서, 처리 대기 이미지에 대해 검출을 실행하여 손 검출 결과를 얻는다.
본 발명의 실시예에 있어서, 상기 처리 대기 이미지는 이미지 수집 디바이스(예를 들면 비디오 카메라)에 의해 수집된 데스크탑 영역의 이미지일 수 있다. 상기 이미지는 완전한 데스크탑 이미지를 포함할 수도 있고, 데스크탑의 일부 이미지를 포함할 수도 있다.
비디오 카메라에 의해 수집된 처리 대기 이미지는 비디오 스트림 중의 하나의 프레임일 수도 있고, 실시간으로 얻은 이미지일 수도 있는바, 본 발명은 이에 대해 한정하지 않는다.
본 발명의 실시예에 있어서, 예를 들면 faster RCNN 등의 심층 학습 네트워크를 이용하여 처리 대기 이미지에 대해 검출을 실행하여 손 검출 결과를 얻을 수 있다. 손이 검출되었을 경우, 손 검출 결과는 손 검출 프레임, 손 검출 프레임의 위치 등을 포함할 수 있다. 당업자는 faster RCNN 네트워크는 일 예에 불과할 뿐, 기타 네트워크를 사용하여 손 검출을 실행할 수도 있는바, 본 발명은 이에 대해 한정하지 않음을 이해해야 한다.
102에 있어서, 손 검출 결과에 손 검출 프레임이 포함되어 있는 것에 응답하여, 상기 손 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세와 일치한 것으로 확정한다.
몇몇의 실시예에 있어서, 상방으로부터의 시각의 처리 대기 이미지를 수집할 수 있는바, 즉 버드 뷰 카메라(Birdview camera)을 사용하여 상기 처리 대기 이미지를 수집할 수 있다. 데스크탑과 같은 적용 장면의 경우, 상방으로부터의 시각은 바람직한 촬영 시각이며, 당해 시각은 일반적으로 다른 물체에 의해 검출 목표가 가려지는 것을 방지할 수 있다. 그러나, 당업자는 기타 시각의 비디오 카메라에 의해 수집된 이미지도 본 발명의 실시예에 의해 제안되는 제스처 인식 방법에 적용될 수 있음을 이해해야 한다.
본 발명의 실시예에 있어서, 손 검출 프레임 내의 이미지에 대해 검출을 실행하고, 검출된 특징과 목표 제스처 중의 손 자세의 특징을 비교함으로써, 손 검출 프레임 내의 손 자세가 목표 제스처의 손 자세와 일치한지 여부를 확정할 수 있다. 상기 손 검출 프레임 내의 손 자세에 대해 분류를 실행함으로써, 분류 결과에 기반하여 목표 제스처의 손 자세와 일치한지 여부를 판단할 수도 있다. 구체적인 판단 방법은 후술한다.
103에 있어서, 상기 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 있는 것으로 확정한다.
본 발명의 실시예에 있어서, 손 검출 결과에 손 검출 프레임이 포함되어 있을 경우, 손 검출 결과에 손 검출 프레임의 위치 정보도 포함되어 있는바, 즉 손의 상기 처리 대기 이미지 내의 위치 정보를 확정했다.
특정 영역에 출현할 경우에만 성립되는 목표 제스처의 경우, 처리 대기 이미지에서 미리 정의된 영역을 이용하여 손 검출 프레임 내의 손에 대해 위치 제약을 제공함으로써, 검출된 손이 목표 제스처에 대한 요구를 충족시키는지 여부를 더 확정할 수 있다. 여기서, 처리 대기 이미지에서 미리 정의된 영역은 처리 대기 이미지를 촬영하는 비디오 카메라의 위치, 내부 파라 미터 및 실제의 공간 중의 목표 제스처에 대응하는 특정 영역에 기반하여 확정될 수 있다.
104에 있어서, 상기 손이 목표 제스처를 취하고 있는 것으로 확정한다.
손 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세와 일치한 동시에, 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 있을 경우, 검출 프레임 내의 손이 목표 제스처를 취하고 있는 것으로 확정한다.
본 발명의 실시예에 있어서, 손 검출 결과 중의 손 검출 프레임 내의 손 자세에 대해 검출을 실행하고, 손 자세가 목표 제스처 중의 손 자세와 일치한 것으로 확정한 기초 상에서, 또한 검출 위치 정보의 제약을 통해, 목표 제스처 인식을 실행함으로써, 일 프레임 이미지를 이용하여 고속으로 고정밀도의 목표 제스처의 인식을 실현할 수 있다.
몇몇의 실시예에 있어서, 손이 검출되었을 경우, 즉 손 검출 결과에 손 검출 프레임이 포함되어 있을 경우, 상기 처리 대기 이미지의 손 검출 프레임 내에 위치하는 이미지를 커팅하고, 상기 커팅된 이미지에 기반하여 상기 커팅된 이미지 내의 손 자세가 목표 제스처 중의 손 자세와 일치한 것으로 확정할 수 있다.
손 검출 프레임 내의 이미지를 커팅하고, 상기 커팅된 이미지에 기반하여 손 자세의 검출을 실행함으로써, 손 자세 검출의 효율과 정확도를 향상시킬 수 있다.
몇몇의 실시예에 있어서, 손 검출 프레임의 중심점을 손의 위치로 확정할 수 있다. 당업자는 또한 손 검출 프레임의 기타 위치점을 손의 위치로 확정할 수 있는바, 예를 들면 인식 대기 목표 제스처와 그 중의 하나의 손가락 사이의 관계가 더 밀접할 경우, 당해 손가락의 손 검출 프레임 내의 위치를 손의 위치로 확정할 수 있음을 이해해야 한다. 손의 위치의 구체적인 확정 방식은 인식 대기 목표 제스처와 손 검출 프레임의 관계에 기반하여 확정할 수 있다.
몇몇의 실시예에 있어서, 이하의 방법에 따라 손 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세와 일치한 것으로 확정할 수 있다. 손 검출 프레임 내의 이미지를 미리 훈련된 손 분류 신경망에 입력하여 손 분류 결과를 얻고, 상기 분류 결과에 기반하여 손 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세와 일치한지 여부를 판단한다.
채용하는 손 분류 신경망은 컨볼루션 분류 모델일 수 있는바, 예를 들면 Rsenet 18을 백본 네트워크의 컨볼루션 분류 모델로 사용할 수 있다. 당업자는 얻을 필요가 있는 분류 유형에 따라 채용하는 손 분류 신경망을 확정할 수 있고, 얻을 필요가 있는 분류 유형은 인식 대기 목표 제스처에 따라 확정할 수 있는바, 본 발명은 이에 대해 한정하지 않음을 이해해야 한다.
일 예에 있어서, 인식 대기 목표 제스처가 손의 앞면에만 관계될 경우, 얻을 필요가 있는 분류 유형은 손이 앞면인 것 또는 기타 자세인 것을 포함할 수 있고, 여기서, 기타 자세는 손이 앞면 이외의 손 자세인 것 및 손이 가려진 것을 포함한다. 손이 앞면인 이미지 샘플 및 손이 기타 자세인 이미지 샘플을 이용하여 상기 손 분류 신경망을 훈련할 수 있고, 상기 손이 앞면인 이미지 샘플의 라벨 정보는 손바닥이다.
일 예에 있어서, 인식 대기 목표 제스처가 손의 앞면과 뒷면에 관한 경우, 얻을 필요가 있는 분류 유형은 손이 앞면인 것, 손이 뒷면인 것 및 손이 기타 자세인 것을 포함할 수 있고, 여기서, 기타 자세는 손이 앞면 또는 뒷면 이외의 손 자세인 것 및 손이 가려진 것을 포함한다. 손이 앞면인 이미지 샘플, 손이 뒷면인 이미지 샘플 및 손이 기타 자세인 이미지 샘플을 이용하여 상기 손 분류 신경망을 훈련할 수 있되, 상기 손이 앞면인 이미지 샘플의 라벨 정보는 손바닥이며, 상기 손이 뒷면인 이미지 샘플의 라벨 정보는 뒷면을 나타내는 라벨일 수 있다.
일 예에 있어서, 인식 대기 목표 제스처가 특정 자세에 관한 경우, 분류 유형에는 당해 특정 자세가 포함되어 있는 필요가 있으며, 그러면 당해 특정 자세와 기타 자세를 포함하는 샘플 손 이미지를 이용하여 상기 손 분류 신경망을 훈련함으로써, 훈련된 상기 손 분류 신경망이 손 검출 프레임 내의 이미지로부터 당해 특정 자세를 인식할 수 있도록 한다.
당업자는 또한 기타 방법에 따라 손 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세와 일치한 것으로 확정하고, 상기 손 검출 프레임 내의 손 자세를 이용하여 제스처 검출을 실행할 수 있는바, 본 발명의 실시예는 이에 대해 한정하지 않음을 이해해야 한다.
이하, 인식 대기 목표 제스처 중에서 양손이 모두 앞면인 동시에, 양손이 각각 데스크탑의 2개의 특정 서브 영역의 상방에 위치하여 있는 예를 들어, 본 발명의 실시예에 의해 제안되는 제스처 인식 방법을 구체적으로 설명한다. 당업자는 당해 제스처 인식 방법은 상술한 목표 제스처를 인식하는 것에 한정되지 않으며, 기타 목표 제스처를 인식할 수 있음을 이해해야 한다.
도 2은 본 발명의 적어도 하나의 실시예에 의해 제공되는 제스처 인식 방법의 적용 장면의 모식도이다. 도 2에 나타낸 바와 같이, 인식 대기 목표 제스처는 데스크탑(20)에 2개의 영역(221 및 222)의 상방에서 취한 양손의 손바닥을 위로 향한 제스처이다. 2개의 영역(221 및 222)은 사람(21) 부근에 있다.
먼저, 상방으로부터의 시각으로 촬영한 데스크탑(20)의 일부 또는 전부의 영역을 포함하는 처리 대기 이미지에 대해 검출을 실행하고, 손 검출 결과를 얻는다.
사람(21)의 손이 검출되었을 경우, 즉 손 검출 결과에 손 검출 프레임이 포함되어 있을 경우, 상기 손 검출 프레임 내의 이미지를 손 분류 신경망에 입력하여 손 분류 결과를 얻는다. 상기 손 분류 신경망은 입력 이미지가 손의 앞면인지 기타 자세인지를 분류하며, 얻은 손 분류 결과는 손이 앞면인 것 또는 손이 기타 자세인 것을 포함한다. 2개의 손 검출 프레임의 분류 결과가 모두 손이 앞면인 것일 경우, 상기 손 검출 프레임 내의 손 자세가 모두 손이 앞면인 것으로 확정하며, 이때 목표 제스처 중의 손 자세와 일치한다.
양손이 모두 앞면인 것으로 확정했을 경우, 2개의 손 검출 프레임의 위치가 처리 대기 이미지의 2개의 소정의 서브 영역 내에 있는지 여부를 확정한다. 여기서, 처리 대기 이미지의 2개의 소정의 서브 영역은 상기 처리 대기 이미지를 촬영하는 비디오 카메라의 위치, 내부 파라 미터 및 데스크탑(20) 상의 2개의 영역(221 및 222)의 위치에 기반하여 확정된다. 2개의 손 검출 프레임의 중심점이 각각 상기 2개의 소정의 서브 영역 내에 있는 것에 응답하여, 상기 손이 목표 제스처를 취하고 있는 것으로 확정한다. 여기서, 2개의 소정의 서브 영역은 처리 대기 이미지 내의, 목표 영역 내의 2개의 서브 영역에 각각 대응하는 영역이다. 목표 영역이 게임 테이블일 경우, 목표 영역 내의 2개의 서브 영역은 게임 테이블 상의 2개의 서브 영역일 수 있고, 2개의 소정의 서브 영역은 처리 대기 이미지 내의, 게임 테이블 상의 2개의 서브 영역에 각각 대응하는 영역일 수 있다.
일 예에 있어서, 상기 손 검출 프레임에 따라 커팅하여 얻은 이미지를 상기 손 분류 신경망에 입력하여 손 분류 결과를 얻을 수 있다. 상기 처리 대기 이미지 내에 복수의 손 검출 프레임이 포함되어 있으면, 복수의 커팅하여 얻은 이미지를 각각 상기 손 분류 신경망에 입력한다.
상기의 입력 이미지에 대해 손의 앞면인지 손의 기타 자세인지의 분류를 실행하기 위한 손 분류 신경망은 이하의 방법에 따라 훈련된 수 있다.
손이 앞면인 이미지 샘플 및 손이 기타 자세인 이미지 샘플을 얻고, 손이 앞면인 이미지 샘플에 대해, 당해 이미지 샘플 내의 손바닥에 대해 라벨링을 실행한다.
도 3a와 3b는 예시적인 손이 앞면인 이미지 샘플이다. 정면에서 손바닥이 보이는 손 이미지를 손이 앞면인 이미지 샘플로 사용할 수 있고, 상기 손이 앞면인 이미지 샘플의 라벨 정보는 손바닥이다. 여기서, 도 3a와 도 3b에서, 손바닥에 있는 흰 점은 손이 앞면인 이미지 샘플의 라벨이다. 손이 앞면인 이미지 샘플은 손바닥에 점 원형 및 정사각형 등의 임의의 형상일 수 있는바, 이에 대해 한정하지 않는다. 도 3c∼3f는 손 뒷면의 손 이미지 또는 손바닥이 가려진 손 이미지와 같은 예시적인 기타 자세의 손 이미지이며, 기타 자세로 라벨링할 수 있다.
도 3a∼3f에 나타낸 이미지 샘플을 이용하여 상기 손 분류 신경망을 훈련할 수 있고, 훈련이 완료된 신경망은 손 검출 프레임 내의 이미지에 대해 분류를 실행하여, 손이 앞면인 것 또는 손이 기타 자세인 것을 포함하는 분류 결과를 얻을 수 있다.
몇몇의 실시예에 있어서, 또한 3분류의 손 분류 신경망을 이용하여 손 검출 프레임 내의 이미지에 대해 분류를 실행하여, 손이 앞면인 것, 손이 뒷면인 것 또는 손이 기타 자세인 것을 포함하는 분류 결과를 얻을 수 있다. 당해 손 분류 신경망은 손이 앞면인 이미지 샘플, 손이 뒷면인 이미지 샘플 및 손이 기타 자세인 이미지 샘플을 얻어서 훈련을 실행할 수 있다. 여전히 도 3a∼3f를 예로 들면, 여기서 도 3a와 3b는 예시적인 손이 앞면인 이미지 샘플이고, 상기 손이 앞면인 이미지 샘플의 라벨 정보는 손바닥이며, 도 3c와 도 3d는 예시적인 손이 뒷면인 이미지 샘플이다. 손등 전체와 5개의 손가락이 보이는 손 이미지를 손의 뒷면 이미지로 사용하며, 이를 뒷면으로 라벨링할 수 있고, 도 3e와 도 3f는 예시적인 손이 기타 자세인 이미지 샘플이다. 손바닥이 보이지 않는 동시에, 손등과 5개의 손가락이 완전히 보이지 않는 손 이미지를 손이 기타 자세인 이미지 샘플로 사용하며, 이를 기타 자세로서 라벨링할 수 있다. 도 3e와 도 3f는 전체적인 자세는 위를 향하지만, 손바닥이 보이지 않기 때문에 기타 자세에 속한다. 상기의 이미지 샘플을 이용하여 상기 손 분류 신경망을 훈련할 수 있고, 훈련이 완료된 신경망은 손 검출 프레임 내의 이미지에 대해 분류를 실행하여, 손이 앞면인 것, 손이 뒷면인 것 또는 손이 기타 자세인 것을 포함하는 분류 결과를 얻을 수 있다.
본 발명의 실시예에 있어서, 손 분류 신경망을 이용하여 손 검출 프레임 내의 이미지에 대해 분류를 실행함으로써, 손이 앞면의 자세인지 여부를 인식하는바, 즉 손바닥이 위를 향하는 자세를 인식한다. 이 때 채용하는 손 분류 신경망은 비디오 분류 신경망과 비교하면 훈련 샘플의 취득 및 라벨링이 쉬워지고, 또한 신경망의 인식 속도가 빠르며, 손 자세에 대한 실시간 인식을 실현할 수 있다.
손 분류 결과가 목표 제스처 중의 손 자세와 일치할 경우, 처리 대기 이미지 내의 미리 정의된 영역을 이용하여 위치 제약을 실행함으로써, 검출된 손이 목표 제스처를 취하는 것으로 더 확정할 수 있다.
이하, 목표 제스처가 딜러의 손씻기 제스처인 예를 들어, 본 발명의 실시예에 의해 제안되는 제스처 인식 방법을 설명한다.
도 4는 본 발명의 적어도 하나의 실시예에 의해 제공되는 제스처 인식 방법의 적용 장면의 모식도이다. 도 4에 나타낸 바와 같이, 게임 장면에 있어서, 게임 테이블(40)을 통해 게임할 수 있으며, 플레이어(421, 422, 423)은 게임 테이블의 딜러(43)의 반대 측에 위치 있고 있다. 게임 테이블의 영역은 주로 딜러의 피교환 물품 영역(47)(딜러의 전방 영역), 플레이어의 피교환 물품 영역(441, 442)(플레이어의 전방 영역), 게임 실행 영역(46) 및 미리 정의된 영역(41)(핫 영역이라고도 불리움)을 포함한다.
딜러의 손씻기 제스처란 딜러가 특정의 조작을 완료한 후 또는 특징의 조작을 실행하기 전에, 양손의 손바닥을 위로 올려 딜러의 피교환 물품 영역(예를 들면 도 4 내의 피교환 물품 영역(47))의 양측에 평평하게 놓는 것을 통해, 손에 어떠한 물품도 가지고 있지 않음을 다른 사람에게 전시함으로써, 다음 게임 단계에 들어갈 수 있음을 나타내기 위한 제스처를 가리킨다.
본 발명의 실시예에 있어서, 게임 테이블 상의 딜러의 전방 피교환 물품 영역(47)의 양측의 2개의 서브 영역(예를 들면 도 4 내의 서브 영역(411)과 서브 영역(412))을 실제 공간의 특정 영역(즉 목표 영역에 2개의 서브 영역)으로 사용할 수 있다. 상기 처리 대기 이미지를 촬영하는 비디오 카메라(45)의 위치, 내부 파라 미터 및 특정 영역(예를 들면 서브 영역(411)과 서브 영역(412))의 위치에 기반하여 처리 대기 이미지 내의 대응하는 2개의 소정의 서브 영역을 확정하고, 상기 손 분류 결과에 대해 위치 제약을 실행할 수 있다.
게임 테이블(40)의 일부 또는 전부의 영역을 포함하는 처리 대기 이미지에 대해 검출을 실행하여 얻은 손 검출 결과에 손 검출 프레임이 포함되어 있을 경우, 상기 손 검출 프레임 내의 이미지를 미리 훈련된 손 분류 신경망에 입력하고, 상기 손 분류 신경망은 입력 이미지에 대해 손이 앞면인지 기타 자세인지의 분류를 실행할 수 있다. 2개의 손 검출 프레임 이미지 분류 결과가 모두 손이 앞면인 것에 응답하여, 2개의 손 검출의 위치가 상기 처리 대기 이미지의 2개의 소정의 서브 영역 내에 있는지 여부를 더 확정할 수 있다. 2개의 손이 각각 상기 2개의 소정의 서브 영역 내에 있는 것은, 2개의 손이 각각 게임 테이블(40) 위의 핫 영역에 들어간 것을 나타내며, 그러면 검출된 손이 손씻기 제스처를 취한 것으로 확정할 수 있다.
딜러의 손씻기 제스처가 확정된 후, 트리거 신호를 발생함으로써 다음 처리의 흐름에 직접 들어갈 수 있는바, 예를 들면 사용자에 의해 별도에 버튼(하드웨어 트리거)을 이용하여 감시 제어를 기동시킬 필요없이, 게임 과정의 감시 제어를 기동하여, 사용자 경험을 개선할 수 있다. 또한 딜러의 손씻기 제스처를 인식함으로써, 또한 딜러의 손에 특정의 금지된 물품을 쥐어져 있는지 여부를 감시 제어할 수 있다.
도 5은 본 발명의 적어도 하나의 실시예에 의해 제공되는 제스처 인식 장치의 구성 모식도이다. 도 5에 나타낸 바와 같이, 상기 장치는 처리 대기 이미지에 대해 검출을 실행하여 손 검출 결과를 얻기 위한 취득 유닛(501); 손 검출 결과에 손 검출 프레임이 포함되어 있는 것에 응답하여, 상기 손 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세와 일치한 것으로 확정하기 위한 제1 확정 유닛(502); 상기 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 있는 것으로 확정하기 위한 제2 확정 유닛(503); 및 상기 손이 목표 제스처를 취하고 있는 것으로 확정하기 위한 제3 확정 유닛(504)을 구비한다.
몇몇의 실시예에 있어서, 제1 확정 유닛(502)은 구체적으로, 손 검출 결과에 상기 손 검출 프레임이 포함되어 있는 것에 응답하여, 상기 처리 대기 이미지의 손 검출 프레임 내에 위치하는 이미지를 커팅하고, 상기 커팅된 이미지에 기반하여 상기 커팅된 이미지 내의 손 자세가 목표 제스처 중의 손 자세와 일치한 것으로 확정한다.
몇몇의 실시예에 있어서, 상기 목표 제스처 중의 손 자세는 양손이 모두 앞면이며, 상기 제1 확정 유닛은 상기 손 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세와 일치한 것으로 확정할 때에, 구체적으로, 상기 손 검출 프레임 내의 이미지를 손 분류 신경망에 입력하여, 손이 앞면인 것 또는 손이 기타 자세인 것을 포함하는 손 분류 결과를 얻고, 2개의 손 검출 프레임의 손 분류 결과가 모두 앞면일 경우, 상기 손 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세와 일치한 것으로 확정한다.
몇몇의 실시예에 있어서, 상기 손 분류 신경망은 손 이미지 샘플로 훈련하여 얻은 것이며, 상기 손 이미지 샘플은 손이 앞면인 이미지 샘플을 포함하고, 상기 손이 앞면인 이미지 샘플의 라벨 정보는 손바닥이다.
몇몇의 실시예에 있어서, 제2 확정 유닛은 구체적으로 상기 손 검출 프레임의 중심점이 상기 미리 정의된 영역 내에 있는 것으로 확정한다.
몇몇의 실시예에 있어서, 상기 처리 대기 이미지는 목표 영역에 대해 수집을 실행하여 얻은 이미지이며, 상기 미리 정의된 영역은 상기 처리 대기 이미지 내의, 상기 목표 영역 내의 2개의 서브 영역에 각각 대응하는 2개의 소정의 서브 영역을 포함하고, 제2 확정 유닛(504)는 구체적으로, 2개의 손 검출 프레임의 중심점이 각각 상기 2개의 소정의 서브 영역 내에 있는 것으로 확정한다.
몇몇의 실시예에 있어서, 상기 처리 대기 이미지는 상방으로부터의 시각으로 수집한 상기 게임 테이블 상의 이미지이다.
도 6은 본 발명의 적어도 하나의 실시예에 의해 제공되는 전자 디바이스의 구성 모식도이다. 상기 디바이스는 프로세서(601); 및 프로세서(601)에 의해 실행될 수 있는 명령을 기억하기 위한 메모리(602)를 구비하되, 상기 프로세서(601)는 상기 메모리(602)에 기억되어 있는 명령을 호출함으로써, 적어도 하나의 실시예에 기재된 제스처 인식 방법을 실행한다. 상기 전자 디바이스는 비디오 카메라와 같은 기타 디바이스와 통신하기 위한 네트워크 인터페이스(603) 및 버스(604)를 더 구비할 수 있다. 프로세서(601), 메모리(602) 및 네트워크 인터페이스(603)는 버스(604)를 통해 서로 통신한다.
본 발명은 컴퓨터 프로그램이 기억되어 있는 비휘발성 컴퓨터 판독 가능 기록 매체를 더 제공하는바, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때에, 적어도 하나의 실시예에 기재된 제스처 인식 방법이 실현된다.
당업자는 본 발명의 하나 또는 복수의 실시예를 방법, 시스템 또는 컴퓨터 프로그램 제품으로 제공할 수 있음을 이해해야 한다. 따라서, 본 발명의 하나 또는 복수의 실시예는 완전한 하드웨어의 실시예, 완전한 소프트웨어의 실시예 또는 소프트웨어와 하드웨어를 조합시킨 실시예의 형태를 채용할 수 있다. 또한 본 발명의 하나 또는 복수의 실시예는 컴퓨터 이용 가능한 프로그램 코드를 포함하는 하나 또는 복수의 컴퓨터 이용 가능한 기록 매체(디스크 메모리, CD-ROM, 광학 메모리 등을 포함하지만, 이에 한정되지 않음) 상에서 실시되는 컴퓨터 프로그램 제품의 형태를 채용할 수 있다.
본 명세서 중의 "및/또는"은 양자 중의 적어도 하나를 포함하는 것을 의미하는바, 예를 들면 "A 및/또는 B"는 A, B 및 "A와 B"와 같은 세가지 케이스를 포함한다.
본 발명의 각 실시예는 모두 점진적인 방식을 통해 서술되었으며, 각 실시예들 사이의 동일 또는 유사한 부분은 서로 참조할 수 있고, 각 실시예에서는 기타 실시예와의 차이점에 중점을 두고 설명했다. 특히, 제스처 인식 디바이스의 실시예의 경우, 기본적으로 방법의 실시예와 유사하기 때문에, 상대적으로 간단히 서술했지만, 관련된 부분은 방법의 실시예의 부분 설명을 참조하면 된다.
상기에서 본 발명의 특정의 실시예를 서술했다. 기타 실시예는 첨부된 "특허 청구의 범위"의 범위 내에 있다. 몇몇의 경우, 특허 청구의 범위에 기재된 행위 또는 단계는 실시예와 다른 순서에 따라 실행될 수 있으며, 이 경우에도 여전히 기대하는 결과가 실현될 수 있다. 또한 도면에 나타낸 과정은, 기대하는 결과 얻기 위하여, 반드시 나타낸 특정 순서 또는 연속적인 순서를 필요로 하지 않는다. 몇몇의 실시 형태에 있어서, 멀티 태스크 처리 및 병렬 처리도 가능하거나, 또한 더 유리할 수도 있다.
본 발명의 주제 및 기능 조작의 실시예는 디지털 전자 회로, 유형 컴퓨터 소프트웨어 또는 펌웨어, 본 발명에 개시되는 구성 및 그 구조적 등가물을 포함하는 컴퓨터 하드웨어 또는 이들의 하나 또는 복수의 조합으로 실현될 수 있다. 본 발명의 주제의 실시예는 하나 또는 복수의 컴퓨터 프로그램으로 실현될 수 있는바, 즉 유형 비일시적 프로그램 캐리어 상에 부호화되어, 데이터 처리 장치에 의해 실행되거나, 또는 데이터 처리 장치의 조작을 제어하기 위한 컴퓨터 프로그램 명령 중의 하나 또는 복수의 모듈에 의해 실현될 수 있다. 대체적 또는 추가적으로, 프로그램 명령은 수동으로 생성되는 전파 신호 상에 부호화될 수 있는바, 예를 들면 기계에 의해 생성되는 전기신호, 광학 신호 또는 전자신호로 부호화될 수 있다. 당해 신호는 정보를 부호화하여 적절한 수신기 장치에 전송함으로써 데이터 처리 장치에 의해 실행되도록 하기 위하여 생성된다. 컴퓨터 기록 매체는 기계 판독 가능 기억 디바이스, 기계 판독 가능 기억 기판, 랜덤 액세스 메모리 디바이스 또는 직렬 액세스 메모리 디바이스 또는 이들의 하나 또는 복수의 조합일 수 있다.
본 명세서에 서술된 발명의 처리와 논리 플로우는 하나 또는 복수의 컴퓨터 프로그램을 실행하는 하나 또는 복수의 프로그램 가능한 컴퓨터에 의해 실행될 수 있으며, 입력 데이터에 기반하여 조작을 실행하여 출력을 생성함으로써 해당하는 기능을 실행한다. 상기 처리와 논리 플로우는 또한 예를 들면 FPGA(필드 프로그래머블 게이트 어레이) 또는 ASIC(전용 집적 회로) 등의 전용 논리 회로에 의해 실행될 수 있으며, 또한 장치도 전용 논리 회로로 실현될 수 있다.
컴퓨터 프로그램의 실행에 적합한 컴퓨터는 예를 들면 범용 및/또는 전용 마이크로 프로세서 또는 임의의 기타 종류의 중심 처리 유닛을 포함한다. 일반적으로, 중심 처리 유닛은 판독 전용 메모리 및/또는 랜덤 액세스 메모리로부터 명령과 데이터를 수신하게 된다. 컴퓨터의 기본 컴포넌트는 명령을 실시 또는 실행하기 위한 중심 처리 유닛 및 명령과 데이터를 기억하기 위한 하나 또는 복수의 메모리 디바이스를 구비한다. 일반적으로, 컴퓨터는 자기 디스크, 자기 광학 디스크 또는 광학 디스크 등의 데이터를 기억하기 위한 하나 또는 복수의 대용량 기억 디바이스를 더 구비하거나, 또는 조작 가능하도록 당해 대 용량 기억 디바이스와 결합되어 데이터를 수신하거나 또는 데이터를 전송하거나, 또는 이 양자를 모두 포함한다. 그러나, 컴퓨터는 반드시 이러한 디바이스를 구비하는 것이 아니다. 한편, 컴퓨터는 다른 하나의 디바이스에 내장될 수 있는바, 예를 들면 휴대 전화, 개인 디지털 보조(PDA), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, 글로벌 포지셔닝 시스템(GPS) 수신기 또는 범용 시리얼 버스(USB) 플래시 드라이브 등의 포터블 기억 디바이스에 내장될 수 있고, 이러한 디바이스는 몇몇의 예에 지나지 않는다.
컴퓨터 프로그램 명령과 데이터의 기억에 적합한 컴퓨터 판독 가능 매체는 모든 형태의 비휘발성 메모리, 매개 및 메모리 디바이스를 구비하는바, 예를 들면 반도체 메모리 디바이스(예를 들면, EPROM, EEPROM 및 플래시 디바이스), 자기 디스크(예를 들면, 내부 하드 디스크 또는 이동 가능 디스크), 자기 광학 디스크 및 CD ROM와 DVD-ROM 디스크를 포함한다. 프로세서와 메모리는 전용 논리 회로에 의해 보완되거나 또는 전용 논리 회로에 구비될 수 있다.
본 발명은 많은 구체적인 실시의 세부 사항을 포함하지만, 이를 본 발명의 범위 또는 보호하려고 하는 범위를 한정하는 것으로 해석해서는 안되며, 주로 본 발명을 특정하는 몇몇의 실시예의 특징을 서술하기 위하여 사용된다. 본 발명의 복수의 실시예 중의 일부 특징은 단일 실시예에 조합되어 실시될 수도 있다. 다른 한편, 단일 실시예 중의 각 특징은 복수의 실시예로 독립적으로 실시되거나 또는 임의의 적절한 서브 조합으로 실시될 수도 있다. 또한, 특징이 상기와 같이 특정의 조합으로 역할을 발휘하며, 또한 처음부터 상기와 같이 보호한다고 주장했지만, 보호한다고 주장한 조합 중의 하나 또는 복수의 특징은 경우에 따라 당해 조합으로부터 제외될 수도 있고, 또한 보호한다고 주장한 조합은 서브 조합 또는 서브 조합의 변형을 지향할 수 있다.
마찬가지로, 도면에서 특정 순서에 따라 조작을 나타냈지만, 이는 이러한 조작을 나타낸 특정 순서에 따라 실행하도록 요구하거나 또는 순차적으로 실행하도록 요구하거나, 또는 예시한 모든 조작이 실행됨으로써 기대하는 결과가 실현되는 것을 요구하는 것으로 이해해서는 안된다. 경우에 따라 멀티 태스크 및 병렬 처리가 더 유리할 가능성이 있다. 한편, 상기의 실시예 중의 각 종의 시스템 모듈과 컴포넌트의 분리가 모든 실시예에서 모두 이렇게 분리되지 않으면 안되는 것으로 이해해서는 안되며, 또한 서술한 프로그램 컴포넌트와 시스템은 일반적으로 함께 단일 소프트웨어 제품에 통합되거나 또는 복수의 소프트웨어 제품에 패키징될 수 있음을 이해해야 한다.
상기는 본 명세서의 하나 또는 복수의 실시예의 바람직한 실시예에 불과할 뿐, 본 명세서의 하나 또는 복수의 실시예를 한정하기 위하여 사용되는 것이 아니다. 본 명세서의 하나 또는 복수의 실시예의 정신과 원칙의 범위 내에서 행하여진 어떠한 수정, 등가 치환, 개량 등은 모두 본 명세서의 하나 또는 복수의 실시예가 보호하는 범위에 포함되어야 한다.

Claims (16)

  1. 제스처 인식 방법에 있어서,
    처리 대기 이미지에 대해 검출을 실행하여 손 검출 결과를 얻는 것;
    손 검출 결과에 손 검출 프레임이 포함되어 있는 것에 응답하여, 상기 손 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세와 일치한 것으로 확정하는 것;
    상기 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 있는 것으로 확정하는 것; 및
    상기 손이 상기 목표 제스처를 취하고 있는 것으로 확정하는 것을 포함하는
    것을 특징으로 하는 제스처 인식 방법.
  2. 제1항에 있어서,
    상기 손 검출 결과에 상기 손 검출 프레임이 포함되어 있는 것에 응답하여, 상기 손 검출 프레임 내의 상기 손 자세가 상기 목표 제스처 중의 손 자세와 일치한 것으로 확정하는 것은,
    손 검출 결과에 상기 손 검출 프레임이 포함되어 있는 것에 응답하여, 상기 처리 대기 이미지의 손 검출 프레임 내에 위치하는 이미지를 커팅하는 것; 및
    상기 커팅된 이미지에 기반하여 상기 커팅된 이미지 내의 손 자세가 목표 제스처 중의 손 자세와 일치한 것으로 확정하는 것을 포함하는
    것을 특징으로 하는 제스처 인식 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 목표 제스처 중의 손 자세는 양손이 모두 앞면이며,
    상기 손 검출 프레임 내의 상기 손 자세가 상기 목표 제스처 중의 상기 손 자세와 일치한 것으로 확정하는 것은,
    상기 손 검출 프레임 내의 이미지를 손 분류 신경망에 입력하여, 손이 앞면인 것 또는 손이 기타 자세인 것을 포함하는 손 분류 결과를 얻는 것; 및
    2개의 손 검출 프레임의 손 분류 결과가 모두 앞면일 경우, 상기 손 검출 프레임 내의 상기 손 자세가 상기 목표 제스처 중의 상기 손 자세와 일치한 것으로 확정하는 것을 포함하는
    것을 특징으로 하는 제스처 인식 방법.
  4. 제3항에 있어서,
    상기 손 분류 신경망은 손 이미지 샘플로 훈련하여 얻은 것이며, 상기 손 이미지 샘플은 손이 앞면인 이미지 샘플을 포함하고, 상기 손이 앞면인 이미지 샘플의 라벨 정보는 손바닥인
    것을 특징으로 하는 제스처 인식 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 손이 상기 처리 대기 이미지의 상기 미리 정의된 영역 내에 있는 것으로 확정하는 것은,
    상기 손 검출 프레임의 중심점이 상기 미리 정의된 영역 내에 있는 것으로 확정하는 것을 포함하는
    것을 특징으로 하는 제스처 인식 방법.
  6. 제5항에 있어서,
    상기 처리 대기 이미지는 목표 영역에 대해 수집을 실행하여 얻은 이미지이며, 상기 미리 정의된 영역은 상기 처리 대기 이미지 내의, 상기 목표 영역 내의 2개의 서브 영역에 각각 대응하는 2개의 소정의 서브 영역을 포함하고,
    상기 손 검출 프레임의 상기 중심점이 상기 미리 정의된 영역 내에 있는 것으로 확정하는 것은,
    2개의 손 검출 프레임의 중심점이 각각 상기 2개의 소정의 서브 영역 내에 있는 것으로 확정하는 것을 포함하는
    것을 특징으로 하는 제스처 인식 방법.
  7. 제6항에 있어서,
    상기 처리 대기 이미지는 상방으로부터의 시각으로 수집한 상기 목표 영역의 이미지인
    것을 특징으로 하는 제스처 인식 방법.
  8. 제스처 인식 장치에 있어서,
    처리 대기 이미지에 대해 검출을 실행하여 손 검출 결과를 얻기 위한 취득 유닛;
    손 검출 결과에 손 검출 프레임이 포함되어 있는 것에 응답하여, 상기 손 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세와 일치한 것으로 확정하기 위한 제1 확정 유닛;
    상기 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 있는 것으로 확정하기 위한 제2 확정 유닛; 및
    상기 손이 목표 제스처를 취하고 있는 것으로 확정하기 위한 제3 확정 유닛을 구비하는
    것을 특징으로 하는 제스처 인식 장치.
  9. 제8항에 있어서,
    상기 제1 확정 유닛은 손 검출 결과에 상기 손 검출 프레임이 포함되어 있는 것에 응답하여, 상기 처리 대기 이미지의 손 검출 프레임 내에 위치하는 이미지를 커팅하고,
    상기 커팅된 이미지에 기반하여 상기 커팅된 이미지 내의 손 자세가 목표 제스처 중의 손 자세와 일치한 것으로 확정하는
    것을 특징으로 하는 제스처 인식 장치.
  10. 제8항 또는 제9항에 있어서,
    상기 목표 제스처 중의 손 자세는 양손이 모두 앞면이며,
    상기 제1 확정 유닛 또한,
    상기 손 검출 프레임 내의 이미지를 손 분류 신경망에 입력하여, 손이 앞면인 것 또는 손이 기타 자세인 것을 포함하는 손 분류 결과를 얻고,
    2개의 손 검출 프레임의 손 분류 결과가 모두 앞면일 경우, 상기 손 검출 프레임 내의 상기 손 자세가 상기 목표 제스처 중의 손 자세와 일치한 것으로 확정하는
    것을 특징으로 하는 제스처 인식 장치.
  11. 제10항에 있어서,
    상기 손 분류 신경망은 손 이미지 샘플로 훈련하여 얻은 것이며, 상기 손 이미지 샘플은 손이 앞면인 이미지 샘플을 포함하고, 상기 손이 앞면인 이미지 샘플의 라벨 정보는 손바닥인
    것을 특징으로 하는 제스처 인식 장치.
  12. 제8항 내지 제11항 중 어느 한 항에 있어서,
    상기 제2 확정 유닛은 또한,
    상기 손 검출 프레임 중심점이 상기 미리 정의된 영역 내에 있는 것으로 확정하는
    것을 특징으로 하는 제스처 인식 장치.
  13. 제12항에 있어서,
    상기 처리 대기 이미지는 목표 영역에 대해 수집을 실행하여 얻은 이미지이며, 상기 미리 정의된 영역은 상기 처리 대기 이미지 내의, 상기 목표 영역 내의 2개의 서브 영역에 각각 대응하는 2개의 소정의 서브 영역을 포함하고,
    상기 제2 확정 유닛은 또한,
    2개의 손 검출 프레임의 중심점이 각각 상기 2개의 소정의 서브 영역 내에 있는 것으로 확정하는
    것을 특징으로 하는 제스처 인식 장치.
  14. 제13항에 있어서,
    상기 처리 대기 이미지는 상방으로부터의 시각으로 수집한 상기 목표 영역의 이미지인
    것을 특징으로 하는 제스처 인식 장치.
  15. 전자 디바이스에 있어서,
    상기 디바이스는 프로세서 및 프로세서 상에서 운행 가능한 컴퓨터 명령을 기억하기 위한 메모리를 구비하며, 상기 프로세서는 상기 컴퓨터 명령이 실행될 때에, 제1항 내지 제7항 중 어느 한 항에 기재된 제스처 인식 방법이 실행되는
    것을 특징으로 하는 전자 디바이스.
  16. 컴퓨터 프로그램이 기억되어 있는 비휘발성 컴퓨터 판독 가능 기록 매체에 있어서,
    상기 프로그램이 프로세서에 의해 실행될 때에, 제1항 내지 제7항 중 어느 한 항에 기재된 제스처 인식 방법이 실행되는
    것을 특징으로 하는 비휘발성 컴퓨터 판독 가능 기록 매체.
KR1020217010043A 2019-12-23 2020-03-13 제스처 인식 방법 및 장치, 전자 디바이스 및 기록 매체 KR20210084444A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SG10201912990Q 2019-12-23
SG10201912990QA SG10201912990QA (en) 2019-12-23 2019-12-23 Gesture Recognition Method And Apparatus, Electronic Device, And Storage Medium
PCT/IB2020/052291 WO2021130548A1 (en) 2019-12-23 2020-03-13 Gesture recognition method and apparatus, electronic device, and storage medium

Publications (1)

Publication Number Publication Date
KR20210084444A true KR20210084444A (ko) 2021-07-07

Family

ID=73698217

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217010043A KR20210084444A (ko) 2019-12-23 2020-03-13 제스처 인식 방법 및 장치, 전자 디바이스 및 기록 매체

Country Status (6)

Country Link
US (1) US11307668B2 (ko)
JP (1) JP2022519411A (ko)
KR (1) KR20210084444A (ko)
AU (1) AU2020294217B2 (ko)
SG (1) SG10201912990QA (ko)
WO (1) WO2021130548A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3177772A1 (en) * 2020-05-08 2021-11-11 Standard Cognition, Corp. Systems and methods for detecting proximity events
CN113486761A (zh) * 2021-06-30 2021-10-08 北京市商汤科技开发有限公司 一种指甲识别方法、装置、设备及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011007390A1 (ja) * 2009-07-15 2011-01-20 株式会社 東芝 画像処理装置、及びインターフェース装置
WO2013063767A1 (en) * 2011-11-01 2013-05-10 Intel Corporation Dynamic gesture based short-range human-machine interaction
JP6207240B2 (ja) 2013-06-05 2017-10-04 キヤノン株式会社 情報処理装置及びその制御方法
US10268983B2 (en) 2013-06-26 2019-04-23 Amazon Technologies, Inc. Detecting item interaction and movement
US9129191B2 (en) * 2013-12-16 2015-09-08 Adobe Systems Incorporated Semantic object selection
AU2014200314A1 (en) 2014-01-17 2015-08-06 Angel Playing Cards Co. Ltd. Card game monitoring system
US9251598B2 (en) 2014-04-10 2016-02-02 GM Global Technology Operations LLC Vision-based multi-camera factory monitoring with dynamic integrity scoring
CN107427718B (zh) * 2014-10-16 2021-01-12 Arb实验室公司 用于监视游戏活动的系统、方法和设备
JP2017027456A (ja) * 2015-07-24 2017-02-02 島根県 ジェスチャ操作システム、方法およびプログラム
CN105975906B (zh) * 2016-04-27 2018-01-30 济南大学 一种基于面积特征的pca静态手势识别方法
US11030442B1 (en) * 2017-12-13 2021-06-08 Amazon Technologies, Inc. Associating events with actors based on digital imagery
US10296102B1 (en) * 2018-01-31 2019-05-21 Piccolo Labs Inc. Gesture and motion recognition using skeleton tracking
CN108549489B (zh) * 2018-04-27 2019-12-13 哈尔滨拓博科技有限公司 一种基于手部形态、姿态、位置及运动特征的手势控制方法和系统
JPWO2019221063A1 (ja) * 2018-05-14 2021-07-08 エンゼルグループ株式会社 テーブルゲームの管理システム及びゲーム管理システム
CN109002811B (zh) * 2018-08-07 2021-07-13 北醒(北京)光子科技有限公司 一种静态手势的识别方法及装置
CN109190559A (zh) 2018-08-31 2019-01-11 深圳先进技术研究院 一种手势识别方法、手势识别装置及电子设备
CN110276292B (zh) * 2019-06-19 2021-09-10 上海商汤智能科技有限公司 智能车运动控制方法及装置、设备和存储介质
US11205319B2 (en) * 2019-06-21 2021-12-21 Sg Gaming, Inc. System and method for synthetic image training of a neural network associated with a casino table game monitoring system

Also Published As

Publication number Publication date
JP2022519411A (ja) 2022-03-24
SG10201912990QA (en) 2020-11-27
US11307668B2 (en) 2022-04-19
US20210191519A1 (en) 2021-06-24
WO2021130548A1 (en) 2021-07-01
AU2020294217A1 (en) 2021-07-08
AU2020294217B2 (en) 2021-11-25

Similar Documents

Publication Publication Date Title
CN110738101B (zh) 行为识别方法、装置及计算机可读存储介质
EP3627365A1 (en) Unlocking control method and related product
US9477887B2 (en) Apparatus and method for analyzing trajectory
KR20210084449A (ko) 목표 대상 인식 시스템, 방법, 장치, 전자 디바이스 및 기록 매체
CN109145809B (zh) 一种记谱处理方法和装置以及计算机可读存储介质
EP3798978A1 (en) Ball game video analysis device and ball game video analysis method
US9457265B2 (en) Method and device for automatically playing expression on virtual image
CN106054627B (zh) 基于手势识别的控制方法、装置及空调
CN108096833B (zh) 基于级联神经网络的体感游戏控制方法及装置、计算设备
US20120119991A1 (en) 3d gesture control method and apparatus
CN107771391A (zh) 图像帧的曝光时间的确定
WO2018024024A1 (zh) 一种物流包裹图片处理方法、装置及系统
US20170140215A1 (en) Gesture recognition method and virtual reality display output device
KR20210084444A (ko) 제스처 인식 방법 및 장치, 전자 디바이스 및 기록 매체
KR20210124313A (ko) 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체
JP2018081630A (ja) 検索装置、検索方法およびプログラム
US20240153270A1 (en) System and method for merging asynchronous data sources
KR20210084447A (ko) 목표 추적 방법, 장치, 전자 디바이스 및 기록 매체
CN112166435A (zh) 目标跟踪方法、装置、电子设备及存储介质
CN107357424B (zh) 一种手势操作的识别方法、设备及计算机可读存储介质
WO2012049645A1 (en) Method and apparatus for determining motion with normalized representations of movement
CN112262393A (zh) 手势识别方法和装置、电子设备及存储介质
WO2023273227A1 (zh) 指甲识别方法、装置、设备及存储介质
CN107872671A (zh) 一种图片编码方法及终端
WO2012049643A1 (en) Method and apparatus for determining motion with scalar representations of movement