KR20200120739A - 공중 필기 인식을 위한 방법, 장치, 기기 및 컴퓨터 판독 가능한 저장 매체 - Google Patents

공중 필기 인식을 위한 방법, 장치, 기기 및 컴퓨터 판독 가능한 저장 매체 Download PDF

Info

Publication number
KR20200120739A
KR20200120739A KR1020207027104A KR20207027104A KR20200120739A KR 20200120739 A KR20200120739 A KR 20200120739A KR 1020207027104 A KR1020207027104 A KR 1020207027104A KR 20207027104 A KR20207027104 A KR 20207027104A KR 20200120739 A KR20200120739 A KR 20200120739A
Authority
KR
South Korea
Prior art keywords
gray scale
handwriting
scale image
recognizing
palm
Prior art date
Application number
KR1020207027104A
Other languages
English (en)
Other versions
KR102460737B1 (ko
Inventor
민치앙 창
후안 예
시앙 수
줴 펭
구안보 바오
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20200120739A publication Critical patent/KR20200120739A/ko
Application granted granted Critical
Publication of KR102460737B1 publication Critical patent/KR102460737B1/ko

Links

Images

Classifications

    • G06K9/00355
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • G06K9/4652
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1473Recognising objects as potential recognition candidates based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/293Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of characters other than Kanji, Hiragana or Katakana

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

본원의 실시예는 공중 필기를 인식하는 방법, 장치, 기기 및 컴퓨터 판독 가능한 저장 매체를 제공한다. 상기 방법은 2차원 그레이 스케일 이미지에서 사용자의 손바닥 영역을 감지하고 손바닥 영역을 기반으로 2차원 그레이 스케일 이미지에서 핑거팁을 감지하는 것을 포함한다. 상기 방법은 일 세트의 2차원 그레이 스케일 이미지를 기반으로 핑거팁의 공간 궤적을 결정하고 공간 궤적을 기반으로 사용자의 필기 내용을 인식하는 것을 더 포함한다. 본원의 실시예는 2차원 그레이 스케일 이미지를 사용하여 핑거팁의 공간 궤적을 인식 및 추적함으로써, 공중 필기 인식의 속도를 향상시키고, 기기의 처리 성능에 대한 요구치를 낮을 뿐만 아니라 비교적 높은 정확도를 확보할 수 있다.

Description

공중 필기 인식을 위한 방법, 장치, 기기 및 컴퓨터 판독 가능한 저장 매체
본원의 실시예는 전체적으로 이미지 처리 분야에 관한 것이고, 더 상세하게, 공중 필기(handwriting in air) 인식을 위한 방법, 장치, 기기 및 컴퓨터 판독 가능한 저장 매체에 관한 것이다.
모바일 인터넷 및 인공 지능 기술의 급속한 발전으로, 점점 더 많은 전자 기기들이 이미지 획득 및 인식 능력을 구비하는 추세를 보이고 있다. 예를 들어, 스마트 폰에는 일반적으로 전면 카메라와 후면 카메라가 구비되고, 이들은 이미지 프레젠테이션 및/또는 인식 처리를 위해 이미지를 캡처할 수 있다. 스마트 폰 외에도 스마트 웨어러블 장치(예컨대, 스마트 워치) 및 스마트 홈(예컨대, 스마트 TV) 등 스마트 단말기에 이미지를 캡처할 수 있는 카메라가 장착될 수 있다.
통상적으로, 문자는 물리적 키보드 또는 가상 키보드를 통해 기기에 입력될 수 있고, 또한 예를 들어 터치 스크린 또는 터치 패드의 표면에 평면 상 기록하는 등 방식으로 손으로 문자부호를 입력할 수 있다. 평면 상 기록은 사용자가 손이나 펜을 터치 표면에 접촉시켜야 하므로 사용자의 체험이 좋지 않을 수 있다. 새로운 필기 방법으로는 허공 필기와 같은 공중 필기가 있다. 공중 필기는 사용자에게 자유로운 3차원 쓰기 공간을 제공할 수 있으므로 사용자 체험을 향상시킬 수 있다.
본원의 실시예는 공중 필기 인식을 위한 방법, 장치, 기기 및 컴퓨터 판독 가능한 저장 매체를 제공한다.
본원의 제1 양태에 있어서, 공중 필기를 인식하는 방법을 제공한다. 상기 방법은 2차원 그레이 스케일 이미지에서 사용자의 손바닥 영역을 감지하는 단계; 손바닥 영역을 기반으로 2차원 그레이 스케일 이미지에서 핑거팁(fingertip)을 감지하는 단계; 일 세트의 2차원 그레이 스케일 이미지를 기반으로 핑거팁의 공간 궤적을 결정하는 단계; 및 공간 궤적을 기반으로 사용자의 필기 내용을 인식하는 단계를 포함하되, 상기 일 세트의 2차원 그레이 스케일 이미지는 상기 2차원 그레이 스케일 이미지를 포함한다.
본원의 제2 양태에 있어서, 공중 필기를 인식하는 장치를 제공한다. 상기 장치는 2차원 그레이 스케일 이미지에서 사용자의 손바닥 영역을 감지하도록 구성된 손바닥 결정 모듈; 손바닥 영역을 기반으로 2차원 그레이 스케일 이미지에서 핑거팁을 감지하도록 구성된 핑거팁 감지 모듈; 일 세트의 2차원 그레이 스케일 이미지를 기반으로 핑거팁의 공간 궤적을 결정하도록 구성된 궤적 추적 모듈; 및 공간 궤적을 기반으로 사용자의 필기 내용을 인식하도록 구성된 궤적 인식 모듈을 포함하되, 일 세트의 2차원 그레이 스케일 이미지는 2차원 그레이 스케일 이미지를 포함한다.
본원의 제3 양태에 있어서, 하나 또는 복수의 프로세서 및 저장 장치를 포함하는 전자 기기를 제공하며, 상기 저장 장치는 하나 또는 복수의 프로그램을 저장한다. 하나 또는 복수의 프로그램이 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 전자 기기는 본원의 실시예에 따른 방법 또는 프로세스를 구현하도록 한다.
본원의 제4 양태에 있어서, 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 저장 매체를 제공하며, 상기 프로그램이 프로세서에 의해 실행될 경우 본원의 실시예에 따른 방법 또는 프로세스를 구현한다.
본원의 명세서에서 설명하는 것은 본 발명 실시예의 주요 특징 또는 중요한 특징을 제한하려는 것이 아니고, 본원의 범위를 제한하려는 것도 아니라고 마땅히 이해되어야 한다. 본원의 다른 특징은 아래의 설명을 통해 쉽게 이해될 것이다.
본원의 각 실시예의 상술한 특징 및 다른 특징, 장점 및 양태는 아래의 도면과 상세한 설명을 통해 더 명확해질 것이다. 도면에서 동일하거나 유사한 표기는 동일하거나 유사한 요소를 나타낸다.
도 1은 본원의 실시예에 따른 공중 필기를 인식하는 환경의 일 예를 개략적으로 나타낸다.
도 2는 본원의 실시예에 따른 공중 필기를 인식하는 방법의 흐름도를 나타낸다.
도 3은 본원의 실시예에 따른 핑거팁을 인식하는 방법의 흐름도를 나타낸다.
도 4는 본원의 실시예에 따른 궤적을 인식하는 방법의 흐름도를 나타낸다.
도 5는 본원의 실시예에 따른 제스처를 인식하는 방법의 흐름도를 나타낸다.
도 6은 본원의 실시예에 따른 공중 필기를 인식하는 장치의 블록도를 나타낸다.
도 7은 본원의 복수의 실시예를 구현할 수 있는 전자 기기의 블록도를 나타낸다.
아래에서는 첨부된 도면을 참조하여 본원의 실시예를 보다 상세하게 설명하고자 한다. 본원의 일부 실시예를 도면에 도시하였으나, 본 발명은 다양한 형태로 구현될 수 있고 본 명세서에 제시된 실시예에 제한되는 것이 아니라, 본 발명을 더 철저하고 완전하게 설명하기 위해 이러한 실시예들을 제공하는 것으로 이해되어야 한다. 본원의 도면 및 실시예는 단지 예로써 작용하며, 본원의 보호 범위를 제한하는 것이 아님을 이해할 것이다.
본원의 실시예 설명에서, "포함하는"과 이와 유사한 용어는 개방적인 포함, 즉 "포함하되 제한하지 않는"으로 이해되어야 한다. "기반하여"는 "적어도 부분적으로 기반하여"로 이해되어야 한다. "일 실시예" 또는 "상기 실시예"는 "적어도 하나의 실시예"로 이해되어야 한다. "일부 실시예"는 "적어도 일부 실시예"로 이해되어야 한다. 아래에서는 다른 명확하고 함축적인 정의를 포함할 수 있다.
종래에서는, 공중 필기 인식을 구현하기 위해서는, 일반적으로 카메라에 의해 수집된 뎁스 이미지(depth image) 또는 컬러 이미지를 사용해야 하고, 뎁스 이미지 또는 컬러 이미지에 대한 처리를 기반으로 공중 필기 궤적을 인식하는 것이 필요하다. 뎁스 이미지는 일반적으로 전용 카메라 또는 카메라 어레이로 구현되나, 일반적인 소비자의 전자 기기에는 장착되어 있지 않다. 컬러 이미지는 멀티 채널 정보를 포함하기 때문에 컬러 이미지의 인식 처리 속도가 느린 편이다. 예를 들어 스마트 워치 및 스마트 홈과 같은 처리 기능이 제한된 기기의 경우, 처리 부담이 커지고 속도가 느려진다.
본원의 실시예는 공중 필기를 인식하기 위한 방안을 제공한다. 본원의 실시예는 2차원 그레이 스케일 이미지를 사용하여 핑거팁의 공간 궤적을 인식하고 추적하는데, 일반적으로 2차원 그레이 스케일 이미지의 처리 속도는 빠른 편이므로, 공중 필기 인식 속도를 높일 수 있고, 기기에 대한 처리 성능 요구치도 비교적 낮을 뿐 아니라 높은 정확도를 확보할 수도 있다. 또한 본원의 공중 필기 인식을 위한 방안은 입력 방법의 문자 입력뿐만 아니라 다른 전자 기기의 스마트 상호 작용 및/또는 입력에도 사용될 수 있다.
또한, 본원의 일부 실시예는 핑거팁 인식 및/또는 제스처를 인식하는 과정에서 인클로저 박스(enclosure box) 추적 방법을 사용하여, 감지의 연산량을 줄이고 연산 속도를 증가시킬 수 있다. 그 밖에, 본원의 일부 실시예는 전통적인 8 방향 특징 감지를 심층 신경망(DNN)과 결합시킴으로써, 궤도 인식의 정확도를 높일 수 있다. 아래에서는 도 1 내지 도 7을 참조하여 본원의 일부 구현 예를 자세히 설명하고자 한다.
도 1은 본원의 실시예에 따른 공중 필기를 인식하는 환경(100)의 일 예를 개략적으로 나타낸다. 환경(100)에서, 전자 기기(110)는 필기 감지 상태일 수 있으며, 여기서 전자 기기는 카메라(111)(예컨대, 단안 카메라 등일 수 있음)를 포함한다. 전자 기기(110)는 핑거팁의 공간 궤적을 획득하기 위한 핑거팁 인식 모듈(112), 공간 궤적을 인식하기 위한 궤적 인식 모듈(114) 및 제스처 유형을 인식하기 위한 제스처 인식 모듈(116)을 더 포함한다. 전자 기기(110)는 스마트 폰, 랩탑 컴퓨터, 스마트 워치, 스마트 TV, 스마트 스피커 등과 같은 카메라 기능을 구비한 임의의 전자 기기일 수 있고, 카메라(111)는 전자 기기의 내장 카메라일 수 있고, 외장 카메라일 수도 있다.
전자 기기(110)는 필기 입력을 수신해야 하는 상황에서, 필기 감지 상태에 처하도록 구성될 수 있다. 전자 기기(110)의 카메라(111)는 촬영 범위 내에서 화면을 감지할 수 있으며, 예를 들어 환경(100)에서 카메라(111)는 사용자(120)의 공중 필기를 감지할 수 있다. 다음으로 카메라(111)에 의해 수집된 이미지는 제스처 인식 모듈(116)에 전송되고, 제스처 인식 모듈(116)이 시작 제스처를 감지한 후, 핑거팁 인식 모듈(112)은 사용자의 핑거팁의 공간 궤적 감지를 시작할 수 있으며, 궤적 인식 모듈(114)은 사용자의 필기 내용을 결정하기 위해 감지한 공간 궤적을 인식한다. 본원의 실시예에 따른 핑거팁 인식 모듈(112)은 2차원 그레이 스케일 이미지를 사용하여 핑거팁의 공간 궤적을 인식 및 추적하여, 공중 필기 인식 속도를 높일 수 있고, 기기의 처리 성능에 대한 요구치가 비교적 낮을 뿐 아니라 높은 정확도를 확보할 수 있다.
도 2는 본원의 실시예에 따른 공중 필기를 인식하는 방법(200)의 흐름도를 나타낸다. 본원의 실시예에 따른 방법(200)은 도 1에 설명된 전자 기기(110)에 의해 수행될 수 있다. 공중 필기는 핑거팁이 터치 스크린이나 터치 펜에 닿지 않는 필기 방법을 의미하며, 공중에서 사용자 핑거팁의 필기 궤적을 추적함으로써 대응하는 문자를 인식할 수 있다.
블록(202)에서 2차원 그레이 스케일 이미지에서의 사용자 손바닥 영역을 감지한다. 예를 들어, 핑거팁 인식 모듈(112)은 전자 기기(110)의 카메라(111)에 의해 수집된 2차원 컬러 이미지를 2차원 그레이 스케일 이미지로 변환(예컨대, 단색화)할 수 있는데, 이는 그레이 스케일 이미지의 연산량이 뎁스 이미지 또는 컬러 이미지보다 더 적고, 기기에 대한 요구치가 낮기 때문에 핑거팁 궤적 감지 속도를 높일 수 있다. 블록(204)에서 손바닥 영역을 기반으로 2차원 그레이 스케일 이미지에서의 핑거팁을 감지한다. 예를 들어, 핑거팁 인식 모듈(112)은 손바닥 영역을 추출한 후 2차원 그레이 스케일 이미지에서의 핑거팁 포인트를 감지한다.
블록(206)에서 일 세트의 2차원 그레이 스케일 이미지를 기반으로 핑거팁의 공간 궤적을 결정하며, 이 때 일 세트의 2차원 그레이 스케일 이미지는 제1 프레임의 2차원 그레이 스케일 이미지를 포함한다. 예를 들어, 핑거팁 인식 모듈(112)은 추가적으로 복수의 2차원 그레이 스케일 이미지를 통해 공중에서 핑거팁의 이동 궤적을 인식하고 추적한다. 블록(208)에서, 공간 궤적을 기반으로 사용자의 필기 내용을 인식한다. 예를 들어, 궤적 인식 모듈(114)은 결정된 공간 궤적을 기반으로 대응하는 문자를 인식하는데, 여기서 문자는 한자, 알파벳, 기호 등일 수 있다. 따라서 본원의 실시예에 따른 방법(200)은 2차원 그레이 스케일 이미지를 사용하여 핑거팁의 공간 궤적을 인식하고 추적함으로써, 공중 필기 인식의 속도를 높일 수 있다.
도 3은 본원의 실시예에 따른 핑거팁을 인식하는 방법(300)의 흐름도를 나타낸다. 본원의 실시예에 따른 방법(300)은 도 1에서 설명한 전자 기기(110)의 핑거팁 인식 모듈(112)에 의해 수행될 수 있고, 방법(300)은 도 2에서 설명한 방법(200)의 단계(206)일 수 있음을 이해할 것이다.
블록(302)에서, 제1 프레임에서 감지된 핑거팁을 기반으로 손바닥 프레임에 대한 회귀를 위한 검색 영역을 결정한다. 예를 들어, 제1 프레임에서 손바닥 감지를 사용하여 손바닥 프레임을 추출한 다음, 핑거팁 포인트 감지를 수행하고 동시에 손바닥 프레임에 대해 회귀를 진행하여 후속 추적을 위한 하나의 검색 영역을 생성한다.
블록(304)에서, 다음 프레임(예컨대, 제2 프레임)의 검색 영역에서 손바닥이 추적되는지 여부를 판단한다. 블록(304)에서 다음 프레임의 검색 영역에서 손바닥이 추적된 경우, 블록(306)에서 상기 검색 영역을 사용하여 현재 핑거팁 포인트를 예측한다. 즉, 핑거팁의 현재 위치는 검색 영역에 기반하여 결정된다. 블록(304)에서 다음 프레임의 검색 영역에서 손바닥이 추적되지 않는 것으로 결정된 경우, 이는 손바닥이 사라졌음을 의미하므로, 블록(308)에서 다음 프레임에서 손바닥 감지를 다시 활성화시킨다. 추적 방법을 적용함으로써, 후속 추적을 위한 대략적인 손바닥 프레임 영역에 대해 회귀할 수 있음으로써, 각 프레임 마다 손바닥 영역을 감지할 필요가 없으므로 연산량을 줄이고 수행 속도를 향상시킬 수 있다.
일부 실시예에서, DNN을 사용하여 2차원 그레이 스케일 이미지에서 핑거팁을 감지할 수 있으며, 여기서 DNN은 연속 이미지 프레임 정보를 사용하여 훈련된다. 연속 프레임 정보를 사용하기 때문에, 영상에서 핑거팁 감지 결과가 더 안정적일 수 있다. 일부 실시예에서, 핑거팁의 궤적 인식을 보다 연속적이고 안정적으로 진행하기 위해 광학 흐름 방식을 사용할 수도 있다. DNN의 훈련에는 아래의 세가지 측면이 포함될 수 있다. 먼저 손바닥 프레임을 사용하여 손바닥 영역을 커팅하고, 핑거팁 포인트를 감지한 다음, 현재 손바닥 프레임에 대해 회귀를 진행한다. 둘째, 손바닥 영역과 핑거팁의 훈련이 기본적으로 수렴된 후, 연속 프레임을 사용하여 훈련함으로써 핑거팁 포인트의 안정성을 향상시킨다. 그런 다음, 분류기를 다시 훈련시켜 후속 추적 판정을 위해 현재 예측된 손바닥 프레임에 손바닥이 포함되어 있는지 여부를 판정한다. 따라서 본원의 실시예는 딥 러닝을 통해 핑거팁의 기울기 특성을 획득할 수 있고, 직접적으로 핑거팁에 대해 회귀할 수 있으므로, 전통적인 뎁스 이미지 정보 또는 열 지도 정보가 필요하지 않고 각 프레임 이미지 마다 손바닥 감지를 수행할 필요도 없다.
도 4는 본원의 실시예에 따른 궤적을 인식하는 방법(400)의 흐름도를 나타낸다. 본원의 실시예에 따른 방법(400)은 도 1에서 설명한 전자 기기(110)에서 궤적 인식 모듈(114)에 의해 수행될 수 있고, 방법(400)은 도 2에서 설명한 방법(200)의 단계(208)의 예시적인 구현일 수 있음은 자명한 것이다.
블록(402)에서, 커브 피팅 방식을 사용하여 공간 궤적에 대해 리샘플링을 진행한다. 블록(404)에서, 공간 궤적의 8방향 특징 및 필기 순서 특징을 추출한다. 예를 들어 커브 피팅 방식을 사용하여 리샘플링을 거친 후, 도출을 통해 8방향 특징을 직접 획득하여, 더 정확한 8방향 특징을 획득하고 단순한 8방향 특징이 아닌 순차 특징을 추가하여 사용자가 필기하는 순서를 나타낼 수 있다. 선택적으로, 한자의 공간적 특징을 인위적으로 정의할 수 있다. 그러나, 한자의 공간적 특징을 인위적으로 정의하지 않고, 신경망 방식을 통해 공간적 특징과 순차적 특징을 동시에 훈련할 수 있다. 블록(406)에서, 8방향 특징 및 필기 순서 특징에 기반하여, DNN을 통해 사용자가 필기한 한자를 결정한다.
종래에서는, 보통 8방향 특징 추출 및 템플릿 매칭, 나이브 베이즈(Naive Bayes) 또는 분류기 혼합 조합 등 방식을 통해 궤적을 인식하거나, 8방향 특징 및 컨벌루션 신경망(CNN)이 조합된 방식을 사용한다. 그러나 CNN 방식은 일반적으로 공간 특징만 포함하며 한자 등 문자로 작성되는 순차 정보는 버려질 수 있다. 이와 반대로 본원의 실시예는 종래의 CNN 등 방식을 DNN(예컨대, 5층을 포함하는 완전 연결 네트워크)으로 대체함으로써, CNN이 사용자의 필기 순서를 설명할 수 없었던 문제를 해결할 수 있다.
도 5는 본원의 실시예에 따른 제스처 인식 방법(500)의 흐름도를 나타낸다. 본원의 실시예에 따른 방법(500)은 도 1에서 설명한 전자 기기(110)의 제스처 인식 모듈(116)에 의해 수행될 수 있고, 방법(500)은 도 2에서 설명한 방법(200)의 이전, 이후 또는 기본적으로 동시에 수행될 수 있는 것으로 이해하여야 한다.
블록(502)에서, 공중 필기를 트리거하기 위한 시작 제스처를 감지한다. 예를 들어, 제스처 인식 모듈(116)은 주기적 또는 기정된 규칙에 따라 시작 제스처를 감지한다. 2차원 그레이 스케일 이미지 또한 사용자의 손을 감지할 수 있으나, 컬러 이미지로 사용자의 손을 감지하는 것이 정확도가 더 높고, 손이 아닌 부분의 옅은 그림자에 대한 판단 오류를 낮출 수 있으므로, 본원의 일부 실시예는 카메라(111)에 의해 수집된 2차원 컬러 이미지를 통해 사용자의 손을 감지하고, 사용자의 제스처 유형을 인식하는 것으로 이해하여야 한다. 블록(504)에서, 시작 제스처가 감지되는지 여부를 판단한다. 손을 감지한 후 손의 특징을 추출하고, 분류 속성을 만들 수 있다. 예를 들어, 현재 제스처가 단일 손가락이 아래방향을 가리키는 것으로 인식될 경우, 공중 필기가 시작됨을 의미하는 등 일 수 있다.
블록(504)에서 시작 제스처가 감지되지 않으면, 블록(502)으로 되돌아가 주기적으로 시작 제스처를 감지한다. 블록(504)에서 시작 제스처가 감지되면, 블록(506)에서 핑거팁 인식 모듈(112)은 동작을 시작하고 핑거팁의 공간 궤적을 인식할 수 있다.
블록(508)에서, 공중 필기를 끝내기 위한 종료 제스처가 감지되는지 여부를 판단한다. 블록(508)에서 종료 제스처가 감지되지 않으면, 블록(506)으로 되돌아가 핑거팁의 공간 궤적을 계속 인식하고 추적한다. 블록(508)에서 종료 제스처가 감지되면, 이는 사용자가 필기 종료를 표시하였음을 의미하고, 필기 인식 감지를 종료하며, 블록(502)으로 되돌아가 주기적으로 필기 시작 제스처를 계속 감지한다.
일부 실시예에서, 감지된 손을 기반으로 손에 대한 회귀를 위한 인클로저 박스를 결정할 수 있다. 제1 컬러 이미지 다음의 제2 컬러 이미지의 인클로저 박스에서 손이 추적된 경우, 인클로저 박스를 기반으로 사용자의 제스처 유형을 결정하고; 제2 컬러 이미지의 인클로저 박스에서 손이 추적되지 않은 경우, 제2 컬러 이미지에서 손 감지를 다시 작동시킨다.
예를 들어, 손 감지의 경우 CNN 신경망 방식의 이미지 인식을 기반으로 화면에서 이미지 특징을 추출한 다음 회귀 연산을 수행하여 현재 프레임에 손이 있는지 여부 및 손의 위치를 판단한다. 손 감지는 일반적으로 제1 프레임만 사용하며, 손이 소실된 후 다음 감지를 다시 수행한다. 손에 대해 이항 판단(binomial judgment)을 진행하고, 각각의 프레임에서 감지 또는 추적된 손 이미지가 손이 아닌 경우 즉시 감지를 다시 수행한다. 예를 들어, 온라인 샘플 마이닝 방식을 사용하여 손의 이항 분류 훈련을 수행할 수 있다. 또한, 손 추적은 이미지 시퀀스에서 움직이는 손을 추적하는 프레임 형태로 수행될 수 있다. 즉, 손 감지가 성공적으로 완료된 후, 추적 네트워크를 실행하여, 손의 이항 분류, 인클로저 박스 영역 및 제스처 유형을 획득할 수 있다. 손인 경우, 현재 프레임의 인클로저 박스를 사용하여 다음 프레임의 이미지를 선택하여 추적 연산을 계속한다. 손이 아닌 경우, 손 감지를 다시 수행한다.
따라서, 본원의 실시예는 추적 방식을 적용하여 각 프레임마다 사용자의 손을 감지하는 것을 회피함으로써, 수행 속도를 향상시킨다. 즉, 이항 분류 및 인클로저 박스 회귀 방식을 도입하여 제스처의 감지 및 추적을 결합시킴으로써 기기 연산량을 줄일 수 있다.
도 6은 본원의 실시예에 따른 공중 필기를 인식하는 장치(600)의 블록도를 나타낸다. 도 6에 도시된 바와 같이, 장치(600)는 손바닥 감지 모듈(610), 핑거팁 감지 모듈(620), 궤적 결정 모듈(630) 및 궤적 인식 모듈(640)을 포함한다. 손바닥 감지 모듈(610)은 2차원 그레이 스케일 이미지에서 사용자의 손바닥 영역을 감지하도록 구성되고, 핑거팁 감지 모듈(620)은 손바닥 영역을 기반으로 2차원 그레이 스케일 이미지에서 핑거팁을 감지하도록 구성되며, 궤적 결정 모듈(630)은 일 세트의 2차원 그레이 스케일 이미지를 기반으로 핑거팁의 공간 궤적을 결정하도록 구성되고, 일 세트의 2차원 그레이 스케일 이미지는 상기 2차원 그레이 스케일 이미지를 포함하며, 궤적 인식 모듈(640)은 공간 궤적을 기반으로 사용자의 필기 내용을 인식하도록 구성된다.
일부 실시예에서, 손바닥 감지 모듈(610)은 전자 기기의 카메라를 통해 2차원 컬러 이미지를 획득하도록 구성된 획득 모듈; 및 2차원 컬러 이미지에 대해 그레이 처리를 진행하여 2차원 그레이 스케일 이미지를 생성하도록 구성된 생성 모듈을 포함한다.
일부 실시예에서, 핑거팁 감지 모듈(620)은 심층 신경망을 사용하여 2차원 그레이 스케일 이미지에서 핑거팁을 감지하도록 구성된 신경망 감지 모듈을 포함하며, 여기서 심층 신경망은 연속적인 이미지 프레임의 정보를 사용하여 훈련된다.
일부 실시예에서, 상기 2차원 그레이 스케일 이미지는 제1 그레이 스케일 이미지이고, 일 세트의 2차원 그레이 스케일 이미지는 시간 순서상으로 제1 그레이 스케일 이미지 바로 다음으로 이어지는 제2 그레이 스케일 이미지를 더 포함하며, 궤적 결정 모듈(630)은 감지된 핑거팁을 기반으로 손바닥 프레임에 대한 회귀를 위한 검색 영역을 결정하도록 구성된 검색 영역 결정 모듈; 제2 그레이 스케일 이미지의 검색 영역에서 손바닥을 추적한 것에 응답하여, 검색 영역을 기반으로 핑거팁의 현재 위치를 결정하도록 구성된 제1 응답 모듈; 및 제2 그레이 스케일 이미지의 검색 영역에서 손바닥이 추적되지 않은 것에 응답하여, 제2 그레이 스케일 이미지에서 손바닥 감지를 수행하도록 구성된 제2 응답 모듈을 포함한다.
일부 실시예에서, 장치(600)는 카메라에 의해 수집된 제1 컬러 이미지에서 사용자의 손을 감지한 것에 응답하여, 사용자의 제스처 유형을 인식하도록 구성된 제스처 인식 모듈을 더 포함하고, 제스처 유형은 적어도 공중 필기를 트리거하기 위한 시작 제스처 및 공중 필기를 종료하기 위한 종료 제스처를 포함한다.
일부 실시예에서, 제스처 인식 모듈은 감지된 손을 기반으로 손에 대한 회귀를 위한 인클로저 영역을 결정하도록 구성된 인클로저 영역 결정 모듈; 제1 컬러 이미지 다음의 제2 컬러 이미지의 인클로저 영역에서 손이 추적되는 것에 응답하여, 인클로저 영역을 기반으로 사용자의 제스처 유형을 결정하도록 구성된 제3 응답 모듈; 및 제2 컬러 이미지의 인클로저 영역에서 손이 추적되지 않은 것에 응답하여, 제2 컬러 이미지에서 손 감지를 수행하도록 구성된 제4 응답 모듈을 포함한다.
일부 실시예에서, 궤적 인식 모듈은 공간 궤적의 8방향 특징 및 필기 순서 특징을 추출하도록 구성된 특징 추출 모듈; 8방향 특징 및 필기 순서 특징을 기반으로 심층 신경망을 사용하여 사용자가 필기한 한자를 결정하도록 구성된 신경망 인식 모듈을 포함한다.
일부 실시예에서, 특징 추출 모듈은 커브 피팅 방식을 사용하여 공간 궤적에 대해 리샘플링을 진행하도록 구성된 리샘플링 모듈; 및 리샘플링을 거친 공간 궤적을 기반으로 8방향 특징을 추출하도록 구성된 제2 특징 추출 모듈을 포함한다.
도 6에 도시된 손바닥 감지 모듈(610), 핑거팁 감지 모듈(620) 및 궤적 결정 모듈(630)은 도 1에 도시된 핑거팁 인식 모듈(112)에 포함될 수 있으며, 궤적 인식 모듈(640)은 도 1에 도시된 궤적 인식 모듈(114)일 수 있다. 또한, 도 6에 도시된 모듈은 본원의 실시예의 방법 또는 프로세스의 단계 또는 동작을 수행할 수 있는 것으로 이해하여야 한다.
도 7은 본원의 실시예를 구현하기 위한 기기(700)의 일 예 블록도를 개략적으로 나타낸다. 기기(700)는 본 발명에서 설명한 공중 필기를 인식하는 장치(600) 또는 전자 기기(110)를 구현하기 위한 것으로 이해하여야 한다. 도시한 바와 같이, 기기(700)는 읽기 전용 메모리(ROM)(702)에 저장된 프로그램 명령 또는 저장장치(708)에서 랜덤 액세스 메모리(RAM)(703)에 로드된 컴퓨터 프로그램 명령에 따라, 다양한 적절한 동작과 처리를 수행할 수 있는 중앙처리장치(CPU)(701)를 포함한다. RAM(703)에는 기기(700) 조작에 필요한 다양한 프로그램과 데이터도 저장되어 있다. CPU(701), ROM(702), RAM(703)은 버스(704)를 통해 서로 연결된다. 입출력(I/O) 인터페이스(705)도 버스(704)에 연결된다.
키보드, 마우스 등과 같은 입력부(706); 다양한 유형의 디스플레이, 스피커 등과 같은 출력부(707); 자기 디스크, 광 디스크와 같은 저장부(708); 및 네트워크 카드, 모뎀, 무선 통신 송수신기 등과 같은 통신부(709)를 포함하는 기기(700)의 다양한 부재는 I/O 인터페이스(705)에 연결된다. 통신부(709)는 기기(700)가 인터넷과 같은 컴퓨터 네트워크 및/또는 다양한 통신 네트워크를 통해 다른 기기와 정보 및/또는 데이터를 교환하도록 허용한다.
처리 장치(701)는 위에서 설명한 다양한 방법 및 프로세스, 예를 들어 방법(200 내지 500)을 수행한다. 예를 들어, 일부 실시예에서 방법은 저장부(708)와 같은 기계 판독 가능한 매체에 유형적으로 포함된 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(702) 및/또는 통신부(709)를 거쳐 기기(700)에 로드 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(703)에 로드되고 CPU(701)에 의해 실행될 때, 위에서 설명한 방법의 하나 또는 복수의 동작 또는 단계가 수행될 수 있다. 대체적으로, 다른 실시예에서 CPU(701)는 임의의 다른 적합한 방식(예컨대, 펌웨어를 이용함)을 통해 방법을 수행하도록 구성될 수 있다.
명세서 중 위에서 설명된 기능은 적어도 일부가 하나 또는 복수의 하드웨어 논리 부재에 의해 실행될 수 있다. 예를 들어, 비제한적으로, 사용 가능한 시범 유형의 하드웨어 논리 부재는 필드 프로그램 가능 게이트 어레이(FPGA), 전용 집적 회로(ASIC), 전용 표준 제품(ASSP), 시스템 온 칩의 시스템(SOC), 복합 프로그램 가능 논리 소자(CPLD) 등을 포함한다.
본원의 방법을 구현하는 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 조합으로 편집할 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 다른 프로그램 가능 데이터 처리 장치의 프로세서 또는 제어기에 제공될 수 있으며, 프로그램 코드는 프로세서 또는 제어기에 의해 실행될 경우, 흐름도 및/또는 블록도에 지정된 기능/작동이 구현되도록 할 수 있다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 독립형 소프트웨어 패키지로서 기계에서 실행되며, 일부는 원격 기계에서 실행되거나 완전히 원격 기계 또는 서버에서 실행될 수 있다.
본원의 컨텍스트에서, 기계 판독 가능한 매체는 명령 실행 시스템, 장치 또는 기기에 의해 또는 명령 실행 시스템, 장치 또는 기기와 결합하여 사용하기 위한 프로그램을 포함하거나 저장할 수 있는 유형의 매체일 수 있다. 기계 판독 가능한 매체는 기계 판독 가능한 신호 매체 또는 기계 판독 가능한 저장 매체일 수 있다. 기계 판독 가능한 매체는 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 기기, 또는 상기 내용의 임의의 적절한 조합을 포함할 수 있으나 이에 한정되지 않는다. 기계 판독 가능한 저장 매체의 보다 구체적인 예는 하나 또는 복수의 와이어에 기반한 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그램 가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, CD-ROM, 광학 저장 기기, 자기 저장 기기 또는 상술한 내용의 임의의 적절한 조합을 포함한다.
그 밖에, 특정 순서로 각 동작 또는 단계를 설명하였으나, 이는 이러한 동작 또는 단계들이 도시된 특정 순서 또는 순차적 순서로 수행되도록 요구되거나 모든 도시된 동작 또는 단계들이 예기한 결과를 달성하기 위해 수행되어야 함을 이해해야 한다. 일정한 환경에서, 복수의 미션 및 병렬 처리는 유리할 수 있다. 마찬가지로, 위 설명에 여러 개의 구체적인 구현 세부사항이 포함되어 있으나, 이것이 본원의 범위를 한정하는 것으로 해석되어서는 안된다. 독립적인 실시예의 컨텍스트에서 설명된 특정된 특징은 단일 구현으로 조합되어 구현될 수 있다. 반대로, 단일 구현의 컨텍스트에서 설명된 다양한 특징은 또한 복수의 구현에서 독립적으로 또는 임의의 적절한 하위 조합으로 구현될 수도 있다.
구조 특징 및/또는 방법 논리적 동작에 특정된 언어로 본원의 실시예를 설명하였으나, 첨부된 청구범위에서 한정된 주제는 위에서 설명한 특정된 특징 또는 동작에 반드시 한정되는 것은 아님을 이해해야 한다. 반대로, 위에서 설명한 특정된 특징 및 동작은 단지 청구범위의 예시적 형태를 구현하기 위한 것이다.

Claims (18)

  1. 공중 필기를 인식하는 방법으로서,
    2차원 그레이 스케일 이미지에서 사용자의 손바닥 영역을 감지하는 단계;
    상기 손바닥 영역을 기반으로 상기 2차원 그레이 스케일 이미지에서 핑거팁(fingertip)을 감지하는 단계;
    일 세트의 2차원 그레이 스케일 이미지를 기반으로 상기 핑거팁의 공간 궤적을 결정하는 단계로서, 상기 일 세트의 2차원 그레이 스케일 이미지는 상기 2차원 그레이 스케일 이미지를 포함하는, 상기 핑거팁의 공간 궤적을 결정하는 단계; 및
    상기 공간 궤적을 기반으로 상기 사용자의 필기 내용을 인식하는 단계
    를 포함하는, 공중 필기를 인식하는 방법.
  2. 제1항에 있어서,
    2차원 그레이 스케일 이미지에서 사용자의 손바닥 영역을 감지하는 단계는,
    전자 기기의 카메라를 통해 2차원 컬러 이미지를 수집하는 것; 및
    상기 2차원 컬러 이미지에 대해 그레이 처리를 진행하여 상기 2차원 그레이 스케일 이미지를 생성하는 것을 포함하는, 공중 필기를 인식하는 방법.
  3. 제1항에 있어서,
    상기 2차원 그레이 스케일 이미지에서 핑거팁을 감지하는 단계는,
    심층 신경망을 사용하여 상기 2차원 그레이 스케일 이미지에서 핑거팁을 감지하되, 상기 심층 신경망은 연속 이미지 프레임의 정보를 사용하여 훈련되는 것을 포함하는, 공중 필기를 인식하는 방법.
  4. 제1항에 있어서,
    상기 2차원 그레이 스케일 이미지는 제1 그레이 스케일 이미지이고, 상기 일 세트의 2차원 그레이 스케일 이미지는 시간 순서상으로 상기 제1 그레이 스케일 이미지 바로 다음으로 이어지는 제2 그레이 스케일 이미지를 더 포함하며, 상기 핑거팁의 공간 궤적을 결정하는 단계는,
    감지된 상기 핑거팁을 기반으로 손바닥 프레임에 대한 회귀를 위한 검색 영역을 결정하는 단계;
    상기 제2 그레이 스케일 이미지의 상기 검색 영역에서 상기 손바닥이 추적된 것에 응답하여, 상기 검색 영역을 기반으로 상기 핑거팁의 현재 위치를 결정하는 단계; 및
    상기 제2 그레이 스케일 이미지의 상기 검색 영역에서 상기 손바닥이 추적되지 않은 것에 응답하여, 상기 제2 그레이 스케일 이미지에서 손바닥 감지를 수행하는 단계
    를 포함하는, 공중 필기를 인식하는 방법.
  5. 제1항에 있어서,
    카메라를 통해 수집된 제1 컬러 이미지에서 상기 사용자의 손이 감지된 것에 응답하여, 상기 사용자의 제스처 유형을 인식하되, 상기 제스처 유형은 적어도 상기 공중 필기를 시작하는 시작 제스처 및 상기 공중 필기를 종료하는 종료 제스처를 포함하는 것을 더 포함하는, 공중 필기를 인식하는 방법.
  6. 제5항에 있어서,
    상기 사용자의 제스처 유형을 인식하는 것은,
    감지된 상기 손을 기반으로 손에 대한 회귀를 위한 인클로저 영역을 결정하는 단계;
    상기 제1 컬러 이미지 다음의 제2 컬러 이미지의 상기 인클로저 영역에서 상기 손이 추적된 것에 응답하여, 상기 인클로저 영역을 기반으로 상기 사용자의 제스처 유형을 결정하는 단계; 및
    상기 제2 컬러 이미지의 상기 인클로저 영역에서 상기 손이 추적되지 않은 것에 응답하여, 상기 제2 컬러 이미지에서 손 감지를 수행하는 단계
    를 포함하는, 공중 필기를 인식하는 방법.
  7. 제1항에 있어서,
    상기 사용자의 필기 내용을 인식하는 단계는,
    상기 공간 궤적의 8방향 특징 및 필기 순서 특징을 추출하는 단계; 및
    상기 8방향 특징 및 상기 필기 순서 특징을 기반으로 심층 신경망을 사용하여 상기 사용자의 필기 한자를 결정하는 단계
    를 포함하는, 공중 필기를 인식하는 방법.
  8. 제7항에 있어서,
    상기 공간 궤적의 8방향 특징을 추출하는 단계는,
    커브 피팅 방식을 사용하여 상기 공간 궤적에 대해 리샘플링하는 단계; 및
    리샘플링을 거친 상기 공간 궤적을 기반으로 상기 8방향 특징을 추출하는 단계
    를 포함하는, 공중 필기를 인식하는 방법.
  9. 공중 필기를 인식하는 장치로서,
    2차원 그레이 스케일 이미지에서 사용자의 손바닥 영역을 감지하도록 구성된 손바닥 감지 모듈;
    상기 손바닥 영역을 기반으로 상기 2차원 그레이 스케일 이미지에서 핑거팁을 감지하도록 구성된 핑거팁 감지 모듈;
    일 세트의 2차원 그레이 스케일 이미지를 기반으로 상기 핑거팁의 공간 궤적을 결정하도록 구성된 궤적 결정 모듈로서, 상기 일 세트의 2차원 그레이 스케일 이미지는 상기 2차원 그레이 스케일 이미지를 포함하는, 상기 궤적 결정 모듈; 및
    상기 공간 궤적을 기반으로 상기 사용자의 필기 내용을 인식하는 궤적 인식 모듈
    을 포함하는, 공중 필기를 인식하는 장치.
  10. 제9항에 있어서,
    상기 손바닥 감지 모듈은,
    전자 기기의 카메라를 통해 2차원 컬러 이미지를 수집하도록 구성된 수집 모듈; 및
    상기 2차원 컬러 이미지에 대해 그레이 처리를 진행하여 상기 2차원 그레이 스케일 이미지를 생성하도록 구성된 생성 모듈
    을 포함하는, 공중 필기를 인식하는 장치.
  11. 제9항에 있어서,
    상기 핑거팁 감지 모듈은,
    심층 신경망을 사용하여 상기 2차원 그레이 스케일 이미지에서 핑거팁을 감지하도록 구성된 신경망 감지 모듈을 포함하되, 상기 심층 신경망은 연속 이미지 프레임 정보를 사용하여 훈련되는, 공중 필기를 인식하는 장치.
  12. 제9항에 있어서,
    상기 2차원 그레이 스케일 이미지는 제1 그레이 스케일 이미지이고, 상기 일 세트의 2차원 그레이 스케일 이미지는 시간 순서상으로 상기 제1 그레이 스케일 이미지 바로 다음으로 이어지는 제2 그레이 스케일 이미지를 더 포함하며, 상기 궤적 결정 모듈은,
    감지된 상기 핑거팁을 기반으로 손바닥 영역에 대한 회귀를 위한 검색 영역을 결정하도록 구성된 검색 영역 결정 모듈;
    상기 제2 그레이 스케일 이미지의 상기 검색 영역에서 상기 손바닥이 추적된 것에 응답하여, 상기 검색 영역을 기반으로 상기 핑거팁의 현재 위치를 결정하도록 구성된 제1 응답 모듈; 및
    상기 제2 그레이 스케일 이미지의 상기 검색 영역에서 상기 손바닥이 추적되지 않은 것에 응답하여, 상기 제2 그레이 스케일 이미지에서 손바닥 감지를 수행하도록 구성된 제2 응답 모듈
    을 포함하는, 공중 필기를 인식하는 장치.
  13. 제9항에 있어서,
    상기 장치는,
    카메라를 통해 수집된 제1 컬러 이미지에서 상기 사용자의 손이 감지된 것에 응답하여, 상기 사용자의 제스처 유형을 인식하도록 구성된 제스처 인식 모듈을 더 포함하되,
    상기 제스처 유형은 적어도 공중 필기를 시작하는 시작 제스처 및 상기 공중 필기를 종료하는 종료 제스처를 포함하는, 공중 필기를 인식하는 장치.
  14. 제13항에 있어서,
    상기 제스처 인식 모듈은,
    감지된 상기 손을 기반으로 손에 대한 회귀를 위한 인클로저 영역을 결정하도록 구성된 인클로저 영역 결정 모듈;
    상기 제1 컬러 이미지 다음의 제2 컬러 이미지의 인클로저 영역에서 상기 손이 추적된 것에 응답하여, 상기 인클로저 영역을 기반으로 상기 사용자의 제스처 유형을 결정하도록 구성된 제3 응답 모듈; 및
    상기 제2 컬러 이미지의 상기 인클로저 영역에서 상기 손이 추적되지 않은 것에 응답하여, 상기 제2 컬러 이미지에서 손 감지를 수행하도록 구성된 제4 응답 모듈
    을 포함하는, 공중 필기를 인식하는 장치.
  15. 제9항에 있어서,
    상기 궤적 인식 모듈은,
    상기 공간 궤적의 8방향 특징 및 필기 순서 특징을 추출하도록 구성된 특징 추출 모듈; 및
    상기 8방향 특징 및 상기 필기 순서 특징을 기반으로 심층 신경망을 사용하여 상기 사용자의 필기 한자를 결정하도록 구성된 신경망 인식 모듈
    을 포함하는, 공중 필기를 인식하는 장치.
  16. 제15항에 있어서,
    상기 특징 추출 모듈은,
    커브 피팅 방식을 사용하여 상기 공간 궤적에 대해 리샘플링을 진행하도록 구성된 리샘플링 모듈; 및
    리샘플링을 거친 상기 공간 궤적을 기반으로 상기 8방향 특징을 추출하도록 구성된 제2 특징 추출 모듈
    을 포함하는, 공중 필기를 인식하는 장치.
  17. 전자 기기로서,
    하나 또는 복수의 프로세서; 및
    하나 또는 복수의 프로그램을 저장하는 저장 장치를 포함하되, 상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 전자기기가 제1항 내지 제8항 중 어느 한 항에 따른 방법을 구현하는, 전자 기기.
  18. 컴퓨터 판독 가능한 저장 매체로서,
    상기 컴퓨터 판독 가능한 저장 매체에는 컴퓨터 프로그램이 저장되고, 상기 프로그램이 프로세서에 의해 실행될 경우 제1항 내지 제8항 중 어느 한 항에 따른 방법을 구현하도록 하는, 컴퓨터 판독 가능한 저장 매체.
KR1020207027104A 2018-10-19 2019-06-14 공중 필기 인식을 위한 방법, 장치, 기기 및 컴퓨터 판독 가능한 저장 매체 KR102460737B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811222348.XA CN109344793B (zh) 2018-10-19 2018-10-19 用于识别空中手写的方法、装置、设备以及计算机可读存储介质
CN201811222348.X 2018-10-19
PCT/CN2019/091261 WO2020078017A1 (zh) 2018-10-19 2019-06-14 用于识别空中手写的方法、装置、设备以及计算机可读存储介质

Publications (2)

Publication Number Publication Date
KR20200120739A true KR20200120739A (ko) 2020-10-21
KR102460737B1 KR102460737B1 (ko) 2022-10-28

Family

ID=65310458

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207027104A KR102460737B1 (ko) 2018-10-19 2019-06-14 공중 필기 인식을 위한 방법, 장치, 기기 및 컴퓨터 판독 가능한 저장 매체

Country Status (6)

Country Link
US (1) US11423700B2 (ko)
EP (1) EP3754542B1 (ko)
JP (1) JP7073522B2 (ko)
KR (1) KR102460737B1 (ko)
CN (1) CN109344793B (ko)
WO (1) WO2020078017A1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344793B (zh) 2018-10-19 2021-03-16 北京百度网讯科技有限公司 用于识别空中手写的方法、装置、设备以及计算机可读存储介质
CN111679745A (zh) * 2019-03-11 2020-09-18 深圳市冠旭电子股份有限公司 音箱控制方法、装置、设备、可穿戴设备及可读存储介质
CN110136130A (zh) * 2019-05-23 2019-08-16 北京阿丘机器人科技有限公司 一种检测产品缺陷的方法及装置
CN110213446A (zh) * 2019-06-03 2019-09-06 维沃移动通信有限公司 一种通话方法及移动终端
CN110633666A (zh) * 2019-09-10 2019-12-31 江南大学 一种基于手指颜色贴片的手势轨迹识别方法
US11372518B2 (en) * 2020-06-03 2022-06-28 Capital One Services, Llc Systems and methods for augmented or mixed reality writing
CN111931600B (zh) * 2020-07-21 2021-04-06 深圳市鹰硕教育服务有限公司 智能笔图像处理方法、装置及电子设备
CN112558810B (zh) * 2020-12-11 2023-10-03 北京百度网讯科技有限公司 检测指尖位置的方法、装置、设备和存储介质
CN112686134B (zh) * 2020-12-29 2023-12-01 科大讯飞股份有限公司 手写识别方法、装置、电子设备和存储介质
CN113253837A (zh) * 2021-04-01 2021-08-13 作业帮教育科技(北京)有限公司 空中书写方法、装置、线上直播系统和计算机设备
US20220365655A1 (en) * 2021-05-10 2022-11-17 Qingdao Pico Technology Co., Ltd. Virtual Keyboard Interaction Method and System
CN114898459A (zh) * 2022-04-13 2022-08-12 网易有道信息技术(北京)有限公司 一种用于手势识别的方法及其相关产品
US11816275B1 (en) * 2022-08-02 2023-11-14 International Business Machines Corporation In-air control regions
WO2024065345A1 (zh) * 2022-09-29 2024-04-04 京东方科技集团股份有限公司 隔空手势编辑方法、装置、显示系统及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120105613A1 (en) * 2010-11-01 2012-05-03 Robert Bosch Gmbh Robust video-based handwriting and gesture recognition for in-car applications

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007045967A1 (de) * 2007-09-25 2009-04-02 Continental Automotive Gmbh Verfahren und Vorrichtung zur berührungslosen Eingabe von Schriftzeichen
CN102520790A (zh) * 2011-11-23 2012-06-27 中兴通讯股份有限公司 一种基于图像传感模块的字符输入方法、装置及终端
CN103577843B (zh) * 2013-11-22 2016-06-22 中国科学院自动化研究所 一种空中手写字符串识别方法
CN103714322A (zh) * 2013-12-26 2014-04-09 四川虹欧显示器件有限公司 一种实时手势识别方法及装置
RU2014108820A (ru) * 2014-03-06 2015-09-20 ЭлЭсАй Корпорейшн Процессор изображений, содержащий систему распознавания жестов с функциональными возможностями обнаружения и отслеживания пальцев
CN105320248B (zh) * 2014-06-03 2018-12-07 深圳Tcl新技术有限公司 空中手势输入方法及装置
JP2016076103A (ja) * 2014-10-07 2016-05-12 株式会社ログバー ジェスチャ入力時におけるノイズ除去方法
CN104834922B (zh) * 2015-05-27 2017-11-21 电子科技大学 基于混合神经网络的手势识别方法
US9857881B2 (en) * 2015-12-31 2018-01-02 Microsoft Technology Licensing, Llc Electrical device for hand gestures detection
CN105718878B (zh) * 2016-01-19 2019-08-09 华南理工大学 基于级联卷积神经网络的第一视角空中手写和空中交互方法
CN106022392B (zh) * 2016-06-02 2019-09-13 华南理工大学 一种深度神经网络样本自动取舍的训练方法
CN106951871B (zh) * 2017-03-24 2020-07-28 北京地平线机器人技术研发有限公司 操作体的运动轨迹识别方法、装置和电子设备
US10572072B2 (en) * 2017-09-29 2020-02-25 Apple Inc. Depth-based touch detection
CN107992792A (zh) * 2017-10-16 2018-05-04 华南理工大学 一种基于加速度传感器的空中手写汉字识别系统及方法
CN107885327B (zh) * 2017-10-27 2020-11-13 长春理工大学 一种基于Kinect深度信息的指尖检测方法
CN107945210B (zh) * 2017-11-30 2021-01-05 天津大学 基于深度学习和环境自适应的目标跟踪方法
CN109344793B (zh) * 2018-10-19 2021-03-16 北京百度网讯科技有限公司 用于识别空中手写的方法、装置、设备以及计算机可读存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120105613A1 (en) * 2010-11-01 2012-05-03 Robert Bosch Gmbh Robust video-based handwriting and gesture recognition for in-car applications

Also Published As

Publication number Publication date
JP2021524951A (ja) 2021-09-16
EP3754542A1 (en) 2020-12-23
CN109344793A (zh) 2019-02-15
EP3754542A4 (en) 2021-11-24
US20200410222A1 (en) 2020-12-31
EP3754542B1 (en) 2024-02-21
CN109344793B (zh) 2021-03-16
KR102460737B1 (ko) 2022-10-28
JP7073522B2 (ja) 2022-05-23
US11423700B2 (en) 2022-08-23
WO2020078017A1 (zh) 2020-04-23

Similar Documents

Publication Publication Date Title
KR102460737B1 (ko) 공중 필기 인식을 위한 방법, 장치, 기기 및 컴퓨터 판독 가능한 저장 매체
WO2021115181A1 (zh) 手势识别方法、手势控制方法、装置、介质与终端设备
CN104350509B (zh) 快速姿势检测器
US9390340B2 (en) Image-based character recognition
CN103065134B (zh) 一种具有提示信息的指纹识别装置和方法
US20200143191A1 (en) Method, apparatus and storage medium for recognizing character
US20180211104A1 (en) Method and device for target tracking
JP5211334B2 (ja) 手書き記号の認識方法及び装置
CN111488791A (zh) 将指尖运动模式实时地设备上分类为手势
CN109919077B (zh) 姿态识别方法、装置、介质和计算设备
CN103150019A (zh) 一种手写输入系统及方法
US9746929B2 (en) Gesture recognition using gesture elements
US20220198836A1 (en) Gesture recognition method, electronic device, computer-readable storage medium, and chip
KR20220024146A (ko) 자유 핸드라이팅 모드에서 텍스트 핸드라이팅 입력의 처리
Aggarwal et al. Online handwriting recognition using depth sensors
Choudhury et al. A CNN-LSTM based ensemble framework for in-air handwritten Assamese character recognition
WO2012085923A1 (en) Method and system for classification of moving objects and user authoring of new object classes
CN114937285A (zh) 动态手势识别方法、装置、设备及存储介质
CN110850982A (zh) 基于ar的人机交互学习方法、系统、设备及存储介质
Chen et al. Air-writing for smart glasses by effective fingertip detection
Rubin Bose et al. In-situ identification and recognition of multi-hand gestures using optimized deep residual network
CN107912062B (zh) 叠覆手写的系统和方法
CN113220125A (zh) 手指交互方法、装置、电子设备及计算机存储介质
Younas et al. Air-Writing Segmentation using a single IMU-based system
Lee et al. Vision-based fingertip-writing character recognition

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant