KR102121654B1 - 딥러닝 기반 제스처 자동 인식 방법 및 시스템 - Google Patents

딥러닝 기반 제스처 자동 인식 방법 및 시스템 Download PDF

Info

Publication number
KR102121654B1
KR102121654B1 KR1020180075133A KR20180075133A KR102121654B1 KR 102121654 B1 KR102121654 B1 KR 102121654B1 KR 1020180075133 A KR1020180075133 A KR 1020180075133A KR 20180075133 A KR20180075133 A KR 20180075133A KR 102121654 B1 KR102121654 B1 KR 102121654B1
Authority
KR
South Korea
Prior art keywords
contours
gesture recognition
learning
data
contour
Prior art date
Application number
KR1020180075133A
Other languages
English (en)
Other versions
KR20200010650A (ko
Inventor
고상기
조충상
정혜동
이영한
Original Assignee
전자부품연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전자부품연구원 filed Critical 전자부품연구원
Priority to KR1020180075133A priority Critical patent/KR102121654B1/ko
Priority to US16/147,962 priority patent/US10846568B2/en
Publication of KR20200010650A publication Critical patent/KR20200010650A/ko
Application granted granted Critical
Publication of KR102121654B1 publication Critical patent/KR102121654B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06K9/00335
    • G06K9/48
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)

Abstract

딥러닝 기반 제스처 자동 인식 방법 및 시스템이 제공된다. 본 발명의 실시예에 따른 학습 방법은, 입력 영상에서 다수의 윤곽들을 추출하고, 윤곽들 각각을 구성하는 윤곽 정보들을 정규화하여 학습 데이터들을 생성하며, 생성된 학습 데이터들을 이용하여 제스처 인식을 위한 인공지능 모델을 학습시킨다. 이에 의해, 적은 학습 데이터를 이용하면서도 환경과 조건에 영향을 받지 않는 강인한 고성능의 제스처 자동 인식이 가능해진다.

Description

딥러닝 기반 제스처 자동 인식 방법 및 시스템{Deep Learning Based Automatic Gesture Recognition Method and System}
본 발명은 인공지능 관련 기술에 관한 것으로, 더욱 상세하게는 인공지능 모델을 활용하여 자동으로 수어(手語) 등의 제스처를 인식하기 위한 방법 및 시스템에 관한 것이다.
컴퓨터 비전 기반의 제스처 인식 기술은 RGB 이미지와 Depth 정보를 동시에 입력받아, 입력된 정보에서 특징점들을 추출하여 매칭하는 방법을 이용하고 있다. 이 기술은 Depth 정보에 대한 종속성이 높고, 환경적 제약 사항이 매우 크다는 문제가 있다.
인공지능 기술의 비약적인 발전은 입력 영상으로부터 자동으로 수어 등의 제스처를 인식하는 것을 가능하게 하였다. 기존의 딥러닝 기반 수어 인식 기술들은 영상을 바로 수어(텍스트)로 변환하는 End-to-End 훈련 방식에 따르고 있다.
하지만, 이 방식에서는 많은 학습 영상과 데이터를 이용하여 신경망을 학습하여야만 만족할 만한 인식이 가능하다는 문제가 있다. 수어 인식의 경우, 일반적으로 100만장 이상의 학습 이미지가 필요하다.
나아가, 학습이 제대로 수행되었다 하더라도, 실제 응용 프로그램에 적용하는 경우 학습 영상과 상당 부분 다른 영상이 입력되는 경우에는 올바른 인식이 어렵다는 문제도 아울러 존재한다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 적은 학습 데이터를 이용하면서도 환경과 조건에 영향을 받지 않는 강인한 고성능의 제스처 자동 인식 방법 및 시스템을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 학습 방법은, 입력 영상에서 다수의 윤곽들을 추출하는 단계; 윤곽들 각각을 구성하는 윤곽 정보들을 정규화하여, 학습 데이터들을 생성하는 단계; 생성된 학습 데이터들을 이용하여, 제스처 인식을 위한 인공지능 모델을 학습시키는 단계;를 포함한다.
그리고, 윤곽들은, 중첩 가능할 수 있다.
또한, 윤곽 정보들은, 윤곽을 도출하기 위해 추출한 특징점들에 대한 정보들일 수 있다.
그리고, 특징점들에 대한 정보들은, 특징점들의 좌표 정보들을 포함할 수 있다.
또한, 학습 데이터 생성단계는, 윤곽 별로, 윤곽을 구성하는 윤곽 정보들의 좌표 정보들에 대한 평균과 표준 편차를 이용한 연산으로, 윤곽 정보들을 정규화할 수 있다.
그리고, 학습 데이터 생성단계는, 정규화된 좌표 정보들에 윤곽 정보들의 신뢰도 정보들을 각각 포함시켜, 학습 데이터들을 생성할 수 있다.
또한, 본 발명의 실시예에 따른 학습 방법은, 윤곽들을 포함하는 영역들 각각에서 특징 데이터들을 추출하는 단계; 및 추출한 특징 데이터들을 생성된 학습 데이터들에 각각 부가하는 단계;를 더 포함하고, 학습 단계는, 특징 데이터들이 부가된 학습 데이터들을 이용하여, 인공지능 모델을 학습시킬 수 있다.
그리고, 추출 단계는, 신경망을 이용하여 특징 데이터들을 추출할 수 있다.
또한, 특징 데이터들의 차원은, 윤곽 정보들의 차원과 일치할 수 있다.
그리고, 본 발명의 실시예에 따른 학습 방법은, 생성된 학습 데이터들을 증식시키는 단계;를 더 포함하고, 학습 단계는, 증식된 학습 데이터들을 이용하여, 인공지능 모델을 학습시킬 수 있다.
또한, 증식 단계는, 학습 데이터를 구성하는 정규화된 윤곽 정보를 랜덤하게 변경하여, 학습 데이터를 추가로 생성할 수 있다.
그리고, 증식 단계는, 정규화된 윤곽 정보를 제한된 범위 내에서 변경시킬 수 있다.
또한, 제한된 범위는, 윤곽 정보가 포함된 윤곽 영역일 수 있다.
그리고, 제한된 범위는, 윤곽 정보로부터 다른 윤곽 정보까지의 제한된 거리일 수 있다.
한편, 본 발명의 다른 실시예에 따른, 제스처 인식 시스템은, 영상을 입력받는 입력부; 입력부를 통해 입력된 영상에서 다수의 윤곽들을 추출하고, 윤곽들 각각을 구성하는 윤곽 정보들을 정규화하여 학습 데이터들을 생성하며, 생성된 학습 데이터들을 이용하여 제스처 인식을 위한 인공지능 모델을 학습시키는 프로세서;를 포함한다.
한편, 본 발명의 다른 실시예에 따른, 제스처 인식 방법은, 입력 영상에서 다수의 윤곽들을 추출하는 단계; 윤곽들 각각을 구성하는 윤곽 정보들을 정규화하여, 추론 데이터들을 생성하는 단계; 생성된 추론 데이터들을 제스처 인식을 위한 인공지능 모델에 입력하여, 제스처를 인식하는 단계;를 포함한다.
한편, 본 발명의 다른 실시예에 따른, 제스처 인식 시스템은, 영상을 입력받는 입력부; 입력부를 통해 입력된 영상에서 다수의 윤곽들을 추출하고, 윤곽들 각각을 구성하는 윤곽 정보들을 정규화하여 추론 데이터들을 생성하며, 생성된 추론 데이터들을 제스처 인식을 위한 인공지능 모델에 입력하여 제스처를 인식하는 프로세서;를 포함한다.
한편, 본 발명의 다른 실시예에 따른, 컴퓨터로 읽을 수 있는 기록매체에는, 입력 영상에서 다수의 윤곽들을 추출하는 단계; 윤곽들 각각을 구성하는 윤곽 정보들을 정규화하여, 학습 데이터들을 생성하는 단계; 생성된 학습 데이터들을 이용하여, 제스처 인식을 위한 인공지능 모델을 학습시키는 단계;를 포함하는 것을 특징으로 하는 학습 방법을 수행할 수 있는 프로그램이 기록된다.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 적은 학습 데이터를 이용하면서도 환경과 조건에 영향을 받지 않는 강인한 고성능의 제스처 자동 인식이 가능해진다.
도 1은 본 발명의 일 실시예에 따른 제스처 자동 인식을 위한 학습 방법의 설명에 제공되는 흐름도,
도 2는 주요 윤곽들을 추출한 결과를 나타낸 도면,
도 3은 윤곽 정보의 정규화 방법에 대한 상세 설명에 제공되는 도면,
도 4는 특징 데이터 추출 방법의 설명에 제공되는 도면,
도 5는 특징 데이터 부가 방법의 설명에 제공되는 도면,
도 6은 학습 데이터 증식 방법의 설명에 제공되는 도면,
도 7은 본 발명의 다른 실시예에 따른 수어 자동 인식 방법의 설명에 제공되는 도면,
도 8 및 도 9에는 본 발명의 실시예에 따른 학습 방법으로 학습된 딥러닝 모델을 이용한 수어 인식 결과의 설명에 제공되는 도면, 그리고,
도 10은 본 발명의 다른 실시예에 따른 자동 수어 인식 시스템의 블럭도이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 제스처 자동 인식을 위한 학습 방법의 설명에 제공되는 흐름도이다.
본 발명의 실시예에 따른 제스처 자동 인식을 위한 학습 방법에서는, Depth 정보 없이 RGB 이미지 만을 이용하며, 적은 양의 학습 데이터로 환경과 조건에 영향을 받지 않는 강인한 고성능의 제스처 인식을 수행하고자, 딥러닝 기반으로 수어 등의 제스처를 자동으로 인식한다.
본 발명의 실시예에서는 수어 자동 인식을 상정하여 설명하는데, 수어는 제스처의 일 예에 해당한다. 수어 이외의 다른 제스처를 인식하는 경우에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다.
본 발명의 실시예에 따른 제스처 자동 인식을 위한 학습 방법에서는, 입력 영상에서 수어 인식에 필요한 주요 윤곽들을 추출하고, 윤곽 정보들을 주요 윤곽 별로 구분하여 정규화한 후에, 윤곽 정보의 신뢰도(윤곽 정보가 주요 윤곽을 구성하는 특징점으로써의 신뢰도)를 부가하여 학습 데이터를 생성한다.
또한, 본 발명의 실시예에 따른 학습 방법에서는, 주요 윤곽 영역(주요 윤곽을 포함하는 사각형 영역)들에 대한 특징 데이터들을 부가하여 학습 데이터를 확장하고, 확장된 학습 데이터를 증식(Augmentation)하여 학습 데이터의 양을 증가시킨다.
구체적으로, 도 1에 도시된 바와 같이, 입력되는 학습 영상에서 사람 윤곽을 추출하고(S110), 추출된 사람 윤곽에서 수어 인식에 필요한 주요 윤곽들을 추출한다(S120).
도 1의 상부 이미지에는 S110단계에 따라 사람 윤곽을 추출한 결과를 나타내었다. S120단계에서 수어 인식에 필요한 주요 윤곽들에는, 눈코입 윤곽, 얼굴 윤곽 및 손 윤곽이 포함된다. 도 2에는 주요 윤곽들을 추출한 결과를 나타내었다.
도 2에 나타난 바와 같이, 주요 윤곽들의 영역들은 일부 또는 전부가 중첩될 수 있다. 도 2에 도시된 바에 따르면, 눈코입 윤곽은 얼굴 윤곽에 전부가 중첩되고, 손 윤곽은 눈코입 윤곽은 얼굴 윤곽에 일부가 중첩되었음을 확인할 수 있다.
도 2의 우측에 나타난 바와 같이, 주요 윤곽은 다수의 윤곽 정보들로 구성되는데, 윤곽 정보들은 주요 윤곽을 도출하기 위해 추출한 특징점들에 대한 정보들에 해당한다. 윤곽 정보는 특징점에 대한 [x 좌표, y 좌표, 신뢰도]로 구성된다.
다시, 도 1을 참조하여 설명한다.
주요 윤곽들이 추출되면, 주요 윤곽 별로 구분하여 윤곽 정보들의 좌표 정보들을 정규화하고, 윤곽 정보의 신뢰도를 학습 데이터에 포함시킬지 여부를 결정하여, 윤곽 정보를 학습 데이터로 변환한다(S130).
정규화의 경우, 눈코입 윤곽에 대한 윤곽 정보들만을 이용하여 눈코입 윤곽의 윤곽 정보들에 대한 정규화가 이루어지고, 얼굴 윤곽에 대한 윤곽 정보들만을 이용하여 얼굴 윤곽의 윤곽 정보들에 대한 정규화가 이루어지고, 손 윤곽에 대한 윤곽 정보들만을 이용하여 손 윤곽의 윤곽 정보들에 대한 정규화가 이루어진다.
이는, 윤곽 정보들에 대한 통계적 특성에 대해 주요 윤곽을 기준으로 분석하고, 이를 기반으로 윤곽 정보들을 가공하는 전처리로, 딥러닝을 위한 학습 데이터로 변환하는 과정에 해당한다.
윤곽 정보에는 개별적인 데이터 특성이 강하게 포함되어 있어, 윤곽 정보를 가공 없이 학습에 사용하는 경우 학습이 잘 안될 수 있는 문제점을 개선한 것이다.
학습 데이터에 윤곽 정보의 신뢰도를 포함시킬지 여부는 선택 사항으로, 이를 테면 사용자의 설정을 기초로 결정할 수 있다. 윤곽 정보의 신뢰도가 부가되면 학습 데이터는 [정규화된 x 좌표, 정규화된 y 좌표, 신뢰도]가 되고, 윤곽 정보의 신뢰도가 부가되지 않으면 학습 데이터는 [정규화된 x 좌표, 정규화된 y 좌표]가 된다.
윤곽 정보를 학습 데이터로 변환하는 방법에 대해서는, 도 3을 참조하여 상세히 후술한다.
한편으로, CNN(Convolutional Neural Network)을 이용하여 주요 윤곽 영역(주요 윤곽을 포함하는 사각형 영역)들 각각에 대해 특징 데이터들을 추출한다(S140).
구체적으로, 눈코입 윤곽 영역에서 특징 데이터들을 추출하고, 얼굴 윤곽 영역에서 특징 데이터들을 추출하며, 손 윤곽 영역에서 특징 데이터들을 추출한다. 특징 추출 방법에 대해서는, 도 4를 참조하여 상세히 후술한다.
다음, S130단계에서 변환된 학습 데이터에 S140단계에서 추출한 특징 데이터를 부가하여, 학습 데이터를 확장한다(S150). 특징 데이터를 부가하는 것은 수어 인식 성능을 향상을 위한 것으로, 이는 환경과 편차에 강인한 수어 인식에 도움이 된다.
여기서, 특징 데이터의 부가는 선택적으로, 이를 테면 사용자의 설정을 기초로 이루어질 수 있다. 특징 데이터의 부가 방법에 대해서는, 도 5를 참조하여 상세히 후술한다.
이후, S150단계에서 확장된 학습 데이터를 증식(Augmentation)하여, 새로운 다양한 학습 데이터들을 생성한다(S160).
학습 데이터 증식은 학습 데이터의 양을 늘여 학습 성능을 개선하고자 하는 것으로, 제공 가능한 학습 데이터의 양이 적은 경우에 특히 유용하다. 학습 데이터 증식 방법에 대해서는, 도 6을 참조하여 상세히 후술한다.
위 과정에 의해 얻어진 학습 데이터들을 수어 인식을 위한 딥러닝 모델에 입력하여 학습 시킨다(S170).
이하에서는, 전술한 S130단계에서 수행되는 윤곽 정보를 학습 데이터로 변환하는 방법에 대해, 도 3을 참조하여 상세히 설명한다. 도 3은 윤곽 정보의 정규화 방법에 대한 상세 설명에 제공되는 도면이다.
도 3에서 Sk는 입력 영상에서 추출된 윤곽 정보들로, 이를 테면, X1은 눈코입 윤곽에 대한 윤곽 정보들을, X2는 얼굴 윤곽에 대한 윤곽 정보들을, X3은 손 윤곽에 대한 윤곽 정보들을 의미한다.
X1은 X(x)i, X1(y)i, c1,i로 구성되는데, 1≤i≤M 이며, M은 눈코입 윤곽에 포함되는 윤곽 정보들의 개수와 같고, X(x)i는 i 번째 윤곽 정보의 x 좌표, X1(y)i는 i 번째 윤곽 정보의 y 좌표, c1,i는 i 번째 윤곽 정보의 신뢰도를 의미하며, 이는 X2와 X3에 대해서도 동등하다.
한편, 도 3에서 Nk는 윤곽 정보들로부터 변환되어 생성된 학습 데이터들로, 이를 테면, n1은 눈코입 윤곽의 윤곽 정보들으로부터 생성한 학습 데이터들을, n2는 얼굴 윤곽의 윤곽 정보들으로부터 생성한 학습 데이터들을, n3은 손 윤곽의 윤곽 정보들으로부터 생성한 학습 데이터들을 의미한다.
입력 영상에서 추출된 윤곽 정보들(Sk)로부터 학습 데이터(Nk)를 생성하기 위해, X1을 구성하는 모든 x 좌표들에 대해 평균을 계산한 후 각 x 좌표들에서 평균을 빼고 표준 편차로 나누어 정규화하고, X1을 구성하는 모든 y 좌표들에 대해 평균을 계산한 후 각 y 좌표들에서 평균을 빼고 표준 편차로 나누어 정규화하며, 이 과정을 X2와 X3에 대해서도 수행한다.
다음, 정규화된 윤곽 정보의 x 좌표, y 좌표에 윤곽 정보의 신뢰도를 포함시켜 학습 데이터(Nk)로 변환한다. 여기서, 윤곽 정보의 신뢰도를 학습 데이터에 포함시키 않는 것도 가능함은 전술한 바 있다.
이하에서는, 전술한 S140단계에서 특징 데이터를 추출하는 방법에 대해, 도 4를 참조하여 상세히 설명한다. 도 4는 특징 데이터 추출 방법의 설명에 제공되는 도면이다.
학습 데이터에 부가할 특징 데이터를 생성하기 위해, 도 4에 도시된 바와 같이, 주요 윤곽 영역들 각각에서 CNN을 이용하여 특징 데이터(CNNs Feature)들을 추출한다.
구체적으로, 윤곽 정보들(Sk)를 참조하여 RGB 이미지인 입력 영상(I)에서 주요 윤곽 영역들을 설정한다. 각 주요 윤곽들에 해당하는 좌표들에서 각각 최소 x 좌표, 최대 x 좌표, 최소 y 좌표, 최대 y 좌표를 찾아내면, 이들을 연결하는 사각형으로 주요 윤곽 영역들을 설정할 수 있다.
다음, 설정된 주요 윤곽 영역들에 해당하는 이미지 영역을 Crop한 후, 이미지 처리용 딥러닝 엔진의 일종인 CNN을 이용하여 특징 데이터인 d차원의 CNN Feature 벡터를 추출한다. d는 윤곽 정보와 특징 데이터의 차원을 일치시킬 수 있는 값으로 결정한다.
이하에서는, 전술한 S150단계에서 특징 데이터를 학습데이터에 부가하는 방법에 대해, 도 5를 참조하여 상세히 설명한다. 도 5는 특징 데이터 부가 방법의 설명에 제공되는 도면이다.
도 5에는 윤곽 정보와 특징 데이터를 기반으로 학습 데이터를 확장하는 과정이 나타나 있다.
도 5에 도시된 바와 같이, 윤곽 정보(Nk) 기반의 학습 데이터에 특징 데이터(Vk×d)를 결합하여 최종 학습 데이터를 생성할 수도 있고, 특징 데이터(Vk ×d)가 결합되지 않은 윤곽 정보(Nk) 기반의 학습 데이터를 최종 학습 데이터로 이용할 수도 있다.
이하에서는, 전술한 S160단계에서 학습 데이터를 증식하는 방법에 대해, 도 6을 참조하여 상세히 설명한다. 도 6은 학습 데이터 증식 방법의 설명에 제공되는 도면이다.
도 6에서, 좌측은 입력 영상으로부터 추출한 정규화된 얼굴 윤곽을 나타내고, 우측은 좌측의 정규화된 얼굴 윤곽으로부터 증식을 통해 생성한 새로운 얼굴 윤곽을 나타낸다.
도 6에 나타난 바와 같이, 우측의 얼굴 윤곽은 좌측의 정규화된 윤곽 정보를 구성하는 정규화된 x 좌표와 정규화된 y 좌표를 랜덤하게 변경함으로써 생성되어 진다.
단, 정규화된 x 좌표와 정규화된 y 좌표가 변경될 수 있는 범위는 제한된다. 이를 테면, 얼굴 윤곽 영역, 즉 해당하는 주요 윤곽 영역을 벗어날 정도의 변경은 허용되지 않는다.
나아가, 정규화된 x 좌표와 정규화된 y 좌표는 인접한 윤곽 정보와 정해진 거리 이상 멀어지게 되는 변경도 허용되지 않는다. 지나친 변경으로 인해 정상적인 얼굴로부터 벗어나게 되는 것을 방지하기 위함이다.
도 6에서 우측에 제시된 얼굴 윤곽은 상대적으로 한쪽 눈이 크고 얼굴 내 코와 인중의 비율이 높아졌지만, 제한된 범위 내에서의 좌표 변경만이 수행되어 여전히 사람의 얼굴로 해석된다.
지금까지, 수어 자동 인식을 위한 학습 과정에 대해 상세히 설명하였다. 이후, 학습된 딥러닝 모델을 이용하여 자동 수어 인식이 수행된다.
자동 수어 인식 과정은 학습 데이터가 아닌 수어 인식 대상이 되는 영상으로부터 추출한 추론 데이터가 이용된다는 점만이 다를 뿐 구체적인 방법에 대한 주된 내용은 학습 방법에서와 동일하다.
도 7은 본 발명의 다른 실시예에 따른 수어 자동 인식 방법의 설명에 제공되는 도면이다.
수어 자동 인식을 위해, 도 7에 도시된 바와 같이, 먼저, 입력 영상에서 사람 윤곽을 추출하고, 추출된 사람 윤곽에서 수어 인식에 필요한 주요 윤곽들을 추출한다(S210).
다음, 주요 윤곽 별로 구분하여 윤곽 정보들의 좌표 정보들을 정규화하고, 윤곽 정보의 신뢰도를 학습 데이터에 포함(또는 미포함)시켜 윤곽 정보를 추론 데이터로 변환한다(S220).
그리고, CNN을 이용하여 주요 윤곽 영역들 각각에 대해 특징 데이터들을 추출하여, S220단계에서 생성된 추론 데이터에 부가함으로써 추론 데이터 확장한다(S230). S230단계는 선택적으로 수행될 수 있다.
이후, 위 과정에 의해 얻어진 추론 데이터를 수어 인식을 위한 딥러닝 모델에 입력하여 수어를 인식하고(S240), 인식된 수어를 출력한다(S250).
도 8 및 도 9에는 본 발명의 실시예에 따른 학습 방법으로 학습된 딥러닝 모델을 이용한 수어 인식 결과의 설명에 제공되는 도면이다.
본 발명의 실시예에 따른 방법으로 이용하여, 105문장, 400단어 총 11,000 비디오로 이루어진 학습 데이터로 학습을 수행하고 수어 인식을 수행한 결과, 약 92.5%의 수어 문장 인식 정확도, 약 89%의 수어 인식 정확도를 보였다. 일반적인 기술의 정확도가 약 80%인 것과 비교하면, 본 발명의 실시예에 따른 방법은 높은 성능과 확장성 및 안정성을 갖고 있는 것으로 볼 수 있다.
도 10은 본 발명의 다른 실시예에 따른 자동 수어 인식 시스템의 블럭도이다. 본 발명의 다른 실시예에 따른 자동 수어 인식 시스템은, 도 10에 도시된 바와 같이, 통신부(310), 출력부(320), 프로세서(330), 입력부(340) 및 저장부(350)를 포함하는 컴퓨팅 시스템으로 구현할 수 있다.
통신부(310)는 외부 기기와 외부 네트워크로부터 학습 대상이 되는 수어 동영상 및 수어 데이터와 인식 대상이 되는 인식 동영상을 입력받기 위한 통신 수단이다.
입력부(340)는 사용자 설정 명령을 입력받기 위한 입력 수단이고, 출력부(320)는 학습/수어 동영상 및 자동 수어 인식 과정과 결과를 표시하기 위한 디스플레이이다.
프로세서(330)는 도 1에 도시된 방법을 실행하여 자동 수어 인식을 위한 학습 과정을 수행하고, 도 7에 도시된 방법을 실행하여 자동 수어 인식 과정을 수행한다.
저장부(350)는 프로세서(330)가 동작함에 있어 필요한 저장 공간을 제공한다.
지금까지, 자동 수어 인식 방법 및 시스템에 대해 바람직한 실시예를 들어 상세히 설명하었다.
본 발명의 실시예에서는, 적은 학습 데이터를 이용하면서도 환경과 조건에 영향을 받지 않는 강인한 고성능의 제스처(수어 등) 자동 인식 방법 및 시스템을 제시하였다.
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
310 : 통신부
320 : 출력부
330 : 프로세서
340 : 입력부
350 : 저장부

Claims (18)

  1. 제스처 인식 시스템이, 입력 영상에서 다수의 윤곽들을 추출하는 단계;
    제스처 인식 시스템이, 윤곽들 각각을 구성하는 윤곽 정보들을 정규화하여, 학습 데이터들을 생성하는 단계;
    제스처 인식 시스템이, 생성된 학습 데이터들을 이용하여, 제스처 인식을 위한 인공지능 모델을 학습시키는 단계;를 포함하고,
    윤곽들은,
    중첩 가능한 것을 특징으로 하는 학습 방법.
  2. 삭제
  3. 청구항 1에 있어서,
    윤곽 정보들은,
    윤곽을 도출하기 위해 추출한 특징점들에 대한 정보들인 것을 특징으로 하는 학습 방법.
  4. 제스처 인식 시스템이, 입력 영상에서 다수의 윤곽들을 추출하는 단계;
    제스처 인식 시스템이, 윤곽들 각각을 구성하는 윤곽 정보들을 정규화하여, 학습 데이터들을 생성하는 단계;
    제스처 인식 시스템이, 생성된 학습 데이터들을 이용하여, 제스처 인식을 위한 인공지능 모델을 학습시키는 단계;를 포함하고,
    윤곽들은,
    중첩 가능하며,
    윤곽 정보들은,
    윤곽을 도출하기 위해 추출한 특징점들에 대한 정보들이고,
    특징점들에 대한 정보들은,
    특징점들의 좌표 정보들을 포함하는 것을 특징으로 하는 학습 방법.
  5. 청구항 4에 있어서,
    학습 데이터 생성단계는,
    윤곽 별로, 윤곽을 구성하는 윤곽 정보들의 좌표 정보들에 대한 평균과 표준 편차를 이용한 연산으로, 윤곽 정보들을 정규화하는 것을 특징으로 하는 학습 방법.
  6. 제스처 인식 시스템이, 입력 영상에서 다수의 윤곽들을 추출하는 단계;
    제스처 인식 시스템이, 윤곽들 각각을 구성하는 윤곽 정보들을 정규화하여, 학습 데이터들을 생성하는 단계;
    제스처 인식 시스템이, 생성된 학습 데이터들을 이용하여, 제스처 인식을 위한 인공지능 모델을 학습시키는 단계;를 포함하고,
    윤곽들은,
    중첩 가능하며,
    학습 데이터 생성단계는,
    정규화된 좌표 정보들에 윤곽 정보들의 신뢰도 정보들을 각각 포함시켜, 학습 데이터들을 생성하는 것을 특징으로 하는 학습 방법.
  7. 학습 방법에 있어서,
    제스처 인식 시스템이, 입력 영상에서 다수의 윤곽들을 추출하는 단계;
    제스처 인식 시스템이, 윤곽들 각각을 구성하는 윤곽 정보들을 정규화하여, 학습 데이터들을 생성하는 단계;
    제스처 인식 시스템이, 생성된 학습 데이터들을 이용하여, 제스처 인식을 위한 인공지능 모델을 학습시키는 단계;를 포함하고,
    윤곽들은,
    중첩 가능하며,
    학습 방법은,
    제스처 인식 시스템이, 윤곽들을 포함하는 영역들 각각에서 특징 데이터들을 추출하는 단계; 및
    제스처 인식 시스템이, 추출한 특징 데이터들을 생성된 학습 데이터들에 각각 부가하는 단계;를 더 포함하고,
    학습 단계는,
    특징 데이터들이 부가된 학습 데이터들을 이용하여, 인공지능 모델을 학습시키는 것을 특징으로 하는 학습 방법.
  8. 청구항 7에 있어서,
    추출 단계는,
    신경망을 이용하여 특징 데이터들을 추출하는 것을 특징으로 하는 학습 방법.
  9. 청구항 7에 있어서,
    특징 데이터들의 차원은,
    윤곽 정보들의 차원과 일치하는 것을 특징으로 하는 학습 방법.
  10. 청구항 1에 있어서,
    제스처 인식 시스템이, 생성된 학습 데이터들을 증식시키는 단계;를 더 포함하고,
    학습 단계는,
    증식된 학습 데이터들을 이용하여, 인공지능 모델을 학습시키는 것을 특징으로 하는 학습 방법.
  11. 청구항 10에 있어서,
    증식 단계는,
    학습 데이터를 구성하는 정규화된 윤곽 정보를 랜덤하게 변경하여, 학습 데이터를 추가로 생성하는 것을 특징으로 하는 학습 방법.
  12. 청구항 11에 있어서,
    증식 단계는,
    정규화된 윤곽 정보를 제한된 범위 내에서 변경시키는 것을 특징으로 하는 학습 방법.
  13. 청구항 12에 있어서,
    제한된 범위는,
    윤곽 정보가 포함된 윤곽 영역인 것을 특징으로 하는 학습 방법.
  14. 청구항 13에 있어서,
    제한된 범위는,
    윤곽 정보로부터 다른 윤곽 정보까지의 제한된 거리인 것을 특징으로 하는 학습 방법.
  15. 영상을 입력받는 입력부;
    입력부를 통해 입력된 영상에서 다수의 윤곽들을 추출하고, 윤곽들 각각을 구성하는 윤곽 정보들을 정규화하여 학습 데이터들을 생성하며, 생성된 학습 데이터들을 이용하여 제스처 인식을 위한 인공지능 모델을 학습시키는 프로세서;를 포함하고,
    윤곽들은,
    중첩 가능한 것을 특징으로 하는 제스처 인식 시스템.
  16. 제스처 인식 시스템이, 입력 영상에서 다수의 윤곽들을 추출하는 단계;
    제스처 인식 시스템이, 윤곽들 각각을 구성하는 윤곽 정보들을 정규화하여, 추론 데이터들을 생성하는 단계;
    제스처 인식 시스템이, 생성된 추론 데이터들을 제스처 인식을 위한 인공지능 모델에 입력하여, 제스처를 인식하는 단계;를 포함하고,
    윤곽들은,
    중첩 가능한 것을 특징으로 하는 제스처 인식 방법.
  17. 영상을 입력받는 입력부;
    입력부를 통해 입력된 영상에서 다수의 윤곽들을 추출하고, 윤곽들 각각을 구성하는 윤곽 정보들을 정규화하여 추론 데이터들을 생성하며, 생성된 추론 데이터들을 제스처 인식을 위한 인공지능 모델에 입력하여 제스처를 인식하는 프로세서;를 포함하고,
    윤곽들은,
    중첩 가능한 것을 특징으로 하는 제스처 인식 시스템.
  18. 입력 영상에서 다수의 윤곽들을 추출하는 단계;
    윤곽들 각각을 구성하는 윤곽 정보들을 정규화하여, 학습 데이터들을 생성하는 단계;
    생성된 학습 데이터들을 이용하여, 제스처 인식을 위한 인공지능 모델을 학습시키는 단계;를 포함하고,
    윤곽들은,
    중첩 가능한 것을 특징으로 하는 학습 방법을 수행할 수 있는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.
KR1020180075133A 2018-06-29 2018-06-29 딥러닝 기반 제스처 자동 인식 방법 및 시스템 KR102121654B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180075133A KR102121654B1 (ko) 2018-06-29 2018-06-29 딥러닝 기반 제스처 자동 인식 방법 및 시스템
US16/147,962 US10846568B2 (en) 2018-06-29 2018-10-01 Deep learning-based automatic gesture recognition method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180075133A KR102121654B1 (ko) 2018-06-29 2018-06-29 딥러닝 기반 제스처 자동 인식 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20200010650A KR20200010650A (ko) 2020-01-31
KR102121654B1 true KR102121654B1 (ko) 2020-06-10

Family

ID=69055254

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180075133A KR102121654B1 (ko) 2018-06-29 2018-06-29 딥러닝 기반 제스처 자동 인식 방법 및 시스템

Country Status (2)

Country Link
US (1) US10846568B2 (ko)
KR (1) KR102121654B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220153929A (ko) 2021-05-12 2022-11-21 인하대학교 산학협력단 동영상 중 실시간 손동작 인식을 위한 tsn 기반의 딥러닝 방법 및 장치
KR20230142258A (ko) 2022-04-01 2023-10-11 한국생산기술연구원 비전 인공지능 기반 수신호 인식 장치 및 이를 이용한 수신호 인식 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102275567B1 (ko) * 2020-09-25 2021-07-09 한국산업기술시험원 공공 데이터 활용 및 데이터 증식을 통한 이상치 탐색이 가능한 딥러닝 기반 공공장소 관제 및 방재 시스템
CN113255561B (zh) * 2021-06-10 2021-11-02 平安科技(深圳)有限公司 头发信息识别方法、装置、设备及存储介质
CN116098536A (zh) * 2021-11-08 2023-05-12 青岛海尔科技有限公司 一种机器人控制方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014159726A1 (en) * 2013-03-13 2014-10-02 Mecommerce, Inc. Determining dimension of target object in an image using reference object
US9552530B2 (en) * 2013-11-15 2017-01-24 Samsung Electronics Co., Ltd. Method and system to detect objects in multimedia using non-textural information within segmented region
RU2014108820A (ru) * 2014-03-06 2015-09-20 ЭлЭсАй Корпорейшн Процессор изображений, содержащий систему распознавания жестов с функциональными возможностями обнаружения и отслеживания пальцев
RU2014111793A (ru) * 2014-03-27 2015-10-10 ЭлЭсАй Корпорейшн Процессор обработки изображений с распознаванием статических поз руки с использованием триангуляции и сглаживания контуров
US9646201B1 (en) * 2014-06-05 2017-05-09 Leap Motion, Inc. Three dimensional (3D) modeling of a complex control object
US20160026857A1 (en) * 2014-07-23 2016-01-28 Lsi Corporation Image processor comprising gesture recognition system with static hand pose recognition based on dynamic warping
KR102459487B1 (ko) * 2017-11-03 2022-10-26 주식회사 케이티 컨볼루션 신경망에 기반한 제스처 분류장치 및 방법
US10909372B2 (en) * 2018-05-28 2021-02-02 Microsoft Technology Licensing, Llc Assistive device for the visually-impaired

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Pei Xu. A Real_time Hand Gesture Recognition and Human-Computer Interaction System. 2017.04.24.
Taeyoung, Kim. 컨볼루션 신경망 모델을 위한 데이터 부풀리기. 2017.06.10.
Yassine Alouini. What are the most common data normalization methods used in machine learning?. 2017.03.16.
문현철 외 2명. 웨어러블 응용을 위한 CNN 기반 손 제스처 인식. 2018년 3월

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220153929A (ko) 2021-05-12 2022-11-21 인하대학교 산학협력단 동영상 중 실시간 손동작 인식을 위한 tsn 기반의 딥러닝 방법 및 장치
KR20230142258A (ko) 2022-04-01 2023-10-11 한국생산기술연구원 비전 인공지능 기반 수신호 인식 장치 및 이를 이용한 수신호 인식 방법

Also Published As

Publication number Publication date
KR20200010650A (ko) 2020-01-31
US20200005086A1 (en) 2020-01-02
US10846568B2 (en) 2020-11-24

Similar Documents

Publication Publication Date Title
KR102121654B1 (ko) 딥러닝 기반 제스처 자동 인식 방법 및 시스템
CN109359538B (zh) 卷积神经网络的训练方法、手势识别方法、装置及设备
US20220180202A1 (en) Text processing model training method, and text processing method and apparatus
US20210174072A1 (en) Microexpression-based image recognition method and apparatus, and related device
KR102124466B1 (ko) 웹툰 제작을 위한 콘티를 생성하는 장치 및 방법
US11783615B2 (en) Systems and methods for language driven gesture understanding
WO2020078017A1 (zh) 用于识别空中手写的方法、装置、设备以及计算机可读存储介质
US11144800B2 (en) Image disambiguation method and apparatus, storage medium, and electronic device
EP3174012A1 (en) Locating and tracking fingernails in images
WO2020059527A1 (ja) フォント作成装置、フォント作成方法及びフォント作成プログラム
KR102530516B1 (ko) 자동 수어 인식 방법 및 시스템
Elpeltagy et al. Multi‐modality‐based Arabic sign language recognition
WO2018000270A1 (zh) 一种基于用户画像的个性化回答生成方法及系统
WO2023284608A1 (zh) 字符识别模型生成方法、装置、计算机设备和存储介质
Lahoti et al. Android based american sign language recognition system with skin segmentation and SVM
Wang et al. AAN-face: attention augmented networks for face recognition
Hai et al. Automatic feature extraction for Vietnamese sign language recognition using support vector machine
Karappa et al. Detection of sign-language content in video through polar motion profiles
US9342152B2 (en) Signal processing device and signal processing method
Herath et al. Image based sign language recognition system for Sinhala sign language
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
Kamat et al. MonVoix-An Android Application for hearing impaired people
CN115588227A (zh) 情绪识别方法、装置、电子设备和存储介质
KR20210157052A (ko) 객체 인식 방법 및 객체 인식 장치
Petkar et al. Real Time Sign Language Recognition System for Hearing and Speech Impaired People

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant