KR102624226B1 - 수어의 형태소 단위 분할 방법, 형태소 위치 예측 방법 및 데이터 증강 방법 - Google Patents

수어의 형태소 단위 분할 방법, 형태소 위치 예측 방법 및 데이터 증강 방법 Download PDF

Info

Publication number
KR102624226B1
KR102624226B1 KR1020210084889A KR20210084889A KR102624226B1 KR 102624226 B1 KR102624226 B1 KR 102624226B1 KR 1020210084889 A KR1020210084889 A KR 1020210084889A KR 20210084889 A KR20210084889 A KR 20210084889A KR 102624226 B1 KR102624226 B1 KR 102624226B1
Authority
KR
South Korea
Prior art keywords
sign language
morphemes
morpheme
key points
learning
Prior art date
Application number
KR1020210084889A
Other languages
English (en)
Other versions
KR20230001839A (ko
Inventor
박한무
김창조
장진예
정윤영
신사임
Original Assignee
한국전자기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자기술연구원 filed Critical 한국전자기술연구원
Priority to KR1020210084889A priority Critical patent/KR102624226B1/ko
Priority to PCT/KR2022/008665 priority patent/WO2023277421A1/ko
Publication of KR20230001839A publication Critical patent/KR20230001839A/ko
Application granted granted Critical
Publication of KR102624226B1 publication Critical patent/KR102624226B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

수어의 형태소 단위 분할 방법, 형태소 위치 예측 방법 및 데이터 증강 방법이 제공된다. 본 발명의 실시예에 따른 수어 분석 시스템은, 수어 동영상에서 화자의 키포인트들을 인식하는 인식부 및 인식된 키포인트들을 인공지능 모델에 입력하여, 수어를 형태소 단위로 분할하고 분할된 형태소의 위치 정보를 예측하는 예측부를 포함한다. 이에 의해, 골격 모델 기반으로 프레임 단위로 수어 동영상의 형태소를 인식하여, 수어를 형태소 단위로 분할하고 형태소 위치를 예측함으로써, 정확한 수어 번역의 토대를 마련할 수 있게 된다.

Description

수어의 형태소 단위 분할 방법, 형태소 위치 예측 방법 및 데이터 증강 방법{Method for morpheme segmentation in sign language, morpheme position prediction, and data augmentation}
본 발명은 인공지능 관련 기술에 관한 것으로, 더욱 상세하게는 인공지능 모델을 이용하여 수어 동영상에서 수어를 형태소 단위로 분할하고, 분할된 형태소들이 위치하는 프레임들을 예측하는 방법에 관한 것이다.
수어는 청인과 농인이 서로 의사소통을 위해 사용되는 언어이다. 인공지능 기술의 비약적인 발전은 수어 동영상으로부터 자동으로 수어를 인식하는 것을 가능하게 하였다.
높은 성능의 수어 번역 모델을 만들기 위해서는 대량의 수어 데이터가 필요로 한다. 수어에서 한국어로 번역하는 학습 기반 모델에는 많은 데이터가 필수적이지만 데이터 구축 자원이 제한되어 있고 많은 시간과 비용이 발생하게 된다. 제한된 수어 데이터로 인해 수어 번역 모델이 한국어로 번역할 수 있는 수어는 제한적이고 구축된 데이터에 매우 의존적이다.
또한 기존 방법에서 수어 영상을 수어 형태소에 해당하는 한국어 단어들의 나열로 예측하는 방법은 존재하나, 수어 영상에서 형태소들이 각각 어느 구간에서 발생하는지 예측하지 못하고 있다. 이는 수어 번역의 정확도를 떨어뜨리는 요인이 된다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 골격 모델 기반으로 프레임 단위로 수어 동영상의 형태소를 인식하며, 수어를 형태소 단위로 분할하고 형태소의 위치를 예측하며, 예측 결과로 획득한 형태소들을 조합하여 학습용 수어 데이터를 증강시키는 방법 및 시스템을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 수어 분석 시스템은, 수어 동영상에서 화자의 키포인트들을 인식하는 인식부; 및 인식된 키포인트들을 인공지능 모델에 입력하여, 수어를 형태소 단위로 분할하고 분할된 형태소의 위치 정보를 예측하는 예측부;를 포함한다.
인식부는, 수어 동영상에서 프레임 단위로 화자의 키포인트들을 인식하고, 예측부는, 형태소들의 위치 정보들을 프레임 단위로 예측할 수 있다.
형태소의 위치 정보는, 수어 동영상을 구성하는 프레임들 중 형태소가 위치하는 프레임들에 대한 정보일 수 있다.
키포인트들은, 화자의 몸과 손의 관절 정보 및 화자의 얼굴 표정 정보를 포함할 수 있다.
인공지능 모델은 프레임 단위로 키포인트들을 입력 받아, 현재 프레임이 어느 형태소에 해당하는지 예측하여 출력할 수 있다.
그리고, 본 발명의 실시예에 따른 수어 분석 시스템은, 학습용 수어 동영상에서 화자의 키포인트들을 인식하고, 인식된 키포인트들과 학습용 수어 동영상의 형태소 정보를 이용하여, 인공지능 모델을 학습시키는 학습부;를 더 포함할 수 있다.
본 발명의 실시예에 따른 수어 분석 시스템은, 예측부에서 출력되는 형태소들을 조합하여 학습 데이터를 증강하는 증강부;를 더 포함할 수 있다.
그리고, 증강부는, 형태소들의 순서를 바꾸어 학습 데이터를 증강할 수 있다.
또한, 증강부는, 형태소들 중 일부를 삭제하여 학습 데이터를 증강할 수 있다.
한편, 본 발명의 다른 실시예에 따른, 수어 분석 방법은, 수어 동영상에서 화자의 키포인트들을 인식하는 단계; 및 인식된 키포인트들을 인공지능 모델에 입력하여, 수어를 형태소 단위로 분할하고 분할된 형태소의 위치 정보를 예측하는 단계;를 포함한다.
한편, 본 발명의 다른 실시예에 따른, 수어 분석 시스템은, 학습용 수어 동영상에서 화자의 키포인트들을 인식하고, 인식된 키포인트들과 학습용 수어 동영상의 형태소 정보를 이용하여, 인공지능 모델을 학습시키는 학습부; 및 수어 동영상에서 화자의 키포인트들을 인식하고, 인식된 키포인트들을 학습부에 의해 학습된 인공지능 모델에 입력하여, 수어를 형태소 단위로 분할하고 분할된 형태소의 위치 정보를 예측하는 예측부;를 포함한다.
한편, 본 발명의 다른 실시예에 따른, 수어 분석 방법은, 학습용 수어 동영상에서 화자의 키포인트들을 인식하고, 인식된 키포인트들과 학습용 수어 동영상의 형태소 정보를 이용하여, 인공지능 모델을 학습시키는 단계; 및 수어 동영상에서 화자의 키포인트들을 인식하고, 인식된 키포인트들을 학습 단계에 의해 학습된 인공지능 모델에 입력하여, 수어를 형태소 단위로 분할하고 분할된 형태소의 위치 정보를 예측하는 단계;를 포함한다.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 골격 모델 기반으로 프레임 단위로 수어 동영상의 형태소를 인식하여, 수어를 형태소 단위로 분할하고 형태소 위치를 예측함으로써, 정확한 수어 번역의 토대를 마련할 수 있게 된다.
또한, 본 발명의 실시예들에 따르면, 예측된 형태소들을 다양하게 조합하여 학습용 수어 데이터를 증강시킴으로써, 수어 인식 모델의 학습을 강화하여 예측 정확도를 더욱 높일 수 있게 된다.
도 1은 본 발명의 일 실시예에 따른 인공지능 기반 수어 분석 시스템의 블럭도,
도 2는, 도 1에 도시된 학습부에 마련된 인식부의 블럭도,
도 3은 키포인트 추출 결과를 예시한 도면,
도 4는, 학습부에 마련된 모델 생성부의 블럭도,
도 5는 프레임 단위 형태소 인식 네트워크의 세부 구성을 나타낸 도면,
도 6은 단위 형태소 인식 네트워크에 의한 프레임 단위 형태소 위치 인식 결과를 예시한 도면,
도 7은, 도 1에 도시된 추론부에 마련된 인식부의 블럭도,
도 8은, 도 1에 도시된 예측/증강부의 블럭도,
도 9는 형태소 조합 데이터 증강 모듈에 의한 학습 데이터 증강을 예시한 도면, 그리고,
도 10은, 도 1에 도시된 인공지능 기반 수어 분석 시스템을 구현할 수 있는 하드웨어 구조를 도시한 도면이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
본 발명의 실시예에서는 인공지능 모델을 이용하여 수어 동영상에서 수어를 형태소 단위로 분할하고, 분할된 형태소들이 위치하는 프레임들을 예측하며, 인공지능 모델의 학습 데이터를 증강하는 방법을 제시한다.
수어는 화자의 몸과 손의 위치와 움직임, 손가락의 모양, 얼굴 표정에 따라 의미가 달라진다. 이에 본 발명의 실시예에서는, 화자의 관절 정보와 얼굴 표정을 기초로 수어를 인식한다.
수어는 한국어의 문법 체계와는 다르지만, 하나의 수어 문장을 구성하는 형태소들이 존재한다. 이에 본 발명의 실시예에서는, 수어를 형태소 단위로 분할하고, 형태소의 위치를 프레임 단위로 예측한다.
나아가, 본 발명의 실시예에서는 예측 결과로 획득한 형태소들 다양하게 조합하여 학습 데이터의 증강에 활용한다.
도 1은 본 발명의 일 실시예에 따른 인공지능 기반 수어 분석 시스템의 블럭도이다. 본 발명의 실시예에 따른 수어 분석 시스템은, 학습부(100)와 추론부(200)를 포함하여 구성된다.
학습부(100)는 수어를 분석할 인공지능 모델을 학습시키기 위한 구성으로, 인식부(110)와 모델 생성부(120)를 포함하여 구성된다.
인식부(110)는 학습용 수어 동영상으로부터 프레임 단위로 수어를 하는 사람인 화자의 몸과 손의 관절 정보 및 얼굴 표정 정보를 인식한다.
모델 생성부(120)는 인식부(110)에서 인식한 정보에 기반하여 수어를 형태소 단위로 분할하고, 분할된 형태소들의 위치 정보들을 프레임 단위로 예측하는 인공지능 모델을 학습시킨다.
추론부(200)는 모델 생성부(120)에 의해 학습된 인공지능 모델을 이용하여, 추론할 수어 동영상에서 수어를 분석하고, 분석된 수어 데이터를 기초로 학습 데이터를 증강한다. 추론부(200)는 인식부(210)와 예측/증강부(220)를 포함하여 구성된다.
인식부(210)는 추론할 수어 동영상으로부터 프레임 단위로 화자의 몸과 손의 관절 정보 및 얼굴 표정 정보를 인식한다.
예측/증강부(220)는 인식부(210)에서 인식한 정보에 기반하여, 모델 생성부(120)에 의해 학습된 인공지능 모델을 이용하여, 수어를 형태소 단위로 분할하고, 분할된 형태소들의 위치 정보들을 프레임 단위로 예측한다.
또한, 예측/증강부(220)는 예측 결과로 획득한 형태소들을 다양하게 조합하여 학습 데이터를 증강시킨다.
도 2는, 도 1에 도시된 학습부(100)에 마련된 인식부(110)의 블럭도이다. 도시된 바와 같이, 인식부(110)는 학습용 수어 데이터베이스(111)와 키포인트 추출 모듈(112)을 포함하여 구성된다.
학습용 수어 데이터베이스(111)는 학습용 수어 동영상들이 저장되어 있고, 동영상들에 대한 형태소 위치 정보가 어노테이션(라벨)으로 저장되어 있는 데이터베이스이다.
키포인트 추출 모듈(112)은 학습용 수어 데이터베이스(111)에 저장된 학습용 수어 동영상를 입력으로 받아 화자의 화자의 몸과 손의 관절 정보 및 얼굴 표정 정보를 키포인트들로 추출한다.
키포인트 추출을 통해, 화자의 동작이나 표정 외에 영상 프레임 안에 있을 수 있는 모든 불필요한 요소들이 제거된다. 도 3에는 키포인트 추출 결과를 예시하였다. 도시된 바와 같이, 화자의 몸, 손, 얼굴에서 키포인트들의 위치 정보들을 얻을 수 있다. 도 3에서 원으로 표시된 위치들이 추출되는 키포인트들이고, 선들은 형태를 알아보기 쉽게 편의상 그려 놓은 것으로 키포인트들에 해당하지 않는다.
도 4는, 도 1에 도시된 학습부(100)에 마련된 모델 생성부(120)의 블럭도이다. 도시된 바와 같이, 모델 생성부(120)는 데이터 정규화 모듈(121)과 프레임 단위 형태소 인식 네트워크(122)를 포함하여 구성된다.
데이터 정규화 모듈(121)은 키포인트 추출 모듈(112)에 의해 추출된 키포인트들을 정규화한다. 사람 마다 체형과 영상 내 위치가 다를 수 있기 때문에 데이터를 정규화하고, 정규화된 키포인트들을 프레임 단위 형태소 인식 네트워크(122)의 의 입력 데이터로 이용한다.
프레임 단위 형태소 인식 네트워크(122)는 정규화된 키포인트들을 입력으로 하여 수어를 형태소 단위로 분할하고, 분할된 형태소들의 위치 정보들을 프레임 단위로 예측하는 인공지능 모델이다.
도 5에는 프레임 단위 형태소 인식 네트워크(122)의 세부 구성을 나타내었다. 도시된 바와 같이, 단위 형태소 인식 네트워크(122)는 프레임 단위로 정규화된 키포인트들을 입력받아 프레임 단위로 형태소를 인식하는, 즉, 현재 프레임이 어느 형태소에 해당하는지 인식하는 네트워크인 것이다.
도 6에는 단위 형태소 인식 네트워크(122)에 의한 프레임 단위 형태소 위치 인식 결과를 예시하였다. 도시된 바와 같이, 단위 형태소 인식 네트워크(122)는 수어를 구성하는 형태소가 어느 프레임들에 위치하는지, 즉, 동영상을 구성하는 각 프레임이 어느 형태소를 나타내는 프레임인지 인식하여, 그 결과를 제공한다.
프레임 단위 형태소 인식 네트워크(122)는 예측 결과와 학습용 수어 데이터베이스(111)에 저장된 해당 수어 동영상에 대한 형태소 위치 정보의 손실(loss)이 최소가 되는 방향으로 학습된다.
도 7은, 도 1에 도시된 추론부(200)에 마련된 인식부(210)의 블럭도이다. 도시된 바와 같이, 인식부(210)는 새로운 수어 영상 획득 모듈(211)과 키포인트 추출 모듈(212)를 포함하여 구성된다.
수어 영상 획득 모듈(211)는 새로운 수어 동영상 즉, 추론할 수어 동영상을 획득하여 키포인트 추출 모듈(212)에 입력시킨다.
키포인트 추출 모듈(212)은 입력되는 수어 동영상으로부터 화자의 화자의 몸과 손의 관절 정보 및 얼굴 표정 정보를 키포인트들로 추출한다. 키포인트 추출 모듈(212)의 세부 기능은 학습부(100)의 키포인트 추출 모듈(112)의 세부 기능과 동일하다.
도 8은, 도 1에 도시된 예측/증강부(220)의 블럭도이다. 도시된 바와 같이, 예측/증강부(220)는 데이터 정규화 모듈(221)과 프레임 단위 형태소 인식 네트워크(222) 및 형태소 조합 데이터 증강 모듈(223)을 포함하여 구성된다.
데이터 정규화 모듈(221)은 키포인트 추출 모듈(212)에 의해 추출된 키포인트들을 정규화한다. 정규화된 키포인트들을 프레임 단위 형태소 인식 네트워크(222)의 입력 데이터로 이용한다.
프레임 단위 형태소 인식 네트워크(222)는 모델 생성부(120)에 의해 학습된 프레임 단위 형태소 인식 네트워크(122)이다. 프레임 단위 형태소 인식 네트워크(222)는 데이터 정규화 모듈(221)에 의해 정규화된 키포인트들을 입력으로 하여 수어를 형태소 단위로 분할하고, 분할된 형태소들의 위치 정보들을 프레임 단위로 예측한다.
형태소 조합 데이터 증강 모듈(223)은 프레임 단위 형태소 인식 네트워크(222)의 예측 결과로 획득한 형태소들을 다양하게 조합하여 학습 데이터를 증강시킨다.
도 9에는 형태소 조합 데이터 증강 모듈(223)에 의한 학습 데이터 증강을 예시하였다. "은행은 어디에 있습니까"라는 한국어 문장은 수어로 표현 시 ["은행", "어디", "곳"]이라는 수어 형태소로 구성된다.
학습용 수어 데이터베이스(111)에 이런 순서로 표현된 수어 동영상이 있고, 이 학습 데이터로 프레임 단위 형태소 인식 네트워크(222)를 학습시켰다면, ["은행", "어디", "곳"]의 순서로 된 수어 영상을 제대로 추론할 것이다.
하지만, 수어를 행하는 사람에 따라서 ["은행", "곳", "어디"]로 형태소 순서를 바꿔서 수어 동작을 하기도 하고, 때로는 ["은행", "곳"]으로 표현해 형태소를 생략하기도 한다. 강건한 수어 인식 모델을 구성하기 위해서는 학습용 수어 데이터베이스(111)에 존재하지 않는 유의미한 형태소 조합의 필요성이 있다.
이에 따라, 형태소 조합 데이터 증강 모듈(223)은 프레임별 형태소의 의미와 형태소의 위치를 인식한 결과로부터 형태소 단위 수어 영상 프레임들의 조합을 통해 데이터 증강을 할 수 있다.
도 9에는, ["은행", "어디", "곳"]으로부터, 1) ["은행", "곳", "어디"]의 순서로 된 수어 동영상, ["은행", "곳"]의 순서로 된 수어 동영상, ["은행", "어디"]의 순서로 된 수어 동영상을 증강한 예를 나타내었다.
증강된 수어 동영상들은 형태소의 위치 정보를 어노테이션으로 하여 학습용 수어 데이터베이스(111)에 저장되어, 학습 데이터로 활용된다.
도 10은, 도 1에 도시된 인공지능 기반 수어 분석 시스템을 구현할 수 있는 하드웨어 구조를 도시한 도면이다.
본 발명의 실시예에 따른 시스템은, 도시된 바와 같이, 통신부(310), 출력부(320), 프로세서(330), 입력부(330) 및 저장부(350)를 포함하여 구축되는 컴퓨팅 시스템으로 구현 가능하다.
통신부(310)는 외부 기기와 통신하고 외부 네트워크에 액세스 하기 위한 통신 수단이다. 출력부(320)는 프로세서(330)의 실행 결과를 표시하는 디스플레이이고, 입력부(330)는 사용자 명령을 프로세서(330)로 전달하는 사용자 입력 수단이다.
프로세서(330)는 도 1에 도시된 인공지능 기반 수어 분석 시스템의 기능들을 수행하기 위한 구성으로, 다수의 GPU(Graphics Processing Unit)들과 CPU(Central Processing Unit)를 포함한다.
저장부(350)는 프로세서(330)가 동작하고 기능함에 있어 필요한 저장 공간을 제공한다.
지금까지, 수어의 형태소 단위 분할 방법, 형태소 위치 예측 방법 및 데이터 증강 방법에 대해 바람직한 실시예를 들어 상세히 설명하였다.
위 실시예에서는, 골격 모델 기반으로 프레임 단위로 수어 동영상의 형태소를 인식하여, 수어를 형태소 단위로 분할하고 형태소 위치를 예측함으로써 정확한 수어 번역의 토대를 마련하여 준다.
또한, 예측된 형태소들을 다양하게 조합하여 학습용 수어 데이터를 증강시킴으로써, 수어 인식 모델의 학습을 강화하여 예측 정확도가 더욱 높아질 수 있도록 하였다.
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100 : 학습부
110,210 : 인식부
120 : 모델 생성부
111 : 학습용 수어 데이터베이스
112,212 : 키포인트 추출 모듈
121,221 : 데이터 정규화 모듈
122,222 : 프레임 단위 형태소 인식 네트워크
200 : 추론부
211 : 새로운 수어 영상 획득 모듈
220 : 예측/증강부
223 : 형태소 조합 데이터 증강 모듈

Claims (12)

  1. 수어 동영상에서 화자의 키포인트들을 인식하는 인식부;
    인식된 키포인트들을 인공지능 모델에 입력하여, 수어를 형태소 단위로 분할하고 분할된 형태소의 위치 정보를 예측하는 예측부;를 포함하고,
    예측부는,
    형태소들의 위치 정보들을 프레임 단위로 예측하며,
    형태소의 위치 정보는,
    수어 동영상을 구성하는 프레임들 중 형태소가 위치하는 프레임들에 대한 정보인 것을 특징으로 하는 수어 분석 시스템.
  2. 청구항 1에 있어서,
    인식부는,
    수어 동영상에서 프레임 단위로 화자의 키포인트들을 인식하는 것을 특징으로 하는 수어 분석 시스템.
  3. 삭제
  4. 청구항 2에 있어서,
    키포인트들은,
    화자의 몸과 손의 관절 정보 및 화자의 얼굴 표정 정보를 포함하는 것을 특징으로 하는 수어 분석 시스템.
  5. 청구항 1에 있어서,
    인공지능 모델은
    프레임 단위로 키포인트들을 입력 받아, 현재 프레임이 어느 형태소에 해당하는지 예측하여 출력하는 것을 특징으로 하는 수어 분석 시스템.
  6. 청구항 1에 있어서,
    학습용 수어 동영상에서 화자의 키포인트들을 인식하고, 인식된 키포인트들과 학습용 수어 동영상의 형태소 정보를 이용하여, 인공지능 모델을 학습시키는 학습부;를 포함하는 것을 특징으로 하는 수어 분석 시스템.
  7. 청구항 1에 있어서,
    예측부에서 출력되는 형태소들을 조합하여 학습 데이터를 증강하는 증강부;를 더 포함하는 것을 특징으로 하는 수어 분석 시스템.
  8. 청구항 7에 있어서,
    증강부는,
    형태소들의 순서를 바꾸어 학습 데이터를 증강하는 것을 특징으로 하는 수어 분석 시스템.
  9. 청구항 7에 있어서,
    증강부는,
    형태소들 중 일부를 삭제하여 학습 데이터를 증강하는 것을 특징으로 하는 수어 분석 시스템.
  10. 수어 동영상에서 화자의 키포인트들을 인식하는 단계; 및
    인식된 키포인트들을 인공지능 모델에 입력하여, 수어를 형태소 단위로 분할하고 분할된 형태소의 위치 정보를 예측하는 단계;를 포함하고,
    예측 단계는,
    형태소들의 위치 정보들을 프레임 단위로 예측하며,
    형태소의 위치 정보는,
    수어 동영상을 구성하는 프레임들 중 형태소가 위치하는 프레임들에 대한 정보인 것을 특징으로 하는 수어 분석 방법.
  11. 학습용 수어 동영상에서 화자의 키포인트들을 인식하고, 인식된 키포인트들과 학습용 수어 동영상의 형태소 정보를 이용하여, 인공지능 모델을 학습시키는 학습부; 및
    수어 동영상에서 화자의 키포인트들을 인식하고, 인식된 키포인트들을 학습부에 의해 학습된 인공지능 모델에 입력하여, 수어를 형태소 단위로 분할하고 분할된 형태소의 위치 정보를 예측하는 예측부;를 포함하고,
    예측부는,
    형태소들의 위치 정보들을 프레임 단위로 예측하며,
    형태소의 위치 정보는,
    수어 동영상을 구성하는 프레임들 중 형태소가 위치하는 프레임들에 대한 정보인 것을 특징으로 하는 수어 분석 시스템.
  12. 학습용 수어 동영상에서 화자의 키포인트들을 인식하고, 인식된 키포인트들과 학습용 수어 동영상의 형태소 정보를 이용하여, 인공지능 모델을 학습시키는 단계; 및
    수어 동영상에서 화자의 키포인트들을 인식하고, 인식된 키포인트들을 학습 단계에 의해 학습된 인공지능 모델에 입력하여, 수어를 형태소 단위로 분할하고 분할된 형태소의 위치 정보를 예측하는 단계;를 포함하고,
    예측 단계는,
    형태소들의 위치 정보들을 프레임 단위로 예측하며,
    형태소의 위치 정보는,
    수어 동영상을 구성하는 프레임들 중 형태소가 위치하는 프레임들에 대한 정보인 것을 특징으로 하는 수어 분석 방법.
KR1020210084889A 2021-06-29 2021-06-29 수어의 형태소 단위 분할 방법, 형태소 위치 예측 방법 및 데이터 증강 방법 KR102624226B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210084889A KR102624226B1 (ko) 2021-06-29 2021-06-29 수어의 형태소 단위 분할 방법, 형태소 위치 예측 방법 및 데이터 증강 방법
PCT/KR2022/008665 WO2023277421A1 (ko) 2021-06-29 2022-06-20 수어의 형태소 단위 분할 방법, 형태소 위치 예측 방법 및 데이터 증강 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210084889A KR102624226B1 (ko) 2021-06-29 2021-06-29 수어의 형태소 단위 분할 방법, 형태소 위치 예측 방법 및 데이터 증강 방법

Publications (2)

Publication Number Publication Date
KR20230001839A KR20230001839A (ko) 2023-01-05
KR102624226B1 true KR102624226B1 (ko) 2024-01-15

Family

ID=84692898

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210084889A KR102624226B1 (ko) 2021-06-29 2021-06-29 수어의 형태소 단위 분할 방법, 형태소 위치 예측 방법 및 데이터 증강 방법

Country Status (2)

Country Link
KR (1) KR102624226B1 (ko)
WO (1) WO2023277421A1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190026546A1 (en) * 2017-05-02 2019-01-24 King Fahd University Of Petroleum And Minerals Automated sign language recognition method
KR102167760B1 (ko) * 2020-07-24 2020-10-19 주식회사 멀틱스 수어동작 인식 처리절차 및 움직임 추적 Pre-trained 모델을 이용한 수어동작 분석 알고리즘 시스템
JP2020177196A (ja) * 2019-04-22 2020-10-29 日本放送協会 手話cg制作支援装置及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6353660B2 (ja) * 2014-02-06 2018-07-04 日本放送協会 手話単語分類情報生成装置およびそのプログラム
KR101777807B1 (ko) * 2015-03-12 2017-09-12 주식회사 디지털스케치 수화 번역기, 시스템 및 방법
JP6301427B1 (ja) * 2016-10-11 2018-03-28 株式会社日本総合研究所 自然言語処理装置、自然言語処理方法および自然言語処理プログラム
KR102115551B1 (ko) * 2019-08-06 2020-05-26 전자부품연구원 글로스를 이용한 수어 번역 장치 및 번역모델 학습장치
KR102195401B1 (ko) * 2020-10-07 2020-12-24 (주)멀틱스 Rgb 키포인트 매트릭스 이미지를 이용한 딥러닝 기반 실시간 수어 영상 스트림 인식 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190026546A1 (en) * 2017-05-02 2019-01-24 King Fahd University Of Petroleum And Minerals Automated sign language recognition method
JP2020177196A (ja) * 2019-04-22 2020-10-29 日本放送協会 手話cg制作支援装置及びプログラム
KR102167760B1 (ko) * 2020-07-24 2020-10-19 주식회사 멀틱스 수어동작 인식 처리절차 및 움직임 추적 Pre-trained 모델을 이용한 수어동작 분석 알고리즘 시스템

Also Published As

Publication number Publication date
WO2023277421A1 (ko) 2023-01-05
KR20230001839A (ko) 2023-01-05

Similar Documents

Publication Publication Date Title
CN112487182B (zh) 文本处理模型的训练方法、文本处理方法及装置
WO2021233112A1 (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
WO2021072875A1 (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
Vashisht et al. Speech recognition using machine learning
CN111985240B (zh) 命名实体识别模型的训练方法、命名实体识别方法及装置
CN114694076A (zh) 基于多任务学习与层叠跨模态融合的多模态情感分析方法
CN113205817A (zh) 语音语义识别方法、系统、设备及介质
EP4336490A1 (en) Voice processing method and related device
De Coster et al. Machine translation from signed to spoken languages: State of the art and challenges
CN111967334B (zh) 一种人体意图识别方法、系统以及存储介质
CN112989935A (zh) 一种视频生成方法、装置、设备以及存储介质
CN113096242A (zh) 虚拟主播生成方法、装置、电子设备及存储介质
US20230065965A1 (en) Text processing method and apparatus
WO2021244099A1 (zh) 语音编辑方法、电子设备及计算机可读存储介质
Wang et al. (2+ 1) D-SLR: an efficient network for video sign language recognition
CN113761924A (zh) 一种命名实体模型的训练方法、装置、设备及存储介质
CN113918710A (zh) 文本数据处理方法、装置、电子设备和可读存储介质
KR102624226B1 (ko) 수어의 형태소 단위 분할 방법, 형태소 위치 예측 방법 및 데이터 증강 방법
CN117034019A (zh) 一种业务处理方法、装置、电子设备和存储介质
Sarma et al. Real-Time Indian Sign Language Recognition System using YOLOv3 Model
CN116956869A (zh) 文本标准化方法、装置、电子设备及存储介质
Wang et al. An approach based on 1D fully convolutional network for continuous sign language recognition and labeling
CN110890097A (zh) 语音处理方法及装置、计算机存储介质、电子设备
Rahul et al. Morphology & word sense disambiguation embedded multimodal neural machine translation system between Sanskrit and Malayalam

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant