KR102624226B1

KR102624226B1 - 수어의 형태소 단위 분할 방법, 형태소 위치 예측 방법 및 데이터 증강 방법

Info

Publication number: KR102624226B1
Application number: KR1020210084889A
Authority: KR
Inventors: 박한무; 김창조; 장진예; 정윤영; 신사임
Original assignee: 한국전자기술연구원
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2024-01-15
Also published as: WO2023277421A1; KR20230001839A

Abstract

수어의 형태소 단위 분할 방법, 형태소 위치 예측 방법 및 데이터 증강 방법이 제공된다. 본 발명의 실시예에 따른 수어 분석 시스템은, 수어 동영상에서 화자의 키포인트들을 인식하는 인식부 및 인식된 키포인트들을 인공지능 모델에 입력하여, 수어를 형태소 단위로 분할하고 분할된 형태소의 위치 정보를 예측하는 예측부를 포함한다. 이에 의해, 골격 모델 기반으로 프레임 단위로 수어 동영상의 형태소를 인식하여, 수어를 형태소 단위로 분할하고 형태소 위치를 예측함으로써, 정확한 수어 번역의 토대를 마련할 수 있게 된다.

Description

수어의 형태소 단위 분할 방법, 형태소 위치 예측 방법 및 데이터 증강 방법{Method for morpheme segmentation in sign language, morpheme position prediction, and data augmentation}

본 발명은 인공지능 관련 기술에 관한 것으로, 더욱 상세하게는 인공지능 모델을 이용하여 수어 동영상에서 수어를 형태소 단위로 분할하고, 분할된 형태소들이 위치하는 프레임들을 예측하는 방법에 관한 것이다.

수어는 청인과 농인이 서로 의사소통을 위해 사용되는 언어이다. 인공지능 기술의 비약적인 발전은 수어 동영상으로부터 자동으로 수어를 인식하는 것을 가능하게 하였다.

높은 성능의 수어 번역 모델을 만들기 위해서는 대량의 수어 데이터가 필요로 한다. 수어에서 한국어로 번역하는 학습 기반 모델에는 많은 데이터가 필수적이지만 데이터 구축 자원이 제한되어 있고 많은 시간과 비용이 발생하게 된다. 제한된 수어 데이터로 인해 수어 번역 모델이 한국어로 번역할 수 있는 수어는 제한적이고 구축된 데이터에 매우 의존적이다.

또한 기존 방법에서 수어 영상을 수어 형태소에 해당하는 한국어 단어들의 나열로 예측하는 방법은 존재하나, 수어 영상에서 형태소들이 각각 어느 구간에서 발생하는지 예측하지 못하고 있다. 이는 수어 번역의 정확도를 떨어뜨리는 요인이 된다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 골격 모델 기반으로 프레임 단위로 수어 동영상의 형태소를 인식하며, 수어를 형태소 단위로 분할하고 형태소의 위치를 예측하며, 예측 결과로 획득한 형태소들을 조합하여 학습용 수어 데이터를 증강시키는 방법 및 시스템을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 수어 분석 시스템은, 수어 동영상에서 화자의 키포인트들을 인식하는 인식부; 및 인식된 키포인트들을 인공지능 모델에 입력하여, 수어를 형태소 단위로 분할하고 분할된 형태소의 위치 정보를 예측하는 예측부;를 포함한다.

인식부는, 수어 동영상에서 프레임 단위로 화자의 키포인트들을 인식하고, 예측부는, 형태소들의 위치 정보들을 프레임 단위로 예측할 수 있다.

형태소의 위치 정보는, 수어 동영상을 구성하는 프레임들 중 형태소가 위치하는 프레임들에 대한 정보일 수 있다.

키포인트들은, 화자의 몸과 손의 관절 정보 및 화자의 얼굴 표정 정보를 포함할 수 있다.

인공지능 모델은 프레임 단위로 키포인트들을 입력 받아, 현재 프레임이 어느 형태소에 해당하는지 예측하여 출력할 수 있다.

그리고, 본 발명의 실시예에 따른 수어 분석 시스템은, 학습용 수어 동영상에서 화자의 키포인트들을 인식하고, 인식된 키포인트들과 학습용 수어 동영상의 형태소 정보를 이용하여, 인공지능 모델을 학습시키는 학습부;를 더 포함할 수 있다.

본 발명의 실시예에 따른 수어 분석 시스템은, 예측부에서 출력되는 형태소들을 조합하여 학습 데이터를 증강하는 증강부;를 더 포함할 수 있다.

그리고, 증강부는, 형태소들의 순서를 바꾸어 학습 데이터를 증강할 수 있다.

또한, 증강부는, 형태소들 중 일부를 삭제하여 학습 데이터를 증강할 수 있다.

한편, 본 발명의 다른 실시예에 따른, 수어 분석 방법은, 수어 동영상에서 화자의 키포인트들을 인식하는 단계; 및 인식된 키포인트들을 인공지능 모델에 입력하여, 수어를 형태소 단위로 분할하고 분할된 형태소의 위치 정보를 예측하는 단계;를 포함한다.

한편, 본 발명의 다른 실시예에 따른, 수어 분석 시스템은, 학습용 수어 동영상에서 화자의 키포인트들을 인식하고, 인식된 키포인트들과 학습용 수어 동영상의 형태소 정보를 이용하여, 인공지능 모델을 학습시키는 학습부; 및 수어 동영상에서 화자의 키포인트들을 인식하고, 인식된 키포인트들을 학습부에 의해 학습된 인공지능 모델에 입력하여, 수어를 형태소 단위로 분할하고 분할된 형태소의 위치 정보를 예측하는 예측부;를 포함한다.

한편, 본 발명의 다른 실시예에 따른, 수어 분석 방법은, 학습용 수어 동영상에서 화자의 키포인트들을 인식하고, 인식된 키포인트들과 학습용 수어 동영상의 형태소 정보를 이용하여, 인공지능 모델을 학습시키는 단계; 및 수어 동영상에서 화자의 키포인트들을 인식하고, 인식된 키포인트들을 학습 단계에 의해 학습된 인공지능 모델에 입력하여, 수어를 형태소 단위로 분할하고 분할된 형태소의 위치 정보를 예측하는 단계;를 포함한다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 골격 모델 기반으로 프레임 단위로 수어 동영상의 형태소를 인식하여, 수어를 형태소 단위로 분할하고 형태소 위치를 예측함으로써, 정확한 수어 번역의 토대를 마련할 수 있게 된다.

또한, 본 발명의 실시예들에 따르면, 예측된 형태소들을 다양하게 조합하여 학습용 수어 데이터를 증강시킴으로써, 수어 인식 모델의 학습을 강화하여 예측 정확도를 더욱 높일 수 있게 된다.

도 1은 본 발명의 일 실시예에 따른 인공지능 기반 수어 분석 시스템의 블럭도,
도 2는, 도 1에 도시된 학습부에 마련된 인식부의 블럭도,
도 3은 키포인트 추출 결과를 예시한 도면,
도 4는, 학습부에 마련된 모델 생성부의 블럭도,
도 5는 프레임 단위 형태소 인식 네트워크의 세부 구성을 나타낸 도면,
도 6은 단위 형태소 인식 네트워크에 의한 프레임 단위 형태소 위치 인식 결과를 예시한 도면,
도 7은, 도 1에 도시된 추론부에 마련된 인식부의 블럭도,
도 8은, 도 1에 도시된 예측/증강부의 블럭도,
도 9는 형태소 조합 데이터 증강 모듈에 의한 학습 데이터 증강을 예시한 도면, 그리고,
도 10은, 도 1에 도시된 인공지능 기반 수어 분석 시스템을 구현할 수 있는 하드웨어 구조를 도시한 도면이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

본 발명의 실시예에서는 인공지능 모델을 이용하여 수어 동영상에서 수어를 형태소 단위로 분할하고, 분할된 형태소들이 위치하는 프레임들을 예측하며, 인공지능 모델의 학습 데이터를 증강하는 방법을 제시한다.

수어는 화자의 몸과 손의 위치와 움직임, 손가락의 모양, 얼굴 표정에 따라 의미가 달라진다. 이에 본 발명의 실시예에서는, 화자의 관절 정보와 얼굴 표정을 기초로 수어를 인식한다.

수어는 한국어의 문법 체계와는 다르지만, 하나의 수어 문장을 구성하는 형태소들이 존재한다. 이에 본 발명의 실시예에서는, 수어를 형태소 단위로 분할하고, 형태소의 위치를 프레임 단위로 예측한다.

나아가, 본 발명의 실시예에서는 예측 결과로 획득한 형태소들 다양하게 조합하여 학습 데이터의 증강에 활용한다.

도 1은 본 발명의 일 실시예에 따른 인공지능 기반 수어 분석 시스템의 블럭도이다. 본 발명의 실시예에 따른 수어 분석 시스템은, 학습부(100)와 추론부(200)를 포함하여 구성된다.

학습부(100)는 수어를 분석할 인공지능 모델을 학습시키기 위한 구성으로, 인식부(110)와 모델 생성부(120)를 포함하여 구성된다.

인식부(110)는 학습용 수어 동영상으로부터 프레임 단위로 수어를 하는 사람인 화자의 몸과 손의 관절 정보 및 얼굴 표정 정보를 인식한다.

모델 생성부(120)는 인식부(110)에서 인식한 정보에 기반하여 수어를 형태소 단위로 분할하고, 분할된 형태소들의 위치 정보들을 프레임 단위로 예측하는 인공지능 모델을 학습시킨다.

추론부(200)는 모델 생성부(120)에 의해 학습된 인공지능 모델을 이용하여, 추론할 수어 동영상에서 수어를 분석하고, 분석된 수어 데이터를 기초로 학습 데이터를 증강한다. 추론부(200)는 인식부(210)와 예측/증강부(220)를 포함하여 구성된다.

인식부(210)는 추론할 수어 동영상으로부터 프레임 단위로 화자의 몸과 손의 관절 정보 및 얼굴 표정 정보를 인식한다.

예측/증강부(220)는 인식부(210)에서 인식한 정보에 기반하여, 모델 생성부(120)에 의해 학습된 인공지능 모델을 이용하여, 수어를 형태소 단위로 분할하고, 분할된 형태소들의 위치 정보들을 프레임 단위로 예측한다.

또한, 예측/증강부(220)는 예측 결과로 획득한 형태소들을 다양하게 조합하여 학습 데이터를 증강시킨다.

도 2는, 도 1에 도시된 학습부(100)에 마련된 인식부(110)의 블럭도이다. 도시된 바와 같이, 인식부(110)는 학습용 수어 데이터베이스(111)와 키포인트 추출 모듈(112)을 포함하여 구성된다.

학습용 수어 데이터베이스(111)는 학습용 수어 동영상들이 저장되어 있고, 동영상들에 대한 형태소 위치 정보가 어노테이션(라벨)으로 저장되어 있는 데이터베이스이다.

키포인트 추출 모듈(112)은 학습용 수어 데이터베이스(111)에 저장된 학습용 수어 동영상를 입력으로 받아 화자의 화자의 몸과 손의 관절 정보 및 얼굴 표정 정보를 키포인트들로 추출한다.

키포인트 추출을 통해, 화자의 동작이나 표정 외에 영상 프레임 안에 있을 수 있는 모든 불필요한 요소들이 제거된다. 도 3에는 키포인트 추출 결과를 예시하였다. 도시된 바와 같이, 화자의 몸, 손, 얼굴에서 키포인트들의 위치 정보들을 얻을 수 있다. 도 3에서 원으로 표시된 위치들이 추출되는 키포인트들이고, 선들은 형태를 알아보기 쉽게 편의상 그려 놓은 것으로 키포인트들에 해당하지 않는다.

도 4는, 도 1에 도시된 학습부(100)에 마련된 모델 생성부(120)의 블럭도이다. 도시된 바와 같이, 모델 생성부(120)는 데이터 정규화 모듈(121)과 프레임 단위 형태소 인식 네트워크(122)를 포함하여 구성된다.

데이터 정규화 모듈(121)은 키포인트 추출 모듈(112)에 의해 추출된 키포인트들을 정규화한다. 사람 마다 체형과 영상 내 위치가 다를 수 있기 때문에 데이터를 정규화하고, 정규화된 키포인트들을 프레임 단위 형태소 인식 네트워크(122)의 의 입력 데이터로 이용한다.

프레임 단위 형태소 인식 네트워크(122)는 정규화된 키포인트들을 입력으로 하여 수어를 형태소 단위로 분할하고, 분할된 형태소들의 위치 정보들을 프레임 단위로 예측하는 인공지능 모델이다.

도 5에는 프레임 단위 형태소 인식 네트워크(122)의 세부 구성을 나타내었다. 도시된 바와 같이, 단위 형태소 인식 네트워크(122)는 프레임 단위로 정규화된 키포인트들을 입력받아 프레임 단위로 형태소를 인식하는, 즉, 현재 프레임이 어느 형태소에 해당하는지 인식하는 네트워크인 것이다.

도 6에는 단위 형태소 인식 네트워크(122)에 의한 프레임 단위 형태소 위치 인식 결과를 예시하였다. 도시된 바와 같이, 단위 형태소 인식 네트워크(122)는 수어를 구성하는 형태소가 어느 프레임들에 위치하는지, 즉, 동영상을 구성하는 각 프레임이 어느 형태소를 나타내는 프레임인지 인식하여, 그 결과를 제공한다.

프레임 단위 형태소 인식 네트워크(122)는 예측 결과와 학습용 수어 데이터베이스(111)에 저장된 해당 수어 동영상에 대한 형태소 위치 정보의 손실(loss)이 최소가 되는 방향으로 학습된다.

도 7은, 도 1에 도시된 추론부(200)에 마련된 인식부(210)의 블럭도이다. 도시된 바와 같이, 인식부(210)는 새로운 수어 영상 획득 모듈(211)과 키포인트 추출 모듈(212)를 포함하여 구성된다.

수어 영상 획득 모듈(211)는 새로운 수어 동영상 즉, 추론할 수어 동영상을 획득하여 키포인트 추출 모듈(212)에 입력시킨다.

키포인트 추출 모듈(212)은 입력되는 수어 동영상으로부터 화자의 화자의 몸과 손의 관절 정보 및 얼굴 표정 정보를 키포인트들로 추출한다. 키포인트 추출 모듈(212)의 세부 기능은 학습부(100)의 키포인트 추출 모듈(112)의 세부 기능과 동일하다.

도 8은, 도 1에 도시된 예측/증강부(220)의 블럭도이다. 도시된 바와 같이, 예측/증강부(220)는 데이터 정규화 모듈(221)과 프레임 단위 형태소 인식 네트워크(222) 및 형태소 조합 데이터 증강 모듈(223)을 포함하여 구성된다.

데이터 정규화 모듈(221)은 키포인트 추출 모듈(212)에 의해 추출된 키포인트들을 정규화한다. 정규화된 키포인트들을 프레임 단위 형태소 인식 네트워크(222)의 입력 데이터로 이용한다.

프레임 단위 형태소 인식 네트워크(222)는 모델 생성부(120)에 의해 학습된 프레임 단위 형태소 인식 네트워크(122)이다. 프레임 단위 형태소 인식 네트워크(222)는 데이터 정규화 모듈(221)에 의해 정규화된 키포인트들을 입력으로 하여 수어를 형태소 단위로 분할하고, 분할된 형태소들의 위치 정보들을 프레임 단위로 예측한다.

형태소 조합 데이터 증강 모듈(223)은 프레임 단위 형태소 인식 네트워크(222)의 예측 결과로 획득한 형태소들을 다양하게 조합하여 학습 데이터를 증강시킨다.

도 9에는 형태소 조합 데이터 증강 모듈(223)에 의한 학습 데이터 증강을 예시하였다. "은행은 어디에 있습니까"라는 한국어 문장은 수어로 표현 시 ["은행", "어디", "곳"]이라는 수어 형태소로 구성된다.

학습용 수어 데이터베이스(111)에 이런 순서로 표현된 수어 동영상이 있고, 이 학습 데이터로 프레임 단위 형태소 인식 네트워크(222)를 학습시켰다면, ["은행", "어디", "곳"]의 순서로 된 수어 영상을 제대로 추론할 것이다.

하지만, 수어를 행하는 사람에 따라서 ["은행", "곳", "어디"]로 형태소 순서를 바꿔서 수어 동작을 하기도 하고, 때로는 ["은행", "곳"]으로 표현해 형태소를 생략하기도 한다. 강건한 수어 인식 모델을 구성하기 위해서는 학습용 수어 데이터베이스(111)에 존재하지 않는 유의미한 형태소 조합의 필요성이 있다.

이에 따라, 형태소 조합 데이터 증강 모듈(223)은 프레임별 형태소의 의미와 형태소의 위치를 인식한 결과로부터 형태소 단위 수어 영상 프레임들의 조합을 통해 데이터 증강을 할 수 있다.

도 9에는, ["은행", "어디", "곳"]으로부터, 1) ["은행", "곳", "어디"]의 순서로 된 수어 동영상, ["은행", "곳"]의 순서로 된 수어 동영상, ["은행", "어디"]의 순서로 된 수어 동영상을 증강한 예를 나타내었다.

증강된 수어 동영상들은 형태소의 위치 정보를 어노테이션으로 하여 학습용 수어 데이터베이스(111)에 저장되어, 학습 데이터로 활용된다.

도 10은, 도 1에 도시된 인공지능 기반 수어 분석 시스템을 구현할 수 있는 하드웨어 구조를 도시한 도면이다.

본 발명의 실시예에 따른 시스템은, 도시된 바와 같이, 통신부(310), 출력부(320), 프로세서(330), 입력부(330) 및 저장부(350)를 포함하여 구축되는 컴퓨팅 시스템으로 구현 가능하다.

통신부(310)는 외부 기기와 통신하고 외부 네트워크에 액세스 하기 위한 통신 수단이다. 출력부(320)는 프로세서(330)의 실행 결과를 표시하는 디스플레이이고, 입력부(330)는 사용자 명령을 프로세서(330)로 전달하는 사용자 입력 수단이다.

프로세서(330)는 도 1에 도시된 인공지능 기반 수어 분석 시스템의 기능들을 수행하기 위한 구성으로, 다수의 GPU(Graphics Processing Unit)들과 CPU(Central Processing Unit)를 포함한다.

저장부(350)는 프로세서(330)가 동작하고 기능함에 있어 필요한 저장 공간을 제공한다.

지금까지, 수어의 형태소 단위 분할 방법, 형태소 위치 예측 방법 및 데이터 증강 방법에 대해 바람직한 실시예를 들어 상세히 설명하였다.

위 실시예에서는, 골격 모델 기반으로 프레임 단위로 수어 동영상의 형태소를 인식하여, 수어를 형태소 단위로 분할하고 형태소 위치를 예측함으로써 정확한 수어 번역의 토대를 마련하여 준다.

또한, 예측된 형태소들을 다양하게 조합하여 학습용 수어 데이터를 증강시킴으로써, 수어 인식 모델의 학습을 강화하여 예측 정확도가 더욱 높아질 수 있도록 하였다.

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

100 : 학습부
110,210 : 인식부
120 : 모델 생성부
111 : 학습용 수어 데이터베이스
112,212 : 키포인트 추출 모듈
121,221 : 데이터 정규화 모듈
122,222 : 프레임 단위 형태소 인식 네트워크
200 : 추론부
211 : 새로운 수어 영상 획득 모듈
220 : 예측/증강부
223 : 형태소 조합 데이터 증강 모듈

Claims

수어 동영상에서 화자의 키포인트들을 인식하는 인식부;
인식된 키포인트들을 인공지능 모델에 입력하여, 수어를 형태소 단위로 분할하고 분할된 형태소의 위치 정보를 예측하는 예측부;를 포함하고,
예측부는,
형태소들의 위치 정보들을 프레임 단위로 예측하며,
형태소의 위치 정보는,
수어 동영상을 구성하는 프레임들 중 형태소가 위치하는 프레임들에 대한 정보인 것을 특징으로 하는 수어 분석 시스템.
청구항 1에 있어서,
인식부는,
수어 동영상에서 프레임 단위로 화자의 키포인트들을 인식하는 것을 특징으로 하는 수어 분석 시스템.
삭제
청구항 2에 있어서,
키포인트들은,
화자의 몸과 손의 관절 정보 및 화자의 얼굴 표정 정보를 포함하는 것을 특징으로 하는 수어 분석 시스템.
청구항 1에 있어서,
인공지능 모델은
프레임 단위로 키포인트들을 입력 받아, 현재 프레임이 어느 형태소에 해당하는지 예측하여 출력하는 것을 특징으로 하는 수어 분석 시스템.
청구항 1에 있어서,
학습용 수어 동영상에서 화자의 키포인트들을 인식하고, 인식된 키포인트들과 학습용 수어 동영상의 형태소 정보를 이용하여, 인공지능 모델을 학습시키는 학습부;를 포함하는 것을 특징으로 하는 수어 분석 시스템.
청구항 1에 있어서,
예측부에서 출력되는 형태소들을 조합하여 학습 데이터를 증강하는 증강부;를 더 포함하는 것을 특징으로 하는 수어 분석 시스템.
청구항 7에 있어서,
증강부는,
형태소들의 순서를 바꾸어 학습 데이터를 증강하는 것을 특징으로 하는 수어 분석 시스템.
청구항 7에 있어서,
증강부는,
형태소들 중 일부를 삭제하여 학습 데이터를 증강하는 것을 특징으로 하는 수어 분석 시스템.
수어 동영상에서 화자의 키포인트들을 인식하는 단계; 및
인식된 키포인트들을 인공지능 모델에 입력하여, 수어를 형태소 단위로 분할하고 분할된 형태소의 위치 정보를 예측하는 단계;를 포함하고,
예측 단계는,
형태소들의 위치 정보들을 프레임 단위로 예측하며,
형태소의 위치 정보는,
수어 동영상을 구성하는 프레임들 중 형태소가 위치하는 프레임들에 대한 정보인 것을 특징으로 하는 수어 분석 방법.
학습용 수어 동영상에서 화자의 키포인트들을 인식하고, 인식된 키포인트들과 학습용 수어 동영상의 형태소 정보를 이용하여, 인공지능 모델을 학습시키는 학습부; 및
수어 동영상에서 화자의 키포인트들을 인식하고, 인식된 키포인트들을 학습부에 의해 학습된 인공지능 모델에 입력하여, 수어를 형태소 단위로 분할하고 분할된 형태소의 위치 정보를 예측하는 예측부;를 포함하고,
예측부는,
형태소들의 위치 정보들을 프레임 단위로 예측하며,
형태소의 위치 정보는,
수어 동영상을 구성하는 프레임들 중 형태소가 위치하는 프레임들에 대한 정보인 것을 특징으로 하는 수어 분석 시스템.
학습용 수어 동영상에서 화자의 키포인트들을 인식하고, 인식된 키포인트들과 학습용 수어 동영상의 형태소 정보를 이용하여, 인공지능 모델을 학습시키는 단계; 및
수어 동영상에서 화자의 키포인트들을 인식하고, 인식된 키포인트들을 학습 단계에 의해 학습된 인공지능 모델에 입력하여, 수어를 형태소 단위로 분할하고 분할된 형태소의 위치 정보를 예측하는 단계;를 포함하고,
예측 단계는,
형태소들의 위치 정보들을 프레임 단위로 예측하며,
형태소의 위치 정보는,
수어 동영상을 구성하는 프레임들 중 형태소가 위치하는 프레임들에 대한 정보인 것을 특징으로 하는 수어 분석 방법.