KR102115551B1

KR102115551B1 - 글로스를 이용한 수어 번역 장치 및 번역모델 학습장치

Info

Publication number: KR102115551B1
Application number: KR1020190095675A
Authority: KR
Inventors: 고상기; 정혜동; 박한무; 김창조
Original assignee: 전자부품연구원
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2020-05-26

Abstract

본 발명의 일실시예는, 수어 영상으로부터 인식한 글로스의 시퀀스를 딥러닝 기반의 제1 번역모델에 입력하여 음성문장으로 번역하고 음성으로 제공하는 수어-음성 번역 모델, 및 음성으로부터 인식한 음성문장을 딥러닝 기반 제2 번역모델에 입력하여 글로스의 시퀀스로 번역하고 영상으로 제공하는 음성-수어 번역 모델을 포함하는 글로스를 이용한 수어 번역 장치를 제공하며, 번역의 자연스러움을 향상시킬 수 있는 부가조건을 번역에 더 이용하여, 수어와 음성 언어의 번역의 정확성을 개선하고 자연스러운 번역을 제공할 수 있다.

Description

글로스를 이용한 수어 번역 장치 및 번역모델 학습장치{Sign language translation apparatus using gloss and translation model learning apparatus}

본 발명은 글로스를 이용한 수어 번역 장치 및 번역모델 학습장치에 관한 것이다.

수어(手語, Sign language)는 농인에게 의사를 전달하고자 할 때 사용되는 가장 대표적인 방식 중 하나로 제스처(gesture)을 통해 의사를 전달하는 방법을 말한다. 수어는 독자적인 문법을 갖고, 정해진 의미를 갖는 제스처를 연속적으로 수행하여 문장을 표현한다. 수어의 문법은 음성과 문자로 표현되는 음성 언어(vocal language 또는 speech language)의 문법과 다르다. 따라서, 청인이 수어로 불편함 없이 의사를 표현하기 위해서는 전문 교육을 장시간 이수해야하기 때문에, 청인의 대다수가 수어를 이용하여 농인과 의사소통하는 것에 어려움을 겪는다. 이러한 의사 전달의 어려움을 해결하기 위해서는 청인에게 익숙한 음성 언어를 농인에게 익숙한 수어로 변환해주는 기술이 필수적으로 요구된다.

기존 수어 인식 기술은 단순히 수어 또는 지화(sign language or hand language)를 이미지 단위로 인식하거나 시간 흐름에 따라 손 움직임의 나열 혹은 동작의 나열로만 수어를 인식하여 전체 수어가 자연어 문장으로 어떤 문장에 해당하는지를 이해하는 것이 어려운 문제가 있다. 또한, 기존 수어-음성 언어 번역 시스템은 전체 수어에 해당하는 영상 프레임 정보를 모두 번역을 위한 입력으로 사용하는 방식이어서, 번역 가능한 수어 의미 범위가 커짐에 따라 복잡도가 기하급수적으로 증가하는 문제가 있다.

KR 10-2017-0094668 A

본 발명의 일실시예에 따른 목적은, 시퀀스 투 시퀀스 방식의 딥러닝 신경망 네트워크를 이용하여, 토큰 단위의 시퀀스로 구성되는 음성문장을 글로스의 시퀀스로 구성되는 수어로 번역하고, 글로스의 시퀀스로 구성되는 수어를 토큰 단위의 시퀀스로 구성되는 음성문장으로 번역하는 글로스를 이용한 수어 번역 장치를 제공하기 위한 것이다.

또한, 본 발명의 일실시예에 따른 목적은, 번역의 자연스러움을 향상시킬 수 있는 부가조건을 더 이용하여, 상황에 맞는 자연스러운 번역 결과를 도출할 수 있는 글로스를 이용한 수어 번역 장치를 제공하기 위한 것이다.

또한, 본 발명의 일실시예에 따른 목적은, 수어-음성 번역과 음성-수어 번역의 양방향 번역 결과물을 이용하여 번역모델의 성능을 향상시키도록 학습시키는 번역모델 학습장치를 제공하기 위한 것이다.

본 발명의 일실시예에 따른 글로스를 이용한 수어 번역 장치는, 수어 영상으로부터 인식한 글로스의 시퀀스를 딥러닝 기반의 제1 번역모델에 입력하여 음성문장으로 번역하고 음성으로 제공하는 수어-음성 번역 모델, 및 음성으로부터 인식한 음성문장을 딥러닝 기반 제2 번역모델에 입력하여 글로스의 시퀀스로 번역하고 영상으로 제공하는 음성-수어 번역 모델을 포함할 수 있다.

또한, 상기 수어-음성 번역 모델은 음성문장을 TTS 변환 엔진을 통해 음성으로 변환하는 음성생성부를 더 포함할 수 있다.

또한, 상기 음성-수어 번역 모델은 음성을 STT 변환 엔진을 통해 음성문장으로 변환하는 음성인식부를 포함할 수 있다.

또한, 제1 번역모델은 글로스의 시퀀스를 입력받아 임의 크기의 벡터로 출력하는 인코더, 및 상기 인코더가 출력하는 벡터를 입력받아 토큰 단위의 음성문장을 출력하는 디코더를 포함할 수 있다.

또한, 제2 번역모델은 음성문장을 토큰 단위로 분절하여 순차적으로 입력받아 임의의 크기의 벡터로 출력하는 인코더, 및 상기 인코더가 출력하는 벡터를 입력받아 글로스의 시퀀스를 출력하는 디코더를 포함할 수 있다.

또한, 본 발명의 일실시예에 따른 글로스를 이용한 수어 번역 장치는, 번역의 자연스러움을 향상시킬 수 있는 부가조건을 추출하고 저장하며 제공하는 부가조건 관리부를 더 포함하며, 상기 제1 번역모델은 상기 부가조건이 상기 글로스의 시퀀스와 함께 입력되는 경우, 상기 부가조건에 따라 음성문장을 변경시켜 출력할 수 있다.

또한, 상기 제1 번역모델 및 제2 번역모델은 상기 음성문장을 구성하는 토큰 단위 또는 상기 수어를 구성하는 글로스 단위의 시퀀스 투 시퀀스 입출력 방식으로 구성될 수 있다.

본 발명의 일실시예에 따른 번역모델 학습장치는, 입력이 글로스의 시퀀스이고 정답이 음성문장인 학습데이터를 이용하여 제1 번역모델을 학습시키고, 입력이 음성문장이고 정답이 글로스의 시퀀스인 학습데이터를 이용하여 제2 번역모델을 학습시키는 학습부, 및 수어-음성 번역 모델 및 음성-수어 번역 모델의 양방향 번역의 결과물을 상기 학습데이터에 추가하여 학습 성능을 개선하는 번역결과 업데이트부를 포함할 수 있다.

또한, 본 발명의 일실시예에 따른 번역모델 학습장치는, 번역의 자연스러움을 향상시킬 수 있는 부가조건을 상기 학습데이터에 추가하여 학습 성능을 개선하는 부가조건 업데이트부를 더 포함할 수 있다.

본 발명의 특징 및 이점들은 첨부도면에 의거한 다음의 상세한 설명으로 더욱 명백해질 것이다.

이에 앞서 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이고 사전적인 의미로 해석되어서는 아니 되며, 발명자가 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합되는 의미와 개념으로 해석되어야만 한다.

본 발명의 일실시예에 따르면, 시퀀스 투 시퀀스 방식의 딥러닝 신경망 네트워크를 이용하여 수어와 음성 언어를 번역함에 있어서, 영상 데이터인 수어 영상 대신 수어의 의미단위인 글로스를 입력 또는 출력으로 사용하므로 데이터의 복잡도를 상대적으로 감소시킬 수 있고 번역 성능을 개선할 수 있다.

또한, 본 발명의 일실시예에 따르면, 상황 또는 감정 등의 부가조건을 입력받아 수어와 음성 언어를 번역할 때 반영하여, 상황에 알맞는 자연스러운 번역을 제공할 수 있다.

또한, 본 발명의 일실시예에 따르면, 수어-음성 번역과 음성-수어 번역의 양방향 번역 결과물을 이용하여 번역모델의 성능을 향상시킬 수 있다.

도 1은 본 발명의 일실시예에 따른 글로스를 이용한 수어 번역 장치 및 번역모델 학습장치를 나타낸 도면이다.
도 2는 본 발명의 일실시예에 따른 글로스를 이용한 수어 번역 장치를 나타낸 도면이다.
도 3은 본 발명의 일실시예에 따른 제1 번역모델과 제2 번역모델의 신경망 구조를 나타낸 도면이다.
도 4는 본 발명의 일실시예에 따른 수어-음성 번역 및 음성-수어 번역을 예시적으로 나타낸 도면이다.
도 5a, 도 5b, 도 5c, 도 5d는 본 발명의 일실시예에 따른 부가조건을 이용한 수어-음성 번역을 예시적으로 나타낸 도면이다.

본 발명의 일실시예의 목적, 특정한 장점들 및 신규한 특징들은 첨부된 도면들과 연관되어지는 이하의 상세한 설명과 바람직한 실시예들로부터 더욱 명백해질 것이다. 본 명세서에서 각 도면의 구성요소들에 참조번호를 부가함에 있어서, 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 번호를 가지도록 하고 있음에 유의하여야 한다. 또한, "일면", "타면", "제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위해 사용되는 것으로, 구성요소가 상기 용어들에 의해 제한되는 것은 아니다. 이하, 본 발명의 일실시예를 설명함에 있어서, 본 발명의 일실시예의 요지를 불필요하게 흐릴 수 있는 관련된 공지 기술에 대한 상세한 설명은 생략한다.

이하, 첨부된 도면을 참조하여, 본 발명의 일실시예를 상세히 설명한다.

본 발명의 일실시에에 따른 글로스를 이용한 수어 번역 장치(100)는 '수어 번역 장치(100)'로 간단하게 기재할 수 있다. 본 발명의 일실시에에 따른 글로스를 이용한 수어 번역 방법은 '수어 번역 방법'으로 간단하게 기재할 수 있다.

글로스(gloss)는 수어의 의미 단위이다. 글로스는 하나 또는 복수의 제스처로 구성될 수 있다. 수어는 글로스(gloss)의 시퀀스로 이루어질 수 있다. 예를 들어, '집에 불이 났어요'라는 의미의 수어는 '집'과 '불'이라는 두개의 글로스로 이루어지고, '집' -> '불' 이라는 순서를 갖는 글로스의 시퀀스로 표현될 수 있다. 시퀀스는 정해진 순서에 따라 나열되는 것을 말한다.

도 1은 본 발명의 일실시예에 따른 글로스를 이용한 수어 번역 장치(100) 및 번역모델 학습장치(200)를 나타낸 도면이며, 도 2는 본 발명의 일실시예에 따른 글로스를 이용한 수어 번역 장치(100)를 나타낸 도면이다.

도 1에 도시된 바와 같이, 수어 번역 장치(100)는 번역모델 학습장치(200), 수어 사용자 단말(300) 및 음성 언어 사용자 단말(400)과 직접 또는 유무선 네트워크를 이용하여 연결되어 데이터를 송수신할 수 있다. 수어 번역 장치(100)는 수어 사용자 단말(300)로부터 수어 영상을 수신하여 음성으로 번역하여 음성 언어 사용자 단말(400)로 제공하고, 음성 언어 사용자 단말(400)로부터 음성을 수신하여 수어 영상으로 번역하여 수어 사용자 단말(300)로 제공할 수 있다.

수어 사용자 단말(300)은 수어를 동작으로 표현하는 수어 사용자를 촬영하여 영상 데이터 형식의 수어 영상을 생성하여 수어 번역 장치(100)로 제공할 수 있다. 수어 사용자 단말(300)은 카메라를 포함할 수 있다. 수어 사용자 단말(300)은 수어 번역 장치(100)로부터 음성 언어를 번역하여 생성한 수어 영상을 수신하여 수어 사용자에게 시각적으로 표시하여 제공할 수 있다. 수어 사용자 단말(300)은 디스플레이를 포함할 수 있다.

음성 언어 사용자 단말(400)은 수어 사용자가 음성으로 말하는 음성 언어를 녹음하고 사운드 데이터 형식의 음성을 생성하여 수어 번역 장치(100)로 제공할 수 있다. 음성 언어 사용자 단말(400)은 마이크를 포함할 수 있다. 음성 언어 사용자 단말(400)은 수어 번역 장치(100)로부터 수어를 번역하여 생성한 음성을 수신하여 음성 언어 사용자에게 청각적으로 표시하여 제공할 수 있다. 음성 언어 사용자 단말(400)은 스피커를 포함할 수 있다. 음성 언어 사용자 단말(400)은 디스플레이를 더 포함하여 텍스트 형식의 음성문장을 시각적으로 표시하여 음성 언어 사용자에게 제공할 수 있다.

수어 번역 장치(100), 번역모델 학습장치(200), 수어 사용자 단말(300) 및 음성 언어 사용자 단말(400)은 정보처리기능을 수행할 수 있는 컴퓨터 장치, 스마트폰, 태블릿 PC 등의 정보처리장치일 수 있다. 수어 번역 장치(100), 번역모델 학습장치(200), 수어 사용자 단말(300) 및 음성 언어 사용자 단말(400)은 각각 별개의 장치로 구성될 수도 있고, 하나의 장치에서 둘 이상의 기능을 수행하도록 구성될 수도 있다.

도 1 및 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 글로스를 이용한 수어 번역 장치(100)는, 수어 영상으로부터 인식한 글로스의 시퀀스를 딥러닝 기반의 제1 번역모델(DNN-1)에 입력하여 음성문장으로 번역하고 음성으로 제공하는 수어-음성 번역 모델(110), 및 음성으로부터 인식한 음성문장을 딥러닝 기반 제2 번역모델(DNN-2)에 입력하여 글로스의 시퀀스로 번역하고 영상으로 제공하는 음성-수어 번역 모델(120)을 포함할 수 있다.

수어-음성 번역 모델(110)은 수어인식부(111), 글로스-음성 번역부(112), 음성생성부(113)를 포함할 수 있고, 음성-수어 번역 모델(120)은 음성인식부(121), 음성-글로스 번역부(122), 영상생성부(123)를 포함할 수 있다.

수어인식부(111)는 수어 사용자 단말(300)이 생성한 수어 영상에서 수어를 인식한다. 수어인식부(111)는 수어 영상에서 수어를 인식하여 수어의 의미단위인 글로스의 시퀀스를 출력한다. 수어인식부(111)가 수어 영상에서 글로스의 시퀀스를 인식하는 것은 특징점 추출, 딥러닝 신경망 네트워크, 컴퓨터 비전(vision) 기술 등을 이용하여 수행할 수 있다.

글로스-음성 번역부(112)는 학습된 제1 번역모델(DNN-1)을 이용하여 글로스의 시퀀스 형태로 수어를 입력받아 토큰 단위의 시퀀스 형태로 음성문장을 출력하는 방식으로 수어와 음성 언어를 번역한다.

음성생성부(113)는 토큰 단위의 시퀀스 형태로 번역된 음성문장을 TTS 변환 엔진을 통해 음성으로 변환할 수 있다. TTS 변환 엔진은 텍스트 형식의 음성문장을 소리 데이터 형식의 음성으로 변환하는 텍스트 투 사운드(Text To Sound, TTS) 기능을 수행한다.

음성인식부(121)는 음성 언어 사용자 단말(400)에서 생성한 음성에서 음성 언어를 인식한다. 음성인식부(121)는 음성을 STT 변환 엔진을 통해 음성문장으로 변환할 수 있다. STT 변환 엔진은 소리 데이터 형식의 음성을 텍스트 형식의 음성문장으로 변환하는 사운드 투 텍스트(Sound To Text, STT) 기능을 수행한다. 음성인식부(121)는 텍스트 형식으로 인식한 음성 문장을 토큰의 시퀀스 단위로 출력한다. 음성 문장을 구성하는 토큰은 단어, 형태소, 어절 단위 등으로 정해질 수 있다.

음성-글로스 번역부(122)는 학습된 제2 번역모델(DNN-2)를 이용하여 토큰 단위의 시퀀스 형태로 음성문장을 입력받아 글로스의 시퀀스 형태로 수어를 출력하는 방식으로 음성 언어와 수어를 번역한다.

영상생성부(123)는 글로스 단위의 시퀀스 형태로 번역된 수어를 연속적인 동작이 표현된 수어 영상으로 생성할 수 있다. 영상생성부(123)는 글로스에 대응하는 동작을 저장한 데이터베이스를 이용하여 수어 영상을 생성할 수 있다. 영상생성부(123)는 글로스의 시퀀스에 따라 캐릭터, 2D/3D 모델, 인체 모델이 글로스에 해당하는 동작을 수행하는 수어 영상을 생성하여, 번역된 수어를 시각적인 수어 영상으로 제공할 수 있다.

도 3은 본 발명의 일실시예에 따른 제1 번역모델(DNN-1)과 제2 번역모델(DNN-2)의 신경망 구조를 나타낸 도면이다.

도 3에 도시된 바와 같이, 제1 번역모델(DNN-1) 및 제2 번역모델(DNN-2)은 순환신경망(RNN) 방식의 인코더(EN)와 디코더(DE)를 포함하는 시퀀스 투 시퀀스(sequence to sequence) 방식일 수 있다. 시퀀스 투 시퀀스(sequence to sequence) 방식은 순서에 따라 입력을 받고 학습된 순서에 따라 출력하는 방식이다. 제1 번역모델(DNN-1) 및 제2 번역모델(DNN-2)은 음성문장을 구성하는 토큰 단위 또는 상기 수어를 구성하는 글로스 단위의 시퀀스 투 시퀀스 입출력 방식으로 구성될 수 있다. 제1 번역모델(DNN-1)은 글로스의 시퀀스를 입력받아 임의 크기의 벡터로 출력하는 인코더(EN), 및 인코더(EN)가 출력하는 벡터를 입력받아 토큰 단위의 음성문장을 출력하는 디코더(DE)를 포함할 수 있다. 제2 번역모델(DNN-2)은 음성문장을 토큰 단위로 분절하여 순차적으로 입력받아 임의의 크기의 벡터로 출력하는 인코더(EN), 및 인코더(EN)가 출력하는 벡터를 입력받아 글로스의 시퀀스를 출력하는 디코더(DE)를 포함할 수 있다.

순환신경망 네트워크(Recurrent Neural Network, RNN)는 장단기메모리(Long Short-Term Memory, LSTM), 게이트 순환 유닛(Gated Recurrent Unit, GRU) 등의 구조일 수 있다. 제1 및 제2 번역모델(DNN-1, DNN-2)은 입력(Din)으로 글로스 또는 토큰의 시퀀스를 수신하여 임의의 크기의 벡터를 생성하는 인코더(EN)와 임의의 크기의 벡터를 입력받아 해석하여 토큰 또는 글로스의 시퀀스로 출력(Dout)하는 디코더(DE)로 구성될 수 있다.

수어와 음성 언어는 서로 다른 문법 체계를 갖는다. 따라서 수어을 구성하는 글로스의 시퀀스에서 글로스를 단어로 단순 치환하는 것으로는 음성 언어의 문법이나 어순에 알맞는 자연스러운 번역을 얻을 수 없다.

예를 들어, 아래 표 1은 음성문장과 글로스의 시퀀스를 나타낸 표이다.

	음성문장	글로스의 시퀀스
1	집에 불이 났어요.	집	불
2	집에 도둑(강도)이 들어왔어요.	집	도둑	넘어오다
3	어떤 사람이 교통사고를 당했어요.	누가	교통사고
4	식사를 하다가 목에 음식이 걸렸어요.	먹다	중간	목	실수	삼키다
5	홍수가 나서 집이 물에 잠기고 있어요.	홍수	집	물	채우다

토큰 단위의 시퀀스로 이루어진 음성문장과 글로스의 시퀀스로 이루어진 수어는 서로 다른 형태임을 알 수 있다. 예를 들어, '집에 불이 났어요'라는 음성문장은 수어로 표현될 때 '집'과 '불'이라는 두개의 글로스로 표현되므로, 수화를 음성 언어로 번역하는 경우 단순히 글로스에 대응하는 단어만을 치환하는 것으로는 자연스러운 문장이 되지 않는다. 또한, 글로스의 시퀀스에 따라 단어만을 치환하는 경우 음성 언어 문법의 어순과 맞지 않는 문장이 형성될 수도 있다.본 발명의 일실시예에 따른 순환신경망 구조의 인코더(EN) 및 디코더(DE)로 이루어진 시퀀스 투 시퀀스 구조의 제1 및 제2 번역모델(DNN-1, DNN-2)은 순서에 관한 정보를 학습할 수 있으므로, 수어 문법에 따른 글로스의 시퀀스를 입력(Din)하면 음성 언어 문법에 따른 토큰의 시퀀스를 출력(Dout)할 수 있다. 따라서, 종래 단순히 단어를 치환하거나 문장과 문장의 의미를 비교하여 출력하는 기술들에 비하여, 본 발명의 일실시예는 수어의 문법과 음성 언어의 문법에 맞는 자연스러운 문장으로 번역할 수 있다.

딥러닝 신경망 네트워크를 이용하여 수어와 음성 언어를 번역함에 있어서, 수어를 촬영한 영상 데이터를 그대로 학습데이터로 사용하거나 딥러닝 신경망 네트워크의 입력(Din) 또는 출력(Dout)으로 사용하는 경우 번역의 정확성이 낮아지는 문제가 있다. 이러한 문제는 수어를 표현하는 수어 사용자를 촬영한 수어 영상이 복수의 프레임을 포함하는 영상 데이터이고 수어 사용자는 연속적인 제스처를 수행함으로써 수어을 표현하기 때문에, 딥러닝 신경망 네트워크가 수어의 의미를 학습하여 번역하는 것이 아니라 동작을 학습하여 번역하는 것이기 때문에 발생한다. 예를 들어, 수어 사용자의 습관이나 신체적 차이와 같은 이유로 같은 수어도 다른 의미로 번역될 수 있고, 딥러닝 신경망 네트워크가 잘못된 의미나 순서를 학습할 수도 있다. 따라서 수어 영상을 그대로 음성문장으로 번역하는 경우 수어 영상의 차이에 의해 번역의 정확성이 낮아지는 문제가 있다.

본 발명의 일실시예는 수어인식부(111)가 수어 영상으로부터 수어를 인식하여 글로스의 시퀀스로 출력하고, 글로스의 시퀀스를 제1 및 제2 번역모델(DNN-1, DNN-2)의 입력(Din) 또는 출력(Dout)으로 이용하며, 글로스의 시퀀스를 학습데이터로 이용함으로써, 딥러닝 신경망 네트워크가 수어의 의미를 학습하여 번역하므로 번역의 정확성을 향상시킬 수 있다. 또한, 딥러닝 신경망 네트워크를 훈련하기 위하여 영상 데이터로 이루어진 학습데이터를 준비하기보다, 글로스의 시퀀스로 이루어진 학습데이터를 준비하는 것이 더 효율적이고 쉽다. 또한, 수어인식부(111)가 수어 영상를 인식하여 글로스의 시퀀스를 출력하는 방법과 글로스-음성 번역부(112)가 글로스의 시퀀스를 음성문장으로 번역하는 방법을 독립적으로 발전시킬 수 있다는 이점도 있다.

다시 도 1을 참조하면, 본 발명의 일실시예에 따른 번역모델 학습장치(200)는 수어 번역 장치(100)의 제1 번역모델(DNN-1) 및 제2 번역모델(DNN-2)을 학습시킬 수 있다. 번역모델 학습장치(200)는, 입력이 글로스의 시퀀스이고 정답이 음성문장인 학습데이터를 이용하여 제1 번역모델(DNN-1)을 학습시키고, 입력이 음성문장이고 정답이 글로스의 시퀀스인 학습데이터를 이용하여 제2 번역모델(DNN-2)을 학습시키는 학습부(210), 수어-음성 번역 모델(110) 및 음성-수어 번역 모델(120)의 양방향 번역의 결과물을 상기 학습데이터에 추가하여 학습 성능을 개선하는 번역결과 업데이트부(220)를 포함할 수 있다.

학습부(210)는 입력과 정답이 매칭된 학습데이터를 저장하는 데이터베이스를 포함할 수 있다. 글로스의 시퀀스로 이루어진 수어와 매칭되는 토큰 단위의 시퀀스로 이루어진 음성문장의 데이터셋을 하나 준비하면, 제1 및 제2 번역모델(DNN-1, DNN-2)를 훈련하기 위한 제1 학습데이터 및 제2 학습데이터를 생성할 수 있다. 학습부(210)는 입력이 수어이고 정답이 음성문장인 제1 학습데이터를 이용하여, 입력이 음성문장이고 정답이 수어인 제2 학습데이터를 생성할 수 있고, 그 반대도 가능하다. 학습부(210)는 도 3에 도시된 바와 같은 구조의 제1 번역모델(DNN-1) 및 제2 번역모델(DNN-2)에 학습데이터를 입력하고 출력과 정답을 비교하여 차이를 줄이는 방향으로 번역모델을 학습시킬 수 있다.

학습부(210)는 최초에 번역모델을 학습시킨 이후에, 정해진 기간마다 번역모델을 다시 학습시킬 수 있다. 학습부(210)가 학습시킨 번역모델의 가중치, 노드의 함수, 노드의 저장값은 수어 번역 장치(100)로 전달되어 학습된 번역모델로 이용될 수 있다.

제1 번역모델(DNN-1)은 입력데이터가 글로스의 시퀀스로 이루어진 수어를 포함하고, 정답데이터가 토큰 단위의 시퀀스로 이루어진 음성문장인 제1 학습데이터로 학습되며, 제2 번역모델(DNN-2)는 입력데이터가 토큰 단위의 시퀀스로 이루어진 음성문장을 포함하고, 정답데이터가 글로스의 시퀀스로 이루어진 수어인 제2 학습데이터로 학습될 수 있다.

번역결과 업데이트부(220)는 수어 번역 장치(100)로부터 수어-음성문장 데이터셋을 수신하여 학습데이터를 준비할 수 있다. 번역결과 업데이트부(220)는 수어 번역 장치(100)의 수어-음성 번역 모델(110)에서, 수어인식부(111)가 인식한 글로스의 시퀀스와 글로스-음성 번역부(112)가 번역한 토큰 단위의 시퀀스로 이루어진 음성문장을 매칭한 데이터를 수신할 수 있다. 또한, 번역결과 업데이트부(220)는 수어 번역 장치(100)의 음성-수어 번역 모델(120)에서, 음성인식부(121)가 인식한 토큰 단위의 시퀀스로 이루어진 음성문장과 음성-글로스 번역부(122)가 번역한 글로스의 시퀀스를 매칭한 데이터를 수신할 수 있다.

번역결과 업데이트부(220)는 수어 번역 장치(100)가 수어와 음성 언어를 양방향으로 번역한 결과물을 수신할 수 있고, 사용자로부터 입력될 수 있는 번역 결과의 정확성에 관한 피드백에 기초하여 새로운 학습데이터를 생성하여 학습부(210)에 제공할 수 있다. 따라서, 본 발명의 일실시예는 수어와 음성 언어의 양방향 번역 결과물에 기초하여 번역모델을 학습시키기 위한 학습데이터를 생성할 수 있고, 이러한 학습데이터를 이용하여 번역모델을 반복하여 학습시킬 수 있으므로 번역 정확도를 지속적으로 개선할 수 있다.

도 4는 본 발명의 일실시예에 따른 수어-음성 번역 및 음성-수어 번역을 예시적으로 나타낸 도면이다.

도 4의 (a)에 도시된 바와 같이, 글로스-음성 번역부(112)의 제1 번역모델(DNN-1)의 인코더(EN)에 글로스의 시퀀스('집'->'불')를 입력(Din)하면, 디코더(DE)에서 순차적으로 3개의 토큰('집에', '불이', '났어요')을 출력(Dout)한다. 도 4의 (b)에 도시된 바와 같이, 음성-글로스 번역부(122)의 제2 번역모델(DNN-2)의 인코더(EN)에 토큰의 시퀀스('집에'->'불이'->'났어요')를 입력(Din)하면, 디코더(DE)에서 순차적으로 2개의 글로스('집', '불')를 출력(Dout)한다.

도 4의 (b)에 도시된 바와 같이 음성 언어를 수어로 번역하는 경우를 참조하면, 글로스가 일반적으로 함축적인 의미를 갖고 글로스에는 높임말이나 조사 등이 존재하지 않기 때문에 음성 언어를 수어로 번역하는 과정에서는 음성문장이 갖는 정보가 소멸할 수 있다. 반대로, 도 4의 (a)에 도시된 바와 같이 수어를 음성 언어로 번역하는 경우를 참조하면, 두개의 글로스('집'과 '불')의 입력(Din)에 의해 3개의 토큰('집에', '불이', '났어요')을 출력(Dout)하고, 글로스에 없는 '에', '이' 와 같은 조사가 추가되고, '났습니다' '났어' '났어요'와 같은 다양한 어체들 중에서 '났어요'를 선택하여 출력(Dout)하기 위하여, 수어를 음성 언어로 번역하는 과정에서 수어가 갖는 정보 이외에 부가적인 정보가 더 필요할 수 있다.

본 발명의 일실시예는 번역의 자연스러움을 향상시키기 위하여 상황, 감정, 방향, 그 밖의 다양한 정보에 관련된 부가조건을 더 이용할 수 있다. 본 발명의 일실시예에 따른 글로스를 이용한 수어 번역 장치(100)는, 번역의 자연스러움을 향상시킬 수 있는 부가조건을 추출하고 저장하며 제공하는 부가조건 관리부(130)를 더 포함하며, 제1 번역모델(DNN-1)은 부가조건이 글로스의 시퀀스와 함께 입력되는 경우, 부가조건에 따라 음성문장을 변경시켜 출력할 수 있다.

부가조건을 더 이용하는 경우, 제1 학습데이터의 입력은 글로스의 시퀀스와 하나 이상의 부가조건을 포함하고, 제1 학습데이터의 정답은 글로스의 시퀀스와 부가조건에 대응하는 하나 이상의 음성문장을 포함할 수 있다. 부가조건은 입력데이터에서 상기 글로스의 시퀀스보다 앞에 위치하며, 글로스의 시퀀스가 포함하지 않고 음성문장을 완성하기 위하여 필요한 정보일 수 있다. 예를 들어 부가조건은 어체, 감정, 방향 중에서 적어도 하나를 포함할 수 있다.

아래 표 2는 제1 학습데이터의 일부를 나타낸 표이다.

	부가조건	글로스의 시퀀스		단어의 시퀀스
1	<격식체>	집	불	댁내에 화재가 발생했습니다
	<반말>			집에 불 났어
	<아래>			아래 집에 불이 났어요
	<놀람>			집에 불이 났어요 !

부가조건은 <격식체>, <반말> 등의 어체에 관한 정보이거나, <아래>, <위>, <오른쪽>, <왼쪽> 등의 방향에 관한 정보이거나, <놀람>, <의문>, <부정> 등의 감정에 관한 정보일 수 있다. 부가조건은 본 명세서의 기재에 한정되지 않는다. 부가조건은 자연스러운 음성문장을 생성하기 위한 다양한 정보들을 포함한다. 상기 표 2와 같이, 제1 학습데이터의 입력은 글로스의 시퀀스 및 글로스의 시퀀스에 포함되지 않은 정보를 보완할 수 있는 부가조건들을 포함할 수 있으며, 정답데이터는 글로스의 시퀀스와 동일한 의미를 갖되 부가조건이 포함하는 정보가 반영된 토큰의 시퀀스를 부가조건마다 포함할 수 있다.

도 5a, 도 5b, 도 5c, 도 5d는 본 발명의 일실시예에 따른 부가조건을 이용한 수어-음성 번역을 예시적으로 나타낸 도면이다.

도 5a에 도시된 바와 같이, 부가조건을 포함하는 제1 학습데이터로 학습된 제1 번역모델(DNN-1)에, 부가조건와 시퀀스로 구성된 입력(<격식체>->'집'->'불')을 입력(Din)하면, 집과 불에 해당하는 언어적 의미를 번역하고 부가조건인 격식체를 반영한 단어의 시퀀스('댁내에', '화재가', '발생했습니다')를 출력(Dout)한다.

도 5b에 도시된 바와 같이, 부가조건을 포함하는 제1 학습데이터로 학습된 제1 번역모델(DNN-1)에, 부가조건와 시퀀스로 구성된 입력(<반말>->'집'->'불')을 입력(Din)하면, 집과 불에 해당하는 언어적 의미를 번역하고 부가조건인 반말을 반영한 단어의 시퀀스('집에', '불', '났어')를 출력(Dout)한다.

도 5c에 도시된 바와 같이, 부가조건을 포함하는 제1 학습데이터로 학습된 제1 번역모델(DNN-1)에, 부가조건와 시퀀스로 구성된 입력(<아래>->'집'->'불')을 입력(Din)하면, 집과 불에 해당하는 언어적 의미를 번역하고 부가조건인 방향(아래)을 반영한 단어의 시퀀스('아래', '집에', '불', '났어')를 출력(Dout)한다.

도 5d에 도시된 바와 같이, 부가조건을 포함하는 제1 학습데이터로 학습된 제1 번역모델(DNN-1)에, 부가조건와 시퀀스로 구성된 입력(<놀람>->'집'->'불')을 입력(Din)하면, 집과 불에 해당하는 언어적 의미를 번역하고 부가조건인 감정(놀람)을 반영한 단어의 시퀀스('집에', '불이', '났어요 !')를 출력(Dout)한다.

다시 도 1을 참조하면, 부가조건은 부가조건 관리부(130)에서 관리될 수 있다. 부가조건은 글로스의 시퀀스로 이루어진 수어 또는 수어 이외의 출처에서 획득하거나 미리 저장되어 있는 정보로부터 획득할 수 있다. 부가조건 관리부(130)는 수어 사용자와 음성 언어 사용자의 대화내용이나, 수어 사용자 또는 음성 언어 사용자의 개인정보, 현재위치 등의 정보에 기초하여 부가조건을 추출할 수 있다.

예를 들어, 음성 언어 사용자가 <반말> 어체로 말하는 경우, 부가조건 관리부(130)는 수어 사용자가 <격식체> 어체로 말하도록 <격식체> 라는 부가조건을 제1 번역모델(DNN-1)의 입력으로 제공할 수 있다. 또는, 부가조건 관리부(130)는 음성 언어 사용자와 수어 사용자의 현재 위치, 개인정보, 대화내용 등 다양한 정보들에 기초하여, 알맞은 부가조건을 제1 번역모델(DNN-1)의 입력으로 제공할 수 있다.

본 발명의 일실시예에 따른 번역모델 학습장치(200)는, 번역의 자연스러움을 향상시킬 수 있는 부가조건을 학습데이터에 추가하여 학습 성능을 개선하는 부가조건 업데이트부(230)를 더 포함할 수 있다. 부가조건 업데이트부(230)는 수어 번역 장치(100)로부터 부가조건이 반영된 수어-음성문장 데이터셋을 수신하여 학습데이터를 준비할 수 있다. 부가조건 업데이트부(230)는 수어 번역 장치(100)의 수어-음성 번역 모델(110)에서, 부가조건 관리부(130)가 부여한 부가조건, 수어인식부(111)가 인식한 글로스의 시퀀스, 및 글로스-음성 번역부(112)가 번역한 토큰 단위의 시퀀스로 이루어진 음성문장을 매칭한 데이터를 수신할 수 있다. 부가조건 업데이트부(230)는 사용자로부터 입력될 수 있는 번역 결과의 정확성에 관한 피드백에 기초하여 부가조건이 반영된 새로운 학습데이터를 생성하여 학습부(210)에 제공할 수 있다.

따라서, 본 발명의 일실시예는 부가조건이 반영된 번역 결과물에 기초하여 부가조건이 포함된 새로운 학습데이터를 생성할 수 있고, 이러한 학습데이터를 이용하여 번역모델을 반복하여 학습시킬 수 있으므로 번역의 자연스러움을 지속적으로 개선할 수 있다. 상술한 바와 같이, 본 발명의 일실시예에 따르면, 상황 또는 감정 등의 부가조건을 더 입력받아 수어를 음성 언어로 번역할 때 반영하여, 상황에 알맞는 자연스러운 번역을 제공할 수 있다.

이상 본 발명을 구체적인 실시예를 통하여 상세히 설명하였으나, 이는 본 발명을 구체적으로 설명하기 위한 것으로, 본 발명은 이에 한정되지 않으며, 본 발명의 기술적 사상 내에서 당해 분야의 통상의 지식을 가진 자에 의해 그 변형이나 개량이 가능함은 명백하다고 할 것이다.

본 발명의 단순한 변형 내지 변경은 모두 본 발명의 영역에 속하는 것으로 본 발명의 구체적인 보호 범위는 첨부된 특허청구범위에 의하여 명확해질 것이다.

100: 수어 번역 장치
110: 수어-음성 번역 모델
111: 수어인식부
112: 글로스-음성 번역부
113: 음성생성부
120: 음성-수어 번역 모델
121: 음성인식부
122: 음성-글로스 번역부
123: 영상생성부
130: 부가조건 관리부
200: 번역모델 학습장치
210: 학습부
220: 번역결과 업데이트부
230: 부가조건 업데이트부
Din: 입력
Dout: 출력
DNN-1: 제1 번역모델
DNN-2: 제2 번역모델
EN: 인코더
DE: 디코더

Claims

수어 영상에서 수어를 인식하여 글로스의 시퀀스를 출력하는 수어인식부, 상기 수어인식부가 출력하는 글로스의 시퀀스를 입력받아 토큰 단위의 시퀀스 형태로 음성문장을 출력하는 제1 번역모델을 포함하는 글로스-음성 번역부, 및 상기 글로스-음성 번역부가 출력하는 토큰 단위의 시퀀스 형태인 음성문장을 TTS 변환 엔진을 통해 음성으로 변환하는 음성생성부를 포함하는 수어-음성 번역 모델;
음성을 STT 변환 엔진을 통해 토큰 단위의 시퀀스 형태의 음성문장으로 출력하는 음성인식부, 상기 음성인식부가 출력하는 상기 토큰 단위의 시퀀스 형태의 음성문장을 입력받아 글로스의 시퀀스 형태로 수어를 출력하는 제2 번역모델을 포함하는 음성-글로스 번역부, 및 상기 음성-글로스 번역부가 출력하는 상기 글로스의 시퀀스 형태인 수어를 연속적인 동작이 표현된 수어 영상으로 생성하는 영상생성부를 포함하는 음성-수어 번역 모델;을 포함하고,
상기 제1 번역모델은
입력이 수어의 문법에 따라 나열된 글로스의 시퀀스이고 정답이 음성 언어 문법에 따라 나열된 토큰 단위의 시퀀스 형태인 음성문장인 학습데이터로 학습되어, 수어의 문법에 따른 수어를 음성 언어 문법에 따른 음성문장으로 번역을 수행하는 딥러닝 신경망 네트워크이고,
상기 수어인식부로부터 수어의 문법에 따라 나열된 상기 글로스의 시퀀스를 입력받아 임의 크기의 벡터로 출력하는 순환신경망 네트워크 구조의 인코더; 및
상기 인코더가 출력하는 벡터를 입력받아 음성 언어 문법에 따라 나열된 토큰 단위의 음성문장을 출력하는 순환신경망 네트워크 구조의 디코더를 포함하며,
상기 제2 번역모델은
입력이 음성 언어 문법에 따라 나열된 토큰 단위의 시퀀스 형태인 음성문장이고 정답이 수어의 문법에 따라 나열된 글로스의 시퀀스인 학습데이터로 학습되어, 음성 언어 문법에 따른 음성문장을 수어의 문법에 따른 수어로 번역을 수행하는 딥러닝 신경망 네트워크이고,
상기 음성인식부로부터 음성 언어 문법에 따라 나열된 토큰 단위의 시퀀스 형태인 음성문장을 입력받아 임의의 크기의 벡터로 출력하는 순환신경망 네트워크 구조의 인코더; 및
상기 인코더가 출력하는 벡터를 입력받아 글로스의 시퀀스를 출력하는 순환신경망 네트워크 구조의 디코더를 포함하며,
상기 글로스는 하나 또는 복수의 제스처로 구성되는 수어의 의미단위이며,
상기 글로스의 시퀀스는 글로스가 정해진 순서에 따라 나열되는 것인, 글로스를 이용한 수어 번역 장치.
삭제
삭제
삭제
삭제
청구항 1에 있어서,
번역의 자연스러움을 향상시킬 수 있는 부가조건을 추출하고 저장하며, 상기 제1 번역모델에 제공하는 부가조건 관리부를 더 포함하며,
상기 제1 번역모델은
상기 부가조건이 상기 글로스의 시퀀스와 함께 입력되는 경우, 상기 부가조건이 포함하는 정보를 반영한 음성문장을 출력하고,
상기 부가조건은 상기 글로스의 시퀀스가 포함하지 않으면서 음성문장을 완성하기 위하여 필요한 정보이고, 상기 글로스의 시퀀스보다 먼저 상기 제1 번역모델에 입력되는, 글로스를 이용한 수어 번역 장치.
청구항 6에 있어서,
상기 부가조건은
수어 사용자와 음성 언어 사용자의 대화내용, 개인정보, 현재위치 중의 어느 하나에 기초하여 부가조건 관리부가 추출하는 정보인, 글로스를 이용한 수어 번역 장치.
입력이 수어의 문법에 따라 나열된 글로스의 시퀀스이고 정답이 음성 언어 문법에 따라 나열된 토큰 단위의 시퀀스 형태인 음성문장인 학습데이터를 이용하여 제1 번역모델을 학습시키고, 입력이 음성 언어 문법에 따라 나열된 토큰 단위의 시퀀스 형태인 음성문장이고 정답이 수어의 문법에 따라 나열된 글로스의 시퀀스인 학습데이터를 이용하여 제2 번역모델을 학습시키는 학습부;
수어-음성 번역 모델 및 음성-수어 번역 모델의 양방향 번역의 결과물을 사용자로부터 입력되는 번역 결과의 정확성에 관한 피드백에 기초하여 상기 학습데이터에 추가하여 학습 성능을 개선하는 번역결과 업데이트부를 포함하고,
상기 제1 번역모델은
수어의 문법에 따른 수어를 음성 언어 문법에 따른 음성문장으로 번역을 수행하는 딥러닝 신경망 네트워크이고,
상기 수어의 문법에 따라 나열된 상기 글로스의 시퀀스를 입력받아 임의 크기의 벡터로 출력하는 순환신경망 네트워크 구조의 인코더; 및
상기 인코더가 출력하는 벡터를 입력받아 음성 언어 문법에 따라 나열된 토큰 단위의 음성문장을 출력하는 순환신경망 네트워크 구조의 디코더를 포함하며,
상기 제2 번역모델은
음성 언어 문법에 따른 음성문장을 수어의 문법에 따른 수어로 번역을 수행하는 딥러닝 신경망 네트워크이고,
상기 음성 언어 문법에 따라 나열된 토큰 단위의 시퀀스 형태인 음성문장을 입력받아 임의의 크기의 벡터로 출력하는 순환신경망 네트워크 구조의 인코더; 및
상기 인코더가 출력하는 벡터를 입력받아 글로스의 시퀀스를 출력하는 순환신경망 네트워크 구조의 디코더를 포함하며,
상기 글로스는 하나 또는 복수의 제스처로 구성되는 수어의 의미단위이고,
상기 글로스의 시퀀스는 글로스가 정해진 순서에 따라 나열되는 것인, 글로스를 이용한 번역모델 학습장치.
청구항 8에 있어서,
번역의 자연스러움을 향상시킬 수 있는 부가조건을 상기 학습데이터에 추가하여 학습 성능을 개선하는 부가조건 업데이트부를 더 포함하고,
상기 부가조건은 상기 글로스의 시퀀스가 포함하지 않으면서 음성문장을 완성하기 위하여 필요한 정보이고, 상기 제1 번역모델을 학습시키기 위한 학습데이터의 입력에서 상기 글로스의 시퀀스보다 먼저 상기 제1 번역모델에 입력되도록 나열되는, 글로스를 이용한 번역모델 학습장치.