KR102370993B1

KR102370993B1 - 신경망 기반의 실시간 수어 통역 및 대화를 지원하는 인공지능 시스템

Info

Publication number: KR102370993B1
Application number: KR1020210066652A
Authority: KR
Inventors: 홍성은
Original assignee: 주식회사 디블렌트
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2022-03-07

Abstract

본 발명은 신경망을 실시간 수어 통역 및 대화를 지원하는 인공지능 시스템에 관한 것이다. 본 발명에 따른 신경망을 이용한 수어 통역 방법은 제1 사용자로부터 연속된 수어 영상을 입력받는 단계; 상기 수어 영상으로부터 분절된 의미를 갖는 단위 영상의 시퀀스를 추출하는 단계; 및 상기 단위 영상의 시퀀스를 학습된 제1 신경망에 입력하여 출력된 음성 의미 시퀀스를 제공하는 단계를 포함하고, 상기 제1 신경망은, 상기 제1 신경망으로부터 출력된 실제 음성 의미 시퀀스와, 상기 실제 음성 의미 시퀀스를 입력으로 제2 신경망을 통해 출력된 가상 단위 영상 시퀀스를 제1 신경망의 입력으로 출력된 가상 음성 의미 시퀀스 간의 차이를 통해 학습한 것이 바람직하다. 본 발명에 따르면 수어 영상으로부터 의미를 추출하는 신경망의 효율적인 학습을 통해 청인과 농인 간의 실시간 대화를 원활히 진행할 수 있다. 또한, 본 발명은 청인과 농인 간의 대화를 통해 실시간 피드백을 수집하고 이를 통해 로컬에서 신경망을 맞춤형으로 학습시킴으로써 보다 개인별 특성에 맞춘 통역 서비스를 제공할 수 있다.

Description

신경망 기반의 실시간 수어 통역 및 대화를 지원하는 인공지능 시스템{Artificial Intelligence sign language service system with real-time translation and communication based on neural network}

본 발명은 신경망을 이용하여 실시간 수어 통역을 지원하는 시스템에 관한 것으로 수어와 음성 언어를 통한 의사소통을 지원하는 방법에 관한 것이다.

청각장애인들은 소리로 말을 배우는데 어려움이 있어서 시각적으로 인식 가능한 언어를 사용한다. '수어 (手語, Sign language)'는 음성이나 음성의 발음을 기초로 표현된 문자의 인식이 어려운 농인에게 시각적으로 의사를 전달하는 수단으로, 발화자의 손이나 표정을 통해 의사를 전달할 수 있다.

또한, 수어는 각 국에서 사용하는 국어와는 문법 체계가 다른 고유한 언어로 독자적인 문법을 갖고, 정해진 의미를 갖는 몸짓(제스처)를 수행함으로써 의사를 표시한다.

수어는 손과 손가락의 모양(수형), 손바닥의 방향(수향), 손의 위치(수위), 손의 움직임(수동) 등에 따라 의미가 달라진다. 또한 같은 동작을 하더라도 어떤 표정을 짓느냐에 따라 다른 의미가 된다.

따라서 음성 언어와 독립된 수어 만의 고유의 문법과 표현 방식을 일반적인 청인이 습득하기 위해서는 많은 노력과 시간이 소요되게 된다.

하지만, 최근 인공지능 기술의 발달로 인공지능 기술들이 다양한 분야에 적용되고 있으며 영상 인식 분야에서도 기존의 영상 처리 방식을 대신하여 신경망 모델을 통해 보다 직관적으로 영상에 포함된 객체의 의미를 추출하도록 하고 있다.

이에 따라, 수어를 통역하는 분야에도 영상 내 수어를 인식하여 음성으로 번역하는데 있어서 신경망을 이용하는 방법이 제안되고 있다(선행특허 :한국등록특허공보 10-2081854). 신경망을 이용한 수어의 정확한 인식을 위해서는, 신경망 내 레이어들이 영상으로부터 수어 의미를 갖는 움직임 벡터들을 배경으로부터 잘 추출할 수 있어야 하며 다양한 환경 조건을 고려한 학습 데이터들이 필요하다.

따라서, 선행특허는 영상 내 2차원 및 3차원 정보를 추출하는 전처리 하는 과정을 통해 수어를 인식하도록 하고 있다.

또한, 신종 바이러스 코로나19(COVID-19)의 확산에 따라, 수어 통역 분야에 있어서도 비대면 기반의 통역 방법이 더욱 요구될 것으로 보인다.

본 발명은 청인과 농인 간의 실시간 대화를 위한 신경망 기반의 통역 방법을 제안하는 것을 목적으로 한다.

또한, 본 발명은 수어 영상으로부터 의미를 추출하는 신경망의 효율적인 학습 방법을 제안하는 것을 목적으로 한다.

또한, 본 발명은 청인과 농인 간의 대화를 통해 실시간 피드백을 수집하고 이를 통해 로컬에서 신경망을 맞춤형으로 학습시키는 방법을 제안하는 것을 목적으로 한다.

또한, 본 발명은 패럴림픽과 같은 장애인 스포츠 분야에 있어서 농인 선수와 청인 코치의 실시간 의사소통을 위한 서비스 방법을 제안하는 것을 목적으로 한다.

상기 기술적 과제를 해결하기 위한 본 발명에 따른 신경망을 이용한 수어 통역 방법은 제1 사용자로부터 연속된 수어 영상을 입력받는 단계; 상기 수어 영상으로부터 분절된 의미를 갖는 단위 영상의 시퀀스를 추출하는 단계; 및 상기 단위 영상의 시퀀스를 학습된 제1 신경망에 입력하여 출력된 음성 의미 시퀀스를 제공하는 단계를 포함하고, 상기 제1 신경망은, 상기 제1 신경망으로부터 출력된 실제 음성 의미 시퀀스와, 상기 실제 음성 의미 시퀀스를 입력으로 제2 신경망을 통해 출력된 가상 단위 영상 시퀀스를 제1 신경망의 입력으로 출력된 가상 음성 의미 시퀀스 간의 차이를 통해 학습한 것이 바람직하다.

제2 사용자로부터 음성 의미 시퀀스를 입력 받는 단계; 및 상기 입력된 음성 의미 시퀀스로부터 분절된 단위 음성 의미의 순차 입력으로, 제2 신경망으로부터 생성된 가상의 단위 영상의 시퀀스를 제1 사용자에게 제공하는 단계를 더 포함한다.

상기 제2 신경망은 단위 음성 의미로부터 단위 영상을 출력하도록 학습된 제2 신경망을 통해 상기 음성 의미 시퀀스로부터 출력된 가상 단위 영상 시퀀스와, 상기 추출된 단위 영상 시퀀스의 순차적 오차를 이용하여 학습한 것이 바람직하다.

상기 제2 신경망은, 상기 단위 음성 의미로부터 가상의 단위 영상을 생성하여 출력하되, 상기 가상의 단위 영상의 진위여부를 판단하는 제3 신경망의 출력과 경쟁적으로 제1 학습하고, 상기 제1 신경망의 실제 단위 영상으로부터 출력된 단위 음성 의미를 입력으로 생성된 가상의 단위 영상과 상기 실제 단위 영상 간의 차이를 손실로 정의하여 제2 학습한 것이 바람직하다.

상기 제1 신경망 모델은 컨볼루션 레이어로 구성된 인코더(encoder)를 통해 상기 단위 영상에서 상기 음성 의미를 정의하는 특징 벡터를 출력하도록 학습된 것이 바람직하다.

상기 제2 신경망 모델은 디컨볼루션 레이어로 구성된 디코더(decoder)를 통해 상기 음성 의미에 대한 특징 벡터로부터 단위 영상을 생성하여 출력하도록 학습된 것이 바람직하다.

상기 기술적 과제를 해결하기 위한 본 발명에 따른 신경망을 이용한 수어 통역 단말은 제1 사용자로부터 연속된 수어 영상을 입력받는 수어 영상 입력부; 상기 수어 영상으로부터 분절된 의미를 갖는 단위 영상의 시퀀스를 추출하는 단위 영상 추출부; 및 상기 단위 영상의 시퀀스를 학습된 제1 신경망에 입력하여 출력된 음성 의미 시퀀스를 제공하는 음성 의미 추출부를 포함하고, 상기 제1 신경망은, 상기 제1 신경망으로부터 출력된 실제 음성 의미 시퀀스와, 상기 실제 음성 의미 시퀀스를 입력으로 제2 신경망을 통해 출력된 가상 단위 영상 시퀀스를 제1 신경망의 입력으로 출력된 가상 음성 의미 시퀀스 간의 차이를 통해 학습한 것이 바람직하다.

제2 사용자로부터 음성 의미 시퀀스를 음성 의미 입력부; 및 상기 입력된 음성 의미 시퀀스로부터 분절된 단위 음성 의미의 순차 입력으로, 제2 신경망으로부터 생성된 가상의 단위 영상의 시퀀스를 제1 사용자에게 제공하는 수어 영상 제공부를 더 포함한다.

본 발명에 따르면 수어 영상으로부터 의미를 추출하는 신경망의 효율적인 학습을 통해 청인과 농인 간의 실시간 대화를 원활히 진행할 수 있다.

또한, 본 발명은 청인과 농인 간의 대화를 통해 실시간 피드백을 수집하고 이를 통해 로컬에서 신경망을 맞춤형으로 학습시킴으로써 보다 개인별 특성에 맞춘 통역 서비스를 제공할 수 있다.

또한, 본 발명은 학습 데이터를 가상으로 생성하고 이를 통해 신경망을 학습 시킴과 동시에 청인의 음성 언어를 농인에게 보다 사실적으로 전달할 수 있도록 함으로써 서비스의 효율성을 높일 수 있다.

도 1은 본 발명의 일 실시예에 따른 수어 통역 시스템을 나타낸 예시도이다.
도 2는 본 발명의 일 실시예에 따른 신경망을 이용한 수어 통역 방법을 나타낸 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 제1 신경망 모델을 나타낸 예시도이다.
도 4 내지 6은 본 발명의 일 실시예에 따른 제2 신경망 모델 및 학습 방법을 나타낸 예시도이다.
도 7은 본 발명의 일 실시예에 따른 서버 기반 신경망의 학습 방법을 나타낸 예시도이다.
도 8은 본 발명의 일 실시예에 따른 수어 통역 단말의 구성을 나타낸 블록도이다.

이하의 내용은 단지 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시 되지 않았지만 발명의 원리를 구현하고 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시 예들은 원칙적으로, 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이외같이 특별히 열거된 실시 예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다.

또한, 발명을 설명함에 있어서 발명과 관련된 공지 기술에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하에는 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예에 대해 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 신경망 기반의 실시간 수어 통역 및 대화를 지원하는 인공지능 시스템을 나타내는 도이다.

본 발명의 일 실시예에 따른 시스템은 실시간 수어 통역을 제공하는 통역 단말(100) 또는 서버(미도시)와 이를 통해 상호 의사를 표시하는 사용자(200, 201)로 구성될 수 있다.

농인 사용자(200)는 통역 단말(100)에 포함된 카메라를 통해 직접 수어 동작을 영상으로 촬영하여 의사를 표시할 수 있으며 또는 수어 동작을 미리 촬영한 영상 클립 또는 동작 이모티콘을 통해 입력할 수 있다.

통역 단말(100)의 수어 영상 입력부는 농인 사용자(200)의 의사가 입력되면 신경망(50)을 이용하여 수어에 포함된 음성 의미를 추출하는 음성 의미 추출부에 수어 영상을 전달하고 음성 의미를 추출하도록 한다.

추출된 음성 의미는 통역 단말(100)의 디스플레이부를 통해 텍스트로 표시되거나 스피커부를 통해 음성으로 직접 출력할 수 있다.

다음, 청인 사용자(201)의 경우 의사를 전달하고자 음성 의미를 입력할 수 있다. 음성 의미를 단말(100)의 마이크부를 통해 음성으로 입력하는 것도 가능하며 키보드나 터치패드를 통해 텍스트로 입력할 수 있다.

통역 단말(100)은 입력된 음성 의미를 농인이 인식하기 용이하도록 영상으로 생성하여 제공할 수 있다.

이때 영상은 음성 의미와 대응하여 수어-국어 사전을 통해 미리 저장된 수어 영상을 추출하여 제공하거나, 직접 영상을 생성하여 제공해 줄 수 있다. 영상의 생성은 수어 영상을 통해 음성 의미를 추출하는 신경망을 이용하여, 학습된 별도의 신경망을 통해 생성될 수 있으며, 농인은 생성된 수어 영상을 통해 청인의 의사를 직관적으로 인식할 수 있으며 실시간으로 대화가 가능하도록 한다.

통역 단말(100)은 도 1에 도시된 바와 같이 디스플레이부를 포함하는 장치로 구성될 수 있으며, 적어도 2면의 각 디스플레이부로 구성되거나 한면의 디스플레이부가 폴더블(foldable) 하도록 구현되어 양 측에 위치하는 사용자(200) 간의 인터페이스를 제공해 줄 수 있도록 할 수 있다.

본 실시예에 따른 시스템은 통역 단말(100)을 매개로 농인과 청인 간의 자유로운 의사 소통을 지원하며, 예를 들어 스포츠 게임에서 농인 선수와 청인 코치간의 자유로운 코칭이나 작전 지시를 지원한다. 스포츠 게임의 경우 농구, 축구, 양궁, 배드민턴, 테니스, 볼링 등과 같이 세트가 구분되는 종목에 있어서 세트 사이 또는 작전 시간을 통해 코치가 전술을 지시할 수 있도록 지원해 준다.

그 외 골프나 스키, 수영 등 자세가 중요한 종목에 대해서 대면하여 직접 의사 소통하고 자세를 코칭해 줌으로써 선수가 직접적으로 코칭 내용을 습득할 수 있도록 한다.

또한, 본 실시예에서 통역 단말(100)의 통역 서비스는 클라우드 기반의 서버로 제공되는 것도 가능하다.

즉, 서버는 네트워크를 통해 수신한 수어 영상을 통해 음성 의미를 번역하여 사용자(200)에게 제공해 줄 수 있으며, 사용자(200)의 음성 의미를 역으로 수어 영상으로 생성하여 농인에게 제공해 주는 것도 가능하다.

또한, 서버를 통해 그룹간 통신을 지원할 수 있으며, 이를 통해 원격으로 다양한 팀 회의나, 단체 스포츠와 같은 경우에도 자유롭게 농인과 청인이 의사소통할 수 있도록 지원한다.

이하, 도 2를 참고하여 본 실시예에 따른 신경망을 이용한 수어 통역 방법에 대하여 보다 상세히 설명한다.

본 실시예에 따른 수어 통역을 위해서 먼저 제1 사용자(200)로부터 연속된 수어 영상을 입력 받는다(S100).

다음, 입력된 수어 영상으로부터 분절된 의미(예를 들어, 글로스(gloss))를 갖는 단위 영상의 시퀀스를 추출한다(S200). 이때 단위 영상은 하나의 몸짓 또는 손짓과 같은 제스처를 포함하는 단일 프레임 또는 복수의 연속된 몸짓에 대한 정보로 하나의 의미를 정의하는 복수의 프레임으로 구성될 수 있다.

예를 들어 손의 모양과 손이 움직이는 방향에 따라 의미가 달라지는 경우 손의 움직이는 방향까지를 포함하는 단위 영상을 추출할 수 있으며, 또는 손의 모양은 같으나 표정이 달라지면 의미가 달라지는 경우 사용자(200)의 표정의 변화까지를 포함하는 단위 영상으로 추출할 수 있다.

이때 추출을 위해서는 영상 내 객체의 의미를 구분하는 습관이나, 일시적인 휴지시간을 인식하고 영상을 구분할 수 있다.

또는 영상 내 객체의 움직임을 정의하는 특징 벡터의 변화를 이용하여 임계치 이상의 큰 변화를 기점으로 단위 영상을 구분할 수 있다. 또는 프레임 별로 손의 위치의 변경 또는 손의 움직이는 속도를 이용하여 속도가 감소하고, 위치 변경과 함께 이동 속도가 가속되는 시점을 학습하고 이를 기준으로 단위 영상을 추출함으로써 분절된 의미에 해당하는 각각의 영상 프레임을 구분할 수 있다.

다음, 분절된 단위 영상의 시퀀스를 학습된 제1 신경망에 입력하여 출력된 음성 의미 시퀀스를 제공한다(S300).

즉, 사용자(200)가 수어로 표시한 의사를 정확히 이해하기 위해서는 일반적인 음성 언어와 같이 전체적인 문장 구조에 맞추어 의미를 해석할 필요가 있다.

따라서, 제1 신경망은 단위 영상의 시퀀스를 입력 받고, 각각의 단위 영상에 대한 의미를 다시 조합하여 완성된 문장의 형태로 제공할 수 있다.

이하, 본 실시예에 따른 신경망의 동작에 대하여 도 3을 참조하여 보다 상세히 설명한다.

도 3을 참조하면, 신경망(50)은 사용자(200)가 입력한 수어 영상(32)으로부터 추출된 각각의 단위 영상(34)을 시리즈로 입력 받을 수 있다.

신경망(50)은 단위 영상(34)에 포함된 객체의 손과 얼굴과 같은 특징점들을 추출하고, 특징점의 형태와 변화를 통해 음성 의미를 추출한다.

구체적으로 신경망(50)은 특징점을 레이어 내 커널을 통해서 추출하는 컨볼루션 레이어와, 추출된 특징점이 강조된 특징 맵을 평탄화하고, 분류를 수행하는 완전연결 레이어로 구성될 수 있다.

완전연결 레이어는 수어 사전에 따라 특징 맵에 따라 대응되는 분류의 확률 값을 예측하여 출력할 수 있다.

또한, 본 실시예에서 컨볼루션 레이어는 순환신경망 구조로 구성되어 이전 영상의 특징 정보들을 기억하도록 구현될 수 있다. 따라서 복수의 프레임을 포함하는 단위 영상에 대해서는 연속된 프레임 내 특징 정보들을 입력으로 수어 사전에 따른 분류 결과를 출력할 수 있다.

나아가, 본 실시예에서는 단위 영상의 시퀀스로 입력되므로 각각의 단위 영상에 대하여 추출된 음성 의미를 자연어의 문법에 따른 표현으로 조사와 어미를 구성하는 단계를 더 수행할 수 있다.

이상의 과정을 통해 생성된 음성 의미 시퀀스를 제2 사용자(201)에게 제공함으로써 제2 사용자(201)는 제1 사용자(200)가 수어로 표현한 의사를 음성 언어에 맞게 해석할 수 있다.

다음, 제1 사용자(200)의 의사 전달에 따라 제2 사용자(201)의 의사를 다시 제1 사용자(200)로 전달할 필요가 있다.

따라서, 본 실시예에 따른 수어 통역 방법은 제2 사용자(201)로부터 음성 의미 시퀀스를 입력 받는다.

상술한 바와 같이 제2 사용자(201)가 청인으로 음성 또는 문자로 의사의 표시가 가능한 경우 마이크를 통해 음성을 녹음하거나, 문자 입력을 통해 텍스트로 의사를 입력할 수 있다.

음성을 통해 녹음한 경우 음성을 텍스트로 변환하는 다양한 STT(Speech to Text) 모듈을 통해 인식할 수 있으며, 인식된 텍스트를 농인이 보다 편리하게 인식할 수 있도록 변환하기 위하여 제2 신경망에 입력할 수 있다.

따라서, 제2 사용자(201)로부터 입력된 음성 의미 시퀀스로부터 분절된 단위 음성 의미를 제2 신경망에 입력하고, 제2 신경망으로부터 생성된 가상의 단위 영상의 시퀀스를 제1 사용자(200)에게 제공한다.

즉, 농인인 제1 사용자(200)는 자신의 의사에 대한 응답으로 다시 수어 영상을 수신하여 보다 직관적이며 편리하게 정보를 전달 받고 대화가 가능하게 된다.

이때, 제2 신경망은 제1 신경망과 대칭적인 구조로 구성될 수 있다. 구체적으로 영상으로부터 압축된 특징 정보를 추출하는 제1 신경망에 대하여 대칭적으로 레이어를 구성하여, 압축된 특징 정보로부터 영상의 생성을 위한 객체의 벡터 정보들을 생성하도록 구성될 수 있다.

이상의 대칭적인 구조로 생성된 제1 신경망과 제2 신경망을 이용하여 농인과 청인은 상호 의사 소통이 가능하게 된다. 이때 의사 소통의 정확도는 제1 신경망과 제2 신경망이 상호 보완적으로 학습할수록 정확도가 높아질 수 있으므로 본 실시예에서는 신경망의 학습을 위한 논리 구조를 의사 소통 과정에 따라서 구현할 수 있다.

도 4를 참고하면, 제1 신경망(50)의 단위 영상으로부터 출력된 음성 의미를 기초로 가상의 단위 영상을 생성하는 제2 신경망(52)의 출력을 통해 오차를 학습하도록 네트워크를 구성할 수 있다.

즉, 실제 수어 영상과 제2 신경망(53)을 통해 생성된 가상의 영상의 차이를 줄여나가도록 양 신경망을 학습시킬 수 있다.

다만, 영상의 차이는 배경이나 환경적인 요소에 따라 발생할 수 있으므로, 본실시예에서는 학습을 위하여 제1 신경망 중 객체를 추출하고 객체의 움직임을 정의하는 특징 벡터를 추출하는 일부의 레이어의 출력과, 제2 신경망의 대응되는 레이어의 출력을 이용하여 학습을 수행하는 것도 가능하다.

나아가, 이러한 레이어를 랜덤하게 선택하는 것으로 학습을 수행할 수 있으며 따라서 레이어를 단위로 각각의 오차를 산출하고 효과를 높이도록 학습될 수 있다.

즉, 제1 신경망 모델의 컨볼루션 레이어로 구성된 인코더(encoder)를 통해 단위 영상에서 음성 의미를 정의하는 특징 벡터를 출력하도록 학습된 레이어와, 제2 신경망 모델의 디컨볼루션 레이어로 구성된 디코더(decoder)를 통해 음성 의미에 대한 특징 벡터로부터 단위 영상의 생성에 필요한 벡터를 출력하는 대칭되는 레이어들의 랜덤한 선택 및 출력을 통해 학습을 수행하는 것도 가능하다.

또한, 도 5를 참고하면, 농인이 표현한 의사 표시에 대한 인식의 정확도는 청인이 이해하여 입력한 음성 의미를 기초로 생성된 수어 영상의 생성 정확도로 판단할 수 있으며, 따라서 학습을 위한 네트워크의 구조를 제1 신경망(50)으로부터 생성된 음성 의미를 입력으로 가상의 영상을 생성하는 제2 신경망(52)과, 다시 제2 신경망(52)을 통해 생성된 영상으로 음성 의미를 추출하는 제1 신경망(50)으로 연속하여 구성할 수 있다.

이때, 학습을 위한 손실의 오차를 제1 신경망(50) 양측 각각의 출력된 음성 의미간의 차이로 정의하고 이때의 차이가 줄어드는 방향으로 제1 신경망(50) 내 레이어들과 제2 신경망(52)의 레이어들의 가중치를 갱신하는 것으로 수행할 수 있다.

또한, 본 실시예에서는 각각의 단위 영상의 음성 의미 뿐만 아니라 전체적인 시퀀스 내에서의 의미를 정확히 피악하는 것이 중요할 수 있으므로 오차를 각각의 음성 의미를 단위로 하는 손실항으로 구성하고 전체 시퀀스의 손실의 합이 최소가 되도록 학습하는 것도 가능하다.

즉, 제2 신경망(52)은 단위 음성 의미로부터 단위 영상을 출력하도록 학습된 제2 신경망(52)을 통해 상기 음성 의미 시퀀스로부터 출력된 가상 단위 영상 시퀀스와, 상기 추출된 단위 영상 시퀀스의 순차적 오차를 이용하여 학습한다.

나아가, 본 실시예에서 제2 신경망(52)의 출력으로 영상을 제1 사용자(200)에게 직접 제공하여 의사소통을 위해서는 출력된 영상의 현실 재현성을 높임으로써 실제 대화하는 것과 같은 감정의 전달력을 높이는 것도 가능하다.

따라서, 제2 신경망(52)은 상술한 학습 네트워크를 통해 인식의 정확도를 높임과 동시에 생성된 영상의 현실 재현성이나 감정 표현성을 높이는 방향으로 학습되는 것도 가능하다.

또한, 이때의 학습은 인식 정확도를 높이는 학습의 이후에 수행되거나, 이전에 수행되도록 하여 상호 영향을 줄일 수 있다. 바람직하게는 도 4와 같은 방식으로 특정 레이어 별로 대칭적으로 학습시키는 경우 영상의 재현성을 높이는 학습은 후행하여 수행될 수 있다.

구체적으로 제2 신경망(52)은 단위 음성 의미로부터 가상의 단위 영상을 생성하여 출력하되, 가상의 단위 영상의 진위여부를 판단하는 제3 신경망(54)의 출력과 경쟁적으로 제1 학습할 수 있다.

도 6을 참조하면, 제2 신경망의 제1 학습을 위해서는 별도의 진위 여부를 판단하는 제3 신경망(54)을 이용할 수 있다.

제3 신경망(54)은 입력된 영상의 언어적인 감정의 포함여부를 구분하도록 학습된 것일 수 있다. 즉, 영상 자체의 현실성이 아닌 감정의 표현력을 구분하여 어색하거나 감정을 해치는 부자연스러움을 구분하도록 학습된다.

따라서, 제2 신경망(52)의 경우 입력된 음성 의미 또는 랜덤 백터로부터 가상의 수어 영상을 생성하되 제3 신경망과의 경쟁적인 학습을 통해 감정의 표현력이 포함된 영상을 생성하도록 학습될 수 있다.

즉, 이상의 과정을 통해 잘 학습된 제2 신경망(52)은 다시 제1 신경망(50)의 학습 효과에 영향을 미치고 상호 보완을 통해 수어와 음성 언어 간의 의사 표현의 전달력을 높일 수 있게 된다.

또한, 본 실시예에서는 구현되는 어플리케이션의 특성 상 실시간 대화의 특징을 이용하여 학습되는 것도 가능하다.

예를 들어, 수어와 음성 언어간의 상호 전달이 진행되고 난 이후, 연속하여 동일한 의미의 수어나 음성이 재 입력되는 경우에는 의미 전달에 오류가 있음을 인식하고 보다 전달력을 높일 수 있도록 해당 입력 간의 차이를 통해 신경망이 내부의 레이어를 학습하도록 할 수 있다.

즉, 연속하여 입력된 수어 영상에 대한 음성 의미의 출력간의 차이가 줄어들도록 신경망을 로컬에서 학습시킴으로써 보다 실시간 대화환경에서 사용자(200, 201)들의 표현상의 특징을 학습할 수 있도록 한다.

또한, 이러한 로컬에서 학습을 수어가 이용되는 분야를 기준으로 그룹화하여 서버에서 학습되도록 할 수 있다. 즉 수어의 특성 상 특정 도메인 예를 들어 스포츠 또는 스포츠 내 특정 종목 별로 서버가 나누어서 신경망 모델을 관리하고, 동일한 종목에서 로컬 학습 내용을 취합하여 서버 내 신경망의 학습에 이용하는 경우 보다 도메인에 특화된 신경망 모델을 구축할 수 있다.

도 7을 참조하면, 로컬(100)에서 수집되는 다양한 신경망 내부의 갱신 정보, 특정 레이어의 가중치나 바이어스의 변경 값을 서버(100)가 수집하고 이를 취합하여 신경망을 학습시킴으로써 다양한 환경 및 특정 분야에 강인한 성능을 갖도록 할 수 있다.

이하, 도 8을 참조하여 상술한 통역 방법을 제공하는 단말(100)에 대하여 설명한다. 단말(100)은 데이터의 입력과 처리 및 출력이 가능한 장치의 형태로 스마트폰, 테블릿 PC 또는 서버와 같은 형태로 구현될 수 있다.

구체적으로 단말(100)은 수어 영상 입력부(110), 단위 영상 추출부(120), 음성 의미 추출부(130) 및 통신부(140)로 구성될 수 있다.

수어 영상 입력부(110)는 수어 통역을 위해서 제1 사용자(200)로부터 연속된 수어 영상을 입력 받는다. 구체적으로 단말(100) 내 카메라 모듈과 연동하여 영상을 직접 촬영하여 입력 받거나 또는 통신부를 통해 촬영된 영상을 입력 받는 것도 가능하다.

단위 영상 추출부(120)는 입력된 수어 영상으로부터 분절된 의미를 갖는 단위 영상의 시퀀스를 추출한다. 단위 영상은 하나의 몸짓 또는 손짓과 같은 제스처를 포함하는 단일 프레임 또는 복수의 연속된 몸짓에 대한 정보로 하나의 의미를 정의하는 복수의 프레임으로 구성될 수 있다.

음성 의미 추출부(130)는 분절된 단위 영상의 시퀀스를 학습된 제1 신경망에 입력하여 출력된 음성 의미 시퀀스를 사용자(201)에게 제공한다. 음성 의미 추출부는 제1 신경망에서 출력된 음성 의미 각각을 자연어 처리 프로세서를 통해 완성된 형태의 문장으로 출력하는 것도 가능하다.

즉, 음성 의미 추출부(130)는 제1 신경망을 이용하여 단위 영상의 시퀀스를 입력 받고, 각각의 단위 영상에 대한 의미를 다시 조합하여 완성된 문장의 형태로 제공한다.

또한, 문장을 텍스트 정보로 시각화하여 제공하거나 TTS(Text to Speech) 모듈을 통해 음성으로 제공하는 것도 가능하다. 이때 보다 전달력을 높이기 위해 농인의 성별이나 연령 등을 통해 실제와 유사한 목소리로 가공하여 제공하는 것도 가능하다.

다음 통신부(140)는 원격의 사용자(200)로부터 수어나 음성 언어를 입력받고 제공하는 것도 가능하며, 서버(1000)로부터 학습된 신경망 모델을 수신하거나 학습을 통해 생성된 도메인 특화 갱신 정보를 다시 서버로 송신하는 일련의 과정을 수행할 수 있다.

또한, 본 실시예에서는 청인의 음성 의미를 농인에게 보다 정확히 전달하기 위해, 음성 의미 입력부(150)를 더 포함할 수 있다.

음성 의미 입력부(150)는 제2 사용자(200)로부터 음성 의미 시퀀스를 키보드 입력 또는 음성 녹음으로 입력 받을 수 있다.

다음, 수어 영상 제공부(160)는 입력된 음성 의미 시퀀스로부터 분절된 단위 음성 의미의 순차 입력으로, 제2 신경망으로부터 생성된 가상의 단위 영상의 시퀀스를 제1 사용자에게 제공한다.

이상 본 발명에 따르면 수어 영상으로부터 의미를 추출하는 신경망의 효율적인 학습을 통해 청인과 농인 간의 실시간 대화를 원활히 진행할 수 있다.

나아가, 여기에 설명되는 다양한 실시예는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.

하드웨어적인 구현에 의하면, 여기에 설명되는 실시예는 ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시예들이 제어 모듈 자체로 구현될 수 있다.

소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 씌여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 메모리 모듈에 저장되고, 제어모듈에 의해 실행될 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다.

따라서, 본 발명에 개시된 실시 예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

신경망을 이용한 수어 통역 단말에서 수행되는 수어 통역 방법에 있어서,
제1 사용자로부터 연속된 수어 영상을 입력받는 단계;
상기 수어 영상으로부터 분절된 의미를 갖는 단위 영상의 시퀀스를 추출하는 단계; 및
상기 단위 영상의 시퀀스를 학습된 제1 신경망에 입력하여 출력된 음성 의미 시퀀스를 제공하는 단계를 포함하고,
상기 제1 신경망은,
실제 수어 단위 영상 시퀀스의 입력으로 상기 제1 신경망으로부터 출력된 실제 음성 의미 시퀀스와,
상기 실제 음성 의미 시퀀스를 입력으로 제2 신경망을 통해 출력된 가상 단위 영상 시퀀스를 제1 신경망의 입력으로 출력된 가상 음성 의미 시퀀스 간의 차이를 통해 학습하고,
상기 제2 신경망은,
상기 실제 음성 의미 시퀀스로부터 출력된 가상 단위 영상 시퀀스와, 상기 실제 수어 단위 영상 시퀀스 간의 순차적 오차를 이용하여 학습하되,
상기 가상 단위 영상 시퀀스 내 가상 단위 영상의 진위여부를 판단하는 제3 신경망의 출력과 경쟁적으로 제1 학습하고,
상기 제1 신경망의 실제 단위 영상으로부터 출력된 단위 음성 의미를 입력으로 생성된 가상의 단위 영상과 상기 실제 단위 영상 간의 차이를 손실로 정의하여 제2 학습한 것을 특징으로 하는 신경망을 이용한 수어 통역 방법.
제 1 항에 있어서,
제2 사용자로부터 음성 의미 시퀀스를 입력 받는 단계;
상기 입력된 음성 의미 시퀀스로부터 분절된 단위 음성 의미의 순차 입력으로, 제2 신경망으로부터 생성된 가상의 단위 영상의 시퀀스를 제1 사용자에게 제공하는 단계를 더 포함하는 것을 특징으로 하는 신경망을 이용한 수어 통역 방법.
제 1 항에 있어서,
상기 제1 신경망은 컨볼루션 레이어로 구성된 인코더(encoder)를 통해 상기 단위 영상에서 상기 음성 의미를 정의하는 특징 벡터를 출력하도록 학습된 것을 특징으로 하는 신경망을 이용한 수어 통역 방법.
제 1 항에 있어서,
상기 제2 신경망은 디컨볼루션 레이어로 구성된 디코더(decoder)를 통해 상기 음성 의미에 대한 특징 벡터로부터 단위 영상을 생성하여 출력하도록 학습된 것을 특징으로 하는 신경망을 이용한 수어 통역 방법.
신경망을 이용한 수어 통역 단말에 있어서,
제1 사용자로부터 연속된 수어 영상을 입력받는 수어 영상 입력부;
상기 수어 영상으로부터 분절된 의미를 갖는 단위 영상의 시퀀스를 추출하는 단위 영상 추출부; 및
상기 단위 영상의 시퀀스를 학습된 제1 신경망에 입력하여 출력된 음성 의미 시퀀스를 제공하는 음성 의미 추출부를 포함하고,
상기 제1 신경망은,
실제 수어 단위 영상 시퀀스의 입력으로 상기 제1 신경망으로부터 출력된 실제 음성 의미 시퀀스와,
상기 실제 음성 의미 시퀀스를 입력으로 제2 신경망을 통해 출력된 가상 단위 영상 시퀀스를 제1 신경망의 입력으로 출력된 가상 음성 의미 시퀀스 간의 차이를 통해 학습하고,
상기 제2 신경망은,
상기 실제 음성 의미 시퀀스로부터 출력된 가상 단위 영상 시퀀스와, 상기 실제 수어 단위 영상 시퀀스 간의 순차적 오차를 이용하여 학습하되,
상기 가상 단위 영상 시퀀스 내 가상 단위 영상의 진위여부를 판단하는 제3 신경망의 출력과 경쟁적으로 제1 학습하고,
상기 제1 신경망의 실제 단위 영상으로부터 출력된 단위 음성 의미를 입력으로 생성된 가상의 단위 영상과 상기 실제 단위 영상 간의 차이를 손실로 정의하여 제2 학습한 것을 특징으로 하는 신경망을 이용한 수어 통역 단말.
제 5 항에 있어서,
제2 사용자로부터 음성 의미 시퀀스를 음성 의미 입력부;
상기 입력된 음성 의미 시퀀스로부터 분절된 단위 음성 의미의 순차 입력으로, 제2 신경망으로부터 생성된 가상의 단위 영상의 시퀀스를 제1 사용자에게 제공하는 수어 영상 제공부를 더 포함하는 것을 특징으로 하는 신경망을 이용한 수어 통역 단말.
제 1 항 내지 제 4 항 중 어느 한 항에 따른 신경망을 이용한 수어 통역 단말에서 수어 통역 방법을 수행하는 프로그램이 저장된 컴퓨터 판독 가능한 기록매체.
삭제
삭제
삭제
삭제