KR20210055235A

KR20210055235A - 생성적 적대 신경망 기반 수어 영상 생성 시스템

Info

Publication number: KR20210055235A
Application number: KR1020190141461A
Authority: KR
Inventors: 윤성로; 이장호; 신채훈
Original assignee: 서울대학교산학협력단
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2021-05-17
Also published as: KR102318150B1

Abstract

생성적 적대 신경망 기반 수어 영상 생성 시스템이 제공된다. 본 발명의 일 실시예에 따른 수어 영상 생성 시스템은 음성 데이터를 획득하는 음성 입력부; 객체를 포함하는 이미지를 획득하는 이미지 입력부; 및 상기 음성 입력부에서 입력된 음성을 대응하는 수어를 이미지 입력부에서 입력된 이미지에 포함된 객체가 구사하는 수어 영상을 생성하는 수어 영상 생성 모델을 구축하는 수어 영상 생성 모델 학습부를 포함하는 수어 영상 생성 모델 학습 장치; 및 상기 수어 영상 생성 모델 학습 장치에서 생성된 수어 영상 생성 모델을 포함하는 수어 영상 생성부; 음성 데이터를 획득하는 음성 입력부; 및 객체를 포함하는 이미지를 획득하는 이미지 입력부를 포함하는 수어 영상 생성 장치를 포함한다.

Description

생성적 적대 신경망 기반 수어 영상 생성 시스템{Hand sign language image generation system based on Generative Adversarial Networks}

본 발명은 수어 영상 생성 시스템으로, 생성적 적대 신경망 기반하여 학습된 수어 영상 생성 모델을 이용하여 수어 영상을 자동으로 생성하는 생성적 적대 신경망 기반 수어 영상 생성 시스템에 관한 것이다.

일반적으로 청각 장애는 외이로부터 대뇌에서 소리를 이해하기까지의 청각 경로에 장애를 입어 소리를 듣기가 어려운 장애를 말한다. 이러한 청각장애는 선천적 유전 요인 혹은 후천적 사고로 발생하게 된다.

일반적으로, 청각 장애인은 소리를 들을 수 없을 뿐만 아니라 방송 화면에 표시되는 자막을 읽는 속도도 일반인에 비해 늦어서 각종 미디어를 통한 정보 획득에 불리하다. 따라서, 수어 또는 수화(Hand sign language, 이하에서는 "수어"라고 칭함)를 통해 청각 장애인에게 정보를 전달한다. 즉, 뉴스 또는 다양한 미디어의 음성 신호를 수어라는 시각정인 정보로써 청각 장애인에게 제공하고 있다.

다만, 청각 장애인에게 음성 신호를 전달하는 것은 수어를 구사할 수 있는 전문적인 인력이 전달하고자 하는 음성을 듣고 직접 손으로 수어를 구사함으로써 이루어진다. 하지만 수어를 구사할 수 있는 인력이 절대적으로 부족하기 때문에 청각 장애인은 사람들과 의사소통을 할 때 많은 불편함을 겪고 있는 실정이다. 전문적인 인력을 통해 수어를 사용하는 것 이외의 종래 연구의 수어 영상 생성은 음성을 받아들이고 해당 음성과 일치하는 단어를 데이터베이스에서 찾아 해당 값을 출력하게 함으로써 해당 단어와 일치하는 수어 영상을 생성하였다. 하지만 이러한 종래 생성 방법은 데이터베이스 안에 정해진 단어만을 사용해야 하며, 생성하는 영상의 인물, 캐릭터도 데이터베이스 안에 정해진 상태이므로, 수어 영상을 다양하게 생성할 수 없고, 효율적인 생성이 어려운 한계점을 갖고 있다.

따라서, 본 출원의 발명자는 수어를 구사하는 영상을 보다 효율적이고 다양하게 생성할 수 있는 시스템을 개발하는 데 이르렀다.

한국 공개특허 KR 10-1899588 (2018.9.17)

본 발명은 수어를 구사하는 애니메이션, 영상을 효율적이고 다양하게 생성할 수 있는 시스템으로, 수어 생성부의 입력과, 실제 수어 이미지를 받아 각각의 영상을 실제 수어 영상인지 아닌지를 구분하는 신경망을 학습을 하고, 해당 학습을 통해 수어 생성부에서 좀 더 선명하고, 현실적인 수어 애니메이션을 생성할 수 있게 도와주는 생성적 적대 신경망 기반 수어 영상 생성 시스템에 관한 것이다.

본 발명의 기술적 과제는 이상에서 언급한 것들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제는 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따른 수어 영상 생성 모델 학습 장치는 음성 데이터를 획득하는 음성 입력부; 객체를 포함하는 이미지를 획득하는 이미지 입력부; 및 상기 음성 입력부에서 입력된 음성을 대응하는 수어를 이미지 입력부에서 입력된 이미지에 포함된 객체가 구사하는 수어 영상을 생성하는 수어 영상 생성 모델을 구축하는 수어 영상 생성 모델 학습부를 포함한다.

본 발명의 다른 실시예에 따른 수어 영상 생성 장치는 수어 영상 생성 모델 학습 장치에서 생성된 수어 영상 생성 모델을 포함하는 수어 영상 생성부; 음성 데이터를 획득하는 음성 입력부; 및 객체를 포함하는 이미지를 획득하는 이미지 입력부를 포함하되, 상기 수어 영상 생성부는 상기 수어 영상 생성 모델을 통해 상기 음성 입력부에서 입력된 음성을 대응하는 수어를 이미지 입력부에서 입력된 이미지에 포함된 객체가 구사하는 수어 영상을 생성한다.

본 발명의 또 다른 실시예에 따른 수어 영상 생성 시스템은 음성 데이터를 획득하는 음성 입력부; 객체를 포함하는 이미지를 획득하는 이미지 입력부; 및 상기 음성 입력부에서 입력된 음성을 대응하는 수어를 이미지 입력부에서 입력된 이미지에 포함된 객체가 구사하는 수어 영상을 생성하는 수어 영상 생성 모델을 구축하는 수어 영상 생성 모델 학습부를 포함하는 수어 영상 생성 모델 학습 장치; 및 상기 수어 영상 생성 모델 학습 장치에서 생성된 수어 영상 생성 모델을 포함하는 수어 영상 생성부; 음성 데이터를 획득하는 음성 입력부; 및 객체를 포함하는 이미지를 획득하는 이미지 입력부를 포함하는 수어 영상 생성 장치를 포함한다.

본 발명의 일 실시예에 따른 수어 영상 생성 시스템은 생성적 적대 신경망을 이용함으로써, 기존의 단어 데이터베이스에 국한된 수어 영상 생성 모델보다 좀 더 다양한 단어와, 선명한 수어 애니메이션을 생성할 수 있다.

본 발명의 일 실시예에 따른 수어 영상 생성 시스템을 통해 수어에 대한 지식이 없는 사람들도 청각장애인과 의사소통을 자유롭게 할 수 있을 뿐만 아니라 청각장애인들의 의사소통이 좀 더 다양한 어휘를 구사하며 진행될 수 있고, 실시간으로 이루어질 수 있다.

도 1은 본 발명의 일 실시예에 따른 생성적 적대 신경망 기반 수어 영상 생성 시스템의 블록도이다.
도 2는 본 발명의 일 실시예에 따른 수어 영상 생성 장치의 구성을 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 수어 영상 생성 장치에서 학습 모델을 구축하는 과정을 개략적으로 도시한 예시도이다.
도 4는 본 발명의 일 실시예에 따른 수어 영상 생성 장치의 구성을 도시한 블록도이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시 예를 예시로서 도시하는 첨부 도면들을 참조한다. 상세한 설명의 실시 예들은 당업자가 본 발명을 실시하기 위한 상세 설명을 개시하는 목적으로 제공된다.

본 발명의 각 실시 예들은 서로 상이한 경우를 설명할 수 있으나, 그것이 각 실시 예들이 상호 배타적임을 의미하는 것은 아니다. 예를 들어, 상세한 설명의 일 실시 예와 관련하여 설명된 특정 형상, 구조 및 특성은 본 발명의 사상 및 범위를 벗어나지 않으면서 다른 실시 예에서도 동일하게 구현될 수 있다. 또한, 여기서 개시되는 실시 예들의 개별 구성요소의 위치 또는 배치는 본 발명의 사상 및 범위를 벗어나지 않으면서 다양하게 변경될 수 있음이 이해되어야 한다.

한편, 여러 실시 예들에서 동일하거나 유사한 참조번호는 동일하거나 유사한 구성요소를 지칭한다. 첨부된 도면들에서 각 구성 요소들의 크기는 설명을 위하여 과장될 수 있으며, 실제 적용되는 크기와 같거나 유사할 필요는 없다.

이하에서, 도면을 참조하여 본 발명의 실시예들에 대하여 상세히 살펴본다.

도 1은 본 발명의 일 실시예에 따른 생성적 적대 신경망 기반 수어 영상 생성 시스템의 블록도이다. 도 2는 본 발명의 일 실시예에 따른 수어 영상 생성 모델 학습 장치의 구성을 도시한 블록도이다. 도 3은 본 발명의 일 실시예에 따른 수어 영상 생성 모델 학습 장치에서 학습 모델을 구축하는 과정을 개략적으로 도시한 예시도이다. 도 4는 본 발명의 일 실시예에 따른 수어 영상 생성 장치의 구성을 도시한 블록도이다.

도 1을 참조하면, 수어 영상 생성 시스템(10)은 수어 영상 생성 모델 학습 장치(100) 및 수어 영상 생성 장치(110)를 포함한다.

실시예들에 따른 수어 영상 생성 시스템은, 전적으로 하드웨어이거나, 또는 부분적으로 하드웨어이고 부분적으로 소프트웨어인 측면을 가질 수 있다. 예컨대, 본 명세서의 수어 영상 생성 시스템 및 이에 포함된 각 부(unit)는, 특정 형식 및 내용의 데이터를 전자통신 방식으로 주고받기 위한 장치 및 이에 관련된 소프트웨어를 통칭할 수 있다. 본 명세서에서 "부", "모듈(module)", "서버(server)", "시스템", "장치" 또는 "단말" 등의 용어는 하드웨어 및 해당 하드웨어에 의해 구동되는 소프트웨어의 조합을 지칭하는 것으로 의도된다. 예를 들어, 여기서 하드웨어는 CPU 또는 다른 프로세서(processor)를 포함하는 데이터 처리 기기일 수 있다. 또한, 하드웨어에 의해 구동되는 소프트웨어는 실행중인 프로세스, 객체(object), 실행파일(executable), 실행 스레드(thread of execution), 프로그램(program) 등을 지칭할 수 있다.

또한, 수어 영상 생성 시스템(10)을 구성하는 각각의 부는 반드시 물리적으로 구분되는 별개의 구성요소를 지칭하는 것으로 의도되지 않는다. 도 1에서 수어 영상 생성 모델 학습 장치(100) 및 수어 영상 생성 장치(110)는 서로 구분되는 별개의 블록으로 도시되나, 이는 수어 영상 생성 시스템(10)을 구성하는 장치들을 해당 장치에 의해 실행되는 동작에 의해 단지 기능적으로 구분한 것이다. 따라서, 실시예에 따라서는 수어 영상 생성 모델 학습 장치(100) 및 수어 영상 생성 장치(110)는 일부 또는 전부가 동일한 하나의 장치 내에 집적화될 수 있고, 하나 이상이 다른 부와 물리적으로 구분되는 별개의 장치로 구현될 수도 있으며, 분산 컴퓨팅 환경 하에서 서로 통신 가능하게 연결된 컴포넌트들일 수도 있다.

수어 영상 생성 모델 학습 장치(100)는 입력된 음성과 생성하고자 하는 대상을 조합하여 상기 특정 대상이 수어를 구사하는 수화 영상을 자동으로 생성하는 수어 영상 생성 모델을 생성할 수 있다.

도 2 및 도 3을 참조하면, 수어 영상 생성 모델 학습 장치(100)는 음성 입력부(101), 이미지 입력부(102) 및 수어 영상 생성 모델 학습부(103)를 포함한다. 음성 입력부(101) 및 이미지 입력부(102)는 학습 모델 구축을 위한 기초 데이터를 획득할 수 있으며, 입력된 기초 데이터의 특징 벡터를 추출할 수 있다.

구체적으로, 음성 입력부(101)에는 수어 영상 생성 모델의 구축을 위한 음성이 외부로부터 입력될 수 있다. 음성 입력부(101)에 입력된 음성은 구현하려는 수어의 학습을 위한 음성 데이터로, 생성하기 위한 수어에 대응하는 음성에 해당한다. 상기 음성은 문장 단위로 제공될 수 있으나, 이에 한정되는 것은 아니며 복수의 문장으로 구성된 문단 단위 또는 단어 단위로도 제공될 수 있다.

이미지 입력부(102)에는 수어 영상에서 수어를 구사하는 대상의 이미지를 입력받는다. 이미지 입력부(102)에서 입력되는 이미지는 실제 사람 또는 애니메이션 캐릭터 등의 객체를 포함하는 이미지로, 해당 객체의 특징을 알 수 있는 신원 정보를 포함하는 이미지일 수 있다. 수어 영상 생성 모델 학습 장치(100)는 이미지에 포함된 객체를 기준으로 수어 영상을 생성하는 모델을 학습할 수 있다. 이미지 입력부(102)에서 입력되는 이미지는 객체가 정지된 상태인 정지 영상 이미지뿐만 아니라, 객체가 동작하는 상태인 동영상 이미지를 포함할 수 있다.

이미지 입력부(102) 및 음성 입력부(101)는 입력된 이미지 및 음성을 수어 영상 생성 모델 학습부(103)로 제공하기 위한 전처리를 더 수행할 수 있다. 여기서, 전처리는 벡터를 추출하기 위한 입력 값의 크기 및/또는 사이즈를 조정하는 것을 포함할 수 있다. 또한, 음성 입력부(101)는 Short-Time Fourier Transform(STFT)을 이용하여 음성 데이터를 스펙트로그램으로 변환하는 전처리를 더 수행할 수 있다. 음성 입력부(101)는 변환된 스펙트로그램을 입력값으로 제공할 수 있다.

수어 영상 생성 모델 학습부(103)는 음성 입력부(101)에서 입력된 음성을 대응하는 수어를 이미지 입력부(102)에서 입력된 이미지에 포함된 객체가 구사하는 수어 영상을 생성하는 수어 영상 생성 모델을 구축할 수 있다. 구체적으로, 수어 영상 생성 모델 학습부(103)는 음성 특징 추출부(1031), 이미지 특징 추출부(1032), 특징 결합부(1033), 수어 영상 생성부(1034) 및 수어 영상 식별부(1035)를 포함한다.

음성 특징 추출부(1031)는 음성 입력부(101)로부터 음성 데이터(스펙트로그램)를 제공받으며, 상기 음성 데이터에서 특징 벡터를 추출할 수 있다. 즉, 음성 데이터에서 어떠한 단어를 말하는 지, 화자의 목소리에 대한 고저, 주파수 등의 정보가 특징 벡터로 추출될 수 있다.

이미지 특징 추출부(1032)는 이미지 입력부(101)로부터 이미지 데이터를 제공받으며, 상기 이미지 데이터에서 특징 벡터를 추출할 수 있다. 즉, 이미지 데이터에 포함된 객체에 대한 시각적인 특징을 추출할 수 있다.

음성 특징 추출부(1031) 및 이미지 특징 추출부(1032) 모두 딥 뉴럴 네트워크(Deep neural network)를 통해 각각 음성 데이터와 이미지 데이터를 함축된 데이터인 특징 벡터로 표현할 수 있다. 즉, 음성 특징 추출부(1031) 및 이미지 특징 추출부(1032)는 모두 합성곱 인공신경망(Convolutional Neural Network; CNN)을 이용하여 특징 벡터를 추출할 수 있다. 합성곱 인공신경망은 사람의 뇌에서 신경이 전달되는 구조를 모사한 구조로써 여러 개의 층으로 이루어진 구조이며, 각각의 층에는 다양한 특징을 추출할 수 있는 필터들이 존재하여 인접한 픽셀 값 사이에서 중요한 특징들을 찾는 역할을 수행할 수 있다. 다만, 음성 데이터와 이미지 데이터는 종류가 상이한 바, 음성 특징 추출부(1031)에서 수행되는 특징 벡터 추출 방식과 이미지 특징 추출부(1032)에서 수행되는 특징 벡터 추출 방식은 서로 상이할 수 있다. 이미지 특징 추출부(1032)는 2D Convolution Neural Network(CNN)을 임베딩 네트워크(Embedding network)로 활용하여 이미지 데이터를 저차원의 특징 벡터, 이미지 특징 벡터로 추출할 수 있다. 또한, 음성 특징 추출부(1031)는 변환된 스펙트로그램을 입력값으로 제공받을 수 있으며, 스펙트로그램을 1D Convolution Neural Network를 임베딩 네트워크(Embedding network)로 활용하여 음성 데이터를 저차원의 특징 벡터, 음성 특징 벡터로 추출할 수 있다.

특징 결합부(1033)는 음성 특징 추출부(1031)에서 추출된 음성 특징 벡터와 이미지 특징 추출부(1032)에서 추출된 이미지 특징 벡터를 결합하여 결합 특징 벡터를 생성할 수 있다. 특징 결합부(1033)는 추출된 음성 특징 벡터와 이미지 특징 벡터를 결합(concatenation)하는 방식을 통해 결합 특징 벡터를 생성할 수 있다. 예를 들어, 음성 특징 벡터가 128D 차원, 이미지 특징 벡터가 128D 차원인 경우, 결합 특징 벡터는 256D 차원으로 결합될 수 있다.

수어 영상 생성부(1034)는 결합 특징 벡터에 기초하여 수어 영상을 생성할 수 있다. 수어 영상 식별부(1035)는 수어 영상 생성부(1034)에서 생성된 수어 영상과 실제 수어 영상을 비교하여 실제 수어 영상을 식별할 수 있다. 여기서, 실제 수어 영상은 이미지 입력부(101)에 입력된 이미지에 포함된 객체가 음성 입력부(102)에 입력된 음성에 대응하는 수어를 구사하는 실제(Real) 수어 영상에 해당한다. 실제 수어 영상은 상기 객체가 사람인 경우 미리 촬영하거나, 객체가 캐릭터와 같은 가상 오브젝트인 경우 미리 생성한 비교 학습용 데이터에 해당한다. 수어 영상 생성부(1034)는 Generator의 기능을 수행하고, 수어 영상 식별부(1035)는 Discriminator의 기능을 수행하여, 수어 영상 생성부(1034)와 수어 영상 식별부(1035)는 하나의 생성적 적대 신경망(Generative Adversarial Network, GAN)을 구성할 수 있다.

수어 영상 식별부(1035)는 생성된 수어 영상과 실제 수어 영상을 비교하여 식별한 결과 및 실제 수어 영상을 수어 영상 생성부(1034)로 피드백할 수 있다. 이에 대응하여, 수어 영상 생성부(1034)는 종래 생성된 수어 영상과 개선한 수어 영상이 다시 생성하여 수어 영상 식별부(1035)에 제공할 수 있으며, 수어 영상 식별부(1035)는 수어 영상 생성부(1034)가 다시 생성한 수어 영상과 실제 수어 영상을 비교하여 실제 수어 영상을 식별할 수 있다. 이러한 수어 영상 식별부(1035)의 수어 영상 생성과 수어 영상 식별부(1035)의 식별 과정은 수어 영상 식별부(1035)의 식별 정확도가 일정 기준치 이하로 될 때까지, 수어 영상 생성부(1034)에서 생성되는 수어 영상이 실제 수어 영상과 유사해질 때가지 반복될 수 있다. 즉, 수어 영상 생성부(1034)는 수어 영상 식별부(1035)를 속일 수 있도록 실제 수어 영상과 유사한 수어 영상을 생성하도록 학습되고, 수어 영상 식별부(1035)는 생성된 수어 영상을 더 잘 식별하도록 학습될 수 있다.

수어 영상 생성부(1034)와 수어 영상 식별부(1035) 사이의 적대적인 관계 속에서, 경쟁적인 학습이 수행될 수 있다. 이러한 생성적 적대 신경망은 Adversarial loss로써 min,max game으로 정의되는 손실 함수를 통해 학습을 진행할 수 있으며, 이러한 손실 함수는 하기 수학식 1과 같이 표현된다.

[수학식 1]

(G: Generator(생성자), D: Discriminator(식별자), x: 실제 수어를 하고 있는 실제 영상, z: 임의로 설정해놓은 분포 N(0, I)에서 sampling한 변수, y: 신원 정보를 담고 있는 이미지)

상기 손실 함수는 실제 영상과 생성 영상을 2개의 입력으로 주었을 때, 각각 출력(output)으로 0.5의 값을 가질 때 최소 값을 가지도록 설정된 함수이다. 즉, 상기 손실 함수는 수어 영상 생성부(1034)가 생성하는 영상의 확률 분포가 실제 영상들의 확률 분포와 동일해질 때, 최소 값을 가지도록 설정된 함수이다. 이러한 생성적 적대 신경망을 통해 수어 영상 생성부(1034) 및 수어 영상 식별부(1035)는 각각 학습될 수 있으며, 손실 함수가 최소 값을 가질 때까지 생성 및 식별 과정이 반복 수행될 수 있다.

또한, 수어 영상 생성부(1034)는 자연스러운 수어 영상을 생성함과 동시에 생성한 수어 영상이 타겟으로 삼고 있는 실제 영상(x)과도 직접적으로 유사하게 만들기 위한 하기 수학식 2와 같이 정의되는 손실 함수를 더 포함하고, 이를 통해 학습을 수행할 수 있다.

[수학식 2]

(G: Generator(생성자), x: 실제 수어를 하고 있는 실제 영상, z: 임의로 설정해놓은 분포 N(0, I)에서 sampling한 변수)

상술한 생성적 적대 신경망을 통한 경쟁적 학습과 실제 영상과 유사하도록 만들기 위한 비교 학습을 통해 수어 영상 생성부(1034)는 입력된 음성에 대응하는 수어를 입력된 이미지에 포함된 객체가 수행하는 수어 영상, 애니메이션을 생성하는 수어 영상 생성 모델을 구축할 수 있다.

상술한 바와 같이, 수어 영상 생성 모델 학습 장치(100)에서 구축된 수어 영상 생성 모델은 수어 영상 생성 장치(110)에 제공될 수 있다.

도 4를 참조하면, 수어 영상 생성 장치(110)는 음성 입력부(111), 이미지 입력부(112) 및 수어 영상 생성부(113)를 포함할 수 있다.

음성 입력부(111)는 수어 영상을 생성하기 위한 음성이 입력될 수 있다. 이미지 입력부(112)는 수어 영상을 구사하는 객체를 포함하는 이미지가 입력될 수 있다.

수어 영상 생성부(113)는 이미지에 포함된 객체가 상기 음성에 대응하는 수어를 구사하는 수어 영상을 수어 영상 생성 모델에 기초하여 생성할 수 있다. 수어 영상 생성 모델은 수어 영상 생성부(1034)의 학습된 네트워크를 기초로 구성된 상태로 입력된 음성에 대응하는 수어를 입력된 이미지에 포함된 객체가 수행하는 수어 영상, 애니메이션을 용이하게 생성할 수 있다. 구체적으로, 수어 영상 생성부(113)는 입력된 음성 및 이미지에서 음성 특징 벡터 및 이미지 특징 벡터를 각각 추출하고, 추출된 음성 특징 벡터 및 이미지 특징 벡터를 결합(concatenation)하여 결합 특징 벡터를 생성하며, 생성된 결합 특징 벡터를 상기 수어 영상 생성 모델에 입력하여 수어 영상을 생성할 수 있다.

이상에서는 실시예들을 참조하여 설명하였지만 본 발명은 이러한 실시예들 또는 도면에 의해 한정되는 것으로 해석되어서는 안 되며, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

10: 수어 영상 생성 시스템
100: 수어 영상 생성 모델 학습 장치
101: 음성 입력부
102: 이미지 입력부
103: 수어 영상 생성 모델 학습부
110: 수어 영상 생성 장치

Claims

음성 데이터를 획득하는 음성 입력부;
객체를 포함하는 이미지를 획득하는 이미지 입력부; 및
상기 음성 입력부에서 입력된 음성을 대응하는 수어를 이미지 입력부에서 입력된 이미지에 포함된 객체가 구사하는 수어 영상을 생성하는 수어 영상 생성 모델을 구축하는 수어 영상 생성 모델 학습부를 포함하는 수어 영상 생성 모델 학습 장치.
제1 항에 있어서
상기 수어 영상 생성 모델 학습부는,
상기 음성 데이터의 음성 특징 벡터를 추출하는 음성 특징 추출부;
상기 이미지의 이미지 특징 벡터를 추출하는 이미지 특징 추출부;
상기 추출된 음성 특징 벡터와 상기 추출된 이미지 특징 벡터를 결합(concatenation)하여 결합 특징 벡터를 생성하는 특징 결합부;
상기 결합 특징 벡터에 기초하여 수어 영상을 생성하는 수어 영상 생성부; 및
상기 생성된 수어 영상과 실제 수어 영상을 비교하여 실제 수어 영상을 식별하는 수어 영상 식별부를 포함하고,
상기 수어 영상 생성부와 상기 수어 영상 식별부는 생성적 적대 신경망을 구성하는 수어 영상 생성 모델 학습 장치
제2 항에 있어서,
상기 생성적 적대 신경망은 하기 수학식 1과 같은 손실 함수를 통해 학습을 수행하는 것을 특징으로 하는 수어 영상 생성 모델 학습 장치.

[수학식 1]

(G: Generator(생성자), D: Discriminator(식별자), x: 실제 수어를 하고 있는 실제 영상, z: 임의로 설정해놓은 분포 N(0, I)에서 sampling한 변수, y: 신원 정보를 담고 있는 이미지)
제2 항에 있어서,
상기 수어 영상 식별부는 상기 실제 수어 영상을 유사한 수어 영상을 생성하기 위해 하기 수학식 2와 같은 손실 함수를 통해 학습을 수행하는 것을 특징으로 하는 수어 영상 생성 모델 학습 장치.

[수학식 2]

(G: Generator(생성자), x: 실제 수어를 하고 있는 실제 영상, z: 임의로 설정해놓은 분포 N(0, I)에서 sampling한 변수)
제2 항에 있어서,
상기 음성 특징 추출부과 상기 이미지 특징 추출부의 특징 벡터 추출 방식은 서로 상이한 것을 특징으로 하는 수어 영상 생성 모델 학습 장치.
제5 항에 있어서,
상기 음성 특징 추출부는 1D Convolution Neural Network를 임베딩 네트워크(Embedding network)로 활용하여 음성 데이터를 음성 특징 벡터로 추출하고,
상기 이미지 특징 추출부는 2D Convolution Neural Network(CNN)을 임베딩 네트워크(Embedding network)로 활용하여 이미지 데이터를 이미지 특징 벡터로 추출하는 것을 특징으로 하는 수어 영상 생성 모델 학습 장치.
제1 항 내지 제6 항 중 적어도 한 항에 따른 수어 영상 생성 모델 학습 장치에서 생성된 수어 영상 생성 모델을 포함하는 수어 영상 생성부;
음성 데이터를 획득하는 음성 입력부; 및
객체를 포함하는 이미지를 획득하는 이미지 입력부를 포함하되,
상기 수어 영상 생성부는 상기 수어 영상 생성 모델을 통해 상기 음성 입력부에서 입력된 음성을 대응하는 수어를 이미지 입력부에서 입력된 이미지에 포함된 객체가 구사하는 수어 영상을 생성하는 것을 특징으로 하는 수어 영상 생성 장치.
제7 항에 있어서,
상기 수어 영상 생성부는 입력된 음성 및 이미지에서 음성 특징 벡터 및 이미지 특징 벡터를 각각 추출하고, 추출된 음성 특징 벡터 및 이미지 특징 벡터를 결합(concatenation)하여 결합 특징 벡터를 생성하며, 생성된 결합 특징 벡터를 상기 수어 영상 생성 모델에 입력하여 상기 수어 영상을 생성하는 수어 영상 생성 장치.
음성 데이터를 획득하는 음성 입력부; 객체를 포함하는 이미지를 획득하는 이미지 입력부; 및 상기 음성 입력부에서 입력된 음성을 대응하는 수어를 이미지 입력부에서 입력된 이미지에 포함된 객체가 구사하는 수어 영상을 생성하는 수어 영상 생성 모델을 구축하는 수어 영상 생성 모델 학습부를 포함하는 수어 영상 생성 모델 학습 장치; 및
상기 수어 영상 생성 모델 학습 장치에서 생성된 수어 영상 생성 모델을 포함하는 수어 영상 생성부; 음성 데이터를 획득하는 음성 입력부; 및 객체를 포함하는 이미지를 획득하는 이미지 입력부를 포함하는 수어 영상 생성 장치를 포함하는 수어 영상 생성 시스템.