KR20200085433A

KR20200085433A - 탈부착형 스피커를 포함한 음성합성 시스템 및 방법

Info

Publication number: KR20200085433A
Application number: KR1020190001497A
Authority: KR
Inventors: 정성일
Original assignee: 정성일
Priority date: 2019-01-07
Filing date: 2019-01-07
Publication date: 2020-07-15

Abstract

본 발명은 무선통신을 이용하여 음성정보를 송수신하는 탈부착형 스피커를 포함한 음성합성 시스템 및 방법에 관한 것이다. 본 발명의 일 실시예에 따른 탈부착형 스피커를 포함한 음성합성 시스템은, 입력된 음성정보를 이용하여 다양한 캐릭터의 음성을 딥러닝하고, 학습된 음성정보를 이용하여 다양한 감정의 캐릭터의 음성을 합성하는 서버, 상기 서버로부터 합성된 음성정보를 전달받는 단말기 및 상기 단말기로부터 전달받은 음성정보가 출력되는 스피커를 포함하고, 상기 단말기에는 스피커를 통해 출력될 텍스트가 입력되는 텍스트 생성발신부가 마련된다.

Description

탈부착형 스피커를 포함한 음성합성 시스템 및 방법{VOICE SYNTHESIS SYSTEM WITH DETACHABLE SPEAKER AND METHOD USING THE SAME}

본 발명은 무선통신을 이용하여 음성정보를 송수신하는 탈부착형 스피커를 포함한 음성합성 시스템 및 방법에 관한 것이다.

음성합성은 말소리의 음파를 기계가 자동으로 만들어내는 기술로, 모델로 선정된 사람의 말소리를 녹음하여 일정한 음성 단위로 분할하고, 부호를 붙여 합성기에 입력하였다가 지시에 따라 필요한 음성 단위만을 다시 합쳐 말소리를 인위로 만들어내는 기술이다.

즉, 언어의 모든 음소에 대한 발음 데이터베이스를 구축하고, 이를 연결시켜 연속된 음성을 생성하게 되는데, 이때 음성의 크기, 길이, 높낮이 등을 조절해 자연스러운 음성을 합성해내는 것으로 이를 위해 자연어 처리 기술이 사용되고 있다. 특히, 텍스트로 입력된 문장의 문법적 구조를 분석한 후 분석된 문장 구조에 의해 사람이 읽는 것과 같은 운율을 생성하고, 생성된 운율에 따라 저장된 발음 데이터베이스의 기본 단위들을 모아서 합성음을 생성하는 파형합성 단계를 거치게 된다.

또한, 음성인식이란, 전화, 휴대폰, 마이크 등을 통해 컴퓨터에 전달된 사람의 음성의 특징을 추출하고 분석하여 미리 입력된 인식 목록에서 가장 근접한 결과를 찾아내는 소프트웨어 기술이다.

최근에는 상기와 같은 음성합성, 음성인식 기술이 다양한 분야에서 이용되고 있다.

본 발명의 일 실시예는, 딥러닝 서버를 활용하여 학습된 음성을 출력하는 탈부착형 스피커를 포함한 음성합성 시스템 및 방법을 제공하는 것을 목적으로 한다.

또한, 어플리케이션을 통해 입력 받은 텍스트가 다양한 음색으로 출력될 수 있는 탈부착형 스피커를 포함한 음성합성 시스템 및 방법을 제공하는 것을 목적으로 한다.

또한, 어플리케이션에 음성정보에 대한 기본 정보가 저장되는 탈부착형 스피커를 포함한 음성합성 시스템 및 방법을 제공하는 것을 목적으로 한다.

본 발명의 일 실시예에 따른 탈부착형 스피커를 포함한 음성합성 시스템은, 입력된 음성정보를 이용하여 다양한 캐릭터의 음성을 딥러닝하고, 학습된 음성정보를 이용하여 다양한 감정의 캐릭터의 음성을 합성하는 서버, 상기 서버로부터 합성된 음성정보를 전달받는 단말기 및 상기 단말기로부터 전달받은 음성정보가 출력되는 스피커를 포함하고, 상기 단말기에는 스피커를 통해 출력될 텍스트가 입력되는 텍스트 생성발신부가 마련된다.

또한, 상기 서버와 상기 단말기, 상기 단말기와 상기 스피커는 무선통신을 통해 정보를 송수신한다.

또한, 상기 단말기에는, 기저장된 텍스트를 포함하는 어플리케이션이 설치된다.

또한, 상기 어플리케이션에는 적어도 하나의 사용자 맞춤형 카테고리가 설정되고, 각 카테고리별로 적어도 하나의 문장이 저장된다.

또한, 상기 어플리케이션에 사람의 이름 또는 별칭을 입력하면, 상기 카테고리별로 저장된 문장에 상기 사람의 이름 또는 별칭이 자동 입력된다.

또한, 출력될 음성에 관한 캐릭터, 감정에 대한 특징이 상기 어플리케이션을 통해 컨트롤된다.

또한, 상기 어플리케이션을 통해 텍스트가 자유롭게 입력되고, 상기 입력된 텍스트에 대한 음성정보가 상기 스피커로 전송되어 출력된다.

또한, 어플리케이션에 기입력된 텍스트를 클릭하여 재송신할 수 있는 것을 특징으로 한다.

또한, 기입력된 텍스트가 별도의 디폴트 카테고리에 저장되는 것을 특징으로 한다.

또한, 상기 스피커는 고정장치를 포함하고, 상기 고정장치는 집게모듈, 흡착기 모듈 중 어느 하나를 포함한다.

또한, 상기 스피커는 줄이 연결되어 외부 물체에 매달아진다.

또한, 상기 스피커와 상기 단말기는 블루투스 통신을 통해 정보를 송수신한다.

또한, 상기 단말기에는 동화, 소설과 같이 스토리를 갖는 텍스트 정보가 기저장되어 있고, 상기 텍스트 정보는 음성정보로 합성되어 상기 스피커로 전송된다.

또한, 상기 단말기에는 음악에 대한 음정, 리듬, 박자에 대한 정보가 기저장되어 있고, 상기 음악에 대한 음정, 리듬, 박자에 대한 정보는 음성정보로 합성되어 상기 스피커로 전송된다.

본 발명의 일 실시예에 따른 탈부착형 스피커를 포함한 음성합성 시스템을 사용하는 음성합성 방법은, 상기 서버에 캐릭터에 관한 음성정보가 입력되는 단계, 상기 입력되는 정보를 이용하여 딥러닝이 이루어지는 단계, 상기 딥러닝을 통해 학습된 정보를 이용하여 음성을 합성하는 단계, 상기 단말기에 입력된 텍스트에 따라 합성된 음성정보가 상기 단말기로부터 상기 스피커로 전달되는 단계 및 상기 스피커로 전달된 음성정보가 출력되는 단계를 포함한다.

또한, 상기 서버에서 합성된 음성정보가 메모리부에 저장되는 단계를 더 포함한다.

또한, 상기 딥러닝이 이루어지는 단계 및 상기 음성을 합성하는 단계는, 음성 딥러닝 학습 엔진 및 감정 컨트롤 솔루션을 통해 이루어진다.

본 발명의 일실시예에 따른 탈부착형 스피커를 포함한 음성합성 시스템 및 방법에 의하면, 딥러닝 서버를 통해 학습된 음성이 다양한 음색으로 스피커를 통해 출력될 수 있다.

또한, 어플리케이션에는 전달될 메시지에 대한 정보가 기저장되어 있어 상기 정보의 선택만으로 스피커를 통해 출력되도록 조작될 수 있다.

또한, 스피커는 탈부착이 가능하도록 마련되어 다양한 사물에 부착되어 사용될 수 있다.

도 1은 본 발명의 일 실시예에 따른 탈부착형 스피커를 포함한 음성합성 시스템을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 탈부착형 스피커를 포함한 음성합성 시스템의 구성을 도시한 개략도이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 탈부착형 스피커를 포함한 음성합성 시스템의 어플리케이션의 모습을 도시한 도면이다.

위 발명의 배경이 되는 기술란에 기재된 내용은 오직 본 발명의 기술적 사상에 대한 배경 기술의 이해를 돕기 위한 것이며, 따라서 그것은 본 발명의 기술 분야의 당업자에게 알려진 선행 기술에 해당하는 내용으로 이해될 수 없다.

아래의 서술에서, 설명의 목적으로, 다양한 실시예들의 이해를 돕기 위해 많은 구체적인 세부 내용들이 제시된다. 그러나, 다양한 실시예들이 이러한 구체적인 세부 내용들 없이 또는 하나 이상의 동등한 방식으로 실시될 수 있다는 것은 명백하다. 다른 예시들에서, 잘 알려진 구조들과 장치들은 다양한 실시예들을 불필요하게 이해하기 어렵게 하는 것을 피하기 위해 블록도로 표시된다. 도면에서, 구성 요소들의 크기 또는 상대적인 크기는 명확한 설명을 위해 과장될 수 있다. 또한, 동일한 참조 번호는 동일한 구성요소를 나타낸다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하, 도면을 참조하여 본 발명의 일 실시예에 따른 탈부착형 스피커를 포함한 음성합성 시스템 및 방법에 관하여 설명한다.

도 1은 본 발명의 일 실시예에 따른 탈부착형 스피커를 포함한 음성합성 시스템을 도시한 도면이고, 도 2는 본 발명의 일 실시예에 따른 탈부착형 스피커를 포함한 음성합성 시스템의 구성을 도시한 개략도이다.

도 1 및 도 2를 참조하면, 본 발명의 일 실시예에 따른 탈부착형 스피커를 포함한 음성합성 시스템(1: 이하, 음성합성 시스템'이라 한다.)은 어플리케이션이 설치되는 단말기(100), 단말기(100)와 무선통신하는 서버(200) 및 스피커(300)를 포함한다. 스피커(300)는 인형 등과 같이 사용자가 원하는 위치(G)에 용이하게 탈부착할 수 있도록 마련된다.

서버(200)는 음성 러닝부(21), 메모리부(22) 및 음성 합성부(23)를 포함한다. 음성러닝부는, 다양한 캐릭터의 음성을 딥러닝할 수 있도록 마련된다. 서버(200)에 각 캐릭터에 해당하는 성우의 음성 데이터가 입력되면 서버(200)는 확보된 음성 데이터를 이용하여 스스로 음성 정보를 딥러닝할 수 있다. 이때 구글의 tacotron, 바이두의 deep speech, 감정컨트롤 솔루션 등을 활용할 수 있다. 음성 러닝부(21)는 딥러닝한 캐릭터의 음색에 관한 정보뿐만 아니라, 감정, 발음, 속도, 억양에 따른 정보까지 학습할 수 있다. 딥러닝된 음성정보는 메모리부(22)에 저장될 수 있다.

음성 합성부(23)는 메모리부(22)에 저장된 정보를 이용하여 다양한 캐릭터의 음성을 합성할 수 있다. 즉, 복수의 캐릭터의 음색 중 어느 하나, 다양한 감정 중 어느 하나가 선택적으로 결합되는 방식으로 다양한 음성이 합성될 수 있다. 합성된 음성 정보는 메모리부(22)에 저장될 수 있고, 저장된 합성 음성은 무선통신을 이용하여 단말기(100)로 송신될 수 있다.

예를 들어, 서버(200)에는 애니메이션 캐릭터인 뽀로로를 연기한 성우의 음성 정보가 입력되고, 서버(200)의 음성 러닝부(21)는 입력된 정보를 이용하여 음성 러닝부(21)는 뽀로로의 음색, 감정, 말하는 속도 및 억양과 같은 정보를 딥러닝한다. 이러한 학습된 정보를 이용하여 음성 합성부(23)에서는 신나는 기분의 뽀로로의 음성, 다정한 뽀로로의 음성, 화가 난 뽀로로의 음성 등을 합성할 수 있다.

단말기(100)에는 서버(200) 및 스피커(300)와 동기화된 어플리케이션이 설치될 수 있다. 단말기(100)에는, 서버(200)로부터 음성 정보를 전달받고, 출력할 메시지를 스피커(300)로 송신하는 음성정보 송수신부(11)가 마련될 수 있다. 서버(200)로부터 전달받은 음성 정보는 단말기(100) 내의 메모리부(13)에 저장된다. 사용자는 어플리케이션의 텍스트 생성 발신부(12)를 통해 출력될 텍스트를 스피커(300)로 발송시킬 수 있다.

사용자는 단말기(100)에 설치된 어플리케이션을 통해 출력할 메시지를 입력할 수 있을 뿐만 아니라, 특정 캐릭터의 음색을 선택하거나, 캐릭터의 감정 등의 옵션을 선택할 수 있다. 사용자가 입력한 텍스트는 음성에 관한 선택 옵션에 따라 합성되고, 그 합성된 음성 정보가 스피커(300)로 전송될 수 있다.

또한, 사용자는 어플리케이션을 통해 장문의 텍스트 형태를 갖는 동화, 소설 또는 음정, 리듬, 박자를 포함한 음악에 관한 정보를 스피커(300)로 전송할 수 있다. 동화나 음악을 전송할 경우에도, 음성에 관한 선택 옵션에 따라 특정 캐릭터의 음색이나 감정을 갖는 음성으로 합성되고, 그 정보가 스피커(300)로 전송될 수 있다.

스피커(300)에는 음성정보 수신부(32)가 구비된다. 단말기(100)의 어플리케이션을 통해 발송된 텍스트는 음성정보 수신부(32)를 통해 수신되고, 출력부(31)를 통해 출력될 수 있다. 출력되는 음성 메시지는 텍스트로 입력된 내용에 음성에 관한 선택 정보가 반영된 것이다.

예를 들어, 사용자가 어플리케이션을 통해'안녕? 난 뽀로로야.'라는 텍스트를 입력하고, 선택 정보로서 '신나는 감정','뽀로로의 음성'을 선택하면, 스피커(300)에서는 신이 난 뽀로로의 음성으로 '안녕? 난 뽀로로야.'라는 내용이 출력된다.

도 3 및 도 4는 본 발명의 일 실시예에 따른 탈부착형 스피커를 포함한 음성합성 시스템의 어플리케이션의 모습을 도시한 도면이다.

도 3 및 도 4를 참조하면, 단말기(100)에 설치된 어플리케이션의 다양한 기능에 대한 내용을 확인할 수 있다. 도 3을 참조하면, 어플리케이션에는 식사, 양치, 잠자리, 기상, 놀이, 배변 등과 같은 사용자 맞춤형 카테고리가 설정될 수 있다.

각 카테고리를 클릭하면, 해당 카테고리에 해당되는 자주 쓰는 문장들이 저장되어 있음을 확인할 수 있다. 예를 들어, 카테고리 페이지에서, '식사'를 클릭하면 식사 페이지로 이동하고, 식사 페이지에서 'oo야 밥먹자.', 'oo야 밥 잘 먹을 수 있지?'등과 같은 문장들이 저장되어 있음을 확인할 수 있다. 사용자는 식사 페이지에 저장된 문장 중 어느 하나를 선택하여 전송시킬 수 있다. 전송된 텍스트는 스피커를 통해 출력된다.

식사 페이지의 상단에는 출력될 음성에 관해 선택할 수 있는 옵션들이 나열될 수 있다. 예를 들어, 음성1, 음성2, 음성3, 음성4는 각각 상이한 캐릭터들의 음색을 정의한다. 옵션1, 옵션2의 경우는, 출력될 음성의 감정을 정의할 수 있다. 예를 들어, 뽀로로의 음색을 정의하는 음성2, 다정한 감정을 정의하는 옵션2를 선택하고, 첫번째 문장인 'oo아 밥먹자'가 선택되면, 다정한 뽀로로의 음성으로 'oo아 밥먹자'라는 내용이 스피커를 통해 출력될 수 있다.

상기와 같이, 사용자는 어플리케이션의 음성 옵션을 선택하여 다양한 캐릭터의 음성이 기호와 상황에 맞게 출력되도록 컨트롤할 수 있다.

기저장된 문장 이외에 사용자는 스피커를 통해 출력될 텍스트를 자유롭게 입력할 수 있다. 또한, 도 4에 도시된 바와 같이, 과거에 입력된 텍스트를 클릭하여 재송신할 수도 있다. 사용자는 과거에 입력한 텍스트를 별도로 디폴트 카테고리에 저장하여 사용할 수 있다.

한편, 사용자는 스피커를 통해 메시지를 전달받을 복수의 사람에 관한 텍스트를 별도로 관리할 수 있다. 예를 들어, 사용자가 사람 1의 이름 또는 별칭을 입력하면, 사람 1의 이름 또는 별칭이 카테고리 내의 문장에 자동 입력될 수 있다. 식사 카테고리 내에 있는 문장인'oo야 밥먹자'의 경우, 사용자가 사람 1의 이름인 '영희'를 입력하면, '영희야 밥먹자'로 변환되어 출력되고, 사용자가 사람 2의 이름인 '철수'를 입력하면 '철수야 밥먹자'로 변환되어 출력될 수 있다.

그밖에 출력될 음성에 관한 캐릭터의 음색, 감정 등에 관한 옵션들의 특징에 대해서는 도 3에서 설명한 내용이 유사하게 적용될 수 있다. 사용자는 페이지의 상단에 표시된 복수의 음성, 옵션들을 적절히 선택하여 다양한 감정의 캐릭터의 음성에 의해 텍스트의 내용이 출력되도록 조절할 수 있다.

또한, 사용자는 어플리케이션을 조작하여 동화, 소설과 같은 장문의 스토리 또는 동요와 같은 음악이 스피커(300)를 통해 출력되도록 할 수 있다. 예를 들어, 단말기(100)에는 전송될 동화에 대한 텍스트 정보 또는 음악에 대한 음정, 박자, 리듬에 대한 정보가 저장되어 있고, 기저장된 동화 또는 음악에 대한 정보는 음성 정보로 합성되어 스피커(300)로 전송될 수 있다. 이때, 사용자는 어플리케이션을 통해 특정 캐릭터, 감정을 선택할 수 있고, 선택된 감정을 갖는 캐릭터의 음성으로 동화 또는 음악이 스피커(300)를 통해 출력될 수 있다.

스피커(300)는 고정장치에 의해 다양한 사물에 탈부착이 용이하도록 마련될 수 있다. 예를 들어, 스피커(300)에는 집게 모듈이 마련될 수 있다. 집게 모듈을 통해 스피커(300)는 인형의 의상이나, 이불 등에 고정될 수 있다. 다른 예로서, 스피커(300)에는 흡착기 모듈이 마련될 수 있다. 흡착기 모듈을 이용하여 스피커(300)는 매끈한 장난감이나 거울의 일면에 부착될 수 있다. 또한 스피커(300)는 줄에 끼워져 인형의 목이나 팔 등에 매달아질 수 있다.

또한, 도면에 도시되지는 않았지만, 스피커(300)에는 마이크가 장착될 수 있다. 스피커(300) 근처에 있는 사용자는 마이크를 통해 단말기(100) 근처의 사용자에게 음성 메시지를 전달할 수 있다.

이하에서는 상기와 같은 탈부착형 스피커를 포함한 음성합성 시스템을 이용한 음성합성 방법을 설명한다.

서버(200)에는 다양한 캐릭터를 연기한 성우들의 목소리가 입력될 수 있다. 입력된 정보들을 이용하여 서버(200)는 다양한 캐릭터에 대한 음성정보를 딥러닝할 수 있다. 다양한 음성 정보 학습 프로그램을 이용하여 서버(200)는 다양한 캐릭터의 음색, 감정 등을 학습하여 음성을 변환시킬 수 있다.

사용자는 단말기(200)에 설치된 어플리케이션을 통해 텍스트를 입력하거나 기저장된 텍스트를 선택하여 전송시킬 수 있다. 또한, 사용자는 어플리케이션 내에서 특정 캐릭터의 음성, 감정 등을 적절하게 선택할 수 있다.

사용자에 의해 입력된 정보에 따라 합성된 음성 정보는 스피커(300)로 전송되어 출력된다. 스피커(300)는 고정장치에 의해 특정 위치에 고정될 수 있고, 용이하게 탈부착 가능하게 구비되어 사용자가 용이하게 스피커(300)의 위치를 가변시킬 수 있다. 일례로 스피커(300)와 단말기(200)는 블루투스 통신으로 서로 정보를 송수신할 수 있다.

이상과 같이 본 발명에서는 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

1: 탈부착형 스피커를 포함한 음성합성 시스템 및 방법
11: 음성정보 송수신부 12: 텍스트 생성 발신부
13: 메모리부 21: 음성러닝부
22: 메모리부 23: 음성 합성부
31: 출력부 32: 음성정보 수신부
100: 단말기 200: 서버
300: 스피커

Claims

입력된 음성정보를 이용하여 다양한 캐릭터의 음성을 딥러닝하고, 학습된 음성정보를 이용하여 다양한 감정의 캐릭터의 음성을 합성하는 서버;
상기 서버로부터 합성된 음성정보를 전달받는 단말기; 및
상기 단말기로부터 전달받은 음성정보가 출력되는 스피커;를 포함하고, 상기 단말기에는 스피커를 통해 출력될 텍스트가 입력되는 텍스트 생성발신부가 마련되는 탈부착형 스피커를 포함한 음성합성 시스템.
제 1항에 있어서,
상기 서버와 상기 단말기, 상기 단말기와 상기 스피커는 무선통신을 통해 정보를 송수신하는 탈부착형 스피커를 포함한 음성합성 시스템.
제1항에 있어서,
상기 단말기에는, 기저장된 텍스트를 포함하는 어플리케이션이 설치되는 탈부착형 스피커를 포함한 음성합성 시스템.
제3항에 있어서,
상기 어플리케이션에는 적어도 하나의 사용자 맞춤형 카테고리가 설정되고, 각 카테고리별로 제어도 하나의 문장이 저장되는 탈부착형 스피커를 포함한 음성합성 시스템.
제4항에 있어서,
상기 어플리케이션에 사람의 이름 또는 별칭을 입력하면, 상기 카테고리별로 저장된 문장에 상기 사람의 이름 또는 별칭이 자동입력되는 탈부착형 스피커를 포함한 음성합성 시스템.
제3항에 있어서,
출력될 음성에 관한 캐릭터, 감정에 대한 특징이 상기 어플리케이션을 통해 컨트롤되는 탈부착형 스피커를 포함한 음성합성 시스템.
제3항에 있어서,
상기 어플리케이션을 통해 텍스트가 자유롭게 입력되고, 상기 입력된 텍스트에 대한 음성정보가 상기 스피커로 전송되어 출력되는 탈부착형 스피커를 포함한 음성합성 시스템.
제7항에 있어서,
어플리케이션에 기입력된 텍스트를 클릭하여 재송신할 수 있는 것을 특징으로 하는 탈부착형 스피커를 포함한 음성합성 시스템.
제7항에 있어서,
기입력된 텍스트가 별도의 디폴트 카테고리에 저장되는 것을 특징으로 하는 탈부착형 스피커를 포함한 음성합성 시스템.
제1항에 있어서,
상기 스피커는 고정장치를 포함하고, 상기 고정장치는 집게모듈, 흡착기 모듈 중 어느 하나를 포함하는 탈부착형 스피커를 포함한 음성합성 시스템.
제1항에 있어서,
상기 스피커는 줄이 연결되어 외부 물체에 매달아지는 탈부착형 스피커를 포함한 음성합성 시스템.
제1항에 있어서,
상기 스피커에는 마이크가 구비되고, 상기 마이크를 통해 상기 단말기로 음성메세지가 전달되는 탈부착형 스피커를 포함한 음성합성 시스템.
제1항에 있어서,
상기 단말기에는 동화, 소설과 같이 스토리를 갖는 텍스트 정보가 기저장되어 있고, 상기 텍스트 정보는 음성정보로 합성되어 상기 스피커로 전송되는 탈부착형 스피커를 포함한 음성합성 시스템.
제1항에 있어서,
상기 단말기에는 음악에 대한 음정, 리듬, 박자에 대한 정보가 기저장되어 있고, 상기 음악에 대한 음정, 리듬, 박자에 대한 정보는 음성정보로 합성되어 상기 스피커로 전송되는 탈부착형 스피커를 포함한 음성합성 시스템.
다양한 캐릭터에 관한 음성정보를 딥러닝하는 서버, 상기 서버로부터 음성정보를 전달받는 단말기, 상기 단말기로부터 음성정보를 전달받는 탈부착형 스피커를 포함한 음성합성 시스템을 사용하는 음성합성 방법으로서,
상기 서버에 캐릭터에 관한 음성정보가 입력되는 단계;
상기 입력되는 정보를 이용하여 딥러닝이 이루어지는 단계;
상기 딥러닝을 통해 학습된 정보를 이용하여 음성을 합성하는 단계;
상기 단말기에 입력된 텍스트에 따라 합성된 음성정보가 상기 단말기로부터 상기 스피커로 전달되는 단계; 및
상기 스피커로 전달된 음성정보가 출력되는 단계;를 포함하는 탈부착형 스피커를 포함한 음성합성 시스템을 사용하는 음성합성 방법.
제15항에 있어서,
상기 서버에서 합성된 음성정보가 메모리부에 저장되는 단계를 더 포함하는 탈부착형 스피커를 포함한 음성합성 시스템을 사용하는 음성합성 방법.
제15항에 있어서,
상기 딥러닝이 이루어지는 단계 및 상기 음성을 합성하는 단계는, 음성 딥러닝 학습 엔진 및 감정 컨트롤 솔루션을 통해 이루어지는 탈부착형 스피커를 포함한 음성합성 시스템을 사용하는 음성합성 방법.