KR102473685B1

KR102473685B1 - 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치 및 음성 합성 방법

Info

Publication number: KR102473685B1
Application number: KR1020200158107A
Authority: KR
Inventors: 김남수; 천성준; 최병진; 김민찬; 김형주; 손병찬
Original assignee: 서울대학교산학협력단
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2022-12-02
Also published as: KR20220070979A

Abstract

본 발명은 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치에 관한 것으로서, 보다 구체적으로는 음성 합성 장치로서, 인공신경망 기반으로, 레퍼런스 음성을 입력으로 받아 가변 길이 스타일 벡터 시퀀스를 출력하는 스타일 추출기; 상기 스타일 추출기의 출력인 상기 가변 길이 스타일 벡터 시퀀스를 입력으로 하여, 텍스트 입력에 상응하는 멜스펙트로그램 시퀀스를 출력하는 종단형 음성 합성기; 상기 종단형 음성 합성기의 출력인 멜스펙트로그램 시퀀스를 음성 파형으로 변환해 출력하는 보코더를 포함하며, 상기 스타일 추출기와 종단형 음성 합성기는, 합동 훈련(Joint training)을 통해 학습되는 것을 그 구성상의 특징으로 한다.
또한, 본 발명은 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법에 관한 것으로서, 보다 구체적으로는 컴퓨터에 의해 각 단계가 수행되는 음성 합성 방법으로서, (1) 스타일 요소가 반영된 텍스트-음성 페어의 학습 데이터를 이용해, 인공신경망 기반으로 레퍼런스 음성을 입력으로 받아 가변 길이 스타일 벡터 시퀀스를 출력하는 스타일 추출기와, 상기 스타일 추출기의 출력인 상기 가변 길이 스타일 벡터 시퀀스를 입력으로 하여 텍스트 입력에 상응하는 멜스펙트로그램 시퀀스를 출력하는 종단형 음성 합성기를 합동 훈련(Joint training)을 통해 학습하는 단계; 및 (2) 상기 합동 훈련을 통해 학습된 상기 스타일 추출기와 종단형 음성 합성기를 이용해 합성 대상 스타일로 합성 대상 텍스트를 음성 합성하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치 및 음성 합성 방법에 따르면, 단일 레퍼런스 음성만으로도 유사한 발화 스타일로 다른 음성을 발화할 수 있으므로, 개인화 음성 합성에 유용하게 사용될 수 있다.
또한, 본 발명에서 제안하고 있는 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치 및 음성 합성 방법에 따르면, 음성에서 화자의 스타일을 추출하는 스타일 추출기를 비지도 학습하기 때문에, 스타일을 정의하거나 학습 데이터를 스타일에 따라 분류하는 과정 없이 음성에서 스타일을 추출하고 학습할 수 있으므로, 음성 데이터의 분류 시간 및 비용을 절약하고, 대량의 음성 데이터를 쉽게 활용할 수 있으며, 적은 비용으로 고품질의 음성 합성 모델을 학습할 수 있다.
뿐만 아니라, 본 발명에서 제안하고 있는 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치 및 음성 합성 방법에 따르면, 단 한 문장의 음성만으로도 유사한 스타일의 합성음을 생성할 수 있어, 최소 수 분에서 수 시간 분량의 음성을 바탕으로 스타일을 반영하던 기존 적응형 기법에 비해 매우 적은 양의 음성만으로도 스타일을 반영할 수 있으므로, 대용량 DB 구축 과정 없이 누구든 한 문장의 녹음만으로 해당 스타일로 된 합성음을 생성할 수 있다.

Description

발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치 및 음성 합성 방법{STYLE SPEECH SYNTHESIS APPARATUS AND SPEECH SYNTHESIS METHOD USING STYLE ENCODING NETWORK}

본 발명은 스타일 음성 합성 장치 및 음성 합성 방법에 관한 것으로서, 보다 구체적으로는 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치 및 음성 합성 방법에 관한 것이다.

음성 합성 시스템은 AI 스피커, 오디오북, 스마트홈 등 다양한 분야에 적용되는 핵심적인 기술이다. Markets and Markets에 따르면 2017년 기준 전 세계 음성 합성 시장의 규모는 13억 달러 정도이며, 매년 15.2%의 성장을 통해 2022년에는 30.3억 달러에 미칠 것으로 전망된다. 현재 단일 화자가 단조로운 톤으로 발화하는 음성 합성 시스템의 경우 실제 음성과 구분이 되지 않을 정도의 성능을 보이고 있고, 앞서 언급한 여러 분야에서 실제 서비스에 활발히 사용되고 있다. 이러한 추세로 보았을 때 이후 여러 화자가 다양한 스타일로 발화하는 음성 합성기에 대한 수요가 크게 증가할 것으로 예상된다.

최근 음성 합성 성능에 큰 발전을 이끈 딥러닝 기반의 음성 합성 시스템은 대량의 음성과 텍스트 쌍의 데이터를 필요로 하고, 이러한 데이터를 수집하는 데는 많은 시간과 비용이 소요된다. 따라서 새로운 화자나 발화 스타일에 대해 매번 새로운 데이터를 수집하여 학습하는 방식에는 한계가 있다. 그러므로, 새로운 스타일에 대해서도 추가적인 대량의 데이터 수집 없이 음성을 생성할 수 있는 기술의 개발이 필요하다.

이와 같이 추가적인 학습 없이 새로운 스타일에 대해서도 음성을 합성할 수 있게 되면, 기존의 음성 합성 서비스를 대체할 수 있을 뿐만 아니라 사용자 맞춤형 음성 합성을 가능하게 하여 기존의 시장을 확장할 가능성이 있다.

한편, 본 발명과 관련된 선행기술로서, 등록특허 제10-2159988호(발명의 명칭: 음성 몽타주 생성 방법 및 시스템, 등록일자: 2020년 09월 21일), 등록특허 제10-2055886호(발명의 명칭: 화자 음성 특징 추출 방법 및 장치, 그리고 이를 위한 기록 매체, 등록일자: 2019년 12월 09일) 등이 개시된 바 있다.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 단일 레퍼런스 음성만으로도 유사한 발화 스타일로 다른 음성을 발화할 수 있으므로, 개인화 음성 합성에 유용하게 사용될 수 있는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치 및 음성 합성 방법을 제공하는 것을 그 목적으로 한다.

또한, 본 발명은, 음성에서 화자의 스타일을 추출하는 스타일 추출기를 비지도 학습하기 때문에, 스타일을 정의하거나 학습 데이터를 스타일에 따라 분류하는 과정 없이 음성에서 스타일을 추출하고 학습할 수 있으므로, 음성 데이터의 분류 시간 및 비용을 절약하고, 대량의 음성 데이터를 쉽게 활용할 수 있으며, 적은 비용으로 고품질의 음성 합성 모델을 학습할 수 있는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치 및 음성 합성 방법을 제공하는 것을 다른 목적으로 한다.

뿐만 아니라, 본 발명은, 단 한 문장의 음성만으로도 유사한 스타일의 합성음을 생성할 수 있어, 최소 수 분에서 수 시간 분량의 음성을 바탕으로 스타일을 반영하던 기존 적응형 기법에 비해 매우 적은 양의 음성만으로도 스타일을 반영할 수 있으므로, 대용량 DB 구축 과정 없이 누구든 한 문장의 녹음만으로 해당 스타일로 된 합성음을 생성할 수 있는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치 및 음성 합성 방법을 제공하는 것을 또 다른 목적으로 한다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치는,

음성 합성 장치로서,

인공신경망 기반으로, 레퍼런스 음성을 입력으로 받아 가변 길이 스타일 벡터 시퀀스를 출력하는 스타일 추출기;

상기 스타일 추출기의 출력인 상기 가변 길이 스타일 벡터 시퀀스를 입력으로 하여, 텍스트 입력에 상응하는 멜스펙트로그램 시퀀스를 출력하는 종단형 음성 합성기;

상기 종단형 음성 합성기의 출력인 멜스펙트로그램 시퀀스를 음성 파형으로 변환해 출력하는 보코더를 포함하며,

상기 스타일 추출기와 종단형 음성 합성기는,

합동 훈련(Joint training)을 통해 학습되는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 가변 길이 스타일 벡터 시퀀스는,

입력으로 받은 상기 레퍼런스 음성의 길이에 따라 길이가 변하며, 상기 레퍼런스 음성에 대한 잠재변수로서 상기 레퍼런스 음성의 스타일 정보를 포함할 수 있다.

바람직하게는,

스타일 요소가 반영된 텍스트-음성 페어를 학습 데이터로 저장하는 데이터베이스를 더 포함할 수 있다.

더욱 바람직하게는,

상기 종단형 음성 합성기는, 상기 텍스트-음성 페어의 학습 데이터에서, 텍스트를 입력으로 하고 입력된 텍스트와 페어인 음성의 멜스펙트로그램을 타깃 출력으로 하여 학습되고,

상기 스타일 추출기는, 상기 타깃 출력의 멜스펙트로그램을 입력으로 하여 비지도 학습을 통해 훈련될 수 있다.

더더욱 바람직하게는,

상기 합동 훈련을 통해 학습된 상기 스타일 추출기와 종단형 음성 합성기를 이용해 합성 대상 스타일로 합성 대상 텍스트를 음성 합성하되,

상기 스타일 추출기는, 상기 합성 대상 스타일이 반영되고 상기 합성 대상 텍스트와 상이한 음성을 레퍼런스 음성으로 입력받아 가변 길이 스타일 벡터 시퀀스를 출력하며,

상기 종단형 음성 합성기는, 상기 스타일 추출기의 출력인 상기 가변 길이 스타일 벡터 시퀀스를 입력으로 하여, 상기 합성 대상 텍스트에 상응하는 멜스텍트로그램 시퀀스를 출력할 수 있다.

바람직하게는, 상기 스타일 추출기는,

1차원 합성곱 신경망(Convolutional Neural Network, CNN) 및 게이트 순환 유닛(Gated Recurrent Unit, GRU)을 포함하는 스타일 인코더일 수 있다.

바람직하게는, 상기 종단형 음성 합성기는,

타코트론2 및 트랜스포머-TTS를 포함하는 자가회귀 모델 군에서 선택된 어느 하나일 수 있다.

또한, 상기한 목적을 달성하기 위한 본 발명의 특징에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법은,

컴퓨터에 의해 각 단계가 수행되는 음성 합성 방법으로서,

(1) 스타일 요소가 반영된 텍스트-음성 페어의 학습 데이터를 이용해, 인공신경망 기반으로 레퍼런스 음성을 입력으로 받아 가변 길이 스타일 벡터 시퀀스를 출력하는 스타일 추출기와, 상기 스타일 추출기의 출력인 상기 가변 길이 스타일 벡터 시퀀스를 입력으로 하여 텍스트 입력에 상응하는 멜스펙트로그램 시퀀스를 출력하는 종단형 음성 합성기를 합동 훈련(Joint training)을 통해 학습하는 단계; 및

(2) 상기 합동 훈련을 통해 학습된 상기 스타일 추출기와 종단형 음성 합성기를 이용해 합성 대상 스타일로 합성 대상 텍스트를 음성 합성하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 가변 길이 스타일 벡터 시퀀스는,

더욱 바람직하게는, 상기 단계 (1)은,

(1-1) 상기 텍스트-음성 페어의 학습 데이터에서, 텍스트를 입력으로 하고 입력된 텍스트와 페어인 음성의 멜스펙트로그램을 타깃 출력으로 하여 상기 종단형 음성 합성기를 학습하는 단계; 및

(1-2) 상기 타깃 출력의 멜스펙트로그램을 입력으로 하여 비지도 학습을 통해 상기 스타일 추출기를 훈련하는 단계를 포함하여,

상기 스타일 추출기와 종단형 음성 합성기를 합동 훈련을 통해 학습할 수 있다.

더더욱 바람직하게는, 상기 단계 (2)는,

(2-1) 상기 스타일 추출기는, 합성 대상 스타일이 반영되며 합성 대상 텍스트와 상이한 음성을 레퍼런스 음성으로 입력받아 가변 길이 스타일 벡터 시퀀스를 출력하는 단계;

(2-2) 상기 종단형 음성 합성기는, 상기 스타일 추출기의 출력인 상기 가변 길이 스타일 벡터 시퀀스를 입력으로 하여, 상기 합성 대상 텍스트에 상응하는 멜스텍트로그램 시퀀스를 출력하는 단계; 및

(2-3) 보코더는, 상기 종단형 음성 합성기의 출력인 멜스펙트로그램 시퀀스를 음성 파형으로 변환해 출력하는 단계를 포함할 수 있다.

본 발명에서 제안하고 있는 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치 및 음성 합성 방법에 따르면, 단일 레퍼런스 음성만으로도 유사한 발화 스타일로 다른 음성을 발화할 수 있으므로, 개인화 음성 합성에 유용하게 사용될 수 있다.

또한, 본 발명에서 제안하고 있는 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치 및 음성 합성 방법에 따르면, 음성에서 화자의 스타일을 추출하는 스타일 추출기를 비지도 학습하기 때문에, 스타일을 정의하거나 학습 데이터를 스타일에 따라 분류하는 과정 없이 음성에서 스타일을 추출하고 학습할 수 있으므로, 음성 데이터의 분류 시간 및 비용을 절약하고, 대량의 음성 데이터를 쉽게 활용할 수 있으며, 적은 비용으로 고품질의 음성 합성 모델을 학습할 수 있다.

뿐만 아니라, 본 발명에서 제안하고 있는 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치 및 음성 합성 방법에 따르면, 단 한 문장의 음성만으로도 유사한 스타일의 합성음을 생성할 수 있어, 최소 수 분에서 수 시간 분량의 음성을 바탕으로 스타일을 반영하던 기존 적응형 기법에 비해 매우 적은 양의 음성만으로도 스타일을 반영할 수 있으므로, 대용량 DB 구축 과정 없이 누구든 한 문장의 녹음만으로 해당 스타일로 된 합성음을 생성할 수 있다.

도 1은 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치의 구성을 도시한 도면.
도 2는 스타일 음성 합성을 설명하기 위해 도시한 도면.
도 3은 종단형 음성 합성 장치의 구성을 도시한 도면.
도 4는 스타일 종단형 음성 합성 장치에서, 입력되는 레퍼런스 음성에 따라 출력되는 스타일 벡터를 도시한 도면.
도 5는 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치의 스타일 추출기에서, 입력되는 레퍼런스 음성에 따라 출력되는 스타일 벡터를 도시한 도면.
도 6은 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치에서, 스타일 추출기의 세부적인 구성을 도시한 도면.
도 7은 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치에서, 종단형 음성 합성기의 세부적인 구성을 도시한 도면.
도 8은 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법의 흐름을 도시한 도면.
도 9는 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법에서, 단계 S100의 세부적인 흐름을 도시한 도면.
도 10은 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면.

이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.

덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

도 1은 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10)의 구성을 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10)는, 인공신경망 기반으로, 레퍼런스 음성을 입력으로 받아 가변 길이 스타일 벡터 시퀀스를 출력하는 스타일 추출기(100); 스타일 추출기(100)의 출력인 가변 길이 스타일 벡터 시퀀스를 입력으로 하여, 텍스트 입력에 상응하는 멜스펙트로그램 시퀀스를 출력하는 종단형 음성 합성기(200); 종단형 음성 합성기(200)의 출력인 멜스펙트로그램 시퀀스를 음성 파형으로 변환해 출력하는 보코더(300)를 포함하여 구성될 수 있으며, 스타일 요소가 반영된 텍스트-음성 페어를 학습 데이터로 저장하는 데이터베이스(400)를 더 포함하여 구성될 수 있다. 여기서, 스타일 추출기(100)와 종단형 음성 합성기(200)는, 합동 훈련(Joint training)을 통해 학습될 수 있다.

본 발명은 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10)에 관한 것으로서, 본 발명의 특징에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10)는 컴퓨터로 구현될 수 있다. 예를 들어, 본 발명의 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10)는, 개인용 컴퓨터, 노트북 컴퓨터, 서버 컴퓨터, PDA, 스마트폰, 태블릿 PC 등에 저장 및 구현될 수 있다.

이하에서는, 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10) 및 음성 합성 방법에 대해 설명하기 위해, 스타일 음성 합성과 종단형 음성 합성 장치에 대해 먼저 설명하도록 한다.

도 2는 스타일 음성 합성을 설명하기 위해 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10) 및 음성 합성 방법에 의한 스타일 음성 합성은, 주어진 텍스트와 함께 스타일 정보를 입력으로 사용하여 보다 풍부한 표현력을 가진 합성음을 생성하는 것이다. 여기서, 발화 스타일은 주어진 음성의 화자, 감정, 운율, 채널 등 음소로부터 주어지는 언어적 정보를 제외한 그 외의 음성학적 정보를 포괄적으로 의미한다.

기존에는 스타일 정보로써 음조 정보를 나타내는 기본 주파수(F0, fundamental frequency), 화자의 음향 특징을 나타내는 화자 코드, 감정의 음향특징을 나타내는 감정 코드 등 스타일의 일부 요소들에 대한 특징들을 텍스트와 함께 시스템의 입력으로 주어 운율, 화자, 감정 등의 정보가 반영된 합성음을 생성해 내는 기술에 집중되어있으며, 지도학습 방식으로 학습할 수 있다.

최근에는, 타코트론(Tacotron)을 시작으로 고성능 딥러닝 기반의 종단형 음성 합성 장치에 대한 연구가 집중적으로 진행되고 있다. 딥러닝 기반의 종단형 음성 합성 장치는, 음편을 이어붙여 음성을 생성하는 연결합성 기술과 통계기반 파라미터 합성 기술의 단점을 극복하여, 운율이 매우 자연스럽고 음향 품질이 우수한 특징이 있다. 도 3은 종단형 음성 합성 장치의 구성을 도시한 도면이다.

딥러닝 기반의 고성능의 음성 합성 시스템의 등장과 함께, 보다 표현력이 풍부하며 제어 가능한 스타일 종단형 음성 합성 장치에 대한 연구 또한 활발히 이어지고 있는 추세이다.

종래 스타일 종단형 음성 합성 장치는, 전역 스타일 토큰(Global style token) 기법을 사용한다. 전역 스타일 토큰 기법은 레퍼런스로 주어진 음성을 어텐션 메커니즘을 이용하여 여러 스타일 토큰들의 선형 결합을 통해 하나의 고정된 차원의 스타일 벡터로 추출한다. 추출된 스타일 벡터는 기존 타코트론과 같은 종단형 음성 합성 장치의 인코더 출력에 결합(concatenation)하여 디코더의 입력에 사용되어 레퍼런스의 스타일이 반영된 합성음을 생성하게 된다. 이와 같이, 어텐션 모듈을 활용한 스타일 인코더는, 학습 시 타깃 음성이 레퍼런스 음성으로 주어지며 스타일이 지정되지 않은 비지도 학습 방식으로 학습된다.

전술한 바와 같은 전역 스타일 토큰은 비지도 학습으로 스타일의 구성 요소들에 대해 학습할 수 있다는 장점이 있지만, 시간에 따라 변화하는 시퀀스 정보인 레퍼런스 음성을 하나의 고정된 차원의 스타일 벡터로만 추출하기 때문에 해당 레퍼런스 음성의 전역 특징만을 고려한다는 단점을 가지고 있다.

도 4는 스타일 종단형 음성 합성 장치에서, 입력되는 레퍼런스 음성에 따라 출력되는 스타일 벡터를 도시한 도면이고, 도 5는 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10)의 스타일 추출기(100)에서, 입력되는 레퍼런스 음성에 따라 출력되는 스타일 벡터를 도시한 도면이다.

도 4에 도시된 바와 같이, 종래의 전역 스타일 토큰 방식은 다양한 길이의 레퍼런스 음성을 고정된 차원의 스타일 벡터로 추출하므로, 지역 특징을 반영할 수 없는 한계가 있다. 반면에, 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10)의 스타일 추출기(100)는, 레퍼런스 음성을 가변길이 스타일 벡터 시퀀스로 추출하여 스타일에 대한 지역 특징을 반영할 수 있다.

보다 구체적으로, 가변 길이 스타일 벡터 시퀀스는, 입력으로 받은 레퍼런스 음성의 길이에 따라 길이가 변하며, 레퍼런스 음성에 대한 잠재변수로서 레퍼런스 음성의 스타일 정보를 포함할 수 있다. 이를 통해, 레퍼런스 음성의 전역 특징과 지역 특징을 모두 반영하여 효율적으로 레퍼런스 음성의 스타일이 적용된 음성을 합성할 수 있게 된다.

이하에서는, 도 6 및 도 7을 참조하여 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10)의 각 구성요소에 대해 상세히 설명하도록 한다.

도 6은 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10)에서, 스타일 추출기(100)의 세부적인 구성을 도시한 도면이다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10)의 스타일 추출기(100)는, 인공신경망 기반의 스타일 추출 네트워크로서, 레퍼런스 음성을 입력으로 받아 가변 길이 스타일 벡터 시퀀스를 출력하며, 해당 스타일 정보를 종단형 음성 합성기(200) 디코더의 입력으로 전달할 수 있다.

보다 구체적으로, 스타일 추출기(100)는, 1차원 합성곱 신경망(Convolutional Neural Network, CNN) 및 게이트 순환 유닛(Gated Recurrent Unit, GRU)을 포함하는 스타일 인코더일 수 있다. 즉, 스타일 추출 네트워크는, 도 6에 도시된 바와 같이, 1D Convolutional Network 스택과 GRU 스택으로 이루어진 스타일 인코더 등이 될 수 있으며, 입력으로는 레퍼런스 음성의 멜스펙트로그램 시퀀스가 주어진다. 스타일 추출기(100)는 레퍼런스 길이에 따라 변하는 가변길이 스타일 벡터 시퀀스를 추출하는데, 가변길이 스타일 벡터 시퀀스는 레퍼런스 음성에 대한 잠재변수로써, 레퍼런스 음성의 스타일 정보를 담고 있다.

도 7은 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10)에서, 종단형 음성 합성기(200)의 세부적인 구성을 도시한 도면이다. 도 7에 도시된 바와 같이, 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10)의 종단형 음성 합성기(200)는, 스타일 추출기(100)의 출력인 가변 길이 스타일 벡터 시퀀스를 입력으로 하여, 텍스트 입력에 상응하는 멜스펙트로그램 시퀀스를 출력할 수 있다.

보다 구체적으로, 종단형 음성 합성기(200)는, 타코트론2(Tacotron2) 및 트랜스포머-TTS (Transformer Text-to-speech)를 포함하는 자가회귀 모델 군에서 선택된 어느 하나일 수 있다. 여기서, 타코트론2와 트랜스포머-TTS는 모두 자가회귀 모델로서, 시간 t 출력을 생성하기 위하여 텍스트 정보와 스타일 정보, 그리고 t-1까지 생성된 출력을 디코더의 입력으로 사용한다. 종단형 음성 합성기(200)는 텍스트 입력에 상응하는 멜스펙트로그램 시퀀스를 출력할 수 있다.

도 7에 도시된 바와 같이, 스타일 추출기(100)의 출력인 가변길이 스타일 벡터 시퀀스는 종단형 음성 합성기(200)의 또 다른 디코더 입력으로 사용될 수 있다. 가변길이 스타일 벡터 시퀀스를 종단형 음성 합성기(200)에 컨디셔닝하는 방식의 예로 어텐션 방식을 들 수 있다. 텍스트 정보와 t-1까지 생성된 출력을 사용한 디코더의 중간 출력을 쿼리로, 스타일 정보를 키와 밸류로 사용한 어텐션을 통해 스타일이 반영된 디코더의 출력을 계산할 수 있다.

보코더(300)는, 종단형 음성 합성기(200)의 출력인 멜스펙트로그램 시퀀스를 음성 파형으로 변환해 출력할 수 있다. 실시예에 따라, 보코더(300)는 그리핀림(Griffin-Lim)과 같은 신호처리 기반의 보코딩 알고리즘 혹은 최근에 제안된 웨이브넷(WaveNet), 웨이브글로우(WaveGlow) 등의 뉴럴 보코더(300)로 구현될 수 있다.

한편, 스타일 추출기(100)와 종단형 음성 합성기(200)는, 합동 훈련(Joint training)을 통해 학습되는데, 합동 훈련을 위해 종단형 음성 합성기(200)는, 텍스트-음성 페어의 학습 데이터에서, 텍스트를 입력으로 하고 입력된 텍스트와 페어인 음성의 멜스펙트로그램을 타깃 출력으로 하여 학습되고, 스타일 추출기(100)는, 타깃 출력의 멜스펙트로그램을 입력으로 하여 비지도 학습을 통해 훈련될 수 있다.

보다 구체적으로, 스타일 음성 합성 장치(10)를 학습하기 위하여, 다화자, 다감정 및 어조의 변화가 두드러지는 다양한 스타일 요소가 반영되어있는 대용량 텍스트-음성 페어로 이루어져 있는 데이터베이스(400)를 준비한다. 종단형 음성 합성기(200)를 학습하기 위해서는 텍스트를 입력으로 사용하며, 해당 텍스트의 페어로 이루어진 음성의 멜스펙트로그램이 타깃이 된다. 스타일 추출기(100)를 종단형 음성 합성기(200)와 합동 훈련하기 위해 타깃 음성의 멜스펙트로그램이 스타일 추출 네트워크 입력으로 사용된다. 이때, 스타일 추출 네트워크는 별다른 정답 라벨이 주어지지 않기 때문에 비지도 학습을 통해 훈련이 된다.

합동 훈련을 통해 학습된 스타일 추출기(100)와 종단형 음성 합성기(200)를 이용해 합성 대상 스타일로 합성 대상 텍스트를 음성 합성할 수 있다. 보다 구체적으로, 스타일 추출기(100)는, 합성 대상 스타일이 반영되고 합성 대상 텍스트와 상이한 음성을 레퍼런스 음성으로 입력받아 가변 길이 스타일 벡터 시퀀스를 출력하며, 종단형 음성 합성기(200)는, 스타일 추출기(100)의 출력인 가변 길이 스타일 벡터 시퀀스를 입력으로 하여, 합성 대상 텍스트에 상응하는 멜스텍트로그램 시퀀스를 출력할 수 있다.

즉, 스타일 음성 합성 장치(10)의 합성음 생성 시에는 표현하고자 하는 합성 대상 스타일을 반영한 음성을 레퍼런스로 사용하여 스타일 추출기(100)의 입력으로 하며, 해당 레퍼런스 음성의 텍스트는 종단형 음성 합성기(200)의 입력으로 사용될 텍스트와 같지 않다. 스타일 추출기(100)는 레퍼런스 음성로부터 텍스트 정보를 제외한 스타일 정보를 추출하여 종단형 음성 합성기(200)의 디코더에 반영한다. 종단형 음성 합성기(200)에서 생성된 멜스펙트로그램 시퀀스는 보코더(300)를 통과하여 음성 파형으로 생성될 수 있다.

한편, 본 발명은 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법에 관한 것으로서, 본 발명의 특징에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법은, 메모리 및 프로세서를 포함한 하드웨어에서 기록되는 소프트웨어로 구성될 수 있다. 즉, 본 발명의 특징에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법은, 컴퓨터로 구현되는 스타일 음성 합성 장치(10)에 의해 각 단계가 수행될 수 있다. 예를 들어, 본 발명의 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법은, 개인용 컴퓨터, 노트북 컴퓨터, 서버 컴퓨터, PDA, 스마트폰, 태블릿 PC 등에 저장 및 구현될 수 있다. 이하에서는 설명의 편의를 위해, 각 단계를 수행하는 주체는 생략될 수 있다.

도 8은 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법의 흐름을 도시한 도면이다. 도 8에 도시된 바와 같이, 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법은, 컴퓨터에 의해 각 단계가 수행되는 음성 합성 방법으로서, 스타일 추출기(100)와 종단형 음성 합성기(200)를 합동 훈련을 통해 학습하는 단계(S100) 및 합동 훈련을 통해 학습된 스타일 추출기(100)와 종단형 음성 합성기(200)를 이용해 합성 대상 스타일로 합성 대상 텍스트를 음성 합성하는 단계(S200)를 포함하여 구현될 수 있다.

이하에서는, 각각의 단계들과 관련된 내용을 설명할 것이나, 앞서 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10)와 관련하여 구체적인 내용이 충분히 설명되었으므로, 상세한 설명은 일부 생략될 수 있다.

단계 S100에서는, 스타일 요소가 반영된 텍스트-음성 페어의 학습 데이터를 이용해, 인공신경망 기반으로 레퍼런스 음성을 입력으로 받아 가변 길이 스타일 벡터 시퀀스를 출력하는 스타일 추출기(100)와, 스타일 추출기(100)의 출력인 가변 길이 스타일 벡터 시퀀스를 입력으로 하여 텍스트 입력에 상응하는 멜스펙트로그램 시퀀스를 출력하는 종단형 음성 합성기(200)를 합동 훈련(Joint training)을 통해 학습할 수 있다. 즉, 단계 S100은 스타일 추출기(100)와 종단형 음성 합성기(200)를 학습하는 학습 단계이다.

여기서, 가변 길이 스타일 벡터 시퀀스는, 입력으로 받은 레퍼런스 음성의 길이에 따라 길이가 변하며, 레퍼런스 음성에 대한 잠재변수로서 레퍼런스 음성의 스타일 정보를 포함할 수 있다.

이하에서는, 도 9를 참조하여 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법의 단계 S100에 대해 상세히 설명하도록 한다.

도 9는 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법에서, 단계 S100의 세부적인 흐름을 도시한 도면이다. 도 9에 도시된 바와 같이, 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법의 단계 S100은, 텍스트-음성 페어의 학습 데이터에서 텍스트를 입력으로 하고 입력된 텍스트와 페어인 음성의 멜스펙트로그램을 타깃 출력으로 하여 종단형 음성 합성기(200)를 학습하는 단계(S110) 및 타깃 출력의 멜스펙트로그램을 입력으로 하여 비지도 학습을 통해 스타일 추출기(100)를 훈련하는 단계(S120)를 포함하여 구현될 수 있다.

단계 S110에서는, 텍스트-음성 페어의 학습 데이터에서, 텍스트를 입력으로 하고 입력된 텍스트와 페어인 음성의 멜스펙트로그램을 타깃 출력으로 하여 종단형 음성 합성기(200)를 학습할 수 있다.

단계 S120에서는, 타깃 출력의 멜스펙트로그램을 입력으로 하여 비지도 학습을 통해 스타일 추출기(100)를 훈련할 수 있다.

이와 같이, 단계 S110 및 단계 S120을 통해, 스타일 추출기(100)와 종단형 음성 합성기(200)를 합동 훈련을 통해 학습할 수 있다.

단계 S200에서는, 합동 훈련을 통해 학습된 스타일 추출기(100)와 종단형 음성 합성기(200)를 이용해 합성 대상 스타일로 합성 대상 텍스트를 음성 합성할 수 있다. 즉, 단계 S200은 스타일을 반영해 음성을 합성하는 단계이다.

이하에서는, 도 10을 참조하여 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법의 단계 S200에 대해 상세히 설명하도록 한다.

도 10은 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면이다. 도 10에 도시된 바와 같이, 본 발명의 일실시예에 따른 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법의 단계 S200은, 스타일 추출기(100)는 합성 대상 스타일이 반영되며 합성 대상 텍스트와 상이한 음성을 레퍼런스 음성으로 입력받아 가변 길이 스타일 벡터 시퀀스를 출력하는 단계(S210), 종단형 음성 합성기(200)는 스타일 추출기(100)의 출력인 가변 길이 스타일 벡터 시퀀스를 입력으로 하여, 합성 대상 텍스트에 상응하는 멜스텍트로그램 시퀀스를 출력하는 단계(S220) 및 보코더(300)는 종단형 음성 합성기(200)의 출력인 멜스펙트로그램 시퀀스를 음성 파형으로 변환해 출력하는 단계(S230)를 포함하여 구현될 수 있다.

단계 S210에서는, 스타일 추출기(100)는, 합성 대상 스타일이 반영되며 합성 대상 텍스트와 상이한 음성을 레퍼런스 음성으로 입력받아 가변 길이 스타일 벡터 시퀀스를 출력할 수 있다.

단계 S220에서는, 종단형 음성 합성기(200)는, 스타일 추출기(100)의 출력인 가변 길이 스타일 벡터 시퀀스를 입력으로 하여, 합성 대상 텍스트에 상응하는 멜스텍트로그램 시퀀스를 출력할 수 있다.

단계 S230에서는, 보코더(300)는, 종단형 음성 합성기(200)의 출력인 멜스펙트로그램 시퀀스를 음성 파형으로 변환해 출력할 수 있다.

전술한 바와 같이, 본 발명에서 제안하고 있는 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10) 및 음성 합성 방법에 따르면, 단일 레퍼런스 음성만으로도 유사한 발화 스타일로 다른 음성을 발화할 수 있으므로, 개인화 음성 합성에 유용하게 사용될 수 있다.

또한, 본 발명에서 제안하고 있는 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10) 및 음성 합성 방법에 따르면, 음성에서 화자의 스타일을 추출하는 스타일 추출기(100)를 비지도 학습하기 때문에, 스타일을 정의하거나 학습 데이터를 스타일에 따라 분류하는 과정 없이 음성에서 스타일을 추출하고 학습할 수 있으므로, 음성 데이터의 분류 시간 및 비용을 절약하고, 대량의 음성 데이터를 쉽게 활용할 수 있으며, 적은 비용으로 고품질의 음성 합성 모델을 학습할 수 있다.

뿐만 아니라, 본 발명에서 제안하고 있는 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10) 및 음성 합성 방법에 따르면, 단 한 문장의 음성만으로도 유사한 스타일의 합성음을 생성할 수 있어, 최소 수 분에서 수 시간 분량의 음성을 바탕으로 스타일을 반영하던 기존 적응형 기법에 비해 매우 적은 양의 음성만으로도 스타일을 반영할 수 있으므로, 대용량 DB 구축 과정 없이 누구든 한 문장의 녹음만으로 해당 스타일로 된 합성음을 생성할 수 있다.

그밖에, 본 발명에서 제안하고 있는 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10) 및 음성 합성 방법은, 기존의 음성 합성 서비스를 대체할 수 있을 뿐만 아니라 사용자 맞춤형 음성 합성을 가능하게 하여 기존의 시장을 확장할 가능성이 있다. 대표적으로 여러 화자의 다양한 스타일 음성이 필요한 미디어 제작, 감정 표현이 가능한 AI 비서, 책 내용에 따라 다른 톤으로 읽어주는 오디오북 등 광범위한 응용이 가능하다.

한편, 본 발명에서 제안하고 있는 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10) 및 음성 합성 방법은, 일반적인 음성 합성 기술을 사용하고 있는 기존의 상품 및 서비스에 적용될 수 있는 일반적인 기술이다. 음성 합성 시 원하는 발화 스타일(화자 특성, 감정 등)을 선택 및 반영할 수 있다는 것이 특징이며, 이는 기존의 상품 및 서비스에 적용되어 훨씬 자연스럽고 다양한 스타일의 합성된 음성을 제공할 수 있다.

또한, 본 발명에서 제안하고 있는 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10) 및 음성 합성 방법은, 레퍼런스로 주어진 음성의 화자 특성, 감정, 발화 스타일을 추출하여 이를 반영한 음성을 새로이 합성하는 것을 특징으로 하므로, 하나의 음성 합성 모델이 임의의 화자가 지닌 발화 스타일을 모사한 음성을 합성할 수 있다는 점에서 기술적 의의 및 사업적 가능성이 높다.

그밖에, 본 발명에서 제안하고 있는 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10) 및 음성 합성 방법은, 음성 합성뿐만 아니라, 시퀀스로 표현되는 데이터를 학습하는 기계언어 학습 분야 및 영상 합성 분야 등 타 도메인에서도 사용될 수 있다. 상업적으로는 개인화 음성 합성, 스마트 에이전트, 엔터테인먼트 등에 직접적으로 활용될 수도 있다.

한편, 본 발명은 다양한 통신 단말기로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터에서 판독 가능한 매체를 포함할 수 있다. 예를 들어, 컴퓨터에서 판독 가능한 매체는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD_ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.

이와 같은 컴퓨터에서 판독 가능한 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이때, 컴퓨터에서 판독 가능한 매체에 기록되는 프로그램 명령은 본 발명을 구현하기 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예를 들어, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이와 같이, 본 발명에서 제안하고 있는 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10) 및 음성 합성 방법은 컴퓨터에 의해 구현되는 것으로서, 기계 장치에 적용되는 프로그램으로 제작하고, 프로그램 배포를 통해 대량 생산이 가능하며, 기존의 상품 및 서비스에 적용되고 있는 음성 합성 기술을 대체할 수 있어 산업 적용에도 용이할 것이다.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

10: 본 발명에 따른 스타일 음성 합성 장치
100: 스타일 추출기
200: 종단형 음성 합성기
300: 보코더
400: 데이터베이스
S100: 스타일 추출기와 종단형 음성 합성기를 합동 훈련을 통해 학습하는 단계
S110: 텍스트-음성 페어의 학습 데이터에서 텍스트를 입력으로 하고 입력된 텍스트와 페어인 음성의 멜스펙트로그램을 타깃 출력으로 하여 종단형 음성 합성기를 학습하는 단계
S120: 타깃 출력의 멜스펙트로그램을 입력으로 하여 비지도 학습을 통해 스타일 추출기를 훈련하는 단계
S200: 합동 훈련을 통해 학습된 스타일 추출기와 종단형 음성 합성기를 이용해 합성 대상 스타일로 합성 대상 텍스트를 음성 합성하는 단계
S210: 스타일 추출기는 합성 대상 스타일이 반영되며 합성 대상 텍스트와 상이한 음성을 레퍼런스 음성으로 입력받아 가변 길이 스타일 벡터 시퀀스를 출력하는 단계
S220: 종단형 음성 합성기는 스타일 추출기의 출력인 가변 길이 스타일 벡터 시퀀스를 입력으로 하여, 합성 대상 텍스트에 상응하는 멜스텍트로그램 시퀀스를 출력하는 단계
S230: 보코더는 종단형 음성 합성기의 출력인 멜스펙트로그램 시퀀스를 음성 파형으로 변환해 출력하는 단계

Claims

음성 합성 장치로서,
인공신경망 기반으로, 레퍼런스 음성을 입력으로 받아 가변 길이 스타일 벡터 시퀀스를 출력하는 스타일 추출기(100);
상기 스타일 추출기(100)의 출력인 상기 가변 길이 스타일 벡터 시퀀스를 입력으로 하여, 텍스트 입력에 상응하는 멜스펙트로그램 시퀀스를 출력하는 종단형 음성 합성기(200);
상기 종단형 음성 합성기(200)의 출력인 멜스펙트로그램 시퀀스를 음성 파형으로 변환해 출력하는 보코더(300); 및
스타일 요소가 반영된 텍스트-음성 페어를 학습 데이터로 저장하는 데이터베이스(400)를 포함하며,
상기 스타일 추출기(100)와 종단형 음성 합성기(200)는,
합동 훈련(Joint training)을 통해 학습되고,
상기 종단형 음성 합성기(200)는, 상기 텍스트-음성 페어의 학습 데이터에서, 텍스트를 입력으로 하고 입력된 텍스트와 페어인 음성의 멜스펙트로그램을 타깃 출력으로 하여 학습되고,
상기 스타일 추출기(100)는, 상기 타깃 출력의 멜스펙트로그램을 입력으로 하여 비지도 학습을 통해 훈련되는 것을 특징으로 하는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10).
제1항에 있어서, 상기 가변 길이 스타일 벡터 시퀀스는,
입력으로 받은 상기 레퍼런스 음성의 길이에 따라 길이가 변하며, 상기 레퍼런스 음성에 대한 잠재변수로서 상기 레퍼런스 음성의 스타일 정보를 포함하는 것을 특징으로 하는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10).
삭제
삭제
제1항에 있어서,
상기 합동 훈련을 통해 학습된 상기 스타일 추출기(100)와 종단형 음성 합성기(200)를 이용해 합성 대상 스타일로 합성 대상 텍스트를 음성 합성하되,
상기 스타일 추출기(100)는, 상기 합성 대상 스타일이 반영되고 상기 합성 대상 텍스트와 상이한 음성을 레퍼런스 음성으로 입력받아 가변 길이 스타일 벡터 시퀀스를 출력하며,
상기 종단형 음성 합성기(200)는, 상기 스타일 추출기(100)의 출력인 상기 가변 길이 스타일 벡터 시퀀스를 입력으로 하여, 상기 합성 대상 텍스트에 상응하는 멜스펙트로그램 시퀀스를 출력하는 것을 특징으로 하는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10).
제1항에 있어서, 상기 스타일 추출기(100)는,
1차원 합성곱 신경망(Convolutional Neural Network, CNN) 및 게이트 순환 유닛(Gated Recurrent Unit, GRU)을 포함하는 스타일 인코더인 것을 특징으로 하는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10).
제1항에 있어서, 상기 종단형 음성 합성기(200)는,
타코트론2 및 트랜스포머-TTS를 포함하는 자가회귀 모델 군에서 선택된 어느 하나인 것을 특징으로 하는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10).
컴퓨터에 의해 각 단계가 수행되는 음성 합성 방법으로서,
(1) 스타일 요소가 반영된 텍스트-음성 페어의 학습 데이터를 이용해, 인공신경망 기반으로 레퍼런스 음성을 입력으로 받아 가변 길이 스타일 벡터 시퀀스를 출력하는 스타일 추출기(100)와, 상기 스타일 추출기(100)의 출력인 상기 가변 길이 스타일 벡터 시퀀스를 입력으로 하여 텍스트 입력에 상응하는 멜스펙트로그램 시퀀스를 출력하는 종단형 음성 합성기(200)를 합동 훈련(Joint training)을 통해 학습하는 단계; 및
(2) 상기 합동 훈련을 통해 학습된 상기 스타일 추출기(100)와 종단형 음성 합성기(200)를 이용해 합성 대상 스타일로 합성 대상 텍스트를 음성 합성하는 단계를 포함하며,
상기 단계 (1)은,
(1-1) 상기 텍스트-음성 페어의 학습 데이터에서, 텍스트를 입력으로 하고 입력된 텍스트와 페어인 음성의 멜스펙트로그램을 타깃 출력으로 하여 상기 종단형 음성 합성기(200)를 학습하는 단계; 및
(1-2) 상기 타깃 출력의 멜스펙트로그램을 입력으로 하여 비지도 학습을 통해 상기 스타일 추출기(100)를 훈련하는 단계를 포함하여,
상기 스타일 추출기(100)와 종단형 음성 합성기(200)를 합동 훈련을 통해 학습하는 것을 특징으로 하는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법.
제8항에 있어서, 상기 가변 길이 스타일 벡터 시퀀스는,
입력으로 받은 상기 레퍼런스 음성의 길이에 따라 길이가 변하며, 상기 레퍼런스 음성에 대한 잠재변수로서 상기 레퍼런스 음성의 스타일 정보를 포함하는 것을 특징으로 하는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법.
삭제
제8항에 있어서, 상기 단계 (2)는,
(2-1) 상기 스타일 추출기(100)는, 합성 대상 스타일이 반영되며 합성 대상 텍스트와 상이한 음성을 레퍼런스 음성으로 입력받아 가변 길이 스타일 벡터 시퀀스를 출력하는 단계;
(2-2) 상기 종단형 음성 합성기(200)는, 상기 스타일 추출기(100)의 출력인 상기 가변 길이 스타일 벡터 시퀀스를 입력으로 하여, 상기 합성 대상 텍스트에 상응하는 멜스펙트로그램 시퀀스를 출력하는 단계; 및
(2-3) 보코더(300)는, 상기 종단형 음성 합성기(200)의 출력인 멜스펙트로그램 시퀀스를 음성 파형으로 변환해 출력하는 단계를 포함하는 것을 특징으로 하는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법.