KR102137523B1

KR102137523B1 - 텍스트-음성 변환 방법 및 시스템

Info

Publication number: KR102137523B1
Application number: KR1020180055494A
Authority: KR
Inventors: 이수영; 이영근; 정은수; 김준우; 김태호; 라비 아잠
Original assignee: 한국과학기술원
Priority date: 2017-08-09
Filing date: 2018-05-15
Publication date: 2020-07-24
Also published as: KR20190016889A

Abstract

본 발명은 텍스트-음성 변환 방법 및 시스템에 관한 것으로, 상세하게는, 음성을 생성할 전체 주파수 대역을 복수의 부분 대역으로 구별하는 단계; 문자로부터 각각의 부분 대역에 해당하는 음성 스펙트럼을 생성하는 단계; 상기 각각의 대역에 해당하는 음성 스펙트럼을 병합하는 단계; 및 상기 병합된 스펙트럼을 음성으로 출력하는 단계;를 포함하는 텍스트-음성 변환 방법 및 시스템에 관한 것이다.

Description

텍스트-음성 변환 방법 및 시스템{Method of text to speech and system of the same}

본 발명은 텍스트-음성 변환 방법 및 시스템에 관한 것이다.

음성은 인간의 가장 자연스러운 의사 소통 수단이면서 정보 전달 수단이자, 언어를 구현하는 수단으로서 인간이 내는 의미 있는 소리이다.

인간과 기계 사이의 음성을 통한 통신 구현에 대한 시도는 과거부터 꾸준히 발전되어 왔는 바, 더욱이 최근 음성 정보를 효과적으로 처리하기 위한 음성 정보 처리 기술(speech information technology;SIT) 분야가 괄목할 만한 발전을 이룩함에 따라 실생활에도 속속 적용이 되고 있다.

이러한 음성 정보 처리 기술을 크게 분류하면, 음성 인식(speech recognition), 음성 합성(speech synthesis), 화자 인증(speaker identification and verification), 음성 코딩(speech coding) 등의 카테고리로 분류될 수 있다.

음성 인식은 발화된 음성을 인식하여 문자열로 변환하는 기술이고, 음성 합성은 문자열을 음성 분석에서 얻어진 데이 터나 파라미터를 이용하여 원래의 음성으로 변환하는 기술이며, 화자 인증은 발화된 음성을 통하여 발화자를 추정하 거나 인증하는 기술이며 음성 코딩은 음성 신호를 효과적으로 압축하여 부호화하는 기술이다.

이 중에서, 음성합성기술의 발전 과정을 살펴보면, 초기의 음성 합성은 대부분 기계 장치 또는 전자회로를 이용하여 인간의 발성기관을 흉내내는 구조를 채택하다. 예를 들어, 18세기 볼프강 폰 켐펠렌(Wolfgang von Kem pelen)은 고무로 만들어진 입과 콧구멍을 가지며 성도의 변화를 흉내낼 수 있도록 한, 풀무로 만든 음성 합성 기계를 고안한 바 있다. 이후, 전기적 분석 방법을 이용한 음성 합성 기술로 발전하여, 1930년대에는 더들리(Dudl ey)가 초기 형태의 보코더(vocoder)를 선보이기도 하다.

오늘날에는 컴퓨터의 급속한 발달에 힘입어, 컴퓨터 기반 음성 합성 방식이 음성 합성 방식의 주류를 이루게 되었으 며, 시스템 모델 방식(조음 합성 (articulary synthesis) 등)이나 신호 모델 방식(규칙기반 포만트 합성 또는 단위음 결합 합성) 등의 다양한 방식이 개발되고 있다.

음성합성 기술은 실제 응용방식에 따라 크게 두 가지로 구분될 수 있다. 제한된 어휘 개수와 구문구조의 문장만을 합성하는 제한 어휘합성 또는 자동음성응답시스템(ARS; Automatic Response System)과 임의의 문장을 입력받아 음성 합성하는 무제한 어휘합성 또는 텍스트-음성 변환(TTS; Text-to-Speech) 시스템이 있다.

그 중, 텍스트-음성 변환(TTS) 시스템은 작은 합성 단위음성과 언어 처리를 이용하여 임의의 문장에 대한 음성을 생성한다. 언어 처리를 이용하여 입력된 문장을 적당한 합성 단위의 조합으로 대응시키고, 문장으로부터 적당한 억양과 지속시간을 추출하여 합성음의 운율을 결정한다. 언어의 기본 단위인 음소, 음절 등의 조합에 의해 음성을 합성해 내므로 합성 대상어휘에 제한이 없으며 주로 TTS(Text-to-Speech) 장치 및 CTS(Context-to-Speech) 장치 등에 적용된다.

종래의 텍스트-음성 변환(TTS) 시스템의 경우, 문자를 변환하고 음성을 합성하는데 있어, 하나의 시스템을 사용하여 전체 신호를 예측하기 때문에, 음성을 합성하기 위해 복잡한 계산이 필요한 경우, 음성 합성이 어려운 문제가 있다.

본 발명의 목적은

텍스트-음성 변환 방법 및 시스템을 제공하는 데 있다.

상기 목적을 달성하기 위해, 본 발명은

음성을 생성할 전체 주파수 대역을 복수의 부분 대역으로 구별하는 단계;

문자로부터 각각의 부분 대역에 해당하는 음성 스펙트럼을 생성하는 단계;

상기 각각의 대역에 해당하는 음성 스펙트럼을 병합하는 단계; 및

상기 병합된 스펙트럼을 음성으로 출력하는 단계;를 포함하는 텍스트-음성 변환 방법을 제공한다.

또한, 본 발명은

문자로부터 각각의 부분 대역별 신호를 생성하여 음성을 출력하는 텍스트-음성 변환모듈;을 포함하고,

상기 텍스트-음성 변환모듈은,

문자로부터 각각의 부분 대역에 해당하는 음성 스펙트럼을 생성하는 텍스트-음성 변환부,

상기 텍스트-음성 변환부에서 생성된 각각의 대역에 해당하는 음성 스펙트럼을 병합하는 스펙트럼 병합부, 및

상기 스펙트럼 병합부에서 병합된 스펙트럼을 음성으로 출력하는 음성 출력부,를 포함하는 텍스트-음성 변환 시스템을 제공한다.

본 발명의 텍스트-음성 변환 방법은, 스펙트럼의 부분 대역 간의 독립성(independency)을 가정하여 큰 모델 하나로 전체 신호를 예측하는 대신 작은 모델 여러 개로 부분 대역을 예측한 결과를 합치는 방법으로, 계산량을 줄일 수 있고, 어려운 문제를 분할 정복(divide and conquer) 방식으로 해결할 수 있는 효과가 있다.

도 1은 본 발명의 실시예에 따른 텍스트-음성 변환 방법을 나타낸 모식도이고,
도 2는 본 발명의 실시예에 따른 텍스트-음성 변환 시스템을 나타낸 모식도이다.

본 발명의 일 실시예는

본 발명의 일 실시예에 따른 텍스트-음성 변환 방법은, 문자 입력을 받아 해당 내용의 발화 음성을 합성해서 출력하는 방법이다.

즉, 본 발명의 일 실시예에 따른 텍스트-음성 변환 방법은 발화할 내용의 문자를 입력할 경우, 그것을 읽은 음성 신호를 출력하는 방법이다.

본 발명의 일 실시예에 따른 텍스트-음성 변환 방법은 인공신경망을 이용해 음성을 합성할 수 있으며, 음성 합성에 있어서 합성할 음성신호에 대해 하나 이상의 대역으로 나누어져 생성 후 이를 합침으로써, 문자를 음성으로 변환하는 방법이다.

이하, 본 발명의 실시예에 따른 텍스트-음성 변환 방법을 도면을 참조하여 각 단계별로 보다 상세히 설명한다.

본 발명의 실시예에 따른 텍스트-음성 변환 방법은 음성을 생성할 전체 주파수 대역을 복수의 부분 대역으로 구별하는 단계를 포함한다.

상기 단계는 음성으로 변환할 문자 또는 텍스트를 하나 이상의 부분 대역(sub-band)로 나눠, 대역별 신호를 생성하는 단계이다.

이때, 상기 문자는 푸리에 변환 필터, 웨이브렛(Wavelet) 필터 및 가보(Gabor) 필터 중 적어도 하나의 필터를 이용하여 대역별로 구별될 수 있다.

본 발명의 일 실시 예에 따르면, 상기 텍스트-음성 변환 방법은 음성을 생성할 전체 주파수 대역을 복수의 부분 대역으로 구별하는 단계에서 부분 대역은 전체 대역의 길이보다 짧은 길이를 가지는 부분 대역들이 포함될 수 있다.

본 발명의 일 실시 예에 따르면, 상기 부분 대역의 음성 파형 길이는 상기 전체 대역의 음성 파형 길이의 1/2 이하일 수 있다

본 발명의 일 실시 예에 따르면, 원래의 음성 파형의 길이가 100일 때, 4개의 sub-band를 가지는 wavelet transform을 적용하면 {50, 25, 12.5, 12.5}의 길이를 가지는 4개의 부분 대역별 신호로 나뉠 수 있다.

본 발명의 실시예에 따른 텍스트-음성 변환 방법은 문자로부터 각각의 부분 대역에 해당하는 음성 스펙트럼을 생성하는 단계를 포함한다.

본 발명의 실시예에 따른 텍스트-음성 변환 방법은 문자를 대역별로 나누고, 대역별로 나눠진 신호 각각에 대해, 각각의 음성 스펙트럼을 생성하기 때문에 입력받은 문자에 대해 대역별 구별없이 하나의 음성 스펙트럼을 생성하는 종래의 방법에 비해 계산량을 현저히 줄일 수 있으며, 어려운 문제를 분할 정복(divide and conquer)방식으로 해결할 수 있는 장점이 있다.

본 발명의 일 실시 예에 따르면, 문자로부터 각각의 부분 대역에 해당하는 음성 스펙트럼을 생성하는 단계는 각각의 부분 대역 별로 병렬적으로 동시에 음성 스펙트럼을 생성할 수 있다.

상기 음성 스펙트럼을 생성하는 단계는 각 대역별 신호를 각기 다른 방법 또는 시스템을 이용하여 연산할 수 있으며, 상기 각 대역별 신호를 연산하는 방법 또는 시스템은 서로 독립적일 수 있다. 이에, 상기 단계에서 각각의 대역별 신호에 해당하는 음성 스펙트럼을 생성하기 위해, 복수의 텍스트 음성 변환 시스템이 사용될 수 있으며, 상기 텍스트 음성 변환 시스템으로, 타코트론(Tacotron) 또는 웨이브넷(Wavenet) 알고리즘이 사용될 수 있다.

여기서 상기 타코트론(Tacotron)은 하기와 같은 방법으로 문자를 음성 스펙트럼으로 생성한다.

타코트론(Tacotron)은 순환 신경망((Recurrent Neural Network, RNN) 인코더-디코더를 활용한 'sequence-to-sequence' 모델로서 텍스트에서 필요한 정보를 추출하는 인코더(encoder)부와 인코더된 텍스트로부터 음성을 합성하는 디코더(decoder)부로 나눌 수 있다.

인코더(encoder)부에서는, 인코더 네트워크의 입력값으로, 문장을 문자(character) 단위로 분해하여 벡터형태로 만든 문자 임베딩(character embedding)이 사용되며 신경망(neural network)을 거쳐 텍스트 임베딩 벡터(text encoding vector)를 출력값으로 내어 놓는다.

상기 신경망(neural network)으로, CBHG 모듈 즉, 컨벌루션 신경망(convolutional neural network), 하이웨이 네트워크(highway network) 및 양방향성 순환 신경망(bi-directional recurrent neural network)을 순서대로 쌓은 신경망이 사용될 수 있다.

디코더(decoder)부에서는, t 시간 단계에서의 디코더 네트워크(Decoder network)의 입력값으로는 텍스트 임베딩 벡터(text encoding vector)들의 가중합과 이전 t-1 시간단계의 마지막 디코더 출력값이 합쳐져 사용된다. 디코더 출력값은 멜 스케일 스펙트로그램(mel-scale spectrogram)으로 매 시단 단계당 r개의 벡터를 내어 놓게 된다. r개의 벡터 중 마지막 벡터만 다음 시간 단계의 디코더 입력값으로 사용된다. 시간 단계마다 r개씩 생성된 멜 스케일 스펙트로그램 벡터들은 디코더 타임 스텝방향으로 합쳐져 합성된 음성 전체의 멜 스케일 스펙트로그램을 이루게 되며, 이 스펙트로그램은 추가적인 신경망(neural network)를 거쳐 선형-스케일 스펙트로그램으로 변환된다. 이후 상기 선형-스케일 스펙트로그램이 'Griffin-Lim reconstruction' 알고리즘을 통해 파형(wave form)으로 변환이 되며 이것을 '~.wav' 파일로 쓰게되면 음성 파일이 생성된다.

본 발명의 실시예에 따른 문자로부터 각각의 부분 대역에 해당하는 음성 스펙트럼을 생성하는 단계는 상기 타코트론(Tacotron)을 이용하여 구현될 수 있다.

즉, 상기 타코트론(Tacotron)에서 디코더의 출력값은 r개의 스펙트로그램이다. 이것을 매트릭스 형태로 생각한다면 S x R 형태의 매트릭스로 볼 수 있다. 여기서 s는 스펙트로그램의 크기로, 멜-스캐일 스펙트로그램은 80차원의 벡터가 사용될 ㅅ수 있다. 각 대역별로 음성 스펙트럼을 생서하기 위해 상기 출력 크기를 S_i(이때 i는 i번째 대역을 의미함)가 되도록 모델을 구현하고, S_i<S, S=ΣS_i를 만족하도록 모델을 구현 될 수 있다. 이에 따라, 각각의 대역에서, 에 해당하는 음성 스펙트럼을 생성하는 텍스트 음성 변환 시스템, 'TTS system i'는 각각 출력값으로 S_i x R 형태의 매트릭스를 형성하게 된다.

도 1은 본 발명의 실시예에 따른 텍스트-음성 변환 방법을 나타낸 모식도로, 도 1에서와 같이, N개의 텍스트 음성 변환 시스템들은 각각 최종적으로 S_i x T (여기서 T는 음성의 총 프레임 길이)형태의 출력값을 출력하게 된다.

이후, N개의 출력값 매트릭스들은 스펙트로그램 크기방향으로 합쳐져 최종적으로 S x R 형태의 출력값을 얻게 되고 이후 후술될 바와 같이, 각각의 대역에 해당하는 음성 스펙트럼을 병합하고, 상기 병합된 음성 스펙트럼을 선형 스펙트럼으로 변환 및 상기 선형 스펙트럼을 파형(waveform)으로 변환하여 최종적으로 음성으로 출력한다.

한편, 상기 음성 스펙트럼을 생성하는 단계는, 화자의 음색, 나이, 성별 및 감정 중 적어도 하나의 발화조건을 부여하여 음성 스펙트럼을 생성하는 단계를 포함할 수 있다.

상기 단계에서, 상기 발화조건이 추가될 경우, 상기 조건을 반영한 음성 신호가 생성될 수 있다.

본 발명의 실시예에 따른 텍스트-음성 변환 방법은 상기 각각의 대역에 해당하는 음성 스펙트럼을 병합하는 단계를 포함한다.

또한, 본 발명의 실시예에 따른 텍스트-음성 변환 방법은 상기 병합된 스펙트럼을 음성으로 출력하는 단계를 포함한다.

상기 병합된 스펙트럼을 음성으로 출력하는 단계는, 상기 병합된 음성 스펙트럼을 선형 스펙트럼으로 변환하는 단계 및 상기 선형 스펙트럼을 파형(waveform)으로 변환하는 단계를 포함할 수 있다.

또한, 본 발명은

상기 텍스트-음성 변환모듈은,

본 발명의 일 실시예에 따른 텍스트-음성 변환 시스템은, 문자 입력을 받아 해당 내용의 발화 음성을 합성해서 출력하는 시스템이다.

즉, 본 발명의 일 실시예에 따른 텍스트-음성 변환 시스템은 발화할 내용의 문자가 입력되면, 그것을 읽은 음성 신호가 출력되는 시스템이다.

본 발명의 일 실시예에 따른 텍스트-음성 변환 시스템은 인공신경망을 이용해 음성을 합성하며, 음성 합성에 있어서 합성할 음성신호에 대해 하나 이상의 대역으로 나누어져 생성 후 이를 합침으로써, 문자를 음성으로 변환하는 텍스트-음성 변환 시스템이다.

이하, 본 발명의 일 실시예에 따른 텍스트-음성 변환 시스템을 도면을 참고하여 각 단계별로 상세히 설명한다.

도 2는 본 발명의 실시예에 따른 텍스트-음성 변환 시스템을 나타낸 모식도이다.

본 발명의 일 실시예에 따른 텍스트-음성 변환 시스템은 음성의 주파수 대역을 설정하는 것에 있어서, 푸리에 변환 필터, 웨이브렛(Wavelet) 필터 및 가보(Gabor) 필터 중 적어도 하나의 필터가 사용될 수 있다.

본 발명의 일 실시예에 따른 텍스트-음성 변환 시스템은 상기 대역분할모듈에서 생성된 대역별 신호를 연산하여 음성을 출력하는 텍스트-음성 변환모듈을 포함한다.

본 발명의 일 실시 예에 따르면, 상기 텍스트-음성 변환모듈에서 부분 대역은 전체 대역의 길이보다 짧은 길이를 가지는 부분 대역들이 포함될 수 있다.

본 발명의 일 실시 예에 따르면, 상기 부분 대역의 음성 파형 길이는 상기 전체 대역의 음성 파형 길이의 1/2 이하일 수 있다.

이때, 상기 텍스트-음성 변환모듈은, 문자로부터 각각의 부분 대역에 해당하는 음성 스펙트럼을 생성하는 텍스트-음성 변환부를 포함한다.

상기 텍스트-음성 변환부는 각각의 대역마다 해당 음성 스펙트럼을 생성한다.

이때, 각각의 대역은 각기 다른 방법 또는 시스템을 이용하여 음성 스펙트럼을 생성할 있으며, 이에, 상기 방법 또는 시스템은 서로 독립적일 수 있다. 이에, 상기 텍스트-음성 변환부는 각각의 대역별 신호에 해당하는 음성 스펙트럼을 생성하기 위해, 복수의 텍스트 음성 변환 시스템이 사용될 수 있으며, 상기 텍스트 음성 변환 시스템으로, 타코트론(Tacotron) 또는 웨이브넷(Wavenet) 알고리즘이 사용될 수 있다.

또한, 상기 텍스트-음성 변환모듈은, 상기 텍스트-음성 변환부에서 생성된 각각의 대역에 해당하는 음성 스펙트럼을 병합하는 스펙트럼 병합부를 포함할 수 있으며, 상기 스펙트럼 병합부에서 병합된 스펙트럼을 음성으로 출력하는 음성 출력부를 더 포함할 수 있다.

이때, 음성 출력부는 병합된 음성 스펙트럼을 선형 스펙트럼으로 변환하고 상기 선형 스펙트럼을 파형(waveform)으로 변환하여 최종 음성을 출력할 수 있다.

본 발명은, 하드웨어, 소프트웨어, 펌웨어, 특수 목적 프로세서, 또는 이들의 조합체의 여러 형태로 구현될 수 있다는 것을 이해하여야 할 것이다. 바람직하게는, 본 발명은 하드웨어와 소프트웨어의 조합으로 구현된다. 나아가, 소프트웨어는 바람직하게는, 프로그램 저장 디바이스에 유형적으로 구현되는 어플리케이션 프로그램으로 구현된다. 이 어플리케이션 프로그램은 임의의 적절한 구조를 포함하는 머신(machine)에 업로드되며 이 머신에 의해 실행될 수 있다. 바람직하게, 이 머신은 하나 이상의 중앙 처리 장치(CPU)와 랜덤 억세스 메모리(RAM)와, 입/출력(I/O) 인터페이스(들)와 같은 하드웨어를 구비하는 컴퓨터 플랫폼(platform) 상에 구현된다. 이 컴퓨터 플랫폼은 또한 운영 체계와 마이크로 명령 코드를 포함한다. 본 명세서에 기술되는 여러 처리 및 기능은 운용 체계를 통해 실행되는 마이크로 명령 코드의 일부 또는 어플리케이션 프로그램의 일부(또는 이들의 조합)일 수 있다. 나아가, 부가적인 데이터 저장 디바이스와 프린팅 디바이스와 같은 여러 다른 주변 디바이스들이 이 컴퓨터 플랫폼에 연결될 수 있다.

첨부하는 도면에 도시된 구성요소의 시스템 성분과 방법 단계의 일부는 바람직하게는 소프트웨어로 구현되기 때문에, 시스템 성분(또는 방법 단계) 사이의 실제 연결은 본 발명이 프로그래밍되는 방식에 따라 달라질 수 있다는 것을 더 이해하여야 할 것이다. 본 명세서에 개시된 내용에 따라, 관련 기술 분야에 통상의 지식을 가진 자라면 본 발명의 이들 구현예나 구성 및 이와 유사한 구현예나 구성을 생각할 수 있을 것이다.

Claims

문자로부터 생성할 음성의 전체 주파수 대역에서 복수의 부분 대역에 해당하는 음성 스펙트럼을 생성하는 단계;
상기 각각의 대역에 해당하는 음성 스펙트럼을 인공신경망을 이용해 병합하는 단계; 및
상기 병합된 스펙트럼을 음성으로 출력하는 단계;를 포함하고,
상기 음성 스펙트럼을 생성하는 단계는 각각의 부분 대역별로 동시에 병렬적으로 음성 스펙트럼을 생성하며,
상기 복수의 부분 대역에 해당하는 음성 스펙트럼을 생성하는 단계는, 상기 전체 주파수 대역을 필터를 이용하여 전체 주파수의 부분 대역별로 구별된 신호를 생성하고,
상기 병합된 스펙트럼을 음성으로 출력하는 단계는, 상기 병합된 음성 스펙트럼을 선형 스펙트럼으로 변환하는 단계 및 상기 선형 스펙트럼을 파형(waveform)으로 변환하는 단계를 포함하고,
상기 복수의 부분 대역은,
상기 부분 대역의 음성 파형 길이 최대치가 상기 전체 주파수 대역의 음성 파형 길이보다 짧은 것을 특징으로 하여 상기 음성을 생성할 전체 주파수 대역으로부터 복수의 부분 대역이 구별되는 것 인 텍스트-음성 변환 방법.
삭제
삭제
삭제
삭제
삭제
문자로부터 생성할 음성의 전체 주파수 대역에서 복수의 부분 대역별 신호를 생성하여 음성을 출력하는 텍스트-음성 변환모듈;을 포함하고,
상기 텍스트-음성 변환모듈은,
문자로부터 생성할 음성의 전체 주파수 대역에서 복수의 부분 대역에 해당하는 음성 스펙트럼을 생성하는 텍스트-음성 변환부,
상기 텍스트-음성 변환부에서 생성된 각각의 대역에 해당하는 음성 스펙트럼을 인공신경망을 이용하여 병합하는 스펙트럼 병합부, 및
상기 스펙트럼 병합부에서 병합된 스펙트럼을 음성으로 출력하는 음성 출력부,를 포함하고,
상기 텍스트-음성 변환부는 각각의 부분 대역별로 병렬적으로 동시에 음성 스펙트럼을 생성하고,
상기 텍스트-음성 변환모듈은 상기 문자를 필터를 이용하여 전체 주파수의 부분 대역별로 구별된 신호를 생성하며,
상기 음성 출력부는, 상기 병합된 음성 스펙트럼을 선형 스펙트럼으로 변환하고 상기 선형 스펙트럼을 파형(waveform)으로 변환하는 것을 특징으로 하며,
상기 복수의 부분 대역은,
상기 부분 대역의 음성 파형 길이 최대치가 상기 전체 주파수 대역의 음성 파형 길이보다 짧은 것을 특징으로 하여 상기 음성을 생성할 전체 주파수 대역으로부터 복수의 부분 대역이 구별되는 것 인 텍스트-음성 변환 시스템.
삭제
삭제
삭제
삭제
삭제