WO2019088635A1

WO2019088635A1 - 음성 합성 장치 및 방법

Info

Publication number: WO2019088635A1
Application number: PCT/KR2018/012967
Authority: WO
Inventors: 이창헌; 김종진; 박지훈
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2017-10-31
Filing date: 2018-10-30
Publication date: 2019-05-09
Also published as: US11170755B2; KR20190048371A; US20200335080A1; KR102072627B1

Abstract

본 발명은 음성 합성 장치 및 방법에 관한 것이다. 본 발명의 음소 합성 장치 및 방법은 음소 유닛들로부터 합성음을 생성할 때 음소 유닛들 간의 불연속성을 제거하여 자연스러운 발화를 구현할 수 있고 안정적인 운율을 가지는 고음질의 합성음을 생성할 수 있다.

Description

음성 합성 장치 및 방법

본 발명은 음성 합성 기술에 관한 것으로서, 구체적으로는 텍스트 입력을 음성으로 출력하는 음성 합성 장치 및 방법에 관한 것이다.

일반적으로 음성 합성 시스템(Text to Speech(TTS) system)이란 임의의 문장이 텍스트 형태로 입력될 때 입력된 문장을 음성 형태로 출력하는 시스템을 의미한다. 음성 합성 시스템의 동작 과정은 크게 훈련 과정과 합성 과정으로 나누어진다. 훈련 과정은 합성 과정에서 사용될 언어 모델, 운율 모델, 신호 모델을 만드는 과정이며, 합성 과정은 입력된 텍스트에 대하여 해당 모델을 기반으로 언어 처리, 운율 처리, 신호 처리를 차례로 수행하여 합성음을 생성하는 과정이다.

합성 과정에서 수행되는 합성 방식으로는 유닛 기반 합성 방식인 USS(Unit Selection Synthesis) 방식과 통계적 모델 기반 파라미터 합성 방식인 SPS(Statistical Parametric Synthesis) 방식이 있다.

USS 방식은 한 음소당 여러 개의 유닛 후보가 존재하는 음소 데이터베이스에서 적합한 음소 유닛들을 결정하고, 결정된 음소 유닛들을 이어 붙여 합성음을 생성하는 방식이다. 그러나 USS 방식은 음소 유닛들 사이에 불연속성이 존재하고 발화가 부자연스러운 문제점이 있다.

반면, SPS 방식은 훈련 과정에서 음성 신호로부터 추출된 파라미터들로 모델링을 하고, 합성 과정에서 파라미터 모델과 입력 문장을 사용하여 합성음을 생성하는 방식이다. SPS 방식은 USS 방식에 비해서 안정적인 운율을 가지는 합성음을 생성할 수 있기는 하지만 기본 음질이 낮다는 문제점이 있다.

따라서, 본 발명은 음소 유닛들 사이의 불연속성을 제거하고 자연적인 발화를 구현할 수 있을 뿐 아니라 안정적인 운율을 가지면서 고음질의 합성음을 생성할 수 있는 음성 합성 장치 및 방법을 제공하기 위한 것이다.

본 발명의 실시 예에 따른 음성 합성 장치는, 다수의 음소 유닛들을 저장하며, 상기 음소 유닛들은 하나의 음소당 하나 이상의 후보 유닛을 포함하는, 음소 데이터베이스; 입력된 텍스트에 대하여 운율 정보를 분석하여 타겟 음소 유닛의 타겟 운율 파라미터를 예측하는 운율 처리기; 상기 운율 처리기에서 분석된 상기 운율 정보를 기반으로, 상기 음소 데이터베이스에 저장된 상기 음소당 하나 이상의 후보 유닛 중 특정 음소 유닛을 선택하는 유닛 선택기; 상기 유닛 선택기에서 선택된 상기 특정 음소 유닛의 운율 파라미터를 상기 운율 처리기에서 예측된 상기 타겟 음소 유닛의 타겟 운율 파라미터가 되도록 조절하는 운율 조절기; 및 상기 운율 조절기에서 각각 운율 파라미터가 조절된 상기 특정 음소 유닛들 간의 불연속성을 제거하여 합성음을 생성하는 음성 합성기를 포함할 수 있다.

상기 음소 데이터베이스에 저장된 상기 다수의 음소 유닛들은 음성 파형의 형태 또는 파라미터 집합의 형태로 구축될 수 있다.

상기 운율 파라미터는 신호 주기(pitch 또는 fundamental frequency), 에너지(energy), 또는 신호 길이(duration) 중에서 적어도 하나를 포함할 수 있다.

상기 운율 조절기는 상기 선택된 음소 유닛의 신호 길이를 상기 타겟 음소 유닛의 신호 길이가 되도록 조절한 후, 상기 선택된 음소 유닛의 신호 주기 및 에너지를 각각 상기 타겟 음소 유닛의 신호 주기 및 에너지가 되도록 조절할 수 있다.

또한, 상기 운율 조절기는 상기 선택된 음소 유닛의 신호 길이가 상기 타겟 음소 유닛의 신호 길이가 되도록 상기 선택된 음소 유닛을 구성하는 프레임들 중 일부를 복사하거나 삭제할 수 있다.

또한, 상기 운율 조절기는 하기 수학식을 이용하여 상기 선택된 음소 유닛의 프레임 인덱스들을 신규 프레임 인덱스들로 변환하고, 상기 선택된 음소 유닛을 구성하는 프레임들 중 일부를 상기 신규 프레임 인덱스들에 따라 복사하거나 삭제하여 상기 선택된 음소 유닛의 신호 길이를 상기 타겟 음소 유닛의 신호 길이가 되도록 조절할 수 있다.

(상기 수학식에서, M은 타겟 음소 유닛의 전체 프레임 수, N은 선택된 음소 유닛의 전체 프레임 수, i는 선택된 음소 유닛의 프레임 인덱스, r은 반올림)

아울러, 상기 음성 합성기는 상기 운율 조절기에서 각각 운율 파라미터가 조절된 상기 특정 음소 유닛들 중에서, 이전 음소 유닛의 마지막 프레임의 운율 파라미터와 다음 음소 유닛의 시작 프레임의 운율 파라미터를 각각 확인하고, 상기 확인된 운율 파라미터들의 평균값을 산출하며, 상기 산출된 운율 파라미터 평균값을 상기 마지막 프레임과 상기 시작 프레임에 각각 적용하거나, 상기 마지막 프레임과 상기 시작 프레임의 중첩 프레임에 적용하여 불연속성을 제거할 수 있다.

한편, 본 발명의 실시 예에 따른 음성 합성 방법은, 다수의 음소 유닛들을 저장하며, 상기 음소 유닛들이 하나의 음소당 하나 이상의 후보 유닛을 포함하는, 음소 데이터베이스를 구비하는 음성 합성 장치에 의하여 수행되는 방법으로서, 입력된 텍스트에 대하여 운율 정보를 분석하여 타겟 음소 유닛의 타겟 운율 파라미터를 예측하는 단계; 상기 분석된 운율 정보를 기반으로, 상기 음소 데이터베이스에 저장된 상기 음소당 하나 이상의 후보 유닛 중 특정 음소 유닛을 선택하는 단계; 상기 선택된 특정 음소 유닛의 운율 파라미터를 상기 타겟 음소 유닛의 타겟 운율 파라미터가 되도록 조절하는 단계; 및 각각 운율 파라미터가 조절된 상기 특정 음소 유닛들 간의 불연속성을 제거하여 합성음을 생성하는 단계를 포함할 수 있다.

상기 조절하는 단계는, 상기 선택된 음소 유닛의 신호 길이를 상기 타겟 음소 유닛의 신호 길이가 되도록 조절하는 단계; 및 이후, 상기 선택된 음소 유닛의 신호 주기 및 에너지를 각각 상기 타겟 음소 유닛의 신호 주기 및 에너지가 되도록 조절하는 단계를 포함할 수 있다.

또한, 상기 조절하는 단계는, 하기 수학식을 이용하여 상기 선택된 음소 유닛의 프레임 인덱스들을 신규 프레임 인덱스들로 변환하고, 상기 선택된 음소 유닛을 구성하는 프레임들 중 일부를 상기 신규 프레임 인덱스들에 따라 복사하거나 삭제하여 상기 선택된 음소 유닛의 신호 길이를 상기 타겟 음소 유닛의 신호 길이가 되도록 조절하는 단계를 포함할 수 있다.

또한, 상기 합성음을 생성하는 단계는, 각각 운율 파라미터가 조절된 상기 특정 음소 유닛들 중에서, 이전 음소 유닛의 마지막 프레임의 운율 파라미터와 다음 음소 유닛의 시작 프레임의 운율 파라미터를 각각 확인하는 단계; 상기 확인된 운율 파라미터들의 평균값을 산출하는 단계; 및 상기 산출된 운율 파라미터 평균값을 상기 마지막 프레임과 상기 시작 프레임에 각각 적용하거나, 상기 마지막 프레임과 상기 시작 프레임의 중첩 프레임에 적용하여 불연속성을 제거하는 단계를 포함할 수 있다.

추가로, 본 발명은 상술한 바와 같은 방법을 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체를 제공할 수 있다.

본 발명의 실시 예에 따른 음성 합성 장치 및 방법에 의하면, 음소 유닛들로부터 합성음을 생성할 때 음소 유닛들 간의 불연속성을 제거하여 자연스러운 발화를 구현할 수 있고 안정적인 운율을 가지는 고음질의 합성음을 생성할 수 있다.

또한, 본 발명은 음소 유닛의 최적 후보를 찾을 수 없는 상황에서도 불연속성을 제거함과 동시에 고음질의 합성음을 생성할 수 있다.

도 1은 음성 합성 과정을 개략적으로 나타내는 개념도이다.

도 2는 본 발명의 실시 예에 따른 음성 합성 장치의 주요 구성요소를 나타내는 블록도이다.

도 3 내지 도 5는 본 발명의 제1 실시 예에 따른 음성 합성 방법을 설명하기 위한 예시도이다.

도 6 내지 도 9는 본 발명의 제2 실시 예에 따른 음성 합성 방법을 설명하기 위한 예시도이다.

도 10은 본 발명의 실시 예에 따른 음성 합성 방법을 나타내는 흐름도이다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 실시예들을 상세히 설명한다.

본 발명은 다양한 형태로 실시될 수 있으며, 여기에 개시된 실시예들로 한정하여 해석되지 않아야 할 것이다. 개시된 실시예들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범위를 충분히 전달하기 위하여 제공되는 것이다. 본 발명의 원리 및 특징들은 본 발명의 범위를 벗어나지 않고 매우 다양한 실시예들에서 적용될 수 있을 것이다.

또한, 실시예들을 설명함에 있어서 본 발명이 속하는 기술 분야에 잘 알려져 있거나 본 발명과 직접 관련이 없는 사항에 대해서는 본 발명의 핵심을 흐리지 않고 명확히 전달하기 위하여 설명을 생략할 수 있다. 첨부 도면을 통틀어 동일하거나 대응하는 구성요소에는 동일한 참조번호를 부여한다.

또한, 본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 명세서에서 사용되는 "포함하다", "가지다" 등의 용어는 명세서에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품, 또는 이들의 조합이 존재함을 지정하려는 것이지, 기재되지 않은 다른 특징, 숫자, 단계, 동작, 구성요소, 부품, 또는 이들의 조합이 존재하거나 부가될 수 있는 가능성을 배제하지 않는 것으로 이해되어야 한다.

먼저, 도 1을 참조하여 음성 합성 과정의 개념을 설명한다. 도 1은 음성 합성 과정을 개략적으로 나타내는 개념도이다.

도 1에 도시된 바와 같이, 음성 합성 장치(100)는 임의의 문장이 텍스트 형태로 입력될 때 입력된 문장을 음성 형태로 출력하는 음성 합성 시스템을 의미한다.

특히, 본 발명의 음성 합성 장치(100)는 입력된 텍스트에 대하여 운율 정보를 분석하여 타겟 음소 유닛의 타겟 운율 파라미터를 예측하고, 분석된 운율 정보를 기반으로, 음소 데이터베이스에 저장된 음소당 하나 이상의 후보 유닛 중 특정 음소 유닛을 선택하고, 선택된 특정 음소 유닛의 운율 파라미터를 타겟 음소 유닛의 타겟 운율 파라미터가 되도록 조절하며, 각각 운율 파라미터가 조절된 특정 음소 유닛들 간의 불연속성을 제거하여 합성음을 생성한다.

이러한 본 발명의 음성 합성 장치(100)는 은행, 증권, 보험, 카드 등 각종 서비스의 ARS(Automatic Response Service) 시스템에 적용될 수 있으며, 웹 페이지를 음성으로 안내하는 보이스 포탈 서비스, 음성 메시지 전송 기능을 지원하는 통합 메시징 시스템, 교육용 음성 솔루션 시스템 등 지정된 텍스트를 읽어 사용자에게 음성의 형태로 안내하는 각종 서비스에 적용될 수 있다.

또한, 본 발명의 음성 합성 장치(100)는 음성 인식 장치(미도시)와 결합하여 음성 시스템을 구축할 수 있다. 이 경우, 음성 인식 장치(미도시)가 사용자의 음성을 인식하여 이에 대한 응답 텍스트를 구축하면, 음성 합성 장치(100)가 응답 텍스트를 합성음의 형태로 출력하는 역할을 수행할 수 있다. 이러한 음성 시스템의 대표적인 예로는 인공 지능 스피커를 들 수 있다.

이 외에도, 본 발명의 음성 합성 장치(100)는 합성음 출력을 지원하는 각종 서비스에 지원될 수 있으며, 사용자의 단말(미도시)에 장착되어 합성음을 출력하거나, 서버 형태로 구현되어 동작을 수행할 수 있다. 서버 형태로 구현되는 경우 통신망(미도시)을 경유하여 사용자의 단말(미도시)로 합성음을 제공하는 과정까지 지원할 수도 있다.

이하, 본 발명의 실시 예에 따른 음성 합성 장치(100)의 주요 구성요소 및 동작에 대하여 상세히 설명한다.

도 2를 참조하면, 실시 예에 따른 음성 합성 장치(100)는 언어 처리기(110, linguistic processor), 운율 처리기(120, prosody processor), 유닛 선택기(130, unit selector), 운율 조절기(140, prosody adjuster), 음성 합성기(150, speech synthesizer), 음소 데이터베이스(160)를 포함하여 구성된다.

음소 데이터베이스(160)는 다수의 음소 유닛들을 저장한다. 이러한 음소 유닛들은 하나의 음소당 하나 이상의 후보 유닛을 포함한다. 음소 데이터베이스(160)에 저장된 다수의 음소 유닛들은 음성 파형의 형태 또는 파라미터 집합의 형태로 구축될 수 있다.

언어 처리기(110)는 임의의 문장이 텍스트 형태로 입력되면 입력된 텍스트에 대하여 언어 분석 및 처리를 수행한다. 구체적으로, 언어 처리기(110)는 입력된 텍스트에 대하여 구문 분석 및 형태소 분석을 수행하여 문장 구조 및 문장 종류에 대한 정보를 획득한다. 또한, 언어 처리기(110)는 문장에 특정 언어가 아닌 다른 언어의 문자가 포함된 경우 이를 특정 언어의 문자로 번역하고, 입력된 텍스트의 실제 발음을 예측한다. 언어 처리기(110)의 출력은 운율 처리기(120)의 입력으로 사용된다.

운율 처리기(120)는 언어 처리기(110)를 통해 입력된 텍스트에 대하여 운율 정보를 분석하고 처리한다. 구체적으로, 운율 처리기(120)는 문장에서 끊어 읽는 부분, 강하게 읽는 부분, 문장 어미의 톤을 결정하는 것과 같이 문장 구조 및 문장 종류에 따라 억양, 강세와 같은 운율 정보를 분석할 수 있다. 그리고, 운율 처리기(120)는 분석된 운율 정보를 기반으로 예측된 타겟 음소 유닛을 결정하고, 결정된 타겟 음소 유닛의 운율 파라미터(즉, 타겟 운율 파라미터)를 예측한다. 운율 파라미터는 신호 주기(pitch 또는 fundamental frequency), 에너지(energy), 신호 길이(duration) 등이 될 수 있다.

유닛 선택기(130)는 운율 처리기(120)에서 분석된 운율 정보를 기반으로, 음소 데이터베이스(160)에 저장된 음소당 하나 이상의 후보 유닛 중 특정 음소 유닛을 선택한다. 즉, 음소 데이터베이스(160)는 각각의 음소마다 여러 후보 유닛들을 저장하고 있을 수 있으며, 유닛 선택기(130)는 분석된 운율 정보를 기초로 각각의 음소마다 후보 유닛들 중에서 적합한 특정 음소 유닛을 선택하는 것이다.

운율 조절기(140)는 유닛 선택기(130)에서 선택된 특정 음소 유닛의 운율 파라미터를 운율 처리기(120)에서 예측된 타겟 음소 유닛의 타겟 운율 파라미터가 되도록 조절한다. 전술한 바와 같이, 운율 파라미터는 신호 주기, 에너지, 신호 길이 등이다. 특히, 운율 운율 조절기(140)는 선택된 음소 유닛의 신호 길이를 타겟 음소 유닛의 신호 길이가 되도록 먼저 조절한 후, 선택된 음소 유닛의 신호 주기 및 에너지를 각각 타겟 음소 유닛의 신호 주기 및 에너지가 되도록 조절할 수 있다.

이후, 음성 합성기(150)는 운율 조절기(140)에서 각각 운율 파라미터가 조절된 음소 유닛들을 합성하여 합성음을 생성한다. 특히, 음성 합성기(150)는 음소 유닛들 간의 불연속성을 제거하여 고품질의 합성음을 생성할 수 있다.

전술한 바와 같이, 음소 데이터베이스(160)에 저장된 다수의 음소 유닛들은 음성 파형의 형태 또는 파라미터 집합의 형태로 구축될 수 있다. 이하, 음소 유닛들이 음성 파형의 형태로 구축되어 저장된 경우를 제1 실시 예로, 파라미터 집합의 형태로 구축되어 저장된 경우를 제2 실시 예로, 각각 설명한다.

먼저, 도 3 내지 도 5를 참조하여 본 발명의 제1 실시 예에 따른 음성 합성 장치(100)의 음성 합성 방법을 설명하도록 한다. 도 3 내지 도 5는 본 발명의 제1 실시 예에 따른 음성 합성 방법을 설명하기 위한 예시도이다.

도 3에 도시된 바와 같이, 제1 실시 예에 따른 음성 합성 장치(100)는 음성 파형(waveform) 형태로 다수의 음소 유닛들을 저장한 음소 데이터베이스(160)를 포함한다. 이러한 음소 유닛들은 하나의 음소당 하나 이상의 후보 유닛을 포함할 수 있다.

앞서 도 2를 참조하여 설명한 바와 같이, 유닛 선택기(130)가 음소 데이터베이스(160)로부터 특정 음소 유닛을 선택하면, 운율 조절기(140)는 선택된 음소 유닛의 운율 파라미터를 타겟 음소 유닛의 타겟 운율 파라미터가 되도록 조절하고, 음성 합성기(150)는 각각 운율 파라미터가 조절된 음소 유닛들을 합성하여 합성음을 생성한다. 특히, 음성 합성기(150)는 음소 유닛들 간의 경계에서 발생하는 불연속성을 제거하여 자연스러운 고품질의 합성음을 생성할 수 있다.

이러한 과정에 대해 보다 구체적으로 설명한다.

도 4의 (a)는 유닛 선택기(130)에 의해 선택된(또는 추출된) 하나의 음소 유닛을 보여준다. 예시된 음소 유닛은 5ms의 프레임 단위로 4개의 프레임들이 연속된 20ms의 신호 길이(D: duration)를 가진다. 또한, 음소 유닛은 각각의 프레임에 대응하여 에너지(e1, e2, e3, e4)와 신호 주기(T1, T2, T3, T4)를 가진다. 신호 주기는 피치(pitch) 또는 기본 주파수(fundamental frequency: F0)로 지칭될 수 있다.

도 4의 (b)는 운율 처리기(120)에 의해 예측된 하나의 타겟 음소 유닛을 보여준다. 예시된 타겟 음소 유닛은 5ms의 프레임 단위로 6개의 프레임들이 연속된 30ms의 신호 길이(D')를 가진다. 또한, 타겟 음소 유닛은 각각의 프레임에 대응하여 에너지(e1' ~ e6')와 신호 주기(T1' ~ T6')를 가진다.

운율 조절기(140)는, 유닛 선택기(130)에서 추출된 음성 파형 형태의 음소 유닛이, 입력된 텍스트를 기초로 추출된 운율 정보에 대응하는 타겟 음소 유닛이 되도록, 운율 파라미터를 변경하는 과정을 수행한다. 이때, 운율 조절기(140)는 먼저 신호 길이를 조절하고, 그 다음에 신호 주기 및 에너지를 각각 조절한다. 예컨대, 유닛 선택기(130)에서 추출된 음소 유닛의 신호 길이(D)가 20ms이고 타겟 음소 유닛의 신호 길이(D')가 30ms일 때, 추출한 음소 유닛의 신호 길이(D)를 20ms에서 30ms로 조절한다. 신호 길이의 조절은 프레임 복사 또는 삭제를 통해 이루어질 수 있다. 도 4의 예시에서는 2개의 프레임을 복사하여 신호 길이를 늘린 경우이다. 신호 길이를 조절한 후, 추출된 음소 유닛의 각 프레임마다 에너지(e1 ~ e4) 및 신호 주기(T1 ~ T4)를 타겟 음성 유닛의 에너지(e1' ~ e6') 및 신호 주기(T1' ~ T6')가 되도록 각각 조절한다.

운율 파라미터의 조절 후, 음성 합성기(150)는 음소 유닛들 간의 불연속성을 제거하여 합성음을 생성한다.

도 5의 (a)는 2개의 음소 유닛들(unit 1, unit 2)을 예시하고 있다. 이하, 예시된 2개의 음소 유닛들을 이전 음소 유닛(unit 1)과 다음 음소 유닛(unit 2)로 지칭한다.

도 5의 (b)에 도시된 바와 같이, 음성 합성기(150)가 단순히 이전 음소 유닛과 다음 음소 유닛을 결합하면, 음소 유닛들 간의 경계 부분에 불연속성이 발생하여 부자연스러운 합성음이 생성된다.

이러한 문제를 해결하기 위하여, 본 발명의 음성 합성기(150)는 도 5의 (c)에 도시된 바와 같이 이전 음소 유닛의 마지막 프레임과 다음 음소 유닛의 시작 프레임에서 각각 운율 파라미터(신호 주기, 에너지)를 확인하고, 확인된 운율 파라미터의 평균값을 산출하여 각각의 프레임에 적용한다. 예컨대, 이전 음소 유닛의 마지막 프레임의 신호 주기(T1)와 다음 음소 유닛의 시작 프레임의 신호 주기(T2)의 평균값을 산출하고, 이를 이전 음소 유닛의 마지막 프레임과 다음 음소 유닛의 시작 프레임에 각각 적용할 수 있다.

대안적으로, 본 발명의 음성 합성기(150)는 도 5의 (d)에 도시된 바와 같이 이전 음소 유닛의 마지막 프레임과 다음 음소 유닛의 시작 프레임을 중첩하고, 전술한 운율 파라미터의 평균값을 중첩된 프레임에 적용할 수도 있다.

이러한 과정들을 거쳐 보다 자연스러운 합성음을 생성할 수 있다.

이어서, 도 6 내지 도 9를 참조하여 본 발명의 제2 실시 예에 따른 음성 합성 장치(100)의 음성 합성 방법을 설명하도록 한다. 도 6 내지 도 9는 본 발명의 제2 실시 예에 따른 음성 합성 방법을 설명하기 위한 예시도이다.

도 6을 참조하면, 제2 실시 예에 따른 음성 합성 장치(100)는 파라미터 집합(parameter set) 형태로 다수의 음소 유닛들을 저장한 음소 데이터베이스(160)를 포함한다. 이때, 파라미터 집합이란 운율 파라미터들의 집합을 의미하며, 하모닉(harmonic) 모델에 따라 운율 파라미터를 추출하는 보코더(vocoder)의 형태로 모델링한 값을 의미할 수 있다.

좀 더 구체적으로 설명하면, 도 6에 도시된 바와 같이 3개의 연속된 프레임들로 이루어진 음성 파형이 있을 때, 각 프레임마다 추출된 운율 파라미터들이 하나의 파라미터 집합을 이룬다. 이때, 운율 파라미터들은 신호 주기인 기본 주파수(F0: fundamental frequency) 및 에너지(energy)가 될 수 있으며, 경우에 따라 에너지 산출을 위한 진폭 정보와 위상 정보 등을 더 포함할 수도 있다. 운율 파라미터들은 각 프레임의 특정 시점(t0, t1, t2, t3)에 매핑될 수 있다. 따라서 파라미터 집합의 원소 개수(또는 프레임 인덱스 개수)는 신호 길이에 대응할 수 있다.

이러한 과정에 대해 보다 구체적으로 설명한다.

도 7의 (a)는 유닛 선택기(130)에 의해 선택된(또는 추출된) 하나의 음소 유닛을 보여준다. 예시된 음소 유닛은 0부터 7까지의 프레임 인덱스를 가지는 8개의 프레임들로 구성된다. 각 프레임은 예컨대 5ms 단위이며, 따라서 추출된 음소 유닛의 전체 신호 길이는 40ms이다.

또한, 도 7의 (a)는 운율 처리기(120)에 의해 예측된 하나의 타겟 음소 유닛을 보여준다. 예시된 타겟 음소 유닛은 0부터 9까지의 프레임 인덱스를 가지는 10개의 프레임들로 구성되며, 5ms의 프레임 단위로 이루어진 타겟 음소 유닛의 전체 신호 길이는 50ms이다.

운율 조절기(140)는 추출 음소 유닛의 신호 길이를 타겟 음소 유닛의 신호 길이와 맞추기 위해 조절한다. 즉, 전술한 예에서 추출 음소 유닛의 신호 길이가 40ms이고 타겟 음소 유닛의 신호 길이가 50ms이므로, 10ms에 해당하는 2개의 프레임을 복사하여 신호 길이를 조절할 수 있다.

이를 위해 운율 조절기(140)는 하기 수학식 1을 이용하여 추출 음소 유닛의 프레임 인덱스들을 신규 프레임 인덱스들로 변환한다.

수학식 1에서, M은 타겟 음소 유닛의 전체 프레임 수를 의미하며, N은 추출 음소 유닛의 전체 프레임 수를 의미한다. 그리고 i는 추출 음소 유닛의 프레임 인덱스를 의미하며, r은 반올림 연산을 의미한다.

도 7의 (b)에 도시된 바와 같이, 수학식 1을 이용하여 프레임 인덱스를 변환한 결과, 추출 음소 유닛의 프레임 인덱스 0, 1, 2, 3, 4, 5, 6, 7은 신규 프레임 인덱스 0, 1, 2, 2, 3, 4, 5, 5, 6, 7로 변환된다. 즉, 프레임 2와 5가 추가된다. 이는 추출 음소 유닛의 프레임들 중 2번과 5번의 프레임들을 복사하여 추가하는 것을 의미한다.

따라서 도 7의 (c)에 도시된 바와 같이, 추출 음소 유닛과 타겟 음소 유닛의 신호 길이가 일치하게 된다. 이어서, 운율 조절기(140)는 각각의 프레임 단위로 타겟 음소 유닛의 파라미터 집합이 적용되도록 추출 음소 유닛의 운율 파라미터를 조절한다. 즉, 운율 조절기(140)는 추출 음소 유닛의 프레임별 신호 주기(기본 주파수)를 타겟 음소 유닛의 프레임별 신호 주기(기본 주파수)로 치환하여 변경하고, 아울러 추출 음소 유닛의 프레임별 에너지가 타겟 음소 유닛의 프레임별 에너지가 되도록 진폭을 조절한다.

도 7은 타겟 음소 유닛의 신호 길이가 추출 음소 유닛의 신호 길이보다 긴 경우의 예이다. 반대로 타겟 음소 유닛의 신호 길이가 추출 음소 유닛의 신호 길이보다 짧은 경우의 예가 도 8에 도시되어 있다.

도 8의 (a)에 도시된 바와 같이, 하나의 추출 음소 유닛은 총 10개의 프레임으로 구성되고, 이에 대응하는 타겟 음소 유닛은 총 8개의 프레임으로 구성된다고 가정한다. 이때, 타겟 음소 유닛이 추출 음소 유닛보다 짧으므로, 추출 음소 유닛의 프레임들 중 일부 프레임을 삭제해야 한다.

전술한 수학식 1을 동일하게 적용하면, 도 8의 (b)에 도시된 바와 같이 추출 음소 유닛의 프레임 인덱스 0, 1, 2, 3, 4, 5, 6, 7, 8, 9는 신규 프레임 인덱스 0, 1, 3, 4, 5, 6, 8, 9로 변환된다. 즉, 2번 프레임과 7번 프레임을 삭제할 수 있다.

따라서 도 8의 (c)에 도시된 바와 같이, 추출 음소 유닛과 타겟 음소 유닛의 신호 길이가 일치하게 된다. 이어서, 운율 조절기(140)는 각각의 프레임 단위로 타겟 음소 유닛의 파라미터 집합이 적용되도록 추출 음소 유닛의 운율 파라미터를 조절한다.

이후, 음성 합성기(150)는 운율 파라미터가 조절된 음소 유닛들 간의 불연속성을 제거하여 합성음을 생성한다. 이에 대하여 도 9를 참조하여 설명한다.

도 9의 (a)에 도시된 바와 같이, 3개의 프레임(A, B, C)으로 구성된 이전 음성 유닛(unit 1)과 3개의 프레임(D, E, F)으로 구성되는 다음 음성 유닛(unit 2)이 있다고 가정한다. 음성 합성기(150)는 이전 음성 유닛과 다음 음성 유닛을 결합하여 합성음을 생성한다.

첫 번째 경우, 도 9의 (b)에 도시된 바와 같이, 음성 합성기(150)는 이전 음소 유닛의 마지막 프레임 C와 다음 음소 유닛의 시작 프레임 D의 운율 파라미터 평균값을 프레임 C와 D 각각에 적용하여 합성음을 생성할 수 있다.

두 번째 경우, 도 9의 (c)에 도시된 바와 같이, 음성 합성기(150)는 프레임 C와 프레임 D를 중첩하여 새로운 프레임을 생성하고, 이 프레임에 운율 파라미터 평균값을 적용하여 합성음을 생성할 수 있다.

이상 설명한 바와 같은 음성 합성 장치(100)의 동작들은 음성 합성 장치(100)에 탑재되는 하나 이상의 프로세서에 의해 구현되거나 제어될 수 있다. 이러한 프로세서는 싱글 쓰레드(Single-threaded) 프로세서이거나, 멀티 쓰레드(Multithreaded) 프로세서일 수 있다. 또한, 프로세서는 메모리 혹은 다른 저장 장치에 저장된 명령을 처리하는 것이 가능하다.

이하, 도 10을 참조하여 본 발명의 실시 예에 따른 음성 합성 방법을 설명한다. 도 10은 본 발명의 실시 예에 따른 음성 합성 방법을 나타내는 흐름도이다. 도 10에 도시된 음성 합성 방법은 전술한 음성 합성 장치(100)에 의하여 수행된다.

먼저, 임의의 텍스트가 입력되면, 음성 합성 장치(100)는 입력된 텍스트에 대하여 언어 분석 및 처리를 수행한다(S10).

예컨대, 음성 합성 장치(100)는 입력된 텍스트에 대하여 구문 분석 및 형태소 분석을 수행하여 문장 구조 및 문장 종류에 대한 정보를 획득할 수 있다. 이때, 음성 합성 장치(100)는 문장에 특정 언어가 아닌 다른 언어의 문자가 포함된 경우 이를 특정 언어의 문자로 번역하고, 입력된 텍스트의 실제 발음을 예측할 수 있다.

이어서, 음성 합성 장치(100)는 입력된 텍스트에 대하여 운율 정보를 분석하고 처리한다(S30). 예컨대, 음성 합성 장치(100)는 문장에서 끊어 읽는 부분, 강하게 읽는 부분, 문장 어미의 톤을 결정하는 것과 같이 문장 구조 및 문장 종류에 따라 억양, 강세와 같은 운율 정보를 분석할 수 있다. 그리고, 음성 합성 장치(100)는 분석된 운율 정보를 기반으로 예측된 타겟 음소 유닛을 결정하고, 결정된 타겟 음소 유닛의 운율 파라미터(즉, 타겟 운율 파라미터)를 예측할 수 있다.

이어서, 음성 합성 장치(100)는 분석된 운율 정보를 기반으로, 음소 데이터베이스(160)에 저장된 음소당 하나 이상의 후보 유닛 중 특정 음소 유닛을 선택한다(S50). 즉, 음성 합성 장치(100)의 음소 데이터베이스(160)는 각각의 음소마다 여러 후보 유닛들을 저장하고 있을 수 있으며, 음성 합성 장치(100)는 분석된 운율 정보를 기초로 각각의 음소마다 후보 유닛들 중에서 적합한 특정 음소 유닛을 선택(추출)할 수 있다.

이어서, 음성 합성 장치(100)는 선택된 특정 음소 유닛의 운율을 조절한다(S70). 즉, 음성 합성 장치(100)는 S50 단계에서 선택된 특정 음소 유닛의 운율 파라미터를 S30 단계에서 예측된 타겟 음소 유닛의 타겟 운율 파라미터가 되도록 조절한다. 전술한 바와 같이, 운율 파라미터는 신호 주기, 에너지, 신호 길이 등이다. 특히, 음성 합성 장치(100)는 선택된 음소 유닛의 신호 길이를 타겟 음소 유닛의 신호 길이가 되도록 먼저 조절한 후, 선택된 음소 유닛의 신호 주기 및 에너지를 각각 타겟 음소 유닛의 신호 주기 및 에너지가 되도록 조절할 수 있다.

이어서, 음성 합성 장치(100)는 S70 단계에서 운율 파라미터가 조절된 음소 유닛들을 합성하여 합성음을 생성한다(S90). 특히, 이 단계에서 음성 합성 장치(100)는 음소 유닛들 간의 불연속성을 제거하여 고품질의 합성음을 생성한다. 구체적으로, 음성 합성 장치(100)는 각각 운율 파라미터가 조절된 상기 특정 음소 유닛들 중에서, 이전 음소 유닛의 마지막 프레임의 운율 파라미터와 다음 음소 유닛의 시작 프레임의 운율 파라미터를 각각 확인하고, 확인된 운율 파라미터들의 평균값을 산출하여 이전 음소 유닛의 마지막 프레임과 다음 음소 유닛의 시작 프레임 각각에 적용하거나, 이전 음소 유닛의 마지막 프레임과 다음 음소 유닛의 시작 프레임의 중첩 프레임에 적용하여 불연속성을 제거할 수 있다.

이후, 음성 합성 장치(100)는 생성된 합성음을 출력한다(S110). 음성 합성 장치(100)가 스마트 폰과 같은 사용자 단말에 모듈 형태로 구현된 경우, 음성 합성 장치(100)는 사용자 단말의 스피커 모듈로 합성음을 전달하여 스피커를 통해 합성음이 출력되도록 지원할 수 있다. 또는, 음성 합성 장치(100)가 서버 내에 구현되는 경우, 음성 합성 장치(100)는 통신망을 통해 사용자 단말로 합성음을 전송할 수 있다.

이상, 본 발명의 실시 예들에 따른 음성 합성 장치와 음성 합성 장치에 의하여 수행되는 음성 합성 방법에 대하여 설명하였다.

본 발명의 실시 예들에 따른 음성 합성 방법은 컴퓨터 판독 가능한 기록매체에 기록된 프로그램에 의해 실행될 수 있다.

컴퓨터 판독 가능한 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며, 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media) 및 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다.

또한, 컴퓨터 판독 가능한 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

본 명세서와 도면에 개시된 본 발명의 실시예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위하여 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

본 발명은 텍스트 입력을 음성으로 출력하는 음성 합성 장치 및 방법에 관한 것으로, 음소 유닛들로부터 합성음을 생성할 때 음소 유닛들 간의 불연속성을 제거하여 자연스러운 발화를 구현할 수 있고 안정적인 운율을 가지는 고음질의 합성음을 생성할 수 있다. 본 발명에 따른 음성 합성 장치와 방법은 기존 USS 방식의 문제점인 음소 유닛들 간의 불연속성을 제거할 수 있고 기존 SPS 방식에 비하여 안정적이고 고음질의 합성음을 생성할 수 있다. 따라서 본 발명에 따른 음성 합성 기술은 산업상 이용가능성이 충분하다.

Claims

다수의 음소 유닛들을 저장하며, 상기 음소 유닛들은 하나의 음소당 하나 이상의 후보 유닛을 포함하는, 음소 데이터베이스;

입력된 텍스트에 대하여 운율 정보를 분석하여 타겟 음소 유닛의 타겟 운율 파라미터를 예측하는 운율 처리기;

상기 운율 처리기에서 분석된 상기 운율 정보를 기반으로, 상기 음소 데이터베이스에 저장된 상기 음소당 하나 이상의 후보 유닛 중 특정 음소 유닛을 선택하는 유닛 선택기;

상기 유닛 선택기에서 선택된 상기 특정 음소 유닛의 운율 파라미터를 상기 운율 처리기에서 예측된 상기 타겟 음소 유닛의 타겟 운율 파라미터가 되도록 조절하는 운율 조절기; 및

상기 운율 조절기에서 각각 운율 파라미터가 조절된 상기 특정 음소 유닛들 간의 불연속성을 제거하여 합성음을 생성하는 음성 합성기;

를 포함하는 음성 합성 장치.
제1항에 있어서,

상기 음소 데이터베이스에 저장된 상기 다수의 음소 유닛들은 음성 파형의 형태 또는 파라미터 집합의 형태로 구축되는 것을 특징으로 하는 음성 합성 장치.
제1항에 있어서,

상기 운율 파라미터는 신호 주기(pitch 또는 fundamental frequency), 에너지(energy), 또는 신호 길이(duration) 중에서 적어도 하나를 포함하는 것을 특징으로 하는 음성 합성 장치.
제1항에 있어서,

상기 운율 조절기는 상기 선택된 음소 유닛의 신호 길이를 상기 타겟 음소 유닛의 신호 길이가 되도록 조절한 후, 상기 선택된 음소 유닛의 신호 주기 및 에너지를 각각 상기 타겟 음소 유닛의 신호 주기 및 에너지가 되도록 조절하는 것을 특징으로 하는 음성 합성 장치.
제4항에 있어서,

상기 운율 조절기는 상기 선택된 음소 유닛의 신호 길이가 상기 타겟 음소 유닛의 신호 길이가 되도록 상기 선택된 음소 유닛을 구성하는 프레임들 중 일부를 복사하거나 삭제하는 것을 특징으로 하는 음성 합성 장치.
제4항에 있어서,

상기 운율 조절기는

하기 수학식을 이용하여 상기 선택된 음소 유닛의 프레임 인덱스들을 신규 프레임 인덱스들로 변환하고,

(상기 수학식에서, M은 타겟 음소 유닛의 전체 프레임 수, N은 선택된 음소 유닛의 전체 프레임 수, i는 선택된 음소 유닛의 프레임 인덱스, r은 반올림)

상기 선택된 음소 유닛을 구성하는 프레임들 중 일부를 상기 신규 프레임 인덱스들에 따라 복사하거나 삭제하여 상기 선택된 음소 유닛의 신호 길이를 상기 타겟 음소 유닛의 신호 길이가 되도록 조절하는 것을 특징으로 하는 음성 합성 장치.
제1항에 있어서,

상기 음성 합성기는

상기 운율 조절기에서 각각 운율 파라미터가 조절된 상기 특정 음소 유닛들 중에서, 이전 음소 유닛의 마지막 프레임의 운율 파라미터와 다음 음소 유닛의 시작 프레임의 운율 파라미터를 각각 확인하고,

상기 확인된 운율 파라미터들의 평균값을 산출하며,

상기 산출된 운율 파라미터 평균값을 상기 마지막 프레임과 상기 시작 프레임에 각각 적용하거나, 상기 마지막 프레임과 상기 시작 프레임의 중첩 프레임에 적용하여 불연속성을 제거하는 것을 특징으로 하는 음성 합성 장치.
다수의 음소 유닛들을 저장하며, 상기 음소 유닛들이 하나의 음소당 하나 이상의 후보 유닛을 포함하는, 음소 데이터베이스를 구비하는 음성 합성 장치에 의하여 수행되는 방법으로서,

입력된 텍스트에 대하여 운율 정보를 분석하여 타겟 음소 유닛의 타겟 운율 파라미터를 예측하는 단계;

상기 분석된 운율 정보를 기반으로, 상기 음소 데이터베이스에 저장된 상기 음소당 하나 이상의 후보 유닛 중 특정 음소 유닛을 선택하는 단계;

상기 선택된 특정 음소 유닛의 운율 파라미터를 상기 타겟 음소 유닛의 타겟 운율 파라미터가 되도록 조절하는 단계; 및

각각 운율 파라미터가 조절된 상기 특정 음소 유닛들 간의 불연속성을 제거하여 합성음을 생성하는 단계;

를 포함하는 음성 합성 방법.
제8항에 있어서,

상기 조절하는 단계는

상기 선택된 음소 유닛의 신호 길이를 상기 타겟 음소 유닛의 신호 길이가 되도록 조절하는 단계; 및

이후, 상기 선택된 음소 유닛의 신호 주기 및 에너지를 각각 상기 타겟 음소 유닛의 신호 주기 및 에너지가 되도록 조절하는 단계;

를 포함하는 것을 특징으로 하는 음성 합성 방법.
제9항에 있어서,

상기 조절하는 단계는

상기 선택된 음소 유닛의 신호 길이가 상기 타겟 음소 유닛의 신호 길이가 되도록 상기 선택된 음소 유닛을 구성하는 프레임들 중 일부를 복사하거나 삭제하는 단계를 포함하는 것을 특징으로 하는 음성 합성 방법.
제9항에 있어서,

상기 조절하는 단계는

하기 수학식을 이용하여 상기 선택된 음소 유닛의 프레임 인덱스들을 신규 프레임 인덱스들로 변환하고,

(상기 수학식에서, M은 타겟 음소 유닛의 전체 프레임 수, N은 선택된 음소 유닛의 전체 프레임 수, i는 선택된 음소 유닛의 프레임 인덱스, r은 반올림)

상기 선택된 음소 유닛을 구성하는 프레임들 중 일부를 상기 신규 프레임 인덱스들에 따라 복사하거나 삭제하여 상기 선택된 음소 유닛의 신호 길이를 상기 타겟 음소 유닛의 신호 길이가 되도록 조절하는 단계를 포함하는 것을 특징으로 하는 음성 합성 방법.
제8항에 있어서,

상기 합성음을 생성하는 단계는

각각 운율 파라미터가 조절된 상기 특정 음소 유닛들 중에서, 이전 음소 유닛의 마지막 프레임의 운율 파라미터와 다음 음소 유닛의 시작 프레임의 운율 파라미터를 각각 확인하는 단계;

상기 확인된 운율 파라미터들의 평균값을 산출하는 단계; 및

상기 산출된 운율 파라미터 평균값을 상기 마지막 프레임과 상기 시작 프레임에 각각 적용하거나, 상기 마지막 프레임과 상기 시작 프레임의 중첩 프레임에 적용하여 불연속성을 제거하는 단계;

를 포함하는 것을 특징으로 하는 음성 합성 방법.
제8항 내지 제12항 중 어느 하나의 항에 기재된 방법을 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.