KR20080045413A

KR20080045413A - 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템

Info

Publication number: KR20080045413A
Application number: KR1020060114504A
Authority: KR
Inventors: 김상훈; 오승신
Original assignee: 한국전자통신연구원
Priority date: 2006-11-20
Filing date: 2006-11-20
Publication date: 2008-05-23
Also published as: KR100835374B1

Abstract

본 발명은 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및 이를 기반으로 하는 음성합성 방법 및 시스템에 관한 것으로, 정적 특성의 CRAT 모델과 동적 특성의 HMM 모델을 결합하여 새로운 끊어읽기 예측 모델을 생성하고, 상기 생성된 끊어읽기 예측 모델을 통해 해당 문장의 의미에 가장 부합하는 끊어읽기 강도를 예측함으로써 보다 자연스러운 합성음을 구현할 수 있는 것을 특징으로 한다.

음성합성, 정적, 동적, CART, HMM, n-gram, TTS, 운율

Description

정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및 이를 기반으로 하는 음성합성 방법 및 시스템{Method for predicting phrase break using static/dynamic feature and Text-to-Speech System and method based on the same}

도 1은 음성합성시스템을 도시한 구성도이다.

도 2는 본 발명에 따른 끊어읽기 예측 모델 생성 방법을 설명하기 위한 도면이다.

도 3은 본 발명에 따른 끊어읽기 예측 방법을 기반으로 하는 음성합성 방법을 나타낸 흐름도이다.

* 도면의 주요부분에 대한 부호의 설명 *

110 : 전처리부(preprocessing module)

120 : 언어처리부(linguistic module)

130 : 운율처리부(prosodic module)

140 : 합성음 생성부(speech generator)

본 발명은 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및 이를 기반으로 하는 음성합성 방법 및 시스템에 관한 것으로, 더 자세하게는 음성합성시스템에 있어서 정적 특성의 CRAT 모델과 동적 특성의 HMM 모델을 결합하여 새로운 끊어읽기 예측 모델을 생성하고 상기 생성된 끊어읽기 예측 모델을 통해 해당 문장의 의미에 가장 부합하는 끊어읽기 강도를 예측함으로써 보다 자연스러운 합성음을 구현할 수 있는 기술에 관한 것이다.

음성합성시스템(Text-to-Speech system)은 입력 문장을 인간이 들을 수 있는 음성으로 변환하여 출력하는 장치로서, 도 1에 도시된 바와 같이 전처리부(preprocessing module)(110), 언어처리부(linguistic module)(120), 운율처리부(prosodic module)(130), 및 합성음 생성부(speech generator)(140)로 구성된다.

상기와 같이 구성되는 음성합성시스템은, 먼저 전처리부(110)에 의해 입력 문장에 대한 정규화(normalization)가 이루어지면, 언어처리부(120)가 입력 문장에 대해 형태소 분석(morphological analysis)이나 구문 분석(syntactic parsing)을 수행하고 발음 변환(grapheme-to-phoneme conversion)을 수행한다.

이어서, 운율처리부(130)가 억양구를 찾아내어 억양구나 문장 전체에 억양을 부여하거나 끊어읽기(phrasing) 강도를 할당하면, 합성음 생성부(140)가 운율 처리된 입력 문장의 합성음을 생성하여 출력한다.

하지만, 이와 같은 음성합성시스템의 운율 처리 과정에 있어서 문장의 의미에 맞게 적절하게 끊어읽기가 구현되어야 문장의 내용과 흐름이 명확하게 표현될 수 있고 자연스러운 음성합성이 이루어질 수 있으나, 종래에는 단순히 품사 기반의 N-gram 규칙모델이나 HMM (Hidden Markov Model) 또는 CART(Classification And Regression Tree) 기반의 통계모델을 통해 억양을 부여하거나 끊어읽기 강도를 부여하여 운율을 구현하기 때문에 문장에 대한 자연스러운 합성음을 생성하지 못하는 문제점을 갖고 있다.

좀 더 자세히 설명하면, 상기 품사 기반의 N-gram 규칙모델은 문장내 각 어절별로 형태소 태깅된 품사정보의 N개 연속패턴을 보고, 그 패턴내 끊어읽기 결과가 어떻게 되는지 빈도를 추출하여 빈도가 높은 끊어읽기 유형으로 결정하는 방법으로, 이 방법은 품사 N-gram 패턴의 길이를 가변적으로 조절하여 규칙 수정 등 튜닝이 가능하고, 품사 N-gram 패턴의 back-off 모델을 용이하게 반영할 수 있는 장점이 있으나, 끊어읽기에 영향을 주는 다양한 특징(feature)을 동시에 반영하기 힘들어 끊어읽기의 동적인 특성을 반영할 수 없는 단점이 있다.

한편, 상기 HMM 기반의 통계모델은 끊어읽기의 동적 특성인 품사열 및 끊어읽기 결과의 연속성을 모델에 반영할 수 있어 상기 품사 기반의 N-gram 규칙모델 보다 강인한 성능을 낼 수 있는 모델로서, 상기 HMM 모델에서는 정적 특성에 해당하는 품사 N-gram 확률을 관측확률(Observation probability)로 모델링하고 동적 특성에 해당하는 끊어읽기의 시간축상 변화는 천이확률(Transition probability)을 모델링하여 끊어읽기의 동적 특성을 반영함으로써, 끊어읽기 결과가 연속해서 같은 결과가 반복된다든가 하는 오류는 막을 수 있다. 그러나, 이와 같은 HMM 모델도 상기 품사 기반의 N-gram 모델과 같이 끊어읽기에 영향을 주는 다양한 특징을 모델에 반영할 수 없을 뿐만 아니라, 단순히 품사열만으로 관측확률을 구하기 때문에 끊어 읽기의 정확성이 떨어진다는 단점이 있다.

또한, 상기 CART 기반의 통계모델은 품사열, 문장부호, 문장내 위치 등 다양한 특징을 반영할 수 있는 방법으로 최근 끊어읽기 예측 모델로 많이 적용되고 있는 것으로, 정적 특성인 한 시점에서 최적 끊어읽기가 가능하여 상기 품사 기반의 N-gram 모델 및 HMM 보다 나은 성능을 보이고 있으나, 문장내 지엽적인 끊어읽기는 가능하지만 HMM에서와 같이 끊어읽기의 동적인 특성을 반영할 수가 없어 문장 전체로 볼 때 정확한 끊어읽기를 수행할 수 없는 한계점을 갖고 있다.

따라서, 본 발명의 목적은 음성합성 시스템에 있어서 정적 특성의 CRAT 모델과 동적 특성의 HMM 모델을 결합하여 새로운 끊어읽기 예측 모델을 생성하여 상기 생성된 끊어읽기 예측 모델을 통해 해당 문장의 의미에 가장 부합하는 끊어읽기 강도를 예측함으로써 보다 자연스러운 합성음을 구현할 수 있도록 하는 것이다.

상기와 같은 목적을 달성하기 위하여 본 발명의 끊어읽기 예측 방법은, (a) 텍스트 코퍼스로부터 텍스트 데이터를 추출하는 단계; (b) 상기 추출된 텍스트 데이터에 대한 형태소 분석을 수행하여 상기 형태소 분석 결과로부터 특징 파라미터를 추출하는 단계; (c) 상기 추출된 텍스트 데이터를 음성 녹음하여 훈련 데이터를 구성하는 단계; (d) 상기 훈련 데이터를 기반으로 CART 모델링을 수행하여 관측확률을 계산하고 상기 훈련 데이터를 기반으로 HMM 모델링을 수행하여 천이확률을 계산하는 단계; (e) 상기 계산된 관측확률 및 천이확률을 기반으로 끊어읽기 예측 모 델을 생성하는 단계; 및 (f) 문장이 입력되면 상기 끊어읽기 예측 모델을 통해 상기 입력 문장에 대한 끊어읽기 강도를 예측하는 단계를 포함하는 것을 특징으로 한다.

한편, 상기와 같은 목적을 달성하기 위하여 본 발명의 음성합성 방법은, 문장이 입력되는 제 1 단계; 상기 입력 문장에 대한 형태소 분석을 수행하여 상기 형태소 분석 결과로부터 특징 파라미터를 추출하는 제 2 단계; 상기 추출된 특징 파라미터를 기반으로 끊어읽기 예측 모델을 통해 상기 입력 문장에 대한 끊어읽기 강도를 예측하는 제 3 단계; 및 상기 예측된 끊어읽기 강도에 맞게 합성음을 생성하여 출력하는 제 4 단계를 포함하는 것을 특징으로 한다.

한편, 상기와 같은 목적을 달성하기 위하여 본 발명의 음성합성시스템은, 입력 문장에 대한 전처리를 수행하는 전처리부; 상기 전처리된 입력 문장에 대한 형태소 분석을 수행하여 상기 형태소 분석 결과로부터 특징 파라미터를 추출하는 언어처리부; 상기 추출된 특징 파라미터를 기반으로 끊어읽기 예측 모델을 통해 상기 입력 문장에 대한 끊어읽기 강도를 예측하고, 억양 모델, 음소 지속시간 모델, 에너지컨투어 모델을 통해 상기 입력 문장에 대한 억양, 음소 지속시간, 에너지 강도를 각각 예측하는 운율처리부; 및 상기 예측된 끊어읽기 강도, 억양, 음소 지속시간, 에너지 강도에 맞게 합성음을 생성하여 출력하는 합성음 생성부를 포함하는 것을 특징으로 한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.

전술한 바와 같이 문장에 대한 자연스러운 합성음을 생성하기 위해서는 끊어읽기의 정적인 특성과 동적인 특성에 대한 고려가 필요하며, 이를 위해 본 발명에서는 다음에 설명하는 바와 같이 끊어읽기의 다양한 특징을 반영할 수 있는 새로운 끊어읽기 예측 모델을 생성하여 이를 통해 문장의 의미에 가장 부합하는 운율을 생성하도록 하는데, 이에 대하여 도 2를 참조하여 더 자세히 설명하면 다음과 같다.

도 2는 본 발명에 따른 끊어읽기 예측 모델 생성 방법을 설명하기 위한 도면으로, 본 발명에 따른 끊어읽기 예측 모델은 도 1에 도시된 바와 같은 음성합성시스템에 의해 생성되며, 여기서, 도 1의 음성합성시스템에 대한 구체적인 설명은 중복되므로 생략하기로 하고, 기존과 달라지는 기능에 대해서는 이하의 설명에서 구체적으로 설명하기로 한다.

먼저, 대규모의 텍스트 코퍼스로부터 텍스트 데이터를 추출한 후(S210), 전처리부(110)를 통해 상기 추출된 텍스트 데이터에 대한 전처리를 수행한다(S220).

여기에서, 상기 전처리 과정은 문장에 포함된 숫자, 심볼, 한자, 영어 등을 정규화하는 단계를 포함하는 것이 바람직하다.

다음으로, 언어처리부(120)를 통해 상기 전처리 과정을 거친 텍스트 데이터에 대한 형태소 분석을 수행한다(S230).

여기에서, 상기 형태소 분석 과정은 문장내 어절을 형태소 단위로 분리하고 각 형태소마다 품사정보를 할당하는 단계를 포함하는 것이 바람직하다.

다음으로, 언어처리부(120)를 통해 상기 형태소 분석 결과로부터 문장 맨앞 으로부터의 어절수/음절수, 문장 맨끝으로부터의 어절수/음절수, 이전 어절의 음절수, 이후 어절의 음절수, 이전/이후 품사열, 문장부호(콤마)의 여부, 문장부호(콤마)로부터의 어절수/음절수 등 다양한 특징 파라미터를 추출한다(S240).

다음으로, 상기 추출된 텍스트 데이터를 음성 녹음하여 훈련 데이터를 구축한다(S250).

다음으로, 상기 훈련 데이터를 기반으로 CART 모델링을 수행하여 관측확률(

)을 계산하는 한편(S260), 상기 훈련 데이터를 기반으로 HMM 모델링을 수행하여 천이확률(

)을 계산한다(S270).

여기에서, 상기 CART 모델링을 통한 관측확률 계산 및 HMM 모델링을 통한 천이확률 계산은 해당 기술분야에서 널리 행해지는 기법이므로 이에 대한 자세한 설명은 생략한다.

다음으로, 상기 계산된 관측확률(

)과 천이확률(

)을 다음의 수학식 1에 적용하여 끊어읽기의 정적인 특성과 동적인 특성이 모두 반영된 새로운 끊어읽기 예측 모델(

)을 생성한다(S280).

상기 수학식 1에 있어서,

는 어절,

는 끊어읽기의 특징벡터,

는 CART 모델링을 통해 계산된 관측확률,

는 HMM 모델링 을 통해 계산된 천이확률,

는 끊어읽기 예측결과인 Break index열을 나타낸다.

즉, 상기 수학식 1은 정적 특성의 CRAT 모델과 동적 특성의 HMM 모델을 결합하여 새로운 끊어읽기 예측 모델을 생성하는 식으로, 상기 수학식 1을 통해 생성된 끊어읽기 예측 모델은 CRAT 모델의 장점인 정적 특성과 끊어읽기에 영향을 주는 다양한 특징을 반영하는 동시에 HMM 모델의 장점인 동적 특성을 모두 반영하여 끊어읽기 강도를 예측할 수 있는 끊어읽기 예측 모델이다.

한편, 상기 도 2와 같은 절차를 거쳐 생성된 끊어읽기 예측 모델은 본 발명에 따른 음성합성시스템에 적용되어 입력 문장에 대한 합성음 생성시 문장의 의미에 가장 부합하는 끊어읽기 강도를 예측하는데 이용되며, 이하 본 발명에 따른 끊어읽기 예측 방법을 기반으로 하는 음성합성 방법에 대하여 도 3을 참조하여 더 자세히 설명하면 다음과 같다.

도 3은 본 발명에 따른 끊어읽기 예측 방법을 기반으로 하는 음성합성 방법을 나타낸 흐름도이며, 본 발명에 따른 음성합성 방법 역시 도 1에 도시된 바와 같은 음성합성시스템에 의해 수행된다.

우선, 본 발명에 따른 음성합성시스템으로 문장이 입력되면(S310), 상기 전처리부(110)에서는 입력 문장에 대한 전처리를 수행한다(S320).

그 다음, 상기 언어처리부(120)에서는 전처리 과정을 거친 입력 문장에 대하여 형태소 분석을 수행한 후(S330), 상기 형태소 분석 결과로부터 특징 파라미터를 추출하여 운율처리부(130)로 전달한다(S340).

여기에서, 상기 추출되는 특징 파라미터에는 문장 맨앞으로부터의 어절수/음절수, 문장 맨끝으로부터의 어절수/음절수, 이전 어절의 음절수, 이후 어절의 음절수, 이전/이후 품사열, 문장부호(콤마)의 여부, 문장부호(콤마)로부터의 어절수/음절수 등이 포함되는 것이 바람직하다.

그 다음, 상기 운율처리부(130)에서는 상기 추출된 특징 파라미터를 기반으로 끊어읽기 예측 모델을 통해 입력 문장에 대한 끊어읽기 강도를 예측한다(S350).

그 다음, 상기 운율처리부(130)는 억양 모델, 음소 지속시간 모델, 에너지컨투어 모델을 통해 입력 문장에 적합한 억양, 음소 지속시간, 에너지 강도를 각각 예측한다(S360).

다음으로, 이와 같은 과정을 거쳐 끊어읽기 강도, 억양, 음소 지속시간, 에너지 강도 예측이 완료된 텍스트는 합성음 생성부(140)로 보내지고, 합성음 생성부(140)는 예측된 끊어읽기 강도, 억양, 음소 지속시간, 에너지 강도에 맞게 합성음을 생성하여 출력한다(S370).

이와 같이, 본 발명의 끊어읽기 예측 모델을 통해 CART의 장점인 정적 특성과 끊어읽기에 영향을 주는 다양한 특징을 모델에 반영할 수 있는 동시에 HMM 모델의 장점인 동적 특성을 그대로 반영할 수 있으므로, 종래의 음성합성 방법에 비해 문장내 어절간 최적의 끊어읽기가 가능하며, 이에 따라 보다 자연스러운 합성음을 구현할 수 있게 된다.

한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으 로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았으며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

상술한 바와 같이, 본 발명에 따르면, 단순히 품사 기반의 N-gram 규칙모델이나 HMM (Hidden Markov Model) 또는 CART(Classification And Regression Tree) 기반의 통계모델을 통해 억양을 부여하거나 끊어읽기 강도를 부여하여 운율을 구현하는 종래의 음성합성시스템에 비하여, 끊어읽기의 정적인 특성과 동적인 특성을 모두 반영할 수 있는 끊어읽기 예측 모델을 통해 끊어읽기 강도를 예측함으로써, 문장의 의미에 가장 부합하는 운율을 생성할 수 있으며, 이에 따라 보다 자연스러운 합성음을 구현할 수 있는 효과가 있다.

Claims

(a) 텍스트 코퍼스로부터 텍스트 데이터를 추출하는 단계;

(b) 상기 추출된 텍스트 데이터에 대한 형태소 분석을 수행하여 상기 형태소 분석 결과로부터 특징 파라미터를 추출하는 단계;

(c) 상기 추출된 텍스트 데이터를 음성 녹음하여 훈련 데이터를 구성하는 단계;

(d) 상기 훈련 데이터를 기반으로 CART 모델링을 수행하여 관측확률을 계산하고 상기 훈련 데이터를 기반으로 HMM 모델링을 수행하여 천이확률을 계산하는 단계;

(e) 상기 계산된 관측확률 및 천이확률을 기반으로 끊어읽기 예측 모델을 생성하는 단계; 및

(f) 문장이 입력되면 상기 끊어읽기 예측 모델을 통해 상기 입력 문장에 대한 끊어읽기 강도를 예측하는 단계를 포함하는 것을 특징으로 하는 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법.
제 1항에 있어서, 상기 (a) 단계에서,

상기 추출된 텍스트 데이터에 대한 전처리를 수행하는 단계를 더 포함하는 것을 특징으로 하는 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법.
제 1항에 있어서, 상기 (b) 단계에서 추출되는 특징 파라미터는,

문장 맨앞으로부터의 어절수/음절수, 문장 맨끝으로부터의 어절수/음절수, 이전 어절의 음절수, 이후 어절의 음절수, 이전/이후 품사열, 문장부호의 여부, 문장부호로부터의 어절수/음절수 정보 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법.
제 1항에 있어서, 상기 (e) 단계에서,

상기 끊어읽기 예측 모델(
)은,

: 어절

: 끊어읽기의 특징벡터

: CART 모델링을 통해 계산된 관측확률

: HMM 모델링을 통해 계산된 천이확률

: 끊어읽기 예측결과인 Break index열

에 의해 생성되는 것을 특징으로 하는 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법.
문장이 입력되는 제 1 단계;

상기 입력 문장에 대한 형태소 분석을 수행하여 상기 형태소 분석 결과로부터 특징 파라미터를 추출하는 제 2 단계;

상기 추출된 특징 파라미터를 기반으로 끊어읽기 예측 모델을 통해 상기 입력 문장에 대한 끊어읽기 강도를 예측하는 제 3 단계; 및

상기 예측된 끊어읽기 강도에 맞게 합성음을 생성하여 출력하는 제 4 단계를 포함하는 것을 특징으로 하는 음성합성 방법.
제 5항에 있어서, 상기 제 1 단계에서,

상기 입력 문장에 대한 전처리를 수행하는 단계를 더 포함하는 것을 특징으로 하는 음성합성 방법.
제 5항에 있어서, 상기 제 2 단계에서 추출되는 특징 파라미터는,

문장 맨앞으로부터의 어절수/음절수, 문장 맨끝으로부터의 어절수/음절수, 이전 어절의 음절수, 이후 어절의 음절수, 이전/이후 품사열, 문장부호의 여부, 문장부호로부터의 어절수/음절수 정보 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 음성합성 방법.
제 5항에 있어서, 상기 제 3 단계에서,

상기 입력 문장에 대한 끊어읽기 강도는,

: 어절

: 끊어읽기의 특징벡터

: CART 모델링을 통해 계산된 관측확률

: HMM 모델링을 통해 계산된 천이확률

: 끊어읽기 예측결과인 Break index열

에 의해 예측되는 것을 특징으로 하는 음성합성 방법.
제 5항에 있어서, 상기 제 3 단계에서,

억양 모델, 음소 지속시간 모델, 에너지컨투어 모델을 통해 상기 입력 문장에 대한 억양, 음소 지속시간, 에너지 강도를 각각 예측하는 단계를 더 포함하는 것을 특징으로 하는 음성합성 방법.
제 9항에 있어서, 상기 제 4 단계에서,

상기 예측된 끊어읽기 강도, 억양, 음소 지속시간, 에너지 강도에 맞게 합성음을 생성하여 출력하는 단계를 더 포함하는 것을 특징으로 하는 음성합성 방법.
입력 문장에 대한 전처리를 수행하는 전처리부;

상기 전처리된 입력 문장에 대한 형태소 분석을 수행하여 상기 형태소 분석 결과로부터 특징 파라미터를 추출하는 언어처리부;

상기 추출된 특징 파라미터를 기반으로 끊어읽기 예측 모델을 통해 상기 입력 문장에 대한 끊어읽기 강도를 예측하고, 억양 모델, 음소 지속시간 모델, 에너지컨투어 모델을 통해 상기 입력 문장에 대한 억양, 음소 지속시간, 에너지 강도를 각각 예측하는 운율처리부; 및

상기 예측된 끊어읽기 강도, 억양, 음소 지속시간, 에너지 강도에 맞게 합성음을 생성하여 출력하는 합성음 생성부를 포함하는 것을 특징으로 하는 음성합성시스템.
제 11항에 있어서, 상기 끊어읽기 예측 모델은,

정적 특성의 CRAT 모델과 동적 특성의 HMM 모델을 결합하여 생성된 것을 특징으로 하는 음성합성시스템.