KR100835374B1 - 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템 - Google Patents

정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템 Download PDF

Info

Publication number
KR100835374B1
KR100835374B1 KR1020060114504A KR20060114504A KR100835374B1 KR 100835374 B1 KR100835374 B1 KR 100835374B1 KR 1020060114504 A KR1020060114504 A KR 1020060114504A KR 20060114504 A KR20060114504 A KR 20060114504A KR 100835374 B1 KR100835374 B1 KR 100835374B1
Authority
KR
South Korea
Prior art keywords
model
sentence
static
read
cut
Prior art date
Application number
KR1020060114504A
Other languages
English (en)
Other versions
KR20080045413A (ko
Inventor
김상훈
오승신
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020060114504A priority Critical patent/KR100835374B1/ko
Publication of KR20080045413A publication Critical patent/KR20080045413A/ko
Application granted granted Critical
Publication of KR100835374B1 publication Critical patent/KR100835374B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및 이를 기반으로 하는 음성합성 방법 및 시스템에 관한 것으로, 정적 특성의 CRAT 모델과 동적 특성의 HMM 모델을 결합하여 새로운 끊어읽기 예측 모델을 생성하고, 상기 생성된 끊어읽기 예측 모델을 통해 해당 문장의 의미에 가장 부합하는 끊어읽기 강도를 예측함으로써 보다 자연스러운 합성음을 구현할 수 있는 것을 특징으로 한다.
음성합성, 정적, 동적, CART, HMM, n-gram, TTS, 운율

Description

정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및 이를 기반으로 하는 음성합성 방법 및 시스템{Method for predicting phrase break using static/dynamic feature and Text-to-Speech System and method based on the same}
도 1은 음성합성시스템을 도시한 구성도이다.
도 2는 본 발명에 따른 끊어읽기 예측 모델 생성 방법을 설명하기 위한 도면이다.
도 3은 본 발명에 따른 끊어읽기 예측 방법을 기반으로 하는 음성합성 방법을 나타낸 흐름도이다.
* 도면의 주요부분에 대한 부호의 설명 *
110 : 전처리부(preprocessing module)
120 : 언어처리부(linguistic module)
130 : 운율처리부(prosodic module)
140 : 합성음 생성부(speech generator)
본 발명은 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및 이를 기반으로 하는 음성합성 방법 및 시스템에 관한 것으로, 더 자세하게는 음성합성시스템에 있어서 정적 특성의 CRAT 모델과 동적 특성의 HMM 모델을 결합하여 새로운 끊어읽기 예측 모델을 생성하고 상기 생성된 끊어읽기 예측 모델을 통해 해당 문장의 의미에 가장 부합하는 끊어읽기 강도를 예측함으로써 보다 자연스러운 합성음을 구현할 수 있는 기술에 관한 것이다.
음성합성시스템(Text-to-Speech system)은 입력 문장을 인간이 들을 수 있는 음성으로 변환하여 출력하는 장치로서, 도 1에 도시된 바와 같이 전처리부(preprocessing module)(110), 언어처리부(linguistic module)(120), 운율처리부(prosodic module)(130), 및 합성음 생성부(speech generator)(140)로 구성된다.
상기와 같이 구성되는 음성합성시스템은, 먼저 전처리부(110)에 의해 입력 문장에 대한 정규화(normalization)가 이루어지면, 언어처리부(120)가 입력 문장에 대해 형태소 분석(morphological analysis)이나 구문 분석(syntactic parsing)을 수행하고 발음 변환(grapheme-to-phoneme conversion)을 수행한다.
이어서, 운율처리부(130)가 억양구를 찾아내어 억양구나 문장 전체에 억양을 부여하거나 끊어읽기(phrasing) 강도를 할당하면, 합성음 생성부(140)가 운율 처리된 입력 문장의 합성음을 생성하여 출력한다.
하지만, 이와 같은 음성합성시스템의 운율 처리 과정에 있어서 문장의 의미에 맞게 적절하게 끊어읽기가 구현되어야 문장의 내용과 흐름이 명확하게 표현될 수 있고 자연스러운 음성합성이 이루어질 수 있으나, 종래에는 단순히 품사 기반의 N-gram 규칙모델이나 HMM (Hidden Markov Model) 또는 CART(Classification And Regression Tree) 기반의 통계모델을 통해 억양을 부여하거나 끊어읽기 강도를 부여하여 운율을 구현하기 때문에 문장에 대한 자연스러운 합성음을 생성하지 못하는 문제점을 갖고 있다.
좀 더 자세히 설명하면, 상기 품사 기반의 N-gram 규칙모델은 문장내 각 어절별로 형태소 태깅된 품사정보의 N개 연속패턴을 보고, 그 패턴내 끊어읽기 결과가 어떻게 되는지 빈도를 추출하여 빈도가 높은 끊어읽기 유형으로 결정하는 방법으로, 이 방법은 품사 N-gram 패턴의 길이를 가변적으로 조절하여 규칙 수정 등 튜닝이 가능하고, 품사 N-gram 패턴의 back-off 모델을 용이하게 반영할 수 있는 장점이 있으나, 끊어읽기에 영향을 주는 다양한 특징(feature)을 동시에 반영하기 힘들어 끊어읽기의 동적인 특성을 반영할 수 없는 단점이 있다.
한편, 상기 HMM 기반의 통계모델은 끊어읽기의 동적 특성인 품사열 및 끊어읽기 결과의 연속성을 모델에 반영할 수 있어 상기 품사 기반의 N-gram 규칙모델 보다 강인한 성능을 낼 수 있는 모델로서, 상기 HMM 모델에서는 정적 특성에 해당하는 품사 N-gram 확률을 관측확률(Observation probability)로 모델링하고 동적 특성에 해당하는 끊어읽기의 시간축상 변화는 천이확률(Transition probability)을 모델링하여 끊어읽기의 동적 특성을 반영함으로써, 끊어읽기 결과가 연속해서 같은 결과가 반복된다든가 하는 오류는 막을 수 있다. 그러나, 이와 같은 HMM 모델도 상기 품사 기반의 N-gram 모델과 같이 끊어읽기에 영향을 주는 다양한 특징을 모델에 반영할 수 없을 뿐만 아니라, 단순히 품사열만으로 관측확률을 구하기 때문에 끊어 읽기의 정확성이 떨어진다는 단점이 있다.
또한, 상기 CART 기반의 통계모델은 품사열, 문장부호, 문장내 위치 등 다양한 특징을 반영할 수 있는 방법으로 최근 끊어읽기 예측 모델로 많이 적용되고 있는 것으로, 정적 특성인 한 시점에서 최적 끊어읽기가 가능하여 상기 품사 기반의 N-gram 모델 및 HMM 보다 나은 성능을 보이고 있으나, 문장내 지엽적인 끊어읽기는 가능하지만 HMM에서와 같이 끊어읽기의 동적인 특성을 반영할 수가 없어 문장 전체로 볼 때 정확한 끊어읽기를 수행할 수 없는 한계점을 갖고 있다.
따라서, 본 발명의 목적은 음성합성 시스템에 있어서 정적 특성의 CRAT 모델과 동적 특성의 HMM 모델을 결합하여 새로운 끊어읽기 예측 모델을 생성하여 상기 생성된 끊어읽기 예측 모델을 통해 해당 문장의 의미에 가장 부합하는 끊어읽기 강도를 예측함으로써 보다 자연스러운 합성음을 구현할 수 있도록 하는 것이다.
상기와 같은 목적을 달성하기 위하여 본 발명의 끊어읽기 예측 방법은, (a) 텍스트 코퍼스로부터 텍스트 데이터를 추출하는 단계; (b) 상기 추출된 텍스트 데이터에 대한 형태소 분석을 수행하여 상기 형태소 분석 결과로부터 특징 파라미터를 추출하는 단계; (c) 상기 추출된 텍스트 데이터를 음성 녹음하여 훈련 데이터를 구성하는 단계; (d) 상기 훈련 데이터를 기반으로 CART 모델링을 수행하여 관측확률을 계산하고 상기 훈련 데이터를 기반으로 HMM 모델링을 수행하여 천이확률을 계산하는 단계; (e) 상기 계산된 관측확률 및 천이확률을 기반으로 끊어읽기 예측 모 델을 생성하는 단계; 및 (f) 문장이 입력되면 상기 끊어읽기 예측 모델을 통해 상기 입력 문장에 대한 끊어읽기 강도를 예측하는 단계를 포함하는 것을 특징으로 한다.
삭제
한편, 상기와 같은 목적을 달성하기 위하여 본 발명의 음성합성시스템은, 입력 문장에 대한 전처리를 수행하는 전처리부; 상기 전처리된 입력 문장에 대한 형태소 분석을 수행하여 상기 형태소 분석 결과로부터 특징 파라미터를 추출하는 언어처리부; 상기 추출된 특징 파라미터를 기반으로 끊어읽기 예측 모델을 통해 상기 입력 문장에 대한 끊어읽기 강도를 예측하고, 억양 모델, 음소 지속시간 모델, 에너지컨투어 모델을 통해 상기 입력 문장에 대한 억양, 음소 지속시간, 에너지 강도를 각각 예측하는 운율처리부; 및 상기 예측된 끊어읽기 강도, 억양, 음소 지속시간, 에너지 강도에 맞게 합성음을 생성하여 출력하는 합성음 생성부를 포함하며, 상기 끊어읽기 예측 모델은, 정적 특성의 CRAT 모델과 동적 특성의 HMM 모델을 결합하여 생성된 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.
전술한 바와 같이 문장에 대한 자연스러운 합성음을 생성하기 위해서는 끊어읽기의 정적인 특성과 동적인 특성에 대한 고려가 필요하며, 이를 위해 본 발명에서는 다음에 설명하는 바와 같이 끊어읽기의 다양한 특징을 반영할 수 있는 새로운 끊어읽기 예측 모델을 생성하여 이를 통해 문장의 의미에 가장 부합하는 운율을 생성하도록 하는데, 이에 대하여 도 2를 참조하여 더 자세히 설명하면 다음과 같다.
도 2는 본 발명에 따른 끊어읽기 예측 모델 생성 방법을 설명하기 위한 도면으로, 본 발명에 따른 끊어읽기 예측 모델은 도 1에 도시된 바와 같은 음성합성시스템에 의해 생성되며, 여기서, 도 1의 음성합성시스템에 대한 구체적인 설명은 중복되므로 생략하기로 하고, 기존과 달라지는 기능에 대해서는 이하의 설명에서 구체적으로 설명하기로 한다.
먼저, 대규모의 텍스트 코퍼스로부터 텍스트 데이터를 추출한 후(S210), 전처리부(110)를 통해 상기 추출된 텍스트 데이터에 대한 전처리를 수행한다(S220).
여기에서, 상기 전처리 과정은 문장에 포함된 숫자, 심볼, 한자, 영어 등을 정규화하는 단계를 포함하는 것이 바람직하다.
다음으로, 언어처리부(120)를 통해 상기 전처리 과정을 거친 텍스트 데이터에 대한 형태소 분석을 수행한다(S230).
여기에서, 상기 형태소 분석 과정은 문장내 어절을 형태소 단위로 분리하고 각 형태소마다 품사정보를 할당하는 단계를 포함하는 것이 바람직하다.
다음으로, 언어처리부(120)를 통해 상기 형태소 분석 결과로부터 문장 맨앞 으로부터의 어절수/음절수, 문장 맨끝으로부터의 어절수/음절수, 이전 어절의 음절수, 이후 어절의 음절수, 이전/이후 품사열, 문장부호(콤마)의 여부, 문장부호(콤마)로부터의 어절수/음절수 등 다양한 특징 파라미터를 추출한다(S240).
다음으로, 상기 추출된 텍스트 데이터를 음성 녹음하여 훈련 데이터를 구축한다(S250).
다음으로, 상기 훈련 데이터를 기반으로 CART 모델링을 수행하여 관측확률(
Figure 112006084771096-pat00001
)을 계산하는 한편(S260), 상기 훈련 데이터를 기반으로 HMM 모델링을 수행하여 천이확률(
Figure 112006084771096-pat00002
)을 계산한다(S270).
여기에서, 상기 CART 모델링을 통한 관측확률 계산 및 HMM 모델링을 통한 천이확률 계산은 해당 기술분야에서 널리 행해지는 기법이므로 이에 대한 자세한 설명은 생략한다.
다음으로, 상기 계산된 관측확률(
Figure 112006084771096-pat00003
)과 천이확률(
Figure 112006084771096-pat00004
)을 다음의 수학식 1에 적용하여 끊어읽기의 정적인 특성과 동적인 특성이 모두 반영된 새로운 끊어읽기 예측 모델(
Figure 112006084771096-pat00005
)을 생성한다(S280).
Figure 112006084771096-pat00006
상기 수학식 1에 있어서,
Figure 112006084771096-pat00007
는 어절,
Figure 112006084771096-pat00008
는 끊어읽기의 특징벡터,
Figure 112006084771096-pat00009
는 CART 모델링을 통해 계산된 관측확률,
Figure 112006084771096-pat00010
는 HMM 모델링 을 통해 계산된 천이확률,
Figure 112006084771096-pat00011
는 끊어읽기 예측결과인 Break index열을 나타낸다.
즉, 상기 수학식 1은 정적 특성의 CRAT 모델과 동적 특성의 HMM 모델을 결합하여 새로운 끊어읽기 예측 모델을 생성하는 식으로, 상기 수학식 1을 통해 생성된 끊어읽기 예측 모델은 CRAT 모델의 장점인 정적 특성과 끊어읽기에 영향을 주는 다양한 특징을 반영하는 동시에 HMM 모델의 장점인 동적 특성을 모두 반영하여 끊어읽기 강도를 예측할 수 있는 끊어읽기 예측 모델이다.
한편, 상기 도 2와 같은 절차를 거쳐 생성된 끊어읽기 예측 모델은 본 발명에 따른 음성합성시스템에 적용되어 입력 문장에 대한 합성음 생성시 문장의 의미에 가장 부합하는 끊어읽기 강도를 예측하는데 이용되며, 이하 본 발명에 따른 끊어읽기 예측 방법을 기반으로 하는 음성합성 방법에 대하여 도 3을 참조하여 더 자세히 설명하면 다음과 같다.
도 3은 본 발명에 따른 끊어읽기 예측 방법을 기반으로 하는 음성합성 방법을 나타낸 흐름도이며, 본 발명에 따른 음성합성 방법 역시 도 1에 도시된 바와 같은 음성합성시스템에 의해 수행된다.
우선, 본 발명에 따른 음성합성시스템으로 문장이 입력되면(S310), 상기 전처리부(110)에서는 입력 문장에 대한 전처리를 수행한다(S320).
그 다음, 상기 언어처리부(120)에서는 전처리 과정을 거친 입력 문장에 대하여 형태소 분석을 수행한 후(S330), 상기 형태소 분석 결과로부터 특징 파라미터를 추출하여 운율처리부(130)로 전달한다(S340).
여기에서, 상기 추출되는 특징 파라미터에는 문장 맨앞으로부터의 어절수/음절수, 문장 맨끝으로부터의 어절수/음절수, 이전 어절의 음절수, 이후 어절의 음절수, 이전/이후 품사열, 문장부호(콤마)의 여부, 문장부호(콤마)로부터의 어절수/음절수 등이 포함되는 것이 바람직하다.
그 다음, 상기 운율처리부(130)에서는 상기 추출된 특징 파라미터를 기반으로 끊어읽기 예측 모델을 통해 입력 문장에 대한 끊어읽기 강도를 예측한다(S350).
그 다음, 상기 운율처리부(130)는 억양 모델, 음소 지속시간 모델, 에너지컨투어 모델을 통해 입력 문장에 적합한 억양, 음소 지속시간, 에너지 강도를 각각 예측한다(S360).
다음으로, 이와 같은 과정을 거쳐 끊어읽기 강도, 억양, 음소 지속시간, 에너지 강도 예측이 완료된 텍스트는 합성음 생성부(140)로 보내지고, 합성음 생성부(140)는 예측된 끊어읽기 강도, 억양, 음소 지속시간, 에너지 강도에 맞게 합성음을 생성하여 출력한다(S370).
이와 같이, 본 발명의 끊어읽기 예측 모델을 통해 CART의 장점인 정적 특성과 끊어읽기에 영향을 주는 다양한 특징을 모델에 반영할 수 있는 동시에 HMM 모델의 장점인 동적 특성을 그대로 반영할 수 있으므로, 종래의 음성합성 방법에 비해 문장내 어절간 최적의 끊어읽기가 가능하며, 이에 따라 보다 자연스러운 합성음을 구현할 수 있게 된다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으 로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았으며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
상술한 바와 같이, 본 발명에 따르면, 단순히 품사 기반의 N-gram 규칙모델이나 HMM (Hidden Markov Model) 또는 CART(Classification And Regression Tree) 기반의 통계모델을 통해 억양을 부여하거나 끊어읽기 강도를 부여하여 운율을 구현하는 종래의 음성합성시스템에 비하여, 끊어읽기의 정적인 특성과 동적인 특성을 모두 반영할 수 있는 끊어읽기 예측 모델을 통해 끊어읽기 강도를 예측함으로써, 문장의 의미에 가장 부합하는 운율을 생성할 수 있으며, 이에 따라 보다 자연스러운 합성음을 구현할 수 있는 효과가 있다.

Claims (12)

  1. (a) 텍스트 코퍼스로부터 텍스트 데이터를 추출하는 단계;
    (b) 상기 추출된 텍스트 데이터에 대한 형태소 분석을 수행하여 상기 형태소 분석 결과로부터 특징 파라미터를 추출하는 단계;
    (c) 상기 추출된 텍스트 데이터를 음성 녹음하여 훈련 데이터를 구성하는 단계;
    (d) 상기 훈련 데이터를 기반으로 CART 모델링을 수행하여 관측확률을 계산하고 상기 훈련 데이터를 기반으로 HMM 모델링을 수행하여 천이확률을 계산하는 단계;
    (e) 상기 계산된 관측확률 및 천이확률을 기반으로 끊어읽기 예측 모델을 생성하는 단계; 및
    (f) 문장이 입력되면 상기 끊어읽기 예측 모델을 통해 상기 입력 문장에 대한 끊어읽기 강도를 예측하는 단계를 포함하는 것을 특징으로 하는 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법.
  2. 제 1항에 있어서, 상기 (a) 단계에서,
    상기 추출된 텍스트 데이터에 대한 전처리를 수행하는 단계를 더 포함하는 것을 특징으로 하는 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법.
  3. 제 1항에 있어서, 상기 (b) 단계에서 추출되는 특징 파라미터는,
    문장 맨앞으로부터의 어절수/음절수, 문장 맨끝으로부터의 어절수/음절수, 이전 어절의 음절수, 이후 어절의 음절수, 이전/이후 품사열, 문장부호의 여부, 문장부호로부터의 어절수/음절수 정보 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법.
  4. 제 1항에 있어서, 상기 (e) 단계에서,
    상기 끊어읽기 예측 모델(
    Figure 112006084771096-pat00012
    )은,
    Figure 112006084771096-pat00013
    Figure 112006084771096-pat00014
    : 어절
    Figure 112006084771096-pat00015
    : 끊어읽기의 특징벡터
    Figure 112006084771096-pat00016
    : CART 모델링을 통해 계산된 관측확률
    Figure 112006084771096-pat00017
    : HMM 모델링을 통해 계산된 천이확률
    Figure 112006084771096-pat00018
    : 끊어읽기 예측결과인 Break index열
    에 의해 생성되는 것을 특징으로 하는 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법.
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 제 1항에 있어서, 상기 제 (f) 단계에서,
    상기 끊어읽기 예측 모델을 통해 상기 입력 문장에 대한 끊어읽기 강도를 예측하며, 억양 모델, 음소 지속시간 모델, 에너지컨투어 모델을 통해 상기 입력 문장에 대한 억양, 음소 지속시간, 에너지 강도를 각각 예측하는 단계를 더 포함하는 것을 특징으로 하는 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법.
  10. 제 9항에 있어서,
    (g) 상기 예측된 끊어읽기 강도, 억양, 음소 지속시간, 에너지 강도에 맞게 합성음을 생성하여 출력하는 단계를 더 포함하는 것을 특징으로 하는 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법.
  11. 입력 문장에 대한 전처리를 수행하는 전처리부;
    상기 전처리된 입력 문장에 대한 형태소 분석을 수행하여 상기 형태소 분석 결과로부터 특징 파라미터를 추출하는 언어처리부;
    상기 추출된 특징 파라미터를 기반으로 끊어읽기 예측 모델을 통해 상기 입력 문장에 대한 끊어읽기 강도를 예측하고, 억양 모델, 음소 지속시간 모델, 에너지컨투어 모델을 통해 상기 입력 문장에 대한 억양, 음소 지속시간, 에너지 강도를 각각 예측하는 운율처리부; 및
    상기 예측된 끊어읽기 강도, 억양, 음소 지속시간, 에너지 강도에 맞게 합성음을 생성하여 출력하는 합성음 생성부를 포함하며,
    상기 끊어읽기 예측 모델은,
    정적 특성의 CRAT 모델과 동적 특성의 HMM 모델을 결합하여 생성된 것을 특징으로 하는 음성합성시스템.
  12. 삭제
KR1020060114504A 2006-11-20 2006-11-20 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템 KR100835374B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060114504A KR100835374B1 (ko) 2006-11-20 2006-11-20 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060114504A KR100835374B1 (ko) 2006-11-20 2006-11-20 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20080045413A KR20080045413A (ko) 2008-05-23
KR100835374B1 true KR100835374B1 (ko) 2008-06-04

Family

ID=39662823

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060114504A KR100835374B1 (ko) 2006-11-20 2006-11-20 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR100835374B1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012169844A2 (ko) * 2011-06-08 2012-12-13 주식회사 내일이비즈 전자책 데이터 음성 합성 장치 및 그 방법
KR101401427B1 (ko) * 2011-06-08 2014-06-02 이해성 전자책 데이터 음성 합성 장치 및 그 방법
CN108920455A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种汉语自动生成文本的自动评价方法
KR102603282B1 (ko) * 2019-02-15 2023-11-17 엘지전자 주식회사 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
KR102057926B1 (ko) * 2019-03-19 2019-12-20 휴멜로 주식회사 음성 합성 장치 및 그 방법
US11227578B2 (en) * 2019-05-15 2022-01-18 Lg Electronics Inc. Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium
CN111177375B (zh) * 2019-12-16 2023-06-02 医渡云(北京)技术有限公司 一种电子文档分类方法及装置
CN111553726B (zh) * 2020-04-22 2023-04-28 上海海事大学 一种基于hmm的刷单预测系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000055673A (ko) * 1999-02-09 2000-09-15 윤종용 음성합성을 위한 끊어읽기 방법 및 그 장치
KR20040025969A (ko) * 2002-09-17 2004-03-27 주식회사 현대오토넷 Cart를 이용한 자연어 처리 방법
KR20070049753A (ko) * 2005-11-09 2007-05-14 한국전자통신연구원 음성합성을 위한 끊어읽기 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000055673A (ko) * 1999-02-09 2000-09-15 윤종용 음성합성을 위한 끊어읽기 방법 및 그 장치
KR20040025969A (ko) * 2002-09-17 2004-03-27 주식회사 현대오토넷 Cart를 이용한 자연어 처리 방법
KR20070049753A (ko) * 2005-11-09 2007-05-14 한국전자통신연구원 음성합성을 위한 끊어읽기 장치 및 방법

Also Published As

Publication number Publication date
KR20080045413A (ko) 2008-05-23

Similar Documents

Publication Publication Date Title
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
KR100835374B1 (ko) 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템
US7460997B1 (en) Method and system for preselection of suitable units for concatenative speech
EP0688011B1 (en) Audio output unit and method thereof
KR100932538B1 (ko) 음성 합성 방법 및 장치
JP3587048B2 (ja) 韻律制御方法及び音声合成装置
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
CN114678001A (zh) 语音合成方法和语音合成装置
KR100669241B1 (ko) 화행 정보를 이용한 대화체 음성합성 시스템 및 방법
Kayte et al. A text-to-speech synthesis for Marathi language using festival and Festvox
KR101097186B1 (ko) 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법
KR100720175B1 (ko) 음성합성을 위한 끊어읽기 장치 및 방법
Shi et al. Statistic prosody structure prediction
KR100806287B1 (ko) 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템
JP7406418B2 (ja) 声質変換システムおよび声質変換方法
Krishna et al. A new prosodic phrasing model for indian language telugu.
Chen et al. A Mandarin Text-to-Speech System
JPH0962286A (ja) 音声合成装置および音声合成方法
KR100554950B1 (ko) 한국어 대화체 음성합성시스템의 특정 형태에 대한 선택적운율 구현 방법
JP7162579B2 (ja) 音声合成装置、方法及びプログラム
JPH05134691A (ja) 音声合成方法および装置
Yeh et al. Efficient text analyser with prosody generator-driven approach for Mandarin text-to-speech
Ahmad et al. An encoder-decoder based grapheme-to-phoneme converter for Bangla speech synthesis
JP2005091551A (ja) 音声合成装置及びそのためのコスト計算装置、並びにコンピュータプログラム
Khalil et al. Optimization of Arabic database and an implementation for Arabic speech synthesis system using HMM: HTS_ARAB_TALK

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130424

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140430

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150603

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160502

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170717

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180626

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20200227

Year of fee payment: 12

R401 Registration of restoration