KR100806287B1 - 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템 - Google Patents

문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템 Download PDF

Info

Publication number
KR100806287B1
KR100806287B1 KR1020060072502A KR20060072502A KR100806287B1 KR 100806287 B1 KR100806287 B1 KR 100806287B1 KR 1020060072502 A KR1020060072502 A KR 1020060072502A KR 20060072502 A KR20060072502 A KR 20060072502A KR 100806287 B1 KR100806287 B1 KR 100806287B1
Authority
KR
South Korea
Prior art keywords
tagging
speech
sentence
intonation
dialogue
Prior art date
Application number
KR1020060072502A
Other languages
English (en)
Other versions
KR20080011859A (ko
Inventor
오승신
김상훈
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020060072502A priority Critical patent/KR100806287B1/ko
Publication of KR20080011859A publication Critical patent/KR20080011859A/ko
Application granted granted Critical
Publication of KR100806287B1 publication Critical patent/KR100806287B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Abstract

본 발명은 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법 및 시스템에 관한 것으로, 문말 억양과 가장 밀접한 상관 관계를 가지는 문장의 종결어미를 이용하여 문말 억양 예측 모델을 생성하고 생성된 문말 억양 예측 모델을 통해 입력된 대화체 문장의 의미에 가장 부합하는 문말 억양을 생성함으로써, 보다 자연스러운 대화체 합성음을 생성할 수 있는 것을 특징으로 한다.
음성합성시스템(Text-to-Speech system), 문말 억양(sentence-final intonation), 양태(modality), 운율(prosody), 화행(speech act), 문형(sentence type)

Description

문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법 및 시스템{Method for predicting sentence-final intonation and Text-to-Speech System and method based on the same}
도 1은 음성합성시스템을 도시한 구성도이다.
도 2는 본 발명에 따른 문말 억양 예측을 위한 문말 억양 예측 모델 생성 방법을 나타낸 흐름도이다.
도 3은 본 발명에 따른 문말 억양 태깅을 위한 문말 억양 태그셋의 일례를 나타낸 도면이다.
도 4는 본 발명에 따른 양태 태깅을 위해 대화체에서 사용되는 종결어미를 그 양태 의미에 따라 분류한 양태 태깅 테이블(종결어미 의미분류 테이블)의 일부를 나타낸 도면이다.
도 5는 본 발명에 따른 문말 억양 예측 방법을 기반으로 하는 음성합성 방법을 나타낸 흐름도이다.
도 6은 본 발명에 따라 문말 억양 태깅된 결과를 나타낸 도면이다.
* 도면의 주요부분에 대한 부호의 설명 *
110 : 전처리부(preprocessing module)
120 : 언어처리부(linguistic module)
130 : 운율처리부(prosodic module)
140 : 합성음 생성부(speech generator)
본 발명은 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법 및 시스템에 관한 것으로, 더 자세하게는 음성합성시스템에 있어서 대화체 문장의 의미에 맞는 문말 억양(sentence-final intonation)을 예측할 수 있는 문말 억양 예측 모델을 생성하여 생성된 문말 억양 예측 모델을 통해 대화체 입력 문장에 대한 문말 억양을 생성하여 보다 자연스러운 대화체 음성을 구현할 수 있는 기술에 관한 것이다.
음성합성시스템(Text-to-Speech system)은 입력 문장을 인간이 들을 수 있는 음성으로 변환하여 출력하는 장치로서, 도 1에 도시된 바와 같이 전처리부(preprocessing module)(110), 언어처리부(linguistic module)(120), 운율처리부(prosodic module)(130), 및 합성음 생성부(speech generator)(140)로 구성된다.
상기와 같이 구성되는 종래의 음성합성시스템은, 먼저 전처리부(110)에 의해 입력 문장에 대한 정규화(normalization)가 이루어지면, 언어처리부(120)가 입력 문장에 대해 형태소 분석(morphological analysis)이나 구문 분석(syntactic parsing)을 수행하고 발음 변환(grapheme-to-phoneme conversion)을 수행한다.
이어서, 운율처리부(130)가 억양구를 찾아내어 억양구나 문장 전체에 억양을 부여하거나 끊어 읽기(phrasing) 강도를 할당하면, 합성음 생성부(140)가 운율 처리된 입 력 문장의 합성음을 생성하여 출력한다.
그러나, 상기와 같이 작동하는 음성합성시스템은 대화의 의미에 대한 고려가 없이 문장 단위로 형태소 분석 및 구문분석을 하여 억양구를 찾아내어 억양을 부여하거나 끊어 읽기 기간을 부여하여 운율 구현을 하도록 되어 있기 때문에, 낭독체 음성을 합성하기 위한 방법으로는 적당하나, 다양한 화자의 감정이나 태도를 나타내는 대화체 문장을 합성하는 데에는 한계가 있다.
다음의 대화 예문을 예로 들어 대화 음성과 억양과의 관계에 대하여 더 자세히 설명하면 다음과 같다.
< 일상적인 대화 예문 >
영희 : 학교 다녀왔습니다.
엄마 : 어서 와.
영희 : 엄마, 솜틀집이 뭐예요?
엄마 : 그건 ?
영희 : 솜틀집이 뭔지 알아오는 게 숙제예요.
상기와 같은 대화체 음성에서 문말 억양은 화자의 감정이나 태도를 나타내는 결정적인 요소이고, 그 중에서도 종결어미가 문말 억양에 많은 영향을 주고 있음을 알 수 있는데, 문말 억양이 문장의 의미에 따라 적절하게 표현되지 않을 경우 발화 의도를 이해하기 어렵고 결과적으로 대화 음성의 자연성이 감소되게 됨을 알 수 있다.
즉, 한국어의 대화체 음성에는 다양한 문말 억양이 사용되며, 그 문말 억양에 따라 문장의 의미나 기능이 달라지기도 하므로, 대화체 문장을 합성함에 있어서 문장의 의미에 맞는 문말 억양의 생성은 합성음의 자연성만 아니라 이해도에 직접적인 영향을 미치는 중요한 요소가 될 수 있다.
그러므로, 이러한 대화체 문장에 포함되는 문말 억양에 대하여 대화의 의미에 맞게 적절한 운율이 구현되어야 대화의 내용과 흐름이 명확하게 표현될 수 있고 자연스러운 대화체 음성이 될 수 있으나, 종래의 음성합성시스템은 단순히 음절수와 음운정보, 위치 정보와 끊어읽기 경계 강도 정보 등을 파라미터로 하여 모델링된 운율 모델을 사용하는 한편, 문말 억양은 주로 문장 부호에 의존하여 결정하고 있는데, 이와 같이 문장 부호에 의존하는 경우, 텍스트에 쓰이는 문장 부호는 마침표와 물음표, 느낌표로 제한되어 있는 반면, 한국어의 대화체 음성에 나타나는 문말 억양 타입은 그보다 훨씬 다양하므로, 1대 1의 매칭이 불가능하여 대화체 문장에 대한 자연스러운 합성음을 생성하지 못하는 문제점을 갖고 있다.
이와 같은 문제점을 해결하기 위한 것으로, 문장 부호 외에 문형이나 화행 등의 언어 정보를 기반으로 문말 억양을 결정하는 방법도 개시되어 있는데, 문형 정보와 화행 정보는 문말 억양의 예측에 결정적인 영향을 미치지 못하기 때문에, 이 방법 역시 대화체 문장에 대한 자연스러운 합성음을 생성하지는 못한다는 한계점을 갖고 있다.
결론적으로, 음성합성 시스템에 있어서 문말 억양과 상관성을 가지는 언어 요소를 기반으로 대화의 의미에 맞게 문말 억양을 생성하여 보다 자연스러운 대화체 음성을 구현할 수 있는 수단이 필요하다.
따라서, 본 발명의 목적은 문장의 의미에 맞는 문말 억양을 예측할 수 있는 문 말 억양 예측 모델을 생성하고 생성된 문말 억양 예측 모델을 통해 대화체 문장에 대한 문말 억양을 생성하여 보다 자연스러운 대화체 음성을 구현할 수 있도록 하는 것이다.
상기와 같은 목적을 달성하기 위한 본 발명의 문말 억양 예측 방법은, (a) 대화체 텍스트 코퍼스로부터 종결어미 형태의 분포를 고려하여 텍스트 데이터를 추출하는 단계; (b) 문말 톤 타입에 따라 설정된 문말 억양 태그셋을 기반으로 상기 추출된 텍스트 데이터에 대한 문말 억양 태깅을 수행하는 단계; (c) 문장의 종결어미를 의미에 따라 분류한 양태 태깅 테이블을 기반으로 상기 추출된 텍스트 데이터에 대한 양태 태깅을 수행하는 단계; (d) 상기 추출된 텍스트 데이터에 대한 화행 태깅 및 문형 태깅을 수행하는 단계; (e) 상기 문말 억양 태깅, 양태 태깅, 화행 태깅 및 문형 태깅이 완료된 텍스트 데이터를 기반으로 훈련데이터를 구성하는 단계; (f) 상기 훈련데이터를 기반으로 통계적 방법에 의해 문말 억양 예측을 위한 문말 억양 예측 모델을 생성하는 단계; 및 (g) 대화체 문장이 입력되면 상기 문말 억양 예측 모델을 통해 상기 대화체 문장에 대한 문말 억양을 예측하여 문말 억양 태깅을 수행하는 단계를 포함하는 것을 특징으로 한다.
한편, 본 발명의 문말 억양 예측 방법을 기반으로 하는 음성합성 방법은, 문장의 종결어미를 기반으로 대화체 문장의 의미에 부합하는 문말 억양을 예측하여 문말 억양 태깅을 수행해 주고, 음성 합성시에 상기 문말 억양 태그에 맞는 문말 억양이 구현된 합성음을 생성하는 것을 특징으로 한다.
또한, 본 발명의 문말 억양 예측 방법을 기반으로 하는 음성합성 방법은, 대화 체 문장이 입력되면 상기 대화체 문장에 대한 형태소 분석 및 태깅을 수행하는 제 1 단계; 문장의 종결어미를 의미에 따라 분류한 양태 태깅 테이블을 기반으로 상기 대화체 문장에 대한 양태 태깅을 수행하는 제 2 단계; 상기 대화체 문장에 대한 화행 태깅 또는 문형 태깅을 수행하는 제 3 단계; 상기 양태 태깅 정보와 화행 태깅 정보 또는 문형 태깅 정보에 따라 상기 문말 억양 예측 모델을 통해 상기 대화체 문장에 대한 문말 억양을 예측하여 문말 억양 태깅을 수행하는 제 4 단계; 및 상기 대화체 문장의 태깅된 억양 유형에 맞게 합성음을 생성하여 출력하는 제 5 단계를 포함하는 것을 특징으로 한다.
한편, 본 발명의 음성합성시스템은, 입력된 대화체 문장에 대해 전처리를 위해 정규화를 수행하는 전처리기; 상기 전처리 완료된 대화체 문장에 대하여 형태소 태깅과 발음 변환을 수행하는 언어처리부; 상기 언어처리부로부터 태깅 결과를 입력받아 문장의 종결어미를 의미에 따라 분류한 양태 태깅 테이블을 기반으로 양태 태깅을 수행하고, 화행 태깅 또는 문형 태깅을 수행하며, 문말 억양 예측 모델을 통해 상기 대화체 문장에 대한 문말 억양을 예측하여 문말 억양 태깅을 수행하는 운율처리부; 및 상기 대화체 문장의 태깅된 형태에 맞게 합성음을 생성하여 출력하는 합성음 생성부를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.
전술한 바와 같이 일상적인 대화에 대한 자연스러운 합성음을 생성하기 위해서 는 문말 억양에 대한 고려가 필요하며, 이를 위해 본 발명에서는 다음에 설명하는 바와 같이 문말 억양과 가장 밀접한 상관 관계를 가지는 문장의 종결어미에 따른 양태 정보를 이용하여 문말 억양 예측 모델을 생성하고 생성된 문말 억양 예측 모델을 통해 대화체 문장의 의미에 가장 부합하는 문말 억양을 생성하도록 하는데, 이에 대하여 도 2를 참조하여 더 자세히 설명하면 다음과 같다.
도 2는 본 발명에 따른 문말 억양 예측을 위한 문말 억양 예측 모델 생성 방법을 나타낸 흐름도이다.
먼저, 대규모의 대화체 텍스트 코퍼스로부터 종결어미 형태의 분포를 고려하여 텍스트 데이터를 추출한다(S210).
이 때, 종결어미 형태의 분포를 고려하여 텍스트 데이터를 추출하는 이유는 전술한 바와 같이 화자의 태도를 표현하는 문장의 양태 의미가 주로 종결어미에 나타나기 때문이다.
다음으로, 상기 추출된 텍스트 데이터를 대화체 억양으로 발성한 음성을 녹음하여 음성 데이터를 구축한다(S220).
다음으로, 상기 음성 데이터의 의미와 기능을 기반으로 문말 억양 타입을 분류하는데(S230), 이러한 문말 억양 타입 분류를 위해서는 일단 문말 억양 태그셋을 설정하는 작업이 필요하며, 도 3은 문말 억양 태그셋의 일례를 나타낸 도면이다.
즉, 한국어의 문말 억양은 문장의 마지막 음절에 얹히는 톤으로 실현되므로, 이에 따라 본 실시예에서는 도 3에 도시된 바와 같이 문말 억양 타입을 low tone(L), Mid tone(M), High tone(H)의 문말 톤 타입에 따라 LL, LM, H, LM, LH, ML, HL, TL, LML, LHL, HLH 의 12개로 분류하였으며, 이에 따라 문말 억양 타입 분류의 결과는 문말 억양 태그셋으로 표현되는 문말 톤 타입의 목록이 된다.
다음으로, 상기 문말 억양 타입 분류 결과와 상기 문말 억양 태그셋을 기반으로 상기 추출된 텍스트 데이터에 대한 문말 억양 태깅(문말 톤 타입 태깅)을 수행한다(S240).
다음으로, 상기와 같은 문말 억양 태깅이 완료되면, 상기 추출된 텍스트 데이터에 대하여 언어적 자질(linguistic feature)을 기반으로 태깅을 수행하는데, 본 실시예에서 언어적 자질로 사용하는 파라미터는 의미 자질인 양태(modality) 정보, 통사적 자질인 문형(sentence type) 정보, 및 화용론적 자질인 화행(speech act) 정보이며, 먼저 상기 양태 태깅에 대하여 더 자세히 설명하면 다음과 같다.
양태란 문장 메시지나 청자에 대한 화자의 태도를 말하는 것으로, 한국어의 양태는 주로 문장의 종결어미를 통해 표현되며, 본 발명에서는 이러한 양태 태깅을 위해 문장의 종결어미를 의미별로 분류하여 양태 태깅 테이블(종결어미 의미분류 테이블)을 구성하는데, 도 4는 본 발명에 따른 양태 태깅을 위해 대화체에서 사용되는 종결어미를 그 양태 의미에 따라 분류한 양태 태깅 테이블(종결어미 의미분류 테이블)의 일부를 나타낸 도면이다.
즉, 실제 대화상에서 빈번히 사용되는 "~대요", "~라더라", "~할께요", "~을걸요", "답니다", "~했냐니깐" 등의 종결어미에는 청자에 대한 화자의 태도가 반영되어 있는데, 상기 도 4와 같이 구현된 양태 태깅 테이블(종결어미 의미분류 테이블)을 기반으로 양태 태깅을 수행하면(S250), 문장부호, 또는 문형 정보나 화행 정보에 의존하여 문말 억양을 예측하는 기존의 음성합성시스템에 비하여, 문말 억양과 가장 밀접한 상관 관계를 가지는 문장의 종결어미를 이용하여 양태 태깅이 이루어지므로, 보다 자연스러운 대화체 합성음을 생성할 수 있게 된다.
다음으로, 상기와 같은 양태 태깅이 완료되면, 상기 추출된 텍스트 데이터에 대하여 미리 설정된 화행 태깅 테이블을 기반으로 화행 태깅을 수행하는데(S260), 화행 태깅에 대하여 간략하게 설명하면 다음과 같다.
화행 태깅이란 대화에서의 발화를 그 언어적 형식이 아니라 그 이면에 나타난 화자의 발화 의도에 기반을 두어 분류하는 것으로, 상기 추출된 텍스트 데이터에서 화행을 결정해 주는 단서가 되는 정보를 추출하여 추출된 정보와 미리 설정된 화행 태깅 테이블을 기반으로 태깅하는 방법이며, 이러한 화행 태깅 방법은 이미 공지되어 있으므로 여기에서는 상세한 설명을 생략하여도 본 기술분야의 당업자에 의해 쉽게 이해될 것이다.
다음으로, 상기와 같이 화행 정보를 이용한 태깅 작업이 완료되고 나면, 상기 추출된 텍스트 데이터의 문형 정보, 즉, 서술문(statement), 가부판정 의문문(yes/no question), 의문사 의문문(wh question), 명령문(command), 청유문(proposal), 감탄문(exclamation) 인지에 따라 태깅 작업을 수행하는데(S270), 이러한 문형 태깅 방법은 상기 화행 태깅과 마찬가지로 문장에서 문형을 결정해 주는 단서가 되는 정보를 추출하여 추출된 정보와 미리 설정된 문형 태깅 테이블을 기반으로 태깅한다.
다음으로, 상기와 같은 절차를 거쳐 문말 억양 태깅, 양태 태깅, 화행 태깅 및 문형 태깅이 모두 완료되고 나면, 태깅된 텍스트 데이터를 기반으로 양태 정보, 문장 부호, 의문사의 존재여부, 문형 정보, 화행 정보 등을 파라미터로 하여 훈련데이터를 구성한다(S280).
다음으로, 상기와 같이 구성된 훈련데이터를 기반으로 통계적인 방법의 트리 기반 모델링 기법 중의 하나인 CART(Classification and Regression Tree)를 이용하여 문말 억양 예측 모델을 생성한다(S290).
즉, 상기 문말 억양 예측 모델은 문장의 양태 정보, 화행 정보, 문형 정보 등이 입력되면, 입력된 정보를 파라미터로 하여 해당 문장의 의미에 가장 부합하는 문말 억양을 예측하는데, 특히 문말 억양과 가장 밀접한 상관 관계를 가지는 문장의 종결어미에 따른 양태 정보를 이용하여 문말 억양을 예측하기 때문에, 대화체 문장의 의미에 가장 부합하는 문말 억양을 생성할 수 있다.
한편, 상기와 같은 절차를 거쳐 생성된 문말 억양 예측 모델은 본 발명에 따른 음성합성시스템에 적용되어 입력된 대화체 입력 문장에 대한 합성음 생성시 문장의 의미에 가장 부합하는 문말 억양을 생성하는데, 이하 본 발명에 따른 문말 억양 예측 방법을 기반으로 하는 음성합성 방법에 대하여 도 5를 참조하여 더 자세히 설명하면 다음과 같다.
도 5는 본 발명에 따른 문말 억양 예측 방법을 기반으로 하는 음성합성 방법을 나타낸 흐름도이다.
도 5에 도시된 바와 같은 본 발명에 따른 음성합성 방법은 도 1에 도시된 바와 같은 음성합성시스템에 의해 수행되며, 여기서, 도 1의 음성합성시스템에 대한 구체적인 설명은 중복되므로 생략하기로 하고, 기존과 달라지는 기능에 대해서는 이하의 설명 에서 구체적으로 설명하기로 한다.
우선, 일반 대화체 문장들이 본 발명에 따른 음성합성시스템으로 입력되면(S510), 먼저 이들 대화체 문장은 전처리부(110)에 의해 정규화된 후 언어처리부(120)로 전달되며, 이에 따라 언어처리부(120)에서는 형태소 분석 및 태깅을 수행한다(S520).
그 다음, 운율처리부(130)는 상기 도 4와 같이 구현된 양태 태깅 테이블(종결어미 의미분류 테이블)을 기반으로 입력 문장에 대한 양태 태깅을 수행하는데(S530), 상기에서 설명한 바와 같이 문말 억양과 가장 밀접한 상관 관계를 가지는 문장의 종결어미를 의미에 따라 분류한 양태 태깅 테이블을 기반으로 양태 태깅이 이루어지며, 양태 태깅 방법은 상기에서 설명한 바와 동일하므로 이에 대한 자세한 설명은 생략한다.
그 다음, 운율처리부(130)는 입력 문장에 대하여 화행 태깅 또는 문형 태깅을 수행하는데(S540), 상기 화행 태깅 및 문형 태깅 방법은 상기에서 설명한 바와 동일하므로 이에 대한 자세한 설명은 생략한다.
그 다음, 운율처리부(130)는 상기 양태 태깅 정보, 화행 태깅 정보 또는 문형 태깅 정보들을 상기 문말 억양 예측 모델에 적용하여 입력 문장에 대한 문말 억양 태깅을 수행하는데(S550), 도 6은 본 발명에 따른 문말 억양 예측 방법에 따라 문말 억양 태깅된 결과를 나타낸 도면이다.
도 6에 도시된 바와 같이, "학교 다녀왔습니다"의 문말 억양은 음역의 낮은 높이에서 시작하여 중간 높이까지 올라가는 억양인 LM으로, "엄마, 솜틀집이 뭐예요?"의 문말 억양은 음역의 낮은 높이에서 시작하여 가장 높은 높이로 끝나는 억양인 LH로, " 솜틀집이 뭔지 알아오는 게 숙제예요."의 문말 억양은 음역의 가운데 높이에서 시작하여 가장 낮은 높이로 끝나는 억양인 ML로 태깅된 것을 알 수 있다.
즉, 상기와 같이 문장의 종결어미에 따른 양태 정보, 화자의 발화의도를 나타내는 화행 정보 및 문형 정보를 기반으로 문말 억양 예측 모델을 생성하고, 그 생성된 문말 억양 예측 모델을 통해 입력 문장의 의미에 부합하는 문말 억양을 생성함으로써, 보다 자연스러운 대화체 음성을 구현할 수 있게 되는 것이다.
다음으로, 문말 억양 태깅이 완료된 텍스트는 합성음 생성부(140)로 보내지고, 합성음 생성부(140)는 태깅된 억양 유형에 맞게 합성음을 생성하여 출력한다(S560).
상기한 바와 같이, 본 발명에 따르면, 문말 억양과 가장 밀접한 상관 관계를 가지는 문장의 종결어미를 이용하여 문말 억양을 예측하여 생성함으로써, 문장의 의미에 가장 부합하는 문말 억양 생성이 가능하며, 이에 따라 보다 자연스러운 대화체 음성을 구현할 수 있게 된다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았으며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그 와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
상술한 바와 같이, 본 발명에 따르면, 문장부호 또는 문형 정보나 화행 정보에 의존하여 문말 억양을 예측하는 기존의 음성합성시스템에 비하여, 문말 억양과 가장 밀접한 상관 관계를 가지는 문장의 종결어미를 이용하여 문말 억양을 예측하여 생성함으로써, 대화체 문장의 의미에 가장 부합하는 문말 억양을 생성할 수 있으며, 이에 따라 보다 자연스러운 대화체 합성음을 생성할 수 있다는 효과가 있다.

Claims (8)

  1. (a) 대화체 텍스트 코퍼스로부터 종결어미 형태의 분포를 고려하여 텍스트 데이터를 추출하는 단계;
    (b) 문말 톤 타입에 따라 설정된 문말 억양 태그셋을 기반으로 상기 추출된 텍스트 데이터에 대한 문말 억양 태깅을 수행하는 단계;
    (c) 문장의 종결어미를 의미에 따라 분류한 양태 태깅 테이블을 기반으로 상기 추출된 텍스트 데이터에 대한 양태 태깅을 수행하는 단계;
    (d) 상기 추출된 텍스트 데이터에 대한 화행 태깅 및 문형 태깅을 수행하는 단계;
    (e) 상기 문말 억양 태깅, 양태 태깅, 화행 태깅 및 문형 태깅이 완료된 텍스트 데이터를 기반으로 훈련데이터를 구성하는 단계;
    (f) 상기 훈련데이터를 기반으로 통계적 방법에 의해 문말 억양 예측을 위한 문말 억양 예측 모델을 생성하는 단계; 및
    (g) 대화체 문장이 입력되면 상기 문말 억양 예측 모델을 통해 상기 대화체 문장에 대한 문말 억양을 예측하여 문말 억양 태깅을 수행하는 단계를 포함하는 것을 특징으로 하는 문말 억양 예측 방법.
  2. 제 1항에 있어서, 상기 (b) 단계는,
    상기 추출된 텍스트 데이터를 대화체 억양으로 발성한 음성을 녹음하여 음성 데 이터를 구축하는 단계;
    상기 음성 데이터의 의미와 기능을 기반으로 문말 억양 타입을 분류하는 단계; 및
    상기 문말 억양 타입 분류 결과와 상기 문말 억양 태그셋을 기반으로 상기 추출된 텍스트 데이터에 대한 문말 억양 태깅을 수행하는 단계를 포함하는 것을 특징으로 하는 문말 억양 예측 방법.
  3. 제 1항에 있어서, 상기 문말 억양 예측 모델은,
    상기 양태 태깅 정보를 기본 파라미터로 하고 상기 화행 태깅 정보 또는 상기 문형 태깅 정보를 추가 파라미터로 하여 해당 문장의 의미에 부합하는 문말 억양을 예측하여 생성하는 것을 특징으로 하는 문말 억양 예측 방법.
  4. 삭제
  5. 대화체 문장이 입력되면 상기 대화체 문장에 대한 형태소 분석 및 태깅을 수행하는 제 1 단계;
    문장의 종결어미를 의미에 따라 분류한 양태 태깅 테이블을 기반으로 상기 대화 체 문장에 대한 양태 태깅을 수행하는 제 2 단계;
    상기 대화체 문장에 대한 화행 태깅 또는 문형 태깅을 수행하는 제 3 단계;
    상기 양태 태깅 정보와 화행 태깅 정보 또는 문형 태깅 정보에 따라 문말 억양 예측 모델을 통해 상기 대화체 문장에 대한 문말 억양을 예측하여 문말 억양 태깅을 수행하는 제 4 단계; 및
    상기 대화체 문장의 태깅된 억양 유형에 맞게 합성음을 생성하여 출력하는 제 5 단계를 포함하는 것을 특징으로 하는 문말 억양 예측 방법을 기반으로 하는 음성합성 방법.
  6. 제 5항에 있어서, 상기 제 4 단계에서,
    상기 대화체 문장에 대한 문말 억양 태깅시,
    상기 양태 태깅 정보를 기본 파라미터로 하고 상기 화행 태깅 정보 또는 상기 문형 태깅 정보를 추가 파라미터로 하여 상기 문말 억양 예측 모델을 통해 상기 대화체 문장에 대한 문말 억양을 예측하는 단계를 더 포함하는 것을 특징으로 하는 문말 억양 예측 방법을 기반으로 하는 음성합성 방법.
  7. 입력된 대화체 문장에 대해 전처리를 위해 정규화를 수행하는 전처리기;
    상기 전처리 완료된 대화체 문장에 대하여 형태소 태깅과 발음 변환을 수행하는 언어처리부;
    상기 언어처리부로부터 태깅 결과를 입력받아 문장의 종결어미를 의미에 따라 분류한 양태 태깅 테이블을 기반으로 양태 태깅을 수행하고, 문말 억양 예측 모델을 통해 상기 대화체 문장에 대한 문말 억양을 예측하여 문말 억양 태깅을 수행하는 운율처리부; 및
    상기 대화체 문장의 태깅된 형태에 맞게 합성음을 생성하여 출력하는 합성음 생성부를 포함하는 것을 특징으로 하는 음성합성시스템.
  8. 제 7항에 있어서, 상기 문말 억양 예측 모델은,
    상기 양태 태깅 정보를 기본 파라미터로 하고 상기 화행 태깅 정보 또는 상기 문형 태깅 정보를 추가 파라미터로 하여 해당 문장의 의미에 부합하는 문말 억양을 예측하여 생성하는 것을 특징으로 하는 음성합성시스템.
KR1020060072502A 2006-08-01 2006-08-01 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템 KR100806287B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060072502A KR100806287B1 (ko) 2006-08-01 2006-08-01 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060072502A KR100806287B1 (ko) 2006-08-01 2006-08-01 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템

Publications (2)

Publication Number Publication Date
KR20080011859A KR20080011859A (ko) 2008-02-11
KR100806287B1 true KR100806287B1 (ko) 2008-02-22

Family

ID=39340259

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060072502A KR100806287B1 (ko) 2006-08-01 2006-08-01 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템

Country Status (1)

Country Link
KR (1) KR100806287B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012169844A2 (ko) * 2011-06-08 2012-12-13 주식회사 내일이비즈 전자책 데이터 음성 합성 장치 및 그 방법
CN113658577A (zh) * 2021-08-16 2021-11-16 腾讯音乐娱乐科技(深圳)有限公司 一种语音合成模型训练方法、音频生成方法、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149180A (ja) * 2000-11-16 2002-05-24 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法
KR20030078388A (ko) * 2002-03-29 2003-10-08 삼성전자주식회사 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법
KR20040106960A (ko) * 2003-06-10 2004-12-20 (주)얄리 자연어 기반 감정인식, 감정표현 시스템 및 그 방법
KR20050006936A (ko) * 2003-07-10 2005-01-17 한국전자통신연구원 한국어 대화체 음성합성시스템의 특정 형태에 대한 선택적운율 구현 방법
KR20050111182A (ko) * 2004-05-21 2005-11-24 삼성전자주식회사 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템
KR20060067717A (ko) * 2004-12-15 2006-06-20 한국전자통신연구원 화행 정보를 이용한 대화체 음성합성 시스템 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149180A (ja) * 2000-11-16 2002-05-24 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法
KR20030078388A (ko) * 2002-03-29 2003-10-08 삼성전자주식회사 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법
KR20040106960A (ko) * 2003-06-10 2004-12-20 (주)얄리 자연어 기반 감정인식, 감정표현 시스템 및 그 방법
KR20050006936A (ko) * 2003-07-10 2005-01-17 한국전자통신연구원 한국어 대화체 음성합성시스템의 특정 형태에 대한 선택적운율 구현 방법
KR20050111182A (ko) * 2004-05-21 2005-11-24 삼성전자주식회사 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템
KR20060067717A (ko) * 2004-12-15 2006-06-20 한국전자통신연구원 화행 정보를 이용한 대화체 음성합성 시스템 및 방법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
10-2004-106960
10-2005-111182
10-2006-67717

Also Published As

Publication number Publication date
KR20080011859A (ko) 2008-02-11

Similar Documents

Publication Publication Date Title
JP7445267B2 (ja) 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム
US11443733B2 (en) Contextual text-to-speech processing
US7502739B2 (en) Intonation generation method, speech synthesis apparatus using the method and voice server
US20160379638A1 (en) Input speech quality matching
Kuligowska et al. Speech synthesis systems: disadvantages and limitations
US11763797B2 (en) Text-to-speech (TTS) processing
GB2376394A (en) Speech synthesis apparatus and selection method
US20020184030A1 (en) Speech synthesis apparatus and method
GB2380380A (en) Speech synthesis method and apparatus
KR100835374B1 (ko) 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템
KR20230158603A (ko) 신경 텍스트-투-스피치 변환을 위한 음소 및 자소
KR100669241B1 (ko) 화행 정보를 이용한 대화체 음성합성 시스템 및 방법
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
JP2020060642A (ja) 音声合成システム、及び音声合成装置
KR101097186B1 (ko) 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법
KR100806287B1 (ko) 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템
Chen et al. A Mandarin Text-to-Speech System
Wen et al. Prosody Conversion for Emotional Mandarin Speech Synthesis Using the Tone Nucleus Model.
JP2021148942A (ja) 声質変換システムおよび声質変換方法
Sheikhan Synthesizing suprasegmental speech information using hybrid of GA-ACO and dynamic neural network
Pérez et al. ECESS inter-module interface specification for speech synthesis.
JP2001350490A (ja) テキスト音声変換装置及び方法
KR100608643B1 (ko) 음성 합성 시스템의 억양 모델링 장치 및 방법
KR20220116660A (ko) 인공지능 스피커 기능을 탑재한 텀블러 장치
Nurk Creation of HMM-based Speech Model for Estonian Text-to-Speech Synthesis.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20130205

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140123

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee