KR20100072962A - 복수의 끊어 읽기 모델을 이용한 음성 합성 장치 및 그 방법 - Google Patents
복수의 끊어 읽기 모델을 이용한 음성 합성 장치 및 그 방법 Download PDFInfo
- Publication number
- KR20100072962A KR20100072962A KR1020080131533A KR20080131533A KR20100072962A KR 20100072962 A KR20100072962 A KR 20100072962A KR 1020080131533 A KR1020080131533 A KR 1020080131533A KR 20080131533 A KR20080131533 A KR 20080131533A KR 20100072962 A KR20100072962 A KR 20100072962A
- Authority
- KR
- South Korea
- Prior art keywords
- unit
- model
- speech synthesis
- candidate
- models
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 49
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 49
- 238000012545 processing Methods 0.000 claims description 6
- 238000001308 synthesis method Methods 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 23
- 238000004364 calculation method Methods 0.000 description 7
- 239000012634 fragment Substances 0.000 description 7
- 230000033764 rhythmic process Effects 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
본 발명은 복수의 끊어 읽기 모델을 이용한 음성 합성 장치 및 그 방법에 관한 것으로서, 복수의 끊어 읽기 모델을 통하여 다양한 억양구/강세구 파편을 추출해서 매칭 과정을 수행함으로써 후보 유닛 선택의 정확도와 다양성을 제공함과 더불어 음성 합성의 신속성, 명료성 및 자연성을 증가시키고자 한다.
이를 위하여, 본 발명은, 음성합성 대상 텍스트에 대해서 복수의 끊어 읽기 모델을 결정하기 위한 모델 생성 수단; 상기 각각의 끊어 읽기 모델에 대하여 억양구(IP)/강세구(AP) 단위의 탐색을 기반으로 후보 합성단위(후보 유닛)들을 선택하기 위한 유닛 탐색 수단; 상기 후보 유닛이 선택된 각각의 끊어 읽기 모델('사전 선택 모델')에 대한 임시 최적 경로를 결정해서 상기 음성합성 대상 텍스트에 대한 최종 최적 경로를 선정하기 위한 경로 선정 수단; 및 상기 최종 최적 경로를 음성으로 합성하기 위한 음성합성 처리 수단을 포함한다.
음성합성, 억양구, 강세구, 끊어 읽기, 유닛, 사전 선택 모델
Description
본 발명은 코퍼스 기반의 고정 크기의 유닛(unit) 선택에 의한 음성 합성에 관한 것으로, 더욱 상세하게는 복수의 끊어 읽기를 통하여 다양한 억양구/강세구 파편(pattern)을 추출해서 매칭 과정을 수행함으로써 후보 유닛 선택의 정확도와 다양성을 제공함과 더불어 합성 음성의 명료성과 자연성을 증가시킬 수 있는, 복수의 끊어 읽기 모델을 이용한 음성 합성 장치 및 그 방법에 관한 것이다.
일반적으로 코퍼스(Corpus) 기반 음성합성 시스템은 구축된 음성 데이터베이스(DB)(코퍼스)로부터 합성 대상 텍스트에 적합한 합성 단위들을 가져와 연쇄적으로 붙여가면서 합성하는 방식이다. 여기서, 합성단위(이하, 간단히 '유닛(Unit)'이라 한다)는 음소, 반음소, 다이폰, 트라이폰(Tri-phone) 등이 사용된다.
인간이 텍스트를 읽어 발성할 때는 텍스트 자체의 발음열과 음가 이외에 끊어 읽기(Break Index), 길이, 세기, 피치 등의 운율이라는 부가적인 정보를 추가하 게 된다. 이 중에서 가장 추측이 어렵고 합성음의 자연성에 영향을 주는 것은 끊어 읽기 정보이다.
끊어 읽기 정보, 즉, 운율 경계를 기계가 자동으로 추정하기 위한 입력 정보에는 텍스트를 분석하여 나온 문법정보와 실제 음성 데이터의 분석에 의한 음성정보가 있다. 음성합성에서는 입력정보가 텍스트만으로 구성되기 때문에 주로 텍스트 기반의 문법정보를 이용한다.
일반적으로 끊어 읽기를 예측하기 위한 방법으로는 HMM(Hidden Markov Model), 분류회기트리(CART: Classification And Regression Tree) 등이 있다. 운율 경계 추정을 위해, 언어처리부는 단어의 품사, 어절의 길이, 문장의 어절 위치, 구문분석 정보와 운율정보, 음운정보 등의 언어정보를 이용하여 통계적으로 어절간의 경계강도를 추정한다.
한국어 운율 표기 규약인 K-ToBI(Korean Tone and Break Indices)에 의하면, 경계강도를 어절의 경계가 전혀 없을 때(NB: None Break), 어절에 약한 경계(Accentual Phrase)(AP 강세구)가 있을 때, 어절에 휴지기(Intonational Phrase)(IP 억양구)가 있을 때의 3가지로 나눈다.
운율 경계 추정은 주어진 텍스트의 어절 순서 와 언어정보 를 이용하여 경계 순서 을 구하는 작업이다. 여기서, li는 0, 1, 2 중 하나의 값을 가지게 되며, 경계 순서는 다음의 [수학식 1]과 같다.
종래의 기술에 따른 끊어 읽기의 방법으로는 한국 공개특허 제10-2007-0049753호에 기재된 "음성합성을 위한 끊어 읽기 장치 및 방법"이 있는데, 이는 N개의 끊어 읽기 패턴을 구하여 화자종속 끊어 읽기 DB로부터 최적의 결과를 재산정하는 방식이다.
즉, 텍스트 구조의 문장 분석 단계를 거쳐 화자 독립 통계 모델로부터 1차적으로 끊어 읽기를 수행하여 다수개의 결과를 내고 화자 종속 모델로부터 2차적으로 화자 종속의 발성패턴과 유사한 1개를 선택하는 것이다.
상기와 같은 종래의 기술은 비록 다수(N)개의 끊어 읽기 결과를 이용할지라도, 화자의 끊어 읽기 패턴과 언어습관, 호흡 등은 일관되거나 규칙적이지 않은 경우가 많고, 데이터 부족으로 인해 화자종속 모델 DB는 오탐색 및 탐색 실패 가능성이 높다. 또한 후보로 채택된 유닛들 사이에서 연쇄 비용(concatenation cost)을 구하는 과정에서 화자의 발성패턴을 모방하는 효과는 어느 정도 기대할 수 있으므로 차별적인 성능향상은 기대하기 어렵다.
특히, 연쇄 비용을 구할 때 DB에 저장된 모든 유닛을 대상으로 하면, 조합 확률이 높아져서 보다 풍부한 발음 변이를 수용할 수는 있지만, 최적 경로 산출시 의 계산량이 증가하기 때문에 전체 후보들 중에서 N개 후보만을 선별하여 다음 경로 선택 과정에 사용한다. 따라서 사전(事前)에 최적의 후보를 가려내기 위한 최선의 선택을 하는 것이 합성음 품질에 결정적 역할을 하게 된다.
사전 선택 작업시 유닛 경계가 뚜렷이 나누어지는 억양구나 강세구는 경계 사이의 휴지 구간이 존재하여 독립적이고 경계 간섭이 적다. 따라서 이러한 단위로부터 가급적 연속된 음소열을 DB로부터 가져 오는 것이 바람직하다.
상기와 같은 문제를 해결하기 위한 종래의 기술로는 한국공개특허 제10-2008-0015235호에 기재된 "악센트구 매칭 사전선택을 이용한 일본어음성합성방법 및 시스템"이란 기술이 있는데, 이는 억양구/강세구 단위를 DB에서 탐색하여 유닛을 사전 선택하고, 탐색결과 해당 유닛이 없을 경우에는 부분적으로 일치하는지에 대한 스코어를 계산하여 유닛 후보를 선택하는 방식이다.
형태소 분석 오류, 운율 예측 실패 등으로 억양구와 강세구가 항상 올바르게 추정된다고 할 수 없기 때문에, 만약 억양구/강세구가 올바르게 추정된다고 가정하고 단일 결과 또는 부정확한 결과로 매칭을 시도하면 DB 탐색에서 다수의 부적합한 유닛이 다수 선택되어 결국 부자연스러운 합성음을 생성하게 된다.
억양구/강세구 단위의 매칭방법이 실패하였을 경우 유닛이 부분적으로 일치되는지에 대한 매칭 스코어를 구하여 후보유닛을 선택하는데, 이 역시 끊어 읽기 가정으로부터 자유로울 수 없으며 부분 탐색횟수와 정렬 등의 계산량 증가로 인하여 속도 저하를 불러올 수 있다는 문제가 있다.
따라서, 본 발명은 상기와 같은 종래기술의 문제점을 해결하고, 복수의 끊어 읽기 모델을 통하여 다양한 억양구/강세구 파편(pattern)을 추출해서 매칭 과정을 수행함으로써 후보 유닛 선택의 정확도와 다양성을 제공함과 더불어 음성 합성의 신속성, 명료성 및 자연성을 증가시킬 수 있는, 복수의 끊어 읽기 모델을 이용한 음성 합성 장치 및 그 방법을 제공하는데 그 목적이 있다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
본 발명은 상기와 같은 목적을 해결하기 위하여, N개의 끊어 읽기 결과로부터 다수의 억양구/강세구를 도출하고 억양구/강세구 DB에 저장된 패턴과 일치하는 유닛을 우선적으로 사전 선택하고, 이로부터 N개의 잠재적 최적 음소열을 구하여 최종 한 개 또는 N개의 끊어 읽기가 서로 다른 음성을 합성하는 것을 특징으로 한다.
더욱 구체적으로 본 발명은, 음성합성 대상 텍스트에 대해서 복수의 끊어 읽 기 모델을 결정하기 위한 모델 생성 수단; 상기 각각의 끊어 읽기 모델에 대하여 억양구(IP)/강세구(AP) 단위의 탐색을 기반으로 후보 합성단위(후보 유닛)들을 선택하기 위한 유닛 탐색 수단; 상기 후보 유닛이 선택된 각각의 끊어 읽기 모델('사전 선택 모델')에 대한 임시 최적 경로를 결정해서 상기 음성합성 대상 텍스트에 대한 최종 최적 경로를 선정하기 위한 경로 선정 수단; 및 상기 최종 최적 경로를 음성으로 합성하기 위한 음성합성 처리 수단을 포함한다.
또한, 본 발명은, 복수의 끊어 읽기 모델을 이용한 음성 합성 방법에 있어서, 음성합성 대상 텍스트에 대해서 복수의 끊어 읽기 모델을 결정하는 단계; 상기 각각의 끊어 읽기 모델에 대하여 억양구(IP)/강세구(AP) 단위의 탐색을 기반으로 후보 유닛을 선택하는 단계; 상기 후보 유닛이 선택된 각각의 끊어 읽기 모델('사전 선택 모델')에 대하여 임시 최적 경로를 결정하는 단계; 및 상기 사전 선택 모델 각각에 대하여 결정된 임시 최적 경로들 중에서 최종 최적 경로를 선정하여 음성 합성하는 단계를 포함한다.
상기와 같은 본 발명은, 다수 후보의 끊어 읽기 결과를 이용함으로써 끊어 읽기 성능의 정확성을 높이고 유닛 선택의 다양성/정확도/신속성을 제공하는 효과가 있다.
또한, 본 발명은, 사전에 유닛 후보를 선택하는 경우 각 음소열에 대한 억양구/강세구 단위의 매칭을 통하여 적절한 후보 유닛이 가급적 많이 선택되게 함으로 써, 최적 경로 계산의 속도와 효율을 높일 수 있을 뿐만 아니라 동시에 합성음의 품질을 개선하고 다양한 끊어 읽기 방법에 따른 다양한 합성음을 출력하는 효과가 있다.
또한, 본 발명은, 끊어 읽기 단위인 억양구/강세구 음소열에 대한 유닛열이 저장된 DB를 이용하여 합성단위 선정시 기 등록된 어구들에 대해서는 선택된 유닛열에 대한 일련의 녹음 원음을 재생할 수 있게 함으로써 합성 음성의 명료성과 자연성을 증가시키는 효과가 있다.
본 발명은 서버-클라이언트 환경에서 트라이폰 단위의 유닛(음성합성 단위)을 검색하고 적절한 유닛을 결정하여 그에 해당하는 음성 파형을 음성DB로부터 가져와 음성신호를 생성하는 것이다.
즉, 본 발명은, 입력받은 텍스트에 대하여 N개의 끊어 읽기 모델이 도출되면 억양구/강세구 단위의 부분 트라이폰 음소열을 DB에서 탐색하여 후보 유닛을 결정하고, 탐색되지 아니한 트라이폰은 기존의 유닛에 대한 타겟 비용을 구하는 방식으로 복수 후보를 선정하며, 이러한 과정을 통하여 획득된 N개의 사전(事前) 선택 모델 각각에 대하여 비터비(Viterbi) 계산으로 임시 최적 경로를 구한 다음, N개의 경로에 대하여 스코어 별로 재산정(reranking)하여 단일한 최적 경로를 최종 선택하여 음성합성하는 것을 특징으로 한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.
도 1은 본 발명에 따른 복수의 끊어 읽기 모델을 이용한 음성 합성 장치의 일실시예 구성도로서, 억양구와 강세구를 이용한 음성합성을 나타낸다.
본 발명은 분류회기 트리(CART)와 같은 통계적 기법을 통해 N개의 운율정보를 추정하여 N개의 끊어 읽기 모델을 획득하고, 그 획득된 끊어 읽기 모델에 근거하여 억양구/강세구 파편을 추출해 강세구/억양구 DB와의 매칭 과정을 통하여 적절한 유닛후보를 선택한 후, 그 선택된 유닛 후보들간의 연쇄 비용을 계산하여 N개 임시 최적 경로를 선택한 뒤에 최대 확률값을 갖는 1개 또는 복수의 경로(최종 최적 경로)를 출력하는 것이다.
본 발명에 따른 음성 합성 장치는, 도 1에 도시된 바와 같이, 언어 처리부(10), 운율 생성부(11), 유닛탐색 및 경로선정부(12), 음성합성 처리부(13), 데이터 베이스(14 내지 17)를 포함하여 이루어지는 것으로서, 한국어 텍스트를 입력받아 언어처리, 운율생성, 유닛탐색 및 경로선정, 음성합성 등의 4가지 과정을 수행한다.
여기서, 언어 처리부(10) 및 운율 생성부(11)는 음성합성 대상 텍스트에 대 해서 복수의 끊어 읽기 모델을 결정하는 것인 바, 이들을 묶어서 "끊어읽기모델 생성부" 또는 간단히, "모델 생성부"라 할 수 있다.
그리고, 데이터 베이스(14 내지 17)에는 사전 녹음된 음성 DB(17)로부터 운율분석과 학습을 거쳐 생성된 운율 DB(14), 억양구/강세구 파편(pattern)과 일련의 유닛 인덱스의 쌍으로 구성되는 억양구/강세구 DB(15), 유닛 DB(16) 및 음성 DB(17) 등이 포함된다.
이하, 본 발명에 따른 음성 합성 장치의 구성요소 각각에 대하여 설명하기로 한다.
언어 처리부(10)는 텍스트를 입력받아 형태소 분석과 품사를 결정하는 품사태깅(101) 과정과, 여기에 구문분석 결과를 더해 음운 변동을 생성하는 발음열 추출 과정(102) 과정을 수행한다. 즉, 언어 처리부(10)는 입력 텍스트의 형태소 분석 및 구문분석을 시도하고 음운변동에 의해 발음열로 변환한 후에 그 결과를 운율 생성부(11)에 전달한다.
운율 생성부(11)는 언어 처리부(10)의 입력을 받아 음소별 길이(지속시간), 세기, 끊어 읽기, 피치 등 포함하는 운율정보를 각 음소마다 생성한다. 즉, 운율 생성부(11)는 발음열을 트라이폰 음소열로 바꾸어 주는 자소열-발음 변환(G2P 변환: Grapheme-to-Phoneme Conversion)을 한 후(111), 운율 DB(14)로부터 대상 트라이폰 음소열에 대한 운율 정보를 추정하여 N개의 끊어 읽기 모델을 추출한다(112).
유닛탐색 및 경로 선정부(12)는 N개 끊어 읽기 모델 각각에 대하여 유닛 후보(사전 선택 모델)를 탐색(획득)한 후, 각각에 대하여 임시 최적 경로를 결정한 다음에 최종의 최적 경로를 선정하는 것으로서, 이에 대하여 상세히 설명하면 다음과 같다. 실시예에 따라서, 도 2에서의 유닛탐색 및 경로선정부(12)는 유닛 탐색부와 경로 선정부로 구분될 수도 있다.
먼저, 유닛탐색 및 경로 선정부(12)는 각각의 끊어 읽기 모델에 대하여 억양구/강세구 단위 탐색을 기반으로 후보 유닛열(단일화된 후보유닛열)을 획득하며, 이 과정에서 억양구/강세구 매칭이 이루어지지 않은 억양구/강세구 후보에 대해서는 유닛 DB(16)로부터 '타겟 비용이 적은 상위 M개의 유닛 후보'를 검색하여 보충한다(121). 이러한 과정을 통하여 각각의 끊어 읽기 모델은 후보 유닛이 사전(事前)에 선택되게 된다. 즉, 각각의 끊어 읽기 모델에 대하여 후보 유닛의 범위가 사전에 한정된다는 것이다. 그리고, 여기서, 타겟 비용(Target Cost)은 각 유닛의 특징이 목표치(목표된 단위의 길이, 세기, 및 피치) 등과 얼마나 유사한지를 측정하는 척도이다.
이하, 후보 유닛 집합(후보 유닛군)이 사전(事前)에 선택된 끊어 읽기 모델을 간단히 '사전 선택 모델'이라 하기로 한다.
부연 설명하면, 억양구/강세구 단위 탐색은 끊어 읽기 모델에 대하여 억양구/강세구 파편이 저장된 억양구/강세구 DB(15)로부터 억양구/강세구 매칭을 통해 '단일화된 유닛 후보열'을 찾는 과정이다(201 내지 205). 이러한 억양구/강세구 단위 탐색을 통하여 '단일화된 유닛 후보열'을 찾지 못한 경우에는 각 음소열에 대하여 유닛 DB(16)로부터 매칭되는 유닛 후보를 찾게 된다(도 2의 "206", "207").
다음으로, 유닛탐색 및 경로 선정부(12)는 각각의 사전 선택 모델에 대하여 비터비 탐색을 통해 최적 경로(임시 최적 경로)를 결정한 후(122), 그 결정된 사전 선택 모델별 임시 최적경로 중에서 최종 최적 경로를 선정한다(123). 이러한 과정을 통하여, 최종적으로, 최적의 합성단위(유닛) 열(최적 유닛 경로)이 결정된다. 실시예에 따라서, 최적 경로는 복수 개가 결정될 수도 있다.
한편, 음성합성처리부(13)는 최종 선택된 유닛 경로(최종 최적 경로)를 가지고 음성 DB(17)로부터 음성파형을 생성(131)하여 합성음을 출력한다.
도 2는 본 발명에 따른 음성합성을 위한 유닛 선정 방법에 대한 일실시예 흐름도로서, 도 1의 유닛탐색 및 경로선정부(12)에서 억양구/강세구 단위 탐색을 이용하여 N개의 사전 선택모델을 획득(탐색)하는 과정(121)을 나타낸다.
음성합성 단위(unit)(이하, 간단히 '유닛'이라 한다)로는 음소, 반음소, 다이폰, 트라이폰(Tri-phone) 등이 사용될 수 있는데, 본 발명에서는 조음현상과 연결성이 유리한 트라이폰을 예로 들어 설명하기로 한다. 따라서 이후 등장하는 음소는 대표적으로 트라이폰을 지칭하는 것으로 한다. 여기서, 본 발명이 반드시 트라이폰에 한정되지 않음은 당연하다.
트라이폰 합성단위는 음소와 전후에 있는 음소의 음운환경을 고려한 고정크기의 단위이다. 예를 들어, "안녕하세요, 누리마트입니다."라는 문장을 예로 들면, 다음의 음운열로 나타낼 수 있다.
#ㅏㄴㄴㅕㅇㅎㅏㅅㅔㅛㄴㅜㄹㅣㅁㅏㅌㅡㅣㅁㄴㅣㄷㅏ#
여기서, "#"은 음운이 없음을 나타내는 휴지구간에 해당된다. 각 음소는 전 후의 두 개 음소에 영향을 받게 되기 때문에, 세 음소를 하나의 단위로 간주하여 연결부의 음운현상을 부드럽고 자연스럽게 연결되는 조음현상이 반영되도록 단위를 선정한다.
이러한 음운열은 끊어 읽기 추정에 의해 억양구나 강세구 경계가 추가되어, 다음과 같이 음소사이에 경계강세표기가 삽입되는데, 끊어 읽기란 다름아닌 트라이폰 음소열을 "#", "*"로 분할하는 과정이다.
#ㅏㄴㄴㅕㅇㅎㅏㅅㅔㅛ#ㄴㅜㄹㅣ*ㅁㅏㅌㅡㅣㅁㄴㅣㄷㅏ#
트라이폰 음소열에는 기존 음소 이외에 "#", "*"가 삽입된 형태가 된다. "*"는 강세구 경계로서 약한 휴지구간을 뜻하고, 중간에 놓인 "#"는 억양구 사이에 놓인 강한 휴지구간이 된다.
이처럼 억양구와 강세구의 경계를 표시하는 구분 기호가 트라이폰 음소에 추가됨에 따라 끊어 읽기 결과에 따라 음소열 자체가 달라지게 된다. 끊어 읽기 결과에 따라 상기 트라이폰 음소열이 결정되면, 그 결정된 트라이폰 음소열에 대하여 유닛 DB(16)에서 적정 후보들을 찾아 모아야 한다.
강세구와 억양구 경계지점에서 나타나는 음소열에 오류가 생길 가능성이 높고, 이로 인하여 잘못된 유닛열이 선택될 확률이 있으므로 결과적으로 부자연스런 합성음을 출력하는 원인이 된다. 따라서, 끊어 읽기 성능이 큰 변수로 작용함에도 불구하고, 입력 텍스트 오류, 형태소 분석 오류, 통계모델의 예측 실패 등으로 인하여 끊어 읽기 성능은 그다지 높지 않다.
경우에 따라서는 인지적으로 두 개 이상의 끊어 읽기가 가능한 경우도 있다. 따라서 확률이 높은 순으로 단 한 개가 아닌 복수 개의 끊어 읽기 결과를 이용하면 적절한 유닛이 더 많이 선택되므로, 꼭 필요한 유닛이 제외되는 것을 피할 수 있다. 또한, 마찬가지로 이 과정에서 잉여 또는 부적절 유닛들이 얻어질 수도 있지만, 이들은 이후의 연쇄 비용 계산 및 최적 경로 선정 과정에서 제거된다.
이하, 도 2를 참조하여 음성합성을 위한 유닛 선정방식을 상세히 설명하기로 한다.
입력 텍스트에 대한 발음열 결과가, 운율 생성부(11)에서 운율과 끊어 읽기 결과에 더하여 지면, 대상 트라이폰 음소열과 N개의 끊어 읽기 결과가 얻어진다.
적절한 유닛후보들을 사전에 선택하기 위해, 끊어 읽기 모델에 따라 해당 억양구/강세구 후보 파편들을 모두 추출한다(200).
여기서, 억양구(IP)는 강세구(AP)의 상위 개념이고, 강세구는 억양구의 진부분집합이다. 따라서 억양구 단위의 매칭 여부부터 조사하여(201) 억양구 단위의 매칭이 성공하면(202) 억양구/강세구 DB(15)에 저장된 억양구 음소열(단일화된 유닛 후보열)의 후보 인덱스 리스트를 가져온다(203).
만약, 억양구 단위의 매칭이 실패하면(202), 억양구를 구성하고 있는 강세구들에 대해 매칭 여부를 조사하여(204) 성공하면 억양구/강세구 DB(15)에 저장된 강세구 음소열(단일화된 유닛 후보열)의 인덱스 리스트를 가져온다(203). 강세구 음소열의 경계는 억양구보다 약하므로 2 이상의 강세구 후보를 취하여 연쇄 비용을 구하는 과정에서 하나를 선택할 수도 있다.
만약, 강세구들에 대해서도 매칭이 실패하면(205), 각 유닛단위 음소열(트라 이폰 음소열)별로 후보 유닛을 결정하는데, 이때 타겟 비용(Target Cost)를 구하는 종래의 방식대로(206) 타깃 비용이 적은 상위 M개 유닛 후보를 정렬하여 구한다(207). 이로 인하여 각각의 유닛단위 음소열 별로 상위 M개 유닛 후보가 선택되게 된다.
상기와 같은 과정을 통하여, 각 음소열에 대하여 채택된 후보군(억양구/강세구 매칭에 의하여 선택된 '단일화된 유닛 후보열'과, 억양구/강세구 매칭 실패로 인하여 유닛단위 음소열별로 구한 상위 후보 유닛들)이 도출되면(208), N개 끊어 읽기 모델 각각에 대해서는 각 유닛 음소열별로 후보가 모인다. 이때, 억양구와 강세구 매칭 여부에 따라 선택된 각 유닛 음소열에 대한 후보 유닛 개수는 서로 다를 수 있다.
도 3은 본 발명에 따른 N개 사전 선택 모델에 대하여 최적 경로를 선정하는 방법에 대한 일실시예 흐름도로서, 도 1의 유닛탐색 및 경로 선정부(12)가 수행하는 최종 최적 경로 선정 과정(123)을 나타낸다.
N개의 사전 선택 모델 각각에 대하여 연쇄 비용(Concatenation Cost)을 계산하고(300), 각각의 사전 선택 모델에 대하여 해당 연쇄 비용을 이용해서 비터비 탐색을 수행함으로써(301) 각각의 사전 선택 모델에 대하여 개별적으로 최적 경로를 결정한다. 여기서의 최적 경로는 최종적인 것이 아니므로, '임시 최적 경로'라 칭하기로 한다. 그리고, 연쇄 비용이란 두 합성단위가 얼마나 부드럽게 이어지는지를 측정하는 척도로서, 주로 두 단어 간의 세기와 피치 그리고 스펙트럼의 차이 등이 사용된다.
다음으로, 유닛탐색 및 경로 선정부(12)는 임시 최적 경로들을 확률순으로 순위를 재산정(Reranking) 한 후(즉, 확률값에 따라 재정렬한 후)(303), 그 재산정된 순위에 따라 최종적으로 최적 경로(최종 최적 경로)를 선정한다(123). 실시예에 따라서는 복수 개의 최적 경로를 선정해서 음성 합성에 이용할 수도 있는데, 이는 끊어 읽기 성능, 훈련 DB의 용량이나 계산량에 따라 변화 가능하다.
도 4 는 본 발명에 따른 N개 끊어 읽기 모델에 따라 유닛 후보가 선택되는 방법에 대한 일실시예 설명도이다.
예를 들어, "안녕하세요, 누리마트입니다."(40)라는 텍스트를 합성하고자 할 때 운율분석 결과 2개의 유력한 끊어 읽기 모델(41, 42)이 도출되었다고 하자.
끊어 읽기 모델(41, 42)로부터 억양구/강세구 파편들(411 내지 414, 421 내지 424)이 얻어지며 DB 탐색과 타겟 비용 계산을 통해 음소의 후보들이 결정된다. 이때, 억양구/강세구 파편들은 끊어 읽기 모델 사이에서 공유가 가능하다. 예컨대, 끊어 읽기 모델 1(41)의 IP1(411)과 끊어 읽기 모델 2(42)의 AP1(422)은 채택되는 트라이폰 열이 유사하므로 채택되는 후보들을 공유할 수 있다.
먼저, 끊어 읽기 모델 1(41)에 대하여 설명하기로 한다.
끊어 읽기 모델 1(41)에 대한 억양구 단위 매칭 결과, IP1(411)에 대해서는 모든 음소열이 일치하는 후보(4110)가 억양구/강세구 DB(15)에 존재하고, IP2(412)에 대해서는 모든 음소열이 일치하는 후보가 존재하지 않는 경우, IP1(411)에 대해 서는 해당 후보(4110)만을 선택하면 된다. 도 4의 "4110"에서 Unit(1, 1) 등은 해당 유닛의 인덱스를 나타낸다.
하지만, 억양구 매칭에 실패한 IP2(412)에 대해서는 강세구 매칭을 수행한다. 즉, AP1(413)/AP2(414)과 모든 음소열이 일치하는 후보가 억양구/강세구 DB(15)에 있는지를 확인하여, 강세구가 매칭되는 후보가 있으면 이들을 후보로 선택한다. 도 4에서 AP2(414)에 대한 강세구 매칭 결과, 모든 음소열이 일치하는 후보가 존재하지 않는 바, 유닛 단위의 타켓 비용을 계산하여 상위 M개를 정렬하여 선택하게 된다(206, 207 참조). 이러한 과정을 통하여 선택된 후보가 "4140"이고, 사전에 제외된 후보 유닛은 "4141"이다.
특히, AP2(414)와 관련해서는, "ㅁ", "ㅏ", "ㅌ", "ㅡ", "ㅣ", "ㅁ", "ㄴ", "ㅣ", "ㄷ", "ㅏ" 에 해당하는 음소열의 다양한 변이를 유닛 DB(16)에서 찾아 나열하는데, 이때 타겟 비용을 이용하여 상위 M개의 유닛 후보로 제한되는데, 이것이 바로 "4140"이고, 타겟 비용을 통하여 제외된 것이 "4141"이다.
정리하면, 끊어 읽기 모델 1(41)에 대한 사전 선택 모델은 "4110", "4140" 등이 포함되어 이루어진다.
다음은, 끊어 읽기 모델 2(42)에 대하여 설명하기로 한다.
억양구 매칭 결과 IP1(421)에 대하여 매칭되는 후보가 없기 때문에, IP1(421)으로부터 추출되는 강세구 AP1(422), AP2(423), AP3(424)에 대하여 강세구 매칭을 수행한다. 그 결과, AP1(422)에 대해서는 매칭되는 후보 유닛열이 없고(4220, 4221), AP3(424)에 대해서는 매칭되는 후보 유닛열(4240)이 존재하는 경 우이다.
상기와 같은 과정을 통하여 끊어 읽기 모델 1, 2(41, 42)에 대하여 사전 선택 모델이 결정되면, 각각의 사전 선택 모델에 대하여 해당 임시 최적 경로를 결정하는 과정을 수행한다(122).
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.
한편, 전술한 바와 같은 본 발명의 방법은 컴퓨터 프로그램으로 작성이 가능하다. 그리고 상기 프로그램을 구성하는 코드 및 코드 세그먼트는 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 상기 작성된 프로그램은 컴퓨터가 읽을 수 있는 기록매체(정보저장매체)에 저장되고, 컴퓨터에 의하여 판독되고 실행됨으로써 본 발명의 방법을 구현한다. 그리고 상기 기록매체는 컴퓨터가 판독할 수 있는 모든 형태의 기록매체를 포함한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
도 1은 본 발명에 따른 복수의 끊어 읽기 모델을 이용한 음성 합성 장치의 일실시예 구성도,
도 2는 본 발명에 따른 음성합성을 위한 유닛 선정 방법에 대한 일실시예 흐름도,
도 3은 본 발명에 따른 N개 사전 선택 모델에 대하여 최적 경로를 선정하는 방법에 대한 일실시예 흐름도,
도 4 는 본 발명에 따른 N개 끊어 읽기 모델에 따라 유닛 후보가 선택되는 방법에 대한 일실시예 설명도이다.
* 도면의 주요부분에 대한 부호 설명
10: 언어 처리부 11: 운율 생성부
12: 유닛탐색 및 경로선정부 13: 음성합성 처리부
14: 운율 DB 15: 억양구/강세구 DB
16: 유닛(Unit) DB 17: 음성 DB
Claims (15)
- 복수의 끊어 읽기 모델을 이용한 음성 합성 장치에 있어서,음성합성 대상 텍스트에 대해서 복수의 끊어 읽기 모델을 결정하기 위한 모델 생성 수단;상기 각각의 끊어 읽기 모델에 대하여 억양구(IP)/강세구(AP) 단위의 탐색을 기반으로 후보 합성단위(후보 유닛)들을 선택하기 위한 유닛 탐색 수단;상기 후보 유닛이 선택된 각각의 끊어 읽기 모델('사전 선택 모델')에 대한 임시 최적 경로를 결정해서 상기 음성합성 대상 텍스트에 대한 최종 최적 경로를 선정하기 위한 경로 선정 수단; 및상기 최종 최적 경로를 음성으로 합성하기 위한 음성합성 처리 수단을 포함하는 음성 합성 장치.
- 제 1 항에 있어서,상기 모델 생성 수단은,상기 음성합성 대상 텍스트에 대한 운율 분석에 기초하여 상기 끊어읽기 모델을 결정하는 음성 합성 장치.
- 제 1 항에 있어서,상기 유닛 탐색 수단은,상기 각각의 끊어 읽기 모델에 대해 억양구(IP) 단위 매칭과 강세구(AP) 단위 매칭을 수행하되, 매칭이 실패한 강세구(AP)에 대해서는 유닛단위 음소열 별로 유닛 후보를 선택하는 음성 합성 장치.
- 제 3 항에 있어서,상기 유닛 탐색 수단은,상기 억양구(IP) 단위 매칭 및 강세구(AP) 단위 매칭은 억양구/강세구 데이터베이스를 이용하여 수행하는 음성 합성 장치.
- 제 3 항에 있어서,상기 유닛 탐색 수단은,상기 매칭이 실패한 강세구(AP)에 대하여 유닛단위 음소별로 유닛 후보를 선택함에 있어서, 유닛 단위의 타겟 비용에 기초하여 복수의 상위 유닛 후보를 선택하는 음성 합성 장치.
- 제 1 항에 있어서,상기 유닛은,트라이 폰(Tri-phone) 단위인 것을 특징으로 하는 음성 합성 장치.
- 제 1 항에 있어서,상기 경로 선정 수단은,상기 사전 선택 모델 각각에 대해, 해당 연쇄 비용을 이용한 비터비 탐색을 통하여 임시 최적 경로를 결정하는 음성 합성 장치.
- 제 7 항에 있어서,상기 경로 선정 수단은,상기 사전 선택 모델 각각에 대하여 결정된 임시 최적 경로를 확률순으로 재정렬하여 최종 최적 경로를 선정하는 음성 합성 장치.
- 복수의 끊어 읽기 모델을 이용한 음성 합성 방법에 있어서,음성합성 대상 텍스트에 대해서 복수의 끊어 읽기 모델을 결정하는 단계;상기 각각의 끊어 읽기 모델에 대하여 억양구(IP)/강세구(AP) 단위의 탐색을 기반으로 후보 유닛을 선택하는 단계;상기 후보 유닛이 선택된 각각의 끊어 읽기 모델('사전 선택 모델')에 대하여 임시 최적 경로를 결정하는 단계; 및상기 사전 선택 모델 각각에 대하여 결정된 임시 최적 경로들 중에서 최종 최적 경로를 선정하여 음성 합성하는 단계를 포함하는 음성 합성 방법.
- 제 9 항에 있어서,상기 끊어읽기 모델 결정 단계는,상기 음성합성 대상 텍스트에 대한 운율 분석에 기초하여 상기 끊어읽기 모델을 결정하는 음성 합성 방법.
- 제 9 항에 있어서,상기 유닛 탐색 수단은,상기 각각의 끊어 읽기 모델에 대해 억양구(IP) 단위 매칭과 강세구(AP) 단위 매칭을 수행하되, 매칭이 실패한 강세구(AP)에 대해서는 유닛단위 음소열 별로 유닛 후보를 선택하는 음성 합성 방법.
- 제 11 항에 있어서,상기 유닛 탐색 수단은,상기 매칭이 실패한 강세구(AP)에 대하여 유닛단위 음소별로 유닛 후보를 선택함에 있어서, 유닛 단위의 타겟 비용에 기초하여 복수의 상위 유닛 후보를 선택하는 음성 합성 방법.
- 제 9 항에 있어서,상기 유닛은,트라이 폰(Tri-phone) 단위인 것을 특징으로 하는 음성 합성 방법.
- 제 9 항에 있어서,상기 경로 선정 수단은,상기 사전 선택 모델 각각에 대해, 해당 연쇄 비용을 이용한 비터비 탐색을 통하여 임시 최적 경로를 결정하는 음성 합성 방법.
- 제 14 항에 있어서,상기 경로 선정 수단은,상기 사전 선택 모델 각각에 대하여 결정된 임시 최적 경로를 확률순으로 재정렬하여 최종 최적 경로를 선정하는 음성 합성 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080131533A KR20100072962A (ko) | 2008-12-22 | 2008-12-22 | 복수의 끊어 읽기 모델을 이용한 음성 합성 장치 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080131533A KR20100072962A (ko) | 2008-12-22 | 2008-12-22 | 복수의 끊어 읽기 모델을 이용한 음성 합성 장치 및 그 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20100072962A true KR20100072962A (ko) | 2010-07-01 |
Family
ID=42636032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080131533A KR20100072962A (ko) | 2008-12-22 | 2008-12-22 | 복수의 끊어 읽기 모델을 이용한 음성 합성 장치 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20100072962A (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9368104B2 (en) | 2012-04-30 | 2016-06-14 | Src, Inc. | System and method for synthesizing human speech using multiple speakers and context |
WO2020230924A1 (ko) * | 2019-05-15 | 2020-11-19 | 엘지전자 주식회사 | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체 |
-
2008
- 2008-12-22 KR KR1020080131533A patent/KR20100072962A/ko not_active Application Discontinuation
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9368104B2 (en) | 2012-04-30 | 2016-06-14 | Src, Inc. | System and method for synthesizing human speech using multiple speakers and context |
WO2020230924A1 (ko) * | 2019-05-15 | 2020-11-19 | 엘지전자 주식회사 | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체 |
US11227578B2 (en) | 2019-05-15 | 2022-01-18 | Lg Electronics Inc. | Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Taylor | Concept-to-speech synthesis by phonological structure matching | |
US6173263B1 (en) | Method and system for performing concatenative speech synthesis using half-phonemes | |
US7124083B2 (en) | Method and system for preselection of suitable units for concatenative speech | |
US6505158B1 (en) | Synthesis-based pre-selection of suitable units for concatenative speech | |
US7454343B2 (en) | Speech synthesizer, speech synthesizing method, and program | |
WO2004070701A2 (en) | Linguistic prosodic model-based text to speech | |
US9798653B1 (en) | Methods, apparatus and data structure for cross-language speech adaptation | |
US9129596B2 (en) | Apparatus and method for creating dictionary for speech synthesis utilizing a display to aid in assessing synthesis quality | |
Bettayeb et al. | Speech synthesis system for the holy quran recitation. | |
CN1787072B (zh) | 基于韵律模型和参数选音的语音合成方法 | |
Chu et al. | A concatenative Mandarin TTS system without prosody model and prosody modification. | |
JP3050832B2 (ja) | 自然発話音声波形信号接続型音声合成装置 | |
KR20100085433A (ko) | 다중 목표운율 이용한 고음질 음성합성 방법 | |
Abdelmalek et al. | High quality Arabic text-to-speech synthesis using unit selection | |
KR20100072962A (ko) | 복수의 끊어 읽기 모델을 이용한 음성 합성 장치 및 그 방법 | |
KR100259777B1 (ko) | 텍스트/음성변환기에서의최적합성단위열선정방법 | |
Phan et al. | Improvement of naturalness for an HMM-based Vietnamese speech synthesis using the prosodic information | |
KR100811226B1 (ko) | 악센트구 매칭 사전선택을 이용한 일본어음성합성방법 및시스템 | |
JP2004177551A (ja) | 音声認識用未知発話検出装置及び音声認識装置 | |
JP3091426B2 (ja) | 自然発話音声波形信号接続型音声合成装置 | |
Nukaga et al. | Scalable implementation of unit selection based text-to-speech system for embedded solutions | |
KR20080030338A (ko) | 경계 휴지강도를 이용한 발음변환 방법 및 이를 기반으로하는 음성합성 시스템 | |
JP2001100775A (ja) | 音声合成装置のための音声データ量削減装置及び音声合成装置 | |
Rallabandi et al. | Sonority rise: Aiding backoff in syllable-based speech synthesis | |
Byeon et al. | An event-driven f/sub 0/weighting for prosody control in a large corpus-based TTS system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Withdrawal due to no request for examination |