KR100259777B1 - Optimal synthesis unit selection method in text-to-speech system - Google Patents

Optimal synthesis unit selection method in text-to-speech system Download PDF

Info

Publication number
KR100259777B1
KR100259777B1 KR1019970054911A KR19970054911A KR100259777B1 KR 100259777 B1 KR100259777 B1 KR 100259777B1 KR 1019970054911 A KR1019970054911 A KR 1019970054911A KR 19970054911 A KR19970054911 A KR 19970054911A KR 100259777 B1 KR100259777 B1 KR 100259777B1
Authority
KR
South Korea
Prior art keywords
triphone
text
triphones
synthesis unit
selecting
Prior art date
Application number
KR1019970054911A
Other languages
Korean (ko)
Other versions
KR19990033536A (en
Inventor
이정철
김상훈
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR1019970054911A priority Critical patent/KR100259777B1/en
Publication of KR19990033536A publication Critical patent/KR19990033536A/en
Application granted granted Critical
Publication of KR100259777B1 publication Critical patent/KR100259777B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PURPOSE: A method for selecting an optimum synthesis unit stream in a text to speech conversion system is to adjust various phoneme situations effectively and enhance a clearness of a synthesized sound. CONSTITUTION: A triphone-based unit is defined as a standard synthesis unit. A text is inputted from the outside(301). The text inputted for synthesizing an arbitrary syllable is converted into a triphone stream by using a pronunciation conversion rule(302). Plural candidate triphones of respective triphones transmitted from a synthesis database are stored into a memory(303). The triphones is searched through a Viterbi searching operation(304). According to the result of the Viterbi searching operation, an optimum path having a minimum cumulative distortion is selected by limiting paths between states of the triphones(305). The optimum path having the minimum cumulative distortion is accumulated to the final state by using an Euclidean distance. When the Euclidean distance is calculated, a weight value is added thereto(307).

Description

텍스트/음성변환기에서의 최적 합성단위열 선정 방법{Optimal synthesis unit selection method in text-to-speech system}Optimal synthesis unit selection method in text-to-speech system}

본 발명은 음성 합성시스템에서 합성음의 명료도와 자연성을 위해 트라이폰(Triphone) 단위를 기본 합성단위로 하고, 합성음 생성시 연결 구간에서의 왜곡을 최소화하기 위해 최장일치를 고려한 트라이폰 데이터베이스 구조와 비터비 탐색을 이용하여 복수개의 트라이폰중 접합점에서의 왜곡이 최소인 최적 트라이폰을 선정하는 텍스트/음성변환기에서의 최적 합성단위열 선정 방법에 관한 것이다.The present invention uses a triphone unit as a basic synthesis unit for clarity and naturalness of synthesized speech in a speech synthesis system, and a triphone database structure and Viterbi considering longest match in order to minimize distortion in a connection section when generating synthesized speech. The present invention relates to a method for selecting an optimal synthesis unit sequence in a text / voice converter using search to select an optimal triphone having the least distortion at a junction.

일반적으로, 음성 인식기인 히든 마르코프 모델(HMM : Hidden Markov Model)을 음송 단위로 훈련한 후 합성시 각 음소 모델을 연결하여 디코딩하므로써 합성음을 생성하거나 단어열의 발생 확률값으로부터 비터비 탐색(Viterbi Search)을 이용하여 가장 확률이 높은 단어열을 문장으로 출력하는 방법을 사용한다. 이는 훈련된 음소의 단일 후보를 단순히 연결하여 파라미터 합성 방식으로 합성음을 생성하거나 비터비 탐색을 통해 단어발생 확률을 이용하여 최적 단어열을 찾는다.In general, the Hidden Markov Model (HMM), which is a speech recognizer, is trained in sound units, and each synthesized phoneme model is decoded by combining each phoneme model for synthesis. In this example, the most probable word string is output as a sentence. It simply connects a single candidate of trained phonemes to generate synthesized sounds by parametric synthesis or finds the optimal word sequence using word generation probabilities through Viterbi search.

종래의 반음절 단위를 기본으로 하는 합성기는 음운환경이 한국어에서만 발생되는 주요 변이음만을 고려한 합성단위를 사용하였으므로 합성음의 명료도 및 자연성에 문제가 있었다. 또한, 반음절 단위를 접합하여 합성할 때 비록 모음의 안정구간에서 연결된다 하더라도 스펙트럼, 에너지, 및 피치의 불일치가 발생하여 합성음의 울림현상이 크고 명료도를 저해하였다.The conventional synthesizer based on the half syllable unit has a problem in the intelligibility and naturalness of the synthesized sound because the phonological environment uses the synthesized unit considering only the main variance sound generated only in Korean. In addition, when synthesizing by combining half-syllable units, even if they are connected in a stable section of vowels, inconsistencies in spectral, energy, and pitch occur, resulting in a large ringing of synthesized sound and impede clarity.

특히, 음절의 핵을 이루는 모음이 초성 및 종성 자음에 비해 에너지가 크므로 청취시 가장 두드러지게 되어 이 부분의 왜곡이 전체 합성음의 왜곡중 대부분을 차지하였다. 또한, 최장일치를 고려하여 결합가능한 음소열을 사전에 등록하는 경우에 20개의 음소로 이루어진 단어를 합성할 때 524,288개의 연결 가능한 경우의 수가 발생하여 이로부터 복수후보를 고려한다면 합성기의 실시간 구현이 어려울 뿐만아니라 최적 합성단위를 선정하는데 어려운 문제점이 있었다.In particular, the vowels that form the nucleus of the syllables are more prominent during listening because the vowels that make up the nucleus of the syllables are larger than the initial and final consonants. In addition, when registering a phoneme string that can be combined in consideration of the longest match in advance, when synthesizing a word composed of 20 phonemes, the number of 524,288 connectable cases occurs. In addition, there was a problem in selecting the optimal synthesis unit.

상기와 같은 문제점을 해결하기 위하여 안출된 본 발명은, 음성 합성시스템에서 주변 음운 환경이 일치하는 트라이폰 단위를 합성단위로 사용하고, 복수 후보의 합성단위로부터 비터비 탐색을 통해 최적 합성단위열을 찾아 접합점에서의 왜곡이 최소인 최적 트라이폰을 선정하기 위한 텍스트/음성변환기에서의 최적 합성단위열 선정 방법을 제공하는데 그 목적이 있다.In order to solve the above problems, the present invention uses a triphone unit that matches the surrounding phonological environment as a synthesis unit in a speech synthesis system, and obtains an optimal synthesis unit sequence through a Viterbi search from a plurality of candidate synthesis units. The purpose of the present invention is to provide an optimal synthesis unit sequence selection method in a text-to-speech converter for selecting the optimal triphone with minimum distortion at the junction.

도 1 은 본 발명이 적용되는 음성 합성시스템의 개략적인 일실시예 블록 구성도.1 is a schematic block diagram of one embodiment of a speech synthesis system to which the present invention is applied;

도 2 는 본 발명에 따른 특징 벡터의 추출 위치 및 트라이폰 단위 데이터베이스의 일실시예 구조도.Figure 2 is a structure diagram of an embodiment of the extraction position and the triphone unit database of the feature vector according to the present invention.

도 3 은 본 발명에 따른 최적 트라이폰 선정 절차에 대한 일실시예 흐름도.3 is a flow diagram of an embodiment of an optimal triphone selection procedure in accordance with the present invention.

도 4 는 상기 도 3의 비터비 탐색을 나타낸 일실시예 설명도.4 is an exemplary explanatory diagram illustrating the Viterbi search of FIG. 3.

*도면의 주요 부분에 대한 부호의 설명* Explanation of symbols for the main parts of the drawings

11 : 문장 입력 블록 12 : 언어 처리 블록11: sentence input block 12: language processing block

13 : 운율 처리 블록 14 : 합성단위 선정 및 연결 블록13: Rhyme processing block 14: Synthesis unit selection and connection block

15 : 신호 처리 블록15: signal processing block

상기 목적을 달성하기 위한 본 발명은, 음성 합성시스템의 텍스트/음성변환기에서 최적 합성단위열 선정 방법에 있어서, 합성음의 명료도와 자연성을 향상시키기 위하여, 트라이폰(Triphone) 단위를 기본 합성단위로 정의하는 제 1 단계; 임의의 어절을 합성하기 위해 입력된 텍스트를 트라이폰 열로 변환하고, 각 트라이폰의 복수 후보 트라이폰을 메모리에 저장하는 제 2 단계; 및 상기 복수 후보 트라이폰중 접합점에서의 왜곡이 최소인 최적 트라이폰을 선정하기 위해, 상기 각 트라이폰의 상태간 경로를 제약해 최소 누적 왜곡을 갖는 최적 경로를 선정하여 상기 합성음을 생성하는 제 3 단계를 포함하여 이루어진 것을 특징으로 한다.According to the present invention for achieving the above object, in the method of selecting an optimal synthesis unit sequence in a text / voice converter of a speech synthesis system, a triphone unit is defined as a basic synthesis unit in order to improve the clarity and naturalness of the synthesized sound. A first step of making; Converting the input text into a triphone sequence for synthesizing any word, and storing a plurality of candidate triphones of each triphone in a memory; And generating a synthesized sound by selecting an optimal path having a minimum cumulative distortion by restricting paths between states of the respective triphones to select an optimal triphone having a minimum distortion at a junction among the plurality of candidate triphones. Characterized in that it comprises a step.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 일실시예를 상세히 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1 은 본 발명이 적용되는 음성 합성시스템의 개략적인 일실시예 블록 구성도이다.1 is a schematic block diagram of an embodiment of a speech synthesis system to which the present invention is applied.

음성 합성시스템은 문장 입력 블록(11)과, 문장의 읽기 변환 및 문장 구조를 분석하기 위한 언어 처리 블록(12)과, 억양, 지속시간, 및 에너지를 제어하는 운율 처리 블록(13)과, 합성단위 선정 및 연결 블록(14)과, 실제 음성파형을 생성하는 신호처리 블록(15)을 구비한다. 여기서, 최적 합성단위 선정은 합성단위 선정 및 연결 블록(14)에서 이루어진다.The speech synthesis system comprises a sentence input block 11, a language processing block 12 for analyzing read transformation and sentence structure of a sentence, a rhythm processing block 13 for controlling intonation, duration, and energy; A unit selection and connection block 14 and a signal processing block 15 for generating an actual speech waveform are provided. Here, the optimal synthesis unit selection is made in the synthesis unit selection and the connection block (14).

합성단위로 사용되는 트라이폰은 음성인식에서 사용하는 단위와 동일하다. 이는 음소를 기준으로 좌우 음운환경이 다르면 하나의 트라이폰이 된다.The triphone used as a synthesized unit is the same unit used for speech recognition. This is one triphone if the phonemes are different in terms of phonemes.

세그멘테이션(Segmentation)은 음소의 경계를 구분하는데 사용되고, 합성단위의 연결은 음소의 경계에서 이루어진다. 또한, 구축된 합성 데이타베이스는 31,013개의 트라이폰으로 구성되며, 그중 고유한 트라이폰은 10,243개 발생된다. 따라서, 각 고유한 트라이폰은 평균 3.03개의 복수 트라이폰을 갖는다.Segmentation is used to distinguish the boundary of phonemes, and the concatenation of units of synthesis is made at the boundary of phonemes. In addition, the constructed synthetic database consists of 31,013 triphones, of which 10,243 unique triphones are generated. Thus, each unique triphone has an average of 3.03 plural triphones.

따라서, 트라이폰의 복수 후보중 연결점에서 왜곡이 최소인 최적 트라이폰열을 찾고, 합성단위열의 연결은 시간 영역에서 파형을 직접 연결하여 합성음을 생성한다. 또한, 비터비 탐색을 통해 스펙트럼, 피치, 에너지, 및 지속시간 등의 정보를 이용한다.Therefore, the optimum triphone sequence with minimum distortion is found at the connection point among the plurality of candidates of the triphone, and the synthesis unit sequence connects the waveform directly in the time domain to generate the synthesized sound. The Viterbi search also uses information such as spectrum, pitch, energy, and duration.

트라이폰 단위로 최장일치를 보장하기 위해서는 트라이폰 주변의 음운환경에 관련된 스펙트럼 정보를 이용하여 최장 트라이폰열이 연결 가능하도록 합성 데이타베이스를 구축한다. 또한, 복수개의 트라이폰 후보중 최적 합성단위를 선정하기 위해서는 에너지(energy), 피치(pitch), 및 지속시간(duration) 정보를 추출하여 데이타베이스에 포함시킨다.In order to guarantee the longest match in the triphone unit, a synthetic database is constructed to connect the longest triphone sequence using the spectral information related to the phonological environment around the triphone. In addition, in order to select an optimal synthesis unit among the plurality of triphone candidates, energy, pitch, and duration information are extracted and included in the database.

도 2 는 본 발명에 따른 특징 벡터의 추출 위치 및 트라이폰 단위 데이터베이스의 일실시예 구조도이다.Figure 2 is a structural diagram of an embodiment of the extraction position and the triphone unit database of the feature vector according to the present invention.

합성단위는 약 9,000 어절로 구성된 텍스트를 녹음한 후 각 어절을 음소 단위로 세그멘테이션하여 구축된다. 따라서, 각 어절에는 다수개의 트라이폰이 포함되어 있고, 이들 트라이폰이 합성단위로 사용된다.The unit of synthesis is constructed by recording text consisting of approximately 9,000 words and segmenting each word in phoneme units. Therefore, each word contains a plurality of triphones, and these triphones are used as a synthesis unit.

한 어절이 트라이폰(a,b,c)의 열을 포함하는 경우에, 트라이폰(b)은 왼쪽 음소(a)의 경계에 해당하는 1프레임(300샘플)에 대한 켑스트럼값과 음소(a)의 안정구간에서의 피치값, 그 피치의 에너지, 및 음소(a)의 지속시간으로 구성된 왼쪽 음소(a)의 음운환경을 저장한다. 또한, 오른쪽 음운환경에는 현재 음소(b)의 경계에 해당하는 켑스트럼값과 음소(b)의 안정구간에서의 피치값, 그 피치의 에너지, 및 현재 음소(b)의 지속시간을 저장한다.In the case where a word includes a row of triphones (a, b, c), the triphone (b) has a spectral value and a phoneme (for a frame (300 samples) corresponding to the boundary of the left phoneme (a)). A phonological environment of the left phoneme (a) consisting of the pitch value in the stable section of a), the energy of the pitch, and the duration of the phoneme (a) is stored. In addition, the right phoneme environment stores the cepstrum value corresponding to the boundary of the current phoneme (b), the pitch value in the stable section of the phoneme (b), the energy of the pitch, and the duration of the current phoneme (b).

각 트라이폰(a,b,c)은 어절내에 인접 트라이폰의 켑스트럼값을 저장하고 있으므로 무작위로 구성된 최종 트라이폰 합성 데이터베이스로부터 좌우 음운환경 정보를 이용하여 트라이폰열이 최장일치가 되도록 트라이폰을 선정할 수 있다. 또한, 에너지, 피치, 및 지속시간 정보를 이용하여 어절을 합성하는 경우에 음소간 운율변화를 고려할 수 있는 트라이폰을 선정할 수 있다.Since each triphone (a, b, c) stores the chop-string values of adjacent triphones within a word, the triphones are arranged to have the longest match in the triphone sequence using left and right phonological environment information from a randomly constructed final triphone synthesis database. Can be selected. In addition, when synthesizing words using energy, pitch, and duration information, a triphone can be selected that can consider the change in rhyme between phonemes.

도 3 은 본 발명에 따른 최적 트라이폰 선정 절차에 대한 일실시예 흐름도이다.3 is a flowchart illustrating an embodiment of an optimum triphone selection procedure according to the present invention.

먼저, 텍스트가 입력되면(301) 텍스트에서 임의의 어절을 합성하기 위해 발음변환 규칙을 사용하여 트라이폰열로 변환하고(302), 각 트라이폰의 복수 후보 트라이폰을 합성 데이터베이스로부터 가져와 메모리에 저장한다(303).First, when text is input (301), it is converted into a triphone sequence using a pronunciation conversion rule to synthesize an arbitrary word in the text (302), and a plurality of candidate triphones of each triphone are retrieved from the synthesis database and stored in memory. (303).

트라이폰당 평균 3개 정도의 복수 후보가 있으므로 상태간 평균 9개의 경로가 생기게 되는데, 이들 경로로부터 다수개의 트라이폰중 가장 왜곡이 적은 경로를 찾기 위해 비터비 탐색을 수행한다(304).Since there are an average of three candidates per triphone, an average of nine paths is generated between states. A Viterbi search is performed to find the least distortion path among the plurality of triphones from these paths (304).

이후, 가장 왜곡이 적은 경로를 선정하여(305) 이로부터 합성음을 생성한다(306). 여기서, 왜곡은 각 상태간 유클리디언 거리(Euclidean distance)를 사용하여 최종 상태까지 누적한다.Thereafter, the path with the least distortion is selected (305), and a synthesized sound is generated therefrom (306). Here, the distortion is accumulated to the final state using the Euclidean distance between the states.

가장 왜곡이 적은 경로를 구하기 위해 적용되는 원리를 수학식으로 표현하면 수학식 1과 같다.The principle applied to find the path with the least distortion is expressed by Equation 1 below.

Figure pat00001
Figure pat00001

여기서, Distance는 유클리디언 거리 누적, Pitch는 피치, Power는 에너지, Dur은 지속시간, Cep는 켑스트럼, STATE는 상태개수, 및 n은 경로개수를 각각 나타낸다.Where Distance is Euclidean distance accumulation, Pitch is pitch, Power is energy, Dur is duration, Cep is Cepstrum, STATE is state count, and n is path count.

유클리디언 거리를 계산할 때 각 특징 벡터간 가중치(wpitch, wpower, wdur, wcep)를 가하고, 각 가중치는 지각(perception) 실험에 의해 시행착오(trial and error)를 통해 결정한다(307).When calculating the Euclidean distance, weights (w pitch , w power , w dur , and w cep ) between each feature vector are applied, and each weight is determined by trial and error by perception experiments ( 307).

도 4 는 상기 도 3의 비터비 탐색을 나타낸 일실시예 설명도이다FIG. 4 is an exemplary explanatory diagram illustrating the Viterbi search of FIG. 3. FIG.

합성하고자 하는 어절이 트라이폰(a,b,c,d)으로 이루어진 경우에 비터비 탐색의 수행 절차를 설명하면 다음과 같다.When the word to be synthesized is composed of the triphones (a, b, c, d), the procedure of performing the Viterbi search is explained as follows.

전방향 경로(forward path) 과정에서, 각 상태에서의 트라이폰 복수 후보들은 다음 상태의 트라이폰과 왜곡을 계산하여 최종 상태에서 후방향 경로(backward path)로 최소 누적왜곡을 갖는 최적 경로(Optimal path)를 탐색한다(304 내지 307). 이때, 왜곡이 상태간 영(zero)인 경우에는 같은 어절에서 인접하여 발생하는 트라이폰임을 알 수 있으며, 어절내 트라이폰열의 누적 왜곡이 최소인 경로를 찾을 수 있으므로 이 경로에 제약을 가하면 쉽게 최장일치가 되는 트라이폰을 선정할 수 있다.In the forward path process, the plural candidates of the triphones in each state calculate the distortion of the triphones in the next state and optimize the path with the minimum cumulative distortion from the final state to the backward path. (304-307). In this case, when the distortion is zero between states, it can be seen that the triphones are generated adjacent to the same word, and since the path with the minimum cumulative distortion of the triphone strings in the word can be found, the longest limit is easily applied to the path. You can choose the matching triphone.

따라서, 본 발명은 비터비 탐색시 상태간 왜곡이 영일 때 복소 후보중 이 상태에 해당하는 단위가 선정되도록 조건을 부여하므로써 복수 후보가 고려된 최장일치 합성단위를 용이하게 선정할 수 있다.Accordingly, the present invention can easily select the longest-matched synthesis unit in which a plurality of candidates are considered by providing a condition that a unit corresponding to this state among complex candidates is selected when the distortion between states during the Viterbi search is zero.

비터비 탐색을 이용하여 어절내 왜곡이 최소화되는 트라이폰열을 선정했을 때, 최장일치되는 음소길이 및 개수가 표 1에 도시된 바와같다.When a triphone sequence in which word distortion is minimized using Viterbi search is selected, the longest phoneme length and number are shown in Table 1.

Figure pat00002
Figure pat00002

음소열이 3인 경우에는 1개의 트라이폰이 선정되며, 음소열이 4인 경우에는 2개의 인접 트라이폰을 사용한다. 여기서, 인접 트라이폰은 같은 연이어 발생되는 트라이폰을 말한다.If the phoneme string is 3, one triphone is selected. If the phoneme string is 4, two adjacent triphones are used. Here, the adjacent triphones refer to triphones that are generated in succession.

이 결과는 297만 어절에 포함되지 않은 164,460개 어절중에서 고유 어절을 추출하여 사용하며, 고유 어절 개수는 47,828개이다. 따라서, 총 트라이폰의 수는 311,149개가 된다.This result is used to extract unique words from 164,460 words not included in 2.97 million words, and the number of unique words is 47,828. Thus, the total number of triphones is 311,149.

각 어절은 평균 6.51개의 트라이폰열로 이루어지며, 비터비 탐색을 이용하면 각 어절당 4.66개의 3음소열, 0.92개의 4음소열, 0.48개의 5음소열, 및 0.27개의 6음소열 등으로 최장일치된다.Each word has an average of 6.51 triphone strings, and using Viterbi search, the maximum match is 4.66 three phoneme strings, 0.92 four phoneme strings, 0.48 five phoneme strings, and 0.27 six phoneme strings per word. .

합성하고자 하는 텍스트가 "바람과"인 경우에, 이를 음소열로 변환하면 다음과 같다.If the text to be synthesized is "wind and", convert it to phoneme string as follows.

/#//b//a//r//a//M//g//wa//#// # // b // a // r // a // M // g // wa // # /

이를 비터비 탐색을 이용하여 선정한 합성단위열로 나타내면 표 2와 같다.Table 2 shows the synthesis unit sequence selected using the Viterbi search.

Figure pat00003
Figure pat00003

트라이폰 단위의 비터비 탐색을 이용하는 경우에, 각 트라이폰당 발생하는 복수 후보의 개수와 복수 후보중 가장 왜곡이 적은 경로를 선정하면 다음과 같다.In the case of using a triphone-based Viterbi search, the number of the plurality of candidates generated in each triphone and the path with the least distortion among the plurality of candidates are selected as follows.

35(511) ⇒ 1(864) ⇒ 23(0) ⇒ 3(401) ⇒ 0(0) ⇒ 0(0) ⇒ 0(0)35 (511) ⇒ 1 (864) ⇒ 23 (0) ⇒ 3 (401) ⇒ 0 (0) ⇒ 0 (0) ⇒ 0 (0)

트라이폰(35(511))인 경우에, 35는 복수후보 트라이폰 58개중 35번째 트라이폰이 최적으로 선정됨을 의미한다. 또한, 괄호내의 511은 상태간 유클리디언 거리(=왜곡)값이다.In the case of the triphone 35 (511), 35 means that the 35th triphone is selected among the 58 candidates. In addition, 511 in parentheses is a Euclidean distance (= distortion) value between states.

따라서, 거리가 영인 경우(예: 23(0)), 0(0)), 동일한 어절내에서 발생한 인접 트라이폰이 연결됨을 나타낸다.Thus, if the distance is zero (eg 23 (0)), 0 (0)), it indicates that adjacent triphones occurring within the same word are connected.

음운환경을 고려한 음절단위 합성기의 경우에, 음절의 구조를 유지하기 위해서 트라이폰열이 음절을 이루도록 상태간 경로에 제약을 가하게되면 비터비 탐색을 이용한 최적 단위 선정 방식은 상태간 경로의 제약에 따라 합성단위를 변경할 수 있어 적응성이 있으며, 실시간에 합성이 가능하다.In the case of syllable unit synthesizer considering phonological environment, if the path between states is constrained so that the triphone sequence forms syllable to maintain syllable structure, the optimal unit selection method using Viterbi search is synthesized according to the constraint of the path between states. Units can be changed to be adaptive and can be synthesized in real time.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.The present invention described above is capable of various substitutions, modifications, and changes without departing from the spirit of the present invention for those skilled in the art to which the present invention pertains, and the above-described embodiments and accompanying It is not limited to the drawing.

상기와 같은 본 발명은, 다양한 음운환경을 고려할 수 있으며, 복수개의 트라이폰중 접합점에서의 왜곡이 최소인 최적 트라이폰을 선정하므로써 합성음의 명료도와 자연성을 향상시킬 수 있는 효과가 있다.As described above, the present invention can consider various phonological environments and improves the clarity and naturalness of the synthesized sound by selecting an optimal triphone having the least distortion at the junction point among the plurality of triphones.

Claims (7)

음성 합성시스템의 텍스트/음성변환기에서 최적 합성단위열 선정 방법에 있어서,A method for selecting an optimal synthesis unit sequence in a text / voice converter of a speech synthesis system, 합성음의 명료도와 자연성을 향상시키기 위하여, 트라이폰(Triphone) 단위를 기본 합성단위로 정의하는 제 1 단계;A first step of defining a triphone unit as a basic synthesis unit to improve clarity and naturalness of the synthesized sound; 임의의 어절을 합성하기 위해 입력된 텍스트를 트라이폰 열로 변환하고, 각 트라이폰의 복수 후보 트라이폰을 메모리에 저장하는 제 2 단계; 및Converting the input text into a triphone sequence for synthesizing any word, and storing a plurality of candidate triphones of each triphone in a memory; And 상기 복수 후보 트라이폰중 접합점에서의 왜곡이 최소인 최적 트라이폰을 선정하기 위해, 상기 각 트라이폰의 상태간 경로를 제약해 최소 누적 왜곡을 갖는 최적 경로를 선정하여 상기 합성음을 생성하는 제 3 단계A third step of generating the synthesized sound by selecting an optimal path having a minimum cumulative distortion by restricting a path between states of the respective triphones in order to select an optimal triphone having the least distortion at the junction among the plurality of candidate triphones; 를 포함하는 텍스트/음성변환기에서의 최적 합성단위열 선정 방법.Method for selecting the optimal synthesis unit string in the text / speech converter comprising a. 제 1 항에 있어서,The method of claim 1, 상기 제 2 단계는,The second step, 외부로부터 텍스트를 입력받는 제 4 단계;A fourth step of receiving text from the outside; 입력된 텍스트에서 임의의 어절을 합성하기 위해 발음변환 규칙을 사용하여 상기 트라이폰열로 변환하는 제 5 단계; 및A fifth step of converting to the triphone sequence using a pronunciation conversion rule to synthesize any word from the input text; And 합성 데이터베이스로부터 전송된 상기 각 트라이폰의 복수 후보 트라이폰을 상기 메모리에 저장하는 제 6 단계A sixth step of storing a plurality of candidate triphones of each triphone transmitted from a synthesis database in the memory 를 포함하는 텍스트/음성변환기에서의 최적 합성단위열 선정 방법.Method for selecting the optimal synthesis unit string in the text / speech converter comprising a. 제 1 항 또는 제 2 항에 있어서,The method according to claim 1 or 2, 상기 제 3 단계는,The third step, 상기 각 트라이폰을 비터비 탐색을 수행하여 검색하는 제 7 단계; 및A seventh step of searching for each triphone by performing a Viterbi search; And 수행된 비터비 탐색 결과에 따라, 상기 각 트라이폰중 최소 왜곡을 갖는 경로를 선정하여 합성음을 생성하는 제 8 단계An eighth step of generating a synthesized sound by selecting a path having the least distortion among the triphones according to the performed Viterbi search result 를 포함하는 텍스트/음성변환기에서의 최적 합성단위열 선정 방법.Method for selecting the optimal synthesis unit string in the text / speech converter comprising a. 제 3 항에 있어서,The method of claim 3, wherein 상기 제 8 단계의 최소 왜곡을 갖는 경로 거리는,The path distance with the minimum distortion of the eighth step is 각 상태간 유클리디언 거리(Euclidean distance)를 사용하여 최종 상태까지 누적하되, 유클리디언 거리 계산시 각 특징간 가중치를 가하는 것을 특징으로 하는 텍스트/음성변환기에서의 최적 합성단위열 선정 방법.A method of selecting an optimal synthesis unit sequence in a text / voice converter, which accumulates to a final state by using Euclidean distance between states, and weights each feature when calculating Euclidean distance. 제 4 항에 있어서,The method of claim 4, wherein 상기 가중치는,The weight is, 실질적으로, 지각 실험에 의해 시행착오로 결정되는 것을 특징으로 하는 텍스트/음성변환기에서의 최적 합성단위열 선정 방법.Substantially, a method for selecting an optimal synthesis unit sequence in a text-to-speech converter, which is determined by trial and error by perceptual experiment. 제 2 항에 있어서,The method of claim 2, 상기 제 6 단계의 상기 합성 데이터베이스는,The synthesis database of the sixth step, 일 음운환경에는 다른 음소의 경계에 해당하는 켑스트럼값, 피치값, 피치 에너지, 및 지속시간이 저장되고, 다른 음운환경에는 현재 음소의 경계에 해당하는 켑스트럼값, 피치값, 피치 에너지, 및 지속시간이 저장된 다수개의 트라이폰으로 구성되어 합성단위로 사용되며, 음운환경을 이용하여 트라이폰열이 최장일치가 되도록 트라이폰을 선정하고 어절을 합성하는 경우에 음소간 운율변화를 고려할 수 있는 트라이폰을 선정하는 것을 특징으로 하는 텍스트/음성변환기에서의 최적 합성단위열 선정 방법.In one phonological environment, the cepstrum value, the pitch value, the pitch energy, and the duration corresponding to the boundary of another phoneme are stored, and in the other phonological environment, the cepstrum value, the pitch value, the pitch energy, and It is composed of a number of triphones with stored durations and is used as a synthesis unit.The triphone can be selected to make the longest match of the triphone sequence using phonological environment and to consider the change in rhyme between phonemes when synthesizing words. A method for selecting an optimal synthesis unit sequence in a text / voice converter, characterized in that for selecting. 제 3 항에 있어서,The method of claim 3, wherein 상기 제 7 단계의 비터비 탐색을 수행하는 과정은,The process of performing the Viterbi search of the seventh step, 전방향 경로(Forward path) 과정에서 각 상태에서의 트라이폰 복수 후보들이 다음 상태의 트라이폰과 왜곡을 계산하며, 후방향 경로(Backward path)에서 최소 누적 왜곡을 갖는 최적 경로를 탐색하는 것을 특징으로 하는 텍스트/음성변환기에서의 최적 합성단위열 선정 방법.In the forward path process, a plurality of candidates for triphones in each state calculates a triphone and distortion in the next state, and searches for an optimal path having a minimum cumulative distortion in the backward path. A method of selecting the optimal synthesis unit sequence in a text / voice converter.
KR1019970054911A 1997-10-24 1997-10-24 Optimal synthesis unit selection method in text-to-speech system KR100259777B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970054911A KR100259777B1 (en) 1997-10-24 1997-10-24 Optimal synthesis unit selection method in text-to-speech system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970054911A KR100259777B1 (en) 1997-10-24 1997-10-24 Optimal synthesis unit selection method in text-to-speech system

Publications (2)

Publication Number Publication Date
KR19990033536A KR19990033536A (en) 1999-05-15
KR100259777B1 true KR100259777B1 (en) 2000-06-15

Family

ID=19523390

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970054911A KR100259777B1 (en) 1997-10-24 1997-10-24 Optimal synthesis unit selection method in text-to-speech system

Country Status (1)

Country Link
KR (1) KR100259777B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100775186B1 (en) * 2001-06-14 2007-11-12 엘지전자 주식회사 Method for the state 0clustring use of traided model
KR100736496B1 (en) * 2001-06-26 2007-07-06 엘지전자 주식회사 performance improvement method of continuation voice recognition system
KR100883649B1 (en) * 2002-04-04 2009-02-18 삼성전자주식회사 Text to speech conversion apparatus and method thereof
KR100564740B1 (en) * 2002-12-14 2006-03-27 한국전자통신연구원 Voice synthesizing method using speech act information and apparatus thereof
CN1260704C (en) * 2003-09-29 2006-06-21 摩托罗拉公司 Method for voice synthesizing
CN1604077B (en) * 2003-09-29 2012-08-08 纽昂斯通讯公司 Improvement for pronunciation waveform corpus

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system

Also Published As

Publication number Publication date
KR19990033536A (en) 1999-05-15

Similar Documents

Publication Publication Date Title
JP4176169B2 (en) Runtime acoustic unit selection method and apparatus for language synthesis
EP1168299B1 (en) Method and system for preselection of suitable units for concatenative speech
US6505158B1 (en) Synthesis-based pre-selection of suitable units for concatenative speech
US5949961A (en) Word syllabification in speech synthesis system
Taylor Concept-to-speech synthesis by phonological structure matching
US5905972A (en) Prosodic databases holding fundamental frequency templates for use in speech synthesis
US20200410981A1 (en) Text-to-speech (tts) processing
JP3910628B2 (en) Speech synthesis apparatus, speech synthesis method and program
US11763797B2 (en) Text-to-speech (TTS) processing
JPH0772840B2 (en) Speech model configuration method, speech recognition method, speech recognition device, and speech model training method
EP1668628A1 (en) Method for synthesizing speech
US10699695B1 (en) Text-to-speech (TTS) processing
JPH11249677A (en) Rhythm control method for voice synthesizer
KR100259777B1 (en) Optimal synthesis unit selection method in text-to-speech system
Chu et al. A concatenative Mandarin TTS system without prosody model and prosody modification.
Liu et al. State-dependent phonetic tied mixtures with pronunciation modeling for spontaneous speech recognition
WO2010104040A1 (en) Voice synthesis apparatus based on single-model voice recognition synthesis, voice synthesis method and voice synthesis program
JPH08335096A (en) Text voice synthesizer
EP1638080B1 (en) A text-to-speech system and method
JP2000047680A (en) Sound information processor
GB2292235A (en) Word syllabification.
Pagarkar et al. Language Independent Speech Compression using Devanagari Phonetics
Pobar et al. Development of Croatian unit selection and statistical parametric speech synthesis
JPH10333692A (en) Phonemic table, voice recognizing method, and recording medium in which voice recognizing program has been stored
SARANYA DEVELOPMENT OF BILINGUAL TTS USING FESTVOX FRAMEWORK

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100226

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee