KR20060067106A - Method for constructing db for voice synthesis and voice synthesis method using the same - Google Patents

Method for constructing db for voice synthesis and voice synthesis method using the same Download PDF

Info

Publication number
KR20060067106A
KR20060067106A KR1020050039411A KR20050039411A KR20060067106A KR 20060067106 A KR20060067106 A KR 20060067106A KR 1020050039411 A KR1020050039411 A KR 1020050039411A KR 20050039411 A KR20050039411 A KR 20050039411A KR 20060067106 A KR20060067106 A KR 20060067106A
Authority
KR
South Korea
Prior art keywords
unvoiced
synthesis
phoneme
triphone
phone
Prior art date
Application number
KR1020050039411A
Other languages
Korean (ko)
Other versions
KR100704509B1 (en
Inventor
최문옥
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20060067106A publication Critical patent/KR20060067106A/en
Application granted granted Critical
Publication of KR100704509B1 publication Critical patent/KR100704509B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Abstract

본 발명은 선행 음운 또는 후행 음운과 비교적 상관관계가 적거나 없는 무성음소를 활용하여 최적후보열 탐색 공간을 확장시켜 합성음을 생성하므로써 보다 최적의 합성음을 생성하는 음성 합성용 DB 구축 방법과 이를 이용한 음성 합성 방법에 관한 것이다. 이와 같은 본 발명은 합성용 텍스트가 입력되면, 그 입력된 합성용 텍스트를 대응하는 합성용 음소 심볼열로 변환하는 제1 단계와, 상기 제1 단계에서 변환된 합성용 음소 심볼열의 음소중에서 초성 자음에 해당하는 음소를 무성음소로 예측하는 제2 단계와, 일반적인 트라이폰 열과 상기 제2 단계에서 예측된 무성음소를 기준으로 무성음 정보가 포함된 무성음 트라이폰 열을 각각 생성하는 제3 단계와, 상기 제3 단계에서 생성된 일반적인 트라이폰 열과 무성음소 트라이폰 열에 대한 합성 후보를 기 구축된 DB로부터 각각 판독하는 제4 단계와, 상기 제4 단계에서 판독된 합성 후보열에 대하여 비터비 탐색을 수행하여 최적의 합성 단위열을 선정하는 제5 단계와, 상기 제5 단계에서 선정된 합성 단위열을 연결하여 합성음을 생성하는 제6 단계를 포함하여 이루어 진다.The present invention provides a method for constructing a DB for speech synthesis and a voice using the same, by generating a synthesized sound by expanding an optimal post-sequence search space by using an unvoiced phone having relatively little or no correlation with a preceding or subsequent phoneme. It relates to a method of synthesis. According to the present invention, when the text for synthesis is input, a first consonant is converted from the input text for synthesis into a corresponding phoneme symbol string for synthesis and the phoneme of the phoneme symbol string for conversion synthesized in the first step. A second step of predicting a phoneme corresponding to an unvoiced phoneme, a third step of generating an unvoiced triphone train including unvoiced sound information based on the general triphone train and the unvoiced phone predicted in the second step, respectively; The fourth step of reading the synthesis candidates for the general triphone sequence and the unvoiced triphone sequence generated in step 3 from the pre-built DB, and performing the Viterbi search for the synthesis candidate sequence read in the fourth stage. A fifth step of selecting a synthesis unit sequence and a sixth step of connecting the synthesis unit sequences selected in the fifth step to generate a synthesis sound; The lure is.

트라이폰, 음성합성, 대용량 코퍼스 기반 음성 합성기, 합성용 DB, 무성음소 Triphone, speech synthesis, large-capacity corpus based speech synthesizer, synthesis DB, unvoiced phone

Description

DB 구축 방법과 이를 이용한 음성 합성 방법{METHOD FOR CONSTRUCTING DB FOR VOICE SYNTHESIS AND VOICE SYNTHESIS METHOD USING THE SAME} DIV construction method and speech synthesis method using the same {METHOD FOR CONSTRUCTING DB FOR VOICE SYNTHESIS AND VOICE SYNTHESIS METHOD USING THE SAME}

도 1은 본 발명의 실시예에 적용되는 음성 합성 장치의 블럭도,1 is a block diagram of a speech synthesis apparatus applied to an embodiment of the present invention;

도 2는 본 발명의 일 실시예에 따른 DB 구축 방법을 나타낸 동작 플로우 챠트,2 is an operation flowchart showing a DB construction method according to an embodiment of the present invention;

도 3은 도 2에서의 음소 레이블링 단계의 상세 플로우챠트,3 is a detailed flowchart of a phoneme labeling step of FIG. 2;

도 4는 도 3에서의 무성음 경계 예측 방법을 설명하기 위한 도면,4 is a diagram for explaining an unvoiced boundary prediction method of FIG. 3;

도 5는 도 3에서의 트라이폰열 생성 단계에서 생성된 트라이폰열을 예시한 테이블도,FIG. 5 is a table illustrating a triphone sequence generated in the triphone sequence generation step of FIG. 3. FIG.

도 6은 본 발명의 타 실시예에 따른 DB를 이용한 음성 합성 방법을 나타낸 플로우챠트,6 is a flowchart illustrating a speech synthesis method using a DB according to another embodiment of the present invention;

도 7은 도 6에서의 음성 합성 과정을 나타낸 플로우챠트이다.FIG. 7 is a flowchart illustrating a speech synthesis process of FIG. 6.

<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>

100 : 음성 합성기 100: speech synthesizer

200 : 음성 합성용 DB 200: DB for speech synthesis

본 발명은 DB 구축 방법과 이를 이용한 음성 합성 방법에 관한 것으로, 특히 트라이폰을 기본 단위로 하는 대용량 코퍼스(Corpus) 기반 음성 합성기를 구현할 경우, 선행 음운 또는 후행 음운과 비교적 상관관계가 적거나 없는 무성음소를 활용하여 최적후보열 탐색 공간을 확장시켜 합성음을 생성하므로써 보다 최적의 합성음을 생성하는 DB 구축 방법과 이를 이용한 음성 합성 방법에 관한 것이다. The present invention relates to a DB construction method and a speech synthesis method using the same. In particular, in the case of implementing a large-scale corpus-based speech synthesizer based on a triphone, an unvoiced sound having relatively little or no correlation with a preceding or subsequent phonation The present invention relates to a DB construction method for generating a more optimal synthesized sound by generating a synthesized sound by expanding an optimal candidate sequence search space by using a cow, and a voice synthesis method using the same.

종래의 코퍼스 기반의 음성합성기는 반음절 또는 트라이폰을 합성단위로 하여 합성음을 생성하는 것이 일반적이다. 또한, 한국어에서 발생되는 주요 변이음만을 고려한 반음절 합성단위에 비하여 해당음소의 선행 음운환경과 후행 음운환경을 모두 고려한 트라이폰 단위 합성방법은 합성음의 명료도 및 자연성을 높일 수 있는 방법으로 널리 사용되고 있다. Conventional corpus-based speech synthesizers generally generate synthesized sounds using half-syllables or triphones as synthesis units. In addition, the triphone unit synthesis method which considers both the preceding phoneme environment and the following phoneme environment of the phoneme is widely used as a method for improving the intelligibility and naturalness of the synthesized sound, compared to the half syllable synthesis unit considering only the main variation sound generated in Korean.

그러나, 주변 음운환경을 모두 고려하는 트라이폰의 특성상 발생 가능한 트라이폰의 경우의 수는 반음절 합성단위에 비하여 상당히 크며, 이로 인하여 합성용 음성DB 구축시 모든 발생 가능한 트라이폰을 충분히 확보하는 데는 한계가 있다. 이로 인해 합성후보의 수가 비교적 적은 희소트라이폰이 합성음 생성시 나타날 경우 충분한 비터비 탐색공간을 확보하지 못하게 되고 결과적으로 희소트라이폰 주변 합성음의 자연성 및 명료도가 크게 떨어지는 문제점이 있다. 또한, 충분한 개수가 확보된 합성후보일지라도 선행 및 후행 음운환경이 다르면 별개의 트라이폰으로 정의되는 특성상, 선행 또는 후행 음운환경이 일치하지 않지만 보다 최적일 수 있는 합성단위를 선택하지 못하는 문제점이 있다. However, due to the characteristics of the triphone considering the surrounding phonological environment, the number of triphones that can be generated is considerably larger than that of the half-syllable synthesizing unit. Thus, there is a limit in securing all possible triphones when constructing a voice DB for synthesis. There is. As a result, when a rare triphone having a relatively small number of synthesized candidates appears when generating a synthesized sound, sufficient Viterbi search space cannot be secured. As a result, the naturalness and clarity of the synthesized sound around the rare triphone are greatly reduced. In addition, even if a sufficient number of synthetic candidates is secured, if the preceding and trailing phonological environments are different, there is a problem in that the preceding or trailing phonological environments are not identical, but the synthesis unit may not be selected more optimally.

또한, 종래의 일반적인 트라이폰 단위의 음성합성 방법에서는 모든 음성 합성단위에 대하여 일괄적으로 선행/후행 음운환경이 다른 경우 서로 다른 합성단위로 사용한다. 그러나 한국어의 특성상 초성으로 사용된 파열음(ㄱ,ㄲ,ㅋ,ㄷ,ㄸ,ㅌ,ㅂ,ㅃ,ㅍ), 파찰음(ㅈ,ㅉ,ㅊ) 등의 무성음이 발성되는 경우는 일반적으로 음성 에너지의 값이 극히 작은 폐쇄구간이 나타난다. 이러한 구간을 경계로 선행/후행 음운환경의 상관관계는 비교적 적거나 전혀 없는 경우가 많다. 즉, 이런 경계부분을 기준으로 잘라낸 합성단위들은 비록 선행/후행 음운 환경이 다를 지라도 서로 연결되었을 경우 음성의 왜곡이 거의 나타나지 않는다. 그러나 기존의 트라이폰 단위 합성 방법에서는 이와 같은 경우에도 선행/후행 음운환경이 다르기 때문에 독립된 합성단위로 적용되어 서로 연결할 수 있는 방법이 없는 문제점이 있었다.In addition, in the conventional general triphone speech synthesis method, all the speech synthesis units are used as different synthesis units when the preceding / following phonological environments are different. However, in the case of unvoiced sounds such as ruptured sounds (a, ㄲ, ㅋ, ㄷ, ㄸ, ㅌ, ㅂ, ㅃ,)) and paschal ((ㅉ, ㅉ, 된), which are used as a primary character in Korean, voice energy is generally used. Extremely small closed sections appear. There is often little or no correlation between the leading and trailing phonological environments. In other words, the synthesized units cut out based on these boundary parts have almost no distortion of speech when they are connected to each other, even though the preceding / trailing phonological environment is different. However, in the conventional triphone unit synthesis method, even in such a case, there is a problem in that there is no method of connecting to each other because it is applied as an independent synthesis unit because the preceding / trailing phonological environment is different.

따라서, 본 발명은 상기와 같은 종래의 문제점을 해결하기 위해 이루어진 것으로서, 본 발명의 제1 목적은 폐쇄구간이 나타나는 무성음소의 시작점을 기준으로 각각 선행 또는 후행 음운환경에 제한되지 않고 서로 혼용되어 사용될 수 있는 별도의 트라이폰 인덱싱을 통하여 DB를 구축하는 DB 구축 방법을 제공하는 데 있다.Accordingly, the present invention has been made to solve the conventional problems as described above, the first object of the present invention is not limited to the preceding or following phonological environment, respectively, based on the starting point of the unvoiced phone in which the closed section appears can be used mixed with each other. The present invention provides a DB construction method for constructing a DB through separate triphone indexing.

또한, 본 발명의 제2 목적은 기 구축된 DB를 이용하여 보다 확장된 탐색 공 간에서 최적의 합성단위열을 선정하여 보다 최적의 합성음을 생성할 수 있는 DB를 이용한 음성 합성 방법을 제공하는 데 있다.In addition, a second object of the present invention is to provide a speech synthesis method using a DB that can generate a more optimal synthesized sound by selecting the optimal synthesis unit sequence in the extended search space using a pre-built DB have.

상기와 같은 제1 목적을 달성하기 위한 본 발명에 의한 DB 구축 방법은, 무성음 구간을 고려한 음소 레이블링을 수행하는 제1 단계와, 상기 음소 레이블링된 무성음 구간 경계 정보가 포함된 트라이폰을 인덱스로 하는 DB를 구축하는 제2 단계를 포함하여 이루어 지는 것을 특징으로 한다.DB construction method according to the present invention for achieving the first object as described above, the first step of performing a phoneme labeling considering the unvoiced sound interval, and using a triphone containing the phoneme-labeled unvoiced interval boundary information as an index Characterized in that it comprises a second step of building the DB.

상기와 같은 제2 목적을 달성하기 위한 본 발명에 의한 DB를 이용한 음성 합성 방법은, 합성용 텍스트가 입력되면, 그 입력된 합성용 텍스트를 대응하는 합성용 음소 심볼열로 변환하는 제1 단계와, 상기 제1 단계에서 변환된 합성용 음소 심볼열의 음소중에서 초성 자음에 해당하는 음소를 무성음소로 예측하는 제2 단계와, 일반적인 트라이폰 열과 상기 제2 단계에서 예측된 무성음소를 기준으로 무성음 정보가 포함된 무성음 트라이폰 열을 각각 생성하는 제3 단계와, 상기 제3 단계에서 생성된 일반적인 트라이폰 열과 무성음소 트라이폰 열에 대한 합성 후보를 기 구축된 DB로부터 각각 판독하는 제4 단계와, 상기 제4 단계에서 판독된 합성 후보열에 대하여 비터비 탐색을 수행하여 최적의 합성 단위열을 선정하는 제5 단계와, 상기 제5 단계에서 선정된 합성 단위열을 연결하여 합성음을 생성하는 제6 단계를 포함하여 이루어 지는 것을 특징으로 한다.The speech synthesis method using a DB according to the present invention for achieving the second object as described above comprises the steps of: converting the input synthesis text into a corresponding synthesis phoneme symbol string when the synthesis text is input; And a second step of predicting a phoneme corresponding to the initial consonant among the phonemes of the synthesized phoneme symbol sequence converted in the first step as an unvoiced phoneme, and the unvoiced voice information based on the general triphone string and the unvoiced phone predicted in the second step. A third step of generating each of the included unvoiced triphone sequences, a fourth step of respectively reading synthesis candidates for the general triphone sequence and the unvoiced triphone sequence generated in the third stage from a built-in DB; A fifth step of selecting an optimal synthesis unit sequence by performing a Viterbi search on the synthesis candidate sequence read in step 4; By connecting the unit property column to a sixth step of generating a synthesized voice it is characterized in that which is achieved.

이하, 본 발명의 일 실시예에 의한 DB 구축 방법 및 이를 이용한 음성 합성 방법에 대하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.Hereinafter, a DB construction method and a speech synthesis method using the same according to an embodiment of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 실시예에 적용되는 음성 합성 장치의 블럭도를 도시한 것이고, 도 2는 본 발명의 일 실시예에 따른 DB 구축 방법을 나타낸 동작 플로우 챠트를 도시한 것이다. 도 3은 도 2에서의 음소 레이블링 단계의 상세 플로우챠트를 도시한 것이다.FIG. 1 is a block diagram of a speech synthesis apparatus applied to an embodiment of the present invention, and FIG. 2 is a flowchart illustrating an operation of a DB construction method according to an embodiment of the present invention. FIG. 3 shows a detailed flowchart of the phoneme labeling step in FIG. 2.

도 1에 도시된 바와 같이, 본 발명에 적용되는 음성 합성 장치는 음성 합성기(100)와 음성 합성용 DB(200)로 구성된다. As shown in FIG. 1, the speech synthesis apparatus applied to the present invention includes a speech synthesizer 100 and a DB 200 for speech synthesis.

먼저, 상기 음성 합성기(100)에서 상기 음성 합성용 DB(200)를 구축하는 방법에 대하여 도 3 내지 도 5를 참조하여 상세히 설명한다.First, the method for constructing the speech synthesis DB 200 in the speech synthesizer 100 will be described in detail with reference to FIGS. 3 to 5.

상기 음성 합성기(100)는 수집된 음성에 대하여 무성음 구간 경계를 고려한 음소 레이블링을 수행한다(S100). 이때, 도 4에 도시된 바와 같이, 초성 자음(40,41,42)인 무성음 구간 중에서 음성 에너지가 최소로 작아지고 폐쇄 구간이 시작되는 점을 기준으로 레이블 위치를 정하거나, 또는 폐쇄구간이 나타나지 않더라고 음성 에너지가 충분히 작아진 지점을 위치로 정한다.The speech synthesizer 100 performs phoneme labeling considering the boundary of the unvoiced sound section with respect to the collected speech (S100). In this case, as shown in FIG. 4, the label position is determined based on the point where the voice energy is reduced to the minimum and the closing section is started among the unvoiced sections, which are the consonants 40, 41, and 42, or the closing section does not appear. If not, the position where the voice energy is small enough is determined.

상기 음성 레이블링 단계(S100)는, 도 3에 도시된 바와 같이, 합성용 텍스트가 입력되면(S101), 상기 음성 합성기(100)는 그 입력된 합성용 텍스트를 합성용 음소 심볼열로 변환하게 된다(S102). 상기 음성 합성기(100)는 상기 변환된 합성용 음소 심볼열의 음소중에서 초성 자음에 해당하는 음소를 무성음소로 예측한다 (S103). 상기 음성 합성기(100)는 일반적인 트라이폰열과 상기 예측된 무성음소를 기준으로 무성음 정보가 포함하는 무성음소 트라이폰 열을 각각 생성하게 된다(S104).In the voice labeling step S100, as shown in FIG. 3, when the text for synthesis is input (S101), the voice synthesizer 100 converts the input text for synthesis into a phoneme symbol string for synthesis. (S102). The speech synthesizer 100 predicts a phoneme corresponding to an initial consonant among the phonemes of the converted phoneme symbol string as an unvoiced phone (S103). The speech synthesizer 100 generates an unvoiced triphone sequence included in unvoiced voice information based on the general triphone sequence and the predicted unvoiced speech (S104).

이어서, 상기 음성 합성기(100)는 해당 음소의 인덱스로 사용하는 음성 합성용 DB(200)를 구축한다(S200). 즉, 상기 도 5에 도시된 바와 같이 심볼 ‘Z’에 해당하는 음소는 트라이폰 ‘v.Z.E’ 과 ‘*.Z.E’로 인덱싱되는 경우이며, ‘E’에 해당하는 음소는 트라이폰 ‘Z.E.T’에 의해서만 인덱싱된 경우이다. Subsequently, the speech synthesizer 100 constructs a speech synthesis DB 200 used as an index of the phoneme (S200). That is, as shown in FIG. 5, the phoneme corresponding to the symbol 'Z' is indexed by the triphones' vZE 'and' * .Z.E ', and the phoneme corresponding to' E 'is the triphone' It is indexed only by ZET '.

도 6은 본 발명의 타 실시예에 따른 DB를 이용한 음성 합성 방법을 설명하기 신호 흐름도이고, 도 7은 도 6의 상세 신호 흐름도이다.6 is a signal flowchart illustrating a speech synthesis method using a DB according to another embodiment of the present invention, and FIG. 7 is a detailed signal flowchart of FIG. 6.

먼저, 합성용 텍스트가 입력되면(S300), 상기 음성 합성기(100)는 그 입력된 합성용 텍스트를 음성 합성기 내부에서 사용되는 음소 심볼열로 변환한다(S400). 상기 음성 합성기(100)는 상기 변환된 심볼열의 음소 중에서 초성 자음에 해당하는 음소를 무성음소로 예측하고(S500), 일반적인 트라이폰열과 예측된 무성음소를 기준으로 무성음정보가 포함된 트라이폰열을 각각 생성한다(S600). 즉, 상기 예측된 무성음소를 기준으로 선행 트라이폰의 후행음소 정보와 해당 무성음소 트라이폰의 선행음소 정보는 ‘*’로 표시한다. 이는 각각 후행 또는 선음 음소와 무관한 트라이폰임을 의미하는 것이 특징이며 구현방법에 따라서 다양한 형태로 표시할 수 있다. First, when synthesis text is input (S300), the speech synthesizer 100 converts the input synthesis text into a phoneme symbol string used in the speech synthesizer (S400). The speech synthesizer 100 predicts a phoneme corresponding to an initial consonant among the phonemes of the converted symbol string as an unvoiced phone (S500), and generates a triphone string including unvoiced voice information based on a general triphone string and the predicted unvoiced phone, respectively. (S600). That is, based on the predicted unvoiced phoneme, the following phoneme information of the preceding triphone and the preceding phoneme information of the unvoiced phoneme triphone are indicated by '*'. This means that it is a triphone irrespective of trailing or linear phoneme, respectively, and can be displayed in various forms according to the implementation method.

상기 음성 합성기(100)는 상기 생성된 일반적인 트라이폰열과 예측된 무성음 소 트라이폰열에 대한 합성 후보를 기 구축된 음성 합성용 DB(200)로부터 메모리로 읽어들인다(S700). 상기 음성 합성기(100)는 그 읽어들인 합성 후보열에 대하여 비터비 탐색을 수행하여 연결 비용이 최저가 되는 최적의 합성단위열을 선정한다(S800). 도 7에서 25는 무성음 구간이 아닌 일반적인 트라이폰에 의해 선택된 합성 후보이며, 26은 무성음 구간에 의해 선택된 합성 후보들이다. 즉, 26에서 사용되는 후보들은 ‘*’로 표시된 심볼이 어떤 심볼이든 관계가 없음을 의미하며, 기존의 방법보다 확장된 탐색 공간이다. 단, 검색시 필요한 조건은 후행음소가 ‘*’인 트라이폰은 선행음소가 ‘*’인 트라이폰과의 연결만을 고려한다. 이는 후행음소가 무성음구간인 합성단위와 선행음소가 유성음인 합성단위가 연결되는 경우를 방지하기 위한 것이다. The speech synthesizer 100 reads synthesis candidates for the generated general triphone sequence and the predicted unvoiced triphone sequence from the pre-established speech synthesis DB 200 into memory (S700). The speech synthesizer 100 performs a Viterbi search on the read synthesis candidate sequence to select an optimal synthesis unit sequence having the lowest connection cost (S800). In FIG. 7, 25 is a synthesis candidate selected by a general triphone instead of an unvoiced interval, and 26 is a synthesis candidate selected by an unvoiced interval. That is, candidates used in 26 mean that the symbol marked with '*' has no relation to any symbol, which is an extended search space than the conventional method. However, the search condition only considers the connection with a triphone with a trailing phone of "*". This is to prevent a case in which a synthesis unit in which the trailing phoneme is an unvoiced section and a synthesis unit in which the preceding phoneme is a voiced sound are connected.

마지막으로, 상기 음성 합성기(100)는 상기 선정된 합성단위들을 연결하여 합성음을 생성하게 되는 것이다(S900). Finally, the speech synthesizer 100 generates the synthesized sound by connecting the selected synthesis units (S900).

이상에서 몇 가지 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것이 아니고 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다.Although the present invention has been described in more detail with reference to some embodiments, the present invention is not necessarily limited to these embodiments, and various modifications can be made without departing from the spirit of the present invention.

상술한 바와 같이 본 발명에 의한 DB 구축 방법과 이를 이용한 음성 합성 방법에 의하면, 본 발명은 음성 특성상 선행 또는 후행 음운환경과 상관관계가 적거나 없는 음소에 대해서는 각각 선행 또는 후행 음운환경을 제한하지 않는 트라이폰을 사용함으로써 보다 확장된 합성단위열 탐색 공간을 얻는 효과가 있다.As described above, according to the DB construction method and the speech synthesis method using the same according to the present invention, the present invention does not limit the preceding or trailing phonological environment for phonemes having little or no correlation with the preceding or trailing phonological environment due to the voice characteristics. By using a triphone, it is possible to obtain a more expanded synthesis unit search space.

따라서, 기존의 트라이폰 방식 음성 합성방법에서 나타나는 문제인 희소트라이폰 주변 합성음의 자연성 및 명료도가 크게 떨어지는 문제와 선행 또는 후행 음운환경이 일치하지 않지만 보다 최적일 수 있는 합성단위를 선택하지 못하는 문제점을 상당 부분 해결하는 효과가 있다.Therefore, the problems of the conventional triphone-type speech synthesis method, such as the problem that the natural and intelligibility of the synthesized sound around the rare triphone are greatly reduced, and that the preceding or trailing phonological environment does not coincide with each other, are not sufficient to select a more optimal synthesis unit. Partial solution is effective.

Claims (11)

무성음 구간을 고려한 음소 레이블링을 수행하는 제1 단계와;A first step of performing phonemic labeling in consideration of unvoiced intervals; 상기 음소 레이블링된 무성음 구간 경계 정보가 포함된 트라이폰을 인덱스로 하는 DB를 구축하는 제2 단계를 포함하여 이루어 지는 것을 특징으로 하는 DB 구축 방법.And a second step of constructing a DB having an index of the triphone including the phoneme-labeled unvoiced interval boundary information. 제 1 항에 있어서,The method of claim 1, 상기 제1 단계는 기 설정된 레이블링 기준에 따라 무성음 구간의 음소에 대하여 음소 레이블링을 수행하는 것을 특징으로 하는 DB 구축 방법.The first step of the DB building method, characterized in that for performing phoneme labeling for the phoneme of the unvoiced interval in accordance with a predetermined labeling criteria. 제 2 항에 있어서,The method of claim 2, 상기 기 설정된 레이블링 기준은 초성 자음인 무성음 구간중에서 음성 에너지가 최소로 작아지고 폐쇠 구간이 시작되는 점을 기준으로 레이블 위치를 정하거나, 또는 폐쇠 구간이 나타나지 않더라도 음성 에너지가 충분히 작아진 지점을 위치로 정하는 것을 특징으로 하는 DB 구축 방법.The predetermined labeling criterion is to set a label position based on the point where the voice energy is reduced to the minimum and the closing section starts in the unvoiced section, which is a consonant, or the point where the speech energy is sufficiently small even when the closing section does not appear. DB construction method characterized in that. 제 1 항에 있어서,The method of claim 1, 상기 제1 단계는 합성용 텍스트가 입력되면, 그 입력된 합성용 텍스트를 합성용 음소 심볼열로 변환하는 제1 과정과;The first step may include: converting the input synthesis text into a synthesis phoneme symbol string when the synthesis text is input; 상기 제1 과정에서 변환된 합성용 음소 심볼열의 음소중에서 초성 자음에 해당하는 음소를 무성음소로 예측하는 제2 과정과;A second step of predicting a phoneme corresponding to an initial consonant as an unvoiced phone among the phonemes of the synthesized phoneme symbol sequence converted in the first step; 일반적인 트라이폰열과 상기 제2 과정에서 예측된 무성음소를 기준으로 무성음 정보가 포함하는 무성음소 트라이폰 열을 각각 생성하는 제3 과정으로 이루어 지는 것을 특징으로 하는 DB 구축 방법.And a third process of generating an unvoiced triphone sequence included in unvoiced sound information based on the general triphone sequence and the unvoiced phone predicted in the second process. 제 4 항에 있어서,The method of claim 4, wherein 싱기 제3 과정에서 생성된 무성음소 트라이폰 열은 상기 예측된 무성음소를 기준으로 선행 프라이폰의 후행음소 정보와 해당 무성음소 트라이폰의 선행음소 정보가 소정의 마크로 표시되는 것을 특징으로 하는 DB 구축 방법.In the unvoiced phone triphone sequence generated in the third step, the DB construction is characterized in that the following phoneme information of the preceding fryer and the preceding phone information of the unvoiced phone triphone are displayed with a predetermined mark based on the predicted unvoiced phone. Way. 제 5 항에 있어서,The method of claim 5, wherein 상기 후행음소가 소정의 마크로 표시된 트라이폰은 선행음소가 소정의 마크로 표시된 트라이폰과 연결되는 것을 특징으로 하는 DB 구축 방법.And a triphone in which the trailing phoneme is indicated by a predetermined mark is connected to a triphone in which the preceding phoneme is indicated by a predetermined mark. 합성용 텍스트가 입력되면, 그 입력된 합성용 텍스트를 대응하는 합성용 음소 심볼열로 변환하는 제1 단계와;If the text for synthesis is input, converting the input text for synthesis into a corresponding phoneme symbol string for synthesis; 상기 제1 단계에서 변환된 합성용 음소 심볼열의 음소중에서 초성 자음에 해당하는 음소를 무성음소로 예측하는 제2 단계와;A second step of predicting a phoneme corresponding to an initial consonant as an unvoiced phone among the phonemes of the synthesized phoneme symbol sequence converted in the first step; 일반적인 트라이폰 열과 상기 제2 단계에서 예측된 무성음소를 기준으로 무성음 정보가 포함된 무성음 트라이폰 열을 각각 생성하는 제3 단계와;A third step of generating an unvoiced triphone sequence including unvoiced sound information based on the general triphone sequence and the unvoiced phone predicted in the second stage; 상기 제3 단계에서 생성된 일반적인 트라이폰 열과 무성음소 트라이폰 열에 대한 합성 후보를 기 구축된 DB로부터 각각 판독하는 제4 단계와;A fourth step of respectively reading synthesis candidates for the general triphone sequence and the unvoiced triphone sequence generated in the third stage from a built-in DB; 상기 제4 단계에서 판독된 합성 후보열에 대하여 비터비 탐색을 수행하여 최적의 합성 단위열을 선정하는 제5 단계와;A fifth step of selecting an optimal synthesis unit sequence by performing a Viterbi search on the synthesis candidate sequence read in the fourth step; 상기 제5 단계에서 선정된 합성 단위열을 연결하여 합성음을 생성하는 제6 단계를 포함하여 이루어 지는 것을 특징으로 하는 DB를 이용한 음성 합성 방법.And a sixth step of generating a synthesized sound by connecting the synthesis unit string selected in the fifth step. 제 7 항에 있어서,The method of claim 7, wherein 싱기 제3 단계에서 생성된 무성음소 트라이폰 열은 상기 예측된 무성음소를 기준으로 선행 프라이폰의 후행음소 정보와 해당 무성음소 트라이폰의 선행음소 정보가 소정의 마크로 표시되는 것을 특징으로 하는 DB를 이용한 음성 합성 방법.The unvoiced phone triphone sequence generated in the third step of the singular is a DB, characterized in that the following phoneme information of the preceding frying phone and the preceding phone information of the unvoiced phone triphone are displayed with a predetermined mark based on the predicted unvoiced phone. Speech synthesis method used. 제 8 항에 있어서,The method of claim 8, 상기 후행음소가 소정의 마크로 표시된 트라이폰은 선행음소가 소정의 마크로 표시된 트라이폰과 연결되는 것을 특징으로 하는 DB를 이용한 음성 합성 방법.And a triphone in which the trailing phoneme is indicated by a predetermined mark is connected to a triphone in which the preceding phoneme is indicated by a predetermined mark. 제 7 항에 있어서,The method of claim 7, wherein 상기 제4 단계에서의 기 구축된 DB는 기 설정된 레이블링 기준에 따라 무성음 구간의 음소를 레이블링한 후에 생성된 무성음 경계 정보를 포함하는 것을 특징으로 하는 DB를 이용한 음성 합성 방법.The pre-established DB in the fourth step comprises unvoiced boundary information generated after labeling the phoneme of the unvoiced sound interval according to a preset labeling criterion. 제 10 항에 있어서,The method of claim 10, 상기 기 설정된 레이블링 기준은 초성 자음인 무성음 구간중에서 음성 에너지가 최소로 작아지고 폐쇠 구간이 시작되는 점을 기준으로 레이블 위치를 정하거나, 또는 폐쇠 구간이 나타나지 않더라도 음성 에너지가 충분히 작아진 지점을 위치로 정하는 것을 특징으로 하는 DB를 이용한 음성 합성 방법.The predetermined labeling criterion is to set a label position based on the point where the voice energy is reduced to the minimum and the closing section starts in the unvoiced section, which is a consonant, or the point where the speech energy is sufficiently small even when the closing section does not appear. Speech synthesis method using a DB characterized in that.
KR1020050039411A 2004-12-14 2005-05-11 Method for constructing db for voice synthesis and voice synthesis method using the same KR100704509B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020040105504 2004-12-14
KR20040105504 2004-12-14

Publications (2)

Publication Number Publication Date
KR20060067106A true KR20060067106A (en) 2006-06-19
KR100704509B1 KR100704509B1 (en) 2007-04-09

Family

ID=37161722

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050039411A KR100704509B1 (en) 2004-12-14 2005-05-11 Method for constructing db for voice synthesis and voice synthesis method using the same

Country Status (1)

Country Link
KR (1) KR100704509B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100832556B1 (en) * 2006-09-22 2008-05-26 (주)한국파워보이스 Speech Recognition Methods for the Robust Distant-talking Speech Recognition System

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0123845B1 (en) * 1993-01-30 1998-10-01 조백제 Voice synthesizing and recognizing system
KR0173204B1 (en) * 1995-12-23 1999-03-30 양승택 Voice recognition method of mutated phoneme using tree of korean mutated voice aggregation
KR19980079119A (en) * 1997-04-30 1998-11-25 윤종용 Speech Synthesis Database, How to Create It, and Speech Synthesis Method Using the Same

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100832556B1 (en) * 2006-09-22 2008-05-26 (주)한국파워보이스 Speech Recognition Methods for the Robust Distant-talking Speech Recognition System

Also Published As

Publication number Publication date
KR100704509B1 (en) 2007-04-09

Similar Documents

Publication Publication Date Title
US9218803B2 (en) Method and system for enhancing a speech database
CA2351842C (en) Synthesis-based pre-selection of suitable units for concatenative speech
Clark et al. Festival 2–build your own general purpose unit selection speech synthesiser
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
JP3910628B2 (en) Speech synthesis apparatus, speech synthesis method and program
Macchi Issues in text-to-speech synthesis
WO2000030069A2 (en) Speech synthesis using concatenation of speech waveforms
Elshafei et al. Techniques for high quality Arabic speech synthesis
US7912718B1 (en) Method and system for enhancing a speech database
WO2008147649A1 (en) Method for synthesizing speech
Bettayeb et al. Speech synthesis system for the holy quran recitation.
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
JP4639932B2 (en) Speech synthesizer
KR100704509B1 (en) Method for constructing db for voice synthesis and voice synthesis method using the same
JP4648878B2 (en) Style designation type speech synthesis method, style designation type speech synthesis apparatus, program thereof, and storage medium thereof
US20070219799A1 (en) Text to speech synthesis system using syllables as concatenative units
US20070203706A1 (en) Voice analysis tool for creating database used in text to speech synthesis system
US8600753B1 (en) Method and apparatus for combining text to speech and recorded prompts
KR19990033536A (en) How to Select Optimal Synthesis Units in Text / Voice Converter
JP3201329B2 (en) Speech synthesizer
EP1589524B1 (en) Method and device for speech synthesis
JP3060276B2 (en) Speech synthesizer
Öhlin et al. Data-driven formant synthesis
Lopez-Gonzalo et al. Automatic prosodic modeling for speaker and task adaptation in text-to-speech
Quazza et al. The use of lexica in text-to-speech systems

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110404

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee