KR20060067106A - Method for constructing db for voice synthesis and voice synthesis method using the same - Google Patents
Method for constructing db for voice synthesis and voice synthesis method using the same Download PDFInfo
- Publication number
- KR20060067106A KR20060067106A KR1020050039411A KR20050039411A KR20060067106A KR 20060067106 A KR20060067106 A KR 20060067106A KR 1020050039411 A KR1020050039411 A KR 1020050039411A KR 20050039411 A KR20050039411 A KR 20050039411A KR 20060067106 A KR20060067106 A KR 20060067106A
- Authority
- KR
- South Korea
- Prior art keywords
- unvoiced
- synthesis
- phoneme
- triphone
- phone
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/081—Search algorithms, e.g. Baum-Welch or Viterbi
Abstract
본 발명은 선행 음운 또는 후행 음운과 비교적 상관관계가 적거나 없는 무성음소를 활용하여 최적후보열 탐색 공간을 확장시켜 합성음을 생성하므로써 보다 최적의 합성음을 생성하는 음성 합성용 DB 구축 방법과 이를 이용한 음성 합성 방법에 관한 것이다. 이와 같은 본 발명은 합성용 텍스트가 입력되면, 그 입력된 합성용 텍스트를 대응하는 합성용 음소 심볼열로 변환하는 제1 단계와, 상기 제1 단계에서 변환된 합성용 음소 심볼열의 음소중에서 초성 자음에 해당하는 음소를 무성음소로 예측하는 제2 단계와, 일반적인 트라이폰 열과 상기 제2 단계에서 예측된 무성음소를 기준으로 무성음 정보가 포함된 무성음 트라이폰 열을 각각 생성하는 제3 단계와, 상기 제3 단계에서 생성된 일반적인 트라이폰 열과 무성음소 트라이폰 열에 대한 합성 후보를 기 구축된 DB로부터 각각 판독하는 제4 단계와, 상기 제4 단계에서 판독된 합성 후보열에 대하여 비터비 탐색을 수행하여 최적의 합성 단위열을 선정하는 제5 단계와, 상기 제5 단계에서 선정된 합성 단위열을 연결하여 합성음을 생성하는 제6 단계를 포함하여 이루어 진다.The present invention provides a method for constructing a DB for speech synthesis and a voice using the same, by generating a synthesized sound by expanding an optimal post-sequence search space by using an unvoiced phone having relatively little or no correlation with a preceding or subsequent phoneme. It relates to a method of synthesis. According to the present invention, when the text for synthesis is input, a first consonant is converted from the input text for synthesis into a corresponding phoneme symbol string for synthesis and the phoneme of the phoneme symbol string for conversion synthesized in the first step. A second step of predicting a phoneme corresponding to an unvoiced phoneme, a third step of generating an unvoiced triphone train including unvoiced sound information based on the general triphone train and the unvoiced phone predicted in the second step, respectively; The fourth step of reading the synthesis candidates for the general triphone sequence and the unvoiced triphone sequence generated in step 3 from the pre-built DB, and performing the Viterbi search for the synthesis candidate sequence read in the fourth stage. A fifth step of selecting a synthesis unit sequence and a sixth step of connecting the synthesis unit sequences selected in the fifth step to generate a synthesis sound; The lure is.
트라이폰, 음성합성, 대용량 코퍼스 기반 음성 합성기, 합성용 DB, 무성음소 Triphone, speech synthesis, large-capacity corpus based speech synthesizer, synthesis DB, unvoiced phone
Description
도 1은 본 발명의 실시예에 적용되는 음성 합성 장치의 블럭도,1 is a block diagram of a speech synthesis apparatus applied to an embodiment of the present invention;
도 2는 본 발명의 일 실시예에 따른 DB 구축 방법을 나타낸 동작 플로우 챠트,2 is an operation flowchart showing a DB construction method according to an embodiment of the present invention;
도 3은 도 2에서의 음소 레이블링 단계의 상세 플로우챠트,3 is a detailed flowchart of a phoneme labeling step of FIG. 2;
도 4는 도 3에서의 무성음 경계 예측 방법을 설명하기 위한 도면,4 is a diagram for explaining an unvoiced boundary prediction method of FIG. 3;
도 5는 도 3에서의 트라이폰열 생성 단계에서 생성된 트라이폰열을 예시한 테이블도,FIG. 5 is a table illustrating a triphone sequence generated in the triphone sequence generation step of FIG. 3. FIG.
도 6은 본 발명의 타 실시예에 따른 DB를 이용한 음성 합성 방법을 나타낸 플로우챠트,6 is a flowchart illustrating a speech synthesis method using a DB according to another embodiment of the present invention;
도 7은 도 6에서의 음성 합성 과정을 나타낸 플로우챠트이다.FIG. 7 is a flowchart illustrating a speech synthesis process of FIG. 6.
<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>
100 : 음성 합성기 100: speech synthesizer
200 : 음성 합성용 DB 200: DB for speech synthesis
본 발명은 DB 구축 방법과 이를 이용한 음성 합성 방법에 관한 것으로, 특히 트라이폰을 기본 단위로 하는 대용량 코퍼스(Corpus) 기반 음성 합성기를 구현할 경우, 선행 음운 또는 후행 음운과 비교적 상관관계가 적거나 없는 무성음소를 활용하여 최적후보열 탐색 공간을 확장시켜 합성음을 생성하므로써 보다 최적의 합성음을 생성하는 DB 구축 방법과 이를 이용한 음성 합성 방법에 관한 것이다. The present invention relates to a DB construction method and a speech synthesis method using the same. In particular, in the case of implementing a large-scale corpus-based speech synthesizer based on a triphone, an unvoiced sound having relatively little or no correlation with a preceding or subsequent phonation The present invention relates to a DB construction method for generating a more optimal synthesized sound by generating a synthesized sound by expanding an optimal candidate sequence search space by using a cow, and a voice synthesis method using the same.
종래의 코퍼스 기반의 음성합성기는 반음절 또는 트라이폰을 합성단위로 하여 합성음을 생성하는 것이 일반적이다. 또한, 한국어에서 발생되는 주요 변이음만을 고려한 반음절 합성단위에 비하여 해당음소의 선행 음운환경과 후행 음운환경을 모두 고려한 트라이폰 단위 합성방법은 합성음의 명료도 및 자연성을 높일 수 있는 방법으로 널리 사용되고 있다. Conventional corpus-based speech synthesizers generally generate synthesized sounds using half-syllables or triphones as synthesis units. In addition, the triphone unit synthesis method which considers both the preceding phoneme environment and the following phoneme environment of the phoneme is widely used as a method for improving the intelligibility and naturalness of the synthesized sound, compared to the half syllable synthesis unit considering only the main variation sound generated in Korean.
그러나, 주변 음운환경을 모두 고려하는 트라이폰의 특성상 발생 가능한 트라이폰의 경우의 수는 반음절 합성단위에 비하여 상당히 크며, 이로 인하여 합성용 음성DB 구축시 모든 발생 가능한 트라이폰을 충분히 확보하는 데는 한계가 있다. 이로 인해 합성후보의 수가 비교적 적은 희소트라이폰이 합성음 생성시 나타날 경우 충분한 비터비 탐색공간을 확보하지 못하게 되고 결과적으로 희소트라이폰 주변 합성음의 자연성 및 명료도가 크게 떨어지는 문제점이 있다. 또한, 충분한 개수가 확보된 합성후보일지라도 선행 및 후행 음운환경이 다르면 별개의 트라이폰으로 정의되는 특성상, 선행 또는 후행 음운환경이 일치하지 않지만 보다 최적일 수 있는 합성단위를 선택하지 못하는 문제점이 있다. However, due to the characteristics of the triphone considering the surrounding phonological environment, the number of triphones that can be generated is considerably larger than that of the half-syllable synthesizing unit. Thus, there is a limit in securing all possible triphones when constructing a voice DB for synthesis. There is. As a result, when a rare triphone having a relatively small number of synthesized candidates appears when generating a synthesized sound, sufficient Viterbi search space cannot be secured. As a result, the naturalness and clarity of the synthesized sound around the rare triphone are greatly reduced. In addition, even if a sufficient number of synthetic candidates is secured, if the preceding and trailing phonological environments are different, there is a problem in that the preceding or trailing phonological environments are not identical, but the synthesis unit may not be selected more optimally.
또한, 종래의 일반적인 트라이폰 단위의 음성합성 방법에서는 모든 음성 합성단위에 대하여 일괄적으로 선행/후행 음운환경이 다른 경우 서로 다른 합성단위로 사용한다. 그러나 한국어의 특성상 초성으로 사용된 파열음(ㄱ,ㄲ,ㅋ,ㄷ,ㄸ,ㅌ,ㅂ,ㅃ,ㅍ), 파찰음(ㅈ,ㅉ,ㅊ) 등의 무성음이 발성되는 경우는 일반적으로 음성 에너지의 값이 극히 작은 폐쇄구간이 나타난다. 이러한 구간을 경계로 선행/후행 음운환경의 상관관계는 비교적 적거나 전혀 없는 경우가 많다. 즉, 이런 경계부분을 기준으로 잘라낸 합성단위들은 비록 선행/후행 음운 환경이 다를 지라도 서로 연결되었을 경우 음성의 왜곡이 거의 나타나지 않는다. 그러나 기존의 트라이폰 단위 합성 방법에서는 이와 같은 경우에도 선행/후행 음운환경이 다르기 때문에 독립된 합성단위로 적용되어 서로 연결할 수 있는 방법이 없는 문제점이 있었다.In addition, in the conventional general triphone speech synthesis method, all the speech synthesis units are used as different synthesis units when the preceding / following phonological environments are different. However, in the case of unvoiced sounds such as ruptured sounds (a, ㄲ, ㅋ, ㄷ, ㄸ, ㅌ, ㅂ, ㅃ,)) and paschal ((ㅉ, ㅉ, 된), which are used as a primary character in Korean, voice energy is generally used. Extremely small closed sections appear. There is often little or no correlation between the leading and trailing phonological environments. In other words, the synthesized units cut out based on these boundary parts have almost no distortion of speech when they are connected to each other, even though the preceding / trailing phonological environment is different. However, in the conventional triphone unit synthesis method, even in such a case, there is a problem in that there is no method of connecting to each other because it is applied as an independent synthesis unit because the preceding / trailing phonological environment is different.
따라서, 본 발명은 상기와 같은 종래의 문제점을 해결하기 위해 이루어진 것으로서, 본 발명의 제1 목적은 폐쇄구간이 나타나는 무성음소의 시작점을 기준으로 각각 선행 또는 후행 음운환경에 제한되지 않고 서로 혼용되어 사용될 수 있는 별도의 트라이폰 인덱싱을 통하여 DB를 구축하는 DB 구축 방법을 제공하는 데 있다.Accordingly, the present invention has been made to solve the conventional problems as described above, the first object of the present invention is not limited to the preceding or following phonological environment, respectively, based on the starting point of the unvoiced phone in which the closed section appears can be used mixed with each other. The present invention provides a DB construction method for constructing a DB through separate triphone indexing.
또한, 본 발명의 제2 목적은 기 구축된 DB를 이용하여 보다 확장된 탐색 공 간에서 최적의 합성단위열을 선정하여 보다 최적의 합성음을 생성할 수 있는 DB를 이용한 음성 합성 방법을 제공하는 데 있다.In addition, a second object of the present invention is to provide a speech synthesis method using a DB that can generate a more optimal synthesized sound by selecting the optimal synthesis unit sequence in the extended search space using a pre-built DB have.
상기와 같은 제1 목적을 달성하기 위한 본 발명에 의한 DB 구축 방법은, 무성음 구간을 고려한 음소 레이블링을 수행하는 제1 단계와, 상기 음소 레이블링된 무성음 구간 경계 정보가 포함된 트라이폰을 인덱스로 하는 DB를 구축하는 제2 단계를 포함하여 이루어 지는 것을 특징으로 한다.DB construction method according to the present invention for achieving the first object as described above, the first step of performing a phoneme labeling considering the unvoiced sound interval, and using a triphone containing the phoneme-labeled unvoiced interval boundary information as an index Characterized in that it comprises a second step of building the DB.
상기와 같은 제2 목적을 달성하기 위한 본 발명에 의한 DB를 이용한 음성 합성 방법은, 합성용 텍스트가 입력되면, 그 입력된 합성용 텍스트를 대응하는 합성용 음소 심볼열로 변환하는 제1 단계와, 상기 제1 단계에서 변환된 합성용 음소 심볼열의 음소중에서 초성 자음에 해당하는 음소를 무성음소로 예측하는 제2 단계와, 일반적인 트라이폰 열과 상기 제2 단계에서 예측된 무성음소를 기준으로 무성음 정보가 포함된 무성음 트라이폰 열을 각각 생성하는 제3 단계와, 상기 제3 단계에서 생성된 일반적인 트라이폰 열과 무성음소 트라이폰 열에 대한 합성 후보를 기 구축된 DB로부터 각각 판독하는 제4 단계와, 상기 제4 단계에서 판독된 합성 후보열에 대하여 비터비 탐색을 수행하여 최적의 합성 단위열을 선정하는 제5 단계와, 상기 제5 단계에서 선정된 합성 단위열을 연결하여 합성음을 생성하는 제6 단계를 포함하여 이루어 지는 것을 특징으로 한다.The speech synthesis method using a DB according to the present invention for achieving the second object as described above comprises the steps of: converting the input synthesis text into a corresponding synthesis phoneme symbol string when the synthesis text is input; And a second step of predicting a phoneme corresponding to the initial consonant among the phonemes of the synthesized phoneme symbol sequence converted in the first step as an unvoiced phoneme, and the unvoiced voice information based on the general triphone string and the unvoiced phone predicted in the second step. A third step of generating each of the included unvoiced triphone sequences, a fourth step of respectively reading synthesis candidates for the general triphone sequence and the unvoiced triphone sequence generated in the third stage from a built-in DB; A fifth step of selecting an optimal synthesis unit sequence by performing a Viterbi search on the synthesis candidate sequence read in step 4; By connecting the unit property column to a sixth step of generating a synthesized voice it is characterized in that which is achieved.
이하, 본 발명의 일 실시예에 의한 DB 구축 방법 및 이를 이용한 음성 합성 방법에 대하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.Hereinafter, a DB construction method and a speech synthesis method using the same according to an embodiment of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 실시예에 적용되는 음성 합성 장치의 블럭도를 도시한 것이고, 도 2는 본 발명의 일 실시예에 따른 DB 구축 방법을 나타낸 동작 플로우 챠트를 도시한 것이다. 도 3은 도 2에서의 음소 레이블링 단계의 상세 플로우챠트를 도시한 것이다.FIG. 1 is a block diagram of a speech synthesis apparatus applied to an embodiment of the present invention, and FIG. 2 is a flowchart illustrating an operation of a DB construction method according to an embodiment of the present invention. FIG. 3 shows a detailed flowchart of the phoneme labeling step in FIG. 2.
도 1에 도시된 바와 같이, 본 발명에 적용되는 음성 합성 장치는 음성 합성기(100)와 음성 합성용 DB(200)로 구성된다. As shown in FIG. 1, the speech synthesis apparatus applied to the present invention includes a
먼저, 상기 음성 합성기(100)에서 상기 음성 합성용 DB(200)를 구축하는 방법에 대하여 도 3 내지 도 5를 참조하여 상세히 설명한다.First, the method for constructing the
상기 음성 합성기(100)는 수집된 음성에 대하여 무성음 구간 경계를 고려한 음소 레이블링을 수행한다(S100). 이때, 도 4에 도시된 바와 같이, 초성 자음(40,41,42)인 무성음 구간 중에서 음성 에너지가 최소로 작아지고 폐쇄 구간이 시작되는 점을 기준으로 레이블 위치를 정하거나, 또는 폐쇄구간이 나타나지 않더라고 음성 에너지가 충분히 작아진 지점을 위치로 정한다.The
상기 음성 레이블링 단계(S100)는, 도 3에 도시된 바와 같이, 합성용 텍스트가 입력되면(S101), 상기 음성 합성기(100)는 그 입력된 합성용 텍스트를 합성용 음소 심볼열로 변환하게 된다(S102). 상기 음성 합성기(100)는 상기 변환된 합성용 음소 심볼열의 음소중에서 초성 자음에 해당하는 음소를 무성음소로 예측한다 (S103). 상기 음성 합성기(100)는 일반적인 트라이폰열과 상기 예측된 무성음소를 기준으로 무성음 정보가 포함하는 무성음소 트라이폰 열을 각각 생성하게 된다(S104).In the voice labeling step S100, as shown in FIG. 3, when the text for synthesis is input (S101), the
이어서, 상기 음성 합성기(100)는 해당 음소의 인덱스로 사용하는 음성 합성용 DB(200)를 구축한다(S200). 즉, 상기 도 5에 도시된 바와 같이 심볼 ‘Z’에 해당하는 음소는 트라이폰 ‘v.Z.E’ 과 ‘*.Z.E’로 인덱싱되는 경우이며, ‘E’에 해당하는 음소는 트라이폰 ‘Z.E.T’에 의해서만 인덱싱된 경우이다. Subsequently, the
도 6은 본 발명의 타 실시예에 따른 DB를 이용한 음성 합성 방법을 설명하기 신호 흐름도이고, 도 7은 도 6의 상세 신호 흐름도이다.6 is a signal flowchart illustrating a speech synthesis method using a DB according to another embodiment of the present invention, and FIG. 7 is a detailed signal flowchart of FIG. 6.
먼저, 합성용 텍스트가 입력되면(S300), 상기 음성 합성기(100)는 그 입력된 합성용 텍스트를 음성 합성기 내부에서 사용되는 음소 심볼열로 변환한다(S400). 상기 음성 합성기(100)는 상기 변환된 심볼열의 음소 중에서 초성 자음에 해당하는 음소를 무성음소로 예측하고(S500), 일반적인 트라이폰열과 예측된 무성음소를 기준으로 무성음정보가 포함된 트라이폰열을 각각 생성한다(S600). 즉, 상기 예측된 무성음소를 기준으로 선행 트라이폰의 후행음소 정보와 해당 무성음소 트라이폰의 선행음소 정보는 ‘*’로 표시한다. 이는 각각 후행 또는 선음 음소와 무관한 트라이폰임을 의미하는 것이 특징이며 구현방법에 따라서 다양한 형태로 표시할 수 있다. First, when synthesis text is input (S300), the
상기 음성 합성기(100)는 상기 생성된 일반적인 트라이폰열과 예측된 무성음 소 트라이폰열에 대한 합성 후보를 기 구축된 음성 합성용 DB(200)로부터 메모리로 읽어들인다(S700). 상기 음성 합성기(100)는 그 읽어들인 합성 후보열에 대하여 비터비 탐색을 수행하여 연결 비용이 최저가 되는 최적의 합성단위열을 선정한다(S800). 도 7에서 25는 무성음 구간이 아닌 일반적인 트라이폰에 의해 선택된 합성 후보이며, 26은 무성음 구간에 의해 선택된 합성 후보들이다. 즉, 26에서 사용되는 후보들은 ‘*’로 표시된 심볼이 어떤 심볼이든 관계가 없음을 의미하며, 기존의 방법보다 확장된 탐색 공간이다. 단, 검색시 필요한 조건은 후행음소가 ‘*’인 트라이폰은 선행음소가 ‘*’인 트라이폰과의 연결만을 고려한다. 이는 후행음소가 무성음구간인 합성단위와 선행음소가 유성음인 합성단위가 연결되는 경우를 방지하기 위한 것이다. The
마지막으로, 상기 음성 합성기(100)는 상기 선정된 합성단위들을 연결하여 합성음을 생성하게 되는 것이다(S900). Finally, the
이상에서 몇 가지 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것이 아니고 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다.Although the present invention has been described in more detail with reference to some embodiments, the present invention is not necessarily limited to these embodiments, and various modifications can be made without departing from the spirit of the present invention.
상술한 바와 같이 본 발명에 의한 DB 구축 방법과 이를 이용한 음성 합성 방법에 의하면, 본 발명은 음성 특성상 선행 또는 후행 음운환경과 상관관계가 적거나 없는 음소에 대해서는 각각 선행 또는 후행 음운환경을 제한하지 않는 트라이폰을 사용함으로써 보다 확장된 합성단위열 탐색 공간을 얻는 효과가 있다.As described above, according to the DB construction method and the speech synthesis method using the same according to the present invention, the present invention does not limit the preceding or trailing phonological environment for phonemes having little or no correlation with the preceding or trailing phonological environment due to the voice characteristics. By using a triphone, it is possible to obtain a more expanded synthesis unit search space.
따라서, 기존의 트라이폰 방식 음성 합성방법에서 나타나는 문제인 희소트라이폰 주변 합성음의 자연성 및 명료도가 크게 떨어지는 문제와 선행 또는 후행 음운환경이 일치하지 않지만 보다 최적일 수 있는 합성단위를 선택하지 못하는 문제점을 상당 부분 해결하는 효과가 있다.Therefore, the problems of the conventional triphone-type speech synthesis method, such as the problem that the natural and intelligibility of the synthesized sound around the rare triphone are greatly reduced, and that the preceding or trailing phonological environment does not coincide with each other, are not sufficient to select a more optimal synthesis unit. Partial solution is effective.
Claims (11)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040105504 | 2004-12-14 | ||
KR20040105504 | 2004-12-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060067106A true KR20060067106A (en) | 2006-06-19 |
KR100704509B1 KR100704509B1 (en) | 2007-04-09 |
Family
ID=37161722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050039411A KR100704509B1 (en) | 2004-12-14 | 2005-05-11 | Method for constructing db for voice synthesis and voice synthesis method using the same |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100704509B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100832556B1 (en) * | 2006-09-22 | 2008-05-26 | (주)한국파워보이스 | Speech Recognition Methods for the Robust Distant-talking Speech Recognition System |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR0123845B1 (en) * | 1993-01-30 | 1998-10-01 | 조백제 | Voice synthesizing and recognizing system |
KR0173204B1 (en) * | 1995-12-23 | 1999-03-30 | 양승택 | Voice recognition method of mutated phoneme using tree of korean mutated voice aggregation |
KR19980079119A (en) * | 1997-04-30 | 1998-11-25 | 윤종용 | Speech Synthesis Database, How to Create It, and Speech Synthesis Method Using the Same |
-
2005
- 2005-05-11 KR KR1020050039411A patent/KR100704509B1/en not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100832556B1 (en) * | 2006-09-22 | 2008-05-26 | (주)한국파워보이스 | Speech Recognition Methods for the Robust Distant-talking Speech Recognition System |
Also Published As
Publication number | Publication date |
---|---|
KR100704509B1 (en) | 2007-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9218803B2 (en) | Method and system for enhancing a speech database | |
CA2351842C (en) | Synthesis-based pre-selection of suitable units for concatenative speech | |
Clark et al. | Festival 2–build your own general purpose unit selection speech synthesiser | |
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
JP3910628B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
Macchi | Issues in text-to-speech synthesis | |
WO2000030069A2 (en) | Speech synthesis using concatenation of speech waveforms | |
Elshafei et al. | Techniques for high quality Arabic speech synthesis | |
US7912718B1 (en) | Method and system for enhancing a speech database | |
WO2008147649A1 (en) | Method for synthesizing speech | |
Bettayeb et al. | Speech synthesis system for the holy quran recitation. | |
Stöber et al. | Speech synthesis using multilevel selection and concatenation of units from large speech corpora | |
JP4639932B2 (en) | Speech synthesizer | |
KR100704509B1 (en) | Method for constructing db for voice synthesis and voice synthesis method using the same | |
JP4648878B2 (en) | Style designation type speech synthesis method, style designation type speech synthesis apparatus, program thereof, and storage medium thereof | |
US20070219799A1 (en) | Text to speech synthesis system using syllables as concatenative units | |
US20070203706A1 (en) | Voice analysis tool for creating database used in text to speech synthesis system | |
US8600753B1 (en) | Method and apparatus for combining text to speech and recorded prompts | |
KR19990033536A (en) | How to Select Optimal Synthesis Units in Text / Voice Converter | |
JP3201329B2 (en) | Speech synthesizer | |
EP1589524B1 (en) | Method and device for speech synthesis | |
JP3060276B2 (en) | Speech synthesizer | |
Öhlin et al. | Data-driven formant synthesis | |
Lopez-Gonzalo et al. | Automatic prosodic modeling for speaker and task adaptation in text-to-speech | |
Quazza et al. | The use of lexica in text-to-speech systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20110404 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |