KR20060027652A - Apparatus and method for selecting the units in a corpus-based speech synthesis - Google Patents
Apparatus and method for selecting the units in a corpus-based speech synthesis Download PDFInfo
- Publication number
- KR20060027652A KR20060027652A KR1020040076536A KR20040076536A KR20060027652A KR 20060027652 A KR20060027652 A KR 20060027652A KR 1020040076536 A KR1020040076536 A KR 1020040076536A KR 20040076536 A KR20040076536 A KR 20040076536A KR 20060027652 A KR20060027652 A KR 20060027652A
- Authority
- KR
- South Korea
- Prior art keywords
- unit
- units
- synthesis
- target
- cost
- Prior art date
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 110
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 110
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004364 calculation method Methods 0.000 claims abstract description 60
- 230000003595 spectral effect Effects 0.000 claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 17
- 238000001228 spectrum Methods 0.000 claims description 19
- 238000010187 selection method Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 238000012905 input function Methods 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
- G06F17/142—Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Discrete Mathematics (AREA)
- Signal Processing (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
1. 청구범위에 기재된 발명이 속한 기술분야1. TECHNICAL FIELD OF THE INVENTION
본 발명은 코퍼스 기반 음성 합성기에서의 합성 유닛 선택 장치 및 그 방법과, 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.The present invention relates to an apparatus and method for selecting a synthesis unit in a corpus based speech synthesizer, and a computer readable recording medium storing a program for realizing the method.
2. 발명이 해결하려고 하는 기술적 과제2. The technical problem to be solved by the invention
본 발명은 코퍼스 기반 음성 합성기(TTS)에서 합성 유닛 사이의 오차 거리가 가장 작은 합성 열을 선택함으로써, 음성 합성시에 발생하는 합성 유닛 사이의 오차를 줄여, 전체적으로 자연스러운 음성 합성이 가능하도록 하기 위한 합성 유닛 선택 장치 및 그 방법과, 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있음.According to the present invention, by selecting a synthesis string having the smallest error distance between the synthesis units in a corpus-based speech synthesizer (TTS), the synthesis for reducing the error between the synthesis units generated during speech synthesis and enabling natural speech synthesis as a whole is possible. It is an object of the present invention to provide a unit selection apparatus and a method thereof, and a computer-readable recording medium storing a program for realizing the method.
3. 발명의 해결방법의 요지3. Summary of Solution to Invention
본 발명은, 코퍼스 기반 음성 합성기에서의 합성 유닛 선택 장치에 있어서, 타겟 유닛과 가장 유사한 음성 데이터베이스 안에 존재하는 후보 유닛들을 음성특징벡터들의 거리를 이용하여 선정하되, 동일한 발성으로부터 얻어진 연속되는 합성 유닛을 후보 유닛으로 선정하기 위한 타겟비용 계산수단; 및 후보 유닛들을 입력받아, 연결 유닛들간 세기, 피치, 스펙트럼 거리를 이용하여 연결비용을 계산하되, 스펙트럼 거리 계산 방식을 달리하여 각각의 합성 유닛열을 만들고, 그 중 누적거리가 가장 작은 합성 유닛열을 선택하기 위한 연결비용 계산 및 최종 합성 유닛 결 정 수단을 포함한다.In the apparatus for selecting a synthesis unit in a corpus-based speech synthesizer, the present invention selects candidate units existing in a speech database most similar to a target unit using distances of speech feature vectors, and selects successive synthesis units obtained from the same speech. Target cost calculation means for selecting a candidate unit; And receiving candidate units, and calculating a connection cost by using the strength, pitch, and spectral distance between the connection units, and varying the spectral distance calculation methods to create respective synthesis unit sequences, and among them, the synthesis unit sequence having the smallest accumulated distance. Connection cost calculations and final synthesis unit determination means to select.
4. 발명의 중요한 용도4. Important uses of the invention
본 발명은 코퍼스 기반 음성 합성기 등에 이용됨.
The invention is used in corpus based speech synthesizers and the like.
코퍼스, 음성 합성기, 타겟비용(target cost), 연결비용(concatenation cost), 합성 유닛, 유닛열Corpus, speech synthesizer, target cost, concatenation cost, synthesis unit, unit string
Description
도 1 은 본 발명에 따른 합성 유닛 선택 장치의 일실시예 구성도,1 is a configuration diagram of an embodiment of a composition unit selection apparatus according to the present invention;
도 2 는 본 발명에 따른 합성 유닛 선택 방법 중 타겟비용 계산 과정에 대한 일실시예 상세 흐름도,2 is a detailed flowchart illustrating an embodiment of a target cost calculation process in the synthesis unit selection method according to the present invention;
도 3 은 본 발명에 따른 합성 유닛 선택 방법 중 연결비용 계산 및 최종 합성 유닛 결정 과정에 대한 일실시예 상세 흐름도,3 is a detailed flowchart illustrating an embodiment of a connection cost calculation and final synthesis unit determination process in a synthesis unit selection method according to the present invention;
도 4 는 본 발명에 따른 합성 유닛 선택 방법 중 연결비용 계산 과정에 대한 일실시예 상세 흐름도이다.
4 is a detailed flowchart illustrating an example of a connection cost calculation process in the synthesis unit selection method according to the present invention.
* 도면의 주요 부분에 대한 부호의 설명* Explanation of symbols for the main parts of the drawings
11 : 음성 데이터베이스 12 : 타겟비용 계산부11: voice database 12: target cost calculator
13 : 연결비용 계산 및 최종 합성 유닛 결정부
13: connection cost calculation and final synthesis unit determination unit
본 발명은 코퍼스 기반 음성 합성기에서의 합성 유닛 선택 장치 및 그 방법과, 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 더욱 상세하게는 코퍼스(Corpus) 기반 음성 합성기(TTS : Text-to-Speech)에서 합성 유닛를 선정할 때 보다 고품질의 합성음을 얻기 위해 가장 적합한 유닛을 선정하기 위한 합성 유닛 선택 장치 및 그 방법과, 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.The present invention relates to an apparatus and a method for selecting a synthesis unit in a corpus-based speech synthesizer, and a computer-readable recording medium recording a program for realizing the method. More particularly, the present invention relates to a corpus-based speech synthesizer. Synthesis unit selection device and method for selecting the most suitable unit to obtain a higher quality synthesis sound when selecting a synthesis unit in TTS (Text-to-Speech), and a computer readable recording program for realizing the method. To a recording medium.
음성 합성은 텍스트(text) 정보로부터 음성 신호를 만들어 내는 것으로, 자동응답서비스(ARS)와 같은 전화 음성 안내 서비스에 많이 이용된다. Speech synthesis generates voice signals from text information, and is widely used for telephone voice guidance services such as an automatic answering service (ARS).
현재 가장 널리 쓰이고 있는 음성 합성 방법은, 대용량 음성 코퍼스를 갖추고 입력된 텍스트 정보와 가장 유사한 음성 유닛을 선택하여 이들을 이어 주는 방법이다. The most widely used speech synthesis method is to select a speech unit most similar to the input text information with a large speech corpus and connect them.
이러한 방식의 TTS는 기본적으로 텍스트가 입력되면, 우선 언어처리부, 운율처리부 등을 거치면서 텍스트 특성화(text specification)부를 거치고, 이후 유닛 선택(unit selection)부에서 텍스트 특성화 이후의 정보를 입력받아 보유한 대용량 음성 코퍼스로부터 가장 유사한 유닛들을 선택하여 이를 이어 주어 합성음을 생성하게 된다. 이러한 과정에서 코퍼스로부터 유닛을 선택하여 주는 과정(유닛 선택부)은 합성음의 음질을 크게 좌우하므로 매우 중요한 작업이라 하겠다. 이중 본 발명은 유닛 선택부에 관한 것이다. Basically, when text is input, the TTS of this type goes through a text specification unit through a language processor, a rhyme processor, etc., and then receives a large amount of information received after text characterization from a unit selection unit. The most similar units are selected from the voice corpus and connected to it to produce a synthesized sound. In this process, the process of selecting a unit from the corpus (unit selector) is very important because it greatly influences the sound quality of the synthesized sound. In particular, the present invention relates to a unit selector.
즉, 유닛 선택부는 텍스트 특성화부의 출력을 타겟값(target value)으로 표현할 수 있으며, 음성 코퍼스로부터 이 타겟값과 가장 유사한 값을 갖는 유닛을 선택하여 이어 준다. 이 유닛 선택부는 타겟비용(target cost)을 계산하는 부분과 연결비용(concatenation cost)을 계산하는 부분으로 나눠져, 각각의 비용을 계산하여 그 비용이 최소가 되는 유닛열(unit sequence)을 출력으로 나타낸다. That is, the unit selector may express the output of the text characterization unit as a target value, and select and connect a unit having a value most similar to the target value from the voice corpus. The unit selector is divided into a part for calculating a target cost and a part for calculating a concatenation cost, calculating each cost, and outputting a unit sequence in which the cost is minimum. .
그럼, 이해를 돕기 위하여 코퍼스 기반 음성 합성기에서 종래의 유닛 선택 과정을 살펴보기로 한다. For the sake of understanding, let's look at a conventional unit selection process in a corpus based speech synthesizer.
유닛 선택부에서는 가장 적합한 합성 유닛열(unit sequence)을 찾기 위해 타겟비용(target cost)과 연결비용(concatenation cost)을 계산하게 되는데, 이때 피치(pitch), 에너지(energy), 세기(intensity), 스펙트럼(spectrum) 등을 특징벡터로 사용하여, 그 거리가 최소가 되는 유닛을 선택한다. The unit selector calculates a target cost and a concatenation cost in order to find the most suitable synthetic unit sequence. In this case, the pitch, energy, intensity, Using a spectrum or the like as a feature vector, the unit having the minimum distance is selected.
먼저, 타겟비용 계산에 있어서는 이러한 특징 벡터들간의 거리를 이용하여 각 유닛에 대한 후보 유닛(candidate unit)을 선정하게 되는데, 어떠한 후보 유닛이 선택되었는가에 따라 합성음의 음질이 좌우되므로 보다 정확한 후보 유닛을 선택하는 것이 무엇보다 중요하다. First, in calculating the target cost, a candidate unit for each unit is selected by using the distances between the feature vectors. Since the sound quality of the synthesized sound depends on which candidate unit is selected, a more accurate candidate unit is selected. It is important to choose.
한편, 연결비용 계산에 있어서는 인간의 청각특성을 가장 잘 반영한 특징 벡터를 찾기 위해 많은 노력을 하고 있다. 통상, 단위(유닛)음간 스펙트럼 거리를 계산하기 위한 방식으로, FFT(Fast Fourier Transform)를 이용하여 구한 파워 스펙트럼(Power spectra) 사이의 쿨백-라이블러(Kullback-Leibler) 거리, MFCC(Mel frequency cepstral coefficient) 사이의 유클리디안 거리(Euclidean distance), FFT를 이용하여 구한 로그 파워 스펙트럼(Log power spectra) 사이의 유클리디안 거리 계산 방법이 사용되어 왔고, 각각의 거리계산 방식에 따라 선택되는 합성 유닛은 변하며, 따라서 합성 음질 또한 변하게 된다. 하지만, 이러한 거리계산 방식은 모든 경우에 인간의 청각 특성을 잘 반영한다고 할 수 없고, 어떤 거리계산 방식이 가장 우월하다고 말하기도 어렵다. 따라서, 상황에 맞게 적합한 거리 계산 방식을 선택할 필요가 있다. On the other hand, in calculating the connection cost, much effort has been made to find a feature vector that best reflects the human auditory characteristics. In general, a coolback-leibler distance between power spectra obtained using a Fast Fourier Transform (FFT), and a mel frequency cepstral in a manner for calculating the spectral distance between unit (unit) notes. Euclidean distance between coefficients, Euclidean distance calculation method between log power spectra obtained using FFT, and a synthesis unit selected according to each distance calculation method Changes, thus the synthetic sound quality also changes. However, such a distance calculation method cannot be said to reflect human hearing characteristics well in all cases, and it is difficult to say that a distance calculation method is the most superior. Therefore, it is necessary to select a suitable distance calculation method according to the situation.
참고적으로, 두 특징벡터 c1,c2 사이의 유클리디안 거리는 하기의 [수학식 1]과 같이 정의된다. 또한, 두 파워 정규화 스펙트럼(power normalized spectra) 사이의 쿨백-라이블러 거리는 하기의 [수학식 2]와 같이 정의된다.
For reference, the Euclidean distance between two feature vectors c1 and c2 is defined as in Equation 1 below. In addition, the coolback-labeller distance between two power normalized spectra is defined as in Equation 2 below.
따라서, 현재의 기술분야에서는 코퍼스 기반 음성 합성기에서 인간의 청각특성을 보다 잘 반영한 스펙트럼 거리 계산 방식이 요구되며, 이를 통해 보다 자연스러운 합성음을 얻을 수 있도록 한다. Therefore, in the current technical field, a spectral distance calculation method that better reflects the human auditory characteristics in a corpus-based speech synthesizer is required, thereby obtaining a more natural synthesized sound.
본 발명은 상기 문제점을 해결하기 위하여 제안된 것으로, 코퍼스 기반 음성 합성기(TTS)에서 합성 유닛 사이의 오차 거리가 가장 작은 합성 열을 선택함으로써, 음성 합성시에 발생하는 합성 유닛 사이의 오차를 줄여, 전체적으로 자연스러운 음성 합성이 가능하도록 하기 위한 합성 유닛 선택 장치 및 그 방법과, 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.The present invention has been proposed to solve the above problems, and by selecting a synthesis string having the smallest error distance between the synthesis units in a corpus-based speech synthesizer (TTS), it is possible to reduce the error between the synthesis units generated during speech synthesis, It is an object of the present invention to provide a synthesis unit selection apparatus and method thereof for enabling natural speech synthesis as a whole, and a computer-readable recording medium having recorded thereon a program for realizing the method.
본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
Other objects and advantages of the present invention can be understood by the following description, and will be more clearly understood by the embodiments of the present invention. In addition, it will be readily appreciated that the objects and advantages of the present invention may be realized by the means and combinations thereof indicated in the claims.
상기 목적을 달성하기 위한 본 발명은, 코퍼스 기반 음성 합성기에서의 합성 유닛 선택 장치에 있어서, 타겟 유닛과 가장 유사한 음성 데이터베이스 안에 존재하는 후보 유닛들을 음성특징벡터들의 거리를 이용하여 선정하되, 동일한 발성으로부터 얻어진 연속되는 합성 유닛을 후보 유닛으로 선정하기 위한 타겟비용 계산수단; 및 후보 유닛들을 입력받아, 연결 유닛들간 세기, 피치, 스펙트럼 거리를 이용하여 연결비용을 계산하되, 스펙트럼 거리 계산 방식을 달리하여 각각의 합성 유닛열을 만들고, 그 중 누적거리가 가장 작은 합성 유닛열을 선택하기 위한 연결비용 계산 및 최종 합성 유닛 결정 수단을 포함하여 이루어진 것을 특징으로 한다. In order to achieve the above object, the present invention provides a device for selecting a synthesis unit in a corpus-based speech synthesizer, wherein candidate units existing in the speech database most similar to the target unit are selected using distances of speech feature vectors, Target cost calculation means for selecting the obtained continuous synthesis unit as a candidate unit; And receiving candidate units, and calculating a connection cost by using the strength, pitch, and spectral distance between the connection units, and varying the spectral distance calculation methods to create respective synthesis unit sequences, and among them, the synthesis unit sequence having the smallest accumulated distance. It characterized in that it comprises a connection cost calculation and the final synthesis unit determination means for selecting a.
그리고, 본 발명은 코퍼스 기반 음성 합성기에서의 합성 유닛 선택 방법에 있어서, 타겟 유닛 리스트를 입력받는 타겟유닛 입력단계; 타겟 유닛과 가장 유사한 음성 데이터베이스 안에 존재하는 후보 유닛들을 음성특징벡터들의 거리를 이용하여 선정하되, 동일한 발성으로부터 얻어진 연속되는 합성 유닛을 후보 유닛으로 선정하는 타겟비용 계산단계; 및 후보 유닛들을 입력받아, 연결 유닛들간 세기, 피치, 스펙트럼 거리를 이용하여 연결비용을 계산하되, 스펙트럼 거리 계산 방식을 달리하여 각각의 합성 유닛열을 만들고, 그 중 누적거리가 가장 작은 합성 유닛열을 선택하는 연결비용 계산 및 최종 합성 유닛 결정 단계를 포함하여 이루어진 것을 특징으로 한다. In addition, the present invention provides a method for selecting a synthesis unit in a corpus-based speech synthesizer, comprising: a target unit input step of receiving a target unit list; A target cost calculation step of selecting candidate units existing in the speech database most similar to the target unit using distances of the voice feature vectors, and selecting successive synthesis units obtained from the same utterance as candidate units; And receiving candidate units, and calculating a connection cost by using the strength, pitch, and spectral distance between the connection units, and varying the spectral distance calculation methods to create respective synthesis unit sequences, and among them, the synthesis unit sequence having the smallest accumulated distance. Characterized in that it comprises the step of calculating the cost of connection and determining the final synthesis unit.
한편, 본 발명은 코퍼스 기반 음성 합성기에서의 합성 유닛 선택을 위하여, 프로세서를 구비한 합성 유닛 선택 장치에, 타겟 유닛 리스트를 입력받는 타겟유닛 입력기능; 타겟 유닛과 가장 유사한 음성 데이터베이스 안에 존재하는 후보 유닛들을 음성특징벡터들의 거리를 이용하여 선정하되, 동일한 발성으로부터 얻어진 연속되는 합성 유닛을 후보 유닛으로 선정하는 타겟비용 계산기능; 및 후보 유닛들을 입력받아, 연결 유닛들간 세기, 피치, 스펙트럼 거리를 이용하여 연결비용을 계산하되, 스펙트럼 거리 계산 방식을 달리하여 각각의 합성 유닛열을 만들고, 그 중 누적거리가 가장 작은 합성 유닛열을 선택하는 연결비용 계산 및 최종 합성 유닛 결정 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다. On the other hand, the present invention is a target unit input function for receiving a target unit list to the synthesis unit selection device having a processor for selecting a synthesis unit in the corpus-based speech synthesizer; A target cost calculation function for selecting candidate units existing in the speech database most similar to the target unit using distances of the voice feature vectors, and selecting consecutive synthesis units obtained from the same utterance as candidate units; And receiving candidate units, and calculating a connection cost by using the strength, pitch, and spectral distance between the connection units, and varying the spectral distance calculation methods to create respective synthesis unit sequences, and among them, the synthesis unit sequence having the smallest accumulated distance. A computer readable recording medium having recorded thereon a program for realizing a function of calculating a connection cost and determining a final synthesis unit is selected.
본 발명은 음성 코퍼스 안에서 연속된 유닛이 합성 유닛으로 선택되도록 유도하는 한편, 스펙트럼 거리를 계산할 때 다른 3가지 계산 방식(FFT를 이용하여 구한 파워 스펙트럼 사이의 쿨백-라이블러 거리 계산 방식, MFCC 사이의 유클리디안 거리 계산 방식, FFT를 이용하여 구한 로그 파워 스펙트럼 사이의 유클리디안 거리 계산 방식)을 이용하여 경우에 따라 가장 적절한 거리 계산 방식을 이용하여 합성 유닛을 선택(즉, 합성 유닛 사이의 오차 거리가 가장 작은 합성열을 선택)함으로써, 음성 합성시에 발생하는 합성 유닛 사이의 오차를 줄여, 전체적으로 자연스러운 음성 합성이 가능하도록 한다. The present invention induces a continuous unit to be selected as a synthesis unit in the speech corpus, while calculating the spectral distance between three different calculation schemes (Coolback-Label distance calculation between power spectra obtained using FFT, between MFCC Using the Euclidean distance calculation method, the Euclidean distance calculation between the log power spectra obtained using the FFT, select the synthesis unit using the most appropriate distance calculation method in some cases (i.e., the error between the synthesis units). By selecting the synthesis string having the smallest distance), the error between the synthesis units generated at the time of speech synthesis is reduced, so that the overall natural speech synthesis is possible.
이를 위해, 본 발명은 코퍼스(Corpus) 기반 음성 합성에서 이용되는 합성 유닛 탐색시에, 선택되는 합성 유닛들 사이의 오차 거리를 최소로 하는 유닛들을 결정하기 위해, 합성 후보 유닛(Candidate unit)을 생성할 때 음성 데이터베이스 안에서 동일한 발성으로부터 얻어진 연속되는 합성 유닛이 있다면 그 합성 유닛을 후보 유닛으로 선정하고, 합성 단위(유닛) 사이의 스펙트럼 거리를 계산함에 있어서, FFT를 이용하여 구한 파워 스펙트럼(power spectra) 사이에 쿨백-라이블러 거리(Kullback-Leibler distance), FFT를 이용하여 구한 로그 파워 스펙트럼(log power spectra) 사이의 유클리디안 거리(Euclidean distance), MFCC 사이의 유클리디안 거리를 각각 계산하여 각각 합성 유닛열을 만들고, 이중 누적 거리가 가장 작은 방법으로부터 얻어진 합성 유닛열을 선택한다. 이러한 방법들을 사용함으로써 고품질의 음성 합성음을 생성할 수 있다. To this end, the present invention generates a synthesis candidate unit to determine units that minimize the error distance between the selected synthesis units when searching for a synthesis unit used in Corpus-based speech synthesis. If there is a continuous synthesis unit obtained from the same utterance in the speech database, the power spectrum obtained by using the FFT in selecting the synthesis unit as a candidate unit and calculating the spectral distance between the synthesis units (units). Calculate the Coolback-Leibler distance between, Euclidean distance between log power spectra obtained using FFT, and Euclidean distance between MFCC, respectively. Create a composite unit sequence and select the composite unit sequence obtained from the method with the smallest double cumulative distance. By using these methods, high quality speech synthesis can be generated.
본 발명에 따르면, 코퍼스(Corpus) 기반의 음성 합성기에 이용되어 음성 합 성음의 음질을 개선할 수 있다. According to the present invention, it is used to corpus-based speech synthesizer can improve the sound quality of the speech synthesis sound.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.The above objects, features and advantages will become more apparent from the following detailed description taken in conjunction with the accompanying drawings, whereby those skilled in the art may easily implement the technical idea of the present invention. There will be. In addition, in describing the present invention, when it is determined that the detailed description of the known technology related to the present invention may unnecessarily obscure the gist of the present invention, the detailed description thereof will be omitted. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1 은 본 발명에 따른 합성 유닛 선택 장치의 일실시예 구성도이다. 1 is a block diagram of an embodiment of a composition unit selection apparatus according to the present invention.
본 발명에 따른 대용량 코퍼스 기반 음성 합성기에서 합성 유닛 선택 장치는, 타겟 유닛과 가장 유사한 음성 데이터베이스(11) 안에 존재하는 후보 유닛들을 찾아주는 타겟비용 계산부(12)와, 이렇게 찾아진 후보 유닛들이 자연스러운 합성음이 되도록 이어지게 될 유닛을 결정하는 연결비용 계산 및 최종 합성 유닛 결정부(13)를 포함한다. In the large-capacity corpus-based speech synthesizer according to the present invention, the synthesis unit selection apparatus includes a
즉, 합성 유닛 선택 장치는, 입력되는 타겟 유닛 리스트(target unit list)에 따라 적합한 합성 유닛을 선정하여 내보내는데, 여러 가지 특징 벡터를 사용하여 음성 데이터베이스(11) 안에서 후보 유닛들을 찾아주고(타겟비용 계산 기능), 그 후보 유닛들 중 최종적으로 합성될 합성 유닛열(unit sequence)을 결정한다(연결비용 계산 및 최종 합성 유닛 결정 기능). That is, the synthesis unit selection apparatus selects and exports a suitable synthesis unit according to the input target unit list, and finds candidate units in the voice database 11 using various feature vectors (target cost). Calculation function), to determine a synthesis unit sequence to be finally synthesized among the candidate units (connection cost calculation and final synthesis unit determination function).
이때, 타겟비용 계산부(12)에서 후보 유닛 선정시, 구해진 후보 유닛들 중에 보유한 음성 데이터베이스(11) 안에서 연속된 합성 유닛들이 있다면 그 합성 유닛들을 후보 유닛으로 선택하는 것이 좋다. At this time, when selecting the candidate unit in the target
또한, 연결비용 계산 및 최종 합성 유닛 결정부(13)에서는 연결비용을 계산하기 위한 특징 벡터로, 연결 유닛들간 세기, 피치, 스펙트럼 거리를 사용한다. In addition, the connection cost calculation and final combining
이를 바탕으로 본 발명에 따른 코퍼스 기반 음성 합성기에서의 합성 유닛 선택 장치를 살펴보면, 타겟 유닛과 가장 유사한 음성 데이터베이스(11) 안에 존재하는 후보 유닛들을 음성특징벡터들의 거리를 이용하여 선정하되, 동일한 발성으로부터 얻어진 연속되는 합성 유닛을 후보 유닛으로 선정하기 위한 타겟비용 계산부(12)와, 후보 유닛들을 입력받아, 연결 유닛들간 세기, 피치, 스펙트럼 거리를 이용하여 연결비용을 계산하되, 스펙트럼 거리 계산 방식을 달리하여 각각의 합성 유닛열을 만들고, 그 중 누적거리가 가장 작은 합성 유닛열을 선택하기 위한 연결비용 계산 및 최종 합성 유닛 결정부(13)를 포함한다. On the basis of this, the apparatus for selecting a synthesis unit in the corpus-based speech synthesizer according to the present invention shows that candidate units existing in the speech database 11 most similar to the target unit are selected using the distance of the speech feature vectors, but from the same speech. The
이때, 최종 후보 유닛을 선택하기 위하여 스펙트럼 거리를 계산할 때, 연결 유닛들간 FFT를 이용하여 구한 파워 스펙트럼(Power spectra) 사이의 쿨백-라이블러 거리, MFCC 사이의 유클리디안 거리, FFT를 이용하여 구한 로그 파워 스펙트럼(Log power spectra) 사이의 유클리디안 거리 계산 방식을 이용하여 구한 최종 합성 유닛 열들을 경우에 따라 선택적으로 사용하는 것이 좋다. At this time, when calculating the spectral distance to select the final candidate unit, the coolback-labeller distance between the power spectra obtained using the FFT between the connected units, the Euclidean distance between the MFCCs, and the FFT It is advisable to optionally use the final synthesized unit rows, which are obtained using the Euclidean distance calculation between the log power spectra.
도 2 는 본 발명에 따른 합성 유닛 선택 방법 중 타겟비용 계산 과정에 대한 일실시예 상세 흐름도이다. 2 is a detailed flowchart illustrating a target cost calculation process in the synthesis unit selection method according to the present invention.
먼저, 타겟 유닛 리스트를 입력받아(201), 여러 가지 특징 벡터들을 계산하 여 타겟비용을 계산한다(202). 그 타겟비용에 따라 후보 유닛들을 선정하게 된다(203~205). First, a target unit list is input (201), and target cost is calculated by calculating various feature vectors (202). Candidate units are selected according to the target cost (203 to 205).
매번 타겟 유닛에 대한 후보 유닛들을 구할 때 그 후보 유닛들을 메모리에 저장시켜 놓고, 만약 현재 타겟 유닛에 대한 후보 유닛들 중 이전 타겟 유닛에 대한 후보 유닛과 음성 데이터베이스(11) 안에서 연속적으로 존재하는 유닛이 존재한다면, 그 연속적인 유닛들은 각각 이전 타겟 유닛과 현재 타겟의 후보 유닛으로 단독으로 선정하여(203,204) 음성 데이터베이스(11) 녹음 당시 연속적으로 녹음된 유닛을 선택하게 함으로써, 합성 유닛 사이의 오차 거리가 가장 작은 합성 열을 선택하게 하여 음질의 향상을 꾀할 수 있는 유닛을 합성 유닛으로 선택하도록 해준다. Each time the candidate units for the target unit are found, the candidate units are stored in the memory, and if there are any candidate units for the current target unit, the candidate unit for the previous target unit and the unit continuously present in the voice database 11 are present. If present, the successive units are independently selected as candidate units of the previous target unit and the current target (203, 204), respectively, to allow the audio database 11 to select the units continuously recorded at the time of recording, so that the error distance between the synthesis units This allows you to select the smallest synthesized row so that you can select a unit that can improve sound quality.
한편, 현재 타겟 유닛에 대한 후보 유닛들 중 이전 타겟 유닛에 대한 후보 유닛과 음성 데이터베이스(11) 안에서 연속적으로 존재하는 유닛이 존재하지 않으면, 비용이 적은 순으로 정렬(sorting)하여 최종 후보 유닛들을 선정하게 된다(203,205). On the other hand, if there are no candidate units for the previous target unit and a unit continuously present in the voice database 11 among the candidate units for the current target unit, the final candidate units are selected by sorting in the order of low cost. (203, 205).
이러한 과정(202~205)을 타겟 유닛 리스트 안에 타겟 유닛이 존재하지 않을 때까지(206) 반복 수행한다. This
도 3 은 본 발명에 따른 합성 유닛 선택 방법 중 연결비용 계산 및 최종 합성 유닛 결정 과정에 대한 일실시예 상세 흐름도이다. 3 is a detailed flowchart illustrating an embodiment of a connection cost calculation and final synthesis unit determination process in the synthesis unit selection method according to the present invention.
먼저, 상기 도 2에서 선정되어진 후보 유닛들이 입력으로 들어오면(301), 이러한 후보 유닛들 사이에서 연결비용을 세기, 피치, 스펙트럼의 거리를 이용하여 계산한다(302). 이때, 연결비용은 스펙트럼 거리 계산 방식을 달리하여 3가지 방식 으로 계산한다. 즉, 연결 유닛들간 FFT를 이용하여 구한 파워 스펙트럼(Power spectra) 사이의 쿨백-라이블러 거리 계산 방식, MFCC 사이의 유클리디안 거리 계산 방식, FFT를 이용하여 구한 로그 파워 스펙트럼(Log power spectra) 사이의 유클리디안 거리 계산 방식을 이용하여 각각 계산한다.First, when the candidate units selected in FIG. 2 are input (301), the connection cost is calculated using the strength, pitch, and spectrum distance between the candidate units (302). At this time, the connection cost is calculated in three ways by changing the spectral distance calculation method. In other words, the Coolback-Libler distance calculation method between the power spectra obtained using the FFT between the connection units, the Euclidean distance calculation method between the MFCCs, and the log power spectra obtained using the FFT. Calculate each using the Euclidean distance method of.
이후, 이렇게 계산되어진 3가지 연결비용에 기반을 두어 pruned Viterbi search를 통해 3가지 경우의 최소 비용 유닛 열들을 선정한다(303). Then, based on the three connection costs calculated as described above, three minimum cost unit columns are selected through a pruned Viterbi search (303).
그리고, 이렇게 결정되어진 3가지 경우의 유닛 열들 중 가운데 가장 작은 비용을 갖는 열 하나를 최종 합성 유닛열로 결정한다(304). Then, one column having the smallest cost among the three cases of the unit columns determined as described above is determined as the final synthesis unit sequence (304).
도 4 는 본 발명에 따른 합성 유닛 선택 방법 중 연결비용 계산 과정에 대한 일실시예 상세 흐름도이다. 4 is a detailed flowchart illustrating an example of a connection cost calculation process in the synthesis unit selection method according to the present invention.
먼저, 후보 유닛들을 입력받아(401), 연결 유닛들 사이에서 세기, 피치, 스펙트럼 거리를 구한다(402). 이때, 스펙트럼 거리를 구할 때는 다음의 3가지 방식에 의해 구한다. 이는 연결 유닛들간 FFT를 이용하여 구한 파워 스펙트럼(Power spectra) 사이의 쿨백-라이블러 거리, MFCC 사이의 유클리디안 거리, FFT를 이용하여 구한 로그 파워 스펙트럼(Log power spectra) 사이의 유클리디안 거리의 계산이다(403,404,406,408). First, candidate units are input (401), and strength, pitch, and spectral distance are calculated between the connection units (402). At this time, the spectral distance is obtained by the following three methods. This means that the coolback-labeller distance between the power spectra obtained using the FFT between the connecting units, the Euclidean distance between the MFCCs, and the Euclidean distance between the log power spectra obtained using the FFT (403, 404, 406, 408).
이러한 계산 후 각 3가지 방법으로 구한 거리에 각각 정규화 계수(normalizing factor)를 곱해 정규화를 한 후(405,407,409), 최종 스펙트럼 거리로 이용한다. After this calculation, the distance obtained by each of the three methods is multiplied by a normalizing factor, respectively, to normalize them (405, 407, 409), and then used as the final spectral distance.
이러한 다른 거리 계산 방법에 따른 3가지 스펙트럼 거리와 세기, 피치 거리 를 함께 사용하여 3가지 다른 연결비용을 출력으로 내보낸다(410). Using three different spectral distances, intensities, and pitch distances according to these different distance calculation methods, three different connection costs are output to the output (410).
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.As described above, the method of the present invention may be implemented as a program and stored in a recording medium (CD-ROM, RAM, ROM, floppy disk, hard disk, magneto-optical disk, etc.) in a computer-readable form. Since this process can be easily implemented by those skilled in the art will not be described in more detail.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
The present invention described above is capable of various substitutions, modifications, and changes without departing from the technical spirit of the present invention for those skilled in the art to which the present invention pertains. It is not limited by the drawings.
상기와 같은 본 발명은, 합성 유닛를 선택할 때 음성 코퍼스안에서 연속적인 합성 유닛을 선택하도록 하여 합성음질을 향상시킬 수 있는 효과가 있다. The present invention as described above has the effect of improving the synthesized sound quality by selecting a continuous synthesis unit in the voice corpus when selecting the synthesis unit.
또한, 본 발명은 적합한 합성 유닛(단위)을 선택하기 위해 스펙트럼 거리를 계산할 때 여러 가지 거리 계산 방식을 경우에 따라 선택적으로 사용함으로써 보다 좋은 합성 음질을 얻을 수 있는 효과가 있다. In addition, the present invention has an effect of obtaining a better synthesized sound quality by selectively using various distance calculation methods in some cases when calculating the spectral distance to select a suitable synthesis unit (unit).
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040076536A KR101056567B1 (en) | 2004-09-23 | 2004-09-23 | Apparatus and Method for Selecting Synthesis Unit in Corpus-based Speech Synthesizer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040076536A KR101056567B1 (en) | 2004-09-23 | 2004-09-23 | Apparatus and Method for Selecting Synthesis Unit in Corpus-based Speech Synthesizer |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060027652A true KR20060027652A (en) | 2006-03-28 |
KR101056567B1 KR101056567B1 (en) | 2011-08-11 |
Family
ID=37138629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020040076536A KR101056567B1 (en) | 2004-09-23 | 2004-09-23 | Apparatus and Method for Selecting Synthesis Unit in Corpus-based Speech Synthesizer |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101056567B1 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011126809A2 (en) * | 2010-04-05 | 2011-10-13 | Microsoft Corporation | Pre-saved data compression for tts concatenation cost |
WO2022102987A1 (en) * | 2020-11-12 | 2022-05-19 | 삼성전자 주식회사 | Electronic device and control method thereof |
US11763799B2 (en) | 2020-11-12 | 2023-09-19 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102072627B1 (en) | 2017-10-31 | 2020-02-03 | 에스케이텔레콤 주식회사 | Speech synthesis apparatus and method thereof |
KR102108906B1 (en) * | 2018-06-18 | 2020-05-12 | 엘지전자 주식회사 | Voice synthesizer |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2002212992A1 (en) * | 2000-09-29 | 2002-04-08 | Lernout And Hauspie Speech Products N.V. | Corpus-based prosody translation system |
US6978239B2 (en) * | 2000-12-04 | 2005-12-20 | Microsoft Corporation | Method and apparatus for speech synthesis without prosody modification |
KR100641347B1 (en) * | 2002-12-31 | 2006-10-31 | 송우아이엔티 주식회사 | Searching Method for synthesis unit By Using Perturbation in Corpus Based Speech Synthesis |
-
2004
- 2004-09-23 KR KR1020040076536A patent/KR101056567B1/en active IP Right Grant
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011126809A2 (en) * | 2010-04-05 | 2011-10-13 | Microsoft Corporation | Pre-saved data compression for tts concatenation cost |
WO2011126809A3 (en) * | 2010-04-05 | 2011-12-22 | Microsoft Corporation | Pre-saved data compression for tts concatenation cost |
CN102822889A (en) * | 2010-04-05 | 2012-12-12 | 微软公司 | Pre-saved data compression for tts concatenation cost |
US8798998B2 (en) | 2010-04-05 | 2014-08-05 | Microsoft Corporation | Pre-saved data compression for TTS concatenation cost |
WO2022102987A1 (en) * | 2020-11-12 | 2022-05-19 | 삼성전자 주식회사 | Electronic device and control method thereof |
US11763799B2 (en) | 2020-11-12 | 2023-09-19 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
Also Published As
Publication number | Publication date |
---|---|
KR101056567B1 (en) | 2011-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3913770B2 (en) | Speech synthesis apparatus and method | |
US6236963B1 (en) | Speaker normalization processor apparatus for generating frequency warping function, and speech recognition apparatus with said speaker normalization processor apparatus | |
US20070185715A1 (en) | Method and apparatus for generating a frequency warping function and for frequency warping | |
CN103403797A (en) | Speech synthesis device and speech synthesis method | |
US9805711B2 (en) | Sound synthesis device, sound synthesis method and storage medium | |
JP6013104B2 (en) | Speech synthesis method, apparatus, and program | |
KR101056567B1 (en) | Apparatus and Method for Selecting Synthesis Unit in Corpus-based Speech Synthesizer | |
US20090070116A1 (en) | Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method | |
CN102511061A (en) | Method and apparatus for fusing voiced phoneme units in text-to-speech | |
Taubert et al. | A comparison of text selection algorithms for sequence-to-sequence neural tts | |
Hansakunbuntheung et al. | Space reduction of speech corpus based on quality perception for unit selection speech synthesis | |
KR100259777B1 (en) | Optimal synthesis unit selection method in text-to-speech system | |
KR101890303B1 (en) | Method and apparatus for generating singing voice | |
JP2009058548A (en) | Speech retrieval device | |
JP2008046636A (en) | Japanese speech synthesizing method and system using accent phrase matching prior select | |
US9230536B2 (en) | Voice synthesizer | |
KR101361033B1 (en) | Automatic playback system based on melody sound signal | |
US20220383860A1 (en) | Speech recognition apparatus and method | |
KR20100072962A (en) | Apparatus and method for speech synthesis using a plurality of break index | |
Padellini et al. | Very low bit rate (VLBR) speech coding around 500 bits/sec | |
KR101134450B1 (en) | Method for speech recognition | |
JP2009025328A (en) | Speech synthesizer | |
KR100641347B1 (en) | Searching Method for synthesis unit By Using Perturbation in Corpus Based Speech Synthesis | |
Padellini et al. | Dynamic unit selection for Very Low Bit Rate coding at 500 bits/sec | |
Jayasinghe | Machine Singing Generation Through Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20160901 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20180801 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20190731 Year of fee payment: 9 |