KR20050021567A - Concatenative text-to-speech conversion - Google Patents
Concatenative text-to-speech conversion Download PDFInfo
- Publication number
- KR20050021567A KR20050021567A KR10-2005-7001367A KR20057001367A KR20050021567A KR 20050021567 A KR20050021567 A KR 20050021567A KR 20057001367 A KR20057001367 A KR 20057001367A KR 20050021567 A KR20050021567 A KR 20050021567A
- Authority
- KR
- South Korea
- Prior art keywords
- acoustic
- speech
- unit
- text
- parameters
- Prior art date
Links
- 238000006243 chemical reaction Methods 0.000 title description 12
- 238000000034 method Methods 0.000 claims abstract description 34
- 239000013598 vector Substances 0.000 description 43
- 238000012545 processing Methods 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000010606 normalization Methods 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 241000251468 Actinopterygii Species 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 210000002374 sebum Anatomy 0.000 description 2
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000003867 tiredness Effects 0.000 description 1
- 208000016255 tiredness Diseases 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 텍스트를 분할된 음성 유닛들로 분할(S303)하고나서 상기 음성 유닛들 각각에 대해 적합한 음향 유닛을 식별(S304)하는 단계(S303)를 포함하는 텍스트-음성 변환(S300) 방법을 제공한다. 각각의 음향 유닛 AU는 음향 세그먼트들의 음향 유사성에 의해 결정되는 음성 클러스터를 형성하는 음향 세그먼트들을 대표한다. 이후 상기 방법(S300)은 음향 유닛 AU의 운율(prosodic) 파라미터들과 각각의 상기 음성 유닛들 사이의 변동들을 결정(S305)하는 단계를 수행한다. 상기 음향 유닛 및 관련된 변동들의 상기 음성 파라미터들로부터 음향 파라미터들을 생성(S306)하는 단계는 이후 수행되고 그리고나서 상기 음향 파라미터들에 기초하는 출력 음성 신호를 제공하는 단계(S307)에 영향을 미친다. 본 발명은 향상된 합성 음질, 시스템 성능 및 휴대용 디바이스들을 위해 적당히 줄여진 메모리 비용을 제공할 수도 있다.The present invention provides a method of text-to-speech (S300) comprising dividing text into divided speech units (S303) and then identifying (S304) suitable sound units for each of the speech units. do. Each acoustic unit AU represents acoustic segments forming a speech cluster that is determined by the acoustic similarity of the acoustic segments. The method S300 then performs a step S305 of determining the prosodic parameters of the acoustic unit AU and the variations between the respective speech units. Generating acoustic parameters from the speech parameters of the acoustic unit and associated variations (S306) is then performed and then affects providing an output speech signal based on the acoustic parameters (S307). The present invention may provide improved synthetic sound quality, system performance, and a moderately reduced memory cost for portable devices.
Description
본 발명은 연쇄적 텍스트-음성(TTS) 변환에 관한 것이다. 본 발명은 특히 운율(prosodic) 제어로 연쇄적 TTS 합성에 유용하고, 반드시 그것으로 제한되는 것은 아니다.The present invention relates to a concatenated text-to-speech (TTS) transformation. The present invention is particularly useful for, but not necessarily limited to, cascading TTS synthesis with prosodic control.
컴퓨터들, 모바일 전화기들, 또는 개인용 데이터 보조 장치들(PDA)에 저장된 대량의 텍스트 문서들을 판독하는 것은 쉽사리 비전 피로(vision tiredness)에 영향을 줄 수도 있다. 그리고 때때로, 움직이는 차량에서 전자 스크린 상의 데이터를 판독하는 것은 불편하다. 따라서, 이들 문제들을 해결하기 위해 텍스트 문서들을 청취자를 위해 재생되는 음성으로 변환하는 것은 바람직하다.Reading large amounts of text documents stored on computers, mobile phones, or personal data assistants (PDAs) may easily affect vision tiredness. And sometimes, it is inconvenient to read data on an electronic screen in a moving vehicle. Thus, to solve these problems, it is desirable to convert text documents into speech that is played for the listener.
현재, 거의 모든 고품질 텍스트-음성 TTS 합성 기술들은 각 해당 문자, 단어, 또는 어구의 발성 파형 연쇄에 기초한다. 바람직한 발성 파형들은 보통 발성 파형 집합로부터 유도되고, 여기서 상기 발성 파형 집합은 다양한 문장들, 어구들 및 그들의 대응하는 발성 파형들을 저장한다. 바람직한 합성 발성의 질은 집합과 같은 크기에 의존한다.Currently, almost all high quality text-to-speech TTS synthesis techniques are based on the speech waveform chain of each corresponding letter, word, or phrase. Preferred speech waveforms are usually derived from a set of speech waveforms, where the speech waveform set stores various sentences, phrases and their corresponding speech waveforms. Preferred quality of synthetic vocalization depends on the same size as the aggregate.
도 1은 기존의 전형적인 연쇄 TTS 시스템을 도시하고 있다. 상기 시스템은 3개의 부분들, 즉 텍스트 처리부, 음향 세그먼트 베이스, 및 음성 신시사이저를 포함한다. 상기 시스템은 먼저 문장들 및 단어들을 단어 세그먼트들로 브레이크-업(break up)하고나서, 상기 대응하는 문자들을 사전(Lexicon)의 보조와 함께 음성 심볼들로 할당한다. 이후, 일련의 분할된 음성 심볼들은 상기 발성 또는 어구 파형 집합으로부터의 음향 세그먼트들로 매칭되고, 그에 따라 최상으로 매칭된 음향 세그먼트들을 얻을 것이다. 결국, 출력 음성을 얻기 위해 선택된 음향 세그먼트들은 적합한 브레이크들의 삽입으로 연쇄될 것이다.1 illustrates an existing typical chain TTS system. The system includes three parts: a text processor, an acoustic segment base, and a voice synthesizer. The system first breaks up sentences and words into word segments and then assigns the corresponding letters to phonetic symbols with the assistance of a Lexicon. Then, a series of divided speech symbols are matched with acoustic segments from the speech or phrase waveform set, thus obtaining the best matched acoustic segments. Eventually, the acoustic segments selected to obtain the output voice will be chained to the insertion of the appropriate brakes.
기존의 그러한 TTS 시스템은 보통 발성 파형을 직접 저장한다. 그러나, 사람의 발성과 매우 가까운 음성 효과를 얻기 위해, 대부분의 상황들의 음성 특징들을 포함하는 모든 종류들의 음성 환경들에서 대량의 발성 파형들을 저장하는 것이 요구될 것이다. 거대한 양의 발성 파형의 저장은 많은 메모리 공간을 요구한다. 고품질 텍스트-음성 시스템은 보통 수백 메가 바이트의 메모리 용량을 요구한다. 모바일 전화기 또는 PDA와 같은 포켓용 디바이스에 대해, 하드웨어와 비용의 제한에 기인하여 상기 메모리 용량은 보통 단지 약간의 메가 바이트이다. 따라서, 그들 휴대용 디바이스들에서, 고품질 텍스트-음성을 갖는 것은 어렵다. 이는 이들 기술 분야에서 텍스트-음성 변환의 사용을 제한한다.Such conventional TTS systems usually store voice waveforms directly. However, in order to obtain a voice effect very close to human speech, it will be required to store large amounts of speech waveforms in all kinds of speech environments, including speech characteristics of most situations. The storage of huge amounts of speech waveforms requires a lot of memory space. High quality text-to-speech systems typically require hundreds of megabytes of memory capacity. For portable devices such as mobile phones or PDAs, the memory capacity is usually only a few megabytes due to hardware and cost constraints. Thus, in those portable devices, it is difficult to have high quality text-voice. This limits the use of text-to-speech conversions in these technical fields.
도 1은 종래 기술의 텍스트-음성 변환 시스템을 도시한 도면.1 illustrates a prior art text-to-speech system.
도 2는 본 발명에 따른 텍스트-음성 변환 시스템을 도시한 도면.2 illustrates a text-to-speech system according to the present invention.
도 3은 본 발명에 따른 텍스트-음성 변환 방법을 예시하는 흐름도.3 is a flowchart illustrating a text-to-speech method according to the present invention.
발명의 요약Summary of the Invention
본 발명은 텍스트-음성 변환 방법을 제공하고, 상기 방법은: 텍스트를 분할된 음성 유닛들로 분할하는 단계와, 각각의 상기 음성 유닛들에 대해 적합한 음향 유닛을 식별하는 단계로서, 각각의 음향 유닛은 음향 유사성에 의해 결정되는 음성 클러스터를 형성하는 음향 세그먼트들을 나타내는, 상기 식별 단계와, 음향 유닛의 운율 파라미터들(prosodic parameters)과 각각의 상기 음성 유닛들 사이의 변동들을 결정하는 단계와, 음향 세그먼트를 선택하기 위해 상기 음향 유닛의 음성 파라미터들 및 관련된 변동들로부터 음향 파라미터들을 생성하는 단계, 및 상기 음향 세그먼트에 기초하는 출력 음성 신호를 제공하는 단계를 포함한다.The present invention provides a text-to-speech conversion method, the method comprising: dividing text into divided speech units and identifying a suitable sound unit for each of the speech units, wherein each sound unit Denoting the acoustic segments forming a speech cluster determined by acoustic similarity, determining the prosodic parameters of the acoustic unit and the variations between each of the speech units; Generating acoustic parameters from the speech parameters and associated variations of the acoustic unit to select a, and providing an output speech signal based on the acoustic segment.
적절하게, 상기 음성 파라미터들은 피치, 지속 기간 또는 에너지를 포함한다.Suitably, the speech parameters include pitch, duration or energy.
바람직하게, 상기 결정하는 단계는 어구 또는 문장, 동시 조음(co-articulation), 어구 길이 또는 상기 음향 유닛의 인접 문자들에서의 상기 음향 유닛의 위치에 기초한다.Preferably, the determining step is based on a phrase or sentence, co-articulation, phrase length or the position of the acoustic unit in adjacent characters of the acoustic unit.
상기 분할 단계는 텍스트의 문장들을 음절들로 분할하는 것을 특징으로 할 수도 있다. 적절하게, 상기 음성 유닛들은 음절들이다. 상기 음성 유닛들은 음성 심볼로 할당될 수도 있다. 적절하게, 상기 음성 심볼은 병음(pinyin) 표현이다.The dividing step may be characterized by dividing the sentences of the text into syllables. Suitably, the speech units are syllables. The speech units may be assigned to speech symbols. Suitably, the negative symbol is a pinyin representation.
다른 형태에 있어서, 제공되는 텍스트-음성 변환 시스템이 있다. 상기 시스템은 입력 텍스트에 기초한 단어 분할 후 음성 심볼들의 문장을 형성하는 텍스트 처리기를 포함한다. 텍스트-음성 변환 시스템은 적어도 발성 주석 집합, 및 음향 유닛 인덱스(AU 인덱스)와 음성 벡터들(PV) 선택 디바이스를 포함하는 음향 및 음성 제어기를 더 포함한다. 상기 발성 주석 집합은 적어도 음향 유닛(AU) 인덱스들 및 음성 벡터들(PV)을 포함한다. 상기 음향 유닛 인덱스(AU 인덱스) 및 음성 벡터(PV) 선택 디바이스는 단어 분할 후 연속적인 음성 심볼들을 수신하고, 음향 유닛(AU) 인덱스들 및 음성 벡터들(PV)을 포함하는 일련의 제어 데이터를 생성한다. 텍스트-음성 변환 시스템은 또한, 적어도 음향 파라미터 베이스를 포함하는 신시사이저를 포함하고, 상기 신시사이저는 음향/운율 제어기로부터의 제어 데이터에 응답하고, 그에 따라 음성을 합성한다.In another form, there is a text-to-speech system provided. The system includes a text processor that forms sentences of speech symbols after word segmentation based on input text. The text-to-speech conversion system further comprises an acoustic and speech controller comprising at least a speech annotation set and a sound unit index (AU index) and a speech vectors (PV) selection device. The speech annotation set includes at least acoustic unit (AU) indices and speech vectors PV. The acoustic unit index (AU index) and speech vector (PV) selection device receive successive speech symbols after word division, and receive a series of control data comprising acoustic unit (AU) indexes and speech vectors PV. Create The text-to-speech conversion system also includes a synthesizer that includes at least an acoustic parameter base, the synthesizer responsive to control data from the sound / rhyme controller, and thus synthesize speech.
본 발명은 또한 연쇄적 텍스트-음성 시스템을 통해 텍스트 엔트리를 대응하는 합성 음성으로 변환하는 방법을 제공한다. 연속적인 분할 음성 심볼들을 생성하기 위해 상기 방법은, 텍스트 입력을 처리하고 변환하는 단계와, 매칭된 주석 콘텍스트를 페치(fetch)하는 최대 정합을 찾기 위해 적어도 음향 유닛(AU) 인덱스들을 포함하는 발성 주석 집합을 탐색하는 단계와, 상기 연속 분할된 음성 심볼들의 매칭된 부분들을 AU 인덱스들 및 운율 벡터로 대신하는 단계와, 적어도 AU 인덱스들 및 운율 벡터들을 가진 연속적인 제어 데이터를 생성하는 단계, 및 상기 제어 데이터에 응답하여 합성 음성을 생성하는 단계를 포함한다.The present invention also provides a method for converting text entries into corresponding synthesized speech via a cascaded text-to-speech system. The method for generating successive segmented speech symbols comprises processing and transforming text input and a speech annotation comprising at least acoustic unit (AU) indices to find the maximum match that fetches a matched annotation context. Searching for a set, replacing matched portions of the successive segmented speech symbols with AU indexes and rhyme vectors, generating continuous control data with at least AU indexes and rhyme vectors, and Generating a synthesized speech in response to the control data.
본 발명은 또한 상징적인 집합을 형성하는 방법을 제공한다. 상기 방법은, 발성들을 음향 세그먼트들(AS)로 슬라이싱하는 단계와, 음성 분류 및 음향 유사성을 고려하여 상기 AS를 클러스터들로 그룹화하는 단계와, 클러스터에서 모든 음향 세그먼트들을 나타내는 음향 유닛(AS)을 선택하는 단계와, 상기 음향 유닛들을 화소당 각 시퀀스들의 파라미터들로 변환하는 단계와, 각 AU의 상기 화소 파라미터들을 연속적인 벡터 인덱스들로 벡터-양자화하는 단계와, 프레임-기반 스칼라 파라미터들 및 벡터 인덱스들을 포함하는 AU 파라미터 베이스를 형성하는 단계와, 모든 AS에 대해 매칭된 AU를 찾고 AU와 AS 사이에서 각각의 운율 벡터들을 결정하는 단계, 및 최초의 AS 파형 집합 대신에 발성 주석 집합을 형성하기 위해 음향 세그먼트들을 음성 심볼들, AU 인덱스들, 및 운율 벡터들로 대신하는 단계를 포함한다. 이러한 방식에서, 상기 집합에 대해 실제 사람의 발성에 기초하여, 본 발명은 상기 발성 또는 음향 세그먼트들을 그룹화하고, 클러스터 및 상기 음향 세그먼트들과 상기 음향 유닛 사이의 차이에서 모든 음향 세그먼트들을 대신하는 것으로서 단지 음향 유닛만을 저장하고, 최초의 발성 파형들을 나타내는 파라미터들을 이용하며, 그에 따라 상기 발성 주석 집합에 저장되는 데이터의 양을 효율적으로 줄인다.The invention also provides a method of forming a symbolic aggregate. The method comprises the steps of slicing speech into acoustic segments (AS), grouping the AS into clusters taking into account voice classification and acoustic similarity, and an acoustic unit (AS) representing all acoustic segments in a cluster. Selecting, converting the acoustic units into parameters of respective sequences per pixel, vector-quantizing the pixel parameters of each AU into consecutive vector indices, frame-based scalar parameters and vector Forming an AU parameter base comprising the indices, finding a matched AU for all ASs, determining respective rhyme vectors between the AUs and ASs, and forming a speech annotation set instead of the original AS waveform set Replacing sound segments with speech symbols, AU indices, and rhyme vectors. In this way, based on the actual human utterance for the set, the present invention groups the utterance or acoustic segments and replaces all acoustic segments only in a cluster and in the difference between the acoustic segments and the acoustic unit. Only the sound unit is stored, and parameters representing the original speech waveforms are used, thereby effectively reducing the amount of data stored in the speech annotation set.
본 발명에 따르면, 상기 음성 심볼들은 각 클러스터의 어느 음향 세그먼트들을 대신하도록 이용되고, 그에 따라 메모리의 요구되는 데이터의 개수를 효율적으로 줄이고 메모리 공간을 절약한다. 게다가, 음향 유닛 파형을 대신하는 그러한 파라미터들을 이용하여, 음향 유닛 파라미터 베이스를 형성하기 위해 본 발명은 각 음향 유닛 파형을 일련의 파라미터들로 변환하고, 그에 따라 또한 상기 음향 유닛들을 저장하는데 요구되는 메모리 공간을 줄인다. 상기 음향 유닛들과 음향 세그먼트들 사이의 차이를 이용함으로써 본 발명은 상기 음향 세그먼트들을 나타내고, 상기 음향 세그먼트들의 파형을 각 음향 세그먼트와 그의 대응하는 음향 유닛 파라미터들의 음성 심볼들 및 그들 사이의 차이로 대신한다. 이는 각 음향 세그먼트에 대응하는 음절의 발성 정보를 표현할 수 있고, 그에 따라 왜곡을 줄인다.According to the present invention, the speech symbols are used to replace any acoustic segments of each cluster, thus effectively reducing the number of required data in the memory and saving memory space. In addition, using such parameters in place of the acoustic unit waveform, the present invention converts each acoustic unit waveform into a series of parameters to form an acoustic unit parameter base, and thus also the memory required to store the acoustic units. Reduce space By utilizing the difference between the acoustic units and acoustic segments, the present invention represents the acoustic segments and instead replaces the waveform of the acoustic segments with the speech symbols of each acoustic segment and its corresponding acoustic unit parameters and the difference between them. do. This can express the speech information of the syllable corresponding to each acoustic segment, thereby reducing the distortion.
본 발명은 고효율의 텍스트-음성 변환 방법 및 장치를 제공하고, 고품질의 합성 음성을 제공한다. 요구되는 시스템 성능 및 메모리 공간은 일반 컴퓨터들에 대해서 뿐만아니라, 작은 휴대용 디바이스들에 대해서도 적절하게 한다.The present invention provides a high-efficiency text-to-speech method and apparatus, and provides high quality synthesized speech. The system performance and memory space required make it suitable for small portable devices as well as for ordinary computers.
바람직한 실시예의 상세한 설명Detailed description of the preferred embodiment
도 1을 참조하면, 종래 기술의 TTS 변환 시스템이 도시되어 있다. 상기 시스템은 3개의 주요 부분들, 즉 텍스트 프로세서(100), 음향 세그먼트 베이스(200), 및 신시사이저(300)를 포함한다. 상기 텍스트 프로세서(100)의 주요 기능은 정규화되고 분할된 입력 텍스트를 갖는 것이고, 이후 상기 텍스트의 문자들을 대응하는 음성 심볼들로 할당하는 것이다. 상기 시스템은 상기 음향 세그먼트 베이스(200)에 저장된 상기 음성 심볼 시퀀스를 매칭하는 것에 연속하는 상기 얻어진 음성 심볼을 이용하는 것이고, 이후 대응하는 발성 또는 어구들의 음향 세그먼트들에 대응하는 상기 음성 심볼들을 대신한다. 결국, 신시사이저(300)은 적절한 브레이크들의 삽입으로 텍스트에 따라 이들 음향 세그먼트들을 연쇄시키고, 그에 따라 요구되는 음성 출력을 얻는다. 상기 음향 세그먼트 베이스(200)는 거대한 양의 텍스트 콘텐트 정보 및 상기 텍스트 콘텐트의 발성들을 저장한다. 발성 정보가 많으면 많을 수록, 합성 음성은 실제 사람의 발성에 더 가까이 있다. 입력 텍스트의 문장이 음향 세그먼트 베이스에 저장된 문장과 완전히 그리고 직접적으로 매칭되면, 이 저장된 문장의 파형은 음성 출력, 즉 기록된 실제 발성에 직접 사용될 수 있다. 그러나, 대부분의 경우, 상기 시스템을 그러한 완전히 매칭된 문장을 발견할 수 없다. 이 경우에, 이 문장의 단어들 및 어구들의 부분 매칭은 요구되고 따라서 단어 분할을 행하는 것이 필수적이다. 이후, 대응하는 음향 세그먼트들은 TTS 변환을 제공하도록 식별된다.Referring to Figure 1, a prior art TTS conversion system is shown. The system includes three main parts: text processor 100, acoustic segment base 200, and synthesizer 300. The main function of the text processor 100 is to have normalized and split input text, and then assign characters of the text to corresponding phonetic symbols. The system utilizes the obtained speech symbol subsequent to matching the speech symbol sequence stored in the acoustic segment base 200 and then replaces the speech symbols corresponding to the acoustic segments of the corresponding speech or phrases. In turn, synthesizer 300 chains these acoustic segments in accordance with the text with the insertion of the appropriate breaks, thus obtaining the required audio output. The acoustic segment base 200 stores a huge amount of text content information and utterances of the text content. The more speech information there is, the closer the synthesized speech is to the actual human speech. If the sentence of the input text matches completely and directly with the sentence stored in the acoustic segment base, the waveform of this stored sentence can be used directly for the speech output, ie the actual utterance recorded. In most cases, however, the system cannot find such a perfectly matched sentence. In this case, partial matching of words and phrases in this sentence is required and thus word division is essential. The corresponding acoustic segments are then identified to provide a TTS transform.
도 1에서, 텍스트 정규화 유닛(110)을 사용하여 입력 텍스트는 먼저 정규화된다. 이후, 사전(120)에 의해 안내된, 단어 분할 유닛(130)은 구두 식별 및 단어 분할 절차들에 의해, 문장 분할을 수행한다. 상기 단어 분할 후, 음성 심볼 할당 유닛(140) 및 음향 세그먼트 선택 유닛(250)은 음향 세그먼트 베이스(200)내의 음향 세그먼트들을 탐색하고 선택하기 위해 발성 또는 어구 집합(260)을 이용한다. 선택된 세그먼트들은 브레이크 발생 회로(380)로 보내지고 음향 세그먼트 연쇄 유닛(370)으로 보내진다. 브레이크 발생 유닛(30)은 음향 세그먼트 연쇄 유닛(370)에 제공되는 브레이크 정보를 발생시킨다. 음향 세그먼트 연쇄 유닛(370)은 적합한 브레이크들을 연결하고 추가하며, 음성 신호들을 파형 사후-처리 장치로 출력시킨다. 이후 파형 사후-처리 유닛(390)은 합성 변환된 음성 신호들을 출력한다.In FIG. 1, input text is first normalized using text normalization unit 110. Thereafter, the word dividing unit 130, guided by the dictionary 120, performs sentence division by oral identification and word dividing procedures. After the word division, speech symbol assignment unit 140 and acoustic segment selection unit 250 use speech or phrase set 260 to search for and select acoustic segments within acoustic segment base 200. The selected segments are sent to the brake generating circuit 380 and to the acoustic segment chain unit 370. The brake generation unit 30 generates brake information provided to the acoustic segment chain unit 370. The acoustic segment chain unit 370 connects and adds appropriate brakes and outputs speech signals to the waveform post-processing device. The waveform post-processing unit 390 then outputs the synthesized converted speech signals.
연쇄 TTS 변환 방법 또는 시스템에 대하여, 고유 발음의 질은 발성 파형 집합의 크기와 적합한 음향 세그먼트들의 선택에 의존한다. 메모리 공간을 절약하기 위해, 본 발명은 주로 발성 파형들의 파라미터들을 저장하고, 이후 요구되는 음성을 합성하기 위해 이들 파라미터들을 이용하고, 그에 따라 메모리 저장 오버헤드들을 줄인다.For a concatenated TTS conversion method or system, the quality of intrinsic pronunciation depends on the size of the speech waveform set and the selection of suitable acoustic segments. In order to save memory space, the present invention mainly stores the parameters of the spoken waveforms and then uses these parameters to synthesize the required speech, thus reducing memory storage overheads.
본 발명은 발성 주석 집합을 형성하는 방법을 제공한다. 이 방법은 발성 파형 집합을 형성하는 다음의 단계들을 포함한다. 그것은 먼저 사람의 발성들을 다양한 텍스트들을 읽는 동안 기록하고, 이들 발성들을 행 발성 파형 집합에 저장한다. 양호한 음성 및 운율 균형으로 행 발성 파형 집합을 만들기 위해 이들 발성들은 주의 깊게 선택된다.The present invention provides a method of forming a set of voiced tin. The method includes the following steps of forming a set of speech waveforms. It first records human utterances while reading various texts and stores these utterances in a row utterance waveform set. These speeches are carefully selected to produce a set of behavioral waveforms with good speech and rhyme balance.
발성 파형들은 복수의 음향 세그먼트들(AS)로 분할된다. 각 음향 세그먼트(AS)는 보통 어떤 언어 환경에서 문자의 발성에 대응한다. 각 음향 세그먼트는 상세한 텍스트에서 음절 또는 서브-음절의 상세한 표현이고, 한정적인 음성 수단을 가진다. 보통, 다른 언어 환경에서 각 문자의 음성 심볼은 많은 다른 음향 세그먼트들에 대응할 수도 있다. 음향 연쇄의 목적은 상세한 언어 환경에서의 각 문자, 단어, 또는 어구의 요구되는 적합한 음향 세그먼트를 찾아내는 것이고, 이후 음향 세그먼트들을 함께 연결한다.The spoken waveforms are divided into a plurality of acoustic segments AS. Each acoustic segment AS typically corresponds to the utterance of characters in a certain language environment. Each acoustic segment is a detailed representation of syllables or sub-syllables in the detailed text and has finite speech means. Usually, in other language environments the phonetic symbols of each letter may correspond to many different acoustic segments. The purpose of the acoustic chain is to find the required suitable acoustic segment of each letter, word, or phrase in a detailed language environment, and then connect the acoustic segments together.
음향 세그먼트들(AS)의 음성 분류 및 음향 유사성에 따르면, 상기 음향 세그먼트들(AS)은 그것들의 음향 유사성에 의해 결정되는 클러스터들(CR)로 그룹화된다. 각 클러스터(CR)에서, 음향 유닛(AU)으로 칭해지는 하나의 음향 세그먼트(AS)는 상기 클러스터(CR)내 모든 음향 세그먼트들(AS)의 표현으로서 선택된다. 모든 음향 유닛들(AU)은 음향 유닛 파라미터 베이스(231)를 형성한다. 종래 기술과 비교하여, 본 발명은 클러스터(CR)를 나타내기 위해 음향 유닛(AU)을 이용하고, 클러스터(CR)내 모든 다른 음향 세그먼트들(AS)은 상기 클러스트(CR)의 상기 음향 세그먼트와 비교하여 운율 변동들을 나타내는 오프셋 파라미터들에 의해 저장된다. 이것을 참조하면, 클러스터(CR)내 모든 음향 세그먼트들(AS) 사이에는 비교적 작은 변동이 있다. 따라서 각 음향 유닛(AU)은 프레임당 일련의 파라미터들로 변환되고 음향 유닛 파라미터 베이스(231)에 저장된다. 프레임 벡터 코드북(232)을 이용하여, 각 음향 유닛의 상기 "프레임 파라미터들"은 벡터 인덱스들과 음향 유닛 파라미터들의 시퀀스로서 벡터-양자화될 것이다. 이 경우에, 음향 유닛 인덱스들은 실제 음향 유닛 데이터를 대신하도록 이용되고, 그에 따라 필수 저장되는 데이터를 줄인다. 음성 연쇄 및 합성하는 동안, 음향 유닛 인덱스들을 이용하는 것은 벡터 인덱스들 및 음향 유닛 파라미터들로 안내될 것이고, 이후 상기 벡터 인덱스들은 최초 발성 파형들의 프레임 파라미터들로 안내될 것이다. 이후, 상기 프레임 파라미터들을 이용하여 사람의 처음의 발성 파형들은 합성될 수 있다.According to the speech classification and acoustic similarity of the acoustic segments AS, the acoustic segments AS are grouped into clusters CR which are determined by their acoustic similarity. In each cluster CR, one acoustic segment AS called an acoustic unit AU is selected as a representation of all acoustic segments AS in the cluster CR. All acoustic units AU form an acoustic unit parameter base 231. Compared with the prior art, the present invention uses an acoustic unit (AU) to represent a cluster (CR), and all other acoustic segments (AS) in the cluster (CR) are associated with the acoustic segment of the cluster (CR). Stored by offset parameters that indicate rhyme variations in comparison. Referring to this, there is a relatively small variation between all acoustic segments AS in the cluster CR. Each acoustic unit AU is thus converted into a series of parameters per frame and stored in the acoustic unit parameter base 231. Using frame vector codebook 232, the "frame parameters" of each acoustic unit will be vector-quantized as a sequence of vector indices and acoustic unit parameters. In this case, acoustic unit indices are used to replace the actual acoustic unit data, thus reducing the necessary stored data. During speech concatenation and synthesis, using acoustic unit indices will be guided to vector indices and acoustic unit parameters, which will then be guided to frame parameters of the original speech waveforms. The human's first speech waveforms can then be synthesized using the frame parameters.
예를 들면, 중국어에서 AU는 함축된 톤(tone)(1 내지 5)를 가진, 음향 유닛들 AU를 나타내는 프레임들은 다음의 형태로 음향 유닛 파라미터 베이스(231)에 저장된다:For example, in Chinese, the frames representing acoustic units AU, with AU implied tones 1-5, are stored in the acoustic unit parameter base 231 in the following form:
프레임_AU_n_(피치,지속 기간,에너지); 이 실시예에서 피치는 180~330(Hz)의 범위를 가지고; 지속 기간은 165~452ms의 범위를 가지며; 에너지는 측정된 RMS(루트 평균 제곱, Root Mean Square) 파워 값을 변경시키는, 처리되고 디지털화된 발성들로부터 유도되는 770~7406의 범위를 가진다.Frame_AU_n_ (pitch, duration, energy); In this embodiment the pitch ranges from 180 to 330 (Hz); The duration ranges from 165 to 452 ms; The energy ranges from 770-7406 derived from processed and digitized utterances that change the measured RMS (root mean square) power value.
본 기술의 당업자에게는 명백할 것이지만, 피지, 에너지 및 지속 기간은 운율 벡터들 또는 파라미터들로서 표현되는 운율 특징들이다. 따라서, 음성 또는 병음 "Yu(2)"에 대한 음향 유닛 AU는, 프레임_AU_51_(254,251,3142)로서 저장될 수도 있고, "Mao (1)"은 프레임_AU_1001_(280,190,2519)로서 저장될 수도 있다.As will be apparent to those skilled in the art, sebum, energy and duration are rhyme features expressed as rhyme vectors or parameters. Thus, the sound unit AU for the voice or pinyin "Yu (2)" may be stored as frame_AU_51_ (254,251,3142) and "Mao (1)" may be stored as frame_AU_1001_ (280,190,2519). It may be.
발성 파형 집합의 각 클러스트 CR의 각 음향 세그먼트 AS는 음향 유닛 파라미터 베이스의 대응하는 음향 유닛 인덱스들로 맵핑된다. 각 음향 세그먼트는 음향 세그먼트들 AS의 클러스터들 CR 중 하나를 나타내는 음향 유닛 AU를 통해 얻어질 수 있다.Each acoustic segment AS of each cluster CR of the speech waveform set is mapped to corresponding acoustic unit indices of the acoustic unit parameter base. Each acoustic segment may be obtained via an acoustic unit AU representing one of the clusters CR of acoustic segments AS.
음향 세그먼트와 그것의 대응하는 음향 유닛 사이의 운율 벡터는 유도될 수 있다. 상기 운율 벡터는 각 클러스터의 음향 세그먼트들과 상기 클러스터를 나타내는 음향 유닛 사이의 파라미터들의 차이를 나타낸다. 그러한 파라미터 차이는 물리적 순간의 그것들의 차이에 기초한다. 그러므로, 음향 세그먼트는 대표적인 음향 유닛과 어떤 운율 벡터를 통해 발견될 수 있다. 그에 따라 발성 주석 집합은 각 세그먼트의 음성 심볼들, 그의 대응하는 음향 유닛 인덱스들 및 음향 세그먼트 파형들에 대신하여 그의 운율 벡터에 의해 생성된다.The rhyme vector between the sound segment and its corresponding sound unit can be derived. The rhyme vector represents the difference in parameters between the sound segments of each cluster and the sound unit representing the cluster. Such parameter differences are based on their differences at physical moments. Therefore, the acoustic segment can be found through the representative sound unit and some rhyme vector. The speech annotation set is thus produced by its rhyme vector in lieu of the speech symbols of each segment, its corresponding acoustic unit indices and acoustic segment waveforms.
도 2를 참조하면, 텍스트-음성의 연쇄 합성이 설명되고 있다. 텍스트-음성의 연쇄는 세 주요 부분을 포함한다: 텍스트 처리, 음향과 운율 제어, 및 음성 합성. 상기 텍스트 처리를 통해, 상기 입력 텍스트는 음향 및 운율 제어를 위해 사용되는 음성 심볼들로 변환된다. 데이터-구동 제어를 통해, 음향 및 운율 제어부는 음향 유닛 인덱스들과 운율 벡터들로 변환하기 위한 음성 심볼들을 매칭하도록 발성 주석 집합을 사용하고, 이후 룰-구동(rule-driven) 제어를 통해, 음향 주석 집합으로부터 매칭되지 않은 음성 심볼들은 요구된 음향 유닛 인덱스들 및 운율 벡터들로 변환될 것이다. 음성 신시사이저에서, 얻어진 음향 유닛 인덱스들과 운율 벡터들은 음향 유닛 파라미터 베이스 및 화소 벡터 코드북을 통해 고유 발성 파형의 화소 파라미터들로 변환될 것이고, 이후 합성 음성으로 연쇄될 것이다.Referring to Fig. 2, a text-voice chain synthesis is described. The text-to-speech chain includes three main parts: text processing, sound and rhyme control, and speech synthesis. Through the text processing, the input text is converted into speech symbols used for sound and rhyme control. Through data-driven control, the sound and rhyme control uses the speech annotation set to match sound unit indices and speech symbols for conversion to rhyme vectors, and then through rule-driven control, the sound Unmatched speech symbols from the annotation set will be converted to the required sound unit indices and rhyme vectors. In the speech synthesizer, the obtained sound unit indices and rhyme vectors will be converted into pixel parameters of the eigenwave waveform through the sound unit parameter base and the pixel vector codebook and then concatenated into synthesized speech.
먼저, 텍스트 처리가 간단히 설명된다. 기존의 연쇄 텍스트-음성 변환과 유사하게, 본 발명의 입력 텍스트는 텍스트 프로세서(201)에서 먼저 처리된다. 텍스트 정규화 유닛(211)을 통해, 입력 불규칙 텍스트는 분류되고 시스템의 정규화된 텍스트 포멧으로 변환된다. 이후, 단어 분할 유닛(212)은 사전(213) 및 관련 룰 베이스(도시되지 않음)에 따라 정규화된 텍스트를 단어 세그먼트들의 시리즈들로 분할한다. 상기 분할 후, 음성 심볼 할당 유닛(214)은 입력 텍스트의 문자들 및 단어들을 일련의 음성 심볼들로 변환한다. 중국어를 고려할 때, 음성 심볼들은 병음 표현에 의해 표현될 것이다. 따라서 문자 "魚"(중국어로 물고기)가 유닛(211)에서 수신된다면 이것은 (2)가 Yu의 제 2 음조의 발음을 표시하는 장소인 유닛(214)에서 병음 "Yu(2)"으로 변환될 것이다.First, text processing is briefly described. Similar to existing concatenated text-to-speech conversions, the input text of the present invention is first processed in text processor 201. Through text normalization unit 211, input irregular text is classified and converted into the system's normalized text format. The word dividing unit 212 then divides the normalized text into series of word segments according to the dictionary 213 and the associated rule base (not shown). After the division, the speech symbol assignment unit 214 converts the characters and words of the input text into a series of speech symbols. Considering Chinese, phonetic symbols will be represented by Pinyin representation. Thus if the letter "魚" (fish in Chinese) is received at unit 211 this will be converted to pinyin "Yu (2)" at unit 214, where (2) represents the pronunciation of the second tone of Yu. will be.
본 발명의 음향 및 음성 제어기(202)는 음성 심볼들의 상기 얻어진 시퀀스의 분석 및 과정을 수행한다. 음향 및 음성 제어기(202)는 발성 주석 집합(221), 음향 유닛 인덱스 및 운율 벡터 선택 유닛(222), 운율 룰 베이스(223), 및 운율 상세화 유닛(224)를 포함한다. 본 발명은 음향 및 운율 정보를 발생시키기 위해 음향 및 운율의 다중 제어들을 이용한다. 상기 제어는 두 스테이지들, 즉 데이터-구동 제어 및 룰-구동 제어를 포함한다.The acoustic and speech controller 202 of the present invention performs the analysis and processing of the obtained sequence of speech symbols. The sound and voice controller 202 includes a voice annotation set 221, a sound unit index and rhyme vector selection unit 222, a rhyme rule base 223, and a rhyme detailing unit 224. The present invention utilizes multiple controls of sound and rhyme to generate sound and rhyme information. The control includes two stages: data-driven control and rule-driven control.
종래 기술에서, 상기 입력 텍스트의 각 음성 심볼에 대해, 먼저 출력으로서 발성 파형 집합에서의 매칭 음향 세그먼트를 탐색해야 한다. 본 발명은 발성 파형 집합을 직접 사용하지 않고, 정합 음향 세그먼트들의 파라미터들을 탐색하기 위해 발성 주석 집합을 사용한다.In the prior art, for each voice symbol in the input text, one must first search for matching acoustic segments in the speech waveform set as output. The present invention does not use a speech waveform set directly, but uses a speech annotation set to search for parameters of matching acoustic segments.
데이터-구동 제어 스테이지에서, 상기 제어 분할로부터 얻어진 음성 심볼들의 시퀀스에 대하여, 상기 음향 유닛 인덱스 및 운율 벡터 선택 유닛(222)은 텍스트 관계성 또는 운율 관계성을 이용함으로써 먼저 발성 주석 집합(221)으로부터 정합을 찾는다. 매칭 음성 심볼은 해당 음향 유닛 인덱스와 발성 주석 집합에서의 음성 벡터로 대체된다. 매칭된 부분이 하나 이상의 브레이크들을 포함하면, 그에 따라 음향 유닛의 파라미터들 브레이크 정보를 포함하도록 상기 브레이크를 나타내는 특정 음향 유닛은 삽입된다.In the data-driven control stage, for the sequence of speech symbols obtained from the control division, the sound unit index and rhyme vector selection unit 222 first obtains from the speech annotation set 221 by using text relation or rhyme relation. Find the match. The matching speech symbol is replaced with a speech vector in the corresponding sound unit index and speech annotation set. If the matched part comprises one or more brakes, then the specific acoustic unit representing the brake is inserted so as to contain the parameters brake information of the acoustic unit.
비매칭된 음성 심볼에 대하여 상기 데이터-구동 단계 동안, 텍스트 정규화 유닛(110)을 사용하여 입력 텍스트는 먼저 정규화된다. 이후, 사전(120)에 의해 안내된, 단어 분할 유닛(130)은 구두 식별 및 단어 분할 절차들에 의해, 문장 분할을 수행한다. 상기 단어 분할 후, 음성 심볼 할당 유닛(140) 및 음향 세그먼트 선택 유닛(250)은 음향 세그먼트 베이스(200)내의 음향 세그먼트들을 탐색하고 선택하기 위해 발성 또는 어구 집합(260)을 이용한다. 선택된 세그먼트들은 브레이크 발생 회로(380)로 보내지고 음향 세그먼트 연쇄 유닛(370)으로 보내진다.During the data-driven step for unmatched speech symbols, input text is first normalized using text normalization unit 110. Thereafter, the word dividing unit 130, guided by the dictionary 120, performs sentence division by oral identification and word dividing procedures. After the word division, speech symbol assignment unit 140 and acoustic segment selection unit 250 use speech or phrase set 260 to search for and select acoustic segments within acoustic segment base 200. The selected segments are sent to the brake generating circuit 380 and to the acoustic segment chain unit 370.
음향 및 음성 제어기(202)의 출력은 음향 유닛의 발성 특징들을 반영하는 일련의 제어 데이터와, 음성 벡터들 및 필요 브레이크 심볼들를 포함한다. 예를 들면, 브레이크 발생 유닛(30)은 음향 세그먼트 연쇄 유닛(370)에 제공되는 브레이크 정보를 발생시킨다.The output of the acoustic and speech controller 202 includes a series of control data reflecting the speech features of the acoustic unit, speech vectors and necessary break symbols. For example, the brake generation unit 30 generates brake information provided to the acoustic segment chain unit 370.
상기 시스템은 또한 음성 유닛 파라미터 베이스(231)을 포함하는 음성 파형 신시사이저(203)을 가진다. 음향 세그먼트 연쇄 유닛(370)은 적합한 브레이크들을 연결하고 추가하며, 음성 신호들을 파형 사후-처리 장치로 출력시킨다. 이후 파형 사후-처리 유닛(390)은 합성 변환된 음성 신호들을 출력한다.The system also has a speech waveform synthesizer 203 that includes a speech unit parameter base 231. The acoustic segment chain unit 370 connects and adds appropriate brakes and outputs speech signals to the waveform post-processing device. The waveform post-processing unit 390 then outputs the synthesized converted speech signals.
연쇄 TTS 변환 방법 또는 시스템에 대하여, 고유 발음의 질은 발성 파형 집합의 크기와 적합한 음향 세그먼트들의 선택에 의존한다. 메모리 공간을 절약하기 위해, 본 발명은 주로 발성 파형들의 파라미터들을 저장하고, 이후 요구되는 음성을 합성하기 위해 이들 파라미터들을 이용하고, 그에 따라 메모리 저장 오버헤드들을 줄인다.For a concatenated TTS conversion method or system, the quality of intrinsic pronunciation depends on the size of the speech waveform set and the selection of suitable acoustic segments. In order to save memory space, the present invention mainly stores the parameters of the spoken waveforms and then uses these parameters to synthesize the required speech, thus reducing memory storage overheads.
음향 및 음성 제어 데이터 출력에 기초하여 본 발명은 발성 주석 집합을 형성하는 방법을 제공한다. 이 방법은 발성 파형 집합을 형성하는 다음의 단계들을 포함한다. 그것은 먼저 사람의 발성들을 다양한 텍스트들을 읽는 동안 기록하고, 이들 발성들을 행 발성 파형 집합에 저장한다. 양호한 음성 및 운율 균형으로 행 발성 파형 집합을 만들기 위해 이들 발성들은 주의 깊게 선택된다.Based on the sound and voice control data output, the present invention provides a method of forming a voice annotation set. The method includes the following steps of forming a set of speech waveforms. It first records human utterances while reading various texts and stores these utterances in a row utterance waveform set. These speeches are carefully selected to produce a set of behavioral waveforms with good speech and rhyme balance.
상기 서술된 바와 같이, 발성 파형들은 복수의 음향 세그먼트들(AS)로 분할된다. 각 음향 세그먼트(AS)는 보통 어떤 언어 환경에서 문자의 발성에 대응한다. 각 음향 세그먼트는 상세한 텍스트에서 음절 또는 서브-음절의 상세한 표현이고, 한정적인 음성 수단을 가진다. 보통, 다른 언어 환경에서 각 문자의 음성 심볼은 많은 다른 음향 세그먼트들에 대응할 수도 있다. As described above, the spoken waveforms are divided into a plurality of acoustic segments AS. Each acoustic segment AS typically corresponds to the utterance of characters in a certain language environment. Each acoustic segment is a detailed representation of syllables or sub-syllables in the detailed text and has finite speech means. Usually, in other language environments the phonetic symbols of each letter may correspond to many different acoustic segments.
프레임 벡터 코드북(232)에서, 일련의 벡터 인덱스들은 음향 연쇄의 목적은 상세한 언어 환경에서의 각 문자, 단어, 또는 어구의 요구되는 적합한 음향 세그먼트를 찾아내는 것이고, 이후 음향 세그먼트들을 함께 연결한다. 음향 세그먼트들(AS)의 음성 분류 및 음향 유사성에 따르면, 상기 음향 세그먼트들(AS)은 그것들의 음향 유사성에 의해 결정되는 클러스터들(CR)로 그룹화된다. 각 클러스터(CR)에서, 음향 유닛(AU)으로 칭해지는 하나의 음향 세그먼트(AS)는 상기 클러스터(CR)내 모든 음향 세그먼트들(AS)의 표현으로서 선택된다.In the frame vector codebook 232, the series of vector indices is the purpose of the acoustic chain to find the required appropriate acoustic segment of each letter, word, or phrase in a detailed language environment, and then connect the acoustic segments together. According to the speech classification and acoustic similarity of the acoustic segments AS, the acoustic segments AS are grouped into clusters CR which are determined by their acoustic similarity. In each cluster CR, one acoustic segment AS called an acoustic unit AU is selected as a representation of all acoustic segments AS in the cluster CR.
음성 유닛 파라미터 어레이 발생 유닛(233)은 음향 유닛들(AU)은 음향 유닛 파라미터 베이스(231)를 형성한다. 종래 기술과 비교하여, 본 발명은 클러스터(CR)를 나타내기 위해 음향 유닛(AU)을 이용하고, 클러스터(CR)내 모든 다른 음향 세그먼트들(AS)은 상기 클러스트(CR)의 상기 음향 세그먼트와 비교하여 운율 변동들을 나타내는 오프셋 파라미터들에 의해 저장된다. 이것을 참조하면, 클러스터(CR)내 모든 음향 세그먼트들(AS) 사이에는 비교적 작은 변동이 있다.The sound unit parameter array generating unit 233 has sound units AU forming a sound unit parameter base 231. Compared with the prior art, the present invention uses an acoustic unit (AU) to represent a cluster (CR), and all other acoustic segments (AS) in the cluster (CR) are associated with the acoustic segment of the cluster (CR). Stored by offset parameters that indicate rhyme variations in comparison. Referring to this, there is a relatively small variation between all acoustic segments AS in the cluster CR.
이 점에서, 음향 세그먼트들을 대표하는 음향 특징들이 얻어진다. 따라서 각 음향 유닛(AU)은 프레임당 일련의 파라미터들로 변환되고 음향 유닛 파라미터 베이스(231)에 저장된다. 프레임 벡터 코드북(232)을 이용하여, 각 음향 유닛의 상기 "프레임 파라미터들"은 벡터 인덱스들과 음향 유닛 파라미터들의 시퀀스로서 벡터-양자화될 것이다. 이 경우에, 음향 유닛 인덱스들은 실제 음향 유닛 데이터를 대신하도록 이용되고, 그에 따라 필수 저장되는 데이터를 줄인다. 음성 연쇄 및 합성하는 동안, 음향 유닛 인덱스들을 이용하는 것은 벡터 인덱스들 및 음향 유닛 파라미터들로 안내될 것이다.In this respect, acoustic features representative of acoustic segments are obtained. Each acoustic unit AU is thus converted into a series of parameters per frame and stored in the acoustic unit parameter base 231. Using frame vector codebook 232, the "frame parameters" of each acoustic unit will be vector-quantized as a sequence of vector indices and acoustic unit parameters. In this case, acoustic unit indices are used to replace the actual acoustic unit data, thus reducing the necessary stored data. During speech concatenation and synthesis, using sound unit indices will be guided by vector indices and sound unit parameters.
음향 유닛 파라미터 변경 유닛(234)은 상기 벡터 인덱스들은 최초 발성 파형들의 프레임 파라미터들로 안내될 것이다. 이후, 상기 프레임 파라미터들을 이용하여 사람의 처음의 발성 파형들은 합성될 수 있다. 예를 들면, 중국어에서 AU는 함축된 톤(tone)(1 내지 5)를 가진, 음향 유닛들 AU를 나타내는 프레임들은 다음의 형태로 음향 유닛 파라미터 베이스(231)에 저장된다: 프레임_AU_n_(피치,지속 기간,에너지); 이 실시예에서 피치는 180~330(Hz)의 범위를 가지고; 지속 기간은 165~452ms의 범위를 가지며; 에너지는 측정된 RMS(루트 평균 제곱, Root Mean Square) 파워 값을 변경시키는, 처리되고 디지털화된 발성들로부터 유도되는 770~7406의 범위를 가진다.The acoustic unit parameter changing unit 234 will guide the vector indices to frame parameters of the original speech waveforms. The human's first speech waveforms can then be synthesized using the frame parameters. For example, in Chinese, the frames representing the acoustic units AU, with AU implied tones 1-5, are stored in the acoustic unit parameter base 231 in the following form: frame_AU_n_ (pitch , Duration, energy); In this embodiment the pitch ranges from 180 to 330 (Hz); The duration ranges from 165 to 452 ms; The energy ranges from 770-7406 derived from processed and digitized utterances that change the measured RMS (root mean square) power value.
음성을 합성하는 목적은 발성 파형 집단에서 음향 세그먼트들을 재생하는 것이고, 또는 운율 룰 베이스(223)에 기초한 낮은 왜곡에 의하여 음향 세그먼트들을 발생시키는 것이다. 본 기술의 당업자에게는 명백할 것이지만, 피지, 에너지 및 지속 기간은 운율 벡터들 또는 파라미터들로서 표현되는 운율 특징들이다. 따라서, 음성 또는 병음 "Yu(2)"에 대한 음향 유닛 AU는, 프레임_AU_51_(254,251,3142)로서 저장될 수도 있고, "Mao (1)"은 프레임_AU_1001_(280,190,2519)로서 저장될 수도 있다. 발성 파형 집합의 각 클러스트 CR의 각 음향 세그먼트 AS는 음향 유닛 파라미터 베이스의 대응하는 음향 유닛 인덱스들로 맵핑된다. 각 음향 세그먼트는 음향 세그먼트들 AS의 클러스터들 CR 중 하나를 나타내는 음향 유닛 AU를 통해 얻어질 수 있다. The purpose of synthesizing the speech is to reproduce acoustic segments in a group of speech waveforms, or to generate acoustic segments by low distortion based on the rhythm rule base 223. As will be apparent to those skilled in the art, sebum, energy and duration are rhyme features expressed as rhyme vectors or parameters. Thus, the sound unit AU for the voice or pinyin "Yu (2)" may be stored as frame_AU_51_ (254,251,3142) and "Mao (1)" may be stored as frame_AU_1001_ (280,190,2519). It may be. Each acoustic segment AS of each cluster CR of the speech waveform set is mapped to corresponding acoustic unit indices of the acoustic unit parameter base. Each acoustic segment may be obtained via an acoustic unit AU representing one of the clusters CR of acoustic segments AS.
종래 기술에서 데어터-구동은 음향 세그먼트와 그것의 대응하는 음향 유닛 사이의 운율 벡터는 유도될 수 있다. 상기 운율 벡터는 각 클러스터의 음향 세그먼트들과 상기 클러스터를 나타내는 음향 유닛 사이의 파라미터들의 차이를 나타낸다. 그러한 파라미터 차이는 물리적 순간의 그것들의 차이에 기초한다.In the prior art, the data drive is a rhyme vector between the acoustic segment and its corresponding acoustic unit can be derived. The rhyme vector represents the difference in parameters between the sound segments of each cluster and the sound unit representing the cluster. Such parameter differences are based on their differences at physical moments.
고유 발성 효과를 얻기 위해, 본 발명은 또한 데이터-구동 제어를 이용한다. 차이점은 음향 세그먼트는 대표적인 음향 유닛과 어떤 운율 벡터를 통해 발견될 수 있다. 그에 따라 발성 주석 집합은 각 세그먼트의 음성 심볼들, 그의 대응하는 음향 유닛 인덱스들 및 음향 세그먼트 파형들에 대신하여 그의 운율 벡터에 의해 생성된다. 발성 주석 집단에서, 단지 음절들 및 음향 유닛 베이스의 진술만이 저장된다.In order to obtain the intrinsic speech effect, the present invention also utilizes data-driven control. The difference is that the acoustic segments can be found through representative sound units and some rhyme vectors. The speech annotation set is thus produced by its rhyme vector in lieu of the speech symbols of each segment, its corresponding acoustic unit indices and acoustic segment waveforms. In the speech annotation group, only syllables and statements of the acoustic unit base are stored.
도 3을 참조하면, 본 발명이 또한 설명되어 있다. 도 3에서, 텍스트-음성의 연쇄 합성이 설명되고 있다. 텍스트-음성의 연쇄는 세 주요 부분을 포함한다: 텍스트 처리, 음향과 운율 제어, 및 음성 합성. 상기 텍스트 처리를 통해, 상기 입력 텍스트는 음향 및 운율 제어를 위해 사용되는 음성 심볼들로 변환된다. 데이터-구동 제어를 통해, 음향 및 운율 제어부는 음향 유닛 인덱스들과 운율 벡터들로 변환하기 위한 음성 심볼들을 매칭하도록 발성 주석 집합을 사용하고, 이후 룰-구동(rule-driven) 제어를 통해, 음향 주석 집합으로부터 매칭되지 않은 음성 심볼들은 요구된 음향 유닛 인덱스들 및 운율 벡터들로 변환될 것이다. 음성 신시사이저에서, 얻어진 음향 유닛 인덱스들과 운율 벡터들은 음향 유닛 파라미터 베이스 및 화소 벡터 코드북을 통해 고유 발성 파형의 화소 파라미터들로 변환될 것이고, 이후 합성 음성으로 연쇄될 것이다. 먼저, 텍스트 처리가 간단히 설명된다. 기존의 연쇄 텍스트-음성 변환과 유사하게, 본 발명의 입력 텍스트는 텍스트 프로세서(201)에서 먼저 처리된다. 텍스트 정규화 유닛(211)을 통해, 입력 불규칙 텍스트는 분류되고 시스템의 정규화된 텍스트 포멧으로 변환된다. 이후, 단어 분할 유닛(212)은 사전(213) 및 관련 룰 베이스(도시되지 않음)에 따라 정규화된 텍스트를 단어 세그먼트들의 시리즈들로 분할한다. 상기 분할 후, 음성 심볼 할당 유닛(214)은 입력 텍스트의 문자들 및 단어들을 일련의 음성 심볼들로 변환한다. 중국어를 고려할 때, 음성 심볼들은 병음 표현에 의해 표현될 것이다. 따라서 문자 "魚"(중국어로 물고기)가 유닛(211)에서 수신된다면 이것은 (2)가 Yu의 제 2 음조의 발음을 표시하는 장소인 유닛(214)에서 병음 "Yu(2)"으로 변환될 것이다.3, the present invention is also described. In Fig. 3, a text-negative chain synthesis is described. The text-to-speech chain includes three main parts: text processing, sound and rhyme control, and speech synthesis. Through the text processing, the input text is converted into speech symbols used for sound and rhyme control. Through data-driven control, the sound and rhyme control uses the speech annotation set to match sound unit indices and speech symbols for conversion to rhyme vectors, and then through rule-driven control, the sound Unmatched speech symbols from the annotation set will be converted to the required sound unit indices and rhyme vectors. In the speech synthesizer, the obtained sound unit indices and rhyme vectors will be converted into pixel parameters of the eigenwave waveform through the sound unit parameter base and the pixel vector codebook and then concatenated into synthesized speech. First, text processing is briefly described. Similar to existing concatenated text-to-speech conversions, the input text of the present invention is first processed in text processor 201. Through text normalization unit 211, input irregular text is classified and converted into the system's normalized text format. The word dividing unit 212 then divides the normalized text into series of word segments according to the dictionary 213 and the associated rule base (not shown). After the division, the speech symbol assignment unit 214 converts the characters and words of the input text into a series of speech symbols. Considering Chinese, phonetic symbols will be represented by Pinyin representation. Thus if the letter "魚" (fish in Chinese) is received at unit 211 this will be converted to pinyin "Yu (2)" at unit 214, where (2) represents the pronunciation of the second tone of Yu. will be.
단계(S305) 후, 본 발명의 음향 및 음성 제어기(202)는 음성 심볼들의 상기 얻어진 시퀀스의 분석 및 과정을 수행한다. 음향 및 음성 제어기(202)는 발성 주석 집합(221), 음향 유닛 인덱스 및 운율 벡터 선택 유닛(222), 운율 룰 베이스(223), 및 운율 상세화 유닛(224)를 포함한다. 본 발명은 음향 및 운율 정보를 발생시키기 위해 음향 및 운율의 다중 제어들을 이용한다. 상기 제어는 두 스테이지들, 즉 데이터-구동 제어 및 룰-구동 제어를 포함한다. 종래 기술에서, 상기 입력 텍스트의 각 음성 심볼에 대해, 먼저 출력으로서 발성 파형 집합에서의 매칭 음향 세그먼트를 탐색해야 한다. 본 발명은 발성 파형 집합을 직접 사용하지 않고, 정합 음향 세그먼트들의 파라미터들을 탐색하기 위해 발성 주석 집합을 사용한다. 데이터-구동 제어 스테이지에서, 상기 제어 분할로부터 얻어진 음성 심볼들의 시퀀스에 대하여, 상기 음향 유닛 인덱스 및 운율 벡터 선택 유닛(222)은 텍스트 관계성 또는 운율 관계성을 이용함으로써 먼저 발성 주석 집합(221)으로부터 정합을 찾는다. 진행되는 더 많은 텍스트가 있는지의 여부를 결정하기 위해 이후 상기 방법은 테스트 단계(S308)에 영향을 미치고 또한 단계(S309)에서 종단되거나 단계(S302)로 되돌아간다.After step S305, the acoustic and speech controller 202 of the present invention performs the analysis and processing of the obtained sequence of speech symbols. The sound and voice controller 202 includes a voice annotation set 221, a sound unit index and rhyme vector selection unit 222, a rhyme rule base 223, and a rhyme detailing unit 224. The present invention utilizes multiple controls of sound and rhyme to generate sound and rhyme information. The control includes two stages: data-driven control and rule-driven control. In the prior art, for each voice symbol in the input text, one must first search for matching acoustic segments in the speech waveform set as output. The present invention does not use a speech waveform set directly, but uses a speech annotation set to search for parameters of matching acoustic segments. In the data-driven control stage, for the sequence of speech symbols obtained from the control division, the sound unit index and rhyme vector selection unit 222 first obtains from the speech annotation set 221 by using text relation or rhyme relation. Find the match. The method then affects test step S308 and terminates at step S309 or returns to step S302 to determine whether there is more text going on.
유리하게도, 본 발명은 클러스터들을 나타내는 비교적 작은 개수의 음향 유닛들을 허용하기 위해 제공한다. 따라서 이것은 메모리 오버헤드들을 제공한다.Advantageously, the present invention provides for allowing a relatively small number of acoustic units representing clusters. Thus this provides memory overheads.
상세한 설명은 바람직한 예시적인 실시예만을 제공하고, 본 발명의 범위, 적용 가능성, 또는 구성을 제한하는 것으로 의도되지 않는다. 오히려, 바람직한 예시적인 실시예의 상세한 설명은 본 기술의 당업자들에게 본 발명의 바람직한 예시적인 실시예를 구현하기 위한 가능한 설명을 제공한다. 다양한 변화들이 기능에서 만들어질 수 있음과 첨부된 청구항들에 설명된 바와 같이 본 발명의 사상과 범위를 벗어나지 않는 요소들의 배열이 성립될 수 있음을 이해해야 한다.The detailed description provides only preferred exemplary embodiments and is not intended to limit the scope, applicability, or configuration of the present invention. Rather, the detailed description of the preferred exemplary embodiments provides those skilled in the art with a possible description for implementing the preferred exemplary embodiments of the invention. It is to be understood that various changes may be made in function and that an arrangement of elements may be made without departing from the spirit and scope of the invention as described in the appended claims.
Claims (14)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2005-7001367A KR20050021567A (en) | 2002-07-25 | 2003-07-24 | Concatenative text-to-speech conversion |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN02127007.4 | 2002-07-25 | ||
KR10-2005-7001367A KR20050021567A (en) | 2002-07-25 | 2003-07-24 | Concatenative text-to-speech conversion |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20050021567A true KR20050021567A (en) | 2005-03-07 |
Family
ID=41784375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2005-7001367A KR20050021567A (en) | 2002-07-25 | 2003-07-24 | Concatenative text-to-speech conversion |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20050021567A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100757869B1 (en) * | 2006-01-02 | 2007-09-11 | 삼성전자주식회사 | Apparatus and Method for Providing Text To Speech Service Using Text Division Technique |
-
2003
- 2003-07-24 KR KR10-2005-7001367A patent/KR20050021567A/en not_active Application Discontinuation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100757869B1 (en) * | 2006-01-02 | 2007-09-11 | 삼성전자주식회사 | Apparatus and Method for Providing Text To Speech Service Using Text Division Technique |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9761219B2 (en) | System and method for distributed text-to-speech synthesis and intelligibility | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
US7460997B1 (en) | Method and system for preselection of suitable units for concatenative speech | |
US6505158B1 (en) | Synthesis-based pre-selection of suitable units for concatenative speech | |
MXPA06003431A (en) | Method for synthesizing speech. | |
EP2595143A1 (en) | Text to speech synthesis for texts with foreign language inclusions | |
US20080183473A1 (en) | Technique of Generating High Quality Synthetic Speech | |
US20070055526A1 (en) | Method, apparatus and computer program product providing prosodic-categorical enhancement to phrase-spliced text-to-speech synthesis | |
JP2002530703A (en) | Speech synthesis using concatenation of speech waveforms | |
EP2462586B1 (en) | A method of speech synthesis | |
US10699695B1 (en) | Text-to-speech (TTS) processing | |
US6477495B1 (en) | Speech synthesis system and prosodic control method in the speech synthesis system | |
US7069216B2 (en) | Corpus-based prosody translation system | |
WO2005074630A2 (en) | Multilingual text-to-speech system with limited resources | |
WO2004012183A2 (en) | Concatenative text-to-speech conversion | |
CN104899192A (en) | Apparatus and method for automatic interpretation | |
Wei et al. | A corpus-based Chinese speech synthesis with contextual-dependent unit selection | |
JP2583074B2 (en) | Voice synthesis method | |
Stefan-Adrian et al. | Rule-based automatic phonetic transcription for the Romanian language | |
Toda | High-quality and flexible speech synthesis with segment selection and voice conversion | |
JP3576066B2 (en) | Speech synthesis system and speech synthesis method | |
CN114187890A (en) | Voice synthesis method and device, computer readable storage medium and terminal equipment | |
KR20050021567A (en) | Concatenative text-to-speech conversion | |
Begum et al. | Text-to-speech synthesis system for Mymensinghiya dialect of Bangla language | |
Altosaar et al. | A multilingual phonetic representation and analysis system for different speech databases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |