KR19980079119A - Speech Synthesis Database, How to Create It, and Speech Synthesis Method Using the Same - Google Patents

Speech Synthesis Database, How to Create It, and Speech Synthesis Method Using the Same Download PDF

Info

Publication number
KR19980079119A
KR19980079119A KR1019970016794A KR19970016794A KR19980079119A KR 19980079119 A KR19980079119 A KR 19980079119A KR 1019970016794 A KR1019970016794 A KR 1019970016794A KR 19970016794 A KR19970016794 A KR 19970016794A KR 19980079119 A KR19980079119 A KR 19980079119A
Authority
KR
South Korea
Prior art keywords
speech
language data
phoneme
database
positions
Prior art date
Application number
KR1019970016794A
Other languages
Korean (ko)
Inventor
기석철
Original Assignee
윤종용
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤종용, 삼성전자 주식회사 filed Critical 윤종용
Priority to KR1019970016794A priority Critical patent/KR19980079119A/en
Publication of KR19980079119A publication Critical patent/KR19980079119A/en

Links

Landscapes

  • Machine Translation (AREA)

Abstract

운율 규칙에 의한 음성 합성 방법에 관한 것으로서 특히 음성 합성에 필요한 데이터 베이스, 이러한 데이터 베이스를 작성하는 방법 그리고, 이를 이용한 음성 합성 방법에 관한 것이다.The present invention relates to a speech synthesis method based on a rhyme rule, and more particularly, to a database required for speech synthesis, a method of creating such a database, and a speech synthesis method using the same.

본 발명에 따른 음성 합성용 데이터 베이스는; 복수 개의 문장들을 읽은 음성 신호들을 저장한 음성 언어 자료부; 및 상기 음성 언어 자료부에 저장된 음성 언어 자료로부터 추출된 합성 유닛에 상응하는 음소열들의 위치, 길이, 크기, 피치의 위치 및 변화량을 저장한 인덱스 테이블을 포함함을 특징으로 한다.Database for speech synthesis according to the present invention; A voice language data unit for storing voice signals reading a plurality of sentences; And an index table storing positions, lengths, sizes, positions of pitches, and variations of phoneme strings corresponding to the synthesis unit extracted from the speech language data stored in the speech language data unit.

본 발명에 따른 데이터 베이스가 CD-ROM과 같은 형태로 제공된다면 종래의 것보다 다양한 음성의 DB를 짧은 시간에 구현할 수 있는 이점이 있다.If the database according to the present invention is provided in the form of a CD-ROM, there is an advantage that a DB of various voices can be implemented in a short time than the conventional one.

Description

음성 합성 데이터 베이스, 이를 작성하는 방법, 그리고 이를 이용한 음성 합성 방법Speech Synthesis Database, How to Create It, and Speech Synthesis Method Using the Same

본 발명은 운율 규칙에 의한 음성 합성 방법에 관한 것으로서 특히 음성 합성에 필요한 데이터 베이스, 이러한 데이터 베이스를 작성하는 방법 그리고, 이를 이용한 음성 합성 방법에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech synthesis method based on a rhyme rule, and more particularly, to a database required for speech synthesis, a method of creating such a database, and a speech synthesis method using the same.

종래의 음성 합성 기술에서는 음성 신호를 저장하는 데이터 베이스가 합성 유닛 예를 들면, 음소, 음절 등으로 제작되기 때문에 데이터 베이스의 추가 및 변경이 어려우며, 새로운 합성 유닛을 적용하려면 데이터 베이스를 처음부터 새로이 제작해야하는 단점이 있다.In the conventional speech synthesis technology, since a database storing a speech signal is made of a synthesis unit, for example, a phoneme or a syllable, it is difficult to add or change the database. To apply a new synthesis unit, a database is newly created from the beginning. There are drawbacks to this.

본 발명은 상기의 문제점을 해결하기 위하여 안출된 것으로서, 합성 유닛의 변경이 자유로우며 합성음의 자연성을 향상시킬 수 있는 데이터 베이스를 제공하는 것을 그 목적으로 한다.The present invention has been made to solve the above problems, and an object of the present invention is to provide a database which is free to change the synthesis unit and can improve the naturalness of the synthesized sound.

본 발명의 다른 목적은 상기의 데이터 베이스를 작성하는 방법을 제공하는 것에 있다.Another object of the present invention is to provide a method for creating the database.

본 발명의 또 다른 목적은 합성 유닛의 변경이 자유로우며 합성음의 자연성을 향상시킬 수 있는 음성 합성 방법을 제공하는 것에 있다.It is still another object of the present invention to provide a speech synthesis method capable of freely changing the synthesis unit and improving the naturalness of the synthesized sound.

도 1은 종래 기술에 의한 음성 합성 방법을 보이는 것이다.Figure 1 shows a speech synthesis method according to the prior art.

도 2는 본 발명에 따른 데이터 베이스의 구조를 보이는 것이다.2 shows the structure of a database according to the present invention.

도 3은 본 발명에 따른 데이터 베이스 작성 방법을 도식적으로 보이는 것이다.3 schematically shows a method of creating a database according to the present invention.

도 4는 본 발명에 따른 음성 합성 방법을 도식적으로 보이는 것이다.4 schematically shows a speech synthesis method according to the present invention.

도 5는 도 4에 도시된 바에 있어서 음성 합성 부분을 보다 상세히 보이는 것이다.FIG. 5 shows the speech synthesis part in more detail as shown in FIG. 4.

상기의 목적을 달성하는 본 발명에 따른 음성 합성용 데이터 베이스는; 복수 개의 문장들을 읽은 음성 신호들을 저장한 음성 언어 자료부; 및 상기 음성 언어 자료부에 저장된 음성 언어 자료로부터 추출된 합성 유닛에 상응하는 음소열들의 위치, 길이, 크기, 피치의 위치 및 변화량을 저장한 인덱스 테이블을 포함함을 특징으로 한다.Database for speech synthesis according to the present invention to achieve the above object; A voice language data unit for storing voice signals reading a plurality of sentences; And an index table storing positions, lengths, sizes, positions of pitches, and variations of phoneme strings corresponding to the synthesis unit extracted from the speech language data stored in the speech language data unit.

상기의 다른 목적을 달성하는 본 발명에 따른 음성 합성용 데이터 베이스 작성 방법은 복수 개의 문장들을 읽은 음성 신호들을 수집하여 음성 언어 자료를 작성하는 과정; 작성된 음성 언어 자료를 분석하여 각 문장 내에서의 음소 위치, 길이, 크기, 피치의 위치 및 변화량를 추출하는 과정; 및 상기 추출된 자료로부터 합성 유닛에 상응하는 음소열들 만을 추출하고 인덱싱하여 음소 위치, 길이, 크기, 피치의 위치 및 변화량과 함께 저장하는 과정을 포함함을 특징으로 한다.According to another aspect of the present invention, there is provided a method of creating a speech synthesis database, the method comprising: collecting speech signals reading a plurality of sentences to create speech language data; Extracting phoneme position, length, size, pitch position, and amount of change in each sentence by analyzing the written speech language data; And extracting and indexing only phoneme strings corresponding to the synthesis unit from the extracted data, and storing the phoneme strings together with phoneme positions, lengths, sizes, pitch positions, and amounts of change.

상기의 또 다른 목적을 달성하는 본 발명에 따른 음성 합성 방법은 복수 개의 문장들을 읽은 음성 신호들을 저장한 음성 언어 자료부 및 음성 언어 자료부에 저장된 음성 언어 자료로부터 추출된 합성 유닛에 상응하는 음소열들의 위치, 길이, 크기, 피치의 위치 및 변화량을 저장한 인덱스 테이블을 포함하는 데이터 베이스를 작성하는 과정; 합성음을 발생하고자 하는 입력 문서로부터 합성 유닛에 상응하는 음소열 및 상기 음소열에 포함된 각각의 음소들에 상응하는 길이, 크기, 피치의 위치 및 변화량 등을 추출하는 과정; 상기 데이터 베이스에 저장된 인덱스 테이블을 참조하여 상기 음소열에 포함된 음소들 및 이들의 길이, 크기, 피치의 위치 및 변화량과 매칭되는 정보를 가지는 인덱스들을 탐색하는 과정; 상기 탐색된 인덱스들이 가지는 음소 위치 정보들을 참조하여 상기 데이터 베이스에 저장된 음성 언어 자료로부터 합성에 소요되는 음성 신호들을 추출하는 과정; 및 상기 추출된 음성 신호들을 연결하여 합성음을 생성하는 과정을 포함함을 특징으로 한다. 이하 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.According to another aspect of the present invention, there is provided a speech synthesis method comprising: a phoneme string corresponding to a speech unit storing voice signals reading a plurality of sentences and a synthesis unit extracted from speech language data stored in the speech language data unit. Creating a database including an index table storing positions, lengths, sizes, positions of pitches, and variations; Extracting a phoneme string corresponding to the synthesis unit and a length, a size, a position and a change amount of the phoneme corresponding to each of the phonemes from the input document to generate the synthesized sound; Searching for indexes having information matching the phonemes included in the phoneme strings, their lengths, sizes, positions of pitches, and amounts of change by referring to an index table stored in the database; Extracting speech signals for synthesis from speech language data stored in the database by referring to phoneme location information of the searched indices; And generating a synthesized sound by connecting the extracted voice signals. Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.

도 1은 종래의 음성 합성 방법에 사용되는 데이터 베이스를 작성하는 방법을 보이는 것이다. 도 1에 있어서, 참조부호 10은 녹음용 단어이고, 12는 소오스 유닛 데이터 베이스이고, 14는 운율 규칙 처리부이고, 16은 음성 처리부이다.1 shows a method of creating a database used in a conventional speech synthesis method. In Fig. 1, reference numeral 10 is a word for recording, 12 is a source unit database, 14 is a rhythm rule processor, and 16 is a voice processor.

도 1에 도시된 데이터 베이스(12)는 사전에 약속된 형태의 합성 유닛들을 모아 놓은 것이다. 이 데이터 베이스(12)를 작성하는 방법은 다음과 같다.The database 12 shown in FIG. 1 is a collection of synthesis units of a previously promised form. The method for creating this database 12 is as follows.

먼저, 음성 합성 유닛을 정한다. 예를 들어, phoneme, diphone, triphone과 같은 유닛들 중에서 적당한 단위를 선택한다. phoneme은 단위 개수가 너무 적고, triphone은 너무 많아지므로, 일반적으로 diphone를 선택한다.First, the speech synthesis unit is determined. For example, select the appropriate unit from units such as phoneme, diphone, and triphone. Since phoneme has too few units and triphone has too many, you usually choose diphone.

둘째, 정해진 단위를 가지고 무제한 음성 합성을 하기 위해서 한국어에서 발음 가능한 모든 유닛을 만든다. diphone인 경우 약 4,000개의 유닛이 필요하다. 이러한 유닛을 모두 만들기 위해 각각의 diphone들을 발음 할 수 있는 무의미 단어를 생성하고, 이를 아나운서가 읽어서 녹음한다.Second, in order to make unlimited speech synthesis with a set unit, all the pronunciation units in Korean are made. For a diphone you need about 4,000 units. To make all of these units, we generate meaningless words that can be pronounced for each diphone, which the announcer reads and records.

셋째, 녹음된 음성을 분석하여 합성용 parameter와 운율(prosody) 제어용 데이터를 추출하고, 합성에 필요한 diphone 부분만 숙련된 전문가가 구획화(segmentation)한다.Thirdly, the recorded voice is analyzed to extract the parameter for synthesis and data for prosody control, and segmentation is performed by a skilled expert only on the diphone part necessary for synthesis.

마지막으로 구획화된 유닛을 일정한 순서에 의해서 모아 음성 합성용 데이터 베이스(12)를 만들게 된다.Finally, the partitioned units are collected in a certain order to create a database 12 for speech synthesis.

이상과 같은 종래 기술에서 가장 큰 문제점은 새로운 유닛으로 바꾸거나, 또는 녹음이 불량한 세그먼트를 교체하려고 할 때, 상기한 모든 과정을 처음부터 다시 해야 한다는 것이다.The biggest problem in the prior art as described above is that when changing to a new unit or replacing a bad recording segment, all of the above processes must be repeated from the beginning.

또한, 무의미 단어들을 발성하여 녹음했기 때문에 실제 합성음에서 매우 부자연스러운 합성음이 발생할 수 있다는 것이다. 왜냐하면 같은 소리라고 하더라도 단어를 발음하는 경우와 문장을 발음하는 경우는 발음 방법이 현저히 틀리며 또한, 무의미 단어를 발음했기 때문에 실제 사람 소리와는 달리 합성음이 매우 일률적이고 단조로운 느낌을 주게 된다.In addition, because the meaningless words are recorded and uttered, very unnatural synthesized sounds may occur in the actual synthesized sounds. Because the pronunciation of words and sentences are pronounced differently, even if they sound the same, the method of pronunciation is significantly different, and because the pronunciation of meaningless words, the synthesized sound is very uniform and monotonous, unlike the sound of a real person.

도 2는 본 발명에 따른 데이터 베이스의 구조를 보이는 것이다. 도 2에 있어서 참조 부호 20은 음성 언어 자료부이고, 22는 인덱스 테이블이다.2 shows the structure of a database according to the present invention. In Fig. 2, reference numeral 20 denotes a speech language data portion, and 22 denotes an index table.

음성 언어 자료부(20)는 복수 개의 문장들을 읽은 음성 신호들이 저장되어져 있다.The speech language data unit 20 stores voice signals reading a plurality of sentences.

인덱스 테이블(22)은 음성 언어 자료부(20)에 저장된 음성 언어 자료로부터 추출된 합성 유닛에 상응하는 음소열들의 위치, 길이, 크기, 피치의 위치 및 변화량을 저장하고 있다.The index table 22 stores positions, lengths, sizes, pitch positions, and amounts of change of phoneme strings corresponding to the synthesis unit extracted from the speech language data stored in the speech language data unit 20.

여기서, 인덱스 테이블은 합성 유닛에 따라 가변적으로 조절될 수 있고, 다국어 음성 합성 시스템을 구현할 경우에도 음성 언어 자료만 제공된다면 얼마든지 구현 가능하다.Here, the index table can be variably adjusted according to the synthesis unit, and even if only a speech language material is provided, even when implementing a multilingual speech synthesis system, the index table can be implemented.

도 2에 도시된 데이터 베이스를 작성하는 본 발명에 따른 데이터 베이스 작성 방법은 다음과 같다.The database creation method according to the present invention for creating the database shown in FIG. 2 is as follows.

첫 번째로 복수 개의 문장들을 읽은 음성 신호들을 수집하여 음성 언어 자료를 작성한다.Firstly, voice signals are read from a plurality of sentences to prepare voice language data.

두 번째로, 작성된 음성 언어 자료를 분석하여 각 문장 내에서의 음소 위치, 길이, 크기, 피치의 위치 및 변화량을 추출한다.Second, the phonetic language data is analyzed and the phoneme location, length, size, pitch location and variation in each sentence are extracted.

첫 번째와 두 번째 과정을 도 3을 참조하여 설명한다.The first and second processes will be described with reference to FIG. 3.

먼저, 음소 빈도가 적절히 조화된 문서를 만들고, 아나운서가 이를 발음한 것을 녹음한다.First, a document in which the phoneme frequency is properly harmonized is made, and the announcer records the pronunciation.

녹음된 음성에서 음성 구간을 검출하고 각 음성 구간에서 피치를 검출한다. 1차적으로 피치 자동 검출 알고리즘으로 피치를 검출하고, 2차적으로 전문가가 교정한다. 피치 마킹(pitch marking)이 완료되면 이를 이용하여 발음되는 음소열을 생성하고, 발음된 음성 신호에 각 음소의 시작 위치를 피치와 일치하도록 레이블링한다. 이러한 과정을 통하여 문장 내에서 각 음소의 위치, 길이, 크기 정보, 그리고 피치 위치와 변화량을 정확하게 알 수 있다.Detects voice sections in the recorded voice and detects pitch in each voice section. Firstly, pitch is detected by automatic pitch detection algorithm, and secondly by expert. When pitch marking is completed, a phoneme string to be pronounced is generated using the pitch marking, and the start position of each phoneme is labeled on the pronounced voice signal to match the pitch. Through this process, the position, length, size information, pitch position and variation of each phoneme in the sentence can be accurately known.

세 번째로, 추출된 자료로부터 합성 유닛에 상응하는 음소열들 만을 추출하고 인덱싱하여 음소 위치, 길이, 크기, 피치의 위치 및 변화량과 함께 저장한다.Third, only the phoneme strings corresponding to the synthesis unit are extracted and indexed from the extracted data and stored along with the phoneme position, length, size, pitch position and variation.

합성 단위를 diphone으로 하고자 한다면 음성 언어 자료에서 diphone들만을 조합하여 그 인덱스를 만들어 저장하고, triphone으로 하고자 한다면 triphone들만을 조합하여 그 인덱스를 만들어 저장한다. 이때 운율 제어에 필요한 피치 정보와 음서의 길이, 크기 정보도 함께 추출한다.If you want to use the synthesis unit as a diphone, the index is created and stored by combining only the diphones in the speech language material. If you want to make a triphone, the index is created by combining only the triphones. At this time, the pitch information necessary for the rhyme control, the length and size information of the note are also extracted.

도 4는 본 발명에 따른 음성 합성 방법을 도식적으로 보이는 것이다.4 schematically shows a speech synthesis method according to the present invention.

도 4에 있어서 참조 부호 40은 녹음용 문서이고, 42는 음성 언어 자료부이고, 44는 인덱스 테이블이고, 46은 운율 규칙 처리부이고, 그리고 48은 합성음을 발생하기 위한 입력 문서이다. 여기서, 음성 언어 자료부(42)와 인덱스 테이블(44)은 도 2에 도시된 본 발명에 따른 데이터 베이스를 구성한다.In Fig. 4, reference numeral 40 denotes a recording document, 42 denotes a speech language data unit, 44 denotes an index table, 46 denotes a rhythm rule processing unit, and 48 denotes an input document for generating synthesized sounds. Here, the speech language data section 42 and the index table 44 constitute a database according to the present invention shown in FIG.

본 발명에 따른 음성 합성 방법은 다음과 같다.The speech synthesis method according to the present invention is as follows.

먼저, 복수 개의 문장들을 읽은 음성 신호들을 저장한 음성 언어 자료부 및First, a speech language data section storing speech signals reading a plurality of sentences;

음성 언어 자료부에 저장된 음성 언어 자료로부터 추출된 합성 유닛에 상응하는 음소열들의 위치, 길이, 크기, 피치의 위치 및 변화량을 저장한 인덱스 테이블을 포함하는 데이터 베이스를 작성한다. 이러한 과정은 도 3에 도시된 바와 동일하다.A database is created that includes an index table that stores positions, lengths, sizes, positions of pitches, and variations of phoneme strings corresponding to the synthesis unit extracted from the speech language data stored in the speech language data unit. This process is the same as shown in FIG.

두 번째로 합성음을 발생하고자 하는 입력 문서로부터 합성 유닛에 상응하는 음소열 및 음소열에 포함된 각각의 음소들에 상응하는 길이, 크기, 피치의 위치 및 변화량 등을 추출한다.Second, a phoneme sequence corresponding to the synthesis unit and a length, a size, a position and a change amount of the phoneme corresponding to the phoneme sequence are extracted from the input document to generate the synthesized sound.

세 번째로, 데이터 베이스에 저장된 인덱스 테이블을 참조하여 음소열에 포함된 음소들 및 이들의 길이, 크기, 피치의 위치 및 변화량과 매칭되는 정보를 가지는 인덱스들을 탐색한다.Third, the indexes stored in the database are searched for the phonemes included in the phoneme strings and the indexes having information matching the lengths, sizes, positions of the pitches, and amounts of change.

네 번째로, 탐색된 인덱스들이 가지는 음소 위치 정보들을 참조하여 상기 데이터 베이스에 저장된 음성 언어 자료로부터 합성에 소요되는 음성 신호들을 추출한다.Fourth, voice signals required for synthesis are extracted from voice language data stored in the database by referring to phoneme location information of the searched indices.

마지막으로 추출된 음성 신호들을 연결하여 합성음을 생성한다.Finally, the extracted speech signals are connected to generate a synthesized sound.

두 번째 과정 이후를 도 5를 참조하여 설명한다. 먼저 입력 분서가 분석되면 합성해야할 음소열이 생성된다. 이 음소열과 운율 제어 규칙에 의해서 각각의 음소가 지녀야할 합성 단위와 피치값, 음성의 길이, 크기 정보 등이 생성된다. 이때 음성 언어 자료 분석을 통해 생성된 인덱스를 이용하여 요구되는 합성 단위와 가장 유사한 세그먼트를 음성 언어 자료에서 가져오게 된다.After the second process will be described with reference to FIG. First, the input sequence is analyzed to produce a phoneme sequence to be synthesized. By the phoneme sequence and the rhyme control rules, the synthesis unit, pitch value, voice length, size information, etc. which each phoneme should have are generated. In this case, the segment most similar to the required synthesis unit is obtained from the speech language data by using the index generated by analyzing the speech language data.

여기서, 가장 유사한 세그먼트를 찾는 과정을 특징 가중(feature weighting)으로 표현하였다. 예를 들어 ahK (학에서의 ㅏ+ㄱ )을 찾는 데 여러 종류의 피치값, 길이 크기 정보들 가운데 요구되는 값과 가장 유사한 값을 갖는 세그먼트를 결정하는 규칙을 적절한 가중치값으로 찾는 과정이다. 이러한 과정을 통하여 음소열에 일치하는 세그먼트가 재편되면 각 세그먼트를 이질음이 생기지 않도록 접속하여 합성한다.Here, the process of finding the most similar segment is expressed by feature weighting. For example, in order to find ahK (ㅏ + 에서 의 in science), it is a process to find a rule for determining a segment having a value most similar to a required value among various kinds of pitch values and length size information with an appropriate weight value. Through this process, when the segments matching the phoneme sequence are reorganized, each segment is connected and synthesized so that no heterogeneous sound is generated.

상술한 바와 같이 본 발명에 따른 음성 합성 방법은 합성 단위를 자유로이 바꾸어 합성할 수 있다는 장점을 갖는다.As described above, the speech synthesis method according to the present invention has the advantage that the synthesis unit can be freely changed and synthesized.

또한, 자연스런 문장으로부터 발췌된 음성 세그먼트에 기초하여 합성음을 발생하기 때문에 합성음의 자연성을 향상시킬 수 있다는 효과가 있다.In addition, since the synthesized sound is generated based on the voice segment extracted from the natural sentence, the naturalness of the synthesized sound can be improved.

또한, 음성 언어 자료만 잘 갖춰진다면 다국어 음성 합성기를 손쉽게 구현할 수 있다는 효과도 있다.In addition, multilingual speech synthesizers can be easily implemented as long as the speech language materials are well equipped.

음성 합성기의 대부분은 데이터 베이스가 차지하기 때문에 본 발명에 따른 데이터 베이스가 CD-ROM과 같은 형태로 제공된다면 종래의 것보다 다양한 음성의 DB를 짧은 시간에 구현할 수 있는 이점이 있다.Since most of the speech synthesizer is taken up by the database, if the database according to the present invention is provided in the form of a CD-ROM, there is an advantage that a DB of various voices can be implemented in a short time than the conventional one.

Claims (3)

복수 개의 문장들을 읽은 음성 신호들을 저장한 음성 언어 자료부; 및A voice language data unit for storing voice signals reading a plurality of sentences; And 상기 음성 언어 자료부에 저장된 음성 언어 자료로부터 추출된 합성 유닛에 상응하는 음소열들의 위치, 길이, 크기, 피치의 위치 및 변화량을 저장한 인덱스 테이블을 포함하는 음성 합성용 데이터 베이스.And an index table for storing positions, lengths, sizes, positions of pitches, and variations of phoneme strings corresponding to the synthesis unit extracted from the speech language data stored in the speech language data unit. 복수 개의 문장들을 읽은 음성 신호들을 수집하여 음성 언어 자료를 작성하는 과정;Preparing voice language data by collecting voice signals reading a plurality of sentences; 작성된 음성 언어 자료를 분석하여 각 문장 내에서의 음소 위치, 길이, 크기, 피치의 위치 및 변화량를 추출하는 과정; 및Extracting phoneme position, length, size, pitch position, and amount of change in each sentence by analyzing the written speech language data; And 상기 추출된 자료로부터 합성 유닛에 상응하는 음소열들 만을 추출하고 인덱싱하여 음소 위치, 길이, 크기, 피치의 위치 및 변화량과 함께 저장하는 과정을 포함하는 음성 합성용 데이터 베이스 작성 방법.And extracting and indexing only phoneme strings corresponding to the synthesis unit from the extracted data, and storing the phoneme strings together with phoneme positions, lengths, sizes, pitch positions, and amounts of change. 복수 개의 문장들을 읽은 음성 신호들을 저장한 음성 언어 자료부 및 음성 언어 자료부에 저장된 음성 언어 자료로부터 추출된 합성 유닛에 상응하는 음소열들의 위치, 길이, 크기, 피치의 위치 및 변화량을 저장한 인덱스 테이블을 포함하는 데이터 베이스를 작성하는 과정;An index storing the position, length, size, pitch position, and amount of change of the phoneme strings corresponding to the synthesis unit extracted from the speech language data section storing the speech signals reading a plurality of sentences and the speech language data stored in the speech language data section. Creating a database comprising a table; 합성음을 발생하고자 하는 입력 문서로부터 합성 유닛에 상응하는 음소열 및 상기 음소열에 포함된 각각의 음소들에 상응하는 길이, 크기, 피치의 위치 및 변화량 등을 추출하는 과정;Extracting a phoneme string corresponding to the synthesis unit and a length, a size, a position and a change amount of the phoneme corresponding to each of the phonemes from the input document to generate the synthesized sound; 상기 데이터 베이스에 저장된 인덱스 테이블을 참조하여 상기 음소열에 포함된 음소들 및 이들의 길이, 크기, 피치의 위치 및 변화량과 매칭되는 정보를 가지는 인덱스들을 탐색하는 과정;Searching for indexes having information matching the phonemes included in the phoneme strings, their lengths, sizes, positions of pitches, and amounts of change by referring to an index table stored in the database; 상기 탐색된 인덱스들이 가지는 음소 위치 정보들을 참조하여 상기 데이터 베이스에 저장된 음성 언어 자료로부터 합성에 소요되는 음성 신호들을 추출하는 과정; 및Extracting speech signals for synthesis from speech language data stored in the database by referring to phoneme location information of the searched indices; And 상기 추출된 음성 신호들을 연결하여 합성음을 생성하는 과정을 포함하는 음성 합성 방법.And generating a synthesized sound by connecting the extracted speech signals.
KR1019970016794A 1997-04-30 1997-04-30 Speech Synthesis Database, How to Create It, and Speech Synthesis Method Using the Same KR19980079119A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970016794A KR19980079119A (en) 1997-04-30 1997-04-30 Speech Synthesis Database, How to Create It, and Speech Synthesis Method Using the Same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970016794A KR19980079119A (en) 1997-04-30 1997-04-30 Speech Synthesis Database, How to Create It, and Speech Synthesis Method Using the Same

Publications (1)

Publication Number Publication Date
KR19980079119A true KR19980079119A (en) 1998-11-25

Family

ID=65989811

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970016794A KR19980079119A (en) 1997-04-30 1997-04-30 Speech Synthesis Database, How to Create It, and Speech Synthesis Method Using the Same

Country Status (1)

Country Link
KR (1) KR19980079119A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100388488B1 (en) * 2000-12-27 2003-06-25 한국전자통신연구원 A fast pitch analysis method for the voiced region
KR100704509B1 (en) * 2004-12-14 2007-04-09 한국전자통신연구원 Method for constructing db for voice synthesis and voice synthesis method using the same

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100388488B1 (en) * 2000-12-27 2003-06-25 한국전자통신연구원 A fast pitch analysis method for the voiced region
KR100704509B1 (en) * 2004-12-14 2007-04-09 한국전자통신연구원 Method for constructing db for voice synthesis and voice synthesis method using the same

Similar Documents

Publication Publication Date Title
US5905972A (en) Prosodic databases holding fundamental frequency templates for use in speech synthesis
Shih et al. Issues in text-to-speech conversion for Mandarin
US8775185B2 (en) Speech samples library for text-to-speech and methods and apparatus for generating and using same
JP3587048B2 (en) Prosody control method and speech synthesizer
Olaszy et al. Profivox—A Hungarian text-to-speech system for telecommunications applications
Breen et al. Non-uniform unit selection and the similarity metric within BT's Laureate TTS system
US7069216B2 (en) Corpus-based prosody translation system
JPH1039895A (en) Speech synthesising method and apparatus therefor
Botinis Intonation: Analysis, modelling and technology
Matoušek et al. ARTIC: a new czech text-to-speech system using statistical approach to speech segment database construciton
JPH0887297A (en) Voice synthesis system
US6829577B1 (en) Generating non-stationary additive noise for addition to synthesized speech
US6847932B1 (en) Speech synthesis device handling phoneme units of extended CV
KR19980079119A (en) Speech Synthesis Database, How to Create It, and Speech Synthesis Method Using the Same
Breen et al. A phonologically motivated method of selecting non-uniform units
Kumar et al. Significance of durational knowledge for speech synthesis system in an Indian language
Carlson et al. The KTH speech database
JPH037995A (en) Generating device for singing voice synthetic data
Narupiyakul et al. A stochastic knowledge-based Thai text-to-speech system
JP3883318B2 (en) Speech segment generation method and apparatus
JP3378448B2 (en) Speech unit selection method, speech synthesis device, and instruction storage medium
Lin et al. A corpus-based singing voice synthesis system for Mandarin Chinese
Khalifa et al. SMaTalk: Standard malay text to speech talk system
Datta et al. Epoch Synchronous Overlap Add (ESOLA)
Zervas et al. A Greek TTS based on Non uniform unit concatenation and the utilization of Festival architecture

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application