JPS61296396A - Voice code generation - Google Patents

Voice code generation

Info

Publication number
JPS61296396A
JPS61296396A JP60138517A JP13851785A JPS61296396A JP S61296396 A JPS61296396 A JP S61296396A JP 60138517 A JP60138517 A JP 60138517A JP 13851785 A JP13851785 A JP 13851785A JP S61296396 A JPS61296396 A JP S61296396A
Authority
JP
Japan
Prior art keywords
input
speech
pitch information
information
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60138517A
Other languages
Japanese (ja)
Other versions
JPH0632019B2 (en
Inventor
国澤 寛治
糸山 博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to JP60138517A priority Critical patent/JPH0632019B2/en
Publication of JPS61296396A publication Critical patent/JPS61296396A/en
Publication of JPH0632019B2 publication Critical patent/JPH0632019B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Abstract] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 [技術分野1 本発明は規則合成用の音声コード作成方法に関するもの
である。
DETAILED DESCRIPTION OF THE INVENTION [Technical Field 1] The present invention relates to a speech code creation method for rule synthesis.

[背景技術1 従来この種の音声合成方式においては、文字系列を入力
すると共に、単語のアクセントや文のイントネーション
に関する情報を入力し、それらを用いて予め記憶してい
る音韻データと規則とにより音声合成を行なっている。
[Background technology 1] Conventionally, in this type of speech synthesis method, a character sequence is input, as well as information about the accent of a word and the intonation of a sentence. Performing synthesis.

しかしこの従来方法では、キーボードから文章を入力す
る際に、同時に各単語のアクセント位置などを入力する
必要があるので、捏作がきわめて面倒であるという問題
があった。
However, with this conventional method, when inputting a sentence from the keyboard, it is necessary to input the accent position of each word at the same time, so it is extremely troublesome to fabricate sentences.

[発明の目的] 本発明は上記の問題点に鑑み為されたものであり、その
目的とするところは、規則合成用の音声コードを作成す
る際に、アクセント情報の入力をきわめて容易にできる
方法を提供するにある。
[Object of the Invention] The present invention has been made in view of the above-mentioned problems, and its purpose is to provide a method that makes it extremely easy to input accent information when creating a speech code for rule synthesis. is to provide.

[発明の開示] しかして本発明による音声コード作成方法は、音声を入
力とし、音声認識技術によって音声波形を文字系列に変
換すると共に各音韻のピッチ情報を抽出し・該ピッチ情
報を文字系列と共にコード化するものであり、従来のキ
ーボードなどからの文字入力に音声入力を加えることに
より、あるいは音声入力のみによって、文字系列とアク
セント情報との入力を容易に行なえる点に特徴を有する
ものである。
[Disclosure of the Invention] The speech code creation method according to the present invention takes speech as input, converts the speech waveform into a character sequence using speech recognition technology, extracts pitch information of each phoneme, and converts the pitch information together with the character sequence. It is characterized by the ability to easily input character sequences and accent information by adding voice input to character input from a conventional keyboard, or by voice input alone. .

第1図(a)は本発明による音声コード作成方法の一実
施例を示したものである。同図において、キーボードあ
るいは文字読み取り器からの文字入力は、イにおいて音
素や音節などの音韻に分解されて記憶される。次にマイ
クロフォンなどから入力される音声が、口において音韻
単位のセグメンテーシヨンを施されると同時に、得られ
た音韻列が文字系列からの音韻列と比較され、もし一致
しない場合には再度セグメンテーシヨンをやり直すこと
によって、音韻境界が正確に検出され、それによりハに
おいて各音韻のピッチ、パワー、音韻艮、ホルマント情
報などのパラメータの抽出を行ない、これらを文字系列
からの文字情報に付加して、二においてコード化を行な
うものである。
FIG. 1(a) shows an embodiment of the voice code creation method according to the present invention. In the figure, characters input from a keyboard or a character reader are broken down into phonemes such as phonemes and syllables and stored in i. Next, the speech input from a microphone or the like is segmented into phoneme units by the mouth, and at the same time, the resulting phoneme string is compared with the phoneme string from the character sequence, and if they do not match, it is segmented again. By redoing the process, the phoneme boundaries are accurately detected, and parameters such as the pitch, power, phoneme, and formant information of each phoneme are extracted in C, and these are added to the character information from the character sequence. Then, in step 2, encoding is performed.

こうして得られたフードは、メモリに格納したり、ある
いはバーコードとして印刷したりして記憶され、合成時
には同図(b)に示すように、ホにおいて上記コードを
読み出し、へにおいて各パラメータに復号化し、トにお
いて予め合成部に記憶されている音韻データと規則とに
より合成が行なわれる。
The food obtained in this way is stored in a memory or printed as a barcode, and when compositing, the code is read out in E and decoded into each parameter in B, as shown in Figure (b). Then, in G, synthesis is performed using the phoneme data and rules previously stored in the synthesis section.

したがって上記実施例においては、音声認識で得られる
音韻を既知の音II系列と比較することによって、音韻
セグメンテーシヨンを容易に且つ正確に行なうことがで
慇、アクセントやイントネイシ1ンに関する情報が音声
入力から容易に得られるのである。
Therefore, in the above embodiment, phoneme segmentation can be performed easily and accurately by comparing phonemes obtained by speech recognition with known phoneme II sequences, and information regarding accents and intonations can be easily and accurately performed. It can be easily obtained from the input.

第2図の実施例は、音声入力のみを用いて、セグメンテ
ーシヨンにより音声波形を各音韻に分解し、文字系列に
変換するものであり、このセグメンテーシヨンの際に同
時にピッチ情報や音韻長などの情報を抽出することによ
って、第1図の場合と同様に、別途キーボードからのア
クセント情報の入力を省略することができる。なおこの
場合には当然音声認識回路の精度が問題となるが、本発
明者等が別途提案している曖昧前の処理方式などを泪い
ることにより、最近では比較的安価でしかも精度の高い
音声認識回路を構成することができる。
The embodiment shown in Figure 2 uses only voice input to segment the voice waveform into phonemes and convert them into character sequences.During this segmentation, pitch information and phoneme length are simultaneously analyzed. By extracting information such as, it is possible to omit the separate input of accent information from the keyboard, as in the case of FIG. Naturally, in this case, the accuracy of the speech recognition circuit is a problem, but recently, by using a pre-ambiguity processing method that the inventors have proposed separately, it has become possible to achieve relatively inexpensive and highly accurate speech. A recognition circuit can be configured.

[発明の効果] 上述のように本発明は、規則合成のための音声コードを
文字入力と音声入力により、あるいは音声入力のみを用
いて作成するものであって、音声波形をセグメンテーシ
ヨンにより文字系列に変換する際に同時にピッチ情報な
どの抽出を行ない、これを規則合成時にアクセント情報
として利用するようにしたものであるから、従来行なっ
ていたキーボードからの文字入力及びアクセント位置の
入力のうち、少なくともアクセント位置の入力を省略す
ることができ、音声コードの作成を着しく簡単化し得る
という利点がある。
[Effects of the Invention] As described above, the present invention creates a voice code for rule synthesis by character input and voice input, or by using voice input only, and converts voice waveforms into characters by segmentation. When converting to a series, pitch information is extracted at the same time, and this is used as accent information when composing rules, so it is possible to input characters and accent positions from the keyboard, which was conventionally done. There is an advantage that at least the input of the accent position can be omitted, and the creation of the voice code can be considerably simplified.

【図面の簡単な説明】[Brief explanation of drawings]

第1図(a)及び(b)は本発明方法の一実施例を示す
70−チャート、第2図は他の実施例を示す70−チャ
ートである。
1(a) and (b) are 70-charts showing one embodiment of the method of the present invention, and FIG. 2 is a 70-chart showing another embodiment.

Claims (3)

【特許請求の範囲】[Claims] (1)音声を入力とし、音声認識技術により音声波形を
文字系列に変換すると共に各音韻のピッチ情報を抽出し
、上記ピッチ情報を文字系列と共にコード化することを
特徴とする音声コード作成方法。
(1) A speech code creation method which takes speech as input, converts the speech waveform into a character sequence using speech recognition technology, extracts pitch information of each phoneme, and encodes the pitch information together with the character sequence.
(2)音声入力と同一内容の文字系列を予め入力してお
き、セグメンテーションによって得られる音韻を文字入
力による音韻と照合しながら、ピッチ情報の抽出を行な
うことを特徴とする特許請求の範囲1項記載の音声コー
ド作成方法。
(2) A character sequence having the same content as the voice input is input in advance, and pitch information is extracted while comparing the phonemes obtained by segmentation with the phonemes from the character input. How to create audio code as described.
(3)ピッチ情報と共に他の韻律または調音結合に関す
る情報を抽出することを特徴とする特許請求の範囲第1
項記載の音声コード作成方法。
(3) Claim 1 characterized in that information regarding other prosodic or articulatory combinations is extracted along with pitch information.
How to create audio code as described in section.
JP60138517A 1985-06-25 1985-06-25 How to create voice code Expired - Lifetime JPH0632019B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60138517A JPH0632019B2 (en) 1985-06-25 1985-06-25 How to create voice code

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60138517A JPH0632019B2 (en) 1985-06-25 1985-06-25 How to create voice code

Publications (2)

Publication Number Publication Date
JPS61296396A true JPS61296396A (en) 1986-12-27
JPH0632019B2 JPH0632019B2 (en) 1994-04-27

Family

ID=15223995

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60138517A Expired - Lifetime JPH0632019B2 (en) 1985-06-25 1985-06-25 How to create voice code

Country Status (1)

Country Link
JP (1) JPH0632019B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6315294A (en) * 1986-07-08 1988-01-22 株式会社日立製作所 Voice analysis system
JPS63237098A (en) * 1987-03-25 1988-10-03 株式会社 エイ・テイ・ア−ル自動翻訳電話研究所 Voice data base configuration system having multi-layer label
JPS6449100A (en) * 1987-08-20 1989-02-23 Matsushita Electric Ind Co Ltd Voice processor
JPS6478300A (en) * 1987-09-18 1989-03-23 Nippon Telegraph & Telephone Voice synthesization
US8751235B2 (en) 2005-07-12 2014-06-10 Nuance Communications, Inc. Annotating phonemes and accents for text-to-speech system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5912499A (en) * 1982-07-12 1984-01-23 松下電器産業株式会社 Voice encoder
JPS59192292A (en) * 1983-04-15 1984-10-31 株式会社日立製作所 Voice recognition equipment
JPS6057899A (en) * 1983-09-09 1985-04-03 電子計算機基本技術研究組合 Voice registration system
JPS6075891A (en) * 1983-10-01 1985-04-30 電子計算機基本技術研究組合 Phoneme segmentation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5912499A (en) * 1982-07-12 1984-01-23 松下電器産業株式会社 Voice encoder
JPS59192292A (en) * 1983-04-15 1984-10-31 株式会社日立製作所 Voice recognition equipment
JPS6057899A (en) * 1983-09-09 1985-04-03 電子計算機基本技術研究組合 Voice registration system
JPS6075891A (en) * 1983-10-01 1985-04-30 電子計算機基本技術研究組合 Phoneme segmentation

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6315294A (en) * 1986-07-08 1988-01-22 株式会社日立製作所 Voice analysis system
JPH0731509B2 (en) * 1986-07-08 1995-04-10 株式会社日立製作所 Voice analyzer
JPS63237098A (en) * 1987-03-25 1988-10-03 株式会社 エイ・テイ・ア−ル自動翻訳電話研究所 Voice data base configuration system having multi-layer label
JPS6449100A (en) * 1987-08-20 1989-02-23 Matsushita Electric Ind Co Ltd Voice processor
JPS6478300A (en) * 1987-09-18 1989-03-23 Nippon Telegraph & Telephone Voice synthesization
US8751235B2 (en) 2005-07-12 2014-06-10 Nuance Communications, Inc. Annotating phonemes and accents for text-to-speech system

Also Published As

Publication number Publication date
JPH0632019B2 (en) 1994-04-27

Similar Documents

Publication Publication Date Title
JP4536323B2 (en) Speech-speech generation system and method
Isewon et al. Design and implementation of text to speech conversion for visually impaired people
USRE39336E1 (en) Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains
Cosi et al. Festival speaks italian!
US6212501B1 (en) Speech synthesis apparatus and method
JPS61296396A (en) Voice code generation
CN114999447B (en) Speech synthesis model and speech synthesis method based on confrontation generation network
Aida–Zade et al. The main principles of text-to-speech synthesis system
Kumar et al. Significance of durational knowledge for speech synthesis system in an Indian language
Hirst ProZed: a multilingual prosody editor for speech synthesis
JPS6315294A (en) Voice analysis system
JP3397406B2 (en) Voice synthesis device and voice synthesis method
Jose et al. Malayalam Text-to-Speech
JPS5958493A (en) Recognition system
JP3308875B2 (en) Voice synthesis method and apparatus
CN118116365A (en) Prosodic text generation method and device applied to dialect
JPH0562356B2 (en)
Davaatsagaan et al. Diphone-based concatenative speech synthesis system for mongolian
Hakoda et al. Japanese text-to-speech synthesizer based on residual excited speech synthesis
JPS6157997A (en) Voice synthesization system
Gopal et al. A simple phoneme based speech recognition system
JPH0756589A (en) Voice synthesis method
JPS58168096A (en) Multi-language voice synthesizer
Savino et al. Which Italian do current systems speak? a first step towards pronunciation modelling of Italian varieties.
Khandare et al. TEXT TO SPEECH SYSTEM OF INDIAN LANGUAGE