JPS63234299A - Voice analysis/synthesization system - Google Patents

Voice analysis/synthesization system

Info

Publication number
JPS63234299A
JPS63234299A JP62067278A JP6727887A JPS63234299A JP S63234299 A JPS63234299 A JP S63234299A JP 62067278 A JP62067278 A JP 62067278A JP 6727887 A JP6727887 A JP 6727887A JP S63234299 A JPS63234299 A JP S63234299A
Authority
JP
Japan
Prior art keywords
speech
waveform
frequency
section
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62067278A
Other languages
Japanese (ja)
Inventor
俊夫 上村
吉明 北爪
健一 柿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP62067278A priority Critical patent/JPS63234299A/en
Publication of JPS63234299A publication Critical patent/JPS63234299A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 【産業上の利用分野1 本発明は,音声分析合成方式に係り,特に、合成音声の
音程を変えることなく発声速度を可変とすることができ
る音声分析合成方式に関する。 【従来の技術1 現在,音声分析合成装置は、駅構内等で案内サービスに
広く使われている.また、パーソナルコンピュータ、ワ
ードプロセッサのガイダンス等への適用も考えられてい
る.特に、ガイダンスへの用途では,利用者の要望に応
じて,発声速度は可変であることが望ましい。 ところで、単に,再生速度を変化させることにより発声
速度を変えたのでは,音程も共に変わってしまい,不自
然てあるだけでなく聞きづらいとこの問題に対し、音程
を変えることなく発声速度を可変にする従来の方式が、
特開昭58−16295号公報に開示されている。 即ち、この公報では、メモリに記憶された音声データか
らピッチ周期波形を検出し、ピッチ周期波形の繰返し数
をある一定の比率で間引くことにより、音程を変えるこ
となく発声速度を可変にする技術か開示されている。 [発明か解決しようとする問題点1 しかしながら、上記従来方式では、母音、子音の別なく
ピッチ周期波形の繰返し数を一定の比率で間引いた場合
、子音が短くなることによる音質の劣化が生じ、聞き手
に不明瞭な音声となるが、このことについて適切な配慮
がなされていなかった。 したがって1本発明の目的は、このような従来技術の欠
点を解消し、音質を変えることなく発声速度を可変とす
る音声分析合成方式を提供することにある。 【問題点を解決するための手段] 上記目的を達成するために本発明は、 ピッチ周期波形の繰返し数を間引くことにより、音程を
変えることなく発声速度を可変にする音声分析合成方式
において、 音声波形の周波数を計測し。 該計測の結果に応じて、上記音声波形について間引処理
を行うかどうかを決定する ことを特徴としている。 本発明の実施態様として、上記計測は、予め定めた個数
の波形サンプルで構成される波形の零クロス点の数を計
算することにより行う。 本発明の他の実施態様として、上記計測の結果、上記周
波数が予め定めた周波数より低い場合にのみ、上記間引
処理を行う。 本発明の更に他の実施例として、上記予め定めた周波数
は、母音と子音とを区別できるしきい値周波数とし、上
記間引処理は、上記母音についてのみ行う。 【作用】 本発明ては、音声波形の周波数に基づいて母音と子音と
を区別することができることに着目し、メモリに記憶さ
れた各音声波形区間の周波数を計測して、その結果に応
じて間引処理を行うか否かを決定するようにした。 即ち、音声波形の周波数が低い場合その音声波形は母音
区間であり、周波数が高い場合は子音区間であると判断
できるので、子音区間については間引処理を行わず、母
音区間についてのみ間引処理を実行するようにするこ−
とにより、間引処理による音声速度変換時に、音質の劣
化を防止し、ひいては聞き手に明瞭な合成音声を発生す
ることが可能になる。 ■実施例] 以下、図面を参照しながら、本発明の一実施例を詳細に
説明する。 第3図に、本発明を実施するためのシステムのブロック
図を示す。 lは、入力端子5に入力されたアナログ音声信号をデジ
タル信号に変換するA/D変換器である。2は、デジタ
ル音声データを格納するメモリである。このメモリ2に
格納されるデジタル音声データは、A/D変換変換器比
力そのものであっても、その出力を波形圧縮したものて
あってもよい。3は、システム全体のシーケンス制御を
行うCPUである。4は、メモリ2から読み出したデジ
タル音声データ(圧縮されている場合には元にもどした
もの)をアナログ音声信号に変換して端子6に出力する
D/A変換器である。 本実施例では1周波数計測による子音の判別をCPU3
により行っている。第1図に、本実施例においてCPU
3が実行する音声分析合成処理(速度変換処理)のフロ
ーチャートを示す。 まず、初めのステップ11では、第3図のメモリ2内に
記憶された音声データの各音声区間内の所定の点、a点
での周波数を計測する。この計測は、a点からサンプル
数N個前までの間の零りロス数Za、即ち。 を計算することにより、行う。a点は1音声区間内でN
個のサンプル点がとれる点であればよいが、a点を順次
後方にずらして各点について零クロス数の計算を行って
もよい。 次のステップ13では、前のステップの結果に基づいて
、a点が母音区間に属するか子音区間に属するかを判断
する。即ち、前のステップ11で求めた零クロス数Za
を、子音と母音との零クロス数のしきい値zthと比較
し、 Za<Zth であれば、a点か属する区間を母音区間と判定する。逆
に、 Za≧Zth てあれば、a点が属する区間を子音区間と判定する。 ステップ13で母音期間と判定された場合はステップ1
5の間引処理に進み、ステップ13で子音区間と判定さ
れた場合は間引処理を行わずにこの発声速度変換処理を
終る。 ステップ15の間引処理は、ピッチ周期繰返しを検出し
、ピッチ周期繰返し数を制御する等の従来の公知技術で
行うことかできる。 次に、第3図に、「白い(siroi)Jと発音した場
合の音声波形と零クロス点とを示し、本発明による音声
分析合成処理を具体的に説明する。 まず、音声“S”の区間内のa点での周波数、即ち、a
点からサンプル数N点前までの零クロス数Zaを計算す
る。このZaの値が13であり、しきい値ZthがlO
であるとすると、Za≧Zthとなり、この区間は子音
区間であると判断され、間引処理は行われない。 次に、音声“i”の区間内のb点での周波数、即ち、b
点からサンプル数N点前までの零クロス数zbを同様に
計算する。この場合、zbの値は5であり、Za<Zい
の関係が成立するので、b点が属する区間は母音区間で
あると判断され、間引処理が行なわれる。 このようにして、順次、第2図の各音声区間について、
第1図の処理を繰返し実行すると、子音である音声“r
″の区間については間引処理は行われず、母音である音
声“0”および音声“i”の区間については間引処理が
行われることになる。 尚、しきい値Zthは、第2図の例ではを10としたが
実際には、サンプル数Nとの関係により決まる。 また、本実施例では、CPUにより処理を行っているが
、汎用信号処理用LS1.音声分析合成LSI等にイン
プリメントしてもよい。 [発明の効果] 以上説明したように、本発明によれば、音声波形の周波
数を計測して間引処理が音質劣化を引き起こすような周
波数の音声については間引処理を行わないようにするこ
とにより、音程を変化させないたけでなく、音質の劣化
を招くことなく発声速度を可変にすることが可能になる
DETAILED DESCRIPTION OF THE INVENTION [Industrial Application Field 1] The present invention relates to a speech analysis and synthesis method, and particularly to a speech analysis and synthesis method that allows the speech rate to be varied without changing the pitch of synthesized speech. [Conventional technology 1] Currently, speech analysis and synthesis devices are widely used for guidance services in stations and the like. It is also being considered for application to guidance for personal computers and word processors. In particular, when used for guidance, it is desirable that the speaking speed be variable according to the user's request. By the way, if you simply change the speaking speed by changing the playback speed, the pitch will also change, which is not only unnatural but also difficult to hear.To solve this problem, we have developed a method to change the speaking speed without changing the pitch. The conventional method of
It is disclosed in Japanese Unexamined Patent Publication No. 16295/1983. That is, this publication describes a technology that detects a pitch periodic waveform from audio data stored in memory and thins out the number of repetitions of the pitch periodic waveform at a certain rate, thereby making it possible to vary the speaking speed without changing the pitch. Disclosed. [Problem to be Solved by the Invention 1] However, in the conventional method described above, when the number of repetitions of the pitch periodic waveform is thinned out at a certain ratio regardless of whether it is a vowel or a consonant, the sound quality deteriorates due to the shortening of the consonant. The sound would be unclear to the listener, but no proper consideration was given to this issue. Accordingly, an object of the present invention is to provide a speech analysis and synthesis method that eliminates the drawbacks of the prior art and allows the speech rate to be varied without changing the sound quality. [Means for Solving the Problems] In order to achieve the above object, the present invention provides a speech analysis and synthesis method that changes the speaking rate without changing the pitch by thinning out the number of repetitions of the pitch periodic waveform. Measure the frequency of the waveform. The present invention is characterized in that it is determined whether or not to perform thinning processing on the audio waveform in accordance with the result of the measurement. In an embodiment of the present invention, the above measurement is performed by calculating the number of zero-crossing points of a waveform composed of a predetermined number of waveform samples. As another embodiment of the present invention, the thinning process is performed only when the frequency is lower than a predetermined frequency as a result of the measurement. As yet another embodiment of the present invention, the predetermined frequency is a threshold frequency that can distinguish between vowels and consonants, and the thinning process is performed only on the vowels. [Operation] The present invention focuses on the fact that vowels and consonants can be distinguished based on the frequency of the speech waveform, and measures the frequency of each speech waveform section stored in the memory, and uses the It is now possible to decide whether or not to perform thinning processing. In other words, if the frequency of the speech waveform is low, it can be determined that the speech waveform is a vowel section, and if the frequency is high, it can be determined that it is a consonant section. Therefore, the consonant section is not thinned out, but only the vowel section is thinned out. Make sure to execute
As a result, it is possible to prevent deterioration of sound quality during voice speed conversion by thinning processing, and to generate clear synthesized speech to the listener. [Example] Hereinafter, an example of the present invention will be described in detail with reference to the drawings. FIG. 3 shows a block diagram of a system for implementing the invention. 1 is an A/D converter that converts an analog audio signal input to the input terminal 5 into a digital signal. 2 is a memory that stores digital audio data. The digital audio data stored in this memory 2 may be the A/D conversion converter specific power itself, or may be the output obtained by compressing the waveform. 3 is a CPU that performs sequence control of the entire system. 4 is a D/A converter that converts the digital audio data (restored if compressed) read from the memory 2 into an analog audio signal and outputs it to the terminal 6. In this embodiment, the CPU 3 performs consonant discrimination based on one frequency measurement.
This is done by FIG. 1 shows that in this embodiment, the CPU
3 shows a flowchart of speech analysis and synthesis processing (speed conversion processing) executed by No. 3. First, in step 11, the frequency at a predetermined point, point a, in each voice section of the voice data stored in the memory 2 in FIG. 3 is measured. This measurement is the number of zero losses Za between point a and N samples before. This is done by calculating . Point a is N within one voice section.
The number of zero crosses may be calculated for each point by sequentially shifting point a backward. In the next step 13, it is determined whether point a belongs to the vowel interval or the consonant interval based on the result of the previous step. That is, the number of zero crosses Za obtained in the previous step 11
is compared with a threshold value zth for the number of zero crossings between a consonant and a vowel, and if Za<Zth, the section to which point a belongs is determined to be a vowel section. Conversely, if Za≧Zth, the section to which point a belongs is determined to be a consonant section. If it is determined in step 13 that it is a vowel period, step 1
The process proceeds to the thinning process in step 5, and if it is determined in step 13 that it is a consonant section, the speech rate conversion process ends without performing the thinning process. The thinning process in step 15 can be performed using conventional known techniques such as detecting pitch cycle repetition and controlling the number of pitch cycle repetitions. Next, the speech analysis and synthesis processing according to the present invention will be explained in detail by showing the speech waveform and zero cross points when pronouncing "siroi J" in FIG. The frequency at point a within the interval, i.e. a
Calculate the number of zero crosses Za from the point up to N points before the sample number. The value of this Za is 13, and the threshold value Zth is lO
If so, then Za≧Zth, and this section is determined to be a consonant section, and no thinning processing is performed. Next, the frequency at point b within the interval of speech “i”, that is, b
The number of zero crosses zb from the point to the point N samples before is calculated in the same way. In this case, the value of zb is 5, and the relationship Za<Z holds true, so the section to which point b belongs is determined to be a vowel section, and the thinning process is performed. In this way, for each voice section in Fig. 2,
When the process shown in Figure 1 is repeated, the consonant sound "r"
The thinning process will not be performed for the section ``, and the thinning process will be performed for the sections containing the vowel sounds "0" and "i". In the example, it is set to 10, but in reality it is determined by the relationship with the number of samples N.Also, in this example, processing is performed by the CPU, but it may be implemented in a general-purpose signal processing LS1, speech analysis and synthesis LSI, etc. [Effects of the Invention] As explained above, according to the present invention, the frequency of the audio waveform is measured and the thinning process is not performed for audio at a frequency where the thinning process causes sound quality deterioration. By doing this, it becomes possible to not only keep the pitch unchanged, but also to vary the speaking speed without causing deterioration in sound quality.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は、本発明の音声分析合成処理のフローチャート
、第2図は、第1図の処理を説明するための音声波形図
、第3図は、本発明を実施するためのシステムのブロッ
ク図である。
FIG. 1 is a flowchart of the speech analysis and synthesis process of the present invention, FIG. 2 is a speech waveform diagram for explaining the process of FIG. 1, and FIG. 3 is a block diagram of a system for implementing the present invention. It is.

Claims (1)

【特許請求の範囲】 1、音声の周期波形の繰返し数を間引くことにより、音
程を変えることなく発声速度を可変にする音声分析合成
方式において、 音声波形の周波数を計測し、 該計測の結果に応じて、上記音声波形について間引処理
を行うかどうかを決定する ことを特徴とする音声分析合成方式。 2、上記計測は、予め定めた個数の波形サンプルで構成
される波形の零クロス点の数を計算することにより行う
ことを特徴とする特許請求の範囲第1項記載の音声分析
合成方式。 3、上記計測の結果、上記周波数が予め定めた周波数よ
り低い場合にのみ、上記間引処理を行うことを特徴とす
る特許請求の範囲第1項記載の音声分析合成方式。 4、上記予め定めた周波数は、母音と子音とを区別でき
るしきい値周波数とし、上記間引処理は、上記母音につ
いてのみ行うことを特徴とする特許請求の範囲第3項記
載の音声分析合成方式。
[Claims] 1. In a speech analysis and synthesis method that varies the speaking rate without changing the pitch by thinning out the number of repetitions of a periodic waveform of speech, the frequency of the speech waveform is measured, and the result of the measurement is A speech analysis and synthesis method, characterized in that it is determined whether or not to perform thinning processing on the speech waveform according to the speech waveform. 2. The speech analysis and synthesis method according to claim 1, wherein the measurement is performed by calculating the number of zero crossing points of a waveform composed of a predetermined number of waveform samples. 3. The voice analysis and synthesis method according to claim 1, wherein the thinning process is performed only when, as a result of the measurement, the frequency is lower than a predetermined frequency. 4. Speech analysis and synthesis according to claim 3, wherein the predetermined frequency is a threshold frequency that can distinguish between vowels and consonants, and the thinning process is performed only on the vowels. method.
JP62067278A 1987-03-20 1987-03-20 Voice analysis/synthesization system Pending JPS63234299A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62067278A JPS63234299A (en) 1987-03-20 1987-03-20 Voice analysis/synthesization system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62067278A JPS63234299A (en) 1987-03-20 1987-03-20 Voice analysis/synthesization system

Publications (1)

Publication Number Publication Date
JPS63234299A true JPS63234299A (en) 1988-09-29

Family

ID=13340340

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62067278A Pending JPS63234299A (en) 1987-03-20 1987-03-20 Voice analysis/synthesization system

Country Status (1)

Country Link
JP (1) JPS63234299A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03259197A (en) * 1990-03-08 1991-11-19 Nec Corp Voice synthesizer
JP2006343544A (en) * 2005-06-09 2006-12-21 Miyazaki Prefecture Voice recognition method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5982608A (en) * 1982-11-01 1984-05-12 Nippon Telegr & Teleph Corp <Ntt> System for controlling reproducing speed of sound

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5982608A (en) * 1982-11-01 1984-05-12 Nippon Telegr & Teleph Corp <Ntt> System for controlling reproducing speed of sound

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03259197A (en) * 1990-03-08 1991-11-19 Nec Corp Voice synthesizer
JP2006343544A (en) * 2005-06-09 2006-12-21 Miyazaki Prefecture Voice recognition method

Similar Documents

Publication Publication Date Title
US6205420B1 (en) Method and device for instantly changing the speed of a speech
CA1065490A (en) Emphasis controlled speech synthesizer
EP0726560A2 (en) Variable speed playback system
CN111192594B (en) Method for separating voice and accompaniment and related product
JP2612868B2 (en) Voice utterance speed conversion method
JP3576800B2 (en) Voice analysis method and program recording medium
JPS5982608A (en) System for controlling reproducing speed of sound
JPS63234299A (en) Voice analysis/synthesization system
JP3379348B2 (en) Pitch converter
JP3266124B2 (en) Apparatus for detecting similar waveform in analog signal and time-base expansion / compression device for the same signal
US4210781A (en) Sound synthesizing apparatus
US20070269056A1 (en) Method and Apparatus for Audio Signal Expansion and Compression
USRE31172E (en) Sound synthesizing apparatus
JPH06222794A (en) Voice speed conversion method
JPH0193799A (en) Voice pitch conversion
KR100359988B1 (en) real-time speaking rate conversion system
JP2860991B2 (en) Audio storage and playback device
JPH0235320B2 (en)
JP2861005B2 (en) Audio storage and playback device
JPS63124100A (en) Fundamental frequency analyzer
JPH01267700A (en) Speech processor
JPS6265098A (en) Music vocoder
WO2016035022A2 (en) Method and system for epoch based modification of speech signals
JPS63210900A (en) Voice synthesizer
JPS63210899A (en) Voice synthesizer