JPS6139099A - Quantization method and apparatus for csm parameter - Google Patents
Quantization method and apparatus for csm parameterInfo
- Publication number
- JPS6139099A JPS6139099A JP16049184A JP16049184A JPS6139099A JP S6139099 A JPS6139099 A JP S6139099A JP 16049184 A JP16049184 A JP 16049184A JP 16049184 A JP16049184 A JP 16049184A JP S6139099 A JPS6139099 A JP S6139099A
- Authority
- JP
- Japan
- Prior art keywords
- csm
- speech
- supplied
- quantizer
- intensity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.
Description
【発明の詳細な説明】
(技術分野)
本発明はCSMパラメータ、すなわち高々4〜6波の周
波数で表現されるC S M (Compoait6S
i−nusoidal Modeling :複合正弦
波モデル)パラメータ量子化に関する。Detailed Description of the Invention (Technical Field) The present invention relates to CSM parameters, that is, CSM (Compoait6S) expressed by at most 4 to 6 frequencies.
i-nusoidal modeling: composite sine wave model) related to parameter quantization.
(従来技術)
音声合成器として従来LPC型音声合成器が広く用いら
れているが、LPC型音声合成器は一般に構造が複雑で
ある。また音声合成に用いるLPCフィルタの特性が、
パラメータ伝送時のエラー等によりその安定性が損なわ
れるという欠点がある。(Prior Art) Conventionally, LPC-type speech synthesizers have been widely used as speech synthesizers, but LPC-type speech synthesizers generally have a complicated structure. Also, the characteristics of the LPC filter used for speech synthesis are
There is a drawback that its stability is impaired due to errors during parameter transmission.
これに対してCSMを用いて音成合成を行なうCSM型
音声合成器は、後に詳述するように、フィルタを有して
おらずその構造が非常に簡単であシ、本質的に合成時に
おける安定性の問題を生ずることはない。しかしながら
CSMパラメータの量子化に関しては従来、パラメータ
の各振幅を態別に量子化されており、パラメータ相互の
関係を考慮していなかった。そのためCSMパラメータ
の特性を充分に利用した量子化が行なわれず量子化の効
率が低いという欠点を有していた。On the other hand, the CSM type speech synthesizer that performs speech synthesis using CSM does not have a filter and has a very simple structure, as will be explained in detail later. No stability problems arise. However, regarding the quantization of CSM parameters, conventionally, each amplitude of the parameter has been quantized separately, and the relationship between the parameters has not been considered. Therefore, quantization that fully utilizes the characteristics of the CSM parameters is not performed, resulting in a disadvantage that the efficiency of quantization is low.
(発明の目的)
本発明の目的はCSMパラメータを量子化する場合にお
ける上述の問題を解決し、効率のよい量子化方法を提供
することにある。(Objective of the Invention) An object of the present invention is to solve the above-mentioned problems when quantizing CSM parameters and to provide an efficient quantization method.
(発明の構成)
本発明の量子化方法は、音声のスペクトル包絡を所定の
数ルの周波数と振幅とが自由な正弦波の集合で表現する
CSMパラ、−夕の量子化に於いて、振幅の集合(扉、
、m、、・・・−一)をα=専ax(m 、m、、・
・・−一)で表現される正規化係数αにより正規化する
手段を有して構成される。(Structure of the Invention) The quantization method of the present invention is based on the CSM parameter quantization in which the spectral envelope of speech is expressed as a set of sine waves with a predetermined number of free frequencies and amplitudes. A collection of (doors,
, m, ,...-1) is α=exclusive ax(m, m,,...
. . . -1) It is configured to have means for normalizing using a normalization coefficient α expressed as:
(原 理) 最初にCSM型音声合成器の原理について説明する。(Hara Ri) First, the principle of the CSM type speech synthesizer will be explained.
CAMとは、音声信号を、振幅と周波数とを自由に選べ
るパラメータとしてもつ特定の個数の正弦波の和として
、表現するものである。この正弦波の個数としては高々
4〜6個の予め定めた数が用いられる。CAM expresses an audio signal as a sum of a specific number of sine waves having amplitude and frequency as freely selectable parameters. A predetermined number of 4 to 6 sine waves is used at most.
従ってCAM音声合成を行なう場合には、まず、音声信
号をCSM音声分析により、予め定められた個数の正弦
波の和として表現する必要がある。Therefore, when performing CAM speech synthesis, it is first necessary to express the speech signal as a sum of a predetermined number of sine waves by CSM speech analysis.
CSM音声分析については後に詳述することとし、ここ
ではその要点のみを説明する。CSM voice analysis will be explained in detail later, and only the main points will be explained here.
CSM分析においてもLPC分析の場合と同様に、位相
情報の無視、音源の影響の平均化、雑音゛成分による不
安定性の回避等を目的に中間パラメータとして自己相関
係数を使用する。In CSM analysis, as in LPC analysis, an autocorrelation coefficient is used as an intermediate parameter for the purpose of ignoring phase information, averaging the influence of sound sources, and avoiding instability due to noise components.
すなわち、CSM分析は、各分析フレーム毎に表現され
るべき音声波形から直接算出される標本自己相関係数の
低次のタップのN個を、合成波の自己相関係数の低次の
タップのN個と一致するように、合成すべき各正弦波の
周波数およびその強度(電力振幅)を決定することであ
る。That is, in CSM analysis, N low-order taps of the sample autocorrelation coefficient directly calculated from the speech waveform to be expressed for each analysis frame are combined with N low-order taps of the autocorrelation coefficient of the composite wave. The purpose is to determine the frequency and intensity (power amplitude) of each sine wave to be synthesized so that they match the N sine waves.
今、合成すべき正弦波の個数をルとし、各正弦波の角周
波数をω6 (i−x、z、・・・、す、各正弦波の強
度をm、とすると、CSMの合成波ytはyt= zF
i内(ωit+φ、)
1霧!
となるが、このタップLの自己相関係数46はωi 、
nLiを用いて容易に表わされrt=、Σm@cmtc
d6
[=1
である。Now, let the number of sine waves to be synthesized be , and let the angular frequency of each sine wave be ω6 (i-x, z, ..., s, and the intensity of each sine wave be m, then the CSM composite wave yt is yt=zF
Within i (ωit+φ,) 1 fog! However, the autocorrelation coefficient 46 of this tap L is ωi,
It is easily expressed using nLi, rt=, Σm@cmtc
d6 [=1.
一方、表現されるべき音声波形のサンプルをXtとする
と、ある7レームにおけるタップtの標本自己相関係数
Utは
と己て与えられる。但し、Mは1分析フレームにおける
サンプル数である。On the other hand, if the sample of the audio waveform to be expressed is Xt, the sample autocorrelation coefficient Ut of tap t in a certain seven frames is given as follows. However, M is the number of samples in one analysis frame.
さて、CSM分析においては、上述のrtが、与えられ
たtjtと低次のN個について等しく女るように谷溝t
、ω、の値を決定することである。Now, in the CSM analysis, the above-mentioned rt is equal to the given tjt and the valley t
, ω, is determined.
すなわち、
’t”’t’但し、t=0.1,2.・ 、Nが成立す
るように扉i、ωiの値を決定することである。That is, the values of door i and ωi are determined so that 't', 't', where t=0.1, 2.., N holds true.
この具体的な方法については後に詳述することにして、
ここでは、上述のル個の正弦波の11Liおよびωiが
与えられた音声信号に応答して各分析フレームごとに次
次に得られるものとする。This specific method will be explained in detail later.
Here, it is assumed that the above-mentioned sine waves 11Li and ωi are obtained one after another for each analysis frame in response to a given audio signal.
こうして得られたCSMパラメータ町1ωiKよる音声
特徴ベクトルパターンの一例を第1図に示す。An example of the audio feature vector pattern based on the CSM parameter 1ωiK obtained in this way is shown in FIG.
また、分析フレームの窓長を3QcmSECとして分析
した9次(N=9)のCSM(正弦波の個数rb=5
)−)インスペクトルと、同一の音声サンプルよシ求め
た9次のLPCスペクトル包絡(LPG合成フィルタの
周波数伝送特性)との対応例を第2図に示す。In addition, the 9th order (N = 9) CSM (number of sine waves rb = 5
)-) FIG. 2 shows an example of the correspondence between the in-spectrum and the 9th-order LPC spectrum envelope (frequency transmission characteristic of the LPG synthesis filter) obtained from the same audio sample.
なお、上述の次数Nと、正弦波の個数路との間には、後
述するように
N==2ルー1
の関係がある。Note that there is a relationship between the above-mentioned order N and the number of sine waves as N==2×1 as described later.
これらの図よj5、CSMは表現すべき原音声の特徴を
抽出した情報を含んでいることが窺える。From these figures, it can be seen that the CSM contains information extracted from the features of the original speech to be expressed.
しかしながら、こうしてCSM分析の結果得られたル組
のmi、miの値を用いて、このmi、miで指定され
る強度(実際の振幅は前述のようK ・tlLi)およ
び角周波数をもつル個の正弦波を作り、これを単純と加
算合成したたけでは、人間の耳には、単に正弦波が合成
された音として聞えるだけで、もとの音声を再現すると
いう目的は達成できない。However, using the values of mi and mi obtained as a result of the CSM analysis, we can create a set of If we simply create a sine wave and synthesize it simply and additively, the human ear simply hears the sound as a synthesized sine wave, and the goal of reproducing the original sound cannot be achieved.
これは、正弦波を単純加算しても、発生された信号のス
ペクトルは、離散化されたル個の線スペクトルに過ぎず
、一方音声信号のスペクトルは連続的なスペクトル包絡
を有し、さらKまえ、有声音ではピッチ構造で表現され
、また無声音では確率過程で表現される微細なスペクト
ル構造を合せもっていて、単純加算し九〇SMと音声信
号とはスペクトル構造が全く異なっていることに起因す
′ると考えられる。This means that even if sine waves are simply added, the spectrum of the generated signal is only a discretized line spectrum, whereas the spectrum of the audio signal has a continuous spectral envelope, and First, voiced sounds are expressed by a pitch structure, and unvoiced sounds have a fine spectral structure expressed by a stochastic process.By simple addition, 90SM and speech signals have completely different spectral structures. It is thought that
そこで、CSMを用いて音声を合成するには、何らかの
方法を用いて線スペクトルを連続的なスペクトルへ拡散
することが必要となる。つまりCSM音声合成とは、第
1図、第2図で示されるよ・うな線スペクトルで表現さ
れた音声特徴ベクトルパターンから音声スペクトルパタ
ーンを発生させることと考えることができる。Therefore, in order to synthesize speech using CSM, it is necessary to use some method to spread the line spectrum into a continuous spectrum. In other words, CSM speech synthesis can be thought of as generating a speech spectrum pattern from a speech feature vector pattern expressed by a line spectrum as shown in FIGS. 1 and 2.
本発明においては、CSM音声合成において上述のスペ
クトル拡散を行なうために1以下のような手法を用いる
。In the present invention, the following techniques are used to perform the above-mentioned spectrum spreading in CSM speech synthesis.
すなわち、有声音は明確なピッチ構造を有するため、前
述のようにして指定されるル個の各正弦波を、このピッ
チ周期ごとに位相のリセットを行なう。これにより、簡
単にスペクトル包絡の発生とビ、ツチの微細スペクトル
構造の発生とが可能になる。That is, since a voiced sound has a clear pitch structure, the phase of each of the sine waves specified as described above is reset every pitch period. As a result, it becomes possible to easily generate a spectral envelope and a fine spectral structure of bis and tris.
さらにまた、実施例の説明において詳述するような特殊
の時間窓処理を上述の位相リセット波形、に施すことに
より位相リセット時における合成波形の不連続性を除き
、音声波形のもつ連続性な確保している。Furthermore, by applying special time window processing to the above-mentioned phase reset waveform as detailed in the explanation of the embodiment, discontinuity of the synthesized waveform at the time of phase reset can be removed and continuity of the audio waveform can be ensured. are doing.
以上の実施により第2図に示したCSMのラインスペク
トルは、第3図(A)に示されるように拡散され、スペ
クトル包絡とピッチの微細構造とを有するスペクトルに
変化し、聴覚的にも充分実用に耐える音質が得られるこ
とが実験結果明らかとなっている。As a result of the above implementation, the CSM line spectrum shown in FIG. 2 is diffused as shown in FIG. Experimental results have shown that sound quality that can withstand practical use can be obtained.
なお、参考のため、上述の処理を行なわず、単純加算を
しただけのCSMのスペクトルを第3図(ロ)に示す。For reference, FIG. 3(b) shows a CSM spectrum obtained by simple addition without performing the above-mentioned processing.
前述のように、このようなスペクトルをもつ波形では聴
覚的には単に正弦波が合成された音とレズ聞えるだけで
、音声を再現するという目的は達成されない。As mentioned above, a waveform with such a spectrum simply sounds like a synthesized sine wave sound, and the purpose of reproducing audio is not achieved.
以上は有声音の場合であるが、無声音の場合には以下の
ように行なう。すなわち、上述の有声音の場合に、ピッ
チ同期毎に行なった位相のリセットと特殊の時間窓処理
とを、無声音の場合にはピッチ同期のかわりに、確率過
程としてランダムに発生するその同期が分布幅と下限値
とを設定されたパルスを用い、このパルスの発生時点ご
とに上述の処理を実施するようにする。The above is for voiced sounds, but in the case of unvoiced sounds, it is performed as follows. In other words, in the case of voiced sounds mentioned above, the phase reset and special time window processing performed for each pitch synchronization are performed, and in the case of unvoiced sounds, instead of pitch synchronization, the synchronization that occurs randomly as a stochastic process is distributed. Using a pulse whose width and lower limit value are set, the above-described processing is performed every time this pulse is generated.
以上の手法を用いることにより聰覚的に充分実用に耐え
るCSM合成を行なうことができる。なお1以上のCS
M合成はフィルタを用いない合成法であるため、合成側
の安定性に対する考慮を必要としない。このため、mi
、miの情報を合成側に伝送し、合成側で音声を再現す
るような通信手段に用いる場合に、回線品質が比較的に
劣悪で伝送途中にエラーを発生するようなときKtiボ
コーダよりも良好な音質が得られるという特徴が考えら
れる。By using the above-mentioned method, it is possible to perform CSM synthesis that is sufficiently practical for practical use. In addition, 1 or more CS
Since M-synthesis is a synthesis method that does not use a filter, it does not require consideration of stability on the synthesis side. For this reason, mi
, better than the Kti vocoder when transmitting mi information to the synthesis side and reproducing the voice on the synthesis side, when the line quality is relatively poor and errors occur during transmission. One possible feature is that it provides a good sound quality.
(実施例) 次に本発明を実施例を用いて詳細に説明する。(Example) Next, the present invention will be explained in detail using examples.
説明の都合上、本発明を含む分析合成系を用いて本発明
を説明する。For convenience of explanation, the present invention will be described using an analytical synthesis system that includes the present invention.
第4図は本発明の一実施例を示すブロック図である。FIG. 4 is a block diagram showing one embodiment of the present invention.
本実施例は送信側1と、受信側2よりなる。This embodiment consists of a transmitting side 1 and a receiving side 2.
送信側1は、さらに、A/D変換器1o1、ハミング窓
処理器102、自己相関係数計測器103CSM分析器
104、CSM量子化器105、電力補正量子化器10
6、ピッチ抽出器107、有声音/無声音判定器108
およびマルチプレクサ109を含む。The transmitting side 1 further includes an A/D converter 1o1, a Hamming window processor 102, an autocorrelation coefficient measuring device 103, a CSM analyzer 104, a CSM quantizer 105, and a power correction quantizer 10.
6. Pitch extractor 107, voiced/unvoiced sound determiner 108
and a multiplexer 109.
また、受信側2は、さらに、デマルチプレクサおよび復
号化器201、補間器202、有声音/無声音切替器2
03、周期算出器204、乱数発生器205.3個の、
位相リセット機能付可変周波数発蛋器206−1,20
6−2.・・・・・・、206−fL、 ル個の可変利
得増幅器207−1,207−2.・・・・・・207
−ル、加算合成器208、可変長窓関数発生器209、
乗算器210および乗算器211を含んでいる。Further, the receiving side 2 further includes a demultiplexer and decoder 201, an interpolator 202, a voiced sound/unvoiced sound switch 2
03, period calculator 204, random number generator 205.3,
Variable frequency generator with phase reset function 206-1, 20
6-2. ..., 206-fL, variable gain amplifiers 207-1, 207-2.・・・・・・207
- module, addition synthesizer 208, variable length window function generator 209,
It includes a multiplier 210 and a multiplier 211.
さて、本実施例の動作は下記の通りである。伝送される
べき音声波形は、入力ライン1000を介して、A/D
変換器101に供給され、ここで、振幅および時間軸が
量子化されたディジタルデータに変換され、この出力は
それぞれ、ハミング窓処理器102、ピッチ抽出器10
7、有声音/無声音判定砦108の入力側に供給される
。Now, the operation of this embodiment is as follows. The audio waveform to be transmitted is sent to the A/D via input line 1000.
The output is supplied to a converter 101, where the amplitude and time axis are converted into quantized digital data, and the outputs are sent to a Hamming window processor 102 and a pitch extractor 10, respectively.
7, is supplied to the input side of the voiced/unvoiced sound determination block 108.
ハミング窓処理器102に供給されたディジタルデータ
は、予め定められている1フレームごとに、公知のハミ
ング窓関数による荷重乗算がなされ、各フレームのデー
タごとに自己相関係数計測器103に供給される。The digital data supplied to the Hamming window processor 102 is subjected to weight multiplication using a known Hamming window function for each predetermined frame, and is supplied to the autocorrelation coefficient measuring device 103 for each frame of data. Ru.
自己相関係数計測器103は、こうして入力された各フ
レームのデータごとに前述した下記の演算により低位の
N個の自己相関係数νt (但しt=1.2.・・・・
・・N)を求める。The autocorrelation coefficient measuring device 103 calculates the lowest N autocorrelation coefficients νt (where t=1.2..
... Find N).
すなわち、1フレ一ム分のデータをXt (但しt=
o、1.・・・・・・、 M−1)とすると、の演算処
理を行なうことにより、N個の各t’tを求める。In other words, the data for one frame is Xt (where t=
o, 1. ..., M-1), each of N t't is obtained by performing the calculation process.
こうして求められた各フレームごとのvtcvmを次の
CSM分析器に供給するとともにこの中のにおける電力
情報と・して、電力補正量子化器106に供給する。The thus obtained vtcvm for each frame is supplied to the next CSM analyzer, and is also supplied to the power correction quantizer 106 as power information therein.
さて、上述の各フレームごとの自己相関係数シロの組の
供給を受けたCSM分析器104は後に詳述する演算を
行なうことによって、対応するフレームのCSMのル個
の各正弦波の強度および角周波数を指定するm2.ωL
(但しi=1.2.・・・・・・ル)の組を決定し、
これをCSM量子化器105に供、給する。Now, the CSM analyzer 104, which has been supplied with the set of autocorrelation coefficients for each frame described above, calculates the intensity of each of the CSM sine waves of the corresponding frame by performing calculations to be described in detail later. m2 to specify the angular frequency. ωL
(where i = 1.2...le),
This is supplied to the CSM quantizer 105.
CSM量子化器105は本発明を構成する直接的な部分
であり別途詳細に説明するが、その概要は以下の代りで
ある。The CSM quantizer 105 is a direct part constituting the present invention and will be described in detail separately, but its outline is as follows instead.
CSM量子化器105はこれら1ni、ωtの値の組を
振幅の集合(m、、m2.・・・・・・−5)から求め
られるα=max(ryt、 、m2.・・・・・・、
m%)で表わされる正規化係数αを検索し、前記αを補
正データとして電力量子化器106へ出力するとともに
、前記aを用いて前記集用(扉□9m2.・・・・・1
1)を正規化する手段を会んで量子化するものであシ、
量子化ビット数は、再生音質に対する要求と回線の伝送
容量と全勘案して定まる適当なビット数が選択される。The CSM quantizer 105 converts the set of values of 1ni and ωt into α=max(ryt, , m2 . . . -5) obtained from the set of amplitudes (m, , m2 . . . -5).・、
m%), and outputs the α as correction data to the power quantizer 106, and uses the a to calculate the normalization coefficient α (door □9m2...1
1) is a means of normalizing and quantizing,
As the number of quantization bits, an appropriate number of bits determined by taking into consideration the requirements for reproduction sound quality and the transmission capacity of the line is selected.
CSM量子化器105は前記−2ω、の値の組を量子化
した後、マルチプレクサ109に供給する。The CSM quantizer 105 quantizes the set of values of -2ω, and then supplies it to the multiplexer 109.
また前述のV。と正規化係数αの供給を受けた電力量子
化器106も、ν。を上述の観点から定まる適当な粗゛
さで量子化した後、同様にマルチプレクサ109に供給
する。Also, the above-mentioned V. The power quantizer 106 also receives the normalization coefficient α and the normalization coefficient α. After being quantized with an appropriate coarseness determined from the above-mentioned viewpoint, it is similarly supplied to the multiplexer 109.
また、A/D変換器101から原音声信号のディジタル
を適当に量子化したデータとしてマルチプレクサ109
に供給し、同様に有声音/無声音判定器108も供給さ
れたディジタルデータより有声音/無声音の判定を行な
いこれを2値信号としてマルチプレクサ109に供給す
る。 ゛以上の信号の供給を受けたマルチプレク
サ109は、これらの信号を、受信側における分−が容
易に行なえ、また与えられた伝送路を伝送するのに適し
た形に合成し、伝送路1200を介して受信側 ・2に
伝送する。Further, the multiplexer 109 receives data obtained by appropriately quantizing the digital original audio signal from the A/D converter 101.
Similarly, the voiced/unvoiced sound determiner 108 also determines voiced/unvoiced sound based on the supplied digital data, and supplies this to the multiplexer 109 as a binary signal. The multiplexer 109, which has been supplied with the above signals, combines these signals into a form that can be easily separated on the receiving side and is suitable for transmission over the given transmission path, and then combines the signals into a form that can be easily separated on the receiving side and is suitable for transmission over the given transmission path. It is transmitted to the receiving side ・2 via.
さて受信1ll112においては、こ゛うして伝送され
た信号をデマルチプレクサおよび復号化器201におい
て復号化および分離を行なうことによって、送信側1の
マルチプレクサ109の入力側における各信号を復元す
る。Now, on the receiving side 112, the thus transmitted signals are decoded and separated in the demultiplexer and decoder 201, thereby restoring each signal on the input side of the multiplexer 109 on the transmitting side 1.
こうして復元された各信号は、メモリ機能を有する補間
器202に供給され、必要な補間がほどこされた後、そ
れぞれ次のように用いられる。Each signal thus restored is supplied to an interpolator 202 having a memory function, and after performing necessary interpolation, it is used as follows.
まず、CSMのル個の容認の角周波数を指定する町(鮨
〜ω7)は、前記ル個の位相リセット機能付可変周波数
発振器206−1〜206−ルの周波数制御入力に加え
られ、これらの発振器の出力角周波数を指定された角周
波数ω、〜ω、に設定する。First, the CSM specifying the acceptable angular frequencies (Sushi~ω7) is added to the frequency control inputs of the variable frequency oscillators with phase reset function 206-1 to 206-2, and these Set the output angular frequency of the oscillator to the specified angular frequency ω, ~ω.
また、CSMのル個の容認の強度(電力振幅)と指定す
るm1〜mnは前記ル個の可変利得増幅器207〜1〜
207−ルの利得制御端子に供給され、これによって各
周波数の発振電力が指定された値になるように制御する
。Furthermore, m1 to mn, which are designated as the acceptable strengths (power amplitudes) of the CSM, are the variable gain amplifiers 207 to 1 to
The signal is supplied to the gain control terminal of the 207-channel, thereby controlling the oscillation power of each frequency to a specified value.
こうして得られたル個の出刃は、可算合成器208にお
いて可算合成が行なわれた後、次の乗算器210に供給
される。The thus obtained number of blades are subjected to countable composition in countable combiner 208, and then supplied to the next multiplier 210.
さて、デマルチプレクサおよび復号化器201から出力
されるピッチ周期情報は、メモリを含む補間器202に
おいて、必要に応じて補間が施され、ピッチ周期を表わ
すディジタルデータとして有声音/無声音切替器203
に供給される。Now, the pitch period information output from the demultiplexer and decoder 201 is interpolated as necessary in an interpolator 202 including a memory, and is converted into digital data representing the pitch period by a voiced sound/unvoiced sound switch 203.
supplied to
一方、乱数発生器205で発生された乱数が、パルス間
隔演算器204に供給され、ここで乱数の分布幅および
その下限値が特定の値になるように変換され、無声音時
の位相リセット時間間隔を決定するデータ列として有声
音/無声音切替器203の他方の入力に供給される。On the other hand, the random numbers generated by the random number generator 205 are supplied to the pulse interval calculator 204, where they are converted so that the random number distribution width and its lower limit value become specific values, and the phase reset time interval during unvoiced sound is calculated. is supplied to the other input of the voiced sound/unvoiced sound switch 203 as a data string for determining the voiced sound/unvoiced sound switch 203.
またデマルチプレクサおよび復号化器201から出力さ
れる有声音無声音を区別する2直信号(V/U)は前述
の切替器203の切替制御信号として供給され、有声音
の場合には、切替器203が補間器202から出力する
前述のピッチ周期を表わすディジタルデータ側を選択し
て、これを窓関数発生器209に供給する。Further, a binary signal (V/U) that distinguishes between voiced and unvoiced sounds output from the demultiplexer and decoder 201 is supplied as a switching control signal to the above-mentioned switch 203, and in the case of a voiced sound, the switch 203 selects the digital data representing the aforementioned pitch period output from the interpolator 202 and supplies it to the window function generator 209 .
またもし前記2値信号(V/U)が無声音を指定する場
合には、切替4203は、前述の周期演算器204の出
力の確率過程で発生するランダムな時間間隔を表わすデ
ータ列側を選択し、これを上述のピッチ周期を表わすデ
ィジタルデータ例のかわりに、窓関数発生−a209に
供給する。Furthermore, if the binary signal (V/U) specifies an unvoiced sound, the switch 4203 selects the data string side representing a random time interval generated in the stochastic process of the output of the periodic calculator 204 described above. , is supplied to the window function generator-a 209 instead of the above-mentioned example of digital data representing the pitch period.
さて、窓関数発生器209は、位相リセットによって出
力波形に生ずる不連続を除き音声波形のもつ連続性を確
保する窓関数を発生するための庵ので、またさらにこの
窓関数と密接な時間関係を有する位相リセット用パルス
をも発生する。Now, the window function generator 209 is used to generate a window function that ensures the continuity of the audio waveform by removing discontinuities that occur in the output waveform due to phase reset, and also has a close time relationship with this window function. It also generates a phase reset pulse.
前述のように窓関数発生器209には切替器203を介
して、次次の位相リセット用パルス間の間隔を指定する
データ列が入力されるが、窓関数発生器209は、この
データで指定される時間間隔を有するインパルスを次次
に発生し、これをライン2090を介して位相リセット
機能付可変周波数発振器206−1〜206−ルの位相
リセット端゛子に供給しζこれによってこれら発振器の
位相リセットを行なう。またこれをライン2090を介
して補間器202に供給し、角周波数データωtおよび
強度データmiを補間するためのタイミング信号として
使用する。As mentioned above, a data string specifying the interval between the next phase reset pulse is input to the window function generator 209 via the switch 203. impulses having a time interval of Perform phase reset. It is also supplied to the interpolator 202 via line 2090 and used as a timing signal for interpolating the angular frequency data ωt and intensity data mi.
さて、窓関数発生器209は上述の位相リセット用パル
スの発生と同期して下記のよりな可変長の窓関数W(よ
)を発生する。Now, the window function generator 209 generates the following variable length window function W in synchronization with the generation of the above-mentioned phase reset pulse.
すなわち、入力されたデータにより指定されたその時点
における位相リセット用ノくルス間間隔の値をTとし、
前の位相リセット用パルスが発生してからの経過時間を
Xとすると
W=0.5+0.5cos(π−)
(g) T
但し o<a−<’r
で表わされるような窓関数を発生する。この窓関数W(
3:)を第5図(6)に示す。上述のTの値は、有声音
の場合にはピッチ周期を表わし、無声音の場合には確率
過程で発生する変数を表わすので時間とともに変化する
。従って、この窓関数w(l+)は可変長であり、上述
の位相リセット用パルスの発生と第5回申)に示すよう
な相対時間関係で同期している(窓関数の開始時点およ
び終止時点が位相リセット用パルスの発生時点とほぼ一
致している)。That is, let T be the value of the inter-nox interval for phase reset at that point in time specified by the input data,
If the elapsed time since the previous phase reset pulse was generated is X, then W = 0.5 + 0.5 cos (π-) (g) T However, generate a window function expressed as o<a-<'r. do. This window function W(
3:) is shown in FIG. 5 (6). The above-mentioned value of T represents the pitch period in the case of voiced sounds, and represents a variable that occurs in a stochastic process in the case of unvoiced sounds, so it changes over time. Therefore, this window function w(l+) has a variable length and is synchronized with the generation of the phase reset pulse mentioned above in the relative time relationship shown in the fifth example (the start and end points of the window function). (This almost coincides with the time point at which the phase reset pulse is generated.)
こうして発生された窓関数はライン2091を介して乗
算器210に供給される。この結果、乗算器210にお
いて、加算合成器208で合成された各位相リセット用
パルスごとに位相リセットされるが個の正弦波形と、各
位相リセット用パルスに同期して発生される上述の窓関
数W(、)との積が得られる。こうして得られる波形は
、各正弦波が位相リセットされる直前で窓関数W(、)
の乗算により連続的に0に収束されており、また位相リ
セット時点では各正弦波は0から立ち上るので波形の連
続性が確保され、かくして窓関数W(ヨ)の乗算により
位相リセット波形に生ずる不連続性を除くことができる
。The window function thus generated is provided to multiplier 210 via line 2091. As a result, the multiplier 210 generates a sine waveform whose phase is reset for each phase reset pulse synthesized by the addition synthesizer 208, and the above-mentioned window function generated in synchronization with each phase reset pulse. The product with W(,) is obtained. The waveform obtained in this way is expressed by the window function W(,) immediately before the phase of each sine wave is reset.
The waveform is continuously converged to 0 by the multiplication of Continuity can be removed.
不連続性を除かれた乗算器210の出力は、次の乗算器
211に供給され、ここで送信側1から送られた各フレ
ームの電力情報によって加重され、合成音声としてライ
ン2000から出力される。The output of the multiplier 210 from which discontinuities have been removed is supplied to the next multiplier 211, where it is weighted by the power information of each frame sent from the transmitter 1, and output as synthesized speech from the line 2000. .
以上に説明したように、本実施例の受信側2においては
、前述した音声合成に必要なCSM合成が実行され、こ
の結果、送信側1に入力した原音声の再現が、伝送路1
20Gにおける情報量の圧縮や伝送エラーにもかかわら
ず比較的良好な音質をもって行なわれることになる。As explained above, on the receiving side 2 of this embodiment, the CSM synthesis necessary for the above-mentioned speech synthesis is executed, and as a result, the reproduction of the original voice input to the transmitting side 1 is
Despite the compression of the amount of information and transmission errors in 20G, the sound quality is relatively good.
以上で説明した補間器202における各伝送データに対
する補間は、送信側1で各伝送データを量子化する際の
粗さに応じて種種の組合せ(例えば町だけ、あるいはω
、−一だけ等)で行なうことが可能で、また補間の方法
も、直線補間あるいはさらに高級な関数による補間を用
いるととも可能である。なお、ωi*miに対する補間
に関しては、上述の位相リセット用パルスの発生時点ご
とに補間データが得られるように補間点を選定すること
が有利であり、ωi、miの値の更新をこのタイミング
で行なうために前述のように位相リセット用パルスをラ
イン2090を介して補間器202に供給している。The interpolation for each transmission data by the interpolator 202 described above is performed using various combinations (for example, only towns or ω
, -1, etc.), and the interpolation method is also possible using linear interpolation or interpolation using a higher-level function. Regarding interpolation for ωi*mi, it is advantageous to select interpolation points so that interpolation data can be obtained at each point in time when the above-mentioned phase reset pulse is generated, and the values of ωi and mi can be updated at this timing. To do this, a phase reset pulse is provided to interpolator 202 via line 2090 as described above.
このような補間を行なうためには、必要な後のデータが
到着するかまたは発生するかした後に補間データが求め
られるため、発振器206に対する位相のリセットおよ
び周波数ω、の設定、また増幅器207に対する強度r
niの設定等の実際の処理は、実時間より必要な一定時
間だけ遅れて実行されることになる。このため補間器2
02には必要な情報を必要時点まで記憶しておくための
メモリが含まれている。In order to perform such interpolation, the interpolated data is obtained after the required subsequent data arrives or is generated, so the phase reset and frequency ω for the oscillator 206 and the setting of the frequency ω, and the intensity for the amplifier 207 are r
Actual processing such as setting ni will be executed after a necessary fixed time delay from real time. Therefore, interpolator 2
02 includes a memory for storing necessary information until a necessary point in time.
次に、位相リセット機能付可変周波数発振器206の回
路例を第6図に示す。周波数制御端子2061に加わる
電圧によって、定電流電源2062および2063に流
れる。容量2064に対する充放電電流値を制御し、こ
れによって発振周波数を可変とする。1点の発振電圧波
形は基準電圧の+Vrと−Vr との間を直線的に上
下する三角波形となる。位相リセット端子2065にイ
ンパルスを加えるとυ点は瞬間的に接地されて、強制的
に0電位に引き戻され、そこから発振を再スタートして
位相リセットが行なわれる。この1点の三角波発振出力
を正弦波変換器2066に入力し正弦波に変換して端子
2067より出力し、これを発振器206の出力として
用いる。正弦波変換器2066は例えばROMに格納し
たサイン関数値を入力波形で読出す等の方法により容易
に実現できる。Next, a circuit example of the variable frequency oscillator with phase reset function 206 is shown in FIG. A voltage applied to frequency control terminal 2061 causes constant current to flow to power supplies 2062 and 2063. The charging/discharging current value for the capacitor 2064 is controlled, thereby making the oscillation frequency variable. The oscillation voltage waveform at one point is a triangular waveform that linearly rises and falls between +Vr and -Vr of the reference voltage. When an impulse is applied to the phase reset terminal 2065, the υ point is momentarily grounded and forcibly pulled back to 0 potential, from which the oscillation is restarted and phase reset is performed. This one-point triangular wave oscillation output is input to a sine wave converter 2066, converted to a sine wave, outputted from a terminal 2067, and used as the output of the oscillator 206. The sine wave converter 2066 can be easily realized, for example, by reading out a sine function value stored in a ROM as an input waveform.
またこのような位相リセット機能付可変周波数発振器は
計算機のプログラムを用いて実現することも容易である
。Further, such a variable frequency oscillator with a phase reset function can be easily realized using a computer program.
次に可変利得増幅器207の回路例を第7図に示す。増
幅すべき信号を端子2071に加え、制御信号を端子2
072に加えることによって負帰還量を制御し出力端子
2073に制御された振幅を有する出力を得る。Next, a circuit example of the variable gain amplifier 207 is shown in FIG. The signal to be amplified is applied to terminal 2071, and the control signal is applied to terminal 2
072 to control the amount of negative feedback and obtain an output having a controlled amplitude at the output terminal 2073.
またこのほかに、アナログ乗算器を用いて実現すること
もできるし、またD/A変換器の基準電圧にアナログ波
形入力を用い、ディジタル入力に、ディジタル量で表現
された制御情報を用いる等の方法によりても容易に実現
することができる。In addition, it can also be realized by using an analog multiplier, or by using an analog waveform input as the reference voltage of the D/A converter and using control information expressed in digital quantities as the digital input. It can also be easily realized by a method.
次に乱数発生器205の一回路例を第8図に示す。15
段のレフトレジスタ2051と1個の中加算器2052
とKよ#)2 −1の周期を有する15次のM系列の疑
似乱数を発生する。必要な時点でクロック端子2053
にシフトパルスを加えることにより、次の乱数値が得ら
れる。Next, an example of a circuit of the random number generator 205 is shown in FIG. 15
A stage left register 2051 and one middle adder 2052
and K) generate a 15th order M-sequence of pseudo-random numbers with a period of 2 -1. Clock terminal 2053 at the required time
By adding a shift pulse to , the following random value is obtained.
次に周期算出器204のプ四ツク図を第9図(6)に示
す。これは上述の乱数発生器205から出力・される0
から2−1の範囲に一様に分布している乱数を無声音時
の位相リセット用パルスの時間間隔を指定する乱数とし
て用いるのに適した分布に変換するもので、定数乗算器
2041と定数加算器2042よりなる。これによって
、第9図(B)に示すように、乱数の分布幅りと下限値
りとを適当な値に設定することができる。Next, a block diagram of the period calculator 204 is shown in FIG. 9(6). This is the 0 output from the random number generator 205 mentioned above.
This converts random numbers that are uniformly distributed in the range from 2 to 1 to a distribution suitable for use as random numbers that specify the time interval of phase reset pulses during unvoiced speech, and uses a constant multiplier 2041 and a constant addition. It consists of a container 2042. As a result, as shown in FIG. 9(B), the random number distribution width and lower limit value can be set to appropriate values.
次に窓関数発生器209の一実施例を第10図に示す。Next, an embodiment of the window function generator 209 is shown in FIG.
これはレジスタ2091、プリセット可能なダウンカウ
ンタ2092、カウンタ2093、読出し専用メモリ(
ROM)2094を含んでいる。This includes a register 2091, a presettable down counter 2092, a counter 2093, and a read-only memory (
ROM) 2094.
切替器203から供給された位相リセット用パルス間隔
を指定するデータTは、レジスタ2091に格能される
。ダウンカウンタ2092は一定周期の高速クロックC
LKをカウントするカウンタで、まず、レジスタ209
1の内容Tをプリセットし、これをクロックCLKを用
いてダウンカウントする。カウンタ2092の内容が0
になると出力端子よりパルスを発生し、これにより再び
レジスタ2091の内容をプリセットしてこの値のダウ
ンカウントを開始する。かくしてダウンカウンタ209
2の出力2092−1 にはTに比例した周期(例えば
T/&)をもつパルス列が発生する。このパルス列はカ
ラ/り2093のクロックとして加えられる。Data T specifying the phase reset pulse interval supplied from the switch 203 is stored in the register 2091. The down counter 2092 is a high-speed clock C with a constant period.
First, the register 209 is a counter that counts LK.
The content T of 1 is preset and counted down using the clock CLK. The contents of counter 2092 are 0
When this happens, a pulse is generated from the output terminal, which presets the contents of the register 2091 again and starts counting down this value. Thus the down counter 209
A pulse train having a period proportional to T (for example, T/&) is generated at the output 2092-1 of No. 2. This pulse train is added as a clock to the color/receiver 2093.
このクロックで歩進されるカウンタ2093のカウント
出力2093−1はROM2094にアドレス指定信号
として加えられ、そこに書き込まれている窓関数W(、
)、のデータを順番に読出してライン2091に出力す
る。カウンタ2093の内容がkになると、ROM20
94の窓関数W(ヨ)の最後のデータが読出され、これ
とともにカウンタ2093はリセットされてライン20
90にリセットパルスを出力する。このリセットパルス
は、発振器206−1〜206−f&の位相リセット用
端子および補間器202に供給される前述の位相リセッ
ト用パルスとして用いられると共に、レジスタ2091
に次の入力データをセットするために用いられる。また
ROM2094の中にに個のサンプルとして予め格納さ
れている窓関数w(6)のデータはライン2091に流
出されて乗算器210に供給される。かくして、パルス
間間隔がつぎつぎに指定された値をもつ位相リセット用
パルスと、これと第5図(B)に示すように同期された
可変長の窓関数W(、)とが生成される。The count output 2093-1 of the counter 2093, which is incremented by this clock, is added to the ROM 2094 as an address designation signal, and the window function W (,
), are read out in order and output to line 2091. When the contents of the counter 2093 reach k, the ROM 20
The last data of window function W(Y) of line 2094 is read out, and at the same time, the counter 2093 is reset and
A reset pulse is output at 90. This reset pulse is used as the above-mentioned phase reset pulse supplied to the phase reset terminals of the oscillators 206-1 to 206-f& and the interpolator 202, and
It is used to set the next input data to . Further, data of the window function w(6) previously stored as individual samples in the ROM 2094 is output to a line 2091 and supplied to the multiplier 210. In this way, phase reset pulses whose inter-pulse intervals have successively specified values and a variable-length window function W(, ) synchronized with these pulses as shown in FIG. 5(B) are generated.
次にCSM分析について説明する。Next, CSM analysis will be explained.
前述のように、C3lvl1分析は、各分析フレーム毎
に、表現されるべき音声波形から直接算出される標本自
己相関係数のN個の低次のタッグ値と、合成波(rL個
の正弦波の和)のN個の低次のタップ値とが一致するよ
うに、合成すべき各正弦波の周波数へとその強K(電力
振幅) ?1Lc とを決定することである。As mentioned above, C3lvl1 analysis uses, for each analysis frame, N low-order tag values of the sample autocorrelation coefficients directly calculated from the speech waveform to be represented, and a composite wave (rL sine waves). The frequency of each sine wave to be synthesized is adjusted so that the N low-order tap values of the sum of K (power amplitude) are matched. 1Lc.
今、合成波のタップtの自己相関係数をrt とすると
、前述のように
rt=、J、 771i CXm l−町となる。Now, if the autocorrelation coefficient of tap t of the composite wave is rt, then as mentioned above, rt=, J, 771i CXm l-machi.
一方、表現されるべき音声波形のサンプルXtから、あ
るフレームの、タップLの標本自己相関係数utは
である。On the other hand, from the sample Xt of the audio waveform to be expressed, the sample autocorrelation coefficient ut of tap L of a certain frame is.
これより
rt=vt ・・・(2)t
= 0 、1 、2、−−・・・・N 但しN=2n
−1とすると下記のマトリックス表現が得られる。From this, rt=vt...(2)t
= 0, 1, 2, --...N However, N=2n
When set to -1, the following matrix expression is obtained.
しかし上式は、ω、および7niが未知のだめ単純な行
列演算では解けない。そこで、
ω、−勇 X□ ・べ4)とお
き、
cm L GJ 6 = cos t cos−1へ三
Tt (”=) ・・−(5)の置換を行なう。However, the above equation cannot be solved by simple matrix operations because ω and 7ni are unknown. Therefore, set ω, −Yu X□・Be4) and perform the substitution of 3Tt (”=) . . . −(5) to cm L GJ 6 = cos t cos−1.
このTz(x)はTcbebychef f(チェビシ
ェフ)の多項式である。この置換を行なうと(3)式は
次のように変換される。This Tz(x) is a Tcbebychef f (Chebychev) polynomial. When this substitution is performed, equation (3) is converted as follows.
ところが、一般に、1はTo (:I:) 、 Ts
(,2?) −−−−−・T z(x)の線形結合と1
−で表わすことができる。However, in general, 1 is To (:I:), Ts
(,2?) ------・Linear combination of T z(x) and 1
It can be represented by -.
すなわち、
但し5(4)は逆Tchebycheff (チェビシ
ェフ)コ
係数である。That is, where 5(4) is the inverse Tchebycheff coefficient.
の線形結合At を下式のように定規する。The linear combination At is defined as shown below.
但しt=0.1,2.・・・・・・12n−1こうする
と、(6)式の左辺および右辺にそれぞれ(7ン式訃よ
び(8)式の関係を用いることにより、下記の関係式が
成立する。However, t=0.1, 2. . . . 12n-1 Then, by using the relationship of the equation (7) and the equation (8) on the left and right sides of the equation (6), the following relational expression is established.
さて、ここで、xl、x2.・・−・・・、x7 に零
点をもつ1次の多項式
を定義し、このPa(3:) を用いて、(9)式の
左辺と似た式の
を作り、これを検討してみる。上式が0であることは明
らかであるが、さらにこれは次のように書き換えること
ができる。Now, here, xl, x2. ..., define a first-order polynomial with a zero point at x7, use this Pa(3:) to create an equation similar to the left side of equation (9), and examine it. . It is clear that the above equation is 0, but it can be further rewritten as follows.
以上より、t=0,1,2.・・・・・・nとして下式
が得られる。From the above, t=0, 1, 2. ...The following formula is obtained as n.
しかるに吃゛←)、= 1 であるから 、が成立する
。左辺のAi ででまるマトリクスは一般にHankc
l (ハングル)行列と呼ばれているものである。前述
のように各人、は、表現すべき音声波形の標本自己相関
係数νjから(8)式により与えられるもので既知であ
る。However, since 吃゛←), = 1, holds true. The matrix formed by Ai on the left side is generally Hankc
This is called the l (Hangul) matrix. As described above, each person is given by equation (8) from the sample autocorrelation coefficient νj of the speech waveform to be expressed and is known.
この各p、が求まると路次方程式
P、 (”) = x”+y?:、−8x”−”+・・
・−・p0= 0の解として、(xl、x2.・・・、
X、)が求められる。Once each p is found, the road equation P, ('') = x''+y? :, -8x"-"+...
・-・As a solution of p0=0, (xl, x2....,
X,) is required.
これより各CSM周波数ωiは(4)式のωi″邸 X
i
より求められ、またCSM強度miは(9)式より導か
れる下式を用いて求められる。From this, each CSM frequency ωi is expressed as ωi'' in equation (4)
i, and the CSM intensity mi is determined using the following equation derived from equation (9).
なお、上式の左辺の行列は一般にVander Mon
de(7アレデルモンデ)行列と呼ばれているものであ
る。Note that the matrix on the left side of the above equation is generally Vander Mon
This is called a de (7are del monde) matrix.
以上をまとめると、CSM分析の分析アルゴリズムは以
下のようになる。To summarize the above, the analysis algorithm for CSM analysis is as follows.
(1)標本自己相関係数を計算する (2)逆チェビシェフ係数を用いてAtを定義する。(1) Calculate the sample autocorrelation coefficient (2) Define At using the inverse Chebyshev coefficient.
てル個の2t を求める。Find the number of 2t.
p、<x)三−’十F(:jl ” ”−”+ PC:
、22 ”−”+ −+ P(1’= +p 6=0
(5)房逆変換を行なって08M角周波数(ωt)を求
める。p, <x) 3-'10F(:jl ” ”-”+ PC:
, 22 "-"+ -+ P(1'= +p 6=0 (5) Perform inverse tuft transform to obtain 08M angular frequency (ωt).
ωも=房 Xl
(6) Van del Monde (777デル
モンデ)行列方程式を解いてCSM強度(−i)を求め
る。ω = tuft Xl (6) Solve the Van del Monde (777 Del Monde) matrix equation to obtain the CSM intensity (-i).
の各角周波数(ω1.ω2・・・ω、)および容認の強
度(ml、m2.・・・mn}を求めることができる。Each angular frequency (ω1.ω2...ω,) and acceptance strength (ml, m2...mn} can be determined.
なお、上述のHankel (バンケル)行列方程式の
能率的解法として、初期条件を与えて遂次的に解を求め
る方法が知られている。Note that, as an efficient method for solving the above-mentioned Hankel matrix equation, a method is known in which initial conditions are given and solutions are sequentially obtained.
また、上記路次の代数方程式は実根のみを有することか
証明されているため、二ニートン・ラプソンの方法等を
用いて根を求めることができる。Furthermore, since it has been proven that the above-mentioned path-order algebraic equation has only real roots, the roots can be found using the Neaton-Raphson method or the like.
さらに、上記Vander Monde (77yデ
ルモンデ)行列方程式の能率的解法として三角行列化を
行なって順次に解を求める方法′を用いることができる
。なお上述の分析方法は嵯峨山氏らの論文1複合正弦波
モデルによる音声スペクトル分析”゛電子通信学会論文
誌’ 81/2 Mol 、J64−A tJn 2p
、ios〜112 に詳しく述べられている。Furthermore, as an efficient method for solving the Vander Monde (77y Del Monde) matrix equation, a method of sequentially obtaining solutions by performing triangular matrix formation can be used. The above analysis method is based on Sagayama et al.'s paper 1: Speech spectrum analysis using a composite sine wave model, "Transactions of the Institute of Electronics and Communication Engineers," 81/2 Mol, J64-A tJn 2p.
, ios~112.
最後に本発明を構成する直接的な部分であるCSM量子
化器105、電力補正量子化器106を図面を用いて詳
細に説明する。第11図はCSM量子化器105、電力
補正量子化器106を詳細に説明するためのブロック図
である。Finally, the CSM quantizer 105 and power correction quantizer 106, which are direct parts constituting the present invention, will be explained in detail using the drawings. FIG. 11 is a block diagram for explaining the CSM quantizer 105 and the power correction quantizer 106 in detail.
CSM分析器104よficsMのn個の各正弦波の強
度および角周波数を指定するmi、ωi (但しi=1
.2.・・・・・・ル)の組が一時メモリ(1)、10
51へ供給される。一時メモリ(1)、1051は前記
miを正規化係数検索器1052とCSM強度正規化器
1053とへ出力する。正規化係数検索器1o52は以
下の手順に従って正規化係数αと最大周波数の番号工と
を検索する。The CSM analyzer 104 specifies the intensity and angular frequency of each of the n sine waves of ficsM;
.. 2.・・・・・・Le) pair is temporary memory (1), 10
51. The temporary memory (1) 1051 outputs the mi to a normalization coefficient searcher 1052 and a CSM intensity normalizer 1053. The normalization coefficient search unit 1o52 searches for the normalization coefficient α and the maximum frequency number according to the following procedure.
(1)初期状a cL=m L I I = lを設
定する。(1) Set the initial state a cL=m L I I = l.
(2) αとm2との大小関係を調査する。(2) Investigate the magnitude relationship between α and m2.
もしa>mzであれば (4)を次に実施する。If a>mz, execute (4) next.
もしa<z2であれば (3)を次に実施する。If a<z2, perform (3) next.
(3) α=m3.I=2を設定する。(3) α=m3. Set I=2.
(4) αとrlL3 との大小関係を調査し、上記
(2)と同様の処理を行なう。(4) Investigate the magnitude relationship between α and rlL3, and perform the same processing as in (2) above.
(5)以下m4・・・・・・肩Nまで(4)と同様の処
理を行なう。(5) Below m4...The same process as in (4) is performed up to shoulder N.
正規化係数検索器1052は検索した前記αを1上方補
正器1061とCSM強度正規化器1053とへ、又、
前記I′ir:CSM強度量子化器1054へ出力する
。CSM強度正規化器1053は一時メモり(1)。The normalization coefficient searcher 1052 sends the searched α to the 1 upward corrector 1061 and the CSM intensity normalizer 1053, and
The I'ir: output to the CSM intensity quantizer 1054. The CSM intensity normalizer 1053 is a temporary memory (1).
1051より供給された前記miを前記正規化係数αを
用いて1ni=71!i/α(但し、i = 1 、2
、−=・・・rL)を算出する。更にCSM強度正規化
器1053は算出し九扉・の平方根V;]−(’ =1
* 2 *・・・・・・ル)霧
を求めCBM強度量子化器1054へ出力する。Using the normalization coefficient α, the mi supplied from 1051 is calculated as 1ni=71! i/α (however, i = 1, 2
, -=...rL). Furthermore, the CSM intensity normalizer 1053 calculates the square root of the nine doors V;]-(' = 1
* 2 *...L) Determine the fog and output it to the CBM intensity quantizer 1054.
CSM強度量子化器1054は正規化係数検索器105
2より供給される最大周波数の番号工と前記r (L
ml 、 2.・・・・・・ル)とを用いて例えば第1
2図に示す形式のビット配分で線形量子化を実施し、量
子化データを一時メモリ(2)、1056へ出力する。The CSM intensity quantizer 1054 is the normalization coefficient searcher 105
2 and the numbering machine of the maximum frequency supplied from 2 and the r (L
ml, 2. For example, the first
Linear quantization is performed using the bit allocation shown in FIG. 2, and the quantized data is output to the temporary memory (2), 1056.
次に量子化の形式を第12図を参照して説明する。Next, the format of quantization will be explained with reference to FIG.
第12図(a)は9次CSM分析(ル÷5に相当する)
の結果得られるCSM強度強度、77L、・・・・・・
扉、を16bitsで量子化するためのピット配分を示
したものである。前記番号工に対応して最強CSM強度
の指定が行なわれる。ここで最強CSMが番号Iが1の
場合には第12図0)〜αに示す様に図上で左端に示さ
れるビットに10#が与えられ、Iが2.3,4.5
の場合には第12図(1))−b−eに示す様に図上
で左端に示さnるビットに61”が与えられる。Figure 12 (a) is the 9th order CSM analysis (corresponds to Le÷5)
The resulting CSM intensity is 77L,...
This figure shows the pit distribution for quantizing the door with 16 bits. The highest CSM strength is specified in correspondence with the numbered work. Here, when the strongest CSM has a number I of 1, 10# is given to the bit shown at the left end in the figure as shown in FIG. 12 0) to α, and I is 2.3, 4.5
In this case, as shown in FIG. 12(1)-be, 61'' is given to the n bit shown at the left end in the figure.
所で、CSM強度の分布を調査すると、最強のCSM強
度を持つのはmユとなる場合がきわめて多い。第13図
は9次CAM分析(ル=5)の結果得られるCSM強度
yx1,2+1. 、・・・・・−1を正規化係数αを
算出して正規化した場合の分布図であり図中@7レーム
数”と書かれたものは該強度が最強となったフレーム数
である。なお、全分析フレーム数は6963である。即
ち慝、が最強のCSM強度を持つ割合は5895/69
63冨0.847であつ、第12図(ロ)に示すように
mlが最強(I=13の場合にIの指屍が最も少ないビ
ット数で行なえるように構成されて−る。By the way, when we investigate the distribution of CSM strength, it is extremely common for myu to have the strongest CSM strength. FIG. 13 shows the CSM intensity yx1,2+1. , ....-1 is normalized by calculating the normalization coefficient α, and in the figure, the number written as "@7 frame number" is the number of frames where the intensity is the strongest. The total number of analysis frames is 6963. That is, the ratio of ㅝ with the strongest CSM strength is 5895/69.
63 and 0.847, and as shown in FIG. 12(b), the configuration is such that ml is the strongest (when I=13, the designation of I can be performed with the least number of bits).
尚、最強のCSM強度そのものは自分自身で正規化され
ているため、必らず1.oとなり情報の伝送を必要とし
ない。Note that the strongest CSM strength itself is normalized by itself, so it is always 1. o, and no information transmission is required.
再び第11図に戻り、こうして量子化されたCSM強度
パラメータ社一時メモリ(2)、1056へ出力される
。CSM周波数量子化器1o55はCSMの路側の正弦
波の角周波数を指定するω1 (但し’ ” 1 *
2 +”−−−・n) +7)!11t−一時メモリ(
1)、1051より供給を受は予じめ調査されている各
ω、の分布範囲を考慮した線形量子化を実施し、量子化
データを一時メモリ(2)、1056へ出力する。一時
メモIJ(2)、1056はi量子化すしたCSM強1
iとCEiM角周波数データとをiルナプレクサ109
へ出力する。電力補正器1061は自己相関係数計測器
103より供給を受は九成カデータに正規化係数検索器
よシ供給された係数αを掛は結果を電力量子化器106
2へ出力する。電力量子化器1062は前記結果を17
2乗し振幅情報に変換した後、例えdμ2ssPCM
で用いられている非線形量子化を行ないマルチプレクサ
109へ出力する。Returning to FIG. 11 again, the thus quantized CSM intensity parameters are output to temporary memory (2), 1056. The CSM frequency quantizer 1o55 specifies the angular frequency of the CSM roadside sine wave ω1 (however, ' 1 *
2 +”−−−・n) +7)!11t− Temporary memory (
1), which receives the supply from 1051, performs linear quantization taking into consideration the distribution range of each ω, which has been investigated in advance, and outputs the quantized data to temporary memory (2), 1056. Temporary memo IJ (2), 1056 is i quantization CSM strong 1
i and CEiM angular frequency data to i Lunaplexer 109
Output to. The power corrector 1061 receives the power from the autocorrelation coefficient measuring device 103, multiplies the nine-dimensional data by the coefficient α supplied from the normalization coefficient searcher, and then applies the result to the power quantizer 106.
Output to 2. Power quantizer 1062 converts the result to 17
After converting to squared amplitude information, for example dμ2ssPCM
The non-linear quantization used in the above is performed and output to the multiplexer 109.
なお合成側での逆正規化は乗算器211で自動的に行な
われる。Note that the denormalization on the synthesis side is automatically performed by the multiplier 211.
(発明の効果)
以上述べた様に本発明を用いるとCSM強度パラメータ
相互の関係を考慮してCSM強度パラメータを量子化す
ることにより、量子化の効率を高められるという効果が
ある。(Effects of the Invention) As described above, the present invention has the effect of increasing the efficiency of quantization by quantizing the CSM intensity parameters in consideration of the mutual relationship between the CSM intensity parameters.
第1図はCSMパラメータによる音声特徴ベクトルバタ
ーノの一例を示す図、第2図はCSMラインスペクトル
と、同一音声サンプルより求めたLPGスペクトル包絡
との対応例を示す図、第3図(A)は拡散されたCAM
のスペクトル包絡とピッチの微細構造とを示す図、第3
図(B) u単純加算しただけのCSMスペクトルを示
す図、第4図は本発明を含む分析合成系の一実施例を示
すブロック図、第5図(A)は可変長窓関数の関数形を
示す図、第5図(B)は前記可変長窓関数と位相リセッ
ト用パルスとの相対時間関係を示す図、第6図は位相リ
セット機能付可変周波数発振器の一回路例を示す図、第
7図は可変利得増幅器の一回路例を示す図、第8図は乱
数発生器の一回路例を示す図、第9図(A)は周期算出
器のブロック図、第9図(B)は前記周期算出器の出力
の乱数の分布を示す図および第10図は可変長窓発生器
の一例を示すブロック図、第11図は本発明を構成する
直接的な部分を詳細に説明するためのブロック図、第1
2図は量子化の形式の一例を示す図、第13図はCAM
強度の分布例を示す図である。
図において、1・・・・・・送信側、2・・・・・・受
信側、101・・・・・・A/D変換器、102・・・
・・・ハミング窓処理器、103・・・・・・自己相関
係数計測器、104・・・・・・CSM分析器、105
・・・・・・CSM量子化器、106・・・・・・電力
量子化器、107・・・・・・ピッチ抽出器、108有
声音/無声音判定器、109・・・・・・マルチプレク
サ、201・・・・・・デマルチプレクサおよび復号化
器、202・・・・・・補間器、203・・・・・・有
声音/無声音切替器、204・・・・・・周期算出器、
205・・・・・・乱数発生器、206−1〜206−
3・・・・・・位相リセット機能付可変周波数発振器、
207−1〜207−3・・・・・・可変利得増幅器、
208・・・・・・加算合成器、209・・・・・・可
変長窓関数発生器、210,211・・・・・・乗算器
、1051・・・・・・一時メモl)、1052・・・
・・・正規化係数検索器、1053・・・・・・CSM
強度正規化器、1054・・・・・・CSM強度量子化
器、1055・・・・・・CSM周波数量子化器、10
56・・・・・・一時メモ!j(2)、1061・・・
電力補正器、1062・・・・・・電力量子化器。
筆撥 [;」
率2図
PTA数 0
時用□
早S図
第6図
第7 ズ
第8回
第 q 図 (ハ)
奉120(α)
っ l 0(ryn+ rns
rn4 m l=2 の 4イ
)N: 7 fil rnz m4
rn 1=3n4今J、tto ynr
171. rn rn I=4
v>40>e /// ynr 1712
mJm4x=sty>騰合第12図(b)
第13 額
手続補正書(方式)
%式%
1、事件の表示 昭和59年 特 許願第1604
91号2、発明の名称 08Mパラメータの量子化
方法とその装置3、補正をする者
事件との関係 出 願 人東京都港区芝五
丁1」33番1号
(423) 日本電気株式会社
代表者 関本忠弘
4、代理人
6、補正の対象
図面
L 補正の内容
第13図を別添第13図と差し替える。
7v泌l屍 /ηtt、r雇 y
υ曜イ曜−賽東一 −琴賛一 −燦郵一
χを巌紹必 XMI弓i砂
一顆一 −簗受−−Fig. 1 is a diagram showing an example of the speech feature vector Batano using CSM parameters, Fig. 2 is a diagram showing an example of the correspondence between the CSM line spectrum and the LPG spectrum envelope obtained from the same speech sample, and Fig. 3 (A) is a diffused CAM
Figure 3 showing the spectral envelope and pitch fine structure of
Figure (B) is a diagram showing a CSM spectrum obtained by simple addition. Figure 4 is a block diagram showing an example of an analysis and synthesis system including the present invention. Figure 5 (A) is a functional form of a variable length window function. 5(B) is a diagram showing the relative time relationship between the variable length window function and the phase reset pulse. FIG. 6 is a diagram showing an example of a circuit of a variable frequency oscillator with a phase reset function. Fig. 7 is a diagram showing an example of a circuit of a variable gain amplifier, Fig. 8 is a diagram showing an example of a circuit of a random number generator, Fig. 9 (A) is a block diagram of a period calculator, and Fig. 9 (B) is a diagram showing an example of a circuit of a random number generator. FIG. 10 is a block diagram showing an example of a variable length window generator, and FIG. 11 is a diagram showing the distribution of random numbers output from the period calculator, and FIG. Block diagram, 1st
Figure 2 shows an example of quantization format, Figure 13 shows CAM
FIG. 3 is a diagram showing an example of intensity distribution. In the figure, 1... transmitting side, 2... receiving side, 101... A/D converter, 102...
... Hamming window processor, 103 ... Autocorrelation coefficient measuring device, 104 ... CSM analyzer, 105
...... CSM quantizer, 106... Power quantizer, 107... Pitch extractor, 108 Voiced/unvoiced sound determiner, 109... Multiplexer , 201... Demultiplexer and decoder, 202... Interpolator, 203... Voiced sound/unvoiced sound switcher, 204... Period calculator,
205...Random number generator, 206-1 to 206-
3...Variable frequency oscillator with phase reset function,
207-1 to 207-3...variable gain amplifier,
208... Addition synthesizer, 209... Variable length window function generator, 210, 211... Multiplier, 1051... Temporary memory l), 1052 ...
...Normalization coefficient searcher, 1053...CSM
Intensity normalizer, 1054...CSM intensity quantizer, 1055...CSM frequency quantizer, 10
56...Temporary memo! j(2), 1061...
Power corrector, 1062... Power quantizer. Brush stroke [;'' Rate 2 PTA number 0 hour □ Early S figure 6 figure 7 Zu 8th q figure (c) Bō 120 (α) っ l 0 (ryn+ rns
rn4 m l=2 of 4b) N: 7 fil rnz m4
rn 1=3n4 now J, tto ynr
171. rn rn I=4
v>40>e /// ynr 1712
mJ m4
No. 91 No. 2, Title of the invention: 08M parameter quantization method and device 3, Relationship with the person making the amendment case Applicant: No. 33-1 (423), Shiba Go-cho 1, Minato-ku, Tokyo Representative from NEC Corporation Person: Tadahiro Sekimoto 4, Agent 6, Drawing L subject to amendment Contents of amendment Replace Figure 13 with attached Figure 13. 7v secretion /ηtt, r employment y
υYo Iyo - Saitoichi - Kotosanichi - Sanyuichichi χ wo Ganshobi XMI Yumi Sunaichikonichi - Yanuke -
Claims (2)
幅とが自由な正弦波の集合で表現するCSMパラメータ
量子化に於いて、振幅の集合{m_1、m_2、…、m
_n}をa=max{m_1、m_2、…、m_n}で
表現される正規化係数αにより正規化する手段を用いる
ことを特徴とするCSMパラメータ量子化方法。(1) In CSM parameter quantization, which expresses the spectral envelope of speech as a set of sine waves with a predetermined number n of free frequencies and amplitudes, a set of amplitudes {m_1, m_2, ..., m
_n} by a normalization coefficient α expressed as a=max{m_1, m_2, . . . , m_n}.
幅とが自由な正弦波の集合で表現するCSMパラメータ
を少数のビットで表現するためのCSMパラメータ量子
化装置に於いて、前記正弦波の振幅の集合{m_1、m
_2、…、m_n}から前記集合の最大値a=max{
m_1、m_2、…、m_n)を検索する手段と、前記
手段により検索された最大値aにより前記振幅の集合を
正規化する手段とを有することを特徴とするCSMパラ
メータ量子化装置。(2) In a CSM parameter quantization device for expressing a CSM parameter in a small number of bits, which expresses the spectral envelope of speech by a set of a predetermined number n of sine waves with free frequencies and amplitudes, the sine wave set of amplitudes {m_1, m
_2,..., m_n}, the maximum value of the set a=max{
m_1, m_2,..., m_n); and means for normalizing the set of amplitudes by the maximum value a found by the means.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16049184A JPS6139099A (en) | 1984-07-31 | 1984-07-31 | Quantization method and apparatus for csm parameter |
CA000486504A CA1242279A (en) | 1984-07-10 | 1985-07-09 | Speech signal processor |
US06/753,138 US4815135A (en) | 1984-07-10 | 1985-07-09 | Speech signal processor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16049184A JPS6139099A (en) | 1984-07-31 | 1984-07-31 | Quantization method and apparatus for csm parameter |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6139099A true JPS6139099A (en) | 1986-02-25 |
JPH0439678B2 JPH0439678B2 (en) | 1992-06-30 |
Family
ID=15716087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP16049184A Granted JPS6139099A (en) | 1984-07-10 | 1984-07-31 | Quantization method and apparatus for csm parameter |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6139099A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02203398A (en) * | 1988-04-08 | 1990-08-13 | American Teleph & Telegr Co <Att> | Speech processing, synthesization and analysis method and apparatus |
JPH02204800A (en) * | 1988-04-08 | 1990-08-14 | American Teleph & Telegr Co <Att> | Speech processing and synthesization method and apparatus |
-
1984
- 1984-07-31 JP JP16049184A patent/JPS6139099A/en active Granted
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02203398A (en) * | 1988-04-08 | 1990-08-13 | American Teleph & Telegr Co <Att> | Speech processing, synthesization and analysis method and apparatus |
JPH02204800A (en) * | 1988-04-08 | 1990-08-14 | American Teleph & Telegr Co <Att> | Speech processing and synthesization method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
JPH0439678B2 (en) | 1992-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA1157564A (en) | Sound synthesizer | |
JP5275612B2 (en) | Periodic signal processing method, periodic signal conversion method, periodic signal processing apparatus, and periodic signal analysis method | |
Dolson | The phase vocoder: A tutorial | |
US4175464A (en) | Musical tone generator with time variant overtones | |
CA1065490A (en) | Emphasis controlled speech synthesizer | |
US4815135A (en) | Speech signal processor | |
EP0657873B1 (en) | Speech signal bandwidth compression and expansion apparatus, and bandwidth compressing speech signal transmission method, and reproducing method | |
JPH0618351B2 (en) | Music signal communication equipment | |
US4114498A (en) | Electronic musical instrument having an electronic filter with time variant slope | |
US4382160A (en) | Methods and apparatus for encoding and constructing signals | |
JPH0754440B2 (en) | Speech analysis / synthesis device | |
US3069507A (en) | Autocorrelation vocoder | |
JPS6139099A (en) | Quantization method and apparatus for csm parameter | |
GB2103005A (en) | Modulation effect device | |
US4231277A (en) | Process for forming musical tones | |
JPS6332196B2 (en) | ||
JPH0310120B2 (en) | ||
JPS639239B2 (en) | ||
JPS6121000A (en) | Csm type voice synthesizer | |
JPH0441838B2 (en) | ||
JPH0363079B2 (en) | ||
EP0149724A1 (en) | Method and apparatus for coding digital signals | |
JPS5816297A (en) | Voice synthesizing system | |
JPS6265100A (en) | Csm type voice synthesizer | |
JPS6139100A (en) | Secret talk apparatus |