JPS61126600A - Sound wave input processing - Google Patents

Sound wave input processing

Info

Publication number
JPS61126600A
JPS61126600A JP21122985A JP21122985A JPS61126600A JP S61126600 A JPS61126600 A JP S61126600A JP 21122985 A JP21122985 A JP 21122985A JP 21122985 A JP21122985 A JP 21122985A JP S61126600 A JPS61126600 A JP S61126600A
Authority
JP
Japan
Prior art keywords
acoustic
volume
acoustic wave
firing
wave input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP21122985A
Other languages
Japanese (ja)
Inventor
ライモ・バキス
ジヨーダン・ライアン・コーイン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPS61126600A publication Critical patent/JPS61126600A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

An acoustic processor and a method of processing an acoustic wave input which includes a non-linear auditory model of the neural firing rate in the ear. The firing rate is determined by the replenishment of neurotransmitter and loss of neurotransmitter due to spontaneous decay, spontaneous firing, and acoustic wave inputs defined, preferably, in sones. The number of free parameters in the acoustic processor is reducible to one, namely the ratio R of two steady-state firing rates each resulting from a different loudness. Preferably, the free parameter is adjusted to minimize steady-state effects which are adversely impacted by speaker differences, background noise, distortion, and the like. The present invention addresses the general problem of processing an acoustic wave input in a speech recognition system and addresses the specific problem of adjusting acoustic processor performance to reduce adverse effects.

Description

【発明の詳細な説明】 以下の順序で本発明を説明する。[Detailed description of the invention] The present invention will be explained in the following order.

A、産業上の利用分野 B、  開示の概要 C1従来の技術(第2図) D9発明が解決しようとする問題点 E1問題点を解決するための手段 F、実施例 F 1.  設計原理 F 2.  聴覚器官モデル(第3図〜第6図)F 3
.  音響プロセッサの動作(第1図および第7図) F 4.  聴覚器官モデルの一般的な特徴F 5. 
 代替実施例 G6発明の効果 A、産業上の利用分野 本発明は主として音声認識の技術に係り、特に特徴なら
びに、音声認識システムのフロントエンドにおける眸徴
値に影響するパラメータを選択する技術に係る。
A. Industrial field of application B. Summary of the disclosure C1. Prior art (FIG. 2) D9. Problems to be solved by the invention E1. Means for solving the problems F. Example F 1. Design principle F 2. Hearing organ model (Figures 3 to 6) F 3
.. Operation of the acoustic processor (Figures 1 and 7) F4. General characteristics of the auditory organ model F5.
Alternative Embodiment G6 Effects of the Invention A, Industrial Field of Application The present invention relates primarily to the technology of speech recognition, and in particular to the technology of selecting features and parameters that affect the feature values at the front end of a speech recognition system.

B、開示の概要 人間の耳の神経発火率の非線形聴覚器官モデルを含む音
響プロセッサおよび音響波入力処理方法を開示する。神
経発火率は、神経伝達物質の補充および自発的な崩壊に
よる神経伝達物質の消失、自発的な発火、ならびに、で
きればソーン単位に変換された音響波入力によシ決定さ
れる。音響プロセッサにおける自由パラメータの数は1
に限定できる。これは、各々が異なった音の大きさから
生じる2つの安定状態の発火率の比Rである。自由パラ
メータは、話者の相違、背景雑音、歪み等による安定状
態への悪影響を、できれば最小限にするように調整する
ことが望ましい。本発明は、音声認識システムにおいて
音響波入力を処理する一般的な問題、ならびに音響プロ
セッサの性能を調整して悪影響を少なくする特定の問題
を扱う。
B. SUMMARY OF THE DISCLOSURE An acoustic processor and acoustic wave input processing method that includes a nonlinear auditory organ model of the neural firing rate of the human ear is disclosed. The neural firing rate is determined by neurotransmitter replenishment and neurotransmitter loss due to spontaneous decay, spontaneous firing, and acoustic wave input, preferably converted into son units. The number of free parameters in the sound processor is 1
can be limited to This is the ratio R of two steady-state firing rates, each resulting from a different sound loudness. It is desirable to adjust the free parameters so as to minimize, if possible, the negative effects on the stable state due to speaker differences, background noise, distortion, etc. The present invention addresses the general problem of processing acoustic wave input in speech recognition systems, as well as the specific problem of adjusting the performance of an acoustic processor to reduce its negative effects.

C1従来の技術 音声認識システムまたは装置は一般に、生の音声を自動
的に他の形式、例えば文章形式に変換することを目的と
する。これに関して、パターン分E会報第5巻第2号(
1985年)179〜190頁のバール外の論文”連続
音声認識の最大確立方法” (Bahl  et  a
l、’A maximumLikelihood  A
pproach  to  ContinuousSp
eech  Recognition”、IEEETr
anaactio’ns  on  Pattern 
 Analysisand Machine  Int
e 11 igences VolumePAMI−5
、No、2、pp、179−190(1983))に、
いくつかの音声認識方法が記載されている。どの方法に
おいても、何が話されるかを決定するテキスト発生装置
の仮説をたてることができる。テキスト発生装置のあと
に、生の音声の波形を生成する話者が続く。音声波形は
音響プロセッサに入力を供給する。音響プロセッサの出
力は言語デコーダに入る。
C1 Prior Art Speech recognition systems or devices generally aim to automatically convert raw speech into another format, such as text format. In this regard, Pattern E Newsletter Volume 5 No. 2 (
1985) ``Maximum establishment method for continuous speech recognition'' (Bahl et al., 1985), pp. 179-190.
l,'A maximum Likelihood A
pproach to ContinuousSp
eech Recognition”, IEEE Tr.
anaaction'ns on Pattern
Analysis and Machine Int.
e 11 igences VolumePAMI-5
, No. 2, pp. 179-190 (1983)),
Several speech recognition methods have been described. In either method, hypotheses can be made about the text generator that determines what is said. The text generator is followed by a speaker that generates a live speech waveform. The audio waveform provides input to the audio processor. The output of the acoustic processor goes into a language decoder.

前記バール外の論文によれば、このシステムの構成要素
の接続には幾通シかの方法がある。例えば、話者と音響
プロセッサを結合して音響チャンネルを形成し、話者は
テキストを音声に変換し、音響プロセッサはデータ変換
器および圧縮器として動作し、記号列を言語デコーダに
供給することができる。言語デコーダは記号列から原始
テキストを復元する。
According to Barr et al., there are several ways to connect the components of this system. For example, a speaker and an acoustic processor may be combined to form an acoustic channel, where the speaker converts text to speech, and the acoustic processor acts as a data converter and compressor and feeds a string of symbols to a language decoder. can. A language decoder recovers source text from a string of symbols.

第2図は従来の音響プロセッサの特定の構成例を示す。FIG. 2 shows a specific configuration example of a conventional audio processor.

音響波入力(例えば生の音声)は、所定の′速度でサン
プリングするA/DCアナログ/ディジタル)変換器1
02に入る。典型的なサンプリング速度は50マイクロ
秒に1回の速度である。
Acoustic wave input (e.g. live audio) is sampled at a predetermined rate by an A/DC analog/digital converter 1.
Enter 02. A typical sampling rate is once every 50 microseconds.

ディジタル信号の端を決めるため、時間窓発生器104
が接続されている。時間窓発生器104の出力はFFT
(高速7−リエ変換)装置106に入シ、FFT装置1
06は時間窓ごとに周波数スペクトルを出力する。
A time window generator 104 is used to determine the edges of the digital signal.
is connected. The output of the time window generator 104 is FFT
(Fast 7-layer transform) device 106, FFT device 1
06 outputs a frequency spectrum for each time window.

FFT装置106の出力は、記号L 1L 2・・・・
L。
The output of the FFT device 106 is represented by the symbol L 1L 2...
L.

を生じるように処理される。4つの装置−特徴選択装置
108、クラスタ装置110、原型装置112および記
号化装置114−は、協同して記号を作成する。記号を
作成する際、原型は、選択された特徴および音響入力に
基づき空間における点(またはベクトル)として定義さ
れ、次いで、同じ選択された特徴により、原型と対比し
うる空間での、対応する点(またはベクトル)を与える
ように特徴づけられる。
processed in such a way as to result in Four devices--feature selection device 108, cluster device 110, prototype device 112, and symbolization device 114--cooperatively create symbols. When creating a symbol, a prototype is defined as a point (or vector) in space based on selected features and acoustic input, and then a corresponding point in space that can be contrasted with the prototype by the same selected features. (or a vector).

特に、原型を定義する際、1組の点が、クラスタ装置1
10によシそれぞれのクラスタとして分類される。それ
ぞれのクラスタの原型は、(クラスタの中心軌跡または
他の特徴に関連して)原型装置112により作成される
。作成された原型および音響入力(どちらも同じ選択特
徴によシ特徴づけられる)は、記号化装置114に入シ
、記号化装置114はマツチングを実行する。
In particular, when defining the prototype, a set of points is defined as cluster device 1
The data are classified into 10 clusters. A prototype of each cluster is created by a prototype device 112 (in relation to the center locus or other characteristics of the cluster). The created prototype and the acoustic input (both characterized by the same selection feature) are input to the encoder 114, which performs the matching.

D0発明が解決しようとする問題点 適切な特徴゛選択は、音響(音声)波入力を表わす記号
を取出す際の重要な要素である。本発、!Aは、すぐれ
た特徴選択装置108、ならびに、このような特徴選択
装置を含むフロントエンドプロセッサおよび音声認識シ
ステムに関する。
PROBLEM SOLVED BY THE INVENTION The selection of appropriate features is an important factor in extracting symbols representing acoustic (speech) wave inputs. The real deal! A relates to a preferred feature selection device 108 and front-end processors and speech recognition systems that include such a feature selection device.

本発明の特徴選択装置は、周辺聴覚器官系をかたどるよ
うに応答する。すなわち、本発明の特徴選択装置は、音
響入力を定義する特徴として、選択された周波数での聴
神経発火率を考慮する。従来は、人間の耳は別のモデル
(米国音響学会ジャーナルの第55巻、第5号に掲載さ
れているホールおよびシュレーダの論文”聴覚器官のレ
セプタにおける機械/神経変換のモデル″(Mal l
  andSchroeder  ”Model  f
or Mechanicalto  Neural  
Transduction  In  theAudi
tery  Receptor”)参照)が使用されて
いたが、本発明の音声認識システムでは、ホールおよび
シュレーダのものとは異なるモデルが使用される。更に
、本発明によシ実現されたモデルは、前記ホールおよび
シュレーダの論文には記載されていないか、または別の
方法で分析される要素を考慮している。例えば、音声振
幅入力はダイナミックレンジが広いので、ホールおよび
シュレーダのモデルの神経発火率は正確には現われない
が、本発明で実現されたモデルはこの問題を解決する。
The feature selection device of the present invention is responsive to model the peripheral auditory system. That is, the feature selection device of the present invention considers the auditory nerve firing rate at the selected frequency as a feature that defines the acoustic input. Traditionally, the human ear has been modeled differently (Hall and Schrader's paper “A Model of Mechanical/Neural Transduction in the Receptors of the Auditory Organ” published in the Journal of the Acoustical Society of America, Volume 55, No. 5).
and Schroeder ”Model f
or Mechanical to Neural
Transduction In theAudi
However, in the speech recognition system of the present invention, a model different from that of Hall and Schrader is used. Furthermore, the model realized by the present invention is and takes into account factors that are not mentioned in Schrader's paper or are analyzed in a different way. For example, the speech amplitude input has a wide dynamic range, so the neural firing rates in Hall and Schrader's model are accurate. However, the model implemented in the present invention solves this problem.

多数の項目の検査結果によれば、それぞれのワードエラ
ー率は、従来の装置を本発明のパラメータ選択装置に置
換えることにより改善される。本発明は、パラメータ選
択装置と、神経発火に基づいた聴覚器官モデルとを用い
ることにより、音声認識システムの性能を改善すること
を目的とする。
According to the test results of a number of items, the respective word error rates are improved by replacing the conventional device with the parameter selection device of the present invention. The present invention aims to improve the performance of speech recognition systems by using a parameter selection device and an auditory organ model based on neural firing.

更に本発明は人間の耳に合わせて臨界バンドの濾波を行
ない、周波数分析器として基底膜の動作を反映させる。
Furthermore, the present invention performs critical band filtering to match the human ear and reflects the behavior of the basilar membrane as a frequency analyzer.

すなわち、本発明はまた、異なった臨界バンドに広がっ
たオーディオ入力の2つの成分のような増大した音量を
受ける基底膜のようにレスポンスを与え、類似のバンド
にょシ音響波人力を濾波することか望ましい。
That is, the present invention also provides a basilar membrane-like response to receiving an increased volume of two components of an audio input spread across different critical bands, and filtering acoustic waves in similar bands. desirable.

更に本発明の目的は、特徴選択装置の特性を、できれば
ソーン単位のような圧縮された振幅形式で、音量(音の
大きさ)の関数として定義することである。更に、周波
数が異なると、(ソーン単位の)音量に不均一を生じ、
かつホン単位の音量。
Furthermore, it is an object of the invention to define the characteristics of the feature selection device as a function of volume (loudness), preferably in compressed amplitude form, such as in son units. Furthermore, different frequencies cause non-uniformity in volume (per son),
And the volume in units of phons.

レベルの変動により、(ノー7単位の)音量に不均一を
生じるので、本発明は音量等化調整装置および音量圧縮
装置を設けて正規化を行なう。特徴選択装置は音声認識
システムにおける前記目的を達成し、話者の訓#訃よび
異なったワードの分離が望ましい実時間システムにおけ
る大きな語粟認識の実現に寄与する。
Since level fluctuations cause non-uniformity in volume (in units of 7), the present invention provides a volume equalization adjustment device and a volume compression device to perform normalization. The feature selection device achieves the above objectives in a speech recognition system and contributes to the realization of large word recognition in real-time systems where separation of speaker's pronunciation and different words is desirable.

前述の目的を達成する本発明のモデルは、最初に波形を
ディジタル化し、次いで、連続する別々の時間帯の周波
数を関数として波形の大きさを決定する。この太ささけ
、(基底膜の場合のように)臨界バンドによ多分類する
ことか望ましい。このモデルに従って、(臨界周波数ご
とに)耳介内でモデル化された神経発火が率fで生じ、
かつこの神経発火は、特に、耳介内のモデル化された神
経伝達物質の量nによるものと仮定する。臨界バンドご
との神経伝達物質の変化率は、神経伝達物質の補充率A
oおよび損失の関数として測定される。
The model of the present invention, which achieves the foregoing objectives, first digitizes the waveform and then determines the magnitude of the waveform as a function of frequency in successive discrete time periods. It is desirable to classify this thickness into critical bands (as in the case of the basement membrane). According to this model, modeled neural firing within the pinna (for each critical frequency) occurs at rate f;
And it is assumed that this neural firing is due in particular to the modeled amount n of neurotransmitters in the pinna. The change rate of neurotransmitters for each critical band is the neurotransmitter replenishment rate A
o and loss.

時間による神経伝達物質の滅失は下記のようないくつか
の要素によるものとみられる。
The loss of neurotransmitters over time appears to be due to several factors, including:

(a)Sh−n ただし、shは音響波入力とは無関係に時間経過による
神経伝達物質の自然の崩壊すなわち消滅に相当する。
(a) Sh-n However, sh corresponds to the natural decay or extinction of neurotransmitters over time, regardless of acoustic wave input.

(b)So−n ただし、Soは音響波入力に関係なく生じる自発的な神
経発火の割合に相当する。
(b) So-n However, So corresponds to the rate of spontaneous neural firing that occurs regardless of acoustic wave input.

(c)DL−n これは係数りで圧縮された音[Lの関数としての神経発
火に相当する。
(c) DL-n This corresponds to neural firing as a function of the coefficient-compressed sound [L].

これらの賛素によシ前記モデルは次式により示される。Based on these factors, the above model is expressed by the following equation.

dn/dt=Ao−(So+Sh+DL)n   ’(
1)f=(So+DL)・n          (2
)式(1)および(2)は、臨界周波数バンドごとに定
義される。ただし、tは時間である。
dn/dt=Ao-(So+Sh+DL)n'(
1) f=(So+DL)・n (2
) Equations (1) and (2) are defined for each critical frequency band. However, t is time.

本発明は、次に発火率f′f、決定する際に使用するこ
とになってbる神経伝達物質の量の“次状態”を決定す
るのにも関連する。一般的には、゛次状。
The present invention is also relevant to determining the "next state" of the amount of neurotransmitter that is then to be used in determining the firing rate f'f. In general, the following condition.

態”は次式によシ定義される。"state" is defined by the following equation.

n(t+Δt ) =n(t)+ (dn/ d t 
)Δt(3)“次状態”の式(3)および神経伝達物質
変化の式(1)は発火率fの次値を定義するのに役立つ
。ちなみに、(周波数バンドごとの)発火率fは、先行
状態に乗法的に依存するという点で非線形である。これ
は、(前述のように)聴覚器官系の時間適応性にぴった
りと追随する。
n(t+Δt) =n(t)+(dn/dt
)Δt(3) Equation (3) for “next state” and equation (1) for neurotransmitter changes serve to define the next value of firing rate f. Incidentally, the firing rate f (per frequency band) is nonlinear in that it depends multiplicatively on the preceding state. This closely follows the temporal adaptability of the auditory system (as discussed above).

それぞれの周波数バンドの発火率は同時に音声認識記号
化の特徴を与える。例えば、20バンドの場合、20の
発火率(バンドごとに1つ)は同時に20次元の空間の
ベクトルを与える。このベクトルは記号化装置114に
入力され、音響波入力に相当するベクトルを、記憶され
ているデータおよび作成された記号に対比させることが
できる。
The firing rate of each frequency band simultaneously gives characteristics of speech recognition encoding. For example, for 20 bands, 20 firing rates (one for each band) simultaneously give a vector in 20 dimensions of space. This vector is input to the encoder 114, and the vector corresponding to the acoustic wave input can be compared to the stored data and the created symbol.

式(1)および(2)のfおよびnはどちらも、大きい
直流ペデスタルを生じる傾向がある。式の各項のダイナ
ミックレンジを広げる場合には、ペデスタルの高さを減
らす一連の式が与えられる。ちなみに、本発明では、n
は安定状態成分nと変動成分n (t)に分割され、式
(2)は次のようになる。
Both f and n in equations (1) and (2) tend to produce large DC pedestals. If we want to increase the dynamic range of each term in the equation, a set of equations is given that reduces the pedestal height. Incidentally, in the present invention, n
is divided into a steady state component n and a fluctuation component n (t), and equation (2) becomes as follows.

同様に、n = n + n(t)と定義し、定数項を
無視すると、式(3)は次のようになる。
Similarly, if we define n = n + n(t) and ignore the constant term, equation (3) becomes as follows.

n(t+Δt)=n(1−8oΔt ) −f(1(5
)式(4)および(5)はそれぞれ、連続する時間フレ
ーム中に各々の臨界周波数バンドの信号に適用される特
別な場合の出力式および更新式を構成する。
n(t+Δt)=n(1-8oΔt)−f(1(5
) Equations (4) and (5) constitute the special case output and update equations, respectively, that are applied to the signal of each critical frequency band during successive time frames.

周波数バンドごとに式(4)は、各時間フレームのベク
トル次元を定義する。これは式(1)〜(3)からの基
本出力よりもすぐれている。
For each frequency band, equation (4) defines the vector dimension of each time frame. This is better than the basic output from equations (1)-(3).

音声認識システムの性能は、特徴値に影響するパラメー
タの値を調整すなわち変更することによシ改善すること
ができるが、それぞれの調整すなわち変更後に、システ
ムの改善について検査することは、特に゛、調整すなわ
ち変更可能なパラメータが多数ある場合、時間がかかる
プロセスである。
Although the performance of a speech recognition system can be improved by adjusting or changing the values of parameters that affect the feature values, it is especially important to check the system for improvement after each adjustment or change. It is a time consuming process when there are many parameters that can be adjusted or changed.

従って、本発明のもう1つの目的は、特徴選択装置とし
てできるだけ自由パラメータの少ない機能的な聴覚器官
モデルを提供することである。前述の式の項のいくつか
を指定する経験的なデータを使用することによシ、自由
パラメータ数は1になるまで減少される。
Therefore, another object of the present invention is to provide a functional auditory organ model with as few free parameters as possible as a feature selection device. By using empirical data specifying some of the terms in the above equation, the number of free parameters is reduced to one.

従って、本発明は、1つのパラメータを変更することに
よシモデルを調整し、システムの性能をどれだけ変更す
なわち改善できるかを決定することができる。特に、1
つのパラメータは次式のように定義された比である。
Thus, the present invention allows one to tune the system model by changing one parameter and determine how much the performance of the system can be changed or improved. In particular, 1
The two parameters are ratios defined as:

Rは、(a)音量が最大(例えば感覚の限界)の場合の
安定した励起速度と、(b)音量が最小(例えば0)の
場合の安定した励起速度との比を表わす。
R represents the ratio of (a) the stable excitation rate when the volume is maximum (eg, the limit of sensation) and (b) the stable excitation rate when the volume is minimum (eg, 0).

本発明により、Rは、パラメータを調整すなわち変更す
る唯一のシステム変数であることが望ましい。
According to the present invention, R is preferably the only system variable that adjusts or changes the parameter.

前述のモデルに含まれた音量を周波数に関して同等にし
、音量と圧縮することによシ、本発明は、類似の音響波
入力の場合に、矛盾した出カバターンの発生を少なくす
ることができる。これは、音響チャネルの周波数レスポ
ンスの相違、話者の差異、背景雑音および歪みのような
要素に影響されない音響(音声)入力の過渡部分を強調
することにより行なわれる。
By equating the volume included in the aforementioned model with respect to frequency and compressing it with the volume, the present invention can reduce the occurrence of inconsistent output patterns in the case of similar acoustic wave inputs. This is done by emphasizing transient parts of the acoustic (speech) input that are unaffected by factors such as differences in the frequency response of the acoustic channels, speaker differences, background noise and distortion.

最後に、同等の音量の定義に関して更に、音量と強度の
関係を音響入力から取出す場合に改良が図られる。特に
、臨界周波数バンドの各々にヒストグラムが維持され、
(臨界周波数バンドでの)所定数のフィルタが、所定時
間にわたって一定の値を越える出力を生じる場合、音声
があると仮定される。次いで、感覚の限界および可聴限
界が・決定され、仮定された音声の所定時間中のヒスト
グラムに基づいて音声を正規化するのに使用される。
Finally, further improvements are made regarding the definition of equivalent loudness in extracting the relationship between loudness and intensity from the acoustic input. In particular, a histogram is maintained for each of the critical frequency bands;
Speech is assumed to be present if a predetermined number of filters (in a critical frequency band) produce an output above a certain value for a predetermined period of time. Sensory limits and audible limits are then determined and used to normalize the voice based on the histogram of the hypothesized voice over time.

E9問題点を解決するための手段 本発明のすぐれた聴覚器官モデルが音声認識システムで
使用される。本発明の実施例では、音声認識システムに
おいて音響波入力を処理する方法は下記ステップを含む
Means for Solving the E9 Problem The improved auditory organ model of the present invention is used in a speech recognition system. In an embodiment of the invention, a method of processing acoustic wave input in a speech recognition system includes the following steps.

(a)  少なくとも1つの周波数バンドの各々で音響
波入力の音を測定する。
(a) measuring the acoustic wave input sound in each of at least one frequency band;

(bl  聴覚器官モデルで、各周波数バンドで測定さ
れた音のレベルの関数としての神経発火率を決定する。
(bl Determine the neural firing rate as a function of the measured sound level in each frequency band in the auditory organ model.

(c)  音響波入力を、それぞれの周波数バンドで決
定された神経発火率として表わす。
(c) Expressing acoustic wave input as neural firing rates determined in each frequency band.

(d)  周波数バンドごとに、神経発火に使用できる
神経伝達物質の現在のtk決定する。
(d) For each frequency band, determine the current tk of neurotransmitters available for neural firing.

(,1周波数バンドごとに、神経伝達物質を生じる割合
を表わす補充定数と、それぞれの周波数バンドで決定さ
れた神経発火率とに基づいて、神経伝達物質の変化率を
決定する。
(, for each frequency band, the rate of change of the neurotransmitter is determined based on the recruitment constant representing the rate at which the neurotransmitter is produced and the neural firing rate determined for each frequency band.

神経発火率は神経発火に使用できる神経伝達物質の量に
よシ決まり、”次状態”で神経発火に使用できる神経伝
達物質の量は、“現状態“で使用できる神経伝達物質の
量および神経伝達物質の変化率により決まる。
The neural firing rate is determined by the amount of neurotransmitters that can be used for neural firing, and the amount of neurotransmitters that can be used for neural firing in the "next state" depends on the amount of neurotransmitters that can be used in the "current state" and Determined by the rate of change of the transmitter.

音を測定するステップは、複数の周波数バンドの各々で
入力された音響波の音量を測定し、各周波数バンドは人
間の耳に関連した臨界周波数バンドに対応し、圧縮され
た振幅形式で定義された音量を含むことが望ましい。
Measuring the sound includes measuring the volume of the input acoustic wave in each of a plurality of frequency bands, each frequency band corresponding to a critical frequency band associated with the human ear and defined in compressed amplitude form. It is desirable to include the sound volume.

F、実施例 F 1.  設計原理 第2図で、従来のオーディオ・チャネルは通常、複数の
パラメータを備え、その値の調整によシ性能を変えるこ
とができる。パラメータの変動に応じて変化する性能を
検査するには、音響プロセッサ100の全体を動作させ
る必要があシ、一般に1日位かかる。それゆえ、変化す
るパラメータが多ければ多いほど、性能変化を検査する
仕事(は難しくなり、よシ多くの時間がかかる。
F, Example F 1. Design Principles In FIG. 2, a conventional audio channel typically comprises multiple parameters whose values can be adjusted to change its performance. Inspecting performance that changes in response to parameter variations requires operating the entire acoustic processor 100, and generally takes about one day. Therefore, the more parameters that change, the more difficult and time-consuming the task of testing for performance changes.

本発明の設計原理は、調整可能な最小限のパラメータ数
により性能改善を容易にする音響プロセッサ1001C
提供することである。
The design principle of the present invention is that the acoustic processor 1001C facilitates performance improvement with a minimum number of adjustable parameters.
It is to provide.

F 2.  聴覚器官モデル(第5図〜第6図)本発明
に従って聴覚器官モデルが作成され、音声認識システム
の音響プロセッサで使用される。
F2. Hearing organ model (FIGS. 5-6) A hearing organ model is created in accordance with the present invention and used in an acoustic processor of a speech recognition system.

聴覚器官モデルは第3図により説明する。The auditory organ model will be explained with reference to FIG.

第3図は人間の内耳の部分を示す。特に、白毛細胞20
0と、液体を含有する溝204に広がる末端部202が
詳細に示されている。また、白毛細胞200から上流に
は、外系細胞206と、溝204に広がる末端部208
が示されている。白毛細胞200と外系細胞206には
、脳に情報を伝達する神経が結合している。特に、ニュ
ーロンが一気化学的変化を受け、電気パルスが神はに沿
って脳に運ばれ、処理されることになる。電気化学変化
は、基底膜210の機械的運動により刺激される。
Figure 3 shows parts of the human inner ear. In particular, white hair cells 20
0 and the distal end 202 extending into a liquid-containing groove 204 is shown in detail. Further, upstream from the white hair cell 200, there are an exogenous cell 206 and an end portion 208 extending into the groove 204.
It is shown. Nerves that transmit information to the brain are connected to the white hair cells 200 and the exogenous cells 206. In particular, neurons undergo chemical changes that cause electrical pulses to be carried along to the brain and processed. Electrochemical changes are stimulated by mechanical movement of basement membrane 210.

基底膜210が音響波形入力の周波数分析器として作用
し、基底膜210だ沿った部分がそれぞれの臨界周波数
バンドに応答することは従来から知られている。対応す
る周波数バンドに応答する基底膜210のそれぞれの部
分は、音響波形入力を知覚する音量に影響を与える。す
なわち、トーンの音量は、類似のパワーの強度の2つの
トーンが同じ周波数バンドを占有する場合よりも、2つ
のトーンが別個の臨界周波数バンドにある場合の方が大
きく知覚される。基底膜210により規定された22の
等級の臨界周波数バンドかめることが分っている。
It is known in the art that basilar membrane 210 acts as a frequency analyzer of acoustic waveform input, with sections along basilar membrane 210 responding to respective critical frequency bands. Each portion of basilar membrane 210 that responds to a corresponding frequency band influences the perceived loudness of the acoustic waveform input. That is, the loudness of the tones is perceived to be greater when the two tones are in distinct critical frequency bands than when the two tones of similar power intensity occupy the same frequency band. It has been found that there are 22 orders of magnitude critical frequency bands defined by the basilar membrane 210.

基底膜21°0の周波数レスポンスに合わせて、本発明
は良好な形式で物理的に、臨界周波数バンドの一部また
は全部に入力された音響波形を定め、次いで、規定され
た臨界周波数バンドごとに別個に信号成分を検査する。
Tailored to the frequency response of the basilar membrane 21°0, the present invention physically defines in good form the input acoustic waveform in some or all of the critical frequency bands, and then for each defined critical frequency band. Examine signal components separately.

この機能は、F F、、T装置106(第2図)からの
信号を適切に濾波し、検査された臨界周波数バンドごと
に特徴選択装置108に別個の信号を供給することによ
り行なわれる。
This function is performed by suitably filtering the signal from the FF,,T device 106 (FIG. 2) and providing a separate signal to the feature selection device 108 for each critical frequency band examined.

別個の入力も、時間窓発生器104により(できれば2
5.6ミリ秒の)時間フレームにブロックされる。それ
ゆえ、特徴選択装置108は22の信号を含むことが望
ましい。これらの信号の各々は、時間フレームごとに特
定の周波数の音の強度′jt表わす。
A separate input is also provided by the time window generator 104 (preferably two
5.6 ms) time frame. Therefore, feature selection device 108 preferably includes 22 signals. Each of these signals represents the sound intensity 'jt of a particular frequency for each time frame.

信号は、第4図の通常の臨界バンドフィルタ゛300に
より濾波することが望ましい。次いで個別に、音量の変
化を周波数の関数として知覚する音量等化変換器302
により処理する。ちなみに、1つの周波数で所与のdB
レベルの第1のトーンの知覚された音量は、もう1つの
周波数で同じdBレベルの第2のトーンの音量と異なる
ことがある。音量等化変換器302は、経験的なデータ
に基づき、それぞれの周波数バンドの信号を変換して各
々が同じ音量尺度で測定されるようにする。例えば、音
量等化変換器602は、1963年のフレクチャとムン
ンン(Fletcher  and Munson )
の研究に多少変更を加えることにより、音響エネルギを
同等の音量に写像することができる。第5図は前記研究
に変更を行なった結果を示す。第5図により、40dB
で1 KHzのトーンは60dBで100Hzのトーン
の音量レベルに対応することが分る。
The signal is preferably filtered by a conventional critical band filter 300 of FIG. Then separately a volume equalization converter 302 that perceives changes in volume as a function of frequency.
Processed by By the way, given dB at one frequency
The perceived loudness of a first tone at a level may differ from the loudness of a second tone at the same dB level at another frequency. Volume equalization converter 302 transforms the signals of each frequency band so that each is measured on the same loudness scale based on empirical data. For example, the volume equalization converter 602 may be used as described by Fletcher and Munson in 1963.
With some modifications to the study, acoustic energy can be mapped to equivalent loudness. Figure 5 shows the results of modifications made to the previous study. According to Figure 5, 40dB
It can be seen that a 1 KHz tone corresponds to the volume level of a 100 Hz tone at 60 dB.

音量等化変換器602は、第5図に示す曲線に従って音
量を調整し、周波数と無関係に同等の音量を生じさせる
The volume equalization converter 602 adjusts the volume according to the curve shown in FIG. 5, producing the same volume regardless of frequency.

周波数への依存性のほか、第5図で特定の周波数のとこ
ろを見れば明らかなようにパワーの変化は音量の変化に
対応しない。すなわち、音の強度、すなわち振幅の変動
は、すべての点で、知覚された音量の同様の変化に反映
されない。例えば、100Hzの周波数では、約110
dB付近における1 0 dBの知覚された音量変化は
、20 dB付近における1 0 dBの知覚された音
量変化よりもずっと大きい。この差は、所定の方法で音
量を圧縮する音量圧縮装置504(第4図)により示さ
れる。
In addition to the dependence on frequency, changes in power do not correspond to changes in volume, as is clear from looking at specific frequencies in Figure 5. That is, variations in sound intensity, or amplitude, are not reflected in similar changes in perceived loudness at all points. For example, at a frequency of 100Hz, approximately 110
A 1 0 dB perceived volume change around dB is much larger than a 1 0 dB perceived volume change around 20 dB. This difference is illustrated by a volume compressor 504 (FIG. 4) that compresses the volume in a predetermined manner.

音量圧縮装置604は、ホン単位の音量振幅測定値をソ
ーン単位に置換えることによシ、パワーPをその立方根
P1/3に圧縮する。
The volume compression device 604 compresses the power P to its cube root P1/3 by replacing the volume amplitude measurement value in units of phone to units of son.

第6図は、経験的に決められた既知のホン対ソーンの関
係を示す。ソーン単位の使用により、本発明のモデルは
大きな音声信号振幅でほぼ正確な状態を保持する。1ソ
ーンは、IKHzで40 dBの音量として規定されて
いる。
FIG. 6 shows the known empirically determined Hong-to-Thorn relationship. Through the use of sone units, our model remains nearly accurate at large audio signal amplitudes. One sone is defined as a volume of 40 dB at IKHz.

第4図には、新規の時変レスボ/゛ス装置306が示さ
れている。この装置は、各臨界周波数バンドに関連した
音量等化および音量圧縮信号により動作する。特に、検
査された周波数バンドごとに、神経発火率fが各時間フ
レームで決められる。発火率fは本発明に従って次のよ
うに定義される。
In FIG. 4, a novel time-varying response device 306 is shown. The device operates with volume equalization and volume compression signals associated with each critical frequency band. In particular, for each frequency band examined, the neural firing rate f is determined for each time frame. The firing rate f is defined according to the invention as follows.

f=(So+DL)n               
f力ただし、n、:神経伝達物質の量、So:音響波形
入力と無関係に神経発火にかかわる自発的な発火定数、
L:音量測定値、D:変位定数である。
f=(So+DL)n
f force, where n: amount of neurotransmitter, So: spontaneous firing constant related to nerve firing independent of acoustic waveform input;
L: Volume measurement value, D: Displacement constant.

5o−nは、音響波入力の有無に無関係に起きる自発的
な神経発火率に相当し、DLnは、音響波入力による発
火率に相当する。
5o-n corresponds to the spontaneous neural firing rate that occurs regardless of the presence or absence of acoustic wave input, and DLn corresponds to the firing rate due to acoustic wave input.

重要な点(は、本発明では、nの値は次式により時間と
ともに変化するという特徴を有することである。
An important point is that in the present invention, the value of n changes with time according to the following equation.

dn/dt=Ao−(So+Sh+DL)n    (
8)ただし、Ao:補充定数、Sh:自発的な神経伝達
物質減衰定数であるっ式(8)に示す新しい関係は、神
経伝達物質が一定の割合Aoで生成されながら、(、)
減衰(sh −n ) 、(bin発的な発火(So・
n ) 、 (e)音響波入力による神経発火(DL−
n)によシ失われることを考慮している。これらのモデ
ル化された現象は第3図に示された場所で起きるものと
仮定する。
dn/dt=Ao-(So+Sh+DL)n (
8) However, Ao: recruitment constant, Sh: spontaneous neurotransmitter decay constant. The new relationship shown in equation (8) is that while neurotransmitters are generated at a constant rate Ao,
Decay (sh −n ), (bin spontaneous firing (So・
n), (e) Nerve firing due to acoustic wave input (DL-
n). It is assumed that these modeled phenomena occur at the locations shown in FIG.

式(8)は、神経伝達物質の次量および次発火車が少な
くとも神経伝達物質の現量に乗法的に関連していること
により非線形であるという事実を反映している。すなわ
ち、状態(t+Δt)で神経伝達物質の量は、状態(t
+dn/dt )での神経伝達物質の量に当しい。すな
わち、 n(t+Δt )= n(tl+ (d n/ dt 
) ・Δt(9)が成立する。
Equation (8) reflects the fact that the order quantity and the order firing wheel of the neurotransmitter are non-linear in that they are at least multiplicatively related to the current quantity of the neurotransmitter. In other words, the amount of neurotransmitter in state (t+Δt) is
+dn/dt). That is, n(t+Δt)=n(tl+(dn/dt)
) ・Δt(9) holds true.

式(7)、t8)および(9)は、時変信号分析器の動
作を表わす。時変信号分析器は、聴覚器官系が適応性を
有し、聴神経の信号が音響波入力と非直線的に関連させ
られるという事実を示している。ちなみに、本発明は、
神経系統の明白な時間的変化によシよく追随するよって
、音声認識システムで非朦形信号処理を実施する最初の
モデルを提供するものである。
Equations (7), t8) and (9) represent the operation of the time-varying signal analyzer. Time-varying signal analyzers point to the fact that the auditory system is adaptive and the signals of the auditory nerve are non-linearly related to the acoustic wave input. By the way, the present invention
By closely following the apparent temporal changes in the neural system, it provides the first model for implementing non-articulated signal processing in speech recognition systems.

式(力および(8)において未知の項数を少なくするた
め、本発明では、一定の音量りに適用される次式を用い
る。
In order to reduce the number of unknown terms in equation (8), the present invention uses the following equation, which is applied to a constant volume level.

So + Sh + D L= 1/ τ(10)ただ
し、τけ、オーディオ波入力が生成された後、聴覚レス
ポンスがその最大1置の37%に低下するまでの時間の
測定f直である。τは、音量の関数であり、本発明だよ
り、種々の音量レベルのレスポンスの減衰を表示する既
知のグラフから取出される。すなわち、一定の音量のト
ーンが生成されると、最初高いレベルのレスポンスが生
じ、その後、レスポンスは時定数rによシ安定した状態
のレベルまで減衰する。音響波入力がない場合、τ=τ
0である。これは50ミリ秒程度である。
So + Sh + D L = 1/τ (10) where τ is the measurement of the time after the audio wave input is generated until the auditory response drops to 37% of its maximum 1 position. τ is a function of volume, and according to the present invention is taken from a known graph displaying the attenuation of the response for various volume levels. That is, when a tone of constant volume is generated, an initial high level response occurs, after which the response decays to a steady state level with a time constant r. When there is no acoustic wave input, τ=τ
It is 0. This is about 50 milliseconds.

音量がL  の場合、τ=r  である。これはmax
                   max60ミ
リ程度である。Ao=1に設定することにより、1/(
So+Sh)は、L=00場合、5センチ秒と決定され
る。LがL  て、L  =20max       
  max ソーンの場合、次の式(1りが成立つ。
When the volume is L, τ=r. This is max
The maximum length is about 60 mm. By setting Ao=1, 1/(
So+Sh) is determined to be 5 centiseconds when L=00. L is L, L = 20max
In the case of max Thorn, the following formula (1 holds true).

So+Sh+D(20)= 1/!10       
(11)前記データおよび式によシ、Soおよびshは
式(12)および(15)によシ決まる。
So+Sh+D(20)=1/! 10
(11) Based on the above data and formulas, So and sh are determined according to formulas (12) and (15).

So=DLmax/〔R+(DLm、Lx・τ。・R)
−1)(12)Sh = 1/τo  So     
     (15)ただし f安定状態1は、d n / d tが0の場合、所与
の音量での発火率を表わす。
So=DLmax/[R+(DLm, Lx・τ.・R)
-1) (12) Sh = 1/τo So
(15) where f steady state 1 represents the firing rate at a given volume when d n /d t is 0.

Rは、音響プロセッサに残っている唯一の変数である。R is the only variable left in the sound processor.

それ故、このプロセッサの性能はRfe変えるだけで変
更される。すなわち、Rは、性能を変更するのに調整す
ることができる1つのパラメータで、通常は、過渡状態
の効果に関して安定状態の効果を最小限にすることを意
味する。類似の音声入力の場合に出′カバターンが一貫
性に欠けることは一般に、周波数レスポンスの相違、話
者の差異、背景雑音、および(音声信号の安定状態部分
には影響するが過渡部分には影響しない)歪みにより生
じるから、安定状態の効果を最小限にすることが望まし
い。Rの値は、完全な音声認識システムのエラー率を最
適化することにより設定することが望ましい。このよっ
てして見つかった最適値はR= 1.5である。その場
合、Soおよびshの値はそれぞれ、0.0888およ
び0.11111であり、Dの値として0.00666
が得られる。
Therefore, the performance of this processor is changed simply by changing Rfe. That is, R is one parameter that can be adjusted to change performance, usually meant to minimize steady-state effects with respect to transient-state effects. Inconsistent output patterns for similar speech inputs are generally caused by differences in frequency response, speaker differences, background noise, and other factors (affecting steady-state but not transient portions of the speech signal). It is desirable to minimize steady-state effects since they are caused by distortions (no). The value of R is preferably set by optimizing the error rate of the complete speech recognition system. The optimum value thus found is R=1.5. In that case, the values of So and sh are 0.0888 and 0.11111, respectively, and the value of D is 0.00666.
is obtained.

F 3.  音響プロセッサの動作の流れ(第1図およ
び第7図) 第1図は本発明による音響プロセッサの動作の流れ図で
ある。できれば20KHzでサンプリングされた、25
.6 ミIJ秒の時間フレーム中のディジタル化音声は
、ハニング窓を通過し、その出力は、10ミリ秒間隔で
フーリエ変換を受けることが望ましい。変換出力は濾波
され、少なくとも1つの周波数バンド(できればすべて
の臨界周波数バンドか、または少なくとも20のバンド
)の各々にパワー密度出力全供給する。次いで、パワー
密度はログの大きさから音量レベルに変換される。これ
は、第5図の変更されたグラフによシ、または第7図に
示すプロセスにより実行される。
F3. Flowchart of the operation of the acoustic processor (FIGS. 1 and 7) FIG. 1 is a flowchart of the operation of the acoustic processor according to the present invention. Preferably sampled at 20KHz, 25
.. The digitized audio during a time frame of 6 milliJ seconds is preferably passed through a Hanning window, the output of which is subjected to a Fourier transform at 10 millisecond intervals. The conversion output is filtered to provide a full power density output in each of at least one frequency band (preferably all critical frequency bands, or at least 20 bands). The power density is then converted from log magnitude to volume level. This can be done by the modified graph of FIG. 5 or by the process shown in FIG.

第7図において、最初、濾波された周波数バンドmの各
々の感覚限界Tfおよび可聴限界Thに120dBおよ
びOdBをそれぞれ割当てる(ステップ410)。その
後、音声カウンタ、合計フレームレジスタおよびヒスト
グラムレジスタをリセットする(ステップ420)。
In FIG. 7, first, the perceptual limit Tf and audible limit Th of each filtered frequency band m are assigned 120 dB and OdB, respectively (step 410). Thereafter, the audio counter, total frame register, and histogram register are reset (step 420).

ヒストグラムの各々はビンを含み、ビンの各々は、(一
定の周波数バンドで)パワーまたは類似の測定値がそれ
ぞれのレンジ内にある間のサンプル数すなわちカウント
を表わす。本発明ではヒストグラムは、(所与の周波数
バンドごとに)音量が置数の音量レンジの各々にある期
間のセンチ秒数を表わすことが望ましい。例えば、第6
の周波数バンドでは、10dBと20dBのパワーの間
に20センチ秒ある場合がある。同様に、第20の周波
数バンドでは、50dBと60dBの間の合計1000
センチ秒のうちの150センチ秒ある場合がある。合計
サンプル数(すなわちセンチ秒)およびビンに含まれた
カウントから百分位数が取出される。
Each of the histograms includes bins, with each bin representing the number of samples or counts during which the power or similar measurement (in a given frequency band) is within a respective range. In the present invention, the histogram preferably represents the number of centiseconds during which the volume is in each of a given number of volume ranges (for a given frequency band). For example, the sixth
In the frequency band, there may be 20 centiseconds between 10 dB and 20 dB power. Similarly, in the 20th frequency band, a total of 1000 between 50dB and 60dB
There may be 150 centiseconds of a centisecond. Percentiles are taken from the total number of samples (ie, centiseconds) and the binned counts.

それぞれの周波数バンドのフィルタ出力のフレームが検
査され(ステップ430L適切なヒストグラム(フィル
タ当91つ〕中のビンは増分される(ステップ440)
。振幅が55dBを越えるビンの数はフィルタ(すなわ
ち周波数バンド)ととに集計され(ステップ450)、
音声の存在を示すフィルタの数が決定される(ステップ
460)。
A frame of filter output for each frequency band is examined (step 430). The bins in the appropriate histogram (91 per filter) are incremented (step 440).
. The number of bins with amplitudes greater than 55 dB are aggregated into filters (i.e., frequency bands) (step 450);
The number of filters that indicate the presence of audio is determined (step 460).

音声の存在を示唆する最小限(例えば20のうちの6)
のフィルタがない場合は、次のフレームが検査される(
ステップ430ン。音声の存在を示すのに十分なフィル
タがある場合、音声カウンタが増分される(ステップ4
70)。音声カウンタは、音声が10秒間生じ(ステッ
プ480)、新しいT およびT5の値がフィルタごと
に決定されるまで増分される。
Minimal hint of voice presence (e.g. 6 out of 20)
If there is no filter, the next frame is examined (
Step 430. If there are enough filters to indicate the presence of audio, the audio counter is incremented (step 4).
70). The audio counter is incremented until audio occurs for 10 seconds (step 480) and new T and T5 values are determined for each filter.

与えられたフィルタの新しいで およびThの値は次の
ように決定される。T、の場合、1000ビンの最上位
から65査目のサンプルを保持するビンのdB値(すな
わち、音声の96.5番目の百分位数)はBINHと定
義され、T、は、T、=BINH+40dBとセットさ
れる。T、の場合、最下位のビンから(0,01)(ビ
ン総数−音声カウント)番目の値を保持するビンのdB
値がBINLと定義される。すなわちBINLは、ヒス
トグラム中の、音声として分類されたものを除いたサン
プル数の1チのビンである。T は、T  =BINL
−30dBh と定義される。
The new values of and Th for a given filter are determined as follows. For T, the dB value of the bin holding the 65th sample from the top of 1000 bins (i.e., the 96.5th percentile of audio) is defined as BINH, and T, =BINH+40dB is set. For T, the dB of the bin holding the (0,01)th (total number of bins - voice count) value from the lowest bin
The value is defined as BINL. That is, BINL is one bin of the number of samples in the histogram excluding those classified as audio. T is T = BINL
-30dBh.

第1図で、音の振幅は前述のように、更新された限界値
に基づいてンーン単位に変換され、圧縮される(ステッ
プ670および375)。ソーン単位を導入し圧縮する
代替方法は、(ビンが増分された後)フィルタ振幅“a
″を取出し、次式によ、9dBに変換する方法である。
In FIG. 1, the sound amplitude is converted to tones and compressed (steps 670 and 375) based on the updated limits, as described above. An alternative method of introducing and compressing sonic units is to reduce the filter amplitude “a” (after the bins have been incremented) to
'' and convert it to 9 dB using the following formula.

B a  = 201og1o(a) −10(15)次に
、フィルタ振幅の各々は、0と120の間のレンジに圧
縮され、次式により同等の音量が得られる。
B a = 201og1o(a) -10(15) Each of the filter amplitudes is then compressed to a range between 0 and 120, giving equivalent loudness by:

aeq=120(adB−T )/(T −T ) (
16)h       fh 次いで、aeqlは次式により、音量レベル(ホン単位
)からンー/単位の音量の近似値に変換(40dBでI
KHzの信号を1に写像)することが望ましい。
aeq=120(adB-T)/(T-T) (
16) h fh Next, aeql is converted from the volume level (in units of phons) to an approximate value of the volume in units of 40 dB (I at 40 dB).
It is desirable to map the KHz signal to 1).

B L   =(a8q’−50)/ 4     (17
)次に、ソーン単位の音量の近似値L は次式から得ら
れる。
B L = (a8q'-50)/4 (17
) Then, the approximate value L of the sound volume in units of sones is obtained from the following equation.

L  =10(LdB)/20       (18)
L は式(力および(8)の入力として使用され、周波
数バンドごとの出力発火率fを決定する(ステップ38
0)。22周波数バンドの場合、22次元のベクトルが
、連続する時間フレームにわたる音響波入力を特徴づけ
るが、一般に、20周波数バンドはメルでスケーリング
フィルタバンクを使用して検査される。
L = 10 (LdB)/20 (18)
L is used as input to equation (force and (8)) to determine the output firing rate f for each frequency band (step 38
0). In the case of 22 frequency bands, a 22-dimensional vector characterizes the acoustic wave input over successive time frames, but typically the 20 frequency bands are examined using a scaled filter bank in Mel.

次の時間フレームを処理する前に、nの“次状。n's "next state" before processing the next time frame.

態”が式(9)に従って決定される(ステップ390)
” is determined according to equation (9) (step 390).
.

前述の音響プロセッサは、発火率fおよび神経伝達物質
量nが大きいDCペデスタルを有する場合に使用する際
に改善を必要とする。すなわち、fおよびnの式の項の
ダイナミックレンジが重要な場合、次式によシベデスタ
ルの高さを減じる。゛安定状態で、音響波入力信号が存
在しない(L=0ン場合、式(8)は次式によシ安定状
態の内部状態nについて解くことができる。
The acoustic processors described above require improvement when used with DC pedestals where the firing rate f and neurotransmitter content n are large. That is, when the dynamic range of the f and n equation terms is important, the height of the sibe destal is reduced according to the following equation. ``In the stable state, when there is no acoustic wave input signal (L=0), equation (8) can be solved for the internal state n in the stable state by the following equation.

n=A/(So+Sh )         (19)
神経伝達物質の量の内部状態n (tJは、次式に示す
ように、安定状態部分および変動部分として表示される
n=A/(So+Sh) (19)
The internal state of the amount of neurotransmitter n (tJ is expressed as a steady-state part and a fluctuating part, as shown in the following equation:

n(t) = n + n(t)          
   (20)式(7)および(20)を結合すると、
次式の発火率が得られる。
n(t) = n + n(t)
(20) Combining equations (7) and (20), we get
The firing rate is obtained as follows.

f(t)−” (S o +D−L ) (n +n(
tJ)      (21)So−nの項は定数である
が、他のすべての項は、nの変動部分か、または(D−
L)により表わされた入力信号を含む。爾後の処理は出
力ベクトル間の差の二乗のみに関連するので、定数項は
無視される。式(21)および(19)から次式が得ら
れる。
f(t)−” (S o +D−L ) (n +n(
tJ) (21) The So-n term is constant, but all other terms are either varying parts of n or (D-
L). Since further processing concerns only the square of the difference between the output vectors, the constant term is ignored. The following equation is obtained from equations (21) and (19).

式(9)を考慮すると、“次状態”は下記のようになる
Considering equation (9), the "next state" is as follows.

n(t+Δ1)=;(1+Δt ) +n(t+Δt)
  (25)n(’t+Δt)=n(t)+A−(So
+Sh+I)L)・(n + n(tl )     
        (24)n(t+Δt)=n(tl−
(sh−n(t)−(so+Ao−L)−n(t)(A
o−L  −D)/(So+sh)+Ao−(So−A
o)+(Sh−Aoン)/(So+Sh)      
       (25)式(25)はすべての定数項と
無視すれば次のようになる。
n(t+Δ1)=;(1+Δt) +n(t+Δt)
(25) n('t+Δt)=n(t)+A-(So
+Sh+I)L)・(n + n(tl)
(24) n(t+Δt)=n(tl−
(sh-n(t)-(so+Ao-L)-n(t)(A
o-L-D)/(So+sh)+Ao-(So-A
o)+(Sh-Aon)/(So+Sh)
(25) Equation (25) becomes as follows if all constant terms are ignored.

n(t+Δ1)=循tバ1−8o・Δt>−’nt> 
  (26)式(21)および(26)は、各10ミリ
秒の時間フレーム中に各フィルタに適用される出力式お
よび状態更新式を構成する。これらの式の使用結果“は
10ミリ秒ごとの20要素のベクトルであり、このベク
トルの各要素は、メルでスケーリングされたフィルタバ
ンクにおけるそれぞれの周波数バンドの発火率に対応す
る。
n(t+Δ1)=circulationtbar1-8o・Δt>-'nt>
(26) Equations (21) and (26) constitute the output and state update equations applied to each filter during each 10 ms time frame. The result of using these equations is a vector of 20 elements every 10 ms, each element of which corresponds to the firing rate of a respective frequency band in the mel-scaled filter bank.

F3で示した実施例に関し、第1図の流れ図は、発火率
fおよび“次状態″n(t+Δt)の特別の場合の式を
それぞれ定義する式(17)および(22)により、f
、dn/dtおよびn(t+Δt)の式を置換える以外
は当てはまる。
Regarding the embodiment designated F3, the flowchart of FIG. 1 shows that f
, dn/dt and n(t+Δt).

F 4.  聴覚器官モデルの一般的な特徴本発明の聴
覚器官モデルは、前述のように良好な形式で下記の特徴
を実現する。
F4. General features of the auditory organ model The auditory organ model of the present invention realizes the following features in a good manner as described above.

(a)  聴神経は、まるで臨界バンド幅フィルタを通
しているかの如くに音響信号に応答する。
(a) The auditory nerve responds to acoustic signals as if passing through a critical bandwidth filter.

(b)  音響波人力0(沈黙)に応答して神経は成る
自発的な割合で発火する。
(b) In response to zero acoustic wave force (silence), nerves fire at a spontaneous rate.

(C)  大きい音に応答する場合、発火率は大きく、
約50ミリ秒の時定数で減少する。
(C) When responding to loud sounds, the firing rate is large;
It decreases with a time constant of about 50 milliseconds.

(d)  大きな音響波信号がオフになるのに応答する
神経発火率は、約50ミリ秒の回復時定数で減少する。
(d) Neural firing rate in response to large acoustic wave signals turning off decreases with a recovery time constant of approximately 50 ms.

(e)  小さい音と大きい音に対する安定状態のレス
ポンスは、精神物理学的に定義されたように、簡単な音
量の関数である。
(e) Steady-state responses to soft and loud sounds are simple functions of loudness, as defined psychophysically.

(f)  過渡レスポンスと安定状態レスポンスの間の
平衡は、システムの過渡レスポンスを強調するように調
整される。
(f) The balance between transient and steady state responses is adjusted to emphasize the transient response of the system.

(g)  このモデルは各々の臨界バンドについてなか
ば独立的に動作する。
(g) The model operates semi-independently for each critical band.

F 5.  代替実施例 第1に、音量はソーン単位または他の圧縮形式であるこ
とが望ましいが、恐らく、ソーン単位利用で得た利益の
一部分を犠牲にして、音量の他の測定値すなわちパワー
の強度を式に与えることも可能である。第2に、基底膜
210の臨界バンドとして周波数バンドを定義すること
は望ましいが・要求はされていない。それ故、20以上
のチャンネルのメルでスケーリングされたフィルタバン
クが望ましいこともあるが、要求はされていない。
F5. Alternative Embodiments First, although it is desirable that the loudness be in sones or other compressed forms, other measures of loudness, i.e., the intensity of power, may be sacrificed, perhaps at the expense of some of the benefits gained from utilizing sones. It is also possible to give Eq. Second, it is desirable but not required to define a frequency band as a critical band of basement membrane 210. Therefore, a mel-scaled filter bank of 20 or more channels may be desirable, but is not required.

第6に、それぞれの式の項に特有の値(すなわち、τ 
=s、(!1ie(!%τLmax=3csec、Ao
=1、R=1.5およびL   =20)は他の値に設
定するこa x ともでき、5O1shおよびDの項は、他の項が異なっ
たf直に設定されると、それぞれの望ましい値0、08
88.0.11111およびC1,00666とは異な
る値になる。
Sixth, each equation term has a unique value (i.e., τ
=s, (!1ie(!%τLmax=3csec, Ao
= 1, R = 1.5 and L = 20) can also be set to other values, and the terms 5O1sh and D can be set to different f values when the other terms are set to different f values. Value 0, 08
88.0.11111 and C1,00666.

本発明は種々のソフトウェアまたはノ・−ドウエアによ
り実施することができる。
The present invention can be implemented by various software or hardware.

G0発明の効果 本発明による聴覚器官モデルにより、人間の耳知合った
臨界バンドの濾波を行ない、基底膜の動作?反映させる
ことができる。
Effects of the G0 Invention The auditory organ model of the present invention filters the critical band that matches the human ear, and allows the operation of the basilar membrane to be detected. It can be reflected.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の音響プロセッサの動作の流れ図、第2
図は従来の音響プロセッサのブロック図、第3図(は人
間の内耳部分の説明図、第4図は音量等化プロセスのブ
ロック図、第5図は音量等化曲線を示す図、第6図はホ
ンとソーンの関係図、第7図はパワー密度変換プロセス
の流れ図である。 200・・・・白毛細胞、204・・・・溝、206・
・・・外系細胞、210・・・・基底膜。 出願人  インタサ乃ナル・ビ銅・マシーンズ・コーポ
レーション音響プロセ・世の動作の流に 第1図 j1亥教(CPS) 昔量算化曲織 艇〃貴  会話     去ブト機・ 未ン ホンとソーンの崗係
FIG. 1 is a flowchart of the operation of the acoustic processor of the present invention, and FIG.
Figure 3 is an explanatory diagram of the human inner ear, Figure 4 is a block diagram of the volume equalization process, Figure 5 is a diagram showing the volume equalization curve, and Figure 6 is a block diagram of a conventional acoustic processor. is a relationship diagram between Hong and Thorn, and Figure 7 is a flowchart of the power density conversion process. 200... White hair cells, 204... Grooves, 206...
... exogenous cells, 210... basement membrane. Applicant Intasano Naru Bi-copper Machines Corporation Sound Processing Figure 1 J1 In the flow of the world's movements (CPS) In the past, the Quantification Weaving Boat Takashi Conversation Yubuto Machine, Mian Hong and Thorn's Gang Person in charge

Claims (1)

【特許請求の範囲】 音声認識システムにおいて音響波入力を処理する方法で
あつて、 少なくとも1つの周波数バンドの各々の音響波入力の音
の大きさの測定を行ない、 聴覚器官モデルで、周波数バンドの各々における音の大
きさの測定値に基いて、モデル化された神経発火率を決
定し、 音響波入力を、それぞれの周波数バンドについて決定さ
れた神経発火率として表示する ステップを含むことを特徴とする音響波入力処理方法。
[Claims] A method of processing acoustic wave input in a speech recognition system, comprising: measuring the loudness of each of the acoustic wave inputs in at least one frequency band; determining a modeled neural firing rate based on the loudness measurements in each, and displaying the acoustic wave input as the determined neural firing rate for each frequency band. Acoustic wave input processing method.
JP21122985A 1984-10-26 1985-09-26 Sound wave input processing Pending JPS61126600A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US66540184A 1984-10-26 1984-10-26
US665401 1984-10-26

Publications (1)

Publication Number Publication Date
JPS61126600A true JPS61126600A (en) 1986-06-14

Family

ID=24669962

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21122985A Pending JPS61126600A (en) 1984-10-26 1985-09-26 Sound wave input processing

Country Status (4)

Country Link
EP (1) EP0179280B1 (en)
JP (1) JPS61126600A (en)
CA (1) CA1222320A (en)
DE (1) DE3577364D1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63259695A (en) * 1987-04-03 1988-10-26 アメリカン テレフォン アンド テレグラフ カムパニー Perception analysis

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100571574B1 (en) * 2004-07-26 2006-04-17 한양대학교 산학협력단 Similar Speaker Recognition Method Using Nonlinear Analysis and Its System
CN109477904B (en) 2016-06-22 2020-04-21 休斯敦大学系统 Nonlinear signal comparison and high resolution measurement of seismic or acoustic dispersion

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6011899A (en) * 1983-04-26 1985-01-22 フエアチアイルド・カメラ・アンド・インストルメント・コ−ポレ−シヨン Method and apparatus for imitating audio response information

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3211832A (en) * 1961-08-28 1965-10-12 Rca Corp Processing apparatus utilizing simulated neurons

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6011899A (en) * 1983-04-26 1985-01-22 フエアチアイルド・カメラ・アンド・インストルメント・コ−ポレ−シヨン Method and apparatus for imitating audio response information

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63259695A (en) * 1987-04-03 1988-10-26 アメリカン テレフォン アンド テレグラフ カムパニー Perception analysis

Also Published As

Publication number Publication date
EP0179280A2 (en) 1986-04-30
DE3577364D1 (en) 1990-05-31
EP0179280A3 (en) 1987-07-15
CA1222320A (en) 1987-05-26
EP0179280B1 (en) 1990-04-25

Similar Documents

Publication Publication Date Title
US5794188A (en) Speech signal distortion measurement which varies as a function of the distribution of measured distortion over time and frequency
CN108447495B (en) Deep learning voice enhancement method based on comprehensive feature set
FI92118B (en) Improved noise reduction system
JP4308278B2 (en) Method and apparatus for objective voice quality measurement of telecommunications equipment
CA2334906C (en) Method for executing automatic evaluation of transmission quality of audio signals
US5621854A (en) Method and apparatus for objective speech quality measurements of telecommunication equipment
Steeneken et al. Validation of the revised STIr method
KR19990028694A (en) Method and device for evaluating the property of speech transmission signal
Kokkinis et al. A Wiener filter approach to microphone leakage reduction in close-microphone applications
Steeneken et al. Basics of the STI measuring method
CN110931034B (en) Pickup noise reduction method for built-in earphone of microphone
Hansen et al. Using a quantitative psychoacoustical signal representation for objective speech quality measurement
JPS61126600A (en) Sound wave input processing
Hansen Assessment and prediction of speech transmission quality with an auditory processing model.
Alku et al. On the linearity of the relationship between the sound pressure level and the negative peak amplitude of the differentiated glottal flow in vowel production
JPH08123490A (en) Spectrum envelope quantizing device
Nikhil et al. Impact of ERB and bark scales on perceptual distortion based near-end speech enhancement
CN110691296B (en) Channel mapping method for built-in earphone of microphone
Karjalainen Sound quality measurements of audio systems based on models of auditory perception
Gajic Auditory based methods for robust speech feature extraction
Kelly Speech and vocoders
Leijon et al. Fast amplitude compression in hearing aids improves audibility but degrades speech information transmission
Pickett et al. Intelligibility at high voice levels and the use of a megaphone
Gierlich et al. A new objective model for wide-and narrowband speech quality prediction in communications including background noise
Hu et al. Speech Intelligibility of Mandarin-and German-Speaking Listeners in Challenging Conditions