WO1993020552A1

WO1993020552A1 - Speech recognition apparatus using neural network, and learning method therefor

Info

Publication number: WO1993020552A1
Application number: PCT/JP1993/000373
Authority: WO
Inventors: Mitsuhiro Inazumi
Original assignee: Seiko Epson Corporation
Priority date: 1992-03-30
Filing date: 1993-03-26
Publication date: 1993-10-14
Also published as: JP2000298663A; KR100292919B1; JP3521429B2; EP0586714B1; DE69327997D1; EP0586714A1; HK1013879A1; DE69327997T2; EP0586714A4

Description

明細書

ニューラルネットワークを用いた音声認識装置およびその学習方法技術分野

本発明は、ニューラルネットワークを用いた音声認識装置およびその学習方法に関するもので、音声データ等の時系列データを処理する際、従来の様に入力デ一タの始端 · 終端を与えたり、考えられる全ての始端 ' 終端の組み合わせについて処理したりするのではなく、神経細胞様素子自身が入力されたデータの過去の履歴を保持できる構成とすることにより、音声等の時系列データの処理を簡単なハードゥ 3：ァ構成でかつ高精度の処理が可能となるような技術に関する。

また、ニューラルネヅトワークにそのような処理を行わせるためのニューラルネットワークの学習方法に関する。背景技術

従来の場合、データ認識手段、特に時系列データの範疇を学習により認識する手段として実用的に用いられている手段は、ダイナミックプログラミング〔D P ) 法、隠れマルコフモデル（ H M M〕法、およびバックプロパゲーション学習法と多層パーセプトロン型ニューラルネットワークを用いた方法〔M L P法）とがある。これらの詳細については、例えば中川聖一著「確率モデルによる音声認識」

(電子情報通信学会）、中川、鹿野、東倉共著「音声 · 聴覚と神経回路網モデル」

(オーム社）等に記述されている。

この D P法、 H M M法に共通する問題は教師となるデータおよび認識対象となるデータに始端と終端を必要とすることで.ある。これらにおいて見かけ上始端終端に依存しない処理をするためには、可能性のある全ての始端終端についての処理を行い、最良の結果を与える始端終端を試行錯誤的に発見するという方法がある。しかし、例えば長さ Nのパタンの中から、ある範疇に属するデータの部分を検出する場合を考えてみると、始端の可能性としては Nのオーダーの可能性があり、また終端においても Nのオーダーの可能性がある。つまり、始端終端の組み合わせとしては Nの自剰のオーダーの可能性が考えられる。従ってこの場合においては、この非常に多数の組み合わせの全てについて認識処理を行わなければならない。そして、その処理には膨大な時間がかかってしまう。

また組み合わせの数と言う量的な問題以前に、始端終端の存在という仮定自身に、より-本質的な問題がある。入力データに、ある範噠のデータが唯一つしか含まれないという条件であれば始端終端は自明であるが、一つ ¾上の範疇のデータが連続する場合においては、そのような境界は自明ではない。特に、音声などの時系列情報においては、そのような境界は明確に存在せず、連続した 2つの範疇のデータはその情報が重複する遷移領域を経て一方から他方へ変化する。従って、データの始端終端を仮定することはその正確度において非常に大きな問題がある。従来法のもう一つの方法である M L P法の場合はこのようなデータの始端終端を特に仮定する必要はない。しかしそれに代わって入力のデータ範囲という意味での新たな始端終端の問題が起こる。つまり、 M L P法は基本的には静的なデータを認識するための方法であり、それに時系列データを認識させるためには、ある時間範囲のデータを 1つの入力データとして入力し、等価的に時間情報を処理しなければならないという問題がある。この時間範囲は M L Pの構成上固定されたものでなければならない。

—方時系列データの長さは、その範嗪により、また同一範禱の中においても大きく変動する。例えば音声における音素を例にとれば、長い音素である母音等と、短い音素である破裂音等の平均長さは 1 0倍以上異なる。また同一音素内においても実際の音声中での長さは 2倍乂上変動する。従って、仮にデータの入力範囲を平均的な長さに設定したとすると、短い音素を認識する場合はその入力データの中には認識対象 ¾外のデータが多数含まれることになり、また長い音素を認識する場合はその入力データの中には認識対象のデータの一部しか含まれないことになる。これらはいずれも認識能力を下げる原因である。また音素毎に異なる入力長さを設定したとしても、その音素自身の長さが変動するので問題は同様である。また、このようなことは時系列情報一般に見られることである。発明の開示

従来的な D P法、 H MM法では、取り扱うデータの始端と終端とを必要し、 M L P法では学習時に入力範囲の始端と終端とを必要とする。しかし、時系列情報においてはこれは原理的に明確にはできず、無理に始端 · 終端を仮定することは認識能力を下げることになる。また、見かけ上これを緩和するためには全ての始端終端の組み合わせについての処理を必要となり、膨大な処理が必要となる。

これに対して、本発明の二ユーラルネットワークを用いた音声認識装置は、 1 ) ニューラルネットワークを構成する各神経細胞様素子が、内部状態値記憶手段と、内部状態値記億手段に記億された内部状態値とその神経細胞様素子に入力される入力値とにより内部状態値を更新する内部状態値更新手段と、内部状態値記憶手段の出力を外部出力値へ変換する出力値生成手段とを有する、

2 X内部状態値更新手段は入力値および内部状態値に重みを付け積算する重み付き積算手段からなり、内部状態値記憶手段は前記重み付き積算手段により積算された値を積分する積分手段からなり、出力値生成手段は積分手段により得られた値を予め設定された上限値と下限値の間の値へ変換する出力値制限手段とからなる、

3〕前記 1 ) または 2 ) において、ニューラルネットワークを構成する i 番目の神経細胞様素子の内部状態値を X i とし、て i を時定数とし、神経細胞様素子への重み付き入力値を Z j ( j は 0から n、 nは 0 または自然数）とすると、内部状態値更新手段が、 τ Xi

Yj を満足する値へ内部状態値を更新する、

4 ) 前記 1 ) ないし 3 ) において、 i 番目の神経細胞様素子への重み付き入力値 Z j が、 i 番目の神経細胞様素子自身の出力に重みを剰算した値を含む、

5 ) 前記 1 ) ないし 4 ) において、 i 番目の神経細胞様素子への重み付き入力値 Z j が、ニューラルネットワークを構成する他の神経細胞様素子の出力に重みを剰算した値を含む、

6 ) 前記 1 ) ないし 5 ) において、 i 番目の神経細胞様素子への重み付き入力値 Z j が、ニューラルネットワークの外部から与えられたデータを含む、 7 ) 前記 1 ) ないし 6〕において、 i番目の神柽細胞様素子への重み付き入力値 Z jが、ある固定された値に重みを剰算した値を含む、

8〕前記 1 ) ないし 7 ) において、出力値生成手段が、正負対称出力範囲を有する、

9 ) 前記 1 ) ないし 8 ) において、ニューラルネヅトワークが少なくとも肯定出力、否定出力の 2つの出力を持つ、

1 0 ) 前記 1 ) ないし 9 ) において、音声認識装 Sは、認識させたい入力の特徵抽出を行うと共に特徵抽出した値を前記ニューラルネットワークへ入力する音声特徵抽出手段と、ニューラルネットワークの出力値を認識結果に変換する認識結杲出力手段と、ニューラルネットワークを構成する神経細胞様素子の内部状態値記億手段に予め設定された初期値を与える内部状態値初期化手段とを有する、

1 1〕前記 1 0〕の音声認識装 Sにおいて、ニューラルネットワークに背景雑音を入力する背景雑音入力手段と、ニューラルネヅトワークの出力か'ら平衡状態を検出し、その検出結果に基づき内部状態初期値設定手段に内部状態値を変更する信号を出力する平衡状態検出手段とを設けたこと、

を特徴とする。

また、本発明のニューラルネットワークを用いた音声認識装置の学習方法は、

1 2 ) 前記 1 0〕または 1 1〕の音声認識装麗が、ニューラルネットワークを学習させる学習部を有し、その学習部が学習用入力データを記億する入力データ記 α手段と、入力データ記億手段から学習用入力データを選択する入力データ選択手段と、学習用出力データを記使する出力データ記億手段と、選択された入力データとその連鎖により学習用出力データを選択する出力データ選択手段と、選択された学習用入力データを特徴抽出部に入力すると共にニューラルネ、) / トワークの学習を制御する学習制御手段とを有し、学習制御手段はニューラルネットヮークの出力と出力データ選択手段の出力とに基づいて神経細胞様素子の結合の重み付けを変更する、

1 3 ) 前記 1 2 ) において、入力データ記億手段は複数個の範疇を有し、出力デ一タ記億手段は入力データ記億手段の各範禱に対応する範疇を有し、入力データ選択手段は入力データ記億手段の範韓から学習させたい複数個のデータを選択し. 出力データ選択手段は入力データ選択手段により選択された学習用入力データに対応する学習用出力データを選択し、学習制御部は入力データ選択手段が選択した複数個のデータを 1つに連結する入力データ連結手段と出力データ選択手段が選択した-学習用出力データを 1つに連結する出力データ連結手段とを有し、学習部は連結した 1つの学習用入力データを音声特徴抽出手段に入力すると共に、二ユーラルネットワークの出力と出力連結手段の出力とに基づき神経細胞様素子の結合の重み付けを変更する、

1 4 ) 前記 1 3 ) の範嘩の数が 2であること、

1 5 ) 前記 1 2 ) ないし 1 4 ) において、学習部は雑音データを記億する雑音デ一タ記億手段と、選択された学習データに雑音データ記憶手段から選択された雑音を重畳する雑音重畳手段とを有し、雑音重畳手段により雑音が重畳された入力データを用いてニューラルネットワークを学習させる、

1 6 ) 前記 1 5〕において、背景雑音を重畳させる位置をずらして繰り返し学習させる、

1 7 ) 前記 1 5 ) において、はじめに背景雑音が重畳されていない入力データで学習させた後に、同じ入力データに背景雑音を重畳して学習させる、

ことを特徴とする。 '

このように、本発明のニューラルネットワークを用いた音声認識装置及ぴ学習方法によれば、

1 ) 従来例では音声入力の長さ Nの自剰に比例した処理時間が必要であつたが、本発明ではデータを 1回のみ与えれば良く非常に高速な処理が可能である、

2 ) 入力データを記億するメモリ一が非常に少なくても良い、

3〕結果の正規化の必要がない、

4 ) 容易に連続処理が可能である、

5〕整数型のデータ表現でも十分な精度が得られる、。

6 ) 肯定否定出力を組み合わせる事により、非常に高精度の認識結果が得られる

7 ) より多出力の任意の情報を出力させる事ができる、

8 ) 対雑音性等を容易に向上させる事ができる、

9 ) 種々の時間スケールの現象への対応を学習により自己組織的に行う事ができる、

1 0〕 N Nの連想能力、情報の圧縮伸長能力を、目的に合わせて最適に配置する構成が容易に行える、

1 1 ) 学習が極めて容易であり、そのための試行錯誤的な部分が非常に少ない、などの効果がある。図面の簡単な説明

図 1は、本発明のニューラルネットワークを構成する神経細胞様素子を示す図である。図 2は、図 1の神経細胞様素子を具体的な機能に麗き換えた図である。図 3は、図 2の構成を電気回路に置き換えた例である。図 4は、本発明の神経細胞様素子を用いて構成されたニューラルネットワークを用いた音声認識装置を示す図である。図 5は、図 4のニューラルネットワークを 3層化した図である。図 6は、図 5のニューラルネットワークをさらに多層化した図である。図 7は、図 6の伝達ネ、ソトワークを分割した図である。図 8は、自 S回帰ループを有する二ユーラルネットワークを示す図である。図 9は、ランダム結合ニューラルネットワークを示す図である。図 1 0は、本発明の音声認識装置の耐雑音性を説明するための図である。図 1 1は、本発明の音声認識装置の時間スケールの学習項効果を説明するための図である。図 1 2は、本発明の神経細胞用素子を用いた別の音声認識装置の構成を示す図である。図 1 3は、図 1 2の音声認識装置の動作手順を表す図である。図 1 4は、本発明のニューラルネットワークを用いた音声認識装還の学習方法を示す図である。図 1 5は本発明の学習方法の学習手順を示す図である。図 1 6は、本発明の学習データの連結を示す図である。図 1 7は、本発明の学習データの構成を示す図である。図 1 8は、本発明のニューラルネットヮークを用いた音声認識装置の学習方法を示す別の図である。図 1 9は、本発明の音声認識装置による音声単語検出出力を示す図である。図 2 0は、本発明の音声認識装置による別の音声単語検出出力を示す図である。図 2 1は、本発明の音声認識装 Sの別の構成を示す図である。図 2 2は、図 2 1の音声認識装置の動作手順を示す図である。図 2 3は、背景雑音重畳手段を有する音声認識装置の学習方法を示す図である。図 2 4は、学習データへの雑音成分の重昼させ方を示す図である。図 25は、本発明の学習方法で学習させたニューラルネットワークに未知単語を与えたときの認識結果を示す図。図 26は、図 25を同様の処理を未知話者に対して行った場合の認識結果を示す図。図 27は、図 26と同様の処理を背景雑音を与えて行った場合の認識結果を示す図。図 28は、従来技術の神経細胞様素子を示す図である。図 29は、図 28の神経細胞様素子を具体的な機能に置き換えた図である。図 30は、図 29の構成を電気回路に置き換えた図である。発明を実施するための最良の形態

図 1は本発明における NNを構成する神経細胞様素子（以下「ノード」という）の機能を模式的に示したものである。図中 1 04は 1つのノード全体を、 1 0 1 は内部状態値記億手段を、 1 02は 1 0 1に記億された内部状態値及ぴノ一ドに入力される入力値に基づいて内都状態値を更新する内部状態値更新手段を、 1 0 s 内部状態値を外部出力へ変換する出力値生成手段を示す。

2は、図 1に示したノードの機能をより具体的に示したものである。図中 2 0 1はデータ入力手段を、 202は 20 1により得られたデータ入力値に重みを付け積算する重み付き積算手段を、 203は積算されたデータ値を積分する積分手段を、 204は積分の結果得られた値を予め設定されたある範囲の値へ変換する出力値制限手段をそれぞれ模式的に示す。

図 3は図 2の構成を電子回路にした一例である。図中 301は、図 2のデータ入力手段と重み付き積算手段を、また 302は積分手段を、 303は出力値制限手段を示す。

一方、図 28は従来の ML P法による NNを構成するノードの機能を模式的に示したものである。図中 2803は 1つのノード全体を、 280 1はの内部状態値を計算する内部状態値計算手段を、 2802は 2801により計算された内部状態値を外部出力へ変換する出力値生成手段を示す。

同様に、図 29は図 28に示した従来のノ一ドの機能を具体的に示したもので、図中 2901はデータ入力手段を、 2902は 290 1により得られたデータ入力値に重みを付け積算する重み付き積算手段を、 2903は積算されたデータの値を予め設定されたある範囲の値へ変換する出力値制限手段を示す。図 3 0は図 2 9の構成を電子回路にした例である。図中 3 0 0 1は、図 2 9のデータ入力手段と重み付き積算手段を、また 3 0 0 2は出力値制限手段を示す。図 1〜図 3および図 2 8〜図 3 0から明かな通り、本発明のノードは従来のノードにはなかった積分手段を持つ。従って、従来のノードにおいては、その出力が、その時点での入力のみにより決定されると言う意味で静的であつたのに対し、本発明のノードは、そのノードへ入力されたデータの過去の履歴が、その積分値として変換、保持されており、それにより出力が決まると言う意味で動的であるといえる。

つまり、従来の静的なノードを用いた N Nで時系列データを処理しようとすれば、そのネットワークの構造としてデータの時間構造を取り込む必要があつたのに対し、本発明の動的なノードを用いた N Nは、 N Nの構造等によらずにノードそのもので時系列データを処理する事ができる。

より具体的に言うと、従来の N Nに時系列データを処理させようとすると、その時間情報を空間情報へ展開するような方法、例えば複数のタイミングで入力されたデータを一つの入力データへまとめあげる等の方法が必要となる。このためには、このまとめあげるデータを記憶し、管理するためのハードウエアと処理が必要となる。あるいは上で述べたような時間に依存する情報を記億するための、特別なコンテキスト素子が必要となる。さらに、このコンテキストを管理するノ、一ドウエアと処理も必要である。

それに対し、本発明の N Nによれば、コンテキスト情報等は各々の素子の内部の積.分値として記億されるため、 N Nに特別な構造を設定する必要がない。従つて、入力データも、それぞれのタイミングのデータをそれぞれのタイミングで入力する、という最も単純な入力方法で十分であり、時間情報を処理するための特別なハードウエアや処理は全く必要としない。

次に、本発明のノードおよびそのノードによって構成される N Nの実際の動作について説明する。ノードの内部状態値を X、出力値を Yとし、 Xと Yの時間変化において、現在の内部状態値を X c u r r、更新された内部状態値を X n e X t、またその更新動作時にノードに入力される入力値を Z i ( iは 0から nであり、 nはそのノードへの火力数）とする。内部状態値更新手段の動作を形式的に関数 Gと表すと、更新された内部状態値 Xn e x tは、

X n e x t = G (X c u r r、 Z 0、 · · '、 Z i、 · · ·、 Z n〕（ 1 ) と表現できる。式（ 1 ) の具体的な形は様々のものが考えられるが、例えば 1階の微分方程式を用いた次の式（2) のようなものも可能である。

ここでて iはある時定数である。

ここで、入力値 z jをもう少し詳細に定義すると、 ①ある結合重みを乗算されたそのノード自身の出力、 ②ある結合重みを乗算された他のノードの出力、 ③等価的に内部状態更新手段へバィァスを与えるための結合重みを剰算された固定出力値、 ④そのノードに NNの外部から入力される外部入力、等が考えられる。そこで、このような入力値 Z j に対する i番目のノ一ドの内部状態値の更新を考える。内部状態値を X i、任意のノードの出力を Y j、 j番目のノードの出力を i 番目のノードの入力へ結合する結合強度を W i j、バイアス値を 0 i、 i番目のノードへの外部入力値を D i とすると、式（2) はより具体的に次の様に書ける。 Wij Yj + θί + Di 〔 s )

このようにして決定されたある瞬間のノードの内部状態をとし、出力値生成手段の動作を形式的に関数 Fで表すと、ノードの出力 Yは、

Y = P 〔X〕（4) と表現できる。 Fの具体的な形としては以下の式（5) で示されるような正負对称出力のシグモイド〔口ジスティック）関数等が考えられる。

^{Yi =} TTexpTxT) " ¹ (⁵⁾ しかし、この関数型は必須のものではなく、その他にもより単純な線形変換や. あるいはしきい値関数等も考えられる。このような式に従い本発明における NNの出力 Yの時系列は計算される。

図 4ほ、本発明のノードにより構成された ΝΝを使用した音声認識装置の 1例を示すものである。図中 40 1は音声特徵抽出手段を、 402は本発明のノードによって構成された ΝΝを、 403は認識結果の出力手段を示す。音声特徴抽出手段により抽出された出力が 2つのノードに入力されている。それから、この Ν Νは任意のノ一ドが他の全てのノードと結合している全結合型の Ν Νとなっている。そして、 ΝΝからは 2つの出力が認識結果出力手段に出力されている。本発明の ΝΝでは、出力数ぼ任意に設定することができる。よって、単語認識の場合などは、肯定出力、否定出力の 2つの出力を設けて、これらの出力から総合的に認識結果を判断して、認識精度を高めることができる。もちろん ΝΝへの入力数および出力数は図 4の様に 2つに限るものではなく、幾つでも良い。

図 5〜図 9に、本発明のノードにより構成された Ν Νの他の構成例を示す。まず始めは、図 4の ΝΝ402の構成のみをかえた例を図 5に示す。ここでは ΝΝ402が、入力層 501、隠れ層 502、出力層 5ひ 3から構成される。この搆成は、従来技術の ML Ρ法と見かけ上周一に見える。しかし、本発明のノードにより搆成された NNは、従来技術のような先ず入力層の値が決定され、その後にその値を入力とする隠れ層の値が決定され、 ¾下同様に出力層に至るまでの各層の値が逐次的に決定されていくといった、フィードフォヮ一ド型ネヅトヮークではない。

本発明のノードを用い feNNは、ノード自身が内部状態値を保持できるため従来技術のようなコンテキスト層を必要とせずに時系列データを認識し、コンテキスト層を有する従来技術と同等の結果を得る事ができる。また、全ての層の出力が同時に決定されるため従来技術の MLI法よりも、より効率の良い並列処理が可能である。

さらに、本発明のノードを用いた NNは、高い耐雜音性も有する。図 1 0の a) は従来の単純な ML P法におけるノ一ドの入力と出力の対応を示すものである。図より明らかなように、方形波的な入力にスパイク的なノィズが重畳した信号が入力として与えられると、ほぼそのままの波形が出力に現れるのが判る。このように ML P法のノードは、その入力を単純に出力に反映するためノィズの影饗をそのまま受けてしまう。

しかし、本発明のノードは内部状態値として時間的な履歴を記億しており、その内部状態値と入力との関数として次の内部状態値、そして出力値が決まる。従つて a〕と同様のスパイク的なノイズが入力に重畳しても、図 1 0 b ) に示すようにスパイク的な波形はなまらされてその影響は小さくなり、良好な耐ノィズ性が得ることができる。

このような耐雑音性はコンテキスト層を持つ従来技術においても多少は得る事ができるが、 N Nを構成するノードの一部について、その履歴情報を特別な構成を持った外部ノードへ保存しなければならず、全てのノードが自分自身の履歴情報を内部状態値として保持する本発明におけるノードを用いた場合と比較してその耐ノイズ性は劣る。

次の例は、図 5の N Nの構成をより多層にして、砂時計型ネットワークを構成した例で、図 6に示す。図中 6 0 1は特徴抽出（または情報圧縮）ネットワークを、 6 0 2は伝達ネットワークを、 6 0 3は認識（または情報伸長）ネットヮークを示す。図 6の N Nの構成も、一見従来の M L P法と同様である。しかし、その動作は前述した通り全く異なる。このような構成をとることにより、本発明の効果を損なわずに時系列的な効果を取り込んだ特徵抽出（または情報圧縮） N N , 及び時系列的な効果を取り込んだ認識ネットワーク〔または情報伸長）ネットヮーク等の機能をモジュール化した音声認識方法の構成も可能である。

その次は、図 6の伝達ネットワーク 6 0 2を、図 7に示す情報送信機能 7 0 2 と情報受信機能 7 0 3に分割した例である。 7 0 2 と 7 0 3の間の波線は、これらが空間的 · 時間的に離れていても良い事を示す。この波線が伝送線などの空間的な距離を示すとすると、図 7は音声圧縮伝送装置を示し、この波線が時間的な距離を示すとすると、図 7は例えば音声圧縮記録装置を示す。もちろんここで圧縮される対象は音声に限られるものではなく、より一般的な情報であってもかまわない。また認識処理は広い意味での情報圧縮処理である事は言うまでもない。図 7においても今まで述べてきた本発明の効果は損なわれる事はない。例えば図 1 0で説明した対ノイズ性により、伝送線上での伝送誤りや雑音の混入、あるいは記録媒体の欠陥や劣化等に対しても良好な耐性を示すものである。次は、図 4の構成を簡単にしたものである。図 8の N Nは、自己回帰ループを持つことにより、より広い時間的変動範囲の現象を取り扱うことができる。つまり、入力値 Zのなかの自己回帰ループの部分の結合の強さを Wとすると、この自己回帰ループを考えることは近似的に系の時定数てを以下の式に置き換えたことに相当する。

て ÷ ( 1一 W) ( 6 ) この Wは以降に述べる学習により修正される値であるので、学習データに合わせて系の応答の時間スケールを最適化することができる。従来のコンテキスト層を用いた方法ではこのようなことを学習により自己組被的に行う事はできず、人間が時間スケールに合わせたネヅトワークの設定を行うことが必要となる。

図 1 1はこの効果を概念的に示した図である。いま図 1 1の a ) に示したような方形波の連続入力があつたとすると、この方形波の周期よりも系の応答時定数が大いと系の応答は a〕の出力のように前の出力に次の出力が加算されていき、正しい認識結果を得る事はできない。

—方図 8のように自己回帰ループのある系では、系の時定数は学習により最適化されるので、その応答は例えば図 1 1の b ) のように修正される事が可能であり、良い認識率を得る事ができる。

このような系の時定数の学習機能と適当な学習方法を組み合わせる事により、図 6、図 7のシステムの対雑音性等をさらに高める事ができる。

そして最後の N Nの構成例として、図 8の N Nをランダム結合 N Nとした例を図 9に示す。ランダム結合 N N 9 0 2は、入力ネットワーク 9 0 4と出力ネットワーク 9 0 5の 2つのサブネヅトワークからなる。本例では、入カネヅトワークを全結合型のサブネットワークし、出カネ、ソトワークをランダム結合型のサブネヅトワークとして、 2つのサブネットワークを 1方向的に接続する構成とした。このような構成により、先に述べてきたような効果に加えて、全結合型 N Nによる連想能力を用いて入力の欠陥を補う、あるいは対雑音性をあげる等の機能、さらに一方向の結合を用いて情報の流れをヒユーリスティヅクに処理し、情報の圧縮、伸長等を行う等機能を、全体の構成の設計として最適に行う事ができる等の効果が得られる。以上が、図 4に示した N Nの別の構成例であるが、次に音声認識装置そのものの他の構成例を見ていく。

図 1 2は、図 4の音声認識装置に内部状態初期値設定手段 1 2 0 4を追加したもので.他は図 4と同一である。式（ 2 ) で示したように、本発明の N Nの動作は 1階の微分方程式で記述される。従って、その動作を決定するにあたっては、初期値が必要となる。内部状態初期値設定手段は、 N Nが動作をするために、予め決められた初期値を全てのノードに与えるものである。図 1 3に基づいて、本音声認識装置の動作手順を説明すると、

1 . 内部状態初期値設定手段により、全てのノードに適当に選択された初期内部状態値 Xをセットし、それに対応する出力 Yをセットする。

2 . 処理が終了であれば終わる。

3 . 全てのノード各々において入力値 Zの和を求める。入力値 Zは前に説明した通りであり、音声特徴抽出手段によって抽出された音声特徴量は、外部入力値としてこの部として計算される。

4 . 全てのノードそれぞれについて、 3で求めた Zの和と内部状態値 Xそのものの値により Xの値が更新される。

5 . 更新された Xの値により出力値 Yが計算される。

6 . 処理 2へ戻る。

という手順になる。認識結果は出力に割り当てられたノードの出力として認識結果出力手段に与えられる。

以上が、本発明のノードを使用した N Nによる音声認識装置の基本的な動作原理およびその構成であるが、この様な N Nに所望の処理をさせるには N Nを学習させることが必要となる。そこで、次に N Nの学習方法について説明する。

図 1 4が、本発明の音声認識装置の学習方法を示す構成図である。図中 1 4 1 0は、 N N 1 4 0 2を学習させるための学習部を示す。 1 4 1 1は所定の学習用入力データが記億された入力データ記憶手段、 1 4 1 3は各学習用入力データに対応する模範となる出力データが記億された出力データ記億手段、 1 4 1 2は入力データ記億手段から学習させたい入力データを選択する入力データ選択手段、同様に 1 4 1 4は出力データを選択する出力データ選択手段、そして、 1 4 1 5 は N Nの学習を制御する学習制御手段を示す。

次に、この学習部による音声認識装置の学習方法について図 13、図 14を参照しながら説明する。まず、全てのノードに予め設定された初期状態値 Xをセットする。次に、学習させたい学習用入力データが入力データ選択手段により選択される。選択された入力データは学習制御手段に送られる。この時、選択した学習用入力データに対応する学習用出力データが出力データ選択手段により選択される。選択された出力データも同様に学習用制御手段に送られる。選択された学習用入力データぼ音声特徴抽出手段 1401に入力され、ここで特徵抽出された特徵べク卜ルが N Nへ外部入力として入力される。全てのノードについ " それぞれ入力 Zの和を求め、式 C2) に従って内部状態値 Xを更新する。そして、更新された Xにより出力 Yを求める。

初期段階では、 NNの各ュニット間の結合強度にはランダムな値が与えられている。したがって、 NNから出力される出力値 Yはでたらめな値である。

以上の内容を、入力データ時系列の終わりまで繰り返す。このようにして得られた、出力 Yの時系列に対して、次の式（7 ) で示される式により学習評価値 C を求める。 Ej 〔₇〕

ここで、 Cばある学習評価値であり、 Eはある誤差評価値である。式〔7) に従い、 Cの時系列は図 15に示すような処理により計算される。

この処理の具体的な例として、選択した学習用入力データに対応する学習用出力データを Tとし、学習用入力データに対応する出力値を Yとして、例えば誤差評価関数として、次の式〔8〕で示される kullback-leibler距離を用いると Eは.

E (Yi,Ti ) = Ti logg +(1 - ^logl^- C8) と書ける。 kuliback-Ieibler距離を用いると、種々の要因により学習が高速になるという利点がある。また、式（8) と実質的に同一であるが、出力値生成手段が対称出力である場合は、式〔8〕は次の式（9〕のように表される。

そうして、これらを用いる事により、式〔7) のより具体的な例として次の式 ( 1 0) が得られる。 Wji Cj (1 -Yf ) + (Yi-Ti) ci o)

以上を与える事により、結合強度 Wの修正則は、次の式（ 1 1 ) で与えられる,

ここで、 aは小さな正の定数である。これに従い、出力が目的とする値になるように各ュニット間の結合の強さを変更する。認識させたい音声データを繰り返し入力し、少しずつ各ユニット間の結合の強さを変更することにより、ネットヮ一クから正しい値が出力されるようになる。出力が収束するまでの繰り返し回数は、数千回程度である。

この学習則は、例示した全結合型のニューラルネットワークのみではなく、層状結合等を特殊例として含む、より一般的なランダム結合ニューラルネットヮークにも適用可能であるのは明かである。

次に、 2つの学習用入力データを続けて入力し、学習させる方法について、 N Nが肯定出力と否定出力の 2つの出力を有する場合を例にして説明する。

入力データを 1つずつ用いた学習では、一度ハイレベルになつた肯定出力は口一レベルに下げることがでない。 ί¾に、一度口一レベルになった否定出力はハイレベルに上げることができない。つまり、入力データを 1つずつ用いた学習では. 図 16 (a) に示すような、認識させたい入力データ（以下、「肯定データ」という〕を与えて肯定出力をハイレベルに上昇させる学習（否定出力はローレベルのまま）、または図 1 6 C b ) に示すような、認識させたくないデータ下、「否定データ」という）を与えて否定出力をハイレベルに上昇させる学習〔肯定出力はローレベルのまま）が行われる。しかしながら、この学習では、肯定出力、否定出.力ともに一度ハイレベルに上昇した出力値が下降することがない。

したがって、肯定データと否定データが混在した複数の音声データが連続して与えられた場合、肯定データの出力で一度ハイレベルに上がった肯定出力は、その後に否定データの入力があってもローレベルに下がることはない。これは否定出力についても同様である。

そこで、本実施例では、図 1 7 C a ) 〜（ d ) に示すような、 2つの音声デ一タを連続して与えて、出力の上昇と下降の両方の学習する方法を用いた。図 1 7 C a ) では否定データと肯定データを連続して入力し、肯定出力の上昇、否定出力の上昇と下降を学ばせる。図 1 7 〔b〕では、肯定データと否定データを連続して入力し、肯定出力の上昇と下降、否定出力の上昇を学ばせる。図 1 7 ( C ) では、否定データを 2つ連銃して入力し、図 1 7 C a ) の学習で否定データの次は肯定データであると言った誤つた認識を N Nに持たせないようにする。同様に、図 1 7 〔d〕では、肯定データを 2つ連続して入力し、図 1 7 〔b ) の学習で、肯定データの次は否定データであると言った誤つた認識を N Nに持たせないようにする。

換言すればこのことは、 N Nの動作の初期値依存性の問題である。つまり、入力データを一つのみ用いた学習ではその学習が特定の初期値のみから開始されるため、. その初期値においてのみ期待される能力を示すような学習結果しか得られない。これをより一般的な場合に適応できるようにするためには、様々な初期値に対しても正確な反応が起こるように学習させなくてはならない。しかし、このような様々な初期値としては全ての例を与える必要はない。実際の認識時においては、その認識対象についての種々の制約により可能な初期値の組み合わせは限られたものとなる。学習に 2個以上のデータの連鎖を用いることは、このような可能な初期値の組み合わせを近似的に与えるものであり、この目的のためには 2 個のデータの連銃のみにおいても十分によい結果が得られる。もちろん 3個以上の連銃データを用いてもよい。図 1 8は、この 2つの連続入力を N Nへ学習させるための音声認識装置の構成図である。ここでは、図 1 4で説明した入力データ記憶手段が、肯定データ、否定データという 2つの鮪《Iから構成されている。図中 1 8 0 1は様々な条件で収集され.た認識すべき単語のデータ群である肯定データ記億手段を、 1 8 0 2はもう一つの範疇である認識すべき単語^外の例としての否定データ記億手段を、 1 8 0 3、 1 8 0 4はそれぞれの範疇についての学習用出力データを記億する出力データ記億手段である。ここでは、各範畴に 3個のデータがあるとする。 1 8 0 5は入力データ選択手段を、 1 8 0 6は出力データ選択手段を、 1 8 0 7は入力データ連結手段を、 1 8 0 8は出力データ連結手段を、 1 8 0 9は学習制御手段を、 1 8 1 0は N Nをそれぞれ示す。

入力データ選択手段により、肯定データ記億手段、否定データ記億手段から学習用の入力データが 2つ選択される。その組み合わせについては、図 1 7で説明した通りである。選択された 2つの入力データは入力データ連結手段で 1つの連統データとなる。そして、この連続データは音声特徴抽出手段で特徴抽出され N Nへ入力される。 N N内では、図 1 3の処理に従い出力値が時系列的に計算される。 N Nの出力は学習制御手段に送られ、予め選択されている学習用出力データとの誤差が計算され、各ノードの結合の重みが修正されることにより、 N Nが学習を重ねる。図 1 8では、 N Nの出力を肯定出力ノードと否定出力ノードの 2個とし、 1 8 0 3、 1 8 0 4中の実線が肯定データに対応する肯定出力ノードの学習用出力、破線が否定データに対応する否定出力ノードの学習用出力とした。そこで、この様な特徵を有するノードにより構成された N Nからなる音声認識装置の認識結果を、図 1 8で説明した学習方法により学習させた場合を例に次に示す。実際には、音声特徴抽出手段の出力として 2 0次の L P Cケブストラムを仮定し、入力を 2 0、出力を 2、その他を 1 0として合計 3 2個のノードにより N Nを構成した。

まず学習であるが、認識させたい単語〔肯定データ）としては「とりあえず」を、それ以外の参照用単語（否定データ）としては、「終点」、「腕前」、「拒絶」、「超越」、「分類」、「ロッカー」、「山脈」、「隠れピューリタン」の 8単語を与えた。 N Nの出力としては、上の肯定データに対応する肯定出力と、否定データに対応する否定出力の二つを考えた。学習用出力としては、図 17で説明した 4つの場合を想定した。この学習用出力の曲線部分は、そのデータの時間的な中点に原点を持ち、かつそのデータの始端を一 10、終端を 1 0に対応させた式〔5〕のシグモイド関数を 0〜0. 9の範囲に変形したもの、あるいはそれを反転したものを用いた。また、学習用の話者は（株） ATR自動翻訳電話研究所の研究用日本語音声データベースの中の MAUと FS Uで行った。

入力と出力の対応については、 1フレーム分の入力〔こ場合は 20次 LP C ケプトラム）を入力し、一組の肯定出力、否定出力を得るものとした。従って、従来のように複数フレームのデータを入力するような必要はない。

また、従来例の ML P法の変形である「フィート'パック結合を持つ B Pモデル型 NNでは、学習を収束させるのが困難であり、その学習用出力を試行錯誤的に作成しなければならないという問題点があったが、本発明の音声認識方法の N N は、以上の方法で学習させることにより、数 100〜数 1 000回の学習で所望の出力を生成するようになった。また、学習用出力も試行錯誤的な部分は全く無く一義的に決めることができる。

図 25は、このような学習をさせた NNに、学習に用いなか-つた未知の単語を含むデータを与え、その能力を検証した結果である。単語の種類の合計は 216 単語であり、そのうちの 9単語は学習に用いたものである。これらの 21 6単語から様々な組み合わせの 2単語連鎖のデータを作成し、検証に用いた。検証の際の単語の出現総数は話者あたり 1290単語である。認識結果の判定は、肯定出力と否定出力の組み合わせによる判定とし、肯定出力が 0. 75以上かつ否定出力が 0. 25¾下であれば検出、肯定出力が 0. 25以下かつ否定出力が 0. 7 5 ¾上であれば非検出、それ以外は困惑状態であるとした。この判定条件において、検出すべき単語が無い位置で検出出力が得られた場合を挿入誤り、検出すベき単語が有る位置において非検出出力が得られた場合を欠落誤りとした。

また、下の図 26は図 25と同じ実験を学習に用いた話者以外の未知話者 9人に対して行ったものである。

図 25、図 26より明かであるように、本発明の音声認識方法によれば、僅かのデータを学習させるだけで非常に良い認識率を得る事ができる。図 1 9は、連続した 3個以上の単語の中から認識対象とする単語を検出した例である。図中実線は肯定出力を、破線は否定出力を示す。図より明かなように、従来例のように始端、終端を与える事無く単語「とりあえず」を認識していることが判る。

さらに、図 2 0は、未知単語中から認識対象単「とりあえず」を認識した例である。図 1 9 と同様に、実線は肯定出力を、'破線は否定出力を示している。このように、本発明の認識方法は、十分な汎化能力を持っている *が分かる。

これらを従来例と比較すると、図 1 9で与えたデータの長さは合計 1 0 4 9個であるので、従来的な始端、終端を与えて認識させる場合は単純に言って 1 0 4 9の自剰個のオーダーの組み合わせを調べる必要がある。しかし、本発明は 1 0 4 9個のデータをそれぞれ 1 回ずつ入力として与えるのみで良いので、従来の処理方法と比較して、数百分の 1の時間で処理できる。また、データをそれぞれ 1 回だけ入力すれば良いため、従来のように始端、終端となり得る範囲のデータを記億しておく必要がなく、データメモリーも小量しか必要なく、その計算量も少なくなる。

また、出力は従来例の D P法、 H M M法のように単調増加、あるいは単調減少するのではなく、必要な所でピーク値を持っため、出力値を入力データの長さに対して正規化する必要もない。つまり、出力は常にある範囲（この例の場合は一 1から 1の間）にあり、かつその値の持つ重みは認識区間のどこでも同じである _t この事は処理すべき値のダイナミヅクレンジが狭い事を意味し、処理時に浮動小数点データや対数データを用いなくとも、整数型のデータで十分な性能を出せることを意味している。

それから、肯定出力と否定出力の 2つの出力の総合的な判断により認識をしているため、例えば、図 2 0の「購入」のところで肯定出力が立ち上がりかけても, 否定出力が下がらないために誤認識をするようなこともなく、音声認識処理の精度を向上させることができる。もちろん、出力数は 2に限るものではなく、必要に応じて幾つ設けてもよい。例えば、現在入力されているデータが学習に用いられたデータとどの程度類似しているかというような出力を加えることにより、さらに認識結果の精度を高めることができる。さらに、それらを複数個用いることにより、最適な結果を与える N Nを選択することができる。

また、認識対象の単位も例示したような単語のみではなく音節あるいは音素とすることもできる。この場合には、比較的少数の N Nによりその言語音声の全体を認識することが可能となる。それにより、例えばディクテーシヨンシステムが可能となる。さらに、認識単位としては、上のような言語との対応を考えない抽象的なものであってもよい。このような認識単位を用いることは特に認識装置を情報圧縮に用いる場合に有効である。

図 2 1は、本発明の別の実施例を示すもので、図 1 2に示した音声認識装置に対して、背景雑音入力手段 2 1 0 5および平衡状態検出手段 2 1 0 6が付加されたものである。他は、図 1 2 と同様である。

図 2 1の構成において、どのように内部状態初期値を決定するかの処理の流れを図 2 2に示す。図中の背景雑音データの作成に関わる部分は、適当な初期値設定手段、適当な定常入力作成手段、あるいは無入力に対応するものとして無くても良い。図 2 7は、この装置を図 1 8に示した学習方法で学習させて認識した結果を表したもので、実施例 1の表 1 と表 2に対応する結果をまとめたものである。これは、約 3秒の背景雑音入力により平衡状態になった N Nの内部状態値を初期値として保存し、認識処理の際にはその値を式（2〕の微分方程式の初期値として用いたものである。

図 2 7から明かなように、本実施例の多くの場合で単語の欠落誤りが実施例 1 の桔果に比較して改善されている。

実際のより高機能な音声認識装置においては、単純な音声認識機能に加えて、 - 言語的な処理を用いる事が多い。この際、挿入的な誤りはそのような言語的な制約により訂正削除する事が比較的容易に可能であるが、欠落的な誤りをそのような言語的な制約で推論追加する事は困難である。従って、本実施例に示したような欠落誤り率の改善は、より高性能な音声認識装置を実現するために重要な事柄である。

図 2 3は、図 1 4の学習都に雑音データ記億手段と雑音データ重畳手段が付加された例である。基本的な学習方法については、図 1 4に説明した通りである。実施例の特徵は、予め雑音成分を重畳したデータを学習用データとして用いる点にある。学習用データの認識処理は、学習用データに含まれている雑音成分を除去したデータについて認識が行われるように、 N Nの各ュニット間の重みが学習用制御手段によって調整される。つまり、 N Nは学習用データに含まれる雑音成分を明確に識別できるように学習させられる。

では、どの様に学習用データへ雑音成分を重畳するかであるが、学習データへの雑音成分の重畳は、図 2 4に示すように複数箇所で行われる。図中 2 4 0 1は学習用データを、 2 4 0 2、 2 4 0 3は雑音成分を示す。図 2 4 ( b ) は、図 2 4 ( a〕の学習用データの前段部分に雑音成分 2 4 0 2を重畳した例で、図 2 4 C c ) は、学習用データの後段部分に雑音成分 2 4 0 3を重畳させた例である。このように、学習用データの複数の箇所に雑音成分を重畳させた重畳データを用いて、かつ学習用データに重畳された雑音成分を除去したデータを認識するように学習させることにより、 N Nは雑音成分だけを明確に識別できるようになる。これによつて、 N Nは非定常雑音が重畳された音声データの雑音部分を正しく認識できるようになる。産業上の利用可能性

以上のように、本発明の音声認識装置及び学習方法は、連続音声認識のみならず孤立音声認識に関しても非常に有効である。

また、本発明は音声認識に限らず、広く時系列情報の処理においても有効であり、入力データと出力データの対応が取れるものであれば、どの様な時系列情報の処理も可能である。利用可能性としては、情報の圧縮、伸長、波形等価、等が考えられる。

Claims

請求の範囲

1 . ニューラルネットワークを用いた音声認識装置において、

前記ニューラルネットワークを構成する各神経細胞様素子が、内部状態値記億手段と、前記内部状態値記億手段に記億された内部状態値とその神経細胞様素子に入力される入力値とに基づいて内部状態値を更新する内部状態値更新手段と、前記内部状態値記億手段の出力を外部出力値へ変換する出力値生成手段とを有することを特徴とするニューラルネットワークを用いた音声認識装置。

2 . 前記内部状態値更新手段は前記入力値および前記内部状態値に重みを付け積算する重み付き積算手段からなり、前記内部状態値記億手段は前記重み付き積算手段により積算された値を積分する積分手段からなり、前記出力値生成手段は前記積分手段により得られた値を予め設定された上限値と下限値の間の値へ変換する出力値制限手段とからなることを特徵とする請求 1記載のニューラルネットヮ —クを用いた音声認識装置。

3 . 前記ニューラルネットワークを構成する i番目の前記神経細胞様素子の内部状態値を X i とし、て iを時定数とし、前記神経細胞様素子への前記重み付き入力値を Z j 〔 - はから！！、 nは 0または自然数）とすると、前記内部状態値更新手段が、

を満足する値へ内部状態値を更新する事を特徵とする請求の範囲 1 または請求の範囲 2に記載のニューラルネヅトワークを用いた音声認識装置。

4 . 前記 i番目の神経細胞様素子への重み付き入力値 Z jが、前記 i番目の神経細胞様素子自身の出力に重みを剰算した値を含む事を特徵とする請求の範囲 1ないし請求の範囲 3に記載のニューラルネットワークを用いた音声認識装置。

5 . 前記 i番目の神経細胞様素子への重み付き入力値 Z jが、前記ニューラルネットワークを構成する他の神経細胞様素子の出力に重みを剰算した値を含む事を特徵とする請求の範囲 1ないし請求の範囲 4に記載のニューラルネットワークを用いた音声認識装置。

6 . 前記 i番目の神経細胞様素子への重み付き入力値 Z j が、前記ニューラルネットワークの外都から与えられたデータを含む事を特徴とする請求の範囲 1ないし請求.の範囲 5に記載のニューラルネットワークを用'いた音声認識装置。

7 . 前記 i番目の神経細胞様素子への重み付き入力値 Z j が、ある固定された値に重みを剰算した値を含む事を特徴とする請求の範囲 1ないし請求の範囲 βに記載のニューラルネットワークを用いた音声認識装置。

8 . 前記出力値生成手段が、正負対称出力範囲を有する事を特徴とする請求の範囲 1ないし請求の範囲 7に記載のニューラルネツトワークを用いた音声認識装置。

9 . 前記ニューラルネットワークが少なくとも肯定出力、否定出力の 2つの出力を持つことを特徴とする請求の範囲 1ないし請求の範囲 8に記載のニューラルネットワークを用いた音声認識装置。

1 0 . 前記音声認識装置は、認識させたい入力の特徴抽出を行うと共に特徴抽出した値を前記ニューラルネットワークへ入力する音声特徴抽出手段と、前記ニュ一ラルネットワークの出力値を認識結果に変換する認識結果出力手段と、前記二ユーラルネットワークを構成する神経細胞様素子の内部状態値記億手段に予め設定された初期値を与える内部状態値初期化手段とを有することを特徵とする請求の範囲 1〜請求の範囲 9記載のニューラルネットワークを用いた音声認識装置。

1 1 . 請求の範囲 1 0記載の音声認識装置において、前記ニューラルネットヮ一クに背景雑音を入力する背景雑音入力手段と、前記ニューラルネットワークの出力から平衡状態を検出すると共に、前記平衡状態の検出に基づき内部状態初期値設定手段に予め設定された内部状態初期値を変更する信号を出力する平衡状態検出手段とを設けたことを特徴とするニューラルネットワークを用いた音声認識装置。

1 2 . 請求の範囲 1 0または請求の範囲 1 1記載の音声認識装置において、前記音声認識装置は、前記ニューラルネットワークを学習させるための学習部を有し、前記学習部は学習用入力データを記億する入力データ記億手段と、前記入力データ記億手段から学習用入力データを選択する入力データ選択手段と、学習用出力デーダを記億する出力データ記憶手段と、選択された入力データとその連鎖により学習用出力データを選択する出力データ選択手段と、選択された学習用入力データを前記特徴抽出部に入力すると共に前記ニューラルネ、ソトワークの学習を制御する学習制御手段とを有し、前記学習制御手段は前記ニューラルネットワークの出力と前記出力データ選択手段の出力とに基づき前記神経細胞様素子の結合の重み付けを変更することを特徵とするニューラルネットワークを用いた音声認識装置の学習方法。

1 3 . 請求の範囲 1 2記載の音声認識装置の学習方法において、前記入力データ記億手段は複数個の範躊を有し、前記出力データ記億手段は前記入力データ記億手段の各範嗪に対応する範嗪を有し、前記入力データ選択手段は前記入力データ記億手段の範嗪から学習させたい複数個のデータを選択し、前記出力データ選択手段は前記入力データ選択手段により選択された学習用入力データに対応する学習用出力データを選択し、前記学習制御部は前記入力データ選択手段が選択した複数個のデータを 1つに連結する入力データ連結手段と前記出力データ選択手段が選択した学習用出力データを 1つに連結する出力データ連結手段とを有し、前記学習部は前記連結した 1つの学習用入力データを音声特徴抽出手段に入力すると共に、前記ニューラルネットワークの出力と前記出力連結手段の出力とに基づき前記神経細胞様素子の結合の重み付けを変更することを特徴とするニューラルネットワークを用いた音声認識装置の学習方法。

1 . 前記範縛の数が 2であることを特徵とする請求の範囲 1 3記載の二ユーラルネットワークを用いた音声認識装置の学習方法。

1 5-. 請求の範囲 1 2ないし請求項 1 4に記載のニューラルネットワークを使用レた音声認識装置の学習方法において、前記学習部は雑音データを記億する雑音データ記億手段と、前記選択された学習.データに前記雑音データ記憶手段から選択された雑音を重畳する雑音重畳手段とを有し、前記雑音重畳手段により雑音が重畳された入力データを用いて前記ニューラルネットワークを学習させることを特徵とするニューラルネットワークを用いた音声認識装置の学習方法。

1 6 . 前記背景雑音を重畳させる位置をずらして繰り返し学習させることを特徴とする請求の範囲 1 5に記載のニューラルネットワークを用いた音声認識装置の学'習方法。

1 7 . 請求の範囲 1 5 に記載のニューラルネットワークの学習方法において、はじめに背景雑音が重畳されていない入力データで学習させた後に、同じ入力データに背景雑音を重畳して学習させることを特徴とするニューラルネットワークを用いた音声認識装置の学習方法。

補正された請求の範囲

[1 9 93年 7月 9曰（0 9 . 0 7. 93 ) 国^^務^ M；出願当初の請求の範囲 3は ¾IEされた；請求の範囲 1、 2、 4及び 5は変無し。（ΐ頁）

前記ニューラルネットワークを構成する各神経細胞様素子が、内部状態値記億手段と、前記内部状態値記 ¾手段に記懔された内部状態値とその神経細胞様素子に入力される入力値とに基づいて内部状態値を更新する内部状態値更新手段と、前記内部状態値記懷手段の出力を外部出力値へ変換する出力値生成手段とを有することを特徵とするニューラルネットワークを用いた音声認識装置。

2 . 前記内部状態値更新手段は前記入力値および前記内部状態値に重みを付け積算する重み付き積算手段からなり、前記内部状態値記億手段は前記重み付き積算手段により »算された値を稜分する積分手段からなり、前記出力値生成手段は前 IE (積分手段により得られた値を予め設定された上限値と下限値の間の値へ変換する出力値制限手段とからなることを特徴とする請求 1記載のニューラルネットヮークを用いた音声認雜装置。

3 . (捕正後）前記ニューラルネットワークを構成する i番目の前記神経細胞様素子の内都状態値を X i とし、て iを時定数とし、前記神経細胞様素子への前記重み付き入力値を Z j 〔jは 0から n、 nは 0または自然数）とすると、前記内部状態値更新手段が、

を満足する値へ内部状態値を更新する事を特徵とする請求の範囲 1または請求の範囲 2に記載のニューラルネットワークを用いた音声認識装置。

4 . 前記 i番目の神柽細胞様素子への重み付き入力値 Z j が、前記 i番目の神経钿胞様素子自身の出力に重みを剰算した値を含む事を特徵とする請求の範囲 1ないし請求の範囲 3に記載のニューラルネットワークを用いた音声認識装置。

5 . 前記 i番目の神経細胞様素子への重み付き入力値 Z j が、前記ニューラルネ V小ワークを搆成する他の神経細胞様素子の出力に重みを剰算した値を含む事を特徴とする請求の範囲 1ないし請求の範囲 4に記載のニューラルネットワークを第 1 9条に基づく説明書請求の範囲の補正は、誤記の訂正のためである。

請求の範囲第 3項、数式中の Y j を Z j に補正した。この数式は、内部状態値 X j と重み付き入力値 Z j との関係を示したものであるが、出願時の明細書ではこの Z j が Y j となっていたため補正したものである。

なお、同様の誤記が、明細書 3頁 1 9行目の数式、および明細書第 9頁 5行目の式（2 ) にもある。これらに付いては、別途補正の手続きをとり、同様の補正を行うものである。

以上