WO2000046788A1

WO2000046788A1 - Systeme de traitement de donnees

Info

Publication number: WO2000046788A1
Application number: PCT/JP1999/000493
Authority: WO
Inventors: Motohito Nakagawa; Hideo Maejima
Original assignee: Hitachi, Ltd.
Priority date: 1999-02-05
Filing date: 1999-02-05
Publication date: 2000-08-10
Also published as: AU2186599A; JP3796121B2

Description

明細データ処理システム技術分野

本発明は、混合ガウス分布を用いた連続分布型隠れマルコフモデル ( Continuous Mixture Hidden Markov Models： H M M ) を用いた音声認識技術、更にはそのための出力確率の演算技術に関し、例えば、音声認識のための演算処理を行うデータプロセッサを有し電池駆動される携帯情報端末装置に適用して有効な技術に関するものである。背景技術

隠れマルコフモデルは、マルコフ過程（時点 t + 1の状態が時点 nの状態によってのみ与えられる確率過程）で表現される状態遷移モデルである。この隠れマルコフモデルを音声認識技術に適用することができる c この音声認識技術の概要を解かりやすく説明する。認識対象音声を例えば 1 0 m sのうような部分区間（フレーム）に分割し、フレーム毎に周波数スぺクトルのような特徴べクトルを抽出する。このとき、認識すベき音の連鎖をフレーム毎の状態の連鎖とみなす。個々の状態に対して特徴べクトルに近似した音源を割当てられるように各状態を決定できれば、音声認識が実現されることになる。そのために、個々の状態が種々の音源に対して特徴べクトルに匹敵する尤度（もっともらしさ）を確率的に表す出力確率と、現在の状態が隣の状態に変化する確率を示す状態遷移確率とを採用し、前記状態毎の出力確率と状態遷移確率との積の各状態の総和が最も大きくなる状態の連鎖を以つて、音声認識結果とすることができる。前記特徴べクトル列から想定されるパターン毎に、フレ —ム単位で状態遷移確率と出力確率とを積算するための演算量は膨大である。特に、出力確率は混合多次元ガウス分布によって与えられる。混合多次元ガウス分布は、例えば、「あ」という音素に対して年齢、性別などの個々の要素毎の確率的な分布を有することになり、各々の確率的な分布は特徴ベクトルの次数に応ずる多次元ガウス分布から成り、夫々の多次元ガウス分布は 1次元のガウス分布を複合した確率分布とされる。したがって、混合多次元ガウス分布における混合数や次数が多いほど出力確率の演算に時間を要することになる。本発明者の試算に依れば、出力確率の計算負荷は音声認識処理全体の 5 0〜 8 0 %のように膨大になることがある。

この出力確率の演算を高速化するには、混合多次元ガウス分布に対して、計算する分布の範囲を削減することが有効である。例えば、特徴べクトルを幾つかの標準的なパターンに対応させ（べクトル量子化）、そのパターン毎に出力確率を定義する方法が可能である。この処理の場合、特徴空間を部分領域に分割して、その部分領域と計算する分布とを対応付けることになるが、このような特徴べクトルと部分領域との対応には、べクトル量子化を用いることができる。べクトル量子化とは、特徴空間上の有限個の代表べクトルを考え、特徴空間上の任意の点を、その点に最も近い代表べクトルで近似表現する方法である。このようなべクトル量子化には、効率的な方法が幾つか提案されているが、基本的に、距離が最小となる代表べクトルを選択するもので、混合分布を計算するのに比べて計算量は僅少ではあるが、それでも計算負荷が小さいとはいえない。

また、出力確率の演算の一部をテーブル化して演算速度を高速化することも可能である。この場合にも、そのテーブルをべクトル量子化によつて構成することができる。しかし、べクトル量子化して出力確率を対応させると、量子化誤差が大きくなり、認識性能が劣化する。

そこで、計算を各特徴次元における計算に分解して、各特徴次元を標準的なガウス分布のパターンに分割し、各々の計算結果をテーブル化することが考えられる。このような手法にスカラ量子化を採用する。スカラ量子化として、例えば、単一ガウス分布をテーブル化する手法がある。この場合、ベクトル量子化とは異なり、量子化誤差は僅少になる。

スカラ量子化として、非線形スカラ量子化を採用することができる。即ち、特徴べクトルの特徴次数は数十次元におよび、混合多次元ガウス分布の各次元毎に、全ての単一ガウス分布をテーブル化することは効率的でないから、データテーブルの種類を少なくしょうとするものである。混合ガウス分布のスカラ量子化において、各次元毎の関数は、単一の 1 次元正規分布（単一ガウス分布）であり、これを用いれば、出力確率の計算を簡略化することができる。特徴次数や混合毎に相異されるであろう 1次元正規分布の相関は、夫々の分布の平均と分散が分かれば規定できる。その相関を決めるために、特徴次数毎にパラメ一夕を演算し、演算したパラメ一夕と特徴べクトルの特徴成分とを用いて、代表的に設けられている 1次元正規分布の数値テーブルをアクセスする。このような非線形ス力ラ量子化を用いて数値テーブルをアクセスして、混合 H M M の演算量を減らそうとする技術については、例えば、 "ON THE USE OF SCALAR QUANTIZATION FOR FAST HMM COMPUTATION" , ICASSP 95， pp.213-216 がある。

しかしながら、その手法は、テーブルアクセスのために必ず各特徴成分毎のパラメ一夕演算を行わなければならず、また、テーブルの参照においても、そのように演算されたパラメ一夕を用いるアクセスは、テーブルに対して連続した配列のアクセスになるとは限らないので、テープルを参照するためのァドレス演算も毎回乗算と加算が必要になる。このような手間のかかるパラメ一夕演算を行わずに数値テーブルを参照できるようにするには、例えば、一般的な線形量子化を適用した線形スカラ量子化を行うようにすればよい。即ち、特徴を等間隔に量子化するようにする。例えば、量子化し易いように、単一ガウス分布のデー夕テーブルを 2の N乗個に分割すれば、特徴成分の上位 Nビットを抽出することによって、簡単に量子化することができる。線形スカラ量子化では、代表点は固定であるから、混合多次元ガウス分布に対して、線形スカラ量子化処理は、各フレーム毎に 1回行えばよい。換言すれば、特徴次元毎に 1回行なえばよい。また、代表点はそのままィンデックスに相当するから、数値テ一ブルにおける先頭ァドレスと所望ァドレスとの差（以下、オフセット）は、ィンデックス Xデータ長であり、これも全ての分布に共通であるから、そのような演算は 1 フレームにただ 1回実行すれば良い。そして、必要な数値テーブルへのアクセスは、各数値テ一ブルのァドレスと、全ての特徴成分に共通したオフセッ卜の和で計算できるから、結局、 1回の加算と、 2回のロード（先頭アドレスと数値データ）で実行される。

混合ガウス型 H M Mの出力確率の計算では、単一ガウス分布（含む対数系）に対する計算量の低減が重要になる。各特徴成分毎の単一ガウス分布の計算は、出力確率の計算において最も計算負荷の大きい部分であり、計算数は、全モデル数 X混合数 X特徴次元の数で表現されるため、些細な計算コス卜の増大が、全体の計算量の増大に直結する。この部分で、線形スカラ量子化は、テーブルのアクセス以外、全く計算が発生しないため、計算効率の観点からは非常に優れている。

しかしながら、線形スカラ量子化は、計算効率の観点から非常に高速であるが、固定された代表点に対して、各分布毎に数値テーブルが必要になる。従って、数値テーブルの数若しくはデータ量が膨大になるという大きな問題が有る。また、話者適応処理や雑音適応処理のために、混合ガウス分布のパラメ一夕（平均 '分散）を修正すると、それに伴う計算量も膨大になり、数値テーブルを修正するにも多大の処理が必要になる。

上述のように非線形スカラ量子化を採用した場合には数値テーブルの参照に多大の演算処理を要し、線型形スカラ量子化を採用した場合には数値テーブルの参照は効率化されるが膨犬な数値テーブルが必要になり、それ故に適応処理には多大な演算時間を要し、何れにおいても、携帯情報端末装置や、電池駆動されるデ一夕処理システムのように、演算処理能力が比較的低いデータ処理システム、更には低コス卜の要請が厳しいデータ処理システムでは、実用に耐えることができない。

本発明の目的は、 H M Mの出力確率を高速に計算できると共に、話者適応や環境適応等のモデルの修正に柔軟に対応できるデ一夕処理システム、そして混合ガウス H M M出力確率演算方法を提供することにある。本発明の別の目的は、携帯情報端末装置や、電池駆動されるデータ処理システムのように、演算処理能力が比較的低いデータ処理システム、更には低コストの要請が厳しいデータ処理システムであっても、出力確率演算の高速化と、適応による多次元ガウス分布の変更に対する処理の高速化とを実現できるデ一夕処理システムを提供することにある。

本発明の上記並びにその他の目的と新規な特徴は本明細書の以下の記述と添付図面から明らかにされるであろう。発明の開示

《中間テ一ブルによる可変マツピング》

混合ガウス H M Mでは、出力確率は、混合多次元ガウス分布（式 2 ) のような関数で与えられる。例えば、混合多次元ガウス分布は、多次元ガウス分布の和になり、多次元ガウス分布は特徴成分毎の 1次元ガウス分布の積になる。特徴成分は認識対象音声の観測系である特徴べクトルの成分である。特徴成分毎の 1次元ガウス分布の分散及び平均は特徴成分毎に固有である。種々の 1次元ガウス分布の数値をテ一プル化するとき、特徴成分毎に個々の 1次元ガウス分布の数値テーブルを用意することはしない。中間テーブル（ 3 0 1 , 4 0 1 ) を設ける。即ち、数値テ一ブル（ 1 0 5 2 ) には代表的な分散及び平均を持つ複数種類の 1次元ガウス分布を基にした夫々の分布の数値が格納されている。特徴成分に対しては線形スカラ量子化を採用し、その量子化値をィンデックスとして中間テ一ブル上の情報を参照する。中間テーブルを特徴成分毎に設ける場合、個々の中間テーブルは、所要の分散及び平均に応ずる 1次元ガウス分布に関する数値テーブル上の数値の所在を示すァドレス情報が格納されている。適応によって 1次元ガウス分布の分散や平均を変更する場合、当該変更された分散や平均に応ずる 1次元ガウス分布の数値デ一夕の所在に従って中間テーブルの内容を書き換える。

各特徴成分に共通のグローバルテーブル（ 4 0 0 ) を形成し、このグ口一バルテ一ブルから中間テーブルを抽出して用いるようにすることも可能である。グローバルテーブルは、第 1 7図に例示されるように、 X— Y方向にマトリクス状に記憶領域を有し、個々の X方向の配列は数値テ一プル上の対応する 1次元ガウス分布の数値の所在を示すァドレス情報の配列とされ、夫々の X方向の配列に関する 1次元ガウス分布の分散は相互に相異され、その平均は、例えば分布の中央に統一されている。グローバルテーブルに対する γ方法の選択には 1次元ガウス分布の分散の値を考慮し、 X方向の先頭位置の選択には 1次元ガウス分布の平均の値を考慮する。平均が大きいほど X方向の先頭位置を X方向寄りにシフトすればよい。グロ一バルテーブルの Y方向位置と X方向先頭位置とによって当該 X方向先頭位置から始まる中間テーブルを抽出できる。抽出された中間テーブルに対するアクセスは、前述と同様に、特徴成分の量子化値を当該先頭位置からのオフセットとして用いる。適応によつて 1次元ガウス分布の分散だけを変更する場合、中間テーブルを抽出するときの Y方向位置を変えればよい。適応によって 1次元ガウス分布の平均だけを変更する場合、中間テーブルを抽出するときの X方向先頭位置を変更すればよい。特徴成分毎に抽出すべき中間テーブルの先頭ァドレスはアクセスポインタ（P 0〜P n ) によって指示すればよい。ァクセスボイン夕の値は、分散（び）や平均（）に応じて予め演算しておくことができる。適応に際しては、分散や平均の修正に応じてそのァクセスボイン夕の値を修正しておくことができる。特徴成分毎のアクセスポインタは、多次元ガウス分布毎にアクセスポインタテ一プル（ 4 2 0 ) に予め纏めておくことができる。

以上のように、各特徴成分毎に数値テーブル参照のための複雑なパラメ一夕演算を回避しつつ、平均や分散の修正に対応するために、線形スカラ量子化を採用し、また、線形量子化された特徴成分に応じた数値テ一ブルのアクセスのパターンを制御するために、中間テーブルを採用した。線形量子化された特徴成分と数値テーブルとの間に、マッピング関係を可変とするィンデックス変換を目的とした中間テーブルを挿入することで、適応による分散や平均の修正に対して容易に対応できる。即ち、そのような適応による分散や平均の修正に対して、前記グローバルテーブルを用いる構成ではアクセスボイン夕を修正するだけで対応することができる。見方を変えれば、線形ス力ラ量子化とインデックス変換を目的とした中間テーブルを組み合わせることで、線形スカラ量子化による数値テーブル参照の高速化を保証しつつ、非線形スカラ量子化と同じようにテ一プルのデータ量削減を実現することができる。《インデックス変換の類型化と共通化による効率化》上記の構成を単純に実現すると、数値テーブルの書き換えは発生しないが、その代りに中間テーブルの書き換え等が発生する。この問題に対処するために、第 1に、（a) ィンデックス変換の類型化による中間変換パターンを事前に計算しておく構成を採用する。即ち、話者適応化あるいは環境適応化において、適応化はガウス分布の平均および分散の修正変更によって行われる。この平均および分散のパターンを類型化し、これを事前に保有することで、テ一ブル変更のコストを最小にする。第 2 に、（b ) 中間テーブルの共通化による簡略化を行なう、即ち、上記の方法においては、各々の H M M毎に、各々の混合分布で中間テーブルを有することを想定していたが、これは、全ての変換パターンを網羅したテ —ブルが一つあれば、そのテ一プル上の（各 H M Mの各混合分布の）ァクセス位置を保有することで、中間テーブルの機能が実現できる。この場合、話者適応および環境適応化は、上記のアクセス位置の修正のみで十分である。

《中間テーブルによる計算分布の選択》

混合ガウス分布の計算で、計算分布の削減は計算高速化の有効な方法である。本発明では、この中間テーブルに、分布選択機能を具備することで、計算の簡略化を図る。一般に、多次元ガウス分布は、各特徴次元における一次元ガウス分布の積で表現されるが、この各々の一次元ガウス分布に対する評価を中間テ一ブル中に挿入することで、数値テ一ブルの無用な参照を減らして、分布の削減機能を実現できる。

《デ一夕処理システム》

本発明の一つの態様であるデータ処理システムは、特徴ベクトルに対して H M M音声認識を行なうためにデータプロセッサ（ 1 0 3 )が中間テーブル（ 3 0 1 , 3 0 2 ) 及び数値テーブル（ 1 0 5 2 ) を参照して混合多次元ガウス分布によって表現される出力確率を演算可能であつて、前記数値テーブル（ 1 0 5 2 ) は、複数種類の 1次元ガウス分布を基にした夫々の分布の数値を格納する領域（ 1 0 5 2 E ) を有し、前記中間テーブル（ 3 0 1 , 3 0 2 ) は、前記特徴べクトルの特徴成分の値に対する線形量子化値に基づいて選択される領域にその量子化値に対応する前記数値テーブルの値の所在を示すためのァドレス情報を格納する領域（ 3 0 1 E , 3 0 2 E ) を有する。そして、前記データプロセッサは、前記特徴成分の値を線形量子化すると共に、特徴成分毎のァクセスボイン夕（ 3 1 0の P 0〜P n ) により中間テーブルを選択し、前記線形量子化された値を基に前記選択した中間テーブルよりアドレス情報を取得し、取得したァドレス情報を用いて数値テーブルを参照する処理を行い、数値テ一ブルから参照した値に基づいて前記出力確率を演算する。

上記データ処理システムにおいて、混合多次元ガウス分布の多次元ガウス分布毎に特徴成分毎の前記アクセスボイン夕が配置されるァクセスポィン夕テーブル（ 3 1 0 ) の形成領域を有し、デ一夕プロセッサは、前記アクセスポインタテ一プルのアクセスポインタを用いて中間テーブルの選択を行なうように構成することができる。

前記量子化に関しては、前記 1次元ガウス分布を基にした夫々の前記分布全体を 2の N乗個の数値によって表現すると、前記特徴成分の量子化値はその値の上位 Nビットになる。これは、単なる特徴成分のシフト動作だけで量子化できることを意味する。

前記デ一夕プロセッサは、前記数値テ一ブルを参照する処理を特徴成分毎に繰り返して多次元ガウス分布の値を演算し、この多次元ガウス分布の値を演算する処理を所定回数繰り返して混合多次元ガウス分布によって表現される出力確率を演算することができる。中間テーブルに分布削減のための距離情報を入れておくことができる。前記中間テーブルは、前記数値テーブルの基準になる 1次元ガウス分布の平均位置を起点に分散の複数倍の範囲に対して前記ァドレス情報を格納する領域（E 1 ) を有し、その外側には、前記平均からの距離情報を格納する領域（E 2 ) を有し、前記デ一夕プロセッサは、多次元ガウス分布の値を演算するために前記数値テーブルを参照する処理を特徴成分毎に繰り返していくとき、中間テーブルから参照した情報が前記距離情報であるときこれを累積し、その累積値が所定値を越えたとき、当該多次元ガウス分布のための演算を中止するようにすることができる。

別の分布削減情報として、前記中間テーブルには、前記距離情報の外側に固定値（例えば値 " 0 " ) を格納する領域（E 3 ) を設け、前記デ —夕プロセッサは、前記中間テ一ブルから前記固定値を参照したとき、現在処理中の当該多次元ガウス分布のための演算を中止するようにすることができる。

データ処理システムは例えばバッテリー（ 1 2 1 ) を動作電源とする携帯情報端末装置（ 1 2 0 ) 等として構成することができる。バッテリ一駆動される装置は低消費電力の要請が厳しく、前述の出力確率の演算負荷を低減できることから、前記データプロセッサは消費電力が 1 W以下のものであても、実用に耐える高速で音声認識処理を行うことができる。

《グ口一バルテ一ブルを用いるデ一夕処理システム》

グロ一バルテーブルを用いることに特化したデ一夕処理システムは、特徴べクトルに対して H M M音声認識を行なうためにデ一夕プロセヅサ（ 1 0 3 ) がグロ一バルテーブル（ 4 0 0 ) 及び数値テ一プル（ 1 0 5 2 )を参照して混合多次元ガウス分布によって表現される出力確率を演算可能であって、前記数値テーブル（ 1 0 5 2 ) は、相互に平均が同一であって分散の異なる複数種類の 1次元ガウス分布を基にした夫々の分布の数値を格納する領域（ 1 0 5 2 E ) を有し、前記グロ一バルテ一プル（4 0 0 ) は、前記数値テーブルにおける分布毎の X方向の配列を Y方向に複数組格納する領域（ 4 0 0 E ) を有し、前記 X方向の配列は、前記特徴べクトルの特徴成分の値に対する線形量子化値に基づいて選択される位置にその量子化値に対応する前記数値テーブルの値の所在を示すためのァドレス情報を格納する。前記デ一夕プロセッサは、前記特徴成分の値を線形量子化すると共に、複数組の X方向の配列に対する γ方向の選択に分散が考慮され X方向の配列に対する先頭位置の決定に平均が考慮された特徴成分毎のアクセスボイン夕（第 3 8図の P 0 〜P n ) の値に従って前記グロ一バルテ一ブルから中間テーブル（ 4 0 1 , 4 0 2 ) を抽出し、前記抽出した中間テーブルの先頭位置を起点に、前記線形量子化値に基づいて前記ァドレス情報を取得し、取得したァドレス情報を用いて数値テーブルを参照する処理を行い、数値テーブルから参照した値に基づいて前記出力確率を演算可能である。

データプロセッサは、アクセスポインタテ一ブル（ 4 2 0 ) のァクセスポィン夕（P 0〜P n ) を用いて中間テーブルの抽出を行なうことができる。アクセスボイン夕テーブルは、混合多次元ガウス分布の多次元ガウス分布毎に特徴成分毎の前記アクセスボイン夕が配置されたテーブルである。

前記デ一夕プロセッサは、適応によって混合多次元ガウス分布の平均と分散の双方又は一方が変更されるとき、これに応じて前記アクセスポィン夕テ一ブルのアクセスポィン夕値を変更すればよい。グロ一バルテ一プルそれ自体の内容を修正するに及ばない。

前記アクセスボイン夕テ一ブルを複数セット形成しておけば、前記デ一夕プロセッサは、話者を識別し、その識別結果に応じたアクセスポィン夕テーブルを用いることができる。

前記話者の識別を話者を明示するスィツチ（ 1 3 0 2 S W )の状態に基づいて行なうことができる。例えば、トランシーバのように片方向通話を行なうデータ処理システムにおいて送話と受話毎の切換えに連動して話者識別を行なうことができる。

前記アクセスポインタテーブルと話者とを対応付ける管理テーブル ( 5 0 0 ) を採用することができる。このとき、前記データプロセッサは、話者の特徴を示す予め登録した識別用特徴情報と実際の音声特徴分析結果との比較結果に基づいて前記話者の識別を行ない、この識別された話者が、前記管理テーブルに登録されている話者であるときは、当該登録話者のアクセスボイン夕テーブルを参照する。

前記データプロセッサは、前記管理テーブルに登録可能な話者の人数を一定に限定すると共に、登録話者毎の使用頻度の情報を前記管理テーブルに追加し、音声特徴分析結果が登録話者であるとき、分析結果に一致する登録話者の使用頻度をィンクリメントし、分析結果に不一致の登録話者の使用頻度をデクリメントし、音声特徴分析結果が登録話者以外であるときは、最低使用頻度の登録話者を前記管理テーブルから削除し、これに代えて当該登録話者以外の話者を管理テーブルに追加するように構成することも可能である。

複数の音声入力系を持ち、個々の音声入力系毎に、前記アクセスボイン夕テーブルを有し、前記デ一夕プロセッサが、前記複数の音声入力系に対して、独立にアクセスボイン夕テ一ブルを用いて、並列的な音声認識を行うことも可能である。

前記データプロセッサは、特徴べクトルの全ての特徴成分に対して、線形量子化を行なうと共に、前記量子化値と前記 X方向の配列の単一配列要素のァドレス量との積に基づいて、抽出される中間テーブルの先頭位置からの特長オフセットを算出し、その後、多次元混合ガウス分布毎に、前記アクセスボイン夕と特徴オフセッ卜とにより中間テーブルの参照を行って数値テーブルの参照を行うことができる。これにより、混合多次元ガウス分布毎に特徴オフセッ卜の演算をやり直す必要はない。前記データ処理システムで実行される音声認識のための出力確率の演算制御プログラムは、コンピュータ読み取り可能な記録媒体を介して、デ一夕処理システムに提供することはできる。図面の簡単な説明

第 1図はマイクロコンピュー夕を用いた音声認識システムの一例を示すプロック図である。

第 2図はマイクロコンピュー夕の一例を示すプロック図である。

第 3図は第 1図で示された音声認識装置を用いて実行される処理の概要を全体的に示したフローチャートである。

第 4図は認識処理の概要を示すフローチャートである。

第 5図は H M Mの一例を示す説明図である。

第 6図は left- to- right 型の H M Mのモデルの一例を示す説明図である。

第 7図は混合多次元ガウス分布の一例として 3混合 2次元の混合多次元ガウス分布の様子を示す説明図である。

第 8図は 2次元の特徴空間を第 7図の断面 1で切断し横から見た様子を示す説明図である。

第 9図は線形スカラ量子化を行う場合の数値テーブルと 1次元正規分布との関係を示す説明図である。

第 1 0図は線形スカラ量子化原理を例示した説明図である。第 1 1図は 1次元のガウス分布の平均、分散の一例を示す説明図である。

第 1 2図は第 1 1図に対して平均、分散が相異された 1次元のガウス分布を示す説明図である。

第 1 3図は分布削減のため中間テーブルのデータの構成を概略的に示した説明図である。

第 1 4図は中間テーブルにおける分布削減様の距離情報の例を示す説明図である。

第 1 5図は単一ガウス分布に対する中間テーブルの分布削減情報の配置の一例を示す説明図である。

第 1 6図は中間テーブルの値に応じた処理の分岐について例示的に示したフローチャートである。

第 1 7図はグローバル中間テーブルの一例を示す説明図である。第 1 8図は出力確率の演算処理の詳細な一例を示すフローチヤ一トである。

第 1 9図は適応処理において混合ガウス分布の平均と分散を修正する処理の一例を示すフローチヤ一トである。

第 2 0図は第 1 9図の適応処理で修正されたガウス分布の分散と平均に対して対応する中間テーブルボイン夕の値を決定する処理手順の —例を全体的に示すフローチャートである。

第 2 1図は音声認識のためのシステムを適用した携帯情報端末装置の外観の一例を示す説明図である。

第 2 2図は第 2 1図に示される携帯情報端末装置の一例を示すプロック図である。

第 2 3図は携帯倩報端末装置において 2個のマイクを用いて雑音適応を行う場合の処理手順の一例を詳細に示したフローチヤ一トである。第 2 4図は携帯情報端末装置を用いたトランシーバ型通話における音声認識の処理手順の一例を示すフローチヤ一トである。

第 2 5図は携帯情報端末装置を用いたセパレート型通話における音声認識の処理手順の一例を示すフローチャートである。

第 2 6図は話者適応及び雑音適応を行う音声認識システムにおける音声認識処理の手順の一例を示すフローチャートである。

第 2 7図は教師なし話者適応を実行し使用頻度によって登録話者を決める音声認識処理手順の一例を示すフローチヤ一トである。

第 2 8図は教師なし話者適応を実行し使用頻度によって登録話者を一定人数に保つようにした音声認識処理手順の一例を示すフローチヤ —トである。

第 2 9図は話者適応のための識別情報のうち話者管理に関する話者管理テーブルの構造の一例を示す説明図である。

第 3 0図は頻度情報によって話者管理テーブルの構造を修正及び変更する処理の一例を示すフローチャートである。

第 3 1図は初期化によって話者管理テ一ブルに新しく入れ替えられたリストに対する操作の一例を示す説明図である。

第 3 2図は話者管理テーブルに既に存在するリストに対する操作の一例を示す説明図である。

第 3 3図は第 3 1図及び第 3 2図の処理の手順を示したフローチヤ

—トである。

第 3 4図は 2マイク型雑音適応の原理を示す説明図である。

第 3 5図はトランシ一バ型通話における音声認識の原理を示した説明図である。

第 3 6図はセパレート型通話における音声認識の原理を示した説明図である。第 3 7図は雑音適応に応じてテーブル先頭ァドレスポインタの値を修正する操作を原理的に示した説明図である。

第 3 8図は H M Mパラメ一夕セッ卜に含まれるグローバルテーブルのためのアクセスポインタテーブルの構造の一例を示す説明図である。第 3 9図は H M Mパラメ一夕セットに含まれる中間テ一ブルのためのアクセスポイン夕テーブルの構造の一例を示す説明図である。

第 4 0図は多次元ガウス分布を用いた確率演算のためのテーブルァクセス手法を纏めて示した説明図である。

第 4 1図は中間テーブルのアクセスと数値テーブルのアクセスとの関係を時系列的に示した説明図である。

第 4 2図は浮動小数点演算をサボ一トするマイクロプロセッサを用いる場合に好適な 1次元ガウス分布の数値テーブルの一例を示す説明図である。

第 4 3図は整数演算で対応可能な 1次元ガウス分布の数値テーブルの一例を示す説明図である。発明を実施するための最良の形態

《混合ガウス H M Mを用いた音声認識の概要》

先ず、混合ガウス H M Mを用いた音声認識技術の基本的な内容について説明する。

第 5図には H M Mの一例を示してある。これにより、 H M Mは、マルコフ過程（時点 t + 1の状態が、時点 nの状態によってのみ与えられる確率過程）で表現される状態遷移モデルであることが理解されるであろラ。

音声認識では、この状態を一種の確率的な「音源」と看做している。ここで、確率的という意味は、この状態に存在する場合、常にある決まつた音が生成されるとは限らず、色々な音が生成される確率が与えられている。これを、一般に出力確率と呼ぶ。

音声認識では、言葉と音とを、この状態を半順序関係を与えて接続したモデルで表現する。具体的には、第 6図のような left- to- right 型の H M Mが用いられることが多い。

例えば、「あい」という単語を left- to- right 型の H M M で表現することを考える。これを仮に「Word l」とする。そして、状態 S 1には「あ」、状態 S 2には「い」を表現させる。

この時、例えば、必ず「あ」が 1フレーム（例えば 1 0 m s ) 、「い」が 1フレーム（例えば 1 0 m s ) であれば、 S 1 => S 2の状態遷移で表現できることになる。しかし、実際は、様々な長さの「あ」の後に、様々な長さの「い」が続くことになる。

このような時間的な「ばらつき」を表現するため、自分に対する状態遷移と隣に対する状態遷移を確率的に表現する。こうすると、「あ」が nフレーム継続した後に、「い」が mフレーム継続して終了する発声パターンが、確率的に（各パターンの生成確率という形で）表現できる。この確率が遷移確率（状態遷移確率）であり、第 6図の Wordlにおいて al ( l，l )は状態 S 1が次に同じ状態 S 1を採る状態遷移確率であり、 &1 ( 1，2 )は状態3 1が次に隣の状態 S 2を採る状態遷移確率である。また、「あ」という発声についても、老若男女によって、その音響的性質は大きく異なる。そこで、それらの統計的な出現パターンから、「あ」という発声を表現する状態 S 1 における特徴ベクトルの出力パターンを確率的に表現することで、様々な人の発声パターンをモデル化することができる。この確率的な表現が出力確率である。第 6図において Word 1の状態 S 1における出力確率は bl l (y)で表現され、 Word 1の状態 S 2における出力確率は bl2(y)で表現されている。以上のように、 HMMは「様々な人の言葉の時間的あるいは音響的なばらつきを表現」するため、人の発声過程を確率的にモデル化したものであり、当然その評価も確率的にならざるを得ない。すなわち、ある観測系列（入力音声の分析結果）が与えられた場合、各単語を表現するモデルにおいて、当該観測系列が得られる確率（尤度）を評価し、最も尤度の高いモデル（若しくはそれが意味する単語）を、認識候補として出力する。

前述のように、 HMM音声認識では、最も尤度の高いモデルを認識候補として出力する。このためには、各々のモデル毎に尤度を計算する必要があり、それには、状態毎に、状態遷移確率と出力確率との積を演算する必要が有り、全体として膨大な計算負荷が予想される。そこで、そのような演算には、例えば、ビ夕ビ（Viterbi) の方法と呼ばれる、一種の動的計画法を用いた処理が行なわれる。

ビ夕ビの方法は、複数経路存在する状態遷移経路（パス）のうち、最も尤度の高いパス（最適パス）を選択し、その尤度によって評価する。この計算は、式 1のように効率的に実行できる。

, ₊ i(i) - ax{a t ίϊ— l)· a; - i,,. · b;(y( + i)， t ( ) - a '·,,+ · b .·( y r ₊ 1) }··'式 1 ひ】 (り二ん ( =1)

a ι(ι) = 0 ( ≠ 1) 式 1において a;,_;は状態 jから状態 iへの状態遷移確率である。 b; yi)は状態 iにおいて状態 ίを出力する出力確率であり、は特徴べクトルの対応する特徴次数の値である。ひは時亥 Ut、状態 iにおける前向き確率である。このように、 H MM音声認識では、各フレーム毎に状態遷移経路の全ての状態の出力確率の値が必要になる。多くの場合、この出力確率は、混合多次元ガウス分布によって与えられる。これを本明細書では、混合ガウス HMMと呼ぶ。混合ガウス HMMでは、出力確率は、式 2の混合多次元ガウス分布のような関数で与えられる。

(J '式 2

混合多次元ガウス分布を表す式 2において、例えば 3混合 2次元の混合多次元ガウス分布は、第 7図のように表すことができる。第 7図の 3 混合 2次元ガウス分布は、式 3のように表現される。 bs(y) =

exp{ - ( 2 - jLLs び . 2

(2 aSn) }]

}] '式 3

V( び；）式 3で表現される前記 3混合 2次元ガウス分布を例えば 2次元の特徴空間 y l、 y 2に対して表現した図が第 7図である。ここで、 *Aの山は式 3の第 1項目、 * Bの山は式 3の第 2項目、 *Cの山は式 3の第 3項目によって表現される。この 2次元の特徴空間を第 7図の断面 1で切断し、横から見た様子が第 8図に示される。前記式 2において、 kは混合数、は山の高さ、各次元毎の関数

1

, exp{-(yi- j ski) / aski は 1次元正規分布関数である。これに

V(2 σ_Μ) い ^}

おいて yiは特徴べクトルの次元毎の特徴成分である。式 2において、複数の山が有るのは、同じ語でも老若男女によって音響的な特徴が相異されることに基づく。

式 2や式 3等に示されるような混合ガウス分布の演算の高速化には、計算する分布を大きく限定する方法と計算の一部をテーブル化する方法とが有効である。また、効率化のため、混合多次元ガウス分布を対数評価することも多いが、整数処理で行う場合も原理的には全く同じである。例えば式 3の演算の高速化手法につて説明する。

計算を高速にするという観点からは、前述のように、特徴べクトルを幾つかの標準的なパターンに対応させ（べクトル量子化）、そのパ夕一ン毎に出力確率を定義する方法が可能である。

いま、第 7図の混合ガウス分布を例を説明する。この例では、例えば、領域 1に存在する特徴べクトルに対しては、式 3で定義される値は、その第 1項目の値と殆等しい（すなわち、第 2項目及び第 3項目のスコアは殆 0 ) と看做せる。従って、特徴が領域 1に存在することさえわかれば、式 3の出力確率は、その第 1項目の計算（すなわち分布 * Aの計算）だけで取得することができる。

上記の処理の場合、特徴空間を部分領域に分割して、その部分領域と計算する分布を対応付けることになるが、特徴べクトルと部分領域との対応には、べクトル量子化が用いられることが多い。べクトル量子化とは、特徴空間上の有限個の代表べクトルを考え、特徴空間上の任意の点を、その点と最も近い代表べクトルで近似表現する方法である。例えば、第 7図に示されるの特徴空間を a， b， cの 3点で代表すると、領域 1 の特徴べクトルは aに対応することになる。

このようなべクトル量子化には、効率的な方法が幾つか提案されているが、基本的に、距離が最小となる代表べクトルを選択する。例えば、 a、 b、 cのような代表点から各特徴次数の値までの距離計算を行って、距離が最小となる代表べクトルを選択すればよい。このべクトル量子化は、混合多次元ガウス分布をそのまま計算するに比べれば演算量は僅少になるが、それでも計算負荷は小さいとはいえない。

また、出力確率の演算の一部をテーブル化して演算速度を高速化することも可能である。この場合も、そのテ一ブルをべクトル量子化によつて構成することができる。しかし、べクトル量子化して出力確率を対応させると、量子化誤差が大きくなり、認識性能が劣化する。

そこで、計算を各々特徴次元における計算に分解して、各特徴次元を標準的なパターンに分割し、各々の計算結果をテーブル化する、スカラ量子化の手法を採用することができる。例えば、式 4

, = exp{ - yi - U ski ) / (7 ski \ .··式 4

V(2 Gski) い ,

で示される単一ガウス分布をテーブル化する。即ち、 yi の値とこの値に応ずる式 4の値とを対応させた数値テーブルを設ける。これは、対数系か否かで表現する関数も異なるが、基本的な原理は共通である。この場合、ベクトル量子化とは異なり、量子化誤差は僅少になる。

スカラ量子化には前述の通り非線形スカラ量子化、線形ス力ラ量子化がある。混合ガウス分布のスカラ量子化において、各次元毎の関数は、単一の 1次元正規分布であり、その分布の特徴は平均と分散が分かれば規定できる。

非線形スカラ量子化では、数値テーブルの数を減らすために、代表的な平均と分散の 1次元ガウス分布に関する数値テーブルを設け、種々の平均と分散に対しては、パラメ一夕演算を行い、パラメ一夕と特徴成分とから数値テ一ブルを参照する。しかしながら、この手法は、テーブルアクセスのために必ず各特長成分毎のパラメ一夕演算を行わなければならず、また、テーブルの参照においても、そのように演算されたパラメ一夕を用いるアクセスは、テ一ブルに対して連続した配列のアクセスになるとは限らないので、テ一ブルを参照するためのァドレス演算も毎回乗算と加算が必要になる。この技術は前記文献 "ON THE USE OF SCALAR QUANTI ZATION FOR FAST 薩 COMPUTATION" , ICASSP 95 , pp . 13-216 に記載があり、各特徴成分毎乗算、減算、型変換あるいはシフト演算を要するパラメ一夕演算を伴うことになり、また、テーブルの参照においても、そのパラメ一夕をインデックスとする配列をアクセスすることになる。この場合、連続した配列のアクセスではないので、機械語（ァセンブラ）レベルでは、配列のアドレスの計算に乗算と加算（インデックス Xデータ長 +先頭ァドレス）の計算も必要になる。従って、命令レベルでは、乗算が 2回、加減算が 2回、と型変換あるいはシフ卜が 1回、デ一夕のロードが 2回必要（先頭アドレスと数値データ）になる。

この計算を行わずに、数値テーブルの値を得るには、例えば、一般的な線形量子化を行えば可能である。本明細書では、これを線形スカラ量子化と呼ぶ。

第 9図には線形スカラ量子化を行う場合の数値テーブルと 1次元正規分布との関係が示されている。線形スカラ量子化の場合、特徴を等間隔に量子化する。量子化し易いように、分布全体を 2の N乗個に分割すれば、線形スカラ量子化は、特徴成分の上位 Nビットを抽出ことと同義である。第 1 ◦図にはこの線形スカラ量子化の内容が示されている。線形スカラ量子化では、量子化の代表点は固定であるから、量子化処理は、各フレーム毎に、換言すれば特徴成分毎に、 1回行えば良い。また、代表点はそのままィンデックスに相当するから、数値テ一ブルにおける先頭ァドレスと所望アドレスとの差（以下、オフセット）は、インデックス Xデ一夕長になり、その演算も全ての分布で同じであり、 1フレーム毎に 1回実行すればよい。そして、必要な数値テーブルへのァクセスは、各数値テーブルの先頭ァドレスと、オフセヅ卜の和で計算できるから、結局、 1回の加算と、 2回のロード（先頭アドレスと数値デー夕）で実行される。

混合ガウス型 H M Mの出力確率の計算（式 3 ) では、単一ガウス分布 (含む対数系）に相当する計算量を低減することが重要である。このような各特徴成分毎の計算は、出力確率の計算において最も計算負荷の大きい部分であり、計算数は、全モデル数（認識要素数 X left to r ight で接続された状態数であり、第 6図の例では 2 N個） X混合数 X特徴次元の数で表現されるため、些細な計算コストの増大が、全体の計算量の増犬に直結する。この部分で、線形スカラ量子化は、テーブルのアクセス以外、全く計算が発生しないため、計算効率の観点からは非常に優れている。

しかしながら、線形スカラ量子化では、固定された代表点に対して、各分布毎に数値テーブルが必要になるので、前述の通り、数値テーブルの数若しくはデータ量が膨大になり、また、話者適応処理や雑音適応処理のために、混合ガウス分布のパラメ一夕（平均■分散）を修正すると、それに伴う計算量も膨大になり、数値テーブルを修正するにも多大の処理が必要になってしまう。

以下詳細に説明する本発明の実施例では、混合ガウス分布を用いる出力確率演算において、その一部を 1次元正規分布のデ一夕テーブルのァクセスに置き換えて演算速度の高速化を図るものであり、このとき、中間テーブル若しくはグロ一バルテ一ブルを採用し、出力確率を高速に計算できる線形スカラ量子化の特徴を備えつつ、テーブルのデ一夕量を少なくでき、また、話者適応、環境（雑音）適応等に柔軟に対応できるようにするものである。

《音声認識システムの概要》第 1図には本発明の一実施例に係る音声認識システムのプロック図が示される。第 1図に示される音声認識システムは、特に制限されないが、音声認識ボード 1 0 1、マイクロフォン 1 0 7及びモニタ（デイスプレイ） 1 0 8によって構成されている。前記音声認識ボ一ド 1 0 1は、 1チップの L S I上に全て実現することも可能である。また、モニタ 2 0 3は、例えば、音声入力装置などに用いる場合、必ずしも必要ではない。

前記音声認識ボード 1 0 1は、 A/D変換器 1 0 2、マイクロプロセヅサ（MP U) 1 0 3、 R OM (リード . オンリ . メモリ） 1 0 5、 R AM (ランダム 'アクセス 'メモリ） 1 0 6によって構成される。前記モニタ 1 0 8が付加される場合、さらにビデオイン夕一フェース（V I F ) 1 04が必要である。

前記 A/D変換器 1 0 2は、マイクロフォン 1 0 7より入力されたァナログ音声信号を、デジタル信号に変換する。前記 R OM 1 0 5は読みだし専用メモリで、本音声認識システムのプログラムや必要なデ一夕 (例えば、辞書や H MMパラメ一夕）が格納されている。前記 RAM 1 0 6は、読み書き可能メモリであり、マイクロプロセッサ 1 0 3のヮーク領域若しくはテンポラリ領域等に利用される。

第 2図には第 1図に示された MPUの詳細な一例が示される。 MPU 1 0 3は、バスイン夕一フェース 1 1 8を介して、前記 R OM 1 0 5、 RAM 1 0 6, A/D 1 0 2及び V I F 1 04に接続される。 MPU 1 0 3の動作プログラムは、命令キヤッシュ 1' 1 0を介して命令制御ュニヅト 1 1 2へ送られてデコ一ドされる。 MPU 1 0 3はそのデコード結果に基づいて演算制御動作を行う。必要なデータは、デ一夕キヤッシュ 1 1 7を介して、口一ドュニット 1 1 4からレジス夕ファイル 1 1 1へ、或いはレジス夕ファイル 1 1 1からストアュニット 1 1 5を介してデ —夕キャッシュメモリ 1 1 7に送られる。レジスタフアイノレ 1 1 1に格納されたデータは、必要に応じて、整数演算であれば整数ュニット 1 1 6で処理され、浮動小数点数であれば浮動小数ュニット 1 1 7で処理され、その処理結果は再びレジス夕ファイル 1 1 1に戻され、前記ストァユニット 1 1 5を介してメモリに書き込まれる。デ一夕アクセスにおいてデータキャッシュ 1 1 7がキャッシュヒットであれば外部メモリのアクセスは行なわれず、データキヤッシュ 1 1 7からのリ一ド、或いはデータキヤッシュに対するキヤッシュフィルが行なわれる。キヤッシュミスの場合には外部デ一夕メモリのアクセスが行なわれ、更に、必要なェントリが外部データメモリからデ一夕キヤッシュ 1 1 7に追加される。命令アクセスにおいて命令キヤッシュ 1 1 0がキャッシュヒヅ卜であれば外部メモリアクセスは行なわれず、命令キヤッシュ 1 1 0から命令がフェッチされる。キャッシュミスの場合には外部命令メモリのァクセスが行なわれ、更に、必要なェントリが外部命令メモリから命令キヤヅシュ 1 1 0に追加される。

第 3図には、第 1図で示した音声認識装置を用いて実行される処理の手順として、電源をオンにしてシステムを立ち上げてから、電源をオフにしてシステムを停止するまでの処理の概要が全体的に示されている。第 3図においてステップ 2 0 1は処理の開始を示す。これは、具体的には動作電源の投入（電源オン）などによって指示される当該システムの動作開始に相当する。当該システムの動作を開始すると、ステップ 2 0 2によって、必要なデ一夕 2 5 0を R O M 1 0 5から読み込み、それを R A M I 0 6若しくはデータキヤッシュ 1 1 7に展開する。この場合、滅多にアクセスしないデ一夕や、書き換えないデ一夕で高速な不揮発メモリを用いている場合、 R A M 1 0 6等にあえて展開しなくとも、必要な時に直接 R O M 1 0 5をアクセスしてデータを取得すればよい。ステップ 2 0 3〜 2 0 5は、ここでは、一種の無限ループであり、それは例えば終了命令を実行するまで繰り返される。ステップ 2 0 5で終了が判定されると、システム動作が終了される（ステップ 2 0 6 ) 。この間、適応処理（ステップ 2 0 3 ) と認識処理（ステップ 2 0 4 ) は必要に応じて実行される。

適応処理とは、必要に応じて H M Mなどの諸パラメ一夕を修正する処理を意味する。例えば、環境適応を例に採れば、使用する雑音環境における雑音をサンプルし、それに応じて H M Mの出力確率を修正する。出力確率が前記式 2で表わされる混合ガウス H M Mでは、各混合ガウス分布の平均と分散の修正を意味する。デ一夕 2 5 2は適応のためのデータ、デ一夕 2 5 3は認識のためのデータである。

認識処理（ステップ 2 0 4 ) は、必要に応じて上記の適応処理（ステップ 2 0 3 ) された H M Mパラメ一夕（デ一夕 2 5 1 ) を用いて実行される。ここでは、マイク 1 0 7からの入力音声デ一夕 2 5 3に対して音声認識を行い、認識された結果 2 5 4 (例えばテキストデ一夕）を出力する。

第 4図には前記認識処理（ステップ 2 0 4 )の概要が示されている。ステップ 2 1 1によって認識処理が開始されると、先ず、ステップ 2 1 2で、サンプル音声 2 5 3の特徴が分析される（特徴分析）。

特徴分析は、音声波形を、一定間隔（例えば 1 0 m s毎）で一定区間取りだし（この部分音声区間のことをフレームと呼ぶ）、このフレームにおいて、音の性質が変化しないのものして（定常性のあるものとして）、音の性質を分析する。音の性質は、例えば周波数スぺクトル（F F Tによって計算できる）や L P C係数（Levinson- Durbin の再帰式によって計算できる）により分析できる。これらは、一般に複数のパラメ一夕群によって表現されるため、特徴べクトルと呼ばれる。この特徴分析により、音声信号 2 5 3は、フレーム毎の特徴べクトル 2 5 5に置き換えられる。尚、 n次元の特徴べクトルは n種類の周波数成分を有する。この特徴べクトル列を観測べクトル列と呼ぶ。

次のステップ 2 1 2によって、出力確率の計算が行われる。第 5図に基づいて説明したように、 H M Mにおいて、出力確率とは、各々の状態が「ある特徴」の音を出力する確率を意味する。従って、出力確率は、前記式 2で説明したように、「ある特徴」を示す特徴べクトルの関数として表現される。

H M M音声認識には、特徴べクトルをべクトル量子化し、その量子化べクトルの関数として出力確率を与える方法（離散型 H M M ) と、特徴べクトルの確率関数として与える方法（連続型 H M M ) があるが、本実施例では、後者のうち、出力確率を混合ガウス分布で定義した方法を対象としている。

混合ガウス型 H M Mの場合、出力確率は、特徴べクトルの関数として、各 H M Mの状態毎に、前記式 2で与えられている。

この出力確率計算は、ステップ 2 1 4の認識照合時（ビ夕ビサーチ）に並行して行うことも可能であるが、計算負荷が大きいことから、重複した計算を避けるため、照合（サーチ） 2 1 4に先だって、必要な出力確率を計算している（ステップ 2 1 3 ) 。

ステップ 2 1 4では、ステップ 2 1 2によって得られた観測べクトル列とステップ 2 1 3によって計算された出力確率 2 5 6から、各モデルのスコアを計算する。ここで、スコアとは、例えば第 6図に示したモデルが、与えられた特徴べクトル列のパターンを生成する（対数）確率で定義することができる。認識候補は、スコアの最大となるモデルとする。各モデルにおいて最も確率が高くなる状態遷移系列のスコア（以下、ビ夕ビスコア）を当該モデルのスコアと看做して、ビ夕ビサーチが行なわれる。

《中間テ一ブルを用いた出力確率の計算》

第 1 8図には本実施例における出力確率の演算処理（ステップ 2 1 3 ) の更に詳細が示される。

本発明では、単一ガウス分布の（対数）確率計算を、特徴成分を均等に部分領域分割し（線形スカラ量子化）これに対応した計算結果を、予め数値テーブル化し、計算負荷を低減している。線形スカラ量子化を行う利点は、各特徴に対して、全ての混合分布について同一の点に量子化される。すなわち、量子化処理が各分布全てに共有されるため、 1フレ —ムに 1度で済む。また、数値テーブルのインデックスが、各特徴成分で共通化されると、数値テ一プルのオフセット（アクセスすべきテープルの先頭ァドレスと該当配列要素のァドレスの差ニー般にインデックスとデ一夕長の積で計算される）も同一となるため、数値テーブルのォフセットを求める処理も 1フレームに 1度で済む。これによつて、（非線形スカラ量子化と異なり）単一ガウス分布の計算に必要な処理が、加算（配列の先頭ァドレスとオフセッ卜の和）と口一ドストァだけで可能になり、非線形量子化に比べて著しく短い計算時間で計算できる。

しかし、このようなアプローチでは、適応などの処理によって分散、平均が修正されると、（特徴の対応関係は固定であるから）数値テープルの変更が必要になる。この変更を避けるため、数値テ一ブルへのァクセスァドレスが設定された中間的なテーブル（中間テーブル）を用いて、アクセスパターンを制御する。また、この中間テーブルに分布の選択、削減のための情報を持たせて、計算を簡略化する。以下、その内容を詳述する。

ステップ 1 0 0 0は出力確率計算の前記ステップ 2 1 3の開始を意味する。ステップ 1 0 0 1では、ステップ 2 1 2で分析された特徴べクトル（整数型 ·浮動小数型いずれでも可能）に対し、線形スカラ量子化を行い、その値（インデックス）対して、オフセット（以下、特徴オフセット若しくはテーブルオフセットと称する）を計算する。この計算は簡単な計算で行うことができ、例えば整数系の場合、線形スカラ量子化された値を全体の量子化数で割り、それにデ一夕長（一つの配列全体のデータ長）を掛ける処理によって、特徴オフセットを計算できる。線形量子化は第 1 0図で説明したように、量子化範囲を 2の N乗個に分割すれば特徴成分の上位 Nビットを得ることによって量子化できるのであるから、量子化数/データ長の値を 2の N乗の形式にすれば、 1回の右シフト）で実行できる。式で示せば、浮動小数系の場合、特徴成分にある定数（定義域長/量子化数 Xデータ長）を掛けて整数型に変換する。これ以降、第 1 8図の処理では、前記特徴オフセットを使用し、特徴べクトルは計算には用いない。この特徴オフセットは、デ一夕 1 0 5 0 で表現する。

ステップ 1 0 0 2では、ステップ 1 0 0 1で求めた特徴ォフセットから、各状態の各分布毎にアクセスすべき中間テーブルのアクセスァドレスを求める。中間テーブルのアクセスァドレスは、各分布ごとに定義した中間テ一プルの先頭アドレス（当然、各分布ごとに全て異なる）と特徴オフセット（同じ特徴次元に対して、全て共通）を加えて求められる。

中間テーブルは、第 1 1図及び第 1 2図に例示される 3 0 1、 3 0 1、

3 0 2の 1次元ガウス分布に 1対 1対応で配置される形態、或いは、第 1 7図に例示される 4 0 1 , 4 0 2のように複数の特徴成分に兼用可能なグローバルテーブル 4 0 0から抽出する形態の何によっても構成することができる。後者において、グロ一バルテ一ブル 4 0 0は多数の中間テ一ブルの集合として位置付けることができる。第 1 1図及び第 1 2 図において 3 0 1 , 3 0 2で示されるものが中間テーブルの一例である。第 1 7図において 4 0 0がグローバルテーブルの一例を示す。第 1 Ί図において 4 0 1、 4 0 2はグロ一バルテーブル 4 0 0から抽出された中間テ一ブルの一例である。

例えば第 1 7図に示したグローバルテーブル形式において、中間テーブル 4 0 1 , 4 0 2の先頭ァドレスは、グローバルテーブル 4 0 0から中間テーブルとして抽出すべきデータ領域の先頭位置、例えば P 1、 P 2を示している。この先頭位置の決定手法について詳細は後述するが、第 3 8図に例示されるように、特徴成分毎の平均及び分散の値が格納されたテーブル 4 1 0の値を用いて演算し、或いはその演算結果を予め蓄えたアクセスポインタテーブル 4 2 0を用いることができる。アクセスボイン夕テ一ブル 4 2 0のポインタ P 0〜P nが特徴成分毎に抽出すべき中間テーブル 4 0 1 , 4 0 2の先頭位置を指している。

一方、第 1 1図及び第 1 2図に例示した中間テーブル 3 0 1 , 3 0 2 の形式では、中間テ一ブル 3 0 1 , 3 0 2の先頭アドレスは個々の中間テーブル 3 0 1 , 3 0 2の先頭ァドレスを意味する。特徴成分毎に定義されるべき中間テーブルの先頭ァドレスは、例えば、

第 3 9図に例示されるように、特徴成分毎に、アクセスポインタ P 0 ~ P nとしてアクセスポインタテ一ブル 3 1 0に定義することができる。前記アクセスボイン夕テ一ブル 3 1 0 , 4 2 0などは第 1 8図においてインデックステ一ブル 1 0 5 1 と称されている。尚、第 1 8図においてテーブルアドレス 1 0 5 5はステップ 1 0 0 2で演算された中間テ —ブル先頭ァドレスに前記特徴オフセットを加算した値である。

この例では、中間テ一ブル 3 0 1， 4 0 1には、数値テーブルのァドレス（オフセット）及び分布削減情報が格納されている。正規分布の場合、第 1 3図に例示されるように、分布の平均（中央値）から一定以上離れると、数値的には 0 (対数系で一∞) となる。無相関多次元分布は、一次元正規分布の積で表現されるから、一つの分布でも、中央から非常に離れてしまうと、数値的に計算する意味がない。従って、そのような数値データ不要領域では、中間テ一ブルのそれに対応する領域には数値テーブルのアドレスを格納せず、例えば、式 6

d

…式 6

で定義される距離デ一夕を格納しておく。式 6の距離データは、常に負の値になる。更にその外側には値 "0" を格納しておく。特徴成分に対する量子化数が少ない場合には、第 1 4図に例示されるように値 "0" を格納しない態様を採用することも可能である。

上記距離デ一夕と値 " 0"が分布削減情報の一例になる。第 1 5図には単一ガウス分布に対する前記分布削減情報の配置の一例が示されている。第 1 5図において領域 Ε 1は数値テーブルのデ一夕のマツビングアドレスが格納された領域、 Ε 2は前記距離情報が格納された領域、 Ε 3は前記値 "0"が格納された領域である。平均や分散の値に応じた 1 次元ガウス分布の分布状態によっては Ε 2 , Ε 3の領域が無い場合もあるのは当然である。

第 1 6図に示されるように、分布削減情報に対しては分布削減条件 1 , 2が判定される。前記中間テーブル 30 1 , 40 1からアクセスされた中間テーブルの値を判定し、 "0"の場合、当該多次元ガウス分布の値を "0" とみなし、当該多次元ガウス分布に関する出力確率演算を中断して次の多次元ガウス分布に関する処理に移る。即ち、中間テーブル 3 0 1 , 40 1の値に対して "0"か否かの判定が分布削減条件 1の判定になる。アクセスされた中間テーブル 30 1， 40 1の値が負数であるときは、その中間テーブル 30 1 , 40 1の値を距離情報とみなし、当該多次元分布中の他の成分の距離情報と積算し、これが一定値を越えていれば、当該多次元ガウス分布に関する出力確率演算を中断して次の多次元ガウス分布に関する処理に移る。この距離情報の累積値が一定値を越えるか否かの判定が分布削減条件 2の判定である。中間テーブル 30 1 , 40 1の値が正数であるときに始めて中間テ一プル 30 1， 401 の値を数値テーブルのァドレスとみなし、そのァドレスのデータをフエツチする。

第 18図において分布削減条件 1の判定（ステップ 1003 ) では、アクセスされた中間テーブル 3ひ 1， 401の値が判定され、 "0"であると判断されたときは、処理中の当該多次元ガウス分布に関する出力確率演算を中断して次の多次元ガウス分布に関する処理に移る（ステツプ 10 1 1 ) 。アクセスされた中間テーブル 30 1， 40 1の値が負数であるときは、その中間テ一プル 30 1， 40 1の値を距離情報とみなし、当該多次元分布中の他の成分の距離情報に累計する（ステップ 10 04) 。 1056は累計されたメモリ上のデータを意味する。また、ァクセスされた中間テーブル 30 1 , 401の値が正数の場合、また、ステツプ 1004の累計計算が終了された後、分布削減条件 2の判定として、距離の累計値が所定値 aを越えているか否かの判定が行われる（ 1 005 ) 。これが、一定値を越えていれば、当該多次元ガウス分布に関する出力確率演算を中断して次の多次元ガウス分布に関する処理に移る（ 10 1 1) 。

中間テーブル 301 , 40 1の値が正数であるときに始めて中間テーブル 30 1 , 401の値を数値テ一ブルのァドレスとみなした処理が行なわれる。例えば、ステップ 1006では、第 2図に示されるようにデ一夕キャッシュ 1 17のようなキャッシュメモリが備えられている場合に、当該アドレスのデ一夕がキャッシュに存在しない場合、 RAM I 06のような外部メモリ上の数値テ一ブル 1052から前記中間テ一ブル 30 1 , 40 1の値で指定されるデータをキヤッシュメモリ 1 17 に先読み（プリフェッチ）させる。このようなデータプリフヱツチはデ一夕バスが空いているとき、適宜行なわれる。これにより、後で、数値テ一ブルの値を用いて数値累積するとき、必要なデータ 1 0 5 3は全て若しくは殆どデータキヤッシュメモリ 1 1 7に格納されていることになる。ステップ 1 0 0 7では、処理中の多次元ガウス分布に関する残りの単一ガウス成分が有るかを判定し、ある場合には、その単一ガウス分布に関する中間テーブルのアクセスアドレス計算（加算演算）に戻って (ステップ 1 0 0 2 ) 同様の処理を行う。このとき、テーブルオフセッ卜の計算はやり直す必要ない。前述の通り、特徴べクトルの特徴成分は既に線形スカラ量子化されているからである。

第 1 8図の処理では、第 1のループ（ステツプ 1 0 0 2〜ステツプ 1 0 0 7 ) で、全ての特徴に対して中間テーブル 3 0 1， 4 0 1をァクセスする。こうすると、分布削減時に無駄となる計算が少なくでき、かつプリフェッチ（中間テーブルの値を用いた数値テ一ブルのデータプリフヱツチ）による遅れも生じない。例えば、一つの多次元ガウス分布に関する処理を行っているとき、分布削減条件 1の判定で、数値 " 0 " を判定したとき、当該一つの多次元ガウス分布に関する処理を中断できるから、そのような状況に至る場合であっても、無駄に成る処理は最小限に抑えられている。

ステップ 1 0 0 7の分岐処理を行わず、ステップ 1 0 0 6の後に、すぐにステップ 1 0 0 8を行うことも原理的には可能である。しかし、この場合、プリフェッチが有効に機能しない（一般に、メモリからキヤッシュにデ一夕転送するには多少時間がかかる）。また、分布の削減時にも数値テ一ブルへのアクセスが発生し、好ましくない。

従って、本実施例では、ステップ 1 0 0 8で、計算が必要な分布に限り、数値テーブルへアクセスして単一ガウスの（対数）値を求める。このとき、数値デ一夕は、常にキャッシュメモリに存在し、キヤヅシユミスミスペナルティは生じない。

多次元ガウスの（対数）値は、この単一ガウスの（対数）値からを計算する。この計算は、全ての単一ガウス分布の値の積（対数値の場合は和）で計算される。従って、ステップ 1 0 0 8では、単にテ一プル値を得るだけでなく、これを、既に累積されている値（デ一夕 1 0 5 7 ) に掛け合わせる（対数系では足し合わせる）処理を行う。この場合、最初の成分を計算する時には、累積の初期値として 1 (対数系では 0 ) が初期値として必要になる。その累積値は 1 0 5 7として図示されている。第 2のループ（ステップ 1 0 0 8〜ステツプ 1 0 0 9 ) で、全ての成分に対してステツプ 1 0 0 8の処理が実行されると、その累積結果は、多次元ガウス分布の値となる。したがって、ステップ 1 0 1 0では、原理的には、レジス夕に格納されている累積値をメモリにセーブする処理となる。更に未処理の多次元ガウス分布が有れば（ステップ 1 0 1 1 ) 上記処理 1 0 0 2に戻る。上述と同様に、テーブルオフセッ卜の計算は新たに行う必要はない。

もっとも、この多次元ガウスの値は、複数の分布の値を混合しなければならない。混合は全ての値の和（対数系では ADDL0G → addlog( a, b )= log{ exp( a) , exp(b ) }) によって混合されるので、同演算を累積値と実行し、それを新しい累積値としてレジス夕に格納する（ステップ 1 0 1 0 ) 。

この累積値 1 0 5 8を先の累積値 1 0 5 7と区別するため、これ以降、デ一夕 1 0 5 7の累積値を多次元累積データ、データ 1 0 5 8の累積値を混合累積データと呼ぶ。全ての単一多次元ガウス分布について混合累積データ 1 0 5 8が計算されると、ステップ 1 0 1 2によって、出力確率 2 5 6が計算される。基本的には、この混合累積が出力確率 2 5 6となるが、数式処理の仕方によっては、必要な定数デ一夕 1 0 5 4を付加することもある（対数系の処理でパラメ一夕を分離するなどして数値テ —ブルを少なくするなど）。この場合、定数テーブル 1 0 5 4から必要なデ一夕を取りだし、値を整えることもある。そして最終的に出力確率 2 5 6が計算される。

この第 1 8図に示した処理によって、一つの混合ガウスの計算が処理されたことになる。この処理は、計算すべき混合分布の全てに実行される（一般的な C M H M Mの場合、全ての H M Mの状態に対して、出力確率が定義されており、その場合、これら全てに値を求めなくてはいけない）。したがって、第 1 8図による計算の簡略化の効果は、これら全ての確率計算に及ぶことになる。

第 1 9図及び第 2 0図には、第 3図のステツプ 2 0 3の適応処理の一例が示される。第 1 9図では、いわゆる環境適応と呼ばれる適応処理において、 H M Mパラメ一夕—、具体的には混合ガウス分布の平均と分散を修正する例が示してある。第 2 0図には、修正したガウス分布の分散と平均から、各 1次元ガウス分布毎の中間テーブルのボイン夕を決定し、更新する処理手順が示されている。

第 1 9図に示される処理を詳細に説明する。ステップ 1 1 0 1によつて処理が開始されると、ステップ 1 1 0 2で雑音データの特徴を分析する。これは、例えば、周波数スぺクトルを用いるのであれば、 F F T (Fast Fourier Transform：高速フーリエ変換）などで実行できる。ステップ 1 1 0 3では、この分析デ一夕を基準に適応の可否を判定する。これは、パラメ一夕を決めた（修正した）時の雑音の性質と現在の雑音の性質との比較によって評価する。

比較の基準は、例えば、特徴べクトルの位相を比較の基準にするとか、周波数スぺクトルの相互相関性を評価するとか、様々なアプローチが考えられる。相互相関性を用いた場合、現在の雑音スぺクトル（デ一夕 1 150) とパラメ一夕決定時のスぺクトル（デ一夕 1 15 1 )の相互相関を求め、評価値 1 152とする。この相互相関は式 7として例示することができる。 max YSil · N (Ps Pn) '式 7 但し、 Λ {(2 ·)/ w|である。 Νは相互相

関性を評価するための学習デ一夕の数である。

第 19図では、雑音の特性変動に着目した例を示したが、一定間隔で強制的に適応する方法もある。この場合、ステップ 1 102は不要で、評価値 1 1 52には、時間情報（更新してからの時間）を格納し、一定時間以上経過で適応処理実行と判定すればよい。

いずれの場合でも、適応の判断は、評価値 1 1 52によって判断する c 適応が必要と判断されると、ステップ 1 105〜 1 107の処理が行われる。例えば、 r = 1 , 2 , 3 , …とするとき、雑音の特徴べクトルを、

n(T) = { m(r), "2(て）， … }とすると、ステップ 1 105によって、雑音デ一夕から、例えば式 8で示されるように平均を修正する。

Juki '式 8

1/2

ω'

但し、 KJ(T) = 、 nは学習デ一 eexxppj ηι— μι) /び z 夕である同様に、ステップ 06によって、例えば式 9で示されるように分散を修一ァ 1正する。

Ok

一 μ.Η² '式 9

2 (てび

但し、 (て)

exp|(/j 一 μι)' I G ϊ' また、ステップ 1 1 07によって、例えば式 1 0で示されるように混合重みを修正する。

(jOk =— て '式

T 1 0 cok I J [{(1 / 2πΟ" i) | expj (ni一 μϊ σί' 但し、 Kk(r)

Σ ^ωίΠ [{t^{1 2πσί})^υΐ } exp{(«' - "')' I °ΐ² ステップ 1 1 0 2で用いる分析は、必ずしも音声認識で用いる特徴分析法である必要はない。しかし、ステップ 1 1 0 5〜 1 1 07での特徴は、音声認識で用いる特徴分析パラメ一夕であることは当然である。従つて、仮にステップ 1 1 02で音声認識で用いる特徴分析でなければ (例えば、音声認識が L Ρ。ケプストラムでステツプ 1 1 02が周波数スぺクトルなどの場合）、ステップ 1 1 05〜ステツプ 1 1 07に先だつて必要な処理を実行する。

ステップ 1 1 0 5〜ステップ 1 1 07の処理は、全ての混合分布について行われる（ステツプ 1 1 08 ) 。そして、全ての混合分布について修正した後、本雑音の分析デ一夕 1 1 5 0を、想定特性 1 1 5 1に格納し（ステップ 1 1 09 ) 、ステップ 1 1 1 0で終了する。

《グローバル中間テーブル》第 1 9図の処理によって、混合分布を構成する 1次元のガウス分布の平均 ·分散は修正される。この様子は、例えば第 1 1図及び第 1 2図に例示される。このように 1次元のガウス分布の平均 '分散が修正される時、第 9図及び第 1 0図に示されるような線形スカラ量子化を行ったまま、数値テーブルを書き換えることなく、数値テーブルを適切にァクセスできるように、第 1 1図及び第 1 2図に例示されるような中間テープル 3 0 1， 3 0 2のアクセスの仕方が変更される。

前記中間テーブル 3 0 1を挿入することで、テーブルアクセスが余分に発生するが、第 1 8図の処理で説明したように、中間テ一ブル 3 0 1 に数値テーブルのァドレスを格納し、ループ分割 ·プリフヱツチを行えば、数値テーブルの前に中間テーブル 3 0 1が挿入されても、中間テーブル 3 0 1のアクセスによる処理増加は僅少に抑制できる。このことは、第 1 8図に基づいて先に示した通りである。

ここで着目すべきは、第 1 9図の処理によって分散や平均が修正されたとき、それを中間テ一プルにどのように反映するかである。例えば、中間テーブルに格納される数値テーブルのァドレスを書きかえるならば、分散及び平均の変化に応じて、第 1 1図から第 1 2図のアクセスができるように該当中間テーブル 3 0 1の内容を中間テーブル 3 0 2の内容に書き換えることができる。第 1 1図から第 1 2図の書換えを行うということは、第 1 1図及び第 1 2図に示した中間テーブル 3 0 1は、原理的には、全ての 1次元ガウス分布に対して定義されなければならないということである。しかし、各 1次元ガウス分布毎に中間テーブル 3 0 1を保有すれば、それだけで膨大なデータ量になってしまうし、平均 ·分散の修正に伴うテーブル更新コストも同様に膨大になる。

ここでは、そのような問題を避けるため、第 1 7図に示すグローバルテーブル（グロ一バル中間テーブルとも称する） 4 0 0を一つだけ保有する。同図にはグローバル中間テーブル 4 0 0の基本構造を示す。第 1 7図において、白い配列要素は数値テーブルのアドレス（正の値）、黒い配列要素は距離情報（負の値）が格納され、その他は値 " 0 " が格納されている。 X方向の配列のデータ領域の数は特徴成分の量子化数よりも大きくされている。これは、 1次元ガウス分布の平均の値に応じて中間テーブルの先頭位置が X方向にずらされるため、 X方向にはデ一夕領域を余計に採る必要があるからである。

このグローバル中間テーブル 4 0 0は、平均（〃）が標準テーブルの平均（〃 0) の場合、様々な分散における数値テーブルのアドレス（ォフセット）と前記距離情報が格納されている。第 1 7図の例は、左側の列が分散が最も大きい場合のパターンであり、右にいくほど分散は小さくなる。

このようなグローバル中間テーブル 4 0 0を作成すると、与えられた平均、分散に対応した中間テーブルのパターンを、グローバルテープル 4 0 0上に必ず出現させることができる。即ち、グロ一バル中間テープル 4 0 0の横方向（ Y方向）の位置は目的とする 1次元ガウス分布の分散（び）によって決定する。この分散によって選択されたカラムの配列は、中央が平均（〃）とされる一次元ガウス分布を実現する数値データをアクセスするためのァドレスデータの配列になっている。所望の平均 ( j ) に対しては、分散（び）によって決定されたカラムの配列データに対するアクセス開始位置を平均に応じて縦方向（X方向）にシフトさせて対応する。換言すれば、分散（び）によって決定されたカラムの配列デ一夕を縦方向にシフ卜させる。

例えば第 1 7図において、分布 1に対応する中間テーブル 4 0 1のパ夕一ンは、分散がび、平均が// 0の場合、第 1 7図において P 1を先頭アドレスとする配列要素で表現される。同様に、分散がび '、平均が〃 'の分布 2は、第 1 7図において P 2を先頭ァドレスとする配列要素から成る中間テーブル 4 0 2で表現される。分布に応じた中間テ一ブル 4 0 1， 4 0 2の先頭ァドレス（以下単にアクセスポインタとも称する） P 1 , P 2は、第 3 8図に例示されたボインタテーブル 4 2 0として予めテーブル化されていてもよい。前記ポィン夕テ一ブル 4 2 0は H M M デ—夕の一部を構成する。第 1 8図の処理において、特徴成分に対するァドレス計算 1 0 0 2では、処理する特徴成分の順番は予め決定しておくことができるので、その順番に従って必要な 1次ガウス分布を特定できるように中間テーブル先頭アドレスを予めテーブル化して用意しておけばよい。このテーブルは例えば第 3 8図のポインタテーブル 4 2 0 である。第 1 8図のステツプ 1 0 0 1で演算された特徴オフセットに加算する前記中間テーブル先頭ァドレスを、そのテーブル 4 2 0から取り出すことにより、必要な中間テーブルをグローバルテーブル 4 0 0から抽出することができる。

ポインタテーブル 4 2 0を用いることにより、グ口一バル中間テ一ブル 4 0 0を、参照専用のテーブル（テーブルの内容を一切書き換えない）とすることができるため、グローバル中間テーブル 4 0 0を他のガウス分布の処理と重複して利用しうても（共有化しても）、全く問題を生じない。そして、ポインタテーブル 4 2 0上で定義されたアクセスポイン夕（分布 1では P 1，分布 2では P 2 ) を中間テーブルの先頭ァドレスと看做すことで、あたかも実体として中間テーブルが存在するがごとく処理できる。グローバル中間テーブル 4 0 0を用いても第 1 8図の処理は全く変わらない。

第 1 9図の平均、分散の修正に対応するには、中間テーブルそれ自体の書き換えなど全く必要ではなく、単に、平均、分散に対応するァクセスポィン夕を計算し、これをアクセスポインタテーブル 4 2 0に反映するだけで十分である。すなわち、適応処理によって分散と平均が変化された場合には、元の中間テ一ブル先頭アドレス（アクセスポインタの値）を、分散と平均の変化に応じて変更することにより、中間テーブルの書き換えを行わずに対処できる。例えば、適応前に相当する分布 1に対応する中間テーブルのパターンが、第 1 7図において P 1を先頭ァドレスとする配列要素で表現されているとする。このとき、適応後に相当する分布 1に対応する中間テ一プルのパターンが、第 1 7図において P 2を先頭ァドレスとする配列要素に変更されるべき場合には、その分布 1の中間テ一ブルの先頭ァドレスポインタ（アクセスポインタ）を P 1 から P 2に変化させるだけでよい。その処理は第 3 8図に例示されるようなボイン夕テーブル 42 0に対して行えばよい。

そのための処理を概説すれば、まず、修正された分散と最も近い分散の列（分散カラム）を選択し、そして、平均の修正に対しては、標準ガウス分布の平均と修正された平均との差から、列の先頭位置を上下方向に移動する。

抽出すべき中間テーブルの先頭ァドレスの修正について更に詳しく説明する。先ず、標準テーブルを用いて、様々な分散、平均を持つ 1次元ガウス分布をアクセスできるようにすることを目的とする処理を考える。

f。（x。） = exp {-(x。-〃。）/び。 } とするとき、 x。→f。（x。）の標準テーブルを用いて任意の平均、分散を持つ f(x) = exp {- (X- の値を計算する場合について考える。このとき、 f。（x。） = f(x)の関係を満たす x。を Xを用いて表現する。

f₀(x₀)二 f(x)より、

log{f₀(x₀)}=:log{f(x)}

log{exp {- 。-〃。）/び。 } } = log{exp {- (x- /)/び } } (x₀-〃 ₀)/σ _ΰ=(χ- ι )1 σ

.'.XQ= ( び Q/ σ)(χ- ) + J ο

と式の変形を行うことができる。この式は、平均の位置を原点とするときの X。の位置の値（Xo-〃）が、同じく平均の位置を原点とするときの X の位置の値（X-〃）と値び _Q/びとによって決まる値に等しいことを意味する。上式を更に変形すると、

x₀= ( び。/ cr)(x-〃 + /z。び/び。）

となる。ここで、ひ = び。/び、 = -〃。び/び。と置と、

x₀=ひ（ X- )と表現できる。

そこで、次に、 C(x) 二ひ（X- ? )とするとき（ひ、 5は前述と同じ）、任意の平均及び分散を持つ C(x)の値を簡単なテーブルを用いて得ることを考える。 C(x)は本来 3次元テーブル（x，ひ， ) として把握すベきであるが、第 37図に例示されるように、 x_Q=ひ · Xを定義した 2次元テーブルを想定し、アクセス時に X方向に- 5ずらして C(x)を得るようにする。適応後の中間テーブルの先頭アドレスは、 - ?ずらされて最終的に得られるテ一プルの先頭位置に基づいて決定される。第 1 7図に従えば、その先頭ァドレスは、分布 2の P 2、即ち、対応される中間テ —ブルボイン夕の修正された値になる。

第 2 0図には第 1 9図の適応処理で修正されたガウス分布の分散と平均に対して前記対応するアクセスボイン夕の値を決定する処理手順の一例が全体的に示されている。処理が開始されると、標準の平均及び分散値 1 2 5 1と、適応によって得られた新たな平均値 1 1 53及び分散値 1 1 54とを用いて、前記ひ値及び/?値を計算する（ステツプ 1 2 02) 。そして、前述の通り、ひ値に基づいてグロ一バル中間テーブル 400のテーブルライン（カラム）を決定する（ステップ 1 2 03 ) 。更に、値を用いてテーブル先頭位置を決定する（ステツプ 1 2 04 ) 。決定されたテーブルライン及びテーブル先頭値からアドレス計算を行う（ステツプ 1 2 0 5 ) 。この計算ではテーブル構造を示すデータ（ィンデックステ一ブルのヘッダ） 1 2 5 3が参照される。例えば 2次元配列のァドレス計算は、テーブルラインの位置を T、先頭位置を S、 1ラインのテーブル要素数を E、 1要素のデータ長を 4バイト、グローバル中間テーブルの先頭ァドレスを A O、アドレスをバイトアドレスとすると、

A二 A 0 + 4 - { ( T一 1 ) · E + S - 1 }

によって演算される。 Aが、適応後のアクセスポインタの値になる。前記ステツプ 1 2 0 2〜ステップ 1 2 0 5までの処理は、全ての分布に対して繰り返えされる。これによつて、第 1 8図の処理で用いる中間テーブルの先頭ァドレスは、第 1 7図のグローバル中間テーブル 4 0 0 上のァドレスとして対応付けられる。

前述の説明から明らかなように、前記グ口一バル中間テーブル 4 0 0 は平均（ ) と分散（び）の値に基づいて参照できるが、上記説明では、抽出すべき中間テ一ブルの先頭ァドレスのボイン夕（アクセスボイン夕）を格納したボイン夕テーブル 4 2 0用いる説明としている。その場合には第 3 8図に例示されるように、特徴成分毎にそのアクセスボイン夕 P 0〜P nを備えることになる。アクセスボイン夕の値は前述の説明より明らかなように、分散と平均に基づいて算出することができる。したがって、そのアクセスボイン夕はそれに対応する分布の分散と平均に一意に対応付けすることができる。したがって、第 3 8図に例示されるように特徴成分毎に分散と平均を備えたテーブル 4 1 0を用意し、これに基づいてその都度、アクセスボイン夕 P 0〜P nの値を演算して求めてもよい。但し、前記テーブル 4 1 0を用いる場合には、適応時の処理は少なくなるが、中間テーブル 4 0 0を参照するための演算処理が増える。逆に、アクセスポインタテーブル 4 2 0を用いる構成では、中間テ一ブルを参照するための演算処理とデータ量を少なくすることができるが、適応時の処理は増える。前記特徴成分毎の平均及び分散、又は特徴成分毎のアクセスボイン夕は、混合 H M Mのための演算に必要な状態遷移確率などと共に H M Mデ一夕（第 3図の 2 5 1 ) としてシステムに保持されている。

第 4 2図乃至第 4 4図には 1次元ガウス分布の数値テ一ブルの例が示される。第 4 2図は、前記式 4に示される値、即ち第 4 2図の矩形 R 1で囲まれた式の値を、所要の分散毎に備えている。数値テーブルが保有すす値は、 _ 4 び〜 4 びの範囲とされる。これは、分布削減のための第 1 3図の中間テーブルの構成に対応させたものである。この数値テーブルのデータ構造は中間テーブルと共通性が有り、中間テ一プルが想定する分散に関する数値データを持つことになる。このような数値デ一夕を採用する場合、数値テーブルから参照したデータを積算しなければならないから、演算桁数若しくは演算精度と言う観点から、混合 H M Mの演算を行うマイクロプロセッサ 1 0 3は第 2図に例示されるように浮動小数点ュニットを備えていることが望ましい。

第 4 3図に示される数値テーブルは、そのデ一夕を整数演算でも利用可能なように、対数を採った値で数値テーブル化している。この場合には、矩形 R 2で囲まれた式の値が、第 4 2図の数値テーブルに格納されることになる。更に、矩形 R 3で囲まれた混合重みの対数値もテ一プルに保持しなければならない。第 4 2図との大き相違点は、整数演算でも対応できると言う点である。

第 4 0図及び第 4 1図には以上説明した多次元ガウス分布を用いた確率演算のためのテ一ブルアクセス手法が纏めて図示されている。第 4 0図において、 H M Mデ一夕には、例えば特徴成分毎にアクセスボイン夕の値がボイン夕テーブル 4 2 0として格納されている。例えばある特徴成分のアクセスボイン夕の値は P 1である。適応によってこれが P 2に変更されている。このときの演算では、 P 1から一意に決定される分散及び平均と適応によって変更された分散及び平均とに基づいてアクセスボイン夕の値 P 2が決定される。特徴抽出によって特徴成分毎に特徴ォフセットが演算され、更にこれに加算されるべきアクセスポィン夕の値 P 2が読み込まれて、中間テーブルの参照ァドレスが演算される。この参照アドレスで中間テーブル 4 0 0がリードされると、リードされたアドレスによって、その特徴成分に関する所定の分散及び平均に係る 1次ガウス分布の値が数値テーブルから読み出される。

前述の説明から明らかなように、音声認識時の混合 H M M演算において特徴成分に応じた 1次ガウス分布の取得は、複雑なパラメ一夕演算などを要せず、アクセスボイン夕の参照と、特徴オフセッ卜とアクセスポイン夕との加算という簡単な処理によって行うことができる。また、適応時は、アクセスポインタを修正すれば良く、グローバル中間テ一ブル 4 0 0及び数値テーブル 1 0 5 2の値を修正する必要は全くない。第 4 1図において、出力確率を演算する前に、特徴べクトルの各特徴成分に対して予め特徴オフセットを求めておく。そして、特徴成分毎にアクセスポィン夕の値と特徴オフセットによってグロ一バル中間テ一プル 4 0 0をアクセスして、 1次ガウス分布の数値デ一夕のァドレスを取得していく。そして、一つの多次元ガウス分布に含まれる 1次元ガウス分布の数値データのァドレスを全て取得したところで、そのァドレスによって数値デ一夕をアクセスする。このとき、それまでの間に、その数値デ一夕アクセス用のァドレスに対するデータプリフェッチを行つていれば、数値テ一ブルに対するアクセス時にキヤッシュミスを殆ど生じない。プリフェッチは M P U 1 0 3がデ一夕アクセスを行っていない夕イミングで適宜行うことができる。したがって、数値テ一ブルのァクセス前にグローバル中間テーブル 400のアクセスを行っても、数値デ —夕の取得が遅れることはない。また、グローバル中間テーブル 400 をマイクロプロセッサ 1 03内蔵の高速 R AM 1 0 6等に格納してあれば、グローバル中間テーブル 400のアクセス時間を実質的に無視し得るほど少なくすることも可能である。適応によって分散及び平均を修正する場合には前述の通り、抽出される中間テーブルの先頭を指すァクセスボイン夕の値を修正すればよい。

《携帯情報端末装置》

第 2 1図には前記音声認識のためのシステムを適用した携帯情報端末装置 1 2 0の外観の一例が示される。第 2 2図には携帯情報端末装置 1 2 0のプロック図が示される。同図に示される携帯情報端末装置 1 2 0は、特に制限されないが、前記音声認識機能と共に、小型コンビュ一夕装置の機能を有し、更に携帯電話機能を備えている。ケ一シングの中央部部にはディスプレイ 1 08とキーボード 1 23が配置され、その端にはマイク（マイクロフォン） 1 07、 1 30 1と、スピーカ 1 307， 1 308が設けられている。

第 2 2図において、 MPU 1 03、 ROM 1 0 5、 RAM 1 06, V I F 1 04、ディスプレイ 1 08は第 1図で説明した音声認識装置に備えられている回路と同じであり、それらは、前記音声認識機能、小型コンピュ一夕装置の機能、及び携帯電話機能に共通利用される。

第 2 2図において 1 303で示されるものは、携帯電話ュニット（P H S)である。携帯電話ュニット 1 303はアンテナ 1 309を介してたその他の携帯電話や一般の有線電話と通話することができる。スピ一力 1 3 07 , 1 308は D/ A変換器 1 30 5 , 1 30 6を介して MP U 1 03などに接続される。周辺回路 1 3 0 2は赤外線ィン夕フェース回路や、フラッシュメモリーカードィン夕フェース等を実現している。携帯情報端末装置 1 2 0は、特に制限されないが、 2系統のマイク入力を想定している。マイク 1 3 0 1は A/D変換器 1 2 04を介して M PU 1 0 3又は P H S 1 3 0 3に接続可能にされる。前記マイク 1 0 Ί は A/D変換器 1 0 2を介して MPU 1 0 3に接続可能にされる。双方のマイク 1 0 7， 1 3 0 1は音声認識や電話に利用されるが、その利用形態の詳細については後説明する。

携帯情報端末装置 1 2 0は、携帯性重視の観点から動作電源としてバッテリ 1 2 1を用いる。バッテリ 1 2 1による装置の動作時間を延ばせるようにするために、商用電源を常時動作電源として用いるシステムに比べて低消費電力が厳しく要請される。これに答えるため、 MPU 1 0 3には、動作速度（動作クロック周波数）や、 M I P S (Million Instruction Per Second) 値、或いは消費電力が比較的小さなものが採用される傾向にある。例えば、消費電力が 1 W程度、動作クロック周波数が 2 0 0 MH z程度、デ一夕処理能力が 3 0 0 M I P S程度の MP U 1 0 3を採用することができる。

このとき、 MPU 1 0 3を用いて前記音声認識処理を行う場合、混合多次元ガウス分布の計算に、線形量子化の手法とグローバル中間テープルの手法を採用しているので、音声認識処理における演算処理の高速化、そして適応時におけるパラメ一夕変更の高速化が実現されており、そのようなデータ処理能力の比較的低い MP U 1 0 3であっても、音声認識のリアルタイム性若しくは迅速性を阻害することなく、実用に耐え得る程度の速度で音声認識を行うことができる。

混合多次元ガウス分布の計算に、線形量子化の手法とグローバル中間テーブルの手法を採用した音声認識処理プログラムは、例えば R〇 M 1 0 5に格納されている。この: OMは、コンピュータである MPU 1 0 3によってによって読み取り可能な記録媒体である。前記 ROM 105 がフラッシュメモリなどの電気的に書き換え可能な不揮発性メモリである場合に、前記音声認識処理プログラムを外部から当該 R 0 Mに口一ドして実行することも可能である。例えば、周辺回路 1302にイン夕フェースされる図示を省略する CD— R〇Mドライブ装置から必要な音声認識プログラムを ROMに転送することができる。このとき、前記 CD— ROMは、前記音声認識処理プログラムを格納した、コンビュ一夕読み取り可能な記録媒体の一例とされる。

《2マイク型雑音適応》

認識すべき音声から雑音成分をキヤンセルするために 2個のマイクを用いる公知の技術（例えば AN C ： Adaptive Noise Canceller) が有る。この技術が採用されているとき、 2個のマイクを用いて雑音適応を行う場合について説明する。前記マイク 107は主マイクとされ、雑音と共に音声を拾うことができる。これに対して他方のマイク 130 1 は信号成分に比べて相対的にノィズ性分を大きく拾うようにされた雑音専用の副マイクである。例えばこれは、双方のマイク 107 , 130 1の指向性や配置を選ぶことによって実現されている。

第 34図には 2マイク型雑音適応の原理が示される。音声区間では雑音と音声が重畳され、これが主マイク（ 107) によってサンプルされる。副マイク（ 130 1 ) は専ら雑音をサンプルし、そのサンプル信号には音声信号成分は殆ど含まれない。主マイク（ 107)で得た信号に含まれる雑音の特徴と副マイク（ 1301 )で得た雑音の特徴とは当然相異される。そこで、無声音区間において主マイク（ 1ひ 7 ) と副マイク（ 130 1) の特性が評価されている。例えば、主マイク（ 107) の特性を fm(w)、副マイク（ 130 1 ) の特性を fs(w)とすると、乗法性の歪を考えれば、（0 )=ひ（0 ) ^3(0；)と表現することができる。無声音区間では、主マイク（ 1 07) と副マイク（ 1 30 1 ) とからの信号に基づいて上記ひ（ω)を決定することができる。主マイク（ 1 0 7) からの入力が所定の閾値を越えた音声区間では、副マイク（ 1 30 1 ) からの入力に対して雑音分析を行い、 fs(w)の計算を行う。そして、ひ（ω) · fs(w)によって fm( j)の特性補正を行う。その後に、前記第 1 9図に示される平均、分散、混合重みの修正を行い、更に第 20図で説明したようにポインタテ一プル 42 0のアクセスポインタの値を修正する。

第 23図には、前記携帯情報端末装置 1 20において 2個のマイクを用いて雑音適応を行う場合の処理手順の一例が詳細に示される。

ステップ 2 0 2のシステム立ち上げで ROM 2 5 0からシステムデ —夕を読み込と、ステップ 140 1で主マイクとして利用されるマイク 1 07に音声が入力されたか否かを判断する。ステップ 1402で、音声が入力されていないと判断すると、ステップ 1403を経由し、再びステップ 140 1の処理に戻る。これは、一種の無限ループを構成し、主マイクに音声が入力されるまで、繰り返される。

ステップ 1 40 3では、主マイクに利用されるマイク 1 07と副マイクとして利用されるマイク 1 30 1の特性を比較し評価する。これは、音声区間で主マイクから雑音の特性を副マイクの雑音から推定するため、予め主マイクと副マイクの特性の違いを補正するためである。

ステップ 1 40 2で主マイクに音声が入力されたと判断されると、ステツプ 1404において、副マイク音声デ一夕（データ 1 4 5 1 ) を畐リマイク雑音分析により特徴分析する（ステップ 1404) 。そして、ステツプ 1403で評価した主副マイク特性（ 145 2 ) を用いて、前記ステップ 1404で得られた分析結果を補正する（ステップ 1405 )。そして、前記ステツプ 1404による分析の結果に基づいて、ステップ 1 4 0 6で適応を行うか否かを判定する。適応を行う場合には、前記ステツプ 1 4 0 5で補正された結果を用いて、雑音適応を行う（ステツプ 1 4 0 7 ) 。ステップ 1 4 0 7の処理は、例えば、第 1 9図の手法とほぼ同じ手法（第 1 9図において相違点は適応可否の判定に係る処理を行わなくてもよいと言う点である）により実現できる。ここで、修正された H M Mパラメ一夕（混合ガウス分布の平均 .分散）のデ一夕（ 1 4 5 3 ) から、中間テ一ブルの先頭ァドレスを指すアクセスポィン夕のテーブル 4 2 0を更新する処理が行われる（ステツプ 1 4 0 8 ) 。この処理は、例えば第 2 0図の手法で更新することができる。ここで更新されたポィン夕テ一ブル 4 2 0は、その後の、出力確率計算 2 1 2ゃビ夕ビザーチ 2 1 4に利用される。

尚、 2マイク型の音声認識では前述の A N Cの手法の他に、 1対のステレオマイクを用いて得られる音声情報を信号成分偏重の情報とノィズ成分偏重の情報に分離してから、前記 A N Cの手法を採用する公知の技術（例えばビームフォーマ）を適用することも可能である。

《トランシーバ型通話における音声認識》

第 2 1図及び第 2 2図に例示される携帯情報端末装置 1 2 0において音声認識対象は携帯電話ュニット 1 3 0 3による通話先からの音声 (通話先音声）と、端末装置 1 2 0のマイク 1 0 7からの入力音声（端末側音声）との 2種類ある。前記通話先音声に対する音声認識（通話系音声認識）と端末音声に対する音声認識（端末系音声認識）には、第 1 に、トランシーバ型通話における音声認識が考えられる。即ち第 3 5図に例示されるように、音声を通話先音声と端末音声との何れか一方に切換え可能にして、双方の音声を排他的に認識可能にする。そのような切換え操作は、端末系からの音声入力と通話系での受話とを切りかえるスイッチ 1 3 0 2 S Wで行うことができる。第 2 2図においてこのスィッチ 1 3 0 2 S Wは便宜上周辺回路 1 3 0 2に含まれる回路として図示されている。双方の音声の特徴は相当異なることが予想される。このとき、 H M Mの数値テーブルを通話先音声用と端末音声用に別々に持つならば、そのデータが膨大になり過ぎ、また、 H M Mの数値テーブルを共通化する場合には、通話先音声と端末音声とを切換える毎に適応のための膨大な処理が必要になって、リアルタイム処理が全く不可能になることも予想される。そこで、通話先音声と端末音声とで H M Mの数値テーブルと、前記グロ一バル中間テ一ブルとを共通化し、前記ポインタテ一ブル 4 2 0を通話系音声認識と端末系音声認識とに別々に用意する。そして、別々に用意されたボイン夕テーブルを入力系毎に使い分ける。通話系音声認識の場合にはそれに割当てられたボイン夕テーブルを用いてグローバル中間テーブルをアクセスし、端末系音声認識の場合にはそれに割当てられたポインタテーブルを用いてグロ一バル中間テーブルをアクセスする。尚、第 4 0図において 4 2 0— 2は通話系のボイン夕テーブル、 4 2 0 _ 1は端末系のポインタテーブルを意味する。

第 2 4図には携帯情報端末装置 1 2 0を用いたトランシーバ型通話における音声認識の処理手順の一例が示される。

ステップ 2 0 1で処理が開始されると、ステップ 2 0 2で: O M 2 5 0からシステムデータを読み込み、処理が開始される。この例では、端末系からの音声と通話系からの音声とを各々独立に入力できる特徴を生かし、ステップ 1 5 0 1で、当該音声が、通話系からの音声か端末系からの音声かを判定する。例えば、通話系からの受話と端末系からの送話を切換えるスィッチ 1 3 0 2 S Wの状態によって判定する。端末系からの送話入力であることが判定されると、ステップ 1 5 0 3より端末音声データが音声認識対象に取り込まれる。通話系からの受話入力と判定されると、ステップ 1 5 0 4より携帯電話ュニット 1 3 0 1からの通話系受話音声デ一夕が音声認識対象として取り込まれる。ステップ 1 5 0 5では、個々の入力から、無音区間を抽出し、雑音の性質を分析する。ステップ 1 4 0 6では、ここで入力された音声の無音区間のデータを用いて適応するか否かを判定する。適応する場合、適応処理のステツプ 1 4 0 7で、分散や平均などの H M Mパラメ一夕を修正し、それに応じて、ステヅプ 1 4 0 8でボイン夕テーブル 4 2 0のボイン夕値を更新する。これ以降は、第 2 3図と全く同じように処理されるので、その詳細な説明は省略する。

《セパレート型通話における音声認識》

第 2 1図及び第 2 2図に例示される携帯情報端末装置 1 2 0を用いた通話系と端末系の夫々の音声認識の手法として、第 2に、セパレート型通話における音声認識が考えられる。即ち第 3 6図に例示されるように、通話先音声（受話音声）と端末音声（送話音声）とを混在させて音声認識可能にするものである。この例においては、前記スィツチ 1 3 0 2 S Wは不要である。この場合も事情は上記同様であり、通話先音声と端末音声とで H M Mの数値テーブル及び前記グロ一バル中間テ一ブルを共通化し、中間テーブルのポインタテーブルを通話系音声認識と端末系音声認識との夫々に用意する。但し、端末系と通話系の音声区間を別々に検出しなければならない。これによつて、通話系と端末系の会話が重なっても対応できるようになる。尚、グロ一バル中間テーブルを用いず、特徴成分毎に中間テーブルを割当てる場合には、中間テーブルは通話系と端末系とで夫々別々に持たなければならない。

第 2 5図には携帯情報端末装置 1 2 0を用いたセパレート型通話における音声認識の処理手順の一例が示される。この例では、通話系と端末系各々の系に適応させ調整したパラメ一夕セットを 2個保有するシステムを構成することになる。この場合、数値テ一プル 1 0 5 2やグロ —バルテーブル 4 0 0は通話系と端末系で同一であり、中間テーブルのアクセスボイン夕を保有するボイン夕テーブル 4 2 0を 2組持てばよいことになる。

第 2 5図において、ステップ 2 0 1で処理が開始されると、まず最初に、ステヅプ 2 0 2において、システムの立ち上げを行う。本システムでは、端末系音声入力と通話系音声入力が別になつていることを利用し、各々の系統毎に処理を行う。ステップ 1 5 0 3では、端末系から音声を入力する。ここで、適応の必要があれば、ステップ 1 5 0 5— 1で無音声区間を検出し、ステップ 1 4 0 7— 1で雑音適応を行う。そして、この適応に応じて、ステヅプ 1 4 0 8で中間テ一ブルのポィン夕テーブル 4 2 0 - 1を更新する。

これと同様の処理は、通話系でも行われる。本装置のように携帯電話ユニット 1 3 0 3と一体になつた装置であれば、ステヅプ 1 5 0 4により通話系から認識すべき音声信号を入力する。その後は、前記と同様のステップ 1 5 0 5— 2、ステップ 1 4 0 7— 2、ステップ 1 4 0 8— 2 を行う。

ここで注意すべきは、音声入力系と中間テーブルのボイン夕テーブルとは夫々 2系統持つ必要があるが、音声認識処理プログラム並びにグロ一バル中間テーブル等は単一の（同じもの）で足りる。端末系と通話系各々に別々の認識処理をしているわけではないが、各々に別々の認識処理をするのと同等の性能及び機能を得ることができる。

ステップ 1 6 0 1では、重なり調整を行う。これは、端末系と通話系の音声が重なった（例えば、一緒に話した）場合に、調整するものである。これは、簡単な例として、各々の入力音声毎に音声区間検出を行い。先に区間を検出した方の終了を待って、後に区間を検出した方の処理を行うことでも実現できる。このようにして、音声区間の信号（ただし、端末系か通話系かの区別をするための属性デ一夕あるいはフラグを有する）が得られたら、ステップ 2 1 2で特徴分析、ステップ 2 1 3で出力確率の計算、ステップ 2 1 4でビ夕ビサーチを行うことで、系統属性付の認識結果（データ 2 5 4— 2 ) が得られる。ここで、系統属性とは、端末系か通信系かを区別する属性デ一夕を意味する。

上記処理では、複数系統のデータセットが必要となる処理も、中間テ —ブルのポインタテーブル 4 2 0だけ系統毎に保有すれば済む。すなわち、この中間テーブルのポインタテーブルだけを 2系統持ち、グロ一バル中間テーブル 4 0 0や数値テーブル 1 0 5 2などは端末系と通話系で全て共通でよい。

《話者適応をサポートする音声認識》

第 2 6図には話者適応及び雑音適応を行う音声認識システムにおける音声認識処理の手順の一例が示される。ここでは、時間情報 1 7 5 2 に基づいて一定時間間隔で適応処理が行われるものとする。

先の例と同様に、ステップ 2 0 1で処理が開始されると、先ず最初に、ステップ 2 0 2において、システムの立ち上げを行う。システムが立ち上がると、ステップ 1 7 0 1により、音声データの取り込みが行われる。そして、ステツプ 1 7 0 2において時間情報 1 7 5 2をインクリメントする。ここで、時間情報は、クロック単位でも良いし、フレーム単位でも良い。適応を行うべきかの判断（ステップ 1 7 0 3— 1， 1 7 0 3 - 2 ) では、時間情報 1 Ί 5 2が一定値以上であるかを判別し、一定値以上の場合に適応を実行する。適応しない場合、ステップ 2 1 2へ移行し、音声認識を開始する。

雑音適応を行う場合、先ず、ステップ 1 7 0 4— 1で雑音デ一夕を入力し、それに応じてステツプ 1 7 0 5— 1でパラメ一夕を修正する。例えば、 2マイク系では、第 2 3図の方法（ステップ 1 4 0 4〜ステップ 1 4 0 7 ) と同じでもよい。そして、ステップ 1 7 0 6— 1において、修正された分散、平均 1 4 5 3に応じてグロ一バル中間テーブルのァクセスボイン夕ーテーブル 4 2 0を修正し、時間情報 1 7 5 2をリセット (例えば、 0を設定）する。そして、音声認識処理（ステップ 2 1 2〜ステップ 2 1 4 ) を行う。

話者適応する場合も同様である。雑音適応の場合と同様に、ステップ 1 7 0 3— 2の適応判断では、前記時間情報 1 7 5 2が、一定以上になつた場合に適応を実行する。ただし、雑音適応の時間間隔と必ずしも同一でなくとも良い。ステップ 1 7 0 4— 2では、雑音適応の場合と異なり、音声区間を抽出する。ステップ 1 7 0 5— 2では、所謂教師なしの話者適応を行う。この修正に基づいてい、前記ボイン夕テープル 4 2 0 を更新する。前記教師なしの話者適応とは、予め、適応のための事前学習を行わない話者適応方式である。

上記雑音適応及び話者適応は、一定間隔で、いわば割り込みのごとく発生する。適応を行わない場合には、直接にステップ 2 1 2へ飛び、音声認識を行う。ここから、ステップ 2 1 4までは、先に示した例と同様である。

第 2 7図には教師なし話者適応を実行する音声認識システムの別の例を示す。ここでは、特に頻繁に使用するユーザを登録し、当該話者の音声では、当該話者向けのボイン夕テ一ブルに切り替えるシステムの例である。登録話者以外の場合には一般向けのボイン夕テ一ブルに切り替える。

先の例と同様に、ステップ 2 0 1で処理が開始されると、先ず最初に、ステップ 2 0 2において、システムの立ち上げを行う。システムが立ち上がると、ステップ 1 7 0 1により、音声データの取り入れが行われる。ステップ 1 8 0 1では、話者識別のための特徴分析（例えば、高周波の成分の分析）を行う。これによつて話者識別様の特徴デ一夕 1 8 5 1が取得される。

ステップ 1 8 0 2では、前記話者識別用特徴デ一夕 1 8 5 1 と識別情報 1 8 5 2とを用いて話者識別が行なわれる。例えば、予め話者特徴を識別情報 1 8 5 2として登録しておいて、話者特徴データ 1 8 5 1に最も近い登録パターンが有るかを識別して話者を判定することができる。この話者識別（ステップ 1 8 0 2 ) 処理で判定可能な話者に対しては夫々の処理系が設けられている。各々の処理系は、処理（プログラム）は同一であるが、話者毎並びに一般話者に対して、夫々固有のアクセスボイン夕テーブルなどのパラメ一夕が設けられている。もっとも、適応可否の判断は、各々の話者に応じて（パラメ一夕に応じて）異なることから、第 2 7図では、適応処理は話者毎に分離して表現されている。ここでは、登録話者の分とデフォルト（一般話者向け標準パターン）の分とのパラメ一夕セットを用いる。例えば、 2人登録していれば、 3 系統のパラメ一夕セットが必要になる。各パラメ一夕セットには、少なくとも、ポインタテーブルが含まれている。

ステップ 2 1 2以降は、先に示した例と同様の認識処理が行われる。ただし、使用されるグロ一バル中間テーブル 4 0 0のポィン夕テ一ブル 4 2 0は各々の話者毎に与えられている。グローバル中間テーブル 4 0 0は全ての話者に共通とされる。このようにすれば、各種テーブルを形成するメモリ容量を抑制することができる。尚、グロ一バル中間テープルを話者毎に別々に設けることも可能である力、その場合には、グロ一バル中間テ一ブルによるメモリ使用量が膨大になる。

第 2 8図には教師なし話者適応を実行する音声認識システムの更に別の例を示す。第 2 7図と同様に、特に頻繁に使用するユーザを登録し、当該話者の音声では、当該話者向けのパラメ一夕セットに切り替えるシステムの例であるが、特にこの例では、全体の登録話者数を一定数に限定して、使用頻度を考慮するシステムとしている。

先の例と同様に、ステップ 2 0 1で処理が開始されると、先ず最初に、ステップ 2 0 2において、システムの立ち上げを行う。システムが立ち上がると、ステップ 1 7 0 1により、音声デ一夕の取り入れが行われる。ステップ 1 8 0 1では、話者識別のための特徴分析（例えば、高周波の成分の分析）を行う。分析された話者識別用特徴データ 1 8 5 1より、ステップ 1 8 0 2で話者識別が行なわれる。これには、識別情報 1 8 5 2を用いる。例えば、予め話者特徴を登録しておいて、最も近い登録パ夕一ンを選択するなどにより実現できる。この話者識別 1 8 0 2において、処理系が選択される。これら各々の処理系では、処理プログラムは同一であるが、使用するボイン夕テーブルが異なる。もっとも、適応可否の判断は、各々の話者の特徴に応じて異なることから、第 2 8図では、話者毎に分離して表現している。以上の点は、第 2 7図の場合と全く同じである。

特に第 2 8図の例では、ステップ 1 9 0 1において、識別情報の修正を行う。ここでは、第 2 7図で用いた情報の他に、各登録話者の使用頻度を管理情報としたテーブル（話者管理テーブル）を使用し、登録者数を一定数に限定する。この処理を行った後は、第 2 7図で説明した手順と全く同じ処理が行われる。

前記識別情報修正処理（ステップ 1 9 0 1 )の詳細を第 2 9図及び第 3 0図を用いて説明する。第 2 9図では、識別情報 1 8 5 2の内、話者管理に関する管理テーブル（単に話者管理テーブルとも称する） 5 0 0 の構造を示す。ここでは、登録話者の欄 5 0 1に対して、使用頻度の欄 5 0 2 と、ポインタテーブル 4 2 0へのポインタ（データポインタ）の欄 5 0 3とを有し、これらの欄のデータは、登録話者毎に使用頻度順にソート可能にされている。このような話者管理テーブル 5 0 0は、 1系統のデ一夕セットでは不要であるが、複数系統の場合、必要になる。ただし、第 2 5図や第 2 7図の例のように構造が固定の場合（ソート不要の場合）には、あえてテーブル化しなくても、単なる参照データとしてデ一夕ボイン夕などの情報を備えていればよい。

第 2 8図の識別情報修正のステップ 1 9 0 1では、例では、頻度情報によってテーブル構造の修正及び変更を行わなければならない。これについて簡単に説明する。この処理手順は第 3 0図に示される。ステップ 2 0 0 1が開始されると、先ず、ステップ 2 0 0 2において、識別された話者に該当する話者がリスト（話者管理テーブル 5 0 0 ) に存在するか否かを判定する。もし、リストに無い場合、ステップ 2 0 0 3において、最下位の登録話者と今回の話者とを入れ替える。ステップ 2 0 0 3 のリス卜の入れ替えでは、最下位のデータを消去し、新しい登録話者の I D (これは、話者認識における登録 I D ) を登録話者の欄に書き込み、頻度情報を 1より大きな値（例えば、 5 ) に設定する。データボイン夕は前者に割当てられているものを引き継ぐが、該当するグローバル中間テーブル 4 0 0のボイン夕テ一ブル 4 2 0は、標準パターンに相当するものに設定（初期化）する。

ステップ 2 0 0 4では、頻度情報を更新する。これは、話者識別によつて選ばれた話者が登録話者である場合に当該登録話者の頻度情報をインクリメントし、該当しない登録話者の頻度情報をデクリメントする。このようにすれば、初期化してからあまり使用されな話者の頻度情報は、初期化頻度値（本例では、 5 ) より小さくなり、初期化した話者より下位になる。すなわち、初期化し登録されたばかりの話者がすぐにリストから削除されないようにすることができる。ステップ 2 0 0 5では、上記操作に伴う順位の変更に対して、使用頻度でソ一トを行う。ソ一卜の方法は色々あるが、例えば、ディクリメントされたグループの順序関係は保たれているから、第 3 3図に基づいて後で説明するようなバブルソー卜で効率的に実行できる。すなわち、初期化されたリストとインクリメントされたリストのみをバブルソ一トで処理すれば良い。この様子を第 3 1図乃至第 3 3図に示す。

第 3 1図は、初期化で新しく入れ替えられたリストに対する操作の例を示す。この場合、最下位から順にバブルソートする。第 3 2図は、既に存在するリストに対する操作の例である。この場合、リストが存在する位置からバブルソートする。着目したリスト以外のリス卜の頻度情報は 1づっ減少するため、着目リストの順位は、必ず上昇する方向に動く。従って、着目リスト以外のリス卜の操作は必要ない。

この手順をフローにしたものが、第 3 3図である。ここでは、ソートの処理を示す。ステップ 2 1 0 1で処理が開始されると、ステップ 2 1 0 2でソ一トリストが選択される。これは、着目している話者のリストである。ステップ 2 1 0 3では、直上の頻度情報と比較する。順序関係が正しい場合、ステツプ 2 1 0 5で終了する。順序関係が正しくない場合、直上のリストとリストを入れ替え、ステップ 2 1 0 3に戻る。この処理は、順序関係が正常になるまで（直上のリストの頻度情報より小さくなるか、最上位に到達するまで）繰り返され、ステップ 2 1 0 5で処理を終了する。

上記実施例によれば以下の作用効果を得ることができる。

上記出力確率の演算では、全ての混合多次元ガウス分布の計算において、特徴成分を同一スケールで線形量子化しているから、特徴べクトル (浮動小数あるいは固定小数に相当する整数値）をスカラ量子化する処理は、各特徴毎に 1フレーム当り 1回で良い。さらに、参照すべきデー夕とそのデータが属する中間テーブルの先頭ァドレスとの差（特徴オフセット若しくはテーブルオフセット）も、特徴成分毎に共通である。したがって、単一ガウス分布の計算は、中間テーブルの先頭アドレスの口 —ド、中間テ一ブルの先頭アドレスと特徴オフセットの加算、中間テ一ブルのアクセス、数値テ一ブルのアクセス、で実行できる。これにより、出力確率の演算速度を増強することができる。

適応においては数値テ一ブルそれ自体の書換えが不要である。ボイン夕テーブルを用いる場合には中間テーブルの書換えも必要ない。適応による分散や平均の変化に応じてポィン夕テ一プル上のアクセスボイン夕の値だけを修正すれば済む。これにより、適応処理も高速化することができる。

数値テーブルは、外部メモリに格納することが一般的であるが、中間テーブルのアクセスによって数値テ一ブル上のデータァドレスを一つ得た後に、すく、に数値テーブルのアクセスを行うのではなく、多次元ガウス分布毎に全てのデ一夕ァドレスを予め求めてから、数値テーブルのアクセスを行うから、数値テーブルのアクセスを開始するまでの間に、デ一夕アドレスのデ一夕をキャッシュメモリ 1 1 7にプリフェッチすることができる。したがって、数値テープルのァクセスではキャッシュヒットとなり、数値テーブルのアクセスにおけるキヤッシュミスを回避することができる。

以上のことから、音声認識のために出力確率を演算するとき、テープル参照のための一連のメモリアクセスにおいて、キャッシュミスの発生なしに、 3回のデ一夕ロードと（ァドレス計算のための） 1回の加算でガウス分布の数値が得ることができる。中間テーブルのアクセス動作が増えても、出力確率の演算を著しく高速化することができる。

また、 1次元ガウス分布の分散と平均に一意に対応させて中間テープル 4 0 1 , 4 0 2を抽出できるグロ一バル中間テーブル 4 0 0を採用し、グロ一バル中間テーブル 4 0 0から抽出される中間テーブル 4 0 1 , 4 0 2の先頭ァドレスは、ボイン夕テーブル 4 2 0上のアクセスボイン夕で指定し、抽出された中間テーブルに対するアクセス位置は特徴成分を線形量子化して得られる特徴オフセッ卜によって指定する。したがって、適応により、分散や平均が変更されても、中間テーブルの書き換えは発生せず、単に、変更に係るアクセスボイン夕の値をボイン夕テーブル上で書き換えて対応でき、適応処理の高層化も実現することができる。また、アクセスボイン夕の値は分散や平均と相関が有るから、適応によって分散や平均が変わるとき、それに応じてアクセスボイン夕の値を変更する処理は簡単になる。

アクセスボイン夕テーブルを複数セット設けておき、話者適応などによってアクセスポィン夕テーブルを切換えて使用することにより、話者適応の高速化を図ることができる。

以上本発明者によってなされた発明を実施例に基づいて具体的に説明したが本発明はそれに限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能である。

例えば、データ処理システムは携帯情報端末装置に限定されない。携帯電話機能は省略してもよい。パーソナルコンピュータシステムで実行させることも可能である。

データプロセッサの構成は第 2図に限定されない。デ一夕プロセッサは、マイクロプロセッサやマイクロコンピュー夕と称されるものを総称する。デ一夕プロセッサは命令をフェッチし、フェッチした命令を解読して演算制御処理を行う回路であり、 C P U (中央処理装置）を備えていればよい。デ一夕キヤッシュメモリ或いは高速 R A Mを内蔵していれば更に好ましい。高速内蔵 R A Mにはグローバル中間テーブルゃポイン夕テ一ブルなどを常駐させる。

また、 H M M音声認識のための出力確率演算のためのプログラムが格納されるコンピュータ読み取り可能な媒体は、フロッピ一ディスク、磁気テープ、ハードディスク等の磁気記憶媒体、 C D— R O Mや M O等の光学的記憶媒体、メモリカード等の半導体製記録媒体、或いはそれ以外のどのような媒体であってもよい。産業上の利用可能性

本発明は、 H M Mを用いた音声認識技術に広く適用することができ、例えば、マイクロコンピュー夕で制御され若しくは電池駆動される携帯情報端末装置等に実現される音声認識に適用して有効な技術に関するものである。また、本発明に係る音声認識のための出力確率の演算処理プログラムは、これをコンピュータ読み取り可能な記録媒体や通信回線などを介して、パーソナルコンピュータなどのコンピュータに口一ドして利用することも可能である。

Claims

請求の範囲 .特徴べクトルに対して H MM音声認識を行なうためにデータプロセッサが中間テ一ブル及び数値テーブルを参照して混合多次元ガウス分布によって表現される出力確率を演算可能なデ一夕処理システムであって、

前記数値テーブルは、複数種類の 1次元ガウス分布を基にした夫々の分布の数値を格納する領域を有し、

前記中間テーブルは、前記特徴べクトルの特徴成分の値に対する線形量子化値に基づいて選択される領域にその量子化値に対応する前記数値テーブルの値の所在を示すためのァドレス情報を格納する領

¾¾を有し、

前記データプロセッサは、前記特徴成分の値を線形量子化すると共に、特徴成分毎のアクセスボイン夕により中間テーブルを選択し、前記線形量子化された値を基に前記選択した中間テーブルよりァドレス情報を取得し、取得したァドレス情報を用いて数値テーブルを参照する処理を行い、数値テーブルから参照した値に基づいて前記出力確率を演算可能であることを特徴とするデータ処理システム。

.混合多次元ガウス分布の多次元ガウス分布毎に特徴成分毎の前記ァクセスボイン夕が配置されるアクセスボイン夕テ一ブルの形成領域を有し、データプロセッサは、前記アクセスポィン夕テーブルのァクセスボイン夕を用いて中間テーブルの選択を行なうものであることを特徴とする請求の範囲第 1項に記載のデータ処理システム。

.前記 1次元ガウス分布を基にした夫々の前記分布全体は 2の N乗個の数値によって表現され、前記特徴成分の量子化値はその値の上位 N ビットであることを特徴とする請求の範囲第 1項又は第 2項に記載のデータ処理システム。

. 前記デ一夕プロセッサは、前記数値テーブルを参照する処理を特徴成分毎に繰り返して多次元ガウス分布の値を演算し、この多次元ガウス分布の値を演算する処理を所定回数繰り返して混合多次元ガウス分布によって表現される出力確率を演算するものであることを特徴とする請求の範囲第 1項又は第 2項に記載のデータ処理システム。 . 前記中間テーブルは、前記数値テーブルの基準になる 1次元ガウス分布の平均位置を起点に分散の複数倍の範囲に対して前記ァドレス情報を格納する領域を有し、その外側には、前記平均からの距離情報を格納する領域を有し、前記データプロセッサは、多次元ガウス分布の値を演算するために前記数値テーブルを参照する処理を特徴成分毎に繰り返していくとき、中間テーブルから参照した情報が前記距離情報であるときこれを累積し、その累積値が所定値を越えたとき、当該多次元ガウス分布のための演算を中止するものであることを特徴とする請求の範囲第 4項に記載のデータ処理システム。

. 前記中間テーブルは、前記距離情報の外側に固定値を格納する領域を有し、前記データプロセッサは、前記中間テーブルから前記固定値を参照したとき、現在処理中の当該多次元ガウス分布のための演算を中止するものであることを特徴とする請求の範囲第 5項に記載のデ —夕処理システム。

.特徴べクトルに対して H M M音声認識を行なうためにデ一夕プロセッザがグロ一バルテ一ブル及び数値テーブルを参照して混合多次元ガウス分布によって表現される出力確率を演算可能なデータ処理システムであって、

前記数値テーブルは、相互に平均が同一であって分散の異なる複数種類の 1次元ガウス分布を基にした夫々の分布の数値を格納する領域を有し、

前記グロ一バルテ一ブルは、前記数値テーブルにおける分布毎の X 方向の配列を Y方向に複数組格納する領域有し、

前記 X方向の配列は、前記特徴べクトルの特徴成分の値に対する線形量子化値に基づいて選択される位置にその量子化値に対応する前記数値テーブルの値の所在を示すためのァドレス情報を格納する領域を保有し、

前記データプロセッサは、前記特徴成分の値を線形量子化すると共に、複数組の X方向の配列に対する Y方向の選択に分散が考慮され X 方向の配列に対する先頭位置の決定に平均が考慮された特徴成分毎のアクセスポインタの値に従って前記グ口一バルテ一ブルから中間テーブルを抽出し、前記抽出した中間テーブルの先頭位置を起点に、前記線形量子化値に基づいて前記ァドレス情報を取得し、取得したァドレス情報を用いて数値テーブルを参照する処理を行い、数値テープルから参照した値に基づいて前記出力確率を演算可能であることを特徴とするデータ処理システム。

.混合多次元ガウス分布の多次元ガウス分布毎に特徴成分毎の前記ァクセスボイン夕が配置されたアクセスボイン夕テーブルを形成する領域有し、デ一夕プロセッサは、前記アクセスボイン夕テーブルのァクセスポィン夕を用いて中間テーブルの抽出を行なうものであることを特徴とする請求の範囲第 7項に記載のデータ処理システム。 . 前記デ一夕プロセッサは、適応によって混合多次元ガウス分布の平均と分散の双方又は一方が変更されるとき、これに応じて前記ァクセスポィン夕テーブルのアクセスポィン夕値を変更するものであることを特徴とする請求の範囲第 8項に記載のデータ処理システム。 0 .前記アクセスボイン夕テーブルを複数セット形成可能な領域を有し、前記デ一夕プロセッサは、話者を識別し、その識別結果に応じたアクセスポインタテ一ブルを用いるものであることを特徴とする請求の範囲第 8項に記載のデータ処理システム。

1，前記話者の識別は話者を明示するスィツチの状態に基づいて行なうものであることを特徴とする請求の範囲第 1 0項に記載のデ一夕処理システム。

2 .前記アクセスボイン夕テ一プルと話者とを対応付ける管理テープルの形成領域を有し、前記データプロセッサは、話者の特徴を示す予め登録した識別用特徴情報と実際の音声特徴分析結果との比較結果に基づいて前記話者の識別を行ない、この識別された話者が、前記管理テーブルに登録されている話者であるときは、当該登録話者のァクセスボイン夕テーブルを参照するものであることを特徴とする請求の範囲第 1 0項に記載のデータ処理システム。

3 . 前記デ一夕プロセッサは、前記管理テーブルに登録可能な話者の人数を一定に限定すると共に、登録話者毎の使用頻度の情報を前記管理テーブルに追加し、音声特徴分析結果が登録話者であるとき、分析結果に一致する登録話者の使用頻度をィンクリメントし、分析結果に不一致の登録話者の使用頻度をデクリメントし、音声特徴分析結果が登録話者以外であるときは、最低使用頻度の登録話者を前記管理テーブルから削除し、これに代えて当該登録話者以外の話者を管理テープルに追加するものであることを特徴とする請求項 1 2に記載のデー夕処理システム。

4 . 複数の音声入力系を持ち、個々の音声入力系毎に、前記アクセスボイン夕テーブルの形成領域を有し、前記データプロセッサは、前記複数の音声入力系に対して、独立にアクセスボイン夕テーブルを用いて、並列的な音声認識を可能にするものであることを特徴とする請求の範囲第 8項に記載のデ一夕処理システム。

1 5 . 前記データプロセッサは、特徴べクトルの全ての特徴成分に対して、線形量子化を行なうと共に、前記量子化値と前記 X方向の配列の単一配列要素のァドレス量との積に基づいて、抽出される中間テープルの先頭位置からの特長オフセットを算出し、その後、多次元混合ガウス分布毎に、前記アクセスボイン夕と特徴オフセッ卜とにより中間テ一ブルの参照を行って数 ^1テ一ブルの参照を行うものであることを特徴とする請求の範囲第 7項又は第 8項に記載のデータ処理システム。

1 6 .前記 1次元ガウス分布を基にした夫々の前記分布全体は 2の N乗個の数値によって表現され、前記特徴成分の量子化値はその値の上位 Nビットであることを特徴とする請求の範囲第 1 5項に記載のデー夕処理システム。

1 7 . 前記データプロセッサは、前記数値テーブルを参照する処理を特徴成分毎に繰り返して多次元ガウス分布の値を演算し、この多次元ガウス分布の値を演算する処理を所定回数繰り返して混合多次元ガウス分布によって表現される出力確率を演算するものであることを特徴とする請求の範囲第 1 6項に記載のデータ処理システム。

1 8 . 前記 X方向の夫々の配列は、前記数値テーブルの基準になる 1次元ガウス分布の平均位置を起点に分散の複数倍の範囲に対して前記アドレス情報を格納する領域を有し、その外側には、前記平均からの距離情報を格納する領域を有し、前記データプロセッサは、多次元ガウス分布の値を演算するために前記数値テーブルを参照する処理を特徴成分毎に繰り返していくとき、中間テーブルから参照した情報が前記距離情報であるときこれを累積し、その累積値が所定値を越えたとき、当該多次元ガウス分布のための演算を中止するものであることを特徴とする請求の範囲第 1 7項に記載のデータ処理システム。 1 9 . 前記 Y方向の夫々の配列は、前記距離情報の外側に固定値を格納する領域有し、前記データプロセッサは、前記中間テーブルから前記固定値を参照したとき、現在処理中の当該多次元ガウス分布のための演算を中止するものであることを特徴とする請求の範囲第 1 8項に記載のデータ処理システム。

0 . 特徴べクトルに対して H M M音声認識を行なうために、

複数種類の 1次元ガウス分布を基にした夫々の分布の数値を保有する数値テーブルと、

前記特徴べクトルの特徴成分の値に対する線形量子化値に基づいて選択される領域にその量子化値に対応する前記数値テーブルの値の所在を示すためのァドレス情報を保有する前記中間テーブルと、を用い、

前記特徴成分の値を線形量子化すると共に、特徴成分毎のアクセスボイン夕により中間テーブルを選択し、前記線形量子化された値を基に前記選択した中間テ一プルよりァドレス情報を取得し、取得したァドレス情報を用いて数値テーブルを参照する処理を行い、数値テープルから参照した値に基づいて、混合多次元ガウス分布によって表現される出力確率を演算することを特徴とする混合ガウス H M Mの出力確率演算方法。

2 1 . 前記中間テーブルの選択は、混合多次元ガウス分布の多次元ガウス分布毎に特徴成分毎の前記アクセスボイン夕が配置されたァクセスポインタテーブルを用いて行なうものであることを特徴とする請求の範囲第 2 0項に記載の混合ガウス H M Mの出力確率演算方法。 2 2 . 特徴ベクトルに対して H M M音声認識を行なうために、

相互に平均が同一であって分散の異なる複数種類の 1次元ガウス分布を基にした夫々の分布の数値を保有する数値テーブルと、前記数値テーブルにおける分布毎の X方向の配列を Y方向に複数組保有し、前記 X方向の配列には、前記特徴べクトルの特徴成分の値に対する線形量子化値に基づいて選択される位置にその量子化値に対応する前記数値テーブルの値の所在を示すためのァドレス情報を保有するグロ一バルテ一ブルと、を用い、

前記特徴成分の値を線形量子化すると共に、複数組の X方向の配列に対する Y方向の選択に分散が考慮され X方向の配列に対する先頭位置の決定に平均が考慮された特徴成分毎のアクセスボイン夕の値に従って前記グロ一バルテ一ブルから中間テ一ブルを抽出し、前記抽出した中間テーブルの先頭位置を起点に、前記線形量子化値に基づいて前記ァドレス情報を取得し、取得したァドレス情報を用いて数値テ一ブルを参照する処理を行い、数値テーブルから参照した値に基づいて、混合多次元ガウス分布によって表現される出力確率を演算することを特徴とする混合ガウス H M Mの出力確率演算方法

2 3 . 前記中間テ一ブルの抽出は、混合多次元ガウス分布の多次元ガウス分布毎に特徴成分毎の前記アクセスボイン夕が配置されたァクセスポインタテーブルを用いて行なうものであることを特徴とする請求の範囲第 2 2項に記載の混合ガウス H M Mの出力確率演算方法。 2 4 .適応によって混合多次元ガウス分布の平均と分散の双方又は一方が変更されるとき、これに応じて前記アクセスボイン夕テーブルのァドレスポインタ値を変更するものであることを特徴とする請求の範囲第 2 3項に記載の混合ガウス H M Mの出力確率演算方法。

2 5 . 特徴べクトルを入力して H M M音声認識を行なうために、

複数種類の 1次元ガウス分布を基にした夫々の分布の数値を保有する数値テーブルと、前記特徴べクトルの特徴成分の値に対する線形量子化値に基づいて選択される領域にその量子化値に対応する前記数値テーブルの値の所在を示すためのァドレス情報を保有する前記中間テーブルと、混合多次元ガウス分布の多次元ガウス分布毎に特徴成分毎のァクセスポインタが配置されたアクセスポインタテ一ブルと、を用い、前記特徴成分の値を線形量子化すると共に、前記アクセスボイン夕テ一ブル上の特徴成分毎のアクセスポィン夕により中間テーブルを選択し、前記線形量子化された値を基に前記選択した中間テーブルよりァドレス情報を取得し、取得したァドレス情報を用いて数値テ一ブルを参照する処理を行い、数値テーブルから参照した値に基づいて、混合多次元ガウス分布によって表現される出力確率を演算する処理を、コンビュー夕に実行させるためのプログラムを記録したコンビュ一夕読み取り可能な記録媒体。

6 . 特徴べクトルを入力して H M M音声認識を行なうために、相互に平均が同一であって分散の異なる複数種類の 1次元ガウス分布を基にした夫々の分布の数値を保有する数値テーブルと、前記数値テーブルにおける分布毎の X方向の配列を Y方向に複数組保有し、前記 X方向の配列には、前記特徴べクトルの特徴成分の値に対する線形量子化値に基づいて選択される位置にその量子化値に対応する前記数値テーブルの値の所在を示すためのァドレス情報を保有するグローバルテーブルと、

複数組の X方向の配列に対する Y方向の選択に分散が考慮され X 方向の配列に対する先頭位置の決定に平均が考慮された特徴成分毎のアクセスボイン夕が混合多次元ガウス分布の多次元ガウス分布毎に配置されたアクセスポインタテーブルと、を用い、

前記特徴成分の値を線形量子化すると共に、前記アクセスボイン夕テーブル上のアクセスポインタの値に従って前記グロ一バルテーブルから中間テーブルを抽出し、前記抽出した中間テ一ブルの先頭位置を起点に、前記線形量子化値に基づいて前記ァドレス情報を取得し、取得したァドレス情報を用いて数値テーブルを参照する処理を行い、数値テーブルから参照した値に基づいて、混合多次元ガウス分布によつて表現される出力確率を演算する処理を、コンピュータに実行させるためのプログラムを記録したコンピュー夕読み取り可能な記録媒体。

7 . 前記プログラムは、適応によって混合多次元ガウス分布の平均と分散の双方又は一方が変更されるとき、これに応じて前記アクセスポィン夕テ一ブル上のアクセスボイン夕の値を変更するものであることを特徴とする請求の範囲第 2 3項に記載のコンピュータ読み取り可能な記録媒体。

8 . 動作電源を供給するバッテリーを有し、前記デ一夕プロセッサは前記バッテリーを動作電源とし消費電力が 1 W以下であることを特徴とする請求の範囲第 1項又は第 7項に記載のデータ処理システム。