WO2023181223A1

WO2023181223A1 - 音声認識方法、音声認識装置及び音声認識プログラム

Info

Publication number: WO2023181223A1
Application number: PCT/JP2022/013754
Authority: WO
Inventors: 厚徳小川; 太一浅見; 直弘俵; マークデルクロア; 章子荒木
Original assignee: 日本電信電話株式会社
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2023-09-28

Abstract

実施形態の音声認識装置（１０）は、音声認識部（１３１）及びスコア計算部（１３２）を有する。音声認識部（１３１）は、発話の音声認識を行った結果を基にラティスを生成する。スコア計算部（１３２）は、所定の回数だけ繰り返し実行される処理のそれぞれにおいて、各処理に対応するＮＬＭの出力と、各処理の実行時における繰り返し回数又はＮＬＭの性能に基づく係数と、を基に、ラティスのスコアを更新する（繰り返しラティスリスコアリング）。

Description

音声認識方法、音声認識装置及び音声認識プログラム

　本発明は、音声認識方法、音声認識装置及び音声認識プログラムに関する。

　音声認識は人間が発した音声（発話）を計算機により単語列（テキスト）に変換する技術である。

　通常、音声認識システムは、入力された１つの発話に対して、音声認識スコアの最も高い仮説（音声認識結果）である１つの単語列（１ベスト仮説）を出力する。

　一方で、音声認識装置による音声認識処理の精度は１００％ではない。これに対し、従来、音声認識処理の精度を向上させるための手法として、ラティスリスコアリングと呼ばれる手法が知られている（例えば、非特許文献１を参照）。

　ラティスリスコアリングでは、１つの入力発話に対して、１ベスト仮説のみを出力するのではなく、複数の音声認識仮説を効率的に表現したラティスが出力され、後処理として、何らかのモデルを用いて、ラティス中から、オラクル仮説（最も精度の高い仮説、最も誤りが少ない仮説）と推定される仮説が選択される。なお、オラクル仮説が１ベスト仮説ということもあり得る。

　また、ラティスリスコアリングにニューラルネットワーク（Neural　Network）に基づく言語モデル（Neural　Language　Model:ＮＬＭ）を用いる手法が知られている（例えば、非特許文献２及び３を参照）。

M.　Auli,　M.　Galley,　C.　Quirk,　and　G.　Zweig,　"Joint　language　and　translation　modeling　with　recurrent　neural　networks,"　in　Proc.　EMNLP,　2013,　pp.　1044-1054. S.　Kumar,　M.　Nirschl,　D.　Holtmann-Rice,　H.　Liao,　A.　T.　Suresh,　and　F.　Yu,　"Lattice　rescoring　strategies　for　long　short　term　memory　language　models　in　speech　recognition,"　in　Proc.　ASRU,　2017,　pp.　165-172. K.　Irie,　A.　Zeyer,　R.　Schl¨uter,　and　H.　Ney,　"Language　modeling　with　deep　Transformers,"　in　Proc.　Interspeech,　2019,　pp.　3905-3909. W.　Xiong,　L.　Wu,　F.　Alleva,　J.　Droppo,　X.　Huang,　and　A.　Stolke,　"The　Microsoft　2017　conversational　speech　recognition　system,"　in　Proc.　ICASSP,　2018,　pp.　5934-5938.

　しかしながら、従来の技術には、ラティスリスコアリングによる音声認識を高精度に行うことができない場合があるという問題がある。

　例えば、非特許文献４では、複数のＮＬＭにラティスリスコアリングにおけるスコアを計算させる手法が記載されている。

　一方で、複数のＮＬＭによって計算されたスコアのそれぞれにどのように重みを付けるかについては、十分に検討されていない。

　上述した課題を解決し、目的を達成するために、音声認識方法は、コンピュータによって実行される音声認識方法であって、発話の音声認識を行った結果を基にラティスを生成する生成工程と、所定の回数だけ繰り返し実行される処理のそれぞれにおいて、各処理に対応するＮＬＭの出力と、各処理の実行時における繰り返し回数又は前記ＮＬＭの性能に基づく係数と、を基に、前記ラティスのスコアを更新するスコア計算工程と、を含むことを特徴とする。

　本発明によれば、ラティスリスコアリングによる音声認識を高精度に行うことができる。

図１は、実施形態の音声認識装置の構成例を示す図である。図２は、ラティスを説明する図である。図３は、音響スコア及び言語スコアを説明する図である。図４は、言語スコアの更新について説明する図である。図５は、第ｉのＮＬＭによる言語スコアの更新について説明する図である。図６は、実施形態の音声認識装置の処理の流れを示すフローチャートである。図７は、ラティスリスコアリング処理の流れを示すフローチャートである。図８は、実験結果を示す図である。図９は、音声認識プログラムを実行するコンピュータの一例を示す図である。

　以下に、本願に係る音声認識方法、音声認識装置及び音声認識プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

［第１の実施形態の構成］
　まず、図１を用いて、第１の実施形態に係る音声認識装置の構成について説明する。図１は、第１の実施形態に係る音声認識装置の構成の一例を示す図である。音声認識装置１０は、音声データの入力を受け付け、音声認識を行い、音声認識結果として単語列を出力する。

　図１に示すように、音声認識装置１０は、通信部１１、記憶部１２及び制御部１３を有する。

　通信部１１は、ネットワークを介して、他の装置との間でデータ通信を行う。例えば、通信部１１はＮＩＣ（Network　Interface　Card）である。

　記憶部１２は、ＨＤＤ（Hard　Disk　Drive）、ＳＳＤ（Solid　State　Drive）、光ディスク等の記憶装置である。なお、記憶部１２は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ、ＮＶＳＲＡＭ（Non　Volatile　Static　Random　Access　Memory）等のデータを書き換え可能な半導体メモリであってもよい。記憶部１２は、音声認識装置１０で実行されるＯＳ（Operating　System）や各種プログラムを記憶する。

　記憶部１２は、モデル情報１２１及びラティス情報１２２を記憶する。

　モデル情報１２１は、複数のＮＬＭのそれぞれを構築するためのパラメータ等の情報である。

　ラティス情報１２２は、ラティスに関する情報である。ラティス情報１２２には、ノード、アーク及びスコア等が含まれる。ラティスの詳細については後述する。

　制御部１３は、音声認識装置１０全体を制御する。制御部１３は、例えば、ＣＰＵ（Central　Processing　Unit）、ＭＰＵ（Micro　Processing　Unit）、ＧＰＵ（Graphics　Processing　Unit）等の電子回路や、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路である。

　また、制御部１３は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。

　また、制御部１３は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部１３は、音声認識部１３１及びスコア計算部１３２を有する。

　音声認識部１３１は、発話に対し音声認識を行う。また、音声認識部１３１は、発話の音声認識を行った結果を基にラティスを生成する。音声認識部１３１は、生成したラティスをラティス情報１２２として記憶部１２に格納する。

　ここで、図２を用いてラティスについて説明する。図２は、ラティスを説明する図である。

　図２に示すように、ラティスはノードとアークで構成される。ノードは認識結果単語（音声認識によって得られた単語）の単語境界を表す。アークは認識結果単語そのものである。

　図２示すラティスは、「私　は　音声　認識　が　好き　です」という発話を基に生成されたものである。

　このとき、１ベスト仮説は「私　は　温泉　入浴　が　スキー　です」（図２の点線）である。また、オラクル仮説は、「私　も　音声　認識　が　好き　です」（図２の一点鎖線）である。

　このように、ラティスからは、複数の単語列が抽出される。また、抽出される単語列には、１ベスト仮説及びオラクル仮説が含まれる。なお、１ベスト仮説がオラクル仮説となることもある。

　図３は、音響スコア及び言語スコアを説明する図である。図３に示すように、アークには音声認識処理によって計算された音響スコア（対数尤度）と言語スコア（対数確率）がそれぞれ付与されている。

　音響スコアは、認識結果単語が、音響的にどの程度正しいかを表す推定値である。また、言語スコアは、認識結果単語が、言語的にどの程度正しいかを表す推定値である。

　音声認識部１３１は、単語のｎ連鎖確率を表現するｎグラム言語モデル（ｎは通常は３～５程度）を用いて言語スコアを計算することができる。また、音声認識部１３１は、音声信号を入力とする音声認識用のニューラルネットワークにより音響スコアを計算することができる。

　なお、ｎグラム言語モデル及び音声認識用のニューラルネットワークを構築するための情報は、モデル情報１２１として記憶部１２に格納されているものとする。

　スコア計算部１３２は、ラティスリスコアリングを行う。ラティスリスコアリングは、音声認識処理の後処理として、リスコアリング用モデルを用いて行われる。

　ラティスリスコアリングによれば、図４に示すように、アーク（認識結果単語）に対し、ｎグラム言語モデルで付与される言語スコアよりも、より高精度な言語スコアを付与することができる。図４は、言語スコアの更新について説明する図である。図４の例では、ＮＬＭを用いて言語スコアが更新される。

　近年では、ｎグラム言語モデルよりも長い文脈を捉えることができ、より高精度に単語予測を行うことができるＮＬＭがリスコアリング用モデルとして利用されている。単語予測精度が高いことは、単語の履歴が与えられたときに次に生成される単語を高い精度で予測することができることである。

　ＮＬＭを利用したラティスリスコアリングについては、例えば非特許文献２、３、４に記載されている。

　また、非特許文献１には、Push-forwardアルゴリズムに基づくラティスリスコアリングの手法として、ＮＬＭを用いてラティス上を始端ノードから終端ノードに向かって探索（仮説展開）を行い、アークに記録されている言語スコアを更新する手法が記載されている。

　非特許文献１に記載の手法では、終端ノードに到達した仮説（単語列）のうち、最高のスコア（音響スコアと更新された言語スコアの重み付け加算スコア）を持つものが、最終的な音声認識結果とされる。

　ここで、図５に示すような、ラティス上のあるアークにおける探索処理に着目して、スコア計算部１３２による繰り返しラティスリスコアリングについて説明する。

　ｗ_{１：ｔ－１}を長さｔ－１の仮説とする。仮説ｗ_{１：ｔ－１}の現在のスコア（対数尤度）はｌｏｇ　ｐ（ｗ_{１：ｔ－１}）であり、音響スコア（対数尤度）ｌｏｇ　ｐ_ａｃｏｕ（ｗ_ｔ）と言語スコア（対数確率）ｌｏｇ　Ｐ_ｌａｎｇ（ｗ_ｔ）を持つアーク（認識結果単語）ｗ_ｔに到達したものとする。

　スコア計算部１３２は、仮説ｗ_{１：ｔ－１}をアークｗ_ｔ上に展開することで、長さｔの仮説ｗ_１：ｔのスコアを式（１）のように計算する。

　ここで、ｌｏｇ　ｐ_ｒｅｓｃ（ｗ_ｔ│ｗ_{１：ｔ－１}はｗ_{１：ｔ－１}が与えられたときのｗ_ｔの言語スコアであり、リスコアリング用のＮＬＭで計算される。β（０＜β＜１）は元の言語スコアとリスコアリング用ＮＬＭで計算された言語スコアの補間係数である。α（α＞０）は音響スコアに対する言語スコアの重みである。

　式（１）の下線の項が更新された言語スコアに相当する。スコア計算部１３２が、ここで説明した探索処理（到達したアークごとのスコア計算）をラティス上の全アークに対して行うことで、言語スコアが更新されたラティスが得られる。

　複数のＮＬＭを用いる場合、スコア計算部１３２は、探索処理を繰り返す（繰り返しラティスリスコアリング）。そして、スコア計算部１３２が探索処理を繰り返すたびに、言語スコア（対数確率）ｌｏｇ　Ｐ_ｌａｎｇｗ_ｔが徐々に更新（高精度化）されていく。

　この際、βをどのように設定するかは自明ではない。使用するＮＬＭが高々数個であればヒューリスティックに（手作業で）βを設定することも可能であるが、より多くのＮＬＭを使用する場合には、繰り返し回数（図５のｉ）ごとに、どのようにβを設定するかを設計する必要がある。以下、スコア計算部１３２による補間係数βの設定方法を説明する。

（βの設定方法１）
　繰り返しラティスリスコアリングの繰り返し（言語スコア更新）回数をＩとする。すなわち繰り返しラティスリスコアリングで用いるＮＬＭの個数はＩである。これらＩ個のＮＬＭの単語予測精度が同程度であると仮定できるときには、Ｉ回の繰り返しが終了した際に、Ｉ個のＮＬＭが出力する言語スコアが等しく評価（重み付け）されていればよい。このために、スコア計算部１３２は、ｉ回目の繰り返しにおけるβを式（２）のように設定する。

　このように、スコア計算部１３２は、繰り返し回数が多いほど小さくなる値を係数として設定する。

（βの設定方法２）
　音声認識部１３１が音声認識に用いた音声データの性質が明らかであり、当該音声データと同じ性質を持つテキストデータが入手できる場合には、スコア計算部１３２は、各ＮＬＭの当該テキストデータに対する単語予測精度を用いてβを設定することができる。

　この際、単語予測精度の尺度としてはパープレキシティ（perplexity）を用いることができる。ｉ回目の繰り返しで用いるＮＬＭの前記テキストデータに対するパープレキシティをＰＰＬ（ｉ）とすると、スコア計算部１３２は、ｉ回目の繰り返しにおけるβを式（３）のように設定する。

　ここで、ＰＰＬ（０）は、ｎグラム言語モデルの当該テキストデータに対するパープレキシティである。なお、上記の繰り返しラティスリスコアリングは、ラティスの特殊形状であるＮベストリストにも適用できる（繰り返しＮベストリスコアリング）。

　このように、スコア計算部１３２は、各処理に対応するＮＬＭの、認識対象の発話と同じ性質を持つテキストデータに対する単語予測精度が高いほど大きくなる値を係数βとして設定する。

　なお、パープレキシティはＮＬＭの性能を表す指標の一例である。また、ＰＰＬ（ｉ）は、ＮＬＭの単語推定精度が高いほど小さくなる。

　図６は、実施形態の音声認識装置の処理の流れを示すフローチャートである。図６に示すように、まず、音声認識装置１０は、１発話の入力を受け付ける（ステップＳ１１）。発話は、例えば音声信号を所定の形式で表した音声データである。

　次に、音声認識装置１０は、入力された発話の音声認識を行う（ステップＳ１２）。そして、音声認識装置１０は、音声認識の結果を基にラティスを生成する（ステップＳ１３）。

　ここで、音声認識装置１０は、ラティスリスコアリングを実行する（ステップＳ１４）。そして、音声認識装置１０は、ラティスリスコアリングによりスコアが更新されたラティスの中から、オラクル仮説と推定される仮説を選択し、出力する（ステップＳ１５）。例えば、音声認識装置１０は、選択した仮説に基づく単語列を出力する。

　図７は、ラティスリスコアリング処理の流れを示すフローチャートである。図７の処理は、図６のステップＳ１４の処理に相当する。

　図７に示すように、まず、音声認識装置１０は、ｉに１を設定する（ステップＳ１４１）。ｉは、スコアを計算するためのモデル（例えばＮＬＭ）を識別するためのインデックスである。また、ｉは、ラティスリスコアリングの現在の繰り返し回数ということができる。

　また、スコアを計算するための複数のモデルを構築するための情報は、モデル情報１２１に含まれる。

　ここで、音声認識装置１０は、第ｉのＮＬＭに対応する係数β（ｉ）を設定する（ステップＳ１４２）。例えば、音声認識装置１０は、前述のβの設定方法１又はβの設定方法２により係数β（ｉ）を計算する。

　そして、音声認識装置１０は、第ｉのＮＬＭの出力と係数β（ｉ）を基に、ラティス上のアークのスコアを更新する（ステップＳ１４３）。

　ここで、ｉがＩでない場合（ステップＳ１４４、Ｎｏ）、音声認識装置１０は、ｉを１だけ増加させて（ステップＳ１４５）、ステップＳ１４２に戻り処理を繰り返す。

　一方、ｉがＩである場合（ステップＳ１４４、Ｙｅｓ）、音声認識装置１０は処理を終了する。Ｉは、ラティスリスコアリングの繰り返しの総数であり、また、使用されるＮＬＭの数である。

　このように、スコア計算部１３２は、所定の回数（例えばＩ回）だけ繰り返し実行される処理のそれぞれにおいて、各処理に対応するＮＬＭの出力と、各処理の実行時における繰り返し回数（例えばｉ）又はＮＬＭの性能に基づく係数（β）と、を基に、ラティスのスコアを更新する。

［第１の実施形態の効果］
　これまで説明してきたように、音声認識部１３１は、発話の音声認識を行った結果を基にラティスを生成する。スコア計算部１３２は、所定の回数だけ繰り返し実行される処理のそれぞれにおいて、各処理に対応するＮＬＭの出力と、各処理の実行時における繰り返し回数又はＮＬＭの性能に基づく係数と、を基に、ラティスのスコアを更新する。

　これにより、繰り返し回数又はＮＬＭの性能に基づく係数による重み付けを行い、ラティスリスコアリングによる音声認識を高精度に行うことが可能になる。

　また、スコア計算部１３２は、繰り返し回数が多いほど小さくなる値を係数として設定する。これにより、各ＮＬＭが等しく評価することができる。

　また、スコア計算部１３２は、各処理に対応するＮＬＭの、認識対象の発話と同じ性質を持つテキストデータに対する単語予測精度が高いほど大きくなる値を係数βとして設定する。これにより、各ＮＬＭの単語予測精度をラティスのスコアに反映させることができる。

　ここで、認識対象の発話は、音声認識部１３１において音声認識が行われる発話であり、当該発話の認識結果（単語列）は未知である。一方で、認識対象の発話の性質が分かっている場合、同じ性質を持つテキストデータについてパープレキシティを事前に計算することは可能である。

　例えば、認識対象の発話が天気予報に関するものである場合、スコア計算部１３２は、天気予報に関するテキストデータに対するＮＬＭのパープレキシティを計算し、計算したパープレキシティを基に係数βを設定することができる。

　図８に、８個のＮＬＭを用いて、実施形態に示す方法により、式（１）及び式（２）に基づき繰り返しラティスリスコアリングを行った結果を示す。図８は、実験結果を示す図である。

　図８から、単語誤り率（低いほど高精度）が、スコアリングを繰り返すたびに徐々に削減できることが分かる。最終的には音声認識処理の１ベスト仮説の単語誤り率が９．０％から７．０％にまで低減されている。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central　Processing　Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。なお、プログラムは、ＣＰＵだけでなく、ＧＰＵ等の他のプロセッサによって実行されてもよい。

　また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　一実施形態として、音声認識装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の音声認識処理を実行する音声認識プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の音声認識プログラムを情報処理装置に実行させることにより、情報処理装置を音声認識装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。

　また、音声認識装置１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の音声認識処理に関するサービスを提供する音声認識サーバ装置として実装することもできる。例えば、音声認識サーバ装置は、発話（音声データ）を入力とし、単語列を出力とする音声認識サービスを提供するサーバ装置として実装される。この場合、音声認識サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の音声認識処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

　図９は、音声認識プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、音声認識装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、音声認識装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１０　音声認識装置
　１１　通信部
　１２　記憶部
　１３　制御部
　１２１　モデル情報
　１２２　ラティス情報
　１３１　音声認識部
　１３２　スコア計算部

Claims

　コンピュータによって実行される音声認識方法であって、
　発話の音声認識を行った結果を基にラティスを生成する生成工程と、
　所定の回数だけ繰り返し実行される処理のそれぞれにおいて、各処理に対応するＮＬＭの出力と、各処理の実行時における繰り返し回数又は前記ＮＬＭの性能に基づく係数と、を基に、前記ラティスのスコアを更新するスコア計算工程と、
　を含むことを特徴とする音声認識方法。
　前記スコア計算工程は、前記繰り返し回数が多いほど小さくなる値を前記係数として設定することを特徴とする請求項１に記載の音声認識方法。
　前記スコア計算工程は、各処理に対応するＮＬＭの、前記発話と同じ性質を持つテキストデータに対する単語予測精度が高いほど大きくなる値を前記係数として設定することを特徴とする請求項１に記載の音声認識方法。
　発話の音声認識を行った結果を基にラティスを生成する音声認識部と、
　所定の回数だけ繰り返し実行される処理のそれぞれにおいて、各処理に対応するＮＬＭの出力と、各処理の実行時における繰り返し回数又は前記ＮＬＭの性能に基づく係数と、を基に、前記ラティスのスコアを更新するスコア計算部と、
　を有することを特徴とする音声認識装置。
　コンピュータを、請求項４に記載の音声認識装置として機能させるための音声認識プログラム。