WO2021144901A1

WO2021144901A1 - 音声認識装置、方法及びプログラム

Info

Publication number: WO2021144901A1
Application number: PCT/JP2020/001152
Authority: WO
Inventors: 崇史森谷; 雄介篠原
Original assignee: 日本電信電話株式会社
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2021-07-22
Also published as: JPWO2021144901A1; US20230050795A1; JP7294458B2

Abstract

スコア統合部７は、スコアScore(l_1:n ^b,c)とスコアScore(w_1:o ^b,c)とを統合した新たなスコアScore(l_1:n ^b,c)を求める。この新たなスコアScore(l_1:n ^b,c)は、仮説選択部８においてスコアScore(l_1:n ^b)となる。このため、スコアScore(l_1:n ^b)は、スコアScore(w_1:o ^b,c)を考慮していると言える。音声認識装置では、スコアScore(w_1:o ^b,c)を考慮したスコアScore(l_1:n ^b)に基づいて第一情報の抽出が行われる。これにより、従来よりも性能が高い音声認識を実現することができる。

Description

音声認識装置、方法及びプログラム

　本発明は、音声認識技術に関する。

　近年のニューラルネットワークを用いた音声認識システムでは音声特徴量から単語系列を直接出力することが可能である。この音響特徴量から直接単語系列を出力する音声認識システムの学習方法として、例えば非特許文献１に記載された技術が知られている。

　非特許文献１の技術では、前段の処理として「音響特徴量⇒音素系列」の変換処理が行われており、後段の処理として「音素系列⇒単語系列」の変換処理が行われている。

Shiyu Zhou et.al, "Syllable-based Sequence-to-sequence Speech Recognition with the Transformer in Mandarin Chinese," INTERSPEECH, pp.791-795, 2018

　非特許文献１の技術では、前段の「音響特徴量⇒音素系列」の変換処理と、後段の「音素系列⇒単語系列」の変換処理とが独立に行われていた。言い換えれば、前段の「音響特徴量⇒音素系列」の変換処理では、後段の「音素系列⇒単語系列」の変換処理が考慮されていなかった。

　本発明は、従来よりも音声認識の性能が高い音声認識装置、方法及びプログラムを提供することを目的とする。

　この発明の一態様による音声認識装置は、B,Cは所定の正の整数であり、b=1,…,Bであり、c=1,…,Cであり、仮説HypSet(b)は、インデックス１から現在処理の対象となっているインデックスnの１つ前のインデックスn-1までの第一情報の系列l_1:n-1 ^bと、第一情報の系列l_1:n-1 ^bの尤もらしさを表すスコアScore(l_1:n-1 ^b)とを含んでおり、入力された音響特徴量を所定のニューラルネットワークに入力することにより中間特徴量を計算する中間特徴量計算部と、仮説bにおけるインデックスn-1の第一情報l_n-1 ^bに対応する文字特徴量L_n-1 ^bを計算する文字特徴量計算部と、中間特徴量と、文字特徴量L_n-1 ^bとを用いて、各第一情報に対応する出力確率を並べた出力確率分布Y_n ^bを計算する出力確率分布計算部と、出力確率分布Y_n ^bの中でc番目に出力確率が高い第一情報l_n ^b,cと、第一情報l_n ^b,cに対応する出力確率であるスコアScore(l_n ^b,c)とを抽出する第一情報抽出部と、第一情報の系列l_1:n-1 ^bと第一情報l_n ^b,cとを結合した第一情報の系列l_1:n ^b,cと、第一情報の系列l_1:n ^b,cの尤もらしさを表すスコアScore(l_1:n ^b,c)とを作成する仮説作成部と、第一情報の系列l_1:n ^b,cを所定のモデルを用いて第二情報の系列w_1:o ^b,cに変換し、第二情報の系列w_1:o ^b,cの尤もらしさを表すスコアScore(w_1:o ^b,c)を求める第一変換部と、スコアScore(l_1:n ^b,c)とスコアScore(w_1:o ^b,c)とを統合した新たなスコアScore(l_1:n ^b,c)を求めるスコア統合部と、新たなスコアScore(l_1:n ^b,c)に基づいて、新たなスコアScore(l_1:n ^b,c)が高いB個の新たなスコアを選択し、選択された各新たなスコアと、各新たなスコアに対応する第一情報の系列とを含む新たな仮説を生成し、現在処理の対象となっているインデックスnの１つ後のインデックスn+1で用いられる新たな仮説HypSet(1),…,HypSet(B)とする仮説選択部と、中間特徴量計算部、文字特徴量計算部、出力確率分布計算部、第一情報抽出部、仮説作成部、第一変換部、スコア統合部及び仮説選択部の処理を所定の終了条件を満たすまで繰り返す制御部と、所定の終了条件が満たされた場合には、少なくとも、最も値が大きいスコアScore(l_1:n ¹)に対応する第一情報の系列l_1:n ¹を所定のモデルを用いて第二情報の系列w_1:o ¹に変換する第二変換部と、を備えている。

　前段の「音響特徴量⇒第一情報の系列」の変換処理で、後段の「第一情報の系列⇒第二情報の系列」の変換処理を考慮することで、従来よりも性能が高い音声認識を実現することができる。より詳細には、スコアScore(w_1:o ^b,c)を考慮した新たなスコアScore(l_1:n ^b)に基づいて第一情報の抽出を行うことで、従来よりも性能が高い音声認識を実現することができる。

図１は、音声認識装置の機能構成の例を示す図である。図２は、音声認識方法の処理手続きの例を示す図である。図３は、コンピュータの機能構成例を示す図である。

　以下、図面を参照して、音声認識装置及び方法の一実施形態を説明する。

　[音声認識装置及び方法]
　音声認識装置は、図１に示すように、中間特徴量計算部１、文字特徴量計算部２、出力確率分布計算部３、第一情報抽出部４、仮説作成部５、第一変換部６、スコア統合部７及び仮説選択部８、制御部９及び第二変換部１０を例えば備えている。

　音声認識方法は、音声認識装置の各構成部が、以下に説明する及び図２に示すステップＳ１からステップＳ１０の処理を行うことにより例えば実現される。

　以下、音声認識装置の各構成部について説明する。

　<中間特徴量計算部１>
　中間特徴量計算部１は、音響特徴量Xが入力される。

　中間特徴量計算部１は、入力された音響特徴量Xを所定のニューラルネットワークに入力することにより中間特徴量Hを計算する（ステップＳ１）。

　計算された各第一情報に対応する中間特徴量Hは、出力確率分布計算部３に出力される。

　以下の説明では、第一の表現形式で表現された情報を第一情報とし、第二の表現形式で表現された情報を第二情報とする。

　第一情報の例は、音素又は書記素である。第二情報の例は、単語である。ここで、単語は、英語の場合には、アルファベット、数字、記号により表現され、日本語の場合には、ひらがな、カタカナ、漢字、アルファベット、数字、記号により表現される。第一情報及び第二情報に対応する言語は、英語、日本語以外の言語であってもよい。

　第一情報はかな系列であり、第二の情報はかな漢字交じりの系列であってもよい。

　所定のニューラルネットワークは、多段のニューラルネットワークである。

　中間特徴量は、例えば参考文献１の式（１）により定義されるものである。
　〔参考文献１〕Geoffrey Hinton, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patric Nguyen, Tara N. Sainath and Brian Kingsbury, “Deep Neural Networks for Acoustic Modeling in Speech Recognition,” IEEE Signal Processing Magazine, Vol. 29, No 6, pp.82-97, 2012.

　一般に音声認識では様々な仮説の候補をビーム幅の数Bだけ残しながら認識することが主流である。そこで、b=1,…,Bとして、各bについて、以下に説明するステップＳ２からステップＳ７の処理が行われる。Bは、所定の正の数である。

　<文字特徴量計算部２>
　文字特徴量計算部２には、仮説bにおけるインデックスn-1の第一情報l_n-1 ^bが入力される。

　文字特徴量計算部２は、仮説bにおけるインデックスn-1の第一情報l_n-1 ^bに対応する文字特徴量L_n-1 ^bを計算する（ステップＳ２）。

　計算された文字特徴量L_n-1 ^bは、出力確率分布計算部３に出力される。

　第一情報l_n-1 ^bがワンホットベクトル等のベクトルで表現される場合には、文字特徴量計算部２は、例えば、第一情報l_n-1 ^bに対応するベクトルに所定のパラメタ行列を乗算することで、文字特徴量L_n-1 ^bを計算する。

　なお、b=1,…,Bとして、l₀ ^b=<sos>とする。ここで、<sos>は、文頭記号である。

　<出力確率分布計算部３>
　出力確率分布計算部３には、中間特徴量計算部１により計算された中間特徴量Hと、文字特徴量計算部２により計算された文字特徴量L_n-1 ^bとが入力される。

　出力確率分布計算部３は、中間特徴量Hと、文字特徴量L_n-1 ^bとを用いて、各第一情報に対応する出力確率を並べた出力確率分布Y_n ^bを計算する（ステップＳ３）。

　計算された出力確率分布Y_n ^bは、第一情報抽出部４に出力される。

　出力確率分布計算部３は、中間特徴量Hと、文字特徴量L_n-1 ^bとを所定のニューラルネットワークモデルの出力層に入力することにより、出力層の各ユニットに対応する出力確率を並べた出力確率分布Y_n ^bを計算する。出力確率は、例えば対数確率である。出力確率分布は、例えば参考文献１の式（２）により定義されるものである。

　与えられたbに対して、c=1,…,Cとして、各cについて、以下に説明するステップＳ４からステップＳ７の処理が行われる。Cは、所定の正の整数である。CはBと同じ値の整数であってもよい。

　<第一情報抽出部４>
　第一情報抽出部４には、出力確率分布計算部３が計算した出力確率分布Y_n ^bが入力される。

　第一情報抽出部４は、出力確率分布Y_n ^bの中でc番目に出力確率が高い第一情報l_n ^b,cと、第一情報l_n ^b,cに対応する出力確率であるスコアScore(l_n ^b,c)とを抽出する（ステップＳ４）。

　抽出された第一情報l_n ^b,c及びスコアScore(l_n ^b,c)は、仮説作成部５に出力される。

　<仮説作成部５>
　仮説作成部５には、第一情報抽出部４が抽出した第一情報l_n ^b,c及びスコアScore(l_n ^b,c)が入力される。また、仮説作成部５には、仮説選択部８で選択された、インデックスnの１つ前のインデックスn-1までの第一情報の系列l_1:n-1 ^bと、第一情報の系列l_1:n-1 ^bの尤もらしさを表すスコアScore(l_1:n-1 ^b)とが入力される。

　仮説作成部５は、第一情報の系列l_1:n-1 ^bと第一情報l_n ^b,cとを結合した第一情報の系列l_1:n ^b,cと、第一情報の系列l_1:n ^b,cの尤もらしさを表すスコアScore(l_1:n ^b,c)とを作成する（ステップＳ５）。

　第一情報の系列l_1:n ^b,cは、第一変換部６及び仮説選択部８に出力される。スコアScore(l_1:n ^b,c)は、スコア統合部７に出力される。

　仮説作成部５は、例えば以下の式により定義されるスコアScore(l_1:n ^b,c)を作成する。
　Score(l_1:n ^b,c)=Score(l_1:n-1 ^b)+Score(l_n ^b,c)

　<第一変換部６>
　第一変換部６には、第一情報の系列l_1:n ^b,cが入力される。

　第一変換部６は、第一情報の系列l_1:n ^b,cを所定のモデルを用いて第二情報の系列w_1:o ^b,cに変換し、第二情報の系列w_1:o ^b,cの尤もらしさを表すスコアScore(w_1:o ^b,c)を求める（ステップＳ６）。

　スコアScore(w_1:o ^b,c)は、スコア統合部７に出力される。oは、正の整数であり、第二情報の個数である。

　所定のモデルとして、例えば、音響特徴量⇒音素系列の系列変換と同様のAttention-based modelを用いることができる。また、所定のモデルとして、参考文献２に記載された、統計/ニューラル翻字モデル（例えば第一情報の系列である「かな系列」を第二情報の系列である「かな漢字交じりの系列」に変換するモデル）を用いることができる。
　〔参考文献２〕L. Haizhou et.al, “A Joint Source-Channel Model for Machine Transliteration,” ACL, 2004

　<スコア統合部７>
　スコア統合部７には、仮説作成部５が作成したスコアScore(l_1:n ^b,c)及び第一変換部６が求めたスコアScore(w_1:o ^b,c)が入力される。

　スコア統合部７は、スコアScore(l_1:n ^b,c)とスコアScore(w_1:o ^b,c)とを統合した新たなスコアScore(l_1:n ^b,c)を求める（ステップＳ７）。

　求まった新たなスコアScore(l_1:n ^b,c)は、仮説選択部８に出力される。

　例えば、スコア統合部７は、以下の式により定義される新たなスコアScore(l_1:n ^b,c)を求める。ここで、λは所定の実数である。例えば、0<λ<1である。

　Score(l_1:n ^b,c)=Score(l_1:n ^b,c)+λ・Score(w_1:o ^b,c)
　先に述べたように、B=1,…,Bとして、各bについて、以下に説明するステップＳ２からステップＳ７の処理が行われる。また、c=1,…,Cとして、各cについて、ステップＳ４からステップＳ７の処理が行われる。これにより、b=1,…,B, c=1,…,Cとして、B×C個の、b,cの組(b,c)のそれぞれに対応する新たなスコアScore(l_1:n ^b,c)が求まる。

　<仮説選択部８>
　仮説選択部８には、スコア統合部７で求まった新たなスコアScore(l_1:n ^b,c)が入力される。また、仮説選択部８には、仮説作成部５が作成した第一情報の系列l_1:n ^b,cが入力される。

　仮説選択部８は、新たなスコアScore(l_1:n ^b,c)に基づいて、新たなスコアScore(l_1:n ^b,c)が高いB個の新たなスコアを選択し、選択された各新たなスコアと、各新たなスコアに対応する第一情報の系列とを含む新たな仮説を生成し、現在処理の対象となっているインデックスnの１つ後のインデックスn+1で用いられる新たな仮説HypSet(1),…,HypSet(B)とする（ステップＳ８）。

　生成された新たな仮説HypSet(b)は、仮説作成部５及び第二変換部１０に出力される。また、作成された仮説HypSet(b)に含まれる第一情報の系列l_1:n ^bの中の第一情報l_n ^bが文字特徴量計算部２に出力される。

　ここで、新たなスコアScore(l_1:n ^b,c)に対応する第一情報の系列とは、第一情報の系列l_1:n ^b,cである。

　新たなスコアScore(l_1:n ^b,c)が高いb番目の新たなスコアをスコアScore(l_1:n ^b)と表記し、新たなスコアScore(l_1:n ^b,c)が高いb番目の新たなスコアに対応する第一情報の系列を第一情報の系列l_1:n ^bと表記すると、b=1,…,Bとして、新たな仮説HypSet(b)は、スコアScore(l_1:n ^b)と、第一情報の系列l_1:n ^bとを含む。b=1,…,Bとして、HypSet(b)=(l_1:n ^b, Score(l_1:n ^b))と表記することができる。

　HypSet(b)=(l_1:n ^b, Score(l_1:n ^b))は、現在処理の対象となっているインデックスnの１つ後のインデックスn+1においては、nが１だけインクリメントされることに起因して、HypSet(b)=(l_1:n-1 ^b, Score(l_1:n-1 ^b))となる。このため、図１では、仮説作成部５の入力をl_1:n-1 ^b, Score(l_1:n-1 ^b)と表記し、文字特徴量計算部２の入力をl_n-1 ^bと表記している。

　<制御部９>
　制御部９は、中間特徴量計算部１、文字特徴量計算部２、出力確率分布計算部３、第一情報抽出部４、仮説作成部５、第一変換部６、スコア統合部７及び仮説選択部８の処理を所定の終了条件を満たすまで繰り返す（ステップＳ９）。

　所定の終了条件とは、n=N_MAX+1である。N_MAXは、出力する第二情報の個数あり、所定の正の整数である。この場合、制御部９は、仮説選択部８の処理が終わった後に、nを１だけインクリメントする。そして、制御部９は、n=N_MAX+1であるか判定し、n=N_MAX+1である場合には、音声認識装置の処理を終了させる。n=N_MAX+1でない場合には、制御部９は、ステップＳ２の処理に戻るように制御を行う。

　また、所定の終了条件は、l_n-1 ^b=<eos>であってもよい。ここで、<eos>は、文末記号である。

　<第二変換部１０>
　第二変換部１０には、仮説選択部８で生成された新たな仮説HypSet(1),…,HypSet(B)が入力される。

　第二変換部１０は、所定の終了条件が満たされた場合には、少なくとも、最も値が大きいスコアScore(l_1:n ¹)に対応する第一情報の系列l_1:n ¹を所定のモデルを用いて第二情報の系列w_1:o ¹に変換する（ステップＳ１０）。

　変換された第二情報の系列w_1:o ¹は、音声認識装置から出力される。

　所定のモデルは、例えば第一変換部６の所定のモデルと同じモデルである。

　このように、前段の「音響特徴量⇒第一情報の系列」の変換処理で、後段の「第一情報の系列⇒第二情報の系列」の変換処理を考慮することで、従来よりも性能が高い音声認識を実現することができる。

　より詳細には、本実施形態では、スコア統合部７において、スコアScore(l_1:n ^b,c)とスコアScore(w_1:o ^b,c)とを統合した新たなスコアScore(l_1:n ^b,c)が求められている。この新たなスコアScore(l_1:n ^b,c)は、仮説選択部８においてスコアScore(l_1:n ^b)となる。このため、スコアScore(l_1:n ^b)は、スコアScore(w_1:o ^b,c)を考慮していると言える。このスコアScore(w_1:o ^b,c)を考慮したスコアScore(l_1:n ^b)に基づいて第一情報の抽出を行うことで、従来よりも性能が高い音声認識を実現することができる。

　[変形例]
　以上、本発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、本発明に含まれることはいうまでもない。

　実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

　例えば、音声認識装置の構成部間のデータのやり取りは直接行われてもよいし、図示していない記憶部を介して行われてもよい。

　[プログラム、記録媒体]
　上記説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。例えば、上述の各種の処理は、図３に示すコンピュータの記録部２０２０に、実行させるプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０などに動作させることで実施できる。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

　また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１     中間特徴量計算部
２     文字特徴量計算部
３     出力確率分布計算部
４     第一情報抽出部
５     仮説作成部
６     第一変換部
７     スコア統合部
８     仮説選択部
９     制御部
１０   第二変換部

Claims

　B,Cは所定の正の整数であり、b=1,…,Bであり、c=1,…,Cであり、仮説HypSet(b)は、インデックス１から現在処理の対象となっているインデックスnの１つ前のインデックスn-1までの第一情報の系列l_1:n-1 ^bと、前記第一情報の系列l_1:n-1 ^bの尤もらしさを表すスコアScore(l_1:n-1 ^b)とを含んでおり、
　入力された音響特徴量を所定のニューラルネットワークに入力することにより中間特徴量を計算する中間特徴量計算部と、
　仮説bにおけるインデックスn-1の第一情報l_n-1 ^bに対応する文字特徴量L_n-1 ^bを計算する文字特徴量計算部と、
　前記中間特徴量と、前記文字特徴量L_n-1 ^bとを用いて、各第一情報に対応する出力確率を並べた出力確率分布Y_n ^bを計算する出力確率分布計算部と、
　前記出力確率分布Y_n ^bの中でc番目に出力確率が高い第一情報l_n ^b,cと、前記第一情報l_n ^b,cに対応する出力確率であるスコアScore(l_n ^b,c)とを抽出する第一情報抽出部と、
　前記第一情報の系列l_1:n-1 ^bと前記第一情報l_n ^b,cとを結合した第一情報の系列l_1:n ^b,cと、前記第一情報の系列l_1:n ^b,cの尤もらしさを表すスコアScore(l_1:n ^b,c)とを作成する仮説作成部と、
　前記第一情報の系列l_1:n ^b,cを所定のモデルを用いて第二情報の系列w_1:o ^b,cに変換し、前記第二情報の系列w_1:o ^b,cの尤もらしさを表すスコアScore(w_1:o ^b,c)を求める第一変換部と、
　前記スコアScore(l_1:n ^b,c)と前記スコアScore(w_1:o ^b,c)とを統合した新たなスコアScore(l_1:n ^b,c)を求めるスコア統合部と、
　前記新たなスコアScore(l_1:n ^b,c)に基づいて、前記新たなスコアScore(l_1:n ^b,c)が高いB個の新たなスコアを選択し、選択された各新たなスコアと、前記各新たなスコアに対応する第一情報の系列とを含む新たな仮説を生成し、現在処理の対象となっているインデックスnの１つ後のインデックスn+1で用いられる新たな仮説HypSet(1),…,HypSet(B)とする仮説選択部と、
　前記中間特徴量計算部、前記文字特徴量計算部、前記出力確率分布計算部、前記第一情報抽出部、前記仮説作成部、前記第一変換部、前記スコア統合部及び前記仮説選択部の処理を所定の終了条件を満たすまで繰り返す制御部と、
　前記所定の終了条件が満たされた場合には、少なくとも、最も値が大きいスコアScore(l_1:n ¹)に対応する第一情報の系列l_1:n ¹を所定のモデルを用いて第二情報の系列w_1:o ¹に変換する第二変換部と、
　を含む音声認識装置。
　B,Cは所定の正の整数であり、b=1,…,Bであり、c=1,…,Cであり、仮説HypSet(b)は、インデックス１から現在処理の対象となっているインデックスnの１つ前のインデックスn-1までの第一情報の系列l_1:n-1 ^bと、前記第一情報の系列l_1:n-1 ^bの尤もらしさを表すスコアScore(l_1:n-1 ^b)とを含んでおり、
　中間特徴量計算部が、入力された音響特徴量を所定のニューラルネットワークに入力することにより中間特徴量を計算する中間特徴量計算ステップと、
　文字特徴量計算部が、仮説bにおけるインデックスn-1の第一情報l_n-1 ^bに対応する文字特徴量L_n-1 ^bを計算する文字特徴量計算ステップと、
　出力確率分布計算部が、前記中間特徴量と、前記文字特徴量L_n-1 ^bとを用いて、各第一情報に対応する出力確率を並べた出力確率分布Y_n ^bを計算する出力確率分布計算ステップと、
　第一情報抽出部が、前記出力確率分布Y_n ^bの中でc番目に出力確率が高い第一情報l_n ^b,cと、前記第一情報l_n ^b,cに対応する出力確率であるスコアScore(l_n ^b,c)とを抽出する第一情報抽出ステップと、
　仮説作成部が、前記第一情報の系列l_1:n-1 ^bと前記第一情報l_n ^b,cとを結合した第一情報の系列l_1:n ^b,cと、前記第一情報の系列l_1:n ^b,cの尤もらしさを表すスコアScore(l_1:n ^b,c)とを作成する仮説作成ステップと、
　第一変換部が、前記第一情報の系列l_1:n ^b,cを所定のモデルを用いて第二情報の系列w_1:o ^b,cに変換し、前記第二情報の系列w_1:o ^b,cの尤もらしさを表すスコアScore(w_1:o ^b,c)を求める第一変換ステップと、
　スコア統合部が、前記スコアScore(l_1:n ^b,c)と前記スコアScore(w_1:o ^b,c)とを統合した新たなスコアScore(l_1:n ^b,c)を求めるスコア統合ステップと、
　仮説選択部が、前記新たなスコアScore(l_1:n ^b,c)に基づいて、前記新たなスコアScore(l_1:n ^b,c)が高いB個の新たなスコアを選択し、選択された各新たなスコアと、前記各新たなスコアに対応する第一情報の系列とを含む新たな仮説を生成し、現在処理の対象となっているインデックスnの１つ後のインデックスn+1で用いられる新たな仮説HypSet(1),…,HypSet(B)とする仮説選択ステップと、
　制御部が、前記中間特徴量計算部、前記文字特徴量計算部、前記出力確率分布計算部、前記第一情報抽出部、前記仮説作成部、前記第一変換部、前記スコア統合部及び前記仮説選択部の処理を所定の終了条件を満たすまで繰り返す制御ステップと、
　第二変換部が、前記所定の終了条件が満たされた場合には、少なくとも、最も値が大きいスコアScore(l_1:n ¹)に対応する第一情報の系列l_1:n ¹を所定のモデルを用いて第二情報の系列w_1:o ¹に変換する第二変換ステップと、
　を含む音声認識方法。
　請求項１の音声認識装置の各部としてコンピュータを機能させるためのプログラム。