WO2021117089A1

WO2021117089A1 - モデル学習装置、音声認識装置、それらの方法、およびプログラム

Info

Publication number: WO2021117089A1
Application number: PCT/JP2019/048079
Authority: WO
Inventors: 崇史森谷; 雄介篠原
Original assignee: 日本電信電話株式会社
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2021-06-17
Also published as: JP7298714B2; JPWO2021117089A1; US20230009370A1

Abstract

音響特徴量系列に基づいて、音響特徴量系列に対するｎ番目のシンボルｃ_ｎの各エントリｋの出現確率に対応する要素を持つ出力確率分布ベクトルｚ_ｎと、シンボルｃ_ｎが表れるタイミングに対する音響特徴量系列の各フレームｔの関連性の高さ表す注意重みに対応する要素を持つ注意重みベクトルα_ｎと、の積の全シンボルｃ_ｎについての総和である確率行列Ｐを得、モデルパラメータが与えられた場合における、音響特徴量系列に対応するラベル系列を得、音響特徴量系列に対応するシンボル系列およびラベル系列を用い、シンボル系列に対するラベル系列のＣＴＣ損失を得、確率行列Ｐに対応する行列およびラベル系列を用い、確率行列Ｐに対応する行列に対するラベル系列のＫＬＤ損失を得、ＣＴＣ損失とＫＬＤ損失を統合した統合損失に基づいてモデルパラメータを更新し、これらの処理を終了条件が満たされるまで繰り返す。

Description

モデル学習装置、音声認識装置、それらの方法、およびプログラム

　本発明は、音声認識技術のためのモデル学習技術に関する。

　近年のニューラルネットワークを用いた音声認識システムでは音響特徴量系列から単語系列を直接出力することができる。非特許文献１の「3. Connectionist Temporal Classification」および「4. Training the Network」の節には、Connectionist Temporal Classification（CTC）による学習方法を用いて、音声認識モデルを学習する方法が記載されている。非特許文献１の手法では、学習のためにフレームごとの正解ラベル（frame-by-frameの正解ラベル）を準備しておく必要がなく、音響特徴量系列とその全体に対応する正解シンボル系列（frame-by-frameではない正解シンボル系列）があれば、音響特徴量系列に対応するラベル系列を動的に得て音声認識モデルの学習を行うことができる。また、非特許文献１の手法で学習された音声認識モデルを用いた推論処理はフレームごとに行うことができる。そのため、非特許文献１の手法はオンライン動作用の音声認識システムに適している。

　一方、近年ではCTCによる手法よりも性能良く、音響特徴量系列とそれに対応する正解シンボル系列を用いて音声認識モデルを学習するAttention-based modelによる手法も提案されている（例えば、非特許文献２参照）。Attention-based modelによる手法では、直前までのラベル系列に依存して計算された注意重みに基づいて次に出力されるラベルを推定して学習を行う。注意重みは、次に出力されるラベルのタイミングをどのフレームに着目して定めるべきかを示す。すなわち、注意重みは、当該ラベルが表れるタイミングに対する各フレームの関連性の高さ表す。ラベルのタイミングを定めるために着目すべき度合が大きいフレームの要素の値が非常に大きくなり、それ以外の要素の値が小さくなる。これを考慮してラベリングを行うため、非特許文献２に手法を用いて学習される音声認識モデルは性能がよい。しかし、非特許文献２に手法を用いて学習された音声認識モデルを用いた推論処理はフレームごとに行うことできず、オンライン動作が困難である。

Alex Graves et.al, "Connectionist temporal classification : Labelling unsegmented sequence data with recurrent neural networks," ICML, pp. 369-376, 2016. Jan Chorowski et.al, "Attention-based Models for Speech Recognition," NIPS, 2015.

　以上のように、非特許文献１の手法はオンライン動作に適しているが推定精度が低い。一方、非特許文献２の手法は推定精度が高いがオンライン動作には不向きである。

　本発明はこのような点に鑑みてなされたものであり、推定精度が高く、オンライン動作に適したモデルを学習する技術に関する。

　上記の課題を解決するために、音響特徴量系列に基づいて、前記音響特徴量系列に対するｎ番目のシンボルｃ_ｎの各エントリｋの出現確率に対応する要素を持つ出力確率分布ベクトルｚ_ｎと、シンボルｃ_ｎが表れるタイミングに対する前記音響特徴量系列の各フレームｔの関連性の高さ表す注意重みに対応する要素を持つ注意重みベクトルα_ｎと、の積の全シンボルｃ_ｎについての総和である確率行列Ｐを得、モデルパラメータが与えられた場合における、前記音響特徴量系列に対応するラベル系列を得、前記音響特徴量系列に対応する正解シンボル系列および前記ラベル系列を用い、前記正解シンボル系列に対する前記ラベル系列のＣＴＣ損失を得、前記確率行列Ｐに対応する行列および前記ラベル系列を用い、前記確率行列Ｐに対応する行列に対する前記ラベル系列のＫＬＤ損失を得、前記ＣＴＣ損失と前記ＫＬＤ損失を統合した統合損失に基づいて前記モデルパラメータを更新し、これらの処理を終了条件が満たされるまで繰り返す。

　本発明では、注意重みに対応する確率行列Ｐを考慮するため推定精度が高い。推論処理ではモデルパラメータが与えられた場合における、新たな音響特徴量系列に対応するラベル系列を出力するが、この処理はフレームごとに行うことができる。このように、本発明では、推定精度が高く、オンライン動作に適したモデルを学習することができる。

図１は第１実施形態のモデル学習装置の機能構成を例示したブロック図である。図２は第１，２実施形態のモデル学習装置のハードウェア構成を例示したブロック図である。図３は第２実施形態のモデル学習装置の機能構成を例示したブロック図である。図４は第３実施形態の音声認識装置の機能構成を例示したブロック図である。

　以下、図面を参照して本発明の実施形態を説明する。
　［第１実施形態］
　まず、本発明の第１実施形態を説明する。
　＜モデル学習装置１の機能構成＞
　図１に例示するように、本実施形態のモデル学習装置１は、音声分散表現系列変換部１０１，１０４、ＣＴＣ損失計算部１０３、シンボル分散表現変換部１０５、注意重み計算部１０６、ラベル推定部１０２，１０７、確率行列計算部１０８、ＫＬＤ損失計算部１０９、損失統合部１１０、および制御部１１１を有する。ここで、音声分散表現系列変換部１０１およびラベル推定部１０２は推定部に相当する。モデル学習装置１は、制御部１１１の制御に基づいて各処理を実行する。

　＜ハードウェアおよび当該ハードウェアとソフトウェアとの協働＞
　図２に本実施形態のモデル学習装置１を構成するハードウェアと、当該ハードウェアとソフトウェアとの協働について例示する。この構成は一例であって本発明を限定するものではない。

　図２に例示するように、モデル学習装置１を構成するハードウェアは、ＣＰＵ（Central Processing Unit）１０ａ、入力部１０ｂ、出力部１０ｃ、補助記憶装置１０ｄ、ＲＡＭ（Random Access Memory）１０ｆ、ＲＯＭ（Read Only Memory）１０ｅ及びバス１０ｇを有している。この例のＣＰＵ１０ａは、制御部１０ａａ、演算部１０ａｂ及びレジスタ１０ａｃを有し、レジスタ１０ａｃに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部１０ｂは、データが入力される入力ポート、キーボード、マウス等であり、出力部１０ｃは、データを出力する出力ポート、ディスプレイ等である。補助記憶装置１０ｄは、例えば、ハードディスク、ＭＯ（Magneto-Optical disc）、半導体メモリ等であり、本実施形態の処理を実行するためのプログラムを格納したプログラム領域１０ｄａ及び各種データが格納されるデータ領域１０ｄｂを有している。また、ＲＡＭ１０ｆは、ＳＲＡＭ(Static Random Access Memory)、ＤＲＡＭ(Dynamic Random Access Memory)等であり、プログラムが書き込まれるプログラム領域１０ｆａ及び各種データが格納されるデータ領域１０ｆｂを有している。また、バス１０ｇは、ＣＰＵ１０ａ、入力部１０ｂ、出力部１０ｃ、補助記憶装置１０ｄ、ＲＡＭ１０ｆ及びＲＯＭ１０ｅを通信可能に接続している。

　例えば、ＣＰＵ１０ａは、読み込まれたＯＳ（Operating System）プログラムに従い、補助記憶装置１０ｄのプログラム領域１０ｄａに格納されているプログラムを、ＲＡＭ１０ｆのプログラム領域１０ｆａに書き込む。同様にＣＰＵ１０ａは、補助記憶装置１０ｄのデータ領域１０ｄｂに格納されているデータを、ＲＡＭ１０ｆのデータ領域１０ｆｂに書き込む。そして、このプログラムやデータが書き込まれたＲＡＭ１０ｆ上のアドレスがＣＰＵ１０ａのレジスタ１０ａｃに格納される。ＣＰＵ１０ａの制御部１０ａａは、レジスタ１０ａｃに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すＲＡＭ１０ｆ上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部１０ａｂに順次実行させ、その演算結果をレジスタ１０ａｃに格納していく。図１に例示したモデル学習装置１は、このようにＣＰＵ１０ａにプログラムが読み込まれて実行されることで構成される。

　＜モデル学習装置１の処理＞
　モデル学習装置１によるモデル学習処理を説明する。
　モデル学習装置１は、音響特徴量系列Ｘとそれに対応する正解シンボル系列Ｃ＝｛ｃ_１，ｃ_２，…，ｃ_Ｎ｝とを入力とし、音響特徴量系列Ｘに対応するラベル系列を生成して出力する装置である。ただし、Ｎは正整数であり、正解シンボル系列Ｃに含まれたシンボルの個数を表す。音響特徴量系列Ｘは、音声などの時系列音響信号から抽出された時系列の音響特徴量の系列である。音響特徴量系列Ｘの例はベクトルである。正解シンボル系列Ｃは、音響特徴量系列Ｘに対応する時系列の音響信号が表す正解シンボルの系列である。正解シンボルの例は、音素、文字、サブワード、単語などである。正解シンボル系列Ｃの例はベクトルである。正解シンボル系列Ｃは音響特徴量系列Ｘに対応するが、正解シンボル系列Ｃに含まれる各正解シンボルが音響特徴量系列Ｘのどのフレーム（時点）に対応しているのかは特定されていない。

　≪音声分散表現系列変換部１０４≫
　音声分散表現系列変換部１０４には音響特徴量系列Ｘが入力される。音声分散表現系列変換部１０４は、モデルパラメータである変換モデルパラメータλ_１が与えられた場合における、音響特徴量系列Ｘに対応する中間特徴量系列Ｈ’を得て出力する（ステップＳ１０４）。音声分散表現系列変換部１０４の例は、多段のニューラルネットワークであり、音響特徴量系列Ｘを入力として中間特徴量系列Ｈ’を出力する。音声分散表現系列変換部１０４の変換モデルパラメータλ_１は学習済みであり、事前に設定されている。音声分散表現系列変換部１０４の処理は、例えば、参考文献１の式（１７）に従って行われる。或いは、参考文献１の式（１７）に代え、音響特徴量系列ＸにＬＳＴＭ（Long short-term memory）を適用して中間特徴量系列Ｈ’を得てもよい（参考文献２）。
　参考文献１：Shinji Watanabe , Senior Member, Takaaki Hori, Suyoun Kim, John R. Hershey, and Tomoki Hayashi, "Hybrid CTC/Attention Architecture for End-to-End Speech Recognition", IEEE journal of selected topics in signal processing, vol. 11, No. 8, December 2017.
　参考文献２：Sepp Hochreiter, Jurgen Schmidhuber, "LONG SHORT-TERM MEMORY," Computer Science, MedicinePublished in Neural Computation 1997.

　≪シンボル分散表現変換部１０５≫
　シンボル分散表現変換部１０５には、後述のようにラベル推定部１０７から出力されたラベルｚ_ｎ（ただし、ｎ＝１，…，Ｎ）が入力される。シンボル分散表現変換部１０５は、モデルパラメータである文字特徴量推定モデルパラメータλ_３が与えられた場合における、ラベルｚ_ｎに対応する連続値の特徴量である文字特徴量Ｃ_ｎに変換して出力する（ステップＳ１０５）。ｎは時系列に並ぶラベルｚ_ｎの順序を表す。シンボル分散表現変換部１０５の文字特徴量推定モデルパラメータλ_３は学習済みであり、事前に設定されている。文字特徴量Ｃ_ｎの例は、ラベルｚ_ｎに対応するシンボルのＫ＋１個のエントリ（１個の冗長シンボル"blank"エントリを含む）に対応する次元の値が零以外の値（例えば正値）で、それ以外の次元の値が零であるone-hotなベクトルである。ただし、Ｋは正整数であり、シンボルのエントリの総数はＫ＋１である。ラベルｚ_ｎを用いた文字特徴量Ｃ_ｎの算出は、例えば、非特許文献２の式（４）によって行われる。

　≪注意重み計算部１０６≫
　注意重み計算部１０６には、音声分散表現系列変換部１０４から出力された中間特徴量系列Ｈ’およびラベル推定部１０７から出力されたラベルｚ_ｎが入力される。注意重み計算部１０６は、これらとラベルｚ_ｎの直前のラベルｚ_ｎ－１に対応する注意重みベクトルα_ｎ－１とを用い、ラベルｚ_ｎに対応する注意重みベクトルα_ｎを得て出力する（ステップＳ１０６）。注意重みベクトルα_ｎは注意重みを表すＦ次元ベクトルである。すなわち、注意重みベクトルα_ｎは、シンボルｃ_ｎが表れるタイミングに対する音響特徴量系列Ｘの各フレームｔ＝１，…，Ｆの関連性の高さ表す注意重みに対応する要素を持つＦ次元ベクトルである。Ｆは正整数であり、音響特徴量系列Ｘの総フレーム数を表す。前述のように、注意重みは次に出力されるラベルのタイミングをどのフレームに着目して定めるべきかを示すものであり、注意重みベクトルα_ｎは、ラベルのタイミングを定めるために着目すべき度合が大きいフレームの要素の値が非常に大きくなり、それ以外の要素の値が小さくなる。注意重みベクトルα_ｎの算出過程は、例えば、計算過程は非特許文献２の「2 Attention-Based Model for Speech Recognition」「2.1 GeneralFramework」に記載されている。例えば、注意重みベクトルα_ｎは、非特許文献２の式（１）－（３）に従って行われる。例えば、注意重みベクトルα_ｎの次元数は１×Ｆである。

　≪ラベル推定部１０７≫
　ラベル推定部１０７には、音声分散表現系列変換部１０４から出力された中間特徴量系列Ｈ’、シンボル分散表現変換部１０５から出力された文字特徴量Ｃ_ｎ、および、注意重み計算部１０６から出力された注意重みベクトルα_ｎが入力される。ラベル推定部１０７は、これらを用いて、モデルパラメータであるラベル推定モデルパラメータλ_２が与えられた場合における、ｎ番目（ただし、ｎ＝１，…，Ｎ）のシンボルｃ_ｎの各エントリｋ（ただし、ｋ＝１，…，Ｋ＋１）の出現確率に対応する要素を持つ出力確率分布ベクトルｚ_ｎを生成して出力する（ステップＳ１０７）。ラベル推定部１０７のラベル推定モデルパラメータλ_２は学習済みであり、事前に設定されている。出力確率分布ベクトルｚ_ｎの生成は、例えば、非特許文献２の式（２）（３）に従って行われる。

　≪確率行列計算部１０８≫
　確率行列計算部１０８には、ラベル推定部１０７から出力されたラベルｚ_ｎ、および、注意重み計算部１０６から出力された注意重みベクトルα_ｎが入力される。確率行列計算部１０８は、出力確率分布ベクトルｚ_ｎと、注意重みベクトルα_ｎと、の積の全シンボルｃ_ｎ（ただし、ｎ＝１，…，Ｎ）についての総和である確率行列Ｐを得て出力する。すなわち、確率行列計算部１０８は、以下の式（１）によって確率行列Ｐを計算して出力する。

ただし、

である。ｐ_ｔ，ｋは確率行列Ｐのｔ行ｋ列の要素であり、フレームｔおよびエントリｋに対応する。ｚ_ｎ，ｋは出力確率分布ベクトルｚ_ｎのｋ列目の要素であり、エントリｋに対応する。α_ｎ，ｔは注意重みベクトルα_ｎのｔ番目の要素であり、フレームｔに対応する。β^Ｔはβの転置を表す。確率行列ＰはＦ（フレーム数）×Ｋ＋１（シンボルのエントリ数）の行列である（ステップＳ１０８）。

　≪音声分散表現系列変換部１０１≫
　音声分散表現系列変換部１０１には音響特徴量系列Ｘが入力される。音声分散表現系列変換部１０１は、モデルパラメータである変換モデルパラメータγ_１が与えられた場合における、音響特徴量系列Ｘに対応する中間特徴量系列Ｈを得て出力する（ステップＳ１０１）。音声分散表現系列変換部１０１の例は、多段のニューラルネットワークであり、音響特徴量系列Ｘを入力として中間特徴量系列Ｈを出力する。音声分散表現系列変換部１０１の処理は、例えば、参考文献１の式（１７）に従って行われる。或いは、参考文献１の式（１７）に代え、音響特徴量系列ＸにＬＳＴＭ（Long short-term memory）を適用して中間特徴量系列Ｈを得てもよい。

　≪ラベル推定部１０２≫
　ラベル推定部１０２には、音声分散表現系列変換部１０１から出力された中間特徴量系列Ｈが入力される。ラベル推定部１０２は、ラベル推定モデルパラメータγ_２が与えられた場合における、中間特徴量系列Ｈに対応するラベル系列｛Ｌ^{^} _１，Ｌ^{^} _２，…，Ｌ^{^} _Ｆ｝を得て出力する（ステップＳ１０２）。ラベル系列｛Ｌ^{^} _１，Ｌ^{^} _２，…，Ｌ^{^} _Ｆ｝は各フレームｔのラベルＬ^{^} _ｔの系列である（ただし、ｔ＝１，…，Ｆ）。ラベルＬ^{^} _ｔは、フレームｔで出力されるシンボルの各エントリｋについての出力確率分布ｙ_ｋ，ｔである。前述のように、シンボルのエントリｋの総数はＫ＋１個であり、ｋ＝１，…，Ｋ＋１である。ラベルＬ^{^} _ｔは、例えば、参考文献１の式（１６）に従って得られる。

　≪ＣＴＣ損失計算部１０３≫
　ＣＴＣ損失計算部１０３には、音響特徴量系列Ｘに対応する正解シンボル系列Ｃ＝｛ｃ_１，ｃ_２，…，ｃ_Ｎ｝およびラベル推定部１０２から出力されたラベル系列｛Ｌ^{^} _１，Ｌ^{^} _２，…，Ｌ^{^} _Ｆ｝が入力される。ＣＴＣ損失計算部１０３は、正解シンボル系列Ｃ＝｛ｃ_１，ｃ_２，…，ｃ_Ｎ｝およびラベル系列｛Ｌ^{^} _１，Ｌ^{^} _２，…，Ｌ^{^} _Ｆ｝を用い、正解シンボル系列Ｃ＝｛ｃ_１，ｃ_２，…，ｃ_Ｎ｝に対するラベル系列ラベル系列｛Ｌ^{^} _１，Ｌ^{^} _２，…，Ｌ^{^} _Ｆ｝のＣＴＣ（Connectionist Temporal Classification）損失Ｌ_ＣＴＣを得て出力する（ステップＳ１０３）。ＣＴＣ損失Ｌ_ＣＴＣは、例えば、非特許文献１の式（１４）に従って得られる。

　≪ＫＬＤ損失計算部１０９≫
　ＫＬＤ損失計算部１０９には、確率行列計算部１０８から出力された確率行列Ｐおよびラベル推定部１０２から出力されたラベル系列｛Ｌ^{^} _１，Ｌ^{^} _２，…，Ｌ^{^} _Ｆ｝が入力される。ＫＬＤ損失計算部１０９は、確率行列Ｐおよびラベル系列｛Ｌ^{^} _１，Ｌ^{^} _２，…，Ｌ^{^} _Ｆ｝を用い、確率行列Ｐに対応する行列に対するラベル系列のＫＬＤ損失Ｌ_ＫＬＤを得て出力する（ステップＳ１０９）。ＫＬＤ損失Ｌ_ＫＬＤは、ラベル系列｛Ｌ^{^} _１，Ｌ^{^} _２，…，Ｌ^{^} _Ｆ｝が確率行列Ｐからどの程度ずれているかを表す指標である。ＫＬＤ損失計算部１０９は、例えば、以下の式（２）によってＫＬＤ損失Ｌ_ＫＬＤを得て出力する。

　また、ｐ_ｔ，ｋの各フレームｔでのｐ_ｔ，１，ｐ_ｔ，２，…，ｐ_{ｔ，Ｋ＋１}の和が互いに同一であることが望ましい。例えば、ｐ_ｔ，１，ｐ_ｔ，２，…，ｐ_{ｔ，Ｋ＋１}が以下のｐ_ｔ，１’，ｐ_ｔ，２’，…，ｐ_{ｔ，Ｋ＋１}’に正規化されることが望ましい。例えば、以下の式（３）に従ってｐ_ｔ，ｋがｐ_ｔ，ｋ’に正規化されることが望ましい。

この場合、ＫＬＤ損失計算部１０９は、例えば、以下の式（４）によってＫＬＤ損失Ｌ_ＫＬＤを得て出力する。

　≪損失統合部１１０≫
　損失統合部１１０には、ＣＴＣ損失計算部１０３から出力されたＣＴＣ損失Ｌ_ＣＴＣおよびＫＬＤ損失計算部１０９から出力されたＫＬＤ損失Ｌ_ＫＬＤが入力される。損失統合部１１０は、ＣＴＣ損失Ｌ_ＣＴＣとＫＬＤ損失Ｌ_ＫＬＤとを統合した統合損失Ｌ_{ＣＴＣ＋ＫＬＤ}を得て出力する（ステップＳ１１０）。例えば、損失統合部１１０は、係数λ（ただし０≦λ＜１）を用いて以下の式（５）によって統合して出力する。
Ｌ_{ＣＴＣ＋ＫＬＤ}＝（１－λ）Ｌ_ＫＬＤ＋λＬ_ＣＴＣ　　　（５）

　≪制御部１１１≫
　統合損失Ｌ_{ＣＴＣ＋ＫＬＤ}は、音声分散表現系列変換部１０１およびラベル推定部１０２に入力される。音声分散表現系列変換部１０１は統合損失Ｌ_{ＣＴＣ＋ＫＬＤ}に基づいて変換モデルパラメータγ_１を更新し、ラベル推定部１０２は統合損失Ｌ_{ＣＴＣ＋ＫＬＤ}に基づいてラベル推定モデルパラメータγ_２を更新する。これらの更新は統合損失Ｌ_{ＣＴＣ＋ＫＬＤ}が小さくなるように行われる。制御部１１１は、変換モデルパラメータγ_１が更新された音声分散表現系列変換部１０１にステップＳ１０１の処理を実行させ、ラベル推定モデルパラメータγ_２が更新されたラベル推定部１０２にステップＳ１０２の処理を実行させ、ＣＴＣ損失計算部１０３にステップＳ１０３の処理を実行させ、ＫＬＤ損失計算部１０９にステップＳ１０９の処理を実行させ、損失統合部１１０にステップＳ１１０の処理を実行させる。このように制御部１１１は、統合損失Ｌ_{ＣＴＣ＋ＫＬＤ}に基づいて変換モデルパラメータγ_１およびラベル推定モデルパラメータγ_２を更新し、ステップＳ１０１の処理と、ステップＳ１０２の処理と、ステップＳ１０３の処理と、ステップＳ１０９の処理と、ステップＳ１１０の処理とを終了条件が満たされるまで繰り返す。終了条件に限定はなく、繰り返し回数が閾値に達したことであってもよいし、繰り返しの前後で統合損失Ｌ_{ＣＴＣ＋ＫＬＤ}の変化量が閾値以下になったことであってもよいし、繰り返しの前後で変換モデルパラメータγ_１やラベル推定モデルパラメータγ_２の変化量が閾値以下になったことであってもよい。終了条件が満たされた場合、音声分散表現系列変換部１０１は変換モデルパラメータγ_１を出力し、ラベル推定部１０２はラベル推定モデルパラメータγ_２を出力する。

　［第２実施形態］
　次に本発明の第２実施形態を説明する。
　第１実施形態では、ラベル推定部１０２から出力されたラベル系列をＣＴＣ損失計算部１０３でのＣＴＣ損失Ｌ_ＣＴＣの計算、およびＫＬＤ損失計算部１０９でのＫＬＤ損失Ｌ_ＫＬＤの計算の両方に利用し、ラベル推定部１０２のラベル推定モデルパラメータγ_２を更新することとした。しかしながら、確率行列計算部１０８で計算される確率行列Ｐが誤差を含む場合があり、このような場合、統合損失Ｌ_{ＣＴＣ＋ＫＬＤ}が確率行列Ｐの誤差の影響を受け、ラベル推定部１０２でラベル推定モデルパラメータγ_２が適切に更新されない場合も起こり得る。そのため、ＣＴＣ損失計算部１０３でのＣＴＣ損失Ｌ_ＣＴＣの計算に利用するためのラベル系列を推定するラベル推定部と、ＫＬＤ損失計算部１０９でのＫＬＤ損失Ｌ_ＫＬＤの計算に利用するためのラベル系列を推定するラベル推定部とを分離してもよい。さらに、確率行列Ｐの誤差の影響を受けるＫＬＤ損失Ｌ_ＫＬＤの計算に利用するラベル系列を推定するラベル推定部のラベル推定モデルパラメータを、確率行列Ｐの誤差の影響を受けないＣＴＣ損失Ｌ_ＣＴＣに基づいて更新することで確率行列Ｐの誤差の影響を抑制することができる。以下では第１実施形態との相違点を中心に説明し、既に説明した事項については説明を省略する。

　＜モデル学習装置２の機能構成＞
　図３に例示するように、本実施形態のモデル学習装置２は、音声分散表現系列変換部１０１，１０４、ＣＴＣ損失計算部１０３、シンボル分散表現変換部１０５、注意重み計算部１０６、ラベル推定部１０２，１０７，２０２、確率行列計算部１０８、ＫＬＤ損失計算部２０９、損失統合部１１０、および制御部１１１を有する。モデル学習装置２は、制御部１１１の制御に基づいて各処理を実行する。

　＜ハードウェアおよび当該ハードウェアとソフトウェアとの協働＞
　第１実施形態と同様であるため説明を省略する。

　＜モデル学習装置２の処理＞
　モデル学習装置２によるモデル学習処理を説明する。第１実施形態との相違点はラベル推定部２０２の処理、および、ＫＬＤ損失計算部１０９の処理に代えて、ラベル推定部２０２で生成されたラベル系列が入力されるＫＬＤ損失計算部２０９がＫＬＤ損失Ｌ_ＫＬＤを計算する点である。その他の事項は第１実施形態と同じである。以下では、これらの相違点のみを説明する。

　≪ラベル推定部２０２≫
　ラベル推定部２０２には、音声分散表現系列変換部１０１から出力された中間特徴量系列Ｈが入力される。ラベル推定部２０２は、ラベル推定モデルパラメータγ_３が与えられた場合における、中間特徴量系列Ｈに対応するラベル系列｛Ｌ^{^} _１’，Ｌ^{^} _２’，…，Ｌ^{^} _Ｆ’｝を得て出力する（ステップＳ２０２）。ラベル系列｛Ｌ^{^} _１’，Ｌ^{^} _２’，…，Ｌ^{^} _Ｆ’｝は各フレームｔのラベルＬ^{^} _ｔ’の系列である（ただし、ｔ＝１，…，Ｆ）。ラベルＬ^{^} _ｔ’は、フレームｔで出力されるシンボルの各エントリｋについての出力確率分布ｙ_ｋ，ｔである。前述のように、シンボルのエントリｋの総数はＫ＋１個であり、ｋ＝１，…，Ｋ＋１である。ラベルＬ^{^} _ｔ’は、例えば、参考文献１の式（１６）に従って得られる。

　≪ＫＬＤ損失計算部２０９≫
　ＫＬＤ損失計算部２０９には、確率行列計算部１０８から出力された確率行列Ｐおよびラベル推定部２０２から出力されたラベル系列｛Ｌ^{^} _１’，Ｌ^{^} _２’，…，Ｌ^{^} _Ｆ’｝が入力される。ＫＬＤ損失計算部２０９は、確率行列Ｐおよびラベル系列｛Ｌ^{^} _１’，Ｌ^{^} _２’，…，Ｌ^{^} _Ｆ’｝を用い、確率行列Ｐに対応する行列に対するラベル系列のＫＬＤ損失Ｌ_ＫＬＤを得て出力する（ステップＳ２０９）。ＫＬＤ損失Ｌ_ＫＬＤは、ラベル系列｛Ｌ^{^} _１’，Ｌ^{^} _２’，…，Ｌ^{^} _Ｆ’｝が確率行列Ｐからどの程度ずれているかを表す指標である。ＫＬＤ損失計算部２０９は、例えば、前述の式（２）や式（４）によってＫＬＤ損失Ｌ_ＫＬＤを得て出力する。ＫＬＤ損失計算部２０９から出力されたＫＬＤ損失Ｌ_ＫＬＤは損失統合部１１０に入力される。

　≪制御部１１１≫
　統合損失Ｌ_{ＣＴＣ＋ＫＬＤ}は、音声分散表現系列変換部１０１およびラベル推定部１０２に入力される。音声分散表現系列変換部１０１は統合損失Ｌ_{ＣＴＣ＋ＫＬＤ}に基づいて変換モデルパラメータγ_１を更新し、ラベル推定部１０２は統合損失Ｌ_{ＣＴＣ＋ＫＬＤ}に基づいてラベル推定モデルパラメータγ_２を更新する。これらの更新は統合損失Ｌ_{ＣＴＣ＋ＫＬＤ}が小さくなるように行われる。さらに、ＣＴＣ損失計算部１０３から出力されたＣＴＣ損失Ｌ_ＣＴＣはラベル推定部２０２に入力される。ラベル推定部２０２は、ＣＴＣ損失Ｌ_ＣＴＣに基づいてラベル推定モデルパラメータγ_３を更新する。この更新はＣＴＣ損失Ｌ_ＣＴＣが小さくなるように行われる。制御部１１１は、変換モデルパラメータγ_１が更新された音声分散表現系列変換部１０１にステップＳ１０１の処理を実行させ、ラベル推定モデルパラメータγ_２が更新されたラベル推定部１０２にステップＳ１０２の処理を実行させ、ラベル推定モデルパラメータγ_３が更新されたラベル推定部２０２にステップＳ２０２の処理を実行させ、ＣＴＣ損失計算部１０３にステップＳ１０３の処理を実行させ、ＫＬＤ損失計算部２０９にステップＳ２０９の処理を実行させ、損失統合部１１０にステップＳ１１０の処理を実行させる。このように制御部１１１は、統合損失Ｌ_{ＣＴＣ＋ＫＬＤ}に基づいて変換モデルパラメータγ_１およびラベル推定モデルパラメータγ_２（第１ラベル推定モデルパラメータ）を更新し、ＣＴＣ損失Ｌ_ＣＴＣに基づいてラベル推定モデルパラメータγ_３（第２ラベル推定モデルパラメータ）を更新し、ステップＳ１０１の処理と、ステップＳ１０２の処理と、ステップＳ１０３の処理と、ステップＳ２０２の処理と、ステップＳ２０９の処理と、ステップＳ１１０の処理とを終了条件が満たされるまで繰り返す。終了条件に限定はなく、繰り返し回数が閾値に達したことであってもよいし、繰り返しの前後で統合損失Ｌ_{ＣＴＣ＋ＫＬＤ}の変化量が閾値以下になったことであってもよいし、繰り返しの前後で変換モデルパラメータγ_１やラベル推定モデルパラメータγ_２やラベル推定モデルパラメータγ_３の変化量が閾値以下になったことであってもよい。終了条件が満たされた場合、音声分散表現系列変換部１０１は変換モデルパラメータγ_１を出力し、ラベル推定部１０２はラベル推定モデルパラメータγ_２を出力する。

　［第３実施形態］
　次に、本発明の第３実施形態を説明する。本実施形態では、第１または第２実施形態のモデル学習装置１または２から出力された変換モデルパラメータγ_１およびラベル推定モデルパラメータγ_２を用いて構築される音声認識装置について説明する。

　図４に例示するように、本実施形態の音声認識装置３は、音声分散表現系列変換部３０１およびラベル推定部３０２を有する。音声分散表現系列変換部３０１は、モデル学習装置１または２から出力された変換モデルパラメータγ_１が入力されて設定されている点を除き、前述の音声分散表現系列変換部１０１と同一である。ラベル推定部３０２は、モデル学習装置１または２から出力されたラベル推定モデルパラメータγ_２が入力されて設定されている点を除き、前述のラベル推定部１０２と同一である。

　≪音声分散表現系列変換部３０１≫
　音声認識装置３の音声分散表現系列変換部３０１には、音声認識対象の音響特徴量系列Ｘ”が入力される。音声分散表現系列変換部３０１は、変換モデルパラメータγ_１が与えられた場合における、音響特徴量系列Ｘ”に対応する中間特徴量系列Ｈ”を得て出力する（ステップＳ３０１）。

　≪ラベル推定部３０２≫
　ラベル推定部３０２には、音声分散表現系列変換部３０１から出力された中間特徴量系列Ｈ”が入力される。ラベル推定部３０２は、ラベル推定モデルパラメータγ_２が与えられた場合における、中間特徴量系列Ｈ”に対応するラベル系列｛Ｌ^{^} _１，Ｌ^{^} _２，…，Ｌ^{^} _Ｆ｝を音声認識結果として得て出力する（ステップＳ３０２）。

　［その他の変形例等］
　なお、本発明は上述の実施の形態に限定されるものではない。例えば、述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

　また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１，２　モデル学習装置
３　音声認識装置

Claims

　音響特徴量系列に基づいて、前記音響特徴量系列に対するｎ番目のシンボルｃ_ｎの各エントリｋの出現確率に対応する要素を持つ出力確率分布ベクトルｚ_ｎと、シンボルｃ_ｎが表れるタイミングに対する前記音響特徴量系列の各フレームｔの関連性の高さ表す注意重みに対応する要素を持つ注意重みベクトルα_ｎと、の積の全シンボルｃ_ｎについての総和である確率行列Ｐを得る確率行列計算部と、
　モデルパラメータが与えられた場合における、前記音響特徴量系列に対応するラベル系列を得る推定部と、
　前記音響特徴量系列に対応するシンボル系列および前記ラベル系列を用い、前記シンボル系列に対する前記ラベル系列のＣＴＣ損失を得るＣＴＣ損失計算部と、
　前記確率行列Ｐに対応する行列および前記ラベル系列を用い、前記確率行列Ｐに対応する行列に対する前記ラベル系列のＫＬＤ損失を得るＫＬＤ損失計算部と、
　前記ＣＴＣ損失と前記ＫＬＤ損失を統合した統合損失に基づいて前記モデルパラメータを更新し、前記推定部と前記ＣＴＣ損失計算部と前記ＫＬＤ損失計算部との処理を終了条件が満たされるまで繰り返す制御部と、
を有するモデル学習装置。
　音響特徴量系列に基づいて、前記音響特徴量系列に対するｎ番目のシンボルｃ_ｎの各エントリｋの出現確率に対応する要素を持つ出力確率分布ベクトルｚ_ｎと、シンボルｃ_ｎが表れるタイミングに対する前記音響特徴量系列の各フレームｔの関連性の高さ表す注意重みに対応する要素を持つ注意重みベクトルα_ｎと、の積の全シンボルｃ_ｎについての総和である確率行列Ｐを得る確率行列計算部と、
　変換モデルパラメータが与えられた場合における、前記音響特徴量系列に対応する中間特徴量系列を得る音声分散表現系列変換部と、
　第１ラベル推定モデルパラメータが与えられた場合における、前記中間特徴量系列に対応する第１ラベル系列を得る第１ラベル推定部と、
　前記中間特徴量系列および第２ラベル推定モデルパラメータを用い、前記中間特徴量系列および前記第２ラベル推定モデルパラメータに対応する第２ラベル系列を得る第２ラベル推定部と、
　前記音響特徴量系列に対応するシンボル系列および前記第１ラベル系列を用い、前記シンボル系列に対する前記第１ラベル系列のＣＴＣ損失を得るＣＴＣ損失計算部と、
　前記確率行列Ｐに対応する行列および前記第２ラベル系列を用い、前記確率行列Ｐに対応する行列に対する前記第２ラベル系列のＫＬＤ損失を得るＫＬＤ損失計算部と、
　前記ＣＴＣ損失と前記ＫＬＤ損失を統合した統合損失に基づいて前記変換モデルパラメータ、および前記第１ラベル推定モデルパラメータを更新し、前記ＣＴＣ損失に基づいて前記第２ラベル推定モデルパラメータを更新し、前記音声分散表現系列変換部と前記第１ラベル推定部と前記第２ラベル推定部と前記ＣＴＣ損失計算部と前記ＫＬＤ損失計算部との処理を終了条件が満たされるまで繰り返す制御部と、
を有するモデル学習装置。
　請求項１のモデル学習装置で終了条件を満たした前記モデルパラメータが与えられた場合における、第２音響特徴量系列に対応する第２ラベル系列を得て出力する音声認識装置。
　音響特徴量系列に基づいて、前記音響特徴量系列に対するｎ番目のシンボルｃ_ｎの各エントリｋの出現確率に対応する要素を持つ出力確率分布ベクトルｚ_ｎと、シンボルｃ_ｎが表れるタイミングに対する前記音響特徴量系列の各フレームｔの関連性の高さ表す注意重みに対応する要素を持つ注意重みベクトルα_ｎと、の積の全シンボルｃ_ｎについての総和である確率行列Ｐを得る確率行列計算ステップと、
　モデルパラメータが与えられた場合における、前記音響特徴量系列に対応するラベル系列を得る推定ステップと、
　前記音響特徴量系列に対応するシンボル系列および前記ラベル系列を用い、前記シンボル系列に対する前記ラベル系列のＣＴＣ損失を得るＣＴＣ損失計算ステップと、
　前記確率行列Ｐに対応する行列および前記ラベル系列を用い、前記確率行列Ｐに対応する行列に対する前記ラベル系列のＫＬＤ損失を得るＫＬＤ損失計算ステップと、を有し、
　前記ＣＴＣ損失と前記ＫＬＤ損失を統合した統合損失に基づいて前記モデルパラメータを更新し、前記推定ステップと前記ＣＴＣ損失計算ステップと前記ＫＬＤ損失計算ステップとの処理を終了条件が満たされるまで繰り返す、モデル学習方法。
　音響特徴量系列に基づいて、前記音響特徴量系列に対するｎ番目のシンボルｃ_ｎの各エントリｋの出現確率に対応する要素を持つ出力確率分布ベクトルｚ_ｎと、シンボルｃ_ｎが表れるタイミングに対する前記音響特徴量系列の各フレームｔの関連性の高さ表す注意重みに対応する要素を持つ注意重みベクトルα_ｎと、の積の全シンボルｃ_ｎについての総和である確率行列Ｐを得る確率行列計算ステップと、
　変換モデルパラメータが与えられた場合における、前記音響特徴量系列に対応する中間特徴量系列を得る音声分散表現系列変換ステップと、
　第１ラベル推定モデルパラメータが与えられた場合における、前記中間特徴量系列に対応する第１ラベル系列を得る第１ラベル推定ステップと、
　前記中間特徴量系列および第２ラベル推定モデルパラメータを用い、前記中間特徴量系列および前記第２ラベル推定モデルパラメータに対応する第２ラベル系列を得る第２ラベル推定ステップと、
　前記音響特徴量系列に対応するシンボル系列および前記第１ラベル系列を用い、前記シンボル系列に対する前記第１ラベル系列のＣＴＣ損失を得るＣＴＣ損失計算ステップと、
　前記確率行列Ｐに対応する行列および前記第２ラベル系列を用い、前記確率行列Ｐに対応する行列に対する前記第２ラベル系列のＫＬＤ損失を得るＫＬＤ損失計算ステップと、を有し、
　前記ＣＴＣ損失と前記ＫＬＤ損失を統合した統合損失に基づいて前記変換モデルパラメータ、および前記第１ラベル推定モデルパラメータを更新し、前記ＣＴＣ損失に基づいて前記第２ラベル推定モデルパラメータを更新し、前記音声分散表現系列変換ステップと前記第１ラベル推定ステップと前記第２ラベル推定ステップと前記ＣＴＣ損失計算ステップと前記ＫＬＤ損失計算ステップとの処理を終了条件が満たされるまで繰り返す、モデル学習方法。
　請求項４のモデル学習装置で終了条件を満たした前記モデルパラメータが与えられた場合における、第２音響特徴量系列に対応する第２ラベル系列を得て出力する音声認識方法。
　請求項１または２のモデル学習装置としてコンピュータを機能させるためのプログラム。
　請求項３の音声認識装置としてコンピュータを機能させるためのプログラム。