WO2020196021A1

WO2020196021A1 - 情報処理装置、情報処理方法、及び、プログラム

Info

Publication number: WO2020196021A1
Application number: PCT/JP2020/011438
Authority: WO
Inventors: 衣未留角尾
Original assignee: ソニー株式会社
Priority date: 2019-03-28
Filing date: 2020-03-16
Publication date: 2020-10-01
Also published as: CN113632165A

Abstract

本技術は、言語モデルを含む音声認識モデルの性能を向上することができるようにする情報処理装置、情報処理方法、及び、プログラムに関する。学習装置は、第１のニューラルネットワークにより構成される学習用モデルを用いて言語モデルの学習を行う学習部を備える。音声認識装置は、第１のニューラルネットワークにより構成される学習用モデルを用いて学習された言語モデルを含む音声認識モデルを用いて音声認識を行う音声認識部を備える。本技術は、例えば、音声認識装置、又は、音声認識モデルの学習を行う学習装置に適用することができる。

Description

情報処理装置、情報処理方法、及び、プログラム

　本技術は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、音声認識モデルの性能を向上できるようにした情報処理装置、情報処理方法、及び、プログラムに関する。

　機械学習により得られる音声認識モデルには、大きく以下の２種類がある。

　第１の音声認識モデルは、音響モデルと言語モデルを個別に学習し、組み合わせたモデルである。この音声認識モデルでは、音響モデルと言語モデルを組み合わせる接点でギャップが発生しやすく、音声認識モデル全体の性能の最適化が困難である。

　第２の音声認識モデルは、ニューラルネットワークを用いて、入力した音響特徴量に対応する文章を直接出力するモデルを学習することにより得られる、Ｅｎｄ－ｔｏ－Ｅｎｄ方式と呼ばれるモデルである。この音声認識モデルでは、音声データと音声データの内容を示すテキストデータとを組み合わせた教師データが大量に必要になる。しかし、テキストデータに対応する音声データを大量に入手又は作成するのは非常に困難である。一方、教師データが不足すると、音声認識モデルの精度が低下する。

　これに対して、従来、音響モデルと言語モデルを組み合わせて識別学習を行い、誤差を改善するように音響モデルを更新することにより、音響モデルと言語モデルのギャップを埋める方法が提案されている（例えば、特許文献１参照）。

特開２０１１－１９７４１０号公報

　しかしながら、特許文献１の識別学習では、言語モデルに合わせて音響モデルのみが学習されるため、言語モデルの性能は向上しない。

　本技術は、このような状況に鑑みてなされたものであり、言語モデルを含む音声認識モデルの性能を向上できるようにするものである。

　本技術の第１の側面の情報処理装置は、第１のニューラルネットワークにより構成される学習用モデルを用いて言語モデルの学習を行う学習部を備える。

　本技術の第１の側面の情報処理方法は、ニューラルネットワークにより構成される学習用モデルを用いて言語モデルの学習を行う。

　本技術の第１の側面のプログラムは、ニューラルネットワークにより構成される学習用モデルを用いて言語モデルの学習を行う処理をコンピュータに実行させる。

　本技術の第２の側面の情報処理装置は、第１のニューラルネットワークにより構成される学習用モデルを用いて学習された言語モデルを含む音声認識モデルを用いて音声認識を行う音声認識部を備える。

　本技術の第２の側面の情報処理方法は、ニューラルネットワークにより構成される学習用モデルを用いて学習された言語モデルを含む音声認識モデルを用いて音声認識を行う。

　本技術の第２の側面のプログラムは、ニューラルネットワークにより構成される学習用モデルを用いて学習された言語モデルを含む音声認識モデルを用いて音声認識を行う処理をコンピュータに実行させる。

　本技術の第１の側面においては、ニューラルネットワークにより構成される学習用モデルを用いて言語モデルの学習が行われる。

　本技術の第２の側面においては、ニューラルネットワークにより構成される学習用モデルを用いて学習された言語モデルを含む音声認識モデルを用いて音声認識が行われる。

本技術を適用した音声認識装置の構成例を示すブロック図である。Ｅｎｄ－ｔｏ－Ｅｎｄ方式の音声認識装置の構成例を示すブロック図である。本技術を適用した学習装置の構成例を示すブロック図である。学習用モデルの構成例を示すブロック図である。学習処理を説明するためのフローチャートである。ＷＦＳＴの構成例を示す図である。学習用モデルの入力層及び中間層の演算例を説明するための図である。状態遷移の前向き演算及び後ろ向き演算の例を示す図である。出力層の演算例を説明するための図である。誤差逆伝搬法の演算例を説明するための図である。コンピュータの構成例を示す図である。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．実施の形態
　２．変形例
　３．その他

　＜＜１．実施の形態＞＞
　図１乃至図１０を参照して、本技術の実施の形態について説明する。

　　＜音声認識装置１０１の構成例＞
　図１は、本技術を適用した音声認識装置１０１の構成例を示すブロック図である。

　音声認識装置１０１は、信号処理部１１１、特徴量抽出部１１２、及び、音声認識部１１３を備える。

　信号処理部１１１は、入力された音声データに対して所定の信号処理を行い、音声データの補正を行う。例えば、信号処理部１１１は、音声データのノイズの除去や波形の整形等を行い、音声データのＳＮＲ（Signal Noise Ratio）又はＳＤＲ（Signal-to-Distortion Ratio）を改善する。信号処理部１１１は、信号処理後の音声データを特徴量抽出部１１２に供給する。

　特徴量抽出部１１２は、音声認識に用いるｆｂａｎｋ（フィルタバンク対数パワー）等の音響特徴量を音声データから抽出する。特徴量抽出部１１２は、抽出した音響特徴量を示す特徴量データを音声認識部１１３に供給する。

　音声認識部１１３は、音声認識モデル１２１を用いて、特徴量データに基づいて音声認識を行う。

　音声認識モデル１２１は、例えば、ＤＮＮ（Deep Neural Network）－ＨＭＭ（Hidden Markov Model）方式の音声認識モデルにより構成される。音声認識モデル１２１は、音響モデル１３１及び言語モデル１３２を含む。

　音響モデル１３１は、特徴量データに基づいて、音声データ内の音素の識別処理を行い、識別結果を示す音響データを出力する。音響モデル１３１は、例えば、特徴量データにより示される音響特徴量に基づいて、各音素に対応するＨＭＭの状態を推定するモデルを、ＤＮＮを用いて学習することにより得られる。

　言語モデル１３２は、音響モデル１３１から供給される音響データに基づいて、音声データ内の単語の識別処理を行い、音声データの内容（単語の並び）を示す出力データを生成し、出力する。例えば、言語モデル１３２は、直前に出現した１以上の単語から次の単語の出現確率を推定するモデルにＨＭＭの遷移確率を組み合わせたＷＦＳＴ（Weighted Finite-State Transducer）により構成される。

　本技術では、後述するように、個別に学習された音響モデル１３１と言語モデル１３２を統合した状態で追加学習が行われ、音響モデル１３１及び言語モデル１３２のパラメータが更新される。これにより、音声認識モデル１２１全体の性能の最適化が行われる。

　　＜Ｅｎｄ－ｔｏ－Ｅｎｄ方式の音声認識装置２０１の構成例＞
　図２は、図１の音声認識装置１０１と比較するために、Ｅｎｄ－ｔｏ－Ｅｎｄ方式の音声認識モデル２２１を用いた音声認識装置２０１の構成例を示している。なお、図中、図１の音声認識装置１０１と対応する部分には同じ符号を付してあり、その説明は適宜省略する。

　音声認識装置２０１は、図１の音声認識装置１０１と比較して、信号処理部１１１及び特徴量抽出部１１２を備える点で一致し、音声認識部１１３の代わりに、音声認識部２１１を備える点が異なる。

　音声認識部２１１は、エンコーダ２３１及びデコーダ２３２を含む音声認識モデル２２１を用いて、特徴量データに基づいて、音声認識を行う。

　音声認識モデル２２１は、上述したように、音声データと音声データの内容を示すテキストデータとを組み合わせた教師データを用いて学習される。しかし、上述したように、テキストデータに対応する音声データを大量に入手又は作成するのは非常に困難であり、教師データが不足すると、音声認識モデル２２１の性能が低下する。

　　＜学習装置３０１の構成例＞
　図３は、図１の音声認識モデル１２１の音響モデル１３１及び言語モデル１３２の学習に用いられる学習装置３０１の構成例を示している。なお、図中、図１の音声認識装置１０１と対応する部分には同じ符号を付してあり、その説明は適宜省略する。

　学習装置３０１は、図１の音声認識装置１０１と比較して、信号処理部１１１及び特徴量抽出部１１２を備える点で一致し、音声認識部１１３の代わりに、学習部３１１を備える点が異なる。

　学習装置３０１には、音声データからなる入力データ、及び、音声データの内容をテキスト又はベクトル等で表す正解データを含む教師データが入力される。そのうち、入力データは、信号処理部１１１に供給され、正解データは、学習部３１１に供給される。

　学習部３１１は、音響モデル１３１及び学習用モデル３３１を統合した統合モデル３２１を用いて、音響モデル１３１及び言語モデル１３２の学習を行う。

　学習用モデル３３１は、ニューラルネットワークにより構成される。従って、統合モデル３２１は、音響モデル１３１を構成するニューラルネットワーク（ＤＮＮ）と学習用モデル３３１を構成するニューラルネットワークを統合したネットワークを構成する。学習用モデル３３１は、言語モデル１３２の演算、例えば、言語モデル１３２を構成するＷＦＳＴを用いたデコード処理を行うモデルであり、音響モデル１３１及び言語モデル１３２の学習に用いられる。

　　＜学習用モデル３３１の構成例＞
　図４は、統合モデル３２１に含まれる学習用モデル３３１の構成例を示すブロック図である。

　学習用モデル３３１は、入力層３５１、中間層３５２、出力層３５３、及び、マックスプーリング層３５４を備える。

　入力層３５１は、音響モデル１３１と学習用モデル３３１を結合する層であり、音響モデル１３１から音響データが入力される。入力層３５１は、音響データを言語モデル１３２の状態空間にマッピングすることにより、音響状態データを生成し、中間層３５２に供給する。

　中間層３５２は、音響状態データに基づいて、言語モデル１３２の状態遷移の演算を行い、状態遷移の演算結果を示すデータを出力層３５３に供給する。

　出力層３５３は、中間層３５２による状態遷移の演算結果に基づいて、入力データ内の単語の識別演算を行い、演算結果を示すデータをマックスプーリング層３５４に供給する。

　マックスプーリング層３５４は、出力層３５３による単語の識別結果に基づいて、入力データの内容を推定し、推定結果を示すデータを出力する。

　　＜学習処理＞
　次に、図５のフローチャートを参照して、学習装置３０１により実行される学習処理について説明する。

　この処理は、例えば、学習装置３０１に教師データが入力されたとき開始される。教師データに含まれる入力データ（音声データ）は信号処理部１１１に供給され、正解データは学習用モデル３３１に供給される。

　なお、以下、説明を簡単にするために、学習処理の対象となる言語モデル１３２が図６に示されるＷＦＳＴ４０１により構成される場合を具体例に挙げて説明する。

　ＷＦＳＴ４０１は、”ｓｔａｒｔ”と”ｓｔｏｐ”の２つの単語を識別することが可能である。

　ＷＦＳＴ４０１の各ノードは状態を示し、ノード内の数字は状態番号を示している。なお、状態０が初期状態とされ、二重丸で囲まれている状態９が終了状態とされる。

　各状態を結ぶ矢印は、状態間の遷移を示している。また、各矢印の上には、１段目に「入力ラベル：出力ラベル」が示され、２段目に状態遷移に対する重みが示されている。

　入力ラベルは、状態が遷移する条件となる音素を示す。例えば、状態０において音素ｓが入力されると、ＷＦＳＴ４０１の状態が状態２に遷移する。なお、”ｓｉｌ”は、無音を示す。

　出力ラベルは、状態の遷移時に出力される単語を示す。例えば、状態４から状態７への遷移時に、出力ラベルとして”ｓｔｏｐ”が出力される。なお、”ｎｉｌ”は、出力ラベル（単語）が出力されないことを示す。

　以下、状態ｉに遷移するための入力ラベルを状態ｉの入力ラベルと称し、ｉｌａｂｅｌ（ｉ）で表す。例えば、状態２の入力ラベルｉｌａｂｅｌ（２）は、”ｓ”となる。また、以下、状態ｉへの遷移時の出力ラベルを状態ｉの出力ラベルと称し、ｏｌａｂｅｌ（ｉ）で表す。例えば、状態５の出力ラベルｏｌａｂｅｌ（５）は、”ｓｔａｒｔ”となる。

　ステップＳ１において、信号処理部１１１は、信号処理を行う。具体的には、信号処理部１１１は、入力データのノイズの除去や波形の整形等の信号処理を行い、信号処理後の入力データを特徴量抽出部１１２に供給する。

　ステップＳ２において、特徴量抽出部１１２は、特徴量を抽出する。例えば、特徴量抽出部１１２は、所定の長さのフレーム毎に入力データからｆｂａｎｋ等の音響特徴量を抽出し、抽出した音響特徴量を示す特徴量データを学習部３１１に供給する。

　ステップＳ３において、学習部３１１は、音素の識別演算を行う。具体的には、特徴量データが音響モデル１３１に入力され、音素の識別演算が行われ、音響データが出力される。

　音響データは、入力データのフレーム毎の音素の識別結果を示す音響ベクトルを含む。音響ベクトルは、所定の複数の音素それぞれに対する音響スコアを要素に含むベクトルである。音響スコアは、対象となるフレームの音が対象となる音素を含む確率を示す。

　図７の下段には、音響モデル１３１から出力される音響データに含まれる音響ベクトルが模式的に図示されている。

　この例では、フレームｔ１乃至フレームｔ１４の音響ベクトルが示されている。音響ベクトルには、ｓｉｌ（無音）、ｓ、ｔ、ａａ、ｒ、及び、ｐの各音素に対する音響スコアが要素として含まれる。ここでは、音響ベクトルに含まれる各音響スコアがマスで表されている。そして、音響スコアが大きくなるほど、マスの濃度が濃くされ、音響スコアが小さくなるほど、マスの濃度が薄くされている。

　以下、フレームｔの音響ベクトルをＸａ（ｔ）で表し、音響ベクトルＸａ（ｔ）のｉ番目の音素に対する音響スコアをｘａ_i（ｔ）で表す。なお、各音素に対して、ｓｉｌ、ｓ、ｔ、ａａ、ｒ、ｐの順に、０から５までの番号が割り振られるものとする。例えば、ｘａ₁（ｔ）は、音響ベクトルＸａ（ｔ）の音素ｓに対する音響スコアを示す。

　ステップＳ４において、学習部３１１は、音響データを言語モデルの状態空間にマッピングする。具体的には、音響データに含まれる音響ベクトルＸａ（ｔ）が、学習用モデル３３１の入力層３５１に入力され、次式（１）により音響状態ベクトルＸｂ（ｔ）に変換される。

　Ｘｂ（ｔ）＝Ｗ×Ｘａ（ｔ）・・・（1）

　Ｗは、音響ベクトルＸａ（ｔ）を言語モデル１３２（ＷＦＳＴ４０１）の状態空間にマッピングするための行列であり、次式（２）により表される。

　行列Ｗの要素である重みｗ_i,jは、音響ベクトルＸａ（ｔ）の音響スコアｘａ_j（ｔ）に対するＷＦＳＴ４０１の状態ｉの重みを示している。なお、行列Ｗの最初の行は０行目とされ、最初の列は０列目とされる。

　重みｗ_i,jは、状態ｉに遷移するための入力ラベルｉｌａｂｅｌ（ｉ）と、音響ベクトルＸａ（ｔ）の音響スコアｘａ_i（ｔ）の対象となる音素とが一致する場合、１となり、一致しない場合、０となる。例えば、状態３に遷移するための入力ラベルｉｌａｂｅｌ（３）と、音響ベクトルＸａ（ｔ）の音響スコアｘａ₂（ｔ）の対象となる音素とは、ｔで一致する。従って、行列Ｗの１列目の重みｗ_1,jのうち、重みｗ_1,2のみが１に設定され、その他は０に設定される。

　図７の中段には、音響ベクトルＸａ（ｔ）から変換された音響状態ベクトルＸｂ（ｔ）が模式的に図示されている。

　音響状態ベクトルＸｂ（ｔ）の要素は、ＷＦＳＴ４０１の状態ｉに対する音響状態スコアｘｂ_i（ｔ）とされる。音響状態スコアｘｂ_i（ｔ）は、音響ベクトルＸａ（ｔ）により示される音が入力された場合に、状態ｉとなる確率を示している。ここでは、音響状態ベクトルＸｂ（ｔ）に含まれる各音響状態スコアｘｂ_i（ｔ）がマスで表されている。そして、音響状態スコアｘｂ_i（ｔ）が大きくなるほど、マスの濃度が濃くされ、音響状態スコアｘｂ_i（ｔ）が小さくなるほど、マスの濃度が薄くされている。

　ステップＳ５において、学習部３１１は、状態遷移の前向き演算を行う。すなわち、音響状態ベクトルＸｂ（ｔ）が、時系列に沿って言語モデル１３２の中間層３５２に入力され、次式（３）の演算が行われ、状態ベクトルΑ（ｔ）が時系列の順に計算される。

　式（３）の遷移行列Ｓは、ＷＦＳＴ４０１の状態遷移をスパースな行列で表現したものであり、次式（４）で表される。

　遷移行列Ｓの要素である重みｓ_i,jは、ＷＦＳＴ４０１の状態ｊから状態ｉへの状態遷移に対する重みを示している。なお、遷移行列Ｓの最初の行は０行目とされ、最初の列は０列目とされる。例えば、重みｓ_2,0には、ＷＦＳＴ４０１の状態０から状態２への状態遷移に対する重みである０．６が設定される。

　なお、式（３）の演算において、状態ベクトルＡ（ｔ）の要素である状態スコアα_i（ｔ）は、次式（５）により計算される。

　状態スコアα_i（ｔ）は、フレームｔにおいて、言語モデル１３２を構成するＷＦＳＴ４０１の状態が状態ｉである確率を示す。

　なお、状態ベクトルΑ（ｔ）の初期値である状態ベクトルΑ（ｔ０）では、状態スコアα₀（ｔ０）が１に設定され、その他の状態スコアα_i（ｔ０）が０に設定される。すなわち、状態ベクトルΑ（ｔ０）は、ＷＦＳＴ４０１の初期状態が状態０であることを示す。

　このように、遷移行列Ｓを再帰的に適用して状態ベクトルΑ（ｔ）の演算を行うことにより、ＷＦＳＴ４０１の状態遷移と等価な演算が行われる。

　図７の上段には、状態ベクトルΑ（ｔ）が模式的に図示されている。ここでは、状態ベクトルΑ（ｔ）に含まれる各状態スコアα_i（ｔ）がマスで表されている。そして、状態スコアα_i（ｔ）が大きくなるほど、マスの濃度が濃くされ、状態スコアα_i（ｔ）が小さくなるほど、マスの濃度が薄くされている。

　ステップＳ６において、学習部３１１は、状態遷移の後ろ向き演算を行う。すなわち、音響状態ベクトルＸｂ（ｔ）が、時系列の逆順に学習用モデル３３１の中間層３５２に入力され、次式（６）の演算が行われ、状態ベクトルΒ（ｔ）が時系列の逆順に計算される。

　なお、式（６）の演算において、状態ベクトルΒ（ｔ）の要素である状態スコアβ_i（ｔ）は、次式（７）により計算される。

　状態スコアβ_i（ｔ）は、フレームｔにおいて、言語モデル１３２を構成するＷＦＳＴ４０１の状態が状態ｉであるものが、最終フレームまでに終了状態にたどり着く確率を示す。

　なお、状態ベクトルΒ（ｔ）の初期値である状態ベクトルΒ（ｔ１４）では、状態スコアβ₉（ｔ１４）が１に設定され、その他の状態スコアβ_i（ｔ１４）が０に設定される。すなわち、状態ベクトルΒ（ｔ１４）は、ＷＦＳＴ４０１の終了状態が状態９であることを示す。

　このように、遷移行列Ｓの転置行列Ｓ^Tを再帰的に適用して状態ベクトルΒ（ｔ）の演算を行うことにより、ＷＦＳＴ４０１の状態の逆遷移と等価な演算が行われる。

　図８の上段には、状態ベクトルΒ（ｔ）が模式的に図示されている。ここでは、状態ベクトルΒ（ｔ）に含まれる各状態スコアβ_i（ｔ）がマスで表されている。そして、状態スコアβ_i（ｔ）が大きくなるほど、マスの濃度が濃くされ、状態スコアβ_i（ｔ）が小さくなるほど、マスの濃度が薄くされている。

　なお、図８の下段には、図７の上段と同様に、状態ベクトルΑ（ｔ）が模式的に図示されている。

　ステップＳ７において、学習部３１１は、出力演算を行う。

　具体的には、状態ベクトルΑ（ｔ）及び状態ベクトルΒ（ｔ）が学習用モデル３３１の出力層３５３に入力され、次式（８）の演算が行われ、出力スコアｙ_v（ｔ）が計算される。

　出力スコアｙ_v（ｔ）は、単語の識別結果を示し、フレームｔにおいて単語ｖが出現する確率を示す。ｓ_i,j∈Ｏは、単語ｖが出力ラベルｏｌａｂｅｌ（ｊ）として出力される状態ｊに遷移する経路に対応する遷移行列Ｓの重みｓ_i,jの集合を示す。

　このように、出力スコアｙ_v（ｔ）は、ＷＦＳＴ４０１の状態遷移の前向き演算及び後ろ向き演算の結果に基づいて計算される。

　なお、ＷＦＳＴ４０１において、出力ラベルｏｌａｂｅｌ（ｊ）として”ｓｔａｒｔ”が出力されるのは、状態４から状態５又は状態６に遷移する経路である。従って、フレームｔにおける”ｓｔａｒｔ”に対する出力スコアｙ_v（ｔ）は、フレームｔにおいて、状態４から状態５に遷移する確率、及び、状態４から状態６に遷移する確率のうち大きい方となる。

　また、ＷＦＳＴ４０１において、出力ラベルｏｌａｂｅｌ（ｊ）として”ｓｔｏｐ”が出力されるのは、状態４から状態７に遷移する経路のみである。従って、フレームｔにおける”ｓｔｏｐ”に対する出力スコアｙ_v（ｔ）は、フレームｔにおいて、状態４から状態７に遷移する確率となる。

　なお、図８の上段の状態ベクトルΒ（ｔ）の図において、出力ラベルｏｌａｂｅｌ（ｊ）として”ｓｔａｒｔ”が出力される場合の遷移先の状態５及び状態６の状態スコアβ₅（ｔ）及び状態スコアβ₆（ｔ）に対応するマスが太線で囲まれている。また、出力ラベルｏｌａｂｅｌ（ｊ）として”ｓｔｏｐ”が出力される場合の遷移先の状態７の状態スコアβ₇（ｔ）に対応するマスが、太い点線で囲まれている。さらに、図８の下段の状態ベクトルΑ（ｔ）の図において、出力ラベルｏｌａｂｅｌ（ｊ）として”ｓｔａｒｔ”又は”ｓｔｏｐ”が出力される場合の遷移元の状態４の状態スコアα₄（ｔ）に対応するマスが太線で囲まれている。

　図９の矢印より左側には、”ｓｔｏｐ”及び”ｓｔａｒｔ”に対する出力スコアｙ_v（ｔ）が模式的に図示されている。ここでは、フレームｔ１乃至フレームｔ１４の”ｓｔｏｐ”及び”ｓｔａｒｔ”に対する出力スコアｙ_v（ｔ）がマスで表されている。そして、出力スコアｙ_v（ｔ）が大きくなるほど、マスの濃度が濃くされ、出力スコアｙ_v（ｔ）が小さくなるほど、マスの濃度が薄くされている。

　次に、各単語ｖに対する出力スコアｙ_v（ｔ）が学習用モデル３３１のマックスプーリング層３５４に入力され、例えば、次式（９）の演算が行われ、各単語ｖに対する最終的な出力スコアである最終スコアｙ_vが計算される。

　すなわち、最終スコアｙ_vは、各単語ｖの出力スコアｙ_v（ｔ）の最大値に設定される。例えば、図９の例では、”ｓｔｏｐ”に対する出力スコアｙ_v（ｔ）は、フレームｔ７で最大になる。従って、”ｓｔｏｐ”に対する最終スコアｙ_vは、フレームｔ７の出力スコアｙ_v（ｔ）に設定される。また、”ｓｔａｒｔ”に対する出力スコアｙ_v（ｔ）は、フレームｔ６で最大になる。従って、”ｓｔａｒｔ”に対する最終スコアｙ_vは、フレームｔ６の出力スコアｙ_v（ｔ）に設定される。

　なお、現実の教師データにおいては複数の単語が一文中に現れることが多い。そこで、次式（１０）のスコアＪが最大になるように、教師データ内の各単語に対する最終スコアｙ_vを計算するようにしてもよい。

　Ｒは教師データの正解データ内の単語数を示し、ｒは正解データ内の単語の出現順を示している。ｒｅｆ（ｒ）は正解データ内においてｒ番目に出現する単語を示し、ｙ_ref(r)（ｔ）は、フレームｔにおける単語ｒｅｆ（ｒ）の出力スコアを示している。ｔ（ｒ－１）は、正解データ内においてｒ－１番目の単語が出現すると推定されるフレームを示し、ｔ（ｒ＋１）は、正解データ内においてｒ＋１番目の単語が出現すると推定されるフレームを示している。

　これにより、正解データ内のｒ番目の単語ｒｅｆ（ｒ）が出現するフレームｔが推定され、単語ｒｅｆ（ｒ）に対する最終スコアｙ_vが、推定されたフレームｔにおける単語ｒｅｆ（ｒ）の出力スコアｙ_v（ｔ）に設定される。

　なお、正解データ内のｒ番目の単語に対する単語ｒｅｆ（ｒ）以外の各単語ｖの最終スコアｙ_vは、例えば、単語ｒｅｆ（ｒ）が出現すると推定されたフレームｔにおける各単語ｖの出力スコアｙ_v（ｔ）に設定される。

　ステップＳ８において、学習部３１１は、誤差演算を行う。

　以上の式（１）乃至式（１０）の演算により、学習対象を一般的な識別問題として捉えることができるため、ロス関数を用いてニューラルネットワーク学習を行うことが可能になる。そこで、例えば、学習部３１１は、ロス関数として次式（１１）のソフトマックスクロスエントロピー関数を用いて、学習用モデル３３１の出力データの誤差を計算する。

　出力ベクトルＹは、各単語に対する最終スコアｙ_vを要素とするベクトルである。||Ｙ||₁は、出力ベクトルＹのＬ¹ノルムを示している。正解ベクトルＰは、正解データを示すベクトルであり、正解データに含まれる単語に対するスコアが１に設定され、それ以外の単語に対するスコアが０に設定される。

　なお、例えば、過学習を避けるために、正則化項を追加した次式（１２）を用いてもよい。

　なお、Ｔは入力データのフレーム長を示し、λは任意に設定される重みを示している。また、ＫＬ（）は、ＫＬダイバージェンスを示し、Ｘａ_org（ｔ）は、学習前又は学習初期に音響モデル１３１から出力される音響ベクトルを示す。

　ステップＳ９において、学習部３１１は、言語モデル１３２及び音響モデル１３１のパラメータを更新する。具体的には、学習部３１１は、統合モデル３２１において、一般的な機械学習における誤差逆伝搬法（Backpropagation）を用いて、学習用モデル３３１を構成するニューラルネットワーク、及び、下層の音響モデル１３１を構成するＤＮＮに誤差伝搬することにより、式（１１）又は式（１２）のロス関数の値を最小化するようにパラメータの更新を行う。これにより、言語モデル１３２を構成するＷＦＳＴ４０１の状態遷移に対する重み（遷移行列Ｓの重みｓ_i,j）、及び、音響モデル１３１を構成するＤＮＮのパラメータが更新される。なお、上述した式（１）の行列Ｗの重みｗ_i,jも更新するようにしてもよい。

　図１０は、パラメータの更新の流れを模式的に示している。図１０の上段は、図９の矢印の左側の出力データと同様の図である。図１０の中段は、図８の上段の後ろ向き演算による状態遷移と同様の図である。図１０の下段は、図８の下段の前向き演算による状態遷移と同様の図である。

　例えば、図１０の点線の矢印で示されるように、”ｓｔｏｐ”に対する最終スコアｙ_vの算出に用いられた前向き演算の状態遷移及び後ろ向き演算の状態遷移とそれぞれ逆向きに誤差が伝搬され、各状態遷移に対する重みが更新される。同様に、図１０の実線の矢印で示されるように、”ｓｔａｒｔ”に対する最終スコアｙ_vの算出に用いられた前向き演算の状態遷移及び後ろ向き演算の状態遷移とそれぞれ逆向きに誤差が伝搬され、各状態遷移に対する重みが更新される。

　また、各フレームｔにおける状態ベクトルΑ（ｔ）及び状態ベクトルΒ（ｔ）から音響状態ベクトルＸｂ（ｔ）に誤差が伝搬され、さらに、音響状態ベクトルＸｂ（ｔ）から音響ベクトルＸａ（ｔ）に誤差が伝搬され、音響モデル１３１を構成するＤＮＮのパラメータが更新される。

　ステップＳ１０において、学習装置３０１は、学習処理を終了するか否かを判定する。例えば、学習装置３０１は、新たな教師データが入力された場合、学習処理を継続すると判定し、処理はステップＳ１に戻る。

　その後、ステップＳ１０において、学習処理を終了すると判定されるまで、ステップＳ１乃至ステップＳ１０の処理が繰り返し実行され、音響モデル１３１及び言語モデル１３２のパラメータが更新される。

　一方、ステップＳ１０において、学習装置３０１は、例えば、新たな教師データが入力されなかった場合、学習処理を終了すると判定し、学習処理は終了する。

　なお、この学習処理によりパラメータが更新された音響モデル１３１が、音声認識装置１０１に用いられる。また、この学習処理より更新されたパラメータが、音声認識装置１０１の言語モデル１３２に反映される。例えば、言語モデル１３２を構成するＷＦＳＴが更新される。

　このように、音響モデル１３１と学習用モデル３３１を統合した状態で、音響モデル１３１及び言語モデル１３２の両方の学習が行われる。従って、音声認識モデル１２１全体でパラメータを最適化することができ、音声認識の性能が向上する。

　また、音響モデル１３１及び言語モデル１３２は、それぞれ事前に個別に学習されている。そして、学習済みの音響モデル１３１及び言語モデル１３２を初期値として図６の学習処理を行うことにより、少量の教師データで、高性能な音声認識モデル１２１を構築することができる。

　さらに、状態遷移の前向き演算及び後ろ向き演算を組み合わせることにより、汎用的な機械学習への適用性が向上する。これにより、学習処理を容易に行うことができる。また、より多くの経路が探索されるようになり、学習処理をスムーズに行うことが可能になる。

　＜＜２．変形例＞＞
　以下、上述した本技術の実施の形態の変形例について説明する。

　例えば、図６の学習処理において、状態遷移の後ろ向き演算を行わずに、前向き演算のみを行うようにしてもよい。この場合、例えば、誤差逆伝搬法によりパラメータの更新を行うために、出力ラベル、及び、それに付随するスコア、並びに、状態遷移の経路を記憶する処理が追加される。

　また、例えば、学習用モデル３３１を用いて、言語モデル１３２のみの学習を行うことも可能である。

　さらに、本技術は、上述したＤＮＮ－ＨＭＭ方式の音声認識モデル以外の音声認識モデルの学習に適用することが可能である。例えば、Ｅｎｄ－ｔｏ－Ｅｎｄ方式の音声認識モデルに追加の言語モデルを組み合わせる場合、本技術は、その言語モデルの学習に適用することが可能である。

　また、本技術を用いれば、少量のデータのみで、音声認識モデルの微調整を行う適応処理を超える処理を行うことができる。例えば、音声認識モデルの適応処理を行うＡＰＩ（Application Programming Interface）を提供する場合、適応データと合わせて、言語モデルを構成するＷＦＳＴを更新するか否かを指定し、それに従って、言語モデルを更新させることが可能である。

　さらに、音声認識に用いる音素の分類方法は、任意である。例えば、一般的な音素をさらに細かな状態に分類するようにしてもよい。

　＜＜３．その他＞＞
　　＜コンピュータの構成例＞
　上述した一連の処理は、例えば、音声認識装置１０１及び学習装置３０１の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図１１は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータ１０００において、CPU（Central Processing Unit）１００１，ROM（Read Only Memory）１００２，RAM（Random Access Memory）１００３は、バス１００４により相互に接続されている。

　バス１００４には、さらに、入出力インターフェース１００５が接続されている。入出力インターフェース１００５には、入力部１００６、出力部１００７、記録部１００８、通信部１００９、及びドライブ１０１０が接続されている。

　入力部１００６は、入力スイッチ、ボタン、マイクロフォン、撮像素子などよりなる。出力部１００７は、ディスプレイ、スピーカなどよりなる。記録部１００８は、ハードディスクや不揮発性のメモリなどよりなる。通信部１００９は、ネットワークインターフェースなどよりなる。ドライブ１０１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア１０１１を駆動する。

　以上のように構成されるコンピュータ１０００では、CPU１００１が、例えば、記録部１００８に記録されているプログラムを、入出力インターフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ１０００（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータ１０００では、プログラムは、リムーバブルメディア１０１１をドライブ１０１０に装着することにより、入出力インターフェース１００５を介して、記録部１００８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１００９で受信し、記録部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記録部１００８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　　＜構成の組み合わせ例＞
　本技術は、以下のような構成をとることもできる。

（１）
　第１のニューラルネットワークにより構成される学習用モデルを用いて言語モデルの学習を行う学習部を
　備える情報処理装置。
（２）
　前記学習部は、前記言語モデルとは別に第２のニューラルネットワークを用いて事前に学習された音響モデルと前記学習用モデルとを統合した統合モデルを用いて、前記言語モデル及び前記音響モデルの学習を行う
　前記（１）に記載の情報処理装置。
（３）
　前記学習部は、前記統合モデルにおいて誤差逆伝搬法により前記言語モデル及び前記音響モデルのパラメータを更新する
　前記（２）に記載の情報処理装置。
（４）
　前記学習用モデルは、
　　前記音響モデルから出力される音響データが入力される入力層と、
　　前記言語モデルの状態遷移の演算を行う中間層と、
　　前記状態遷移の演算結果に基づいて、単語の識別演算を行う出力層と
　を備える前記（２）又は（３）に記載の情報処理装置。
（５）
　前記入力層は、前記音響データを前記言語モデルの状態空間にマッピングする
　前記（４）に記載の情報処理装置。
（６）
　前記音響データは、音声データのフレーム毎の音素の識別結果を示す音響ベクトルを含み、
　前記入力層は、前記音響ベクトルを前記言語モデルの状態空間にマッピングする
　前記（５）に記載の情報処理装置。
（７）
　前記中間層は、前記言語モデルの前記状態遷移を表す遷移行列に基づいて、前記状態遷移の演算を行う
　前記（４）乃至（６）のいずれかに記載の情報処理装置。
（８）
　前記言語モデルは、ＷＦＳＴ（Weighted Finite State Transducer）により構成され、
　前記遷移行列は、前記ＷＦＳＴの状態間の遷移に対する重みを要素とする
　前記（７）に記載の情報処理装置。
（９）
　前記中間層は、前記状態遷移の前向き演算及び後ろ向き演算を行い、
　前記出力層は、前記前向き演算による前記状態遷移の演算結果、及び、前記後ろ向き演算による前記状態遷移の演算結果に基づいて、単語の識別演算を行う
　前記（４）乃至（８）のいずれかに記載の情報処理装置。
（１０）
　前記音響モデルは、ＤＮＮ（Deep Neural Network）－ＨＭＭ（Hidden Markov Model）方式の音声認識モデルを構成する
　前記（２）乃至（９）のいずれかに記載の情報処理装置。
（１１）
　前記学習用モデルは、前記言語モデルの状態遷移を表す遷移行列を用いて構築される
　前記（１）に記載の情報処理装置。
（１２）
　前記学習部は、前記学習用モデルにおいて誤差逆伝搬法を用いて前記遷移行列を更新する
　前記（１１）に記載の情報処理装置。
（１３）
　前記言語モデルは、Ｅｎｄ－ｔｏ－Ｅｎｄ方式の音声認識モデルと組み合わせられる
　前記（１）に記載の情報処理装置。
（１４）
　ニューラルネットワークにより構成される学習用モデルを用いて言語モデルの学習を行う
　情報処理方法。
（１５）
　ニューラルネットワークにより構成される学習用モデルを用いて言語モデルの学習を行う
　処理をコンピュータに実行させるためのプログラム。
（１６）
　第１のニューラルネットワークにより構成される学習用モデルを用いて学習された言語モデルを含む音声認識モデルを用いて音声認識を行う音声認識部を
　備える情報処理装置。
（１７）
　前記音声認識モデルは、第２のニューラルネットワークを用いて事前に学習された音響モデルと前記学習用モデルとを統合した統合モデルを用いて学習された前記音響モデル及び前記言語モデルを含む
　前記（１６）に記載の情報処理装置。
（１８）
　前記音声認識モデルは、前記統合モデルにおいて誤差逆伝搬法を用いてパラメータが更新された前記音響モデル及び前記言語モデルを含む
　前記（１７）に記載の情報処理装置。
（１９）
　ニューラルネットワークにより構成される学習用モデルを用いて学習された言語モデルを含む音声認識モデルを用いて音声認識を行う
　情報処理方法。
（２０）
　ニューラルネットワークにより構成される学習用モデルを用いて学習された言語モデルを含む音声認識モデルを用いて音声認識を行う
　処理をコンピュータに実行させるためのプログラム。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　１０１　音声認識装置，　１１１　信号処理部，　１１２　特徴量抽出部，　１１３　音声認識部，　１２１　音声認識モデル，　１３１　音響モデル，　１３２　言語モデル，　３０１　学習装置，　３１１　学習部，　統合モデル３２１，　３３１　学習用モデル，　３５１　入力層，　３５２　中間層，　３５３　出力層，　３５４　マックスプーリング層，　４０１　ＷＦＳＴ

Claims

　第１のニューラルネットワークにより構成される学習用モデルを用いて言語モデルの学習を行う学習部を
　備える情報処理装置。
　前記学習部は、前記言語モデルとは別に第２のニューラルネットワークを用いて事前に学習された音響モデルと前記学習用モデルとを統合した統合モデルを用いて、前記言語モデル及び前記音響モデルの学習を行う
　請求項１に記載の情報処理装置。
　前記学習部は、前記統合モデルにおいて誤差逆伝搬法により前記言語モデル及び前記音響モデルのパラメータを更新する
　請求項２に記載の情報処理装置。
　前記学習用モデルは、
　　前記音響モデルから出力される音響データが入力される入力層と、
　　前記言語モデルの状態遷移の演算を行う中間層と、
　　前記状態遷移の演算結果に基づいて、単語の識別演算を行う出力層と
　を備える請求項２に記載の情報処理装置。
　前記入力層は、前記音響データを前記言語モデルの状態空間にマッピングする
　請求項４に記載の情報処理装置。
　前記音響データは、音声データのフレーム毎の音素の識別結果を示す音響ベクトルを含み、
　前記入力層は、前記音響ベクトルを前記言語モデルの状態空間にマッピングする
　請求項５に記載の情報処理装置。
　前記中間層は、前記言語モデルの前記状態遷移を表す遷移行列に基づいて、前記状態遷移の演算を行う
　請求項４に記載の情報処理装置。
　前記言語モデルは、ＷＦＳＴ（Weighted Finite State Transducer）により構成され、
　前記遷移行列は、前記ＷＦＳＴの状態間の遷移に対する重みを要素とする
　請求項７に記載の情報処理装置。
　前記中間層は、前記状態遷移の前向き演算及び後ろ向き演算を行い、
　前記出力層は、前記前向き演算による前記状態遷移の演算結果、及び、前記後ろ向き演算による前記状態遷移の演算結果に基づいて、単語の識別演算を行う
　請求項４に記載の情報処理装置。
　前記音響モデルは、ＤＮＮ（Deep Neural Network）－ＨＭＭ（Hidden Markov Model）方式の音声認識モデルを構成する
　請求項２に記載の情報処理装置。
　前記学習用モデルは、前記言語モデルの状態遷移を表す遷移行列を用いて構築される
　請求項１に記載の情報処理装置。
　前記学習部は、前記学習用モデルにおいて誤差逆伝搬法を用いて前記遷移行列を更新する
　請求項１１に記載の情報処理装置。
　前記言語モデルは、Ｅｎｄ－ｔｏ－Ｅｎｄ方式の音声認識モデルと組み合わせられる
　請求項１に記載の情報処理装置。
　ニューラルネットワークにより構成される学習用モデルを用いて言語モデルの学習を行う
　情報処理方法。
　ニューラルネットワークにより構成される学習用モデルを用いて言語モデルの学習を行う
　処理をコンピュータに実行させるためのプログラム。
　第１のニューラルネットワークにより構成される学習用モデルを用いて学習された言語モデルを含む音声認識モデルを用いて音声認識を行う音声認識部を
　備える情報処理装置。
　前記音声認識モデルは、第２のニューラルネットワークを用いて事前に学習された音響モデルと前記学習用モデルとを統合した統合モデルを用いて学習された前記音響モデル及び前記言語モデルを含む
　請求項１６に記載の情報処理装置。
　前記音声認識モデルは、前記統合モデルにおいて誤差逆伝搬法を用いてパラメータが更新された前記音響モデル及び前記言語モデルを含む
　請求項１７に記載の情報処理装置。
　ニューラルネットワークにより構成される学習用モデルを用いて学習された言語モデルを含む音声認識モデルを用いて音声認識を行う
　情報処理方法。
　ニューラルネットワークにより構成される学習用モデルを用いて学習された言語モデルを含む音声認識モデルを用いて音声認識を行う
　処理をコンピュータに実行させるためのプログラム。