WO2018062265A1

WO2018062265A1 - 音響モデル学習装置、その方法、及びプログラム

Info

Publication number: WO2018062265A1
Application number: PCT/JP2017/034942
Authority: WO
Inventors: 太一浅見; 中村　孝
Original assignee: 日本電信電話株式会社
Priority date: 2016-09-30
Filing date: 2017-09-27
Publication date: 2018-04-05
Also published as: US20200035223A1; JPWO2018062265A1; JP6712644B2; US10950225B2

Abstract

学習用の音響信号から得られる特徴量と、学習済みの、ニューラルネットワークを含む第一音響モデルとを用いて、出力層の各ユニットの出力確率の分布を含む第一出力確率分布を計算する第一出力確率分布計算部を含み、第一出力確率分布計算部は、0より大きい実数値からなる平滑化パラメータを入力とし、平滑化パラメータが大きいほど一様分布に近づくように第一出力確率分布を求めるものとし、学習用の音響信号から得られる特徴量と、第一音響モデルとを用いて、出力層の各ユニットのロジットを求め、最もロジットの値の大きい出力ユニット番号と正解ユニット番号とが異なる場合には、一致する場合よりも平滑化パラメータの値を大きくして第一出力確率分布を計算する。

Description

音響モデル学習装置、その方法、及びプログラム

　本発明は、音声認識等に用いる音響モデルを学習するための音響モデル学習装置、その方法、及びプログラムに関する。

　音響モデル学習方法の従来技術として非特許文献１が知られている。一般的なニューラルネットワークの学習方法を図１に示す。この学習方法を用いて、音声認識用のニューラルネットワーク型音響モデル（以下、単に「音響モデル」と書く）を学習する方法が非特許文献１（以下、従来技術１ともいう）の"TRAINING DEEP NEURAL NETWORKS"の節に記載されている。

　事前に学習データの各サンプルから抽出した特徴量（実数ベクトル）Oと各特徴量Oに対応する正解ユニット番号j_Lのペア、および適当な初期モデルを用意する。例えば、初期モデルとしては、各パラメータに乱数を割り当てたニューラルネットワークや、既に別の学習データで学習済みのニューラルネットワークなどが利用できる。出力確率分布計算部８１は、学習データの特徴量Oを現在のモデル(学習中の音響モデル)に入力して出力層の各ユニットjの出力確率p(j)を並べた出力確率分布を計算する。

　モデル更新部８２は、正解ユニット番号j_Lと出力確率p(j)の分布から損失関数Cを計算し、損失関数Cの値を減少させるようにモデルを更新する。学習データの特徴量Oと正解ユニット番号j_Lの各ペアに対して、上記の出力確率計算とモデル更新の処理を繰り返す。所定回数（通常、数千万～数億回）の繰り返しが完了した時点のモデルを学習済みの音響モデルとして利用する。

　また、既に学習済みのニューラルネットワークが持つ知識を、新たに学習するニューラルネットワークに転移する方法が非特許文献２(以下、従来技術２ともいう)に記載されている。従来技術２の構成を図２に示す。

　事前に特徴量Oと正解ユニット番号j_Lのペアおよび初期モデル（図２では便宜上「生徒モデル」と記載する）を用意する点は従来技術１と同様である。加えて従来技術２では既に学習済みのニューラルネットワークである教師モデルが事前に用意される。この従来技術２は、教師出力確率分布計算部９１を持つ点と、モデル更新部８２が修正モデル更新部９２に置き換えられている点が従来技術１と異なる。教師出力確率分布計算部９１は、学習データの特徴量Oを教師モデルに入力して出力層の各ユニットjの確率を並べた出力確率p₁(j)の分布(以下、単に教師出力確率分布ともいう)を計算する。なお、教師出力確率分布を求める算出式に温度Tが導入されている点が従来技術１と異なる。温度Tは事前に設定される０より大きい実数値のパラメータである。修正モデル更新部９２は、モデル更新部８２(図１参照)の損失関数Cを以下の損失関数C'に置き換えて処理を行う。

この損失関数C'は、もともとのモデル更新部８２の損失関数C(第１項)と、教師モデルの出力確率q_jの分布と生徒モデルの出力確率p_jの分布のクロスエントロピー（第２項）の重み付き和である。重みαは事前に設定される０以上１以下のパラメータである。

　従来技術２では、教師モデルとして事前に学習した巨大な（精度は高いが計算時間の遅い）モデルを使い、生徒モデルを乱数で初期化した小さなモデルとし、温度T＝２、重みα＝０．５と設定することで、教師モデルと同等の精度を持ち計算時間の速いモデルを学習できる効果が確認されている。なお、巨大なモデルとは、ニューラルネットワークの中間層の数や各中間層のユニット数が多いモデルを意味する。

Geoffrey Hinton, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patric Nguyen, Tara N. Sainath and Brian Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition," IEEE Signal Processing Magazine, Vol. 29, No 6, pp.82-97, 2012. Geoffrey Hinton, Oriol Vinyals and Jeff Dean, "Distilling the Knowledge in a Neural Network," in Proceedings of Deep Learning and Representation Learning Workshop in NIPS 2014.

　しかしながら、従来技術１では、学習データが少ない場合に過学習の問題が生じ、認識精度の低い音響モデルが学習されることがある。過学習とは、学習データを非常に高い精度で認識できるが、学習データに含まれない（実際の音声認識サービス運用時にユーザから入力される）データをまったく認識できなくなる現象である。

　また、従来技術２では、既に別の学習データで学習済みの音響モデルから知識を転移することで、学習データが少ない場合に生じる過学習の問題を回避する。しかしながら、従来技術２では教師モデルの動きを模倣するように生徒モデルが学習されるため、教師モデルが誤って認識するデータは生徒モデルも誤るように学習されてしまう。このような問題により、学習データが少ない場合に精度の高い音響モデルを作成することが困難となっている。

　本発明は、教師モデルの誤りの問題を軽減し、精度の高い音響モデルを作成することができる音響モデル学習装置、その方法、及びプログラムを提供することを目的とする。

　上記の課題を解決するために、本発明の一態様によれば、音響モデル学習装置は、学習用の音響信号から得られる特徴量と、学習済みの、ニューラルネットワークを含む第一音響モデルとを用いて、出力層の各ユニットの出力確率の分布を含む第一出力確率分布を計算する第一出力確率分布計算部と、学習用の音響信号から得られる特徴量と、第一音響モデルとは異なる、ニューラルネットワークを含む第二音響モデルとを用いて、出力層の各ユニットの出力確率の分布を含む第二出力確率分布を計算する第二出力確率分布計算部と、学習用の音響信号に対応する正解ユニット番号と第二出力確率分布とから第二損失関数を計算し、第一出力確率分布と第二出力確率分布とのクロスエントロピーを計算し、第二損失関数とクロスエントロピーとの重み付き和を求め、重み付き和が減少するように第二音響モデルのパラメータを更新する修正モデル更新部とを含み、第一出力確率分布計算部は、0より大きい実数値からなる平滑化パラメータを入力とし、平滑化パラメータが大きいほど一様分布に近づくように第一出力確率分布を求めるものとし、学習用の音響信号から得られる特徴量と、第一音響モデルとを用いて、出力層の各ユニットのロジットを求め、最もロジットの値の大きい出力ユニット番号と正解ユニット番号とが異なる場合には、一致する場合よりも平滑化パラメータの値を大きくして第一出力確率分布を計算する。

　上記の課題を解決するために、本発明の他の態様によれば、音響モデル学習装置は、学習用の音響信号から得られる特徴量と、学習済みの、ニューラルネットワークを含む第一音響モデルとを用いて、出力層の各ユニットの出力確率の分布を含む第一出力確率分布を計算する第一出力確率分布計算部と、学習用の音響信号から得られる特徴量と、第一音響モデルとは異なる、ニューラルネットワークを含む第二音響モデルとを用いて、出力層の各ユニットの出力確率の分布を含む第二出力確率分布を計算する第二出力確率分布計算部と、学習用の音響信号から得られる特徴量と、第一音響モデルとを用いて、求められる出力層の各ユニットのロジットの中で、最もロジットの値の大きい出力ユニット番号と正解ユニット番号とが異なる場合には、第一出力確率分布のうち、最もロジットの値の大きい出力ユニット番号に対応する出力ユニットの出力確率と、正解ユニット番号に対応する出力ユニットの出力確率とを入れ替えた出力確率の分布を補正後の第一出力確率分布とする第一出力確率分布補正部と、学習用の音響信号に対応する正解ユニット番号と第二出力確率分布とから第二損失関数を計算し、補正後の第一出力確率分布と第二出力確率分布とのクロスエントロピーを計算し、第二損失関数とクロスエントロピーとの重み付き和を求め、重み付き和が減少するように第二音響モデルのパラメータを更新する修正モデル更新部とを含む。

　上記の課題を解決するために、本発明の他の態様によれば、音響モデル学習装置は、学習用の音響信号から得られる特徴量と、学習済みの、ニューラルネットワークを含む第一音響モデルとを用いて、出力層の各ユニットの出力確率の分布を含む第一出力確率分布を計算する第一出力確率分布計算ステップと、学習用の音響信号から得られる特徴量と、第一音響モデルとは異なる、ニューラルネットワークを含む第二音響モデルとを用いて、出力層の各ユニットの出力確率の分布を含む第二出力確率分布を計算する第二出力確率分布計算ステップと、学習用の音響信号に対応する正解ユニット番号と第二出力確率分布とから第二損失関数を計算し、第一出力確率分布と第二出力確率分布とのクロスエントロピーを計算し、第二損失関数とクロスエントロピーとの重み付き和を求め、重み付き和が減少するように第二音響モデルのパラメータを更新する修正モデル更新ステップとを含み、第一出力確率分布計算ステップは、0より大きい実数値からなる平滑化パラメータを入力とし、平滑化パラメータが大きいほど一様分布に近づくように第一出力確率分布を求めるものとし、学習用の音響信号から得られる特徴量と、第一音響モデルとを用いて、出力層の各ユニットのロジットを求め、最もロジットの値の大きい出力ユニット番号と正解ユニット番号とが異なる場合には、一致する場合よりも平滑化パラメータの値を大きくして第一出力確率分布を計算する。

　上記の課題を解決するために、本発明の他の態様によれば、音響モデル学習装置は、学習用の音響信号から得られる特徴量と、学習済みの、ニューラルネットワークを含む第一音響モデルとを用いて、出力層の各ユニットの出力確率の分布を含む第一出力確率分布を計算する第一出力確率分布計算ステップと、学習用の音響信号から得られる特徴量と、第一音響モデルとは異なる、ニューラルネットワークを含む第二音響モデルとを用いて、出力層の各ユニットの出力確率の分布を含む第二出力確率分布を計算する第二出力確率分布計算ステップと、学習用の音響信号から得られる特徴量と、第一音響モデルとを用いて、求められる出力層の各ユニットのロジットの中で、最もロジットの値の大きい出力ユニット番号と正解ユニット番号とが異なる場合には、第一出力確率分布のうち、最もロジットの値の大きい出力ユニット番号に対応する出力ユニットの出力確率と、正解ユニット番号に対応する出力ユニットの出力確率とを入れ替えた出力確率の分布を補正後の第一出力確率分布とする第一出力確率分布補正ステップと、学習用の音響信号に対応する正解ユニット番号と第二出力確率分布とから第二損失関数を計算し、補正後の第一出力確率分布と第二出力確率分布とのクロスエントロピーを計算し、第二損失関数とクロスエントロピーとの重み付き和を求め、重み付き和が減少するように第二音響モデルのパラメータを更新する修正モデル更新ステップとを含む。

　本発明によれば、教師モデルの誤りの問題を軽減し、精度の高い音響モデルを作成することができるという効果を奏する。

従来技術に係る音響モデル学習装置の機能ブロック図。従来技術に係る音響モデル学習装置の機能ブロック図。第一実施形態に係る音響モデル学習装置の機能ブロック図。第一実施形態に係る音響モデル学習装置の処理フローの例を示す図。第二実施形態に係る音響モデル学習装置の機能ブロック図。第二実施形態に係る音響モデル学習装置の処理フローの例を示す図。第二実施形態の変形例に係る音響モデル学習装置の機能ブロック図。第二実施形態の変形例に係る音響モデル学習装置の処理フローの例を示す図。第三実施形態に係る音響モデル学習装置の機能ブロック図。第三実施形態に係る音響モデル学習装置の処理フローの例を示す図。第三実施形態の変形例１に係る音響モデル学習装置の機能ブロック図。第三実施形態の変形例１に係る音響モデル学習装置の処理フローの例を示す図。第三実施形態の変形例２に係る音響モデル学習装置の機能ブロック図。第三実施形態の変形例２に係る音響モデル学習装置の処理フローの例を示す図。第三実施形態の変形例３に係る音響モデル学習装置の機能ブロック図。第三実施形態の変形例３に係る音響モデル学習装置の処理フローの例を示す図。

　以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
　従来技術２では、生成する音響モデルに対して巨大な教師モデルを用意する必要がある。そのため、教師モデルを用意するためのコストが高くなり、また、計算時間の遅い教師モデルを使用するため音響モデルを生成する際に時間がかかる。本実施形態では、従来技術２ほど巨大な教師モデルを必要とせず、精度の高い音声認識を行える音響モデルを少ない学習データで作成できる。

　本実施形態のポイントは、既に別の学習データで学習済みの音響モデルから知識を転移することで、学習データが少ない場合に生じる過学習の問題を回避する点である。具体的には、従来技術２の枠組みにおいて、教師モデルと生徒モデルを同じ構造のニューラルネットワークとする制約を課す。この制約のもとで教師モデルとして既に別の学習データで学習済みの音響モデルを用い、生徒モデルの初期値を教師モデルのコピーとする。このような構成とすることで、従来技術ほど巨大な教師モデルを必要とせずに、学習データを正しく認識できるように学習しつつ、同時に学習データに含まれないデータをうまく認識する知識を教師モデルから得ることができる。

＜第一実施形態＞
　図３は第一実施形態に係る音響モデル学習装置の機能ブロック図を、図４はその処理フローを示す。

　音響モデル学習装置１００は、出力確率分布計算部１０１、修正モデル更新部１０２、教師出力確率分布計算部１０３、初期値設定部１０４とを含む。従来技術２との主な相違点は、初期値設定部１０４が追加されており、それに伴いベース音響モデル(教師モデル)と音響モデル(生徒モデル)が同じ構造のニューラルネットワークに限定されている点である。

＜初期値設定部１０４＞
入力：教師モデル
出力：生徒モデルの初期モデル
　学習済みの、ニューラルネットワークを含む音響モデル（教師モデル）のパラメータを用いて、その音響モデル（教師モデル）と同様の構造のニューラルネットワークを含む音響モデル（生徒モデル）のパラメータを設定する（Ｓ１）。例えば、入力された教師モデルのパラメータをコピーしたモデルを作成し、生徒モデルの初期モデルとして出力する。この処理は学習開始時に一度だけ行われる。従来技術２は教師モデルとして巨大なモデルを、生徒モデルとして小さなモデルを想定しているのに対し、本実施形態の教師モデルと生徒モデルとは全く同じ構造となる。この初期値設定部１０４の処理により、従来技術１よりも少ない学習データで高精度な音響モデルが学習可能となる。

＜出力確率分布計算部１０１＞
入力：学習用の特徴量O、生徒モデル(学習中の生徒モデル、または、生徒モデルの初期モデル)
出力:出力確率分布（出力確率p₂(j)の分布）
　出力確率分布計算部１０１は、学習用の音響信号から得られる特徴量Oと生徒モデルとを用いて、出力層の各ユニットの出力確率p₂(j)の分布を含む出力確率分布を計算する（Ｓ２）。出力確率p₂(j)の計算の方法は既存のいかなる技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。例えば、従来技術１の方法により求めることができる。その場合、まず、特徴量Oを生徒モデルに入力し、出力層のユニットjのロジットx_jを求める（次式参照）。

である。ただし、logistic()はロジスティック関数を表し、b_jはユニットjのバイアスであり、iは下位の階層のユニットのインデックスを表し、w_ijは下位の階層のユニットiからユニットjへの接続に対する重みを表す。学習用の特徴量Oは入力層のユニットjの入力を求める際に用いられ、生徒モデルはb_jやw_ij等を含む。

　次に、ロジットx_jから出力確率p₂(j)を求める（次式参照）

　なお、音響モデル学習装置１００は、時間領域の学習用の音響信号を入力とし、図示しない周波数領域変換部、特徴量抽出部等を含んでもよい。例えば、図示しない周波数領域変換部は、時間領域の学習用の音響信号を周波数領域の信号に変換し、出力する。図示しない特徴量抽出部は、時間領域または周波数領域の学習用の音響信号から学習用の特徴量Oを抽出し、出力確率分布計算部１０１に出力する。特徴量としては、例えば、基本周波数、パワー、持続時間、フォルマント周波数、スペクトル、メル周波数ケプストラム係数（MFCC）などが考えられる。

＜教師出力確率分布計算部１０３＞
入力：学習用の特徴量O、教師モデル、温度T
出力:出力確率分布（出力確率p₁(j)の分布）
　教師出力確率分布計算部１０３は、学習用の音響信号から得られる特徴量Oと教師モデルと温度Tとを用いて、出力層の各ユニットの出力確率p₁(j)の分布を含む出力確率分布を計算する（Ｓ３）。出力確率p₁(j)の計算の方法は既存のいかなる技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。例えば、従来技術２の方法により求めることができる。その場合、出力確率p₁(j)は次式で表される。

なお、ロジットx_jの計算方法は出力確率分布計算部１０１と同じだが、教師出力確率分布計算部１０３では生徒モデルではなく教師モデルを用いる。なお、温度Tは事前設定される0より大きい実数値のパラメータであり、Tを大きく設定すればするほど出力確率p₁(j)の分布は一様分布(無情報)に近づき、後述する生徒モデルの更新への影響度合いは小さくなる。なお、温度Tのことを平滑化パラメータTともいう。

＜修正モデル更新部１０２＞
入力:初期モデル、出力確率p₁(j)の出力確率分布、出力確率p₂(j)の出力確率分布、正解ユニット番号j_L、重みα
出力:学習中の音響モデル(生徒モデル)または学習済みの音響モデル
　修正モデル更新部１０２は、(学習用の特徴量に対応する)学習用の音響信号に対応する正解ユニット番号j_Lと出力確率p₂(j)とから損失関数C₂を計算する(式(6)参照)。

ただし、d_jはjと正解ユニット番号j_Lとが一致する場合には1となり、一致しない場合には0となる値である。

　次に、修正モデル更新部１０２は、出力確率p₁(j)の出力確率分布と出力確率p₂(j)の出力確率分布とのクロスエントロピーC₁(出力確率p₁(j)と出力確率p₂(j)の対数の積の総和)を計算する（式(7)参照）。

　さらに、修正モデル更新部１０２は、損失関数C₂とクロスエントロピーC₁との重み付き和Cを求める(式(8)参照)。
C=(1-α)C₂+αC₁(8)
なお、重みαは、事前に設定される0以上1以下のパラメータである。

　最後に、修正モデル更新部１０２は、重み付き和Cが減少するように生徒モデルのパラメータを更新する(Ｓ４)。

　所定の条件を満たすまで、上述のＳ２～Ｓ４を繰り返し（Ｓ５）、所定の条件を満たす場合には、その時点の生徒モデルを学習済みの音響モデルとして出力する。

　所定の条件としては、例えば、(i)繰り返し回数が一定数(例えば数千万～数億)を超えたとき、(ii)更新量が所定の値よりも小さくなったとき、例えば、(ii-a)全てのパラメータの更新量の総和が所定の値よりも小さくなったとき、(ii-b)各パラメータの全て、または、一部の更新量がそれぞれ設定された所定の値よりも小さくなったとき、等が考えられる。

＜効果＞
　本実施形態で作成した音響モデルを用いることで、従来技術よりも高い精度で音声認識を行うことが可能となり、音声認識システム利用者にとっての利便性が向上する。また、従来技術よりも少ない学習データで音響モデルを作成できる。そのため、音声認識システム開発時に必要となる学習データの量を削減することができ、また、音響モデルの学習にかかる時間を短くすることができる。これにより、音声認識システム開発時の学習データ作成コスト、音響モデル作成コストを低減することができる。

＜変形例＞
　本実施形態では、教師出力確率分布計算部１０３において、温度Tを入力としているが、必ずしも温度Tを用いなくともよい。例えば、温度Tを用いずに従来技術１の方法により求めることができる。ただし、教師出力確率分布計算部１０３ではx_jを求める際に生徒モデルではなく教師モデルを用いる。

＜第二実施形態のポイント＞
　第一実施形態と異なる部分を中心に説明する。

　従来技術２では、学習データのうち、教師モデルが正しく認識できないデータが学習に悪影響を与えるという問題がある。従来技術２では教師モデルの動きを模倣するように生徒モデルが学習されるため、教師モデルが誤って認識するデータは生徒モデルも誤るように学習されてしまう。このような問題により、学習データが少ない場合に精度の高い音響モデルを作成することが困難となっている。

　本実施形態のポイントは、教師出力確率計算部で正解ユニット番号j_Lを考慮することにより、教師モデルの誤りの問題を軽減し、さらに精度の高い音響モデルを作成する点である。具体的には、教師出力確率分布と正解ユニット番号j_Lを照らし合わせることで教師モデルの誤りを検出し、誤っている場合に温度Tを上昇させる。これにより、教師モデルの誤りが生徒モデルに転移される影響を抑えることができる。

＜第二実施形態＞
　第一実施形態と異なる部分を中心に説明する。

　図５は第二実施形態に係る音響モデル学習装置の機能ブロック図を、図６はその処理フローを示す。

　音響モデル学習装置２００は、出力確率分布計算部１０１、修正モデル更新部１０２、温度調整付き教師出力確率分布計算部２０３、初期値設定部１０４とを含む。第一実施形態との主な相違点は、教師出力確率分布計算部１０３が温度調整付き教師出力確率分布計算部２０３に置き換えられている点である。

＜温度調整付き教師出力確率分布計算部２０３＞
入力：特徴量O、教師モデル、正解ユニット番号j_L、温度T、温度調整幅ΔT
出力:出力確率分布（出力確率p₁(j)の分布）
　教師出力確率分布計算部２０３は、学習用の音響信号から得られる特徴量Oと教師モデルと温度Tと温度調整幅ΔTとを用いて、出力層の各ユニットの出力確率p₁(j)の分布を含む出力確率分布を計算する（Ｓ１３）。

　例えば、教師出力確率分布計算部２０３は、入力された特徴量Oを教師モデルに入力し、式(2)のロジットx_jを計算する。

　次に、教師出力確率分布計算部２０３は、最もロジットx_jの値の大きい出力ユニット番号Kを特定する。

　さらに、教師出力確率分布計算部２０３は、Kが正解ユニット番号j_Lと等しいか否かを判定する。Kが正解ユニット番号j_Lと等しい場合は、温度Tをそのまま用いて次の式(12)により出力確率p₁(j)の分布を計算し、出力する。Kが正解ユニット番号j_Lと異なる場合は、温度TをT+ΔTに置き換えた上で次の式(12)により出力確率p₁(j)の分布を計算し、出力する。

＜効果＞
　前述の通り、式(12)の出力確率p₁(j)の分布は、温度Tを大きくすればするほど一様分布（無情報）に近づき、生徒モデルの更新への影響度合いが小さくなる。そのため、このような処理により、教師モデルが誤っている（Kが正解ユニット番号j_Lと異なる）場合に、その誤りが学習に与える悪影響を抑えることが可能となる。

　なお、温度調整幅ΔTは事前に設定するパラメータであり、例えばΔT=5～10程度の値に設定する。

＜変形例＞
　初期値設定部１０４を含まない構成としてもよい。この場合、音響モデル学習装置２００は、出力確率分布計算部１０１、修正モデル更新部１０２、温度調整付き教師出力確率分布計算部２０３とを含む。

　図７は第二実施形態の変形例に係る音響モデル学習装置の機能ブロック図を、図８はその処理フローを示す。

　第二実施形態との主な相違点は、初期値設定部１０４を含まない点である。また、本変形例では教師モデルと生徒モデルとが同じ構造のニューラルネットワークに限定されていない。つまり、第二実施形態の温度調整付き教師出力確率分布計算部２０３において用いられる教師モデルに含まれるニューラルネットワークと、本変形例の教師モデルに含まれるニューラルネットワークとは異なる構造であってもよい。なお、出力確率分布計算部１０１及び修正モデル更新部１０２では、初期モデルとして、従来技術同様、各パラメータに乱数を割り当てたニューラルネットワークや、既に別の学習データで学習済みのニューラルネットワークなどが利用できる。例えば、このとき利用する学習済みのニューラルネットワークは、生徒モデルに含まれるニューラルネットワークと同じ構造をもつ。

　このような構成によっても、教師モデルの誤りの問題を軽減し、精度の高い音響モデルを作成することができる。

＜第三実施形態のポイント＞
　第二実施形態と異なる部分を中心に説明する。

　本実施形態では、第二実施形態で説明した問題（教師モデルの誤りの問題）を解決するために、例えば、出力確率p₁(j)の分布と正解ユニット番号j_Lとを照らし合わせることで教師モデルの誤りを検出し、誤っている場合に正解ユニット番号j_Lに対応するユニットの確率を上昇させる。これにより、教師モデルの誤りが生徒モデルに転移される影響を抑えることができる。

＜第三実施形態＞
　図９は第二実施形態に係る音響モデル学習装置の機能ブロック図を、図１０はその処理フローを示す。

　音響モデル学習装置３００は、出力確率分布計算部１０１、修正モデル更新部１０２、温度調整付き教師出力確率分布計算部２０３、初期値設定部１０４、教師出力確率分布補正部３０１を含む。第二実施形態との主な相違点は、教師出力確率分布補正部３０１が追加されている点である。なお、温度調整付き教師出力確率分布計算部２０３を、教師出力確率分布計算部１０３に置き換えた（第二実施形態のアイデアを使わない）構成も可能である。

＜教師出力確率分布補正部３０１＞
入力：出力確率p₁(j)の分布、正解ユニット番号j_L
出力：補正後の出力確率p₃(j)の分布
　教師出力確率分布補正部３０１は、正解ユニット番号j_Lを用いて出力確率p₁(j)の分布を補正し、補正後の出力確率p₃(j)の分布を得る。

　教師出力確率分布補正部３０１は、出力確率p₁(j)の分布を参照し、出力確率p₁(j)が最大となる出力ユニット番号Kを特定する。

なお、このKは温度調整付き教師出力確率分布計算部２０３の中で求めるKと同じ値になるため、温度調整付き教師出力確率分布計算部２０３がKを出力し、教師出力確率分布補正部３０１の入力としてもよい。ただし、温度調整付き教師出力確率分布計算部２０３を、教師出力確率分布計算部１０３に置き換えた構成とする場合には、式(21)等で出力確率p₁(j)が最大となる出力ユニット番号Kを特定する必要がある。

　さらに、教師出力確率分布補正部３０１は、Kが正解ユニット番号j_Lと等しいか否かを判定する。Kが正解ユニット番号j_Lと等しい場合は、出力確率p₁(j)の分布をそのまま補正後の出力確率p₃(j)の分布として出力する。

　Kが正解ユニット番号j_Lと異なる場合は、出力確率p₁(j)の分布のうち、K番目の出力ユニットの出力確率p₁(K)と正解ユニット番号j_Lに対応する出力ユニットの出力確率p₁(j_L)を入れ替えた出力確率の分布を補正後の出力確率p₃(j)の分布として作成し、出力する。

＜効果＞
　以上の処理により、補正後の出力確率の分布は、正解ユニット番号j_Lに対応する確率値が必ず最大となることが保証されるため、教師モデルである教師モデルの誤りが転移されてしまう問題を防ぐことができる。

＜変形例１＞
　第二実施形態の変形例と本実施形態とを組合せてもよい。つまり、初期値設定部１０４を含まない構成としてもよい。この場合、音響モデル学習装置３００は、出力確率分布計算部１０１、修正モデル更新部１０２、温度調整付き教師出力確率分布計算部２０３、教師出力確率分布補正部３０１とを含む。

　図１１は第三実施形態の変形例１に係る音響モデル学習装置の機能ブロック図を、図１２はその処理フローを示す。各部の処理については、第三実施形態、第二実施形態の変形例等で説明した通りである。

＜変形例２＞
　変形例１において、温度調整付き教師出力確率分布計算部２０３に代えて、温度T、温度調整幅ΔTを用いない教師出力確率分布計算部３０３を用いてもよい。この場合、音響モデル学習装置３００は、出力確率分布計算部１０１、修正モデル更新部１０２、教師出力確率分布計算部３０３、教師出力確率分布補正部３０１とを含む。

　図１３は第三実施形態の変形例２に係る音響モデル学習装置の機能ブロック図を、図１４はその処理フローを示す。

　第三実施形態の変形例１との主な相違点は、教師出力確率分布計算部３０３において、温度を用いない点である。教師出力確率分布計算部３０３の処理は以下の通りである。

＜教師出力確率分布計算部３０３＞
入力：学習用の特徴量O、教師モデル
出力:出力確率分布（出力確率p₁(j)の分布）
　教師出力確率分布計算部３０３は、学習用の音響信号から得られる特徴量Oと教師モデルとを用いて、出力層の各ユニットの出力確率p₁(j)の分布を含む出力確率分布を計算する（Ｓ３３）。出力確率p₁(j)の計算の方法は既存のいかなる技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。例えば、従来技術１の方法により求めることができる。その場合、出力確率p₁(j)は次式で表される。

＜変形例３＞
　変形例１において、温度調整付き教師出力確率分布計算部２０３に代えて、温度調整幅ΔTを用いない教師出力確率分布計算部１０３を用いてもよい。この場合、音響モデル学習装置３００は、出力確率分布計算部１０１、修正モデル更新部１０２、教師出力確率分布計算部１０３、教師出力確率分布補正部３０１とを含む。

　図１５は第三実施形態の変形例３に係る音響モデル学習装置の機能ブロック図を、図１６はその処理フローを示す。

　第三実施形態の変形例２との主な相違点は、教師出力確率分布計算部１０３において、温度Tを用いる点である。ただし、第三実施形態とは異なり、温度調整幅ΔTを用いない。なお、教師出力確率分布計算部１０３の処理内容は第一実施形態で説明した通りである。

＜その他の変形例＞
　本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
　また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　学習用の音響信号から得られる特徴量と、学習済みの、ニューラルネットワークを含む第一音響モデルとを用いて、出力層の各ユニットの出力確率の分布を含む第一出力確率分布を計算する第一出力確率分布計算部と、
　前記学習用の音響信号から得られる特徴量と、前記第一音響モデルとは異なる、ニューラルネットワークを含む第二音響モデルとを用いて、出力層の各ユニットの出力確率の分布を含む第二出力確率分布を計算する第二出力確率分布計算部と、
　前記学習用の音響信号に対応する正解ユニット番号と前記第二出力確率分布とから第二損失関数を計算し、前記第一出力確率分布と前記第二出力確率分布とのクロスエントロピーを計算し、前記第二損失関数と前記クロスエントロピーとの重み付き和を求め、前記重み付き和が減少するように前記第二音響モデルのパラメータを更新する修正モデル更新部とを含み、
　前記第一出力確率分布計算部は、0より大きい実数値からなる平滑化パラメータを入力とし、平滑化パラメータが大きいほど一様分布に近づくように前記第一出力確率分布を求めるものとし、前記学習用の音響信号から得られる特徴量と、前記第一音響モデルとを用いて、出力層の各ユニットのロジットを求め、最もロジットの値の大きい出力ユニット番号と前記正解ユニット番号とが異なる場合には、一致する場合よりも前記平滑化パラメータの値を大きくして前記第一出力確率分布を計算する、
　音響モデル学習装置。
　請求項１の音響モデル学習装置であって、
　前記学習用の音響信号から得られる特徴量と、前記第一音響モデルとを用いて、求められる出力層の各ユニットのロジットの中で、最もロジットの値の大きい出力ユニット番号と前記正解ユニット番号とが異なる場合には、前記第一出力確率分布のうち、最もロジットの値の大きい出力ユニット番号に対応する出力ユニットの出力確率と、前記正解ユニット番号に対応する出力ユニットの出力確率とを入れ替えた出力確率の分布を補正後の第一出力確率分布とする第一出力確率分布補正部を含み、
　前記修正モデル更新部は、補正後の第一出力確率分布を用いる、
　音響モデル学習装置。
　学習用の音響信号から得られる特徴量と、学習済みの、ニューラルネットワークを含む第一音響モデルとを用いて、出力層の各ユニットの出力確率の分布を含む第一出力確率分布を計算する第一出力確率分布計算部と、
　前記学習用の音響信号から得られる特徴量と、前記第一音響モデルとは異なる、ニューラルネットワークを含む第二音響モデルとを用いて、出力層の各ユニットの出力確率の分布を含む第二出力確率分布を計算する第二出力確率分布計算部と、
　前記学習用の音響信号から得られる特徴量と、前記第一音響モデルとを用いて、求められる出力層の各ユニットのロジットの中で、最もロジットの値の大きい出力ユニット番号と前記正解ユニット番号とが異なる場合には、前記第一出力確率分布のうち、最もロジットの値の大きい出力ユニット番号に対応する出力ユニットの出力確率と、前記正解ユニット番号に対応する出力ユニットの出力確率とを入れ替えた出力確率の分布を補正後の第一出力確率分布とする第一出力確率分布補正部と、
　前記学習用の音響信号に対応する正解ユニット番号と前記第二出力確率分布とから第二損失関数を計算し、補正後の前記第一出力確率分布と前記第二出力確率分布とのクロスエントロピーを計算し、前記第二損失関数と前記クロスエントロピーとの重み付き和を求め、前記重み付き和が減少するように前記第二音響モデルのパラメータを更新する修正モデル更新部とを含む、
　音響モデル学習装置。
　請求項３の音響モデル学習装置であって、
　前記第一出力確率分布計算部は、0より大きい実数値からなる平滑化パラメータを入力とし、平滑化パラメータが大きいほど一様分布に近づくように前記第一出力確率分布を求める、
　音響モデル学習装置。
　請求項１から請求項４の何れかの音響モデル学習装置であって、
　前記第一音響モデルと前記第二音響モデルとは同様の構造のニューラルネットワークを含み、前記第一音響モデルのパラメータを用いて、前記第二音響モデルのパラメータを設定する初期値設定部を含む、
　音響モデル学習装置。
　学習用の音響信号から得られる特徴量と、学習済みの、ニューラルネットワークを含む第一音響モデルとを用いて、出力層の各ユニットの出力確率の分布を含む第一出力確率分布を計算する第一出力確率分布計算ステップと、
　前記学習用の音響信号から得られる特徴量と、前記第一音響モデルとは異なる、ニューラルネットワークを含む第二音響モデルとを用いて、出力層の各ユニットの出力確率の分布を含む第二出力確率分布を計算する第二出力確率分布計算ステップと、
　前記学習用の音響信号に対応する正解ユニット番号と前記第二出力確率分布とから第二損失関数を計算し、前記第一出力確率分布と前記第二出力確率分布とのクロスエントロピーを計算し、前記第二損失関数と前記クロスエントロピーとの重み付き和を求め、前記重み付き和が減少するように前記第二音響モデルのパラメータを更新する修正モデル更新ステップとを含み、
　前記第一出力確率分布計算ステップは、0より大きい実数値からなる平滑化パラメータを入力とし、平滑化パラメータが大きいほど一様分布に近づくように前記第一出力確率分布を求めるものとし、前記学習用の音響信号から得られる特徴量と、前記第一音響モデルとを用いて、出力層の各ユニットのロジットを求め、最もロジットの値の大きい出力ユニット番号と前記正解ユニット番号とが異なる場合には、一致する場合よりも前記平滑化パラメータの値を大きくして前記第一出力確率分布を計算する、
　音響モデル学習方法。
　学習用の音響信号から得られる特徴量と、学習済みの、ニューラルネットワークを含む第一音響モデルとを用いて、出力層の各ユニットの出力確率の分布を含む第一出力確率分布を計算する第一出力確率分布計算ステップと、
　前記学習用の音響信号から得られる特徴量と、前記第一音響モデルとは異なる、ニューラルネットワークを含む第二音響モデルとを用いて、出力層の各ユニットの出力確率の分布を含む第二出力確率分布を計算する第二出力確率分布計算ステップと、
　前記学習用の音響信号から得られる特徴量と、前記第一音響モデルとを用いて、求められる出力層の各ユニットのロジットの中で、最もロジットの値の大きい出力ユニット番号と前記正解ユニット番号とが異なる場合には、前記第一出力確率分布のうち、最もロジットの値の大きい出力ユニット番号に対応する出力ユニットの出力確率と、前記正解ユニット番号に対応する出力ユニットの出力確率とを入れ替えた出力確率の分布を補正後の第一出力確率分布とする第一出力確率分布補正ステップと、
　前記学習用の音響信号に対応する正解ユニット番号と前記第二出力確率分布とから第二損失関数を計算し、補正後の前記第一出力確率分布と前記第二出力確率分布とのクロスエントロピーを計算し、前記第二損失関数と前記クロスエントロピーとの重み付き和を求め、前記重み付き和が減少するように前記第二音響モデルのパラメータを更新する修正モデル更新ステップとを含む、
　音響モデル学習方法。
　請求項１から請求項５の何れかの音響モデル学習装置としてコンピュータを機能させるためのプログラム。