WO2019235283A1

WO2019235283A1 - モデル学習装置、方法及びプログラム

Info

Publication number: WO2019235283A1
Application number: PCT/JP2019/020897
Authority: WO
Inventors: 崇史森谷; 山口　義和
Original assignee: 日本電信電話株式会社
Priority date: 2018-06-05
Filing date: 2019-05-27
Publication date: 2019-12-12
Also published as: US20210224642A1; JPWO2019235283A1; JP7031741B2

Abstract

モデル学習装置によれば、メインタスクをタスクJとし、サブタスクをタスク1,…,J-1とし、各タスクj∈1,…,J-1に対応する各特徴量をニューラルネットワークモデルに入力したときの出力層からの出力である出力確率分布を計算するモデル計算部と、各タスクj∈1,…,J-1に対応する各特徴量に対応する正解ユニット番号及び各タスクj∈1,…,J-1に対応する計算された出力確率分布に基づいて計算される各タスクj∈1,…,J-1の損失関数の値を最小化するようにニューラルネットワークモデルのパラメタを更新した後に、タスクJに対応する特徴量に対応する正解ユニット番号及び計算された出力確率分布に基づいて計算されるタスクJの損失関数の値を最小化するようにニューラルネットワークモデルのパラメタを更新するマルチタスク型モデル更新部とを備えている。

Description

モデル学習装置、方法及びプログラム

　この発明は、音声、画像等を認識するために用いられるモデルを学習する技術に関する。

　図１を参照して、一般的なニューラルネットワークモデルの学習方法を説明する。この学習方法を用いた、音声認識用のニューラルネットワーク型のモデルを学習する方法は、非特許文献１の”TRAINING DEEP NEURAL NETWORKS”の節に例えば記載されているものである。

　図１のモデル学習装置は、中間特徴量計算部１０１と、出力確率分布計算部１０２と、モデル更新部１０３とを備えている。

　事前に学習データの各サンプルから抽出した実数のベクトルである特徴量及び各特徴量に対応する正解ユニット番号のペアと、適当な初期モデルとを用意する。初期モデルとしては、各パラメタに乱数を割り当てたニューラルネットワークモデルや、既に別の学習データで学習済みのニューラルネットワークモデル等を利用することができる。

　中間特徴量計算部１０１は、入力された特徴量から、出力確率分布計算部１０２において正解ユニットを識別しやすくするための中間特徴量を計算する。中間特徴量は、非特許文献１の式（１）により定義されるものである。計算された中間特徴量は、出力確率分布計算部１０２に出力される。

　より具体的には、ニューラルネットワークモデルが１個の入力層、複数個の中間層及び１個の出力層で構成されているとして、中間特徴量計算部１０１は、入力層及び複数個の中間層のそれぞれで中間特徴量の計算を行う。中間特徴量計算部１０１は、複数個の中間層の中の最後の中間層で計算された中間特徴量を出力確率分布計算部１０２に出力する。

　出力確率分布計算部１０２は、中間特徴量計算部１０１で最終的に計算された中間特徴量を現在のモデルの出力層に入力することにより、出力層の各ユニットに対応する確率を並べた出力確率分布を計算する。出力確率分布は、非特許文献１の式（２）により定義されるものである。計算された出力確率分布は、モデル更新部１０３に出力される。

　モデル更新部１０３は、正解ユニット番号と出力確率分布に基づいて損失関数の値を計算し、損失関数の値を減少させるようにモデルを更新する。損失関数は、非特許文献１の式（３）により定義されるものである。モデル更新部１０３によるモデルの更新は、非特許文献１の式（４）によって行われる。

　学習データの特徴量及び正解ユニット番号の各ペアに対して、上記の中間特徴量の抽出、出力確率分布の計算及びモデルの更新の処理を繰り返し、所定回数の繰り返しが完了した時点のモデルを学習済みモデルとして利用する。所定回数は、通常、数千万から数億回である。

　非特許文献２には、最終的に解きたいメインのタスクに対する性能を向上させるために、メインのタスクとは別の複数のタスクと、メインのタスクとを同時に学習する方法が記載されている。この学習方法は、マルチタスク学習と呼ばれており、様々な分野で性能が改善されていることが報告されている。

　図２を参照して、非特許文献２のマルチタスク学習を行うモデル学習装置について説明する。

　図２のモデル学習装置は、図１のモデル学習装置と同様に、中間特徴量計算部１０１と、出力確率分布計算部１０２と、マルチタスク型モデル更新部２０１とを備えている。図２の中間特徴量計算部１０１及び出力確率分布計算部１０２の処理は、図１の中間特徴量計算部１０１及び出力確率分布計算部１０２の処理と同様であるため、重複説明を省略する。

　マルチタスク型モデル更新部２０１には、Ｊを２以上の整数として、各タスクj∈1,…,Jの各特徴量の出力確率分布と、各特徴量に対応する正解ユニット番号と、ハイパーパラメタλ_jとが入力される。ハイパーパラメタλ_jは、タスクの重要度を表す重みのパラメタであり、手動で設定される。

　マルチタスク型モデル更新部２０１は、各タスクj∈1,…,Jの各特徴量の出力確率分布と、各特徴量に対応する正解ユニット番号とから得られる各タスクの損失関数の値L_jにハイパーパラメタλ_j∈[0,1]を乗算したものの和Lを最小化するように学習を行う。

　このようにして、相互作用のあるタスクを同時に解くことで認識性能が向上することが期待される。

Geoffrey Hinton, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patric Nguyen, Tara N. Sainath and Brian Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition," IEEE Signal Processing Magazine, Vol. 29, No 6, pp.82-97, 2012. Yanmin Qian, Tian Tan, Dong Yu, and Yu Zhang,"INTEGRATED ADAPTATION WITH MULTI-FACTOR JOINT-LEARNING FOR FAR-FIELD SPEECH RECOGNITION," ICASSP, pp. 5770-5774, 2016

　非特許文献２では、各タスクの損失関数の値L_jの重みλ_j∈[0,1]を乗算したものの和Lを最小化するように学習が行われる。

　この和Lを最小化することで全体の損失を最小化するように学習できるが、Lは重み付き和のため個々のタスクを明示的に最小化するようには設計されていない。非特許文献２の技術はこの点において改善の余地があった。

　この発明は、最終的に解きたいタスクに対する性能を従来よりも改善したモデルを学習するモデル学習装置、方法及びプログラムを提供することを目的とする。

　この発明の一態様によるモデル学習装置によれば、Jを所定の２以上の整数とし、メインタスクをタスクJとし、メインタスクを行うために必要な少なくとも１個のサブタスクをタスク1,…,J-1とし、各タスクj∈1,…,J-1に対応する各特徴量をニューラルネットワークモデルに入力したときの出力層からの出力である出力確率分布を計算するモデル計算部と、各タスクj∈1,…,J-1に対応する各特徴量に対応する正解ユニット番号及び各タスクj∈1,…,J-1に対応する計算された出力確率分布に基づいて計算される各タスクj∈1,…,J-1の損失関数の値を最小化するようにニューラルネットワークモデルのパラメタを更新した後に、タスクJに対応する特徴量に対応する正解ユニット番号及び計算された出力確率分布に基づいて計算されるタスクJの損失関数の値を最小化するようにニューラルネットワークモデルのパラメタを更新するマルチタスク型モデル更新部と、を備えている。

　最終的に解きたいタスク以外のタスクの損失関数の値のそれぞれを明示的に最小化することで、最終的に解きたいタスクの性能を従来よりも改善することができる。

図１は、非特許文献１のモデル学習装置の機能構成の例を示す図である。図２は、非特許文献２のモデル学習装置の機能構成の例を示す図である。図３は、この発明のモデル学習装置の機能構成の例を示す図である。図４は、この発明のマルチタスク型モデル更新部３１の機能構成の例を示す図である。図５は、モデル学習方法の処理手続きの例を示す図である。図６は、コンピュータの機能構成例を示す図である。

　以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

　[モデル学習装置及び方法]
　モデル学習装置は、図３に示すように、モデル計算部３０と、マルチタスク型モデル更新部３１とを例えば備えている。モデル計算部３０は、中間特徴量計算部３０１と、出力確率分布計算部３０２とを例えば備えている。マルチタスク型モデル更新部３１は、図４に示すように、損失選択部３１１と、モデル更新部３１２とを例えば備えている。

　モデル学習方法は、モデル学習装置の各構成部が、以下に説明する及び図５に示すステップＳ３０からステップＳ３１の処理を行うことにより例えば実現される。

　なお、以下に説明する処理を行う前に、メインタスクをタスクJとし、メインタスクを行うために必要な少なくとも１個のサブタスクをタスク1,…,J-1として、各タスク1,…,Jの学習データの各サンプルから抽出した実数のベクトルである特徴量及び各特徴量に対応する正解ユニット番号のペアと、適当な初期モデルのニューラルネットワークモデルとが用意されているとする。初期モデルのニューラルネットワークモデルとしては、各パラメタに乱数を割り当てたニューラルネットワークモデルや、既に別の学習データで学習済みのニューラルネットワークモデル等を例えば利用することができる。

　メインタスクを行うために必要な少なくとも１個のサブタスクは、メインタスクに関連するタスクである。少なくとも１個のサブタスクは、互いに関連するタスクである。

　メインタスク及び少なくとも１個のサブタスクの例は、メインタスク＝単語の認識、サブタスク１＝モノフォンの認識、サブタスク２＝トライフォンの認識、サブタスク３＝カタカナの認識である。

　メインタスク及び少なくとも１個のサブタスクの他の例は、メインタスク＝文字認識を含む画像認識、サブタスク１＝文字のみの画像に基づく文字認識である。

　以下、モデル学習装置の各構成部について説明する。

　<モデル計算部３０>
　モデル計算部３０には、各タスクj∈1,…,Jに対応する特徴量が入力される。

　モデル計算部３０は、各タスクj∈1,…,Jに対応する各特徴量をニューラルネットワークモデルに入力したときの出力層からの出力である出力確率分布を計算する。

　計算された出力確率分布は、マルチタスク型モデル更新部３１に出力される。

　以下、モデル計算部３０の処理を詳細に説明するために、モデル計算部３０の中間特徴量計算部３０１及び出力確率分布計算部３０２について説明する。

　以下に説明する中間特徴量計算部３０１及び出力確率分布計算部３０２の処理は、各タスクj∈1,…,Jに対応する各特徴量に対して行われる。これにより、各タスクj∈1,…,Jに対応する各特徴量に対応する出力確率分布が得られる。

　<<中間特徴量計算部３０１>>
　中間特徴量計算部３０１は、中間特徴量計算部１０１と同様の処理を行う。

　中間特徴量計算部３０１には、特徴量が入力される。

　中間特徴量計算部３０１は、入力された特徴量と初期モデルのニューラルネットワークモデルとを用いて、中間特徴量を生成する（ステップＳ３０１）。中間特徴量は、例えば非特許文献１の式（１）により定義されるものである。

　計算された中間特徴量は、出力確率分布計算部３０２に出力される。

　中間特徴量計算部３０１は、入力された特徴量及びニューラルネットワークモデルから、出力確率分布計算部３０２において正解ユニットを識別しやすくするための中間特徴量を計算する。具体的には、ニューラルネットワークモデルが１個の入力層、複数個の中間層及び１個の出力層で構成されているとして、中間特徴量計算部３０１は、入力層及び複数個の中間層のそれぞれで中間特徴量の計算を行う。中間特徴量計算部３０１は、複数個の中間層の中の最後の中間層で計算された中間特徴量を出力確率分布計算部３０２に出力する。

　<<出力確率分布計算部３０２>>
　出力確率分布計算部３０２は、出力確率分布計算部１０２と同様の処理を行う。

　出力確率分布計算部３０２には、中間特徴量計算部３０１が計算した中間特徴量が入力される。

　出力確率分布計算部３０２は、中間特徴量計算部３０１で最終的に計算された中間特徴量をニューラルネットワークモデルの出力層に入力することにより、出力層の各ユニットに対応する確率を並べた出力確率分布を計算する（ステップＳ３０２）。出力確率分布は、例えば非特許文献１の式（２）により定義されるものである。

　例えば、入力された特徴量が音声の特徴量であり、ニューラルネットワークモデルが音声認識用のニューラルネットワーク型の音響モデルである場合には、出力確率分布計算部３０２により、音声の特徴量を識別しやすくした中間特徴量がどの音声の出力シンボル（音素状態）であるかが計算され、言い換えれば入力された音声の特徴量に対応した出力確率分布が得られる。

　<マルチタスク型モデル更新部３１>
　マルチタスク型モデル更新部３１には、各タスクj∈1,…,J-1に対応する各特徴量に対応する正解ユニット番号と、モデル計算部３０が計算した各タスクj∈1,…,Jに対応する各特徴量に対応する出力確率分布とが入力される。

　マルチタスク型モデル更新部３１は、各タスクj∈1,…,J-1に対応する各特徴量に対応する正解ユニット番号及び各タスクj∈1,…,J-1に対応するモデル計算部３０で計算された出力確率分布に基づいて計算される前記各タスクj∈1,…,J-1の損失関数の値を最小化するようにニューラルネットワークモデルのパラメタを更新した後に、タスクJに対応する特徴量に対応する正解ユニット番号及びモデル計算部３０で計算された出力確率分布に基づいて計算されるタスクJの損失関数の値を最小化するようにニューラルネットワークモデルのパラメタを更新する（ステップＳ３１）。

　以下、マルチタスク型モデル更新部３１の処理を詳細に説明するために、マルチタスク型モデル更新部３１の損失選択部３１１及びモデル更新部３１２について説明する。

　<<損失選択部３１１>>
　損失選択部３１１には、各タスクj∈1,…,J-1に対応する各特徴量に対応する正解ユニット番号と、モデル計算部３０が計算した各タスクj∈1,…,Jに対応する各特徴量に対応する出力確率分布とが入力される。

　損失選択部３１１は、各タスクj∈1,…,J-1に対応する各特徴量に対応する正解ユニット番号と、モデル計算部３０が計算した各タスクj∈1,…,Jに対応する各特徴量に対応する出力確率分布とを、所定の順序で、モデル更新部３１２に出力する（ステップＳ３１１）。

　以下では、j=1,…,Jとして、タスクjに対応する各特徴量に対応する正解ユニット番号と、モデル計算部３０が計算したタスクjに対応する各特徴量に対応する出力確率分布とを、タスクjに対応する情報と略記する。

　所定の順序は、タスクJに対応する情報を最後に出力する順序であれば、他のタスク1,…,J-1に対応する情報の出力の順序は任意である。所定の順序の数は、(J-1)!個だけ有り得る。例えば、所定の順序は、タスク1,…,J-1について昇順以外の順序である。

　例えば、所定の順序は、予め決定され、損失選択部３１１に入力される。所定の順序が予め決定されていない場合には、損失選択部３１１が、所定の順序を決定してもよい。

　例えば、メインタスク＝単語の認識、サブタスク１＝モノフォンの認識、サブタスク２＝トライフォンの認識、サブタスク３＝カタカナの認識である場合には、まずサブタスク１からサブタスク３のそれぞれに対応する情報がモデル更新部３１２に出力され、最後に解きたいメインタスクに対応する情報がモデル更新部３１２に出力される。

　<<モデル更新部３１２>>
　モデル更新部３１２には、損失選択部３１１が所定の順序で出力した、各タスクj∈1,…,J-1に対応する各特徴量に対応する正解ユニット番号と、各タスクj∈1,…,Jに対応する各特徴量に対応する出力確率分布とが入力される。

　モデル更新部３１２は、入力されたタスク順に、タスクごとに、タスクに対応する各特徴量に対応する正解ユニット番号と、タスクに対応する各特徴量に対応する出力確率分布とに基づいて計算されるタスクの損失関数の値を最小化するようにニューラルネットワークモデルのパラメタを更新する（ステップＳ３１２）。

　損失関数は、例えば非特許文献１の式（３）により定義されるものである。モデル更新部３１２によるモデルの更新は、例えば非特許文献１の式（４）によって行われる。更新されるモデル内のパラメタは、例えば非特許文献１の式（１）の重みwとバイアスbである。

　例えば、所定の順序では、タスクJが最後であるため、モデル更新部３１２は、まず、各タスクj∈1,…,J-1の損失関数の値を最小化するようにニューラルネットワークモデルのパラメタ更新を行う。その後、モデル更新部３１２は、タスクJの損失関数の値を最小化するようにニューラルネットワークモデルのパラメタ更新を行う。

　このようにして、最終的に解きたいタスク以外のタスクの損失関数のそれぞれを明示的に最小化することで、最終的に解きたいタスクの性能を従来よりも改善することができる。

　[変形例]
　以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。

　実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

　[プログラム、記録媒体]
　上述の各種の処理は、図６に示すコンピュータの記録部２０２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０などに動作させることで実施できる。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

　また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１０１中間特徴量計算部
１０２出力確率分布計算部
１０３モデル更新部
２０１マルチタスク型モデル更新部
３０モデル計算部
３０１中間特徴量計算部
３０２出力確率分布計算部
３１マルチタスク型モデル更新部
３１１損失選択部
３１２モデル更新部

Claims

　Jを所定の２以上の整数とし、メインタスクをタスクJとし、メインタスクを行うために必要な少なくとも１個のサブタスクをタスク1,…,J-1とし、各タスクj∈1,…,J-1に対応する各特徴量をニューラルネットワークモデルに入力したときの出力層からの出力である出力確率分布を計算するモデル計算部と、
　各タスクj∈1,…,J-1に対応する各特徴量に対応する正解ユニット番号及び各タスクj∈1,…,J-1に対応する前記計算された出力確率分布に基づいて計算される前記各タスクj∈1,…,J-1の損失関数の値を最小化するように前記ニューラルネットワークモデルのパラメタを更新した後に、タスクJに対応する前記特徴量に対応する正解ユニット番号及び前記計算された出力確率分布に基づいて計算されるタスクJの損失関数の値を最小化するように前記ニューラルネットワークモデルのパラメタを更新するマルチタスク型モデル更新部と、
　を含むモデル学習装置。
　請求項１のモデル学習装置であって、
　前記モデル更新部は、タスク1,…,J-1について昇順以外の順序で、前記各タスクj∈1,…,J-1の損失関数の値を最小化するように前記ニューラルネットワークモデルのパラメタ更新を行う、
　モデル学習装置。
　モデル計算部が、Jを所定の２以上の整数とし、メインタスクをタスクJとし、メインタスクを行うために必要な少なくとも１個のサブタスクをタスク1,…,J-1とし、各タスクj∈1,…,J-1に対応する各特徴量をニューラルネットワークモデルに入力したときの出力層からの出力である出力確率分布を計算するモデル計算ステップと、
　マルチタスク型モデル更新部が、各タスクj∈1,…,J-1に対応する各特徴量に対応する正解ユニット番号及び各タスクj∈1,…,J-1に対応する前記計算された出力確率分布に基づいて計算される前記各タスクj∈1,…,J-1の損失関数の値を最小化するように前記ニューラルネットワークモデルのパラメタを更新した後に、タスクJに対応する前記特徴量に対応する正解ユニット番号及び前記計算された出力確率分布に基づいて計算されるタスクJの損失関数の値を最小化するように前記ニューラルネットワークモデルのパラメタを更新するマルチタスク型モデル更新ステップと、
　を含むモデル学習方法。
　請求項３のモデル学習方法であって、
　前記モデル更新ステップは、タスク1,…,J-1について昇順以外の順序で、前記各タスクj∈1,…,J-1の損失関数の値を最小化するように前記ニューラルネットワークモデルのパラメタ更新を行う、
　モデル学習方法。
　請求項１又は２のモデル学習装置の各部としてコンピュータを機能させるためのプログラム。