WO2023017568A1

WO2023017568A1 - 学習装置、推定装置、学習方法、およびプログラム

Info

Publication number: WO2023017568A1
Application number: PCT/JP2021/029544
Authority: WO
Inventors: 翔太折橋; 亮増村
Original assignee: 日本電信電話株式会社
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2023-02-16
Also published as: JPWO2023017568A1

Abstract

複雑なコンテキストを考慮した複雑な分類問題に対して知識蒸留技術を適用する学習装置等を提供する。学習装置は、所定の単位で処理を行うQ個の機能を階層的に含むモデルである教師モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定し、教師モデルと同じQ個の機能を階層的に含むモデルである生徒モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定し、学習用データセットに含まれるテキストに対する正解ラベルと、生徒モデルラベル推定処理の推定結果とを用いて、ハードターゲット損失を求め、教師モデルラベル推定処理の推定結果と生徒モデルラベル推定処理の推定結果とを用いて、ソフトターゲット損失を求め、ハードターゲット損失とソフトターゲット損失から得られる損失を最適化するように生徒モデルのパラメータを更新する。

Description

学習装置、推定装置、学習方法、およびプログラム

　本発明は、テキスト系列を入力とし、テキスト系列に対応するラベルを出力する発話系列ラベリング技術に関する。

　近年、会話や談話の理解を目的に、発話系列を入力として、発話毎に会話や談話の応対シーンに相当するラベルを推定する、発話系列ラベリングの技術が提案されている。

　例えば非特許文献１では、コンタクトセンタにおけるオペレータとカスタマの音声認識結果のテキストを入力として、発話毎にオープニング、用件把握、本人確認、対応、クロージングのいずれかの応対シーンのラベルを推定する発話系列ラベリングを実現するための深層ニューラルネットワークによるモデル（以下、「ラベリングモデル」ともいう）の構成を提供する。非特許文献１によれば、ラベリングモデルは図１の模式図のように構成され、単語単位の短期文脈を理解するネットワーク（以下、「短期文脈理解ネットワーク」ともいう）と、文単位の長期文脈を理解するネットワーク（以下、「長期文脈理解ネットワーク」ともいう）を積層し、得られる中間的な特徴を、ラベルを予測するネットワーク（以下、「ラベル予測ネットワーク」ともいう）に入力して、応対シーンのラベルを推定する。

　非特許文献１のようなラベリングモデルにおいて高い分類精度の発話系列ラベリングを実現するためには、短期文脈理解ネットワークと長期文脈理解ネットワークのそれぞれについて、学習可能なパラメータ数を多くする必要がある。そのようなラベリングモデルを用いた推論には、潤沢な計算環境が要求されるが、特にモバイル環境や、複数の推論を同時並列で実行する環境などでは、計算環境を潤沢に用意することは困難である。ここで、学習可能なパラメータが多く分類精度が高いモデル（以下、「教師モデル」ともいう）に獲得された知識を用いて、学習可能なパラメータが少なく軽量なモデル（以下、「生徒モデル」ともいう）を効率的に学習する、知識蒸留技術が提案されている。

　例えば、非特許文献２によれば、図２に模式的に示される通り、生徒モデルを学習するために、生徒モデルの出力する確率分布を正解ラベルの確率分布に近づけるための損失（以下、「ハードターゲット損失」ともいう）を用いるのに加えて、生徒モデルの出力する確率分布を教師モデルの出力する確率分布に近づけるための損失（以下、「ソフトターゲット損失」ともいう）を用いる。これにより、生徒モデルが教師モデルを模倣するよう学習することができ、教師モデルの持つ知識を生徒モデルに蒸留する知識蒸留が実現できる。

R. Masumura, S. Yamada, T. Tanaka, A. Ando, H. Kamiyama, and Y. Aono, "Online call scene segmentation of contact center dialogues based on role aware hierarchical LSTM-RNNs", Proceedings of the Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), pp. 811-815, 2018. G. Hinton, O. Vinyals, and J. Dean, "Distilling the knowledge in a neural network", Proceedings of the Deep Learning and Representation Learning Workshop, NIPS, 2014.

　しかしながら、非特許文献２の方法は知識蒸留技術を単純な分類問題に適用したものであり、非特許文献１のような複雑なコンテキストを考慮した複雑な分類問題に対して知識蒸留技術を適用した構成は考えられていない。

　本発明は、複雑なコンテキストを考慮した複雑な分類問題に対して知識蒸留技術を適用する学習装置、推定方法、学習方法、プログラムを提供することを目的とする。

　上記の課題を解決するために、本発明の一態様によれば、学習装置は、Qを2以上の整数の何れかとし、所定の単位で処理を行うQ個の機能を階層的に含むモデルである教師モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定する教師モデルラベル推定部と、教師モデルと同じQ個の機能を階層的に含むモデルである生徒モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定する生徒モデルラベル推定部と、学習用データセットに含まれるテキストに対する正解ラベルと、生徒モデルラベル推定部の推定結果とを用いて、ハードターゲット損失を求めるハードターゲット損失評価部と、教師モデルラベル推定部の推定結果と生徒モデルラベル推定部の推定結果とを用いて、ソフトターゲット損失を求めるソフトターゲット損失評価部と、ハードターゲット損失とソフトターゲット損失から得られる損失を最適化するように生徒モデルのパラメータを更新するパラメータ更新部と、を含む。

　本発明によれば、複雑なコンテキストを考慮した複雑な分類問題に対して知識蒸留を実現し、高い分類精度の生徒モデルを学習できるという効果を奏する。

ラベリングモデルの模式図。生徒モデルの学習を説明するための図。第一実施形態に係る推定システムの構成例を示す図。２つの損失を説明するための図。学習装置の機能ブロック図。学習装置の処理フローの例を示す図。学習装置の処理概要を説明するための図。推定装置の機能ブロック図。推定装置の処理フローの例を示す図。４つの損失を説明するための図。４つの損失を説明するための図。検証実験の結果を示す図。本手法を適用するコンピュータの構成例を示す図。

　以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「~」「^-」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
　本実施形態のポイントは、知識蒸留技術を発話系列ラベリング問題に適用する点である。従来、機械翻訳モデルやBERT(Bidirectional Encoder Representations from Transformers)のモデル軽量化を目的とする知識蒸留技術は多く検討されていたが、本実施形態はこれを初めて発話系列ラベリングの問題に適用したものである。本実施形態では、教師モデルが多段処理を行う構成になっており、生徒モデルもその多段処理の構成を維持したまま、知識蒸留を行う。本実施形態では、知識蒸留によりモデル軽量化を実施することで、特に計算環境を潤沢に用意することが困難な状況においても、高い分類精度でラベリングを実現することができる。

＜第一実施形態＞
　以下、非特許文献１のような、コンタクトセンタにおける発話テキスト系列を入力とし、応対シーンに相当するラベルを出力する発話系列ラベリングのためのニューラルネットワークへの、モデル軽量化を目的とする知識蒸留を例に説明する。しかし、本実施形態は、コンタクトセンタの発話テキスト系列や、応対シーンの発話系列ラベリングに限定されるものではない。つまり、文脈の考慮が必要な任意の系列ラベリング問題に対して適用できるものである。テキストの系列が与えられたときに、その文ごと、または特定の単位ごとにラベルを付与する問題に適用することができる。例えば、以下のようなニューラルネットワークに適用することができる。

・入力層が、テキスト（またはそのベクトル表現など、それと同等の情報を持つもの）を受け付けるようになっている。

・出力層が、ラベルの推定結果に対応している。

・中間層が、多段階の処理をしている、又は、トランスフォーマーエンコーダーのような、文脈を扱えるといわれているものを使用している（参考文献１参照）。

（参考文献１）Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, "Atention is All you need", 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA, 2017
　さらに、本実施形態は、教師モデルよりも生徒モデルの方が学習可能なパラメータの数が少ない状況に限定されるものではなく、教師モデルよりも生徒モデルの方が学習可能なパラメータの数が多い、または等しい状況でもよい。なお、パラメータの数が多い、または等しい状況（サイズが同等な）で、なおかつ「潤沢な計算環境が要求される」という従来技術の課題を解決できる構成とは、「教師モデルが複数あって、それらから１つの生徒モデルを学習する場合」等が想定される。

＜推定システム＞
　図３は第一実施形態に係る推定システムの構成例を示す図である。

　推定システムは、学習装置１００と推定装置２００とを含む。

　学習装置１００は、学習用データセットD=(X,^-P)と教師モデルTMとを入力とし、知識蒸留技術により、生徒モデルSMが教師モデルTMを模倣するよう学習し、学習済みの生徒モデルSMを出力する。学習用データセットD=(X,^-P)は、発話テキスト系列X_n=(x_n,1,x_n,2,…,x_{n,T_n})と、発話テキスト系列X_nの各発話テキストx_n,tに対応する正解ラベル^-p_n,tの系列^-P_n=(^-p_n,1,^-p_n,2,…,^-p_{n,T_n})の組を１通話分の通話データとして、それを多量(N通話分)に収集することで構成されるデータセットであり、X=(X₁,X₂,…,X_N)、^-P=(^-P₁,^-P₂,…,^-P_N)である。nを通話データのインデックスとし、n=1,2,…,Nとする。また、発話テキストx_n,tは通話データnに含まれるt番目の発話データを意味し、添え字のA_BはA_Bを意味し、T_nは通話データnに含まれる発話テキストの数であり、t=1,2,…,T_nである。

　推定装置２００は、予め学習済みの生徒モデルSMを受け取り、推定対象の1つ以上のテキスト系列を含む通話データX_testを入力とし、対応するラベル系列を推定し、推定したラベル系列P_testを出力する。

　学習装置１００および推定装置２００は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。学習装置１００および推定装置２００は、例えば、中央演算処理装置の制御のもとで各処理を実行する。学習装置１００および推定装置２００に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。学習装置１００および推定装置２００の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。学習装置１００および推定装置２００が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも学習装置１００および推定装置２００がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、学習装置１００および推定装置２００の外部に備える構成としてもよい。

　まず、学習装置１００について説明する。

＜学習装置１００の処理概要＞
　学習処理では、学習可能なパラメータが少なく軽量な生徒モデルを効率的に学習するために、学習可能なパラメータが多く分類精度が高い教師モデルに獲得された知識を用いる。

　ここで、学習可能なパラメータ数は、短期文脈理解ネットワークや長期文脈理解ネットワークをLSTM（long-short term memory、長短期記憶）や全結合ニューラルネットワークにより構成する場合、その層数や中間出力次元数等により定義されるものである。

　また、学習可能なパラメータ数は、例えば短期文脈理解ネットワークや長期文脈理解ネットワークをTransformerエンコーダブロックにより構成する場合、そのブロック数や、各ブロックの全結合ニューラルネットワークにおける中間出力次元数、マルチヘッド注意のヘッド数、および出力次元数等により定義されるものである。

　さらに、学習可能なパラメータ数は、ラベル予測ネットワークを全結合ニューラルネットワークにより構成する場合、その層数や中間出力次元数等により定義されるものである。

　要するに、教師モデルと生徒モデルは、図１に示されるような短期文脈理解ネットワーク、長期文脈理解ネットワーク、ラベル予測ネットワークによる「階層的な構造」は共通するが、それぞれのネットワークのパラメータ数が異なることで、モデルのサイズが異なる想定である。ここで言う「階層的な構造」とは、単なるニューラルネットワークを意味するのではなく、所定の単位での処理を行う機能を複数含む構造を意味する。所定の単位での処理を行う機能は処理の単位に意図を持っており、例えば、長期文脈理解ネットワークは、文間の長期文脈の理解を意図して文書単位の処理を行い、短期文脈理解ネットワークは、文内の短期文脈の理解を意図して文単位の処理を行う。

　学習処理では、図４に模式的に示される２つの損失の結合により定義される損失を用いて、生徒モデルを学習する。ここで、教師モデルは学習対象でなく、パラメータは固定する。

　ハードターゲット損失は、生徒モデルの出力する確率分布を正解ラベルの確率分布に近づけるための損失である。

　ソフトターゲット損失は、生徒モデルの出力する確率分布を教師モデルの出力する確率分布に近づけるための損失である。

　学習処理では、ハードターゲット損失とソフトターゲット損失を、例えば一定の比率で線形結合した損失関数を最適化するように、学習用データセットを用いて誤差逆伝播法などにより学習すればよい。

　次に、上記の処理を実施するための学習装置の構成例について説明する。

＜学習装置１００＞
　図５は第一実施形態に係る学習装置１００の機能ブロック図を、図６はその処理フローを示す。図７は、学習装置１００の処理概要を説明するための図である。

　学習装置１００は、教師モデルラベル推定部１１０、生徒モデルラベル推定部１２０、ハードターゲット損失評価部１３０、ソフトターゲット損失評価部１４０およびパラメータ更新部１５０を含む。

＜教師モデルラベル推定部１１０＞
　教師モデルラベル推定部１１０は、予め教師モデルTMを受け取る。教師モデルTMは、ニューラルネットワークによる階層的なモデルであり、本実施形態では短期文脈理解ネットワークと、長期文脈理解ネットワークと、ラベル予測ネットワークとを含む。

　教師モデルラベル推定部１１０は、階層的なモデルである教師モデルTMを用いて、学習用データセットDに含まれるN通話分の通話データに含まれるN個の発話テキスト系列X_n(n=1,2,…,N)を受け取り、発話テキスト系列X_nに含まれる発話テキストx_n,tに対するラベルを推定し（Ｓ１１０）、推定結果である確率分布~z_n,t(n=1,2,…,N、t=1,2,…,T_n、T_nは発話テキスト系列X_nに含まれる発話テキストの数)を出力する。例えば、以下のように処理を行う。

　教師モデルラベル推定部１１０は、短期文脈理解ネットワークを用いて発話テキスト系列X_nに含まれる発話テキストx_n,tに対する中間特徴量~s_n,t ^(~L)を取得する（Ｓ１１０Ａ）。ただし、~Lは教師モデルの短期文脈理解ネットワークのレイヤーの数を示す。なお、短期文脈理解ネットワークは、単語単位の短期文脈を理解するニューラルネットワークであり、どんな内容の発話をしたかを文内で捉える。中間特徴量~s_n,t ^(~L)には単語単位の短期文脈を理解するための特徴が含まれる。

　次に、教師モデルラベル推定部１１０は、長期文脈理解ネットワークを用いて中間特徴量~s_n,t ^(~L)に対する中間特徴量~u_n,t ^(~M)を取得する（Ｓ１１０Ｂ）。ただし、~Mは教師モデルの長期文脈理解ネットワークのレイヤーの数を示す。なお、長期文脈理解ネットワークは、文単位の長期文脈を理解するニューラルネットワークであり、発話の時系列性を捉えることで、話題の流れに追随する。中間特徴量~u_n,t ^(~M)には文単位の長期文脈を理解するための特徴が含まれる。

　さらに、教師モデルラベル推定部１１０は、ラベル予測ネットワークを用いて中間特徴量~u_n,t ^(~M)に対するラベルを予測し（Ｓ１１０Ｃ）、予測の確率分布~z_n,tを出力する。ラベル予測ネットワークはラベルを予測するニューラルネットワークである。本実施形態では、ラベル予測ネットワークの出力層は、温度付きソフトマックス関数を含み、教師モデルラベル推定部１１０は、温度付きソフトマックス関数の出力である確率分布~z_n,tを出力する。なお、図７の~v_tはラベル予測ネットワークの出力層の一つ前の全結合層の出力である。

＜生徒モデルラベル推定部１２０＞
　生徒モデルラベル推定部１２０は、予め生徒モデルSMを初期化しておく。ニューラルネットワークの初期化方法としては既存の技術を用いることができる。生徒モデルSMは、教師モデルTMと同様に、ニューラルネットワークによる階層的なモデルであり、本実施形態では短期文脈理解ネットワークと、長期文脈理解ネットワークと、ラベル予測ネットワークとを含む。

　生徒モデルラベル推定部１２０は、階層的なモデルである生徒モデルSMを用いて、学習用データセットDに含まれるN通話分の通話データに含まれるN個の発話テキスト系列X_n(n=1,2,…,N)を受け取り、発話テキスト系列X_nに含まれる発話テキストx_n,tに対するラベルを推定し（Ｓ１２０）、推定結果である確率分布ｐ_n,t,z_n,t(n=1,2,…,N、t_n=1,2,…,T_n)を出力する。例えば、以下のように処理を行う。

　生徒モデルラベル推定部１２０は、短期文脈理解ネットワークを用いて発話テキスト系列X_nに含まれる発話テキストx_n,tに対する中間特徴量s_n,t ^(L)を取得する（Ｓ１２０Ａ）。ただし、Lは生徒モデルの短期文脈理解ネットワークのレイヤーの数を示す。例えば、L≦~Lとする。

　次に、生徒モデルラベル推定部１２０は、長期文脈理解ネットワークを用いて中間特徴量s_n,t ^(L)に対する中間特徴量u_n,t ^(M)を取得する（Ｓ１２０Ｂ）。ただし、Mは生徒モデルの長期文脈理解ネットワークのレイヤーの数を示す。例えば、M≦~Mとする。

　さらに、生徒モデルラベル推定部１２０は、ラベル予測ネットワークを用いて中間特徴量u_n,t ^(M)に対するラベルを予測し（Ｓ１２０Ｃ）、予測の確率分布ｐ_n,t、z_n,tを出力する。生徒モデルラベル推定部１２０のラベル予測ネットワークの出力層は、ソフトマックス関数と温度付きソフトマックス関数とを含み、生徒モデルラベル推定部１２０は、ソフトマックス関数の出力である確率分布p_n,tと温度付きソフトマックス関数の出力である確率分布z_n,tとを出力する。なお、図７のv_tはラベル予測ネットワークの出力層の一つ前の全結合層の出力である。

＜ハードターゲット損失評価部１３０＞
　ハードターゲット損失評価部１３０は、正解ラベル^-p_n,tの系列^-P_n=(^-p_n,1,^-p_n,2,…,^-p_{n,T_n})と、生徒モデルによる予測の確率分布^-p_n,1,p_n,2,…,p_{n,T_n}(n=1,2,…,N)とを受け取り、ハードターゲット損失L_HTを求め（Ｓ１３０）、出力する。正解ラベルから得られる確率分布と予測の確率分布の距離はクロスエントロピー損失等の任意の損失関数を用いて評価すればよい。例えば、次式により、ハードターゲット損失L_HTを求める。

ただし、Yは取りうるラベルの集合であり、yはラベルの集合に含まれるラベルであり、^-p_n,t,yは正解ラベル^-p_n,tから得られる確率であり、通話データnに含まれるt番目の発話テキストx_n,tのラベルがyである確率である。つまり、正解ラベルと一致するラベルに対応する確率^-p_n,t,yは100%であり、その他のラベルに対応する確率^-p_n,t,yは0%である。p_n,t,yは予測の確率分布ｐ_n,tに含まれる確率であり、通話データnに含まれるt番目の発話テキストx_n,tのラベルがyである確率である。

＜ソフトターゲット損失評価部１４０＞
　ソフトターゲット損失評価部１４０は、教師モデルによる予測の確率分布~z_n,1,~z_n,2,…,~z_{n,T_n}と、生徒モデルによる予測の確率分布z_n,1,z_n,2,…,z_{n,T_n}(n=1,2,…,N)とを受け取り、ソフトターゲット損失L_STを求め（Ｓ１４０）、出力する。２つの確率分布の距離はクロスエントロピー損失や平均二乗誤差等の任意の損失関数を用いて評価すればよい。例えば、次式により、ソフトターゲット損失L_STを求める。

なお、τは温度付きソフトマックス関数のパラメータである。

＜パラメータ更新部１５０＞
　パラメータ更新部１５０は、ハードターゲット損失L_HTとソフトターゲット損失L_STを受け取り、ハードターゲット損失L_HTとソフトターゲット損失L_STから得られる損失Lを最適化するように生徒モデルのパラメータを更新する（Ｓ１５０）。例えば、次式により、ハードターゲット損失L_HTとソフトターゲット損失L_STを一定の比率で線形結合した損失関数Lを求める。

L=L_HT+λL_ST
ただし、λはハードターゲット損失とソフトターゲット損失の結合の比率を示すパラメータである。パラメータ更新部１５０は、損失関数Lを最適化するように、生徒モデルのパラメータを更新する。例えば、学習装置１００は、学習用データセットDを用いて誤差逆伝播法などにより学習すればよい。比率λは、学習スケジュールを事前に定義し、それに基づいて学習のステップ数に応じて変更しながら学習してもよい。例えば、学習の序盤はソフトターゲット損失L_STのみを用いて学習し、徐々にハードターゲット損失L_HTを与えるように学習してもよい。

　パラメータ更新部１５０は、所定の条件を満たすまで、更新したパラメータを生徒モデルラベル推定部１２０に出力し、Ｓ１２０、Ｓ１３０、Ｓ１４０、Ｓ１５０を繰り返す（Ｓ１５０－２のNO）。所定の条件とは、例えば、繰り返し回数が所定の回数を超えることや、更新前後のパラメータの差分が所定の閾値以下であること等であり、要は、パラメータの更新が収束したか否かを判定するための条件である。

　次に、推定装置２００について説明する。

＜推定装置２００＞
　図８は第一実施形態に係る推定装置２００の機能ブロック図を、図９はその処理フローを示す。

　推定装置２００は、推定部２１０を含む。

　推定部２１０は、予め学習済みの生徒モデルSMを受け取る。

　推定部２１０は、推定対象の1つ以上のテキスト系列を含む通話データX_testを入力とし、生徒モデルSMを用いて、通話データX_testの各発話テキストに対応するラベルを順に推定し（Ｓ２１０）、推定したラベル系列P_testを出力する。

＜効果＞
　以上の構成により、複雑なコンテキストを考慮した複雑な分類問題に対して知識蒸留を実現し、高い分類精度の生徒モデルを学習できるという効果を奏する。

＜変形例＞
　本実施形態では、発話テキストを処理対象としているが、必ずしも発話に基づくテキストに限られない。例えば、チャットやメール、各種SNS等で用いられる発話を伴わないテキストでのやり取りを含むテキスト系列に対して適用可能である。

＜第二実施形態のポイント＞
　本実施形態のポイントは、以下の2点である。

１．生徒モデルの長期文脈理解ネットワークが、教師モデルの長期文脈理解ネットワークを模倣するように学習する。

２．生徒モデルの短期文脈理解ネットワークが、教師モデルの短期文脈理解ネットワークを模倣するように学習する。

　上述の１．により、生徒モデルの長期文脈理解ネットワークが出力する長期文脈の中間特徴が、教師モデルの長期文脈理解ネットワークが出力する長期文脈の中間特徴に近づくように学習する。これにより、生徒モデルの長期文脈理解ネットワークが、教師モデルの長期文脈理解ネットワークを模倣するように学習できることから、各ラベルの確率分布のみを模倣する場合に比べて、より精緻に生徒モデルが教師モデルを模倣でき、生徒モデルの分類精度向上に繋がる。

　上述の２．により、生徒モデルの短期文脈理解ネットワークが出力する短期文脈の中間特徴が、教師モデルの短期文脈理解ネットワークが出力する短期文脈の中間特徴に近づくように学習する。これにより、生徒モデルの短期文脈理解ネットワークが、教師モデルの短期文脈理解ネットワークを模倣するように学習できることから、発話テキストの内容に対する、短期文脈理解ネットワークの頑健性が向上し、生徒モデルの分類精度向上に繋がる。

　第一実施形態では、非特許文献２により実現されるような知識蒸留技術を、非特許文献１に示される発話系列ラベリング問題のためのラベリングモデルに導入することにより、教師モデルに獲得された知識を用いて、軽量な生徒モデルを効率的に学習できる。

　しかし、非特許文献２の方法は、単純な分類問題に適用したものであり、中間特徴の知識を効率的に蒸留することができない場合がある。

　そこで、本実施形態では、複雑なコンテキストを考慮した発話系列ラベリング問題に対して、中間特徴の知識を効率的に教師モデルから蒸留することで、高い分類精度の生徒モデルを学習する。

　本実施形態では、非特許文献２のような知識蒸留を、複雑なコンテキストを考慮した発話系列ラベリングのためのラベリングネットワークに導入するために、生徒モデルが出力する長期文脈の中間特徴および短期文脈の中間特徴が、教師モデルのそれらを模倣するように学習することで、中間特徴の知識を教師モデルから効率的に蒸留する。

＜第二実施形態＞
　第一実施形態と異なる部分を中心に説明する。

＜推定システム＞
　図３は第二実施形態に係る推定システムの構成例を示す図である。

　推定システムは、学習装置３００と推定装置２００とを含む。

　第二実施形態は、第一実施形態と学習処理の内容が異なる。

＜学習装置３００の処理概要＞
　第二実施形態における学習処理では、図１０に模式的に示される４つの損失の結合により定義される損失を用いて、生徒モデルを学習する。ハードターゲット損失とソフトターゲット損失は、第一実施形態と共通である。

　長期文脈損失は、生徒モデルの長期文脈理解ネットワークが出力する長期文脈の中間特徴が、教師モデルの長期文脈理解ネットワークが出力する長期文脈の中間特徴を模倣するように学習するための損失関数である。なお、生徒モデルと教師モデルで長期文脈理解ネットワークの出力次元数が異なる場合は、図１１に模式的に示されるように、例えば教師モデルの長期文脈理解ネットワークの出力に、次元数を揃えるための全結合層を分岐して設け、次元数を揃えるための全結合層が出力する特徴と、生徒モデルの長期文脈理解ネットワークが出力する長期文脈の中間特徴が近づくように、生徒モデルと、次元数を揃えるための全結合層を学習しても良い。

　短期文脈損失は、生徒モデルの短期文脈理解ネットワークが出力する短期文脈の中間特徴が、教師モデルの短期文脈理解ネットワークが出力する短期文脈の中間特徴を模倣するように学習するための損失関数である。なお、生徒モデルと教師モデルで短期文脈理解ネットワークの出力次元数が異なる場合は、図１１に模式的に示されるように、例えば教師モデルの短期文脈理解ネットワークの出力に、次元数を揃えるための全結合層を分岐して設け、次元数を揃えるための全結合層の出力する特徴と、生徒モデルの短期文脈理解ネットワークが出力する短期文脈の中間特徴が近づくように、生徒モデルと、次元数を揃えるための全結合層を学習しても良い。

　第二実施形態における学習処理では、ハードターゲット損失とソフトターゲット損失、長期文脈損失、短期文脈損失を、例えば一定の比率で線形結合した損失関数を最適化するように、学習用データセットを用いて誤差逆伝播法などにより学習すればよい。

＜学習装置３００＞
　図５は第二実施形態に係る学習装置３００の機能ブロック図を、図６はその処理フローを示す。図７は、学習装置３００の処理概要を説明するための図である。

　学習装置３００は、教師モデルラベル推定部１１０、生徒モデルラベル推定部１２０、ハードターゲット損失評価部１３０、ソフトターゲット損失評価部１４０、短期文脈損失評価部３６０、長期文脈損失評価部３７０およびパラメータ更新部３５０を含む。

＜短期文脈損失評価部３６０＞
　短期文脈損失評価部３６０は、中間特徴量~s_n,t ^(~L)、s_n,t ^(L)を受け取り(n=1,2,…,N、t=1,2,…,T_n)、短期文脈損失L_UCを求め（Ｓ３６０）、出力する。２つの中間特徴の距離は、平均二乗誤差等の任意の損失関数を用いて評価すればよい。例えば、次式により、短期文脈損失L_UCを求める。

中間特徴量は、短期文脈理解ネットワークを構成する層のいずれか一層の中間特徴量を用いればよく、必ずしも、短期文脈理解ネットワークの出力である必要はない。

＜長期文脈損失評価部３７０＞
　長期文脈損失評価部３７０は、中間特徴量~u_n,t ^(~M)、u_n,t ^(M)を受け取り(n=1,2,…,N、t=1,2,…,T_n)、長期文脈損失L_DCを求め（Ｓ３７０）、出力する。２つの中間特徴の距離は、平均二乗誤差等の任意の損失関数を用いて評価すればよい。例えば、次式により、長期文脈損失L_DCを求める。

中間特徴量は、長期文脈理解ネットワークを構成する層のいずれか一層の中間特徴量を用いればよく、必ずしも、長期文脈理解ネットワークの出力である必要はない。

＜パラメータ更新部３５０＞
　パラメータ更新部３５０は、ハードターゲット損失L_HTとソフトターゲット損失L_STと短期文脈損失L_UCと長期文脈損失L_DCを受け取り、次式により、ハードターゲット損失L_HTとソフトターゲット損失L_STと短期文脈損失L_UCと長期文脈損失L_DCを一定の比率で線形結合した損失関数Lを求める。

L=L_HT+λL_ST＋αL_UC＋βL_DC
ただし、λ、α、βは、ハードターゲット損失とソフトターゲット損失と短期文脈損失と長期文脈損失の結合の比率を示すパラメータである。パラメータ更新部３５０は、損失関数Lを最適化するように、生徒モデルのパラメータを更新する（Ｓ３５０）。例えば、学習装置３００は、学習用データセットDを用いて誤差逆伝播法などにより学習すればよい。比率λ、α、βは、学習スケジュールを事前に定義し、それに基づいて学習のステップ数に応じて変更しながら学習してもよい。例えば、学習の序盤は短期文脈損失のみを用いて学習し、徐々に長期文脈損失、ソフトターゲット損失、ハードターゲット損失を、この順で与えるように学習してもよい。

　なお、前述の通り、図１１のように、次元数を揃えるための全結合層を設けた場合には、全結合層のパラメータも合わせて更新する。

　パラメータ更新部３５０は、所定の条件を満たすまで、更新したパラメータを生徒モデルラベル推定部１２０に出力し、Ｓ１２０－Ｓ１４０、Ｓ３６０、Ｓ３７０、Ｓ３５０を繰り返す（Ｓ１５０－２のNO）。

＜効果＞
　このような構成とすることで、複雑なコンテキストを考慮した発話系列ラベリング問題において、短期文脈の特徴および長期文脈の特徴を捉える能力が高い教師モデルを、生徒モデルがより精緻に模倣できる。これにより、教師モデルに獲得されている知識を生徒モデルにより効率的に蒸留することが可能となることから、生徒モデルのラベリング精度を高めることができる。「短期文脈の特徴」は、１文を１つのベクトルにより表現しており、その情報を教師モデルと生徒モデルで近くなるように学習することで、文の特徴の表現方法をそのまま模倣することができる。また、「長期文脈の特徴」は、話題の流れを１つのベクトルにより表現しており、その情報を教師モデルと生徒モデルで近くなるように学習することで、話題の流れの表現方法をそのまま模倣することができる。

＜検証実験結果＞
　コンタクトセンタにおける発話テキスト系列を入力とし、応対シーンに相当するラベルを出力する発話系列ラベリングのタスクに対して、検証実験を行った。日本語のコンタクトセンタにおける疑似的な応対データを用い、学習用データセットのデータ数は327通話、テスト用データセットのデータ数は37通話とした。分類対象は、オープニング、用件把握、本人確認、対応、クロージングの５つのラベルとした。教師モデルのパラメータ数は13.11M、生徒モデルのパラメータ数は3.65Mとし、生徒モデルを単にスクラッチで学習するベースラインと、第一実施形態、第二実施形態による学習方法を用いて学習する方法で、各応対シーンの分類精度を比較した。

　なお、第二実施形態では、短期文脈損失および長期文脈損失のいずれかを用いない場合も比較した。評価には、完全一致による正解率を用いた。検証実験の結果を、図１２に示す。図１２より、特に第二実施形態を適用することにより、軽量な生徒モデルであっても、教師モデルに近い分類精度が得られることが分かる。

＜変形例＞
　本実施形態のように、長期文脈理解ネットワーク、短期文脈理解ネットワークのように階層化されている場合は、各階層の中間特徴を比較すればよい。本実施形態では、長期文脈理解ネットワークと短期文脈理解ネットワークとの2階層であるが、3階層以上にも本実施形態を適用することができる。教師モデル、生徒モデルを構成するネットワークをQ個の機能ごとの階層（ブロック）に分けた際の、階層（ブロック）を構成するいずれかの層の出力を、Q個以上比較し、Q個以上の損失を計算し、Q個以上の損失を結合して最終的な損失を求め、最終的な損失を最適化するように、生徒モデルのパラメータを更新すればよい。なお、計算する損失の個数がQを超える場合、Q+1個目以上の比較対象は、どのブロックのものでもよい。言い換えると、計算する損失の個数がQを超える場合、1つのブロックから2つ以上の比較対象(中間特徴)を取り出し、Q個ブロックから合計でQ+1個以上の比較対象を取り出してもよい。

　また、検証実験で説明したように、短期文脈損失評価部３６０と長期文脈損失評価部３７０の何れか一方のみを有する構成としてもよく、Q個のタスクごとの階層（ブロック）に分けた際の、階層（ブロック）を構成するいずれかの層の出力を、1個以上比較し、1個以上の損失を計算し、1個以上の損失を結合して最終的な損失を求め、最終的な損失を最適化するように、生徒モデルのパラメータを更新してもよい。

＜その他の変形例＞
　本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
　上述の各種の処理は、図１３に示すコンピュータの記憶部２０２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０などに動作させることで実施できる。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

＜変形例＞
　上記実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行したプログラムを、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、及びＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、プログラムを、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

　また、上記実施形態では、プログラムがストレージに予め記憶（インストール）されているものといて説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、及びＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ等の非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

　以上の実施形態に関し、更に以下の付記を開示する。

　（付記項１）
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　Qを2以上の整数の何れかとし、所定の単位で処理を行うQ個の機能を階層的に含むモデルである教師モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定する教師モデルラベル推定処理を実行し、
　前記教師モデルと同じQ個の機能を階層的に含むモデルである生徒モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定する生徒モデルラベル推定処理を実行し、
　前記学習用データセットに含まれるテキストに対する正解ラベルと、前記生徒モデルラベル推定処理の推定結果とを用いて、ハードターゲット損失を求め、
　前記教師モデルラベル推定処理の推定結果と前記生徒モデルラベル推定処理の推定結果とを用いて、ソフトターゲット損失を求め、
　前記ハードターゲット損失と前記ソフトターゲット損失から得られる損失を最適化するように生徒モデルのパラメータを更新する、
　学習装置。

　（付記項２）
　学習処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　前記学習処理は、
　Qを2以上の整数の何れかとし、所定の単位で処理を行うQ個の機能を階層的に含むモデルである教師モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定する教師モデルラベル推定処理を実行し、
　前記教師モデルと同じQ個の機能を階層的に含むモデルである生徒モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定する生徒モデルラベル推定処理を実行し、
　前記学習用データセットに含まれるテキストに対する正解ラベルと、前記生徒モデルラベル推定処理の推定結果とを用いて、ハードターゲット損失を求め、
　前記教師モデルラベル推定処理の推定結果と前記生徒モデルラベル推定処理の推定結果とを用いて、ソフトターゲット損失を求め、
　前記ハードターゲット損失と前記ソフトターゲット損失から得られる損失を最適化するように生徒モデルのパラメータを更新する、
　非一時的記憶媒体。

Claims

　Qを2以上の整数の何れかとし、所定の単位で処理を行うQ個の機能を階層的に含むモデルである教師モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定する教師モデルラベル推定部と、
　前記教師モデルと同じQ個の機能を階層的に含むモデルである生徒モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定する生徒モデルラベル推定部と、
　前記学習用データセットに含まれるテキストに対する正解ラベルと、前記生徒モデルラベル推定部の推定結果とを用いて、ハードターゲット損失を求めるハードターゲット損失評価部と、
　前記教師モデルラベル推定部の推定結果と前記生徒モデルラベル推定部の推定結果とを用いて、ソフトターゲット損失を求めるソフトターゲット損失評価部と、
　前記ハードターゲット損失と前記ソフトターゲット損失から得られる損失を最適化するように生徒モデルのパラメータを更新するパラメータ更新部と、を含む、
　学習装置。
　請求項１の学習装置であって、
　qを1以上Q以下の整数の何れかとし、教師モデルのq番目の階層から得られる第qの中間特徴量と、生徒モデルのq番目の階層から得られる第qの中間特徴量とから第q損失を求める第q損失評価部を含み、
　前記パラメータ更新部は、前記ハードターゲット損失と前記ソフトターゲット損失と第q損失とから得られる損失を最適化するように生徒モデルのパラメータを更新する、
　学習装置。
　請求項１の学習装置であって、
　前記教師モデルおよび前記生徒モデルは、1番目の階層として短期文脈理解ネットワークを含み、2番目の階層として長期文脈理解ネットワークを含み、3番目の階層としてラベル予測ネットワークとを含み、
　当該学習装置は、
　教師モデルの短期文脈理解ネットワークから得られる第一の中間特徴量と、生徒モデルの短期文脈理解ネットワークから得られる第二の中間特徴量とから短期文脈損失を求める短期文脈損失評価部と、
　教師モデルの長期文脈理解ネットワークから得られる第三の中間特徴量と、生徒モデルの長期文脈理解ネットワークから得られる第四の中間特徴量とから長期文脈損失を求める長期文脈損失評価部と含み、
　前記パラメータ更新部は、前記ハードターゲット損失と前記ソフトターゲット損失と前記短期文脈損失と前記長期文脈損失とから得られる損失を最適化するように生徒モデルのパラメータを更新する、
　学習装置。
　請求項１から請求項３の何れかの学習装置により学習済みの生徒モデルを用いる推定装置であって、
　前記学習済みの生徒モデルを用いて、推定対象のテキストに対応するラベルを推定する推定部を含む、
　推定装置。
　学習装置を用いた学習方法であって、
　前記学習装置が、Qを2以上の整数の何れかとし、所定の単位で処理を行うQ個の機能を階層的に含むモデルである教師モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定する教師モデルラベル推定ステップと、
　前記学習装置が、前記教師モデルと同じQ個の機能を階層的に含むモデルである生徒モデルを用いて、学習用データセットに含まれるテキストに対するラベルを推定する生徒モデルラベル推定ステップと、
　前記学習装置が、前記学習用データセットに含まれるテキストに対する正解ラベルと、前記生徒モデルラベル推定ステップの推定結果とを用いて、ハードターゲット損失を求めるハードターゲット損失評価ステップと、
　前記学習装置が、前記教師モデルラベル推定ステップの推定結果と前記生徒モデルラベル推定ステップの推定結果とを用いて、ソフトターゲット損失を求めるソフトターゲット損失評価ステップと、
　前記学習装置が、前記ハードターゲット損失と前記ソフトターゲット損失から得られる損失を最適化するように生徒モデルのパラメータを更新するパラメータ更新ステップと、を含む、
　学習方法。
　請求項１から請求項３の何れかの学習装置、または、請求項４の推定装置としてコンピュータを機能させるためのプログラム。