JPWO2019017462A1

JPWO2019017462A1 - 満足度推定モデル学習装置、満足度推定装置、満足度推定モデル学習方法、満足度推定方法、およびプログラム

Info

Publication number: JPWO2019017462A1
Application number: JP2019530606A
Authority: JP
Inventors: 厚志安藤; 歩相名神山; 哲小橋川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-07-21
Filing date: 2018-07-20
Publication date: 2020-07-30
Anticipated expiration: 2038-07-20
Also published as: US11557311B2; US20200152178A1; WO2019017462A1; JP6852161B2

Abstract

対話満足度と発話満足度の推定精度を向上する。学習データ記憶部（１０）は、複数の発話からなる対話を収録した対話音声と、その対話に対する対話満足度の正解値と、その対話に含まれる各発話に対する発話満足度の正解値とからなる学習データを記憶する。モデル学習部（１３）は、対話音声から抽出した発話ごとの特徴量と発話満足度の正解値と対話満足度の正解値とを用いて、発話ごとの特徴量を入力として発話ごとの発話満足度を推定する発話満足度推定モデル部分と、少なくとも発話ごとの発話満足度を入力として対話満足度を推定する対話満足度推定モデル部分とを連結した満足度推定モデルを学習する。

Description

この発明は、複数の発話からなる対話全体の満足度および対話中の発話ごとの満足度を推定する技術に関する。

例えば、コールセンタの運営において、通話中の対話から顧客の満足度を推定する技術が求められている。顧客の満足度は、顧客が対話中に満足や不満を表出させたかどうかを示す段階的カテゴリとし、例えば、満足／普通／不満などの３段階で表すことができる。本明細書では、ある通話において、対話全体での顧客の満足度を「対話満足度」と呼び、対話のうち顧客の発話部分における顧客の満足度を「発話満足度」と呼ぶ。コールセンタの各通話に対して対話満足度を推定できた場合、例えば、対話満足度が“満足”や“不満”の割合をオペレータごとに集計することでオペレータ評価の自動化が可能となる。また、通話中の各発話に対して発話満足度を推定できた場合、例えば、発話満足度が“満足”である区間のみを音声認識してテキスト解析することで顧客の要望を調査するなどの応用が可能である。なお、ここでは対話をコールセンタにおける通話中の対話として説明したが、複数話者により対面／非対面で行われる対話全般についても同様のことが言える。

上記の類似技術として、顧客の話速などの話し方の特徴や、競合他社の製品名の有無などの言語的特徴を用いて通話ごとの対話満足度を推定する技術が非特許文献１で提案されている。また、顧客の声の高さや相槌の頻度などの特徴量に加え、発話満足度の時系列的な関連性を考慮して、発話満足度を推定することも考えられる。

Youngja Park, Stephen C. Gates, "Towards Real-Time Measurement of Customer Satisfaction Using Automatically Generated Call Transcripts," in Proceedings of the 18th ACM conference on Information and knowledge management, pp. 1387-1396, 2009.

従来技術では、通話ごとの対話満足度の推定と通話中の発話ごとの発話満足度の推定を別々に行っている。一方、ある通話中の対話満足度と発話満足度とは強い関連性がある。例えば、発話満足度に“不満”が多く表れる通話は、対話満足度も“不満”となることが予想できる。逆に、対話満足度が“満足”の場合、顧客はお礼を述べてから通話を切断することが多いため、通話の終端付近などで発話満足度が“満足”となる可能性が高い。このように、ある通話中の対話満足度と発話満足度とは、一方の情報から他方の情報を推定することが可能であるという関係性がある。しかしながら、従来技術では対話満足度の推定と発話満足度の推定を別々に行っているため、これらの関係性を推定に利用できていない。その結果、対話満足度と発話満足度は共に推定精度が低下している可能性がある。また、このことは通話における顧客の満足度を推定する場合のみならず、会話における発話者の満足度を推定する場合に一般化できる。

この発明の目的は、上記のような点に鑑みて、対話満足度と発話満足度の関係性を利用し、それぞれの推定精度を向上することである。

上記の課題を解決するために、この発明の第一の態様の満足度推定モデル学習装置は、複数の発話からなる対話を収録した対話音声と、その対話に対する対話満足度の正解値と、その対話に含まれる各発話に対する発話満足度の正解値とからなる学習データを記憶する学習データ記憶部と、対話音声から抽出した発話ごとの特徴量と発話満足度の正解値と対話満足度の正解値とを用いて、発話ごとの特徴量を入力として発話ごとの発話満足度を推定する発話満足度推定モデル部分と、少なくとも発話ごとの発話満足度を入力として対話満足度を推定する対話満足度推定モデル部分とを連結した満足度推定モデルを学習するモデル学習部と、を含む。

上記の課題を解決するために、この発明の第二の態様の満足度推定装置は、第一の態様の満足度推定モデル学習装置により学習した満足度推定モデルを記憶するモデル記憶部と、複数の発話からなる対話を収録した対話音声から抽出した発話ごとの特徴量を満足度推定モデルに入力して各発話に対する発話満足度および対話に対する対話満足度を推定する満足度推定部と、を含む。

この発明によれば、対話満足度と発話満足度の推定精度が向上する。

図１は、満足度推定モデルを説明するための図である。図２は、満足度推定モデルによる満足度の推定を説明するための図である。図３は、満足度推定モデルを学習する際の推定誤りの伝播について説明するための図である。図４は、満足度推定モデル学習装置の機能構成を例示する図である。図５は、満足度推定モデル学習方法の処理手続きを例示する図である。図６は、満足度推定装置の機能構成を例示する図である。図７は、満足度推定方法の処理手続きを例示する図である。

本発明のポイントは、対話満足度を推定するモデルと発話満足度を推定するモデルとを階層的に連結し、これらを同時に推定する満足度推定モデルを単一のモデルとして同時かつ一体的に学習することである。このような単一のモデルの例を図１に示す。図１のモデルは、推定対象とする対話に含まれる発話ごとの満足度を推定する発話満足度推定モデル部分と、推定対象とする対話全体の満足度を推定する対話満足度推定モデル部分とが階層的に連結して構成されている。

発話満足度推定モデル部分は、１個の発話に対して１個の発話満足度推定器を構成している。発話満足度推定器は、発話ごとの特徴量を入力とし、その発話の過去の発話または過去と未来の発話に関する情報を用いて、その発話の発話満足度を推定し、その発話の発話満足度の推定値を出力する。また、同時に、対話満足度の推定に寄与する情報（例えば、各発話の長さなど）を発話満足度に付随して出力する。発話満足度推定器は、具体的には、例えば、リカレントニューラルネットワーク（RNN: Recurrent Neural Network）である。

発話満足度推定器が出力する対話満足度の推定に寄与する情報とは、入力された発話ごとの特徴量からリカレントニューラルネットワークが発話満足度を推定する過程で計算されたすべての情報である。すなわち、発話満足度推定器は、発話ごとの特徴量を入力とし、その発話の発話満足度の推定値とそれを推定するために用いたすべての情報を出力し、対話満足度推定器には、発話満足度推定器が出力するすべての情報が入力される。

対話満足度推定モデル部分は、１個の発話満足度推定器に対して１個の対話満足度推定器を構成している。対話満足度推定器は、発話満足度推定器が出力する発話満足度の推定値と、その発話満足度に付随し対話満足度の推定に寄与する情報とを入力とし、その発話の過去の発話に関する情報を用いて、対話に含まれる最初の発話から当該発話までの対話満足度の推定値を出力する。対話満足度推定器の具体例は、発話満足度推定器と同様に、リカレントニューラルネットワークである。

対話満足度と発話満足度との関係は階層関係があると考えられる。すなわち、人間同士の対話では、ある発話が提示された際に、聴き手は、その発話について発話満足度を推定した後、その発話満足度の推定値を踏まえて対話満足度を推定することが予想される。このことから、入力された発話に対して、まず発話満足度を推定し、次に発話満足度の推定値と発話満足度に付随する情報から対話満足度を推定するような階層的なモデルが人間の知覚と一致しており、推定精度に優れると考えられる。図２は、図１に示したモデルが発話満足度および対話満足度を推定する際の動作を示す図である。まず、（１）対話に含まれる各発話の特徴量が発話ごとに発話満足度推定モデル部分に入力され、発話ごとの発話満足度が推定される。次に、（２）発話満足度推定モデル部分で推定された発話満足度が対話満足度推定モデル部分に入力される。これを対話が終了するまで繰り返す。そして、（３）対話満足度推定モデル部分で発話満足度の系列に基づいて一連の発話からなる対話の対話満足度が推定される。

対話満足度と発話満足度を同時に推定するモデルを単一のモデルとして同時かつ一体的に学習することも推定精度の向上に寄与する。一体的に学習することにより、対話満足度と発話満足度との関係性のモデル化が可能となるだけでなく、対話満足度の推定誤りを発話満足度推定モデル部分に伝播させることが可能となる。図３は、図１に示したモデルにおいて、対話満足度の推定誤りと発話満足度の推定誤りとが伝播する流れを示したものである。このことは、どの特徴量が対話満足度に影響を与えるかを学習することを表している。これにより、発話満足度という部分的な観点と対話満足度という大局的な観点の両方を考慮して満足度を推定することが可能となり、対話満足度と発話満足度の推定精度が共に向上することが期待できる。

このような複数の推定問題を同時解決するようにモデルを学習する枠組みはマルチタスク学習と呼ばれており、個々の推定問題を解決する場合に比べて精度が向上した例が多数報告されている（例えば、下記参考文献１）。本発明はマルチタスク学習の一種とみなすことができるが、一般的なマルチタスク学習のように複数のタスクを並列に学習するのではなく、複数のタスクを階層的に学習する点が特徴である。
〔参考文献１〕R. Caruana, “Multitask Learning,” Machine Learning, vol. 28, no. 1, pp.41-75, 1997.

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

［満足度推定モデル学習装置］
実施形態の満足度推定モデル学習装置１は、図４に示すように、学習データ記憶部１０、音声区間検出部１１、特徴量抽出部１２、モデル学習部１３、および満足度推定モデル記憶部２０を含む。満足度推定モデル学習装置１は、学習データ記憶部１０に記憶された学習データを用いて満足度推定モデルを学習し、学習済みの満足度推定モデルを満足度推定モデル記憶部２０へ記憶する。満足度推定モデル学習装置１が図５に示す各ステップの処理を行うことにより実施形態の満足度推定モデル学習方法が実現される。

満足度推定モデル学習装置１は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。満足度推定モデル学習装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。満足度推定モデル学習装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。満足度推定モデル学習装置１の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。満足度推定モデル学習装置１が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。満足度推定モデル学習装置１が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。

学習データ記憶部１０には、満足度推定モデルの学習に用いる学習データが記憶されている。学習データは、少なくとも１個の対象話者の発話と少なくとも１個の相手話者の発話とを含む対話を収録した対話音声と、その対話に対する対話満足度の正解値を示すラベル（以下、「対話満足度ラベル」と呼ぶ）と、その対話に含まれる各発話に対する発話満足度の正解値を示すラベル（以下、「発話満足度ラベル」と呼ぶ）とからなる。対象話者とは、満足度を推定する対象となる話者を表し、例えば、コールセンタの通話では顧客を指す。相手話者とは、対話に参加している話者のうち対象話者以外の話者を表し、例えば、コールセンタの通話ではオペレータを指す。対話満足度ラベルと発話満足度ラベルは人手で付与すればよい。通話満足度および発話満足度は、例えば、満足／普通／不満の３段階のいずれかを表すものとする。

以下、図５を参照して、実施形態の満足度推定モデル学習装置１が実行する満足度推定モデル学習方法について説明する。

ステップＳ１１において、音声区間検出部１１は、学習データ記憶部１０に記憶されている対話音声から音声区間を検出し、１個以上の対象話者の発話を取得する。音声区間を検出する方法は、例えば、パワーのしきい値処理に基づく手法を用いることができる。また、音声／非音声モデルの尤度比に基づく手法などの他の音声区間検出手法を用いてもよい。音声区間検出部１１は、取得した対象話者の発話を特徴量抽出部１２へ出力する。

ステップＳ１２において、特徴量抽出部１２は、音声区間検出部１１から対象話者の発話を受け取り、その発話ごとに特徴量を抽出する。特徴量抽出部１２は、抽出した発話ごとの特徴量をモデル学習部１３へ出力する。抽出する特徴量は、以下に挙げる韻律特徴、対話特徴、および言語特徴のうち少なくとも一つ以上を用いる。

韻律特徴は、発話中の基本周波数とパワーの平均・標準偏差・最大値・最小値、発話中の話速、発話中の最終音素の継続長のうち少なくとも一つ以上を用いる。ここで、基本周波数およびパワーは発話をフレーム分割し、フレームごとに求めるものとする。話速および最終音素の継続長を用いる場合、音声認識を用いて発話中の音素系列を推定するものとする。

対話特徴は、対象話者の直前の発話からの時間、相手話者の発話から対象話者の発話までの時間、対象話者の発話から次の相手話者の発話までの時間、対象話者の発話の長さ、前後の相手話者の発話の長さ、前後の相手話者の発話に含まれる対象話者の相槌数、対象話者の発話に含まれる相手話者の相槌数のうち少なくとも一つ以上を用いる。

言語特徴は、発話中の単語数、発話中のフィラー数、発話中の感謝の言葉の出現数のうち少なくとも一つ以上を用いる。言語特徴を用いる場合、音声認識を用いて発話中の出現単語を推定し、その結果を用いる。また感謝の言葉は事前登録するものとし、例えば「ありがとう」または「どうも」の出現数を求めるものとする。

ステップＳ１３において、モデル学習部１３は、特徴量抽出部１２から発話ごとの特徴量を受け取り、学習データ記憶部１０に記憶されている対話音声に対応する対話満足度ラベルと各発話に対応する発話満足度ラベルとを読み込み、発話ごとの特徴量を入力として発話満足度と対話満足度を同時に推定して出力する満足度推定モデルを学習する。モデル学習部１３は、学習済みの満足度推定モデルを満足度推定モデル記憶部２０へ記憶する。

満足度推定モデルの構造は図１を用いて上述したとおりであり、発話満足度推定器および対話満足度推定器として、リカレントニューラルネットワーク（RNN）を用いる。ここでは、リカレントニューラルネットワークとして、例えば、長短期記憶リカレントニューラルネットワーク（LSTM-RNN: Long Short-Term Memory Recurrent Neural Network）を用いるものとする。リカレントニューラルネットワークは時系列情報に基づいて推定を行うモデルであるため、入力情報の時間的な変化に基づいて発話満足度や対話満足度を推定することができ、高い推定精度が期待できる。

対話満足度推定モデル部分の入力は、図１に示すとおり、発話ごとの発話満足度の推定値と、発話満足度推定モデル部分の出力値（LSTM-RNNの出力）の両方を用いる。発話満足度推定モデル部分の出力値には、発話満足度に含まれないが、発話満足度に付随し対話満足度の推定に寄与する情報が含まれているため、対話満足度推定モデル部分の入力に利用する。

満足度推定モデルの学習は、例えば、既存のLSTM-RNNの学習手法である通時的誤差逆伝播法（BPTT: Back Propagation Through Time）を用いる。ただし、LSTM-RNN以外のRNNを用いてもよく、例えばゲート付き再帰ユニット（GRU: Gated Recurrent Unit）などを用いてもよい。なお、LSTM-RNNは入力ゲートと出力ゲート、もしくは入力ゲートと出力ゲートと忘却ゲートを用いて構成され、GRUはリセットゲートと更新ゲートを用いて構成されることを特徴としている。LSTM-RNNは、双方向のLSTM-RNNを用いても、一方向のLSTM-RNNを用いてもよい。双方向のLSTM-RNNを用いる場合、過去の発話の情報に加えて未来の発話の情報を利用可能となるため、発話満足度および対話満足度の推定精度が向上する一方で、対話に含まれるすべての発話を一度に入力する必要がある。一方向のLSTM-RNNを用いる場合、過去の発話の情報のみを利用可能であるが、対話途中であっても発話満足度を推定することができるというメリットがある。前者は通話分析など、後者はリアルタイムでの顧客の満足度のモニタリングなどに応用可能である。

満足度推定モデルの学習時には、図３に示したとおり、対話満足度の推定誤りと発話満足度の推定誤りが伝搬される。このとき、対話満足度の推定誤りと発話満足度の推定誤りのどちらを重視させるかを調整可能とすることで、より頑健なモデル学習が可能となる。ここでは、満足度推定モデル全体の損失関数を対話満足度推定モデル部分の損失関数と発話満足度推定モデル部分の損失関数の重み付けにより表現することで上記を実現する。具体的には、満足度推定モデルの損失関数Lを次式とする。

ただし、λをモデルの損失関数に対する所定の重み、L_tを発話満足度推定モデル部分の損失関数、L_cを対話満足度推定モデル部分の損失関数とする。λは任意に調整することが可能である。

［満足度推定装置］
満足度推定装置２は、図６に示すように、満足度推定モデル記憶部２０、音声区間検出部２１、特徴量抽出部２２、および満足度推定部２３を含む。満足度推定装置２は、満足度を推定する対象となる対話の音声を収録した対話音声を入力とし、満足度推定モデル記憶部２０に記憶された満足度推定モデルを用いて、その対話に含まれる各発話の発話満足度とその対話の対話満足度を推定し、発話満足度の推定値による系列と対話満足度の推定値を出力する。満足度推定装置２が図７に示す各ステップの処理を行うことにより実施形態の満足度推定方法が実現される。

満足度推定装置２は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。満足度推定装置２は、例えば、中央演算処理装置の制御のもとで各処理を実行する。満足度推定装置２に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。満足度推定装置２の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。満足度推定装置２が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

満足度推定モデル記憶部２０には、満足度推定モデル学習装置１が生成した学習済みの満足度推定モデルが記憶されている。

以下、図７を参照して、実施形態の満足度推定装置２が実行する満足度推定方法について説明する。

ステップＳ２１において、音声区間検出部２１は、満足度推定装置２に入力された対話音声から音声区間を検出し、１個以上の対象話者の発話を取得する。この対話音声は、学習データの対話音声と同様に、少なくとも１個の対象話者の発話と少なくとも１個の相手話者の発話とを含む。音声区間を検出する方法は、満足度推定モデル学習装置１の音声区間検出部１１と同様の方法を用いればよい。音声区間検出部２１は、取得した対象話者の発話を特徴量抽出部２２へ出力する。

ステップＳ２２において、特徴量抽出部２２は、音声区間検出部２１から対象話者の発話を受け取り、その発話ごとに特徴量を抽出する。抽出する特徴量は、満足度推定モデル学習装置１の特徴量抽出部１２と同様のものを用いればよい。特徴量抽出部２２は、抽出した発話ごとの特徴量を満足度推定部２３へ出力する。

ステップＳ２３において、満足度推定部２３は、特徴量抽出部２２から発話ごとの特徴量を受け取り、その特徴量を満足度推定モデル記憶部２０に記憶されている満足度推定モデルに入力して対話音声の対話満足度と対話音声に含まれる各発話の発話満足度を同時に推定する。満足度推定モデルは、対象話者の発話ごとの特徴量を入力とし、前向き伝播を行うことで、発話ごとの発話満足度の推定値による系列と対話満足度の推定値を同時に得ることができる。満足度推定部２３は、発話ごとの発話満足度の推定値による系列と対話満足度の推定値を満足度推定装置２から出力する。

［変形例］
上述の実施形態では、満足度推定モデル学習装置１と満足度推定装置２を別個の装置として構成する例を説明したが、満足度推定モデルを学習する機能と学習済みの満足度推定モデルを用いて満足度を推定する機能とを兼ね備えた１台の満足度推定装置を構成することも可能である。すなわち、変形例の満足度推定装置は、学習データ記憶部１０、音声区間検出部１１、特徴量抽出部１２、モデル学習部１３、満足度推定モデル記憶部２０、および満足度推定部２３を含む。

上述のように、本発明の満足度推定モデル学習装置および満足度推定装置は、対話満足度を推定するモデルと発話満足度を推定するモデルとを階層的に連結し、これらを同時に推定する満足度推定モデルを単一のモデルとして同時かつ一体的に学習するように構成されている。これにより、対話満足度と発話満足度の関係性を利用することができるため、対話満足度と発話満足度の推定精度を向上することができる。

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

複数の発話からなる対話を収録した対話音声と、上記対話に対する対話満足度の正解値と、上記対話に含まれる各発話に対する発話満足度の正解値とからなる学習データを記憶する学習データ記憶部と、
上記対話音声から抽出した発話ごとの特徴量と上記発話満足度の正解値と上記対話満足度の正解値とを用いて、発話ごとの特徴量を入力として発話ごとの発話満足度を推定する発話満足度推定モデル部分と、少なくとも発話ごとの発話満足度を入力として対話満足度を推定する対話満足度推定モデル部分とを連結した満足度推定モデルを学習するモデル学習部と、
を含む満足度推定モデル学習装置。
請求項１に記載の満足度推定モデル学習装置であって、
上記発話満足度推定モデル部分は、１個の発話に対して１個の発話満足度推定器を構成するものであり、
上記発話満足度推定器は、上記発話ごとの特徴量を入力とし、当該発話の前の発話または前後の発話に関する情報を用いて、当該発話の発話満足度を推定して出力するものであり、
上記対話満足度推定モデル部分は、１個の発話満足度推定器に対して１個の対話満足度推定器を構成するものであり、
上記対話満足度推定器は、上記発話満足度推定器が出力する発話満足度と、当該発話満足度に付随し対話満足度の推定に寄与する情報とを入力とし、当該発話の前の発話に関する情報を用いて、上記対話に含まれる最初の発話から当該発話までの対話満足度を推定して出力するものである、
満足度推定モデル学習装置。
請求項２に記載の満足度推定モデル学習装置であって、
上記発話満足度推定器および上記対話満足度推定器は、入力ゲートと出力ゲート、入力ゲートと出力ゲートと忘却ゲート、リセットゲートと更新ゲート、のいずれかを備えることを特徴とする、
満足度推定モデル学習装置。
請求項１から３のいずれかに記載の満足度推定モデル学習装置であって、
上記満足度推定モデルの損失関数は、上記発話満足度推定モデル部分の損失関数と上記対話満足度推定モデル部分の損失関数との重み付き和であり、上記発話満足度推定モデル部分の損失関数と上記対話満足度推定モデル部分の損失関数との重みを調整可能としたものである、
満足度推定モデル学習装置。
請求項１から４のいずれかに記載の満足度推定モデル学習装置により学習した満足度推定モデルを記憶するモデル記憶部と、
複数の発話からなる対話を収録した対話音声から抽出した発話ごとの特徴量を上記満足度推定モデルに入力して各発話に対する発話満足度および上記対話に対する対話満足度を推定する満足度推定部と、
を含む満足度推定装置。
学習データ記憶部に、複数の発話からなる対話を収録した対話音声と、上記対話に対する対話満足度の正解値と、上記対話に含まれる各発話に対する発話満足度の正解値とからなる学習データが記憶されており、
モデル学習部が、上記対話音声から抽出した発話ごとの特徴量と上記発話満足度の正解値と上記対話満足度の正解値とを用いて、発話ごとの特徴量を入力として発話ごとの発話満足度を推定する発話満足度推定モデル部分と、少なくとも発話ごとの発話満足度を入力として対話満足度を推定する対話満足度推定モデル部分とを連結した満足度推定モデルを学習する、
満足度推定モデル学習方法。
モデル記憶部に、請求項６に記載の満足度推定モデル学習方法により学習した満足度推定モデルが記憶されており、
満足度推定部が、複数の発話からなる対話を収録した対話音声から抽出した発話ごとの特徴量を上記満足度推定モデルに入力して各発話に対する発話満足度および上記対話に対する対話満足度を推定する、
満足度推定方法。
請求項１から４のいずれかに記載の満足度推定モデル学習装置または請求項５に記載の満足度推定装置としてコンピュータを機能させるためのプログラム。