WO2023119671A1

WO2023119671A1 - 推定方法、推定装置及び推定プログラム

Info

Publication number: WO2023119671A1
Application number: PCT/JP2021/048419
Authority: WO
Inventors: 伸克北条; 哲小橋川
Original assignee: 日本電信電話株式会社
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2023-06-29

Abstract

実施形態の推定装置（２０）は、複数の参与者が参与する対話に関するデータを基に、時間区間ごとの対話が、あらかじめ定められた複数の対話行為のいずれに適合するかを推定し、データを基に、複数の対話行為のうちの特定の対話行為に適合すると推定した時間区間における、対話の特徴を表す特徴量を抽出する。推定装置（２０）は、特徴量をモデルに入力し、参与者の対話における印象を表すスコア（印象スコア）を推定する。

Description

推定方法、推定装置及び推定プログラム

　本発明は、推定方法、推定装置及び推定プログラムに関する。

　従来、対話における参与者の満足度、信頼感、説得力等に関する印象を定量化し、印象スコアとして推定する技術が知られている（例えば、非特許文献１を参照）。

　販売員（営業担当者）と顧客との対話を考える。このとき、顧客の販売員に対する印象は、例えば、５：満足、４：やや満足、３：どちらでもない、２：やや不満、１：不満、のように５段階で表すことができる。このような印象を表す数値を、印象スコアとする。

　販売員と顧客との対話を撮影した映像データから印象スコアを推定することができれば、例えば販売員ごとに印象スコアの平均を算出することで、販売員評価の自動化が可能となる。さらに、高スコアの対話と低スコアの対話を人が比較・分析することで、販売ノウハウを抽出することが可能である。

Laurent　Son　Nguyen,　Denise　Frauendorfer,　Marianne　Schmid　Mast,　and　Daniel　Gatica-Perez,　"Hire　me:　Computational　inference　of　hirability　in　employment　interviews　based　on　nonverbal　behavior,"　IEEE　Transactionson　Multimedia,　vol.　16,　no.　4,　pp.　1018-1031,　2014.

　しかしながら、従来の技術には、対話における印象スコアの推定精度が十分ではない場合があるという問題がある。

　対話の印象を推定する上で、会話の場面によって、各特徴量の持つ意味及び重要性が変化することが考えられる。例えば、会話序盤の顧客の笑顔と、会話の中盤又は終盤に、販売員が提案を行っている時間の顧客の笑顔とでは、意味及び重要性が変化することが考えられる。

　一方で、非特許文献１の技術では、各時刻で抽出された特徴量について、その時系列の平均及び分散等の統計量を使用する。このため、非特許文献１の技術では、会話の場面による特徴量の持つ意味及び重要性の差異を考慮することができないため、印象スコアの推定精度が十分でない場合があり得る。

　上述した課題を解決し、目的を達成するために、推定方法は、コンピュータによって実行される推定方法であって、複数の参与者が参与する対話に関するデータを基に、時間区間ごとの対話が、あらかじめ定められた複数の対話行為のいずれに適合するかを推定し、前記データを基に、前記複数の対話行為のうちの特定の対話行為に適合すると推定した時間区間における、前記対話の特徴を表す特徴量を抽出する特徴量抽出工程と、前記特徴量をモデルに入力し、前記参与者の前記対話における印象を表すスコアを推定する推定工程と、を含むことを特徴とする。

　本発明によれば、対話における印象スコアの推定精度を向上させることができる。

図１は、学習装置の構成例を示す図である。図２は、対話特徴量セットの抽出方法を説明する図である。図３は、対話特徴量の抽出方法を説明する図である。図４は、推定装置の構成例を示す図である。図５は、第１の実施形態に係る対話特徴量の抽出方法を説明する図である。図６は、第１の実施形態に係る会話場面系列の抽出方法を説明する図である。図７は、会話場面と対話行為の関係を説明する図である。図８は、第２の実施形態に係る対話特徴量の抽出方法を説明する図である。図９は、第２の実施形態に係る会話場面事後確率系列の抽出方法を説明する図である。図１０は、推定プログラムを実行するコンピュータの一例を示す図である。

　以下に、本願に係る推定方法、推定装置及び推定プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

［学習装置及び推定装置の基本形］
　まず、図１、図２、図３及び図４を用いて、各実施形態の基本となる学習装置及び推定装置について説明する。各実施形態は、ここで説明する学習装置及び推定装置の基本形に機能を付加すること、又は一部の機能を変更することによって実現されてもよい。

　推定装置は、対話に関する対話データを基に、対話における参与者の満足度、信頼感、説得力等に関する印象を定量化し、印象スコアとして推定する。推定装置は、学習済みの印象スコア推定モデルを用いて印象スコアを推定する。

　また、印象スコア推定モデルの学習は、学習装置によって行われる。推定装置と学習装置は同じ装置によって実現されてもよいし、異なる装置によって実現されてもよい。

　また、ここでは、販売員及び顧客が参与する対話における、特に顧客の販売者に対する印象スコアを推定するものとする。ただし、推定装置が印象スコアの推定対象とする対話の参与者は、販売員と顧客に限られず、例えば友人同士、親と子、上司と部下、仕事の同僚同士等であってもよい。

　図１は、学習装置の構成例を示す図である。図１に示すように、学習装置１０は、対話・印象スコアデータベース１１及び印象スコア推定モデル情報１４を記憶する。また、学習装置１０は、対話特徴量セット抽出部１２及びモデル学習部１３を有する。

　対話・印象スコアデータベース１１は、参与者による対話データ（映像、音声等）の集合（対話データセット）と、その結果ある参与者（例えば顧客）が他の参与者（例えば販売員）に抱いた印象を数値化した印象スコアデータセットを保持したものである。

　対話・印象スコアデータベース１１に含まれる対話データ数をＮ、各対話データをｄ_ｎ、印象スコアをｓ_ｎ（ｎ＝１,…，Ｎ）とする。

　なお、販売員の対話データを販売員データと表記する場合がある。また、顧客の対話データを顧客データと表記する場合がある。

　印象を評価される参与者を被評価参与者とする。また、対話・印象スコアデータベース１１に含まれる被評価参与者の数をＭ、各被評価参与者ｍ＝１，…，Ｍについて、データベースに含まれる対話数をＮ_ｍ（ただしＮ_ｍ＞１）とする。

　例えば、ｄ_ｎは対話を録画した映像データ、及び対話を録音した音声データ等である。また、例えば、印象スコアは、満足度、信頼感等に関する５段階評価のスコア（例えば、５：満足、４：やや満足、３：どちらでもない、２：やや不満、１：不満）である。

　対話データセットは、対話・印象スコアデータベース１１に含まれる対話データの集合であり、｛ｄ_ｎ｝と表記される。印象スコアデータセットは、対話・印象スコアデータベース１１に含まれる印象スコアの集合であり、｛ｓ_ｎ｝と表記される。

　対話特徴量セット抽出部１２は、図２に示すように、対話データセット中の各対話に対し、対話特徴量抽出を行い、対話特徴量セットを得る。図２は、対話特徴量セットの抽出方法を説明する図である。なお、Ｍは参与者の数である。

（対話特徴量抽出方法）
　図３を用いて、対話特徴量の抽出方法を説明する。図３は対話特徴量の抽出方法を説明する図である。

　図３に示すように、対話特徴量セット抽出部１２は、販売員データに対して参与者特徴量抽出を実行し、販売員参与者特徴量系列を抽出する（ステップＳ１０１）。

　また、対話特徴量セット抽出部１２は、顧客データに対して参与者特徴量抽出を実行し、顧客参与者特徴量系列を抽出する（ステップＳ１０２）。

　さらに、対話特徴量セット抽出部１２は、販売員参与者特徴量系列から統計量を算出し、販売員特徴統計量を得る（ステップＳ１０３）。

　また、対話特徴量セット抽出部１２は、顧客参与者特徴量系列から統計量を算出し、顧客特徴統計量を得る（ステップＳ１０４）。

　対話特徴量セット抽出部１２は、販売員特徴統計量と顧客特徴統計量を統合（例えば、ベクトルの連結）することによって対話特徴量を得る。

　例えば、ｄ_ｎが動画像を含むデータである場合、対話特徴量セット抽出部１２は、非特許文献１に記載された方法と同様に、各参与者についての、発話時間、話速の平均、話速の分散等の音声特徴量、又はオプティカルフローの平均及び分散、Weighted　Motion　Energy　Images（ＷＭＥＩ）の平均、分散等の画像特徴量を、顧客特徴統計量及び販売員特徴統計量として抽出することができる。

　また、ｄ_ｎが音声を含むデータである場合、対話特徴量セット抽出部１２は、参考文献１に記載された方法と同様に、音声データに対し音声認識を行い、得られたテキストから、事前に指定されたキーワードについてBag-of-Words（ＢｏＷ）を算出して得られた言語特徴量を、顧客特徴統計量及び販売員特徴統計量として抽出することができる。
　参考文献１：Atsushi　Ando,　Ryo　Masumura,　Hosana　Kamiyama,　Satoshi　Kobashikawa,　Yushi　Aono,　and　Tomoki　Toda,　"Customer　satisfaction　estimation　in　contact　center　calls　based　on　a　hierarchical　multi-task　model,"　IEEE/ACM　Transactions　on　Audio,　Speech,　and　Language　Processing,　vol.　28,　pp.　715-728,　2020.

　モデル学習部１３は、対話特徴量セット抽出部１２によって抽出された対話特徴量セットを入力特徴量とし、印象スコアセットを正解ラベルとして、印象スコアを推定する印象スコア推定モデルの学習を行う。

　例えば、印象スコア推定モデルは、非特許文献１の技術と同様に、線形回帰、リッジ回帰、ランダムフォレスト等であってよい。また、印象スコア推定モデルは、多層パーセプトロンのようなニューラルネットワークであってもよい。

　また、印象スコア推定モデル情報１４は、学習済みの印象スコア推定モデルのパラメータ等の情報である。

　図４は、推定装置の構成を示す図である。図４に示すように、推定装置２０は、対話特徴量抽出部２１及び印象スコア推定部２２を有する。また、推定装置２０は、印象スコア推定モデル情報２３を記憶する。

　対話特徴量抽出部２１は、対話データから対話特徴量を抽出する。対話特徴量抽出部２１は、対話特徴量セット抽出部１２と同じ方法で対話特徴量を抽出することができる。

　印象スコア推定部２２は、対話特徴量抽出部２１によって抽出された対話特徴量を学習済みの印象スコア推定モデルに入力し、印象スコアの推定値を得る。

　ここで、印象スコア推定モデル情報２３は、印象スコア推定モデル情報１４と同じものである。このため、印象スコア推定部２２は、印象スコア推定モデル情報２３を基に、学習済みの印象スコア推定モデルを構築することができる。

［第１の実施形態］
　第１の実施形態において、学習装置１０及び推定装置２０は、特徴量抽出時に、ある参与者の発話について、その対話行為を推定する。対話行為には、「挨拶」、「提案」等がある。例えば、対話行為は、対話の性質及び目的等を分類する基準ということができる。

　学習装置１０及び推定装置２０は、特定の対話行為（例えば「提案」）の発話中又は発話後の時間区間について、各参与者から特徴量を抽出する。

　第１の実施形態によれば、対話行為を考慮することにより、印象スコア推定の精度を向上させることができる。

　ここでは、対話特徴量セット抽出部１２が対話行為の推定及び対話特徴量の抽出を行う場合の例を説明する。一方で、推定装置２０の対話特徴量抽出部２１は、対話特徴量セット抽出部１２と同じ方法で対話行為の推定及び対話特徴量の抽出を行うことができる。

　図５は、第１の実施形態に係る対話特徴量の抽出方法を説明する図である。図５に示すように、対話特徴量セット抽出部１２は、販売員データに対して参与者特徴量抽出を実行し、販売員参与者特徴量系列を抽出する（ステップＳ２０１）。

　また、対話特徴量セット抽出部１２は、顧客データに対して参与者特徴量抽出を実行し、顧客参与者特徴量系列を抽出する（ステップＳ２０２）。

　ここで、対話特徴量セット抽出部１２は、販売員データ及び顧客データに対し、会話場面推定を実行し、会話場面系列を得る（ステップＳ２０３）。会話場面推定の詳細については後述する。

　さらに、対話特徴量セット抽出部１２は、販売員参与者特徴量系列及び会話場面系列から統計量を算出し、販売員特徴統計量を得る（ステップＳ２０４）。

　また、対話特徴量セット抽出部１２は、顧客参与者特徴量系列及び会話場面系列から統計量を算出し、顧客特徴統計量を得る（ステップＳ２０５）。

　図６は、第１の実施形態に係る会話場面系列の抽出方法を説明する図である。ここで、販売員データには音声データが含まれているものとする。

　図６に示すように、対話特徴量セット抽出部１２は、まず、販売員データに含まれる音声データに対して発話分割を行い、販売員発話音声系列を得る（ステップＳ３０１）。

　次に、対話特徴量セット抽出部１２は、販売員データから得られた発話音声系列中の各音声に対して音声認識を行い、販売員発話テキスト系列を得る（ステップＳ３０２）。

　続いて、対話特徴量セット抽出部１２は、販売員発話テキスト系列に対し対話行為推定を行い、販売員対話行為系列を得る（ステップＳ３０３）。

　ここで、対話特徴量セット抽出部１２は、発話分割の手法として、例えば参考文献２に記載のパワーベースのvoice　activity　detection（ＶＡＤ）を用いることができる。
　参考文献２：Norihide　Kitaoka,　Kazumasa　Yamamoto,　Tomohiro　Kusamizu,　Seiichi　Nakagawa,　Takeshi　Yamada,　Satoru　Tsuge,　Chiyomi　Miyajima,　Takanobu　Nishiura,　Masato　Nakayama,　Yuki　Denda,　et　al.,　"Development　of　vad　evaluation　framework　censrec-1-c　and　investigation　of　relationship　between　vad　and　speech　recognition　performance,"　in　2007　IEEE　Workshop　on　Automatic　Speech　Recognition　&　Understanding　(ASRU).　IEEE,　2007,　pp.　607-612.

　また、対話特徴量セット抽出部１２は、発話分割、音声認識、対話行為推定の際に、販売員データ又は顧客データの系列情報を使用してもよい。

　そして、対話特徴量セット抽出部１２は、販売員対話行為系列に対し会話場面分割を行い、会話場面系列を得る（ステップＳ３０４）。

　会話場面分割では、販売員対話行為系列から、会話場面系列を得る。まず、対話行為の集合を、｛ａ_１，…，ａ_Ｋ｝（Ｋは対話行為の種類数）とする。また、販売員対話行為系列について、発話数をＩ、発話番号をｉ＝１，…，Ｉ、発話ｉの開始時間をｔ_ｉ、対話行為をｘ_ｉ∈２｛ａ_１，…，ａ_Ｋ｝とする。

　ある時刻ｔの会話場面ｚ_ｔは、（１）式のように、対応する販売員発話の対話行為によって定義される。

　このように、対話行為推定において、対話特徴量セット抽出部１２は、各テキストについて、あらかじめ定められた対話行為（挨拶、提案等）のうち、最も適合度合いが大きい対話行為を推定する。

　会話場面と対話行為は、図７に示すような関係にある。図７は、会話場面と対話行為の関係を説明する図である。

　例えば、販売員による対話行為である挨拶が行われた後、次に販売員による挨拶以外の対話行為（図７の例では提案）が行われるまでの間の会話場面は、挨拶と定義される。

　そして、対話特徴量セット抽出部１２は、会話場面系列｛ｚ_ｔ｝と、販売員特徴量系列｛ｆ^ｓ _ｔ｝から統計量算出を行い、販売員特徴統計量を得る。

　同様に、対話特徴量セット抽出部１２は、会話場面系列｛ｚ_ｔ｝と、顧客特徴量系列｛ｆ^ｃ _ｔ｝から統計量算出を行い、顧客特徴統計量を得る。

　対話特徴量セット抽出部１２は、統計量算出（図５のステップＳ２０４、Ｓ２０５）では、各会話場面について、特徴量の統計量（平均、分散等）を算出する。

　例えば、対話行為ｋに対応する会話場面について、販売員特徴量系列の平均は（２）式及び（３）式により算出される。

　このように、学習装置１０及び推定装置２０は、複数の参与者が参与する対話に関するデータを基に、時間区間ごとの対話が、あらかじめ定められた複数の対話行為のいずれに適合するかを推定し、データを基に、複数の対話行為のうちの特定の対話行為に適合すると推定した時間区間における、対話の特徴を表す特徴量を抽出する。このとき、学習装置１０及び推定装置２０は、特徴量をモデルに入力し、参与者の対話における印象を表すスコア（印象スコア）を推定する。

　なお、学習装置１０は、推定した印象スコアを用いてモデルの学習を行ってもよいし、印象スコアの推定を行うことなく、抽出した各種特徴量を用いてモデルの学習を行ってもよい。

［第２の実施形態］
　対話中には、対話行為の推定が困難である発話が含まれることがある。対話行為推定の確信度が低い場合、推定結果に含まれる誤りのために、印象スコア推定の精度が劣化する懸念がある。

　第２の実施形態では、統計量算出において、対話行為推定の確信度が高い時刻付近では、抽出される特徴量により大きな重み付けを行い、逆に、確信度が低い時刻付近では、抽出される特徴量により小さな重み付けを行う。

　この結果、第２の実施形態によれば、対話行為推定の確信度が低い場合であっても、印象スコアの推定精度の低下を抑止できる。

　第２の実施形態では、会話場面分割の方法が第１の実施形態と異なる。ここでは、第２の実施形態の会話場面分割について説明する。

　また、ここでは対話特徴量セット抽出部１２による会話場面分割の方法を説明するが、対話特徴量抽出部２１も同様の方法で会話場面分割を行うことができる。

　図８は、第２の実施形態に係る対話特徴量の抽出方法を説明する図である。図８に示すように、対話特徴量セット抽出部１２は、販売員データに対して参与者特徴量抽出を実行し、販売員参与者特徴量系列を抽出する（ステップＳ４０１）。

　また、対話特徴量セット抽出部１２は、顧客データに対して参与者特徴量抽出を実行し、顧客参与者特徴量系列を抽出する（ステップＳ４０２）。

　ここで、対話特徴量セット抽出部１２は、販売員データ及び顧客データに対し、会話場面推定を実行し、会話場面事後確率系列を得る（ステップＳ４０３）。会話場面推定の詳細については後述する。

　さらに、対話特徴量セット抽出部１２は、販売員参与者特徴量系列及び会話場面事後確率系列から統計量を算出し、販売員特徴統計量を得る（ステップＳ４０４）。

　また、対話特徴量セット抽出部１２は、顧客参与者特徴量系列及び会話場面事後確率系列から統計量を算出し、顧客特徴統計量を得る（ステップＳ４０５）。

　図９は、第２の実施形態に係る会話場面事後確率系列の抽出方法を説明する図である。図９に示すように、対話特徴量セット抽出部１２は、まず、販売員データに含まれる音声データに対して発話分割を行い、販売員発話音声系列を得る（ステップＳ５０１）。

　次に、対話特徴量セット抽出部１２は、販売員データから得られた発話音声系列中の各音声に対して音声認識を行い、販売員発話テキスト系列を得る（ステップＳ５０２）。

　第２の実施形態において、対話特徴量セット抽出部１２は、第１の実施形態と同じ方法で発話分割及び音声認識を行うことができる。

　続いて、対話特徴量セット抽出部１２は、販売員発話テキスト系列に対し対話行為事後確率推定を行い、販売員対話行為事後確率系列を得る（ステップＳ５０３）。

　そして、対話特徴量セット抽出部１２は、販売員対話行為系列に対し会話場面分割を行い、会話場面系列を得る（ステップＳ５０４）。

　対話特徴量セット抽出部１２は、各発話ｉについて、その対話行為がａ_ｋである事後確率ｐ_ｉ，ｋを推定し、販売員対話行為事後確率系列として出力する。

　そして、対話特徴量セット抽出部１２は、販売員対話行為事後確率系列に基づき、会話場面分割を行うことで、会話場面事後確率系列を出力する。

　対話特徴量セット抽出部１２は、ある時刻ｔの会話場面がｋである事後確率ｚ_ｔ，ｋを、（４）式のように、対応する販売員発話の対話行為の事後確率によって定義する。

　対話特徴量セット抽出部１２は、会話場面事後確率系列｛ｚ_ｔ，ｋ｝と、販売員特徴量系列｛ｆ_ｔ ^ｓ｝から統計量算出を行い、販売員特徴統計量を得る（図８のステップＳ４０４）。

　同様に、対話特徴量セット抽出部１２は、会話場面事後確率系列｛ｚ_ｔ，ｋ｝と、顧客特徴量系列｛ｆ_ｔ ^ｃ｝から統計量算出を行い、顧客特徴統計量を得る（図８のステップＳ４０５）。

　対話特徴量セット抽出部１２は、各会話場面について、特徴量の統計量（平均、分散等）を算出することで各参与者の特徴統計量を得ることができる。

　例えば、対話特徴量セット抽出部１２は、対話行為ｋに対応する会話場面について、販売員特徴量系列の平均を（５）式のように算出する。

　このように、学習装置１０及び推定装置２０は、特定の対話行為に適合すると推定した時間区間における、対話の特徴を表す特徴量であって、特定の対話行為に適合すると推定した推定結果の信頼度に応じた重みを付けた特徴量を抽出する。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central　Processing　Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。なお、プログラムは、ＣＰＵだけでなく、ＧＰＵ等の他のプロセッサによって実行されてもよい。

　また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　一実施形態として、学習装置１０及び推定装置２０は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理及び推定処理を実行するプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置１０及び推定装置２０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。

　また、学習装置１０及び推定装置２０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理及び推定処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、サーバ装置は、対話データを入力とし、学習済みモデルの情報又は印象スコアの推定結果を出力とするサービスを提供するサーバ装置として実装される。この場合、サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の収集処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

　図１０は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置１０及び推定装置２０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、学習装置１０及び推定装置２０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１０　学習装置
　１１　対話・印象スコアデータベース
　１２　対話特徴量セット抽出部
　１３　モデル学習部
　１４、２３　印象スコア推定モデル情報
　２０　推定装置
　２１　対話特徴量抽出部
　２２　印象スコア推定部

Claims

　コンピュータによって実行される推定方法であって、
　複数の参与者が参与する対話に関するデータを基に、時間区間ごとの対話が、あらかじめ定められた複数の対話行為のいずれに適合するかを推定し、前記データを基に、前記複数の対話行為のうちの特定の対話行為に適合すると推定した時間区間における、前記対話の特徴を表す特徴量を抽出する特徴量抽出工程と、
　前記特徴量をモデルに入力し、前記参与者の前記対話における印象を表すスコアを推定する推定工程と、
　を含むことを特徴とする推定方法。
　前記特徴量抽出工程は、前記特定の対話行為に適合すると推定した時間区間における、前記対話の特徴を表す特徴量であって、前記特定の対話行為に適合すると推定した推定結果の信頼度に応じた重みを付けた特徴量を抽出することを特徴とする請求項１に記載の推定方法。
　複数の参与者が参与する対話に関するデータを基に、時間区間ごとの対話が、あらかじめ定められた複数の対話行為のいずれに適合するかを推定し、前記データを基に、前記複数の対話行為のうちの特定の対話行為に適合すると推定した時間区間における、前記対話の特徴を表す特徴量を抽出する特徴量抽出部と、
　前記特徴量をモデルに入力し、前記参与者の前記対話における印象を表すスコアを推定する推定部と、
　を有することを特徴とする推定装置。
　コンピュータを、請求項３に記載の推定装置として機能させるための推定プログラム。