WO2023119672A1

WO2023119672A1 - 推定方法、推定装置及び推定プログラム

Info

Publication number: WO2023119672A1
Application number: PCT/JP2021/048420
Authority: WO
Inventors: 伸克北条; 哲小橋川
Original assignee: 日本電信電話株式会社
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2023-06-29

Abstract

実施形態の推定装置（４０）は、対話の参与者に対応する複数のデータのそれぞれから対話の特徴を表す対話特徴量を抽出し、複数のデータから、参与者の特徴を表す参与者特徴量を抽出する。また、推定装置（４０）は、対話特徴量及び参与者特徴量をモデルに入力し、参与者の対話における印象を表すスコア（印象スコア）を推定する。

Description

推定方法、推定装置及び推定プログラム

　本発明は、推定方法、推定装置及び推定プログラムに関する。

　従来、対話における参与者の満足度、信頼感、説得力等に関する印象を定量化し、印象スコアとして推定する技術が知られている（例えば、非特許文献１を参照）。

　販売員（営業担当者）と顧客との対話を考える。このとき、顧客の販売員に対する印象は、例えば、５：満足、４：やや満足、３：どちらでもない、２：やや不満、１：不満、のように５段階で表すことができる。このような印象を表す数値を、印象スコアとする。

　販売員と顧客との対話を撮影した映像データから印象スコアを推定することができれば、例えば販売員ごとに印象スコアの平均を算出することで、販売員評価の自動化が可能となる。さらに、高スコアの対話と低スコアの対話を人が比較・分析することで、販売ノウハウを抽出することが可能である。

Laurent　Son　Nguyen,　Denise　Frauendorfer,　Marianne　Schmid　Mast,　and　Daniel　Gatica-Perez,　"Hire　me:　Computational　inference　of　hirability　in　employment　interviews　based　on　nonverbal　behavior,"　IEEE　Transactionson　Multimedia,　vol.　16,　no.　4,　pp.　1018-1031,　2014.

　しかしながら、従来の技術には、対話における印象スコアの推定精度が十分ではない場合があるという問題がある。

　販売員のスキルとして、「顧客の状況をヒアリングし、その内容に合わせて柔軟な提案を行うこと」、「顧客の態度に合わせて、話し方を柔軟に変更すること」等が挙げられる。例えば、販売員は、そのようなスキルを使って顧客に好印象を与えるために、対話の内容又は話し方を意図的に変化させることが考えられる。

　このため、ある販売員が行う複数の対話を比較し、対話ごとに異なる内容の発話又は話し方が観測されれば、顧客に好印象を与えた可能性が高い。

　一方で、非特許文献１に記載の技術は、対話単位で話し方の特徴及び言語的特徴を抽出し、印象スコアの推定に使用するものであり、複数の対話間で特徴の変化を比較することができないため、印象スコアの推定精度が十分でない場合があり得る。

　上述した課題を解決し、目的を達成するために、推定方法は、コンピュータによって実行される推定方法であって、対話の参与者に対応する複数のデータのそれぞれから対話の特徴を表す対話特徴量を抽出し、前記複数のデータから、前記参与者の特徴を表す参与者特徴量を抽出する特徴量抽出工程と、前記対話特徴量及び参与者特徴量をモデルに入力し、前記参与者の前記対話における印象を表すスコアを推定する推定工程と、を含むことを特徴とする。

　本発明によれば、対話における印象スコアの推定精度を向上させることができる。

図１は、学習装置の構成例を示す図である。図２は、対話特徴量セットの抽出方法を説明する図である。図３は、推定装置の構成例を示す図である。図４は、第１の実施形態に係る学習装置の構成例を示す図である。図５は、第１の実施形態に係る対話・参与者特徴量セットの抽出方法を説明する図である。図６は、第１の実施形態に係る推定装置の構成例を示す図である。図７は、推定プログラムを実行するコンピュータの一例を示す図である。

　以下に、本願に係る推定方法、推定装置及び推定プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

［学習装置及び推定装置の基本形］
　まず、図１、図２及び図３を用いて、各実施形態の基本となる学習装置及び推定装置について説明する。各実施形態は、ここで説明する学習装置及び推定装置の基本形に機能を付加すること、又は一部の機能を変更することによって実現されてもよい。

　推定装置は、対話に関する対話データを基に、対話における参与者の満足度、信頼感、説得力等に関する印象を定量化し、印象スコアとして推定する。推定装置は、学習済みの印象スコア推定モデルを用いて印象スコアを推定する。

　また、印象スコア推定モデルの学習は、学習装置によって行われる。推定装置と学習装置は同じ装置によって実現されてもよいし、異なる装置によって実現されてもよい。

　また、ここでは、販売員及び顧客が参与する対話における、特に顧客の販売者に対する印象スコアを推定するものとする。ただし、推定装置が印象スコアの推定対象とする対話の参与者は、販売員と顧客に限られず、例えば友人同士、親と子、上司と部下、仕事の同僚同士等であってもよい。

　図１は、学習装置の構成例を示す図である。図１に示すように、学習装置１０は、対話・印象スコアデータベース１１及び印象スコア推定モデル情報１４を記憶する。また、学習装置１０は、対話特徴量セット抽出部１２及びモデル学習部１３を有する。

　対話・印象スコアデータベース１１は、参与者による対話データ（映像、音声等）の集合（対話データセット）と、その結果ある参与者（例えば顧客）が他の参与者（例えば販売員）に抱いた印象を数値化した印象スコアデータセットを保持したものである。

　対話・印象スコアデータベース１１に含まれる対話データ数をＮ、各対話データをｄ_ｎ、印象スコアをｓ_ｎ（ｎ＝１,…，Ｎ）とする。

　なお、販売員の対話データを販売員データと表記する場合がある。また、顧客の対話データを顧客データと表記する場合がある。

　印象を評価される参与者を被評価参与者とする。また、対話・印象スコアデータベース１１に含まれる被評価参与者の数をＭ、各被評価参与者ｍ＝１，…，Ｍについて、データベースに含ままれる対話数をＮ_ｍ（ただしＮ_ｍ＞１）とする。

　例えば、ｄ_ｎは対話を録画した映像データ、及び対話を録音した音声データ等である。また、例えば、印象スコアは、満足度、信頼感等に関する５段階評価のスコア（例えば、５：満足、４：やや満足、３：どちらでもない、２：やや不満、１：不満）である。

　対話データセットは、対話・印象スコアデータベース１１に含まれる対話データの集合であり、｛ｄ_ｎ，ｍ｝と表記される。印象スコアデータセットは、対話・印象スコアデータベース１１に含まれる印象スコアの集合であり、｛ｓ_ｎ，ｍ｝と表記される。

　対話特徴量セット抽出部１２は、図２に示すように、対話データセット中の各対話に対し、対話特徴量抽出を行い、対話特徴量セットを得る。図２は、対話特徴量セットの抽出方法を説明する図である。なお、Ｍは参与者の数である。

（対話特徴量抽出方法）
　対話特徴量の抽出方法を説明する。対話特徴量セット抽出部１２は、販売員データに対して参与者特徴量抽出を実行し、販売員参与者特徴量を抽出する。

　また、対話特徴量セット抽出部１２は、顧客データに対して参与者特徴量抽出を実行し、顧客参与者特徴量を抽出する。

　対話特徴量セット抽出部１２は、販売員参与者特徴量と顧客参与者特徴量を統合（例えば、ベクトルの連結）することによって対話特徴量を得る。

　例えば、ｄ_ｎが動画像を含むデータである場合、対話特徴量セット抽出部１２は、非特許文献１に記載された方法と同様に、各参与者についての、発話時間、話速の平均、話速の分散等の音声特徴量、又はオプティカルフローの平均及び分散、Weighted　Motion　Energy　Images（ＷＭＥＩ）の平均、分散等の画像特徴量を、参与者特徴量として抽出することができる。

　また、ｄ_ｎが音声を含むデータである場合、対話特徴量セット抽出部１２は、参考文献１に記載された方法と同様に、音声データに対し音声認識を行い、得られたテキストから、事前に指定されたキーワードについてBag-of-Words（ＢｏＷ）を算出して得られた言語特徴量を、参与者特徴量として抽出することができる。
　参考文献１：Atsushi　Ando,　Ryo　Masumura,　Hosana　Kamiyama,　Satoshi　Kobashikawa,　Yushi　Aono,　and　Tomoki　Toda,　"Customer　satisfaction　estimation　in　contact　center　calls　based　on　a　hierarchical　multi-task　model,"　IEEE/ACM　Transactions　on　Audio,　Speech,　and　Language　Processing,　vol.　28,　pp.　715-728,　2020.

　モデル学習部１３は、対話特徴量セット抽出部１２によって抽出された対話特徴量セットを入力特徴量とし、印象スコアセットを正解ラベルとして、印象スコアを推定する印象スコア推定モデルの学習を行う。

　例えば、印象スコア推定モデルは、非特許文献１の技術と同様に、線形回帰、リッジ回帰、ランダムフォレスト等であってよい。また、印象スコア推定モデルは、多層パーセプトロンのようなニューラルネットワークであってもよい。

　また、印象スコア推定モデル情報１４は、学習済みの印象スコア推定モデルのパラメータ等の情報である。

　図３は、推定装置の構成を示す図である。図３に示すように、推定装置２０は、対話特徴量抽出部２１及び印象スコア推定部２２を有する。また、推定装置２０は、印象スコア推定モデル情報２３を記憶する。

　対話特徴量抽出部２１は、対話データから対話特徴量を抽出する。対話特徴量抽出部２１は、対話特徴量セット抽出部１２と同じ方法で対話特徴量を抽出することができる。

　印象スコア推定部２２は、対話特徴量抽出部２１によって抽出された対話特徴量を学習済みの印象スコア推定モデルに入力し、印象スコアの推定値を得る。

　ここで、印象スコア推定モデル情報２３は、印象スコア推定モデル情報１４と同じものである。このため、印象スコア推定部２２は、印象スコア推定モデル情報２３を基に、学習済みの印象スコア推定モデルを構築することができる。

［第１の実施形態］
　第１の実施形態では、学習装置及び推定装置は、対話データセットに含まれる同一参与者による複数の対話を参照し、発話内容及び話し方等（以降、発話態様）の特徴の異なり方を参与者特徴量として抽出する。

　また、学習装置及び推定装置は、各対話データについて、対話特徴量と、当該参与者の参与者特徴量の組を対話・参与者特徴量として抽出し、抽出した対話・参与者特徴量を印象スコア推定モデルの学習及び印象スコアの推定に使用する。

　参与者特徴量の使用により、参与者が対話ごとに発話態様を変更しているかどうかを考慮した印象スコア推定モデルの構築が可能である。その結果、第１の実施形態によれば、印象スコア推定の精度を向上させることができる。

　ここでは、第１の実施形態に係る学習装置及び推定装置について、学習装置１０及び推定装置２０との相違点を説明し、共通点の説明は適宜省略する。

　第１の実施形態に係る学習装置及び推定装置は、学習装置１０及び推定装置２０と異なり、参与者特徴量を抽出する。

　図４は、第１の実施形態に係る学習装置の構成例を示す図である。図４に示すように、学習装置３０は、対話・印象スコアデータベース３１及び印象スコア推定モデル情報３４を記憶する。また、学習装置３０は、対話・参与者特徴量セット抽出部３２及びモデル学習部３３を有する。

　対話・印象スコアデータベース３１は、対話・印象スコアデータベース１１と同様に、参与者による対話データ（映像、音声等）の集合（対話データセット）と、その結果ある参与者（例えば顧客）が他の参与者（例えば販売員）に抱いた印象を数値化した印象スコアデータセットを保持したものである。

　対話・参与者特徴量セット抽出部３２は、図５に示すように、対話データセット中の各対話データｄ_ｍ，ｎに対し対話特徴量抽出を行い、対話特徴量ｆ_ｍ，ｎを得る。図５は、対話・参与者特徴量セットの抽出方法を説明する図である。なお、Ｍは参与者の数である。

　対話・参与者特徴量セット抽出部３２は、対話特徴量セット抽出部１２と同様の方法で対話特徴量を抽出することができる。

　ここで、得られた特徴量の集合を、対話特徴量ｆ_ｍ，ｎ＝｛ｘ_ｍ，ｎ ^１，…，ｘ_ｍ，ｎ ^Ｋ｝とする。ただし、Ｋは対話特徴量に含まれる特徴量の種類の数である。

　続いて、対話・参与者特徴量セット抽出部３２は、各被評価参与者ｍ＝１,…，Ｍについて、その参与者による対話データの集合｛ｄ_ｍ，１，…，ｄ_ｍ，Ｎｍ｝を用いて、参与者特徴量抽出を行い、参与者特徴量ｐ_ｍを得る。

　対話・参与者特徴量セット抽出部３２は、対話データの集合｛ｄ_ｍ，１，…，ｄ_ｍ，Ｎｍ｝に対応する各対話特徴量の集合｛ｆ_ｍ，１，…，ｆ_ｍ，Ｎｍ｝を用いて、（１）式及び（２）式により分散ｖ_ｍ ^ｋを算出し、分散ｖ_ｍ ^ｋを参与者特徴量ｐ_ｍとして用いてもよい。

　そして、対話・参与者特徴量セット抽出部３２は、各対話データｄ_ｍ，ｎについて、対応する対話特徴量ｆ_ｍ，ｎと、対応する被評価参与者の参与者特徴量ｐ_ｍから、対話・参与者特徴量ｙ_ｍ，n＝｛ｆ_ｍ，ｎ，ｐ_ｍ｝を構成する。対話・参与者特徴量セット抽出部３２は、各ｍ、ｎについて得られた対話・参与者特徴量の集合｛ｙ_ｍ，ｎ｝を対話・参与者特徴量セットとして出力する。

　モデル学習部３３は、モデル学習部１３と同様に、対話・参与者特徴量セット抽出部３２によって抽出された対話特徴量セット｛ｙ_ｍ，ｎ｝を入力特徴量とし、印象スコアセット｛ｓ_ｍ，ｎ｝を正解ラベルとして、印象スコアを推定する印象スコア推定モデルの学習を行う。

　また、印象スコア推定モデル情報３４は、印象スコア推定モデル情報１４と同様に、学習済みの印象スコア推定モデルのパラメータ等の情報である。

　図６は、第１の実施形態に係る推定装置の構成例を示す図である。図６に示すように、推定装置４０は、対話・参与者特徴量抽出部４１及び印象スコア推定部４２を有する。また、推定装置４０は、印象スコア推定モデル情報４３を記憶する。

　対話・参与者特徴量抽出部４１は、対話データから対話・参与者特徴量を抽出する。対話・参与者特徴量抽出部４１は、対話・参与者特徴量セット抽出部３２と同じ方法で対話・参与者特徴量を抽出することができる。

　ここで、対話・参与者特徴量抽出部４１は、複数の参与者及び対話データに対応する対話特徴量の集合である対話・参与者特徴量セットではなく、単一の参与者に対応する対話・参与者特徴量を抽出するものであってもよい。なお、参与者が単一であっても、対話・参与者特徴量抽出部４１は、複数の対話データから参与者特徴量を抽出することができる（Ｍ＝１、Ｎ_ｍ＞１）。

　印象スコア推定部４２は、印象スコア推定部２２と同様に、対話・参与者特徴量抽出部４１によって抽出された対話特徴量を学習済みの印象スコア推定モデルに入力し、印象スコアの推定値を得る。

　このように、学習装置３０及び推定装置４０は、対話の参与者に対応する複数のデータのそれぞれから対話の特徴を表す対話特徴量を抽出し、複数のデータから、参与者の特徴を表す参与者特徴量を抽出する。また、学習装置３０及び推定装置４０は、対話特徴量及び参与者特徴量をモデルに入力し、参与者の対話における印象を表すスコア（印象スコア）を推定する。

　また、学習装置３０及び推定装置４０は、対話特徴量の分散を、参与者特徴量として算出することができる。

　なお、学習装置３０は、推定した印象スコアを用いてモデルの学習を行ってもよいし、印象スコアの推定を行うことなく、抽出した各種特徴量を用いてモデルの学習を行ってもよい。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central　Processing　Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。なお、プログラムは、ＣＰＵだけでなく、ＧＰＵ等の他のプロセッサによって実行されてもよい。

　また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　一実施形態として、学習装置３０及び推定装置４０は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理及び推定処理を実行するプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置３０及び推定装置４０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。

　また、学習装置３０及び推定装置４０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理及び推定処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、サーバ装置は、対話データを入力とし、学習済みモデルの情報又は印象スコアの推定結果を出力とするサービスを提供するサーバ装置として実装される。この場合、サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の収集処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

　図７は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置３０及び推定装置４０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、学習装置３０及び推定装置４０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１０、３０　学習装置
　１１、３１　対話・印象スコアデータベース
　１２　対話特徴量セット抽出部
　１３、３３　モデル学習部
　１４、２３、３４、４３　印象スコア推定モデル情報
　２０、４０　推定装置
　２１　対話特徴量抽出部
　２２、４２　印象スコア推定部
　３２　対話・参与者特徴量セット抽出部
　４１　対話・参与者特徴量抽出部

Claims

　コンピュータによって実行される推定方法であって、
　対話の参与者に対応する複数のデータのそれぞれから対話の特徴を表す対話特徴量を抽出し、前記複数のデータから、前記参与者の特徴を表す参与者特徴量を抽出する特徴量抽出工程と、
　前記対話特徴量及び参与者特徴量をモデルに入力し、前記参与者の前記対話における印象を表すスコアを推定する推定工程と、
　を含むことを特徴とする推定方法。
　前記特徴量抽出工程は、前記対話特徴量の分散を、前記参与者特徴量として算出することを特徴とする請求項１に記載の推定方法。
　対話の参与者に対応する複数のデータのそれぞれから対話の特徴を表す対話特徴量を抽出し、前記複数のデータから、前記参与者の特徴を表す参与者特徴量を抽出する特徴量抽出部と、
　前記対話特徴量及び参与者特徴量をモデルに入力し、前記参与者の前記対話における印象を表すスコアを推定する推定部と、
　を有することを特徴とする推定装置。
　コンピュータを、請求項３に記載の推定装置として機能させるための推定プログラム。