JPWO2017085815A1

JPWO2017085815A1 - 困惑状態判定装置、困惑状態判定方法、及びプログラム

Info

Publication number: JPWO2017085815A1
Application number: JP2017551446A
Authority: JP
Inventors: 太郎外川; 紗友梨中山; 猛大谷
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-11-18
Filing date: 2015-11-18
Publication date: 2018-09-13
Anticipated expiration: 2035-11-18
Also published as: CN108352169B; WO2017085815A1; US20180261238A1; JP6544439B2; CN108352169A; US10679645B2

Abstract

疑問発話検出部は、ユーザの音声に含まれる疑問発話を検出し、頻度取得部は、疑問発話検出部で通話保留期間内に検出した疑問発話の単位時間毎の数である前記疑問発話の頻度を取得し、状態判定部は、頻度取得部で取得した疑問発話の頻度が第１閾値以上である場合にユーザが困惑状態であると判定する。

Description

本発明は、困惑状態判定装置、困惑状態判定方法、及びプログラムに関する。

例えば、コールセンターでオペレータが顧客と通話している間に、顧客の苦情等により、未熟なオペレータが困惑状態に陥り、適切な対応を行うことが困難となる場合がある。このような場合に、熟練オペレータが困惑状態に陥った未熟なオペレータを支援するために、オペレータが困惑状態に陥ったか否かの判定に適用可能な技術が存在する。当該技術では、通話音声の韻律変化に基づいて、発話者の意図を判定する。例えば、当該技術では、発話持続時間が短く、基本周波数が上昇した場合、発話者が疑いを抱いていること、即ち、発話者が困惑状態に陥っている可能性があることを検出する。

特開２００７−０７９３６３号公報特開平０４−２５５９００号公報特開２０００−６６６９１号公報特開２００８−１３４５５７号公報国際公開２００９／１４５１９２号公報

南憲治、「ひとり言の心理的機能」、帝塚山大学現代生活学部紀要、２０１４年２月、１０号、頁８５〜９３

しかしながら、発話持続時間が短く、基本周波数が上昇する発話は、オペレータが通常の通話において顧客に質問する場合にも存在する（例えば、「故障ですか？」または「如何でしょうか？」等）。従って、上記技術では、オペレータ、即ち、ユーザが困惑状態に陥っているか否かを適切に検出することが困難な場合がある。

１つの側面として、本発明は、ユーザの困惑状態の判定精度を向上させることを目的とする。

１つの態様では、疑問発話検出部は、ユーザの音声に含まれる疑問発話を検出し、頻度取得部は、疑問発話検出部で検出した疑問発話の単位時間毎の数である疑問発話の頻度を通話保留期間内に取得する。また、状態判定部は、頻度取得部で取得した疑問発話の頻度が第１閾値以上である場合にユーザが困惑状態であると判定する。

１つの側面として、ユーザの困惑状態の判定精度を向上させる、という効果を有する。

第１実施形態に係る困惑状態判定装置の要部機能の一例を示すブロック図である。第１実施形態に係る困惑状態判定装置のハードウェアの構成の一例を示すブロック図である。第１実施形態に係る困惑状態判定処理の一例の概要を説明するためのブロック図である。第１実施形態に係る困惑状態判定処理の一例を示すフローチャートである。第１実施形態に係る基本周波数を取得する処理を説明するための概念図である。第１実施形態に係る基本周波数の傾きを取得する処理を説明するための概念図である。第１実施形態に係る第１閾値を設定する処理を説明するための概念図である。第２実施形態に係る困惑状態判定装置のハードウェアの構成の一例を示すブロック図である。第２実施形態に係る語句記憶部に記憶される語句の一例を示す概念図である。第３実施形態に係る語句記憶部に記憶される語句の一例を示す概念図である。第４実施形態に係る困惑状態判定処理の一例の概要を説明するためのブロック図である。第６実施形態に係る困惑状態判定装置のハードウェアの構成の一例を示すブロック図である。

［第１実施形態］

以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。

一例として図１に困惑状態判定装置１０を示す。困惑状態判定装置１０は、例えば、疑問発話検出部１１、頻度取得部１２、及び状態判定部１３を含む。疑問発話検出部１１、頻度取得部１２、及び状態判定部１３は、相互に接続されている。

疑問発話検出部１１は、ユーザの音声に含まれる疑問発話を検出する。頻度取得部１２は、疑問発話検出部１１で通話保留期間内に検出した疑問発話の単位時間毎の数である疑問発話の頻度を通話保留期間内に取得する。状態判定部１３は、頻度取得部１２で取得した疑問発話の頻度が第１閾値以上である場合にユーザが困惑状態であると判定する。

困惑状態判定装置１０は、例えば、固定電話、スマートフォン、又は携帯電話などに接続可能なパーソナルコンピュータ、もしくは専用装置であってもよいし、固定電話、スマートフォン、又は携帯電話などの一部であってもよい。

困惑状態判定装置１０は、一例として図２に示すように、ＣＰＵ（Central Processing Unit）２１、一次記憶部２２、二次記憶部２３、外部インターフェイス２４、音声信号受信部２５、マイク（マイクロフォン）２６、スピーカ２７、及び保留ボタン２８を備えている。ＣＰＵ２１、一次記憶部２２、二次記憶部２３、外部インターフェイス２４、音声信号受信部２５、マイク２６、スピーカ２７、及び保留ボタン２８は、バス２９を介して相互に接続されている。

外部インターフェイス２４には、外部装置が接続され、外部インターフェイス２４は、外部装置とＣＰＵ２１との間の各種情報の送受信を司る。

マイク２６は、ユーザ側の音声、例えば、困惑状態判定装置１０を利用するコールセンターのオペレータの発話を含む音声を受け取り、音声信号に変換する。なお、図２では、マイク２６が困惑状態判定装置１０に含まれるように示しているが、本実施形態はこれに限定されない。マイク２６は、例えば、困惑状態判定装置１０に接続される電話などの通話装置のマイクであってもよいし、外部インターフェイス２４を介して接続される外付けのマイクであってもよい。

スピーカ２７は、通話相手側の音声、例えば、コールセンターを利用する顧客の発話を含む音声、又は保留メロディ即ち楽音を表す音声信号を音声に変換する。なお、図２では、スピーカ２７が困惑状態判定装置１０に含まれるように示しているが、本実施形態はこれに限定されない。スピーカ２７は、例えば、困惑状態判定装置１０に接続される電話などの通話装置のスピーカであってもよいし、外部インターフェイス２４を介して接続される外付けのスピーカであってもよい。

保留ボタン２８がオン状態である場合、ＣＰＵ２１は、通話を保留し、オフ状態である場合通話を可能とする。なお、図２では、保留ボタンが困惑状態判定装置１０に含まれるように示しているが、本実施形態はこれに限定されない。保留ボタン２８は、例えば、困惑状態判定装置１０に接続される電話などの通話装置の保留ボタンであってもよく、この場合、電話のＣＰＵが通話を保留し、又は、通話を可能とする。

音声信号受信部２５は、電話回線又はインターネット回線などを通じて送信される通話相手側の音声を表す音声信号を受信する。

一次記憶部２２は、例えば、ＲＡＭ（Random Access Memory）などの揮発性のメモリである。二次記憶部２３は、例えば、ＨＤＤ（Hard Disk Drive）、またはＳＳＤ（Solid State Drive）などの不揮発性のメモリである。二次記憶部２３は、例えば、困惑状態判定プログラム２３Ａを記憶している。なお、困惑状態判定プログラム２３Ａは、外部インターフェイス２４を介して、ＣＤ−ＲＯＭ又はＤＶＤなどの記憶媒体から読み込まれてもよいし、外部サーバから受信されてもよい。

ＣＰＵ２１は、二次記憶部２３から困惑状態判定プログラム２３Ａを読み出して一次記憶部２２に展開する。ＣＰＵ２１は、当該困惑状態判定プログラム２３Ａを実行することで、図１に示す疑問発話検出部１１、頻度取得部１２、及び状態判定部１３として動作する。

次に、困惑状態判定装置１０によって実施される困惑状態判定処理の概要を説明する。困惑状態判定装置１０のユーザは、例えば、コールセンターのオペレータである。オペレータが顧客との通話において、顧客からの質問の答えに窮するなどの場合、オペレータが困惑状態に陥り、適切な対応を行えない可能性が生じる。困惑状態判定装置１０は、オペレータ、即ち、ユーザが困惑状態であるか否か判定する。

図３に例示するように、困惑状態判定装置１０は、マイク２６でユーザの発話を取得する。困惑状態判定装置１０は、保留ボタン２８がオン状態である場合、ブロック３１で通話保留状態であると判定し、ブロック３２で通話保留期間内のユーザの疑問発話を検出する。困惑状態判定装置１０は、ブロック３３で、疑問発話の頻度を取得し、ブロック３４で、疑問発話の頻度に基づいて、ユーザが困惑状態であるか否か判定する。

ユーザが困惑状態であると判定された場合、困惑状態判定装置１０は、例えば、ユーザが困惑状態であることを当該ユーザの管理者などの端末の画面に報知する。これにより、管理者などはユーザのサポートを適切に行うことが可能となる。

次に、本実施形態の作用として、困惑状態判定装置１０によって実施される困惑状態判定処理について説明する。図４は、困惑状態判定装置１０によって実施される困惑状態判定処理の一例を示す。

例えば、ユーザが困惑状態判定装置１０に接続されている通話装置を操作して、通話相手との通話を開始することによって、図４の困惑状態判定処理が開始される。ステップ１０１で、ＣＰＵ２１は、疑問発話の数をカウントするカウンタＱ（以下、疑問発話カウンタＱともいう。）及び通話保留期間を保存するレジスタＬ（以下、通話保留期間レジスタＬともいう。）に０を設定する。ステップ１０２で、ＣＰＵ２１は、発話区間を通過したか否か、即ち、発話が行われたか否かを示すフラグＵ（以下、発話区間フラグＵともいう。）に０を設定する。

ステップ１０３で、ＣＰＵ２１は、通話保留状態であるか否かを判定する。ＣＰＵ２１は、例えば、保留ボタン２８がオン状態である場合に、通話保留状態であると判断する。ステップ１０３の判定が否定された場合、ＣＰＵ２１は、ステップ１０１に戻る。

一方、ステップ１０３の判定が肯定された場合、ステップ１０４で、ＣＰＵ２１は、通話保留期間を取得する。詳細には、通話保留期間レジスタＬに１フレーム分の時間長ｔｆを加算する。１フレーム分の時間長ｔｆは、例えば、２０ミリ秒である。

ステップ１０５で、ＣＰＵ２１は、１フレーム分の音声信号を受信する。当該音声信号は、マイク２６で受け取られた音声、即ち、ユーザ側で発生した音声に対応する音声信号であり、一次記憶部２２に一時的に保存される。

ステップ１０６で、ＣＰＵ２１は、通話保留期間レジスタＬに累算された期間が所定の第３閾値（以下、保留期間閾値ともいう。）を越えているか否か判定する。ステップ１０６の判定が否定された場合、ＣＰＵ２１は、ステップ１０３に戻る。一方、ステップ１０６の判定が肯定された場合、ＣＰＵ２１は、通話保留期間であると判定し、ステップ１０７に進む。保留期間閾値は、例えば、３０秒であってよい。

ステップ１０７で、ＣＰＵ２１は、ステップ１０５で受信した音声信号で表される音声が発話区間の音声であるか否かを判定する。発話区間とは、ユーザの発話を含む区間である。例えば、ステップ１０５で受信した音声信号のパワー又は信号対雑音比が所定値を越える場合、当該音声信号で表される音声が、背景雑音だけでなく、ユーザの発話を含む発話区間であると判定する。

ステップ１０７の判定が肯定された場合、ＣＰＵ２１は、ステップ１０８で、発話区間フラグＵに１を設定する。ステップ１０９で、ＣＰＵ２１は、音声信号の基本周波数を取得する。

詳細には、例えば、音声信号の自己相関を算出し、図５に例示するように、シフト時間が正であり、かつ、最小の位置で自己相関値が極大となる時間を基本周期ｐｒとする。式（１）に示すように、サンプリング周波数Ｆｓを基本周期ｐｒで除算することによって基本周波数は取得される。
基本周波数＝Ｆｓ／ｐｒ …（１）
サンプリング周波数Ｆｓは、例えば、８，０００Ｈｚである。

ＣＰＵ２１は、ステップ１０３に戻り、ステップ１０３〜ステップ１０９の処理を繰り返す。一方、ステップ１０７の判定が否定されると、ＣＰＵ２１は、ステップ１１０で、発話区間フラグＵが１であるか否か判定する。ステップ１１０の判定が否定された場合、即ち、発話区間フラグＵが０である場合、疑問発話であるか否か判定する発話が存在しないため、ＣＰＵ２１は、ステップ１０３に戻る。

ステップ１１０の判定が肯定された場合、ＣＰＵ２１は、ステップ１１１で、後述するように、ステップ１０５で受信し、一次記憶部２２に保存された音声信号が表す発話、即ち、発話区間の音声が疑問発話であるか否か判定する。ステップ１１１の判定が否定された場合、ＣＰＵ２１は、ステップ１０２に戻る。

一方、ステップ１１１の判定が肯定された場合、ＣＰＵ２１は、ステップ１１２で、疑問発話カウンタＱに１を加算し、ステップ１１３で、単位時間毎の疑問発話の数である疑問発話の頻度を取得する。詳細には、式（２）に示すように、疑問発話カウンタＱでカウントされた疑問発話の数を通話保留期間レジスタＬに保存されている通話保留期間で除算することによって疑問発話の頻度を取得する。
疑問発話の頻度＝Ｑ／Ｌ …（２）

ステップ１１４で、ＣＰＵ２１は、疑問発話の頻度が所定の第１閾値（以下、困惑閾値ともいう）以上であるか否か判定する。なお、困惑閾値については、後述する。

ステップ１１４の判定が肯定された場合、ＣＰＵ２１は、ステップ１１５で、ユーザが困惑状態であると判定し、ステップ１１７に進む。一方、ステップ１１４の判定が否定された場合、ＣＰＵ２１は、ステップ１１６で、ユーザが困惑状態ではないと判定し、ステップ１１７に進む。

ステップ１１７で、ＣＰＵ２１は、通話中であるか否か判定する。ステップ１１７の判定が肯定された場合、ＣＰＵ２１は、ステップ１０２に戻る。ステップ１１７の判定が否定された場合、ＣＰＵ２１は、困惑状態判定処理を終了する。なお、図４のステップの順序は一例であり、本実施形態は、図４のステップの順序に限定されない。以下の実施形態についても同様である。

次に、ステップ１１１の判定の一例について説明する。ステップ１１１では、ステップ１０５で受信し、一次記憶部２２に保存された音声信号が表す発話が疑問発話であるか否か判定する。例えば、日本語では、疑問発話の末尾の基本周波数を上昇させて発声することが一般的である。従って、例えば、発話区間の末尾の所定期間において、音声信号の基本周波数が上昇している場合、疑問発話であると判定する。

詳細には、例えば、図６に例示するように、最小二乗法により、発話区間の末尾の所定期間ｔｅにおける基本周波数に近似する直線ｓｌを取得し、当該直線ｓｌの傾きが正であり、かつ、所定の第２閾値（以下、疑問発話閾値ともいう。）より大きい場合に疑問発話であると判定する。発話区間の末尾の所定期間ｔｅは、例えば、１秒であってよい。なお、ステップ１１１の判定が終了した後、ステップ１０５で受信し、一次記憶部２２に保存された音声信号は、消去されてもよい。

次に、ステップ１１４の判定で使用される困惑閾値の一例について説明する。ステップ１１４では、疑問発話の頻度が困惑閾値以上であるか否か判定する。困惑閾値は、一定の値であってもよいが、図７に例示するように、通話保留期間が長くなるに従って、小さくなるように設定してもよい。ユーザが困惑状態である場合、困惑状態の原因を解消するため、あるいは、単に対応に苦慮して、一般的に通話保留期間は長くなる。従って、通話保留期間が長い場合、疑問発話の頻度が相対的に少なくても、ユーザが困惑状態である可能性が高いと推定される。

本実施形態では、ユーザの音声に含まれる疑問発話を検出し、通話保留期間内に検出した疑問発話の数である疑問発話の頻度を取得し、取得した疑問発話の頻度が困惑閾値以上である場合にユーザが困惑状態であると判定する。

人間は、困惑状態に陥ると、独り言を発することが多い。しかしながら、通話中の疑問発話は、通話相手に対して行った質問であるのか、独り言であるのか、判別が困難である。また、一般的には、通話相手への配慮から通話中に独り言を発することは少ない。従って、本実施形態では、通話保留期間内の疑問発話の頻度を取得し、当該頻度が困惑閾値以上である場合にユーザが困惑状態であると判定することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。

また、本実施形態では、困惑閾値は、通話保留期間が長くなるに従って小さくなるように変更される。ユーザが困惑状態である場合、困惑状態の原因を解消するため、あるいは、単に対応に苦慮して、一般的に通話保留期間は長くなる。従って、通話保留期間が長い場合、疑問発話の頻度が相対的に少なくても、ユーザが困惑状態である可能性が高いと推定される。従って、通話保留期間が長くなるに従って、小さくなるように困惑閾値を変更することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。

また、本実施形態では、発話期間の末尾における音声の基本周波数の傾きが疑問発話閾値より大きい場合に、発話期間の音声を疑問発話として検出する。例えば、日本語では、疑問発話の末尾の基本周波数を上昇させて発声することが一般的である。従って、発話期間の末尾における音声の基本周波数の傾きが疑問発話閾値より大きい場合に、発話期間の音声を疑問発話として検出することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。

［第２実施形態］
次に、開示の技術の実施形態の一例である第２実施形態を説明する。第１実施形態と同様の構成及び作用については説明を省略する。

第２実施形態では、疑問発話を検出する際に、所定の語句が発話の末尾に含まれる場合に疑問発話であると判定する。第２実施形態では、図８に例示するように、二次記憶部２３が語句記憶部２３Ｂを含む。語句記憶部２３Ｂに含まれる所定の語句の一例を図９に示す。所定の語句は、例えば、日本語であれば、「（〜）ですか（？）」、「（〜）だよね（？）」、「（〜）かな（？）」、及び「（〜）だっけ（？）」、など、疑問文の末尾に一般的に用いられる語句である。

ＣＰＵ２１は、図４のステップ１１１で、発話区間の末尾に含まれる発話を認識し、当該発話に語句記憶部２３Ｂに含まれる所定の語句の何れかが含まれているか否かを判定し、判定が肯定された場合に、発話が疑問発話であると判定する。発話区間の末尾とは、発話区間の終端から所定の期間内である。

発話に所定の語句の何れかが含まれているか否かの判定は、例えば、発話をテキストに変換し、語句記憶部２３Ｂに含まれる所定の語句のテキストと、変換した当該テキストとのマッチングにより行われてもよい。また、音響モデルを用いて生成された語句記憶部２３Ｂに含まれる所定の語句を表す音声データと発話の音声データとのマッチングにより行われてもよい。

また、語句記憶部２３Ｂに含まれる所定の語句の何れかと発話との特徴ベクトル間距離、又は特徴ベクトル出現確率などの類似度が所定値よりも高い場合に、発話が当該所定の語句を含むと判定してもよい。

なお、図９では、日本語の例を示したが、本実施形態は、日本語に限定されず、他の言語に対しても適用可能である。

英語であれば、例えば、語句記憶部２３Ｂに含まれる所定の語句の一例は、「doesn't it(?)」、「don't they(?)」、「isn't it(?)」及び「aren't they(?)」などであり、中国語であれば、例えば、以下の通りである。

なお、例えば、コーパスでの出現頻度が高い疑問発話の末尾に含まれる語句を、所定の語句として、語句記憶部２３Ｂに登録してもよい。また、ユーザ（又は、管理者）が、当該ユーザがよく使用する疑問発話の末尾に含まれる語句を、所定の語句として、語句記憶部２３Ｂに登録してもよい。

なお、本実施形態は、第１実施形態に適用されてもよい。即ち、発話期間の末尾における音声の基本周波数の傾きが疑問発話閾値より大きい場合、及び、発話期間の末尾に所定の語句を含む場合、の少なくとも一方の場合に、発話期間の音声を疑問発話として検出してもよい。

本実施形態では、ユーザの音声に含まれる疑問発話を検出し、通話保留期間内に検出した疑問発話の頻度を取得し、取得した疑問発話の頻度が困惑閾値以上である場合にユーザが困惑状態であると判定する。

人間は、困惑状態に陥ると、独り言を発することが多い。しかしながら、通話中の疑問発話は、通話相手に対して行った質問であるのか、独り言であるのか、判別が困難である。また、一般的には、通話相手への配慮から通話中に独り言を発することは少ない。従って、本実施形態では、通話保留期間内の疑問発話の頻度を期間内に取得し、当該頻度が困惑閾値以上である場合にユーザが困惑状態であると判定することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。

本実施形態では、発話期間の末尾に所定の語句を含む場合に、発話期間の音声を疑問発話として検出する。一般的に、疑問発話は、末尾に所定の語句を含む。従って、本実施形態では、発話期間の末尾に所定の語句を含む場合に、発話期間の音声を疑問発話として検出することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。

［第３実施形態］
次に、開示の技術の実施形態の一例である第３実施形態を説明する。第１実施形態及び第２実施形態と同様の構成及び作用については説明を省略する。

第３実施形態では、疑問発話を検出する際に、所定の語句が発話の冒頭に含まれる場合に疑問発話であると判定する。第３実施形態で、図８の語句記憶部２３Ｂに含まれる所定の語句の一例を図１０に示す。所定の語句は、例えば、日本語であれば、「何で」、「なぜ」、「どうして」、及び「何が」、など、疑問文の冒頭に一般的に用いられる語句である。

ＣＰＵ２１は、図４のステップ１１１で、発話区間の冒頭に含まれる発話を認識し、当該発話に語句記憶部２３Ｂに含まれる所定の語句の何れかが含まれているか否かを判定し、判定が肯定された場合に、発話が疑問発話であると判定する。発話区間の冒頭とは、発話区間の開始端から所定の期間内である。

なお、語句記憶部２３Ｂに含まれる所定の語句の何れかと発話との特徴ベクトル間距離、又は特徴ベクトル出現確率などの類似度が所定値よりも高い場合に、発話が当該所定の語句を含むと判定してもよい。

なお、図１０では、日本語の例を示したが、本実施形態は、日本語に限定されず、他の言語に対しても適用可能である。

英語であれば、例えば、語句記憶部２３Ｂに含まれる所定の語句の一例は、「What」、「Where」、「Why」及び「How」などであり、中国語であれば、例えば、以下の通りである。

なお、例えば、コーパスでの出現頻度が高い疑問発話の冒頭に含まれる語句を、所定の語句として、語句記憶部２３Ｂに登録してもよい。また、ユーザ（又は、管理者）が、当該ユーザがよく使用する疑問発話の冒頭に含まれる語句を、所定の語句として、語句記憶部２３Ｂに登録してもよい。

なお、本実施形態は、第１実施形態及び第２実施形態の少なくとも一方に適用されてもよい。即ち、発話期間の末尾における音声の基本周波数の傾きが疑問発話閾値より大きい場合、及び、発話期間の冒頭及び末尾の少なくとも一方に所定の語句を含む場合、の少なくとも何れかの場合に、発話期間の音声を疑問発話として検出してもよい。

本実施形態では、発話期間の冒頭に所定の語句を含む場合に、発話期間の音声を疑問発話として検出する。一般的に、疑問発話は、冒頭に所定の語句を含む。従って、本実施形態では、発話期間の冒頭に所定の語句を含む場合に、発話期間の音声を疑問発話として検出することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。

［第４実施形態］
次に、開示の技術の実施形態の一例である第４実施形態を説明する。第１実施形態〜第３実施形態と同様の構成及び作用については説明を省略する。

第４実施形態では、通話保留状態であるか否かを判定する際に、図１１に例示するように、音声信号受信部２５によって受信される音声信号を使用する。

ＣＰＵ２１は、図４のステップ１０３で、例えば、音声信号受信部２５によって受信される音声信号が表す音声が無音である場合、通話保留状態であると判定する。ここで、無音である、とは、例えば、音声信号の信号対雑音比が所定値より小さい場合である。通話保留状態である間は、通話相手側で発生する音声、即ち、通話相手の発話及び通話相手側の背景雑音は、ユーザに対して遮断されるためである。

なお、音声信号の信号対雑音比が、例えば、１０ｄＢ未満である場合に、通話保留状態であると判定してもよい。また、音声信号受信部２５によって受信される音声信号のパワーが所定値より小さい場合に、無音であると判定してもよい。

なお、本実施形態は、第１実施形態〜第３実施形態の少なくとも何れかに適用されてもよい。即ち、本実施形態でも、発話期間の末尾における音声の基本周波数の傾きが疑問発話閾値より大きい場合、及び、発話期間の冒頭及び末尾の少なくとも一方に所定の語句を含む場合、の少なくとも何れかの場合に、発話期間の音声を疑問発話として検出してもよい。

本実施形態では、通話相手の音声を表す音声信号に基づいて通話保留期間を検出する。また、本実施形態では、通話相手の音声における無音期間が保留期間閾値よりも長い無音期間を通話保留期間として検出する。通話保留期間内は、通話相手側で発生する音声、即ち、通話相手の発話及び通話相手側の背景雑音は、ユーザに対して遮断されるためである。従って、通話相手の音声における無音期間が保留期間閾値よりも長い無音期間を通話保留期間として検出することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。
［第５実施形態］
次に、開示の技術の実施形態の一例である第５実施形態を説明する。第１実施形態〜第４実施形態と同様の構成及び作用については説明を省略する。

第５実施形態では、通話保留状態であるか否かを判定する際に、図１１に例示するように、音声信号受信部２５によって受信される音声信号を使用する。

ＣＰＵ２１は、図４のステップ１０３で、例えば、音声信号受信部２５によって受信される音声信号で表される音声が楽音であるか否かを判定する。通話保留期間内は、保留メロディなどの楽音の再生が、一般的に、行われるためである。

楽音であるか否かは、例えば、音の疎密度に基づいて判定する。楽音を表す音声信号のパワーを表す波形は、発話を表す音声信号のパワーの波形と比較して滑らかであり、当該波形を正規化すると、楽音を含む音声の密度は発話を含む音声の密度と比較して高い。

なお、ステップ１０３で、通話保留状態であるか否かの判定を行う前に、所定期間、音声信号受信部２５によって受信される音声信号を蓄積した後、蓄積した音声信号を用いてステップ１０３の判定を行うようにしてもよい。所定の期間は、例えば、１秒である。

本実施形態では、通話相手の音声を表す音声信号に基づいて通話保留期間を検出する。また、本実施形態では、通話相手の音声における楽音期間が保留期間閾値よりも長い楽音期間を通話保留期間として検出する。通話保留期間内は、保留メロディなどの楽音の再生が、一般的に、行われるためである。従って、通話相手の音声における楽音期間が保留期間閾値よりも長い楽音期間を通話保留期間として検出することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。
［第６実施形態］
次に、開示の技術の実施形態の一例である第６実施形態を説明する。第１実施形態〜第５実施形態と同様の構成及び作用については説明を省略する。

第６実施形態では、困惑状態であるか否かを判定するための困惑閾値を、過去の通話保留期間において取得された疑問発話の頻度に基づいて設定する。第６実施形態では、図１２に例示するように、二次記憶部２３は、過去の通話保留期間において取得された疑問発話の頻度を蓄積する疑問発話頻度記憶部２３Ｃを含む。

ＣＰＵ２１は、例えば、図４のステップ１０３で通話保留状態ではないと判定され、かつ、ステップ１１３で疑問発話の頻度を取得している場合、当該疑問発話の頻度を疑問発話頻度記憶部２３Ｃに蓄積する。ＣＰＵ２１は、ステップ１１４で使用する困惑閾値を、疑問発話頻度記憶部２３Ｃに蓄積されている疑問発話頻度に基づいて算出する。詳細には、例えば、式（３）に示すように、疑問発話頻度記憶部２３Ｃに蓄積されている疑問発話頻度の平均値Ｆａｖｅに所定値Ｃａを乗算した値を困惑閾値としてもよい。
困惑閾値＝Ｆａｖｅ＊Ｃａ
なお、疑問発話頻度の平均値Ｆａｖｅに代えて、疑問発話頻度の中央値、又は最小値などを使用してもよいし、所定値を乗算することに代えて、所定値を加算するようにしてもよい。

なお、本実施形態は、第１実施形態〜第５実施形態の少なくとも何れかに適用されてもよい。即ち、本実施形態でも、発話期間の末尾における音声の基本周波数の傾きが疑問発話閾値より大きい場合、及び、発話期間の冒頭及び末尾の少なくとも一方に所定の語句を含む場合、の少なくとも何れかの場合に、発話期間の音声を疑問発話として検出してもよい。また、本実施形態でも、通話相手の音声における無音期間が保留期間閾値よりも長い無音期間を通話保留期間として検出してもよいし、通話相手の音声における楽音期間が保留期間閾値よりも長い楽音期間を通話保留期間として検出してもよい。

人間は、困惑状態に陥ると、独り言を発することが多い。しかしながら、通話中の疑問発話は、通話相手に対して行った質問であるのか、独り言であるのか、判別が困難である。また、一般的には、通話相手への配慮から通話中に独り言を発することは少ない。従って、本実施形態では、通話保留期間内の疑問発話の頻度を通話保留期間内に取得し、当該頻度が困惑閾値以上である場合にユーザが困惑状態であると判定することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。

本実施形態では、困惑閾値は、過去の通話保留期間において取得された疑問発話の頻度に基づいて算出される。過去の通話保留期間において取得された疑問発話の頻度に基づいて困惑閾値を算出することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。また、ユーザ毎に、過去の通話保留期間において取得された疑問発話の頻度を蓄積し、当該過去の通話保留期間において取得された疑問発話の頻度に基づいて困惑閾値を算出する場合、ユーザ固有の特性に適した困惑閾値を設定することが可能となる。従って、ユーザの困惑状態の判定精度を向上させることを可能とする。

Claims

通話音声の入力を受け付ける音声受付部と、
通話音声の通話保留期間内における疑問発話を検出し、前記通話保留期間内に検出した前記疑問発話の頻度を算出し、前記算出した前記疑問発話の頻度が第１閾値以上である場合にユーザが困惑状態であると判定する制御部と、
を含む困惑状態判定装置。
前記制御部は、前記第１閾値を前記通話保留期間が長くなるに従って小さくなるように変更する、
請求項１に記載の困惑状態判定装置。
前記制御部は、前記第１閾値を過去の通話保留期間において取得された前記疑問発話の頻度に基づいて算出する、
請求項１に記載の困惑状態判定装置。
前記制御部は、発話期間の末尾における音声の基本周波数の傾きが第２閾値より大きい場合に、前記発話期間の音声を疑問発話として検出する、
請求項１〜請求項３の何れか１項に記載の困惑状態判定装置。
前記制御部は、発話期間の冒頭及び末尾の少なくとも一方に所定の語句を含む場合に、前記発話期間の音声を疑問発話として検出する、請求項１〜請求項４の何れか１項に記載の困惑状態判定装置。
前記制御部は、通話相手の音声を表す音声信号に基づいて前記通話保留期間を検出する、
請求項１〜請求項５の何れか１項に記載の困惑状態判定装置。
前記制御部は、前記通話相手の音声を表す音声信号に含まれる無音期間が第３閾値よりも長い前記無音期間を前記通話保留期間として検出する、
請求項６に記載の困惑状態判定装置。
前記制御部は、前記通話相手の音声を表す音声信号に含まれる楽音期間が第３閾値よりも長い前記楽音期間を前記通話保留期間として検出する、
請求項６に記載の困惑状態判定装置。
コンピュータが、
ユーザの音声に含まれる疑問発話を検出し、
通話保留期間内に検出した前記疑問発話の単位時間毎の数である前記疑問発話の頻度を取得し、
取得した前記疑問発話の頻度が第１閾値以上である場合に前記ユーザが困惑状態であると判定する、
困惑状態判定方法。
前記第１閾値は、前記通話保留期間が長くなるに従って小さくなるように変更される、
請求項９に記載の困惑状態判定方法。
前記第１閾値は、過去の通話保留期間において取得された前記疑問発話の頻度に基づいて算出される、
請求項９に記載の困惑状態判定方法。
発話期間の末尾における前記音声の基本周波数の傾きが第２閾値より大きい場合に、前記発話期間の音声を疑問発話として検出する、
請求項９〜請求項１１の何れか１項に記載の困惑状態判定方法。
発話期間の冒頭及び末尾の少なくとも一方に所定の語句を含む場合に、前記発話期間の音声を疑問発話として検出する、請求項９〜請求項１１の何れか１項に記載の困惑状態判定方法。
前記コンピュータは、
通話相手の音声を表す音声信号に基づいて前記通話保留期間を検出する、
ことをさらに含む、
請求項９〜請求項１３の何れか１項に記載の困惑状態判定方法。
前記通話相手の音声を表す音声信号に含まれる無音期間が第３閾値よりも長い前記無音期間を前記通話保留期間として検出する、
請求項１４に記載の困惑状態判定方法。
前記通話相手の音声を表す音声信号に含まれる楽音期間が第３閾値よりも長い前記楽音期間を前記通話保留期間として検出する、
請求項１４に記載の困惑状態判定方法。
ユーザの音声に含まれる疑問発話を検出し、
通話保留期間内に検出した前記疑問発話の単位時間毎の数である前記疑問発話の頻度を取得し、
取得した前記疑問発話の頻度が第１閾値以上である場合に前記ユーザが困惑状態であると判定する、
困惑状態判定処理をコンピュータに実行させるためのプログラム。
前記第１閾値は、前記通話保留期間が長くなるに従って小さくなるように変更される、
請求項１７に記載のプログラム。
前記第１閾値は、過去の通話保留期間において取得された前記疑問発話の頻度に基づいて算出される、
請求項１７に記載のプログラム。
発話期間の末尾における前記音声の基本周波数の傾きが第２閾値より大きい場合に、前記発話期間の音声を疑問発話として検出する、
請求項１７〜請求項１９の何れか１項に記載のプログラム。
発話期間の冒頭及び末尾の少なくとも一方に所定の語句を含む場合に、前記発話期間の音声を疑問発話として検出する、請求項１７〜請求項１９の何れか１項に記載のプログラム。
前記困惑状態判定処理は、
通話相手の音声を表す音声信号に基づいて前記通話保留期間を検出する、
ことをさらに含む、
請求項１７〜請求項２１の何れか１項に記載のプログラム。
前記通話相手の音声を表す音声信号に含まれる無音期間が第３閾値よりも長い前記無音期間を前記通話保留期間として検出する、
請求項２２に記載のプログラム。
前記通話相手の音声を表す音声信号に含まれる楽音期間が第３閾値よりも長い前記楽音期間を前記通話保留期間として検出する、
請求項２２に記載のプログラム。