JPWO2014069076A1

JPWO2014069076A1 - 会話分析装置及び会話分析方法

Info

Publication number: JPWO2014069076A1
Application number: JP2014544356A
Authority: JP
Inventors: 祥史大西; 真寺尾; 真宏谷; 岡部　浩司; 浩司岡部
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-10-31
Filing date: 2013-08-21
Publication date: 2016-09-08
Also published as: WO2014069076A1; US20150310877A1; WO2014069076A8

Abstract

会話分析装置は、対象会話の音声に対応するデータに基づいて、複数の会話参加者の各々に関し、感情状態の複数の所定変化パターンをそれぞれ検出する変化検出部と、変化検出部により検出される複数の所定変化パターンの中から、当該複数の会話参加者間における、所定位置条件を満たす所定変化パターンの所定組み合わせである、始端組み合わせ及び終端組み合わせを特定する特定部と、特定部により特定される始端組み合わせ及び終端組み合わせに関する対象会話内の各時間位置に基づいて始端時間及び終端時間を決定することにより、始端時間及び終端時間を持つ、対象会話の会話参加者の特定感情を表す特定感情区間を決定する区間決定部と、を有する。

Description

本発明は、会話の分析技術に関する。

会話を分析する技術の一例として、通話データを分析する技術がある。例えば、コールセンタ、コンタクトセンタなどと呼ばれる部署で行われる通話のデータが分析される。以降、このような、商品やサービスに関する問い合わせや苦情や注文といった顧客からの電話に応対する業務を専門的に行う部署をコンタクトセンタと表記する。

コンタクトセンタに寄せられる顧客の声には、顧客ニーズや満足度などが反映されている場合が多く、顧客との通話からそのような顧客の感情やニーズを抽出することは、リピータ顧客を増加させるために企業にとって大変重要である。このように話者の感情等を抽出することが望まれる対象通話は、コンタクトセンタにおける通話だけに留まらない。

下記特許文献１には、通話内容の最初の一定時間のデータから声量初期値を測定し、最初の一定時間以降から通話の最後までの声量を測定し、声量初期値に対して値が最大でどの程度変化しているかを算出し、声量初期値に対する変化率を基にＣＳ（顧客満足度）レベルを設定し、当該通話内容から音声認識により抽出されるキーワードの中に特定のキーワードが含まれていた場合、設定したＣＳレベルを更新するといった手法が提案されている。下記特許文献２には、音声分析により音声信号から、基本周波数の最大値、標準偏差、範囲、平均及び勾配、第１フォーマント及び第２フォーマントの帯域幅の平均、話速などを抽出し、これらから音声信号に付随する感情を推定する手法が提案されている。下記特許文献３には、第１話者と第２話者との所定数の発話対をセグメントとして抽出し、発話対毎に発話状況に関わる対話的特徴量（発話時間、相槌回数など）を算出し、対話的特徴量をセグメント毎に集計することで特徴ベクトルを求め、この特徴ベクトルに基づいて、セグメント毎にクレームスコアを算出し、このクレームスコアが所定閾値より高いセグメントをクレームセグメントと特定する手法が提案されている。

特開２００５−２５２８４５号公報特表２００３−５０８８０５号公報特開２０１０−１７５６８４号公報

しかしながら、上述のような各提案手法では、会話（通話）内における通話者の特定感情が表われる区間を精度よく取得することはできない。例えば、上記特許文献１の手法では、通話全体の顧客満足度の推定が行われている。また、上記特許文献３の手法では、最終的に通話全体がクレーム通話であるか否かを判定することを目的としているため、予め定められた数の発話対を判定単位としている。よって、これら手法は、通話者の特定感情が表われる局所的な区間を高精度に取得することには向いていない。

上記特許文献２の手法では、局所的に通話者の特定感情が推定されるかもしれないが、通話者の特異の事象に対しては脆弱であり、この特異の事象により推定精度が低下する恐れがある。通話者の特異の事象としては、咳、くしゃみ、その通話外の声や音などがあり得る。通話外の声や音とは、例えば、通話者の電話機から入ってくる環境音やその通話者がその通話に関与しない人に対して話す声などがある。

本発明は、このような事情に鑑みてなされたものであり、会話における会話に参加する者（以下、会話参加者と表記する）の特定感情を表す区間を高精度に特定する技術を提供する。

本発明の各態様では、上述した課題を解決するために、それぞれ以下の構成を採用する。

第１の態様は、会話分析装置に関する。第１態様に係る会話分析装置は、対象会話の音声に対応するデータに基づいて、複数の会話参加者の各々に関し、感情状態の複数の所定変化パターンをそれぞれ検出する変化検出部と、変化検出部により検出される複数の所定変化パターンの中から、当該複数の会話参加者間における、所定位置条件を満たす所定変化パターンの所定組み合わせである、始端組み合わせ及び終端組み合わせを特定する特定部と、特定部により特定される始端組み合わせ及び終端組み合わせに関する対象会話内の各時間位置に基づいて始端時間及び終端時間を決定することにより、始端時間及び終端時間を持つ、対象会話の会話参加者の特定感情を表す特定感情区間を決定する区間決定部と、を有する。

第２の態様は、少なくとも１つのコンピュータにより実行される会話分析方法に関する。第２態様に係る会話分析方法は、対象会話の音声に対応するデータに基づいて、複数の会話参加者の各々に関し、感情状態の複数の所定変化パターンをそれぞれ検出し、検出される複数の所定変化パターンの中から、複数の会話参加者間における、所定位置条件を満たす所定変化パターンの所定組み合わせである、始端組み合わせ及び終端組み合わせを特定し、特定される始端組み合わせ及び終端組み合わせに関する対象会話内の各時間位置に基づいて、対象会話の会話参加者の特定感情を表す特定感情区間の始端時間及び終端時間を決定する、ことを含む。

なお、本発明の他の態様としては、上記第１の態様における各構成を少なくとも１つのコンピュータに実現させるプログラムであってもよいし、このようなプログラムを記録したコンピュータが読み取り可能な記録媒体であってもよい。この記録媒体は、非一時的な有形の媒体を含む。

上記各態様によれば、会話における会話参加者の特定感情を表す区間を高精度に特定する技術を提供することができる。

上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

第１実施形態におけるコンタクトセンタシステムの構成例を示す概念図である。第１実施形態における通話分析サーバの処理構成例を概念的に示す図である。特定感情区間の決定例を概念的に示す図である。特定感情区間の他の決定例を概念的に示す図である。分析結果画面の例を示す図である。第１実施形態における通話分析サーバの動作例を示すフローチャートである。特定感情区間の具体例を概念的に示す図である。特定感情区間の具体例を概念的に示す図である。通話者の特異の事象の具体例を示す図である。第２実施形態における通話分析サーバの処理構成例を概念的に示す図である。第２実施形態における平滑化処理の例を概念的に示す図である。第３実施形態における通話分析サーバの動作例を示すフローチャートである。

以下、本発明の実施の形態について説明する。なお、以下に挙げる各実施形態はそれぞれ例示であり、本発明は以下の各実施形態の構成に限定されない。

本実施形態に係る会話分析装置は、対象会話の音声に対応するデータに基づいて、複数の会話参加者の各々に関し、感情状態の複数の所定変化パターンをそれぞれ検出する変化検出部と、変化検出部により検出される複数の所定変化パターンの中から、当該複数の会話参加者間における、所定位置条件を満たす所定変化パターンの所定組み合わせである、始端組み合わせ及び終端組み合わせを特定する特定部と、特定部により特定される始端組み合わせ及び終端組み合わせに関する対象会話内の各時間位置に基づいて始端時間及び終端時間を決定することにより、始端時間及び終端時間を持つ、対象会話の会話参加者の特定感情を表す特定感情区間を決定する区間決定部と、を有する。

本実施形態に係る会話分析方法は、少なくとも１つのコンピュータにより実行され、対象会話の音声に対応するデータに基づいて、複数の会話参加者の各々に関し、感情状態の複数の所定変化パターンをそれぞれ検出し、検出される複数の所定変化パターンの中から、複数の会話参加者間における、所定位置条件を満たす所定変化パターンの所定組み合わせである、始端組み合わせ及び終端組み合わせを特定し、特定される始端組み合わせ及び終端組み合わせに関する対象会話内の各時間位置に基づいて、対象会話の会話参加者の特定感情を表す特定感情区間の始端時間及び終端時間を決定する、ことを含む。

ここで、会話とは、２以上の話者が、言語の発声などによる意思表示によって、話をすることを意味する。会話には、銀行の窓口や店舗のレジ等のように、会話参加者が直接、話をする形態もあれば、通話機を用いた通話やテレビ会議等のように、離れた位置にいる会話参加者同士が話をする形態もあり得る。音声には、対象会話の会話参加者の声に加えて、人間以外の物から生じる音や、その対象会話外の声や音も含まれる。また、音声に対応するデータには、音声データ、音声データに対する処理により得られるデータなどが含まれる。

本実施形態では、各会話参加者に関し、感情状態の複数の所定変化パターンがそれぞれ検出される。感情状態の所定変化パターンとは、予め決められた感情状態の変化形態を意味する。また、感情状態とは、不満（怒り）、満足感、興味、感動、喜びなどのような人間が抱く心的状態を意味する。ここでは、感情状態には、謝罪などのような、或る心的状態（詫びる気持ち）から直接的に導かれる行為も含まれる。例えば、平常状態から不満（怒り）状態への変化、不満状態から平常状態への変化、平常状態から謝罪状態への変化等が当該所定変化パターンに該当する。なお、本実施形態では、当該所定変化パターンは、検出対象となる会話参加者の特定感情に関連する感情状態の変化形態であれば、制限されない。

更に、本実施形態では、上述のように検出された複数の所定変化パターンの中から、当該始端組み合わせ及び当該終端組み合わせが特定される。始端組み合わせ及び終端組み合わせとは、或る一人の会話参加者に関し検出された所定変化パターンと、他の会話参加者に関し検出された所定変化パターンとの予め決められた組み合わせであり、かつ、その組み合わせに係る各所定変化パターンが所定位置条件を満たす組み合わせである。始端組み合わせは、最終的に決定される特定感情区間の始端を決めるための組み合わせであり、終端組み合わせは、当該特定感情区間の終端を決めるための組み合わせである。当該所定位置条件は、その組み合わせに係る所定変化パターン間の時間差又は発話区間数などで規定される。所定位置条件は、一方の会話参加者で所定変化パターンが生じてから他方の会話参加者で所定変化パターンが生じるまでの間の、自然な対話となり得る最大時間などから決定される。

続いて、本実施形態では、特定された始端組み合わせ及び終端組み合わせに関する対象会話内の各時間位置に基づいて、対象会話の会話参加者の特定感情を表す特定感情区間の始端時間及び終端時間が決定される。このように、本実施形態では、複数の会話参加者間における感情状態の変化の組み合わせを用いることで、会話参加者の特定感情を表す区間が決定される。

従って、本実施形態によれば、感情認識処理の誤認識の影響を受け難くすることができる。仮に、感情認識処理の誤認識により本来存在しない位置に特定感情が検出されている場合でも、その誤認識された特定感情は、当該始端組み合わせ又は当該終端組み合わせに該当しなければ、特定感情区間の決定の材料から排除されるからである。

更に、本実施形態によれば、上述のような会話参加者の特異の事象の影響を受け難くすることができる。このような特異の事象についても、当該始端組み合わせ又は当該終端組み合わせに該当しなければ、特定感情区間の決定に影響を与えないからである。

更に、本実施形態によれば、複数の会話参加者間における感情状態の変化の組み合わせから、特定感情区間の始端時間及び終端時間が決定されるため、対象会話内の局所的な対象区間を高精度に取得することができる。以上のように、本実施形態によれば、会話における会話参加者の特定感情を表す区間を高精度に特定することができる。

以下、上述の実施形態について更に詳細を説明する。以下には、詳細実施形態として、第１実施形態から第３実施形態を例示する。以下の各実施形態は、上述の会話分析装置及び会話分析方法をコンタクトセンタシステムに適用した場合の例である。よって、以下の詳細実施形態では、分析対象の会話は、コンタクトセンタにおける、顧客とオペレータとの間の通話となる。通話とは、二人以上の話者がそれぞれ利用する通話機能を持つ端末間が呼接続されてから呼切断されるまでの間の呼を意味する。また、会話参加者は、通話者であり、顧客とオペレータである。また、以下の詳細実施形態では、顧客の不満（怒り）が表出している区間が特定感情区間として決定される。但し、本実施形態は、決定される区間に関する特定感情を制限しない。例えば、顧客の満足感、顧客の関心度、オペレータのストレス感など他の特定感情が表われる区間が特定感情区間として決定されるようにしてもよい。

また、上述の会話分析装置及び会話分析方法は、通話データを扱うコンタクトセンタシステムへの適用に限定されるものではなく、会話データを扱う様々な態様に適用可能である。例えば、それらは、コンタクトセンタ以外の社内の通話管理システムや、個人が所有する、ＰＣ（Personal Computer）、固定電話機、携帯電話機、タブレット端末、スマートフォン等の通話端末などに適用することも可能である。更に、会話データとしては、例えば、銀行の窓口や店舗のレジにおける、担当者と顧客の会話データなどが例示できる。

［第１実施形態］
〔システム構成〕
図１は、第１実施形態におけるコンタクトセンタシステム１の構成例を示す概念図である。第１実施形態におけるコンタクトセンタシステム１は、交換機（ＰＢＸ）５、複数のオペレータ電話機６、複数のオペレータ端末７、ファイルサーバ９、通話分析サーバ１０等を有する。通話分析サーバ１０は、上述の実施形態における会話分析装置に相当する構成を含む。

交換機５は、通信網２を介して、顧客により利用される、ＰＣ、固定電話機、携帯電話機、タブレット端末、スマートフォン等の通話端末（顧客電話機）３と通信可能に接続されている。通信網２は、インターネットやＰＳＴＮ（Public Switched Telephone Network）等のような公衆網、無線通信ネットワーク等である。更に、交換機５は、コンタクトセンタの各オペレータが用いる各オペレータ電話機６とそれぞれ接続される。交換機５は、顧客からの呼を受け、その呼に応じたオペレータのオペレータ電話機６にその呼を接続する。

各オペレータは、オペレータ端末７をそれぞれ用いる。各オペレータ端末７は、コンタクトセンタシステム１内の通信網８（ＬＡＮ（Local Area Network）等）に接続される、ＰＣ等のような汎用コンピュータである。例えば、各オペレータ端末７は、各オペレータと顧客との間の通話における顧客の音声データ及びオペレータの音声データをそれぞれ録音する。顧客の音声データとオペレータの音声データとは、混合状態から所定の音声処理により分離されて生成されてもよい。なお、本実施形態は、このような音声データの録音手法及び録音主体を限定しない。各音声データの生成は、オペレータ端末７以外の他の装置（図示せず）により行われてもよい。

ファイルサーバ９は、一般的なサーバコンピュータにより実現される。ファイルサーバ９は、顧客とオペレータとの間の各通話の通話データを、各通話の識別情報と共にそれぞれ格納する。各通話データには、時間情報、顧客の音声データとオペレータの音声データとのペアなどがそれぞれ含まれる。各音声データには、顧客及びオペレータの声に加えて、顧客電話機３及びオペレータ端末７から入力される通話者以外の声や音も含まれてもよい。ファイルサーバ９は、顧客及びオペレータの各音声を録音する他の装置（各オペレータ端末７等）から、顧客の音声データとオペレータの音声データとを取得する。

通話分析サーバ１０は、ファイルサーバ９に格納される各通話データに関し、顧客の不満を表す特定感情区間をそれぞれ決定し、その特定感情区間を示す情報などを出力する。この出力は、通話分析サーバ１０が持つ表示装置への表示で実現されてもよいし、ＷＥＢサーバ機能によるユーザ端末上のブラウザへの表示で実現されてもよいし、プリンタへの印刷により実現されてもよい。

通話分析サーバ１０は、図１に示されるように、ハードウェア構成として、ＣＰＵ（Central Processing Unit）１１、メモリ１２、入出力インタフェース（Ｉ／Ｆ）１３、通信装置１４等を有する。メモリ１２は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ハードディスク、可搬型記憶媒体等である。入出力Ｉ／Ｆ１３は、キーボード、マウス等のようなユーザ操作の入力を受け付ける装置、表示装置やプリンタ等のようなユーザに情報を提供する装置などと接続される。通信装置１４は、通信網８を介して、ファイルサーバ９などと通信を行う。なお、通話分析サーバ１０のハードウェア構成は制限されない。

〔処理構成〕
図２は、第１実施形態における通話分析サーバ１０の処理構成例を概念的に示す図である。第１実施形態における通話分析サーバ１０は、通話データ取得部２０、認識処理部２１、変化検出部２２、特定部２３、区間決定部２４、対象決定部２５、表示処理部２６等を有する。これら各処理部は、例えば、ＣＰＵ１１によりメモリ１２に格納されるプログラムが実行されることにより実現される。また、当該プログラムは、例えば、ＣＤ（Compact Disc）、メモリカード等のような可搬型記録媒体やネットワーク上の他のコンピュータから入出力Ｉ／Ｆ１３を介してインストールされ、メモリ１２に格納されてもよい。

通話データ取得部２０は、ファイルサーバ９から、分析対象となる各通話の通話データを各通話の識別情報と共にそれぞれ取得する。通話データは、通話分析サーバ１０とファイルサーバ９との間の通信により取得されてもよいし、可搬型記録媒体を介して取得されてもよい。

認識処理部２１は、音声認識部２７、特定表現テーブル２８、感情認識部２９等を有する。認識処理部２１は、これら各処理部を用いて、通話データ取得部２０により取得された対象通話の通話データから、その対象通話の各通話者の特定感情状態を推定し、この推定結果に基づいて、その対象通話の各通話者に関し、特定感情状態を表す個別感情区間をそれぞれ検出する。この検出により、認識処理部２１は、各個別感情区間に関し、始端時間及び終端時間、並びに、その区間が表す特定感情状態の種別（例えば、怒り、謝罪など）をそれぞれ取得する。これら各処理部についても、他の処理部と同様に、プログラムの実行により実現される。認識処理部２１により推定される特定感情状態は、上述した所定変化パターンに含まれる感情状態である。

認識処理部２１は、通話データに含まれるオペレータ及び顧客の各音声データから、オペレータ及び顧客の各発話区間をそれぞれ検出するようにしてもよい。発話区間とは、通話の音声中、通話者が声を発している連続領域である。例えば、発話区間は、通話者の音声波形において所定値以上の音量が継続している区間として検出される。通常の通話は、各通話者の発話区間、無声区間などから形成される。この検出により、認識処理部２１は、各発話区間の始端時間及び終端時間を取得する。本実施形態は、発話区間の具体的検出方法を制限しない。発話区間は、音声認識部２７の音声認識処理によって検出されてもよい。また、オペレータの発話区間には、オペレータ端末７により入力された音も含まれ、顧客の発話区間には、顧客電話機３により入力された音も含まれてもよい。

音声認識部２７は、通話データに含まれるオペレータ及び顧客の各音声データの各発話区間に対して音声認識処理をそれぞれ行う。これにより、音声認識部２７は、当該通話データから、オペレータ音声及び顧客音声に対応する各音声テキストデータ及び各発声時間データをそれぞれ取得する。ここで、音声テキストデータとは、顧客又はオペレータにより発された声がテキスト化された文字データである。各発声時間データは、各音声テキストデータの発声時間をそれぞれ示し、各音声テキストデータが得られた各発話区間の始端時間及び終端時間をそれぞれ含む。なお、本実施形態では、この音声認識処理には、周知な手法が利用されればよく、その音声認識処理自体及びその音声認識処理で利用される各種音声認識パラメータを制限しない。

特定表現テーブル２８は、特定感情状態を表す特定表現データを保持する。特定表現データは、文字データとして保持される。例えば、特定表現テーブル２８は、「申し訳ございません」等のような謝罪表現データ、「ありがとうございます」等のようなお礼表現データ等を特定表現データとして保持する。例えば、認識処理部２１は、特定感情状態に「オペレータの謝罪」が含まれる場合、音声認識部２７の実行により得られた、オペレータの各発話区間の音声テキストデータの中から、特定表現テーブル２８に保持される謝罪表現データを検索し、謝罪表現データを含む発話区間を個別感情区間に決定する。

感情認識部２９は、対象通話の通話データに含まれるオペレータ及び顧客の少なくとも一方の音声データに対して感情認識処理をそれぞれ行う。例えば、感情認識部２９は、各発話区間における音声から韻律的特徴情報を取得し、この韻律的特徴情報を用いて、各発話区間が認識すべき特定感情状態を表すか否かを判定する。韻律的特徴情報としては、例えば、基本周波数や音声パワー等が利用される。なお、本実施形態では、この感情認識処理には、周知な手法が利用されればよく（以下の参考例を参照）、感情認識処理自体は制限されない。
参考例：野本済央ほか、「韻律情報と発話の時間的関係性を用いた対話音声からの怒り感情推定」、日本音響学会講演論文集、８９から９２頁、２０１０年３月

感情認識部２９は、ＳＶＭ（Support Vector Machine）の識別モデルを用いて、各発話区間が当該特定感情状態を表すか否かを判定するようにしてもよい。具体的には、特定感情状態に「顧客の怒り」が含まれる場合、感情認識部２９は、「怒り」と「平常」の発話区間の韻律的特徴情報を学習データとして与え、「怒り」と「平常」とを識別するように学習された識別モデルを予め保持するようにしてもよい。感情認識部２９は、認識すべき特定感情状態に対応する識別モデルを保持し、この識別モデルに、各発話区間の韻律的特徴情報を与えることにより、各発話区間が特定感情状態を表すか否かを判定する。認識処理部２１は、感情認識部２９により特定感情状態を表すと判定された発話区間を当該個別感情区間に決定する。

上述の音声認識部２７及び感情認識部２９では、発話区間に対し認識処理を実行する例が示されたが、例えば、不満があると発話と発話の間隔が長くなるといった性質を利用して、無音区間を用いて特定感情状態が推定されてもよい。このように、本実施形態は、認識処理部２１による個別感情区間の検出処理自体を制限しない。よって、上述の処理例以外の周知の手法を利用して、個別感情区間が検出されてもよい。

変化検出部２２は、認識処理部２１により決定される個別感情区間に関する情報に基づいて、対象通話の各通話者について、複数の所定変化パターンを、対象通話内の時間位置情報と共にそれぞれ検出する。変化検出部２２は、各通話者について、複数の所定変化パターンに関する情報をそれぞれ保持しており、この情報に基づいて、当該所定変化パターンを検出する。所定変化パターンに関する情報として、例えば、変化前の特定感情状態の種別と、変化後の特定感情状態の種別とのペアが保持される。

本実施形態では、例えば、変化検出部２２は、顧客に関し、平常状態から不満状態への変化パターン、及び、不満状態から平常状態又は満足状態への変化パターンを、複数の所定変化パターンとして検出し、オペレータに関し、平常状態から謝罪状態への変化パターン、及び、謝罪状態から平常状態又は満足状態への変化パターンを、複数の所定変化パターンとして検出する。

特定部２３は、始端組み合わせ及び終端組み合わせに関する情報を予め保持しており、この情報を用いて、上述したように、変化検出部２２により検出された複数の所定変化パターンの中から、始端組み合わせ及び終端組み合わせを特定する。始端組み合わせ及び終端組み合わせに関する情報としては、各通話者の所定変化パターンの組み合わせに係る情報と共に、当該所定位置条件が保持される。所定位置条件としては、例えば、顧客における平常状態から怒り状態への変化パターンが前に、オペレータにおける平常状態から謝罪状態への変化パターンが後ろに位置し、その変化パターン間の時間差が２秒以内といった情報が保持される。

本実施形態では、例えば、特定部２３は、顧客の平常状態から不満状態への変化パターンと、オペレータの平常状態から謝罪状態への変化パターンとの組み合わせを、始端組み合わせとして特定し、顧客の不満状態から平常状態又は満足状態への変化パターンと、オペレータの謝罪状態から平常状態又は満足状態への変化パターンとの組み合わせを、終端組み合わせとして特定する。

区間決定部２４は、上述のように特定感情区間を決定するために、特定部２３により特定される始端組み合わせ及び終端組み合わせに関する対象通話内の各時間位置に基づいて、その特定感情区間の始端時間及び終端時間を決定する。本実施形態では、例えば、区間決定部２４は、顧客の不満を表す区間を特定感情区間として決定する。区間決定部２４は、各始端組み合わせから各始端時間をそれぞれ決定し、各終端組み合わせから各終端時間をそれぞれ決定するようにしてもよい。この場合、或る始端時間と、その始端時間より後の時間で最も近い終端時間との間が特定感情区間に決定される。

但し、上述のように決定された特定感情区間と特定感情区間との間が時間的に接近している場合には、先頭の特定感情区間の始端と最後尾の特定感情区間の終端とで表わされる区間が特定感情区間に決定されるようにしてもよい。この場合、区間決定部２４は、次のような平滑化処理を行うことにより特定感情区間を決定する。

区間決定部２４は、特定部２３により特定される始端組み合わせ及び終端組み合わせに関する対象通話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、時間的に交互に並ぶ始端時間候補及び終端時間候補の中から、最先の始端時間候補からの時間差又は発話区間数が所定時間差又は所定発話区間数以下となる、最先の始端時間候補より後の第２始端時間候補、並びに、最先の始端時間候補と第２始端時間候補との間に位置する始端時間候補及び終端時間候補を除外した、残りの始端時間候補及び終端時間候補を、前記始端時間及び前記終端時間に決定する。

図３は、特定感情区間の決定例を概念的に示す図である。図３では、ＯＰはオペレータを示し、ＣＵは顧客を示す。図３の例では、始端組み合わせＳＣ１から始端時間候補ＳＴＣ１が取得され、始端組み合わせＳＣ２から始端時間候補ＳＴＣ２が取得される。また、終端組み合わせＥＣ１から終端時間候補ＥＴＣ１が取得され、終端組み合わせＥＣ２から終端時間候補ＥＴＣ２が取得される。図３では、ＳＴＣ１からＳＴＣ２までの間の時間差又は発話区間数が所定時間差又は所定発話区間数以下となるため、その間に位置するＥＴＣ１とＳＴＣ２とが除外され、ＳＴＣ１が始端時間に、ＥＴＣ２が終端時間にそれぞれ決定される。

また、始端時間候補と終端時間候補とが時間的に交互に並ばない場合もあり得る。この場合、区間決定部２４は、次のような平滑化処理を行うことにより特定感情区間を決定する。この場合、区間決定部２４は、終端時間候補を介在せず時間的に並ぶ複数の始端時間候補の中の最先の始端時間候補以外の除外、及び、始端時間候補を介在せず時間的に並ぶ複数の終端時間候補の中の最後尾の終端時間候補以外の除外の少なくとも一方により、残った始端時間候補及び終端時間候補を始端時間及び終端時間に決定するようにしてもよい。

図４は、特定感情区間の他の決定例を概念的に示す図である。図４の例では、ＳＴＣ１、ＳＴＣ２及びＳＴＣ３は、終端時間候補を介在せず時間的に並び、ＥＴＣ１及びＥＴＣ２は、始端時間候補を介在せず時間的に並ぶ。この場合、最先の始端時間候補ＳＴＣ１以外の始端時間候補ＳＴＣ２及びＳＴＣ３が除外され、最後尾の終端時間候補ＥＴＣ２以外の終端時間候補ＥＴＣ１が除外され、残った始端時間候補ＳＴＣ１が始端時間に、残った終端時間候補ＥＴＣ２が終端時間に決定される。

図３及び図４の例では、始端時間候補は、始端組み合わせに含まれる最先の特定感情区間の始端時間に設定され、終端時間候補は、終端組み合わせに含まれる最後尾の特定感情区間の終端時間に設定される。本実施形態は、始端組み合わせ及び終端組み合わせからの始端時間候補及び終端時間候補の決定方法を制限しない。始端組み合わせに含まれる特定感情区間の最大範囲の中間位置が始端時間候補に設定されてもよい。また、始端組み合わせに含まれる最先の特定感情区間の始端時間からマージン時間を差し引いた時間が始端時間候補に設定されてもよい。終端組み合わせに含まれる最後尾の特定感情区間の終端時間にマージン時間を加算した時間が終端時間候補に設定されてもよい。

対象決定部２５は、区間決定部２４により決定される特定感情区間から得られる基準時間を基準とする所定時間範囲を対象通話の通話者が特定感情を持った原因を表す原因分析対象区間に決定する。これは、特定感情が表出する区間の先頭周辺に、その特定感情の原因が存在する可能性が高いからである。これにより、基準時間は、特定感情区間の先頭周辺に設定されることが望ましい。例えば、基準時間は、特定感情区間の始端時間に設定される。原因分析対象区間は、基準時間を始端とした所定時間範囲に決定されてもよいし、基準時間を終端とした所定時間範囲に決定されてもよいし、基準時間を中心点とした所定範囲に決定されてもよい。

表示処理部２６は、認識処理部２１により決定される第１話者の複数の個別感情区間を表す複数の第１描画要素、及び、認識処理部２１により決定される第２話者の複数の個別感情区間を表す複数の第２描画要素、並びに、対象決定部２５により決定される原因分析対象区間を表す第３描画要素が、対象通話内の時系列に応じて並ぶ描画データを生成する。これにより、表示処理部２６は、描画データ生成部と呼ぶこともできる。表示処理部２６は、この描画データに基づいて分析結果画面を通話分析サーバ１０に入出力Ｉ／Ｆ１３を介して接続される表示装置に表示させる。また、表示処理部２６は、ＷＥＢサーバ機能を持ち、この描画データをＷＥＢクライアント装置に表示させるようにしてもよい。また、表示処理部２６は、区間決定部２４により決定される特定感情区間を表す第４描画要素を上記描画データに含めるようにしてもよい。

図５は、分析結果画面の例を示す図である。図５の例では、オペレータ（ＯＰ）の謝罪と顧客（ＣＵ）の怒りとの各個別感情区間がそれぞれ表されており、更に、特定感情区間と原因分析対象区間とが表されている。図５では、説明の便宜のため、特定感情区間が一点鎖線で示されるが、特定感情区間は表示されなくてもよい。

〔動作例〕
以下、第１実施形態における通話分析方法について図６を用いて説明する。図６は、第１実施形態における通話分析サーバ１０の動作例を示すフローチャートである。ここで、通話分析サーバ１０は、分析対象の通話データを既に取得している。

通話分析サーバ１０は、分析対象の通話データから、各通話者の特定感情状態を表す個別感情区間を検出する（Ｓ６０）。この検出は、音声認識処理や感情認識処理などの結果を用いて行われる。この検出により、例えば、通話分析サーバ１０は、各個別感情区間に関し始端時間及び終端時間をそれぞれ取得する。

通話分析サーバ１０は、各通話者について予め保持される複数の所定変化パターンに関する情報に基づいて、（Ｓ６０）で得られた個別感情区間の中から、各通話者に関し、特定感情状態の複数の所定変化パターンをそれぞれ検出する（Ｓ６１）。通話分析サーバ１０は、複数の所定変化パターンが検出されなかった場合（Ｓ６２；ＮＯ）、（Ｓ６０）で検出された各通話者の個別感情区間に関する情報を表示する分析結果画面を表示させる（Ｓ６８）。通話分析サーバ１０は、そのような情報を紙媒体に印刷するようにしてもよい（Ｓ６８）。

一方、通話分析サーバ１０は、複数の所定変化パターンが検出された場合（Ｓ６２；ＹＥＳ）、（Ｓ６１）で検出された複数の所定変化パターンの中から、各通話者の所定変化パターンの組み合わせである始端組み合わせ及び終端組み合わせを特定する（Ｓ６３）。通話分析サーバ１０は、始端組み合わせ及び終端組み合わせが特定されなかった場合（Ｓ６４；ＮＯ）、上述と同様に、（Ｓ６０）で検出された各通話者の個別感情区間に関する情報を表示する分析結果画面を表示させる（Ｓ６８）。

通話分析サーバ１０は、始端組み合わせ及び終端組み合わせが特定された場合（Ｓ６４；ＹＥＳ）、始端組み合わせから得られる始端時間候補及び終端組み合わせから得られる終端時間候補の平滑化処理を行う（Ｓ６５）。この平滑化処理により、特定感情区間の始端時間及び終端時間となり得る始端時間候補及び終端時間候補が絞られる。始端時間候補及び終端時間候補の全てが始端時間及び終端時間となる場合には、平滑化処理は実行されなくてもよい。

具体的には、通話分析サーバ１０は、時間的に交互に並ぶ始端時間候補及び終端時間候補の中から、最先の始端時間候補からの時間差又は発話区間数が所定時間差又は所定発話区間数以下となる、最先の始端時間候補より後の第２始端時間候補、並びに、最先の始端時間候補と第２始端時間候補との間に位置する始端時間候補及び終端時間候補を除外する。また、通話分析サーバ１０は、終端時間候補を介在せず時間的に並ぶ複数の始端時間候補の中の最先の始端時間候補以外の除外、及び、始端時間候補を介在せず時間的に並ぶ複数の終端時間候補の中の最後尾の終端時間候補以外の除外の少なくとも一方を実行する。

通話分析サーバ１０は、（Ｓ６５）の平滑化処理で残った始端時間候補及び終端時間候補を、特定感情区間の始端時間及び終端時間に決定する（Ｓ６６）。

更に、通話分析サーバ１０は、（Ｓ６６）で決められた特定感情区間から得られる基準時間を基準とする所定時間範囲を、対象通話の通話者が特定感情を持った原因を表す原因分析対象区間に決定する（Ｓ６７）。

通話分析サーバ１０は、（Ｓ６０）で検出された各通話者の個別感情区間、及び、（Ｓ６７）で決定された原因分析対象区間が対象通話内の時系列に応じて並ぶ分析結果画面を表示させる（Ｓ６８）。通話分析サーバ１０は、分析結果画面に相当する情報を紙媒体に印刷するようにしてもよい（Ｓ６８）。

なお、図６に例示されるフローチャートでは、複数の工程（処理）が順番に記載されているが、本実施形態で実行される工程の実行順序は、その記載の順番に制限されない。

〔第１実施形態の作用及び効果〕
上述したように第１実施形態では、各通話者の音声に対応するデータに基づいて、各通話者の特定感情状態を表す個別感情区間が検出され、検出された個別感情区間の中から、各通話者に関し、特定感情状態の複数の所定変化パターンがそれぞれ検出される。更に、第１実施形態では、検出された複数の所定変化パターンから、通話者間の所定変化パターンの組み合わせである始端組み合わせ及び終端組み合わせが特定される。そして、始端組み合わせ及び終端組み合わせから、通話者の特定感情を表す特定感情区間が決定される。このように、第１実施形態では、複数の通話者間における感情状態の変化の組み合わせを用いることで、通話者の特定感情を表す区間が決定される。

従って、第１実施形態によれば、特定感情区間を決定するにあたり、感情認識処理の誤認識の影響、及び、上述のような通話者の特異の事象の影響を受け難くすることができる。更に、第１実施形態によれば、複数の通話者間における感情状態の変化の組み合わせから、特定感情区間の始端時間及び終端時間が決定されるため、対象通話内の局所的な特定感情区間を高精度に取得することができる。以上のように、第１実施形態によれば、通話における通話者の特定感情を表す区間を高精度に特定することができる。

図７及び図８は、特定感情区間の具体例を概念的に示す図である。図７の例では、特定感情区間として顧客の不満を表す区間が決定される。顧客（ＣＵ）の平常状態から不満状態への変化、顧客（ＣＵ）の不満状態から平常状態への変化、オペレータ（ＯＰ）の平常状態から謝罪状態への変化、及び、オペレータの謝罪状態から平常状態への変化が、所定変化パターンとしてそれぞれ検出される。これら所定変化パターンの中から、顧客（ＣＵ）の平常状態から不満状態への変化とオペレータ（ＯＰ）の平常状態から謝罪状態への変化と組み合わせが始端組み合わせとして特定され、オペレータの謝罪状態から平常状態への変化と顧客の不満状態から平常状態への変化との組み合わせが終端組み合わせとして特定される。結果、図７の一点鎖線で示されるように、始端組み合わせから得られる始端時間と終端組み合わせから得られる終端時間との間が顧客の不満が表出していると推測される区間（特定感情区間）に決定される。

このように、第１実施形態によれば、顧客とオペレータとの間の感情状態の変化の組み合わせから、最終的な顧客の不満表出区間が推定されるため、この結果は、不満検出や謝罪検出の各々の誤検出に影響され難く、かつ、図９に示されるような通話者の特異の事象に影響され難い。つまり、第１実施形態によれば、高精度に、顧客の不満を表す区間を推定することができる。

図８の例では、顧客の満足感（喜び）を表す区間が特定感情区間として決定される。この場合、顧客の平常状態から喜び状態への変化とオペレータの平常状態から喜び状態への変化との組み合わせが始端組み合わせとして特定される。図８の例では、始端組み合わせと通話の終端との間が顧客の満足感（喜び）を表す区間に決定される。

図９は、通話者の特異の事象の具体例を示す図である。図９の例では、通話者以外の者（後ろで騒ぐ子供）と話す通話者の声「静かにしなさい。今電話中なんだから」がその通話中に顧客の発話として入力されている。この場合、感情認識処理では、この発話区間は、不満と認識される可能性が高い。しかし、オペレータはこのような状況では平常のままである。上述の第１実施形態によれば、顧客とオペレータとの感情状態の変化の組み合わせを用いるため、このような特異の事象の影響により、特定感情区間の推定精度が低下することを防ぐことができる。

また、第１実施形態では、始端組み合わせ及び終端組み合わせから始端時間候補及び終端時間候補を取得し、これらの中から、特定感情区間を定める始端時間及び終端時間となり得る始端時間候補及び終端時間候補を選別する。このとき、始端時間候補及び終端時間候補をそのまま始端時間及び終端時間として決めた場合、時間的に接近した特定感情区間群が存在する場合があり得る。また、始端時間候補が終端時間候補を介在させず連続的に並ぶ場合や、終端時間候補が始端時間候補を介在させず連続的に並ぶ場合があり得る。このような場合、第１実施形態では、始端時間候補及び終端時間候補の平滑化が行われ、最適な範囲が特定感情区間に決定される。これにより、第１実施形態によれば、対象通話内の局所的な特定感情区間を高精度に取得することができる。

［第２実施形態］
第２実施形態におけるコンタクトセンタシステム１は、上述の第１実施形態における平滑化処理に代え、又は、その平滑化処理に加えて、更に新たな方法で、始端時間候補及び終端時間候補の平滑化を行う。以下、第２実施形態におけるコンタクトセンタシステム１について、第１実施形態と異なる内容を中心に説明し、第１実施形態と同様の内容については適宜省略する。

〔処理構成〕
図１０は、第２実施形態における通話分析サーバ１０の処理構成例を概念的に示す図である。第２実施形態における通話分析サーバ１０は、第１実施形態の構成に加えて、信頼度決定部３０を更に有する。信頼度決定部３０は、他の処理部と同様に、例えば、ＣＰＵ１１によりメモリ１２に格納されるプログラムが実行されることにより実現される。

信頼度決定部３０は、区間決定部２４により始端時間候補及び終端時間候補が決定されると、始端時間候補が前に位置し終端時間候補が後ろに位置する、始端時間候補と終端時間候補との全組み合わせを特定する。信頼度決定部３０は、特定された各ペアについて、そのペアが示す時間範囲内における、他の始端時間候補及び他の終端時間候補の少なくとも一方の密度をそれぞれ算出する。例えば、信頼度決定部３０は、そのペアに係る始端時間候補と終端時間候補とが示す時間範囲内に存在する他の始端時間候補及び他の終端時間候補の少なくとも一方の数をそれぞれカウントし、そのカウント数を始端時間候補から終端時間候補までの時間で除算することにより、そのペアの密度を算出する。信頼度決定部３０は、各ペアについて、その算出された各密度に対応する各信頼度をそれぞれ決定する。信頼度決定部３０は、密度が高いペア程、高い信頼度を付与する。信頼度決定部３０は、上記カウント数が０のペアについては、最低信頼度を付与してもよい。

区間決定部２４は、第１実施形態と同様に、始端組み合わせ及び終端組み合わせから始端時間候補及び終端時間候補を決定し、上述の信頼度決定部３０により決定される各信頼度に基づいて、始端時間候補及び終端時間候補の中から、特定感情区間の始端時間及び終端時間を決定する。例えば、区間決定部２４は、時間範囲が一部でも重複する始端時間候補と終端時間候補との複数ペアについては、最も高い信頼度が付与された始端時間候補と終端時間候補とのペア以外を除外する。区間決定部２４は、残った始端時間候補及び終端時間候補を始端時間及び終端時間に決定する。

図１１は、第２実施形態における平滑化処理の例を概念的に示す図である。図１１の各符号は、図４と同様の要素をそれぞれ示す。信頼度決定部３０は、始端時間候補ＳＴＣ１、ＳＴＣ２及びＳＴＣ３と、終端時間候補ＥＴＣ１及びＥＴＣ２との全組み合わせに係る各ペアについて、信頼度１−１、１−２、２−１、２−２、３−１及び３−２を付与する。区間決定部２４は、図示される全てのペアが時間範囲が一部でも重複する始端時間候補と終端時間候補との複数ペアに該当するため、これらの中から、最も高い信頼度が付与された始端時間候補と終端時間候補とのペア以外を除外する。結果、区間決定部２４は、始端時間候補ＳＴＣ１を始端時間に決め、終端時間候補ＥＴＣ２を終端時間に決める。

〔動作例〕
第２実施形態における通話分析方法では、図６に示される（Ｓ６５）において、上述の信頼度を用いた平滑化処理が行われる。

〔第２実施形態の作用及び効果〕
上述のように第２実施形態では、始端組み合わせから得られる始端時間候補と終端組み合わせから得られる終端時間候補との各ペアについて、そのペアが示す時間範囲内に位置する始端時間候補及び終端時間候補の密度がそれぞれ算出され、この密度に対応する信頼度が各ペアについてそれぞれ決定される。そして、時間範囲が一部でも重複する始端時間候補と終端時間候補との複数ペアの中から、最高の信頼度を持つペアが特定感情区間の始端時間及び終端時間に決定される。

このように、第２実施形態によれば、通話者間の感情状態の所定変化パターンの組み合わせの、単位時間当たりの数が多い範囲が特定感情区間に決められるため、第２実施形態で決めた特定感情区間が特定感情を表す確度を向上させることができる。

［第３実施形態］
第３実施形態におけるコンタクトセンタシステム１は、上述の第２実施形態のように決定される信頼度を特定感情区間の信頼度に用いる。以下、第３実施形態におけるコンタクトセンタシステム１について、第１実施形態及び第２実施形態と異なる内容を中心に説明し、第１実施形態及び第２実施形態と同様の内容については適宜省略する。

〔処理構成〕
第３実施形態における信頼度決定部３０は、区間決定部２４により決定された特定感情区間に関し、その特定感情区間内に位置する、区間決定部２４により決定された始端時間候補及び終端時間候補の少なくとも一方の密度を算出し、算出された密度に対応する信頼度を決定する。その密度を算出するにあたり、信頼度決定部３０は、特定感情区間の始端時間及び終端時間に決定された始端時間候補及び終端時間候補以外の除外された始端時間候補及び終端時間候補も用いる。密度の算出手法及び密度から信頼度の決定手法については第２実施形態と同様である。

区間決定部２４は、信頼度決定部３０により決定される信頼度を、当該特定感情区間の信頼度に決定する。

表示処理部２６は、特定感情区間を表す第４描画要素を描画データに含める場合には、区間決定部２４により決定されるその特定感情区間の信頼度もその描画データに加えるようにしてもよい。

〔動作例〕
以下、第３実施形態における通話分析方法を図１２を用いて説明する。図１２は、第３実施形態における通話分析サーバ１０の動作例を示すフローチャートである。図１２では、図６と同じ内容の工程については図６と同じ符号が付されている。

第３実施形態では、通話分析サーバ１０は、工程（Ｓ６６）と工程（Ｓ６７）との間で、（Ｓ６６）で決定された特定感情区間の信頼度を決定する（Ｓ１２１）。この信頼度決定方法は、上述した通りである。

〔第３実施形態における作用及び効果〕
第３実施形態では、通話者間の感情状態の所定変化パターンの組み合わせの、単位時間当たりの数に対応する信頼度が特定感情区間に付与される。これにより、複数の特定感情区間が決定された場合に、その信頼度により、各特定感情区間の処理優先度などを決めることができる。

［変形例］
上述の通話分析サーバ１０は、複数のコンピュータにより実現されてもよい。例えば、通話データ取得部２０及び認識処理部２１は、通話分析サーバ１０以外のコンピュータにより実現されてもよい。この場合、通話分析サーバ１０は、通話データ取得部２０及び認識処理部２１に代え、対象通話に関し認識処理部２１により処理された結果、即ち、各通話者の複数の特定感情状態を表す複数の個別感情区間に関する情報を取得する情報取得部を有するようにすればよい。

また、上述の第３実施形態で示される各特定感情区間に付与される信頼度に応じて、最終的に決定する特定感情区間を絞るようにしてもよい。この場合、例えば、信頼度が所定閾値よりも高い特定感情区間のみが最終的に特定感情区間に決定されるようにしてもよい。

［他の実施形態］
上述の各実施形態では、通話データが扱われたが、上述の不満会話判定装置及び不満会話判定方法は、通話以外の会話データを扱う装置やシステムに適用されてもよい。この場合、例えば、分析対象となる会話を録音する録音装置がその会話が行われる場所（会議室、銀行の窓口、店舗のレジなど）に設置される。また、会話データが複数の会話参加者の声が混合された状態で録音される場合には、その混合状態から所定の音声処理により会話参加者毎の音声データに分離される。

上述の各実施形態及び各変形例は、内容が相反しない範囲で組み合わせることができる。

上記の各実施形態及び各変形例の一部又は全部は、以下の付記のようにも特定され得る。但し、各実施形態及び各変形例が以下の記載に限定されるものではない。

（付記１）
対象会話の音声に対応するデータに基づいて、複数の会話参加者の各々に関し、感情状態の複数の所定変化パターンをそれぞれ検出する変化検出部と、
前記変化検出部により検出される複数の所定変化パターンの中から、前記複数の会話参加者間における、所定位置条件を満たす前記所定変化パターンの所定組み合わせである、始端組み合わせ及び終端組み合わせを特定する特定部と、
前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間及び終端時間を決定することにより、該始端時間及び該終端時間を持つ前記対象会話の会話参加者の特定感情を表す特定感情区間を決定する区間決定部と、
を備える会話分析装置。

（付記２）
前記区間決定部は、前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、該終端時間候補を介在せず時間的に並ぶ複数の始端時間候補の中の最先の始端時間候補以外の除外、及び、該始端時間候補を介在せず時間的に並ぶ複数の終端時間候補の中の最後尾の終端時間候補以外の除外の少なくとも一方により、残った始端時間候補及び終端時間候補を前記始端時間及び前記終端時間に決定する、
付記１に記載の会話分析装置。

（付記３）
前記区間決定部は、前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、時間的に交互に並ぶ始端時間候補及び終端時間候補の中から、最先の始端時間候補からの時間差又は発話区間数が所定時間差又は所定発話区間数以内となる、該最先の始端時間候補より後の第２始端時間候補、並びに、該最先の始端時間候補と該第２始端時間候補との間に位置する始端時間候補及び終端時間候補を除外した、残りの始端時間候補及び終端時間候補を前記始端時間及び前記終端時間に決定する、
付記１又は２に記載の会話分析装置。

（付記４）
前記区間決定部により決定される始端時間候補と終端時間候補との各ペアについて、該ペアが示す時間範囲内に存在する他の始端時間候補及び他の終端時間候補の少なくとも一方の密度をそれぞれ算出し、更に、算出された各密度に対応する各信頼度をそれぞれ決定する信頼度決定部、
を更に備え、
前記区間決定部は、前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、前記信頼度決定部により決定される各信頼度に基づいて、該始端時間候補と該終端時間候補の中から前記始端時間及び前記終端時間を決定する、
付記１から３のいずれか１つに記載の会話分析装置。

（付記５）
前記区間決定部により決定される前記特定感情区間に関し、該特定感情区間内に位置する、前記区間決定部により決定される始端時間候補及び終端時間候補の少なくとも一方の密度を算出し、算出された密度に対応する信頼度を決定する信頼度決定部、
を更に備え、
前記区間決定部は、前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて前記始端時間候補及び前記終端時間候補を決定し、前記信頼度決定部により決定される信頼度を、前記特定感情区間の信頼度に決定する、
付記１から４のいずれか１つに記載の会話分析装置。

（付記６）
前記対象会話の音声に対応するデータから前記複数の会話参加者の各々に関しそれぞれ検出される複数の特定感情状態を表す、複数の個別感情区間に関する情報を取得する情報取得部、
を更に備え、
前記変化検出部は、前記情報取得部により取得される複数の個別感情区間に関する情報に基づいて、前記複数の会話参加者の各々について、前記複数の所定変化パターンを、前記対象会話内の時間位置情報と共に、それぞれ検出する、
付記１から５のいずれか１つに記載の会話分析装置。

（付記７）
前記変化検出部は、第１会話参加者に関し、平常状態から不満状態への変化パターン及び不満状態から平常状態又は満足状態への変化パターンを前記複数の所定変化パターンとして検出し、第２会話参加者に関し、平常状態から謝罪状態への変化パターン及び謝罪状態から平常状態又は満足状態への変化パターンを前記複数の所定変化パターンとして検出し、
前記特定部は、前記第１会話参加者の平常状態から不満状態への変化パターンと前記第２会話参加者の平常状態から謝罪状態への変化パターンとの組み合わせを前記始端組み合わせとして特定し、前記第１会話参加者の不満状態から平常状態又は満足状態への変化パターンと前記第２会話参加者の謝罪状態から平常状態又は満足状態への変化パターンとの組み合わせを前記終端組み合わせとして特定し、
前記区間決定部は、前記第１会話参加者の不満を表す区間を前記特定感情区間として決定する、
付記１から６のいずれか１つに記載の会話分析装置。

（付記８）
前記区間決定部により決定される特定感情区間から得られる基準時間を基準とする所定時間範囲を前記対象会話の会話参加者が前記特定感情を持った原因を表す原因分析対象区間に決定する対象決定部、
を更に備える付記１から７のいずれか１つに記載の会話分析装置。

（付記９）
第１会話参加者の前記複数の所定変化パターンに含まれる特定感情状態を表す個別感情区間を表す複数の第１描画要素、及び、第２会話参加者の前記複数の所定変化パターンに含まれる特定感情状態を表す個別感情区間を表す複数の第２描画要素、並びに、前記対象決定部により決定される前記原因分析対象区間を表す第３描画要素が、前記対象会話内の時系列に応じて並ぶ描画データを生成する描画データ生成部、
を更に備える付記１から８のいずれか１つに記載の会話分析装置。

（付記１０）
少なくとも１つのコンピュータにより実行される会話分析方法において、
対象会話の音声に対応するデータに基づいて、複数の会話参加者の各々に関し、感情状態の複数の所定変化パターンをそれぞれ検出し、
前記検出される複数の所定変化パターンの中から、前記複数の会話参加者間における、所定位置条件を満たす前記所定変化パターンの所定組み合わせである、始端組み合わせ及び終端組み合わせを特定し、
前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて、前記対象会話の会話参加者の特定感情を表す特定感情区間の始端時間及び終端時間を決定する、
ことを含む会話分析方法。

（付記１１）
前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、
前記終端時間候補を介在せず時間的に並ぶ複数の始端時間候補の中の最先の始端時間候補以外の除外、及び、前記始端時間候補を介在せず時間的に並ぶ複数の終端時間候補の中の最後尾の終端時間候補以外の除外の少なくとも一方を実行する、
ことを更に含み、
前記特定感情区間の決定は、残った始端時間候補及び終端時間候補を前記始端時間及び前記終端時間に決定する、
付記１０に記載の会話分析方法。

（付記１２）
前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、
時間的に交互に並ぶ始端時間候補及び終端時間候補の中から、最先の始端時間候補からの時間差又は発話区間数が所定時間差又は所定発話区間数以内となる、該最先の始端時間候補より後の第２始端時間候補、並びに、該最先の始端時間候補と該第２始端時間候補との間に位置する始端時間候補及び終端時間候補を除外する、
ことを更に含み、
前記特定感情区間の決定は、残りの始端時間候補及び終端時間候補を前記始端時間及び前記終端時間に決定する、
付記１０又は１１に記載の会話分析方法。

（付記１３）
前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、
前記始端時間候補と前記終端時間候補との各ペアについて、該ペアが示す時間範囲内に存在する他の始端時間候補及び他の終端時間候補の少なくとも一方の密度をそれぞれ算出し、
前記各ペアについて、前記算出された各密度に対応する各信頼度をそれぞれ決定する、
ことを更に含み、
前記特定感情区間の決定は、前記決定される各信頼度に基づいて、前記始端時間候補と前記終端時間候補の中から前記始端時間及び前記終端時間を決定する、
付記１０から１２のいずれか１つに記載の会話分析方法。

（付記１４）
前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、
前記特定感情区間に関し、該特定感情区間内に位置する、前記区間決定部により決定される始端時間候補及び終端時間候補の少なくとも一方の密度を算出し、
前記算出された密度に対応する信頼度を前記特定感情区間の信頼度に決定する、
ことを更に含む付記１０から１３のいずれか１つに記載の会話分析方法。

（付記１５）
前記対象会話の音声に対応するデータから前記複数の会話参加者の各々に関しそれぞれ検出される複数の特定感情状態を表す、複数の個別感情区間に関する情報を取得する、
ことを更に含み、
前記所定変化パターンの検出は、前記取得される複数の個別感情区間に関する情報に基づいて、前記複数の会話参加者の各々について、前記複数の所定変化パターンを、前記対象会話内の時間位置情報と共に、それぞれ検出する、
付記１０から１４のいずれか１つに記載の会話分析方法。

（付記１６）
前記所定変化パターンの検出は、第１会話参加者に関し、平常状態から不満状態への変化パターン及び不満状態から平常状態又は満足状態への変化パターンを前記複数の所定変化パターンとして検出し、第２会話参加者に関し、平常状態から謝罪状態への変化パターン及び謝罪状態から平常状態又は満足状態への変化パターンを前記複数の所定変化パターンとして検出し、
前記始端組み合わせ及び終端組み合わせの特定は、前記第１会話参加者の平常状態から不満状態への変化パターンと前記第２会話参加者の平常状態から謝罪状態への変化パターンとの組み合わせを前記始端組み合わせとして特定し、前記第１会話参加者の不満状態から平常状態又は満足状態への変化パターンと前記第２会話参加者の謝罪状態から平常状態又は満足状態への変化パターンとの組み合わせを前記終端組み合わせとして特定し、
前記特定感情区間の決定は、前記第１会話参加者の不満を表す区間を前記特定感情区間として決定する、
付記１０から１５のいずれか１つに記載の会話分析方法。

（付記１７）
前記特定感情区間から得られる基準時間を基準とする所定時間範囲を前記対象会話の会話参加者が前記特定感情を持った原因を表す原因分析対象区間に決定する、
ことを更に含む付記１０から１６のいずれか１つに記載の会話分析方法。

（付記１８）
第１会話参加者の前記複数の所定変化パターンに含まれる特定感情状態を表す個別感情区間を表す複数の第１描画要素、及び、第２会話参加者の前記複数の所定変化パターンに含まれる特定感情状態を表す個別感情区間を表す複数の第２描画要素、並びに、前記対象決定部により決定される前記原因分析対象区間を表す第３描画要素が、前記対象会話内の時系列に応じて並ぶ描画データを生成する、
ことを更に含む付記１０から１７のいずれか１つに記載の会話分析方法。

（付記１９）
少なくとも１つのコンピュータに、付記１０から１８のいずれか１つに記載の会話分析方法を実行させるプログラム。

（付記２０）
付記１９に記載のプログラムをコンピュータに読み取り可能に記録する記録媒体。

この出願は、２０１２年１０月３１日に出願された日本出願特願２０１２−２４０７６３号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

対象会話の音声に対応するデータに基づいて、複数の会話参加者の各々に関し、感情状態の複数の所定変化パターンをそれぞれ検出する変化検出部と、
前記変化検出部により検出される複数の所定変化パターンの中から、前記複数の会話参加者間における、所定位置条件を満たす前記所定変化パターンの所定組み合わせである、始端組み合わせ及び終端組み合わせを特定する特定部と、
前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間及び終端時間を決定することにより、該始端時間及び該終端時間を持つ前記対象会話の会話参加者の特定感情を表す特定感情区間を決定する区間決定部と、
を備える会話分析装置。
前記区間決定部は、前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、該終端時間候補を介在せず時間的に並ぶ複数の始端時間候補の中の最先の始端時間候補以外の除外、及び、該始端時間候補を介在せず時間的に並ぶ複数の終端時間候補の中の最後尾の終端時間候補以外の除外の少なくとも一方により、残った始端時間候補及び終端時間候補を前記始端時間及び前記終端時間に決定する、
請求項１に記載の会話分析装置。
前記区間決定部は、前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、時間的に交互に並ぶ始端時間候補及び終端時間候補の中から、最先の始端時間候補からの時間差又は発話区間数が所定時間差又は所定発話区間数以内となる、該最先の始端時間候補より後の第２始端時間候補、並びに、該最先の始端時間候補と該第２始端時間候補との間に位置する始端時間候補及び終端時間候補を除外した、残りの始端時間候補及び終端時間候補を前記始端時間及び前記終端時間に決定する、
請求項１又は２に記載の会話分析装置。
前記区間決定部により決定される始端時間候補と終端時間候補との各ペアについて、該ペアが示す時間範囲内に存在する他の始端時間候補及び他の終端時間候補の少なくとも一方の密度をそれぞれ算出し、更に、算出された各密度に対応する各信頼度をそれぞれ決定する信頼度決定部、
を更に備え、
前記区間決定部は、前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、前記信頼度決定部により決定される各信頼度に基づいて、該始端時間候補と該終端時間候補の中から前記始端時間及び前記終端時間を決定する、
請求項１から３のいずれか１項に記載の会話分析装置。
前記区間決定部により決定される前記特定感情区間に関し、該特定感情区間内に位置する、前記区間決定部により決定される始端時間候補及び終端時間候補の少なくとも一方の密度を算出し、算出された密度に対応する信頼度を決定する信頼度決定部、
を更に備え、
前記区間決定部は、前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて前記始端時間候補及び前記終端時間候補を決定し、前記信頼度決定部により決定される信頼度を、前記特定感情区間の信頼度に決定する、
請求項１から４のいずれか１項に記載の会話分析装置。
前記対象会話の音声に対応するデータから前記複数の会話参加者の各々に関しそれぞれ検出される複数の特定感情状態を表す、複数の個別感情区間に関する情報を取得する情報取得部、
を更に備え、
前記変化検出部は、前記情報取得部により取得される複数の個別感情区間に関する情報に基づいて、前記複数の会話参加者の各々について、前記複数の所定変化パターンを、前記対象会話内の時間位置情報と共に、それぞれ検出する、
請求項１から５のいずれか１項に記載の会話分析装置。
前記変化検出部は、第１会話参加者に関し、平常状態から不満状態への変化パターン及び不満状態から平常状態又は満足状態への変化パターンを前記複数の所定変化パターンとして検出し、第２会話参加者に関し、平常状態から謝罪状態への変化パターン及び謝罪状態から平常状態又は満足状態への変化パターンを前記複数の所定変化パターンとして検出し、
前記特定部は、前記第１会話参加者の平常状態から不満状態への変化パターンと前記第２会話参加者の平常状態から謝罪状態への変化パターンとの組み合わせを前記始端組み合わせとして特定し、前記第１会話参加者の不満状態から平常状態又は満足状態への変化パターンと前記第２会話参加者の謝罪状態から平常状態又は満足状態への変化パターンとの組み合わせを前記終端組み合わせとして特定し、
前記区間決定部は、前記第１会話参加者の不満を表す区間を前記特定感情区間として決定する、
請求項１から６のいずれか１項に記載の会話分析装置。
前記区間決定部により決定される特定感情区間から得られる基準時間を基準とする所定時間範囲を前記対象会話の会話参加者が前記特定感情を持った原因を表す原因分析対象区間に決定する対象決定部、
を更に備える請求項１から７のいずれか１項に記載の会話分析装置。
第１会話参加者の前記複数の所定変化パターンに含まれる特定感情状態を表す個別感情区間を表す複数の第１描画要素、及び、第２会話参加者の前記複数の所定変化パターンに含まれる特定感情状態を表す個別感情区間を表す複数の第２描画要素、並びに、前記対象決定部により決定される前記原因分析対象区間を表す第３描画要素が、前記対象会話内の時系列に応じて並ぶ描画データを生成する描画データ生成部、
を更に備える請求項１から８のいずれか１項に記載の会話分析装置。
少なくとも１つのコンピュータにより実行される会話分析方法において、
対象会話の音声に対応するデータに基づいて、複数の会話参加者の各々に関し、感情状態の複数の所定変化パターンをそれぞれ検出し、
前記検出される複数の所定変化パターンの中から、前記複数の会話参加者間における、所定位置条件を満たす前記所定変化パターンの所定組み合わせである、始端組み合わせ及び終端組み合わせを特定し、
前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて、前記対象会話の会話参加者の特定感情を表す特定感情区間の始端時間及び終端時間を決定する、
ことを含む会話分析方法。
前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、
前記終端時間候補を介在せず時間的に並ぶ複数の始端時間候補の中の最先の始端時間候補以外の除外、及び、前記始端時間候補を介在せず時間的に並ぶ複数の終端時間候補の中の最後尾の終端時間候補以外の除外の少なくとも一方を実行する、
ことを更に含み、
前記特定感情区間の決定は、残った始端時間候補及び終端時間候補を前記始端時間及び前記終端時間に決定する、
請求項１０に記載の会話分析方法。
前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、
時間的に交互に並ぶ始端時間候補及び終端時間候補の中から、最先の始端時間候補からの時間差又は発話区間数が所定時間差又は所定発話区間数以内となる、該最先の始端時間候補より後の第２始端時間候補、並びに、該最先の始端時間候補と該第２始端時間候補との間に位置する始端時間候補及び終端時間候補を除外する、
ことを更に含み、
前記特定感情区間の決定は、残りの始端時間候補及び終端時間候補を前記始端時間及び前記終端時間に決定する、
請求項１０又は１１に記載の会話分析方法。
前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、
前記始端時間候補と前記終端時間候補との各ペアについて、該ペアが示す時間範囲内に存在する他の始端時間候補及び他の終端時間候補の少なくとも一方の密度をそれぞれ算出し、
前記各ペアについて、前記算出された各密度に対応する各信頼度をそれぞれ決定する、
ことを更に含み、
前記特定感情区間の決定は、前記決定される各信頼度に基づいて、前記始端時間候補と前記終端時間候補の中から前記始端時間及び前記終端時間を決定する、
請求項１０から１２のいずれか１項に記載の会話分析方法。
前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、
前記特定感情区間に関し、該特定感情区間内に位置する、前記区間決定部により決定される始端時間候補及び終端時間候補の少なくとも一方の密度を算出し、
前記算出された密度に対応する信頼度を前記特定感情区間の信頼度に決定する、
ことを更に含む請求項１０から１３のいずれか１項に記載の会話分析方法。
少なくとも１つのコンピュータに、請求項１０から１４のいずれか１項に記載の会話分析方法を実行させるプログラム。