JPWO2014069076A1 - 会話分析装置及び会話分析方法 - Google Patents
会話分析装置及び会話分析方法 Download PDFInfo
- Publication number
- JPWO2014069076A1 JPWO2014069076A1 JP2014544356A JP2014544356A JPWO2014069076A1 JP WO2014069076 A1 JPWO2014069076 A1 JP WO2014069076A1 JP 2014544356 A JP2014544356 A JP 2014544356A JP 2014544356 A JP2014544356 A JP 2014544356A JP WO2014069076 A1 JPWO2014069076 A1 JP WO2014069076A1
- Authority
- JP
- Japan
- Prior art keywords
- time
- conversation
- candidate
- combination
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/51—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/20—Aspects of automatic or semi-automatic exchanges related to features of supplementary services
- H04M2203/2038—Call context notifications
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Telephonic Communication Services (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
会話分析装置は、対象会話の音声に対応するデータに基づいて、複数の会話参加者の各々に関し、感情状態の複数の所定変化パターンをそれぞれ検出する変化検出部と、変化検出部により検出される複数の所定変化パターンの中から、当該複数の会話参加者間における、所定位置条件を満たす所定変化パターンの所定組み合わせである、始端組み合わせ及び終端組み合わせを特定する特定部と、特定部により特定される始端組み合わせ及び終端組み合わせに関する対象会話内の各時間位置に基づいて始端時間及び終端時間を決定することにより、始端時間及び終端時間を持つ、対象会話の会話参加者の特定感情を表す特定感情区間を決定する区間決定部と、を有する。
Description
本発明は、会話の分析技術に関する。
会話を分析する技術の一例として、通話データを分析する技術がある。例えば、コールセンタ、コンタクトセンタなどと呼ばれる部署で行われる通話のデータが分析される。以降、このような、商品やサービスに関する問い合わせや苦情や注文といった顧客からの電話に応対する業務を専門的に行う部署をコンタクトセンタと表記する。
コンタクトセンタに寄せられる顧客の声には、顧客ニーズや満足度などが反映されている場合が多く、顧客との通話からそのような顧客の感情やニーズを抽出することは、リピータ顧客を増加させるために企業にとって大変重要である。このように話者の感情等を抽出することが望まれる対象通話は、コンタクトセンタにおける通話だけに留まらない。
下記特許文献1には、通話内容の最初の一定時間のデータから声量初期値を測定し、最初の一定時間以降から通話の最後までの声量を測定し、声量初期値に対して値が最大でどの程度変化しているかを算出し、声量初期値に対する変化率を基にCS(顧客満足度)レベルを設定し、当該通話内容から音声認識により抽出されるキーワードの中に特定のキーワードが含まれていた場合、設定したCSレベルを更新するといった手法が提案されている。下記特許文献2には、音声分析により音声信号から、基本周波数の最大値、標準偏差、範囲、平均及び勾配、第1フォーマント及び第2フォーマントの帯域幅の平均、話速などを抽出し、これらから音声信号に付随する感情を推定する手法が提案されている。下記特許文献3には、第1話者と第2話者との所定数の発話対をセグメントとして抽出し、発話対毎に発話状況に関わる対話的特徴量(発話時間、相槌回数など)を算出し、対話的特徴量をセグメント毎に集計することで特徴ベクトルを求め、この特徴ベクトルに基づいて、セグメント毎にクレームスコアを算出し、このクレームスコアが所定閾値より高いセグメントをクレームセグメントと特定する手法が提案されている。
しかしながら、上述のような各提案手法では、会話(通話)内における通話者の特定感情が表われる区間を精度よく取得することはできない。例えば、上記特許文献1の手法では、通話全体の顧客満足度の推定が行われている。また、上記特許文献3の手法では、最終的に通話全体がクレーム通話であるか否かを判定することを目的としているため、予め定められた数の発話対を判定単位としている。よって、これら手法は、通話者の特定感情が表われる局所的な区間を高精度に取得することには向いていない。
上記特許文献2の手法では、局所的に通話者の特定感情が推定されるかもしれないが、通話者の特異の事象に対しては脆弱であり、この特異の事象により推定精度が低下する恐れがある。通話者の特異の事象としては、咳、くしゃみ、その通話外の声や音などがあり得る。通話外の声や音とは、例えば、通話者の電話機から入ってくる環境音やその通話者がその通話に関与しない人に対して話す声などがある。
本発明は、このような事情に鑑みてなされたものであり、会話における会話に参加する者(以下、会話参加者と表記する)の特定感情を表す区間を高精度に特定する技術を提供する。
本発明の各態様では、上述した課題を解決するために、それぞれ以下の構成を採用する。
第1の態様は、会話分析装置に関する。第1態様に係る会話分析装置は、対象会話の音声に対応するデータに基づいて、複数の会話参加者の各々に関し、感情状態の複数の所定変化パターンをそれぞれ検出する変化検出部と、変化検出部により検出される複数の所定変化パターンの中から、当該複数の会話参加者間における、所定位置条件を満たす所定変化パターンの所定組み合わせである、始端組み合わせ及び終端組み合わせを特定する特定部と、特定部により特定される始端組み合わせ及び終端組み合わせに関する対象会話内の各時間位置に基づいて始端時間及び終端時間を決定することにより、始端時間及び終端時間を持つ、対象会話の会話参加者の特定感情を表す特定感情区間を決定する区間決定部と、を有する。
第2の態様は、少なくとも1つのコンピュータにより実行される会話分析方法に関する。第2態様に係る会話分析方法は、対象会話の音声に対応するデータに基づいて、複数の会話参加者の各々に関し、感情状態の複数の所定変化パターンをそれぞれ検出し、検出される複数の所定変化パターンの中から、複数の会話参加者間における、所定位置条件を満たす所定変化パターンの所定組み合わせである、始端組み合わせ及び終端組み合わせを特定し、特定される始端組み合わせ及び終端組み合わせに関する対象会話内の各時間位置に基づいて、対象会話の会話参加者の特定感情を表す特定感情区間の始端時間及び終端時間を決定する、ことを含む。
なお、本発明の他の態様としては、上記第1の態様における各構成を少なくとも1つのコンピュータに実現させるプログラムであってもよいし、このようなプログラムを記録したコンピュータが読み取り可能な記録媒体であってもよい。この記録媒体は、非一時的な有形の媒体を含む。
上記各態様によれば、会話における会話参加者の特定感情を表す区間を高精度に特定する技術を提供することができる。
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
以下、本発明の実施の形態について説明する。なお、以下に挙げる各実施形態はそれぞれ例示であり、本発明は以下の各実施形態の構成に限定されない。
本実施形態に係る会話分析装置は、対象会話の音声に対応するデータに基づいて、複数の会話参加者の各々に関し、感情状態の複数の所定変化パターンをそれぞれ検出する変化検出部と、変化検出部により検出される複数の所定変化パターンの中から、当該複数の会話参加者間における、所定位置条件を満たす所定変化パターンの所定組み合わせである、始端組み合わせ及び終端組み合わせを特定する特定部と、特定部により特定される始端組み合わせ及び終端組み合わせに関する対象会話内の各時間位置に基づいて始端時間及び終端時間を決定することにより、始端時間及び終端時間を持つ、対象会話の会話参加者の特定感情を表す特定感情区間を決定する区間決定部と、を有する。
本実施形態に係る会話分析方法は、少なくとも1つのコンピュータにより実行され、対象会話の音声に対応するデータに基づいて、複数の会話参加者の各々に関し、感情状態の複数の所定変化パターンをそれぞれ検出し、検出される複数の所定変化パターンの中から、複数の会話参加者間における、所定位置条件を満たす所定変化パターンの所定組み合わせである、始端組み合わせ及び終端組み合わせを特定し、特定される始端組み合わせ及び終端組み合わせに関する対象会話内の各時間位置に基づいて、対象会話の会話参加者の特定感情を表す特定感情区間の始端時間及び終端時間を決定する、ことを含む。
ここで、会話とは、2以上の話者が、言語の発声などによる意思表示によって、話をすることを意味する。会話には、銀行の窓口や店舗のレジ等のように、会話参加者が直接、話をする形態もあれば、通話機を用いた通話やテレビ会議等のように、離れた位置にいる会話参加者同士が話をする形態もあり得る。音声には、対象会話の会話参加者の声に加えて、人間以外の物から生じる音や、その対象会話外の声や音も含まれる。また、音声に対応するデータには、音声データ、音声データに対する処理により得られるデータなどが含まれる。
本実施形態では、各会話参加者に関し、感情状態の複数の所定変化パターンがそれぞれ検出される。感情状態の所定変化パターンとは、予め決められた感情状態の変化形態を意味する。また、感情状態とは、不満(怒り)、満足感、興味、感動、喜びなどのような人間が抱く心的状態を意味する。ここでは、感情状態には、謝罪などのような、或る心的状態(詫びる気持ち)から直接的に導かれる行為も含まれる。例えば、平常状態から不満(怒り)状態への変化、不満状態から平常状態への変化、平常状態から謝罪状態への変化等が当該所定変化パターンに該当する。なお、本実施形態では、当該所定変化パターンは、検出対象となる会話参加者の特定感情に関連する感情状態の変化形態であれば、制限されない。
更に、本実施形態では、上述のように検出された複数の所定変化パターンの中から、当該始端組み合わせ及び当該終端組み合わせが特定される。始端組み合わせ及び終端組み合わせとは、或る一人の会話参加者に関し検出された所定変化パターンと、他の会話参加者に関し検出された所定変化パターンとの予め決められた組み合わせであり、かつ、その組み合わせに係る各所定変化パターンが所定位置条件を満たす組み合わせである。始端組み合わせは、最終的に決定される特定感情区間の始端を決めるための組み合わせであり、終端組み合わせは、当該特定感情区間の終端を決めるための組み合わせである。当該所定位置条件は、その組み合わせに係る所定変化パターン間の時間差又は発話区間数などで規定される。所定位置条件は、一方の会話参加者で所定変化パターンが生じてから他方の会話参加者で所定変化パターンが生じるまでの間の、自然な対話となり得る最大時間などから決定される。
続いて、本実施形態では、特定された始端組み合わせ及び終端組み合わせに関する対象会話内の各時間位置に基づいて、対象会話の会話参加者の特定感情を表す特定感情区間の始端時間及び終端時間が決定される。このように、本実施形態では、複数の会話参加者間における感情状態の変化の組み合わせを用いることで、会話参加者の特定感情を表す区間が決定される。
従って、本実施形態によれば、感情認識処理の誤認識の影響を受け難くすることができる。仮に、感情認識処理の誤認識により本来存在しない位置に特定感情が検出されている場合でも、その誤認識された特定感情は、当該始端組み合わせ又は当該終端組み合わせに該当しなければ、特定感情区間の決定の材料から排除されるからである。
更に、本実施形態によれば、上述のような会話参加者の特異の事象の影響を受け難くすることができる。このような特異の事象についても、当該始端組み合わせ又は当該終端組み合わせに該当しなければ、特定感情区間の決定に影響を与えないからである。
更に、本実施形態によれば、複数の会話参加者間における感情状態の変化の組み合わせから、特定感情区間の始端時間及び終端時間が決定されるため、対象会話内の局所的な対象区間を高精度に取得することができる。以上のように、本実施形態によれば、会話における会話参加者の特定感情を表す区間を高精度に特定することができる。
以下、上述の実施形態について更に詳細を説明する。以下には、詳細実施形態として、第1実施形態から第3実施形態を例示する。以下の各実施形態は、上述の会話分析装置及び会話分析方法をコンタクトセンタシステムに適用した場合の例である。よって、以下の詳細実施形態では、分析対象の会話は、コンタクトセンタにおける、顧客とオペレータとの間の通話となる。通話とは、二人以上の話者がそれぞれ利用する通話機能を持つ端末間が呼接続されてから呼切断されるまでの間の呼を意味する。また、会話参加者は、通話者であり、顧客とオペレータである。また、以下の詳細実施形態では、顧客の不満(怒り)が表出している区間が特定感情区間として決定される。但し、本実施形態は、決定される区間に関する特定感情を制限しない。例えば、顧客の満足感、顧客の関心度、オペレータのストレス感など他の特定感情が表われる区間が特定感情区間として決定されるようにしてもよい。
また、上述の会話分析装置及び会話分析方法は、通話データを扱うコンタクトセンタシステムへの適用に限定されるものではなく、会話データを扱う様々な態様に適用可能である。例えば、それらは、コンタクトセンタ以外の社内の通話管理システムや、個人が所有する、PC(Personal Computer)、固定電話機、携帯電話機、タブレット端末、スマートフォン等の通話端末などに適用することも可能である。更に、会話データとしては、例えば、銀行の窓口や店舗のレジにおける、担当者と顧客の会話データなどが例示できる。
[第1実施形態]
〔システム構成〕
図1は、第1実施形態におけるコンタクトセンタシステム1の構成例を示す概念図である。第1実施形態におけるコンタクトセンタシステム1は、交換機(PBX)5、複数のオペレータ電話機6、複数のオペレータ端末7、ファイルサーバ9、通話分析サーバ10等を有する。通話分析サーバ10は、上述の実施形態における会話分析装置に相当する構成を含む。
〔システム構成〕
図1は、第1実施形態におけるコンタクトセンタシステム1の構成例を示す概念図である。第1実施形態におけるコンタクトセンタシステム1は、交換機(PBX)5、複数のオペレータ電話機6、複数のオペレータ端末7、ファイルサーバ9、通話分析サーバ10等を有する。通話分析サーバ10は、上述の実施形態における会話分析装置に相当する構成を含む。
交換機5は、通信網2を介して、顧客により利用される、PC、固定電話機、携帯電話機、タブレット端末、スマートフォン等の通話端末(顧客電話機)3と通信可能に接続されている。通信網2は、インターネットやPSTN(Public Switched Telephone Network)等のような公衆網、無線通信ネットワーク等である。更に、交換機5は、コンタクトセンタの各オペレータが用いる各オペレータ電話機6とそれぞれ接続される。交換機5は、顧客からの呼を受け、その呼に応じたオペレータのオペレータ電話機6にその呼を接続する。
各オペレータは、オペレータ端末7をそれぞれ用いる。各オペレータ端末7は、コンタクトセンタシステム1内の通信網8(LAN(Local Area Network)等)に接続される、PC等のような汎用コンピュータである。例えば、各オペレータ端末7は、各オペレータと顧客との間の通話における顧客の音声データ及びオペレータの音声データをそれぞれ録音する。顧客の音声データとオペレータの音声データとは、混合状態から所定の音声処理により分離されて生成されてもよい。なお、本実施形態は、このような音声データの録音手法及び録音主体を限定しない。各音声データの生成は、オペレータ端末7以外の他の装置(図示せず)により行われてもよい。
ファイルサーバ9は、一般的なサーバコンピュータにより実現される。ファイルサーバ9は、顧客とオペレータとの間の各通話の通話データを、各通話の識別情報と共にそれぞれ格納する。各通話データには、時間情報、顧客の音声データとオペレータの音声データとのペアなどがそれぞれ含まれる。各音声データには、顧客及びオペレータの声に加えて、顧客電話機3及びオペレータ端末7から入力される通話者以外の声や音も含まれてもよい。ファイルサーバ9は、顧客及びオペレータの各音声を録音する他の装置(各オペレータ端末7等)から、顧客の音声データとオペレータの音声データとを取得する。
通話分析サーバ10は、ファイルサーバ9に格納される各通話データに関し、顧客の不満を表す特定感情区間をそれぞれ決定し、その特定感情区間を示す情報などを出力する。この出力は、通話分析サーバ10が持つ表示装置への表示で実現されてもよいし、WEBサーバ機能によるユーザ端末上のブラウザへの表示で実現されてもよいし、プリンタへの印刷により実現されてもよい。
通話分析サーバ10は、図1に示されるように、ハードウェア構成として、CPU(Central Processing Unit)11、メモリ12、入出力インタフェース(I/F)13、通信装置14等を有する。メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク、可搬型記憶媒体等である。入出力I/F13は、キーボード、マウス等のようなユーザ操作の入力を受け付ける装置、表示装置やプリンタ等のようなユーザに情報を提供する装置などと接続される。通信装置14は、通信網8を介して、ファイルサーバ9などと通信を行う。なお、通話分析サーバ10のハードウェア構成は制限されない。
〔処理構成〕
図2は、第1実施形態における通話分析サーバ10の処理構成例を概念的に示す図である。第1実施形態における通話分析サーバ10は、通話データ取得部20、認識処理部21、変化検出部22、特定部23、区間決定部24、対象決定部25、表示処理部26等を有する。これら各処理部は、例えば、CPU11によりメモリ12に格納されるプログラムが実行されることにより実現される。また、当該プログラムは、例えば、CD(Compact Disc)、メモリカード等のような可搬型記録媒体やネットワーク上の他のコンピュータから入出力I/F13を介してインストールされ、メモリ12に格納されてもよい。
図2は、第1実施形態における通話分析サーバ10の処理構成例を概念的に示す図である。第1実施形態における通話分析サーバ10は、通話データ取得部20、認識処理部21、変化検出部22、特定部23、区間決定部24、対象決定部25、表示処理部26等を有する。これら各処理部は、例えば、CPU11によりメモリ12に格納されるプログラムが実行されることにより実現される。また、当該プログラムは、例えば、CD(Compact Disc)、メモリカード等のような可搬型記録媒体やネットワーク上の他のコンピュータから入出力I/F13を介してインストールされ、メモリ12に格納されてもよい。
通話データ取得部20は、ファイルサーバ9から、分析対象となる各通話の通話データを各通話の識別情報と共にそれぞれ取得する。通話データは、通話分析サーバ10とファイルサーバ9との間の通信により取得されてもよいし、可搬型記録媒体を介して取得されてもよい。
認識処理部21は、音声認識部27、特定表現テーブル28、感情認識部29等を有する。認識処理部21は、これら各処理部を用いて、通話データ取得部20により取得された対象通話の通話データから、その対象通話の各通話者の特定感情状態を推定し、この推定結果に基づいて、その対象通話の各通話者に関し、特定感情状態を表す個別感情区間をそれぞれ検出する。この検出により、認識処理部21は、各個別感情区間に関し、始端時間及び終端時間、並びに、その区間が表す特定感情状態の種別(例えば、怒り、謝罪など)をそれぞれ取得する。これら各処理部についても、他の処理部と同様に、プログラムの実行により実現される。認識処理部21により推定される特定感情状態は、上述した所定変化パターンに含まれる感情状態である。
認識処理部21は、通話データに含まれるオペレータ及び顧客の各音声データから、オペレータ及び顧客の各発話区間をそれぞれ検出するようにしてもよい。発話区間とは、通話の音声中、通話者が声を発している連続領域である。例えば、発話区間は、通話者の音声波形において所定値以上の音量が継続している区間として検出される。通常の通話は、各通話者の発話区間、無声区間などから形成される。この検出により、認識処理部21は、各発話区間の始端時間及び終端時間を取得する。本実施形態は、発話区間の具体的検出方法を制限しない。発話区間は、音声認識部27の音声認識処理によって検出されてもよい。また、オペレータの発話区間には、オペレータ端末7により入力された音も含まれ、顧客の発話区間には、顧客電話機3により入力された音も含まれてもよい。
音声認識部27は、通話データに含まれるオペレータ及び顧客の各音声データの各発話区間に対して音声認識処理をそれぞれ行う。これにより、音声認識部27は、当該通話データから、オペレータ音声及び顧客音声に対応する各音声テキストデータ及び各発声時間データをそれぞれ取得する。ここで、音声テキストデータとは、顧客又はオペレータにより発された声がテキスト化された文字データである。各発声時間データは、各音声テキストデータの発声時間をそれぞれ示し、各音声テキストデータが得られた各発話区間の始端時間及び終端時間をそれぞれ含む。なお、本実施形態では、この音声認識処理には、周知な手法が利用されればよく、その音声認識処理自体及びその音声認識処理で利用される各種音声認識パラメータを制限しない。
特定表現テーブル28は、特定感情状態を表す特定表現データを保持する。特定表現データは、文字データとして保持される。例えば、特定表現テーブル28は、「申し訳ございません」等のような謝罪表現データ、「ありがとうございます」等のようなお礼表現データ等を特定表現データとして保持する。例えば、認識処理部21は、特定感情状態に「オペレータの謝罪」が含まれる場合、音声認識部27の実行により得られた、オペレータの各発話区間の音声テキストデータの中から、特定表現テーブル28に保持される謝罪表現データを検索し、謝罪表現データを含む発話区間を個別感情区間に決定する。
感情認識部29は、対象通話の通話データに含まれるオペレータ及び顧客の少なくとも一方の音声データに対して感情認識処理をそれぞれ行う。例えば、感情認識部29は、各発話区間における音声から韻律的特徴情報を取得し、この韻律的特徴情報を用いて、各発話区間が認識すべき特定感情状態を表すか否かを判定する。韻律的特徴情報としては、例えば、基本周波数や音声パワー等が利用される。なお、本実施形態では、この感情認識処理には、周知な手法が利用されればよく(以下の参考例を参照)、感情認識処理自体は制限されない。
参考例:野本済央ほか、「韻律情報と発話の時間的関係性を用いた対話音声からの怒り感情推定」、日本音響学会講演論文集、89から92頁、2010年3月
参考例:野本済央ほか、「韻律情報と発話の時間的関係性を用いた対話音声からの怒り感情推定」、日本音響学会講演論文集、89から92頁、2010年3月
感情認識部29は、SVM(Support Vector Machine)の識別モデルを用いて、各発話区間が当該特定感情状態を表すか否かを判定するようにしてもよい。具体的には、特定感情状態に「顧客の怒り」が含まれる場合、感情認識部29は、「怒り」と「平常」の発話区間の韻律的特徴情報を学習データとして与え、「怒り」と「平常」とを識別するように学習された識別モデルを予め保持するようにしてもよい。感情認識部29は、認識すべき特定感情状態に対応する識別モデルを保持し、この識別モデルに、各発話区間の韻律的特徴情報を与えることにより、各発話区間が特定感情状態を表すか否かを判定する。認識処理部21は、感情認識部29により特定感情状態を表すと判定された発話区間を当該個別感情区間に決定する。
上述の音声認識部27及び感情認識部29では、発話区間に対し認識処理を実行する例が示されたが、例えば、不満があると発話と発話の間隔が長くなるといった性質を利用して、無音区間を用いて特定感情状態が推定されてもよい。このように、本実施形態は、認識処理部21による個別感情区間の検出処理自体を制限しない。よって、上述の処理例以外の周知の手法を利用して、個別感情区間が検出されてもよい。
変化検出部22は、認識処理部21により決定される個別感情区間に関する情報に基づいて、対象通話の各通話者について、複数の所定変化パターンを、対象通話内の時間位置情報と共にそれぞれ検出する。変化検出部22は、各通話者について、複数の所定変化パターンに関する情報をそれぞれ保持しており、この情報に基づいて、当該所定変化パターンを検出する。所定変化パターンに関する情報として、例えば、変化前の特定感情状態の種別と、変化後の特定感情状態の種別とのペアが保持される。
本実施形態では、例えば、変化検出部22は、顧客に関し、平常状態から不満状態への変化パターン、及び、不満状態から平常状態又は満足状態への変化パターンを、複数の所定変化パターンとして検出し、オペレータに関し、平常状態から謝罪状態への変化パターン、及び、謝罪状態から平常状態又は満足状態への変化パターンを、複数の所定変化パターンとして検出する。
特定部23は、始端組み合わせ及び終端組み合わせに関する情報を予め保持しており、この情報を用いて、上述したように、変化検出部22により検出された複数の所定変化パターンの中から、始端組み合わせ及び終端組み合わせを特定する。始端組み合わせ及び終端組み合わせに関する情報としては、各通話者の所定変化パターンの組み合わせに係る情報と共に、当該所定位置条件が保持される。所定位置条件としては、例えば、顧客における平常状態から怒り状態への変化パターンが前に、オペレータにおける平常状態から謝罪状態への変化パターンが後ろに位置し、その変化パターン間の時間差が2秒以内といった情報が保持される。
本実施形態では、例えば、特定部23は、顧客の平常状態から不満状態への変化パターンと、オペレータの平常状態から謝罪状態への変化パターンとの組み合わせを、始端組み合わせとして特定し、顧客の不満状態から平常状態又は満足状態への変化パターンと、オペレータの謝罪状態から平常状態又は満足状態への変化パターンとの組み合わせを、終端組み合わせとして特定する。
区間決定部24は、上述のように特定感情区間を決定するために、特定部23により特定される始端組み合わせ及び終端組み合わせに関する対象通話内の各時間位置に基づいて、その特定感情区間の始端時間及び終端時間を決定する。本実施形態では、例えば、区間決定部24は、顧客の不満を表す区間を特定感情区間として決定する。区間決定部24は、各始端組み合わせから各始端時間をそれぞれ決定し、各終端組み合わせから各終端時間をそれぞれ決定するようにしてもよい。この場合、或る始端時間と、その始端時間より後の時間で最も近い終端時間との間が特定感情区間に決定される。
但し、上述のように決定された特定感情区間と特定感情区間との間が時間的に接近している場合には、先頭の特定感情区間の始端と最後尾の特定感情区間の終端とで表わされる区間が特定感情区間に決定されるようにしてもよい。この場合、区間決定部24は、次のような平滑化処理を行うことにより特定感情区間を決定する。
区間決定部24は、特定部23により特定される始端組み合わせ及び終端組み合わせに関する対象通話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、時間的に交互に並ぶ始端時間候補及び終端時間候補の中から、最先の始端時間候補からの時間差又は発話区間数が所定時間差又は所定発話区間数以下となる、最先の始端時間候補より後の第2始端時間候補、並びに、最先の始端時間候補と第2始端時間候補との間に位置する始端時間候補及び終端時間候補を除外した、残りの始端時間候補及び終端時間候補を、前記始端時間及び前記終端時間に決定する。
図3は、特定感情区間の決定例を概念的に示す図である。図3では、OPはオペレータを示し、CUは顧客を示す。図3の例では、始端組み合わせSC1から始端時間候補STC1が取得され、始端組み合わせSC2から始端時間候補STC2が取得される。また、終端組み合わせEC1から終端時間候補ETC1が取得され、終端組み合わせEC2から終端時間候補ETC2が取得される。図3では、STC1からSTC2までの間の時間差又は発話区間数が所定時間差又は所定発話区間数以下となるため、その間に位置するETC1とSTC2とが除外され、STC1が始端時間に、ETC2が終端時間にそれぞれ決定される。
また、始端時間候補と終端時間候補とが時間的に交互に並ばない場合もあり得る。この場合、区間決定部24は、次のような平滑化処理を行うことにより特定感情区間を決定する。この場合、区間決定部24は、終端時間候補を介在せず時間的に並ぶ複数の始端時間候補の中の最先の始端時間候補以外の除外、及び、始端時間候補を介在せず時間的に並ぶ複数の終端時間候補の中の最後尾の終端時間候補以外の除外の少なくとも一方により、残った始端時間候補及び終端時間候補を始端時間及び終端時間に決定するようにしてもよい。
図4は、特定感情区間の他の決定例を概念的に示す図である。図4の例では、STC1、STC2及びSTC3は、終端時間候補を介在せず時間的に並び、ETC1及びETC2は、始端時間候補を介在せず時間的に並ぶ。この場合、最先の始端時間候補STC1以外の始端時間候補STC2及びSTC3が除外され、最後尾の終端時間候補ETC2以外の終端時間候補ETC1が除外され、残った始端時間候補STC1が始端時間に、残った終端時間候補ETC2が終端時間に決定される。
図3及び図4の例では、始端時間候補は、始端組み合わせに含まれる最先の特定感情区間の始端時間に設定され、終端時間候補は、終端組み合わせに含まれる最後尾の特定感情区間の終端時間に設定される。本実施形態は、始端組み合わせ及び終端組み合わせからの始端時間候補及び終端時間候補の決定方法を制限しない。始端組み合わせに含まれる特定感情区間の最大範囲の中間位置が始端時間候補に設定されてもよい。また、始端組み合わせに含まれる最先の特定感情区間の始端時間からマージン時間を差し引いた時間が始端時間候補に設定されてもよい。終端組み合わせに含まれる最後尾の特定感情区間の終端時間にマージン時間を加算した時間が終端時間候補に設定されてもよい。
対象決定部25は、区間決定部24により決定される特定感情区間から得られる基準時間を基準とする所定時間範囲を対象通話の通話者が特定感情を持った原因を表す原因分析対象区間に決定する。これは、特定感情が表出する区間の先頭周辺に、その特定感情の原因が存在する可能性が高いからである。これにより、基準時間は、特定感情区間の先頭周辺に設定されることが望ましい。例えば、基準時間は、特定感情区間の始端時間に設定される。原因分析対象区間は、基準時間を始端とした所定時間範囲に決定されてもよいし、基準時間を終端とした所定時間範囲に決定されてもよいし、基準時間を中心点とした所定範囲に決定されてもよい。
表示処理部26は、認識処理部21により決定される第1話者の複数の個別感情区間を表す複数の第1描画要素、及び、認識処理部21により決定される第2話者の複数の個別感情区間を表す複数の第2描画要素、並びに、対象決定部25により決定される原因分析対象区間を表す第3描画要素が、対象通話内の時系列に応じて並ぶ描画データを生成する。これにより、表示処理部26は、描画データ生成部と呼ぶこともできる。表示処理部26は、この描画データに基づいて分析結果画面を通話分析サーバ10に入出力I/F13を介して接続される表示装置に表示させる。また、表示処理部26は、WEBサーバ機能を持ち、この描画データをWEBクライアント装置に表示させるようにしてもよい。また、表示処理部26は、区間決定部24により決定される特定感情区間を表す第4描画要素を上記描画データに含めるようにしてもよい。
図5は、分析結果画面の例を示す図である。図5の例では、オペレータ(OP)の謝罪と顧客(CU)の怒りとの各個別感情区間がそれぞれ表されており、更に、特定感情区間と原因分析対象区間とが表されている。図5では、説明の便宜のため、特定感情区間が一点鎖線で示されるが、特定感情区間は表示されなくてもよい。
〔動作例〕
以下、第1実施形態における通話分析方法について図6を用いて説明する。図6は、第1実施形態における通話分析サーバ10の動作例を示すフローチャートである。ここで、通話分析サーバ10は、分析対象の通話データを既に取得している。
以下、第1実施形態における通話分析方法について図6を用いて説明する。図6は、第1実施形態における通話分析サーバ10の動作例を示すフローチャートである。ここで、通話分析サーバ10は、分析対象の通話データを既に取得している。
通話分析サーバ10は、分析対象の通話データから、各通話者の特定感情状態を表す個別感情区間を検出する(S60)。この検出は、音声認識処理や感情認識処理などの結果を用いて行われる。この検出により、例えば、通話分析サーバ10は、各個別感情区間に関し始端時間及び終端時間をそれぞれ取得する。
通話分析サーバ10は、各通話者について予め保持される複数の所定変化パターンに関する情報に基づいて、(S60)で得られた個別感情区間の中から、各通話者に関し、特定感情状態の複数の所定変化パターンをそれぞれ検出する(S61)。通話分析サーバ10は、複数の所定変化パターンが検出されなかった場合(S62;NO)、(S60)で検出された各通話者の個別感情区間に関する情報を表示する分析結果画面を表示させる(S68)。通話分析サーバ10は、そのような情報を紙媒体に印刷するようにしてもよい(S68)。
一方、通話分析サーバ10は、複数の所定変化パターンが検出された場合(S62;YES)、(S61)で検出された複数の所定変化パターンの中から、各通話者の所定変化パターンの組み合わせである始端組み合わせ及び終端組み合わせを特定する(S63)。通話分析サーバ10は、始端組み合わせ及び終端組み合わせが特定されなかった場合(S64;NO)、上述と同様に、(S60)で検出された各通話者の個別感情区間に関する情報を表示する分析結果画面を表示させる(S68)。
通話分析サーバ10は、始端組み合わせ及び終端組み合わせが特定された場合(S64;YES)、始端組み合わせから得られる始端時間候補及び終端組み合わせから得られる終端時間候補の平滑化処理を行う(S65)。この平滑化処理により、特定感情区間の始端時間及び終端時間となり得る始端時間候補及び終端時間候補が絞られる。始端時間候補及び終端時間候補の全てが始端時間及び終端時間となる場合には、平滑化処理は実行されなくてもよい。
具体的には、通話分析サーバ10は、時間的に交互に並ぶ始端時間候補及び終端時間候補の中から、最先の始端時間候補からの時間差又は発話区間数が所定時間差又は所定発話区間数以下となる、最先の始端時間候補より後の第2始端時間候補、並びに、最先の始端時間候補と第2始端時間候補との間に位置する始端時間候補及び終端時間候補を除外する。また、通話分析サーバ10は、終端時間候補を介在せず時間的に並ぶ複数の始端時間候補の中の最先の始端時間候補以外の除外、及び、始端時間候補を介在せず時間的に並ぶ複数の終端時間候補の中の最後尾の終端時間候補以外の除外の少なくとも一方を実行する。
通話分析サーバ10は、(S65)の平滑化処理で残った始端時間候補及び終端時間候補を、特定感情区間の始端時間及び終端時間に決定する(S66)。
更に、通話分析サーバ10は、(S66)で決められた特定感情区間から得られる基準時間を基準とする所定時間範囲を、対象通話の通話者が特定感情を持った原因を表す原因分析対象区間に決定する(S67)。
通話分析サーバ10は、(S60)で検出された各通話者の個別感情区間、及び、(S67)で決定された原因分析対象区間が対象通話内の時系列に応じて並ぶ分析結果画面を表示させる(S68)。通話分析サーバ10は、分析結果画面に相当する情報を紙媒体に印刷するようにしてもよい(S68)。
なお、図6に例示されるフローチャートでは、複数の工程(処理)が順番に記載されているが、本実施形態で実行される工程の実行順序は、その記載の順番に制限されない。
〔第1実施形態の作用及び効果〕
上述したように第1実施形態では、各通話者の音声に対応するデータに基づいて、各通話者の特定感情状態を表す個別感情区間が検出され、検出された個別感情区間の中から、各通話者に関し、特定感情状態の複数の所定変化パターンがそれぞれ検出される。更に、第1実施形態では、検出された複数の所定変化パターンから、通話者間の所定変化パターンの組み合わせである始端組み合わせ及び終端組み合わせが特定される。そして、始端組み合わせ及び終端組み合わせから、通話者の特定感情を表す特定感情区間が決定される。このように、第1実施形態では、複数の通話者間における感情状態の変化の組み合わせを用いることで、通話者の特定感情を表す区間が決定される。
上述したように第1実施形態では、各通話者の音声に対応するデータに基づいて、各通話者の特定感情状態を表す個別感情区間が検出され、検出された個別感情区間の中から、各通話者に関し、特定感情状態の複数の所定変化パターンがそれぞれ検出される。更に、第1実施形態では、検出された複数の所定変化パターンから、通話者間の所定変化パターンの組み合わせである始端組み合わせ及び終端組み合わせが特定される。そして、始端組み合わせ及び終端組み合わせから、通話者の特定感情を表す特定感情区間が決定される。このように、第1実施形態では、複数の通話者間における感情状態の変化の組み合わせを用いることで、通話者の特定感情を表す区間が決定される。
従って、第1実施形態によれば、特定感情区間を決定するにあたり、感情認識処理の誤認識の影響、及び、上述のような通話者の特異の事象の影響を受け難くすることができる。更に、第1実施形態によれば、複数の通話者間における感情状態の変化の組み合わせから、特定感情区間の始端時間及び終端時間が決定されるため、対象通話内の局所的な特定感情区間を高精度に取得することができる。以上のように、第1実施形態によれば、通話における通話者の特定感情を表す区間を高精度に特定することができる。
図7及び図8は、特定感情区間の具体例を概念的に示す図である。図7の例では、特定感情区間として顧客の不満を表す区間が決定される。顧客(CU)の平常状態から不満状態への変化、顧客(CU)の不満状態から平常状態への変化、オペレータ(OP)の平常状態から謝罪状態への変化、及び、オペレータの謝罪状態から平常状態への変化が、所定変化パターンとしてそれぞれ検出される。これら所定変化パターンの中から、顧客(CU)の平常状態から不満状態への変化とオペレータ(OP)の平常状態から謝罪状態への変化と組み合わせが始端組み合わせとして特定され、オペレータの謝罪状態から平常状態への変化と顧客の不満状態から平常状態への変化との組み合わせが終端組み合わせとして特定される。結果、図7の一点鎖線で示されるように、始端組み合わせから得られる始端時間と終端組み合わせから得られる終端時間との間が顧客の不満が表出していると推測される区間(特定感情区間)に決定される。
このように、第1実施形態によれば、顧客とオペレータとの間の感情状態の変化の組み合わせから、最終的な顧客の不満表出区間が推定されるため、この結果は、不満検出や謝罪検出の各々の誤検出に影響され難く、かつ、図9に示されるような通話者の特異の事象に影響され難い。つまり、第1実施形態によれば、高精度に、顧客の不満を表す区間を推定することができる。
図8の例では、顧客の満足感(喜び)を表す区間が特定感情区間として決定される。この場合、顧客の平常状態から喜び状態への変化とオペレータの平常状態から喜び状態への変化との組み合わせが始端組み合わせとして特定される。図8の例では、始端組み合わせと通話の終端との間が顧客の満足感(喜び)を表す区間に決定される。
図9は、通話者の特異の事象の具体例を示す図である。図9の例では、通話者以外の者(後ろで騒ぐ子供)と話す通話者の声「静かにしなさい。今電話中なんだから」がその通話中に顧客の発話として入力されている。この場合、感情認識処理では、この発話区間は、不満と認識される可能性が高い。しかし、オペレータはこのような状況では平常のままである。上述の第1実施形態によれば、顧客とオペレータとの感情状態の変化の組み合わせを用いるため、このような特異の事象の影響により、特定感情区間の推定精度が低下することを防ぐことができる。
また、第1実施形態では、始端組み合わせ及び終端組み合わせから始端時間候補及び終端時間候補を取得し、これらの中から、特定感情区間を定める始端時間及び終端時間となり得る始端時間候補及び終端時間候補を選別する。このとき、始端時間候補及び終端時間候補をそのまま始端時間及び終端時間として決めた場合、時間的に接近した特定感情区間群が存在する場合があり得る。また、始端時間候補が終端時間候補を介在させず連続的に並ぶ場合や、終端時間候補が始端時間候補を介在させず連続的に並ぶ場合があり得る。このような場合、第1実施形態では、始端時間候補及び終端時間候補の平滑化が行われ、最適な範囲が特定感情区間に決定される。これにより、第1実施形態によれば、対象通話内の局所的な特定感情区間を高精度に取得することができる。
[第2実施形態]
第2実施形態におけるコンタクトセンタシステム1は、上述の第1実施形態における平滑化処理に代え、又は、その平滑化処理に加えて、更に新たな方法で、始端時間候補及び終端時間候補の平滑化を行う。以下、第2実施形態におけるコンタクトセンタシステム1について、第1実施形態と異なる内容を中心に説明し、第1実施形態と同様の内容については適宜省略する。
第2実施形態におけるコンタクトセンタシステム1は、上述の第1実施形態における平滑化処理に代え、又は、その平滑化処理に加えて、更に新たな方法で、始端時間候補及び終端時間候補の平滑化を行う。以下、第2実施形態におけるコンタクトセンタシステム1について、第1実施形態と異なる内容を中心に説明し、第1実施形態と同様の内容については適宜省略する。
〔処理構成〕
図10は、第2実施形態における通話分析サーバ10の処理構成例を概念的に示す図である。第2実施形態における通話分析サーバ10は、第1実施形態の構成に加えて、信頼度決定部30を更に有する。信頼度決定部30は、他の処理部と同様に、例えば、CPU11によりメモリ12に格納されるプログラムが実行されることにより実現される。
図10は、第2実施形態における通話分析サーバ10の処理構成例を概念的に示す図である。第2実施形態における通話分析サーバ10は、第1実施形態の構成に加えて、信頼度決定部30を更に有する。信頼度決定部30は、他の処理部と同様に、例えば、CPU11によりメモリ12に格納されるプログラムが実行されることにより実現される。
信頼度決定部30は、区間決定部24により始端時間候補及び終端時間候補が決定されると、始端時間候補が前に位置し終端時間候補が後ろに位置する、始端時間候補と終端時間候補との全組み合わせを特定する。信頼度決定部30は、特定された各ペアについて、そのペアが示す時間範囲内における、他の始端時間候補及び他の終端時間候補の少なくとも一方の密度をそれぞれ算出する。例えば、信頼度決定部30は、そのペアに係る始端時間候補と終端時間候補とが示す時間範囲内に存在する他の始端時間候補及び他の終端時間候補の少なくとも一方の数をそれぞれカウントし、そのカウント数を始端時間候補から終端時間候補までの時間で除算することにより、そのペアの密度を算出する。信頼度決定部30は、各ペアについて、その算出された各密度に対応する各信頼度をそれぞれ決定する。信頼度決定部30は、密度が高いペア程、高い信頼度を付与する。信頼度決定部30は、上記カウント数が0のペアについては、最低信頼度を付与してもよい。
区間決定部24は、第1実施形態と同様に、始端組み合わせ及び終端組み合わせから始端時間候補及び終端時間候補を決定し、上述の信頼度決定部30により決定される各信頼度に基づいて、始端時間候補及び終端時間候補の中から、特定感情区間の始端時間及び終端時間を決定する。例えば、区間決定部24は、時間範囲が一部でも重複する始端時間候補と終端時間候補との複数ペアについては、最も高い信頼度が付与された始端時間候補と終端時間候補とのペア以外を除外する。区間決定部24は、残った始端時間候補及び終端時間候補を始端時間及び終端時間に決定する。
図11は、第2実施形態における平滑化処理の例を概念的に示す図である。図11の各符号は、図4と同様の要素をそれぞれ示す。信頼度決定部30は、始端時間候補STC1、STC2及びSTC3と、終端時間候補ETC1及びETC2との全組み合わせに係る各ペアについて、信頼度1−1、1−2、2−1、2−2、3−1及び3−2を付与する。区間決定部24は、図示される全てのペアが時間範囲が一部でも重複する始端時間候補と終端時間候補との複数ペアに該当するため、これらの中から、最も高い信頼度が付与された始端時間候補と終端時間候補とのペア以外を除外する。結果、区間決定部24は、始端時間候補STC1を始端時間に決め、終端時間候補ETC2を終端時間に決める。
〔動作例〕
第2実施形態における通話分析方法では、図6に示される(S65)において、上述の信頼度を用いた平滑化処理が行われる。
第2実施形態における通話分析方法では、図6に示される(S65)において、上述の信頼度を用いた平滑化処理が行われる。
〔第2実施形態の作用及び効果〕
上述のように第2実施形態では、始端組み合わせから得られる始端時間候補と終端組み合わせから得られる終端時間候補との各ペアについて、そのペアが示す時間範囲内に位置する始端時間候補及び終端時間候補の密度がそれぞれ算出され、この密度に対応する信頼度が各ペアについてそれぞれ決定される。そして、時間範囲が一部でも重複する始端時間候補と終端時間候補との複数ペアの中から、最高の信頼度を持つペアが特定感情区間の始端時間及び終端時間に決定される。
上述のように第2実施形態では、始端組み合わせから得られる始端時間候補と終端組み合わせから得られる終端時間候補との各ペアについて、そのペアが示す時間範囲内に位置する始端時間候補及び終端時間候補の密度がそれぞれ算出され、この密度に対応する信頼度が各ペアについてそれぞれ決定される。そして、時間範囲が一部でも重複する始端時間候補と終端時間候補との複数ペアの中から、最高の信頼度を持つペアが特定感情区間の始端時間及び終端時間に決定される。
このように、第2実施形態によれば、通話者間の感情状態の所定変化パターンの組み合わせの、単位時間当たりの数が多い範囲が特定感情区間に決められるため、第2実施形態で決めた特定感情区間が特定感情を表す確度を向上させることができる。
[第3実施形態]
第3実施形態におけるコンタクトセンタシステム1は、上述の第2実施形態のように決定される信頼度を特定感情区間の信頼度に用いる。以下、第3実施形態におけるコンタクトセンタシステム1について、第1実施形態及び第2実施形態と異なる内容を中心に説明し、第1実施形態及び第2実施形態と同様の内容については適宜省略する。
第3実施形態におけるコンタクトセンタシステム1は、上述の第2実施形態のように決定される信頼度を特定感情区間の信頼度に用いる。以下、第3実施形態におけるコンタクトセンタシステム1について、第1実施形態及び第2実施形態と異なる内容を中心に説明し、第1実施形態及び第2実施形態と同様の内容については適宜省略する。
〔処理構成〕
第3実施形態における信頼度決定部30は、区間決定部24により決定された特定感情区間に関し、その特定感情区間内に位置する、区間決定部24により決定された始端時間候補及び終端時間候補の少なくとも一方の密度を算出し、算出された密度に対応する信頼度を決定する。その密度を算出するにあたり、信頼度決定部30は、特定感情区間の始端時間及び終端時間に決定された始端時間候補及び終端時間候補以外の除外された始端時間候補及び終端時間候補も用いる。密度の算出手法及び密度から信頼度の決定手法については第2実施形態と同様である。
第3実施形態における信頼度決定部30は、区間決定部24により決定された特定感情区間に関し、その特定感情区間内に位置する、区間決定部24により決定された始端時間候補及び終端時間候補の少なくとも一方の密度を算出し、算出された密度に対応する信頼度を決定する。その密度を算出するにあたり、信頼度決定部30は、特定感情区間の始端時間及び終端時間に決定された始端時間候補及び終端時間候補以外の除外された始端時間候補及び終端時間候補も用いる。密度の算出手法及び密度から信頼度の決定手法については第2実施形態と同様である。
区間決定部24は、信頼度決定部30により決定される信頼度を、当該特定感情区間の信頼度に決定する。
表示処理部26は、特定感情区間を表す第4描画要素を描画データに含める場合には、区間決定部24により決定されるその特定感情区間の信頼度もその描画データに加えるようにしてもよい。
〔動作例〕
以下、第3実施形態における通話分析方法を図12を用いて説明する。図12は、第3実施形態における通話分析サーバ10の動作例を示すフローチャートである。図12では、図6と同じ内容の工程については図6と同じ符号が付されている。
以下、第3実施形態における通話分析方法を図12を用いて説明する。図12は、第3実施形態における通話分析サーバ10の動作例を示すフローチャートである。図12では、図6と同じ内容の工程については図6と同じ符号が付されている。
第3実施形態では、通話分析サーバ10は、工程(S66)と工程(S67)との間で、(S66)で決定された特定感情区間の信頼度を決定する(S121)。この信頼度決定方法は、上述した通りである。
〔第3実施形態における作用及び効果〕
第3実施形態では、通話者間の感情状態の所定変化パターンの組み合わせの、単位時間当たりの数に対応する信頼度が特定感情区間に付与される。これにより、複数の特定感情区間が決定された場合に、その信頼度により、各特定感情区間の処理優先度などを決めることができる。
第3実施形態では、通話者間の感情状態の所定変化パターンの組み合わせの、単位時間当たりの数に対応する信頼度が特定感情区間に付与される。これにより、複数の特定感情区間が決定された場合に、その信頼度により、各特定感情区間の処理優先度などを決めることができる。
[変形例]
上述の通話分析サーバ10は、複数のコンピュータにより実現されてもよい。例えば、通話データ取得部20及び認識処理部21は、通話分析サーバ10以外のコンピュータにより実現されてもよい。この場合、通話分析サーバ10は、通話データ取得部20及び認識処理部21に代え、対象通話に関し認識処理部21により処理された結果、即ち、各通話者の複数の特定感情状態を表す複数の個別感情区間に関する情報を取得する情報取得部を有するようにすればよい。
上述の通話分析サーバ10は、複数のコンピュータにより実現されてもよい。例えば、通話データ取得部20及び認識処理部21は、通話分析サーバ10以外のコンピュータにより実現されてもよい。この場合、通話分析サーバ10は、通話データ取得部20及び認識処理部21に代え、対象通話に関し認識処理部21により処理された結果、即ち、各通話者の複数の特定感情状態を表す複数の個別感情区間に関する情報を取得する情報取得部を有するようにすればよい。
また、上述の第3実施形態で示される各特定感情区間に付与される信頼度に応じて、最終的に決定する特定感情区間を絞るようにしてもよい。この場合、例えば、信頼度が所定閾値よりも高い特定感情区間のみが最終的に特定感情区間に決定されるようにしてもよい。
[他の実施形態]
上述の各実施形態では、通話データが扱われたが、上述の不満会話判定装置及び不満会話判定方法は、通話以外の会話データを扱う装置やシステムに適用されてもよい。この場合、例えば、分析対象となる会話を録音する録音装置がその会話が行われる場所(会議室、銀行の窓口、店舗のレジなど)に設置される。また、会話データが複数の会話参加者の声が混合された状態で録音される場合には、その混合状態から所定の音声処理により会話参加者毎の音声データに分離される。
上述の各実施形態では、通話データが扱われたが、上述の不満会話判定装置及び不満会話判定方法は、通話以外の会話データを扱う装置やシステムに適用されてもよい。この場合、例えば、分析対象となる会話を録音する録音装置がその会話が行われる場所(会議室、銀行の窓口、店舗のレジなど)に設置される。また、会話データが複数の会話参加者の声が混合された状態で録音される場合には、その混合状態から所定の音声処理により会話参加者毎の音声データに分離される。
上述の各実施形態及び各変形例は、内容が相反しない範囲で組み合わせることができる。
上記の各実施形態及び各変形例の一部又は全部は、以下の付記のようにも特定され得る。但し、各実施形態及び各変形例が以下の記載に限定されるものではない。
(付記1)
対象会話の音声に対応するデータに基づいて、複数の会話参加者の各々に関し、感情状態の複数の所定変化パターンをそれぞれ検出する変化検出部と、
前記変化検出部により検出される複数の所定変化パターンの中から、前記複数の会話参加者間における、所定位置条件を満たす前記所定変化パターンの所定組み合わせである、始端組み合わせ及び終端組み合わせを特定する特定部と、
前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間及び終端時間を決定することにより、該始端時間及び該終端時間を持つ前記対象会話の会話参加者の特定感情を表す特定感情区間を決定する区間決定部と、
を備える会話分析装置。
対象会話の音声に対応するデータに基づいて、複数の会話参加者の各々に関し、感情状態の複数の所定変化パターンをそれぞれ検出する変化検出部と、
前記変化検出部により検出される複数の所定変化パターンの中から、前記複数の会話参加者間における、所定位置条件を満たす前記所定変化パターンの所定組み合わせである、始端組み合わせ及び終端組み合わせを特定する特定部と、
前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間及び終端時間を決定することにより、該始端時間及び該終端時間を持つ前記対象会話の会話参加者の特定感情を表す特定感情区間を決定する区間決定部と、
を備える会話分析装置。
(付記2)
前記区間決定部は、前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、該終端時間候補を介在せず時間的に並ぶ複数の始端時間候補の中の最先の始端時間候補以外の除外、及び、該始端時間候補を介在せず時間的に並ぶ複数の終端時間候補の中の最後尾の終端時間候補以外の除外の少なくとも一方により、残った始端時間候補及び終端時間候補を前記始端時間及び前記終端時間に決定する、
付記1に記載の会話分析装置。
前記区間決定部は、前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、該終端時間候補を介在せず時間的に並ぶ複数の始端時間候補の中の最先の始端時間候補以外の除外、及び、該始端時間候補を介在せず時間的に並ぶ複数の終端時間候補の中の最後尾の終端時間候補以外の除外の少なくとも一方により、残った始端時間候補及び終端時間候補を前記始端時間及び前記終端時間に決定する、
付記1に記載の会話分析装置。
(付記3)
前記区間決定部は、前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、時間的に交互に並ぶ始端時間候補及び終端時間候補の中から、最先の始端時間候補からの時間差又は発話区間数が所定時間差又は所定発話区間数以内となる、該最先の始端時間候補より後の第2始端時間候補、並びに、該最先の始端時間候補と該第2始端時間候補との間に位置する始端時間候補及び終端時間候補を除外した、残りの始端時間候補及び終端時間候補を前記始端時間及び前記終端時間に決定する、
付記1又は2に記載の会話分析装置。
前記区間決定部は、前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、時間的に交互に並ぶ始端時間候補及び終端時間候補の中から、最先の始端時間候補からの時間差又は発話区間数が所定時間差又は所定発話区間数以内となる、該最先の始端時間候補より後の第2始端時間候補、並びに、該最先の始端時間候補と該第2始端時間候補との間に位置する始端時間候補及び終端時間候補を除外した、残りの始端時間候補及び終端時間候補を前記始端時間及び前記終端時間に決定する、
付記1又は2に記載の会話分析装置。
(付記4)
前記区間決定部により決定される始端時間候補と終端時間候補との各ペアについて、該ペアが示す時間範囲内に存在する他の始端時間候補及び他の終端時間候補の少なくとも一方の密度をそれぞれ算出し、更に、算出された各密度に対応する各信頼度をそれぞれ決定する信頼度決定部、
を更に備え、
前記区間決定部は、前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、前記信頼度決定部により決定される各信頼度に基づいて、該始端時間候補と該終端時間候補の中から前記始端時間及び前記終端時間を決定する、
付記1から3のいずれか1つに記載の会話分析装置。
前記区間決定部により決定される始端時間候補と終端時間候補との各ペアについて、該ペアが示す時間範囲内に存在する他の始端時間候補及び他の終端時間候補の少なくとも一方の密度をそれぞれ算出し、更に、算出された各密度に対応する各信頼度をそれぞれ決定する信頼度決定部、
を更に備え、
前記区間決定部は、前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、前記信頼度決定部により決定される各信頼度に基づいて、該始端時間候補と該終端時間候補の中から前記始端時間及び前記終端時間を決定する、
付記1から3のいずれか1つに記載の会話分析装置。
(付記5)
前記区間決定部により決定される前記特定感情区間に関し、該特定感情区間内に位置する、前記区間決定部により決定される始端時間候補及び終端時間候補の少なくとも一方の密度を算出し、算出された密度に対応する信頼度を決定する信頼度決定部、
を更に備え、
前記区間決定部は、前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて前記始端時間候補及び前記終端時間候補を決定し、前記信頼度決定部により決定される信頼度を、前記特定感情区間の信頼度に決定する、
付記1から4のいずれか1つに記載の会話分析装置。
前記区間決定部により決定される前記特定感情区間に関し、該特定感情区間内に位置する、前記区間決定部により決定される始端時間候補及び終端時間候補の少なくとも一方の密度を算出し、算出された密度に対応する信頼度を決定する信頼度決定部、
を更に備え、
前記区間決定部は、前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて前記始端時間候補及び前記終端時間候補を決定し、前記信頼度決定部により決定される信頼度を、前記特定感情区間の信頼度に決定する、
付記1から4のいずれか1つに記載の会話分析装置。
(付記6)
前記対象会話の音声に対応するデータから前記複数の会話参加者の各々に関しそれぞれ検出される複数の特定感情状態を表す、複数の個別感情区間に関する情報を取得する情報取得部、
を更に備え、
前記変化検出部は、前記情報取得部により取得される複数の個別感情区間に関する情報に基づいて、前記複数の会話参加者の各々について、前記複数の所定変化パターンを、前記対象会話内の時間位置情報と共に、それぞれ検出する、
付記1から5のいずれか1つに記載の会話分析装置。
前記対象会話の音声に対応するデータから前記複数の会話参加者の各々に関しそれぞれ検出される複数の特定感情状態を表す、複数の個別感情区間に関する情報を取得する情報取得部、
を更に備え、
前記変化検出部は、前記情報取得部により取得される複数の個別感情区間に関する情報に基づいて、前記複数の会話参加者の各々について、前記複数の所定変化パターンを、前記対象会話内の時間位置情報と共に、それぞれ検出する、
付記1から5のいずれか1つに記載の会話分析装置。
(付記7)
前記変化検出部は、第1会話参加者に関し、平常状態から不満状態への変化パターン及び不満状態から平常状態又は満足状態への変化パターンを前記複数の所定変化パターンとして検出し、第2会話参加者に関し、平常状態から謝罪状態への変化パターン及び謝罪状態から平常状態又は満足状態への変化パターンを前記複数の所定変化パターンとして検出し、
前記特定部は、前記第1会話参加者の平常状態から不満状態への変化パターンと前記第2会話参加者の平常状態から謝罪状態への変化パターンとの組み合わせを前記始端組み合わせとして特定し、前記第1会話参加者の不満状態から平常状態又は満足状態への変化パターンと前記第2会話参加者の謝罪状態から平常状態又は満足状態への変化パターンとの組み合わせを前記終端組み合わせとして特定し、
前記区間決定部は、前記第1会話参加者の不満を表す区間を前記特定感情区間として決定する、
付記1から6のいずれか1つに記載の会話分析装置。
前記変化検出部は、第1会話参加者に関し、平常状態から不満状態への変化パターン及び不満状態から平常状態又は満足状態への変化パターンを前記複数の所定変化パターンとして検出し、第2会話参加者に関し、平常状態から謝罪状態への変化パターン及び謝罪状態から平常状態又は満足状態への変化パターンを前記複数の所定変化パターンとして検出し、
前記特定部は、前記第1会話参加者の平常状態から不満状態への変化パターンと前記第2会話参加者の平常状態から謝罪状態への変化パターンとの組み合わせを前記始端組み合わせとして特定し、前記第1会話参加者の不満状態から平常状態又は満足状態への変化パターンと前記第2会話参加者の謝罪状態から平常状態又は満足状態への変化パターンとの組み合わせを前記終端組み合わせとして特定し、
前記区間決定部は、前記第1会話参加者の不満を表す区間を前記特定感情区間として決定する、
付記1から6のいずれか1つに記載の会話分析装置。
(付記8)
前記区間決定部により決定される特定感情区間から得られる基準時間を基準とする所定時間範囲を前記対象会話の会話参加者が前記特定感情を持った原因を表す原因分析対象区間に決定する対象決定部、
を更に備える付記1から7のいずれか1つに記載の会話分析装置。
前記区間決定部により決定される特定感情区間から得られる基準時間を基準とする所定時間範囲を前記対象会話の会話参加者が前記特定感情を持った原因を表す原因分析対象区間に決定する対象決定部、
を更に備える付記1から7のいずれか1つに記載の会話分析装置。
(付記9)
第1会話参加者の前記複数の所定変化パターンに含まれる特定感情状態を表す個別感情区間を表す複数の第1描画要素、及び、第2会話参加者の前記複数の所定変化パターンに含まれる特定感情状態を表す個別感情区間を表す複数の第2描画要素、並びに、前記対象決定部により決定される前記原因分析対象区間を表す第3描画要素が、前記対象会話内の時系列に応じて並ぶ描画データを生成する描画データ生成部、
を更に備える付記1から8のいずれか1つに記載の会話分析装置。
第1会話参加者の前記複数の所定変化パターンに含まれる特定感情状態を表す個別感情区間を表す複数の第1描画要素、及び、第2会話参加者の前記複数の所定変化パターンに含まれる特定感情状態を表す個別感情区間を表す複数の第2描画要素、並びに、前記対象決定部により決定される前記原因分析対象区間を表す第3描画要素が、前記対象会話内の時系列に応じて並ぶ描画データを生成する描画データ生成部、
を更に備える付記1から8のいずれか1つに記載の会話分析装置。
(付記10)
少なくとも1つのコンピュータにより実行される会話分析方法において、
対象会話の音声に対応するデータに基づいて、複数の会話参加者の各々に関し、感情状態の複数の所定変化パターンをそれぞれ検出し、
前記検出される複数の所定変化パターンの中から、前記複数の会話参加者間における、所定位置条件を満たす前記所定変化パターンの所定組み合わせである、始端組み合わせ及び終端組み合わせを特定し、
前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて、前記対象会話の会話参加者の特定感情を表す特定感情区間の始端時間及び終端時間を決定する、
ことを含む会話分析方法。
少なくとも1つのコンピュータにより実行される会話分析方法において、
対象会話の音声に対応するデータに基づいて、複数の会話参加者の各々に関し、感情状態の複数の所定変化パターンをそれぞれ検出し、
前記検出される複数の所定変化パターンの中から、前記複数の会話参加者間における、所定位置条件を満たす前記所定変化パターンの所定組み合わせである、始端組み合わせ及び終端組み合わせを特定し、
前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて、前記対象会話の会話参加者の特定感情を表す特定感情区間の始端時間及び終端時間を決定する、
ことを含む会話分析方法。
(付記11)
前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、
前記終端時間候補を介在せず時間的に並ぶ複数の始端時間候補の中の最先の始端時間候補以外の除外、及び、前記始端時間候補を介在せず時間的に並ぶ複数の終端時間候補の中の最後尾の終端時間候補以外の除外の少なくとも一方を実行する、
ことを更に含み、
前記特定感情区間の決定は、残った始端時間候補及び終端時間候補を前記始端時間及び前記終端時間に決定する、
付記10に記載の会話分析方法。
前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、
前記終端時間候補を介在せず時間的に並ぶ複数の始端時間候補の中の最先の始端時間候補以外の除外、及び、前記始端時間候補を介在せず時間的に並ぶ複数の終端時間候補の中の最後尾の終端時間候補以外の除外の少なくとも一方を実行する、
ことを更に含み、
前記特定感情区間の決定は、残った始端時間候補及び終端時間候補を前記始端時間及び前記終端時間に決定する、
付記10に記載の会話分析方法。
(付記12)
前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、
時間的に交互に並ぶ始端時間候補及び終端時間候補の中から、最先の始端時間候補からの時間差又は発話区間数が所定時間差又は所定発話区間数以内となる、該最先の始端時間候補より後の第2始端時間候補、並びに、該最先の始端時間候補と該第2始端時間候補との間に位置する始端時間候補及び終端時間候補を除外する、
ことを更に含み、
前記特定感情区間の決定は、残りの始端時間候補及び終端時間候補を前記始端時間及び前記終端時間に決定する、
付記10又は11に記載の会話分析方法。
前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、
時間的に交互に並ぶ始端時間候補及び終端時間候補の中から、最先の始端時間候補からの時間差又は発話区間数が所定時間差又は所定発話区間数以内となる、該最先の始端時間候補より後の第2始端時間候補、並びに、該最先の始端時間候補と該第2始端時間候補との間に位置する始端時間候補及び終端時間候補を除外する、
ことを更に含み、
前記特定感情区間の決定は、残りの始端時間候補及び終端時間候補を前記始端時間及び前記終端時間に決定する、
付記10又は11に記載の会話分析方法。
(付記13)
前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、
前記始端時間候補と前記終端時間候補との各ペアについて、該ペアが示す時間範囲内に存在する他の始端時間候補及び他の終端時間候補の少なくとも一方の密度をそれぞれ算出し、
前記各ペアについて、前記算出された各密度に対応する各信頼度をそれぞれ決定する、
ことを更に含み、
前記特定感情区間の決定は、前記決定される各信頼度に基づいて、前記始端時間候補と前記終端時間候補の中から前記始端時間及び前記終端時間を決定する、
付記10から12のいずれか1つに記載の会話分析方法。
前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、
前記始端時間候補と前記終端時間候補との各ペアについて、該ペアが示す時間範囲内に存在する他の始端時間候補及び他の終端時間候補の少なくとも一方の密度をそれぞれ算出し、
前記各ペアについて、前記算出された各密度に対応する各信頼度をそれぞれ決定する、
ことを更に含み、
前記特定感情区間の決定は、前記決定される各信頼度に基づいて、前記始端時間候補と前記終端時間候補の中から前記始端時間及び前記終端時間を決定する、
付記10から12のいずれか1つに記載の会話分析方法。
(付記14)
前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、
前記特定感情区間に関し、該特定感情区間内に位置する、前記区間決定部により決定される始端時間候補及び終端時間候補の少なくとも一方の密度を算出し、
前記算出された密度に対応する信頼度を前記特定感情区間の信頼度に決定する、
ことを更に含む付記10から13のいずれか1つに記載の会話分析方法。
前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、
前記特定感情区間に関し、該特定感情区間内に位置する、前記区間決定部により決定される始端時間候補及び終端時間候補の少なくとも一方の密度を算出し、
前記算出された密度に対応する信頼度を前記特定感情区間の信頼度に決定する、
ことを更に含む付記10から13のいずれか1つに記載の会話分析方法。
(付記15)
前記対象会話の音声に対応するデータから前記複数の会話参加者の各々に関しそれぞれ検出される複数の特定感情状態を表す、複数の個別感情区間に関する情報を取得する、
ことを更に含み、
前記所定変化パターンの検出は、前記取得される複数の個別感情区間に関する情報に基づいて、前記複数の会話参加者の各々について、前記複数の所定変化パターンを、前記対象会話内の時間位置情報と共に、それぞれ検出する、
付記10から14のいずれか1つに記載の会話分析方法。
前記対象会話の音声に対応するデータから前記複数の会話参加者の各々に関しそれぞれ検出される複数の特定感情状態を表す、複数の個別感情区間に関する情報を取得する、
ことを更に含み、
前記所定変化パターンの検出は、前記取得される複数の個別感情区間に関する情報に基づいて、前記複数の会話参加者の各々について、前記複数の所定変化パターンを、前記対象会話内の時間位置情報と共に、それぞれ検出する、
付記10から14のいずれか1つに記載の会話分析方法。
(付記16)
前記所定変化パターンの検出は、第1会話参加者に関し、平常状態から不満状態への変化パターン及び不満状態から平常状態又は満足状態への変化パターンを前記複数の所定変化パターンとして検出し、第2会話参加者に関し、平常状態から謝罪状態への変化パターン及び謝罪状態から平常状態又は満足状態への変化パターンを前記複数の所定変化パターンとして検出し、
前記始端組み合わせ及び終端組み合わせの特定は、前記第1会話参加者の平常状態から不満状態への変化パターンと前記第2会話参加者の平常状態から謝罪状態への変化パターンとの組み合わせを前記始端組み合わせとして特定し、前記第1会話参加者の不満状態から平常状態又は満足状態への変化パターンと前記第2会話参加者の謝罪状態から平常状態又は満足状態への変化パターンとの組み合わせを前記終端組み合わせとして特定し、
前記特定感情区間の決定は、前記第1会話参加者の不満を表す区間を前記特定感情区間として決定する、
付記10から15のいずれか1つに記載の会話分析方法。
前記所定変化パターンの検出は、第1会話参加者に関し、平常状態から不満状態への変化パターン及び不満状態から平常状態又は満足状態への変化パターンを前記複数の所定変化パターンとして検出し、第2会話参加者に関し、平常状態から謝罪状態への変化パターン及び謝罪状態から平常状態又は満足状態への変化パターンを前記複数の所定変化パターンとして検出し、
前記始端組み合わせ及び終端組み合わせの特定は、前記第1会話参加者の平常状態から不満状態への変化パターンと前記第2会話参加者の平常状態から謝罪状態への変化パターンとの組み合わせを前記始端組み合わせとして特定し、前記第1会話参加者の不満状態から平常状態又は満足状態への変化パターンと前記第2会話参加者の謝罪状態から平常状態又は満足状態への変化パターンとの組み合わせを前記終端組み合わせとして特定し、
前記特定感情区間の決定は、前記第1会話参加者の不満を表す区間を前記特定感情区間として決定する、
付記10から15のいずれか1つに記載の会話分析方法。
(付記17)
前記特定感情区間から得られる基準時間を基準とする所定時間範囲を前記対象会話の会話参加者が前記特定感情を持った原因を表す原因分析対象区間に決定する、
ことを更に含む付記10から16のいずれか1つに記載の会話分析方法。
前記特定感情区間から得られる基準時間を基準とする所定時間範囲を前記対象会話の会話参加者が前記特定感情を持った原因を表す原因分析対象区間に決定する、
ことを更に含む付記10から16のいずれか1つに記載の会話分析方法。
(付記18)
第1会話参加者の前記複数の所定変化パターンに含まれる特定感情状態を表す個別感情区間を表す複数の第1描画要素、及び、第2会話参加者の前記複数の所定変化パターンに含まれる特定感情状態を表す個別感情区間を表す複数の第2描画要素、並びに、前記対象決定部により決定される前記原因分析対象区間を表す第3描画要素が、前記対象会話内の時系列に応じて並ぶ描画データを生成する、
ことを更に含む付記10から17のいずれか1つに記載の会話分析方法。
第1会話参加者の前記複数の所定変化パターンに含まれる特定感情状態を表す個別感情区間を表す複数の第1描画要素、及び、第2会話参加者の前記複数の所定変化パターンに含まれる特定感情状態を表す個別感情区間を表す複数の第2描画要素、並びに、前記対象決定部により決定される前記原因分析対象区間を表す第3描画要素が、前記対象会話内の時系列に応じて並ぶ描画データを生成する、
ことを更に含む付記10から17のいずれか1つに記載の会話分析方法。
(付記19)
少なくとも1つのコンピュータに、付記10から18のいずれか1つに記載の会話分析方法を実行させるプログラム。
少なくとも1つのコンピュータに、付記10から18のいずれか1つに記載の会話分析方法を実行させるプログラム。
(付記20)
付記19に記載のプログラムをコンピュータに読み取り可能に記録する記録媒体。
付記19に記載のプログラムをコンピュータに読み取り可能に記録する記録媒体。
この出願は、2012年10月31日に出願された日本出願特願2012−240763号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
Claims (15)
- 対象会話の音声に対応するデータに基づいて、複数の会話参加者の各々に関し、感情状態の複数の所定変化パターンをそれぞれ検出する変化検出部と、
前記変化検出部により検出される複数の所定変化パターンの中から、前記複数の会話参加者間における、所定位置条件を満たす前記所定変化パターンの所定組み合わせである、始端組み合わせ及び終端組み合わせを特定する特定部と、
前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間及び終端時間を決定することにより、該始端時間及び該終端時間を持つ前記対象会話の会話参加者の特定感情を表す特定感情区間を決定する区間決定部と、
を備える会話分析装置。 - 前記区間決定部は、前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、該終端時間候補を介在せず時間的に並ぶ複数の始端時間候補の中の最先の始端時間候補以外の除外、及び、該始端時間候補を介在せず時間的に並ぶ複数の終端時間候補の中の最後尾の終端時間候補以外の除外の少なくとも一方により、残った始端時間候補及び終端時間候補を前記始端時間及び前記終端時間に決定する、
請求項1に記載の会話分析装置。 - 前記区間決定部は、前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、時間的に交互に並ぶ始端時間候補及び終端時間候補の中から、最先の始端時間候補からの時間差又は発話区間数が所定時間差又は所定発話区間数以内となる、該最先の始端時間候補より後の第2始端時間候補、並びに、該最先の始端時間候補と該第2始端時間候補との間に位置する始端時間候補及び終端時間候補を除外した、残りの始端時間候補及び終端時間候補を前記始端時間及び前記終端時間に決定する、
請求項1又は2に記載の会話分析装置。 - 前記区間決定部により決定される始端時間候補と終端時間候補との各ペアについて、該ペアが示す時間範囲内に存在する他の始端時間候補及び他の終端時間候補の少なくとも一方の密度をそれぞれ算出し、更に、算出された各密度に対応する各信頼度をそれぞれ決定する信頼度決定部、
を更に備え、
前記区間決定部は、前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、前記信頼度決定部により決定される各信頼度に基づいて、該始端時間候補と該終端時間候補の中から前記始端時間及び前記終端時間を決定する、
請求項1から3のいずれか1項に記載の会話分析装置。 - 前記区間決定部により決定される前記特定感情区間に関し、該特定感情区間内に位置する、前記区間決定部により決定される始端時間候補及び終端時間候補の少なくとも一方の密度を算出し、算出された密度に対応する信頼度を決定する信頼度決定部、
を更に備え、
前記区間決定部は、前記特定部により特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて前記始端時間候補及び前記終端時間候補を決定し、前記信頼度決定部により決定される信頼度を、前記特定感情区間の信頼度に決定する、
請求項1から4のいずれか1項に記載の会話分析装置。 - 前記対象会話の音声に対応するデータから前記複数の会話参加者の各々に関しそれぞれ検出される複数の特定感情状態を表す、複数の個別感情区間に関する情報を取得する情報取得部、
を更に備え、
前記変化検出部は、前記情報取得部により取得される複数の個別感情区間に関する情報に基づいて、前記複数の会話参加者の各々について、前記複数の所定変化パターンを、前記対象会話内の時間位置情報と共に、それぞれ検出する、
請求項1から5のいずれか1項に記載の会話分析装置。 - 前記変化検出部は、第1会話参加者に関し、平常状態から不満状態への変化パターン及び不満状態から平常状態又は満足状態への変化パターンを前記複数の所定変化パターンとして検出し、第2会話参加者に関し、平常状態から謝罪状態への変化パターン及び謝罪状態から平常状態又は満足状態への変化パターンを前記複数の所定変化パターンとして検出し、
前記特定部は、前記第1会話参加者の平常状態から不満状態への変化パターンと前記第2会話参加者の平常状態から謝罪状態への変化パターンとの組み合わせを前記始端組み合わせとして特定し、前記第1会話参加者の不満状態から平常状態又は満足状態への変化パターンと前記第2会話参加者の謝罪状態から平常状態又は満足状態への変化パターンとの組み合わせを前記終端組み合わせとして特定し、
前記区間決定部は、前記第1会話参加者の不満を表す区間を前記特定感情区間として決定する、
請求項1から6のいずれか1項に記載の会話分析装置。 - 前記区間決定部により決定される特定感情区間から得られる基準時間を基準とする所定時間範囲を前記対象会話の会話参加者が前記特定感情を持った原因を表す原因分析対象区間に決定する対象決定部、
を更に備える請求項1から7のいずれか1項に記載の会話分析装置。 - 第1会話参加者の前記複数の所定変化パターンに含まれる特定感情状態を表す個別感情区間を表す複数の第1描画要素、及び、第2会話参加者の前記複数の所定変化パターンに含まれる特定感情状態を表す個別感情区間を表す複数の第2描画要素、並びに、前記対象決定部により決定される前記原因分析対象区間を表す第3描画要素が、前記対象会話内の時系列に応じて並ぶ描画データを生成する描画データ生成部、
を更に備える請求項1から8のいずれか1項に記載の会話分析装置。 - 少なくとも1つのコンピュータにより実行される会話分析方法において、
対象会話の音声に対応するデータに基づいて、複数の会話参加者の各々に関し、感情状態の複数の所定変化パターンをそれぞれ検出し、
前記検出される複数の所定変化パターンの中から、前記複数の会話参加者間における、所定位置条件を満たす前記所定変化パターンの所定組み合わせである、始端組み合わせ及び終端組み合わせを特定し、
前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて、前記対象会話の会話参加者の特定感情を表す特定感情区間の始端時間及び終端時間を決定する、
ことを含む会話分析方法。 - 前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、
前記終端時間候補を介在せず時間的に並ぶ複数の始端時間候補の中の最先の始端時間候補以外の除外、及び、前記始端時間候補を介在せず時間的に並ぶ複数の終端時間候補の中の最後尾の終端時間候補以外の除外の少なくとも一方を実行する、
ことを更に含み、
前記特定感情区間の決定は、残った始端時間候補及び終端時間候補を前記始端時間及び前記終端時間に決定する、
請求項10に記載の会話分析方法。 - 前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、
時間的に交互に並ぶ始端時間候補及び終端時間候補の中から、最先の始端時間候補からの時間差又は発話区間数が所定時間差又は所定発話区間数以内となる、該最先の始端時間候補より後の第2始端時間候補、並びに、該最先の始端時間候補と該第2始端時間候補との間に位置する始端時間候補及び終端時間候補を除外する、
ことを更に含み、
前記特定感情区間の決定は、残りの始端時間候補及び終端時間候補を前記始端時間及び前記終端時間に決定する、
請求項10又は11に記載の会話分析方法。 - 前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、
前記始端時間候補と前記終端時間候補との各ペアについて、該ペアが示す時間範囲内に存在する他の始端時間候補及び他の終端時間候補の少なくとも一方の密度をそれぞれ算出し、
前記各ペアについて、前記算出された各密度に対応する各信頼度をそれぞれ決定する、
ことを更に含み、
前記特定感情区間の決定は、前記決定される各信頼度に基づいて、前記始端時間候補と前記終端時間候補の中から前記始端時間及び前記終端時間を決定する、
請求項10から12のいずれか1項に記載の会話分析方法。 - 前記特定される始端組み合わせ及び終端組み合わせに関する前記対象会話内の各時間位置に基づいて始端時間候補及び終端時間候補を決定し、
前記特定感情区間に関し、該特定感情区間内に位置する、前記区間決定部により決定される始端時間候補及び終端時間候補の少なくとも一方の密度を算出し、
前記算出された密度に対応する信頼度を前記特定感情区間の信頼度に決定する、
ことを更に含む請求項10から13のいずれか1項に記載の会話分析方法。 - 少なくとも1つのコンピュータに、請求項10から14のいずれか1項に記載の会話分析方法を実行させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012240763 | 2012-10-31 | ||
JP2012240763 | 2012-10-31 | ||
PCT/JP2013/072243 WO2014069076A1 (ja) | 2012-10-31 | 2013-08-21 | 会話分析装置及び会話分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2014069076A1 true JPWO2014069076A1 (ja) | 2016-09-08 |
Family
ID=50626998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014544356A Pending JPWO2014069076A1 (ja) | 2012-10-31 | 2013-08-21 | 会話分析装置及び会話分析方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20150310877A1 (ja) |
JP (1) | JPWO2014069076A1 (ja) |
WO (1) | WO2014069076A1 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014069122A1 (ja) * | 2012-10-31 | 2014-05-08 | 日本電気株式会社 | 表現分類装置、表現分類方法、不満検出装置及び不満検出方法 |
US9875236B2 (en) * | 2013-08-07 | 2018-01-23 | Nec Corporation | Analysis object determination device and analysis object determination method |
US9412393B2 (en) * | 2014-04-24 | 2016-08-09 | International Business Machines Corporation | Speech effectiveness rating |
US10141002B2 (en) * | 2014-06-20 | 2018-11-27 | Plantronics, Inc. | Communication devices and methods for temporal analysis of voice calls |
JP6122816B2 (ja) * | 2014-08-07 | 2017-04-26 | シャープ株式会社 | 音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラム |
US10142472B2 (en) | 2014-09-05 | 2018-11-27 | Plantronics, Inc. | Collection and analysis of audio during hold |
US10178473B2 (en) | 2014-09-05 | 2019-01-08 | Plantronics, Inc. | Collection and analysis of muted audio |
JP2017010309A (ja) | 2015-06-23 | 2017-01-12 | トヨタ自動車株式会社 | 意思決定支援装置および意思決定支援方法 |
JP6523974B2 (ja) * | 2016-01-05 | 2019-06-05 | 株式会社東芝 | コミュニケーション支援装置、コミュニケーション支援方法、および、プログラム |
US11455985B2 (en) * | 2016-04-26 | 2022-09-27 | Sony Interactive Entertainment Inc. | Information processing apparatus |
JP6219448B1 (ja) * | 2016-05-16 | 2017-10-25 | Cocoro Sb株式会社 | 顧客応対制御システム、顧客応対システム及びプログラム |
US11521641B2 (en) * | 2017-02-08 | 2022-12-06 | Nippon Telegraph And Telephone Corporation | Model learning device, estimating device, methods therefor, and program |
JP6852161B2 (ja) * | 2017-07-21 | 2021-03-31 | 日本電信電話株式会社 | 満足度推定モデル学習装置、満足度推定装置、満足度推定モデル学習方法、満足度推定方法、およびプログラム |
US10896688B2 (en) * | 2018-05-10 | 2021-01-19 | International Business Machines Corporation | Real-time conversation analysis system |
US20190385711A1 (en) | 2018-06-19 | 2019-12-19 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
EP3811245A4 (en) | 2018-06-19 | 2022-03-09 | Ellipsis Health, Inc. | MENTAL HEALTH ASSESSMENT SYSTEMS AND METHODS |
JP7164372B2 (ja) * | 2018-09-21 | 2022-11-01 | 株式会社日立情報通信エンジニアリング | 音声認識システム及び音声認識方法 |
US10805465B1 (en) | 2018-12-20 | 2020-10-13 | United Services Automobile Association (Usaa) | Predictive customer service support system and method |
CN111696559B (zh) * | 2019-03-15 | 2024-01-16 | 微软技术许可有限责任公司 | 提供情绪管理辅助 |
JPWO2022097204A1 (ja) * | 2020-11-04 | 2022-05-12 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6185534B1 (en) * | 1998-03-23 | 2001-02-06 | Microsoft Corporation | Modeling emotion and personality in a computer user interface |
US7222075B2 (en) * | 1999-08-31 | 2007-05-22 | Accenture Llp | Detecting emotions using voice signal analysis |
US7043008B1 (en) * | 2001-12-20 | 2006-05-09 | Cisco Technology, Inc. | Selective conversation recording using speech heuristics |
WO2003107326A1 (ja) * | 2002-06-12 | 2003-12-24 | 三菱電機株式会社 | 音声認識方法及びその装置 |
JP2005062240A (ja) * | 2003-08-13 | 2005-03-10 | Fujitsu Ltd | 音声応答システム |
JP2005072743A (ja) * | 2003-08-21 | 2005-03-17 | Aruze Corp | 情報交信用端末 |
US7577246B2 (en) * | 2006-12-20 | 2009-08-18 | Nice Systems Ltd. | Method and system for automatic quality evaluation |
JP2008299753A (ja) * | 2007-06-01 | 2008-12-11 | C2Cube Inc | 広告出力システム、サーバ装置、広告出力方法、およびプログラム |
JP2009175336A (ja) * | 2008-01-23 | 2009-08-06 | Seiko Epson Corp | コールセンターのデータベースシステム、その情報管理方法及び情報管理プログラム |
WO2010041507A1 (ja) * | 2008-10-10 | 2010-04-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 会話における特定状況を抽出するシステムおよび方法 |
JP5146434B2 (ja) * | 2009-10-05 | 2013-02-20 | 株式会社ナカヨ通信機 | 録音再生装置 |
JP5477153B2 (ja) * | 2010-05-11 | 2014-04-23 | セイコーエプソン株式会社 | 接客データ記録装置、接客データ記録方法およびプログラム |
JP5708155B2 (ja) * | 2011-03-31 | 2015-04-30 | 富士通株式会社 | 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム |
US8930187B2 (en) * | 2012-01-03 | 2015-01-06 | Nokia Corporation | Methods, apparatuses and computer program products for implementing automatic speech recognition and sentiment detection on a device |
US20130337420A1 (en) * | 2012-06-19 | 2013-12-19 | International Business Machines Corporation | Recognition and Feedback of Facial and Vocal Emotions |
WO2014069120A1 (ja) * | 2012-10-31 | 2014-05-08 | 日本電気株式会社 | 分析対象決定装置及び分析対象決定方法 |
US20150279391A1 (en) * | 2012-10-31 | 2015-10-01 | Nec Corporation | Dissatisfying conversation determination device and dissatisfying conversation determination method |
WO2014069122A1 (ja) * | 2012-10-31 | 2014-05-08 | 日本電気株式会社 | 表現分類装置、表現分類方法、不満検出装置及び不満検出方法 |
-
2013
- 2013-08-21 WO PCT/JP2013/072243 patent/WO2014069076A1/ja active Application Filing
- 2013-08-21 US US14/438,953 patent/US20150310877A1/en not_active Abandoned
- 2013-08-21 JP JP2014544356A patent/JPWO2014069076A1/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2014069076A1 (ja) | 2014-05-08 |
US20150310877A1 (en) | 2015-10-29 |
WO2014069076A8 (ja) | 2014-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2014069076A1 (ja) | 会話分析装置及び会話分析方法 | |
JP6358093B2 (ja) | 分析対象決定装置及び分析対象決定方法 | |
JP6341092B2 (ja) | 表現分類装置、表現分類方法、不満検出装置及び不満検出方法 | |
CN107818798A (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
US8494149B2 (en) | Monitoring device, evaluation data selecting device, agent evaluation device, agent evaluation system, and program | |
CN103348730B (zh) | 语音服务的体验质量测量 | |
JP2017508188A (ja) | 適応型音声対話のための方法 | |
JP6213476B2 (ja) | 不満会話判定装置及び不満会話判定方法 | |
Seng et al. | Video analytics for customer emotion and satisfaction at contact centers | |
JP5385677B2 (ja) | 対話状態分割装置とその方法、そのプログラムと記録媒体 | |
JP6327252B2 (ja) | 分析対象決定装置及び分析対象決定方法 | |
JP6365304B2 (ja) | 会話分析装置及び会話分析方法 | |
JP5691174B2 (ja) | オペレータ選定装置、オペレータ選定プログラム、オペレータ評価装置、オペレータ評価プログラム及びオペレータ評価方法 | |
CN113744742A (zh) | 对话场景下的角色识别方法、装置和系统 | |
Pandharipande et al. | A novel approach to identify problematic call center conversations | |
Gardner-Bonneau et al. | IVR Usability Engineering using Guidelines and Analyses of end-to-end calls | |
US20110197206A1 (en) | System, Method And Program Product For Analyses Based On Agent-Customer Interactions And Concurrent System Activity By Agents | |
WO2014069443A1 (ja) | 不満通話判定装置及び不満通話判定方法 | |
WO2014069444A1 (ja) | 不満会話判定装置及び不満会話判定方法 | |
CN113689886B (zh) | 语音数据情感检测方法、装置、电子设备和存储介质 | |
US11558506B1 (en) | Analysis and matching of voice signals | |
US11978442B2 (en) | Identification and classification of talk-over segments during voice communications using machine learning models | |
EP4093005A1 (en) | System method and apparatus for combining words and behaviors | |
TR2023018456A2 (tr) | Bi̇r hi̇zmet i̇yi̇leşti̇rme si̇stemi̇ | |
JP2010008764A (ja) | 音声認識方法、音声認識システム、および音声認識装置 |