WO2010041507A1

WO2010041507A1 - 会話における特定状況を抽出するシステムおよび方法

Info

Publication number: WO2010041507A1
Application number: PCT/JP2009/063571
Authority: WO
Inventors: 岳人倉田; 伸泰伊東; 雅史西村
Original assignee: インターナショナル・ビジネス・マシーンズ・コーポレーション
Priority date: 2008-10-10
Filing date: 2009-07-30
Publication date: 2010-04-15
Also published as: US20100114575A1; US9269357B2

Abstract

【課題】会話の音声を解析して、特定の場面での会話における特定の状況が生じている可能性のある箇所を自動的に抽出する。【解決手段】会話の発話音声データを取得する音声取得部１１０と、この会話の発話音声データのうち、特定話者の発話音声の中から特定表現の発話音声を検出する特定表現検出部１３０と、この会話の発話音声データのうち、特定表現検出部１３０により検出された特定表現の発話音声を含み、各話者による発話音声の外形的特徴が一定の条件を満たす発話パターンを形成する部分を抽出する特定状況抽出部１４０と、を備える。

Description

会話における特定状況を抽出するシステムおよび方法

　本発明は、電話等における会話の音声を解析して、会話における特定の状況を推定し抽出するシステムおよび方法等に関する。

　従来、収録された音声を解析して様々な情報を得ることが行われている。また、この種の技術を用いて、電話や面談における会話の音声を解析し、音声のパワーや音声認識結果から得られる発話のパターンに基づいて、話者や会話の状況を推定する技術が提案されている。

　特許文献１には、音声のパワー情報を利用して音声データから発話部分と非発話部分とを切り分け、一定時間内の非発話部分の割合に基づいて発話者の困惑度を調べる技術が開示されている。

　特許文献２には、コール・センターにおけるエージェントの音声を対象とし、一定時間内の相槌の回数に応じて、コール・センターの受付業務においてクレームが発生したことを検出する技術が開示されている。

特開２００６－２６７４６４号公報特開２００７－２８６０９７号公報

　コール・センターにおけるエージェントと顧客との電話での会話や、対面販売における販売者と顧客との会話のような特定の場面での会話に関して、特定の状況が発生している箇所を区別して抽出したい場合がある。例えば、顧客からの苦情に対する応答や、顧客が商品に興味を持ったり、購買を決めたりする際のやり取り等である。

　本発明は、会話の音声を解析して、特定の場面での会話における特定の状況が生じている箇所を自動的に抽出することを目的とする。

　上記の目的を達成するため、本発明は、次のようなシステムとして実現される。このシステムは、会話における特定状況を抽出するシステムであって、会話の発話音声データを取得する取得部と、この会話の発話音声データのうち、特定話者の発話音声の中から特定表現の発話音声を検出する特定表現検出部と、この会話の発話音声データのうち、特定表現検出部により検出された特定表現の発話音声を含み、一定の条件を満たす発話パターンを形成する部分を抽出する特定状況抽出部と、を備える。

　より詳細には、この発話パターンは、各話者による発話音声の外形的特徴に基づいて形成されるパターンであり、特定状況抽出部は、発話音声データのうち、各話者による発話音声の外形的特徴が一定の条件を満たす部分を抽出する。
　さらに詳細には、発話音声の外形的特徴は、各話者の発話における発話時間の情報により定まる。
　また、特定状況抽出部は、特定表現の発話音声以前の各話者の発話音声における特定話者の発話時間と他の話者の発話時間との差異に応じて、この発話音声における特定表現の発話音声を含む部分が発話パターンを形成するか否かを判断する。

　また、より好ましくは、上記のシステムにおいて、特定状況抽出部は、発話音声における発話パターンを形成する部分の外形的特徴を定量的に表す特徴値を求める。
　また、特定状況抽出部は、所定の会話単位の特徴値として、この会話単位に含まれる部分ごとに求められた特徴値の総和を求める。
　さらに、特定状況抽出部は、特定表現の発話音声以前の各話者の発話音声に関して、特定話者の発話時間と他の話者の発話時間との差に基づく特徴値を求める。

　また、本発明は、次のような方法としても実現される。この方法は、収録された会話を解析して特定状況を抽出する方法であって、会話の発話音声データを取得するステップと、会話の発話音声データのうち、特定話者の発話音声の中から特定表現の発話音声を検出するステップと、会話の発話音声データのうち、検出された特定表現の発話音声を含み、各話者による発話音声の外形的特徴が一定の条件を満たす発話パターンを形成する部分を抽出するステップと、を含む。
　さらに好ましくは、会話の発話音声データから発話パターンを形成する部分を抽出するステップは、抽出された部分の発話音声に関して、特定話者の発話時間と他の話者の発話時間との差に基づき、発話音声の外形的特徴を定量的に表す特徴値を求めるステップを含む。

　また、本発明は、コンピュータを制御して上記のシステムの各機能を実現させるプログラムや、コンピュータに上記の方法の各ステップに対応する処理を実行させるプログラムとしても実現される。このプログラムは、光ディスクや磁気ディスク、半導体メモリ、その他の記憶媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供される。

　以上のように構成された本発明によれば、会話の音声を解析し、特定の場面での会話における特定の状況が生じている可能性のある箇所を自動的に抽出することができる。

本実施形態による音声解析システムの構成例を示す図である。図１の音声解析システムを実現するコンピュータのハードウェア構成例を示す図である。本実施形態の特定表現検出部および特定状況抽出部の動作手順を示すフローチャートである。本実施形態により処理される、コール・センターにおける顧客とエージェントとの会話音声データの具体例を示す図である。

　以下、添付図面を参照して、本発明の実施形態について詳細に説明する。
＜システム構成＞
　図１は、本実施形態による音声解析システムの構成例を示す図である。
　図１を参照すると、本実施形態のシステムは、会話音声データを取得する音声取得部１１０と、取得された会話音声データの話者を識別する音声分別部１２０と、特定の話者の発話から特定の表現を検出する特定表現検出部１３０とを備える。また、このシステムは、各話者の発話パターンと検出された特定表現に基づいて、会話における特定の状況を抽出する特定状況抽出部１４０と、これらの解析処理による結果を出力する出力部１５０とを備える。

　図２は、図１の音声解析システムを実現するコンピュータのハードウェア構成例を示す図である。
　図２に示すコンピュータ１０は、演算手段であるＣＰＵ（Central Processing Unit）１０ａと、記憶手段であるメイン・メモリ１０ｃおよび磁気ディスク装置（ＨＤＤ：Hard Disk Drive）１０ｇを備える。また、ネットワークを介して外部装置に接続するためのネットワーク・インタフェース・カード１０ｆと、表示出力を行うためのビデオ・カード１０ｄおよび表示装置１０ｊと、音声出力を行うための音声機構１０ｈとを備える。さらに、キーボードやマウス等の入力デバイス１０ｉを備える。

　図２に示すように、メイン・メモリ１０ｃおよびビデオ・カード１０ｄは、システム・コントローラ１０ｂを介してＣＰＵ１０ａに接続されている。また、ネットワーク・インタフェース・カード１０ｆ、磁気ディスク装置１０ｇ、音声機構１０ｈおよび入力デバイス１０ｉは、Ｉ／Ｏコントローラ１０ｅを介してシステム・コントローラ１０ｂと接続されている。各構成要素は、システム・バスや入出力バス等の各種のバスによって接続される。例えば、ＣＰＵ１０ａとメイン・メモリ１０ｃの間は、システム・バスやメモリ・バスにより接続される。また、ＣＰＵ１０ａと磁気ディスク装置１０ｇ、ネットワーク・インタフェース・カード１０ｆ、ビデオ・カード１０ｄ、音声機構１０ｈ、入力デバイス１０ｉ等との間は、ＰＣＩ（Peripheral Components Interconnect）、ＰＣＩ　Ｅｘｐｒｅｓｓ、シリアルＡＴＡ（AT Attachment）、ＵＳＢ（Universal Serial Bus）、ＡＧＰ（Accelerated Graphics Port）等の入出力バスにより接続される。

　なお、図２は、本実施形態が適用されるのに好適なコンピュータのハードウェア構成を例示するに過ぎず、実際の各サーバが図示の構成に限定されないことは言うまでもない。例えば、ビデオ・カード１０ｄを設ける代わりに、ビデオメモリのみを搭載し、ＣＰＵ１０ａにてイメージ・データを処理する構成としても良い。また、音声機構１０ｈを独立した構成とせず、システム・コントローラ１０ｂやＩ／Ｏコントローラ１０ｅを構成するチップセットの機能として備えるようにしても良い。また、補助記憶装置として磁気ディスク装置１０ｇの他に、各種の光学ディスクやフレキシブル・ディスクをメディアとするドライブを設けても良い。表示装置１０ｊとしては、主として液晶ディスプレイが用いられるが、その他、ＣＲＴディスプレイやプラズマ・ディスプレイ等、任意の方式のディスプレイを用いて良い。

　図１に示したシステムにおいて、音声分別部１２０、特定表現検出部１３０、特定状況抽出部１４０は、例えば図２に示したコンピュータ１０において、メイン・メモリ１０ｃに読み込まれたプログラムをＣＰＵ１０ａが実行することにより実現される。音声取得部１１０および出力部１５０は、例えば図２に示したコンピュータ１０において、ネットワーク・インタフェース・カード１０ｆおよびプログラム制御されたＣＰＵ１０ａにより実現される。

　音声取得部１１０は、マイクロフォン等の音声入力デバイスにより収録された電話や面談の会話音声のデータを取得する。電話での会話音声データを取得する場合、少なくとも一方の話者の音声データについては、電話回線から取得しても良い。各話者の発話が話者ごとに設定されたチャネルに分かれて収録されている場合、音声取得部１１０は、チャネルごとに音声データを取得する。

　音声分別部１２０は、音声取得部１１０により取得された音声データを話者ごとの発話音声に分別する。取得された音声データが話者ごとに個別のチャネルで収録されている場合は、チャネルごとに話者が識別される。また、１つのチャネルに複数話者の音声が混在している場合、複数話者の発話が含まれる音声データから話者ごとの発話を識別するための既存技術を適用して話者を識別すれば良い。

　特定表現検出部１３０は、音声分別部１２０により話者が識別された音声データのうち、特定話者の発話音声から特定表現を検出する。検出対象となる話者および表現は、会話音声データから抽出しようとする状況に応じて定められる。例えば、コール・センターにおける電話応対の場面で、エージェントが顧客からの苦情に応答している状況を抽出しようとする場合、エージェントにより発話された謝罪表現（「申し訳ございません」、「すみません」、「失礼いたしました」等）が検出される。

　特定表現の検出方法としては、音声データから発話の内容を認識するための既存の任意の手法を適用することができる。具体的には例えば、一般的な音声認識技術を用いて発話内容を認識し、認識結果として得られたテキストから上記の特定表現を検出することができる。また、本実施形態では、特定表現のみを検出できれば良く、取得した音声データの全体にわたって音声認識を行う必要はないので、キーワード・スポッティングの技術を用いても良い。キーワード・スポッティングとは、連続音声の中から特定のキーワードだけを抽出して認識する技術である。この手法では、検出しようとする特定表現の音声波形が用意され、取得した音声データに対してマッチングを行うことによって、特定表現が発話されている箇所が検出される。

　また、実際の発話では、同じ謝罪表現でも「申し訳ない」、「申し訳ありません」、「申し訳ございません」等のように変化する。そこで、例えば、正規表現を用いて「申し訳＊」のように特定表現を指定することで、これらの表現が全て検出対象となるようにする。

　特定状況抽出部１４０は、処理対象の会話音声データのうち、特定表現検出部１３０により検出された特定話者による特定表現の発話音声を含み、音声分別部１２０により分別された各話者の発話パターンが一定の条件を満たす部分を、会話において特定状況が生じた部分として抽出する。会話において特定の状況が生じた場合、その会話中に、各話者による発話が一定の条件を満たすパターンを形成し、かつその発話パターンの中で特定話者による特定の発話表現が出現する場合がある。そこで、特定状況抽出部１４０は、会話音声データからそのような発話パターンと発話表現の組み合わせを検出することによって、その会話中で特定の状況が生じた部分を特定し、抽出する。

　例として、先に挙げた、顧客の苦情に対して応答する状況（苦情応答状況と呼ぶ）を考える。この場合、頻出する発話パターンとしては、エージェントの発話に対して顧客の発話が多い偏向した状態が続いた後、エージェントによる謝罪表現の発話が出現する、というパターンがある。これは、顧客が一方的に苦情を申し立てた後、エージェントが謝罪の言葉を述べることに対応している。

　ここで、顧客の発話が多い状態を考慮せず、単にエージェントの謝罪表現のみに基づいて、上記の苦情応答状況を抽出することを考える。
　謝罪表現は、話者が謝罪の意を表すために用いる表現であるが、必ずしも顧客の苦情の申し立てに対して謝罪するために用いられたとは限らない。苦情に対する謝罪以外の目的で用いられる例としては、相手を待たせたことに対して「お待たせして申し訳ありませんでした」という表現や、以前に電話がかかってきた際に不在であったり相手に迷惑をかけたりしたことに対して「先日は申し訳ありませんでした」という表現が用いられる場合がある。これらの状況で使用される謝罪表現は、会話全体における最初の挨拶と共に出現することが多い。また、相手に何かを依頼する際に「たいへん申し訳ないのですが、・・・」といった表現が用いられる場合がある。この場合、この謝罪表現の後に逆説の構文等を用いて依頼内容についての発話が続くという特徴があり、顧客の発話が多い状態が続いた後に謝罪表現が出現するというパターンには必ずしも合致しない。さらに、実際の会話では、コミュニケーションを円滑にする等の目的で、比較的頻繁に、このような謝罪の言葉を発する人もいる。したがって、エージェントの謝罪表現のみに基づいて、会話から特定状況を抽出しようとすると、苦情に対する謝罪以外の目的で用いられた、これらの謝罪表現も採取してしまう。

　そこで、特定状況抽出部１４０は、顧客の発話が多い状態が続き、その後にエージェントが発話したという発話パターンと、エージェントにより発話された謝罪表現（特定表現）との組み合わせが出現したことを条件に、苦情応答状況を抽出する。このように、話者ごとの発話のパターンと特定話者による特定表現との組み合わせに基づいて、会話中に生じた特定状況を区別することにより、特定状況の抽出精度が向上する。

　本実施形態による特定状況の抽出手法は、上記のような苦情応答状況の抽出以外にも、様々な場面での会話を対象として様々な特定状況を抽出するために用いることができる。例えば、商品売買のための会話において、顧客の発話が多い状態が続き、その後にエージェントによる謝礼表現（「ありがとうございます」等）が出現した場合、顧客が商品を購買したという状況が生じたと判断することができる。また、一方の話者の発話が多い状態が続き、その後に他方の話者による承認の表現（「かしこまりました」、「承りました」、「了解しました」等）が出現した場合、一方の話者から他方の話者へ何らかの指示が与えられたという状況が生じたと判断することができる。

　本実施形態において、特定状況の抽出に用いられる各話者の発話パターンは、各話者の発話時間や発話順、発話回数といった、発話の内容に関わらない外形的な特徴によって形成される。これらの発話に関する情報は、音声取得部１１０により取得された音声データの音響情報（パワー）のみから得ることができる。さらに詳細には、時間軸に沿った各話者の発話時間の情報があれば、発話パターンを特定することができる。したがって、特定話者により発話された特定表現を検出することを除いて、本実施形態では、各話者の発話に対して音声認識処理を行う必要もないし、上記の発話時間の情報を取得した後は音声データそのものを保持しておく必要もない。例えば上記のコール・センターの例では、顧客の発話に関しては音声のパワーに基づいて発話が行われた時間の情報が得られれば十分であり、顧客の発話の内容を認識する必要がない。一般に、コール・センターにおける電話での会話音声を音声認識する場合、エージェントの発話音声の認識率よりも顧客の発話音声の認識率の方が低いことが知られているが、このような場合にも、顧客の発話音声を認識する必要のない本実施形態は特に有効である。

　本実施形態の特定状況抽出部１４０は、上記のように、会話音声データ中の特定状況が生じている箇所を明示的に特定する他、特定状況が生じている可能性のある部分を抽出し、特定状況が生じているか否かを判断する材料となる情報を提示するようにしても良い。この場合、まず特定話者による特定表現が出現している箇所を特定する。そして、特定された箇所を含む会話音声データの部分において、その部分の外形的な特徴を定量的に表す特徴値を求め、特定状況が生じているか否かを判断する材料となる情報として提示する。この情報は、言わば、特定状況が生じている確度（確からしさ）を示す。会話音声データから特定状況が生じている箇所を明示的に特定する場合、まず特定話者による特定表現が出現している箇所を含む部分の確度を求め、その確度が予め定められた閾値以上の場合に、その部分を特定状況が生じている箇所として抽出しても良い。

　なお、上記の特徴値に関して、具体的にどのような計算により求まる値を設定するかは、発話音声データからどのような発話パターンを形成する部分を抽出するかに基づく。そして、発話音声データから抽出する発話パターンは、どのような場面での会話においてどのような特定状況を抽出するかに応じて任意に設定して良い。

　出力部１５０は、特定状況抽出部１４０による処理結果を出力する。処理結果は、単に特定状況が抽出された箇所を提示するものであっても良いし、上記の特徴値を提示しても良い。さらに特定状況が抽出された箇所のうち、確度の計算結果が一定の閾値を超えるものについてのみ抽出結果として提示しても良い。

　また、出力部１５０は、処理結果をシステムが実施される態様等に応じて、様々な出力形式で出力する。具体的には例えば、特定状況抽出部１４０による処理結果を、グラフ形式や表形式に視覚化し、図２に示した表示装置１０ｊに表示しても良い。また、この処理結果を、磁気ディスク装置１０ｇや外部記憶装置に構築されたデータベースに格納しても良い。さらに、この処理結果を、種々のアプリケーションで利用可能なデータ形式に加工し、アプリケーションでの利用に供しても良い。

＜特定表現検出部および特定状況抽出部の動作＞
　次に、特定表現検出部１３０および特定状況抽出部１４０の動作について説明する。
　図３は、特定表現検出部１３０が会話音声データから特定話者の特定表現を検出し、特定状況抽出部１４０が特定状況を抽出する手順を示すフローチャートである。
　ここでは、コール・センターにおける一回の通話のように、ある程度まとまった会話における音声データを単位（以下、会話単位と呼ぶ）として処理を行う。１つの会話単位における会話音声データには、各話者の発話が１回から数回分含まれる。なお、図３のフローチャートにおいて、「Ａ：」という表現は、特定話者（例えば、上記コール・センターの例におけるエージェント）の音声に対する処理であることを表している。

　本動作例において、特定状況が生じた部分として抽出されるための発話パターンは、特定話者であるエージェントの発話に対して相手の発話が多い状態が続いた後、エージェントによる謝罪表現の発話が出現した、というパターンを採用する。また、本動作例では、特定状況抽出部１４０は、会話音声データ中の特定状況が生じた部分を具体的に特定するのではなく、発話音声データにおける特定話者の特定表現を含む各々の部分に関して、発話音声データの外形的特徴を定量的に表す特徴値を求める。言い換えれば、特定状況抽出部１４０は、会話音声データ中から特定状況が生じた可能性のある部分を抽出し、抽出した各部分に対して、特徴値を求めることにより、各々の部分において実際に特定状況が生じている確度を示す。

　図３に示すように、まず特定表現検出部１３０が、音声分別部１２０により話者ごとに分類された会話単位の音声データのうち、特定話者の音声データから特定表現を検出する（ステップ３０１）。上述したように、特定表現の検出は、通常の音声認識処理やキーワード・スポッティング等の既存の認識技術を用いて行うことができる。ここで、処理対象の会話単位において、特定話者の音声データから特定表現が検出されなかった場合（特定表現が存在しなかった場合）、処理を終了する（ステップ３０２でＮｏ）。

　特定表現が検出された場合（ステップ３０２でＹｅｓ）、次に、特定状況抽出部１４０が、会話単位の音声データ中の検出された各特定表現を含む部分に対して、以下のステップ３０３～ステップ３０９の処理を行う。なお、処理対象の会話単位の音声データからはＮ個の特定表現が検出されたものとする。そして、以下の説明において、変数の記号に付される添え字ｉは、１からＮまでの値を取り、各処理がｉ番目の特定表現に関する処理であることを表すこととする。

　特定状況抽出部１４０は、まず、会話単位の音声データから、その時間軸に基づいて、特定表現が出現した時刻Ｔ_iを取得する（ステップ３０３）。また、特定表現以前の特定話者の発話のうちで、相槌以外の発話であって、かつ特定表現に最も近いものの終端時刻Ｔ_i ^preを取得する（ステップ３０４）。ここで、相槌は、通常、「はい」、「ええ」等のような単発で短時間の特徴的な発話であるため、そのような発話を無視することによって、相槌を除いた特定表現の直前の発話を特定することができる。特定表現の検出にキーワード・スポッティングが用いられた場合、ＶＡＤ（Voice Activity Detection）の結果を参照することで、時刻Ｔ_i ^preが得られる。

　次に特定状況抽出部１４０は、時刻Ｔ_iおよび時刻Ｔ_i ^preを用いて、特定話者による特定表現とその直前の発話との間の時間ｔ_i ^range（＝Ｔ_i－Ｔ_i ^pre）を求める（ステップ３０５）。この特定表現とその直前の発話との間の時間、すなわち相槌を除き特定話者が沈黙していた時間を空白時間と呼ぶ。この時間は、特定話者以外の話者が発話していることが想定されるが、空白時間ｔ_i ^rangeを求める段階では、実際に他の話者が発話しているか否かは問題としない。

　また、特定状況抽出部１４０は、求めた空白時間ｔ_i ^rangeが予め設定された最小値ｔ^{MINIMUM_RANGE}よりも短い場合、空白時間ｔ_i ^rangeの値を最小値ｔ^{MINIMUM_RANGE}に置き換える（ステップ３０６、３０７）。これは、特定話者が特定表現を発話する直前に、付加的な単語を発話した場合や、雑音が特定話者の発話と誤認識された場合に、空白時間ｔ_i ^rangeが極端に短くなってしまうことを回避するために行われる。付加的な単語とは、例えば特定表現が謝罪表現「申し訳ありません」である場合に、特定話者が「まことに、申し訳ありません」と発話した場合の「まことに」等である。最小値ｔ^{MINIMUM_RANGE}の具体的な値は、例えば５秒程度とすることができるが、処理対象とする会話の場面や抽出しようとする特定状況に応じて適当な値を個別に設定して良い。

　本実施形態では、このステップ３０６およびステップ３０７で得られる発話音声の部分、すなわち、時刻（Ｔ_i－ｔ_i ^range）から時刻Ｔ_iまでの部分が形成する発話パターンによって、特定状況が生じた可能性のある部分が抽出される。

　次に特定状況抽出部１４０は、時刻（Ｔ_i－ｔ_i ^range）から時刻Ｔ_iまでの間で、話者ごとの発話音声データを参照し、特定話者が発話している時間ｕ_i ^Aと他の話者が発話している時間ｕ_i ^Bとを求める（ステップ３０８）。特定話者の発話時間ｕ_i ^Aについては、音声認識の結果や特定話者の発話音声に対するＶＡＤの処理結果を利用して求めることができる。他の話者の発話時間ｕ_i ^Bについては、その話者の発話音声データに対するＶＡＤの処理結果を利用して求めることができる。

　次に特定状況抽出部１４０は、ステップ３０８で求めた各話者の発話時間ｕ_i ^A、ｕ_i ^Bと空白時間の最小値ｔ^{MINIMUM_RANGE}とに基づいて、ｉ番目の特定表現に関する特徴値としてスコアＳ_iを求める（ステップ３０９）。特徴値であるスコアＳ_iは、音声データ中の特定表現が出現した箇所が、実際に特定状況の生じている確度を表す指標として用いられる。すなわち、ある箇所について、スコアＳ_iが高いほど、その箇所が実際に特定状況の生じている箇所である確度が高くなる。特定表現が謝罪表現である場合、スコアＳ_iが高いほど、苦情応答状況が生じている確度が高くなるため、より深刻な問題に対する謝罪として用いられた謝罪表現であると見なす。

　スコアＳ_iの求め方は、上記の目的に基づき、特定状況の具体的な内容等に応じて任意に定め得る。一つの考え方として、時間ｔ_i ^rangeが長いほど高くなり、この時間ｔ_i ^rangeにおいて特定話者の発話時間に対して他の話者の発話時間が大きいほど高くなるようにスコアＳ_iの計算方法を設定することができる。下記の式は、スコアＳ_iを求めるための計算式の一例である。

　　　Ｓ_i＝（ｕ_i ^B－ｕ_i ^A）／ｔ^{MINIMUM_RANGE}　　　　　　　　　　式（１）

　このスコアＳ_iは、ｔ_i ^range＝ｔ^{MINIMUM_RANGE}であって、かつｕ_i ^A＝０、すなわち特定表現の直前の空白時間で特定話者以外の話者のみが発話している場合に、最大値１となる。

　図４は、コール・センターにおける顧客とエージェントとの会話音声データの具体例を示す図である。
　図４において、話者Ａがエージェント、話者Ｂが顧客である。特定話者である話者Ａの発話は、発話Ｐ₁～Ｐ₅まで音声認識されており、認識結果は、Ｐ₁「・・・もらってた」、Ｐ₂「八月そうですね、で」、Ｐ₃「はい」、Ｐ₄「ええ」、Ｐ₅「申し訳・・・」である。このうち、Ｐ₅が謝罪表現、Ｐ₃およびＰ₄が相槌である。したがって、Ｐ₅の開始時刻が時刻Ｔ_iであり、Ｐ₂の終端時刻が時刻Ｔ_i ^preである。そして、時刻Ｔ_i ^preから時刻Ｔ_iまでの間の時間が時間ｔ_i ^rangeである。ただし、図４に示す例では、ｔ_i ^range＜ｔ^{MINIMUM_RANGE}であるものとする。したがって、特定状況抽出部１４０の処理においては、ｔ_i ^rangeがｔ^{MINIMUM_RANGE}に置き換えられる。

　図４を参照すると、時間ｔ^{MINIMUM_RANGE}の範囲における各話者の発話時間は、話者Ｂの発話時間ｕ_i ^Bが話者Ａの発話時間ｕ_i ^Aに対して相当に長い。したがって、上記の式（１）により計算されるスコアＳ_iは大きな値となる。

　特定状況抽出部１４０は、会話単位の音声データから検出された各特定表現を含む部分に対して、上記の処理を行った後、全てのスコアＳ_iを加算し、会話単位におけるスコアΣＳ_iを求め、処理を終了する（ステップ３１０）。得られたスコアΣＳ_iおよびスコアＳ_iは、会話音声データにおける位置を表す時刻Ｔ_iの情報等と共に、出力部１５０により、必要に応じて加工されて、出力される。

＜適用例＞
　本実施形態による音声解析システムの適用例として、コール・センターにおける会話音声のモニタリング作業に適用する場合を考える。
　コール・センターでは、顧客とエージェントの間で毎日大量の会話が行われており、その大量の会話の中から、有用な情報を見つけたり、問題を発見したりするためのモニタリングの需要が高まっている。例えば、コール・センターにおける会話の中で、顧客がエージェントに対して不満・怒りを表しているものは、その会話の内容を子細に調べることにより、顧客が不満に思っている原因を突き止めたり、顧客の怒りをよく招いてしまうエージェントを検出したりすることができる。

　しかし、毎日コール・センターで行われる会話の数は膨大であるため、全ての会話を人間（スーパーバイザ）が聞いて、実際に苦情応答状況が生じている有用な会話を列挙することは困難である。そこで、本実施形態を用いて監視対象とする会話を絞り込むことで、モニタリング作業の効率の向上を図ることができる。例えば、図３のステップ３１０で計算された会話ごとのスコアに基づいて各会話を順位付け、スコアの高いもの（実際に苦情応答状況が生じている確度の高いもの）から順にスーパーバイザが調べることで、効率の良いモニタリング作業が実現される。

　また、本実施形態は、図３のステップ３０９に示したように、会話単位だけでなく、会話中に出現した特定表現ごとにスコアが計算される。したがって、この特定表現ごとに計算されたスコアに基づき、例えば一定の閾値以上のスコアが算出された部分を切り出してスーパーバイザに提示することにより、モニタリング作業の効率をさらに向上させることができる。

　以上、本実施形態について説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。例えば、上記実施形態では、特定話者により発話された特定表現と各話者の発話パターンのみに基づいて特定状況が生じた可能性がある部分を抽出し、その確度を表す特徴値（スコア）を計算した。これに対し、上記の特定表現および発話パターンに、特定話者の発話に対する音声認識の結果を組み合わせて特定状況が生じている確度を計算しても良い。例えば、特定表現に対してさらに別の発話表現が付加されている場合や、「ですが」のような「逆接」表現が特定表現に後続する場合に、それらの発話表現が付加していない場合と比べて確度の値が異なるような計算式を設定しても良い。

　また、上記実施形態では、特定状況として苦情応答状況を例に挙げ、相手の話者の発話が多い偏向状態が続いた後に特定話者の特定表現の発話が出現した、という発話パターンによって苦情応答状況が生じた可能性がある部分を抽出した。しかしながら、この発話パターンは例示に過ぎない。特定状況が生じる際に頻出する各話者の発話パターンを特定できるのであれば、特定話者と相手の話者の発話が交互に繰り返されるような複雑な発話パターンによって特定状況が生じていることを判断しても良い。さらに、上記の実施形態では、特定話者と他の一人の話者からなる合計二人の話者による会話を例として説明したが、特定話者と複数の他の話者からなる三人以上の話者による会話に対しても、特定状況が生じる際に頻出する各話者の発話パターンを特定することができれば、本実施形態を適用することが可能である。その他、上記実施形態に、種々の変更または改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。

１０ａ…ＣＰＵ、１０ｃ…メイン・メモリ、１０ｇ…磁気ディスク装置、１１０…音声取得部、１２０…音声分別部、１３０…特定表現検出部、１４０…特定状況抽出部、１５０…出力部

Claims

　会話における特定状況を抽出するシステムであって、
　前記会話の発話音声データを取得する取得部と、
　前記会話の発話音声データのうち、特定話者の発話音声の中から特定表現の発話音声を検出する特定表現検出部と、
　前記会話の発話音声データのうち、前記特定表現検出部により検出された前記特定表現の発話音声を含み、一定の条件を満たす発話パターンを形成する部分を抽出する特定状況抽出部と、
を備える、前記システム。
　前記発話パターンは、各話者による発話音声の外形的特徴に基づいて形成されるパターンであり、
　前記特定状況抽出部は、前記発話音声データのうち、各話者による発話音声の外形的特徴が前記一定の条件を満たす部分を抽出する、請求項１に記載のシステム。
　前記発話音声の外形的特徴は、各話者の発話における発話時間の情報により定まる、請求項２に記載のシステム。
　前記特定状況抽出部は、前記発話音声データにおける前記発話パターンを形成する前記部分の外形的特徴を定量的に表す特徴値を求める、請求項１乃至請求項３に記載のシステム。
　前記特定状況抽出部は、所定の会話単位の特徴値として、当該会話単位に含まれる前記部分ごとに求められた前記特徴値の総和を求める、請求項４に記載のシステム。
　前記特定状況抽出部は、前記特定表現の発話音声以前の各話者の発話音声に関して、前記特定話者の発話時間と他の話者の発話時間との差に基づく前記特徴値を求める、請求項４または請求項５に記載のシステム。
　前記特定状況抽出部は、前記特定表現の発話音声以前の各話者の発話音声における前記特定話者の発話時間と他の話者の発話時間との差異に応じて、当該発話音声における当該特定表現の発話音声を含む部分が前記発話パターンを形成するか否かを判断する、請求項１乃至請求項３に記載のシステム。
　会話における特定状況を抽出するシステムであって、
　前記会話の発話音声データを取得する取得部と、
　前記会話の発話音声データのうち、特定話者の発話音声の中から特定表現の発話音声を検出する特定表現検出部と、
　前記会話の発話音声データのうち、前記特定表現検出部により検出された前記特定表現の発話音声および当該特定表現の発話音声以前の一定条件を満たす各話者の発話音声を含む部分を抽出し、当該部分の発話音声に関して、前記特定話者の発話時間と他の話者の発話時間との差に基づき、当該発話音声の外形的特徴を定量的に表す特徴値を求める特定状況抽出部と、
を備える、前記システム。
　収録された会話を解析して特定状況を抽出する方法であって、
　前記会話の発話音声データを取得するステップと、
　前記会話の発話音声データのうち、特定話者の発話音声の中から特定表現の発話音声を検出するステップと、
　前記会話の発話音声データのうち、検出された前記特定表現の発話音声を含み、各話者による発話音声の外形的特徴が一定の条件を満たす発話パターンを形成する部分を抽出するステップと、
を含む、前記方法。
　前記会話の発話音声データから前記発話パターンを形成する部分を抽出するステップは、抽出された前記部分の発話音声に関して、前記特定話者の発話時間と他の話者の発話時間との差に基づき、当該発話音声の外形的特徴を定量的に表す特徴値を求めるステップを含む、請求項９に記載の方法。
　会話における特定状況を抽出するためのプログラムであって、
　コンピュータを、
　前記会話の発話音声データを取得し、特定話者の発話音声の中から特定表現の発話音声を検出する手段と、
　前記会話の発話音声データのうち、検出された前記特定表現の発話音声を含み、各話者による発話音声の外形的特徴が一定の条件を満たす発話パターンを形成する部分を抽出する手段として、
機能させる、前記プログラム。
　前記会話の発話音声データから前記発話パターンを形成する部分を抽出する手段は、抽出された前記部分の発話音声に関して、前記特定話者の発話時間と他の話者の発話時間との差に基づき、当該発話音声の外形的特徴を定量的に表す特徴値を求める、請求項１１に記載のプログラム。