JPWO2016009634A1 - 会話分析システム、会話分析方法および会話分析プログラムが記録された記憶媒体 - Google Patents

会話分析システム、会話分析方法および会話分析プログラムが記録された記憶媒体 Download PDF

Info

Publication number
JPWO2016009634A1
JPWO2016009634A1 JP2016534111A JP2016534111A JPWO2016009634A1 JP WO2016009634 A1 JPWO2016009634 A1 JP WO2016009634A1 JP 2016534111 A JP2016534111 A JP 2016534111A JP 2016534111 A JP2016534111 A JP 2016534111A JP WO2016009634 A1 JPWO2016009634 A1 JP WO2016009634A1
Authority
JP
Japan
Prior art keywords
knowledge
feature amount
conversation
feature
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016534111A
Other languages
English (en)
Inventor
祐 北出
祐 北出
祥史 大西
祥史 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2016009634A1 publication Critical patent/JPWO2016009634A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Abstract

書き言葉とは異なる崩れた文章が入力された場合であっても、頑健に話者の知識レベルを推定できる会話分析システムを提供する。音声データおよび音声データのテキストデータから話者間の会話状態に関する特徴量である会話特徴量を抽出する会話特徴量抽出手段11と、テキストデータに含まれる単語に関する特徴量である言語特徴量を抽出する言語特徴量抽出手段12と、抽出された会話特徴量および言語特徴量と、知識特徴量を示す識別パターンを保持する知識特徴量推定モデルとから知識特徴量を推定する知識特徴量推定手段13と、推定された知識特徴量を統合して話者の知識レベルを推定する知識レベル推定手段14とを備える。

Description

本発明は、会話から話者の知識レベルを推定する会話分析システム、会話分析方法および会話分析プログラムに関する。
知識レベルは、対象話者が所定のテーマ、または所定のテーマの周辺情報に関して精通しているかを2クラス以上に分類した結果、または数値化した結果に対応する。所定のテーマは、例えば、対話の主題そのものである。
特許文献1に、会話分析装置の一例が記載されている。図7に示すように、特許文献1に記載されている知識量推定情報生成装置は、発話列抽出部1と、発話意図判別部2と、特徴量抽出部3と、推定情報生成部4と、知識量ラベル4aと、知識量推定部5と、推定情報記憶部5aとを含む。
図7に示すように構成されている知識量推定情報生成装置は、主に学習部と推定部の2つに分かれて、以下のように動作する。
ユーザとオペレータとの対話に対する音声認識結果7(学習用通話)が入力されると、知識量推定情報生成装置の学習部は、発話列抽出部1で、発話列で構成されるテキストデータを抽出する。次いで、学習部は、発話意図判別部2で、発話列抽出部1において抽出された問合せ者と回答者との対話に関する発話列のテキストデータから、「質問」、「説明」、「相槌」の発話意図を表す発話を各々判別する。判別した後、学習部は、発話意図と対象発話とを対応付ける。
次いで、学習部は、特徴量抽出部3で出現単語に関するユーザの異なり語数(以下、使用語彙特徴量という。)を算出する。学習部は、使用語彙特徴量を算出するとともに、発話意図判別部2において判別された「質問」、「説明」、「相槌」各々の発話意図の出現回数を算出する。
また、学習部は、「質問」の発話意図を表す発話のうち、疑問詞を含む発話を疑問詞疑問文として抽出し、出現回数を算出する。なお、「質問」、「説明」、「相槌」および「疑問詞疑問文」の出現回数に関する特徴量を、総称して意図特徴量という。
次いで、学習部は、推定情報生成部4で、特徴量抽出部3において算出された意図特徴量、使用語彙特徴量と、知識量に関する正解情報である知識量ラベル4aとを学習データとして用いて、入力テキスト(音声認識結果7)に対する知識量の推定に用いられる推定情報を生成する。
次に、推定部は、入力された音声認識結果6に対して、発話列抽出部1、発話意図判別部2、および特徴量抽出部3において、学習部が実施した処理と同様の処理を行い、使用語彙特徴量と対話特徴量を求める。次いで、推定部は、知識量推定部5で、算出された使用語彙特徴量および対話特徴量と、推定情報記憶部5aに記憶されている、学習部が生成した推定情報とから知識量を推定する。
特開2013−167765号公報
C. Cortes and V. Vapnik. "Support vector networks", Machine Learning, 20:273-297, 1995. 駒谷ら著「音声対話システムにおける適応的な応答生成を行うためのユーザモデル」, 電子情報通信学会論文誌, Vol. J87-D-II, No.10, 2004.
しかし、特許文献1に記載されている知識量推定情報生成装置は、評価対象である入力テキストが書き言葉ではない場合、すなわち正しい文法に則った文章ではない場合、ユーザの知識量を推定することが困難である。正しい文法に則っていない文章は、例えば、口語表現のような崩れた文章や、認識誤りが含まれる文章である。
一般的な会話分析装置は、評価対象である音声認識結果から使用語彙特徴量と意図特徴量とを算出し、知識量を推定する。使用語彙特徴量は、出現単語に関する特徴量である。
また、意図特徴量は、各発話をパターンマッチングなどの言語処理により「質問」、「説明」、「相槌」および「疑問詞疑問文」にそれぞれ分類した際の、各分類における発話の数である。
すなわち、使用語彙特徴量および意図特徴量は、いずれも言語情報に基づいて算出される。前述の各種特徴量算出にあたっては、概ね正しい文章が入力されることが前提条件になる。
前述の各種特徴量算出に使用される言語情報は、出現単語や単語列、または文字列(以下、シンボルという。)そのものである。また、表記、シンボルが持つ品詞や意味などの付帯情報、またはシンボルごとに求められる出現頻度などのシンボルに基づいた統計情報なども使用される。
したがって、会話分析装置によるユーザの知識量の推定の精度は、発話内容の文法面での正しさ、または発話が認識された時の認識結果の正確さに大きく依存する。
入力される音声認識結果が、評価対象の会話音声が正しい文法に則って話され、かつ正しく認識された結果である場合、会話分析装置は、ユーザの知識量を推定できる。しかし、評価対象の会話に口語表現が含まれていたり、音声認識結果に認識誤りが多く含まれていたりする場合、会話分析装置は、正しい使用語彙特徴量および意図特徴量を算出することが困難である。正しい使用語彙特徴量および意図特徴量を算出できなければ、会話分析装置は、ユーザの知識量を正しく推定することが難しい。
すなわち、一般的な会話分析装置の問題点は、書き言葉と異なる崩れた文章が入力された場合、正しい使用語彙特徴量および意図特徴量を算出することが困難であるため、ユーザの知識量を正しく推定することが難しい点である。
上記の課題を解決するために、話者の知識レベルの推定に話者間の会話の内容だけではなく、話者間の会話状態も使用することが考えられる。その理由は、会話状態からは音声認識結果の精度や文章の崩れに影響を受けにくい、発話のタイミングや発話のスピードなどの特徴量を抽出でき、抽出された特徴量を知識レベルの推定に活用できるためである。
非特許文献2に記載されている方法は、知識レベルの推定に話者間の会話状態から抽出された特徴量を用いている。しかし、非特許文献2に記載されている方法を使用した場合、例えば、フランクな話し方の音声データが入力された時や音声の認識率が低い時に、話者の正しい知識レベルを推定することが難しい。その理由は、非特許文献2に記載されている方法が、言語特徴量と対話特徴量のような異なる特徴量からそれぞれ求められる知識特徴量を知識レベルの推定に使用していないためである。
上記したような異なる特徴量からそれぞれ求められる知識特徴量を使用しない場合、会話分析装置は、例えば、異なる特徴量(例えば、言語特徴量の影響を受けない対話特徴量)から求められた知識特徴量の推定結果を用いて、言語特徴量に基づいた知識特徴量の誤った推定結果を補完することができない。係る会話分析装置は、例えば、書き言葉とは異なる崩れた文章が入力された場合、話者の知識レベルを正しく推定することが困難である。
そこで、本発明は、上述した問題を解決するためになされたものである。即ち、本発明は、書き言葉とは異なる崩れた文章が入力された場合であっても、頑健に話者の知識レベルを推定できる会話分析システム、会話分析方法および会話分析プログラムを提供することを主たる目的の一つとする。
本発明の一態様に係る会話分析システムは、音声データおよび音声データのテキストデータから話者間の会話状態に関する特徴量である会話特徴量を抽出する会話特徴量抽出手段と、テキストデータに含まれる単語に関する特徴量である言語特徴量を抽出する言語特徴量抽出手段と、抽出された会話特徴量および言語特徴量と、知識特徴量を示す識別パターンを保持する知識特徴量推定モデルとから知識特徴量を推定する知識特徴量推定手段と、推定された知識特徴量を統合して話者の知識レベルを推定する知識レベル推定手段とを備える。
本発明の一態様に係る会話分析方法は、音声データおよび音声データのテキストデータから話者間の会話状態に関する特徴量である会話特徴量を抽出し、テキストデータに含まれる単語に関する特徴量である言語特徴量を抽出し、抽出された会話特徴量および言語特徴量と、知識特徴量を示す識別パターンを保持する知識特徴量推定モデルとから知識特徴量を推定し、推定された知識特徴量を統合して話者の知識レベルを推定する。
本発明の一態様に係る会話分析プログラムは、コンピュータに、音声データおよび音声データのテキストデータから話者間の会話状態に関する特徴量である会話特徴量を抽出する会話特徴量抽出処理、テキストデータに含まれる単語に関する特徴量である言語特徴量を抽出する言語特徴量抽出処理、抽出された会話特徴量および言語特徴量と、知識特徴量を示す識別パターンを保持する知識特徴量推定モデルとから知識特徴量を推定する知識特徴量推定処理、および推定された知識特徴量を統合して話者の知識レベルを推定する知識レベル推定処理を実行させる。
また、本発明の目的は、上記会話分析プログラムが格納されている、コンピュータ読み取り可能な記憶媒体によっても達成される。
本発明によれば、書き言葉とは異なる崩れた文章が入力された場合であっても、頑健に話者の知識レベルを推定できる。
図1は、本発明の実施の形態における会話分析装置の学習系の構成例を示すブロック図である。 図2は、本発明の実施の形態における知識特徴の概念を示す説明図である。 図3は、本発明の実施の形態における会話分析装置の推定系の構成例を示すブロック図である。 図4は、会話分析装置100の動作を示すフローチャートである。 図5は、本発明の実施の形態における会話分析装置による評価実験の評価結果と他の手法による評価実験の評価結果を示す説明図である。 図6は、本発明の実施の形態における会話分析システムの概要を示すブロック図である。 図7は、特許文献1に記載されている知識量推定情報生成装置の構成を示すブロック図である。 図8は、本発明の実施の形態に係る会話分析システムあるいは会話分析装置を実現可能なハードウェア構成を例示する説明図である。
[構成の説明]
以下、本発明の実施形態を、図面を参照して説明する。図1は、本発明の実施の形態における会話分析装置の学習系の構成例を示すブロック図である。
本実施形態では、入力される音声データは、左右の各チャネルに異なる話者の音声がそれぞれ入力された、ステレオフォニック(以下、ステレオという。)再生可能な対話音声のデータとする。以下、話者の知識レベルを推定する場合を例に、本実施形態における会話分析装置の構成および動作を説明する。
なお、入力される音声データは、ステレオ以外の方式で再生可能なデータでもよい。また、入力される音声データは、3人以上による対話の音声データでもよい。3人以上による対話の音声データが入力された場合であっても、話者認識技術などを用いて各話者の音声データを分離すれば、本実施形態における会話分析装置は、話者の知識レベルを推定できる。
図1に示す会話分析装置100の学習系は、発話区間算出手段101と、特徴量抽出手段102とを含む。また、会話分析装置100の学習系は、知識特徴量推定モデル記憶手段103と、知識レベル推定モデル記憶手段105と、知識特徴量推定モデル作成手段110と、知識レベル推定モデル作成手段111とを含む。
発話区間算出手段101は、入力される音声データおよび音声データに関するテキストデータから発話区間を算出し、算出した発話区間を出力する機能を有する。係る音声データに関するテキストデータは、例えば、音声データを音声認識することによって得られる、発話単語のテキストデータを含んでもよい。
発話区間は、同一話者による発話検出区間が連続し、まとまっている区間である。発話区間は、言語特徴量または対話特徴量を算出する単位になる。
また、発話検出区間は、人間が息継ぎなしに連続して話す区間である。発話検出区間は、例えば、音声認識の前処理などにより自動的に算出される。
なお、発話検出区間は、自動検出された区間ではなく、自動検出された区間の前後にマージンが付与された区間でもよい。また、発話検出区間は、人間の話している区間ではなく、単に固定時間長で定められた区間でもよい。
入力されるテキストデータに、音声認識の際に付与される発話検出区間や話者に関連する情報(話者情報)が記述されている場合、発話区間算出手段101は、記述されている発話検出区間や話者情報から発話区間を算出してもよい。
さらに、発話区間算出手段101は、算出された発話区間に基づいて、発話を分類してもよい。発話区間算出手段101が発話を分類した場合、特徴量抽出手段102は、分類されたクラスごとに言語特徴量または対話特徴量を求める。求められた言語特徴量または対話特徴量は、後述のように、知識特徴量の推定に用いられる。
発話区間算出手段101による発話区間の算出方法の一例を以下に説明する。発話区間算出手段101は、入力されるテキストデータに含まれる音声区間情報および話者情報を用いて、二人の話者による発話を時系列に並べる。入力されるテキストデータに発話検出区間や話者情報がない場合、発話区間算出手段101は、入力される音声データを分析することによって、発話検出区間や話者情報を取得してもよい。
次いで、発話区間算出手段101は、ある一方の話者(主話者)の発話検出区間ともう一方の話者(対話者)の発話検出区間を比較し、主話者の発話検出区間に対話者の発話検出区間が完全に包含されている発話を検出する。一例として、主話者が話している最中に挿入される対話者による相槌が、これに該当する。発話区間算出手段101は、完全包含されている発話の検出処理を、両話者による発話に対して行う。
さらに、発話区間算出手段101は、完全包含された発話区間を除いた残りの発話検出区間の中で、連続している同一話者の発話検出区間を結合して1区間にする。すなわち、この結合された1区間が発話区間になる。
上記の処理で発話区間が得られることによって、発話において性質上明確ではない意味の区切れが明らかになる。意味の区切れが明らかになることによって、特徴量抽出手段102は、より正確な特徴量を算出できる。
なお、発話区間算出手段101は、入力されるテキストデータから得られる発話検出区間(発話開始時刻、発話終了時刻)と話者情報を発話区間として用いることもできる。発話検出区間と話者情報が発話区間として用いられる場合、発話区間算出手段101による上記の処理は不要になる。
さらに、発話区間算出手段101は、予め定められた所定の基準に従って発話を分類してもよい。発話の分類方法の一例として、発話の主導権(take control of conversations)に基づく方法がある。
発話区間算出手段101は、会話の主導権に基づいて、上記のように算出された発話区間における発話それぞれを、発話の主導権がある発話(以下、主導的発話という。)と主導権がない発話(以下、受動的発話という。)の2つに分類する。
主導権の有無の判定方法の一例として、発話区間の長さや発話区間に表れる単語の種類を用いる方法がある。上記のように算出された発話区間における発話それぞれに対して、発話区間算出手段101は、例えば、発話区間が閾値よりも短い発話を受動的発話に分類する。
また、発話区間算出手段101は、音響条件、または収録条件の影響を受けて誤認識されやすい、音素数が少ない単語(例えば、「はい」、「いいえ」)や、認識結果の信頼度が低い単語を含む発話区間を受動的発話に分類してもよい。
上記のように対象の発話を受動的発話に分類した後、発話区間算出手段101は、受動的発話に分類した発話以外の発話を主導的発話に分類する。特徴量抽出手段102は、発話区間算出手段101による分類結果を分類クラスとみなして、クラスごとに言語特徴量または対話特徴量を求める。
発話を主導的発話と受動的発話に分類する理由は、分類することで話者特徴をより顕在化させることができるからである。例えば、対話特徴量の1つである発話長は、受動的発話の割合により特徴量(例えば、平均または分散)が大きく変化する。したがって、発話を主導的発話に絞って発話長に関する特徴量を求めた方が、分類しない場合に比べて主体的に話した発話に対する特徴量を求めることができ、話者の特徴を把握可能となる。
なお、特徴量抽出手段102は、上記のように発話の分類結果を分類クラスとみなす他にも、対象の発話の前後の発話の分類結果を分類クラスに用いてもよい。また、特徴量抽出手段102は、対象の発話の分類結果と、対象の発話の前後の発話の分類結果との組み合わせを分類クラスに用いてもよい。
特徴量抽出手段102は、言語特徴量抽出手段102aと対話特徴量抽出手段102bとを含む。特徴量抽出手段102には、テキストデータ、音声データ、発話区間検出結果、発話分類結果などが入力される。特徴量抽出手段102は、これらの入力されたデータに基づいて、言語特徴量や対話特徴量を出力する。
言語特徴量抽出手段102aは、入力されるテキストデータから算出される言語特徴量を抽出する機能を有する。言語特徴量は、具体的には、入力されるテキストデータに含まれる単語の出現頻度や単語の出現頻度に基づく統計値などである。テキストデータが音声認識結果のテキストデータである場合、抽出される言語特徴量は、認識された単語ごとに付与される認識結果の信頼度などになる。
なお、言語特徴量抽出手段102aは、認識された単語が属するクラスを用いて特徴量を求めてもよい。また、言語特徴量抽出手段102aは、表記揺れを修正するための表記の補正、または類義語展開などを行うことによって出現単語を別のシンボルに置き換えることで、出現単語そのものからではなく置き換えたシンボルから特徴量を求めてもよい。
対話特徴量抽出手段102bは、主に音声データから算出される、話者間の対話状態に関する特徴量である対話特徴量を抽出する機能を有する。対話特徴量は、2人以上が会話した時に取得可能な特徴量である。対話特徴量は、上記の発話区間を基準に算出される。
すなわち、対話特徴量抽出手段102bは、例えば、ある話者の話速、発話長、相槌数などを、対話者の発話区間に挟まれた発話区間を分析することによって求めることができる。また、対話特徴量抽出手段102bは、データの冒頭と対話者の発話区間に挟まれた発話区間やデータの末尾と対話者の発話区間に挟まれた発話区間を分析することによっても対話特徴量を求めることができる。
また、対話特徴量抽出手段102bは、各話者の発話区間が確定すれば、後述するポーズ長の値を算出できる。このように、対話特徴量抽出手段102bは、発話区間を基準に各種の対話特徴量を求めることができる。
以下、対話特徴量の具体例である、話速、ポーズ長、相槌数および発話長をそれぞれ説明する。
話速は、対話1単位における話者の話す速さである。話速は、単位時間あたりのモーラ数などで表現される。ある1発話区間に関して、話速は、例えば、認識された単語のモーラ数を発話区間の長さで除算することで求められる。なお、モーラは、単一のリズムをなす音節である。
ポーズ長は、本実施形態において、話者交代が起こった時の「間」の長さを意味する。
ポーズ長は、対象の発話区間の直前の発話区間の発話終了時刻と、対象の発話区間の発話開始時刻との差を求めることで算出される。
発話長は、1発話区間の長さである。すなわち、発話長は、1発話区間の発話開始時刻から発話終了時刻までの時間の長さである。
相槌数は、対話者が相槌を打った回数である。相槌は、対話者が相手の発話内容に対して理解を示したり、相手の発話の継続を促したりする性質を有する。
対話特徴量抽出手段102bは、相槌の認定を、認識結果に基づくパターンマッチングにより行ってもよいし、発話長に基づいて行ってもよい。また、対話特徴量抽出手段102bは、上述した発話分類結果の一例である発話の包含関係の情報を用いて、相槌の認定を行ってもよい。
知識特徴量推定モデル作成手段110は、知識特徴量推定モデルを生成する機能を有する。知識特徴量推定モデル作成手段110は、特徴量抽出手段102において学習用の音声データと、テキストデータから抽出された言語特徴量および対話特徴量とを含む学習データと、特徴量と学習用の音声データに対する知識特徴量を表す教師データである知識特徴量ラベル112とを用いて、知識特徴量推定モデルを生成する。知識特徴量推定モデル作成手段110は、作成した知識特徴量推定モデルを知識特徴量推定モデル記憶手段103に送る。
知識特徴量推定モデル記憶手段103は、知識特徴量推定モデル作成手段110が作成した知識特徴量推定モデルを記憶する機能を有する。図2は、本実施形態における知識特徴の概念を示す説明図である。
知識特徴は、話者の使う言葉や話者の反応から抽出される言語特徴量や対話特徴量に基づいた、話者の知識レベルを決定づける要素である。
知識特徴量推定モデルは、入力データに対する知識特徴量を推定するモデルである。知識特徴量推定モデルは、特徴量抽出手段102において学習用の音声データと、テキストデータから抽出された言語特徴量および対話特徴量とを含む学習データと、学習用の音声データに対する知識特徴量を表す知識特徴量ラベル112とを用いて生成される。
上記のように、知識特徴量推定モデルは、言語特徴量および対話特徴量と、知識特徴量ラベル112とを一組とする学習データを入力データとして、識別パターンを学習することによって生成されるモデルである。識別パターンの学習には、公知技術である「Support Vector Machine(SVM)」(非特許文献1)などが用いられる。
知識レベル推定モデル作成手段111は、知識レベル推定モデルを生成する機能を有する。知識レベル推定モデル作成手段111は、知識特徴量ラベル112と、知識レベルの教師データである知識ラベル113とを用いて、知識レベルの識別パターンを学習した知識レベル推定モデルを生成する。
知識レベル推定モデル作成手段111は、後述する知識特徴量推定手段104が学習データに対して出力した結果と、知識ラベル113とを用いて、知識レベルの識別パターンを学習した知識レベル推定モデルを生成する。そして、知識レベル推定モデル作成手段111は、生成した知識レベル推定モデルを知識レベル推定モデル記憶手段105に送る。なお、知識レベル推定モデル作成手段111は、知識特徴量推定手段104の学習データに対する出力結果の代わりに、知識特徴量ラベル112を用いてもよい。
知識レベル推定モデル記憶手段105は、知識レベル推定モデル作成手段111が作成した知識レベル推定モデルを記憶する機能を有する。
知識レベル推定モデルは、入力データに対する知識レベルを推定するモデルである。知識レベル推定モデルは、後述する知識特徴量推定手段104が学習データに対して出力した結果、または学習データに対する知識特徴量ラベル112と、知識ラベル113とを用いて、識別パターンを学習することによって生成される。
上記のように、知識レベル推定モデルは、知識特徴量ラベル112、または学習データに対する知識特徴量の推定結果と、知識ラベル113とを一組とする学習データを入力データとして、識別パターンを学習することによって生成されるモデルである。識別パターンの学習には、知識特徴量推定モデルと同様に、SVMなどが用いられる。
次に、会話分析装置100の推定系を説明する。図3は、本発明の実施の形態における会話分析装置の推定系の構成例を示すブロック図である。
図3に示す会話分析装置100の推定系は、発話区間算出手段101と、特徴量抽出手段102と、知識特徴量推定モデル記憶手段103と、知識特徴量推定手段104と、知識レベル推定モデル記憶手段105と、知識レベル推定手段106とを含む。以下、学習系には含まれず推定系のみに含まれる、知識特徴量推定手段104と知識レベル推定手段106を説明する。
知識特徴量推定手段104は、知識特徴量を推定する機能を有する。知識特徴量推定手段104は、特徴量抽出手段102で算出された言語特徴量および対話特徴量と、知識特徴量推定モデル記憶手段103に記憶された知識特徴量推定モデルを用いて、入力データに対する知識特徴量をそれぞれ推定する。
知識特徴量推定手段104は、知識特徴量を、「0」または「1」といった離散値や、「0」から「1」などの範囲の連続値に数値化して出力する。知識特徴量推定モデル記憶手段103は、知識特徴量推定手段104が推定する1つの知識特徴量に対して、少なくとも1つ知識特徴量推定モデルを記憶する。
知識特徴量推定手段104は、知識特徴量を推定する際に、入力データから求められた言語特徴量および対話特徴量と、知識特徴量推定モデルを照合することによって知識特徴が有るか否かを識別する。知識特徴の識別処理においても、識別パターンの学習時と同様にSVMなどが用いられる。なお、知識特徴が複数存在する場合、知識特徴量推定手段104は、知識特徴毎に識別処理を行う。
また、知識特徴量推定手段104は、知識特徴量を「有り」または「無し」の二値で判別する以外にも、例えば、「有り」、「無し」、「不明」のような三値で判別してもよい。また、知識特徴量推定手段104は、知識特徴量を三値よりも多くのレベルで判別してもよい。知識特徴量を多くのレベルで判別する場合、知識特徴量推定手段104は、上記の識別処理を多段に構成することによって知識特徴量ラベル112を出力できる。
また、知識特徴量推定手段104は、上記のような離散値を出力する以外にも、連続値を出力してもよい。連続値を出力する場合、知識特徴量推定手段104は、例えば、上記の識別処理の出力結果とともに出力されるスコアを用いてもよい。
知識特徴量推定手段104は、推定する知識特徴量の数として、開発データを用いた実験により得られた、知識レベルの推定精度が最適になる数を採用してもよい。また、推定される知識特徴量の数は、人手により予め定めてもよい。
さらに、知識ラベル113が作成される際に、知識ラベル113付与に加えて、作成者が知識ラベル113を付与した理由を記述する場合を想定する。この場合、知識特徴量推定手段104は、記述された内容をクラスタリングなどテキスト分析することによって得られた最適数を、推定する知識特徴量の数に定めてもよい。その最適数を知識特徴量の数とする場合、知識レベルを判断するに至った要因が、知識特徴に相当する。
知識レベル推定手段106は、知識レベルを推定する機能を有する。知識レベル推定手段106は、知識特徴量を統合することによって知識レベルを推定する。
知識レベル推定手段106は、知識特徴量推定手段104が出力した知識特徴量推定結果と、知識レベル推定モデル記憶手段105に記憶された知識レベル推定モデルとを用いて、知識レベルを推定する。知識レベル推定手段106は、識別パターンの学習処理の時と同様に、SVMなどにより、知識レベル推定モデルと知識特徴量推定結果から知識レベルの推定結果を出力する。
知識レベル推定手段106が出力した知識レベルの推定結果が、会話分析装置100の出力結果になる。知識レベルの出力結果は、2つ以上のクラス(離散値)でもよいし、連続値でもよい。
知識レベルの出力結果を離散値にする場合、知識レベル推定手段106は、知識レベルを「有り」または「無し」の二値で判別しても、三値以上のレベルに判別してもよい。知識レベルを多くのレベルで判別する場合、知識レベル推定手段106は、例えば、上記の識別処理を多段に構成することによって、多くのレベルに判別された知識レベルを出力できる。
知識レベルの出力結果を離散値ではなく連続値にする場合、知識レベル推定手段106は、例えば、上記の識別処理の出力結果とともに出力されるスコアを用いる。
また、知識レベル推定手段106は、公知の技術である多数決法を用いてもよい。多数決法を用いた場合、知識レベル推定手段106は、各知識特徴量の出力結果を離散値とし、離散値が最も多い知識特徴量の出力結果を会話分析装置100が出力する知識レベルとして採用する。多数決法が用いられる場合、知識レベル推定モデルは不要になる。
なお、本実施形態の会話分析装置100は、例えば、プログラムに従って処理を実行するCPU(Central Processing Unit)によって実現される。また、会話分析装置100は、ハードウェアによって実現されてもよい。
また、発話区間算出手段101、特徴量抽出手段102、知識特徴量推定手段104、知識レベル推定手段106、知識特徴量推定モデル作成手段110および知識レベル推定モデル作成手段111は、例えば、プログラム制御に従って処理を実行するCPUによって実現される。
なお、会話分析装置100を実現可能なハードウェア構成については後述する。
また、知識特徴量推定モデル記憶手段103および知識レベル推定モデル記憶手段105は、例えば、RAM(Random Access Memory)で実現される。
[動作の説明]
以下、本実施形態の会話分析装置100の動作を図4を参照して説明する。図4は、会話分析装置100による知識レベル推定処理の動作を示すフローチャートである。
発話区間算出手段101には、音声データと、音声データに関するテキストデータとが入力される。入力されるテキストデータは、例えば、音声認識結果や書き起こしによるデータである。
入力された後、発話区間算出手段101は、テキストデータに記述された発話に関する情報をもとに、言語特徴量や対話特徴量を算出する単位になる発話区間を算出する。発話に関する情報は、例えば、発話検出区間や話者情報である(ステップS201)。
ステップS201において、発話区間算出手段101は、算出した発話区間に基づいて発話を分類してもよい。発話区間算出手段101が算出した発話区間または分類結果をもとに、特徴量抽出手段102は、言語特徴量や対話特徴量を算出する。
次いで、言語特徴量抽出手段102aは、テキストデータから単語出現頻度や音声認識結果に関する単語信頼度などの言語特徴量を算出する(ステップS202)。
次いで、対話特徴量抽出手段102bは、入力された音声データ、テキストデータ、およびステップS201において算出された発話区間情報を用いて、話速、ポーズ長、発話長、または相槌数などの対話特徴量を算出する(ステップS203)。なお、ステップS203における処理が、ステップS202における処理より先に実行されてもよい。また、2つの処理が並列に実行されてもよい。
次いで、知識特徴量推定手段104は、ステップS202において算出された言語特徴量、ステップS203において算出された対話特徴量、および知識特徴量推定モデル記憶手段103に記憶された知識特徴量推定モデルを用いて知識特徴量を推定する(ステップS204)。
次いで、知識レベル推定手段106は、知識特徴量推定手段104による知識特徴量の推定結果、および知識レベル推定モデル記憶手段105に記憶された知識レベル推定モデルを用いて知識レベルを推定する(ステップS205)。知識レベルの推定結果を出力した後、会話分析装置100は、処理を終了する。
本実施形態における会話分析装置は、対話音声データと、対話音声データのテキストデータとを入力データとして、テキストデータに含まれる単語に関する特徴量を抽出する言語特徴量抽出手段と、音声データから話者間の対話状態に関する特徴量を算出する対話特徴量抽出手段とを含む特徴量抽出手段を備える。また、会話分析装置は、言語特徴量および対話特徴量から算出される知識特徴量を推定する知識特徴量推定手段と、知識特徴量推定手段における知識特徴量の推定結果を用いて知識レベルを推定する知識レベル推定手段とを備える。また、会話分析装置は、知識レベル推定に用いられる知識特徴量を示す識別パターンを保持する知識特徴量推定モデルを記憶する知識特徴量推定モデル記憶手段を備えていてもよい。
本実施形態における会話分析装置は、書き言葉と異なる崩れた文章が入力された場合であっても、ユーザの知識レベルを頑健に推定できる。その理由は、会話分析装置が、知識レベルを推定する際に、テキストデータには含まれない、音声認識結果の精度や文章の崩れに影響を受けにくい、発話のタイミングや発話のスピードなどの対話特徴量を用いているからである。
さらに、会話分析装置は、知識特徴量推定手段が言語特徴量と対話特徴量の異なった特徴量によって求められる知識特徴量を推定する。これにより、会話分析装置は、例えば、フランクな話し方の音声データが入力された場合や認識率が低い場合であっても、知識レベル推定への影響を低減できる。その理由は(即ち、知識レベル推定への影響が低減する理由は)、言語特徴量の影響を受けない対話的な特徴量から求められた他の知識特徴量の推定結果が、言語特徴量に基づく知識特徴量の誤った推定結果を補完できるからである。
[評価実験]
以下、本実施形態の会話分析装置に対する評価実験例を、図5を参照して説明する。以下の説明における評価実験は、コンタクトセンタ通話における顧客の知識レベルを推定する実験である。コンタクトセンタ通話は、商品またはサービスに対する問合せや相談の受付を行うコンタクトセンタにかかってきた電話における対話を意味する。なお、図5に示す内容は、実際に行った事項に基づく数値結果である。
評価実験では、一方のチャネルにオペレータの音声、もう一方のチャネルに顧客の音声が録音されたステレオ音声と、ステレオ音声の音声認識結果を入力データとした。入力データに基づいて、上記の方法により言語特徴量と対話特徴量を抽出し、知識レベルを推定した。
また、評価に用いられる正解データである知識ラベルには、人手による主観評価に基づいて、通話単位ごとに「知識レベル高」と「知識レベル低」の2値を付与した。このように作成された正解データを100ファイル用意し、評価実験を行った。なお、100ファイルの内訳は、「知識レベル高」のファイルが46ファイル、「知識レベル低」のファイルが54ファイルであった。
知識特徴量推定モデルの学習、知識レベル推定モデルの学習および知識レベルの推定評価の際には、10分割交差検定を実施した。10分割交差検定では、データを10グループに分割し、分割したグループのうち9つのグループを学習データに、残りの1グループを評価データにした。そして、評価データにする1グループを変えることによって作成された、10パターンの学習データと評価データの組み合わせに対して検定を実施した。
本評価実験では、ユーザが知識レベルの判断理由を記述し、記述された判断理由をもとに知識特徴が定義されている。具体的には、記述された判断理由を分析することによって4つの知識レベルの判断因子(例えば、「専門用語」、「会話の流暢さ」)が見つかり、見つかった判断因子を知識特徴にした。
教師データになる知識特徴量ラベルは、判断因子に基づいてデータをクラスタリングすることによって生成された。生成された知識特徴量ラベルにおいて、例えば、知識特徴の1つである「専門用語」の知識特徴量は、対象になる学習データ中に専門用語が含まれているか否かを示す。すなわち、「専門用語」の知識特徴量では、該当話者が専門用語を使っているかが「0(専門用語無し)」または「1(専門用語あり)」で表現されている。
同様に、知識特徴の1つである「会話の流暢さ」の知識特徴量は、対象になる学習データでの会話が流暢であったか否かが「0(流暢ではない)」または「1(流暢である)」で表現されている。
そして、学習データから抽出された言語特徴量と対話特徴量、および教師データである知識特徴量ラベルから知識特徴量推定モデルが生成される。次いで、学習データの場合と同様に評価データに対して言語特徴量と対話特徴量が求められ、生成された知識特徴量推定モデルを用いて4つの知識特徴量が推定される。
生成された知識特徴には、専門用語などの言語的な特徴を表す因子や、会話の流れに関する対話的な特徴を表す因子が含まれている。4つの知識特徴量のうち1つの知識特徴量は、言語特徴量のみから推定されている。別の1つの知識特徴量は、対話特徴量のみから推定されている。
残る2つの知識特徴量は、言語特徴量と対話特徴量の組み合わせから推定されている。なお、残る2つの知識特徴量の推定において、言語特徴量および対話特徴量のそれぞれの具体的な特徴量に対する重みは異なる。
そして、上記のように生成された知識特徴量推定モデルによって推定された4つの知識特徴量の各出力結果を統合することによって、知識レベルを推定した。
実験における評価指標として、「知識レベル高」および「知識レベル低」の各実験パターンにおいて、F値を求めた。F値は、以下の式を用いて算出される。
F値=(2×再現率×適合率)/(再現率+適合率)・・・式(1)
なお、式(1)に示す再現率および適合率は、「知識レベル高」の場合、以下の式を用いてそれぞれ算出される。
再現率=(「知識レベル高」と正しく推定できた数)/(「知識レベル高」の正解数)・・・式(2)
適合率=(「知識レベル高」と正しく推定できた数)/(「知識レベル高」と推定した数)・・・式(3)
同様に、式(1)に示す再現率および適合率は、「知識レベル低」の場合、以下の式を用いてそれぞれ算出される。
再現率=(「知識レベル低」と正しく推定できた数)/(「知識レベル低」の正解数)・・・式(4)
適合率=(「知識レベル低」と正しく推定できた数)/(「知識レベル低」と推定した数)・・・式(5)
本評価実験では、上記の特許文献1に記載されている手法、知識特徴量を用いず言語特徴量および対話特徴量から直接知識レベルを推定する手法と、本実施形態における手法とを比較した。なお、知識特徴量を用いず直接知識レベルを推定する手法では、本実施形態における手法で使用された言語特徴量および対話特徴量と同一の特徴量を用いた。
評価実験の結果を図5に示す。図5は、本実施形態の会話分析装置による評価実験の評価結果と他の手法による評価実験の評価結果を示す説明図である。図5(a)は、特許文献1に記載されている手法(図5(a)に示す「関連手法」)による評価結果と本実施形態における手法(図5(a)に示す「提案手法」)による評価結果とを比較した説明図である。また、図5(b)は、知識特徴量を用いず言語特徴量および対話特徴量から直接知識レベルを推定する手法(図5(b)に示す「知識特徴量無し」)による評価結果と、本実施形態における手法(図5(b)に示す「提案手法」)による評価結果とを比較した説明図である。
図5(a)には2つの評価結果のグループが示されている。即ち、図5(a)の左のグループは、「知識レベル高」のデータから知識レベルを推定する評価実験における評価結果を、右のグループは「知識レベル低」のデータから知識レベルを推定する評価実験における評価結果をそれぞれ表す。
また、図5(a)に示す評価結果の各グループは2種類のデータで構成されている。即ち、図5(a)における左の棒グラフは「関連手法」による評価結果、右の棒グラフは「提案手法」による評価結果をそれぞれ表す。図5(b)も、図5(a)と同様に構成されている。
図5(a)に示すように、「提案手法」を用いた場合、「知識レベル高」および「知識レベル低」の両方の実験パターンにおいて、「関連手法」に比べて知識レベルの推定精度が高くなった。また、図5(b)に示すように、「提案手法」を用いた場合、両方の実験パターンにおいて「知識特徴量無し」に比べて知識レベルの推定精度が高くなった。以上より、会話内容を対象にした知識レベル推定において、本実施形態における会話分析装置を使用する手法は、他の手法に比べて有効である。
次に、本発明の概要を説明する。図6は、本発明の実施の形態における会話分析システムの概要を示すブロック図である。本発明の実施の形態における会話分析システム10は、音声データおよび音声データのテキストデータから話者間の会話状態に関する特徴量である会話特徴量(例えば、対話特徴量)を抽出する会話特徴量抽出手段11(例えば、対話特徴量抽出手段102b)を備える。また、会話分析システム10は、テキストデータに含まれる単語に関する特徴量である言語特徴量を抽出する言語特徴量抽出手段12(例えば、言語特徴量抽出手段102a)を備える。また、会話分析システム10は、抽出された会話特徴量および言語特徴量と、知識特徴量を示す識別パターンを保持する知識特徴量推定モデルとから知識特徴量を推定する知識特徴量推定手段13(例えば、知識特徴量推定手段104)を備える。また、会話分析システム10は、推定された知識特徴量を統合して話者の知識レベルを推定する知識レベル推定手段14(例えば、知識レベル推定手段106)を備える。
そのような構成により、会話分析システムは、書き言葉とは異なる崩れた文章が入力された場合であっても、頑健に話者の知識レベルを推定できる。
また、知識特徴量推定モデルは、学習用の音声データおよび音声データのテキストデータから計算された言語特徴量および会話特徴量と、教師データである知識特徴量ラベル(例えば、知識特徴量ラベル112)とから学習された知識特徴量を示す識別パターンを保持してもよい。
そのような構成により、会話分析システムは、予め言語特徴量および会話特徴量の入力に適している知識特徴量推定モデルを使用できる。
また、知識レベル推定手段14は、知識レベルを示す識別パターンを保持する知識レベル推定モデルにより推定された知識特徴量を統合して知識レベルを推定してもよい。
そのような構成により、会話分析システムは、知識レベル推定モデルに基づいて知識レベルを推定できる。
また、知識レベル推定モデルは、学習用の音声データおよび音声データのテキストデータに対する知識特徴量ラベルと、教師データである知識ラベル(例えば、知識ラベル113)とから学習された知識レベルを示す識別パターンを保持してもよい。
そのような構成により、会話分析システムは、予め知識特徴量ラベルの入力に適している知識レベル推定モデルを使用できる。
また、会話分析システム10は、音声データおよび音声データのテキストデータから、同一話者による発話検出区間が連続している発話区間を求める発話区間算出手段(例えば、発話区間算出手段101)を備えてもよい。言語特徴量抽出手段12は、係る発話区間に基づいて言語特徴量を抽出し、会話特徴量抽出手段11は、係る発話区間に基づいて会話特徴量を抽出してもよい。
そのような構成により、会話分析システムは、入力データから発話区間を求めることができ、発話区間に基づいて言語特徴量および会話特徴量を抽出できる。
また、発話区間算出手段は、発話の主導権に基づいて発話を分類した分類結果を出力し、言語特徴量抽出手段12は、分類結果に基づいて言語特徴量を抽出し、会話特徴量抽出手段11は、分類結果に基づいて会話特徴量を抽出してもよい。
そのような構成により、会話分析システムは、発話を分類でき、発話の分類結果に基づいて言語特徴量および会話特徴量を抽出できる。
また、会話分析システム10は、知識特徴量推定モデルを記憶する知識特徴量推定モデル記憶手段(例えば、知識特徴量推定モデル記憶手段103)と、知識レベル推定モデルを記憶する知識レベル推定モデル記憶手段(例えば、知識レベル推定モデル記憶手段105)とを備えていてもよい。
また、知識特徴量推定手段13は、少なくとも1つの知識特徴量を言語特徴量と会話特徴量に基づいて推定してもよい。
また、知識特徴量推定手段13は、少なくとも1つの知識特徴量を言語特徴量のみに基づいて推定してもよい。
また、知識特徴量推定手段13は、少なくとも1つの知識特徴量を対話特徴量のみに基づいて推定してもよい。
[ハードウェア及びソフトウェア・プログラム(コンピュータ・プログラム)の構成]
以下、上記説明した本発明の実施形態を実現可能な具体的な構成(ハードウェア構成及びソフトウェア・プログラムの構成)について説明する。
上記説明した会話分析装置100、あるいは、会話分析システム10を構成する構成要素は、当該構成要素の機能を提供する手段を実装可能な任意の実現手段により実現可能である。例えば、図1及び図3に例示する会話分析装置100において、参照符号101乃至参照符号111が付与された各構成要素は、当該構成要素の機能を提供する手段が実装された、物理的あるいは論理的な部品(会話分析装置100の構成部品)あるいはその組合せとして実現されてもよい。同様に、図6に例示する会話分析システム10において、参照符号11乃至参照符号14が付与された各構成要素は、当該構成要素の機能を提供する手段が実装された、物理的あるいは論理的な部品(会話分析システム10の構成部品)あるいはその組合せとして実現されてもよい。この場合、物理的な部品は、例えば、後述する電子回路あるいはコンピュータ装置として実現可能である。論理的な部品は、例えば、電子回路あるいはコンピュータ装置において実行されるソフトウェア・プログラムとして実現可能である。なお、この場合、上記各構成要素の機能を提供する手段は、係る機能が実装された、装置あるいはシステムの構成部(ユニット)として実現されると理解されてもよい。
以下の説明においては、上記説明した会話分析装置100、及び、会話分析システム10をまとめて、単に「会話分析システム」と称する。またこれら会話分析システムの各構成要素を、単に「会話分析システムの構成要素」と称する。
上記実施形態において説明した会話分析システムは、1つ又は複数の専用のハードウェア装置により構成されてもよい。その場合、上記各図(図1、図3、及び、図6)に示した各構成要素は、その一部又は全部を統合したハードウェア(処理ロジックを実装した集積回路あるいは記憶デバイス等)を用いて実現されてもよい。
例えば、会話分析システムが専用のハードウェアにより実現される場合、係る会話分析システムの構成要素は、それぞれの機能を提供可能な集積回路(例えば、SoC(System on a Chip)等)を用いて実装されてもよい。この場合、会話分析システムの構成要素が保持するデータは、例えば、SoCとして統合されたRAM(Random Access Memory)領域やフラッシュメモリ領域、あるいは、当該SoCに接続された記憶デバイス(磁気ディスク等)に記憶されてもよい。また、この場合、会話分析システムの各構成要素を接続する通信回線としては、周知の通信バスを採用してもよい。また、各構成要素を接続する通信回線はバス接続に限らず、それぞれの構成要素間をピアツーピアで接続してもよい。会話分析システムを複数のハードウェア装置により構成する場合、それぞれのハードウェア装置の間は、任意の通信手段(有線、無線、またはそれらの組み合わせ)により通信可能に接続されていてもよい。
また、上述した会話分析システム又はその構成要素は、図8に例示するような汎用のハードウェアと、係るハードウェアによって実行される各種ソフトウェア・プログラム(コンピュータ・プログラム)とによって構成されてもよい。この場合、会話分析システムは、任意の数の、汎用のハードウェア装置及びソフトウェア・プログラムにより構成されてもよい。即ち、会話分析システムを構成する構成要素毎に、個別のハードウェア装置が割り当てられてもよく、複数の構成要素が、一つのハードウェア装置を用いて実現されてもよい。
図8における演算装置801は、汎用のCPU(中央処理装置:Central Processing Unit)やマイクロプロセッサ等の演算処理装置である。演算装置801は、例えば後述する不揮発性記憶装置803に記憶された各種ソフトウェア・プログラムを記憶装置802に読み出し、係るソフトウェア・プログラムに従って処理を実行してもよい。例えば、上記実施形態における会話分析システムの構成要素は、演算装置801により実行されるソフトウェア・プログラムとして実現されてもよい。
記憶装置802は、演算装置801から参照可能な、RAM等のメモリ装置であり、ソフトウェア・プログラムや各種データ等を記憶する。なお、記憶装置802は、揮発性のメモリ装置であってもよい。
不揮発性記憶装置803は、例えば磁気ディスクドライブや、フラッシュメモリによる半導体記憶装置のような、不揮発性の記憶装置である。不揮発性記憶装置803は、各種ソフトウェア・プログラムやデータ等を記憶可能である。
ドライブ装置804は、例えば、後述する記憶媒体805に対するデータの読み込みや書き込みを処理する装置である。
記憶媒体805は、例えば光ディスク、光磁気ディスク、半導体フラッシュメモリ等、データを記録可能な任意の記憶媒体である。
上述した実施形態を例に説明した本発明における会話分析システム(あるいはその構成要素)は、例えば、図8に例示するハードウェア装置に対して、上記実施形態において説明した機能を実現可能なソフトウェア・プログラムを供給することにより、実現されてもよい。より具体的には、例えば、係るハードウェア装置に対して供給したソフトウェア・プログラムを、演算装置801が実行することによって、本発明が実現されてもよい。この場合、係るハードウェア装置で稼働しているオペレーティングシステムや、データベース管理ソフト、ネットワークソフト、仮想環境基盤等のミドルウェアなどが各処理の一部を実行してもよい。
上述した実施形態において、上記各図に示した各手段(あるいは、当該手段を実現可能な、システムの構成部分(ユニット))は、上述したハードウェアにより実行されるソフトウェア・プログラムの機能(処理)単位である、ソフトウェアモジュールとして実現することができる。即ち、会話分析装置100における各構成要素(発話区間算出手段101、特徴量抽出手段102、知識特徴量推定手段104、知識レベル推定手段106、知識特徴量推定モデル作成手段110、知識レベル推定モデル作成手段111等)は、それらの機能が実装された、ソフトウェアモジュールとして実現されてもよい。但し、上記各図面に示した各ソフトウェアモジュールの区分けは、説明の便宜上の構成であり、実装に際しては、様々な構成が想定され得る。
例えば、図1、図3、図6に示した各部をソフトウェアモジュールとして実現する場合、これらのソフトウェアモジュールを不揮発性記憶装置803に記憶しておき、演算装置801がそれぞれの処理を実行する際に、これらのソフトウェアモジュールを記憶装置802に読み出すように構成してもよい。
また、これらのソフトウェアモジュール間は、共有メモリやプロセス間通信等の適宜の方法により、相互に各種データを伝達できるように構成してもよい。このような構成により、これらのソフトウェアモジュール間は、相互に通信可能に接続可能である。
更に、上記ソフトウェア・プログラムは記憶媒体805に記録されてもよい。この場合、上記ソフトウェア・プログラムは、上記会話分析システム等の出荷段階、あるいは運用段階等において、適宜ドライブ装置804を通じて不揮発性記憶装置803に格納されるように構成されてもよい。
なお、上記の場合において、上記ハードウェアへの各種ソフトウェア・プログラムの供給方法は、出荷前の製造段階、あるいは出荷後のメンテナンス段階等において、適当な治具を利用して当該装置内にインストールする方法を採用してもよい。また、各種ソフトウェア・プログラムの供給方法は、インターネット等の通信回線を介して外部からダウンロードする方法等のように、現在では一般的な手順を採用してもよい。
そして、このような場合において、本発明は、係るソフトウェア・プログラムを構成するコード、あるいは係るコードが記録されたところの、コンピュータ読み取り可能な記憶媒体によって構成されると捉えることができる。この場合、係る記憶媒体は、ハードウェア装置と独立した媒体に限らず、インターネットなどにより伝送されたソフトウェア・プログラムをダウンロードして記憶又は一時記憶した記憶媒体を含む。
また、上述した会話分析システムは、図8に例示するハードウェア装置を仮想化した仮想化環境と、当該仮想化環境において実行される各種ソフトウェア・プログラム(コンピュータ・プログラム)とによって構成されてもよい。この場合、図8に例示するハードウェア装置の構成要素は、当該仮想化環境における仮想デバイスとして提供される。なお、この場合も、図8に例示するハードウェア装置を物理的な装置として構成した場合と同様の構成にて、本発明を実現可能である。
本発明は、例えば、コンタクトセンタをはじめ、様々な顧客接点、すなわち顧客と店員やオペレータなどのビジネス関係者との会話を収録した音声データベースを用いて、知識レベルをもとにユーザの傾向を分析する会話分析装置等に適用可能である。また、本発明は、例えば、係る会話分析装置をコンピュータを用いて実現するプログラム等の用途にも適用可能である。また、本発明は、知識レベルではなく、ユーザの興味関心、嗜好などといった会話の言葉や会話のやり取りの中から、言語的特徴および対話的特徴を抽出可能な会話分析装置にも適用可能である。
以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
この出願は、2014年7月16日に出願された日本出願特願2014−145873を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1 発話列抽出部
2 発話意図判別部
3 特徴量抽出部
4 推定情報生成部
4a 知識量ラベル
5 知識量推定部
5a 推定情報記憶部
6 音声認識結果
7 音声認識結果
10 会話分析システム
11 会話特徴量抽出手段
12、102a 言語特徴量抽出手段
13、104 知識特徴量推定手段
14、106 知識レベル推定手段
100 会話分析装置
101 発話区間算出手段
102 特徴量抽出手段
102b 対話特徴量抽出手段
103 知識特徴量推定モデル記憶手段
105 知識レベル推定モデル記憶手段
110 知識特徴量推定モデル作成手段
111 知識レベル推定モデル作成手段
112 知識特徴量ラベル
113 知識ラベル
801 演算装置
802 記憶装置
803 不揮発性記憶装置
804 ドライブ装置
805 記憶媒体

Claims (9)

  1. 音声データおよび前記音声データのテキストデータから話者間の会話状態に関する特徴量である会話特徴量を抽出する会話特徴量抽出手段と、
    前記テキストデータに含まれる単語に関する特徴量である言語特徴量を抽出する言語特徴量抽出手段と、
    抽出された前記会話特徴量および前記言語特徴量と、知識特徴量を示す識別パターンを保持する知識特徴量推定モデルとから知識特徴量を推定する知識特徴量推定手段と、
    推定された前記知識特徴量を統合して前記話者の知識レベルを推定する知識レベル推定手段とを備える
    ことを特徴とする会話分析システム。
  2. 前記知識特徴量推定モデルは、学習用の音声データおよび前記音声データのテキストデータから計算された言語特徴量および会話特徴量と、教師データである知識特徴量ラベルとから学習された知識特徴量を示す識別パターンを保持する
    請求項1記載の会話分析システム。
  3. 前記知識レベル推定手段は、知識レベルを示す識別パターンを保持する知識レベル推定モデルにより推定された知識特徴量を統合して知識レベルを推定する
    請求項1または請求項2記載の会話分析システム。
  4. 前記知識レベル推定モデルは、学習用の音声データおよび前記音声データのテキストデータに対する知識特徴量ラベルと、教師データである知識ラベルとから学習された知識レベルを示す識別パターンを保持する
    請求項3記載の会話分析システム。
  5. 音声データおよび前記音声データのテキストデータから、同一話者による発話検出区間が連続している発話区間を求める発話区間算出手段を更に備え、
    前記言語特徴量抽出手段は、前記発話区間に基づいて言語特徴量を抽出し、
    前記会話特徴量抽出手段は、前記発話区間に基づいて会話特徴量を抽出する
    請求項1から請求項4のうちのいずれか1項に記載の会話分析システム。
  6. 前記発話区間算出手段は、発話の主導権に基づいて発話を分類した分類結果を出力し、
    前記言語特徴量抽出手段は、前記分類結果に基づいて言語特徴量を抽出し、
    前記会話特徴量抽出手段は、前記分類結果に基づいて会話特徴量を抽出する
    請求項5記載の会話分析システム。
  7. 前記知識特徴量推定手段は、少なくとも1つの知識特徴量を言語特徴量と会話特徴量に基づいて推定する
    請求項1から請求項6のうちのいずれか1項に記載の会話分析システム。
  8. 音声データおよび前記音声データのテキストデータから話者間の会話状態に関する特徴量である会話特徴量を抽出し、
    前記テキストデータに含まれる単語に関する特徴量である言語特徴量を抽出し、
    抽出された前記会話特徴量および前記言語特徴量と、知識特徴量を示す識別パターンを保持する知識特徴量推定モデルとから知識特徴量を推定し、
    推定された前記知識特徴量を統合して前記話者の知識レベルを推定する
    ことを特徴とする会話分析方法。
  9. コンピュータに、
    音声データおよび前記音声データのテキストデータから話者間の会話状態に関する特徴量である会話特徴量を抽出する会話特徴量抽出処理、
    前記テキストデータに含まれる単語に関する特徴量である言語特徴量を抽出する言語特徴量抽出処理、
    抽出された前記会話特徴量および前記言語特徴量と、知識特徴量を示す識別パターンを保持する知識特徴量推定モデルとから知識特徴量を推定する知識特徴量推定処理、および 推定された前記知識特徴量を統合して前記話者の知識レベルを推定する知識レベル推定処理
    を実行させるための会話分析プログラムが記録された記憶媒体。
JP2016534111A 2014-07-16 2015-07-13 会話分析システム、会話分析方法および会話分析プログラムが記録された記憶媒体 Pending JPWO2016009634A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014145873 2014-07-16
JP2014145873 2014-07-16
PCT/JP2015/003523 WO2016009634A1 (ja) 2014-07-16 2015-07-13 会話分析システム、会話分析方法および会話分析プログラムが記録された記憶媒体

Publications (1)

Publication Number Publication Date
JPWO2016009634A1 true JPWO2016009634A1 (ja) 2017-04-27

Family

ID=55078142

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016534111A Pending JPWO2016009634A1 (ja) 2014-07-16 2015-07-13 会話分析システム、会話分析方法および会話分析プログラムが記録された記憶媒体

Country Status (2)

Country Link
JP (1) JPWO2016009634A1 (ja)
WO (1) WO2016009634A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106710588B (zh) * 2016-12-20 2020-06-02 科大讯飞股份有限公司 语音数据句类识别方法和装置及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5674689B2 (ja) * 2012-02-15 2015-02-25 日本電信電話株式会社 知識量推定情報生成装置、知識量推定装置、方法、及びプログラム

Also Published As

Publication number Publication date
WO2016009634A1 (ja) 2016-01-21

Similar Documents

Publication Publication Date Title
US10692500B2 (en) Diarization using linguistic labeling to create and apply a linguistic model
Polzehl et al. Anger recognition in speech using acoustic and linguistic cues
JP6857581B2 (ja) 成長型対話装置
US9704413B2 (en) Non-scorable response filters for speech scoring systems
US20200193353A1 (en) System and method for performing agent behavioral analytics
US20200195779A1 (en) System and method for performing agent behavioral analytics
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US8494853B1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
US20180226071A1 (en) Classification of Transcripts by Sentiment
US20120221339A1 (en) Method, apparatus for synthesizing speech and acoustic model training method for speech synthesis
JP6154155B2 (ja) プロミネンスを使用した音声対話システム
US10755595B1 (en) Systems and methods for natural language processing for speech content scoring
JP6440967B2 (ja) 文末記号推定装置、この方法及びプログラム
JP2011242775A (ja) 音声認識エラー予測値としての文法適合度評価のための方法およびシステム
JP7132090B2 (ja) 対話システム、対話装置、対話方法、及びプログラム
Kopparapu Non-linguistic analysis of call center conversations
JP4499389B2 (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
López-Cózar et al. Enhancement of emotion detection in spoken dialogue systems by combining several information sources
US20110224985A1 (en) Model adaptation device, method thereof, and program thereof
JP2020064370A (ja) 文章記号挿入装置及びその方法
US10248649B2 (en) Natural language processing apparatus and a natural language processing method
CN109872718A (zh) 语音数据的答案获取方法及装置、存储介质、计算机设备
WO2016009634A1 (ja) 会話分析システム、会話分析方法および会話分析プログラムが記録された記憶媒体
JP4220151B2 (ja) 音声対話装置
Casale et al. Analysis of robustness of attributes selection applied to speech emotion recognition

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161220