WO2007148493A1

WO2007148493A1 - 感情認識装置

Info

Publication number: WO2007148493A1
Application number: PCT/JP2007/060329
Authority: WO
Inventors: Yumiko Kato; Takahiro Kamai; Yoshihisa Nakatoh; Yoshifumi Hirose
Original assignee: Panasonic Corporation
Priority date: 2006-06-23
Filing date: 2007-05-21
Publication date: 2007-12-27
Also published as: JPWO2007148493A1; CN101346758B; US20090313019A1; US8204747B2; JP4085130B2; CN101346758A

Abstract

　韻律情報の個人差、地方差、言語による差に関わらず、正確で安定した音声による感情認識を行うことができる感情認識装置を提供は、入力音声から当該入力音声の発話者の感情を認識する感情認識装置であって、入力音声に含まれる音韻の種類を認識する音声認識手段（１０６）と、前記入力音声から特定の感情と関連する特徴的音色を検出する特徴的音色検出手段（１０４）と、前記音声認識手段（１０６）で認識された音韻の種類に基づいて、音韻ごとに、前記特徴的音色の発生頻度を示す特徴的音色発生指標を計算する特徴的音色発生指標計算手段（１１１）と、前記特徴的音色発生指標計算手段（１１１）で計算された前記特徴的音色発生指標に基づいて、前記特徴的音色が発生した音韻における前記入力音声の発話者の感情を判定する感情判定手段（１１３）とを備える。

Description

明細書

感情認識装置

技術分野

[0001] 本発明は、音声により発話者の感情を認識する感情認識装置に関する。より特定的には、発話者の感情、表情、態度あるいは発話スタイルによって時々刻々変化する発声器官の緊張や弛緩によって、発声された音声中に特徴的な音色が生じたことを認識することで、発話者の感情を認識する、音声による感情認識装置に関するものである。

背景技術

[0002] 自動電話応対、電子秘書、対話ロボット等、音声対話によるインタフェースを持つ対話システムにおいて、対話システムがユーザの要求により適切に対応するためには、ユーザが発声した音声力もユーザの感情を理解することが重要な要件となる。例えば、上記のような自動電話対応や対話ロボットがユーザと音声による対話を行う際、対話システムの音声認識は必ずしも正確に音声を認識できるとは限らな、。対話システムが誤認識を起こした場合には、対話システムはユーザ対して再度音声入力を要求する。このような状況において、ユーザは少なからず怒りを覚えたり、イライラしたりする。誤認識が重なればなおさらである。怒りやイライラは、ユーザの話し方や声質を変化させ、ユーザの音声は平常時の音声とは異なるパターンとなる。このため、平常時の音声を認識用モデルとして保持する対話システムは、さらに誤認識をし易くなり、ユーザに対して同じ回答を何度も要求するなど、ユーザにとってさらに不愉快な要求をすることになる。対話システムが上記のような悪循環に陥った場合、その対話ィンタフェースとしての用を成さなくなる。

[0003] ユーザが発声する音声から感情を認識することは、このような悪循環を断ち切り、機器とユーザとの音声対話を正常化するために必要である。すなわち、ユーザの怒りやイライラを理解することができれば、対話システムは誤認識したことに対して、より丁寧な口調で聞き返したり、謝罪したりすることができる。これにより、対話システムは、ュ一ザの感情を平常に近づけ、平常の発話を導くことができ、認識率を回復することができる。 L 、ては対話システムによる機器操作をスムースに行うことができる。

[0004] 従来、音声から感情を認識する方法としては、話者の発声した音声から、声の高さ（基本周波数)、大きさ (パワー)、発話速度などの韻律的特徴を抽出し、入力音声全体に対して、「声が高い」、「声が大きい」といった判断に基づき、感情を認識する方式 (例えば特許文献 1、特許文献 2参照）が提案されている。また、入力音声全体に対して、「高、周波数領域のエネルギーが大き、」 t 、つた判断をする方式 (例えば特許文献 1参照）が提案されている。さらに、音声のパワーと基本周波数とのシーケンスより、それらの平均、最大値、最小値といった統計的な代表値を求めて感情を認識する方式 (例えば特許文献 3参照）が提案されている。さらにまた、文や単語のイントネーシヨンやアクセントといった韻律の時間パターンを用いて、感情を認識する方式 (例えば特許文献 4、特許文献 5参照）が提案されている。

[0005] 図 20は、前記特許文献 1に記載された従来の音声による感情認識装置を示すものである。

[0006] マイクロホン 1は、入力音声を電気信号に変換する。音声コード認識手段 2は、マイクロホン 1から入力された音声の音声認識を行い、認識結果を感性情報抽出手段 3 および出力制御手段 4へ出力する。

[0007] 一方、感性情報抽出手段 3の話速検出部 31、基本周波数検出部 32および音量検出部 33は、マイクロホン 1より入力された音声より話速、基本周波数および音量をそれぞれ抽出する。

[0008] 音声レベル判定基準格納部 34には、入力された音声の話速、基本周波数および音量を標準の話速、基本周波数および音量とそれぞれ比較して音声レベルを決定するための基準が記憶されている。標準音声特徴量格納部 35には、音声レベルを判定する際の基準となる標準の発声速度、基本周波数および音量が記憶されている。音声レベル分析部 36は、入力された音声の特徴量と標準の音声特徴量との比に基づいて、音声レベル、すなわち話速レベル、基本周波数レベルおよび音量レベルを決定する。

[0009] さらに、感性レベル分析用知識ベース格納部 37は、音声レベル分析部 36で決定された各種音声レベルによって感性レベルを判定するルールを記憶して、る。感性レベル分析部 38は、音声レベル分析部 36からの出力と音声コード認識手段 2からの出力とから、感性レベル分析用知識ベース格納部 37に記憶されているルールに基づき、感性レベルすなわち感性の種類とレベルとを判定する。

[0010] 出力制御手段 4は、感性レベル分析部 38が出力した感性レベルに従って、出力装置 5を制御して、入力された音声の感性レベルに対応する出力を生成する。ここで音声レベルの決定に用いられて、る情報は、 1秒当たり何モーラ話して、るかで表した話速や、平均基本周波数や、発話、文あるいはフレーズといった単位で求められた韻律情報である。

[0011] し力しながら、韻律情報は言語的情報を伝達するためにも使用されており、さらにその言語的情報の伝達方法が、言語の種類ごとに違うという特徴がある。たとえば、日本語にぉヽては「橋」と「箸」のように、基本周波数の高低によって作られるアクセントにより言葉の意味が異なる同音異義語が多くある。また、中国語においては、四声と呼ばれる基本周波数の動きにより、同じ音でもまったく異なる意味 (文字)を示すことが知られている。英語では、アクセントは基本周波数よりもむしろストレスと呼ばれる音声の強度によって表現される力ストレスの位置は単語あるいは句の意味や、品詞を区別する手が力りとなっている。韻律による感情認識を行うためにはこのような言語による韻律パターンの違いを考慮する必要があり、言語ごとに感情表現としての韻律の変化と、言語情報としての韻律の変化とを分離して、感情認識用のデータを生成する必要があった。また、同一言語内においても、韻律を用いる感情認識においては、早口の人や、声の高い (低い)人、等の個人差があり、例えば、普段から大声且つ早口で話す声の高い人は、常に怒っていると認識されてしまうことになる。そのため、個人ごとの標準データを記憶し、個人ごとに標準データと比較することで各個人に合わせた感情認識を行い、個人差による感情の認識間違いを防ぐ (例えば特許文献 2、特許文献 5) t 、う方法も必要であった。

特許文献 1 :特開平 9 22296号公報 (第 6— 9頁、表 1 5、第 2図）

特許文献 2：特開 2001— 83984号公報 (第 4— 5頁、第 4図）

特許文献 3：特開 2003 - 99084号公報

特許文献 4:特開 2005— 39501号公報 (第 12頁）特許文献 5：特開 2005 - 283647号公報

発明の開示

発明が解決しょうとする課題

[0012] 前述のように、韻律による感情認識は、言語ごとに、韻律情報のうち言語情報を表すために使われて、る変動と感情表現としての変動とを分離するために、大量の音声データ、分析処理および統計処理が必要となる。さらに同一言語であっても、地方差や年齢等による個人差も大きぐ同一話者による音声であったとしても体調等により大きく変動する。このため、ユーザごとに標準データを持たない場合には、韻律による感情表現は地方差や個人差が大きぐ不特定多数の音声に常に安定した結果を生成することは困難であった。

[0013] さらに、個人ごとに標準データを用意する方式については、不特定多数の使用を想定するコールセンターや駅などの公共の場所での案内システム等には採用できない。なぜならば、発話者ごとの標準データを用意することができないからである。

[0014] また、韻律データは 1秒あたりのモーラ数や、平均、ダイナミックレンジのような統計的代表値、あるいは時間パターンなどを、発話、文、フレーズといった音声としてまとまった長さで分析する必要がある。このため、音声の特徴が短時間で変化する場合には、分析の追随が困難であり、音声による感情認識を高い精度で行うことができないという課題を有している。

[0015] 本発明は、前記従来の課題を解決するものであり、音韻単位という短い単位で感情を検出可能で、且つ比較的、個人差、言語差および地方差が少ない特徴的音色と、話者の感情との関係を利用して精度の高い感情認識を行う音声による感情認識装置を提供することを目的とする。

課題を解決するための手段

[0016] 本発明のある局面に係る感情認識装置は、入力音声から当該入力音声の発話者の感情を認識する感情認識装置であって、前記入力音声から特定の感情と関連する特徴的音色を検出する特徴的音色検出手段と、前記特徴的音色手段で検出した特徴的音色に基づいて、前記入力音声に含まれる音韻の種類を認識する音声認識手段と、前記音声認識手段で認識された音韻の種類に基づいて、前記特徴的音色の発声され易さを示す特徴的音色発生指標を音韻ごとに計算する特徴的音色発生指標計算手段と、前記特徴的音色指標が小さいほど前記感情が強くなる規則に基づ、て、前記特徴的音色発生指標計算手段で計算された前記特徴的音色発生指標から前記特徴的音色が発生した音韻における前記入力音声の発話者の感情を判定する感情判定手段とを備える。

[0017] 音声の物理的特徴の発生機序は、破裂音のように口唇と舌と口蓋とによって声道をー且閉鎖してから一気に開放する動作のために唇や舌に力が入りやす、と、つた、発声器官の生理的原因により求められる。このため、話者の感情あるいは発話態度によって発声器官が緊張したり弛緩したりすることにより、音声中のところどころに音韻単位で観察される裏声や力んだ声あるいは気息性の声のような特徴的音色を検出することができる。この特徴的音色の検出結果に基づいて、言語の種類の違い、話者の特性による個人差および地方差に影響されることなぐ話者の感情を音韻単位で認識することができる。

[0018] 好ましくは、上述の感情認識装置は、さらに、前記特徴的音色発生指標が小さいほど感情強度が強くなる計算規則に基づいて、前記特徴的音色が発生した音韻における感情強度を判別する感情強度判別手段を備える。

[0019] また、前記感情強度判別手段は、前記特徴的音色発生指標計算手段で計算された音韻ごとの特徴的音色発生指標と前記特徴的音色検出手段で検出された特徴的音色が発生する時間的音声位置とを比較し、特徴的音色発生指標が小さいほど感情強度が強くなる計算規則に基づいて、前記特徴的音色が発生している音韻における感情強度を判別する。

[0020] 特徴的音色が発生しにくい音韻において特徴的音色が発生した場合には、当該特徴的音色に対応する特定の感情が強く現れたと考えられる。よって、このような規則に則って、言語差、個人差および地方差に影響されることなく正確に感情の強度を判別することができる。

[0021] 好ましくは、上述の感情認識装置は、さらに、音韻の種類ごとに音響特徴量を記憶している音響特徴量データベースと、少なくとも読みまたは発音記号を有する単語辞書を表す言語特徴量を含む言語特徴量データベースとを備え、前記音声認識手段は、前記特徴的音色を検出した単語については、前記音響特徴量データベースに含まれる音響特徴量の重みを小さくし、前記言語特徴量データベースに含まれる言語特徴量の重みを大きくすることにより、前記音響特徴量データベースと前記言語特徴量データベースとに基づいて、前記入力音声に含まれる音韻の種類を認識する。

[0022] 特徴的音色の発生した単語については、言語特徴量の重みを大きくすることにより、特徴的音色の発生位置において音響特徴量が適合しないことによる音声認識精度の低下を防ぐことができる。これにより、正確に感情を認識することができる。

[0023] なお、本発明は、このような特徴的な手段を備える感情認識装置として実現することができるだけでなぐ感情認識装置に含まれる特徴的な手段をステップとする感情認識方法として実現したり、感情認識方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプロダラムは、 CD— ROM (Compact Disc-Read Only Memory)等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。

発明の効果

[0024] 本発明の音声による感情認識装置によれば、話者の感情あるいは発話態度によつて発声器官が緊張したり弛緩したりすることによりおこる、平均的な発話 (平常発声をされた発話)の様態から逸脱した発話様態、すなわち、音声中のところどころに音韻単位で観察される裏声や力んだ声あるいは気息性の声のような、特定の音響特性において、平均的な発声とは離れた値を示す、はずれ値に当たる特性を持った特徴的音色を検出することができる。この特徴的音色の検出結果を用いることにより、言語の種類、話者の特性による個人差および地方差に影響されることなぐ話者の感情を音韻単位で認識することができるため、発話中の感情の変化に追随することができる。図面の簡単な説明

[0025] [図 1A]図 1Aは、話者 1について「強い怒り」の感情表現を伴った音声中の「力んだ」音あるいは「ざらざら声（harsh voice)」で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。

[図 1B]図 1Bは、話者 2について「強い怒り」の感情表現を伴った音声中の「力んだ」音あるいは「ざらざら声（harsh voice)」で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。

圆 1C]図 1Cは、話者 1について「中程度の怒り」の感情表現を伴った音声中の「力んだ」音ある、は「ざらざら声（harsh voice)」で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。

[図 1D]図 1Dは、話者 2について「中程度の怒り」の感情表現を伴った音声中の「力んだ」音ある、は「ざらざら声（harsh voice)」で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。

[図 2A]図 2Aは、話者 1について、録音された音声における特徴的音色「かすれ」の音声の音韻種類による発生頻度を示すグラフである。

圆 2B]図 2Bは、話者 2について、録音された音声における特徴的音色「かすれ」の音声の音韻種類による発生頻度を示すグラフである。

圆 3A]図 3Aは、録音された音声において観察された特徴的音色の音声の発生位置と推定された特徴的音色の音声の時間位置の比較を示す図である。

圆 3B]図 3Bは、録音された音声において観察された特徴的音色の音声の発生位置と推定された特徴的音色の音声の時間位置の比較を示す図である。

[図 4]図 4は、本発明の実施の形態 1における音声による感情認識装置のブロック図である。

[図 5]図 5は、本発明の実施の形態 1における音声による感情認識装置の動作を示すフローチャートである。

[図 6]図 6は、本発明の実施の形態 1における特徴的音色発生指標の計算規則の一例を示す図である。

[図 7]図 7は、本発明の実施の形態 1における感情種類判定規則の一例を示す図である。

[図 8]図 8は、本発明の実施の形態 1における感情強度計算規則の一例を示す図である。

[図 9]図 9は、「力み」ありのモーラの発生頻度と「力み」なしのモーラの発生頻度と指標の値、および感情の強さ（弱さ）と指標の値の関係を模式的に示した図である。

[図 10]図 10は、本発明の実施の形態 1の変形例における音声による感情認識装置のブロック図である。

[図 11]図 11は、本発明の実施の形態 1の変形例における音声による感情認識装置の動作を示すフローチャートである。

[図 12]図 12は、録音された音声において観察された特徴的音色の音声の発生位置とその特徴的音色の発生のしゃすさの比較を示す図である。

[図 13]図 13は、本発明の実施の形態 1の変形例における感情種類判定規則の一例を示す図である。

[図 14]図 14は、本発明の実施の形態 2における音声による感情認識装置のブロック図である。

[図 15]図 15は、本発明の実施の形態 2における音声による感情認識装置の動作を示すフローチャートである。

圆 16A]図 16Aは、本発明の実施の形態 2における音声認識処理の具体例を示す図である。

圆 16B]図 16Bは、本発明の実施の形態 2における音声認識処理の具体例を示す図である。

圆 16C]図 16Cは、本発明の実施の形態 2における音声認識処理の具体例を示す図である。

[図 17]図 17は、本発明の実施の形態 3における音声による感情認識装置の機能プロック図である。

[図 18]図 18は実施の形態 3における感情認識装置の動作を示したフローチャートである。

[図 19]図 19は実施の形態 3における音韻入力方法の一例を示した図である。

[図 20]図 20は、従来の音声による感情認識装置のブロック図である。

符号の説明

1 マイクロホン

2 音声コード認識手段

3 感性情報抽出手段

4 出力制御手段出力装置

話速検出部

基本周波数検出部

音量検出部

音声レベル特定基準格納部

標準音声特徴量格納部

音声レベル分析部

感性レベル分析用知識ベース格納部感性レベル分析部

1 音声認識用特徴量抽出部

2 逆フィルタ

3 周期性分析部

特徴的音色検出部

5 特徴量データベース

音声認識部

7 スィッチ

特徴的音色発生音韻特定部

9 韻律情報抽出部

特徴的音色発生指標計算規則記憶部1 特徴的音色発生指標計算部

2 感情種類判定基準記憶部

3 感情種類判定部

感情強度計算規則記憶部

5 感情強度計算部

表示部

2 感情種類判定規則記憶部

3 感情種類強度計算部

5 音響特徴量データベース 206 言語特徴量データベース

207 連続単語音声認識部

208 特徴的音色発生音韻特定部

発明を実施するための最良の形態

[0027] まず、本発明の基礎となる、音声中の特徴的音色と話者の感情との関係について、実際の音声に見られる現象を説明する。

[0028] 感情や表情を伴った音声においては、様々な声質の音声が混在し、音声の感情や表情を特徴付け、音声の印象を形作っていることが知られている（例えば日本音響学会誌 51卷 11号（1995) , PP869 - 875,粕谷英榭 '楊長盛， "音源から見た声質"、特開 2004— 279436号公報参照)。本願発明に先立って、同一テキストに基づいて発話された 50文について無表情な音声と感情を伴う音声との調査を行った。

[0029] 図 1Aは、話者 1について「強い怒り」の感情表現を伴った音声中の「力んだ」音あるいは「ざらざら声（harsh voice)」で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。図 1Bは、話者 2について「強い怒り」の感情表現を伴った音声中の「力んだ」音あるいは「ざらざら声（harsh voice)」で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。図 1Cおよび図 1Dは、それぞれ図 1Aおよび図 1Bと同じ話者について「中程度の怒り」の感情表現を伴って音声中の「力んだ」音あるヽは「ざらざら声（harsh voice)」のモーラ頻度をモーラ内の子音ごとに示したグラフである。

[0030] 特徴的音色の発生頻度は当該モーラの子音の種類によって偏りがあり、図 1Aおよび図 1Bのグラフに示されたそれぞれの話者について「t」（硬口蓋によって構音される無声破裂子音）、「k」（軟口蓋によって構音される無声破裂子音）、「d」（硬口蓋によつて構音される有声破裂子音)、「m」（口唇によって構音される鼻音)、「n」（硬口蓋によって構音される鼻音)あるいは子音無しの場合には発生頻度が高ぐ「p」（口唇によって構音される無声破裂音）、「_ch」（歯によって構音される無声破擦音）、「ts」（無声破擦音）、「f」（口唇と歯によって構音される無声摩擦音)などでは発生頻度が低い、という 2名の話者に共通の特徴が見られる。すなわち、図 1Aおよび図 1Bのグラフは、「怒り」の感情の音声に表れる「力み」が発生する条件は話者に共通であることを示している。図 1Aおよび図 IBに示された 2名の話者における「力み」の発生力当該モーラの子音の種類によって同様の傾向で偏っている。また同程度の「怒り」の感情を伴って発話された音声であっても、音韻の種類によって「力んだ」音で発声される確率が異なり、「力んだ」音で発声される確率がより低!、種類の音韻で「力んだ」音での発声が検出されれば、「怒り」の感情の程度が大きいことが推定できる。

[0031] また、同一人物である話者 1についての特徴的音色「力み」の出現頻度を示した図 1Aと図 1Cとを比較する。「sh」や「f」のように、図 1Cに示した中程度の怒りの表現では「力んだ」音は発生しな、が、図 1Aに示した強、怒りの表現になると「力んだ」音が発生するものがある。また、子音のないモーラのように、図 1Cに示した中程度の怒りの表現では「力んだ」音が発生する頻度は低、が、図 1Aに示した強、怒りの表現になると「力んだ」音の発生頻度が増大するものがある。このように、怒りの強度が強くなると、本来力みにくいはずの音韻にぉ、ても「力んだ」音が発生するようになることがわかる。さらには、「力んだ」音で発声される確率の音韻ごとの偏りは話者 1と話者 2にっ、て確認されたように、話者に共通なものである。

[0032] 図 2Aおよび図 2Bは「朗ら力」の感情表現を伴った音声中の「気息性」の音、すなわち「かすれ」ある、は「やわら力、声（soft voice)」で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。図 2Aは話者 1、図 2Bは話者 2について「朗ら力」の感情表現を伴って音声中の「気息性」の音、すなわち「かすれ」あるいは「やわらか!、声（soft voice)」のモーラ頻度をモーラ内の子音ごとに示したグラフである。特徴的音色の発生頻度は当該モーラの子音の種類によって偏りがあり、図 2Aと図 2Bのグラフに示されたそれぞれの話者について、「h」（声門によって構音される無声摩擦子音)、「k」（軟口蓋によって構音される無声破裂子音)の場合には発生頻度が高ぐ「d」（硬口蓋によって構音される有声破裂子音）、「m」（口唇によって構音される鼻音)、「g」（軟口蓋によって構音される有性破裂音)などでは発生頻度が低い、という 2名の話者に共通の特徴が見られる。また、図 2Aおよび図 2Bの「b」「g」「m」の音韻における特徴的音色の発生頻度は、話者 1では 0であるが、話者 2では低いものの存在している。一方の話者では発生頻度が 0で、他方の話者では発生頻度が低いが存在しているという傾向は、図 1A〜図 1Dにおける「f」の音韻の傾向（図 1Aの話者 1では発生頻度が低ぐ図 1Bの話者 2では発生頻度が 0である。）と同様である。したがって、図 1A〜図 1Dの「f」は本来力みにくいはずの音韻であり、怒りの強度が強くなると発生する音韻であることと同様に、図 2Aおよび図 2Bの「b」「g」「m」の「かすれ」音は、本来かすれにくいはずの音韻であり、「朗らか」の強度が強くなると発生する音韻であると考えられる。

[0033] 上記のように、音韻による発生確率の偏りと、偏りの話者共通性は「力んだ」音や「かすれ」音以外に「裏声」や「裏返り」の音にもみられる。「力んだ」音、「かすれ」音、「裏声」、「裏返り」のように平均的な発話様態 (平常発声の発話)から逸脱した発話様態により発声された音声は、特定の音響的特性について、平均的な発話様態により発声された音声から離れた値を示す。十分に大量且つ様々な発話様態を含む音声データがある場合、特開 2004— 279436号公報に示される「気息性」（かすれ)の第 1フォルマント周辺のエネルギーと第 3フォルマント周辺のエネルギーとの時間的相関の例のように、特定の音響特性値が、多くの音声の分布位置とは統計的に離れた位置に分布する場合がある。このような分布は、特定の発話スタイルあるいは感情表現において観測される。例えば「気息性」の音響特性値の場合であれば、親近感を表現する音声に属する傾向が確認できることになる。翻って、入力音声中の「力んだ」音や、特開 2004— 279436号公報に記述されているような「気息性」（かすれ)の音や、「裏声」を抽出することで、話者の感情または発話態度の種類もしくは状態を判定できる可能性がある。さらに、その特徴的音色が検出された部分の音韻を特定することで、話者の感情あるいは発話態度の程度を判定できる可能性がある。

[0034] 図 3Aおよび図 3Bは、図 1A〜図 1Dと同一のデータから統計的学習手法の 1つである数量ィ匕 Π類を用いて作成した推定式により、図 3Aに示す入力「10分ほどかかります (じゅっぷんほど力かります)」と図 3Bに示す入力「温まりました (あたたまりました )」につヽて各モーラが「力んだ」音で発声される「力みやすさ」を推定した結果を示したものである。例えば、図 3Aの「かかります」では確率の高いモーラでのみ「力んだ」音が発生しており、程度の小さい「怒り」であることを示している。同様に図 3Bにおいても、「あたたま」は「力み」の発生確率が高いまたは中程度であるため、「怒り」の程度が小から中程度であり、「り」では「力み」の発生確率が低いため、「怒り」の程度が大であることを示している。この例は学習用データの各モーラについて、モーラに含まれる子音および母音の種類あるいは音韻のカテゴリといった音韻の種類を示す情報とアクセント句内のモーラ位置の情報と、さらに前後の音韻の情報とを独立変数とする。また、「力んだ」音あるいは「ざらざら声 (harsh voice)」が発生した力否かの 2 値を従属変数とする。この例は、これら独立変数および従属変数に基づいて、数量ィ匕 II類により推定式を作成し、発生確率を低'中 '高の 3段階に分けた場合の結果である。この例は、音声認識結果を用いて入力音声のモーラごとの特徴的音色の発生確率を求めることで、話者の感情あるいは発話態度の程度を判定可能であることを示している。

[0035] 発声時の生理的特徴による特徴的音色の発生確率を使用して求められる感情あるいは発話態度の種類と程度とを、感情の種類と強度との指標として用いることで、言語や地方 (方言)差や個人差による影響の小さ、正確な感情の判断を行うことができる。

[0036] 以下、本発明の実施の形態について、図面を参照しながら説明する。

[0037] (実施の形態 1)

図 4は、本発明の実施の形態 1における音声による感情認識装置の機能ブロック図である。図 5は実施の形態 1における感情認識装置の動作を示したフローチャートである。図 6は特徴的音色発生指標計算規則記憶部 110に記憶された計算規則の一例であり、図 7は感情種類判定基準記憶部 112に記憶された判定基準の一例であり、図 8は感情強度計算規則記憶部 114に記憶された感情強度計算規則の一例である。

[0038] 図 4において、感情認識装置は、音声より感情を認識する装置であり、マイクロホン 1と、音声認識用特徴量抽出部 101と、逆フィルタ 102と、周期性分析部 103と、特徴的音色検出部 104と、特徴量データベース 105と、音声認識部 106と、スィッチ 107 と、特徴的音色発生音韻特定部 108と、韻律情報抽出部 109と、特徴的音色発生指標計算規則記憶部 110と、特徴的音色発生指標計算部 111と、感情種類判定基準記憶部 112と、感情種類判定部 113と、感情強度計算規則記憶部 114と、感情強度計算部 115と、表示部 116とを備えている。 [0039] マイクロホン 1は、入力音声を電気信号に変換する処理部である。

[0040] 音声認識用特徴量抽出部 101は、入力音声を分析し、スペクトル包絡を表すパラメータ、例えばメルケプストラム係数を抽出する処理部である。

[0041] 逆フィルタ 102は、音声認識用特徴量抽出部 101が出力するスペクトル包絡情報の逆フィルタであり、マイクロホン 1より入力された音声の音源波形を出力する処理部である。

[0042] 周期性分析部 103は、逆フィルタ 102より出力された音源波形の周期性を分析し、音源情報を抽出する処理部である。

[0043] 特徴的音色検出部 104は、話者の感情や発話態度によって発話音声中に出現する「力んだ」声や「裏声」や「気息性」（かすれ)の声等の特徴的音色を物理的特性、例えば音源波形の振幅揺らぎや音源波形の周期揺らぎなど、を用いて周期性分析部 103により出力された音源情報より検出する処理部である。

[0044] 特徴量データベース 105は、音韻種類ごとの特徴量を音声認識用に保持する記憶装置であり、例えば、音韻ごとの特徴量の分布を確率モデルとして表現したデータを保持する。特徴量データベース 105は、音声中に特徴的音色が見られない音声データより作成された特徴量データベースと、特定の特徴的音色が見られる音声データより作成された特徴量データベースとで構成されている。例えば、特徴的音色が見られない音声データ力作成されたデータベースを特徴的音色なし特徴量データべース 105a、「力んだ」声の特徴的音色がみられた音声データ力も作成された特徴量データベースを「力み」あり特徴量データベース 105b、「気息性」（かすれ)の声の特徴的音色が見られた音声データ力作成された特徴量データベースを「かすれ」あり特徴量データベース 105c、「力んだ」声の特徴的音色と「気息性」（かすれ)の声の特徴的音色との両方が見られた音声データから作成された特徴量データベースを「力み」「かすれ」あり特徴量データベース 105dのように構成する。

[0045] 音声認識部 106は、特徴量データベース 105を参照し、音声認識用特徴量抽出部 101が出力した特徴量と特徴量データベース 105に格納された特徴量とのマツチングを行って音声認識を行う処理部である。

[0046] スィッチ 107は、特徴的音色検出部 104で検出された音源波形の揺らぎの有無および揺らぎの種類に従って、音声認識部 106が特徴量データベース 105を構成する Vヽずれのデータベースを参照するかを切り替える。

[0047] 特徴的音色発生音韻特定部 108は、音声認識部 106が出力する音韻列情報と特徴的音色検出部 104が出力する入力音声中の特徴的音色の時間位置情報とから、入力音声中のどの音韻で特徴的音色が発生していたかを特定する処理部である。

[0048] 韻律情報抽出部 109は、逆フィルタ 102より出力された音源波形より、音声の基本周波数とパワーとを抽出する処理部である。

[0049] 特徴的音色発生指標計算規則記憶部 110は、音韻ごとの特徴的音色の発生しやすさの指標を当該音韻の属性 (例えば子音の種類、母音の種類、アクセント句やストレス句内での位置、アクセントやストレス位置との関係、基本周波数の絶対値あるいは傾斜等)から求めるためのルールを記憶した記憶装置である。

[0050] 特徴的音色発生指標計算部 111は、音声認識部 106で生成された音韻列情報と韻律情報抽出部 109から出力された韻律情報すなわち基本周波数およびパワーより、特徴的音色発生指標計算規則記憶部 110を参照して、入力音声の音韻ごとに特徴的音色発生指標を計算する処理部である。

[0051] 感情種類判定基準記憶部 112は、当該モーラおよび隣接するモーラの特徴的音色の種類と特徴的音色発生指標との組み合わせにより感情の種類を判定する基準を記憶した記憶装置である。

[0052] 感情種類判定部 113は、特徴的音色発生音韻特定部 108で生成された特徴的音色発生位置情報に基づき、感情種類判定基準記憶部 112の基準を参照して、モーラごとの感情の種類を判定する処理部である。

[0053] 感情強度計算規則記憶部 114は、特徴的音色の発生指標と入力音声の特徴的音色発生位置情報とから感情あるいは発話態度の程度を計算するための規則を記憶する記憶装置である。

[0054] 感情強度計算部 115は、特徴的音色発生音韻特定部 108で生成された入力音声中の特徴的音色が発生した音韻の情報と特徴的音色発生指標計算部 111で計算された音韻ごとの特徴的音色発生指標とから、感情強度計算規則記憶部 114を参照して感情あるいは発話態度の程度および感情種類と、音韻列とを出力する処理部である。

[0055] 表示部 116は感情強度計算部 115の出力を表示する表示装置である。

[0056] 先に述べたように構成された音声による感情認識装置の動作を図 5に従って説明する。

[0057] まずマイクロホン 1より音声が入力される (ステップ S1001)。音声認識用特徴量抽出部 101は、入力音声を分析し、音声認識用の音響特徴量としてメルケプストラム係数を抽出する（ステップ S1002)。次に、逆フィルタ 102は、ステップ S1002で生成されたメルケプストラム係数の逆フィルタとなるようにパラメータを設定し、ステップ S100 1でマイクロホンより入力された音声信号を通過させ、音源波形を抽出する (ステップ S1003)。

[0058] 周期性分析部 103は、ステップ S1003で抽出された音源波形の周期性を、例えば特開平 10— 197575号公報に記載の技術のように低周波側が緩やかで高周波側が急峻な遮断特性を有するフィルタ出力の振幅変調の大きさと周波数変調の大きさと力基本波らしさを計算し、入力音声のうち周期性のある信号の時間領域を周期性信号区間として出力する (ステップ S1004)。

[0059] 特徴的音色検出部 104は、ステップ S1004で周期性分析部 103により抽出された周期性信号区間について、音源波形の揺らぎのうち本実施の形態では音源波形の基本周波数揺らぎ (ジッタ)および音源波形の高域成分の揺らぎを検出する (ステツプ S1005)。なお基本周波数揺らぎは、例えば特開平 10— 19757号公報の方式で求められる瞬時周波数を利用して検出する。また、音源波形の高域成分の揺らぎは、例えば特開 2004— 279436号公報に記載の技術のように、音源波形のピークッ一ピークの振幅を、音源波形の微分の振幅の最小値 (最大ネガティブピーク)で除した値を基本周波数で正規化した正規化振幅指数を用いる方法で検出する。

[0060] 入力音声の周期性信号区間にお!、て音源波形の周波数揺らぎある、は音源波形の高域成分の揺らぎが検出されたカゝ否かにより、スィッチ 107を切り替えて特徴量データベース 105内の適切な特徴量データベースと音声認識部 106とを接続する（ステツプ S1006)。すなわち、ステップ S1005において音源波形の周波数揺らぎが検出された場合には、特徴量データベース 105のうち「力み」あり特徴量データベース 1 05bと音声認識部 106とをスィッチ 107により接続する。ステップ S1005において音源波形の高域成分の揺らぎすなわち気息性 (かすれ)の成分が検出された場合には、特徴量データベース 105のうち「かすれ」あり特徴量データベース 105cと音声認識部 106とをスィッチ 107により接続する。ステップ S1005において音源波形の周波数揺らぎと音源波形の高域成分の揺らぎの両方が検出された場合には、特徴量データベース 105のうち「力み」「かすれ」あり特徴量データベース 105dと音声認識部 106とをスィッチ 107により接続する。また、ステップ S1005において音源波形の周波数摇らぎと音源波形の高域成分の揺らぎのいずれも検出されな力つた場合は、特徴量データベース 105のうち特徴的音色なし特徴量データベース 105aと音声認識部 106とをスィッチ 107より接続する。

[0061] 音声認識部 106は、特徴量データベース 105のうちステップ S1006においてスイツチ 107によって接続された特徴量データベースを参照し、ステップ S1002で抽出されたメルケプストラム係数を用いて音声認識を行い、認識結果として入力音声中の時間位置情報と共に音韻列を出力する (ステップ S1007)。

[0062] 特徴的音色発生音韻特定部 108は、音声認識部 106が出力する時間位置情報付きの音韻列情報と特徴的音色検出部 104が出力する入力音声中の特徴的音色の時間位置情報とから入力音声中のどの音韻で特徴的音色が発生している力を特定する（ステップ S 1008)。

[0063] 一方、韻律情報抽出部 109は、逆フィルタ 102より出力された音源波形を分析し、基本周波数と音源パワーとを抽出する (ステップ S 1009)。

[0064] 特徴的音色発生指標計算部 111は、音声認識部 106で生成された時間位置情報付き音韻列と韻律情報抽出部 109で抽出された基本周波数と音源パワーの情報とから、基本周波数パターンと音源パワーパターンの山谷を音韻列と照合し、音韻列に対応するアクセント句切りおよびアクセント情報を生成する (ステップ S 1010)。

[0065] さらに、特徴的音色発生指標計算部 111は、特徴的音色発生指標計算規則記憶部 110に記憶された、子音、母音、アクセント句中のモーラ位置、アクセント核力の相対位置等のモーラ属性力特徴的音色の発生しやすさを求める規則を用いて特徴的音色発生指標を音韻列のモーラごとに計算する (ステップ S1011)。特徴的音色発生指標の計算規則は、例えば特徴的音色を伴う音声を含む音声データよりモーラ属性を説明変数とし、特徴的音色が発生したか否かの 2値を従属変数として質的データを取り扱う統計的手法の 1つである数量ィ匕 II類を用いて統計的学習を行い、モーラ属性力特徴的音色の発生しやすさを数値で表現できるモデルを生成することにより作成される。

[0066] 特徴的音色発生指標計算規則記憶部 110は、例えば図 6のように統計的学習結果を特徴的音色の種類ごとに記憶して!/、るものとする。特徴的音色発生指標計算部 111は、各モーラの属性に従って、特徴的音色発生指標計算規則記憶部 110に記憶された統計モデルを適用し、特徴的音色発生指標を計算する。入力音声が図 3B に示すような「あたたまりました」である場合、特徴的音色発生指標計算部 111は、先頭のモーラ「あ」の属性の得点を、「子音なし」すなわち子音の得点が—0. 17、母音は「ァ」で母音の得点は 0. 754、「あたたまりました」というアクセント句中正順位置での 1番目のモーラであるので正順位置の得点が 0. 267、アクセント中逆順位置では 8番目のモーラとなり逆順位置の得点が 0. 659のように求める。また、特徴的音色発生指標計算部 111は、これらの得点を加算することにより、先頭のモーラ「あ」の特徴的音色発生指標を計算する。特徴的音色発生指標計算部 111は、同様の処理を各モーラについて行い、各モーラの特徴的音色発生指標を計算する。このようにして各モーラ ίまその属'性より、先頭の「あ」 ίま 1. 51 (=—0. 17 + 0. 754 + 0. 267 + 0. 65 9)、次の「た」は 0. 79、 3モーラ目の「た」は 0. 908のように特徴的音色発生指標が計算される。

[0067] 感情種類判定部 113は、特徴的音色発生音韻特定部 108で生成された音韻単位で記述された特徴的音色発生位置より入力音声中の特徴的音色発生種類を特定し、例えば図 7のように記述された感情種類判定基準記憶部 112の情報を参照し、入力音声に含まれる特徴的音色が発生したモーラにおける感情種類を特定する (ステップ S 1012)。入力音声の「あたたまりました」のうち「あたたまりま」が「力んだ」音声であり、それ以外では特徴的音色での発声がな力つた場合、特徴的音色によって発生されたモーラについてのみ、図 7の表に従って感情を判断し、モーラ単位での感情の変化を認識する。図 3Βについて、「あ」について、図 7に従った計算を行うと、当該モーラ「あ」の直前モーラはないため、当該モーラの「力み」の発生指標 1. 51に、直後モーラの「力み」発生指標 0. 79の半分の 0. 395が加算され、 1. 905となる。また、「かすれ」の発生は隣接するモーラには見られない。このため、「力み」に対する計算値が正となり、「かすれ」に対する計算値が 0となるため、このモーラに含まれる感情は「怒り」であると判断される。同様に 2モーラ目の「た」についても当該モーラの 0. 79 に直前モーラの 1. 51の半分の 0. 755と直後モーラの 0. 91の半分の 0. 455をカロ算すると 2. 0となり、 1モーラ目同様感情は「怒り」であると判断される。

[0068] ところ力図 3Aに示す「じゅっぷんほど力かります」という入力音声については、「ほ」では「かすれ」の発声がされており、直前のモーラでは特徴的音色による発生はないが、直後の「ど」では「力み」の発声がされている。このため「ほ」については当該モーラの「かすれ」の発生指標 2. 26と直後モーラの「力み」の発生指標 0. 73の半分 0 . 365をあわせて判断することとなり、図 7の表に従って、「ほ」また同様に「ど」の部分につヽては入力音声は「はしゃぎ 'うれ、興奮」の感情を含むものとして判断される。しかし、「ほど」につづく「かか」の部分では特徴的音色は「力み」のみが検出されており、図 7の表に従って「怒り」の感情を含むものと判断され、ユーザがシステムに語りかけるうちに変動する感情をモーラ単位で追随することができる。

[0069] 入力音声が「あたたまりました」の場合、ステップ S 1011で計算されたモーラごとの特徴的音色発生指標の値 (例えば先頭の「あ」は 1. 51、次の「た」は 0. 79、 3モーラ目の「た」は 0. 908)に対して、図 8のように記述された感情強度計算規則記憶部 11 4の感情強度計算規則を参照すると、先頭の「あ」は「力み」の発生指標が 1. 51であり、 0. 9以上であるため「力み」やすさが「高」と判断される。入力音声が図 3Bのように「あたたまりました」のうち「あたたまりま」が「力んだ」音声で発声されて、た場合、「力み」易さが大き、先頭の「あ」で「力んで」 V、るため「怒り」の感情強度は低くなる。次の「た」は「力み」の発生指標が 0. 79であり中程度の「力み」易さで中程度の「怒り」、 3 モーラ目の「た」は発生指標が 0. 908であり「力み」易さが高く「怒り」の感情強度は低い。このように、モーラごとに感情強度が計算され (ステップ S1013)、ステップ S10 12で感情判断をしたよりさらに詳細に感情強度の変化を求めることができる。表示部 116は、ステップ S 1013で計算された感情種類判定部 113の出力としてのモーラごとの感情強度を表示する (ステップ S1014)。

[0070] 図 3Aのような入力については、ステップ S1012で「じゅっぷんほど力かります」の「ほ」は「かすれ」の発生指標 2. 26と「力み」の発生指標 0. 365とにより「はしゃぎ 'うれしい興奮」と判断されており、図 8のように記述された感情強度計算規則記憶部 114 の規則を参照すると、「ほ」の「力み」の発生指標と「かすれ」の発生指標とを乗算した値は 0. 8249となり、「はしゃぎ 'うれしい興奮」の強度は弱となる。また、「ど」については、「力み」の指標が当該モーラの 0. 73と直後モーラの 1. 57の半分を加算して 1 . 515となり、「かすれ」の指標が直前モーラ「ほ」の指標 2. 26の半分 1. 13となり、これらを乗算した値は 1. 171195であるので「はしゃぎ 'うれしい興奮」の強度は弱となる。続く「か」では力みの指標が直前モーラの指標の半分と直後モーラの指標の半分と当該モーラの指標とを加算して 2. 55となり、「怒り」の強度は「弱」であると判断される。

[0071] ここで、図 8に示した感情強度計算規則記憶部 114に記憶されて、る感情強度計算規則の作成方法のうち、指標範囲と「力み」易さと感情強度との関係の作成方法について説明する。図 9は、「力み」ありのモーラの発生頻度と「力み」なしのモーラの発生頻度と「力み」易さの指標の値との関係、および感情の強さ (弱さ）と指標の値との関係を模式的に示した図である。図 9では横軸にモーラごとに求められた「力み」易さの指標を、右へ行くほど「力み」易くなるように設定する。また、縦軸に音声中の「力み」ありまたは「力み」なしのモーラの発生頻度およびモーラごとの「力み」確率を示す。また、グラフ左の軸に「力み」ありまたは「力み」なしのモーラの発生頻度を、グラフの右の軸にモーラごとの「力み」確率を示している。グラフの曲線のうち、実線は実際の音声データより作成された、指標の値と「力み」ありのモーラの発生頻度との関係を示す関数であり、点線は実際の音声データより作成された、指標の値と「力み」なしのモーラの発生頻度との関係を示す関数である。両関数より、ある指標の値を持つモーラの内「力み」で発生される頻度を求め、「力み」発生確率として 100分率でまとめたものが、破線で示した「感情の弱さ」である。発生確率すなわち「感情の弱さ」は発生指標が小さくなると感情が強くなり、発生指標が大きくなると感情が弱くなる特性となつている。図 9に示すような発生指標により変化する「感情の弱さ」の関数に対して、実際の音声データより感情強度の範囲を設定し、設定された感情強度範囲の境界に対応する発生指標を関数より求め、図 8のようなテーブルを作成する。

[0072] なお、図 8に示した感情強度計算規則記憶部 114では「感情の弱さ」の関数より作成したテーブルを用いて感情強度を計算したが、図 9に示した関数を記憶しておき、関数より直接「感情の弱さ」すなわち関数強度を計算するものとしても良い。

[0073] 力かる構成によれば、入力された音声より感情が反映された特徴的音色として音源揺らぎを抽出し、特徴的音色を含む特徴量データベースと特徴的音色を含まなヽ特徴量データベースとを保持し、音源揺らぎの有無によって特徴量データベースを切り替えることで音声認識精度を向上させている。他方で音声認識結果より求められる特徴的音色の発生しやすさと実際の入力音声の音源揺らぎの有無との比較結果により、特徴的音色が発生しやすい部分で実際に特徴的音色が発生している場合には感情の強度が低いと判断し、特徴的音色が発生しにくい部分で入力音声に特徴的音色が発生している場合には感情の強度が高いと判断する。このことで、入力音声から音声の発話者の感情の種類と強度を、言語差、個人差および地方差に影響されることなく正確に認識することができる。

[0074] また、感情表現のある音声中に見られる特徴的音色に対する音声認識精度は、無表情な音声データ力作られた特徴量データベースを用いた場合には低いが、特徴的音色を含む音声から作られた特徴量データベースに切り替えることで音声認識精度も向上する。また、認識精度の向上により音韻列を用いて計算する特徴的音色の発生しやすさの計算精度も向上する。このため、感情強度の計算も精度が向上する。さらに、特徴的音色をモーラ単位で検出し、感情認識をモーラ単位で行うことで、入力音声中の感情の変化をモーラ単位で追随させることができる。このため、システムを対話制御等に用いる場合にはユーザである話者が対話動作過程のどのイベントに対して、どのような反応をしたかを特定する場合に効果的である。このように入力音声よりユーザの感情の変化を詳細に捉えることができるため、例えば、ユーザの怒り強度に合わせて、システム側の出力音声を「大変申し訳ございませんが · · ·」というようなより丁寧な謝罪や「お手数ではございますが · · ·」というような丁寧な依頼の表現にしたりすることで、ユーザの感情を平常な状態に導き、対話インタフェースとしてスムースに動作することができる。

[0075] (実施の形態 1の変形例）

本発明の実施の形態 1の変形例を示す。図 10は本発明の実施の形態 1の音声による感情認識装置の変形例の機能ブロック図である。図 11は実施の形態 1の変形例における音声による感情認識装置の動作を示すフローチャートである。図 12は入力された音声の音韻列と特徴的音色で発声されたモーラおよびその「力み」の発生指標と「かすれ」の発生指標の値とを模式的に示したものである。図 13は感情種類判定規則記憶部 132に記憶された感情の種類を判定する基準の情報の例を示したものである。

[0076] 図 10に示す感情認識装置は、図 4に示した実施の形態 1に係る感情認識装置と同様の構成を有するが、一部構成が異なる。すなわち、図 4における感情種類判定基準記憶部 112が感情種類判定規則記憶部 132に置き換えられている。また、感情種類判定部 113と感情強度計算部 115とが感情種類強度計算部 133に置き換えられている。さらに、感情強度計算規則記憶部 114が無くなり、感情種類強度計算部 13 3が感情種類判定規則記憶部 132とを参照するように構成されている。

[0077] このような構成の、音声による感情認識装置は、実施の形態 1におけるステップ S1 011でモーラごとの特徴的音色発生指標の計算を行う。

[0078] 図 12のような例の場合、特徴的音色の「力み」と「かすれ」とを抽出し、その頻度のみに基づいて感情を判断した場合、モーラ数の多い「力み」が判断に大きく影響し、「力み」が典型的に出現する「怒り」の感情の音声であると判断し、システムは謝罪の対応を取ることとなる。し力しながら、実際に入力された音声は、中程度の「はしゃぎ 'うれしい興奮」の感情をともなっており、対話システムはユーザがシステムとの会話をより楽しむための情報提供をすべきである。

[0079] 例えば図 12のように「力み」で発生されたモーラが 24モーラ中 5モーラあり、「かすれ」で発生されたモーラが 24モーラ中 3モーラあった場合、 S 1011と同様の方法で「力み」と「かすれ」の特徴的音色発生指標を 1モーラごとに算出する。「力み」の特徴的音色発生指標の逆数の和は 4. 36となる。一方「かすれ」の特徴的音色発生指標の逆数の和は 4. 46となる。これは検出された特徴的音色のモーラ数としては「力み」の音声が多、が、「かすれ」の音声はよりかすれにくい音声でも「かすれ」の音声が発生しているすなわち、より「かすれ」を起こす感情が強いことを示している。さらには、感情種類強度計算部 133は、図 13に示すような感情種類判定規則に従って感情の種類と強度とを判定する (ステップ S 1313)。

[0080] また、 1種類の特徴的音色の指標を平均することもできる。例えば、図 3Bのように、「力み」で発生されたモーラが 8モーラ中 5モーラあり、他の特徴的音色が発生して!/ヽない。「力み」と「かすれ」とが特徴的音色が発生しているときと同様に計算すると、「力み」の特徴的音色発生指標の逆数（1モーラ目の「あ」 0. 52、 2モーラ目の「た」 0. 50、 3モーラ目の「た」 0. 56、 4モーラ目の「ま」 1. 04、 5モーラ目の「り」 6. 45、 6モーラ目の「ま」 1. 53)の和は 10. 6となる。図 13に示す感情強度計算規則から感情が「怒り」で強度が「弱」であることがわかる。実施の形態 1では、図 3Bにおいて、 5モーラ目の「り」は特徴的音色発生指標が 0. 85であり、図 8から感情が「怒り」で強度が「強」であると判断できる。この感情の強度の判断結果は、実施の形態 1のように 1モーラごとに判断したときと異なる。対話システムが入力音声全体の感情の種類と強度を判定する変形例は、人と対話システムの対話が短ぐ単純な場合に有効である。実施の形態 1のように、 1モーラごとに感情の種類と強度を判断し、感情の種類や強度の変化を得ることは、複雑な内容の会話や長い会話の場合には非常に重要である。しかし、非常に単純な会話に対話システムを利用する場合には、入力音声全体で感情の種類と強度を判定する方法が有効である。例えば、チケットの販売を行う対話システムが考えられる。対話システムが「何枚ですか？」と問いかけて、それに対してュ一ザが「二枚お願いします。」と応答するという対話を目的とする。この場合、「二枚お願いします。」という入力音声全体で感情の種類と強度を判定し、システムが音声を認識できな力つた場合には、感情の種類や強度に応じた謝罪を行ない、もう一度ュ一ザに応答をしてもらう対応を対話システムが行うことにより、対話システムは有効に動作することができる。よって、本変形例の 1種類の特徴的音色の指標のみを用いて入力音声全体で感情の種類や強度を判定する音声認識のシステムは、短ヽ会話や単純な会話の対話システム等に有効である。

[0081] なお、感情の判定に用いられる数値は、モーラごとの特徴的音色の種類ごとに各モーラの指標の逆数の和により求められる。あるいは入力音声の特徴的音色発生位置での特徴的音色発生指標の値を特徴的音色種類ごとに平均し、入力音声の全モーラ数に占める特徴的音色が発生したモーラ数を特徴的音色頻度として求め、その逆数を先に求めた特徴的音色発生指標の平均値に乗ずることにより求められる。あるいは、入力音声の特徴的音色発生位置での特徴的音色発生指標の値を特徴的音色種類ごとに平均し、平均値の逆数に特徴的音色頻度を乗ずる等により感情の判定に用いられる数値を求めてもよい。勘定の判定に用いられる数値は、特徴的音色の発生のし易さが重みとして感情判断に生力される方法であり、計算方法に合わせた判定基準が感情種類判定規則記憶部 132に記憶されているものであれば、他の方法で求めるものとしても良い。

[0082] なお、ここではステップ S1313において特徴的音色発生指標の強度を求め、感情種類判定規則記憶部 132は特徴的音色ごとの強度の差による判定規則を記憶していたが、判定基準は特徴的音色発生指標の強度の比によって構成するものとしても良い。

[0083] 力かる構成によれば、入力された音声より感情が反映された特徴的音色として音源揺らぎが抽出される。一方で音源揺らぎの有無によって特徴量データベースを切り替えることで音声認識精度が向上した音声認識が行なわれる。音声認識結果を利用して特徴的音色の発生しやすさが計算される。特徴的音色が発生しやすい部分で実際に特徴的音色が発生している場合には感情の強度が低ぐ特徴的音色が発生しにくい部分で入力音声に特徴的音色が発生している場合には感情の強度が高いと判断して、入力音声の 1発話中で検出された特徴的音色の発生指標から、その発話全体で表され発話者の感情の種類と強度を個人差や地方差に影響されることなく正確に認識することができる。

[0084] (実施の形態 2)

本発明における音声中の特徴的音色を用いた感情認識では、音声認識結果の音韻列を用いて、特徴的音色発生指標を求めることにより、精度の高い感情認識を行うことができる。ところが、音声認識においては、感情に伴う特徴的音色は一般的な音響モデル力乖離している場合が多ぐ音声認識精度が低下するという課題がある。実施の形態 1では、この課題を特徴的音色を含む音響モデルを用意して切り替えることによって解決した力音響モデルを複数種備えるため、データ量が大きくなり、また、音響モデルを生成するためのオフライン作業が増大すると言う課題があった。本実施の形態では、これらの実施の形態 1の課題を解決するため、音響モデルによる認識結果を言語モデルを用いて修正し、認識精度を高め、正しい音声認識結果の音韻列に基づき、特徴的音色発生指標を求め、精度の高い感情認識を行うための構成を示すものである。

[0085] 図 14は本発明の実施の形態 2の音声による感情認識装置の機能ブロック図である。図 15は実施の形態 2における音声による感情認識装置の動作を示したフローチヤートである。図 16A〜図 16Cは実施の形態 2の動作の具体例を示したものである。

[0086] 図 14において、図 4と同じ部分については説明を省略し、図 4と異なる部分についてのみ説明する。図 15においても、図 5と同じ部分については説明を省略し、図 5と異なる部分にっ、てのみ説明する。

[0087] 図 14において、感情認識装置の構成は、図 4の機能ブロック図より韻律情報抽出部 109およびスィッチ 107がなくなり、特徴量データベース 105が音響特徴量データベース 205に置き換わり、言語特徴量データベース 206が付け加わり、音声認識部 1 06が音響特徴量と、言語モデルによる言語特徴量とから音韻のみでなぐ言語情報も含めて認識を行う連続単語音声認識部 207に置き換わった以外は図 4と同様の構成である。

[0088] このように構成された音声による感情認識装置の動作について図 15に従って説明する。図 5と同じ動作については説明を省略し、異なる部分についてのみ説明する。

[0089] マイクロホン 1より音声が入力され (ステップ S1001)、音声認識用特徴量抽出部 10 1はメルケプストラム係数を抽出する (ステップ S1002)。逆フィルタ 102は音源波形を抽出し (ステップ S1003)、周期性分析部 103は入力音声のうち周期性のある信号の時間領域を周期性信号区間として出力する (ステップ S1004)。特徴的音色検出部 1 04は周期性信号区間について音源波形の揺らぎ、例えば音源波形の基本周波数揺らぎ (ジッタ）および音源波形の高域成分の揺らぎを検出する (ステップ S 1005)。連続単語音声認識部 207は、音響モデルを記憶して、る音響特徴量データベース 2 05と言語モデルを記憶して、る言語特徴量データベース 206とを参照し、ステップ S 1002で抽出されたメルケプストラム係数を用いて音声認識を行う。連続単語音声認識部 207による音声認識は、例えば、音響モデルと言語モデルを用いた確率モデルを用いた音声認識方法によるものとする。認識は一般的に、

[0090] [数 1]

W = aigmsoiP(Y/ W)P(W)

W

[0091] W:指定された単語系列

Y:音響的な観測値系列

P (Y/W)：単語列で条件付けられた音響的な観測値系列の確率 (音響モデル） P (W)：仮定された単語系列に対する確率 (言語モデル）

のように音響モデルと言語モデルの積が最も高くなる単語系列を選択することで行われる。数 1は対数を取ると

[0092] [数 2]

J^ - argmax log P(Y / W) + log P(W)

w

[0093] のように表現できる。音響モデルと言語モデルのバランスが等価であるとは限らないため、両モデルへの重みをつける必要がある。一般的には両重みの比として、言語モデルの重みを設定し、

[0094] [数 3]

W = aig max log P(Y I W) + a log P(W)

w

[0095] a：音響モデルと言語モデルとの両モデルにおける言語モデルの重み

のように表現する。言語モデルの重み αは、一般的な認識処理においては、時間的に一定の値を持つものとされる。しかし、連続単語音声認識部 207はステップ S 1005 で検出された特徴的音色の発生位置の情報を取得し、単語ごとに言語モデル重み αを変更する、

[0096] [数 4]

Λ «

W = arg max log P(Y I W) +〉 , log P w_s | w - - - ) w

[0097] w :i番目の単語

a i番目の単語に適用する言語モデルの重み

のように表現されるモデルに基づき連続音声認識を行う。音響特徴量データベースと言語特徴量データベースとを参照して音声認識を行う際に、音声認識を行うフレームが特徴的音色を含む場合には言語モデルの重みを大きくし、相対的に音響モデルの重みを小さくして（ステップ S2006)、音声認識を行う（ステップ S2007)。言語モデルの重みを大きくし、音響モデルの重みを小さくすることで、特徴的音色の発生位置で音響モデルが適合しないことにより認識精度が低下する影響を小さくすることができる。連続単語音声認識部 207は入力音声を音声認識した結果の単語列および音韻列について単語の読み情報、アクセント情報、品詞情報よりアクセント句境界とアクセント位置を推定する（ステップ S2010)。

[0098] 例えば、図 16Aに示すように、入力音声の音韻列が「なまえをかくえんぴつがほし V、んです」で、そのうち「えんぴつが」の部分が特徴的音色である「力み」で発声された音声が入力された場合、連続単語音声認識部 207はステップ S 1005で検出された特徴的音色の発生位置の情報を取得し、特徴的音色を含まない、「なまえをかく」と「ほ、んです」の部分にっ、ては、特徴的音色を含まな、学習用データより決定された言語モデルの重み α =0. 9を適用する。このとき、図 16Bに示すように従来の連続音声認識の方法すなわち言語モデルの重みを一定として、特徴的音色で発声された部分にっヽても特徴的音色で発声されてヽなヽ場合に適用する言語モデルの重みひ =0. 9を適用する。「力み」で発声された「えんぴつ力の部分が「力み」のない音響モデルとしては「えんとつ」とのマッチングが良かった場合、 [0099] [数 5] (えんとつ卜.書く） < P (えんぴつ I…書く）

[0100] のように、言語モデルとしては、文頭から「書く」までの単語列に「えんとつ」が続く確率より「えんぴつ」が続く確率の方が大きい。このため

[0101] 園

P{W, ) < P{W₂ )

名前を書くえんとつが欲しいんです

=名前を書くえんぴつが欲しいんです

[0102] となるにもかかわらず、言語モデルの重みが小さいために相対的に音響モデルの値が大きぐ数 3の値は

[0103] [数 7] logP(r/ if, ) + 0.9 log P W_X ) > log (7/ ₂) + 0.9 x log P(W₂ )

[0104] となり、認識結果としては「名前を書く煙突が欲しいんです」が採用されることになる。

[0105] しかし、本実施の形態では、連続単語音声認識部 207はステップ S2006で、特徴的音色を含んだ入力音声を特徴的音色を含まない学習データより作成した音響モデルにより認識する場合には認識精度が低下することに対応して、「力み」で発声された「えんぴつ力の部分については言語モデルの重みを大きくする。すなわち図 1 6Cに示すように「力み」の発声を含んだデータより作成した言語モデルの重み a = 2 . 3を適用することで、

[0106] [数 8]

[0107] となり、認識結果としては「名前を書く鉛筆が欲しいんです」が採用され、正しい認識結果を得ることができる。 [0108] 特徴的音色発生指標計算部 111は、連続単語音声認識部 207から出力された音韻列と音韻単位で記述された特徴的音色発生位置、および音韻列のアクセント句境界とアクセント位置の情報を取得する。特徴的音色発生指標計算部 111は、取得した情報と、特徴的音色発生指標計算規則記憶部 110に記憶された、子音、母音、了クセント句中の位置、アクセント核力もの相対位置等のモーラ属性力も特徴的音色の発生しやすさを求める規則とを用いて特徴的音色発生指標を音韻列のモーラごとに計算する (ステップ S1011)。感情種類判定部 113は、特徴的音色発生音韻特定部 208で生成された音韻単位で記述された特徴的音色発生位置より入力音声中の特徴的音色発生種類を特定し、感情種類判定基準記憶部 112の情報を参照して入力音声に含まれる特徴的音色の種類に対応する感情種類を特定する (ステップ S1012 )。感情強度計算部 115は、音韻単位で記述された入力音声の特徴的音色発生位置とステップ S1011で特徴的音色発生指標計算部 111で計算されたモーラごとの特徴的音色発生指標とを比較し、各モーラの指標の大きさと入力音声の対応するモーラの状態との関係に基づき、感情強度計算規則記憶部 114に記憶された規則に従つてモーラごとの感情強度を計算する (ステップ S1013)。表示部 116は、ステップ S 1013で計算された感情種類判定部 113の出力としてのモーラごとの感情強度を表示する（ステップ S 1014)。

[0109] なお、本実施の形態 2において特徴的音色を含まないフレームに適用する言語モデルの重みを 0. 9、「力み」で発声されたフレームに適用する言語モデルの重みを 2 . 3とした力特徴的音色を含むフレームにおいて言語モデルの重みが相対的に大きくなる限りにおいて、これ以外の値であっても良い。また、「力み」以外の「かすれ」「裏声」等の特徴的音色に対してもそれぞれに適用する言語モデルの重みを設定しておくものとしても良いし、特徴的音色を含むフレームに適用する言語モデルの重みと特徴的音色を含まないフレームに適用する言語モデルの重みとの 2種を設定しておくものとしても良い。

[0110] なお、本実施の形態 2においても、実施の形態 1で述べたような変形例が可能である。

[0111] 力かる構成によれば、入力された音声より感情が反映された特徴的音色として音源揺らぎを抽出し、一方で音源揺らぎがある場合には音響特徴量データベース内の音響モデルに合致しにくいことを考慮して言語モデルの重み係数 aを大きくし、相対的に音響モデルの重みを軽くする。これにより、音響モデルが合致しないことによる音韻レベルの誤認識を防ぎ、文レベルの音声認識精度を向上させることができる。他方で音源揺らぎの有無によって入力音声の感情の種類を判定し、さらに音声認識結果を利用して特徴的音色の発生しやすさを計算して、特徴的音色が発生しやすい部分で実際に特徴的音色が発生している場合には感情の強度が低いと判断し、特徴的音色が発生しにくい部分で入力音声に特徴的音色が発生している場合には感情の強度が高いと判断する。これにより、入力音声力音声の発話者の感情の種類と強度を、個人差や地方差に影響されることなく正確に認識することができる。

[0112] さらには言語モデルの重みは、既存の言語モデルと音響モデルとのバランスを決定するものである。このため、特徴的音色を含む音響モデルを生成する場合より、少量のデータで特徴量データベースの生成が可能である。また、感情表現のある音声中に見られる特徴的音色は無表情な音声データから作られた音響特徴量データべースを用いた場合には音声認識精度が低いが、特徴的な音色が発生している部分につ、ては音響モデルが適切でな、可能性があるとして音響モデルの重みを軽くして言語モデルの重みを大きくする。このことにより不適切な音響モデルを適用することの影響を小さくして音声認識精度も向上する。音声認識精度の向上により音韻列を用いて計算する特徴的音色の発生しやすさの計算精度も向上する。このため、感情強度の計算も精度が向上する。さらに、特徴的音色を音韻単位で検出し、感情認識を音韻単位で行うことで、入力音声中の感情の変化を音韻単位で追随することができる。このため、対話制御等に用いる場合にはユーザである話者が対話動作過程のどのイベントに対して、どのような反応をしたかを特定する場合に効果的である。

[0113] (実施の形態 3)

図 17は、本発明の実施の形態 3における音声による感情認識装置の機能ブロック図である。図 18は実施の形態 3における感情認識装置の動作を示したフローチヤ一トである。図 19は実施の形態 3における音韻入力方法の一例を示した図である。

[0114] 図 17において、図 4と同じ部分については説明を省略し、図 4と異なる部分についてのみ説明する。図 18においても、図 5と同じ部分については説明を省略し、図 5と異なる部分にっ、てのみ説明する。

[0115] 図 17に示す感情認識装置では、図 4における音声認識用特徴量抽出部 101が特徴量分析部 301に置き換えられている。また、特徴量データベース 105とスィッチ 10 7がなくなり、音声認識部 106が音韻入力部 306に置き換わった以外は図 4と同様の構成である。

[0116] 図 17において、感情認識装置は、音声より感情を認識する装置であり、マイクロホン 1と、特徴量分析部 301と、逆フィルタ 102と、周期性分析部 103と、特徴的音色検出部 104と、音韻入力部 306と、特徴的音色発生音韻特定部 108と、韻律情報抽出部 109と、特徴的音色発生指標計算規則記憶部 110と、特徴的音色発生指標計算部 111と、感情種類判定基準記憶部 112と、感情種類判定部 113と、感情強度計算規則記憶部 114と、感情強度計算部 115と、表示部 116とを備えている。

[0117] 特徴量分析部 301は、入力音声を分析し、スペクトル包絡を表すパラメータ、例えばメルケプストラム係数を抽出する処理部である。

[0118] 音韻入力部 306は、ユーザが、入力波形の特定の区間に対して、対応する音韻種類を入力する入力手段であり、例えば、マウスやペンタブレットのようなポインティングデバイスである。ユーザは、例えば、画面上に提示された入力音声の波形ゃスぺタトログラムに対して、ポインティングデバイスを用いて区間指定をし、その区間に対応する音韻種類をキーボードから入力する、あるいは表示された音韻種類のリストからボインティングデバイスを用いて選択すると！/ヽぅ方法で音韻種類を入力する。

[0119] 先に述べたように構成された音声による感情認識装置の動作を図 5に従って説明する。

[0120] まずマイクロホン 1より音声が入力される (ステップ S1001)。特徴量分析部 301は、入力音声を分析し、スペクトル情報を現す音響特徴量としてメルケプストラム係数を抽出する（ステップ S3001)。次に、逆フィルタ 102は、ステップ S3001で生成されたメルケプストラム係数の逆フィルタとなるようにパラメータを設定し、ステップ S1001でマイクロホンより入力された音声信号を通過させ、音源波形を抽出する (ステップ S 10 03)。 [0121] 周期性分析部 103は、ステップ S1003で抽出された音源波形の基本波らしさを計算し、基本波らしさを元に入力音声のうち周期性のある信号の時間領域を周期性信号区間として出力する (ステップ S1004)。

[0122] 特徴的音色検出部 104は、ステップ S1004で周期性分析部 103により抽出された周期性信号区間について、音源波形の揺らぎを検出する (ステップ S1005)。

[0123] 一方、音韻入力部 306より、ユーザは入力音声の特定区間に対応する音韻種類を入力する (ステップ S3002)。音韻入力部 306は入力された入力音声の区間と対応する音韻種類とを、入力音声の時間位置とその時間位置に対応する音韻情報として、特徴的音色発声音韻特定部 108に出力する。

[0124] 特徴的音色発生音韻特定部 108は、音韻入力部 306が出力する時間位置情報付きの音韻列情報と特徴的音色検出部 104が出力する入力音声中の特徴的音色の時間位置情報とから入力音声中のどの音韻で特徴的音色が発生していた力を特定する（ステップ S 1008)。

[0125] 一方、韻律情報抽出部 109は、逆フィルタ 102より出力された音源波形を分析し、基本周波数と音源パワーとを抽出する (ステップ S 1009)。

[0126] 特徴的音色発生指標計算部 111は、ステップ S3002で入力された時間位置情報付き音韻列と韻律情報抽出部 109で抽出された基本周波数と音源パワーの情報とから、基本周波数パターンと音源パワーパターンの山谷を音韻列と照合し、音韻列に対応するアクセント句切りおよびアクセント情報を生成する (ステップ S 1010)。

[0127] さらに、特徴的音色発生指標計算部 111は、特徴的音色発生指標計算規則記憶部 110に記憶された、子音、母音、アクセント句中の位置、アクセント核力の相対位置等の音韻属性から特徴的音色の発生しやすさを求める規則を用いて特徴的音色発生指標を音韻列の音韻ごとに計算する (ステップ S1011)。

[0128] 感情種類判定部 113は、特徴的音色発生音韻特定部 108で生成された音韻単位で記述された特徴的音色発生位置より入力音声中の特徴的音色発生種類を特定し、感情種類判定基準記憶部 112の情報を参照し、入力音声に含まれる特徴的音色が発生した音韻における感情種類を特定する (ステップ S1012)。

[0129] 感情強度計算部は、感情強度計算規則記憶部 114に格納された規則を参照し、音韻ごとに感情強度を計算する (ステップ S1013)。ステップ S1012で感情判断をしたよりさらに詳細に感情強度の変化を求めることができる。表示部 116は、ステップ S 1013で計算された感情種類判定部 113の出力としての音韻ごとの感情強度を表示する（ステップ S 1014)。

[0130] なお、本実施の形態 3ではステップ S1012で感情種類判定基準記憶部 112に記憶された感情種類判定基準に従って各音韻における感情種類を特定した後、ステツプ S 1013において感情強度計算規則記憶部 114に格納された規則に従って音韻ごとの感情強度を計算したが、実施の形態 1の変形例のように、音韻ごとの特徴的音色発生指標を計算し、その結果に基づ、て発話全体の感情種類と強度を計算するものとしても良い。

[0131] 力かる構成によれば、入力された音声より感情が反映された特徴的音色として音源揺らぎを抽出する一方で、入力音声の特定の区間に対応する音韻種類が入力される。音韻列と韻律情報とから求められる特徴的音色の発生しやすさと実際の入力音声の音源揺らぎの有無との比較結果により、特徴的音色が発生しやすい部分で実際に特徴的音色が発生して、る場合には感情の強度が低、と判断し、特徴的音色が発生しにくい部分で入力音声に特徴的音色が発生している場合には感情の強度が高いと判断される。このことで、入力音声から音声の発話者の感情の種類と強度を、言語差、個人差および地方差に影響されることなく正確に認識することができる。

[0132] なお、韻律情報がまったく同じで、特徴的音色の発生指標が大きくなる傾向の強い音韻で構成された特徴的音色で発声された音声 (たとえばタ行とカ行とダ行のァ段、ェ段、ォ段の音韻で構成された「力み」易い音声)と、特徴的音色の発生指標が小さくなる傾向の強い音韻で構成された特徴的音色で発声された音声 (例えばハ行とサ行のィ段とゥ段の音韻で構成された音声)とを本願の感情認識装置に入力した場合のそれぞれの感情種類と強度の判断結果を見比べることにより、音韻種類と韻律情報とをパラメータとして用いた特徴的音色発生指標が計算され、特徴的音色発生指標に基づいて感情種類と強度が推定されていることが確認できる。また、特徴的音色で発声された同一音韻が連続する音声のアクセント位置を 1音韻ずつずらした音声を本願の感情認識装置に入力した場合の、アクセント位置の移動による感情強度の変化を確認することにより、音韻種類と韻律情報とをパラメータとして用いた特徴的音色発生指標が計算され、特徴的音色発生指標に基づいて感情種類と強度が推定されて、ることが確認できる。

[0133] なお、実施の形態 1およびその変形例、実施の形態 2、実施の形態 3にお、て、音声による感情認識装置は、入力音声全体を取得して力も処理を行うものとしたが、マイク口ホン 1より入力される音声に対して、逐次的に処理を行うものとしても良い。その際、実施の形態 1およびその変形例では逐次処理は音声認識の処理単位である音韻を逐次処理の単位とし、実施の形態 2については言語処理が可能な文節あるいはフレーズ等の単位を逐次処理の単位とするものとする。

[0134] なお、実施の形態 1およびその変形例、実施の形態 2、実施の形態 3において音源波形はメルケプストラムの逆フィルタによって求めるものとした力声道モデルを元に声道伝達特性を求め、その逆フィルタによって音源波形を求める方法や、音源波形のモデルを元に求める方法等、音源波形の求め方はメルケプストラムの逆フィルタによる方法以外の方法を用いても良、。

[0135] なお、実施の形態 1およびその変形例、実施の形態 2、実施の形態 3にお、て音声認識の音響特性モデルはメルケプストラムのパラメータを用いるものとした力それ以外の音声認識方式でも良い。その際、音源波形はメルケプストラムの逆フィルタを用 V、て求めるものとしても、それ以外の方法で求めるものとしても良!、。

[0136] なお、実施の形態 1およびその変形例、実施の形態 2、実施の形態 3にお、て、特徴的音色として音源の周波数揺らぎと音源の高域成分の揺らぎとを、「力み」と「かすれ」として検出するものとしたが、音源の振幅揺らぎ等、「日本音響学会誌 51卷 11号 (1995) , pp869-875 粕谷英榭 '楊長盛 "音源力も見た声質"」に列挙されている裏声や緊張した声等、「力み」と「かすれ」以外の特徴的音色を検出するものとしても良い。

[0137] なお、実施の形態 1およびその変形例、実施の形態 2、実施の形態 3において基本周波数と音源パワーの抽出とを、ステップ S 1009すなわち特徴的音色発生指標計算部 111でアクセント句境界とアクセント位置を決定する直前で行うものとした力ステツプ S1003で逆フィルタ 102が音源波形を生成した後で、且つステップ S1010で特徴的音色発生指標計算部 111がアクセント句境界とアクセント位置を決定する以前であればどのタイミングで基本周波数と音源パワーを抽出しても良い。

[0138] なお、実施の形態 1およびその変形例、実施の形態 2、実施の形態 3にお、て特徴的音色発生指標計算部 111は統計的学習手法として数量化 Π類を用い、説明変数には子音、母音、アクセント句中の位置、アクセント核からの相対位置を用いるものとしたが、統計的学習手法はこれ以外の方法でも良ぐ説明変数も前記の属性のみでなぐ基本周波数やパワーとそのパターン音韻の時間長等の連続量を用いて特徴的音色発生指標を計算するものとしても良い。

[0139] なお、実施の形態 1およびその変形例、実施の形態 2、実施の形態 3にお、て、入力音声はマイクロホン 1より入力されるものとした力あら力じめ録音、記録された音声あるいは装置外部より入力される音声信号であっても良、。

[0140] なお、実施の形態 1およびその変形例、実施の形態 2、実施の形態 3にお、て、認識した感情の種類と強度を表示部 116で表示するものとしたが、記憶装置へ記録する、あるいは装置外部へ出力するものとしても良い。

産業上の利用可能性

[0141] 本発明にかかる音声による感情認識装置は、発声器官の緊張や弛緩、あるいは感情、あるいは表情、あるいは発話スタイルによって音声のところどころに出現する特徴的な音色の音声を検出することで入力音声の話者の感情あるいは態度を認識するものであり、ロボット等の音声'対話インタフェース等として有用である。またコールセンターや、電話交換の自動電話応対システム等の用途にも応用できる。さらには音声通信時に、音声の調子に合わせてキャラクタ画像の動作が変化するような携帯端末のアプリケーションにおいて、音声に現れる感情の変化に合わせてキャラクタ画像の動作や表情を変化させるアプリケーションを搭載した携帯端末等にも応用できる。

Claims

請求の範囲

[1] 入力音声から当該入力音声の発話者の感情を認識する感情認識装置であって、前記入力音声から特定の感情と関連する特徴的音色を検出する特徴的音色検出手段と、

前記特徴的音色手段で検出した特徴的音色に基づいて、前記入力音声に含まれる音韻の種類を認識する音声認識手段と、

前記音声認識手段で認識された音韻の種類に基づ!/ヽて、前記特徴的音色の発声され易さを示す特徴的音色発生指標を音韻ごとに計算する特徴的音色発生指標計算手段と、

前記特徴的音色指標が小さいほど前記感情が強くなる規則に基づいて、前記特徴的音色発生指標計算手段で計算された前記特徴的音色発生指標から前記特徴的音色が発生した音韻における前記入力音声の発話者の感情を判定する感情判定手段とを備える

ことを特徴とする感情認識装置。

[2] さらに、

前記特徴的音色発生指標が小さいほど感情強度が強くなる計算規則に基づいて、前記特徴的音色が発生した音韻における感情強度を判別する感情強度判別手段を備える

ことを特徴とする請求項 1に記載の感情認識装置。

[3] 前記感情強度判別手段は、前記特徴的音色発生指標計算手段で計算された音韻ごとの特徴的音色発生指標と前記特徴的音色検出手段で検出された特徴的音色が発生する時間的音声位置とを比較し、特徴的音色発生指標が小さいほど感情強度が強くなる計算規則に基づいて、前記特徴的音色が発生している音韻における感情強度を判別する

ことを特徴とする請求項 2に記載の感情認識装置。

[4] 前記特徴的音色検出手段は、母音部分の音源に揺らぎのある音声の音色を特徴的音色として検出する

ことを特徴とする請求項 1に記載の感情認識装置。

[5] さらに、

音韻の種類ごとに前記特徴的音色を含む音声の特徴量を記憶して!/、る特徴量データベースを少なくとも含み、

前記音声認識手段は、前記特徴量データベースに基づいて、前記入力音声に含まれる音韻の種類を認識する

ことを特徴とする請求項 1に記載の感情認識装置。

[6] 前記特徴量データベースは、

前記音韻の種類ごとに、少なくとも 1つ以上の前記特徴的音色を含む音声の特徴量を記憶している第 1データベースと、

前記音韻の種類ごとに、前記特徴的音色を含まない音声の特徴量を記憶している第 2データベースとを含み、

前記感情認識装置は、さらに、前記特徴的音色検出手段での検出結果に対応するデータベースを、前記第 1データベースおよび前記第 2データベースの中から選択する選択手段を備え、

前記音声認識手段は、前記選択手段で選択されたデータベースに基づいて、前記入力音声に含まれる音韻の種類を認識する

ことを特徴とする請求項 5に記載の感情認識装置。

[7] さらに、

音韻の種類ごとに音響特徴量を記憶している音響特徴量データベースと、少なくとも読みまたは発音記号を有する単語辞書を表す言語特徴量を含む言語特徴量データベースとを備え、

前記音声認識手段は、前記特徴的音色を検出した単語については、前記音響特徴量データベースに含まれる音響特徴量の重みを小さくし、前記言語特徴量データベースに含まれる言語特徴量の重みを大きくすることにより、前記音響特徴量データベースと前記言語特徴量データベースとに基づいて、前記入力音声に含まれる音韻の種類を認識する

ことを特徴とする請求項 1に記載の感情認識装置。

[8] 入力音声から当該入力音声の発話者の感情を認識する感情認識装置であって、前記入力音声から特定の感情と関連する特徴的音色を検出する特徴的音色検出手段と、

入力音声に含まれる音韻の種類を入力する音韻入力手段と、

少なくとも前記音韻入力手段から入力された音韻の種類をパラメータとして用いて、前記特徴的音色の発声され易さを示す特徴的音色発生指標を音韻ごとに計算する特徴的音色発生指標計算手段と、

前記特徴的音色指標が小さいほど前記感情が強くなる対応規則に基づいて、前記特徴的音色発生指標計算手段で計算された前記特徴的音色発生指標から前記特徴的音色が発生した音韻における前記入力音声の発話者の感情を判定する感情判定手段とを備える

ことを特徴とする感情認識装置。

[9] 入力音声から当該入力音声の発話者の感情を認識する感情認識装置であって、入力音声に含まれる音韻の種類を認識する音声認識手段と、

前記入力音声力母音部分の音源に振幅揺らぎあるいは周波数揺らぎのある力み音声部分を抽出する特徴的音色検出手段と、

前記音声認識手段で認識された音韻ごとに、前記特徴的音色検出手段で検出された音声部分が、口唇によって構音される無声破裂音、歯によって構音される無声破擦音、口唇と歯とによって構音される無声摩擦音を少なくとも一つ含む音韻である場合に、前記入力音声の発話者の感情が強!、怒りであると判定する感情判定手段とを備える

ことを特徴とする感情認識装置。

[10] 入力音声力当該入力音声の発話者の感情を認識する感情認識方法であって、前記入力音声から特定の感情と関連する特徴的音色を検出する特徴的音色検出ステップと、

前記特徴的音色検出ステップで検出した特徴的音色に基づいて、前記入力音声に含まれる音韻の種類を認識する音声認識ステップと、

前記音声認識ステップで認識された音韻の種類に基づ!、て、前記特徴的音色の発声され易さを示す特徴的音色発生指標を音韻ごとに計算する特徴的音色発生指標計算ステップと、

前記特徴的音色指標が小さいほど前記感情が強くなる規則に基づいて、前記特徴的音色発生指標計算ステップで計算された前記特徴的音色発生指標から前記特徴的音色が発生した音韻における前記入力音声の発話者の感情を判定する感情判定ステップとを含む

ことを特徴とする感情認識方法。

[11] さらに、

前記特徴的音色発生指標が小さいほど感情強度が強くなる計算規則に基づいて、前記特徴的音色が発生した音韻における感情強度を判別する感情強度判別ステツプを含む

ことを特徴とする請求項 10に記載の感情認識方法。

[12] 入力音声力当該入力音声の発話者の感情を認識するプログラムであって、

前記入力音声から特定の感情と関連する特徴的音色を検出する特徴的音色検出ステップと、

前記特徴的音色指標が小さいほど前記感情が強くなる規則に基づいて、前記特徴的音色発生指標計算ステップで計算された前記特徴的音色発生指標から前記特徴的音色が発生した音韻における前記入力音声の発話者の感情を判定する感情判定ステップとをコンピュータに実行させる

ことを特徴とするプログラム。

[13] さらに、

前記特徴的音色発生指標が小さいほど感情強度が強くなる計算規則に基づいて、前記特徴的音色が発生した音韻における感情強度を判別する感情強度判別ステツプをコンピュータに実行させることを特徴とする請求項 12に記載のプログラム。