WO2005048239A1

WO2005048239A1 - 音声認識装置

Info

Publication number: WO2005048239A1
Application number: PCT/JP2004/016883
Authority: WO
Inventors: Kazuhiro Nakadai; Hiroshi Tsujino; Hiroshi Okuno; Shunichi Yamamoto
Original assignee: Honda Motor Co., Ltd.
Priority date: 2003-11-12
Filing date: 2004-11-12
Publication date: 2005-05-26
Also published as: JP4516527B2; JPWO2005048239A1; DE602004021716D1; EP1691344A1; US20090018828A1; EP1691344A4; EP1691344B1

Abstract

　話者や、音声認識装置を搭載した移動体が移動しても高い精度で認識可能な音声認識装置を提供する。複数のマイクＭが検出した音響信号から、特定の話者ＨＭｊの音声を認識して文字情報に変換する音声認識装置である。複数のマイクＭが検出した音響信号に基づき、話者ＨＭｊの音源方向θHMjを特定する音源定位部１０と、音源方向θHMjに基づき、話者ＨＭｊの音声信号を音響信号から分離する音源分離部２０と、断続的な複数の方向に対応した方向依存音響モデルＨ(θn)を記憶した音響モデル記憶部４９と、音源方向θHMjの音響モデルを、音響モデル記憶部４９の方向依存音響モデルＨ(θn)に基づいて求め、音響モデル記憶部４９へ記憶させる音響モデル合成部４０と、音響モデル合成部４０が合成した音響モデルを使用して、音源分離部２０が分離した音声信号の音声認識を行い、文字情報に変換する音声認識部５０とを備える。

Description

明細書

音声認識装置

技術分野

[0001] 本発明は、音声認識装置に関し、詳しくは、話者や、音声認識装置を備えた移動体が移動しても高い精度で音声を認識可能な音声認識装置に関する。

背景技術

[0002] 近年、音声認識技術は、実用化の域に入ってきており、情報の音声入力などに利用され始めている。一方、ロボットの研究開発も盛んとなっており、音声認識技術は、ロボットを実用化するための一つのキー技術ともなつている。すなわち、ロボットと人間との知的なソーシャルインタラクションを行うためには、人間の言葉をロボットが理解する必要があるため、音声認識の精度が重要となっている。

[0003] ところが、実際に人とのコミュニケーションを行うためには、実験室において口元に設置したマイクで音声を入力して行う音声認識とは異なるいくつかの問題がある。例えば、実際の環境には様々な雑音があり、雑音の中から必要な音声信号を抽出しなければ音声認識をすることができない。また、話者が複数存在する場合にも、同様に認識の対象とする話者の音声のみを抽出する必要がある。また、音声認識においては、一般に隠れマルコフモデル（HMM : Hidden Markov Model)というモデルを利用して内容を特定するが、話者の位置 (音響認識装置のマイクを基準とした方向）が異なると、話者の声の聞こえ方も異なることから、認識率に影響を及ぼすという問題がある。

[0004] このようなことから、本発明者を含む研究グループでは、アクティブオーディションにより複数の音源の定位'分離'認識を行う技術を発表している (非特許文献 1参照)。この技術は、人間の耳に相当する位置に 2つのマイクを配置し、複数の話者が同時に発話した場合に、一人の発した単語を認識する技術である。詳しくは、 2つのマイクカゝら入力された音響信号から、話者の位置を定位し、各話者の音声を分離した上で、音声認識する。この認識の際、移動体 (音声認識装置を備えたロボット等)から見て —90° 力 90° まで 10° おきの方向に対する各話者の音響モデルを予め作成しておく。そして、音声の認識時には、それらの音響モデルを用いて並列に認識プロセスを実行する。

非特 S干文献 1： A Humanoid Listens to three simultaneous talkers by Integrating Active Audition and Face Recognition" Kazuhiro Nakadai, et al.， IJCAI— 03

Workshop on Issues in Designing Physical Agents for Dynamic Real-Time

Environments: World Modeling, Planning, Learning and Communicating, PP117-124 発明の開示

[0005] し力しながら、前記した従来技術では、話者や移動体が移動する場合には、その都度移動体に対する話者の位置が変化するため、予め用意された音響モデルの方向と異なる方向に話者が位置すると、認識率が低下するという問題があった。

本発明は、このような背景に鑑みてなされたもので、話者や、移動体が移動しても高い精度で認識可能な音声認識装置を提供することを課題とする。

[0006] 前記課題を解決するため、本発明の音声認識装置は、複数のマイクが検出した音響信号から、音声を認識して文字情報に変換する音声認識装置であって、前記複数のマイクが検出した音響信号に基づき、前記特定の話者の音源方向を特定する音源定位部と、前記複数のマイクが検出した 1つ以上の音響信号に基づき、その音響信号に含まれる音声信号の特徴を抽出する特徴抽出部と、断続的な複数の方向に対応した方向依存音響モデルを記憶した音響モデル記憶部と、前記音源定位部が特定した音源方向の音響モデルを、前記音響モデル記憶部の方向依存音響モデルに基づいて合成し、前記音響モデル記憶部へ記憶させる音響モデル合成部と、前記音響モデル合成部が合成した音響モデルを使用して、前記特徴抽出部が抽出した特徴について音声認識を行い、文字情報に変換する音声認識部と、を備えるように構成した。

[0007] このような音声認識装置によれば、音源定位部が音源方向を特定し、音響モデル合成部は、音源方向と、方向依存音響モデルとに基づき、その方向に適した音響モデルを合成し、音声認識部がこの音響モデルを使用して音声認識を行う。

[0008] また、前記した音声認識装置にお!、ては、音源定位部が特定した音源方向に基づき、前記特定の話者の音声信号を前記音響信号から分離する音源分離部を備え、音源分離部が分離した音声信号に基づき、特徴抽出部が音声信号の特徴を抽出するように構成してちょい。

[0009] このような音声認識装置によれば、音源定位部が音源方向を特定し、音源分離部は、音源定位部が特定した音源方向の音声のみを分離する。そして、音響モデル合成部は、音源方向と、方向依存音響モデルとに基づき、その方向に適した音響モデルを合成し、音声認識部がこの音響モデルを使用して音声認識を行う。

なお、音源分離部が出力する音声信号というのは、音声としての意味を持つ情報であればよぐ音声のアナログ信号そのものに限らず、デジタル化、符号化した信号や、周波数分析したスペクトルのデータを含む。

[0010] また、前記した音声認識装置では、前記音源定位部は、前記マイクが検出した音響信号を周波数分析した後、調波構造を抽出し、複数のマイクから抽出された調波構造の音圧差と位相差とを求め、この音圧差と位相差のそれぞれから音源方向の確力もしさを求め、最も確力もしい方向を音源方向と判断するよう構成することができる

[0011] また、前記音源定位部は、前記複数のマイクから検出された音響信号の音圧差と位相差を用いて前記特定の話者の音源方向を特定するために、ロボットの頭部などの前記マイクが設けられる部材の表面で散乱する音響信号を音源方向ごとにモデル化した散乱理論を用いることができる。

[0012] さらに、前記した音声認識装置では、前記音源分離部は、前記音源定位部が特定した音源方向が、前記複数のマイクの配置により決定される正面に近い場合には、狭い方向帯域の音声を分離し、正面力離れると広い方向帯域の音声を分離するァクティブ方向通過型フィルタを用いて音声分離を行うよう構成されるのが好まし、。

[0013] また、前記した音声認識装置では、前記音響モデル合成部は、前記音響モデル記憶部の方向依存音響モデルの重み付き線形和により前記音源方向の音響モデルを合成するよう構成され、前記線形和に使用する重みが、学習により決定されるのが好ましい。

[0014] また、前記した音声認識装置では、前記話者を特定する話者同定部をさらに備え、前記音響モデル記憶部は、前記話者ごとに方向依存音響モデルを有し、前記音響モデル合成部は、前記話者同定部が特定した話者の方向依存音響モデルと、前記音源定位部が特定した音源方向とに基づき、前記音源方向の音響モデルを前記音響モデル記憶部の方向依存音響モデルに基づ、て求め、前記音響モデル記憶部へ記憶させるよう構成されるのが好ましい。

[0015] また、前記特徴抽出部で抽出された特徴、または前記音源分離部が分離した音声信号について、予め用意した雛形と比較し、前記雛形との違いが予め設定した閾値より大きい領域、例えば周波数領域や、サブバンドを同定し、同定された領域については、その特徴としての信頼性が低いことを示す指標を前記音声認識部へ出力するマスキング言をさらに備えるのが望ましい。

[0016] そして、本発明の他の音声認識装置は、複数のマイクが検出した音響信号から、特定の話者の音声を認識して文字情報に変換する音声認識装置であって、前記複数のマイクが検出した音響信号に基づき、前記特定の話者の音源方向を特定する音源定位部と、前記音源定位部が特定した音源方向を記憶して前記特定の話者の移動している方向を推定し、その推定された方向から、現在の話者の位置を推定するストリーム追跡部と、前記ストリーム追跡部が推定した現在の話者の位置力定まる音源方向に基づき、前記特定の話者の音声信号を前記音響信号から分離する音源分離部と、前記音源分離部が分離した音声信号の特徴を抽出する特徴抽出部と、断続的な複数の方向に対応した方向依存音響モデルを記憶した音響モデル記憶部と、前記音源定位部が特定した音源方向の音響モデルを、前記音響モデル記憶部の方向依存音響モデルに基づ、て合成し、前記音響モデル記憶部へ記憶させる音響モデル合成部と、前記音響モデル合成部が合成した音響モデルを使用して、前記特徴抽出部が抽出した特徴について音声認識を行い、文字情報に変換する音声認識部と、を備えて構成することができる。

[0017] このような音声認識装置によれば、任意の方向から発された音響信号の音源方向を特定し、その音源方向に適した音響モデルを使用して音声認識をするので、音声認識率を向上することができる

図面の簡単な説明

[0018] [図 1]本発明の実施形態に係る音声認識装置のブロック図である。 [図 2]音源定位部の一例を示すブロック図である。

圆 3]音源定位部の動作を説明する図である。

圆 4]音源定位部の動作を説明する図である。

圆 5]聴覚ェピポーラ幾何を説明する図である。

[図 6]位相差 Δ φと周波数 fの関係を示すグラフである。

[図 7]頭部伝達関数の一例を示すグラフである。

[図 8]音源分離部の一例を示すブロック図である。

[図 9]通過帯域関数の一例を示すグラフである。

圆 10]サブバンド選択部の動作を説明する図である。

[図 11]通過帯域の一例を図示した平面図である。

[図 12] (a)および (b)は、ともに特徴抽出部の一例を示すブロック図である。

[図 13]音響モデル合成部の一例を示すブロック図である。

[図 14]方向依存音響モデルの認識単位とサブモデルを示した図である。

圆 15]パラメータ合成部の動作を説明する図である。

[図 16] (a)および (b)は、ともに重み Wの一例を示すグラフである。

[図 17]重み Wの学習方法を説明する図である。

圆 18]第 2実施形態に係る音声認識装置のブロック図である。

圆 19]音響の入力距離差を示す図である。

圆 20]第 3実施形態に係る音声認識装置のブロック図である。

[図 21]ストリーム追跡部のブロック図である。

[図 22]音源方向の履歴を図示したグラフである。

発明を実施するための最良の形態

[第 1実施形態]

次に、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。図 1は、本発明の実施形態に係る音声認識装置のブロック図である。

図 1に示すように、実施形態に係る音声認識装置 1は、 2つのマイク M , Mと、マイ

R しク M , Mが検出した音響信号から、話者 (音源)の位置を特定する音源定位部 10と

R し

、音源定位部 10が特定した音源方向及び音源定位部 10で求めたスペクトルに基づいて、特定の方向の音源から来る音響を分離する音源分離部 20と、複数の方向にっ、ての音響モデルを記憶した音響モデル記憶部 49と、音響モデル記憶部 49内の音響モデル及び音源定位部 10が特定した音源方向に基づいて、その音源方向の音響モデルを合成する音響モデル合成部 40と、音源分離部 20が分離した特定音源のスペクトルカゝら音響の特徴を抽出する特徴抽出部 30と、音響モデル合成部 40 が合成した音響モデルと、特徴抽出部 30が抽出した音響の特徴に基づき音声認識を行う音声認識部 50とを備える。これらのうち、音源分離部 20は、任意的に用いられる。

本発明では、音響モデル合成部 40が生成した、音源の方向に適した音響モデルを利用して音声認識部 50が音声認識を行うため、高い認識率が実現される。

[0020] 次に、実施形態に係る音声認識装置 1の構成要素であるマイク M , M、音源定位

R し部 10、音源分離部 20、特徴抽出部 30、音響モデル合成部 40、及び音声認識部 50 につ、てそれぞれ説明する。

[0021] 《マイク M , M》

R L

マイク M , M

R しは、音を検出して電気信号 (音響信号)として出力する一般的なマイクである。本実施形態では、 2つとしている力複数であれば幾つでもよぐ例えば 3 つ、 4つを使用しても構わない。マイク M , Mは、例えば、移動体であるロボット RB

R し

の両耳の部分に設けられる。

マイク M , Mの配置は、音響信号を集音するための一般的な音声認識装置 1の

R し

正面を決定する。すなわち、マイク M , Mの集音方向のベクトルの和の方向が音声

R し

認識装置 1の正面となる。図 1に示すように、ロボット RBの頭の左右両脇にマイク M

R

, M力^つずつ設けられていれば、ロボット RBの正面が音声認識装置 1の正面となし

る。

[0022] 《音源定位部 10》

図 2は、音源定位部の一例を示すブロック図であり、図 3及び図 4は、音源定位部の動作を説明する図である。

音源定位部 10は、 2つのマイク M , M力も入力された 2つの音響信号から、各話

R し

者 HMj (図 3では、 HM1, HM2)の音源方向を定位する。音源定位方法は、マイク M , Mに入力された音響信号の位相差を利用する方法、ロボット RBの頭部伝達関

R し

数を用いて推定する方法、右と左のマイク M , M力入力された信号の相互相関を

R し

とる方法などがあり、それぞれ精度を上げるため、種々の改良が加えられている力ここでは、本発明者が改良した手法を例にして説明する。

[0023] 音源定位部 10は、図 2に示すように、周波数分析部 11、ピーク抽出部 12、調波構造抽出部 13、 IPD計算部 14、 IID計算部 15、聴覚ェピポーラ幾何仮説データ 16、確信度計算部 17、及び確信度統合部 18を備える。

これらの各部を、図 3及び図 4を参照しながら説明する。場面として、ロボット RBに対し、 2人の話者 HM1, HM2が同時に話しかける場合で説明する。

[0024] 〈周波数分析部 11〉

周波数分析部 11は、ロボット RBが備える左右のマイク M , Mが検出した左右の

R し

音響信号 CR1, CL1から、微小時間 A tの時間長の信号区間を切り出し、左右のチヤンネルごとに FFT (高速フーリエ変換）により周波数分析を行う。

例えば、右のマイク M力の音響信号 CR1より得られる分析結果がスペクトル CR2

R

であり、左のマイク M力の音響信号 CL1より得られる分析結果がスペクトル CL2で

L

ある。

なお、周波数分析は、バンドパスフィルタなど、他の手法を用いることもできる。

[0025] 〈ピーク抽出部 12〉

ピーク抽出部 12は、スペクトル CR2, CL2から左右のチャンネルごとに一連のピークを抽出する。ピークの抽出は、スペクトルのローカルピークをそのまま抽出するか、スぺクトラルサブトラクシヨン法に基づいた方法（S.F.Boll, A spectral subtraction algorithm for suppression of acoustic noise in speech, Proceedings of 1979

International conference on Acoustics, Speech, and signal Processing (ICA SP- 79) 参照）で行う。後者の方法は、スペクトル力ピークを抽出し、これをスペクトル力減算し、残差スペクトルを生成する。そして、その残差スペクトル力ピークが見つからなくなるまでピーク抽出の処理を繰り返す。

前記スペクトル CR2, CL2に対し、ピークの抽出を行うと、例えばピークスペクトル C R3, CL3のようにピークを構成するサブバンドの信号のみが抽出される。 [0026] 〈調波構造抽出部 13〉

調波構造抽出部 13は、音源が有する調波構造に基づき、左右のチャンネルごと〖こ特定の調波構造を有するピークをグループにする。例えば、人の声であれば、特定の人の声は、基本周波数の音と、基本周波数の倍音とからなるが、人により基本周波数が微妙に異なるので、その周波数の差により、複数の人の声をグループ分けすることができる。調波構造に基づいて同じグループに分けられたピークは、同じ音源から発せられた信号と推定できる。例えば、複数 CF人)の話者が同時に話していれば、複数 CF個）の調波構造が抽出される。

[0027] 図 3においては、ピークスペクトル CR3, CL3の、ピーク PI, P3, P5を一つのグループにして調波構造 CR41, CL41とし、ピーク P2, P4, P6を一つのグループにして調波構造 CR42, CL42として!/ヽる。

[0028] 〈IPD計算部 14〉

IPD計算部 14は、調波構造抽出部 13が抽出した調波構造 CR41, CR42, CL41

, CL42のスペクトルから、 IPD (両耳間位相差)を計算する部分である。

IPD計算部 14は、話者 HMjに対応する調波構造 (例えば、調波構造 CR41)に含まれているピーク周波数の集合を {f

k I k=0. . . K 1 }としたとき、各 f に対応するス

k

ベクトルのサブバンドを、右と左の両チャンネル（例えば、調波構造 CR41と調波構造 CL41)力も選択し、次式（1)により IPD A φ (ί )を計算する。調波構造 CR41と調波

k

構造 CL41から計算した IPD A φ (ί )は、例えば、図 4に示す両耳間位相差 C51のよ

k

うになる。ここで、 Δ φ (f )は、ある調波構造に含まれるある倍音 fの IPDであり、 Kは、

k k

その調波構造に含まれる倍音の数を示す。

[0029] [数 1]

但し、

： f_kの I P D (両耳間位相差）

3 (f_k)] 右の入力信号のピーク f_kのスぺクトル虚部

f_k)] ：右の入力信号のピーク f_kのスぺクトル実部

3 (f_k)] 左の入力信号のピーク f_kのスぺクトル虚部

, ( )] 左の入力信号のピーク f_kのスぺクトル実部 [0030] 〈IID計算部 15〉

IID計算部 15は、各調波構造にある各倍音について、左のマイク Mから入力されし

た音の音圧と、右のマイク M力入力された音の音圧との差 (両耳間音圧差)を計算

R

する部分である。

IID計算部 15は、話者 HMjに対応する調波構造 (例えば、調波構造 CR41, CL4 1)に含まれているピーク周波数 fの倍音に対応するスペクトルのサブバンドを、右と k

左の両チャンネル (例えば、調波構造 CR41と調波構造 CL41)から選択し、次式（2) により IIDA (f)を計算する。調波構造 CR41と調波構造 CL41から計算した IIDA k

P (f )は、例えば図 4に示す両耳間音圧差 C61のようになる。

k

[0031] [数 2]

Ap(f_k)-^(f_k)-^(f_k) · · · (2)

但し、

Δ (f_k) ： f_kの I I D (両耳間音圧差）

P_r(i_k) ：右の入力信号のピークのパワー

p,(i_k) ：左の入力信号のピーク f_kのパヮ一

ΡΛ ) = 101og₁₀ (3 [ (f_k )f + [S_r (f_k)]²)

Pi (f _k ) = 10 log,。 (^[S, (f_k)]²+ S, (f_k)]² )

[0032] 〈聴覚ェピポーラ幾何仮説データ 16〉

聴覚ェピポーラ幾何仮説データ 16は、図 5に示すように、ロボット RBの頭部を想定した球体を上から見たときに、音源 Sと、ロボット RBの両耳のマイク M , Mとの距離

R L

差力も生じる時間差に基づき想定される位相差のデータである。

聴覚ェピポーラ幾何により、位相差 Δ φは、次式（3)により求められる。ここでは、頭部形状を球と仮定して!/、る。

[0033] [数 3]

_{Α ±} 2πί _/n .

Δ =—— x 6 + sin6) . . . (3)

ν

[0034] ここで、 Δ φは両耳間位相差 (IPD)、 Vは音速、 fは周波数、 rは両耳間の距離 2rから求まる値、 Θは音源方向を示す。

式 (3)により、各音源方向より発せられた音響信号の周波数 fと位相差 Δ φの関係は、図 6のようになる。

[0035] 〈確信度計算部 17〉

確信度計算部 17は、 IPD及び IIDのそれぞれの確信度を計算する。

— IPD確信度—

IPDの確信度は、話者 HMjに対応する調波構造 (例えば、調波構造 CR41, CL4 1)が含んでいる倍音 fがどの方向力も来ているらしいかを Θの関数として求め、これ k

を確率関数にあてはめる。

まず、 f の IPDの仮説 (予想値)を次式 (4)に基づき計算する。

k

[0036] 画

2πί„

Α „(θ,ί_]ί) = ~~ ^xr(0 + sin0) . . . (4)

v

[0037] Δ (Θ ,f )は、ある調波構造内の k番目の倍音 f に対して音源方向が Θの場合の I h k k

PDの仮説（予想値)を示す。 IPDの仮説は、例えば音源方向 Θを、 ±90° の範囲で 5° おきに変化させて計 37個の仮説を計算する。もっとも、より細かい角度ごとに計算しても、より大ま力な角度ごとに計算しても力まわない。

次に、次式（5)により、 Δ ( 0 , f )と Δ φ (f )の差を求め、すべてのピーク f につ h k k k いて合計する。この差は、仮説と入力との距離を表し、 Θが話者のいる方向に近いと小さぐ遠いと大きくなる。

[0038] [数 5]

[0039] 得られた d( θ )を、次式 (6)の確率密度関数に代入し、確信度 Β ( Θ )を得る。

[0040] [数 6]

ここで、 X( 0 ) = (d( θ )— m) / { (s/n) )、 mは、 d( Θ )の平均、 sは d( Θ )の分散であり、 nは IPDの仮説の個数 (本実施形態では 37個）である。

[0041] — IID確信度一 IIDの確信度は、以下のようにして求める。まず、話者 HMjに対応ずる調波構造が含む倍音の音圧差の合計を次式 (7)で計算して求める。

[0042] [数 7]

κ-ι

=∑Δ (f_k ) … （7 ) [0043] ここで、 Kは、その調波構造に含まれる倍音の数を示し、 Δ p (f )は、 IID計算部 15 で求めた IIDである。

次に、表 1を利用して、音源方向の右らしさ、正面らしさ、左らしさを確信度とする。なお、表 1は、実験的に得られた値である。

例えば、表 1を参照して、仮説の音源方位 Θ力 0° で、音圧差 Sが正であれば確信度 B ( Θ )は、左上の欄を参照して 0. 35とする。

IID

[0044] [表 1]

[0045] 〈確信度統合部 18〉

確信度統合部 18は、 Dempster-Shafer理論に基づき、 IPDと IIDの確信度 B ( Θ ),

IPD

B ( Θ )を次式 (8)によって統合し、統合確信度 B ( Θ )を計算する。そして、統合

IID IPD+IID

確信度 B ( Θ )が最も大きくなる音源方向 Θを、話者 HMjのいる方向とし、以下 Θ

IPD+IID

HMjとする。

[0046] [数 8]

B_IPD (Θ) = 1 - (1 - B_1PD (θ)Χΐ - B_IID (θ )) · · · ( 8 )

[0047] 以上のような聴覚ェピポーラ幾何を使用した仮説に代えて、頭部伝達関数を用いた仮説データ、又は散乱理論に基づく仮説データを用いることもできる。

(頭部伝達関数仮説データ）

頭部伝達関数仮説データは、ロボット周囲カゝら発せられたインパルスより得られる、マイク Μとマイク Μで検出した音の位相差及び音圧差である。

R し

頭部伝達関数仮説データは、— 90° 力 90° の間の適当な間隔 (例えば 5° )の方向から発したインパルスを、マイク M , Mで検出し、それぞれを周波数分析して周

R し

波数 fに対する位相応答及び振幅応答を求め、その差を計算することによって得られる。

得られた頭部伝達関数仮説データは、図 7 (a)の IPD及び (b)の IIDのようになる。頭部伝達関数を用いる場合には、 IPDだけではなぐ IIDについてもある音源方向力も来た音の周波数と IIDの関係が求められるので、 IPDと IIDの両方について距離データ d( Θ )を作ってから確信度を求める。仮説データの作成方法は、 IPDと IIDで変わりはない。

聴覚ェピポーラ幾何を利用した仮説データの作成方法と異なり、計算ではなく計測で、各音源方向で発せられた信号に対する周波数 fと IPDの関係を求める。すなわち、図 7 (a) , (b)にある実測値から、それぞれの仮説と入力との距離である d( Θ )を直接計算する。

(散乱理論に基づく仮説データ）

散乱理論は、音を散乱する物体、例えばロボットの頭部による散乱波を考慮して、 I PD、 IIDの双方を計算的に推定する理論である。ここでは、音を散乱する物体の内、マイクの入力に主に影響を与える物体はロボットの頭部であると仮定し、これを半径 a の球と仮定する。また頭部の中心の座標を極座標の原点とする。

点音源の位置を r、観測点を rとすると、観測点における直接音によるポテンシャル

0

は、次式（9)によって定義される。

[数 9]

. V '

V = e ( 9 )

2^R f ^k '

但し、

f :点音源の周波数

V：音速

R:点音源と観測点の距離

また、観測点 rを頭部表面とすると、直接音と散乱音によるポテンシャルは、

J.J.Bowman, T.B.A. Senior, and P.L.E. Uslenghi: Electromagnetic and Acoustic Scattering by Simple Shapes. Hemisphere Publishing Co., 1987.などにれているように、次式（10)で定義される。

[数 10]

∑(2" +1)尸„ (10)

2ττ f

但し、

V^s:散乱音によるポテンシャル

P：第一種 Legendre関数

h⁽¹⁾:第一種球ハンケル関数

Mの極座標を（a, π/2, 0)、 Μの極座標を（a,—π/2, 0)とすると、それぞれ

R L

におけるポテンシャルは、次式（11)、（12)で表される。

[数 11]

π

s_L(e,i) = s(~-e,i) (1 1)

2

[数 12] π

S_R(6,i) = S(-^-e,i) (1 2) 従って、散乱理論に基づく位相差 IPDA φ (0 ,f)と音圧差 IIDA p (Θ ,f)は、それ

S S

ぞれ次式（13)、（14)により求められる。

[数 13]

Δ ₅(θ,ί) = arg(S, (Θ, f )) - arg(¾ (Θ, f )) (1 3)

[数 14] 厶 (14)

そして、前記 (4)式の Δ φ (0 ,f)を前記（13)式の IPDA φ (0 ,f)に置き換え、前記した聴覚ェピポーラ幾何を用いた場合と同じ手順で B ( Θ )を求める。

IPD

すなわち、 Δ φ ( Θ , f )と Δ φ (f )の差を求め、すべてのピーク f について合計し

s k k k

て d( θ )を求め、得られた d( θ )を、前記式 (6)の確率密度関数に代入し、確信度 Β (

IPD

Θ )を得る。

[0050] IIDも IPDと同じ方法で d( 0 )と B ( Θ )を計算する。具体的には、 Δ φを Δ pとし、

IID

前記 (4)式の Δ φ ( Θ ,f )を前記（14)式の IPD A p ( Θ ,f )でに置き換える。そして、

h k S k

Δ p ( θ， f )と Δ p (f )の差を求め、すべてのピーク f について合計して d( 0 )を求

S k k k

め、得られた d( θ )を、前記式 (6)の確率密度関数に代入し、確信度 Β ( Θ )を得る。

IID

[0051] このように散乱理論に基づいて音源方向を推定すると、ロボットの頭部の表面に沿つて散乱する音声、例えば後頭部を回り込む音の影響を考慮して、音源方向と位相差、および音源方向と音圧差の関係をモデル化できるので、音源方向の推定精度が向上する。特に、音源が側方にある場合は、後頭部を回り込んで音源と反対方向にあるマイクに到達する音のパワーは比較的大きいため、散乱理論を用いることによつて音源方向の推定精度が向上する。

[0052] 《音源分離部 20》

音源分離部 20は、音源定位部 10により定位された各音源方向の情報、並びに音源定位部で計算したスペクトル (例えばスペクトル CR2)により、各話者 HMjの音響（音声)信号を分離する部分である。音源分離方法には、ビームフォーミング、ナルフォーミング、ピーク追跡、指向性マイク、 ICA (Independent Component Analysis :独立成分分析)など、従来力ある手法を用いることができるが、ここでは、本発明者が開発したアクティブ方向通過型フィルタによる方法について説明する。

音源方向の情報を利用して音源を分離する場合、音源の方向がロボット RBの正面から離れるにつれ、 2本のマイクを用いて推定した音源方向情報の精度を期待できなくなる。そこで、本実施形態では、正面方向の音源については通過させる方向の範囲を狭ぐ正面力離れた音源では広くとるように通過帯域をアクティブに制御して、音源の分離精度を向上させる。

[0053] 具体的には、音源分離部 20は、図 8に示すように、通過帯域関数 21と、サブバンド選択部 22とを有する。 [0054] 〈通過帯域関数 21〉

通過帯域関数 21は、図 9に示したように、音源方向と通過帯域幅の関数で、音源方向が、正面 (0° )から離れるにつれ、方向情報の精度を期待できなくなることから、音源方向が正面力離れるほど通過帯域幅が大きくなるように予め設定した関数である。

[0055] 〈サブバンド選択部 22〉

サブバンド選択部 22は、スペクトル CR2, CL2の各周波数の値（これを「サブバンド」という）から、特定の方向から来たと推測されるサブバンドを選択する部分である。サブバンド選択部 22では、図 10に示すように、音源定位部 10で生成した左右の入力音のスペクトル CR2, CL2力ら、各スペクトルのサブバンドについて、前記式（1)、 (2)に従い、 IPD A _< ) ( 及び110厶 _/0 を計算する（図10の両耳間位相差じ52,両耳間音圧差 C62参照)。

そして、音源定位部 10で得られた Θ を抽出すべき音源方向とし、通過帯域関数

H j

21を参照して、 Θ に対応する通過帯域幅 δ ( Θ )を取得する。取得した通過帯域

HMj HMj

幅 δ ( 0 )を用いて、通過帯域の最大値 Θ と最小値 Θを次式（15)により求める。

HMj h 1

通過帯域 Bは、方向として平面図で図示すると、例えば図 11のようになる。

[0056] [数 15]

[0057] 次に、 Θと Θ に対応する IPDと IIDを推定する。これらの推定には、予め計測、又

1 h

は計算した伝達関数を利用する。伝達関数は、音源方向 Θ力来る信号に対して周波数 fと IPD、 IIDをそれぞれ関係づけている関数で、前記したェピポーラ幾何や、頭部伝達関数、散乱理論などを用いる。推定した IPDは、例えば図 10の両耳間位相差 C53における Δ φ (f) , Δ (f)であり、推定した IIDは、例えば図 10の両耳間音圧

1 h

差 C63における (f)， Δ p (f)である。

1 h

[0058] 次に、音源方向 Θ に対して、ロボット RBの伝達関数を利用して、スペクトル CR2

HMj

または CL2の周波数 fに応じ、周波数 fが所定の閾値周波数 f より小さければ IPDに i i th

よりサブバンドを選択し、大きければ IIDによりサブバンドを選択する。すなわち、以下の条件式（16)を満たすサブバンドを選択する。

[0059] [数 16] f iぐ f _{t h}： Δ φ！ ( f ≤Δ ψ ( f ≤厶《i> _h ( f i ) Ί

· · · ( 1 6 ) f i≥ f _{t h} : Δ _P , ( f i ) ≤Δ p ( f J ≤Δ p _h ( f J J

[0060] ここで、 f は、フィルタリングの判断基準に IPDと IIDのどちらを用いるかを決める閾

th

値周波数である。

この条件式によれば、例えば、図 10の両耳間位相差 C53においては、周波数 f よ

th り低い周波数で、 IPDが Δ φ (f)と Δ φ (f)の間にある周波数 fのサブバンド (斜線部

1 h i

)が選択される。一方、図 10の両耳間音圧差 C63においては、周波数 f より高い周

th

波数で、 IIDが (f)と (f)の間にあるサブバンド (斜線部）が選択される。この

1 h

選択されたサブバンドからなるスペクトルを本明細書にぉ、て「選択スペクトル」と、う

[0061] 以上、本実施形態の音源分離部 20について説明したが、音源分離の方法には、この他に指向性マイクを利用した方法がある。即ち、指向性が狭いマイクをロボット RB に設けておき、音源定位部 10で得られた音源方向 Θ の方向に指向性マイクを向闺

けるよう、顔の向きを変えれば、その方向から来る音声だけを取得することができる。この指向性マイクによる方法の場合、 1つの指向性マイクしかない場合には、 1人の音声しか取得できないという問題もあるが、複数の指向性マイクを所定角度おきに設けておき、音源方向の指向性マイクからの音声信号を利用するようにすれば、複数人の音声の同時取得も可能である。

[0062] 《特徴抽出部 30》

特徴抽出部 30は、音源分離部 20で分離された音声スペクトルあるいは分離をしないスペクトル CR2 (または CL2) (以下、音声認識に使用する場合に「認識用スぺタトル」という）から音声認識に必要な特徴を抽出する部分である。音声の特徴としては、音声を周波数分析した線形スペクトルや、メル周波数スペクトル、メル周波数ケプストラム係数（MFCC : Me卜 Frequency Cepstrum Coefficient)を用いることができる。本実施形態では、 MFCCを用いる場合で説明する。なお、線形スペクトルを特徴として用いる場合は、特徴抽出部 30は、特に処理を行わない。また、メル周波数スペクトルを用いる場合は、コサイン変換 (後述)を行わない。

[0063] 特徴抽出部 30は、図 12 (a)に示すように、対数変換部 31、メル周波数変換部 32、及びコサイン変換部 33を有する。

対数変換部 31は、サブバンド選択部 22 (図 8参照）が選択した認識用スペクトルの振幅を対数に変換して、対数スペクトルを得る。

メル周波数変換部 32は、対数変換部 31が生成した対数スペクトルを、メル周波数のバンドパスフィルタに通し、周波数力 Sメルスケールに変換されたメル周波数対数スベクトルを得る。

コサイン変換部 33は、メル周波数変換部 32が生成したメル周波数対数スペクトルをコサイン変換する。このコサイン変換により得られた係数が MFCCとなる。

[0064] また、雑音などによって入力音声が変形している場合は、そのスペクトルサブバンドを特徴として信用しないよう、図 12 (b)に示すように指標 (0力 1)を付与するマスキング部 34を、特徴抽出部 30の中または後に任意的に追加してもよい。

図 12 (b)の例について具体的に説明すると、特徴抽出部 30が任意的にマスキング部 34を含む場合、単語辞書 59は、単語に対応してその単語の時系列スペクトルを有する。ここでは、この時系列スペクトルを「単語音声スペクトル」とする。

単語音声スペクトルは、雑音がなヽ環境下で単語を発声した音声を周波数分析して得られる。特徴抽出部 30に認識用スペクトルが入力されると、入力音声に含まれていると推測された単語の単語音声スペクトルが想定音声スペクトルとして単語辞書から選別される。ここでは、認識用スペクトルと時間長が最も近いものを想定音声スぺクトルとして推測する。認識用スペクトルと想定音声スペクトルは、それぞれ対数変換部 31、メル周波数変換部 32、コサイン変換部 33を経て MFCCに変換される。以下、認識用スペクトルの MFCCを「認識用 MFCC」、想定音声スペクトルの MFCCを「想定 MFCCJとする。

マスキング部 34は、認識用 MFCCと想定 MFCCの差を求め、予め想定した閾値より大きい場合は 0を、小さい場合は 1を、 MFCCの特徴量ベクトルの各特徴ごとに付与する。これを指標 ωとして認識用 MFCCと合わせて音声認識部 50に出力する。想定音声スペクトルを選別する際、 1つだけではなぐ複数選別してもよい。また、選別せずに全ての単語音声スペクトルを用いてもよい。その場合には、すべての想定音声スペクトルについて指標 ωを求め、音声認識部 50に出力する。

[0065] なお、指向性マイクを用いて音源分離を行う場合には、指向性マイクカゝら得られた分離音声に対し、 FFTやバンドパスフィルタなどの一般的な周波数分析手法を用いてスペクトルを得る。

[0066] 《音響モデル合成部 40》

音響モデル合成部 40は、音響モデル記憶部 49に記憶された方向依存音響モデルから、定位された各音源方位に応じた音響モデルを合成する部分である。

音響モデル合成部 40は、図 13に示すように、コサイン逆変換部 41、線形変換部 4 2、指数変換部 43、パラメータ合成部 44、対数変換部 45、メル周波数変換部 46、及びコサイン変換部 47を有し、音響モデル記憶部 49に記憶された方向依存音響モデル Θ )を参照して Θ方向の音響モデルを合成する。

[0067] 〈音響モデル記憶部 49〉

音響モデル記憶部 49には、ロボット RBの正面を基準とした方向 Θ ごとに、方向 Θ に適した音響モデルである方向依存音響モデル Η( θ )が記憶されている。方向依存音響モデル Η( θ )は、特定の方向 0 力発せられた人物の音声の特徴を、隠れマルコフモデル (ΗΜΜ)で学習させたものである。各方向依存音響モデル Η( θ )は、図 14に示すように、例えば音素を認識単位とし、音素ごとに対応するサブモデル h( m, θ )を記憶している。なお、サブモデルは、モノフォン、 PTM、バイフオン、トライフオンなど他の認識単位で作成してもよ、。

サブモデル h(m, Θ )の数は、例えば方向 0 〖こついて 90° — 90° まで 30° おきに 7個のモデルを持ち、サブモデルを 40個のモノフォンで構成しているとすれば、合計 7 X 40 = 280個となる。

サブモデル h(m, Θ )は、状態数、各状態の確率密度分布、状態遷移確率の各パラメータを有している。本実施形態では、各音素の状態数は、前部 (状態 1)、中間部 (状態 2)、後部（状態 3)の 3つに固定している。また、本実施形態では、確率密度分布は、正規分布に固定するが、確率密度分布は、正規分布または他の分布の 1っ以上の混合分布であってもよい。したがって、本実施形態では、状態遷移確率 Pと、正規分布のパラメータ、つまり平均及び標準偏差 σを学習させる。

[0068] サブモデル h(m, Θ )の学習データは次のようにして作成する。

ロボット RBに対し、音響モデルを作成したい方向から、特定の音素からなる音声信号を図示しないスピーカにより発する。そして、検出した音響信号を特徴抽出部 30により MFCCに変換し、後述する音声認識部 50で音声認識させる。すると、認識した音声が、音素ごとにどのくらいの確率であるかが結果として得られる力この結果に対し、特定の方向の特定の音素であるという教師信号を与えることで音響モデルを適応学習させる。そして、サブモデルを学習するのに十分な種類 (例えば、異なる話者)の音素や単語を学習させる。

なお、学習用音声を発する際、音響モデルを作成したい方向とは異なる方向から、別の音声をノイズとして発してもよい。この場合は、前記した音源分離部 20により音響モデルを作成した、方向の音響のみを分離した上で、特徴抽出部 30により MFC Cに変換する。また、これらの学習は、音響モデルを不特定話者のモデルとして持たせたい場合には、不特定の話者の声で学習させればよいし、特定話者ごとにモデルを持たせた！/、場合には、特定話者ごとに学習させればょヽ。

[0069] コサイン逆変換部 41から指数変換部 43は、確率密度分布の MFCCを線形スぺクトルに戻す。つまり、確率密度分布について、特徴抽出部 30と逆の操作をする。

[0070] 〈コサイン逆変換部 41〉

コサイン逆変換部 41は、音響モデル記憶部 49が記憶している方向依存音響モデル11( Θ )が有する MFCCについてコサイン逆変換してメル対数スペクトルを生成する。

[0071] 〈線形変換部 42〉

線形変換部 42は、コサイン逆変換部 41により生成されたメル対数スペクトルの周波数を線形周波数に変換し、対数スペクトルを生成する。

[0072] 〈指数変換部 43〉

指数変換部 43は、線形変換部 42により生成された対数スペクトルの強度を指数変換し、線形スペクトルを生成する。線形スペクトルは、平均、標準偏差 σの確率密度分布として得られる。 [0073] 〈パラメータ合成部 44〉

ノラメータ合成部 44は、図 15に示すように、方向依存音響モデル Η( θ _η)にそれぞれ重みをかけた上でそれらの和をとり、音源方向 0 の音響モデル Η( θ )を合成

H j H j する。方向依存音響モデル Η( Θ )にある各サブモデルは、それぞれコサイン逆変換部 41から指数変換部 43により、線形スペクトルの確率密度分布に変換され、それぞれ、平均 , μ , μ ,標準偏差 σ _ , σ , σ ,状態遷移確率 Ρ , Ρ

Ρ , Ρ , Ρ のパラメータを持っている。そして、これらのパラメータを、予め学習

22nm 23nm 33nm

によって求められ、音響モデル記憶部 49に記憶されている重みと内積して、音源方向 Θ の音響モデルを合成する。つまり、ノラメータ合成部 44は、方向依存音響モ

HMj

デル Η( Θ )の線形和により音源方向 Θ の音響モデルを合成している。なお、重み n HMj

w の設定の仕方は後述する。

HMj

[0074] Η( θ )にあるサブモデルを合成する場合には、状態 1の平均を次式（17)

HMj 1 Θ H jm

により求める。

[0075] [数 17]

1 N

^■1 Θ HM j m ^— 2 ^ ri θ HM j η m . · · ( ₇ λ

[0076] 平均 , μ についても同様にして求めることができる。

2 Θ HMjm 3 Θ HMjm

[0077] また、状態 1の標準偏差 σ の合成については、共分散 σ ²を次式（18)

1 Θ HMjm 1 Θ HMjm

により求める。

[数 18]

°1 Θ HM j m 9 HM j^ai n m · · · ( 1 8、

[0078] 標準偏差 σ ， σ についても同様にして求めることができる。

2 Θ HMjm 3 Θ HMjm

得られたと σにより、確率密度分布を求めることができる。

[0079] また、状態 1の状態遷移確率 Ρ の合成については、次式（19)により求める。

11 Θ HMjm

[0080] [数 19] Θ HM j m β HM j P

(1 9)

Θ HM:

[0081] 状態遷移確率 P , P , P , P についても同様にして求めるこ

12 Θ H jm 22 Θ H jm 23 Θ H jm 33 Θ H jm

とがでさる。

[0082] 次に、対数変換部 45からコサイン変換部 47により、確率密度分布を線形スペクトル力も MFCCに変換し直す。すなわち、対数変換部 45は、対数変換部 31と、メル周波数変換部 46は、メル周波数変換部 32と、コサイン変換部 47は、コサイン変換部 33と同様であるので、詳細な説明を省略する。

[0083] なお、単一正規分布ではなぐ混合正規分布の形で合成する場合には、前記した平均、標準偏差 _σの計算に代えて次式 (20)により確率密度分布 f (X)を求め

10 HMjm る。

[0084] [数 20] Θ匪 j m(^X) ⁼ ~Ν -ί Θ HM jfl nm ^) (20)

y w "⁼¹

[0085] 確率密度分布 f (x), f (x)

2 Θ HMjm 3 Θ HMjm についても同様にして求めることができる。

[0086] ノラメータ合成部 44は、このようにして得られた音響モデルを、音響モデル記憶部 49に記憶させる。

なお、このような音響モデルの合成は、音声認識装置 1が作動している間、ノラメ一タ合成部 44がリアルタイムに行う。

[0087] 〈重み W の設定〉

重み W は、音源方向 Θ に対応する音響モデルを合成するときに、各方向依 η Θ闺闺

存音響モデル Η( Θ )に対して設定するもので、 Η( 0 )に含まれるすべてのサブモデル Mm, Θ )に対して用いる重み W を設定してもよいし、あるいは各サブモデ η ηθΗ ί

ル Mm, θ )に対応する重み W を設定してもよい。基本的には、音源が正面に η πιηθ H j

ある場合の重み W を定める関数 f( Θ )をあらカゝじめ設定しておき、音源方向 Θ

ηθθ HMj に対応する音響モデルを合成する際に、 f ( Θ )を 0軸方向に 0 移動（ Θ→ 0— 0

HMj

とする）した関数 f ( Θ )を求め、これを参照して W を設定する。

HMj η Θ HMj [0088] 〈関数 ί( θ )の作成〉

[A] f( 0 )を経験的に求める方法

f ( 0 )を経験的に求める場合は、経験的に得られた定数 aを用いて次式のように表す。

ί( θ )= α θ + α ( θ <0, 0 =— 90° のとき f( 0 )=O)

ϊ( θ ) =-α θ + α ( θ≥0, θ = 90° のとき f( 0 )=O)

ここで、定数 a=l. 0とすれば、音源が正面にある場合の f( Θ )は、図 16 (a)のようになる。また、 f ( Θ )を 0軸方向に Θ 移動したのが図 16(b)である。

H j

[0089] [B] f ( Θ )を学習によって求める方法

f ( Θ )を学習によって求める場合は、例えば次のような学習をする。

音源が正面にあるときの任意の音素 mの重みを W とする。最初に適当な初期値の重みの値の

)で111を含む適当な音素列、例えば音素列 [mm' m〃 ]を認識させる試行を行う。具体的には、正面に設置したスピーカから、前記音素列を発し、これを認識させる。ここで、学習データは、 1つの音素 m自体であってもよいのである力音素が複数つながつた音素列で学習させた方が良い学習結果が得られるため、音素列を使用しているこの時の認識結果が、例えば図 17である。図 17では、初期値の W を用いて合

成した音響モデル Η ( Θ )での認識結果が 1行目であり、 2行目以下の Η ( Θ )が方

0 η 向 0 の方向依存音響モデル Η( θ )を使用したときの認識結果である。例えば、音響モデル Η ( Θ )での認識結果は音素列

90 [/x〃y〃z/]であり、音響モデル H ( Θ )で

0 の認識結果は、音素列 [/ /y/m" ]であったことを示す。

1回目の試行後、まず 1音素目を見て、図 17の正面から 0 =±90° の範囲に一致する音素が認識された場合、その方向に対応するモデルの重み W を Δ d増加さ

せる。 Adは実験的に求め、例えば 0. 05とする。そして、一致する音素が認識されな V、場合、その方向に対応するモデルの重み W を Δ dZ (n-k)減少させる。つまり

、正解を出した方向依存音響モデルの重みは大きくし、正解を出さな力つた方向依存音響モデルの重みは減少させる。例えば、図 17の場合では、 H ( θ )と11 ( θ )がー致しているので、対応する重み

η 90

W と重み W を A d増加させ、それ以外の重みを 2 A dZ (n— 2)減少させる。

mn Θ m90 Θ 0

一方、 1音素目に一致する音素を認識した方向 0 が無い場合、他の方向に対して重みの大きい、優勢な方向依存音響モデル Η ( Θ )があれば、その方向依存音響モデル Η ( θ )の重みを Δ d減少させ、それ以外のモデルの重みを k Δ ά/ (n-k)増加させる。つまり、どの方向依存音響モデル H ( 0 )も認識できな力つたということは、現在の重みの分配が良くな、可能性があるから、現在の重みが優勢な方向にっ、て重みを減少させる。

優勢であるかどうかは、重みが予め定められた閾値 (ここでは 0. 8とする）より大きい力どうかで判断する。優勢な方向依存音響モデル Η ( Θ )がなければ、最大の重みのみを Δ d減少させ、その他の方向依存音響モデル H ( Θ )の重みを Δ ά/ (η-1) 増加させる。

そして、更新された重みを用いて、前記した試行を繰り返す。

そして、音響モデル Η ( Θ )の認識結果が、正解 mとなったときに、繰り返しを終了

90

し、次の音素 m' の認識および学習へ移るか、または学習を終了する。学習を終了した場合、ここで得られた重み W が f ( 0 )となる。次の音素へ移る場合は、すベての音素について学習し、得を平均したものが f ( Θ )となる。

これを平均せず、各サブモデル h(m, Θ )に対応する重み W を f ( 0 )にしても

n mn 0 H j

よい。

なお、所定の回数 (例えば 0. 5/ Δ d回)繰り返しても、音響モデル H ( Θ )の認

HMj 識結果が正解に至らない場合、例えば mの認識がうまくいかな力た場合には、次の音素の学習へ移り、最終的にうまく認識できた音素（例えば）の重みの分布と同じ値で重みを更新する。

また、音響モデルを合成するたびに f ( Θ - Θ )を求めるのではなぐ予め適当な

HMj

Θ につ、て、 H ( 0 )に含まれるすべてのサブモデル h (m, θ ) (表 2参照）が用い

HMj n n

る重を求めた表 3を作成

しておいてもよい。なお、表 2および表 3において、添え字の 1 · · ·πι· · ·Μは音素を表し、 1 · · ·!!· · ·Νは方向を表す。 [表 2]

[表 3]

[0091] このようにして学習して得られた重みは、音響モデル記憶部 49に記憶させる。

[0092] 《音声認識部 50》

音声認識部 50は、音源方向 Θ に対応して合成された音響モデル Η( Θ )を用闺 H j いて、分離された各話者 HMjの音声あるいは入力音声力も抽出した特徴を認識して文字情報とし、単語辞書 59を参照して言葉を認識し、認識結果を出力する。この音声認識の方法は一般的な隠れマルコフモデルを利用した認識方法なので、詳細な説明は省略する。

なお、マスキング部を特徴抽出部 30の中または後に設けて、 MFCCの各サブバンドの信用度を示す指標 ωが付与されている場合には、音声認識部 50は、入力された特徴に次式（21)のような処理を行って力認識する。

[数 21]

= 1 - X

x _n ( i ) = χ ( i ) ω ( i )

音声認識に用いる特徴

M F C C M F C Cの成分

Xのうち信用できない成分そして、得られた出力確率と状態遷移確率を用いて、一般的な隠れマルコフモデルを利用した認識方法と同様に認識を行う。

[0093] 以上のように構成された、音声認識装置 1による動作を説明する。

図 1〖こ示すよう〖こ、ロボット RBのマイク M , Mに、複数の話者 HMj (図 3参照）の音

R L

声が入力される。

そして、マイク M , Mが検出した音響信号の音源方向が音源定位部 10で定位さ

R し

れる。音源定位は、前記したように周波数分析、ピーク抽出、調波構造の抽出、 IPD •IIDの計算の後、聴覚ェピポーラ幾何に基づいた仮説データを利用して確信度を計算する。そして、 IPDと IIDの確信度を統合して最も可能性が高、 Θ を音源方向

HMj

とする（図 2参照)。

[0094] 次に、音源分離部 20で、音源方向 Θ の音を分離する。音源分離は、通過帯域

HMj

関数を利用して、音源方向 Θ の IPD及び IIDのそれぞれの上限値 Δ (f ) , Δ p

HMj h h

(f)及び下限値 Δ φ (ί) , Δ _{P i}(f)を求め、前記式（16)の条件と、この上限値、下限値の条件とから、音源方向 Θ

HMjのスペクトルと推定されるサブバンド (選択スペクトル) を選択する。その後、選択サブバンドのスペクトルを逆 FFTにより変換すれば、音声信号に変換できる。

[0095] 次に、特徴抽出部 30は、音源分離部 20が分離した選択スペクトルを、対数変換部 31、メル周波数変換部 32、コサイン変換部 33により MFCCに変換する。

[0096] 一方、音響モデル合成部 40は、音響モデル記憶部 49に記憶された方向依存音響モデル Η( Θ )と、音源定位部 10が定位した音源方向 Θ とから、音源方向 Θ に n HMj HMj 適切と考えられる音響モデルを合成する。すなわち、音響モデル合成部 40は、方向依存音響モデル Η( θ _n)を、コサイン逆変換部 41、線形変換部 42、及び指数変換部 43により、線形スペクトルに変換する。そして、パラメータ合成部 44は、音源方向 Θ の重み W を音響モデル記憶部 49 闺 η Θ H j

力読み出し、これと方向依存音響モデル Η( Θ )との内積をとつて、音源方向 Θ の

n HMj 音響モデル Η( Θ )を合成する。そして、この線形スペクトルで表された音響モデル

HMj

Η( θ )を、対数変換部 45,メル周波数変換部 46、及びコサイン変換部 47により Μ

HMj

FCCで表した音響モデル Η( Θ )に変換する。

HMj

[0097] 次に、音声認識部 50は、音響モデル合成部 40で合成された音響モデル Η( θ )

HMj を利用して、隠れマルコフモデルにより音声認識を行う。

[0098] このようにして、音声認識を行った結果の例力表 4である。

[0099] [表 4]

[0100] 表 4に示すように、方向依存音響モデルを 90° — 90° まで 30° おきに用意して、各音響モデルで 40° の方向から孤立単語を認識させたところ (従来手法)、最も認識率が高くても 30° 方向の方向依存音響モデルを用いた 60%であった。これに対し、本実施形態の手法を使用して 40° 方向の音響モデルを合成して、これを用いて孤立単語を認識させたところ、 78%の高い認識率を示した。このように、本実施形態の音声認識装置 1によれば、任意の方向から音声が発せられた場合であっても、その方向に適した音響モデルをその都度合成するので、高ヽ認識率を実現することができる。また、任意の方向の音声を認識できることから、移動している音源力もの音声認識や、移動体 (ロボット RB)自身が移動しているときにも、高い認識率での音声認識が可能である。

[0101] また、方向依存音響モデルを、断続的な数個、例えば音源方向にして 60° ごとや 30° ごとに記憶しておけば良ぐ音響モデルの学習に必要なコストを小さくすることができる。

さらに、合成した音響モデル一つについて音声認識を行えば良いため、複数方向の音響モデルについて音声認識を試みる並列処理も不要であり、計算コストを小さくすることができる。そのため、実時間処理や、組み込み用途には好適である。

[0102] 以上、本発明の第 1実施形態について説明したが、本発明は第 1実施形態には限定されず、以下の実施形態のように変形して実施することが可能である。

[0103] [第 2実施形態]

第 2実施形態では、第 1実施形態の音源定位部 10に代えて、相互相関のピークを用いて音源方向を定位する音源定位部 110を備える。なお、他の部分については第

1実施形態と同様であるので説明を省略する。

《音源定位部 110》

第 2実施形態に係る音源定位部 110は、図 18に示すように、フレーム切り出し部 11 1、相互相関計算部 112、ピーク抽出部 113、方向推定部 114を有する。

[0104] 〈フレーム切り出し部 111〉

フレーム切り出し部 111は、左右のマイク M , Mに入力されたそれぞれの音響信

R し

号について、所定の時間長、例えば 100msecで切り出す処理を行う。切り出し処理は、適当な時間間隔、例えば 30msecごとに行われる。

[0105] 〈相互相関計算部 112〉

相互相関計算部 112は、フレーム切り出し部 111が切り出した右マイク Mの音響

R

信号と、左マイク Mの音響信号とで、次式 (22)により相互相関を計算する

し

[数 22]

CC{T) = x_L(t)x_R(t + T)dt . . . ( 2 2 ) 但し、

CC (T) :x (t)と X (t)の相互相関

L R

T:フレーム長

X (t)：フレーム長 Tで切り出された、マイク Lからの入力信号

し

X (t)：フレーム長 Tで切り出された、マイク Rからの入力信号

R

[0106] 〈ピーク抽出部 113〉

ピーク抽出部 113は、得られた相互相関の結果力もピークを抽出する。抽出するピ一クの数は、音源の数が予め分力つている場合は、その数に対応したピークを大きいものから選択する。音源数が不明なときは、予め定めた閾値を超えたピークを全て抽出する力、あるいは予め定めた所定数のピークを大きいものから順に選択する。

[0107] 〈方向推定部 114〉

音源方向 Θ は、得られたピークから、右マイク Mと左マイク Mに入力された音響

H j R L

信号の到達時間差 Dに音速 Vを掛けて、図 19に示す距離差 dを計算し、さらに、次式により求める。

Θ =arcsin (d/ 2r)

HMj

[0108] このような相互相関を用いた音源定位部 110によっても、音源方向 0 の方向が

HMj 推定され、前記した音響モデル合成部 40により、音源方向 Θ に適した音響モデル

HMj

を合成することで、認識率の向上を図ることができる。

[0109] [第 3実施形態]

第 3実施形態では、第 1実施形態に加えて、音源定位部音源が同一音源から来ていることを確認しながら音声認識を行う機能を追加している。なお、第 1実施形態と同じ部分については、同じ符号を付して説明を省略する。

第 3実施形態に係る音声認識装置 100は、図 20に示すように、第 1実施形態の音声認識装置 1に加え、音源定位部 10が定位した音源方向を入力されて、音源を追跡し、同じ音源力音響が来続けているかを確認し、確認ができたなら、音源方向を音源分離部 20へ出力するストリーム追跡部 60を有している。

[0110] 図 21に示すように、ストリーム追跡部 60は、音源方向履歴記憶部 61と、予測部 62 と、比較部 63とを有する。

[0111] 音源方向履歴記憶部 61は、図 22に示すような、時間と、その時間において認識された音源の方向及び音源のピッチ (その音源の調波構造が持つ基本周波数 f

0 )とが関連づけて記憶されて、る。

[0112] 予測部 62は、音源方向履歴記憶部 61から、直前まで追跡していた音源の音源方向の履歴を読み出し、直前までの履歴力カルマンフィルタなどにより現時点 tlでの音源方向 Θ 及び基本周波数 f とからなるストリーム特徴ベクトル ( Θ , f )を予測

HMj 0 HMj 0 し、比較部 63へ出力する。 [0113] 比較部 63は、音源定位部 10から、音源定位部 10で定位された現時点 tlの各話者 HMjの音源方向 Θ と、その音源の基本周波数 f とが入力される。そして、予測

H j 0

部 62から入力された予測したストリーム特徴ベクトル ( Θ , f )と、音源定位部 10で

HMj 0

定位された音源方向及びピッチ力求まるストリーム特徴ベクトル ( Θ , f )を比較し

HMj 0 て、その差 (距離)が予め定めた閾値よりも小さい場合に、音源方向 Θ を音源分離

HMj 部に出力する。また、ストリーム特徴ベクトル（ Θ , f )を音源方向履歴記憶部 61へ

HMj 0

記憶させる。

前記した差 (距離)が、予め定めた閾値よりも大きい場合には、定位した音源方向 Θ を音源分離部 20へ出力しな、ので、音声認識は行われな、。なお、音源方向

HMj

Θ とは別に、音源の追跡ができている力否かを示すデータを、比較部 63から音源

HMj

分離部 20へ出力してもよい。

なお、基本周波数 f

0を用いず、音源方向 Θ

HMjだけで予測してもよ!/ヽ。

[0114] このようなストリーム追跡部 60を有する音声認識装置 100によれば、音源定位部 10 で音源方向が定位され、ストリーム追跡部 60へ音源方向とピッチが入力される。ストリーム追跡部 60では、予測部 62が、音源方向履歴記憶部 61に記憶された音源方向の履歴を読み出して現時点 tlでのストリーム特徴ベクトル ( Θ , f )を予測する。比

HMj 0

較部 63は、予測部 62で予測されたストリーム特徴ベクトル（ Θ , f )と、音源定位部

HMj 0

10から入力された値から求まるストリーム特徴ベクトル（ Θ , f )とを比較して、その

HMj 0

差 (距離)が所定の閾値より小さければ、音源方向を音源分離部 20へ出力する。音源分離部 20は、音源定位部 10から入力されたスペクトルのデータと、ストリーム追跡部 60が出力した音源方向 Θ のデータに基づき、第 1実施形態と同様にして

HMj

音源を分離する。そして、以下、特徴抽出部 30、音響モデル合成部 40、音声認識部 50でも、第 1実施形態と同様にして、処理を行う。

[0115] このように、本実施形態の音声認識装置 100は、音源が追跡できているか否かを確認した上で音声認識を行うので、音源が移動している場合にも、同じ音源が発し続けている音声を連続して認識するため、誤認識の可能性を低くすることができる。特に、複数の移動する音源があって、それらの音源が交差する場合などに好適である。また、音源方向を記憶、予測していることから、その方向の所定範囲についてのみ音源を探索すれば、処理を少なくすることができる。

以上、本発明の実施形態について説明したが、本発明は、前記した実施形態には限定されず適宜変更して実施される。

例えば、音声認識装置 1が、カメラと、公知の画像認識装置を有し、話者の顔を認識して、誰が話しているかを自己が有するデータベース力話者を特定する話者同定部を備え、前記方向依存音響モデルを話者ごとに有していれば、話者に適した音響モデルを合成することができるので、認識率をより高くする事ができる。あるいは、カメラを使わず、ベクトル量子化 (VQ)を用いて、予め登録してある話者の音声をべクトルイ匕したものと、音源分離部 20で分離された音声をベクトルィ匕したものとを比較し、最も距離の近！ヽ話者を結果として出力することで話者を同定してもよ!、。

Claims

請求の範囲

[1] 複数のマイクが検出した音響信号から、音声を認識して文字情報に変換する音声認識装置であって、

前記複数のマイクが検出した音響信号に基づき、前記特定の話者の音源方向を特定する音源定位部と、

前記複数のマイクが検出した 1つ以上の音響信号に基づき、その音響信号に含まれる音声信号の特徴を抽出する特徴抽出部と、

断続的な複数の方向に対応した方向依存音響モデルを記憶した音響モデル記憶部と、

前記音源定位部が特定した音源方向の音響モデルを、前記音響モデル記憶部の方向依存音響モデルに基づ、て合成し、前記音響モデル記憶部へ記憶させる音響モデル合成部と、

前記音響モデル合成部が合成した音響モデルを使用して、前記特徴抽出部が抽出した特徴について音声認識を行い、文字情報に変換する音声認識部と、を備えることを特徴とする音声認識装置。

[2] 複数のマイクが検出した音響信号から、特定の話者の音声を認識して文字情報に変換する音声認識装置であって、

前記音源定位部が特定した音源方向に基づき、前記特定の話者の音声信号を前記音響信号から分離する音源分離部と、

前記音源分離部が分離した音声信号の特徴を抽出する特徴抽出部と、断続的な複数の方向に対応した方向依存音響モデルを記憶した音響モデル記憶部と、

[3] 前記音源定位部は、前記マイクが検出した音響信号を周波数分析した後、調波構造を抽出し、複数のマイクから抽出された調波構造の音圧差と位相差とを求め、この音圧差と位相差のそれぞれ力音源方向の確力しさを求め、最も確からしい方向を音源方向と判断するよう構成されたことを特徴とする請求の範囲第 1項または第 2項に記載の音声認識装置。

[4] 前記音源定位部は、前記複数のマイクから検出された音響信号の音圧差と位相差を用いて前記特定の話者の音源方向を特定するために、前記マイクが設けられる部材の表面で散乱する音響信号を音源方向ごとにモデルィ匕した散乱理論を用いることを特徴とする請求の範囲第 1項から第 3項のいずれか 1項に記載の音声認識装置。

[5] 前記音源分離部は、前記音源定位部が特定した音源方向が、前記複数のマイクの配置により決定される正面に近い場合には、狭い方向帯域の音声を分離し、正面から離れると広い方向帯域の音声を分離するアクティブ方向通過型フィルタを用いて音声分離を行うよう構成されたことを特徴とする請求の範囲第 2項から第 4項のいずれ力 1項に記載の音声認識装置。

[6] 前記音響モデル合成部は、前記音響モデル記憶部の方向依存音響モデルの重み付き線形和により前記音源方向の音響モデルを合成するよう構成され、

前記線形和に使用する重みが、学習により決定されたことを特徴とする請求の範囲第 1項から第 5項のいずれか 1項に記載の音声認識装置。

[7] 前記話者を特定する話者同定部をさらに備え、

前記音響モデル記憶部は、前記話者ごとに方向依存音響モデルを有し、前記音響モデル合成部は、前記話者同定部が特定した話者の方向依存音響モデルと、前記音源定位部が特定した音源方向とに基づき、前記音源方向の音響モデルを前記音響モデル記憶部の方向依存音響モデルに基づ、て求め、前記音響モデル記憶部へ記憶させるよう構成されたことを特徴とする請求項の範囲第 1項力第 6 項の、ずれか 1項に記載の音声認識装置。

[8] 複数のマイクが検出した音響信号から、特定の話者の音声を認識して文字情報に変換する音声認識装置であって、

前記音源定位部が特定した音源方向を記憶して前記特定の話者の移動している方向を推定し、その推定された方向から、現在の話者の位置を推定するストリーム追跡部と、

前記ストリーム追跡部が推定した現在の話者の位置から定まる音源方向に基づき、前記特定の話者の音声信号を前記音響信号から分離する音源分離部と、