WO2006011310A1

WO2006011310A1 - 音声識別装置、音声識別方法、及びプログラム

Info

Publication number: WO2006011310A1
Application number: PCT/JP2005/010800
Authority: WO
Inventors: Yoshio Ohno; Shinichi Yoshizawa; Tetsu Suzuki
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2004-07-23
Filing date: 2005-06-13
Publication date: 2006-02-02
Also published as: JPWO2006011310A1; US20080001780A1; JP3913771B2; US7616128B2

Abstract

　ユーザにとって重要な音声情報を、ユーザの動作に依存して変化する入力音声情報の重要度に応じて確実に伝達することができる音声識別装置は、入力された音声の種別を判定する照合部１０４と、ユーザの動作を検出するユーザ動作取得部１０８と、照合部１０４の判定結果およびユーザ動作取得部１０８の検出結果を出力形態定義情報格納部１０７に格納されている出力形態定義情報と対比することによって、入力音声に関する識別結果の出力形態を決定する出力形態決定部１０６と、出力形態決定部１０６の判定結果と出力処理方法定義情報格納部１１１に格納されている出力処理方法定義情報とを対比することによって、音声識別結果に決定された出力形態に応じた処理を施した後に出力する音声識別結果出力処理部１１０とを備える。

Description

明細書

音声識別装置、音声識別方法、及びプログラム

技術分野

[0001] 本発明は、音声の種別を識別して、識別結果をユーザに提示する音声識別装置に関するものである。

背景技術

[0002] 近年、車両内の防音性能は向上しており、防音性能の向上により、他の車両のクラクシヨンや緊急車両のサイレン音が聞こえに《なってきている。また、携帯型ヘッドフオンステレオや携帯電話機のイヤホンなど、音響的な閉鎖性の高、音響機器を装着する頻度も増しており、自動車のクラクションや、列車の車内放送、駅ホームを通過する車両の音が聞こえに《なってきている。このように、車両の防音性能の向上ゃ閉鎖性の高い音響機器の装着によって、ユーザにとって重要な周囲の音声信号が聞こえに《なるという課題が、近年増加している。

[0003] このような課題を解決するものとして、従来より、種々の技術が提案されている（例えば、特許文献 1〜3参照。）。

[0004] 図 10は、上記特許文献 1に記載の、第一の従来技術の構成を示す図である。

[0005] 図 10に示すように、従来の音声識別装置は、外部空間の音を電気信号 sに変換する集音手段 1と、閉空間にあり電気信号 sを変換して音を再生する音再生手段 2とを有し、外部空間で発生する音情報を閉空間に伝達'再生する装置において、電気信号 sを遮断'通過する信号制御手段 3と、電気信号 sから特徴的な特性を抽出する特性抽出手段 4と、信号の特性条件を記憶する条件記憶手段 5と、集音手段 1によって変換された信号と、条件記憶手段 5によって記憶されている特性条件とを比較して、条件を満たす力否かを判断する特性判断手段 6とを設けている。

[0006] そして、特性判断手段 6が条件を満たさな、と判定したときは、信号制御手段 3が信号を遮断し、特性判断手段 6が条件を満たすと判定したときには、信号制御手段 3が信号を通過させることによって、あら力じめ定められた条件を満たす必要な音だけを聞くことを可能としている。 [0007] また、上記特許文献 2記載の第二の従来技術では、車などの移動体に搭載された音声再生装置において、自車位置検出手段で現在位置を検出し、検出された現在地に応じて音量 '周波数特性記憶手段に記憶されている音響特性情報を用いて、出力装置力も出力する再生音声を音量'周波数自動変更手段で制御することによって、移動体内で出力される再生音声が現在位置に応じた最適な音響特性となるように構成されており、例えば、自車位置検出手段で現在地が踏切付近と検出された場合に、カーオーディオの音量を下げて踏切の警報音を聞きやすくすることができるとしている。

[0008] さらに、上記特許文献 3記載の第三の従来技術では、緊急自動車や警報機等が発する信号を感知する信号識別回路と、対象音源との距離やその変化を音質力判断する音質回路とを設け、音源の距離や緊急度を判断して、カーステレオやヘッドフォンステレオなど閉鎖性の高ヽ音響機器の音量を自動調節する装置が提案されて!、る特許文献 1 :特開平 7— 95681号公報

特許文献 2：特開 2002— 344268号公報

特許文献 3：特開平 7- 327295号公報

発明の開示

発明が解決しょうとする課題

[0009] しかしながら、前記第一の従来技術の構成では、規定の音響特徴条件を満たす音声入力が存在した力否かの判定にのみ基づいて音声識別結果の出力を行なうので、常に同様の出力形態によって入力音声情報がユーザに伝えられる。そのため、ュ一ザが置かれて!/、る状況により変化する音声の識別結果の重要度を、ユーザは理解することができな、と!/、う問題がある。

[0010] また、前記第二の従来技術の構成では、自車位置情報にのみ基づき音響特性を決定するため、例えば、渋滞により踏切付近に長時間留まった場合、踏切警報音が鳴っていない時にも、再生音量を下げるよう音響特性が設定されてしまい、ユーザが所望の音量でカーオーディオを聞くことができな、と、う問題を有して、る。

[0011] さらに、前記第三の従来技術の構成では、自動車を運転中のユーザが進路前方で踏切警報機が鳴っていることを確認し、自車を停止させて、既にカーラジオの音量を下げておく必要がない場合でも、信号識別回路が踏切警報音を感知している間は、カーラジオの電源が切られた状態が続いてしまうという問題がある。

[0012] 本発明は、これらの問題点に鑑みてなされたものであり、周囲の音声信号を識別して、その識別結果をユーザに知らせる音声識別装置であって、ユーザがより適切な情報提示形態で音声識別結果情報を得ることのできる音声識別装置を提供することを目的とする。

課題を解決するための手段

[0013] 上記目的を達成するために、本発明に係る音声識別装置は、入力音声を表す音声信号の特性を用いて、前記入力音声の種別を判定する音声種別判定手段と、現在の状況を変化させるためのユーザの動作を検出するユーザ動作取得手段と、前記ユーザ動作検出手段における検出結果に基づいて、前記入力音声に関する識別結果をユーザに提示するための出力形態を決定し、前記識別結果を、決定した出力形態で出力する識別結果出力手段とを備えることを特徴とする。

[0014] 本構成によって、ユーザの動作に基づいて決定される出力形態 (例えば、出力音量や、出力回数)で、入力音声に関する識別結果を出力することができる。これにより、前記ユーザの動作によって変化するその時々の状況において想定される識別結果の重要度を反映した好適な出力形態で、前記識別結果をそのユーザに提示することが可能となる。

[0015] ここで、前記音声識別装置は、さらに、前記入力音声が到来する方向を示す音源状態を検出する音源状態取得手段を備え、前記識別結果出力手段は、さらに、前記音源状態取得手段における検出結果を加味して、前記出力形態を決定するとしてもよい。

[0016] これによつて、音声の到来する方向も加味して前記出力形態を決定するので、ユーザにとって注意を払うべき方向から到来した入力音声に関する重要な識別結果と、そうでない方向から到来した入力音声に関するそう重要でない識別結果との出力形態を異ならせることによって、音声識別結果を効率よくユーザに提示することができる音声識別装置が実現される。発明の効果

[0017] 本発明の音声識別装置によれば、入力音声に関する識別結果を、ユーザの動作に依存して変化する状況に応じて想定される重要度を反映した適切な出力形態でュ一ザに提示することができるので、ユーザが確実かつ効率的に音声識別結果を理解可能な音声識別装置を提供することができる。

図面の簡単な説明

[0018] [図 1]図 1は、本発明の実施の形態 1に係る音声識別装置の構成を示すブロック図である。

[図 2]図 2は、（a)は、出力処理方法定義情報の一例を示す図であり、（b)は、ユーザの動作の一例を示す図であり、（c)は、出力形態定義情報の一例を示す図であり、 ( d)は、現在の出力形態の一例を示す図である。

[図 3]図 3は、本実施の形態 1に係る音声識別装置の処理動作を示すフローチャートである。

[図 4]図 4は、（a)および (b)は、本実施の形態 1に係る音声識別装置の動作例を説明するための図である。

[図 5]図 5は、（a)は、出力処理方法定義情報の別の一例を示す図であり、（b)は、出力形態定義情報の別の一例を示す図であり、（c)は、ユーザの状況の一例を示す図であり、（d)は、音源状態の一例を示す図である。

[図 6]図 6は、（a)および (b)は、音声到来方向を加味する場合の音声識別装置の動作例を説明するための図である。

[図 7]図 7は、本発明の実施の形態 2に係る音声識別装置の構成を示すブロック図である。

[図 8]図 8は、本発明の実施の形態 2に係る音声識別装置に関し、（a)は、出力処理方法定義情報の一例を示す図であり、（b)は、重要度定義情報の一例を示す図であり、（c)は、ユーザの状況の一例を示す図である。

[図 9]図 9は、（a)および (b)は、本実施の形態 2に係る音声識別装置の動作例を説明するための図である。

[図 10]図 10は、従来の音声識別装置の構成を示す図である。符号の説明

100、 100a 音声識別装置

101 音声入力部

102 特徴量抽出部

103 音声記憶部

104 照合部

105 音響モデル格納部

106 出力形態決定部

107 出力形態定義情報格納部

108 ユーザ動作取得部

109 音源状態情報取得部

110 音声識別結果出力処理部

111 出力処理方法定義情報格納部

200、 300 自動車

201 ウィンカー

206 音声情報重要度判定部

207 重要度定義情報格納部

1 集音手段

S ^ス "¾

2 音再生手段

3 信号制御手段

4 特徴抽出手段

5 条件記憶手段

6 特徴判定手段

発明を実施するための最良の形態

[0020] 以下、本発明の実施の形態について、図面を参照しながら説明する。

[0021] (実施の形態 1)

まず、本発明の実施の形態 1に係る音声識別装置について、図 1〜6を用いて説明する。

[0022] 本実施の形態 1に係る音声識別装置は、自動車に備え付けられており、車室外の音声情報を識別すると共に、その音声情報に関する識別結果の出力形態をユーザの動作に基づ!、て決定し、決定された出力形態でその識別結果をユーザに提示する装置である。ここでは、ユーザは、本装置が備え付けられている自動車を運転中であり、前記ユーザの動作は具体的には運転動作であることを想定している。本装置は、ユーザの運転動作によって変化するそのユーザの現在の状況にぉ、て想定される重要度を反映した好適な出力形態で前記識別結果をユーザに提示する。

[0023] なお、本発明では、前記識別結果の具体的な内容を限定しない。例えば、前記音声情報の種別を判定し、その判定結果に応じて聴覚、視覚、触覚等を通してユーザに提示される通知情報は、広く前記識別結果の一例である。また、前記音声情報を再生して得られる車室外の音声そのものも前記識別結果の一例である。

[0024] 図 1は、本実施の形態 1に係る音声識別装置の機能的な構成を示すブロック図である。

[0025] 図 1に示すように、本実施の形態 1に係る音声識別装置 100は、音声入力部 101、特徴量抽出部 102、音声記憶部 103、照合部 104、音響モデル格納部 105、出力形態決定部 106、出力形態定義情報格納部 107、ユーザ動作取得部 108、音源状態情報取得部 109、音声識別結果出力処理部 110、および、出力処理方法定義情報格納部 111を備える。

[0026] ここで、特徴量抽出部 102及び照合部 104が音声種別判定手段の一例であり、出力形態決定部 106及び音声識別結果出力処理部 110が識別結果出力手段の一例であり、音声記憶部 103が音声記憶手段の一例であり、ユーザ動作取得部 108がュ一ザ動作検出手段の一例である。

[0027] 音声入力部 101は、車外周囲環境に存在する音声信号を集音するマイクロフォンと、これをサンプリング周波数 12kHz、 AZD変換精度 16Bitの精度でデジタル信号に変換する AZD変により実現することができる。この音声入力部 101が取得した入力音声のデジタル信号は、特徴量抽出部 102と音声記憶部 103に送られる。

[0028] 特徴量抽出部 102は、入力音声信号から、音声の特徴を表現するスペクトルゃケプストラムなどの音響的特徴量を抽出し、抽出した特徴量を照合部 104に送る。例えば、特徴量抽出部 102では、 MFCC分析手法によって抽出される 16次の MFCC係数と 16次の Δ MFCC係数と 1次の Δパワーによって、音響的特徴量を構成することができる。

[0029] 音声記憶部 103は、入力音声を一時的に保持するための記憶領域を有する RAM

(Random Access Memory)等によって実現される。

[0030] 音響モデル格納部 105は、音声種毎に学習された、 1つあるいは複数の音響モデルが格納されて、るハードディスク等の記憶装置である。音響モデルの構成としては、一般に音声認識で用いられている HMM (Hidden Markov Model)モデルを利用することができ、例えば、音声種ごとに 3状態 Left— to— right型 4混合連続分布 H MMモデルを学習し、音響モデル格納部 105に格納しておく。本実施の形態 1においては、車外周囲音声として、「踏切警報機音」、「消防車サイレン」、「クラクション」、「バイクのエンジン音」、「自動車エンジン音」の 5種類の音声を想定しており、音響モデル格納部 105には、これらの音声種に対応した前記構成の音響モデルが、音響モデル格納部 105に格納されて、る。

[0031] 照合部 104は、音響モデル格納部 105に格納されている音響モデルと、特徴量抽出部 102から送られる入力音声に対応した音響的特徴量とを照合し、入力音声が 5 つの音響モデルに、どの程度類似するかを判定して、その判定結果を出力形態決定部 106に送る。照合部 104は、例えば、最も高い類似が見られた音響モデルに対応する音声種別が入力音声の音声種別として判定されたことを示す判定結果を出力形態決定部 106に送ってもよい。

[0032] なお、ここで説明した、音声特徴量の抽出方法、音響モデルの構成方法、ならびに照合の方法としては、公知の音声識別方法を用いることができる（例えば、三木一浩、西浦敬信、中村哲、鹿野清宏「HMMを用いた環境音識別の検討」電子情報通信学会技術報告、 SP99— 106、 pp. 79— 84 (1999)参照。 )₀

[0033] 出力処理方法定義情報格納部 111には、あらかじめ音声情報の出力形態ごとに定められた出力処理方法の定義情報が格納されている。

[0034] 図 2 (a)は、出力処理方法定義情報格納部 111に格納されている出力処理方法に関する定義情報の一例を示す図である。図 2 (a)に示すように、この出力処理方法定義情報には、 5種類の出力形態それぞれに応じた音量で入力音声を再生して、それを識別結果として出力することが定義されている。ここに例示する出力形態は、 1から 5までの数値で表され、この数値の大きさは識別結果をユーザに提示すべき重要度の高さを反映している。

[0035] ユーザ動作取得部 108は、ユーザの動作を感知するセンサによって実現され、ュ一ザの動作に関する情報を取得して、出力形態決定部 106に出力する。

[0036] 図 2 (b)は、ユーザ動作取得部 108で取得されるユーザの動作の一例を示す図である。図 2 (b)に例示する、「方向指示器を出す Z戻す」、「ハンドブレーキを引く Z戻す」などのユーザの運転動作は、ハンドブレーキおよびウィンカーに、それぞれセンサを備え付けることにより検出することが可能である。

[0037] 出力形態定義情報格納部 107には、あら力じめ音声種ごとに定められた重要度の定義情報が格納されている。

[0038] 図 2 (c)は、出力形態定義情報格納部 107に格納されている出力形態定義情報の一例を示す図である。図 2 (c)に示すように、識別対象である入力音声の種別として、「踏切警報機音」、「消防車サイレン」、「クラクション」、「バイクのエンジン音」、「自動車エンジン音」が示されており、それぞれの音声種別ごとに、ユーザの運転動作が検出された場合に出力形態の更新に用いられる変化量が定義されている。

[0039] 出力形態決定部 106は、照合部 104から取得した判定結果と、ユーザ動作取得部 108から得られるユーザ動作に関する情報と、出力形態定義情報格納部 107に格納されている出力形態定義情報とに基づいて、入力音声に関する識別結果の出力形態を決定する処理部である。この処理のために、出力形態決定部 106は、音声種別ごとの現在の出力形態を、例えば図示しないレジスタや RAM等を用いて、格納している。

[0040] 図 2 (d)は、出力形態決定部 106に格納されている音声種別ごとの現在の出力形態の一例を示す図である。

[0041] 出力形態決定部 106は、ユーザ動作取得部 108からユーザ動作に関する情報を得ると、そのユーザ動作に対応する出力形態の変化量を出力形態定義情報格納部 107から取得し、取得された変化量を現在の出力形態に音声種別ごとに加算することによって、現在の出力形態を加算後の数値で表される新たな出力形態に更新する

[0042] そして、この更新動作と並行して、出力形態決定部 106は、照合部 104から判定結果が取得されると、その判定結果に示される音声種別の現在の出力形態を音声識別結果出力処理部 110へ出力する。

[0043] 音声識別結果出力処理部 110は、出力形態決定部 106から取得した出力形態と、出力処理方法定義情報格納部 111に格納されて、る、出力形態ごとに定められた出力処理方法の定義情報とに基づいて、音声記憶部 103に記憶されている音声信号に、いかなる音響的処理を施すかを決定し、決定された音響的処理をその音声信号に施す処理部である。なお、ここでは、音声の再生音量の調整を前記音響的処理の一例としており、音声識別結果出力処理部 110は、いかなる音量で入力音声を再生するかを決定し、その後、音声識別結果出力処理部 110は、決定された音響的処理 (この例では音量調整)を施した音声信号を音声識別結果出力として再生出力する。

[0044] 以上のように構成される音声識別装置 100の動作について、図 3を用いて説明する

[0045] 図 3は、音声識別装置 100の処理動作を示すフローチャートである。

[0046] まず、音声識別装置 100は、音声入力部 101において、車外周囲の音声を入力音声として取得する（S100)。取得された車外周囲の音声はデジタル信号に変換された後、音声記憶部 103に格納されるとともに、特徴量抽出部 102に送られ、特徴量抽出部 102において、音響的特徴量が抽出される（S102)。

[0047] 抽出された特徴量は、特徴量抽出部 102から照合部 104に送られ、照合部 104にぉ、て、音響モデル格納部 105に格納されて、る音声種別ごとの音響モデルと照合され (S104)、音声種別の判定が行なわれる（S106)。そして、照合部 104は、音声種別の判定結果を出力形態決定部 106に送る。ここでは、具体的な例として、入力された車外周囲の音声が、「踏切警報機音」に最も類似しているという判定がなされた場合を想定して説明する。 [0048] 次に、出力形態決定部 106は、ユーザ動作取得部 108で得られるユーザ動作に関する情報を取得し (S108)、この情報で示されるユーザ動作に対応して出力形態定義情報格納部 107に格納されている出力形態の変化量を用いて、現在の出力形態を更新する。そして、更新後の現在の出力形態のうち、照合部 104において判定された音声種別に対応する出力形態を、入力音声に関する識別結果をユーザに提示するための出力形態として決定する（S 110)。

[0049] 以下、具体的な例として、現在の出力形態が全ての音声種別について「3」と決定されているときに、ユーザの「方向指示器を出す」動作が検出された場合を想定して説明する。

[0050] この場合、出力形態決定部 106は、検出されたユーザ動作が「方向指示器を出す」動作であることから、図 2 (c)に示した出力形態定義情報から「方向指示器を出す」動作に対応する変化量を参照し、その変化量を加算することによって、現在の出力形態を図 2 (d)に示す数値に更新する。そして、出力形態を、更新後の現在の「踏切警報機音」に対応する「5」と決定する。

[0051] このようにして決定された出力形態は、出力形態決定部 106から音声識別結果出力処理部 110に送られる。

[0052] そして、音声識別結果出力処理部 110は、図 2 (a)に示した出力処理方法定義情報を参照して、音声処理方法を、受け取った出力結果に対応する方法に決定する（ S112)。上記の例では、出力形態が「5」であるため、音声識別結果出力は、音声記憶部 103に格納されて、る音声信号を「70dBA」で再生出力すると!/、う音声処理方法に決定されることになる。

[0053] その後、音声識別結果出力処理部 110は、音声記憶部 103に格納されている入力音声を読み出して、決定された方法で識別結果を出力し (S114)、処理動作を終了する。

[0054] ユーザの動作によって変化する状況に応じて、音声識別結果が異なる出力形態で出力される別の具体例を、図 4を用いて説明する。

[0055] 図 4 (a)には、踏切の遮断機が下りて踏切警報機音が鳴っており、音声識別装置 1

00が備え付けられた自動車 200が、この踏切手前でハンドブレーキが引かれた状態で停止して!/、る様子が示されて、る。

[0056] すなわち、ここに示す条件下では、車外周囲の音声として、「踏切警報機音」が音声識別装置 100に入力されるとともに、ユーザの運転動作として「ハンドブレーキを引く」が音声識別装置 100に既に取得されていると考えられる。

[0057] ここで、音声識別装置 100が、この状況下における入力音声「踏切警報機音」の出力形態を決定する場合、図 2 (b)に示した出力形態定義情報から、ハンドブレーキを弓 Iく前に比べて 2段階低、 (変化量「一 2」）出力形態が決定され、音声識別装置 100 は、図 2 (a)に示した出力処理方法定義情報から、音声識別結果を「10dBA」下げた音量で出力することになる。なお、ユーザがその後「ノヽンドブレーキを戻す」動作を行うと、 2段階高い (変化量「 + 2」）出力形態が決定されることによって、音量はハンドブレーキを引く前と同じ大きさに戻る。

[0058] また、このとき、自動車 200の車室内でカーオーディオの再生が行なわれている場合には、車室内のオーディオ音量を維持させたままで、音声識別装置 100は、ォーディォ音量よりも小さヽ音量で音声識別結果を再生出力するようにしてもょヽ。

[0059] このように、ユーザの動作によって変化する状況に応じて、入力音声に関する識別結果をユーザに伝達する重要度が低、と判定される場合 (この具体例にっ、て言えば、ハンドブレーキを引いて力戻すまでの、確実に停車していると考えられる期間）には、音声識別結果出力の音量を低減することで、ユーザは、音声識別結果の再生出力によって阻害されることなぐカーオーディオの視聴を継続することができるようになる。

[0060] 一方、図 4 (b)には、踏切の遮断機が下りて踏切警報機音が鳴っており、音声識別装置 100が備え付けられた自動車 200が、この踏切を視認することができない道路から、踏切に向力つて右折しょうとして、る様子が示されて、る。

[0061] すなわち、ここに示す条件下では、車外周囲の音声として、「踏切警報機音」が音声識別装置 100に入力される。また、右折を示す方向指示器 (ウィンカー） 201が作動していることから、方向指示器 201に取り付けられたセンサにより、ユーザの運転動作として「方向指示器を出す」が音声識別装置 100に既に取得されていると考えられる。 [0062] ここで、音声識別装置 100が、この状況下における入力音声「踏切警報機音」の出力形態を決定する場合、図 2 (b)に示した出力形態定義情報から、方向指示器を出す前に比べて 2段階高い (変化量「 + 2」）出力形態が決定され、音声識別装置 100 は、図 2 (a)に示した出力処理方法定義情報から、音声識別結果を「10dBA」上げた音量で出力することになる。なお、ユーザがその後「方向指示器を戻す」動作を行うと、 2段階低い (変化量「- 2」）出力形態が決定されることによって、音量は方向指示器を出す前と同じ大きさに戻る。

[0063] また、このとき、自動車 200の車室内でカーオーディオの再生が行なわれている場合には、車室内のオーディオ音量を下げて、音声識別装置 100は、オーディオ音量よりも大き! ヽ音量で音声識別結果を再生出力するようにしてもょヽ。

[0064] このように、ユーザの動作状況によって変化する状況に応じて入力音声に関する識別結果をユーザに伝達する重要度が高、と判定される場合 (この具体例にっ、て言えば、方向指示器を出して力戻すまでの、ユーザによる踏切の視認が困難であることが予想される期間）には、音声識別結果出力の音量を大きくすることで、ユーザに、重要な情報を知らせることができるようになる。

[0065] 以上のような音声識別装置 100の動作により、ユーザが方向指示器を出して力も戻すまでの間、ユーザによる踏切の視認が遅れて踏切へ進入してしまう事故を防止するという目的から、「踏切警報機音」をユーザに提示する重要度が高いと考えられるので、高、重要度を反映した大きな数値の出力形態を用いて大きな音量で音声識別結果を再生出力することができる。

[0066] また、ユーザがハンドブレーキを引いてから戻すまでの間、このような事故の可能性が低、ことから重要度が低、と考えられるので、低、重要度を反映した小さな数値の出力形態を用いて小さな音量で音声識別結果を再生出力することができる。

[0067] また、例えば、照合部 104で、入力音声が、「バイクのエンジン音」に最も類似しているという判定がなされた場合は、以下のような処理を行なうこととなる。

[0068] ユーザ動作取得部 108で、「方向指示器を出す」動作が検出されてから「方向指示器を戻す」動作が検出されるまでの期間 (つまり、運転状況が「右左折中」と考えられる場合)、出力形態決定部 106は、該入力音声の出力形態を 2段階高く決定する。そして、音声識別結果出力処理部 110は、その決定に応じて、入力音声に関する識別結果の再生出力のための音量を「10dBA」上げる設定処理を行ない、音声記憶部 1 03に記憶された入力音声を音声識別結果出力として、その設定された音量で再生出力する。

[0069] 一方、照合部 104で同じ「バイクのエンジン音」と判定されても、「ハンドブレーキを引く」動作が検出されて力も「ハンドブレーキを戻す」動作が検出されるまでの期間（つまり、運転状況が「停車中」と考えられる場合)、出力形態決定部 106は、該入力音声の出力形態を 1段階低く決定する。そして、音声識別結果出力処理部 110は、その決定に応じて、入力音声に関する識別結果の再生出力のための音量を「5dBA」下げる設定処理を行ない、音声記憶部 103に記憶された入力音声を音声識別結果出力として、その設定された音量で再生出力する。

[0070] 以上のような音声識別装置 100の動作により、運転中のユーザに対し、「バイクのェンジン音」を、運転状況が「右左折中」時であれば、左折時の巻込み事故や右折時の出会い頭の事故を防止するという目的から重要度が高いと考えられるので、大きな音量で再生出力し、「停車中」時であれば、このような事故の可能性は低く重要度が低いと考えられるので、小さな音量で再生出力する。

[0071] このように、音声識別装置 100によれば、ユーザの動作によって変化する状況に応じて想定される重要度を反映した出力形態で、音声識別結果を出力することが可能となる。

[0072] (実施の形態 1に係る変形例）

次に、本実施の形態 1に係る音声識別装置 100の一つの変形例として、さらに、入力音声の到来方向を加味して決定される出力形態で、音声の識別結果をユーザに提示する音声識別装置について説明する。この変形例に係る音声識別装置は、入力音声の到来方向とユーザの運転動作に応じて決定される出力形態で、ユーザである運転者に入力音声に関する識別結果を知らせることができる。

[0073] このように、音声の到来方向も加味する場合について、以下に詳しく説明する。図 1に示す音源状態情報取得部 109は、音声入力部 101から入力される音声の音源状態、すなわち、その音声の到来方向を検知して出力形態決定部 106に出力するものであり、例えば、複数のマイクロフォン素子から構成されるマイクロフォンアレーによつて実現される。

[0074] 音声の到来方向の検知機能を有する音源状態情報取得部 109が、音源方向検出手段の一例である。

[0075] 図 5 (a)は、出力処理方法定義情報格納部 111に格納されている出力処理方法定義情報の一例を示す図であり、図 2 (a)と同様に、出力処理方法定義情報では、 5種類の出力形態それぞれに応じた音量で入力音声を再生して、それを識別結果として出力することが定義されている。ここに例示する出力形態は、 1から 5までの数値で表され、この数値の大きさはユーザに提示すべき識別結果の重要度の高さを反映している。

[0076] 図 5 (b)は、出力形態定義情報格納部 107に格納されている出力形態定義情報の一例を示す図である。図 2 (b)で例示した出力形態定義情報が、ユーザの動作に応じた出力形態の変化量を定義するのに対して、ここで例示する出力形態定義情報は、入力音声の種別である「踏切警報機音」、「消防車サイレン」、「クラクション」、「バイクのエンジン音」、「自動車エンジン音」のそれぞれについて、ユーザ状況および音声到来方向に対応した出力形態そのものを定義するように変更されて、る。

[0077] ここで、ユーザ状況とは、ユーザの動作によって変化する状況を広く指しており、例えば「運転状況」はその一例である。この「運転状況」は、前述した「ノ、ンドブレーキを引く」動作によって「停車中」となり、「ハンドブレーキを戻す」動作によって「走行可」となる。

[0078] このようなユーザ状況は、例えば、出力形態決定部 106において、図示しないレジスタゃ RAM等を用いて格納され、ユーザ動作取得部 108から得られるユーザ動作に関する情報に応じて更新されるとしてもよい。また、ユーザ動作取得部 108自身が、このようなユーザ状況を管理し、最新のユーザ状況を出力形態決定部 106へ出力することち考免られる。

[0079] 図 5 (c)は、出力形態決定部 106に格納されているユーザ状況の一例を示す図である。ここでは、前述した「運転状況」が「走行可」となっている例を示している。

[0080] 出力形態決定部 106は、この「運転状況」を、ユーザ動作取得部 108から「ハンドブレーキを引く」動作に関する情報が得られると「停車中」に変更し、「ハンドブレーキを戻す」動作に関する情報が得られると「走行可」に変更する。

[0081] 図 5 (d)は、音源状態情報取得部 109で取得される音源状態の一例を示す図である。図 5 (d)に例示する、「前方」および「後方」などの音声到来方向は、自動車の前後に備え付けられた複数のマイクロフォン素子力構成されるマイクロフォンアレーにより特定することが可能である。ここでは、「前方」と「後方」のみを例示しているが、例えば、「右方」、「左方」や、これらを組み合せて、「右前方」や「左後方」等の音声到来方向を特定するとしてもよ、。

[0082] そして、この変形例における出力形態決定部 106は、照合部 104から取得した識別結果と、出力形態決定部 106に格納されているユーザ状況と、音源状態情報取得部 109から得られる音声到来方向に関する情報と、出力形態定義情報格納部 107 に格納されている出力形態定義情報とに基づいて、識別結果の出力形態を決定する。

[0083] このように構成される、音声到来方向を加味する場合の音声識別装置 100の動作は、上記図 3に示したフローチャートとほぼ同様のものとなる力以下の点で異なる。

[0084] 第 1〖こ、図 3〖こおけるステップ S108とステップ S110の間〖こ、出力形態決定部 106 力音源状態情報取得部 109で得られる音声到来方向に関する情報を取得するステツプ (不図示）が追加される点で異なる。

[0085] 第 2に、ステップ S110において、出力形態決定部 106は、出力形態を決定するにあたって、まず、ステップ S108で取得されたユーザ動作に関する情報に応じて運転状況を更新し、そして、取得された音声到来方向、更新された運転状況、および、照合部 104から取得した音声種別の判定結果に対応して出力形態定義情報格納部 1 07に格納されている出力形態を参照し、参照された出力形態を、識別結果をユーザに提示するための出力形態として決定する点で異なる。

[0086] ここでは、具体的な例として、入力された車外周囲の音声が、「踏切警報機音」であると識別された場合を想定して説明する。

[0087] この場合において、出力形態決定部 106に格納されている運転状況が「走行可」であり、かつ、音源状態情報取得部 109で、音声到来方向が「前方」であると特定されると、出力形態決定部 106は、図 5 (b)に示した出力形態定義情報を参照することで、識別結果の出力形態を「5」と決定する。

[0088] その後、音声識別結果出力処理部 110は、図 5 (a)に示した出力処理方法定義情報を参照して、決定された出力形態に対応する出力処理方法を決定する。上記の例では、決定された出力形態が「5」であるため、音声識別結果出力は、音声記憶部 10 3に格納されて、る音声信号を「70dBA」で再生出力すると!/、う出力処理方法に決定されること〖こなる。

[0089] 一方、ユーザ動作取得部 108で、出力形態決定部 106に格納されている運転状況力 S「走行可」であり、かつ、音源状態情報取得部 109で、音声到来方向が「後方」であると特定されると、出力形態決定部 106は、図 5 (b)に示した出力形態定義情報を参照することで、識別結果の出力形態を「1」と決定する。

[0090] その後、音声識別結果出力処理部 110は、図 5 (a)に示した出力処理方法定義情報を参照して、決定された出力形態に対応する出力処理方法を決定する。この場合では、決定された出力形態が「1」であるため、音声識別結果出力は、音声記憶部 10 3に格納されて、る音声信号を「50dBA」で再生出力すると!/、う出力処理方法に決定されること〖こなる。

[0091] このように、音声識別結果が、運転状況および音声の到来方向に依存して異なる出力形態で出力される他の例を、図 6を用いて説明する。

[0092] 図 6 (a)には、音声識別装置 100が備え付けられた自動車 200が、踏切通過後に、踏切の遮断機が下りて踏切警報機音が鳴って、る様子が示されて、る。

[0093] すなわち、ここに示す条件下では、車外周囲の音声として、「踏切警報機音」が「後方」から音声識別装置 100に入力されるとともに、運転状況が「走行可」であると考えられる。

[0094] 音声識別装置 100は、この状況下において入力音声「踏切警報機音」の出力形態を、図 5 (b)に示した出力形態定義情報を参照して、走行可'後方に対応する「1」と決定し、音声識別装置 100は、図 5 (a)に示した出力処理方法定義情報から、音声識別結果を「50dBA」で出力することになる。

[0095] また、このとき、自動車 200の車室内でカーオーディオの再生が行なわれている場合には、車室内のオーディオ音量を維持させたままで、音声識別装置 100は、ォーディォ音量よりも小さヽ音量で音声識別結果を再生出力するようにしてもょヽ。

[0096] このように、ユーザの動作状況だけでなぐ音声の到来方向も加味し、入力音声をユーザに伝達する重要度が低いと判定される場合には、音声識別結果出力の音量を低減することで、ユーザは、音声識別結果の再生出力によって阻害されることなぐカーオーディオの視聴を継続することができるようになる。

[0097] 一方、図 6 (b)には、踏切の遮断機が下りて踏切警報機音が鳴っており、音声識別装置 100が備え付けられた自動車 200が、この踏切を視認することができない状態で、踏切に向力つて道路を直進して、る様子が示されて、る。

[0098] すなわち、ここに示す条件下では、車外周囲の音声として、「踏切警報機音」が「前方」から音声識別装置 100に入力されるとともに、運転状況が「走行可」であると考えられる。

[0099] 音声識別装置 100は、この状況下において入力音声「踏切警報機音」の出力形態を、図 5 (b)に示した出力形態定義情報を参照して、走行可'前方に対応する「5」と決定し、音声識別装置 100は、図 5 (a)に示した出力処理方法定義情報から、音声識別結果を「70dBA」で出力することになる。

[0100] また、このとき、自動車 200の車室内でカーオーディオの再生が行なわれている場合には、車室内のオーディオ音量を下げて、音声識別装置 100は、オーディオ音量よりも大き!ヽ音量で音声識別結果を再生出力するようにしてもょヽ。

[0101] このように、ユーザの動作状況だけでなぐ音声の到来方向も加味し、入力音声をユーザに伝達する重要度が高いと判定される場合には、音声識別結果出力の音量を大きくすることで、ユーザに、重要な情報を知らせることができるようになる。

[0102] 以上のような音声識別装置 100の動作により、運転中のユーザに対し、「踏切警報機音」を、「走行可」状態で踏切警報機音が前方力聞こえれば重要度が高く大きな音量で再生出力し、「走行可」状態で踏切警報機音が後方から聞こえれば比較的重要度が低く小さな音量で再生出力することができ、運転状況および音源状態によつて変化する重要度に応じた形態で、音声識別結果を出力することが可能となる。

[0103] また、例えば、照合部 104で、入力音声が「消防車サイレン」に最も類似していると V、う判定がなされた場合は、以下のような処理が行なわれる。

[0104] すなわち、ユーザ動作取得部 108で運転状況が「走行可」であると特定され、かつ、音源状態情報取得部 109で、音声到来方向が「前方」であると特定された場合、出力形態決定部 106は、出力形態を「5」と決定し、音声識別結果出力処理部 110は、出力形態「5」に対応した出力処理方法として、音声記憶部 103に記憶された音声信号が「70dBA」で再生出力されるように音量の設定処理を行ない、これを音識別結果出力として、再生出力する。

[0105] 一方、照合部 104で、同じく「消防車サイレン」に最も類似していると判定されても、運転状況が「停車中」であると特定され、音声到来方向が「後方」と特定された場合には、出力形態決定部 106は、出力形態を「2」と決定し、音声識別結果出力処理部 1 10は、出力形態「2」に対応した出力処理方法として、音声記憶部 103に記憶された音声信号が「55dBA」で再生出力されるように音量の設定処理を行ない、これを音声識別結果として、再生出力する。

[0106] 以上のような音声識別装置 100の動作により、「消防車サイレン」を、「走行可」状態で消防サイレン音が前方力聞こえれば重要度が高く大きな音量で再生出力し、「停車中」状態で消防サイレン音が後方力も聞こえれば比較的重要度が低く小さな音量で再生出力することができ、ユーザの状況および音声到来方向によって変化する重要度に応じた形態で、音声識別結果を出力することが可能となる。

[0107] このように、本実施の形態 1に係る音声識別装置 100によれば、照合部 104、出力形態決定部 106、出力形態定義情報格納部 107、ユーザ動作取得部 108、音声識別結果出力処理部 110および出力処理方法定義情報格納部 111を備える構成により、照合部 104で判定された音声種別に応じた出力形態を、出力形態決定部 106がユーザの動作に依存して決定し、音声識別結果出力処理部 110が、決定された出力形態に応じた処理を入力音声に施した後、音声識別結果として出力することが可能となり、ユーザにとって重要な音声情報を、ユーザの動作に依存して変化する入力音声情報の重要度に応じて確実に伝達することができる。

[0108] また、音源状態情報取得部 109を備える構成により、出力形態決定部 106は、音声到来方向も加味して識別結果の出力形態を決定できるので、ユーザにとって重要な音声情報を、ユーザの動作状況および音声到来方向に依存して変化する入力音声情報の重要度に応じて確実に伝達することも可能となる。

[0109] なお、本実施の形態 1においては、音響モデル格納部 105に格納されている音響モデルは、踏切警報音や消防車サイレンなど人工的に出力される音声に関して音声種ごとに用意することを想定して説明したが、人の話し声や、動物や鳥の鳴き声等のように、自然に発生する音声種ごとに用意することも可能である。

[0110] また、本実施の形態 1においては、音源状態情報取得部 109においてマイクロフォンアレーの利用により音声到来方向に関する情報を取得し、これを出力形態決定部 106における重要度判定に利用することを例に説明したが、入力音声信号の大きさや継続時間、入力音声信号の発生頻度などを音源状態情報取得部 109にて取得し、これらを出力形態決定部 106における判定に利用することも可能である。

[0111] また、本実施の形態 1においては、音声識別結果出力処理部 110における音声識別結果の出力処理方法として、入力音声を重要度に応じた音の大きさに拡大または縮小して音量を設定し、これを再生出力する例を説明したが、再生出力を重要度に応じた回数だけ繰返し出力するとしてもよい。また、ユーザの着座する椅子などユーザに接触する部位を、音声再生時に重要度に応じた強度で振動させる方法などを出力方法として採用することも可能である。

[0112] さらに、本実施の形態 1においては、音声識別結果出力処理部 110における音声識別結果の出力処理方法として、入力音声の再生をその方法例として説明したが、音響モデルに対応した音声種別名を文字表示によって音識別結果として出力することも可能である。このような文字表示とする場合、音声情報の重要度に応じて、表示する文字の大きさ、明るさ、色などを変化させる処理を施して、音声識別結果を出力することも可會である。

[0113] また、さらに、入力音声の重要度に応じて、音声識別結果の出力を、音声による出力と、文字表示による出力とで使い分けるようにしてもよい。例えば、入力音声の重要度が高い場合には、音声識別結果の出力を、音声による出力とし、入力音声の重要度が低い場合には、文字表示による出力とするように、音声識別結果出力処理部 11 0で制御可能な構成とすることも可能である。 [0114] (実施の形態 2)

次に、本発明の実施の形態 2に係る音声識別装置について、図 8および図 9を用いて説明する。

[0115] 本実施の形態 2に係る音声識別装置は、携帯型ヘッドフォンステレオと一体化されており、本装置を装着しているユーザの周囲環境の音声情報を識別し、ユーザが使用中の携帯電話機やヘッドフォンステレオのスピーカ、あるいは、ヘッドフォンを通じた音声再生出力によって、その識別結果をユーザに提示する装置である。ここでは、ユーザが、携帯型ヘッドフォンステレオや携帯電話のイヤホンなど音響的な閉鎖性の高い音響機器を装着しているため、周囲環境の音声を聞き取り難い状況で、路上、駅構内、電車車輛内などを徒歩により移動中であり、ユーザの動作状況、具体的には、ユーザの歩行状況に依存した重要度に応じて、識別結果の出力形態に処理を施し、識別結果をユーザに知らせることを想定して、る。

[0116] 本実施の形態 2に係る音声識別装置の構成および動作は、上記実施の形態 1に係る音声識別装置 100の構成及び動作と略共通するが、音声識別結果をユーザに伝達すべき重要性の度合いを意味する重要度を明示的に用いる点で異なる。以下では、異なる点を中心に説明することとする。

[0117] 図 7は、本実施の形態 2に係る音声識別装置 100aの機能的な構成を示すブロック図である。音声識別装置 100aは、音声識別装置 100 (図 1を参照）における出力形態定義情報格納部 107及び出力形態決定部 106を、それぞれ重要度定義情報格納部 207及び音声情報重要度判定部 206に置き換えて構成される。

[0118] ここで、音声情報重要度判定部 206は、重要度判定手段の一例である。

[0119] 本実施の形態 2に係る音声識別装置においては、路上、駅構内、電車車輛内などを移動中のユーザの周囲音声に関して、「自動車のクラクション」、「車輛進入を知らせる駅ホームの警告音」、「駅到着を知らせる車輛内アナウンス音声」の 3種類の音声種を想定しており、これらの音声種に対応して、実施の形態 1と同様の構成の音響モデルが、音響モデル格納部に格納されている。

[0120] また、重要度定義情報格納部 207には、あら力じめ上記の音声種ごとに定められた重要度の定義情報が格納されて、る。 [0121] 図 8 (b)は、本実施の形態 2に係る音声識別装置の、重要度定義情報格納部 207 に格納される重要度定義情報の一例を示す図である。図 8 (b)に示すように、識別対象である入力音声の種別として、「自動車のクラクション」、「車輛進入を知らせる駅ホームの警告音」、「駅到着を知らせる車輛内アナウンス音声」が示されており、それぞれの音声種別ごとに、ユーザの歩行動作に対応した重要度が定義されている。

[0122] また、ユーザ動作取得部 108は、ユーザの動作を感知するセンサから構成され、ュ一ザの動作に関する情報を取得して、音声情報重要度判定部 206に出力する。ュ一ザ動作取得部 108は、実施の形態 1では「方向指示器を出す Z戻す」といった比較的短時間で完了する動作を検出した力本実施の形態 2においては、例えば「歩行中 Z停止中」といった、より長い時間の幅を持った動作 (言うなればユーザの動作状況)を検出する。

[0123] 図 8 (c)は、本実施の形態 2に係る音声識別装置の、ユーザ動作取得部で取得されるユーザの歩行状況の一例を示す図である。図 8 (c)に例示する、「歩行中」、「停止中」などのユーザの歩行状況は、加速度センサを搭載した歩数計でユーザ動作取得部を構成することにより、検出することが可能である。

[0124] さらに、出力処理方法定義情報格納部 111には、あらかじめ音声情報の重要度ごとに定められた出力処理方法の定義情報が格納されており、図 8 (a)に示すように、重要度に応じた音量で、入力音声を再生して識別結果の出力を行なうことが定義されている。

[0125] そして、音声情報重要度判定部 206は、照合部 104から取得した判定結果と、ュ一ザ動作取得部 108から得られるユーザ動作に関する情報と、重要度定義情報格納部 207に格納されている重要度定義情報とに基づいて、入力音声の重要度を判定し、その判定結果を音声識別結果出力処理部 110へ出力する。また、音声識別結果出力処理部 110は、音声情報重要度判定部 206から取得した音声情報の重要度と、出力処理方法定義情報格納部 111に格納されている、重要度ごとに定められた出力処理方法の定義情報とに基づいて、音声記憶部 103に記憶されている音声信号に、いかなる音響的処理を施すかを決定し、決定された処理を施した音声信号を、音声識別結果出力として再生出力する。 [0126] ここでは、具体的な例として、本実施の形態 2に係る音声識別装置の照合部 104において、入力されたユーザ周囲の音声が、「自動車のクラクション」に最も類似しているという判定がなされた場合を想定して説明する。

[0127] この場合において、ユーザ動作取得部 108で、ユーザの歩行状況が「停止中」であると特定されると、音声情報重要度判定部 206は、図 8 (b)に示した重要度定義情報を参照することで、入力音声の重要度を、「2」と判定する。

[0128] その後、音声識別結果出力処理部 110は、図 8 (a)に示した出力処理方法定義情報を参照して、受け取った重要度の判定結果に対応する出力処理方法を決定する。上記の例では、重要度が「2」であるため、音声識別結果出力は、音声記憶部 103に格納されて、る音声信号を「55dBA」で再生出力すると!/、う出力処理方法に決定されること〖こなる。

[0129] 一方、ユーザ動作取得部 108で、ユーザの歩行状況力 ^歩行中」であると特定された場合、音声情報重要度判定部 206は、図 8 (b)に示した重要度定義情報を参照することで、入力音声の重要度を、「5」と判定する。

[0130] その後、音声識別結果出力処理部 110は、図 8 (a)に示した出力処理方法定義情報を参照して、受け取った重要度の判定結果に対応する出力処理方法を決定する。この場合では、重要度が「5」であるため、音声識別結果出力は、音声記憶部に格納されて、る音声信号を「70dBA」で再生出力すると!/、う出力処理方法に決定されることになる。

[0131] このように、ユーザの歩行状況に依存して変化する重要度に応じて、音声識別結果の出力が変わることを、図 9を用いて説明する。

[0132] 図 9 (a)には、本実施の形態 2に係る音声識別装置 100aを装着したユーザが、横断歩道のある交差点で立ち止まっており、その交差点に自動車 300がクラクションを鳴らしながら進入して、る様子が示されて、る。

[0133] すなわち、ここに示す条件下では、ユーザ周囲の音声として、「自動車のクラクション」が音声識別装置 1 OOaに入力されるとともに、ユーザの歩行状況として「停止中」が音声識別装置 100aに取得されると考えられる。

[0134] ここで、音声識別装置 100aが、この状況下における入力音声「自動車のクラクション」の重要度を判定すると、図 8 (b)に示した重要度定義情報から、入力音声の重要度は低い（重要度「2」）という判定結果が得られ、音声識別装置 100aは、図 8 (a)に示した出力処理方法定義情報から、音声識別結果を「55dBA」で出力することになる。

[0135] また、このとき、音声識別装置 100aは、一体ィ匕されている携帯型ヘッドフォンステレォのオーディオの再生音量を維持させたままで、オーディオ音量よりも小さ!/、音量で音声識別結果を再生出力するようにしてもょヽ。

[0136] このように、ユーザの歩行状況を考慮して、入力音声の重要度が低、と判定される場合には、音声識別結果出力の音量を抑えることにより、ユーザは、不要な周囲音声情報に妨げられずに、オーディオを聞くことが可能となる。

[0137] 一方、図 9 (b)には、本実施の形態 2に係る音声識別装置 100aを装着したユーザ力横断歩道を渡っているところに、交差点に自動車 300がクラクションを鳴らしながら左折しょうとして、る様子が示されて、る。

[0138] すなわち、ここに示す条件下では、ユーザ周囲の音声として、「自動車のクラクション」が音声識別装置 100aに入力されるとともに、ユーザの歩行状況として「歩行中」が音声識別装置 100aに取得されると考えられる。

[0139] ここで、音声識別装置 100aが、この状況下における入力音声「自動車のクラクション」の重要度を判定すると、図 8 (b)に示した重要度定義情報から、入力音声の重要度は高い（重要度「5」）という判定結果が得られ、音声識別装置 100aは、図 8 (a)に示した出力処理方法定義情報から、音声識別結果を「70dBA」で出力することになる。

[0140] また、このとき、音声識別装置 100aは、一体ィ匕されている携帯型ヘッドフォンステレォのオーディオの再生音量を下げて、オーディオ音量よりも大き!/、音量で音声識別結果を再生出力するようにしてもょヽ。

[0141] このように、ユーザの歩行状況を考慮して、入力音声の重要度が高、と判定される場合には、音声識別結果出力の音量を大きくすることで、ユーザに、重要な情報を知らせることがでさるよう〖こなる。

[0142] 以上のような音声識別装置 100aの動作により、徒歩で移動中のユーザに対し、「自動車のクラクション」を、歩行状況が「歩行中」時であれば、ユーザが自動車の接近に気づかな、で歩行を続けてしまうことで、自動車と接触してしまうことを防止するという目的から重要度が高いと考えられるので、大きな音量で音声識別結果を再生出力することができ、歩行状況が「停止中」時であれば、このような事故の可能性が低いことから重要度が低いと考えられるので、小さな音量で音声識別結果を再生出力することがでさる。

[0143] また、例えば、本実施の形態 2に係る音声識別装置の照合部 104において、入力音声が「駅到着を知らせる車輛内アナウンス音声」に最も類似しているという判定がなされた場合は、以下のような処理を行なうこととなる。

[0144] すなわち、ユーザ動作取得部で、歩行状況が「停止中」と特定された場合、ユーザは電車に乗車中で、車両が駅へ到着したことに気づいていないと考えられるので、音声情報重要度判定部 206は、入力音声の重要度は高い、すなわち、「5」であると判定し、音声識別結果出力処理部は、重要度「5」に対応した出力処理方法として、音声記憶部に記憶された音声信号が「70dBA」で再生出力されるように音量の設定処理を行ない、これを音声識別結果出力として、再生出力する。

[0145] 一方、照合部 104で同じ「駅到着を知らせる車輛内アナウンス音声」と判定されても、歩行状況が「歩行中」であれば、ユーザは既に駅への到着に気づいて降車のために歩行していると考えられるので、音声情報重要度判定部は、該入力音声の重要度は比較的低い、すなわち、「2」であると判定し、音声識別結果出力処理部は、重要度「2」に対応した出力処理方法として、音声記憶部に記憶された音声信号を「55dB Ajに再生出力されるように音量の設定処理を行ない、これを音声識別結果出力として、再生出力する。

[0146] 以上のような音声識別装置の動作により、徒歩で移動中のユーザに対し、「駅到着を知らせる車輛内アナウンス音声」を、歩行状況力 ^停止中」時であれば、乗り過ごしを防止するという目的から重要度が高いと考えられるので、大きな音量で再生出力することができ、歩行状況が「歩行中」であれば、乗り過ごす可能性が低いことから重要度が低いと考えられるので、小さな音量で再生出力することができ、ユーザの歩行状況によって変化する重要度に応じた識別結果出力形態で、音声識別結果を出力することが可能となる。

[0147] このように、本実施の形態 2に係る音声識別装置によっても、照合部 104、音声情報重要度判定部 206、重要度定義情報格納部 207、ユーザ動作取得部 108、音声識別結果出力処理部 110および出力処理方法定義情報格納部 111を備える構成により、照合部 104で判定された類似判定結果に対して、音声情報重要度判定部 2 06で入力音声の重要度を判定し、その判定結果に基づいて、音声識別結果出力処理部 110が、出力形態に応じた処理を入力音声に加えて、音声識別結果として出力することが可能となり、ユーザにとって重要な音声情報を、ユーザの動作状況に依存して変化する入力音声情報の重要度に応じて確実に伝達することができる。

[0148] なお、本実施の形態 2においては、歩数計等によって実現されるユーザ動作取得部で、ユーザの歩行状況を取得し、その歩行状況に基づいて、音声情報重要度判定部が音声情報重要度を判定する例を説明したが、携帯電話機のキー操作やへッドフォンステレオのボタン操作に関する情報から、ユーザの動作状況を特定することも可能である。

[0149] また、本実施の形態 2においては、ユーザが使用中のヘッドフォンステレオや携帯電話機と一体化された音声識別装置の構成を例に説明したが、これらの機器と一体化されて!/、な、、独立した構成によって実現することも可能である。

[0150] また、本実施の形態 2においても、実施の形態 1と同様に、音声到来方向を加味した重要度定義情報を用いることによって、音声の到来方向に依存する重要度を反映した出力形態を決定することは容易に可能である。

[0151] 以上、本発明に係る音声識別装置について各実施の形態に基づいて説明したが、本発明は、これらの実施の形態に限定されるものではなぐその範囲を逸脱することなく本発明の趣旨に沿って様々の変形または修正が可能であることはいうまでもない

[0152] 例えば、上記各実施の形態では、音声識別装置について、自動車の車内や携帯型ヘッドフォンステレオなどの閉鎖性の高い空間における使用を想定して説明したが

、例えば、屋内のユーザを想定し、ユーザの呼吸動作を検知して、検知した呼吸動作力ユーザが就寝中と判断される時に、入力音声がガラス窓を破損するような不審な物音であると判定された場合に、この音量を大きくして音声識別結果を再生出力するという応用も可能である。

産業上の利用可能性

本発明に係る音声識別装置は、ユーザにとって重要な音声情報を、ユーザの動作状況に依存して変化する重要度に応じて確実に伝達することができ、ユーザの安全運転補助を目的とした車載用の安全補助装置、歩行中や電車などにより移動中のュ一ザに周辺状況の情報を提供することを目的とした携帯電話機等の情報端末機器、あるいは、本装置を備えたヘッドフォンステレオ等に適用することができる。さらには、防犯、事故防止などを目的として、家庭やオフィスなどに備え付けられるセキュリティ機器等としても有用である。

Claims

請求の範囲

[1] 入力音声を識別して識別結果をユーザに提示する音声識別装置であって、

前記入力音声を表す音声信号の特性を用いて、前記入力音声の種別を判定する音声種別判定手段と、

現在の状況を変化させるユーザの動作を検出するユーザ動作検出手段と、前記音声種別判定手段によって判定された種別と、前記ユーザ動作検出手段によつて検出された動作とに基づいて、前記識別結果をユーザに提示するための出力形態を決定し、前記識別結果を、決定した出力形態で出力する識別結果出力手段とを備える

ことを特徴とする音声識別装置。

[2] 前記音声識別装置は、さらに、

前記音声信号を記憶する音声記憶手段を備え、

前記識別結果出力手段は、前記識別結果として、前記音声記憶手段に記憶されている音声信号を出力する

ことを特徴とする請求項 1記載の音声識別装置。

[3] 前記識別結果出力手段は、前記決定された出力形態に基づいた音響処理を前記音声信号に施して、音響処理後の音声信号を出力する

ことを特徴とする請求項 2記載の音声識別装置。

[4] 前記音声識別装置は、さらに、

前記入力音声が到来する方向を検出する音源方向検出手段を備え、前記識別結果出力手段は、さらに、前記音源方向検出手段によって検出された方向を加味して、前記出力形態を決定する

ことを特徴とする請求項 1記載の音声識別装置。

[5] 前記音声識別装置は、さらに、

前記音声種別判定手段によって判定された種別と、前記ユーザ動作検出手段によつて検出された動作とに基づいて、前記識別結果をユーザに伝達すべき重要性の度合!、を意味する重要度を判定する重要度判定手段を備え、

前記識別結果出力手段は、前記重要度判定手段によって判定された重要度に応じて前記出力形態を決定し、決定された出力形態で前記識別結果を出力することを特徴とする請求項 1記載の音声認識装置。

[6] 前記音声識別装置は、さらに、

前記入力音声の種別ごとの重要度を、前記ユーザの動作ごとに定義した重要度定義情報を格納する重要度定義情報格納手段を備え、

前記重要度判定手段は、前記音声種別判定手段によって判定された種別と前記ユーザ動作検出手段によって検出された動作とを、前記重要度定義情報と照合して、前記重要度を判定する

ことを特徴とする請求項 5記載の音声識別装置。

[7] 前記音声識別装置は、さらに、

前記入力音声が到来する方向を検出する音源方向検出手段と、

前記入力音声の種別ごとの重要度を、前記ユーザの動作および前記入力音声が到来する方向ごとに定義した重要度定義情報を格納する重要度定義情報格納手段を備え、

前記重要度判定手段は、前記音声種別判定手段によって判定された種別、前記ユーザ動作検出手段によって検出された動作、および、前記音源方向検出手段によつて検出された方向を、前記重要度定義情報と照合して、前記重要度を判定することを特徴とする請求項 5記載の音声識別装置。

[8] 前記音声識別装置は、さらに、

前記識別結果の出力形態を、前記重要度ごとに定義した出力処理方法定義情報を格納する出力処理方法定義情報格納手段を備え、

前記識別結果出力手段は、前記重要度判定手段によって判定された重要度を、前記出力処理方法定義情報と照合して、前記出力形態を決定する

ことを特徴とする請求項 5記載の音声識別装置。

[9] 前記出力処理方法定義情報には、前記出力形態として、前記識別結果を音声出力する場合における出力音量が定義されてヽる

ことを特徴とする請求項 8記載の音声識別装置。

[10] 前記出力処理方法定義情報には、前記出力形態として、前記識別結果の出力回数が定義されている

ことを特徴とする請求項 8記載の音声識別装置。

[11] 前記ユーザ動作検出手段は、自動車を運転するユーザの運転動作を検出することを特徴とする請求項 1記載の音声識別装置。

[12] 前記ユーザ動作検出手段は、歩行しているユーザの歩行動作を検出する

ことを特徴とする請求項 1記載の音声識別装置。

[13] 入力音声を識別して識別結果をユーザに提示する音声識別方法であって、

前記入力音声を表す音声信号の特性を用いて、前記入力音声の種別を判定する音声種別判定ステップと、

現在の状況を変化させるユーザの動作を検出するユーザ動作取得ステップと、前記音声種別判定ステップにお!ヽて判定された種別と、前記ユーザ動作取得ステップにおいて検出された動作とに基づいて、前記識別結果をユーザに提示するための出力形態を決定し、前記識別結果を、決定した出力形態で出力する識別結果出力ステップとを含む

ことを特徴とする音声識別方法。

[14] 入力音声を識別して識別結果をユーザに提示する音声識別装置に用いられる、コンピュータ実行可能なプログラムであって、

現在の状況を変化させるユーザの動作を検出するユーザ動作取得ステップと、前記音声種別判定ステップにお!ヽて判定された種別と、前記ユーザ動作取得ステップにおいて検出された動作とに基づいて、前記識別結果をユーザに提示するための出力形態を決定し、前記識別結果を、決定した出力形態で出力する識別結果出力ステップとをコンピュータに実行させる

ことを特徴とするプログラム。