WO2006025106A1

WO2006025106A1 - 音声認識システム、音声認識方法およびそのプログラム

Info

Publication number: WO2006025106A1
Application number: PCT/JP2004/012626
Authority: WO
Inventors: Kenichi Mizuishi; Masahito Tagami
Original assignee: Hitachi, Ltd.
Priority date: 2004-09-01
Filing date: 2004-09-01
Publication date: 2006-03-09
Also published as: JPWO2006025106A1; JP4478146B2

Abstract

　車両内に設置された複数のマイクロホンにより入力された音声から、発話者の音声を分離して音声認識を行う音声認識システムを、発話者の音声の音源位置を示すプリセット情報を記憶する記憶装置と、記憶装置に記憶された発話者のプリセット情報を参照して、マイクロホンから入力された音声から前記発話者の音声を分離し、音声認識を行う音声認識部とを有する構成とした。

Description

明細書

音声認識システム、音声認識方法およびそのプログラム

技術分野

[0001] 本発明は、音声認識システム、音声認識方法およびそのプログラムに関する。

背景技術

[0002] 車両の運転者が、ナビゲーシヨン装置等の車載情報端末を操作するとき、運転者が脇見運転をして事故を起こさないよう、車室内において音声コマンドによりナビゲーシヨン装置に命令伝達する技術がある。

この技術では、周囲から大きな騒音が混入したとき（例えば、車両がトンネル内を走行したとき等）、音声コマンドの S/N (Signal/Noise)比が低下して、音声コマンドの音声認識率が低下しやすいとレ、う問題がある。

この問題を解決するため、運転者からの音声（音声コマンド）と、周囲からの騒音とを 2つの音源としてとらえ、これらの音声を分離する工夫がなされてきた。

[0003] 従来からある音声分離技術は、以下の 2つに大別される。

(1)マイクロホンの指向性に基づき音声を分離する技術 (特許文献 1一特許文献 3 参照）。

(2)複数のマイクロホンから取り込まれた運転者 (発話者）の音声と車室内の雑音とを、情報処理装置の計算機内部で信号処理を行うことによって見分けて分離する技術 (非特許文献 1一非特許文献 3参照)。

なお、（2)の信号処理に用いられるアルゴリズムとしては、独立成分分析 (ICA、 Independent Component Analysis)を用いて、音声の受信信号だけで音源を分離する BSS (Blind Source S印 aration)とレ、う技術が知られている。

特許文献 1 :特開 2003—044092号公報 (請求項 1)

特許文献 2：特開平 11-298988号公報 (請求項 1)

特許文献 3：特開 2001 - 337694号公報 (請求項 1)

特 3午文献 1： A.J.Bell and T.J.Sejinowski, An information-maximization approach to blind separation and blind deconvolution, Neural Computation, Vol.7, Νο.6,ρρ.1129-1159, 1995.

特許文献 2： S.Kurita,H.Saruwatari,S.Kajita,K.Takeda,F.Itakura, "Evaluation of blind signal separation method using directivity pattern under reverberant conditions, "Proc, IEEE, International Conference on Acoustic, Speech, and Signal Processing, SAM-P2-5, pp.3140—3143 June,2000.

非特許文献 3 :猿渡洋、澤井克之、他、〃ブラインド音源分離とサブバンド除去処理を用いた車室内音声認識"、清学技報、 Vol. 102, No.35, pp. 7-12.

発明の開示

発明が解決しょうとする課題

[0004] しかし、前記した技術のいずれもが、車室内の発話者の音声と、周囲の雑音 (騒音 )とを分離するときに CPU (Central Processing Unit)が複雑なアルゴリズムを高速で処理する必要がある。すなわち、発話者の音声コマンドの認識をする際に CPU資源を多く消費するので、音声コマンドの認識に要する時間が長くなるという問題、あるいは音声コマンドの認識に要する時間を短縮しょうとすると処理能力の高い CPUを使う必要があるので、コストアップに繋がるという問題がある。また、発話者の体格や座席シートの位置や傾斜角度の調整によって、音声認識率が低下してしまうという問題もある。

[0005] そこで、本発明は、前記した問題を解決し、発話者の音声コマンドの認識をする際の CPU資源の消費を抑え、発話者が発話する位置が変化した場合にも音声認識率を低下させない音声認識システムを提供することを課題とする。

課題を解決するための手段

[0006] 前記した課題を解決するため、本発明の音声認証システムは、発話者の音声の音源位置を示したプリセット情報を記憶する記憶装置と、この記憶装置に記憶された発話者のプリセット情報を参照して、マイクロホンにより入力された音声から発話者の音声を分離し、音声認識を行う音声認識部とを有する構成とした。

また、本発明の音声認識システムは、発話者の座席シートの位置を検出するセンサをさらに備え、記憶装置は、発話者の座席シートの位置ごとのプリセット情報を記憶し、プリセット情報検索部は、センサから発話者の座席シートの位置を取得し、取得した座席シートの位置に基づいて、記憶装置からプリセット情報を検索し、音声認識部に出力する構成とした。その他の構成については、後記する。

発明の効果

[0007] 本発明によれば、以下のような効果が得られる。

(1)音声認識システムは発話者ごとの音源位置を予め記憶しておくので、異なる発話者 (運転者)が利用する場合にも、発話者の音声と雑音 (騒音)との音源分離が容易となる。また、発話者の体格や座席シートの位置の調整の仕方によって、発話者が発話する位置が変化したときに、音声コマンドの音声認識率が低下してしまうことを防止できる。

(2)音声認識システムは予め記憶された音源位置の情報に基づレ、て音声分離処理を行うので、音声分離に要する CPU資源が節約される。したがって、音声分離処理（音声認識処理）に要する時間も短縮化でき、発話者が音声コマンドで車載端末装置を操作するときの操作レスポンスを向上させることができる。つまり、発話者は音声コマンドによる操作を行いやすくなる。

(3)運転者である発話者が音声コマンドで車載情報端末の操作をしやすくなることで、運転中の視覚や手動での操作により、交通事故が発生する可能性を低くすることができる。すなわち、車両の運転時の安全性を向上させることができる。

発明を実施するための最良の形態

[0008] 次に、本発明を実施するための最良の形態（以下、実施の形態とする）について、適宜図面を参照して詳細に説明する。

《第 1の実施の形態》

本発明の第 1の実施の形態は、本発明の音声認識システムをナビゲーシヨン装置に適用したものである。図 1は、本実施の形態の音声認識システムを示すブロック図である。

本実施の形態の音声認識システムは、車両 1の発話者 31 (31A，B)の音声入力を受け付けるマイクロホン (音声入力手段） 14と、ナビゲーシヨン装置 (車載情報端末） 1 0と、ナビゲーシヨン装置 10からの音声データを出力するスピーカ（音声出力手段） 1 5 (15A，B)と、ナビゲーシヨン装置 10からの画像データを出力するモニタ（表示手段 ) 13と、発話者 31 (31A,B)がナビゲーシヨン装置 10に各種情報の入力を行うリモートコントローラ (入力手段） 18と、リモートコントローラ 18から入力された各種情報を受け付けるレシーバ 19とを含んで構成される。

[0009] マイクロホン 14は、ナビゲーシヨン装置 10と接続され、発話者 31 (31A,B)の音声入力を受け付けると、この音声情報をナビゲーシヨン装置 10へ出力する。

ここで、マイクロホン 14は、図 1に示すように少なくとも 2個のマイクロホン（マクロホン

14A，B)で構成されることが好ましい。このようにすることで、ナビゲーシヨン装置 10は

、発話者 31 (31A,B)の音源の位置を正確に特定することが可能になる。もちろん、マイクロホン 14は 3個以上で構成されてレ、てもよレ、。

[0010] リモートコントローラ 18は、発話者 31 (31A，B)の IDや、プリセット情報の呼び出し指示等、各種情報をナビゲーシヨン装置 10に入力する入力手段である。

レシーバ 19は、リモートコントローラ 18経由で入力された情報を受信し、この情報をナビゲーシヨン装置 10へ出力する。

[0011] なお、リモートコントローラ 18とレシーバ 19との間は、赤外線やブルートゥース等で無線通信を行うようにしてもよいし、ケーブル等で接続して有線通信を行うようにしてあよい。

また、モニタ 13は、発話者 31 (31A,B)が画面に触れることで各種情報の入力を行えるようにしてもよレ、。つまり、モニタ 13は、タツチパネル機能を備えるようにしてもよいなお、リモートコントローラ 18は、所定の通信機能を備えた携帯電話機や PDA ( Personal Digital Assistant)で 3Dつ" Xもよレヽ。

[0012] 図 2 (a)は、音声認識システムのブロック図であり、図 2 (b)は、図 2 (a)の CPUにより実現される機能を示したブロック図である。

図 2 (a)に示すように、ナビゲーシヨン装置 10は、 AZD (Analog/Digital)変換装置 16と、 CPU (中央演算装置、 Central Processing Unit) 17と、記憶装置 21と、 D/A ( DigitalZAnalog)変換装置 24とを含んで構成される。

[0013] AZD (AnalogZDigital)変換装置 16は、マイクロホン 14から入力された発話者 31 の音声コマンドを、アナログ波形からデジタル信号へ変換する。そして、デジタル信号に変換した音声コマンドを、 CPU17へ出力する。

[0014] CPU17は、その機能上、図 2 (b)に示すように、音源位置特定部 23と、音声認識部 20と、プリセット情報検索部 25と、ナビゲーシヨン処理部 22とに区分される。ここに示される各構成は、 CPU17が、記憶装置 21に記憶された音源位置の特定用プログラム、音声認識用プログラム等を実行することにより実現される。

なお、図 2 (b)では、マイクロホン 14、レシーバ 19からの入力、モニタ 13、スピーカ 1

5への出力は省略している。

[0015] 音源位置特定部 23は、 A/D変換装置 16でデジタル信号に変換された音声コマンドを受信すると、音声コマンドの位相情報 (進みや遅延）および強度分布を演算処理して、音声コマンドの発声の指向性を分析し、発話者 31の音声の音源位置を特定する。そして、この音源位置を発話者 31のプリセット情報 (詳細は後記）として、記憶装置 21に登録 (記憶)する。

なお、音源位置の特定には、公知の技術 (特許文献 1一 3、非特許文献 1一 3)を用レ、るものとし、このときの音源位置の特定精度は、 ± 5cm程度とする。

[0016] プリセット情報検索部 25は、リモートコントローラ 18等からの発話者 31の ID等の入力を受けて、記憶装置 21から発話者 31のプリセット情報を検索する。そして、検索されたプリセット情報を音声認識部 20に受け渡す。

なお、プリセット情報検索部 25は、モニタ 13上に、記憶装置 21に記憶されたプリセット情報を表示して、発話者 31にプリセット情報の選択入力を促す画面を出力するようにしてもよい。

[0017] 音声認識部 20は、マイクロホン 14経由で音声の入力を受けると、発話者 31のプリセット情報を参照して、この音声コマンドの指向性を設定した音声信号を作成する。そして、入力された音声力も発話者 31の音声を分離する。そして、分離された音声（音声コマンド）の音声信号がどのようなコマンドを示す力 ^分析する。つまり、記憶装置 21に記憶された音声辞書 (音声信号ごとに、その音声信号の意味するコマンドを示した情報）を参照して、音声コマンドを所定のコマンドとして認識する。

このとき、音声認識部 20が音源位置を特定したあとの、音声コマンドの指向性を設定した音声信号の作成、発話者 31の音声の分離および音声コマンドの分析は公知の技術を用レ、るものとする。

[0018] ナビゲーシヨン処理部 22は、音声認識部 20からコマンドの出力を受けると、このコマンドに基づき、各種ナビゲーシヨン処理を行う。

これら各構成要素の動作の詳細は、後記する。

[0019] 記憶装置 21は、前記したプリセット情報、音源位置の特定用プログラム、音声認識用プログラム、プリセット情報登録用プログラム、音声辞書等を記憶し、ハードディスクや不揮発性メモリ等により構成される。

なお、音声辞書とは、音声信号ごとに、その音声信号の意味するコマンドを示した情報である。

ここで、記憶装置 21に記憶されるプリセット情報を、図 3を用いて説明する。図 3は、図 2 (a)の記憶装置に記憶されるプリセット情報を例示した図である。

[0020] 図 3に示されるように、プリセット情報は、発話者 31 (車両 1の乗員）ごとに、その発話者 31が音声コマンドを発声するときの音源位置の情報を記憶する。

例えば、図 3において、発話者 31Aが発声するときの音源位置は (X、 Y )であり、

1 1 発話者 31Cが発声するときの音源位置は (X、 Y )であることを示している。

3 3

なお、このプリセット情報は、記憶装置 21では座標位置データで格納しておき、モニタ 13に表示するときには、発話者 31が発声するときの音源位置を示した画像データ（図 3参照）を作成し、出力するようにしてもよい。

[0021] なお、発話者 31が座席シートの位置を前方または後方に移動させたとき（図 3の発話者 31A，C参照）や、異なる者が発話者 31となったときのことを考慮して、車両 1の運転を開始するたびに、発話者 31がプリセット情報を登録するようにしてもよい。また、予め所定の者が運転者 (発話者)となることが決まっていれば、その運転者 (発話者 )のプリセット情報を登録しておき、発話者 31が車両 1の運転を開始するとき、発話者 31がナビゲーシヨン装置 10に ID等を入力して、プリセット情報を呼び出すようにしてあよい。

また、このプリセット情報は、運転席の発話者 31 A,Cのものだけでなぐ助手席の発話者 31B (図 3参照）の音源位置や、後部座席の乗員の音源位置（図示せず)の情報を含んでいてもよい。このようにすることで、運転席以外の発話者 31も音声コマンドでナビゲーシヨン装置 10を操作できるようになる。

[0022] ちなみに、プリセット情報における音源位置の情報は、（X、 Y)の二次元情報として記憶されるものとした力これに高さに関する情報をカ卩えて、三次元の情報 (Χ、 Υ、 Ζ )として記憶されるものとしてもよレ、。この場合には、例えば、ナビゲーシヨン装置 10は 3個のマイクロホン 14から音声を取得するようにして、 CPU17が、高さ方向の音声の指向性を演算するようにする。

このように、ナビゲーシヨン装置 10は発話者 31の音源位置の高さに関する情報を取得することで、 CPU17は、発話者 31の正確な音源位置や音声の指向性を特定できるので、音声分離の演算処理を行いやすくなる。

なお、プリセット情報に記憶される発話者 31の音源位置の精度は、前記したとおり土 5cm程度である。

[0023] 記憶装置 21に記憶されたプリセット情報は、リモートコントローラ 18 (またはモニタ 1 3がタツチパネル機能を備えていればモニタ 13)からの ID等の入力により呼び出される。

例えば、発話者 31が、リモートコントローラ 18等から自己の ID (識別情報）を入力すると、プリセット情報検索部 25が、この IDをキーとして記憶装置 21から発話者 31のプリセット情報を検索し、この情報を呼び出す。

なお、この発話者 31の IDは、発話者 31が、リモートコントローラ 18のキー等を用いて手動で入力してもよいし、リモートコントローラ 18の記憶部（図示せず）に予め記憶させておき、これをナビゲーシヨン装置 10へ送信するようにしてもよい。

[0024] (プリセット情報の登録手順）

図 4は、本実施の形態におけるプリセット情報の登録手順を示したフローチャートである。図 4を用いて、本実施の形態におけるプリセット情報の登録手順（CPU17によるプリセット情報登録用プログラムの実行処理）について説明する（適宜図 1一図 3参照）。

ここでは、モニタ 13 (図 1、図 2参照）がタツチパネルで構成されており、発話者 31は、モニタ 13へのタツチ入力により各種入力を行う場合を例として説明する。

[0025] まず、 CPU17は車両 1のモニタ 13からプリセット情報の登録開始の指示入力（タツチ入力）がされたことを検出すると、記憶装置 21から発話者 31の情報の登録画面を読み出し、モニタ 13に出力する。そして、 CPU17は、モニタ 13経由で発話者 31の情報 (例えば、発話者 31の氏名や ID等）の入力を受け付けると（ステップ S401)、この発話者 31の情報を記憶装置 21に記憶する。

[0026] 次に、 CPU17は、発話者 31に音声コマンドの発声を促す音声データを記憶装置

21から読み出す。そして、この音声データ（音声案内）をスピーカ 15から出力させる（ステップ S402)。

例えば、 CPU17は、スピーカ 15から「発声位置（音源位置）の初期設定を行います。モニタの発声位置設定の開始ボタンを押して下さい。」という音声案内を出力させる。そして、モニタ 13経由で発話者 31から発声位置の開始ボタンの選択入力を受け付けると、 CPU17は、スピーカ 15から「ノヽンドルを握って、通常の運転姿勢をとつてくださレ、。ピーという音の後で、 10秒間の間に音声コマンドを繰り返してください。ピピという音で終了します。」という音声案内を出力させる。そして、「目的地設定」、「レストラン案内」、「リルート」等、予め記憶装置 21に記憶された音声をスピーカ 15から出力して、発話者 31にこれらの音声 (音声コマンド）の発声を促す。

[0027] 続いて、 CPU17は、マイクロホン 14経由で、発話者 31が発声した音声コマンドの入力を受け付ける（ステップ S403)。なお、入力される音声コマンドは、 A/D変換装置 16で、デジタル信号へ変換された音声コマンドである。

CPU17の音源位置特定部 23は、デジタル信号に変換した音声コマンドにおける位相情報 (進みや遅延）および強度分布を演算処理して、音声コマンドにおける発声の指向性を分析する。そして、分析された指向性の情報に基づき、発話者 31の発声の音源位置を特定する（ステップ S404)。そして、この音源位置を発話者 31のプリセット情報として、記憶装置 21に登録し (ステップ S405)、レ、つたん処理を終了する。なお、プリセット情報を登録するときは、ステップ S401で入力された発話者 31の情報 (I D等)も含めるようにする。このようにすることで、プリセット情報検索部 25が発話者 31 の IDをキーとして、記憶装置 21から発話者 31のプリセット情報を呼び出すことができる。

[0028] 図 5は、本実施の形態における音声認識の処理手順を示したフローチャートである。図 5を用いて、本システムが行う音声認識処理（CPU17による音声認識用プロダラムの実行処理）を説明する（適宜図 1一図 4参照）。

ここでも、情報の入力はタツチパネル機能を持つモニタ 13で行われるものとする。

[0029] まず、 CPU17は、モニタ 13経由で発話者 31の情報（ID)の入力を受けると（ステツプ S501)、プリセット情報検索部 25がこの IDをキーとして、記憶装置 21から発話者 3 1のプリセット情報を検索し、このプリセット情報を呼び出す (ステップ S502)。そして、このプリセット情報を音声認識部 20へ受け渡す。

[0030] 次に、音声認識部 20がマイクロホン 14経由で、発話者 31の音声入力を検知すると

(ステップ S503の YES)、プリセット情報検索部 25が検索した発話者 31のプリセット情報を参照して、音声コマンドの音声認識を行う（ステップ S504)。

[0031] すなわち、まず、音声認識部 20は、発話者 31のプリセット情報を参照して、音声（音声コマンド）の指向性を特定する。次に、この指向性に基づき、マイクロホン 14経由で入力された音声を、車室内の雑音 (例えば、トンネル内を走行する際に発生する騒音）と、音声コマンドの音声とに分離する。そして、記憶装置 21の音声辞書を参照して、分離された音声コマンドの音声が意味するコマンドを特定する。

なお、前記した音声の指向性の特定、分離および音声コマンドにおけるコマンドの内容特定は公知の技術を用いるものとする。

[0032] 次に、音声認識部 20は、ステップ S504で特定したコマンドをナビゲーシヨン処理部 22に出力し（ステップ S505)、ナビゲーシヨン処理部 22は、このコマンドにしたがつてナビゲーシヨン処理を行う（ステップ S506)。ここでのナビゲーシヨン処理とは、例えば音声認識部 20から出力されたコマンドにしたがって、モニタ 13にナビゲーシヨン用の画像データを出力したり、 DZA変換装置 21経由で、スピーカ 15にナビゲーシヨン用の音声を出力したりすることをいう。

[0033] このように、音声認識システムの記憶装置 21で発話者 31のプリセット情報を格納しておき、音声認識をするときには、音声認識部 20がこのプリセット情報を参照して音声コマンドの分離を行うようにする。このようにすることで、従来よりも CPU17の音声認識処理の負荷を軽減することができる。

[0034] なお、ここでは、発話者 31の ID入力は、モニタ（タツチパネル） 13から行うようにした、例えば、車両 1のドアの施錠および解錠を無線で行う無線エントリーキーを用いるようにしてもよレ、。すなわち、車両 1のドアオープン時に、レシーバ 19経由で、無線エントリーキーから送信される固有の ID (発話者 31の ID)を取得し、この IDに基づきプリセット情報検索部 25が発話者 31のプリセット情報を呼び出し、音声認識部 20に受け渡すようにしてもよい。

このようにすることで、運転者 (発話者 31)は、手軽に本実施の形態のナビグーション装置 10を利用することができる。

[0035] 《第 2の実施の形態》

本発明の第 2の実施の形態は、記憶装置 21が座席位置 (運転席、助手席、右後部座席、左後部座席等)ごとの標準の音源位置の情報 (標準のプリセット情報)を記憶し、音源位置特定部 23が、この標準のプリセット情報を参照して音源位置の特定を行うことを特徴とする。本実施の形態を図 1一図 5を参照しつつ説明する。

なお、前記した第 1の実施の形態と同様の構成要素は同じ符号を付して、説明を省略する。

[0036] 第 2の実施の形態において音源位置特定部 23は、リモートコントローラ 18等から、発話者 31の座席位置の入力を受けると、入力された座席位置における標準の音源位置の情報を記憶装置 21から呼び出す。そして、音源位置特定部 23は、この標準の音源位置の情報と、発話者 31から取得した音声コマンドとに基づいて発話者 31の音源位置の特定を行う。このようにすることで、音源位置特定部 23は、より正確な音源位置のプリセット情報を作成することができる。また、音源位置特定部 23における音源位置特定処理の負荷を軽減できる。

[0037] ちなみに、音声認識部 20は、前記した標準の音源位置の情報に基づき、発話者 3 1の音声認識処理を行うようにしてもよい。すなわち、プリセット情報検索部 25は、発話者 31の座席位置の選択入力を受けると、記憶装置 21からその座席位置の標準の音源位置に関する情報 (標準のプリセット情報)を読み出し、音声認識部 20に受け渡す。そして、音声認識部 20は、その標準の音源位置に基づき発話者 31の指向性の設定を行い、音声コマンドの音声分離および音声認識処理を行う。このようにすることで、プリセット情報を登録していない者 (例えば、助手席の同乗者）が、一時的に発話者 31になることも容易となる。

[0038] なお、車両 1が座席シートの前後のシフト量 (座席の位置）、背もたれの傾斜角度等を検出するセンサを備え、プリセット情報検索部 25は、このセンサの検出結果に基づきプリセット情報を検索するようにしてもよい。

すなわち、予め記憶装置 21に、車両 1の座席シートの前後へのシフト量、背もたれの傾斜角度ごとの音源位置等を示したプリセット情報を登録しておく。そして、プリセット情報検索部 25は、前記したセンサから座席シートの前後のシフト量、背もたれの傾斜角度等を取得すると、この座席シートの前後のシフト量、背もたれの傾斜角度等に対応するプリセット情報を記憶装置 21から検索する。そして、音声認識部 20は、検索されたプリセット情報に基づき、音声認識を行うようにする。このようにすることで、音声認識部 20の音声認識の処理負荷を軽減することができる。

[0039] また、発話者 31が騒音下で発した音声コマンドを音声認識システムが正しく認識してレ、るか否かの確認ができるようにしてもょレ、。

[0040] まず、発話者 31が、リモートコントローラ 18経由で、ナビゲーシヨン装置 10に音声コマンドが正しく認識されているか否かの確認をする旨の指示入力をする。これを受けて、 CPU17が、記憶装置 21に記憶された騒音データ（例えば、車両がトンネル内を時速 100キロメートノレで走行しているときの騒音データ）を呼び出し、この騒音をスピ一力 15から出力させる。そして、このような騒音下で発話者 31が音声コマンドを発声し、 CPU17は前記した図 5のステップ S503およびステップ S504と同様に、発話者 3 1が発声した音声コマンドを特定する処理を行う。

[0041] そして、 CPU17は、この特定されたコマンドの内容に基づいて、記憶装置 21に記録されているテキスト/音声変換テーブルを参照し、音声コマンドを音声合成信号に変換する。そして、 DZA変換装置 21でアナログ波形に変換し、スピーカ 15から音声合成音として出力させる。すなわち、ナビゲーシヨン装置 10に、発話者 31から入力された音声コマンドを復唱させるようにする。

[0042] ここで、スピーカ 15から出力された音声合成音（復唱された音声コマンド）力発話者 31の発した音声コマンドと同じものであれば、ナビゲーシヨン装置 10で音声コマンドが正しく認識されていることになる。一方、スピーカ 15から出力された音声合成音 (復唱された音声コマンド）が、発話者 31の発した音声コマンドとは異なるものであれば、ナビゲーシヨン装置 10で音声コマンドが正しく認識されていないことになるので、発話者 31は再度プリセット情報を登録する等の処置を取ることができる。

[0043] 以上、本発明の実施の形態について説明した。このような音声認識システムによれば、音声分離処理に要する CPU資源が節約され、音声分離処理に要する時間を短縮化できる。つまり、発話者 31が音声コマンドでナビゲーシヨン装置 10を操作するときの、操作レスポンスを向上させることになり、発話者 31は音声コマンドによる操作を行いやすくなる。また、高度な演算処理能力を持つ CPUを用いる必要がなくなるので音声認識システムを導入する際のコストを低減できる。

さらに、運転者が発話者 31になるとき、音声コマンドによるナビゲーシヨン装置 10の操作をしやすくなるので、運転中の視覚や手動での操作により、交通事故が発生する可能性を低くすることができる。すなわち、運転時の安全性を向上させることができる。

[0044] 本発明は、前記した実施の形態に限定されず、発明の趣旨を逸脱しない範囲で応用可能である。例えば、前記した実施の形態では、本発明の音声認識システムをナビゲーション装置に適用した場合を例に説明したが、他の車載情報端末に適用してあよい。

また、前記した実施の形態において、スピーカ 15から出力される騒音は、記憶装置 21に記憶されている音声データを用いることとした力 S、 CD等の記憶媒体に記憶された音声データを用いるようにしてもょレ、。

また、本実施の形態に係る音声認識システムは、コンピュータ及びプログラムによつて実現することができ、そのプログラムをコンピュータによる読み取り可能な記憶媒体 (CD— ROM等）に記憶して提供することが可能である。さらに、そのプログラムを、ネットワークを通して提供することも可能である。

ここでいうコンピュータシステムとは、 OS (Operating System)等のソフトウェアや周辺機器等のハードウェアを含むものである。

図面の簡単な説明 [0045] [図 1]本実施の形態の音声認識システムの構成を示すブロック図である。

[図 2]図 2 (a)は、音声認識システムのブロック図であり、図 2 (b)は、図 2 (a)の CPUにより実現される機能を示したブロック図である。

[図 3]図 2 (a)の記憶装置に記憶されるプリセット情報を例示した図である。

[図 4]本実施の形態におけるプリセット情報の登録手順を示したフローチャートである

[図 5]本実施の形態における音声認識の処理手順を示したフローチャートである。符号の説明

[0046] 1 車両

10 ナビゲーシヨン装置

13 モニタ

14 (14A, B) マイクロホン

15 (15A, B) スピーカ

16 A/D変換装置

17 CPU

18 リモートコントローラ

19 レシーノ

20 音声認識部

21 記憶装置

22 ナビゲーシヨン処理部

23 音源位置特定部

25 プリセット情報検索部

31 (31A 31C) 発話者

Claims

請求の範囲

[1] 車両内に設置された複数のマイクロホンにより入力された音声から、発話者の音声を分離して音声認識を行う音声認識システムであって、

前記複数のマイクロホンから入力された音声に基づいて、前記発話者の音声の音源位置を特定し、前記特定された音源位置に関する情報を含むプリセット情報を作成する音源位置特定部と、

前記発話者のプリセット情報を記憶する記憶装置と、

前記記憶装置に記憶された前記発話者のプリセット情報を参照して、前記マイクロホンから入力された音声から前記発話者の音声を分離し、音声認識処理を行う音声認識部と、

を有することを特徴とする音声認識システム。

[2] 車両内に設置された複数のマイクロホンにより入力された音声から、発話者の音声を分離して音声認識を行う音声認識システムであって、

画像データを表示する表示手段と、

各種情報の入力を受け付ける入力手段と、

前記発話者のプリセット情報を記憶する記憶装置と、

前記プリセット情報の選択入力を促す画面を前記表示手段へ出力し、前記入力手段からの選択入力に基づいて、前記記憶装置から前記発話者のプリセット情報を検索するプリセット情報検索部と、

前記検索された発話者のプリセット情報を参照して、前記マイクロホン力入力された音声から前記発話者の音声を分離し、音声認識処理を行う音声認識部と、を有することを特徴とする音声認識システム。

[3] 前記音声認識システムは、前記発話者の座席シートの位置を検出するセンサをさらに備え、

前記記憶装置は、前記発話者の座席シートの位置ごとのプリセット情報を記憶し、前記プリセット情報検索部は、前記センサから前記発話者の座席シートの位置を取得し、前記取得した座席シートの位置に基づいて、前記記憶装置からプリセット情報を検索するよう構成されていることを特徴とする請求項 1または請求項 2に記載の音声言忍識システム。

[4] 前記入力手段は、車両の無線エントリーキーであることを特徴とする請求項 2または請求項 3に記載の音声認識システム。

[5] 車両内に設置された複数のマイクロホンにより入力された音声から、発話者の音声を分離して音声認識を行う音声認識方法であって、

発話者の音源位置の特定を行う音源位置特定部が、前記複数のマイクロホンから入力された音声に基づいて、前記発話者の音声の音源位置を特定し、前記特定された音源位置に関する情報を含むプリセット情報を作成し、このプリセット情報を記憶装置に記憶するステップと、

音声認識処理を行う音声認識部が、前記記憶装置に記憶された前記発話者のプリセット情報を参照して、前記マイクロホンにより入力された音声から前記発話者の音声を分離して、前記分離された発話者の音声の音声認識処理を行うステップと、を実行することを特徴とする音声認識方法。

[6] コンピュータに、請求項 5に記載の音声認識方法を実行させることを特徴とする音声認識用プログラム。