WO2012165657A1

WO2012165657A1 - 音声処理システム、音声処理装置、音声処理方法およびそのプログラム

Info

Publication number: WO2012165657A1
Application number: PCT/JP2012/064611
Authority: WO
Inventors: 隆行荒川
Original assignee: 日本電気株式会社
Priority date: 2011-06-03
Filing date: 2012-05-31
Publication date: 2012-12-06
Also published as: JP2014178339A

Abstract

ユーザに、音声を入力するタイミングと方向を報知する音声処理システムを提供する。音声処理システムは、発話者からの音声を元に第１の入力音声信号を生成する第１のマイクロホンと、第１のマイクロホンとは異なる位置に設けられ第２の入力音声信号を生成する第２のマイクロホンと、第２の入力音声信号を元に第１の入力音声信号に含まれる雑音信号を推定して、推定雑音信号を生成し、推定雑音信号を元に雑音信号を抑圧する雑音抑圧手段と、発話者に発話の方向及びタイミングを報知する報知手段と、報知手段による報知処理と雑音抑圧手段による雑音抑圧処理を制御する起動手段とを備える。

Description

音声処理システム、音声処理装置、音声処理方法およびそのプログラム

　本発明は、発話者から取得した音声を処理する、音声処理システム、音声処理装置、音声処理方法及びそのプログラムに関する。

　携帯電話機の普及により、電話での通話による通信の自由度は大きくなってきている。また、最近は、電子機器へ入力方法の一つとして、ユーザから発せられた音声が電子機器により認識され、制御に利用される。
　音声の認識及び利用においては、音声の取得時に同時に混入するノイズと信号との弁別が行われる。近年、携帯電話の通話或いは音声認識はさまざまな環境で行われ、混入するノイズの除去がますます重要になっている。
　特許文献１には、ユーザと表示装置との距離を測定し、該距離が所定範囲内であり、かつ、ユーザが該所定範囲内に所定時間滞在すると判定される場合に、マイクロホンから入力された音声の認識を開始する技術が記載される。
　また、特許文献２には、通信のための呼び出し信号の受信時に、表示手段の動作により、乗り物の運転者または同乗者に、外部からの着信を視覚的に認識させる技術が記載される。
　さらに、特許文献３には、集音用のマイクロホンにより取得された音声信号と、ノイズ集音用のマイクロホンにより取得された音声信号とに基づいて、所望の音から周囲のノイズを除去する技術が記載される。

特開２００３−０４４０８９号公報特開２００３−０８７３５９号公報特開２００８−０３５３５６号公報

　例えば、携帯電話或いは音声認識処理により制御される電子機器が自動車に搭載され、運転者がユーザとして発話する場合、該運転者は運転操作をしながら発話することがある。運転操作をする運転者が、発話するために、視線を携帯電話または該電子機器に移動させることは危険である。
　このため、運転者は、運転操作に支障のない単純な操作で、発話開始を電子機器に指示し、発話開始の許可を確認した後に発話を開始する。
　携帯電話或いは電子機器には、運転者に発話開始許可を通知する機能が要求される。さらに、マイクロホンの方向、すなわち、運転者がどのマイクロホンに発話するか、を運転者に通知する機能が要求される。
　特許文献１は、ユーザと表示装置との距離を元に音声認識の開始時期が判断されるのみであり、ユーザによる発話時期の要求には対応できない。
　特許文献２は、呼び出し信号の着信を通知する視覚的表示を記載するのみであり、発話の時期の制御を記載しない。
　特許文献３は、２つの音声信号に基づいて、ノイズを除去する処理を記載するのみであり、ユーザの発話の時期の制御を記載しない。
　本発明の目的は、上述の課題を解決する音声処理システム、音声処理装置、音声処理方法及びそのプログラムを提供することにある。

　上記目的を達成するため、本発明に係る音声処理システムは、発話者からの音声を元に第１の入力音声信号を生成する第１のマイクロホンと、第１のマイクロホンとは異なる位置に設けられ第２の入力音声信号を生成する第２のマイクロホンと、第２の入力音声信号を元に第１の入力音声信号に含まれる雑音信号を推定して、推定雑音信号を生成し、推定雑音信号を元に雑音信号を抑圧する雑音抑圧手段と、発話者に発話の方向及びタイミングを報知する報知手段と、報知手段による報知処理と雑音抑圧手段による雑音抑圧処理を制御する起動手段とを備える。
　上記目的を達成するため、本発明に係る音声処理方法は、第１のマイクロホンによって発話者からの音声を元に第１の入力音声信号を生成するステップと、第１のマイクロホンとは異なる位置に設けられる第２のマイクロホンによって第２の入力音声信号を生成するステップと、第２の入力音声信号を元に第１の入力音声信号に含まれる雑音信号を推定して推定雑音信号を生成するステップと、推定雑音信号を元に雑音信号を抑圧する抑圧ステップと、発話者に発話の方向及びタイミングを報知する報知ステップと、抑圧ステップと報知ステップの起動を制御する起動ステップとを含む。
　上記目的を達成するため、本発明に係る音声処理装置は、第１のマイクロホンによって発話者からの音声を元に生成された第１の入力音声信号に含まれる雑音信号を、第１のマイクロホンとは異なる位置に設けられた第２のマイクロホンによって生成された第２の入力音声信号を元に推定して、推定雑音信号を生成し、推定雑音信号を元に雑音信号を抑圧する、雑音抑圧手段と、発話者に発話の方向及びタイミングを報知する報知信号を出力する出力手段と、報知信号の出力処理と雑音抑圧手段による雑音抑圧処理を制御する起動手段とを備える。
　上記目的を達成するため、本発明に係る音声処理プログラムは、第１のマイクロホンによって発話者からの音声を元に第１の入力音声信号を生成する処理と、第１のマイクロホンとは異なる位置に設けられる第２のマイクロホンによって第２の入力音声信号を生成する処理と、第２の入力音声信号を元に第１の入力音声信号に含まれる雑音信号を推定して、推定雑音信号を生成する処理と、推定雑音信号を元に雑音信号を抑圧する抑圧処理と、発話者に発話の方向及びタイミングを報知する報知処理と、抑圧処理と報知処理の起動を制御する起動処理とをコンピュータに行わせることを特徴とする。

　本発明によれば、音声を入力する時期と方向とをユーザに報知する、使い勝手の良い、音声処理システム、音声処理装置、音声処理方法及びプログラムが提供される。

本発明の第１の実施形態に係る音声処理システムの構成を示す。本発明の第２の実施形態に係る音声処理システムの概略の構成を示す。本発明の第２の実施形態に係る音声処理システムの構成を示す。本発明の第２の実施形態に係る雑音抑圧回路の第１の構成を示す。本発明の第２の実施形態に係る雑音抑圧回路の第２の構成を示す。本発明の第２の実施形態に係る雑音抑圧回路の第３の構成を示す。本発明の第２の実施形態に係る音声処理システムにおいて、構成要素を配置可能な位置を示す。本発明の第２の実施形態に係る音声処理システムにおいて、構成要素を配置可能な位置を示す。本発明の第２の実施形態に係る音声処理システムのハードウェアの構成を示す。本発明の第２の実施形態に係る音声処理装置における処理の手順を示すフローチャートである。本発明の第３の実施形態に係る音声処理システムの構成を示す。本発明の第４の実施形態に係る音声処理システムの構成を示す。本発明の第５の実施形態に係る音声処理システムの構成を示す。本発明の第６の実施形態に係る音声処理システムの構成を示す。本発明の第６の実施形態に係る雑音抑圧回路の構成を示す。本発明の第７の実施形態に係る音声処理システムの構成を示す。本発明の第７の実施形態に係る音声入力制御部の構成を示す。本発明の第７の実施形態に係る音声入力制御部の動作を示す。本発明の第８の実施形態に係る音声処理システムの構成を示す。本発明の第８の実施形態に係る認識出力制御部の構成を示す。本発明の第８の実施形態に係る認識出力制御部の動作を示す。本発明の第９の実施形態に係る音声処理システムの構成を示す。本発明の第９の実施形態に係る起動部の構成を示す。本発明の第１０の実施形態に係る音声処理システムの構成を示す。本発明の第１１の実施形態に係る音声処理システムの構成を示す。本発明の第１２の実施形態に係る音声処理システムの構成を示す。本発明の第１３の実施形態に係る音声処理システムの構成を示す。本発明の第１４の実施形態に係る音声処理システムの構成を示す。本発明の第１５の実施形態に係る音声処理システムの構成を示す。

　以下、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載される構成要素は単なる例示であり、本発明の技術範囲はそれらのみに限定されない。
　［第１の実施形態］
　本発明の第１の実施形態に係る音声処理システム１００について、図１を参照して説明する。
　図１に示されるように、音声処理システム１００は、第１のマイクロホン１０１と、第２のマイクロホン１０２と、雑音抑圧部１２０と、報知部１１０と、起動部１３０とを含む。第１のマイクロホン１０１には、発話者１４０からの音声が入力され、第１の入力音声信号１０１ａが出力される。第２のマイクロホン１０２は、第１のマイクロホン１０１とは異なる位置に設けられ、第２の入力音声信号１０２ａを出力する。雑音抑圧部１２０は、第２のマイクロホン１０２により出力された第２の入力音声信号１０２ａを元に、第１のマイクロホン１０１から出力された第１の入力音声信号１０１ａ中に混在すると推定される推定雑音信号を生成する。雑音抑圧部１２０は、生成された推定雑音信号に基づいて、第１のマイクロホン１０１から出力された第１の入力音声信号中の雑音信号を抑圧する。報知部１１０は、発話者１４０から見て第１のマイクロホン１０１の方向に設けられ、発話者１４０に対して発話方向および発話タイミングを視覚的に報知する。起動部１３０は、起動条件保持部１３０ａに保持された起動条件が満たされたときに、報知部１１０における報知処理と雑音抑圧部１２０における雑音抑圧処理とを開始する。
　本実施形態によれば、発話者であるユーザに対して音声を入力すべきタイミングと方向とを報知する、ユーザフレンドリーな音声処理システムが提供される。
　［第２の実施形態］
　次に、本発明の第２の実施形態に係る音声処理システムについて、図２乃至７を参照して説明する。
　本実施形態は、車両の運転席における乗員が発声する音声を取得する音声取得システムに関する。本実施形態に係る音声処理システムにおいて、運転者が発話した音声の処理を要求してスイッチが操作されると、発話した音声が入力される第１のマイクロホンの方向のランプが点灯する。点灯と同時に、第１のマイクロホンと第２のマイクロホンとによる雑音抑圧処理が開始する。雑音抑圧処理が行われた音声は、外部との通信による会話に使用される。本実施形態によれば、運転者が点灯したランプの方向を向いて発話すると、車内雑音が抑圧された音声が外部に送信される。
　図２は、本実施形態に係る音声処理システム２００の概略の構成を示す。
　図２は、車両の運転席から車両の前方を見た光景である。本実施形態に係る音声処理システムは、雑音抑圧回路を有する音声処理装置２１０を含む。音声処理装置２１０の雑音抑圧回路に所望の音声の信号を入力するための第１のマイクロホン２０１が、ハンドル後方のメータ類の近傍に配置される。一方、音声処理装置２１０の雑音抑圧回路に雑音の信号を入力するための第２のマイクロホン２０２が、ダッシュボード上に配置される。また、起動部は、スイッチ２２１を含む。該スイッチ２２１は、運転者がハンドルを握った状態で、運転者の指が到達する範囲内に配置される。運転者が発話した音声の処理を要求する場合、該スイッチ２２１は、該処理要求を音声処理装置２１０に指示する。また、ランプ２３１が、運転者から見て第１のマイクロホン２０１と同じ方向、つまり、運転者から容易に観察し得る位置に配置される。ランプ２３１は、音声処理装置２１０が雑音抑圧処理を含む音声処理を実行していることを報知し、運転者に発話の方向を報知する。
　上述の構成を有する音声処理システムにおいて、運転者が外部との通信による会話を要求する場合、運転者はスイッチ２２１を操作する。音声処理装置２１０は、運転者によるスイッチ２２１の操作を検知して、雑音抑圧回路を起動し、第１のマイクロホン２０１の後方に備えられたランプ２３１を点灯する。運転者は、ランプ２３１の点灯を目視により確認して、ランプ２３１の方向に発話する。
　本実施形態に係る音声処理システムにおいては、運転者の口と第１のマイクロホン２０１とランプ２３１とは、ほぼ直線上にあるように配置される。このため、運転者の所望の音声は第１のマイクロホン２０１に確実に入力される。一方、雑音抑圧回路において雑音の抑圧に使用される雑音を取得する第２のマイクロホン２０２は、ダッシュボード上に配置され、エンジン音や空調機の稼動音などの雑音が入力される。しかしながら、運転者がランプ２３１の方向に発話するので、第２のマイクロホン２０２に入力される運転者の音声は比較的小さい。第２のマイクロホン２０２からの入力音声信号を用いて、第１のマイクロホン２０１からの入力音声信号から雑音が差し引かれ、雑音抑圧処理が行われる。第２のマイクロホン２０２へは運転者の音声が回り込むことがないので、正確な雑音抑圧処理が行われる。
　図３は、本実施形態に係る音声処理システム２００の機能の構成を示すブロック図である。
　本実施形態の音声処理システム２００の音声処理装置２１０は、雑音抑圧回路３１０と、スイッチ２２１を有する起動部３２０を含む。第１のマイクロホン２０１からは第１の入力音声信号２０１ａが雑音抑圧回路３１０に入力され、第２のマイクロホン２０２からは第２の入力音声信号２０２ａが雑音抑圧回路３１０に入力される。雑音抑圧回路３１０において雑音が抑圧された音声信号は、音声送受信部３４０に入力される。音声送受信部３４０は、第１のマイクロホン２０１から入力された所望の音声を、アンテナ３５０を介して外部に送信する。一方、アンテナ３５０を介して音声送受信部３４０で受信された音声は、スピーカ３６０（あるいはイヤホン）により出力される。上述の音声処理により、外部との会話が実現する。
　起動部３２０のスイッチ２２１が操作されると、起動部３２０から起動信号３２０ａが出力される。起動信号３２０ａが出力されない場合、すなわち、スイッチ２２１が操作されない場合は、雑音抑圧回路３１０および音声送受信部３４０は動作しない。あるいは、雑音抑圧回路３１０は雑音抑圧処理を行わない。起動信号３２０ａは、雑音抑圧回路３１０を起動する。これと同時に、起動信号３２０ａは報知信号として報知部３３０に伝送され、ランプ２３１を点灯する。ランプ２３１の点灯は、運転者に第１のマイクロホン２０１の方向へ発話するよう促す。
　図４Ａは、本実施形態に係る雑音抑圧回路３１０の第１の構成３１０−１を示す。
　図４Ａに示されるように、雑音抑圧回路の第１の構成３１０−１は、減算器４０１及び適応フィルタＮＦ４０２を含む。減算器４０１は、第１の入力音声信号２０１ａから、第１の入力音声信号２０１ａに混在すると推定される推定雑音信号Ｙ１を減算する。適応フィルタＮＦ４０２は、第２の入力音声信号２０２ａを元に、推定雑音信号Ｙ１を生成する。本実施形態に係る雑音抑圧回路３１０−１において、減算器４０１は、第１のマイクロホン２０１から伝送された第１の入力音声信号２０１ａから推定雑音信号Ｙ１を減算し、擬似音声信号Ｅ１（３１０ａ）を出力する。
　本実施形態に係る雑音抑圧回路３１０の第１の構成３１０−１において、起動部３２０からの起動信号３２０ａがＯＦＦの場合、適応フィルタＮＦ４０２の動作が停止する。このとき、減算器４０１へは推定雑音信号Ｙ１が入力されない。したがって、雑音抑圧の処理が行われない第１の入力音声信号は、そのまま擬似音声信号Ｅ１として出力される。なお、起動信号３２０ａがＯＦＦの場合に、雑音抑圧回路３１０の動作が停止してもよい。
　図４Ｂは、本実施形態に係る雑音抑圧回路３１０の第２の構成３１０−２を示す。
　図４Ｂに示される、雑音抑圧回路の第２の構成３１０−２は、減算器４０１、４０３、適応フィルタＮＦ４０２及び適応フィルタＸＦ４０４を含む。減算器４０１は、第１の入力音声信号２０１ａから、第１の入力音声信号２０１ａに混在すると推定される推定雑音信号Ｙ１を減算する。減算器４０３は、第２の入力音声信号２０２ａから、第２の入力音声信号２０２ａに混在すると推定される推定音声信号Ｙ２を減算する。適応フィルタＮＦ４０２は、減算器４０３の出力信号である擬似雑音信号Ｅ２から、推定雑音信号Ｙ１を生成する、推定雑音信号生成部である。適応フィルタＸＦ４０４は、減算器４０３の出力信号である擬似音声信号Ｅ１（３１０ｂ）から、推定音声信号Ｙ２を生成する、推定音声信号生成部である。適応フィルタＸＦ４０４の具体例は、国際公開第２００５／０２４７８７号公報に記載される。
　例えば、対象とする音声が、２つのマイクロホンの境界を回り込んで、第２のマイクロホン２０２に入力されると、第２の入力音声信号２０４に音声信号が混在する。この場合、適応フィルタＸＦ４０４は、減算器４０１において、回り込んだ音声からの音声信号が、第１の入力音声信号２０１ａから誤って除去されるのを防ぐ。
　上記の構成において、減算器４０１は、第１のマイクロホン２０１から伝達された第１の入力音声信号２０１ａから推定雑音信号Ｙ１を減算し、擬似音声信号Ｅ１（３１０ｂ）を出力する。
　ここで、推定雑音信号Ｙ１は、適応フィルタＮＦ４０２において、擬似音声信号Ｅ１（３１０ｂ）に基づき変化するパラメータを使って、擬似雑音信号Ｅ２から生成される。擬似雑音信号Ｅ２は、減算器４０３において、信号線により第２のマイクロホン２０２から伝達された第２の入力音声信号２０２ａから、推定音声信号Ｙ２を減算することにより得られる。この推定音声信号Ｙ２は、適応フィルタＸＦ４０４において、推定音声信号Ｙ２に基づき変化するパラメータを使って、擬似音声信号Ｅ１（３１０ｂ）から生成される。
　本実施形態に係る雑音抑圧回路３１０の第２の構成３１０−２において、起動部３２０からの起動信号３２０ａがＯＦＦの場合、適応フィルタＮＦ４０２および適応フィルタＸＦ４０４の動作が停止する。このとき、減算器４０１へは推定雑音信号Ｙ１が入力されず、減算器４０３へは推定音声信号Ｙ２が入力されない。したがって、雑音抑圧の処理が行われない第１の入力音声信号は、そのまま擬似音声信号Ｅ１として出力される。なお、起動信号３２０ａがＯＦＦの場合に、雑音抑圧回路３１０の動作が停止してもよい。
　なお、雑音抑圧回路は、アナログ回路でもよいし、デジタル回路でもよいし、アナログ回路とデジタル回路が混在した回路でもよい。雑音抑圧回路がアナログ回路であり、擬似音声信号Ｅ１（３１０ａ、３１０ｂ）がデジタル制御に使用される場合は、アナログデジタル（Ａ／Ｄ）変換器により、デジタル信号への変換が行われる。一方、雑音抑圧回路がデジタル回路である場合、マイクロホンから出力された信号は、雑音抑圧回路に入力される前に、Ａ／Ｄ変換器によりデジタル信号に変換される。アナログ回路とデジタル回路とが混在する雑音抑圧回路は、たとえば、アナログ回路である減算器４０１、４０３、及び、デジタル回路により制御されるアナログ回路である適応フィルタＮＦ４０２及び適応フィルタＸＦ４０４を含む。
　図に示される雑音抑圧回路は、本実施形態おける回路の一つの好適な例である。たとえば、適応フィルタＸＦ４０４は、入力信号に対して、出力信号を所定のレベルに維持する回路に代替してもよい。このような回路は、発話者の音声が拡散して入力音声信号のレベルが低下した場合に、雑音信号をフィルタしても、出力される擬似音声信号の強度を低下させない。
　さらに、減算器４０１及び４０３の少なくとも一つを、積算器に代替してもよい。このような積算器は、推定雑音信号Ｙ１または推定音声信号Ｙ２を、所定の係数を乗じて、第１の入力音声信号２０１ａまたは第２の入力音声信号２０２ａのそれぞれに積算する。
　図４Ｃは、本実施形態に係る雑音抑圧回路３１０の第３の構成３１０−３を示す。図４Ｃに示される第３の構成３１０−３は、特に、ハンズフリー通話の構成に好適であり、２つの適応フィルタ４０２、４１２を含む。図４Ｃに示される第３の構成３１０−３については、特開２０１１−０２２６０４号公報及び文献『Ｓｈｉｇｅｊｉ　Ｉｋｅｄａ　ａｎｄ　Ａｋｉｈｉｋｏ　Ｓｕｇｉｙａｍａ，″Ａｎ　Ａｄａｐｔｉｖｅ　Ｎｏｉｓｅ　Ｃａｎｃｅｌｌｅｒ　ｗｉｔｈ　Ｌｏｗ　Ｓｉｇｎａｌ　Ｄｉｓｔｏｒｔｉｏｎ　ｆｏｒ　Ｓｐｅｅｃｈ　Ｃｏｄｅｃ，″ＩＥＥＥ　ＴＲＡＮＳＡＣＴＩＯＮＳ　ＯＮ　ＳＩＧＮＡＬ　ＰＲＯＣＥＳＳＩＮＧ，ＶＯＬ．４７，ＮＯ．３，１９９９，ｐｐ．６６５−６７４』において詳しく説明されるので、ここでは説明が省略される。
　減算器４０１および適応フィルタＮＦ４０２の構成及び動作は、第４Ａおよび図４Ｂと同様である。図４Ｃに示される雑音抑圧回路には、音声と雑音の比であるＳＮＲ（Ｓｉｇｎａｌ−ｔｏ−Ｎｏｉｓｅ　Ｒａｔｉｏ）を擬似音声信号と推定雑音信号を元に推定するＳＮＲ推定回路４０５と、ＳＮＲ推定回路４０５の出力に基づいて適応フィルタ４０２における係数更新を制御するステップサイズ制御回路４０６とが付加される。上記の構成により、音声と雑音とが混在する環境においても雑音除去により音質の良い信号が得られる。
　図５Ａおよび図５Ｂは、本実施形態に係る音声処理システム２００において構成要素を配置可能な位置を示す。車両内にマイクロホンを配置して入力音声信号レベルを測定することにより、第１のマイクロホンの配置場所および第２のマイクロホンの配置場所が検討された。図５Ａおよび図５Ｂは、その結果に基づいた推奨される第１のマイクロホンと第２のマイクロホンの配置場所を示す。なお、他の電気部品の配置なども考慮すると、上記の配置位置は、例えば、余分な配線を無くすため、図５Ａおよび図５Ｂに限定されない。なお、図５Ａおよび図５Ｂにおいて、横縞模様の丸印が推奨される第１のマイクロホンの配置位置であり、縦縞模様の丸印が推奨される第２のマイクロホンの配置位置であり、白丸印がランプの配置位置である。
　図５Ａは、図２と同様に、運転席から前方を見た光景である。特に、推奨される第１のマイクロホンの配置位置として、ハンドル奥のメータ付近、センターコンソール５１２付近（図中の中央の「３ｃｍ」の領域）、サンバイザー５１５の乗員側、ドア５１３の乗員側などが図示される。なお、図示されないが、該位置は、ルームミラーの乗員側やハンドルの乗員側、透明配線によるフロントガラスの車内側などでもよい。一方、第２のマイクロホンの配置推奨位置として、サンバイザー５１５の裏側やダッシュボード５１６が図示される。なお、図示されないが、ルームミラーの裏側でもよい。
　図５Ｂは、運転席を反対側のドア付近から見た光景である。図５Ａに図示される配置位置の説明は省略される。図５Ａに図示されない配置位置として、第２のマイクロホンが運転席の後部ボード５２３、あるいはルームライト５２２付近が図示される。
　図５Ａおよび図５Ｂに示される第１のマイクロホンと第２のマイクロホンとの配置位置について、以下のように説明される。例えば、車両の乗員の前方視界の内側に配置されたマイクロホンが第１のマイクロホンであり、乗員の前方視界の外側に配置されたマイクロホンが第２のマイクロホンである。あるいは、第１のマイクロホンと第２のマイクロホンとは、所定位置の発話者からの音声に対する入力音声信号レベルが、雑音抑圧手段が雑音抑圧可能な差を有するような距離だけ離れて配置される。あるいは、第１のマイクロホンと第２のマイクロホンの一方が、所定位置の発話者からの音声が直接入力される位置に配置され、他方が、所定位置の発話者からの音声が、音声遮蔽部を介して入力される位置に配置される。
　図６は、本実施形態に係る音声処理装置２１０のハードウェアの構成を示すブロック図である。本実施形態においては、図２で示されるように、マイクロホンやランプなどの制御部から離れて配置される構成要素を除いた、雑音抑圧回路と制御部とを音声処理装置２１０とするが、これに限定されない。音声処理装置２１０は、いずれの構成を含んでもよい。音声処理装置２１０から／へ、入出力インタフェース６６０を介して、データが出力／入力される。
　図６において、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）６１０は、プログラムの実行により図３の各機能構成部を実現する演算制御用のプロセッサである。ＲＯＭ（Ｒｅａｄ−Ｏｎｌｙ　Ｍｅｍｏｒｙ）６２０は、初期データなどの固定データおよびプログラムを記憶する。通信制御部６３０は、外部の処理部及び内部の処理部と通信する。なお、通信は、無線でもよいし、有線でもよい。
　ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）６４０は、ＣＰＵ６１０が一時記憶のワークエリアとして使用するランダムアクセスメモリである。ＲＡＭ６４０には、本実施形態にかかる音声処理に必要なデータを記憶する領域が確保される。６４１は、ランプ２３１を点灯することにより、雑音抑圧回路３１０を起動するための起動条件が満足されたことを示す起動フラグである。６４２は、音声抑圧回路３１０から出力された擬似音声信号データである。６４３は、通信制御部６３０を介して送信される送信音声データである。６４４は、通信制御部６３０を介して受信された受信音声データである。６４５は、例えばスピーカ３６０から出力される出力音声データである。
　ストレージ６５０は、データベースや各種のパラメータ、あるいは本実施形態にかかる音声処理に必要な以下のデータまたはプログラムが記憶される。６５１は、起動フラグ６４１をＯＮにする条件である起動条件である。該条件は、本実施形態では、スイッチ２２１の操作である。ストレージ６５０には、以下のプログラムが格納される。６５２は、全体の処理を制御する音声処理プログラムである。６５３は、音声処理プログラム６５２において、起動処理を行う起動処理モジュールである。６５４は、音声処理プログラム６５２において、音声の送受信を制御する音声送受信モジュールである。
　なお、図６には、本実施形態に必須なデータやプログラムのみが示され、ＯＳなどの汎用のデータ及びプログラムは図示されない。
　図７は、本発明の第２の実施形態に係る音声処理装置２１０の処理手順を示すフローチャートである。このフローチャートは、図６のＣＰＵ６１０によりＲＡＭ６４０を使用して実行される。ステップＳ７１１とＳ７２１のいずれでもない場合は、ステップＳ７３１において、その他の処理が行われる。
　まず、ステップＳ７１１において、起動条件が満足されるかどうかが判定される。該条件は、本実施形態では、スイッチ２２１のＯＮである。ステップＳ７２１において、停止条件が満足されたかどうかが判定される。該条件は、本実施形態では、スイッチ２２１のＯＦＦである。
　起動条件が満足されると、処理はステップＳ７１３に進み、雑音抑圧回路３１０が起動する。次に、ステップＳ７１５において、音声送受信部３４０による音声送受信処理が起動する。そして、ステップＳ７１７において、第１のマイクロホン方向に配置されたランプ２３１が点灯して起動が報知される。
　停止条件が満足されると、処理はステップＳ７２３に進み、ランプ２３１が消灯して停止が報知される。次に、ステップＳ７２５において、音声送受信部３４０による音声送受信処理が停止する。そして、ステップＳ７２７において、雑音抑圧回路３１０が停止する。なお、上述したように、雑音抑圧をせずに第１のマイクロホンからの音声の入力を続けてもよい。
　［第３の実施形態］
　次に、本発明の第３の実施形態に係る音声処理システムについて説明する。本実施形態に係る音声処理システムと、上記第２の実施形態との差異は、雑音抑圧回路３１０で雑音抑圧された擬似音声信号が録音されることである。本実施形態によれば、運転者は点灯したランプの方向を向いて発話すると、車内雑音が抑圧された音声が録音される。
　図８は、本実施形態に係る音声処理システム８００の機能構成を示すブロック図である。
　図８は、第２の実施形態の図３において、音声送受信部３４０が、録音部８４０に置き換えられた構成を示す。図示されないが、音声信号はデジタル化されて圧縮されることが望ましい。さらに、音声信号は暗号化されてもよい。その他の構成および動作は、第２の実施形態と同様であるため、同じ構成および動作には同じ符号が付されて、詳しい説明が省略される。
　［第４の実施形態］
　次に、本発明の第４の実施形態に係る音声処理システムについて説明する。本実施形態に係る音声処理システムと、上記第２および第３の実施形態との差異は、起動部の起動条件がスイッチの操作でなく、発話者の“呼びかけ”或いは“コマンド”であることである。本実施形態によれば、運転者は手による操作無しに、点灯したランプの方向を向いて発話すると、車内雑音が抑圧された音声が入力される。
　図９は、本実施形態に係る音声処理システム９００の機能構成を示すブロック図である。
　図９は、第２の実施形態の図３において、起動部３２０が、起動部９２０に置き換えられた構成を示す。その他の構成および動作は、第２の実施形態と同様であるため、同じ構成および動作には同じ符号が付され、詳しい説明が省略される。
　起動部９２０は、発話者が呼び掛ける言葉、あるいは命令またはコマンドの音声を、あらかじめ音声登録部９２２に登録する。図９には、例として、“もしもし”及び“スタート”が図示される。比較部９２１において、第１のマイクロホン２０１からの第１の入力音声信号２０１ａと音声登録部９２２に登録された音声信号とが比較され、２つの信号が合致すれば、起動条件が満足されたとして、報知部３３０のランプ２３１が点灯し、雑音抑圧回路３１０が起動する。
　なお、起動部９２０での音声信号は、アナログ信号でもよいし、デジタルデータでもよい。また、音声認識装置が搭載される場合は、音声信号の処理の代わりに、単純な単語に対する、雑音抑圧なしに音声認識した結果に基づいた比較により、さらに多様な文章の処理が可能になる。一方、音声信号の処理であれば、あらかじめ運転者など個人の音声信号を登録すれば、音声信号に基づいて人物の特定が可能である。
　［第５の実施形態］
　次に、本発明の第５の実施形態に係る音声処理システムについて説明する。本実施形態に係る音声処理システムと、上記第２乃至第４の実施形態との差異は、第１のマイクロホンやスイッチ、ランプ、スピーカなどがカーナビゲーション装置で代行されることである。本実施形態によれば、発話者はカーナビゲーション装置に注目して発話すると、車内雑音が抑圧された音声が入力される。
　図１０は、本実施形態に係る音声処理システム１０００の機能構成を示すブロック図である。
　図１０において、カーナビゲーション装置１０１０は、第１のマイクロホン２０１と、スイッチ（通話ボタン１０１１）と、ランプ（通話中の表示１０１２）と、スピーカ１０１３とを含む。起動部１０２０はスイッチを含まない。その他の構成および動作は、第２の実施形態と同様であるため、同じ構成および動作については同じ符号を付し、詳しい説明が省略される。本実施形態では、カーナビゲーション装置の画面上の表示により、発話方向および発話タイミングが視覚的に報知されるが、これに限定されない。例えば、フロントガラスに画像が投影され、発話方向および発話タイミングが視覚的に報知されてもよい。
　［第６の実施形態］
　次に、本発明の第６の実施形態に係る音声処理システムについて説明する。本実施形態に係る音声処理システムと、上記第２乃至第５の実施形態との差異は、雑音抑圧回路で雑音抑圧された擬似音声信号が、音声認識に使用されることである。本実施形態によれば、発話者は点灯したランプの方向を向いて発話すると、車内雑音の抑圧された音声による正確な音声認識とデータ処理が行われる。
　図１１は、本実施形態に係る音声処理システム１１００の機能構成を示すブロック図である。
　図１１において、雑音抑圧回路３１０から出力される擬似音声信号が、音声認識部１１２０で認識される。認識結果のデータは、データ処理部１１４０に送られ、処理される。上記のデータ処理は、送受信や記憶などを含んでもよい。また、該データは、カーナビゲーション装置に転送され、カーナビゲーションの指示として使用されてもよい。その他の構成および動作は、第２の実施形態と同様であるため、同じ構成および動作には同じ符号が付され、詳しい説明が省略される。
　図１２は、本実施形態に係る雑音抑圧回路３１０の第４の構成３１０−４を示す。図１１の雑音抑圧回路３１０には、図４Ａ乃至図４Ｃに示される回路が採用されてもよいが、高い精度の音声認識には、図１２に示される構成３１０−４が好適である。
　減算器４０１および適応フィルタＮＦ４０２の構成や動作は、第４Ａ乃至図４Ｂと同様であるので、説明は省略される。図１２の雑音抑圧回路は、雑音がゆっくり変動するという性質を利用して、変化する雑音に追従する雑音推定方法であるＷｉＮＥ（Ｗｅｉｇｈｔｅｄ　Ｎｏｉｓｅ　Ｅｓｔｉｍａｔｉｏｎ）が採用される雑音推定部１２０１を有する。さらに、雑音抑圧回路は、雑音推定部１２０１の出力に基づいて、音声認識出力が既知の音声信号のパターンに類似するようにフィルタリングを行う音声強調方法であるＭＢＷ（Ｍｏｄｅｌ−Ｂａｓｅｄ　Ｗｉｅｎｅｒ　Ｆｉｌｔｅｒ）が採用される音声強調部１２０２を有する。上記の構成により、音声認識向けの雑音抑圧処理に加えて、雑音除去及び音声強調が行われ、擬似音声信号３１０ｃが出力される。ＷｉＮＥについて、特開２００２−２０４１７５号公報及び特開２００６−３３７４１５号公報に詳しく説明される。ＭＢＷについて、特開２００７−０３３９２０号公報に詳しく説明される。
　［第７の実施形態］
　次に、本発明の第７の実施形態に係る音声処理システムについて説明する。本実施形態に係る音声処理システムは、雑音抑圧回路３１０、または、音声認識部の起動中に、発話者による第１のマイクロホンとは異なる方向への発声、特に第２のマイクロホンの方向への発声に対処する。本実施形態において、第１のマイクロホンと第２のマイクロホンとの入力音声信号の差から、発話者の向きが認識され、雑音抑圧や音声認識の処理が中断するよう制御される。本実施形態によれば、音声認識部の起動中に発話者が所定の方向とは異なる方向に発話する場合でも、車内雑音の抑圧が適切に行なわれ、雑音抑圧された音声による正確な音声認識とデータ処理が行われる。
　図１３は、本実施形態に係る音声処理システム１３００の機能構成を示すブロック図である。
　図１３において、音声入力制御部１３２０は、第１のマイクロホン２０１からの第１の入力音声信号２０１ａと第２のマイクロホンからの第２の入力音声信号２０２ａとの差に基づいて、起動中であっても、雑音抑圧回路３１０や音声認識部１１２０などの処理を中断する。本実施形態は、音声処理システム１３００が音声認識部１１２０を含まない構成にも適用できる。このため、図１３において、音声認識部１１２０は破線で示される。また、後続処理部１３４０は、第１乃至第６の実施形態における音声送受信などの処理を含む。その他の構成および動作は、第２の実施形態と同様であるため、同じ構成および動作には同じ符号が付され、詳しい説明が省略される。
　図１４Ａは、本実施形態に係る音声入力制御部１３２０の構成を示すブロック図である。
　図１４Ａの音声入力制御部１３２０において、減算器１４２１により、入力した第１のマイクロホン２０１からの第１の入力音声信号２０１ａと第２のマイクロホンからの第２の入力音声信号２０２ａとの差分値１４２１ａが取得される。差分値１４２１ａは、比較部１４２２において閾値Ｔｈ１と比較され、閾値ＴＨ１以下であれば、Ｌｏｗの出力信号１４２２ａが出力される。ＡＮＤゲート１４２３において、３２０ａからの起動信号は、出力信号１４２２ａがＬｏｗの場合には阻止され、音声入力制御部１３２０の出力制御信号１３２０ａはＬｏｗになる。したがって、図１３に示されるように、雑音抑圧回路３１０や音声認識部１１２０の処理は、出力信号１４２２ａがＬｏｗの間、中断する。
　図１４Ｂは、本実施形態に係る音声入力制御部１３２０の動作１４００を示すタイミングチャートである。
　図１４Ｂの最上段に、スイッチ２２１による起動部３２０からの起動信号３２０ａが示される。２段目に、差分値１４２１ａと閾値Ｔｈ１が示される。３段目に示される、比較部１４２２の出力信号１４２２ａは、差分値１４２１ａが閾値Ｔｈ１を越えない場合に、Ｌｏｗとなる。したがって、起動信号３２０ａがＨｉｇｈであっても、第１の入力音声信号レベルと第２の入力信号レベルとの差分が閾値以下の場合、あるいは差分の符号が反転する場合は、音声入力制御部１３２０の出力制御信号１３２０ａがＬｏｗとなり、処理は中断する。
　［第８の実施形態］
　次に、本発明の第８の実施形態に係る音声処理システムについて説明する。本実施形態に係る音声処理システムは、起動部が雑音抑圧回路３１０、または、音声認識部を起動中に、発話者が第１のマイクロホンとは異なる方向への発声するとき、特に第２のマイクロホンの方向への発声するときの、音声認識の間違いに対処する。本実施形態において、第１のマイクロホンと第２のマイクロホンとの入力音声信号の差から、発話者の向きが異なることが認識され、その間の音声認識の結果を破棄するように制御される。本実施形態によれば、音声認識部の起動中に発話者が所定の方向とは異なる方向に発話したときの間違った音声認識が防止される。
　図１５は、本実施形態に係る音声処理システム１５００の機能構成を示すブロック図である。
　図１５に示されるように、音声処理システム１５００は、音声認識部１１２０の出力である音声認識結果をバッファリングする認識データバッファ１５３０を含む。認識出力制御部１５２０は、第１のマイクロホン２０１からの第１の入力音声信号２０１ａと第２のマイクロホンからの第２の入力音声信号２０２ａの所定期間での平均値の差分に基づいて、音声認識部１１２０による誤った認識結果を、認識データバッファ１５３０から破棄する。なお、後続処理部１５４０は、図１３と同様に、第１乃至第６の実施形態の音声送受信などの処理が行われる。その他の構成および動作は、第２の実施形態と同様であるため、同じ構成および動作には同じ符号が付され、詳しい説明が省略される。
　図１６Ａは、本実施形態に係る認識出力制御部１５２０の構成を示すブロック図である。
　図１６Ａの認識出力制御部１５２０において、第１のバッファ１６２１と第１の平均部１６２２とによって、第１のマイクロホン２０１から入力された第１の入力音声信号２０１ａの所定期間の平均値１６２２ａが出力される。第２のバッファ１６２３と第２の平均部１６２４とによって、第２のマイクロホン２０２から入力された第２の入力音声信号２０２ａの所定期間の平均値１６２４ａが出力される。比較部１６２５は、第１の入力音声信号２０１ａの所定期間の平均値１６２２ａと第２の入力音声信号２０２ａの所定期間の平均値１６２４ａとを比較する。第１のマイクロホン２０１からの平均値１６２２ａが大きければ、発話者は第１のマイクロホン２０１に向いていると判断され、出力信号１６２５ａがＨｉｇｈとされる。第１のマイクロホン２０１からの平均値１６２２ａが小さければ、発話者が第１のマイクロホンの方向とは異なる方向を見ると判断され、出力信号１６２５ａがＬｏｗとされる。ＡＮＤゲート１６２６において、認識データバッファ１５３０への出力制御信号１５２０ａがＬｏｗとされ、認識データバッファ１５３０にバッファされた、所定期間での認識結果が破棄される。
　図１６Ｂは、本実施形態に係る認識出力制御部１５２０の動作１６００を示すタイミングチャートである。
　図１６Ｂの最上段に、スイッチ２２１による起動部３２０からの起動信号３２０ａが示される。２段目に、第１の入力音声信号２０１ａの平均値１６２２ａと、第２の入力音声信号２０２ａの平均値１６２４ａが示される。３段目に示される、比較部１６２５の出力信号１６２５ａは、平均値１６２２ａよりも平均値１６２４ａが大きい場合にＬｏｗとなる。したがって、起動信号３２０ａがＨｉｇｈであっても、第１の入力音声信号レベルの所定期間の平均値が第２の入力信号レベルの所定期間の平均値より小さいとき、認識出力制御部１５２０の出力制御信号１５２０ａがＬｏｗになる。このとき、認識データバッファ１５３０の認識結果が破棄される。
　［第９の実施形態］
　次に、本発明の第９の実施形態に係る音声処理システムについて説明する。本実施形態に係る音声処理システムは、上記の実施形態のように起動部が発話者の起動操作により起動信号を生成するのではなく、第１のマイクロホン及び第２のマイクロホンへの入力をトリガとして自動的に起動部が起動信号を生成する。さらに、停止処理も第１のマイクロホン及び第２のマイクロホンへの入力に基づいて自動的に行われる。本実施形態によれば、発話者は、特別な操作をすることなく、点灯したランプの方向に発話すると、車内雑音が抑圧された音声が入力される。
　図１７は、本実施形態に係る音声処理システム１７００の機能構成を示すブロック図である。
　図１７に示される音声処理システム１７００は、雑音抑圧回路３１０の前段に設けられた音声信号バッファ１７３０を含む。起動部１７２０には、第１のマイクロホン２０１からの第１の入力音声信号２０１ａと第２のマイクロホン２０２からの第２の入力音声信号２０２ａとが入力され、それらから起動信号１７２０ａが生成される。音声信号バッファ１７３０は、起動部１７２０の処理の遅延により、必要な音声信号が消失しないよう、起動部１７２０の処理の遅延時間分の音声信号をバッファする。後続処理部１７４０は、図１５と同様に、第１乃至第６の実施形態の音声送受信などの処理が行われる。その他の構成および動作は、第２の実施形態と同様であるため、同じ構成および動作には同じ符号が付され、詳しい説明が省略される。
　図１８は、本実施形態に係る起動部１７２０の機能構成を示すブロック図である。
　図１８において、第３のバッファ１８２１と第３の平均部１８２２とによって、第１のマイクロホン２０１から入力された第１の入力音声信号２０１ａの所定期間での平均値１８２２ａが出力される。また、第４のバッファ１８２３と第４の平均部１８２４とによって、第２のマイクロホン２０２から入力された第２の入力音声信号２０２ａの所定期間の平均値１８２４ａが出力される。減算器１８２５は、平均値１８２２ａと平均値１８２４ａとの差分値１８２５ａを算出する。比較部１８２６は差分値１８２５ａを閾値Ｔｈ２と比較し、差分値１８２５ａが閾値Ｔｈ２より大きければ、出力信号１８２６ａをＨｉｇｈにする。すなわち、発話者が第１のマイクロホン２０１の方向を向いていると判断する。そして、セット／リセットのフリップフロップ（以下、ＲＳ−Ｆ／Ｆ）１８２７がセットされ、起動部１７２０から起動信号１７２０ａが出力される。一方、差分値１８２５ａが閾値Ｔｈ２より小さければ、出力信号１８２６ａがＬｏｗにされる。すなわち、発話者が第１のマイクロホン２０１の方向を向いていない、あるいは発話していないと判断される。そして、ＲＳ−Ｆ／Ｆ１８２７がリセットされ、起動部１７２０からの起動信号１７２０ａがＯＦＦになる。
　したがって、第１のマイクロホン２０１からの平均値１８２２ａが第２のマイクロホン２０２からの平均値１８２４ａより大きくなると、雑音抑圧回路３１０などが起動する。一方、第１のマイクロホン２０１からの平均値１８２２ａが第２のマイクロホン２０２からの平均値１８２４ａより小さくなると、雑音抑圧回路３１０などの起動が停止する。
　［第１０の実施形態］
　次に、本発明の第１０の実施形態に係る音声処理システムについて説明する。本実施形態に係る音声処理システムは、上記実施形態とは異なり、音声入力用のマイクロホンと雑音入力用のマイクロホンとが指定されない。本実施形態に係る音声処理システムは、所定の選択条件に従って、異なる位置に設けられた複数のマイクロホンから第１のマイクロホンと第２のマイクロホンとを選択する選択手段を含む。本実施形態において、上記の所定の選択条件は、該発話者のマイクロホン選択操作である。選択手段は、発話者のマイクロホン選択操作に従って第１のマイクロホンと第２のマイクロホンとを選択する。本実施形態によれば、特定の位置の発話者ばかりでなく、指示をした発話者が点灯したランプの方向を向いて発話すると、車内雑音が抑圧された音声が入力される。
　なお、本実施形態においては、２つのマイクロホンから所望音声を入力するマイクロホンを指示する例を示すが、マイクロホンの数は２に限定されない。３以上のマイクロホンから音声入力用のマイクロホンが指示されてもよい。
　図１９は、本実施形態に係る音声処理システム１９００の機能構成を示すブロック図である。図１９では、音声処理システム１９００が、運転席に備えられる、運転者が発話する場合に操作する運転席スイッチと、助手席に備えられる、助手席の乗員が発話する場合に操作する助手席スイッチとを含む例について説明するが、これに限定されない。
　図１９に示されるように、本実施形態に係る音声処理システム１９００は、図３に示される第２の実施形態に係る音声処理システムの構成に加えて、起動部１９２０、報知部１９３０、マイクロホン選択部１９４０、およびスイッチ回路１９５０を備える。
　起動部１９２０は、運転席スイッチ１９２１および助手席スイッチ１９２２と、２つのスイッチの操作による出力の論理和を求めるＯＲゲート１９２３を有する。起動部１９２０からの起動信号１９２０ａは、ＯＲゲート１９２３からの出力であり、運転席スイッチ１９２１と助手席スイッチ１９２２とのいずれかが操作されるとＨｉｇｈとなる。起動信号１９２０ａは、後続処理部１９６０も起動する。報知部１９３０は、運転席スイッチ１９２１と助手席スイッチ１９２２のそれぞれ対応する、運転席用マイクロホンランプ１９３１と助手席用マイクロホンランプ１９３２とを有する。報知部１９３０は、運転席の乗員と助手席の乗員とに、それぞれの第１のマイクロホンの位置を報知する。
　マイクロホン選択部１９４０は、ＲＳ−Ｆ／Ｆ１９４１を備える。運転席スイッチ１９２１と助手席スイッチ１９２２との操作信号は、ＲＳ−Ｆ／Ｆ１９４１のセット端子（Ｓ）とリセット端子（Ｒ）とに入力される。ＲＳ−Ｆ／Ｆ１９４１の真値（Ｑ）からの出力信号１９４０ａは、雑音抑圧回路３１０の前段に設けられるスイッチ回路１９５０に入力され、スイッチ位置を切替える。図１９に示されるスイッチ回路１９５０におけるスイッチ位置は、雑音抑圧回路３１０の音声入力端子（上方）に第１の入力音声信号２０１ａが入力され、雑音抑圧回路３１０の雑音入力端子（下方）に第２の入力音声信号２０２ａが入力される状態である。マイクロホン選択部１９４０からの出力信号１９４０ａの変化により、スイッチが切替えられると、図１９において破線で示されるように、雑音抑圧回路３１０の音声入力端子（上方）に第２の入力音声信号２０２ａが入力され、雑音抑圧回路３１０の雑音入力端子（下方）に第１の入力音声信号２０１ａが入力される状態になる。
　上記の構成によれば、運転席スイッチ１９２１を運転席の乗員が操作すると、第１のマイクロホン２０１が音声入力用となり第２のマイクロホン２０２が雑音入力用になる。第１のマイクロホン２０１に向かって運転席の乗員が発話するように、運転席用マイクロホンランプ１９３１が点灯する。一方、助手席スイッチ１９２２を助手席の乗員が操作すると、第２のマイクロホン２０２が音声入力用となり第１のマイクロホン２０１が雑音入力用になる。第２のマイクロホン２０２に向かって助手席の乗員が発話するように、助手席用マイクロホンランプ１９３２が点灯する。
　なお、第２のマイクロホン２０２は、図５Ａおよび図５Ｂでは、助手席前のダッシュボードに備えられるが、これに限定されない。前述のように、複数のマイクロホンが様々な位置に配置可能であれば、それぞれの座席にスイッチ、マイクロホン、ランプを設置されてよい。
　［第１１の実施形態］
　次に、本発明の第１１の実施形態に係る音声処理システムについて説明する。本実施形態に係る音声処理システムは、上記の第１０の実施形態のように、発話者の指示に従って第１のマイクロホンと第２のマイクロホンとが決定されるのではなく、第１のマイクロホンと第２のマイクロホンとが自動的に切り替わる。本実施形態によれば、どの発話者も点灯したランプの方向を向いて発話すると、車内雑音が抑圧された音声が入力される。
　なお、本実施形態において、２つのマイクロホンから所望音声を入力するマイクロホンが自動的に選択される例を示すが、マイクロホンの数は２に限定されない。複数のマイクロホンから音声入力用のマイクロホンが自動的に選択されてもよい。
　図２０は、本実施形態に係る音声処理システム２０００の機能構成を示すブロック図である。
　図２０において、スイッチ回路１９５０の構成は、第１０の実施形態と同様である。本実施形態においては、スイッチ回路１９５０と雑音抑圧回路３１０との間に音声信号バッファ２０５０が設けられる。該音声信号バッファ２０５０は、起動部２０２０の処理の遅延による、必要な音声信号の消失を防止する。
　図２０に示される音声処理システム２０００は、バッファと平均部とを有し、第１の入力音声信号２０１ａと第２の入力音声信号２０２ａの所定期間での平均値に基づいて、起動信号２０２０ａを生成する起動部２０２０を含む。起動信号２０２０ａは、後続処理部２０６０をも起動する。音声処理システム２０００はさらに、バッファと平均部とを有し、スイッチ回路１９５０の切替えおよび報知部２０３０の点灯ランプの切替えを行う、切替え信号２０４０ａを生成するマイクロホン選択部２０４０を含む。
　図２０に示される起動部２０２０およびマイクロホン選択部２０４０の動作については、上述の実施形態における説明から明白である。煩雑さを避けるため、ここでは詳細な説明は省略される。
　［第１２の実施形態］
　次に、本発明の第１２の実施形態に係る音声処理システムについて説明する。本実施形態に係る音声処理システムは、上述の実施形態とは異なり、報知部３３０及び雑音抑圧回路３１０などの起動のトリガは、発話者の指示或いはマイクロホンからの入力音声信号ではない。本実施形態では、カメラなどの撮像装置によって発話者の黒目の位置から視線を検出し、発話者の視線に従って起動信号を制御する。本実施形態によれば、所望のマイクロホンの方向を向いて発話すると、車内雑音が抑圧された音声が入力される。
　図２１は、本実施形態に係る音声処理システム２１００の機能構成を示すブロック図である。
　本実施形態に係る音声処理システムと、上述の実施形態との差異は、図２１に示されるように、カメラ２１４０と、カメラ２１４０からの映像を元に視線を判定する視線判定部２１２１を有する起動部２１２０とである。起動部２１２０は、視線判定部２１２１の視線判定結果に基づいて、発話者の視線がマイクロホンの方向を向いていると判定すると、起動信号２１２０ａを出力する。起動信号２１２０ａは、雑音抑圧回路３１０、音声認識部１１２０、後続処理部２１５０を起動する。視線判定部２１２１の処理は既知であるので、詳細な説明は省略される。
　［第１３の実施形態］
　次に、本発明の第１３の実施形態に係る音声処理システムについて説明する。第１２の実施形態において、カメラによる映像から取得された発話者の視線に基づいて、起動部を起動する起動信号が生成される。本実施形態に係る音声処理システムでは、起動中であっても、発話者の視線に基づいて起動が中断する。
　本実施形態においては、第７の実施形態に係る音声処理システムと同様に、雑音抑圧回路或いは音声認識部の起動中における、発話者による第１のマイクロホンとは異なる方向への発声に対処する。本実施形態においては、カメラにより撮像された映像から発話者の視線が認識され、雑音抑圧や音声認識の処理が中断するよう制御される。本実施形態によれば、雑音抑圧部などの起動中に、発話者が第１のマイクロホンとは異なる方向を向いた場合でも、車内雑音の抑圧が適切に行われ、雑音抑圧された音声による正確な音声認識とデータ処理が行われる。
　図２２は、本実施形態に係る音声処理システム２２００の機能構成を示すブロック図である。
　本実施形態に係る音声処理システムと、上述の実施形態との差異は、図２２に示されるように、音声入力制御部２２２０のＡＮＤゲート２２２１において、起動部３２０からの起動信号３２０ａが、カメラ２１４０からの映像により発話者の視線を判定した視線判定部２２３０の出力によりゲートされることである。上記の構成によれば、起動部３２０からの起動信号３２０ａがＨｉｇｈで、報知部３３０のランプ２３１が点灯している場合であっても、発話者の視線がマイクロホンの方向を向いていないと判定されると、起動が停止する。
　［第１４の実施形態］
　次に、本発明の第１４の実施形態に係る音声処理システムについて説明する。上述の実施形態においては、車両内における乗員が発話した音声の処理について、音声処理システムの構成と動作が説明された。本実施形態においては、会議室などの部屋への本発明の適用例が説明される。
　本実施形態においては、部屋のテーブルに配置された複数のマイクロホンの中から、音声入力用マイクロホン（第１のマイクロホン）と雑音入力用マイクロホン（第２のマイクロホン）とが、発話者の指示により、あるいは自動的に、選択されて、第１のマイクロホンがランプの点灯などで報知される。本実施形態によれば、会議室などの部屋においても、発話者が点灯したランプの方向を向いて発話すると、室内雑音が抑圧された音声が入力される。
　図２３は、本実施形態に係る音声処理システム２３００の機能構成を示すブロック図である。
　図２３において、テーブル２３２０の回りに５人の発話者２３０１乃至２３０５が着席して、会話をする。該会話は、図示されないが、テレビ会議でもよい。テーブル２３２０には、第１のマイクロホン２０１と第２のマイクロホン２０２とが設置される。また、第１のマイクロホン２０１の側には第１のマイクロホン２０１が音声入力用であると報知するランプ２３３１が配置される。一方、第２のマイクロホン２０２の側には第２のマイクロホン２０２が音声入力用であると報知するランプ２３３２が配置される。なお、図示されないが、第１０の実施形態のように、発話者が音声入力用マイクロホンを指示するスイッチがそれぞれのマイクロホン付近に配置されてよい。
　本実施形態に係る音声処理装置２３１０は、上述の実施形態、特に第１０の実施形態または第１１の実施形態と同様の構成を有する。すなわち、音声処理装置２３１０は、雑音抑圧回路、起動部、マイクロホン選択部、ランプ選択部を有する。音声処理装置２３１０は、発話者２３０１および２３０２が発話する場合は、ランプ２３３１が点灯して第１のマイクロホン２０１が音声入力用に設定され、第２のマイクロホン２０２は雑音入力用に設定される。一方、発話者２３０２乃至２３０５が発話する場合は、ランプ２３３２が点灯して第２のマイクロホン２０２が音声入力用に設定され、第２のマイクロホン２０１は雑音入力用に設定される。
　［第１５の実施形態］
　次に、本発明の第１５の実施形態に係る音声処理システムについて説明する。本実施形態においては、ユビキタス環境への本発明の適用例が説明される。
　本実施形態に係る音声処理システムは、家電に対する発声により、室内の家電の操作を実現する環境において、部屋の天井に配置された雑音入力用の第２のマイクロホンと、各家電に配置された音声入力用の第１のマイクロホンと報知ランプとを含む。各家電への指示は、正確に認識されるよう操作される。本実施形態によれば、発話者が点灯したランプの方向を向いて発話すると、室内雑音が抑圧された音声により各家電が操作される。
　図２４は、本実施形態に係る音声処理システム２４００の機能構成を示すブロック図である。
　図２４に示されるように、室内に、空調機（エアコン）と、テレビと、パーソナルコンピュータ（ＰＣ）と、電話機とが設置される。エアコンには、マイクロホン２０１−１とランプ２４０１−１とが配置される。テレビには、マイクロホン２０１−２とランプ２４０１−２とが配置される。ＰＣには、マイクロホン２０１−３とランプ２４０１−３とが配置される。電話機には、マイクロホン２０１−４とランプ２４０１−４とが配置される。部屋の天井には、雑音入力用の第２のマイクロホン２０２が配置される。
　マイクロホン２０１−１乃至２０１−４からの入力音声信号は、マイクロホン選択部２４１０に入力される。マイクロホン選択部２４１０は、第２のマイクロホン２０２からの入力音声信号レベルから、所定の値（閾値）以上の音声信号レベルを有する入力音声信号を出力したマイクロホンを、第１のマイクロホンとして選択する。マイクロホン選択部２４１０で選択された第１の入力音声信号と、第２のマイクロホン２０２の第２の入力音声信号とは、雑音抑圧回路３１０に入力される。入力と同時に、第１の入力音声信号を出力したマイクロホンを識別する第１のマイクロホンＩＤがランプ選択部２４２０に出力される。ランプ選択部２４２０は、第１のマイクロホンＩＤに対応して音声入力用の第１のマイクロホンに選択されたマイクロホンと共に配置されたランプを点灯する。
　雑音抑圧回路３１０から出力された擬似音声信号は、音声認識部１１２０で認識されて、データ処理部１１４０で処理される。本実施形態において、例えば、エアコンに対して温度或いは風量の設定など、テレビに対してチャネル或いは音量の設定、或いはデジタル通信の制御など、ＰＣに対してインターネットへの接続或いはダウンロード処理の制御など、電話機に対して自動ダイヤル或いは会話などが、音声により行われる。
　なお、本実施形態においては、室内での構成のみが示されるが、これに限定されない。本発明は、屋外での案内、相談ターミナル、デジタルサイネージなどにも適用が可能である。
　以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。それぞれの実施形態に含まれる特徴を組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
　また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する制御プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされる制御プログラム、あるいはその制御プログラムを格納した媒体、その制御プログラムがダウンロードされるＷＷＷ（Ｗｏｒｌｄ　Ｗｉｄｅ　Ｗｅｂ）サーバも、本発明の範疇に含まれる。
　この出願は、２０１１年６月３日に出願された日本出願特願２０１１−１２５５４５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明は、音声により制御される電子機器に好適に適用可能である。本発明は特に、車両の運転席或いは会議室などに設置され、発話者から発せられた音声からノイズを除去し、電子機器の制御に使用される制御信号を生成する音声処理システムに好適に適用される。

　１００、２００、８００、９００、１０００、１１００、１３００、１５００、１７００、１９００、２０００、２１００、２２００、２３００、２４００　音声処理システム
　１０１　第１のマイクロホン
　１０１ａ　第１の入力音声信号
　１０２　第２のマイクロホン
　１０２ａ　第２の入力音声信号
　１１０、３３０、１９３０、２０３０　報知部
　１２０　雑音抑圧部
　１３０、３２０、９２０、１０２０、１７２０、１９２０、２０２０、２１２０　起動部
　１３０ａ　起動条件保持部
　１４０、２３０１、２３０２、２３０３、２３０４、２３０５　発話者
　２０１　第１のマイクロホン
　２０２　第２のマイクロホン
　２１０、２３１０　音声処理装置
　２２１　スイッチ
　２３１、２３３１、２３３２、２４０１−１、２４０１−２、２４０１−３、２４０１−４、　ランプ
　２０１ａ　第１の入力音声信号
　２０２ａ　第２の入力音声信号
　３１０、３１０−１、３１０−２、３１０−３、３１０−４　雑音抑圧回路
　３１０ａ、３１０ｂ、３１０ｃ　擬似音声信号
　３２０ａ、１７２０ａ、１９２０ａ、２０２０ａ、２１２０ａ　起動信号
　３４０　音声送受信部
　３５０　アンテナ
　３６０　スピーカ（イヤホン）
　４０１、４０３、１４２１、１８２５　減算器
　４０２、４０４、４１２　適応フィルタ
　４０５　ＳＮＲ推定回路
　４０６　ステップサイズ制御回路
　５１２　センターコンソール
　５１３　ドア
　５１５　サンバイザー
　５１６　ダッシュボード
　５２２　ルームライト
　５２３　後部ボード
　６１０　ＣＰＵ
　６２０　ＲＯＭ
　６３０　通信制御部
　６４０　ＲＡＭ
　６４１　起動フラグ
　６４２　擬似音声信号データ
　６４３　送信音声データ
　６４４　受信音声データ
　６４５　出力音声データ
　６５０　ストレージ
　６５１　起動条件
　６５２　音声処理プログラム
　６５３　起動処理モジュール
　６５４　音声送受信モジュール
　６６０　入出力インタフェース
　８４０　録音部
　９２１、１４２２、１６２５、１８２６　比較部
　９２２　音声登録部
　１０１１　通話ボタン
　１０１２　表示
　１０１３　スピーカ
　１１２０　音声認識部
　１１４０　データ処理部
　１２０１　雑音推定部
　１２０２　音声強調部
　１３２０、２２２０　音声入力制御部
　１３２０ａ　出力制御信号
　１３４０、１５４０、１７４０、１９６０、２０６０、２１５０　後続処理部
　１４００、１６００　動作
　１４２１ａ、１８２５ａ　差分値
　１４２２ａ、１６２５ａ　出力信号
　１４２３、１６２６、２２２１　ＡＮＤゲート
　１５２０　認識出力制御部
　１５３０　認識データバッファ
　１６２１　第１のバッファ
　１６２２　第１の平均部
　１６２２ａ、１６２４ａ、１８２２ａ、１８２４ａ　平均値
　１６２３　第２のバッファ
　１６２４　第２の平均部
　１６２５ａ、１８２６ａ、１９４０ａ　出力信号
　１７３０、２０５０　音声信号バッファ
　１８２１　第３のバッファ
　１８２２　第３の平均部
　１８２３　第４のバッファ
　１８２４　第４の平均部
　１８２７、１９４１　ＲＳ−Ｆ／Ｆ
　１９２１　運転席スイッチ
　１９２２　助手席スイッチ
　１９２３　ＯＲゲート
　１９３１　運転席用マイクロホンランプ
　１９３２　助手席用マイクロホンランプ
　１９４０、２０４０、２４１０　マイクロホン選択部
　１９５０　スイッチ回路
　２０４０ａ　切替え信号
　２１２１、２２３０　視線判定部
　２１４０　カメラ
　２３２０　テーブル
　２０１−１、２０１−２、２０１−３、２０１−４　マイクロホン
　２４２０　ランプ選択部

Claims

　発話者からの音声を元に、第１の入力音声信号を生成する、第１のマイクロホンと、
　前記第１のマイクロホンとは異なる位置に設けられ、第２の入力音声信号を生成する、第２のマイクロホンと、
　前記第２の入力音声信号を元に、前記第１の入力音声信号に含まれる雑音信号を推定して、推定雑音信号を生成し、前記推定雑音信号を元に前記雑音信号を抑圧する、雑音抑圧手段と、
　前記発話者に、発話の方向及びタイミングを報知する、報知手段と、
　前記報知手段による報知処理と、前記雑音抑圧手段による雑音抑圧処理を制御する、起動手段とを備えることを特徴とする、音声処理システム。
　前記報知手段は、前記発話者から見て前記第１のマイクロホンの方向に設けられ、前記発話者に視覚的に前記発話の方向及びタイミングを報知することを特徴とする、請求項１に記載の音声処理システム。
　前記音声処理システムは車両内に設置され、
　前記第１のマイクロホンは、前記車両の乗員の前方視界の内側に配置され、前記第２のマイクロホンは、前記前方視界の外側に配置されることを特徴とする請求項１または２に記載の音声処理システム。
　前記第１のマイクロホン及び前記第２のマイクロホンは、前記第１の入力音声信号と前記第２の入力音声信号が、前記雑音抑圧手段による雑音抑圧処理が可能なレベル差を有するように、配置されることを特徴とする請求項１または２に記載の音声処理システム。
　前記第１のマイクロホン及び前記第２のマイクロホンの一つは、所定の位置にある前記発話者からの音声が直接入力されるような位置に配置され、
　他方は、前記発話者からの音声が、音声遮蔽手段を介して入力される位置に配置されることを特徴とする請求項１乃至４のいずれか１項に記載の音声処理システム。
　所定の選択条件に従って、複数のマイクロホンから前記第１のマイクロホンと前記第２のマイクロホンを選択する選択手段をさらに備えることを特徴とする請求項１乃至５のいずれか１項に記載の音声処理システム。
　前記選択手段は、前記発話者によるマイクロホン選択操作に従って前記第１のマイクロホンと前記第２のマイクロホンとを選択することを特徴とする請求項６に記載の音声処理システム。
　前記所定の選択条件は、前記複数のマイクロホンからの入力音声信号レベルの差であり、
　前記選択手段は、前記複数のマイクロホンからの入力音声信号レベルの間の差分を取得し、前記差分が第１の閾値を超えるとき、より大きい入力音声信号レベルを出力するマイクロホンを前記第１のマイクロホンとして選択することを特徴とする請求項６に記載の音声処理システム。
　前記起動手段は、前記発話者による起動操作に従って、前記報知手段による報知と前記雑音抑圧手段による雑音抑圧処理とを起動することを特徴とする請求項１乃至８のいずれか１項に記載の音声処理システム。
　前記起動手段は、前記発話者が発声した音声に応じて前記報知手段による報知と前記雑音抑圧手段による雑音抑圧処理とを起動することを特徴とする請求項９に記載の音声処理システム。
　前記起動手段は、音声信号を記憶する記憶手段を有し、前記発話者が発声した音声が前記記憶手段に記憶される音声信号に対応するとき、前記報知手段による報知処理と前記雑音抑圧手段による雑音抑圧処理とを開始することを特徴とする請求項１０に記載の音声処理システム。
　前記起動手段は、前記第１の入力音声信号のレベルと前記第２の入力音声信号のレベルとの差が、第２の閾値を超えるとき、前記報知手段による報知処理と前記雑音抑圧手段による雑音抑圧処理とを開始することを特徴とする請求項１乃至８のいずれか１項に記載の音声処理システム。
　前記第１のマイクロホンの近傍に配置され、前記発話者を撮像する撮像手段をさらに備え、
　前記起動手段は、前記撮像手段が撮像した前記発話者の映像を元に、前記発話者の視線が前記第１のマイクロホンの方向を向いていると判定されるとき、前記報知手段による報知処理と前記雑音抑圧手段による雑音抑圧処理とを開始することを特徴とする請求項１乃至８のいずれか１項に記載の音声処理システム。
　前記雑音抑圧手段によって前記第１の入力音声信号に含まれる雑音信号が抑圧された音声信号を送信する、音声送信手段をさらに備えることを特徴とする請求項１乃至１３のいずれか１項に記載の音声処理システム。
　前記雑音抑圧手段によって前記第１の入力音声信号に含まれる雑音信号が抑圧された音声信号を記憶する、録音手段をさらに備えることを特徴とする請求項１乃至１３のいずれか１項に記載の音声処理システム。
　前記雑音抑圧手段によって前記第１の入力音声信号に含まれる雑音信号が抑圧された音声信号に基づいて、音声を認識する音声認識手段をさらに有し、
　前記起動手段は、前記報知手段と、前記雑音抑圧手段と、前記音声認識手段を起動することを特徴とする請求項１乃至１５のいずれか１項に記載の音声処理システム。
　前記第１の入力音声信号のレベルと前記第２の入力音声信号のレベルとの差が第３の閾値より小さいとき、または前記差の符号が反転するとき、前記雑音抑圧手段による前記雑音抑圧処理および音声認識手段による音声認識処理を停止する中断手段をさらに備えることを特徴とする請求項１６に記載の音声処理システム。
　前記第１の入力音声信号のレベルの所定期間での平均値と前記第２の入力音声信号のレベルの前記所定期間での平均値との差が第４の閾値より小さいとき、または前記差の符号が反転するとき、前記音声認識手段による認識処理の結果を破棄する破棄手段をさらに備えることを特徴とする請求項１６に記載の音声処理システム。
　第１のマイクロホンによって、発話者からの音声を元に、第１の入力音声信号を生成するステップと、
　前記第１のマイクロホンとは異なる位置に設けられる第２のマイクロホンによって、第２の入力音声信号を生成するステップと、
　前記第２の入力音声信号を元に、前記第１の入力音声信号に含まれる雑音信号を推定して、推定雑音信号を生成するステップと、
　前記推定雑音信号を元に、前記雑音信号を抑圧する抑圧ステップと、
　前記発話者に、発話の方向及びタイミングを報知する報知ステップと、
　前記抑圧ステップと前記報知ステップの起動を制御する起動ステップとを含むことを特徴とする、音声処理方法。
　第１のマイクロホンによって発話者からの音声を元に生成された第１の入力音声信号に含まれる雑音信号を、前記第１のマイクロホンとは異なる位置に設けられた第２のマイクロホンによって生成された第２の入力音声信号を元に推定して、推定雑音信号を生成し、前記推定雑音信号を元に前記雑音信号を抑圧する、雑音抑圧手段と、
　前記発話者に、発話の方向及びタイミングを報知する報知信号を出力する、出力手段と、
　前記報知信号の出力処理と、前記雑音抑圧手段による雑音抑圧処理を制御する、起動手段とを備えることを特徴とする、音声処理装置。
　第１のマイクロホンによって、発話者からの音声を元に、第１の入力音声信号を生成する処理と、
　前記第１のマイクロホンとは異なる位置に設けられる第２のマイクロホンによって、第２の入力音声信号を生成する処理と、
　前記第２の入力音声信号を元に、前記第１の入力音声信号に含まれる雑音信号を推定して、推定雑音信号を生成する処理と、
　前記推定雑音信号を元に、前記雑音信号を抑圧する抑圧処理と、
　前記発話者に、発話の方向及びタイミングを報知する報知処理と、
　前記抑圧処理と前記報知処理の起動を制御する起動処理とをコンピュータに行わせることを特徴とする、音声処理プログラム。