WO2015029296A1

WO2015029296A1 - 音声認識方法及び音声認識装置

Info

Publication number: WO2015029296A1
Application number: PCT/JP2014/003459
Authority: WO
Inventors: 剛樹西川
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2013-08-29
Filing date: 2014-06-30
Publication date: 2015-03-05
Also published as: US9818403B2; JPWO2015029296A1; US20160049150A1; JP6433903B2

Abstract

　機器を動作させるための音声を認識する音声認識方法は、所定の空間に配置されたマイクロフォンから音声情報を取得する音声情報取得ステップと、取得された音声情報に基づいて、空間内における音圧の分布を示す空間音圧分布を検出する空間音圧分布検出ステップと、検出された空間音圧分布に基づいて、空間内における点音源を検出する点音源検出ステップと、点音源が検出された場合、取得された音声情報に対して音声認識処理を行うと判断する音声認識制御ステップとを含む。

Description

音声認識方法及び音声認識装置

　本開示は、ユーザが発話した音声を認識する音声認識方法及び音声認識装置に関するものである。

　音声認識の誤動作を防止する技術が検討されている。

　特許文献１では、発光部と受光部とを有する反射式センサを備えた音声認識装置が開示されている。

　特許文献２では、音声入力部の角度を検出する角度検出部と、音声入力部とユーザとの距離を検出する距離検出部とを備えた音声入力装置が記載されている。

特開平７－６４５９５号公報特開２０１０－２１７７５４号公報

　本開示の一態様は、安価な構成で音声認識の誤動作を防止することができる音声認識方法及び音声認識装置を提供する。

　本開示の一局面に係る音声認識方法は、機器を動作させるための音声を認識する音声認識方法であって、所定の空間に配置されたマイクロフォンから音声情報を取得する音声情報取得ステップと、前記音声情報取得ステップにおいて取得された前記音声情報に基づいて、前記空間内における音圧の分布を示す空間音圧分布を検出する空間音圧分布検出ステップと、前記空間音圧分布検出ステップにおいて検出された前記空間音圧分布に基づいて、前記空間内における点音源を検出する点音源検出ステップと、前記点音源検出ステップにおいて前記点音源が検出された場合、前記音声情報取得ステップにおいて取得された前記音声情報に対して音声認識処理を行うと判断する音声認識制御ステップとを含む。

　なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

　本開示によれば、安価な構成で音声認識の誤動作を防止することができる。

本開示の実施の形態１における音声認識システムの構成を示す図である。本開示の実施の形態１における音声認識システムの機器の構成を示す図である。本開示の実施の形態１における音声認識部の構成を示す図である。本開示の実施の形態１における音声認識システムの動作を説明するためのフローチャートである。本開示の実施の形態２における音声認識部の構成を示す図である。本開示の実施の形態２における音声認識システムの動作を説明するためのフローチャートである。本開示の実施の形態３における音声認識部の構成を示す図である。本開示の実施の形態４における音声認識部の構成を示す図である。本開示の実施の形態５における音声認識部の構成を示す図である。本開示の実施の形態５における音声認識システムの動作を説明するためのフローチャートである。本開示の実施の形態６における音声認識部の構成を示す図である。本開示の実施の形態７における音声認識部の構成を示す図である。本開示の実施の形態８における音声認識部の構成を示す図である。本開示の実施の形態８における音声認識システムの動作を説明するためのフローチャートである。本開示の実施の形態９における音声認識部の構成を示す図である。本開示の実施の形態１０における音声認識部の構成を示す図である。本開示の実施の形態１１における音声認識部の構成を示す図である。本開示の実施の形態１１において、表示部に表示される表示画面の一例を示す図である。本開示の実施の形態１２における音声認識部の構成を示す図である。（Ａ）は、本開示の実施の形態１２において、音声認識処理が行われる場合に表示部に表示される表示画面の一例を示す図であり、（Ｂ）は、本開示の実施の形態１２において、音声認識処理が行われない場合に表示部に表示される表示画面の一例を示す図である。本開示の実施の形態１３における音声認識部の構成を示す図である。本開示の実施の形態１３における音声認識システムの動作を説明するためのシーケンス図である。本開示の実施の形態１３において、表示部に表示される表示画面の一例を示す図である。（Ａ）は、本開示の実施の形態１において、機器１と複数の音源が存在する空間を模式的に表した図であり、（Ｂ）は、本開示の実施の形態１において、空間音圧分布検出部２０２が検出した空間音圧分布を示した図である。（Ａ）は、本開示の実施の形態２において、機器１と複数の音源が存在する空間を模式的に表した図であり、（Ｂ）は、本開示の実施の形態２において、空間音圧分布検出部２０２が検出した空間音圧分布を示した図である。本開示の実施の形態５において、時刻ｔにおいて測定された空間内の音源と、時刻ｔ＋１において測定された空間内の音源を模式的に示した図である。

　（本開示の基礎となった知見）
　従来、音声によって端末を制御する機能又は音声によってキーワード検索する機能が検討されている。これらの機能を実現する上で、従来、端末を操作するためのリモートコントローラに搭載されたマイクロフォンにより音声を収音していた。近年では、さらなる利便性の向上を目的として、端末がマイクロフォンを内蔵し、端末から離れた場所においてユーザが発話しても端末を動作させることができる音響処理技術が検討されている。

　しかしながら、ユーザが端末から離れた場所において発話する場合、ユーザとマイクロフォンが離れるので、ユーザの発話と周囲の不要な音との音量差がなくなるため、音声認識装置が正しく発話内容を認識することが困難になる。そこで、音声認識装置は、ユーザが端末に対して発した音声か、そうでない音声（例えば、離れたところでの雑談、独り言、又は周辺に存在する家電などが発する音）か、を区別する必要がある。このような課題を解決する手段として、音声入力状態のオン／オフを切り替える手段が検討されている。

　例えば、特許文献１では、音声認識装置は、発光部と受光部とを有する反射式センサを備え、人がいる場合に受光した反射光のレベルと人がいない場合に受光した反射光のレベルとの違いを利用して、ユーザの位置を検出し、音声認識の誤動作を防止している。

　一方、特許文献２では、音声入力装置は、音声入力部の角度を検出する角度検出部と、音声入力部とユーザとの距離を検出する距離検出部とを備える。角度検出部としては、加速度センサ、又は機械式の傾斜センサ等の角度検出器が用いられる。距離検出部としては、位置検出素子、電荷結合素子、又は相補型金属酸化膜半導体等の受光素子を利用した光学センサ、又は超音波センサが用いられる。この従来の音声入力装置では、検出された角度と、検出された距離とに基づいて、音声入力部のオン／オフが制御され、音声認識の誤動作を防止している。

　すなわち、従来、音声認識装置を構成する上で、誤動作を防止するためには、別途センサを設ける必要があり、これらのセンサを設けることはコストアップに繋がるという課題がある。

　以上の考察により、本発明者らは本開示の各態様を想到するに至った。

　以下添付図面を参照しながら、本開示の実施の形態について説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。

　（実施の形態１）
　図１は、本開示の実施の形態１における音声認識システムの構成を示す図である。図１に示す音声認識システムは、機器１及びサーバ２を備える。

　機器１は、例えば家庭内に配置される家電機器を含む。機器１は、ネットワーク３を介してサーバ２と通信可能に接続される。ネットワーク３は、例えばインターネットである。

　なお、機器１には、ネットワーク３と接続可能な機器（例えば、スマートフォン、パーソナルコンピュータ又はテレビ等）もあれば、それ自身ではネットワーク３と接続不可能な機器（例えば、照明機器、洗濯機又は冷蔵庫等）も存在する。それ自身ではネットワーク３と接続不可能な機器であっても、ホームゲートウェイを介してネットワーク３と接続可能となる機器が存在してもよい。ネットワーク３と接続可能な機器は、ホームゲートウェイを介さず、直接サーバ２と接続してもよい。

　サーバ２は、公知のサーバコンピュータ等から構成され、ネットワーク３を介して機器１と通信可能に接続されている。

　図２は、本開示の実施の形態１における音声認識システムの機器の構成を示す図である。本実施の形態１における機器１は、通信部１１、制御部１２、メモリ１３、マイクロフォン１４、スピーカ１５及び表示部１６を備える。なお、機器１のこれらの構成のうち一部の構成がかけていてもよいし、他の構成を備えていてもよい。

　通信部１１は、ネットワーク３を介してサーバ２へ情報を送信するとともに、ネットワーク３を介してサーバ２から情報を受信する。制御部１２は、例えばＣＰＵ（中央演算処理装置）で構成され、機器１の全体を制御する。制御部１２は、音声認識部１００を備える。音声認識部１００は、ユーザの音声を認識する。制御部１２は、認識した音声に応じて機器１を動作させる。

　メモリ１３は、例えばＲＯＭ（リードオンリメモリ）又はＲＡＭ（ランダムアクセスメモリ）で構成され、情報を記憶する。マイクロフォン１４は、音声を電気信号に変換し、音声情報として出力する。マイクロフォン１４は、２つのマイクユニット含むマイクロフォンアレイで構成され、機器１が配置されている空間内の音声を収音する。スピーカ１５は、音声を出力する。表示部１６は、例えば液晶表示装置で構成され、種々の情報を表示する。

　図３は、本開示の実施の形態１における音声認識部の構成を示す図である。本実施の形態１における音声認識部１００は、音声取得部２０１、空間音圧分布検出部２０２、点音源検出部２０３、音声認識制御部２０４及び音声認識処理部２０５を備える。

　音声取得部２０１は、所定の空間に配置されたマイクロフォン１４から音声情報を取得する。具体的には、マイクロフォン１４は、アナログ信号である音声をデジタル信号である音声情報に変換し、音声取得部２０１は、デジタル信号に変換された音声情報をマイクロフォン１４から取得する。なお、所定の空間は、例えば機器が設置されている部屋であることが好ましい。

　空間音圧分布検出部２０２は、音声取得部２０１によって取得された音声情報に基づいて、空間内における音圧の分布を示す空間音圧分布を検出する。ここで空間音圧分布とは例えば、機器１（マイクロフォン１４）の位置を基準とした際の、所定角度ごとの音圧の分布を示すものである。また空間音圧分布とは例えば、機器１（マイクロフォン１４）の位置を基準とした際の、所定角度および所定距離ごとの音圧の分布を示すものであってもよい。空間音圧分布の具体例については本実施の形態および実施の形態２にて後述する。

　点音源検出部２０３は、空間音圧分布検出部２０２によって検出された空間音圧分布に基づいて、空間内における点音源を検出する。具体的には、点音源検出部２０３は、まず空間音圧分布検出部２０２によって検出された空間音圧分布のうち、音圧が所定の閾値以上である音源の角度範囲を取得する。そして、取得した角度範囲の幅が所定の幅以下である音源を、空間内における点音源と判断する。発話する人間の口は点音源であると見なすことができ、騒音を発するエアコンなどの機器は人間の口よりも音源に幅があったり、拡散性もあり、面音源であると見なすことができる。そのため、空間内における点音源を検出することで、人間が発した音声であるか否かを判断することができる。

　音声認識制御部２０４は、点音源検出部２０３によって点音源が検出された場合、音声取得部２０１によって取得された音声情報に対して音声認識処理を行うと判断する。

　音声認識処理部２０５は、音声認識制御部２０４によって音声認識処理を行うと判断された場合、音声取得部２０１によって取得された音声情報に対して音声認識処理を行う。

　ここで、本開示の実施の形態１における音声認識システムの動作について説明する。図４は、本開示の実施の形態１における音声認識システムの動作を説明するためのフローチャートである。

　まず、ステップＳ１において、音声取得部２０１は、機器１に設けられたマイクロフォン１４から音声情報を取得する。本実施の形態１において、マイクロフォン１４は、例えば２つのマイクユニットを含み、２つのマイクユニットから取得された音声情報を音声取得部２０１に出力する。なおマイクロフォン１４に含まれるマイクユニットは２つに限らず、３つ以上含まれていてもよい。

　次に、ステップＳ２において、空間音圧分布検出部２０２は、音声取得部２０１によって取得された音声情報に基づいて、空間内における音圧の分布を示す空間音圧分布を検出する。

　例えば、マイクロフォン１４が複数のマイクユニットを含む場合、既知のビームフォーミング技術などによって収音範囲に指向性を持たせることができるので、指向性のビーム方向を振る（走査させる）ことによって所定角度ごとの音圧分布を検出できる。さらに、音波が球面波であるという音波の特徴を利用することで、音源の距離に関するビーム操作も可能となり、所定の距離ごとの音圧分布の検出も可能となる。

　図２４（Ａ）は機器１と複数の音源（音源２４１、音源２４２、音源２４３、音源２４４）が存在する空間を模式的に示した図であり、図２４（Ｂ）は図２４（Ａ）に示した空間において空間音圧分布検出部２０２が検出した空間音圧分布を示した図である。

　図２４（Ａ）に示す機器１のマイクロフォン１４は、水平方向に位置の異なるマイクユニット１４ａとマイクユニット１４ｂとを含む。また図２４（Ａ）に示すように空間内に複数の音源（音源２４１、音源２４２、音源２４３、音源２４４）が存在するものとする。複数のマイクユニットを含むマイクロフォン１４は上記のように収音範囲に指向性を持たせることができるので、指向性のビーム方向を振る（走査させる）ことによって空間内の複数の領域に対してそれぞれ音源の存在の有無を検出することが出来る。これによって、図２４（Ｂ）に示すような空間音圧分布を検出することが出来る。図２４（Ｂ）に示す空間音圧分布は、機器１の位置を０°とした際に、－９０°～９０°における角度ごとの音圧の分布を示すものである。

　なお、マイクロフォン１４が水平方向に位置の異なる２つのマイクユニットを含む場合は、図２４に示すように水平面上での空間音圧分布を検出することが出来る。また、マイクロフォン１４が垂直方向に位置の異なる２つのマイクユニットを含む場合は、垂直面上での空間音圧分布を検出することが出来る。また、マイクロフォン１４が水平・垂直方向に位置が異なる３つのマイクユニットを含む場合、マイクロフォン１４の位置を原点とする３次元座標空間における音圧レベルの分布を検出することが出来る。

　次に、ステップＳ３において、点音源検出部２０３は、空間音圧分布検出部２０２によって検出された空間音圧分布に基づいて、空間内における点音源を検出する。点音源の幅は面音源の幅よりも狭い。また、点音源の面積は、面音源の面積よりも小さい。そのため、点音源検出部２０３は、まず空間音圧分布検出部２０２によって検出された空間音圧分布のうち、音圧が所定の閾値以上である音源の角度範囲を取得する。そして、取得した角度範囲の幅が所定の幅以下である音源を、空間内における点音源と判断する。以下図２４を用いて点音源検出部２０３が空間内における点音源を特定する具体例を説明する。

　点音源検出部２０３は、まず図２４（Ｂ）に示す空間音圧分布のうち、音圧が所定の閾値２４５以上である角度範囲を特定する。これにより点音源か否かを判断する対象となる音源を特定する。図２４（Ｂ）の下部には－９０°～４５°の範囲内に音源２４１が、－４５°～０°の範囲内に音源２４２が、０°～４５°の範囲内に音源２４３が、４５°～９０°の範囲内に音源２４４が、それぞれ点音源か否かを判断する対象となる音源として特定されている。また空間音圧分布検出部２０２は、音源２４１の角度範囲Ａ、音源２４２の角度範囲Ｂ、音源２４３の角度範囲Ｃ、音源２４４の角度範囲Ｄをそれぞれ取得している。

　そして点音源検出部２０３は、対象となる音源として特定した音源２４１、音源２４２、音源２４３、音源２４４のそれぞれの角度範囲Ａ～Ｄの幅のうち、所定の幅以下である角度範囲を持つ音源を特定し、特定した音源を点音源として判断する。ここでは例えば所定の幅以下である角度範囲ＢおよびＤに対応する音源２４２・音源２４４を、点音源であると判断する。これによって図２４（Ａ）に示す空間内には点音源２４２・点音源２４４が存在することを判断することができる。

　なお、点音源検出部２０３が点音源であるか否かを判断する方法は、上で説明した方法に限られない。点音源検出部２０３は取得した音源に関する、音圧の大小や、音圧の幅（すなわち特定した音源の角度範囲）、音波の特徴、音圧の面積（実施の形態２で説明）などのあらゆる情報のうち一または複数の情報を取得することで点音源であるか否かを判断する。

　次に、ステップＳ４において、音声認識制御部２０４は、点音源検出部２０３によって点音源が検出されたか否かを判断する。ここで、点音源が検出されたと判断された場合（ステップＳ４でＹＥＳ）、音声認識制御部２０４は、音声認識処理を行うと判断し、ステップＳ５の処理へ移行する。一方、点音源が検出されていないと判断された場合（ステップＳ４でＮＯ）、音声認識制御部２０４は、音声認識処理を行わないと判断し、ステップＳ１の処理へ戻る。図２４の例では、点音源検出部２０３は点音源２４２・点音源２４４を検出しているので、ステップＳ５の処理へ移行する。

　なお図２４（Ｂ）のように、所定角度ごとの音圧分布を検出している場合は、マイクロフォン１４から所定の角度範囲内に位置する音源のみを制御対象の音源と判断してもよい。例えば音声認識制御部２０４は、音源２４２・音源２４４のうち、マイクロフォン１４から所定の角度範囲（例えば－４５°～４５°）内に位置する音源である音源２４２のみを制御対象の音源と判断する。これによって、音声認識装置（システム）が音声コマンドを受け付ける音源領域を制限することが出来る。なお、音声認識制御部２０４が点音源と判断する所定の角度範囲に関しては、予め設定されている角度でもよいし、ユーザが設定出来てもよい。

　次に、ステップＳ５において、音声認識処理部２０５は、音声認識制御部２０４によって音声認識処理を行うと判断された場合、音声取得部２０１によって取得された音声情報に対して音声認識処理を行う。また、音声認識処理部２０５は、音声認識制御部２０４によって音声認識処理を行わないと判断された場合、音声取得部２０１によって取得された音声情報に対して音声認識処理を行わない。

　このように、点音源が検出された場合、音声認識処理が行われ、点音源が検出されない場合、音声認識処理が行われないので、音声認識処理を行うか否かを容易に判断することができる。また、人間の存在を検知するためのセンサが不要であるので、安価な構成で音声認識の誤動作を防止することができる。

　なお、本実施の形態において、マイクロフォン１４は、２つのマイクユニットを含んでいるが、本開示は特にこれに限定されず、マイクロフォン１４は、３つ以上のマイクユニットを含んでもよい。この場合、空間音圧分布の検出精度を向上させることができる。このことは、他の実施の形態でも適用可能である。

　また、本実施の形態において、機器１が備えるマイクロフォン１４を利用して空間音圧分布が検出されるが、本開示は特にこれに限定されず、空間音圧分布検出部２０２は、機器１が備えるマイクロフォン１４に加えて、機器１と同一空間内に配置された他の機器が備えるマイクロフォンを利用して空間音圧分布を検出してもよい。この場合、他の機器のマイクロフォンの位置は、空間音圧分布検出部２０２に予め記憶されていることが好ましい。このことは、他の実施の形態でも適用可能である。

　また、本実施の形態において、機器１が音声認識部１００を備えているが、本開示は特にこれに限定されず、サーバ２が音声認識部１００を備えてもよい。この場合、機器１のマイクロフォン１４で取得された音声情報が、ネットワーク３を介してサーバ２へ送信され、サーバ２の音声認識部１００が図４のステップＳ１～Ｓ５の処理を実行する。そして、サーバ２は、音声認識処理を行った場合、音声認識処理結果に基づく機器１の動作指示を機器１へ送信し、機器１は、サーバ２からの動作指示に応じて動作する。このことは、他の実施の形態でも適用可能である。

　また、本実施の形態において、機器１が音声認識部１００を備えているが、本開示は特にこれに限定されず、機器１と同一の家庭内に配置された他の機器が音声認識部１００を備えてもよい。また、家庭内に配置された複数の機器を制御するホームコントローラが音声認識部１００を備えてもよい。このことは、他の実施の形態でも適用可能である。

　（実施の形態２）
　図５は、本開示の実施の形態２における音声認識部の構成を示す図である。本実施の形態２における音声認識部１０１は、音声取得部２０１、空間音圧分布検出部２０２、点音源検出部２０３、音声認識制御部２０４、音声認識処理部２０５及び点音源位置特定部２０６を備える。なお、機器１の構成は、実施の形態１と同じであり、制御部１２が音声認識部１０１を備える。実施の形態２において、実施の形態１と同一の構成については同一の符号を付し、説明を省略する。

　点音源位置特定部２０６は、点音源検出部２０３によって点音源が検出された場合、検出された点音源の空間内における位置を特定する。なお、メモリ１３は、機器１に設けられたマイクロフォンに含まれる複数のマイクユニットの位置を予め記憶している。点音源位置特定部２０６は、複数のマイクユニットの位置を用いた３点測量法により３次元空間内における点音源の位置を特定する。

　音声認識制御部２０４は、点音源の位置と機器１との距離が所定の距離より近い場合、音声認識処理を行うと判断し、点音源の位置と機器１との距離が所定の距離以上である場合、音声認識処理を行わないと判断する。

　ここで、本開示の実施の形態２における音声認識システムの動作について説明する。図６は、本開示の実施の形態２における音声認識システムの動作を説明するためのフローチャートである。

　なお、図６のステップＳ１１～Ｓ１４の処理は、図４のステップＳ１～Ｓ４の処理と同じであるので説明を省略する。

　ステップＳ１４において点音源が検出されたと判断された場合（ステップＳ４でＹＥＳ）、ステップＳ１５において、点音源位置特定部２０６は、点音源検出部２０３によって検出された点音源の空間内における位置を特定する。点音源位置特定部２０６は、空間音圧分布検出部２０２によって検出された空間音圧分布の中から、点音源検出部２０３によって検出された点音源の位置を特定する。

　空間音圧分布は、例えば、マイクロフォン１４の位置を原点とする２次元（もしくは３次元）座標空間における音圧レベルの分布を表している。メモリ１３は、機器１に設けられたマイクロフォン１４に含まれる複数のマイクユニットの位置を予め記憶している。また、複数のマイクユニットは、所定の間隔で配置されている。点音源から出力された音声が各マイクユニットに到達するまでの時間は、それぞれ異なる。そのため、点音源位置特定部２０６は、複数のマイクユニットのそれぞれの位置と、検出された点音源から複数のマイクユニットに音声が到達するまでの時間とに基づいて、２次元（３次元）空間内における点音源の位置（マイクロフォン１４からの距離）を特定する。

　ここで、点音源の位置（マイクロフォン１４からの距離）を特定する方法は、これに限られない。例えば音波が伝わる特徴を利用して特定してもよい。例えば音の伝播が球面波であるという特徴を利用することで距離方向の音圧分布を測定することが出来るので、これにより点音源の位置（マイクロフォン１４からの距離）を特定してもよい。

　ここで、ステップＳ１５にて、点音源の位置を特定した場合、空間音圧分布検出部は、ステップＳ１２にて検出した音圧分布を機器１を基準にした所定角度および所定距離ごとの音圧分布を示すものに更新してもよい。

　図２５（Ａ）は機器１と複数の音源（音源２５１、音源２５２、音源２５３、音源２５４）が存在する空間を模式的に示した図であり、図２５（Ｂ）は図２５（Ｂ）に示した空間において空間音圧分布検出部２０２が検出した距離と角度ごとの空間音圧分布を示した図である。図２５（Ｂ）に示す空間音圧分布は、機器１の位置を原点とした際に、横軸：角度、縦軸：距離として２次元座標を構築し、検出した音源を座標上に配置し、また各音源の面積（角度範囲の幅および奥行き方向の幅）を円の大きさにて表したものである。

　ステップＳ１５にて音源の位置（距離）を特定しているので、各音源に対して機器１から見た奥行き方向の幅を検出することが出来る。よって、ステップＳ１３にて、実施の形態１で説明した各音源の角度範囲の幅に加えて、奥行き方向の幅を考慮することで、各音源を面積として算出できる。これによりこの面積が所定の閾値よりも小さいものを点音源として特定してもよい。

　図２５（Ｂ）に示す例では、－９０°～４５°の範囲内に音源２５１が、－４５°～０°の範囲内に音源２５２が、０°～４５°の範囲内に音源２５３が、４５°～９０°の範囲内に音源２５４が、それぞれ音源として検出されており、これらの音源のうち所定の面積よりも小さい音源である音源２５２、音源２５３、音源２５４が点音源と特定されているものとする。

　次に、ステップＳ１６において、音声認識制御部２０４は、点音源の位置と機器１との距離が所定の距離より近いか否かを判断する。音声認識制御部２０４は、マイクロフォン１４の位置を原点とする３次元座標空間における機器１の位置を予め記憶している。そのため、音声認識制御部２０４は、点音源位置特定部２０６によって特定された点音源の位置座標と、機器１の位置座標との間の距離を算出することができ、算出した距離が所定の距離より近いか否かを判断する。

　ここで図２５（Ｂ）を用いて、音声認識制御部２０４が点音源の位置と機器１との距離が所定の距離より近いか否かを判断する例について説明する。

　図２５（Ｂ）の例では上記したように点音源検出部２０３が音源２５２、音源２５３、音源２５４、を点音源であると判断したとする。この場合、点音源２５２・点音源２５３・点音源２５４のうち、所定の距離である閾値２５５（この場合３ｍ）内に位置する点音源２５２・点音源２５４が、機器１との距離が所定の範囲内に納まる音源であると判断する。

　なお、所定の距離とは、例えば、ユーザが機器１を操作可能な範囲であることが好ましい。例えば、機器１がテレビである場合、所定の距離は、ユーザが視聴可能な範囲であることが好ましい。また、マイクユニットの検出感度を考慮した場合、所定の距離とは、複数のマイクユニットのうちの一方端のマイクユニットから他方端のマイクユニットまでの距離の３倍、４倍又は５倍であることが好ましい。

　ここで、点音源の位置と機器１との距離が所定の距離より近いと判断された場合（ステップＳ１６でＹＥＳ）、音声認識制御部２０４は、音声認識処理を行うと判断し、ステップＳ１７の処理へ移行する。一方、点音源の位置と機器１との距離が所定の距離より近くないと判断された場合（ステップＳ１６でＮＯ）、音声認識制御部２０４は、音声認識処理を行わないと判断し、ステップＳ１１の処理へ戻る。

　次に、ステップＳ１７において、音声認識処理部２０５は、音声認識制御部２０４によって音声認識処理を行うと判断された場合、音声取得部２０１によって取得された音声情報に対して音声認識処理を行う。また、音声認識処理部２０５は、音声認識制御部２０４によって音声認識処理を行わないと判断された場合、音声取得部２０１によって取得された音声情報に対して音声認識処理を行わない。

　このように、点音源が検出された場合、点音源の位置と機器１との距離が所定の距離より近いか否かが判断される。そして、点音源の位置と機器１との距離が所定の距離より近いと判断された場合、音声認識処理が行われ、点音源の位置と機器１との距離が所定の距離より近くないと判断された場合、音声認識処理が行われない。したがって、点音源の位置と機器１との距離が所定の距離より近いか否かを判断することにより、機器１を操作するためにユーザが機器１に近い場所で発話しているのか、又は機器１の操作とは関係なくユーザが機器１から離れた場所で発話しているのかを判断することができ、安価な構成で音声認識の誤動作を防止することができる。

　また、高価な装置を用いることなく話者の位置を特定し、話者の位置に基づいて音声認識処理を制御することができる。

　（実施の形態３）
　図７は、本開示の実施の形態３における音声認識部の構成を示す図である。本実施の形態３における音声認識部１０２は、音声取得部２０１、空間音圧分布検出部２０２、点音源検出部２０３、音声認識制御部２０４、音声認識処理部２０５、点音源位置特定部２０６及び指向性制御部２０７を備える。なお、機器１の構成は、実施の形態１と同じであり、制御部１２が音声認識部１０２を備える。実施の形態３において、実施の形態１及び実施の形態２と同一の構成については同一の符号を付し、説明を省略する。

　指向性制御部２０７は、点音源位置特定部２０６によって特定された点音源の位置に向けてマイクロフォン１４の指向性の方向を制御する。指向性制御部２０７は、点音源位置特定部２０６によって特定された点音源の位置に向かう方向の感度を高めるように、音声取得部２０１によって取得された音声情報に対して信号処理を施す。これにより、マイクロフォン１４の指向性が、点音源に向かう方向に制御される。

　このように、点音源の位置に向けてマイクロフォン１４の指向性の方向を制御することにより、点音源からの音声情報を確実に取得することができ、音声認識の誤動作を防止することができる。

　（実施の形態４）
　図８は、本開示の実施の形態４における音声認識部の構成を示す図である。本実施の形態４における音声認識部１０３は、音声取得部２０１、空間音圧分布検出部２０２、点音源検出部２０３、音声認識制御部２０４、音声認識処理部２０５、点音源位置特定部２０６、指向性制御部２０７、出力音声生成部２０８及びエコー除去部２０９を備える。なお、機器１の構成は、実施の形態１と同じであり、制御部１２が音声認識部１０３を備える。実施の形態４において、実施の形態１～実施の形態３と同一の構成については同一の符号を付し、説明を省略する。

　出力音声生成部２０８は、機器１のスピーカ１５から出力される出力音声情報を生成する。出力音声生成部２０８は、ユーザに対して操作を促すための出力音声情報、又はユーザの操作に対して応答するための出力音声情報などを生成し、スピーカ１５及びエコー除去部２０９へ出力する。出力音声生成部２０８は、機器１の動作状況に応じた出力音声情報をメモリ１３から読み出し、出力音声情報を生成する。あるいは、出力音声生成部２０８は、機器１の動作状況に応じた複数の音声情報をメモリ１３から読み出し、読み出した複数の音声情報を組み合わせることにより出力音声情報を生成してもよい。なお、例えば機器１がテレビ、ラジオ又は音楽再生用のオーディオなどである場合、出力音声生成部２０８が生成する出力音声情報としては、受信した放送コンテンツの音声情報又は記録（録画又は録音）されたコンテンツの音声情報を含んでいてもよい。

　スピーカ１５は、出力音声生成部２０８によって生成された出力音声情報を出力音声として出力する。

　エコー除去部２０９は、出力音声生成部２０８によって生成された出力音声情報を取得し、音声取得部２０１によって取得された音声情報から、取得した出力音声情報をエコー成分として除去する。

　すなわち、スピーカ１５から音声が出力される場合、音声取得部２０１によって取得された音声情報には、ユーザが発した音声だけでなく、当該スピーカ１５から出力された音声がエコー成分として含まれる。そのため、エコー成分が含まれる音声情報を基に音声認識が行われた場合、正確に音声認識が行われないおそれがある。そこで、音声取得部２０１によって取得された音声情報から、出力音声生成部２０８によって生成された出力音声情報をエコー成分として除去する。これにより、点音源からの音声情報を確実に取得することができ、音声認識の誤動作を防止することができる。

　（実施の形態５）
　図９は、本開示の実施の形態５における音声認識部の構成を示す図である。本実施の形態５における音声認識部１０４は、音声取得部２０１、空間音圧分布検出部２０２、点音源検出部２０３、音声認識制御部２０４、音声認識処理部２０５、点音源位置特定部２０６及び直接到来点音源特定部２１０を備える。なお、機器１の構成は、実施の形態１と同じであり、制御部１２が音声認識部１０４を備える。実施の形態５において、実施の形態１～実施の形態４と同一の構成については同一の符号を付し、説明を省略する。

　直接到来点音源特定部２１０は、点音源位置特定部２０６によって位置が特定された点音源のうち、発せられた音声がマイクロフォン１４に直接到来する直接到来点音源を特定する。なお、点音源位置特定部２０６によって位置が特定された点音源のうち、発せられた音声がマイクロフォン１４に直接到来する直接到来点音源は、周知の方法で特定することが可能である。直接到来音源の特定方法に関しては図２６を用いて後述する。音声認識制御部２０４は、直接到来点音源特定部２１０で直接到来点音源が特定された場合、音声認識処理を行うと判断し、直接到来点音源特定部２１０で直接到来点音源が特定されない場合、音声認識処理を行わないと判断する。

　ここで、本開示の実施の形態５における音声認識システムの動作について説明する。図１０は、本開示の実施の形態５における音声認識システムの動作を説明するためのフローチャートである。

　なお、図１０のステップＳ２１～Ｓ２５の処理は、図６のステップＳ１１～Ｓ１５の処理と同じであるので説明を省略する。

　ステップＳ２６において、直接到来点音源特定部２１０は、点音源位置特定部２０６によって位置が特定された点音源のうち、発せられた音声がマイクロフォン１４に直接到来する直接到来点音源を特定する。

　次に、ステップＳ２７において、音声認識制御部２０４は、直接到来点音源特定部２１０によって直接到来点音源が特定されたか否かを判断する。

　点音源からマイクロフォン１４に到来する音声には、直接マイクロフォン１４に到来する音声だけでなく、壁などに反射してからマイクロフォン１４に到来する音声又は壁などを通過してからマイクロフォン１４に到来する音声もある。

　通常、ユーザは、機器の方向を向いた状態で機器を操作する。そのため、壁などに反射してからマイクロフォン１４に到来する音声又は壁などを通過してからマイクロフォン１４に到来する音声は、ユーザが機器の方向を向いていない状態で発せられた音声である可能性が高く、機器に対する操作指示ではない可能性が高い。そこで、本実施の形態５における音声認識処理部２０５は、発せられた音声がマイクロフォン１４に直接到来する場合、音声認識を行い、発せられた音声がマイクロフォン１４に直接到来しない場合、音声認識を行わない。

　以下図２６を用いて、直接到来音源特定部２１０が直接到来音か直接到来音でない音（反射音）かを判断する方法を説明する。図２６は、時刻ｔにおいて測定された空間内の音源と、時刻ｔ＋１において測定された空間内の音源を模式的に示した図である。

　図２６の例では、点音源検出部２０３は、時刻ｔにおいて点音源２６１を検出している。また時刻ｔにおいて、点音源位置特定部２０６は点音源２６１の位置が、機器１から距離ｘの位置であることを特定している。また時刻ｔ＋１において、点音源検出部２０３は、点音源２６２を、点音源２６３をそれぞれ検出している。また時刻ｔ＋１において、点音源位置特定部２０６は点音源２６２の位置が機器１から距離ｙの位置であり、点音源２６３の位置が機器１から距離ｘの位置であることを特定している。また、点音源位置特定部２０６は点音源２６１と点音源２６３が同じ位置（２次元座標）にあることを特定している。

　この場合、まず直接到来音源特定部２１０は、異なる時刻に同じ位置（２次元座標）に発生している点音源２６１と点音源２６３を同じ音源から発せられた音と判断する。

　そして次に直接到来音源特定部２１０は、異なる時刻に検出された音源のうち、同じ音源から発せられた音と判断されていない点音源２６１と点音源２６２との音の特徴を比較する。ここで、音の特徴とは例えば、時刻ｔにおいて点音源２６１に指向性を向けた際の音声と時刻ｔ＋１において点音源２６２、もしくは点音源２６３に指向性を向けた際の音声との相関や独立性などを含み、特に限定しない。そして直接到来音源特定部２１０は、点音源２６１と点音源２６２が略同一の音の特徴を有していると判断した場合、点音源２６２を直接到来音源でない、すなわち点音源２６１が壁に反射することによって発生している反射音源であると判断する。そして音源２６１、音源２６３に関しても、機器１に向かって発されている音源ではない可能性が高いので、直接到来音源ではないと判断する。

　すなわち直接到来音源特定部２１０は、異なる時刻に検出され検出位置（音源分布上の検出領域）が異なる複数の音源のうち、略同一の音の特徴を有する複数の音源を検出した際に、少なくとも検出した時刻が後である音源を直接到来音でない音と判断する。

　ここで音の特徴が略同一であるか否かの判断の方法としては、例えば複数の音源の音の特徴を示す値を比較し、それぞれの値の一致度が所定値以上である場合に略同一として判断するなどが考えられる。

　なお、直接到来音源の特定方法はこれに限られない。例えば、同一時刻に音の特徴が略同一である複数の音源を特定した際に、機器からの距離が遠い音源を直接到来音ではない音と判断してもよい。

　すなわち、直接到来音源特定部２１０は時間的に異なる（もしくは時間的に同一の）複数の音源が存在する場合に、各々の音源の機器１に対する距離や、位置、音の特徴、などに基づいて直接到来音であるか否かを判断すればよい。

　ここで、直接到来点音源特定部２１０によって直接到来点音源が特定されたと判断された場合（ステップＳ２７でＹＥＳ）、音声認識制御部２０４は、音声認識処理を行うと判断し、ステップＳ２８の処理へ移行する。一方、直接到来点音源特定部２１０によって直接到来点音源が特定されないと判断された場合（ステップＳ２７でＮＯ）、音声認識制御部２０４は、音声認識処理を行わないと判断し、ステップＳ２１の処理へ戻る。

　次に、ステップＳ２８において、音声認識処理部２０５は、音声認識制御部２０４によって音声認識処理を行うと判断された場合、音声取得部２０１によって取得された音声情報に対して音声認識処理を行う。また、音声認識処理部２０５は、音声認識制御部２０４によって音声認識処理を行わないと判断された場合、音声取得部２０１によって取得された音声情報に対して音声認識処理を行わない。

　このように、発せられた音声がマイクロフォン１４に直接到来する場合、音声認識が行われ、発せられた音声がマイクロフォン１４に直接到来しない場合、音声認識が行われないので、機器１を操作するためにユーザが機器１の方向に向かって発話しているのか、又は機器１の操作とは関係なくユーザが機器１の方向とは異なる方向に向かって発話しているのかを判断することができ、安価な構成で音声認識の誤動作を防止することができる。

　（実施の形態６）
　図１１は、本開示の実施の形態６における音声認識部の構成を示す図である。本実施の形態６における音声認識部１０５は、音声取得部２０１、空間音圧分布検出部２０２、点音源検出部２０３、音声認識制御部２０４、音声認識処理部２０５、点音源位置特定部２０６、指向性制御部２０７及び直接到来点音源特定部２１０を備える。なお、機器１の構成は、実施の形態１と同じであり、制御部１２が音声認識部１０５を備える。実施の形態６において、実施の形態１～実施の形態５と同一の構成については同一の符号を付し、説明を省略する。

　直接到来点音源特定部２１０は、点音源位置特定部２０６によって位置が特定された点音源のうち、発せられた音声がマイクロフォン１４に直接到来する直接到来点音源を特定する。

　指向性制御部２０７は、直接到来点音源特定部２１０によって直接到来点音源が特定された場合、点音源位置特定部２０６によって特定された点音源の位置に向けてマイクロフォン１４の指向性の方向を制御する。

　このように、発せられた音声がマイクロフォン１４に直接到来する直接到来点音源の位置に向けてマイクロフォン１４の指向性の方向が制御されるので、点音源からの音声情報を確実に取得することができ、音声認識の誤動作を防止することができる。

　（実施の形態７）
　図１２は、本開示の実施の形態７における音声認識部の構成を示す図である。本実施の形態７における音声認識部１０６は、音声取得部２０１、空間音圧分布検出部２０２、点音源検出部２０３、音声認識制御部２０４、音声認識処理部２０５、点音源位置特定部２０６、指向性制御部２０７、出力音声生成部２０８、エコー除去部２０９及び直接到来点音源特定部２１０を備える。なお、機器１の構成は、実施の形態１と同じであり、制御部１２が音声認識部１０６を備える。実施の形態７において、実施の形態１～実施の形態６と同一の構成については同一の符号を付し、説明を省略する。

　また、音声取得部２０１によって取得された音声情報から、出力音声生成部２０８によって生成された出力音声情報がエコー成分として除去されるので、点音源からの音声情報を確実に取得することができ、音声認識の誤動作を防止することができる。

　（実施の形態８）
　図１３は、本開示の実施の形態８における音声認識部の構成を示す図である。本実施の形態８における音声認識部１０７は、音声取得部２０１、空間音圧分布検出部２０２、点音源検出部２０３、音声認識制御部２０４、音声認識処理部２０５、点音源位置特定部２０６、直接到来点音源特定部２１０及び音声識別部２１１を備える。なお、機器１の構成は、実施の形態１と同じであり、制御部１２が音声認識部１０７を備える。実施の形態８において、実施の形態１～実施の形態７と同一の構成については同一の符号を付し、説明を省略する。

　音声識別部２１１は、直接到来点音源特定部２１０によって直接到来点音源が特定された場合、直接到来した音声が人間によって発話された音声であるか否かを識別する。

　音声認識制御部２０４は、音声識別部２１１によって直接到来した音声が人間によって発話された音声であると識別された場合、音声認識処理を行うと判断し、音声識別部２１１によって直接到来した音声が人間によって発話された音声ではないと識別された場合、音声認識処理を行わないと判断する。

　人間の口は点音源であるが、様々な雑音の中には点音源である雑音も存在する。そのため、直接到来した音声が人間によって発話された音声であるか否かを識別することにより、人間以外の機器から発せられる雑音に対して音声認識処理が行われることを防止する。

　ここで、本開示の実施の形態８における音声認識システムの動作について説明する。図１４は、本開示の実施の形態８における音声認識システムの動作を説明するためのフローチャートである。

　なお、図１４のステップＳ３１～Ｓ３７の処理は、図１０のステップＳ２１～Ｓ２７の処理と同じであるので説明を省略する。

　ステップＳ３８において、音声識別部２１１は、直接到来点音源特定部２１０によって直接到来点音源が特定された場合、直接到来した音声が人間によって発話された音声であるか否かを識別する。メモリ１３は、人間の音声の波形パターンを予め記憶している。音声識別部２１１は、取得した音声情報の波形パターンと、メモリ１３に予め記憶されている人間の音声の波形パターンとを比較する。取得した音声情報の波形パターンが、メモリ１３に予め記憶されている人間の音声の波形パターンと略一致する場合、音声識別部２１１は、直接到来した音声が人間によって発話された音声であると識別する。一方、取得した音声情報の波形パターンが、メモリ１３に予め記憶されている人間の音声の波形パターンと略一致しない場合、音声識別部２１１は、直接到来した音声が人間によって発話された音声ではないと識別する。

　ここで、直接到来した音声が人間によって発話された音声であると識別された場合（ステップＳ３８でＹＥＳ）、音声認識制御部２０４は、音声認識処理を行うと判断し、ステップＳ３９の処理へ移行する。一方、直接到来した音声が人間によって発話された音声ではないと識別された場合（ステップＳ３８でＮＯ）、音声認識制御部２０４は、音声認識処理を行わないと判断し、ステップＳ３１の処理へ戻る。

　次に、ステップＳ３９において、音声認識処理部２０５は、音声認識制御部２０４によって音声認識処理を行うと判断された場合、音声取得部２０１によって取得された音声情報に対して音声認識処理を行う。また、音声認識処理部２０５は、音声認識制御部２０４によって音声認識処理を行わないと判断された場合、音声取得部２０１によって取得された音声情報に対して音声認識処理を行わない。

　このように、点音源から直接到来した音声が人間の音声である場合、音声認識が行われ、点音源から直接到来した音声が人間の音声ではない場合、音声認識が行われないので、人間以外の機器から発せられる音声に対して音声認識処理が行われることを防止することができる。

　なお、音声識別部２１１は、直接到来点音源特定部２１０によって直接到来点音源が特定された場合、話者を識別してもよい。話者を識別する方法については限定しない。音声識別部２１１は、音声を発している話者の大まかな年齢又は性別などの個人情報を特定してもよいし、予め登録されている音声データベース等を用いて個人を特定してもよい。これによって、例えば室外から発生して壁を通過してマイクロフォン１４に到来した音声、又は音声データベースに登録されている家族以外が発した音声に対して音声認識処理が行われることを防止することができる。

　（実施の形態９）
　図１５は、本開示の実施の形態９における音声認識部の構成を示す図である。本実施の形態９における音声認識部１０８は、音声取得部２０１、空間音圧分布検出部２０２、点音源検出部２０３、音声認識制御部２０４、音声認識処理部２０５、点音源位置特定部２０６、指向性制御部２０７、直接到来点音源特定部２１０及び音声識別部２１１を備える。なお、機器１の構成は、実施の形態１と同じであり、制御部１２が音声認識部１０８を備える。実施の形態９において、実施の形態１～実施の形態８と同一の構成については同一の符号を付し、説明を省略する。

　指向性制御部２０７は、直接到来点音源特定部２１０によって直接到来点音源が特定されるとともに、直接到来した音声が人間によって発話された音声であると識別された場合、点音源位置特定部２０６によって特定された点音源の位置に向けてマイクロフォン１４の指向性の方向を制御する。

　このように、人間であると識別された点音源の位置に向けてマイクロフォン１４の指向性の方向が制御されるので、ユーザからの音声情報を確実に取得することができ、音声認識の誤動作を防止することができる。

　（実施の形態１０）
　図１６は、本開示の実施の形態１０における音声認識部の構成を示す図である。本実施の形態１０における音声認識部１０９は、音声取得部２０１、空間音圧分布検出部２０２、点音源検出部２０３、音声認識制御部２０４、音声認識処理部２０５、点音源位置特定部２０６、指向性制御部２０７、出力音声生成部２０８、エコー除去部２０９、直接到来点音源特定部２１０及び音声識別部２１１を備える。なお、機器１の構成は、実施の形態１と同じであり、制御部１２が音声認識部１０９を備える。実施の形態１０において、実施の形態１～実施の形態９と同一の構成については同一の符号を付し、説明を省略する。

　特に、本実施の形態では、指向性制御部２０７は、エコー除去部２０９によってエコー成分が除去された音声情報に対して、点音源の位置に向かう方向に指向性を有するように信号処理を施す。

　これにより、点音源からの音声情報を確実に取得することができ、音声認識の誤動作を防止することができる。

　（実施の形態１１）
　図１７は、本開示の実施の形態１１における音声認識部の構成を示す図である。本実施の形態１１における音声認識部１１０は、音声取得部２０１、空間音圧分布検出部２０２、点音源検出部２０３、音声認識制御部２０４、音声認識処理部２０５、点音源位置特定部２０６及び音声認識用単語表示制御部２１２を備える。なお、機器１の構成は、実施の形態１と同じであり、制御部１２が音声認識部１１０を備える。実施の形態１１において、実施の形態１～実施の形態１０と同一の構成については同一の符号を付し、説明を省略する。

　音声認識用単語表示制御部２１２は、音声認識制御部２０４によって音声認識処理を行うと判断された場合、音声認識処理に用いられる複数の音声認識用単語を予め記憶するメモリ１３から、機器の操作に関する少なくとも１つの音声認識用単語を読み出し、読み出した少なくとも１つの音声認識用単語を表示部１６に表示する。

　音声認識用単語は、音声認識が可能な単語である。例えば、機器１がテレビである場合、音声認識用単語は、“音量大”、“音量小”、“チャンネルアップ”、“チャンネルダウン”、“番組表”、“検索”、“動画”及び“電源オフ”を含む。

　図１８は、本開示の実施の形態１１において、表示部に表示される表示画面の一例を示す図である。

　機器１がテレビである場合、表示部１６の表示画面３００には、図１８に示す音声認識用単語３０１が表示される。図１８に示すように、音声認識用単語表示制御部２１２は、“音量大”、“音量小”、“チャンネルアップ”、“チャンネルダウン”、“番組表”、“検索”、“動画”及び“電源オフ”という音声認識用単語３０１を表示部１６に表示する。なお、音声認識用単語表示制御部２１２によって表示される音声認識用単語３０１はこれに限られない。

　このように、音声認識処理に用いられる音声認識用単語が表示されるので、ユーザは表示された音声認識用単語を確認し、確実に音声により機器を操作することができる。

　なお、本実施の形態１１では、表示画面３００の下部に音声認識用単語３０１が一覧表示されているが、本開示は特にこれに限定されず、表示画面３００の上部、中央部、左端部又は右端部に音声認識用単語３０１が一覧表示されてもよい。また、表示画面３００の下部に音声認識用単語３０１がスクロール表示されてもよい。

　また、メモリ１３に記憶されている全ての音声認識用単語が表示されるのではなく、メモリ１３に記憶されている音声認識用単語のうちの一部が表示されてもよい。また、ユーザの使用頻度が高い音声認識用単語が表示されてもよい。また、ユーザによって設定された音声認識用単語がメモリ１３に記憶されてもよい。

　また、メモリ１３は、複数種類の機器の操作に関する音声認識用単語を記憶してもよく、音声認識用単語表示制御部２１２は、ユーザによって操作される機器に関する音声認識用単語をメモリ１３から読み出し、表示部１６に表示してもよい。なお、サーバ２が音声認識部を備える場合、ユーザによって操作される機器を特定するための情報がサーバ２に送信され、当該情報に基づいて音声認識用単語がメモリから読み出される。

　また、本実施の形態１１では、実施の形態２の音声認識部の構成に音声認識用単語表示制御部２１２を付加しているが、本開示は特にこれに限定されず、実施の形態１，３～１０の音声認識部の構成に音声認識用単語表示制御部２１２を付加してもよい。

　（実施の形態１２）
　図１９は、本開示の実施の形態１２における音声認識部の構成を示す図である。本実施の形態１２における音声認識部１１１は、音声取得部２０１、空間音圧分布検出部２０２、点音源検出部２０３、音声認識制御部２０４、音声認識処理部２０５、点音源位置特定部２０６及び輝度制御部２１３を備える。なお、機器１の構成は、実施の形態１と同じであり、制御部１２が音声認識部１１１を備える。実施の形態１２において、実施の形態１～実施の形態１１と同一の構成については同一の符号を付し、説明を省略する。

　輝度制御部２１３は、音声認識制御部２０４によって音声認識処理を行うと判断された場合の表示部１６の輝度を、音声認識制御部２０４によって音声認識処理を行わないと判断された場合の表示部１６の輝度よりも向上させる。

　図２０（Ａ）は、本開示の実施の形態１２において、音声認識処理が行われる場合に表示部に表示される表示画面の一例を示す図であり、図２０（Ｂ）は、本開示の実施の形態１２において、音声認識処理が行われない場合に表示部に表示される表示画面の一例を示す図である。なお、図２０（Ａ）及び図２０（Ｂ）は、機器１がテレビである場合に表示部１６に表示される表示画面３１１，３１２の一例を示している。また、図２０（Ａ）及び図２０（Ｂ）では、ハッチングの有無により、輝度の違いを表現している。

　図２０（Ａ）及び図２０（Ｂ）に示すように、音声認識制御部２０４によって音声認識処理を行うと判断された場合の表示部１６の輝度は、音声認識制御部２０４によって音声認識処理を行わないと判断された場合の表示部１６の輝度よりも高くなる。

　このように、音声認識処理が行われる場合の表示部１６の輝度と、音声認識処理が行われない場合の表示部１６の輝度とを異ならせることにより、音声認識処理が可能であるか否かをユーザに報知することができる。

　なお、本実施の形態１１では、輝度制御部２１３は、音声認識処理が行われる場合の表示画面の全体の輝度と、音声認識処理が行われない場合の表示画面の全体の輝度とを異ならせているが、本開示は特にこれに限定されず、輝度制御部２１３は、音声認識処理が行われる場合の表示画面の一部の輝度と、音声認識処理が行われない場合の表示画面の一部の輝度とを異ならせてもよい。例えば、輝度制御部２１３は、音声認識処理が行われる場合の表示画面の外縁部分の輝度と、音声認識処理が行われない場合の表示画面の外縁部分の輝度とを異ならせてもよい。

　また、本実施の形態１２では、実施の形態２の音声認識部の構成に輝度制御部２１３を付加しているが、本開示は特にこれに限定されず、実施の形態１，３～１１の音声認識部の構成に輝度制御部２１３を付加してもよい。

　（実施の形態１３）
　図２１は、本開示の実施の形態１３における音声認識部の構成を示す図である。本実施の形態１３における音声認識部１１２は、音声取得部２０１、空間音圧分布検出部２０２、点音源検出部２０３、音声認識制御部２０４、音声認識処理部２０５、点音源位置特定部２０６、出力音声生成部２０８及びエージェント画像表示制御部２１４を備える。なお、機器１の構成は、実施の形態１と同じであり、制御部１２が音声認識部１１１を備える。実施の形態１２において、実施の形態１～実施の形態１１と同一の構成については同一の符号を付し、説明を省略する。

　出力音声生成部２０８は、音声認識制御部２０４における音声認識処理を行うか否かの判断に応じた出力音声を生成し、スピーカ１５から出力する。例えば、音声認識制御部２０４によって音声認識を行わないと判断された場合、出力音声生成部２０８は、ユーザに音声認識が可能な位置への移動を促すような音声情報を生成する。

　エージェント画像表示制御部２１４は、音声認識制御部２０４における音声認識処理を行うか否かの判断に応じたエージェント画像（アニメーション画像）を表示部１６に表示する。例えば、音声認識制御部２０４によって音声認識を行わないと判断された場合、エージェント画像表示制御部２１４は、ユーザに音声認識が可能な位置への移動を促すようなエージェント画像を表示する。

　エージェント画像表示制御部２１４は、出力音声生成部２０８によって生成された出力音声情報が出力される際に、出力される音声に連動してエージェント画像の表示を制御してもよい。また、メモリ１３は、エージェント画像を予め記憶してもよく、エージェント画像表示制御部２１４は、音声認識制御部２０４における音声認識処理を行うか否かの判断に応じたエージェント画像をメモリ１３から読み出し、表示部１６に表示してもよい。

　ここで、本開示の実施の形態１３における音声認識システムの動作について説明する。図２２は、本開示の実施の形態１３における音声認識システムの動作を説明するためのシーケンス図である。

　まず、ステップＳ５１において、マイクロフォン１４は、音声情報を取得する。

　次に、ステップＳ５２において、マイクロフォン１４は、取得した音声情報を音声認識部１１２へ出力する。

　次に、ステップＳ５３において、音声取得部２０１は、マイクロフォン１４によって出力された音声情報を取得する。

　次に、ステップＳ５４において、空間音圧分布検出部２０２は、音声取得部２０１によって取得された音声情報に基づいて、空間内における音圧の分布を示す空間音圧分布を検出する。

　次に、ステップＳ５５において、点音源検出部２０３は、空間音圧分布検出部２０２によって検出された空間音圧分布に基づいて、空間内における点音源を検出する。

　次に、ステップＳ５６において、点音源位置特定部２０６は、点音源検出部２０３によって検出された点音源の空間内における位置を特定する。なお、点音源が検出されたと判断された場合、点音源位置特定部２０６は、点音源検出部２０３によって検出された点音源の空間内における位置を特定し、点音源が検出されないと判断された場合、点音源位置特定部２０６は、点音源検出部２０３によって検出された点音源の空間内における位置を特定しない。

　次に、ステップＳ５７において、音声認識制御部２０４は、点音源の位置と機器１との距離が所定の距離より近いか否かを判断する。

　次に、ステップＳ５８において、エージェント画像表示制御部２１４は、音声認識制御部２０４における音声認識処理を行うか否かの判断に応じたエージェント画像をメモリ１３から読み出す。

　次に、ステップＳ５９において、エージェント画像表示制御部２１４は、読み出したエージェント画像を表示部１６へ出力する。

　次に、ステップＳ６０において、表示部１６は、エージェント画像表示制御部２１４によって出力されたエージェント画像を表示する。

　次に、ステップＳ６１において、出力音声生成部２０８は、音声認識制御部２０４における音声認識処理を行うか否かの判断に応じた出力音声情報を生成する。

　次に、ステップＳ６２において、出力音声生成部２０８は、生成した出力音声情報をスピーカ１５へ出力する。

　次に、ステップＳ６３において、スピーカ１５は、出力音声生成部２０８によって出力された出力音声情報を出力する。

　次に、ステップＳ６４において、音声認識処理部２０５は、音声認識制御部２０４によって音声認識処理を行うと判断された場合、音声取得部２０１によって取得された音声情報に対して音声認識処理を行う。また、音声認識処理部２０５は、音声認識制御部２０４によって音声認識処理を行わないと判断された場合、音声取得部２０１によって取得された音声情報に対して音声認識処理を行わない。

　図２３は、本開示の実施の形態１３において、表示部に表示される表示画面の一例を示す図である。なお、図２３は、機器１がテレビである場合に表示部１６に表示される表示画面４００の一例を示している。

　図２３に示すように、エージェント画像表示制御部２１４は、人間の顔を模したエージェント画像４０１を表示部１６の表示画面４００に表示する。

　エージェント画像４０１は、出力される音声に合わせて、あたかも話しているかのように動く。出力音声生成部２０８は、音声認識制御部２０４における音声認識処理を行うか否かの判断に応じた出力音声情報をメモリ１３から読み出し、スピーカ１５へ出力する。エージェント画像表示制御部２１４は、音声認識制御部２０４における音声認識処理を行うか否かの判断に応じたエージェント画像をメモリ１３から読み出し、スピーカ１５へ出力する。このとき、出力音声情報とエージェント画像とは対応付けて記憶されており、出力音声情報に連動したエージェント画像が表示される。

　このように、音声認識制御部２０４における音声認識処理を行うか否かの判断に応じたエージェント画像（アニメーション画像）が表示部１６に表示されるので、音声認識処理が可能であるか否かをユーザに報知することができる。

　なお、本実施の形態１３では、人間の顔を模したエージェント画像が表示されるが、本開示は特にこれに限定されない。

　また、エージェント画像表示制御部２１４は、音声認識制御部２０４によって音声認識を行うと判断された場合、ユーザの音声操作に応じて動くエージェント画像を表示してもよい。

　また、本実施の形態１３では、表示画面４００の下部にエージェント画像４０１が表示されているが、本開示は特にこれに限定されず、表示画面４００の上部、中央部、左端部又は右端部にエージェント画像４０１が表示されてもよい。

　また、本実施の形態１３では、実施の形態２の音声認識部の構成に出力音声生成部２０８及びエージェント画像表示制御部２１４を付加しているが、本開示は特にこれに限定されず、実施の形態１，３～１２の音声認識部の構成に出力音声生成部２０８及びエージェント画像表示制御部２１４を付加してもよい。

　なお、上述した具体的実施形態には以下の構成を有する開示が主に含まれている。

　この構成によれば、点音源が検出された場合、取得された音声情報に対して音声認識処理が行われ、点音源が検出されない場合、音声認識処理が行われないので、音声認識処理を行うか否かを容易に判断することができるとともに、安価な構成で音声認識の誤動作を防止することができる。

　また、上記の音声認識方法において、前記点音源検出ステップにおいて前記点音源が検出された場合、検出された前記点音源の前記空間内における位置を特定する位置特定ステップをさらに含み、前記音声認識制御ステップは、前記点音源の位置と前記機器との距離が所定の距離より近い場合、前記音声認識処理を行うと判断し、前記点音源の位置と前記機器との距離が所定の距離以上である場合、前記音声認識処理を行わないと判断することが好ましい。

　この構成によれば、点音源の位置と機器との距離が所定の距離より近いか否かを判断することにより、機器を操作するためにユーザが機器に近い場所で発話しているのか、又は機器の操作とは関係なくユーザが機器から離れた場所で発話しているのかを判断することができ、安価な構成で音声認識の誤動作を防止することができる。

　また、上記の音声認識方法において、前記位置特定ステップにおいて特定された前記点音源の位置に向けて前記マイクロフォンの指向性の方向を制御する指向性制御ステップをさらに含むことが好ましい。

　この構成によれば、点音源の位置に向けてマイクロフォンの指向性の方向を制御することにより、点音源からの音声情報を確実に取得することができ、音声認識の誤動作を防止することができる。

　また、上記の音声認識方法において、スピーカから出力される出力音声情報を生成する出力音声生成ステップと、前記出力音声生成ステップにおいて生成された前記出力音声情報を出力音声として前記スピーカから出力する音声出力ステップと、前記出力音声生成ステップにおいて生成された前記出力音声情報を取得し、前記音声情報取得ステップにおいて取得された前記音声情報から、取得した前記出力音声情報をエコー成分として除去するエコー除去ステップとを含むことが好ましい。

　この構成によれば、出力音声生成ステップにおいて生成された出力音声情報が取得され、音声情報取得ステップにおいて取得された音声情報から、取得した出力音声情報がエコー成分として除去されるので、点音源からの音声情報を確実に取得することができ、音声認識の誤動作を防止することができる。

　また、上記の音声認識方法において、前記点音源検出ステップにおいて前記点音源が検出された場合、検出された前記点音源の前記空間内における位置を特定する位置特定ステップと、前記位置特定ステップにおいて位置が特定された前記点音源のうち、発せられた音声が前記マイクロフォンに直接到来する直接到来点音源を特定する直接到来点音源特定ステップをさらに含むことが好ましい。

　この構成によれば、位置が特定された点音源のうち、発せられた音声がマイクロフォンに直接到来する直接到来点音源が特定されるので、機器を操作するためにユーザが機器の方向に向かって発話しているのか、又は機器の操作とは関係なくユーザが機器の方向とは異なる方向に向かって発話しているのかを判断することができる。

　また、上記の音声認識方法において、前記音声認識制御ステップは、前記直接到来点音源特定ステップにおいて前記直接到来点音源が特定された場合、前記音声認識処理を行うと判断し、前記直接到来点音源特定ステップにおいて前記直接到来点音源が特定されない場合、前記音声認識処理を行わないと判断することが好ましい。

　この構成によれば、発せられた音声がマイクロフォンに直接到来する場合、音声認識が行われ、発せられた音声がマイクロフォンに直接到来しない場合、音声認識が行われない。そのため、機器を操作するためにユーザが機器の方向に向かって発話しているのか、又は機器の操作とは関係なくユーザが機器の方向とは異なる方向に向かって発話しているのかを判断することができ、安価な構成で音声認識の誤動作を防止することができる。

　また、上記の音声認識方法において、前記位置特定ステップにおいて位置が特定された前記点音源のうち、発せられた音声が前記マイクロフォンに直接到来する直接到来点音源を特定する直接到来点音源特定ステップをさらに含み、前記指向性制御ステップは、前記直接到来点音源特定ステップにおいて前記直接到来点音源が特定された場合、前記位置特定ステップにおいて特定された前記点音源の位置に向けて前記マイクロフォンの指向性の方向を制御することが好ましい。

　この構成によれば、発せられた音声がマイクロフォンに直接到来する直接到来点音源の位置に向けてマイクロフォンの指向性の方向が制御されるので、点音源からの音声情報を確実に取得することができ、音声認識の誤動作を防止することができる。

　また、上記の音声認識方法において、前記直接到来点音源特定ステップにおいて前記直接到来点音源が特定された場合、前記直接到来した音声が人間によって発話された音声であるか否かを識別する音声識別ステップをさらに含み、前記音声認識制御ステップは、前記音声識別ステップにおいて前記直接到来した音声が人間によって発話された音声であると識別された場合、前記音声認識処理を行うと判断し、前記音声識別ステップにおいて前記直接到来した音声が人間によって発話された音声ではないと識別された場合、前記音声認識処理を行わないと判断することが好ましい。

　この構成によれば、点音源から直接到来した音声が人間の音声である場合、音声認識が行われ、点音源から直接到来した音声が人間の音声ではない場合、音声認識が行われないので、人間以外の機器から発せられる音声に対して音声認識処理が行われることを防止することができる。

　また、上記の音声認識方法において、前記音声認識制御ステップにおいて前記音声認識処理を行うと判断された場合、前記音声認識処理に用いられる単語を予め記憶する記憶部から前記単語を読み出し、読み出した前記単語を表示部に表示する音声認識単語表示ステップをさらに含むことが好ましい。

　この構成によれば、音声認識処理に用いられる音声認識用単語が表示されるので、ユーザは表示された音声認識用単語を確認し、確実に音声により機器を操作することができる。

　また、上記の音声認識方法において、前記音声認識制御ステップにおいて前記音声認識処理を行うと判断された場合の表示部の輝度を、前記音声認識制御ステップにおいて前記音声認識処理を行わないと判断された場合の表示部の輝度よりも向上させる輝度制御ステップをさらに含むことが好ましい。

　この構成によれば、音声認識処理が行われる場合の表示部の輝度と、音声認識処理が行われない場合の表示部の輝度とが異なるので、音声認識処理が可能であるか否かをユーザに報知することができる。

　また、上記の音声認識方法において、前記音声認識制御ステップにおける前記音声認識処理を行うか否かの判断に応じたアニメーション画像を表示部に表示するアニメーション画像表示ステップをさらに含むことが好ましい。

　この構成によれば、音声認識処理を行うか否かの判断に応じたアニメーション画像が表示部に表示されるので、音声認識処理が可能であるか否かをユーザに報知することができる。

　本開示の他の局面に係る音声認識装置は、機器を動作させるための音声を認識する音声認識装置であって、所定の空間に配置されたマイクロフォンから音声情報を取得する音声情報取得部と、前記音声情報取得部によって取得された前記音声情報に基づいて、前記空間内における音圧の分布を示す空間音圧分布を検出する空間音圧分布検出部と、前記空間音圧分布検出部によって検出された前記空間音圧分布に基づいて、前記空間内における点音源を検出する点音源検出部と、前記点音源検出部によって前記点音源が検出された場合、前記音声情報取得部によって取得された前記音声情報に対して音声認識処理を行うと判断する音声認識制御部とを備える。

　なお、開示を実施するための形態の項においてなされた具体的な実施態様または実施例は、あくまでも、本開示の技術内容を明らかにするものであって、そのような具体例にのみ限定して狭義に解釈されるべきものではなく、本開示の精神と特許請求事項との範囲内で、種々変更して実施することができるものである。

　本開示に係る音声認識方法及び音声認識装置は、安価な構成で音声認識の誤動作を防止することができ、機器を動作させるための音声を認識する音声認識方法及び音声認識装置として有用である。

　１　機器
　１１　通信部
　１２　制御部
　１３　メモリ
　１４　マイクロフォン
　１５　スピーカ
　１６　表示部
　１００　音声認識部
　２０１　音声取得部
　２０２　空間音圧分布検出部
　２０３　点音源検出部
　２０４　音声認識制御部
　２０５　音声認識処理部

Claims

　機器を動作させるための音声を認識する音声認識方法であって、
　所定の空間に配置されたマイクロフォンから音声情報を取得する音声情報取得ステップと、
　前記音声情報取得ステップにおいて取得された前記音声情報に基づいて、前記空間内における点音源を検出する点音源検出ステップと、
　前記点音源検出ステップにおいて前記点音源が検出された場合、前記音声情報取得ステップにおいて取得された前記音声情報に対して音声認識処理を行うと判断する音声認識制御ステップとを含むことを特徴とする音声認識方法。
　前記音声情報に基づいて前記空間内における音圧の分布を示す空間音圧分布を検出する空間音圧分布検出ステップをさらに含み、
　前記点音源検出ステップでは、前記空間音圧分布に基づいて前記点音源を検出する、
請求項１に記載の音声認識方法。
前記空間音圧分布検出ステップにて検出する前記空間音圧分布は、所定角度ごとの音圧分布であり、
前記点音源検出ステップでは前記音圧分布のうち、前記音声情報における音圧の大きさが所定の閾値よりも高い、一または複数の音源の角度範囲を特定し、
特定した前記音源の角度範囲の幅が所定の幅以下である音源を、点音源として特定する、
請求項２に記載の音声認識方法。
　前記音声認識制御ステップは、前記空間音圧分布に基づいて、前記マイクロフォンから所定の角度内の領域において検出された音源に対しては音声認識処理を行うと判断し、前記マイクロフォンから所定の角度外の領域において検出された音源に対しては音声認識処理を行わないと判断する、
請求項３に記載の音声認識方法。
　前記点音源検出ステップにおいて前記点音源が検出された場合、検出された前記点音源の前記空間内における位置を特定する位置特定ステップをさらに含み、
　前記音声認識制御ステップは、前記点音源の位置と前記機器との距離が所定の距離より近い場合、前記音声認識処理を行うと判断し、前記点音源の位置と前記機器との距離が所定の距離以上である場合、前記音声認識処理を行わないと判断することを特徴とする請求項１～４のいずれかに記載の音声認識方法。
　前記位置特定ステップにおいて特定された前記点音源の位置に向けて前記マイクロフォンの指向性の方向を制御する指向性制御ステップをさらに含むことを特徴とする請求項５記載の音声認識方法。
　スピーカから出力される出力音声情報を生成する出力音声生成ステップと、
　前記出力音声生成ステップにおいて生成された前記出力音声情報を出力音声として前記スピーカから出力する音声出力ステップと、
　前記出力音声生成ステップにおいて生成された前記出力音声情報を取得し、前記音声情報取得ステップにおいて取得された前記音声情報から、取得した前記出力音声情報をエコー成分として除去するエコー除去ステップとを含むことを特徴とする請求項１～６のいずれかに記載の音声認識方法。
　前記点音源検出ステップにおいて前記点音源が検出された場合、検出された前記点音源の前記空間内における位置を特定する位置特定ステップと、
　前記位置特定ステップにおいて位置が特定された前記点音源のうち、発せられた音声が前記マイクロフォンに直接到来する直接到来点音源を特定する直接到来点音源特定ステップをさらに含むことを特徴とする請求項１記載の音声認識方法。
　前記音声認識制御ステップは、前記直接到来点音源特定ステップにおいて前記直接到来点音源が特定された場合、前記音声認識処理を行うと判断し、前記直接到来点音源特定ステップにおいて前記直接到来点音源が特定されない場合、前記音声認識処理を行わないと判断することを特徴とする請求項８記載の音声認識方法。
　前記位置特定ステップにおいて位置が特定された前記点音源のうち、発せられた音声が前記マイクロフォンに直接到来する直接到来点音源を特定する直接到来点音源特定ステップをさらに含み、
　前記指向性制御ステップは、前記直接到来点音源特定ステップにおいて前記直接到来点音源が特定された場合、前記位置特定ステップにおいて特定された前記点音源の位置に向けて前記マイクロフォンの指向性の方向を制御することを特徴とする請求項６記載の音声認識方法。
　前記直接到来点音源特定ステップにおいて前記直接到来点音源が特定された場合、前記直接到来した音声が人間によって発話された音声であるか否かを識別する音声識別ステップをさらに含み、
　前記音声認識制御ステップは、前記音声識別ステップにおいて前記直接到来した音声が人間によって発話された音声であると識別された場合、前記音声認識処理を行うと判断し、前記音声識別ステップにおいて前記直接到来した音声が人間によって発話された音声ではないと識別された場合、前記音声認識処理を行わないと判断することを特徴とする請求項８記載の音声認識方法。
　前記音声認識制御ステップにおいて前記音声認識処理を行うと判断された場合、前記音声認識処理に用いられる複数の単語を予め記憶する記憶部から、前記機器の操作に関する少なくとも１つの単語を読み出し、読み出した前記少なくとも１つの単語を表示部に表示する音声認識単語表示ステップをさらに含むことを特徴とする請求項１～１１のいずれかに記載の音声認識方法。
　前記音声認識制御ステップにおいて前記音声認識処理を行うと判断された場合の表示部の輝度を、前記音声認識制御ステップにおいて前記音声認識処理を行わないと判断された場合の表示部の輝度よりも向上させる輝度制御ステップをさらに含むことを特徴とする請求項１～１２のいずれかに記載の音声認識方法。
　前記音声認識制御ステップにおける前記音声認識処理を行うか否かの判断に応じたアニメーション画像を表示部に表示するアニメーション画像表示ステップをさらに含むことを特徴とする請求項１～１３のいずれかに記載の音声認識方法。
　機器を動作させるための音声を認識する音声認識装置であって、
　所定の空間に配置されたマイクロフォンから音声情報を取得する音声情報取得部と、
　前記音声情報取得部によって取得された前記音声情報に基づいて、前記空間内における点音源を検出する点音源検出部と、
　前記点音源検出部によって前記点音源が検出された場合、前記音声情報取得部によって取得された前記音声情報に対して音声認識処理を行うと判断する音声認識制御部とを備えることを特徴とする音声認識装置。