JPWO2014103099A1

JPWO2014103099A1 - 音声認識付き機器及び音声認識方法

Info

Publication number: JPWO2014103099A1
Application number: JP2014554069A
Authority: JP
Inventors: 宮阪　修二; 修二宮阪; 一任阿部
Original assignee: Socionext Inc
Current assignee: Socionext Inc
Priority date: 2012-12-28
Filing date: 2013-08-09
Publication date: 2017-01-12
Anticipated expiration: 2033-08-09
Also published as: WO2014103099A1; CN104956436A; US10262653B2; JP6225920B2; US9792902B2; CN104956436B; US20150294666A1; US20180005627A1

Abstract

ユーザーの音声を認識する音声認識付き機器（１）であって、空間に音声を出音するスピーカ（１０１）と、当該空間の音声を収音するマイクロホン（１０２）と、前記マイクロホン（１０２）で収音された音声を認識する第１の音声認識部（１０３）と、前記第１の音声認識部（１０３）で認識された音声に基づいて、前記音声認識付き機器（１）を制御するコマンドを発行するコマンド制御部（１０５）と、前記スピーカ（１０１）から出音される音声を用いて、前記コマンド制御部（１０５）による前記コマンドの発行を禁止する制御部とを備える。

Description

本発明は、音声認識付き機器及び音声認識方法に関する。

近年、音声認識機能を搭載した電子機器が開発されている。例えば、２０１２年初頭に、Ｓａｍｓｕｎｇ電子が、音声認識操作可能なテレビを発表した。

これは、テレビ（以下、ＴＶ（Ｔｅｌｅｖｉｓｉｏｎ）と記載する場合あり）に対してユーザーが音声で、例えば、ボリュームの上げ下げや、チャンネルの選択を指示するキーワードを発音し、それに対し、テレビに搭載された音声認識機能が当該キーワードを認識した場合、当該キーワードに紐付けられているコマンドをテレビに対して発行することでテレビの操作を音声で行うものである。

この場合、当該キーワードを、たまたまＴＶ自身が出音してしまった場合、例えば、「１０チャンネル」という音声が、テレビのチャンネルを１０チャンネルに設定変更することを命じるキーワードである場合に、偶然テレビ番組の出演者が「１０チャンネル」と発音した場合、テレビのスピーカから「１０チャンネル」という音声が出音され、それがマイクロホンで収音され、音声認識されてしまい、テレビが１０チャンネルに切り替わってしまう、ということが起こりえる。

このような、機器自身が発する音声による誤作動を阻止する技術として、例えば、特許文献１及び特許文献２に記載の技術が知られている。

また、ユーザーが発音したキーワードにより、機器が当該キーワードに紐付けられたコマンドを発行する場合、ユーザーの発声した音声を正確に認識することが必要であり、例えば、特許文献３に記載の技術が知られている。

特開２００３−４４０６９号公報特開２００６−１７１０７７号公報特許第４５５４０４４号公報

しかしながら、機器自身が発する音声による誤作動を、より確実に抑止することが望まれている。

本願発明は上記の課題に鑑みてなされたものであり、機器自身が発する音声による誤作動を抑止することができる音声認識付き機器等を提供することを目的とする。

本発明の一態様に係る音声認識付き機器は、ユーザーの音声を認識する音声認識付き機器であって、空間に音声を出音するスピーカと、当該空間の音声を収音するマイクロホンと、前記マイクロホンで収音された音声を認識する第１の音声認識部と、前記第１の音声認識部で認識された音声に基づいて、前記音声認識付き機器を制御するコマンドを発行するコマンド発行部と、前記スピーカから出音される音声を用いて、前記コマンド発行部による前記コマンドの発行を禁止する制御部とを備える。

これにより、機器自身がユーザーの意図によらず偶然発した音声を認識することによる誤動作を抑止することができる。つまり、機器自身が発する音声による誤作動を抑止することができる。

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

本発明は、機器自身が発する音声による誤作動を抑止することができる音声認識付き機器等を提供できる。

図１は、実施の形態１に係る音声認識付き機器の構成を示すブロック図である。図２は、音声認識付き機器の動作を示すフローチャートである。図３は、実施の形態２に係る音声認識付き機器の構成を示すブロック図である。図４は、音声認識付き機器の動作を示すフローチャートである。図５は、実施の形態２の変形例に係る音声認識付き機器の構成を示すブロック図である。図６は、マイクロホンの出力をダウンサンプルするダウンサンプラを備える音声認識付き機器の構成を示すブロック図である。図７は、実施の形態１に係る音声認識付き機器の構成の他の一例を示すブロック図である。図８は、図７に示す音声認識付き機器の動作の一例を示すフローチャートである。図９は、実施の形態２に係る音声認識付き機器の構成の他の一例を示すブロック図である。図１０は、図９に示す音声認識付き機器の動作の一例を示すフローチャートである。図１１Ａは、比較例１に係る音声認識付き機器の構成を示すブロック図である。図１１Ｂは、比較例１の変形例に係る音声認識付き機器の構成を示すブロック図である。図１２Ａは、比較例２に係る音声認識付き機器の構成の一例を示すブロック図である。図１２Ｂは、比較例２に係る音声認識付き機器の構成の他の一例を示すブロック図である。

上述したような機器自身が発する音声による誤作動を抑止するために、本発明の一態様に係る音声認識付き機器は、ユーザーの音声を認識する音声認識付き機器であって、空間に音声を出音するスピーカと、当該空間の音声を収音するマイクロホンと、前記マイクロホンで収音された音声を認識する第１の音声認識部と、前記第１の音声認識部で認識された音声に基づいて、前記音声認識付き機器を制御するコマンドを発行するコマンド発行部と、前記スピーカから出音される音声を用いて、前記コマンド発行部による前記コマンドの発行を禁止する制御部とを備える。

これにより、機器自身が発する音声による誤作動を抑止することができる。

また、前記制御部は、前記スピーカから出音される音声を認識する第２の音声認識部を備え、前記第２の音声認識部で認識された音声が予め定められたキーワードと同じであるか否かを判断し、同じである場合は、前記コマンド発行部による前記コマンドの発行を禁止してもよい。

これにより、スピーカから出音される音声が予め定められてキーワードである場合に、機器自身を制御するコマンドは発行されない。したがって、コマンドに対応付けられた言葉をキーワードとすることにより、機器自身がユーザーの意図によらず偶然発した音声を認識することによる誤動作をより確実に抑止することができる。

また、本発明の他の一態様に係る音声認識付き機器は、ユーザーの音声を認識する音声認識付き機器であって、空間に音声を出音する少なくとも１つのスピーカと、当該空間の音声を収音するマイクロホンと、前記マイクロホンで収音された音声のうち前記ユーザーの音声を認識する音声認識部と、前記スピーカから出音される音声の電気信号である音声信号を狭帯域にダウンサンプリングするダウンサンプラと、ダウンサンプリングされた前記音声信号を用いて、前記スピーカから出音された音声のうち前記マイクロホンで収音された音声であるエコー成分を推定し、推定したエコー成分を前記マイクロホンで収音された音声から除去するエコーキャンセラとを備え、前記音声認識部は、前記エコーキャンセラによって前記エコー成分が除去された音声を認識することにより、前記ユーザーの音声を認識する。

これにより、ユーザーの発声した音声を、機器自身が出音した音声に邪魔されることなく、正確に音声認識できる。さらに、ダウンサンプラをエコーキャンセラの前段に設けることにより、エコーキャンセラにおける演算量を削減することができる。つまり、正確な音声認識を少ない演算量で実現できる。

また、前記ダウンサンプラは、前記スピーカの数がＮ（Ｎは２以上の整数）の場合、入力された前記音声信号を（１／Ｎ）＾０．５以下にダウンサンプリングしてもよい。

これにより、機器のスピーカがマルチチャネル対応のスピーカの場合であっても、スピーカがモノラルチャネル対応の場合の演算量以下の演算量で、ユーザーの発声した音声を、機器自身が出音した音声信号に邪魔されることなく、正確に音声認識できる。

また、さらに、前記音声認識部で認識された音声に基づいて、前記音声認識付き機器を制御するコマンドを発行するコマンド発行部を備え、前記音声認識部は、前記エコーキャンセラによって前記エコー成分が除去された音声を認識することにより、前記コマンド発行部による、前記エコー成分に基づく前記コマンドの発行を禁止してもよい。

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。

まず、各実施の形態に係る音声認識付き機器について説明する前に、本発明の比較例１及び比較例２に係る音声認識付き機器について説明する。

上述したような機器自身が発する音声による誤作動を抑止するために、特許文献１に記載の技術のように、スピーカから出音される音声の電気信号である音声信号にＷａｔｅｒＭａｒｋ信号を挿入する構成が考えられる。

図１１Ａは、本発明の比較例１に係る音声認識付き機器の構成を示すブロック図である。

同図に示すように、比較例１に係る音声認識付き機器では、ＴＶ受信表示部８００で受信された音声に対して、スピーカ８０１から出音される前にＷａｔｅｒＭａｒｋ信号が挿入される。一方、マイクロホン８０２で収音された音声の音声信号は、ＷａｔｅｒＭａｒｋ検出機能にかけられ、ＷａｔｅｒＭａｒｋ信号が検出された音声成分は音声認識の対象としないように制御した上で、第１音声認識部８０３で音声認識する。そして、当該認識結果の情報をＴＶ受信表示部８００に対するコマンドに変換する。

また、このような比較例１に係る音声認識付き機器に、特許文献２に記載の技術を応用することも考えられる。

図１１Ｂは、上述の比較例１に特許文献２に記載の技術を応用した、比較例１の変形例に係る音声認識付き機器の構成を示すブロック図である。

同図に示すように、比較例１の変形例に係る音声認識付き機器では、スピーカ８０１から出音される前の音声を第２音声認識部８０４で認識する。一方、マイクロホン８０２で収音された音声を第１音声認識部８０３で認識し、当該２つの認識部（第１音声認識部８０３及び第２音声認識部８０４）の認識結果を除去部８０５において比較し、第１音声認識部８０３の認識結果から第２音声認識部８０４での認識結果を除去した上で、除去後の認識結果をＴＶ受信表示部８００に対するコマンドに変換する。

また、音声認識率を向上させる技術として、特許文献３に記載のエコーキャンセルの技術が考案されている。

図１２Ａ及び図１２Ｂは、このようなエコーキャンセルの機能を有する、本発明の比較例２に係る音声認識付き機器の構成を示すブロック図である。

同図に示すように、エコーキャンセルの基本的なアイデアは、スピーカ９０１から出音されマイクロホン９０２で収音される音声を「エコー」ととらえ、音声認識付き機器に搭載されたエコーキャンセラ９０４で当該エコーを除去した上で音声認識するものである。これにより、音声認識付き機器自身が発した音声に邪魔されずにユーザーの音声を認識することができ、当該認識結果をＴＶ受信表示部９００に対するコマンドに変換することができる。

但し、ＴＶ受信表示部９００から出音される音声信号がステレオ信号の場合、モノラルのエコーキャンセラでエコーを除去することが困難なため、図１２Ａに示すように、音声認識するモードの場合はスピーカから出音する信号をモノラル化する、又は、図１２Ｂに示したようにエコーキャンセラをステレオ化する、という対策が必要である。

しかしながら、上記比較例１の構成では、スピーカ８０１で出音される前に多重化されたＷａｔｅｒＭａｒｋ信号が、スピーカ８０１で出音された後、空間で各種のノイズによってかき消されるおそれが多分に存在する。よって、音声認識付き機器（例えばテレビ）が出音した音声をマイクロホン側で除外することが実質的に困難である。

また、上記比較例１の変形例の構成では、２つの音声認識結果を分析して比較した上で、音声認識結果自体を変更させる（除去する）という煩雑な処理が必要となる。

また、上記比較例２の構成では、スピーカ９０１から出音する信号をモノラル化する場合（図１２Ａの場合）、音声認識するモードでは本来の音質が損なわれる。一方、スピーカ９０１から出音する音声をステレオ化のままとし、エコーキャンセラ９０４をステレオ化した場合（図１２Ｂの場合）、エコーキャンセラ９０４の演算量が膨大となる。これは、エコーキャンセラ９０４の演算量は、マイクロホン９０２から入力された入力音声信号の周波数帯域の二乗に比例して増加するためである。具体的には、テレビの音声信号は２４ｋＨｚ帯域であり、音声認識の対象となる音声信号の周波数帯域が高々８ｋＨｚ帯域であることを考えれば、エコーキャンセラ９０４に必要な演算量は、本来必要な（妥当な）演算量に対して、９倍（つまり、（２４／８）＾２倍）の演算量になり、ステレオ化でさらに２倍の演算量となるからである。

以下、実施の形態について、図面を参照しながら具体的に説明する。

なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

（実施の形態１）
本実施の形態に係る音声認識付き機器は、スピーカから出音される音声を認識し、認識した音声が予め定められたキーワードと同じである場合は、当該音声認識付き機器を制御するコマンドの発行を禁止する。これにより、音声認識付き機器自身が発する音声による誤作動を抑止することができる。

以下、実施の形態１に係る音声認識付き機器について図面を参照しながら説明する。

図１は、実施の形態１に係る音声認識付き機器の構成を示すブロック図である。本実施の形態に係る音声認識付き機器１では、テレビに音声認識機能を搭載する例について述べる。つまり、本実施の形態に係る音声認識付き機器１は、音声認識機能が搭載されたテレビである。

同図に示す音声認識付き機器１は、テレビ信号を受信し音声信号を生成するＴＶ受信部１００、空間に対して音声信号を音声として出音するスピーカ１０１、当該空間の音声を音声信号として収音するマイクロホン１０２、マイクロホン１０２で収音された音声を認識する第１の音声認識部１０３、スピーカ１０１から出音する音声を認識する第２の音声認識部１０４、第１の音声認識部１０３の出力情報をＴＶ受信部１００へのコマンドに変換するコマンド制御部１０５、及び、スイッチ１０６を備える。以下、音声認識付き機器１の構成について、具体的に説明する。

ＴＶ受信部１００は、音声認識付き機器１の外部から送信された映像信号及び音声信号を含むテレビ信号を受信する、例えばチューナーである。このＴＶ受信部１００は、受信したテレビ信号のうち、音声信号をスピーカ１０１へ出力し、映像信号を、例えば液晶パネルといった画像表示部（図示せず）へ出力する。また、ＴＶ受信部１００は、コマンド制御部１０５から出力されるコマンドに応じて、例えば受信チャンネルを切り替える、といった動作をする。

スピーカ１０１は、ＴＶ受信部１００から出力された電気信号である音声信号を物理振動に変換することにより、空気の振動である音声を生成する。つまり、音声信号に対応する音声を、空間に出音する。

マイクロホン１０２は、音声を物理信号に変換することにより、電気信号である音声信号を生成する。つまり、音声を収音する。

第１の音声認識部１０３は、マイクロホン１０２で収音された音声を認識する。具体的には、マイクロホン１０２から出力された音声信号を解析することにより、マイクロホン１０２で収音された音声を認識する。そして、認識した音声を示す情報をコマンド制御部１０５に出力する。

第２の音声認識部１０４は、スピーカ１０１から出音される前の音声信号を解析することにより、スピーカ１０１から出音される音声を認識する。そして、認識した音声が予め定められたキーワードと一致する場合に、スイッチ１０６をオフする。つまり、コマンド制御部１０５からＴＶ受信部１００へのコマンドの発行を禁止する。例えば、第２の音声認識部１０４は、ユーザーによって登録されたキーワードを保持する記憶部を有し、認識した音声が当該記憶部に保持されている場合、認識した音声が予め定められたキーワードと一致していると判断し、スイッチ１０６をオフする。

コマンド制御部１０５は、第１の音声認識部１０３で認識された音声に応じたコマンドを生成する。つまり、第１の音声認識部１０３で認識された音声をコマンドに変換する。具体的には、コマンド制御部１０５は、第１の音声認識部１０３で認識された音声が予め定められたキーワードである場合、当該キーワードに対応付けられたコマンドを生成し、生成したコマンドをスイッチ１０６を介してＴＶ受信部１００へ発行する。例えば、コマンド制御部１０５は、コマンドと、コマンドに対応付けられた予め定められたキーワードを示す情報とを保持する記憶部を有し、第１の音声認識部１０３で認識された音声が記憶部に保持されたいずれかのキーワードと一致する場合に、一致したキーワードに対応付けられたコマンドを発行する。

スイッチ１０６は、第２の音声認識部１０４の指示に応じて、オン又はオフすることにより、コマンド制御部１０５で変換されたコマンドをＴＶ受信部１００へ発行する又は発行しない、を切り替える。具体的には、スイッチ１０６は、第２の音声認識部１０４で認識された音声が予め定められたキーワードと一致する場合にオフし、一致しない場合にオンする。つまり、第２の音声認識部１０４及びスイッチ１０６は、スピーカ１０１から出音される音声を用いて、コマンド制御部１０５によるコマンドの発行を禁止する。

次に、以上のように構成された音声認識付き機器１の動作について説明する。

図２は、本実施の形態に係る音声認識付き機器１の動作を示すフローチャートである。

まず、ＴＶ受信部１００は、テレビ信号を受信し、受信したテレビ信号から音声信号を生成する（Ｓ１０１）。

そのように生成された音声信号は、スピーカ１０１により空間に出音される（Ｓ１０２）。具体的には、スピーカ１０１は、ＴＶ受信部１００で生成された音声信号を空気振動である音声に変換して空間に出音する。

スピーカ１０１から空間に出音された音声信号を含む当該空間の音声信号はマイクロホン１０２によって収音される（Ｓ１０３）。具体的には、マイクロホン１０２は、空間の空気振動である音声を電気信号である音声信号に変換する。つまり、収音する。

マイクロホン１０２で収音された音声信号は、第１の音声認識部１０３によって音声認識される（Ｓ１０４）。具体的には、第１の音声認識部１０３は、マイクロホンから出力された音声信号を解析することにより、マイクロホン１０２で収音された音声を認識する。そして、認識結果を示す情報をコマンド制御部１０５へ出力する。

一方で、スピーカ１０１から出音される前の音声信号は、第２の音声認識部１０４で音声認識される（Ｓ１０５）。

ここで、上述したように、コマンド制御部１０５は、第１の音声認識部１０３の出力情報に基づいて、予め定められたコマンドをＴＶ受信部１００に発行するように構成されているが、第２の音声認識部１０４の出力情報が特定のキーワードに合致した場合、第２の音声認識部１０４及びスイッチ１０６を含む制御部は、コマンド制御部１０５からＴＶ受信部１００に対して、コマンドが発行されないように制御する。

具体的には、第２の音声認識部１０４は、スピーカ１０１から出力される音声の音声認識処理の後（Ｓ１０５の後）、スピーカ１０１から出音される音声が予め定められたキーワードと一致するか否かを判断する（Ｓ１０６）。そして、一致した場合（Ｓ１０６でＹｅｓ）、スイッチ１０６をオフすることにより、コマンド制御部１０５によるＴＶ受信部１００へのコマンドの発行を禁止する（Ｓ１０７）。一方、一致しなかった場合（Ｓ１０６でＮｏ）、スイッチ１０６を引き続きオンすることにより、コマンド制御部１０５からＴＶ受信部１００へのコマンドを発行させる（Ｓ１０８）。つまり、コマンド制御部１０５からＴＶ受信部１００へのコマンド発行を許可する。

このように、音声認識付き機器１自身が発する音声が予め定められたキーワードと一致する場合、コマンド制御部１０５からＴＶ受信部１００に対して、当該キーワードで指示されるコマンドは発行されない。これにより、音声認識付き機器１自身が発する音声による誤作動を低減できる。

例えば、第１の音声認識部１０３により「１０チャンネル」という言葉が音声認識された場合、コマンド制御部１０５がＴＶ受信部１００に対し、受信チャンネルを１０チャンネルに切り替えるようなコマンドを発行するように設定されているとする。つまり、「１０チャンネル」という言葉は、受信チャンネルを１０チャンネルに切り替えるコマンドを発行するためのキーワードであるとする。

ここで、仮に、受信しているテレビ番組の出演者がたまたま「１０チャンネル」と発声した場合、スピーカ１０１から、「１０チャンネル」という音声信号が出音され、マイクロホン１０２によって当該キーワードが収音され、第１の音声認識部１０３によって当該キーワードが認識される。このとき、第２の音声認識部１０４は、スピーカ１０１に出音する音声信号を音声認識しているので、第２の音声認識部１０４でも、「１０チャンネル」というキーワードが音声認識される。この場合、第１の音声認識部１０３で認識した「１０チャンネル」というキーワードは、スピーカ１０１から出音された音声を認識したものであり、ユーザーからの音声指示ではないと判断できる。よって、音声認識付き機器１は１０チャンネルへのチャンネルの切り替えを実施しない。

言い換えると、第２の音声認識部１０４により「１０チャンネル」というキーワードが音声認識されている場合、つまり第２の音声認識部１０４の認識結果と第１の音声認識部１０３の認識結果とが同じ場合、第２の音声認識部１０４は次のように動作する。具体的には、第２の音声認識部１０４はスイッチ１０６をオフすることにより、コマンド制御部１０５によるＴＶ受信部１００へのコマンドの発行を禁止する。したがって、１０チャンネルへのチャンネルの切り替えをＴＶ受信部１００に命じるコマンドは、ＴＶ受信部１００に対して発行されない。

これに対して、第２の音声認識部１０４により「１０チャンネル」というキーワードが音声認識されていない場合、つまり第２の音声認識部１０４の認識結果が第１の音声認識部１０３の認識結果と同じでない場合、第２の音声認識部１０４は次のように動作する。具体的には、第２の音声認識部１０４はスイッチ１０６をオンのままにすることにより、コマンド制御部１０５によるＴＶ受信部１００へのコマンドの発行を許可する。したがって、１０チャンネルへのチャンネルの切り替えをＴＶ受信部１００に命じるコマンドが、コマンド制御部１０５からＴＶ受信部１００へと発行される。よって、音声認識付き機器１は１０チャンネルへのチャンネルの切り替えを実施する。

このように、音声認識付き機器１は、第１の音声認識部１０３がコマンドに対応づけられたキーワードを認識している場合であっても、第２の音声認識部１０４により同一のキーワードが認識されている場合には、第１の音声認識部１０３によって認識されたキーワードはユーザーの音声指示ではないと判断し、当該キーワードに対応するコマンドに応じた動作をしない。一方、第１の音声認識部１０３により認識されたキーワードが第２の音声認識部１０４では認識されていない場合には、第１の音声認識部１０３によって認識されたキーワードは、ユーザーからの音声指示であると判断できるので、当該キーワードに対応するコマンドに応じた動作をする。

つまり、第２の音声認識部１０４は、認識結果が予め定められたキーワードと同じである場合は、スイッチ１０６をオフすることにより、コマンド制御部１０５によるＴＶ受信部１００へのコマンドの発行を禁止する。これにより、音声認識付き機器１は、第２の音声認識部１０４で音声認識されたキーワードが予め定められたキーワードと一致する場合に、当該キーワードにより指示されるコマンドによる動作をしない。

なお、上述の「１０チャンネル」というキーワードは一例に過ぎず、どのようなキーワードであってもよいし、発行されるコマンドは、ＴＶ受信部１００に向けられるコマンドでなくてもよい。例えば、ＴＶ受信部１００が受信したテレビ信号の画像信号に応じた画像を表示する画像表示部へ向けられるコマンドであってもよい。すなわち、「明るく」、「暗く」などをキーワードとし、コマンド制御部１０５は、そのようなキーワードに応じて画像表示部を制御するコマンドを発行してもよい。また、「音量大」、「音量小」などをキーワードとし、そのようなキーワードに応じてスピーカ１０１を制御するコマンドを発行してもよい。

なお、第２の音声認識部１０４へ入力される音声信号は、スピーカ１０１から出音される直前の信号である必要はなく、ＴＶ受信部１００で受信されて再生された音声信号がスピーカ１０１によって出音されるまでのいずれの段階の音声信号であってもよい。その音声信号がアナログ信号である場合は、第２の音声認識部１０４に入力されるまでのいずれかの段階でＡＤ（ＡｎａｌｏｇｔｏＤｉｇｉｔａｌ）変換器によってデジタル信号に変換されることは言うまでもない。

以上のように、本実施の形態に係る音声認識付き機器１は、空間に音声を出音するスピーカ１０１と、当該空間の音声を収音するマイクロホン１０２と、前記マイクロホン１０２で収音した音声を認識する第１の音声認識部１０３と、スピーカ１０１から出音する音声を認識する第２の音声認識部１０４と、前記第１の音声認識部で認識された音声に基づいて、当該音声認識付き機器１を制御するコマンドを発行するコマンド制御部１０５と、スピーカ１０１から出音される音声を用いて、コマンド制御部１０５によるコマンドの発行を禁止する第２の音声認識部１０４及びスイッチ１０６を備える。なお、コマンド制御部１０５はコマンド発行部に相当し、第２の音声認識部１０４及びスイッチ１０６は制御部に相当する。

これにより、音声認識付き機器１自身が発する音声による誤作動を抑止することができる。

具体的には、第２の音声認識部１０４における音声認識結果である出力情報が特定のキーワードに合致していない場合は、ＴＶ受信部１００に当該キーワードに関連したコマンドを発行し、第２の音声認識部１０４が特定のキーワードに合致した場合は、第１の音声認識部１０３における音声認識結果である出力情報に関連したコマンドを発行しないようにする。言い換えると、第２の音声認識部１０４は、スピーカ１０１から出音される音声を認識し、認識した音声が予め定められたキーワードと同じであるか否かを判断し、同じである場合は、スイッチ１０６をオフすることにより、コマンド制御部１０５によるＴＶ受信部１００へのコマンドの発行を禁止する。

これにより、スピーカ１０１から出音される音声が予め定められてキーワードである場合に、音声認識付き機器１自身を制御するコマンドは発行されない。したがって、コマンドに対応付けられた音声をキーワードとすることにより、音声認識付き機器１自身がユーザーの意図によらず偶然発した音声を音声認識してしまって意図しない動作になることを抑制できる。つまり、誤動作をより確実に抑止することができる。

なお、本実施の形態では、第２の音声認識部１０４での音声認識結果が予め定められたキーワードと一致する場合に、第２の音声認識部１０４がスイッチ１０６をオフすることにより、コマンド制御部１０５で発行されたコマンドのＴＶ受信部１００への発行を禁止していたが、ＴＶ受信部１００へのコマンドの発行を禁止する方法はこれに限らない。例えば、音声認識付き機器１は、スイッチ１０６を備えず、第２の音声認識部１０４での音声認識結果が予め定められたキーワードと一致する場合に、コマンド制御部１０５におけるコマンドの生成を停止させることにより、ＴＶ受信部１００へのコマンドの発行を禁止してもよい。

（実施の形態２）
本実施の形態に係る音声認識付き機器は、スピーカから出音される音声の電気信号である音声信号を狭帯域にダウンサンプルし、ダウンサンプルされた音声信号を用いて、スピーカから出音された音声のうちマイクロホンで収音された音声であるエコー成分を、マイクロホンで収音された音声から除去する。これにより、少ない演算量で、音声認識付き機器自身が出音した音声信号に邪魔されずに音声認識できる。

以下、実施の形態２に係る音声認識付き機器について図面を参照しながら説明する。

図３は、本実施の形態２に係る音声認識付き機器の構成を示すブロック図である。本実施の形態に係る音声認識付き機器２では、テレビに音声認識機能を搭載する例について述べる。

同図に示す音声認識付き機器２は、テレビ信号を受信し音声信号を生成するＴＶ受信部２００、空間に広帯域の音声信号を出音するスピーカ２０１、当該空間の音声信号を収音するマイクロホン２０２、マイクロホン２０２で収音された音声信号を認識する音声認識部２０３、スピーカ２０１から出音されマイクロホン２０２で収音された音声であるエコー成分を、マイクロホン２０２で収音された音声から除去するエコーキャンセラ２０４、スピーカ２０１から出音される音声信号を狭帯域の信号にダウンサンプリングするダウンサンプラ２０５、及び、音声認識部２０３の出力情報に基づいて機器を制御するコマンドを発行するコマンド制御部２０６を備える。

なお、同図において、ＴＶ受信部２００、スピーカ２０１、マイクロホン２０２、音声認識部２０３、コマンド制御部２０６は、図１におけるＴＶ受信部１００、スピーカ１０１、マイクロホン１０２、第１の音声認識部１０３、コマンド制御部１０５と同じものである。

このように、本実施の形態に係る音声認識付き機器２は、実施の形態１に係る音声認識付き機器１と比較して、制御部に代わり、スピーカ２０１から出音される音声の電気信号である音声信号を狭帯域にダウンサンプリングするダウンサンプラ２０５と、ダウンサンプリングされた音声信号を用いて、スピーカ２０１から出音された音声のうちマイクロホン２０２で収音された音声であるエコー成分を推定し、推定したエコー成分をマイクロホン２０２で収音された音声から除去するエコーキャンセラ２０４とを備える。また、音声認識部２０３は、エコーキャンセラによってエコー成分が除去された音声を認識することにより、ユーザーの音声を認識する。

次に、以上のように構成された音声認識付き機器２の動作について説明する。

図４は、本実施の形態に係る音声認識付き機器２の動作を示すフローチャートである。

まず、ＴＶ受信部２００は、テレビ信号を受信し、受信したテレビ信号から音声信号を生成する（Ｓ２０１）。近年ではテレビ信号の音声の再生帯域は２４ｋＨｚ程度の広帯域信号である。そのように生成された音声信号は、スピーカ２０１により空間に出音される（Ｓ２０２）。つまり、空間に出音された音声の周波数帯域は２４ｋＨｚ程度である。

スピーカ２０１から空間に出音された音声を含む当該空間の音声はマイクロホン２０２によって収音される（Ｓ２０３）。具体的には、マイクロホン２０２は、空間の音声を、例えばサンプリング周波数８ｋＨｚでサンプリングして収音する。つまり、マイクロホン２０２からエコーキャンセラ２０４へ出力される音声信号の周波数帯域は８ｋＨｚである。言い換えると、マイクロホン２０２で収音された音声信号は周波数帯域が８ｋＨｚにダウンサンプリングされている。

ところで、スピーカ２０１で出音される広帯域の音声信号は、さらに、ダウンサンプラ２０５に入力され、狭帯域信号に変換される。つまり、ダウンサンプラ２０５は、スピーカ２０１で出音される音声信号をダウンサンプルする（Ｓ２０４）。具体的には、ダウンサンプラ２０５は、スピーカ２０１で出音される音声信号のうち、音声認識において不要な周波数帯域の信号を除去することで、スピーカ２０１で出音される音声信号を狭帯域化する。より具体的には、音声認識に必要な周波数帯域は高々８ｋＨｚ帯域であるので、例えば、スピーカ２０１から出音される音声信号の周波数帯域が２４ｋＨｚの場合、ダウンサンプラ２０５は、入力された音声信号の周波数帯域を１／３の周波数帯域である８ｋＨｚにダウンサンプルしてエコーキャンセラ２０４へ出力する。

ここで、ダウンサンプラ２０５に入力される音声信号は、スピーカ２０１から出音される直前の信号である必要はなく、ＴＶ受信部２００で受信されて再生された音声信号がスピーカ２０１によって出音されるまでのいずれの段階の音声信号であればよい。それがアナログ信号である場合は、ダウンサンプラ２０５に入力されるまでのいずれかの段階でＡＤ変換器によってデジタル信号に変換されることは言うまでもない。

次に、マイクロホン２０２で収音された音声信号と、ダウンサンプラ２０５の出力信号とが、エコーキャンセラ２０４に入力される。エコーキャンセラ２０４では、スピーカ２０１から出音されマイクロホン２０２で収音されるエコー成分を、マイクロホン２０２で収音された音声信号から除去する。つまり、エコーキャンセルする（Ｓ２０５）。具体的には、エコーキャンセラ２０４は、ダウンサンプラ２０５によってダウンサンプリングされた音声信号を用いて、スピーカ２０１から出音された音声のうちマイクロホン２０２で収音された音声であるエコー成分を推定し、推定したエコー成分をマイクロホン２０２で収音された音声から除去する。つまり、マイクロホン２０２から出力された音声信号からエコー成分の音声信号を除去し、除去後の音声信号を音声認識部２０３へ出力する。

なお、エコーキャンセラ２０４で用いられるエコーキャンセラの方式は従来から知られているどのような方式のエコーキャンセラでもよい。

最後に、エコーキャンセラ２０４の出力信号は、音声認識部２０３に入力され音声認識される。コマンド制御部２０６では、音声認識部２０３の出力情報に応じて、機器を制御するコマンドを発行する。つまり、音声認識部２０３は、エコーキャンセルされた音声信号を音声認識し（Ｓ２０６）、コマンド制御部２０６は、音声認識部２０３での音声認識結果である出力情報に応じて、ＴＶ受信部２００へコマンドを発行する（Ｓ２０７）。

このように、本実施の形態に係る音声認識付き機器２において、ダウンサンプラ２０５は、スピーカ２０１から出音される音声の電気信号である音声信号を狭帯域にダウンサンプルする。そして、エコーキャンセラ２０４は、ダウンサンプラ２０５でダウンサンプルされた音声信号を用いて、スピーカ２０１から出音された音声のうちマイクロホン２０２で収音された音声であるエコー成分を、マイクロホン２０２で収音された音声から除去する。

このように、本実施の形態に係る音声認識付き機器２はエコーキャンセラ２０４を用いることで、下記のような効果が期待できる。

例えば、「１０チャンネル」という言葉が、テレビの受信チャンネルを１０チャンネルに切り替えるコマンドを発行するためのキーワードであるとする。このとき、ユーザーが「１０チャンネル」と発音してチャンネルの切り替えを音声で指示したと同時に、テレビ自身が大きな音でテレビ番組の音声を出音していた場合、ユーザーが発した「１０チャンネル」という言葉と、テレビ番組の音声とが混合されてマイクロホン２０２で収音される。

もし、ここでエコーキャンセラ２０４がなかった場合、音声認識部２０３には、当該混合された音声信号が入力される。その結果、音声認識部２０３が正しく「１０チャンネル」というキーワードを認識することが阻害される。

これに対して、本実施の形態に係る音声認識付き機器２は、エコーキャンセラ２０４を備えることにより、スピーカ２０１から出音されマイクロホン２０２で収音されるエコー成分を、マイクロホン２０２で収音した音声信号から除去することができる。その結果、本実施の形態に係る音声認識付き機器２は、ユーザーが発した音声の音声認識を正確に実施できる。

また、上述したように、エコーキャンセラ２０４に入力される音声信号は、いずれも、スピーカ２０１から空間に出音される信号より狭帯域の信号である。つまり、エコーキャンセラ２０４に対して、スピーカ２０１側から入力される音声信号、及び、マイクロホン２０２側から入力される音声信号は、スピーカ２０１から出音される音声信号より狭帯域化されている。これにより、下記のような効果が期待できる。

エコーキャンセラ２０４に入力される音声信号が狭帯域化されていない場合、当該入力される音声信号は２４ｋＨｚ帯域となるが、音声認識の対象となる音声信号の周波数帯域は高々８ｋＨｚ帯域である。よって、エコーキャンセラ２０４に入力される音声信号が狭帯域化されていない場合、エコーキャンセラ２０４における演算量は、音声認識のために要求される本来の演算量に対して、９倍（つまり、（２４／８）＾２倍）の演算量になってしまう。

これに対して、本実施の形態に係る音声認識付き機器２は、ダウンサンプラ２０５及びダウンサンプリングするマイクロホン２０２を備えることにより、エコーキャンセラ２０４に入力されるいずれの音声信号の周波数帯域も狭帯域化する。これにより、エコーキャンセラ２０４における演算量を低減することができる。

なお、マイクロホン２０２側からエコーキャンセラ２０４に入力される音声信号を狭帯域化する方法は、本実施の形態のように処理できる周波数帯域が狭いマイクロホン２０２を用いてもよいし、一旦、広帯域のマイクロホンにより収音された音声信号を狭帯域の信号にダウンサンプリングすることにより実現してもよい。

また、ダウンサンプラ２０５は、スピーカ２０１から出音される音声の電気信号である音声信号を、音声認識部２０３での音声認識の対象となる周波数帯域にダウンサンプリングする。これにより、音声認識部２０３における音声認識率の低下を抑制する。

以上のように、本実施の形態に係る音声認識付き機器２は、ユーザーの音声を認識する音声認識付き機器であって、空間に広帯域の音声を出音するスピーカ２０１と、当該空間の音声を収音するマイクロホン２０２と、マイクロホン２０２で収音された音声のうちユーザーの音声を認識する音声認識部２０３と、スピーカ２０１から出音される音声の電気信号である音声信号を狭帯域にダウンサンプリングするダウンサンプラ２０５と、ダウンサンプリングされた音声信号を用いて、スピーカ２０１から出音された音声のうちマイクロホン２０２で収音された音声であるエコー成分を推定し、推定したエコー成分をマイクロホン２０２で収音された音声から除去するエコーキャンセラ２０４とを備え、音声認識部２０３は、エコーキャンセラ２０４によってエコー成分が除去された音声を認識することにより、ユーザーの音声を認識する。

このように、エコーキャンセラ２０４において、ダウンサンプラ２０５の出力信号に基づいてエコー成分を推定し除去するようにすることで、音声認識付き機器２自身が発する音声信号に邪魔されずに、ユーザーの意図した音声を正確に音声認識できる。

また、ダウンサンプラ２０５をエコーキャンセラ２０４の前段に設けて、音声認識において不要な周波数帯域の信号を除去することで、音声認識部２０３におけるユーザーの音声の認識率の低下なく、かつ、エコーキャンセラ２０４における演算量を大幅に削減することができる。なぜなら、上述したように、エコーキャンセラ２０４の演算量は、入力信号の再生帯域の二乗に比例するからである。

つまり、本実施の形態に係る音声認識付き機器２は、正確な音声認識を少ない演算量で実現できる。

また、本実施の形態に係る音声認識付き機器２は、音声認識部２０３で認識された音声に基づいて、音声認識付き機器２を制御するコマンドを発行するコマンド制御部２０６を備え、音声認識部２０３は、エコーキャンセラ２０４によってエコー成分が除去された音声を認識することにより、コマンド制御部２０６による、エコー成分に基づくコマンドの発行を禁止する。

これにより、本実施の形態に係る音声認識付き機器２は、実施の形態１に係る音声認識付き機器１と同様に、音声認識付き機器２自身がユーザーの意図によらず偶然発した音声を音声認識してしまって意図しない動作になることを抑制できる。

（実施の形態２の変形例）
上記実施の形態２では、音声認識付き機器２であるテレビから生成される音声信号をモノラル信号としたが、近年では、音声信号がステレオ信号であることが普通となった。さらに、５．１ｃｈのマルチチャネル放送なども始まっている。このように、テレビから生成される信号がマルチチャネルとなった場合の音声認識つき機器について、例えばチャネル数が２ｃｈの場合を例に、実施の形態２の変形例として説明する。

図５は、本変形例に係る音声認識付き機器の構成を示すブロック図である。同図に示す音声認識付き機器３は、実施の形態２に係る音声認識付き機器２と比較して、スピーカから出音される音声信号がマルチチャネルとなっている点が異なる。なお、図５において、ＴＶ受信部３００、マイクロホン３０２、音声認識部３０３、及び、コマンド制御部３０６は、図３における、ＴＶ受信部２００、マイクロホン２０２、音声認識部２０３、及び、コマンド制御部２０６と同じものである。

このように、本変形例に係る音声認識付き機器３は、実施の形態２に係る音声認識付き機器２と比較して、モノラルの音声信号のために設けられたスピーカ２０１、ダウンサンプラ２０５及びエコーキャンセラ２０４に代わり、ステレオの音声信号のために設けられたステレオスピーカ３０１、ステレオダウンサンプラ３０５及びステレオエコーキャンセラ３０４を備える。

具体的には、ステレオスピーカ３０１はテレビ信号のステレオ音声信号のそれぞれに対応するスピーカを有し、ステレオ音声信号のそれぞれを音声に変換して空間に出音する。ステレオエコーキャンセラ３０４は、ステレオ音声信号のそれぞれに対応する２つのエコーキャンセラを有し、ステレオダウンサンプラ３０５によりダウンサンプルされたステレオ音声信号のそれぞれを入力とし、マイクロホン３０２で収音された信号からステレオスピーカ３０１で出音されるエコー成分を除去する。その方法は従来から知られているどのような方法であってもよい。ステレオダウンサンプラ３０５は、ステレオスピーカ３０１から出音されるそれぞれのチャンネルの広帯域な音声信号をダウンサンプリングし狭帯域な音声信号に変換する。

ここで、ステレオダウンサンプラ３０５でダウンサンプルする比率は、チャネル数をＮ（本変形例ではＮ＝２）とした場合、入力された音声信号を（１／Ｎ）＾０．５以下にダウンサンプリングすることが望ましい。つまり、ステレオダウンサンプラ３０５は、スピーカの数がＮ（Ｎは２以上の整数）の場合、入力された前記音声信号を（１／Ｎ）＾０．５以下にダウンサンプリングすることが望ましい。これにより、本変形例に係る音声認識付き機器３は下記のような効果が期待できる。

ステレオエコーキャンセラ３０４が有する各エコーキャンセラの演算量は、入力された音声信号の再生帯域の二乗に比例する。よって、ステレオダウンサンプラ３０５において音声信号を（１／Ｎ）＾０．５にダウンサンプリングすることで、ステレオエコーキャンセラ３０４の演算量は、チャネルあたり（（１／Ｎ）＾０．５）＾２＝１／Ｎとなり、全体で１／Ｎ＊Ｎ＝１となる。言い換えると、ステレオエコーキャンセラ３０４の各エコーキャンセラの演算量は１／Ｎとなり、ステレオエコーキャンセラ３０４の演算量は１／Ｎ＊Ｎ＝１となる。つまり、チャネル数が増えても、ステレオエコーキャンセラ３０４に割り当てる演算量を一定以下に押さえることができる。

すなわち、本変形例に係る音声認識付き機器３は、ステレオダウンサンプラ３０５において音声信号を（１／Ｎ）＾０．５にダウンサンプリングすることにより、音声信号がマルチチャネルの場合であっても、モノラルチャネルの場合の演算量以下の演算量で、ユーザーの発声した音声を、音声認識付き機器３自身が出音した音声信号に邪魔されることなく、正確に音声認識できる。具体的には、ステレオ音声信号を出音するステレオスピーカ３０１を備える本変形例に係る音声認識付き機器３は、モノラル音声信号を出音するスピーカ２０１を備える実施の形態２に係る音声認識付き機器２と比較して、演算量を増やすことなく、ユーザーの発声した音声を正確に音声認識できる。

なお、本変形例では音声認識付き機器３を音声信号がステレオ（２．０ｃｈ）信号の場合を例に挙げて説明したが、音声信号のチャネルはこれに限らず、ステレオ（２．０ｃｈ）信号よりも多くのチャンネルを有する、例えば５．１ｃｈであってもよい。

以上、一つまたは複数の態様に係る音声認識付き機器について、実施の形態及び変形例に基づいて説明したが、本発明は、この実施の形態及び変形例に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態及び変形例に施したものや、異なる実施の形態及び変形例における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。

例えば、上記各実施の形態及び変形例では、音声認識付き機器としてテレビを例にあげて説明したが、音声認識付き機器はこれに限らず、テレビ放送を録画した録画再生機器であってもよいし、あらかじめ映画コンテンツや音楽コンテンツが記録されたメディアを再生する、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）プレーヤ、ＢＤ（Ｂｌｕ−Ｒａｙ（登録商標）Ｄｉｓｋ）プレーヤ、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）プレーヤなど、音声を発する機器であればよい。

また、図３に示した実施の形態２に係る音声認識付き機器２において、エコーキャンセラ２０４に入力される２系統の音声信号のうち、スピーカ２０１へ向かう経路から分岐してエコーキャンセラ２０４に入力される音声信号はダウンサンプリングされているのに対し、マイクロホン２０２からエコーキャンセラ２０４に入力される音声信号はダウンサンプリングされていないように見えるが、上記実施の形態２で述べたように、マイクロホン２０２のサンプリング周波数は、ダウンサンプラ２０５の出力信号のサンプリング周波数と同じ周波数である。つまり、実施の形態２では、マイクロホン２０２からエコーキャンセラ２０４へ入力される音声信号は、マイクロホン２０２によってダウンサンプリングされている。

なお、マイクロホン２０２及びダウンサンプラ２０５でダウンサンプラされた後の音声信号の周波数帯域は、上記の８ｋＨｚに限らない。例えば、スピーカ２０１から出音される音声信号のサンプリング周波数が４８ｋＨｚ、マイクロホン２０２のサンプリング周波数が１６ｋＨｚ、ダウンサンプラ２０５は入力された音声信号の周波数帯域を１／３にダウンサンプルするものであり、ダウンサンプラ２０５の出力信号の周波数帯域は１６ｋＨｚであってもよい。この場合も、マイクロホン２０２のサンプリング周波数は１６ｋＨｚとなり、ダウンサンプラ２０５の出力信号の周波数帯域と同一である。

また、上記実施の形態２に係る音声認識付き機器２では、マイクロホン２０２のサンプリング周波数はダウンサンプラ２０５のサンプリング周波数と一致したが、マイクロホン２０２のサンプリング周波数がダウンサンプラ２０５のサンプリング周波数より高くてもよい。例えば、マイクロホン２０２のサンプリング周波数が２４ｋＨｚ、ダウンサンプラ２０５のサンプリング周波数が１６ｋＨｚであってもよい。この場合は、音声認識付き機器は、図６に示すように、さらに、マイクロホン２０２の出力信号をダウンサンプルするダウンサンプラ２０７を備え、ダウンサンプラ２０７によりマイクロホン２０２で収音された音声信号を、２４ｋＨｚから１６ｋＨｚにダウンサンプリングすることにより、ダウンサンプラ２０５の出力信号の周波数帯域と、マイクロホン２０２のサンプリング周波数（すなわち、マイクロホン２０２で収音された音声信号の周波数帯域）とを一致させてもよい。

また、例えば、上記の各装置を構成する構成要素の一部または全部は典型的には集積回路であるＬＳＩとして実現されてもよい。これらは個別に１チップ化されても良いし、一部又は全てを含むように１チップ化されてもよい。

ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。

また、上記実施の形態１に係る音声認識付き機器の構成は図１に示す構成に限らず、少なくとも図７に示す構成であればよい。すなわち、音声認識付き機器４は、ユーザーの音声を認識する音声認識付き機器であって、空間に音声を出音するスピーカ４０１と、当該空間の音声を収音するマイクロホン４０２と、前記マイクロホン４０２で収音された音声を認識する第１の音声認識部４０３と、前記第１の音声認識部４０３で認識された音声に基づいて、前記音声認識付き機器を制御するコマンドを発行するコマンド発行部４０５と、前記スピーカ４０１から出音される音声を用いて、前記コマンド発行部４０５による前記コマンドの発行を禁止する制御部４０４とを備える構成であればよい。

このような構成であっても、音声認識付き機器４は、図１に示す音声認識付き機器１と同様に、音声認識付き機器４自身が発する音声による誤作動を抑止することができる。

この音声認識付き機器４は、図８に示すように、ユーザーの音声を認識する音声認識方法であって、空間に音声を出音する出音ステップ（Ｓ４０１）と、前記出音ステップ（Ｓ４０１）の後、当該空間の音声を収音する収音ステップ（Ｓ４０２）と、前記収音ステップ（Ｓ４０２）で収音された音声を認識する音声認識ステップ（Ｓ４０３）と、コマンド発行部４０５が、前記音声認識ステップ（Ｓ４０３）で認識された音声に基づいて、音声認識付き機器を制御するコマンドを発行するコマンド発行ステップ（Ｓ４０４）と、前記出音ステップ（Ｓ４０１）で出音される音声を用いて、前記コマンド発行部４０５による前記コマンドの発行を禁止する禁止ステップ（Ｓ４０５）とを含む音声認識方法を実行する。

また、上記実施の形態２に係る音声認識付き機器の構成は図３に示す構成に限らず、少なくとも図９に示す構成であればよい。すなわち、音声認識付き機器５は、ユーザーの音声を認識する音声認識付き機器であって、空間に音声を出音する少なくとも１つのスピーカ５０１と、当該空間の音声を収音するマイクロホン５０２と、前記マイクロホン５０２で収音された音声のうち前記ユーザーの音声を認識する音声認識部５０３と、前記スピーカ５０１から出音される音声の電気信号である音声信号を狭帯域にダウンサンプリングするダウンサンプラ５０５と、ダウンサンプリングされた前記音声信号を用いて、前記スピーカ５０１から出音された音声のうち前記マイクロホン５０２で収音された音声であるエコー成分を推定し、推定したエコー成分を前記マイクロホン５０２で収音された音声から除去するエコーキャンセラ５０４とを備え、前記音声認識部５０３は、前記エコーキャンセラ５０４によって前記エコー成分が除去された音声を認識することにより、前記ユーザーの音声を認識する構成であればよい。

このような構成であっても、音声認識付き機器５は、図３に示す音声認識付き機器２と同様に、ユーザーの発声した音声を、音声認識付き機器５自身が出音した音声に邪魔されることなく、正確に音声認識できる。また、音声認識付き機器２と同様に、正確な音声認識を少ない演算量で実現できる。

この音声認識付き機器５は、図１０に示すように、ユーザーの音声を認識する音声認識方法であって、空間に音声を出音する出音ステップ（Ｓ５０１）と、前記出音ステップ（Ｓ５０１）の後、当該空間の音声を収音する収音ステップ（Ｓ５０２）と、前記収音ステップ（Ｓ５０２）で収音された音声のうち前記ユーザーの音声を認識する音声認識ステップ（Ｓ５０５）と、前記出音ステップ（Ｓ５０１）で出音される音声の電気信号である音声信号を狭帯域にダウンサンプリングするダウンサンプルステップ（Ｓ５０３）と、ダウンサンプリングされた前記音声信号を用いて、前記出音ステップ（Ｓ５０１）で出音された音声のうち前記収音ステップ（Ｓ５０２）で収音された音声であるエコー成分を推定し、推定したエコー成分を前記収音ステップ（Ｓ５０２）で収音された音声から除去するエコーキャンセルステップ（Ｓ５０４）とを含み、前記音声認識ステップ（Ｓ５０５）では、前記エコーキャンセルステップ（Ｓ５０４）によって前記エコー成分が除去された音声を認識することにより、前記ユーザーの音声を認識する音声認識方法を実行する。

また、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の音声認識付き機器などを実現するソフトウェアは、次のようなプログラムである。

すなわち、上記実施の形態１に係る音声認識付き機器などを実現するプログラムは、コンピュータに、図８に示すような音声認識方法を実行させる。

また、上記実施の形態２に係る音声認識付き機器などを実現するプログラムは、コンピュータに、図１０に示すような音声認識方法を実行させる。

本発明に係る音声認識付き機器は、当該機器自身が発する音声に邪魔されずに音声認識を正確に行うことができるので、テレビや録画再生機器、ＤＶＤ／ＢＤ／ＣＤプレーヤなど、音声を発する機器に幅広く応用できる。

１、２、３、４、５音声認識付き機器
１００、２００、３００ＴＶ受信部
１０１、２０１、４０１、５０１、８０１、９０１スピーカ
１０２、２０２、３０２、４０２、５０２、８０２、９０２マイクロホン
１０３、４０３第１の音声認識部
１０４第２の音声認識部
１０５、２０６、３０６コマンド制御部
２０３、３０３、５０３音声認識部
２０４、５０４、９０４エコーキャンセラ
２０５、５０５、２０７ダウンサンプラ
３０１ステレオスピーカ
３０４ステレオエコーキャンセラ
３０５ステレオダウンサンプラ
８００、９００ＴＶ受信表示部
８０３第１音声認識部
８０４第２音声認識部

Claims

ユーザーの音声を認識する音声認識付き機器であって、
空間に音声を出音するスピーカと、
当該空間の音声を収音するマイクロホンと、
前記マイクロホンで収音された音声を認識する第１の音声認識部と、
前記第１の音声認識部で認識された音声に基づいて、前記音声認識付き機器を制御するコマンドを発行するコマンド発行部と、
前記スピーカから出音される音声を用いて、前記コマンド発行部による前記コマンドの発行を禁止する制御部とを備える
音声認識付き機器。
前記制御部は、
前記スピーカから出音される音声を認識する第２の音声認識部を備え、
前記第２の音声認識部で認識された音声が予め定められたキーワードと同じであるか否かを判断し、同じである場合は、前記コマンド発行部による前記コマンドの発行を禁止する
請求項１記載の音声認識付き機器。
ユーザーの音声を認識する音声認識付き機器であって、
空間に音声を出音する少なくとも１つのスピーカと、
当該空間の音声を収音するマイクロホンと、
前記マイクロホンで収音された音声のうち前記ユーザーの音声を認識する音声認識部と、
前記スピーカから出音される音声の電気信号である音声信号を狭帯域にダウンサンプリングするダウンサンプラと、
ダウンサンプリングされた前記音声信号を用いて、前記スピーカから出音された音声のうち前記マイクロホンで収音された音声であるエコー成分を推定し、推定したエコー成分を前記マイクロホンで収音された音声から除去するエコーキャンセラとを備え、
前記音声認識部は、前記エコーキャンセラによって前記エコー成分が除去された音声を認識することにより、前記ユーザーの音声を認識する
音声認識付き機器。
前記ダウンサンプラは、前記スピーカの数がＮ（Ｎは２以上の整数）の場合、入力された前記音声信号を（１／Ｎ）＾０．５以下にダウンサンプリングする
請求項３記載の音声認識付き機器。
さらに、前記音声認識部で認識された音声に基づいて、前記音声認識付き機器を制御するコマンドを発行するコマンド発行部を備え、
前記音声認識部は、前記エコーキャンセラによって前記エコー成分が除去された音声を認識することにより、前記コマンド発行部による、前記エコー成分に基づく前記コマンドの発行を禁止する
請求項３又は４記載の音声認識付き機器。
ユーザーの音声を認識する音声認識方法であって、
空間に音声を出音する出音ステップと、
前記出音ステップの後、当該空間の音声を収音する収音ステップと、
前記収音ステップで収音された音声を認識する音声認識ステップと、
コマンド発行部が、前記音声認識ステップで認識された音声に基づいて、音声認識付き機器を制御するコマンドを発行するコマンド発行ステップと、
前記出音ステップで出音される音声を用いて、前記コマンド発行部による前記コマンドの発行を禁止する禁止ステップとを含む
音声認識方法。
ユーザーの音声を認識する音声認識方法であって、
空間に音声を出音する出音ステップと、
前記出音ステップの後、当該空間の音声を収音する収音ステップと、
前記収音ステップで収音された音声のうち前記ユーザーの音声を認識する音声認識ステップと、
前記出音ステップで出音される音声の電気信号である音声信号を狭帯域にダウンサンプリングするダウンサンプルステップと、
ダウンサンプリングされた前記音声信号を用いて、前記出音ステップで出音された音声のうち前記収音ステップで収音された音声であるエコー成分を推定し、推定したエコー成分を前記収音ステップで収音された音声から除去するエコーキャンセルステップとを含み、
前記音声認識ステップでは、前記エコーキャンセルステップによって前記エコー成分が除去された音声を認識することにより、前記ユーザーの音声を認識する
音声認識方法。