WO2012176932A1

WO2012176932A1 - 音声処理装置、音声処理方法および音声処理プログラム

Info

Publication number: WO2012176932A1
Application number: PCT/JP2012/066449
Authority: WO
Inventors: 隆行荒川; 宝珠山　治; 剛範辻川
Original assignee: 日本電気株式会社
Priority date: 2011-06-24
Filing date: 2012-06-21
Publication date: 2012-12-27
Also published as: JP2014194437A

Abstract

所望の音声の強度にかかわらず、精度良く所望の音声を検出する音声処理装置を提供する。　音声処理装置は、雑音源と第１のマイクロホンと第２のマイクロホンについての第１の比と、第２のマイクロホンから出力された第２の入力信号を元に雑音を推定する雑音推定手段と、雑音推定手段からの出力を元に第１のマイクロホンから出力された第１の入力信号に含まれる雑音信号を抑圧する雑音抑圧手段と、雑音抑圧手段からの出力と所定の値を有する閾値とを比較して所望の音声が存在するか否かを判定する判定手段とを備える。

Description

音声処理装置、音声処理方法および音声処理プログラム

　本発明は、所望の音声と雑音とが混在する混在信号を処理する、音声処理装置、音声処理方法及び音声処理プログラムに関する。

　マイクロホンが取得する音声は、所望の音声と、マイクロホンの周辺の環境からの雑音を含む。携帯電話での通話、音声による電子機器の制御処理、音声認識処理などにおいて、雑音の除去が近年ますます重要になっている。
　特許文献１は、２つの指向性マイクロホンにより収音された音声からの音声信号を元に、目的音声が入力されたか否かを検出する、音声検出装置を開示する。すなわち、２つの音声信号のレベル差とパワー比に基づいて、雑音の大きさに依らずに所望の音声が検知される。

特開２００８−３０４４９８号公報

　しかしながら、特許文献１に開示される音声検出装置においては、音声信号のレベル差とパワー比のそれぞれに閾値が設定され、該閾値との比較により音声の入力が判定される。このため、所望の音声が存在する状態と、該音声が存在しない状態との間で、信号のレベル差及びパワー比の変化が小さい場合は、閾値の設定が困難であり、音声検出の精度が低いという問題があった。
　本発明の目的は、以上のような問題を解決し、所望の音声の強度にかかわらず、精度良く所望の音声を検出する音声処理装置、音声処理方法及びプログラムを提供することにある。

　上記目的を達成するため、本発明に係る音声処理装置は、雑音源と第１のマイクロホンと第２のマイクロホンについての第１の比と、第２のマイクロホンから出力された第２の入力信号を元に雑音を推定する雑音推定手段と、雑音推定手段からの出力を元に第１のマイクロホンから出力された第１の入力信号に含まれる雑音信号を抑圧する雑音抑圧手段と、雑音抑圧手段からの出力と所定の値を有する閾値とを比較して、所望の音声が存在するか否かを判定する判定手段とを備えたことを特徴とする。
　上記目的を達成するため、本発明に係る音声処理方法は、雑音源と第１のマイクロホンと第２のマイクロホンについての第１の比と、第２のマイクロホンから出力された第２の入力信号を元に雑音を推定する雑音推定ステップと、雑音推定ステップの出力を元に第１のマイクロホンから出力された第１の入力信号に含まれる雑音信号を抑圧する雑音抑圧ステップと、雑音抑圧ステップの出力と所定の値を有する閾値とを比較して、所望の音声が存在するか否かを判定する判定ステップとを含むことを特徴とする。
　上記目的を達成するため、本発明に係る音声処理プログラムは、雑音源と第１のマイクロホンと第２のマイクロホンについての第１の比と、第２のマイクロホンから出力された第２の入力信号を元に雑音を推定する雑音推定処理と、雑音推定処理の出力を元に第１のマイクロホンから出力された第１の入力信号に含まれる雑音信号を抑圧する雑音抑圧処理と、雑音抑圧処理の出力と所定の値を有する閾値とを比較して、所望の音声が存在するか否かを判定する判定処理とをコンピュータに行わせることを特徴とする。

　本発明によれば、所望の音声の強度にかかわらず、精度良く該音声が検出される。

本発明の第１の実施形態に係る音声処理装置の構成を示すブロック図である。本発明の第２および第３の実施形態に係る音声処理装置に入力される音声を発生する音源の配置の一例を示す。本発明の第２の実施形態に係る音声処理装置において生成される音信号のパワーの時間変動の一例を示す。本発明の第２の実施形態に係る音声処理装置において生成される音信号のパワーの時間変動の一例を示す。本発明の第２の実施形態に係る音声処理装置の構成を示すブロック図である。本発明の第２の実施形態に係る音声処理装置の処理の流れを示すフローチャートである。本発明の第３の実施形態に係る音声処理装置の構成を示すブロック図である。本発明の第４の実施形態に係る音声処理装置の構成を示すブロック図である。本発明の第４の実施形態に係る音声処理装置に入力される音声を発生する音源の配置の一例を示す。

　以下、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載される構成要素は単なる例示であり、本発明の技術範囲はそれらのみに限定されない。
　［第１の実施形態］
　本発明の第１の実施形態に係る音声処理装置１００について、図１を参照して説明する。
　音声処理装置１００は、導出部１０１と積算部１０２と減算部１０３と判定部１０４とを備える。
　導出部１０１は、雑音源で発生して第１のマイクロホン１１０まで伝播した雑音の第１のマイクロホン１１０における第１の減衰率と、雑音源で発生して第２のマイクロホン１２０まで伝播した雑音の第２のマイクロホン１２０における第２の減衰率を元に、減衰率比を導出する。
　積算部１０２は、第２のマイクロホン１２０から出力された第２の入力信号に減衰率比を積算する。さらに、減算部１０３は、第１のマイクロホン１１０から出力された第１の入力信号から、積算部１０２による積算結果を減算する。判定部１０４は、減算１０３による減算結果と、あらかじめ定められた閾値とを比較し、減算結果が閾値より大きい場合に、所望の音声が存在すると判定する。
　本実施形態によれば、雑音源からマイクロホンに伝播する雑音の減衰率を考慮して、雑音が抑圧され、所望の音声が高い精度で検出される。
　［第２の実施形態］
　本発明の第２の実施形態に係る音声処理装置について、図３乃至６を参照して説明する。
　図２は、本実施形態に係る音声処理装置に入力される入力信号を生成するマイクロホンと、音声を発生する音源の配置の一例を示す。図２において、２つのマイクロホンのそれぞれに、２つの音源からの音声が伝播する。
　図２において、所望の音声は音源２１０から発生し、雑音は音源２２０から発生する。音源２１０から発生する音声のパワーの時系列がＰＡ（ｔ）と記される。音源２２０から発生する音声のパワーの時系列がＰＢ（ｔ）と記される。ＰＡ（ｔ）およびＰＢ（ｔ）は、直接観測可能な量ではない。
　マイクロホン２０１とマイクロホン２０２は、マイクロホン２０１と音源２１０間の距離がマイクロホン２０２と音源２０１間の距離よりも短いように、配置される。マイクロホン２０１は、収音された音声を元に、パワーの時系列がＰ１（ｔ）で表される音信号を生成する。マイクロホン２０２は、収音された音声を元に、パワーの時系列がＰ２（ｔ）で表される音信号を生成する。Ｐ１（ｔ）およびＰ２（ｔ）は、直接観測可能な量である。
　音源２１０で発生した音声は、マイクロホン２０１およびマイクロホン２０２に伝播し、マイクロホン２０１およびマイクロホン２０２において、到達時の音声のパワーはそれぞれｄＡ１およびｄＡ２で表される減衰率で減衰する。音源２２０で発生した音声は、マイクロホン２０１およびマイクロホン２０２に伝播し、マイクロホン２０１およびマイクロホン２０２において、到達時の音声のパワーはそれぞれｄＢ１およびｄＢ２で表される減衰率で減衰する。音源が点音源であれば、音声のパワーは音源とマイクロホン間の距離の逆二乗に比例するので、減衰率は該距離の二乗の逆数となる。
　マイクロホン２０１およびマイクロホン２０２で収音される音声のパワーの時系列Ｐ１（ｔ）およびＰ２（ｔ）は、音源２１０および音源２２０からの音声のパワーに、減衰率を重み付けした和に比例する。すなわち、
Ｐ１（ｔ）＝　ＰＡ（ｔ）×ｄＡ１　＋　ＰＢ（ｔ）×ｄＢ１
および
Ｐ２（ｔ）＝　ＰＡ（ｔ）×ｄＡ２　＋　ＰＢ（ｔ）×ｄＢ２
である。
　以下、マイクロホン２０１とマイクロホン２０２で生成される音信号のパワーの差の時系列を、Ｄ（ｔ）と記す。すなわち、
　Ｄ（ｔ）＝　Ｐ１（ｔ）−Ｐ２（ｔ）
である。
　さらに、マイクロホン２０１とマイクロホン２０２で生成される音信号のパワーの比の時系列を、Ｒ（ｔ）と記す。すなわち、
　Ｒ（ｔ）＝　Ｐ１（ｔ）／Ｐ２（ｔ）
である。
　上記のように定義された２つの量を、パラメタを用いて表現するために、２つの極端な状態を考える。
　まず、所望の音声が発生せず、雑音のみが発生する状態を考える。
　音源２１０からは音声が発生せず、音源２２０から発生する音声のみがマイクロホン２０１およびマイクロホン２０２により収音される。すなわち、ＰＡ（ｔ）はゼロであり、ＰＢ（ｔ）は非ゼロである。
　この状態において、パワーの差の時系列Ｄ（ｔ）をＤＢ（ｔ）と記し、パワーの比の時系列Ｒ（ｔ）をＲＢ（ｔ）と記す。すなわち、
　ＤＢ（ｔ）＝　ＰＢ（ｔ）×（ｄＢ１−ｄＢ２）
および
　ＲＢ（ｔ）＝　ｄＢ１／ｄＢ２
である。
　次に、雑音が発生せず、所望の音声のみが発生する状態を考える。
　この状態においては、ＰＡ（ｔ）が非ゼロであり、ＰＢ（ｔ）がゼロである。
　さらに、パワーの差の時系列をＤＡ（ｔ）と記し、パワーの比の時系列をＲＡ（ｔ）と記す。すなわち、
　ＤＡ（ｔ）＝　ＰＡ（ｔ）×（ｄＡ１−ｄＡ２）
および
　ＲＡ（ｔ）＝　ｄＡ１／ｄＡ２
である。なお、ＲＡ（ｔ）およびＲＢ（ｔ）は時間的に一定の値をとる。
　上記の２つの状態での、パワーの差の時系列ＤＡ（ｔ）、ＤＢ（ｔ）、およびパワーの比の時系列ＲＡ（ｔ）、ＲＢ（ｔ）を用いて、一般の場合、すなわち、雑音と所望の音声が発生する状態のパワーの差の時系列Ｄ（ｔ）およびパワーの比の時系列Ｒ（ｔ）が表わされる。
　パワーの差の時系列Ｄ（ｔ）は、ＤＡ（ｔ）とＤＢ（ｔ）の和である。すなわち、
　Ｄ（ｔ）＝　ＤＡ（ｔ）＋ＤＢ（ｔ）
である。図３は、Ｄ（ｔ）、ＤＡ（ｔ）およびＤＢ（ｔ）の時間変化の一例を示す。
　パワーの比の時系列Ｒ（ｔ）は、ＲＡ（ｔ）とＲＢ（ｔ）の線型結合である。すなわち、
　Ｒ（ｔ）＝　α（ｔ）×ＲＡ（ｔ）＋（１−α（ｔ））×ＲＢ（ｔ）
である。ここで、α（ｔ）＝　１／（１＋ＰＢ（ｔ）／ＰＡ（ｔ）×ｄＢ２／ｄＡ２）である。ＰＡ（ｔ）およびＰＢ（ｔ）の値が非負であれば、αは０から１の間の値をとる。
　図４は、Ｒ（ｔ）、ＲＡ（ｔ）、ＲＢ（ｔ）の時間変化の一例を示す。
　図４に示されるようにＲ（ｔ）の時系列はＲＡ（ｔ）とＲＢ（ｔ）の時系列の各時刻の値を（１−α（ｔ））とα（ｔ）の割合で内分した値の時系列である。
　パワーの差の時系列Ｄ（ｔ）およびパワーの比の時系列Ｒ（ｔ）を用いた音声検出において、検出効率が高くない状態がある。検出効率は、以下に説明する条件により左右される。
　音声検出では、特徴量と閾値との比較により所望の音声の存在が判定される。以下では、所望の音声が存在する状態と存在しない状態との間で、差分が大きい特徴量を「よい」特徴量と記し、差分が小さい特徴量を「悪い」特徴量と記す。
　パワーの差の時系列Ｄ（ｔ）が「悪い」特徴量である条件として、以下の４つの条件が挙げられる。
　条件１−１：所望の音声のパワーの時系列ＰＡ（ｔ）の時間的変動が小さい。例えば、ＰＡ（ｔ）の最大値と最小値との差が小さい。このとき、ＤＡ（ｔ）の時間的変動が小さい。
　条件１−２：雑音のパワーの時系列ＰＢ（ｔ）の時間的変動が大きい。このとき、ＤＢ（ｔ）の時間的変動が大きい。
　条件１−３：所望の音声がマイクロホン２０１およびマイクロホン２０２に均等に入力される。このとき、ｄＡ１はｄＡ２にほぼ等しく、ＤＡ（ｔ）はほぼゼロである。従って、ＤＡ（ｔ）の時間的変動が小さい。
　条件１−４：マイクロホン２０２により雑音から生成された音信号が、マイクロホン２０１により雑音から生成された音信号よりも非常に大きい。このとき、ＤＢ（ｔ）の時間的変動が大きくなる。
　上記の条件のいずれかが該当する場合、ＤＡ（ｔ）の時間的変動がＤＢ（ｔ）の時間的変動よりも小さくなり、閾値の決定が困難である。すなわち、図３に示されるように、ＤＢ（ｔ）の時間的変動がＤＡ（ｔ）の時間的変動に比較して大きければ、Ｄ（ｔ）からのＤＡ（ｔ）の検出が困難であり、このとき、Ｄ（ｔ）は「悪い」特徴量である。
　次に、パワーの比の時系列Ｒ（ｔ）を用いた音声検出において、Ｒ（ｔ）が「悪い」特徴量となる条件として、以下の２つの条件が挙げられる。
　条件２−１：所望の音声がマイクロホン２０１およびマイクロホン２０２に均等に入力される。このとき、ｄＡ１はｄＡ２にほぼ等しく、ＲＡ（ｔ）はほぼ１である。
　条件２−２：雑音がマイクロホン２０１およびマイクロホン２０２に均等に入力される。このとき、ｄＢ１はｄＢ２にほぼ等しく、ＲＢ（ｔ）はほぼ１である。
　上記の２つの条件に該当する場合に、ＲＡ（ｔ）とＲＢ（ｔ）との差が小さくなり、閾値の決定が困難になる。
　所望の音声の音源である、話者の口元とマイクロホンとの距離が大きいと、マイクロホン２０１とマイクロホン２０２に入力される所望の音声のレベルが互いに近づく。このため、パワーの差Ｄ（ｔ）およびパワーの比Ｒ（ｔ）のいずれが用いられても、閾値の決定は困難である。
　上記の問題を解決するため、本発明の本実施形態に係る音声検出処理においては、Ｄ（ｔ）やＲ（ｔ）の代わりに、マイクロホン２０１の音信号から雑音を抑圧したパワーの時系列Ｅ（ｔ）が用いられる。
　雑音を抑圧したパワーの時系列をＥ（ｔ）と記し、以下で説明される。
　雑音を抑圧したパワーの時系列Ｅ（ｔ）は、マイクロホン２０１から生成される音信号のパワーの時系列と、マイクロホン２０２から生成される音信号のパワーの時系列と雑音の減衰率の比の推定値との積との差として定義される。すなわち、
　Ｅ（ｔ）＝　Ｐ１（ｔ）−Ｑ（ｔ）×Ｐ２（ｔ）
である。ここで、雑音の減衰率の比ＲＢ（ｔ）の推定値をＱ（ｔ）と記す。
　Ｑ（ｔ）が正しくＲＢ（ｔ）として推定されたと仮定すると、雑音を抑圧したパワーの時系列Ｅ（ｔ）は、所望の音声のパワーの時系列ＰＡ（ｔ）に比例する。すなわち、Ｅ（ｔ）は次のように書き直される。
　Ｅ（ｔ）＝　Ｐ１（ｔ）−ＲＢ（ｔ）×Ｐ２（ｔ）＝　ＰＡ（ｔ）×ｄＡ１×（１　−　ｄＢ１／ｄＢ２×ｄＡ２／ｄＡ１）
　この関係式において、所望の音声の減衰率の比ｄＡ１／ｄＡ２が雑音の減衰率の比ｄＢ１／ｄＢ２よりも大きければ、Ｅ（ｔ）は非ゼロである。このため、閾値を正の値に設定することにより、所望の音声の存在の判定が可能である。閾値の絶対値は小さい値に任意に設定できるので、所望の音声のパワーの値が小さくてもよい。さらに、上記の関係式には雑音のパワーの値が含まれないため、Ｅ（ｔ）は、２つのマイクロホンに入力される雑音の大小関係に依存しない。
　雑音を抑圧したパワーの時系列Ｅ（ｔ）による音声の判定においては、閾値を正の値に固定してよい。該閾値は、絶対値の小さな値に任意に設定できるので、所望の音声の大きさに依らずに音声の検出ができる。さらに、雑音を抑圧したパワーの時系列Ｅ（ｔ）には、雑音の項が含まれないので、雑音の大きさに依存せずに音声検出が行われる。
　本発明の第２の実施形態に係る音声処理装置５００の構成が、図５を参照して説明される。
　図５は、本実施形態に係る音声処理装置の構成を示すブロック図である。
　図５に示されるように、音声処理装置５００は、マイクロホン２０１と、マイクロホン２０２と、パワー算出部５０３と、パワー算出部５０４と、雑音パワー比推定部５０５と、雑音パワー推定部５０６と、雑音抑圧パワー推定部５０７と、閾値比較部５０８とを含む。好ましくは、マイクロホン２０１はマイクロホン２０２に比べて所望の音声の発生源により近い。
　マイクロホン２０１は、所望の音声と雑音とが混在した第１の混在信号を出力する。マイクロホン２０２は、第１の混在信号とは異なる混在比で、所望の音声と雑音とが混在した第２の混在信号を出力する。パワー算出部５０３は、第１の混在信号を元に、パワーを算出して出力する。パワー算出部５０４は、第２の混在信号を元に、パワーを算出して出力する。雑音パワー比推定部５０５は、第１の混在信号のパワーと第２の混在信号のパワーを元に、雑音パワー比を推定して出力する。雑音パワー推定部５０６は、第２の混在信号のパワーと雑音パワー比を元に、第１の混在信号に含まれる雑音パワーを推定して出力する。雑音抑圧パワー推定部５０７は、第１の混在信号のパワーと第１の混在信号に含まれる雑音パワーの推定値を元に、雑音抑圧パワーを推定して出力する。閾値比較部５０８は、雑音抑圧パワーを、あらかじめ設定された閾値と比較して、所望の音声が存在するか否かを判定する。
　次に、図５のブロック図および図６のフローチャートを参照して、本実施形態に係る音声処理装置の動作が、詳細に説明される。
　まず、マイクロホン２０１において所望の音声と雑音とが混在した第１の混在信号が取得され、マイクロホン２０２において第１の入力信号とは異なる混在比で所望の音声と雑音とが混在した第２の混在信号が取得される（ステップＳ６０１）。すなわち、電位差などのアナログ信号は、アナログ−デジタル（ＡＤ）変換器により、例えば、量子化サイズが１６ビットでサンプリング数が４４ｋＨｚのデジタルデータに変換され、第１の混在信号および第２の混在信号として出力される。
　パワー算出部５０３において第１の混在信号を元にパワーの時系列が算出され、パワー算出部５０４において第２の混在信号を元にパワーの時系列が算出される（ステップＳ６０２）。パワーは、例えば２０ミリ秒などの短い時間長を単位として、切り出された第１または第２の混在信号に対して、求められる。時刻ｔにおける第１の混在信号のパワーの時系列および第２の混在信号のパワーの値をそれぞれ、Ｐ１（ｔ）、Ｐ２（ｔ）と記す。パワーの算出方法として、例えば、サンプルごとの入力された波形データの二乗を、単位時間において、サンプリング数に亘って平均する処理が採用される。或いは、短時間でのフーリエ変換により求められたスペクトルの二乗を、周波数について平均する処理が採用される。以下に説明される処理は、単位時間ごとに行われる。
　雑音パワー比推定部５０５において、第１の混在信号に含まれる雑音のパワーと第２の混在信号に含まれる雑音のパワーの比Ｑ（ｔ）が推定される（ステップＳ６０３）。Ｑ（ｔ）の推定方法として、以下の方法が考えられる。
　移動しない一つの雑音源のみを有する環境では、雑音パワーの比は、雑音源で発生する雑音のパワーの値には依存せず、位置関係によって決まる一定の値をとる。このため、所望の音声が発生する前の、複数の時刻において第１の混在信号のパワーＰ１（ｔ）と第２の混在信号のパワーＰ２（ｔ）の比を求め、この比の平均値をＲＢ（ｔ）の推定値とする。この時点以降は、推定値Ｑ（ｔ）に同じ値が用いられる。
　あるいは、立ち上がりが遅く立ち下りが早い平均を用いてＱ（ｔ）を推定する方法を採用してもよい。すなわち、時刻ｔにおける雑音のパワーの比Ｑ（ｔ）は、時刻ｔ−１における雑音パワーの比Ｑ（ｔ−１）と、時刻ｔにおける第１の混在信号のパワーＰ１（ｔ）と第２の混在信号のパワーＰ２（ｔ）から、以下の関係式に従って求められる。
　Ｑ（ｔ）＝　β×Ｐ１（ｔ）／Ｐ２（ｔ）＋（１−β）×Ｑ（ｔ−１）
　ここで、βは０から１までの範囲の値をとる。さらに、βは、Ｐ１（ｔ）／Ｐ２（ｔ）＞Ｑ（ｔ−１）のとき、ほぼゼロの値であり、Ｐ１（ｔ）／Ｐ２（ｔ）≦　Ｑ（ｔ−１）のとき、ほぼ１の値をとる。上記の漸化式によれば、Ｐ１（ｔ）／Ｐ２（ｔ）の値の増加に対するＱ（ｔ）の値の追従は遅く、減少に対する追従は速い。
　雑音のパワーの比Ｑ（ｔ）の推定には、上記の他の、一般的な雑音推定法と同様の手順が用いられてよい。一般的な雑音推定法を用いる場合は、Ｐ１（ｔ）／Ｐ２（ｔ）を所望の音声と雑音が混在した入力信号のパワーとみなす。Ｑ（ｔ）は、この信号のパワーから雑音推定法を用いて推定された雑音のパワーである。一般的な雑音推定法して、一定時間にわたり入力信号のパワーの最小値を記憶し、雑音のパワーとして出力する方法などを採用してよい。
　雑音パワー推定部５０６において、第１の混在信号に含まれる雑音のパワーが推定される（ステップＳ６０４）。雑音のパワーは、第２の混在信号のパワーＰ２（ｔ）に、雑音のパワーの比Ｑ（ｔ）が乗算されて、推定される。
　関連技術のように第２の混在信号のパワーＰ２（ｔ）を用いて直接推定する方法に較べて、上記のように第２の混在信号のパワーＰ２（ｔ）と雑音のパワーの比ＲＢ（ｔ）を乗算する方法は、推定される雑音の精度が高い。これは、雑音のパワーの比Ｑ（ｔ）の値が雑音の大きさにほとんど依存しないためである。
　雑音抑圧パワー推定部５０７において、第１の混在信号に含まれる雑音が抑圧され、雑音を抑圧したパワーの時系列Ｅ（ｔ）が推定される（ステップＳ６０５）。第１の混在信号から、推定された雑音のパワーが差し引かれる。すなわち、以下の関係式
　Ｅ（ｔ）＝Ｐ１（ｔ）−Ｑ（ｔ）×Ｐ２（ｔ）
に従って、Ｅ（ｔ）が求められる。
　また、上記の関係式において減算する項は、所定の定数を乗じた、第１の混在信号から推定された雑音のパワーでもよい。雑音を抑圧したパワーの時系列Ｅ（ｔ）の推定には、上記の他の、一般的な雑音除去の方法が用いられてもよい。一般的な雑音除去の方法を用いる場合は、Ｐ１（ｔ）を所望の音声と雑音が混在した入力信号のパワーとみなし、Ｑ（ｔ）×Ｐ２（ｔ）を推定された雑音のパワーとみなし、雑音除去の方法を用いて入力信号のパワーから推定された雑音のパワーを除去する。一般的な雑音除去の方法として、上記のような減算処理に加えて、算出された雑音低減フィルタを、入力信号のパワーに乗算する処理により、雑音のパワーを抑圧する方法などを採用してよい。
　閾値比較部５０８において、雑音を抑圧したパワーの時系列Ｅ（ｔ）とあらかじめ設定された閾値Θが比較され、所望の音声が存在するか否かが判定される（ステップＳ６０６）。Ｅ（ｔ）が閾値Θより大きければ音声があると判定され、そうでなければ音声が無いと判定される。閾値Θの値は０より少し大きい値に任意に設定される。
　雑音を抑圧したパワーの時系列Ｅ（ｔ）においては、雑音の大きさによらず、雑音はほぼ完全に除去される。第２の混在信号に所望の音声が含まれる場合、上記の減算などの処理により、雑音と共に所望の音声の一部が抑圧される。しかしながら、マイクロホン２０１に入力される所望の音声が、マイクロホン２０２に入力される所望の音声よりも少しでも大きければ、所望の音声がすべて相殺されて消失することはない。このため、雑音を抑圧したパワーの時系列Ｅ（ｔ）と閾値Θとの比較により所望の音声の存在が検出される。また、閾値Θの値は、雑音の大きさには依存しないため、雑音によらない一定の値が用いられる。本実施形態に係る音声処理方法によれば、本発明の目的が達成される。
　上記で説明された本実施形態に係る音声処理方法における音声検出は、分割された周波数帯域のそれぞれで行ってもよい。この場合、周波数帯域ごとに雑音抑圧パワーＥ（ｔ）が求められ、その平均或いは和が閾値と比較されてもよいし、周波数帯域ごとでＥ（ｔ）と閾値が比較され、その結果が、多数決などにより、統合されてもよい。
　［第３の実施形態］
　本発明の第３の実施形態に係る音声処理装置７００の構成が、図７を参照して説明される。
　図７に示されるように、本実施形態に係る音声処理装置は適応フィルタ７０１を備えることを特徴とする。
　適応フィルタ７０１には、第２の混在信号が入力され、第２の混在信号に含まれる雑音信号から、第１の混在信号に含まれる雑音信号が推定される。すなわち、第２の混在信号に含まれる雑音信号となる雑音が入力される第２のマイクロホン２０２から、第１の混在信号に含まれる雑音信号となる雑音が入力される第１のマイクロホン２０１までの雑音の経路に、インパルス応答の方法が適用されて、第１の混在信号に含まれる、擬似雑音信号が推定される。第１の混在信号から、該擬似雑音信号を差し引くことにより、雑音が除去されると推定される、擬似強調信号が得られる。該適応フィルタ７０１としては、例えば、特開平０８−０５６１８０に開示される適応フィルタが採用される。
　擬似強調信号はパワー算出部５０３に入力され、擬似雑音信号はパワー算出部５０４に入力される。入力された信号に元に、第２の実施形態と同様の処理が行われる。
　第１の混在信号により多くの雑音が混入する場合、或いは、第２の混在信号により多くの所望の音声が混入する場合、雑音を抑圧したパワーの時系列Ｅ（ｔ）においては雑音だけでなく音声の一部も除去される。第１の混在信号の代わりに擬似強調信号を用い、第２の混在信号の代わりに擬似雑音信号を用いることにより、雑音を抑圧したパワーの時系列Ｅ（ｔ）は、雑音だけが抑圧された値に近づけられる。このため、第２の実施形態に較べて、誤りの少ない音声検出が行われる。
　本実施形態に係る音声処理装置に入力される音声を発生する音源と、音声を取得するマイクロホンの配置が図２に示される。好ましくは、所望の音声の発生源２１０はマイクロホン２０１に近くマイクロホン２０２から遠く、雑音源２２０はマイクロホン２０２に近くマイクロホン２０１から遠い。すなわち、所望の音声の発生源２１０からマイクロホン２０１およびマイクロホン２０２までの距離をそれぞれ、ｒＡ１、ｒＢ１とし、雑音源２２０からマイクロホン２０１およびマイクロホン２０２までの距離をそれぞれ、ｒＡ２、ｒＢ２とすると、好ましくは、ｒＡ１／ｒＢ１の値がｒＡ２／ｒＢ２の値に較べて小さい。
　［第４の実施形態］
　本発明の第４の実施形態に係る音声処理装置８００について、図８および９を参照して説明する。
　図８に示されるように、本実施形態に係る音声処理装置は、第１のマイクロホン２０１とパワー算出部５０３との間に第１のビームフォーマ８０１と、第２のマイクロホン２０２とパワー算出部５０４との間に第２のビームフォーマ８０２を備えることを特徴とする。
　第１のビームフォーマ８０１は、第１の混在信号と第２の混在信号を時間波形領域での和を算出し、和信号を得る。第２のビームフォーマ８０２は、第１の混在信号と第２の混在信号の時間波形領域での差を算出し、差信号を得る。
　和信号はパワー算出部５０３に入力され、差信号はパワー算出部５０４に入力される。これ以降の処理は、第２の実施形態における処理と同一である。
　本実施形態に係る音声処理装置に入力される音声を発生する音源と、音声を取得するマイクロホンの配置が図９に示される。好ましくは、所望の音声が発生する音源２１０はマイクロホン２０１とマイクロホン２０２から等距離にあり、雑音を発生する音源２２０はマイクロホン２０１とマイクロホン２０２のいずれかに近い。
　上記の状態で、第２のビームフォーマ８０２が生成する差信号においては、所望の音声からの音声信号が相殺されて消失し、雑音信号のみが残る。差信号の雑音信号から、和信号に混入した雑音信号を推定することにより、和信号における雑音が抑圧される。
　所望の音声が発生する音源２１０がマイクロホン２０１とマイクロホン２０２のいずれかに近く、雑音が発生する音源２２０がマイクロホン２０１とマイクロホン２０２から等距離にある場合は、好ましくは、第１のビームフォーマ８０１が差信号を算出し、第２のビームフォーマ８０２が和信号を算出する。差信号はパワー算出部５０３に入力され、和信号はパワー算出部５０４に入力される。
　上記の配置で、第１のビームフォーマ８０１が生成する差信号においては、雑音信号が相殺されて消失し、所望の音声からの音声信号のみが残る。これにより、所望の音声の存在が検出される。
　なお、音源の配置が、図９に示される音源の配置でない場合は、雑音の減衰率の比と考慮して、第１のビームフォーマから出力と第２のビームフォーマからの出力を補正してよい。
　さらに、第１のビームフォーマ８０１により、所望の音声が発生する方向にビームを向けるビームフォーマを行ってもよいし、第２のビームフォーマ８０２により、雑音の発生する方向にビームを向ける適応ビームフォーマを行ってもよい。
　［他の実施形態］
　以上、実施形態を参照して本発明を説明したが、本発明は上記の実施形態に限定されない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。それぞれの実施形態に含まれる特徴を組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
　また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムがダウンロードされるＷＷＷ（Ｗｏｒｌｄ　Ｗｉｄｅ　Ｗｅｂ）サーバも、本発明の範疇に含まれる。
　この出願は２０１１年６月２４日に出願された日本出願特願２０１１−１４０６６８を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明は、所望の音声を検知する音声処理装置に好適に適用可能である。本発明は特に、周囲の環境から混入する雑音を抑圧して、所望の音声の信号レベルが大きくない状況でも、所望の音声の発声を検知する音声処理装置に好適に適用される。

　１００、５００、７００、８００　音声処理装置
　１０１　導出部
　１０２　積算部
　１０３　減算部
　１０４　判定部
　１１０　第１のマイクロホン
　１２０　第２のマイクロホン
　２０１、２０２　マイクロホン
　２１０、２２０　音源
　５０３、５０４　パワー算出部
　５０５　雑音パワー比推定部
　５０６　雑音パワー推定部
　５０７　雑音抑圧パワー推定部
　５０８　閾値比較部
　７０１　適応フィルタ
　８０１　第１のビームフォーマ
　８０２　第２のビームフォーマ

Claims

　雑音源と第１のマイクロホンと第２のマイクロホンについての第１の比と、前記第２のマイクロホンから出力された第２の入力信号を元に雑音を推定する、雑音推定手段と、
　前記雑音推定手段からの出力を元に、前記第１のマイクロホンから出力された第１の入力信号に含まれる雑音信号を抑圧する、雑音抑圧手段と、
　前記雑音抑圧手段からの出力と、所定の値を有する閾値とを比較して、所望の音声が存在するか否かを判定する、判定手段と
を備えたことを特徴とする、音声処理装置。
　前記第１の比は、前記雑音源から発生した音声の前記雑音源から前記第１のマイクロホンまでに伝播する間の第１の減衰率と、前記雑音源から発生した音声の前記雑音源から前記第２のマイクロホンまでに伝播する間の第２の減衰率との比であることを特徴とする、請求項１に記載の音声処理装置。
　所望の音声が発生していないときに、前記第１の入力信号と、前記第２の入力信号を元に、前記第１の比を生成する入力信号比算出手段をさらに備えることを特徴とする、請求項１または２に記載の音声処理装置。
　前記雑音推定手段は、前記雑音源から前記第２のマイクロホンまで音声が伝播する経路と、前記雑音源から前記第１のマイクロホンまで音声が伝播する経路を元に、前記雑音を推定することを特徴とする、請求項１に記載の音声処理装置。
　前記第１の入力信号と前記第２の入力信号との和信号を生成する第１のビームフォーマと、
　前記第１の入力信号と前記第２の入力信号との差信号を生成する第２のビームフォーマと、
をさらに備え、
　前記雑音推定手段は、前記差信号をもとに、雑音を推定し、
　前記雑音抑圧手段は、前記雑音推定手段からの出力を元に、前記和信号に含まれる雑音信号を抑圧することを特徴とする、請求項１に記載の音声処理装置。
　雑音源と第１のマイクロホンと第２のマイクロホンについての第１の比と、前記第２のマイクロホンから出力された第２の入力信号を元に雑音を推定する、雑音推定ステップと、
　前記雑音推定ステップの出力を元に、前記第１のマイクロホンから出力された第１の入力信号に含まれる雑音信号を抑圧する、雑音抑圧ステップと、
　前記雑音抑圧ステップの出力と、所定の値を有する閾値とを比較して、所望の音声が存在するか否かを判定する、判定ステップと
を含むことを特徴とする、音声処理方法。
　前記第１の比は、前記雑音源から発生した音声の前記雑音源から前記第１のマイクロホンまでに伝播する間の第１の減衰率と、前記雑音源から発生した音声の前記雑音源から前記第２のマイクロホンまでに伝播する間の第２の減衰率との比であることを特徴とする、請求項６に記載の音声処理方法。
　所望の音声が発生していないときに、前記第１の入力信号と、前記第２の入力信号を元に、前記第１の比を生成する入力信号比算出ステップをさらに備えることを特徴とする、請求項６または７に記載の音声処理方法。
　前記雑音推定ステップは、前記雑音源から前記第２のマイクロホンまで音声が伝播する経路と、前記雑音源から前記第１のマイクロホンまで音声が伝播する経路を元に、前記雑音を推定することを特徴とする、請求項６に記載の音声処理方法。
　前記第１の入力信号と前記第２の入力信号との和信号を生成するステップと、
　前記第１の入力信号と前記第２の入力信号との差信号を生成するステップとをさらに備え、
　前記雑音推定ステップは、前記差信号をもとに、雑音を推定し、
　前記雑音抑圧ステップは、前記雑音推定手段からの出力を元に、前記和信号に含まれる雑音信号を抑圧することを特徴とする、請求項６に記載の音声処理方法。
　雑音源と第１のマイクロホンと第２のマイクロホンについての第１の比と、前記第２のマイクロホンから出力された第２の入力信号を元に雑音を推定する、雑音推定処理と、
　前記雑音推定処理の出力を元に、前記第１のマイクロホンから出力された第１の入力信号に含まれる雑音信号を抑圧する、雑音抑圧処理と、
　前記雑音抑圧処理の出力と、所定の値を有する閾値とを比較して、所望の音声が存在するか否かを判定する、判定処理とをコンピュータに行わせることを特徴とする、音声処理プログラム。