WO2015125567A1

WO2015125567A1 - 音信号処理装置、および音信号処理方法、並びにプログラム

Info

Publication number: WO2015125567A1
Application number: PCT/JP2015/052124
Authority: WO
Inventors: 厚夫廣江
Original assignee: ソニー株式会社
Priority date: 2014-02-20
Filing date: 2015-01-27
Publication date: 2015-08-27
Also published as: EP3109855A4; US10013998B2; EP3109855B1; JP2015155975A; US20170047079A1; EP3109855A1

Abstract

複数の音が混在した音信号から高精度に音声区間を判定する装置、方法を提供する。音信号の音源方向を示す方向点を時間方向に接続し、音声区間を検出する構成において、音源方向に対する指向特性に応じたパターン分類を行い、分類結果から指向性パターン、死角パターンを生成する。また、音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する。さらに、死角パターンからの音源方向対応の極小点検出に適用する閾値として、平均死角パターンよりやや低い値に設定された閾値を算出し、閾値以下の極小点を、音源方向対応点と判定する。

Description

音信号処理装置、および音信号処理方法、並びにプログラム

　本開示は、音信号処理装置、および音信号処理方法、並びにプログラムに関する。さらに、詳細には音源方向推定を伴う音声区間検出処理を実行する音信号処理装置、および音信号処理方法、並びにプログラムに関する。

　音声区間検出（ＳＤ：Ｓｐｅｅｃｈ　Ｄｅｔｅｃｔｉｏｎ）とは、連続して入力される音信号の中から、人が発話している区間（セグメント）を切り出す処理のことであり、Ｖｏｉｃｅ　Ａｃｔｉｖｉｔｙ　Ｄｅｔｅｃｔｉｏｎ（ＶＡＤ）とも呼ばれる。以降、単に「区間検出」とも書く。

　音声区間検出は、音声認識や音源抽出などと共に用いられることがあるが、いずれの場合も、区間検出には高い精度が要求される。
　例えば多くの音声認識器では、区間検出によって切り出された区間に対してマッチング等の処理を行なうため、区間検出精度が音声認識の精度に大きく影響する。すなわち、実際に発話した区間と、区間検出処理における検出区間とが異なっていると、それ自体が誤認識の原因となってしまう。あるいは、音声が発話されていないにもかかわらず発話区間を誤検出してしまうと、その区間の音に対して認識処理を行なってしまい、その誤った認識結果に基づいてシステムが誤動作するといった現象も発生し得る。

　一方、複数の音が混合した取得音から１つの音声を選択抽出する等の音源抽出処理においても区間検出が用いられる場合がある。例えば、音声と雑音とが混ざった信号からクリーンな音声を抽出したい場合や、二人以上が同時にしゃべっている環境において一人の音声を抽出したい場合、音源抽出の方式によっては、入力信号を、雑音のみが鳴っている区間と両方が混ざっている区間とに分割する必要があり、その目的で区間検出が使用される。

　または、単に目的の音声が存在しているときのみ音源抽出を動作させることで、計算量を削減したり無音区間に適応するのを防いだりするという目的で区間検出が使用される場合もある。このような、音源抽出と共に使用される音声区間検出では、入力信号が音声と雑音との混合や音声同士の混合であっても高い精度で動作することが要求される。

　なお、音声区間検出について開示した従来技術としては、例えば特許文献１（特開２０１２－１５０２３７号公報）や、特許文献２（特許４２８２７０４号）、特許文献３（特開２０１０－１２１９７５号公報）、特許文献４（特許４１８２４４４号）、特許文献５（特開２００８－１７５７３３号公報）、特許文献６（特開２０１３－４４９５０号公報）等がある。また、音源抽出処理について開示した従来技術して、例えば特許文献７（特開２０１２－２３４１５０号公報）がある。

特開２０１２－１５０２３７号公報特許４２８２７０４号特開２０１０－１２１９７５号公報特許４１８２４４４号特開２００８－１７５７３３号公報特開２０１３－４４９５０号公報特開２０１２－２３４１５０号公報

　本件は、より高精度な音声区間検出を実現する音信号処理装置、および音信号処理方法、並びにプログラムを提供することを目的とする。

　本開示の第１の側面は、
　音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出する方向点検出部と、
　前記方向点を複数ブロック間で接続して音が発生している区間の検出を行う方向点トラッキング部を有し、
　前記方向点検出部は、
　方向と感度との対応関係のプロットであり、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成部と、
　前記死角パターンの極小点を音源方向として検出する方向点検出実行部と、
　音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する死角パターン平均部と、
　前記死角パターンから音源方向対応の極小点検出に適用する閾値として、前記平均死角パターンよりやや低い値に設定された動的閾値を算出する動的閾値計算部を有し、
　前記方向点検出実行部は、
　前記死角パターンから前記動的閾値以下の極小点を選択し、選択した極小点に対応する方向を音源方向として検出する音信号処理装置にある。

　さらに、本開示の音信号処理装置の一実施態様において、前記方向点検出部は、音源方向に対する感度が相対的に高いという指向特性を表わしている指向性パターンを生成する指向性パターン生成部を有し、前記方向点検出実行部は、前記死角パターンの極小点と、前記指向性パターンの極大点との組み合わせを有する方向を音源方向として検出する。

　さらに、本開示の音信号処理装置の一実施態様において、前記音信号処理装置は、異なる位置に配置した複数のマイクロホンが取得した観測信号に対して短時間フーリエ変換（ＳＴＦＴ）を適用して時間周波数領域の観測信号へと変換する短時間フーリエ変換部を有し、前記方向点検出部は、時間周波数領域の観測信号から共分散行列を計算し、共分散行列に対して固有値分解を適用して複数の固有ベクトルを算出し、算出した複数の固有ベクトルに対して各方向に対応したステアリングベクトルを作用させることにより、方向と感度との関係を表わす複数の指向特性パターンを生成する。

　さらに、本開示の音信号処理装置の一実施態様において、前記方向点検出部は、前記複数の指向特性パターンを、
　（ａ）音源方向に対する感度が相対的に高いという指向特性の型である指向性型、
　（ｂ）音源方向に対する感度が相対的に低いという指向特性の型である死角型、
　（ｃ）上記（ａ），（ｂ）のいずれにも属さない中立型、
　上記（ａ）～（ｃ）の３種類に分類する指向特性パターン分類部と、前記指向性型に分類されたパターンを適用して、音源方向に対する感度が相対的に高いという指向特性を表わしている指向性パターンを生成する指向性パターン生成部と、前記死角型に分類されたパターンを適用して、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成部とを有する。

　さらに、本開示の音信号処理装置の一実施態様において、前記指向特性パターン分類部は、前記指向特性パターンの分類処理に際して、指向性型に属する指向特性パターンから計算される代表指向性パターンと、死角型に属する指向特性パターンから計算される代表死角パターンと、をそれぞれ算出し、算出した代表指向性パターンと代表死角パターンとの間の距離尺度を最大にする分類処理を実行する。

　さらに、本開示の音信号処理装置の一実施態様において、指向特性パターン分類部は、前記代表指向性パターンを、指向性型に属するパターンの総和として算出し、前記代表死角パターンを、死角型に属するパターンの総和として算出する。

　さらに、本開示の音信号処理装置の一実施態様において、前記距離尺度は、代表指向性パターンと代表死角パターンとの間のユークリッド距離である。

　さらに、本開示の音信号処理装置の一実施態様において、前記指向性パターン生成部は、前記指向性型に分類されたパターンの平均を指向性パターンとして生成し、前記死角パターン生成部は、前記死角型に分類されたパターンの平均を死角パターンとして生成する。

　さらに、本開示の音信号処理装置の一実施態様において、前記方向点検出部は、時間周波数領域の観測信号から共分散行列を計算し、共分散行列に対して固有値分解を適用して複数の固有ベクトルを算出し、算出した複数の固有ベクトルに対して、各方向に対応したステアリングベクトルを作用させ、方向と感度との関係を表わす複数の指向特性パターンを生成する構成であり、前記複数の指向特性パターンの生成処理において、各周波数帯域における各方向のゲインの２乗を算出し、複数の周波数帯域間で２乗ゲインを平均または総和して平均２乗ゲインまたは総和２乗ゲインを算出し、平均２乗ゲインまたは総和２乗ゲインの対数化処理、および最大値を０に調整する処理を行なって前記複数の指向特性パターンを生成する。

　さらに、本開示の音信号処理装置の一実施態様において、前記動的閾値計算部は、前記平均死角パターンに対して正の定数倍または正の定数の減算の少なくともいずれかの演算処理を行なうことで、前記平均死角パターンよりやや低い値に設定された動的閾値を算出する。

　さらに、本開示の音信号処理装置の一実施態様において、前記音信号処理装置は、入力音信号の周期性に基づいて、入力音信号が音声らしいか否かを判定する音声らしさ判定部を有し、前記死角パターン平均部は、前記音声らしさ判定部の判定結果に基づいて、音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する。

　さらに、本開示の音信号処理装置の一実施態様において、前記死角パターン平均部は、前記音声らしさ判定部が音声らしくないと判定した時刻における死角パターンと、その時点で既に計算されていた平均死角パターンとの間で忘却係数を用いた重みつき平均により、平均死角パターンの更新を行う。

　さらに、本開示の第２の側面は、
　音信号処理装置において実行する音信号処理方法であり、
　方向点検出部が、音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出する方向点検出ステップと、
　方向トラッキング部が、前記方向点を複数ブロック間で接続して区間の検出を行う方向トラッキングステップを実行し、
　前記方向点検出ステップは、
　方向と感度との対応関係のプロットであり、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成処理と、
　前記死角パターンの極小点を音源方向として検出する方向点検出処理と、
　音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する死角パターン平均処理と、
　前記死角パターンから音源方向対応の極小点検出に適用する閾値として、前記平均死角パターンよりやや低い値に設定された動的閾値を算出する動的閾値計算処理を実行し、
　前記方向点検出処理は、
　前記死角パターンから前記動的閾値以下の極小点を選択し、選択した極小点に対応する方向を音源方向として検出する音信号処理方法にある。

　さらに、本開示の第３の側面は、
　音信号処理装置において音信号処理を実行させるプログラムであり、
　方向点検出部に、音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出させる方向点検出ステップと、
　方向トラッキング部に、前記方向点を複数ブロック間で接続して区間の検出を行わせる方向トラッキングステップを実行させ、
　前記方向点検出ステップにおいては、
　方向と感度との対応関係のプロットであり、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成処理と、
　前記死角パターンの極小点を音源方向として検出する方向点検出処理と、
　音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する死角パターン平均処理と、
　前記死角パターンから音源方向対応の極小点検出に適用する閾値として、前記平均死角パターンよりやや低いに設定された動的閾値を算出する動的閾値計算処理を実行させ、
　前記方向点検出処理において、
　前記死角パターンから前記動的閾値以下の極小点を選択し、選択した極小点に対応する方向を音源方向として検出させるプログラムにある。

　なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な画像処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

　本開示のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　本開示の一実施例の構成によれば、複数の音が混在した音信号から高精度に音声区間を判定する装置、方法が実現される。
　具体的には、音信号の音源方向を示す方向点を時間方向に接続し、音声区間を検出する構成において、音源方向に対する指向特性に応じたパターン分類を行い、分類結果から指向性パターン、死角パターンを生成する。また、音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する。さらに、死角パターンからの音源方向対応の極小点検出に適用する閾値として、平均死角パターンよりやや低いに設定された閾値を算出し、閾値以下の極小点を、音源方向対応点と判定する。
　上記構成により、複数の音が混在した音信号から高精度に音声区間を判定する装置、方法が実現される。
　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

音源方向推定を伴う音声区間検出処理の一例について説明する図である。「指向性フィルタ」や「死角フィルタ」を生成するための観測信号の収録状況の一例を示す図である。死角パターンと指向性パターンの例について説明する図である。真の谷と付随的な谷の例について説明する図である。方向点が２個検出された場合の時間方向トラッキングによる２個の区間検出例について説明する図である。本開示の音信号処理装置の実行する指向特性パターンの分類処理を伴う指向性パターンと死角パターンの生成処理例について説明する図である。指向特性パターンに対応して設定する動的閾値の例について説明する図である。同位相混入成分が存在するときの無音時の死角パターンと動的閾値の対応例について説明する図である。本開示の音信号処理装置の構成例について説明する図である。方向点検出部の詳細について説明する図である。ステアリングベクトルの生成方法について説明する図である。方向点トラッキング部の詳細について説明する図である。本開示の音信号処理装置の実行する処理の全体シーケンスについて説明するフローチャートを示す図である。短時間フーリエ変換（ＳＴＦＴ）処理の詳細について説明する図である。図１３に示すフロー中のステップＳ１０１において実行する初期化処理の詳細について説明するフローチャートを示す図である。図１５に示す初期化処理の詳細フロー中のステップＳ２０４において実行する分類行列等の生成処理の詳細について説明するフローチャートを示す図である。図１３に示す全体処理フロー中のステップＳ１０８において実行する方向点検出処理の詳細シーケンスについて説明するフローチャートを示す図である。図１３に示す全体処理フロー中のステップＳ１０９の方向点トラッキング処理の詳細について説明するフローチャートを示す図である。図１８に示す方向点トラッキング処理フロー中のステップＳ５０１で実行する区間の延長・確定処理の詳細シーケンスについて説明するフローチャートを示す図である。図１９のフローのステップＳ６０７の「区間の出力・棄却」処理の詳細シーケンスについて説明するフローチャートを示す図である。図１８に示す方向点トラッキング処理フロー中のステップＳ５０２で実行する新規区間作成処理の詳細シーケンスについて説明するフローチャートを示す図である。

　以下、図面を参照しながら本開示の音信号処理装置、および音信号処理方法、並びにプログラムの詳細について説明する。

　本開示の構成および処理の説明の前に、明細書中に記載の表記について説明する。
　本明細書で使用している表記は、以下の意味を持つ。
　（１）"＿"は、下つき文字を表わす。
　（例）φ＿ω・・・ωは下つき文字。
　ただし、チャンネル番号を表わす"＿ｋ"は頻出するので、"＿"を省略して書く。
　（例）Ｙ＿ｋ（ｔ）→Ｙｋ（ｔ）。
　下つき文字が複数ある場合は、｛・・・｝で囲む。（例）θ＿｛ｉ'｝・・・ｉ'は下つき文字である。
　（２）"＾"は、上つき文字を表わす。
　（例１）Ｗ＾Ｈ：Ｗのエルミート転置（＝複素転置）行列である。
　（例２）Ｙｋ（ｔ）＾Ｈ：Ｙｋ（ｔ）のエルミート転置ベクトル（共役複素数＆転置）である。
　（例３）Σ＾（－１）：分散共分散行列Σの逆行列。ｉｎｖ（Σ）も同じ式を表わす。
　（３）ｃｏｎｊ（Ｘ）は、複素数Ｘの共役複素数を表わす。
　（４）ｂａｒ（ｘ）は、ｘに上線（"￣"）をつけることを表わす。
　（５）値の代入は、"＝"または"←"で表わす。特に、両辺で等号が成立しないような操作（例えば"ｘ←ｘ＋１"）については、必ず"←"で表わしている。

　次に、本明細書における用語の使い分けについて説明する。
　（１）「音（信号）」と「音声（信号）」とを使い分けている。「音」はｓｏｕｎｄやａｕｄｉｏなどの一般的な意味で使い、「音声」はｖｏｉｃｅやｓｐｅｅｃｈを表わす用語として限定的に使用している。
　（２）「指向性」と「指向特性」とを、以下のように使い分けている。
　　指向性：死角の反対の意味であり、特定の方向に対する感度が相対的に高いことを表わす。
　　指向特性：方向と感度との関係を表わすプロットであり、音源方向に指向性を形成するのも、死角を形成するのも、どちらも指向特性である。

　以下に示す項目に従って本開示の構成と処理について詳細について説明する。
　１．音声区間検出処理の概要について
　２．全マイクロホンに同位相で混入する成分の影響について
　３．高精度な音声区間検出を実現する構成について
　３－１．指向特性パターンの分類処理を適用した音声区間検出処理
　３－２．「音声らしさ」に基づく音声区間検出を用いた閾値の動的な変更処理を適用した音声区間検出処理
　４．本開示の音信号処理装置の構成例と処理例について
　５．音信号処理装置の実行する処理のシーケンスについて
　６．本開示の音信号処理装置の実行する処理による効果について
　７．本開示の構成のまとめ

　　［１．音声区間検出処理の概要について］
　まず、音声区間検出処理の概要について、以下の２つの既存方式の処理について説明する。
　前述したように、音声区間検出（ＳＤ：Ｓｐｅｅｃｈ　Ｄｅｔｅｃｔｉｏｎ）とは、連続入力する音信号の中から、人が発話している区間（セグメント）を切り出す処理である。Ｖｏｉｃｅ　Ａｃｔｉｖｉｔｙ　Ｄｅｔｅｃｔｉｏｎ（ＶＡＤ）とも呼ばれる。

　音声区間検出は、音声認識や音源抽出などと共に用いられることが多く、音声認識や音源抽出の精度を高めるためには、音声区間検出（区間検出）を高精度に行うことが重要となる。
　音声区間検出には精度向上のための様々な工夫がなされている。ここでは使用するマイクロホンの個数に注目し、以下の２つに分類する。
　（１）単一のマイクロホンを用いる方式
　　入力信号から「音声らしさ」を表わす特徴量を抽出し、その値に基づいて区間検出を行なう。特許文献４（特許４１８２４４４号）などに記載された方式である。
　（２）複数のマイクロホンを用いる方式
　　音源の方向を用いて区間検出を行なう。特許文献１（特開２０１２－１５０２３７号公報）、特許文献２（特許４２８２７０４号）、特許文献３（特開２０１０－１２１９７５号公報）などに記載された方式である。

　以下では、上記「（２）複数のマイクロホンを用いる方式」の例として、特許文献１（特開２０１２－１５０２３７号公報）に記載された音声区間検出処理について説明する。

　音源方向に基づく音声区間検出の基本的な考え方は、次の通りである。
　同一の音源から発生している音は、マイクロホンから見て同一の方向から到来する。そのため、所定の間隔で音源到来方向（ＤＯＡ：Ｄｉｒｅｃｔｉｏｎ　Ｏｆ　Ａｒｒｉｖａｌ）を推定し、ほぼ同一の方向が出力され続けている区間を求めれば、その音源がアクティブである（その音源から音が鳴っている）区間が分かる。なお、以下において、音源到来方向（ＤＯＡ）は単に「音源方向」）と記載する。

　複数の音源に対応した音源方向推定方法を用いれば、複数の音源が同時にアクティブになっていても（例えば、複数人の音声が重複していても）、それぞれについて区間を求めることができる。例えば、一人の話者が発話を終了する直前にもう一人の話者が発話を始めた場合、「音声らしさ」を用いる方式では両発話が繋がった長い区間を音声区間として検出してしまうが、方向推定を用いる方式ではそれぞれの発話の区間を検出することができる。

　音源方向推定を伴う音声区間検出処理の一例について、図１を参照して説明する。
　図１（ａ）は、入力信号（または「観測信号」とも呼ぶ）のイメージであり、話者が二人いてそれぞれ、
　"Ｈｅｌｌｏ"，
　"Ｇｏｏｄ　ｂｙ"
　上記の発話を行ったことを表わしている。図の左から右に時間経過を示す時間軸を示している。

　図１（ｂ）に示すように、この入力信号を時間方向に所定の長さのブロックに分割する。図１（ｂ）に示すブロック１１は、分割されたブロックの１つ分を表わしている。ブロックの長さは、通常の発話の長さと比べて十分短い値とする。例えば０．０１～０．１秒程度に設定する。

　それぞれのブロックに対して、音源方向の推定を行なう。
　図１（ｃ）はその結果であり、横軸が時間、縦軸が方向を表わしている。方向とは、例えば、音声入力を行うマイクに対する音源方向の角度θ（図２参照）である。
　図１（ｃ）に示す点は、方向点１２である。方向点は各ブロック内で求まった音源方向を示している。
　なお、以降では、音源方向に対応した点を「方向点」と呼ぶ。複数音源に対応した方向推定方式を用いれば、各ブロックは複数の方向点を持ち得る。

　次に、ブロック間で、ほぼ同一の方向の方向点を接続していく。この処理をトラッキングと呼ぶ。
　図１（ｄ）はトラッキングの結果、すなわち接続された方向点を示している。
　図１（ｄ）に示すライン１５，１６は、各音源がアクティブである区間、すなわち音声発話の区間を表わしている。

　それぞれのブロックにおいて音源方向を求めるための手法として、特許文献１（特開２０１２－１５０２３７号公報）ではＭＵＳＩＣ（ＭＵｌｔｉｐｌｅ　ＳＩｇｎａｌ　Ｃｌａｓｓｉｆｉｃａｔｉｏｎ）法の改良版を用いている。
　通常のＭＵＳＩＣ法では、音源方向に死角（ｎｕｌｌ　ｂｅａｍ）を向けた空間フィルタ（死角フィルタ）を生成し、その死角の方向を音源方向と見なしている。
　しかし、特許文献１（特開２０１２－１５０２３７号公報）では、死角フィルタの他に、音源の方向に感度の高い指向性を向けたフィルタ（指向性フィルタ）も生成し、死角の方向と高感度指向性の方向との両方を用いて音源方向を推定する手法を開示している。

　すなわち、音源方向の推定処理に適用するフィルタとして、
　音源方向に指向性を向けた空間フィルタである「指向性フィルタ」、
　音源方向に死角を向けた空間フィルタである「死角フィルタ」、
　この２つのフィルタを適用した処理を開示したのが特許文献１（特開２０１２－１５０２３７号公報）である。

　図２は、「指向性フィルタ」や「死角フィルタ」を生成するための観測信号の収録状況の一例を示す図である。４本のマイクロホン２２と２つの音源（どちらも人の音声）とが存在している。
　音源方向は、マイクロホン２２の配列（アレイ）の重心２１から見た到来方向を示す角度（θ）であり、マイクロホンの配列に平行な設置方向２３に対して垂直方向２４を０°として、反時計回りを正（＋）、時計まわりを負（－）とする。

　図２に示す４本のマイクロホン２２の各々によって収録される音は、その配置位置によって到達時刻に差があるため、異なるマイクロホンで収録された音信号の間には位相差がある。この音信号を解析することで、音源方向に指向性を向けた空間フィルタである「指向性フィルタ」や、音源方向に死角を向けた空間フィルタである「死角フィルタ」を生成することができる。

　図３に示す死角パターン３１は、特定の音源方向に死角を向けた空間フィルタの指向特性、すなわち、方向（横軸）とゲイン（縦軸）との関係をプロットしたものである。縦軸は対数とする。指向特性プロットの生成方法は後述する。
　音源に死角を向けた空間フィルタを「死角フィルタ」と呼び、そのフィルタの指向特性のプロットを「死角パターン」と呼ぶ。

　図３に示す死角パターン３１においてゲインが急激に落ち込んでいる箇所は、感度が相対的に低い方向、すなわち死角を表わしている。この図では方向＝－２４°付近３１ａと＋１２°付近３１ｂに深い「谷」が存在しており、これらは図２の音源１，２５と音源２，２６にそれぞれ対応した死角である。
　すなわち、極小点３１ａ，３１ｂは実際の音源対応の真の極小点である。

　音源１の方向θ１は約－２４°、音源２の方向θ２は約＋１２°である。言い換えると、この死角パターンに対応したブロックは、－２４°と＋１２°に方向点を持つ。

　なお、ＭＵＳＩＣ法ではゲインの対数の代わりにゲインの逆数を用いることもある。例えば特許文献５（特開２００８－１７５７３３号）は逆数を用いた方法を開示している。その場合、死角はグラフ上の鋭いピークとして表わされる。本開示では、後述の指向性パターンとの比較のため、ゲインの対数を用いる方式で説明する。また、ゲインそのものやゲインの２乗などを用いることも可能である。以降では、ゲインまたはそれに相当する量を「感度」と表現する。

　図３に示す指向性パターン３２は同じブロックにおいて、音源方向に指向性を向けた空間フィルタの指向特性である。すなわち、音源方向の感度が相対的に高いフィルタである。
　音源方向に指向性を向けた空間フィルタを「指向性フィルタ」、その指向特性のプロットを「指向性パターン」と呼ぶ。

　従来のＭＵＳＩＣ法（特許文献５（特開２００８－１７５７３３号）以前に開示された方式）は死角パターンの極小（感度が相対的に低い方向）の位置から音源方向を推定していたが、特許文献５（特開２００８－１７５７３３号）では、死角パターンの極小（ｌｏｃａｌ　ｍｉｎｉｍｕｍ）と指向性パターンの極大（感度が相対的に高い方向，ｌｏｃａｌ　ｍａｘｉｍｕｍ）の位置も併用して音源方向を推定する方式を開示している。

　例えば図３に示す死角パターン３１においては、極小点３１ａ，３１ｂは音源方向に対応した真の極小点であるが、死角パターン３１は、これら以外にも、極小点３１ｃ～３１ｆといった、実際の音源方向とは無関係の極小点が存在する。

　これら実際の音源方向とは無関係の極小点を排除するために、指向性パターン３２から極大点を検出する。図３に示す極大点３２ｐ～３２ｓである。
　死角パターン３１の極小点と指向性パターン３２の極大点とが方向において近接している箇所のみを実際の音源方向を示す方向点として選択する。
　その結果、死角パターン３１の極小点３１ａ、３１ｂ，３１ｄの３か所のみを真の方向点として選択することができる。

　以降の説明では、死角パターンや指向性パターンにおける極小位置を「谷」、極大位置を「山」とも表現する。また、極大、極小、方向点などが実在の音源の方向に対応していることを「真の」と表現し、対応していない（その方向には音源は存在しない）ことを「偽の」と表現する。また、非音声の音源が鳴っている時間と方向が音声区間として検出された場合も、「偽の区間」と表現する。

　なお、図３に示す死角パターン３１の極小点３１ｄに対応した方向点は誤検出であるが、この誤検出がこのブロックのみで発生するのであれば、後続のトラッキングによって棄却されるため、問題とはならない。

　さらに、特許文献１（特開２０１２－１５０２３７号公報）では以下の処理も行なっている。
　（１）死角パターンに閾値（図３に示す閾値Ｔ）を設定し、この閾値Ｔよりも浅い谷は棄却する。
　（２）ｎ個のマイクロホンで形成される死角は最大でｎ－１個なので、方向点の個数は最大でｎ－１個とする。

　死角パターンと指向性パターンは共に、細かな凹凸が存在するため、死角パターンの谷の方向と指向性パターンの山の方向とがほぼ一致するという条件だけでは、両者が偶然に一致してしまうこともあり、このような場合に偽の方向点を真の方向点であると判定する誤検出が発生する。しかし、上記（１），（２）の処理を追加することで、誤検出を減らすことができる。

　以下、特許文献１（特開２０１２－１５０２３７号公報）に記載の音源方向推定手法を含む従来の音源方向法の推定手法の問題点として、以下の２点について説明する。
　（１）死角パターン上の「付随的な谷」の影響
　（２）全マイクロホンに同位相で混入する成分の影響

　まず、（１）死角パターン上の「付随的な谷」の影響について説明する。
　問題点の一つは、死角パターン上の偽の谷による影響である。図３に示したように、死角パターン上には、音源とは対応しない偽の谷が存在する場合がある。図３に示す極小点３１ｃ～３１ｆである。
　これらの偽の谷は、一つのブロックで一時的に出現するだけであれば、方向点のトラッキングにおいて棄却されるため、問題にはならないが、複数のブロックに渡って連続的に出現すると、区間の誤検出の原因となる。

　偽の谷の中には、真の深い谷に付随して、真の音源位置とは別の方向に出現する場合がある。以降ではこれを付随的な谷と呼ぶ。付随的な谷の原因の一つは空間エリアスである。空間エリアスとは、ある程度高い周波数において、所望の方向以外にも死角や指向性が生じる現象のことであり、空間エリアスが発生する周波数の下限はマイクロホンの間隔に依存する。空間エリアスに由来する偽の谷は、周波数ビンごとに方向が異なる（分散している）ため、複数の周波数ビンの間で指向特性パターンを平均することで影響を小さくすることはできるが、完全には消えずに残ることがある。しかもその場合は、真の音源位置に依存して一定の位置に出現する。さらに、付随的な谷の中には原因が明確には特定できないものも存在するため、空間エリアスの対策をしても、付随的な谷の問題は残る。

　真の谷と付随的な谷の例について、図４を参照して説明する。
　死角パターン４１は、真の音源方向（θ＿ｔｒｕｅ）と、偽の音源方向（θ＿ｆａｌｓｅ）に谷がある。それぞれ真の谷４２と、偽の谷４３である。
　音源は真の音源方向（θ＿ｔｒｕｅ）のみに存在する。すなわち、真の谷４２の示す方向に音源が存在し、偽の谷４３の示す方向には音源が存在しない。
　図４に示す偽の谷４３は付随的な谷である。すなわち、真の音源方向（θ＿ｔｒｕｅ）に真の谷４２が形成されることにより、それに連動して偽の音源方向（θ＿ｆａｌｓｅ）に音源が存在しないにもかかわらず谷が形成されている。
　このような付随的な谷が発生すると、偽の音源方向（θ＿ｆａｌｓｅ）からの音声発話が検出されなくなる現象が発生し得ることを以降で説明する。

　真の音源方向（θ＿ｔｒｕｅ）に存在する音源は、非音声かつ連続的に鳴り続けているものであるとする。そのような音源の例として、プロジェクターのファンの音や、音楽の鳴っているスピーカーなどがある。このような音源が鳴り続ける限り、音源は１個にも関わらず谷は２個形成される。

　死角パターン４１から、真の音源方向を選択するためには、例えば先に図３を参照して説明したように、感度に対しての閾値を用いることが有効である。
　しかし、この閾値が、死角パターン４１の付随的な谷である偽の谷４３よりも浅い位置に設定されていた場合、例えば閾値ａの位置に設定されていた場合は、真の谷４２と偽の谷４３のいずれもが音源に対応した谷として扱われる。

　仮に、偽の谷４３が音源に対応した谷として扱われても、指向性パターンにおいてその付近（θ＿ｆａｌｓｅの付近）に山が存在しないのであれば、θ＿ｆａｌｓｅが音源方向として検出されるのは防止できる。しかし現実には、指向性パターンにおいてもθ＿ｆａｌｓｅの付近に偽の山が存在することもあり、その場合は、θ＿ｆａｌｓｅにおいて偽の方向点が検出されてしまう。

　このように、方向点が２個検出された場合、これら２つの方向を時間方向にトラッキングすると、２個の区間が検出される。
　すなわち、図５に示す通り、真の音源方向（θ＿ｔｒｕｅ）に対応した方向点５１と偽の音源方向（θ＿ｆａｌｓｅ）に対応した方向点５２がそれぞれ時間方向で連結され、区間５３と区間５４という、異なる方向を持つ２つの区間として検出される。この現象を二重検出と呼ぶ。

　非音声かつ鳴りっぱなしの音源に対する二重検出自体は、区間の長さに上限を設ける等の工夫により、棄却することができる。すなわち、ポーズ（無音）なしで鳴り続ける音源は音声ではない（少なくとも、音声認識の対象となる音声発話とは異なる）と考えられるため、トラッキング中の区間の長さが上限値（例えば５秒）を超えた時点でその区間を棄却すれば、音源（ただし非音声）に対応した区間である区間５３も、偽の区間である区間５４も、共に棄却される。

　しかし、偽の区間である区間５４を棄却することは、副作用を伴う。それは、偽の音源方向（θ＿ｆａｌｓｅ）から本当に音声を発話しても棄却されてしまうという現象である。例えば、偽の音源方向（θ＿ｆａｌｓｅ）から、時間範囲５６で表わされる時間において人が音声を発話したとする。時間範囲５６の外側ではθ＿ｆａｌｓｅは偽の音源方向であるのに対し、時間範囲５６の内側ではθ＿ｆａｌｓｅは音源に対応した真の音源方向である。

　この場合、もし図４に示す死角パターン４１に非音声に起因する付随的な谷である偽の谷４３が形成されていないのであれば、図５に示す区間５４は検出されないため、時間範囲５６の内側では、人の発話音声に起因する区間５５が検出されるはずである。

　しかし、図４に示す死角パターン４１に非音声に起因する付随的な谷である偽の谷４３が形成されている場合は、図５に示す時間範囲５６の内側では人の発話音声に起因する区間５５は区間５４に溶け込み、一体化してしまう。この結果、人の発話音声に由来する音声区間を正確に検出することができなくなる。

　区間の溶け込み現象には、いくつかのタイプがある。上述のように、空間エリアシングに由来する偽の谷と、１人の音声発話に由来する真の谷とがほぼ同じ位置に発ししたために、両者が合成されて一つの深い谷が形成され、結果としてθ＿ｆａｌｓｅの方向においては方向点が1個だけ検出される場合もあれば、他の発生過程としては、θ＿ｆａｌｓｅの付近において、偽の谷（空間エリアシング等に由来）と真の谷（音声発話に由来）とが形成されるために方向点も2個検出されるものの、その後のトラッキングによって近接方向点を連結したために１個の区間としてまとめられてしまう場合もある。

　いずれの場合でも、トラッキングの結果においては、図５に示す区間５５そのものは検出されず、区間５４と区間５３のみが検出結果として出力されることになる。そして前述の長さの制約によって両区間が棄却されると、音声発話に対応した区間である５５は、たとえそれ自体は長さ制約を満たしていても、全く検出されなかったように見えてしまう。

　なお、方向点をトラッキングする方式の音声区間検出に加え、特許文献４（特許４１８２４４４号）に記載された「音声らしさ」に基づく音声区間検出方法を併用することにより、図５に示す区間５５を、区間５４と区別して検出することが可能となる。しかし、この手法を適用すると別の副作用が発生する。以下、この副作用について説明する。

　先に説明したように、図５において、方向点５１および方向点５２は所定の長さの入力信号のブロックに対応している。すなわち、図１を参照して説明した、時間方向に区切ったブロックに対応している。
　各ブロック内の入力信号に対して「音声らしさ」の判定を行ない、「音声らしい」と判定されたブロックについてのみ方向点を残すようにすると、理想的には、非音声の音源が鳴り続けていても、図５に示す時間範囲５６の外側のブロックにおいては方向点が棄却されるため、区間は検出されなくなる。

　なお、図５に示す時間範囲５６の内側では入力信号は非音声と音声との混合であるが、その入力信号は音声がある程度の割合で混合されている限りは周期性の性質を保持しているため、特許文献４（特許４１８２４４４号）に記載された方法を適用することで、時間範囲５６内の入力信号は「音声らしい」と判定される。そのため、区間５５は区間５４に溶け込むことなく正しく検出される。

　しかしその一方、時間範囲５６の内側では、真の音源方向（θ＿ｔｒｕｅ）についても方向点が棄却されずに残るため、区間５１の一部である区間５７も発話区間として検出される。区間５７の長さは区間５５と同一であるため、区間５５が前述の長さの制約を満たすのであれば、区間５７も同様に制約を満たす。したがって、真の音源方向（θ＿ｔｒｕｅ）からは誰も発話していないにもかかわらず、その方向に対応した偽の区間が検出されてしまう。

　さらに、「音声らしさ」の判定は完璧ではなく、間違いを含む可能性もあるため、単純に「音声らしい」ブロックの方向点のみを残すようにすると、間違いの影響を受けやすくなってしまう。例えば、図５に示す時間範囲５６の内側において、発話中にもかかわらず「音声らしくない」と判定されるブロックが一定個数以上続くと、１回の発話が２つの区間に分断されてしまう。なお、図５に示す例は二重検出の例でもあるので、この分断現象によって１回の発話が４個の異なる区間として検出されてしまうことになる。

　一方、時間範囲５６の外側において「音声らしい」と判定されるブロックが一定個数以上続くと、発話がないにもかかわらず音声区間が検出され、しかも二重に検出されてしまう場合も想定される。例えば音楽は周期性を持つため、妨害音が音楽である場合は、特許文献４（特許４１８２４４４号）に記載された周期性に基づく「音声らしさ」の判定方式を用いると、音楽のみが鳴っているタイミングにおいても「音声らしい」と誤判定される場合があり、結果としてこのような現象が発生する可能性がある。

　なお、一般に付随的な谷は真の谷よりも浅いため、死角パターンの閾値を適切に設定できれば、付随的な谷に由来する問題は、原理上は回避可能である。例えば、時間範囲５６の内側において偽の音源方向（θ＿ｆａｌｓｅ）から音声発話があったために、図４に示す死角パターン４１が死角パターン４６のように変化したとする。死角パターン４６においても偽の音源方向（θ＿ｆａｌｓｅ）に谷４７が存在するが、この谷４７は発話者という音源に対応した真の谷であり、付随的な谷である偽の谷４３よりも深い。

　もし、死角パターンの閾値が、図４に示す閾値ｂのように、死角パターン４１の偽の谷４３と死角パターン４６の谷４７との中間の高さに設定されているのであれば、偽の音源方向（θ＿ｆａｌｓｅ）においては、死角パターン４１の偽の谷４３は検出せずに死角パターン４６の谷４７は検出するということが可能となる。すなわち、閾値ｂの設定により、音源が本当に存在する場合のみ方向点が検出されるようになるため、図５で示した発話の非検出や二重検出の問題は発生しない。

　しかし、付随的な谷の深さは音源の方向や音源の状態（音量など）によっても変化するため、適切な高さの閾値を事前に設定することは現実には困難である。
　また、閾値の決定には他の要因も絡むため、付随的な谷の影響を防ぐことを主目的にして閾値を決定すると、真の音源方向（θ＿ｔｒｕｅ）とも偽の音源方向（θ＿ｆａｌｓｅ）とも異なる方向からの発話が検出されにくくなるという副作用が発生する可能性もある。すなわち、深い閾値によって方向点が検出されにくくなるため、検出された区間は実際の発話よりも短かったり、複数個の区間に分断されて検出されたりする可能性もある。

　付随的な谷に関する問題点をまとめると、以下の通りである。
　・閾値が浅く、さらに区間長についての上限を設定していない場合は、妨害音が鳴り続けている限り、音声発話がないにも関わらず、妨害音の方向に音声区間が検出され、さらに、付随的な谷の方向にも音声区間が検出される。それを二重検出と呼ぶ。
　・区間長についての上限を設定すると、妨害音の方向の音声区間は検出されなくなるが、その副作用として、付随的な谷の方向から発話しても棄却されてしまう。
　・「音声らしさ」に基づく音声区間検出と併用すると、それが理想的に動作すれば付随的な谷の方向からの発話は検出されるようになるが、それでも二重検出の問題は残る。また、「音声らしさ」に基づく音声区間検出に誤りがある場合は、その影響を受けやすい。
　・死角パターンの閾値を適切に調整できれば問題は解決するが、適切な値は環境等によって異なるため、事前に設定された固定の値では解決困難である。

　　［２．全マイクロホンに同位相で混入する成分の影響について］
　上述した「付随的な谷」とよく似た現象として、例えば図２に示すマイクロホンアレイ２２を構成する全マイクロホンに同位相で混入する成分の影響がある。そのような成分としては、主に以下の２種類がある。
　　（１）筐体の振動をマイクロホンが拾った場合
　　（２）電気的なノイズ

　例えば、全マイクロホンが同一の筐体内に設置されているシステムにおいて、その筐体が振動すると、各マイクロホンはその振動を音として拾ってしまうことがある。一般に、筐体を伝わる振動は空中を伝搬する音波よりも高速であるため、振動は全マイクロホンにおいてほぼ同位相の音信号として観測される。また、マイクロホンが取得したアナログの音声信号がＡＤコンバータによってデジタル信号に変換されるまでの間に電気的なノイズが混入すると、これも全マイクロホンにおいてほぼ同位相の音信号として観測される。以下では、これらの信号を「同位相混入成分」と呼ぶ。

　同位相混入成分は、ＳＮ比としては小さくても（すなわち、入力信号を耳で聞いたときに目的音と比較して小さく聞こえたとしても）、音源方向推定に基づく音声区間検出に影響を与える場合がある。それは、音源の方向によってはその音源からの音が全マイクロホンに同時に到達する場合があり、それと同位相混入成分とが位相の上では区別がつかなくなるからである。

　例えば、図２に示す構成において、θ＝０の方向２４に音源が存在すると仮定する。音源からマイクロホンアレイ重心１までの距離がマイクロホン間隔と比べて十分大きいのであれば、音源から放出された音波はマイクロホンアレイに到達した時点では平面波であると見なせるため、θ＝０の音源からの音は各マイクロホンアレイに同時に到着すると考えられる。

　言い換えると、θ＝０の方向に存在する音源と、同位相混入成分とは、マイクロホン間の位相差という点では同じである。従って、同位相混入成分があると、死角パターンにおいて、θ＝０に位置に偽の谷が形成され、これが付随的な谷とよく似た問題を引き起こす。

　すなわち、発話がない状態でもθ＝０の方向に長い偽の区間が検出される。それを棄却するために区間長に上限を設定すると、θ＝０の方向から音声を発話しても棄却されてしまう。仮に、死角パターンの閾値を適切に設定できれば、θ＝０の方向からの発話は検出されるが、そのような閾値を事前に設定するのは困難である。特に、付随的な谷に由来する問題も発生しているときに、両方の問題を同時に解決する適切な閾値を事前に求めることは、非常に困難である。

　なお、マイクロホンの配置を工夫することで、同位相混入成分の問題を回避することは可能である。例えば、マイクロホンを３次元的に配置すれば、どの方向からの音も時間差つきで各マイクロホンに到達するため、同位相混入成分と区別がつく。つまり、死角パターンのθ＝０の位置に偽の死角が発生しないため、θ＝０からの発話が棄却されるといった現象は回避される。しかしそれは、マイクロホンの配置に制約が発生することも意味するため、可能であれば別の方法で問題を回避することが望ましい。

　　［３．高精度な音声区間検出を実現する構成について］
　上述したように、音声区間検出処理において、区間検出対象とならない音声でない非音声が発生する場合や、音源方向が特定の方向（例えば図２に示すθ＝０の方向）からの音声がある場合に、誤った処理を行なってしまうことがある。

　これらの問題を解決する音声区間検出処理について、以下説明する。
　以下の２つの方法を新たに導入した処理方法について説明する。
　　１．指向特性パターンの分類処理を適用した音声区間検出処理
　　２．「音声らしさ」に基づく音声区間検出を用いた閾値の動的な変更処理を適用した音声区間検出処理
　以下、それぞれについて説明する。

　　［３－１．指向特性パターンの分類処理を適用した音声区間検出処理］
　まず、指向特性パターンの分類処理を適用した音声区間検出処理について説明する。
　先に問題点として説明した「付随的な谷」や「同位相混入成分」は、いずれも指向特性パターンにおいて偽の谷や山があることで発生する。
　これらは指向特性パターン上の比較的細かな凹凸の一つであるため、細かな凹凸の少ない指向特性パターンを生成することができれば、問題の発生頻度を下げることができる。

　なお、以下の説明において、「指向特性パターン」とは、
　ａ．音源方向を高感度方向とした「指向性パターン」、
　ｂ，音源方向を低感度方向とした「死角パターン」
　これらの様々な異なる指向特性を有するパターンを含む様々な指向特性を有するパターン全般を意味するものとして説明する。

　「指向性パターン」や「死角パターン」等の様々な指向特性を持つ「指向特性パターン」上から細かな凹凸を減らすためには、ほぼ同一の性質を持つ指向特性パターンをできる限り多く生成し、それら複数の指向特性パターンの平均等を算出すればよい。生成する指向特性パターンを増やし、それらの指向特性パターンの間で平均を計算する手法としては、例えば以下の２つの方法がある。
　　ａ）複数の（あるいはほぼ全ての）周波数ビンの間で死角パターン、指向性パターンをそれぞれ平均化する。
　　ｂ）一つの周波数ビンにおいて、複数の死角パターン、指向性パターンをそれぞれ平均化する。

　上記の手法ｂ）について補足する。ＭＵＳＩＣ法において、各周波数ビンで観測信号共分散行列の固有値分解を行ない、固有ベクトルごとに指向特性パターンを生成すると、理想的には、ｎ個の指向特性パターンのうちのｍ個は音源方向に指向性が形成された特性を持ち、残りのｎ－ｍ個は音源方向に死角が形成された特性を持つ。なお、ｎはマイクロホン数、ｍは音源数である。

　従って、指向特性パターンを適切に分類することができれば、それぞれのグループにおいて平均をとることで、凹凸の少ない指向特性パターンを生成することができる。
　指向特性の分類自体は従来も行なわれているが、その方法は、いったん音源数ｍを推定するというものであった。この手法については、例えば特許文献３（特開２０１０－１２１９７５号公報）に記載がある。

　しかし、実環境においては音源数の推定自体が難しい問題である。そこで本開示においては、指向特性パターンを類似性に基づいて直接分類する方法を新たに導入する。その方法について、以下で説明する。

　指向特性パターンは、以下の３つのタイプに分類されるものとする。そして、死角パターンと指向性パターンは、それぞれ死角型と指向性型に属するパターンの平均とする。
　　（タイプ１）死角型（１個以上）
　　（タイプ２）指向性型（１個以上）
　　（タイプ３）中立型（０個以上）

　死角型は音源方向に死角を向けた指向特性を持つタイプ、
　指向性型は音源方向に指向性を向けたタイプ、
　中立型はどちらでもないタイプである。

　中立型を用意する理由は、実環境の観測信号から生成された指向特性パターンの中にはあまり明確な指向性や死角を持たないものもあり、そのようなパターンが死角型か指向性型に無理に分類されることによる弊害を防ぐためである。
　ただし、何の制約もかけずに上記の分類を行なうと、分類は３＾ｎ通りほど存在し、しかもそのような分類を周波数ビンごとに行なうことになるため、計算量が大きくなる。

　そこで計算量削減のため、以下の制約を導入する。以下においてＰ＿ｋはｋ番目の固有値および固有ベクトルに対応した指向特性パターンであり、固有値は降順に並んでいるものとする。すなわち、最大の固有値は1番目であり、最小の固有値はｎ番目であるとする。
　制約１：Ｐ＿１は必ず指向性パターン、Ｐ＿ｎは必ず死角パターンとする。
　制約２：指向性型に分類されるパターンはＰ＿１からＰ＿ａまでとし、死角型に分類されるパターンはＰ＿｛ｎ－ｂ＋１｝からＰ＿ｎまでとする（それぞれ両端を含む）。
　中立型に分類されるパターンはＰ＿｛ａ＋１｝からＰ＿｛ｎ－ｂ｝までであるが、０個でもよい。
　制約３：ａ，ｂの値は、全周波数ビンで共通とする。
　従って、例えばある周波数ビンにおいてパターンＰ＿ｋが死角パターンに分類されたのであれば、他の周波数ビンにおいてもパターンＰ＿ｋは死角パターンに分類される。

　特に制約３は重要であり、この制約により、各周波数ビンの指向特性パターンを周波数ビン間で平均（または総和、以下同様）した後で分類をすることが可能となる。これらの制約により、組み合わせはｎ（ｎ－１）／２通りに減少し、しかも分類は周波数ビンごとではなく、全体で１回だけ行なえば十分となる。

　現実の音源数は周波数ビンごとに異なる可能性もあるが、その場合でも制約３の有効性は損なわれない。例えば、音源数が周波数ビンごとに２または３である場合、パターンＰ＿１とＰ＿２は指向性型のパターンのみから平均され、パターンＰ＿３は指向性型と死角型との両方から平均され、パターンＰ＿４以降は死角型のみから平均されている。その結果、パターンＰ＿３については中立型に分類される可能性が高いため、指向性パターンにも死角パターンにも影響を与えない。

　先に例えば図３を参照した説明において、指向特性パターンはフィルタの方向ごとのゲインに対して対数をとったものであると説明したが、本開示では対数をとるタイミングを変更し、方向ごとのゲインの２乗に対して周波数ビン間で平均（または総和）を取った後で、対数をとる。

　平均操作の後で対数操作を行なうという順番とすることで、対数操作の後に平均操作を行なうという順番にしたしたときよりも指向特性パターン上の細かな凹凸が減る。そのため、死角パターンの細かな（ただし閾値は下回っている）谷と指向性パターンの細かな山とが偶然近接していたために偽の方向点が検出されるという現象は発生しにくくなる。さらに、パターンの分類処理は対数を作用させた後で行なう。分類においては、同じ位置に谷があるパターン同士が一つのタイプにまとめられた方が都合がよいため、対数をとることで指向特性の谷を強調するのである。

　上記制約の導入によって指向特性パターンの分類処理は簡略化される。その概略について、図６を用いて説明する。この図６に示す処理例は、マイクロホン数ｎ＝４とした場合の処理例である。

　まず、図６に示すステップＳ１１で共分散行列を算出する。これは観測信号の共分散行列であり、ＭＵＳＩＣ法において生成される。
　共分散行列の算出処理について、以下の式を参照して説明する。

　ｎ本のマイクロホン中のｋ番目のマイクロホンで観測された信号に短時間フーリエ変換（Ｓｈｏｒｔ　Ｔｉｍｅ　Ｆｏｕｒｉｅｒ　Ｔｒａｎｓｆｏｒｍ：ＳＴＦＴ）を適用した結果をＸｋ（ω，ｔ）とし、Ｘ１（ω，ｔ）～Ｘｎ（ω，ｔ）からなるベクトルをＸ（ω，ｔ）とおく（式［１．１］）。
　ただし、
　ωは周波数ビンの番号（ω＝１，２，…，Ｍ）、
　ｔはフレームの番号である。

　次に、周波数ビンωごとに、複数のフレームからＸ（ω，ｔ）の共分散行列Ｒ（ω）を計算する（式［１．２］）。
　ただし、式［１．２］において、
　＜・＞＿｛ｔ－Ｌ'＜τ≦ｔ｝は、
　ｔ－Ｌ'＜τ≦ｔを満たすフレームの間でカッコ内の式の平均をとることを表わす。
　ｔはブロックの末端のフレーム番号
　Ｌ'はブロックの長さ（フレーム数）
　ｔ－Ｌ'＋１はブロックの始端のフレーム番号
　である。
　なお、ブロックは、例えば図１に示すブロックであり、各ブロックが各フレームに対応する。
　上記式［１．２］に従って算出される共分散行列を、Ｒ（ω）とする。
　この共分散行列が図６のステップ（Ｓ１１）で算出する共分散行列である。

　次に、図６に示すステップＳ１２において、共分散行列Ｒ（ω）に対して上記式［１．３］に示す固有値分解（Ｅｉｇｅｎｖａｌｕｅ　ｄｅｃｏｍｐｏｓｉｔｉｏｎ）を適用し、固有ベクトルを算出する。

　式［１．３］において、
　Λ（ω）は固有値からなる対角行列であり（式［１．５］）、
　Ｖ（ω）は固有ベクトルＶ＿１（ω）～Ｖ＿ｎ（ω）からなる行列である（式［１．４］）。
　また、上付きのＨはエルミート転置（要素を共役複素数に変換してから転置）を表わす。
　共分散行列Ｒ（ω）はＲ（ω）＾Ｈ＝Ｒ（ω）を満たすため、固有値λ＿１（ω）～λ＿ｎ（ω）は全て実数である。これら固有値は大きい順に並んでいるものとする。
　固有ベクトルＶ＿１（ω）～Ｖ＿ｎ（ω）の大きさは１であり、またお互いに直交しているとする。

　ステップＳ１１で算出する共分散行列の大きさはｎ×ｎの行列であり、ステップＳ１２で算出する固有ベクトルはｎ個である。次に、ステップＳ１３において、それぞれの固有ベクトルに対応した指向特性パターンを生成することで、固有ベクトル数に等しい周波数ビン単位指向特性パターンＰａ～Ｐｄを得る。ステップＳ１３は周波数ビンごとに行なわれるため、Ｐａ～Ｐｄはそれぞれが、ステップＳ１３を実行した周波数ビンと同じ個数だけ生成される。

　なお、この指向特性パターンの生成処理の詳細については、後段の図１７のフローのステップＳ４０３の処理の説明の欄において式［５．１］～［５．３］を参照して説明する。
　概要を簡単に説明すると、以下の処理である。
　固有ベクトルに対し、各方向に対応したステアリングベクトルを作用させることで、方向と感度との関係を表わす指向特性パターンを生成する。
　具体的には、ω番目の周波数ビンにおいて、ｋ番目の固有ベクトルに対応した指向特性パターンの方向θの成分をＰ＿ｋ（ω，θ）とする。この値は方向θのゲインの２乗であり、後述する式［５．１］に従って、各方向に対応したステアリングベクトルを作用させることで計算される。これを全ての方向θおよび周波数ビンωについて計算することで、周波数ビンごとの指向特性パターン（図６（Ｓ１３）に示す指向特性パターンＰａ～Ｐｄ）を計算する。
　ここまでは、周波数ビンごとの処理である。

　次に、ステップＳ１４において、周波数ビンごとの指向特性パターンに対して周波数ビン間での平均をとり、さらに対数をとる。
　この平均化＆対数化処理により、ステップＳ１５に示す指向特性パターンＰ＿１～Ｐ＿４を得る。

　このように、複数の指向特性パターンの生成処理においては、各周波数帯域（周波数ビン）における各方向のゲインの２乗を算出し、複数の周波数帯域間で２乗ゲインを平均または総和して平均２乗ゲインまたは総和２乗ゲインを算出し、平均２乗ゲインまたは総和２乗ゲインの対数化処理、および最大値を０に調整する処理を行なって前記複数の指向特性パターンを生成する。

　次に、ステップＳ１６において、この４個（一般的にはマイクロホン数であるｎ個）の指向特性パターンに対して、本開示の特徴の一つである分類処理を適用する。
　この分類処理によって、ステップＳ１７に示すように以下の３つのタイプに分類される。
　（タイプ１）指向性型：パターンＰ＿１
　（タイプ２）中立型：パターンＰ＿２
　（タイプ３）死角型：パターンＰ＿３、パターンＰ＿４
　これら３つのタイプに分類する。

　なお、先に説明した制約１および制約２により、分類は６通りに限定され、しかもパターンＰ＿１は指向性型に、パターンＰ＿４は死角型に必ず分類される。分類処理の詳細については後述する。

　分類の結果、指向性型にはパターンＰ＿１が、中立型にはパターンＰ＿２が、死角型にはパターンＰ＿３とパターンＰ＿４の両方が分類される。
　最後に、ステップＳ１８において、指向性型と死角型に属する指向性パターンをそれぞれ平均することで、ステップＳ１９に示す指向性パターンＰ＿Ｄと、死角パターンＰ＿Ｎとを得る。

　なお、図６のステップＳ１７に示す分類結果の例では指向性型にはパターンＰ＿１のみが属しているため、ステップＳ１８の合成処理によって得られる指向性パターンＰ＿Ｄは、合成前のパターンＰ＿１と同一である。

　このようにして生成された指向性パターンおよび死角パターンは最大で二重に平均操作が行なわれているため、ステップＳ１３で得られる周波数ビンごとのパターンであるパターンＰａや、パターンＰｄを直接使用する場合と比べ、音源方向と対応しない細かな凹凸が減る。その一方で、音源に対応した真の山や谷は、指向特性間パターン間で共通しているために残る。従って、死角パターンの偽の谷と指向性パターンの偽の山とが偶然一致して方向点として検出される可能性が減る。また、空間エリアスに由来する偽の谷も平均操作によって（さらに、平均の後で対数をとるという順番にすることで）消滅したり浅くなったりするため、前述の「付随的な谷」が発生する頻度も減少する。

　次に、図６に示すステップＳ１６の指向特性パターンの分類処理の方法について説明する。
　指向特性パターンの分類処理の基本的な手順は、以下の通りである。
　　（１）ｎ（ｎ＋１）／２通りの分類の組み合わせそれぞれにおいて、指向性型タイプに分類されたパターンから指向性パターンの代表を計算し、同じく死角タイプに分類されたパターンから死角パターンの代表を計算する。これらを、それぞれ
　代表指向性パターン＝「分類中指向性パターン」、
　代表死角パターン＝「分類中死角パターン」、
　と呼ぶ。
　　（２）分類中指向性パターンと分類中死角パターンとの間の距離尺度を計算し、その距離尺度が最大となる分類結果を採用する。

　距離尺度としては、ユークリッド距離を用いる。また、分類中指向性パターンとしては、指向性型に分類されているパターンの総和（平均ではなく）を用い、同じく、分類中死角パターンとしては、死角型に分類されているパターンの総和を用いる。
　例えば、図６において、ステップＳ１８の合成処理後に得られる死角パターンＰ＿Ｎは、合成前のステップＳ１７に示す死角型に属しているパターンＰ＿３と、パターンＰ＿４との平均であるが、ステップＳ１６の分類処理に際して、距離尺度を計算するための分類中死角パターンはパターンＰ＿３とパターンＰ＿４との総和である。

　ステップＳ１６の分類処理における「分類中指向性パターン」「分類中死角パターン」の算出に、パターン同士の平均ではなく総和を使用する目的は、指向性型、死角型のそれぞれに多くの指向特性パターンを含ませるためであり、それぞれのタイプに含まれるパターンの個数が総和によって増加する理由は、次のように説明できる。

　指向特性パターンの内、音源方向に死角が形成されているという死角型の特徴が最も強く表れているのは、最小の固有値に対応したパターンＰ＿ｎである。言い換えると、パターンＰ＿ｎと他のパターンとの間で平均をとると、谷が浅くなるなどの影響により、死角型の特徴が弱くなる。指向性型についても同様であり、その特徴が最も強く表れているのはパターンＰ＿１である。従って、分類中指向性パターンおよび分類中死角パターンとして平均を使用すると、指向性型にはパターンＰ＿１のみ、死角型にはパターンＰ＿ｎのみ、中立型には残り全てのパターン（Ｐ＿２～Ｐ＿｛ｎ－１｝）が分類されるという結果が多くの場合に採用されるようになるが、それでは分類を行なう意味がない。

　一方、平均の代わりに総和を用いると、例えば死角型に属するパターンの間で共通の方向に死角が形成されていれば、総和によって一層深い谷が形成される。指向性型についても同様である。従って、総和を用いれば、適切に分類された場合に分類中指向性パターンと分類中死角パターンとのユークリッド距離が最大となる可能性が高い。

　ただし、分類結果が確定した後で指向性パターンと死角パターンとを生成する際（図６（Ｓ１８））には、総和ではなく、平均を用いる。その理由は、総和を用いると、死角型に属するパターンの個数によって谷の深さが大きく異なるため、後の処理においてブロック間で死角パターンの平均をとったり閾値と比較したりする操作がやりにくいが、平均を用いるとその問題が回避できるからである。

　上記の説明では、分類の組み合わせごとに分類中指向性パターンと分類中死角パターンとを生成し、それらのユークリッド距離を計算するとしていたが、行列の演算を使用することで、全組み合わせのユークリッド距離を直接計算することができる。

　図６に示すステップＳ１６において、行列演算を使用して、全組み合わせのユークリッド距離を計算して指向特性パターンを分類する処理について、以下に示す数式を参照して説明する。

　ｋ番目に大きな固有値に対応した指向特性パターンをパターンＰ＿ｋとする。パターンＰ＿ｋは、式［２．１］のような行ベクトルとして表わすことができる。ただし、θ＿ｍｉｎおよびθ＿ｍａｘはそれぞれ、ＭＵＳＩＣ法において行なわれる方向のスキャニングの最小値と最大値である。

　両者の中間では、所定の増分で角度が増加していくものとする。例えば、
　θ＿ｍｉｎ＝－１８０°、
　θ＿ｍａｘ＝１８０°、
　とし、角度の増分を５°とすると、中間には－１７５°，－１７０°，・・・１７０°，１７５°が存在する。方向θに対応した成分であるＰ＿ｋ（θ）の計算方法については、後述する。

　次に、パターンＰ＿１～Ｐ＿ｎからなる行列Ｐを式［２．２］のように定義する。これを、指向特性パターン行列と呼ぶ。
　指向特性パターン行列と所定のベクトルとを乗じることで分類中指向性パターンと分類中死角パターンを生成することも可能であるが、以下で説明する行列を用いることで、両パターンの生成をスキップして差を直接計算することもできる。すなわち、式［２．３］で表わされる行列Ｃ用意し、行列ＣとパターンＰ＿１～Ｐ＿ｎからなる行列Ｐとを乗じると、分類の組み合わせそれぞれについて、分類中指向性パターンと分類中死角パターンとの差を直接計算することができる（式［２．４］）。この行列Ｃを分類行列と呼ぶ。なお、式［２．３］はｎ＝４の場合であり、一般のｎについて分類行列を計算する方法については後述する。

　式［２．４］において、行列ＦをＣとＰとの積とし、さらにその各行の行ベクトルをＦ＿１～Ｆ＿ｍとする。ｍは行列Ｆの行数を表わし、ｍ＝ｎ（ｎ＋１）／２である。Ｆ＿１～Ｆ＿ｍそれぞれについてノルム（自分自身の内積）を計算すると、分類中指向性パターンと分類中死角パターンとのユークリッド距離の２乗が求まる。すなわち、式［２．５］のような列ベクトルＨを考えると、Ｈの各要素は、それぞれの分類結果におけるユークリッド距離の２乗を表わす（上付きのＴは、転置をあらわす）。従って、ベクトルＨにおいて最大の要素を見つけることで、どの分類結果が最適であるかが分かる。

　なお、行列の積の順番を変更することで、式［２．４］および式［２．５］よりも少ない計算量でベクトルＨを計算することも可能である。そのためには、式［２．６］で表わされる行列Ｇを計算する。行列Ｇの大きさは分類行列Ｃと同一であり、ＧとＣとの各行について内積を計算すると、この場合も同様のユークリッド距離が求まる。すなわち、式［２．５］の代わりに式［２．７］を用いても、同じ結果を得る。ただし、Ｇ＿ｋおよびＣ＿ｋはそれぞれ、行列ＧとＣのｋ行目のベクトルを表わす。Ｇ＿ｋおよびＣ＿ｋの要素数はどちらもｎ（式［２．７］では４）であり、Ｆ＿ｋの要素数（Ｐ＿ｋと同一）よりもずっと小さいため、式［２．５］の代わりに式［２．７］を用いた方が、計算量が削減される。

　最適な分類結果が決定したら、それに対応した指向性パターンと死角パターンをぞれぞれ生成する。そのために、式［２．８］および式［２．９］のような行列を用意しておく。それぞれ、指向性パターン生成行列、死角パターン生成行列と呼ぶ。そして、式［２．７］のベクトルＨのｋ番目の要素が最大であるとすると、指向性パターン生成行列のｋ行目のベクトルを指向特性パターン行列Ｐと乗じて指向性パターンを生成し（式［２．１０］）、同じく、死角パターン生成行列のｋ行目のベクトルを用いて死角パターンを生成する（式［２．１１］）。
　なお、式［２．８］および式［２．９］はｎ＝４の場合であり、一般のｎの場合については後述する。

　　［３－２．「音声らしさ」に基づく音声区間検出を用いた閾値の動的な変更処理を適用した音声区間検出処理］
　次に、「音声らしさ」に基づく音声区間検出を用いた閾値の動的な変更処理を適用した音声区間検出処理について説明する。

　「付随的な谷」の問題を説明した際に、もし死角パターンの閾値が適切な値に設定できれば問題が解決する可能性があることを述べた。そのような閾値を事前に手作業で設定することは困難であるため、動作中に環境に適応して閾値が自動的に調整されるような仕組みが必要となる。以降では、そのような閾値を動的閾値と呼ぶ。

　動的閾値を実現するため、本開示では以下の処理を行なう。
　　ａ）全方向で共通な閾値の代わりに、方向ごとに異なる閾値を保持する。
　　ｂ）「音声らしさ」に基づく音声区間検出も併用し、「音声らしくない」と判定されたブロックにおいては閾値を更新し、「音声らしい」と判定されたブロックにおいては閾値を固定する。
　　ｃ）方向ごとの閾値は、「音声らしくない」と判定されたブロックの間で平均化された死角パターンに基づいて計算される。

　なお、「音声らしさ」の判定は真か偽かの二値であるため、以下の２つの表現は同じ意味である。
　・「音声らしい」と判定されなかった。
　・「音声らしくない」と判定された。
　ＭＵＳＩＣ法の閾値（死角パターンの閾値）を動的に変更する事例自体は、発明者自身による先の特許出願である特許文献１（特開２０１２－１５０２３７号公報）をはじめ、特許文献６（特開２０１３－４４９５０号公報）なども存在するが、それらとの違いは、「音声らしさ」に基づく音声区間検出も併用し、「音声らしい」と判定されたブロックにおいてのみ閾値を固定する点にある。

　このようにして計算される閾値について、図７を用いて説明する。
　図７に示す死角パターン７１は、図５に示す時間範囲５６の開始より前の時間において生成されている死角パターンであり、図４に示す死角パターン４１と同一である。図４と同様に、真の音源方向（θ＿ｔｒｕｅ）には真の谷が、偽の音源方向（θ＿ｆａｌｓｅ）には付随的な谷が形成されているとする。

　閾値７２は、動的に計算された閾値である。計算の詳細は後述する。基本的に動的閾値は、音声が存在しないタイミングでの死角パターンより少しだけ低い位置に設定される。言い換えると、音声発話がないタイミングでは、死角パターンが変動しても動的閾値よりは深くならないため、真の音源方向（θ＿ｔｒｕｅ）も、偽の音源方向（θ＿ｆａｌｓｅ）にも方向点が検出されず、従って音声区間も検出されない。真の音源方向（θ＿ｔｒｕｅ）には音源は存在するものの音声ではないため、これを検出しないのは、音声区間検出としては正しい挙動である。

　この状態において、偽の音源方向（θ＿ｆａｌｓｅ）から人が発話したとする。すなわち、図５に示す時間範囲５６の開始時刻に到達したとする。それに伴い、死角パターンは図７に示す死角パターン７３の形状に変化する。すなわち、偽の音源方向（θ＿ｆａｌｓｅ）の位置に形成されていた谷は、真の音源（音声発話）が存在するために深くなり、図７に示す谷７４が出現する。この谷７４は、閾値７２を下回る。その結果、図５の時間範囲５６の内側においては、偽の音源方向（θ＿ｆａｌｓｅ）に対応した方向点が検出されるため、音声区間も検出され、しかも二重検出は発生しない。

　また、図５の時間範囲５６の内側に含まれるブロックは「音声らしい」と判定されるため、動的閾値の更新は行なわれない。そのため、発話中の動的閾値の形状は、図７に示す閾値７２の形状のままであり、偽の音源方向（θ＿ｆａｌｓｅ）の谷が閾値を上回ることはない。発話が終了すると、死角パターンは元の死角パターン７１の形状に戻るため、偽の音源方向（θ＿ｆａｌｓｅ）の谷は閾値を上回るようになる。その結果、方向点は検出されなくなる。

　また、この動的閾値は、「音声らしさ」の判定誤りの影響を受けにくい。例えば、音声発話が存在しないときに「音声らしい」と誤判定されても、閾値の更新が行なわれないだけであり、その時点で既に動的閾値がその状況に適応したものとなっているのであれば、閾値の更新が行なわれなくても問題ではない。一方、発話中に「音声らしくない」と誤判定されたときは、発話中に動的閾値が更新される。具体的には、発話が存在する方向の閾値が下がってくる。ただし、動的閾値は、「音声らしくない」と判定されたブロック間での死角パターンの平均から計算されるため、誤判定のブロック数が少なければ平均への影響は少ない。そのため、死角パターンと閾値とが逆転する現象（発話中なのに、死角パターンの谷より動的閾値の方が深くなり、発話方向の方向点が検出されなくなる現象）は発生しにくい。

　「音声らしさ」に基づく音声区間検出にとって誤判定を起こしやすい入力音として無声子音（例えばサ行の子音である／ｓ／など）がある。そのため、方向点を採用する条件として「音声らしさ」の判定も併用する方式では、無声子音を多く含む発話について区間が短めに検出されたり複数の区間に分断されたりする現象が発生しやすかった（または、その問題を回避するために、検出された区間を前後に延長するような処理を追加した結果、他の入力音声に対して副作用が発生する場合があった）が、本開示では、「音声らしさ」の判定結果は動的閾値の更新に影響を与えるのみであるため、誤判定の影響を最小限に抑えることができる。

　また、「音声らしさ」の判定に基づいて更新される動的閾値は、同位相混入成分に由来する問題も解決できる。その点を、図８を用いて説明する。

　図８に示す死角パターン８１は、同位相混入成分が存在するときの無音時の死角パターンの一例である。音源が存在しないにもかからわず、同位相混入成分の影響でθ＝０の付近に偽の谷が形成されており、それが谷８２である。同位相混入成分は電気的ノイズや筐体の振動など、音声とは大きく異なる信号であるため、「音声らしくない」と判定される可能性が高い。そのため、この状況下では動的閾値の更新が行なわれ、閾値８３のような形状として表わされる。偽の谷である谷８２はθ＝０での動的閾値よりは浅いため、方向点は検出されない。従って、発話が存在しないときは、音声区間は検出されない。

　一方、θ＝０の方向から発話があると、死角パターンの形状が死角パターン８４のように変化する。すなわち、真の音源が存在することで、死角の谷が深くなる。それが谷８５である。死角の谷が閾値を下回るようになるため、方向点が検出されるようになり、音声区間も検出される。また、「音声らしい」と判定されている間は動的閾値が更新されないため、発話中はこの状態が続く。そして発話が終了すると、死角パターンは元の死角パターン８１の形状に戻るため、方向点は検出されなくなる。その結果、同位相混入成分のために死角パターンに偽の死角が形成されていても、その影響を受けずにθ＝０からの発話が正しく検出される。

　　［４．本開示の音信号処理装置の構成例と処理例について］
　次に、図９以下を参照して本開示の音信号処理装置の構成例と処理例について説明する。
　図９は、本開示の音信号処理装置の構成例を示す図である。
　音信号はマイクロホンアレイ１０１で収音され、得られた多チャンネルの音データはＡＤ変換部１０２においてデジタル信号へ変換される。このデータを（時間領域の）観測信号と呼ぶ。時間領域の観測信号は、ＳＴＦＴ部１０３および「音声らしさ」判定部１０９に送られる。

　ＳＴＦＴ部１０３では、時間信号の観測信号に短時間フーリエ変換（ｓｈｏｒｔ－ｔｉｍｅ　Ｆｏｕｒｉｅｒ　ｔｒａｎｓｆｏｒｍ：ＳＴＦＴ）を適用し、時間領域の観測信号を時間周波数領域の信号へ変換する。時間周波数領域の観測信号は、観測信号バッファ１０４と方向点検出部１０５とに送られる。

　観測信号バッファ１０４は、所定の時間（フレーム数）の観測信号を蓄積する。ここで蓄積された信号は、検出された発話区間の開始時刻、終了時刻と合わせて一発話分の音声データを得るために使用したり、さらに区間の方向も用い、所定の方向から到来した音声を抽出した結果を得るために使用したりする。

　観測信号バッファ１０４の内部においては、時刻（またはフレーム番号）と観測信号とが関連付けられて保存されている。さらに、後述の「音声らしさ」判定部の判定結果も、時刻等と関連付けられて保存されている。そのため、他のモジュールから時刻やフレーム番号を入力し、それに対応した観測信号や「音声らしさ」判定結果などを出力することができる。

　方部向点検出部１０５は、観測信号を所定の長さのブロックに分割すると共に、各ブロックにおいて音源方向に対応した点を検出する。すなわち、図１に示す（ｂ）～（ｃ）の処理に相当する処理を行なうモジュールである。その際、後述の「音声らしさ」判定部１０６の判定結果も利用する。詳細は後述する。

　「音声らしさ」判定部１０６は、ＭＵＳＩＣ法において現在処理中のブロック内に含まれている入力音が「音声らしい」かどうかを判定するモジュールである。判定の方法としては、例えば、特許文献４（特許４１８２４４４号）に記載された入力信号の周期性に基づく方法などが適用可能である。なお、音声らしさの判定のタイミングはＭＵＳＩＣ法のブロックと完全に同期している必要はなく、そのブロック付近の時刻において「音声らしい」かどうかが判定できればよい。このモジュールの出力は「音声らしい」「音声らしくない」の二値である。その値は観測信号バッファ１０４にも送られ、時刻等と関連付けて蓄積される。

　方向点トラッキング部１０７は、連続する複数のブロック間においてほぼ同一の方向を持つ方向点が現れているときに、それらを連結し、発話区間として検出する。すなわち、図１（ｄ）を参照して説明した処理を行なうモジュールである。詳細は後述する。

　方向点トラッキング部１０７の出力は発話区間、すなわち、発話開始時刻・終了時刻および発話方向（音源方向）である。言い換えると、複数の発話区間が時間上で互いに重複している場合、その区間では複数の音が混ざっている。そこで、混ざっていないクリーンな音源が必要な場合（例えば音声認識の前段として本発明を用いる場合など）は、音源抽出部１０８を備えるようにする。

　音源抽出部１０８は、発話区間に対応した観測信号や音源方向などを用いて、所定の音声などを抽出する。このモジュールには、例えば特許文献７（特開２０１２－２３４１５０号公報）に記載された音源抽出技術の他、ビームフォーミング等の既存の技術が使用可能である。

　発話区間に対応した音データは、必要に応じて後段処理部１０９に送られる。後段処理部１０９は、例えば音声認識機などによって構成される。なお、音声認識機には音声区間検出機能を持つものもあるが、その機能は省略可能である。また、音声認識機は音声特徴量を抽出するためにＳＴＦＴを備えることが多いが、本開示の処理と組み合わせる場合は、音声認識側のＳＴＦＴは省略可能である。
　制御部１１０は、図９に示す他の全てのモジュールと結線されており、各モジュールの制御を行なう。

　次に、方向点検出部１０５の詳細について、図１０を用いて説明する。
　観測信号バッファ１５１は、図９に示す観測信号バッファ１０４と同一であり、時間周波数領域の観測信号が所定の時間分だけ蓄積される。

　共分散行列計算部１５２～指向特性パターン格納部１５８の構成は、ＭＵＳＩＣ法による音源方向推定において通常よく使用されるモジュールである。
　共分散行列計算部１５２において、ブロック１個分、例えば図１に示すブロック１１などに相当する観測信号から共分散行列を周波数ビンごとに計算し、結果を共分散行列格納部１５３に格納する。
　共分散行列格納部１５３に格納する共分散行列は、先に説明した図６のステップＳ１１に示す共分散行列に相当する。

　固有ベクトル計算部１５４は、共分散行列に固有値分解（ｅｉｇｅｎｖａｌｕｅ　ｄｅｃｏｍｐｏｓｉｔｉｏｎ）を適用して固有ベクトルを算出して、固有ベクトル格納部１５５に格納する。
　この固有ベクトルは、先に説明した図６のステップＳ１２に示す固有ベクトルに相当する。

　ステアリングベクトル格納部１５６には、様々な方向から到来する信号の位相差を予め計算し、その結果が格納されている。
　ステアリングベクトルの生成方法について、図１１および以下に示す式［３．１］～［３．３］を参照して説明する。

　図１１には、音信号処理装置に対する音信号入力部としてのマイクロホンｋ，２５３と、マイクロホンｉ，２５４を示している。また、方向を測るための基準点２５２を示している。
　基準点２６２はマイクロホンの近くの任意の地点でよく、例えばマイクロホン間の重心と一致させた基準点の設定や、あるいはマイクロホンのどれかと一致させた基準点の設定とするなど、様々な設定としてよい。基準点２５２の位置ベクトル（すなわち座標）をｍとする。

　音の到来方向を表わすために、基準点ｍ，２５２を始点とする長さ１のベクトルを用意し、このベクトルをｑ（θ）とする。図に示す方向ベクトルｑ（θ）２５１である。
　音源位置がマイクロホンとほぼ同じ高さであるなら、方向ベクトルｑ（θ）２５１はＸ－Ｙ平面上（垂直方向をＺ軸とする）のベクトルとして考えればよく、方向ベクトルｑ（θ）の成分は、上記の式［３．１］で表わせる。
　ただし方向θは、Ｘ軸となす角である（図１１（座標およびベクトル設定参考図）参照）。

　図１１において、方向ベクトルｑ（θ）２５１の方向から到来する音は、先にマイクロホンｋ，２５３に到着し、次に基準点ｍ，２５２、それからマイクロホンｉ，２５４に到着する。

　基準点ｍ，２５２に対するマイクロホンｋ，２５３の位相差Ｓ＿ｋ（ω，θ）は、上記の式［３．２］で表わせる。ただしこの式において、
　ｊは、虚数単位、
　Ｍは、周波数ビン数、
　Ｆは、サンプリング周波数、
　Ｃは、音速、
　ｍ＿ｋは、マイクロホンｋの位置ベクトル、
　を表わし、
　上付きのＴは通常の転置を表わす。
　この式の意味は、以下の通りである。平面波を仮定すると、マイクロホンｋ，２５３は基準点ｍ，２５２よりも図１１に示す距離２５５の分だけ音源に近く、逆にマイクロホンｉ，２５４は図１１に示す距離２５６の分だけ遠い。

　これらの距離差は、ベクトルの内積を用いて
　ｑ（θ）＾Ｔ（ｍ＿ｋ－ｍ）、および、
　ｑ（θ）＾Ｔ（ｍ＿ｉ－ｍ）
　と表わせる。
　距離差を位相差に変換すると、上記の式［３．２］で示す基準点ｍ，２５２に対するマイクロホンｋ，２５３の位相差：Ｓ＿ｋ（ω，θ）の算出式が得られる。

　各マイクロホンの位相差からなるベクトルＳ（ω，θ）は、上記の式［３．３］で表わされ、これをステアリングベクトルと呼ぶ。
　ｎの平方根で割っている理由は、ベクトルの大きさを１に正規化するためである。

　図１０に示すステアリングベクトル格納部１５６には、様々な値の方向θと周波数ビン番号ωについてのステアリングベクトルＳ（ω，θ）が格納されている。方向θについては基本的に一周分であるが、図２のようにマイクロホンが直線状に配置されている場合は、指向特性はその直線（図２のマイクロホンアレイ方向２３）について対称となるため、半周分で良い。また、角度の間隔は、方向推定の精度と計算量とを考慮して決める。（例えば、３°や５°とする。）

　周波数ビン番号ωについては、基本的に、ω＝１（直流）とω＝Ｍ（ナイキスト周波数）とを除いた全周波数ビン（すなわち１＜ω＜Ｍ）を用いるが、特定の条件を満たす複数の周波数ビンのみを用いてもよい。例えば、計算量削減のために、偶数番目や３の倍数番目といった特定の値の倍数に相当する周波数ビンのみを使用してもよい。あるいは、音声区間検出のための音源方向推定であることを利用して、音声が主に含まれる周波数帯域に相当する周波数ビンのみを使用してもよい。

　なお、従来においては、空間エリアスの影響を避けるために周波数ビンを制限する場合があったが、本開示においては後述の動的閾値によっ空間エリアスの影響を回避できるため、その目的で周波数ビンを制限する必要はない。

　図１０に示す指向特性パターン生成部１５７は、固有ベクトル格納部１５５に格納された各固有ベクトルに対して、ステアリングベクトル格納部１５６から取得した各方向のステアリングベクトルを作用させることで、指向特性パターン（方向と感度との関係を表わすプロット）を生成し、結果を指向特性パターン格納部１５８に格納する。

　この指向特性パターン格納部１５８に格納される指向特性パターンは、先に説明した図６のステップＳ１５に示す指向特性パターンＰ１～Ｐ４に相当する。
　マイクロホンの個数をｎとすると、指向特性パターンもｎ個生成される。

　次の指向特性パターン分類部１５９～死角パターン格納部１６６は、本開示の特徴の一つである「指向特性パターンの分類」に関するモジュールである。図６に示すステップＳ１３～Ｓ１９に示す処理を行なうモジュールに相当する。

　指向特性パターン分類部１５９は、指向特性パターン格納部１５８に格納されたｎ個の指向特性パターンを以下の３つのタイプに分類する。
　　指向性型パターン＝音源方向に指向性（山）が形成されているパターン
　　死角型パターン＝音源方向に死角（谷）が形成されているパターン
　　中立型パターン＝指向性型にも死角型でもないパターン
　分類した各パターンは、それぞれ指向性型格納部１６０、死角型格納部１６２、中立型格納部１６１に格納される。

　これらの各格納部１６０～１６２に格納するパターンは、例えば図６に示す例では、ステップＳ１７に示す指向性型パターンＰ１、中立型パターンＰ２、死角型パターンＰ３，Ｐ４となる。

　分類行列バッファ１５４は、ｎ（ｎ＋１）／２通りの分類結果に相当するデータを生成するための行列である。
　先に説明した式［２．３］で表わされる分類行列のほか、指向性パターン生成行列（式［２．８］）や死角パターン生成行列（式［２．９］）なども格納されている。これらの行列の生成方法については後述する。

　指向性パターン＆死角パターン生成部１６３では、指向性型格納部１６０に格納された指向性型パターンから、音源方向検出に適用する最終的な指向性パターンを生成し、死角型格納部１６２に格納された死角型パターンから、音源方向検出に適用する最終的な死角パターンを生成する。
　すなわち、図６に示す例におけるステップＳ１８のパターン合成処理を実行し、ステップＳ１９に示す指向性パターンＰ＿Ｄと、死角パターンＰ＿Ｎを生成する。

　生成した指向性パターンは指向性パターン格納部１６５に格納し、生成した死角パターンは死角パターン格納部１６６に格納する。

　図１０に示す音声らしさ判定部１６７～動的閾値格納部１７１の構成は、本開示のもう一つの特徴である「『音声らしさ』に基づく閾値の動的更新」に関する処理を行なうモジュールである。

　音声らしさ判定部１６７は、図９に示す音声らしさ判定部１０６と同一であり、各ブロック（図１に示すブロック１１など）あるいはその付近に時刻に「音声らしい」信号が含まれているかを判定する。例えば、入力音信号の周期性に基づいて、入力音信号が音声らしいか否かを判定する。

　死角パターン平均部１６８は、音声らしさ判定部１０６が「音声らしい」信号が含まれていないと判定したブロックまたはタイミング、すなわち音声らしくないとと判定したブロックまたはタイミングにおいて、死角パターン格納部１６６に格納された死角パターンの時間方向の平均を更新し、結果を平均死角パターン格納部１６９に格納する。

　動的閾値計算部１７０は、平均死角パターン格納部１６９に格納された平均死角パターンから方向ごとの動的閾値を計算し動的閾値格納部１７１に格納する。平均死角パターンと動的閾値との関係は先に図７等を参照して説明した通りであり、動的閾値は平均死角パターンよりも若干深い値、言い換えると、音声らしい信号が入力されていない時間においては死角パターンが若干変動しても、死角パターンが閾値を下回ることはないような値である。

　方向点検出実行部１７２は、指向性パターン格納部１６５と、死角パターン格納部１６６に格納された指向性パターンと、死角パターン、さらに動的閾値格納部１７１に格納された動的閾値を用いて、音源方向の候補である方向点を検出し、結果を方向点バッファ１７３に格納する。
　なお、動的閾値を用いた音源方向推定処理は、先に図７、図８等を用いて説明した処理である。

　以上、図１０を参照して説明したように、図９に示す方部向点検出部１０５は、観測信号を所定の長さのブロックに分割すると共に、各ブロックにおいて音源方向に対応した点を検出する。すなわち、図１に示す（ｂ）～（ｃ）の処理に相当する処理を行なう。

　次に、図９に示す構成中の方向点トラッキング部１０７の詳細について、図１２を参照して説明する。
　方向点トラッキング部１０７は、連続する複数のブロック間においてほぼ同一の方向を持つ方向点が現れているときに、それらを連結し、発話区間として検出する。すなわち、図１（ｄ）を参照して説明した処理を行なう。
　方向点トラッキング処理においては、近接する方向点を連結することで区間を作成していくため、内部には作成中の区間が複数存在し、それらを格納するバッファを備える。図１２に示す作成中区間バッファ３１１である。作成中および完成した区間は、作成中区間バッファ３１１内に示す区間情報３１１ａ～３１１ｎである。

　現ブロック番号３３１には、現在処理中のブロック（例えば図１に示すブロック１１など）の番号が格納されている。処理開始後、最初に生成されるブロックの番号を「１」とし、時間の経過によって新しいブロックが生成される毎に番号を増加させる。

　方向点バッファ３３２は、図１０を参照して説明した方向点バッファ１７３と同一であり、方向点検出部１０５が出力した各ブロック単位の方向点が格納されている。
　図１２下部には、区間情報３１１ａ～３１１ｎの１つの区間情報３１１ｎの詳細構成を示している。区間情報３１１ａ～３１１ｎはいずれも同様の構成を持つ。

　区間情報３１１ｎは、区間ＩＤ３２１、始端ブロック番号３２２、終端ブロック番号３２３、有効ブロック数３２４、平均方向３２５、断絶ブロック数３２６の各モジュールを持つ。

　区間ＩＤ３２１は、区間のそれぞれに付与された一意の番号であり、例えば生成順に番号を付与していく。
　始端ブロック番号３２２は、区間の開始に対応したブロックの番号である。ブロック番号の代わりに、ＳＴＦＴのフレームの番号や、本当の時刻を保持しても良い。
　終端ブロック番号３２３は、区間の終了に対応したブロックの番号である。これも始端ブロック番号３２２と同様に、フレーム番号や時刻でも良い。なお、生成途中の区間については、終端が確定していないため、ここには「未定義」を表わす値を格納しておく。

　有効ブロック数３２４は、区間の中で方向点が存在しているブロック（以降「有効ブロック」）の個数を保持する。この値を保持する目的は区間の誤検出の抑止にある。区間のブロック数（始端ブロック番号３２２と終端ブロック番号３２３とから計算可能）と有効ブロック数とから有効ブロックの割合を計算し、その値が小さい場合（すなわち、有効ブロックが疎らである場合）は、誤検出された方向点を繋いだ偽の区間である可能性が高いため、そのような区間は棄却する。

　平均方向３２５は、その区間に含まれる方向点から計算される平均の方向である。作成中の区間については、その時点で計算される方向が格納されている。
　断絶ブロック数３２６は、近傍（平均方向３２５で表わされる音源方向の近く）に方向点が存在しないブロックが何回連続しているかを表わす値である。この値は、区間の作成中において使用される。トラッキングにおいては、方向点が断絶しても、その断絶の長さが所定の値より短ければ、区間を分断せずに１つの区間として切り出した方が良い。それを実現するために、断絶の長さを記憶しておく。また、断絶の長さ（ブロック数）が所定の値を越えた時点で、その区間は確定する。
　以上で、装置の構成の説明を終える。

　　［５．音信号処理装置の実行する処理のシーケンスについて］
　次に、本開示の音信号処理装置の実行する処理のシーケンスについて、図１３以下に示すフローチャートを参照て説明する。
　図１３は、本開示の音信号処理装置の実行する処理の全体シーケンスを説明するフローチャートである。以下、各ステップの処理について、順次、説明する。

　　（ステップＳ１０１）
　ステップＳ１０１は、初期化処理であり、フレーム番号ｔおよびブロック番号Ｂに初期値を代入する他、分類行列やステアリングベクトルの生成等も行なう。詳細は後述する。

　　（ステップＳ１０２）
　ステップＳ１０２は、ＡＤ変換処理であり、マイクロホンに入力されたアナログの音信号をデジタル信号へ変換する処理である。本開示の処理は、例えば先に参照して説明したように、異なる位置に配置したｎ個のマイクロホンを利用して、各マイクロホンによる取得音の解析を行う。ステップＳ１０２では、これらの複数のマイクロホンに入力されたアナログの音信号をデジタル信号へ変換する。ＡＤ変換はｎチャンネルの入力についてクロックを同期して行なう。この信号を時間領域の観測信号と呼ぶ。なお、入力はマイクロホンからの他に、必要に応じてファイルやネットワークなどから行なってもよい。

　　（ステップＳ１０３）
　ステップＳ１０３は、時間領域の観測信号に対して短時間フーリエ変換（ＳＴＦＴ）を適用する処理である。短時間フーリエ変換（ＳＴＦＴ）処理によって、時間領域の観測信号を、時間周波数領域の信号（スペクトル）へ変換する。

　短時間フーリエ変換（ＳＴＦＴ）処理の詳細について、図１４を参照して説明する。
　図１４に示す（ａ）観測信号の波形ｘ＿ｋ（＊）は、
　例えば、図９に示す装置中に音声入力部として構成されるｎ本のマイクからなるマイクロホンアレイ１０１中のｋ番目のマイクによって観測される観測信号の波形ｘ＿ｋ（＊）である。

　この観測信号から一定長のデータを切り出す。切り出す単位をフレームと呼び、図１４ではフレーム４０１～４０３がそれに相当する。１フレーム分のデータにハニング窓やハミング窓等の窓関数を作用させた後、短時間フーリエ変換を適用することにより、周波数領域における１フレーム分のデータであるスペクトルＸｋ（ｔ）を得る（ｔはフレーム番号）。

　切り出すフレームの間には、図に示すフレーム４０１～４０３のように重複があってもよく、そうすることで連続するフレームのスペクトルＸｋ（ｔ－１）～Ｘｋ（ｔ＋１）を滑らかに変化させることができる。また、スペクトルをフレーム番号に従って並べたものをスペクトログラムと呼ぶ。図１４（ｂ）に示すデータがスペクトログラムの例である。
　スペクトルＸｋ（ｔ）は要素数Ｍのベクトルであり、ω番目の要素をＸｋ（ω，ｔ）とする。
　また、スペクトログラムにおいて、同一のωからなる横一列のデータを、周波数ビンと呼ぶ。

　本開示の音信号処理装置は、短時間フーリエ変換（ＳＴＦＴ）もチャンネル数だけ行なう。以降では、
　チャンネルｋ、
　周波数ビンω、
　フレームｔ、
　における観測信号を、
　観測信号：Ｘｋ（ω，ｔ）
　と表わす。
　この観測信号は、例えば前述の式［１．１］などに記載された観測信号に対応する。

　また、短時間フーリエ変換（ＳＴＦＴ）のポイント数をｌ（小文字のエル）とすると、１チャンネルあたりの周波数ビンの個数Ｍは、
　Ｍ＝ｌ／２＋１
　で計算できる。

　　（ステップＳ１０４）
　ステップＳ１０４の蓄積処理は、ステップＳ１０３における時間領域の観測信号に対する短時間フーリエ変換（ＳＴＦＴ）の適用によって生成した時間周波数領域の信号（スペクトル）を、所定の時間分（例えば１０秒）だけ蓄積する処理である。

　言い換えると、その時間に対応したフレーム数をＴとすると、連続するＴフレーム分の観測信号を、図９に示す観測信号バッファ１０４に蓄積する。
　観測信号バッファ１０４内部ではフレーム番号Ｆとフレームデータ（スペクトル）との対応付けがなされており、後で所定のフレーム番号のデータを取り出すことが可能である。

　　（ステップＳ１０５）
　ステップＳ１０５は、フレーム番号の更新処理である。
　現在のフレーム番号ｔを、ｔ＋１とするフレーム番号更新処理を実行する。

　　（ステップＳ１０６）
　ステップＳ１０６は、以降の処理をＬフレームに１回の頻度で実行するための条件分岐である。
　すなわち、フレーム番号ｔを頻度Ｌで割り、その余りが０のときのみ、ステップＳ１０７に進み、それ以外の場合はステップＳ１０２に戻る。

　　（ステップＳ１０７）
　ステップＳ１０７は、「音声らしさ」の判定処理である。
　この「音声らしさ」の判定処理は、例えば、特許文献４（特許４１８２４４４号公報）などに記載された方式を用いて、現在処理中のブロックに「音声らしい」信号が含まれているか否かを判別する処理である。

　なお、この図１３に示すフローチャートでは、ステップＳ１０７の「音声らしさ」の判定を、Ｌフレームに１回の頻度で行なうものとしているが、もっと高頻度で行なってもよい。例えば、「音声らしさ」の判定をフレームごとに行ない、１ブロックを構成するＬフレーム中で「音声らしい」と判定されたフレームが１回でもあれば、そのブロックを「音声らしい」と判定してもよい。

　　（ステップＳ１０８）
　ステップＳ１０８の方向点検出処理は、観測信号の共分散行列から方向点を求める処理である。詳細は後述する。

　　（ステップＳ１０９）
　ステップＳ１０９の方向点トラッキング処理は、ステップＳ１０８の方向点検出処理で検出された方向点から発話区間を求めるための処理である。詳細は後述する。

　　（ステップＳ１１０）
　ステップＳ１１０は、ブロック番号Ｂの更新処理である。
　現在のブロック番号ＢをＢ＋１とするブロック番号更新処理を行なう。

　　（ステップＳ１１１）
　ステップＳ１１１は、処理を継続するか否かの分岐処理である。処理を継続する場合は、ステップＳ１０２に戻る。そうでなければ、処理を終了する。

　次に、図１３に示すフロー中のステップＳ１０１において実行する初期化処理の詳細について、図１５に示すフローを参照して説明する。

　　（ステップＳ２０１～Ｓ２０２）
　ステップＳ２０１～Ｓ２０２において、フレーム番号ｔとブロック番号Ｂにそれぞれ初期値を代入する。初期値は例えば、ｔ＝１、Ｂ＝１とする。

　　（ステップＳ２０３）
　次に、ステップＳ２０３においてステアリングベクトルを生成し、その結果を、先に説明した図１０に示すステアリングベクトル格納部１５６に格納する。ステアリングベクトルの生成方法は、先に図１１、および式［３．１］～［３．３］を参照して説明した通りである。

　　（ステップＳ２０４）
　次に、ステップＳ２０４において、分類行列等の初期化を行ない、その結果を図１０に示す分類行列バッファ１６４に格納する。ここで初期化する行列は、以下の３種類である。
　＊分類行列Ｃ（式［２．３］）
　＊指向性パターン生成行列Ｄ（式［２．８］）
　＊死角パターン生成行列Ｎ（数［２．９］）
　である。

　一般的なマイクロホン数ｎにおいてこれらの行列を生成する方法については後述する。
　以上で、初期化の説明を終える。

　次に、図１５に示す初期化処理の詳細フロー中のステップＳ２０４において実行する分類行列等の生成処理の詳細について、図１６に示すフローを参照して説明する。
　なお、この図１６に示すフローチャートの説明においては、行列Ａのｘ行目、ｙ列目の要素をＡ（ｘ，ｙ）と表記する。
　例えば、式［２．３］の分類行列Ｃにおいて、右下の要素はＣ（６，４）と表わすことができ、その値は－１である。また、行や列の添字の範囲をｘ：ｙで表わす。例えば、同じく式［２．３］の分類行列Ｃにおいて、一番左の列はＣ（１：６，１）と表わせる。また、その行列の３行目において－１が存在する要素はＣ（３，２：４）を表わせる。

　　（ステップＳ３０１）
　ステップＳ３０１において、
　分類行列Ｃ
　指向性パターン生成行列Ｄ
　死角パターン生成行列Ｎ
　それぞれについて、領域を確保するとともに、全要素を０で初期化する。
　これらの行列の大きさはどれも同じであり、行数がｎ（ｎ＋１）／２、列数がｎである。

　　（ステップＳ３０２）
　次に、ステップＳ３０２において、変数ｒに１を代入する。この変数ｒは、以降の処理において行列の行を表わすインデックスである。

　以下のステップＳ３０３～Ｓ３１１は、ａ，ｂという２つの変数の二重ループを構成している。変数ａは、各分類の組み合わせにおいて指向性型に属するパターンの個数を表わし、変数ｂは、同じく死角型に属するパターンの個数を表わす。
　ステップＳ３０４～Ｓ３１０は、変数ｂについてのループである。
　ａ＋ｂ≦ｎ
　を満たす必要があるため、このループにおける変数ｂの最大値はｎ－ａである。

　　（ステップＳ３０５）
　ステップＳ３０５は、分類行列Ｃの行列要素の一部の値をセットする処理である。
　分類行列Ｃは、先に説明した式［２．３］で示される行列である。式［２．４］を参照して説明したように、分類行列ＣとパターンＰ＿１～Ｐ＿ｎからなる行列Ｐとを乗じると、分類の組み合わせそれぞれについて、分類中指向性パターンと分類中死角パターンとの差を計算することができる（式［２．４］）。

　なお、先に図６のステップＳ１６において説明したように、指向特性パターンの分類処理の基本的な手順は、以下の通りである。
　　（１）ｎ（ｎ＋１）／２通りの分類の組み合わせそれぞれにおいて、指向性型タイプに分類されたパターンから指向性パターンの代表を計算し、同じく死角タイプに分類されたパターンから死角パターンの代表を計算する。これらを、それぞれ「分類中指向性パターン」「分類中死角パターン」と呼ぶ。
　　（２）分類中指向性パターンと分類中死角パターンとの間の距離尺度を計算し、その距離尺度が最大となる分類結果を採用する。

　分類行列Ｃは、先に説明した式［２．３］に示すように、１，０，－１の要素を持つ。なお、ステップＳ３０１の初期設定において、分類行列Ｃの全要素は０にセットされている。
　ステップＳ３０５では、初期設定で０になされている分類行列Ｃの要素中、特定の要素を１にする。具体的には、分類行列Ｃのｒ行目の１列目からａ列目までの要素に１を代入する。
　この処理は、分類行列のｒ行目を適用したパターンＰの分類処理において、指向特性パターンのＰ＿１～Ｐ＿ａを指向性型に属させることを意味する。
　なお、分類中指向性パターンは、指向性型に属するパターンの平均ではなくて総和であるため、ステップＳ３０５では、分類行列Ｃのｒ行目の１列目からａ列目までの要素に１を代入する。

　　（ステップＳ３０６）
　ステップＳ３０６は、指向性パターン生成行列Ｄの要素セット処理である。
　指向性パターン生成行列Ｄは、先に説明した式［２．８］によって示される行列である。
　例えば、先に説明した式［２．７］のベクトルＨのｋ番目の要素が最大であるとすると、式［２．１０］に示すように、指向性パターン生成行列のｋ行目のベクトルを指向特性パターン行列Ｐと乗じて指向性パターンを生成することができる。

　ステップＳ３０６では、ステップＳ３０５で分類行列Ｃに１を代入した要素位置と同じ指向性パターン生成行列Ｄの要素位置に１／ａを代入する。
　すなわち、指向性パターン生成行列Ｄのｒ行目の１列目からａ列目までの要素に１／ａを代入する。
　指向性パターンは、指向性型に属するパターンの平均であるため、ここで代入する値は１ではなく、パターンの個数の逆数（１／ａ）とする。

　　（ステップＳ３０７）
　ステップＳ３０７では、分類行列Ｃの要素中の一部を－１にする要素セット処理を行なう。
　分類行列Ｃのｒ行目の、ｎ－ｂ＋１列目からｎ列目までの要素に－１を代入する。
　これは、ｒ行目に対応した分類において、指向特性パターンのＰ＿｛ｎ－ｂ＋１｝～Ｐ＿ｎを死角型に属させることを意味する。
　なお、分類中死角パターンは、死角型に属するパターンの平均ではなくて総和であるため、ここで代入する値は－１である。また、１ではなくて－１を代入する理由は、分類中指向性パターンからの差分を計算するためである（式［２．４］の右辺を参照）。

　　（ステップＳ３０８）
　ステップＳ３０６は、死角パターン生成行列Ｎの要素のセット処理である。
　死角パターン生成行列Ｎは、先に説明した式［２．９］によって示される行列である。
　例えば、先に説明した式［２．７］のベクトルＨのｋ番目の要素が最大であるとすると、式［２．１１］に示すように、死角パターン生成行列のｋ行目のベクトルを指向特性パターン行列Ｐと乗じて死角パターンを生成することができる。

　ステップＳ３０８では、ステップＳ３０７で分類行列Ｃに－１を代入した要素位置と同じ死角パターン生成行列Ｎの要素位置に１／ｂを代入する。
　すなわち、死角パターン生成行列Ｎのｒ行目の、ｎ－ｂ＋１列目からｎ列目までの要素に１／ｂを代入する。
　死角パターンは、死角型に属するパターンの平均であるため、ここで代入する値は１ではなく、パターンの個数の逆数（１／ｂ）とする。

　　（ステップＳ３０９）
　ステップＳ３０９は、行のインデックスであるｒの更新処理であり、ｒをｒ＋１とする行インデックス更新処理を実行する。

　ステップＳ３１０でｂのループを閉じ、ステップＳ３１１においてａのループを閉じる。
　以上で、新規区間作成の説明を終える。

　次に、図１３に示す全体処理フロー中のステップＳ１０８において実行する方向点検出処理の詳細シーケンスについて、図１７に示すフローチャートを参照して説明する。

　　（ステップＳ４０１）
　ステップＳ４０１～Ｓ４０５の処理は、先に図６を参照して説明した図６に示すステップＳ１１～ステップＳ１９の処理に対応する。

　まず、ステップＳ４０１において、観測信号の共分散行列を求める。共分散行列の計算処理については、先に図６を参照して説明したが、再度、以下に算出式を示して説明する。なお、以下に示す式［４．１］～［４．５］は先に示した式［１．１］～［１．５］と同じ式である。

　上記式［４．１］～［４．５］を参照して、ステップＳ４０１における共分散行列の算出処理について説明する。
　ｎ本のマイクロホン中のｋ番目のマイクロホンで観測された信号に短時間フーリエ変換（Ｓｈｏｒｔ　Ｔｉｍｅ　Ｆｏｕｒｉｅｒ　Ｔｒａｎｓｆｏｒｍ：ＳＴＦＴ）を適用した結果をＸｋ（ω，ｔ）とし、Ｘ１（ω，ｔ）～Ｘｎ（ω，ｔ）からなるベクトルをＸ（ω，ｔ）とおく（式［４．１］）。
　ただし、
　ωは周波数ビンの番号（ω＝１，２，…，Ｍ）、
　ｔはフレームの番号である。

　次に、周波数ビンωごとに、複数のフレームからＸ（ω，ｔ）の共分散行列Ｒ（ω）を計算する（式［４．２］）。
　ただし、式［４．２］において、
　＜・＞＿｛ｔ－Ｌ'＜τ≦ｔ｝は、
　ｔ－Ｌ'＜τ≦ｔを満たすフレームの間でカッコ内の式の平均をとることを表わす。
　ｔはブロックの末端のフレーム番号
　Ｌ'はブロックの長さ（フレーム数）
　ｔ－Ｌ'＋１はブロックの始端のフレーム番号
　である。
　なお、ブロックは、例えば図１に示すブロックであり、各ブロックが各フレームに対応する。
　上記式［４．２］に従って算出される共分散行列を、Ｒ（ω）とする。
　ステップＳ４０１では、この共分散行列を産出する。
　なお、この共分散行列は、図６のステップ（Ｓ１１）で算出する共分散行列に相当する。

　なお、上記式［４．２］のＬ'はブロックの長さ（フレーム数）であるが、この値は頻度Ｌ（図１３の全体処理フローのステップＳ１０６に示す頻度Ｌ）と異なる値を用いても良い。例えば、Ｌ＝８，Ｌ'＝１６とすると、共分散行列は８フレームに１回の頻度で計算されるが、共分散行列自体は１６フレーム分の観測信号から計算される。

　　（ステップＳ４０２）
　次に、ステップＳ４０２において、共分散行列Ｒ（ω）に対して固有値分解（Ｅｉｇｅｎｖａｌｕｅ　ｄｅｃｏｍｐｏｓｉｔｉｏｎ）を適用することで、固有ベクトル（Ｅｉｇｅｎｖｅｃｔｏｒ）を計算する。固有値分解によって算出する固有ベクトルは上記の式［４．３］で表わされる。

　式［４．３］において、
　Λ（ω）は固有値からなる対角行列であり（式［４．５］）、
　Ｖ（ω）は固有ベクトルＶ＿１（ω）～Ｖ＿ｎ（ω）からなる行列である（式［４．４］）。
　また、上付きのＨはエルミート転置（要素を共役複素数に変換してから転置）を表わす。
　共分散行列Ｒ（ω）はＲ（ω）＾Ｈ＝Ｒ（ω）を満たすため、固有値λ＿１（ω）～λ＿ｎ（ω）は全て実数であり、これらは大きい順に並んでいるものとする。
　固有ベクトルＶ＿１（ω）～Ｖ＿ｎ（ω）の大きさは１であり、またお互いに直交しているとする。

　このステップＳ４０２で算出する固有ベクトルは、図６に示すステップＳ１２の固有ベクトルに対応する。

　なお、上記の式［４．１］～［４．５］に従った共分散行列の算出と固有ベクトルの算出処理は、基本的には１＜ω＜Ｍを満たす全ての周波数ビンωについて行なうが、先に図１１を参照して説明したステアリングベクトルと同様に、一部の周波数ビンに対して行なってもよい。
　ステップＳ４０２が終了した段階で、周波数ビンごとにｎ個の固有ベクトルが計算されている。

　　（ステップＳ４０３）
　ステップＳ４０３は、周波数ビンごとの指向特性パターン、例えば先に図６を参照して説明した図６のステップＳ１３～Ｓ１５の処理に相当する。すなわち、図６（Ｓ１３）に示す指向特性パターンＰａ～Ｐｄを生成し、周波数ビン間で平均等を計算する（図６（Ｓ１４））ことで、全周波数ビン共通の指向特性パターン（図６（Ｓ１５））を生成する処理からなる。
　この一連の処理について、以下に示す式［５．１］～［５．３］を参照して説明する。

　ω番目の周波数ビンにおいて、ｋ番目の固有ベクトルに対応した指向特性パターンの方向θの成分をＰ＿ｋ（ω，θ）とする。
　その値はその方向のゲインの２乗であり、式［５．１］から計算される。これを全ての方向θおよび周波数ビンωについて計算することで、周波数ビンごとの指向特性パターン（図６（Ｓ１３）に示す指向特性パターンＰａ～Ｐｄ）を計算する。
　このように、式［５．１］に従って、固有ベクトルに対し、各方向に対応したステアリングベクトルを作用させることで、方向と感度との関係を表わす指向特性パターンをｎ個生成する。

　次に、周波数ビン間での平均等の計算（図６（Ｓ１４））を、上記の式［５．２］を用いて行なう。この式［５．２］において、シグマ記号は対象となる周波数ビンωについての総和を表わす。Ωはその周波数ビンの個数である。対数の底は任意で良く、例えば１０を用いる。

　なお、対象となる周波数ビンωは、先に図１１を参照して説明したステアリングベクトルの生成処理と同様、基本的に、ω＝１（直流）とω＝Ｍ（ナイキスト周波数）とを除いた全周波数ビン（すなわち１＜ω＜Ｍ）を用いるが、特定の条件を満たす複数の周波数ビンのみを用いてもよい。例えば、計算量削減のために、偶数番目や３の倍数番目といった特定の値の倍数に相当する周波数ビンのみを使用してもよい。あるいは、音声区間検出のための音源方向推定であることを利用して、音声が主に含まれる周波数帯域に相当する周波数ビンのみを使用してもよい。

　式［５．２］の結果に対して式［５．３］を適用し、Ｐ＿ｋ（θ）の最大値を０に調整する。全てのθについて式［５．２］および式［５．３］を計算することで、全周波数ビンで共通の指向特性パターン（図６（Ｓ１５）に示す指向特性パターンＰ１～Ｐ４）を得る。式［５．３］の作用により、指向特性パターンは、最大値０をとる方向を除いて負の値を持つ。

　なお、式［５．２］は周波数ビン間での平均を表わしているが、ただの総和に置き換えても（すなわち、Ωでの除算を省略しても）、式［５．３］の結果は同一である。

　　（ステップＳ４０４）
　上記の処理によって生成されたｎ個の指向特性パターンに対して、ステップＳ４０４で分類処理を行なう。
　分類処理は、前述したように、以下の手順に従って実行することができる。
　　（１）ｎ（ｎ＋１）／２通りの分類の組み合わせそれぞれにおいて、指向性型タイプに分類されたパターンから指向性パターンの代表を計算し、同じく死角タイプに分類されたパターンから死角パターンの代表を計算する。これらを、それぞれ「分類中指向性パターン」「分類中死角パターン」と呼ぶ。
　　（２）分類中指向性パターンと分類中死角パターンとの間の距離尺度を計算し、その距離尺度が最大となる分類結果を採用する。

　距離尺度としては、ユークリッド距離を用いる。また、分類中指向性パターンとしては、指向性型に分類されているパターンの総和（平均ではなく）を用い、同じく、分類中死角パターンとしては、死角型に分類されているパターンの総和を用いる。

　分類の組み合わせごとに分類中指向性パターンと分類中死角パターンとを生成し、それらのユークリッド距離を計算する処理は、先に式［２．１］～［２．１１］を参照して説明した通りである。

　各分類結果に対応した指向性パターンと死角パターンとの間のユークリッド距離からなるベクトルＨを式［２．７］等から計算し、そのベクトルの中で最大の要素が何番目にあるかを調べることで、最適な分類結果が決定される。

　　（ステップＳ４０５）
　最適な分類結果が決定したら、ステップＳ４０５において、最適分類結果に対応した指向性パターンと死角パターンとを生成する。
　それぞれ、図６に示す指向性パターンＰ＿Ｄと死角パターンＰ＿Ｎに相当する。

　この各パターンの生成処理は、例えば、先に説明した式［２．７］のベクトルＨの要素を比較して処理を行なうことができる。
　すなわち、各要素が各分類結果に応じた分類中指向性パターンと分類中死角パターンとのユークリッド距離の２乗を表わすベクトルＨのＫ番目の要素が最大であるとすると、指向性パターンＰ＿Ｄは、式［２．８］の中のＤ＿Ｋを用いて式［２．１０］から生成する。死角パターンＰ＿Ｎは式［２．９］の中のＮ＿Ｋを用いて式［２．１１］から生成する。
　こうして、指向性パターンと死角パターンとが１個ずつ求まる。

　図１７のステップＳ４０６以下の処理は、この２つのパターンを用いて方向点を検出する処理として実行する。

　　（ステップＳ４０６）
　図１３に示す全体処理フローのステップＳ１０７における音声らしさ判定処理の判定結果による分岐である。処理対象としているブロックの観測信号が「音声らしくない」と判定された場合のみ、ステップＳ４０７に進む。
　一方、「音声らしい」と判定されたときは、ステップＳ４０８～Ｓ４０９の閾値の更新をスキップしてステップＳ４０９に進む。

　　（ステップＳ４０７）
　ステップＳ４０７～Ｓ４０８は、ステップＳ４０６において、処理対象ブロックの音が音声らしくないと判定された場合に実行する処理である。
　ステップＳ４０７では、今回の死角パターンおよび過去の死角パターンの間で平均を計算する。平均操作は、「音声らしくない」と判定されたブロックに対応した死角パターンの間で行う。しかも、ある程度時間が経過した死角パターンは平均に反映されないようにする。そのため、例えば忘却係数（ｆｏｒｇｅｔｔｉｎｇ　ｆａｃｔｏｒ）を用いて、以下に示す式［６．１］のように平均を更新する。

　なお、この式［６．１］において、上線のついたＰ＿Ｎは死角パターンの平均を表わし、以降の説明ではこれを平均死角パターンと呼ぶとともにｂａｒ（Ｐ＿Ｎ）と表記する。
　αは忘却係数であり、０に近い正の値（例えば０．０１）を用いる。

　式［６．１］は、その時点での平均死角パターンｂａｒ（Ｐ＿Ｎ）と、そのブロックでの死角パターンＰ＿Ｎとの間で、それぞれの重みをα－１およびαとする重みつき平均を計算し、その結果を新たな平均死角パターンとすることを意味する。

　式［６．１］のαは１－αと比べてずっと小さな値であるため、仮にステップＳ４０６における「音声らしさ」の判定が間違っていても、平均死角パターン（および後述の動的閾値）への影響は小さい。

　なお、平均死角パターンｂａｒ（Ｐ＿Ｎ）の初期値としては、全要素が０のベクトルを用いる。あるいは、後で説明する定数Ｔ＿ｓ，β，γを用いて、全要素を（Ｔ＿ｓ＋γ）／βという値にセットしてもよく、そうすると動的閾値はＴ＿ｓから始まる。言い換えると、動的閾値の上限であるＴ＿ｓは、動的閾値の初期値として機能する。

　　（ステップＳ４０８）
　次に、ステップＳ４０８において、平均死角パターンから動的な閾値を計算する。動的閾値は、先に図７を参照して説明したように平均死角パターンより少しだけ低い位置に設定するのがよく、そのために例えば式［６．２］を用いて計算する。この式において、左辺のＴ＿ｄ（θ）は方向θに対応した動的閾値である。右辺のｍｉｎ（）は、２つの引数の内の小さい方を選択することを表わす。ｂａｒ（Ｐ＿Ｎ（θ））は、平均死角パターンＰ＿Ｎの中で方向θに対応した要素である。βは１以上の値、γは０以上の値であり、この２つの調整することで、妨害音が鳴っていても音声は存在しない状態において方向点が誤検出されない程度の値に動的閾値がセットされるようにする。あるいは、β＝１と固定してγのみで調整したり、逆に、γ＝０と固定してβのみで調整したりしてもよい。

　式［６．２］のＴ＿ｓは０以下の定数であり、動的閾値の上限を表わす。β，γの他にＴ＿ｓを併用する理由は、主に静かな環境において方向点が誤検出されるのを防ぐためである。明確な音源が存在しない静かな環境では、平均死角パターンが０に近い負の値に収束しているため、死角パターンの小さな谷でも閾値を超えて方向点として検出されやすくなる。そのような方向点の検出を防ぐ目的でβ，γを調整すると、今度は音源が存在する環境において死角パターンが動的閾値を超えにくくなってしまう（発話が検出されにくくなる）可能性がある。そこで、静かな環境での閾値については、Ｔ＿ｓ（とｍｉｎ（））によって、平均死角パターンに由来する閾値とは独立に設定できるようにしているのである。

　なお、最大値を０に調整した指向特性パターンを用いて平均死角パターンを生成している場合は、その平均死角パターンに対して正の定数倍または正の定数の減算の少なくとも一方の演算処理を行なうことで、平均死角パターンより低い値を有する閾値を算出することができる。

　　（ステップＳ４０９）
　最後に、ステップＳ４０９で方向点の検出を行なう。具体的には、以下の条件をすべて満たした方向を方向点とする。
　　条件１：その方向は死角パターンの谷である。
　　条件２：谷の深さは動的閾値より深い。
　　条件３：その方向の付近に指向性パターンの山が存在する。
　　条件４：その方向の谷は、深い順の１位からｎ－１位までに含まれる。

　以下、それぞれの条件について説明する。
　条件１を式で表すと、以下に示す式［７．１］の通りである。

　ただし、θ＿ｉは、先に説明した式［２．１］におけるθ＿ｍｉｎからθ＿ｍａｘまでの方向の一つを表わす。また、θ＿｛ｉ－１｝は、式［２．１］のベクトルにおいて左隣の要素の方向、θ＿｛ｉ＋１｝は同じく右隣の要素の方向を表わす。

　条件２は式［７．２］で表わされる。
　条件３においては、死角パターンの谷の方向と指向性パターンの山の方向とは必ずしも一致しないため、所定のマージンを用いた判定を行なう。その式は、式［７．３］および式［７．４］で表わされる。すなわち、式［７．３］によって指向性パターンの山を検出し、その方向をθ＿｛ｉ'｝とする。そして式［７．４］のように、θ＿ｉと　θ＿｛ｉ'｝との差分の絶対値がマージンθ＿ｍａｒｇｉｎ以下であれば（式［７．４］を満たすθ＿｛ｉ'｝が少なくとも一つ存在すれば）、「死角パターンの谷の方向の付近に指向性パターンの山が存在する」と判定する。

　条件４は、ｎ個のマイクロホンによって形成される死角は最大でｎ－１個であること（空間エリアスや指向特性パターンの対称性に由来する死角を除く）に由来する。１位からｎ－１位までを選別する方法については、特許文献１（特開２０１２－１５０２３７号公報）等を参照されたい。
　以上で、方向点検出処理の説明を終える。

　次に、図１３に示す全体処理フロー中のステップＳ１０９の方向点トラッキング処理の詳細について、図１８以下に示すフローチャートを参照して説明する。
　図１８は、方向点トラッキング処理の全体処理フローである。

　　（ステップＳ５０１）
　ステップＳ５０１は、区間の延長・確定処理である。この処理は、図１２を参照して説明した方向点トラッキング部１０７の詳細構成中の作成中区間バッファ３１１に格納されている作成中区間に対する処理である。

　図１３に示す全体処理フロー中のステップＳ１０８の方向点検出処理において新たに検出された方向点を用いて作成中区間の延長や確定を行なう。さらに、確定した区間は後段の処理（音源抽出など）に送信される。詳細は後述する。
　なお、「作成中区間」とは、次のステップＳ５０２の新規区間作成処理で生成されてから区間が確定するまでの状態にある区間のことである。

　　（ステップＳ５０２）
　ステップＳ５０２は、新規区間作成処理であり、現在処理中のブロックを始点とする区間を見つけ出すための処理である。この詳細も後述する。

　次に、図１８に示す方向点トラッキング処理フロー中のステップＳ５０１で実行する区間の延長・確定処理の詳細シーケンスについて、図１９に示すフローチャートを参照して説明する。

　この「区間の延長・確定処理」は、図１２に示す作成中区間バッファ３１１に格納されている作成中区間に対する処理である。そのため、ステップＳ６０１～Ｓ６０８において作成中区間についてのループを回し、作成中区間１つずつに対して、ステップＳ６０２～Ｓ６０７の処理を行なう。

　　（ステップＳ６０２）
　ステップＳ６０２において、作成中区間の付近に方向点が存在しているかを調べる。図１２に示す作成中区間である区間情報３１１ｎ中の平均方向３２５と、方向点が保持している値とを比較し、両者の差が所定の範囲（例えば±１０°以内）に収まっていれば、作成中区間の付近に方向点が存在していると判定する。
　方向点が存在している場合は、ステップＳ６０３に進む。
　方向点が存在していない場合は、ステップＳ６０５に進む。

　　（ステップＳ６０３）
　ステップＳ６０３～Ｓ６０４は、区間の延長に関する処理である。
　ステップＳ６０３において、有効ブロック数（図１２に示す区間情報３１１ｎ中の有効ブロック数３２４）を＋１すると共に、断絶ブロック数（図１２に示す区間情報３１１ｎ中の断絶ブロック数３２６）に０を代入する。

　　（ステップＳ６０４）
　ステップＳ６０４において、区間の始端から現在化解析中のブロックまでの方向の平均を計算する。具体的には、更新前の平均方向（図１２に示す区間情報３１１ｎ中の平均方向３２５に保存されている値）をＡ、有効ブロック数（ステップＳ６０３で＋１した後の値）をＢ、方向点の値をＣとし、以下の式でＡを更新する。
　　Ａ←｛（Ｂ－１）Ａ＋Ｃ｝／Ｂ

　　（ステップＳ６０５～Ｓ６０６）
　ステップＳ６０２において付近に方向点が存在しない場合は、ステップＳ６０５に進む。この場合、それまで連続していた方向点が断絶したことを表わしており、一定時間以上断絶したら、区間の終端と判別する。

　この処理のため、ステップＳ６０５では、断絶ブロック数（図１２に示す区間情報３１１ｎ中の断絶ブロック数３２６）を＋１し、ステップＳ６０６において、その値が所定の値（例えば５ブロック）以上かどうかを判定する。
　断絶の長さが所定値以上の場合は区間の終端が確定したと見なし、ステップＳ６０７の「区間の出力・棄却」処理に進む。この処理の詳細については後述する。
　一方、断絶の長さが所定値未満の場合は、ステップＳ６０７をスキップして、ステップＳ６０８に進む。

　ステップＳ６０１～Ｓ６０８を全ての作成中区間に対して行なったら、ループを抜け、ステップＳ６０９の「多重採用のチェック」処理に進む。

　　（ステップＳ６０９）
　ステップＳ６０９では、１つの方向点が２つ以上の作成中区間に採用されている（多重採用）かどうかを調べ、もし複数の区間に採用されている場合は、その中で最も長い区間のみを残し、それ以外を削除する。あるいは、それら複数の区間をマージすることで新たな一つの区間を生成する。多重採用のチェックを行なう理由やその方法などについては、特許文献１（特開２０１２－１５０２３７号公報）を参照されたい。

　次に、図１９のフローのステップＳ６０７の「区間の出力・棄却」処理の詳細シーケンスについて、図２０に示すフローチャートを参照して説明する。
　なお、「区間の出力」とは、確定した区間を後段の処理（例えば音源抽出処理部）に送ることであり、「区間の棄却」とは、区間が所定の条件を満たさなかったため、その後の処理には利用せず、捨てることである。

　　（ステップＳ７０１）
　ステップＳ７０１において終端ブロック番号を計算し、その値を、図１２に示す方向点トラッキング部１０７の作成中区間バッファ３１１内の区間情報３１１ｎ中の終端ブロック番号３２３に代入する。

　現ブロック番号（図１２の現ブロック番号３３１の値）をＢ、図１９に示すフロー中のステップＳ６０６の判定処理における所定値をＢ＿｛ｄｉｓｃｏｎｔｉｎｕｅ｝とすると、終端ブロック番号は以下の式で計算される。
　終端ブロック番号＝Ｂ－Ｂ＿｛ｄｉｓｃｏｎｔｉｎｕｅ｝

　以下のステップＳ７０２～Ｓ７０５は、区間が満たすべき諸条件についての判定処理であり、全ての条件を満たした場合のみ、ステップＳ７０６に進む。以降では、各条件について説明する。ただし、各条件の判定は順不同である。

　　（ステップＳ７０２）
　ステップＳ７０２は、区間が保持している平均方向（図１２に示す区間情報３１１ｎ中の平均方向３２５）が所定の範囲にあるかどうかの判定である。例えば、音声認識を用いたシステムにおいてユーザはその正面付近（０°付近）からのみ発話すると分かっている場合、受理する目的音の方向を例えば－５°～＋５°に制限し、区間の方向がその範囲を外れていたら区間を棄却する。一方、目的の音源があらゆる方向に存在し得るような用途では、この判定は行なわない。

　　（ステップＳ７０３）
　ステップＳ７０３は、区間の長さについての判定である。所定の値よりも短い区間（例えば０．１秒よりも短い）を棄却することで、区間の誤検出を抑圧することができる。また、所定の値（例えば３０秒）より長い区間を棄却することで、後段処理が扱えないような長い区間が検出されるのを防ぐ。

　なお、従来技術の問題点で説明したように、例えば特許文献１（特開２０１２－１５０２３７号公報）においては、鳴りっぱなしの妨害音が音声区間として検出されるのを防ぐ目的で区間長に上限を設定していたが、本開示においては、「音声らしさ」に基づいた動的閾値の効果により、鳴りっぱなしの妨害音はやがて検出されなくなる。従って、区間の長さの上限は、後段処理の都合によって決定すればよい。

　　（ステップＳ７０４）
　ステップＳ７０４は、「音声らしい」ブロックの割合についての判定である。区間を構成するブロックのうち、「音声らしい」と判定されたブロックの個数を数え、区間のブロック数（終端ブロック番号と始端ブロック番号との差分＋１）に対する割合が所定の値（例えば０．５）を下回っていたら区間を棄却する。「音声らしい」ブロックの個数については、始端ブロック番号（図１２に示す区間情報３１１ｎ中の始端ブロック番号３２２）、終端ブロック番号（図１２に示す区間情報３１１ｎ中の終端ブロック番号３２３）をそれぞれフレーム番号に変換した上で、観測信号バッファ（図９に示す観測信号バッファ１０４）に問い合わせることで取得できる。

　　（ステップＳ７０５）
　ステップＳ７０５は、区間の中で有効ブロック（方向点を持つブロック）の割合についての判定である。
　区間の始端ブロック番号（図１２に示す区間情報３１１ｎ中の始端ブロック番号３２２）をＢ＿｛ｂｅｇｉｎ｝、
　終端ブロック番号（図１２に示す区間情報３１１ｎ中の終端ブロック番号３２３）をＢ＿｛ｅｎｄ｝、
　有効ブロック数（図１２に示す区間情報３１１ｎ中の有効ブロック数３２４）をＢ＿｛ｖａｌｉｄ｝とすると、
　有効ブロックの割合は以下の式で計算される。
　有効ブロックの割合＝Ｂ＿｛ｖａｌｉｄ｝／（Ｂ＿｛ｅｎｄ｝－Ｂ＿｛ｂｅｇｉｎ｝＋１）

　この値が所定の値（例えば０．５）以上かどうかを判定する。有効ブロックの割合が低い場合、その区間は、誤検出された方向点を飛び飛びに接続して生成されたものである可能性が高い。そのような区間を棄却することで、区間の誤検出が抑制される。

　　（ステップＳ７０６）
　ステップＳ７０２～Ｓ７０５の判定を全て満たした場合は、ステップＳ７０６の「出力」に進む。ここでは、区間が作成中区間バッファ（図１２に示す作成中区間バッファ３１１）から取り除かれると共に、音声認識部等の後段処理部に送られる。

　　（ステップＳ７１１）
　ステップＳ７０２～Ｓ７０５の判定処理において、１つでも満たさない判定された場合は、ステップＳ７１１の「棄却」に進む。ここでは、区間が作成中区間バッファ（図１２に示す作成中区間バッファ３１１）から取り除かれるだけであり、後段処理部に対する出力は行なわれない。

　次に、図１８に示す方向点トラッキング処理フロー中のステップＳ５０２で実行する新規区間作成処理の詳細シーケンスについて、図２１に示すフローチャートを参照して説明する。

　図２１に示すフローにおいて、ステップＳ８０１～Ｓ８０４の処理は、方向点についてのループであり、図１３の全体処理フロー中のステップＳ１０８で検出された方向点のそれぞれについて、ステップＳ８０１～Ｓ８０４の処理を行なう。

　　（ステップＳ８０２）
　ステップＳ８０２において、処理対象としている方向点の付近に作成中区間が存在するかどうかを調べる。この判定処理は、
図１９のフローのステップＳ６０２の判定処理と同様の処理である。付近に作成中区間が存在しない場合、その方向点は区間の始点として扱われ、ステップＳ８０３の「区間作成」に進む。付近に作成中区間が存在する場合は、ステップＳ８０３の処理をスキップする。

　　（ステップＳ８０３）
　ステップＳ８０３では、先に図１２を参照して説明した区間情報３１１a～３１１ｎを生成する。すなわち、区間ＩＤ３２１、始端ブロック番号３２２、終端ブロック番号３２３、有効ブロック数３２４、平均方向３２５、断絶ブロック数３２６の各スロットに所定の値をそれぞれ代入することで、新たな区間情報を生成する。
　以下では、各スロットに代入する値について説明する。

　区間ＩＤ３２１には、区間が生成されるたびに＋１させた値を代入する。すなわち、最初に生成された区間には区間ＩＤ＝１を代入し、その後の区間に対しては２，３，・・・という値を代入していく。
　始端ブロック番号３２２には、現ブロック番号３３１を代入する。
　終端ブロック番号３２３に対しては、この時点では終端が検出されていないため、未定義を表わす値を代入しておく。あるいは、現ブロック番号３３１を代入してもよい。

　平均方向３２５には、方向点が保持している方向を代入する。
　断絶ブロック数３２６には０を、有効ブロック数３２４には１を代入する。
　ブロック内の全ての方向点に対してステップＳ８０２～Ｓ８０３を実行したら、新規区間作成の処理は終了である。
　以上で処理の説明を終わる。

　　［６．本開示の音信号処理装置の実行する処理による効果について］
　本開示の処理では、音源方向推定に基づく音声区間検出において以下の工夫を行なっている。
　（１）指向特性パターンを周波数ビン間で平均し、さらにそれらを指向性型・死角型・中立型に分類し、指向性型および死角型に分類された指向特性パターンをそれぞれ平均することで、指向性パターンおよび死角パターンを生成する。
　（２）死角パターンの閾値は、入力信号が「音声らしい」と判定されたタイミングでのみ更新する。具体的には、「音声らしい」と判定されたブロックの間で死角パターンの平均を計算し、その平均死角パターンよりも少しだけ低い高さに閾値をセットする。

　上記（１）によって、例えば特許文献１（特開２０１２－１５０２３７号公報）等に記載された従来法よりも多くの指向特性パターンの間で平均操作が行なわれるようになり、生成される指向性パターンおよび死角パターンは従来よりも凹凸が減った滑らかなものとなる。その結果、死角パターンの凹と指向性パターンの凸とがたまたま近接したために偽の方向点として検出されてそれが区間の誤検出の原因となる問題は、発生頻度が減少する。

　また、上記（２）によって、死角パターンの閾値が動的かつ適切に設定されるようになるため、静的な閾値では解決困難であった問題が解決する。
　特に、妨害音が鳴りっぱなしの状況や全マイクロホンで同位相のノイズが混入する場合などでは、従来法では死角パターン上に偽の谷が形成され、そこから方向点が検出されることにより、発話と対応しない偽の音声区間が検出されたり、それを棄却しようとすると、偽の谷と同じ方向からの音声発話が検出されなったりするといった問題が発生していた。

　それに対し本開示の処理では、閾値の動的な更新により、偽の谷よりも少し深い位置に閾値が適切に設定されるため、発話がないときは偽の谷の方向の区間を検出することがない一方で、偽の谷の方向から発話があるとその方向の区間を適切に検出することもできるようになる。

　また、動的閾値の別の利点として、非音声の音源が音声区間として検出されるのを容易に抑止できることが挙げられる。従来、音源方向推定に基づく音声区間検出は、その原理上、同一方向から鳴りつづけている音源であれば非音声であっても音声区間として検出してしまうという課題があったため、方向や区間長に制約を設けて非音声の区間を棄却したり、その区間に対して後段の処理である音源抽出や音声認識などを行なってから音声認識のスコアや信頼度に基づいて棄却したりするといったことが行なわれてきた。

　しかし、方向や区間長に制約を設ける方法には、本当の音声発話であっても棄却される可能性があるという副作用があり、もう一方の、音声認識のスコアや信頼度を用いる方法には、計算量の増加や誤判定や認識結果生成までの待ち時間の増大という課題があった。
それに対して本開示では、閾値の動的な更新により、鳴りっぱなしの非音声の音源については、それが形成する谷よりも深い位置に閾値が設定されるようになるため、起動直後や妨害音鳴り始め直後を除き、その方向の区間は検出されなくなる。従って、前述の副作用も計算量増加も待ち時間の増大も回避することができる。
以上により、本開示によって音声区間検出の精度が向上する。それに伴い、音声区間検出を備えたシステム、特に音声認識を備えたシステムの有用性が向上する。

　　［７．本開示の構成のまとめ］
　以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

　なお、本明細書において開示した技術は、以下のような構成をとることができる。
　（１）　音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出する方向点検出部と、
　前記方向点を複数ブロック間で接続して音が発生している区間の検出を行う方向点トラッキング部を有し、
　前記方向点検出部は、
　方向と感度との対応関係のプロットであり、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成部と、
　前記死角パターンの極小点を音源方向として検出する方向点検出実行部と、
　音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する死角パターン平均部と、
　前記死角パターンから音源方向対応の極小点検出に適用する閾値として、前記平均死角パターンよりやや低い値に設定された動的閾値を算出する動的閾値計算部を有し、
　前記方向点検出実行部は、
　前記死角パターンから前記動的閾値以下の極小点を選択し、選択した極小点に対応する方向を音源方向として検出する音信号処理装置。

　（２）前記方向点検出部は、音源方向に対する感度が相対的に高いという指向特性を表わしている指向性パターンを生成する指向性パターン生成部を有し、前記方向点検出実行部は、前記死角パターンの極小点と、前記指向性パターンの極大点の組み合わせを有する方向を音源方向として検出する前記（１）に記載の音信号処理装置。

　（３）前記音信号処理装置は、異なる位置に配置した複数のマイクロホンが取得した観測信号に対して短時間フーリエ変換（ＳＴＦＴ）を適用して時間周波数領域の観測信号へと変換する短時間フーリエ変換部を有し、前記方向点検出部は、時間周波数領域の観測信号から共分散行列を計算し、共分散行列に対して固有値分解を適用して複数の固有ベクトルを算出し、算出した複数の固有ベクトルに対して、各方向に対応したステアリングベクトルを作用させて、方向と感度との関係を表わす複数の指向特性パターンを生成する前記（１）または（２）に記載の音信号処理装置。

　（４）前記方向点検出部は、前記複数の指向特性パターンを、
　（ａ）音源方向に対する感度が相対的に高いという指向特性を表わしている指向性型、
　（ｂ）音源方向に対する感度が相対的に低いという指向特性を表わしている死角型、
　（ｃ）上記（ａ），（ｂ）のいずれにも属さない中立型、
　上記（ａ）～（ｃ）の３種類に分類する指向特性パターン分類部と、
　前記指向性型に分類されたパターンを適用して、音源方向に対する感度が相対的に高いという指向特性を表わしている指向性パターンを生成する指向性パターン生成部と、
　前記死角型に分類されたパターンを適用して、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成部を有する前記（３）に記載の音信号処理装置。

　（５）前記指向特性パターン分類部は、前記指向特性パターンの分類処理に際して、指向性型に属する指向特性パターンから計算される代表指向性パターンと、死角型に属する指向特性パターンから計算される代表死角パターンと、をそれぞれ算出し、算出した代表指向性パターンと代表死角パターンとの間の距離尺度を最大にする分類処理を実行する前記（４）に記載の音信号処理装置。

　（６）指向特性パターン分類部は、前記代表指向性パターンを、指向性型に属するパターンの総和として算出し、前記代表死角パターンを、死角型に属するパターンの総和として算出する前記（５）に記載の音信号処理装置。

　（７）前記距離尺度は、代表指向性パターンと代表死角パターンとの間のユークリッド距離である前記（５）または（６）に記載の音信号処理装置。

　（８）前記指向性パターン生成部は、前記指向性型に分類されたパターンの平均を指向性パターンとして生成し、前記死角パターン生成部は、前記死角型に分類されたパターンの平均を死角パターンとして生成する前記（４）～（６）いずれかに記載の音信号処理装置。

　（９）前記方向点検出部は、時間周波数領域の観測信号から共分散行列を計算し、共分散行列に対して固有値分解を適用して、複数の固有ベクトルを算出し、算出した複数の固有ベクトルに対して、各方向に対応したステアリングベクトルを作用させて、方向と感度との関係を表わす複数の指向特性パターンを生成する構成であり、前記複数の指向特性パターンの生成処理において、各周波数帯域における各方向のゲインの２乗を算出し、複数の周波数帯域間で２乗ゲインを平均または総和して平均２乗ゲインまたは総和２乗ゲインを算出し、平均２乗ゲインまたは総和２乗ゲインの対数化処理、および最大値を０に調整する処理を行なって前記複数の指向特性パターンを生成する前記（３）～（８）いずれかに記載の音信号処理装置。

　（１０）前記動的閾値計算部は、前記平均死角パターンに対して正の定数倍または正の定数の減算の少なくともいずれかの演算処理を行なうことで、前記平均死角パターンよりやや低い値に設定された動的閾値を算出する前記（９）に記載の音信号処理装置。

　（１１）前記音信号処理装置は、入力音信号の周期性に基づいて、入力音信号が音声らしいか否かを判定する音声らしさ判定部を有し、前記死角パターン平均部は、前記音声らしさ判定部の判定結果に基づいて、音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する全期（１）～（１０）いずれかに記載の音信号処理装置。

　（１２）前記死角パターン平均部は、前記音声らしさ判定部が音声らしくないと判定した時刻における死角パターンと、その時点で既に計算されていた平均死角パターンとの間で忘却係数を用いた重みつき平均により、平均死角パターンの更新を行う前記（１１）に記載の音信号処理装置。

　（１３）　音信号処理装置において実行する音信号処理方法であり、
　方向点検出部が、音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出する方向点検出ステップと、
　方向トラッキング部が、前記方向点を複数ブロック間で接続して区間の検出を行う方向トラッキングステップを実行し、
　前記方向点検出ステップは、
　方向と感度との対応関係のプロットであり、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成処理と、
　前記死角パターンの極小点を音源方向として検出する方向点検出処理と、
　音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する死角パターン平均処理と、
　前記死角パターンから音源方向対応の極小点検出に適用する閾値として、前記平均死角パターンよりやや低い値に設定された動的閾値を算出する動的閾値計算処理を実行し、
　前記方向点検出処理は、
　前記死角パターンから前記動的閾値以下の極小点を選択し、選択した極小点に対応する方向を音源方向として検出する音信号処理方法。

　（１４）　音信号処理装置において音信号処理を実行させるプログラムであり、
　方向点検出部に、音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出させる方向点検出ステップと、
　方向トラッキング部に、前記方向点を複数ブロック間で接続して区間の検出を行わせる方向トラッキングステップを実行させ、
　前記方向点検出ステップにおいては、
　方向と感度との対応関係のプロットであり、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成処理と、
　前記死角パターンの極小点を音源方向として検出する方向点検出処理と、
　音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する死角パターン平均処理と、
　前記死角パターンから音源方向対応の極小点検出に適用する閾値として、前記平均死角パターンよりやや低い値に設定された動的閾値を算出する動的閾値計算処理を実行させ、
　前記方向点検出処理において、
　前記死角パターンから前記動的閾値以下の極小点を選択し、選択した極小点に対応する方向を音源方向として検出させるプログラム。

　また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

　なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　以上、説明したように、本開示の一実施例の構成によれば、複数の音が混在した音信号から高精度に音声区間を判定する装置、方法が実現される。
　具体的には、音信号の音源方向を示す方向点を時間方向に接続し、音声区間を検出する構成において、音源方向に対する指向特性に応じたパターン分類を行い、分類結果から指向性パターン、死角パターンを生成する。また、音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する。さらに、死角パターンからの音源方向対応の極小点検出に適用する閾値として、平均死角パターンよりやや低い値に設定された閾値を算出し、閾値以下の極小点を、音源方向対応点と判定する。
　上記構成により、複数の音が混在した音信号から高精度に音声区間を判定する装置、方法が実現される。

　　１１　ブロック
　　１２　方向点
　　１５，１６　音声区間
　　２１　重心
　　２２　マイクマロホン
　　２５，２６　音源
　　３１　死角パターン
　　３２　指向性パターン
　　４１　死角パターン
　　５１，５２　方向点
　　５３，５４，５５，５７　区間
　　７１　死角パターン
　　７２　閾値
　　７３　死角パターン
　　８１　死角パターン
　　８４　死角パターン
　１０１　マイクロホンアレイ
　１０２　ＡＤ変換部
　１０３　ＳＴＦＴ部
　１０４　観測信号バッファ
　１０５　方向点検出部
　１０６　音声らしさ判定部
　１０７　方向点トラッキング部
　１０８　音源抽出部
　１０９　後段処理部
　１５１　観測信号バッファ
　１５２　共分散行列計算部
　１５３　共分散行列格納部
　１５４　固有ベクトル計算部
　１５５　固有ベクトル格納部
　１５６　ステアリングベクトル格納部
　１５７　指向特性パターン生成部
　１５８　指向特性パターン格納部
　１５９　指向特性パターン分類部
　１６０　指向性型格納部
　１６１　中立型格納部
　１６２　死角型格納部
　１６３　指向性パターン＆死角パターン格納部
　１６４　分類行列バッファ
　１６５　指向性パターン格納部
　１６６　死角パターン格納部
　１６７　音声らしさ判定部
　１６８　死角パターン平均部
　１６９　平均死角パターン格納部
　１７０　動的閾値計算部
　１７１　動的閾値格納部
　１７２　方向点検出部
　１７３　方向点バッファ
　２５１　方向ベクトル
　２５２　基準点
　２５３，２５４　マイクロホン
　３１１　作成中区間バッファ
　３２１　区間ＩＤ
　３２２　始端ブロック番号
　３２３　終端ブロック番号
　３２４　有効ブロック数
　３２５　平均方向
　３２６　断絶ブロック数
　３３１　現ブロック番号
　３３２　方向点バッファ
　４０１～４０３　フレーム

Claims

　音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出する方向点検出部と、
　前記方向点を複数ブロック間で接続して音が発生している区間の検出を行う方向点トラッキング部を有し、
　前記方向点検出部は、
　方向と感度との対応関係のプロットであり、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成部と、
　前記死角パターンの極小点を音源方向として検出する方向点検出実行部と、
　音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する死角パターン平均部と、
　前記死角パターンから音源方向対応の極小点検出に適用する閾値として、前記平均死角パターンよりやや低い値に設定された動的閾値を算出する動的閾値計算部を有し、
　前記方向点検出実行部は、
　前記死角パターンから前記動的閾値以下の極小点を選択し、選択した極小点に対応する方向を音源方向として検出する音信号処理装置。
　前記方向点検出部は、
　音源方向に対する感度が相対的に高いという指向特性を表わしている指向性パターンを生成する指向性パターン生成部を有し、
　前記方向点検出実行部は、
　前記死角パターンの極小点と、前記指向性パターンの極大点の組み合わせを有する方向を音源方向として検出する請求項１に記載の音信号処理装置。
　前記音信号処理装置は、
　異なる位置に配置した複数のマイクロホンが取得した観測信号に対して短時間フーリエ変換（ＳＴＦＴ）を適用して時間周波数領域の観測信号へと変換する短時間フーリエ変換部を有し、
　前記方向点検出部は、
　時間周波数領域の観測信号から共分散行列を計算し、共分散行列に対して固有値分解を適用して、複数の固有ベクトルを算出し、算出した複数の固有ベクトルに対して、各方向に対応したステアリングベクトルを作用させて、方向と感度との関係を表わす複数の指向特性パターンを生成する請求項１に記載の音信号処理装置。
　前記方向点検出部は、
　前記複数の指向特性パターンを、
　（ａ）音源方向に対する感度が相対的に高いという指向特性を表わしている指向性型、
　（ｂ）音源方向に対する感度が相対的に低いという指向特性を表わしている死角型、
　（ｃ）上記（ａ），（ｂ）のいずれにも属さない中立型、
　上記（ａ）～（ｃ）の３種類に分類する指向特性パターン分類部と、
　前記指向性型に分類されたパターンを適用して音源方向に対する感度が相対的に高いという指向特性を表わしている指向性パターンを生成する指向性パターン生成部と、
　前記死角型に分類されたパターンを適用して、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成部を有する請求項３に記載の音信号処理装置。
　前記指向特性パターン分類部は、
　前記指向特性パターンの分類処理に際して、
　指向性型に属する指向特性パターンから計算される代表指向性パターンと、
　死角型に属する指向特性パターンから計算される代表死角パターンと、
　をそれぞれ算出し、算出した代表指向性パターンと代表死角パターンとの間の距離尺度を最大にする分類処理を実行する請求項４に記載の音信号処理装置。
　指向特性パターン分類部は、
　前記代表指向性パターンを、指向性型に属するパターンの総和として算出し、
　前記代表死角パターンを、死角型に属するパターンの総和として算出する請求項５に記載の音信号処理装置。
　前記距離尺度は、代表指向性パターンと代表死角パターンとの間のユークリッド距離である請求項５に記載の音信号処理装置。
　前記指向性パターン生成部は、
　前記指向性型に分類されたパターンの平均を指向性パターンとして生成し、
　前記死角パターン生成部は、
　前記死角型に分類されたパターンの平均を死角パターンとして生成する請求項４に記載の音信号処理装置。
　前記方向点検出部は、
　時間周波数領域の観測信号から共分散行列を計算し、共分散行列に対して固有値分解を適用して複数の固有ベクトルを算出し、算出した複数の固有ベクトルに対して、各方向に対応したステアリングベクトルを作用させて、方向と感度との関係を表わす複数の指向特性パターンを生成する構成であり、
　前記複数の指向特性パターンの生成処理において、
　各周波数帯域における各方向のゲインの２乗を算出し、複数の周波数帯域間で２乗ゲインを平均または総和して平均２乗ゲインまたは総和２乗ゲインを算出し、平均２乗ゲインまたは総和２乗ゲインの対数化処理、および最大値を０に調整する処理を行なって前記複数の指向特性パターンを生成する請求項３に記載の音信号処理装置。
　前記動的閾値計算部は、
　前記平均死角パターンに対して正の定数倍または正の定数の減算の少なくともいずれかの演算処理を行なうことで、前記平均死角パターンよりやや低い値に設定された動的閾値を算出する請求項９に記載の音信号処理装置。
　前記音信号処理装置は、
　入力音信号の周期性に基づいて、入力音信号が音声らしいか否かを判定する音声らしさ判定部を有し、
　前記死角パターン平均部は、前記音声らしさ判定部の判定結果に基づいて、音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する請求項１に記載の音信号処理装置。
　前記死角パターン平均部は、
　前記音声らしさ判定部が音声らしくないと判定した時刻における死角パターンと、その時点で既に計算されていた平均死角パターンとの間で忘却係数を用いた重みつき平均により、平均死角パターンの更新を行う請求項１１に記載の音信号処理装置。
　音信号処理装置において実行する音信号処理方法であり、
　方向点検出部が、音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出する方向点検出ステップと、
　方向トラッキング部が、前記方向点を複数ブロック間で接続して区間の検出を行う方向トラッキングステップを実行し、
　前記方向点検出ステップは、
　方向と感度との対応関係のプロットであり、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成処理と、
　前記死角パターンの極小点を音源方向として検出する方向点検出処理と、
　音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する死角パターン平均処理と、
　前記死角パターンから音源方向対応の極小点検出に適用する閾値として、前記平均死角パターンよりやや低いに設定された動的閾値を算出する動的閾値計算処理を実行し、
　前記方向点検出処理は、
　前記死角パターンから前記動的閾値以下の極小点を選択し、選択した極小点に対応する方向を音源方向として検出する音信号処理方法。
　音信号処理装置において音信号処理を実行させるプログラムであり、
　方向点検出部に、音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出させる方向点検出ステップと、
　方向トラッキング部に、前記方向点を複数ブロック間で接続して区間の検出を行わせる方向トラッキングステップを実行させ、
　前記方向点検出ステップにおいては、
　方向と感度との対応関係のプロットであり、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成処理と、
　前記死角パターンの極小点を音源方向として検出する方向点検出処理と、
　音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する死角パターン平均処理と、
　前記死角パターンから音源方向対応の極小点検出に適用する閾値として、前記平均死角パターンよりやや低い値に設定された動的閾値を算出する動的閾値計算処理を実行させ、
　前記方向点検出処理において、
　前記死角パターンから前記動的閾値以下の極小点を選択し、選択した極小点に対応する方向を音源方向として検出させるプログラム。