WO2014125736A1

WO2014125736A1 - 音声認識装置、および音声認識方法、並びにプログラム

Info

Publication number: WO2014125736A1
Application number: PCT/JP2013/084202
Authority: WO
Inventors: 厚夫廣江
Original assignee: ソニー株式会社
Priority date: 2013-02-14
Filing date: 2013-12-20
Publication date: 2014-08-21
Also published as: US10475440B2; US20160005394A1

Abstract

複数の音が混在した音信号から、迅速に目的音を抽出する装置、方法を提供する。音源方向と音声区間を検出し、音源抽出処理を実行するトラッキング部と、音源抽出結果を入力して音声認識処理を実行する音声認識部を有する。トラッキング部は、音源単位の音声区間の生成管理を行なう作成中区間管理部各々が音源方向の逐次的検出を行い、検出結果を時間方向に接続した音声区間を順次更新するとともに、音声区間始端から所定時間経過後に音源抽出用のフィルタを生成し、生成フィルタを逐次的に入力信号に適用して音源抽出結果を逐次的に生成する。音声認識部は、部分的な音源抽出結果に対する音声認識処理を逐次的に実行して、音声認識結果を出力する。

Description

音声認識装置、および音声認識方法、並びにプログラム

　本開示は、音声認識装置、および音声認識方法、並びにプログラムに関する。さらに詳細には、音声区間検出や音源抽出を実行し、これらの処理結果に基づいて音声認識を実行する音声認識装置、および音声認識方法、並びにプログラムに関する。

　音声認識処理は、例えばマイクロホンの取得音から人の発話内容を解析する処理として行われる。音声認識は様々な装置において利用可能である。例えば、携帯端末やテレビなどの情報処理装置に音声認識部を設け、これらの装置に対してユーザが発した言葉（ユーザ発話）を解析することで、携帯端末やテレビなどの情報処理装置に発話に基づく処理を実行させることが可能となる。

　しかし、マイクロホンの取得音には、音声認識対象となるユーザの発話音声（目的音と呼ばれる）のみならず、様々な雑音（ノイズや環境音、妨害音等と呼ばれる）が含まれる。様々な音源からの雑音が含まれる混合信号から目的音、すなわち特定のユーザ発話を抽出する処理は困難であり、雑音の多い環境では音声認識精度が低下してしまうという問題がある。マイクロホンからユーザの口までの距離が離れるほど妨害音は混入しやすくなるため、この問題は一層困難となる。
　また、マイクロホンからユーザまでの距離が離れると、音声入力の開始および終了をユーザが明示的に指示するためのボタン等を設置することが困難となるため、他の手段によって発話の開始および終了を検出する必要がある。

　そのような環境での音声認識精度を向上させるためには、例えば以下の処理を適用することが有効であり、従来から、それらの処理について提案がなされている。
　（ａ）音声認識処理対象とする区間を規定する音声区間検出処理、
　（ｂ）複数の音源から発生した様々な音の混在する音信号から、目的音のみを抽出する音源分離処理、あるいは音源抽出処理、
　これらの処理を、音声認識処理の前に行なうことで、音声認識対象としての音信号を時間的および空間的に絞り込むことが可能となり、目的音の認識精度を高めることができる。

　音声区間検出処理については、例えば特許文献１（特開２０１２－１５０２３７号公報）や、特許文献２（特許４１８２４４４号公報）に記載がある。
　また、音源分離処理や、音源抽出処理については、特許文献３（特開２０１１－１０７６０２号公報）等に記載がある。

　また、音声認識処理を開示した従来技術として、例えば特許文献４（特開２００１－２４２８８３号公報）、特許文献５（特開２００６－０５３２０３号公報）、特許文献６（特開２０１１－０３３６８０号公報）などがある。

特開２０１２－１５０２３７号公報特許４１８２４４４号公報特開２０１１－１０７６０２号公報特開２００１－２４２８８３号公報特開２００６－０５３２０３号公報特開２０１１－０３３６８０号公報

　本件は、音声認識対象とする目的音の高精度な解析を実現する音声認識装置、および音声認識方法、並びにプログラムを提供することを目的とする。

　本開示の一実施例においては、例えば音声区間検出や音源抽出を実行し、これらの処理結果を利用して音声認識処理を行なうことで、目的音の高精度な解析を実現する音声認識装置、および音声認識方法、並びにプログラムを提供する。

　本開示の第１の側面は、
　音源方向と音声区間を検出し、音源抽出処理を実行するトラッキング部と、
　前記トラッキング部から音源抽出結果を入力して音声認識処理を実行する音声認識部を有し、
　前記トラッキング部は、音源単位の音声区間の生成管理を行なう作成中区間管理部を生成し、
　生成された作成中区間管理部各々は、
　音源方向の逐次的検出を行い、検出結果を時間方向に接続することで推定される音声区間を順次更新する音声区間作成処理を実行するとともに、
　音声区間始端から所定時間経過後に音源抽出用の抽出フィルタを生成し、生成した抽出フィルタを逐次的に入力音声信号に適用して音声区間の部分的な音源抽出結果を逐次的に生成する構成であり、
　前記トラッキング部は、
　前記作成中区間管理部の生成した部分的な音源抽出結果を順次、音声認識部に出力する処理を実行し、
　前記音声認識部は、
　前記トラッキング部から入力する部分的な音源抽出結果に対する音声認識処理を逐次的に実行して、音声認識結果を出力する音声認識装置にある。

　さらに、本開示の音声認識装置の一実施態様において、前記トラッキング部は、前記作成中区間管理部の各々において、複数の異なる方式に従って検出される複数の音源方向情報を、まとめて時間方向に連結する音声区間作成処理を実行する。

　さらに、本開示の音声認識装置の一実施態様において、前記トラッキング部は、画像入力部からの入力画像から検出されたユーザの合図が音声区間の始端または終端を意味することを検出した場合、始端または終端の確定処理を即時に実行する。

　さらに、本開示の音声認識装置の一実施態様において、前記トラッキング部の作成中区間管理部は、観測信号から特定音源の音声を優先的に抽出する抽出フィルタの生成において、音声区間の始端より前の時点からフィルタ生成時点までの入力観測信号を利用して抽出フィルタを生成する。

　さらに、本開示の音声認識装置の一実施態様において、前記トラッキング部の作成中区間管理部は、観測信号から特定音源の音声を優先的に抽出する抽出フィルタを適用した結果を生成するとともに、前記抽出フィルタの推定で使用される観測信号に含まれる全ての音源の音を減衰させる全死角空間フィルタを推定し、その全死角空間フィルタを適用した結果を前記抽出フィルタの適用結果から減算することで、観測信号に含まれない妨害音の除去を実行して音源抽出結果を生成する請求項１に記載の音声認識装置。

　さらに、本開示の音声認識装置の一実施態様において、前記トラッキング部の作成中区間管理部は、作成中区間に対応した観測信号において目的音に対する目的音以外の音の混合度合いが高いほど観測信号の透過度を低減させるマスクを周波数ごとおよび時間ごとに変更し、そのマスクを逐次的に観測信号に適用する時間周波数マスキング処理を実行して目的音の音源抽出を実行する。

　さらに、本開示の音声認識装置の一実施態様において、前記音声認識装置は、さらに、前記トラッキング部の生成した音源抽出結果を一時的に格納する抽出結果バッファリング部と、前記抽出結果バッファリング部に格納された各音源に対応する複数の音源抽出結果を音声認識部へ出力する優先度を決定するランキング部を有し、前記ランキング部は、ユーザの明示的合図に基づいて音声区間の始端または終端が決定された音声区間に対応する音源抽出結果の優先度を高く設定する処理を行なう。

　さらに、本開示の音声認識装置の一実施態様において、前記トラッキング部は、画像解析に基づいて得られた発話者の明示的合図に基づいて設定した音声区間を識別するために「登録済み属性」という属性を設定し、前記ランキング部は、前記登録済み属性の設定された音声区間の優先度を高く設定する処理を実行する。

　さらに、本開示の音声認識装置の一実施態様において、前記ランキング部は、前記音声認識部への出力優先度を以下の基準、すなわち、
　（基準１）登録済み属性を持つ音声区間を優先し、登録済み属性を持つ音声区間が複数あるときは、始端が古い方を優先する。
　（基準２）登録済み属性を持たない音声区間同士については、終端が既に確定している音声区間を優先し、終端が既に確定している区間が複数あるときは、終端が古い方を優先する。
　（基準３）終端が未確定の音声区間同士については、始端が古い方を優先する。
　上記各基準を適用して優先度を決定する。

　さらに、本開示の音声認識装置の一実施態様において、前記音声認識部は、音声認識処理を実行する複数のデコーダを有し、デコーダの空き状況に応じて前記トラッキング部の生成した音源抽出結果の出力要求を行い、前記優先度に応じて音源抽出結果を入力し、優先度の高い音源抽出結果に対する音声認識を優先して実行する。

　さらに、本開示の音声認識装置の一実施態様において、前記トラッキング部は、前記作成中区間管理部の各々において、前記音声認識部における音声認識で使用される形式に適合した特徴量を生成し、生成した特徴量を前記音声認識部に出力する。

　さらに、本開示の音声認識装置の一実施態様において、前記特徴量は、メル周波数ケプストラム係数（Ｍｅｌ－Ｆｒｅｑｕｅｎｃｙ　Ｃｅｐｓｔｒａｌ　Ｃｏｅｆｆｉｃｉｅｎｔｓ）である。

　さらに、本開示の音声認識装置の一実施態様において、前記音声認識装置は、さらに、マイクロホンアレイを有する音入力部と、カメラを有する画像入力部と、前記音入力部からの入力音に基づいて音源方向を推定する音源方向推定部と、前記画像入力部からの入力画像の解析に基づいて音源方向の解析を行なう画像処理部を有し、前記トラッキング部は、前記音源方向推定部の生成した音源方向情報と、画像処理部の生成した音源方向情報を適用して、１つの統合した音声区間情報を生成する。

　さらに、本開示の音声認識装置の一実施態様において、前記画像処理部は、前記画像入力部からの入力画像の解析に基づいて、発話者の口唇領域の動きを検出する口唇画像処理部と、発話者の手領域の動きを検出する手画像処理部を有する。

　さらに、本開示の音声認識装置の一実施態様において、前記トラッキング部は、前記画像処理部から入力する発話者の明示的合図に基づいて設定した音声区間を識別するために「登録済み属性」という属性を設定し、前記登録済み属性の設定された音声区間と、登録済み属性のない音声区間とのマージ処理を行なう場合、登録済み属性の設定された音声区間に他の音声区間を統合するマージ処理を行なう。

　さらに、本開示の音声認識装置の一実施態様において、前記トラッキング部は、前記登録済み属性の設定された音声区間については、音源方向情報が入力されない場合、方向情報を自動生成して音声区間の延長処理を実行する。

　さらに、本開示の音声認識装置の一実施態様において、前記音声認識部は、認識対象語彙から構成される辞書と言語モデルのペアである認識タスクを複数有し、複数の異なるタスクの中からユーザ発話に最も適合するタスクを探索する処理である意味推定処理を実行する構成である。

　さらに、本開示の音声認識装置の一実施態様において、前記音声認識装置は、さらに、発話者を撮影した画像の解析によって得られる発話者の手の動きに同期させて表示部上のポインタを動かし、該ポインタの動きに応じて、発話区間の始端または終端を判定する構成を有する。

　さらに、本開示の第２の側面は、
　音声認識装置において実行する音声認識方法であり、
　前記音声認識装置は、
　音源方向と音声区間を検出し、音源抽出処理を実行するトラッキング部と、
　前記トラッキング部から音源抽出結果を入力して音声認識処理を実行する音声認識部を有し、
　前記トラッキング部が、
　音源単位の音声区間の生成管理を行なう作成中区間管理部を生成し、
　生成された作成中区間管理部各々は、
　音源方向の逐次的検出を行い、検出結果を時間方向に接続することで音声区間を順次更新する音声区間作成処理を実行するとともに、
　音声区間始端から所定時間経過後に音源抽出用の抽出フィルタを生成し、生成した抽出フィルタを逐次的に入力音声信号に適用して音声区間の部分的な音源抽出結果を逐次的に生成し、
　前記トラッキング部が、
　前記作成中区間管理部の生成した部分的な音源抽出結果を音声認識部に順次出力する処理を実行し、
　前記音声認識部が、
　前記トラッキング部から入力する部分的な音源抽出結果に対する音声認識処理を逐次的に実行して、音声認識結果を出力する音声認識方法にある。

　さらに、本開示の第３の側面は、
　音声認識装置において音声認識処理を実行させるプログラムであり、
　前記音声認識装置は、
　音源方向と音声区間を検出し、音源抽出処理を実行するトラッキング部と、
　前記トラッキング部から音源抽出結果を入力して音声認識処理を実行する音声認識部を有し、
　前記プログラムは、
　前記トラッキング部に、音源単位の音声区間の生成管理を行なう作成中区間管理部を生成させ、
　生成された作成中区間管理部各々に、
　音源方向の逐次的検出を行い、検出結果を時間方向に接続することで音声区間を順次更新する音声区間作成処理を実行させるとともに、
　音声区間始端から所定時間経過後に音源抽出用の抽出フィルタを生成し、生成した抽出フィルタを逐次的に入力音声信号に適用して音声区間の部分的な音源抽出結果を逐次的に生成させ、
　前記トラッキング部に、
　前記作成中区間管理部の生成した部分的な音源抽出結果を音声認識部に順次出力する処理を実行させ、
　前記音声認識部に、
　前記トラッキング部から入力する部分的な音源抽出結果に対する音声認識処理を逐次的に実行して、音声認識結果を出力させるプログラムにある。

　なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な画像処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

　本開示のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　本開示の一実施例の構成によれば、複数の音が混在した音信号から、迅速に目的音を抽出する装置、方法が実現される。
　具体的には、音源方向と音声区間を検出し、音源抽出処理を実行するトラッキング部と、音源抽出結果を入力して音声認識処理を実行する音声認識部を有する。トラッキング部は、音源単位の音声区間の生成管理を行なう作成中区間管理部各々が音源方向の逐次的検出を行い、検出結果を時間方向に接続した音声区間を順次更新するとともに、音声区間始端から所定時間経過後に音源抽出用のフィルタを生成し、生成フィルタを逐次的に入力信号に適用して音源抽出結果を逐次的に生成する。音声認識部は、部分的な音源抽出結果に対する音声認識処理を逐次的に実行して、音声認識結果を出力する。
　上記構成により、音声区間の終了が検出されるのを待つことなく、迅速に音声認識結果を生成して出力することが可能となる。

音源抽出処理を行う場合の具体的環境の一例について説明する図である。音源抽出処理を行う場合の具体的環境の一例について説明する図である。音声区間検出処理と、音源抽出処理を、音声認識処理の前に行なう装置構成例を示す図である。発話が終了してから音声認識結果が生成されるまでの間の遅延について説明する図である。分散最小ビームフォーマー（ＭＶＢＦ）を適用したフィルタ生成について説明する図である。音声区間のマージ処理における問題について説明する図である。音声認識処理であるデコード処理の待ち行列について説明する図である。音声認識処理であるデコード処理の待ち行列について説明する図である。音源抽出の逐次処理について説明する図である。音声区間検出と音源抽出との一体化について説明する図である。複数の音声区間検出方式によって取得された方向点を共通にトラッキングする様子について説明する図である。例えば画像に基づく手形状識別に基づく音声区間検出方式のように、音声区間の始端または終端の見極め時間が不要な方式に対応する特別処理について説明する図である。音源抽出部と音声認識部との間に構成するバッファの構成例について説明する図である。３つの音源から音が同時に発声しているタイミングを持つ音声区間の設定例を示す図である。本開示の一実施例に係る音声認識装置の全体構成について説明する図である。フロントエンド部１５３の構成と処理の詳細について説明する図である。観測信号バッファリング部１６４の構成について説明する図である。トラッキング部１６５について説明する図である。状態遷移マシンを利用した区間情報について説明する図である。区間情報について説明する図である。音源抽出部１７３について説明する図である。トラッキング部１６５内の作成中区間管理部１７１の特徴量変換部１７４について説明する図である。音声認識部１５６の構成について説明する図である。画像処理部１５５について説明する図である。音声系処理の処理シーケンスについて説明するフローチャートを示す図である。画像系処理の処理シーケンスについて説明するフローチャートを示す図である。フロントエンド処理の処理シーケンスについて説明するフローチャートを示す図である。短時間フーリエ変換（ＳＴＦＴ）について説明する図である。トラッキング処理の処理シーケンスについて説明するフローチャートを示す図である。方向点接続チェック処理の処理シーケンスについて説明するフローチャートを示す図である。区間マージ処理の処理シーケンスについて説明するフローチャートを示す図である。区間更新処理の処理シーケンスについて説明するフローチャートを示す図である。ブロック消費型遷移処理の処理シーケンスについて説明するフローチャートを示す図である。ブロックを消費する遷移Ａの処理シーケンスについて説明するフローチャートを示す図である。ブロックを消費する遷移Ｂの処理シーケンスについて説明するフローチャートを示す図である。ブロックを消費する遷移Ｃの処理シーケンスについて説明するフローチャートを示す図である。ブロックを消費する遷移Ｄの処理シーケンスについて説明するフローチャートを示す図である。ブロックを消費する遷移Ｇの処理シーケンスについて説明するフローチャートを示す図である。ブロックを消費する遷移Ｈの処理シーケンスについて説明するフローチャートを示す図である。ブロックを消費する遷移Ｊの処理シーケンスについて説明するフローチャートを示す図である。区間延長処理の処理シーケンスについて説明するフローチャートを示す図である。抽出結果生成処理の処理シーケンスについて説明するフローチャートを示す図である。フィルタ適用処理の処理シーケンスについて説明するフローチャートを示す図である。特徴量変換処理の処理シーケンスについて説明するフローチャートを示す図である。ブロックを消費しない遷移処理の処理シーケンスについて説明するフローチャートを示す図である。ブロックを消費しない遷移Ａの処理シーケンスについて説明するフローチャートを示す図である。ブロックを消費しない遷移Ｂの処理シーケンスについて説明するフローチャートを示す図である。ブロックを消費しない遷移Ｃの処理シーケンスについて説明するフローチャートを示す図である。ブロックを消費しない遷移Ｄの処理シーケンスについて説明するフローチャートを示す図である。ブロックを消費しない遷移Ｇの処理シーケンスについて説明するフローチャートを示す図である。ブロックを消費しない遷移Ｈの処理シーケンスについて説明するフローチャートを示す図である。ブロックを消費しない遷移Ｉの処理シーケンスについて説明するフローチャートを示す図である。ブロックを消費しない遷移Ｊの処理シーケンスについて説明するフローチャートを示す図である。フィルタ推定処理の処理シーケンスについて説明するフローチャートを示す図である。区間全体抽出処理の処理シーケンスについて説明するフローチャートを示す図である。区間確定処理の処理シーケンスについて説明するフローチャートを示す図である。新規区間作成処理の処理シーケンスについて説明するフローチャートを示す図である。区間情報初期化処理の処理シーケンスについて説明するフローチャートを示す図である。音源抽出部初期化処理の処理シーケンスについて説明するフローチャートを示す図である。特徴量変換部初期化処理の処理シーケンスについて説明するフローチャートを示す図である。不要区間削除処理の処理シーケンスについて説明するフローチャートを示す図である。区間登録処理の処理シーケンスについて説明するフローチャートを示す図である。始端登録処理の処理シーケンスについて説明するフローチャートを示す図である。終端登録処理の処理シーケンスについて説明するフローチャートを示す図である。音声認識処理の処理シーケンスについて説明するフローチャートを示す図である。口唇画像処理の処理シーケンスについて説明するフローチャートを示す図である。手画像処理の処理シーケンスについて説明するフローチャートを示す図である。音声認識部の構成例について説明する図である。ハンドポインタを利用した構成例について説明する図である。手画像処理の処理シーケンスについて説明するフローチャートを示す図である。

　以下、図面を参照しながら本開示の音声認識装置、および音声認識方法、並びにプログラムの詳細について説明する。

　本開示の構成および処理の説明の前に、明細書中に記載の表記について説明する。
　本明細書で使用している表記は、以下の意味を持つ。
　Ａ＿ｂは、Ａに下付きの添え字ｂが付与されていることを示す。
　Ａ＾ｂは、Ａに上付きの添え字ｂが付与されていることを示す。
　これらを意味する。
　また、
　ｃｏｎｊ（Ｘ）は、複素数Ｘの共役複素数を表わす。式の上では、Ｘの共役複素数はＸに上線を付して表わす。
　ｈａｔ（ｘ）は、ｘの上に"＾"が付与された表記と等価であることを表わす。
　値の代入は、"＝"または"←"で表わす。特に、両辺で等号が成立しないような操作（例えば"ｘ←ｘ＋１"）については、"←"で表わす。

　次に、以下の説明において使用している用語について説明する。
　・「音（信号）」と「音声（信号）」とは、使い分けて用いている。「音」は「ｓｏｕｎｄ」や「ａｕｄｉｏ」など、人の発話および発話以外の音を含む意味で使用しており、「音声」は「ｖｏｉｃｅ」や「ｓｐｅｅｃｈ」等、人の発声音を表わす用語として限定的に使用している。
　・ただし、「音声区間検出」については、人の音声に限らず、人の音声以外の音が鳴っている区間の検出を意味するものとする。
　・「音声認識システム」とは、狭義の音声認識に、音声区間検出や音源抽出などを組み合わせて構成されたシステムを表わす。
　・「フィルタを適用する」と「フィルタリングを行なう」とは同じ意味である。同様に、「マスクを適用する」と「マスキングを行なう」とは同じ意味である。

　以下、以下に示す項目に従って本開示の構成と処理について詳細について説明する。
　１．本開示の処理の概要、および音声区間検出処理、音源抽出処理、音声認識処理について
　１－１．本開示の音声認識装置の実行する処理の概要
　１－２．各環境下での音声認識処理の困難性と従来手法における課題について
　１－２－１．各環境下での音声認識処理の困難性について
　１－２－２．各環境下での音声認識処理を向上させる事前処理について
　１－２－３．事前処理を伴う音声認識処理の問題点について
　１－２－３．（１）音源抽出の遅延と精度とのトレードオフ
　１－２－３．（２）音声区間検出に関する課題
　１－２－３．（３）複数の区間が重複した場合における音声認識の遅延とリソースとのトレードオフ
　１－２－３．（４）音声認識処理において発生する問題点のまとめ
　２．本開示の音声認識装置の特徴について
　２－１．音源抽出処理における新規点について
　２－２．音声区間検出処理における新規点について
　２－３．音声認識処理における新規点について
　３．本開示の音声認識装置の具体的構成と処理について
　３－１．本開示の音声認識装置の全体構成例について
　３－２．本開示の音声認識装置におけるフロントエンド部の構成と処理について
　３－３．本開示の音声認識装置における音声認識部の構成と処理について
　３－４．本開示の音声認識装置における画像処理部の構成と処理について
　４．本開示の音声認識装置の処理の詳細について
　４－１．本開示の音声認識装置の実行する全体処理の概要について
　４－２．フロントエンドの処理について
　４－３．ブロックを消費する遷移について
　４－４．ブロックを消費しない遷移について
　４－５．音声認識部の処理について
　４－６．画像処理部の処理について
　５．変形例について
　５－１．変形例１：音声認識の代わりに意味推定を使用した構成例について
　５－２．変形例２：音声検出方法として、ハンドポインタを使用した構成例について
　６．本開示の音声認識装置の構成と処理の特徴と効果についてのまとめ
　７．本開示の構成のまとめ
　以下、上記項目に従って説明する。

　　［１．本開示の処理の概要、および音声区間検出処理、音源抽出処理、音声認識処理について］
　まず、本開示の処理の概要と、一般的な音声区間検出処理、音源抽出処理、音声認識処理の処理内容について説明する。

　　［１－１．本開示の音声認識装置の実行する処理の概要］
　本開示の音声認識装置は、例えば音声区間検出処理と音源抽出処理（音源分離処理）を実行し、これらの処理結果を適用して高精度な音声認識を実現する。さらに、ユーザ発話が終了してから認識結果出力までの遅延を短縮可能としたものである。

　本開示の音声認識装置の特徴の１つは、音声区間検出において、１つの音源からの音と推定される音を時間経過に従って追従するトラッキング処理と、観測信号の中からその音源に相当する成分を抽出する音源抽出処理とを一体化した処理として実行することである。この処理により、発話開始から一定時間が経過した時点で音源抽出用のフィルタを推定し、その後、発話終了が検出されるまで入力信号に推定フィルタを適用して逐次的に音源抽出結果を生成する。

　これらの処理によって、発話終了前から音声認識処理を逐次的に行なうことができ、発話終了とほぼ同時に認識結果を生成することができる。すなわち、発話終了後に音源抽出と音声認識処理とを行なっていた従来法と比べて遅延を大幅に短縮することができる。

　本開示の音声認識装置は、以下のような環境下で使用されることを想定している。すなわち、Ｈａｎｄｓ－ｆｒｅｅの音声認識装置（ｃ）において、（ａ），（ｂ），（ｄ），（ｅ）のような場合にも、高精度かつ低遅延の音声認識を可能とするものである。
　（ａ）ユーザ（発話者）からマイクロホンまで距離がある環境（Ｆａｒ－ｆｉｅｌｄ　ｍｉｃｒｏｐｈｏｎｅ）。
　（ｂ）騒がしい環境。すなわち、ユーザの発話（以降「目的音」）の他に、それ以外の音（以降「妨害音」）が存在する環境。
　（ｃ）音声認識装置に対してユーザ（発話者）が発話開始時点を入力するスイッチ（ボタン）を用いない環境（Ｈａｎｄｓ－ｆｒｅｅ）。
　（ｄ）ユーザ（発話者）の位置が不定である環境。すなわち、ユーザはマイクロホンに対して様々な方向から発話し得る。
　（ｅ）複数のユーザによる発話同士が時間的に重複する環境。なお、本開示の処理を適用することで、複数の発話を個別に正しく認識することが可能である。

　本開示の音声認識装置は、例えば、上記（ａ）～（ｅ）に示す環境においても、高精度かつ迅速な音声認識を実現する。
　本開示の音声認識装置は、様々な環境において、ユーザの発話を高い精度で認識し、さらに発話終了からその発話に対応した認識結果が生成されるまでの待ち時間を短縮可能とする。

　　［１－２．各環境下での音声認識処理の困難性と従来手法における課題について］
　以下、上記の（ａ）～（ｅ）に示す環境の具体例と、各環境下での音声認識処理の困難性についてそれぞれ説明する。次に、このような環境下での従来の音声認識処理の実行例について紹介し、さらに、従来の音声認識処理の課題について説明する。

　　［１－２－１．各環境下での音声認識処理の困難性について］
　　（ａ）ユーザ（発話者）からマイクロホンまで距離がある環境（Ｆａｒ－ｆｉｅｌｄ　ｍｉｃｒｏｐｈｏｎｅ）
　この環境（ａ）は、例えば、リビングルームにおいて大型テレビを音声で操作する場面（マイクロホンはテレビに装備）や、ロボットを（リモコンではなく）音声で操作するような場面（マイクロホンはロボット本体に装備）などの環境である。

　このような環境は、ユーザの口元にマイクロホンがある場合と比べると、ユーザの発話時の負担は小さい。しかし、妨害音の混入（環境（ｂ））や、別の話者の発話と重複（環境（ｃ））する可能性が高くなり、認識精度が低下する可能性が高くなる。

　また、このような環境においては、音声認識の対象となる目的音は、人の発話音、すなわち音声に限定されるのに対し、音声認識対象外の妨害音は任意の種類の音となる。すなわち、マイクロホンを介して入力された信号が、無音に近い場合や、人間の音声と明らかに異なる特徴を持っていた場合は、そのタイミングでは目的音が存在しないと容易に判定できるのに対し、その逆は成り立たない。また、マイクロホンを介して入力された信号が音声らしい特徴を持っていても、妨害音である可能性もある。この点も、問題の難度を上げる要因である。

　　（ｂ）騒がしい環境。すなわち、ユーザの発話（以降「目的音」）の他に、それ以外の音（以降「妨害音」）が存在する環境。
　一般的に音声認識は、目的音のみが存在する（＝妨害音が無視できる）環境では高い精度で認識できても、目的音に妨害音が混入すると認識精度が大きく低下する。そのため、騒がしい環境でも高精度で認識するためには、マイクロホンで収録した信号（以降「観測信号」）から目的音を抽出する処理、言い換えると、妨害音を除去するための処理が必要となる。ここでは、この処理を「音源抽出」と呼ぶ。

　　（ｃ）音声認識装置に対してユーザ（発話者）が発話開始時点を入力するスイッチ（ボタン）を用いない環境。（Ｈａｎｄｓ－ｆｒｅｅ）
　一般に音声認識は、マイクロホンの観測信号の中で実際に発話があった区間に対して処理が行なわれるため、発話開始から終了までの発話区間（ｓｐｅｅｃｈ　ｓｅｇｍｅｎｔ）を特定する必要がある。音声認識装置に対してユーザが操作部（スイッチやボタン）を操作して発話区間情報を入力する方式を「Ｐｕｓｈ－ｔｏ－ｔａｌｋ（ＰＴＴ）」と呼び、このような操作部を介した入力を用いない方式をハンズフリー（Ｈａｎｄｓ－ｆｒｅｅ）と呼ぶ。なお、発話終了時点の操作入力を用いず、発話開始のみ入力する方式もＰＴＴに含める。

　ハンズフリーの音声認識システムでは、発話区間を自動で検出する必要がある。発話区間の自動検出処理は「音声区間検出（ｓｐｅｅｃｈ　ｄｅｔｅｃｔｉｏｎ）」、または「Ｖａｏｉｃｅ　Ａｃｔｉｖｉｔｙ　Ｄｅｔｅｃｔｉｏｎ　（ＶＡＤ）」と呼ばれる。

　音声区間検出は、その性能が音声認識システムの使い勝手に直接影響する非常に重要な技術である。たとえば、ユーザの発話を検出し損なうと、ユーザからは自分の発話が無視されたように見える。また、目的音以外の音を誤って検出すると、システムの誤動作につながる。さらに、検出された区間が実際の発話より長くても短くても、誤認識を発生させる原因となる。

　　（ｄ）ユーザ（発話者）の位置が不定である環境。すなわち、ユーザはマイクロホンに対して様々な方向から発話し得る。
　方向とは、マイクロホンから見た音の到来方向（ｄｉｒｅｃｔｉｏｎ　ｏｆ　ａｒｒｉｖａｌ：ＤＯＡ）である。仮に、ユーザが発話する方向が固定であるなら、問題は単純化できる。例えば、ユーザがマイクロホンの正面からしか発話しないのであれば、超指向性マイクロホンを用いて正面以外の音をカットするといった方式で充分対処できる。しかし、ユーザがマイクロホンに対して様々な方向から発話し得る環境では、前述の音声区間検出も音源抽出も様々な方向に対応する必要があるため、処理が難しくなる。

　　（ｅ）複数のユーザによる発話同士が時間的に重複する環境。
　この環境について図１を用いて説明する。図１は、マイクロオンを備えた音声認識装置の前にユーザが二人おり、一人が「こんにちは」、もう一人が「さようなら」と発話した場合のそれぞれの発話区間を表わしている。２つの発話は音声認識装置に装着されたマイクロホンから見て別の方向から到来し、また、二つの区間には時間的な重複があるとする。
　この２つの発話をどちらも正しく認識するという問題について考える。

　なお、この図１において、縦軸は発話の方向（音源方向）、横軸は時間を表わしているが、各区間の高さが異なるのは単に各発話が別の方向から到来している（各音源が別の方向に存在している）ことのみを表わしており、高さの差が実際の方向の差を表わしているわけではない。以降の図でも同様である。

　図１において、マイクロホンに入力された信号のみを見ると、両者を合わせた発話の区間は全発話区間１３であり、これは、ユーザ１の発話区間１１である「こんにちは」の始端から、ユーザ２の発話区間１２である「さようなら」の終端までの区間と同じである。

　この全発話区間１３の一部区間では２つの音声が混合されている。この混合信号を１個の区間のまま音声認識で処理しても、当然ながら２つの正しい認識結果は得られない。正しい認識結果を得るためには、それぞれの発話区間、すなわち、
　ユーザ１の発話区間１１、
　ユーザ２の発話区間１２
　これら個別の発話区間を正しく検出し、それぞれの区間から妨害音を除去する必要がある。

　つまり、ユーザ１の発話区間１１では妨害音である「さようなら」を除去して目的音である「こんにちは」を残し、ユーザ２の発話区間１２では妨害音である「こんにちは」を除去して目的音である「さようなら」を残す必要がある。さらに、前述の「（ｄ）ユーザ（発話者）の位置が不定である環境」である場合、このような処理を任意の方向からの発話同士について行なう必要がある。

　最後に、上記環境（ｂ）と（ｅ）とが同時に発生する場合について、図２を用いて説明する。
　（ｂ）騒がしい環境。
　（ｅ）複数のユーザによる発話同士が時間的に重複する環境。
　これらの２つの環境が併せて発生する場合である。

　図２は、図１と同様、縦軸は発話の方向（音源方向）、横軸は時間を表わしている。図２に示すユーザ１の発話区間２１と、ユーザ２の発話区間２２は時間的に重複した発話であり、発話自体は、図１を参照して説明した２つの発話とそれぞれ同じであるとする。

　妨害音の区間２３は、人の発話ではない妨害音の発生区間であり、この例では、固定された場所からずっと鳴っているとする。なお、このような音源としては、例えばラジオやエアコンなどが考えられる。

　この図２に示す例において、ユーザ１の発話区間２１における「こんにちは」を正しく認識するためには、ユーザ１の発話区間２１から「さようなら」と妨害音とを除去する必要がある。一方、「さようなら」を正しく認識するためには、ユーザ２の発話区間２２から「こんにちは」と妨害音とを除去する必要がある。そのため、ユーザ発話によって構成された図１に示す場合よりも処理が難しくなる。

　　［１－２－２．各環境下での音声認識処理を向上させる事前処理について］
　このように、上記の（ａ）～（ｅ）の各環境は、音声認識を困難化させる環境であるが、このような環境において音声認識の精度を高めるためには、以下の処理、すなわち、
　音声区間検出処理、
　音源抽出処理、
　これらの処理を、音声認識処理の前処理として行なう、あるいは、これらの処理を一層、高精度で行なうことが有効である。

　これら、音声区間検出処理と、音源抽出処理を、音声認識処理の前に行なう装置構成例を図３に示す。
　入力デバイスとして、マイクロホンアレイ３１、そして必要に応じてカメラ３２を備える。
　マイクロホンアレイは、例えば、複数のマイクロホンを所定間隔で配列した構成を持つ。各マイクロホンの取得音は、音源方向に応じて時間的なずれが発生する。すなわち各マイクロホンは、音源方向に応じた位相差を持った音信号を取得する。この位相差信号を解析することで音源方向を特定することが可能となる。
　マイクロホンアレイ３１やカメラ３２からなる入力デバイスからの入力信号は、まず音声区間検出部３３に入力される。

　音声区間検出部３３は、音声区間検出を行なう。この音声区間検出では、複数の音源それぞれの開始点（始端）と終了点（終端）を検出し、さらに音源方向を求める。
　例えば、先に図１を参照して説明したように、複数のユーザによる発話区間が重複している場合、全発話区間１３ではなく、ユーザ１の発話区間１１と、ユーザ２の発話区間１２の区間を、各音源の音声区間として求める、

　なお、このように、複数の発話が重複する環境において、各音声区間（＝発話区間）と音源方向を求める手法は、従来からいくつか提案されている。
　例えば、国際公開ＷＯ０６／０５９８０６、特開２０１２－１５０２３７号公報では、マイクロホンアレイを構成する各マイクロホンが取得した音信号の位相差を解析することによって音源方向を推定し、推定した音源方向情報を適用して各音源方向からの音声の個別の音声区間検出を行なう方式を提案している。

　また、特開２０１１－１９１４２３号公報は、カメラ取得画像を用い、人の口の領域の画像、すなわち口唇画像を解析して、発話区間を特定することで、各音源（各ユーザ）の発話区間を個別に特定して音声認識精度を上げる構成を開示している。

　音源方向推定を用いる方式も、口唇画像を併用する方式も、発話区間が検出された時点で、その音源方向も併せて取得可能な構成である。例えば、口唇画像を用いる方式は、画像内の人の口唇位置から音源方向を取得することができる。すなわち、カメラとマイクロホンアレイとの位置関係が既知であれば、撮影画像中の口唇位置を音源方向として特定できる。

　音声区間検出部３３の検出情報である各発話の音声区間と音源方向情報は、入力デバイスであるマイクロホンアレイ３１の取得音とともに音源抽出部３４に入力される。音源抽出部３４は音源抽出を行なう。すなわち、音声認識処理の対象となる目的の音声のみを残し、それ以外の音は妨害音と見なして除去する処理を行なう。

　なお、本開示が対象としている使用環境では、音声認識対象となる発話以外にも様々な音源が存在し、それぞれが鳴っている（アクティブである）区間としての始端・終端、および音源方向という区間情報を持っている。そのため以降では、人間の音声に限らず、また目的音・妨害音に限らず、それら音源の区間を検出する技術を音声区間検出と呼ぶことにする。

　妨害音を排除し、目的音を抽出する音源抽出処理については、これまでにも様々な提案がなされている。例えば、国際公開ＷＯ０６／０５９８０６や、特開２０１１－１９１４２３号公報は、「Ｇｅｏｍｅｔｒｉｃａｌ　Ｓｏｕｒｃｅ　Ｓｅｐａｒａｔｉｏｎ（ＧＳＳ）」という方式を適用した音源抽出処理を開示している。
　また、本出願人は、本出願人が先に出願した特開２０１２－２３４１５０（特願２０１２－０５２５４８）において、目的音の時間エンベロープを参照信号として用いる方式を提案した。

　これらに記載の音源抽出処理方式は、いずれも以下の各情報、すなわち、
　発話区間に対応した観測信号（連続する観測信号に対して発話始端から終端までを切り出したもの）と、
　目的音の音源方向情報、
　これらの各情報を用いて、目的音を抽出する（それ以外の音を除去する）フィルタを所定の学習処理によって算出する構成である。算出したフィルタをマイクロホンの取得音に対して適用することで、目的音のみを抽出することができる。

　なお、上記文献において開示しているフィルタ算出のための学習処理はバッチ処理（ある長さに区切られた信号に対して行なう処理）として実行している。算出したフィルタを、発話区間に対応した観測信号に適用することで、クリーンな目的音である音源抽出結果を得ることができる。
　フィルタ適用によって妨害音が除去されたクリーンな目的音（音声）は、図３に示す音声認識部３５に入力され、音声認識処理が行われる。

　このように、複数音源対応の音声区間検出とその区間に対する音源抽出処理とを音声認識の前段において行なうことで、妨害音が存在する環境や、音声認識対象となる目的音が複数存在し、これらが重複して発生する環境でも、個別の目的音を検出し、高い精度で音声認識を行なうことが可能となる。

　　［１－２－３．事前処理を伴う音声認識処理の問題点について］
　図３を参照して説明したように、音声認識処理の事前処理として、音声区間検出処理や、音源抽出処理を行なうことで音声認識精度を向上させることができる。
　しかし、この事前処理を行なう構成には、以下の課題がある。
　（１）音源抽出の遅延と精度とのトレードオフ
　（２）音声区間検出に関する課題
　（３）複数の区間が重複した場合における音声認識の遅延とリソースとのトレードオフ
　以下、それぞれについて説明する。

　　［１－２－３．（１）音源抽出の遅延と精度とのトレードオフ］
　前述の音源抽出処理を組み込んだ音声認識装置では、音声認識対象となる目的音を抽出する音源抽出処理をバッチ処理として実行している。すなわち、発話の終端が確定した時点で初めて音源抽出処理を開始し、抽出結果を生成した後、抽出結果を用いて音声認識処理を開始するというシーケンスである。
　このようなシーケンスで処理を行なうと、発話が終了してから音声認識結果が生成されるまでの間に遅延が生じる。

　この遅延について図４を参照して説明する。
　図４は、左から右に時間経過を示し、時間経過に沿って行われる処理を示している。
　図４において、音声認識対象となる音声の発話区間は、時間ｔ０～ｔ１の発話区間４１である。

　図４に示す（処理例１）は、発話の終端が確定した時点で音源抽出処理を開始し、その後に抽出結果を生成し、抽出結果を用いて音声認識処理を行なう場合の処理シーケンスを示している。
　発話区間４１の終端は、ユーザの発話の終了と同時に確定することはできない。終端を確定するためには、発話中の短い無音と区別することが必要であり、このために、ある程度の時間を必要とする。例えば、０．３秒以内の無音であれば一続きの発話と見なす場合、発話終端を確定するためには０．３秒の待ち時間が必要である。この待ち時間を表わしているのが、時間ｔ１～ｔ２の終端見極め処理４２であり、これは音声区間検出処理の一部である。

　時間ｔ２において、発話終端が確定した後、時間ｔ２～ｔ３において音源抽出処理４３が行なわれる。ここでは、発話区間４１を用いたバッチ処理として実行するので、発話が長くなるほど処理時間が長くなる。時間ｔ３において音源抽出処理４３が完了すると、次に、時間ｔ３～ｔ４において、その音源抽出結果に対する音声認識処理４４を実行する。音声認識処理４４も、発話区間４１が長いほど処理時間が長くなる。

　音声認識を用いたシステムでは、認識結果を使用した何らかの処理、すなわち図４に示す後段の処理４５が行なわれる。例えば音声認識装置を備えたテレビに対するユーザ発話として「チャンネルを１に変更」を認識した場合、その認識結果に基づくチャンネル変更が後段の処理４５として実行される。
　このような後段の処理４５が開始されるのは、音声認識処理４４が完了してから、すなわち時間ｔ４以降であり、その結果が出るのは時間ｔ５である。従って、時間ｔ１から時間ｔ５までに相当する時間が、システムの結果が返ってくるまでの遅延となる。

　ここで比較のため、図４に示すように、（処理例２）として音源抽出を実行しない構成における遅延について説明する。すなわち、図３において音源抽出部３４を取り除き、音声区間検出部３３と音声認識部３５とを直結した構成における処理である。

　音声区間検出と音声認識については、それぞれ入力信号に対する逐次的な処理が可能である。なお、音声区間検出と音声認識の逐次的処理については、例えば、特開２０１２－１５０２３７号公報や、特開２００１－２４２８８３号公報に記載がある。
　音源抽出を用いず、音声区間検出部と音声認識部を直結した構成では、発話開始（図４の時間ｔ０）とほぼ同時に音声区間検出を開始し、音声区間検出を逐次的に実行し、音声認識も逐次的に実行することが可能となる。

　処理区間４６は、音声区間検出処理４６ａと音声認識処理４６ｂを逐次的に交互に実行する処理区間である。この処理区間４６では、信号が一定量入力されるごとに処理を行う。
　なお、音声認識処理４６ｂと、次の音声区間検出処理４６ａとの間に隙間がある理由は、これらの処理時間が、発話の実時間よりも短いことに起因する。すなわち、各発話に対する処理時間が発話時間より短い場合には入力信号が一定量溜まるまで待機する必要があり、図に示す隙間は、この待機時間を示している。

　この（処理例２）では、発話区間４１の期間内に音声認識処理も行なわれるため、終端見極め処理４７が終了した直後（時間ｔ２）には音声認識結果が生成されており、すぐに後段の処理４８を行なうことができるため、システムが反応するタイミングは時間ｔａとなり、（処理例１）に比較して、システムは発話に基づく処理を迅速に実行することが可能となる。

　このように、音源抽出処理がなければ、（処理例１）に示す音源抽出処理４３だけでなく、音声認識処理４４の処理時間も省略できる。しかし、音源抽出処理を省くと、妨害音や重複発話などが除去されないため、目的音以外の雑音が含まれたままの音信号に基づいて音声認識処理を行なうことになり、認識精度が低下するという問題が発生する。

　次に、様々な手法による音源抽出処理を適用した場合の遅延と精度について考察する。
　マイクロホンの取得音から妨害音を排除して音声認識対象となる目的音のみを抽出する音源抽出処理については、これまで、様々な方式が提案されている。
　以下、様々な音源抽出方式の遅延と精度について、個別に考察する。

　音源抽出方式を以下のように分類する。
　（ａ）観測信号への適応や学習を行なわない方式
　　（ａ１）遅延和アレイ（ｄｅｌａｙ－ａｎｄ－ｓｕｍ　ａｒｒａｙ）
　　（ａ２）死角ビームフォーマー（ｎｕｌｌ　ｂｅａｍｆｏｒｍｅｒ）
　　（ａ３）時間周波数マスキング（ｔｉｍｅ－ｆｒｅｑｕｅｎｃｙ　ｍａｓｋｉｎｇ）
　（ｂ）観測信号への適応や学習を行なうが、目的音の区間以外を使用する方式
　　（ｂ１）分散最小ビームフォーマー（ｍｉｎｉｍｕｍ　ｖａｒｉａｎｃｅ　ｂｅａｍｆｏｒｍｅｒ）
　　（ｂ２）ＳＮ比最大化ビームフォーマー（ｍａｘｉｍｕｍ　ＳＮＲ　ｂｅａｍｆｏｒｍｅｒ）
　（ｃ）観測信号への適応や学習を行ない、目的音の区間を使用する方式
　　（ｃ１）Ｇｅｏｍｅｔｒｉｃ　ｃｏｎｓｔｒａｉｎｅｄ　Ｓｏｕｒｃｅ　Ｓｅｐａｒａｔｉｏｎ（ＧＳＳ）
　　（ｃ２）参照信号ベース音源抽出

　以下、上記の各方式について簡単に考察する
　（ａ）観測信号への適応や学習を行なわない方式
　この方式の具体例としては、以下の各処理がある。
　　（ａ１）遅延和アレイ（ｄｅｌａｙ－ａｎｄ－ｓｕｍ　ａｒｒａｙ）を適用した処理
　　（ａ２）死角ビームフォーマー（ｎｕｌｌ　ｂｅａｍｆｏｒｍｅｒ）を適用した処理
　　（ａ３）時間周波数マスキング（ｔｉｍｅ－ｆｒｅｑｕｅｎｃｙ　ｍａｓｋｉｎｇ）を適用した処理
　これらの方式はどれも、バッチ処理が必須ではなく、逐次的な音源抽出を行なうことが可能である。その反面、抽出精度に課題がある。

　遅延和アレイを用いた処理は、指定した方向の音を高精度で抽出するためには多数のマイクロホンを必要とする。一方で、マイクロホンの個数が少ない場合（例えば、４個程度の場合）には、指定された方向の音を若干強調する程度の効果しかない。そのため、処理結果には依然として妨害音が含まれており、音声認識の精度は依然として低下する。

　死角ビームフォーマーを用いた処理は、全音源（目的音と全ての妨害音）の方向を用いて、目的音の方向に指向性（感度の高い指向特性）を、妨害音の方向に死角（感度の低い指向特性）を持ったフィルタを生成する。しかし、音源の方向に誤差があると、抽出精度が低下する。また、実環境では妨害音については全てが検出できるとは限らない（後述）が、検出されない（＝方向が不明な）妨害音は除去できない。

　時間周波数マスキングを用いた処理は、妨害音が目的音よりも優勢な周波数についてマスクし（信号の透過度を下げ）、しかもそのマスクを逐次的に変更することで、目的音を抽出（強調）する処理である。しかし、この方式には、抽出の程度と抽出結果の音の歪みとの間にトレードオフがある。すなわち、妨害音を消すために時間周波数マスキングを強く作用させると、音が歪んで音声認識の精度がかえって低下することがあり得る。

　（ｂ）観測信号への適応や学習を行なうが、目的音の区間以外を使用する方式
　この方式の具体例としては、以下の各処理がある。
　　（ｂ１）分散最小ビームフォーマー（ＭＶＢＦ：ｍｉｎｉｍｕｍ　ｖａｒｉａｎｃｅ　ｂｅａｍｆｏｒｍｅｒ）を用いた方式
　　（ｂ２）ＳＮ比最大化ビームフォーマー（ｍａｘｉｍｕｍ　ＳＮＲ　ｂｅａｍｆｏｒｍｅｒ）を用いた方式

　これらの方式に従った音源抽出処理では、抽出フィルタの推定は観測信号を用いたバッチ処理として行なわれるが、そのバッチ処理で用いる観測信号は、目的音の発話区間ではなく、それ以外の部分である。言い換えると、目的音の発話開始時点では既に音源抽出フィルタは確定しており、発話中はそのフィルタを観測信号へ適用可能となる。従って、目的音の発話開始後は、逐次的な音源抽出が可能となる。

　この方式（ｂ）は、適応ビームフォーマーと呼ばれる一群の方式が相当する。しかし実環境においては、発話開始の時点で適切な抽出フィルタを用意するのが困難な場合があり、それが抽出精度の低下につながる。以下では、それぞれの方式でその現象について説明する。

　（ｂ１）分散最小ビームフォーマー（ＭＶＢＦ）は、観測信号と目的音方向とを用いて、妨害音の方向については死角を形成する一方で目的音の方向については強調も減衰もしないというフィルタを推定する（学習する）方式である。ＭＶＢＦにおいては、学習で用いる観測信号に目的音が含まれていると、目的音の方向にも死角を形成しようとして抽出精度が低下し得るという問題がある。その問題を回避するため、妨害音のみが鳴っている区間を検出し、その区間の観測信号を用いてフィルタを学習するといった工夫が行なわれている。

　図５を参照して分散最小ビームフォーマー（ＭＶＢＦ）を適用したフィルタ生成について説明する。
　図５は横軸が時間、縦軸が方向を示している。図５において、ユーザの発話と妨害音とが同時に鳴っている区間５７からユーザの発話区間１，５１を抽出するフィルタを分散最小ビームフォーマー（ＭＶＢＦ）で推定したい場合、区間５６の取得音を用いる。なぜなら、区間５７はユーザの発話区間１，５１を含み、このユーザ発話にも死角が形成される可能性があるからである。

　この分散最小ビームフォーマー（ＭＶＢＦ）を適用した音源抽出方式では、抽出したい音源以外の全ての音源が鳴っている区間を適切に検出する必要がある。言い換えると、そのような区間が存在しない場合には、抽出が適切には行なわれない。

　例えば、先に説明した図２において、ユーザ１の発話区間２１の「こんにちは」を抽出するフィルタをＭＶＢＦで推定するのは困難である。なぜなら、「こんにちは」の発話開始以前にはユーザ２の発話区間２２である「さようなら」の方向からの音源が存在していないため、「さようなら」を除去するフィルタの推定ができないからである。

　なお、妨害音（雑音）の区間２３は、ユーザ１の発話区間２１の「こんにちは」以前に存在するため、この先行区間を適用したフィルタ作成によって妨害音は除去できる。
　また、遅延を無視してよいのであれば、ユーザ１の発話区間２１の「こんにちは」の終了後のユーザ２の発話区間２２である「さようなら」の発話の存在する区間２６においてフィルタ生成を行なうことで、ユーザ２の発話区間２２の「さようなら」と、妨害音との両方を除去するフィルタを作成することができる。

　もう一つの方式であるＳＮ比最大化ビームフォーマーでは、事前に、目的音のみが鳴っている区間と妨害音のみが鳴っている区間とを検出し、両方の区間を用いてフィルタを推定する。

　例えば図５において、音声認識対象とする目的音であるユーザの発話区間１，５１と妨害音１，５２との両方が鳴っている状況で、ユーザの発話を抽出するフィルタをＳＮ比最大化ビームフォーマーで推定することを考える。
　そのため、
　（１）目的音と同じユーザ発話が、ユーザの発話区間１，５１と同じ方向から鳴っているユーザの発話区間２の区間５５と、
　（２）妨害音のみが、妨害音１，５２と同じ方向から鳴っている妨害音２，５４の区間５６、
　これらの各区間５５，５６をそれぞれ検出する。

　その後、音源抽出フィルタとして、区間５５に対しては適用後のパワーをできる限り大きく、区間５６に対しては適用後のパワーをできる限り小さくするフィルタを求める（ＳＮ比最大化）。このようにして算出されるフィルタを、区間５７における取得音に対して適用することで、取得音から妨害音を削減して、目的音であるユーザの発話区間５１の発話音を抽出する作用を持つ。
　なお、妨害音が複数存在する状況では、全ての妨害音（目的音の一つを除いた全
ての音源）が鳴っている区間と、目的音のみが鳴っている区間とが必要になる。

　このように、ＳＮ比最大化ビームフォーマーは、目的音・妨害音それぞれについて単独で鳴っている区間が必要であるため、そのような区間が存在しない状況では、フィルタが適切には推定できない。例えば図２に示す状況では、妨害音の区間２３が途切れることなく存在するため、目的音の一つのみが単独で鳴っている区間が存在しない。このような場合に適切なフィルタを生成することが困難となる。

　また、分散最小ビームフォーマー（ＭＶＢＦ）と、ＳＮ比最大化ビームフォーマー、これら両方式に共通する課題として、各音源が鳴っているか鳴っていないかを正確に検出する必要があり、そこで失敗すると、抽出の精度が低下するという課題がある。実環境では、特に妨害音については、鳴っているか否かが正確に検出できるとは限らない。（詳細は、音声区間検出の項で述べる。）

　また、目的音と妨害音とが同時に鳴っている区間と、妨害音が単独で鳴っている区間とで、各音源の方向が同じであると仮定しているため、目的音や妨害音の音源が移動したら、それを適切に検出し、フィルタの推定をやり直す必要がある。
　これらの課題は、フィルタの推定において、目的音である発話区間そのものは使用できず、代わりに過去の区間を使用している点に由来している。

　（ｃ）観測信号への適応や学習を行ない、目的音の区間を使用する方式
　次に、この方式（ｃ）について説明する。この方式（ｃ）の具体例としては次のものがある。
　　（ｃ１）Ｇｅｏｍｅｔｒｉｃ　ｃｏｎｓｔｒａｉｎｅｄ　Ｓｏｕｒｃｅ　Ｓｅｐａｒａｔｉｏｎ（ＧＳＳ）
　　（ｃ２）参照信号ベース音源抽出

　さらに、この方式（ｃ）は、上記のＧＳＳや「目的音の時間エンベロープを参照信号として用いる方式」の他に、独立成分分析（Ｉｎｄｅｐｅｎｄｅｎｔ　Ｃｏｍｐｏｎｅｎｔ　Ａｎａｌｙｓｉｓ：ＩＣＡ）などがある。いずれも、抽出用のフィルタを発話区間そのものから推定することができる。例えば、図２のユーザ１の発話区間２１の「こんにちは」を抽出するフィルタは、区間２７の観測信号から推定できる。この区間２７にはネユーザ２の発話区間２２の「さようなら」や妨害音の一部も含まれているため、「こんにちは」を残してそれ以外を除去する高精度のフィルタが生成可能である。

　また、先に説明した方式（ｂ）に分類された各方式とは異なり、発話区間そのものを利用できるという特徴があるため、今回認識したい発話の区間が検出できれば、それが以前と同じ位置かどうかといった判別は不要である。つまり、発話の度に抽出フィルタを推定し、かつ適用すればよい。
　その一方で、フィルタの推定は発話区間全体を用いたバッチ処理であるため、音源抽出以降の処理は逐次処理ができなくなる。その結果、先に図４を参照して説明したように、音源抽出に加えて音声認識の分の遅延が発生してしまうという問題がある。

　　［１－２－３．（２）音声区間検出に関する課題］
　次に、音声区間検出に関する課題のうち、音源抽出や音声認識と接続したときに問題となり得る点について述べる。

　１点目は、音源は常に検出できるとは限らないということである。これは特に妨害音において顕著である。
　例えば、先に説明した音源抽出方式中の［（ｂ）観測信号への適応や学習を行なうが、目的音の区間以外を使用する方式］、すなわち、（ｂ１）分散最小ビームフォーマー（ＭＶＢＦ）や、（ｂ２）ＳＮ比最大化ビームフォーマーを適用した音源抽出方式は、妨害音の区間を正確に検出できることが前提となるが、この課題があるため、フィルタが適切に推定されるとは限らず、結果として抽出の精度が下がる場合もある。

　例えば、不特定多数が出入りするような場所でハンズフリーの音声認識システムを使用する場面を考える。すわちユーザが専用のマイクロホンを持たず、ある固定位置にあるマイクロホンによって様々な方向から、様々なユーザの発話を取得して解析する構成である。

　このような使用環境においては、ユーザはマイクロホンの比較的近く（ただし、口元よりは遠く）で発話する一方、その背後で不特定多数による会話が発生しているような状況があり得る。その場合、目的音であるユーザの発話は比較的検出しやすいが、妨害音である背後の会話について、各個人の発話区間を正確に検出することは困難である。

　仮に、妨害音が単一であり、しかもそれがずっと鳴っているのであれば、「目的音が検出されていないときは妨害音が鳴っている」という仮定が成り立つが、不特定多数が出入りする環境では、そのような仮定は成立しない。

　また、画像を用いた音声区間検出では、別の理由で妨害音の検出が困難な場合がある。例えば、カメラの画角外に位置する音源については、検出が困難である。さらに、音源が画角内に位置する場合でも、画像から音源を検出するのは困難な場合がある。なぜなら、音声認識システムにおいては目的音の音源は人に限定できるため、顔・口唇・手といった人体の部位の画像と対応付けることが容易なのに対し、妨害音についてはそのような限定は一般には困難だからである。

　２点目は、複数の音声区間検出方式を用いた場合に発生する問題である。例えば、音声区間検出の方式として、音源方向推定に基づく方式（例えば特開２０１２－１５０２３７号公報に記載がある）と、口唇画像を用いる方式（例えば特開平１０－５１８８９号公報に記載がある）とを併用する場合を考える。各方式が独立に動作すると、１回の発話に対して両方とも発話区間を検出する。これを多重検出と呼ぶ。両区間に対して以降の処理が行なわれると、たとえそれらが正しく認識されたとしても、１回の発話に対してシステムが二重に反応するという現象が発生し得る。

　多重検出を防ぐためには、それぞれの発話区間の終端が確定した時点で、始端・終端・方向が接近しているもの同士を一つにマージし、音声認識処理はそのマージされた一つの区間に対して行なうという方法が考えられる。しかし、このように区間同士のマージを行なうと、音声区間検出に由来する遅延が増大してしまい、しかも、低遅延を特徴とする音声区間検出方式を用いても、その利点がなくなってしまうという問題が発生する。

　このマージ処理における問題について、図６を用いて説明する。図６に示す例は、３種類の音声区間検出方式を併用した例である。横軸が時間軸であり、縦軸は方向を示す。
　図６に示す発話区間６１～６３は、異なる３種類の音声区間検出方式によって検出された音声区間（＝発話区間）である。
　３つの音声区間検出方式は、例えば、以下の方式である。
　＊音源方向推定に基づく方式、
　＊口唇画像を用いる方式、
　＊手形状の検出を用いる方式（例えば特開２０１２－２０３４３９号公報に記載）、
　これらの３つの方式である。

　［＊手形状の検出を用いる方式］とは、発話期間、発話者であるユーザが手の形状を変更する（例えば、発話中は手の形状をグーにする）方式である。
　図６に示す発話区間６１～６３は、１回の発話に対して、上記３つの各方式によって検出された区間である。方式ごとに、区間の始端・終端・方向は、それぞれ近接しているが、お互いに異なる値であるとする。また、終端見極め時間（図４の終端見極め処理４２に相当）も、それぞれの方式で異なるものとする。発話区間（１）６１の検出方式では、発話終了後、時間ｔ３までの期間が終端見極め時間に相当し、発話区間（３）６３の検出方式では、発話終了後、時間ｔ４までの期間が終端見極め時間に相当する。手形状を用いる方式は、終端見極め時間を無視することができ、図６の発話区間（２）６２はその方式によって検出された区間とする。従って、各発話区間６１～６３の終端が確定するタイミングは、それぞれ時間ｔ３、ｔ１、ｔ４である。

　これら、３つの区間はどれも１つの発話から生成されているが、検出時点では３重に検出されている。そこで、これらを１つにマージする。そのためには、時間と方向とについてそれぞれマージンを設定し、ある区間について終端の時刻と区間の方向とがそれぞれその範囲内に入っていたら、それを満たす区間同士を一まとめにする。例えば図６では、発話区間（２），６２の終端が最初に確定するため、発話区間（２），６２の方向を中心とする方向マージン６８と、発話区間（２），６２の終端を始端とする時間マージ６６とを設定する。この図では、残りの区間である発話区間（１），６１と、発話区間（３），６３は両方のマージン以内に収まっているため、これら３つの区間は一つにマージされる。

　しかし、このように複数の区間検出方式の結果を後でマージする方法は、単一の区間検出方式を用いる場合と比べて遅延が増大する。なぜなら、区間同士をマージするか否かを判別するためには時間が必要であり、その時間は最も長い終端見極め時間よりもさらに長くする必要があるからである。

　例えば、図６では、３つの発話区間（１）～（３）の終端が全て確定するのは、時間ｔ４の時点である。つまり、マージするか否かの判定はこの時間ｔ４以降に行なう必要がある。最初の終端が確定してからマージの判定までの時間を、マージ見極め時間と呼ぶ。図６に示す時間ｔ１～ｔ５がマージ見極め時間６７となる。

　発話区間のマージによって多重検出を完全に防ぐためには、マージ見極め時間として、時間マージンと最長の終端見極め時間とを合わせた時間が少なくとも必要である。言い換えると、マージ見極め時間は終端見極め時間の長い方に依存してしまうため、短い終端見極め時間を特徴とする方式は、その利点が活きなくなる。

　課題の３点目は、逐次的な音源抽出との組み合わせである。本開示では後述の通り、バッチ処理にも関わらず音源抽出を逐次処理可能とする。しかし、このような逐次処理可能な音源抽出と複数の音声区間検出方式とを組み合わせた構成において、システム全体としてどのような処理を行なえば効果的に遅延を短縮できるかについては、今まで開示したものはない。

　　［１－２－３．（３）複数の区間が重複した場合における音声認識の遅延とリソースとのトレードオフ］
　仮に、音声区間検出と音源抽出とが理想的に機能したとしても、音声認識には別の課題が発生する。本開示で想定している環境では、目的音、妨害音の区別なく各音源の音声区間が時間的に重複し得る。これらの複数の音声区間の何れを優先的に選択して音声認識処理を実行するかを決定するかは重要な課題である。優先順位を間違えると、認識結果が生成されるまでの遅延が増大する。一方で、複数の音声認識を並列で走らせることができれば、遅延は短縮できるが、ＣＰＵの使用率やメモリ使用量などのリソースは増大する。

　ここで、音声認識の遅延等について説明する前に、音声認識デコーダ（以降はデコーダと記す）について説明する。
　音声認識に関する各処理のうち、入力された特徴量の系列に対応した音素系列や単語系列を求める処理をデコードと呼び、それを行なうモジュールをデコーダと呼ぶ。
　基本的に、一つのデコーダは一つの入力系列しか処理できないため、デコーダが一つしかないと、複数の区間が時間的に重複した場合には、一方のデコードが終了するまでもう一方のデコードが待たされるという現象が発生する。これを、デコード処理の待ち行列と呼ぶことにする。

　デコード処理の待ち行列について、図７と図８を用いて説明する。どちらも、横軸は時間、縦軸は方向を示し、音源の区間は図２と同じであり、妨害音が長く鳴っている環境で二人のユーザが時間的に重複するように発話した例である。

　図７は、従来法であるバッチ処理（逐次処理ではない）の音源抽出方式と音声認識とを組み合わせた場合について、音源抽出処理とデコード処理（音声認識処理）とが行なわれるタイミングを図示したものである。３つの音声区間７１～７３は、図２に示す音声区間２１～２３と同一である。これら３つの区間について、それぞれバッチ処理で音源抽出を行ない、それぞれの結果についてデコードするものとする。なお、区間７３は妨害音であり、本来はデコードする必要はない。しかし、画像や事前の知識などによって妨害音かどうかが適切に判定できる場合を除けば、検出された区間は基本的に全てデコードし、そのスコアや信頼度が低かったら妨害音と見なすという方式を取らざるを得ない。

　先に説明した図４では、遅延時間として、終端見極め処理４２～後段の処理４５の４種類の遅延時間について説明したが、ここでは簡単のため、終端見極め時間４２と後段処理４５は無視できるものとし、音源抽出処理４３と音声認識処理４４についてのみ考え、さらに音声認識処理ではデコード処理が時間のほぼすべてを占めているとする。また、異なる区間同士では、音源抽出処理とデコード処理とは同時に並列で行なえるものとする。

　図７において、音源抽出処理はバッチ処理として実行することを前提としているため、最初に音源抽出処理が開始するのはユーザ１の発話区間７１の終端が確定したタイミング（ｔ１）である。処理期間７４が音源抽出処理を示している。その後、デコード処理が開始する。処理期間７５がデコード処理を示す。

　ここで、ユーザ２の発話区間７２が終了したタイミングは、ユーザ１の発話区間７１の終了より若干の遅いもののほぼ同時だったとする。すると、発話区間７２の音源抽出処理は、処理期間７６に示すように、ユーザ２の発話区間７２の終端確定時（ｔ２）において、すぐに開始できる（音源抽出とデコーダとは同時に処理できるとする）が、このユーザ２の発話区間７２の音源抽出処理が終了したタイミング（ｔ３）では、ユーザ１の発話区間７１ののデコード処理（処理期間７５）が継続中である可能性が高い。このような場合、ユーザ２の発話区間７２ののデコードを開始できるタイミングは、ユーザ１の発話区間７１のデコードが終了した時間、すなよち時間ｔ４である。

　つまり、ユーザ２の発話区間７２ののデコードは、ユーザ１の発話区間７１のデコードが終了するまで待たされている。この現象を「デコードの待ち行列」と呼んでいる。デコードの待ち行列が発生すると、音声認識システムの遅延はますます増大することになる。

　なお、妨害音の区間７３のデコードについては、妨害音の区間７３の終端が確定する前に、ユーザ２の発話区間７２のデコード（処理期間７７）が終了していれば、妨害音の音源抽出処理（処理期間７８）の終了後、待つことなしにデコード（処理期間７９）が開始できる。

　一方、仮に音源抽出において逐次的な処理が可能になると、本来なら、図４の下段に示した（処理例２）において説明したように、発話終了から音声認識終了までの遅延は短縮できる。しかし、区間に時間的な重複があり、しかもデコーダが１個しかない場合、どの区間を優先的にデコードするかの割り当てが不適切であると、かえって遅延が増大する可能性がある。その現象について図８で説明する。

　図８において、音声区間８０～８２は図２に示す３つの音声区間２１～２３と同一の音声区間であり、重複のある発話と妨害音とを表わしている。音声区間検出・音源抽出・音声認識（デコード）はどれも逐次的処理が可能であり、区間が一つであれば、区間の始端とほぼ同時にこれら３つの処理が開始され、終端とほぼ同時に終了することができるとする。

　この３つの処理を、先に始まった区間に対して優先的に割り当てるとすると、図８では妨害音の区間８２に対して最初に割り当てられる。処理期間８３は、妨害音の区間８２に対して音声区間検出・音源抽出・音声認識（デコード）が逐次的に行われていることを表わしている。
　そしてこの区間に限定すれば、終端とほぼ同時に、音声認識処理も完了する。ただし、区間８２は妨害音であるため、音声認識の結果としてスコアや信頼度によって棄却される（後段処理は行なわれない）のが望ましい挙動である。

　しかし、最初に妨害音の区間８２に対してデコードを行なうと、残った区間であるユーザ１の発話区間８０とユーザ２の発話区間８１については待ち行列が発生し、しかもこの図８に示す例では図７に示す例よりも遅延が増大する。なぜならユーザ１の発話区間８０の期間は、デコーダが区間８２の処理に占有されている（処理期間８３）ため、ユーザ１の発話区間８０が終了しても、ユーザ１の発話区間８０に対するデコードは開始できないからである。

　処理期間８４に示すように、ユーザ１の発話区間８０に対する音声区間検出と音源抽出とを先回りして実行したとしても、処理期間８５に示すように、デコードが開始できるのは、妨害音の区間８２に対するデコード処理８３の終了後（ｔ６）であり、認識結果が生成されるのは、時間ｔ７のタイミングである。

　同様に、ユーザ２の発話区間８１についても、処理期間８６に示すように、音声区間検出と音源抽出とは先回りして実行できるが、処理期間８７に示すようにデコードが開始できるのは時間ｔ７、認識結果が生成されるのは時間ｔ８のタイミングである。

　すなわち、図８に示す例では、妨害音の区間８２については、認識結果が図７に示す妨害音の区間７３に対する処理よりも早く生成されるが、これは棄却されるべき区間なので、ユーザから見た利点がない。一方で、妨害音の区間８２のデコードが残りの区間よりも先に動くために、ユーザ１の発話区間８０や、ユーザ２の発話区間８１については、デコードの開始が、妨害音の区間８２のデコードの終了まで待たされてしまう。その結果、ユーザにとっては、図７に示す例よりも遅延が増大したように見える。

　なお、図８に示す例でも、重複した区間と同じ数だけデコーダを用意できれば、それぞれに区間に対して音声区間検出・音源抽出・音声認識（デコード）を逐次的に行なうことができるため、遅延時間を短縮することができる。それを表わしたのが、図８の下段に示す処理期間８８，８９である。

　デコーダを３個以上用意した場合、妨害音の区間８２のデコード処理（処理期間８３）が実行中でも、残りのデコーダにより、他の音声区間のデコードが可能となる。
　ユーザ１の発話区間８０に対するデコード処理を処理期間８８、ユーザ２の発話区間８１に対するデコード処理を処理期間８９として示している。このように複数のデコーダを用いればデコーダの待ち行列は発生しない。そのため、３つの区間のどれについても終端の確定とほぼ同時に認識結果が生成される。

　しかし、デコーダを複数用意すると、その分、メモリやＣＰＵなどのリソースを消費するため、個数には上限がある。つまり、Ｎ個の区間が時間的に重複するからといって、Ｎ個のデコーダも常に用意できると想定するのは現実的ではない。現実的な想定としては、デコーダは複数用意するものの、個数は限定されており（例えば２個）、その個数より多くの区間が同時発生する可能性があると考えることであろう。すなわち、デコーダの個数は、１個よりは多いが、区間の個数よりは少ないと想定する。

　しかし、前述のような複数の区間が時間的に重複し得る環境において、区間よりも少ない個数のデコーダを用いるという前提の下、区間にデコーダをどのように割り当てると遅延が小さくなるかという問題については、従来は有効な解決策がなかった。

　　［１－２－３．（４）音声認識処理において発生する問題点のまとめ］
　ここで、音声認識処理において発生する問題点についてまとめる。本開示が対象とする環境では、複数の音源が同時に鳴る場合があり、しかもそれらの内の一つ以上が目的音である可能性がある。この特徴により、音声区間検出・音源抽出・音声認識それぞれに、以下のような課題が発生する。

　　（音声区間検出処理における課題）
　・時間的に重複する可能性がある区間同士を高精度に検出しようとして複数の方式を併用すると、多重検出が発生するか、遅延が増大するかのどちらかが発生し得る。

　　（音源抽出処理における課題）
　・時間的に重複した区間に対して高精度な抽出を行なうために、区間全体を用いたバッチ処理を行なうと、発話終了から音声認識結果が生成されるまでの遅延が増大する。
　・逐次的に処理可能な音源抽出方式を用いると、音源抽出の精度が低下する。

　　（音声認識処理（デコード）における課題）
　・時間的に重複した区間に対して　１個のデコーダでデコードしようとすると、デコード処理に待ち行列が発生して遅延が増大する。
　・重複した区間と同数のデコーダを常に用意するのは、リソースの制限から困難。
　・限定された個数のデコーダを用いた場合、すなわち、１個よりは多いが区間の数より少ない個数のデコーダを使用した場合に、どうすれば待ち行列を少なくできるかについては、従来技術では解決策が示されていない。

　　［２．本開示の音声認識装置の特徴について］
　次に、本開示の音声認識装置の特徴について説明する。
　本開示では、前述の問題を解決するために、音声区間検出、音源抽出、音声認識それぞれにおいて、従来の処理と異なる新規な点を有する。一番重要な点は、音源抽出において抽出精度を高く保ちながらもほぼ逐次的な処理を可能にしている部分である。そこで、音源抽出における新規点について最初に説明し、その後で音声区間検出と音声認識についてそれぞれ新規点について説明する。

　　［２－１．音源抽出処理における新規点について］
　以下、本開示の音声認識装置において実行する音源抽出処理の新規点について説明する。
　まず、最初に音源抽出に適用する抽出フィルタと、フィルタの推定や適用とは具体的には何を表わしているかについて、数式を参照して説明する。

　マイクロホンによって取得された観測信号に対して後述の短時間フーリエ変換（Ｓｈｏｒｔ－Ｔｉｍｅ　Ｆｏｕｒｉｅ　Ｔｒａｎｓｆｏｒｍ：ＳＴＦＴ）を適用することで、時間周波数領域の観測信号が生成される。フレーム番号（または時間）をｔ、周波数ビン番号（または周波数）をωという変数で表わし、ｋ番目のマイクロホンで取得された時間周波数領域の観測信号を、Ｘｋ（ω，ｔ）とする。

　観測信号は、所定の位置に配置された複数本のマイクロホンの各々において取得する。すなわち観測信号は、マイクロホンと同数の複数の入力チャンネルを持つ。
　全チャンネル（全マイクロホン）分の観測信号からなる列ベクトルを、以下に示す式［１．１］のＸ（ω，ｔ）のように表わす。このＸ（ω，ｔ）を観測信号ベクトルと呼ぶ。

　本開示において、観測信号から音声認識の処理対象とする目的音を抽出するフィルタとは、上記の式［１．３］で表わされるような行ベクトルＷ（ω）である。フィルタを適用する（フィルタリングする）とは、式［１．２］に示すように、観測信号ベクトルにフィルタを乗じることである。

　フィルタＷ（ω）を適切に選ぶと、観測信号ベクトルＸ（ω，ｔ）の中から目的信号を抽出（強調）し、それ以外の信号は除去（減衰）することができる。そのようなフィルタを抽出フィルタと呼び、そのときのフィルタ適用結果Ｙ（ω，ｔ）を（音源）抽出結果と呼ぶ。このフィルタ適用結果Ｙ（ω，ｔ）は、音声認識対象とする目的音の成分が多く含まれ、妨害音が削減された信号であり、このフィルタ適用結果Ｙ（ω，ｔ）を適用して音声認識を実行することで、高精度な音声認識結果を得ることが可能となる。

　一方、適切な抽出フィルタＷ（ω）を求める処理を、抽出フィルタの推定と呼び、特に、観測信号を用いてそのような推定処理を行なう場合を学習と呼ぶ。フィルタ推定処理は、例えば前述のＧＳＳ（Ｇｅｏｍｅｔｒｉｃａｌ　Ｓｏｕｒｃｅ　Ｓｅｐａｒａｔｉｏｎ）、遅延和アレイや、各種ビームフォーマーなどを適用したフィルタ推定、あるいは本出願人の先行特許出願である特開２０１２－２３４１５０（特願２０１２－０５２５４８号）に記載の手法においても利用される。なお、これらの何れの手法においても、フィルタの適用形態（式［１．２］）は共通であるが、フィルタを推定（学習）する式は異なる。

　観測信号から目的音を高精度に抽出するためには、発話区間全部を用いたバッチ処理を実行して抽出フィルタを推定（学習）するのが望ましい。しかし、発話の終端を検出してからバッチ処理を行なうと、前述のように遅延の原因となる。そこで、発話開始から一定時間が経過した時点で抽出フィルタを推定する。その時点から発話終了までは、抽出フィルタは固定し、観測信号への適用（式［１．２］）のみを行なう。フィルタの適用自体は逐次的に処理できるため、この工夫によってバッチ処理でありながら音源抽出の逐次処理も可能となる。

　音源抽出の逐次処理について、図９を用いて説明する。図９もこれまでの各図と同様、横軸が時間、縦軸が方向を示している。音声認識対象を目的音９１とする。その開始点（始端）は時間ｔ２である。本開示の処理では、目的音の始端から一定時間が経過した時間（ｔ３）から抽出フィルタの推定を開始する。それが、図に示す「抽出フィルタの推定９５」である。

　抽出フィルタの推定９５では、目的音９１の開始点（始端）である時間ｔ２から時間ｔ３までの観測信号、あるいは、時間ｔ２より以前のある時点（時間ｔ１）から時間ｔ２までの観測信号と、時間ｔ２から時間ｔ３までの目的音の方向とを用いてフィルタ推定を実行する。観測信号に基づく抽出フィルタの推定処理は、例えば、従来から知られる方法で実行可能であり、具体的には、例えば特開２０１１－１９１４２３号公報に記載の方式で抽出フィルタを推定することが可能である。

　抽出フィルタの推定９５の期間において求めたフィルタを発話区間内の観測信号に適用し、音源抽出結果を生成していく。この処理は、大きく分けて２つの段階の処理に分けられる。
　最初の段階の処理は、目的音９１の発話始端（ｔ２）から抽出フィルタの推定開始時点（ｔ３）までの観測信号に対してフィルタを適用する。図９に示す「抽出フィルタの適用（１），９６」は、この処理を表わしている。

　時間ｔ５において、この「抽出フィルタの適用（１），９６」が終了したら、次の段階の処理を開始する。この処理は、時間ｔ３以降の観測信号に対する逐次的なフィルタ適用処理である。すなわち、一定量の観測信号が入力されるたびに、入力した所定量の観測信号にフィルタを適用して抽出結果を逐次的に生成する。
　図に示す「抽出フィルタの適用（２）」の１つのボックスがフィルタ適用の１回分を表わしている。

　「抽出フィルタの適用（１），９６」が終了する時間ｔ５の直後は、フィルタ適用処理が入力観測信号に対して遅れて実行されるため、待機時間なしで連続的なフィルタ適用を行なう。やがて、フィルタ適用処理が、入力観測信号に追いついたら、適度な待機時間９８を間に挟みながらフィルタ適用処理を行なう。
　このようにすることで、発話の途中からは音源抽出も逐次的に処理されるようになるため、その後段である音声認識処理も、逐次的に処理される。従って、発話が終了するのとほぼ同時（時間ｔ６）に音声認識結果を生成することが可能となる。

　なお、発話が時間ｔ６よりも前に終了した場合は、従来と同様に、発話終端の検出時に音源抽出と音声認識とを行なう。その場合は逐次処理にはならないが、本実施例でそのような処理になるのは、時間ｔ２～ｔ３の長さよりも短い発話に限られる。前述の通り、音源抽出も音声認識も短い発話ほど処理時間が短いため、短い発話限定であれば、逐次処理を行なわなくても遅延は大きな問題とならない。

　このように目的音の音声区間の途中で抽出フィルタを推定してしまうことで、音源抽出の遅延の問題は解消できるが、一方で、抽出精度が低下する可能性もある。以降では、抽出精度低下の要因について説明するとともに、それを解決する方法について説明する。

　音声認識対象とする目的音の音声区間の途中での抽出フィルタ推定で抽出精度が低下する要因は、以下の２点が考えられる。
　　（１）フィルタの推定で使用される学習サンプルの個数が減少する。
　　（２）フィルタ推定の後で発生した妨害音は除去できない。
　以下では、それぞれの要因についてと、その解決方法について説明する。

　まず、「（１）フィルタの推定で使用される学習サンプルの個数が減少する。」この要因と解決方法について説明する。
　例えば、特開２０１１－１９１４２３号公報に記載の手法を適用した抽出フィルタ推定を行なう場合、学習データのサンプル数は、フィルタ推定で使用する観測信号のフレーム数となる。従って、例えば、図９に示す例では、時間ｔ２から時間ｔ６までの観測信号を使用する代わりに、時間ｔ２から時間ｔ３までの観測信号しか使用しないと、単純に学習サンプルの個数が減少するため、学習においてフィルタが適切には推定できなくなる可能性がある。

　十分な個数の学習サンプルを確保するためには、学習データである観測信号の始端を時間ｔ２より前に設定すればよい。例えば、時間ｔ３から一定時間さかのぼった時点（時間ｔ１）を始端とする。学習データの始端を区間の始端より前に設定することは、学習サンプルの個数を確保する以外の利点もあり、例えば、妨害音が目的音より前から鳴っている場合、すなわち妨害音１，９２がある場合、これを一層除去できるようになる。

　次に、「（２）フィルタ推定の後で発生した妨害音は除去できない。」この要因と解決方法について説明する。
　フィルタ推定の後で発生した妨害音とは、具体的には、例えば図９に示す例において、時間ｔ３より後で鳴り始めた妨害音であり、妨害音３，９４が該当する。時間ｔ１から時間ｔ３までの観測信号を学習データとして用いてフィルタの推定を行なう場合、時間ｔ２より前から鳴っている妨害音１，９２や、時間ｔ２～ｔ３の間に鳴り始めた妨害音２，９３については除去できる（可能性がある）。しかし、妨害音３，９４については学習データには含まれないため、除去されない。そのため、妨害音３，９４のような妨害音によって抽出精度が低下するのを防ぐためには、別の工夫が必要になる。

　本開示では、以下の２つの技術を導入することで、フィルタ生成後に発生する妨害音３，９４のような妨害音による抽出精度の低下を防止する。
　　ａ）全死角空間フィルタ（例えば特開２０１１－１０７６０２号公報に記載）
　　ｂ）時間周波数マスキング（例えば本出願人の先行出願である特開２０１２－２３４１５０（特願２０１２－０５２５４８）に記載）
　以下、それぞれについて簡単に説明する。なお、詳細処理については後段で説明する。

　　「ａ）全死角空間フィルタ」とは、学習データに含まれる全ての音源の方向に死角を形成したフィルタのことである。抽出フィルタの適用結果から全死角空間フィルタの適用結果を減算すると、どちらのフィルタでも除去できない音を相殺することができる。具体的には、例えば図９に示す例において、時間ｔ１から時間ｔ３までの観測信号を学習データとして用いて全死角空間フィルタを推定し、推定した全死角空間フィルタを時間ｔ２から時間ｔ６までの区間の観測信号に適用すると、目的音９１と、妨害音１，９２と妨害音２，９３が除去されるが、学習データに含まれない妨害音３，９４は除去されない。

　一方、同じ時間ｔ１から時間ｔ３までの観測信号を学習データとして、この学習データから目的音を抽出するための抽出フィルタを推定し、同じく時間ｔ２から時間ｔ６までの区間に適用する。この抽出フィルタの適用によって、妨害音１，９２と、妨害音２，９３は除去され、目的音９１と、妨害音３，９４は残る。

　すなわち、時間ｔ１から時間ｔ３までの観測信号を学習データとして、全死角空間フィルタと抽出フィルタとを生成し、これらの２つのフィルタを時間ｔ２から時間ｔ６までの区間の観測信号に個別に適用すると、以下の２つのデータが得られる。
　（ａ）全死角空間フィルタ適用結果：残留音＝妨害音３，９４（目的音９１、妨害音１，９２、妨害音２，９３は除去）
　（ｂ）抽出フィルタ適用結果：残留音＝目的音９１、妨害音３，９４（妨害音１，９２、妨害音２，９３は除去）

　従って、抽出フィルタの適用結果から全死角空間フィルタの適用結果を減算すると、両者のスケールが適切であれば、妨害音３，９４は相殺され、結果として目的音９１のみを残すことができる。
　すなわち、
　（抽出フィルタ適用結果）－（全死角空間フィルタ適用結果）
　＝（目的音９１＋妨害音３，９４）－（妨害音３，９４）
　＝目的音９１
　となる。
　このように２つの異なるフィルタを生成して、各フィルタ適用結果を利用した演算を行なうことで、フィルタ生成時に存在していない妨害音の影響を排除した目的音抽出が可能となる。

　次に、「ｂ）時間周波数マスキング」について説明する。
　時間周波数マスキングにおいては、まず、観測信号と目的音の方向情報とを用いることで、妨害音があまり含まれない周波数領域については削減させることなく、ほぼそのまま透過し、一方、妨害音が多く含まれる周波数領域については削減するためのマスクを生成する。
　時間周波数マスキングは、このように周波数帯に応じて透過信号を制御するマスクを細かな時間単位ごとに逐次生成し、生成したマスクを観測信号に適用して妨害音を削減した信号を生成する。

　なお、この時間周波数マスキングを適用した処理については、本出願人の先の出願である特開２０１２－２３４１５０（特願２０１２－０５２５４８）において詳細に説明している。まず、観測信号に抽出フィルタを適用し、その結果に対してさらに時間周波数マスキングを行なうことで、目的音とは別の方向から到来した音の除去効果を一層、高めることができる。
　このように、例えば、図９に示すように、抽出フィルタ生成処理後に発生する妨害音３，９４については、抽出フィルタの推定９５において生成した抽出フィルタを適用しても除去できないが、この時間周波数マスクによって低減することが可能となる。

　　［２－２．音声区間検出処理における新規点について］
　次に、本開示の音声認識装置における音声区間検出における新規点について説明する。
　本開示の音声認識装置は、音声認識対象となる目的音の音声区間の途中で音源抽出を行なうことを特徴とするが、それを実現するためには、音声区間検出と音源抽出とが一体的に動作する必要がある。これは同時に、複数の音声区間検出手段を用いていても、それらの手段は一体的に動作する必要があることを意味している。つまり、以下の２点が必要である。
　　ａ）音声区間検出と音源抽出との一体化
　　ｂ）複数の音声区間検出手段の一体化

　上記ａ），ｂ）それぞれの説明をする前に、音声区間を検出する方式を分類する。複数音源に対応した音声区間検出の方式はいくつか存在するが、それを以下の２種類の方式に分類する。
　（方式１）音声区間終端の見極め時間が必要な方式
　　　・音源方向推定を用いた方式（特開２０１２－１５０２３７号公報などに記載の方式）
　　・口唇画像を用いた方式（特開平１０－５１８８９号公報などに記載の方式）
　（方式２）音声区間終端の見極め時間が不要の方式
　・画像に基づく手形状の変化を用いた方式（特開２０１２－２０３４３９号公報などに記載の方式）

　音源方向推定によって推定された音源方向や、口唇画像の変化などは、音声発話とは無関係のタイミングや方向においても発生したり、逆に、発話途中であっても一時的に途切れたりする可能性がある。従って、音声区間の始端や終端を確定するためには、先に図４を参照して説明した終端見極め処理４２に相当する見極めのための時間を必要とする。すなわち、遅延が不可避となる。

　一方、撮影画像に基づく手の形状の変化から音声区間（発話区間）を判別する方式、すなわち、発話者が手で発話の開始や終了を合図する設定の場合は、画像から発話区間の始端や終端を判別することが可能である。このような構成では、手形状の変化は見極め時間なしで判定可能である。例えば「発話開始においてユーザが手形状を［パー］から［グー］に変化させ、発話終了時に［グー］から［パー］に戻す」という使い方で発話区間を入力したとすると、その区間の始端と終端は遅延時間なしで判定することができる。

　上述のように、本開示の音声認識装置は、音声区間検出と音源抽出とを一体的に動作させるものであり、このため、
　　ａ）音声区間検出と音源抽出との一体化
　　ｂ）複数の音声区間検出手段の一体化
　これらａ），ｂ）を実現させる構成としている。
　以下、上記のａ），ｂ）それぞれについて説明する。
　まず、「ａ）音声区間検出と音源抽出との一体化」について、図１０を参照して説明する。この図１０も、横軸が時間、縦軸が方向を示している。

　図１０は音声区間検出処理例を説明する図である。この図において説明する音声区間検出処理は、特開２０１２－１５０２３７号に記載された処理とほぼ同一である。すなわち、一定時間ごとに音源方向推定を行ない、音源方向推定の結果、得られた音源方向を表わす点をプロットしていく。この点を「方向点」と呼ぶ。図１０に示す方向点１０１である。近接する方向点同士を時間方向に接続することで、発話区間１０２を得る。これらの近接する方向点を接続する処理を「トラッキング」と呼ぶ。また、終端が確定する前の区間を「作成中区間」と呼ぶ。

　ただし、本開示の処理は、例えば特開２０１２－１５０２３７号公報に記載された処理と異なり、方向点を取得する手段は音源方向推定に限らず、画像を分析し、動いている口唇の位置や特定の形状の手の位置などから求めた方向点を用いてもよく、それら複数の手段を併用してもよい。いずれにしても、近接する方向点同士をトラッキングによって接続するという処理は同一である。

　トラッキングによって検出された音声区間１０２の始端は、図に示す始端１０３、終端は終端１０４である。ただしこれらの点は、瞬時に求まるわけではなく、見極め時間と呼ぶ一定の遅延の後で確定する。なお、見極め時間については、先に図４を参照して説明した通りである。時間ｔ３の始端１０３が確定するタイミングは、時間ｔ４、時間ｔ６の終端１０４が確定するタイミングは、時間ｔ７とする。

　音声区間検出と音声認識との組み合わせにおいては、検出された区間そのものの入力信号を音声認識処理部に入力するよりも、その区間の前後の入力信号も合わせて音声認識処理部に入力して音声認識処理実行する方が、認識精度が高くなることが知られている。この前後の追加分をハングオーバと呼ぶ。図１０では、始端側のハングオーバは時間ｔ２～ｔ３の領域、終端側のハングオーバは時間ｔ６～ｔ７の領域であり、そのハングオーバを含んだ発話区間が、ハングオーバを含む発話区間１０５である。

　つまり、本開示の音声認識装置では、ハングオーバを含む発話区間１０５の区間に対して音源抽出を行ない、さらにその結果に対して音声認識を行なう。
　音声区間検出と音源抽出とを一体化する上で重要なタイミングは、図１０に示す時間ｔ５であり、トラッキングが、時間ｔ５に到達した時点で、抽出フィルタの推定を行なう。

　抽出フィルタは、前述のように、観測信号から目的音を抽出するフィルタである。この抽出フィルタの生成は従来から知られる方式が適用可能である。例えば、前述した本出願人の先行特許出願である特開２０１２－２３４１５０（特願２０１２－０５２５４８号）に記載した方式、すなわち学習のための観測信号と目的音の方向情報を使用してフィルタ算出を行なう方法を適用してもよい。なお、この手法を適用する場合、観測信号については、時間ｔ１から時間ｔ５までの区間の観測信号１０６を用い、方向情報については時間ｔ３から時間ｔ５までの観測信号１０７から得られる平均の方向を用いる。なお、時間ｔ１は、先に説明した図９の時間ｔ１と同じであり、抽出フィルタ生成点（ｔ５）から一定時間ほど遡った時点である。

　抽出フィルタを推定したら、発話区間の内、この時点（ｔ５）で既に入力済みの観測信号１０８に対して生成した抽出フィルタを適用し、音源抽出結果を生成する。それ以降は、入力に合わせて逐次的にフィルタを適用していく。その逐次的な適用は、トラッキングが、発話区間の終端である時間ｔ６を通り越し、終端ハングオーバの終端である時間ｔ７に達するまで続ける。時間ｔ７からｔ８までの時間は、発話区間の終端１０４を確定するために必要な見極め時間の一部である。この間で再び方向点が発生し、さらに作成中の発話区間１０２と接続可能であれば、前述の逐次的な適用を再開する。そのような方向点が存在しなければ、時間ｔ７からｔ８の間は音源抽出結果の生成は行なわない。そして、見極め時間の完了する所定の時間ｔ８にトラッキングが達した時点で、音声区間の終端１０４が確定する。これはすなわち、発話区間については、音声認識処理をすべき入力信号がこれ以上は存在しないことを意味するので、必要に応じてその情報を音声認識に通知する。

　ここで、比較のため、先に説明した特開２０１２－１５０２３７に記載の音声区間検出処理と、特開２０１２－２３４１５０（特願２０１２－０５２５４８）に記載の音源抽出処理と、特許第４６００７０５号（特開２００１－２４２８８３号公報）に記載の音声認識処理とを組み合わせた処理を行なった場合についても簡単に説明する。
　この組み合わせで処理を実行する場合、図１０に示す時間ｔ８の時点で発話区間の終端１０４が確定し、このタイミング（ｔ８）で観測信号１０５の区間を切り出し、その区間に対して音源抽出と音声認識とを行なうことになる。

　すなわち、音源抽出と音声認識は、発話区間の終端確定後、時間ｔ８以降において実行することになる。このような処理を行う場合、音声区間検出のためのトラッキング処理に際して、時間ｔ５の抽出フィルタの推定開始や、時間ｔ７の終端ハングオーバなどを考慮する必要はない。従って、ｔ５やｔ７のタイミングに相当する記述は特開２０１２－１５０２３７の音声区間検出処理では見られない。言い換えると、ｔ５やｔ７のタイミングでの処理は、本開示の音声認識装置の実行する新規な処理の１つである。

　次に、前述の「ｂ）複数の音声区間検出方式の一体化」について説明する。複数の音声区間検出方式の一体化処理を行なう場合、以下の２つの要素について考慮することが必要である。
　一つは、複数の音声区間検出方式各々による多重検出を防ぐために、各方式は方向点の検出までを行ない、方向点のトラッキングは共通の処理として行なうことである。
　もう一つは、音声区間の終端見極めに関する遅延が複数方式の併用によって増大するのを避けるため、見極め時間が不要の音声区間検出方式については、区間の始端と終端の確定のために専用の手続きをそれぞれ用意することと、そのような手続きによって生成された区間についてはトラッキング時に優先的に処理することである。

　以下、「ｂ）複数の音声区間検出方式の一体化」において考慮すべき上記２つの要素についてそれぞれ説明する。
　図１１は、複数の音声区間検出方式によって取得された方向点を共通にトラッキングする様子について説明する図である。横軸が時間、縦軸が方向である。

　この図１１は、３種類の音声区間検出方式を使用した想定である。各方式において取得した方向点を異なる態様で示している。
　方向点１１１等、斜線マルで示す方向点の各々は、例えばマイクロホンアレイの取得音声の解析に従った音源方向推定方式によって得られた方向点である。
　方向点１１２等の白マルで示す方向点の各々は、カメラ撮影画像から取得される手形状の検出に基づいて得られる方向点である。
　方向点１１３等の黒マルで示す方向点の各々は、カメラ撮影画像から取得される口唇画像の解析によって得られる方向点である。

　これらの３つの異なる音声区間検出方式によって得られた方向点を、各方式単位で個別にトラッキングすると、この例では１回の発話が最大で三重に検出されてしまう可能性がある。しかし、この図のように１つの共通トラッキング処理を行なうことで、単一の音声区間１１４のみを検出することができる。
　このように、複数の異なる音声区間検出方式を併用した場合、共通トラッキングを実行することで、以下のような利点がある。

　（利点１）終端確定後に近接区間同士をマージする必要がなくなるため、マージ見極め時間（例えば図６に示すマージ見極め時間６７）に由来する遅延を防止できる。
　（利点２）終端確定後に近接区間同士をマージする方法では、区間同士の長さの違いが大きいと適切にはマージされなかったが、共通のトラッキングではそれが解消する。例えば図１１において、黒マルで示す口唇画像の解析によって得られる方向点１１３は他の手段によって得られる方向点よりも早めに途切れているため、この黒い方向点のみのトラッキングで得られる音声区間は、他の手段で得られる音声区間よりも短い（早く終了する）可能性が高く、区間同士のマージに失敗する可能性がある。

　（利点３）トラッキング自体は単一であるため、音源抽出との一体化が容易にできる。逆にいうと、音声検出手段ごとにトラッキングを行ない、そのトラッキングごとに音源抽出と一体化するのは、実装が大変である。

　なお、前述したように、カメラ撮影画像の解析によって得られる手形状の変化による音声区間検出は見極め時間なしで始端と終端とを確定できるため、本来この手段についてはトラッキングは不要である。しかし、本開示では多重検出を防ぐために、手形状の変化による方式からもあえて方向点を取得し、それもトラッキングの対象に加えている。

　しかし、単に共通トラッキングを導入するだけでは、多重検出は解消できるが、終端見極め時間は解消できない。例えば、手形状の変化による方式は低遅延で発話終端を検出できるが、音源方向推定による方式や口唇画像による方式では終端見極め時間が必要であるため、共通トラッキングを用いて終端を確定するためには、３つの方式の中で最長のものに合わせる必要がある。

　そこで、そのような遅延を解消するため、例えば画像に基づく手形状識別に基づく音声区間検出方式のような、音声区間の始端または終端の見極め時間が不要な方式（特定方式）については、以下に示す［特別処理］を行なう。
　（１）音声区間の始端が検出された時点において、この特定方式専用の始端登録処理を行なう。他の作成中区間と区別するため、この処理によって生成された作成中区間は、「登録済み」という属性を付与する。
　（２）トラッキング中は、この特定方式に由来する方向点が存在しなくても、方向点を自動で生成して作成中区間を延長する。
　（３）トラッキング中に作成中区間同士のマージが発生したときは、「登録済み」という属性を持つ作成中区間の方に他方の作成中区間を吸収させる。
　（４）音声区間の終端が検出された時点において、この特定方式専用の終端登録処理を行なう。

　これらの［特別処理］について、図１２を参照して説明する。図１２も横軸が時間、縦軸が方向である。
　図１２に示す方向点１２１等の斜線マルの方向点は、音声区間の始端または終端の見極め時間が必要な音声区間検出方式に基づいて得られた方向点である。
　また、方向点１２３等の白マルの方向点は、音声区間の始端または終端の見極め時間が不要な音声区間検出方式、例えば手形状検出に基づく方式に従って得られた方向点である。

　音声区間１２２は、音声区間の始端または終端の見極め時間が必要な音声区間検出方式に基づいて得られた方向点をトラッキングすることによって得られた作成中区間である。
　音声区間１２４は、特定方式、すなわち音声区間の始端または終端の見極め時間が不要な音声区間検出方式に基づいて得られた方向点をトラッキングすることによって得られた作成中区間である。

　ここで、トラッキングが、時間ｔ２まで進んでいるとし、その時点で、見極め時間が不要の方式に由来する方向点１２３が検出されたとする。この方向点は発話区間の始まりであることも同時に分かるため、上記の［特別処理（１）］に従って区間の始端を登録する。この登録によって生成された作成中区間が　音声区間１２４であり、これは「登録済み」という属性を持つ。

　次は、［特別処理（２）］について説明する。例えばトラッキングが、図１２に示す時間ｔ３まで進んでいるとする。作成中区間である音声区間１２４は「登録済み」の属性を持っているため、その作成中区間と同じ方向の方向点１２６を自動的に生成し、それを作成中区間に接続させる。こうすることで、見極め時間を必要としない方式に由来する区間は、作成途中で途切れることなく延長されていく。

　次は、［特別処理（３）］について説明する。その前に、特開２０１２－１５０２３７号公報において開示している音声区間のマージ処理について説明する。
　特開２０１２－１５０２３７号公報に記載の方式では、トラッキングにおいて複数の作成中区間が近接していたら、それらをマージして一つの区間にまとめるという処理を説明している。

　複数の作成中区間をマージするか否かの判定は、一つの方向点が複数の作成中区間と接続可能かである。例えば図１２において、トラッキングが時間ｔ４まで進んでおり、方向点１２５が二つの作成中区間１２２，１２４のどちらとも十分に近接している（方向の差が閾値より小さい）場合は、２つの作成中区間を１つにマージする。特開２０１２－１５０２３７号公報に記載の方式では、最も早くから開始された区間にそれ以外の区間をマージするようにしているため、マージ後の区間の始端は作成中の音声区間１２２と同様に時間ｔ１となる。
　また、作成中区間１２４は、このマージ処理の後は消滅したように見える。ただし、マージ後の方向は、両方の作成中区間の方向点の平均とする。

　この手法に対し、本開示の処理では、一つの方向点に複数の作成中区間が接続可能で、さらにその中に「登録済み」属性を持った作成中区間が存在している場合は、その「登録済み」属性を持った区間に対して他の区間をマージする。このようにする根拠は、以下の２点である。
　・「登録済み」属性を持つ区間の始端と終端は、見極め時間なしで決定できるため、そうでない区間よりも正確である可能性が高い。
　・「登録済み」属性を持つ区間が、作成途中で消失しないようにするため。

　例えば図１２において、音声区間の作成中である作成中区間１２２の先頭の方向点１２１は、音源方向推定や口唇画像によって取得されたものであるため、発話とは無関係に（しかし、たまたま発話方向の近くに）発生したものである可能性もある。それに対し、作成中区間１２４の先頭の方向点である方向点１２３は、ユーザの手形状の変化に由来するものであり、ユーザが発話に合わせて手を動かしたのであれば、方向点１２１よりも始端として正確である可能性が高い。そのため、両者がマージされる際には、方向点１２１よりも方向点１２３の方が始端として適切であると期待される。

　また、「登録済み」属性を持つ作成中区間については、終端の登録についての専用の処理を行なうことで見極め時間なしで終端を確定するが、その前提として、始端を登録した作成中区間が終端登録時まで残っている必要がある。その点からも、マージの処理は、「登録済み」属性のついた作成中区間１２４を残し、そうでない方の作成中区間１２２は消滅したという扱いにするのが望ましい。ただし、マージ後の作成中区間の方向は、両者の方向点の平均とする。

　なお、近接した作成中区間の中に、「登録済み」属性を持つものが複数ある場合は、以下のように処理する。
　・「登録済み」属性を持つ作成中区間同士はマージしない。
　・「登録済み」属性を持つ作成中区間それぞれに対して、それ以外の作成中区間をマージさせる。

　例えば、トラッキングのあるタイミングにおいて、Ａ，Ｂ，Ｃ，Ｄの４つの作成中区間が近接していた（４つの作成中区間はどれも一つの方向点に接続可能だった）とする。それらのうち、ＡとＢは「登録済み」属性を持っているとする。その場合、Ａ，Ｃ，ＤとＢ，Ｃ，Ｄという２つのマージが発生し、その結果としてＡとＢの２つの作成中区間が残る。

　このように、見極め時間不要の音声区間検出方式については、上記の［特別処理（１）］によって作成中区間の生成を行ない、途中のトラッキングでは、上記の［特別処理（２）］と、［特別処理（３）］の処理を専用に行なうことで、発話終了時までその区間が残っている（途切れたりマージされたりしない）ことが保障される。そのため、終端が検出された時点で、その区間に対する専用の終端確定処理（前述の［特別処理（４）］）を行なうことができ、終端見極め時間が不要となる。

　このように、上記の（１）～（４）の特別処理を行なうと、共通トラッキングを行なっているために多重検出を防ぐことができる上に、見極め時間不要の音声区間検出方式に由来する区間については、終端見極め時間に基づく遅延を回避することもできる。

　　［２－３．音声認識処理における新規点について］
　次に、本開示の音声認識装置における音声認識処理の新規点について説明する。
　なお、以下において説明する新規点は、正しくは音声認識そのものではなく、音源抽出と音声認識との間のインターフェースについてである。

　音声区間検出と音源抽出とを一体的に処理することで、区間同士が時間的に重複していても、それぞれの抽出結果を逐次的に生成することが可能となる。しかし、デコーダの個数が限られている場合は、どの区間の抽出結果を優先的にデコードすれば遅延が小さくなるかという課題が残る。

　そこで本開示の音声認識装置では、音源抽出部と音声認識部との間に、例えば図１３に示す構成を有するバッファを用意する。このバッファを介して、音源抽出部から音声認識部に対する出力データを選択供給することで、この課題に対処する。

　以下では、このバッファについて説明する。なお、図１３を参照して説明する処理は、図８や図１４に示すように３つの音源から音が同時に発声しているタイミング、例えば図１４に示す時間ｔ３のタイミングにおける処理である。
　図１４に示す時間ｔ３の時点では、３つの作成中区間が存在する。なお、詳細については後述するが、本開示では作成中区間と同数の音源抽出部を用意する。すなわち、図１３に示すように、３個の音源抽出部１３１ａ～ｃが存在する。各音源抽出部１３１ａ～ｃは、逐次的に音源抽出結果を生成しており（１３２ａ～ｃ）、各抽出結果は抽出結果バッファリング部１３５に入力される。

　抽出結果バッファリング部１３５は、作成中区間それぞれに対応したバッファ１３５ａ～ｃを有する。各バッファ１３５ａ～ｃは、Ｆｉｒｓｔ－Ｉｎ－Ｆｉｒｓｔ－Ｏｕｔ（ＦＩＦＯ）構造を有しており、新たな入力データである最新の抽出結果は各バッファの末尾（図では左端）に追加される。取り出すときは、先頭（図では右端）から取り出される。また、各バッファ１３５ａ～ｃは、それぞれ区間情報１３４ａ～ｃを保持しており、各バッファ１３５ａ～ｃに蓄積されている抽出結果がどの作成中区間に由来しているものなのかが分かるようになっている。

　音声認識部１３７ではデコーダ１３９ａ，ｂによる音声認識処理が行われる。各デコーダが各々１つの音源からの音声区間に対する音声認識を行なう。デコーダの数が多ければ多くの音声区間の並列処理が可能であるが、前述したようにデコーダを複数用意すると、その分、メモリやＣＰＵなどのリソースを消費するため、個数には上限がある。つまり、Ｎ個の区間が時間的に重複するからといって、Ｎ個のデコーダも常に用意できると想定するのは現実的ではない。

　図１３に示す音声認識部１３７は２つのデコーダ１３９ａ，ｂを持つ。すなわち同時に処理可能な音声区間は２つの区間のみである。一方、処理対象となる音声区間は３つである。
　図１３に示す音声認識部１３７は２つのデコーダ１３９ａ，ｂは、抽出結果バッファリング部１３５に格納された３つの音声区間から、２つの音声区間のみを選択して音声認識処理を行なうことになる。
　図に示すスイッチ１３６とスイッチ１３８の接続状態によってこの選択が実行される。なお、これらのスイッチの制御は図には示していないが、制御部の制御によって実行される。

　この２つのスイッチ１３６，１３７をどのように切り替えればよいかという問題が重要となる。
　本開示の音声認識装置は、この問題に対処するため、抽出結果バッファリング部１３５内に抽出結果が存在する区間について、以下の基準で順位づけを行なう。
　（基準１）「登録済み」属性を持つ区間を優先。「登録済み」属性を持つ区間が複数あるときは、始端が古い方を優先。
　（基準２）「登録済み」属性を持たない区間については、終端が既に確定しているものを優先。「登録済み」属性を持たない区間が複数あるときは、終端が古い方を優先。
　（基準３）終端が未確定の区間については、始端が古い方を優先。
　本開示の音声認識装置の制御部は、これらの３つの基準に従ってスイッチ１３６，１３８を制御して、優先度の高い音声区間データを音声認識部１３７に出力する。

　上記の（基準１）～（基準３）について説明する。
　（基準１）において「登録済み」属性を持つ区間を優先し、「登録済み」属性を持つ区間が複数あるときは、始端が古い方を優先する理由は以下の通りである。
　これは、音声区間検出の方式の違いを反映させるためである。「登録済み」属性を持つ区間は、前述したように、例えば画像に基づく手形状識別に基づく音声区間検出方式のように、音声区間の始端または終端の見極め時間が不要な方式である。
　すなわち、この「登録済み」属性を持つ区間は、ユーザの立場として確実に音声を入力したい可能性が高いと推定できる。そのため、このような方式に由来する区間については最優先でデコードして遅延を小さくすることで、ユーザの期待に応える設定とする。なお、始端が古い方を優先するのは、発話開始時間の早いものを先に処理するという設定としたものである。

　（基準２）は、「登録済み」属性を持たない区間については、終端が既に確定しているものを優先。終端が既に確定している区間が複数あるときは、終端が古い方を優先する基準である。
　この基準は、音声区間の始端または終端の見極め時間が必用な方式に対応した基準であり、これらの方式が競合した場合は、発話終了から認識結果生成までの時間を最短にするため、終端が確定した順で処理を優先する。

　（基準３）は、終端が未確定の区間については、始端が古い方を優先する基準である。
　この基準は、発話の終了点である終端が未確定の発話区間が複数競合している場合の基準であり、このような競合が発生する場合は、先に発話開始があったものを優先するとする基準である。
　音声区間と同数のデコーダを常に用意できるのであれば、この基準のみを適用すれば、音声区間の開始位置の早い順に各デコーダを適用した処理が可能となり、デコーダの遅延を最小にでき、この基準３のみを利用すればよい。
　しかし、現実的には、デコーダの数は処理が要求される音声区間数以下である場合が想定される。従って、本開示の音声に認識装置では、この（基準３）の他に、上記の（基準１）や、（基準２）を併用し、ユーザ要求度等を考慮した優先処理を実現している。

　なお、上記の（基準１）において、同じ時刻を始端とする区間が複数存在する場合は、（基準２）と同様の基準を用いてさらに順位づけを行なう。また、（基準１）～（基準３）、それぞれにおいて、同順位の区間が複数存在する場合は、便宜的に、方向の値が小さい方を優先する。

　図１３に示す音声認識部１３７は、この順位に従って区間ごとの抽出結果とデコーダ１３９ａ，ｂとの対応付けを行なう。例えば、デコーダが１個のみの場合は、上記順位づけでトップになった区間の抽出結果を取得してデコードする。デコーダがＮ個の場合は、上記順位づけのなされた上位Ｎ個の区間について、抽出結果をデコーダに対応させる。

　なお、抽出結果バッファリング部１３５内の順位づけの対象となる「区間」は、例えば図１０～図１２におけるトラッキングの対象となる作成中区間とは別物である点に注意されたい。トラッキングは区間の始端と終端とを見つける処理なので、終端が確定した時点でその区間はトラッキングの対象からは外れる。一方、抽出結果バッファリング部１３５に含まれるバッファ１３５ａ～ｃは、各区間の抽出結果を区間ごとに蓄積する。いったん、バッファ１３５ａ～ｃに蓄積された抽出結果は、区間の終端が確定した後であっても、抽出結果バッファリング部１３５から取り出さない限りは残り続けるため、その区間は順位づけの対象となる。

　　［３．本開示の音声認識装置の具体的構成と処理について］
　以下、本開示の音声認識装置の具体的構成と処理について説明する。

　　［３－１．本開示の音声認識装置の全体構成例について］
　本開示の一実施例に係る音声認識装置の全体構成を図１５に示す。図１５に示す音声認識装置１５０は、情報入力部として、異なる位置に配置した複数のマイクロホンからなるマイクロホンアレイによって構成される音入力部１５１と、画像撮影を行なうビデオカメラからなる画像入力部１５４を有する。

　音入力部１５１の各マイクロホンで取得された信号は、アナログ・デジタル（Ａ／Ｄ）変換部１５２においてデジタル信号に変換される。ＡＤ変換部１５２の出力は、多チャンネルの音データ（波形）であり、これを（時間領域の）観測信号と呼ぶ。

　一方、ビデオカメラからなる画像入力部１５４の取得画像は画像処理部１５５に入力される。画像処理部１５５は、撮影画像に含まれる口唇領域の検出、手領域の検出等を実行し、口唇画像や手形状など、音声発話区間の検出に使用可能な情報を取得する。なお、画像処理部１５５の詳細については後述する。

　本実施例の音声認識装置１５０は、マイクロホンアレイからなる音入力部１５１で取得された音データの解析に基づいて取得される音源方向情報と、画像入力部１５４の取得画像の解析によって得られる口唇や手の方向に基づいて取得する音源方向情報、これら複数の音源方向情報を併用してトラッキングを行なう。
　そのため、マイクロホンアレイからなる音入力部１５１と、ビデオカメラからなる画像入力部１５４との位置関係は固定する必要がある。そのため、マイクロホンアレイとビデオカメラとは一体化された形状のモジュールを使用するのが望ましい。

　また、音と画像との間で、同じ時刻に発生したもの同士を対応させる必要がある。
そこでタイムスタンプ生成部１５８を備える。タイムスタンプ生成部１５８は、クロック信号に従った時間情報であるタイムスタンプを生成し、ＡＤ変換部１５２と、画像入力部１５４に供給する。ＡＤ変換部１５２は、音入力部１５１から入力する各マイクロホンの音信号に対する属性情報としてタイムスタンプを付与する。画像入力部１６４も、撮影画像の各フレームに対する属性情報としてタイムスタンプを付与する。
　このようにして、音データと、画像データにはそれぞれタイムスタンプが付与され、後述のフロントエンド部１５３の処理において、同時刻の音と画像とを対応付けた処理が可能となる。

　フロントエンド部１５３は、音声区間検出と音源抽出とを一体化した処理として実行し、これら両処理を逐次的に行なうモジュールである。なお、先に図１３を参照して説明したバッファや、音源抽出結果を音声認識用の特徴量へ変換するモジュールなども、このフロントエンド部に含まれる。詳細は後述する。

　フロントエンド部１５３において、各音源は区間ごとに分割される。なお、複数の音源からの音が時間的に重複していても、各区間は一つの音源の抽出された区間、すなわち抽出音源単位の音声区間として生成される。なお、各音源の音源抽出結果は逐次的に生成されて出力される。

　音声認識部１５６は、フロントエンド部１５３から出力される区間ごとの音源抽出結果に対応した単語系列などを求める。なお、音声認識部１５６は、先に図１３を参照して説明したように、必要に応じて複数のデコーダを備えることで、認識結果が生成されるまでの遅延を短縮することができる。詳細については、後述する。

　なお、フロントエンド部１５３の出力の段階では、抽出される音源には目的音も妨害音も含まれる。ただし、音声認識部１５６は、音声認識処理としてのデコードを行なう際にに、各音源に対応する信号の解析を実行し、予め規定したルールに従ったスコアや信頼度などを計算する。これらの値が既定の閾値よりも低かったら、音声認識対象とすべき音声ではない妨害音である等の判断を行い、音声認識対象データとせずに棄却するといった処理を行なう。このような処理を行なうことで、妨害音に由来する認識結果が誤作動を引き起こすのを防ぐ。

　音声認識部１５６で得られた認識結果は、後段処理部１５７へ送られる。例えば、音声で操作するテレビであれば、音声認識の結果に応じてチャンネルを変えたり、ユーザが所望する番組を検索したりといった処理が行なわれる。
　なお、音声認識装置１５０の各処理部の処理は、制御部１５９によって制御される。
　制御部１５９は、例えば図示しないメモリに格納されたデータ処理プログラムに従って音声認識装置１５０の各処理部の処理を制御する。

　　［３－２．本開示の音声認識装置におけるフロントエンド部の構成と処理について］
　次に、フロントエンド部１５３の構成と処理の詳細について、図１６を参照して説明する。フロントエンド部１５３に対する入力は、音入力部１５１の複数のマイクロホンの取得音であり、ＡＤ変換部１５２でデジタル信号化された多チャンネルの音データである。チャンネル数はマイクロホン数に対応する。この多チャンネル音データは、短時間フーリエ変換（Ｓｈｏｒｔ　Ｔｉｍｅ　Ｆｏｕｒｉｅｒ　Ｔｒａｎｓｆｏｒｍ：ＳＴＦＴ）部１６１と音声・非音声判別部１６２に入力される。

　ＳＴＦＴ部１６１は、時間領域の観測信号に対して短時間フーリエ変換を適用し、時間周波数領域の観測信号（スペクトル）を得る。短時間フーリエ変換については後述するが、そこでは一定長の信号が入力されるたびに処理が行なわれる。その処理の単位をフレームと呼ぶ。処理結果は、観測信号バッファリング部１６４と音源方向推定部１６３に入力される。

　音声・非音声判別部１６２は、入力された音データが音声らしいか否かを二値で判別する。なお、この判別処理は、例えば特許４１８２４４４号公報に開示されている信号の周期性に着目した方式などが使用可能である。この判別もフレーム単位で行なわれ、その結果は観測信号バッファリング部１６４に出力され、格納される。

　観測信号バッファリング部１６４は、ＳＴＦＴ部１６１において生成された時間周波数領域の観測信号と、音声・非音声判別部１６２の生成した音声・非音声の判別結果と、そのフレームの番号（インデックス）とタイムスタンプとをセットにして、一定時間（所定のフレーム数）だけ蓄積する。詳細は後述する。また、このモジュールは、前述のタイムスタンプとフレーム番号との相互変換のためにも用いられる。

　観測信号バッファリング部１６４に蓄積された観測信号は、トラッキング部１６５へ供給される。
　音源方向推定部１６３は、ＳＴＦＴ部１６１で得られた多チャンネルかつ時間周波数領域の観測信号を用いて、その時点で存在する音源の方向を推定する。
　この処理は、例えば、音源方向推定に基づく音声区間検出方式である特開２０１２－１５０２３７号公報などに記載の処理に従って実行される。

　音源方向推定部１６３は、音源方向推定処理を一定数のフレームが入力される毎に実行する。音源方向の推定単位である複数フレームの集合をブロックと呼ぶ。生成する情報は、ブロック内に存在する音源の方向を表わした点であり、それを方向点と呼ぶ。方向点とは、先に説明した図１０～図１２に示す方向点である。こうして得られた方向点は、トラッキング部１６５に送られる。

　トラッキング部１６５は、本開示において最も重要なモジュールの１つであり、詳細処理については後述するが、主に以下の処理を行なう。
　（１）各種方式によって得られた方向点をトラッキングすることで、音源が鳴っている区間を検出する。
　（２）トラッキングの進行に合わせて、その方向からの音源を抽出した結果を逐次的に生成する。
　（３）音源抽出結果の生成に合わせて、音源抽出結果を音声認識用の特徴量（ｆｅａｔｕｒｅｓ）へ逐次的に変換する。

　トラッキング部１６５は、このように音声区間検出と音源抽出に加え、音声認識用の特徴量（ｆｅａｔｕｒｅｓ）の生成も行う、この特徴量への変換をトラッキング部１６５において行なう理由は、変換時にケプストラム正規化（後述）を行なう場合には区間ごとにケプストラムの平均や標準偏差を保持する必要があるためである。また、特徴量への変換は音声認識のデコードとは独立に処理可能であるため、トラッキング時に特徴量への変換までを行なっておくことで、デコードにおいて発生する遅延を小さくするという目的もある。

　トラッキング部１６５の出力は、音源抽出の結果から変換された（音声認識用の）特徴量であるが、以降ではこの特徴量も抽出結果と呼ぶ。抽出結果は、抽出結果バッファリング部１６６へ送られる。

　なお、トラッキング部１６５に対しては、図に示すように、画像処理部１５５からの情報も入力される。
　これらは、具体的には、口唇画像から得られた方向点、手形状の変化から得られた区間の始端と終端についての情報等である。

　前述したように、手形状の変化は、ユーザが発を開始点や終了点を明示するためのデータとして、画像入力部１５４の取得した画像解析によって得られる情報である。画像処理部１５５は、この画像解析情報に基づいて、さらに、手形状の変化から得られた区間の始端と終端についての情報を生成してトラッキング部１６５に入力する。

　また、トラッキング部１６５へは、音声認識部１５６から、特定の区間に対する削除依頼が入力される。また、トラッキング部１６５から音声認識部１５６に対して、トラッキング中に消滅したり棄却されたりした区間の通知としての区間更新情報が出力される。なお、これらの詳細については、後述する。

　抽出結果バッファリング部１６６は、先に図１３を参照して説明した抽出結果バッファリング部１３５とほぼ同一である。ただし、トラッキング部１６５において音源抽出結果から特徴量への変換も行なっているため、作成中の各区間に対応したバッファ１３５ａ～１３５ｃに蓄積されるデータは、特徴量である。また、各バッファが保持している区間情報１３４ａ～１３４ｃは、トラッキング部１６５が保持している図１８に示す区間情報１７２と同様の構造を持つ。なお、区間情報の詳細については後述する。

　なお、抽出結果バッファリング部１６６は、音声認識部１５６から、どの区間の特徴量が欲しいかを示す「要求区間情報」を入力し、要求区間に対応した「特徴量」を音声認識部１５６に出力する。なお、この処理は、例えば制御部１５９の制御による処理であり、図１３に示すスイッチ１３６，１３８の制御によって行われる処理に相当する。

　ランキング部１６７は、抽出結果バッファリング部１６６に特徴量が保存されている区間について、所定の基準に基づいて順位づけを行なう。その基準は、前述した（基準１）～（基準３）、すなわち、以下の基準である。
　（基準１）「登録済み」属性を持つ区間を優先。「登録済み」属性を持つ区間が複数あるときは、始端が古い方を優先。
　（基準２）「登録済み」属性を持たない区間については、終端が既に確定しているものを優先。「登録済み」属性を持たない区間が複数あるときは、終端が古い方を優先。
　（基準３）終端が未確定の区間については、始端が古い方を優先。

　ランキング部１６７が上記基準に基づいて生成した優先度情報が音声認識部１５６に出力され、音声認識部１５６は、この優先度情報に従って、優先度の高い区間に対応する要求区間情報を抽出結果バッファイリング部１６６に出力する。

　次に、観測信号バッファリング部１６４の構成について、図１７を用いて説明する。観測信号バッファリング部１６４は、ＳＴＦＴ部１６１からスペクトル、音声・非音声判別部１６２から音声・非音声判定フラグを入力する。

　前述したように、ＳＴＦＴ部１６１は、時間領域の観測信号に対して短時間フーリエ変換を適用し、時間周波数領域の観測信号（スペクトル）を生成する。処理単位をフレームと呼び、このフレーム単位のデータが、観測信号バッファリング部１６４に順次格納される。このバッファはｆｉｒｓｔ－ｉｎ－ｆｉｒｓｔ－ｏｕｔ（ＦＩＦＯ）であり、また大きさに上限があるため、一番新しいデータが追加されたときに１フレーム分データが所定の個数を超えた場合は、最も古いデータが破棄される。

　１フレーム分データの詳細は、図に示すように、以下のデータを含むデータとして構成される。
　＊スペクトル、
　＊音声・非音声フラグ、
　＊フレーム番号、
　＊タイムスタンプ、

　スペクトルは、１チャンネル分のＳＴＦＴの結果であり、１フレーム分データには音入力部１５１のマイクロホン数と同じ個数のスペクトルが含まれる。音声・非音声フラグは、音声・非音声判別部１６２の判定結果であり、音声と推定されたか、非音声と推定されたかの推定結果情報である。さらに、フレーム番号とタイムスタンプは、ＳＴＦＴ部１６１の出力に付与されているデータである。これらの値をフレームごとにセットで保管しておくことで、発話区間内の「音声らしい」フレームの割合を計算して音声らしくない区間の棄却に利用したり、口唇画像の処理結果に付与されているタイムスタンプをフレーム番号に変換して共通トラッキングに使用したりといったことが可能になる。

　次に、トラッキング部１６５について、図１８を用いて説明する。
　トラッキング部１６５の作成中区間管理部１７１は、各々が作成中（トラッキング中）の区間の一つについて各種情報を管理するモジュールである。トラッキング部１６５の作成中区間管理部１７１は、作成中の区間数と同じ個数だけ生成され（１７１ａ～１７１ｎ）、区間が確定したら消滅する。また、作成中の区間は、その長さが伸びるにつれて、例えば先に図１０を参照して説明したようにいくつかのステップを経る必要がある。そしてどのステップまで達したかを管理するため、作成中区間管理部１７１は、例えば図１９に示すような状態遷移マシンを利用する。区間情報１７２は、逐次変更される区間の現在状態を確認可能な情報として保持している。

　作成中区間管理部１７１の各々は、３つのモジュールから構成される。区間情報１７２は、区間一つ分のトラッキング処理そのもの（音源抽出や特徴量変換などを除いた処理）で使用される情報を扱う部分であり、始端のフレーム番号や、方向点が連続したり途切れたりしたときの長さなどを保持している。詳細は後述する。

　音源抽出部１７３は、観測信号から抽出フィルタを学習によって推定する処理や、そのフィルタを観測信号へ適用して抽出結果を生成する処理などを行なう。これも詳細は後述する。
　特徴量抽出部１７４は、生成された抽出結果を、さらに音声認識のデコードで使用させる特徴量へと変換する。また、必要に応じて、抽出結果から波形への変換なども行なう。これも詳細は後述する。

　さらにトラッキング部１６５は、現在処理中のフレームの番号（現フレーム番号１７５）と、ブロックの番号（現ブロック番号１７６）も保持している。現フレーム番号１７５の値は、図１７に示す観測信号バッファリング部１６４内に蓄積されている最新の１フレーム分データのフレーム番号と同一の値である。また、ブロックとは一定数のフレームを一まとめにした単位である。なお、特開２０１２－１５０２３７号公報に記載の処理では、このブロックを単位として方向推定やトラッキングを行なっている。本開示の処理でも、方向推定やトラッキングの方式は、この特開２０１２－１５０２３７号公報に記載された処理に準じた処理であり、トラッキング部はブロックの番号も保持し、必要に応じて作成中区間管理部１７１－１～ｎがその値を参照する。

　方向点バッファ１７７は、次回のトラッキングにおいて使用される方向点を一時的に格納するモジュールである。本開示の音声認識装置は、複数の音声区間検出方式を用い、それぞれが方向点を生成するが、それらはこのモジュール内にまとめて格納される。この機構により、複数の音声区間検出方式を用いても１回の発話が多重に検出されるのを防ぐ。

　なお、画像を用いた方式に由来する方向点は、トラッキング部にとって未来のタイムスタンプが付与されている場合がある。例えば、後述のように音声系処理と画像系処理とが並列かつ非同期に動作しており、同時刻に入力された音と画像と画像について、音の方が画像よりも遅れて処理されている場合がそれに相当する。そのような方向点については、「予約された方向点」と見なし、専用のバッファ、すなわち図に示す予約された方向点用バッファ１７８に格納する。そしてトラッキング処理が進み、その方向点に付与されたタイムスタンプの時刻に達したときに、その方向点を、予約された方向点用バッファ１７８から方向点バッファ１７７へ移動させる。

　方向点接続テーブル１７９は、あるブロック内で検出された方向点それぞれについて、どの作成中区間に接続可能かを記述したテーブルである。先に図１２を参照して説明したように一つの方向点に複数の区間が接続することもあり得るため、接続可能な区間はリストの形式で表わす。このリストを「接続可能区間リスト」と呼ぶ。
　なお、どの区間も接続しない場合は、空リストを記述しておく。トラッキング部は、一つの方向点に複数の区間が接続可能な場合はそれらの区間を一つにマージし、どの区間も接続しない場合には新たな区間を生成する。

　次に、作成中区間管理部１７１内に保持されるの区間情報１７２について説明する。これは図１９に示すような状態遷移モデルを利用している。先にこの状態遷移モデルについて説明し、その後で具体的な構成について説明する。

　図１９において、Ａ～Ｍは、区間の状態を示す内部状態である。開始状態はＡである。終了状態はＦ，Ｋ，Ｌの３個であり、それぞれ「終端確定済み（抽出フィルタ推定前）」「終端確定済み（抽出フィルタ推定後）」「棄却」を表わしている。
　各状態は、以下の状態を示す。
　Ａ：区間生成済み
　Ｂ：途切れ中（始端確定前）
　Ｃ：始端確定済み
　Ｄ：途切れ中（抽出フィルタ推定前）
　Ｅ：区間短すぎ（規定長以下）
　Ｆ：終端確定済み（抽出フィルタ推定前）
　Ｇ：抽出フィルタ推定済み
　Ｈ：途切れ中（終端ハングオーバ以前）
　Ｉ：区間長すぎ（規定長以上）
　Ｊ：途切れ中（終端ハングオーバ以降）
　Ｋ：終端確定済み（抽出フィルタ推定前）
　Ｌ：棄却

　また、状態Ａ～Ｌの各状態同士を繋ぐ矢印は状態遷移を表わす端状態遷移ラインであり、これらは、以下の４通りに分類される。
　ラインａ（太い実線）、
　ラインｂ（太い点線）、
　ラインｃ（細い実線）、
　ラインｄ（細い一点鎖線）、

　これらの各状態遷移ラインは、それぞれ以下の意味を有する。
　ラインａ（太い実線）：１ブロック内で１回のみ発生する遷移を表わしており、作成中区間への方向点の接続が発生する場合の状態遷移、
　ラインｂ（太い点線）：１ブロック内で１回のみ発生する遷移を表わしており、作成中区間への方向点の接続が発生しない場合の状態遷移、
　ラインｃ（細い実線）：作成中区間の長さ等が所定の値に達したときに発生する遷移を表わしており、この遷移は１ブロック内で複数回発生し得る。この遷移を「ブロックを消費しない遷移」と呼ぶ。
　ラインｄ（細い一点鎖線）：「登録済み」属性を持った区間に対する専用の終端登録処理において発生する遷移である。この遷移については、さらに後段において詳細に説明する。

　なお、図１９では遷移ラインを省略しているが、状態Ｌへは任意の状態から遷移し得る。その遷移も「ブロックを消費しない遷移」である。
　この図１９に示す状態遷移モデルは、先に図１０を参照して説明した各タイミングと対応している。以下、その対応関係を説明する。

　図１０において、時間ｔ３は発話の始端である。これは、どの作成中区間とも接続しない単独の方向点が発生したタイミングか、見極め時間不要の音声区間検出方式専用の始端登録処理が呼び出されたタイミングを表わしている。この時点で、図１９の状態遷移モデルが生成され、内部状態はＡとなる。
　状態Ａを「区間生成済み」と呼ぶ。

　状態Ａは、図１０の時間ｔ３～ｔ４の期間に対応している。すなわち、新規の作成中区間に方向点が接続する限りは、状態Ａの自己ループを回り続け、それに伴って作成中区間を伸ばしていく。区間の長さが所定の値（時間ｔ３～ｔ４までの長さ）以上になると、状態Ｃに遷移する。これはその作成中区間の始端が確定した状態であるため、状態Ｃを「始端確定済み」と呼ぶ。

　一方、状態Ａにおいて、接続する方向点が存在しない場合は、状態Ｂへ遷移する。なお、この状態Ｂも、図１０の時間ｔ３～ｔ４の期間に対応する。
　この状態Ｂは、区間が途切れていることを表わすが、途切れ中を表わす状態は複数存在するため、「途切れ中（始端確定前）」と呼んで区別する。接続可能な方向点が存在しない限りは状態Ｂで自己ループを続け、それが所定の回数に達したら、状態Ｅに遷移する。状態Ｂでの所定の回数とは、終端の見極めに必要な時間（図１０では時間ｔ６～ｔ８）に相当するブロック数である。
　状態Ｅは、始端が確定する前に終端が確定した場合、言い換えると区間が「短すぎ」る場合を表わしている。この場合は、「棄却」を表わす状態である状態Ｌへ遷移する。

　状態Ｂにおいて、その区間に接続する方向点が存在したら、状態Ａへ戻る。もし、状態Ａに戻った時点で区間の長さが始端見極め時間を超えていたら（図１０の時間ｔ３～ｔ４より長かったら）、続いて状態Ｃへ遷移する。

　状態Ｃは、図１０の時間ｔ４～ｔ５の期間に対応する。状態Ａと同様に、その区間に接続する方向点が存在したら自己ループし、区間の長さが所定の値（図１０の時間ｔ３～ｔ５までの長さ）以上になったら、状態Ｇへ遷移する。その遷移のタイミングにおいて、抽出フィルタの推定やフィルタのなど１回目の適用（図１０に示す観測信号１０８への適用）などを行なう。そこで、状態Ｇを「抽出フィルタ推定済み」と呼ぶ。

　一方、状態Ｃにおいて、接続する方向点が存在しない場合は、状態Ｄへ遷移する。なお、この状態Ｄも、図１０の時間ｔ４～ｔ５の期間に対応する。
　この状態Ｄは、状態Ｂと同様に区間が途切れていることを表わすが、始端は既に確定しているため、「途切れ中（始端確定後）」と呼ぶ。接続可能な方向点が存在しない限りは状態Ｄで自己ループを続け、それが所定の回数に達したら、状態Ｆに遷移する。状態Ｄでの所定の回数も状態Ｂ　と同様であり、終端の見極めに必要な時間に相当するブロック数である。

　状態Ｄにおいて、その区間に接続する方向点が存在したら、状態Ｃへ戻る。もし、状態Ｃに戻った時点で区間の長さが所定の値以上（図１０における時間ｔ３～ｔ５以上）であれば、続いて状態Ｇへ遷移する。

　状態Ｆは、抽出フィルタが推定される前に終端が確定した状態であるため、「終端確定済み（抽出フィルタ確定前）」と呼ぶ。この状態は、終端が確定した状態であり、方向点の密度や、図１８において説明した観測信号バッファリング部１６４に格納された音声・非音声フラグに基づいて「音声らしい」フレームの割合などを判定し、判定結果に従った区間の選別を行ない、例えば、音声らしくないとの判定がなされると棄却、すなわち状態Ｌへ遷移する。一方、音声らしいと判定して音声認識対象として受理する場合は、抽出フィルタを推定し、それを発話区間へ適用して音源抽出結果を生成する。

　状態Ｇ以降の処理は、本開示の音声認識装置において実行する特徴的な処理である。
　状態Ｇは、図１０に示す時間ｔ５～ｔ６の期間に対応する。状態Ａ，Ｃと同様に、その区間に接続する方向点が存在したら自己ループを行なうが、その際に、遷移１回分に相当する観測信号に抽出フィルタを適用して抽出結果を逐次的に生成する。そして、区間の長さが所定の上限値以上になったら、状態Ｉへ遷移する。

　一方、状態Ｇにおいて、接続する方向点が存在しない場合は、状態Ｈへ遷移する。
　なお、状態Ｈは、図１０示す時間ｔ５～ｔ７の期間に発生し得る状態である。
　状態Ｇから状態Ｈへの遷移の際も、観測信号に抽出フィルタを適用して抽出結果を生成する。この状態は、区間の途切れ（図１０の時間ｔ６以降）を表わすが、同じ途切れでも、終端ハングオーバ（図１０の時間ｔ７）の前後では挙動が異なる（終端ハングオーバより前は抽出結果を生成するが、それ以降は生成しない）。そこで、終端ハングオーバを境に状態を２つに分ける。
　すなわち、
　図１０の時間ｔ６～ｔ７の期間を状態Ｈ、
　図１０の時間ｔ７～ｔ８の期間を状態Ｊ、
　このように２つの異なる状態を用意する。

　図１０の時間ｔ６～ｔ７の期間を状態Ｈは、「途切れ中（終端ハングオーバ以前）」、
　図１０の時間ｔ７～ｔ８の期間を状態Ｊは、「途切れ中（終端ハングオーバ以降）」、
　このように区別した状態とする。
　このように、発話終了後の途切れ部分を２つの状態に分けているのも、本開示の処理の特徴の一つである。
　なお、状態Ｊは、図１０において、時間ｔ５～ｔ６，ｔ７～ｔ８に発生し得る状態である。

　状態Ｈにおいて、接続する方向点が存在しない限りは、状態Ｈで自己ループを続ける。自己ループの際も、観測信号に抽出フィルタを適用して抽出結果を生成する。自己ループがが所定の回数（図１０に示す時間ｔ６～ｔ７の長さに相当するブロック数）以上になったら、状態Ｊに遷移する。この遷移では、抽出結果を生成しない。

　状態Ｈにおいて、その区間に接続する方向点が再び現れたら、状態Ｇへ戻る。もし、状態Ｇに戻った時点で区間の長さが上限以上だったら、続いて状態Ｉへ遷移する。状態Ｈから状態Ｊへの遷移に際しては、音声認識に適用するための特徴量を生成する。

　状態Ｊにおいても、接続する方向点が存在しない限りは状態Ｊで自己ループを続ける。この自己ループでは抽出結果は生成しない。自己ループがが所定の回数（図１０に示す時間ｔ７～ｔ８の長さに相当するブロック数）以上になったら、状態Ｋに遷移する。

　状態Ｊにおいて、その区間に接続する方向点が再び現れたら、状態Ｇへ戻る。もし、状態Ｇに戻った時点で区間の長さが上限以上だったら、続いて状態Ｉへ遷移する。状態Ｊから状態Ｇへの遷移では、特徴量を生成する。

　状態Ｉは作成中区間が予め規定した長さより「長すぎ」ることを表わしている。この状態に遷移したときの処理は、長すぎる区間に対する設定によって２通りある。長すぎる区間を棄却するという設定にしている場合は、そのまま状態Ｌへ遷移する。一方、長さの上限値を超えたら発話終端を確定するという設定にしている場合は、状態Ｋへ遷移する。ただし、この状態Ｋへの遷移に際しても、区間の方向や方向点の密度や「音声らしい」フレームの割合などによる判定を行ない、条件を満たしていない場合は状態Ｌへ遷移する。条件を満たしている場合は、抽出結果の代わりに、区間が確定したことを表わす特別なデータを音声認識のデコーダに送ることで、音声認識結果の確定を促す。

　次に、図１９において細い一点破線で表わされるラインｄに従った遷移について説明する。これらはどれも、「登録済み」の区間、具体的には、発話者の手形状の変化など、ユーザの意思に基づいた発話区間の確認によって終端登録処理が行なわれた場合の処理を表わす。

　状態Ａから状態Ｅへの遷移は、図１０に示す時間ｔ３～ｔ４において終端登録処理が呼ばれたとき、すなわち、例えばユーザ（発話者）の手形状の変化が確認された場合等の遷移を表わしている。この場合は、区間が「短すぎ」るため、棄却を表わす状態Ｌへ遷移する。

　また、状態Ｃから状態Ｆへのラインｄ（一点鎖線）に従った遷移は、図１０において時間ｔ４～ｔ５において終端登録処理が呼ばれたときの遷移を表わしている。この場合は、抽出フィルタを推定する前に終端が確定しているため、抽出フィルタを推定してからそれを発話区間へ適用して音源抽出結果を生成する。

　さらに、状態Ｇから状態Ｋへのラインｄ（一点鎖線）に従った遷移は、図１０において時間ｔ５～ｔ６において終端登録処理が呼ばれたときの遷移を表わしている。この場合は、区間が確定したことを表わす特別なデータを音声認識のデコーダに送ることで、音声認識結果の確定を促す。

　次に、図１９に示す状態遷移モデルに従った処理を実現するために必要なデータについて、図２０を参照して説明する。
　図２０に区間情報１７２の詳細を示す。区間情報には、以下の情報が含まれる。
　（１）内部状態
　（２）区間ＩＤ
　（３）始端フレーム番号
　（４）ハングオーパ付き始端フレーム番号
　（５）終端フレーム番号
　（６）ハングオーバ付き終端フレーム番号
　（７）「登録済み」フラグ
　（８）方向点カウンタ
　（９）平均方向
　（１０）途切れカウンタ
　（１１）終了予定フレーム番号
　（１２）接続可能方向点リスト

　（１）内部状態は、状態遷移モデルの現在の状態（図１９のＡ～Ｌ）を表わす。
　（２）区間ＩＤは、作成中区間に一意に付与される識別番号である。
　（３）始端フレーム番号と、（４）ハングオーバ付き始端フレーム番号は、それぞれ、図１０の時間ｔ３の区間始端におけるフレーム番号と、時間ｔ２のフレーム番号を表わし、両者は、トラッキング部１６５において、図１８に示す作成中区間管理部が生成された時点で値が決定される。基本的に、（４）ハングオーバ付き始端フレーム番号は、（３）始端フレーム番号から一定値を引いた値であるが、システム起動直後に区間が発生した場合など、（３）始端フレーム番号から一定値を引くと負の値となってしまう場合は、フレーム番号の最小値（例えば０）をハングオーバ付き始端フレーム番号に代入する。

　（５）終端フレーム番号と、（６）ハングオーバ付き終端フレーム番号は、それぞれ、図１０の時間ｔ６の区間終端におけるフレーム番号と、時間ｔ７のフレーム番号である。ただし、トラッキング処理中においては途中段階の値が格納されている。具体的には、（５）終端フレーム番号に対しては、図１９に示す状態Ａ，Ｃ，Ｇにおいて図１８のトラッキング部１６５の保持する現フレーム番号１７６を代入し、（６）ハングオーバ付き終端フレーム番号に対しては、状態Ａ，Ｃ，Ｇ，Ｈにおいて同じく現フレーム番号１７６を代入するようにすることで、状態Ｈまで遷移したときに両方の終端が自動的に定まる。

　（７）「登録済み」フラグは、見極め時間不要な音声区間検出方式専用の始端登録処理によって生成された区間を区別するために用意されたフラグであり、前述の「登録済み属性」が設定されているか否かは、このフラグによって表現する。このフラグが立っている区間については、トラッキング時に特別な処理をする。

　（８）方向点カウンタは、作成中区間に含まれる方向点の個数である。例えば、先に説明した図１０に示す区間には１３個の方向点が含まれる。この場合、この方向点のカウンタの値は「１３」である。この値を用いて、区間内の方向点の密度を計算したり、方向の平均を重みつきで計算したりする。

　（９）平均方向は、各方向点が持つ方向の平均値である。トラッキング中は、この値と、新たな方向点の方向との間で差分を計算し、その絶対値が所定の値以下であれば、その方向点はその区間に接続可能であると判定する。

　（１０）途切れカウンタは、先に説明した図１９の状態Ｂ，Ｄ，Ｈ，Ｊにおいて、自己ループの回数を数えるためのカウンタである。この値は、自己ループの回数（すなわち、途切れているブロック数）そのものを保持してもよいが、フレーム数や時間（秒やミリ秒）などに換算した値を保持してもよい。

　（１１）終了予定フレーム番号は、「登録済み」区間に対する終端登録処理でのみ使用されるメンバーである。ここに、トラッキン具部の保持する現フレーム番号１７６（図１８参照）よりも大きな値をセットすることで、終端登録処理の「予約」を表現することができる。すなわち、トラッキング中に（１１）終了予定フレーム番号に値がセットされている場合は、現フレーム番号１７６が、（１１）終了予定フレーム番号を超えたときに初めて終端登録処理を行なうようにする。このように終端登録処理の予約を行なう理由は、以下の２つである。
　　（理由１）「登録済み」区間に対する終端登録処理でも、終端ハングオーバを実現するため。
　　（理由２）音についての処理と画像についての処理とが並列に行われているが、音の処理の方が遅れている場合に対処するため。（画像に付与されたタイムスタンプは、音の処理からは未来の時刻に見える。）

　（１２）接続可能方向点リストは、その区間に接続可能な方向点をリスト形式で表現したものであり、図１８に示すトラッキング部１６５の保持する方向点接続テーブル１７９のキーと値を逆転（ｉｎｖｅｒｔ）したデータである。このリストが空の場合は、区間が途切れていると見なす。リストの要素が複数である場合は、それらの値の平均値からなる１個の方向点が接続すると見なす。

　次に、音源抽出部１７３について、図２１を参照して説明する。
　図２１には、音源抽出部１７３の各処理部と、音源抽出部１７３において生成または保持するデータ（図中の生成／保持データ）を示している。なお、データは、音源抽出部１７３内に保持してもよいし、音源抽出部１７３のアクセス可能なメモリに保持する構成としてもよい。

　フィルタ推定部１９１は、図中の「生成／保持データ」中に示す（１）抽出フィルタと、（２）全死角空間フィルタを生成する。抽出フィルタは、観測信号から目的音を抽出するためのフィルタである。全死角空間フィルタは、学習で用いる観測信号に含まれる全ての音源に死角を形成したフィルタ、すなわち観測信号に含まれる全ての音源の音声を減衰させるフィルタである。なお、この全死角空間フィルタは、特開２０１１－１０７６０２号公報に記載されたフィルタと同様の特性を持つフィルタである。

　フィルタ適用部１９２は、観測信号に対して抽出フィルタを適用して音源抽出処理を実行する。
　なお、図２１の「生成／保持データ」中に示す（３）フィルタ適用始端フレーム番号と、（４）フィルタ適用終端フレーム番号は、次回に抽出フィルタ等を適用するときに、観測信号の何番目から何番目までのフレームに対して行なうかを表わすフレーム識別子であり、逐次的な音源抽出を実現するために重要な働きをする。

　例えば、図１９において状態Ｊ［途切れ中（終端ハングオーバ以降）］で自己ループをした後で状態Ｇ［抽出フィルタ推定済み］に遷移する場合を考える。これは、途切れがあったものの、短かったために区間の途中と見なされたことを意味する。しかし、状態Ｊでは抽出結果を生成しないため、状態Ｇに戻ったときに、状態Ｊに相当する短い途切れについても抽出結果を生成する必要がある。こういう場合でも、前回どのフレームに対してまで抽出フィルタを適用したかを保存しておけば、その次のフレームから現在のフレームまでの観測信号に対して抽出フィルタを適用することで、抽出結果が途切れるのを防ぐことができる。

　図２１の消し残り除去部１９３と時間周波数マスキング部１９４は共に、抽出フィルタでは完全には除去されない妨害音を一層除去するために用いる。消し残り除去部１９３では、観測信号に全死角空間フィルタを適用し、その適用結果を抽出結果（観測信号に抽出フィルタを適用した結果）から「減算」する。一方、時間周波数マスキング部１９４では、マイクロホン間位相差に基づく時間周波数マスクを抽出結果に適用する。共に、詳細な処理は後述する。

　次に、図１８のトラッキング部１６５内の作成中区間管理部１７１の特徴量変換部１７４について、図２２を参照して説明する。特徴量変換部１７４は、音源抽出部１７３の出力を、音声認識で使用される特徴量へと変換する処理を行なう。後述のように、音源抽出部１７３の出力はスペクトルであるのに対し、音声認識部１５６におけるデコーダが音声認識に適用するデータ、すなわち特徴量は、一般にはメル周波数ケプストラム係数（Ｍｅｌ－Ｆｒｅｑｕｅｎｃｙ　Ｃｅｐｓｔｒａｌ　Ｃｏｅｆｆｉｃｉｅｎｔｓ：ＭＦＣＣ）である。図２２に示すＭＦＣＣ生成部２０１は、音源抽出部１７３の出力であるスペクトルを、音声認識に適用する特徴量であるメル周波数ケプストラム係数（ＭＦＣＣ）に変換する処理を行なう。

　また、メル周波数ケプストラム係数（ＭＦＣＣ）については、スペクトルから計算された値をそのまま音声認識に使用する代わりに、フレーム間で何らかの正規化を行なった方が音声認識の精度が向上することが知られている。よく使用される正規化は２種類あり、ＭＦＣＣの平均を０に調整する操作をケプストラム平均正規化（Ｃｅｐｓｔｒａｌ　Ｍｅａｎ　Ｎｏｒｍａｌｉｚａｔｉｏｎ：ＣＭＮ）、分散（または標準偏差）を１に調整する操作をケプストラム分散正規化（Ｃｅｐｓｔｒａｌ　Ｖａｒｉａｎｃｅ　Ｎｏｒｍａｌｉｚａｔｉｏｎ：ＣＶＮ）と呼ぶ。

　一般的な従来法では、発話区間の終端が確定してから音源抽出を行なっていたため、これらの正規化で使用される平均や分散（または標準偏差）も発話区間全体（例えば、図１０に示す例では、区間１０５のデータ）から計算していた。それに対して本開示では、音源抽出が逐次処理になったのに合わせて、正規化で必要な平均や分散（または標準偏差）も早い段階で計算する。具体的には、図１０に示す例では、時間ｔ５のタイミングである。

　すなわち、音源抽出部１７３は、時間ｔ５において抽出フィルタを推定し、そのフィルタを、時間ｔ２～ｔ５の観測信号１０８に対して適用することで抽出結果を生成する。さらに、特徴量変換部１７４が、その直後にその抽出結果をメル周波数ケプストラム係数（ＭＦＣＣ）へ変換し、さらに、ＭＦＣＣから平均と標準偏差とを計算する。このように特徴量変換部１７４は、音源抽出部１７３において、音源抽出結果が逐次的に生成されるのに合わせて逐次的にメル周波数ケプストラム係数（ＭＦＣＣ）への変換を実行し、さらにそのメル周波数ケプストラム係数（ＭＦＣＣ）から平均を減算、あるいは標準偏差での除算を実行することで、正規化された特徴量の生成も逐次的に行なう。

　特徴量変換部１７４は、図２２に示す構成を持つ。ＭＦＣＣ生成部２０１は、音源抽出部１７３におけるフィルタ適用によって生成した音源抽出結果であるスペクトルをメル周波数ケプストラム係数（ＭＦＣＣ）に変換する。

　本開示の音声認識装置の特徴量変換部１７４は、前述の通り、音声区間のトラッキング途中で、例えば図１０に示す例では、フィルタ推定処理を開始する時間ｔ５に達した時点で、メル周波数ケプストラム係数（ＭＦＣＣ）の平均と標準偏差とを計算する。これらは、図２２に示す生成／保持データとして、メモリに保存する。なお、メモリは、特徴量変換部１７４のアクセス可能なメモリである。

　図２２の生成／保持データ中に示す（３）初回フラグは、メル周波数ケプストラム係数（ＭＦＣＣ）の生成がその区間で初めてか否かを区別するためのフラグであり、作成中区間管理部１７１の生成時に、初回であることを示す値（真）が代入され、ＭＦＣＣの生成が１回でも行なわれたら、初回でないことを示す値（偽）が代入される。このようなフラグを用意する目的は、以下の２つである。
　（目的１）特徴量の正規化で使用される平均と標準偏差を、初回のみ計算するため。
　（目的２）先頭のフレームでも特徴量を生成するため。

　（目的１）については既に説明したため、ここでは（目的２）についてのみ説明する。音声認識で使用される特徴量としては、ＭＦＣＣそのものに加えて、近接する複数フレーム間におけるＭＦＣＣの変化量を表わす情報も合わせて使用した方が、音声認識の精度が向上することが知られている。そのような情報をデルタ特徴量と呼ぶ。本開示でも、ＭＦＣＣとデルタ特徴量からなるベクトルを音声認識用の特徴量として用いる。

　言い換えると、区間の始端のフレームにおいて、デルタ特徴量を含むベクトルを生成するためには、メル周波数ケプストラム係数（ＭＦＣＣ）自体はそれより前のフレームの分も生成する必要があり、音源抽出結果についても同様であることを意味する。そのために、初回か否かを区別するためのフラグを用意し、このフラグが真のときは、音源抽出部において抽出フィルタを適用する範囲を、時間を遡る方向に所定のフレーム数だけ広げるという操作を行なう。その抽出結果に対してＭＦＣＣへの変換およびデルタ特徴量の計算を行ない、さらに、デルタ特徴量が計算できない先頭の数フレームを削除すると、所望の特徴量ベクトルが得られる。

　なお、その区間において２回目およびそれ以降に特徴量を生成するときには、ＭＦＣＣ生成部２０１内に過去のフレームのメル周波数ケプストラム係数（ＭＦＣＣ）が必要な分だけ保存されており、それを用いてデルタ特徴量は適切に計算できるものとする。

　さらに特徴量変換部１７４は、必要に応じて逆ＳＴＦＴ（Ｉｎｖｅｒｓｅ　Ｓｈｏｔｒ－Ｔｉｍｅ　Ｆｏｕｒｉｅｒ　Ｔｒａｎｓｆｏｒｍ）部２０２を備え、スペクトルから波形への変換を行なってもよい。逆ＳＴＦＴを行なう目的は、主に以下の２つである。
　（目的１）必要に応じて抽出結果を人間が聞くため。
　（目的２）ほとんどの音声認識エンジンは波形から特徴量への変換機構を持っていると予想されるため、抽出結果をいったん波形へ変換することで、幅広い音声認識エンジンで使用可能とするため。

　　［３－３．本開示の音声認識装置における音声認識部の構成と処理について］
　次に、音声認識部１５６の構成について、図２３を参照して説明する。
　デコードマネジメント部２１１には、以下の各情報が入力される。
　抽出結果バッファリング部１６６から出力される特徴量（トラッキング部１６５の生成した音源抽出結果）、
　ランキング部１６７から出力される区間の順位付け結果である優先度情報、
　トラッキング部１６５から出力される消滅区間（または棄却された区間）等の区間更新情報、
　これらの各情報を入力する。

　デコーダマネジメント部２１１は、ランキング部１６５から入力する音声区間の優先度情報に基づき、優先度の高い区間から順に、その区間の特徴量要求としての出力依頼を抽出結果バッファリング部１６６に出す。この依頼に対応した区間の特徴量を受け取り、デコーダ２１２－１～ｎに送る。また、現在デコード中の区間が無効になっていないか（消滅したり棄却されたりしていないか）、トラッキング部１６５に問い合わせ、無効になっていた場合は、対応するデコードをキャンセルする。

　デコーダ２１２－１～ｎは、フロントエンド部から得られた特徴量を適用して、音響モデル２１６、辞書２１７、言語モデル２１８等のデータベースを必要に応じて参照しながら、区間に対応した目的音に最も近い単語列を求める音声認識処理を実行する。

　なお、本開示の装置は必要に応じてデコーダを複数有する。そして各デコーダは区間ＩＤ２１３－１～ｎを保持することで、どの区間をデコード中なのかが分かるようにしてある。なお、どの区間もデコードしていないときは、区間ＩＤとしては未定義値を代入しておく。

　この図２３では省略されているが、デコーダ２１２－１以外のデコーダ２１２－２～ｎも、デコーダ２１２－１と同じ言語モデル２１６、辞書２１７、言語モデル２１８を参照して、音声認識処理を実行する。

　音響モデル２１６は、音声認識する音声の個々の音韻や音節などの音響的な特徴を表わすモデルを記憶している。音響モデルとしては、例えばＨＭＭ（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ）などを用いることができる。
　辞書２１７は、認識対象の各単語（語句）について、その発音（音韻系列）に関する情報が記述された単語辞書や、音韻や音節の連鎖関係を記述したモデルなどを記憶している。

　言語モデル２１８は、辞書２１７の単語辞書に登録されている各単語がどのように連鎖する（接続する）かに関する情報を記述している。記述方法としては、統計的な単語連鎖確率（ｎ－ｇｒａｍ）や有限状態オートマトンベースの文法などが使用可能である。
　各デコーダ２１２－１～ｎは認識結果２１９を生成する。これは、後段処理部１５７で使用される。

　　［３－４．本開示の音声認識装置における画像処理部の構成と処理について］
　次に、画像処理部１５５について、図２４を参照して説明する。
　画像処理部１５５に対する入力は、画像入力部（カメラ）１５４で取得された画像であり、この画像が、口唇画像処理部２２１や、手画像処理部２２３、さらに必要に応じて顔画像処理部２２２にそれぞれ送られる。

　口唇画像処理部２２１は、入力画像の中から口唇に相当する領域を検出すると共に、その口唇領域が前の時間と比較して変化の度合いが所定の値を超えていたら、「口が動いている」と判定する。そして画像上の口唇の位置を音源の方向に換算し、その値にタイムスタンプを付与したものを方向点としてフロントエンド部１５３へ送る。

　手画像処理部２２３は、入力画像の中から手に相当する領域を検出するとともに、前の時間と比較して形状に変化があったかどうかを判定する。なお、手形状の識別については、例えば特開２０１２－２０３４３９号公報に記載された方法を用いる。

　このモジュールでは、例えば前の時間の画像から取得した手形状が「パー」であり、今回の画像から得られた手形状が「グー」であった場合は、発話の開始であると判定し、逆に前回が「グー」で今回が「パー」であった場合は、発話の終了であると判定する。発話開始と判定された場合は、画像上の手の位置に後述のような修正をかけることで音源の方向を計算し、それにタイムスタンプを付与する。そしてその音源方向とタイムスタンプとを、発話始端情報としてフロントエンド部１５３へ通知する。一方、発話終了と判定された場合は、同様に計算された音源方向にタイムスタンプを付与した後、それらを発話終端情報として同様にフロントエンド部１５３へ通知する。

　さらに、画像処理部１５５は、必要に応じて顔画像処理部２２２を備え、入力画像の中から顔の領域を検出する処理を行なう。顔領域の検出の目的は、主に以下の２点である。
　（目的１）顔領域を検出してから口唇画像を検出することで、探索範囲を制限することができ、計算量が削減できる。
　（目的２）手領域の座標から音源方向を計算する際に、その手領域に最も近い顔領域の座標から音源方向を計算する。
　以上で、各モジュールの構成についての説明を終える。

　　［４．本開示の音声認識装置の処理の詳細について］
　以下では、本開示の音声認識装置の実行する処理について説明する。

　　［４－１．本開示の音声認識装置の実行する全体処理の概要について］
　音声認識装置の実行する処理は、以下の２系統の処理に大きく分類できる。
　（音声系処理）音声認識処理のメインとなる処理であり、音声認識結果を生成するメイン処理、
　（画像系処理）上記の音声認識処理に適用するための画像に基づく情報を生成する処理、

　画像系処理は、図１５の構成における画像処理部１５５の実行する処理であり、画像入力部１５４から入力する画像に基づいて、例えば口唇画像や手形状の変化を判別して音声区間の判定に適用する情報を生成する処理である。
　音声系処理は、主に図１５のフロントエンド部１５５、音声認識部１５６の実行する処理である。音声系処理は、画像系処理の処理結果を適用した処理を実行する。

　なお、以下の各フローチャートを参照して説明する処理は、例えば音声認識装置の各処理部が音声認識装置内のメモリに格納されたプログラムに従って実行可能な処理である。各処理部は、プログラムに規定された処理シーケンスに従って処理を実行する。

　音声系処理の処理シーケンスを図２５のフローチャートに示す。
　一方、画像系処理の処理シーケンスを図２６のフローチャートに示す。
　なお、このような２つの処理系に区分して説明する理由は、各データの時間粒度の違いである。例えば、音声系処理は、図２５に示すフローに従った処理を、時間周波数領域の観測信号である短時間フーリエ変換（ＳＴＦＴ）信号のシフト１回分のサンプルを取得するごと（シフト幅が１６０サンプルでサンプリング周波数が１６ｋＨｚなら１／１００秒ごと）に実行する。一方、画像系処理は、図２６に示すフローに従った処理を、画像を１枚取得するごとに（３０ｆｐｓなら１／３０秒ごとに）に実行する。このように、各処理系において処理対象とするデータ単位が異なるため、２つの個別のフローとして示してある。

　まず、図２５に示すフローチャートを参照して音声系処理について説明する。
　ステップＳ１０１において、音声系処理に関係するモジュール、例えばフロントエンド部１５３、音声認識部１５６等の各モジュールを初期化する。
　これらの各モジュールには、処理対象データ等を識別するパラメータとして、例えば、フレーム番号、ブロック番号、区間ＩＤが保持される。
　初期設定として、フレーム番号を表わす変数ｔをｔ＝０、ブロック番号を表わす変数ｂをｂ＝０、区間ＩＤは未定義として設定する。
　これらの初期化が完了後、ステップＳ１０２～Ｓ１０７の処理を終了まで繰り返す。

　ステップＳ１０２は、フロントエンド部１５３が、ＡＤ変換部１５２によってデジタル信号に変換された音信号を、必要なチャンネル数かつサンプル数ほど取得する処理である。

　ステップＳ１０３の区間登録処理は、音声区間の始端または終端の登録を、例えば画像処理部１５５からの出力など、外部から与えられた情報によって行なう処理である。音声区間検出方式のうち、例えばユーザの発話区間指示情報である手の形状変化情報を利用した処理など音声区間の始端や終端の見極め時間が不要の方式によって始端・終端が検出された場合にこの処理が呼ばれるが、詳細については後述する。

　ステップＳ１０４のフロントエンド処理は、ステップＳ１０２で取得された音データを用いて、音声区間検出と音源抽出と、さらに特徴量への変換を行なう処理である。詳細については後述する。

　ステップＳ１０５の音声認識処理は、ステップＳ１０４のフロントエンド処理で得られた区間ごとの抽出結果（特徴量）を用いて、それに対応した単語系列などの認識結果を求める処理である。また、認識結果を求める以外にも、入力された音が、システムを操作するための音声か否かを認識信頼度やスコアによって判別することも行なう。詳細な処理については後述する。

　ステップＳ１０５において得られた認識結果を用いて、その認識結果に対応した処理をステップＳ１０６の後段処理において行なう。例えば、ユーザの発話がテレビのチャンネルの変更を依頼するものであれば、それに応じてチャンネルを変更する。また、認識結果そのものを用いる以外にも、ステップＳ１０４のフロントエンド処理の処理結果を用いて何らかの表出を行なってもよい。例えば、逐次的に行われているトラッキングの進行に合わせて、「ただいま、こちらの方向からの音声を聞いています」といった意味の情報を表示しても良い。

　ステップＳ１０７において、例えば処理対象とする音声区間の有無等に基づいて音声系処理の終了判定を行ない、処理を続けるのであれば、ステップＳ１０２に戻る。終了するのであれば、処理を終了させる。

　音声系処理の処理の詳細について説明する前に、画像系処理の概略について図２６に示すフローチャートを参照して説明する。
　ステップＳ２０１において、画像処理部１５５の初期化を行なう。その後、ステップＳ２０２～Ｓ２０６の処理を終了まで繰り返す。

　ステップＳ２０２において、画像入力部（カメラ）１５４から１枚分の画像を取得する。
　ステップＳ２０３において、取得画像に対して、必要に応じて顔検出処理を行ない、画像中から顔の領域を検出する。なお、この処理は、ステップＳ２０４、ステップＳ２０５の各処理の補助的な処理として実行するものであり、省略してもよい。

　ステップＳ２０４の口唇画像処理は、ステップＳ２０２で取得した画像内に口唇が存在するか否かを判定し、存在するときにそれが動いているか否かを判別する。詳細は後述する。
　ステップＳ２０５の手画像処理は、画像内に手が存在するか否かを判定し、存在するときに手の形状が、発話の開始または終了に対応した所定の変化をしているか否かを判別する。詳細は後述する。

　ステップＳ２０６において、未処理画像の入力有無などに基づいて、画像系処理の継続を判定し、続けるのであればステップＳ２０２に戻る。終了するのであれば、終了する。

　　［４－２．フロントエンドの処理について］
　次に、図２５のフローを参照して説明した音声系処理の各処理について、詳細を説明する。なお、説明の都合上、最初にステップＳ１０４のフロントエンド処理について説明し、次にステップＳ１０３の区間登録処理、最後にステップＳ１０５の音声認識処理について、順に説明する。

　まず、ステップＳ１０４のフロントエンド処理について、図２７に示すフローチャートを参照して説明する。
　この図２７に示すフローに従った処理は、図１６を参照して説明したフロントエンド部１５３において実行する処理である。
　図２５のフローのステップＳ１０２において取得された音が、ＡＤ変換部１５２を介してフロントエンド部１５３に入力される。

　ステップＳ２７１において、図１６に示すフロントエンド部１５３のＳＴＦＴ部１６１が、取得した音データに対して短時間フーリエ変換（ＳＴＦＴ）を適用する。この短時間フーリエ変換（ＳＴＦＴ）処理によって、時間周波数領域の観測信号を生成する。詳細については後述する。
　なお、１回の短時間フーリエ変換（ＳＴＦＴ）処理の処理単位をフレームと呼び、１フレーム分の時間周波数領域の信号をスペクトルと呼ぶ。チャンネル数（マイクロホンの個数）をｎとすると、このＳＴＦＴでｎ本のスペクトルが生成される。

　ステップＳ２７２において、音声・非音声判別処理を実行する。この処理は、図１６に示すフロントエンド部１５３の音声・非音声判別部１６２の実行する処理であり、取得された音信号が「音声らしい」か否かを二値で判別する。判別方法としては、例えば、特許４１８２４４４号で開示されているような音声の周期性に注目した方式などを使用する。

　次に、ステップＳ２７３において観測信号バッファリング処理を実行する。観測信号バッファリング処理は、今回の処理対象とするフレーム番号ｔと、ステップＳ２７１で生成された複数チャンネル分のスペクトルと、ステップＳ２７２での判別結果と、入力信号に付与されていたタイムスタンプなどをセットにして、先に図１７を参照して説明した「１フレーム分データ」として、観測信号バッファリング部１６４に格納する処理である。なお、観測信号バッファリング部１６４に格納されたデータの個数が所定の値を超えた場合は、最も古いフレームのデータを廃棄する。

　ステップＳ２７５～Ｓ２７８の処理は、一定の頻度で実行される処理であり、たとえば、ステップＳ２７４において、定数Ｂ＝５とすると、５フレームに１回の頻度で実行する。なお、ステップＳ２７４のｍｏｄは割り算の余りを計算する演算子である。例えば、フレーム番号ｔがＢ－１，２Ｂ－１，３Ｂ－１，・・・のときのみ、ステップＳ２７５へ進み、それ以外のときはステップＳ２７９へ進む。すなわち、ステップＳ２７５～Ｓ２７８の処理は、予め設定したＢ個のフレームを単位として処理が行なわれる。この処理単位をブロックと呼ぶ。

　ステップＳ２７５の音源方向推定は、一つのブロック内において０個以上の音源とその方向を取得する処理である。その結果は、方向点、例えば図１０に示す方向点１０１などとして表現される。なお、音源方向推定処理については、例えば、特開２０１２－１５０２３７号公報等に記載されており、このステップＳ２７５ではこの既存方式を適用可能である。

　ステップＳ２７６の方向点の統合は、ステップＳ２７５において求めた方向点（音信号から求めた方向点）と、例えば、画像処理部１５５における口唇画像処理等によって求めた方向点とをマージする処理である。基本的には、方向点からなる集合同士の和集合を計算し、その結果を、図１８を参照して説明したトラッキング部１６５の方向点バッファ１７７に格納する。

　ただし、画像処理に由来する方向点のタイムスタンプが音声系処理の保持しているタイムスタンプとずれている場合は、それを考慮した処理も行なう。すなわち、画像処理由来の方向点のうち、音声系処理にとって未来のタイムスタンプが付与されているものは、図１８に示す「予約された方向点バッファ１７８」にタイムスタンプ（またはフレーム番号）と共に保存されている。この中から、今回の音声系処理と同時刻と見なせる方向点を取り出し、方向点バッファ１７７に追加する。

　ステップＳ２７７のトラッキング処理は、類似した方向を持つ方向点同士を時間方向に連結して音源の区間を求める。さらに、この処理と連動し、音源抽出結果の生成と、特徴量への変換を逐次的に行なう。詳細については後述する。
　以上の処理が完了したら、ステップＳ２７８においてブロック番号ｂを１だけ増加させる。
　さらに、ステップＳ２７９において、フレーム番号ｔを１だけ増加させる。この処理は、毎回実行される。

　次に、ステップＳ２７１で実行する短時間フーリエ変換（ＳＴＦＴ）について、図２８を参照して説明する。
　図２８（ａ）に示す時間領域の観測信号の波形ｘ_ｋ（＊）から一定長（例えば５１２個のサンプル）を切り出す。ただしｋはマイクロホン番号である。
　切り出し信号３０１～３０３の各々に対してハニング窓やハミング窓等の窓関数を適用する。この切り出した単位をフレームと呼ぶ。１フレーム分のデータに短時間フーリエ変換を適用することにより、時間周波数領域の信号であるＸ_ｋ（ω，ｔ）を得る。なお、ωは周波数ビン番号で、ｔはフレーム番号である。

　なお、前述した式［１．４］のような、全ての周波数ビンからなるベクトルＸ_ｋ（ｔ）をスペクトルと呼ぶ。式［１．４］において、Ｍは周波数ビンの個数であり、１フレーム内のサンプル数をｃとすると、周波数ビンの個数Ｍと、サンプル数ｃとの間には、
　Ｍ＝ｃ／２＋１
　の関係がある。
　例えば、１フレームのサンプル数ｃ＝５１２のとき、周波数ビンの個数Ｍ＝２５７となる。

　図２８に示すように、切り出すフレーム３０１～３０３の間には重複があってもよい。重複領域が存在することで、連続するフレームのスペクトルＸ_ｋ（ｔ－１）～Ｘ_ｋ（ｔ＋１）を滑らかに変化させることができる。また、スペクトルをフレーム番号に従って並べたものをスペクトログラムと呼ぶ。図２８の（ｂ）観測信号スペクトログラムＸ_ｋである。
　本開示の音声認識装置では、音入力部１５１として、複数のマイクロホンを使用するため、マイクロホンの個数をｎとすると、短時間フーリエ変換（ＳＴＦＴ）はｎ回行ない、スペクトルはｎ個生成される。

　次に、図２７のフローにおけるステップＳ２７７のトラッキング処理について、図２９に示すフローチャートを参照して説明する。
　先に図１２を参照して説明したように、トラッキング自体は、作成中の区間それぞれについて、新規ブロックの方向点が接続可能かチェックし、接続可能なら区間を延長していく処理であるが、本開示の処理では、区間の延長に伴って、抽出フィルタの推定や適用、さらに特徴量への変換なども行なうという特徴がある。

　図２７に示すトラッキング処理の詳細フローの各ステップの処理について説明する。
　ステップＳ２９１の方向点の接続チェックは、作成中の各区間と新規ブロック内の各方向点とについて、接続可能かどうかを判別する処理である。詳細は後述する。この段階では単にチェックするだけであり、区間の更新などは以降で行なわれる。

　ステップＳ２９２の区間のマージ処理は、一つの方向点に複数の作成中区間が接続可能な場合に、それらの区間を一つにまとめる処理である。この処理についても、詳細は後述する。

　ステップＳ２９３の区間の更新処理は、接続可能な作成中区間と方向点とを接続することで区間を延長したり、逆に、接続する方向点が存在しない状態が所定の時間以上続いたときに終端を確定したりする処理である。区間が長くなるにつれて、図１０を参照して説明した各処理も行なう。これも詳細は後述する。

　ステップＳ２９４の新規区間の作成は、ある方向点がどの作成中区間とも接続しないときに、その方向点を始端とする新たな区間を生成する処理である。これについても後述する。

　トラッキング処理の最後は、ステップＳ２９５の不要区間の削除処理である。これは、作成中区間のうち、途中で棄却された区間や、他の作成中区間にマージされた（吸収された）区間を削除してトラッキング対象から外す処理である。詳細は後述する。

　次に、ステップＳ２９１の方向点の接続チェック処理の詳細について、図３０に示すフローチャートを参照して説明する。
　図２９に示すトラッキング処理中のステップＳ２９１の方向点接続チェック処理は、は、作成中区間と方向点との全組み合わせについて接続可能かどうかをチェックし、そのチェック結果として、以下の２種類のデータを生成してメモリに保存する処理である。
　　ａ）各作成中区間が、どの方向点に接続可能かを示すデータ。
　　ｂ）各方向点が、どの作成中区間に接続可能かを示すデータ。

　ａ）の「各作成中区間が、どの方向点に接続可能かを示すデータ」は、図１８を参照して説明したトラッキング部１６５の作成中区間管理部１７１の各々に保持されるデータであり、図２０を参照して説明した区間情報１７２に示す「（１２）接続可能方向点リスト」に対応するデータである。
　また、ｂ）の「各方向点が、どの作成中区間に接続可能かを示すデータ」は、図１８を参照して説明したトラッキング部１６５の「方向点接続テーブル１７９」に対応するデータである。

　図３０に示すフローチャートの各ステップの処理について説明する。
　ステップＳ３０１において、「方向点接続テーブル」の中身を初期化する。具体的には、各図１８に示すトラッキング部１６５の管理する方向点接続テーブル１７９のに対する初期化処理であり、方向点に対応したエントリは用意するが、区間ＩＤからなるリストには空リストを代入しておく処理として実行する。

　ステップＳ３０２～Ｓ３０９は、作成中区間についてのループである。トラッキング中は、トラッキング部（図１８）において、作成中区間管理部１７１－１～ｎが作成中区間の個数だけ生成される。これら作成中区間管理部１７１－１～ｎ各々一つずつの処理に対応するループである。

　ステップＳ３０３において、図１８に示す作成中区間管理部１７１－１内の区間情報１７２に含まれる「接続可能な方向点のリスト」（図２０の（１２））をクリアする。具体的には、空リストを代入する。

　ステップＳ３０４～Ｓ３０８は、方向点についてのループである。具体的には、図１８に示すトラッキング部１６５の方向点バッファ１７７内の各要素（方向点）についてのループである。このループの中では、作成中区間と方向点との全部の組み合わせについての接続可能性がチェックされる。

　ステップＳ３０５において、ある作成中区間と方向点とが接続可能かチェックする。具体的には、作成中区間の平均方向（図２０の区間情報１７２の（９））と方向点の方向との間で差を計算し、それが予め規定した所定の範囲内（例えば、－１０°～＋１０°の範囲）であれば接続可能と判定する。接続可能と判定した場合は、ステップＳ３０６とＳ３０７とを実行し、接続不可能と判定した場合は、ステップＳ３０６とＳ３０７をスキップする。ただし、方向の差が所定の範囲内であっても、始端フレーム番号（図２０に示す区間情報１７２の（３））の値が現フレーム番号（図１８の現レーム番号１７５）よりも大きい場合は、接続不可能と見なす。これは、後述する始端登録処理において未来のタイムスタンプが指定された場合に対処するためである。

　ステップＳ３０６と、ステップＳ３０７はそれぞれ、前述のａ）と、ｂ）に対応する情報を生成する処理である。すなわち、以下のデータを生成し保持する。
　　ａ）各作成中区間が、どの方向点に接続可能かを示すデータ。
　　ｂ）各方向点が、どの作成中区間に接続可能かを示すデータ。

　ステップＳ３０８で方向点ループを閉じ、ステップＳ３０９で作成中区間ループを閉じると、上記のａ），ｂ）に相当するデータが取得され、トラッキング部１６５の管理データとして保持された状態となる。

　次に、図２９に示すトラッキング処理のステップＳ２９２の区間のマージ処理の詳細について、図３１に示すフローチャートを参照して説明する。
　先に、図１２を参照して説明した通り、区間のマージ処理は基本的には、一つの方向点に複数の作成中区間が接続可能な場合にそれらを一つにまとめる操作であるが、作成中区間が「登録済み」属性を持つか否かで挙動が異なる。

　図３１に示すフローの各ステップの処理について説明する。
　ステップＳ３１１～Ｓ３２０は、図１８に示すトラッキング部の管理する方向点接続テーブル１７９内のエントリ各々についてのループである。方向点接続テーブル１７９の１エントリは、方向点の一つについてどの作成中区間が接続可能か、接続可能区間リストを保持している。

　ステップＳ３１２において、方向点接続テーブル１７９の接続可能区間リストの要素数によって分岐する。要素が０個（その方向点と接続する区間は存在しない）または１個（その方向点と接続する区間は１個のみ）の場合は、マージの必要がないため、ステップＳ３２０に進む。２個以上の場合は、ステップＳ３１３に進む。

　ステップＳ３１３では、接続可能区間リストの要素のうち、「登録済み」属性を持つ作成中区間の個数によって分岐する。その理由は、マージにおいて「登録済み」属性を持つ区間を消滅させないためである。
　「登録済み」属性を持つ作成中区間がリストの中に存在しない場合は、ステップＳ３１４に進む。

　ステップＳ３１４においては、接続可能区間リストに含まれる作成中区間を以下の基準でソートする。
　（基準１）長い区間を優先。
　（基準２）同じ長さの区間が複数存在する場合は、区間ＩＤが小さい方を便宜的に優先。
　これらの各基準を適用したソート処理で１位になった作成中区間に対して、２位以降の作成中区間をマージする（吸収させる）。

　一方、ステップＳ３１３の判定処理において、「登録済み」属性を持つ区間が１個だけ存在する場合は、ステップＳ３１５に進む。
　ステップＳ３１５においては、「登録済み」属性を持つ区間に対して、その他の区間をマージする。

　また、ステップＳ３１３の判定処理において、「登録済み」属性を持つ区間が２個以上存在する場合は、ステップＳ３１６に進む。
　ステップＳ３１６においては、「登録済み」属性を持つ区間それぞれに対して、「登録済み」属性を持たない区間をマージする。例えば、接続可能区間リストに、Ａ，Ｂ，Ｃ，Ｄの４つの区間が存在し、そのうちのＡとＢは「登録済み」属性を持っているとする。その場合、Ａに対してＣ，Ｄをマージし、Ｂに対しても同じくＣ，Ｄをマージする。その結果としてＡとＢの２つの区間が残る。

　ステップＳ３１７以降は、ステップＳ３１４～Ｓ３１６のいずれかの処理が終了した後、３つの場合で共通して実行する処理である。
　ステップＳ３１７において、平均方向（図２０の区間情報１７２の（９））を更新する。具体的には、マージの対象となった作成中区間の間で、方向点カウンタ（図２０の区間情報１７２の（８））を重みとする重みつき平均を、（９）平均方向に対して行ない、得られた値を、マージ後に残った作成中区間の更新された平均方向として記録する。

　続いてステップＳ３１８において、方向点カウンタ（図２０の区間情報１７２の（８））を更新する。具体的には、マージの対象となった作成中区間の間で、方向点カウンタを総和し、得られた値を、マージ後に残った作成中区間の更新された方向点カウンタとして記録する。

　ループの最後に、ステップＳ３１９において、マージで吸収された側の作成中区間の内部状態を「Ｌ：棄却」に遷移させる。これは、マージで吸収された作成中区間を、図２９に示すトラッキング処理のステップＳ２９５において実行する「不要区間の削除」において削除するためである。
　最後に、ステップＳ３２０でループを閉じることにより、「区間のマージ」処理を終了する。

　次に、図２９に示すトラッキング処理のステップＳ２９３において実行する「区間の更新」処理について、図３２に示すフローチャートを参照して説明する。この「区間の更新」は、状態遷移モデルに従った区間管理を行なう作成中区間管理部１７１において、先に図１９を参照して説明した状態遷移を発生させる処理である。

　状態遷移は大きく分けて以下の２種類ある。
　ブロックを消費する遷移：１個のブロック内で１回だけ発生する遷移
　ブロックを消費しない遷移：１個のブロック内で何回でも発生し得る遷移

　「ブロックを消費する遷移」は、図３２に示すフローのステップＳ３２２において処理を実行する。なお、この処理は、図１９に示す状態遷移モデルに示す太い実線および点線のラインａ，ｂの状態遷移処理に対応する。
　「ブロックを消費しない遷移」は、図３２に示すフローのステップＳ３２３において処理を実行する。なお、この処理は、図１９に示す状態遷移モデルに示す細い実線および一点鎖線のラインｃ，ｄの態遷移処理、さらに各状態から状態Ｌへの遷移に対応する。

　図３２に示すフローチャートの各ステップの処理について説明する。
　ステップＳ３２１～Ｓ３２５は、作成中の区間についてのループ、すなわち、図１８に示すトラッキング部１６５の作成中区間管理部１７１＝１～ｎ各々についてのループである。このループの中で、ステップＳ３２２のブロックを消費する遷移を１回だけ発生させる。その結果、区間が延長されたり自己ループの回数が増加したりする。そして、それらの値を用いて、ステップＳ３２３～Ｓ３２４において、ブロックを消費しない遷移を、可能な限り繰り返す。

　ステップＳ３２４において、これ以上の遷移ができなくなったと判定すると、最後にステップＳ３２５において作成中区間のループを閉じる。

　　［４－３．ブロックを消費する遷移について］
　次に、ステップＳ３２２の「ブロックを消費する遷移」の詳細シーケンスについて、図３３に示すフローチャートを用いて説明する。
　ステップＳ３３１において、図１８に示す作成中区間管理部１７１の区間情報１７２に含まれる図２０に示す「（２）内部状態」に応じた分岐を行なう。

　ステップＳ３３１の分岐は、以下の処理を行なうものである。
　現在の状態が状態Ａ，Ｂ，Ｃ，Ｄ，Ｇ，Ｈ，Ｊの場合は、ステップＳ３３２に進み、その他の状態Ｅ，Ｆ，Ｉ，Ｋ，Ｌの場合は、ステップＳ３３２に進まず、「ブロックを消費する遷移」を終了することを意味している。

　なお、現在の状態が状態Ａ，Ｂ，Ｃ，Ｄ，Ｇ，Ｈ，Ｊの場合は、ステップＳ３３２に進み、各状態で「ブロックを消費する遷移」を実行することを意味する。
　すなわち、
　ステップＳ３３１において現在の内部状態が状態Ａであると判定した場合は、ステップＳ３３２に進み、状態Ａに対応する「ブロックを消費する遷移Ａ」を実行する。
　また、ステップＳ３３１による現在の状態が状態Ｂであると判定した場合は、ステップＳ３３２に進み、状態Ｂに対応する「ブロックを消費する遷移Ｂ」を実行する。
　その他の状態Ｃ，Ｄ，Ｇ，Ｈ，Ｊについても同様、ステップＳ３３２に進み、各状態対応の「ブロックを消費する遷移」を実行することを意味する。

　なお、ステップＳ３３１において、内部状態がＥ，Ｆ，Ｉ，Ｋ，Ｌのときは、図１９に示す状態遷移モデルからも理解されるように、ラインａ，ｂで示す「ブロックを消費する遷移」が定義されていないため、ステップＳ３３２に進まず、処理を終える。

　次に、図３３に示すフローのステップＳ３３１において、内部状態Ａ，Ｂ，Ｃ，Ｄ，Ｇ，Ｈ，Ｊのいずれかと判定され、ステップＳ３３２で実行する以下の各遷移について、図３４～図４０の各フローに従って順次説明する。
　（１）ブロックを消費する遷移Ａ：図３４、
　（２）ブロックを消費する遷移Ｂ：図３５、
　（３）ブロックを消費する遷移Ｃ：図３６、
　（４）ブロックを消費する遷移Ｄ：図３７、
　（５）ブロックを消費する遷移Ｇ：図３８、
　（６）ブロックを消費する遷移Ｈ：図３９、
　（７）ブロックを消費する遷移Ｊ：図４０、

　まず、図３４に示すフローチャートを参照して「ブロックを消費する遷移Ａ」のシーケンスについて説明する。
　内部状態Ａは、図１９を参照して説明したように［区間生成済み］を示す内部状態である。
　まず、ステップＳ３４１において、図２０の区間情報１７２に登録された「（３）始端フレーム番号」と、図１８のトラッキング部１６４５の登録データである現フレーム番号１７５を比較して、
　始端フレーム番号≦現フレーム番号
　上記式が成立するか否かを判定する。
　この判定処理は、始端の登録処理において未来のタイムスタンプが指定されている場合に、その区間のトラッキングの開始を延期するためである。現フレーム番号が始端フレーム番号以上の場合のみ、ステップＳ３４２に進む。そうでない場合は、すべての処理をスキップし、処理を終了する。

　ステップＳ３４２は、接続可能な方向点が存在するか、または、「登録済み」属性を持った区間であるかを判定する。具体的には、図１８に示すトラッキング部１６５の作成中区間１７１の区間情報１７２中の図２０に示す「（１２）接続可能方向点リスト」が空でないか、または、「（７）登録済み」フラグが真かどうかを判別する（以降の状態遷移においても同様）。

　ステップＳ３４２において、どちらかの条件を満たすと判定したときは、ステップＳ３４３の区間延長処理へ分岐する。これは、図１９に示す状態遷移モデルにおいて、状態Ａの自己ループを実行することに相当する。
　ステップＳ３４３の区間延長処理では、作成中区間に方向点を接続する等の処理を行なうが、詳細は後述する。

　一方、ステップＳ３４２において、「（１２）接続可能方向点リスト」が空で、かつ、「（７）登録済み」フラグが偽であると判定した場合は、ステップＳ３４４へ分岐する。これは、図１９において状態Ａから状態Ｂへの遷移処理を行なうことに相当する。

　ステップＳ３４４では、図２０に示す区間情報１７２の「（１０）途切れカウンタ」の値を増加させる。増加する値は途切れカウンタが何を表わしているかによって異なり、ブロック数を表わしているのであれば１、フレーム数を表わしているのであればＢ（Ｂは１ブロックあたりのフレーム数）である。
　さらに、ステップＳ３４５において、図２０に示す区間情報１７２の「（１）内部状態」をＢに変化させる。

　次に、図３５に示すフローチャートを参照して「ブロックを消費する遷移Ｂ」のシーケンスについて説明する。
　内部状態Ｂは、図１９を参照して説明したように［途切れ中（始端確定前）］を示す内部状態である。

　まず、ステップＳ３５１において、接続可能な方向点が存在するかを判定する。存在するなら、ステップＳ３５２の区間延長処理に分岐し、その後、ステップＳ３５３で、状態Ａに遷移する。この遷移は、図１９の状態Ｂから状態Ａへの遷移に対応する。なお、ステップＳ３５２の区間延長処理については後述する。

　一方、ステップＳ３５１において、接続可能な方向点が存在しないと判定されると、ステップＳ３５４へ分岐する。これは、図１９に示す状態遷移モデルにおいて状態Ｂの自己ループに対応する。なお、ステップＳ３５４の処理は、図３４のステップＳ３４４の処理と同一の処理である。

　次に、図３６に示すフローチャートを参照して「ブロックを消費する遷移Ｃ」のシーケンスについて説明する。
　内部状態Ｃは、図１９を参照して説明したように［始端確定済み］を示す内部状態である。この図３６に示す処理は、図３４に示す「ブロックを消費する遷移Ａ」と類似しているが、ステップＳ３４１に相当する分岐は不要であるため行なわない。また、ステップＳ３４２に相当する判別処理は、図３６におけるステップＳ３６１の処理である。

　ステップＳ３６１では、図１８に示すトラッキング部１６５の作成中区間１７１の区間情報１７２中の図２０に示す「（１２）接続可能方向点リスト」が空でないか、または、「（７）登録済み」フラグが真かどうかを判別する。
　いずれかの条件を満たす場合は、ステップＳ３６２に進む。この処理は、図１９の状態Ｃの自己ループに対応する。

　一方、ステップＳ３６１において、「（１２）接続可能方向点リスト」が空で、かつ、「（７）登録済み」フラグが偽であると判定した場合は、ステップＳ３６３に分岐する。これは、図１９において状態Ｃから状態Ｄへの遷移処理を行なうことに相当する。

　ステップＳ３６３では、図２０に示す区間情報１７２の「１０」途切れカウンタ」の値を増加させる。増加する値は途切れカウンタが何を表わしているかによって異なり、ブロック数を表わしているのであれば１、フレーム数を表わしているのであればＢ（Ｂは１ブロックあたりのフレーム数）である。
　さらに、ステップＳ３６４において、図２０に示す区間情報１７２の「（１）内部状態」をＤに変化させる。

　次に、図３７に示すフローチャートを参照して「ブロックを消費する遷移Ｄ」のシーケンスについて説明する。
　内部状態Ｄは、図１９を参照して説明したように［途切れ中（抽出フィルタ推定前）］を示す内部状態である。この図３７に示す処理は、図３５に示す「ブロックを消費する遷移Ｂ」と類似している。

　まず、ステップＳ３７１において、接続可能な方向点が存在するかを判定する。存在するなら、ステップＳ３７２の区間延長処理に分岐し、その後、ステップＳ３７３で、状態Ｃに遷移する。この遷移は、図１９の状態Ｄから状態Ｃへの遷移に対応する。なお、ステップＳ３７２の区間延長処理については後述する。

　一方、ステップＳ３７１において、接続可能な方向点が存在しないと判定されると、ステップＳ３７４へ分岐し、途切れカウンタのカウント値を増加させる。これは、図１９に示す状態遷移モデルにおいて状態Ｄの自己ループに対応する。なお、ステップＳ３７４の処理は、図３４のステップＳ３４４の処理と同一の処理である。

　次に、図３８に示すフローチャートを参照して「ブロックを消費する遷移Ｇ」のシーケンスについて説明する。
　内部状態Ｇは、図１９を参照して説明したように［抽出フィルタ推定済み］を示す内部状態である。

　ステップＳ３８１において、接続可能な方向点が存在するか、または、「登録済み」属性を持った区間であるかを判定する。どちらかの条件を満たすときは、ステップＳ３８２の区間延長処理へ分岐する。これは、図１９において、状態Ｇの自己ループに相当する。
　ステップＳ３８２の区間延長処理の後、ステップＳ３８３において抽出結果の生成を行なう。この処理の詳細は後述する。

　一方、ステップＳ３８１において、接続可能な方向点が存在せず、かつ、「登録済み」属性を持った区間でないと判定した場合は、ステップＳ３８４へ分岐し、途切れカウンタのカウント値を増加させる。これは、図１９において状態Ｇから状態Ｈへの遷移に相当する。

　その後、ステップＳ３８５において、図２０に示す区間情報１７２の「（６）ハングオーバ付き終端フレーム番号」に、図１８に示す現フレーム番号１７６を代入する。
　さらに、ステップＳ３８６において、抽出結果の生成を行なう。この処理については後述する。最後に、ステップＳ３８７において、図２０に示す区間情報１７２の「（１）内部状態」を状態Ｈに変化させる。

　次に、図３９に示すフローチャートを参照して「ブロックを消費する遷移Ｈ」のシーケンスについて説明する。
　内部状態Ｈは、図１９を参照して説明したように［途切れ中（終端ハングオーバ以前）］を示す内部状態である。
　この処理は、途切れ中の処理であるが、［途切れ中（始端確定済み）］を示す状態Ｂや、［途切れ中（抽出フィルタ推定前）］を示す状態Ｄと異なり、抽出結果の生成を行なうことが特徴である。

　ステップＳ３９１において、接続可能な方向点が存在するか判定し、条件を満たすときは、ステップＳ３９２の区間延長処理へ分岐する。これは、図１９において、状態Ｈから状態Ｇへの遷移に対応する。
　ステップＳ３９２の区間延長処理の後、ステップＳ３９３において、抽出結果の生成を行なう。この処理の詳細は後述する。
　その後、ステップＳ３９４において、図２０に示す区間情報１７２の「（１）内部状態」を状態Ｇに変化させる。

　一方、ステップＳ３９１において、接続可能な方向点が存在しないと判定した場合は、ステップＳ３９５へ分岐し、途切れカウンタのカウント値を増加させる。これは、図１９において状態Ｈの自己ループに相当する。

　その後、ステップＳ３９６において、図２０に示す区間情報１７２の「（６）ハングオーバ付き終端フレーム番号」に、図１８に示す現フレーム番号１７６を代入する。
　さらに、ステップＳ３９７において、抽出結果の生成を行なう。この処理については後述する。

　ここで、図３８の「ブロックを消費する遷移Ｇ」のステップＳ３８１と、図３９の「ブロックを消費する遷移Ｈ」のステップＳ３９１において、各ステップの条件を満たさない場合の分岐後の処理（図３８のステップＳ３８４～Ｓ３８７、図３９のステップＳ３９５～Ｓ３９７）について補足する。

　これらの処理において、図２０に示す区間情報１７２の「（６）ハングオーバ付き終端フレーム番号」は更新されるが、「（５）終端フレーム番号」は更新されない。すなわち、状態Ｈを通過すると、終端フレーム番号は一定だが、ハングオーバ付き終端フレーム番号は値が増加していく。そして状態Ｈから状態Ｊへ遷移したときに、「（６）ハングオーバ付き終端フレーム番号」は、「（５）終端フレーム番号」に対して、ちょうど所定の値だけ進んだ値が格納されている。

　次に、図４０に示すフローチャートを参照して「ブロックを消費する遷移Ｊ」のシーケンスについて説明する。
　内部状態Ｊは、図１９を参照して説明したように［途切れ中（終端ハングオーバ以降）］を示す内部状態である。

　この処理は図３９を参照して説明した「ブロックを消費する遷移Ｈ」と類似しているが、終端ハングオーバ（図１０の時間ｔ７）を過ぎているため、自己ループでは抽出結果を生成しないという点が異なる。

　ステップＳ４０１において、接続可能な方向点が存在するか判定し、存在する満たす場合は、ステップＳ４０２の区間延長処理へ分岐する。これは、図１９において、状態Ｊから状態Ｇへの遷移処理に対応する。
　ステップＳＳ４０２の区間延長処理の後、ステップＳ４０３において、抽出結果の生成を行なう。この処理の詳細は後述する。ここで生成される抽出結果は、１ブロック分とは限らず、状態Ｊで自己ループした分も生成される。例えば、状態Ｊで自己ループが２回行なわれた後で状態Ｇに遷移した場合は、ステップＳ４０３において、３ブロック分（つまり３Ｂフレーム分の）抽出結果を生成する。その後、ステップＳ４０４において、図２０に示す区間情報１７２の「（１）内部状態」を状態Ｇに変化させる。

　一方、ステップＳ４０１において、接続可能な方向点が存在しないと判定した場合は、ステップＳ４０５へ進み、途切れカウンタを増加させる。これは、図１９においては、状態Ｊの自己ループに相当する。

　次に、図３４～図４０の各処理において実行している「区間延長処理」の詳細シーケンスについて、図４１に示すフローチャートを参照して説明する。
　「区間延長処理」は、作成中区間に新たな方向点を連結する処理である。そのためには、接続可能な方向点を１個にまとめる必要がある。
　ステップＳ４１１において、接続可能な方向点の個数に従って分岐を行なう。具体的には、図２０に示す区間情報１７２中の「（１２）接続可能点方向点リスト」に登録された要素数によって分岐する。要素数が１個のときは、そのままネステップＳ４１４へ進むが、０個の場合と２個以上の場合は、それぞれステップＳ４１２、ステップＳ４１３に分岐する。

　ステップＳ４１２に分岐するのは、その作成中区間が「登録済み」属性を持っている場合に限定される。この場合、図２０の区間情報１７２に登録された「（９）平均方向」と同じ方向を持つダミーの方向点を作成する。言い換えると、「登録済み」属性を持っている区間については、接続可能な方向点が存在しなくても、自分自身で区間を延長する。それによって、終端登録処理の前に区間が途切れてしまうのを防ぐ。

　また、ステップＳ４１３に分岐した場合は、接続可能な方向点の間で方向を平均し、その値を方向とするダミーの方向点を作成する。

　ステップＳ４１１～Ｓ４１３の処理によって、接続可能な方向点が１個にまとめられると、ステップＳ４１４において、その方向点を用いて、図２０の区間情報１７２に登録された「（９）平均方向」を更新する。今までの平均方向の値をｍ、新たな１つの方向点の方向をｄ、方向点カウンタの値をｃとすると、新たな平均方向ｍ'は、以下の式で示すことができる。なお、方向点カウンタがブロック数を表している場合と、フレーム数を表している場合とでは、式が以下のように異なる。
　　（方向点カウンタがブロック数を表わしている場合）
　ｍ'＝（ｃｍ＋ｄ）／（ｃ＋１）
　（方向点カウンタがフレーム数を表わしている場合）
　ｍ'＝（ｃｍ＋Ｂｄ）／（ｃ　＋　Ｂ）
　ただし、Ｂは１ブロックあたりのフレーム数である。

　次に、ステップＳ４１５において、図２０の区間情報１７２に登録された「（８）方向点カウンタ」を増加させる。増加させる量は、方向点カウンタがブロック数を表わしている場合は１、フレーム数を表わしている場合はＢである。

　次のステップＳ４１６は、図２０の区間情報１７２に登録された「（１０）途切れカウンタ」のリセットである。すなわち、区間延長処理を含む遷移が行なわれている限りは、途切れカウンタは［０］に維持される。

　次のステップＳ４１７において、図２０の区間情報１７２に登録された「（５）終端フレーム番号」と、「（６）ハングオーバ付き終端フレーム番号」とを更新する。具体的には、両方に、図１８のトラッキング部１６５の保持する現フレーム番号１７５を代入する。

　最後に、ステップＳ４１８において、図２１に示す音源抽出部１７３の保持する「（４）フィルタ適用終端フレーム番号」を更新する。具体的には、このメンバーにも図１８のトラッキング部１６５の保持する現フレーム番号１７５を代入する。

　次に、図３８～図４０に示すフローにおいて実行される「抽出結果生成」処理の詳細シーケンスについて、図４２に示すフローチャートを参照して説明する。
　ステップＳ４２１は、基本的に、図２１に示した音源抽出部１７３の管理情報として登録された「（３）フィルタ適用始端フレーム番号」から「（４）フィルタ適用終端フレーム番号」までの観測信号に対して抽出フィルタ等を適用する処理である。詳細は後述する。
　ステップＳ４２２は、ステップＳ４２１におけるフィルタ適用結果に対して、さらに特徴量への変換を行なう処理である。これも詳細は後述する。

　次に、ステップＳ４２１のフィルタ適用処理の詳細シーケンスについて、図４３に示すフローチャートを参照して説明する。フィルタを適用する範囲は、上述のように、基本的には図２１に示した音源抽出部１７３の管理情報として登録された「（３）フィルタ適用始端フレーム番号」から「（４）フィルタ適用終端フレーム番号」までの観測信号であるが、その作成中区間において初回に適用されるときだけは、デルタ特徴量の生成のために抽出結果を数フレーム分、多く生成する必要がある。このため、図２２に示す特徴量変換部１７４の管理する「（３）初回フラグ」に応じて処理を変更する。
　ステップＳ４３１では、このため、初回フラグの値を参照して、処理の分岐を行なう。
　図２２に示す特徴量変換部１７４の管理する「（３）初回フラグ」が「真」、すなわちフィルタ適用が初回であるならば、ステップＳ４３２へ分岐する。その場合、今回の適用開始フレーム番号である「ｂｅｇｉｎ＿ｆｒａｍｅ」の値として、図２１に示した音源抽出部１７３の管理情報として登録された「（３）フィルタ適用始端フレーム番号」から所定のオフセットを引いた値を用いる。ただし、システム起動直後など、オフセットを引くと「ｂｅｇｉｎ＿ｆｒａｍｅ」が負の値となってしまう場合は、「０」を代入する。オフセットの値は、デルタ特徴量として何を用いるかによって異なるが、余分を含んだ値（例えば、１０）を用い、図４２のフローにおける後段ステップであるステップＳ４２２の特徴量変換において不要なフレームを削除してもよい。

　ステップＳ４３１において、図２２に示す特徴量変換部１７４の管理する（３）初回フラグが「偽」、すなわちフィルタ適用が初回でないならば、ステップＳ４３３へ分岐する。その場合、「ｂｅｇｉｎ＿ｆｒａｍｅ」には、図２１に示した音源抽出部１７３の管理情報として登録された「（３）フィルタ適用始端フレーム番号」を代入する。

　ステップＳ４３３では、今回の適用終端フレーム番号である「ｅｎｄ＿ｆｒａｍｅ」に、図２１に示した音源抽出部１７３の管理情報として登録された「（４）フィルタ適用終端フレーム番号」を代入する。
　こうして今回のフィルタ適用範囲が求まったら、その範囲の観測信号に対してフィルタを適用する。

　ステップＳ４３５は、観測信号に対して抽出フィルタを適用する処理である。具体的には、
　ｂｅｇｉｎ＿ｆｒａｍｅ≦ｔ≦ｅｎｄ＿ｆｒａｍｅ
　を満たすフレームｔ、および全周波数ビンω
　に対して、前記した式［１．２］に従った処理を行なう。

　ただし、式［１．２］において、
　Ｗ（ω）は抽出フィルタであり、このフィルタの推定方法については後述する。Ｘ（ω，ｔ）とＹ（ω，ｔ）はそれぞれ、観測信号と抽出フィルタ適用結果である。

　こうして求めた抽出フィルタ適用結果Ｙ（ω，ｔ）は、その区間の目的音が強調されたものになっているが、それ以外の成分として妨害音の消し残りも含まれている。例えば、残響のある環境においては、妨害音の残響成分は除去しにくい。また、本開示の処理では抽出フィルタの推定を発話区間の途中で行なうため、その時点より後で鳴り始めた妨害音については、抽出フィルタＷ（ω）を適用しても除去されない。

　そこで、それらの消し残りを一層小さくするため、必要に応じて、ステップＳ４３６～Ｓ４３７の処理を行なう。なお、ステップＳ４３６と、ステップＳ４３７とは互いに独立した処理であるため、一方のみを実行してもよい。

　ステップＳ４３６の消し残り除去は、
　１）消し残りの推定と、
　２）消し残りの減算、
　これらの２つの処理からなる。

　「消し残りの推定」とは、
　ｂｅｇｉｎ＿ｆｒａｍｅ≦ｔ≦ｅｎｄ＿ｆｒａｍｅ
　の範囲の観測信号に対して全死角空間フィルタを適用する処理である。
　具体的には、以下に示す式［２．１］に従った処理を行なう。

　なお、上記式において、
　Ｎ（ω，ｔ）：全死角空間フィルタ、
　Ｖ（ω，ｔ）：全死角空間フィルタの適用結果、
　である。
　全死角空間フィルタの推定方法については後述する。このフィルタは、学習で使用した観測信号に含まれる全ての音源の方向に死角を形成したものであるため、その適用結果は、学習で使用した観測信号には含まれなかった、しかし、実際の観測信号：Ｘ（ω，ｔ）には含まれる音源に由来する成分と、残響等の除去困難な成分とからなる。

　一方、消し残りの減算とは、抽出フィルタ適用結果Ｙ（ω，ｔ）から消し残りＶ（ω，ｔ）を減算（ｓｕｂｔｒａｃｔ）することである。減算の方式としてスペクトル減算（ｓｐｅｃｔｒａｌ　ｓｕｂｔｒａｃｔｉｏｎ）を用いる場合は、式［２．２］～［２．３］に対応する処理を行なう。すなわち、減算結果をＺ（ω，ｔ）とすると、Ｚ（ω，ｔ）の大きさ（の二乗）を式［２．２］で計算し、そうして求めた｜Ｚ（ω，ｔ）｜に対して、抽出フィルタ適用結果Ｙ（ω，ｔ）の位相であるＹ（ω，ｔ）／｜Ｙ（ω，ｔ）｜を乗じたものをＺ（ω，ｔ）とする。ただし、式［２．２］において、α，βは共に正の実数であり、αは１付近の値、βは０付近の値を用いる。また、ｍａｘ（ａ，ｂ）は二つの引数の内で大きい方を採用することを表わす関数であり、式［２．２］においては第１引数が小さくなり過ぎる（特に負の値になる）のを防ぐために用いている。

　ステップＳ４３７の時間周波数マスキングとは、各フレーム・各周波数ビンにおいて、抽出フィルタ適用結果Ｙ（ω，ｔ）の中に目的音以外の信号がどの程度残っているかを推定し、その度合いに応じて係数を乗じることで、結果として目的音のみを残す処理である。すなわち、目的音以外の信号が強く残っているフレーム・周波数ビンには０に近い係数を、逆に、目的音以外の信号がほとんど残っていないフレーム・周波数ビンには１に近い係数を乗じる。その係数をマスクと呼び、マスクを適用することをマスキングという。マスクの推定方法については後述する。マスクの値をＭ（ω，ｔ）とすると、マスキングは式［２．４］に相当する処理である。
　なお、ステップＳ４３６をスキップした場合は、Ｚ（ω，ｔ）にＹ（ω，ｔ）を代入した後で式［２．４］を適用する。
　以上で、フィルタ適用処理の説明を終わる。

　図４２の抽出結果生成処理のフローチャートに示すステップＳ４２２の特徴量変換の詳細シーケンスについて、図４４に示すフローチャートを参照して説明する。
　ステップＳ４４１において、音源抽出部１７３の出力を、音声認識で使用される特徴量へと変換する処理を行なう。すなわち、音源抽出部１７３の出力であるスペクトルを音声認識部１５６におけるデコーダが音声認識に適用する特徴量であるメル周波数ケプストラム係数（Ｍｅｌ－Ｆｒｅｑｕｅｎｃｙ　Ｃｅｐｓｔｒａｌ　Ｃｏｅｆｆｉｃｉｅｎｔｓ：ＭＦＣＣ）に変換する処理を行なう。変換はフレームごとに行なわれ、フレームｔにおけるフィルタ適用結果Ｚ（１，ｔ）～Ｚ（Ｍ，ｔ）から、１フレーム分のＭＦＣＣであるＣｅｐ（１，ｔ）～Ｃｅｐ（Ｋ，ｔ）を生成する。ただし、Ｍ，Ｋはそれぞれ、周波数ビンの個数とケプストラムの次元数である。

　次に、ステップＳ４４２において、近接するフレーム間のＭＦＣＣを用いてデルタ特徴量を計算する。区間の先頭付近のフレームについては、デルタ特徴量が計算できないため、そのフレーム自体を削除する。

　ステップＳ４４４～Ｓ４４６は、その作成中区間において初回の特徴量変換の場合のみ実行される処理である。そのため、ステップＳ４４３において初回フラグ（図２２に示す特徴量変換部１７４の管理データである「（３）初回フラグ」）の値を調べ、値が初回であることを示す［真］の場合のみステップＳ４４４へ進み、そうでなければステップＳ４４７へ進む。

　ステップＳ４４４の「フレーム数の調整」とは、先に図４３を参照して説明したフィルタ適用処理の初回実行時に追加されたフレームを除去する処理である。例えば、ステップＳ４３１の時点で、フィルタ適用始端フレーム番号（図２１参照）からフィルタ適用終端フレーム番号（図２１参照）までのフレーム数がＴであるとする。初回は、ステップＳ４３２に分岐するため、フレーム数は、
　Ｔ＋ｏｆｆｓｅｔ
　に増加する。その後、ステップＳ４４２において、デルタ特徴量が計算できないフレームが除去されるが、ステップＳ４４４においてフレーム数が依然としてＴを超えていたら、先頭のフレームを除去することでフレーム数をＴに合わせる。

　次にステップＳ４４５において、ＭＦＣＣの平均と標準偏差とを計算し、計算結果を、図２２に示す特徴量変換部１７４の保持データ「（１）ＭＦＣＣ平均値」、「（２）ＭＦＣＣ標準偏差」として記録する。なお、計算結果として得られる平均も標準偏差もベクトルであり、その次元数はＭＦＣＣと同じくＫである。なお、平均や標準偏差を計算する範囲は、例えば図１０に示す例では、観測信号１０８の範囲となる。

　初回限定の処理の最後として、ステップＳ４４６において初回フラグ（図２２参照）に初回でないことを示す［偽］の値を代入する。

　ステップＳ４４７の「特徴量の正規化」は、ステップＳ４４１で計算されたＭＦＣＣから、図２２に示す特徴量変換部１７４の管理データとして保持された（１）ＭＦＣＣ平均値を減算して（ケプストラム平均正規化）からＭＦＣＣ標準偏差（図２２（２））で除算する（ケプストラム分散正規化）処理である。必要に応じて一方のみを実行してもよい。

　こうして生成された音声認識に適用する特徴量であるメル周波数ケプストラム係数（ＭＦＣＣ）とデルタ特徴量とは、フレームごとに１本のベクトルとして表現される。これらのデータが、ステップＳ４４８において、図１６に示すフロントエンド部１５３の抽出結果バッファリング部１６６に蓄積される。抽出結果バッファリング部１６６の構成は図１３の抽出結果バッファリング部１３５に示した通りであり、区間ごとに異なるバッファ１３５ａ～ｃを持っている。

　ステップＳ４４８では、トラッキング部１６５の作成中区間管理部１７１の管理する区間情報１７２（図２０）に保持された作成中区間の（（２）区間ＩＤ）と、抽出結果バッファリング部１６６の各バッファ（図１３のバッファ１３５ａ～ｃ）が保持している区間情報１３４ａ～ｃ内の区間ＩＤとを比較し、一致するものがあれば、そのバッファの末尾に、今回生成された特徴量を追加すると共に、抽出結果バッファリング部１６６側の区間情報を更新する。一致するものがない場合は、新たなバッファを抽出結果バッファリング部の中に生成し、そこに特徴量と区間情報とを格納する。
　以上で、「ブロックを消費する遷移」に関する説明をすべて終える。

　　［４－４．ブロックを消費しない遷移について］
　次に、図３２に示す区間更新処理におけるステップＳ３２３の「ブロックを消費しない遷移」について、図４５に示すフローチャートを参照して説明する。

　ステップＳ４５１において、図１８に示す作成中区間管理部１７１の区間情報１７２に含まれる図２０に示す（２）内部状態に応じた分岐を行なう。

　ステップＳ４５１の分岐は、以下の処理を行なうものである。
　現在の状態が状態Ａ，Ｂ，Ｃ，Ｄ，Ｇ，Ｈ，Ｉ，Ｊの場合は、ステップＳ４５２に進み、その他の状態Ｅ，Ｆ，Ｋ，Ｌの場合は、ステップＳ４５２に進まず、「ブロックを消費しない遷移」を終了することを意味している。

　なお、現在の状態が状態Ａ，Ｂ，Ｃ，Ｄ，Ｇ，Ｈ，Ｉ，Ｊの場合は、ステップＳ４５２に進み、各状態で「ブロックを消費しない遷移」を実行することを意味する。
　すなわち、
　ステップＳ４５１において現在の内部状態が状態Ａであると判定した場合は、ステップＳ４５２に進み、状態Ａに対応する「ブロックを消費しない遷移Ａ」を実行する。
　また、ステップＳ４５１による現在の状態が状態Ｂであると判定した場合は、ステップＳ４５２に進み、状態Ｂに対応する「ブロックを消費しない遷移Ｂ」を実行する。
　その他の状態Ｃ，Ｄ，Ｇ，Ｈ，Ｉ，Ｊについても同様、ステップＳ４５２に進み、各状態対応の「ブロックを消費しない遷移」を実行することを意味する。

　なお、ステップＳ４５１において、内部状態がＥ，Ｆ，Ｋ，Ｌのときは、図１９に示す状態遷移モデルからも理解されるように、ラインｃ，ｄで示す「ブロックを消費しない遷移」が定義されていないため、ステップＳ４５２に進まず、処理を終える。

　次に、図４５に示すフローのステップＳ４５１において、内部状態Ａ，Ｂ，Ｃ，Ｄ，Ｇ，Ｈ，Ｉ，Ｊのいずれかと判定され、ステップＳ４５２で実行する以下の各遷移について、図４６～図５３の各フローに従って順次説明する。
　（１）ブロックを消費しない遷移Ａ：図４６、
　（２）ブロックを消費しない遷移Ｂ：図４７、
　（３）ブロックを消費しない遷移Ｃ：図４８、
　（４）ブロックを消費しない遷移Ｄ：図４９、
　（５）ブロックを消費しない遷移Ｇ：図５０、
　（６）ブロックを消費しない遷移Ｈ：図５１、
　（７）ブロックを消費しない遷移Ｉ：図５２、
　（８）ブロックを消費しない遷移Ｊ：図５３、

　まず、図４６に示すフローチャートを参照して「ブロックを消費しない遷移Ａ」のシーケンスについて説明する。
　内部状態Ａは、図１９を参照して説明したように［区間生成済み］を示す内部状態である。
　まず、ステップＳ４６１において、図２０の区間情報１７２に登録された「（３）始端フレーム番号」と、図１８のトラッキング部１６５の登録データである現フレーム番号１７５を比較して、
　始端フレーム番号≦現フレーム番号
　上記式が成立するか否かを判定する。
　この判定処理は、始端の登録処理において未来のタイムスタンプが指定されている場合に、その区間のトラッキングの開始を延期するためである。現フレーム番号が始端フレーム番号以上の場合のみ、ステップＳ４６２に進む。そうでない場合は、すべての処理をスキップし、処理を終了する。

　ステップＳ４６２は、終端の登録処理（後述）によって終端が予約されているかのチェックである。図２０の区間情報１７２の登録情報である「（１１）終端予定フレーム番号」が未定義値である場合は、そもそも終端が予約されていないため、ステップＳ４６３に進む。また、「（１１）終端予定フレーム番号」に未定義値以外が入っていても、それが、図１８のトラッキング部１６５の登録データである現フレーム番号１７５より大きい場合は、終了予定時刻にまだ達していないため、同様にステップＳ４６３に進む。

　トラッキング部１６５の登録データである現フレーム番号１７５が、図２０の区間情報１７２の登録情報である「（１１）終端予定フレーム番号」以上の場合のみ、ステップＳ４６５に進む。これは、図１９において、状態Ａから状態Ｅへの遷移を表わしており、図２０の区間情報中の「（１）内部状態」を状態Ｅに変化させてからステップＳ４６６に進む。

　一方、ステップＳ４６３に進んだ場合は、作成中区間の長さと、予め規定した「受理する発話の最短長：Ｌ１」とを比較する。
　なお、「受理する発話の最短長：Ｌ１」は、図１０に示す時間ｔ３～ｔ４の長さＬ１に対応する。このＬ１は始端の見極めに必要な長さと同じである。作成中区間の長さがＬ１以上の場合のみ、ステップＳ４６４へ進み、状態Ｃへ遷移する。作成中区間の長さがＬ１以上でなければ、ステップＳ４６４に進まず、「ブロックを消費しない遷移Ａ」を終了する。

　なお、Ｌ１の単位は秒・フレーム数・ブロック数のどれでもよいが、ステップＳ４６３において実行する比較処理においては、作成区間の長さはＬ１と同じ単位で表現されるものとする。図１０に示すＬ２～Ｌ５の単位についても同様とする。

　次に、図４７に示すフローチャートを参照して「ブロックを消費しない遷移Ｂ」のシーケンスについて説明する。
　内部状態Ｂは、図１９を参照して説明したように［途切れ中（始端確定前）］を示す内部状態である。

　まず、ステップＳ４７１において、図２０に示す区間情報１７２中の「（１０）途切れカウンタ」と、終端の見極めに必要な長さＬ４との比較を行なう。
　なお、終端の見極めに必要な長さＬ４は、図１０に示す例では、時間ｔ６～ｔ８のＬ４（秒、またはフレーム数、またはブロック数）である。
　途切れカウンタがＬ４以上の場合のみ、ステップＳ４７２に進み、それ以外の場合は「ブロックを消費しない遷移Ｂ」を終了する。

　ステップＳ４７２は、図１９において状態Ｂから状態Ｅへの遷移に対応する。この処理に際して、図２０に示す区間情報１７２の「（１）内部状態」を状態Ｅに変化させる。

　次に、図４８に示すフローチャートを参照して「ブロックを消費しない遷移Ｃ」のシーケンスについて説明する。
　内部状態Ｃは、図１９を参照して説明したように［始端確定済み］を示す内部状態である。

　ステップＳ４８１において、先に説明した図４６のステップＳ４６２の処理と同様の処理であり、終端の登録処理（後述）によって終端が予約されているかのチェックである。図２０の区間情報１７２の登録情報である「（１１）終端予定フレーム番号」が未定義値である場合は、そもそも終端が予約されていないため、ステップＳ４８２に進む。また、「（１１）終端予定フレーム番号」に未定義値以外が入っていても、それが、図１８のトラッキング部１６５の登録データである現フレーム番号１７５より大きい場合は、終了予定時刻にまだ達していないため、同様にステップＳ４８２に進む。現フレーム番号が終了予定フレーム番号以上の場合のみ、ステップＳ４８９に進む。

　ステップＳ４８２に分岐した場合について先に説明する。ステップＳ４８２において、作成中区間の長さと、音声区間の始端からフィルタ推定開始位置までの長さＬ２（図１０の時間ｔ３～ｔ５のＬ２）とを比較する。作成中の長さがＬ２以上なら、ステップＳ４８３へ進む。そうでない場合は、「ブロックを消費しない遷移Ｃ」を終了する。

　ステップＳ４８３～Ｓ４８７は、図１９において状態Ｃから状態Ｇへの遷移に対応した処理である。本開示の処理では、この状態Ｃから状態Ｇへの遷移の際に、作成中区間が棄却可能かのチェック（ステップＳ４８４）と、フィルタの推定（ステップＳ４８５）と、入力済み観測信号（図１０の例では観測信号１０８）について抽出結果を生成する処理（ステップＳ４８６）を行なう。以下、順に説明する。

　最初に、ステップＳ４８４において、作成中区間が棄却可能かチェックする理由について説明する。特開２０１２－２３４１５０等の従来法では、終端が確定した後で棄却のチェック行なわれていた。棄却された区間については、音声認識に適用する特徴量の生成や、デコードが省略されていた。
　一方、本開示の処理では、終端が確定する前から特徴量が生成され、さらにそれがデコードされる。そのため、棄却が終端確定時に行なわれるだけでは、棄却されるべき区間に対しても無駄なデコード等が行なわれてしまう。そこで、フィルタ推定開始位置、すなわち区間の長さがＬ２に達した時点で、既に不要と判明した区間を棄却する。この処理によって不要なデコード等が行われるのを防止している。

　ステップＳ４８４の棄却判定には、例えば以下の条件を用いる。
　　条件ａ）棄却判定時点（フィルタ推定開始位置）における平均方向（図２０の区間情報１７２に登録された（９）平均方向）は、予め規定した所定の範囲内にあるか？
　　条件ｂ）フィルタ適用対象となる観測信号（図１０の観測信号１０８）の区間において、「音声らしい」フレームの割合は、所定の閾値を上回っているか？
　　条件ｃ）音声区間の始点～フィルタ推定開始位置（図１０の時間ｔ３～ｔ５）の区間において、方向点の密度は所定の閾値を上回っているか？

　上記条件ａ～ｃを全て満たす場合は、棄却しないと判定してステップＳ４８５へ進み、どれか一つでも満たさない場合は、棄却すると判定してステップＳ４８８へ進む。
　ステップＳ４８８は、作成中区間の棄却処理であり、この棄却処理の実行においては、図２０に示す区間情報１７２の「（１）内部状態」を状態Ｌへ変化させる。

　なお、「登録済み」属性を持つ作成中区間は基本的にトラッキング中は棄却されないため、ステップＳ４８４の棄却チェックをスキップする。この処理を表わしているのが、ステップＳ４８３の判定がＹｅｓとなり、ステップＳ４８５に進む処理である。

　ステップＳ４８５では、フィルタの推定処理を実行し、さらに、ステップＳ４８６において、フィルタ適用による抽出結果の生成処理を行なう。これらの処理の詳細は後述する。さらに、ステップＳ４８７において、図２０に示す区間情報中の「（１）内部状態」を状態Ｇに変化させる。

　ここで、ステップＳ４８１に戻り、ステッＳ４８９に分岐した場合について説明する。これは、抽出フィルタ等が推定される前に終端登録処理によって終端が確定したことを表わしている。その場合は、ステップＳＳ４８９において、区間全体抽出を実行する。この処理に際して、ステップＳ４８５～Ｓ４８６と同様のフィルタの推定と抽出結果の生成などを行なう。この処理の詳細は後述する。最後に、ステップＳ４９０において状態Ｆに遷移する。この状態は、抽出フィルタを推定する前に終端が確定したことを表わしている。

　次に、図４９に示すフローチャートを参照して「ブロックを消費しない遷移Ｄ」のシーケンスについて説明する。
　内部状態Ｄは、図１９を参照して説明したように［途切れ中（抽出フィルタ推定前）］を示す内部状態である。

　ステップＳ４９１は、図４７を参照して説明したステップＳ４７１と同様の処理であり、図２０に示す区間情報１７２中の「（１０）途切れカウンタ」と、終端の見極めに必要な長さＬ４との比較を行なう。
　なお、終端の見極めに必要な長さＬ４は、図１０に示す例では、時間ｔ６～ｔ８のＬ４（秒、またはフレーム数、またはブロック数）である。
　途切れカウンタがＬ４以上の場合のみ、ステップＳ４９２に進み、それ以外の場合は「ブロックを消費しない遷移Ｄ」を終了する。

　ステップＳ４９２に分岐したことは、抽出フィルタ等が推定される前に終端が確定したことを表わしており、図１９において状態Ｃから状態Ｆへ遷移する途中に相当する。
　ステップＳ４９２では、棄却可能かどうかのチェックを行なう。棄却判定には、例えば以下の条件を用いる。
　　条件ａ）棄却判定時点における平均方向（図２０の区間情報１７２に登録された（９）平均方向）は、予め規定した所定の範囲内にあるか？
　　条件ｂ）フィルタ適用対象となる区間全体の観測信号（図１０の時間ｔ２～ｔ８）の区間において、「音声らしい」フレームの割合は、所定の閾値を上回っているか？
　　条件ｃ）音声区間の全体（図１０の時間ｔ３～ｔ８）の区間において、方向点の密度は所定の閾値を上回っているか？

　上記条件ａ～ｃを全て満たす場合は、棄却しないと決定してステップＳ４９３へ進み、どれか一つでも満たさない場合は、棄却すると決定してステップＳ４９５へ進む。ステップＳ４９５は棄却を表わしており、この処理では図２０に示す区間情報１７２の「（１）内部状態」を状態Ｌへ変化させる。

　一方、ステップＳ４９２の棄却判定処理において、上記条件ａ～ｃを全て満たす場合は、棄却しないと決定してステップＳ４９３へ進み、区間全体抽出を行なう。詳細は後述する。最後に、ステップＳ４９４において状態Ｆに遷移する。

　次に、図５０に示すフローチャートを参照して「ブロックを消費しない遷移Ｇ」のシーケンスについて説明する。
　内部状態Ｇは、図１９を参照して説明したように［抽出フィルタ推定済み］を示す内部状態である。

　ステップＳ５０１は、図４８のステップＳ４８１や、図４６のステップＳ４６２と同様に、終端の登録処理（後述）によって終端が予約されているかのチェックである。
　図２０の区間情報１７２の登録情報である「（１１）終端予定フレーム番号」が未定義値である場合は、そもそも終端が予約されていないため、ステップＳ５０２に進む。また、「（１１）終端予定フレーム番号」に未定義値以外が入っていても、それが、図１８のトラッキング部１６５の登録データである現フレーム番号１７５より大きい場合は、終了予定時刻にまだ達していないため、同様にステップＳ５０２に進む。現フレーム番号が終了予定フレーム番号以上の場合のみ、ステップＳ５０４に進む。

　ステップＳ５０２に進むと、作成中区間の長さが、受理可能な発話の最大長を超えていないかチェックする。超えていない場合は、「ブロックを消費しない遷移Ｇ」を終了する。超えている場合は、ステップＳ５０３へ進み、そこで状態Ｉへ遷移する。

　ここで、ステップＳ５０１に戻り、ステップＳ５０４に分岐した場合について説明する。この場合は、抽出結果が逐次的に生成されている途中において、終端の登録処理（後述）で指定された終了予定時刻に現在時刻が到達したことを意味している。
　この場合、ステップＳ５０４において区間確定処理を行なう。詳細は後述する。その後、ステップＳ５０５で状態Ｋに遷移する。この状態は、抽出フィルタの推定後に終端が確定したことを表わしている。

　次に、図５１に示すフローチャートを参照して「ブロックを消費しない遷移Ｈ」のシーケンスについて説明する。
　内部状態Ｈは、図１９を参照して説明したように［途切れ中（終端ハングオーバ以前）］を示す内部状態である。

　ステップＳ５１１において、図２０に示す区間情報１７２中の「（１０）途切れカウンタ」が終端ハングオーバの長さＬ３を超えているかチェックする。なお、Ｌ３は、図１０の時間ｔ６～ｔ７に示すＬ３に相当する。超えていなければ、「ブロックを消費しない遷移Ｈ」を終了する。超えている場合は、ステップＳ５１２に進み、状態Ｊに遷移する。

　次に、図５２に示すフローチャートを参照して「ブロックを消費しない遷移Ｉ」のシーケンスについて説明する。
　内部状態Ｉは、図１９を参照して説明したように［区間長すぎ］を示す内部状態である。この状態は、作成中区間の長さが、受理可能な発話の最大長を超えたことを表わしている。その状態における振る舞いは、以下の２通りが考えられる。
　　ａ）その作成中区間を棄却する。
　　ｂ）その時点で、途切れていなくても終端を確定する。

　例えば、受理可能な発話の最大長を３秒とすると、ａ）は３秒を越える長さの発話を棄却することを意味し、ｂ）は初めの３秒間の音声から認識結果を生成することを意味する。どちらの振る舞いにするかは、使用目的に合わせて設定する。

　ステップＳ５２１は、作成中区間が受理可能な発話の最大長に達した場合の設定に基づく分岐であり、上記ａ）の設定である場合は、ステップＳ５２１の判定はＹｅｓとなり、ステップＳ５２２に進む。また、上記ｂ）の設定である場合は、ステップＳ５２１の判定はＮｏとなり、ステップＳ５０４に進む。

　設定がａ）である場合は、ステップＳ５２２に進み、そこで棄却を表わす状態Ｌに遷移する。
　一方、設定がｂ）である場合は、ステップＳ５２３に進み、そこで棄却するかどうかのチェックを行なう。ステップＳＳ５２３の棄却チェックは、先に説明した図４９のステップＳ４９２の処理と同じである。棄却判定には、例えば以下の条件を用いる。
　　条件ａ）棄却判定時点における平均方向（図２０の区間情報１７２に登録された（９）平均方向）は、予め規定した所定の範囲内にあるか？
　　条件ｂ）フィルタ適用対象となる区間全体の観測信号（図１０の時間ｔ２～ｔ８）の区間において、「音声らしい」フレームの割合は、所定の閾値を上回っているか？
　　条件ｃ）音声区間の全体（図１０の時間ｔ３～ｔ８）の区間において、方向点の密度は所定の閾値を上回っているか？

　上記条件ａ～ｃを全て満たす場合は、棄却しないと決定してステップＳ５２４へ進み、どれか一つでも満たさない場合は、棄却すると決定してステップＳ５２２へ進む。ステップＳ５２２は棄却処理であり、この処理では図２０に示す区間情報１７２の「（１）内部状態」を状態Ｌへ変化させる。

　上記条件ａ～ｃを全て満たす場合は、棄却しないと決定してステップＳ５２４へ進み、区間確定処理を行なう。この処理については後述する。最後に、ステップＳ５２５において状態Ｋに遷移する。

　次に、図５３に示すフローチャートを参照して「ブロックを消費しない遷移Ｊ」のシーケンスについて説明する。
　内部状態Ｊは、図１９を参照して説明したように［途切れ中（終端ハングオーバ以降）］を示す内部状態である。

　ステップＳ５３１は、図４９のステップＳ４９１や、図４７のステップＳ４７１と同様の処理であり、図２０に示す区間情報１７２中の「（１０）途切れカウンタ」と、終端の見極めに必要な長さＬ４との比較を行なう。
　なお、終端の見極めに必要な長さＬ４は、図１０に示す例では、時間ｔ６～ｔ８のＬ４（秒、またはフレーム数、またはブロック数）である。
　途切れカウンタがＬ４以上の場合のみ、ステップＳ５３２に進み、それ以外の場合は「ブロックを消費しない遷移Ｊ」を終了する。

　ステップＳ５３２へ進んだことは、方向点の途切れている長さが見極め時間Ｌ４に達し、終端が確定したことを表わしている。
　ステップＳ５３２では、図４９のステップＳ４９２や、図５２のステップＳ５２３と同様の棄却チェックを行なう。すなわち、棄却判定には、例えば以下の条件を用いる。
　　条件ａ）棄却判定時点における平均方向（図２０の区間情報１７２に登録された「（９）平均方向」）は、予め規定した所定の範囲内にあるか？
　　条件ｂ）フィルタ適用対象となる区間全体の観測信号（図１０の時間ｔ２～ｔ８）の区間において、「音声らしい」フレームの割合は、所定の閾値を上回っているか？
　　条件ｃ）音声区間の全体（図１０の時間ｔ３～ｔ８）の区間において、方向点の密度は所定の閾値を上回っているか？

　上記条件ａ～ｃを全て満たす場合は、棄却しないと決定してステップＳ５３３へ進み、どれか一つでも満たさない場合は、棄却すると決定してステップＳ５３５へ進む。ステップＳ５３５は棄却処理であり、この処理では図２０に示す区間情報１７２の「（１）内部状態」を状態Ｌへ変化させる。
　棄却しない場合は、ステップＳ５３３において区間確定処理を行なう。この処理については後述する。最後に、ステップＳ５３４において、状態Ｋに遷移する。

　次に、図４８を参照して説明した「ブロックを消費しない遷移Ｃ」のステップＳ４８５において実行するフィルタ推定処理の詳細シーケンスについて、図５４に示すフローチャートを参照して説明する。

　本開示の処理において、フィルタ推定処理は、例えば図１０に示す例において時間ｔ１～ｔ５の観測信号１０６（時間ｔ５から一定時間遡った地点まで）を使用する。
　図５４に示すフローの各ステップの処理について説明する。
　ステップＳ５４１では、以下に示す式を用いて参照信号（リファレンス）を生成する。

　式［３．１］のｑ（θ）は、音源方向（発話の方向）に対応した３次元のベクトルであり、θは平均方向（図２０に示す区間情報１７２中の「（９）平均方向」）の値である。このベクトルと式［３．２］・式［３．３］を用いて、方向θに対応したステアリングベクトルＳ（θ）を計算する。

　式［３．２］において、
　ｍ＿ｋは、ｋ番目のマイクロホンの位置ベクトル、
　ｍは全マイクロホン位置の平均位置、
　Ｆはサンプリング周波数、
　Ｃは音速、
　ｊは虚数単位、
　である。ステアリングベクトルとは、方向θから到来する音について、各マイクロホンで観測される信号の位相差を時間周波数領域において表わすベクトルである。

　また、式［３．４］において、
　Ｕ（ω，ｔ）は、観測信号ベクトルＸ（ω，ｔ）についてのマイクロホン間の位相差を表わしている。
　また、式［３．５］において、
　Ｓ（θ）とＵ（ω，ｔ）とから時間周波数マスクＭ（ω，ｔ）を計算する。なお、上付きのＨは、エルミート転置（共役転置）を表わす。
　観測信号Ｘ（ω，ｔ）が方向θから到来する音のみで構成されている場合に、時間周波数マスクＭ（ω，ｔ）は最大、逆にθ方向から到来する音が全く含まれていない場合に、時間周波数マスクＭ（ω，ｔ）は最小となる。
　Ｊはマスキングの効果を調整するための正の実数であり、Ｊが大きいほどマスキングの効果が大きくなる。

　最後に、式［３．７］において、時間数周波数マスクＭ（ω，ｔ）を周波数ビン方向で平均することで、ｔ番目のフレームに対応した参照信号ｒ（ｔ）を得る。この式においてＬは正の値であり、たとえばＬ＝２を用いる。また、＜・＞＿｛ω∈Ω｝は、集合Ωを複数の周波数ビンの番号からなる集合とし、そのΩに属する周波数ビンの間で平均を計算することを表わす。集合Ωは、たとえば式［３．６］で表わす。この集合は、ω＿｛ｍｉｎ｝からω＿｛ｍａｘ｝までの周波数ビンの間で平均を計算することを意味する。

　上記式［３．１］～［３．７］に示す計算を、例えば図１０に示す観測信号１０６に対応したフレーム番号ｔについて行なうことで、区間と方向とが反映された参照信号ｒ（ｔ）を得る。
　なお、図１０において、区間の長さがＬ２に達する前に終端１０４が確定した場合、すなわち、終端１０４が、本処理例におけるフィルタ推定開始位置である時間ｔ５よりも時間軸上で前である場合は、従来法と同様に、終端から一定時間遡った時点までについて、参照信号を計算する。以降、フレーム間で平均を計算する操作については同様である。

　ステップＳ５４２～Ｓ５４７は周波数ビンについてのループであり、各周波数ビンについて、ステップＳ５４３～Ｓ５４６の処理を行なう。
　ステップＳ５４３の無相関化（ｄｅｃｏｒｒｅｌａｔｉｏｎ）とは、観測信号ベクトルＸ（ω，ｔ）に対して、以下に示す式［４．１］のような変換を作用させることで、式［４．２］を満たすＸ'（ω，ｔ）を得る処理である。

　上記式［４．１］の行列Ｐ（ω）を無相関化行列と呼ぶ。以下、無相関化行列の計算方向について説明する。
　式［４．３］のＲ（ω）は、観測信号の共分散行列である。この式において＜・＞＿ｔは、フィルタ推定に適用する図１０に示す観測信号１０６の区間について平均を計算することを意味する。そして、観測信号の共分散行列Ｒ（ω）に対して固有値分解（Ｅｉｇｅｎｖａｌｕｅ　ｄｅｃｏｍｐｏｓｉｔｉｏｎ）を適用し、式［４．４］の右辺のような積に分解する。

　この式［４．４］において、
　Ｖ（ω）は、観測信号の共分散行列Ｒ（ω）の固有ベクトルからなる行列（式［４．５］）、
　Ｄ（ω）は、観測信号の共分散行列Ｒ（ω）の固有値からなる対角行列である（式［４．６］）。
　また、最大の固有値はｄ１（ω）、最小の固有値はｄｎ（ω）である。そして式［４．７］に従って無相関化行列Ｐ（ω）を得る。

　次に、ステップＳ５４４において全死角空間フィルタＮ（ω）を推定する。その計算方法は、例えば特開２０１１－１０７６０２号公報で説明されている通りである。なお、観測信号の共分散行列に対して固有値分解を適用している場合は、上記の式［４．８］によって簡単に求めることができる。ただし、式［４．８］における全死角空間フィルタＮ（ω）には、まだリスケーリングが適用されていないため、ステップＳ５４６においてリスケーリングする。

　次に、ステップＳ５４５において、抽出フィルタＷ（ω）を推定する。その計算方法を以下に示す。

　式［５．１］のＧ（ω）は、参照信号ｒ（ｔ）の逆数を重みとした、無相関化観測信号の重みつき共分散行列である。この式においても、平均の計算は、フィルタ推定に適用する図１０に示す観測信号１０６の区間について行なう。
　抽出フィルタＷ（ω）は、式［５．２］の最小化問題の解であり、この問題はＧ（ω）に固有値分解を適用することで解くことができる。

　Ｇ（ω）の固有値分解は、式［５．３］のように表わされる。この式において、
　Ａ（ω）はＧ（ω）の固有ベクトルからなる行列、
　Ｂ（ω）はＧ（ω）の固有値からなる対角行列である。
　最小の固有値ｂｎ（ω）に対応した固有ベクトルをＡｎ（ω）とすると、抽出フィルタＷ（ω）は式［５．６］で表わされる。ただし、この式における抽出フィルタＷ（ω）には、まだリスケーリングが適用されていないため、ステップＳ５４６でリスケーリングを行なう。

　次に、ステップＳ５４６において、抽出フィルタＷ（ω）と全死角空間フィルタＮ（ω）とに対してリスケーリングを行なう。リスケーリングとは、抽出結果に対して周波数ビン毎のスケールを適切に調整する操作であるが、本開示では、抽出フィルタの適用結果に含まれる消し残りと、全死角空間フィルタの適用によって推定された消し残りとの間で、減算前にスケールを合わせる目的でも使用する。
　リスケーリングの式は、以下に示す式となる。

　この式は、抽出フィルタの適用結果に含まれる目的音のスケールを、遅延和アレイの適用結果に含まれる目的音のスケールに合わせるための式である。式［６．１］によってリスケーリング係数ｇ（ω）を計算し、それを式［６．２］と式［６．３］に示すように、抽出フィルタＷ（ω）と全死角空間フィルタＮ（ω）のそれぞれに反映させる。

　ステップＳ５４３～Ｓ５４６を全周波数ビンについて行なうことで、抽出フィルタと全死角空間フィルタとが生成される。
　以上で、フィルタ推定の説明を終わる。

　次に、図４８を参照して説明した「ブロックを消費しない遷移Ｃ」のステップＳ４８６や、図４９を参照して説明した「ブロックを消費しない遷移Ｄ」のステップＳ４９３において実行する区間全体抽出処理について、図５５に示すフローチャートを参照して説明する。この処理は、図１９において状態Ｃ，Ｄから状態Ｆへの遷移において実行される。区間全体抽出処理においては、終端が確定してからフィルタの推定と抽出結果の生成を行なう。

　ステップＳ５５１において、作成中区間の始端・終端を確定させる。この時点で、図２０の生成／保存データの内で未定なのは、ハングオーバ付き終端フレーム番号（図２０の区間情報１７２中の（６））のみである。このハングオーバ付き終端フレーム番号（図２０の区間情報１７２中の（６））に、終端フレーム番号（区間情報１７２中の（５））にＬ３（図１０において、区間終端の時間ｔ６からｔ７までの長さ）を加えた値を代入する。

　ステップＳ５５２において、抽出フィルタを適用する範囲を確定させる。この時点で、図２１の生成／保存データの内で未定なのは、フィルタ適用終端フレーム番号（図２１に示す音源抽出部１７３の管理データである「（４）フィルタ適用終端フレーム番号」のみである。そこにもハングオーバ付き終端フレーム番号と同じく、終端フレーム番号（図２０の区間情報１７２中の（５））にＬ３（図１０において、区間終端の時間ｔ５からｔ６までの長さ）を加えた値を代入する。

　ステップＳ５５３において、フィルタの推定を行なう。このフィルタ推定処理は、先に図５４のフローチャートを参照して説明したのと同様の処理である。
　ステップＳ５５４において、抽出結果生成を行なう。この抽出結果生成処理は、先に図４２～図４４の各フローを参照して説明したのと同様の処理である。

　最後に、ステップＳ５５５において、「発話終了」表わす特別な特徴量を、図１６に示すフロントエンド部１５３の部抽出結果バッファリング部１６６に追加する。
　なお、この処理は、図５６を参照して説明するステップＳ５６２の処理と同じであり、この処理の意味については後述する。

　次に、図５０の「ブロックを消費しない遷移Ｇ」のステップＳ５０４、図５２の「ブロックを消費しない遷移Ｉ」のステップＳ５２４、図５３の「ブロックを消費しない遷移Ｊ」のステップＳ５３３で実行する区間確定処理の詳細シーケンスについて、図５６に示すフローチャートを用いて説明する。
　この処理は、図１９に示す状態Ｇ，Ｉ，Ｊから状態Ｋへの遷移において実行される。

　ステップＳ５６１において、作成中区間の始端・終端を確定させる。この時点で、図２０の生成／保持データの内で未定なのはハングオーバ終端フレーム番号（図２０の区間情報１７２中の（６））のみである（状態Ｊから状態Ｋへの遷移を除く）。このハングオーバ付き終端フレーム番号（図２０の区間情報１７２中の（６））に、終端フレーム番号（区間情報１７２中の（５））にＬ３（図１０において、区間終端の時間ｔ６からｔ７までの長さ）を加えた値を代入する。

　最後に、ステップＳ５６２において、「発話終了」表わす特別な特徴量を、図１６に示すフロントエンド部１５３の部抽出結果バッファリング部１６６に追加する。以下、この処理の意味について説明する。

　本開示の処理では、抽出結果である特徴量の生成が逐次的に行われ、特徴量を適用したや音声認識処理としてのデコードも逐次的に行なわれる。従ってデコーダにとっては、特徴量だけからでは、それが区間の途中なのか終わりなのかが分からない。そこで、作成中区間の終端が確定したら、「その区間についての特徴量はもう生成されない」ことをデコーダに通知する必要がある。その通知の手段として、本開示では「発話終了」を表わす特別な特徴量を用意し、それを図１６に示すフロントエンド部１５３の部抽出結果バッファリング部１６６に追加するようにしている。同じ理由で、区間全体抽出（図５５）においても、最後のステップＳ５５５で「発話終了」を表わす特徴量を追加している。
　以上で、区間確定処理の説明を終わるとともに、区間の更新（図２９のステップＳ２９３）の説明も終わる。

　再び、図２９のトラッキング処理の説明に戻る。
　図２９に示すトラッキング処理のフローにおけるステップＳ２９４の新規区間の作成処理について、図５７に示すフローチャートを用いて説明する。
　この処理では、どの作成中区間にも接続しない方向点が存在したときに、それを始端とする新たな区間を生成する。

　ステップＳ５７１～Ｓ５７７は、図１８に示すトラッキング部１６５の管理データである方向点接続テーブル１７９の各エントリについてのループである。方向点接続テーブル１７９の１エントリは、方向点の一つについてどの作成中区間が接続可能かを示す接続可能区間リストを保持している。

　ステップＳ５７２において、その方向点と接続可能な作成中区間が存在するか判定する。接続可能区間リストの要素数が１以上の場合は、接続可能な作成中区間が存在するので、ステップＳ５７３～Ｓ５７６をスキップする。接続可能区間リストの要素数が０の場合のみ、ステップＳ５７３に進む。

　ステップＳ５７３は、１個の作成中区間に相当する作成中区間管理部（図１８に示すトラッキング部１６５の作成中区間管理部１７１）を生成する処理である。このモジュールは、図１８に示すように区間情報１７２、音源抽出部１７３、特徴量変換部１７４の３個のモジュールを持つ。ステップＳ５７４～Ｓ５７６においてそれぞれを初期化する。それぞれの初期化の詳細は後述する。
　最後に、ステップＳ５７７でループを閉じる。

　次に、ステップＳ５７４の区間情報の初期化について、図５８に示すフローチャートを参照して説明する。この処理では、区間情報（図２０参照）の各メンバーに初期値を代入する。

　ステップＳ５８１では、内部状態（図２０の（１））に状態Ａを設定する。
　ステップＳ５８２では、区間ＩＤ（図２０の（２））に所定の識別値を設定する。例えば、前回発行された区間ＩＤに、１を加えた値を使用すればよい。
　ステップＳ５８３では、始端フレーム番号（図２０の（３））とハングオーバ付き始端フレーム番号（図２０の（４））の設定をそれぞれ行なう。

　始端フレーム番号には、１ブロックあたりのフレーム数をＢとしたとき、
　現フレーム番号１７５（図１８参照）から、（Ｂ－１）を減算した値を代入する。
　ハングオーバ付き始端フレーム番号には、現フレーム番号からハングオーバ区間長Ｌ５（図１０において、時間ｔ２～ｔ３の区間Ｌ５）を引いた値を代入する。ただし、システム起動直後に区間が発生した場合など、始端フレーム番号から一定値を引くと負の値となってしまう場合は、フレーム番号の最小値（例えば０）をハングオーバ付き始端フレーム番号とする。

　ステップＳ５８４では、終端フレーム番号（図２０の（５））とハングオーバ付き終端フレーム番号（図２０の（６））の設定をそれぞれ行なう。具体的には、両方に現フレーム番号１７５（図１８参照）を代入する。

　この「区間情報の初期化」で生成される区間情報は「登録済み」属性を持たないため、ステップＳ５８５では、登録済みフラグ（図２０の（７））に登録済みでないことを示す値（偽）を代入する。

　ステップＳ５８６では、方向点カウンタ（図２０の（８））の設定を行なう。この時点で既に１個の方向点が作成中に含まれているため、それに対応した値を代入する。具体的には、方向点カウンタがブロック数を表わしている場合は１を代入し、フレーム数を表わしている場合はＢを代入する。

　ステップＳ５８７では、平均方向（図２０の（９））に、方向点が持つ方向を代入する。この時点では、区間は途切れていないため、途切れカウンタ（図２０の（１０））には０を代入する。

　「区間情報の初期化」によって生成される区間情報は「登録済み」属性を持たないため、終端の登録処理の対象外である。そこで、ステップＳ５８９において、終了予定フレーム番号（図２０の（１１））には、未定義値を代入しておく。

　最後に、ステップＳ５９０において、「接続可能な方向点のリスト」（図２０の（１２））に空リストを代入する。これは、生成直後の作成中区間にはまだ方向点が接続していないことを表わす。

　次に、図５７に示すフローのステップＳ５７５において実行する音源抽出部の初期化の初期化について、図５９に示すフローチャートを参照して説明する。
　ステップＳ５９１は、フィルタ適用始端フレーム番号（図２１に示す音源抽出部１７３の管理データ（３））の初期化であり、ハングオーバ付き始端フレーム番号（図２０の（４））と同じ値を代入する。

　ステップＳ５９２は、フィルタ適用終端フレーム番号（図２１の（４））の初期化であり、現フレーム番号１７５（図１８参照）と同じ値を代入する。

　次に、図５７に示すフローのステップＳ５７６において実行する特徴量変換部の初期化について、図６０に示すフローチャートを参照して説明する。

　ステップＳ６０１において、図２２に示す特徴量変換部１７４内のＭＦＣＣ生成部２０１、すなわち、音声認識に適用する特徴量であるメル周波数ケプストラム係数（ＭＦＣＣ）を生成するＭＦＣＣ生成部２０１の初期化を行なう。これは、メモリの確保等の処理の他に、デルタ特徴量の生成のためにこのモジュール内に過去のＭＦＣＣが保存されている場合に、それを破棄することも意味する。

　次に、ステップＳ６０２において、特徴量の正規化のためのデータとして図２２に示す特徴量変換部１７４が記録しているメンバーである、ＭＦＣＣ平均値（図２２の（１））とＭＦＣＣ標準偏差（図２２の（２））とをそれぞれクリアする。

　次に、ステップＳ６０３において、初回フラグ（図２２の（３））に初回であることを示す値（真）を代入する。この代入により、その作成中区間において抽出結果生成（図４２～図４４に示す処理）が初めて行なわれたときに特別な処理をすることが可能となる。

　最後に、ステップＳ６０４において、必要に応じて、図２２に示す特徴量変換部１７４の逆ＳＴＦＴ部２０２の初期化を行なう。この処理は、逆ＳＴＦＴ部２０２を備えている場合のみ行なう。

　再び図２９に示すトラッキング処理に戻り、図２９のフローにおけるステップＳ２９５に示す不要区間の削除について説明する。
　ステップＳ２９１～Ｓ２９４の処理により、ある作成中区間は終端が確定し、別のある作成中区間は棄却されている。不要区間の削除とは、それらの区間を削除し、以降のトラッキングの対象から外す処理のことである。
　不要区間の削除の詳細について、図６１に示すフローチャートを参照して説明する。

　ステップＳ６１１～Ｓ６１４は、作成中の区間についてのループ、すなわち、図１８に示すトラッキング部１６５の作成中区間管理部１７１各々についてのループである。

　ステップＳ６１２において、作成中区間の内部状態が終了状態であるか否かを判別する。終了状態とは、図１９において、状態Ｆ（フィルタ推定前に終端が確定）、または、状態Ｋ（フィルタ推定後に終端が確定）、または状態Ｌの３つのいずれかである。
　内部状態がこの３つのどれかの状態である場合は、ステップＳ６１３に進み、その作成中区間を削除する。内部状態が終了状態以外である場合は、ステップＳ６１３をスキップする。最後に、ステップＳ６１４でループを閉じる。

　以上で、トラッキング処理（図２９）の説明を終わるとともに、フロントエンド処理（図２５のフローのステップＳ２５４）の説明も終わる。

　次に、図２５を参照して説明した音声系処理に戻り、図２５の説明において説明をスキップしたステップＳ２５３の区間登録処理について説明する。これは、区間の始端または終端の登録を、外部から与えられた情報によって行なう処理である。音声区間検出方式のうち、見極め時間不要の方式によって始端・終端が検出された場合にこの処理が実行される。

　区間登録処理について、図６２に示すフローチャートを参照して説明する。
　ステップＳ６２１で、始端の通知の有無を判定する。「始端の通知」とは、見極め時間不要の音声区間検方式による始端通知である。具体的には、例えば、図２６のフローにおけるステップＳ２６５において実行する手画像に基づく音声区間検出処理等によって、区間の始端を検出したときに発生するイベントである。この通知が存在する場合は、ステップＳ６２２に進み、通知が存在しない場合は、ステップＳ６２２をスキップする。ステップＳ６２２の始端登録処理については、後述する。

　ステップＳ６２３の「終端の通知」とは、上記と同様、手画像の検出方式など見極め時間が不要の音声区間検方式が終端を検出したときに発生するイベントである。この通知が存在する場合は、ステップＳ６２４に進み、通知が存在しない場合は、ステップＳ６２４をスキップする。ステップＳ６２４の終端登録処理については、後述する。

　次に、ステップＳ６２２の始端登録処理について、図６３に示すフローチャートを参照して説明する。この処理は、先に図５７を参照して説明した「新規区間の作成」において実行する処理と類似する処理であるが、一部のメンバーについては、設定する値が異なる。

　ステップＳ６３１の作成中区間管理部の生成は、図５７のフローのステップＳ５７３と同一の処理である。１個の作成中区間に相当する作成中区間管理部（図１８に示すトラッキング部１６５の作成中区間管理部１７１）を生成する処理である。このモジュールは、図１８に示すように区間情報１７２、音源抽出部１７３、特徴量変換部１７４の３個のモジュールを持つ。

　ステップＳ６３２は、例えば、図１５の音声認識装置１５０内の画像処理部１５５に構成される手画像処理部２２３（図２４）から送信された通知などに付与されているタイムスタンプをフレーム番号に変換する処理であり、必要に応じて観測信号バッファリング部（図１７）内の情報を参照する。ここで求めたフレーム番号をフレーム識別情報である［ｆｒａｍｅ＿ｉｄｘ］とする。

　ステップＳ６３４は、図５８を参照して説明した区間情報初期化処理におけるステップＳ５８１の処理と同一である。内部状態（図２０の（１））に状態Ａを代入する。

　ステップＳ６３５は、図５ゆのフローのステップＳ５８２と同一である。区間ＩＤ（図２０の（２））に所定の識別値を代入する。例えば、前回発行された区間ＩＤに、１を加えた値を使用すればよい。
　なお、発行される区間ＩＤは、ステップＳ５８２、または、ステップＳ６３５が実行されるたびに１ずつ増加させる。

　ステップＳ６３５において、始端フレーム番号の設定を行なう。ここは、図５８のステップＳ５８３の処理とは異なり、始端フレーム番号（図２０の（３））、ハングオーバ付き始端フレーム番号（図２０の（４））共にステップＳ６３２で求めたフレーム番号である［ｆｒａｍｅ＿ｉｄｘ］を代入する。

　ステップＳ６３６は、図５８のステップＳ５８４の処理と同一であり、終端フレーム番号（図２０の（５））とハングオーバ付き終端フレーム番号（図２０の（６））の設定をそれぞれ行なう。具体的には、両方に現フレーム番号１７５（図１８参照）を代入する。

　ステップＳ６３７は、図５８のステップＳ５８５と異なり、登録済みフラグ（図２０の（７））に登録済みであることを示す値（真）を代入する。始端登録処理によって生成された作成中区間が「登録済み」属性を持つことを表現するためである。

　ステップＳ６３８～ステップＳ６４２の処理は、それぞれ、図５８のフローのステップＳ５８６～ステップＳ５９０と同一の処理である。なお、始端登録処理によって生成される作成中区間は、終端登録処理の対象であるが、生成直後であるこの時点では、まだ終端登録処理が呼ばれていないため、ステップＳ６４１では、終了予定フレーム番号（図２０の（１１））には未定義値を代入しておく。

　最後のステップＳ６４３の音源抽出部の初期化、およびステップＳ６４４の特徴量変換部の初期化、これらの処理は、それぞれ、図５７を参照して説明したステップＳ５７５およびステップＳ５７６の処理、すなわち図５９を参照して説明した音源抽出部の初期化と、図６０を参照して説明した特徴量変換部の初期化処理と同一である。

　次に、図６２の区間登録処理におけるステップＳＳ６２４の終端登録処理について、図６４に示すフローチャートを参照して説明する。

　ステップＳ６４５は、図６３に示すフローのステップＳ６３２の処理と同様に、例えば手画像処理部２２３（図２４）から送信された通知に付与されているタイムスタンプをフレーム番号に変換する処理である。ここで求めたフレーム番号を［ｆｒａｍｅ＿ｉｄｘ］とする。

　ステップＳ６４２において、ステップＳ６４１で設定した［ｆｒａｍｅ＿ｉｄｘ］を、図１８に示すトラッキング部１８の保持する現フレーム番号１７５と比較する。
　［ｆｒａｍｅ＿ｉｄｘ］の方が小さい場合は、終端として過去のタイムスタンプが指定されていると見なし＜ステップＳ６４４へ分岐する。そうではなければ、現在または未来のタイムスタンプが指定されていると見なし、ステップＳ６４３へ分岐する。

　ステップＳ６４３に分岐した場合は、終了予定フレーム番号（図２０の（１１））に［ｆｒａｍｅ＿ｉｄｘ］を代入する。そうすることで、トラッキング処理が進んで所定のフレーム番号に達したときに、その区間のトラッキングを終了させる処理が適切に行なわれる。

　一方、ステップＳ６４４に分岐した場合は、終了予定フレーム番号（図２０の（１１１））に現フレーム番号１７５（図１８参照）を代入する。これは、終端として過去のタイムスタンプが指定されていた場合は、「直ちに終了」と読み替えることを意味する。
　以上で、区間登録処理についての説明を終わる。

　　［４－５．音声認識部の処理について］
　再び図２５の音声系処理に戻り、ステップＳ２５５の音声認識処理の詳細について、図６５に示すフローチャートを参照して説明する。この処理は、通常の音声認識とは異なり、重複のある区間に対して複数のデコーダを用いて逐次的かつ並列に行なうことを特徴とする。

　ただし、図６５のフローチャートは、デコードが１個でも動作する。また、並列処理といっても、マルチスレッド等の仕組みを用いる必要はなく、逐次的なデコード処理をデコーダごとに順に実行すればよい。

　ステップＳ６５１～Ｓ６６４は、各デコーダについてのループである。すなわち、図２３に示す音声認識部１５６の内部に用意されたデコーダ２１２－１～ｎの各々が、ステップＳ６５２～６６３の処理を行なう。

　各デコーダは、どの区間の抽出結果（特徴量）をデコードしているのか分かるようにするため、図２３に示すように、区間ＩＤ２１３－１～ｎを保持している。初期状態では、未定義値が代入されており、「どの区間もデコードしていない」ことを表わす。

　ステップＳ６５２では、デコーダが保持している区間ＩＤが未定義値かどうか判定する。未定義値である場合は、ステップＳ６５６へ分岐する。区間ＩＤが未定義値でない場合は、ステップＳ６５３へ分岐する。

　ステップＳ６５３へ分岐した場合、デコーダが保持している区間ＩＤが有効か否か判定する。区間ＩＤが有効であるとは、その区間に対応した特徴量が生成されているか、または将来生成される可能性があることである。具体的には、その区間ＩＤによって特定される区間が、図１８に示すトラッキング部１６５が有する作成中区間管理部１７１の中か、あるいは図１６に示すフロントエンド部１５３の抽出結果バッファリング部１６６の中に存在するか否かに基づいてチェックする。その区間が少なくとも一方に存在する場合は、区間ＩＤが有効であると判定し、ステップ６５４へ分岐する。どちらにも存在しない場合は、区間ＩＤが無効であると判定し、ステップＳ６５５へ分岐する。

　ステップＳ６５５の処理について先に説明する。ここに分岐するのは、図２３に示す音声認識部１５６のデコーダ２１２が保持していた区間ＩＤ２１３が有効ではなくなったことを表わす。具体的には、それまでデコードされていた区間が途中で棄却された場合である。この場合、途中までのデコード結果はもはや無駄であるため、そのデコードをキャンセルする。キャンセル後、ステップＳ６５６に進む。

　次に、ステップＳ６５６の処理について説明する。これは、デコーダに対して新たな区間を対応させる処理である。そのために、図１６に示すフロントエンド部１５３の抽出結果バッファリング部１６６内に存在する全区間についての順位付けを行なう。
　例えば、抽出結果バッファリング部１６６が図１３に示す抽出結果バッファリング部１３５と同一の構成を持つ場合、図１３に示すバッファ１３５ａ～ｃに格納された区間データについて、以下の基準で順位づけを行なう。

　（基準１）「登録済み」属性を持つ区間を優先。「登録済み」属性を持つ区間が複数あるときは、始端が古い方を優先。
　（基準２）「登録済み」属性を持たない区間については、終端が既に確定しているものを優先。「登録済み」属性を持たない区間が複数あるときは、終端が古い方を優先。
　（基準３）終端が未確定の区間については、始端が古い方を優先。
　（基準４）既にデコーダと対応付けられている区間は、順位づけから除外。

　上記基準に従って順位づけられた区間のうちでトップのものを、デコーダに対応させる。すなわち、その区間のＩＤを、図２３に示す音声認識部１５６のデコーダ２１２が保持する区間ＩＤ２１３に代入する。なお、抽出結果バッファリング部１６６内に存在する区間がすべてデコーダと対応済みである場合は、未定義値を代入する。この現象は、作成中区間の数よりもデコーダの数の方が多い場合に発生する。
　ステップＳ６５６において、デコーダと区間との対応付けができたら、ステップＳ６５４に進む。

　ステップＳ６５４では、そのデコーダに対応した区間の特徴量を、抽出結果バッファリング部１６６から取り出す。その結果、抽出結果バッファリング部１６６では、その区間ＩＤに対応した特徴量はいったん消滅する。
　なお、抽出結果バッファリング部１６６に存在しない区間ＩＤについて特徴量を取得しようとした場合や、ステップＳ６５６において区間ＩＤとして未定義値が代入された場合などは、対応する特徴量が存在しないため、特徴量の取得は失敗する。

　次に、ステップＳ６５７において、ステップＳ６５４での特徴量取得が成功したか否かを判定する。成功していたら、ステップＳ６５８へ進み、失敗していたら以降の処理をスキップして、ステップＳ６６４へ進む。

　ステップＳ６５８では、ステップＳ６５４で取得された特徴量に対してデコード処理、すなわち音声認識処理を行なう。その後、ステップＳ６５９において、認識結果が確定したか否かを判定する。認識結果が確定するのは、以下の２つの場合である。
　　（ａ）ステップＳ６５４で得られた特徴量の中に、「区間の確定」を表わす特別なものが含まれていた場合。
　　（ｂ）デコーダが保持している認識仮説が変化しなくなった場合。

　（ａ）については既に説明した（図５６のステップＳ５６２の説明を参照）ので、ここでは（ｂ）について説明する。デコーダ内部では、認識結果の候補を複数保持しており、それを仮説（ｈｙｐｏｔｈｅｓｅｓ）と呼ぶ。なお、複数仮説を用いたデコード処理については、特開２００１－２４２８８３号公報などに記載があるのと同様の処理である。
　特徴量が逐次的に入力されるにつれて仮説が変化していくが、入力される特徴量が所定の量を超えると、もう仮説が変化しなくなることがある。そのような状態になったら、認識結果が確定したと見なす。

　ステップＳ６５９において、認識結果が確定していたら、ステップＳ６６０へ進む。確定していなかったら、以降の処理をスキップして、ステップＳ６６４へ進む。

　次に、ステップＳ６６０の処理について説明する。ステップＳ６５９において、上記（ｂ）の理由で認識結果が確定したと見なした場合、そのデコーダに対応した区間はトラッキング部１６５にはまだ残っているが、その区間についてそれ以上トラッキングするのは無駄である。そこで、認識結果が確定した区間については、終端が未確定であっても、トラッキング部から削除する。なお、上記（ａ）の理由で認識結果が確定したときは、「不要区間の削除」（図２９のフローのステップＳ２９５の処理）によって、その区間は既にトラッキング部から削除されているため、ステップＳ６６０では何も行なわれない。

　ステップＳ６６１では、こうして生成された認識結果に対して、それを棄却するか否かの判定を行なう。この棄却判定を行なう理由は、本開示の装置において処理対象とする区間は、目的音が発話された場合に限らず、妨害音（音声も非音声も含む）が鳴っている場合も含まれるからである。その区間が目的音か妨害音かを判別するため、デコード時に得られたスコアや信頼度などを用いる。妨害音と判定されたら、今回の認識結果は棄却する。すなわち、以降の処理をスキップしてステップＳ６６４に進む。目的音と判定されたら、ステップＳ６６２に進む。

　ステップＳ６６２では、認識結果を図２３に示すように後段処理部１５７に送信する。
　この時点で、このデコーダはどの区間とも対応しなくなったため、ステップＳ６６３では区間ＩＤ（図２３に示す区間ＩＤ２１３）に未定義値を代入する。
　最後に、ステップＳ６６４でデコーダのループを閉じる。
　以上で、音声認識処理の説明を終わるとともに、音声系処理の説明を全て終わる。

　　［４－６．画像処理部の処理について］
　次に、図２６を参照して説明した画像系処理に戻り、ステップＳ２６４の口唇画像処理について、図６６に示すフローチャートを用いて説明する。
　この処理は、口唇画像の動きを用いた発話区間検出であり、この処理は、例えば、特開平１０－５１８８９号公報に記載された処理が適用できる。以下では、概略のみ説明する。
　この処理を実行するのは、図２４に示す画像処理部１５５の口唇画像処理部２２１である。

　まず、ステップＳ６６５において、画像入力部１５４から入力する入力画像中から口唇の形状を持った領域を検出する。
　次にステップＳ６６６において、前回の画像フレームから検出された更新領域と、今回の画像フレームから検出された口唇領域とを比較し、動きがあるか否かを判定する。動きがあると判定された場合は、ステップＳ６６７に進む。動きがないと判定された場合や、ステップＳ６６５において口唇領域が検出されなかった場合は、口唇画像処理を終了する。

　ステップＳ６６７において、口唇領域の座標を音源方向に変換する。ステップＳ６６８において、その音源方向からなる方向点を生成し、フロントエンド部１５３へ送信する。

　次に、図２６のフローにおけるステップＳ２６５の手画像処理について、図６７に示すフローチャートを用いて説明する。この処理は、図２４に示す画像処理部１５５の手画像処理部２２３の実行する処理である。これは、手の形状が特定の変化をした場合に、それが発話の開始または終了であると判定する処理である。なお、手形状の検出自体については、例えば、特開２０１２－２０３４３９号公報に記載の処理を適用できる。

　ステップＳ６７１において、画像入力部１５４から入力する入力画像中から、予め音声区間の開始や終了を示す情報として規定した特定の形状を持つ手の領域を検出する。特定の形状とは、例えばグー・チョキ・パーなどである。

　次に、ステップＳ６７２において、前回の画像フレームから検出した手領域と、今回の画像フレームから検出した手領域と比較し、それが発話開始相当または発話終了相当の動きであるか判定する。例えば、パーからグーへの変化を前者とし、逆にグーからパーへの変化を後者とするなどの設定を予め規定し、それらをユーザに教示しておく。

　画像から検出された手領域の形状変化が、発話開始相当の動きである場合は、ステップＳ６７３に分岐し、発話終了相当の動きである場合は、ステップＳ６７５に分岐する。どちらの動きでもない場合や、ステップＳ６７１において手が検出されなかった場合などは、手画像処理を終了する。

　ステップＳ６７３に進んだ場合は、音源方向の計算を行なう。例えば、手領域の座標を口唇付近の座標に変換するために所定のオフセットを加え（右手と左手とで別のオフセットを用意する）、その値を、先に図６６のフローで説明したステップＳ６６７の処理と同様に音源方向に変換する。あるいは、手検出と同時に顔検出も行ない、手の座標と最も近い顔の座標を求め、その値を音源方向に変換する。
　ステップＳ６７４では、このようにして得られた音源方向と、画像に付与されていたタイムスタンプとを用いて、「発話の始端が検出された」ことをフロントエンド部１５３に通知する。
　フロントエンド部１５３では、その通知を受けて、始端登録処理（図６２のフローに示すステップＳ６２２の処理）を行なう。

　一方、ステップＳ６７５に進んだ場合も、ステップＳ６７３と同様に音源方向の計算を行なう。ステップＳ６７６では、取得した音源方向と、画像に付与されていたタイムスタンプとを用いて、「発話の終端が検出された」ことをフロントエンド部１５３に通知する。
　フロントエンド部１５３では、その通知を受けて、終端登録処理（図６２のフローのステップＳ６２４の処理）を行なう。
　以上で、画像系処理の説明を終わると共に、すべての処理の説明を終わる。

　　［５．変形例について］
　次に、帆編開示の音声認識装置の変形例について説明する。
　以下の２つの変形例について、順次説明する。
　　変形例１：音声認識の代わりに意味推定を使用した構成例
　　変形例２：音声検出方法として、ハンドポインタを使用した構成例

　　［５－１．変形例１：音声認識の代わりに意味推定を使用した構成例について］
　まず、音声認識の代わりに意味推定を使用した構成例について説明する。
　意味推定とは、発話音声に対応した単語（または単語列）を求める代わりに、発話の意味や意図のようなものを推定する処理である。意味推定処理についての詳細は、例えば、特開２００６－５３２０３号公報や、特開２０１１－３３６８０号公報に開示されている。以下、意味推定について簡単に説明する。

　辞書と言語モデルとデコーダとからなるセットをタスクと呼ぶ。意味推定器はそのようなタスクを複数用意し、１回の発話に対してそれぞれのタスクを用いてスコアを計算する。そして最も高いスコアを出したタスクをその発話の意味（意図）とする。

　例えば、テレビを音声で操作するという使い方において、以下のようなタスクを用意する。
　　タスク１：音量の増加に関する発話を認識するタスク
　（例）「ボリューム上げて」「音をもっと大きく」「音量を大きく」など
　　タスク２：電源オフに関する発話を認識するタスク
　（例）「電源オフ」「スイッチ消して」「テレビを消して」など

　ユーザの発話が例えば「ボリュームを大きく」である場合、タスク１　の方が高いスコアを出す可能性が高い。そこで、その発話は「音量の増加」という意味を表わしていると見なす。同様に、「スイッチオフ」という発話に対してタスク２の方が高いスコアを出したら、その発話は「電源オフ」という意味を表わしていると見なす。

　さらに別のタスクとして、音韻タイプライター（ｐｈｏｎｅｍｉｃ　ｔｙｐｅｗｒｉｔｅｒ）等の、カバー範囲が非常に広いタスクも用意し、それをタスク３とする。ユーザの発話が上記のタスク１・タスク２のどちらとも異なる場合は、タスク３が最も高いスコアを出す可能性が高い。その場合、その発話は「無関係な発話」であると見なす。同様に、音声ではない音についても、タスク３が最高のスコアを出す可能性が高い。そのため、意味推定器を用いることで、ユーザと無関係な音を棄却することもできる。

　図１５に示す本開示の音声認識装置１５０の音声認識部１５６を、このような意味推定を実行する構成とすることが可能である。ただし、このためには新たな構成が必要となる。図１５に示す本開示の音声認識装置１５０の音声認識部１５６を、意味推定を実行する構成とした場合の構成例について、図６８を参照して説明する。

　図６８に示す音声認識部１５６は、意味推定処理を行なう音声認識部であり、先に説明した図２３の音声認識部１５６の構成に置き換えて利用可能な構成である。
　図６８に示すように、辞書６８４、言語モデル６８５、デコーダ６８６をセットにしたものをタスク６８３と呼ぶ。そして、複数の異なるタスク６８３－１～Ｎをセットにしたものをタスクセット６８２と呼ぶ。

　特開２００６－５３２０３号公報や、特開２０１１－３３６８０号公報に記載の構成ではタスクセットを１つのみ使用するの対し、本開示の構成は、タスクセットを複数使用する構成としている。図に示す例では、ｎ個のタスクセット６８２－１～ｎを有している。

　これは、先に説明した図２３においてデコーダを複数使用する構成、すなわち図２３に示すデコーダ２１２－１～ｎを有する構成に対応するものである。
　図６８に示すように、タスクセット６８２－１－ｎ各々ごとに、どの区間をデコード中なのかを表わすために区間ＩＤ６８７を保持する。そして、作成中区間から逐次的に生成される抽出結果（特徴量）を各タスクセットに供給するため、タスクセットマネジメント部６８１を用意する。これは図２３に示す構成におけるデコーダマネジメント部２１１に対応する。タスクセットマネジメント部６８１には、フロントエンド部１５３が接続される。

　タスクセットマネジメント部６８１は、図２５に示すデコードマネジメント部２１１と同様、以下の各情報が入力される。
　抽出結果バッファリング部１６６から出力される特徴量（トラッキング部１６５の生成した音源抽出結果）、
　ランキング部１６７から出力される区間の順位付け結果である優先度情報、
　トラッキング部１６５から出力される消滅区間（または棄却された区間）等の区間更新情報、
　これらの各情報を入力する。

　タスクセットマネジメント部６８１は、ランキング部１６５から入力する音声区間の優先度情報に基づき、優先度の高い区間から順に、その区間の特徴量要求としての出力依頼を抽出結果バッファリング部１６６に出す。この依頼に対応した区間の特徴量を受け取り、各タスクセット６８２－１～ｎに送る。また、現在デコード中の区間が無効になっていないか（消滅したり棄却されたりしていないか）、トラッキング部１６５に問い合わせ、無効になっていた場合は、対応するデコードをキャンセルする。

　各タスクセット６８２－１～ｎの出力は意味推定結果６８８であり、この意味推定結果６８８が後段処理部１５７に送られる。なお、各タスクセット６８２内の各デコーダ６８６は認識結果として単語列も生成できるため、必要に応じて単語列を後段処理に送ってもよい。なお、音響モデル６８９については、音声認識部１５６内で１個だけ保持する。

　また、辞書６８４と言語モデル６８５については、複数のタスクセットの間で必要に応じて共有してもよい。例えば、タスクセットａに含まれるタスク１と、タスクセットｂに含まれるタスク１が、同一の辞書と言語モデルを使用するような場合、両方のタスク１の間で、同一の辞書と言語モデルを共有した構成とすることができる。このようにタスク間の共有を利用することで、タスクセットを複数用意してもメモリ使用量の増加を最小限にとどめることができる。

　図６８に示すような意味推定処理を行なう音声認識部を利用する場合、音声認識処理のシーケンスも、先の実施例で説明したシーケンス（図６５）も一部が変更される。
　変更箇所について説明する。
　変更点１．ステップＳ６５１～Ｓ６６４の「デコーダループ」が、「タスクセットのループ」に変更される。
　変更点２．ステップＳ６５９，ステップＳ６６２の「認識結果」が「意味推定結果」に変更される。
　これらの点が変更され、その他のシーケンスは、図６５に示すシーケンスに従って処理が実行される。

　なお、この意味推定を実行する音声認識部を利用した変形例１の利点は、騒がしい環境でも意味推定器が使用できるようになることと、カバー範囲の広いタスクを用意することで、無関係な発話や妨害音の棄却が容易になることである。
　以上で、変形例１の説明を終わる。

　　［５－２．変形例２：音声検出方法として、ハンドポインタを使用した構成例について］
　次に、変形例２として、音声検出方法として、ハンドポインタを使用した構成例について説明する。
　ここでいうハンドポインタとは、ユーザの手の動きをカメラで捉えることでポインタを動かす技術のことであり、マウスポインタの代わりとなるものである。本開示においては、音声区間検出方法として、そのハンドポインタが画面上の特定の領域を指しているか否かを判定する方法が使用可能である。

　ハンドポインタを音声区間検出に利用した音声認識沿送致を備えた情報処理装置の一例として、テレビ装置の構成例を図６９に示す。
　テレビ装置は、ディスプレイ６９１を有する。ディスプレイ６９１にはハンドポインタ６９３と音声入力エリア６９４および各種情報が表示される。ディスプレイ装置の上にはカメラとマイクロホンアレイとが一体化されたデバイス（カメラ＆マイクロホンアレイ６９２）が備えられている。これを用いて、ディスプレイの前にいるユーザの画像および音声を取得する。

　ハンドポインタ６９３は、ユーザの手の動きをカメラ＆マイクロホンアレイ６９２のカメラで取得し、ユーザの手の動きに併せて位置が移動する。すなわち、ＰＣにおけるマウスの代わりに手を利用可能としたマウスポインタのようなものである。ユーザが音声を確実に入力したいときは、ハンドポインタを音声入力エリア６９４の内側に移動させてから発話を開始し、発話を終了させてからハンドポインタを音声入力エリア６９４の外側へ移動させる。

　次に、ハンドポインタ６９３と音声入力エリア６９４とを用いて音声区間検出を行なうための処理について、図７０に示すフローチャートを参照して説明する。なお、ハンドポインタは、例えば前述した実施例における手画像に基づく音声区間検出の代わりに利用可能である。

　ステップＳ７０１において、カメラの撮影画像から手の領域を検出する。手の領域が検出されたら、ステップＳ７０２において、その座標を画面上のハンドポインタ６９３の座標に変換し、その位置にハンドポインタ６９３を表示する。

　次に、ステップＳ７０３において、ハンドポインタ６９３の位置が画面上の音声入力エリア６９４の内側か否かを判定する。内側であればステップＳ７０４へ分岐し、外側であればステップＳ７０７へ分岐する。

　ステップＳ７０４は、ハンドポインタ６９３音声入力がエリア６９４内に入ったのが、今回が初めてか否かの判定である。前回のハンドポインタ６９３の位置も音声入力エリア６９４内であったら、今回が初めてではないので処理を終了する。前回が音声入力エリア６９４外であるなら、今回が初めてなので、ステップＳ７０５に進む。

　ステップＳ７０５に進んだ場合は、音源方向の算出を行なう。例えば、先に図６７のフローを参照して説明したステップＳ６７３の処理と同様に、手検出と同時に顔検出も行ない、手の座標と最も近い顔の座標を求め、その値を音源方向に変換する。
　ステップＳ７０６では、このようにして得られた音源方向と、画像に付与されていたタイムスタンプとを用いて、「発話の始端が検出された」ことをフロントエンド部１５３に通知する。

　フロントエンド部１５３では、この通知を受けて、始端登録処理（図６２に示すフローのステップＳ６２２）を行なう。

　一方、ステップＳ７０７に進んだ場合も、ステップＳ７０４の処理と同様に初回か否かの判定を行なう。前回のハンドポインタ６９３の位置が音声入力エリア６９４内であれば、今回初めて音声入力エリア６７９４の外に出たので、ステップＳ７０８に進む。前回も音声入力エリア６９４外であった場合は、初回ではないので、手画像処理を終了する。

　ステップＳ７０８に進んだ場合は、ステップＳ７０５と同様に音源方向を算出する。
　ステップＳ７０９では、そうして得られた音源方向と、画像に付与されていたタイムスタンプとを用いて、「発話の終端が検出された」ことをフロントエンド部１５３に通知する。
　フロントエンド部１５３では、その通知を受けて、終端登録処理（図６２に示すフローのステップＳ６２４）を行なう。

　なお、この変形例では、図７０のフローに従った処理、すなわち、ハンドポインタと音声入力エリアを用いる音声区間検出方式を、図６７のフローに従った処理、すなわち、手形状の変化を用いた音声区間検出方式の代わりに用いることを想定しているが、両方式を併用してもよい。その場合、図２４の画像処理部１５５の手画像処理部２２３が、図６７の処理と図７０の処理を併せて実行する。
　以上で、変形例２の説明を終わる。

　　［６．本開示の音声認識装置の構成と処理の特徴と効果についてのまとめ］
　以下、本開示の音声認識装置の構成と処理の特徴と効果についてまとめる。

　１．本開示の音声認識装置の特徴の１つは、音声区間検出と音源抽出とが一体化されていることである。すなわち、発話の始端が検出されてから一定時間が経過した時点で音源抽出用のフィルタを推定し、そこから発話終端まではそのフィルタを適用することで抽出結果を逐次的に生成する。
　その結果、発話終了前から音声認識処理を動かすことができるようになるため、発話の終了から認識結果の生成までの遅延を短くすることができる。
　言い換えると、発話の区間に対応した観測信号からフィルタを推定する方式の音源抽出の特徴である高い抽出精度を保ったまま、その欠点であった遅延の問題を解決する。

　２．本開示の音声認識装置の特徴の１つとして、複数の音声区間検出方式を利用して共通のトラッキングを行なう構成であることが挙げられる。この構成により多重検出の問題を解決する。その一方で、始端・終端に対して見極め時間が不要な方式については、その方式専用の始端および終端の登録処理を行なうことで、終端の見極め時間が増大するのを防ぐ。
　言い換えると、複数の音声区間検出方式を併用することで検出精度を向上させる一方で、発話の終了から認識結果の生成までの遅延の一部である終端見極め時間の増大を防ぐ。

　３．本開示の音声認識装置の特徴の１つとして、複数の音声認識デコーダを有し、そのデコーダと発話区間との対応付けを所定の優先度に基づいて行なうことが挙げられる。この構成により、区間同士に時間的な重複がある場合でも、デコーダに空きが発生するまでの待ち時間を最短にし、結果として、発話の終了から認識結果の生成までの遅延を短縮することができる。

　　［７．本開示の構成のまとめ］
　以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

　なお、本明細書において開示した技術は、以下のような構成をとることができる。
　（１）　音源方向と音声区間を検出し、音源抽出処理を実行するトラッキング部と、
　前記トラッキング部から音源抽出結果を入力して音声認識処理を実行する音声認識部を有し、
　前記トラッキング部は、音源単位の音声区間の生成管理を行なう作成中区間管理部を生成し、
　生成された作成中区間管理部各々は、
　音源方向の逐次的検出を行い、検出結果を時間方向に接続することで推定される音声区間を順次更新する音声区間作成処理を実行するとともに、
　音声区間始端から所定時間経過後に音源抽出用の抽出フィルタを生成し、生成した抽出フィルタを逐次的に入力音声信号に適用して音声区間の部分的な音源抽出結果を逐次的に生成する構成であり、
　前記トラッキング部は、
　前記作成中区間管理部の生成した部分的な音源抽出結果を順次、音声認識部に出力する処理を実行し、
　前記音声認識部は、
　前記トラッキング部から入力する部分的な音源抽出結果に対する音声認識処理を逐次的に実行して、音声認識結果を出力する音声認識装置。

　（２）前記トラッキング部は、前記作成中区間管理部の各々において、複数の異なる方式に従って検出される複数の音源方向情報を、まとめて時間方向に連結する音声区間作成処理を実行する前記（１）に記載の音声認識装置。

　（３）前記トラッキング部は、画像入力部からの入力画像から検出されたユーザの合図が音声区間の始端または終端を意味することを検出した場合、始端または終端の確定処理を即時に実行する前記（１）または（２）に記載の音声認識装置。

　（４）前記トラッキング部の作成中区間管理部は、観測信号から特定音源の音声を優先的に抽出する抽出フィルタの生成において、音声区間の始端より前の時点からフィルタ生成時点までの入力観測信号を利用して抽出フィルタを生成する前記（１）～（３）いずれかに記載の音声認識装置。

　（５）前記トラッキング部の作成中区間管理部は、観測信号から特定音源の音声を優先的に抽出する抽出フィルタを適用するとともに、前記抽出フィルタの推定で使用される観測信号に含まれる全ての音源の音を減衰させる全死角空間フィルタを推定し、その全死角空間フィルタを適用した結果を前記抽出フィルタの適用結果から減算することで、観測信号に含まれない妨害音の除去を実行して音源抽出結果を生成する前記（１）～（４）いずれかに記載の音声認識装置。

　（６）前記トラッキング部の作成中区間管理部は、作成中区間に対応した観測信号において目的音に対する目的音以外の音の混合度合いが高いほど観測信号の透過度を低減させるマスクを周波数ごとおよび時間ごとに変更し、そのマスクを逐次的に観測信号に適用する時間周波数マスキング処理を実行して目的音の音源抽出を実行する前記（１）～（５）いずれかに記載の音声認識装置。

　（７）前記音声認識装置は、さらに、前記トラッキング部の生成した音源抽出結果を一時的に格納する抽出結果バッファリング部と、前記抽出結果バッファリング部に格納された各音源に対応する複数の音源抽出結果を音声認識部へ出力する優先度を決定するランキング部を有し、前記ランキング部は、ユーザの明示的合図に基づいて音声区間の始端または終端が決定された音声区間に対応する音源抽出結果の優先度を高く設定する処理を行なう前記（１）～（６）いずれかに記載の音声認識装置。

　（８）前記トラッキング部は、画像解析に基づいて得られた発話者の明示的合図に基づいて設定した音声区間を識別するために「登録済み属性」という属性を設定し、前記ランキング部は、前記登録済み属性の設定された音声区間の優先度を高く設定する処理を実行する前記（７）に記載の音声認識装置。

　（９）前記ランキング部は、前記音声認識部への出力優先度を以下の基準、すなわち、
　（基準１）登録済み属性を持つ音声区間を優先し、登録済み属性を持つ音声区間が複数あるときは、始端が古い方を優先する。
　（基準２）登録済み属性を持たない音声区間同士については、終端が既に確定している音声区間を優先し、終端が既に確定している区間が複数あるときは、終端が古い方を優先する。
　（基準３）終端が未確定の音声区間同士については、始端が古い方を優先する。
　上記各基準を適用して優先度を決定する前記（８）に記載の音声認識装置。

　（１０）前記音声認識部は、音声認識処理を実行する複数のデコーダを有し、デコーダの空き状況に応じて前記トラッキング部の生成した音源抽出結果の出力要求を行い、前記優先度に応じて音源抽出結果を入力し、優先度の高い音源抽出結果に対する音声認識を優先して実行する前記（７）に記載の音声認識装置。

　（１１）前記トラッキング部は、前記作成中区間管理部の各々において、前記音声認識部における音声認識で使用される形式に適合した特徴量を生成し、生成した特徴量を前記音声認識部に出力する前記（１）～（１０）いずれかに記載の音声認識装置。

　（１２）前記特徴量は、メル周波数ケプストラム係数（Ｍｅｌ－Ｆｒｅｑｕｅｎｃｙ　Ｃｅｐｓｔｒａｌ　Ｃｏｅｆｆｉｃｉｅｎｔｓ）である前記（１１）に記載の音声認識装置。

　（１３）前記音声認識装置は、さらに、マイクロホンアレイを有する音入力部と、
　カメラを有する画像入力部と、前記音入力部からの入力音に基づいて音源方向を推定する音源方向推定部と、前記画像入力部からの入力画像の解析に基づいて音源方向の解析を行なう画像処理部を有し、前記トラッキング部は、前記音源方向推定部の生成した音源方向情報と、画像処理部の生成した音源方向情報を適用して、１つの統合した音声区間情報を生成する前記（１）～（１２）いずれかに記載の音声認識装置。

　（１４）前記画像処理部は、前記画像入力部からの入力画像の解析に基づいて、発話者の口唇領域の動きを検出する口唇画像処理部と、発話者の手領域の動きを検出する手画像処理部を有する前記（１３）に記載の音声認識装置。

　（１５）前記トラッキング部は、前記画像処理部から入力する発話者の明示的合図に基づいて設定した音声区間を識別するために「登録済み属性」という属性を設定し、前記登録済み属性の設定された音声区間と、登録済み属性のない音声区間とのマージ処理を行なう場合、登録済み属性の設定された音声区間に他の音声区間を統合するマージ処理を行なう前記（１３）に記載の音声認識装置。

　（１６）前記トラッキング部は、前記登録済み属性の設定された音声区間については、音源方向情報が入力されない場合、方向情報を自動生成して音声区間の延長処理を実行する前記（１５）に記載の音声認識装置。

　（１７）前記音声認識部は、認識対象語彙から構成される辞書と言語モデルのペアである認識タスクを複数有し、複数の異なるタスクの中からユーザ発話に最も適合するタスクを探索する処理である意味推定処理を実行する構成である前記（１）～（１６）いずれかに記載の音声認識装置。

　（１８）前記音声認識装置は、さらに、発話者を撮影した画像の解析によって得られる発話者の手の動きに同期させて表示部上のポインタを動かし、該ポインタの動きに応じて、発話区間の始端または終端を判定する構成を有する前記（１）～（１７）いずれかに記載の音声認識装置。

　音声認識装置において実行する音声認識方法であり、
　前記音声認識装置は、
　音源方向と音声区間を検出し、音源抽出処理を実行するトラッキング部と、
　前記トラッキング部から音源抽出結果を入力して音声認識処理を実行する音声認識部を有し、
　前記トラッキング部が、
　音源単位の音声区間の生成管理を行なう作成中区間管理部を生成し、
　生成された作成中区間管理部各々は、
　音源方向の逐次的検出を行い、検出結果を時間方向に接続することで音声区間を順次更新する音声区間作成処理を実行するとともに、
　音声区間始端から所定時間経過後に音源抽出用の抽出フィルタを生成し、生成した抽出フィルタを逐次的に入力音声信号に適用して音声区間の部分的な音源抽出結果を逐次的に生成し、
　前記トラッキング部が、
　前記作成中区間管理部の生成した部分的な音源抽出結果を音声認識部に順次出力する処理を実行し、
　前記音声認識部が、
　前記トラッキング部から入力する部分的な音源抽出結果に対する音声認識処理を逐次的に実行して、音声認識結果を出力する音声認識方法。

　音声認識装置において音声認識処理を実行させるプログラムであり、
　前記音声認識装置は、
　音源方向と音声区間を検出し、音源抽出処理を実行するトラッキング部と、
　前記トラッキング部から音源抽出結果を入力して音声認識処理を実行する音声認識部を有し、
　前記プログラムは、
　前記トラッキング部に、音源単位の音声区間の生成管理を行なう作成中区間管理部を生成させ、
　生成された作成中区間管理部各々に、
　音源方向の逐次的検出を行い、検出結果を時間方向に接続することで音声区間を順次更新する音声区間作成処理を実行させるとともに、
　音声区間始端から所定時間経過後に音源抽出用の抽出フィルタを生成し、生成した抽出フィルタを逐次的に入力音声信号に適用して音声区間の部分的な音源抽出結果を逐次的に生成させ、
　前記トラッキング部に、
　前記作成中区間管理部の生成した部分的な音源抽出結果を音声認識部に順次出力する処理を実行させ、
　前記音声認識部に、
　前記トラッキング部から入力する部分的な音源抽出結果に対する音声認識処理を逐次的に実行して、音声認識結果を出力させるプログラム。

　また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

　なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　以上、説明したように、本開示の一実施例の構成によれば、複数の音が混在した音信号から、迅速に目的音を抽出する装置、方法が実現される。
　具体的には、音源方向と音声区間を検出し、音源抽出処理を実行するトラッキング部と、音源抽出結果を入力して音声認識処理を実行する音声認識部を有する。トラッキング部は、音源単位の音声区間の生成管理を行なう作成中区間管理部各々が音源方向の逐次的検出を行い、検出結果を時間方向に接続した音声区間を順次更新するとともに、音声区間始端から所定時間経過後に音源抽出用のフィルタを生成し、生成フィルタを逐次的に入力信号に適用して音源抽出結果を逐次的に生成する。音声認識部は、部分的な音源抽出結果に対する音声認識処理を逐次的に実行して、音声認識結果を出力する。
　上記構成により、音声区間の終了が検出されるのを待つことなく、迅速に音声認識結果を生成して出力することが可能となる。

　　３１　マイクロホンアレイ
　　３２　カメラ
　　３３　音声区間検出部
　　３４　音源抽出部
　　３５　音声認識部
　１３５　抽出結果バッファリング部
　１３５ａ～ｃ　バッファ
　１３７　音声認識部
　１３９　デコーダ
　１５０　音声認識装置
　１５１　音入力部
　１５２　ＡＤ変換部
　１５３　フロントエンド部
　１５４　画像入力部
　１５５　画像処理部
　１５６　音声認識部
　１５７　後段処理部
　１５８　タイムスタンプ生成部
　１５９　制御部
　１６１　ＳＴＦＴ部
　１６２　音声・非音声判別部
　１６３　音源方向推定部
　１６４　観測信号バッファリング部
　１６５　トラッキング部
　１６６　抽出結果バッファリング部
　１６７　ランキング部
　１７１　作成中区間管理部
　２１１　デコーダマネジメント部
　２１２－１～ｎ　デコーダ
　２１３　区間ＩＤ
　２１６　音響モデル
　２１７　辞書
　２１８　言語モデル
　２１９　認識結果
　２２１　口唇画像処理部
　２２２　顔画像処理部
　２２３　手画像処理部
　６８１　タスクセットマネジメント部
　６８２－１～ｎ　タスクセット
　６８３－１～Ｎ　タスク
　６８４　辞書
　６８５　言語モデル
　６８６　デコーダ
　６８８　意味推定結果
　６９１　ディスプレイ
　６９２　カメラ＆マイクロホンアレイ
　６９３　ハンドポインタ
　６９４　音声入力エリア

Claims

　音源方向と音声区間を検出し、音源抽出処理を実行するトラッキング部と、
　前記トラッキング部から音源抽出結果を入力して音声認識処理を実行する音声認識部を有し、
　前記トラッキング部は、音源単位の音声区間の生成管理を行なう作成中区間管理部を生成し、
　生成された作成中区間管理部各々は、
　音源方向の逐次的検出を行い、検出結果を時間方向に接続することで推定される音声区間を順次更新する音声区間作成処理を実行するとともに、
　音声区間始端から所定時間経過後に音源抽出用の抽出フィルタを生成し、生成した抽出フィルタを逐次的に入力音声信号に適用して音声区間の部分的な音源抽出結果を逐次的に生成する構成であり、
　前記トラッキング部は、
　前記作成中区間管理部の生成した部分的な音源抽出結果を音声認識部に順次出力する処理を実行し、
　前記音声認識部は、
　前記トラッキング部から入力する部分的な音源抽出結果に対する音声認識処理を逐次的に実行して、音声認識結果を出力する音声認識装置。
　前記トラッキング部は、前記作成中区間管理部の各々において、
　複数の異なる方式に従って検出される複数の音源方向情報を、まとめて時間方向に連結する音声区間作成処理を実行する請求項１に記載の音声認識装置。
　前記トラッキング部は、
　画像入力部からの入力画像から検出されたユーザの合図が音声区間の始端または終端を意味することを検出した場合、始端または終端の確定処理を即時に実行する請求項１に記載の音声認識装置。
　前記トラッキング部の作成中区間管理部は、
　観測信号から特定音源の音声を優先的に抽出する抽出フィルタの生成において、
　音声区間の始端より前の時点からフィルタ生成時点までの入力観測信号を利用して抽出フィルタを生成する請求項１に記載の音声認識装置。
　前記トラッキング部の作成中区間管理部は、
　観測信号から特定音源の音声を優先的に抽出する抽出フィルタを適用するとともに、前記抽出フィルタの推定で使用される観測信号に含まれる全ての音源の音を減衰させる全死角空間フィルタを推定し、その全死角空間フィルタを適用した結果を前記抽出フィルタの適用結果から減算することで、観測信号に含まれない妨害音の除去を実行して音源抽出結果を生成する請求項１に記載の音声認識装置。
　前記トラッキング部の作成中区間管理部は、
　作成中区間に対応した観測信号において目的音に対する目的音以外の音の混合度合いが高いほど観測信号の透過度を低減させるマスクを周波数ごとおよび時間ごとに変更し、そのマスクを逐次的に観測信号に適用する時間周波数マスキング処理を実行して目的音の音源抽出を実行する請求項１に記載の音声認識装置。
　前記音声認識装置は、さらに、
　前記トラッキング部の生成した音源抽出結果を一時的に格納する抽出結果バッファリング部と、
　前記抽出結果バッファリング部に格納された各音源に対応する複数の音源抽出結果を音声認識部へ出力する優先度を決定するランキング部を有し、
　前記ランキング部は、
　ユーザの明示的合図に基づいて音声区間の始端または終端が決定された音声区間に対応する音源抽出結果の優先度を高く設定する処理を行なう請求項１に記載の音声認識装置。
　前記トラッキング部は、
　画像解析に基づいて得られた発話者の明示的合図に基づいて設定した音声区間を識別するために「登録済み属性」という属性を設定し、
　前記ランキング部は、
　前記登録済み属性の設定された音声区間の優先度を高く設定する処理を実行する請求項７に記載の音声認識装置。
　前記ランキング部は、前記音声認識部への出力優先度を以下の基準、すなわち、
　（基準１）登録済み属性を持つ音声区間を優先し、登録済み属性を持つ音声区間が複数あるときは、始端が古い方を優先する。
　（基準２）登録済み属性を持たない音声区間同士については、終端が既に確定している音声区間を優先し、終端が既に確定している区間が複数あるときは、終端が古い方を優先する。
　（基準３）終端が未確定の音声区間同士については、始端が古い方を優先する。
　上記各基準を適用して優先度を決定する請求項８に記載の音声認識装置。
　前記音声認識部は、
　音声認識処理を実行する複数のデコーダを有し、
　デコーダの空き状況に応じて前記トラッキング部の生成した音源抽出結果の出力要求を行い、前記優先度に応じて音源抽出結果を入力し、優先度の高い音源抽出結果に対する音声認識を優先して実行する請求項７に記載の音声認識装置。
　前記トラッキング部は、前記作成中区間管理部の各々において、
　前記音声認識部における音声認識で使用される形式に適合した特徴量を生成し、生成した特徴量を前記音声認識部に出力する請求項１に記載の音声認識装置。
　前記特徴量は、メル周波数ケプストラム係数（Ｍｅｌ－Ｆｒｅｑｕｅｎｃｙ　Ｃｅｐｓｔｒａｌ　Ｃｏｅｆｆｉｃｉｅｎｔｓ）である請求項１１に記載の音声認識装置。
　前記音声認識装置は、さらに、
　マイクロホンアレイを有する音入力部と、
　カメラを有する画像入力部と、
　前記音入力部からの入力音に基づいて、音源方向を推定する音源方向推定部と、
　前記画像入力部からの入力画像の解析に基づいて音源方向の解析を行なう画像処理部を有し、
　前記トラッキング部は、前記音源方向推定部の生成した音源方向情報と、画像処理部の生成した音源方向情報を適用して、１つの統合した音声区間情報を生成する請求項１に記載の音声認識装置。
　前記画像処理部は、
　前記画像入力部からの入力画像の解析に基づいて、発話者の口唇領域の動きを検出する口唇画像処理部と、
　発話者の手領域の動きを検出する手画像処理部を有する請求項１３に記載の音声認識装置。
　前記トラッキング部は、
　前記画像処理部から入力する発話者の明示的合図に基づいて設定した音声区間を識別するために「登録済み属性」という属性を設定し、
　前記登録済み属性の設定された音声区間と、登録済み属性のない音声区間とのマージ処理を行なう場合、登録済み属性の設定された音声区間に他の音声区間を統合するマージ処理を行なう請求項１３に記載の音声認識装置。
　前記トラッキング部は、
　前記登録済み属性の設定された音声区間については、音源方向情報が入力されない場合、方向情報を自動生成して音声区間の延長処理を実行する請求項１５に記載の音声認識装置。
　前記音声認識部は、
　認識対象語彙から構成される辞書と言語モデルのペアである認識タスクを複数有し、複数の異なるタスクの中からユーザ発話に最も適合するタスクを探索する処理である意味推定処理を実行する構成である請求項１に記載の音声認識装置。
　前記音声認識装置は、さらに、
　発話者を撮影した画像の解析によって得られる発話者の手の動きに同期させて表示部上のポインタを動かし、該ポインタの動きに応じて、発話区間の始端または終端を判定する構成を有する請求項１に記載の音声認識装置。
　音声認識装置において実行する音声認識方法であり、
　前記音声認識装置は、
　音源方向と音声区間を検出し、音源抽出処理を実行するトラッキング部と、
　前記トラッキング部から音源抽出結果を入力して音声認識処理を実行する音声認識部を有し、
　前記トラッキング部が、
　音源単位の音声区間の生成管理を行なう作成中区間管理部を生成し、
　生成された作成中区間管理部各々は、
　音源方向の逐次的検出を行い、検出結果を時間方向に接続することで音声区間を順次更新する音声区間作成処理を実行するとともに、
　音声区間始端から所定時間経過後に音源抽出用の抽出フィルタを生成し、生成した抽出フィルタを逐次的に入力音声信号に適用して音声区間の部分的な音源抽出結果を逐次的に生成し、
　前記トラッキング部が、
　前記作成中区間管理部の生成した部分的な音源抽出結果を音声認識部に順次出力する処理を実行し、
　前記音声認識部が、
　前記トラッキング部から入力する部分的な音源抽出結果に対する音声認識処理を逐次的に実行して、音声認識結果を出力する音声認識方法。
　音声認識装置において音声認識処理を実行させるプログラムであり、
　前記音声認識装置は、
　音源方向と音声区間を検出し、音源抽出処理を実行するトラッキング部と、
　前記トラッキング部から音源抽出結果を入力して音声認識処理を実行する音声認識部を有し、
　前記プログラムは、
　前記トラッキング部に、音源単位の音声区間の生成管理を行なう作成中区間管理部を生成させ、
　生成された作成中区間管理部各々に、
　音源方向の逐次的検出を行い、検出結果を時間方向に接続することで音声区間を順次更新する音声区間作成処理を実行させるとともに、
　音声区間始端から所定時間経過後に音源抽出用の抽出フィルタを生成し、生成した抽出フィルタを逐次的に入力音声信号に適用して音声区間の部分的な音源抽出結果を逐次的に生成させ、
　前記トラッキング部に、
　前記作成中区間管理部の生成した部分的な音源抽出結果を音声認識部に順次出力する処理を実行させ、
　前記音声認識部に、
　前記トラッキング部から入力する部分的な音源抽出結果に対する音声認識処理を逐次的に実行して、音声認識結果を出力させるプログラム。