JPWO2016143125A1

JPWO2016143125A1 - 音声区間検出装置および音声区間検出方法

Info

Publication number: JPWO2016143125A1
Application number: JP2017504528A
Authority: JP
Inventors: 利行花沢
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2015-03-12
Filing date: 2015-03-12
Publication date: 2017-06-01
Anticipated expiration: 2035-03-12
Also published as: TW201633291A; WO2016143125A1; JP6444490B2

Abstract

入力信号に含まれる音声と騒音とを識別するためのパターン認識モデルを用いて、第１の特徴量算出部（１）が算出した第１の特徴量に基づいて、入力信号に含まれる音声区間の開始点を示す暫定の始端時刻および終了点を示す暫定の終端時刻を検出する音声区間検出部（４）と、第２の特徴量算出部（２）が算出した第２の特徴量と閾値との比較に基づいて、始端時刻および終端時刻を補正する始終端補正部（５）とを備える。

Description

この発明は、複数の特徴量を用いて入力信号の中から音声区間を検出する技術に関するものである。

入力信号中から音声が存在する区間を抽出する音声区間検出処理は、音声認識の前処理として非常に重要な処理である。一般的に、音声認識処理は、音声区間検出処理によって検出された区間を対象としてパターン認識を行って認識結果を得ることから、音声区間の検出に誤りがあると音声認識処理の認識精度が大きく低下する。音声区間検出の基本的な方法として、入力信号のパワーを算出し、算出したパワーが設定された閾値以上の区間を音声区間として検出する方法がある。当該検出方法は、背景騒音が小さい場合および定常的な音声区間の検出処理において比較的良好に動作する。

一方、プラント設備の保守作業などにおける点検結果の入力、および各種ＦＡ（ＦａｃｔｏｒｙＡｕｔｏｍａｔｉｏｎ）機器などの操作支援として、ユーザがハンズフリーで利用可能な音声認識は非常に有効なユーザインタフェースである。しかし、プラント設備の保守作業環境およびＦＡ機器の動作環境は、タービン音およびハンマーの打音など、非定常な騒音が発生する環境であることが多い。そのため、上述した入力信号から算出したパワーのみを用いて音声区間を検出する方法では、非定常な騒音が音声として誤検出されるため、音声区間の検出精度が低下し、その後の音声認識処理において十分な認識性能が得られないという問題がある。

上述した問題に対し、例えば特許文献１には、音声区間検出に用いる特徴量として、入力信号のパワーに換えて、入力信号のスペクトル特徴を表現するケプストラムを用い、当該ケプストラムをパラメータとしたＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いた音声区間検出方法が開示されている。具体的には、音声と騒音のそれぞれについて幾つかのＨＭＭを学習しておき、音声区間の開始点である始端を検出する際に各ＨＭＭの尤度を計算し、１２フレーム（１２０ｍｓｅｃ）中で計算したＨＭＭの尤度が最も高いフレームが４フレーム以上存在する場合に、当該１２フレームの先頭フレームを音声区間の始端として検出している。

特開２００１−３４３９８３号公報

しかしながら、上述した特許文献１に開示された技術では、入力信号のスペクトル特徴を表現する特徴量を用いて音声区間検出を行うことから、音声とはスペクトル特徴が異なる騒音を音声として誤検出するのを抑制することは可能であるが、無声子音（ｐ,ｔ,ｋ,ｓ,ｓｈ,ｈ,ｆ)などは騒音とスペクトル特徴が類似していることから、当該無声子音などと騒音とを正確に識別して検出することができない場合があるという課題があった。

この発明は、上記のような課題を解決するためになされたもので、非定常な騒音を音声として誤検出するのを抑制し、音声の語頭および語尾の無声子音の検出精度を向上させることを目的とする。

この発明に係る音声区間検出装置は、入力信号からスペクトル特徴を示す第１の特徴量を算出する第１の特徴量算出部と、入力信号から第１の特徴量とは異なる音声の特徴量を示す第２の特徴量を算出する第２の特徴量算出部と、入力信号に含まれる音声と騒音とを識別するための認識モデルを用いて、第１の特徴量算出部が算出した第１の特徴量に基づいて、入力信号に含まれる音声区間の開始点を示す始端時刻および終了点を示す終端時刻を検出する音声区間検出部と、第２の特徴量算出部が算出した第２の特徴量と閾値との比較に基づいて、音声区間検出部が検出した始端時刻および終端時刻を補正する始終端補正部とを備えるものである。

この発明によれば、非定常な騒音を音声区間として誤検出するのを抑制することができ、さらに音声の語頭および語尾の無声子音の検出精度を向上させることができる。

実施の形態１に係る音声区間検出装置の構成を示すブロック図である。実施の形態１に係る音声区間検出装置のハードウェア構成を示す図である。実施の形態１に係る音声区間検出装置の動作を示すフローチャートである。実施の形態１に係る音声区間検出装置の動作を示すフローチャートである。実施の形態１に係る音声区間検出装置の始終端補正部による探索区間を示す図である。実施の形態２に係る音声区間検出装置の構成を示すブロック図である。実施の形態２に係る音声区間検出装置の始終端補正部による探索区間、閾値算出部による閾値算出区間を示す図である。実施の形態２に係る音声区間検出装置の動作を示すフローチャートである。実施の形態２に係る音声区間検出装置の動作を示すフローチャートである。実施の形態３に係る音声区間検出装置の構成を示すブロック図である。実施の形態３に係る音声区間検出装置の動作を示すフローチャートである。実施の形態３に係る音声区間検出装置の動作を示すフローチャートである。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
図１は、実施の形態１に係る音声区間検出装置１０の構成を示すブロック図である。
音声区間検出装置１０は、第１の特徴量算出部１、第２の特徴量算出部２、パターン認識モデル蓄積部３、音声区間検出部４および始終端補正部５で構成されている。

第１の特徴量算出部１は、外部から入力される入力信号の音響分析を行い、スペクトル特徴を表現する特徴量（以下、第１の特徴量と称する）の時系列を算出する。第１の特徴量は、例えばＭＦＣＣ（Mel Frequency Cepstral Coefficient）の１〜１２次元までのデータである。なお、以下では説明の簡潔化のため、ＭＦＣＣの１から１２次元までのデータを単にＭＦＣＣと称する。

第２の特徴量算出部２は、第１の特徴量算出部１が変換した第１の特徴量とは異なる特徴量であり、第１の特徴量では識別が困難な音声の検出に適した特徴量（以下、第２の特徴量と称する）の時系列を算出する。例えば、第１の特徴量では騒音との識別が困難な音声の無声子音などの検出に適した特徴量の時系列を算出する。ここで、無声子音はｐ,ｔ,ｋ,ｓ,ｓｈ,ｈ,ｆなどである。一般的に、無声子音は音声の高域にパワーが集中していることから、例えば高域を強調したパワーを第２の特徴量として算出する。

パターン認識モデル蓄積部３は、入力信号中の音声と騒音を識別するためのパターン認識モデルを蓄積する。この実施の形態１ではモデルとしてＧＭＭ（Gaussian Mixture Model）を用いる場合を例に説明を行う。具体的には、音声をモデル化した１つのＧＭＭ（以下、音声ＧＭＭと称する）と、騒音をモデル化した１つのＧＭＭ（以下、騒音ＧＭＭと称する）とから、パターン認識モデルを構成する。音声ＧＭＭおよび騒音ＧＭＭのパラメータは、例えば最尤度推定法などを用いた学習によって予め求めておく。音声ＧＭＭのパラメータの学習は多様な音声のＭＦＣＣを用いて行われ、騒音ＧＭＭのパラメータの学習は多様な騒音のＭＦＣＣを用いて行われる。

音声区間検出部４は、パターン認識モデル蓄積部３に蓄積されたパターン認識モデルを参照し、第１の特徴量算出部１が算出した第１の特徴量のパターンマッチングを行い、入力信号中の音声区間の開始点を示す暫定の始端時刻（以下、仮始端時刻と称する）および暫定の終了点を示す終端時刻（以下、仮終端時刻と称する）を検出する。始終端補正部５は、音声区間検出部４が検出した仮始端時刻および仮終端時刻を、第２の特徴量に基づいて補正して始端時刻および終端時刻を確定する。始終端補正部５は、得られた始端時刻および終端時刻を、入力信号中の音声区間の時間情報として出力する。

図２は、実施の形態１に係る音声区間検出装置１０のハードウェア構成を示す図である。
音声区間検出装置１０の第１の特徴量算出部１、第２の特徴量算出部２、音声区間検出部４および始終端補正部５は、プロセッサ２０がメモリ３０に記憶されたプログラムを実行することにより、実現される。パターン認識モデル蓄積部３は、メモリ３０を構成する。また、複数のプロセッサ２０および複数のメモリ３０が連携して上述した機能を実行するように構成してもよい。

次に、音声区間検出装置１０の動作について説明する。
図３Ａおよび図３Ｂは、実施の形態１に係る音声区間検出装置１０の動作を示すフローチャートである。
信号が入力されると（ステップＳＴ１）、第１の特徴量算出部１は、入力信号を設定した時間区間（以下、フレームと称する）に分割し、分割したフレームごとに入力信号の変換を行い第１の特徴量を算出する（ステップＳＴ２）。なお、フレームの分割では隣接するフレーム同士で時間区間が重複していてもよい。例えば、フレームの時間区間長を３０ミリ秒とし、フレームを１０ミリ秒ずつずらしながら入力信号を変換して第１の特徴量を算出する。第１の特徴量は上述のようにＭＦＣＣとする。即ち、ステップＳＴ２の処理では、第１の特徴量算出部１が１０ミリ秒の間隔でＭＦＣＣの時系列を算出し、出力する。

第２の特徴量算出部２は、第１の特徴量算出部１と同一のフレーム間隔で入力信号を分割し、分割したフレームごとに入力信号を変換して第２の特徴量を算出する（ステップＳＴ３）。なお、ステップＳＴ３では第２の特徴量として高域を強調したパワーを算出するものとして、以下説明を行う。第２の特徴量算出部２は、入力信号の最初のＫフレーム（例えば、Ｋ＝１０）を音声が存在しない騒音区間とみなし、当該Ｋフレームの区間で音声のパワーの平均を算出し、ノイズレベルとする（ステップＳＴ４）。さらに、第２の特徴量算出部２は、各フレームごとにステップＳＴ３で算出した高域を強調したパワーからステップＳＴ４で算出したノイズレベルを減算し、高域強調差分パワーを算出する（ステップＳＴ５）。ステップＳＴ５の処理では、第２の特徴量算出部２が１０ミリ秒間隔で高域強調差分パワーの時系列を算出し、出力する。

音声区間検出部４は、ステップＳＴ２で算出された第１の特徴量、即ちＭＦＣＣの時系列を入力とし、パターン認識モデル蓄積部３に蓄積されたパターン認識モデルを参照し、各フレームごとに音声ＧＭＭの尤度Ｌｓおよび騒音ＧＭＭの対数尤度Ｌｎを算出する（ステップＳＴ６）。音声区間検出部４は、ステップＳＴ６で算出した音声ＧＭＭの尤度Ｌｓおよび騒音ＧＭＭの対数尤度Ｌｎを用いて、以下の式（１）に基づいて対数尤度差Ｓを算出する（ステップＳＴ７）。
Ｓ＝Ｌｓ−Ｌｎ（１）

音声区間検出部４は、ステップＳＴ７で算出した対数尤度差Ｓが、設定された閾値Ｔｈ＿Ｓ以上となるフレームが、設定されたフレーム数の閾値Ｔｈ＿Ｔ１以上連続する区間を時間軸の順方向に探索する（ステップＳＴ８）。音声区間検出部４は、ステップＳＴ８で探索した区間について、対数尤度差Ｓが時間軸の順方向に最初に閾値Ｔｈ＿Ｓ以上となったフレームの時刻を取得し、音声区間の仮始端時刻Ｔｂ´とする（ステップＳＴ９）。

次に音声区間検出部４は、ステップＳＴ７で算出した対数尤度差Ｓが、設定された閾値Ｔｈ＿Ｓ未満となるフレームが、設定されたフレーム数の閾値Ｔｈ＿Ｔ２以上連続する区間を時間軸の順方向に探索する（ステップＳＴ１０）。音声区間検出部４は、ステップＳＴ１０で探索した区間について、対数尤度差Ｓが時間軸の順方向に最初に閾値Ｔｈ＿Ｓ未満となったフレームの時刻を取得し、音声区間の仮終端時刻Ｔｅ´とする（ステップＳＴ１１）。なお、上述したステップＳＴ８およびステップＳＴ１０の探索処理は、目的とするフレームが探索されるまで継続するものとする。

始終端補正部５は、ステップＳＴ５で算出された高域強調差分パワーの時系列を参照し、ステップＳＴ９で検出した音声区間の仮始端時刻Ｔｂ´の時系列前方に位置するフレームｂ１の時刻Ｔｂ１から、音声の仮始端時刻Ｔｂ´の時系列後方に位置するフレームｂ２の時刻Ｔｂ２までの区間で、高域強調差分パワーが閾値Ｔｈ＿Ｐ１以上となるフレームが、設定されたフレーム数の閾値Ｔｈ＿Ｔ１以上連続する区間を、時間軸の順方向に探索する（ステップＳＴ１２）。始終端補正部５は、ステップＳＴ１２の処理で区間が探索されたか否か判定を行う（ステップＳＴ１３）。区間が探索された場合（ステップＳＴ１３；ＹＥＳ）、始終端補正部５は探索された区間において時間軸の順方向に最初に高域強調差分パワーが閾値Ｔｈ＿Ｐ１以上となったフレームの時刻を取得し、始端時刻Ｔｂとする（ステップＳＴ１４）。一方、区間が探索されなかった場合（ステップＳＴ１３；ＮＯ）、始終端補正部５はステップＳＴ９で検出された仮始端時刻Ｔｂ´を始端時刻Ｔｂとする（ステップＳＴ１５）。

次に始終端補正部５は、ステップＳＴ５で算出された高域強調差分パワーの時系列を参照し、ステップＳＴ１１で検出した音声区間の仮終端時刻Ｔｅ´の時系列後方に位置するフレームｅ２の時刻Ｔｅ２から、音声の仮終端時刻Ｔｅ´の時系列前方に位置するフレームｅ１の時刻Ｔｅ１までの区間で、高域強調差分パワーが閾値Ｔｈ＿Ｐ１以上となるフレームが、設定されたフレーム数の閾値Ｔｈ＿Ｔ１以上連続する区間を、時間軸の逆方向に探索する（ステップＳＴ１６）。始終端補正部５は、ステップＳＴ１６の処理で区間が探索されたか否か判定を行う（ステップＳＴ１７）。区間が探索された場合（ステップＳＴ１７；ＹＥＳ）、始終端補正部５は探索された区間において時間軸の逆方向に最初に高域強調差分パワーが閾値Ｔｈ＿Ｐ１以上となったフレームの時刻を取得し、終端時刻Ｔｅとする（ステップＳＴ１８）。一方、区間が探索されなかった場合（ステップＳＴ１７；ＮＯ）、始終端補正部５はステップＳＴ１１で検出された仮終端時刻Ｔｅ´を終端時刻Ｔｅとする（ステップＳＴ１９）。

始終端補正部５は、ステップＳＴ１４またはステップＳＴ１５で取得した始端時刻Ｔｂと、ステップＳＴ１８またはステップＳＴ１９で取得した終端時刻Ｔｅとを、音声区間の時間情報として出力し（ステップＳＴ２０）、処理を終了する。
なお、上述した閾値Ｔｈ＿Ｓ、閾値Ｔｈ＿Ｐ１、閾値Ｔｈ＿Ｔ１および閾値Ｔｈ＿Ｔ２は、予め設定した０以上の定数である。

図４は、実施の形態１の音声区間検出装置１０の始終端補正部５による探索区間を示す図である。
図４では、横軸が時間を示し、縦軸が音声ＧＭＭと騒音ＧＭＭとの対数尤度差Ｓの強度を示している。図４において、時刻Ｔｂ´はステップＳＴ９で算出された仮始端時刻Ｔｂ´であり、時刻Ｔｅ´はステップＳＴ１１で算出された仮終端時刻Ｔｅ´である。区間Ａは、仮始端時刻Ｔｂ´の時系列前方に位置するフレームｂ１の時刻Ｔｂ１から後方に位置するフレームｂ２の時刻Ｔｂ２までの区間を示しており、始終端補正部５が始端時刻補正のための探索を行う探索区間を示している。矢印Ｂは、始終端補正部５が区間Ａを探索する際の探索方向を示しており、時間軸の順方向に探索することを示している。

さらに、区間Ｃは仮終端時刻Ｔｅ´の時系列後方に位置するフレームｅ２の時刻Ｔｅ２から前方に位置するフレームｅ１の時刻Ｔｅ１までの区間を示しており、始終端補正部５が終端時刻補正のための探索を行う探索区間を示している。矢印Ｄは、始終端補正部５が区間Ｃを探索する際の探索方向を示しており、時間軸の逆方向に探索することを示している。
具体例を示すと、例えば、仮始端時刻Ｔｂ´から２５フレーム前方に時刻Ｔｂ１を設定し、仮始端時刻Ｔｂ´から１０フレーム後方に時刻Ｔｂ２を設定し、仮終端時刻Ｔｅ´から１０フレーム前方に時刻Ｔｅ１を設定し、仮始端時刻Ｔｅ´から３０フレーム後方に時刻Ｔｅ２を設定する。なお、Ｔｂ２を仮始端時刻Ｔｂ´から０フレームに設定し、さらにＴｅ１を仮終端時刻Ｔｅ´から０フレームに設定し、第１の特徴量で検出された音声区間の前方への補正を行わないように構成することも可能である。

以上のように、この実施の形態１によれば、入力信号の第１の特徴量を算出する第１の特徴量算出部１と、第１の特徴量では騒音との識別が困難な音声の検出に適した第２の特徴量を入力信号から算出する第２の特徴量算出部２と、第１の特徴量についてパターン認識手法を用いて音声と騒音とを判別して仮始端時刻および仮終端時刻を算出する音声区間検出部４と、第２の特徴量を用いて仮始端時刻および仮終端時刻を補正し、音声区間の時間情報を取得する始終端補正部５とを備えるように構成したので、音声区間検出部４の処理によって、スペクトル特徴量が異なる非定常騒音が音声区間として検出されるのを抑制し、さらに始終端補正部５の処理によって、スペクトル特徴量では騒音との識別が困難な音声の検出漏れを抑制し、音声区間の検出精度を向上させることができる。

また、この実施の形態１によれば、第２の特徴量算出部２がスペクトル特徴量からでは騒音の識別が困難な無声子音の検出に適した高域強調差分パワーを第２の特徴量として算出し、始終端補正部５が当該高域強調差分パワーの時系列を用いて仮始端時刻および仮終端時刻を補正し、音声区間の時間情報を取得するように構成したので、無声子音の検出漏れを抑制し、音声区間の検出精度を向上させることができる。

なお、上述した実施の形態１では、パターン認識モデル蓄積部３に蓄積したパターン認識モデルを構成する音声ＧＭＭおよび騒音ＧＭＭのパラメータ学習には、最尤度推定法を用いる場合を例に示したが、音声と騒音とを積極的に識別するパラメータ学習、例えば相互情報最大化推定法を適用してもよい。

また、上述した実施の形態１では、パターン認識モデル蓄積部３に蓄積したパターン認識モデルを構成するＧＭＭとして音声ＧＭＭおよび騒音ＧＭＭをそれぞれ１つずつ用いる構成を示したが、それぞれ複数個のＧＭＭを用いてもよい。その場合、音声ＧＭＭの対数尤度は、複数個の音声ＧＭＭの対数尤度の最大値または加重平均した値とすれば良い。同様に、騒音ＧＭＭの対数尤度は、複数個の騒音ＧＭＭの対数尤度の最大値または加重平均した値とする。

また、上述した実施の形態１では、パターン認識モデル蓄積部３が蓄積したパターン認識モデルとしてＧＭＭを用いる場合を示したが、ＨＭＭを用いてもよい。また、ロジスティック回帰モデル、サポートベクトルマシンおよびニューラルネットワークなどのパターン認識手法を用いてもよい。

また、上述した実施の形態１では、第２の特徴量算出部２が無声子音の検出に適した特徴量として高域強調差分パワーを算出する構成を示したが、無声子音の検出に適した特徴量、即ち無声子音に特徴的な特徴量であれば、任意の特徴量を適用することができる。例えば、入力信号のパワーを周波数帯域ごとに算出し、周波数帯域が２ＫＨｚ未満のパワーと、２ＫＨｚ以上のパワーを算出し、両パワーの比などを特徴量として適用することができる。

実施の形態２．
上述した実施の形態１では、始終端補正部５が高域強調差分パワーと閾値とを比較する際に、予め設定した閾値Ｔｈ＿Ｐ１を用いる構成を示したが、この実施の形態２では、高域強調差分パワーの比較対象となる閾値を高域強調差分パワーの標準偏差を用いて算出する構成を示す。
図５は、実施の形態２に係る音声区間検出装置１０ａの構成を示すブロック図である。
実施の形態２の音声区間検出装置１０ａは、実施の形態１で示した音声区間検出装置１０に閾値算出部６を追加して設けている。
図６は、実施の形態２に係る音声区間検出装置１０ａの始終端補正部５ａによる探索区間および閾値算出部６による閾値算出区間を示す図である。
なお、以下では、実施の形態１に係る音声区間検出装置１０の構成要素と同一または相当する部分には、実施の形態１で使用した符号と同一の符号を付して説明を省略または簡略化する。

閾値算出部６は、第２の特徴量算出部２が算出した第２の特徴量、すなわち高域強調差分パワーの時系列と、音声区間検出部４が検出した仮始端時刻Ｔｂ´とに基づいて、始終端補正部５ａが参照する閾値を算出する。図６を参照して説明すると、閾値算出部６は仮始端時刻Ｔｂ´の時系列前方に位置するフレームｂ１の時刻Ｔｂ１からさらにフレーム数Ｔｖ遡った時刻をＴｂ０とし、当該時刻Ｔｂ０から時刻Ｔｂ１までの区間Ｅで、以下の式（２）に基づいて高域強調差分パワーの標準偏差ｓｄを算出する。

式（２）において、ｍｐは時刻Ｔｂ０から時刻Ｔｂ１の区間Ｅの高域差分パワーの平均値、ｐｉは時刻ｉにおける高域差分パワー、ｓｑｒｔ（）は平方根をとる関数を示している。なお、フレーム数Ｔｖは予め設定した定数であり、例えば５０フレームとする。

閾値算出部６は、式（２）に基づいて算出した高域強調差分パワーの標準偏差ｓｄを用いて、以下の式（３）に基づいて始終端補正用閾値Ｔｈ＿Ｐ２を算出する。
Ｔｈ＿Ｐ２＝α＊ｓｄ＋β （３）
式（３）において、αとβは予め定めた０以上の定数である。閾値算出部６が算出した始終端補正用閾値Ｔｈ＿Ｐ２は、始終端補正部５ａに出力される。

次に、音声区間検出装置１０ａの動作について説明する。
図７Ａおよび図７Ｂは、実施の形態２に係る音声区間検出装置１０ａの動作を示すフローチャートである。
なお、以下では実施の形態１に係る音声区間検出装置１０と同一のステップには図３Ａおよび図３Ｂで使用した符号と同一の符号を付し、説明を省略または簡略化する。

ステップＳＴ１１において音声区間検出部４が音声の仮終端時刻Ｔｅ´を検出すると、閾値算出部６は、ステップＳＴ９で検出した音声の仮始端時刻Ｔｂ´の時系列前方に位置するフレームｂ１の時刻Ｔｂ１から、さらにフレーム数Ｔｖ遡った時刻Ｔｂ０を算出する（ステップＳＴ３１）。閾値算出部６は、ステップＳＴ３１で算出した時刻Ｔｂ０から時刻Ｔｂ１の区間について、上述した式（２）に基づいて高域強調差分パワーの標準偏差ｓｄを算出する（ステップＳＴ３２）。さらに閾値算出部６は、ステップＳＴ３２で算出した高域強調差分パワーの標準偏差ｓｄを用いて、上述した式（３）に基づいて始終端補正用閾値Ｔｈ＿Ｐ２を算出する（ステップＳＴ３３）。

始終端補正部５ａは、ステップＳＴ５で算出された高域強調差分パワーの時系列を参照し、ステップＳＴ９で検出した音声の仮始端時刻Ｔｂ´の時系列前方に位置するフレームｂ１の時刻Ｔｂ１から、音声の仮始端時刻Ｔｂ´の時系列後方に位置するフレームｂ２の時刻Ｔｂ２までの区間で、高域強調差分パワーがステップＳＴ３３で算出した始終端補正用閾値Ｔｈ＿Ｐ２以上となるフレームが、設定されたフレーム数の閾値Ｔｈ＿Ｔ１以上連続する区間を、時間軸の順方向に探索する（ステップＳＴ３４）。

始終端補正部５ａは、ステップＳＴ３４の処理で区間が探索されたか否か判定を行う（ステップＳＴ３５）。区間が探索された場合（ステップＳＴ３５；ＹＥＳ）、始終端補正部５ａは探索された区間において最初に高域強調差分パワーが始終端補正用閾値Ｔｈ＿Ｐ２以上となったフレームの時刻を取得し、始端時刻Ｔｂとする（ステップＳＴ３６）。一方、区間が探索されなかった場合（ステップＳＴ３５；ＮＯ）、始終端補正部５ａはステップＳＴ９で検出された仮始端時刻Ｔｂ´を始端時刻Ｔｂとする（ステップＳＴ１５）。

次に始終端補正部５ａは、ステップＳＴ５で算出された高域強調差分パワーの時系列を参照し、ステップＳＴ１１で検出した音声の仮終端時刻Ｔｅ´の時系列後方に位置するフレームｅ２の時刻Ｔｅ２から、音声の仮終端時刻Ｔｅ´の時系列前方に位置するフレームｅ１の時刻Ｔｅ１までの範囲で、高域強調差分パワーが始終端補正用閾値Ｔｈ＿Ｐ２以上となるフレームが、設定されたフレーム数の閾値Ｔｈ＿Ｔ１以上連続する区間を、時間軸の逆方向に探索する（ステップＳＴ３７）。始終端補正部５ａは、ステップＳＴ３７の処理で区間が検出されたか否か判定を行う（ステップＳＴ３８）。区間が探索された場合（ステップＳＴ３８；ＹＥＳ）、始終端補正部５ａは探索された区間において最初に高域強調差分パワーが始終端補正用閾値Ｔｈ＿Ｐ２以上となったフレームの時刻を取得し、終端時刻Ｔｅとする（ステップＳＴ３９）。一方、区間が探索されなかった場合（ステップＳＴ３８；ＮＯ）、始終端補正部５ａはステップＳＴ１１で検出された終端時刻Ｔｅ´を終端時刻Ｔｅとする（ステップＳＴ１９）。

始終端補正部５ａは、ステップＳＴ３６またはステップＳＴ１５で取得した始端時刻Ｔｂと、ステップＳＴ３９またはステップＳＴ１９で取得した終端時刻Ｔｅとを、音声区間の時間情報として出力し（ステップＳＴ２０）、処理を終了する。

以上のように、この実施の形態２によれば、仮始端時刻Ｔｂ´の時系列前方に位置するフレームｂ１の時刻Ｔｂ１からさらにフレーム数Ｔｖ遡った時刻をＴｂ０とし、当該時刻Ｔｂ０から時刻Ｔｂ１までの区間で算出した高域強調差分パワーの標準偏差ｓｄを用いて始終端補正用閾値Ｔｈ＿Ｐ２を算出する閾値算出部６と、算出された始終端補正用閾値Ｔｈ＿Ｐ２、および高域強調差分パワーの時系列に基づいて、仮始端時刻および仮終端時刻を補正し、音声区間の時間情報を取得する始終端補正部５ａとを備えるように構成したので、高域強調差分パワーの標準偏差の値が小さく、定常的な騒音環境に対しては、低い始終端補正用閾値を設定することが可能となり、微弱な無声子音の検出性能を向上させることができる。一方、高域強調差分パワーの標準偏差の値が大きく、非定常的な騒音環境に対しては、高い始終端補正用閾値を設定することが可能となり、騒音を音声として誤検出するのを抑制することができる。

実施の形態３．
この実施の形態３では、第２の特徴量算出部２が算出した高域強調差分パワーの時系列に加えて、音声区間検出部４が検出した対数尤度差Ｓの時系列も考慮して始終端時刻を補正する構成を示す。
図８は、実施の形態３に係る音声区間検出装置１０ｂの構成を示すブロック図である。
実施の形態３の音声区間検出装置１０ｂは、実施の形態２で示した音声区間検出装置１０ａの構成と同一である。以下では、実施の形態２に係る音声区間検出装置１０ａの構成要素と同一または相当する部分には、実施の形態２で使用した符号と同一の符号を付して説明を省略または簡略化する。

音声区間検出部４は、実施の形態１および実施の形態２と同様に、仮始端時刻Ｔｂ´および仮終端時刻Ｔｅ´を始終端補正部５ｂに出力する。さらに音声区間検出部４は、上述した式（１）に基づいて算出された音声ＧＭＭと騒音ＧＭＭの対数尤度差Ｓを各フレームごと、即ち対数尤度差Ｓの時系列を始終端補正部５ｂに出力する。閾値算出部６は、実施の形態２と同様に、第２の特徴量算出部２から入力される高域強調差分パワーの時系列と、音声区間検出部４が検出した仮始端時刻Ｔｂ´とに基づいて、始終端補正部５ｂが参照する閾値である始終端補正用閾値Ｔｈ＿Ｐ２を算出する。

始終端補正部５ｂは、音声区間検出部４が検出した仮始端時刻Ｔｂ´および仮終端時刻Ｔｅ´を、第２の特徴量算出部２から入力される高域強調差分パワーの時系列と、音声区間検出部４から入力される対数尤度差Ｓの時系列と、閾値算出部６から入力される始終端補正用閾値Ｔｈ＿Ｐ２に基づいて補正し、始端時刻Ｔｂおよび終端時刻Ｔｅを取得する。

次に、音声区間検出装置１０ｂの動作について説明する。
図９Ａおよび図９Ｂは、実施の形態３に係る音声区間検出装置１０ｂの動作を示すフローチャートである。
なお、以下では実施の形態２に係る音声区間検出装置１０ａと同一のステップには図７Ａおよび図７Ｂで使用した符号と同一の符号を付し、説明を省略または簡略化する。

ステップＳＴ３３において閾値算出部６が始終端補正用閾値Ｔｈ＿Ｐ２を算出すると、始終端補正部５ｂは、ステップＳＴ５で算出された高域強調差分パワーの時系列、およびステップＳＴ７で算出された対数尤度差Ｓの時系列を参照し、ステップＳＴ９で検出した音声の仮始端時刻Ｔｂ´の時系列前方に位置するフレームｂ１の時刻Ｔｂ１から、音声の仮始端時刻Ｔｂ´の時系列後方に位置するフレームｂ２の時刻Ｔｂ２までの区間で、高域強調差分パワーがステップＳＴ３３で算出された始終端補正用閾値Ｔｈ＿Ｐ２以上、且つ対数尤度差Ｓが設定された閾値Ｔｈ＿Ｓ２以上のフレームが、設定されたフレーム数の閾値Ｔｈ＿Ｔ１以上連続する区間を、時間軸の順方向に探索する（ステップＳＴ４１）。
ここで、上述した閾値Ｔｈ＿Ｓ２は予め定められた０以上の定数であって、且つ閾値Ｔｈ＿Ｓよりも小さい値であるものとする。

始終端補正部５ｂは、ステップＳＴ４１の処理で区間が探索されたか否か判定を行う（ステップＳＴ４２）。区間が探索された場合（ステップＳＴ４２；ＹＥＳ）、始終端補正部５ｂは探索された区間において最初に高域強調差分パワーが始終端補正用閾値Ｔｈ＿Ｐ２以上、且つ対数尤度差Ｓが閾値Ｔｈ＿Ｓ２以上となったフレームの時刻を取得し、始端時刻Ｔｂとする（ステップＳＴ４３）。一方、区間が探索されなかった場合（ステップＳＴ４２；ＮＯ）、始終端補正部５ｂはステップＳＴ９で検出された仮始端時刻Ｔｂ´を始端時刻Ｔｂとする（ステップＳＴ１５）。

次に始終端補正部５ｂは、ステップＳＴ５で算出された高域強調差分パワーの時系列、およびステップＳＴ７で算出された対数尤度差Ｓの時系列を参照し、ステップＳＴ１１で検出した音声の仮終端時刻Ｔｅ´の時系列後方に位置するフレームｅ２の時刻Ｔｅ２から、音声の仮終端時刻Ｔｅ´の時系列前方に位置するフレームｅ１の時刻Ｔｅ１までの区間で、高域強調差分パワーが始終端補正用閾値Ｔｈ＿Ｐ２以上、且つ対数尤度差Ｓが設定された閾値Ｔｈ＿Ｓ２以上のフレームが、設定されたフレーム数の閾値Ｔｈ＿Ｔ１以上連続する区間を時間軸の逆方向に探索する（ステップＳＴ４４）。

始終端補正部５ｂは、ステップＳＴ４４の処理で区間が検出されたか否か判定を行う（ステップＳＴ４５）。区間が探索された場合（ステップＳＴ４５；ＹＥＳ）、始終端補正部５ｂは探索された区間において最初に高域強調差分パワーが始終端補正用閾値Ｔｈ＿Ｐ２以上、且つ対数尤度差Ｓが閾値Ｔｈ＿Ｓ２以上となったフレームの時刻を取得し、終端時刻Ｔｅとする（ステップＳＴ４６）。一方、区間が探索されなかった場合（ステップＳＴ４５；ＮＯ）、始終端補正部５ｂはステップＳＴ１１で検出された仮終端時刻Ｔｅ´を終端時刻Ｔｅとする（ステップＳＴ１９）。

始終端補正部５ｂは、ステップＳＴ４３またはステップＳＴ１５で取得した始端時刻Ｔｂと、ステップＳＴ４６またはステップＳＴ１９で取得した終端時刻Ｔｅとを、音声区間の時間情報として出力し（ステップＳＴ２０）、処理を終了する。
上述のように、閾値Ｔｈ＿Ｓ２を閾値Ｔｈ＿Ｓよりも小さい値に設定することにより、仮始端時刻Ｔｂ´および仮終端時刻Ｔｅ´の検出時には検出することができなかった微弱な無声子音などの検出が容易となる。なお、高域強調差分パワーの時系列を用いず、対数尤度差Ｓの時系列のみを用いて、閾値Ｔｈ＿Ｓ２を閾値Ｔｈ＿Ｓよりも小さい値に設定して探索処理を行うと、騒音をご検出する可能性が大きくなるが、高域強調差分パワーの時系列と対数尤度差Ｓの時系列とを用いて両者の特徴量が共に閾値以上となった場合にのみ、仮始端時刻Ｔｂ´および仮終端時刻Ｔｅ´を補正することにより、補正精度を向上させることができる。

始終端補正部５ｂにおいて、高域強調差分パワーに加えて対数尤度差に基づいて始終端時刻の補正を行うことにより、仮始端時刻検出時には検出できなかった微弱な無声子音などを容易に検出することができる。ただし、対数尤度差のみを用いて閾値を低く設定して始終端時刻の補正を行うと、騒音を音声として誤検出する可能性が高くなる。そのため、対数尤度差とその他の特徴量とを併用して両者の特徴量が共に閾値以上となった場合にのみ、始終端時刻を補正する構成とし、補正精度を向上させる。

以上のように、この実施の形態３によれば、第２の特徴量算出部２が算出した高域強調差分パワーの時系列、および音声区間検出部４が検出した対数尤度差の時系列、および閾値算出部６から入力される始終端補正用閾値に基づいて、音声区間検出部４が検出した仮始端時刻および仮終端時刻を補正する始終端補正部５ｂを備えるように構成したので、騒音を音声として誤検出して補正することを抑制し、音声の開始点および音声の終了点の補正精度を向上させることができる。

また、この実施の形態３によれば、閾値Ｔｈ＿Ｓ２を閾値Ｔｈ＿Ｓよりも小さい値に設定するように構成したので、仮始端時刻Ｔｂ´および仮終端時刻Ｔｅ´の検出時には検出することができなかった微弱な無声子音などを容易に検出することができる。

なお、上述した実施の形態３では、実施の形態２で示した音声区間検出装置１０ａに始終端補正部５ｂを適用する構成を示したが、実施の形態１で示した音声区間検出装置１０に始終端補正部５ｂを適応して構成してもよい。

上述した実施の形態１から実施の形態３では、第１の特徴量では騒音との識別が困難な音声の検出として、無声子音の検出を例に説明を行ったが、無声子音以外にも、無声子化した母音の検出を行うように構成することも可能である。さらに、濁音の子音部などの有声子音の検出や母音の検出など、発話が不明瞭な場合に、第１の特徴量では騒音との識別が困難になると予測される音声の検出を行うように構成することも可能である。

上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

この発明に係る音声区間検出装置は、音声区間検出が必要となる装置、例えば音声認識装置に適用可能であり、非定常な騒音を音声として誤検出することを防ぎ、且つ語頭や語尾の無声子音の検出精度を改善することができる。

１第１の特徴量算出部、２第２の特徴量算出部、３パターン認識モデル蓄積部、４音声区間検出部、５，５ａ，５ｂ始終端補正部、６閾値算出部、１０，１０ａ，１０ｂ音声区間検出装置。

Claims

入力信号からスペクトル特徴を示す第１の特徴量を算出する第１の特徴量算出部と、
前記入力信号から前記第１の特徴量とは異なる音声の特徴量を示す第２の特徴量を算出する第２の特徴量算出部と、
前記入力信号に含まれる音声と騒音とを識別するための認識モデルを用いて、前記第１の特徴量算出部が算出した第１の特徴量に基づいて、前記入力信号に含まれる音声区間の開始点を示す始端時刻および終了点を示す終端時刻を検出する音声区間検出部と、
前記第２の特徴量算出部が算出した第２の特徴量と閾値との比較に基づいて、前記音声区間検出部が検出した始端時刻および終端時刻を補正する始終端補正部とを備えた音声区間検出装置。
前記音声区間検出部が検出した始端時刻から一定時間遡った区間において、前記第２の特徴量の標準偏差を算出し、当該第２の特徴量の標準偏差に基づいて、前記閾値を算出する閾値算出部を備えたことを特徴とする請求項１記載の音声区間検出装置。
前記音声区間検出部は、前記認識モデルを参照し、前記音声をモデル化した音声モデルと前記騒音をモデル化した騒音モデルとの尤度差を算出し、
前記始終端補正部は、前記第２の特徴量と閾値との比較に加えて、前記音声区間検出部が算出した前記尤度差と閾値との比較に基づいて、前記音声区間検出部が検出した始端時刻および終端時刻を補正することを特徴とする請求項１記載の音声区間検出装置。
前記第２の特徴量算出部は、前記入力信号に含まれる音声のうち無声子音の特徴を示す前記第２の特徴量を算出することを特徴とする請求項１記載の音声区間検出装置。
第１の特徴量算出部が、入力信号からスペクトル特徴を示す第１の特徴量を算出し、
第２の特徴量算出部が、前記入力信号から前記第１の特徴量とは異なる音声の特徴量を示す第２の特徴量を算出し、
音声区間検出部が、前記入力信号に含まれる音声と騒音とを識別するための認識モデルを用いて、前記第１の特徴量に基づいて、前記入力信号に含まれる音声区間の開始点を示す始端時刻および終了点を示す終端時刻を検出し、
始終端補正部が、前記第２の特徴量と閾値との比較に基づいて、前記始端時刻および終端時刻を補正する音声区間検出方法。