JPWO2011077924A1

JPWO2011077924A1 - 音声検出装置、音声検出方法、および音声検出プログラム

Info

Publication number: JPWO2011077924A1
Application number: JP2011547442A
Authority: JP
Inventors: 田中　大介; 大介田中; 隆行荒川; 健花沢; 長田　誠也; 誠也長田; 岡部　浩司; 浩司岡部
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-12-24
Filing date: 2010-11-26
Publication date: 2013-05-02
Anticipated expiration: 2030-11-26
Also published as: JP5621786B2; WO2011077924A1

Abstract

雑音環境下においても高精度の音声区間検出を行う音声検出装置、音声検出方法、および音声検出プログラムを提供する。特徴量算出部３０１が、フレームごと特徴量を算出する。音声／非音声判定部３０２が、算出された特徴量と、音声検出閾値とを比較し、音声区間であるのか、または非音声区間であるのかを判定する。長区間特徴量算出部３０３が、複数のフレームの特徴量の統計値にもとづいて、音声区間または非音声区間の特徴量である長区間特徴量を算出する。閾値更新部３０４が、算出された長区間特徴量を用いて、音声区間および非音声区間が非音声にもとづく信号が入力された区間であった確率である非音声確率を算出し、算出した非音声確率にもとづいて、音声検出閾値を更新する。

Description

本発明は、音声区間を検出する音声検出装置、音声検出方法、および音声検出プログラムに関する。

音声検出技術は、移動体通信などにおいて非音声区間の圧縮率を向上させたりその区間だけ伝送しないようにしたりして音声伝送効率を向上する目的や、ノイズキャンセラ、エコーキャンセラなどにおいて非音声区間で雑音を推定したり決定したりする目的、音声認識システムにおける音声認識性能の向上や処理量削減などの目的で広く用いられている。
図１４は、一般的な音声検出装置の構成例を示すブロック図である。なお、特許文献１には図１４に例示した音声検出装置に相当する発明が開示されている。
図１４に示す一般的な音声検出装置は、入力信号をフレーム単位に切り出して取得する波形切り出し部１０１と、切り出されたフレーム毎の入力信号から音声検出に用いる特徴量を算出する特徴量算出部１０２と、算出された特徴量と閾値記憶部１０３に記憶されている閾値とをフレーム毎に比較し、入力信号が音声にもとづく信号であるのか、または非音声にもとづく信号であるのかを判定する音声／非音声判定部１０４と、フレーム毎の判定結果を複数のフレームに渡って保持するフレーム毎の判定結果保持部１０５と、区間整形ルール記憶部１０６に記憶されている区間整形ルールにもとづいて、判定結果保持部１０５に保持された複数のフレームの判定結果を整形し、音声区間であるのか、または非音声区間であるのかを決定する音声／非音声区間整形部１０７とを含む。
なお、入力信号をフレーム単位に切り出して取得するとは、ある時刻から単位時間が経過するまでに入力された入力信号を取り出すことである。また、フレームは、入力信号が入力されている時間を単位時間毎に分割した各時間である。区間整形ルールは、例えば、連続する複数のフレームに渡って音声にもとづく入力信号または非音声にもとづく入力信号が入力されていると判定された場合に、それら複数のフレームを１つの音声区間または非音声区間と決定するルールである。
特許文献１には、特徴量算出部１０２で算出される特徴量の例として、スペクトルパワーの変動を平滑化し、さらにその変動を平滑化したものが開示されている。また、非特許文献１の４．３．３節には、特徴量の例として、ＳＮＲ（ＳｉｇｎａｌｔｏＮｏｉｓｅｒａｔｉｏ）の値が開示され、４．３．５節には、ＳＮＲの値を平均したものが開示されている。非特許文献２のＢ．３．１．４節には、特徴量の例として、零点交差数が開示され、非特許文献３には、特徴量の例として、音声ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）と無音ＧＭＭとを用いた尤度比が開示されている。
音声／非音声判定部１０４は、予め実験により定められた閾値とフレーム毎の特徴量との比較を行い、特徴量が閾値以上の場合は音声にもとづく入力信号であると判定し、閾値以下の場合は非音声にもとづく入力信号であると判定する。
特許文献２には、１発声ごとに閾値を更新する方法が開示されている。図１５は、音声検出の閾値を変更する音声検出装置を示すブロック図である。なお、特許文献２には図１５に例示した音声検出装置に相当する発明が開示されている。音声検出閾値設定部１８は、音声区間のスペクトルパワーの最大値と音声区間ではない背景雑音区間のスペクトルパワーの平均値とにもとづいて、音声区間であるか否かを判定するためのスペクトルパワーの閾値を算出し、算出した閾値に更新する。

特開２００６−２０９０６９号公報（段落００１８〜００５９、図１）特開平７−９２９８９号公報（段落０００８〜００１４、図１）

「テクニカルディスクリプションオブＶＡＤオプション２（ＴｅｃｈｎｉｃａｌＤｅｓｃｒｉｐｔｉｏｎｏｆＶＡＤＯｐｔｉｏｎ２）」，（フランス）、ヨーロッパ電気通信標準化協会（ＥＴＳＩ（ＥｕｒｏｐｉａｎＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｔａｎｄａｒｄｓＩｎｓｔｉｔｕｔｅ）），１９９９年１２月，ＥＴＳＩＥＮ３０１７０８Ｖ７．１．１，ｐ．１７−２６ "ＩＴＵ−ＴＲｅｃｏｍｍｅｎｄａｔｉｏｎＧ．７２９"、［ｏｎｌｉｎｅ］、２００７年１月、ＩＴＵ−Ｔ、［平成２１年１２月９日検索］、インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．ｉｔｕ．ｉｎｔ／ｒｅｃ／Ｔ−ＲＥＣ−Ｇ．７２９−２００７０１−Ｉ／ｅｎ＞アキノブリー（ＡｋｉｎｏｂｕＬｅｅ）他４名，「ノイズロバストリアルワールドスポークンダイアログシステムユージングＧＭＭベーストリジェクションオブアンインテンデッドインプット（ＮｏｉｓｅＲｏｂｕｓｔＲｅａｌＷｏｒｌｄＳｐｏｋｅｎＤｉａｌｏｇＳｙｓｔｅｍｕｓｉｎｇＧＭＭＢａｓｅｄＲｅｊｅｃｔｉｏｎｏｆＵｎｉｎｔｅｎｄｅｄＩｎｐｕｔｓ）」，（韓国），アイシーエスエルピー（ＩＣＳＬＰ（ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｐｏｋｅｎＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）），２００４年１０月４日，ＩＣＳＬＰ−２００４，Ｖｏｌ．１，ｐ．１７３−１７６

しかし、図１４に示す音声検出装置は、閾値を設定するためには予め雑音のみ入力されている複数のフレームから平均雑音パワーと音声信号が入力されているフレームで構成された区間における最大スペクトルパワーとを測定する必要があり、雑音や最大スペクトルパワーが常に変化する環境に対応できない。
図１５に示す音声検出装置は、閾値を決めるために音声検出を行い、背景雑音のスペクトルパワーを求める必要があるが、検出の精度が低いと雑音を推定できない可能性がある。例えば、入力信号の最初から音声区間が続く場合や、閾値を越えるような背景雑音が続いてしまい音声区間と判断されてしまったりするような場合には、音声検出装置は背景雑音のスペクトルパワーを取得することが困難となる。そのため、音声検出装置は、閾値の決定および更新をすることができない。
そこで、上述の課題を解決するため、本発明は、雑音が変化したり、入力信号の最初から雑音や音声区間が続いたりするような場合であっても、音声区間を検出することができる音声検出装置、音声検出方法、および音声検出プログラムを提供することを目的とする。

本発明による音声検出装置は、単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する特徴量算出手段と、特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する音声／非音声判定手段と、特徴量算出手段が算出した音声区間または非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、音声区間または非音声区間の特徴量である長区間特徴量を算出する長区間特徴量算出手段と、長区間特徴量を用いて、音声区間および非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した非音声確率にもとづいて、音声検出閾値を更新する閾値更新手段とを備えたことを特徴とする。
本発明による音声検出方法は、単位時間内の入力信号であるフレームごとの入力信号の特徴量を算出し、特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定し、音声区間または非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、音声区間または非音声区間の特徴量である長区間特徴量を算出し、長区間特徴量を用いて、音声区間および非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した非音声確率にもとづいて、音声検出閾値を更新することを特徴とする。
本発明によるプログラム記録媒体に格納される音声検出プログラムは、コンピュータに、単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する特徴量算出処理と、特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する音声／非音声判定処理と、特徴量算出処理で算出した音声区間または非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、音声区間または非音声区間の特徴量である長区間特徴量を算出する長区間特徴量算出処理と、長区間特徴量を用いて、音声区間および非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した非音声確率にもとづいて、音声検出閾値を更新する閾値更新処理とを実行させることを特徴とする。

本発明は、閾値を超えるような背景雑音が入力の先頭に入る場合などにおいても、雑音環境下においても高精度の音声区間検出を行うことができる音声検出装置、音声検出方法、および音声検出プログラムを提供する。

本発明による音声検出装置の第１の実施形態の構成例を示すブロック図である。本発明の第１の実施形態の音声検出装置の動作を示すフローチャートである。第１の実施形態の関数Ｇを示す説明図である。閾値を変更する例を示す説明図である。更新前の閾値が小さすぎた場合の例を示す説明図である。更新前の閾値が大きすぎた場合の例を示す説明図である。本発明による音声検出装置の第２の実施形態の構成例を示すブロック図である。本発明による音声検出装置の第３の実施形態の構成例を示すブロック図である。音声検出装置の第３の実施形態の他の例を示すブロック図である。本発明の第３の実施形態において非音声確率αを求めるための関数を示す説明図である。本発明の第５の実施形態において非音声確率αを求めるための関数を示す説明図である。本発明による音声検出装置の第６の実施形態の構成例を示すブロック図である。本発明の概要を示すブロック図である。一般的な音声検出装置の構成例を示すブロック図である。音声検出の閾値を変更する音声検出装置を示すブロック図である。

実施形態１．
本発明の第１の実施形態について、図面を参照して説明する。図１は、本発明による音声検出装置の第１の実施形態の構成例を示すブロック図である。図１に示すように、本発明の第１の実施形態の音声検出装置は、波形切りだし部１０１、特徴量算出部１０２、閾値記憶部１０３、音声／非音声判定部１０４、判定結果保持部１０５、整形ルール記憶部１０６、音声／非音声区間整形部１０７、長区間特徴量算出部１０８、および閾値更新部１０９を含む。
波形切り出し部１０１は、入力信号をフレーム単位に切り出して取得する。具体的には、波形切り出し部１０１は、例えば、所定の単位時間ごとの入力信号をそれぞれ切りだして取得する。特徴量算出部１０２は、波形切り出し部１０１が切り出したフレーム毎の入力信号から音声検出に用いる特徴量を算出する。閾値記憶部１０３は、入力信号が音声にもとづく入力信号であるのか、または非音声にもとづく入力信号であるのかを判定するための閾値を記憶する。
音声／非音声判定部１０４は、特徴量算出部１０２が算出した特徴量と閾値記憶部１０３に記憶されている閾値とをフレーム毎に比較し、そのフレームの入力信号が音声にもとづく入力信号であるのか、または非音声にもとづく入力信号であるのかを判定する。なお、音声にもとづく入力信号のフレームを音声フレームといい、非音声にもとづく入力信号のフレームを非音声フレームという。判定結果保持部１０５は、音声／非音声判定部１０４によるフレーム毎の判定結果を複数フレームに渡り保持する。
区間整形ルール記憶部１０６には、区間整形ルールが記憶されている。音声／非音声区間整形部１０７は、区間整形ルール記憶部１０６に記憶されている区間整形ルールにもとづいて、判定結果保持部１０５に保持されている複数フレームの判定結果を整形し、音声区間または非音声区間であると決定する。具体的には、音声／非音声区間整形部１０７は、例えば、音声フレームが複数連続していた場合に、それら複数のフレームは一の音声区間であると決定する。また、音声／非音声区間整形部１０７は、非音声フレームが複数連続していた場合に、それら複数のフレームは一の非音声区間であると決定する。なお、音声／非音声区間整形部１０７は、連続する複数のフレームにおいて、音声フレームの割合が所定の割合よりも大きい場合にそれら複数のフレームを一の音声区間であると決定したり、非音声フレームの割合が一定の割合よりも大きい場合に一の非音声区間であると決定したりしてもよい。
長区間特徴量算出部１０８は、音声／非音声区間整形部１０７によって決定された音声区間および非音声区間に対し、特徴量算出部１０２が算出したフレーム毎の特徴量を統計処理した長区間特徴量を算出する。
閾値更新部１０９は、長区間特徴量算出部１０８が算出した長区間特徴量を用いて、音声／非音声区間整形部１０７によって決定された音声区間および非音声区間に対する非音声確率を算出し、閾値記憶部１０３に記憶されている閾値を変更する。なお、非音声確率とは、後述するように、当該区間の入力信号が非音声にもとづく入力信号である確率である。
音声検出装置は、例えば、音声検出プログラムを搭載したコンピュータによって実現される。
次に、本発明の第１の実施形態の音声検出装置の動作について、図面を参照して説明する。図２は、本発明の第１の実施形態の音声検出装置の動作を示すフローチャートである。
まず、波形切り出し部１０１は、マイクロフォン（図示せず）から入力される集音された時系列の入力音データを単位時間のフレーム毎に切り出す（ステップＳ１０１）。例えば、入力音データがサンプリング周波数８０００Ｈｚの１６ｂｉｔＬｉｎｅａｒ−ＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）形式である場合、１秒当たり８０００点の入力音データによる波形データが各フレームに格納されている。
波形切り出し部１０１は、例えば、この波形データをフレーム幅２００点（２５ミリ秒）、フレームシフト８０点（１０ミリ秒）で時系列に従って逐次切り出す。
次に、特徴量算出部１０２が、フレームごとに切り出された波形から特徴量を算出する（ステップＳ１０２）。特徴量算出部１０２が算出する特徴量は、例えば、スペクトルパワーやＳＮＲ、零交差点、尤度などである。
音声／非音声判定部１０４は、閾値記憶部１０３に記憶されている閾値と特徴量算出部１０２が算出した特徴量とを比較し、閾値を超えている場合は音声フレームであると判定し、超えていない場合は非音声フレームであると判定する（ステップＳ１０３）。なお、閾値記憶部１０３に記憶されている閾値と特徴量算出部１０２が算出した特徴量とが同じであった場合に、音声／非音声判定部１０４が音声フレームと判定するかまたは非音声フレームと判定するかは予め決定されていてもよい。そして、音声／非音声判定部１０４は当該決定にもとづいて、音声フレームまたは非音声フレームと判定する。
判定結果保持部１０５は、音声／非音声判定部１０４がステップＳ１０６の処理で判定した結果を複数フレーム分保持する（ステップＳ１０４）。
音声／非音声区間整形部１０７は、音声／非音声判定部１０４がフレーム毎に判定するために生じる短い継続長の音声区間や短い継続長の非音声区間の発生を抑制するために、区間の整形を行う（ステップＳ１０５）。
長区間特徴量算出部１０８は、音声／非音声区間整形部１０７がステップＳ１０５の処理で求めた整形済みの音声区間および非音声区間に対して、特徴量算出部１０２がステップＳ１０２の処理で算出したフレーム毎の特徴量を統計処理し、長区間特徴量を算出する（ステップＳ１０６）。長区間特徴量は、例えば、スペクトルパワーやＳＮＲ、零交差点、尤度などのうち１つ、または２つ以上の組み合わせである。
長区間特徴量算出部１０８が行う統計処理の例として、整形済みの音声区間におけるフレーム毎の特徴量の平均値を算出する方法がある。平均値を算出する方法以外にも、長区間特徴量算出部１０８は、最頻値を用いる方法、中央値を用いる方法、フレーム毎の特徴量を大きさで並べ替えて特徴量の値が大きい順に上位４０％付近にある値を用いる方法などを用いても良い。なお、４０％という値はあくまで一例であり、ユーザ等が任意に定めた割合としても構わない。ユーザ等が５０％と定めた場合、中央値を用いる方法に一致する。
閾値更新部１０９は、長区間特徴量算出部１０８がステップＳ１０６の処理で算出した長区間特徴量を用いて、整形済みの音声区間に対して非音声確率αを算出する（ステップＳ１０７）。ここで非音声確率とは、当該区間の入力信号が雑音など非音声にもとづく入力信号である確率である。従って、１−αは当該区間が音声である確率に相当する。αは以下の式を用いて算出される。
＜Ｆ＞＝Σωｉ×＜ｆｉ＞・・・（１）
α＝Ｇ［＜Ｆ＞］・・・（２）
ここで、＜ｆｉ＞はフレームごとの特徴量ｆｉに前述の統計処理を施すことにより得られた長区間特徴量である。ωｉは長区間特徴量＜ｆｉ＞にかける重みである。そして、式（１）で複数種類（例えば、スペクトルパワーやＳＮＲ、零交差点、尤度など）の長区間特徴量＜ｆｉ＞にそれぞれ重みωｉを乗じて足し合わされて算出される＜Ｆ＞は統合長区間特徴量である。Ｇは統合長区間特徴量（単に長区間特徴量ともいう）＜Ｆ＞を変数とする関数である。図３は、本実施形態の関数Ｇを示す説明図である。図３の横軸は長区間特徴量の値であり、縦軸は非音声確率αである。
図３に示す例では、関数Ｇは、長区間特徴量が０である場合に、非音声確率αが１となる関数である。つまり、Ｇは、長区間特徴量が０である場合には、非音声確率は１００％となる関数である。そして、Ｇは、長区間特徴量がτ０である場合に、非音声確率αが０となる関数である。つまり、Ｇは、長区間特徴量がτ０である場合には、非音声確率は０％となる関数である。そして、Ｇは、長区間特徴量がτｍａｘである場合に、非音声確率αが１となる関数である。つまり、Ｇは、長区間特徴量がτｍａｘである場合には、非音声確率は１００％となる関数である。
なお、図３に示した関数は一例である。関数は、長区間特徴量が中庸な値から遠ざかるほど関数値が増加するような関数や、単調減少（非増大）関数であれば、他の関数であってもよい。（１）式のωｉ、および図３に示されているτ０、τｍａｘは予め実験で適切な値を求めておく。またωｉを実験的に定めることが難しければ、ωｉは各長区間特徴量に対して等しい値（１など）に設定されていてもよい。
次に、閾値更新部１０９は、ステップＳ１０７の処理で算出した非音声確率αを用いて閾値記憶部１０３に記憶されている閾値を更新する（ステップＳ１０８）。閾値更新部１０９は、閾値の更新は具体的には以下のように行う。まず、閾値更新部１０９は、閾値候補θ’を以下の式を用いて計算する。
θ’＝α×Ｆｍａｘ＋（１−α）×Ｆｍｉｎ・・・（３）
ここで、Ｆｍａｘは音声区間、または非音声区間におけるフレーム毎の特徴量の最大値である。Ｆｍｉｎは音声区間、または非音声区間におけるフレーム毎の特徴量の最小値である。αは音声区間、または非音声区間の非音声確率である。次に、閾値更新部１０９は、閾値候補θ’を用いて、閾値θを以下の式を用いて更新する。
θ←θ＋ε×（θ’−θ）・・・（４）
ここで、εは閾値の更新のスピードを調整するステップサイズである。つまり、本発明による音声検出装置は、閾値の更新のスピードを調整することができる。従って、音声検出装置は、一時的な背景雑音の大きさの変動に応じて閾値を大きく変動させたい場合と、一時的な背景雑音によっては閾値をあまり変動させたくない場合とのいずれの場合にも対応することができる。
図４は、閾値を変更する例を示す説明図である。図４に示す例では、音声／非音声区間整形部１０７によって、非音声区間１、音声区間２、非音声区間３、音声区間４、非音声区間５の順に各区間が音声区間または非音声区間に決定されている。
図４における上部の波形によって入力信号が示されている。また、図４において各音声区間および各非音声区間の終端付近の上下の矢印によって、各音声区間および各非音声区間の特徴量の最大値および最小値が示されている。また、閾値の推移は、縦軸に平行して上下に移動する実線によって示されている。
ここで、音声／非音声区間整形部１０７が音声区間または非音声区間を決定した際、閾値更新部１０９が、式（１），（２）を用いて非音声確率を算出し、式（３）を用いて閾値候補を決定する。決定された閾値は式（４）を用いて変更される。
また、閾値の更新は以下に示す式（５）のように、過去のＮ発声分の閾値候補の平均値を用いて行うことも可能である。
θ←１／Ｎ×Σθ’・・・（５）
閾値更新部１０９は、特定の値以上または未満の非音声確率の場合のみ閾値を更新することも可能である。また、長区間特徴量算出部１０８が、１つ以上の音声区間、または非音声区間ごとの特徴量に統計処理を施して長区間特徴量を算出し、閾値更新部１０９が、１つ以上の音声区間、または非音声区間ごとに閾値を更新することも可能である。
また、最初に設定された閾値が大きすぎる場合、または小さすぎる場合には、音声／非音声判定部１０４における判定結果にもとづき、音声／非音声区間整形部１０７は、例えば、判定対象のすべての区間を音声区間または非音声区間と判定してしまい、閾値更新部１０９による閾値の更新が行われない場合がある。
そのような場合に対応するために、閾値更新部１０９は、音声／非音声判定部１０４において一定時間以上音声区間または非音声区間に判定されない場合には、閾値を一定値小さくしたり、一定値大きくしたり、当該一定時間に特徴量算出部１０２が算出した特徴量の平均値を閾値としたりしてもよい。
音声検出装置は、閾値更新部１０９によって閾値が更新された後、次の音声区間または非音声区間に対してステップＳ１０１からＳ１０８の処理を行う。また、音声検出装置は、同じ発声に対して再度ステップＳ１０１からＳ１０８の処理を繰り返すことも可能である。
図５は、更新前の閾値が小さすぎた場合の例を示す説明図である。図５に示す例では、更新前の閾値が小さすぎたので、音声検出装置は、非音声区間１を音声区間であると誤って判定する。
図６は、更新前の閾値が大きすぎた場合の例を示す説明図である。図６に示す例では、更新前の閾値が大きすぎたので、音声検出装置は、音声区間２を非音声区間であると誤って判定する。
本実施形態における音声検出装置は、図５に例示した更新前の閾値が小さすぎた場合であっても、長区間特徴量を用いて算出される非音声確率αを大きくする。図５に示すように、非音声区間１の非音声確率αは０．８である。このような場合、閾値更新部１０９が（３）式を計算すると、閾値候補θ’はこの非音声区間１の長区間特徴量の最大値に近づくので、閾値がより大きな値に更新される。
また、本実施形態における音声検出装置は、図６に例示した更新前の閾値が大きすぎた場合であっても、長区間特徴量を用いて算出される非音声確率αを小さくする。図６に示すように、音声区間２の非音声確率αは０．２である。このような場合、閾値更新部１０９が（３）式を計算すると、閾値候補θ’はこの音声区間２の長区間特徴量の最小値に近づくので、閾値がより小さな値に更新される。
従って、本実施形態における音声検出装置は、長区間特徴量算出部１０８において非音声確率αを算出して閾値更新部１０９で適切な閾値を設定することで、前段の音声／非音声判定部１０４で認識対象となる音声区間を正しく検出して、発話環境によって変化する雑音に頑健な音声検出を実現できる。
実施形態２．
本発明の第２の実施形態について、図面を参照して説明する。図７は、本発明による音声検出装置の第２の実施形態の構成例を示すブロック図である。
第２の実施形態の音声検出装置は、図１に示す第１の実施形態の音声検出装置の構成に加えて、入力信号をフレームごとに切り分けて音声らしさを表す特徴量を出力する音声分析部１１０を含む。音声分析部１１０は、図１に示す第１の実施形態の音声検出装置の構成における波形切りだし部１０１や特徴量算出部１０２に相当する機能を有する。
音声分析部１１０は、ステップＳ１０２の処理で特徴量算出部１０２とは独立に、第２の特徴量を算出する。音声分析部１１０が算出する第２の特徴量とは、例えば、スペクトルパワーやＳＮＲ、零交差点、尤度などである。
音声分析部１１０は、特徴量算出部１０２が特徴量を算出する際に用いたパラメタとは異なるパラメタを用いて、より詳細に入力信号を分析して第２の特徴量を算出する。なお、音声分析部１１０は、複数の発声ごとに第２の特徴量を算出したり、ユーザによって指示されたときに第２の特徴量を算出したりして、特徴量算出部１０２が特徴量を算出するときと異なるタイミングで第２の特徴量を算出してもよい。
そして、長区間特徴量算出部１０８は、ステップＳ１０６の処理で、特徴量算出部１０２が算出した特徴量と、音声分析部１１０が算出した第２の特徴量とにもとづいて、長区間特徴量を算出する。前述した各特徴量は、入力信号が生成された環境によって検出しやすい場合と、検出が困難である場合とがある。そこで、長区間特徴量算出部１０８は、例えば、特徴量算出部１０２が特徴量を算出できなかった場合に、音声分析部１１０が算出した第２の特徴量を用いて長区間特徴量を算出する。また、特徴量算出部１０２が算出した特徴量と異なる特徴量を音声分析部１１０が算出し、長区間特徴量算出部１０８が、音声分析部１１０が算出した特徴量である第２の特徴量を補助的に用いて長区間特徴量を算出してもよい。
本実施形態における音声検出装置は、音声分析部１１０が、特徴量算出部１０２とは独立に様々の特徴量を算出することができるので、様々な観点で特徴量が算出され、より頑健な音声検出を実現することが可能になる。
実施形態３．
本発明の第３の実施形態について、図面を参照して説明する。図８は、本発明による音声検出装置の第３の実施形態の構成例を示すブロック図である。
第３の実施形態の音声検出装置は、図１に示す第１の実施形態の音声検出装置の構成に加えて、音声らしい特徴量を用いて音声区間に対応する認識結果を出力する音声認識部１１１を含む。
図９は、音声検出装置の第３の実施形態の他の例を示すブロック図である。図９に示す例では、音声認識部１１１は、音声検出された音声区間に対して音声認識を行う。
図８および図９に示す第３の実施形態の音声検出装置は、以下のように動作する。すなわち、音声認識部１１１は、入力された音声信号から適宜特徴量を抽出する。そして、音声認識部１１１は、言語モデル／音声認識辞書（図示せず）に格納されている単語の特徴量と、抽出した特徴量とをマッチングすることで音声区間の時間情報付き単語列である認識結果を算出する音声認識を行い、時間情報付き音声認識結果単語列を出力する。
長区間特徴量算出部１０８は、長区間特徴量として音声認識結果から音素継続時間を求める。音素継続時間Ｔａは、以下に示す式（６）で算出される。
Ｔａ＝Ｔｂ／Ｎｆ・・・（６）
ここで、Ｔｂは音声認識部１１１が出力した音声認識結果単語列の単語１つについてのフレーム数であり、Ｎｆは単語の音素数である。
閾値更新部１０９は、長区間特徴量算出部１０８がステップＳ１０６の処理で算出した長区間特徴量、すなわち音素継続時間長を用いて、音声／非音声区間整形部１０７によって切り出された各区間の非音声確率αを算出する。
具体的には、閾値更新部１０９は、例えば、図１０に示すような長区間特徴量を変数とする関数を用いて非音声確率αを求める。図１０は、本発明の第３の実施形態において非音声確率αを求めるための関数を示す説明図である。図１０に示すように、横軸は長区間特徴量の値、縦軸は非音声確率αである。図１０に示すように、長区間特徴量がτｍｉｎ以下である場合、およびτｍａｘ以上である場合に、非音声確率αは１である。また、長区間特徴量がτ０以上であってτ１以下である場合に、非音声確率αは０である。そして、図１０に示す例では、長区間特徴量がτｍｉｎを超えている場合にτ０まで非音声確率αは単調減少し、長区間特徴量がτ１を超えている場合にτｍａｘまで非音声確率αは単調増加する。
なお、τｍｉｎ、τｍａｘ、τ０、およびτ１は、予め実験で求められた適切な値であるとする。
本実施形態では、長区間特徴量算出部１０８は、継続時間長を算出する単位を音素としたが、音節など、他の単位を使ってもよい。また、図１０に示す関数は一例に過ぎず、これに限られるものではない。関数は、長区間特徴量の中庸な値から遠ざかるにつれて関数値が増加するような任意の関数を定義でもよい。
本実施形態の効果について説明する。閾値を超える背景雑音が長時間続いたときなどに、通常の音声認識結果から得られる継続時間長よりも極端に長いまたは短い継続時間長が生じやすいという性質がある。具体的には、背景雑音が長時間続いた結果、極端に長い音声区間になった場合には、その音声区間の音は背景雑音なので音声らしさはほとんどない。そして、音声認識部１１１がその音を音声認識しても短い単語が認識結果として出力されてしまうことがある。つまり、適切な音声認識は行われない。また、２〜３フレームなどの極端に短い突発雑音などを音声区間とした場合には、そのような短い時間で単語を発することは不可能であるので、その音声区間の音は非音声であると判断される。従って、通常の音声認識結果から得られる継続時間長よりも極端に長いまたは短い継続時間長の音声区間の音は、非音声であるという性質がある。
本実施形態における音声検出装置は、そのような性質を利用して非音声確率αを算出するので、より精度の高い非音声確率αを算出することが可能となる。
実施形態４．
本発明の第４の実施形態について説明する。第４の実施形態の音声検出装置は、図８および図９に示す第３の実施形態の音声検出装置の音声認識部１１１が、音声認識ではなく連続音素認識を行う。すなわち、音声認識部１１１は、連続音素認識を行い、時刻情報付きの音素列を出力する。長区間特徴量算出部１０８は、音声認識部１１１が出力した音素列を構成する各音素の継続時間長を求める。閾値更新部１０９の動作は、前述した第３の実施形態における動作と同様である。
なお、本実施形態でも第３の実施形態と同様に、継続時間長を算出する単位を音素としているが、音節などの単位が用いられてもよい。
本実施形態における音声検出装置は、音声認識部１１１が連続音素認識を行うので、音声認識を行う第３の実施形態の音声検出装置よりも容易に音素の継続時間長を取得することができる。すると、音素の継続時間長を計算する負荷を軽減し、音声検出装置全体の処理速度が高速化する。音声認識部１１１は、音素認識の場合には音素単位で認識を行っているので、発声区間の音素長を容易に取得することができるが、音声認識の場合には、認識結果の単語から音素数を導き出し、１発声あたりの時間で除算して音素の継続時間長を算出しなければならない。したがって、音声検出装置が音素の継続時間長を容易に取得することは処理負荷の軽減のために重要である。
実施形態５．
本発明の第５の実施形態について説明する。第５の実施形態の音声検出装置は、図８または図９に示す第３の実施形態の音声検出装置の構成と同様であるが、長区間特徴量算出部１０８が、音声認識結果の信頼度を用いて長区間特徴量を算出する。
具体的には、例えば、音声認識部１１１は、入力された音声信号から適宜特徴量を抽出する。そして、音声認識部１１１は、言語モデル／音声認識辞書に格納されている単語の特徴量と、抽出した特徴量とをマッチングし、複数の音声認識結果の候補のスコアを出力する。スコアとは、例えば、言語モデル／音声認識辞書に格納されている単語の特徴量と、抽出した特徴量とが合致する度合いを表す数値である。音声認識部１１１は、当該度合いが高い複数のスコアを出力する。
そして、長区間特徴量算出部１０８は、音声認識部１１１が出力した音声認識結果のスコアのうち、当該度合いが高い順に第１位の候補のスコアと第２位の候補のスコアとの差を算出する。当該スコアの差が小さい場合には、音声認識結果の信頼度は低いと考えられ、当該スコアの差が大きい場合には、音声認識結果の信頼度は高いと考えられる。なお、音声認識結果の信頼度に相当する尺度は、スコアの差に代えて他の尺度であってもよい。
閾値更新部１０９は、長区間特徴量算出部１０８が算出した長区間特徴量、すなわち信頼度を用いて、音声／非音声区間整形部１０７によって切り出された音声区間に対して非音声確率αを算出する。閾値更新部１０９は、具体的には、例えば、図１０に示すような長区間特徴量を変数とする関数を用いて非音声確率αを求める。
図１１は、本発明の第５の実施形態において非音声確率αを求めるための関数を示す説明図である。図１１に示すように、横軸は長区間特徴量の値、縦軸は非音声確率αである。図１１に示すように、長区間特徴量がτ０以上である場合に、非音声確率αは０である。また、長区間特徴量が０からτ０未満である場合に、非音声確率αは１から０に単調減少する。なお、τ０は、予め実験で求められた適切な値であるとする。また、図１１に示す関数は一例であり、任意の単調減少関数または単調非増大関数であってもよい。
本実施形態における音声検出装置は、音声認識結果の信頼度が低い区間は非音声区間である可能性が高いという性質を利用して、非音声確率αを算出するように動作するので、より精度の高い非音声確率を算出することが可能となる。
実施形態６．
本発明の第６の実施形態について、図面を参照して説明する。図１２は、本発明による音声検出装置の第６の実施形態の構成例を示すブロック図である。
第６の実施形態の音声検出装置は第１〜第５の実施形態を組み合わせたものである。長区間特徴量算出部１０８は、第１〜第５の実施形態の方法を１つ以上組み合わせて長区間特徴量を算出する。音声検出装置は、非音声確率αを第１〜第５の実施形態の非音声確率算出方法を用いて算出し、各々の非音声確率αの積を非音声確率とする。また、音声検出装置は、各々の非音声確率αを重み付けした後に積を算出して非音声確率として用いてもよい。また、音声検出装置は、各々の非音声確率αの平均値や、適当な重み付け平均値などを非音声確率として用いてもよい。
本実施形態における音声検出装置は、第１〜第５の実施形態を組み合わせることで、より精度の高い非音声確率を算出することが可能になる。
実施形態７．
本発明の第７の実施形態は、第１〜第５の実施形態の音声検出装置を含む音声認識装置である。音声認識装置は、第１〜第５の実施形態の音声検出装置によって音声区間であると決定された区間に対して、公知の音声認識処理を行い、音声認識結果を出力する。
本実施形態における音声認識装置は、高い精度で音声区間であると決定された区間に音声認識処理を行うので、非音声区間に音声認識処理を行う無駄な処理の実行を防ぐことができる。また、音声区間に対して高い精度で音声認識処理を行い、音声認識処理の漏れを防ぐことができる。
次に、本発明の概要について説明する。図１３は、本発明の概要を示すブロック図である。本発明による音声検出装置３００は、特徴量算出部３０１（図１に示す特徴量算出部１０２に相当）、音声／非音声判定部３０２（図１に示す音声／非音声判定部１０４および音声／非音声区間整形部１０７に相当）、長区間特徴量算出部３０３（図１に示す長区間特徴量算出部１０８に相当）、および閾値更新部３０４（図１に示す閾値更新部１０９に相当）を含む。
特徴量算出部３０１は、所定の単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する。音声／非音声判定部３０２は、特徴量算出部３０１が算出した特徴量と、入力信号が音声にもとづく信号であるか否かを判定するための音声検出閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する。
長区間特徴量算出部３０３は、特徴量算出部３０１が算出した音声区間または非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、音声区間または非音声区間の特徴量である長区間特徴量を算出する。
閾値更新部３０４は、長区間特徴量算出部３０３が算出した長区間特徴量を用いて、音声区間および非音声区間が非音声にもとづく信号が入力された区間であった確率である非音声確率を算出し、算出した非音声確率にもとづいて、音声検出閾値を更新する。
上記の構成による音声検出装置３００は、入力信号の先頭が背景雑音にもとづく信号であって、特徴量が音声検出閾値を超える信号であっても、音声検出閾値を更新して、高精度の音声区間検出を行うことができる。
また、上記の各実施形態では、以下の（１）〜（１１）に示すような音声検出装置も開示されている。
（１）長区間特徴量算出部３０３が、音声／非音声判定部３０２が判定した１つ以上の音声区間、または非音声区間にわたる特徴量に統計処理を施し、長区間特徴量を算出する音声検出装置。
（２）長区間特徴量算出部３０３が、長区間特徴量を算出する際に、フレームごとの特微量の平均値、最頻値、中央値、および大きい順に並べた結果の上から数えて所定の割合に達する位置にある値を用いる方法の少なくともいずれか１つを用いる音声検出装置。
（３）閾値更新部３０４が、音声区間または非音声区間における特徴量の最大値と最小値と非音声確率とを用いて、音声検出閾値を更新する音声検出装置。
（４）閾値更新部３０４が、非音声確率を用いて特徴量の最大値と最小値を内分する値を求め、内分した値に近い値になるように音声検出閾値を更新する音声検出装置。
（５）特徴量算出部３０４が算出する特徴量とは異なる第２の特徴量を算出する第２の特徴量算出部（図７に示す音声分析部１１０に相当）を備え、長区間特徴量算出部３０３が、特徴量算出部３０４が算出した特徴量と、第２の特徴量算出部が算出した第２の特徴量とを用いて長区間特徴量を算出する音声検出装置。
（６）第２の特徴量算出部（図８に示す音声認識部１１１に相当）が、入力信号に音声認識を行って音声認識結果を出力し、長区間特徴量算出部３０３は、音声認識結果にもとづいて長区間特徴量を算出する音声検出装置。
（７）長区間特徴量算出部３０３が、長区間特徴量として音声認識結果の信頼度を算出する音声検出装置。
（８）第２の特徴量算出部が、予め記憶手段に格納されている単語の特徴量と音声認識対象の入力信号の特徴量とが合致する度合いを示す値であるスコアにもとづく音声認識結果の複数の候補のスコアを出力し、長区間特徴量算出部が、度合いが高い順に第１位の候補のスコアと第２位の候補のスコアとの差を信頼度として算出する音声検出装置。
（９）第２の特徴量算出部が、入力信号に音声認識を行って時刻情報の付いた音声認識結果を出力し、長区間特徴量算出部３０３が、時刻情報の付いた音声認識結果から長区間特徴量を算出する音声検出装置。
（１０）長区間特徴量算出部３０３は、長区間特徴量として時刻情報から継続時間長を算出する音声検出装置。
（１１）長区間特徴量算出部３０３が、音素または音節を単位として継続時間長を算出する音声検出装置。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
この出願は、２００９年１２月２４日に出願された日本出願特願２００９−２９１９７６を基礎とする優先権を主張し、その開示の全てをここに取り込む。
（付記１）所定の単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する特徴量算出部と、前記特徴量と、前記入力信号が音声にもとづく信号であるか否かを判定するための音声検出閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する音声／非音声判定部と、前記特徴量算出部が算出した前記音声区間または前記非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、前記音声区間または前記非音声区間の特徴量である長区間特徴量を算出する長区間特徴量算出部と、前記長区間特徴量を用いて、前記音声区間および前記非音声区間が非音声にもとづく信号が入力された区間であった確率である非音声確率を算出し、算出した前記非音声確率にもとづいて、前記音声検出閾値を更新する閾値更新部とを備えたことを特徴とする音声検出装置。
（付記２）長区間特徴量算出部は、音声／非音声判定部が判定した１つ以上の音声区間、または非音声区間にわたる特徴量に統計処理を施し、長区間特徴量を算出する付記１に記載の音声検出装置。
（付記３）長区間特徴量算出部は、長区間特徴量を算出する際に、フレームごとの特徴量の平均値、最頻値、中央値、および大きい順に並べた結果の上から数えて所定の割合に達する位置にある値を用いる方法の少なくともいずれか１つを用いる付記１または付記２に記載の音声検出装置。
（付記４）閾値更新部は、音声区間または非音声区間における特徴量の最大値と最小値と非音声確率とを用いて、音声検出閾値を更新する付記１から付記３のうちいずれかに記載の音声検出装置。
（付記５）閾値更新部は、非音声確率を用いて前記特徴量の最大値と最小値を内分する値を求め、前記内分した値に近い値になるように音声検出閾値を更新する付記４に記載の音声検出装置。
（付記６）特徴量算出部が算出する特徴量とは異なる第２の特徴量を算出する第２の特徴量算出部を備え、長区間特徴量算出部は、前記特徴量算出部が算出した特徴量と、前記第２の特徴量算出部が算出した第２の特徴量とを用いて長区間特徴量を算出する付記１から付記５のうちいずれかに記載の音声検出装置。
（付記７）第２の特徴量算出部は、入力信号に音声認識を行って音声認識結果を出力し、長区間特徴量算出部は、前記音声認識結果にもとづいて長区間特徴量を算出する付記６に記載の音声検出装置。
（付記８）長区間特徴量算出部は、長区間特徴量として音声認識結果の信頼度を算出する付記７に記載の音声検出装置。
（付記９）第２の特徴量算出部は、予め記憶手段に格納されている単語の特徴量と音声認識対象の入力信号の特徴量とが合致する度合いを示す値であるスコアにもとづく音声認識結果の複数の候補のスコアを出力し、長区間特徴量算出部は、前記度合いが高い順に第１位の候補のスコアと第２位の候補のスコアとの差を信頼度として算出する付記８に記載の音声検出装置。
（付記１０）第２の特徴量算出部は、入力信号に音声認識を行って時刻情報の付いた音声認識結果を出力し、長区間特徴量算出部は、前記時刻情報の付いた音声認識結果から長区間特徴量を算出する付記６に記載の音声検出装置。
（付記１１）長区間特徴量算出部は、長区間特徴量として時刻情報から継続時間長を算出する付記１０に記載の音声検出装置。
（付記１２）長区間特徴量算出部は、音素または音節を単位として継続時間長を算出する付記１１に記載の音声検出装置。
（付記１３）付記１から付記１２のうちいずれかに記載の音声検出装置を含み、前記音声検出装置が出力する音声区間に対して音声認識を行い、音声認識結果を出力することを特徴とする音声認識装置。
（付記１４）所定の単位時間内の入力信号であるフレームごとの入力信号の特徴量を算出し、前記特徴量と、前記入力信号が音声にもとづく信号であるか否かを判定するための音声検出閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定し、前記音声区間または前記非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、前記音声区間または前記非音声区間の特徴量である長区間特徴量を算出し、前記長区間特徴量を用いて、前記音声区間および前記非音声区間が非音声にもとづく信号が入力された区間であった確率である非音声確率を算出し、算出した前記非音声確率にもとづいて、前記音声検出閾値を更新することを特徴とする音声検出方法。
（付記１５）１つ以上の音声区間、または非音声区間にわたる特徴量に統計処理を施し、長区間特徴量を算出する付記１４に記載の音声検出方法。

１０１波形切りだし部
１０２、３０１特徴量算出部
１０３閾値記憶部
１０４、３０２音声／非音声判定部
１０５判定結果保持部
１０６整形ルール記憶部
１０７音声／非音声区間整形部
１０８、３０３長区間特徴量算出部
１０９、３０４閾値更新部
１１０音声分析部
１１１音声認識部
３００音声検出装置

Claims

単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する特徴量算出手段と、
前記特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する音声／非音声判定手段と、
前記特徴量算出手段が算出した前記音声区間または前記非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、前記音声区間または前記非音声区間の特徴量である長区間特徴量を算出する長区間特徴量算出手段と、
前記長区間特徴量を用いて、前記音声区間および前記非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した前記非音声確率にもとづいて、前記閾値を更新する閾値更新手段と、
を備えた音声検出装置。
前記長区間特徴量算出手段は、前記音声／非音声判定手段が判定した複数の前記音声区間、または前記非音声区間にわたる特徴量に統計処理を施し、前記長区間特徴量を算出する
請求項１に記載の音声検出装置。
前記長区間特徴量算出手段は、前記長区間特徴量を算出する際に、前記フレームごとの前記特徴量の平均値、最頻値、中央値、および大きい順に並べた結果の上から数えて所定の割合に達する位置にある値を用いる方法の少なくともいずれか１つを用いる
請求項１または請求項２に記載の音声検出装置。
前記閾値更新手段は、前記音声区間または前記非音声区間における前記特徴量の最大値と最小値と前記非音声確率とを用いて、音声検出閾値を更新する
請求項１から請求項３のうちいずれか１項に記載の音声検出装置。
前記閾値更新手段は、前記非音声確率を用いて前記特徴量の最大値と最小値を内分する値を求め、前記内分した値に近い値になるように前記閾値を更新する
請求項４に記載の音声検出装置。
前記特徴量算出手段が算出する前記特徴量とは異なる第２の特徴量を算出する第２の特徴量算出手段を備え、
前記長区間特徴量算出手段は、前記特徴量算出手段が算出した前記特徴量と、前記第２の特徴量算出手段が算出した前記第２の特徴量とを用いて前記長区間特徴量を算出する
請求項１から請求項５のうちいずれか１項に記載の音声検出装置。
前記第２の特徴量算出手段は、前記入力信号に音声認識を行って音声認識結果を出力し、
前記長区間特徴量算出手段は、前記音声認識結果にもとづいて前記長区間特徴量を算出する
請求項６に記載の音声検出装置。
前記長区間特徴量算出手段は、前記長区間特徴量として前記音声認識結果の信頼度を算出する
請求項７に記載の音声検出装置。
単位時間内の入力信号であるフレームごとの入力信号の特徴量を算出し、
前記特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定し、
前記音声区間または前記非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、前記音声区間または前記非音声区間の特徴量である長区間特徴量を算出し、
前記長区間特徴量を用いて、前記音声区間および前記非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した前記非音声確率にもとづいて、前記閾値を更新する
音声検出方法。
コンピュータに、
単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する特徴量算出処理と、
前記特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する音声／非音声判定処理と、
前記特徴量算出処理で算出した前記音声区間または前記非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、前記音声区間または前記非音声区間の特徴量である長区間特徴量を算出する長区間特徴量算出処理と、
前記長区間特徴量を用いて、前記音声区間および前記非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した前記非音声確率にもとづいて、前記閾値を更新する閾値更新処理と、
を実行させるための音声検出プログラムを格納するプログラム記録媒体。