JPWO2010070840A1

JPWO2010070840A1 - 音声検出装置、音声検出プログラムおよびパラメータ調整方法

Info

Publication number: JPWO2010070840A1
Application number: JP2010542839A
Authority: JP
Inventors: 隆行荒川; 剛範辻川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-12-17
Filing date: 2009-12-07
Publication date: 2012-05-24
Anticipated expiration: 2029-12-07
Also published as: JP5299436B2; WO2010070840A1; US8812313B2; US20110251845A1

Abstract

判定結果導出手段７４は、音声区間数および非音声区間数が既知の音声データの時系列に対し、単位時間毎に音声もしくは非音声であると判定し、その判定のうち連続して音声に該当すると判定された区間の長さもしくは連続して非音声に該当すると判定された区間の長さと継続長閾値とを比較して音声区間および非音声区間を整形する。区間数算出手段７５は、音声区間および非音声区間の数を算出する。継続長閾値更新手段７６は、算出した音声区間数と正解音声区間数との差分または算出した非音声区間数と正解非音声区間数との差分が小さくなるように、継続長閾値を更新する。

Description

本発明は、音声検出装置、音声検出プログラムおよびパラメータ調整方法に関し、特に、入力信号の音声区間と非音声区間とを判別する音声検出装置、音声検出プログラム、および音声検出装置に適用されるパラメータ調整方法に関する。

音声検出技術は、種々の目的で広く用いられている。音声検出技術は、例えば、移動体通信等において非音声区間の圧縮率を向上させたり、あるいはその区間だけ伝送しないようにしたりして音声伝送効率を向上する目的で用いられる。また、例えば、ノイズキャンセラやエコーキャンセラ等において非音声区間で雑音を推定したり決定したりする目的や、音声認識システムにおける性能向上、処理量削減等の目的で広く用いられている。

音声区間を検出する装置が種々提案されている（例えば、特許文献１，２参照）。特許文献１に記載された音声区間検出装置は、音声フレームを切り出し、音量をスムージングして第１変動を算出し、第１変動の変動をスムージングして第２変動を算出する。そして、第２変動と閾値とを比較して、フレーム毎に音声か非音声であるのかを判定する。さらに、以下のような判定条件に従って、音声および非音声のフレーム継続長をもとにした音声区間を決定する。

条件（１）：最低限必要な継続長を満たさなかった音声区間は音声区間として認めない。以下、この最低限必要な継続長を音声継続長閾値と記す。

条件（２）：音声区間の間に挟まれていて、連続した音声区間として扱うべき継続長を満たした非音声区間は、両端の音声区間と合わせて１つの音声区間とする。以下、この「連続した音声区間として扱うべき継続長」は、この長さ以上であれば非音声区間とすることから、非音声継続長閾値と記す。

条件（３）：変動の値が小さいために非音声として判定された音声区間始終端の一定数のフレームを音声区間に付け加える。以下、音声区間に付け加える一定数のフレームを始終端マージンと記す。

特許文献１に記載された音声区間検出装置において、フレーム毎に音声か非音声であるのかを判定する閾値および、上記の条件に関するパラメータ（音声継続長閾値、非音声継続長閾値等）は、予め定められた値である。

また、特許文献２に記載された発話区間検出装置は、音声の特徴量として、音声波形の振幅レベル、ゼロ交差数（一定時間内に信号レベルが０と交わる回数）、音声信号のスペクトル情報、ＧＭＭ（Gaussian Mixture Model）対数尤度等を用いる。

特開２００６−２０９０６９号公報特開２００７−１７６２０号公報

特許文献１に記載された条件（１）や条件（２）等を用いて、音声および非音声のフレーム継続長をもとにした音声区間を決定する場合、条件（１）や条件（２）等において定められたパラメータが、必ずしも雑音条件（例えば雑音の種類）や入力信号の収録条件（例えばマイクロホン特性やＡ−Ｄボードの性能）に適した値であるとは限らない。音声区間検出装置を使用する際、条件（１）や条件（２）等において定められたパラメータが雑音条件や収録条件に適した値になっていないと、条件（１）、条件（２）等による区間決定の精度が低下する。

そこで、本発明は、入力信号のフレームに対して音声区間に該当するか非音声区間に該当するかを判定し、所定のルールでその判定結果を整形する場合に、整形後の判定結果の精度を向上させることができる音声検出装置、音声検出プログラムおよびパラメータ調整方法を提供することを目的とする。

本発明による音声検出装置は、音声区間数および非音声区間数が既知の音声データの時系列に対し、単位時間毎に音声もしくは非音声であると判定し、判定のうち連続して音声に該当すると判定された区間の長さもしくは連続して非音声に該当すると判定された区間の長さと継続長閾値とを比較して音声区間および非音声区間を整形する判定結果導出手段と、整形後の判定結果から、音声区間および非音声区間の数を算出する区間数算出手段と、区間数算出手段が算出した音声区間数と正解音声区間数との差分または区間数算出手段が算出した非音声区間数と正解非音声区間数との差分が小さくなるように、継続長閾値を更新する継続長閾値更新手段とを備えることを特徴とする。

また、本発明によるパラメータ調整方法は、音声区間数および非音声区間数が既知の音声データの時系列に対し、単位時間毎に音声もしくは非音声であると判定し、判定のうち連続して音声に該当すると判定された区間の長さもしくは連続して非音声に該当すると判定された区間の長さと継続長閾値とを比較して音声区間および非音声区間を整形し、整形後の判定結果から、音声区間および非音声区間の数を算出し、整形後の判定結果から算出した音声区間数と正解音声区間数との差分、または整形後の判定結果から算出した非音声区間数と正解非音声区間数との差分が小さくなるように、継続長閾値を更新することを特徴とする。

また、本発明による音声検出プログラムは、コンピュータに、音声区間数および非音声区間数が既知の音声データの時系列に対し、単位時間毎に音声もしくは非音声であると判定し、判定のうち連続して音声に該当すると判定された区間の長さもしくは連続して非音声に該当すると判定された区間の長さと継続長閾値とを比較して音声区間および非音声区間を整形する判定結果導出処理、整形後の判定結果から、音声区間および非音声区間の数を算出する区間数算出処理、および、区間数算出処理で算出した音声区間数と正解音声区間数との差分または区間数算出処理で算出した非音声区間数と正解非音声区間数との差分が小さくなるように、継続長閾値を更新する継続長閾値更新処理を実行させることを特徴とする。

本発明によれば、入力信号のフレームに対して音声区間に該当するか非音声区間に該当するかを判定し、所定のルールでその判定結果を整形する場合に、整形後の判定結果の精度を向上させることができる。

本発明の第１の実施形態の音声検出装置の構成例を示すブロック図である。サンプルデータにおける音声区間および非音声区間の例を示す模式図である。第１の実施形態の音声検出装置の構成要素のうち学習処理に関する部分を示したブロック図である。学習処理の処理経過の例を示すフローチャートである。判定結果の整形の例を示す説明図である。第１の実施形態の音声検出装置の構成要素のうち、入力された音声信号のフレームに対して音声区間であるか非音声区間であるかを判定する部分を示したブロック図である。本発明の第２の実施形態の音声検出装置の構成例を示すブロック図である。第２の実施形態での学習処理の処理経過の例を示すフローチャートである。本発明の第３の実施形態の音声検出装置の構成例を示すブロック図である。本発明の概要を示すブロック図である。

以下、本発明の実施形態を図面を参照して説明する。なお、本発明の音声検出装置は、入力された音声信号における音声区間と非音声区間とを判別するので音声区間判別装置と称することもできる。

実施形態１．
図１は、本発明の第１の実施形態の音声検出装置の構成例を示すブロック図である。第１の実施形態の音声検出装置は、音声検出部１００と、サンプルデータ格納部１２０と、正解音声・非音声区間数格納部１３０と、音声・非音声区間数算出部１４０と、区間整形ルール更新部１５０と、入力信号取得部１６０とを備える。

本発明の音声検出装置は、入力された音声信号からフレームを切り出し、フレーム毎に音声区間に該当するのか非音声区間に該当するのかを判定する。さらに、その判定結果を整形するためのルール（区間整形ルール）に従って判定結果を整形し、整形後の判定結果を出力する。また、音声検出装置は、予め用意され、時系列順に音声区間か非音声区間かが定められているサンプルデータに対してもフレーム毎に音声区間に該当するのか非音声区間に該当するのかを判定し、区間整形ルールに従ってその判定結果を整形し、整形後の判定結果を参照して、区間整形ルールに含まれるパラメータを定める。そして、入力された音声信号に対する判定処理では、そのパラメータに基づいて判定結果を整形する。

また、区間とは、サンプルデータまたは入力された音声信号において、音声が存在する状態または音声が存在しない状態のいずれかが継続する一つの期間に相当する部分である。すなわち、音声区間は、サンプルデータまたは入力された音声信号において、音声が存在する状態が継続する一つの期間に相当する部分であり、非音声区間は、サンプルデータまたは入力された音声信号において、音声が存在しない状態が継続する一つの期間に相当する部分である。音声区間と非音声区間は、交互に現れる。フレームが音声区間に該当すると判定されたということは、そのフレームが音声区間に含まれると判定されたということである。フレームが非音声区間に該当すると判定されたということは、そのフレームが非音声区間に含まれると判定されたということである。

音声検出部１００は、サンプルデータや入力された音声信号における音声区間と非音声区間とを判別し、その結果を整形する。音声検出部１００は、入力信号切り出し部１０１と、特徴量算出部１０２と、閾値記憶部１０３と、音声・非音声判定部１０４と、判定結果保持部１０５と、区間整形ルール記憶部１０６と、音声・非音声区間整形部１０７とを備える。

入力信号切り出し部１０１は、サンプルデータや入力された音声信号から、単位時間分のフレームの波形データを時間順に順次、切り出す。すなわち、入力信号切り出し部１０１は、サンプルデータや音声信号からフレームを抽出する。単位時間の長さは、予め設定しておけばよい。

特徴量算出部１０２は、入力信号切り出し部１０１によって切り出されたフレーム毎に、音声の特徴量を算出する。

閾値記憶部１０３は、フレームが音声区間と非音声区間のどちらに該当するのかを判定するための閾値（以下、判定用閾値と記す。）を記憶する。判定用閾値は、予め閾値記憶部１０５に記憶させておく。以下、判定用閾値をθで表す。

音声・非音声判定部１０４は、特徴量算出部１０２によって計算された特徴量と、判定用閾値θとを比較して、フレームが音声区間と非音声区間のどちらに該当するのかを判定する。すなわち、フレームが音声区間に含まれるフレームであるのか、非音声区間に含まれるフレームであるのかを判定する。

判定結果保持部１０５は、フレーム毎に判定された判定結果を複数フレームに渡り保持する。

区間整形ルール記憶部１０６は、音声区間に該当するか非音声区間に該当するかの判定結果を整形するためのルールである区間整形ルールを記憶する。区間整形ルール記憶部１０６が記憶する区間整形ルールとして、以下に示すルールを記憶する。

第１の区間整形ルールは、「音声継続長閾値より短い音声区間を除去し、前後の非音声区間と合わせて一つの非音声区間とする。」というルールである。換言すれば、音声区間に該当すると判定されたフレームの連続数が音声継続長閾値未満である場合、そのフレームの判定結果を非音声区間に変更するというルールである。

第２の区間整形ルールは、「非音声継続長閾値より短い非音声区間を除去し、前後の音声区間と合わせて一つの音声区間とする。」というルールである。換言すれば、非音声区間に該当すると判定されたフレームの連続数が非音声継続長閾値未満である場合、そのフレームの判定結果を音声区間に変更するというルールである。

区間整形ルール記憶部１０６は、上記以外のルールを記憶していてもよい。

区間整形ルール記憶部１０６に記憶される区間整形ルールに含まれるパラメータは、初期状態の値（初期値）から区間整形ルール更新部１５０によって更新されていく。

音声・非音声区間整形部１０７は、区間整形ルール記憶部１０６に記憶されている区間整形ルールに従って、複数のフレームに渡る判定結果を整形する。

サンプルデータ格納部１２０は、区間整形ルールに含まれるパラメータを学習するための音声データであるサンプルデータを記憶する。ここで、学習するとは、区間整形ルールに含まれるパラメータを定めることである。サンプルデータは、区間整形ルールに含まれるパラメータを学習するための学習データであるということができる。また、区間整形ルールに含まれるパラメータとは、具体的には、音声継続長閾値と非音声継続長閾値である。

正解音声・非音声区間数格納部１３０は、サンプルデータに予め定められた音声区間の数と非音声区間の数とを記憶する。以下、サンプルデータに予め定められた音声区間の数を正解音声区間数と記す。また、サンプルデータに予め定められた非音声区間の数を正解非音声区間数と記す。例えば、図２に例示するサンプルデータのように音声区間および非音声区間が定められている場合、正解音声・非音声区間数格納部１３０には、正解音声区間数として“２”が記憶され、正解非音声区間数として“３”が記憶される。

音声・非音声区間数算出部１４０は、サンプルデータに対して判定を行ったときの判定結果に対して音声・非音声区間整形部１０７が整形を行った後、その整形後の判定結果から、音声区間数および非音声区間数を求める。

区間整形ルール更新部１５０は、音声・非音声区間数算出部１４０によって求められた音声区間数および非音声区間数と、正解音声・非音声区間数格納部１３０に記憶されている正解音声区間数および正解非音声区間数とに基づいて、区間整形ルールのパラメータ（音声継続長閾値と非音声継続長閾値）を更新する。区間整形ルール更新部１５０は、区間整形ルール記憶部１０６に記憶された区間整形ルールにおけるパラメータの値を規定する箇所を更新すればよい。

入力信号取得部１６０は、入力された音声のアナログ信号をデジタル信号に変換し、そのデジタル信号を音声信号として音声検出部１００の入力信号切り出し部１０１に入力する。入力信号取得部１６０は、例えば、マイクロホン１６１を介して音声信号（アナログ信号）を取得してもよい。あるいは、他の方法で音声信号を取得してもよい。

入力信号切り出し部１０１、特徴量算出部１０２、音声・非音声判定部１０４、音声・非音声区間整形部１０７、音声・非音声区間数算出部１４０および区間整形ルール更新部１５０は、それぞれ個別のハードウェアであってもよい。あるいは、プログラム（音声検出プログラム）に従って動作するＣＰＵによって実現されていてもよい。すなわち、音声検出装置が備えるプログラム記憶手段（図示せず）が予めプログラムを記憶し、ＣＰＵがそのプログラムを読み込み、プログラムに従って、入力信号切り出し部１０１、特徴量算出部１０２、音声・非音声判定部１０４、音声・非音声区間整形部１０７、音声・非音声区間数算出部１４０および区間整形ルール更新部１５０として動作してもよい。

閾値記憶部１０３、判定結果保持部１０５、区間整形ルール記憶部１０６、サンプルデータ格納部１２０、正解音声・非音声区間数格納部１３０は、例えば、記憶装置によって実現される。記憶装置の種類は特に限定されない。また、入力信号取得部１６０は、例えば、Ａ−Ｄ変換器、あるいはプログラムに従って動作するＣＰＵによって実現される。

次に、サンプルデータについて説明する。サンプルデータ格納部１２０に格納しておくサンプルデータの例として、１６ｂｉｔＬｉｎｅａｒ−ＰＣＭ（Pulse Code Modulation ）等の音声データが挙げられるが、他の音声データであってもよい。サンプルデータは、音声検出装置の使用が想定される雑音環境で収録された音声データが好ましいが、そのような雑音環境が定められない場合には、複数の雑音環境で収録された音声データをサンプルデータとして用いてもよい。また、雑音の含まれていないクリーンな音声と雑音とを分けて収録し、その音声と雑音とを重畳したデータを計算機によって作成し、そのデータをサンプルデータとしてもよい。

正解音声区間数および正解非音声区間数は、予めサンプルデータに対して定めておき、正解音声・非音声区間数格納部１３０に記憶させておく。人間が、サンプルデータに基づく音を聞いてサンプルデータにおける音声区間、非音声区間を判断し、音声区間の数および非音声区間の数を計数して、正解音声区間数および正解非音声区間数を定めてもよい。あるいは、サンプルデータに対して音声認識処理を行って、音声区間であるか非音声区間であるかのラベリングを行い、音声区間および非音声区間の数を計数してもよい。また、サンプルデータがクリーンな音声と雑音とが重畳された音声であるならば、クリーンな音声に対して別の音声検出（一般的な音声検出技術）を行って、音声区間であるか非音声区間であるかのラベリングを行ってもよい。

次に、動作について説明する。
図３は、第１の実施形態の音声検出装置の構成要素のうち、区間整形ルールに含まれるパラメータ（音声継続長閾値、非音声継続長閾値）を学習する学習処理に関する部分を示したブロック図である。また、図４は、この学習処理の処理経過の例を示すフローチャートである。以下、図３および図４を参照して、学習処理の動作を説明する。

まず、入力信号切り出し部１０１は、サンプルデータ格納部１２０に記憶されているサンプルデータを読み出し、サンプルデータから単位時間分のフレームの波形データを、時系列順に切り出す（ステップＳ１０１）。このとき、入力信号切り出し部１０１は、例えば、サンプルデータからの切り出し対象となる部分を、所定時間ずつずらしながら、単位時間分のフレームの波形データを順次、切り出せばよい。この単位時間をフレーム幅と呼び、この所定時間をフレームシフトと呼ぶ。例えば、サンプルデータ格納部１２０に記憶されたサンプルデータが、サンプリング周波数８０００Ｈｚの１６ｂｉｔＬｉｎｅａｒ−ＰＣＭの音声データである場合、サンプルデータは、１秒当たり８０００点分の波形データを含む。入力信号切り出し部１０１は、このサンプルデータから、例えば、フレーム幅２００点（２５ミリ秒）の波形データを、フレームシフト８０点（１０ミリ秒）で時系列順に順次、切り出してもよい。すなわち、２５ミリ秒分のフレームの波形データを１０ミリ秒分ずつずらしながら切り出してもよい。ただし、上記のサンプルデータの種類や、フレーム幅およびフレームシフトの値は例示であり、上記の例に限定されない。

次に、特徴算出部１０２は、入力信号切り出し部１０１によってフレーム幅ずつ切り出された各波形データの特徴量を算出する（ステップＳ１０２）。ステップＳ１０２で算出する算出特徴量の例として、例えば、スペクトルパワー（音量）の変動を平滑化し、さらにその平滑化結果の変動を平滑化したデータ（特許文献１における第２変動に相当）や、特許文献２に記載されている音声信号の振幅レベル、音声信号のスペクトル情報、ゼロ交差数（零点交差数）、ＧＭＭ対数尤度等を用いることができる。また、複数種類の特徴量を混合して得られる特徴長を算出してもよい。なお、これらの特徴量は例示であり、ステップＳ１０２ではこれら以外の特徴量を算出してもよい。

次に、音声・非音声判定部１０４は、閾値記憶部１０３に記憶されている判定用閾値θと、ステップＳ１０２で算出された特徴量とを比較し、フレーム毎に音声区間に該当するか非音声区間に該当するのかを判定する（ステップＳ１０３）。例えば、音声・非音声判定部１０４は、算出された特徴量が判定用閾値θよりも大きければフレームは音声区間に該当すると判定し、特徴量が判定用閾値θ以下であればフレームは非音声区間に該当すると判定する。ただし、特徴量によっては音声区間で値が小さく、非音声区間で値が大きいこともあり得る。この場合、特徴量が判定用閾値θよりも小さければフレームは音声区間に該当すると判定し、特徴量が判定用閾値θ以上であればフレームは非音声区間に該当すると判定すればよい。判定用閾値θの値は、ステップＳ１０２で算出する特徴量の種類に応じて定めておけばよい。

音声・非音声判定部１０４は、フレームが音声区間に該当するか非音声区間に該当するかの判定結果を複数フレームに渡って判定結果保持部１０５に保持させる（ステップＳ１０４）。判定結果を判定結果保持部１０５に保持させる（すなわち記憶させる）態様は、フレーム毎に音声区間または非音声区間のラベルを付けて記憶させる態様であってもよい。あるいは、区間として保持させてもよい。例えば、音声区間と判定された連続するフレームに関して、同じ音声区間に属する旨の情報を記憶させ、非音声区間と判定された連続するフレームに関して、同じ非音声区間に属する旨の情報を記憶させてもよい。また、音声区間に該当するか非音声区間に該当するかの判定結果をどのくらいの長さに渡って判定結果保持部１０５に保持させるかは、変更可能とすることが好ましい。一発声全体のフレームの判定結果を判定結果保持部１０５に保持させると設定してもよく、また、数秒分のフレームの判定結果を判定結果保持部１０５に保持させると設定してもよい。

次に、音声・非音声区間整形部１０７は、判定結果保持部１０５に保持されている判定結果を、区間整形ルールに従って整形する（ステップＳ１０５）。

例えば、前述の第１の区間整形ルールに従って、音声・非音声区間整形部１０７は、音声区間に該当すると判定されたフレームの連続数が音声継続長閾値未満である場合、そのフレームの判定結果を非音声区間に変更する。すなわち、そのフレームが非音声区間に該当する旨に変更する。この結果、フレーム連続数が音声継続長閾値より短い音声区間が除去され、その音声区間は前後の非音声区間と合わさって一つの非音声区間になる。

また、例えば、前述の第２の区間整形ルールに従って、音声・非音声区間整形部１０７は、非音声区間に該当すると判定されたフレームの連続数が非音声継続長閾値未満である場合、そのフレームの判定結果を音声区間に変更する。すなわち、そのフレームが音声区間に該当する旨に変更する。この結果、フレーム連続数が非音声継続長閾値より短い非音声区間が除去され、その非音声区間は前後の音声区間と合わさって一つの音声区間になる。

図５は、判定結果の整形の例を示す説明図である。図５において、Ｓは、音声区間に該当すると判定されたフレームであり、Ｎは、非音声区間に該当すると判定されたフレームである。また、図５の上段は整形前の判定結果を表し、下段は整形後の判定結果を表す。音声継続長閾値が２よりも大きいとする。すると、音声区間と判定されたフレームの連続数が２である場合、その連続数“２”は、音声継続長閾値未満である。よって、音声・非音声区間整形部１０７は、第１の区間整形ルールに従って、その２つのフレームに関し、判定結果を非音声区間に整形する。この結果、図５の下段に示すように、整形前に音声区間であった部分は、その前後の非音声区間と合わさって一つの非音声区間とされる。図５では、第１の区間整形ルールに従って整形する場合を示したが、第２の区間整形ルールに従う場合も同様である。

ステップＳ１０５では、その時点で区間整形ルール記憶部１０６に記憶されている区間整形ルールに従う。例えば、最初にステップＳ１０５に移行したときには、音声継続長閾値や非音声継続長閾値の初期値を用いて整形する。

ステップＳ１０５の後、音声・非音声区間数算出部１４０は、整形された結果を参照して、音声区間数および非音声区間数を算出する（ステップＳ１０６）。音声・非音声区間数算出部１４０は、連続して音声区間と判定されている１つ以上のフレームからなる集合を一つの音声区間として、そのようなフレームの集合の数を計数することによって音声区間数を求める。例えば、図５の下段に示す例では、連続して音声区間と判定されている１つ以上のフレームからなる集合は一つ存在するので、音声区間数を１とする。同様に、音声・非音声区間数算出部１４０は、連続して非音声区間と判定されている１つ以上のフレームからなる集合を一つの非音声区間として、そのようなフレームの集合の数を計数することによって非音声区間数を求める。例えば、図５の下段に示す例では、連続して非音声区間と判定されている１つ以上のフレームからなる集合は二つ存在するので、非音声区間を２とする。

次に、区間整形ルール更新部１５０は、ステップＳ１０５で求めた音声区間数および非音声区間数と、正解音声・非音声区間数格納部１３０に記憶されている正解音声区間数および正解非音声区間数とに基づいて、音声継続長閾値と非音声継続長閾値を更新する（ステップＳ１０７）。

音声継続長閾値をθ^音声と表すこととすると、区間整形ルール更新部１５０は、以下に示す式（１）のように、音声継続長閾値θ^音声を更新する。

θ^音声 ← θ^音声―ε×（正解音声区間数―音声区間数）式（１）

式（１）における左辺のθ^音声は更新後の音声継続長閾値であり、右辺のθ^音声は更新前の音声継続長閾値である。すなわち、区間整形ルール更新部１５０は、更新前の音声継続長閾値θ^音声を用いて、θ^音声―ε×（正解音声区間数―音声区間数）を計算し、その計算結果を更新後の音声継続長閾値とすればよい。式（１）においてεは、更新のステップサイズを表す。すなわち、εはステップＳ１０７の処理を一回行うときにおけるθ^音声の更新の大きさを規定する値である。

また、非音声継続長閾値をθ^非音声と表すこととすると、区間整形ルール更新部１５０は、以下に示す式（２）のように、非音声継続長閾値θ^非音声を更新する。

θ^非音声 ← θ^非音声―ε’×（正解非音声区間数―非音声区間数）
式（２）

式（２）における左辺のθ^非音声は更新後の非音声継続長閾値であり、右辺のθ^非音声は更新前の非音声継続長閾値である。すなわち、区間整形ルール更新部１５０は、更新前の非音声継続長閾値θ^非音声を用いて、θ^非音声―ε’×（正解非音声区間数―非音声区間数）を計算し、その計算結果を更新後の非音声継続長閾値とすればよい。式（２）においてε’は、更新のステップサイズであり、ステップＳ１０７の処理を一回行うときにおけるθ^非音声の更新の大きさを規定する値である。

ステップサイズε，ε’の値としては一定の値を用いてもよい。あるいは、最初にεおよびε’の値を大きな値として設定しておき、徐々にε，ε’の値を小さくしてもよい。

次に、区間整形ルール更新部１５０は、音声継続長閾値および非音声継続長閾値の更新の終了条件が満たされているか否かを判定する（ステップＳ１０８）。更新の終了条件が満たされていれば（ステップＳ１０８におけるＹｅｓ）、学習処理を終了する。また、更新の終了条件が満たされていなければ（ステップＳ１０８におけるＮｏ）、ステップＳ１０１以降の処理を繰り返す。このとき、ステップＳ１０５を実行する際には、直前のステップＳ１０７で更新された音声継続長閾値および非音声継続長閾値に基づいて、判定結果に対する整形を行う。更新の終了条件として、音声継続長閾値および非音声継続長閾値の更新前後の変化量が予め設定した値より小さいという条件を用いてもよい。すなわち、更新前後での音声継続長閾値の変化量（差分）や、非音声継続長閾値の変化量（差分）が、予め定めた値という条件が満たされているか否かを判定してもよい。あるいは、全てのサンプルデータを規定の回数用いて学習したという条件（換言すれば、ステップＳ１０１からステップＳ１０８までの処理を規定回数行ったという条件）を用いてもよい。

式（１）および式（２）によるパラメータの更新は、最急降下法の考え方に基づいている。正解音声区間数と音声区間数との差分、および正解非音声区間数と非音声区間数との差分が小さくなる方法であれば、式（１）および式（２）に示す方法以外の方法で、パラメータを更新してもよい。

図６は、第１の実施形態の音声検出装置の構成要素のうち、入力された音声信号のフレームに対して音声区間であるか非音声区間であるかを判定する部分を示したブロック図である。以下、図４を参照して、音声継続長閾値および非音声継続長閾値の学習後における判定処理を説明する。

まず、入力信号取得部１６０は、音声区間と非音声区間の判別対象となる音声のアナログ信号を取得し、デジタル信号に変換し、音声検出部１００に入力する。なお、アナログ信号の取得は、例えばマイクロホン１６１等を用いて行えばよい。音声検出部１００は、音声信号が入力されると、その音声信号を対象としてステップＳ１０１〜ステップＳ１０５（図４参照）と同様の処理を行い、整形後の判定結果を出力する。

すなわち、入力信号切り出し部１０１が、入力された音声データから各フレームの波形データを切り出し、各特徴量算出部１０２が各フレームの特徴量を算出する（ステップＳ１０２）。次に、音声・非音声判定部１０６が、その特徴量と判定用閾値とを比較し、フレーム毎に音声区間に該当するのか非音声区間に該当するのかを判定し（ステップＳ１０３）、その判定結果を判定結果保持部１０５に保持させる（ステップＳ１０４）。音声・非音声区間整形部１０７は、区間整形ルール記憶部１０６に記憶された区間整形ルールに従って、その判定結果を整形し（ステップＳ１０５）、整形後の判定結果を出力データとする。区間整形ルールに含まれるパラメータ（音声継続長閾値および非音声継続長閾値）は、サンプルデータを用いた学習で定められた値であり、そのパラメータを用いて、判定結果を整形する。

次に、本実施形態の効果を説明する。
音声・非音声判定部１０４の判定結果に対して、前述の区間整形ルールを用いて整形を行ったときに、個別具体的な整形結果が得られる確率を式で表すと、以下に示す式（３）および式（４）のように表すことができる。

式（３）および式（４）において、ｃは区間を表し、Ｌ_ｃは区間ｃにおけるフレーム数を表す。音声区間と非音声区間は交互に現れるので、最初の区間が必ず非音声区間になるとすると、以降、非音声区間は必ず奇数（odd ）番目となり、音声区間は必ず偶数（even）番目となる。また、｛Ｌ_ｃ｝は、入力信号をどのように音声区間と非音声区間とに分割するのかという系列を意味し、具体的には、｛Ｌ_ｃ｝は、音声区間や非音声区間におけるフレーム数の並びで表される。例えば、｛Ｌ_ｃ｝＝｛３，５，２，１０，８｝であったとすると、非音声区間が３フレーム続いた後、音声区間が５フレーム続き、非音声区間が２フレーム続き、音声区間が１０フレーム続き、非音声区間が８フレーム続くことを意味する。

そして、式（３）の左辺のＰ（｛Ｌ_ｃ｝；θ^音声，θ^非音声）は、音声継続長閾値がθ^音声であり、非音声継続長閾値がθ^非音声である場合に｛Ｌ_ｃ｝という整形結果が得られる確率である。すなわち、音声・非音声判定部１０４の判定結果に対して区間整形ルールを用いて整形した結果が｛Ｌ_ｃ｝となる確率である。ｃ∈ｅｖｅｎは、偶数番目の区間（すなわち、音声区間）を意味し、ｃ∈ｏｄｄは、奇数番目の区間（すなわち、非音声区間）を意味する。

γおよびγ’は、音声検出性能の信頼度であり、γは音声区間に関する信頼度であり、γ’は非音声区間に関する信頼度である。音声検出結果が必ず正しければこの信頼度の値は無限大であり、結果が全く信頼できなければ信頼度の値は０である。

また、Ｍ_ｃは、音声・非音声判定部１０４による音声区間と非音声区間のどちらに該当するかについての判定で用いられたフレーム毎の特徴量および判定用閾値θから、式（５）に示すように計算される値である。

ｔはフレームを表し、ｔ∈ｃは着目する区間ｃの中にあるフレームを表している。ｒは、区間整形ルールとフレーム毎の判定のどちらを重んじるかを表すパラメータである。ｒは、０以上の正の値であり、１より大きければフレーム毎の判定の方を重んじることとなり、１より小さければ区間整形ルールの方を重んじることとなる。また、Ｆ_ｔはフレームｔにおける特徴量を表す。θは判定用閾値である。

式（３）を尤度関数とみなし、対数尤度を求めると、以下に示す式（６）のようになる。

式（６）を最大化するθ^音声およびθ^非音声は、以下に示す式（７）および式（８）のように求まる。

ここで、Ｎ_ｅｖｅｎは音声区間の数であり、Ｎ_ｏｄｄは非音声区間の数である。ここでは、正解の音声区間・非音声区間（すなわち、予め定められた音声区間・非音声区間）に対する対数尤度を最大化したいので、Ｎ_ｅｖｅｎは正解音声区間数に置き換えられ、Ｎ_ｏｄｄは正解非音声区間数に置き換えられる。また、Ｅ［Ｎ_ｅｖｅｎ］は音声区間の数の期待値であり、Ｅ［Ｎ_ｏｄｄ］は非音声区間の数の期待値である。Ｅ［Ｎ_ｅｖｅｎ］は、音声・非音声区間数算出部１４０で求められた音声区間数で置き換えられ、Ｅ［Ｎ_ｏｄｄ］は、音声・非音声区間数算出部１４０で求められた非音声区間数で置き換えられるとする。式（１）および式（２）は、式（７）および式（８）を逐次的に求める式となっており、式（１）、式（２）による更新は、正解の音声区間・非音声区間の対数尤度を増加させる更新となっている。

このように、式（１）および式（２）を用いて区間整形ルールにおけるパラメータ（音声継続長閾値、非音声継続長閾値）を更新することで、パラメータを適切な値に定めることができる。その結果、音声・非音声判定部１０４による判定結果を区間整形ルールに従い整形して得られる判定結果の精度を向上させることができる。

式（１）および式（２）が式（７）および式（８）を逐次的に求める式となっていることを、式（７）を例にして説明する。式（７）は、以下に示す式（９）に変形することができる。

最急降下法において、Ｌを極大化する（−Ｌを極小化する）θ_ｓは、以下に示す式（１０）を逐次的に計算することで求めることができる。

式（１０）におけるεはステップサイズであり、更新の大きさを決定する値である。式（１０）に式（８）を代入すると、式（１１）のようになる。

θ_ｓ ← θ_ｓ−εγθ^音声（正解音声区間数−音声区間数）式（１１）

ここで、ステップサイズεを定義し直すことにより、式（１２）のようになる。

θ_ｓ ← θ_ｓ−ε（正解音声区間数−音声区間数）式（１２）

ここでは、式（７）に関して説明したが、式（８）についても同様である。

実施形態２．
図７は、本発明の第２の実施形態の音声検出装置の構成例を示すブロック図である。第１の実施形態と同様の構成要素については、図１と同一の符号を付し、説明を省略する。第２の実施形態の音声検出装置は、第１の実施形態の構成に加えて、正解ラベル格納部２１０と、エラー率算出部２２０と、閾値更新部２３０とを備える。本実施形態では、区間整形ルールのパラメータ学習時に、判定用閾値θに対する学習も行う。

正解ラベル格納部２１０は、サンプルデータに対して予め定められた、音声区間に該当するか非音声区間に該当するかに関する正解ラベルを記憶する。正解ラベルは、サンプルデータと時系列順に関連付けられる。フレームに対する判定結果が、そのフレームに応じた正解ラベルと一致していればその判定結果は正しく、一致していなければその判定結果は誤りとなる。

エラー算出部２２０は、音声・非音声区間整形部１０７による整形後の判定結果と、正解ラベル格納部２１０に記憶された正解ラベルとを用いて、エラー率を計算する。エラー率算出部２２０は、音声区間を誤って非音声区間としてしまう割合（ＦＲＲ：ＦａｌｓｅＲｅｊｅｃｔｉｏｎＲａｔｉｏ）、および非音声区間を誤って音声区間としてしまう割合（ＦＡＲ：ＦａｌｓｅＡｃｃｅｐｔａｎｃｅＲａｔｉｏ）を、それぞれエラー率として算出する。ＦＲＲは、より具体的には、音声区間に該当すると判定すべきフレームを、誤って、非音声区間に該当すると判定してしまう割合である。同様に、ＦＡＲは、非音声区間に該当すると判定すべきフレームを、誤って、音声区間に該当すると判定してしまう割合である。

閾値更新部２３０は、閾値記憶部１０３に記憶された判定用閾値θをエラー率に基づいて更新する。

エラー率算出部２２０および閾値更新部２３０は、例えば、プログラムに従って動作するＣＰＵによって実現される。あるいは、他の構成要素とは別のハードウェアとして実現される。正解ラベル格納部２１０は、例えば記憶装置によって実現される。

次に、第２の実施形態の動作について説明する。
図８は、第２の実施形態での区間整形ルールのパラメータ学習時の処理経過の例を示すフローチャートである。第１の実施形態と同様の処理は、図４と同一の符号を付して説明を省略する。サンプルデータからフレーム毎に波形データを切り出してから、区間整形ルール更新部１５０がパラメータ（音声継続長閾値および非音声継続長閾値）を更新するまでの処理（ステップＳ１０１〜Ｓ１０７）は、第１の実施形態と同様である。

ステップＳ１０７の後、エラー率算出部２２０は、エラー率（ＦＲＲ，ＦＡＲ）を算出する。エラー率算出部２２０は、音声区間を誤って非音声区間としてしまう割合であるＦＲＲを、以下に示す式（１３）の計算により算出する（ステップＳ２０１）。

ＦＲＲ≡音声を誤って非音声としたフレーム数÷正解音声フレーム数
式（１３）

「音声を誤って非音声としたフレーム数」は、音声・非音声区間整形部１０７による整形後の判定結果において、正解ラベルが音声区間であるが、非音声区間に該当すると判定されているフレームの数である。正解音声フレーム数は、整形後の判定結果において、正解ラベルが音声区間であって、音声区間に該当すると正しくと判定されているフレームの数である。

また、エラー率算出部２２０は、非音声区間を誤って音声区間としてしまう割合であるＦＡＲを、以下に示す式（１４）の計算により算出する。

ＦＡＲ≡非音声を誤って音声としたフレーム数÷正解非音声フレーム数
式（１４）

「非音声を誤って音声としたフレーム数」は、音声・非音声区間整形部１０７による整形後の判定結果において、正解ラベルが非音声区間であるが、音声区間に該当すると判定されているフレームの数である。正解非音声フレーム数は、整形後の判定結果において、正解ラベルが非音声区間であって、非音声区間に該当すると正しく判定されているフレームの数である。

次の、ステップＳ２０２において、閾値更新部２３０は、閾値記憶手段１０３に記憶された判定用閾値θを、エラー率ＦＦＲ，ＦＡＲを用いて更新する（ステップＳ２０２）。閾値更新部２３０は、以下に示す式（１５）のように判定用閾値θを更新すればよい。

θ ← θ − ε’’×（α×ＦＲＲ―（１−α）×ＦＡＲ）
式（１５）

式（１５）における左辺のθは更新後の判定用閾値であり、右辺のθは更新前の判定用閾値である。すなわち、閾値更新部２３０は、更新前の判定用閾値θを用いて、θ−ε’’×（α×ＦＲＲ―（１−α）×ＦＡＲ）を計算し、その計算結果を更新後の判定用閾値とすればよい。式（１５）においてε’’は更新のステップサイズであり、θの更新の大きさを規定する値である。ε’’は、εあるいはε’（式（１）、式（２）参照）と同様の値であってもよい。あるいは、ε，ε’と異なる値であってもよい。

ステップＳ２０２の後、更新の終了条件が満たされたか否かを判定し（ステップＳ１０８）、満たされていなければステップＳ１０１以降の処理を繰り返す。このとき、ステップＳ１０３では更新後のθを用いて判定を行う。

ステップＳ１０１〜Ｓ１０８のループ処理において、ループ処理毎に毎回、区間整形ルールのパラメータの更新および判定用閾値の更新を行ってもよい。あるいは、ループ処理毎に、区間整形ルールのパラメータの更新と、判定用閾値の更新とを交互に行ってもよい。あるいは、区間整形ルールのパラメータと判定用閾値のいずれか一方に関してループ処理を繰り返し、更新の終了条件が満たされた後に、他方に関してもループ処理を行ってもよい。

式（１５）に示す更新処理を複数回行うことにより、２つのエラー率の比は以下の式（１６）に示す比に近づく。よって、αは、エラー率ＦＡＲ，ＦＲＲの比を定める値である。

ＦＡＲ：ＦＲＲ＝α：１−α 式（１６）

学習された区間整形ルールのパラメータを用いて入力信号に対する音声検出を行う動作は、第１の実施形態と同様である。本実施形態では、判定用閾値θも学習されているので、学習されたθと特徴量とを比較して、音声区間に該当するのか非音声区間に該当するのかを判定する。

次に、本実施形態の効果について説明する。
第１の実施形態では判定用閾値θを固定値としたが、第２の実施形態では、予め設定したエラー率の比になるという条件の下でエラー率が減少するように、区間整形ルールのパラメータおよび判定用閾値を更新する。予めαの値を設定しておけば、期待するＦＲＲとＦＡＲの２つのエラー率の比を満たす音声検出になるように、閾値が適切に更新される。音声検出はさまざまな用途に利用されるが、その利用用途に応じて適切なエラー率の比が異なることが予想される。本実施形態によれば、利用用途に応じた適切なエラー率の比を設定できる。

実施形態３．
第１および第２の実施形態では、サンプルデータ格納部１２０に記憶されたサンプルデータを直接、入力信号切り出し部１０１の入力とする場合を説明した。第３の実施形態では、サンプルデータを音として出力し、その音を入力してデジタル信号として入力信号切り出し部１０１の入力とする。図９は、本発明の第３の実施形態の音声検出装置の構成例を示すブロック図である。第１の実施形態と同様の構成要素については、図１と同一の符号を付し、説明を省略する。第３の実施形態の音声検出装置は、第１の実施形態の構成に加えて、音声信号出力部３６０およびスピーカ３６１を備える。

音声信号出力部３６０は、サンプルデータ格納部１２０に記憶されたサンプルデータを音としてスピーカ３６１に出力させる。音声信号出力部３６０は、例えば、プログラムに従って動作するＣＰＵによって実現される。

本実施形態では、区間整形ルールのパラメータ学習時におけるステップＳ１０１で、音声信号出力部３６０がサンプルデータを音としてスピーカ３６１に出力させる。このとき、マイクロホン１６１は、スピーカ３６１から出力された音を入力可能な位置に配置される。マイクロホン１６１はその音が入力されると、その音をアナログ信号に変換し、入力信号取得部１６０に入力する。入力信号取得部１６０は、そのアナログ信号をデジタル信号に変換し、入力信号切り出し部１０１に入力する。入力信号切り出し部１０１は、そのデジタル信号からフレームの波形データを切り出す。その他の動作は第１の実施形態と同様である。

本実施形態によれば、サンプルデータの音の入力時に音声検出装置の周囲の環境の雑音も入力され、環境雑音も含む状態で区間整形ルールのパラメータを定める。従って、実際に音声が入力される場面の雑音環境に適切な区間整形ルールを設定することができる。

第３の実施形態において、第２の実施形態と同様に、正解ラベル格納部２１０と、エラー率検出部２２０と、閾値更新部２３０とを備え、判定用閾値θの値を設定する構成としてもよい。

第１から第３までの各実施形態における出力結果（入力された音声に対する音声検出部１００の出力）は、例えば、音声認識装置や、音声伝送向けの装置で利用される。

次に、本発明の概要について説明する。図１０は、本発明の概要を示すブロック図である。本発明の音声検出装置は、判定結果導出手段７４（例えば、音声検出部１００）と、区間数算出手段７５（例えば、音声・非音声区間算出部１４０）と、継続長閾値更新手段７６（例えば、区間整形ルール更新部１５０）とを備える。

判定結果導出手段７４は、音声区間数および非音声区間数が既知の音声データの時系列（例えば、サンプルデータ）に対し、単位時間毎（例えば、フレーム毎）に音声もしくは非音声であると判定し、判定のうち連続して音声に該当すると判定された区間の長さもしくは連続して非音声に該当すると判定された区間の長さと継続長閾値（例えば、音声継続長閾値、非音声継続長閾値）とを比較して音声区間および非音声区間を整形する。

区間数算出手段７５は、整形後の判定結果から、音声区間および非音声区間の数を算出する。継続長閾値更新手段７６は、区間数算出手段７５が算出した音声区間数と正解音声区間数との差分または区間数算出手段７５が算出した非音声区間数と正解非音声区間数との差分が小さくなるように、継続長閾値を更新する。

そのような構成により、整形後の判定結果の精度を向上させることができる。

また、上記の実施形態には、判定結果導出手段７４が、音声データの時系列からフレームを切り出すフレーム切り出し手段（例えば、入力信号切り出し部１０１）と、切り出されたフレームの特徴量を算出する特徴量算出手段（例えば、特徴量算出部１０２）と、特徴量との比較対象となる判定用閾値と、特徴量算出手段に算出された特徴量とを比較して、フレームが音声区間に該当するか非音声区間に該当するかを判定する判定手段（例えば、音声・非音声判定部１０４）と、同一の判定結果となったフレームの連続数が継続長閾値より小さい場合に、同一の判定結果となった連続しているフレームに対する判定結果を変更することにより、判定手段の判定結果を整形する判定結果整形手段（例えば、音声・非音声区間整形部１０７）とを備える構成が開示されている。

また、上記の実施形態には、判定結果整形手段７４が、音声区間に該当すると判定されたフレームの連続数が第１の継続長閾値（例えば、音声継続長閾値）より小さい場合に、音声区間に該当すると判定された連続しているフレームに対する判定結果を非音声区間に変更し、非音声区間に該当すると判定されたフレームの連続数が第２の継続長閾値（例えば、非音声継続長閾値）より小さい場合に、非音声区間に該当すると判定された連続しているフレームに対する判定結果を音声区間に変更し、継続長閾値更新手段７６が、区間数算出手段７５が算出した音声区間数と正解音声区間数との差分が小さくなるように第１の継続長閾値を更新し（例えば、式（１）のように更新し）、区間数算出手段７５が算出した非音声区間数と正解非音声区間数との差分が小さくなるように第２の継続長閾値を更新する（例えば、式（２）のように更新する）構成が開示されている。

また、上記の実施形態には、区間数算出手段７５が、連続して同じ判定結果となっている１つ以上のフレームからなる集合を一つの区間として音声区間数および非音声区間数を算出する構成が開示されている。

また、上記の実施形態には、音声区間を誤って非音声区間と判定する第１のエラー率（例えば、ＦＲＲ）と、非音声区間を誤って音声区間とする第２のエラー率（例えば、ＦＡＲ）とを算出するエラー率算出手段（例えば、エラー率算出部２２０）と、第１のエラー率と第２のエラー率との比が所定の値に近づくように判定用閾値を更新する判定用閾値更新手段（例えば、閾値更新部２３０）とを備える構成が開示されている。

また、上記の実施形態には、音声区間数および非音声区間数が既知の音声データを音として出力させる音声信号出力手段（例えば、音声信号出力部３６０）と、その音を音声信号に変換してフレーム切り出し手段に入力する音声信号入力手段（例えば、マイクロホン１６１および入力信号取得部１６０）とを備える構成が開示されている。実際に音声が入力される場面の雑音環境に適切な継続長閾値を定めることができる。

以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２００８年１２月１７日に出願された日本特許出願２００８−３２１５５１を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明は、音声信号のフレームに対して音声区間に該当するか非音声区間に該当するかを判定する音声検出装置に好適に適用される。

１００音声検出部
１０１入力信号切り出し部
１０２特徴量算出部
１０３閾値記憶部
１０４音声・非音声判定部
１０５判定結果保持部
１０６区間整形ルール記憶部
１０７音声・非音声区間整形部
１２０サンプルデータ格納部
１３０正解音声・非音声区間数格納部
１４０音声・非音声区間数算出部
１５０区間整形ルール更新部
１６０入力信号取得部
２１０正解ラベル格納部
２２０エラー率算出部
２３０閾値更新部

Claims

音声区間数および非音声区間数が既知の音声データの時系列に対し、単位時間毎に音声もしくは非音声であると判定し、前記判定のうち連続して音声に該当すると判定された区間の長さもしくは連続して非音声に該当すると判定された区間の長さと継続長閾値とを比較して音声区間および非音声区間を整形する判定結果導出手段と、
前記整形後の判定結果から、音声区間および非音声区間の数を算出する区間数算出手段と、
区間数算出手段が算出した音声区間数と正解音声区間数との差分または区間数算出手段が算出した非音声区間数と正解非音声区間数との差分が小さくなるように、継続長閾値を更新する継続長閾値更新手段とを備える
ことを特徴とする音声検出装置。
判定結果導出手段は、
音声データの時系列からフレームを切り出すフレーム切り出し手段と、
切り出されたフレームの特徴量を算出する特徴量算出手段と、
前記特徴量との比較対象となる判定用閾値と、特徴量算出手段に算出された特徴量とを比較して、前記フレームが音声区間に該当するか非音声区間に該当するかを判定する判定手段と、
同一の判定結果となったフレームの連続数が継続長閾値より小さい場合に、同一の判定結果となった連続している前記フレームに対する判定結果を変更することにより、判定手段の判定結果を整形する判定結果整形手段とを備える
請求項１に記載の音声検出装置。
判定結果整形手段は、
音声区間に該当すると判定されたフレームの連続数が第１の継続長閾値より小さい場合に、音声区間に該当すると判定された連続している前記フレームに対する判定結果を非音声区間に変更し、非音声区間に該当すると判定されたフレームの連続数が第２の継続長閾値より小さい場合に、非音声区間に該当すると判定された連続している前記フレームに対する判定結果を音声区間に変更し、
継続長閾値更新手段は、
区間数算出手段が算出した音声区間数と正解音声区間数との差分が小さくなるように第１の継続長閾値を更新し、区間数算出手段が算出した非音声区間数と正解非音声区間数との差分が小さくなるように第２の継続長閾値を更新する
請求項２に記載の音声検出装置。
区間数算出手段は、連続して同じ判定結果となっている１つ以上のフレームからなる集合を一つの区間として音声区間数および非音声区間数を算出する
請求項２または請求項３に記載の音声検出装置。
音声区間を誤って非音声区間と判定する第１のエラー率と、非音声区間を誤って音声区間とする第２のエラー率とを算出するエラー率算出手段と、
第１のエラー率と第２のエラー率との比が所定の値に近づくように判定用閾値を更新する判定用閾値更新手段とを備える
請求項１から請求項４のうちのいずれか１項に記載の音声検出装置。
音声区間数および非音声区間数が既知の音声データを音として出力させる音声信号出力手段と、
前記音を音声信号に変換して判定結果導出手段に入力する音声信号入力手段とを備える
請求項１から請求項５のうちのいずれか１項に記載の音声検出装置。
音声区間数および非音声区間数が既知の音声データの時系列に対し、単位時間毎に音声もしくは非音声であると判定し、前記判定のうち連続して音声に該当すると判定された区間の長さもしくは連続して非音声に該当すると判定された区間の長さと継続長閾値とを比較して音声区間および非音声区間を整形し、
前記整形後の判定結果から、音声区間および非音声区間の数を算出し、
前記整形後の判定結果から算出した音声区間数と正解音声区間数との差分、または前記整形後の判定結果から算出した非音声区間数と正解非音声区間数との差分が小さくなるように、継続長閾値を更新する
ことを特徴とするパラメータ調整方法。
音声データの時系列からフレームを切り出し、
切り出されたフレームの特徴量を算出し、
前記特徴量との比較対象となる判定用閾値と、算出した特徴量とを比較して、前記フレームが音声区間に該当するか非音声区間に該当するかを判定し、
同一の判定結果となったフレームの連続数が継続長閾値より小さい場合に、同一の判定結果となった連続している前記フレームに対する判定結果を変更することにより、判定結果を整形する
請求項７に記載のパラメータ調整方法。
判定結果を整形するときに、
音声区間に該当すると判定されたフレームの連続数が第１の継続長閾値より小さい場合に、音声区間に該当すると判定された連続している前記フレームに対する判定結果を非音声区間に変更し、非音声区間に該当すると判定されたフレームの連続数が第２の継続長閾値より小さい場合に、非音声区間に該当すると判定された連続している前記フレームに対する判定結果を音声区間に変更し、
継続長閾値を更新するときに、
算出した音声区間数と正解音声区間数との差分が小さくなるように第１の継続長閾値を更新し、算出した非音声区間数と正解非音声区間数との差分が小さくなるように第２の継続長閾値を更新する
請求項８に記載のパラメータ調整方法。
音声区間数および非音声区間数を算出するときに、
連続して同じ判定結果となっている１つ以上のフレームからなる集合を一つの区間として音声区間数および非音声区間数を算出する
請求項８または請求項９に記載のパラメータ調整方法。
音声区間を誤って非音声区間と判定する第１のエラー率と、非音声区間を誤って音声区間とする第２のエラー率とを算出し、
第１のエラー率と第２のエラー率との比が所定の値に近づくように判定用閾値を更新する
請求項７から請求項１０のうちのいずれか１項に記載のパラメータ調整方法。
音声区間数および非音声区間数が既知の音声データを音として出力させ、
前記音を音声信号に変換する
請求項７から請求項１１のうちのいずれか１項に記載のパラメータ調整方法。
コンピュータに、
音声区間数および非音声区間数が既知の音声データの時系列に対し、単位時間毎に音声もしくは非音声であると判定し、前記判定のうち連続して音声に該当すると判定された区間の長さもしくは連続して非音声に該当すると判定された区間の長さと継続長閾値とを比較して音声区間および非音声区間を整形する判定結果導出処理、
前記整形後の判定結果から、音声区間および非音声区間の数を算出する区間数算出処理、および、
区間数算出処理で算出した音声区間数と正解音声区間数との差分または区間数算出処理で算出した非音声区間数と正解非音声区間数との差分が小さくなるように、継続長閾値を更新する継続長閾値更新処理
を実行させるための音声検出プログラム。
コンピュータに、
判定結果導出処理で、
音声データの時系列からフレームを切り出すフレーム切り出し処理、
切り出されたフレームの特徴量を算出する特徴量算出処理、
前記特徴量との比較対象となる判定用閾値と、特徴量算出処理で算出した特徴量とを比較して、前記フレームが音声区間に該当するか非音声区間に該当するかを判定する判定処理、および、
同一の判定結果となったフレームの連続数が継続長閾値より小さい場合に、同一の判定結果となった連続している前記フレームに対する判定結果を変更することにより、判定処理の判定結果を整形する判定結果整形処理を実行させる
請求項１３に記載の音声検出プログラム。
コンピュータに、
判定結果整形処理で、
音声区間に該当すると判定されたフレームの連続数が第１の継続長閾値より小さい場合に、音声区間に該当すると判定された連続している前記フレームに対する判定結果を非音声区間に変更させ、非音声区間に該当すると判定されたフレームの連続数が第２の継続長閾値より小さい場合に、非音声区間に該当すると判定された連続している前記フレームに対する判定結果を音声区間に変更させ、
継続長閾値更新処理で、
区間数算出処理で算出した音声区間数と正解音声区間数との差分が小さくなるように第１の継続長閾値を更新させ、区間数算出処理で算出した非音声区間数と正解非音声区間数との差分が小さくなるように第２の継続長閾値を更新させる
請求項１４に記載の音声検出プログラム。
コンピュータに、
区間数算出処理で、連続して同じ判定結果となっている１つ以上のフレームからなる集合を一つの区間として音声区間数および非音声区間数を算出させる
請求項１４または請求項１５に記載の音声検出プログラム。
コンピュータに、
音声区間を誤って非音声区間と判定する第１のエラー率と、非音声区間を誤って音声区間とする第２のエラー率とを算出するエラー率算出処理、および、
第１のエラー率と第２のエラー率との比が所定の値に近づくように判定用閾値を更新する判定用閾値更新処理
を実行させる請求項１３から請求項１６のうちのいずれか１項に記載の音声検出プログラム。
コンピュータに、
音声区間数および非音声区間数が既知の音声データを音としてスピーカに出力させる音声信号出力処理、および、
前記音を音声信号に変換する音声変換処理
を実行させる請求項１３から請求項１７のうちのいずれか１項に記載の音声検出プログラム。