WO2012020717A1

WO2012020717A1 - 音声区間判定装置、音声区間判定方法および音声区間判定プログラム

Info

Publication number: WO2012020717A1
Application number: PCT/JP2011/068003
Authority: WO
Inventors: 隆行荒川; 田中　大介
Original assignee: 日本電気株式会社
Priority date: 2010-08-10
Filing date: 2011-08-02
Publication date: 2012-02-16
Also published as: US9293131B2; US20130132078A1; JP5725028B2; JPWO2012020717A1

Abstract

ユーザに負担をかけずに音声区間判定に利用するパラメタを更新し、雑音に頑健な音声区間判定装置、音声区間判定方法および音声区間判定プログラムを提供する。音声区間判定装置は、入力音の時系列の特徴量の値と閾値とを比較することにより、前記入力音の時系列の音声区間（第１音声区間）と非音声区間（第１非音声区間）とを判定する第１の音声区間判定手段と、前記第１非音声区間の時系列に標準音声格納手段から取得した標準音声を重畳した後の第１非音声区間の時系列の特徴量の値と、前記閾値とを比較することにより、前記標準音声を重畳した後の第１非音声区間の時系列の音声区間と非音声区間とを判定する第２の音声区間判定手段と、前記第２の音声区間判定手段の判定結果と、前記標準音声から算出される正解との不一致率が小さくなるように前記閾値を更新する閾値更新手段と、を備える。

Description

音声区間判定装置、音声区間判定方法および音声区間判定プログラム

　本発明は、音声区間判定装置、音声区間判定方法および音声区間判定プログラムに関する。

　音声区間判定技術は、移動体通信などにおいて話者が話していない非音声区間を除去する、もしくは、圧縮することによって音声伝送効率を向上する目的で用いられている。
　また、音声区間判定技術は、ノイズキャンセラ、エコーキャンセラなどで非音声区間の間で雑音を推定する目的で用いられている。
　また、音声区間判定技術は、音声認識システムにおける性能向上、処理量削減などの目的で広く用いられている。
　一般的な音声区間判定システムは、入力された音の時系列に対し単位時間毎に特徴量を算出し、前記特徴量と閾値とを比較することで、入力された音の時系列の音声区間と非音声区間とを判定する。
　音声区間判定に用いられる特徴量としては、以下のものがある。例えば、特許文献１ではスペクトルパワーの変動を平滑化し、さらにその変動を平滑化したものを特徴量として用いることが開示されている。
　非特許文献１では、４．３．３節で示されているＳＮＲの値や４．３．５節で示されているＳＮＲを平均したものを特徴量として用いることが開示されている。
　その他、非特許文献２のＢ．３．１．４節で示されている零点交差数や、非特許文献３で示されている音声ＧＭＭ（Ｇａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌ）と無音ＧＭＭを用いた尤度比、もしくは特許文献２で示されている複数の特徴量を組み合わせたものなど、さまざまな特徴量が用いられている。
　特許文献２では、ユーザに基準となる発話を行うように促し、行われた発話に対して強制的なアライメントを行い、音声区間および非音声区間を決定し、前記決定された音声区間および非音声区間に対する誤りが最も少なくなるように複数特徴量に対する重みを更新する方法が開示されている。

特開２００６−２０９０６９号公報特開２００７−０１７６２０号公報

ＥＴＳＩ　ＥＮ　３０１　７０８　Ｖ７．１．１ＩＴＵ−Ｔ　Ｇ．７２９　Ａｎｎｅｘ　ＢＡ．Ｌｅｅ，Ｋ．Ｎａｋａｍｕｒａ，Ｒ．Ｎｉｓｈｉｍｕｒａ，Ｈ．Ｓａｒｕｗａｔａｒｉ，Ｋ．Ｓｈｉｋａｎｏ，"Ｎｏｉｓｅ　Ｒｏｂｕｓｔ　Ｒｅａｌ　Ｗｏｒｌｄ　Ｓｐｏｋｅｎ　Ｄｉａｌｏｇ　Ｓｙｓｔｅｍ　ｕｓｉｎｇ　ＧＭＭ　Ｂａｓｅｄ　Ｒｅｊｅｃｔｉｏｎ　ｏｆ　Ｕｎｉｎｔｅｎｄｅｄ　Ｉｎｐｕｔｓ，"ＩＣＳＬＰ−２００４，Ｖｏｌ．Ｉ，ｐｐ．１７３−１７６，Ｏｃｔ．２００４．

　しかし、上述の音声区間判定システムでは、ユーザに基準となる発声を促すため、ユーザに余分な負荷がかかるという問題がある。また、発声の量が少ない場合には、充分精度良く音声区間判定に利用するパラメタの更新が行えないという問題がある。
　このため、本発明の目的は、上述した課題を解決すべく、ユーザに負担をかけずに音声区間判定に利用するパラメタを更新し、雑音に頑健な音声区間判定装置、音声区間判定方法および音声区間判定プログラムを提供することである。

　上記目的を達成するため、本発明の一形態は、音声区間判定装置であって、入力音の時系列の特徴量の値と閾値とを比較することにより、前記入力音の時系列の音声区間（第１音声区間）と非音声区間（第１非音声区間）とを判定する第１の音声区間判定手段と、前記第１非音声区間の時系列に標準音声格納手段から取得した標準音声を重畳した後の第１非音声区間の時系列の特徴量の値と、前記閾値とを比較することにより、前記標準音声を重畳した後の第１非音声区間の時系列の音声区間と非音声区間とを判定する第２の音声区間判定手段と、前記第２の音声区間判定手段の判定結果と、前記標準音声から算出される正解との不一致率が小さくなるように前記閾値を更新する閾値更新手段と、を備える。
　また、本発明によれば、入力音の時系列の特徴量の値と閾値とを比較することにより、前記入力音の時系列の音声区間（第１音声区間）と非音声区間（第１非音声区間）とを判定する第１の音声区間判定ステップと、前記第１非音声区間の時系列に標準音声格納手段から取得した標準音声を重畳した後の第１非音声区間の時系列の特徴量の値と、前記閾値とを比較することにより、前記標準音声を重畳した後の第１非音声区間の時系列の音声区間と非音声区間とを判定する第２の音声区間判定ステップと、前記第２の音声区間判定ステップにおける判定結果と、前記標準音声から算出される正解との不一致率が小さくなるように前記閾値を更新する閾値更新ステップと、をコンピュータに実行させる音声区間判定プログラムが提供される。
　また、本発明によれば、入力音の時系列の特徴量の値と閾値とを比較することにより、前記入力音の時系列の音声区間（第１音声区間）と非音声区間（第１非音声区間）とを判定し、前記第１非音声区間の時系列に標準音声格納手段から取得した標準音声を重畳した後の第１非音声区間の時系列の特徴量の値と、前記閾値とを比較することにより、前記標準音声を重畳した後の第１非音声区間の時系列の音声区間と非音声区間とを判定し、その判定結果と、前記標準音声から算出される正解との不一致率が小さくなるように前記閾値を更新する音声区間判定方法が提供される。

　本発明によれば、ユーザに負担をかけずに音声区間判定に利用するパラメタを更新し、雑音に頑健な音声区間判定装置、音声区間判定方法および音声区間判定プログラムが提供される。

本発明の第１の実施の形態の構成の一例を示すブロック図である。本発明の第１の実施の形態の構成の一例を示すブロック図である。本発明の実施の形態の例を説明をするための図である。本発明の第２の実施の形態の構成の一例を示すブロック図である。本発明の第２の実施の形態の動作の一例を示す図である。本発明の第３の実施の形態の構成の一例を示すブロック図である。本発明の第３の実施の形態の動作の一例を示す図である。本発明の第４の実施の形態の構成の一例を示すブロック図である。本発明の第４の実施の形態の動作の一例を示す図である。本発明の第５の実施の形態の構成の一例を示すブロック図である。

　以下、本発明の実施の形態について、図面を用いて説明する。すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
　なお、各実施形態の音声区間判定装置１を構成する各部は、制御部、メモリ、メモリにロードされたプログラム、プログラムを格納するハードディスク等の記憶ユニット、ネットワーク接続用インターフェースなどからなり、ハードウェアとソフトウェアの任意の組合せによって実現される。そして特に断りのない限り、その実現方法、装置は限定されない。
　制御部はＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ　以下同様。）などからなり、オペレーティングシステムを動作させて音声区間判定装置１の全体を制御するとともに、例えばドライブ装置などに装着された記録媒体からメモリにプログラムやデータを読み出し、これにしたがって各種の処理を実行する。
　記録媒体は、例えば光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク、半導体メモリ等であって、コンピュータプログラムをコンピュータ読み取り可能に記録する。また、コンピュータプログラムは、通信網に接続されている図示しない外部コンピュータからダウンロードされても良い。
　また、各実施形態の説明において利用するブロック図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。これらの機能ブロックはハードウェア、ソフトウェアの任意の組み合わせによって実現される。また、これらの図においては、各実施形態の構成部は物理的に結合した一つの装置により実現されるよう記載されている場合もあるが、その実現手段はこれに限定されない。すなわち、二つ以上の物理的に分離した装置を有線または無線で接続し、これら複数の装置により、各実施形態のシステムを実現してもよい。
　＜実施形態１＞
　次に、本発明の第１の実施の形態について説明する。
　図１は、本発明の第１の実施の形態の構成を示す図である。図１を参照すると、本発明の第１の実施の形態における音声区間判定装置１は、入力音取得部１０１と、閾値格納部１０２と、第１音声区間判定部１０３と、標準音声格納部１０４と、標準音声重畳部１０５と、第２音声区間判定部１０６と、判定結果比較部１０７と、閾値更新部１０８と、を備える。
　入力音取得部１０１は、具体的には、論理回路によって実現される専用装置や、プログラムを実行する情報処理装置のＣＰＵなどによって実現される。入力音取得部１０１は、例えば、マイクロフォンなどの機器と接続または一体に形成され、音声入力音の時系列を取得するように構成される。
　閾値格納部１０２は、具体的には、光ディスク装置や磁気ディスク装置などの記憶装置によって実現される。閾値格納部１０２は、音声区間判定に係わる閾値を格納するように構成される。具体的には、閾値格納部１０２は、入力音の時系列が、音声区間かあるいは非音声区間かを第１音声区間判定部１０３が判定する際に利用する閾値を格納する。
　第１音声区間判定部１０３は、具体的には、論理回路によって実現される専用装置や、プログラムを実行する情報処理装置のＣＰＵなどによって実現される。第１音声区間判定部１０３は、入力音取得部１０１が取得した入力音の時系列に対し、閾値格納部１０２が格納する閾値を用いて、入力音の時系列が音声区間か非音声区間かを判定するように構成される。第１音声区間判定部１０３が音声区間と判定した区間を第１音声区間とし、非音声区間と判定した区間を第１非音声区間とする。第１音声区間判定部１０３が入力音の時系列を音声区間（第１音声区間）と非音声区間（第１非音声区間）とに分割した例を、図３に示す。
　標準音声格納部１０４は、具体的には、光ディスク装置や磁気ディスク装置などの記憶装置によって実現される。標準音声格納部１０４は、発声内容と時間（長さ）が予めわかっている音声データ（標準音声）の内容と時間（長さ）の情報とを格納する。
　標準音声重畳部１０５は、具体的には、論理回路によって実現される専用装置や、プログラムを実行する情報処理装置のＣＰＵなどによって実現される。標準音声重畳部１０５は、第１音声区間判定部１０３で非音声区間と判定された入力音の時系列に対して、標準音声格納部１０４が格納する標準音声を重畳するように構成される。標準音声重畳部１０５の詳細な動作については後述する。
　第２音声区間判定部１０６は、具体的には、論理回路によって実現される専用装置や、プログラムを実行する情報処理装置のＣＰＵなどによって実現される。第２音声区間判定部１０６は、標準音声重畳部１０５によって標準音声が重畳された入力音の時系列（第１音声区間判定部１０３で非音声区間と判定された入力音の時系列に対して標準音声が重畳された後の入力音の時系列）に対し、再び閾値格納部１０２が格納する閾値を用いて、当該時系列が音声区間か非音声区間かを判定するように構成される。
　判定結果比較部１０７は、具体的には、論理回路によって実現される専用装置や、プログラムを実行する情報処理装置のＣＰＵなどによって実現される。判定結果比較部１０７は、第２音声区間判定部１０６が判定した判定結果と、閾値格納部１０２が格納する標準音声の長さ情報から定まる正しい音声区間の長さと非音声区間の長さ（正解）と、を比較して比較結果を閾値更新部１０８に出力するように構成される。閾値の更新の方法については後述する。
　閾値更新部１０８は、具体的には、論理回路によって実現される専用装置や、プログラムを実行する情報処理装置のＣＰＵなどによって実現される。閾値更新部１０８は、判定結果比較部１０７が出力した比較結果に基づき閾値格納部１０２が格納する閾値を更新するように構成される。
　次に、本実施の形態の動作について、図１および図２のフロー図および図３を用いて説明する。
　まず、入力音取得部１０１は、入力音の時系列を取得する（図２のステップＳ１）。入力音取得部１０１は、例えば、マイクロフォンなどによって取得されたアナログデータをサンプリング周波数８０００Ｈｚ　１６ｂｉｔ　Ｌｉｎｅａｒ−ＰＣＭのデジタルデータとして取得してもよい。
　次に第１音声区間判定部１０３は、前記入力音の時系列に対して第１の音声区間・非音声区間を判定する（図２のステップＳ２）。図３の例では、「こんにちは」「林です」の部分が音声区間であり、その前後およびその間にある区間が非音声区間である。第１音声区間判定部１０３は、入力信号の時系列から１０ミリ秒などの短い単位時間毎に音声らしさを示す特徴量を算出し、閾値格納部１０２に格納されている閾値と大小を比較して音声区間の判定に用いてもよい。第１音声区間判定部１０３は、音声らしさを示す特徴量として、例えば振幅パワーなどを用いてもよい。振幅パワーＰｔは、例えば以下の（式１）で算出される。

　（式１）において、Ｎは単位時間あたりのサンプル点数である。ｘｔは時刻ｔの入力音データ（波形データ）の値である。第１音声区間判定部１０３は、例えば、振幅パワーが閾値より大きければ音声状態と判定し、振幅パワーが閾値より小さければ非音声状態と判定する。なお、第１音声区間判定部１０３は、音声らしさを示す特徴量として振幅パワーを用いたが、ゼロ交差数、音声モデルと非音声モデルとの尤度比、ピッチ周波数、ＳＮ比など、他の特徴量を用いても良い。
　第１音声区間判定部１０３は、前記単位時間ごとに判定された音声および非音声の状態のうち同じ状態が連続する区間を音声区間および非音声区間と判定する。音声区間の始端は、続いていた非音声状態が途切れて音声状態に変化した時点である。この時点は、非音声状態区間の終端でもある。また、音声区間の終端は、続いていた音声状態が途切れて非音声状態に変化した時点である。この時点は非音声区間の始端でもある。このように音声区間および非音声区間が確定するのは、連続した状態が途切れた時点である。
　なお、第１音声区間判定部１０３は、短い音声区間あるいは非音声区間が発生しないようにするため、非音声状態から音声状態に変化した後、一定の時間連続して音声状態と判定されなければ音声区間の始端（非音声区間の終端）として認めない、あるいは、音声状態から非音声状態に変化した後一定の時間連続して非音声状態と判定されなければ音声区間の終端（非音声区間の始端）として認めない、といったハングオーバー処理を行ってもよい。
　次に標準音声重畳部１０５は、第１音声区間判定部１０３で非音声区間と判定された区間の入力音の時系列に対して標準音声を重畳する（図２のステップＳ３）。標準音声重畳部１０５は、例えば、以下の（式２）のようにサンプル点ごとに和を算出してもよい。
　ｚ_ｔ＝ｘ_ｔ＋ｙ_ｔ　　（式２）
　（式２）において、ｘｔは入力音の時系列、ｙｔは標準音声の時系列、ｚｔは重畳後の時系列をそれぞれ示す。
　ここで、標準音声重畳部１０５は、標準音声格納部１０４が用意した複数の長さの標準音声から、前記非音声区間の長さに応じて重畳する標準音声を選択してもよい。また、標準音声重畳部１０５は、前記非音声区間の長さが所定の値より長い場合には、標準音声を複数回にわたって重畳してもよい。また、標準音声重畳部１０５は、前記非音声区間の長さが所定の値より短い場合には、その非音声区間には音声を重畳しないこととしてもよい。図３の例では、標準音声重畳部１０５は、最初の非音声区間と３番目の非音声区間に標準音声を重畳しているが、２番目の非音声区間の長さは所定の値より短いため、標準音声を重畳していない。
　次に第２音声区間判定部１０６は、前記標準音声が重畳された入力音の時系列に対し、第２の音声区間・非音声区間を判定する（図２のステップＳ４）。音声区間・非音声区間の判定方法は図２のステップＳ２と同様である。第２音声区間判定部１０６がここで用いる閾値は第１音声区間判定部１０３と同じ値である。
　次に判定結果比較部１０７は、前記第２の音声区間・非音声区間の判定結果と正解の判定結果とを比較する（図２のステップＳ５）。この際、判定結果比較部１０７は、例えば、誤棄却率（ＦＲＲ：Ｆａｌｓｅ　Ｒｅｊｅｃｔｉｏｎ　Ｒａｔｅ）と誤受理率（ＦＡＲ：Ｆａｌｓｅ　Ａｃｃｅｐｔａｎｃｅ　Ｒａｔｅ）を用いて比較を行なう。
　ここで、誤棄却率（ＦＲＲ）は以下の（式３）で定義される。
　ＦＲＲ＝（音声を非音声と間違えた長さ）÷正解の音声区間の長さ　（式３）
　また、誤受理率（ＦＡＲ）は以下の（式４）で定義される。
　ＦＡＲ＝（非音声を音声と間違えた長さ）÷正解の非音声区間の長さ　（式４）
　判定結果比較部１０７は、誤棄却率（ＦＲＲ）、誤受理率（ＦＡＲ）を、図２のステップＳ２で判定された非音声区間ごとに計算してもよい。また、判定結果比較部１０７は、区間の不一致度合いを表す他の不一致率を用いて判定結果を比較しても良い。
　次に閾値更新部１０８は、前記比較結果に基づき音声区間判定に用いる閾値を更新する（図２のステップＳ６）。閾値更新部１０８は、例えば、以下の（式５）を用いて閾値θの更新を行う。
　θ　←　θ　＋　η×（ＦＡＲ−α×ＦＲＲ）　（式５）
　（式５）において、ηはステップサイズである。αは誤棄却率（ＦＲＲ）と誤受理率（ＦＡＲ）のどちらに重きを置くかを制御するパラメタである。これら２つのパラメタは予め所定の値に設定されてもよいし、条件や環境に応じて生成されても良い。更新前の閾値が過度に大きい場合には、ＦＲＲがＦＡＲに比べて大きくなることが予想される。このようなとき、閾値更新部１０８は、閾値がより小さくなるように閾値の更新を行う。また、更新前の閾値が過度に小さい場合には、ＦＡＲがＦＲＲに比べて大きくなることが予想される。このようなとき、閾値更新部１０８は、閾値がより大きくなるように閾値の更新を行う。このように、閾値更新部１０８は、前記第２の音声区間・非音声区間の判定結果と正解の判定結果との不一致率が小さくなるように閾値の更新を行なう。なお、閾値更新部１０８は、誤棄却率（ＦＲＲ）または誤受理率（ＦＡＲ）のどちらか一方のみを用いて閾値θの値を更新しても良いし、他の不一致率を用いて更新しても良く、閾値の更新の方法は特段限定されない。
　図２のステップＳ１からステップＳ６の処理は、ユーザの１発声毎に行われても良いし、音声区間もしくは非音声区間が確定する毎に行われても良いし、ある一定の時間毎に行われても良い。
　本実施の形態における音声区間判定装置１は、第１の音声区間判定部１０３が閾値を用いて非音声区間と判定した区間の入力音の時系列に対して、標準音声の重畳を行なう。さらに第２の音声区間判定部１０６が再度閾値を用いて、標準音声の重畳された時系列を音声区間と非音声区間とに分割する。音声区間判定装置１は、第２の音声区間判定の結果を標準音声からわかる正解の情報と比べることにより、閾値の値が適切であるかどうかを判定することができるため、当該判定結果に基づいて、音声区間判定に用いる閾値を適切な値に更新することができる。このように、音声区間判定装置１は、ユーザの発声していない間の入力音の時系列を用いて音声区間判定に用いる閾値を更新できるため、ユーザに負担をかけることなく音声区間判定に用いる閾値を更新し、雑音に頑健な音声区間判定を行うことができる。
　＜実施形態２＞
　次に、本発明の第２の実施の形態について説明する。
　図４は、本発明の第２の実施の形態の構成を示す図である。図４を参照すると、本発明の第２の実施の形態における音声区間判定装置１は、第１の実施の形態の構成に加えて、ゲイン・周波数特性取得部２０１と、ゲイン・周波数特性補正部２０２と、を備える。他の構成については第１の実施の形態と同様であるから説明を省略する。
　ゲイン・周波数特性取得部２０１は、具体的には、論理回路によって実現される専用装置や、プログラムを実行する情報処理装置のＣＰＵなどによって実現される。ゲイン・周波数特性取得部２０１は、前記第１音声区間判定部１０３で音声区間と判定された入力音の時系列からゲイン情報または周波数特性情報の少なくとも一方を取得するように構成される。
　ゲイン・周波数特性取得部２０１におけるゲインの取得方法には以下の方法がある。例えば、ゲイン・周波数特性取得部２０１は、上述の（式１）を用いて単位時間ごとの振幅パワーを算出し、音声区間全体に対して平均値を求めてもよい。あるいはゲイン・周波数特性取得部２０１は音声区間における振幅パワーの最大値を求めてもよい。
　また、ゲイン・周波数特性取得部２０１における周波数特性の取得方法には以下の方法がある。例えば、ゲイン・周波数特性取得部２０１は単位時間毎にフーリエ変換を行い周波数帯域毎のスペクトルパワーを求め、音声区間全体に対して周波数帯域毎に平均値を求めてもよい。あるいはゲイン・周波数特性取得部２０１は音声区間におけるスペクトルパワーの最大値を周波数帯域毎に求めてもよい。
　ゲイン・周波数特性補正部２０２は、具体的には、論理回路によって実現される専用装置や、プログラムを実行する情報処理装置のＣＰＵなどによって実現される。ゲイン・周波数特性取得部２０１は、ゲイン・周波数特性取得部２０１が取得したゲイン情報または周波数特性情報の少なくとも一方を用いて、前記標準音声のゲインおよび周波数特性を補正するように構成される。
　ゲイン・周波数特性補正部２０２におけるゲインの補正方法には以下の方法がある。例えば、ゲイン・周波数特性補正部２０２は、予め標準音声に対して求めておいたゲインが前記入力音に対して求めたゲインと等しくなるように、予め標準音声に対して求めておいたゲインに所定のファクターを乗じて補正してもよい。
　また、ゲイン・周波数特性補正部２０２における周波数特性の補正方法には以下の方法がある。例えば、ゲイン・周波数特性補正部２０２は、予め標準音声に対して求めておいた周波数特性が前記入力音に対して求めた周波数特性と等しくなるように、予め標準音声に対して求めておいた周波数特性に対して周波数帯域毎に所定のファクターを乗じて補正してもよい。
　次に本実施の形態の動作について、図５のフロー図を用いて説明する。本発明の第２の実施の形態では、第１の実施の形態の図２のステップＳ２までを行った後、第１音声区間判定部１０３の判定結果に応じて別の処理を行う。
　具体的には、第１音声区間判定部１０３が音声区間と判定した入力音の時系列に対しては、ゲイン・周波数特性取得部２０１が、ゲイン・周波数特性の情報を取得する（図５のステップＳ３）。そして、ゲイン・周波数補正部２０２は、ゲイン・周波数特性取得部２０１が取得したゲイン・周波数特性の情報を用いて標準音声を補正する（図５のステップＳ４）。標準音声重畳部１０５は、第１音声区間判定部１０３が非音声区間と判定した入力音の時系列に対しては、補正された前記標準音声を重畳する（図５のステップＳ５）。音声区間判定装置１は、以降第１の実施の形態の図２のステップＳ４以降と同様の処理を行う。
　本実施の形態における音声区間判定装置１は、第１音声区間判定部１０３で音声区間と判定された入力音の時系列を用いてゲイン・周波数特性の情報を取得し、標準音声を補正することで、ユーザの発声により近い話者性や音響環境に標準音声を近づけることができる。そのため、本実施の形態における音声区間判定装置１は、より精度よく閾値の更新を行うことが出来る。
　＜実施形態３＞
　次に、本発明の第３の実施の形態について説明する。
　図６は、本発明の第３の実施の形態の構成を示す図である。図６を参照すると、本発明の第３の実施の形態における音声区間判定装置１は、第１の実施の形態の構成に加えて、特徴量抽出部３０１と、標準音声格納部３０２と、標準音声選択部３０３と、を備える。他の構成については第１の実施の形態と同様であるから説明を省略する。
　特徴量抽出部３０１は、第１音声区間判定部１０３で音声区間と判定された入力音の時系列から話者性（各個人が独自に有する個人性情報）や音響環境を判別するための特徴量を求めるように構成される。ここで、特徴量とは、スペクトラムやケプストラムなどの入力音の時系列から得られる特徴量である。特徴量抽出部３０１は、例えば、入力音の時系列に対し単位時間ごとにその特徴量を算出し、全音声区間に渡ってその平均値を計算しても良い。
　標準音声格納部３０２は、光ディスク装置や磁気ディスク装置などの記憶装置によって実現され、異なる話者性や音響環境で収録された異なる特徴量をもつ複数の標準音声を格納する。ここで、特徴量とは、上述したようにスペクトラムやケプストラムなどの入力音の時系列から得られる特徴量である。なお、標準音声格納部３０２は、予め標準音声のデータとその特徴量とを対応付けて格納しておいてもよい。
　標準音声選択部３０３は、論理回路によって実現される専用装置や、プログラムを実行する情報処理装置のＣＰＵなどによって実現され、前記複数の標準音声のうち第１音声区間判定部１０３で音声区間と判定された入力音の時系列に近い標準音声を標準音声格納部３０２から選択するように構成される。この際、標準音声選択部３０３は、特徴量抽出部３０１が入力音の時系列から抽出した前記特徴量の値と最も近い特徴量の値をもつ標準音声を標準音声格納部３０２から選択しても良い。また、標準音声選択部３０３は、入力音の時系列と標準音声との類似度を所定の相関関数によって求め、入力音との類似度の値が所定値以上あるいは最も近い標準音声を選択してもよい。また、標準音声選択部３０３は、他の公知の方法を用いて算出された類似度をもとに標準音声格納部３０２から標準音声を選択してもよく、類似度の計算方法や標準音声の選択方法は特段制限されるものではない。
　次に、本実施の形態の動作について、図７のフロー図を用いて説明する。本発明の第３の実施の形態では、第１の実施の形態の図２のステップＳ２までを行った後、第１音声区間判定部１０３の判定結果に応じて別の処理を行う。具体的には、第１音声区間判定部１０３が音声区間と判定した入力音の時系列に対しては、特徴量抽出部３０１が、入力音の時系列から話者性、音響環境を判別するための特徴量を求める（図７のステップＳ３）。そして、標準音声選択部３０３は、標準音声格納部３０２が格納する複数の標準音声のうち第１音声区間判定部１０３で音声区間と判定された入力音の時系列に近い標準音声を選択する（図７のステップＳ４）。以下のステップは第一の実施の形態における動作と同様であるから説明を省略する。
　本実施の形態における音声区間判定装置１は、第１音声区間判定部１０３で音声区間と判定された入力音の時系列から話者性や音響環境を判別するための特徴量を求め、複数の標準音声のうち前記音声区間と判定された入力音の時系列に近い音を選択する。これにより、本実施の形態における音声区間判定装置１は、ユーザの発声により近い話者性や音響環境に標準音声を近づけることができるため、より精度よく閾値の更新を行うことが出来る。
　＜実施形態４＞
　次に、発明を実施するための第４の実施の形態について説明する。
　図８は、本発明の第４の実施の形態の構成を示す図である。図８を参照すると、本発明の第４の実施の形態における音声区間判定装置１は、第１の実施の形態の構成に加えて、音声認識部４０１と、認識結果比較部４０２と、を備える。他の構成については第１の実施の形態と同様であるから説明を省略する。
　音声認識部４０１は、第１音声区間判定部１０３で音声区間と判定された入力音の時系列に対して音声認識を行い、入力音の時系列に対して、各音声区間に対応する単語列を求めるように構成される。
　認識結果比較部４０２は、音声認識部４０１による前記音声認識結果と、第１音声区間判定部１０３で音声区間と判定された区間との一致度（あるいは不一致度）を比較する。
　次に、図９を用いて本実施の形態の動作について説明する。
　本実施の形態では、入力音を取得後、第１音声区間判定部１０３が入力音の時系列の音声区間と非音声区間とを判定する（図９のステップＳ１、Ｓ２）。以降の処理は、入力音が音声区間か、非音声区間かによって異なる。非音声区間に対しては、音声区間判定装置１は、第１の実施の形態で説明した図２のステップＳ３以降と同様の処理を行う。一方、音声区間に対しては、音声区間判定装置１は、以下の処理を行う。
　音声区間と判定された入力音声の時系列に対し、音声認識部４０１は音声認識を行い、その音声区間に対して、対応する単語列を求める（図９のステップＳ７、Ｓ８）。ここで、音声認識部４０１は、音声認識を行う際、前記音声区間と判定された入力音声の時系列の前後にマージンを付与しても良い。図３の例では、最初の音声区間に対しては「こんにちは」が対応し、次の音声区間に対しては「林です」が対応する。この際、音声認識部４０１は、対応する単語列が、入力音声のどの時点からどの時点までに対応するかを決定し、認識結果である単語列の対応情報を認識結果比較部４０２に出力する。次に認識結果比較部４０２は、取得した対応情報と、前記第１音声区間判定部１０３で判定された音声区間とを比較する（図９のステップＳ９）。認識結果比較部４０２は、例えば、（式３）で定義される誤棄却率（ＦＲＲ：Ｆａｌｓｅ　Ｒｅｊｅｃｔｉｏｎ　Ｒａｔｅ）または（式４）で定義される誤受理率（ＦＡＲ：Ｆａｌｓｅ　Ａｃｃｅｐｔａｎｃｅ　Ｒａｔｅ）を用いてこの比較を行なう。閾値更新部１０８は、第２音声区間判定部１０６の判定結果と、認識結果比較部４０２の判定結果とに基づいて前記閾値を更新する（図９のステップＳ６）。この際、閾値更新部１０８は、第２音声区間判定部１０６の判定結果と、認識結果比較部４０２の判定結果のうち、誤棄却率や誤受理率が大きい方、あるいは小さい方を採用して、（式５）により閾値を更新しても良いし、これらの平均値を用いて閾値を更新しても良く、更新の仕方は適宜変更可能である。
　本実施の形態における音声区間判定装置１は、ユーザ自身の音声を用いて音声区間判定に関する閾値を更新するため、より精度よく閾値の更新を行うことが出来る。
　＜実施形態５＞
　次に、発明を実施するための第５の実施の形態について説明する。
　図１０は、本発明の第５の実施の形態の構成を示す図である。図１０を参照すると、本発明の第５の実施の形態における音声区間判定装置１は、第１音声区間判定部１０３と、第２音声区間判定部１０６と、閾値更新部１０８とを備える。これらの構成、動作については第一の実施の形態と同様であるから説明を省略する。
　この構成により、入力音の時系列から取得した特徴量の値と閾値とを比較することにより、前記入力音の時系列の音声区間と非音声区間とを判定する第１の音声区間判定手段と、前記第１の音声区間判定手段で非音声区間と判定された区間に標準音声を重畳した後の時系列から取得した特徴量の値と前記閾値とを比較することにより、前記標準音声を重畳した後の時系列の音声区間と非音声区間とを判定する第２の音声区間判定手段と、前記第２の音声区間判定手段の判定結果に基づいて前記閾値を更新する閾値更新手段と、を備える音声区間判定装置が提供される。
　音声区間判定装置１によれば、ユーザに負担をかけずに音声区間判定に利用するパラメタを更新し、雑音に頑健な音声区間判定装置、音声区間判定方法および音声区間判定プログラムが提供される。
　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
　この出願は、２０１０年８月１０日に出願された日本出願特願２０１０−１７９１８０を基礎とする優先権を主張し、その開示の全てをここに取り込む。
　（付記１）
入力音の時系列の特徴量の値と閾値とを比較することにより、前記入力音の時系列の音声区間（第１音声区間）と非音声区間（第１非音声区間）とを判定する第１の音声区間判定手段と、前記第１非音声区間の時系列に標準音声格納手段から取得した標準音声を重畳した後の第１非音声区間の時系列の特徴量の値と、前記閾値とを比較することにより、前記標準音声を重畳した後の第１非音声区間の時系列の音声区間と非音声区間とを判定する第２の音声区間判定手段と、前記第２の音声区間判定手段の判定結果と、前記標準音声から算出される正解との不一致率が小さくなるように前記閾値を更新する閾値更新手段と、を備える音声区間判定装置。
　（付記２）
前記第１音声区間の入力音の時系列から取得したゲインまたは周波数特性の少なくとも一方を用いて、そのゲインまたは周波数特性と、前記標準音声のゲインまたは周波数特性とが等しくなるように、前記第１非音声区間に重畳する前記標準音声のゲインまたは周波数特性の値を補正するゲイン・周波数特性補正手段をさらに備える付記１に記載の音声区間判定装置。
　（付記３）
それぞれ異なる特徴量をもつ複数の標準音声を格納する前記標準音声格納手段から、前記第１音声区間の入力音の時系列の特徴量の値と類似する特徴量を有する標準音声を、前記第１非音声区間に重畳する標準音声として選択する標準音声選択手段をさらに備える付記１乃至２のいずれかに記載の音声区間判定装置。
　（付記４）
　前記第１音声区間の入力音の時系列に対応する単語列の区間を求める音声認識手段と、前記第１音声区間と、前記音声認識手段が求めた前記単語列の区間と、の不一致率を判定する判定結果比較手段と、をさらに備え、前記閾値更新手段は、前記判定結果比較手段の判定した不一致率と、前記第２の音声区間判定手段の判定と前記標準音声から算出される正解との不一致率と、に基づいて前記閾値を更新する付記１乃至３のいずれかに記載の音声区間判定装置。
　（付記５）
入力音の時系列の特徴量の値と閾値とを比較することにより、前記入力音の時系列の音声区間（第１音声区間）と非音声区間（第１非音声区間）とを判定する第１の音声区間判定ステップと、前記第１非音声区間の時系列に標準音声格納手段から取得した標準音声を重畳した後の第１非音声区間の時系列の特徴量の値と、前記閾値とを比較することにより、前記標準音声を重畳した後の第１非音声区間の時系列の音声区間と非音声区間とを判定する第２の音声区間判定ステップと、前記第２の音声区間判定ステップにおける判定結果と、前記標準音声から算出される正解との不一致率が小さくなるように前記閾値を更新する閾値更新ステップと、をコンピュータに実行させる音声区間判定プログラム。
　（付記６）
前記第１音声区間の入力音の時系列から取得したゲインまたは周波数特性の少なくとも一方を用いて、そのゲインまたは周波数特性と、前記標準音声のゲインまたは周波数特性とが等しくなるように、前記第１非音声区間に重畳する前記標準音声のゲインまたは周波数特性の値を補正するステップを、さらにコンピュータに実行させる付記５に記載の音声区間判定プログラム。
　（付記７）
それぞれ異なる特徴量をもつ複数の標準音声を格納する前記標準音声格納手段から、前記第１音声区間の入力音の時系列の特徴量の値と類似する特徴量を有する標準音声を、前記第１非音声区間に重畳する標準音声として選択するステップを、さらにコンピュータに実行させる付記５乃至６のいずれかに記載の音声区間判定プログラム。
　（付記８）
前記第１音声区間の入力音の時系列に対応する単語列の区間を求める音声認識ステップと、前記第１音声区間と、前記単語列の区間と、の不一致率を判定する判定結果比較ステップと、前記判定結果比較ステップにおいて判定した不一致率と、前記第２の音声区間判定ステップにおける判定と前記標準音声から算出される正解との不一致率と、に基づいて前記閾値を更新する前記閾値更新ステップと、をコンピュータに実行させる付記５乃至７のいずれかに記載の音声区間判定プログラム。
　（付記９）
入力音の時系列の特徴量の値と閾値とを比較することにより、前記入力音の時系列の音声区間（第１音声区間）と非音声区間（第１非音声区間）とを判定し、前記第１非音声区間の時系列に標準音声格納手段から取得した標準音声を重畳した後の第１非音声区間の時系列の特徴量の値と、前記閾値とを比較することにより、前記標準音声を重畳した後の第１非音声区間の時系列の音声区間と非音声区間とを判定し、その判定結果と、前記標準音声から算出される正解との不一致率が小さくなるように前記閾値を更新する音声区間判定方法。
　（付記１０）
前記第１音声区間の入力音の時系列から取得したゲインまたは周波数特性の少なくとも一方を用いて、そのゲインまたは周波数特性と、前記標準音声のゲインまたは周波数特性とが等しくなるように、前記第１非音声区間に重畳する前記標準音声のゲインまたは周波数特性の値を補正する請求項９に記載の音声区間判定方法。

　１　　　音声区間判定装置
　１０１　入力音取得部
　１０２　閾値格納部
　１０３　第１音声区間判定部
　１０４　標準音声格納部
　１０５　標準音声重畳部
　１０６　第２音声区間判定部
　１０７　判定結果比較部
　１０８　閾値更新部
　２０１　ゲイン・周波数特性取得部
　２０２　ゲイン・周波数特性補正部
　３０１　特徴量抽出部
　３０２　標準音声格納部
　３０３　標準音声選択部
　４０１　音声認識部
　４０２　認識結果比較部

Claims

　入力音の時系列の特徴量の値と閾値とを比較することにより、前記入力音の時系列の音声区間（第１音声区間）と非音声区間（第１非音声区間）とを判定する第１の音声区間判定手段と、
　前記第１非音声区間の時系列に標準音声格納手段から取得した標準音声を重畳した後の第１非音声区間の時系列の特徴量の値と、前記閾値とを比較することにより、前記標準音声を重畳した後の第１非音声区間の時系列の音声区間と非音声区間とを判定する第２の音声区間判定手段と、
　前記第２の音声区間判定手段の判定結果と、前記標準音声から算出される正解との不一致率が小さくなるように前記閾値を更新する閾値更新手段と、を備える音声区間判定装置。
　前記第１音声区間の入力音の時系列から取得したゲインまたは周波数特性の少なくとも一方を用いて、そのゲインまたは周波数特性と、前記標準音声のゲインまたは周波数特性とが等しくなるように、前記第１非音声区間に重畳する前記標準音声のゲインまたは周波数特性の値を補正するゲイン・周波数特性補正手段をさらに備える請求項１に記載の音声区間判定装置。
　それぞれ異なる特徴量をもつ複数の標準音声を格納する前記標準音声格納手段から、前記第１音声区間の入力音の時系列の特徴量の値と類似する特徴量を有する標準音声を、前記第１非音声区間に重畳する標準音声として選択する標準音声選択手段をさらに備える請求項１乃至２のいずれかに記載の音声区間判定装置。
　前記第１音声区間の入力音の時系列に対応する単語列の区間を求める音声認識手段と、
　前記第１音声区間と、前記音声認識手段が求めた前記単語列の区間と、の不一致率を判定する判定結果比較手段と、
をさらに備え、
　前記閾値更新手段は、前記判定結果比較手段の判定した不一致率と、前記第２の音声区間判定手段の判定と前記標準音声から算出される正解との不一致率と、に基づいて前記閾値を更新する請求項１乃至３のいずれかに記載の音声区間判定装置。
　入力音の時系列の特徴量の値と閾値とを比較することにより、前記入力音の時系列の音声区間（第１音声区間）と非音声区間（第１非音声区間）とを判定する第１の音声区間判定ステップと、
　前記第１非音声区間の時系列に標準音声格納手段から取得した標準音声を重畳した後の第１非音声区間の時系列の特徴量の値と、前記閾値とを比較することにより、前記標準音声を重畳した後の第１非音声区間の時系列の音声区間と非音声区間とを判定する第２の音声区間判定ステップと、
　前記第２の音声区間判定ステップにおける判定結果と、前記標準音声から算出される正解との不一致率が小さくなるように前記閾値を更新する閾値更新ステップと、
をコンピュータに実行させる音声区間判定プログラム。
　前記第１音声区間の入力音の時系列から取得したゲインまたは周波数特性の少なくとも一方を用いて、そのゲインまたは周波数特性と、前記標準音声のゲインまたは周波数特性とが等しくなるように、前記第１非音声区間に重畳する前記標準音声のゲインまたは周波数特性の値を補正するステップを、
さらにコンピュータに実行させる請求項５に記載の音声区間判定プログラム。
　それぞれ異なる特徴量をもつ複数の標準音声を格納する前記標準音声格納手段から、前記第１音声区間の入力音の時系列の特徴量の値と類似する特徴量を有する標準音声を、前記第１非音声区間に重畳する標準音声として選択するステップを、
さらにコンピュータに実行させる請求項５乃至６のいずれかに記載の音声区間判定プログラム。
　前記第１音声区間の入力音の時系列に対応する単語列の区間を求める音声認識ステップと、
　前記第１音声区間と、前記単語列の区間と、の不一致率を判定する判定結果比較ステップと、
　前記判定結果比較ステップにおいて判定した不一致率と、前記第２の音声区間判定ステップにおける判定と前記標準音声から算出される正解との不一致率と、に基づいて前記閾値を更新する前記閾値更新ステップと、
をコンピュータに実行させる請求項５乃至７のいずれかに記載の音声区間判定プログラム。
　入力音の時系列の特徴量の値と閾値とを比較することにより、前記入力音の時系列の音声区間（第１音声区間）と非音声区間（第１非音声区間）とを判定し、
　前記第１非音声区間の時系列に標準音声格納手段から取得した標準音声を重畳した後の第１非音声区間の時系列の特徴量の値と、前記閾値とを比較することにより、前記標準音声を重畳した後の第１非音声区間の時系列の音声区間と非音声区間とを判定し、その判定結果と、前記標準音声から算出される正解との不一致率が小さくなるように前記閾値を更新する音声区間判定方法。
　前記第１音声区間の入力音の時系列から取得したゲインまたは周波数特性の少なくとも一方を用いて、そのゲインまたは周波数特性と、前記標準音声のゲインまたは周波数特性とが等しくなるように、前記第１非音声区間に重畳する前記標準音声のゲインまたは周波数特性の値を補正する請求項９に記載の音声区間判定方法。