JPWO2011077924A1 - 音声検出装置、音声検出方法、および音声検出プログラム - Google Patents
音声検出装置、音声検出方法、および音声検出プログラム Download PDFInfo
- Publication number
- JPWO2011077924A1 JPWO2011077924A1 JP2011547442A JP2011547442A JPWO2011077924A1 JP WO2011077924 A1 JPWO2011077924 A1 JP WO2011077924A1 JP 2011547442 A JP2011547442 A JP 2011547442A JP 2011547442 A JP2011547442 A JP 2011547442A JP WO2011077924 A1 JPWO2011077924 A1 JP WO2011077924A1
- Authority
- JP
- Japan
- Prior art keywords
- speech
- section
- voice
- feature
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 141
- 238000004364 calculation method Methods 0.000 claims abstract description 90
- 238000000034 method Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 description 29
- 238000007493 shaping process Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 22
- 238000004458 analytical method Methods 0.000 description 13
- 238000001228 spectrum Methods 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
雑音環境下においても高精度の音声区間検出を行う音声検出装置、音声検出方法、および音声検出プログラムを提供する。特徴量算出部301が、フレームごと特徴量を算出する。音声/非音声判定部302が、算出された特徴量と、音声検出閾値とを比較し、音声区間であるのか、または非音声区間であるのかを判定する。長区間特徴量算出部303が、複数のフレームの特徴量の統計値にもとづいて、音声区間または非音声区間の特徴量である長区間特徴量を算出する。閾値更新部304が、算出された長区間特徴量を用いて、音声区間および非音声区間が非音声にもとづく信号が入力された区間であった確率である非音声確率を算出し、算出した非音声確率にもとづいて、音声検出閾値を更新する。
Description
本発明は、音声区間を検出する音声検出装置、音声検出方法、および音声検出プログラムに関する。
音声検出技術は、移動体通信などにおいて非音声区間の圧縮率を向上させたりその区間だけ伝送しないようにしたりして音声伝送効率を向上する目的や、ノイズキャンセラ、エコーキャンセラなどにおいて非音声区間で雑音を推定したり決定したりする目的、音声認識システムにおける音声認識性能の向上や処理量削減などの目的で広く用いられている。
図14は、一般的な音声検出装置の構成例を示すブロック図である。なお、特許文献1には図14に例示した音声検出装置に相当する発明が開示されている。
図14に示す一般的な音声検出装置は、入力信号をフレーム単位に切り出して取得する波形切り出し部101と、切り出されたフレーム毎の入力信号から音声検出に用いる特徴量を算出する特徴量算出部102と、算出された特徴量と閾値記憶部103に記憶されている閾値とをフレーム毎に比較し、入力信号が音声にもとづく信号であるのか、または非音声にもとづく信号であるのかを判定する音声/非音声判定部104と、フレーム毎の判定結果を複数のフレームに渡って保持するフレーム毎の判定結果保持部105と、区間整形ルール記憶部106に記憶されている区間整形ルールにもとづいて、判定結果保持部105に保持された複数のフレームの判定結果を整形し、音声区間であるのか、または非音声区間であるのかを決定する音声/非音声区間整形部107とを含む。
なお、入力信号をフレーム単位に切り出して取得するとは、ある時刻から単位時間が経過するまでに入力された入力信号を取り出すことである。また、フレームは、入力信号が入力されている時間を単位時間毎に分割した各時間である。区間整形ルールは、例えば、連続する複数のフレームに渡って音声にもとづく入力信号または非音声にもとづく入力信号が入力されていると判定された場合に、それら複数のフレームを1つの音声区間または非音声区間と決定するルールである。
特許文献1には、特徴量算出部102で算出される特徴量の例として、スペクトルパワーの変動を平滑化し、さらにその変動を平滑化したものが開示されている。また、非特許文献1の4.3.3節には、特徴量の例として、SNR(Signal to Noise ratio)の値が開示され、4.3.5節には、SNRの値を平均したものが開示されている。非特許文献2のB.3.1.4節には、特徴量の例として、零点交差数が開示され、非特許文献3には、特徴量の例として、音声GMM(Gaussian Mixture Model)と無音GMMとを用いた尤度比が開示されている。
音声/非音声判定部104は、予め実験により定められた閾値とフレーム毎の特徴量との比較を行い、特徴量が閾値以上の場合は音声にもとづく入力信号であると判定し、閾値以下の場合は非音声にもとづく入力信号であると判定する。
特許文献2には、1発声ごとに閾値を更新する方法が開示されている。図15は、音声検出の閾値を変更する音声検出装置を示すブロック図である。なお、特許文献2には図15に例示した音声検出装置に相当する発明が開示されている。音声検出閾値設定部18は、音声区間のスペクトルパワーの最大値と音声区間ではない背景雑音区間のスペクトルパワーの平均値とにもとづいて、音声区間であるか否かを判定するためのスペクトルパワーの閾値を算出し、算出した閾値に更新する。
図14は、一般的な音声検出装置の構成例を示すブロック図である。なお、特許文献1には図14に例示した音声検出装置に相当する発明が開示されている。
図14に示す一般的な音声検出装置は、入力信号をフレーム単位に切り出して取得する波形切り出し部101と、切り出されたフレーム毎の入力信号から音声検出に用いる特徴量を算出する特徴量算出部102と、算出された特徴量と閾値記憶部103に記憶されている閾値とをフレーム毎に比較し、入力信号が音声にもとづく信号であるのか、または非音声にもとづく信号であるのかを判定する音声/非音声判定部104と、フレーム毎の判定結果を複数のフレームに渡って保持するフレーム毎の判定結果保持部105と、区間整形ルール記憶部106に記憶されている区間整形ルールにもとづいて、判定結果保持部105に保持された複数のフレームの判定結果を整形し、音声区間であるのか、または非音声区間であるのかを決定する音声/非音声区間整形部107とを含む。
なお、入力信号をフレーム単位に切り出して取得するとは、ある時刻から単位時間が経過するまでに入力された入力信号を取り出すことである。また、フレームは、入力信号が入力されている時間を単位時間毎に分割した各時間である。区間整形ルールは、例えば、連続する複数のフレームに渡って音声にもとづく入力信号または非音声にもとづく入力信号が入力されていると判定された場合に、それら複数のフレームを1つの音声区間または非音声区間と決定するルールである。
特許文献1には、特徴量算出部102で算出される特徴量の例として、スペクトルパワーの変動を平滑化し、さらにその変動を平滑化したものが開示されている。また、非特許文献1の4.3.3節には、特徴量の例として、SNR(Signal to Noise ratio)の値が開示され、4.3.5節には、SNRの値を平均したものが開示されている。非特許文献2のB.3.1.4節には、特徴量の例として、零点交差数が開示され、非特許文献3には、特徴量の例として、音声GMM(Gaussian Mixture Model)と無音GMMとを用いた尤度比が開示されている。
音声/非音声判定部104は、予め実験により定められた閾値とフレーム毎の特徴量との比較を行い、特徴量が閾値以上の場合は音声にもとづく入力信号であると判定し、閾値以下の場合は非音声にもとづく入力信号であると判定する。
特許文献2には、1発声ごとに閾値を更新する方法が開示されている。図15は、音声検出の閾値を変更する音声検出装置を示すブロック図である。なお、特許文献2には図15に例示した音声検出装置に相当する発明が開示されている。音声検出閾値設定部18は、音声区間のスペクトルパワーの最大値と音声区間ではない背景雑音区間のスペクトルパワーの平均値とにもとづいて、音声区間であるか否かを判定するためのスペクトルパワーの閾値を算出し、算出した閾値に更新する。
「テクニカルディスクリプションオブVADオプション2(Technical Description of VAD Option2)」,(フランス)、ヨーロッパ電気通信標準化協会(ETSI(Europian Telecommunications Standards Institute)),1999年12月,ETSI EN 301 708 V7.1.1,p.17−26
"ITU−T Recommendation G.729"、[online]、2007年1月、ITU−T、[平成21年12月9日検索]、インターネット<URL:http://www.itu.int/rec/T−REC−G.729−200701−I/en>
アキノブ リー(Akinobu Lee)他4名,「ノイズロバストリアルワールドスポークンダイアログシステムユージングGMMベーストリジェクションオブアンインテンデッドインプット(Noise Robust Real World Spoken Dialog System using GMM Based Rejection of Unintended Inputs)」,(韓国),アイシーエスエルピー(ICSLP(International Conference on Spoken Language Processing)),2004年10月4日,ICSLP−2004,Vol.1,p.173−176
しかし、図14に示す音声検出装置は、閾値を設定するためには予め雑音のみ入力されている複数のフレームから平均雑音パワーと音声信号が入力されているフレームで構成された区間における最大スペクトルパワーとを測定する必要があり、雑音や最大スペクトルパワーが常に変化する環境に対応できない。
図15に示す音声検出装置は、閾値を決めるために音声検出を行い、背景雑音のスペクトルパワーを求める必要があるが、検出の精度が低いと雑音を推定できない可能性がある。例えば、入力信号の最初から音声区間が続く場合や、閾値を越えるような背景雑音が続いてしまい音声区間と判断されてしまったりするような場合には、音声検出装置は背景雑音のスペクトルパワーを取得することが困難となる。そのため、音声検出装置は、閾値の決定および更新をすることができない。
そこで、上述の課題を解決するため、本発明は、雑音が変化したり、入力信号の最初から雑音や音声区間が続いたりするような場合であっても、音声区間を検出することができる音声検出装置、音声検出方法、および音声検出プログラムを提供することを目的とする。
図15に示す音声検出装置は、閾値を決めるために音声検出を行い、背景雑音のスペクトルパワーを求める必要があるが、検出の精度が低いと雑音を推定できない可能性がある。例えば、入力信号の最初から音声区間が続く場合や、閾値を越えるような背景雑音が続いてしまい音声区間と判断されてしまったりするような場合には、音声検出装置は背景雑音のスペクトルパワーを取得することが困難となる。そのため、音声検出装置は、閾値の決定および更新をすることができない。
そこで、上述の課題を解決するため、本発明は、雑音が変化したり、入力信号の最初から雑音や音声区間が続いたりするような場合であっても、音声区間を検出することができる音声検出装置、音声検出方法、および音声検出プログラムを提供することを目的とする。
本発明による音声検出装置は、単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する特徴量算出手段と、特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する音声/非音声判定手段と、特徴量算出手段が算出した音声区間または非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、音声区間または非音声区間の特徴量である長区間特徴量を算出する長区間特徴量算出手段と、長区間特徴量を用いて、音声区間および非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した非音声確率にもとづいて、音声検出閾値を更新する閾値更新手段とを備えたことを特徴とする。
本発明による音声検出方法は、単位時間内の入力信号であるフレームごとの入力信号の特徴量を算出し、特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定し、音声区間または非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、音声区間または非音声区間の特徴量である長区間特徴量を算出し、長区間特徴量を用いて、音声区間および非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した非音声確率にもとづいて、音声検出閾値を更新することを特徴とする。
本発明によるプログラム記録媒体に格納される音声検出プログラムは、コンピュータに、単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する特徴量算出処理と、特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する音声/非音声判定処理と、特徴量算出処理で算出した音声区間または非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、音声区間または非音声区間の特徴量である長区間特徴量を算出する長区間特徴量算出処理と、長区間特徴量を用いて、音声区間および非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した非音声確率にもとづいて、音声検出閾値を更新する閾値更新処理とを実行させることを特徴とする。
本発明による音声検出方法は、単位時間内の入力信号であるフレームごとの入力信号の特徴量を算出し、特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定し、音声区間または非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、音声区間または非音声区間の特徴量である長区間特徴量を算出し、長区間特徴量を用いて、音声区間および非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した非音声確率にもとづいて、音声検出閾値を更新することを特徴とする。
本発明によるプログラム記録媒体に格納される音声検出プログラムは、コンピュータに、単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する特徴量算出処理と、特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する音声/非音声判定処理と、特徴量算出処理で算出した音声区間または非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、音声区間または非音声区間の特徴量である長区間特徴量を算出する長区間特徴量算出処理と、長区間特徴量を用いて、音声区間および非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した非音声確率にもとづいて、音声検出閾値を更新する閾値更新処理とを実行させることを特徴とする。
本発明は、閾値を超えるような背景雑音が入力の先頭に入る場合などにおいても、雑音環境下においても高精度の音声区間検出を行うことができる音声検出装置、音声検出方法、および音声検出プログラムを提供する。
実施形態1.
本発明の第1の実施形態について、図面を参照して説明する。図1は、本発明による音声検出装置の第1の実施形態の構成例を示すブロック図である。図1に示すように、本発明の第1の実施形態の音声検出装置は、波形切りだし部101、特徴量算出部102、閾値記憶部103、音声/非音声判定部104、判定結果保持部105、整形ルール記憶部106、音声/非音声区間整形部107、長区間特徴量算出部108、および閾値更新部109を含む。
波形切り出し部101は、入力信号をフレーム単位に切り出して取得する。具体的には、波形切り出し部101は、例えば、所定の単位時間ごとの入力信号をそれぞれ切りだして取得する。特徴量算出部102は、波形切り出し部101が切り出したフレーム毎の入力信号から音声検出に用いる特徴量を算出する。閾値記憶部103は、入力信号が音声にもとづく入力信号であるのか、または非音声にもとづく入力信号であるのかを判定するための閾値を記憶する。
音声/非音声判定部104は、特徴量算出部102が算出した特徴量と閾値記憶部103に記憶されている閾値とをフレーム毎に比較し、そのフレームの入力信号が音声にもとづく入力信号であるのか、または非音声にもとづく入力信号であるのかを判定する。なお、音声にもとづく入力信号のフレームを音声フレームといい、非音声にもとづく入力信号のフレームを非音声フレームという。判定結果保持部105は、音声/非音声判定部104によるフレーム毎の判定結果を複数フレームに渡り保持する。
区間整形ルール記憶部106には、区間整形ルールが記憶されている。音声/非音声区間整形部107は、区間整形ルール記憶部106に記憶されている区間整形ルールにもとづいて、判定結果保持部105に保持されている複数フレームの判定結果を整形し、音声区間または非音声区間であると決定する。具体的には、音声/非音声区間整形部107は、例えば、音声フレームが複数連続していた場合に、それら複数のフレームは一の音声区間であると決定する。また、音声/非音声区間整形部107は、非音声フレームが複数連続していた場合に、それら複数のフレームは一の非音声区間であると決定する。なお、音声/非音声区間整形部107は、連続する複数のフレームにおいて、音声フレームの割合が所定の割合よりも大きい場合にそれら複数のフレームを一の音声区間であると決定したり、非音声フレームの割合が一定の割合よりも大きい場合に一の非音声区間であると決定したりしてもよい。
長区間特徴量算出部108は、音声/非音声区間整形部107によって決定された音声区間および非音声区間に対し、特徴量算出部102が算出したフレーム毎の特徴量を統計処理した長区間特徴量を算出する。
閾値更新部109は、長区間特徴量算出部108が算出した長区間特徴量を用いて、音声/非音声区間整形部107によって決定された音声区間および非音声区間に対する非音声確率を算出し、閾値記憶部103に記憶されている閾値を変更する。なお、非音声確率とは、後述するように、当該区間の入力信号が非音声にもとづく入力信号である確率である。
音声検出装置は、例えば、音声検出プログラムを搭載したコンピュータによって実現される。
次に、本発明の第1の実施形態の音声検出装置の動作について、図面を参照して説明する。図2は、本発明の第1の実施形態の音声検出装置の動作を示すフローチャートである。
まず、波形切り出し部101は、マイクロフォン(図示せず)から入力される集音された時系列の入力音データを単位時間のフレーム毎に切り出す(ステップS101)。例えば、入力音データがサンプリング周波数8000Hzの16bit Linear−PCM(Pulse Code Modulation)形式である場合、1秒当たり8000点の入力音データによる波形データが各フレームに格納されている。
波形切り出し部101は、例えば、この波形データをフレーム幅200点(25ミリ秒)、フレームシフト80点(10ミリ秒)で時系列に従って逐次切り出す。
次に、特徴量算出部102が、フレームごとに切り出された波形から特徴量を算出する(ステップS102)。特徴量算出部102が算出する特徴量は、例えば、スペクトルパワーやSNR、零交差点、尤度などである。
音声/非音声判定部104は、閾値記憶部103に記憶されている閾値と特徴量算出部102が算出した特徴量とを比較し、閾値を超えている場合は音声フレームであると判定し、超えていない場合は非音声フレームであると判定する(ステップS103)。なお、閾値記憶部103に記憶されている閾値と特徴量算出部102が算出した特徴量とが同じであった場合に、音声/非音声判定部104が音声フレームと判定するかまたは非音声フレームと判定するかは予め決定されていてもよい。そして、音声/非音声判定部104は当該決定にもとづいて、音声フレームまたは非音声フレームと判定する。
判定結果保持部105は、音声/非音声判定部104がステップS106の処理で判定した結果を複数フレーム分保持する(ステップS104)。
音声/非音声区間整形部107は、音声/非音声判定部104がフレーム毎に判定するために生じる短い継続長の音声区間や短い継続長の非音声区間の発生を抑制するために、区間の整形を行う(ステップS105)。
長区間特徴量算出部108は、音声/非音声区間整形部107がステップS105の処理で求めた整形済みの音声区間および非音声区間に対して、特徴量算出部102がステップS102の処理で算出したフレーム毎の特徴量を統計処理し、長区間特徴量を算出する(ステップS106)。長区間特徴量は、例えば、スペクトルパワーやSNR、零交差点、尤度などのうち1つ、または2つ以上の組み合わせである。
長区間特徴量算出部108が行う統計処理の例として、整形済みの音声区間におけるフレーム毎の特徴量の平均値を算出する方法がある。平均値を算出する方法以外にも、長区間特徴量算出部108は、最頻値を用いる方法、中央値を用いる方法、フレーム毎の特徴量を大きさで並べ替えて特徴量の値が大きい順に上位40%付近にある値を用いる方法などを用いても良い。なお、40%という値はあくまで一例であり、ユーザ等が任意に定めた割合としても構わない。ユーザ等が50%と定めた場合、中央値を用いる方法に一致する。
閾値更新部109は、長区間特徴量算出部108がステップS106の処理で算出した長区間特徴量を用いて、整形済みの音声区間に対して非音声確率αを算出する(ステップS107)。ここで非音声確率とは、当該区間の入力信号が雑音など非音声にもとづく入力信号である確率である。従って、1−αは当該区間が音声である確率に相当する。αは以下の式を用いて算出される。
<F>=Σωi×<fi>・・・(1)
α=G[<F>]・・・(2)
ここで、<fi>はフレームごとの特徴量fiに前述の統計処理を施すことにより得られた長区間特徴量である。ωiは長区間特徴量<fi>にかける重みである。そして、式(1)で複数種類(例えば、スペクトルパワーやSNR、零交差点、尤度など)の長区間特徴量<fi>にそれぞれ重みωiを乗じて足し合わされて算出される<F>は統合長区間特徴量である。Gは統合長区間特徴量(単に長区間特徴量ともいう)<F>を変数とする関数である。図3は、本実施形態の関数Gを示す説明図である。図3の横軸は長区間特徴量の値であり、縦軸は非音声確率αである。
図3に示す例では、関数Gは、長区間特徴量が0である場合に、非音声確率αが1となる関数である。つまり、Gは、長区間特徴量が0である場合には、非音声確率は100%となる関数である。そして、Gは、長区間特徴量がτ0である場合に、非音声確率αが0となる関数である。つまり、Gは、長区間特徴量がτ0である場合には、非音声確率は0%となる関数である。そして、Gは、長区間特徴量がτmaxである場合に、非音声確率αが1となる関数である。つまり、Gは、長区間特徴量がτmaxである場合には、非音声確率は100%となる関数である。
なお、図3に示した関数は一例である。関数は、長区間特徴量が中庸な値から遠ざかるほど関数値が増加するような関数や、単調減少(非増大)関数であれば、他の関数であってもよい。(1)式のωi、および図3に示されているτ0、τmaxは予め実験で適切な値を求めておく。またωiを実験的に定めることが難しければ、ωiは各長区間特徴量に対して等しい値(1など)に設定されていてもよい。
次に、閾値更新部109は、ステップS107の処理で算出した非音声確率αを用いて閾値記憶部103に記憶されている閾値を更新する(ステップS108)。閾値更新部109は、閾値の更新は具体的には以下のように行う。まず、閾値更新部109は、閾値候補θ’を以下の式を用いて計算する。
θ’=α×Fmax+(1−α)×Fmin・・・(3)
ここで、Fmaxは音声区間、または非音声区間におけるフレーム毎の特徴量の最大値である。Fminは音声区間、または非音声区間におけるフレーム毎の特徴量の最小値である。αは音声区間、または非音声区間の非音声確率である。次に、閾値更新部109は、閾値候補θ’を用いて、閾値θを以下の式を用いて更新する。
θ←θ+ε×(θ’−θ)・・・(4)
ここで、εは閾値の更新のスピードを調整するステップサイズである。つまり、本発明による音声検出装置は、閾値の更新のスピードを調整することができる。従って、音声検出装置は、一時的な背景雑音の大きさの変動に応じて閾値を大きく変動させたい場合と、一時的な背景雑音によっては閾値をあまり変動させたくない場合とのいずれの場合にも対応することができる。
図4は、閾値を変更する例を示す説明図である。図4に示す例では、音声/非音声区間整形部107によって、非音声区間1、音声区間2、非音声区間3、音声区間4、非音声区間5の順に各区間が音声区間または非音声区間に決定されている。
図4における上部の波形によって入力信号が示されている。また、図4において各音声区間および各非音声区間の終端付近の上下の矢印によって、各音声区間および各非音声区間の特徴量の最大値および最小値が示されている。また、閾値の推移は、縦軸に平行して上下に移動する実線によって示されている。
ここで、音声/非音声区間整形部107が音声区間または非音声区間を決定した際、閾値更新部109が、式(1),(2)を用いて非音声確率を算出し、式(3)を用いて閾値候補を決定する。決定された閾値は式(4)を用いて変更される。
また、閾値の更新は以下に示す式(5)のように、過去のN発声分の閾値候補の平均値を用いて行うことも可能である。
θ←1/N×Σθ’・・・(5)
閾値更新部109は、特定の値以上または未満の非音声確率の場合のみ閾値を更新することも可能である。また、長区間特徴量算出部108が、1つ以上の音声区間、または非音声区間ごとの特徴量に統計処理を施して長区間特徴量を算出し、閾値更新部109が、1つ以上の音声区間、または非音声区間ごとに閾値を更新することも可能である。
また、最初に設定された閾値が大きすぎる場合、または小さすぎる場合には、音声/非音声判定部104における判定結果にもとづき、音声/非音声区間整形部107は、例えば、判定対象のすべての区間を音声区間または非音声区間と判定してしまい、閾値更新部109による閾値の更新が行われない場合がある。
そのような場合に対応するために、閾値更新部109は、音声/非音声判定部104において一定時間以上音声区間または非音声区間に判定されない場合には、閾値を一定値小さくしたり、一定値大きくしたり、当該一定時間に特徴量算出部102が算出した特徴量の平均値を閾値としたりしてもよい。
音声検出装置は、閾値更新部109によって閾値が更新された後、次の音声区間または非音声区間に対してステップS101からS108の処理を行う。また、音声検出装置は、同じ発声に対して再度ステップS101からS108の処理を繰り返すことも可能である。
図5は、更新前の閾値が小さすぎた場合の例を示す説明図である。図5に示す例では、更新前の閾値が小さすぎたので、音声検出装置は、非音声区間1を音声区間であると誤って判定する。
図6は、更新前の閾値が大きすぎた場合の例を示す説明図である。図6に示す例では、更新前の閾値が大きすぎたので、音声検出装置は、音声区間2を非音声区間であると誤って判定する。
本実施形態における音声検出装置は、図5に例示した更新前の閾値が小さすぎた場合であっても、長区間特徴量を用いて算出される非音声確率αを大きくする。図5に示すように、非音声区間1の非音声確率αは0.8である。このような場合、閾値更新部109が(3)式を計算すると、閾値候補θ’はこの非音声区間1の長区間特徴量の最大値に近づくので、閾値がより大きな値に更新される。
また、本実施形態における音声検出装置は、図6に例示した更新前の閾値が大きすぎた場合であっても、長区間特徴量を用いて算出される非音声確率αを小さくする。図6に示すように、音声区間2の非音声確率αは0.2である。このような場合、閾値更新部109が(3)式を計算すると、閾値候補θ’はこの音声区間2の長区間特徴量の最小値に近づくので、閾値がより小さな値に更新される。
従って、本実施形態における音声検出装置は、長区間特徴量算出部108において非音声確率αを算出して閾値更新部109で適切な閾値を設定することで、前段の音声/非音声判定部104で認識対象となる音声区間を正しく検出して、発話環境によって変化する雑音に頑健な音声検出を実現できる。
実施形態2.
本発明の第2の実施形態について、図面を参照して説明する。図7は、本発明による音声検出装置の第2の実施形態の構成例を示すブロック図である。
第2の実施形態の音声検出装置は、図1に示す第1の実施形態の音声検出装置の構成に加えて、入力信号をフレームごとに切り分けて音声らしさを表す特徴量を出力する音声分析部110を含む。音声分析部110は、図1に示す第1の実施形態の音声検出装置の構成における波形切りだし部101や特徴量算出部102に相当する機能を有する。
音声分析部110は、ステップS102の処理で特徴量算出部102とは独立に、第2の特徴量を算出する。音声分析部110が算出する第2の特徴量とは、例えば、スペクトルパワーやSNR、零交差点、尤度などである。
音声分析部110は、特徴量算出部102が特徴量を算出する際に用いたパラメタとは異なるパラメタを用いて、より詳細に入力信号を分析して第2の特徴量を算出する。なお、音声分析部110は、複数の発声ごとに第2の特徴量を算出したり、ユーザによって指示されたときに第2の特徴量を算出したりして、特徴量算出部102が特徴量を算出するときと異なるタイミングで第2の特徴量を算出してもよい。
そして、長区間特徴量算出部108は、ステップS106の処理で、特徴量算出部102が算出した特徴量と、音声分析部110が算出した第2の特徴量とにもとづいて、長区間特徴量を算出する。前述した各特徴量は、入力信号が生成された環境によって検出しやすい場合と、検出が困難である場合とがある。そこで、長区間特徴量算出部108は、例えば、特徴量算出部102が特徴量を算出できなかった場合に、音声分析部110が算出した第2の特徴量を用いて長区間特徴量を算出する。また、特徴量算出部102が算出した特徴量と異なる特徴量を音声分析部110が算出し、長区間特徴量算出部108が、音声分析部110が算出した特徴量である第2の特徴量を補助的に用いて長区間特徴量を算出してもよい。
本実施形態における音声検出装置は、音声分析部110が、特徴量算出部102とは独立に様々の特徴量を算出することができるので、様々な観点で特徴量が算出され、より頑健な音声検出を実現することが可能になる。
実施形態3.
本発明の第3の実施形態について、図面を参照して説明する。図8は、本発明による音声検出装置の第3の実施形態の構成例を示すブロック図である。
第3の実施形態の音声検出装置は、図1に示す第1の実施形態の音声検出装置の構成に加えて、音声らしい特徴量を用いて音声区間に対応する認識結果を出力する音声認識部111を含む。
図9は、音声検出装置の第3の実施形態の他の例を示すブロック図である。図9に示す例では、音声認識部111は、音声検出された音声区間に対して音声認識を行う。
図8および図9に示す第3の実施形態の音声検出装置は、以下のように動作する。すなわち、音声認識部111は、入力された音声信号から適宜特徴量を抽出する。そして、音声認識部111は、言語モデル/音声認識辞書(図示せず)に格納されている単語の特徴量と、抽出した特徴量とをマッチングすることで音声区間の時間情報付き単語列である認識結果を算出する音声認識を行い、時間情報付き音声認識結果単語列を出力する。
長区間特徴量算出部108は、長区間特徴量として音声認識結果から音素継続時間を求める。音素継続時間Taは、以下に示す式(6)で算出される。
Ta=Tb/Nf・・・(6)
ここで、Tbは音声認識部111が出力した音声認識結果単語列の単語1つについてのフレーム数であり、Nfは単語の音素数である。
閾値更新部109は、長区間特徴量算出部108がステップS106の処理で算出した長区間特徴量、すなわち音素継続時間長を用いて、音声/非音声区間整形部107によって切り出された各区間の非音声確率αを算出する。
具体的には、閾値更新部109は、例えば、図10に示すような長区間特徴量を変数とする関数を用いて非音声確率αを求める。図10は、本発明の第3の実施形態において非音声確率αを求めるための関数を示す説明図である。図10に示すように、横軸は長区間特徴量の値、縦軸は非音声確率αである。図10に示すように、長区間特徴量がτmin以下である場合、およびτmax以上である場合に、非音声確率αは1である。また、長区間特徴量がτ0以上であってτ1以下である場合に、非音声確率αは0である。そして、図10に示す例では、長区間特徴量がτminを超えている場合にτ0まで非音声確率αは単調減少し、長区間特徴量がτ1を超えている場合にτmaxまで非音声確率αは単調増加する。
なお、τmin、τmax、τ0、およびτ1は、予め実験で求められた適切な値であるとする。
本実施形態では、長区間特徴量算出部108は、継続時間長を算出する単位を音素としたが、音節など、他の単位を使ってもよい。また、図10に示す関数は一例に過ぎず、これに限られるものではない。関数は、長区間特徴量の中庸な値から遠ざかるにつれて関数値が増加するような任意の関数を定義でもよい。
本実施形態の効果について説明する。閾値を超える背景雑音が長時間続いたときなどに、通常の音声認識結果から得られる継続時間長よりも極端に長いまたは短い継続時間長が生じやすいという性質がある。具体的には、背景雑音が長時間続いた結果、極端に長い音声区間になった場合には、その音声区間の音は背景雑音なので音声らしさはほとんどない。そして、音声認識部111がその音を音声認識しても短い単語が認識結果として出力されてしまうことがある。つまり、適切な音声認識は行われない。また、2〜3フレームなどの極端に短い突発雑音などを音声区間とした場合には、そのような短い時間で単語を発することは不可能であるので、その音声区間の音は非音声であると判断される。従って、通常の音声認識結果から得られる継続時間長よりも極端に長いまたは短い継続時間長の音声区間の音は、非音声であるという性質がある。
本実施形態における音声検出装置は、そのような性質を利用して非音声確率αを算出するので、より精度の高い非音声確率αを算出することが可能となる。
実施形態4.
本発明の第4の実施形態について説明する。第4の実施形態の音声検出装置は、図8および図9に示す第3の実施形態の音声検出装置の音声認識部111が、音声認識ではなく連続音素認識を行う。すなわち、音声認識部111は、連続音素認識を行い、時刻情報付きの音素列を出力する。長区間特徴量算出部108は、音声認識部111が出力した音素列を構成する各音素の継続時間長を求める。閾値更新部109の動作は、前述した第3の実施形態における動作と同様である。
なお、本実施形態でも第3の実施形態と同様に、継続時間長を算出する単位を音素としているが、音節などの単位が用いられてもよい。
本実施形態における音声検出装置は、音声認識部111が連続音素認識を行うので、音声認識を行う第3の実施形態の音声検出装置よりも容易に音素の継続時間長を取得することができる。すると、音素の継続時間長を計算する負荷を軽減し、音声検出装置全体の処理速度が高速化する。音声認識部111は、音素認識の場合には音素単位で認識を行っているので、発声区間の音素長を容易に取得することができるが、音声認識の場合には、認識結果の単語から音素数を導き出し、1発声あたりの時間で除算して音素の継続時間長を算出しなければならない。したがって、音声検出装置が音素の継続時間長を容易に取得することは処理負荷の軽減のために重要である。
実施形態5.
本発明の第5の実施形態について説明する。第5の実施形態の音声検出装置は、図8または図9に示す第3の実施形態の音声検出装置の構成と同様であるが、長区間特徴量算出部108が、音声認識結果の信頼度を用いて長区間特徴量を算出する。
具体的には、例えば、音声認識部111は、入力された音声信号から適宜特徴量を抽出する。そして、音声認識部111は、言語モデル/音声認識辞書に格納されている単語の特徴量と、抽出した特徴量とをマッチングし、複数の音声認識結果の候補のスコアを出力する。スコアとは、例えば、言語モデル/音声認識辞書に格納されている単語の特徴量と、抽出した特徴量とが合致する度合いを表す数値である。音声認識部111は、当該度合いが高い複数のスコアを出力する。
そして、長区間特徴量算出部108は、音声認識部111が出力した音声認識結果のスコアのうち、当該度合いが高い順に第1位の候補のスコアと第2位の候補のスコアとの差を算出する。当該スコアの差が小さい場合には、音声認識結果の信頼度は低いと考えられ、当該スコアの差が大きい場合には、音声認識結果の信頼度は高いと考えられる。なお、音声認識結果の信頼度に相当する尺度は、スコアの差に代えて他の尺度であってもよい。
閾値更新部109は、長区間特徴量算出部108が算出した長区間特徴量、すなわち信頼度を用いて、音声/非音声区間整形部107によって切り出された音声区間に対して非音声確率αを算出する。閾値更新部109は、具体的には、例えば、図10に示すような長区間特徴量を変数とする関数を用いて非音声確率αを求める。
図11は、本発明の第5の実施形態において非音声確率αを求めるための関数を示す説明図である。図11に示すように、横軸は長区間特徴量の値、縦軸は非音声確率αである。図11に示すように、長区間特徴量がτ0以上である場合に、非音声確率αは0である。また、長区間特徴量が0からτ0未満である場合に、非音声確率αは1から0に単調減少する。なお、τ0は、予め実験で求められた適切な値であるとする。また、図11に示す関数は一例であり、任意の単調減少関数または単調非増大関数であってもよい。
本実施形態における音声検出装置は、音声認識結果の信頼度が低い区間は非音声区間である可能性が高いという性質を利用して、非音声確率αを算出するように動作するので、より精度の高い非音声確率を算出することが可能となる。
実施形態6.
本発明の第6の実施形態について、図面を参照して説明する。図12は、本発明による音声検出装置の第6の実施形態の構成例を示すブロック図である。
第6の実施形態の音声検出装置は第1〜第5の実施形態を組み合わせたものである。長区間特徴量算出部108は、第1〜第5の実施形態の方法を1つ以上組み合わせて長区間特徴量を算出する。音声検出装置は、非音声確率αを第1〜第5の実施形態の非音声確率算出方法を用いて算出し、各々の非音声確率αの積を非音声確率とする。また、音声検出装置は、各々の非音声確率αを重み付けした後に積を算出して非音声確率として用いてもよい。また、音声検出装置は、各々の非音声確率αの平均値や、適当な重み付け平均値などを非音声確率として用いてもよい。
本実施形態における音声検出装置は、第1〜第5の実施形態を組み合わせることで、より精度の高い非音声確率を算出することが可能になる。
実施形態7.
本発明の第7の実施形態は、第1〜第5の実施形態の音声検出装置を含む音声認識装置である。音声認識装置は、第1〜第5の実施形態の音声検出装置によって音声区間であると決定された区間に対して、公知の音声認識処理を行い、音声認識結果を出力する。
本実施形態における音声認識装置は、高い精度で音声区間であると決定された区間に音声認識処理を行うので、非音声区間に音声認識処理を行う無駄な処理の実行を防ぐことができる。また、音声区間に対して高い精度で音声認識処理を行い、音声認識処理の漏れを防ぐことができる。
次に、本発明の概要について説明する。図13は、本発明の概要を示すブロック図である。本発明による音声検出装置300は、特徴量算出部301(図1に示す特徴量算出部102に相当)、音声/非音声判定部302(図1に示す音声/非音声判定部104および音声/非音声区間整形部107に相当)、長区間特徴量算出部303(図1に示す長区間特徴量算出部108に相当)、および閾値更新部304(図1に示す閾値更新部109に相当)を含む。
特徴量算出部301は、所定の単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する。音声/非音声判定部302は、特徴量算出部301が算出した特徴量と、入力信号が音声にもとづく信号であるか否かを判定するための音声検出閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する。
長区間特徴量算出部303は、特徴量算出部301が算出した音声区間または非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、音声区間または非音声区間の特徴量である長区間特徴量を算出する。
閾値更新部304は、長区間特徴量算出部303が算出した長区間特徴量を用いて、音声区間および非音声区間が非音声にもとづく信号が入力された区間であった確率である非音声確率を算出し、算出した非音声確率にもとづいて、音声検出閾値を更新する。
上記の構成による音声検出装置300は、入力信号の先頭が背景雑音にもとづく信号であって、特徴量が音声検出閾値を超える信号であっても、音声検出閾値を更新して、高精度の音声区間検出を行うことができる。
また、上記の各実施形態では、以下の(1)〜(11)に示すような音声検出装置も開示されている。
(1)長区間特徴量算出部303が、音声/非音声判定部302が判定した1つ以上の音声区間、または非音声区間にわたる特徴量に統計処理を施し、長区間特徴量を算出する音声検出装置。
(2)長区間特徴量算出部303が、長区間特徴量を算出する際に、フレームごとの特微量の平均値、最頻値、中央値、および大きい順に並べた結果の上から数えて所定の割合に達する位置にある値を用いる方法の少なくともいずれか1つを用いる音声検出装置。
(3)閾値更新部304が、音声区間または非音声区間における特徴量の最大値と最小値と非音声確率とを用いて、音声検出閾値を更新する音声検出装置。
(4)閾値更新部304が、非音声確率を用いて特徴量の最大値と最小値を内分する値を求め、内分した値に近い値になるように音声検出閾値を更新する音声検出装置。
(5)特徴量算出部304が算出する特徴量とは異なる第2の特徴量を算出する第2の特徴量算出部(図7に示す音声分析部110に相当)を備え、長区間特徴量算出部303が、特徴量算出部304が算出した特徴量と、第2の特徴量算出部が算出した第2の特徴量とを用いて長区間特徴量を算出する音声検出装置。
(6)第2の特徴量算出部(図8に示す音声認識部111に相当)が、入力信号に音声認識を行って音声認識結果を出力し、長区間特徴量算出部303は、音声認識結果にもとづいて長区間特徴量を算出する音声検出装置。
(7)長区間特徴量算出部303が、長区間特徴量として音声認識結果の信頼度を算出する音声検出装置。
(8)第2の特徴量算出部が、予め記憶手段に格納されている単語の特徴量と音声認識対象の入力信号の特徴量とが合致する度合いを示す値であるスコアにもとづく音声認識結果の複数の候補のスコアを出力し、長区間特徴量算出部が、度合いが高い順に第1位の候補のスコアと第2位の候補のスコアとの差を信頼度として算出する音声検出装置。
(9)第2の特徴量算出部が、入力信号に音声認識を行って時刻情報の付いた音声認識結果を出力し、長区間特徴量算出部303が、時刻情報の付いた音声認識結果から長区間特徴量を算出する音声検出装置。
(10)長区間特徴量算出部303は、長区間特徴量として時刻情報から継続時間長を算出する音声検出装置。
(11)長区間特徴量算出部303が、音素または音節を単位として継続時間長を算出する音声検出装置。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
この出願は、2009年12月24日に出願された日本出願特願2009−291976を基礎とする優先権を主張し、その開示の全てをここに取り込む。
(付記1)所定の単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する特徴量算出部と、前記特徴量と、前記入力信号が音声にもとづく信号であるか否かを判定するための音声検出閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する音声/非音声判定部と、前記特徴量算出部が算出した前記音声区間または前記非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、前記音声区間または前記非音声区間の特徴量である長区間特徴量を算出する長区間特徴量算出部と、前記長区間特徴量を用いて、前記音声区間および前記非音声区間が非音声にもとづく信号が入力された区間であった確率である非音声確率を算出し、算出した前記非音声確率にもとづいて、前記音声検出閾値を更新する閾値更新部とを備えたことを特徴とする音声検出装置。
(付記2)長区間特徴量算出部は、音声/非音声判定部が判定した1つ以上の音声区間、または非音声区間にわたる特徴量に統計処理を施し、長区間特徴量を算出する付記1に記載の音声検出装置。
(付記3)長区間特徴量算出部は、長区間特徴量を算出する際に、フレームごとの特徴量の平均値、最頻値、中央値、および大きい順に並べた結果の上から数えて所定の割合に達する位置にある値を用いる方法の少なくともいずれか1つを用いる付記1または付記2に記載の音声検出装置。
(付記4)閾値更新部は、音声区間または非音声区間における特徴量の最大値と最小値と非音声確率とを用いて、音声検出閾値を更新する付記1から付記3のうちいずれかに記載の音声検出装置。
(付記5)閾値更新部は、非音声確率を用いて前記特徴量の最大値と最小値を内分する値を求め、前記内分した値に近い値になるように音声検出閾値を更新する付記4に記載の音声検出装置。
(付記6)特徴量算出部が算出する特徴量とは異なる第2の特徴量を算出する第2の特徴量算出部を備え、長区間特徴量算出部は、前記特徴量算出部が算出した特徴量と、前記第2の特徴量算出部が算出した第2の特徴量とを用いて長区間特徴量を算出する付記1から付記5のうちいずれかに記載の音声検出装置。
(付記7)第2の特徴量算出部は、入力信号に音声認識を行って音声認識結果を出力し、長区間特徴量算出部は、前記音声認識結果にもとづいて長区間特徴量を算出する付記6に記載の音声検出装置。
(付記8)長区間特徴量算出部は、長区間特徴量として音声認識結果の信頼度を算出する付記7に記載の音声検出装置。
(付記9)第2の特徴量算出部は、予め記憶手段に格納されている単語の特徴量と音声認識対象の入力信号の特徴量とが合致する度合いを示す値であるスコアにもとづく音声認識結果の複数の候補のスコアを出力し、長区間特徴量算出部は、前記度合いが高い順に第1位の候補のスコアと第2位の候補のスコアとの差を信頼度として算出する付記8に記載の音声検出装置。
(付記10)第2の特徴量算出部は、入力信号に音声認識を行って時刻情報の付いた音声認識結果を出力し、長区間特徴量算出部は、前記時刻情報の付いた音声認識結果から長区間特徴量を算出する付記6に記載の音声検出装置。
(付記11)長区間特徴量算出部は、長区間特徴量として時刻情報から継続時間長を算出する付記10に記載の音声検出装置。
(付記12)長区間特徴量算出部は、音素または音節を単位として継続時間長を算出する付記11に記載の音声検出装置。
(付記13)付記1から付記12のうちいずれかに記載の音声検出装置を含み、前記音声検出装置が出力する音声区間に対して音声認識を行い、音声認識結果を出力することを特徴とする音声認識装置。
(付記14)所定の単位時間内の入力信号であるフレームごとの入力信号の特徴量を算出し、前記特徴量と、前記入力信号が音声にもとづく信号であるか否かを判定するための音声検出閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定し、前記音声区間または前記非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、前記音声区間または前記非音声区間の特徴量である長区間特徴量を算出し、前記長区間特徴量を用いて、前記音声区間および前記非音声区間が非音声にもとづく信号が入力された区間であった確率である非音声確率を算出し、算出した前記非音声確率にもとづいて、前記音声検出閾値を更新することを特徴とする音声検出方法。
(付記15)1つ以上の音声区間、または非音声区間にわたる特徴量に統計処理を施し、長区間特徴量を算出する付記14に記載の音声検出方法。
本発明の第1の実施形態について、図面を参照して説明する。図1は、本発明による音声検出装置の第1の実施形態の構成例を示すブロック図である。図1に示すように、本発明の第1の実施形態の音声検出装置は、波形切りだし部101、特徴量算出部102、閾値記憶部103、音声/非音声判定部104、判定結果保持部105、整形ルール記憶部106、音声/非音声区間整形部107、長区間特徴量算出部108、および閾値更新部109を含む。
波形切り出し部101は、入力信号をフレーム単位に切り出して取得する。具体的には、波形切り出し部101は、例えば、所定の単位時間ごとの入力信号をそれぞれ切りだして取得する。特徴量算出部102は、波形切り出し部101が切り出したフレーム毎の入力信号から音声検出に用いる特徴量を算出する。閾値記憶部103は、入力信号が音声にもとづく入力信号であるのか、または非音声にもとづく入力信号であるのかを判定するための閾値を記憶する。
音声/非音声判定部104は、特徴量算出部102が算出した特徴量と閾値記憶部103に記憶されている閾値とをフレーム毎に比較し、そのフレームの入力信号が音声にもとづく入力信号であるのか、または非音声にもとづく入力信号であるのかを判定する。なお、音声にもとづく入力信号のフレームを音声フレームといい、非音声にもとづく入力信号のフレームを非音声フレームという。判定結果保持部105は、音声/非音声判定部104によるフレーム毎の判定結果を複数フレームに渡り保持する。
区間整形ルール記憶部106には、区間整形ルールが記憶されている。音声/非音声区間整形部107は、区間整形ルール記憶部106に記憶されている区間整形ルールにもとづいて、判定結果保持部105に保持されている複数フレームの判定結果を整形し、音声区間または非音声区間であると決定する。具体的には、音声/非音声区間整形部107は、例えば、音声フレームが複数連続していた場合に、それら複数のフレームは一の音声区間であると決定する。また、音声/非音声区間整形部107は、非音声フレームが複数連続していた場合に、それら複数のフレームは一の非音声区間であると決定する。なお、音声/非音声区間整形部107は、連続する複数のフレームにおいて、音声フレームの割合が所定の割合よりも大きい場合にそれら複数のフレームを一の音声区間であると決定したり、非音声フレームの割合が一定の割合よりも大きい場合に一の非音声区間であると決定したりしてもよい。
長区間特徴量算出部108は、音声/非音声区間整形部107によって決定された音声区間および非音声区間に対し、特徴量算出部102が算出したフレーム毎の特徴量を統計処理した長区間特徴量を算出する。
閾値更新部109は、長区間特徴量算出部108が算出した長区間特徴量を用いて、音声/非音声区間整形部107によって決定された音声区間および非音声区間に対する非音声確率を算出し、閾値記憶部103に記憶されている閾値を変更する。なお、非音声確率とは、後述するように、当該区間の入力信号が非音声にもとづく入力信号である確率である。
音声検出装置は、例えば、音声検出プログラムを搭載したコンピュータによって実現される。
次に、本発明の第1の実施形態の音声検出装置の動作について、図面を参照して説明する。図2は、本発明の第1の実施形態の音声検出装置の動作を示すフローチャートである。
まず、波形切り出し部101は、マイクロフォン(図示せず)から入力される集音された時系列の入力音データを単位時間のフレーム毎に切り出す(ステップS101)。例えば、入力音データがサンプリング周波数8000Hzの16bit Linear−PCM(Pulse Code Modulation)形式である場合、1秒当たり8000点の入力音データによる波形データが各フレームに格納されている。
波形切り出し部101は、例えば、この波形データをフレーム幅200点(25ミリ秒)、フレームシフト80点(10ミリ秒)で時系列に従って逐次切り出す。
次に、特徴量算出部102が、フレームごとに切り出された波形から特徴量を算出する(ステップS102)。特徴量算出部102が算出する特徴量は、例えば、スペクトルパワーやSNR、零交差点、尤度などである。
音声/非音声判定部104は、閾値記憶部103に記憶されている閾値と特徴量算出部102が算出した特徴量とを比較し、閾値を超えている場合は音声フレームであると判定し、超えていない場合は非音声フレームであると判定する(ステップS103)。なお、閾値記憶部103に記憶されている閾値と特徴量算出部102が算出した特徴量とが同じであった場合に、音声/非音声判定部104が音声フレームと判定するかまたは非音声フレームと判定するかは予め決定されていてもよい。そして、音声/非音声判定部104は当該決定にもとづいて、音声フレームまたは非音声フレームと判定する。
判定結果保持部105は、音声/非音声判定部104がステップS106の処理で判定した結果を複数フレーム分保持する(ステップS104)。
音声/非音声区間整形部107は、音声/非音声判定部104がフレーム毎に判定するために生じる短い継続長の音声区間や短い継続長の非音声区間の発生を抑制するために、区間の整形を行う(ステップS105)。
長区間特徴量算出部108は、音声/非音声区間整形部107がステップS105の処理で求めた整形済みの音声区間および非音声区間に対して、特徴量算出部102がステップS102の処理で算出したフレーム毎の特徴量を統計処理し、長区間特徴量を算出する(ステップS106)。長区間特徴量は、例えば、スペクトルパワーやSNR、零交差点、尤度などのうち1つ、または2つ以上の組み合わせである。
長区間特徴量算出部108が行う統計処理の例として、整形済みの音声区間におけるフレーム毎の特徴量の平均値を算出する方法がある。平均値を算出する方法以外にも、長区間特徴量算出部108は、最頻値を用いる方法、中央値を用いる方法、フレーム毎の特徴量を大きさで並べ替えて特徴量の値が大きい順に上位40%付近にある値を用いる方法などを用いても良い。なお、40%という値はあくまで一例であり、ユーザ等が任意に定めた割合としても構わない。ユーザ等が50%と定めた場合、中央値を用いる方法に一致する。
閾値更新部109は、長区間特徴量算出部108がステップS106の処理で算出した長区間特徴量を用いて、整形済みの音声区間に対して非音声確率αを算出する(ステップS107)。ここで非音声確率とは、当該区間の入力信号が雑音など非音声にもとづく入力信号である確率である。従って、1−αは当該区間が音声である確率に相当する。αは以下の式を用いて算出される。
<F>=Σωi×<fi>・・・(1)
α=G[<F>]・・・(2)
ここで、<fi>はフレームごとの特徴量fiに前述の統計処理を施すことにより得られた長区間特徴量である。ωiは長区間特徴量<fi>にかける重みである。そして、式(1)で複数種類(例えば、スペクトルパワーやSNR、零交差点、尤度など)の長区間特徴量<fi>にそれぞれ重みωiを乗じて足し合わされて算出される<F>は統合長区間特徴量である。Gは統合長区間特徴量(単に長区間特徴量ともいう)<F>を変数とする関数である。図3は、本実施形態の関数Gを示す説明図である。図3の横軸は長区間特徴量の値であり、縦軸は非音声確率αである。
図3に示す例では、関数Gは、長区間特徴量が0である場合に、非音声確率αが1となる関数である。つまり、Gは、長区間特徴量が0である場合には、非音声確率は100%となる関数である。そして、Gは、長区間特徴量がτ0である場合に、非音声確率αが0となる関数である。つまり、Gは、長区間特徴量がτ0である場合には、非音声確率は0%となる関数である。そして、Gは、長区間特徴量がτmaxである場合に、非音声確率αが1となる関数である。つまり、Gは、長区間特徴量がτmaxである場合には、非音声確率は100%となる関数である。
なお、図3に示した関数は一例である。関数は、長区間特徴量が中庸な値から遠ざかるほど関数値が増加するような関数や、単調減少(非増大)関数であれば、他の関数であってもよい。(1)式のωi、および図3に示されているτ0、τmaxは予め実験で適切な値を求めておく。またωiを実験的に定めることが難しければ、ωiは各長区間特徴量に対して等しい値(1など)に設定されていてもよい。
次に、閾値更新部109は、ステップS107の処理で算出した非音声確率αを用いて閾値記憶部103に記憶されている閾値を更新する(ステップS108)。閾値更新部109は、閾値の更新は具体的には以下のように行う。まず、閾値更新部109は、閾値候補θ’を以下の式を用いて計算する。
θ’=α×Fmax+(1−α)×Fmin・・・(3)
ここで、Fmaxは音声区間、または非音声区間におけるフレーム毎の特徴量の最大値である。Fminは音声区間、または非音声区間におけるフレーム毎の特徴量の最小値である。αは音声区間、または非音声区間の非音声確率である。次に、閾値更新部109は、閾値候補θ’を用いて、閾値θを以下の式を用いて更新する。
θ←θ+ε×(θ’−θ)・・・(4)
ここで、εは閾値の更新のスピードを調整するステップサイズである。つまり、本発明による音声検出装置は、閾値の更新のスピードを調整することができる。従って、音声検出装置は、一時的な背景雑音の大きさの変動に応じて閾値を大きく変動させたい場合と、一時的な背景雑音によっては閾値をあまり変動させたくない場合とのいずれの場合にも対応することができる。
図4は、閾値を変更する例を示す説明図である。図4に示す例では、音声/非音声区間整形部107によって、非音声区間1、音声区間2、非音声区間3、音声区間4、非音声区間5の順に各区間が音声区間または非音声区間に決定されている。
図4における上部の波形によって入力信号が示されている。また、図4において各音声区間および各非音声区間の終端付近の上下の矢印によって、各音声区間および各非音声区間の特徴量の最大値および最小値が示されている。また、閾値の推移は、縦軸に平行して上下に移動する実線によって示されている。
ここで、音声/非音声区間整形部107が音声区間または非音声区間を決定した際、閾値更新部109が、式(1),(2)を用いて非音声確率を算出し、式(3)を用いて閾値候補を決定する。決定された閾値は式(4)を用いて変更される。
また、閾値の更新は以下に示す式(5)のように、過去のN発声分の閾値候補の平均値を用いて行うことも可能である。
θ←1/N×Σθ’・・・(5)
閾値更新部109は、特定の値以上または未満の非音声確率の場合のみ閾値を更新することも可能である。また、長区間特徴量算出部108が、1つ以上の音声区間、または非音声区間ごとの特徴量に統計処理を施して長区間特徴量を算出し、閾値更新部109が、1つ以上の音声区間、または非音声区間ごとに閾値を更新することも可能である。
また、最初に設定された閾値が大きすぎる場合、または小さすぎる場合には、音声/非音声判定部104における判定結果にもとづき、音声/非音声区間整形部107は、例えば、判定対象のすべての区間を音声区間または非音声区間と判定してしまい、閾値更新部109による閾値の更新が行われない場合がある。
そのような場合に対応するために、閾値更新部109は、音声/非音声判定部104において一定時間以上音声区間または非音声区間に判定されない場合には、閾値を一定値小さくしたり、一定値大きくしたり、当該一定時間に特徴量算出部102が算出した特徴量の平均値を閾値としたりしてもよい。
音声検出装置は、閾値更新部109によって閾値が更新された後、次の音声区間または非音声区間に対してステップS101からS108の処理を行う。また、音声検出装置は、同じ発声に対して再度ステップS101からS108の処理を繰り返すことも可能である。
図5は、更新前の閾値が小さすぎた場合の例を示す説明図である。図5に示す例では、更新前の閾値が小さすぎたので、音声検出装置は、非音声区間1を音声区間であると誤って判定する。
図6は、更新前の閾値が大きすぎた場合の例を示す説明図である。図6に示す例では、更新前の閾値が大きすぎたので、音声検出装置は、音声区間2を非音声区間であると誤って判定する。
本実施形態における音声検出装置は、図5に例示した更新前の閾値が小さすぎた場合であっても、長区間特徴量を用いて算出される非音声確率αを大きくする。図5に示すように、非音声区間1の非音声確率αは0.8である。このような場合、閾値更新部109が(3)式を計算すると、閾値候補θ’はこの非音声区間1の長区間特徴量の最大値に近づくので、閾値がより大きな値に更新される。
また、本実施形態における音声検出装置は、図6に例示した更新前の閾値が大きすぎた場合であっても、長区間特徴量を用いて算出される非音声確率αを小さくする。図6に示すように、音声区間2の非音声確率αは0.2である。このような場合、閾値更新部109が(3)式を計算すると、閾値候補θ’はこの音声区間2の長区間特徴量の最小値に近づくので、閾値がより小さな値に更新される。
従って、本実施形態における音声検出装置は、長区間特徴量算出部108において非音声確率αを算出して閾値更新部109で適切な閾値を設定することで、前段の音声/非音声判定部104で認識対象となる音声区間を正しく検出して、発話環境によって変化する雑音に頑健な音声検出を実現できる。
実施形態2.
本発明の第2の実施形態について、図面を参照して説明する。図7は、本発明による音声検出装置の第2の実施形態の構成例を示すブロック図である。
第2の実施形態の音声検出装置は、図1に示す第1の実施形態の音声検出装置の構成に加えて、入力信号をフレームごとに切り分けて音声らしさを表す特徴量を出力する音声分析部110を含む。音声分析部110は、図1に示す第1の実施形態の音声検出装置の構成における波形切りだし部101や特徴量算出部102に相当する機能を有する。
音声分析部110は、ステップS102の処理で特徴量算出部102とは独立に、第2の特徴量を算出する。音声分析部110が算出する第2の特徴量とは、例えば、スペクトルパワーやSNR、零交差点、尤度などである。
音声分析部110は、特徴量算出部102が特徴量を算出する際に用いたパラメタとは異なるパラメタを用いて、より詳細に入力信号を分析して第2の特徴量を算出する。なお、音声分析部110は、複数の発声ごとに第2の特徴量を算出したり、ユーザによって指示されたときに第2の特徴量を算出したりして、特徴量算出部102が特徴量を算出するときと異なるタイミングで第2の特徴量を算出してもよい。
そして、長区間特徴量算出部108は、ステップS106の処理で、特徴量算出部102が算出した特徴量と、音声分析部110が算出した第2の特徴量とにもとづいて、長区間特徴量を算出する。前述した各特徴量は、入力信号が生成された環境によって検出しやすい場合と、検出が困難である場合とがある。そこで、長区間特徴量算出部108は、例えば、特徴量算出部102が特徴量を算出できなかった場合に、音声分析部110が算出した第2の特徴量を用いて長区間特徴量を算出する。また、特徴量算出部102が算出した特徴量と異なる特徴量を音声分析部110が算出し、長区間特徴量算出部108が、音声分析部110が算出した特徴量である第2の特徴量を補助的に用いて長区間特徴量を算出してもよい。
本実施形態における音声検出装置は、音声分析部110が、特徴量算出部102とは独立に様々の特徴量を算出することができるので、様々な観点で特徴量が算出され、より頑健な音声検出を実現することが可能になる。
実施形態3.
本発明の第3の実施形態について、図面を参照して説明する。図8は、本発明による音声検出装置の第3の実施形態の構成例を示すブロック図である。
第3の実施形態の音声検出装置は、図1に示す第1の実施形態の音声検出装置の構成に加えて、音声らしい特徴量を用いて音声区間に対応する認識結果を出力する音声認識部111を含む。
図9は、音声検出装置の第3の実施形態の他の例を示すブロック図である。図9に示す例では、音声認識部111は、音声検出された音声区間に対して音声認識を行う。
図8および図9に示す第3の実施形態の音声検出装置は、以下のように動作する。すなわち、音声認識部111は、入力された音声信号から適宜特徴量を抽出する。そして、音声認識部111は、言語モデル/音声認識辞書(図示せず)に格納されている単語の特徴量と、抽出した特徴量とをマッチングすることで音声区間の時間情報付き単語列である認識結果を算出する音声認識を行い、時間情報付き音声認識結果単語列を出力する。
長区間特徴量算出部108は、長区間特徴量として音声認識結果から音素継続時間を求める。音素継続時間Taは、以下に示す式(6)で算出される。
Ta=Tb/Nf・・・(6)
ここで、Tbは音声認識部111が出力した音声認識結果単語列の単語1つについてのフレーム数であり、Nfは単語の音素数である。
閾値更新部109は、長区間特徴量算出部108がステップS106の処理で算出した長区間特徴量、すなわち音素継続時間長を用いて、音声/非音声区間整形部107によって切り出された各区間の非音声確率αを算出する。
具体的には、閾値更新部109は、例えば、図10に示すような長区間特徴量を変数とする関数を用いて非音声確率αを求める。図10は、本発明の第3の実施形態において非音声確率αを求めるための関数を示す説明図である。図10に示すように、横軸は長区間特徴量の値、縦軸は非音声確率αである。図10に示すように、長区間特徴量がτmin以下である場合、およびτmax以上である場合に、非音声確率αは1である。また、長区間特徴量がτ0以上であってτ1以下である場合に、非音声確率αは0である。そして、図10に示す例では、長区間特徴量がτminを超えている場合にτ0まで非音声確率αは単調減少し、長区間特徴量がτ1を超えている場合にτmaxまで非音声確率αは単調増加する。
なお、τmin、τmax、τ0、およびτ1は、予め実験で求められた適切な値であるとする。
本実施形態では、長区間特徴量算出部108は、継続時間長を算出する単位を音素としたが、音節など、他の単位を使ってもよい。また、図10に示す関数は一例に過ぎず、これに限られるものではない。関数は、長区間特徴量の中庸な値から遠ざかるにつれて関数値が増加するような任意の関数を定義でもよい。
本実施形態の効果について説明する。閾値を超える背景雑音が長時間続いたときなどに、通常の音声認識結果から得られる継続時間長よりも極端に長いまたは短い継続時間長が生じやすいという性質がある。具体的には、背景雑音が長時間続いた結果、極端に長い音声区間になった場合には、その音声区間の音は背景雑音なので音声らしさはほとんどない。そして、音声認識部111がその音を音声認識しても短い単語が認識結果として出力されてしまうことがある。つまり、適切な音声認識は行われない。また、2〜3フレームなどの極端に短い突発雑音などを音声区間とした場合には、そのような短い時間で単語を発することは不可能であるので、その音声区間の音は非音声であると判断される。従って、通常の音声認識結果から得られる継続時間長よりも極端に長いまたは短い継続時間長の音声区間の音は、非音声であるという性質がある。
本実施形態における音声検出装置は、そのような性質を利用して非音声確率αを算出するので、より精度の高い非音声確率αを算出することが可能となる。
実施形態4.
本発明の第4の実施形態について説明する。第4の実施形態の音声検出装置は、図8および図9に示す第3の実施形態の音声検出装置の音声認識部111が、音声認識ではなく連続音素認識を行う。すなわち、音声認識部111は、連続音素認識を行い、時刻情報付きの音素列を出力する。長区間特徴量算出部108は、音声認識部111が出力した音素列を構成する各音素の継続時間長を求める。閾値更新部109の動作は、前述した第3の実施形態における動作と同様である。
なお、本実施形態でも第3の実施形態と同様に、継続時間長を算出する単位を音素としているが、音節などの単位が用いられてもよい。
本実施形態における音声検出装置は、音声認識部111が連続音素認識を行うので、音声認識を行う第3の実施形態の音声検出装置よりも容易に音素の継続時間長を取得することができる。すると、音素の継続時間長を計算する負荷を軽減し、音声検出装置全体の処理速度が高速化する。音声認識部111は、音素認識の場合には音素単位で認識を行っているので、発声区間の音素長を容易に取得することができるが、音声認識の場合には、認識結果の単語から音素数を導き出し、1発声あたりの時間で除算して音素の継続時間長を算出しなければならない。したがって、音声検出装置が音素の継続時間長を容易に取得することは処理負荷の軽減のために重要である。
実施形態5.
本発明の第5の実施形態について説明する。第5の実施形態の音声検出装置は、図8または図9に示す第3の実施形態の音声検出装置の構成と同様であるが、長区間特徴量算出部108が、音声認識結果の信頼度を用いて長区間特徴量を算出する。
具体的には、例えば、音声認識部111は、入力された音声信号から適宜特徴量を抽出する。そして、音声認識部111は、言語モデル/音声認識辞書に格納されている単語の特徴量と、抽出した特徴量とをマッチングし、複数の音声認識結果の候補のスコアを出力する。スコアとは、例えば、言語モデル/音声認識辞書に格納されている単語の特徴量と、抽出した特徴量とが合致する度合いを表す数値である。音声認識部111は、当該度合いが高い複数のスコアを出力する。
そして、長区間特徴量算出部108は、音声認識部111が出力した音声認識結果のスコアのうち、当該度合いが高い順に第1位の候補のスコアと第2位の候補のスコアとの差を算出する。当該スコアの差が小さい場合には、音声認識結果の信頼度は低いと考えられ、当該スコアの差が大きい場合には、音声認識結果の信頼度は高いと考えられる。なお、音声認識結果の信頼度に相当する尺度は、スコアの差に代えて他の尺度であってもよい。
閾値更新部109は、長区間特徴量算出部108が算出した長区間特徴量、すなわち信頼度を用いて、音声/非音声区間整形部107によって切り出された音声区間に対して非音声確率αを算出する。閾値更新部109は、具体的には、例えば、図10に示すような長区間特徴量を変数とする関数を用いて非音声確率αを求める。
図11は、本発明の第5の実施形態において非音声確率αを求めるための関数を示す説明図である。図11に示すように、横軸は長区間特徴量の値、縦軸は非音声確率αである。図11に示すように、長区間特徴量がτ0以上である場合に、非音声確率αは0である。また、長区間特徴量が0からτ0未満である場合に、非音声確率αは1から0に単調減少する。なお、τ0は、予め実験で求められた適切な値であるとする。また、図11に示す関数は一例であり、任意の単調減少関数または単調非増大関数であってもよい。
本実施形態における音声検出装置は、音声認識結果の信頼度が低い区間は非音声区間である可能性が高いという性質を利用して、非音声確率αを算出するように動作するので、より精度の高い非音声確率を算出することが可能となる。
実施形態6.
本発明の第6の実施形態について、図面を参照して説明する。図12は、本発明による音声検出装置の第6の実施形態の構成例を示すブロック図である。
第6の実施形態の音声検出装置は第1〜第5の実施形態を組み合わせたものである。長区間特徴量算出部108は、第1〜第5の実施形態の方法を1つ以上組み合わせて長区間特徴量を算出する。音声検出装置は、非音声確率αを第1〜第5の実施形態の非音声確率算出方法を用いて算出し、各々の非音声確率αの積を非音声確率とする。また、音声検出装置は、各々の非音声確率αを重み付けした後に積を算出して非音声確率として用いてもよい。また、音声検出装置は、各々の非音声確率αの平均値や、適当な重み付け平均値などを非音声確率として用いてもよい。
本実施形態における音声検出装置は、第1〜第5の実施形態を組み合わせることで、より精度の高い非音声確率を算出することが可能になる。
実施形態7.
本発明の第7の実施形態は、第1〜第5の実施形態の音声検出装置を含む音声認識装置である。音声認識装置は、第1〜第5の実施形態の音声検出装置によって音声区間であると決定された区間に対して、公知の音声認識処理を行い、音声認識結果を出力する。
本実施形態における音声認識装置は、高い精度で音声区間であると決定された区間に音声認識処理を行うので、非音声区間に音声認識処理を行う無駄な処理の実行を防ぐことができる。また、音声区間に対して高い精度で音声認識処理を行い、音声認識処理の漏れを防ぐことができる。
次に、本発明の概要について説明する。図13は、本発明の概要を示すブロック図である。本発明による音声検出装置300は、特徴量算出部301(図1に示す特徴量算出部102に相当)、音声/非音声判定部302(図1に示す音声/非音声判定部104および音声/非音声区間整形部107に相当)、長区間特徴量算出部303(図1に示す長区間特徴量算出部108に相当)、および閾値更新部304(図1に示す閾値更新部109に相当)を含む。
特徴量算出部301は、所定の単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する。音声/非音声判定部302は、特徴量算出部301が算出した特徴量と、入力信号が音声にもとづく信号であるか否かを判定するための音声検出閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する。
長区間特徴量算出部303は、特徴量算出部301が算出した音声区間または非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、音声区間または非音声区間の特徴量である長区間特徴量を算出する。
閾値更新部304は、長区間特徴量算出部303が算出した長区間特徴量を用いて、音声区間および非音声区間が非音声にもとづく信号が入力された区間であった確率である非音声確率を算出し、算出した非音声確率にもとづいて、音声検出閾値を更新する。
上記の構成による音声検出装置300は、入力信号の先頭が背景雑音にもとづく信号であって、特徴量が音声検出閾値を超える信号であっても、音声検出閾値を更新して、高精度の音声区間検出を行うことができる。
また、上記の各実施形態では、以下の(1)〜(11)に示すような音声検出装置も開示されている。
(1)長区間特徴量算出部303が、音声/非音声判定部302が判定した1つ以上の音声区間、または非音声区間にわたる特徴量に統計処理を施し、長区間特徴量を算出する音声検出装置。
(2)長区間特徴量算出部303が、長区間特徴量を算出する際に、フレームごとの特微量の平均値、最頻値、中央値、および大きい順に並べた結果の上から数えて所定の割合に達する位置にある値を用いる方法の少なくともいずれか1つを用いる音声検出装置。
(3)閾値更新部304が、音声区間または非音声区間における特徴量の最大値と最小値と非音声確率とを用いて、音声検出閾値を更新する音声検出装置。
(4)閾値更新部304が、非音声確率を用いて特徴量の最大値と最小値を内分する値を求め、内分した値に近い値になるように音声検出閾値を更新する音声検出装置。
(5)特徴量算出部304が算出する特徴量とは異なる第2の特徴量を算出する第2の特徴量算出部(図7に示す音声分析部110に相当)を備え、長区間特徴量算出部303が、特徴量算出部304が算出した特徴量と、第2の特徴量算出部が算出した第2の特徴量とを用いて長区間特徴量を算出する音声検出装置。
(6)第2の特徴量算出部(図8に示す音声認識部111に相当)が、入力信号に音声認識を行って音声認識結果を出力し、長区間特徴量算出部303は、音声認識結果にもとづいて長区間特徴量を算出する音声検出装置。
(7)長区間特徴量算出部303が、長区間特徴量として音声認識結果の信頼度を算出する音声検出装置。
(8)第2の特徴量算出部が、予め記憶手段に格納されている単語の特徴量と音声認識対象の入力信号の特徴量とが合致する度合いを示す値であるスコアにもとづく音声認識結果の複数の候補のスコアを出力し、長区間特徴量算出部が、度合いが高い順に第1位の候補のスコアと第2位の候補のスコアとの差を信頼度として算出する音声検出装置。
(9)第2の特徴量算出部が、入力信号に音声認識を行って時刻情報の付いた音声認識結果を出力し、長区間特徴量算出部303が、時刻情報の付いた音声認識結果から長区間特徴量を算出する音声検出装置。
(10)長区間特徴量算出部303は、長区間特徴量として時刻情報から継続時間長を算出する音声検出装置。
(11)長区間特徴量算出部303が、音素または音節を単位として継続時間長を算出する音声検出装置。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
この出願は、2009年12月24日に出願された日本出願特願2009−291976を基礎とする優先権を主張し、その開示の全てをここに取り込む。
(付記1)所定の単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する特徴量算出部と、前記特徴量と、前記入力信号が音声にもとづく信号であるか否かを判定するための音声検出閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する音声/非音声判定部と、前記特徴量算出部が算出した前記音声区間または前記非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、前記音声区間または前記非音声区間の特徴量である長区間特徴量を算出する長区間特徴量算出部と、前記長区間特徴量を用いて、前記音声区間および前記非音声区間が非音声にもとづく信号が入力された区間であった確率である非音声確率を算出し、算出した前記非音声確率にもとづいて、前記音声検出閾値を更新する閾値更新部とを備えたことを特徴とする音声検出装置。
(付記2)長区間特徴量算出部は、音声/非音声判定部が判定した1つ以上の音声区間、または非音声区間にわたる特徴量に統計処理を施し、長区間特徴量を算出する付記1に記載の音声検出装置。
(付記3)長区間特徴量算出部は、長区間特徴量を算出する際に、フレームごとの特徴量の平均値、最頻値、中央値、および大きい順に並べた結果の上から数えて所定の割合に達する位置にある値を用いる方法の少なくともいずれか1つを用いる付記1または付記2に記載の音声検出装置。
(付記4)閾値更新部は、音声区間または非音声区間における特徴量の最大値と最小値と非音声確率とを用いて、音声検出閾値を更新する付記1から付記3のうちいずれかに記載の音声検出装置。
(付記5)閾値更新部は、非音声確率を用いて前記特徴量の最大値と最小値を内分する値を求め、前記内分した値に近い値になるように音声検出閾値を更新する付記4に記載の音声検出装置。
(付記6)特徴量算出部が算出する特徴量とは異なる第2の特徴量を算出する第2の特徴量算出部を備え、長区間特徴量算出部は、前記特徴量算出部が算出した特徴量と、前記第2の特徴量算出部が算出した第2の特徴量とを用いて長区間特徴量を算出する付記1から付記5のうちいずれかに記載の音声検出装置。
(付記7)第2の特徴量算出部は、入力信号に音声認識を行って音声認識結果を出力し、長区間特徴量算出部は、前記音声認識結果にもとづいて長区間特徴量を算出する付記6に記載の音声検出装置。
(付記8)長区間特徴量算出部は、長区間特徴量として音声認識結果の信頼度を算出する付記7に記載の音声検出装置。
(付記9)第2の特徴量算出部は、予め記憶手段に格納されている単語の特徴量と音声認識対象の入力信号の特徴量とが合致する度合いを示す値であるスコアにもとづく音声認識結果の複数の候補のスコアを出力し、長区間特徴量算出部は、前記度合いが高い順に第1位の候補のスコアと第2位の候補のスコアとの差を信頼度として算出する付記8に記載の音声検出装置。
(付記10)第2の特徴量算出部は、入力信号に音声認識を行って時刻情報の付いた音声認識結果を出力し、長区間特徴量算出部は、前記時刻情報の付いた音声認識結果から長区間特徴量を算出する付記6に記載の音声検出装置。
(付記11)長区間特徴量算出部は、長区間特徴量として時刻情報から継続時間長を算出する付記10に記載の音声検出装置。
(付記12)長区間特徴量算出部は、音素または音節を単位として継続時間長を算出する付記11に記載の音声検出装置。
(付記13)付記1から付記12のうちいずれかに記載の音声検出装置を含み、前記音声検出装置が出力する音声区間に対して音声認識を行い、音声認識結果を出力することを特徴とする音声認識装置。
(付記14)所定の単位時間内の入力信号であるフレームごとの入力信号の特徴量を算出し、前記特徴量と、前記入力信号が音声にもとづく信号であるか否かを判定するための音声検出閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定し、前記音声区間または前記非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、前記音声区間または前記非音声区間の特徴量である長区間特徴量を算出し、前記長区間特徴量を用いて、前記音声区間および前記非音声区間が非音声にもとづく信号が入力された区間であった確率である非音声確率を算出し、算出した前記非音声確率にもとづいて、前記音声検出閾値を更新することを特徴とする音声検出方法。
(付記15)1つ以上の音声区間、または非音声区間にわたる特徴量に統計処理を施し、長区間特徴量を算出する付記14に記載の音声検出方法。
101 波形切りだし部
102、301 特徴量算出部
103 閾値記憶部
104、302 音声/非音声判定部
105 判定結果保持部
106 整形ルール記憶部
107 音声/非音声区間整形部
108、303 長区間特徴量算出部
109、304 閾値更新部
110 音声分析部
111 音声認識部
300 音声検出装置
102、301 特徴量算出部
103 閾値記憶部
104、302 音声/非音声判定部
105 判定結果保持部
106 整形ルール記憶部
107 音声/非音声区間整形部
108、303 長区間特徴量算出部
109、304 閾値更新部
110 音声分析部
111 音声認識部
300 音声検出装置
Claims (10)
- 単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する特徴量算出手段と、
前記特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する音声/非音声判定手段と、
前記特徴量算出手段が算出した前記音声区間または前記非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、前記音声区間または前記非音声区間の特徴量である長区間特徴量を算出する長区間特徴量算出手段と、
前記長区間特徴量を用いて、前記音声区間および前記非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した前記非音声確率にもとづいて、前記閾値を更新する閾値更新手段と、
を備えた音声検出装置。 - 前記長区間特徴量算出手段は、前記音声/非音声判定手段が判定した複数の前記音声区間、または前記非音声区間にわたる特徴量に統計処理を施し、前記長区間特徴量を算出する
請求項1に記載の音声検出装置。 - 前記長区間特徴量算出手段は、前記長区間特徴量を算出する際に、前記フレームごとの前記特徴量の平均値、最頻値、中央値、および大きい順に並べた結果の上から数えて所定の割合に達する位置にある値を用いる方法の少なくともいずれか1つを用いる
請求項1または請求項2に記載の音声検出装置。 - 前記閾値更新手段は、前記音声区間または前記非音声区間における前記特徴量の最大値と最小値と前記非音声確率とを用いて、音声検出閾値を更新する
請求項1から請求項3のうちいずれか1項に記載の音声検出装置。 - 前記閾値更新手段は、前記非音声確率を用いて前記特徴量の最大値と最小値を内分する値を求め、前記内分した値に近い値になるように前記閾値を更新する
請求項4に記載の音声検出装置。 - 前記特徴量算出手段が算出する前記特徴量とは異なる第2の特徴量を算出する第2の特徴量算出手段を備え、
前記長区間特徴量算出手段は、前記特徴量算出手段が算出した前記特徴量と、前記第2の特徴量算出手段が算出した前記第2の特徴量とを用いて前記長区間特徴量を算出する
請求項1から請求項5のうちいずれか1項に記載の音声検出装置。 - 前記第2の特徴量算出手段は、前記入力信号に音声認識を行って音声認識結果を出力し、
前記長区間特徴量算出手段は、前記音声認識結果にもとづいて前記長区間特徴量を算出する
請求項6に記載の音声検出装置。 - 前記長区間特徴量算出手段は、前記長区間特徴量として前記音声認識結果の信頼度を算出する
請求項7に記載の音声検出装置。 - 単位時間内の入力信号であるフレームごとの入力信号の特徴量を算出し、
前記特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定し、
前記音声区間または前記非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、前記音声区間または前記非音声区間の特徴量である長区間特徴量を算出し、
前記長区間特徴量を用いて、前記音声区間および前記非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した前記非音声確率にもとづいて、前記閾値を更新する
音声検出方法。 - コンピュータに、
単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する特徴量算出処理と、
前記特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する音声/非音声判定処理と、
前記特徴量算出処理で算出した前記音声区間または前記非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、前記音声区間または前記非音声区間の特徴量である長区間特徴量を算出する長区間特徴量算出処理と、
前記長区間特徴量を用いて、前記音声区間および前記非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した前記非音声確率にもとづいて、前記閾値を更新する閾値更新処理と、
を実行させるための音声検出プログラムを格納するプログラム記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009291976 | 2009-12-24 | ||
JP2009291976 | 2009-12-24 | ||
PCT/JP2010/071620 WO2011077924A1 (ja) | 2009-12-24 | 2010-11-26 | 音声検出装置、音声検出方法、および音声検出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011077924A1 true JPWO2011077924A1 (ja) | 2013-05-02 |
JP5621786B2 JP5621786B2 (ja) | 2014-11-12 |
Family
ID=44195460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011547442A Active JP5621786B2 (ja) | 2009-12-24 | 2010-11-26 | 音声検出装置、音声検出方法、および音声検出プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5621786B2 (ja) |
WO (1) | WO2011077924A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5385876B2 (ja) * | 2010-08-30 | 2014-01-08 | 日本電信電話株式会社 | 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体 |
KR101804787B1 (ko) * | 2016-09-28 | 2017-12-06 | 대한민국 | 음질특징을 이용한 화자인식장치 및 방법 |
JP6958723B2 (ja) | 2018-03-15 | 2021-11-02 | 日本電気株式会社 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
KR102237286B1 (ko) * | 2019-03-12 | 2021-04-07 | 울산과학기술원 | 음성 구간 검출장치 및 그 방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06236195A (ja) * | 1993-02-12 | 1994-08-23 | Sony Corp | 音声区間検出方法 |
JPH08305388A (ja) * | 1995-04-28 | 1996-11-22 | Matsushita Electric Ind Co Ltd | 音声区間検出装置 |
JPH09212195A (ja) * | 1995-12-12 | 1997-08-15 | Nokia Mobile Phones Ltd | 音声活性検出装置及び移動局並びに音声活性検出方法 |
JP2010032792A (ja) * | 2008-07-29 | 2010-02-12 | Nippon Telegr & Teleph Corp <Ntt> | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 |
-
2010
- 2010-11-26 WO PCT/JP2010/071620 patent/WO2011077924A1/ja active Application Filing
- 2010-11-26 JP JP2011547442A patent/JP5621786B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06236195A (ja) * | 1993-02-12 | 1994-08-23 | Sony Corp | 音声区間検出方法 |
JPH08305388A (ja) * | 1995-04-28 | 1996-11-22 | Matsushita Electric Ind Co Ltd | 音声区間検出装置 |
JPH09212195A (ja) * | 1995-12-12 | 1997-08-15 | Nokia Mobile Phones Ltd | 音声活性検出装置及び移動局並びに音声活性検出方法 |
JP2010032792A (ja) * | 2008-07-29 | 2010-02-12 | Nippon Telegr & Teleph Corp <Ntt> | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP5621786B2 (ja) | 2014-11-12 |
WO2011077924A1 (ja) | 2011-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5621783B2 (ja) | 音声認識システム、音声認識方法および音声認識プログラム | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
US20100161330A1 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
JP2005043666A (ja) | 音声認識装置 | |
JP2011033680A (ja) | 音声処理装置及び方法、並びにプログラム | |
JP6176055B2 (ja) | 音声検索装置及び音声検索方法 | |
US8364475B2 (en) | Voice processing apparatus and voice processing method for changing accoustic feature quantity of received voice signal | |
Zhang et al. | Improved modeling for F0 generation and V/U decision in HMM-based TTS | |
JP5621786B2 (ja) | 音声検出装置、音声検出方法、および音声検出プログラム | |
JP4353202B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP4490090B2 (ja) | 有音無音判定装置および有音無音判定方法 | |
KR100744288B1 (ko) | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 | |
JP5282523B2 (ja) | 基本周波数抽出方法、基本周波数抽出装置、およびプログラム | |
JP2019053233A (ja) | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム | |
JP2011154341A (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP2007292940A (ja) | 音声識別装置及び音声識別方法 | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
CN106920558B (zh) | 关键词识别方法及装置 | |
JP2007328288A (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP2003044078A (ja) | 発声速度正規化分析を用いた音声認識装置 | |
JP2006010739A (ja) | 音声認識装置 | |
JP5157474B2 (ja) | 音処理装置およびプログラム | |
Huang et al. | Discriminative incorporation of explicitly trained tone models into lattice based rescoring for Mandarin speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131018 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140826 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140908 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5621786 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |