JPWO2016143125A1 - 音声区間検出装置および音声区間検出方法 - Google Patents

音声区間検出装置および音声区間検出方法 Download PDF

Info

Publication number
JPWO2016143125A1
JPWO2016143125A1 JP2017504528A JP2017504528A JPWO2016143125A1 JP WO2016143125 A1 JPWO2016143125 A1 JP WO2016143125A1 JP 2017504528 A JP2017504528 A JP 2017504528A JP 2017504528 A JP2017504528 A JP 2017504528A JP WO2016143125 A1 JPWO2016143125 A1 JP WO2016143125A1
Authority
JP
Japan
Prior art keywords
speech
time
feature amount
feature
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017504528A
Other languages
English (en)
Other versions
JP6444490B2 (ja
Inventor
利行 花沢
利行 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2016143125A1 publication Critical patent/JPWO2016143125A1/ja
Application granted granted Critical
Publication of JP6444490B2 publication Critical patent/JP6444490B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Abstract

入力信号に含まれる音声と騒音とを識別するためのパターン認識モデルを用いて、第1の特徴量算出部(1)が算出した第1の特徴量に基づいて、入力信号に含まれる音声区間の開始点を示す暫定の始端時刻および終了点を示す暫定の終端時刻を検出する音声区間検出部(4)と、第2の特徴量算出部(2)が算出した第2の特徴量と閾値との比較に基づいて、始端時刻および終端時刻を補正する始終端補正部(5)とを備える。

Description

この発明は、複数の特徴量を用いて入力信号の中から音声区間を検出する技術に関するものである。
入力信号中から音声が存在する区間を抽出する音声区間検出処理は、音声認識の前処理として非常に重要な処理である。一般的に、音声認識処理は、音声区間検出処理によって検出された区間を対象としてパターン認識を行って認識結果を得ることから、音声区間の検出に誤りがあると音声認識処理の認識精度が大きく低下する。音声区間検出の基本的な方法として、入力信号のパワーを算出し、算出したパワーが設定された閾値以上の区間を音声区間として検出する方法がある。当該検出方法は、背景騒音が小さい場合および定常的な音声区間の検出処理において比較的良好に動作する。
一方、プラント設備の保守作業などにおける点検結果の入力、および各種FA(Factory Automation)機器などの操作支援として、ユーザがハンズフリーで利用可能な音声認識は非常に有効なユーザインタフェースである。しかし、プラント設備の保守作業環境およびFA機器の動作環境は、タービン音およびハンマーの打音など、非定常な騒音が発生する環境であることが多い。そのため、上述した入力信号から算出したパワーのみを用いて音声区間を検出する方法では、非定常な騒音が音声として誤検出されるため、音声区間の検出精度が低下し、その後の音声認識処理において十分な認識性能が得られないという問題がある。
上述した問題に対し、例えば特許文献1には、音声区間検出に用いる特徴量として、入力信号のパワーに換えて、入力信号のスペクトル特徴を表現するケプストラムを用い、当該ケプストラムをパラメータとしたHMM(Hidden Markov Model)を用いた音声区間検出方法が開示されている。具体的には、音声と騒音のそれぞれについて幾つかのHMMを学習しておき、音声区間の開始点である始端を検出する際に各HMMの尤度を計算し、12フレーム(120msec)中で計算したHMMの尤度が最も高いフレームが4フレーム以上存在する場合に、当該12フレームの先頭フレームを音声区間の始端として検出している。
特開2001−343983号公報
しかしながら、上述した特許文献1に開示された技術では、入力信号のスペクトル特徴を表現する特徴量を用いて音声区間検出を行うことから、音声とはスペクトル特徴が異なる騒音を音声として誤検出するのを抑制することは可能であるが、無声子音(p,t,k,s,sh,h,f)などは騒音とスペクトル特徴が類似していることから、当該無声子音などと騒音とを正確に識別して検出することができない場合があるという課題があった。
この発明は、上記のような課題を解決するためになされたもので、非定常な騒音を音声として誤検出するのを抑制し、音声の語頭および語尾の無声子音の検出精度を向上させることを目的とする。
この発明に係る音声区間検出装置は、入力信号からスペクトル特徴を示す第1の特徴量を算出する第1の特徴量算出部と、入力信号から第1の特徴量とは異なる音声の特徴量を示す第2の特徴量を算出する第2の特徴量算出部と、入力信号に含まれる音声と騒音とを識別するための認識モデルを用いて、第1の特徴量算出部が算出した第1の特徴量に基づいて、入力信号に含まれる音声区間の開始点を示す始端時刻および終了点を示す終端時刻を検出する音声区間検出部と、第2の特徴量算出部が算出した第2の特徴量と閾値との比較に基づいて、音声区間検出部が検出した始端時刻および終端時刻を補正する始終端補正部とを備えるものである。
この発明によれば、非定常な騒音を音声区間として誤検出するのを抑制することができ、さらに音声の語頭および語尾の無声子音の検出精度を向上させることができる。
実施の形態1に係る音声区間検出装置の構成を示すブロック図である。 実施の形態1に係る音声区間検出装置のハードウェア構成を示す図である。 実施の形態1に係る音声区間検出装置の動作を示すフローチャートである。 実施の形態1に係る音声区間検出装置の動作を示すフローチャートである。 実施の形態1に係る音声区間検出装置の始終端補正部による探索区間を示す図である。 実施の形態2に係る音声区間検出装置の構成を示すブロック図である。 実施の形態2に係る音声区間検出装置の始終端補正部による探索区間、閾値算出部による閾値算出区間を示す図である。 実施の形態2に係る音声区間検出装置の動作を示すフローチャートである。 実施の形態2に係る音声区間検出装置の動作を示すフローチャートである。 実施の形態3に係る音声区間検出装置の構成を示すブロック図である。 実施の形態3に係る音声区間検出装置の動作を示すフローチャートである。 実施の形態3に係る音声区間検出装置の動作を示すフローチャートである。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、実施の形態1に係る音声区間検出装置10の構成を示すブロック図である。
音声区間検出装置10は、第1の特徴量算出部1、第2の特徴量算出部2、パターン認識モデル蓄積部3、音声区間検出部4および始終端補正部5で構成されている。
第1の特徴量算出部1は、外部から入力される入力信号の音響分析を行い、スペクトル特徴を表現する特徴量(以下、第1の特徴量と称する)の時系列を算出する。第1の特徴量は、例えばMFCC(Mel Frequency Cepstral Coefficient)の1〜12次元までのデータである。なお、以下では説明の簡潔化のため、MFCCの1から12次元までのデータを単にMFCCと称する。
第2の特徴量算出部2は、第1の特徴量算出部1が変換した第1の特徴量とは異なる特徴量であり、第1の特徴量では識別が困難な音声の検出に適した特徴量(以下、第2の特徴量と称する)の時系列を算出する。例えば、第1の特徴量では騒音との識別が困難な音声の無声子音などの検出に適した特徴量の時系列を算出する。ここで、無声子音はp,t,k,s,sh,h,fなどである。一般的に、無声子音は音声の高域にパワーが集中していることから、例えば高域を強調したパワーを第2の特徴量として算出する。
パターン認識モデル蓄積部3は、入力信号中の音声と騒音を識別するためのパターン認識モデルを蓄積する。この実施の形態1ではモデルとしてGMM(Gaussian Mixture Model)を用いる場合を例に説明を行う。具体的には、音声をモデル化した1つのGMM(以下、音声GMMと称する)と、騒音をモデル化した1つのGMM(以下、騒音GMMと称する)とから、パターン認識モデルを構成する。音声GMMおよび騒音GMMのパラメータは、例えば最尤度推定法などを用いた学習によって予め求めておく。音声GMMのパラメータの学習は多様な音声のMFCCを用いて行われ、騒音GMMのパラメータの学習は多様な騒音のMFCCを用いて行われる。
音声区間検出部4は、パターン認識モデル蓄積部3に蓄積されたパターン認識モデルを参照し、第1の特徴量算出部1が算出した第1の特徴量のパターンマッチングを行い、入力信号中の音声区間の開始点を示す暫定の始端時刻(以下、仮始端時刻と称する)および暫定の終了点を示す終端時刻(以下、仮終端時刻と称する)を検出する。始終端補正部5は、音声区間検出部4が検出した仮始端時刻および仮終端時刻を、第2の特徴量に基づいて補正して始端時刻および終端時刻を確定する。始終端補正部5は、得られた始端時刻および終端時刻を、入力信号中の音声区間の時間情報として出力する。
図2は、実施の形態1に係る音声区間検出装置10のハードウェア構成を示す図である。
音声区間検出装置10の第1の特徴量算出部1、第2の特徴量算出部2、音声区間検出部4および始終端補正部5は、プロセッサ20がメモリ30に記憶されたプログラムを実行することにより、実現される。パターン認識モデル蓄積部3は、メモリ30を構成する。また、複数のプロセッサ20および複数のメモリ30が連携して上述した機能を実行するように構成してもよい。
次に、音声区間検出装置10の動作について説明する。
図3Aおよび図3Bは、実施の形態1に係る音声区間検出装置10の動作を示すフローチャートである。
信号が入力されると(ステップST1)、第1の特徴量算出部1は、入力信号を設定した時間区間(以下、フレームと称する)に分割し、分割したフレームごとに入力信号の変換を行い第1の特徴量を算出する(ステップST2)。なお、フレームの分割では隣接するフレーム同士で時間区間が重複していてもよい。例えば、フレームの時間区間長を30ミリ秒とし、フレームを10ミリ秒ずつずらしながら入力信号を変換して第1の特徴量を算出する。第1の特徴量は上述のようにMFCCとする。即ち、ステップST2の処理では、第1の特徴量算出部1が10ミリ秒の間隔でMFCCの時系列を算出し、出力する。
第2の特徴量算出部2は、第1の特徴量算出部1と同一のフレーム間隔で入力信号を分割し、分割したフレームごとに入力信号を変換して第2の特徴量を算出する(ステップST3)。なお、ステップST3では第2の特徴量として高域を強調したパワーを算出するものとして、以下説明を行う。第2の特徴量算出部2は、入力信号の最初のKフレーム(例えば、K=10)を音声が存在しない騒音区間とみなし、当該Kフレームの区間で音声のパワーの平均を算出し、ノイズレベルとする(ステップST4)。さらに、第2の特徴量算出部2は、各フレームごとにステップST3で算出した高域を強調したパワーからステップST4で算出したノイズレベルを減算し、高域強調差分パワーを算出する(ステップST5)。ステップST5の処理では、第2の特徴量算出部2が10ミリ秒間隔で高域強調差分パワーの時系列を算出し、出力する。
音声区間検出部4は、ステップST2で算出された第1の特徴量、即ちMFCCの時系列を入力とし、パターン認識モデル蓄積部3に蓄積されたパターン認識モデルを参照し、各フレームごとに音声GMMの尤度Lsおよび騒音GMMの対数尤度Lnを算出する(ステップST6)。音声区間検出部4は、ステップST6で算出した音声GMMの尤度Lsおよび騒音GMMの対数尤度Lnを用いて、以下の式(1)に基づいて対数尤度差Sを算出する(ステップST7)。
S=Ls−Ln (1)
音声区間検出部4は、ステップST7で算出した対数尤度差Sが、設定された閾値Th_S以上となるフレームが、設定されたフレーム数の閾値Th_T1以上連続する区間を時間軸の順方向に探索する(ステップST8)。音声区間検出部4は、ステップST8で探索した区間について、対数尤度差Sが時間軸の順方向に最初に閾値Th_S以上となったフレームの時刻を取得し、音声区間の仮始端時刻Tb´とする(ステップST9)。
次に音声区間検出部4は、ステップST7で算出した対数尤度差Sが、設定された閾値Th_S未満となるフレームが、設定されたフレーム数の閾値Th_T2以上連続する区間を時間軸の順方向に探索する(ステップST10)。音声区間検出部4は、ステップST10で探索した区間について、対数尤度差Sが時間軸の順方向に最初に閾値Th_S未満となったフレームの時刻を取得し、音声区間の仮終端時刻Te´とする(ステップST11)。なお、上述したステップST8およびステップST10の探索処理は、目的とするフレームが探索されるまで継続するものとする。
始終端補正部5は、ステップST5で算出された高域強調差分パワーの時系列を参照し、ステップST9で検出した音声区間の仮始端時刻Tb´の時系列前方に位置するフレームb1の時刻Tb1から、音声の仮始端時刻Tb´の時系列後方に位置するフレームb2の時刻Tb2までの区間で、高域強調差分パワーが閾値Th_P1以上となるフレームが、設定されたフレーム数の閾値Th_T1以上連続する区間を、時間軸の順方向に探索する(ステップST12)。始終端補正部5は、ステップST12の処理で区間が探索されたか否か判定を行う(ステップST13)。区間が探索された場合(ステップST13;YES)、始終端補正部5は探索された区間において時間軸の順方向に最初に高域強調差分パワーが閾値Th_P1以上となったフレームの時刻を取得し、始端時刻Tbとする(ステップST14)。一方、区間が探索されなかった場合(ステップST13;NO)、始終端補正部5はステップST9で検出された仮始端時刻Tb´を始端時刻Tbとする(ステップST15)。
次に始終端補正部5は、ステップST5で算出された高域強調差分パワーの時系列を参照し、ステップST11で検出した音声区間の仮終端時刻Te´の時系列後方に位置するフレームe2の時刻Te2から、音声の仮終端時刻Te´の時系列前方に位置するフレームe1の時刻Te1までの区間で、高域強調差分パワーが閾値Th_P1以上となるフレームが、設定されたフレーム数の閾値Th_T1以上連続する区間を、時間軸の逆方向に探索する(ステップST16)。始終端補正部5は、ステップST16の処理で区間が探索されたか否か判定を行う(ステップST17)。区間が探索された場合(ステップST17;YES)、始終端補正部5は探索された区間において時間軸の逆方向に最初に高域強調差分パワーが閾値Th_P1以上となったフレームの時刻を取得し、終端時刻Teとする(ステップST18)。一方、区間が探索されなかった場合(ステップST17;NO)、始終端補正部5はステップST11で検出された仮終端時刻Te´を終端時刻Teとする(ステップST19)。
始終端補正部5は、ステップST14またはステップST15で取得した始端時刻Tbと、ステップST18またはステップST19で取得した終端時刻Teとを、音声区間の時間情報として出力し(ステップST20)、処理を終了する。
なお、上述した閾値Th_S、閾値Th_P1、閾値Th_T1および閾値Th_T2は、予め設定した0以上の定数である。
図4は、実施の形態1の音声区間検出装置10の始終端補正部5による探索区間を示す図である。
図4では、横軸が時間を示し、縦軸が音声GMMと騒音GMMとの対数尤度差Sの強度を示している。図4において、時刻Tb´はステップST9で算出された仮始端時刻Tb´であり、時刻Te´はステップST11で算出された仮終端時刻Te´である。区間Aは、仮始端時刻Tb´の時系列前方に位置するフレームb1の時刻Tb1から後方に位置するフレームb2の時刻Tb2までの区間を示しており、始終端補正部5が始端時刻補正のための探索を行う探索区間を示している。矢印Bは、始終端補正部5が区間Aを探索する際の探索方向を示しており、時間軸の順方向に探索することを示している。
さらに、区間Cは仮終端時刻Te´の時系列後方に位置するフレームe2の時刻Te2から前方に位置するフレームe1の時刻Te1までの区間を示しており、始終端補正部5が終端時刻補正のための探索を行う探索区間を示している。矢印Dは、始終端補正部5が区間Cを探索する際の探索方向を示しており、時間軸の逆方向に探索することを示している。
具体例を示すと、例えば、仮始端時刻Tb´から25フレーム前方に時刻Tb1を設定し、仮始端時刻Tb´から10フレーム後方に時刻Tb2を設定し、仮終端時刻Te´から10フレーム前方に時刻Te1を設定し、仮始端時刻Te´から30フレーム後方に時刻Te2を設定する。なお、Tb2を仮始端時刻Tb´から0フレームに設定し、さらにTe1を仮終端時刻Te´から0フレームに設定し、第1の特徴量で検出された音声区間の前方への補正を行わないように構成することも可能である。
以上のように、この実施の形態1によれば、入力信号の第1の特徴量を算出する第1の特徴量算出部1と、第1の特徴量では騒音との識別が困難な音声の検出に適した第2の特徴量を入力信号から算出する第2の特徴量算出部2と、第1の特徴量についてパターン認識手法を用いて音声と騒音とを判別して仮始端時刻および仮終端時刻を算出する音声区間検出部4と、第2の特徴量を用いて仮始端時刻および仮終端時刻を補正し、音声区間の時間情報を取得する始終端補正部5とを備えるように構成したので、音声区間検出部4の処理によって、スペクトル特徴量が異なる非定常騒音が音声区間として検出されるのを抑制し、さらに始終端補正部5の処理によって、スペクトル特徴量では騒音との識別が困難な音声の検出漏れを抑制し、音声区間の検出精度を向上させることができる。
また、この実施の形態1によれば、第2の特徴量算出部2がスペクトル特徴量からでは騒音の識別が困難な無声子音の検出に適した高域強調差分パワーを第2の特徴量として算出し、始終端補正部5が当該高域強調差分パワーの時系列を用いて仮始端時刻および仮終端時刻を補正し、音声区間の時間情報を取得するように構成したので、無声子音の検出漏れを抑制し、音声区間の検出精度を向上させることができる。
なお、上述した実施の形態1では、パターン認識モデル蓄積部3に蓄積したパターン認識モデルを構成する音声GMMおよび騒音GMMのパラメータ学習には、最尤度推定法を用いる場合を例に示したが、音声と騒音とを積極的に識別するパラメータ学習、例えば相互情報最大化推定法を適用してもよい。
また、上述した実施の形態1では、パターン認識モデル蓄積部3に蓄積したパターン認識モデルを構成するGMMとして音声GMMおよび騒音GMMをそれぞれ1つずつ用いる構成を示したが、それぞれ複数個のGMMを用いてもよい。その場合、音声GMMの対数尤度は、複数個の音声GMMの対数尤度の最大値または加重平均した値とすれば良い。同様に、騒音GMMの対数尤度は、複数個の騒音GMMの対数尤度の最大値または加重平均した値とする。
また、上述した実施の形態1では、パターン認識モデル蓄積部3が蓄積したパターン認識モデルとしてGMMを用いる場合を示したが、HMMを用いてもよい。また、ロジスティック回帰モデル、サポートベクトルマシンおよびニューラルネットワークなどのパターン認識手法を用いてもよい。
また、上述した実施の形態1では、第2の特徴量算出部2が無声子音の検出に適した特徴量として高域強調差分パワーを算出する構成を示したが、無声子音の検出に適した特徴量、即ち無声子音に特徴的な特徴量であれば、任意の特徴量を適用することができる。例えば、入力信号のパワーを周波数帯域ごとに算出し、周波数帯域が2KHz未満のパワーと、2KHz以上のパワーを算出し、両パワーの比などを特徴量として適用することができる。
実施の形態2.
上述した実施の形態1では、始終端補正部5が高域強調差分パワーと閾値とを比較する際に、予め設定した閾値Th_P1を用いる構成を示したが、この実施の形態2では、高域強調差分パワーの比較対象となる閾値を高域強調差分パワーの標準偏差を用いて算出する構成を示す。
図5は、実施の形態2に係る音声区間検出装置10aの構成を示すブロック図である。
実施の形態2の音声区間検出装置10aは、実施の形態1で示した音声区間検出装置10に閾値算出部6を追加して設けている。
図6は、実施の形態2に係る音声区間検出装置10aの始終端補正部5aによる探索区間および閾値算出部6による閾値算出区間を示す図である。
なお、以下では、実施の形態1に係る音声区間検出装置10の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
閾値算出部6は、第2の特徴量算出部2が算出した第2の特徴量、すなわち高域強調差分パワーの時系列と、音声区間検出部4が検出した仮始端時刻Tb´とに基づいて、始終端補正部5aが参照する閾値を算出する。図6を参照して説明すると、閾値算出部6は仮始端時刻Tb´の時系列前方に位置するフレームb1の時刻Tb1からさらにフレーム数Tv遡った時刻をTb0とし、当該時刻Tb0から時刻Tb1までの区間Eで、以下の式(2)に基づいて高域強調差分パワーの標準偏差sdを算出する。
Figure 2016143125
式(2)において、mpは時刻Tb0から時刻Tb1の区間Eの高域差分パワーの平均値、piは時刻iにおける高域差分パワー、sqrt()は平方根をとる関数を示している。なお、フレーム数Tvは予め設定した定数であり、例えば50フレームとする。
閾値算出部6は、式(2)に基づいて算出した高域強調差分パワーの標準偏差sdを用いて、以下の式(3)に基づいて始終端補正用閾値Th_P2を算出する。
Th_P2=α*sd+β (3)
式(3)において、αとβは予め定めた0以上の定数である。閾値算出部6が算出した始終端補正用閾値Th_P2は、始終端補正部5aに出力される。
次に、音声区間検出装置10aの動作について説明する。
図7Aおよび図7Bは、実施の形態2に係る音声区間検出装置10aの動作を示すフローチャートである。
なお、以下では実施の形態1に係る音声区間検出装置10と同一のステップには図3Aおよび図3Bで使用した符号と同一の符号を付し、説明を省略または簡略化する。
ステップST11において音声区間検出部4が音声の仮終端時刻Te´を検出すると、閾値算出部6は、ステップST9で検出した音声の仮始端時刻Tb´の時系列前方に位置するフレームb1の時刻Tb1から、さらにフレーム数Tv遡った時刻Tb0を算出する(ステップST31)。閾値算出部6は、ステップST31で算出した時刻Tb0から時刻Tb1の区間について、上述した式(2)に基づいて高域強調差分パワーの標準偏差sdを算出する(ステップST32)。さらに閾値算出部6は、ステップST32で算出した高域強調差分パワーの標準偏差sdを用いて、上述した式(3)に基づいて始終端補正用閾値Th_P2を算出する(ステップST33)。
始終端補正部5aは、ステップST5で算出された高域強調差分パワーの時系列を参照し、ステップST9で検出した音声の仮始端時刻Tb´の時系列前方に位置するフレームb1の時刻Tb1から、音声の仮始端時刻Tb´の時系列後方に位置するフレームb2の時刻Tb2までの区間で、高域強調差分パワーがステップST33で算出した始終端補正用閾値Th_P2以上となるフレームが、設定されたフレーム数の閾値Th_T1以上連続する区間を、時間軸の順方向に探索する(ステップST34)。
始終端補正部5aは、ステップST34の処理で区間が探索されたか否か判定を行う(ステップST35)。区間が探索された場合(ステップST35;YES)、始終端補正部5aは探索された区間において最初に高域強調差分パワーが始終端補正用閾値Th_P2以上となったフレームの時刻を取得し、始端時刻Tbとする(ステップST36)。一方、区間が探索されなかった場合(ステップST35;NO)、始終端補正部5aはステップST9で検出された仮始端時刻Tb´を始端時刻Tbとする(ステップST15)。
次に始終端補正部5aは、ステップST5で算出された高域強調差分パワーの時系列を参照し、ステップST11で検出した音声の仮終端時刻Te´の時系列後方に位置するフレームe2の時刻Te2から、音声の仮終端時刻Te´の時系列前方に位置するフレームe1の時刻Te1までの範囲で、高域強調差分パワーが始終端補正用閾値Th_P2以上となるフレームが、設定されたフレーム数の閾値Th_T1以上連続する区間を、時間軸の逆方向に探索する(ステップST37)。始終端補正部5aは、ステップST37の処理で区間が検出されたか否か判定を行う(ステップST38)。区間が探索された場合(ステップST38;YES)、始終端補正部5aは探索された区間において最初に高域強調差分パワーが始終端補正用閾値Th_P2以上となったフレームの時刻を取得し、終端時刻Teとする(ステップST39)。一方、区間が探索されなかった場合(ステップST38;NO)、始終端補正部5aはステップST11で検出された終端時刻Te´を終端時刻Teとする(ステップST19)。
始終端補正部5aは、ステップST36またはステップST15で取得した始端時刻Tbと、ステップST39またはステップST19で取得した終端時刻Teとを、音声区間の時間情報として出力し(ステップST20)、処理を終了する。
以上のように、この実施の形態2によれば、仮始端時刻Tb´の時系列前方に位置するフレームb1の時刻Tb1からさらにフレーム数Tv遡った時刻をTb0とし、当該時刻Tb0から時刻Tb1までの区間で算出した高域強調差分パワーの標準偏差sdを用いて始終端補正用閾値Th_P2を算出する閾値算出部6と、算出された始終端補正用閾値Th_P2、および高域強調差分パワーの時系列に基づいて、仮始端時刻および仮終端時刻を補正し、音声区間の時間情報を取得する始終端補正部5aとを備えるように構成したので、高域強調差分パワーの標準偏差の値が小さく、定常的な騒音環境に対しては、低い始終端補正用閾値を設定することが可能となり、微弱な無声子音の検出性能を向上させることができる。一方、高域強調差分パワーの標準偏差の値が大きく、非定常的な騒音環境に対しては、高い始終端補正用閾値を設定することが可能となり、騒音を音声として誤検出するのを抑制することができる。
実施の形態3.
この実施の形態3では、第2の特徴量算出部2が算出した高域強調差分パワーの時系列に加えて、音声区間検出部4が検出した対数尤度差Sの時系列も考慮して始終端時刻を補正する構成を示す。
図8は、実施の形態3に係る音声区間検出装置10bの構成を示すブロック図である。
実施の形態3の音声区間検出装置10bは、実施の形態2で示した音声区間検出装置10aの構成と同一である。以下では、実施の形態2に係る音声区間検出装置10aの構成要素と同一または相当する部分には、実施の形態2で使用した符号と同一の符号を付して説明を省略または簡略化する。
音声区間検出部4は、実施の形態1および実施の形態2と同様に、仮始端時刻Tb´および仮終端時刻Te´を始終端補正部5bに出力する。さらに音声区間検出部4は、上述した式(1)に基づいて算出された音声GMMと騒音GMMの対数尤度差Sを各フレームごと、即ち対数尤度差Sの時系列を始終端補正部5bに出力する。閾値算出部6は、実施の形態2と同様に、第2の特徴量算出部2から入力される高域強調差分パワーの時系列と、音声区間検出部4が検出した仮始端時刻Tb´とに基づいて、始終端補正部5bが参照する閾値である始終端補正用閾値Th_P2を算出する。
始終端補正部5bは、音声区間検出部4が検出した仮始端時刻Tb´および仮終端時刻Te´を、第2の特徴量算出部2から入力される高域強調差分パワーの時系列と、音声区間検出部4から入力される対数尤度差Sの時系列と、閾値算出部6から入力される始終端補正用閾値Th_P2に基づいて補正し、始端時刻Tbおよび終端時刻Teを取得する。
次に、音声区間検出装置10bの動作について説明する。
図9Aおよび図9Bは、実施の形態3に係る音声区間検出装置10bの動作を示すフローチャートである。
なお、以下では実施の形態2に係る音声区間検出装置10aと同一のステップには図7Aおよび図7Bで使用した符号と同一の符号を付し、説明を省略または簡略化する。
ステップST33において閾値算出部6が始終端補正用閾値Th_P2を算出すると、始終端補正部5bは、ステップST5で算出された高域強調差分パワーの時系列、およびステップST7で算出された対数尤度差Sの時系列を参照し、ステップST9で検出した音声の仮始端時刻Tb´の時系列前方に位置するフレームb1の時刻Tb1から、音声の仮始端時刻Tb´の時系列後方に位置するフレームb2の時刻Tb2までの区間で、高域強調差分パワーがステップST33で算出された始終端補正用閾値Th_P2以上、且つ対数尤度差Sが設定された閾値Th_S2以上のフレームが、設定されたフレーム数の閾値Th_T1以上連続する区間を、時間軸の順方向に探索する(ステップST41)。
ここで、上述した閾値Th_S2は予め定められた0以上の定数であって、且つ閾値Th_Sよりも小さい値であるものとする。
始終端補正部5bは、ステップST41の処理で区間が探索されたか否か判定を行う(ステップST42)。区間が探索された場合(ステップST42;YES)、始終端補正部5bは探索された区間において最初に高域強調差分パワーが始終端補正用閾値Th_P2以上、且つ対数尤度差Sが閾値Th_S2以上となったフレームの時刻を取得し、始端時刻Tbとする(ステップST43)。一方、区間が探索されなかった場合(ステップST42;NO)、始終端補正部5bはステップST9で検出された仮始端時刻Tb´を始端時刻Tbとする(ステップST15)。
次に始終端補正部5bは、ステップST5で算出された高域強調差分パワーの時系列、およびステップST7で算出された対数尤度差Sの時系列を参照し、ステップST11で検出した音声の仮終端時刻Te´の時系列後方に位置するフレームe2の時刻Te2から、音声の仮終端時刻Te´の時系列前方に位置するフレームe1の時刻Te1までの区間で、高域強調差分パワーが始終端補正用閾値Th_P2以上、且つ対数尤度差Sが設定された閾値Th_S2以上のフレームが、設定されたフレーム数の閾値Th_T1以上連続する区間を時間軸の逆方向に探索する(ステップST44)。
始終端補正部5bは、ステップST44の処理で区間が検出されたか否か判定を行う(ステップST45)。区間が探索された場合(ステップST45;YES)、始終端補正部5bは探索された区間において最初に高域強調差分パワーが始終端補正用閾値Th_P2以上、且つ対数尤度差Sが閾値Th_S2以上となったフレームの時刻を取得し、終端時刻Teとする(ステップST46)。一方、区間が探索されなかった場合(ステップST45;NO)、始終端補正部5bはステップST11で検出された仮終端時刻Te´を終端時刻Teとする(ステップST19)。
始終端補正部5bは、ステップST43またはステップST15で取得した始端時刻Tbと、ステップST46またはステップST19で取得した終端時刻Teとを、音声区間の時間情報として出力し(ステップST20)、処理を終了する。
上述のように、閾値Th_S2を閾値Th_Sよりも小さい値に設定することにより、仮始端時刻Tb´および仮終端時刻Te´の検出時には検出することができなかった微弱な無声子音などの検出が容易となる。なお、高域強調差分パワーの時系列を用いず、対数尤度差Sの時系列のみを用いて、閾値Th_S2を閾値Th_Sよりも小さい値に設定して探索処理を行うと、騒音をご検出する可能性が大きくなるが、高域強調差分パワーの時系列と対数尤度差Sの時系列とを用いて両者の特徴量が共に閾値以上となった場合にのみ、仮始端時刻Tb´および仮終端時刻Te´を補正することにより、補正精度を向上させることができる。
始終端補正部5bにおいて、高域強調差分パワーに加えて対数尤度差に基づいて始終端時刻の補正を行うことにより、仮始端時刻検出時には検出できなかった微弱な無声子音などを容易に検出することができる。ただし、対数尤度差のみを用いて閾値を低く設定して始終端時刻の補正を行うと、騒音を音声として誤検出する可能性が高くなる。そのため、対数尤度差とその他の特徴量とを併用して両者の特徴量が共に閾値以上となった場合にのみ、始終端時刻を補正する構成とし、補正精度を向上させる。
以上のように、この実施の形態3によれば、第2の特徴量算出部2が算出した高域強調差分パワーの時系列、および音声区間検出部4が検出した対数尤度差の時系列、および閾値算出部6から入力される始終端補正用閾値に基づいて、音声区間検出部4が検出した仮始端時刻および仮終端時刻を補正する始終端補正部5bを備えるように構成したので、騒音を音声として誤検出して補正することを抑制し、音声の開始点および音声の終了点の補正精度を向上させることができる。
また、この実施の形態3によれば、閾値Th_S2を閾値Th_Sよりも小さい値に設定するように構成したので、仮始端時刻Tb´および仮終端時刻Te´の検出時には検出することができなかった微弱な無声子音などを容易に検出することができる。
なお、上述した実施の形態3では、実施の形態2で示した音声区間検出装置10aに始終端補正部5bを適用する構成を示したが、実施の形態1で示した音声区間検出装置10に始終端補正部5bを適応して構成してもよい。
上述した実施の形態1から実施の形態3では、第1の特徴量では騒音との識別が困難な音声の検出として、無声子音の検出を例に説明を行ったが、無声子音以外にも、無声子化した母音の検出を行うように構成することも可能である。さらに、濁音の子音部などの有声子音の検出や母音の検出など、発話が不明瞭な場合に、第1の特徴量では騒音との識別が困難になると予測される音声の検出を行うように構成することも可能である。
上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
この発明に係る音声区間検出装置は、音声区間検出が必要となる装置、例えば音声認識装置に適用可能であり、非定常な騒音を音声として誤検出することを防ぎ、且つ語頭や語尾の無声子音の検出精度を改善することができる。
1 第1の特徴量算出部、2 第2の特徴量算出部、3 パターン認識モデル蓄積部、4 音声区間検出部、5,5a,5b 始終端補正部、6 閾値算出部、10,10a,10b 音声区間検出装置。

Claims (5)

  1. 入力信号からスペクトル特徴を示す第1の特徴量を算出する第1の特徴量算出部と、
    前記入力信号から前記第1の特徴量とは異なる音声の特徴量を示す第2の特徴量を算出する第2の特徴量算出部と、
    前記入力信号に含まれる音声と騒音とを識別するための認識モデルを用いて、前記第1の特徴量算出部が算出した第1の特徴量に基づいて、前記入力信号に含まれる音声区間の開始点を示す始端時刻および終了点を示す終端時刻を検出する音声区間検出部と、
    前記第2の特徴量算出部が算出した第2の特徴量と閾値との比較に基づいて、前記音声区間検出部が検出した始端時刻および終端時刻を補正する始終端補正部とを備えた音声区間検出装置。
  2. 前記音声区間検出部が検出した始端時刻から一定時間遡った区間において、前記第2の特徴量の標準偏差を算出し、当該第2の特徴量の標準偏差に基づいて、前記閾値を算出する閾値算出部を備えたことを特徴とする請求項1記載の音声区間検出装置。
  3. 前記音声区間検出部は、前記認識モデルを参照し、前記音声をモデル化した音声モデルと前記騒音をモデル化した騒音モデルとの尤度差を算出し、
    前記始終端補正部は、前記第2の特徴量と閾値との比較に加えて、前記音声区間検出部が算出した前記尤度差と閾値との比較に基づいて、前記音声区間検出部が検出した始端時刻および終端時刻を補正することを特徴とする請求項1記載の音声区間検出装置。
  4. 前記第2の特徴量算出部は、前記入力信号に含まれる音声のうち無声子音の特徴を示す前記第2の特徴量を算出することを特徴とする請求項1記載の音声区間検出装置。
  5. 第1の特徴量算出部が、入力信号からスペクトル特徴を示す第1の特徴量を算出し、
    第2の特徴量算出部が、前記入力信号から前記第1の特徴量とは異なる音声の特徴量を示す第2の特徴量を算出し、
    音声区間検出部が、前記入力信号に含まれる音声と騒音とを識別するための認識モデルを用いて、前記第1の特徴量に基づいて、前記入力信号に含まれる音声区間の開始点を示す始端時刻および終了点を示す終端時刻を検出し、
    始終端補正部が、前記第2の特徴量と閾値との比較に基づいて、前記始端時刻および終端時刻を補正する音声区間検出方法。
JP2017504528A 2015-03-12 2015-03-12 音声区間検出装置および音声区間検出方法 Active JP6444490B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/057333 WO2016143125A1 (ja) 2015-03-12 2015-03-12 音声区間検出装置および音声区間検出方法

Publications (2)

Publication Number Publication Date
JPWO2016143125A1 true JPWO2016143125A1 (ja) 2017-06-01
JP6444490B2 JP6444490B2 (ja) 2018-12-26

Family

ID=56878608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017504528A Active JP6444490B2 (ja) 2015-03-12 2015-03-12 音声区間検出装置および音声区間検出方法

Country Status (3)

Country Link
JP (1) JP6444490B2 (ja)
TW (1) TW201633291A (ja)
WO (1) WO2016143125A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6392950B1 (ja) * 2017-08-03 2018-09-19 ヤフー株式会社 検出装置、検出方法、および検出プログラム
DE112018006885B4 (de) * 2018-02-20 2021-11-04 Mitsubishi Electric Corporation Trainingsvorrichtung,sprachaktivitätsdetektor und verfahren zur erfassung einer sprachaktivität
US11276390B2 (en) 2018-03-22 2022-03-15 Casio Computer Co., Ltd. Audio interval detection apparatus, method, and recording medium to eliminate a specified interval that does not represent speech based on a divided phoneme
CN108877778B (zh) * 2018-06-13 2019-09-17 百度在线网络技术(北京)有限公司 语音端点检测方法及设备
CN108877779B (zh) * 2018-08-22 2020-03-20 百度在线网络技术(北京)有限公司 用于检测语音尾点的方法和装置
DE112021007013T5 (de) 2021-04-07 2023-12-07 Mitsubishi Electric Corporation Informationsverarbeitungseinrichtung, ausgabeverfahren und ausgabeprogramm

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5710196A (en) * 1980-06-20 1982-01-19 Tokyo Shibaura Electric Co Voice signal detector
JPH03290700A (ja) * 1990-04-09 1991-12-20 Toshiba Corp 有音検出装置
JP2007017620A (ja) * 2005-07-06 2007-01-25 Kyoto Univ 発話区間検出装置、そのためのコンピュータプログラム及び記録媒体
JP2009210712A (ja) * 2008-03-03 2009-09-17 Yamaha Corp 音処理装置およびプログラム
WO2011070972A1 (ja) * 2009-12-10 2011-06-16 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
JP2013508744A (ja) * 2009-10-19 2013-03-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声区間検出器及び方法
WO2014035328A1 (en) * 2012-08-31 2014-03-06 Telefonaktiebolaget L M Ericsson (Publ) Method and device for voice activity detection

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5710196A (en) * 1980-06-20 1982-01-19 Tokyo Shibaura Electric Co Voice signal detector
JPH03290700A (ja) * 1990-04-09 1991-12-20 Toshiba Corp 有音検出装置
JP2007017620A (ja) * 2005-07-06 2007-01-25 Kyoto Univ 発話区間検出装置、そのためのコンピュータプログラム及び記録媒体
JP2009210712A (ja) * 2008-03-03 2009-09-17 Yamaha Corp 音処理装置およびプログラム
JP2013508744A (ja) * 2009-10-19 2013-03-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声区間検出器及び方法
WO2011070972A1 (ja) * 2009-12-10 2011-06-16 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
WO2014035328A1 (en) * 2012-08-31 2014-03-06 Telefonaktiebolaget L M Ericsson (Publ) Method and device for voice activity detection

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device

Also Published As

Publication number Publication date
TW201633291A (zh) 2016-09-16
WO2016143125A1 (ja) 2016-09-15
JP6444490B2 (ja) 2018-12-26

Similar Documents

Publication Publication Date Title
JP6444490B2 (ja) 音声区間検出装置および音声区間検出方法
US11276390B2 (en) Audio interval detection apparatus, method, and recording medium to eliminate a specified interval that does not represent speech based on a divided phoneme
JP5229234B2 (ja) 非音声区間検出方法及び非音声区間検出装置
US7991614B2 (en) Correction of matching results for speech recognition
US7693713B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
US20110077943A1 (en) System for generating language model, method of generating language model, and program for language model generation
US8990086B2 (en) Recognition confidence measuring by lexical distance between candidates
JP7143916B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP4340685B2 (ja) 音声認識装置及び音声認識方法
US9786295B2 (en) Voice processing apparatus and voice processing method
US20190279644A1 (en) Speech processing device, speech processing method, and recording medium
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
US11929058B2 (en) Systems and methods for adapting human speaker embeddings in speech synthesis
JP2007292940A (ja) 音声識別装置及び音声識別方法
JP2004133477A (ja) 音声認識方法、音声認識方法のためのコンピュータプログラム、及びそのコンピュータプログラムが記録された記憶媒体
US20210398521A1 (en) Method and device for providing voice recognition service
JP7159655B2 (ja) 感情推定システムおよびプログラム
CN110875034B (zh) 用于语音识别的模板训练方法、语音识别方法及其系统
KR100755483B1 (ko) 단어 끝점 검출 오류 보상을 가지는 비터비 디코딩 방법
JP5166195B2 (ja) 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体
Laszko Using formant frequencies to word detection in recorded speech
US20240029713A1 (en) Threshold generation method, threshold generation device, and computer program product
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム
JP2017211513A (ja) 音声認識装置、その方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180424

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181127

R150 Certificate of patent or registration of utility model

Ref document number: 6444490

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250