JPWO2009078093A1 - 非音声区間検出方法及び非音声区間検出装置 - Google Patents
非音声区間検出方法及び非音声区間検出装置 Download PDFInfo
- Publication number
- JPWO2009078093A1 JPWO2009078093A1 JP2009546107A JP2009546107A JPWO2009078093A1 JP WO2009078093 A1 JPWO2009078093 A1 JP WO2009078093A1 JP 2009546107 A JP2009546107 A JP 2009546107A JP 2009546107 A JP2009546107 A JP 2009546107A JP WO2009078093 A1 JPWO2009078093 A1 JP WO2009078093A1
- Authority
- JP
- Japan
- Prior art keywords
- frame
- speech
- section
- sound data
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 153
- 238000001228 spectrum Methods 0.000 claims abstract description 131
- 230000008859 change Effects 0.000 claims abstract description 98
- 230000003595 spectral effect Effects 0.000 claims abstract description 19
- 238000005311 autocorrelation function Methods 0.000 claims abstract description 17
- 238000009795 derivation Methods 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 13
- 238000000034 method Methods 0.000 description 75
- 230000008569 process Effects 0.000 description 57
- 238000012545 processing Methods 0.000 description 37
- 238000012937 correction Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000007717 exclusion Effects 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Navigation (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Time-Division Multiplex Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
2 制御手段(第3の導出手段、第3の検出手段)
3 記録手段
4 記憶手段
5 音取得手段
20 フレーム生成部
21 スペクトルの偏倚導出部(導出手段)
21a スペクトルの偏倚/パワー/ピッチ導出部(導出手段)
21b 変化量導出部(第2の導出手段)
22 非音声区間検出部(判定手段、検出手段)
22a 非音声区間検出部(判定手段、検出手段)
22b 非音声区間検出部(判定手段、検出手段、第2の判定手段、第2の検出手段)
実施の形態1
図1は、本発明の実施の形態1に係る非音声区間検出装置の一実施例である音声認識装置の構成例を示すブロック図である。図中1は、例えば車両に搭載されるナビゲーション装置のようなコンピュータを用いた音声認識装置であり、音声認識装置1は、装置全体を制御するCPU(Central Processing Unit)及びDSP(Digital Signal Processor)等の制御手段2と、プログラム及びデータ等の各種情報を記録するハードディスク及びROM等の記録手段3と、一時的に発生するデータを記録するRAMからなる記憶手段4と、外部から音を取得するマイクロホンからなる音取得手段5と、音を出力するスピーカからなる音出力手段6と、液晶モニタからなる表示手段7と、目的地までの経路指示のようなナビゲーションに係る処理を実行するナビゲーション手段8とを備えている。
制御手段2は、音データからフレームを生成するフレーム生成部20、生成されたフレームについてスペクトルの偏倚を導出するスペクトルの偏倚導出部21、導出されたスペクトルの偏倚に基づく判定基準を用いて非音声区間を検出する非音声区間検出部22、検出された非音声区間をもとに音声区間の開始/終了を確定させる音声区間判定部23、及び判定された音声区間について音声を認識する音声認識部24を備えている。
尚、スペクトルの偏倚を導出する前に、ノイズキャンセル処理及びスペクトルサブトラクション処理を行って、雑音の影響を除外してもよい。
既定の最大ポーズ長L2を超えても次の音声区間が始まらなかった場合、音声区間判定部23は、音声区間終了候補を音声区間終了フレームとして確定させる。音声区間の開始/終了フレームを確定したことにより、音声区間判定部23は、一つの音声区間の判定を終える(ステップS17)。このようにして検出された音声区間は、フレームバッファ42を介して音声認識部24に与えられる。
尚、音声区間の検出誤りを回避するため、音声区間判定部23が判定した音声区間よりも、例えば前後に100msecだけ広い区間を、確定させた音声区間としてもよい。
本実施の例では、音データの各フレームにおけるスペクトルの傾き、即ち、スペクトルの高域/低域での偏りを示す尺度として高域・低域強度を定義する。高域・低域強度は、そのままスペクトルの偏倚として用いることができるが、本実施の例では、スペクトルの偏倚を、高域・低域強度の絶対値で表すものとする。高域・低域強度は、スペクトル包絡を近似する指標であって、音データのパワーを示す0次の自己相関関数に対する、遅れ時間が1サンプルの1次の自己相関関数の比で表すことができる。
自己相関関数は、音データを分析単位である1フレーム毎(例えば、フレーム幅:N=256サンプル)に抽出し、ハミング窓をかけた音データの波形{x(n)}から、短時間自己相関関数{c(τ)}として、下記の式1より算出することができる。
尚、算出に伴う処理量を削減するため、IDFT/DFTに替えてIDCT/DCTを用いることができる。
A=0 (c(0)=0) ・・・・・式4
尚、高域・低域強度としては、上述したAに限定されるものではなく、0次及び1次以外の異なる次数についての自己相関関数の比、所定周波数帯域のパワー、所定の異なる周波数帯域についてのパワーの比、MFCC、対数スペクトラムを逆フーリエ変換したケプストラム、又は推定したフォルマントのうち所定の異なるフォルマントについての周波数の比若しくはパワーの比の少なくとも一であってもよい。複数の高域・低域強度を導出した場合は、夫々導出した値に基づいて、非音声区間の判定を並列的に実行することができる。
図6では、警報のトーン信号により、スペクトログラムの下半分に黒の濃い線が出現して、低域に偏っているため。Aの値は1に近づいている。
(a):|A|≧0.7が0.1秒以上継続する場合、当該区間は非音声とする。
(b):|A|≧0.5が1.2秒以上継続する場合、当該区間は非音声とする。
また、上記の判定を更に細分化して、以下のような判定を行うことも可能である。
(c):|A|≧0.6が0.5秒以上継続する場合、当該区間は非音声とする。
尚、フレームが継続する時間に係る閾値は、フレーム長が一定であるため、フレームが継続する数に係る閾値に置き換えることができる。また、音取得手段5のマイクロホンの特性を含む音入力系の伝達特性によっては、高域・低域のバランスが変動してスペクトルの偏倚|A|も変化することが想定されるため、入力系の伝達特性に応じて上述した判定の閾値を調整することが望ましい。
これにより、制御手段2は、非音声区間を検出することなくリターンする。
スペクトルの偏倚が所定の閾値未満であると判定した場合(ステップS28:NO)、制御手段2は、「開始フレーム番号」の内容を消去して(ステップS29)、リターンする。
これにより、制御手段2は、非音声区間を検出することなくリターンする。
これにより、「開始フレーム番号」及び「終了フレーム番号」で区切られた区間が、検出された非音声区間となる。
これにより、本実施の形態1では、スペクトルの偏倚が大きくて非音声の特徴を有するフレームが、音声らしからぬ程度まで連なる区間を非音声区間として検出し、人の発声による基準値の補正を要しない。従って、パワーの大きい雑音、又は非定常性の強い雑音が発生する環境下においても、発声前後か否かに拘わらず、高精度に非音声区間を検出することが可能である。
実施の形態2は、推定背景雑音パワーを基本とした音声区間検出装置と、実施の形態1に係る非音声区間検出装置とを併用した形態である。
図9は、本発明の実施の形態2に係る非音声区間検出装置の一実施例である音声認識装置1について、制御手段2の音声認識に係る処理構成例を示すブロック図である。
制御手段2は、更に、フレーム生成部20で生成されたフレームについて、音データのパワーを導出するパワー導出部26、導出したパワーに基づいて背景雑音パワーを推定する背景雑音パワー推定部27、及び音声区間判定部23aに修正すべきフレーム番号を通知する音声区間修正部25を備える。
音声区間修正部25は、非音声区間検出部22aが非音声区間として検出したフレームが、音声区間判定部23aでは音声区間と判定されていた場合に、音声区間判定部23aに対して、所定の修正信号及び修正すべきフレーム番号を与える。
尚、パワーを算出する前に、ノイズキャンセル処理及びスペクトルサブトラクション処理を行って、雑音の影響を除外してもよい。
また、背景雑音パワー推定部27は、音声区間判定部23aより後述する推定背景雑音パワーの修正を通知された場合、非音声区間に修正されたフレームのうち、その時の最新のフレームの音データから導出されたパワーにより、推定背景雑音パワーを上書きして修正する。
更に、音声区間判定部23aは、背景雑音パワー推定部27に対し、非音声区間に修正されたフレームの音データにより、推定背景雑音パワーを修正するように通知する。
実施の形態3は、実施の形態1及び2でスペクトルの偏倚に基づいて非音声区間を検出するのに対し、スペクトルの偏倚、音データのパワー又は音データのピッチについての前フレームとの変化量に基づいて、非音声区間を検出する形態である。また、非音声区間の検出対象から除外する区間を検出し、更に検出対象から除外された区間を復活させる処理をも含む形態である。図10は、本発明の実施の形態3に係る非音声区間検出装置の一実施例である音声認識装置1について、制御手段2の音声認識に係る処理構成例を示すブロック図である。また、図11は、制御手段2の音声認識処理の一例を示すフローチャートである。
尚、ここで導出する値は、スカラー量であるスペクトルの偏倚/パワー/ピッチに限定されるものではなく、音響的な特性を表すベクトルであるパワースペクトル、振幅スペクトル、MFCC、LPCケプストラム、LPC係数、PLP係数又はLSPパラメータであってもよい。
人が発声した場合の音データは、スペクトルの偏倚、パワー及びピッチの何れについても、時間と共にある程度の変動が生じるのを避けられない。逆に音データの上記指標に変動が観測されない場合は、非音声であると見做すのが適当である。
例えば、t番目のフレーム(以下、フレームtという。t=1、2、・・・)における高域・低域強度AをA(t)とするとき、フレームtでの変化量を下記の式5及び式6のとおり定義する。
C(t)=0, t=1 ・・・・式6
(d):C(t)≦0.05のフレームが0.5秒以上継続する場合は、非音声とする。
(e):C(t)≦0.1のフレームが1.2秒以上継続する場合は、非音声とする。
更に、スペクトルの偏倚、音データのパワー及び音データのピッチ夫々について変化量を別々に導出し、夫々の変化量について、図11のステップS47を実行して、非音声区間を別々に検出することも可能である。
(f):C(t)>0.5の場合、t−w+1(例えばw=3)からt+w-1のフレームを非音声区間の検出対象から除外する。即ちそのときのフレームを含めて前後にwだけ連なるフレームからなる区間を、非音声区間の検出対象から除外する。
(g):(f)により、変化量が大きいと判定されるフレームが連なる数が所定数以下であって、(f)により非音声区間の検出対象から除外されている区間が、非音声区間に挟まれている場合は、(f)の判定を覆して非音声区間として検出する。
変化量が第2の閾値を超えると判定した場合(ステップS53:YES)、制御手段2は、非音声区間検出除外のサブルーチンを呼び出し(ステップS54)、その後リターンする。
これにより、変化量が第2の閾値を超えた区間を、前後に「w-1」だけ拡張した区間が、「非音声候補区間」又は「非音声除外区間」の扱いとなる。
これにより、「開始フレーム番号」及び「終了フレーム番号」で区切られた区間が、新たに検出された非音声区間となる。
これにより、本実施の形態3では、変化量が小さくて非音声の特徴を有するフレームが、音声らしからぬ程度まで連なる区間を非音声区間として検出し、人の発声による基準値の補正を要しない。従って、パワー変動の大きい雑音が発生する環境下においても、発声前後か否かに拘わらず、高精度に非音声区間を検出することが可能である。また、単発的に変化量が大きい区間(例えば、エアコンの風量が変動して、定量的な雑音が変化した瞬間)についても、適切に非音声区間の検出を行うことが可能となる。
実施の形態4は、実施の形態1において、スペクトルの偏倚が所定の閾値以上となるフレームが、所定数以上連なる区間を非音声区間として検出するのに対し、スペクトルの偏倚が所定の閾値以上となるフレームが、所定の割合を超える区間について、当該区間が所定数以上のフレームに亘って連なる場合、当該区間を非音声区間として検出する形態である。
図17及び図18は、本発明の実施の形態4に係る非音声検出装置の一実施例である音声認識装置1について、非音声区間検出のサブルーチンに係る制御手段2の処理手順を示すフローチャートである。
これにより、制御手段2は、非音声区間を検出することなくリターンする。
これにより、制御手段2は、非音声区間を検出することなくリターンする。
これにより、「開始フレーム番号」及び「終了フレーム番号」で区切られた区間が、検出された非音声区間となる。
これにより、スペクトルの偏倚が、短時間に変動する場合であっても、高精度に非音声区間を検出することができる。
実施の形態5は、実施の形態1に対し、信号対雑音比を導出し、導出した信号対雑音比に応じて、スペクトルの偏倚に係る所定の閾値を変更する形態である。
図19は、本発明の実施の形態5に係る非音声検出装置の一実施例である音声認識装置1について、制御手段2の音声認識処理の一例を示すフローチャートである。
音声認識部24は、音声認識の分野で一般的な技術を用いて、入力されたフレームバッファ42の最後まで、音声認識処理を実行する(ステップS140)。
これにより、信号対雑音比が低下した場合に、雑音の影響により、スペクトルの偏倚が変動して、非音声区間を誤検出することを防止できる。
実施の形態6は、実施の形態1に対し、ピッチの各周波数成分の強度の最大値(以下、ピッチ強度という)を導出し、導出したピッチ強度に応じて、スペクトルの偏倚に係る所定の閾値を変更する形態である。
図20及び図21は、本発明の実施の形態6に係る非音声検出装置の一実施例である音声認識装置1について、非音声区間検出のサブルーチンに係る制御手段2の処理手順を示すフローチャートである。
これにより、制御手段2は、非音声区間を検出することなくリターンする。
これにより、制御手段2は、非音声区間を検出することなくリターンする。
これにより、「開始フレーム番号」及び「終了フレーム番号」で区切られた区間が、検出された非音声区間となる。
ピッチ強度Bは、短時間スペクトルS(ω)の自己相関関数γ(τ)を用いて、以下の式9を用いて導出することができる。
但し、τmaxは、想定される最高ピッチ周波数に対応する値。
(h):ピッチ強度B≧所定の強度、且つ、|A|≧0.5が0.5秒以上継続
する場合、当該区間は非音声とする。(上述した(b)又は(c)
の判定とピッチ強度とを組合せて改良したもの)
実施の形態7は、実施の形態1において、スペクトルの偏倚に係る所定の閾値を、事前の学習によって決定する形態である。
図22は、本発明の実施の形態7に係る非音声検出装置の一実施例である音声認識装置1について、制御手段2の音声認識処理の一例を示すフローチャートである。
この場合、所定の閾値を大きめに(又は小さめに)決定して、非音声区間の誤検出を抑止することが好ましい。
これにより、高精度に非音声区間を検出することができる。
Claims (15)
- 音を標本化した音データから所定の時間長の複数のフレームを生成し、人が発声した音声に基づく音声データを含まないフレームを有する非音声区間を検出する非音声区間検出方法において、
各フレームの音データを周波数軸上の成分に変換したスペクトルの偏倚を導出し、
導出した偏倚が、正の値(又は負の値)の場合、所定の閾値以上(又は所定の閾値以下)であるか否かを判定し、
前記閾値以上(又は前記閾値以下)であると判定したフレームが連なる数を計数し、
計数した数が所定数以上であるか否かを判定し、
所定数以上であると判定したときに、前記フレームが連なる区間を非音声区間として検出する
ことを特徴とする非音声区間検出方法。 - 音を標本化した音データから所定の時間長の複数のフレームを生成し、人が発声した音声に基づく音声データを含まないフレームを有する非音声区間を検出する非音声区間検出方法において、
各フレームの音データを周波数軸上の成分に変換したスペクトルの偏倚、並びに各フレームの音データのパワー及びピッチの少なくとも一を指標として導出し、
導出した指標について、前フレームとの変化量を導出し、
導出した変化量が、所定の閾値以下であるか否かを判定し、
前記閾値以下であると判定したフレームが連なる数を計数し、
計数した数が所定数以上であるか否かを判定し、
所定数以上であると判定したときに、前記フレームが連なる区間を非音声区間として検出する
ことを特徴とする非音声区間検出方法。 - 音を標本化した音データから所定の時間長の複数のフレームを生成し、人が発声した音声に基づく音声データを含まないフレームを有する非音声区間を検出する非音声区間検出装置において、
各フレームの音データを周波数軸上の成分に変換したスペクトルの偏倚を導出する導出手段と、
導出したスペクトルの偏倚が、正の値(又は負の値)の場合、所定の閾値以上(又は所定の閾値以下)であるか否かを判定する判定手段と、
前記閾値以上(又は前記閾値以下)であると判定したフレームが連なる数を計数する手段と、
計数した数が所定数以上であるか否かを判定する手段と、
所定数以上であると判定したときに、前記フレームが連なる区間を非音声区間として検出する検出手段と
を備えることを特徴とする非音声区間検出装置。 - 音を標本化した音データから所定の時間長の複数のフレームを生成し、人が発声した音声に基づく音声データを含まないフレームを有する非音声区間を検出する非音声区間検出装置において、
各フレームの音データを周波数軸上の成分に変換したスペクトルの偏倚、並びに各フレームの音データのパワー及びピッチの少なくとも一を指標として導出する導出手段と、
導出した指標について、前フレームとの変化量を導出する第2の導出手段と、
導出した変化量が所定の閾値以下であるか否かを判定する判定手段と、
前記閾値以下であると判定したフレームが連なる数を計数する手段と、
計数した数が所定数以上であるか否かを判定する手段と、
所定数以上であると判定したときに、前記フレームが連なる区間を非音声区間として検出する検出手段と
を備えることを特徴とする非音声区間検出装置。 - 前記第2の導出手段が導出した変化量が、前記閾値より大きい第2の閾値を超えるか否かを判定する第2の判定手段を備え、
前記検出手段は、前記第2の判定手段が第2の閾値を超えると判定した場合、該判定が成立するフレームを含めて第2の所定数だけ連なるフレームからなる区間を、非音声区間の検出対象から除外するように構成してあることを特徴とする請求項4に記載の非音声区間検出装置。 - 前記第2の判定手段の判定が成立するフレームが連なる数を計数する手段と、
計数した数が所定数以下であるか否かを判定する手段と、
所定数以下であると判定した場合、該判定が成立するフレーム及び前記第2の所定数未満のフレームが連なる区間が、非音声区間に挟まれているときに、前記非音声区間に挟まれた区間を非音声区間として検出する第2の検出手段と
を備えることを特徴とする請求項5に記載の非音声区間検出装置。 - 前記第2の導出手段による変化量の導出の対象となったフレームを含めて、所定数だけ連なるフレームについて、変化量の最大値を導出する第3の導出手段を備え、
前記判定手段は、前記第3の導出手段が導出した最大値を、前記第2の導出手段が導出した変化量として扱うように構成してあることを特徴とする請求項4乃至6の何れかに記載の非音声区間検出装置。 - 前記スペクトルの偏倚は、音データのN次(Nは0以上の整数)の自己相関関数に対するM次(MはNと異なる0以上の整数)の自己相関関数の比であることを特徴とする請求項3乃至7の何れかに記載の非音声区間検出装置。
- 前記導出手段が、各フレームについてスペクトルの偏倚を導出した場合、前記各フレームに夫々時系列に前後する複数のフレームについて、スペクトルの偏倚の最大値、最小値、平均値及び中央値の少なくとも一を導出して、導出した値を前記各フレーム夫々についてのスペクトルの偏倚として扱うように構成してあることを特徴とする請求項3乃至8の何れかに記載の非音声区間検出装置。
- 前記判定手段が判定の対象とした全フレームの数に対する、前記判定が成立するフレームの数の割合を算出する手段と、
算出した割合が、所定の割合以上であるか否かを判定する手段と、
該判定が成立するフレームが連なる数を計数する手段と、
計数した数が所定数以上であるか否かを判定する手段と、
所定数以上であると判定したときに、前記フレームが連なる区間を非音声区間として検出する第3の検出手段と
を備えることを特徴とする請求項3乃至9の何れかに記載の非音声区間検出装置。 - 非音声区間として検出されたフレームの音データ、及び前記非音声区間以外のフレームの音データに基づいて、信号対雑音比を導出する手段と、
導出した信号対雑音比に基づいて、前記閾値を変更する手段と
を備えることを特徴とする請求項3乃至10の何れかに記載の非音声区間検出装置。 - 各フレームの音データについて、ピッチの各周波数成分の強度の最大値を導出する手段と、
導出した強度の最大値に基づいて、前記閾値を変更する手段と
を備えることを特徴とする請求項3乃至11の何れかに記載の非音声区間検出装置。 - 人が発声した音データについて、予め準備された複数の候補閾値に対し、前記判定手段の判定が成立するフレームが連なる個数を夫々集計する手段と、
集計した結果に基づいて、複数の候補閾値の中から前記閾値を決定する手段と
を備えることを特徴とする請求項3乃至12の何れかに記載の非音声区間検出装置。 - 各フレームの音データのパワーを導出する第4の導出手段と、
各フレームの1又は複数の前フレームの音データのパワーに基づいて、夫々のフレームの背景雑音パワーを推定する推定手段と、
各フレームについて前記第4の導出手段が導出したパワーが、夫々のフレームについて前記推定手段が推定した背景雑音パワーより、所定の閾値以上大きいか否かを判定する手段と、
前記背景雑音パワーより前記閾値以上大きいと判定したフレームからなる区間を音声区間として検出する第4の検出手段とを備え、
前記推定手段は、前記第4の検出手段が検出した音声区間のフレームについて、前フレームの背景雑音パワーを維持するように構成してあり、
更に、前記第4の検出手段が検出した音声区間のうち、前記検出手段によって非音声区間として検出されたフレームについて、背景雑音パワーを推定するように構成してあることを特徴とする請求項3乃至13の何れかに記載の非音声区間検出装置。 - 各フレームの音データのパワーを導出する第4の導出手段と、
各フレームの1又は複数の前フレームの音データのパワーに基づいて、夫々のフレームの背景雑音パワーを推定する推定手段と、
各フレームについて前記第4の導出手段が導出したパワーが、夫々のフレームについて前記推定手段が推定した背景雑音パワーより、所定の閾値以上大きいか否かを判定する手段と、
前記背景雑音パワーより前記閾値以上大きいと判定したフレームからなる区間を音声区間として検出する第4の検出手段とを備え、
前記推定手段は、前記第4の検出手段が検出した音声区間のフレームについて、前フレームの背景雑音パワーを維持するように構成してあり、
更に、
前記第4の検出手段が検出した音声区間の全部又は一部が、前記検出手段によって非音声区間として検出された回数を計数する手段と、
計数した回数が所定回数以上であるか否かを判定する手段と、
所定回数以上であると判定した場合、該判定が成立した際のフレームの音データのパワーを、背景雑音パワーとして更新する手段とを備えることを特徴とする請求項3乃至13の何れかに記載の非音声区間検出装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2007/074274 WO2009078093A1 (ja) | 2007-12-18 | 2007-12-18 | 非音声区間検出方法及び非音声区間検出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009078093A1 true JPWO2009078093A1 (ja) | 2011-04-28 |
JP5229234B2 JP5229234B2 (ja) | 2013-07-03 |
Family
ID=40795219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009546107A Active JP5229234B2 (ja) | 2007-12-18 | 2007-12-18 | 非音声区間検出方法及び非音声区間検出装置 |
Country Status (3)
Country | Link |
---|---|
US (2) | US8326612B2 (ja) |
JP (1) | JP5229234B2 (ja) |
WO (1) | WO2009078093A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2016098228A1 (ja) * | 2014-12-18 | 2017-04-27 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2816560A1 (en) | 2009-10-19 | 2014-12-24 | Telefonaktiebolaget L M Ericsson (PUBL) | Method and background estimator for voice activity detection |
US8990074B2 (en) * | 2011-05-24 | 2015-03-24 | Qualcomm Incorporated | Noise-robust speech coding mode classification |
JP5810912B2 (ja) | 2011-12-28 | 2015-11-11 | 富士通株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
US20150058002A1 (en) * | 2012-05-03 | 2015-02-26 | Telefonaktiebolaget L M Ericsson (Publ) | Detecting Wind Noise In An Audio Signal |
US9269355B1 (en) * | 2013-03-14 | 2016-02-23 | Amazon Technologies, Inc. | Load balancing for automatic speech recognition |
US9275136B1 (en) | 2013-12-03 | 2016-03-01 | Google Inc. | Method for siren detection based on audio samples |
US9607613B2 (en) * | 2014-04-23 | 2017-03-28 | Google Inc. | Speech endpointing based on word comparisons |
WO2016028254A1 (en) * | 2014-08-18 | 2016-02-25 | Nuance Communications, Inc. | Methods and apparatus for speech segmentation using multiple metadata |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
US10121471B2 (en) * | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
US10854192B1 (en) * | 2016-03-30 | 2020-12-01 | Amazon Technologies, Inc. | Domain specific endpointing |
CN107305774B (zh) | 2016-04-22 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 语音检测方法和装置 |
CN109478405A (zh) * | 2016-07-22 | 2019-03-15 | 索尼公司 | 信息处理设备、信息处理方法以及程序 |
US10431236B2 (en) * | 2016-11-15 | 2019-10-01 | Sphero, Inc. | Dynamic pitch adjustment of inbound audio to improve speech recognition |
CN109961803A (zh) * | 2017-12-18 | 2019-07-02 | 上海智臻智能网络科技股份有限公司 | 语音情绪识别系统 |
CN109935241A (zh) * | 2017-12-18 | 2019-06-25 | 上海智臻智能网络科技股份有限公司 | 语音信息处理方法 |
CN109935240A (zh) * | 2017-12-18 | 2019-06-25 | 上海智臻智能网络科技股份有限公司 | 通过语音识别情绪的方法 |
JP7222265B2 (ja) * | 2018-03-22 | 2023-02-15 | カシオ計算機株式会社 | 音声区間検出装置、音声区間検出方法及びプログラム |
CN109087632B (zh) * | 2018-08-17 | 2023-06-06 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
TR201917042A2 (tr) * | 2019-11-04 | 2021-05-21 | Cankaya Ueniversitesi | Yeni bir metot ile sinyal enerji hesabı ve bu metotla elde edilen konuşma sinyali kodlayıcı. |
CN114746939A (zh) * | 2019-12-13 | 2022-07-12 | 三菱电机株式会社 | 信息处理装置、检测方法和检测程序 |
CN112420079B (zh) * | 2020-11-18 | 2022-12-06 | 青岛海尔科技有限公司 | 语音端点检测方法和装置、存储介质及电子设备 |
FI20225762A1 (fi) * | 2022-08-31 | 2024-03-01 | Elisa Oyj | Tietokoneimplementoitu menetelmä aktiivisuuden havaitsemiseksi äänivirrassa |
Family Cites Families (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4074069A (en) * | 1975-06-18 | 1978-02-14 | Nippon Telegraph & Telephone Public Corporation | Method and apparatus for judging voiced and unvoiced conditions of speech signal |
US4008375A (en) * | 1975-08-21 | 1977-02-15 | Communications Satellite Corporation (Comsat) | Digital voice switch for single or multiple channel applications |
FR2466825A1 (fr) * | 1979-09-28 | 1981-04-10 | Thomson Csf | Dispositif de detection de signaux vocaux et systeme d'alternat comportant un tel dispositif |
US4375083A (en) * | 1980-01-31 | 1983-02-22 | Bell Telephone Laboratories, Incorporated | Signal sequence editing method and apparatus with automatic time fitting of edited segments |
US4624008A (en) * | 1983-03-09 | 1986-11-18 | International Telephone And Telegraph Corporation | Apparatus for automatic speech recognition |
US4696039A (en) * | 1983-10-13 | 1987-09-22 | Texas Instruments Incorporated | Speech analysis/synthesis system with silence suppression |
US4879748A (en) * | 1985-08-28 | 1989-11-07 | American Telephone And Telegraph Company | Parallel processing pitch detector |
US4797929A (en) * | 1986-01-03 | 1989-01-10 | Motorola, Inc. | Word recognition in a speech recognition system using data reduced word templates |
US4802221A (en) * | 1986-07-21 | 1989-01-31 | Ncr Corporation | Digital system and method for compressing speech signals for storage and transmission |
US4771465A (en) * | 1986-09-11 | 1988-09-13 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech sinusoidal vocoder with transmission of only subset of harmonics |
JPH07113834B2 (ja) | 1987-05-23 | 1995-12-06 | 日本電気株式会社 | 音声区間検出方式 |
US5365592A (en) * | 1990-07-19 | 1994-11-15 | Hughes Aircraft Company | Digital voice detection apparatus and method using transform domain processing |
US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
US5216747A (en) * | 1990-09-20 | 1993-06-01 | Digital Voice Systems, Inc. | Voiced/unvoiced estimation of an acoustic signal |
DK0588932T3 (da) * | 1991-06-11 | 2002-03-11 | Qualcomm Inc | Vokoder med variabel hastighed |
JP3211398B2 (ja) * | 1992-09-04 | 2001-09-25 | 松下電器産業株式会社 | テレビ会議用発言音声検出装置 |
US5617508A (en) * | 1992-10-05 | 1997-04-01 | Panasonic Technologies Inc. | Speech detection device for the detection of speech end points based on variance of frequency band limited energy |
JP3343965B2 (ja) * | 1992-10-31 | 2002-11-11 | ソニー株式会社 | 音声符号化方法及び復号化方法 |
US5450484A (en) * | 1993-03-01 | 1995-09-12 | Dialogic Corporation | Voice detection |
JPH075892A (ja) * | 1993-04-29 | 1995-01-10 | Matsushita Electric Ind Co Ltd | 音声認識方法 |
US5664059A (en) * | 1993-04-29 | 1997-09-02 | Panasonic Technologies, Inc. | Self-learning speaker adaptation based on spectral variation source decomposition |
IT1270438B (it) * | 1993-06-10 | 1997-05-05 | Sip | Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce |
JPH0792989A (ja) | 1993-09-22 | 1995-04-07 | Oki Electric Ind Co Ltd | 音声認識方法 |
US5467393A (en) * | 1993-11-24 | 1995-11-14 | Ericsson Inc. | Method and apparatus for volume and intelligibility control for a loudspeaker |
JP3354252B2 (ja) | 1993-12-27 | 2002-12-09 | 株式会社リコー | 音声認識装置 |
JPH07212296A (ja) * | 1994-01-17 | 1995-08-11 | Japan Radio Co Ltd | Vox制御通信装置 |
US5590242A (en) * | 1994-03-24 | 1996-12-31 | Lucent Technologies Inc. | Signal bias removal for robust telephone speech recognition |
US5682463A (en) * | 1995-02-06 | 1997-10-28 | Lucent Technologies Inc. | Perceptual audio compression based on loudness uncertainty |
SE513892C2 (sv) * | 1995-06-21 | 2000-11-20 | Ericsson Telefon Ab L M | Spektral effekttäthetsestimering av talsignal Metod och anordning med LPC-analys |
JPH09152894A (ja) * | 1995-11-30 | 1997-06-10 | Denso Corp | 有音無音判別器 |
US5765124A (en) * | 1995-12-29 | 1998-06-09 | Lucent Technologies Inc. | Time-varying feature space preprocessing procedure for telephone based speech recognition |
US6006175A (en) * | 1996-02-06 | 1999-12-21 | The Regents Of The University Of California | Methods and apparatus for non-acoustic speech characterization and recognition |
WO1998001847A1 (en) * | 1996-07-03 | 1998-01-15 | British Telecommunications Public Limited Company | Voice activity detector |
JPH1097269A (ja) | 1996-09-20 | 1998-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声検出装置及び方法 |
US6202046B1 (en) * | 1997-01-23 | 2001-03-13 | Kabushiki Kaisha Toshiba | Background noise/speech classification method |
JPH10257583A (ja) * | 1997-03-06 | 1998-09-25 | Asahi Chem Ind Co Ltd | 音声処理装置およびその音声処理方法 |
US6073092A (en) * | 1997-06-26 | 2000-06-06 | Telogy Networks, Inc. | Method for speech coding based on a code excited linear prediction (CELP) model |
WO1999010719A1 (en) * | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
TW418383B (en) * | 1998-09-23 | 2001-01-11 | Ind Tech Res Inst | Telephone voice recognition system and method and the channel effect compensation device using the same |
US6556967B1 (en) * | 1999-03-12 | 2003-04-29 | The United States Of America As Represented By The National Security Agency | Voice activity detector |
US6246978B1 (en) * | 1999-05-18 | 2001-06-12 | Mci Worldcom, Inc. | Method and system for measurement of speech distortion from samples of telephonic voice signals |
US6959274B1 (en) * | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
US6442248B1 (en) * | 2000-01-12 | 2002-08-27 | Multi-Tech Systems, Inc. | System for providing analog and digital telephone functions using a single telephone line |
JP2001236085A (ja) | 2000-02-25 | 2001-08-31 | Matsushita Electric Ind Co Ltd | 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置 |
US6757301B1 (en) * | 2000-03-14 | 2004-06-29 | Cisco Technology, Inc. | Detection of ending of fax/modem communication between a telephone line and a network for switching router to compressed mode |
WO2001078062A1 (en) * | 2000-04-06 | 2001-10-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Pitch estimation in speech signal |
JP4221537B2 (ja) * | 2000-06-02 | 2009-02-12 | 日本電気株式会社 | 音声検出方法及び装置とその記録媒体 |
US6587816B1 (en) * | 2000-07-14 | 2003-07-01 | International Business Machines Corporation | Fast frequency-domain pitch estimation |
US6694293B2 (en) * | 2001-02-13 | 2004-02-17 | Mindspeed Technologies, Inc. | Speech coding system with a music classifier |
US7062433B2 (en) * | 2001-03-14 | 2006-06-13 | Texas Instruments Incorporated | Method of speech recognition with compensation for both channel distortion and background noise |
US20030028386A1 (en) * | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
US6721699B2 (en) * | 2001-11-12 | 2004-04-13 | Intel Corporation | Method and system of Chinese speech pitch extraction |
US7165028B2 (en) * | 2001-12-12 | 2007-01-16 | Texas Instruments Incorporated | Method of speech recognition resistant to convolutive distortion and additive distortion |
CA2365203A1 (en) * | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
US7613606B2 (en) * | 2003-10-02 | 2009-11-03 | Nokia Corporation | Speech codecs |
JP4352875B2 (ja) * | 2003-11-25 | 2009-10-28 | パナソニック電工株式会社 | 音声区間検出器 |
US7643993B2 (en) * | 2006-01-05 | 2010-01-05 | Broadcom Corporation | Method and system for decoding WCDMA AMR speech data using redundancy |
JP4798601B2 (ja) * | 2004-12-28 | 2011-10-19 | 株式会社国際電気通信基礎技術研究所 | 音声区間検出装置および音声区間検出プログラム |
US20060262851A1 (en) * | 2005-05-19 | 2006-11-23 | Celtro Ltd. | Method and system for efficient transmission of communication traffic |
US8019615B2 (en) * | 2005-07-26 | 2011-09-13 | Broadcom Corporation | Method and system for decoding GSM speech data using redundancy |
JP4241736B2 (ja) * | 2006-01-19 | 2009-03-18 | 株式会社東芝 | 音声処理装置及びその方法 |
JP4595124B2 (ja) * | 2006-03-03 | 2010-12-08 | 独立行政法人産業技術総合研究所 | 音声信号と非音声信号の判別装置及び方法 |
US8135047B2 (en) * | 2006-07-31 | 2012-03-13 | Qualcomm Incorporated | Systems and methods for including an identifier with a packet associated with a speech signal |
US8015000B2 (en) * | 2006-08-03 | 2011-09-06 | Broadcom Corporation | Classification-based frame loss concealment for audio signals |
US8275611B2 (en) * | 2007-01-18 | 2012-09-25 | Stmicroelectronics Asia Pacific Pte., Ltd. | Adaptive noise suppression for digital speech signals |
GB0703275D0 (en) * | 2007-02-20 | 2007-03-28 | Skype Ltd | Method of estimating noise levels in a communication system |
-
2007
- 2007-12-18 JP JP2009546107A patent/JP5229234B2/ja active Active
- 2007-12-18 WO PCT/JP2007/074274 patent/WO2009078093A1/ja active Application Filing
-
2010
- 2010-04-05 US US12/754,156 patent/US8326612B2/en active Active
-
2012
- 2012-11-13 US US13/675,317 patent/US8798991B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2016098228A1 (ja) * | 2014-12-18 | 2017-04-27 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2009078093A1 (ja) | 2009-06-25 |
US8798991B2 (en) | 2014-08-05 |
US20130073281A1 (en) | 2013-03-21 |
US8326612B2 (en) | 2012-12-04 |
JP5229234B2 (ja) | 2013-07-03 |
US20100191524A1 (en) | 2010-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5229234B2 (ja) | 非音声区間検出方法及び非音声区間検出装置 | |
CN108198547B (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
JP4757158B2 (ja) | 音信号処理方法、音信号処理装置及びコンピュータプログラム | |
JP4868999B2 (ja) | 音声認識方法、音声認識装置及びコンピュータプログラム | |
US7647224B2 (en) | Apparatus, method, and computer program product for speech recognition | |
JP5411936B2 (ja) | 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体 | |
US8315870B2 (en) | Rescoring speech recognition hypothesis using prosodic likelihood | |
US8140330B2 (en) | System and method for detecting repeated patterns in dialog systems | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
US20140039896A1 (en) | Methods and System for Grammar Fitness Evaluation as Speech Recognition Error Predictor | |
US20100268533A1 (en) | Apparatus and method for detecting speech | |
US20070185713A1 (en) | Recognition confidence measuring by lexical distance between candidates | |
US20120239401A1 (en) | Voice recognition system and voice recognition method | |
EP1675102A2 (en) | Method for extracting feature vectors for speech recognition | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
US8942977B2 (en) | System and method for speech recognition using pitch-synchronous spectral parameters | |
Narendra et al. | Robust voicing detection and F 0 estimation for HMM-based speech synthesis | |
JP5081730B2 (ja) | 音声区間検出装置および音声区間検出方法 | |
KR101236539B1 (ko) | 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법 | |
Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
Wang et al. | Improved Mandarin speech recognition by lattice rescoring with enhanced tone models | |
Laleye et al. | An algorithm based on fuzzy logic for text-independent fongbe speech segmentation | |
Mannem et al. | Speech rate estimation using representations learned from speech with convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120703 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120903 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121023 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130122 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130304 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160329 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5229234 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |