JPWO2009078093A1 - 非音声区間検出方法及び非音声区間検出装置 - Google Patents

非音声区間検出方法及び非音声区間検出装置 Download PDF

Info

Publication number
JPWO2009078093A1
JPWO2009078093A1 JP2009546107A JP2009546107A JPWO2009078093A1 JP WO2009078093 A1 JPWO2009078093 A1 JP WO2009078093A1 JP 2009546107 A JP2009546107 A JP 2009546107A JP 2009546107 A JP2009546107 A JP 2009546107A JP WO2009078093 A1 JPWO2009078093 A1 JP WO2009078093A1
Authority
JP
Japan
Prior art keywords
frame
speech
section
sound data
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009546107A
Other languages
English (en)
Other versions
JP5229234B2 (ja
Inventor
鷲尾 信之
信之 鷲尾
昭二 早川
昭二 早川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2009078093A1 publication Critical patent/JPWO2009078093A1/ja
Application granted granted Critical
Publication of JP5229234B2 publication Critical patent/JP5229234B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Navigation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

制御手段2のフレーム生成部20は、音データから所定の時間長のフレームを生成し、スペクトルの偏倚/パワー/ピッチ導出部21aは、音データを周波数軸上の成分に変換したスペクトルの偏倚、音/データのパワー及び音データのピッチの少なくとも一を導出し、更に、導出された値について、変化量導出部21bが、前フレームとの変化量を導出する。スペクトルの偏倚としては、音データの0次の自己相関関数に対する1次の自己相関関数の比を用いる。非音声区間検出部22bは、前記変化量が所定の閾値以下であると判定した場合、該判定の成立するフレームが連なる数が所定数以上であるときに、前記フレームが連なる区間を非音声区間として検出する。また、単発的に変化量が大きい区間は非音声区間から除外し、更に、当該区間が非音声区間にはさまれている場合は、判定を覆して非音声区間として検出する。

Description

本発明は、音を標本化した音データから所定の時間長のフレームを生成し、非音声区間を検出する非音声区間検出方法、該非音声区間検出方法を適用した非音声区間検出装置に関し、特に非音声の特徴を有する物理量と所定の閾値との比較に基づいて、非音声区間を検出する非音声区間検出方法及び非音声区間検出装置に関する。
カーナビゲーション装置に代表される車載装置に多く用いられる音声認識装置では、一般的には音声区間を検出し、検出した音声区間について算出した音声の特徴量に基づいて、単語列を認識する。特に音声区間の検出を誤った場合、当該区間における音声の認識率が低下するため、音声区間を的確に検出すること、又は非音声区間を検出して音声認識の対象から除外することが重要である。
音声区間の基本的な検出方式として、入力音声のパワーが、その時の推定背景雑音レベルに閾値を加えた基準値を超えた区間を、音声区間として扱うものがある。この場合は、ブザー音のようにパワー変動が大きい雑音、ワイパーの摺動音、及び音声プロンプトのエコー等、何れも非定常性が強い雑音を含む区間を、音声区間として誤検出する可能性が高い。そこで、直近の発声中の最大音声パワー及びその時の音声認識結果より補正係数を導出し、推定背景雑音レベルと併せて、以後の基準値を補正する技術が、特許文献1に開示されている。
特開平7−92989号公報
しかしながら、特許文献1に開示されている技術では、発声前後の非音声区間は除外できても、発声がない場合に基準値を補正することができず、雑音のみの区間を音声区間として誤検出することがある問題は解消されない。
本発明は斯かる事情に鑑みてなされたものであり、音データの周波数スペクトルに偏りを有するフレームが、音声らしからぬ程度に連なる区間、又は周波数スペクトルの偏り、パワー若しくはピッチについての変化に乏しい音データを有するフレームが音声らしからぬ程度に連なる区間を、非音声区間として検出することにより、パワーの大きい雑音若しくは非定常性の強い雑音、又はパワー変動の大きい雑音が発生する環境下においても、発声前後か否かに拘わらず、高精度に非音声区間を検出することが可能な非音声区間検出方法、及び該非音声区間検出方法を適用した非音声区間検出装置を提供することを目的とする。
第1の非音声区間検出方法は、音を標本化した音データから所定の時間長の複数のフレームを生成し、人が発声した音声に基づく音声データを含まないフレームを有する非音声区間を検出する非音声区間検出方法において、各フレームの音データを周波数軸上の成分に変換したスペクトルの偏倚を導出し、導出した偏倚が、正の値(又は負の値)の場合、所定の閾値以上(又は所定の閾値以下)であるか否かを判定し、前記閾値以上(又は前記閾値以下)であると判定したフレームが連なる数を計数し、計数した数が所定数以上であるか否かを判定し、所定数以上であると判定したときに、前記フレームが連なる区間を非音声区間として検出することを要件とする。
第2の非音声区間検出方法は、音を標本化した音データから所定の時間長の複数のフレームを生成し、人が発声した音声に基づく音声データを含まないフレームを有する非音声区間を検出する非音声区間検出方法において、各フレームの音データを周波数軸上の成分に変換したスペクトルの偏倚、並びに各フレームの音データのパワー及びピッチの少なくとも一を指標として導出し、導出した指標について、前フレームとの変化量を導出し、導出した変化量が、所定の閾値以下であるか否かを判定し、前記閾値以下であると判定したフレームが連なる数を計数し、計数した数が所定数以上であるか否かを判定し、所定数以上であると判定したときに、前記フレームが連なる区間を非音声区間として検出することを要件とする。
第3の非音声区間検出装置は、音を標本化した音データから所定の時間長の複数のフレームを生成し、人が発声した音声に基づく音声データを含まないフレームを有する非音声区間を検出する非音声区間検出装置において、各フレームの音データを周波数軸上の成分に変換したスペクトルの偏倚を導出する導出手段と、導出したスペクトルの偏倚が、正の値(又は負の値)の場合、所定の閾値以上(又は所定の閾値以下)であるか否かを判定する判定手段と、前記閾値以上(又は前記閾値以下)であると判定したフレームが連なる数を計数する手段と、計数した数が所定数以上であるか否かを判定する手段と、所定数以上であると判定したときに、前記フレームが連なる区間を非音声区間として検出する検出手段とを備えることを要件とする。
第4の非音声区間検出装置は、音を標本化した音データから所定の時間長の複数のフレームを生成し、人が発声した音声に基づく音声データを含まないフレームを有する非音声区間を検出する非音声区間検出装置において、各フレームの音データを周波数軸上の成分に変換したスペクトルの偏倚、並びに各フレームの音データのパワー及びピッチの少なくとも一を指標として導出する導出手段と、導出した指標について、前フレームとの変化量を導出する第2の導出手段と、導出した変化量が所定の閾値以下であるか否かを判定する判定手段と、前記閾値以下であると判定したフレームが連なる数を計数する手段と、計数した数が所定数以上であるか否かを判定する手段と、所定数以上であると判定したときに、前記フレームが連なる区間を非音声区間として検出する検出手段とを備えることを要件とする。
第5の非音声区間検出装置は、第4の装置において、前記第2の導出手段が導出した変化量が、前記閾値より大きい第2の閾値を超えるか否かを判定する第2の判定手段を備え、前記検出手段は、前記第2の判定手段が第2の閾値を超えると判定した場合、該判定が成立するフレームを含めて第2の所定数だけ連なるフレームからなる区間を、非音声区間の検出対象から除外するように構成してあることを要件とする。
第6の非音声区間検出装置は、第5の装置において、前記第2の判定手段の判定が成立するフレームが連なる数を計数する手段と、計数した数が所定数以下であるか否かを判定する手段と、所定数以下であると判定した場合、該判定が成立するフレーム及び前記第2の所定数未満のフレームが連なる区間が、非音声区間に挟まれているときに、前記非音声区間に挟まれた区間を非音声区間として検出する第2の検出手段とを備えることを要件とする。
第7の非音声区間検出装置は、第4の装置乃至第6の装置の何れかにおいて、前記第2の導出手段による変化量の導出の対象となったフレームを含めて、所定数だけ連なるフレームについて、変化量の最大値を導出する第3の導出手段を備え、前記判定手段は、前記第3の導出手段が導出した最大値を、前記第2の導出手段が導出した変化量として扱うように構成してあることを要件とする
第8の非音声区間検出装置は、第3の装置乃至第7の装置の何れかにおいて、前記スペクトルの偏倚は、音データのN次(Nは0以上の整数)の自己相関関数に対するM次(MはNと異なる0以上の整数)の自己相関関数の比であることを要件とする。
第9の非音声区間検出装置は、第3の装置乃至第8の装置の何れかにおいて、前記導出手段が、各フレームについてスペクトルの偏倚を導出した場合、前記各フレームに夫々時系列に前後する複数のフレームについて、スペクトルの偏倚の最大値、最小値、平均値及び中央値の少なくとも一を導出して、導出した値を前記各フレーム夫々についてのスペクトルの偏倚として扱うように構成してあることを要件とする。
第10の非音声区間検出装置は、第3の装置乃至第9の装置の何れかにおいて、前記判定手段が判定の対象とした全フレームの数に対する、前記判定が成立するフレームの数の割合を算出する手段と、算出した割合が、所定の割合以上であるか否かを判定する手段と、該判定が成立するフレームが連なる数を計数する手段と、計数した数が所定数以上であるか否かを判定する手段と、所定数以上であると判定したときに、前記フレームが連なる区間を非音声区間として検出する第3の検出手段とを備えることを要件とする。
第11の非音声区間検出装置は、第3の装置乃至第10の装置の何れかにおいて、非音声区間として検出されたフレームの音データ、及び前記非音声区間以外のフレームの音データに基づいて、信号対雑音比を導出する手段と、導出した信号対雑音比に基づいて、前記閾値を変更する手段とを備えることを要件とする。
第12の非音声区間検出装置は、第3の装置乃至第11の装置の何れかにおいて、各フレームの音データについて、ピッチの各周波数成分の強度の最大値を導出する手段と、導出した強度の最大値に基づいて、前記閾値を変更する手段とを備えることを要件とする。
第13の非音声区間検出装置は、第3の装置乃至第12の装置の何れかにおいて、人が発声した音データについて、予め準備された複数の候補閾値に対し、前記判定手段の判定が成立するフレームが連なる個数を夫々集計する手段と、集計した結果に基づいて、複数の候補閾値の中から前記閾値を決定する手段とを備えることを要件とする。
第14の非音声区間検出装置は、第3の装置乃至第13の装置の何れかにおいて、各フレームの音データのパワーを導出する第4の導出手段と、各フレームの1又は複数の前フレームの音データのパワーに基づいて、夫々のフレームの背景雑音パワーを推定する推定手段と、各フレームについて前記第4の導出手段が導出したパワーが、夫々のフレームについて前記推定手段が推定した背景雑音パワーより、所定の閾値以上大きいか否かを判定する手段と、前記背景雑音パワーより前記閾値以上大きいと判定したフレームからなる区間を音声区間として検出する第4の検出手段とを備え、前記推定手段は、前記第4の検出手段が検出した音声区間のフレームについて、前フレームの背景雑音パワーを維持するように構成してあり、更に、前記第4の検出手段が検出した音声区間のうち、前記検出手段によって非音声区間として検出されたフレームについて、背景雑音パワーを推定するように構成してあることを要件とする。
第15の非音声区間検出装置は、第3の装置乃至第13の装置の何れかにおいて、各フレームの音データのパワーを導出する第4の導出手段と、各フレームの1又は複数の前フレームの音データのパワーに基づいて、夫々のフレームの背景雑音パワーを推定する推定手段と、各フレームについて前記第4の導出手段が導出したパワーが、夫々のフレームについて前記推定手段が推定した背景雑音パワーより、所定の閾値以上大きいか否かを判定する手段と、前記背景雑音パワーより前記閾値以上大きいと判定したフレームからなる区間を音声区間として検出する第4の検出手段とを備え、前記推定手段は、前記第4の検出手段が検出した音声区間のフレームについて、前フレームの背景雑音パワーを維持するように構成してあり、更に、前記第4の検出手段が検出した音声区間の全部又は一部が、前記検出手段によって非音声区間として検出された回数を計数する手段と、計数した回数が所定回数以上であるか否かを判定する手段と、所定回数以上であると判定した場合、該判定が成立した際のフレームの音データのパワーを、背景雑音パワーとして更新する手段とを備えることを要件とする。
第1の方法及び第3の装置では、音データを周波数軸上の成分に変換したスペクトルの偏倚が正の値(又は負の値)の場合、所定の閾値以上(又は所定の閾値以下)となるフレームが所定数以上連なる区間を、非音声区間として検出することにより、音データの周波数スペクトルに偏りを有するフレームが音声らしからぬ程度に連なる区間を非音声区間として検出するので、パワーの大きい雑音又は非定常性の強い雑音が発生する環境下においても、高精度に非音声区間を検出することが可能である。
第2の方法及び第4の装置では、音データの周波数スペクトルの偏倚、パワー及びピッチの少なくとも一について前フレームとの変化量が所定の閾値以下となるフレームが、所定数以上連なる区間を非音声区間として検出することにより、周波数スペクトルの偏り、パワー若しくはピッチについての変化に乏しい音データを有するフレームが音声らしからぬ程度に連なる区間を非音声区間として検出するので、パワー変動の大きい雑音が発生する環境下においても、高精度に非音声区間を検出することが可能である。
第5の装置では、導出した指標の前フレームとの変化量が前記閾値より大きい第2の閾値を超えるフレームを含めて第2の所定数だけ連なるフレームからなる区間を、非音声区間として検出することがないので、音声データを含む可能性のあるフレームからなる区間を、非音声区間として誤検出することを防止することが可能である。
第6の装置では、導出した指標の前フレームとの変化量が第2の閾値を超えて所定数以下だけ連なるフレーム及び第2の所定数以下のフレームからなる区間が、非音声区間に挟まれている場合に、その挟まれた区間を非音声区間として検出することにより、音データの単発的な変化が発生した場合であっても、高精度に非音声区間を検出することが可能である。
第7の装置では、連なる所定数のフレームについて、夫々導出した指標の前フレームとの変化量の最大値を、一のフレームについての前フレームとの変化量として扱うことにより、各フレームの指標について当初導出した前フレームとの変化量が近傍のフレームについての当該変化量の最大値と置き換わるので、音声データを含む可能性のあるフレームからなる区間を、非音声区間として誤検出することを抑止することが可能である。
第8の装置では、音データの自己相関関数のN次の値に対するM次の値の比が、音データのスペクトルの包絡を近似する指標であるので、これをスペクトルの偏倚とすることにより、音データの周波数スペクトルの偏りが的確に把握されて、高精度に非音声区間を検出することが可能である。
第9の装置では、前後する所定数のフレームについて、夫々導出したスペクトルの偏倚の最大値、最小値、平均値及び中央値の少なくとも一を、一のフレームについてのスペクトルの偏倚として扱うことにより、スペクトルの偏倚が短時間に変化した場合であっても、高精度に非音声区間を検出することが可能である。
第10の装置では、音データの周波数スペクトルの偏倚が正の値(又は負の値)の場合、所定の閾値以上(又は所定の閾値以下)となるフレーム、又は導出した指標の前フレームとの変化量が前記閾値と異なる他の閾値以下となるフレームが、所定の割合以上で所定数以上連なる区間を、非音声区間として検出することにより、音データの周波数スペクトルの偏倚、又は導出した指標の前フレームとの変化量が、短時間に変動する場合にも、高精度に非音声区間を検出することが可能である。
第11の装置では、検出した非音声区間の音データ及び非音声区間以外の音データより導出した信号対雑音比に基づいて、前記閾値を変更することにより、例えば信号対雑音比が低下して、スペクトルの偏倚又は導出した指標の前フレームとの変化量が変動した場合に、前記閾値を適切に調整して、非音声区間の誤検出を抑止することができ、高精度に非音声区間を検出することが可能である。
第12の装置では、ピッチの各周波数成分の強度についての最大値に基づいて、前記閾値を調整することにより、ピッチが明瞭に現れる度合いに応じて前記閾値を適切に調整することができるので、高精度に非音声区間を検出することが可能である。
第13の装置では、予め準備した複数の候補閾値を所定の音声データに適用し、夫々の閾値以上(又は閾値以下)となるフレームが連なる個数を集計した結果に基づいて、前記閾値を決定することにより、事前の学習に基づいて前記閾値を決定することができるので、高精度に非音声区間を検出することが可能である。
第14の装置では、非音声区間のフレームの音データのパワーに基づいて推定した背景雑音パワーより、所定の閾値以上大きいパワーを有するフレームからなる区間を音声区間として検出し、検出した音声区間のうち、非音声区間として検出されたフレームについて、背景雑音パワーを推定するので、音データのパワーに基づいて音声検出した結果を適正に修正することが可能である。
第15の装置では、非音声区間のフレームの音データのパワーに基づいて推定した背景雑音パワーより、所定の閾値以上大きいパワーを有するフレームからなる区間を音声区間として検出し、検出した音声区間の全部又は一部が、所定回数だけ非音声区間として検出された際のフレームの音データのパワーを、背景雑音パワーとして更新するので、背景雑音パワーの推定値が上がり過ぎて、音声区間が検出できなくなることを抑止することができる。
開示の非音声区間検出方法、及び非音声区間検出装置は、各フレームの音データを周波数軸上の成分に変換したスペクトルの偏倚が正の値(又は負の値)の場合、所定の閾値以上(又は所定の閾値以下)であるかを判定し、前記閾値以上(又は前記閾値以下)と判定したフレームが連なる数が所定数以上かを判定し、そして所定数以上と判定したフレームが連なる区間を非音声区間として検出する。
この構成により、開示の方法及び装置では、スペクトルの偏りに係る閾値とフレームが連なる数に係る閾値とを組み合わせて、非音声の特徴を有するフレームが音声らしからぬ程度に連なる区間を非音声区間として検出し、人の発声による基準値の補正を要しない。従って、パワーの大きい雑音、又は非定常性の強い雑音が発生する環境下においても、発声前後か否かに拘わらず、高精度に非音声区間を検出することが可能である等、優れた効果を奏する。
また、開示の非音声区間検出方法、及び非音声区間検出装置は、各フレームの音データを周波数軸上の成分に変換したスペクトルの偏倚、並びに各フレームの音データのパワー及びピッチの少なくとも一について、前フレームとの変化量が所定の閾値以下であるかを判定し、前記閾値以下と判定したフレームが連なる数が所定数以上かを判定し、そして所定数以上と判定したフレームが連なる区間を非音声区間として検出する。
この構成により、開示の方法及び装置では、周波数スペクトルの偏り、パワー若しくはピッチについての変化に係る閾値とフレームが連なる数に係る閾値とを組み合わせて、非音声の特徴を有するフレームが音声らしからぬ程度に連なる区間を非音声区間として検出し、人の発声による基準値の補正を要しない。従って、パワー変動の大きい雑音が発生する環境下においても、発声前後か否かに拘わらず、高精度に非音声区間を検出することが可能である等、優れた効果を奏する。
本発明の実施の形態1に係る非音声区間検出装置の一実施例である音声認識装置の構成例を示すブロック図である。 制御手段の音声認識に係る処理構成例を示すブロック図である。 制御手段の音声認識処理の一例を示すフローチャートである。 非音声区間検出のサブルーチンに係る制御手段の処理手順を示すフローチャートである。 鼻をすする音について、パワー及び高域・低域強度等のデータを示す図である。 踏切の警報音について、パワー及び高域・低域強度等のデータを示す図である。 発声音(「えーテスト中です」)について、パワー及び高域・低域強度等のデータを示す図である。 発声音(「経営(けーえー)」)について、パワー及び高域・低域強度等のデータを示す図である。 本発明の実施の形態2に係る非音声区間検出装置の一実施例である音声認識装置について、制御手段の音声認識に係る処理構成例を示すブロック図である。 本発明の実施の形態3に係る非音声区間検出装置の一実施例である音声認識装置について、制御手段の音声認識に係る処理構成例を示すブロック図である。 制御手段の音声認識処理の一例を示すフローチャートである。 非音声区間検出のサブルーチンに係る制御手段の処理手順を示すフローチャートである。 非音声区間検出除外のサブルーチンに係る制御手段の処理手順を示すフローチャートである。 非音声区間検出除外のサブルーチンに係る制御手段の処理手順を示すフローチャートである。 非音声区間検出確定のサブルーチンに係る制御手段の処理手順を示すフローチャートである。 非音声区間検出確定のサブルーチンに係る制御手段の処理手順を示すフローチャートである。 本発明の実施の形態4に係る非音声検出装置の一実施例である音声認識装置について、非音声区間検出のサブルーチンに係る制御手段の処理手順を示すフローチャートである。 本発明の実施の形態4に係る非音声検出装置の一実施例である音声認識装置について、非音声区間検出のサブルーチンに係る制御手段の処理手順を示すフローチャートである。 本発明の実施の形態5に係る非音声検出装置の一実施例である音声認識装置について、制御手段の音声認識処理の一例を示すフローチャートである。 本発明の実施の形態6に係る非音声検出装置の一実施例である音声認識装置について、非音声区間検出のサブルーチンに係る制御手段の処理手順を示すフローチャートである。 本発明の実施の形態6に係る非音声検出装置の一実施例である音声認識装置について、非音声区間検出のサブルーチンに係る制御手段の処理手順を示すフローチャートである。 本発明の実施の形態7に係る非音声検出装置の一実施例である音声認識装置について、制御手段の音声認識処理の一例を示すフローチャートである。
符号の説明
1 音声認識装置
2 制御手段(第3の導出手段、第3の検出手段)
3 記録手段
4 記憶手段
5 音取得手段
20 フレーム生成部
21 スペクトルの偏倚導出部(導出手段)
21a スペクトルの偏倚/パワー/ピッチ導出部(導出手段)
21b 変化量導出部(第2の導出手段)
22 非音声区間検出部(判定手段、検出手段)
22a 非音声区間検出部(判定手段、検出手段)
22b 非音声区間検出部(判定手段、検出手段、第2の判定手段、第2の検出手段)
以下、本発明をその実施の形態を示す図面に基づいて詳述する。
実施の形態1
図1は、本発明の実施の形態1に係る非音声区間検出装置の一実施例である音声認識装置の構成例を示すブロック図である。図中1は、例えば車両に搭載されるナビゲーション装置のようなコンピュータを用いた音声認識装置であり、音声認識装置1は、装置全体を制御するCPU(Central Processing Unit)及びDSP(Digital Signal Processor)等の制御手段2と、プログラム及びデータ等の各種情報を記録するハードディスク及びROM等の記録手段3と、一時的に発生するデータを記録するRAMからなる記憶手段4と、外部から音を取得するマイクロホンからなる音取得手段5と、音を出力するスピーカからなる音出力手段6と、液晶モニタからなる表示手段7と、目的地までの経路指示のようなナビゲーションに係る処理を実行するナビゲーション手段8とを備えている。
記録手段3には、本発明に係る非音声区間検出方法を実行するコンピュータプログラム30が記録されており、記録されているコンピュータプログラム30に含まれる各種手順を記録手段3に記憶して制御手段2の制御にて実行することにより、コンピュータは、本発明の非音声区間検出装置としても動作する。
また、記録手段3の記録領域の一部は、音声認識用の音響モデルを記録している音響モデルデータベース(音響モデルDB)31、音響モデルに対応する音素又は音節定義で表記された認識語彙及び文法を記録している認識辞書32等の各種データベースとして用いられている。
記憶手段4の記憶領域の一部は、音取得手段5が取得したアナログ信号である音を所定の周期で標本化(サンプリング)してデジタル化した音データを記録する音データバッファ41、及び音データを所定の時間長に区分したフレームから抽出した特徴量をはじめとするデータを記憶するフレームバッファ42、及び一時的に発生した情報を記憶するワークメモリ43として用いられる。
ナビゲーション手段8は、GPS(Global Positioning System)のような位置検出機構と、地図情報を記録するDVD(Digital Versatile Disk)及びハードディスク等の記録媒体とを有し、現在地から目的地までの経路検索及び経路指示等のナビゲーション処理を実行し、地図及び経路を表示手段7に表示し、音声による案内を音出力手段6から出力する。
尚、図1に示した構成例はあくまでも一例であり、様々な形態に展開することが可能である。例えば、音声認識に係る機能を一又は複数のVLSIチップとして構成し、ナビゲーション装置に組み込むことも可能であり、音声認識用の専用装置をナビゲーション装置に外付けすることも可能である。また、制御手段2を音声認識及びナビゲーションの双方の処理で共用するようにしても、夫々専用の回路を設けるようにしてもよく、更には音声認識に関する特定の演算、例えば後述するFFT(Fast Fourier Transform)、DCT(Discrete Cosine Transform)及びIDCT(Inverse Discrete Cosine Transform)等の処理を実行するコプロセッサを制御手段2に組み込んでもよい。また、音データバッファ41を音取得手段5の付属回路とし、フレームバッファ42及びワークメモリ43を制御手段2が備えるメモリ上に構成するようにしてもよい。更に、本発明の音声認識装置1は、ナビゲーション装置のような車載装置に限らず、音声認識を行う様々な用途の装置に用いることが可能である。
次に本発明の実施の形態1に係る非音声区間検出装置の一実施例である音声認識装置1の処理について説明する。図2は、制御手段2の音声認識に係る処理構成例を示すブロック図である。また、図3は、制御手段2の音声認識処理の一例を示すフローチャートである。
制御手段2は、音データからフレームを生成するフレーム生成部20、生成されたフレームについてスペクトルの偏倚を導出するスペクトルの偏倚導出部21、導出されたスペクトルの偏倚に基づく判定基準を用いて非音声区間を検出する非音声区間検出部22、検出された非音声区間をもとに音声区間の開始/終了を確定させる音声区間判定部23、及び判定された音声区間について音声を認識する音声認識部24を備えている。
制御手段2は、音取得手段5によって外部の音をアナログ信号として取得し(ステップS11)、取得した音を所定の周期で標本化してデジタル化した音データを、音データバッファ41に記録する(ステップS12)。ステップS11にて取得する外部の音とは、人が発声する音声、定常雑音及び非定常雑音等の様々な音が重畳された音である。人が発声する音声は、音声認識装置1による認識の対象となる音声である。定常雑音は、ロードノイズ及びエンジン音等の雑音であり、既に提案及び確立されている様々な除去方法が適用される。非定常雑音としては、車両に配設されたハザード、ウインカーのようなリレー音、及びワイパーの摺動音のような機構による雑音を例示することができる。
そして制御手段2のフレーム生成部20は、音データバッファ41に記憶した音データより、10msecのフレーム長で5msecずつオーバーラップさせたフレームを生成し(ステップS13)、生成したフレームをフレームバッファ42に記憶させる(ステップS14)。尚、フレーム生成部20は、音声認識の分野における一般的なフレーム処理として、フレーム分割前のデータに対して高域強調フィルタリング処理を施した後に、フレームに分割する。このようにして生成された各フレームに対し、以下の処理が行われる。
スペクトルの偏倚導出部21は、フレーム生成部20からフレームバッファ42を介して与えられたフレームについて、後述するスペクトルの偏倚を導出し(ステップS15)、導出したスペクトルの偏倚をフレームバッファ42に書き込む。この場合、書き込まれたフレーム及びスペクトルの偏倚を夫々参照するのに用いられるフレームバッファ42へのポインタ(アドレス)が、ワークメモリ43上に設けてあり、前記ポインタを介して、フレームバッファ42に記憶したスペクトルの偏倚にアクセスする。
尚、スペクトルの偏倚を導出する前に、ノイズキャンセル処理及びスペクトルサブトラクション処理を行って、雑音の影響を除外してもよい。
非音声区間検出部22は、フレームバッファ42を介してスペクトルの偏倚導出部21より与えられたフレームについて、スペクトルの偏倚に基づく判定基準により非音声区間を検出するサブルーチンを呼び出す(ステップS16)。非音声区間検出部22が判定基準を用いて検出した非音声区間のフレームは、フレームバッファ42を介して順次音声区間判定部23に与えられる。判定結果が未確定のフレーム、即ち後続するフレームによっては非音声区間になり得るフレームは、判定基準が用い尽くされるまで、非音声区間検出部22によって保留される。
音声区間判定部23は、非音声区間検出部22が非音声区間として検出できなかった区間を音声区間とみなし、音声区間長が既定の最短音声区間長L1を超えた場合に音声区間開始と判定して、音声区間開始フレームを確定させる。そして音声区間が途切れたフレームを、音声区間終了点候補とする。その後、既定の最大ポーズ長L2を超えるまでに次の音声区間が始まった場合は、前述の音声区間終了点候補を棄却して、再び音声区間が途切れるのを待つ。
既定の最大ポーズ長L2を超えても次の音声区間が始まらなかった場合、音声区間判定部23は、音声区間終了候補を音声区間終了フレームとして確定させる。音声区間の開始/終了フレームを確定したことにより、音声区間判定部23は、一つの音声区間の判定を終える(ステップS17)。このようにして検出された音声区間は、フレームバッファ42を介して音声認識部24に与えられる。
尚、音声区間の検出誤りを回避するため、音声区間判定部23が判定した音声区間よりも、例えば前後に100msecだけ広い区間を、確定させた音声区間としてもよい。
音声認識部24は、音声認識の分野で一般的な技術を用いて、音声区間のフレームのデジタル信号から特徴ベクトルを抽出し、抽出した特徴ベクトルに基づいて、音響モデルデータベース31に記録している音響モデル並びに認識辞書32に記憶している音響語彙及び文法を参照し、入力されたフレームバッファ42の最後(音声区間の最後)まで、音声認識処理を実行する(ステップS18)。
図3は、一音声区間が確定した場合に、音声認識処理を実行して終了する構成であるが、音声区間を検出した場合に、計算可能なフレームから音声認識処理を実行してレスポンスタイムを短縮する構成、又は一定時間について、音声区間が検出できない場合に、処理を終了する構成としてもよい。
ここで、図3を用いて説明したステップS15におけるスペクトルの偏倚について、更に詳述する。
本実施の例では、音データの各フレームにおけるスペクトルの傾き、即ち、スペクトルの高域/低域での偏りを示す尺度として高域・低域強度を定義する。高域・低域強度は、そのままスペクトルの偏倚として用いることができるが、本実施の例では、スペクトルの偏倚を、高域・低域強度の絶対値で表すものとする。高域・低域強度は、スペクトル包絡を近似する指標であって、音データのパワーを示す0次の自己相関関数に対する、遅れ時間が1サンプルの1次の自己相関関数の比で表すことができる。
自己相関関数は、音データを分析単位である1フレーム毎(例えば、フレーム幅:N=256サンプル)に抽出し、ハミング窓をかけた音データの波形{x(n)}から、短時間自己相関関数{c(τ)}として、下記の式1より算出することができる。
Figure 2009078093
また、0次及び1次の自己相関関数の比を用いるので、夫々について共通の係数である1/(N-1)を除いて、下記の式2としてもよい。
Figure 2009078093
また、自己相関関数c(τ)は、Wiener-Khintchineの定理により、短時間スペクトルS(ω)を逆フーリエ変換(IDFT:Inverse Discrete Fourier Transform)して算出することもできる。短時間スペクトルS(ω)は、音データを分析単位である1フレーム毎(例えば、フレーム幅:N=256サンプル)に抽出し、各フレームに対してハミング窓をかけ、窓かけ後のフレームのデータに対してDFT(Discrete Fourier Transform)を行うことで算出できる。
尚、算出に伴う処理量を削減するため、IDFT/DFTに替えてIDCT/DCTを用いることができる。
上述のようにして求めた自己相関関数c(τ)について、0次及び1次の比を用いて、高域・低域強度Aを下記の式3及び式4のとおり定義する。
A=c(1)/c(0) (c(0)≠0) ・・・・・式3
A=0 (c(0)=0) ・・・・・式4
この場合、Aは、-1≦A≦1の範囲の値をとり、1(又は-1)に近い値であるほどスペクトルの低域(又は高域)の強度が大きいことを示す。
尚、高域・低域強度としては、上述したAに限定されるものではなく、0次及び1次以外の異なる次数についての自己相関関数の比、所定周波数帯域のパワー、所定の異なる周波数帯域についてのパワーの比、MFCC、対数スペクトラムを逆フーリエ変換したケプストラム、又は推定したフォルマントのうち所定の異なるフォルマントについての周波数の比若しくはパワーの比の少なくとも一であってもよい。複数の高域・低域強度を導出した場合は、夫々導出した値に基づいて、非音声区間の判定を並列的に実行することができる。
図5乃至8は、夫々鼻をすする音、踏切の警報音及び2種類の発声音(「えーテスト中です」、「経営(けーえー)」)について、パワー及び高域・低域強度等のデータを示す図である。図5乃至8の各図において、横軸は時間であり、縦軸は、上から音データの波形、音データのパワー(鎖線、左軸)、高域・低域強度A(実線、右軸)及びスペクトログラム(左軸)である。
図5では、スペクトログラムにおいて、黒の濃い領域が高域である上方に偏っているため、当該区間でAの値は−1に近づいている。
図6では、警報のトーン信号により、スペクトログラムの下半分に黒の濃い線が出現して、低域に偏っているため。Aの値は1に近づいている。
図7では、発声されている音素によって、高域/低域が強い、又はどちらでもない、という区間が出現しており、Aの値は概ね-0.7<A<0.7の範囲で大きく変動している。即ち、発声中の区間では、Aの値は長時間特定の値に留まることがなく、ある程度の範囲で変動するといえる。発声中であってもAの値が安定するのは、図7の発声末尾の「す」のように、同じ音素が継続している場合である。この場合、「す」が無声化して、高域が強い摩擦音/s/が継続しているため、Aの値は−1に近い−0.7近辺で約0.3秒間に渡り安定している。また、同じように1音素が継続する区間であっても、発声される音素によってAの値は変動する。例えば、図7では、「テスト中」末尾の「う」近辺で、母音/u/が継続しているが、Aの値はプラス方向に振れ、0.6前後の値をとっている。
一方、日本語の語彙においては、特定の母音/子音が無意味に連なることはないため、一般的な音声認識処理では、一つの音素が長時間発声されることは考慮する必要がない。このため、一般の単語又は文の発声において各音素が継続され得る時間長と、各音素の発声においてAの値が取り得る範囲とを想定することにより、音素が想定外に継続した場合、又はAの値が想定外となった場合は、当該単語又は文は音声でないと見做すことができる。例えば、図8では、「経営」を「けーえー」と発声する場合があり、最初の/k/以外は、/e/が約4モーラ長だけ継続する。この場合は、日本語において同一の音素が最も長時間継続する場合と想定され、その継続時間は、ゆっくりと発声された場合であっても高々1.2秒程度である。
上述した内容及び図5乃至8に示された事項より、スペクトルの偏倚|A|について、例えば音声区間では、|A|≧0.7とはならないこと、また、音素は高々1.2秒しか継続せず、当該区間で|A|≧0.5とならないことがいえるため、非音声区間について、例えば下記のような判定を行うことが可能である。
(a):|A|≧0.7が0.1秒以上継続する場合、当該区間は非音声とする。
(b):|A|≧0.5が1.2秒以上継続する場合、当該区間は非音声とする。
また、上記の判定を更に細分化して、以下のような判定を行うことも可能である。
(c):|A|≧0.6が0.5秒以上継続する場合、当該区間は非音声とする。
尚、フレームが継続する時間に係る閾値は、フレーム長が一定であるため、フレームが継続する数に係る閾値に置き換えることができる。また、音取得手段5のマイクロホンの特性を含む音入力系の伝達特性によっては、高域・低域のバランスが変動してスペクトルの偏倚|A|も変化することが想定されるため、入力系の伝達特性に応じて上述した判定の閾値を調整することが望ましい。
上述した内容を踏まえて、非音声区間検出のサブルーチンについて説明する。図4は、非音声区間検出のサブルーチンに係る制御手段2の処理手順を示すフローチャートである。非音声区間検出のサブルーチンが呼び出された場合、制御手段2は、そのときのポインタが示すフレームのスペクトルの偏倚が、所定の閾値(例えば上述した0.7)以上であるか否かを判定する(ステップS21)。所定の閾値未満であると判定した場合(ステップS21:NO)、制御手段2は、ワークメモリ43に記憶されたフレームバッファ42へのポインタを1フレーム後方に更新して(ステップS22)、リターンする。
これにより、制御手段2は、非音声区間を検出することなくリターンする。
所定の閾値以上であると判定した場合(ステップS21:YES)、制御手段2は、そのときのポインタが示すフレームのフレーム番号を「開始フレーム番号」としてワークメモリ43上に記憶する(ステップS23)。そして、制御手段2は、ワークメモリ43上に設けた「フレームカウント」の記憶値を「1」に初期化する(ステップS24)。ここで、「フレームカウント」は、スペクトルの偏倚と所定の閾値との比較判定を行ったフレーム数を計数するものである。
その後、制御手段2は、「フレームカウント」の記憶内容が所定数(例えば上述した0.1秒間に含まれるフレームの数である10)以上であるか否かを判定し(ステップS25)、所定数未満であると判定した場合(ステップS25:NO)、制御手段2は、「フレームカウント」の記憶内容に「1」を加算すると共に(ステップS26)、フレームバッファへのポインタを1フレーム後方に更新する(ステップS27)。そして、制御手段2は、そのときのポインタが示すフレームのスペクトルの偏倚が、所定の閾値以上であるか否かを判定する(ステップS28)。
スペクトルの偏倚が所定の閾値以上であると判定した場合(ステップS28:YES)、制御手段2は、処理をステップS25に戻す。
スペクトルの偏倚が所定の閾値未満であると判定した場合(ステップS28:NO)、制御手段2は、「開始フレーム番号」の内容を消去して(ステップS29)、リターンする。
これにより、制御手段2は、非音声区間を検出することなくリターンする。
ステップS25で「フレームカウント」の記憶内容が所定数以上であると判定した場合(ステップS25:YES)、制御手段2は、非音声区間の終了フレームを検出する処理に移り、フレームバッファへのポインタを1フレーム後方に更新する(ステップS30)。そして、制御手段2は、そのときのポインタが示すフレームのスペクトルの偏倚が、所定の閾値以上であるか否かを判定する(ステップS31)。
スペクトルの偏倚が所定の閾値以上であると判定した場合(ステップS31:YES)、制御手段2は、処理をステップS30に戻す。スペクトルの偏倚が所定の閾値未満であると判定した場合(ステップS31:NO)、制御手段2は、そのときのポインタが示すフレームの1つ前のフレーム番号を「終了フレーム番号」としてワークメモリ43上に記憶し(ステップS32)、リターンする。
これにより、「開始フレーム番号」及び「終了フレーム番号」で区切られた区間が、検出された非音声区間となる。
このように、本発明の実施の形態1では、各フレームの音データより導出したスペクトルの偏倚|A|が、例えば0.7以上となるフレームが、継続時間にして0.1秒に相当する数以上連なる場合、スペクトルの偏倚が最初に0.7以上となったフレームから、最後に0.7以上となったフレームまでを非音声区間として検出する。
これにより、本実施の形態1では、スペクトルの偏倚が大きくて非音声の特徴を有するフレームが、音声らしからぬ程度まで連なる区間を非音声区間として検出し、人の発声による基準値の補正を要しない。従って、パワーの大きい雑音、又は非定常性の強い雑音が発生する環境下においても、発声前後か否かに拘わらず、高精度に非音声区間を検出することが可能である。
実施の形態2
実施の形態2は、推定背景雑音パワーを基本とした音声区間検出装置と、実施の形態1に係る非音声区間検出装置とを併用した形態である。
図9は、本発明の実施の形態2に係る非音声区間検出装置の一実施例である音声認識装置1について、制御手段2の音声認識に係る処理構成例を示すブロック図である。
制御手段2は、フレーム生成部20、スペクトルの偏倚導出部21、導出されたスペクトルの偏倚に基づく判定基準を用いて非音声区間を検出する非音声区間検出部22a、検出された非音声区間をもとに音声区間の開始/終了を確定させる音声区間判定部23a、確定された音声区間について音声認識の照合に用いる特徴量を算出する特徴量算出部28、及び算出された特徴量を用いて音声認識のための照合処理を行う照合部29を備えている。
制御手段2は、更に、フレーム生成部20で生成されたフレームについて、音データのパワーを導出するパワー導出部26、導出したパワーに基づいて背景雑音パワーを推定する背景雑音パワー推定部27、及び音声区間判定部23aに修正すべきフレーム番号を通知する音声区間修正部25を備える。
非音声区間検出部22aは、検出した非音声区間のフレーム番号を音声区間判定部23a及び音声区間修正部25に与える。
音声区間修正部25は、非音声区間検出部22aが非音声区間として検出したフレームが、音声区間判定部23aでは音声区間と判定されていた場合に、音声区間判定部23aに対して、所定の修正信号及び修正すべきフレーム番号を与える。
パワー導出部26は、フレーム生成部20から与えられた各フレームについて音データのパワーを導出し、導出したパワーを背景雑音パワー推定部27に与える。
尚、パワーを算出する前に、ノイズキャンセル処理及びスペクトルサブトラクション処理を行って、雑音の影響を除外してもよい。
背景雑音パワー推定部27は、音データの先頭フレームを無条件に雑音とみなし、当該フレームの音データのパワーを推定背景雑音パワーの初期値とする。その後、背景雑音パワー推定部27は、音声区間判定部23aから通知された音声区間のフレームを除いて、音データの2フレーム目以降について、直近の2フレームのパワーの単純移動平均をとり、導出した移動平均値によって推定背景雑音パワーをフレーム毎に更新する。尚、推定背景雑音パワーの更新値を、パワーの単純移動平均から導出するのではなく、IIR(Infinite Impulse Response)フィルタによって導出するようにしてもよい。
また、背景雑音パワー推定部27は、音声区間判定部23aより後述する推定背景雑音パワーの修正を通知された場合、非音声区間に修正されたフレームのうち、その時の最新のフレームの音データから導出されたパワーにより、推定背景雑音パワーを上書きして修正する。
尚、背景雑音パワー推定部27は、音声区間判定部23aより推定背景雑音パワーの修正を通知された場合、非音声区間に修正されたフレームの音データについて、推定背景雑音パワーを導出するようにしてもよい。また、所定のN回目(Nは2以上の自然数)の修正を通知された場合に初めて、その時の最新のフレームの音データから導出されたパワーにより、推定背景雑音パワーを上書きするようにしてもよい。これにより、背景雑音レベルが上下に変動した場合に、推定背景雑音レベルが上がり過ぎて音声区間が検出できなくなるのを防止することができる。
音声区間判定部23aは、各フレームの音データのパワーが、「推定背景雑音パワー+所定の閾値α」以上となった場合、当該フレームを音声区間と判定する。また、音声区間判定部23aは、音声区間修正部25より上述した所定の修正信号を与えられた場合、修正すべきフレーム番号に基づいて、音声区間の判定結果を修正する。そして、音声区間判定部23aは、判定した音声区間が最短入力時間長以上、且つ最長入力時間長以下だけ継続した場合、その時の音声区間を確定させ、確定させた音声区間を特徴量算出部28、照合部29及び背景雑音パワー推定部27に通知する。
更に、音声区間判定部23aは、背景雑音パワー推定部27に対し、非音声区間に修正されたフレームの音データにより、推定背景雑音パワーを修正するように通知する。
特徴量算出部28は、音声区間判定部23aが最終的に音声区間と確定させた区間について、音声認識の照合に用いる特徴量を算出する。ここでの特徴量とは、例えば音響モデルデータベース31に記録している音響モデルとの類似度計算が可能な特徴ベクトルであり、フレーム処理されたデジタル信号を変換することにより導出される。本実施の形態における特徴量はMFCC(Mel Frequency Cepstrum Coefficient)であるが、LPC(Linear Predictive Coding)ケプストラム又はLPC係数であってもよい。MFCCは、フレーム処理されたデジタル信号をFFTにて変換し、振幅スペクトルを求め、中心周波数がメル周波数領域で一定間隔であるメルフィルタバンクにて処理し、処理の結果の対数をDCTにて変換し、1次乃至14次等の低次の係数をMFCCと呼ばれる特徴ベクトルとして用いる。尚、次数については、標本化周波数及びアプリケーション等の要因により決定され、数値は限定されない。
照合部29は、音声区間判定部23aが音声と判定し確定させた音声区間について、特徴量算出部28が導出した特徴量である特徴ベクトルに基づいて、音響モデルデータベース31に記録している音響モデル並びに認識辞書32に記録している認識語彙及び文法を参照し、音声認識処理を実行する。また、認識結果に基づいて、音出力手段6及び表示手段7等の他の入出力手段に対して出力を制御する。
その他、実施の形態1に対応する部分には同一符号を付して、それらの説明を省略する。
このように、本発明の実施の形態2では、音データのパワーを基本とした音声区間検出装置の検出結果を、本発明に係る非音声区間検出装置により修正することが可能となり、全体として音声区間検出の精度を向上させることができる。
実施の形態3
実施の形態3は、実施の形態1及び2でスペクトルの偏倚に基づいて非音声区間を検出するのに対し、スペクトルの偏倚、音データのパワー又は音データのピッチについての前フレームとの変化量に基づいて、非音声区間を検出する形態である。また、非音声区間の検出対象から除外する区間を検出し、更に検出対象から除外された区間を復活させる処理をも含む形態である。図10は、本発明の実施の形態3に係る非音声区間検出装置の一実施例である音声認識装置1について、制御手段2の音声認識に係る処理構成例を示すブロック図である。また、図11は、制御手段2の音声認識処理の一例を示すフローチャートである。
制御手段2は、音データからフレームを生成するフレーム生成部20、生成されたフレームについて、音データのスペクトルの偏倚/パワー/ピッチを導出するスペクトルの偏倚/パワー/ピッチ導出部21a、導出されたスペクトルの偏倚/パワー/ピッチについて前フレームとの変化量を導出する変化量導出部21b、導出された変化量に基づく判定基準を用いて非音声区間を検出する非音声区間検出部22b、検出された非音声区間をもとに音声区間の開始/終了を確定させる音声区間判定部23b、及び判定された音声区間について音声を認識する音声認識部24を備えている。
ステップS41乃至S44の処理は、夫々図3のステップS11乃至S14と同様であるので、説明を省略する。ステップS41乃至S44の処理で生成された各フレームに対し、以下の処理が行われる。
スペクトルの偏倚/パワー/ピッチ導出部21aは、フレーム生成部20からフレームバッファ42を介して与えられたフレームについて、音データのスペクトルの偏倚、音データのパワー及び音データのピッチの少なくとも一を導出し(ステップS45)、導出したスペクトルの偏倚、パワー及びピッチの少なくとも一をフレームバッファ42に書き込む。
尚、ここで導出する値は、スカラー量であるスペクトルの偏倚/パワー/ピッチに限定されるものではなく、音響的な特性を表すベクトルであるパワースペクトル、振幅スペクトル、MFCC、LPCケプストラム、LPC係数、PLP係数又はLSPパラメータであってもよい。
変化量導出部21bは、フレームバッファ42に書き込まれたスペクトルの偏倚、音データのパワー及び音データのピッチの少なくとも一について、前フレームとの変化量を導出してフレームバッファ42に書き込む(ステップS46)。この場合、書き込まれたフレーム及び変化量を夫々参照するのに用いられるフレームバッファ42へのポインタ(アドレス)が、ワークメモリ43上に設けられ、初期化される。
非音声区間検出部22bは、フレームバッファ42を介して変化量導出部21bより与えられたフレームについて、変化量に基づく判定基準により非音声区間を検出するサブルーチンを呼び出す(ステップS47)。非音声区間検出部22bが判定基準を用いて検出した非音声区間のフレームは、フレームバッファ42を介して順次音声区間判定部23bに与えられる。その後、音声区間判定部23bは、音声区間の開始/終了フレームを確定して音声区間の判定を行う(ステップS48)。そして、音声認識部24は、入力されたフレームバッファ42の最後(音声区間の最後)まで、音声認識処理を実行する(ステップS49)。
ここで、図11を用いて説明したステップS46における変化量について、更に詳述する。
人が発声した場合の音データは、スペクトルの偏倚、パワー及びピッチの何れについても、時間と共にある程度の変動が生じるのを避けられない。逆に音データの上記指標に変動が観測されない場合は、非音声であると見做すのが適当である。
例えば、t番目のフレーム(以下、フレームtという。t=1、2、・・・)における高域・低域強度AをA(t)とするとき、フレームtでの変化量を下記の式5及び式6のとおり定義する。
C(t)=|A(t)−A(t-1)|,t>1 ・・・・式5
C(t)=0, t=1 ・・・・式6
この場合、非音声区間について、例えば下記のような判定を行うことが可能である。
(d):C(t)≦0.05のフレームが0.5秒以上継続する場合は、非音声とする。
(e):C(t)≦0.1のフレームが1.2秒以上継続する場合は、非音声とする。
尚、C(t)による判定は、上記(d)、(e)に限定されるものではなく、変化量に係る閾値と継続時間に係る閾値との組み合わせにより、異なる条件を設定することが可能である。また、フレームが継続する時間に係る閾値は、フレーム長が一定であるため、フレームの継続する数に係る閾値に置き換えることができる。
更に、スペクトルの偏倚、音データのパワー及び音データのピッチ夫々について変化量を別々に導出し、夫々の変化量について、図11のステップS47を実行して、非音声区間を別々に検出することも可能である。
一方、上述の(d)、(e)の判定基準とは逆に、変化量が大きいフレームは非音声でない可能性があるため、例えば下記(f)の判定を加えることが有効である。
(f):C(t)>0.5の場合、t−w+1(例えばw=3)からt+w-1のフレームを非音声区間の検出対象から除外する。即ちそのときのフレームを含めて前後にwだけ連なるフレームからなる区間を、非音声区間の検出対象から除外する。
また、上記(f)の判定に拘わらず、変化量が大きいフレームが連なる区間が所定数より短い場合は、単発的に変化量が増大した非音声区間である可能性があるため、例えば下記(g)の判定を更に加えることが望ましい。
(g):(f)により、変化量が大きいと判定されるフレームが連なる数が所定数以下であって、(f)により非音声区間の検出対象から除外されている区間が、非音声区間に挟まれている場合は、(f)の判定を覆して非音声区間として検出する。
上述した内容を踏まえて、非音声区間検出のサブルーチンについて説明する。図12は、非音声区間検出のサブルーチンに係る制御手段2の処理手順を示すフローチャートである。非音声区間検出のサブルーチンが呼び出された場合、制御手段2は、そのときのポインタが示すフレームの変化量が、所定の閾値(例えば上述した0.05)以下であるか否かを判定する(ステップS51)。所定の閾値以下であると判定した場合(ステップS51:YES)、制御手段2は、非音声区間検出確定のサブルーチンを呼び出し(ステップS52)、その後リターンする。
変化量が所定の閾値を超えると判定した場合(ステップS51:NO)、制御手段2は、変化量が第2の閾値(例えば上述した0.5)を超えるか否かを判定する(ステップS53)。第2の閾値を超えないと判定した場合(ステップS53:NO)、制御手段2はそのままリターンする。
変化量が第2の閾値を超えると判定した場合(ステップS53:YES)、制御手段2は、非音声区間検出除外のサブルーチンを呼び出し(ステップS54)、その後リターンする。
図13及び図14は、非音声区間検出除外のサブルーチンに係る制御手段2の処理手順を示すフローチャートであり、図15及び図16は、非音声区間検出確定のサブルーチンに係る制御手段2の処理手順を示すフローチャートである。図13及び図14について、非音声区間検出除外のサブルーチンが呼び出された場合、制御手段2は、そのときのポインタが示すフレームのフレーム番号を「開始フレーム番号」としてワークメモリ43上に記憶する(ステップS61)。そして、制御手段2は、ワークメモリ43上に設けた「フレームカウント」の記憶値を「1」に初期化する(ステップS62)。ここで、「フレームカウント」は、変化量と第2の閾値との比較判定を行ったフレーム数を計数するものである。
その後、制御手段2は、「フレームカウント」の記憶内容が所定数(例えば30msecの間に含まれるフレームの数である3)以下であるか否かを判定し(ステップS63)、所定数以下であると判定した場合(ステップS63:YES)、制御手段2は、「フレームカウント」の記憶内容に「1」を加算すると共に(ステップS64)、フレームバッファへのポインタを1フレーム後方に更新する(ステップS65)。そして、制御手段2は、そのときのポインタが示すフレームの変化量が、上述した所定の閾値より大きい第2の閾値を超えるか否かを判定する(ステップS66)。
変化量が第2の閾値を超えると判定した場合(ステップS66:YES)、制御手段2は、処理をステップS63に戻す。変化量が第2の閾値以下であると判定した場合(ステップS66:NO)、即ち単発的に変化量が増大した区間が終了した場合、制御手段2は、「開始フレーム番号」に記憶しているフレームに対して「第2の所定数」フレーム前(ここでは、上述のwフレーム前)が、非音声区間であるか否かを判定する(ステップS67)。「第2の所定数」フレーム前が非音声区間であると判定した場合(ステップS67:YES)、制御手段2は、単発的に変化量が増大した区間が、後に非音声区間と判定される可能性があるものとして、当該区間に「非音声候補区間」のマークを付与する(ステップS68)。
ステップS63で「フレームカウント」の記憶内容が所定数を超えると判定した場合(ステップS63:NO)、即ち、変化量の大きい区間が単発的とは言えない程度に継続した場合、制御手段2は、当該区間の終了フレームを検出する処理に移り、フレームバッファへのポインタを1フレーム後方に更新する(ステップS69)。そして、制御手段2は、そのときのポインタが示すフレームの変化量が、第2の閾値を超えるか否かを判定する(ステップS70)。変化量が第2の閾値を超えると判定した場合(ステップS70:YES)、制御手段2は、処理をステップS69に戻す。
変化量が第2の閾値以下であると判定した場合(ステップS70:NO)、即ち変化量が第2の閾値より増大した区間が終了した場合、又はステップS67で「第2の所定数」フレーム前が非音声区間でないと判定した場合(ステップS67:NO)、制御手段2は、変化量が増大した区間を非音声区間の検出対象から除外するために、当該区間に「非音声除外区間」のマークを付与する(ステップS71)。
ステップS71の処理を終えた場合、又はステップS68の処理を終えた場合、制御手段2は、「開始フレーム番号」の内容から「第2の所定数(ここでは上述のw)-1」を減じる処理を行う(ステップS72)。更に、制御手段2は、そのときのポインタが示すフレームの1つ前のフレーム番号に「第2の所定数(ここでは上述のw)-1」を加えた数を「終了フレーム番号」としてワークメモリ43上に記憶し(ステップS73)、リターンする。
これにより、変化量が第2の閾値を超えた区間を、前後に「w-1」だけ拡張した区間が、「非音声候補区間」又は「非音声除外区間」の扱いとなる。
次に、図15及び図16について、非音声区間検出確定のサブルーチンが呼び出された場合、制御手段2は、そのときのポインタが示すフレームのフレーム番号を「開始フレーム番号」としてワークメモリ43上に記憶する(ステップS81)。そして、制御手段2は、ワークメモリ43上に設けた「フレームカウント」の記憶値を「1」に初期化する(ステップS82)。ここで、「フレームカウント」は、変化量と所定の閾値との比較判定を行ったフレーム数を計数するものである。
その後、制御手段2は、「フレームカウント」の記憶内容が、ステップS63での所定数とは異なる所定数(例えば上述の0.5秒の間に含まれるフレームの数)以上であるか否かを判定し(ステップS83)、所定数未満であると判定した場合(ステップS83:NO)、制御手段2は、「フレームカウント」の記憶内容に「1」を加算すると共に(ステップS84)、フレームバッファへのポインタを1フレーム後方に更新する(ステップS85)。そして、制御手段2は、そのときのポインタが示すフレームの変化量が、所定の閾値以下であるか否かを判定する(ステップS86)。
変化量が所定の閾値以下であると判定した場合(ステップS86:YES)、制御手段2は、処理をステップS83に戻す。変化量が所定の閾値を超えると判定した場合(ステップS86:NO)、即ち変化量が所定の閾値以下であるフレームが所定数未満しか継続しなかった場合、制御手段2は、非音声区間を検出しなかったものとし、「開始フレーム番号」に記憶したフレームの直前のフレームが、非音声候補区間に含まれるか否かを判定する(ステップS87)。
直前のフレームが非音声候補区間に含まれていると判定した場合(ステップS87:YES)、制御手段2は、当該非音声候補区間を非音声除外区間に変更する(ステップS88)。直前のフレームが非音声候補区間に含まれていないと判定した場合(ステップS87:NO)、又はステップS88の処理を終えた場合、制御手段2は、「開始フレーム番号」の記憶内容を消去して(ステップS89)、リターンする。
ステップS83で「フレームカウント」の記憶内容が所定数以上であると判定した場合(ステップS83:YES)、制御手段2は、非音声区間の終了フレームを検出する処理に移り、フレームバッファへのポインタを1フレーム後方に更新する(ステップS90)。そして、制御手段2は、そのときのポインタが示すフレームの変化量が、所定の閾値以下であるか否かを判定する(ステップS91)。変化量が所定の閾値以下であると判定した場合(ステップS91:YES)、制御手段2は、処理をステップS90に戻す。
変化量が所定の閾値を超えると判定した場合(ステップS91:NO)、即ち検出した非音声区間が終了した場合、制御手段2は、「開始フレーム番号」に記憶したフレームの直前のフレームが、非音声候補区間に含まれるか否かを判定する(ステップS92)。直前のフレームが非音声候補区間に含まれていると判定した場合(ステップS92:YES)、制御手段2は、当該非音声候補区間のマークを消去して、非音声区間に確定させる(ステップS93)。
直前のフレームが非音声候補区間に含まれていないと判定した場合(ステップS92:NO)、又はステップS93の処理を終えた場合、制御手段2は、そのときのポインタが示すフレームの1つ前のフレーム番号を「終了フレーム番号」としてワークメモリ43上に記憶し(ステップS94)、リターンする。
これにより、「開始フレーム番号」及び「終了フレーム番号」で区切られた区間が、新たに検出された非音声区間となる。
その他、実施の形態1又は2に対応する部分には同一符号を付して、それらの説明を省略する。
このように、本発明の実施の形態3では、各フレームの音データより導出したスペクトルの偏倚、パワー及びピッチの少なくとも一について、前フレームとの変化量C(t)が、例えば0.05以下となるフレームが、継続時間にして0.5秒に相当する数以上連なる場合、変化量が最初に0.05以下となったフレームから、最後に0.05以下となったフレームまでを非音声区間として検出する。また、単発的に変化量の大きい区間は非音声区間の検出対象から除外し、更に当該区間が非音声区間に挟まれている場合は、判定を覆して非音声区間として検出する。
これにより、本実施の形態3では、変化量が小さくて非音声の特徴を有するフレームが、音声らしからぬ程度まで連なる区間を非音声区間として検出し、人の発声による基準値の補正を要しない。従って、パワー変動の大きい雑音が発生する環境下においても、発声前後か否かに拘わらず、高精度に非音声区間を検出することが可能である。また、単発的に変化量が大きい区間(例えば、エアコンの風量が変動して、定量的な雑音が変化した瞬間)についても、適切に非音声区間の検出を行うことが可能となる。
尚、実施の形態3にあっては、変化量導出部21bがフレームtにおいて導出する変化量C(t)は、上述の式5及び式6に限定されるものではなく、フレームtの前後v(例えばv=2)フレームの区間、即ちフレームt−vからフレームt+vの区間において、下記の式7又は式8で定義される最大値であってもよい。
Figure 2009078093
Figure 2009078093
これにより、変化量はC(t)近傍のフレームにおける変化量の最大値と置き換わるため、非音声区間が検出され難くなって、非音声区間を誤検出することを抑止することができる。
また、実施の形態1(又は実施の形態3)にあっては、スペクトルの偏倚導出部21(又はスペクトルの偏倚/パワー/ピッチ導出部21a)は、フレームtの前後z(例えばz=3)フレームの区間、即ちフレームt−zからフレームt+zの区間におけるスペクトルの偏倚の最大値、最小値、平均値及び中央値の少なくとも一を導出して、導出した値を夫々フレームtについてのスペクトルの偏倚としてもよい。これらの統計的な集計値を用いることにより、短時間で急激な信号変化があった場合に、スペクトルの偏倚の誤認識を防止することができる。この場合、新たに導出した夫々のスペクトルの偏倚について、非音声区間を別々に検出することが可能である。
実施の形態4
実施の形態4は、実施の形態1において、スペクトルの偏倚が所定の閾値以上となるフレームが、所定数以上連なる区間を非音声区間として検出するのに対し、スペクトルの偏倚が所定の閾値以上となるフレームが、所定の割合を超える区間について、当該区間が所定数以上のフレームに亘って連なる場合、当該区間を非音声区間として検出する形態である。
図17及び図18は、本発明の実施の形態4に係る非音声検出装置の一実施例である音声認識装置1について、非音声区間検出のサブルーチンに係る制御手段2の処理手順を示すフローチャートである。
非音声区間検出のサブルーチンが呼び出された場合、制御手段2は、そのときのポインタが示すフレームのスペクトルの偏倚が、所定の閾値以上であるか否かを判定する(ステップS111)。所定の閾値未満であると判定した場合(ステップS111:NO)、制御手段2は、ワークメモリ43に記憶されたフレームバッファ42へのポインタを1フレーム後方に更新して(ステップS112)、リターンする。
これにより、制御手段2は、非音声区間を検出することなくリターンする。
所定の閾値以上であると判定した場合(ステップS111:YES)、制御手段2は、そのときのポインタが示すフレームのフレーム番号を「開始フレーム番号」としてワークメモリ43上に記憶する(ステップS113)。そして、制御手段2は、ワークメモリ43上に設けた「フレームカウント1」の記憶値を「1」に初期化し(ステップS114)、更に「フレームカウント2」の記憶値を「1」に初期化する(ステップS115)。ここで、「フレームカウント1」は、スペクトルの偏倚と所定の閾値との比較判定を行ったフレーム数を計数するものである。また、「フレームカウント2」は、スペクトルの偏倚が所定の閾値以上となったフレーム数を計数するものである。
その後、制御手段2は、「フレームカウント1」の記憶内容が所定数以上であるか否かを判定し(ステップS116)、所定数未満であると判定した場合(ステップS116:NO)、制御手段2は、「フレームカウント1」の記憶内容に「1」を加算すると共に(ステップS117)、フレームバッファへのポインタを1フレーム後方に更新する(ステップS118)。そして、制御手段2は、そのときのポインタが示すフレームのスペクトルの偏倚が、所定の閾値以上であるか否かを判定する(ステップS119)。
スペクトルの偏倚が所定の閾値以上であると判定した場合(ステップS119:YES)、制御手段2は、「フレームカウント2」の記憶内容に「1」を加算して(ステップS120)、処理をステップS116に戻す。スペクトルの偏倚が所定の閾値未満であると判定した場合(ステップS119:NO)、制御手段2は、「フレームカウント1」の記憶内容に対する「フレームカウント2」の記憶内容の比、即ちスペクトルの偏倚を判定した全フレームに対する、スペクトルの偏倚が所定の閾値以上となったフレームの割合が、所定の割合(例えば0.8)以上であるか否かを判定する(ステップS121)。
所定の割合以上であると判定した場合(ステップS121:YES)、制御手段2は、処理をステップS116に戻す。所定の割合未満であると判定した場合(ステップS121:NO)、制御手段2は、「開始フレーム番号」の内容を消去して(ステップS122)、リターンする。
これにより、制御手段2は、非音声区間を検出することなくリターンする。
ステップS116で「フレームカウント1」の記憶内容が所定数以上であると判定した場合(ステップS116:YES)、制御手段2は、非音声区間の終了フレームを検出する処理に移り、「フレームカウント」の記憶内容に「1」を加算すると共に(ステップS123)、フレームバッファへのポインタを1フレーム後方に更新する(ステップS124)。そして、制御手段2は、そのときのポインタが示すフレームのスペクトルの偏倚が、所定の閾値以上であるか否かを判定する(ステップS125)。
スペクトルの偏倚が所定の閾値以上であると判定した場合(ステップS125:YES)、制御手段2は、「フレームカウント2」の記憶内容に「1」を加算する(ステップS126)。ステップS126の処理を終えた場合、又はスペクトルの偏倚が所定の閾値未満であると判定した場合(ステップS125:NO)、制御手段2は、「フレームカウント1」の記憶内容に対する「フレームカウント2」の記憶内容の比が、所定の割合以上であるか否かを判定する(ステップS127)。
所定の割合以上であると判定した場合(ステップS127:YES)、制御手段2は、処理をステップS123に戻す。所定の割合未満であると判定した場合(ステップS127:NO)、制御手段2は、そのときのポインタが示すフレームの1つ前のフレーム番号を「終了フレーム番号」としてワークメモリ43上に記憶し(ステップS128)、リターンする。
これにより、「開始フレーム番号」及び「終了フレーム番号」で区切られた区間が、検出された非音声区間となる。
その他、実施の形態1に対応する部分には同一符号を付して、それらの説明を省略する。
このように、本発明の実施の形態4では、各フレームの音データより導出したスペクトルの偏倚が所定の閾値以上となるフレームが、所定の割合を超える区間について、当該区間が所定数以上のフレームに亘って連なる場合、スペクトルの偏倚が最初に所定の閾値以上となったフレームから、スペクトルの偏倚が所定の閾値以上となるフレームの割合が所定の割合未満となる直前のフレームまでを非音声区間として検出する。
これにより、スペクトルの偏倚が、短時間に変動する場合であっても、高精度に非音声区間を検出することができる。
尚、検出する非音声区間の先頭フレームは、最初に所定の閾値以上となったフレームに限定されず、スペクトルの偏倚が所定の閾値以上となるフレームの割合が所定の割合以上である範囲において、前方のフレームまで遡ったフレームを先頭フレームとしてもよい。
実施の形態5
実施の形態5は、実施の形態1に対し、信号対雑音比を導出し、導出した信号対雑音比に応じて、スペクトルの偏倚に係る所定の閾値を変更する形態である。
図19は、本発明の実施の形態5に係る非音声検出装置の一実施例である音声認識装置1について、制御手段2の音声認識処理の一例を示すフローチャートである。
ステップS131乃至S135の処理は、夫々図3のステップS11乃至S15と同様であるので、説明を省略する。ステップS131乃至S135の処理で生成されてフレームバッファ42に書き込まれたスペクトルの偏倚に対し、以下の処理が行われる。
非音声区間検出部22は、フレームバッファ42を介してスペクトルの偏倚導出部21より与えられたフレームについて、非音声区間を検出するサブルーチンを呼び出す(ステップS136)。その後、制御手段2は、非音声区間として検出されたフレームの音データ、及び非音声区間以外のフレームの音データに基づいて信号対雑音比を導出し(ステップS137)、導出した信号対雑音比の高/低に応じて、所定の閾値を下降/上昇させるように変更する(ステップS138)。
音声区間判定部23は、非音声区間検出部22が非音声区間として検出できなかった区間を音声区間とみなし、そして、音声区間開始フレーム及び音声区間終了フレームを確定させて、一つの音声区間の判定を終える(ステップS139)。このようにして検出された音声区間は、フレームバッファを介して音声認識部24に与えられる。
音声認識部24は、音声認識の分野で一般的な技術を用いて、入力されたフレームバッファ42の最後まで、音声認識処理を実行する(ステップS140)。
その他、実施の形態1に対応する部分には同一符号を付して、それらの説明を省略する。
このように、本発明の実施の形態5では、非音声区間として検出されたフレームの音データ、及び非音声区間以外のフレームの音データに基づいて信号対雑音比を導出し、導出した信号対雑音比の高/低に応じて、スペクトルの偏倚に係る所定の閾値を下降/上昇させるように変更する。
これにより、信号対雑音比が低下した場合に、雑音の影響により、スペクトルの偏倚が変動して、非音声区間を誤検出することを防止できる。
実施の形態6
実施の形態6は、実施の形態1に対し、ピッチの各周波数成分の強度の最大値(以下、ピッチ強度という)を導出し、導出したピッチ強度に応じて、スペクトルの偏倚に係る所定の閾値を変更する形態である。
図20及び図21は、本発明の実施の形態6に係る非音声検出装置の一実施例である音声認識装置1について、非音声区間検出のサブルーチンに係る制御手段2の処理手順を示すフローチャートである。
非音声区間検出のサブルーチンが呼び出された場合、制御手段2は、そのときのポインタが示すフレームのピッチ強度を導出し(ステップS151)、導出したピッチ強度の大/小に応じて、所定の閾値を下降/上昇させるように変更する(ステップS152)。その後、制御手段2は、当該フレームのスペクトルの偏倚が、所定の閾値以上であるか否かを判定する(ステップS153)。所定の閾値未満であると判定した場合(ステップS153:NO)、制御手段2は、ワークメモリ43に記憶されたフレームバッファ42へのポインタを1フレーム後方に更新して(ステップS154)、リターンする。
これにより、制御手段2は、非音声区間を検出することなくリターンする。
所定の閾値以上であると判定した場合(ステップS153:YES)、制御手段2は、そのときのポインタが示すフレームのフレーム番号を「開始フレーム番号」としてワークメモリ43上に記憶する(ステップS155)。そして、制御手段2は、ワークメモリ43上に設けた「フレームカウント」の記憶値を「1」に初期化する(ステップS156)。ここで、「フレームカウント」は、スペクトルの偏倚と所定の閾値との比較判定を行ったフレーム数を計数するものである。
その後、制御手段2は、「フレームカウント」の記憶内容が所定数以上であるか否かを判定し(ステップS157)、所定数未満であると判定した場合(ステップS157:NO)、制御手段2は、「フレームカウント」の記憶内容に「1」を加算すると共に(ステップS158)、フレームバッファ42へのポインタを1フレーム後方に更新する(ステップS159)。その後、制御手段2は、そのときのポインタが示すフレームのピッチ強度を導出し(ステップS160)、導出したピッチ強度に基づいて所定の閾値を変更する(ステップS161)。
次いで、制御手段2は、スペクトルの偏倚が所定の閾値以上であるか否かを判定する(ステップS162)。所定の閾値以上であると判定した場合(ステップS162:YES)、制御手段2は、処理をステップS157に戻す。所定の閾値未満であると判定した場合(ステップS162:NO)、制御手段2は、「開始フレーム番号」の内容を消去して(ステップS163)、リターンする。
これにより、制御手段2は、非音声区間を検出することなくリターンする。
ステップS157で「フレームカウント」の記憶内容が所定数以上と判定した場合(ステップS157:YES)、制御手段2は、非音声区間の終了フレームを検出する処理に移り、フレームバッファへのポインタを1フレーム後方に更新する(ステップS164)。その後、制御手段2は、そのときのポインタが示すフレームのピッチ強度を導出し(ステップS165)、導出したピッチ強度に基づいて所定の閾値を変更する(ステップS166)。
次いで、制御手段2は、当該フレームのスペクトルの偏倚が所定の閾値以上であるか否かを判定する(ステップS167)。所定の閾値以上であると判定した場合(ステップS167:YES)、制御手段2は、処理をステップS164に戻す。所定の閾値未満であると判定した場合(ステップS167:NO)、制御手段2は、そのときのポインタが示すフレームの1つ前のフレーム番号を「終了フレーム番号」としてワークメモリ43上に記憶し(ステップS168)、リターンする。
これにより、「開始フレーム番号」及び「終了フレーム番号」で区切られた区間が、検出された非音声区間となる。
ここで、図20図21を用いて説明したステップS151、S160及びS165におけるピッチ強度について詳述する。
ピッチ強度Bは、短時間スペクトルS(ω)の自己相関関数γ(τ)を用いて、以下の式9を用いて導出することができる。
B=argmaxγ(τ),1≦τ≦τmax、 ・・・・・・式9
但し、τmaxは、想定される最高ピッチ周波数に対応する値。
例えば、8000Hzサンプリングで、1フレーム長が256サンプルの場合、短時間スペクトルは、0〜4000Hzを129次元ベクトルで表現できる。この場合、最高ピッチ周波数を500Hzとしたとき、短時間スペクトル上では、500/4000×128=16より、τmax=16となる。
その他、実施の形態1に対応する部分には同一符号を付して、それらの説明を省略する。
このように、本発明の実施の形態6では、各フレームの音データについて、ピッチ強度を導出し、導出したピッチ強度の大/小に応じて、スペクトルの偏倚に係る所定の閾値を下降/上昇させる。例えば、ピッチ強度が大きい場合、即ち、ピッチが明確に現れている場合は、音データが音声の母音又は半母音であることが想定される。この場合、スペクトルの偏倚が取り得る値は制限される。従って所定の閾値を下げて非音声区間を検出する判定条件を緩めても、誤検出を抑止して高精度に非音声区間を検出することができる。
尚、導出したピッチ強度に応じて所定の閾値を変更するのではなく、例えば下記(h)の判定を加えてもよい。
(h):ピッチ強度B≧所定の強度、且つ、|A|≧0.5が0.5秒以上継続
する場合、当該区間は非音声とする。(上述した(b)又は(c)
の判定とピッチ強度とを組合せて改良したもの)
実施の形態7
実施の形態7は、実施の形態1において、スペクトルの偏倚に係る所定の閾値を、事前の学習によって決定する形態である。
図22は、本発明の実施の形態7に係る非音声検出装置の一実施例である音声認識装置1について、制御手段2の音声認識処理の一例を示すフローチャートである。
ステップS171乃至S174の処理は、夫々図3のステップS11乃至S14と同様であるので、説明を省略する。ステップS171乃至S174の処理で生成された各フレームに対し、以下の処理が行われる。
制御手段2は、フレームバッファ42を介して与えられたフレームについて、音データにおける発声区間をマーキングする(ステップS175)。この場合、学習用の音声データには、音素ラベリングがされているため、容易に発声区間をマーキングすることが可能である。更に、制御手段2は、スペクトルの偏倚|A|が取り得る値の範囲〔−1,−1〕内にN個の閾値を設定する(ステップS176)。そして、制御手段2は、N個の閾値のうち1つの閾値について、当該閾値以上となるフレームが継続する最大数を集計する(ステップS177)。
次いで、制御手段2は、N個の閾値全てについての集計を終了したか否かを判定する(ステップS178)。未集計の閾値があると判定した場合(ステップS178:NO)、制御手段2は、処理をステップS177に戻す。N個の閾値全てについての集計を終了したと判定した場合(ステップS178:YES)、制御手段2は、集計した結果に基づいて、スペクトルの偏倚に係る所定の閾値を決定する(ステップS179)。
この場合、所定の閾値を大きめに(又は小さめに)決定して、非音声区間の誤検出を抑止することが好ましい。
このように、本発明の実施の形態7では、既存の音声データのマーキングされた発声区間について、予め複数の閾値候補を準備し、所定の閾値以上となるフレームが継続する最大数を集計した結果に基づいて、複数の閾値候補の中から、スペクトルの偏倚に係る所定の閾値の最適値を決定する。
これにより、高精度に非音声区間を検出することができる。
実施の形態1乃至7にあっては、高域・低域強度の絶対値|A|をスペクトルの偏倚とし、スペクトルの偏倚が所定の正の閾値以上であるか否かを判定する場合について説明したが、高域・低域強度Aをスペクトルの偏倚とし、スペクトルの偏倚が正の値(又は負の値)の場合、所定の正の閾値以上(又は所定の負の閾値以下)であるか否かを判定するようにしてもよい。
本願の非音声区間検出装置は、前記第2の導出手段による変化量の導出の対象となったフレームを含めて、所定数だけ連なるフレームについて、変化量の最大値を導出する第3の導出手段を備え、前記判定手段は、前記第3の導出手段が導出した最大値を、前記第2の導出手段が導出した変化量として扱うように構成してあることを要件とする
の非音声区間検出装置は、第3の装置乃至第の装置の何れかにおいて、前記スペクトルの偏倚は、音データのN次(Nは0以上の整数)の自己相関関数に対するM次(MはNと異なる0以上の整数)の自己相関関数の比であることを要件とする。
本願の非音声区間検出装置は、前記導出手段が、各フレームについてスペクトルの偏倚を導出した場合、前記各フレームに夫々時系列に前後する複数のフレームについて、スペクトルの偏倚の最大値、最小値、平均値及び中央値の少なくとも一を導出して、導出した値を前記各フレーム夫々についてのスペクトルの偏倚として扱うように構成してあることを要件とする。
本願の非音声区間検出装置は、前記判定手段が判定の対象とした全フレームの数に対する、前記判定が成立するフレームの数の割合を算出する手段と、算出した割合が、所定の割合以上であるか否かを判定する手段と、該判定が成立するフレームが連なる数を計数する手段と、計数した数が所定数以上であるか否かを判定する手段と、所定数以上であると判定したときに、前記フレームが連なる区間を非音声区間として検出する第3の検出手段とを備えることを要件とする。
本願の非音声区間検出装置は、非音声区間として検出されたフレームの音データ、及び前記非音声区間以外のフレームの音データに基づいて、信号対雑音比を導出する手段と、導出した信号対雑音比に基づいて、前記閾値を変更する手段とを備えることを要件とする。
本願の非音声区間検出装置は、各フレームの音データについて、ピッチの各周波数成分の強度の最大値を導出する手段と、導出した強度の最大値に基づいて、前記閾値を変更する手段とを備えることを要件とする。
本願の非音声区間検出装置は、人が発声した音データについて、予め準備された複数の候補閾値に対し、前記判定手段の判定が成立するフレームが連なる個数を夫々集計する手段と、集計した結果に基づいて、複数の候補閾値の中から前記閾値を決定する手段とを備えることを要件とする。
本願の非音声区間検出装置は、各フレームの音データのパワーを導出する第4の導出手段と、各フレームの1又は複数の前フレームの音データのパワーに基づいて、夫々のフレームの背景雑音パワーを推定する推定手段と、各フレームについて前記第4の導出手段が導出したパワーが、夫々のフレームについて前記推定手段が推定した背景雑音パワーより、所定の閾値以上大きいか否かを判定する手段と、前記背景雑音パワーより前記閾値以上大きいと判定したフレームからなる区間を音声区間として検出する第4の検出手段とを備え、前記推定手段は、前記第4の検出手段が検出した音声区間のフレームについて、前フレームの背景雑音パワーを維持するように構成してあり、更に、前記第4の検出手段が検出した音声区間のうち、前記検出手段によって非音声区間として検出されたフレームについて、背景雑音パワーを推定するように構成してあることを要件とする。
本願の非音声区間検出装置は、各フレームの音データのパワーを導出する第4の導出手段と、各フレームの1又は複数の前フレームの音データのパワーに基づいて、夫々のフレームの背景雑音パワーを推定する推定手段と、各フレームについて前記第4の導出手段が導出したパワーが、夫々のフレームについて前記推定手段が推定した背景雑音パワーより、所定の閾値以上大きいか否かを判定する手段と、前記背景雑音パワーより前記閾値以上大きいと判定したフレームからなる区間を音声区間として検出する第4の検出手段とを備え、前記推定手段は、前記第4の検出手段が検出した音声区間のフレームについて、前フレームの背景雑音パワーを維持するように構成してあり、更に、前記第4の検出手段が検出した音声区間の全部又は一部が、前記検出手段によって非音声区間として検出された回数を計数する手段と、計数した回数が所定回数以上であるか否かを判定する手段と、所定回数以上であると判定した場合、該判定が成立した際のフレームの音データのパワーを、背景雑音パワーとして更新する手段とを備えることを要件とする。
本願の装置では、連なる所定数のフレームについて、夫々導出した指標の前フレームとの変化量の最大値を、一のフレームについての前フレームとの変化量として扱うことにより、各フレームの指標について当初導出した前フレームとの変化量が近傍のフレームについての当該変化量の最大値と置き換わるので、音声データを含む可能性のあるフレームからなる区間を、非音声区間として誤検出することを抑止することが可能である。
の装置では、音データの自己相関関数のN次の値に対するM次の値の比が、音データのスペクトルの包絡を近似する指標であるので、これをスペクトルの偏倚とすることにより、音データの周波数スペクトルの偏りが的確に把握されて、高精度に非音声区間を検出することが可能である。
本願の装置では、前後する所定数のフレームについて、夫々導出したスペクトルの偏倚の最大値、最小値、平均値及び中央値の少なくとも一を、一のフレームについてのスペクトルの偏倚として扱うことにより、スペクトルの偏倚が短時間に変化した場合であっても、高精度に非音声区間を検出することが可能である。
本願の装置では、音データの周波数スペクトルの偏倚が正の値(又は負の値)の場合、所定の閾値以上(又は所定の閾値以下)となるフレーム、又は導出した指標の前フレームとの変化量が前記閾値と異なる他の閾値以下となるフレームが、所定の割合以上で所定数以上連なる区間を、非音声区間として検出することにより、音データの周波数スペクトルの偏倚、又は導出した指標の前フレームとの変化量が、短時間に変動する場合にも、高精度に非音声区間を検出することが可能である。
本願の装置では、検出した非音声区間の音データ及び非音声区間以外の音データより導出した信号対雑音比に基づいて、前記閾値を変更することにより、例えば信号対雑音比が低下して、スペクトルの偏倚又は導出した指標の前フレームとの変化量が変動した場合に、前記閾値を適切に調整して、非音声区間の誤検出を抑止することができ、高精度に非音声区間を検出することが可能である。
本願の装置では、ピッチの各周波数成分の強度についての最大値に基づいて、前記閾値を調整することにより、ピッチが明瞭に現れる度合いに応じて前記閾値を適切に調整することができるので、高精度に非音声区間を検出することが可能である。
本願の装置では、予め準備した複数の候補閾値を所定の音声データに適用し、夫々の閾値以上(又は閾値以下)となるフレームが連なる個数を集計した結果に基づいて、前記閾値を決定することにより、事前の学習に基づいて前記閾値を決定することができるので、高精度に非音声区間を検出することが可能である。
本願の装置では、非音声区間のフレームの音データのパワーに基づいて推定した背景雑音パワーより、所定の閾値以上大きいパワーを有するフレームからなる区間を音声区間として検出し、検出した音声区間のうち、非音声区間として検出されたフレームについて、背景雑音パワーを推定するので、音データのパワーに基づいて音声検出した結果を適正に修正することが可能である。
本願の装置では、非音声区間のフレームの音データのパワーに基づいて推定した背景雑音パワーより、所定の閾値以上大きいパワーを有するフレームからなる区間を音声区間として検出し、検出した音声区間の全部又は一部が、所定回数だけ非音声区間として検出された際のフレームの音データのパワーを、背景雑音パワーとして更新するので、背景雑音パワーの推定値が上がり過ぎて、音声区間が検出できなくなることを抑止することができる。

Claims (15)

  1. 音を標本化した音データから所定の時間長の複数のフレームを生成し、人が発声した音声に基づく音声データを含まないフレームを有する非音声区間を検出する非音声区間検出方法において、
    各フレームの音データを周波数軸上の成分に変換したスペクトルの偏倚を導出し、
    導出した偏倚が、正の値(又は負の値)の場合、所定の閾値以上(又は所定の閾値以下)であるか否かを判定し、
    前記閾値以上(又は前記閾値以下)であると判定したフレームが連なる数を計数し、
    計数した数が所定数以上であるか否かを判定し、
    所定数以上であると判定したときに、前記フレームが連なる区間を非音声区間として検出する
    ことを特徴とする非音声区間検出方法。
  2. 音を標本化した音データから所定の時間長の複数のフレームを生成し、人が発声した音声に基づく音声データを含まないフレームを有する非音声区間を検出する非音声区間検出方法において、
    各フレームの音データを周波数軸上の成分に変換したスペクトルの偏倚、並びに各フレームの音データのパワー及びピッチの少なくとも一を指標として導出し、
    導出した指標について、前フレームとの変化量を導出し、
    導出した変化量が、所定の閾値以下であるか否かを判定し、
    前記閾値以下であると判定したフレームが連なる数を計数し、
    計数した数が所定数以上であるか否かを判定し、
    所定数以上であると判定したときに、前記フレームが連なる区間を非音声区間として検出する
    ことを特徴とする非音声区間検出方法。
  3. 音を標本化した音データから所定の時間長の複数のフレームを生成し、人が発声した音声に基づく音声データを含まないフレームを有する非音声区間を検出する非音声区間検出装置において、
    各フレームの音データを周波数軸上の成分に変換したスペクトルの偏倚を導出する導出手段と、
    導出したスペクトルの偏倚が、正の値(又は負の値)の場合、所定の閾値以上(又は所定の閾値以下)であるか否かを判定する判定手段と、
    前記閾値以上(又は前記閾値以下)であると判定したフレームが連なる数を計数する手段と、
    計数した数が所定数以上であるか否かを判定する手段と、
    所定数以上であると判定したときに、前記フレームが連なる区間を非音声区間として検出する検出手段と
    を備えることを特徴とする非音声区間検出装置。
  4. 音を標本化した音データから所定の時間長の複数のフレームを生成し、人が発声した音声に基づく音声データを含まないフレームを有する非音声区間を検出する非音声区間検出装置において、
    各フレームの音データを周波数軸上の成分に変換したスペクトルの偏倚、並びに各フレームの音データのパワー及びピッチの少なくとも一を指標として導出する導出手段と、
    導出した指標について、前フレームとの変化量を導出する第2の導出手段と、
    導出した変化量が所定の閾値以下であるか否かを判定する判定手段と、
    前記閾値以下であると判定したフレームが連なる数を計数する手段と、
    計数した数が所定数以上であるか否かを判定する手段と、
    所定数以上であると判定したときに、前記フレームが連なる区間を非音声区間として検出する検出手段と
    を備えることを特徴とする非音声区間検出装置。
  5. 前記第2の導出手段が導出した変化量が、前記閾値より大きい第2の閾値を超えるか否かを判定する第2の判定手段を備え、
    前記検出手段は、前記第2の判定手段が第2の閾値を超えると判定した場合、該判定が成立するフレームを含めて第2の所定数だけ連なるフレームからなる区間を、非音声区間の検出対象から除外するように構成してあることを特徴とする請求項4に記載の非音声区間検出装置。
  6. 前記第2の判定手段の判定が成立するフレームが連なる数を計数する手段と、
    計数した数が所定数以下であるか否かを判定する手段と、
    所定数以下であると判定した場合、該判定が成立するフレーム及び前記第2の所定数未満のフレームが連なる区間が、非音声区間に挟まれているときに、前記非音声区間に挟まれた区間を非音声区間として検出する第2の検出手段と
    を備えることを特徴とする請求項5に記載の非音声区間検出装置。
  7. 前記第2の導出手段による変化量の導出の対象となったフレームを含めて、所定数だけ連なるフレームについて、変化量の最大値を導出する第3の導出手段を備え、
    前記判定手段は、前記第3の導出手段が導出した最大値を、前記第2の導出手段が導出した変化量として扱うように構成してあることを特徴とする請求項4乃至6の何れかに記載の非音声区間検出装置。
  8. 前記スペクトルの偏倚は、音データのN次(Nは0以上の整数)の自己相関関数に対するM次(MはNと異なる0以上の整数)の自己相関関数の比であることを特徴とする請求項3乃至7の何れかに記載の非音声区間検出装置。
  9. 前記導出手段が、各フレームについてスペクトルの偏倚を導出した場合、前記各フレームに夫々時系列に前後する複数のフレームについて、スペクトルの偏倚の最大値、最小値、平均値及び中央値の少なくとも一を導出して、導出した値を前記各フレーム夫々についてのスペクトルの偏倚として扱うように構成してあることを特徴とする請求項3乃至8の何れかに記載の非音声区間検出装置。
  10. 前記判定手段が判定の対象とした全フレームの数に対する、前記判定が成立するフレームの数の割合を算出する手段と、
    算出した割合が、所定の割合以上であるか否かを判定する手段と、
    該判定が成立するフレームが連なる数を計数する手段と、
    計数した数が所定数以上であるか否かを判定する手段と、
    所定数以上であると判定したときに、前記フレームが連なる区間を非音声区間として検出する第3の検出手段と
    を備えることを特徴とする請求項3乃至9の何れかに記載の非音声区間検出装置。
  11. 非音声区間として検出されたフレームの音データ、及び前記非音声区間以外のフレームの音データに基づいて、信号対雑音比を導出する手段と、
    導出した信号対雑音比に基づいて、前記閾値を変更する手段と
    を備えることを特徴とする請求項3乃至10の何れかに記載の非音声区間検出装置。
  12. 各フレームの音データについて、ピッチの各周波数成分の強度の最大値を導出する手段と、
    導出した強度の最大値に基づいて、前記閾値を変更する手段と
    を備えることを特徴とする請求項3乃至11の何れかに記載の非音声区間検出装置。
  13. 人が発声した音データについて、予め準備された複数の候補閾値に対し、前記判定手段の判定が成立するフレームが連なる個数を夫々集計する手段と、
    集計した結果に基づいて、複数の候補閾値の中から前記閾値を決定する手段と
    を備えることを特徴とする請求項3乃至12の何れかに記載の非音声区間検出装置。
  14. 各フレームの音データのパワーを導出する第4の導出手段と、
    各フレームの1又は複数の前フレームの音データのパワーに基づいて、夫々のフレームの背景雑音パワーを推定する推定手段と、
    各フレームについて前記第4の導出手段が導出したパワーが、夫々のフレームについて前記推定手段が推定した背景雑音パワーより、所定の閾値以上大きいか否かを判定する手段と、
    前記背景雑音パワーより前記閾値以上大きいと判定したフレームからなる区間を音声区間として検出する第4の検出手段とを備え、
    前記推定手段は、前記第4の検出手段が検出した音声区間のフレームについて、前フレームの背景雑音パワーを維持するように構成してあり、
    更に、前記第4の検出手段が検出した音声区間のうち、前記検出手段によって非音声区間として検出されたフレームについて、背景雑音パワーを推定するように構成してあることを特徴とする請求項3乃至13の何れかに記載の非音声区間検出装置。
  15. 各フレームの音データのパワーを導出する第4の導出手段と、
    各フレームの1又は複数の前フレームの音データのパワーに基づいて、夫々のフレームの背景雑音パワーを推定する推定手段と、
    各フレームについて前記第4の導出手段が導出したパワーが、夫々のフレームについて前記推定手段が推定した背景雑音パワーより、所定の閾値以上大きいか否かを判定する手段と、
    前記背景雑音パワーより前記閾値以上大きいと判定したフレームからなる区間を音声区間として検出する第4の検出手段とを備え、
    前記推定手段は、前記第4の検出手段が検出した音声区間のフレームについて、前フレームの背景雑音パワーを維持するように構成してあり、
    更に、
    前記第4の検出手段が検出した音声区間の全部又は一部が、前記検出手段によって非音声区間として検出された回数を計数する手段と、
    計数した回数が所定回数以上であるか否かを判定する手段と、
    所定回数以上であると判定した場合、該判定が成立した際のフレームの音データのパワーを、背景雑音パワーとして更新する手段とを備えることを特徴とする請求項3乃至13の何れかに記載の非音声区間検出装置。
JP2009546107A 2007-12-18 2007-12-18 非音声区間検出方法及び非音声区間検出装置 Active JP5229234B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/074274 WO2009078093A1 (ja) 2007-12-18 2007-12-18 非音声区間検出方法及び非音声区間検出装置

Publications (2)

Publication Number Publication Date
JPWO2009078093A1 true JPWO2009078093A1 (ja) 2011-04-28
JP5229234B2 JP5229234B2 (ja) 2013-07-03

Family

ID=40795219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009546107A Active JP5229234B2 (ja) 2007-12-18 2007-12-18 非音声区間検出方法及び非音声区間検出装置

Country Status (3)

Country Link
US (2) US8326612B2 (ja)
JP (1) JP5229234B2 (ja)
WO (1) WO2009078093A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2016098228A1 (ja) * 2014-12-18 2017-04-27 三菱電機株式会社 音声認識装置および音声認識方法

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2816560A1 (en) 2009-10-19 2014-12-24 Telefonaktiebolaget L M Ericsson (PUBL) Method and background estimator for voice activity detection
US8990074B2 (en) * 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
JP5810912B2 (ja) 2011-12-28 2015-11-11 富士通株式会社 音声認識装置、音声認識方法及び音声認識プログラム
US20150058002A1 (en) * 2012-05-03 2015-02-26 Telefonaktiebolaget L M Ericsson (Publ) Detecting Wind Noise In An Audio Signal
US9269355B1 (en) * 2013-03-14 2016-02-23 Amazon Technologies, Inc. Load balancing for automatic speech recognition
US9275136B1 (en) 2013-12-03 2016-03-01 Google Inc. Method for siren detection based on audio samples
US9607613B2 (en) * 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
WO2016028254A1 (en) * 2014-08-18 2016-02-25 Nuance Communications, Inc. Methods and apparatus for speech segmentation using multiple metadata
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10854192B1 (en) * 2016-03-30 2020-12-01 Amazon Technologies, Inc. Domain specific endpointing
CN107305774B (zh) 2016-04-22 2020-11-03 腾讯科技(深圳)有限公司 语音检测方法和装置
CN109478405A (zh) * 2016-07-22 2019-03-15 索尼公司 信息处理设备、信息处理方法以及程序
US10431236B2 (en) * 2016-11-15 2019-10-01 Sphero, Inc. Dynamic pitch adjustment of inbound audio to improve speech recognition
CN109961803A (zh) * 2017-12-18 2019-07-02 上海智臻智能网络科技股份有限公司 语音情绪识别系统
CN109935241A (zh) * 2017-12-18 2019-06-25 上海智臻智能网络科技股份有限公司 语音信息处理方法
CN109935240A (zh) * 2017-12-18 2019-06-25 上海智臻智能网络科技股份有限公司 通过语音识别情绪的方法
JP7222265B2 (ja) * 2018-03-22 2023-02-15 カシオ計算機株式会社 音声区間検出装置、音声区間検出方法及びプログラム
CN109087632B (zh) * 2018-08-17 2023-06-06 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质
TR201917042A2 (tr) * 2019-11-04 2021-05-21 Cankaya Ueniversitesi Yeni bir metot ile sinyal enerji hesabı ve bu metotla elde edilen konuşma sinyali kodlayıcı.
CN114746939A (zh) * 2019-12-13 2022-07-12 三菱电机株式会社 信息处理装置、检测方法和检测程序
CN112420079B (zh) * 2020-11-18 2022-12-06 青岛海尔科技有限公司 语音端点检测方法和装置、存储介质及电子设备
FI20225762A1 (fi) * 2022-08-31 2024-03-01 Elisa Oyj Tietokoneimplementoitu menetelmä aktiivisuuden havaitsemiseksi äänivirrassa

Family Cites Families (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4074069A (en) * 1975-06-18 1978-02-14 Nippon Telegraph & Telephone Public Corporation Method and apparatus for judging voiced and unvoiced conditions of speech signal
US4008375A (en) * 1975-08-21 1977-02-15 Communications Satellite Corporation (Comsat) Digital voice switch for single or multiple channel applications
FR2466825A1 (fr) * 1979-09-28 1981-04-10 Thomson Csf Dispositif de detection de signaux vocaux et systeme d'alternat comportant un tel dispositif
US4375083A (en) * 1980-01-31 1983-02-22 Bell Telephone Laboratories, Incorporated Signal sequence editing method and apparatus with automatic time fitting of edited segments
US4624008A (en) * 1983-03-09 1986-11-18 International Telephone And Telegraph Corporation Apparatus for automatic speech recognition
US4696039A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with silence suppression
US4879748A (en) * 1985-08-28 1989-11-07 American Telephone And Telegraph Company Parallel processing pitch detector
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
US4802221A (en) * 1986-07-21 1989-01-31 Ncr Corporation Digital system and method for compressing speech signals for storage and transmission
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
JPH07113834B2 (ja) 1987-05-23 1995-12-06 日本電気株式会社 音声区間検出方式
US5365592A (en) * 1990-07-19 1994-11-15 Hughes Aircraft Company Digital voice detection apparatus and method using transform domain processing
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5216747A (en) * 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
DK0588932T3 (da) * 1991-06-11 2002-03-11 Qualcomm Inc Vokoder med variabel hastighed
JP3211398B2 (ja) * 1992-09-04 2001-09-25 松下電器産業株式会社 テレビ会議用発言音声検出装置
US5617508A (en) * 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
JP3343965B2 (ja) * 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
US5450484A (en) * 1993-03-01 1995-09-12 Dialogic Corporation Voice detection
JPH075892A (ja) * 1993-04-29 1995-01-10 Matsushita Electric Ind Co Ltd 音声認識方法
US5664059A (en) * 1993-04-29 1997-09-02 Panasonic Technologies, Inc. Self-learning speaker adaptation based on spectral variation source decomposition
IT1270438B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce
JPH0792989A (ja) 1993-09-22 1995-04-07 Oki Electric Ind Co Ltd 音声認識方法
US5467393A (en) * 1993-11-24 1995-11-14 Ericsson Inc. Method and apparatus for volume and intelligibility control for a loudspeaker
JP3354252B2 (ja) 1993-12-27 2002-12-09 株式会社リコー 音声認識装置
JPH07212296A (ja) * 1994-01-17 1995-08-11 Japan Radio Co Ltd Vox制御通信装置
US5590242A (en) * 1994-03-24 1996-12-31 Lucent Technologies Inc. Signal bias removal for robust telephone speech recognition
US5682463A (en) * 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
SE513892C2 (sv) * 1995-06-21 2000-11-20 Ericsson Telefon Ab L M Spektral effekttäthetsestimering av talsignal Metod och anordning med LPC-analys
JPH09152894A (ja) * 1995-11-30 1997-06-10 Denso Corp 有音無音判別器
US5765124A (en) * 1995-12-29 1998-06-09 Lucent Technologies Inc. Time-varying feature space preprocessing procedure for telephone based speech recognition
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
WO1998001847A1 (en) * 1996-07-03 1998-01-15 British Telecommunications Public Limited Company Voice activity detector
JPH1097269A (ja) 1996-09-20 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> 音声検出装置及び方法
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
JPH10257583A (ja) * 1997-03-06 1998-09-25 Asahi Chem Ind Co Ltd 音声処理装置およびその音声処理方法
US6073092A (en) * 1997-06-26 2000-06-06 Telogy Networks, Inc. Method for speech coding based on a code excited linear prediction (CELP) model
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
TW418383B (en) * 1998-09-23 2001-01-11 Ind Tech Res Inst Telephone voice recognition system and method and the channel effect compensation device using the same
US6556967B1 (en) * 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
US6246978B1 (en) * 1999-05-18 2001-06-12 Mci Worldcom, Inc. Method and system for measurement of speech distortion from samples of telephonic voice signals
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6442248B1 (en) * 2000-01-12 2002-08-27 Multi-Tech Systems, Inc. System for providing analog and digital telephone functions using a single telephone line
JP2001236085A (ja) 2000-02-25 2001-08-31 Matsushita Electric Ind Co Ltd 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置
US6757301B1 (en) * 2000-03-14 2004-06-29 Cisco Technology, Inc. Detection of ending of fax/modem communication between a telephone line and a network for switching router to compressed mode
WO2001078062A1 (en) * 2000-04-06 2001-10-18 Telefonaktiebolaget Lm Ericsson (Publ) Pitch estimation in speech signal
JP4221537B2 (ja) * 2000-06-02 2009-02-12 日本電気株式会社 音声検出方法及び装置とその記録媒体
US6587816B1 (en) * 2000-07-14 2003-07-01 International Business Machines Corporation Fast frequency-domain pitch estimation
US6694293B2 (en) * 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
US7062433B2 (en) * 2001-03-14 2006-06-13 Texas Instruments Incorporated Method of speech recognition with compensation for both channel distortion and background noise
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US6721699B2 (en) * 2001-11-12 2004-04-13 Intel Corporation Method and system of Chinese speech pitch extraction
US7165028B2 (en) * 2001-12-12 2007-01-16 Texas Instruments Incorporated Method of speech recognition resistant to convolutive distortion and additive distortion
CA2365203A1 (en) * 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
US7613606B2 (en) * 2003-10-02 2009-11-03 Nokia Corporation Speech codecs
JP4352875B2 (ja) * 2003-11-25 2009-10-28 パナソニック電工株式会社 音声区間検出器
US7643993B2 (en) * 2006-01-05 2010-01-05 Broadcom Corporation Method and system for decoding WCDMA AMR speech data using redundancy
JP4798601B2 (ja) * 2004-12-28 2011-10-19 株式会社国際電気通信基礎技術研究所 音声区間検出装置および音声区間検出プログラム
US20060262851A1 (en) * 2005-05-19 2006-11-23 Celtro Ltd. Method and system for efficient transmission of communication traffic
US8019615B2 (en) * 2005-07-26 2011-09-13 Broadcom Corporation Method and system for decoding GSM speech data using redundancy
JP4241736B2 (ja) * 2006-01-19 2009-03-18 株式会社東芝 音声処理装置及びその方法
JP4595124B2 (ja) * 2006-03-03 2010-12-08 独立行政法人産業技術総合研究所 音声信号と非音声信号の判別装置及び方法
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
US8275611B2 (en) * 2007-01-18 2012-09-25 Stmicroelectronics Asia Pacific Pte., Ltd. Adaptive noise suppression for digital speech signals
GB0703275D0 (en) * 2007-02-20 2007-03-28 Skype Ltd Method of estimating noise levels in a communication system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2016098228A1 (ja) * 2014-12-18 2017-04-27 三菱電機株式会社 音声認識装置および音声認識方法

Also Published As

Publication number Publication date
WO2009078093A1 (ja) 2009-06-25
US8798991B2 (en) 2014-08-05
US20130073281A1 (en) 2013-03-21
US8326612B2 (en) 2012-12-04
JP5229234B2 (ja) 2013-07-03
US20100191524A1 (en) 2010-07-29

Similar Documents

Publication Publication Date Title
JP5229234B2 (ja) 非音声区間検出方法及び非音声区間検出装置
CN108198547B (zh) 语音端点检测方法、装置、计算机设备和存储介质
US9536525B2 (en) Speaker indexing device and speaker indexing method
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
JP4757158B2 (ja) 音信号処理方法、音信号処理装置及びコンピュータプログラム
JP4868999B2 (ja) 音声認識方法、音声認識装置及びコンピュータプログラム
US7647224B2 (en) Apparatus, method, and computer program product for speech recognition
JP5411936B2 (ja) 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体
US8315870B2 (en) Rescoring speech recognition hypothesis using prosodic likelihood
US8140330B2 (en) System and method for detecting repeated patterns in dialog systems
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
US20140039896A1 (en) Methods and System for Grammar Fitness Evaluation as Speech Recognition Error Predictor
US20100268533A1 (en) Apparatus and method for detecting speech
US20070185713A1 (en) Recognition confidence measuring by lexical distance between candidates
US20120239401A1 (en) Voice recognition system and voice recognition method
EP1675102A2 (en) Method for extracting feature vectors for speech recognition
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
Narendra et al. Robust voicing detection and F 0 estimation for HMM-based speech synthesis
JP5081730B2 (ja) 音声区間検出装置および音声区間検出方法
KR101236539B1 (ko) 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법
Laleye et al. Automatic boundary detection based on entropy measures for text-independent syllable segmentation
Wang et al. Improved Mandarin speech recognition by lattice rescoring with enhanced tone models
Laleye et al. An algorithm based on fuzzy logic for text-independent fongbe speech segmentation
Mannem et al. Speech rate estimation using representations learned from speech with convolutional neural network

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120903

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130122

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130304

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5229234

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150