JPWO2003107326A1

JPWO2003107326A1 - 音声認識方法及びその装置

Info

Publication number: JPWO2003107326A1
Application number: JP2004514058A
Authority: JP
Inventors: 利行花沢
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2002-06-12
Filing date: 2002-06-12
Publication date: 2005-10-20
Also published as: WO2003107326A1; EP1513135A1; US20050165604A1; CN1628337A

Abstract

端点フリーによる音声認識を行いかつ騒音下の認識性能を改善できる音声認識方法とその装置を提供する。入力音声を音響分析する分析ステップと、入力音声のパワーが所定の閾値を連続して超える区間を山区間として検出し、パワーが最大となる山区間を最大山区間として、その最大山区間が前記閾値を下回る点以前に始端フリー区間が存在すると仮定し、前記最大山区間が前記閾値を上回る点以降に終端フリー区間が存在すると仮定して始端フリー区間と終端フリー区間の組み合わせを出力する端点フリー区間決定ステップと、前記組み合わせのそれぞれのパターンと標準パターンとのパターンマッチングを行う照合ステップとを備えた。

Description

技術分野
本発明は、騒音下の認識性能を改善する音声認識方法及びその装置に関するものである。
背景技術
音声認識は、入力信号のパワーを予め設定した閾値と比較して閾値以上の区間を音声区間として検出し、予め用意してある標準パターンとパターンマッチングを行うことによってなされる。
しかし騒音下では、騒音のパワーレベルが前記閾値を越えることがあるため、音声区間検出を誤ることとなり、誤認識の原因となるという問題点があった。そのための対策として、音声区間の始端と終端を一意に定めず、始端と終端の取り得る組み合わせの全ての区間に対してパターンマッチングを行う端点フリーと呼ばれる認識方法がある。しかし全ての区間に対してパターンマッチングを行うと「東大阪（ひがしおおさか）」という発声が「大阪（おおさか）」と認識される等の部分マッチングによる誤認識が問題となる。
これを低減するため、従来から始端と終端の取り得る組み合わせの範囲を制限する、すなわち端点フリーの範囲を制限する技術がある。この技術の一例として特開昭６３−３００２９５がある。
図５は、特開昭６３−３００２９５記載の音声認識装置の一構成例を示すブロック図である。本例では、特定話者の単語認識を行う場合を説明する。信号の入力端１から入力信号２を入力すると、分析手段３は入力信号２をＡ／Ｄ変換し、フレームと呼ぶ短い時間区間ごとに分割して、各フレームごとに音響分析を行い、各フレームごとに特徴ベクトルＸ（ｔ）（ｔ＝１，２，３，．．．，Ｔ）の時系列４、およびパワーＰ（ｔ）と零交差回数Ｚ（ｔ）（ｔ＝１，２，３，．．．，Ｔ）の時系列５を計算して出力する。ここでＴは、入力信号２の全フレーム数である。特徴ベクトルＸ（ｔ）は、例えばＬＰＣ分析によって得られるＬＰＣケプストラムとする。零交差回数Ｚ（ｔ）は、有声音区間の検出に用いる。すなわち有声音は低周波数成分にパワーが集中するため、零交差回数Ｚ（ｔ）は少ないので、本例では後述するように、音声パワーが所定値以上でかつ零交差回数Ｚ（ｔ）が少ない区間を有声音であるとみなしている。
有声音決定手段７は、入力信号のパワーＰ（ｔ）と零交差回数Ｚ（ｔ）（ｔ＝１，２，３，．．．，Ｔ）の時系列５とを入力として、図６に示すように、音声パワーが予め定めた閾値を上回るフレームを音声区間の始端ＰＢ、閾値を下回るフレームを音声区間の終端端ＰＥとして検出する。また検出した音声区間内で、零交差回数Ｚ（ｔ）が予め定めた閾値未満となるフレームを有声音区間の始端ＺＢ、閾値以上となるフレームを有声音区間の終端ＺＥとして検出する。
そして、前記音声区間の始端ＰＢから有声音区間の始端ＺＢまでの区間を、始端フリー区間Ｂｆｒｅｅ＝｛ＰＢ，ＺＢ｝として決定する。ここでＰＢは、始端フリー区間の先頭フレーム、ＺＢは始端フリー区間の最終フレームである。また有声音区間の終端ＺＥから音声区間の終端ＰＥまでの区間を、終端フリー区間Ｅｆｒｅｅ＝｛ＺＥ，ＰＥ｝として決定する。ここでＺＥは、終端フリー区間の先頭フレーム、ＰＥは終端フリー区間の最終フレームである。
有声音決定手段７は、前記始端フリー区間Ｂｆｒｅｅ＝｛ＰＢ，ＺＢ｝と終端フリー区間Ｅｆｒｅｅ＝｛ＺＥ，ＰＥ｝を端点フリー区間情報８として出力する。
照合手段６は、特徴ベクトルの時系列４と、端点フリー区間情報８である始端フリー区間Ｂｆｒｅｅ＝｛ＰＢ，ＺＢ｝と、終端フリー区間Ｅｆｒｅｅ＝｛ＺＥ，ＰＥ｝とを入力として、始端フリー区間と終端フリー区間内の全ての始終端の組み合わせで、標準パターンメモリ９に格納されている標準パターン１０と、例えばＤＰマッチングによるパターンマッチングを行い、距離値が最小のものを認識結果とする。なお、標準パターンメモリ９には、予め認識対象とする各単語の標準パターンＲＥＦ（ｉ），（ｉ＝１，２，３，．．．，Ｋ）として、各単語の特徴ベクトルの時系列が格納されているものとする。ここでＫは、標準パターンの数である。特徴ベクトルＸ（ｔ）は、例えばＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）分析によって得られるＬＰＣケプストラムとする。
以上述べたように、従来技術では検出された音声区間と有声音区間の間に正しい音声区間の始終端が存在すると仮定して、端点フリー区間を制限している。しかし非定常騒音の種類は様々で、自動車内騒音のように、スペクトルの低域にパワーが集中している騒音では零交差回数が少ないため、有声音区間と判定される危険性が大きい。騒音が有声音と判定された場合には、騒音区間を含めてパターンマッチングを行うため、誤認識の原因となる。
この発明は上記課題を解決をするためになされたもので、正確な判定が困難な有声音区間の判定を必要とせず、効率的に端点フリー区間を制限して、音声認識精度を改善する音声認識装置を提供することを目的とする。
発明の開示
第１の発明に係る音声認識方法は、入力音声を音響分析しこの入力信号についてパワーを出力する分析ステップと、前記パワーが所定の閾値を連続して超える区間を山区間として検出し、パワーが最大となる山区間を最大山区間として、その最大山区間が前記閾値を下回る点以前に始端フリー区間が存在すると仮定し、前記最大山区間が前記閾値を上回る点以降に終端フリー区間が存在すると仮定して始端フリー区間と終端フリー区間の組み合わせを出力する端点フリー区間決定ステップと、前記組み合わせの始端フリー区間と終端フリー区間により特定されるパターンと標準パターンとのパターンマッチングを行う照合ステップとを備えたものである。
第２の発明に係る音声認識方法は、前記照合ステップが、前記端点フリー区間が出力するすべての始端フリー区間と終端フリー区間の組み合わせにより特定される各パターンと標準パターンとのパターンマッチングを行う構成とされたものである。
第３の発明に係る音声認識方法は、前記端点フリー区間決定ステップが、検出された前記山区間のうち、パワーの累積が最大となる山区間を最大山区間とする構成とされたものである。
第４の発明に係る音声認識方法は、前記分析ステップが、検出点毎にパワーを出力し、前記端点フリー区間決定手段が、検出された前記山区間のうち、前記検出点毎のパワーのうち上位の所定の個数の検出点のパワーの和が最大となる山区間を最大山区間とする構成とされたものである。
第５の発明に係る音声認識方法は、前記端点フリー区間決定ステップが、前記最大山区間以前の山区間が前記閾値を上回る点の近傍に前記始端フリー区間が存在すると仮定し、前記最大山区間以後の山区間が前記閾値を下回る点の近傍に前記終端フリー区間が存在すると仮定する構成とされたものである。
第６の発明に係る音声認識方法は、前記端点フリー区間決定ステップが、前記始端フリー区間が存在すると仮定する範囲の幅と前記終端フリー区間が存在すると仮定する範囲の幅とを、各山区間毎に異なる構成とされたものである。
第７の発明に係る音声認識方法は、前記分析ステップが、フレーム毎にパワーを出力し、前記端点フリー区間決定手段が、パワーが前記閾値を下回るフレームを前記閾値を下回る点とし、パワーが前記閾値を上回るフレームを前記閾値を上回る点とする構成とされたものである。
第８の発明に係る音声認識装置は、入力音声を音響分析しこの入力信号についてパワーを出力する分析手段と、前記パワーが所定の閾値を連続して超える区間を山区間として検出し、パワーが最大となる山区間を最大山区間として、その最大山区間が前記閾値を下回る点以前に始端フリー区間が存在すると仮定し、前記最大山区間が前記閾値を上回る点以降に終端フリー区間が存在すると仮定して始端フリー区間と終端フリー区間の組み合わせを出力する端点フリー区間決定手段と、前記組み合わせの始端フリー区間と終端フリー区間により特定されるパターンと標準パターンとのパターンマッチングを行う照合手段とを備えたものである。
第９の発明に係る音声認識装置は、前記照合手段が、前記端点フリー区間が出力するすべての始端フリー区間と終端フリー区間の組み合わせにより特定される各パターンと標準パターンとのパターンマッチングを行う構成とされたものである。
第１０の発明に係る音声認識装置は、前記端点フリー区間決定手段が、検出された前記山区間のうち、パワーの累積が最大となる山区間を最大山区間とする構成とされたものである。
第１１の発明に係る音声認識装置は、前記分析手段が、検出点毎にパワーを出力し、前記端点フリー区間決定手段が、検出された前記山区間のうち、前記検出点毎のパワーのうち上位の所定の個数の検出点のパワーの和が最大となる山区間を最大山区間とする構成とされたものである。
第１２の発明に係る音声認識装置は、前記端点フリー区間決定手段が、前記最大山区間以前の山区間が前記閾値を上回る点の近傍に前記始端フリー区間が存在すると仮定し、前記最大山区間以後の山区間が前記閾値を下回る点の近傍に前記終端フリー区間が存在すると仮定する構成とされたものである。
第１３の発明に係る音声認識装置は、前記端点フリー区間決定手段が、前記始端フリー区間が存在すると仮定する範囲の幅と前記終端フリー区間が存在すると仮定する範囲の幅とを、各山区間毎に異なる構成とされたものである。
第１４の発明に係る音声認識装置は、前記分析手段が、フレーム毎にパワーを出力し、前記端点フリー区間決定手段が、パワーが前記閾値を下回るフレームを前記閾値を下回る点とし、パワーが前記閾値を上回るフレームを前記閾値を上回る点とする構成とされたものである。
発明を実施するための最良の形態
実施例１．
図１は、本発明に係る実施例１の音声認識装置の構成を示すブロック図である。同図において、１は信号の入力を行う信号入力端、２は信号入力端１によって入力された入力信号、３は入力信号２について音響分析を行う分析手段、４は分析手段３によって算出される入力信号の特徴ベクトルの時系列、５は分析手段３によって算出される入力信号のパワーの時系列、６は入力信号のパワーの時系列５に基づいて端点フリー区間を決定する端点フリー区間決定手段、８は端点フリー区間決定手段６によって出力される端点フリー区間情報、９は音声認識のための照合処理において用いられる標準パターンを記憶する標準パターンメモリ、１０は音声認識のための照合処理において用いられる標準パターン、１１は各単語の標準パターンとのパターンマッチングを行う照合手段である。
本実施例では、特定話者の単語認識を行う場合を説明する。標準パターンメモリ９には、予め認識対象とする各単語の標準パターンＲＥＦ（ｉ），（ｉ＝１，２，３，．．．，Ｋ）として、各単語の特徴ベクトルの時系列が格納されているものとする。ここでＫは、標準パターンの数である。特徴ベクトルＸ（ｔ）は、例えばＬＰＣ分析によって得られるＬＰＣケプストラムとする。
次に動作について説明する。信号入力端１から入力信号２を入力すると、分析手段３は入力信号２をＡ／Ｄ変換した後、短い時間区間ごとにフレームと呼ばれる単位に分割して、各フレームごとに音響分析を行ってそのフレームの特徴ベクトルＸ（ｔ）（ｔ＝１，２，３，．．．，Ｔ）の時系列４、およびパワーＰ（ｔ）（ｔ＝１，２，３，．．．，Ｔ）の時系列５を計算して出力する。ここで、Ｔは入力信号２の全フレーム数である。特徴ベクトルＸ（ｔ）は、例えばＬＰＣ（線形予測）分析によって得られるＬＰＣケプストラムとする。パワーＰ（ｔ）は、例えばフレーム内の入力信号のディジタル値を２乗和して対数をとることによって得られる。
端点フリー区間決定手段６は、入力信号のパワーＰ（ｔ）（ｔ＝１，２，３，．．．，Ｔ）を入力として、図２に示すように、パワーが予め定めた閾値を越えたフレームが所定数以上連続する区間を、山区間Ｈ（ｉ）＝｛Ｂ（ｉ），Ｅ（ｉ）｝（ｉ＝１，２，３，．．．Ｎ）として検出する。ここで、Ｂ（ｉ）は山区間の始端、すなわちパワーが前記閾値を越えたフレームである。また、Ｅ（ｉ）は山区間の終端、すなわちパワーが前記閾値未満となったフレームである。Ｎは検出された山区間の個数である。図２の例では、Ｎ＝３である。
次に、端点フリー区間決定手段６は、（１）式あるいは（２）式によって、各山区間ＰＨ（ｉ）＝｛Ｂ（ｉ），Ｅ（ｉ）｝（ｉ＝１，２，３，．．．Ｎ）のパワー強度ＰＫ（ｉ）（ｉ＝１，２，３，．．．Ｎ）を計算し、（３）式にしたがってパワー強度が最大の山をパワー強度最大山区間ＰＨ（Ｉ）として検出する。（２）式において、ｔ（ｉ，ｊ）は各山区間ＰＨ（ｉ）＝｛Ｂ（ｉ），Ｅ（ｉ）｝の区間内のフレームで、パワーがｊ番目に大きいフレームとする。したがって、ｔ（ｉ，１）は、山区間ＰＨ（ｉ）内でパワーが最大のフレームとなる。このことより、（２）式は、各山区間について、当該区間内でパワーが大きい上位Ｍ個のパワー値を用いてパワー強度を計算していることになる。一方（１）式は、各山区間について、当該区間内の全パワーの和としてパワー強度を計算している。（１）、（２）式のいずれを用いるかについては、音声認識装置の使用時に想定される環境騒音の種類や認識対象とする音声によって、選択すればよい。

本実施例では、パワー強度最大山区間は音声であると仮定するので、例えばパワーの山の継続時間は短いが、瞬間的な信号パワーが大きくなるスパイク状の騒音では（１）式を用い、逆にパワーの山の継続時間は長いが、フレーム毎のパワーは大きくない騒音では（２）式を用いることにより、騒音区間がパワー強度最大山区間とならないようにすることができる。
次に端点フリー区間決定手段６は、（４）、（５）式にしたがって最初の山区間の始端Ｂ１から、パワー強度最大山区間の始端Ｂ（Ｉ）までの区間に、始端マージンｂｍ１，ｂｍ２を加えた区間を、始端フリー区間ＢＦ＝｛ｂｆＬ，ｂｆＲ｝として決定する。ここで、ｂｆＬは始端フリー区間の先頭フレーム、ｂｆＲは始端フリー区間の最終フレームであり、また始端マージンｂｍ１，ｂｍ２は、予め定めた０以上の定数である。

次に（６）、（７）式にしたがって、端点フリー区間決定手段６は最後の山区間の終端Ｅ（Ｎ）から、パワー強度最大山区間の始端Ｅ（Ｉ）までの区間に、終端マージンｅｍ１，ｅｍ２を加えた区間を、終端フリー区間ＥＦ＝｛ｅｆＬ，ｅｆＲ｝として決定する。ここで、ｅｆＬは終端フリー区間の先頭フレーム、ｅｆＲは終端フリー区間の最終フレームである。終端マージンｅｍ１，ｅｍ２は、予め定めた０以上の定数である。以上の処理により決定された始端フリー区間ＢＦと終端フリー区間を図２に示す。

端点フリー区間決定手段６は、前記始端フリー区間ＢＦ＝｛ｂｆＬ，ｂｆＲ｝と終端フリー区間ＥＦ＝｛ｅｆＬ，ｅｆＲ｝を、端点フリー区間情報８として出力する。
照合手段１１は、特徴ベクトルの時系列４と、端点フリー区間情報８による始端フリー区間ＢＦ＝｛ｂｆＬ，ｂｆＲ｝と終端フリー区間ＥＦ＝｛ｅｆＬ，ｅｆＲ｝とを入力として、始端フリー区間と終端フリー区間内の全ての始終端の組み合わせで標準パターンメモリ９に格納されている各単語の標準パターン１０であるＲＥＦ（ｉ）とパターンマッチングを行う。この処理を標準パターンＲＥＦ（ｉ）（ｉ＝１，２，３，．．．，Ｋ）の全てに対して順次行い、これら全ての始終端の組み合わせと標準パターンとの照合処理の結果、最も差異の小さい標準パターンを認識結果１２として出力する。パターンマッチングの方法としては、例えばＤＰマッチングを用いる。
以上説明したとおり、本実施例は騒音下において、「パワー強度最大の山は背景騒音ではなく、認識対象とする音声あるいはその一部である」という仮定に基づいて、
（１）パワー強度最大の山の区間内には、始端マージンｂｍ２と終端マージンｅｍ１以上の端点フリー区間を設定しない
（２）端点フリーは、パワー最大の山の跨がない、すなわちパワー強度最大の山の後方には、始端フリー区間を含めず、パワー強度最大の山の前方には終端フリー区間を含めないことに基づいて端点フリー区間を制限するものである。
騒音下では、人間の発声は大きくなることが知られており、殆どの騒音下で前記仮定が成立する。本実施例による音声認識装置は、この仮定に基づくことにより、正確な判定が困難な有声音区間の判定を必要とせず、効率的に端点フリー区間が音声の内部に極力含まれないように制限することによって、部分マッチングによる誤認識を低減することができる。
なお本実施例では、パターンマッチングの方法としてＤＰマッチングを用いたが、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）等の他のパターンマッチング方法に対しても同様の効果が得られる。また連続音声認識や、不特定話者の単語認識や連続音声においても同様の効果が得られる。
実施例２．
次に本発明の別の実施例に係る音声認識装置について説明する。本実施例による音声認識装置では、端点フリー区間決定手段６の動作を以下のように変更する。すなわち、まず端点フリー区間決定手段６は、入力信号のパワーＰ（ｔ）（ｔ＝１，２，３，．．．，Ｔ）を入力として、実施例１と同様の動作によって、パワーが予め定めた閾値を越えたフレームが所定数以上連続する山区間ＰＨ（ｉ）＝｛Ｂ（ｉ），Ｅ（ｉ）｝（ｉ＝１，２，３，．．．Ｎ）と、パワー強度最大山区間ＰＨ（Ｉ）を検出する。次に、パワー強度最大山区間ＰＨ（Ｉ）、およびそれに先行する各山区間の始端Ｂ（ｉ），（ｉ＝１，２，３，．．．Ｎ）の前後に始端マージンｂｍ１，ｂｍ２を加えた区間を、始端フリー区間ＢＦ（ｉ）＝｛ｂｆＬ（ｉ），ｂｆＲ（ｉ）｝（ｉ＝１，２，．．．，Ｉ）とする。ここで、ｂｆＬ（ｉ）はｉ番目の始端フリー区間の先頭フレームであり、（８）式によって求める。またｂｆＲ（ｉ）はｉ番目の始端フリー区間の最終フレームであって、（９）式によって求める。始端マージンｂｍＬ（ｉ），ｂｍＲ（ｉ）は、予め定めた０以上の定数である。

次に（１０）、（１１）式にしたがって、パワー強度最大山区間ＰＨ（Ｉ）、およびそれに後続する各山区間の終端Ｅ（ｉ），（ｉ＝Ｉ，Ｉ＋１，．．．，Ｎ）の前後に終端マージンｅｍ１，ｅｍ２を加えた区間を、終端フリー区間ＥＦ（ｉ）＝｛ｅｆＬ（ｉ），ｅｆＲ（ｉ）｝（ｉ＝１，２，．．．，Ｎ−Ｉ＋１）とする。ここで、ｅｆＬ（ｉ）はｉ番目の終端フリー区間の先頭フレーム、ｅｆＲ（ｉ）はｉ番目の終端フリー区間の最終フレームである。始端マージンｅｍＬ（ｉ），ｅｍＲ（ｉ）は、予め定めた０以上の定数である。以上の処理により決定された始端フリー区間と終端フリー区間を図３に示す。

なお、前記始端マージンｂｍＬ（ｉ）とｂｍＲ（ｉ）は、始端フリー区間ＢＦ（ｉ）ごとに異なる値に設定してもよいし、共通の値としてもよい。
始端フリー区間を大きくすると、始端の検出誤りには強くなるが、部分マッチングの危険性が大きくなるというトレードオフの関係にある。１番目の始端フリー区間ＢＦ１の左側のマージンｂｆＬ１は、音声の外側へのラリー区間であるため、値を大きくしても、部分マッチングの危険性はそれほど増加しない。しかし、１番目の始端フリー区間ＢＦ１の右側と２番目以降の始端フリー区間は、音声区間内である可能性があり、始端マージンｂｍＬ（ｉ）とｂｍＲ（ｉ）の値を大きく設定すると、部分マッチングの可能性が増す。
そこで、２番目以降の始端フリー区間の左右両側の始端マージンと、１番目の始端フリー区間の右側の始端マージンとを、１番目以降の始端フリー区間の左側の始端マージンよりも小さな値若しくは０とすると、内側でのフリー区間が小さくなる、あるいは０となり、部分マッチングを押える効果がある。
同様に、前記終端マージンｅｍＬ（ｉ）とｅｍＲ（ｉ）は、終端フリー区間ＥＦ（ｉ）ごとに異なる値に設定してもよいし、共通の値としてもよい。
最後の終端フリー区間ＥＦ（Ｎ−Ｉ＋１）の右側のマージンｅｆＲ（Ｎ−Ｉ＋１）は、音声の外側へのフリー区間であるため、値を大きくしても部分マッチングの危険性はそれほど大きくならない。しかし、最後の終端フリー区間の左側と最後以外の終端フリー区間は音声区間内である可能性があるため、終端マージンｅｍＬ（ｉ）とｅｍＲ（ｉ）の値を大きく設定すると部分マッチングの可能性が増す。
そこで、最後以外の終端フリー区間の左右両側の終端マージンと最後の終端フリー区間の左側とを、最後の終端フリー区間の右側のマージンよりも小さな値若しくは０とすることにより、内側でのフリー区間が小さくなる、あるいは０となり、部分マッチングを抑える効果がある。
図４に、始端マージンを２番目以降の始端フリー区間の左右両側の始端マージンと、１番目の始端フリー区間の右側の始端マージンを０とし、また終端マージンを最後以外の終端フリー区間の左右両側の終端マージンと、最後の終端フリー区間の左側の終端マージンを０とした場合を示す。
照合手段１０は、特徴ベクトルの時系列４と、端点フリー区間情報８である始端フリー区間ＢＦ（ｉ）＝｛ｂｆＬ（ｉ），ｂｆＲ（ｉ）｝（ｉ＝１，２，．．．，Ｉ）と、終端フリー区間ＥＦ（ｉ）＝｛ｅｆＬ（ｉ），ｅｆＲ（ｉ）｝（ｉ＝１，２，．．．，Ｎ−Ｉ＋１）とを入力として、始端フリー区間と終端フリー区間内の全ての始終端の組み合わせにより、標準パターンメモリ９に格納されている各単語の標準パターン１０であるＲＥＦ（ｉ）とパターンマッチングを行う。この処理を標準パターンＲＥＦ（ｉ），（ｉ＝１，２，３，．．．，Ｋ）の全てに対して順次行い、距離値が最小のものを認識結果１２として出力する。パターンマッチングとしては、例えばＤＰマッチングを用いる。
実際の非定常騒音下では、音声の始端と終端でパワーの山の立上りと山の終端が観察されることが多いので、本実施例に係る音声認識装置によれば、実施の形態１で説明した端点フリー区間の制限に加え、始端のフリー区間はパワーの山の立上り前後の区間、終端のフリー区間はパワーの山の終端の前後の区間に制限することによって、さらに部分マッチングによる誤認識を低減することができる。
産業上の利用の可能性
本発明は上記のように構成されているので、正確な判定が困難な有声音区間の判定を必要とせず、効率的に端点フリー区間が音声の内部に極力含まれないように制限することによって、部分マッチングによる誤認識を低減することが可能となる。
また本発明は上記のように構成されているので、全ての始終端の組み合わせの中から、標準パターンと最も差異の小さい始終端の組み合わせを選択することのが可能となる。
また本発明は上記のように構成されているので、パワーの山の継続時間は短いが、瞬間的な信号パワーが大きくなるスパイク状の騒音が発生しうる環境下での音声認識を効率的に行うことが可能となる。
また本発明は上記のように構成されているので、パワーの山の継続時間は長いが、パワーの極大値は大きくない騒音が発生しうる環境下での音声認識を効率的に行うことが可能となる。
また本発明は上記のように構成されているので、始端と終端の検出誤りを少なくすることが可能となる。
また本発明は上記のように構成されているので、始端と終端と検出誤りを少なくしつつ、部分マッチングの危険性も抑えることが、可能となる。
また本発明は上記のように構成されているので、フレーム単位で音響分析を行う音声認識装置に適用することが可能となる。
【図面の簡単な説明】
図１は本発明の実施例１と実施例２による音声認識装置の構成図、
図２は本発明の実施例１の始端フリー区間と終端フリー区間の決定方法の説明図、
図３は本発明の実施例２の始端フリー区間と終端フリー区間の決定方法の説明図、
図４は本発明の実施例２の始端フリー区間と終端フリー区間の決定方法の説明図、
図５は従来の技術による音声認識装置の構成図、
図６は従来の技術による始端フリー区間と終端フリー区間の決定方法の説明図である。

Claims

入力音声を音響分析しこの入力信号についてパワーを出力する分析ステップと、
前記パワーが所定の閾値を連続して超える区間を山区間として検出し、パワーが最大となる山区間を最大山区間として、その最大山区間が前記閾値を下回る点以前に始端フリー区間が存在すると仮定し、前記最大山区間が前記閾値を上回る点以降に終端フリー区間が存在すると仮定して始端フリー区間と終端フリー区間の組み合わせを出力する端点フリー区間決定ステップと、
前記組み合わせの始端フリー区間と終端フリー区間により特定されるパターンと標準パターンとのパターンマッチングを行う照合ステップとを備えたことを特徴とする音声認識方法。
前記端点フリー区間決定ステップは、始端フリー区間と終端フリー区間の組み合わせを複数出力し、前記照合ステップは、前記端点フリー区間決定ステップが出力するすべての始端フリー区間と終端フリー区間の組み合わせにより特定される各パターンと標準パターンとのパターンマッチングを行う構成とされたことを特徴とする請求の範囲第１項記載の音声認識方法。
前記端点フリー区間決定ステップは、検出された前記山区間のうち、パワーの累積が最大となる山区間を最大山区間とする構成とされたことを特徴とする請求の範囲第１項乃至請求の範囲第２項のいずれか一記載の音声認識方法。
前記分析ステップは、検出点毎にパワーを出力し、前記端点フリー区間決定手段は、検出された前記山区間のうち、前記検出点毎のパワーのうち上位の所定の個数の検出点のパワーの和が最大となる山区間を最大山区間とする構成とされたことを特徴とする請求の範囲第１項乃至請求の範囲第２項のいずれか一記載の音声認識方法。
前記端点フリー区間決定ステップは、前記最大山区間以前の山区間が前記閾値を上回る点の近傍に前記始端フリー区間が存在すると仮定し、前記最大山区間以後の山区間が前記閾値を下回る点の近傍に前記終端フリー区間が存在すると仮定する構成とされたことを特徴とする請求の範囲第１項乃至請求の範囲第４項のいずれか一記載の音声認識方法。
前記端点フリー区間決定ステップは、前記始端フリー区間が存在すると仮定する範囲の幅と前記終端フリー区間が存在すると仮定する範囲の幅とを、各山区間毎に異なる構成とされたことを特徴とする請求の範囲第１項乃至請求の範囲第４項のいずれか一記載の音声認識方法。
前記分析ステップは、フレーム毎にパワーを出力し、前記端点フリー区間決定手段は、パワーが前記閾値を下回るフレームを前記閾値を下回る点とし、パワーが前記閾値を上回るフレームを前記閾値を上回る点とする構成とされたことを特徴とする請求の範囲第１項乃至請求の範囲第６項のいずれか一記載の音声認識方法。
入力音声を音響分析しこの入力信号についてパワーを出力する分析手段と、
前記パワーが所定の閾値を連続して超える区間を山区間として検出し、パワーが最大となる山区間を最大山区間として、その最大山区間が前記閾値を下回る点以前に始端フリー区間が存在すると仮定し、前記最大山区間が前記閾値を上回る点以降に終端フリー区間が存在すると仮定して始端フリー区間と終端フリー区間の組み合わせを出力する端点フリー区間決定手段と、
前記組み合わせの始端フリー区間と終端フリー区間により特定されるパターンと標準パターンとのパターンマッチングを行う照合手段とを備えたことを特徴とする音声認識装置。
前記端点フリー区間決定手段は、始端フリー区間と終端フリー区間の組み合わせを複数出力し、前記照合手段は、前記端点フリー区間決定４手段が出力するすべての始端フリー区間と終端フリー区間の組み合わせにより特定される各パターンと標準パターンとのパターンマッチングを行う構成とされたことを特徴とする請求の範囲第８項記載の音声認識装置。
前記端点フリー区間決定手段は、検出された前記山区間のうち、パワーの累積が最大となる山区間を最大山区間とする構成とされたことを特徴とする請求の範囲第８項乃至請求の範囲第９項のいずれか一記載の音声認識装置。
前記分析手段は、検出点毎にパワーを出力し、
前記端点フリー区間決定手段は、検出された前記山区間のうち、前記検出点毎のパワーのうち上位の所定の個数の検出点のパワーの和が最大となる山区間を最大山区間とする構成とされたことを特徴とする請求の範囲第８項乃至請求の範囲第９項のいずれか一記載の音声認識装置。
前記端点フリー区間決定手段は、前記最大山区間以前の山区間が前記閾値を上回る点の近傍に前記始端フリー区間が存在すると仮定し、前記最大山区間以後の山区間が前記閾値を下回る点の近傍に前記終端フリー区間が存在すると仮定する構成とされたことを特徴とする請求の範囲第８項乃至請求の範囲第１１項のいずれか一記載の音声認識装置。
前記端点フリー区間決定手段は、前記始端フリー区間が存在すると仮定する範囲の幅と前記終端フリー区間が存在すると仮定する範囲の幅とを、各山区間毎に異なる構成とされたことを特徴とする請求の範囲第８項乃至請求の範囲第１１項のいずれか一記載の音声認識装置。
前記分析手段は、フレーム毎にパワーを出力し、前記端点フリー区間決定手段は、パワーが前記閾値を下回るフレームを前記閾値を下回る点とし、パワーが前記閾値を上回るフレームを前記閾値を上回る点とする構成とされたことを特徴とする請求の範囲第８項乃至請求の範囲第１３項のいずれか一記載の音声認識装置。