JPWO2003107326A1 - 音声認識方法及びその装置 - Google Patents
音声認識方法及びその装置 Download PDFInfo
- Publication number
- JPWO2003107326A1 JPWO2003107326A1 JP2004514058A JP2004514058A JPWO2003107326A1 JP WO2003107326 A1 JPWO2003107326 A1 JP WO2003107326A1 JP 2004514058 A JP2004514058 A JP 2004514058A JP 2004514058 A JP2004514058 A JP 2004514058A JP WO2003107326 A1 JPWO2003107326 A1 JP WO2003107326A1
- Authority
- JP
- Japan
- Prior art keywords
- section
- free
- free section
- threshold
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
Abstract
端点フリーによる音声認識を行いかつ騒音下の認識性能を改善できる音声認識方法とその装置を提供する。入力音声を音響分析する分析ステップと、入力音声のパワーが所定の閾値を連続して超える区間を山区間として検出し、パワーが最大となる山区間を最大山区間として、その最大山区間が前記閾値を下回る点以前に始端フリー区間が存在すると仮定し、前記最大山区間が前記閾値を上回る点以降に終端フリー区間が存在すると仮定して始端フリー区間と終端フリー区間の組み合わせを出力する端点フリー区間決定ステップと、前記組み合わせのそれぞれのパターンと標準パターンとのパターンマッチングを行う照合ステップとを備えた。
Description
技術分野
本発明は、騒音下の認識性能を改善する音声認識方法及びその装置に関するものである。
背景技術
音声認識は、入力信号のパワーを予め設定した閾値と比較して閾値以上の区間を音声区間として検出し、予め用意してある標準パターンとパターンマッチングを行うことによってなされる。
しかし騒音下では、騒音のパワーレベルが前記閾値を越えることがあるため、音声区間検出を誤ることとなり、誤認識の原因となるという問題点があった。そのための対策として、音声区間の始端と終端を一意に定めず、始端と終端の取り得る組み合わせの全ての区間に対してパターンマッチングを行う端点フリーと呼ばれる認識方法がある。しかし全ての区間に対してパターンマッチングを行うと「東大阪(ひがしおおさか)」という発声が「大阪(おおさか)」と認識される等の部分マッチングによる誤認識が問題となる。
これを低減するため、従来から始端と終端の取り得る組み合わせの範囲を制限する、すなわち端点フリーの範囲を制限する技術がある。この技術の一例として特開昭63−300295がある。
図5は、特開昭63−300295記載の音声認識装置の一構成例を示すブロック図である。本例では、特定話者の単語認識を行う場合を説明する。信号の入力端1から入力信号2を入力すると、分析手段3は入力信号2をA/D変換し、フレームと呼ぶ短い時間区間ごとに分割して、各フレームごとに音響分析を行い、各フレームごとに特徴ベクトルX(t)(t=1,2,3,...,T)の時系列4、およびパワーP(t)と零交差回数Z(t)(t=1,2,3,...,T)の時系列5を計算して出力する。ここでTは、入力信号2の全フレーム数である。特徴ベクトルX(t)は、例えばLPC分析によって得られるLPCケプストラムとする。零交差回数Z(t)は、有声音区間の検出に用いる。すなわち有声音は低周波数成分にパワーが集中するため、零交差回数Z(t)は少ないので、本例では後述するように、音声パワーが所定値以上でかつ零交差回数Z(t)が少ない区間を有声音であるとみなしている。
有声音決定手段7は、入力信号のパワーP(t)と零交差回数Z(t)(t=1,2,3,...,T)の時系列5とを入力として、図6に示すように、音声パワーが予め定めた閾値を上回るフレームを音声区間の始端PB、閾値を下回るフレームを音声区間の終端端PEとして検出する。また検出した音声区間内で、零交差回数Z(t)が予め定めた閾値未満となるフレームを有声音区間の始端ZB、閾値以上となるフレームを有声音区間の終端ZEとして検出する。
そして、前記音声区間の始端PBから有声音区間の始端ZBまでの区間を、始端フリー区間Bfree={PB,ZB}として決定する。ここでPBは、始端フリー区間の先頭フレーム、ZBは始端フリー区間の最終フレームである。また有声音区間の終端ZEから音声区間の終端PEまでの区間を、終端フリー区間Efree={ZE,PE}として決定する。ここでZEは、終端フリー区間の先頭フレーム、PEは終端フリー区間の最終フレームである。
有声音決定手段7は、前記始端フリー区間Bfree={PB,ZB}と終端フリー区間Efree={ZE,PE}を端点フリー区間情報8として出力する。
照合手段6は、特徴ベクトルの時系列4と、端点フリー区間情報8である始端フリー区間Bfree={PB,ZB}と、終端フリー区間Efree={ZE,PE}とを入力として、始端フリー区間と終端フリー区間内の全ての始終端の組み合わせで、標準パターンメモリ9に格納されている標準パターン10と、例えばDPマッチングによるパターンマッチングを行い、距離値が最小のものを認識結果とする。なお、標準パターンメモリ9には、予め認識対象とする各単語の標準パターンREF(i),(i=1,2,3,...,K)として、各単語の特徴ベクトルの時系列が格納されているものとする。ここでKは、標準パターンの数である。特徴ベクトルX(t)は、例えばLPC(Linear Predictive Coding)分析によって得られるLPCケプストラムとする。
以上述べたように、従来技術では検出された音声区間と有声音区間の間に正しい音声区間の始終端が存在すると仮定して、端点フリー区間を制限している。しかし非定常騒音の種類は様々で、自動車内騒音のように、スペクトルの低域にパワーが集中している騒音では零交差回数が少ないため、有声音区間と判定される危険性が大きい。騒音が有声音と判定された場合には、騒音区間を含めてパターンマッチングを行うため、誤認識の原因となる。
この発明は上記課題を解決をするためになされたもので、正確な判定が困難な有声音区間の判定を必要とせず、効率的に端点フリー区間を制限して、音声認識精度を改善する音声認識装置を提供することを目的とする。
発明の開示
第1の発明に係る音声認識方法は、入力音声を音響分析しこの入力信号についてパワーを出力する分析ステップと、前記パワーが所定の閾値を連続して超える区間を山区間として検出し、パワーが最大となる山区間を最大山区間として、その最大山区間が前記閾値を下回る点以前に始端フリー区間が存在すると仮定し、前記最大山区間が前記閾値を上回る点以降に終端フリー区間が存在すると仮定して始端フリー区間と終端フリー区間の組み合わせを出力する端点フリー区間決定ステップと、前記組み合わせの始端フリー区間と終端フリー区間により特定されるパターンと標準パターンとのパターンマッチングを行う照合ステップとを備えたものである。
第2の発明に係る音声認識方法は、前記照合ステップが、前記端点フリー区間が出力するすべての始端フリー区間と終端フリー区間の組み合わせにより特定される各パターンと標準パターンとのパターンマッチングを行う構成とされたものである。
第3の発明に係る音声認識方法は、前記端点フリー区間決定ステップが、検出された前記山区間のうち、パワーの累積が最大となる山区間を最大山区間とする構成とされたものである。
第4の発明に係る音声認識方法は、前記分析ステップが、検出点毎にパワーを出力し、前記端点フリー区間決定手段が、検出された前記山区間のうち、前記検出点毎のパワーのうち上位の所定の個数の検出点のパワーの和が最大となる山区間を最大山区間とする構成とされたものである。
第5の発明に係る音声認識方法は、前記端点フリー区間決定ステップが、前記最大山区間以前の山区間が前記閾値を上回る点の近傍に前記始端フリー区間が存在すると仮定し、前記最大山区間以後の山区間が前記閾値を下回る点の近傍に前記終端フリー区間が存在すると仮定する構成とされたものである。
第6の発明に係る音声認識方法は、前記端点フリー区間決定ステップが、前記始端フリー区間が存在すると仮定する範囲の幅と前記終端フリー区間が存在すると仮定する範囲の幅とを、各山区間毎に異なる構成とされたものである。
第7の発明に係る音声認識方法は、前記分析ステップが、フレーム毎にパワーを出力し、前記端点フリー区間決定手段が、パワーが前記閾値を下回るフレームを前記閾値を下回る点とし、パワーが前記閾値を上回るフレームを前記閾値を上回る点とする構成とされたものである。
第8の発明に係る音声認識装置は、入力音声を音響分析しこの入力信号についてパワーを出力する分析手段と、前記パワーが所定の閾値を連続して超える区間を山区間として検出し、パワーが最大となる山区間を最大山区間として、その最大山区間が前記閾値を下回る点以前に始端フリー区間が存在すると仮定し、前記最大山区間が前記閾値を上回る点以降に終端フリー区間が存在すると仮定して始端フリー区間と終端フリー区間の組み合わせを出力する端点フリー区間決定手段と、前記組み合わせの始端フリー区間と終端フリー区間により特定されるパターンと標準パターンとのパターンマッチングを行う照合手段とを備えたものである。
第9の発明に係る音声認識装置は、前記照合手段が、前記端点フリー区間が出力するすべての始端フリー区間と終端フリー区間の組み合わせにより特定される各パターンと標準パターンとのパターンマッチングを行う構成とされたものである。
第10の発明に係る音声認識装置は、前記端点フリー区間決定手段が、検出された前記山区間のうち、パワーの累積が最大となる山区間を最大山区間とする構成とされたものである。
第11の発明に係る音声認識装置は、前記分析手段が、検出点毎にパワーを出力し、前記端点フリー区間決定手段が、検出された前記山区間のうち、前記検出点毎のパワーのうち上位の所定の個数の検出点のパワーの和が最大となる山区間を最大山区間とする構成とされたものである。
第12の発明に係る音声認識装置は、前記端点フリー区間決定手段が、前記最大山区間以前の山区間が前記閾値を上回る点の近傍に前記始端フリー区間が存在すると仮定し、前記最大山区間以後の山区間が前記閾値を下回る点の近傍に前記終端フリー区間が存在すると仮定する構成とされたものである。
第13の発明に係る音声認識装置は、前記端点フリー区間決定手段が、前記始端フリー区間が存在すると仮定する範囲の幅と前記終端フリー区間が存在すると仮定する範囲の幅とを、各山区間毎に異なる構成とされたものである。
第14の発明に係る音声認識装置は、前記分析手段が、フレーム毎にパワーを出力し、前記端点フリー区間決定手段が、パワーが前記閾値を下回るフレームを前記閾値を下回る点とし、パワーが前記閾値を上回るフレームを前記閾値を上回る点とする構成とされたものである。
発明を実施するための最良の形態
実施例1.
図1は、本発明に係る実施例1の音声認識装置の構成を示すブロック図である。同図において、1は信号の入力を行う信号入力端、2は信号入力端1によって入力された入力信号、3は入力信号2について音響分析を行う分析手段、4は分析手段3によって算出される入力信号の特徴ベクトルの時系列、5は分析手段3によって算出される入力信号のパワーの時系列、6は入力信号のパワーの時系列5に基づいて端点フリー区間を決定する端点フリー区間決定手段、8は端点フリー区間決定手段6によって出力される端点フリー区間情報、9は音声認識のための照合処理において用いられる標準パターンを記憶する標準パターンメモリ、10は音声認識のための照合処理において用いられる標準パターン、11は各単語の標準パターンとのパターンマッチングを行う照合手段である。
本実施例では、特定話者の単語認識を行う場合を説明する。標準パターンメモリ9には、予め認識対象とする各単語の標準パターンREF(i),(i=1,2,3,...,K)として、各単語の特徴ベクトルの時系列が格納されているものとする。ここでKは、標準パターンの数である。特徴ベクトルX(t)は、例えばLPC分析によって得られるLPCケプストラムとする。
次に動作について説明する。信号入力端1から入力信号2を入力すると、分析手段3は入力信号2をA/D変換した後、短い時間区間ごとにフレームと呼ばれる単位に分割して、各フレームごとに音響分析を行ってそのフレームの特徴ベクトルX(t)(t=1,2,3,...,T)の時系列4、およびパワーP(t)(t=1,2,3,...,T)の時系列5を計算して出力する。ここで、Tは入力信号2の全フレーム数である。特徴ベクトルX(t)は、例えばLPC(線形予測)分析によって得られるLPCケプストラムとする。パワーP(t)は、例えばフレーム内の入力信号のディジタル値を2乗和して対数をとることによって得られる。
端点フリー区間決定手段6は、入力信号のパワーP(t)(t=1,2,3,...,T)を入力として、図2に示すように、パワーが予め定めた閾値を越えたフレームが所定数以上連続する区間を、山区間H(i)={B(i),E(i)}(i=1,2,3,...N)として検出する。ここで、B(i)は山区間の始端、すなわちパワーが前記閾値を越えたフレームである。また、E(i)は山区間の終端、すなわちパワーが前記閾値未満となったフレームである。Nは検出された山区間の個数である。図2の例では、N=3である。
次に、端点フリー区間決定手段6は、(1)式あるいは(2)式によって、各山区間PH(i)={B(i),E(i)}(i=1,2,3,...N)のパワー強度PK(i)(i=1,2,3,...N)を計算し、(3)式にしたがってパワー強度が最大の山をパワー強度最大山区間PH(I)として検出する。(2)式において、t(i,j)は各山区間PH(i)={B(i),E(i)}の区間内のフレームで、パワーがj番目に大きいフレームとする。したがって、t(i,1)は、山区間PH(i)内でパワーが最大のフレームとなる。このことより、(2)式は、各山区間について、当該区間内でパワーが大きい上位M個のパワー値を用いてパワー強度を計算していることになる。一方(1)式は、各山区間について、当該区間内の全パワーの和としてパワー強度を計算している。(1)、(2)式のいずれを用いるかについては、音声認識装置の使用時に想定される環境騒音の種類や認識対象とする音声によって、選択すればよい。
本実施例では、パワー強度最大山区間は音声であると仮定するので、例えばパワーの山の継続時間は短いが、瞬間的な信号パワーが大きくなるスパイク状の騒音では(1)式を用い、逆にパワーの山の継続時間は長いが、フレーム毎のパワーは大きくない騒音では(2)式を用いることにより、騒音区間がパワー強度最大山区間とならないようにすることができる。
次に端点フリー区間決定手段6は、(4)、(5)式にしたがって最初の山区間の始端B1から、パワー強度最大山区間の始端B(I)までの区間に、始端マージンbm1,bm2を加えた区間を、始端フリー区間BF={bfL,bfR}として決定する。ここで、bfLは始端フリー区間の先頭フレーム、bfRは始端フリー区間の最終フレームであり、また始端マージンbm1,bm2は、予め定めた0以上の定数である。
次に(6)、(7)式にしたがって、端点フリー区間決定手段6は最後の山区間の終端E(N)から、パワー強度最大山区間の始端E(I)までの区間に、終端マージンem1,em2を加えた区間を、終端フリー区間EF={efL,efR}として決定する。ここで、efLは終端フリー区間の先頭フレーム、efRは終端フリー区間の最終フレームである。終端マージンem1,em2は、予め定めた0以上の定数である。以上の処理により決定された始端フリー区間BFと終端フリー区間を図2に示す。
端点フリー区間決定手段6は、前記始端フリー区間BF={bfL,bfR}と終端フリー区間EF={efL,efR}を、端点フリー区間情報8として出力する。
照合手段11は、特徴ベクトルの時系列4と、端点フリー区間情報8による始端フリー区間BF={bfL,bfR}と終端フリー区間EF={efL,efR}とを入力として、始端フリー区間と終端フリー区間内の全ての始終端の組み合わせで標準パターンメモリ9に格納されている各単語の標準パターン10であるREF(i)とパターンマッチングを行う。この処理を標準パターンREF(i)(i=1,2,3,...,K)の全てに対して順次行い、これら全ての始終端の組み合わせと標準パターンとの照合処理の結果、最も差異の小さい標準パターンを認識結果12として出力する。パターンマッチングの方法としては、例えばDPマッチングを用いる。
以上説明したとおり、本実施例は騒音下において、「パワー強度最大の山は背景騒音ではなく、認識対象とする音声あるいはその一部である」という仮定に基づいて、
(1)パワー強度最大の山の区間内には、始端マージンbm2と終端マージンem1以上の端点フリー区間を設定しない
(2)端点フリーは、パワー最大の山の跨がない、すなわちパワー強度最大の山の後方には、始端フリー区間を含めず、パワー強度最大の山の前方には終端フリー区間を含めないことに基づいて端点フリー区間を制限するものである。
騒音下では、人間の発声は大きくなることが知られており、殆どの騒音下で前記仮定が成立する。本実施例による音声認識装置は、この仮定に基づくことにより、正確な判定が困難な有声音区間の判定を必要とせず、効率的に端点フリー区間が音声の内部に極力含まれないように制限することによって、部分マッチングによる誤認識を低減することができる。
なお本実施例では、パターンマッチングの方法としてDPマッチングを用いたが、HMM(Hidden Markov Model)等の他のパターンマッチング方法に対しても同様の効果が得られる。また連続音声認識や、不特定話者の単語認識や連続音声においても同様の効果が得られる。
実施例2.
次に本発明の別の実施例に係る音声認識装置について説明する。本実施例による音声認識装置では、端点フリー区間決定手段6の動作を以下のように変更する。すなわち、まず端点フリー区間決定手段6は、入力信号のパワーP(t)(t=1,2,3,...,T)を入力として、実施例1と同様の動作によって、パワーが予め定めた閾値を越えたフレームが所定数以上連続する山区間PH(i)={B(i),E(i)}(i=1,2,3,...N)と、パワー強度最大山区間PH(I)を検出する。次に、パワー強度最大山区間PH(I)、およびそれに先行する各山区間の始端B(i),(i=1,2,3,...N)の前後に始端マージンbm1,bm2を加えた区間を、始端フリー区間BF(i)={bfL(i),bfR(i)}(i=1,2,...,I)とする。ここで、bfL(i)はi番目の始端フリー区間の先頭フレームであり、(8)式によって求める。またbfR(i)はi番目の始端フリー区間の最終フレームであって、(9)式によって求める。始端マージンbmL(i),bmR(i)は、予め定めた0以上の定数である。
次に(10)、(11)式にしたがって、パワー強度最大山区間PH(I)、およびそれに後続する各山区間の終端E(i),(i=I,I+1,...,N)の前後に終端マージンem1,em2を加えた区間を、終端フリー区間EF(i)={efL(i),efR(i)}(i=1,2,...,N−I+1)とする。ここで、efL(i)はi番目の終端フリー区間の先頭フレーム、efR(i)はi番目の終端フリー区間の最終フレームである。始端マージンemL(i),emR(i)は、予め定めた0以上の定数である。以上の処理により決定された始端フリー区間と終端フリー区間を図3に示す。
なお、前記始端マージンbmL(i)とbmR(i)は、始端フリー区間BF(i)ごとに異なる値に設定してもよいし、共通の値としてもよい。
始端フリー区間を大きくすると、始端の検出誤りには強くなるが、部分マッチングの危険性が大きくなるというトレードオフの関係にある。1番目の始端フリー区間BF1の左側のマージンbfL1は、音声の外側へのラリー区間であるため、値を大きくしても、部分マッチングの危険性はそれほど増加しない。しかし、1番目の始端フリー区間BF1の右側と2番目以降の始端フリー区間は、音声区間内である可能性があり、始端マージンbmL(i)とbmR(i)の値を大きく設定すると、部分マッチングの可能性が増す。
そこで、2番目以降の始端フリー区間の左右両側の始端マージンと、1番目の始端フリー区間の右側の始端マージンとを、1番目以降の始端フリー区間の左側の始端マージンよりも小さな値若しくは0とすると、内側でのフリー区間が小さくなる、あるいは0となり、部分マッチングを押える効果がある。
同様に、前記終端マージンemL(i)とemR(i)は、終端フリー区間EF(i)ごとに異なる値に設定してもよいし、共通の値としてもよい。
最後の終端フリー区間EF(N−I+1)の右側のマージンefR(N−I+1)は、音声の外側へのフリー区間であるため、値を大きくしても部分マッチングの危険性はそれほど大きくならない。しかし、最後の終端フリー区間の左側と最後以外の終端フリー区間は音声区間内である可能性があるため、終端マージンemL(i)とemR(i)の値を大きく設定すると部分マッチングの可能性が増す。
そこで、最後以外の終端フリー区間の左右両側の終端マージンと最後の終端フリー区間の左側とを、最後の終端フリー区間の右側のマージンよりも小さな値若しくは0とすることにより、内側でのフリー区間が小さくなる、あるいは0となり、部分マッチングを抑える効果がある。
図4に、始端マージンを2番目以降の始端フリー区間の左右両側の始端マージンと、1番目の始端フリー区間の右側の始端マージンを0とし、また終端マージンを最後以外の終端フリー区間の左右両側の終端マージンと、最後の終端フリー区間の左側の終端マージンを0とした場合を示す。
照合手段10は、特徴ベクトルの時系列4と、端点フリー区間情報8である始端フリー区間BF(i)={bfL(i),bfR(i)}(i=1,2,...,I)と、終端フリー区間EF(i)={efL(i),efR(i)}(i=1,2,...,N−I+1)とを入力として、始端フリー区間と終端フリー区間内の全ての始終端の組み合わせにより、標準パターンメモリ9に格納されている各単語の標準パターン10であるREF(i)とパターンマッチングを行う。この処理を標準パターンREF(i),(i=1,2,3,...,K)の全てに対して順次行い、距離値が最小のものを認識結果12として出力する。パターンマッチングとしては、例えばDPマッチングを用いる。
実際の非定常騒音下では、音声の始端と終端でパワーの山の立上りと山の終端が観察されることが多いので、本実施例に係る音声認識装置によれば、実施の形態1で説明した端点フリー区間の制限に加え、始端のフリー区間はパワーの山の立上り前後の区間、終端のフリー区間はパワーの山の終端の前後の区間に制限することによって、さらに部分マッチングによる誤認識を低減することができる。
産業上の利用の可能性
本発明は上記のように構成されているので、正確な判定が困難な有声音区間の判定を必要とせず、効率的に端点フリー区間が音声の内部に極力含まれないように制限することによって、部分マッチングによる誤認識を低減することが可能となる。
また本発明は上記のように構成されているので、全ての始終端の組み合わせの中から、標準パターンと最も差異の小さい始終端の組み合わせを選択することのが可能となる。
また本発明は上記のように構成されているので、パワーの山の継続時間は短いが、瞬間的な信号パワーが大きくなるスパイク状の騒音が発生しうる環境下での音声認識を効率的に行うことが可能となる。
また本発明は上記のように構成されているので、パワーの山の継続時間は長いが、パワーの極大値は大きくない騒音が発生しうる環境下での音声認識を効率的に行うことが可能となる。
また本発明は上記のように構成されているので、始端と終端の検出誤りを少なくすることが可能となる。
また本発明は上記のように構成されているので、始端と終端と検出誤りを少なくしつつ、部分マッチングの危険性も抑えることが、可能となる。
また本発明は上記のように構成されているので、フレーム単位で音響分析を行う音声認識装置に適用することが可能となる。
【図面の簡単な説明】
図1は本発明の実施例1と実施例2による音声認識装置の構成図、
図2は本発明の実施例1の始端フリー区間と終端フリー区間の決定方法の説明図、
図3は本発明の実施例2の始端フリー区間と終端フリー区間の決定方法の説明図、
図4は本発明の実施例2の始端フリー区間と終端フリー区間の決定方法の説明図、
図5は従来の技術による音声認識装置の構成図、
図6は従来の技術による始端フリー区間と終端フリー区間の決定方法の説明図である。
本発明は、騒音下の認識性能を改善する音声認識方法及びその装置に関するものである。
背景技術
音声認識は、入力信号のパワーを予め設定した閾値と比較して閾値以上の区間を音声区間として検出し、予め用意してある標準パターンとパターンマッチングを行うことによってなされる。
しかし騒音下では、騒音のパワーレベルが前記閾値を越えることがあるため、音声区間検出を誤ることとなり、誤認識の原因となるという問題点があった。そのための対策として、音声区間の始端と終端を一意に定めず、始端と終端の取り得る組み合わせの全ての区間に対してパターンマッチングを行う端点フリーと呼ばれる認識方法がある。しかし全ての区間に対してパターンマッチングを行うと「東大阪(ひがしおおさか)」という発声が「大阪(おおさか)」と認識される等の部分マッチングによる誤認識が問題となる。
これを低減するため、従来から始端と終端の取り得る組み合わせの範囲を制限する、すなわち端点フリーの範囲を制限する技術がある。この技術の一例として特開昭63−300295がある。
図5は、特開昭63−300295記載の音声認識装置の一構成例を示すブロック図である。本例では、特定話者の単語認識を行う場合を説明する。信号の入力端1から入力信号2を入力すると、分析手段3は入力信号2をA/D変換し、フレームと呼ぶ短い時間区間ごとに分割して、各フレームごとに音響分析を行い、各フレームごとに特徴ベクトルX(t)(t=1,2,3,...,T)の時系列4、およびパワーP(t)と零交差回数Z(t)(t=1,2,3,...,T)の時系列5を計算して出力する。ここでTは、入力信号2の全フレーム数である。特徴ベクトルX(t)は、例えばLPC分析によって得られるLPCケプストラムとする。零交差回数Z(t)は、有声音区間の検出に用いる。すなわち有声音は低周波数成分にパワーが集中するため、零交差回数Z(t)は少ないので、本例では後述するように、音声パワーが所定値以上でかつ零交差回数Z(t)が少ない区間を有声音であるとみなしている。
有声音決定手段7は、入力信号のパワーP(t)と零交差回数Z(t)(t=1,2,3,...,T)の時系列5とを入力として、図6に示すように、音声パワーが予め定めた閾値を上回るフレームを音声区間の始端PB、閾値を下回るフレームを音声区間の終端端PEとして検出する。また検出した音声区間内で、零交差回数Z(t)が予め定めた閾値未満となるフレームを有声音区間の始端ZB、閾値以上となるフレームを有声音区間の終端ZEとして検出する。
そして、前記音声区間の始端PBから有声音区間の始端ZBまでの区間を、始端フリー区間Bfree={PB,ZB}として決定する。ここでPBは、始端フリー区間の先頭フレーム、ZBは始端フリー区間の最終フレームである。また有声音区間の終端ZEから音声区間の終端PEまでの区間を、終端フリー区間Efree={ZE,PE}として決定する。ここでZEは、終端フリー区間の先頭フレーム、PEは終端フリー区間の最終フレームである。
有声音決定手段7は、前記始端フリー区間Bfree={PB,ZB}と終端フリー区間Efree={ZE,PE}を端点フリー区間情報8として出力する。
照合手段6は、特徴ベクトルの時系列4と、端点フリー区間情報8である始端フリー区間Bfree={PB,ZB}と、終端フリー区間Efree={ZE,PE}とを入力として、始端フリー区間と終端フリー区間内の全ての始終端の組み合わせで、標準パターンメモリ9に格納されている標準パターン10と、例えばDPマッチングによるパターンマッチングを行い、距離値が最小のものを認識結果とする。なお、標準パターンメモリ9には、予め認識対象とする各単語の標準パターンREF(i),(i=1,2,3,...,K)として、各単語の特徴ベクトルの時系列が格納されているものとする。ここでKは、標準パターンの数である。特徴ベクトルX(t)は、例えばLPC(Linear Predictive Coding)分析によって得られるLPCケプストラムとする。
以上述べたように、従来技術では検出された音声区間と有声音区間の間に正しい音声区間の始終端が存在すると仮定して、端点フリー区間を制限している。しかし非定常騒音の種類は様々で、自動車内騒音のように、スペクトルの低域にパワーが集中している騒音では零交差回数が少ないため、有声音区間と判定される危険性が大きい。騒音が有声音と判定された場合には、騒音区間を含めてパターンマッチングを行うため、誤認識の原因となる。
この発明は上記課題を解決をするためになされたもので、正確な判定が困難な有声音区間の判定を必要とせず、効率的に端点フリー区間を制限して、音声認識精度を改善する音声認識装置を提供することを目的とする。
発明の開示
第1の発明に係る音声認識方法は、入力音声を音響分析しこの入力信号についてパワーを出力する分析ステップと、前記パワーが所定の閾値を連続して超える区間を山区間として検出し、パワーが最大となる山区間を最大山区間として、その最大山区間が前記閾値を下回る点以前に始端フリー区間が存在すると仮定し、前記最大山区間が前記閾値を上回る点以降に終端フリー区間が存在すると仮定して始端フリー区間と終端フリー区間の組み合わせを出力する端点フリー区間決定ステップと、前記組み合わせの始端フリー区間と終端フリー区間により特定されるパターンと標準パターンとのパターンマッチングを行う照合ステップとを備えたものである。
第2の発明に係る音声認識方法は、前記照合ステップが、前記端点フリー区間が出力するすべての始端フリー区間と終端フリー区間の組み合わせにより特定される各パターンと標準パターンとのパターンマッチングを行う構成とされたものである。
第3の発明に係る音声認識方法は、前記端点フリー区間決定ステップが、検出された前記山区間のうち、パワーの累積が最大となる山区間を最大山区間とする構成とされたものである。
第4の発明に係る音声認識方法は、前記分析ステップが、検出点毎にパワーを出力し、前記端点フリー区間決定手段が、検出された前記山区間のうち、前記検出点毎のパワーのうち上位の所定の個数の検出点のパワーの和が最大となる山区間を最大山区間とする構成とされたものである。
第5の発明に係る音声認識方法は、前記端点フリー区間決定ステップが、前記最大山区間以前の山区間が前記閾値を上回る点の近傍に前記始端フリー区間が存在すると仮定し、前記最大山区間以後の山区間が前記閾値を下回る点の近傍に前記終端フリー区間が存在すると仮定する構成とされたものである。
第6の発明に係る音声認識方法は、前記端点フリー区間決定ステップが、前記始端フリー区間が存在すると仮定する範囲の幅と前記終端フリー区間が存在すると仮定する範囲の幅とを、各山区間毎に異なる構成とされたものである。
第7の発明に係る音声認識方法は、前記分析ステップが、フレーム毎にパワーを出力し、前記端点フリー区間決定手段が、パワーが前記閾値を下回るフレームを前記閾値を下回る点とし、パワーが前記閾値を上回るフレームを前記閾値を上回る点とする構成とされたものである。
第8の発明に係る音声認識装置は、入力音声を音響分析しこの入力信号についてパワーを出力する分析手段と、前記パワーが所定の閾値を連続して超える区間を山区間として検出し、パワーが最大となる山区間を最大山区間として、その最大山区間が前記閾値を下回る点以前に始端フリー区間が存在すると仮定し、前記最大山区間が前記閾値を上回る点以降に終端フリー区間が存在すると仮定して始端フリー区間と終端フリー区間の組み合わせを出力する端点フリー区間決定手段と、前記組み合わせの始端フリー区間と終端フリー区間により特定されるパターンと標準パターンとのパターンマッチングを行う照合手段とを備えたものである。
第9の発明に係る音声認識装置は、前記照合手段が、前記端点フリー区間が出力するすべての始端フリー区間と終端フリー区間の組み合わせにより特定される各パターンと標準パターンとのパターンマッチングを行う構成とされたものである。
第10の発明に係る音声認識装置は、前記端点フリー区間決定手段が、検出された前記山区間のうち、パワーの累積が最大となる山区間を最大山区間とする構成とされたものである。
第11の発明に係る音声認識装置は、前記分析手段が、検出点毎にパワーを出力し、前記端点フリー区間決定手段が、検出された前記山区間のうち、前記検出点毎のパワーのうち上位の所定の個数の検出点のパワーの和が最大となる山区間を最大山区間とする構成とされたものである。
第12の発明に係る音声認識装置は、前記端点フリー区間決定手段が、前記最大山区間以前の山区間が前記閾値を上回る点の近傍に前記始端フリー区間が存在すると仮定し、前記最大山区間以後の山区間が前記閾値を下回る点の近傍に前記終端フリー区間が存在すると仮定する構成とされたものである。
第13の発明に係る音声認識装置は、前記端点フリー区間決定手段が、前記始端フリー区間が存在すると仮定する範囲の幅と前記終端フリー区間が存在すると仮定する範囲の幅とを、各山区間毎に異なる構成とされたものである。
第14の発明に係る音声認識装置は、前記分析手段が、フレーム毎にパワーを出力し、前記端点フリー区間決定手段が、パワーが前記閾値を下回るフレームを前記閾値を下回る点とし、パワーが前記閾値を上回るフレームを前記閾値を上回る点とする構成とされたものである。
発明を実施するための最良の形態
実施例1.
図1は、本発明に係る実施例1の音声認識装置の構成を示すブロック図である。同図において、1は信号の入力を行う信号入力端、2は信号入力端1によって入力された入力信号、3は入力信号2について音響分析を行う分析手段、4は分析手段3によって算出される入力信号の特徴ベクトルの時系列、5は分析手段3によって算出される入力信号のパワーの時系列、6は入力信号のパワーの時系列5に基づいて端点フリー区間を決定する端点フリー区間決定手段、8は端点フリー区間決定手段6によって出力される端点フリー区間情報、9は音声認識のための照合処理において用いられる標準パターンを記憶する標準パターンメモリ、10は音声認識のための照合処理において用いられる標準パターン、11は各単語の標準パターンとのパターンマッチングを行う照合手段である。
本実施例では、特定話者の単語認識を行う場合を説明する。標準パターンメモリ9には、予め認識対象とする各単語の標準パターンREF(i),(i=1,2,3,...,K)として、各単語の特徴ベクトルの時系列が格納されているものとする。ここでKは、標準パターンの数である。特徴ベクトルX(t)は、例えばLPC分析によって得られるLPCケプストラムとする。
次に動作について説明する。信号入力端1から入力信号2を入力すると、分析手段3は入力信号2をA/D変換した後、短い時間区間ごとにフレームと呼ばれる単位に分割して、各フレームごとに音響分析を行ってそのフレームの特徴ベクトルX(t)(t=1,2,3,...,T)の時系列4、およびパワーP(t)(t=1,2,3,...,T)の時系列5を計算して出力する。ここで、Tは入力信号2の全フレーム数である。特徴ベクトルX(t)は、例えばLPC(線形予測)分析によって得られるLPCケプストラムとする。パワーP(t)は、例えばフレーム内の入力信号のディジタル値を2乗和して対数をとることによって得られる。
端点フリー区間決定手段6は、入力信号のパワーP(t)(t=1,2,3,...,T)を入力として、図2に示すように、パワーが予め定めた閾値を越えたフレームが所定数以上連続する区間を、山区間H(i)={B(i),E(i)}(i=1,2,3,...N)として検出する。ここで、B(i)は山区間の始端、すなわちパワーが前記閾値を越えたフレームである。また、E(i)は山区間の終端、すなわちパワーが前記閾値未満となったフレームである。Nは検出された山区間の個数である。図2の例では、N=3である。
次に、端点フリー区間決定手段6は、(1)式あるいは(2)式によって、各山区間PH(i)={B(i),E(i)}(i=1,2,3,...N)のパワー強度PK(i)(i=1,2,3,...N)を計算し、(3)式にしたがってパワー強度が最大の山をパワー強度最大山区間PH(I)として検出する。(2)式において、t(i,j)は各山区間PH(i)={B(i),E(i)}の区間内のフレームで、パワーがj番目に大きいフレームとする。したがって、t(i,1)は、山区間PH(i)内でパワーが最大のフレームとなる。このことより、(2)式は、各山区間について、当該区間内でパワーが大きい上位M個のパワー値を用いてパワー強度を計算していることになる。一方(1)式は、各山区間について、当該区間内の全パワーの和としてパワー強度を計算している。(1)、(2)式のいずれを用いるかについては、音声認識装置の使用時に想定される環境騒音の種類や認識対象とする音声によって、選択すればよい。
本実施例では、パワー強度最大山区間は音声であると仮定するので、例えばパワーの山の継続時間は短いが、瞬間的な信号パワーが大きくなるスパイク状の騒音では(1)式を用い、逆にパワーの山の継続時間は長いが、フレーム毎のパワーは大きくない騒音では(2)式を用いることにより、騒音区間がパワー強度最大山区間とならないようにすることができる。
次に端点フリー区間決定手段6は、(4)、(5)式にしたがって最初の山区間の始端B1から、パワー強度最大山区間の始端B(I)までの区間に、始端マージンbm1,bm2を加えた区間を、始端フリー区間BF={bfL,bfR}として決定する。ここで、bfLは始端フリー区間の先頭フレーム、bfRは始端フリー区間の最終フレームであり、また始端マージンbm1,bm2は、予め定めた0以上の定数である。
次に(6)、(7)式にしたがって、端点フリー区間決定手段6は最後の山区間の終端E(N)から、パワー強度最大山区間の始端E(I)までの区間に、終端マージンem1,em2を加えた区間を、終端フリー区間EF={efL,efR}として決定する。ここで、efLは終端フリー区間の先頭フレーム、efRは終端フリー区間の最終フレームである。終端マージンem1,em2は、予め定めた0以上の定数である。以上の処理により決定された始端フリー区間BFと終端フリー区間を図2に示す。
端点フリー区間決定手段6は、前記始端フリー区間BF={bfL,bfR}と終端フリー区間EF={efL,efR}を、端点フリー区間情報8として出力する。
照合手段11は、特徴ベクトルの時系列4と、端点フリー区間情報8による始端フリー区間BF={bfL,bfR}と終端フリー区間EF={efL,efR}とを入力として、始端フリー区間と終端フリー区間内の全ての始終端の組み合わせで標準パターンメモリ9に格納されている各単語の標準パターン10であるREF(i)とパターンマッチングを行う。この処理を標準パターンREF(i)(i=1,2,3,...,K)の全てに対して順次行い、これら全ての始終端の組み合わせと標準パターンとの照合処理の結果、最も差異の小さい標準パターンを認識結果12として出力する。パターンマッチングの方法としては、例えばDPマッチングを用いる。
以上説明したとおり、本実施例は騒音下において、「パワー強度最大の山は背景騒音ではなく、認識対象とする音声あるいはその一部である」という仮定に基づいて、
(1)パワー強度最大の山の区間内には、始端マージンbm2と終端マージンem1以上の端点フリー区間を設定しない
(2)端点フリーは、パワー最大の山の跨がない、すなわちパワー強度最大の山の後方には、始端フリー区間を含めず、パワー強度最大の山の前方には終端フリー区間を含めないことに基づいて端点フリー区間を制限するものである。
騒音下では、人間の発声は大きくなることが知られており、殆どの騒音下で前記仮定が成立する。本実施例による音声認識装置は、この仮定に基づくことにより、正確な判定が困難な有声音区間の判定を必要とせず、効率的に端点フリー区間が音声の内部に極力含まれないように制限することによって、部分マッチングによる誤認識を低減することができる。
なお本実施例では、パターンマッチングの方法としてDPマッチングを用いたが、HMM(Hidden Markov Model)等の他のパターンマッチング方法に対しても同様の効果が得られる。また連続音声認識や、不特定話者の単語認識や連続音声においても同様の効果が得られる。
実施例2.
次に本発明の別の実施例に係る音声認識装置について説明する。本実施例による音声認識装置では、端点フリー区間決定手段6の動作を以下のように変更する。すなわち、まず端点フリー区間決定手段6は、入力信号のパワーP(t)(t=1,2,3,...,T)を入力として、実施例1と同様の動作によって、パワーが予め定めた閾値を越えたフレームが所定数以上連続する山区間PH(i)={B(i),E(i)}(i=1,2,3,...N)と、パワー強度最大山区間PH(I)を検出する。次に、パワー強度最大山区間PH(I)、およびそれに先行する各山区間の始端B(i),(i=1,2,3,...N)の前後に始端マージンbm1,bm2を加えた区間を、始端フリー区間BF(i)={bfL(i),bfR(i)}(i=1,2,...,I)とする。ここで、bfL(i)はi番目の始端フリー区間の先頭フレームであり、(8)式によって求める。またbfR(i)はi番目の始端フリー区間の最終フレームであって、(9)式によって求める。始端マージンbmL(i),bmR(i)は、予め定めた0以上の定数である。
次に(10)、(11)式にしたがって、パワー強度最大山区間PH(I)、およびそれに後続する各山区間の終端E(i),(i=I,I+1,...,N)の前後に終端マージンem1,em2を加えた区間を、終端フリー区間EF(i)={efL(i),efR(i)}(i=1,2,...,N−I+1)とする。ここで、efL(i)はi番目の終端フリー区間の先頭フレーム、efR(i)はi番目の終端フリー区間の最終フレームである。始端マージンemL(i),emR(i)は、予め定めた0以上の定数である。以上の処理により決定された始端フリー区間と終端フリー区間を図3に示す。
なお、前記始端マージンbmL(i)とbmR(i)は、始端フリー区間BF(i)ごとに異なる値に設定してもよいし、共通の値としてもよい。
始端フリー区間を大きくすると、始端の検出誤りには強くなるが、部分マッチングの危険性が大きくなるというトレードオフの関係にある。1番目の始端フリー区間BF1の左側のマージンbfL1は、音声の外側へのラリー区間であるため、値を大きくしても、部分マッチングの危険性はそれほど増加しない。しかし、1番目の始端フリー区間BF1の右側と2番目以降の始端フリー区間は、音声区間内である可能性があり、始端マージンbmL(i)とbmR(i)の値を大きく設定すると、部分マッチングの可能性が増す。
そこで、2番目以降の始端フリー区間の左右両側の始端マージンと、1番目の始端フリー区間の右側の始端マージンとを、1番目以降の始端フリー区間の左側の始端マージンよりも小さな値若しくは0とすると、内側でのフリー区間が小さくなる、あるいは0となり、部分マッチングを押える効果がある。
同様に、前記終端マージンemL(i)とemR(i)は、終端フリー区間EF(i)ごとに異なる値に設定してもよいし、共通の値としてもよい。
最後の終端フリー区間EF(N−I+1)の右側のマージンefR(N−I+1)は、音声の外側へのフリー区間であるため、値を大きくしても部分マッチングの危険性はそれほど大きくならない。しかし、最後の終端フリー区間の左側と最後以外の終端フリー区間は音声区間内である可能性があるため、終端マージンemL(i)とemR(i)の値を大きく設定すると部分マッチングの可能性が増す。
そこで、最後以外の終端フリー区間の左右両側の終端マージンと最後の終端フリー区間の左側とを、最後の終端フリー区間の右側のマージンよりも小さな値若しくは0とすることにより、内側でのフリー区間が小さくなる、あるいは0となり、部分マッチングを抑える効果がある。
図4に、始端マージンを2番目以降の始端フリー区間の左右両側の始端マージンと、1番目の始端フリー区間の右側の始端マージンを0とし、また終端マージンを最後以外の終端フリー区間の左右両側の終端マージンと、最後の終端フリー区間の左側の終端マージンを0とした場合を示す。
照合手段10は、特徴ベクトルの時系列4と、端点フリー区間情報8である始端フリー区間BF(i)={bfL(i),bfR(i)}(i=1,2,...,I)と、終端フリー区間EF(i)={efL(i),efR(i)}(i=1,2,...,N−I+1)とを入力として、始端フリー区間と終端フリー区間内の全ての始終端の組み合わせにより、標準パターンメモリ9に格納されている各単語の標準パターン10であるREF(i)とパターンマッチングを行う。この処理を標準パターンREF(i),(i=1,2,3,...,K)の全てに対して順次行い、距離値が最小のものを認識結果12として出力する。パターンマッチングとしては、例えばDPマッチングを用いる。
実際の非定常騒音下では、音声の始端と終端でパワーの山の立上りと山の終端が観察されることが多いので、本実施例に係る音声認識装置によれば、実施の形態1で説明した端点フリー区間の制限に加え、始端のフリー区間はパワーの山の立上り前後の区間、終端のフリー区間はパワーの山の終端の前後の区間に制限することによって、さらに部分マッチングによる誤認識を低減することができる。
産業上の利用の可能性
本発明は上記のように構成されているので、正確な判定が困難な有声音区間の判定を必要とせず、効率的に端点フリー区間が音声の内部に極力含まれないように制限することによって、部分マッチングによる誤認識を低減することが可能となる。
また本発明は上記のように構成されているので、全ての始終端の組み合わせの中から、標準パターンと最も差異の小さい始終端の組み合わせを選択することのが可能となる。
また本発明は上記のように構成されているので、パワーの山の継続時間は短いが、瞬間的な信号パワーが大きくなるスパイク状の騒音が発生しうる環境下での音声認識を効率的に行うことが可能となる。
また本発明は上記のように構成されているので、パワーの山の継続時間は長いが、パワーの極大値は大きくない騒音が発生しうる環境下での音声認識を効率的に行うことが可能となる。
また本発明は上記のように構成されているので、始端と終端の検出誤りを少なくすることが可能となる。
また本発明は上記のように構成されているので、始端と終端と検出誤りを少なくしつつ、部分マッチングの危険性も抑えることが、可能となる。
また本発明は上記のように構成されているので、フレーム単位で音響分析を行う音声認識装置に適用することが可能となる。
【図面の簡単な説明】
図1は本発明の実施例1と実施例2による音声認識装置の構成図、
図2は本発明の実施例1の始端フリー区間と終端フリー区間の決定方法の説明図、
図3は本発明の実施例2の始端フリー区間と終端フリー区間の決定方法の説明図、
図4は本発明の実施例2の始端フリー区間と終端フリー区間の決定方法の説明図、
図5は従来の技術による音声認識装置の構成図、
図6は従来の技術による始端フリー区間と終端フリー区間の決定方法の説明図である。
Claims (14)
- 入力音声を音響分析しこの入力信号についてパワーを出力する分析ステップと、
前記パワーが所定の閾値を連続して超える区間を山区間として検出し、パワーが最大となる山区間を最大山区間として、その最大山区間が前記閾値を下回る点以前に始端フリー区間が存在すると仮定し、前記最大山区間が前記閾値を上回る点以降に終端フリー区間が存在すると仮定して始端フリー区間と終端フリー区間の組み合わせを出力する端点フリー区間決定ステップと、
前記組み合わせの始端フリー区間と終端フリー区間により特定されるパターンと標準パターンとのパターンマッチングを行う照合ステップとを備えたことを特徴とする音声認識方法。 - 前記端点フリー区間決定ステップは、始端フリー区間と終端フリー区間の組み合わせを複数出力し、前記照合ステップは、前記端点フリー区間決定ステップが出力するすべての始端フリー区間と終端フリー区間の組み合わせにより特定される各パターンと標準パターンとのパターンマッチングを行う構成とされたことを特徴とする請求の範囲第1項記載の音声認識方法。
- 前記端点フリー区間決定ステップは、検出された前記山区間のうち、パワーの累積が最大となる山区間を最大山区間とする構成とされたことを特徴とする請求の範囲第1項乃至請求の範囲第2項のいずれか一記載の音声認識方法。
- 前記分析ステップは、検出点毎にパワーを出力し、前記端点フリー区間決定手段は、検出された前記山区間のうち、前記検出点毎のパワーのうち上位の所定の個数の検出点のパワーの和が最大となる山区間を最大山区間とする構成とされたことを特徴とする請求の範囲第1項乃至請求の範囲第2項のいずれか一記載の音声認識方法。
- 前記端点フリー区間決定ステップは、前記最大山区間以前の山区間が前記閾値を上回る点の近傍に前記始端フリー区間が存在すると仮定し、前記最大山区間以後の山区間が前記閾値を下回る点の近傍に前記終端フリー区間が存在すると仮定する構成とされたことを特徴とする請求の範囲第1項乃至請求の範囲第4項のいずれか一記載の音声認識方法。
- 前記端点フリー区間決定ステップは、前記始端フリー区間が存在すると仮定する範囲の幅と前記終端フリー区間が存在すると仮定する範囲の幅とを、各山区間毎に異なる構成とされたことを特徴とする請求の範囲第1項乃至請求の範囲第4項のいずれか一記載の音声認識方法。
- 前記分析ステップは、フレーム毎にパワーを出力し、前記端点フリー区間決定手段は、パワーが前記閾値を下回るフレームを前記閾値を下回る点とし、パワーが前記閾値を上回るフレームを前記閾値を上回る点とする構成とされたことを特徴とする請求の範囲第1項乃至請求の範囲第6項のいずれか一記載の音声認識方法。
- 入力音声を音響分析しこの入力信号についてパワーを出力する分析手段と、
前記パワーが所定の閾値を連続して超える区間を山区間として検出し、パワーが最大となる山区間を最大山区間として、その最大山区間が前記閾値を下回る点以前に始端フリー区間が存在すると仮定し、前記最大山区間が前記閾値を上回る点以降に終端フリー区間が存在すると仮定して始端フリー区間と終端フリー区間の組み合わせを出力する端点フリー区間決定手段と、
前記組み合わせの始端フリー区間と終端フリー区間により特定されるパターンと標準パターンとのパターンマッチングを行う照合手段とを備えたことを特徴とする音声認識装置。 - 前記端点フリー区間決定手段は、始端フリー区間と終端フリー区間の組み合わせを複数出力し、前記照合手段は、前記端点フリー区間決定4手段が出力するすべての始端フリー区間と終端フリー区間の組み合わせにより特定される各パターンと標準パターンとのパターンマッチングを行う構成とされたことを特徴とする請求の範囲第8項記載の音声認識装置。
- 前記端点フリー区間決定手段は、検出された前記山区間のうち、パワーの累積が最大となる山区間を最大山区間とする構成とされたことを特徴とする請求の範囲第8項乃至請求の範囲第9項のいずれか一記載の音声認識装置。
- 前記分析手段は、検出点毎にパワーを出力し、
前記端点フリー区間決定手段は、検出された前記山区間のうち、前記検出点毎のパワーのうち上位の所定の個数の検出点のパワーの和が最大となる山区間を最大山区間とする構成とされたことを特徴とする請求の範囲第8項乃至請求の範囲第9項のいずれか一記載の音声認識装置。 - 前記端点フリー区間決定手段は、前記最大山区間以前の山区間が前記閾値を上回る点の近傍に前記始端フリー区間が存在すると仮定し、前記最大山区間以後の山区間が前記閾値を下回る点の近傍に前記終端フリー区間が存在すると仮定する構成とされたことを特徴とする請求の範囲第8項乃至請求の範囲第11項のいずれか一記載の音声認識装置。
- 前記端点フリー区間決定手段は、前記始端フリー区間が存在すると仮定する範囲の幅と前記終端フリー区間が存在すると仮定する範囲の幅とを、各山区間毎に異なる構成とされたことを特徴とする請求の範囲第8項乃至請求の範囲第11項のいずれか一記載の音声認識装置。
- 前記分析手段は、フレーム毎にパワーを出力し、前記端点フリー区間決定手段は、パワーが前記閾値を下回るフレームを前記閾値を下回る点とし、パワーが前記閾値を上回るフレームを前記閾値を上回る点とする構成とされたことを特徴とする請求の範囲第8項乃至請求の範囲第13項のいずれか一記載の音声認識装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2002/005847 WO2003107326A1 (ja) | 2002-06-12 | 2002-06-12 | 音声認識方法及びその装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2003107326A1 true JPWO2003107326A1 (ja) | 2005-10-20 |
Family
ID=29727345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004514058A Withdrawn JPWO2003107326A1 (ja) | 2002-06-12 | 2002-06-12 | 音声認識方法及びその装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20050165604A1 (ja) |
EP (1) | EP1513135A1 (ja) |
JP (1) | JPWO2003107326A1 (ja) |
CN (1) | CN1628337A (ja) |
WO (1) | WO2003107326A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3673507B2 (ja) * | 2002-05-16 | 2005-07-20 | 独立行政法人科学技術振興機構 | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム |
CN100580770C (zh) * | 2005-08-08 | 2010-01-13 | 中国科学院声学研究所 | 基于能量及谐波的语音端点检测方法 |
KR101992676B1 (ko) * | 2012-07-26 | 2019-06-25 | 삼성전자주식회사 | 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치 |
WO2014069120A1 (ja) * | 2012-10-31 | 2014-05-08 | 日本電気株式会社 | 分析対象決定装置及び分析対象決定方法 |
US20150279391A1 (en) * | 2012-10-31 | 2015-10-01 | Nec Corporation | Dissatisfying conversation determination device and dissatisfying conversation determination method |
WO2014069122A1 (ja) * | 2012-10-31 | 2014-05-08 | 日本電気株式会社 | 表現分類装置、表現分類方法、不満検出装置及び不満検出方法 |
WO2014069076A1 (ja) * | 2012-10-31 | 2014-05-08 | 日本電気株式会社 | 会話分析装置及び会話分析方法 |
US20140278393A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System |
US9786274B2 (en) * | 2015-06-11 | 2017-10-10 | International Business Machines Corporation | Analysis of professional-client interactions |
TWI672690B (zh) * | 2018-03-21 | 2019-09-21 | 塞席爾商元鼎音訊股份有限公司 | 人工智慧語音互動之方法、電腦程式產品及其近端電子裝置 |
CN108877778B (zh) * | 2018-06-13 | 2019-09-17 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法及设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61143800A (ja) * | 1984-12-18 | 1986-07-01 | 株式会社東芝 | 音声認識装置 |
JPH06105394B2 (ja) * | 1986-03-19 | 1994-12-21 | 株式会社東芝 | 音声認識方式 |
JPH0293696A (ja) * | 1988-09-30 | 1990-04-04 | Sanyo Electric Co Ltd | 音声認識装置 |
EP0475759B1 (en) * | 1990-09-13 | 1998-01-07 | Oki Electric Industry Co., Ltd. | Phoneme discrimination method |
JPH08292787A (ja) * | 1995-04-20 | 1996-11-05 | Sanyo Electric Co Ltd | 音声・非音声判別方法 |
JP3789246B2 (ja) * | 1999-02-25 | 2006-06-21 | 株式会社リコー | 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体 |
-
2002
- 2002-06-12 WO PCT/JP2002/005847 patent/WO2003107326A1/ja not_active Application Discontinuation
- 2002-06-12 US US10/511,158 patent/US20050165604A1/en not_active Abandoned
- 2002-06-12 JP JP2004514058A patent/JPWO2003107326A1/ja not_active Withdrawn
- 2002-06-12 EP EP02738666A patent/EP1513135A1/en not_active Withdrawn
- 2002-06-12 CN CNA028291026A patent/CN1628337A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2003107326A1 (ja) | 2003-12-24 |
EP1513135A1 (en) | 2005-03-09 |
US20050165604A1 (en) | 2005-07-28 |
CN1628337A (zh) | 2005-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20090313016A1 (en) | System and Method for Detecting Repeated Patterns in Dialog Systems | |
CN105529028A (zh) | 语音解析方法和装置 | |
US8473282B2 (en) | Sound processing device and program | |
JPH07334184A (ja) | 音響カテゴリ平均値計算装置及び適応化装置 | |
JPWO2003107326A1 (ja) | 音声認識方法及びその装置 | |
Moattar et al. | A new approach for robust realtime voice activity detection using spectral pattern | |
CN116490920A (zh) | 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质 | |
EP3574499B1 (en) | Methods and apparatus for asr with embedded noise reduction | |
US5845092A (en) | Endpoint detection in a stand-alone real-time voice recognition system | |
JP5282523B2 (ja) | 基本周波数抽出方法、基本周波数抽出装置、およびプログラム | |
JP2996019B2 (ja) | 音声認識装置 | |
KR20180127020A (ko) | 자연어 대화체 음성 인식 방법 및 장치 | |
JP5621786B2 (ja) | 音声検出装置、音声検出方法、および音声検出プログラム | |
JPH03120598A (ja) | 音声認識方法及び装置 | |
JPH05119792A (ja) | 音声認識装置 | |
JPS60114900A (ja) | 有音・無音判定法 | |
JP2006010739A (ja) | 音声認識装置 | |
CN112489692A (zh) | 语音端点检测方法和装置 | |
CN106920558A (zh) | 关键词识别方法及装置 | |
JP5157474B2 (ja) | 音処理装置およびプログラム | |
JP2008070597A (ja) | 音声認証装置、音声認証方法およびプログラム | |
JP2666296B2 (ja) | 音声認識装置 | |
US11195545B2 (en) | Method and apparatus for detecting an end of an utterance | |
JP5157475B2 (ja) | 音処理装置およびプログラム | |
KR20010091093A (ko) | 음성 인식 및 끝점 검출방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20051006 |