WO2003107326A1

WO2003107326A1 - 音声認識方法及びその装置

Info

Publication number: WO2003107326A1
Application number: PCT/JP2002/005847
Authority: WO
Inventors: 利行花沢
Original assignee: 三菱電機株式会社
Priority date: 2002-06-12
Filing date: 2002-06-12
Publication date: 2003-12-24
Also published as: JPWO2003107326A1; US20050165604A1; EP1513135A1; CN1628337A

Description

明細書

音声認識方法及びその装置技術分野

本発明は、騒音下の認識性能を改善する音声認識方法及びその装置に関するものである。背景技術

音声認識は、入力信号のパワーを予め設定した閾値と比較して閾値以上の区間を音声区間として検出し、予め用意してある標準パターンとパターンマッチングを行うことによってなされる。

しかし騒音下では、騒音のパワーレベルが前記閾値を越えることがあるため、音声区間検出を誤ることとなり、誤認識の原因となるという問題点があった。そのための対策として、音声区間の始端と終端を一意に定めず、始端と終端の取り得る組み合わせの全ての区間に対してパターンマツチングを行う端点フリーと呼ばれる認識方法がある。しかし全ての区間に対してパターンマッチングを行うと「東大阪（ひがしおおさか）」という発声が「大阪（おおさか）」と認識される等の部分マッチングによる誤認識が問題となる , これを低減するため、従来から始端と終端の取り得る組み合わせの範囲を制限する、すなわち端点フリーの範囲を制限する技術がある。この技術の一例として特開昭 6 3 - 3 0 0 2 9 5がある。

図 5は、特開昭 6 3 - 3 0 0 2 9 5記載の音声認識装置の一構成例を示すブロック図である。本例では、特定話者の単語認識を行う場合を説明する。信号の入力端 1から入力信号 2を入力'すると、分析手段 3は入力信号 2を A/D変換し、フレームと呼ぶ短い時間区間ごとに分割して、各フレームごとに音響分析を行い、各フレームごとに特徴べクトル X(t) = 1 ,2 ,3，... , ）の時系列 4、およびパワー P(t)と零交差回数 Z (t) (t二 1，2，3，... ,T)の時系列 5を計算して出力する。ここで Τ は、入力信号 2の全フレーム数である。特徴べクトル X(t)は、例えば LPC分析によって得られる LPC ケプストラムとする。零交差回数 z(t)は、有声音区間の検出に用いる。すなわち有声音は低周波数成分にパワーが集中するため、零交差回数 z(t)は少ないので、本例では後述するように、音声パワーが所定値以上でかつ零交差回数 z(t)が少ない区間を有声音であるとみなしている。

有声音決定手段 7 は、入力信号のパワー: P(t)と零交差回数 Z(t) (t= l ,2，3 , ...，T)の時系列 5 とを入力として、図 6 に示すように、音声パワーが予め定めた閾値を上回るフレームを音声区間の始端 PB、閾値を下回るフレームを音声区間の終端端 PE として検出する。また検出した音声区間内で、零交差回数 Z(t)が予め定めた閾値未満となるフレームを有声音区間の始端 ZB、閾値以上となるフレームを有声音区間の終端 ZE として検出する。

そして、前記音声区間の始端 PB から有声音区間の始端 ZB までの区間を、始端フリ一区間 Bfree = {PB , B}として決定する。こ,こで： PBは、始端フリー区間の先頭フレーム、 ZB は始端フリー区間の最終フレームである。また有声音区間の終端 ZE から音声区間の終端 PE までの区間を、終端フリー区間 Efree二 {ZE, PE}として決定する。ここで ZE は、終端フリー区間の先頭フレーム、 PE は終端フリー区間の最終フレームである。

有声音決定手段 7 は、前記始端フリー区間 Bむ ee={PB， ZB}と終端フリ一区間 Efree={ZE, PE}を端点フリ一区間情報 8 として出力する。

照合手段 6 は、特徴べクトルの時系列 4 と、端点フリ一区間情報 8である始端フリ一区間 Bfree={PB ,ZB}と、終端フリ一区間 Efree = {ZE ,PE}とを入力として、始端フリー区間と終端フリ一区間内の全ての始終端の組み合わせで、標準パターンメモリ 9 に格納されている標準パターン 1 0 と、例えば DP マッチングによるパターンマッチングを行い、距離値が最小のものを認識結果とする。なお、標準パターンメモリ 9 には、予め認識対象とする各単語の標準パターン REF(i)，（i= l，2，3，... ,K)として、各単語の特徴べクトルの時系列が格納されているものとする。ここで Kは、標準パターンの数である。特徴べクトル X(t)は、例えば LPC(Linear Predictive Coding)分析によって得られる LPCケプストラムとする。

以上述べたように、従来技術では検出された音声区間と有声音区間の間に正しい音声区間の始終端が存在すると仮定して、端点フリ一区間を制限している。しかし非定常騷音の種類は様々で、自動車内騷音のように、スペクトルの低域にパワーが集中している騷音では零交差回数が少ないため、有声音区間と判定される危険性が大きい。騒音が有声音と判定された場合には、騒音区間を含めてパターンマツチングを行うため、誤認識の原因となる。

この発明は上記課題を解決をするためになされたもので、正確な判定が困難な有声音お間の判定を必要とせず、効率的に端点フリー区間を制限して、音声認識精度を改善する音声認識装置を提供することを目的とする。発明の開示

第 1 の発明に係る音声認識方法は、入力音声を音響分析しこの入力信号についてパワーを出力する分析ステップと、前記パワーが所定の閾値を連続して超える区間を山区間として検出し、パワーが最大となる山区間を最大山区間として、その最大山区間が前記閾値を下回る点以前に始端フリ —区間が存在すると仮定し、前記最大山区間が前記閾値を上回る点以降に終端フリ一区間が存在すると仮定して始端フリー区間と終端フリー区間の組み合わせを出力する端点フリー区間決定ステップと、前記組み合わせの始端フリー区間と終端フリー区間により特定されるパターンと標準パターンとのパターンマッチングを行う照合ステップとを備えたものである。

第 2の発明に係る音声認識方法は、前記照合ステツプが、前記端点フリ一区間が出力するすべての始端フリー区間と終端フリー区間の組み合わせにより特定される各パタ一ンと標準パターンとのパターンマッチングを行う構成とされたものである。

第 3の発明に係る音声認識方法は、前記端点フリ一区間決定ステツプが、検出された前記山区間のうち、パワーの累積が最大となる山区間を最大山区間とする構成とされたものである。

第 4の発明に係る音声認識方法は、前記分析ステツプが、検出点毎にパワーを出力し、前記端点フリー区間決定手段が、検出された前記山区間のうち、前記検出点毎のパワーのうち上位の所定の個数の検出点のパワーの和が最大となる山区間を最大山区間とする構成とされたものである。第 5の発明に係る音声認識方法は、前記端点フリ一区間決定ステップが、前記最大山区間以前の山区間が前記閾値を上回る点の近傍に前記始端フリー区間が存在すると仮 ¾ し、前記最大山区間以後の山区間が前記閾値を下回る点の近傍に前記終端フリー区間が存在すると仮定する構成とされたものである。

第 6の発明に係る音声認識方法は、前記端点フリー区間決定ステップが、前記始端フリー区間が存在すると仮定する範囲の幅と前記終端フリー区間が存在すると仮定する範囲の幅とを、各山区間毎に異なる構成とされたものである。第 7の発明に係る音声認識方法は、前記分析ステツプが、フレーム毎にパワーを出力し、前記端点フリー区間決定手段が、パワーが前記閾値を下回るフレームを前記閾値を下回る点とし、パワーが前記閾値を上回るフレームを前記閾値を上回る点とする構成とされたものである。

第 8の発明に係る音声認識装置は、入力音声を音響分析しこの入力信号についてパワーを出力する分析手段と、前記パワーが所定の閾値を連続して超える区間を山区間として検出し、パワーが最大となる山区間を最大山区間として、' その最大山区間が前記閾値を下回る点以前に始端フリー区間が存在すると仮定し、前記最大山区間が前記閾値を上回る点以降に終端フリ一区間が存在すると仮定して始端フリ一区間と終端フリー区間の組み合わせを出力する端点フリ一区間決定手段と、前記組み合わせの始端フリー区間と終端フリー区間により特定されるパターンと標準パターンとのパターンマッチングを行う照合手段とを備えたものである o

第 9の発明に係る音声認識装置は、前記照合手段が、前記端点フリー区間が出力するすべての始端フリ一区間と終端フリ一区間の組み合わせにより特定される各パターンと標準パターンとのパターンマッチングを行う構成とされたものである。

第 1 0の発明に係る音声認識装置は、前記端点フリ一区間決定手段が、検出された前記山区間のうち、パワーの累積が最大となる山区間を最大山区間とする構成とされたものである。

第 1 1 の発明に係る音声認識装置は、前記分析手段が、検出点毎にパワーを出力し、前記端点フリ一区間決定手段が、検出された前記山区間のうち、前記検出点毎のパワーのうち上位の所定の個数の検出点のパワーの和が最大となる山区間を最大山区間とする構成とされたものである。

第 1 2 の発明に係る音声認識装置は、前記端点フリー区間決定手段が、前記最大山区間以前の山区間が前記閾値を上回る点の近傍に前記始端フリー区間が存在すると仮定し、前記最大山区間以後の山区間が前記閾値を下回る点の近傍に前記終端フリー区間が存在すると仮定する構成とされたものである。

第 1 3の発明に係る音声認識装置は、前記端点フリー区間決定手段が、前記始端フリ一区間が存在すると仮定する範囲の幅と前記終端フリー区間が存在すると仮定する範囲の幅とを、各山区間毎に異なる構成とされたものである。第 1 4の発明に係る音声認識装置は、前記分析手段が、フレーム毎にパワーを出力し、前記端点フリ一区間決定手段が、パワーが前記閾値を下回るフレームを前記閾値を下回る点とし、パワーが前記閾値を上回るフレームを前記閾値を上回る点とする構成とされたものである。図面の簡単な説明

図 1 は本発明の実施例 1 と実施例 2 による音声認識装置の構成図、

図 2は本発明の実施例 1 の始端フリー区間と終端フリー区間の決定方法の説明図、

図 3は本発明の実施例 2の始端フリー区間と終端フリー区間の決定方法の説明図、 '

図 4は本発明の実施例 2の始端フリ一区間と終端フリ一区間の決定方法の説明図、

図 5は従来の技術による音声認識装置の構成図、図 6は従来の技術による始端フリー区間と終端フリー区間の決定方法の説明図である。発明を実施するための最良の形態

実施例 1 .

図 1 は、本発明に係る実施例 1の音声認識装置の構成を示すブロック図である。同図において、 1 は信号の入力を行う信号入力端、 2は信号入力端 1 によって入力された入力信号、 3は入力信号 2について音響分析を行う分析手段、 4は分析手段 3 によって算出される入力信号の特徴べクトルの時系列、 5 は分析手段 3 によって算出される入力信号のパヮ一の時系列、 6 は入力信号のパヮ一の時系列 5 に基づいて端点フリ一区間を決定する端点フリー区間決定手段、 8は端点フリー区間決定手段 6 によって出力される端点フリ一区間情報、 9 は音声認識のための照合処理において用いられる標準パタ一ンを記憶する標準パターンメモリ、 1 0は音声認識のための照合処理において用いられる標準パターン、 1 1 は各単語の標準パターンとのパターンマッチングを行う照合手段である。

本実施例では、特定話者の単語認識を行う場合を説明する。標準パターンメモリ 9 には、予め認識対象とする各単語の標準パターン REF(i), (i=l ,2 ,3,...,K)として、各単語の特徴ベクトルの時系列が格納されているものとする。ここで；は、標準パターンの数である。特徴べクトル x(t)は、例えば LPC分析によって得られる LPCケプストラムとする o

次に動作について説明する。信号入力端 1から入力信号 2を入力すると、分析手段 3は入力信号 2を A/D変換した後、短い時間区間ごとにフレームと呼ばれる単位に分割して、各フレームごとに音響分析を行ってそのフレームの特徵ベクトル X(t) =1,2,3，..., ）の時系列 4、およびパワー P(t) (t=l,2，3,...,T)の時系列 5を計算して出力する。ここで、 T は入力信号 2の全フレーム数である。特徴べクトル X(t)は、例えば LPC (線形予測）分析によって得られる LPC ケプストラムとする。ハ°ヮ一 P(t)は、例えばフレーム内の入力信号のディジタル値を 2乗和して対数をとることによつて得られる。

端点フリ一区間決定手段 6 は、入力信号のパワー P(t) (t=l，2，3,...，T)を入力として、図 2に示すように、パワーが予め定めた閾値を越えたフレームが所定数以上連続する区間を、山区間 H(i)={B(i), E(i)}(i=l，2，3，...N)として検出する。ここで、 B(i)は山区間の始端、すなわちパワーが前記閾値を越えたフレームである。また、 E(i)は山区間の終端、すなわちパワーが前記閾値未満となったフレームである。 N は検出された山区間の個数である。図 2の例では、 N=3 である。

次に、端点フリー区間決定手段 6は、（1 )式あるいは（2) 式によって、各山区間 PH(i) = {B(i), E(i)Ki=l,2，3,...N)のパヮ一強度 PK(i)(i=l，2，3，...N)を計算し、（3 )式にしたがってパワー強度が最大の山をパワー強度最大山区間 PH(I)として検出する。（ 2 )式において、 t(i,j)は各山区間 PH(i)= (i)， E(i)}の区間内のフレームで、ノヮ一が； j番目に大きいフレームとする。したがって、 t(i，l)は、山区間 PH(i)内でパヮ —が最大のフレームとなる。このことより、（2 )式は、各山区間について、当該区間内でパワーが大きい上位 M個のパワー値を用いてパワー強度を計算していることになる。一方（1 )式は、各山区間について、当該区間内の全パワーの和としてパワー強度を計算している。（1 )、（2 )式のいずれを用いるかについては、音声認識装置の使用時に想定される環境騒音の種類や認識対象とする音声によって、選択すればよい。

PK(i) = P(t), ( i=l, 2, 3， .."Λ ( 1)

t=B(i)

M

PK(i) =∑P(t(i, j')), {i=l, 2, 3, ...,N) (2)

l =a rgm ax( i)PR (ι) (3) 本実施例では、パワー強度最大山区間は音声であると仮定するので、例えばパワーの山の継続時間は短いが、瞬間的な信号パワーが大きくなるスパイク状の騒音では（ 1 )式を用い、逆にパワーの山の継続時間は長いが、フレーム毎のパワーは大きくない騒音では（2 )式を用いることにより騷音区間がパワー強度最大山区間とならないようにすることができる。

次に端点フリ一区間決定手段 6 は、（4 )、（5 )式にしたがつて最初の山区間の始端 B 1 から、パワー強度最大山区間の始端 B (I)までの区間に、始端マ一ジン bm l， bm2を加えた区間を、始端フリ一区間 BF={bfL , bfil}として決定する。ここで、 bfL は始端フリー区間の先頭フレーム、 bfR は始端フリー区間の最終フレームであり、また始端マ一ジン bm l , bm2 は、予め定めた 0以上の定数である。 bfL = B(I) -bml (4) bfR = B(I) +bm2 (5) 次に（6 )、（7 )式にしたがって、端点フリー区間決定手段 6は最後の山区間の終端 E (N)から、パワー強度最大山区間の始端 E (I)までの区間に、終端マ一ジン em l， em2を加えた区間を、終端フリ一区間 EF = {efL， efR}として決定する。ここで、 efL は終端フリー区間の先頭フレーム、 efR は終端フリー区間の最終フレームである。終端マージン em l , em2 は、予め定めた 0以上の定数である。以上の処理により決定された始端フリ一区間 BF と終端フリ一区間を図 2 に示す。 efl. = E(I) - eml (6) efR = E(N) + bm2 (7) 端点フリー区間決定手段 6 は、前記始端フリー区間 BF={bfL , bfR}と終端フリー区間 EF = {efL, efH}を、端点フリー区間情報 8 として出力する。

照合手段 1 1 は、特徴べクトルの時系列 4 と、端点フリ —区間情報 8による始端フリ一区間 BF={bfL， bfR}と終端フリー区間 EF = {efL， efR}とを入力として、始端フリー区間と終端フリ一区間内の全ての始終端の組み合わせで標準パターンメモリ 9に格納されている各単語の標準パターン 1 0である REF(i)とパターンマッチングを行う。この処理を標準パターン REF(i) (i=l ,2 , 3，...，K)の全てに対して順次行い、これら全ての始終端の組み合わせと標準パターンとの照合処理の結果、最も差異の小さい標準パターンを認 1 結果 1 2 として出力する。パターンマッチングの方法としては、例えば DPマッチングを用いる。

以上説明したとおり、本実施例は騒音下において、「パヮ —強度'最大の山は背景騒音ではなく、認識対象とする音声あるいはその一部である」という仮定に基づいて、

(1) パワー強度最大の山の区間内には、始端マ一ジン bm2 と終端マージン em l以上の端点フリー区間を設定しない (2) 端点フリーは、パワー最大の山の跨がない、すなわちパワー強度最大の山の後方には、始端フリ一区間を含めず、ハ°ヮ一強度最大の山の前方には終端フリ一区間を含めないことに基づいて端点フリ一区間を制限するものである。騷音下では、人間の発声は大きくなることが知られており、殆どの騒音下で前記仮定が成立する。本実施例による音声認識装置は、この仮定に基づくことにより、正確な判定が困難な有声音区間の判定を必要とせず、効率的に端点フリ一区間が音声の内部に極力含まれないように制限することによって、部分マッチングによる誤認識を低減することができる。

なお本実施例では、パターンマッチングの方法として DP マッチングを用いたが、 HMM (Hidden Markov Mo del)等の他のパターンマッチング方法に対しても同様の効果が得られる。また連続音声認識や、不特定話者の単語認識や連続音声においても同様の効果が得られる。実施例 2 .

次に本発明の別の実施例に係る音声認識装置について説明する。本実施例による音声認識装置では、端点フリー区間決定手段 6の動作を以下のように変更する。すなわち、まず端点フリ一区間決定手段 6は、入力信号のパワー P(t) (t=l，2，3，...，T)を入力として、実施例 1 と同様の動作によつて、パワーが予め定めた閾値を越えたフレームが所定数以上連続する山区間 PH(i) = {B(i), E(i)}(i=l,2,3,...N)と、パヮ —強度最大山区間 PH(I)を検出する。次に、パワー強度最大山区間 PH(I)、およびそれに先行する各山区間の始端 B(i), (i=l,2，3,...N)の前後に始端マ一ジン T ml, bm2を加えた区間を、始端フリー区間 BF(i)={bfL(i), bfR(i)} (i=l，2，...,I)とする。ここで、 bfL(i)は i 番目の始端フリー区間の先頭フレームであり、（8)式によって求める。また bfR(i)は i番目の始端フリー区間の最終フレームであって、 (9)式によつて求める。始端マ一ジン bmL(i)， bmR(i)は、予め定めた 0以上の定数である。 bfL(i) = B(i)-bmL(i), (i=l,2,3，...，N) (8) bfR(i) = B(i)+bmR(i), (i=l，2,3，...，N) (9) 次に（1 0 )、（ 1 1 )式にしたがって、パワー強度最大山区間 PH(I)、およびそれに後続する各山区間の終端 E(i), (i=I，I+l，...，N)の前後に終端マージン eml, em2を加えた区間を、終端フリ一区間 EF(i) = {efL(i), efR(i)} (i=l,2,...,N- 1+1)とする。ここで、 e£L(i)は i番目の終端フリー区間の先頭フレーム、 efR(i)は i番目の終 ¾フリ一区間の最終フレームである。始端マージン emL(i), emR(i)は、予め定めた 0 以上の定数である。以上の処理により決定された始端フリ一区間と終端フリー区間を図 3 に示す。 β (ί) = E(/ -1+ - emL(i), {ϊ=1,2,3,...,Ν-Ι+ϊ) (10) efR(i) = E(J + emR(i), ( =1,2,3,...，N- 1+ϊ) (11) なお、前記始端マ一ジン bmL(i)と bmR(i)は、始端フリ —区間 BF(i)ごとに異なる値に設定してもよいし、共通の値としてもよい。

始端フリー区間を大きくすると、始端の検出誤りには強くなるが、部分マッチングの危険性が大きくなるというトレードォフの関係にある。 1番目の始端フリ一区間 BF1の左側のマ一ジン bfLl は、音声の外側へのフリー区間であるため、値を大きくしても、部分マッチングの危険性はそれほど増加しない。しかし、 1番目の始端フリー区間 BF1 の右側と 2番目以降の始端フリ一区間は、音声区間内である可能性があり、始端マージン bmL(i)と bm;R(i)の値を大きく設定すると、部分マッチングの可能性が増す。

そこで、 2番目以降の始端フリー区間の左右両側の始端マ一ジンと、 1番目の始端フリー区間の右側の始端マージンとを、 1番目以降の始端フリー区間の左側の始端マージンよりも小さな値若しくは 0 とすると、内側でのフリー区間が小さくなる、あるいは 0 となり、部分マッチングを抑える効果がある。

同様に、前記終端マージン emL(i)と emR(i)は、終端フリ一区間 EF(i)ごとに異なる値に設定してもよいし、共通の値としてもよい。

最後の終端フリ一区間 EF(N-I+ 1)の右側のマージン efR(N-I+ l)は、音声の外側へのフリー区間であるため、値を大きくしても部分マッチングの危険性はそれほど大きくならない。しかし、最後の終端フリ一区間の左側と最後以外の終端フリ一区間は音声区間内である可能性があるため、終端マ一ジン emL(i)と emR(i)の値を大きく設定すると部分マッチングの可能性が増す。

そこで、最後以外の終端フリー区間の左右両側の終端マ —ジンと最後の終端フリー区間の左側とを、最後の終端フリ一区間の右側のマ一ジンよりも小さな値若しくは 0 とすることにより、内側でのフリー区間が小さくなる、あるいは 0 となり、部分マッチングを抑える効果がある。

図 4 に、始端マ一ジンを 2番目以降の始端フリー区間の左右両側の始端マ一ジンと、 1番目の始端フリー区間の右側の始端マージンを 0 とし、また終端マージンを最後以外の終端フリ一区間の左右両側の終端マージンと、最後の終端フリー区間の左側の終端マ一ジンを 0 とした場合を示す。

照合手段 1 0は、特徴べクトルの時系列 4 と、端点フリ —区間情報 8である始端フリ一区間 BF(i) = {bfL(i) , bfR(i)} (i=l，2，...,I)と、終端フリ一区間 EF(i) = {efL(i) , efR(i)} =1,2 , · . ·，Ν-Ι+ 1)とを入力として、始端フリ一区間と終端フリ一区間内の全ての始終端の組み合わせにより、標準パ夕 —ンメモリ 9 に格納されている各単語の標準パターン 1 0 である EF(i)とパターンマッチングを行う。この処理を標準パタ―ン REF(i) ,(i=l，2 , 3，... ,K)の全てに対して順次行い、距離値が最小のものを認識結果 1 2 として出力する。パタ —ンマッチングとしては、例えば DPマッチングを用いる。実際の非定常騒音下では、音声の始端と終端でパワーの山の立上りと山の終端が観察されることが多いので、本実施例に係る音声認識装置によれば、実施の形態 1で説明した端点フリ一区間の制限に加え、始端のフリ一区間はパヮ一の山の立上り前後の区間、終端のフリー区間はパワーの山の終端の前後の区間に制限することによって、さらに部分マッチングによる誤認識を低減することができる。産業上の利用の可能性

本発明は上記のように構成されているので、正確な判定が困難な有声音区間の判定を必要とせず、効率的に端点フリー区間が音声の内部に極力含まれないように制限することによって、部分マッチングによる誤認識を低減することが可能となる。

また本発明は上記のように構成されているので、全ての始終端の組み合わせの中から、標準パターンと最も差異の小さい始終端の組み合わせを選択することのが可能となる。

また本発明は上記のように構成されているので、パワーの山の継続時間は短いが、瞬間的な信号パワーが大きくなるスパイク状の騒音が発生しうる環境下での音声認識を効率的に行うことが可能となる。

また本発明は上記のように構成されているので、パワーの山の継続時間は長いが、パワーの極大値は大きくない騷音が発生しうる環境下での音声認識を効率的に行うことが可能となる。

また本発明は上記のように構成されているので、始端と終端の検出誤りを少なくすることが可能となる。

また本発明は上記のように構成されているので、始端と終端と検出誤りを少なくしつつ、部分マッチングの危険性も抑えることが可能となる。

また本発明は上記のように構成されているので、フレーム単位で音響分析を行う音声認識装置に適用することが可能となる。

Claims

請求の範囲

1 . 入力音声を音響分析しこの入力信号についてパワーを出力する分析ステツプと、

前記パワーが所定の閾値を連続して超える区間を山区間として検出し、パワーが最大となる山区間を最大山区間として、その最大山区間が前記閾値を下回る点以前に始端フリ一区間が存在すると仮定し、前記最大山区間が前記閾値を上回る点以降に終端フリ一区間が存在すると仮定して始端フリー区間と終端フリー区間の組み合わせを出力する端点フリー区間決定ステップと、

前記組み合わせの始端フリー区間と終端フリー区間により特定されるパターンと標準パターンとのパターンマツチングを行う照合ステップとを備えたことを特徴とする音声認識方法。 '

2 . 前記端点フリー区間決定ステップは、始端フリー区間と終端フリー区間の組み合わせを複数出力し、前記照合ステツプは、前記端点フリ一区間決定ステップが出力するすべての始端フリ一区間と終端フリ一区間の組み合わせにより特定される各パターンと標準パターンとのパターンマツチングを行う構成とされたことを特徴とする請求の範囲第 1項記載の音声認識方法。

3 . 前記端点フリー区間決定ステップは、検出された前記山区間のうち、パワーの累積が最大となる山区間を最大山区間とする構成とされたことを特徴とする請求の範囲第 1項乃至請求の範囲第 2項のいずれか一記載の音声認識方法 o

4 . 前記分析ステップは、検出点毎にパワーを出力し、前記端点フリー区間決定手段は、検出された前記山区間のうち、前記検出点毎のパワーのうち上位の所定の個数の検出点のパワーの和が最大となる山区間を最大山区間とする構成とされたことを特徴とする請求の範囲第 1項乃至請求の範囲第 2項のいずれか一記載の音声認識方法。

5 . 前記端点フリー区間決定ステップは、前記最大山区間以前の山区間が前記閾値を上回る点の近傍に前記始端フリ一区間が存在すると仮定し、前記最大山区間以後の山区間が前記閾値を下回る点の近傍に前記終端フリ一区間が存在すると仮定する構成とされたことを特徴とする請求の範囲第 1項乃至請求の範囲第 4項のいずれか一記載の音声認識方法。

6 . 前記端点フリー区間決定ステップは、前記始端フリ一区間が存在すると仮定する範囲の幅と前記終端フリー区間が存在すると仮定する範囲の幅とを、各山区間毎に異なる構成とされたことを特徴とする請求の範囲第 1項乃至請求の範囲第 4項のいずれか一記載の音声認識方法。

7 . 前記分析ステップは、フレーム毎にパワーを出力し、前記端点フリ一区間決定手段は、パワーが前記閾値を下回るフレームを前記閾値を下回る点とし、パワーが前記閾値を上回るフレームを前記閾値を上回る点とする構成とされたことを特徴とする請求の範囲第 1項乃至請求の範囲第 6 項のいずれか一記載の音声認識方法。

8 . 入力音声を音響分析しこの入力信号についてパワーを出力する分析手段と、

前記パヮ一が所定の閾値を連続して超える区間を山区間として検出し、パ'ヮ一が最大となる山区間を最大山区間として、その最大山区間が前記閾値を下回る点以前に始端フリ —区間が存在すると仮定し、前記最大山区間が前記閾値を上回る点以降に終端フリ一区間が存在すると仮定して始端フリ一区間と終端フリー区間の組み合わせを出力する端点フリー区間決定手段と、

前記組み合わせの始端フリ一区間と終端フリ一区間により特定されるパターンと標準パタ一ンとのパターンマツチングを行う照合手段とを備えたことを特徴とする音声認識装 o

9 . 前記端点フリ一区間決定手段は、始端フリ一区間と終端フリー区間の組み合わせを複数出力し、前記照合手段は、前記端点フリー区間決定手段が出力するすべての始端フリー区間と終端フリー区間の組み合わせにより特定される各パターンと標準パターンとのパターンマッチングを行う構成とされたことを特徴とする請求の範囲第 8項記載の音声認識装置。

1 0 . 前記端点フリ一区間決定手段は、検出された前記山区間のうち、パワーの累積が最大となる山区間を最大山区間とする構成とされたことを特徴とする請求の範囲第 8 項乃至請求の範囲第 9項のいずれか一記載の音声認識装置。

1 1 . 前記分析手段は、検出点毎にパワーを出力し、前記端点フリー区間決定手段は、検出された前記山区間のうち、前記検出点毎のパワーのうち上位の所定の個数の検出点のパワーの和が最大となる山区間を最大山区間とする構成とされたことを特徴とする請求の範囲第 8項乃至請求の範囲第 9項のいずれか一記載の音声認識装置。

1 2 . 前記端点フリー区間決定手段は、前記最大山区間以前の山区間が前記閾値を上回る点の近傍に前記始端フリ —区間が存在すると仮定し、前記最大山区間以後の山区間が前記閾値を下回る点の近傍に前記終端フリ—区間が存在すると仮定する構成とされたことを特徴とする請求の範囲第 8項乃至請求の範囲第 1 1項のいずれか一記載の音声認

1 3 . 前記端点フリ一区間決定手段は、前記始端フリ一区間が存在すると仮定する範囲の幅と前記終端フリ一区間が存在すると仮定する範囲の幅とを、各山区間毎に異なる構成とされたことを特徴とする請求の範囲第 8項乃至請求の範囲第 1 1項のいずれか一記載の音声認識装置。

1 4 . 前記分析手段は、フレーム毎にパワーを出力し、前記端点フリー区間決定手段は、パワーが前記閾値を下回るフレームを前記閾値を下回る点とし、パワーが前記閾値を上回るフレームを前記閾値を上回る点とする構成とされたこ.とを特徴とする請求の範囲第 8項乃至請求の範囲第 1 3項のいずれか一記載の音声認識装置。