JPS62100799A

JPS62100799A - 音声認識方法

Info

Publication number: JPS62100799A
Application number: JP60241054A
Authority: JP
Inventors: 二矢田　勝行; 泰助渡辺
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1985-10-28
Filing date: 1985-10-28
Publication date: 1987-05-11
Also published as: JPH054678B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は人間の声を機械に認識させる音声認識方法に関
するものである。

従来の技術近年音声認識技術の開発が活発に行なわれ、商品化され
ているが、これらのほとんどは声を登録した人のみを認
識対象とする特定話者用である。

特定話者用の装置は認識すべき言葉をあらかじめ装置に
登録する手間を要するため、連続的に長時間使用する場
合を除けば、使用者にとって大きな負担となる。これに
対し、声の登録を必要とせず、使い勝手のよい不特定話
者用の認識技術の研究が最近では精力的に行なわれるよ
うになった。

音声認識方法を一般的に言うと、入力音声と辞書中に格
納しである標準的な音声（これらはパラメータ化しであ
る）のパターンマツチングを行なって、類似度が最も高
い辞書中の音声を認識結果として出力するということで
ある。この場合、入力音声と辞書中の音声が物理的に全
く同じものならば問題はないわけであるが、一般には同
一音声であっても、人が違ったり、言い方が違っている
ため、全く同じにはならない。

人の違い、言い方の違いなどは、物理的にはスペクトル
の特徴の違いと時間的な特徴の違いとして表現される。

すなわち、調音器官（口、舌、のどなど）の形状は人ご
とに異なっているので、人が違えば同じ言葉でもスペク
トル形状は異なる。

また早口で発声するか、ゆっくり発声するかによって時
間的な特徴は異なる。

不特定話者用の認識技術では、このようなスペクトルお
よびその時間的変動を正規化して、標準パターンと比較
する必要がある。

不特定話者の音声認識に有効な方法として、発明者の本
出願人は既にパラメータの時系列情報と統計的距離尺度
を併用する方法に関して特許を出願している（特願昭６
０−２９５４７号）ので、その方法を以下に説明する。

第６図は本願出願人が以前に提案した音声認識方法の具
現化を示す機能ブロック図である。

図において、ｌは入力音声をディジタル信号に変換する
ＡＤ変換部、２は音声を分析区間（フレーム）毎に分析
しスペクトル情報を求める音響分析部、３は特徴パラメ
ータを求める特徴パラメータ抽出部、４は始端フレーム
と終端フレームを検出する音声区間検出部、５は単語長
の伸縮を行う時間軸正規化部、６は入カバターンと標準
パターンとの類似度を計算する距離計算部、７は予め作
成された標準パターンを格納する標準パターン格納部で
ある。上記構成において以下その動作を説明する。

入力音声をＡＤ変換部１によって１２ビツトの−１イジ
タル信号に変換する。標本化周波数はｍである。音響分
析部２では、１フレーム（ＩＱ　ｍ５ｅｃ）ごとに自己
相関法によるＬＰＣ分析を行なう。分析の次数は１０次
とし、線形予測係数αＯ２α１．α２・・・α１０を求
める。才たここではフレームごとの音声パワーＷＯも求
めておく。特徴パラメータ抽出部３では線形予測係数を
用いて、ＬＰＣケプストラム係数ＣＩ−Ｃｄ（ｄは打切
り次数）および正規化対数残差パワーＣＯを求める。な
お、ＬＰＣ分析とＬＰＣケプストラム係数の抽出法に関
しては、例えば、Ｊ、Ｄ、マーケル、Ａ、Ｈ，グレイ著
、鈴木久喜訳「音声の線形予測」に詳しく記述しである
ので、ここでは説明を省略する。また特徴パラメータ抽
出部３では対数パワーＬＷｏを次式で求める。

ＬＷｏ　＝　１０　ｌｏｇｌｏ　Ｗｏ　　　　　　　　
（式１）音声区間検出部４は（式１）で求めたＬＷＯを
閾値θＳと比較し、ＬＷＯ〉θＳのフレームがｌＳ　フ
レーム以上持続する場合、その最初のフレームを音声区
間の始端フレームＦＳとする。またＦｓの後において、
ＬＷｏと閾値θｅを比較し、ＬＷｏ　＞θｅとなるフレ
ームがｌｅフレーム以上連続するとき、その最初のフレ
ームを音声区間の終端フレームＦｅとする。このように
してＦｓからＦｅまでを音声区間とする。いま説明を簡
単にするために、改めてＦｓを第１フレームと考え、フ
レームナンバーヲ（１゜２．・・・ｉ　、−・Ｉ　）と
する。ただし、Ｉ　＝　Ｆｅ　−Ｆｓ　＋１である。

時間軸正規化部５では、単語長をＪフレームの長さに分
割することにより線形に伸縮をする。伸縮後の第ｊフレ
ームと入力音声の第１フレームは（式２）の関係を持つ
。

ただし〔〕は、その数を超えない最大の整数を表す。例
ではＪ＝１６としている。

次に伸縮後の特徴パラメータを時系列に並べ、時系列パ
ターンＣｘを作成する。いま第ｊフレームの特徴パラメ
ータ（ＬＰＣケプストテム係数）をｘｌＣｉ、ｋ　（ｋ　＝　Ｑ、１．２．＝・Ｐ　：　６個）
とするとＣｘは次式すなわちＣｘは、Ｊ・（Ｐ＋１）す
なわちＪ、ｄ次元のベクトルとなる（ｄは１フレームあ
たりのパラメータ数）。

距離計算部６は入カバターンＣｘと標準パターン格納部
７に格納されている各音声の標準パターンとの類似度を
統計的な距離尺度を用いて計算し、最も距離が小さくな
る音声を認識結果として出力する。標準パターン格納部
７に格納されている第ｎ番目の音声に対応する標準パタ
ーンをＣｎ　（平均値）、対象とする全音声に共通な共
分散行列をＷとすると、入カバターンＣｘと第ｎ番目の
標準パターンとのマハラノビス距離Ｓｎは次式で計算さ
れる。

ｔ　　　　−１Ｓｎ＝（Ｃｘ−Ｃｎ　）　−Ｗ　　・（Ｃｘ−Ｃｎ）　
（式４）添字ｔは転置を、また−１は逆行列であること
を表す。（式４）を展開するとｔ　　　−１ｔ　　　−１Ｓｎ＝Ｃｘ−Ｗ　−Ｃｘ−２Ｃｎ−Ｗ　　−Ｃｘ−１−
Ｃｎ−Ｗ　　−Ｃｎ　　　　　　　　　　（式５）（式
５）の第１項はｎに無関係なので大小比較をするときは
考慮しなくてもよい。したがって第１項を取除いて、Ｓ
ｎをＤｎに置きかえると、Ｄｎは次のようになる。

Ｄｎ＝ｂｎ−”ｎ−Ｃｘ　　　　　　　　　　（弐６）
ただし　　　ｏｎ　＝　２Ｗ　−Ｃｎ　　　　　（式７
）％式％ｂｎ　＝　Ｃｎ　−Ｗ　−（Ｉ”ｎ　　　　　（式８）
Ｄｎを全てのｎ（ｎ−１，２・・・Ｎ）について計算し
、Ｄｎを最小とする音声を認識結果とする。ここでＮは
標準パターン格納部７に格納されている音声標準パター
ンの数である。実際には標準パターンはａｌとｂｎが１
対として、音声の数（Ｎ種類）だけ格納されている。

（式６）に要する計算量は積和演算がＪ、（Ｐ−１−１
）回、減算が１回であり、非常に計算量が少ないのが特
長である。実用的にはＪ＝１６．Ｐ＝４とすれば十分な
ので、積和演算回数は１単語あたり　８０回である。

次に標準パターンＣｎ、Ｗ（実際にはａｎ　、　ｂｎに
変換される）の作成方法について説明する。

ｔフ（準パターンは、各音声ごとに多くのデータサンプ
ルを用いて作成する。各音声に対して、用いるサンプル
の数をＭとする。各サンプルに対して（式２）を適用し
て、フレーム数をＪに揃える。

音声ｎに対して平均値ベクトルを求める。

Ｃｎ　＝　（ｄ’；’、ｏ　、ｄ’；’、１．ｄ’；’
、２．、−０ｄｒ’、ｐ　１．＝−ｄ”；’、ｏ　、ｄ
γ、１−−−−−９．−ｄ’ｊ、ｏ　、ｄ’ｊ’ａ　、
−０ｃ’ｆｆ’、ｐ　）　　　　　（式９　）ただし　
Ｃｉ、に＝１譬Ｃ」、Ｗ、ｒｒ＋（式１０）Ｍデ１（ｊ＝ｔ、２．・・・Ｊ：Ｊフレーム）ｋ＝０．１，２
．・・Ｐ：６個ここでＣｊ、に、ｍは音声ｎの第ｍ番目のサンプルで、
第１フレームの第に次のケプストラム係数を示す。

平均値ベクトルと同様な手順で音声ｎの共分散行列ｙＪ
”を求める。全音声に共通な共分散行列Ｗは次式で求め
る。

Ｗ＝＝　Ｍ　（、、）１１＋、、１２１＋・・・十Ｗ”
）＋・・・・・十−）　（式１１）Ｃｎ、Ｗを（式７）
（弐８）によってａｎ、ｂｎに変換し、標準パターン格
納部７にあらかじめ格納しておく。

発明が解決しようとする問題点かかる方法における問題点は、音声区間が一意に確実に
決められていると仮定している点にある。

現実の音声データは種々のノイズを含んでいたり、語頭
や語尾における発声が不明瞭であるため、音声区間を正
確に決められない場合が多々ある。誤まった音声区間に
対してこの方法を適用すると、当然のことながら、認識
率が大きく低下してしまう。

本発明の目的は上記問題点を解決するもので、音声区間
が一意に決められない場合においても、高い認識率を確
保できる音声認識方法を提供するものである。

問題点を解決するための手段本発明は上記目的を達成するもので、予め、認識対象と
する音声の各々の標準パターンを、各々の音声に属する
データと認識対象とする全音声のデータおよび全音声の
データの周囲情報を用いて作成しておき、入力音声の始
端候補区間（ｋｌフレームとする）、終端候補区間（ｋ
ｚｌフレームする）を決め、前記候補区間における始端
、終端の全ての組合わせによってに１ｘ　ｋｚとおりの
音声区間を設定し、各々の音声区間に対するデータを一
定時間長に正規化して各標準パターンとの類似度または
距離を求め、このようにして全音声区間における全単語
の標準パターンとの類似度または距離を計算し、全ての
類似度または距離を比較して、類似度を最大または距離
を最小とした標準パターンに対応する単語を結果として
出力するものである。

作　　　　用本発明は、正確な始端、終端の位置を含む始端、終端の
候補区間を求め、この候補区間における始端、終端の全
ての組合わせになる音声区間に対するデータについて類
似度または距離を求めるので、音声区間が一意に正確に
決められない場合においても高い認識率を確保できる。

実施例以下に本発明の実施例を図面を用いて詳細に説明する。

第１図は本発明の一実施例における音声認識方法を具現
化するための機能ブロック図である。図において、１は
入力音声をディジタル信号に変換するＡＤ変換部、２は
音声を分析区間（フレーム）ごとに分析する音響分析部
、３は特徴パラメータ抽出部であり、これらのブロック
の機能は第６図と同じである。１０は音声の始端候補区
間および終端候補区間を求める音声区間候補検出部、１
１は始端候補フレームと終端候補フレームをいろいろと
組合わせて音声区間を設定する音声区間設定部、１２は
設定された音声区間のフレーム長を伸縮して標準パター
ンのフレーム長に正規化する時間軸正規化部、１３は時
間正規化された未知入力と、標準パターン格納部１４に
格納されている各単語の標準パターンとの間の類似度（
距離）を計算する距離計算部、１５は全音声区間、全単
語に対する類似度を比較して類似度最大（距離最小）と
なる単語名を結果として出力する類似度比較部である。

上記構成において以下その動作を説明する。

ＡＤ変換部１、音響分析部２および特徴パラメータ抽出
部３の動作は従来例と全く同じなので説明を省略する。

音声区間検出に用いるパラメータは残差パワー、帯域パ
ワーなどいろいろなものが考えられるが、ここでは（式
１）で求めた対数パワーＬＷｏを用いて説明する。

従来例では、ＬＷｏを用いて音声の始端、終端を一意に
定めたが、現実には正確に定まらない場合があるので本
実施例では、始端、終端の候補区間を求め、候補区間内
には正確な始端、終端の位置が含まれているようにする
。このようにすると、始端、終端はあいまいにしか求め
られないが、外れる割合はずっと小さくなる。

次に音声区間候補検出部１０の機能の一例を説明する。

始端検出のための閾値θＳ、θＳ（θＳ〉θＳ）および
終端検出のための閾値θ二、θ二（θδ〉θ；）をあら
かじめ定めておく。ここでθＳ、θｅは、音声以外の区
間を含まないように高めに設定し、θＳ。

θｅは逆に音声の区間を外さないように設定する。

第２図に示すように、これらの閾値を入力音声の対数パ
ワー値（ＬＷｏ　）に対して適用し、θＳを超える最初
のフレームを５１　、θＳを超える最初のフレームをＳ
２．そしてθｅより小さくなる最後のフレームをｅｔ　
、θｅよりも低くなる最後のフレームをｅ２とする。そ
うすると正確な始端ＦｓはＳ１≦ＦＳ≦Ｓ２、正確な終
端Ｆｅはｅ１≦Ｆｅ＜ｅ２　となる。実際にはＬＷｏの
値の連続性を見て、規則によってｓｔ。

Ｓ２．ｅｌ、ｅ２の位置を修正している。

このようにして始端候補区間、終端候補区間を求めると
、始端候補区間フレームに１＝ｓｚ−ｓｔ＋１、終端候
補区間に２＝ｅ２−ｅｘ＋１フレームとなり、音声区間
の組合わせは１＝ｋｌＸｋ２とおりとなる。

音声区間設定部１１は、Ｌとおりの音声区瀾の１つ１つ
に対して、始端Ｓと終端ｅおよび音声長Ｉ−ｅ−５＋１
を決め、遂次、時間軸正規化部１２へと送出する。時間
軸正規化部１２では、前記（式２）を用いて時間長をＪ
フレームに伸縮し、（弐３）と全く同様にして、入力特
徴ベクトル（Ｌ’ｘを求める。これを第１番目の音声区
間に対する特徴ベクトルという意味で６とする。距離計
算部１３はＣ斐と、標準パターン格納部１４に格納され
ている各単語（単語ナンバーをｎとする）の標準パター
ンＡｎ　、　Ｂｎとの距離扉を（式６）と同じ形式の（
式１２）で計算する。

ＤＨ＝Ｂｎ　　ＬＨ−（ＤＣ（式１２）Ａｎ　、　Ｂｎ
および（式１２）については後で説明する。

扉を全てのｎ（ｎ−１，２，・・・Ｎ；Ｎは単語数）に
ついて計算する。そしてさらに、ブロック１１゜１２　
、１３　、１４　の操作をくり返して、全ての音声区間
１（１＝１．２．・・・Ｌ）について計算すると、類似
度扉はＬｘＮ個だけ求められる。

類似度比較部１５はＬｘＮ個の中から類似度最大（距離
最小）となるものを求め、それをｄギとする。認識結果
は単語メンバーｎ′に対応する単語を出力する。

上記のように、音声区間が正確に検出できない場合の認
識方法を説明してきたが、この方法が効果を発揮するた
めには、（式１２）における標準パターンＡｎ　、　Ｂ
ｎの作成方法に工夫が必要である。

次に標準パターンの作成方法について説明する。

先ず、従来側番こよる標準パターン（（式７）、（弐８
））を用いたときの、問題点について述べる。

話を単純にするために、語頭および語尾の位置が、正確
な始端、終端に対して±ｍフレーム以内の範囲でずれた
場合について考察する。すなわち、第２図においてＳ２
−ＦＳ＝ＦＳ−ｓｔ＝ｍ　、　ｅ２−Ｆｅ＝Ｆｅ−ｅｌ
＝ｍとした場合において、ずれ幅ｍと認識率の関係につ
いて調べる。データは１１０名の成人男女がそれぞれ発
声した１０数字（イチ、二、サン、ヨン、ゴ、ロク、ナ
ナ、ハチ、キュウ、ゼロ）を用いる。第３図の破線は、
従来法による標準パターンを用いた場合の、ずれ幅ｍと
１０数字の平均認識率の関係を示したものである。図か
ら明らかなように、ｍ＝±２以内、すなわち語頭候補区
間も、語尾候補区間も正確な位置から±２フレーム以内
の区間として検出された場合は認識率はあまり低下しな
いが、語頭、語尾候補区間がそれ以上広くなると、認識
率が急激に低下してしまう。このように従来法の標準パ
ターンを使用した場合は、候補区間をかなり狭く絞る必
要があり、音声区間検出が正確でない場合にも対処でき
るようにするという本発明の目的を十分に達成すること
ができない。

次に本実施例による標準パターン作成法を説明する。

（式６）の類似度計算式は、もともと（式５）において
、標準パターンに関係しない第１項を省略して、求めた
ものである。第１項は入力の特徴量のみに関係する量で
あるので、入力待微量（［’ｘが同じならば省略しても
さしつかえない。すなわち、音声区間が１つであれば、
全ての単語に対して第１項は共通ζどなるので省略でき
る。しかし、複数の音声区間に対する類似度を相互に比
較する場合は、（式２）で抽出されるフレームが異なる
ので、Ｃｘが同じという条件が成立しない。これが第３
図ζこおいて、ｍを大きくすると、認識率が大きく低下
する主な理由である。

異なる特徴量を相互に比較する場合、事後確率を求める
方法が有効である。特徴量（Ｉ’ｘの単語Ｗｎに対する
事後確率をＰ（ＷｎｌＣｘ）　　とすると、ベイズの定
理より対数をとるとｌｏｇＰ（Ｗｎ　ｌ　Ｃｘ　）＝Ａ！ｏｇ　Ｐ（Ｗｎ　
）　＋　ＪｏｇＰ（ｃｘ　ｌＷｎ　）−ｉｌ’ｏｇＰ（
Ｃｘ）　　　　　　（式１４）どの単語も同じ確率で出
現すると考えてよいのでｌｏｇ　Ｐ（Ｗｎ　）　＝　Ｃ
（定数）　　　　　（式１５）（式１４）の第２項は確
率密度関数の対数であるのでｌｏｇ　Ｐ（（Ｉ？ｘ　１Ｗｎ）＝−”（（Ｉ’ｘ−Ｃ
ｎ）’　ＪＩＷｎ”　・ここでＣｎは単語Ｗｎの平均値
、Ｗｎは共分散行列である。（式１４）の第３項のＰ（
（［”ｘ）は、入力待微量の出現確率であり、あらゆる
音声区間を設定して求めた入力待微量の分布から求めら
れる。ここではＣｘの分布が正規分布に従うものと仮定
すここで＃Ｘ　、　ＷｘはそれぞれＣｘの平均値と共分
散行列である。これらは、全ての単語に対して種々の音
声区間を設定してそれぞれ入力待微量Ｃｘを求め、それ
らの平均値と共分散行列を求めて作成する。具体的ζこ
は、目視によってラベル付けされたデータサンプルを用
い、第４図に示すように、始端、終端の前後にそれぞれ
Ｍフレームの区間を取って、始端、終端を組合わせて（
２Ｍ＋１）２組の区間を考え、各々を（式２）で伸縮し
て（式３）のごとくパラメータ系列に変換し、全ての組
、全ての単語の全てのデータの平均値と共分散行列を求
める。このようｌｃ　Ｐ（Ｃｘ）は、音声区間が存在す
る周囲の情報をいろいろな状況を考慮して正規分布とし
てモデル化したものと考えることができる。

ｂｘ　、　Ｗｘの作成方法は上記に限定されず、音声区
間の周囲情報を十分に含むことができる方法ならば、ど
のようにしてもよい。

さて（式１５）〜（式１９）を用いると（式１４）は次
のようζどなる。

−（Ｃｘ−１１ｘ）　−Ｗｘ　−（Ｃｘ−４ｘ）　）−
（□□□−戦−〇）　　　　（式２０）ここで、等共分
散行列の仮定を行なう。すなわＷ＝Ｗｎ＝Ｗｘ　　　　
　　　　　　　　　（式２１）そうすると（式２０）の
（）内の第１項は（式４）に一致するので、（Ｃｘ−Ｃｎ）’−％％”−（（Ｉ’ｘ−Ｃｎ）＝Ｃ↓
・Ｖ’・Ｃｘ−ａ、！、−［’ｎ−１−ｂｎ　　　　　
（式２２）同様に第２項は（（Ｌ’ｘ−＃ｘ’）”・Ｖｆ’−（Ｃｘ−＃ｘ）＝Ｃ
Ａ−Ｗ−”−Ｃｎ−”ｃ−Ｃｘ十ｂｘ　　　　　（式２
３）ただし ”ｘ＝２ｔｔｔ’ｘ−ｆ’　　　　　　　　　　　（式
２４）ｂｘ＝ｐＡ　−Ｖｋｒ’−／ｌｉｘ　　　　　　
　　　　（式２５）また勃＝蛾となるので、（式２２）
、（式２３）を（式２０）に代入すると、＝ＬＡＡ−ＣＸ−’Ｂｎ＋Ｃ（式２６）Ａｎ　＝　”　
ｎ　−ａ　ｘ　　　　　　　　　　　（式２７）Ｂｎ＝
ｂｎ−ｂｘ　　　　　　　　　　　（式２８）（式２６
）で定数Ｃは大小比較には無関係であるから除くことが
できる。（式２６）からＣを除いて両辺に−２を掛けこ
れをＤｎとするとＤｎ　＝　Ｂｎ　−Ａｎ　−Ｃｘ　　　　　　　　　　
　（式２９）（式２９）は（式１２）に一致している。

このように本実施例で用いる類似度計算式（式１２）は
、形の上では従来例の計算式（式６）と全く同じである
が、従来例ではマハラノビス距離という考え方に基づい
ているのに対し、本実施例では（式１３）で示した事後
確率という考え方に基づいている。（式１３）から（式
２９）を導ひく場合に、計算を簡単にするために、Ｐ（
Ｃｘ）の正規分布仮定および（式２１）の等共分散仮定
を置いているので（式２９）は正確な意味では事後確率
とは異なる。

従って、ここでは擬似事後確率と呼ぶことにする。

本実施例の標準パターンは（式２７）、（式２８）であ
るが、形式的には単語そのものの標準パターンから、周
囲情報を除去した形となっている。

以上説明した方法で標準パターンを作成する場合のブロ
ック図を第５図に示す。図において１〜３は第１図と全
く同じ機能を有する。破線で示しである目視ラベル部１
６は、特徴パラメータを参照して、目視によって正確に
音声区間を切出すことを示す。標準パターンには単語音
声の標準パターンμｎ　、　Ｗｎと周囲情報の標準パタ
ーン＃Ｘ　、　Ｗｘの２種類があるが、先ず前者につい
て作成方法を説明する。

あらかじめ結果が既知（たとえば単語ｎ）の単語音声デ
ータを第５図ＡＤ変換部１、音響分析部２、特徴パラメ
ータ抽出部３のブロックで分析して目視ラベル部１６で
音声区間を求める。そして、この音声区間長（Ｉ）を（
式２）を用いて、時間軸正規化部１２によってＪの長さ
に正規化する。単語別標準パターン作成部１８では（式
２）の関係を満足する特徴パラ、メータのみを取込む。

このような操作を単語ｎに属する多くの音声データサン
プルを用いて行ない、単語別標準パターン作成部１８（
ζ：″１′いて、平均μｎと共分散行列Ｗｎを求めるこ
とによって、各単語音声の標準パターンを作成する。

周囲情報の標準パターンは次のようにして作成する。音
声サンプル（結果が未知であってもよい）を分析して目
視ラベル部１６で音声区間を求め、区間設定部１７によ
って、音声区間の始端、終端の前後にそれぞれＭフレー
ムの区間を取って（２Ｍ＋−１）組の区間を設定する。

時間軸正規化部１２では、各組に対して時間長をＩフレ
ームに正規化し、対応するフレームの特徴パラメータＣ
ｘを環境情報作成部２０に送出する。すなわち、１つの
データサンプルに対して（２Ｍ＋１）の環境情報が集ま
ることになる。このような操作を多くのデータサンプル
を入力して行ない、環境情報作成部２０によって、平均
値＃Ｘと共分散行列Ｗｘを求める。標準パターン変換部
１９では、単語別標準パターン作成部１８で求めたｇｎ
　、　Ｗｎ　、及び環境情報作成部２０で求めたＡＸ　
、　Ｗｘを用いて（式７）、（弐８）（式２，４）　、
　（式２５）および（式２８）〜（式２９）を用いて、
標準パターンＡｎ　、　Ｂｎを作成する。

これで標準パターン作成方法の説明を終える。

第３図の実線は本実施例による標準パターンを使用した
場合の始端、終端のずれ幅と平均認識率の関係を示した
ものである。図から明らかなように、従来法による標準
パターンを使用した場合よりも、本実施例による標準パ
ターンを使用した場合の方が、音声区間のずれに対して
格段に強い。

このように本実施例による標準パターンを第１図におけ
る標準パターン格納部１４に格納しておけば、音声区間
候補検出部１０において、始端、後端の候補区間が広く
検出された場合においても、認識率の低下はあまりない
。

発明の効果以上述べたように、本発明は音声区間の自動検出を前提
とした実用的な方法に関するものであり、音声区間の始
端、後端のそれぞれの候補区間を求め、候補区間の組合
わせによっていくつかの音声区間を設定し、各音声区間
に対して時間軸の正規化を行なって、音声区間の環境情
報を含んだ新しい単語標準パターンとの間に類似度また
は距離の計算を行ない、このようにして全音声区間に対
する類似度または距離を求めて相互に比較を行なって、
類似度が最も大きいまたは距離が最も小さい単語を結果
として出力する音声認識方法を提供するもので、音声区
間が一意に正確に決められない場合においても高い認識
率を確保できるとともに各音素区間あたりの計算量が少
ないという利点を有する。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識方法を具現
化する装置の機能ブロック図、第２図は本発明の一実施
例における音声の始端候補と終端候補の決定方法を示す
説明図、第３図は音声区間が正確でない場合における本
実施例と従来例との平均認識率の比較図、第４図は本発
明の一実施例における標準パターン作成時の音声区間の
設定方法を示す説明図、第５図は本発明の一実施例にお
ける音声標準パターンの作成を示す機能ブロック図、第
６図は従来の音声認識装置の機能ブロック図である。１・・・ＡＤ変換部、２・・・音響分析部、３・・・特
徴パラメータ抽出部、１０・・・音声区間候補検出部、
１１・・・音声区間設定部、１２・・・時間軸正規化部
、１３・・・距離計算部、１４・・・標準パターン格納
部、１５・・・類似度比較部。代理人の氏名　弁理士　中　尾　敏　男　はか１名＠　
　　　　　　　　＊ぐ ◆（第２図第３図す″１Ｌ朝ｈ　処

Claims

【特許請求の範囲】

（１）予め、認識対象とするＮ種の音声の各々の標準パ
ターン、各々の音声に属するデータと認識対象とする全
音声のデータおよび全音声のデータの周囲情報を用いて
作成しておき、一方入力音声から始端候補区間ｋ＿１フ
レーム、終端候補区間ｋ＿２フレームを検出し、始端候
補区間と終端候補区間を組合わせてＫ＝ｋ＿１×ｋ＿２
とおりの音声区間を設定し、これらの音声区間の全部ま
たは１部（Ｋ＿１とおり）を対象として、各々始端と終
端の間をＪフレームに分割し、各フレームごとにｄ個の
特徴パラメータを抽出して時間的順序に並べてｄ×Ｊ次
元の入力ベクトルを作成し、これと前述の各々の音声標
準パターンとの類似度または距離を計算し、このように
してＫ＿１とおりの音声区間に対する各々の音声標準パ
ターンとの類似度または距離を求め、Ｎ×Ｋ＿１種の類
似度または距離を比較して、類似度が最大または距離が
最小となる結果に対応する音声標準パターンが属する音
声を認識結果とすることを特徴とする音声認識方法。
（２）類似度または距離の計算を、事後確率を基本とし
た尺度を用いて行なうことを特徴とする特許請求の範囲
第１項記載の音声認識方法。
（３）特徴パラメータがＬＰＣケプストラム係数、自己
相関係数、帯域通過フィルタの出力のいずれかであるこ
とを特徴とする特許請求の範囲第１項記載の音声認識方
法。
（４）周囲情報を正確な始端付近ｌ＿１フレームと正確
な終端付近ｌ＿２フレームを組合わせて定まる音声区間
を用い、全対象単語に属する多くのデータサンプルから
統計的に作成することを特徴とする特許請求の範囲第１
項記載の音声認識方法。
（５）ある音声ｎの標準パターンを、ｎに属するデータ
を用いて統計的に求めた標準パターンから周囲情報を除
去した形で求めることを特徴とする特許請求の範囲第１
項記載の音声認識方法。
（６）類似度を計算する式が１次判別関数であることを
特徴とする特許請求の範囲第１項記載の音声認識方法。