JPS62111293A

JPS62111293A - 音声認識方法

Info

Publication number: JPS62111293A
Application number: JP60251360A
Authority: JP
Inventors: 二矢田　勝行
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1985-11-08
Filing date: 1985-11-08
Publication date: 1987-05-22
Also published as: JPH0451037B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は人間の声を機械に認識させる音声認識方法に関
するものである。

従来の技術近年音声認識技術の開発が活発に行なわれ、商品化され
ているが、これらのほとんどは声を登録した人のみを認
識対象とする特定話者用である。

特定話者用の装置は認識すべき言葉をあらかじめ装置に
登録する手間を要するため、連続的に長時間使用する場
合を除けば、使用者にとって大きな負担となる。これに
対し、声の登録を必要とせず、使い勝手のよい不特定話
者用の認識技術の研究が最近では精力的に行なわれるよ
うになった。

音声認識方法を一般的に言うと、入力音声と辞書中に格
納しである標準的な音声（これらはパラメータ化しであ
る）のパターンマツチングを行なって、類似度が最も高
い辞書中の音声を認識結果として出力するということで
ある。この場合、入力音声と辞書中の音声が物理的に全
く同じものならば問題はないわけであるが、一般には同
一音声であっても、人が違ったり、言い方が違っている
ため、全く同じにはならない。

人の違い、言い方の違いなどは、物理的にはスペクトル
の特徴の違いと時間的な特徴の違いとして表現される。

すなわち、調音器官Ｃ口、舌、のどなど）の形状は人ご
とに異なっているので、人が違えば同じ言葉でもスペク
トル形状は異なる。

また早口で発声するか、ゆっくり発声するかによって時
間的な特徴は異なる。

不特定話者用の認識技術では、このようなスペクトルお
よびその時間的変動を正規化して、標準パターンと比較
する必要がある。

不特定話者の音声認識に有効な方法として、本出願人は
既にパラメータの時系列情報と統計的距離尺度を併用す
る方法に関して特許を出願している（特願昭６０−２９
５４７号）ので、その方法を以下に説明する。

第１０図は本願出願人が以前に提案した音声認識方法の
具現化を示す機能ブロック図である。

図において、１は入力音声をディジタル信号に変換する
ＡＤ変換部、２は音声を分析区間（フレーム）毎に分析
しスペクトル情報を求める音響分析部、３は特徴パラメ
ータを求める特徴パラメータ抽出部、４は始端フレーム
と終端フレームを検出する音声区間検出部、５は単語長
の伸縮を行う時間軸正規化部、６は入カバターンと標準
パターンとの類似度を計算する距離計算部、７は予め作
成された標準パターンを格納する標準パターン格納部で
ある。上記構成において以下その動作を説明する。

入力音声をＡＤ変換部１によって１２ビツトのディジタ
ル信号に変換する。標本化周波数はｅＫＨｚである。音
響分析部２では、１フレーム（１０ｍｓｅｃ）ごとに自
己相関法によるＬＰＣ分析を行なう。分析の次数は１０
次とし、線形予測係数αｏｌα１．α２・・・α１ｏを
求める。またここではフレームごとの音声パワーＷ０も
求めておく。特徴パラメータ抽出部３では線形予測係数
を用いて、ＬＰＣケプストラム係数０１〜ＣＰ（ｐは打
切り次数）および正規化対数残差パワー００を求める。

なお、ＬＰＣ分析とＬＰＣケプストラム係数の抽出法に
関しては、例えば、Ｊ、Ｄ、マーケル、Ａ、　Ｈ。

グレイ著、鈴木久喜訳「音声の線形予測」に詳しく記述
しであるので、ここでは説明を省略する。

また特徴パラメータ抽出部３では対数パワーＬＷ０を次
式で求める。

ＬＷ０＝１０１０ｇ１０Ｗ０（式１）音声区間検出部４は（式１）で求めたＬＷｏを閾値θ、
と比較し、ＬＷｏ〉０ｓのフレームがｅ８８フレーム上
持続する場合、その最初のフレームを音声区間の始端フ
レームＦ８とする。またＦ８の後において、ＬＷｏと閾
値θ。を比較し、ＬＷｏ＜θ。とな、るフレームがｅ。

フレーム以と連続するとき、その最初のフレームを音声
区間の終端フレームＦ０とする。このようにしてＦ３か
らＦｏまでを音声区間トする。いま説明を簡単にするた
めに、改めてＦ８　を第１フレームと考え、フレームナ
ンバーを（１，２，・・・ｊ、・・・Ｉ）とする。ただ
し、１＝Ｆ。

−Ｆ、　＋　１　　である。

時間軸正規化部５では、単語長を！フレームの長さに分
割することにより線形に伸縮をする。伸縮後の第１フレ
ームと入力音声の第ｉフレームは（式２）の関係を持つ
。

ただし〔〕は、その数を超えない最大の整数を表す。例
ではＩ＝１６としている。

次に伸縮後の特徴パラメータを時系列に並べ、時系列パ
ターンＣ，ｃを作成する。いま第ｉフレームの特徴パラ
メータ（ＬＰＣケプストラム係数）（転）をＣｉ、ｋ（ｋ＝０．１．２．−Ｐ：ｄ個）とするとＣ
ｘは次式となる。

に）　　（勾　　体）　　に）Ｃｘ　”　（Ｃ１，Ｏ＋　ｃｌ、　Ｌ　Ｃｋ２”’ＣＬ
ｐ　”””Ｃｉ＋Ｏ。

（転）　　に）　　（転）Ｃｘ　＊　１°””””Ｃ１，ＯＣ１，１°°ＣＩ、ｐ
）　（式３）すなわちＣ８は、■・（Ｐ＋１　）すなわ
ち！・Ｄ次元のベクトルとなる（Ｄは１フレームあたり
のパラメータ数）。

距離計算部６は入カバターンｃｘと標準パターン格納部
７に格納されている各音声の標準パターンとの類似度を
統計的な距離尺度を用いて計算し、最も距離が小さくな
る音声を認識結果として出力する。標準パターン格納部
７に格納されている第に番目の音声に対応する標準パタ
ーンをＣｋ＜平均値）、対象とする全音声に共通な共分
散行列をヅとすると、入カバターンＣｘと第に番目の標
準パターンとのマハラノビス距離Ｓｋは次式で計算され
る。

Ｓｉｃ＝（Ｃｘ−ｃｋ）ｔ−ｗ−’（ｃ！−ｃｋ）　（
式４）添字ｔは転置を、また−１は逆行列であることを
表す。（式４）を展開するとＢｉｔ＝Ｃｘ”９１　　”Ｃｘ　２Ｃ］ｃ”ｗ−”Ｃｚ
＋　ｃｉ−ｙ−１・Ｃｋ（式５）（式５）の第１項はｎに無関係なので大小比較をすると
きは考慮しなくてもよい。したがって第１項を取除いて
、ＳｋをＤｋに置きかえると、Ｄｋは次のようになる。

Ｃｋ＝ｂｋ　　ａｋ”ｘ　　　　　　（式６）ただし　
　　ａｋ＝２Ｗ　−Ｃｋ　　　（式７）ｂｋ＝ＣＡ−Ｗ
−’・Ｃｋ（式８）Ｄｋを全てのｋ（ｋ＝１．２・・・Ｎ）について計算し
、Ｄｋを最小とする音声を認識結果とする。ここでＫは
標準パターン格納部７に格納されている音声標準パター
ンの数である。実際には標準パターンはａｋとｂｋが１
対として、音声の数（Ｋ種類）だけ格納されている。

（式６）に要する計算量は積和演算が！・（Ｐ＋１）回
、減算が１回であり、非常に計算量が少ないのが特長で
ある。実用的にはＩ＝１６．Ｐ＝４とすれば十分なので
、積和演算回数は１単語あたり８０回である。

次に標準パターン（Ｃｃ、　Ｗ　（実際にはａｋ、ｂｋ
に１変換される）の作成方法について説明する。

標準パターンは、各音声ごとに多くのデータサンプルを
用いて作成する。各音声に対して、用いるサンプルの数
をＭとする。各サンプルに対して（式２）を適用して、
フレーム数を■に揃える。

音声ｋに対して平均値ベクトルを求める。

釦　　　ω　　　ω （Ｃｋ＝（Ｃ１，Ｏ，ｃｌ、　１．　Ｃ１，２，”’Ｃ
Ｉ、ｐ”曲Ｃｉ、Ｏ。

Ｃ’Ｐ、　１　”””””￥、　Ｏ，Ｃ叩、　１　、−
　Ｃ￥、　ｐ　）　　（式９）ｉ＝１．２．・・・Ｉ：
エフレーム）（。＝。、　１．２．　、Ｐ　：　ｄ個ここでＣｉｙユ
、ｍは音声にの第ｍ番目のサンプルで、第ｉフレームの
第３次のケプストラム係数を示す。平均値ベクトルと同
様な手順で音声にの共υ 分散行列Ｗ　を求める。全音声に共通な共分散行列Ｗは
次式で求める。

ｗ　＝−！−（ＪＱ−？’＋・・・十−＋・・・・・・
十−）（式１１）Ｃｋ、Ｗを（式７）（式８　）　ニ！
：　ッテａｋ、ｂｋニ変換し、標準パターン格納部７に
あらかじめ格納しておく。

発明が解決しようとする問題点かかる方法における問題点は、パターンマツチングを行
なう以前に音声区間が一意に確実に決められていると仮
定している点にある。現実の音声データは種々のノイズ
を含んでいたり、語頭や語尾における発声が不明瞭であ
るため、音声区間を正確に決められない場合や、音声以
外の区間を誤まって検出する場合が多々ある。誤まった
音声区間に対して従来例の方法を適用すると、当然のこ
とながら、認識率が大きく低下してしまう。

本発明の目的はと記問題点を解決するもので、音声区間
の検出という操作を必要としないで、入力信号中から音
声を自動的に抽出して認識できる、高い認識率を有する
音声認識方法を提供するものである。

問題点を解決するための手段本発明はＪ：ａｄ目的を達成するもので、認識すべき音
声とその前後の騒音を含む十分長い区間を入力信号区間
とし、この入力信号区間に、ある時間的な基準点を設け
、基準点を端点としてそれからＮ１フレームの区間とＮ
２フレームの区間（Ｎ１くＮ２）の２区間を設定して、
これらを音声区間のそれぞれ最小値と最大値と考えて、
Ｎ２−Ｎ１＋１とおりの音声区間候補のそれぞれに対し
て、音声区間長を一定時間長に伸縮しながら各単語の標
準パターンとのマツチングを行なって各単語の類似度ま
たは距離を求め、この操作を基準点を全入力信号区間の
始めから終りまで走査して行ない、全ての基準点位置の
全ての音声区間候補に対する類似度または距離を各単語
について比較し、類似度を最大または距離を最小とする
単語を認識結果として出力するものである。

作　　用本発明は、全入力信号区間を対象として１フレームずつ
ずらせながら線形伸縮した入力と標準パターンとの間の
パターンマツチングを行ない、類似度最大または距離最
小となる音声とその区間とを自動的に求めるので音声区
間の検出が必要でなくなり、騒音環境下で発声した音声
を高い確率で認識することができる。

実施例以下に本発明の実施例を図面を用いて詳細に説明する。

第１図は本発明の一実施例における音声認識方法の具現
化を示す機能ブロック図である。

まず本実施例の考え方を第２図〜第４図を用いて説明す
る。同じ言葉を発声しても、発声の時間的な長さく音声
長）は発声方法によっても異なるし、人の違いによって
も異なる。パターンマツチングによる音声認識方法では
入力音声の長さを、標準的な音声長に正規化したうえで
類似度計算を行なって音声の認識を行なう。第２図は音
声長の正規化の様子を示したものである。入力音声の長
さの最小長をＮ１、最大長をＮ２とし、音声の標準的な
長さく標準パターン長）をＩとすると、第２図に示すよ
うに、長さＮ（Ｎｌ≦Ｎ≦Ｎ２）の音声長を伸縮して長
さＩに正規化することになる。第２図では音声の終端を
一致させて、伸縮するようになっている。伸縮には（式
２）と同様に、線形伸縮式を用いる。

未知入力と標準パターンの類似度を計算する場合、未知
入力の音声長Ｎを（式１２）によって標準パターン長に
伸縮することになるが、この様子を図示したのが第３図
である。よこ軸に入力長、たて軸に標準パターン長をと
り、終端を一致させると、入力音声長はＮ１〜Ｎ２の範
囲であるから、入力と標準パターンとのマツチングルー
トは、入力軸のＮ１≦Ｎ≦Ｎ２内の１点を始点とし、Ｐ
を終端とする直線となる。したがって、類似度計算は全
て三角形の内側で行なわれることになる。

いま、時間長ＮＵの未知入力があり、その内容が音声に
であったとする。ただし、未知入力の終端は既知である
が始端は未知である（したがって、ＮＵも未知である）
とする。この未知入力と単語にの標準パターンＳｋの照
合を行なう場合、ＮをＮ１からＮ２まで、１フレームず
つずらせながら、各フレームに対して（式１２）を用い
て時間長を１に伸縮し、未知入力パラメータと標準パタ
ーンとの類似度を求める。このとき標準パターンはＳｋ
であるので、発声が正確ならば、Ｎ＝ＮＩＪにおいて類
似度は最大となるはずである。また他の任意の標準パタ
ーンＳｋ′に対するよりも、Ｓｋに対して類似度が大き
くなるはずである。このようにして、未知入力の始端が
決められる（したがって音声長が決められる）と同時に
音声ｋが認識できる。

さて、第３図においては終端が既知として説明を行なっ
たが、両端が未知の場合（すなわち音声区間が不明であ
る場合）にも、この方法を拡張できる。第４図はその説
明図である。図において終端点の横軸（入力の時間軸）
座標をｉとする。ここでもしｊの位置が入力音声の終端
に一致していれば第３図の場合と同じであるが、今度は
両端点が未知という仮定であるので、必ずしもｉが音声
の終了点と一致するとは限らない。しかしながら、ｊを
音声区間が十分に入る広い範囲１１≦１≦１２でスキャ
ンすれば、１が音声の終端と一致する時点）＝ｊＯが必
ず存在する。その場合、始端点はｊｏ−Ｎ２〜ｊｏ−Ｎ
ｔの範囲内の点ｊｏ　　ＮＵに存在するはずである。そ
して、このようにスキャンした場合においても、発声し
た言葉と標準パターンが一致していれば、始端力Ｊ□−
Ｎυ、終端が１０のときの類似度が、他のどのようなｊ
およびＮの組合せよりも大きくなる。しかも、この類似
度は他の標準パターンに対する類似度よりも大きい。

したがって、認識結果が求められると同時に、音声の始
端点、終端点が定まる。

このように第４図に示した方法は、騒音と音声が混在し
た信号から、標準パターンに最も類似した部分を切り出
して認識することができる。したかって、一般に用いら
れているような複雑な音声区間検出の手続きを必要とせ
ず、音声区間は認識された音声とともに結果として出力
される。

類似度の計算は以下に述べるように、特徴パラメータの
時系列パターンを用い、統計的距離尺度（事後確率に基
く距離）によって計算する。

１フレームあたりの特徴パラメータの個数をＤとすると
、■フレームの時系列パターンはり、１次元のベクトル
となる。いま、未知入力の第ｉフレームのパラメータを
ｏｃｌ、単語にの標準パターにンの第ｉフレームの成分を―、とすると、”　１　＝（
”Ｌ　ｌ＋　”２．１＋　・・”４　ｋ＋・・・ＸＤ、
　、　）　（式１３）ｌ１＝（ａＬＬ　ａ２＋ｉ＋　”
’ａｄ、ｔ＋”’ａＤ、ｔ）　（式１４）時系列パター
ンをそれぞれＸ、Ａｋ　とすると！＝（ａｃｌ、区２．
−．ａｃｉ、−，ｇｌ）　　　　　（式１５）／Ａｋ＝
（孕１．　ｉｇ　ｍ　拳ｉ、　・＋、　！り　　　（式
１６）である。単語ｋに対する類似度をＬｋとすると、
Ｌｋ＝Ｂｋ−Ａｋ−ｘ　　　　　　　　（式１７）ここ
でＡｋ、Ｂｋは単語にの標準パターンである。

Ａ　ｋ　”　２　Ｗ　ａ　（１１’　ｋ　　Ｉ’　ｓ　
）　　　　　　（式２０　）％式％Ｂｋ＝１１に−Ｗ、　・＃ｋ　　１１”ｅ’ｓ’ｌ’＠
　・Ｊ’ｓ　（式２１）ただし、１ｔｔｋは単語にの平
均値ベクトル、ｌ。

は全ての単語の周囲情報の平均値ベクトルである。

またｗａは共分散行列であり、各単語の共分散行列Ｗｋ
と周囲情報の共分散行列Ｗ。を用いて作成できる。

Ｋは単語の種類である。

＃ｅ、Ｗｅは各単語に属する多くのサンプルを用いて、
次のように作成する。第５図に示すように、音声とその
周囲の区間に対して、１フレームずつずらせながら複数
の区間（区間長は！フレーム）を設定する。このような
操作を各単語の多くのサンプルに対して行ない、それら
の区間のパラメータの平均値ベクトル族。と共分散行列
Ｗ。を作成する。

（式１７）は（式６）と同じ形であるので、類似度計算
に要する演算量は従来例と変わらない。

標準パターン作成の式（（式７）、（式８）と（式２０
）、（式２１・））のみが異なっている。

□　周囲情報を〃。、Ｗｏとして標準パターンに取り込
んでいるのが本発明の特徴である。このようにすると、
（式１７）は擬似的な事後確率に基く距離となる。

第１図において１０は入力信号をディジタル信号に変換
するＡＤ変換部、１１は音声分析区間（フレーム）ごと
に分析する音響分析部、１２は特徴パラメータ抽出部で
あり、低次の６つのＬＰＣケプストラム係数（ＣＱ−ｃ
５）をフレーム（１０ｍｓｅｃ）ごとに出力する。特徴
パラメータ抽出部１２の出力が（式１３）の区に相当す
る（したがってＤ＝６である）。なおブロック１０〜１
２の機能は第１０図のブロック１〜３の機能と同じであ
る。特徴パラメータはＬＰＣケプストラム係数の他に、
自己相関係数、ＰＡＲＣＯＲ係数、帯域通過フィルタの
出力などがある。

以下、各ブロックの機能を第６図のフローチャートを参
照しながら説明する。フレーム同期信号発生部１３は、
１フレームごとに同期信号を発生する。フレーム番号を
１とし、入力音声を含む十分広い区間自≦ｉ≦１２で類
似度の計算を行なうものとする。１フレームの期間で次
の操作°を行なう。

標準パターン選択部１８は、認識対象とする音声（ここ
では単語）の１つ１つを選択する（単語数をＫとする）
。選択された標準パターンに対して、区間候補設定部１
５では、各単語の最小音声区間長Ｎ１（ｋ）と最大音声
区間長Ｎ２（ｋ）を設定する。

そして、区間長Ｎ（Ｎ１（ｋ）≦Ｎ　＜　Ｎ２（ｋ）　
）に対して、特徴パラメータ抽出部１２で得られた未知
入力パラメータを１Ｎ＝ｉフレームの時間分だけ並べて
、入力パラメータの時系列を作り、時間軸正規化部１４
において、時系列パラメータの時間を（式ｌ　２　）を
用いて！フレームに伸縮し、（式１５）に相当するパラ
メータ系列を得る。類似度計算部１６はこのパラメータ
系列と、標準パターン選択部１８で選ばれた標準パター
ン格納部１７中の標準パターンＡｋ、Ｂｋとの間で、（
式１７）を用いて類似度ＬｋｌｌＪを計算する。類似度
比較部２０では、Ｌ　ｋ　Ｎ）と１次記憶１９に蓄積さ
れているこの時点までの最大類似度値（距離の最小値Ｌ
ｍｉｎ）を比較し、ＬｋｅＪ）＜ＬｍｉｎならばＬｍｉ
ｎをＬＳＪ）に置きかえてその時のｋを９として１次記
憶１９を更新し、Ｌｋｌ［≧Ｌｍｉｎ　　ならば１次記
憶１９の内容は更新しない。

このような一連の操作を、１つの標準パターンに対して
Ｎ　２（ｋ）−Ｎ　ｌ　（ｋ）　＋　１回ずつ、１フレ
ームの間にに個の標準パターンに対して行なう。そして
更に、それを１〜１２フレームの期間に対して行なう。

認識結果は、１２フレームまで到達した時点におけるｋ
であり、その時の類似度値はＬｍｉｎである。また最大
類似度を得た時点のフレーム１とその時の区間長介を１
次記憶１９に蓄積しておけば、これらを用いて音声区間
を結果として求めることができる。

以上述べたように、本実施例はｈ〜１２の区間を、音声
がその中に十分に入るように広く取っておきさえすれば
、音声区間検出という操作を必要とせずに音声を認識す
ることができる。第１図で示した第１の実施例は、解り
やすいので、方法の説明には有用であり、このとおりに
実現することはもちろん可能である。しかし、リアルタ
イム化を図ろうとした場合、計算量が多すぎるという難
点がある。その原因は、区間候補設定部１５で設定しｔ
こ全での区間について、まともに（式１７）を計算して
いる点にある。

次に述べる第２の実施例は、計算量を削減した、より実
用的な方法である。まず原理的な説明を行なう。

認識結果を得るには類似度計算式（１８）において、Ｌ
ｋを最小とするに＝’Ｑを求めればよい。すに＝ＢｋｍａｘＭ　輛（式２５）％式％ここで　ｌ、輛＝（＊４）・区ｉ　　　　（式２６）は
、マツチングルートＮに従って時間伸縮された後の第ｉ
フレームの入力ＩＥｉと標準パターンにの部分類似度で
ある。次に時間伸縮の意味するところを考えてみる。時
間伸縮をされる前の未知入力ベクトルを７とすると、Ｙ　＝　（ｖｔ、　９２．−ｖｎ、　−ｖＮ）　　　　
（式２７）と表わされる。ｎと１は両方とも整数であり
、（式１２）で関係づけられている。したがって（式１
５）のベクトルＸは（式２７）の未知入力ベクトルＹの
中から、（式１２）で関係づけられるフレームをＩフレ
ーム分だけ選択して時間的順序で並べたものである。マ
ツチングルートに従って選択するという操作を便宜上、
次式で表わす。

ｏｃｔ＝（ｖｉ）Ｎ　　　　　　　　　＜式２８）そう
すると部分類似度（式２６）はｔ１、■＝　（ｐ　ｉ）”〔マｔ；）Ｎ　　　　（式２９
）また部分類似度の和−剃は（式３０）すなわち（式１７）は、部分類似度１ｔｅＪ）が先に求
められていれば、それらを（式１２）の関係に従ってＩ
フレーム分だけ加えるという操作に置きかえられる。（
式１２）はＮを与えれば一意にｉとｎの関係が求まるの
で、Ｎ１≦Ｎ＜Ｎ２の範囲であらかじめ計算して、テー
ブルなどに蓄積しておくことができる。

次に第７図を参照してｅ′Ｆ（Ｎ）の求め方について考
えてみる。図において、点Ｐを標準パターンと未知入力
の終端点とし、未知入力の終端点の座標をＮＱとする。

Ｎ１．Ｎ２　は以前と同様に、音声の最小長と最大長で
ある。いま、未知入力の始端点がＮの場合の類似度を求
めるものとすると、マツチングルートは直線ＰＮである
。ＰＮｈで（式１２）を満足する、任意の一点（ｎ’、
ｉ）における部分類似度７？ｉ智は、入力のｎ′フレー
ムのペクト”　トｌ１ｆ４　準ハターンのｉフレーム成
分のベクトル−１の積である。（ｎ’、ｉ）点は、現時
点ではＰＮｈに位置しているが、Ｐ点は時間とともにシ
フトするので、ユ′フレーム以前にはＰ’Ｎ’Ｑ上に存
在していたはずである。したがって、Ｐ′点の時点で（
ｎ′。

ｉ）の部分類似度を求めてそれを蓄積しておき、Ｐ点の
時点で使用することができる。（ｎ’、ｉ）は△ＰＮ２
Ｎ１上の任意の点であるから、他の点についても同様の
ことが言える。このように考えると、各フレームにおけ
る計算は次のように２つに分けることができる。

■　ＰＮ□上での部分類似度を計算して、バッファに蓄
積する。（積和演算） ■　（式３０）によって計算する部分類似変相にに用いる４１輛は、それ以前のフレームで計算してバッフ
ァに蓄積されていたものを取り出して用いる。（加算演
算）第８図はフレームあたりの計算方法をブロック図で示し
たものである。図において、３０はｇｔ（Ｎｏ）を計算
する積和器であり、標準パターンのフレーム数（Ｉ）だ
け用意されている。各積和器の下部からは第ｉフレーム
の入力ベクトルａｃ（ｉ）が入力され、左側から標準パ
ターンが入力される。

そして（式２９）に相当する計算を行ない、１４（Ｎｏ
）を出力する。遅延バッファ３１は、積和器の計算結果
を１フレームの期間保存して、次段へ伝播する。遅延バ
ッファの数は、１単語あたり、第７図の△ＰＮ２Ｎ□内
の点の数だけ用意されている。３２は加算器であり、（
式３０）に相当する計算を行なって類似変相を求める。

加算器ａ２は１個の入力端を持ち、その各々は（式１２
）で規定されるマツチングルートに従って、遅延バッフ
ァの出力端に接続されている。３３は比咬器であリ、ｍ
ａｘＭｋ■　を求める。３４は減算器であり、（式２５
）の計算を行なって、単語ｋに対する最小値を求めろ。

以と、第２の実施例における方法の説明を行なっな。第
９図は第２の実施例における音声認識装置の具現化を示
す機能ブロック図である。第９図において、第１図と同
じ番号を有するブロックは同一機能を有するので、説明
を省略または簡略化する。

第９図において、ＡＤ変換部１０、音響分析部１１、特
徴パラメータ抽出部１２で入力音声をディジタル化して
ＬＰ−Ｃ分析を行ない、特徴パラメータ（ＬＰＣケプス
トラム係数）をフレームごとに求める。１フレームの期
間内に以下の操作を行なう。

標準パターン選択部１８は、標準パターン格納部１７に
格納されているに個の標準パターンを、１つずつ選択す
る。部分類似度計算部２１は、入力特徴パラメータと選
択された標準パターンとのに間で（式２９）の計算を行ない（ｌ　ｉ　（Ｎ□　）を
求め、類似度バッファ２２へ蓄積する。類似度バッフ７
は、１単語あたり第７図の△ＰＮ２Ｎ□内の類似度を蓄
積できる容量を持っており、時間伸縮テーブル２４で指
定されたアドレスの内容を読み出ス。

時間伸縮テーブルには入力長Ｎ（Ｎ１≦Ｎ≦Ｎ２）の各
々に対して（式１２）で規定されるｎとｉの関係が記述
されている。Ｎ１．　Ｎ２は単語ごとに異なり、区間候
補設定部１５によって設定される。

類似度加算部２３は、マツチングルートＮ１〜Ｎ２の各
々に対して、時間伸縮テーブル２４で指定されたアドレ
スで読出される類似度バッファ２２の出力を加算して（
式３０）の計算を行ない、類似に変相Ｍ（Ｎ）を求める。類似度比較部２０１．ｔＭｋ（
ＩＪと１次記憶１９の内容を比較し、Ｍ（ｆｉの方が大
きい場合のみ、１次記憶の内容をＭｋＨに置きか。

える。Ｎ＝Ｎ２まで計算し終えると（式１８）によって
Ｌｋを求め、１次記憶１９に蓄積されている、それ以前
の最小値と比較し、Ｌｋが小さい場合のみ１次記憶１９
の内容を更新する。そして、標準パターン選択部１８は
次の単語を選択して同様の操作を行なう。さらに全単語
を終了するとフレームを進める。

対象とする全区間（ｉ＝自〜ｉ２）　　に対してこのよ
うな操作を行なうと、＋＝ｆ２フレームを終了した時点
では、類似度の最小値Ｌｋとその時の単語名ｔを認識結
果として求めることができる。

第２の実施例では、第１の実施例に比べて、類似度を求
めるための積和演算の回数が非常に少なくなっている。

いま、単語数に＝１０．標準パターン長Ｉ　＝１６．平
均最小時間長Ｎ１＝２１．平均最大時間長Ｎ２＝４０．
１フレームあたりのパラメータ数Ｄ＝６とすると、第１
の実施例における積和演算量は１９８００回に対し、第
２の実施例では９６０回である。

本実施例の方法を用いて、成人男女計３３０名が電話機
を通して発声した１０数字単語を評価した結果、平均認
識率９３．７５％を得た。高騒音下の発声であることを
考慮すれば、この値は低いとは言えない。また本実施例
による認識誤まりの原因を分析した結果、誤まりのほと
んどはある単語の一部を他の単語として認識してしまう
ために生ずることがわかった。たとえば／Ｚｅｒｏ／の
／ｒｏ／の部分を／ｇｏ　／と誤認識するのがその１例
である。

このため、第２候補までを正解とすると９７％以上の認
識率を得る。したがって、他の方法を少し併用すれば、
第１候補としてさらに高い認識率が得られることが容易
に推察される。

発明の効果以七要するに本発明は、認識すべき音声とその前後の騒
音を含む入力信号区間に、ある時間的な基準点を設け、
基準点を端点としてそれからＮ１フレームの区間とＮ２
フレームの区間（Ｎ１　＜Ｎ２　）の２区間を設定して
、これらを音声区間のそれぞれ最小値と最大値と考えて
、Ｎ２−Ｎ１＋１とおりの音声区間候補のそれぞれに対
して、音声区間長を一定時間長に伸縮しながら各単語の
標準パターンとのマツチングを行なって各単語の類似度
または距離を求め、この操作を基準点を全入力信号区間
の始めから終りまで走査して行ない、全ての基準点位置
の全ての音声区間候補に対する類似度または距離を各単
語について比較し、類似度を最大または距離を最小とす
る単語を認識結果として出力するもので、音声区間の検
出を必要とせず、騒音と音声が混在した信号から音声に
相当する部分のみを切出して認識でき、従来は複雑なル
ールを用いて音声区間の検出を行なっていたが、それで
も騒音レベルが高い場合や非定常的なノイズが混入する
場合には音声区間の検出を誤まり、したがって誤認識を
していたが、本発明は複雑な音声区間検出アルゴリズム
を除去することによって、システムを簡略化し、また高
騒音入力に対して安定した認識率を確保することができ
、その効果は大きい。

【図面の簡単な説明】

第１図は本発明の第１の実施例における音声認識方法を
具現化する機能ブロック図、第２図乃至第４図は同実施
例の音声区間長の伸縮を説明する概念図、第５図は同実
施例の音声の標準パターン作成時の、周囲情報の標準パ
ターン作成法を説明する概念図、第６図は同実施例の処
理手順を説明するフローチャート、第７図は本発明の第
２の実施例における音声認識方法の部分類似度の求め方
を示す概念図、第８図は同実施例のフレームあたりの計
算方法を示すブロック図、第９図は同実施例における音
声認識方法を具現化する機能ブロック図、第１０図は従
来の音声認識方法を示す機能ブロック図である。１０・・・・・・ＡＤ変換部、１１・旧・・音響分析部
、１２・・・・・・特徴パラメータ抽出部、１３・・・
・・・フレーム同期信号発生部、１４・・団・時間軸正
規化部、１５・・・・・・区間候補設定部、１６・・・
・・・類似度計算部、１７・・・・・・標準パターン格
納部、１８・・・・・・標準パターン選択部、１９・・
・・・・１次記憶、２ｏ・・・・・・類似度比較部。代理人の氏名　弁理士　中　尾　敏　男　はが１名第　
２　口第４図Ｓ−鮨塙臼罰＊第５図第６図本カスＬ騨第７図第８図

Claims

【特許請求の範囲】

（１）予め、認識対象とする音声の各々の標準パターン
を、各々の音声に属するデータと認識対象とする全音声
のデータおよび全音声のデータの周囲情報を用いて作成
しておき、一方、認識すべき音声とその周囲の情報を含
む未知入力内に時間的な基準点を設け、基準点を端点と
してそれから時間長Ｎ＿１およびＮ＿２（Ｎ＿１＜Ｎ＿
２）の２つの区間を設定して、基準点とＮ＿１の間の区
間を音声区間の最小値そして基準点とＮ＿２の間の区間
を音声区間の最大値と考えて、最小音声区間と最大音声
区間の間に複数の音声区間を仮定し、仮定したそれぞれ
の音声区間長を一定時間長に伸縮しながら前記各音声の
標準パターンとの照合を行なって各音声に対する類似度
または距離を求め、仮定した全音声区間の全標準パター
ンに対する最大類似度または最小距離とその場合の標準
パターン名を記憶し、次に未知入力内の基準点を単位区
間シフトさせて、同様にして新たに最大類似度または最
小距離を求め、記憶されている以前の最大類似度または
最小距離と新たな最大類似度または最小距離を比較して
大きい方の類似度または小さい方の距離とそのときの標
準パターン名を記憶し、このような操作を、基準点を単
位時間ずつシフトさせながら、未知入力の十分広い区間
に対して行ない、基準点が最終点に到達したときに記憶
されている標準パターン名に対応する音声を認識結果と
することを特徴とする音声認識方法。
（２）予め、音声区間長と、その音声区間長を一定時間
長に伸縮した時の標準パターンの時間的な位置との対応
関係を求めておき、一方、類似度または距離の計算にお
いては未知入力と標準パターンの部分類似度または距離
を先に求め、仮定した音声区間長の未知入力と標準パタ
ーンの類似度または距離を、前記対応関係を参照しなが
ら部分類似度を加算することを特徴とする特許請求の範
囲第１項記載の音声認識方法。
（３）類似度または距離の計算を、事後確率を基本とし
た尺度を用いて行なったことを特徴とする特許請求の範
囲第１項記載の音声認識方法。
（４）特徴パラメータがＬＰＣケプストラム係数、自己
相関係数、帯域通過フィルタの出力のいずれかであるこ
とを特徴とする特許請求の範囲第１項記載の音声認識方
法。
（５）周囲情報を正確な始端付近ｌ＿１フレームと正確
な終端付近ｌ＿２フレームを組合わせて定まる音声区間
を用い、全対象単語に属する多くのデータサンプルから
統計的に作成することを特徴とする特許請求の範囲第１
項記載の音声認識方法。
（６）ある音声ｎの標準パターンを、ｎに属するデータ
を用いて統計的に求めた標準パターンから周囲情報を除
去した形で求めることを特徴とする特許請求の範囲第１
項記載の音声認識方法。
（７）類似度を計算する式が１次判別関数であることを
特徴とする特許請求の範囲第１項記載の音声認識方法。