JPS62134699A

JPS62134699A - 音声認識方法

Info

Publication number: JPS62134699A
Application number: JP27536585A
Authority: JP
Inventors: 二矢田　勝行
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1985-12-06
Filing date: 1985-12-06
Publication date: 1987-06-17
Also published as: JPH054680B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

産業上の利用分野本発明は人間の声を機械に認識させる音声認識方法に１
３’Ｊするものである。従来の技術近年音声認識技術の開発が活発に行なわれ、商品化され
ているが、これらのほとんどは声を登録した人のみを認
識対象とする特定話者用である。特定話者用の装置は認識すべき言葉をあらかじめ装置に
登録する手間を要するため、連続的に長時間使用する場
合を除けば、使用者にとって大きな負担となる。これに
対し、声の登録を必要とせず、使い勝手のよい不特定話
者用の認識技術の研究が最近では精力的に行なわれるよ
うになった。音声認識方法を一般的に言うと、入力音声と辞書中に格
納しである標準的な音声（これらはパラメータ化しであ
る）のパターンマノチ／グを行なって、類似度が最も高
い辞書中の音声を認識結果として出力するということで
ある。この場合、入力音声と辞書中の音声が物理的に全
く同じものならば問題はないわけであるが、一般には同
一音声であっても、人が違ったり、言い方が違っている
ため、全く同じにはならない。人の違い、言い方の違いなどは、物理的にはスペクトル
の特徴の違いと時間的な特徴の違いとして表現される。すなわち、調音器官（口、舌、のどなど）の形状は人ご
とに異なっているので、人が違えば同じ言葉でもスペク
トル形状は異なる、。また早口で発声するか、ゆっくり発声するかによって時
間的な特徴は異なる。不特定話者用の認識技術では、このようなスペクトルお
よびその時間的変動を正規化して、標準バター７と比較
する必要がある。不特定話者の音声認識に有効な方法として、本出願人は
既にパラメータの時系列情報と統計的距離尺度を併用す
る方法に関して特許を出願している（特願昭６０−２９
５４７　’Ｉので、その方法を以下に説明する。第１０図は本願出願人が以前に提案した音声認識方法の
具現化を示す機能ブロック図である。図において、ｌは入力音声をディジタル信号に変換する
ＡＤ変換部、２は音声を分析区間（フレーム）毎に分析
しスペクトル情報を求める音響分析部、３は特徴パラメ
ータを求める特徴パラメータ抽出部、４は始端フレーム
と終端フレームを検出する音声区間検出部、５は単語長
の伸縮を行う時間軸正規化部、６は入力バターノと標準
パター／との類似度を計算する距離計算部、７は予め作
成された標準バター／を格能する標準パターン格納部で
ある。上記構成において以下その動作を説明する。入力音声をＡＤ変換部１によって１２ビツトのディジタ
ル信号に変換する。標本化周波数は８ＫＩＩＺである。音響分析部２では、１フレーム（１０ｍｓｅｃ　）ごと
に自己相関法によるＬＰＧ分析を行なう。分析の次数は
１０次とし、線形予測係数α０Ｉｄｌ、（！２・・α１
０を求める。またここではフレームごとの音声パワーＷ
ｏも求めておく。特徴パラメータ抽出部３では線形予測
係数を用いて、ＬＰＣケプストラム係数０１〜ＣＩ）（
ｐは打切り次数）および正規化対数残差パワーＣｏを求
める。なお、ＬＰＧ分析とＬＰＣケプストラム係数の抽出法に
関しては、例えば、Ｊ、Ｄ、マーケル、Ａ、Ｈ。グレイ著、鈴木久喜訳「音声の線形予測」に詳しく記述
しであるので、ここでは説明を省略する。また特徴パラメータ抽出部３では対数パワーＬＷＯを次
式で求める。ＬＷｏ　＝　１１０１ｏ　１０ＷＯ（１）音声区間検出
部４は式（１）で求めたＬ　Ｗ　ｏ閾値ＯＳト比較し、
Ｌ〜Ｖ　ｏ　＞　Ｏｓ　　のフレームがｔ５５フレーム
上持続する場合、その最初のフレームを音声区間の始端
Ｆ５とする。またＦ５の後において、ＬＷｏと閾値θｅ
を比較し、ＬＷｏ＜θ。となるフレームがｔｅフレーム
以上連続するとき、その最初のフレームを音声区間の終
端フレームＦｅとする。このようにしてＦ５からＦｅま
でを音声区間とする。いま説明を簡単にするために、改
めてＦ８を第１フレームト考え、フレームナンバーを（
１゜２・・・ｊ、・・・Ｊ　）とする。ただし、Ｊ＝Ｆ
ｅ−Ｆ、＋１である。時間軸正規化部５では、単語長を■フレームの長さに分
割することにより線形に伸縮をする。伸縮後の第１フレ
ームと入力音声の第１フレームは式（２）の関係を持つ
。ただし〔〕は、その数を超えない最大の整数を表す。例
ではｌ−１６としている。次に伸縮後の特徴パラメータを時系列に並べ、時系列パ
ターンＣＸを作成する。いま第１フレームの特徴パラメ
ータ（ＬＰＣケプストラム係数）（ＸｌをＣＩ、ｋ（ｋ＝０＋１＋２１”’Ｐ：ｄ個）とすると
Ｃｘは次式となる。Ｊｙ、ｌ、・・・　・Ｊｘｌ、ｏ、ｌ、甲、１・Ｃ’ｌ
、ｐ’　）　’（３）すなわちＣｘは、■・（Ｐ＋１　
）すなわち■・Ｄ次元のベクトルとなる（Ｄは１フレー
ムあたりのパラメータ数）。距離計算部６は入カバターンＣｘと標準パターン格納部
７に格納されている各音声の標準パターンとの類似度を
統計的な距離尺度を用いて計算し、最も距離が小きくな
る音声を認識結果として出力する。標準パターン格納部
７に格納されている第に番目の音声に対応する標準パタ
ーンを（Ｌｋ（平均値）、対象とする全音声に共通な共
分散行列をＷとすると、入力バター／ｃｘと第に番目の
標準パターンとのマハラノビス距離Ｓｋは次式で計算さ
れる。Ｓｋ　＝　（（Ｅｘ　（Ｃｋ）　［・Ｗ　’　・（ＣＸ
−Ｃ：ｋ）　　　　　（４）添字しは転置を、また−１
は逆行列であることを表す。式（４）を展開すると５ｋ＝ｃ↓’Ｗ−１・（［：ｘ−２（Ｃ，％　−Ｗ−１
−（Ｉｌ、ｘ＋Ｃｋ−Ｗ　’−Ｃｋ（５）式（５）の第１項はｎに無関係なので大小比較をすると
きは考慮しなくてもよい。したがって第１項を取除いて
、ＳｋをＤｋに置きかえると、Ｄｋは次のようになる。Ｄｋ＝　ｂｋ−ａｋ　’ｃｘ　　　　　　　　　　　（
６）ただし　　ａｋ＝　２ｖ’　・（Ｃｋ（７）ｂｋ＝
　ｃｋ−ｖ−１−Ｃｋ（ｓ）Ｄｋを全てのｋ（ｋ＝１．２・・・Ｎ）について計算し
、Ｄｋを最小とする音声を認識結果とする。ここでＫは
標準パターン格納部７に格納されている音声標準パター
ンの数である。実際には標準パターンは２に、！：ｂｋ
が１対として、音声の数（Ｋ種類）だけ格納されている
。式（６）に要する計算量は積和演算がＩ・（Ｐ＋１）回
、減算が１回であり、非常に計算量が少ないのが特長で
ある。実用的にはＩ＝１６．Ｐ−＝１とすれば十分なの
で、積和演算回数は１単語あたり８０回である。次に標準パターンＣｋｌ（実際には２１に、ｂｋに変換
される）の作成方法について説明する。標準バター７は、各音声ごとに多くのデータサンプルを
用いて作成する。各音声に対して、用いるす／プルの数
をＭとする。各サンプルに対して式（２）を適用して、
フレーム数をＩに揃える。音声ｋに対して平均値ベクト
ルを求める。ｆｋ）　　　ｆｋ＋　　　ｆｋ）　　　　（ｋ）　　　
　、（ｋ）（ｉ：に−（Ｃ１＋０．　Ｃ１，Ｉｔ　ＣＬ
、２．”’ＣＩ＋ｐ−’、Ｃｉ＋Ｏ＋＋に＋　　　　　
ｆｋ）　　　（ｋ＋　　　　＋に＋Ｃｒ　、１−Ｃｒ　
、ｏ、　ＣＩ　、■、−ＣＩ、　Ｉ）　）（９）＋に＋ここでＣｉ、ｎ、ｍは音声にの第ｍ番目のサンプルで、
第１フレームの第９次のケプヌトラム係数を示す。平均
値ベクトルと同様な手順で音声にの共（ｋ＋分散行列Ｗ　を求める。全音声に共通な共分散行列Ｗは
次式で求める。Ｃｋ、Ｗを式（７）式（８）によってａｋ、ｂｋに変換
し、標準バター７格納部７にあらかじめ格納しておく。発明が解決しようとする問題点かかる方法における問題点は、パターンマツチングを行
なう以前に音声区間が一意に確実に決められていると仮
定している点にある。現実の音声データは種々のノイズ
を含んでいたり、語頭や語尾における発声が不明瞭であ
るため、音声区間を正確に決められない場合や、音声以
外の区間を誤まって検出する場合が多々ある。誤まった
音声区間に対して従来例の方法を適用すると、当然のこ
とながら、認識率が大きく低下してしまう。本発明の目的は上記問題点を解決するもので、音声区間
の正確な検出を必要としないで、入力信号中から音声を
自動的に抽出して認識でき、高い認識率を有する音声認
識方法を提供するものである。問題点を解決するための手段本発明は上記目的を達成するもので、パワー情報を利用
して認識すべき音声の存在を検出し、その始端付近にあ
る時間的な基準点となる始端点を設け、基準点を端点と
してそれからＮｌフレームの区間とＮ２フレームの区間
（Ｎ１＜Ｎ２）の２区間を設定して、これらを音声区間
のそれぞれ最小値と最大値と考えて、Ｎ２−Ｎ１＋１と
おりの音声区間候補のそれぞれに対して、音声区間長を
一定時間長に伸縮しながら各単語の標準パターンとのマ
ツチングを行なって各単語の類似度又は距離を求め、こ
の操作を基準点を１フレームずつ／フ卜しながら行なっ
てゆき、基準点の位置が検出された音声の部分から一定
区間りだけ経過した時点と類似度又は距離がある値ＴＶ
よりも小さく又は大きくなった時点を用いて決められる
終了点に到達したとき、始端点から終了点までの間の全
ての基準点位置の全ての音声区間候補に対する類似度ま
たは距離を各単語について比較し、類似度を最大または
距離を最小とする単語を認識結果として出力するもので
ある。作用本発明は、パワー情報と類似度情報を用いて検出された
、入力音声が確実に存在する十分広い区間（入力信号区
間）に対して、線形伸縮した入力と標準パター／との間
のパターンマツチングを入力信号区間の始端から終端ま
で走査しながら行なうことによって、類似度Ｒ大又は距
離最小となる音声とその区間を自動的に求める方法であ
り、正確な音声区間の検出を必要とせず、騒音環境下で
発声した音声も高い確率で認識することができる。実施例以下に本発明の実施例を図面を用いて詳細に説明する。第１図は本発明の一実施例における音声認識方法の具現
化を示す機能ブロック図である。まず本実施例の考え方を第２図〜第４図を用いて説明す
る。同じ言葉を発声しても、発声の時間的な長さく音声長）
は発声方法によっても異なるし、人の違いによっても異
なる。パターンマツチングによる音声認識方法では入力
音声の長さを、標準的な音声長に正規化したうえで類似
度計算を行なって音声の認識を行なう。第２図は音声長
の正規化の様子を示したものである。入力音声の長さの
最小長をＮｌ、最大長をＮ２とし、音声の標準的な長さ
く標準パターン長）をＩとすると、第２図に示すように
、長さＮ　（Ｎｌ≦Ｎ≦Ｎ２）　　の音声長を伸縮して
長さＩに正規化することになる。第２図では音声の終端
を一致させて、伸縮するようになっている。伸縮には式
（２）と同様に、線形伸縮式を用いる、未知入力と標準パターンの類似度を計算する場合、未知
入力の音声長Ｎを弐Ｏ３によって標準パターン長に伸縮
することになるが、この様子を図示したのが第３図であ
る。よこ軸に入力長、たて軸に標準パターン長をとり、
終端を一致させると、入力音長はＮ１〜Ｎ２の範囲であ
るから、入力と標準パターンとのマツチングルートは、
入力Ｅ軸のＮ１≦Ｎ≦Ｎ２内の１点を始点とし、Ｐを終
端とする直線となる。したがって、類似度計算は全て三
角形の内側（マツチング窓と呼ぶ）で行なわれることに
なる。いま、時間長Ｈ□の未知入力があり、その内容が音声に
であったとする。ただし、未知入力の終端は既知である
が始端は未知である（したがって、ＮＵも未知である）
とする。この未知入力と単語にの標準パター／Ｓｋの照
合を行なう場合、ＮをＮｌからＮ２まで、■フレームず
つずらせながら、各フレームに対して弐０ｚを用いて時
間長を１に伸縮し、未知入力パラメータと標準パター／
との類似度を求める。このとさ標準パターンはＳｋであ
るので、発声が正確ならば、Ｎ＝ＮＵにおいて類低度は
滑犬となるはずである。また他の任意の標準パターンＳ
ｋ′に対するよりも、Ｓｋに対して類似度が犬きくなる
はずである。このようにして、未知入力の始端が決めら
れる（したがって音声長が決められる）と同時に音声ｋ
が認識できる。沁て、第３図においては終端が既知として説明を行なっ
たが、両媒が未知の場合（すなわち音声区間が不明であ
る場合）にも、この方法を拡張できる。第・１図はその
説明図である。図において終端点の横軸（入力の時間軸
）座標をｊとする。ここでもしｊの位置が入力音声の終
端に一致していれば第３図の場合と同じであるが、今度
は両端点が未知という仮定であるので、必ずしもｊが音
声の終了点と一致するとは限らない。しかしながら、ｌ
を音声区間が十分に入る広い範囲ｊＩ≦ｊ≦ｊ２でスキ
ャンすれば、Ｊが音声の終端と一致する時点ｊ＝ｊｏが
必ず存在する。その場合、始端点はｊｏ−Ｎ２〜〕ｏ−
Ｎｔ　の範囲内の点ｊｏ−Ｎｕに存在するはずである。そして、このようにスキャンした場合においても、発声
した言葉と標準パターンが一致していｎば、婦女１′；
ルがｊｏ−ＮＵ、糸多″、イ、）（がｊ０７）ときの類
似度が、他のどのようなｊおよびＮの組合せよりも大き
くなる。し力・も、こ７）類似度は他の標準バター／に
対する類似度よりも人きい。したがって、認識結果が求
められると同時に、音声の始端点、終端点が定まる。このように第・１図に示した方法は、騒音と音−声が混
在した信号から、標準パターンに最も類（υ６した部分
を切り出して認識することができる。したがって、一般
に用いられているような複雑な音声区間検出の手続きを
必要とせず、音声区間は認識された音声とともに結果と
して出力される。類似度の計算は以下に述べるように、特徴パラメータの
時系列パターンを用い、続開的距離尺度（事後確率に基
く距離）によって計算する７１フレームあたりの特徴パ
ラメータの個数をＤとすると、■フレームの時系列バタ
ー７はＤ・■次元のベクトルとなる。いま、未知入力の
第１フレームのパラメータをｘｉ、単語にの標準パター
ンの第１フレームの成分をａｌｔとすると、１ｘＩ−（
ｘｌ　＋　ｌ　＋　Ｎ２　＋　Ｉ　＋”’　ｘｄ＋　１
　＋”ｘＤ、　１）　　Ｑ３）ｋａ　＝（ａ　　　ｋ　・　ｋ　・・ａｋ、）　αａ＋　
　　　＋、＋、　　　２．＋、　　　ｄ、＋、　　　Ｄ
、＋時系列パター／をそれぞれＸ、ＡｋとするとＸ　＝
（ｏｃ＋、　Ｊ、−、Ｋｉ、・−、ｔｘｌ）　　　　　
　Ｑ５１Ａ　ｋ＝　　（ａｋ　　　硅　−−−ａ　ｋ　
−ａ　ｋ）’ｌ　　−１１１１１１αｅである。単語ｋに対する類似度をＬｋとすると、Ｌ　ｋ
＝　Ｂ　ｋＡ　ｋ−Ｘ　　　　　　　　　　　　　αη
ここでｌＡｋ、Ｂｋは単語にの標準パターンである。／Ａｋ＝２ｖ；’（／ｌｒｋ　／ｐｅ）　　　　　　　
　　　（２［ｅ

【、−１Ｊ（＝１１ｋ　−’Ｉｔ、　　・ＪＡｋ−、ｔｔｉＸ　
ＩＩＶ、　　　・ｔｔ（Ｈ！２υただし、／４１（は単
語にの平均値ベクトル、汝。は全ての単語の周囲情報の平均値ベクトルである。またＷａは共分散行列であり、各単語の共分散行列Ｗｋ
と周囲情報の共分散行列〜ｖｅを用いて作成できる。Ｋは単語の種類である。（１ｔ　ｅ＋　ｖｅは各単語に属する多くのす／プルを
用いて、次のように作成する。第５図に示すように、音
声とその周囲の区間に対して、■フレームずつずらせな
がら複数の区間（区間長はＩフレーム）を設定する。こ
のような操作を各単語の多くのす／プルに対して行ない
、それらの区間のパラメータの平均値ベクトル／／ｊ　
ｅと共分散行列ｖｅを作成する。弐〇７）は式（６）と同じ形であるので、類似度計算に
要する演算量は従来例と変わらない。標準パターン作成
の式（式（７）７式（８）と式■、弐〇〇）のみが異な
っている。周囲情報を広。、ｖｅとして標準パターンに
取り込んでいるのが本発明の特徴でちる。このようにすると、式（Ｎ７）は擬似的な事後確率に貼
〈距離となる。なお、距離尺度は事後確率に隻づく尺度
の他に一次判別関数、二次判別関数、マノ・ラノビス距
離、ベイズ判定、複合類似度などの靴Ｓ」的距離尺度を
用いることができるさて、ここまでの説明では、第３図または第、１図で示
した三角形のマツチノグ１ごを、音声区間が七分入る広
い範囲Ｊ１≦Ｊ≦Ｊ２でスキマ／するものと仮定してき
たが、実際にばｊｌおよびＪ２をどのように決めるかが
問題となる。Ｊｌが必要以上に小さい場合（すなわち音
声の始端よりもずっと前に位置する場合）はノイズなど
によって誤認識する割合が多くなる。′！ｉたＪ２が必
要以上に大きい場合（音声の終端よりもずっと後に位置
する場合）は、話者が発声終了してから認識結果を出力
するまでに時間がかかり過き、使いにくいシステｌ、に
なってしまう。したがって、ｊｌやｊ２；ま音声区間を
適当に含むように設定する必要がある９しかし、本実施
例においては音声区間と正確に対応する必要はない。以
下第６図〜第８図を用いて走査区間（Ｊｌおよびｊ２の
位置）の決め方を説明する。本実施例においては、走査区間の始端はパワー情報で求
め、終端はパワー情報と類似度情報を併用して求める。パワー情報による方法は、人の声の方が周囲の騒音より
も大きいことを利用する方法であるが、人の声の太ささ
は環境に影響されるので、声の大きびのレベルをそのま
ま利用しても良い結果は得られない。しかし、人の発声
は、静かな環境では小さく、やかましい環境では大きく
なる傾向があるので、信号対ノイズ比（Ｓ／Ｎ比）を用
いれば、環境騒音の影響をあまり受けずに音声を検出で
きる。第６図において、実線はパワー（対数値）の時間変化を
示す。この例ではａ、ｂ、ｃの３つのパワービークが生
じているが、このうちａはノイズによる不要なピークで
あるとする。破線はノイズの平均レベル（ＰＮ）、また
一点鎖線はノイズの平均レベルより常に０Ｎ（ｄＢ）だ
け大きい、閾値レベル（Ｐθ）である。ノイズの平均レ
ベルＰＮは次のようにして求める。パワー値をＰとする
とただし、Ｐｍは閾値レベル以下のパワーレベルを有す
る第ｍフレームパワー値である。すなわちＰＮは閾値レ
ベル以下（ノイズレベル）のフレームの平均値である。このようにすると、第６図の破線で示すように、ＰＮは
パワー値を平滑化した波形となる。また閾値レベルＰＱ
はＰ（７＝ｐＮ＋ＯＮＣ’４１でちる。第６図を例として音声検出の方法を説明する。信号の始まり部におけるパワーを初期ノイズレベルとし
、式のによってノイズの平均レベルヲ求めながら、パワ
ーレベルとＰθを比較してゆ〈。最初のパワービークａ
はＰｏ以下であるので、音声として検出されない。パワ
ービークｂの立上りの部分ｄでパワーレベルがＰＮ以上
になると弐ｃ！３１の操作を中止し、以後Ｐ＝Ｐθにな
るまでＰＮおよびＰθを一定に保つ。そしてｅからｆに
がけてＰ≦Ｐθとなるので式１２３）の操作を行なう。ｆからｇまではＰＤＰθであるからｐＮ、ｐθは一定と
なる。結果としてＰＤＰθとなる区間Ｂ、Ｄを音声が存在する
区間とする。このように、このγ″ｆ声検比検出方法イズの平均レベ
ルを基準として音声を検出しているので、環境騒音が大
きい場合でも音声パワーが大きければ、確実に音声の存
在を検出できる。そして、閾値θ＼を十分高くしておけ
ば、少々の騒音変動は感知しない。次に第７図によって、認識の走査区間の決め方を説明す
る。第７図（ａ）はパワーの時間的な動きを示しており
、区間Ａは第６図の方法で検出した音声の確実な存在範
囲である。（ｂ）は第３図または第・１図で説明した７
７チング窓が時間的に動いてゆく様子を示す。そして、
（ｃ）は距離（全単語の最小距離）の時間的な動きであ
り、式αカの最小値ｍ１ｎＬｋを用いている。マツチング窓の先端が区間Ａの先端ｄに到達した時点か
ら認識を開始する。すなわち、この時点が第・１図の説
明におけるスキャン（走査）の開始点Ｊ−Ｊｌである。ｄ点を通過した後は第・４図の方法で各標準パターンと
の類似度（距離）を求め、比較してゆく。そして、スキ
ャンの終了点ｊ＝ｊ２まで認識操作を行なうことになる
が、終了点ｊ２は次の３つの条件によって決定する。。／１）パワーで検出子ｎた区間の開始点からの時間長（
フレーム数）が４８以上でちる。 ■パワーで検出さｎだ区間の終了点からの時間長（フレ
ーム数）がｔｅ以上である。。Ｇ）各標準パターンとの距離つ最小値（類似度の最大値
）が閾値以下（類似度の場合は閾値以下）であること。これら３つの条件を全て満足する最初の時点を走査終了
点Ｊ−３２とする。最初の２つの条件は、主に持続時間を考慮して、決めた
もつである。■は、どの標準パターンとの距離も遠くな
った時点は、音声部分から外れているという条件である
。第７図の例では、ｆが区間Ａの終了点ｅからｔｅが経
過した時点、ｇが距離が閾値を超えた時点、ｈがＡの始
端点からｔ、が経過した時点であるが、最も後に位置す
るのはｈであるので、ｈを走査終了点ｊ２とする。第８図は他の例である。（ａ）はパワーの動きであり、
この場合は、パワーで検出された区間がＡとＢの２つあ
る。（１））はゴ巨雅の動きである。こ、のようにパワ
ーて検出きれた区間が複数の場合は、最後の区間からｔ
、をシ］＜ぬる。そして、′ｂ−■つ条件によって、ｈ
が走査終了点となる。このように、本実施列による走査区間の設定法は、Ｓ／
Ｎ比を用いた音声の存在の検出と、類似度が閾値を超え
るか否かという、非常に粗い情報を用いているので、種
々のノイズによって影響されにくい。そして、もし開始
点がノイズなどによって実際の音声よりかなり前に位［
ト〔シたとしても、認識処理の区間が増すだけであって
、認識率に村する影響は小さい。捷た、終了点が誤まっ
てかなり後に位置した場合も、発声終了から認識出力ま
での時間が遅れるだけである。Ｓ／Ｎ比が低すうてパワ
ーによる検出ができなかった場合や、類似度が小さ過き
て終了点が検出されなかった場合）寸、認識拒否（リジ
ークト）となり、誤認識にはならない。次に上記の説明に基づいて、第１図の各プロ。りの機能を述べる。ＡＤ変換部１は入力信号に前置フィ
ルタを施した後、８　ＫＨｚサノプリ／グ、１２ビ、ト
に量子化する。音響分析部１１は入力信号を分析次数１
０次でＬＰＣ分析し、特徴パラメータ（ＬＰＣケプスト
ラム係数）に変換して、ＬＰＣケプストラム係数（ｃｍ
−ｃ５）をフレーム（１０ｍｓｅｃ）ごとに出力する。特徴パラメータ抽出部１２の出力が大側のＩＸに相当す
る（したがってＤ＝６である）。なお・プロ、りｌＯ〜
１２の機能は第１０図のブロック１〜３の機能と同じで
ある。特徴パラメータはＬＰＣケプストラム係数の他に
、自己相関係数、ＰＡＲＣＯＲ係数、帯域通過フィルタ
の出力などがある。以下、その他の各ブロックの機能を第９図のフローチャ
ートを参照しながら説明する。フレーム同期信号発生部
１３は、１フレームごとに同期信号を発生する。フレー
ム番号をｊとする。パワー計算部２１はフレームごとのパワー（または帯域
パワー）値を求める。パワー比較部２２では、パワー計
算部２１の出力Ｐｉと、弐〇、４）で求められるノイズ
レベル学習部２３の出力Ｐθを比較しく判断イ）、Ｐｊ
＜ＰＯならばノイズレベル学習部２３はＰＯを更新する
（処理口）。初めてＰ１≧Ｐθとなった時点で、走査区
間設定部２・１：は走査を開始する指示を出し、以下の
処理を行なう。走査開始後、１フレームの期間で次の操作を行なう。標準パターン選択部１８は、認識対果とする音声（ここ
では単語）の１つ１つを選択する（処理か）。ここで単
語数をＫとする。選択された標語パターンに＝１に対し
て、区間候補設定部１５ては、各単語の最小音声区間長
Ｎ１（ｋ）と最；ｔ、：　、ｓ：４声区間長Ｎ２（ｋ）
を設定する（処理二）。そして、区間長Ｎ（Ｎｌ（ｋ）
≦Ｎ＜Ｎ２（ｋ）　）に対して、特徴ノ（ラメータ抽出
部１２で得られた未知入力パラメータをｊ−Ｎ−ｊフレ
ームの時間分だけ並べて、入力・シラメータの時系列を
作り、時間軸正規化部１１にち・いて、時系列パラメー
タの時間を弐〇２）！Ｙ：用いてＩフレームに伸縮し、
式０９に相当するパラメータ系列を得る（処理ホ）。類
似度計算部１６はこの・ぽラメータ系列と、標準パター
ン選沢部１８で選ばれた標準パターン格納部１７中の標
準パターンＡｋ＋Ｂｋとの間で、弐Ｑ７１を用いて類似
度Ｌｋ（Ｎ）を計算する（処理へ）。類似度比較部２ｏ
では、Ｌ　ｋ　（Ｎ）と中間結果格納部１９に蓄積され
ているこの時点捷での最大類似度値（距離の最小値Ｌｍ
ｉｎ　）を比較しく判断ト）　、　Ｌｋ（Ｎ）＜Ｌｍｉ
ｎならばＬｍｉｎをＬｋ（Ｎ）に置きかえてその時のｋ
を金として中間結果格納部】９を更新しく処理チ）、Ｌ
ｋ（Ｎ）≧ＬｍＩｎならば中間結果格納部１９の内容は
更新しない。このような一連の操作を、１つの標準パター／に対して
Ｎ　２（ｋ）　−Ｎ　１（ｋ）＋１　回ずつ（判断り、
処理ス）、１フレームの間にに個の標準パター／に対し
て行なう（判断ル、処理ヲ）。以」二の一連の処理が終了したら、走査区間設定部２．
１は前記（Ｄ〜■の終了条件をチー、りする（判断ヨ）
。終了条件を満足しない場合はｊ＝Ｊ＋ＪＪ（ΔＪはｊ
の増分）として（処理夕）、同様の処理を行なう。終了
条件を満足した場合は、その時のｋを認識結果、Ｌｍｉ
ｎを類似度値（距離値）として出力する。また最大類似
度（最小距離）を得た時点のフレームＪとその時の区間
長Ｎを中間結果格納部１９に蓄積しておけば、これらを
用いて？：？声区間を結果として求めることができる。以上述べたように、本実施例はＳ／Ｎ比の時間変化と類
似度を用いて大まかな音声の存在する区間を検知しなが
ら連続的に類似度計算を行なって認識を行なう方法であ
り、音声区間の正確な検出を必要とせず、発声終了後速
やかに結果を出力することができる。本実施例の方法を用いて、成人男女計３３０名が電話機
を通して発声したｌＯ数字単語を評価した結果、平均認
識率９３８４％を得た。高騒音下の発声であることを考
慮すれば、この値は低いとは言えない。また本実施例に
よる認識誤まりの原因を分析した結果、誤まシのほとん
どはある単語の一部を他の単語と認識してしまうために
生ずることがわかった。たとえば／Ｚｅｒｏ／の／ｒｏ
／の部分を／ｇｏ／と誤認識するのがその１例である。このため、第２候補までを正解とすると９７％以上の認
識率を得る。したがって、他の方法を少し併用すれば、
第１候補としてさらに高い認識率が得られることが容易
に推察される。また認識に要する時間は、発声終了後、長い場合でも０
６秒以下であり、実用的に十分な認識速度が得られた。そして、極端に声が小さいデータや、発声が不明瞭なデ
ータはりジークトキれることが確認でさた。発明の効果以上要するに本発明は、ダイナミ、りなパワー情報と類
似度情報を用いて設定した認識すべき音声とその前後の
騒音を宮む入力信号区間に、ある時間的な基準点を設け
、基準点を端点としてそれからＮｌフレームの区間とＮ
２フレームの区間（Ｎ１＜Ｎ２）の２区間を設定して、
これらを音声区間のそれぞれ最小値と最大値と考えて、
Ｎ２−Ｎ１＋１　とおりの音声区間候補のそれぞれに対
して、音声区間長を一定時間長に伸縮しながら各単語の
標準パターンとのマノチノグを行なって各単語の類似度
または距離を求め、この操作を基準点を全人力信号区間
の始めから終りまで走査して行ない、全ての基準点位置
の全ての音声区間候補に対する類似度または距離を各単
語について比較し、類似度を最大または距離を最小とす
る単語を認識結果として出力するもので、音声区間の正
確な検出を必要とせず１．鳴音と音声が混在した信号か
ら音声に相当する部分のみを切出して認識でき、従来は
複雑なルールを用いて音声区間の検出を行なっていたが
、それでも騒音レベルが高い場合や非定常的なノイズが
混入する場合には音声区間の検出を誤まり、したがって
誤認識をしていたが、本発明は複雑な音声区間検出アル
ゴリズムを除去することによって、システムを簡略化し
、また高騒音入力に対して安定した認識率を確保するこ
とができ、さらに発声終了後速やかに結果を出力するこ
とができるなど、その結果は大きい。

【図面の簡単な説明】

第１図は本発明の第１の実施例における音声認識方法を
具現化する機能プロ、り図、第２図乃至第４図は同実施
例の音声区間長の伸縮を説明する概念図、第５図は同実
施例の音声の標準バター／作成時の、周囲情報の標準パ
ターン作成法を説明する概念図、第６図は同実施例の音
声検出法を説明する概念図、第７図は同実施例の認識の
走査区間の決め方を説明する図で、同図（ａ）はパワー
の動きを示す概念図、同図（ｂ）はマツチフグ窓の時間
的な移動を示す概念図、同図（ｃ）は距離の時間的な動
きを示す概念図、第８図は走査区間の決め方の他の実施
例を説明する図で、同図（ａ）はパワーの動きを示す概
念図、同図（ｂ）は距離の時間的な動きを示す概念図、
第９図は本実施例の処理手順を説明するフローチャート
、第１０図は従来の音声認識方法を示す機能プロ、り図
である。１０−　ＡＤ変換部、１１・・・・・・音響分析部、１
２・・・　特徴パラメータ抽出部、１３・・・・フレー
ム同期信号発生部、１４・・・・　時間軸正規化部、１
５　・・・・区間候補設定部、１６・・・・・・類似度
計算部、１７・・・・標準パターン格納部、１８・・・
・標準パターノ選択部、１９・・・・・中間結果格納部
、２０・・・・・類１以度比較部、２１・・・・・・パ
ワー計算部、２２・・・・・・ハ’１７−１ｔＪ２部、
２３・・・・・・ノイズレベル学習部、２・１・・　走
査区間設定部。代理人の氏名　弁理士　中　尾　敷　男　ほか１名イー
９間第２図第３図第４図１−姶填区蘭→ 第５１”７１第へ図第７ｍ７でツーτ市（汗七ｎハ六区１１第８間第９図出力ｍＩｒＬ

Claims

【特許請求の範囲】

（１）音声とその前後の騒音を含む未知入力信号からパ
ワー情報を用いて音声の存在を検出し、検出した時点を
基準点として、基準点と基準点からＮ（Ｎ＿１≦Ｎ≦Ｎ
＿２）だけ離れた区間の未知入力信号を区間長Ｌに線形
伸縮し、伸縮した区間の特徴パラメータを抽出し、この
特徴パラメータと認識対象とする複数の音声の標準パタ
ーンとの類似度又は距離をそれぞれ求めて比較し、この
ような操作をＮをＮ＿１からＮ＿２まで変化させて行な
い、さらに基準点を単位区間ずつずらせながら同様の操
作を行なって類似度又は距離を次々と求めて比較してゆ
き、パワー情報の動きを用いて求めた音声の持続時間と
類似度の時間的な変化を併用して決定した処理終了時点
へ基準点が到達した時における、全ての基準点そして全
ての時間伸縮に対して最大類似度又は最小距離を得る標
準パターンに対応する音声を認識結果として出力するこ
とを特徴とする音声認識方法。
（２）音声信号とノイズの比率を用いて音声の存在を検
出することを特徴とする特許請求の範囲第１項記載の音
声認識方法。
（３）未知入力信号の特徴パラメータと各音声の標準パ
ターンとの類似度又は距離を統計的距離尺度を用いて計
算することを特徴とする特許請求の範囲第１項記載の音
声認識方法。
（４）統計的距離尺度が、事後確率に基づく尺度、一次
判別関数、二次判別関数、コハラノビス距離、ベイズ判
定、複合類似度に基づく尺度のうちいずれかであること
を特徴とする特許請求の範囲第３項記載の音声認識方法
。