JPS63223796A

JPS63223796A - 音声認識方法

Info

Publication number: JPS63223796A
Application number: JP62059407A
Authority: JP
Inventors: 泰助渡辺
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1987-03-13
Filing date: 1987-03-13
Publication date: 1988-09-19
Anticipated expiration: 2013-01-26
Also published as: JP2705061B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は人間の声を機械に認識させる音声認識方法に関
するものである。

従来の技術近年音声認識技術の開発が活発に行なわれ、商品化され
ているが、これらのほとんどは声を登録した人のみを認
識対象とする特定話者用である。

特定話者用の装置は認識すべき言葉をあらかじめ装置に
登録する手間を要するため、連続的に長時間使用する場
合を除けば、使用者にとって大きな負担となる。これに
対し、声の登録を必要とせず、使い勝手のよい不特定話
者用の認識技術の研究が最近では精力的に行なわれるよ
うになった。

音声認識方法を一般的に言うと、入力音声と辞書中に格
納しである標準的な音声（これらはパラメータ化しであ
る）のパターンマツチングを行なって、類似度が最も高
い辞書中の音声を認識結果として出力するということで
ある。この場合、入力音声と辞書中の音声が物理的に全
く同じものならば問題はないわけであるが、一般には同
一音声であっても、人が違ったり、言い方が違っている
ため、全く同じにはならない。

人の違い、言い力の違いなどは、物理的にはスペクトル
の特徴の違いと時間的な特徴の違いとして表現される。

すなわら、調音器官（［］１、舌、のどなど）の形状は
人ごとに異な−）でいるので、人が違えば同じ言葉でも
スペクトル形状は異なる。

また早口で発声するか、ゆっくり発声するかによって時
間的な特徴は異なる。

不特定話者用の認識技術では、このようなスペクトルお
よびその時間的変動を正規化して、標準パターンと比較
する必要がある。

不特定話者の音声認識に有効な方法として、本出願人等
は既にパラメータの時系列情報と統計的距離尺度を併用
する方法を提案している（二矢田池：′′簡単な不特定
話者用音声認識方法゛″１日本音響学会講演論文集、！
−１−４（昭和６１年３月））ので、その方法を以下に
説明する。

この方法は、パターンマツチング法を用いて、音声を騒
音中からスボンティングすることによ、）で、音声の認
識を行なうと同時に音声区間をも検出することができる
。

まず、パターンマツチングに用いている距離尺度（統計
的距離尺度）について説明する。

入力単語音声長をＪフレームに線形伸縮し、１フレーム
あたりのパラメータベクトルをＸｊとすると、入力ベク
トルＸは次のようになる。

Ｘ＝　（ｘｌ　、　ｘ２、−・・、ＸＪ）ここで、各Ｘ
Ｊはｐ次元のベクトルである。

単語ωｋ（に；１，２．・・・・・、に）の標準パター
ンとして、平均値ベクトルをμｋ、共分散行列をＷｋと
すると、事後確率Ｐ（ωｋｌＸ）　　を最大とする単語
を認識結果とすればよい。

べ・イズの定理よりＰ（ωｋｌ　Ｘ）＝Ｐ（ωｈ　）・Ｐ（Ｘｌωｋ）／Ｐ
（Ｘ）（１）右辺第１項のＰ（ωｋ）は定数と見なせる
。正規分布を仮定すると、第２項は −９−吉Ｐ（Ｘｌωｋ）＝（２π）　　１ｗＪ　　２・ｅｘｐ（
−１７２（Ｘ　４ｋ）−Ｗ＋ｃ　・（Ｘ−μｋ）ｌ　（
２）゛分母項Ｐ（Ｘ）は入力パラメータが同一ならば定
数と見做ぜるが、異なる入力に対して相互比較するとき
は、定数にならない。ここでは、ｐｙ＋が平均（直μＸ
、共分散行列Ｗｘの正規分布に従うものと仮定する。

一　　−１Ｐ（Ｘｌ＝　（２π）２１　Ｗｘ　ｌ　２・ｅｘｐ　（
−１／２　（Ｘ−μＸ）・ｗ；１・（Ｘ−ｐｘ）ｌ　　
（３）（１）の対数をとり、定数項を省略して、これを
Ｌｋと置くと、Ｌｋ：＝（Ｘ−μｋ）−ｗｋ＋１（Ｘ−μ５ｃ）−（Ｘ
−ｐｘ）＊　ＷＸ　　・（Ｘ−ｐｘ）＋ｅｏｇ　ｌＷｋ
　ｌ　　（Ｉｏｔａ　ｌ　Ｗｘ　Ｉ　　（４）ここで、
Ｗｋ、Ｗｘを全て共通と置きＷとする。

すなわち、Ｗ−（Ｗ１＋ｗ２＋−・−−−−Ｎｖｋ＋Ｗｚ）／（Ｋ
＋１）　　　　（５）として（４）式を展開すると、Ｌｋ＝ｓｂ　−Ａｓｃ　−ｘ　　　　　　　　　　　　
（６）ただし、Ａｋ＝２（Ｗ　　’　　＊ｐｋ−Ｗ　　’−μｘ）　　
　　　　　ｆカＦ３に＝ｐｋ　＃Ｗ　　＃ｐｋ−ｐｘ　
１１Ｗ　　−ｐｘ　　　（８）（６）式は計算漬が少な
い１次判別式である。ここで、（四式を次のように変形
する。

すなわち、Ｌｋはフレームごとの部分類似度められる。

次に、上記の距離尺度を用いて、騒音中から音声をスポ
ツティングして認識する方法と、計算量の削減法につい
て説明する。

音声を確実に含む十分長い区間を対象として、この中に
種々の部分区間を設定して、各単語との類似度を（９）
式によって求め、全ての部分区間を通して類似度が最大
となる単語を認識結果とすればよい。この類似度計算を
そのまま実行すると計算量が膨大となるが、単語の持続
時間を考慮して部分区間長を制限し、また計算の途中で
部分類似度量を削減できる。第４図は本方法の説明図で
ある。

入力と単語にの照合を行う場合、部分区間長（ｋ）　　
　　　　（ｓｔ）ｎ（ｎ、＜。＜　ｎ　ｅ　）を標準パターン長Ｊに線形
伸縮し、フレームごとに終端固定で類似度を計算してい
く様子を示している。類似度はＱＲ上の点Ｔから出発し
てＰで終るルートに沿って（９）式で計算される。した
がって、１フレームあたりの類似度計算は全て△ＰＱＲ
内で行われる。ところで（９）式（ＤｘＪは、区間長ｎ
を伸縮した後の第Ｊフレーム成分なので、対応する入力
フレーム１゛が存在する。そこで入力ベクトルを用いて
、ｄ（ｋ）を次のように表現できる。

（ｋ）　　　　　　（ｈ）ｄ（＋°、ｊ）＝ａｊ°ｘＩ　　　　　　　　　（１０
）ただし、１°＝ヨーｒｎ（Ｊ）＋１　　　　（１１）
ここで、ｒｎ（ｊ）は単語長ｎとＪの線形伸縮を関係づ
ける関数である。したがって、入力の各フレームと、（
ｋ）との部分類似度が予め求められていれば、（９）式
は１゛　の関係を有する部分類似度を選択して加算する
ことによって簡単に計算できる。ところで、△ＰＱＲは
１フレームごとに右へ移動するので、ｐｓ上でａ（ｋ）
とｘｌ　　の部分類似度を計算して、それを△ＰＱＳに
相当する分だけメモリに蓄積し、フレームごとにシフト
するように構成しておけば、必要な類似度は全てメモリ
内にあるので、部分類似度を求める演算が大幅に省略で
き、計算量が非常に少なくなる。

第５図は従来例の実現方法を説明した、機能ブロック図
である。未知入力音声信号はＡＤ変換部１０で、８にＨ
ｚ　　サンプリングされて１２ビツトのディジタル信号
に変換される。音響分析部１１は１０　ｍ５ｅｃ　（１
フレーム）ごとに入力信号のＬＰＧ分析を行ない、１０
次の線形予測係数と残差パワーを求める。特徴パラメー
タ抽出部１２は、線形予測係数と残差パワーを用いて、
ＬＰＣケプストラム係数０１〜Ｃ５とパワー項ＣＯを特
徴パラメータとして求める。したがって、フレームごと
の特徴ベクトルＸはｘｔ＝　（ｃｏ、　ｃｔ　＋・・−・Ｃ５）　　　　　
　　（１２）である。なお、ＬＰＧ分析とＬＰＣケプス
トラム係数の抽出法に関しては、例えばＪ、Ｄ、マーケ
ル、Ａ、）−１，グレイ著、鈴木久喜訳「音声の線形予
測」に詳しく記述されているので、省略する。

フレーム同期信号発生部１３は、１ｏｒｒｒ９ｅｃごと
のタイミング信号（フレーム信号）を発生する部分であ
り、認識処理はフレーム信号に同期して行なわれる。

標準パターン選択部１８は、１フレームの期間に、標準
パターン格納部１７に格納されている単語ナンバー、ｋ
＝１．２．・・・・・・にを次々と選択してゆく。部分
類似度計算部２１では、選択された標（ｋ）の部分類似度’　（＋、Ｊ）を計算する。

（Ｊ＝１．２．・・・・・・Ｊ）計算した部分類似度は類似度バッファ２２へ送出して蓄
積する。類似度バッファ２２は、新しい入力が入ると、
一番古い情報が消滅する構成になっている。

区間候補設定部１５は選択された単語ナンバーごとに、
その単語の最小長ｎ　と最大長１（ｋ）を設（＋ｃ）＄　　　　　　　　　　　　　　６定する。時間伸縮テーブル２４には（１１）式の関係が
テーブル形式で格納されており、単語長ｎとフレーム」
を指定するとそれに対応する量゛が求よる。ｎ（ｋ）り
ｎ≦、　（ｋ）の範囲の各々の単語長ｎに対１−　　　
　　　　　ｅしてｉ′を読出し、それに相当する部分類似度（ｋ）ｄ（１’、Ｊ）、Ｊ　＝　１．２．　　・・・Ｊを類似
度バッファ２２から読み出す。類似度加算部２３はぬる
。類似度比較部２０は、求めたＬｋと一時記・億１９の
内容を比較し、類似度が大きい（距離が小さい）方を一
時記憶１９に記録する。

このようにしで、フレ・−ムｊ＝１□　　から始め、標
準パターンに−１に対してｎ（１）≦ｎ≦ｎ（１）の範
ｓ　　　　　　　　　　　６囲で最大類似度Ｌ　　（ｒｎｍｘ）を求め、次にに’＝
２としてｎ（２）＜ｉ≦ｎ（２）の範囲で求めたし　　
と８−　　　　　　ｅ　　　　　　　　　　　　　　　
２Ｌ′’（ｍｉｘ）　　を比較して類似度の最大値を求
め、このようにしてに−にまで同様な手順を繰返して最
大類似度Ｌ　　、（ｒｎａｘ）　　とその時の単語ナン
バーｋ゛を一時記憶１９に記憶する。次にＩ＝Ｉｏ＋△
Ｃとして同様な手順を繰返して、最終フレームｌ　＝＝
音に到達した時に一時記憶に残されている単語ナンバー
ｋ　＝　ｋ　ｍが認識結果である。また、最大類似度が
得られた時のフ１ノ一ムナンバーｉ　＝　ｌ　ｍ　ト単
語長ｎ　’−”　ｎ　ｍを一時記憶１９に蓄清し、更新
するようにしておけば、認識結果と同時に、その時の音
声区間を結果として求めることができる。音声区間はｉ
ｒｎ−ｎｍ〜Ｉｍである。

発明が解決しようとする問題点かかる方法における問題点は、音声を確実に含む↑−分
長い区間を対象として、この中の取り得るす−＜ての音
声区間とパターン・マツチングを実行さセるため、音声
の前後の環境−ノイズを含む音声区間で、最大の類似度
となり、誤認識の大きな要因になる。

本発明の目的は上記問題点を解決するもので、音声を確
実に含む十分長い区間の中から取り得る音声区間が、パ
ワー情報からみて、不自然であれば、その音声区間で、
類似度を減少させることに。

より、高い認識率を有する音声認識方法を提供するもの
である。

問題点を解決するための手段本発明は、上記目的を達成するもので、パワー情報があ
るいき値θＮ以下であれば、入力音声から抽出された特
徴パラメータを既存のノイズ晧パラメータに置き換えて
、取り得るすべての音声区間に対して、各単語の標準パ
ターンと距離計算又は類似度計算を行ない、その中で最
小の距離又は最大の類似度を示す単語を認識単語とする
ものである。

作　　用本発明の認識方法の場合、パワー情報がいき値θに以下
の”クレームを含む音声区間においでは、各単語の標準
パターンとの距離又は類似度が、ノイズ・パラメータと
１部マツチングさセるため、大きくなり又は下がり、認
識されにくくなる。

このことにより、低レベル輸ハワーの環境ノイズの時間
的変動に無関係に認識が行なわれるため、竜話背声認識
の場合の、回線ノイズの影響を受けにくくなる。また、
音声認識装置を製造する場合、音声入力部のアナログ回
路による低レベルな回路、ノイズに対しても、距離計算
時に、既存ノイズ・パラメータに置換されるため、認識
結果に無関係になり、全く影響を受けない。これにより
、製造時のアナログ回路の調整が回路ノイズ・レベルを
ある一定値以下におさえればよく、非常に楽になる。

実施例以下に本発明の実施例を図面を用いで１詳細に説明する
。第１図は本発明の一実施例における音声認識方法の具
現ｆヒを示す機能ブロック図である。

まず本実施例の基本的な認識の考え方は、従来例に」−
げた方式とほぼ同じである。すなわち、未知入力音声信
号はＡＤ変換部１１０で、８にＨｚサンプリングされて
、１２ピツＦ・のディジタル信号に変換される。音響分
析部１１１は、１０ｍ５ｅｃ（１フレーム）ごとに入力
信号のＬＰＧ分析を行ない、１０次の線形予測係数と残
差パワーを求める。特徴パラメータ抽出部１１２は、線
形予測係数と残差パワーを用いて、ＬＰＧケプストラム
係数Ｃ１〜Ｃ９とパワー項ＣＱを特徴パラメータとして
求める。したがって、フレーム毎の特徴ベクトルＸは、ｘｔ　＝＝　（Ｃ□　、　ＣＩ　、　−−ｃ９　）　　
　　　　（１４）である。なお、ＬＰＧ分析とＬＰＣケ
プストラム係数の抽出法に関しては、例えばＪ、　Ｄ、
マーケル、Ａ、　Ｈ，グレイ著、鈴木久喜訳「音声の線
形予測」に詳しく記述されているので省略する。

フレーム同期信号発生部１１３は、１Ｑ１ｙＩｓｃごと
のタイミング信号（フレーム信号）を発生する部分であ
り、認識処理はフレーム信号に同期して行なわれる。

標準パターン選択部１１６は、１フレームの期間に、標
準パターン格納部１１５に格納されて（する単語ナンバ
ーに＝１．２・・・・・・　にを次々と選択してゆく。

部分類似度計算部１１４では、選択され（ｋ）（ｋ）ｔ
−ｘｌ　　（Ｊ　＝１．２−Ｊ）　　（１５）’（１，
Ｊ）＝”Ｊ計算した部分類似度は類似度ノ（ツファ１１９へ送出し
て蓄積する。類似度）（ツファ１１９Ｃよ、新しい入力
が入ると、一番古い情報が消滅する構成暑こなっている
。

区間候補設定部１１７は、選択された単語ナンバーごと
に、その単語の最小長ｎ（ｋ）と最大炎、（ｋ）＄　　
　　　　　　　　　　　・を設定する。時間伸縮テーブル１１８には（１１）式の
関係がテーブル形式で格納されており、単語長それに対
応するＩ′が求まる。１（ｋ）＜、≦ｎ（ｋ）の＄−・範囲の各々の単語長ｉに対して１°　を読み出し、（ｋ
）それに相当する部分類似度ｄ（６９，Ｊ）、」＝１，２
・・・・・Ｊを類似度バッファ１１９から読み出す。類
似度加算部１２０は、る。類似度比較部１２１は、求めたＬｋと今までのフレ
ームで一大の類似度を格納している一時記憶１２２の内
容と比較し、類似度が大きい（距離が小さい）方を一時
記憶１２２に記録する。

このようにして、フレーム１＝ＩＱから始め、標準パタ
ーンに＝１に対して、１（１）≦ｎ≦ｎ（１）のｓ　　
　　　　　　　　ｅ範囲で最大類似度ｍａｘ（Ｌ、）　　を求め、次にｈ＝
２として、（２）＜、≦ｎ（２）の範囲で求めたｍａｘ
Ｓ　−ｅ（Ｌｌｏ）とｍ＠ｚ　（Ｌ　”　）を比較して類似度の
最大値を求め、このようにしてに＝にまで同様な手順を
繰返して最大類似度ｍａｘ　（Ｌ　１０）とその時の単
に’ 語ナンバーに゛を一時記憶１２２に記憶する。次に！＝
１０＋△１　として同様な手順を繰返して、最終フレー
ム１＝目こ到達した時に一時記憶１２２に残されている
単語ナンバーｋ　＝　ｋ　ｍが認識結果である。

次に、上記説明における−０から１までの走査区間決定
方法とノイズ・パターンうめ込み法について説明する。

第２図は、走査開始（類似度比較部以後の開始）１０フ
レームと認識完了（走査終了）ｌフレームと音声との関
係を表わしたものである。

本実施例においては、走査区間の始端はノｆワー情報で
求め、終端はパワー情報と類似度情報を併用して求め、
ノイズ・パターンのうめ込みは、／＜ワー情報を利用す
る。パワー情報による方法ζよ、人の声の方が周囲の騒
音よりも大き０ことを利用する方法であるが、人の声の
大きさは環境に影響されるので、声の大きさのレベルを
そのまま利用しても良い結果は得られない。しかし、人
の発声は、静かな環境では小さく、やかましい環境では
大きくなる傾向があるので、信号対ノイズ比（ＳＺＮ比
）を用いれば、環境騒音の影響をあまり受けずに音声を
検出できる。パワー計算部１２３は、フレーム毎にパワ
ー（対数値）を計算する。

以下ノイズｅレベル学習部１２４、パワー比較部１２５
について説明する。

第３図において、実線はパワー（対数値）の時間変化を
示す。この例ではａ、ｂ、ｃの３つのパワーピークが生
じているが、このうち１はノイズによる不要なピークで
あるとする。破線はノイズの平均レベル（ＰＮ）　、細
線はノイズの平均レベルより常にθＫ（ｄＢ）だけ大き
い、閾値レベル（ＰＫ）、また一点鎖線はノイズの平均
レベルより常にθＮ（ｄＢ）だけ大きい、閾値レベル（
Ｐθ）である。ノイズの平均レベルＰＮは次のようにし
て求める。パワー値をＰとするとただし、Ｐｍは閾値レベル以下のパワーレベルヲ有する
第ｍフレームパワー値である。すなわちＰＮは閾値レベ
ル以下（ノイズレベル）のフレームの平均値であり、こ
の直はノイズ・１ノベル学習部１２４で求める。このよ
うにすると、第３図の破線で示すように、ノイズの平均
レベルＰＮｆ、ｔ／ｆワー値を平滑化した波形となる。

また閾値レベルＰθ、ＰＫはである。

第３図を例として音声検出およびノイズ・パターン置換
の方法を説明する。信号の始まり部におけるパワーを初
期ノ・イズレベルとし、式（１６）によってノイズの平
均レベルＰＮを求めながら、ノ＜ワーレベルＰと閾値レ
ベルＰθを比較してゆく。最初のパワーピークａはＰθ
以下であるので、音声として検出されない。パワーピー
クｂの立上りのＷ分ｄでパワーレベルが１９以上になる
と式（１６）の操作を中止し、以後Ｐ＝Ｐθになるまで
ＰＮおよびＰθを一定に保つ。モしてｅからｆにかけて
Ｐ≦Ｐθとなるので式（１６）の操作を行なう。ｆから
９まではＰＤＰθであるからＰＮ、Ｐθは一定となる。

結果としてｐ＞ｐθとなる区間Ｂ、Ｄを音声が存在する
区間とする。

ノイズ−パターン置換は、パワー比較部１２５で判定さ
れる。すなわち、第３図で、ｐｚｐにのフレーム、即ち
ｈ以前、■〜ｆ、に以降のαで表わされる領域において
は、音声の部分ではないと見做し、Ｐ＞ＰＫのフレーム
、即ちｈ〜１、ｊ〜にのβで表わされる領域においては
、音声の部分と見做す。

Ｐ≦Ｐにのフレームにおいては、ノイズ・パラメータ格
納部１２６より、ノイズ・パラメータＸ六−（ｇ□、ｎ
ｌ・−ｎ　９　）を送出し、（１４）式のｘｔの特徴パラメータのかわり
に、ｘｔを用いて、部分類似度計算（１５）式を行なう
。

ノイズ・パラメータとして、標準パターンとの部分類似
度が小さくなるようなパラメータを選択することにより
、ノイズ区間を含むような音声区間で、最大類似度を出
す誤認識を防止することができる。例えば、１０数字の
認識の時、「ゴ」が「ゼロ」に、または「ヨン」が「サ
ン」に誤認識される場合がよくある。この場合「ゴ」の
語頭のノイズの部分と「ゼロ」の子音２と似ている場合
、または「ヨン−１の語頭のノイズが子音Ｓと似ている
場合である。これらの場合、その認識環境に関係なく、
一定のノイズ会パターンがうめ込まれるため、上記の誤
認識を防ぐことができる。

走査区間設定部１２７では、第２図のＩＱ走査開始を、
ＰンＰθの時点（第３図のｄ点）で行ない、１は一度ｐ
＞ｐθになってからＰ≦ＰθがＨフレーム継続し、それ
までの最大類似度が、あるいき値以上になっていれば、
終了１に達する。

従来例に述べた、音声区間を決定せず、音声らしき所の
周辺において、考丸られる音声区間すべての中から、最
大類似度を求める方法においては、一般的に、パワー情
報を用いて、音角区間を決定し、標準パターンとマツチ
ングする方式よりも騒音レベルが高い場合や非定常なノ
イズが混入する場合は、強いと言えるが、逆に、騒音が
スベク１−ル的に、音声と似かよった場合弱くなる。本
実施例の場合ノイズ会パターンうめ込み方式を用いるこ
とによりこの弱さを浦、っている。また、認識装置を天
竜生産する場合音声入力部のアナログ回路の製作−調整
においで、１２ビットのＡＤ変換器が常にゼロになるよ
うな、アナログ回路を製作・調整するのは、至難のわざ
であるが本実施例のノイズ−パターンうめ込み方式を使
え（Ｊ：、ノイズ・パワーをあるいき値以内にするよう
にアナログ回路を調整すればよく、調整が非常に簡単に
なるという効果がある。

発明の効果以上要するに本発明は、音声を確実に含む十分長い区間
の中から、取り得る音声区間がパワー情報からみて不自
然であれば、入力音声から抽出した特徴パラメータを、
既存のノイズ会パラメータと置き換えて、その音声区間
で類似度を減少させるようにした音声認識方法を提供す
るもので、騒音や製造のばらつき等の環境要素の変動に
強く、高い認識率が得られる利点を有する。

【図面の簡単な説明】

弔１図は本発明の一実施例における音声認識方法を具現
化する機能ブロック図、第２図は本実施例における標準
パターンとのマツチングを行う開始、終了時期と音声と
の関係図、第３図は本実施例におけるパワー情報を用い
たノイズ・パターンうめ込みタイミングと走査区間決定
のための音声有無決定法を説明するパワーレベル図、第
４図は標準パターンとのパ多−ンマツチング法を説明し
た概念図、第５図は従来例の方法を説明した機能ブロッ
ク図である。１１０・・・・・・ＡＤ変換部、１１１・・・・・・音
響分析部、１１２・・・・・・特徴パラメータ抽出部、
１１３・・・・・・フレーム同期信号発生部、１１４・
・・・・・部分類似度計算部、１１５・・・・・・標準
パターン格納部、１１６・・・・・・標準パターン選択
部、１１７・・・・・・区間候補設定部、１１８・・・
・・・時間伸縮テーブル、１１９・・・・・類似度バッ
ファ、１２０・・・・・・類似度加算部、１２１・・・
・・・類似度比較部、１２２・・・・・・一時記憶、１
２３・・・・・・パワー計算部、１２４・・・・・・ノ
イズ・レベル学習部、１２５・・・・・パワー比較部、
１２６・・・・・・ノイズ・パラメータ格納部、１２７
・・・・・走査区間設定部。代理人の氏名　弁理士　中　尾　敏　男　ほか１名第２
図第３図第　４１！１１−〜

Claims

【特許請求の範囲】

（１）音声とその前後の騒音を含む未知入力信号からパ
ワー情報を用いて音声の存在を検出し、検出した時点を
基準点として、基準点と基準点からＮ（Ｎ＿１≦Ｎ≦Ｎ
＿２）だけ離れた区間の未知入力信号を区間長Ｌに線形
伸縮し、伸縮した区間の特徴パラメータを抽出し、前記
パワー情報を用いて、確実に音声が存在しない部分には
、前記特徴パラメータを既知のノイズ・パラメータに置
換し、この置換を含む特徴パラメータと認識対象とする
複数の音声の標準パターンとの類似度又は距離をそれぞ
れ求めて比較し、このような操作をＮをＮ＿１からＮ＿
２まで変化させて行ない、さらに基準点を単位区間ずつ
ずらせながら同様の操作を行なって類似度又は距離を次
々と求めて比較してゆき、パワー情報の動きを用いて求
めた音声の持続時間と類似度の時間的な変化を併用して
決定した処理終了時点へ基準点が到達した時における、
全ての基準点そして全ての時間伸縮に対して最大類似度
又は最小距離を得る標準パターンに対応する音声を認識
結果として出力することを特徴とする音声認識方法。
（２）音声信号とノイズの比率を用いて音声の有／無を
検出することを特徴とする特許請求の範囲第１項記載の
音声認識方法。
（３）未知入力信号の特徴パラメータと各音声の標準パ
ターンとの類似度又は距離を統計的距離尺度を用いて計
算することを特徴とする特許請求の範囲第１項記載の音
声認識方法。
（４）統計的距離尺度が、事後確率に基づく尺度、一次
判別関数、二次判別関数、コハラノビス距離、ベイズ判
定、複合類似度に基づく尺度のうちいずれかであること
を特徴とする特許請求の範囲第３項記載の音声認識方法
。