JPS63223798A

JPS63223798A - 音声認識方法

Info

Publication number: JPS63223798A
Application number: JP62059413A
Authority: JP
Inventors: 泰助渡辺
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1987-03-13
Filing date: 1987-03-13
Publication date: 1988-09-19
Anticipated expiration: 2011-06-12
Also published as: JP2506730B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

産業上の利用分野本発明は人間の声を機械に認識させる音声認識方法に関
するものである。従来の技術近年音声認識技術の開発が活発に行なわれ、商品化され
ているが、これらのほとんどは声を登録した人のみを認
識対象とする特定話者用である。特定話者用の装置は認識すべき言葉をあらかじめ装置に
登録する手間を要するだめ、連続的に長時間使用する場
合を除けば、使用者にとって大きな負担となる。これに
対し、声の登録を必要とせず、使い勝手のよい不特定話
者用の認識技術の研究が最近では精力的に行なわれるよ
うになった。音声認識方法を一般的に言うと、入力音声と辞書中に格
納しである標準的な音声（これらはパラメータ化しであ
る）のパターンマツチングを行なって、類似度が最も高
い辞書中の音声を認識結果として出力するということで
ある。この場合、入力音声と辞書中の音声が物理的に全
く同じものならば問題はないわけであるが、一般には同
一音声であっても、人が違ったシ、言い方が違っている
ため、全く同じにはならない。人の違い、言い方の違いなどは、物理的にはスペクトル
の特徴の違いと時間的な特徴の違いとして表現される。すなわち、調音器官（口、舌、のどなど）の形状は人ご
とに異なっているので、人が違えば同じ言葉でもスペク
トル形状は異なる。また早口で発声するか、ゆっ〈９発声するかによって時
間的な特徴は異なる。不特定話者用の認識技術では、このようなスペクトルお
よびその時間的変動を正規化して、標準パターンと比較
する必要がある。不特定話者の音声認識に有効な方法として、本出願人等
は既にパラメータの時系列情報と統計的距離尺度を併用
する方法を提案している（二矢田他：゛′簡単な不特定
話者用音声認識方法″、日本音響学会講演論文集、１−
１−４（昭和６１年３月））ので、その方法を以下に説
明する。この方法は、パターンマツチング法を用いて、音声を騒
音中からスポツティングすることによって、音声の認識
を行なうと同時に音声区間をも検出することができる。まず、パターンマツチングに用いている距離尺度（統計
的距離尺度）について説明する。入力単語音声長をＪフレームに線形伸縮し、■フレーム
あたシのパラメータベクトルをｘｊとすると、入力ベク
トルＸは次のようになる。Ｘ　”　（ＸＩ　、Ｘ２　＋”””　＋　’Ｊ）（ここ
で、各ｘ３はｐ次元のベクトルである。単語ωｋ（ｋ＝１　、２　、・・・、Ｋ）の標準パター
ンとして、平均値ベクトルをμｋ、共分散行列をＷｋと
すると、事後確率Ｐ（ωｋＩＸ）を最大とする単語を認
識結果とすればよい。ベイズの定理よりＰ（ωｋｌＫ）＝ＰＣωｋ）・Ｐ（Ｘ＋ωｋ）／Ｐ（Ｘ
）　　（１）右辺第１項のＰ（ωｋ）は定数と見なせる
。正規分布を仮定すると、第２項はＰ　（Ｘ　Ｉωｋ）＝（２π）　　ＩＷｋＩ　　、分母
項Ｐ　（Ｘ）は入力パラメータが同一ならば定数と見做
せるが、異なる入力に対して相互比較するときは、定数
にならない。ここでは、Ｐ（Ｘ）が平均値１ｌＩＸ　ｓ
共分散行列Ｗｘの正規分布に従うものと仮定する。・ｅｘｐ（−１／２（Ｘ−＃ｘ）・Ｗｘ　・（Ｘ−ａｘ
）　）　　　　（３）（１）の対数をとり、定数項を省
略して、これをＩｔ、にと置くと、Ｌ　ｋ＝　（Ｘ−Ｉｕｋ　）　・ｗ−’　・（Ｘ−＃ｋ
）−（Ｘ−＃ｘ）４％’ｘ’　−（ｌａｘ）＋　ｌｏｇ
　ＩＷｋ　Ｉ　−ｌｏｇ　ｌＷｘ　ｌ　　　　　　　　
（４）ここで、Ｗｋ、Ｗｘを全て共通と置きＷとする。すなわち、Ｗ＝（Ｗ’ｓ＋ｗｚ＋・−・”Ｗｋ＋ｗＸ）／（Ｋ＋１
）　　　（５）として（４）式を展開すると、Ｌｋ＝Ｂｋ−Ａｋ−Ｘ　　　　　　　　　　　　　　（
６）ただし、Ａｋ＝２　（％Ｗ’　＊＃に一１％’　　拳＃ｘ）　　
　　　　　　　　　　　　　　（７）Ｂｋ＝＃ｋｌＩＷ
１１＃に一＃ｘ１１ｗ参＃Ｘ（８）（６）式は計算量が
少ない１次判別式である。ここで、（６）式を次のよう
に変形する。Ａｋ＝（ａ”、ａ”、　　・・・　、ａ（ＩＱ）とする
と、すなわち、Ｌｋはフレームごとの部分類似度ｄ０＝
１！・ｘｊＯＪ回の加算と１回の減算で求められる。次に、上記の距離尺度を用いて、騒音中から音声をスポ
ツティングして認識する方法と、計算量の削減法につい
て説明する。音声を確実に含む十分長い区間を対象として、この中に
種々の部分区間を設定して、各単語との類似度を（９）
式によって求め、全ての部分区間を通して類似度が最大
となる単語を認識結果とすればよい。この類似度計算を
そのまま実行すると計算量が膨大となるが、単語の持続
時間を考慮して部分区間長を制限し、また計算の途中で
部分類似度ｄ吟を共通に利用することによって、大幅に
計算量を削減できる。第４図は本方法の説明図である。入力と単語にの照合を行う場合、部分区間長ｎト）（ｎ８　＜ｎ＜ｎ’Ｔ）を標準パターン長Ｊに線形伸伸
縮し、フレームごとに終端固定で類似度を計算していく
様子を示している。類似度はＱＲ上の点Ｔから出発して
Ｐで終るルートに沿って（９）式で計算される。したが
って、１フレームあたりの類似度計算はΔＰＱＲ内で行
われる。ところで（９）式のｘｊは、区間長ｎを伸縮し
た後の第ｊフレーム成分なので、対応する入力フレーム
ｉ′が存在する。そこで入力ベクトルを用いて、ｄＱを次のように表現で
きる。（へ）・ｄ　　（ｉ’、ｊ）：ｌ’９　＊　ｘｉ　　　　　　　
　　（１（Ｉただし、ｒ’　＝＋　−ｒｒｌ　（３）　
　１　　　　　　　（ｌυここで、ｒｎ（ｊ）は単語長
。とＪの線形伸縮を関係づける関数である。したがって
、入力の各フレームと−との部分類似度が予め求められ
てぃれば、（９）式はｉ′の関係を有する部分類似度を
選択して加算することによって簡単に計算できる。とこ
ろで、ΔＰＱＲは１フレームごとに右へ移動するので、
ＰＳ上で−とＪＣＩの部分類似度を計算して、それを、
△ＰＱＳに相当する分だけメモリに蓄積し、フレームご
とにシフトするように構成しておけば、必要な類似度は
全てメモリ内にあるので、部分類似度を求める演算が大
幅に省略でき、計算量が非常に少なくなる。第５図は従来例の実現方法を説明した、機能ブロック図
である。未知入力音声信号はＡＤ変換部１０で、８ＫＨ
ｚサンプリングされて１２ビツトのディジタル信号に変
換される。音響分析部１１は１０ｍ５ｅｃ　（１フレー
ム）ごとに入力信号のＬｐｃ分析を行ない、１０次の線
形予測係数と残差パワーを求める。特徴パラメータ抽出
部１２は、線形予測係数と残差パワーを用いて、ＬＰＣ
ケプストラム係数Ｃ１−Ｃ５とパワー環Ｃｏ　を特徴パ
ラメータとして求める。したがって、７レームごとの特
徴ベクトルＸはｘ”　＝（Ｃｏ　＋　Ｃ１ｔ　・・・・”　＋ｃＳ’　
　　　　　　　αりである。なお、ＬＰＧ分析とＬＰＣ
ケグストラム件数の抽出法に関しては、例えばＪ、Ｄ、
マーケル。Ａ、Ｊ（、グレイ著、鈴木久喜訳「音声の線形予測」に
詳しく記述されているので省略する。フレーム同期信号発生部１３は１０ｍ５ｅｃごとのタイ
ミング信号（フレーム信号）を発生する部分であり、認
識処理はフレーム信号に同期して行なわれる。標準パターン選択部１８は、１フレームの期間に、標準
パターン格納部１７に格納されている単語ナンバーｋ　
＝　１．２．・・・Ｋを次々と選択してゆく。部分類似度計算部２１では、選択された標準バタ分類似
度ｄ”（ｉ、ｊ）を計算する。 ω ｄ　　（ｉｔｊ）＝ｌ”ｘｉ　　　　　　　　　　　Ｑ
３（ｊ＝１，２．・・・　Ｊ）計算した部分類似度は類似度バッファ２２へ送出して蓄
積する。類似度バッファ２２は、新しい入力が入ると、
一番古い情報が消滅する構成になりている。区間候補設定部１５は選択された単語ナンバーごとに、
その単語の最小長−と最大長−を設Ｓ　　　　　　　　
　　ｅ定する。時間伸縮テーブル２４にはα０式の関係がテー
ブル形式で洛納されており、単語長ｎとフレームＪを指
定才ると千れに対応するｉ′が求まる。ｊ＝１．２．・・・Ｊを類似度バッファ２２から読み出
ず。Ｍ　似度加＄ｍ　２３　ｉｄ　、　Ｘ　　ｄ　”　
（１’、Ｊ）　’ｋ　’＋ｔｔ　算Ｌ、］＝１（９）式によ、〕てＬｋを求める。類似度比較部２０は
、求めたＬｋと一時記憶１９の内容を比較し、類似度が
大きい（距離が小さい）方を一時記憶】９に記録する。このようにＬ７て、ン”レーム１＝ｉｏから始め、標準
パターンに＝１に対してｎ　　＜ｎｕｎｅの範囲で最大
類似度ＩＥ°＋　（Ｉｎａｘ）を求め、次にｋ　＝　２
としてｎ（２）≦ｎｕｎ（２）の範囲で求めたしｉＩと
Ｌ’：（ｍａｘ）Ｓ　　　　　　　　　ｅと比較１５、て類似度の最大値を求め、このようにして
に−Ｋまで同様な手順を繰返し、て最大類似度り宝“（
ｍａｘ）とその時の単語ナンバーに′を一時記憶１９に
記憶する。次にｉ＝：ｉｏ＋△ｉとして同様な手順を繰
返して、最終：７レームｉ＝Ｉに到達し５た時に一時記
憶に残されている単語ナン・・＜−に：＝＋ｋｒｒｉが
認識結果である。また、最大類似度が得られた時のフレ
ームナンバーｉ＝ｉｍと単語長ｎ　＝”　Ｉ’ｌ　ＩＴ
Ｉ　　を一時記憶１９に蓄積し、更新−むるようにして
おけば、認識結果上同時に、その時の音声区間を結果と
して求めることができる。音声区間ｉｌ□、ｊ：　ｌ（
ＨｒＪ１１ヘーＩｍである。発明が解決しようとする問題点かかる方法における問題点は、音声を確実に含む十分長
い区間を対象としで、この中の取り得るすべての音声区
間とパターン・マツチングを実行させるため、例えば、
数字音声の認識において、「ゼロ」と発声しても、［−
ゼロ」のＥ口」の部分で「ゴ」と認識するような長い発
声単語の部分に、短い単語に認識される可能性が大きい
。本発明の目的は上記問題点を解決するもので、音声を確
実に含む十分長い区間の中から取り得る音声区間をでき
るだけ、パワー情報を用いて、制限することによって高
い認識率を有する音声認識方法を提供するものである。問題点を解決するだめの手段本発明は、上記目的を達成するもので、フレーム毎のパ
ワー値が、ノイズ学習したあるいき値θＮ以上で、Ｎフ
レーム連続する場合、Ｎ＝ＮＩ（一定）より以後のフレ
ームで、パワー値が、０８以上であるフレームが続く限
り、該当フレームを始端とする音声区間は、認識対象か
ら除外するものである。作用本発明は不特定話者用の音声区間を明確に定めナイワー
ド・スボッテング手法を用いた認識方法において、パワ
ー情報によって、一部音声区間を制限することによシ、
長い発声単語が、短かい発声単語に、誤まる確率を低く
し、全体の認識率を向上させることができる。実施例以下に本発明の実施例を図面を用いて詳細に説明する。第１図は本発明の一実施例における音声認識方法の具現
化を示す機能ブロック図である。まず本実施例の基本的な認識の考え方は、従来例に上げ
た方式とほぼ同じである。すなわち、未知人力音声信号
はＡＤ変換部１１０で、８ＫＨｚサンプリングされて、
１２ビツトのディジタル信号に変換される。音響分析部
１１１ば、ｌ　Ｑｍｓｅｃ（１）Ｌ／−ム）ごとに入力
信号のＬ　Ｐ　Ｇ分析を行ない、１０次の線形予測係数
と残差パワーを求める。特徴パラメータ抽出部１１２は
、線形予測係数と残差パワーを用いて、ＬＰＣケプスト
ラム係数Ｃ，−Ｃ，とパワー環Ｃｏ　を特徴パラメータ
として求める。したがって、フｌ／−ム毎の特徴ベクト
ルＸは、Ｘ

【”　（ＣＯ，Ｃ＋　、　・’−・、Ｃ９）　　　　
　　　　　　Ｃ４である。なお、ＬＰＧ分析とＬＰＣケ
プストラム係数の抽出法に関しては、例えばＪ、Ｄ、マ
ーケル。Ａ、Ｈ，グレイ著、鈴木久喜訳「音声の線形予測」に詳
しく記述されているので省略する。フレーム同期信号発生部１１３は、１０ｒｎｓｅｃごと
のタイミング信号（フレーム信号）を発生する部分であ
シ、ｇＲ処理はフレーム信号に同期して行なわれる。標準パターン選択部１１６は、１フレームの期間に、標
準パターン格納部１１５に格納されている単語ナンバー
に＝１．２．・・・・・・、Ｋを次々と選択してゆく。部分類似度計算部１１４では、選択された標準パターン
１（ｌりと第ｉフレームの特徴ペクトルｘ、の部分類似
度ｄ″（ｉ、ｊ）を計算する。ｋ）ｄ　（ｉ、ｊ）＝ａ’９”訃（ｊ＝１．２．＝１）　　
（１４９計算した部分類似度は類似度バッファ１１９へ
送出して蓄積する。類似度バッファ１１９は、新しい入
力が入ると、一番古い情報が消滅する構成になっている
。区間候補設定部１１７は、選択された単語ナンω バーごとに、その単語の最小長ｎ　と最大炎ｎｋ）Ｓ　
　　　　　　　　　　　ｅを設定する。時間伸縮テーブル１１８にはａＤ式の関係
がテーブル形式で格納されておシ、単語長ｎ（ｎ　≦ｎ
≦ｎｋ））とフレームｊを指定すると、そｋ）Ｓ　　　　　　　　　　ｅれに対応するｉ′が求まる。ｎ　≦ｎ≦ｎ″の範囲面Ｓ　　　　　　　　　　ｅの各々の単語長ｎに対してｉ′を読み出し、それに相当
スル部分類似度ｄＧｃ）（ｉ′、ｊ）、ｊ＝１．２．・
・・Ｊを類似度バッファ１１９から読み出す。類似度加
ってＬｋを求める。類似度比較部１２１は、求めたＬｋ
と今までのフレームで最大の類似度を格納している一時
記憶１２２の内容と比較し、類似度が大きい（距離が小
さい）方を一時記憶１２２に記録する。このようにして、フレーム１＝１（１から始め１、標準
パターンに＝１に対して、ｎｏ≦ｎ≦ｎ（＋１の範囲で
最大類似度ｍａｘ　（Ｌ’ｓ’　）を求め、次にに＝２
としてｎ　≦ｎ≦ｎ　の範囲で求めたｍａｘ（Ｌ’ｚ。）（崎　　　　　　（２）Ｓ　　　　　　　　　　ｅとｍａｘ（Ｌ’ｔ°）を比較して類似度の最大値を求め
、このようにしてに＝Ｋまで同様な手順を繰返して最大
類似度ｍａｘＣＬ品、”）とその時の単語ナンバーｋ”
を一時記憶１２２に記憶する。次にｉ：ｉ、＋Δｉとし
て同様な手順を繰返して、最終フレームｉ＝１に到達し
た時に一時記憶１２２に残されている単語ナンバーに＝
ｋｍが認識結果である。次に、上記説明における１、からｌまでの走査区間決定
方法と音声区間制御法につい゛て説明する。第２図は、走査開始（類似度比較部以後の開始〕１、７
レームと認識完了（走査終了）■フレームと音声との関
係を表わしたものである。本実施例においては、走査区間の始端はパワー情報で求
め、終端はパワー情報と類似度情報を併用して求め、音
声区間制御法は、パワー情報を利用用する。パワー情報
による方法は、人の声の方が周囲の騒音よシも大きいこ
とを利用する方法であるが、人の声の大きさは環境に影
響されるので、声の大きさのレベルをそのまま利用して
も良い結果は得られない。しかし、人の発声は、静かな
環境では小さく、やかましい環境では大きくなる傾向が
あるので、信号対ノイズ比（Ｓ／Ｎ比）を用いれば、環
境騒音の影響をあまシ受けずに音声を検出できる。パワー計算部１２３は、フレーム毎ニパワー（対数値）
を計算する。以下ノイズ・レベル学習部１２４、パワー
比較部１２５について説明する。第３図において、実線はパワー（対数値）の時間変化を
示す。この例ではａ、ｂ、ｃの３つのパワーピークが生
じているが、このうちａはノイズによる不要なピークで
あるとする。破線はノイズの平均レベル（ＰＮ）、また
一点鎖線はノイズの平均レベルよシ常に＃Ｎ（ｄＢ）だ
け大きい、閾値レベル（Ｐ、）である。ノイズの平均レ
ベルＰＮは次のようにして求める。パワー値をＰとする
とただし、Ｐｍは閾値レベル以下のパワーレベルを有す
る第ｍフレームパワー値である。すなわちＰＮはＭ値し
ベル以下（ノイズレベル）ノフレームの平均値である。このようにすると、第３図の破線で示すように、ノズル
の平均レベルＰＮはパワー値を平滑化した波形となる。また閾値レベルＰ、、ＰにはＰ、＝ＰＮ　＋　θ、　　　　　　　　　　　αηであ
る。第３図を例として音声検出および音声区間制御の方法を
説明する。信号の始まシ部におけるパワーを初期ノイズ
レベルとし、式ａｅによってノイズノ平均レベルＰＮを
求めながら、パワーレベルＰと閾値レベルＰ、を比較し
てゆく。最初のパワービークａはＰ、以下であるので、
音声として検出されない。パワービークりの立上郵の部
分ｄでパワーレベルが２６以上になると式α０の操作を
中止Ｌ、５、以後Ｐ＝Ｐ、になるまでＰＮおよびＰ。を
一定に保つ。そしてＣからｆにかけてＰ≦Ｐ、となるの
で式住Ｑの操作を行なう。ｆからｇ′！、ではＰ〉Ｐ、
であるからＰＮ　、Ｐ、は一定となる。結果としてＦＤ
Ｐ、となる区間Ｂ、Ｄを音声が存在する区間とする。音声区間制御法は、パワー比較部】２５でＰとＰ、との
比較を行ない、フレーム毎の比較結果を除外音声区間決
定部１２６へ送る。第３図において、ｄ点までは、Ｐ＜
Ｐ、の結果が送られる。ｄ点を越えると、ＦＤＰ、の状
態が続く。ここで、除外音声区間決定部１２６では、連
続するＰ＞Ｐ。ノ状態のフレーム数をカウントする機能を有し、このカ
ウンタは、ＰＤＰ、の結果でリセットされる。除外音声
区間決定部１２６では、カウント数ＮがＮ１（一定値）
より大きい時、１を部分類似度計算部１１４へ送る。よ
って第３図で説明すると、Ｐ＞Ｐｏとなる区間Ｂ、Ｄを
音声が存在する区間とし、ＢとＤの内、ｄ点およびｆ点
よりＮフレーム後のＦ、Ｇの区間において、除外音声区
間決定部１２６が１を出力し、この区間は、音声の内部
であるため、音声区間の始端であり得ないことを示して
いる。部分類似度計算部１】４では、通常は、部分類似度ｄ”
（ｉ、ｊ）をｆＩｓ式で計算するが（＋はフレーム番号
、ｋは標準パターン・ナンバー、ｊは線形伸縮・ノーン
バー）、除外音声区間決定部１２６の出力が１の場合、
ｄ（ｋ）（ｉ、ｊ）は次式とする。ｄ′ｃ）（ｉ　、　１　）＝ＣＯＮＳ　（一定値）　（
Ｊ＝１　）ａ樽 ω ｄ　　（ｉ、ｊ）＝ａ”９’・Ｋ　　（ｊ＝２．３．−
Ｊ）但し、一定値は負の小さな値とする。このことにより、１番目のフレームを音声区間のの始端
（ｊ＝１）するすべての類似度は、一定値（ＣＯＮＳ）
を含むだめ、他に比べて小さくなるため、最大類似度に
該当しないため、認識の対象からはずされることとなる
。このことにより、例えば、数字音声の「ゼロ」と「ゴ」
の認識の場合、［ゼロ−１の［口」の部分で「ゴ」が高
い類似度を示し、「ゼロ」を「ゴ」と誤認識する場合が
多い。本手法を用いれば、「ゼロ」の発声においては、
殆んど「ゼ」の頭から「口」の終りまで、Ｐ＞Ｐ、の状
態が続き、１口」を始端とする音声区間は存在しなくな
り（類似度が小さくなるため）、誤認識がさけられる。走査区間設定部１２７では、第２図のＩＯ走査開始を、
Ｐ＞Ｐ、の時点で行ない（第３図のｄ点）、■は一度Ｐ
＞Ｐ、になってからＰ≦ＰＯがＨフレーム継続し、それ
までの最大類似度が、あるいき値以−ヒになっていれば
、終了■に達する。従来例に述べた音声区間を決定せず、音声らしき所の周
辺において考えられる音声区間すべての中から、最大類
似度を求める方法においては、一般的にパワー情報を用
いて、音声区間を決定し、標準パターンとマツチングす
る方法よりも、騒音レベルが高い場合や非定常なノイズ
が混入する場合は、強いと言えるが、逆に、認識対象単
語中に、長い単語の一部分と非常に似かよった短い単語
があった場合、非常に認識率が悪くなる。たとえば、認
識対象単語中に「新大阪」と「大阪」がある場合等でち
る。本実施例の場合、音声を確実に含む十分長い区間の
中からＪｌ得る音声区間をできるだけパワー情報を用い
て制限することによりこの弱さを補う手法は、非常に有
効な手段である。発明の効果以上要するに本発明は、音声を確実に含む十分長い区間
の中から、パワー情報を用いて始端となり得ないことが
明らかな音声区間を、認識対象から除外することにより
、長い発声単語が短かい発声単語に誤まる確率を低くで
き、全体の認識率を向上させることができる利点を有す
る。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識方法を具現
化する機能ブロック図、第２図は本実施例における標準
バター７とのマツチングを行う開始、終了時期と音声と
の関係図、第３図は本実施例におけるパワー情報を用い
たノイズ・パターンうめ込みタイミングと走査区間決定
のだめの音声有無決定法を説明するパワーレベル図、第
４図は標準パターンとのパターンマツチング法を説明し
た概念図、第５図は従来例の方法を説明した機能ブロッ
ク図である。１１０・・・ＡＤ変換部、１１１・・・音響分析部、１
１２・・・特徴パラメータ抽出部、１１３・・・フレー
ム同期信号発生部、１１４・・・部分類似度計算部、１
１５・・・標準パターン格納部、１１６・・・標準パタ
ーン選択部、１１７・・・区間候補設定部、１１８・・
・時間伸縮テーブル、１１９・・・類似度バッファ、１
２０・・・類似度加算部、１２１・・・類似度比較部、
１２２・・・一時記憶、１２３・・・パワー計算部、１
２４・・・ノイズ・レベル学習部、１２５・・・パワー
比較部、１２６・・・除外音声区間決定部、１２７・・
・走査区間設定部。代理人の氏名　弁理士　中　尾　敏　男　ほか１名頁）
− 一　　　　　　　　　　　　　　　　　やへ第２図第４図

Claims

【特許請求の範囲】

（１）音声とその前後の騒音を含む未知入力信号からパ
ワー情報を用いて音声の存在を検出し、検出した時点を
基準点として、基準点と基準点からＮ（Ｎ＿１≦Ｎ≦Ｎ
＿２）だけ離れた区間の未知入力信号を区間長Ｌに線形
伸縮し、伸縮した区間の特徴パラメータを抽出し、この
特徴パラメータと認識対象とする複数の音声の標準パタ
ーンとの類似度又は距離をそれぞれ求めて比較し、Ｎ＿
１からＮ＿２までの範囲において、基準点以前のパワー
情報を用いて基準点毎にＮの範囲を決定し、その範囲内
でＮを変化させながら前記操作を行ない、さらに基準点
を単位区間ずつずらせながら同様の操作を行なって類似
度又は距離を次々と求めて比較してゆき、パワー情報の
動きを用いて求めた音声の持続時間と類似度の時間的な
変化を併用して決定した処理終了時点へ基準点が到達し
た時における、全ての基準点そして全ての時間伸縮に対
して最大類似度又は最小距離を得る標準パターンに対応
する音声を認識結果として出力することを特徴とする音
声認識方法。
（２）音声信号とノイズの比率を用いて音声の有／無を
検出することを特徴とする特許請求の範囲第１項記載の
音声認識方法。
（３）未知入力信号の特徴パラメータと各音声の標準パ
ターンとの類似度又は距離を統計的距離尺度を用いて計
算することを特徴とする特許請求の範囲第１項記載の音
声認識方法。
（４）統計的距離尺度が、事後確率に基づく尺度、一次
判別関数、二次判別関数、コハラノビス距離、ベイズ判
定、複合類似度に基づく尺度のうちいずれかであること
を特徴とする特許請求の範囲第３項記載の音声認識方法
。