JPS62262897A

JPS62262897A - 音声認識方式

Info

Publication number: JPS62262897A
Application number: JP61104765A
Authority: JP
Inventors: 森戸　誠; 田部井　幸雄; 広之野戸
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1986-05-09
Filing date: 1986-05-09
Publication date: 1987-11-14

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）この発明は認識精度のよい音声認識方式に関する。

（従来の技術）従来より、情報及び通信機器の入力の効率化、システム
機能の向上等を図る目的のため、音声認）識に関しての
研究開発が進められている。この音声認識を行う一般的
な方法に／ＮＯタンマツチング法がある。

先ず、この発明の説明に先立ち、第９図を参照して従来
のパタンマツチング法につき説明する。

第９図において、１０は音声入力端子、１１は音声分析
部、１２は区間検出部、１３は入力メモリ部、１４は比
較パタンメモリ部、１５は類似度計算部、１６は判定部
、１７は出力端子である。

この従来の認識方式においては、音声入力端子１０に入
力した入力音声を音声分析部１１において特徴を表わす
ベクトルの時系列パタン（以下、音声パタンと称する）
に変換する。この音声パタンは、一般に、中心周波数の
異るｐ個のバンドパスフィルタ群によって抽出された帯
域内周波数成分を時間間隔Ｔ。（例えば８ミリ秒）毎に
標本化（以下、サンプリングと称する）することによっ
て得ている。一方、この音声分析部１１において、音声
パタンに対応する時間点における音声パワーを算出する
。この音声分析部１１において算出された音声ノ９タン
を入力メモリ部１３に逐次格納すると共に、音声パワー
を区間検出部１２へ出力する。

区間検出部１２では、音声分析部１１からの音声パワー
に基づき、音声区間すなわち音声の始端及び終端を決定
する。この音声・ぐワーによる音声の始端及び終端の決
定アルゴリズムについては、特願昭５９−１０８６６８
号に開示されているような複雑なアルゴリズム、音声ノ
母ワーが閾値以上となった時点を音声の始端、閾値未満
となった時点を音声の終端と考える簡易なアルゴリズム
その他のアルゴリズム等があり、いずれかの適切なアル
ゴリズムで区間検出を行っている。この区間検出部１２
で決定された始端及び終端間の音声パタンを入力メモリ
部から読出して類似度計算部１５へ送る。一方、この類
似度計算部１５には比較パタンメモリ１４から比較パタ
ンを別途入力させている。

この比較パタンは認識対象となる単語（以後カテゴリと
称する）に対し音声ノｆタンと同一な音声分析処理を施
したベクトルの時系列パタンであシ、予め比較パタンメ
モリ部１４に格納しておく。

この格納に当り、比較パタンを作成するが、その作成は
認識目的によって異る。例えば、話者を限定した認識方
式の場合には、限定された話者が発声した音声を周波数
分析部１１を用いて又はこれと同等な音声分析処理を施
して得られた音声パタンを比較パタンとして比較パタン
メモリ部１４に格納する。

類似度計算部１５では、音声パタンと比較ツクタンとの
間の類似度計算を行う。この類似度計算には、例えば特
公昭５０−２３９４１号に開示されているいわゆるＤＰ
マツチングと呼ばれている方法、すなわち発声速度の変
動等による時間軸方向の歪を最適化する方法又はその他
の適切な方法を用いている。

この類似度計算部１５から出力されるカテゴリ毎の類似
度を用いて、判定部１６では、その最大類似度を与える
比較パタンに与えられたカテゴリ名を認識結果として出
力する。

以上が従来のｉ４タンマツチング法による音声認（発明
が解決しようとする問題点）上述した従来の認識方式は、音声のスペクトルの形状を
与える音声パタンと、予め同一分析処理によって算出さ
れた比較パタンとの相違を類似度という尺度から評価し
、最大の類似度を−りえる比較パクンのカテコゝり名を
認識結果とする方法であった。従って、音声ノ９タンの
カテゴリと比較パタンのカテゴリとが同じ場合はその類
似度は大きく、異なる場合にはその類似度は小さくなる
ものであった。

しかしながら、音声のスペクトルの形状が音声以外の要
因例えば外部の雑音により歪んだ場合にはたとえ同一カ
テゴリといえどもその両者の類似度が大きくなるとはい
えなくなる。

雑音は他にも音声の切り出し処理（区間検出処理）にも
悪影響をおよぼす。前記類似度の算出は音声として検出
した区間において行う処理であシ区間検出精度自体が低
下したのでは認識性能が犬きく影響される。この問題点
を解決するために文献ｒ　ＷＬＲ尺度による単語音声認
識」電子通信学会論文誌（Ｃ１）Ｊ６６−Ｄ、煮４　（
１９８３年）に開示されている端点フＩＪ　−Ｄ　Ｐマ
ツチング法が提案されているが始端処理に関しては擬似
的な処理であり完全に始端点フリー処理とはいえない。

まだ、パス長も一定していないだめ最終累積用りをパス
長で正規化する処理を必要とし演算量が増加する。この
発明の目的はこのような従来の問題点に鑑み、雑音環境
下でも認識精度の良い音声認識方式を提供することにあ
る。

この発明の他の目的は、装置として構成する場合、構造
が簡単かつ小型となるように、演算処理速度が速く、し
かも、記憶容量が小さくて済む音声認識方式を提供する
ことにある。

（問題点を解決するだめの手段）上述した目的の達成を図るため、この発明の音声パタン
作成方法においては入力音声から類似度判定用の基準デ
ータを形成する登録処理と、認識音声から類似度判定用
の認識データを形成する認識処理とを行うに当り、次の
ような手段を採る。

隔Ｔ。（音声フレーム周期と称する）毎に表わすベクト
ル（音声特徴ベクトルと称する）を入力させる。

（ｂ）　　この音声特徴ベクトルから当該音声フレーム
におけるフレーム電力を算出し、このフレーム電力の始
端Ｓと終端Ｅとを算出する。

（ｃ）　　次に始端から終端までの音声特徴ベクトル列
を時間点に線形伸縮し音声特徴内分ベクトル列を算出す
る。

（ｄ）　　前述の音声特徴内分ベクトルから最小二乗近
似直線を算出し、この最小二乗近似直線を基準にして周
波数軸方向で極大かつ正となるチャネルに対応する成分
を１にしその他の成分を０にして得られるローカルピー
クベクトルを算出する。

（ｅ）　　一方、認識対象語の音声毎に対し、入力音声
に対して行われる前述の（ａ）〜（ｄ）項の各処理に対
応する処理を行って比較パタンを作成する（登録処理と
称する）。

（ｆ）　　認識処理時に発声した音声に対して前述の（
ａ）〜（ｄ）項までの処理によって求められた入力パタ
ンと比較パタンとの間で非線型入力端点７１Ｊ　−Ｄ　
Ｐマツチング処理を行って比較パタンと入力パタンとの
パタン類似度を算出する。

（ｇ）　　この比較パタン毎に算出されるパタン類似度
の中で最大の類似度を与える比較Ａ’メタン付加されだ
カテゴリ名を認識結果とする処理を行う。

以上のようにして、入力音声を認識した結果が得られる
。上述した（ｄ）項によって算出したローカルピークベ
クトルを（ｆ）項、（ｇ）項の類似度算出に用いること
により、高雑音環境下における認識性能を向上させてい
る。それは、従来のようなス被りトルの形状を与えるベ
クトルを類似度算出に用いずに、音声スペクトルのピー
クを与える位置によって算出されるローカルピークベク
トルを類似度算出に用いているからである。従って、雑
音が混入した場合、スペクトルの形状は大きく変わるが
ス被りトルのピークの位置は変わらないことに基づいて
いる。

また（ｆ）項における非線形入力端点フＩＪ　−Ｄ　Ｐ
マツチングは（ｂ）項における音声区間検出の誤りが認
識率に与える影きょうをかん和するだめの処理である。

まだ（ｃ）項における音声特徴内分ベクトル列を算出す
る処理は登録処理における比較パタンのメそり管理を容
易にするだめの処理である。

（作用）次に、この発明の作用につき説明する。

この発明の音声認識方式を達成するだめの機能は第１図
に示す各処理部によって構成される。

以下、その詳細な処理につき説明する。

音声はマイクロフォンを通じて電気信号に変換し、増幅
器（図示せず）、ロー・ぐスフィルタ（図示せず）を経
てＡ／Ｄ変換器（図示せず）に送り、そこで例えば８３
マイクロ秒毎に標本化（サンプリング）した後、入力端
子２１に入力させる。

以下、前述の各項につき説明する。

〔（ａ）項の音声特徴ベクトル算出処理〕入力端子２１
に入力した音声のデータの周波数この特徴ベクトル算出
部２２には、周波数分析のだめの、第２図に示すような
夫々中心周波数が異なる特性を個々に有する複数のバン
ドパスフィルタと、ローノやスフィルタと、音声フレー
ム毎ニサンプリングを行うサンプリング手段（それぞれ
図に示していない）とを具えている。

各バンドフィルタによって音声からその中心周波数の成
分のみを抽出する。このようにして各バンドフィルタに
よって分けられたデータの系列をチャネルと称する。各
チャネル毎のバンドパスの出力に対して絶対値化演算を
施した後、ローパスフィルタに入力させる。各チャネル
毎のローパスフィルタ出力をサンプリング手段によって
音声フレームの周期毎に再サンプルして特徴ベクトルの
成分を得る。

今ｉ番目の音声フレームにおけるにチャネルのにローパスフィルタの出力をａ、とすると、ｉ番目の音声
フレームにおける特徴ベクトルａ、はｋ　　　　　　　
Ｋａｉ””（ａｌｔ　ａｌｌ”’１　ａｌｌ”’２　ａｌ
）と表現することが出来る。ここで、Ｋはチャネル数で
ある。

一方、雑音のみが入力されていて音声が入力されていな
い区間を例えば連続して１０音声フレーム（音声フレー
ム数は本質ではない）設定し、これを雑音期間と称する
。

雑音区間の特徴ベクトルは雑音のスペクトル形状を表わ
すもので、これを特に雑音ベクトルと称し、ｎｔと表現
する。

ところで、雑音区間内における雑音のスペクトルの平均
値をによって算出し、この平均値を雑音パタンと称する。

雑音パタンＮの成分をＮｋとすると、Ｎ＝　（Ｎ１．Ｎ２．・・・ｔＮｋｊ・・・、ＮＫ）と
なる。

雑音区間以降、すなわち雑音パタン算出以降は特徴ベク
トル算出部２２から出力される特徴ベクトルａｊから雑
音パタン算出部２３からの雑音パタンＮを減じ、音声特
徴ベクトルｂ、＝（ｂ、、ｂ、、・・・、ｂ、、・・・、訝）を次
式によって算出する。

この処理部２４における処理は高雑音環境下における音
声認識の性能を向上するための手法であり雑音が比較的
に定常的に続いている場合に効果を発する。しかし雑音
成分が小さい場合は特徴ベクトルから雑音ベクトルを減
じなくとも認識性能はさほど劣化しない、そこで本発明
では音声特徴ベクトル算出を特徴ベクトルと雑音ベクト
ルの差によって算出するか、特徴ベクトルそのものを用
いるかは問題としていない。しかし以後の説明は雑音成
分を減する方式で説明することとする。

〔（ｂ）項の音声区間検出処理〕

この処理を音声区間検出部２５で行う。

音声フレーム毎に音声特徴ベクトル算出部２４よシ算出
される音声特徴ベクトルｂ、を用いて、当該音声フレー
ムのフレーム電力Ｐ　を算出する。

音声区間検出部２５においては、音声特徴ベクトルｂ１
から得られたフレーム電力Ｐ０を用いて音声区間検出を
行う。

音声区間検出のアルコゞリズムについては前述したよう
に各種のものが提案されているが、この発明はそのアル
コゝリズム自体を目的とするものではない。

ここでは説明の便宜上、フレーム電力Ｐ、が定められた
閾値２３以上となった音声フレームを音声の始端、音声
の始端からフレーム電力Ｐ、が閾値Ｐ８未満となった音
声フレームを音声の終端と考える。

ここで音声の始端フレームをＳ、終端フレームをＥとす
る。

〔（Ｃ）項の音声特徴内分ベクトル算出処理〕音声区間
検出部２５によって検出された始端Ｓ及び終端Ｅを用い
て入力端子からの音声特徴ベクトルを一定音声フレーム
長に時間軸線形伸縮する。

このブロック２６における線形伸縮処理は認識処理、特
に線形マツチング処理を行い易くするために行う処理で
あシ、さらにはこの発明により得られた音声パタンを格
納するだめのメモリ内の領域管理を容易にするために行
う処理でもある。

次に、この時間軸線形伸縮の方法について第３図を参照
して説明する。

第３図は時間軸線形伸縮方法を説明するだめの図で、横
軸に伸縮後のフレーム番号ｊ及び縦軸に１音声フレーム
の時間経過ｉをそれぞれ取って示しである。ここで、線
形伸縮処理によって得られたベクトルを音声特徴内分ベ
クトルと称する。

捷だ、線形伸縮後の音声フレーム数を説明の便宜のため
一例として３２音声フレームとして説明するが、これに
限定されるものではない。

今、線形伸縮後のｊ番目（Ｊ−１〜３２）の音声フレー
ムの音声特徴内分ベクトルをｂ′、とじ次式によって算
出する。ｊ′をｊに対応する実際の入力フレームの番号
とすると、ただし〔〕はガウス記号を表わす。

先ず、（４）式によシ、１フレームの始端Ｓから終端Ｅ
までを３１分したとき、伸縮後のｊ番目のフレームが１
フレームの時間軸ｉ上で取る位置ｊ′を求め、次いで（
５）式によりｊ′の両近傍特徴ベクトルを内分し音声特
徴内分ベクトルｂ′、を算出している。

〔（ｄ）項のローカルピークベクトル算出処理〕この処
理をローカルビーク算出部２２で行う。

音声特徴内分ベクトル算出部２６から送出される音声特
徴内分ベクトルｂ′、をローカル２−クベクトル算出部
２７においてローカルピークベクトルｒ、に変換する。

この変換処理につき第４図（４）〜（Ｃ）を参照して説
明する。

音声特徴内分ベクトルｂ１の各成分ｂ１．は次式により
対数変換される。

第４図囚にこの音声特徴内分ベクトル成分の対数変換に
より得られた対数成分ｘ、（ｋ）の例を示し、横軸にチ
ャネル番号ｋを及び縦軸に対数成分ｘ−（ｋ）をそれぞ
れプロットして示す。この図により、１番目の音声フレ
ームにおける音声の対数スペクトルの形状が表わされて
いる。

次に、次式によって与えられる最小二乗近似直　゛線を用いて正規化を行う。

ｚ　１（ｋ）　＝　Ｘ４　（ｋ）　−ｙ４　（ｋ）＝　
ｘｉ（ｋ）−ｕｉ（ｋ）　・ｋ−ｖｉ（ｋ）この正規化
された音声特徴内分ベクトル（音声特徴正規化内分ベク
トルと称する）Ｚｉ（ｋ）の例を第４図（Ｂ）に示す。

第４図（Ｂ）において横軸にチャネル番号を及び縦軸に
音声特徴正規化内分ベクトルの成分ｚ　ｉ（ｋ　）をそ
れぞれグロットして示す。

次に、次式（９）のような判断に基づいて、この正規化
成分ｚ１（ｋ）を用いてローカルピークベクトルこの（
９）式の判断条件を満たすｋに対してはｒ−１、満たさ
ないｋに対してはｒ、＝０なる値を成分として有するベ
クトルｒ。

ｒ°＝（ｒ、　、　ｒ、　、・・・、ｒ、、・・・、ｒ
、）！１１　　　１　　　１を算出する。このベクトルｒ、をローカルピークベクト
ルと称する。このローカルピークベクトルｒ、の例を第
４図（Ｃ）に示す。

〔（ｅ）項の比較パタン算出及び格納処理〕この処理を
比較パタン格納部３ノで行う。

話者を限定する特定話者認識方式においては、認識対象
となる単語（以下、カテゴリと称する）を予め発声し、
その単語を表現するだめのパタン（比較パタンと称する
）を予め格納しておく必要がある。比較パタン格納部３
１では、このような比較パタンか格納されている。以下
、この比較パタンの作成方法につき説明する。この比較
パタンを作成する処理を登録処理と称する。

ここで説明のためカテゴリの数をＭ個とする。

また、同一カテゴリを数回発声し、それぞれのパタンの
平均をとることにより比較パタンを作成する方法もある
が、この発明では一回のカテコゝりの発声に対して比較
パタンを作成するものとする。

比較ノｆタンを作成するために用いられる音声を学習音
声と称する。

今、ディジタル化されたｍ番目の学習音声を入力端子２
１から特徴ベクトル算出部２２へと送シ学習音声の特徴
ベクトルを算出する。一方、雑音パタン算出部２３には
、前もって学習音声が入力されていないときの雑音ｉｅ
メタン抽出されている。

従って、音声特徴ベクトル算出部２４において、特徴ベ
クトル算出部２２からの特徴ベクトルから雑音パタン算
出部２３がらの雑音ノ（タンを減算し、学習音声の音声
特徴ベクトルを算出する。

次に音声区間検出部２５において学習音声の電力を計算
し学習音声の始端と終端を決定する。

さらに音声特徴内分ベクトル算出部２６において時間的
に線形伸縮し、一定音声フレーム長（ここでは３２音声
フレーム長）をもった音声特徴内分ベクトル列を算出す
る。

得られた学習音声の音声特徴内分ベクトルはローカルピ
ークベクトル算出部２７においてローカルピークベクト
ルｍＳｊに変換される。

”””　＝　（ｍＬ’Ｊ　’　ｍｓｊ　ｘ　’・・２ｍ
ｓ￥２　”’　ｔ　ｍｓ”ｒ　）この学習音声のローカ
ルピークベクトルルを特に比較ローカルピークベクトル
と称する。

さらに、始端１から終端３２−１での比較ローカルピー
クベクトルの時系列によって表わされるノＲタンを比較
パタンと称し鑵と表わす。

このようにして得られた各カテゴリ毎の比較パタンＳｍ
を比較パタン格納部３１の記憶領域に格納する。

〔（ｆ）項のパタン類似度算出処理〕この処理をパタン
類似度算出部２８で行う。

上述したような比較パタンを作成する登録処理に対して
、認識動作を行うときの処理を認識処理と称する。そこ
で、認識処理時に入力される音声を入力音声と称する。

また、入力音声に対しても前述した（ａ）項から（ａ）
項と同一又は類似の処理を行ってローカルピークベクト
ルｒ、　（入力ローカルピークベクトルと称する）を求
める。

このようにして、始端１から終端３２まで入力ローカル
ピークベクトルの時系列によって表現される入力音声の
パタンを入力パタンと称し、これをＲで表現する。

また、既に説明したように、ｍ番目の比較パタンＳｍが
始端１から終端３２までの時系列として表現され、比較
パタン格納部３１に格納されている。

次に、入力パタンＲと、比較パタン鑵との類似性を算出
する処理につき説明する。

第５図は、類似性算出処理を行うに当って入力パタンと
比較パタンとの時間的な対応をとるための説明図であり
、横軸は入力パタンのフレーム時間点ｉを表わし、縦軸
は比較パタンのフレーム時間点ｊを採って示しである。

そこで、便宜上、入力パタンのｉ番目のフレーム時間点
で、かつ、比較パタンの１番目のフレーム時間点につい
て論する場合、単にパ格子点（１゜ｊ）において”とい
う表現を用いる。

格子点（ｉ、ｊ）における入力ローカルピークベクトル
ｒ、と、比較ローカルピークベクトル　Ｓ。

ｌ　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　ｍＪとの類似度ｄｍ（ｉ、ｊ
）をで定義する。ここで、右肩添字ｔはベクトルの転置を表
わしている。

通常このα・式で表わされる類似度の算出に当っては、
複雑な演算を必要とするが、この発明における各ベクト
ルｒｉ、Ｓｊはローカルピークベクトルであるため、そ
の要素はＯ又は１であり、従って類似度演算が極めて簡
易となる。この意味においてローカルピークベクトルに
おける音声パタンの表現方法に重要な意義がある。

０１式で与えられる類似度ｄｍ（ｉ　、　ｊ　）を用い
て最適ｉ４スの算出を行う手法について第５図を用いて
説明する。第５図に示されるように入力端点に自由度を
持たせている。それは登録処理時に比べ認識処理時は環
境を選ばないため音声区間検出精度が劣化することが多
いだめである。また演算の簡略化およびパスにある程度
制限をつけるために第５図に示される整合窓を設定する
。この整合窓外では強制的に類似度ｄｍ（ｉ、ｊ）をＯ
とする。

格子点（ｉ、ｊ）における累積類似度Ｄ　（ｉ、ｊ）を αｐと定める。また初期値をＤ　（ｔ　＋ｏ）＝ｏ　ｔＤ（ｏ、ｊ）−ｏ　ｔＤ（−
１ｓ　ｊ）＝。

α諺とする。

このようにして得られた格子点（ｉ、ｊ）における累積
類似度のうちから整合窓内でかつｊ＝３２である累積類
似度の中で最大を与える累積類似度Ｄ　　　（ｍ）を算
出し、これをパタン類似度と称する。

ａｘＤ　　（ｍ）　＝ｍａｘＤ　（ｉ　、３２）　　　　　
（Ｌｌｍａｘ　　　　　　　　　　　　　　　ｍｉ：整
合窓内以上の演算をＭ個の比較音声パタン全てにおいて行い、
Ｍ個のパタン類似度ＤｍａＸ（ｍ）を求める。

このようにして求められる最終的なパスの予想例を第５
図に曲線Ｘで示しである。

９４式で力えられる最大累積類似度Ｄｍａｘ（ｍ）の算
出にはＤＰパスの長さによる正規化処理を必要としない
。それは０３式に用いるＤｍ（ｉ、３２）を算出するた
めに必要なα９式の漸化回数がすべて同じことに起因し
ている。

〔（ｇ）項の判定処理〕

Ｍ個のパタン累積類似度Ｄ　　（ｍ）により再び最ａＸ犬値判定を行う。

ｍｍａＸ＝ａｒｇｍａｘＤｍａｘ（ｍ）　　　　　　　
α→■≦ｍ≦Ｍその最大値を与える比較・９タンの番号”ｍａｘに対応
するカテゴリ名Ｃｍ　　　が認識結果として出力端ａＸ子３０から出力する。

α４式においてもすべての比較パタン長が一定であるた
めパス長の正規化処理は必要とならない。

以上説明したように、この発明の音声認識方式において
は、入力端点フリーのＤＰマツチングを行い雑音環境下
における音声の始端・終端の誤検出が認識結果に与える
影響を軽減している。

さらには本発明の入力端点フリーのＤＰマツチング法で
はパス長による正規化処理が不用であるため演算処理が
少ない特徴をもつ。

また、音声特徴ベクトルから算出した、ベクトル成分が
０又は１のみであるローカルピークベクトルを用いてパ
タン類似度算出処理を行っているため、演算処理が極め
て簡易である。

さらに、比較パタンに関しても比較ローカルピークベク
トルを用いているため、その記憶容量を極めて少なくす
ることが出来、音声認識システムの小型化を図れる。ま
た線形伸縮処理により１ノゼタンあたりの音声フレーム
長を一定としているため比較パス／の容量が一定となり
メモリ管理が極めて容易となる。

以上の説明は比較、−ｅタンならびに入カッ’？タンを
ローカルピークベクトルを基にして作成した場合につい
て述べだが、入力パタンならびに比較パタンを音声特徴
正規化内分ベクトル自体を用いた場合にも本発明は拡大
適用され得る。

ただし、この場合００式で与えられる類似度ｄｍ（ｉ、
ｊ）は一般に用いられているノ々タン間の距り尺度ｄｍ（ｉｒ　ｊ）　”＝　ＩＩＺ、−＝ｍｓｊ１１によ
って与えられる。さらにαη式、α→式、０４式はすべ
て最小値問題となる。

（実施例）以下、この発明の実施例につき第６図を参照して説明す
る。

第６図はこの発明の音声認識方式の一実施例を実施する
だめの具体的な回路構成を示すブロック図である。

第６図において、４１はマイクロフォン、４２は音声信
号を増幅するだめの増幅器、４３はローパスフィルタ、
４４は音声をディジタル信号に変換するＡ／Ｄ変換器、
４５は特徴ベクトルを算出する信号処理プロセッサ、４
６はプロセッサ、４７はプロセッサのプログラムが格納
されているプログラムメモリ、４８は比較パタンを格納
するだめの比較パタンメモリ、４９は作業メモリ、５０
は雑音パタンを格納するだめの雑音ノ９クンメモリ、５
１は認識結果を外部に出力するだめのインタフェースで
ある。ただし、それぞれの構成要素間には厳密々意味で
はインタフェース回路が必要であるが、ここではこれを
省略する。

音声認識方式の動作例次に、この第６図を参照してこの発明の音声認識方式の
一例を説明する。

マイクロフォン４ノからの入力音声を増幅器４２で増幅
した後、ローパスフィルタ（ＬＰＦ）４３においてその
低周波数成分を除去する。

次に、低周波成分が除去された入力音声をＡ／Ｉ）変換
器４４によって例えば１２ｋＨｚのサンプリング周波数
で１２ビツトにサンプリングする。前述のローパスフィ
ルタ４３での処理はこのサンプリングのために必要な処
理で、従って、この７４）しタとしては例えば５　ｋＨ
ｚの遮断周波数をもつ減衰４８　ｄＢｌｏａｔのローノ
やスフィルタを用いる。

Ａ／Ｄ変換器４４によってサンプリングされた音声のデ
ィジタルデータを信号処理ゾロセッサ４５によって、特
徴ベクトルに変換する。この信号処理プロセッサ４５と
して例えばＴＩ社製の３２０１０を用いることが出来る
。

プロセッサ４６は音声フレーム周期毎に信号処理プロセ
ッサ４５から出力される特徴ベクトルを用いて処理を行
うが、その処理の内容は■　登録処理 ■　認識処理とに分けられる。以下、これらの処理についてそれぞれ
説明をする。

〔登録処理〕

登録処理は第７図のフローチャートに示されるごとく次
の処理に分けられる。

雑音パタンの算出処理音声特徴ベクトルの算出処理音声区間検出処理音声特徴内分ベクトル算出処理比較ローカルピークベクトル算出処理比較パタン格納処理以下これらの処理について説明する。

（雑音パタン算出処理）（Ｓ２）登録処理のため、例えば、１０音声フレームを雑音区間と
定める。このとき、話者は発声しないで、まわりの雑音
のみをマイクロフォン４１から入力するようにする。こ
の雑音入力を信号経路（４２，４３，４４）を経て信号
処理プロセッサ４５に送り、これより雑音ベクトルを生
じさせ、この雑音ベクトルを作業メモリ４９に逐次格納
する。このメモリ４９に１０音声フレーム分の雑音ベク
トルが格納されると、これら雑音ベクトルを平均化して
その平均値を雑音パタンメモＩＪ　５０に格納する。

（音声特徴ベクトル算出処理）（Ｓ３）雑音区間終了後
、信号処理プロセッサ４５がら入力される特徴ベクトル
から雑音パタンメモリ５０中の雑音パタンを減じること
によって、音声特徴ベクトルを算出し、これを作業メモ
リ４９内に格納する。

この処理は音声フレーム周期毎に行われるが、音声区間
検出処理によって始端が検出される壕での音声特徴ベク
トルは不必要であり、従って、作業メモリ４９を効果的
に使用するためには適当に捨てていく。

（音声区間検出処理）（Ｓ４）次に、第１図に示した音声区間検出部２５における前述
した処理を行う。

先ず、作業メモリ４９に格納されている音声特徴ベクト
ルｂかもフレーム電力Ｐ　を算出する。

次に、この算出されたフレーム電力Ｐ、と、予め設定さ
れている区間検出用閾値との間で、大小の比較を行って
音声の始端Ｓ及び終端Ｅをそれぞれ決定する。この場合
、音声の始端検出の簡単なアルゴリズムとしては、例え
ば、フレーム電力Ｐ□が、連続して３音声フレ一ム以上
、閾値以上となる先頭の音声フレームを始端Ｓとするア
ルゴリズムを用いることができるが、他のアルゴリズム
であってもよい。

また、音声の終端Ｅの検出の簡単なアルゴリズムとして
、例えば、フレーム電力Ｐ１が、連続して３０音声フレ
一ム以上、閾値未満となる先頭の音声フレームから１つ
前の音声フレームを終端Ｅとするアルゴリズムを用いる
ことができるが、これに限定されるものではない。

この音声区間の終端Ｅを検出しなかった場合には（Ｓ５
）、再び音声特徴ベクトルｂ、の算出処理（Ｓ３）を行
った後、音声区間の検出処理（Ｓ４）を繰り返し行い、
最終的に終端Ｅを検出する（Ｓ５）。

（音声特徴内分ベクトル算出処理）（８６）音声区間の
終端検出後、作業メモリ４９に格納されている音声特徴
ベクトルｂ１と、音声区間の始端Ｓ及び終端Ｅとを用い
て、第１図の音声特徴内分ベクトル算出部２６における
前述した処理を行って、得られた音声特徴内分ベクトル
ｂ′、を作業メモリ４９に格納する（Ｓ６）。この場合
、線形伸縮の音声フレーム数を例えば３２音声フレーム
とする。

（ローカルピークベクトル算出処理）（Ｓ７）次に、作
業メモリ４９に格納された音声特徴内分ベクトルｂ′、
を、第１図のローカルピークベクトル算出部２７におい
て前述した処理を行ってローカルピークベクトルｒ１を
得、得られたローカルピークベクトルｒ０を比較ノぐタ
ンメモリ４８に格納する。

登録時の音声に対するローカルピークベクトルｒ、ヲ比
較ローカルピークベクトルと称し　Ｓ、で表１　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　ｍＪ現する。まだ３２個の
比較ローカルピークベクトル　Ｓ、によって表現される
音声のパタンを比較ノｅＪタンと称しＳ　で表わす。

この比較パタンは各カテゴリ毎に１つあるいは複数ある
ものとし、この比較パタンの総数をＭとする。

また比較パタンＳに対するカテゴリ名をインタフェース
５１から出力する必要がある場合には、そのカテゴリ名
Ｃｍを比較パタンメモリ５０に格納しておく。

以上の各処理によシ登録処理を終了する。

〔認識処理〕

この処理はさらに次の処理に分けられる。

雑音パタンの算出処理認識音声の特徴ベクトルの算出処理認識音声の音声区間検出処理認識音声の音声特徴内分ベクトル算出処理認識音声のロ
ーカルピークベクトルの算出処理ツクタン類似度算出処理認識判定処理以下、これらの各処理について第８図の認識処理の流れ
図を参照して説明する。

認識処理を開始しく５ＩＯ）、次の処理を行う。

（雑音ｉＲパタン算出処理）（Ｓｌｌ）登録時と認定時
とでは雑音の状況が変化していることも考えられるため
、雑音パタンの算出を再度行う。

この雑音パタンの算出に関しては単語入力の前毎に行う
のが良いが、単語の入力速度が遅くなったり或いは雑音
測定中に発声し易いなどの点から、特に特別な雑音区間
を適宜設けてその区間で雑音パタンを測定する方が現実
的であろう。

登録時と同様に、ある１０音声フレームを雑音区間と定
め、このとき話者は発声しないようにする。この状態で
、まわシからの雑音のみをマイクロフォン４ノから入力
させて、前述と同様に信号処理プロセッサ４５に送り、
これより生ずる雑音ベクトルを作業メモリ４９に逐次格
納する。１０音声フレーム分の雑音ベクトルを格納した
とき、これら雑音ベクトルの平均を取って、この平均雑
音ベクトルを雑音パタンメモリ５０に格納する。

（音声特徴ベクトル抽出処理）（８１２）雑音区間終了
後から音声特徴ベクトルの算出は新しい雑音パタンを用
いて行われる。

信号処理プロセッサ４５から入力される特徴ベクトルａ
、から雑音パタンメモリ５０に格納されている雑音ノぐ
タンを減じることによって音声特徴ベクトルｂ、を算出
し、これを作業メモリ４９に格納する。この処理は音声
フレーム周期毎に行われる。

また、後述する始端検出以前の音声特徴ベクトルは不必
要であるため適宜捨てていく。

（音声区間検出処理）（Ｓ１３）認識音声に対して第１図の音声区間検出部２５における
前述した処理を行う。区間検出のアルゴリズムは前述し
た〔登録処理〕における（音声区間検出処理）の場合の
アルゴリズムとほぼ同様である。区間終端Ｅを検出しな
かった場合には（Ｓ１４）、これを検出するまで繰り返
し処理を行う。

（音声特徴内分ベクトル算出処理）（８１５）区間終端
検出後、認識音声に対して第１図の音声特徴内分ベクト
ル算出部２６における処理を行い、得られた音声特徴内
分ベクトルｂ’４を作業メモリ４９に格納する。この場
合、線形伸縮の音声フレーム数を例えば３２音声フレー
ム長とする。

（認識ローカルピークベクトル算出処理）　（Ｓ１６）
認識音声に対して第１図のローカルピークベクトル算出
部２７における前述した処理を行い、得られたローカル
ピークベクトル（認識ローカルピークベクトル）を作業
メモリ４９に格納する。この認識ローカルピークベクト
ルをｒ、で表現する。

まだ３２個の認識ローカルピークベクトルによって表現
される認識音声のパタンを認識パタンと称し、これをＲ
で表現する。

（パタン類似度算出処理）（８１７）作業メモリ４９に格納されている入力ローカルピークベ
クトルのうち始端から終端までの入力ローカルピークベ
クトルを入力パタンとし、この人力パタンと、比較パタ
ンメモリ４８に格納されている比較パタンとの間で、前
述した（ｆ）項におけるパタン類似度算出処理を行い、
その結果としてＤｍａＸ（ｍ）を作業メモリ４９に格納
する。

このパタン類似度の算出処理を全比較パタンについて行
い（Ｓ１８）、全比較パタンについてこの処理が未完了
のときは再度パタン類似度算出処理（Ｓ１７）を繰り返
し行って、全比較パタンについて完了する。

（認識判定処理）（Ｓｏｌ）各カテゴリ毎に求まるパタン類似度Ｄ　のうち最大を与
えるパタン番号ｍ　　をａＸｍｍａｘ＝ａｒｇｍａｘＤｍ（９）で求め、このノＰタン番号ｍｍａＸに対応するカテコゝ
り名Ｃｍ　　　を比較パタンメモリ内から読み出すが又
ａＸハハタン番号ｍｍａＸの値自体をインタフェース５１を
通して外部に出力する。

以上の処理によりこの発明の第一の実施例の処理が完了
する（８２０）。

上述した実施では登録動作を行う特定話者認識方式に適
応したが、予め不特定多数の人の比較ノｆタンを作成し
ておけば話者を限定しない不特定話者認識方式にも適応
可能となる。この場合ローカルピークベクトルを用いる
ことにょシ、パタンか多くなっても比較パタンメモリを
少なくでき、従って比較パタンメモリの削減効果は大き
い。

（発明の効果）以上説明したようにこの発明によれば次の効果が生じる
。

（１）音声スペクトルのビーク位置を取り出しているた
め、近傍の雑音位置によってピーク位置がずれることが
なく、従って、認識性能の低下がない。

（２）ローカルピークベクトルをパタン類似度演算に用
いているため演算処理がきわめて簡易である。

（３）また音声特徴内分ベクトルを音声の始端から終端
までを一定音声フレームになるように線形伸縮すること
により算出するか又は線形、非線形を問わず一定音声フ
レーム長になるように処理した場合には、比較パタン又
は認識パタンの記憶容量は等しく領域管理が容易に行え
るものである。

（４）さらに入力端点フリーのＤＰマツチングを行って
いるため雑音により入力音声の始端、終端を多少誤って
も認識性能が劣化することがない。

【図面の簡単な説明】

第１図はこの発明の音声認識方式の認識処理を説明する
ブロック図、第２図は音声分析処理に用いるバンドパスフィルタの特
性を示す図、第３図は音声特徴内分ベクトルの算出のだめの時間軸線
形伸縮方法の説明図、第４図はローカルピークベクトル算出を説明するだめの
説明図、第５図は累積類似度算出のアルゴリズムを説明するだめ
の説明図、第６図はこの発明の一実施例のブロック図、第７図及び
第８図はこの発明の登録処理及び認識処理の流れ図、第９図は従来の音声ノＲタン作成方法を説明するための
ブロック図である。２１・・・入力端子、２２・・・特徴ベクトル算出部、
２３・・・雑音パタン算出部、２４・・・音声特徴ベク
トル算出部、２５・・・音声区間検出部、２６・・・音
声特徴内分ベクトル算出部、２７・・・ローカルピーク
ベクトル算出部、２８・・・パタン類似度算出部、２９
・・・判定部、３０・・・出力端子、３１・・・比較パ
タン格納部、４ノ・・・マイクロフォン、４２・・・増
幅器、４３・・・ローパスフィルタ、４４・・・Ａ／Ｄ
変換！、４５・・・信号処理プロセッサ、４６・・・プ
ロセッサ、４７・・・プログラムメモリ、４８・・・比
較パタンメモリ、４９・・・作業メモリ、５０・・・雑
音パタンメモリ、５１・・・インタフェース。特許出願人　　沖電気工業株式会社＋２ｊ３１３２伸線後の７し一ム番３ｊ時剤軸林形神、帰方法の↓兇明図第３図う・・（ネ　１シ・１ト３　　　　　　　　　　　　　
　　ｋＺｊＣｋ）ぜ（Ｃ）　　　ｒ、　　○○０１０００００１００００１
０００ローカルし−７ヘクトｌＬＡ分ロー〃ルビー７ペクトＬＸ、土北明り第４図登廿肌理の汲市圓第７図読取が理の流−国

Claims

【特許請求の範囲】

（１）（ａ）入力音声を周波数分析し、該入力音声の周
波数成分のベクトルである音声特徴ベクトルを音声フレ
ームと称する一定時間間隔で算出する第１処理と、（ｂ）前記音声特徴ベクトルを用いて音声の始端、終端
を検出する第２処理と、（ｃ）前記始端から終端までの音声特徴ベクトルを一定
音声フレーム数になるように時間的線形伸縮処理により
音声特徴内分ベクトルの列を算出する第３処理と、（ｄ）前記音声特徴内分ベクトルから最小二乗近似直線
を算出し、前記音声特徴内分ベクトルの各成分を前記最
小二乗近似直線を基準とする値に変換して得られる音声
特徴正規化内分ベクトルを算出する第４処理と、（ｅ）予め認識対象毎に一回もしくは複数回の発声の学
習音声に対し前記第１処理から第４処理までの処理と同
一又は類似した処理によって比較パタンを算出し、前記
比較パタンを格納する第５処理と、（ｆ）認識させようとする入力音声に対し前記第１処理
から第４処理までの処理により求めた入力パタンと前記
比較パタンの間で、一音声フレーム以上の整合窓を設け
、入力パタンに対する端点に自由度を設け、入力パタン
のｉ番目のフレーム時間点かつ比較パタンのｊ番目のフ
レーム時間点の累積類似度算出を、比較パタンのｊ−１
番目のフレームの累積類似度と入力パタンｉ番目のフレ
ーム時間点かつ比較パタンｊ番目のフレーム時間点にお
ける類似度を用いて算出する第６処理と、（ｇ）前記比較パタン毎に算出されるパタン類似度の中
で最大を与える比較パタンに付加されたカテゴリ名を結
果として出力する第７処理と、を具えることを特徴とする音声認識方式。
（２）前記音声特徴内分ベクトルから最小自乗近似直線
を算出し、前記音声特徴内分ベクトルの各成分を前記最
小二乗近似直線を基準とする値に変換し、これらの成分
間で正でかつ極大となる位置を１にしてその他の成分を
０とするローカルピークベクトルを求め、第４処理にお
ける音声特徴正規化内分ベクトルとしてこのローカルピ
ークベクトルで表現したものを用いることを特徴とした
特許請求の範囲第１項記載の音声認識方式。