JPS62262897A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPS62262897A
JPS62262897A JP61104765A JP10476586A JPS62262897A JP S62262897 A JPS62262897 A JP S62262897A JP 61104765 A JP61104765 A JP 61104765A JP 10476586 A JP10476586 A JP 10476586A JP S62262897 A JPS62262897 A JP S62262897A
Authority
JP
Japan
Prior art keywords
pattern
audio
vector
speech
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61104765A
Other languages
English (en)
Inventor
森戸 誠
田部井 幸雄
広之 野戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP61104765A priority Critical patent/JPS62262897A/ja
Publication of JPS62262897A publication Critical patent/JPS62262897A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は認識精度のよい音声認識方式に関する。
(従来の技術) 従来より、情報及び通信機器の入力の効率化、システム
機能の向上等を図る目的のため、音声認)識に関しての
研究開発が進められている。この音声認識を行う一般的
な方法に/NOタンマツチング法がある。
先ず、この発明の説明に先立ち、第9図を参照して従来
のパタンマツチング法につき説明する。
第9図において、10は音声入力端子、11は音声分析
部、12は区間検出部、13は入力メモリ部、14は比
較パタンメモリ部、15は類似度計算部、16は判定部
、17は出力端子である。
この従来の認識方式においては、音声入力端子10に入
力した入力音声を音声分析部11において特徴を表わす
ベクトルの時系列パタン(以下、音声パタンと称する)
に変換する。この音声パタンは、一般に、中心周波数の
異るp個のバンドパスフィルタ群によって抽出された帯
域内周波数成分を時間間隔T。(例えば8ミリ秒)毎に
標本化(以下、サンプリングと称する)することによっ
て得ている。一方、この音声分析部11において、音声
パタンに対応する時間点における音声パワーを算出する
。この音声分析部11において算出された音声ノ9タン
を入力メモリ部13に逐次格納すると共に、音声パワー
を区間検出部12へ出力する。
区間検出部12では、音声分析部11からの音声パワー
に基づき、音声区間すなわち音声の始端及び終端を決定
する。この音声・ぐワーによる音声の始端及び終端の決
定アルゴリズムについては、特願昭59−108668
号に開示されているような複雑なアルゴリズム、音声ノ
母ワーが閾値以上となった時点を音声の始端、閾値未満
となった時点を音声の終端と考える簡易なアルゴリズム
その他のアルゴリズム等があり、いずれかの適切なアル
ゴリズムで区間検出を行っている。この区間検出部12
で決定された始端及び終端間の音声パタンを入力メモリ
部から読出して類似度計算部15へ送る。一方、この類
似度計算部15には比較パタンメモリ14から比較パタ
ンを別途入力させている。
この比較パタンは認識対象となる単語(以後カテゴリと
称する)に対し音声ノfタンと同一な音声分析処理を施
したベクトルの時系列パタンであシ、予め比較パタンメ
モリ部14に格納しておく。
この格納に当り、比較パタンを作成するが、その作成は
認識目的によって異る。例えば、話者を限定した認識方
式の場合には、限定された話者が発声した音声を周波数
分析部11を用いて又はこれと同等な音声分析処理を施
して得られた音声パタンを比較パタンとして比較パタン
メモリ部14に格納する。
類似度計算部15では、音声パタンと比較ツクタンとの
間の類似度計算を行う。この類似度計算には、例えば特
公昭50−23941号に開示されているいわゆるDP
マツチングと呼ばれている方法、すなわち発声速度の変
動等による時間軸方向の歪を最適化する方法又はその他
の適切な方法を用いている。
この類似度計算部15から出力されるカテゴリ毎の類似
度を用いて、判定部16では、その最大類似度を与える
比較パタンに与えられたカテゴリ名を認識結果として出
力する。
以上が従来のi4タンマツチング法による音声認(発明
が解決しようとする問題点) 上述した従来の認識方式は、音声のスペクトルの形状を
与える音声パタンと、予め同一分析処理によって算出さ
れた比較パタンとの相違を類似度という尺度から評価し
、最大の類似度を−りえる比較パクンのカテコゝり名を
認識結果とする方法であった。従って、音声ノ9タンの
カテゴリと比較パタンのカテゴリとが同じ場合はその類
似度は大きく、異なる場合にはその類似度は小さくなる
ものであった。
しかしながら、音声のスペクトルの形状が音声以外の要
因例えば外部の雑音により歪んだ場合にはたとえ同一カ
テゴリといえどもその両者の類似度が大きくなるとはい
えなくなる。
雑音は他にも音声の切り出し処理(区間検出処理)にも
悪影響をおよぼす。前記類似度の算出は音声として検出
した区間において行う処理であシ区間検出精度自体が低
下したのでは認識性能が犬きく影響される。この問題点
を解決するために文献r WLR尺度による単語音声認
識」電子通信学会論文誌(C1)J66−D、煮4 (
1983年)に開示されている端点フIJ −D Pマ
ツチング法が提案されているが始端処理に関しては擬似
的な処理であり完全に始端点フリー処理とはいえない。
まだ、パス長も一定していないだめ最終累積用りをパス
長で正規化する処理を必要とし演算量が増加する。この
発明の目的はこのような従来の問題点に鑑み、雑音環境
下でも認識精度の良い音声認識方式を提供することにあ
る。
この発明の他の目的は、装置として構成する場合、構造
が簡単かつ小型となるように、演算処理速度が速く、し
かも、記憶容量が小さくて済む音声認識方式を提供する
ことにある。
(問題点を解決するだめの手段) 上述した目的の達成を図るため、この発明の音声パタン
作成方法においては入力音声から類似度判定用の基準デ
ータを形成する登録処理と、認識音声から類似度判定用
の認識データを形成する認識処理とを行うに当り、次の
ような手段を採る。
隔T。(音声フレーム周期と称する)毎に表わすベクト
ル(音声特徴ベクトルと称する)を入力させる。
(b)  この音声特徴ベクトルから当該音声フレーム
におけるフレーム電力を算出し、このフレーム電力の始
端Sと終端Eとを算出する。
(c)  次に始端から終端までの音声特徴ベクトル列
を時間点に線形伸縮し音声特徴内分ベクトル列を算出す
る。
(d)  前述の音声特徴内分ベクトルから最小二乗近
似直線を算出し、この最小二乗近似直線を基準にして周
波数軸方向で極大かつ正となるチャネルに対応する成分
を1にしその他の成分を0にして得られるローカルピー
クベクトルを算出する。
(e)  一方、認識対象語の音声毎に対し、入力音声
に対して行われる前述の(a)〜(d)項の各処理に対
応する処理を行って比較パタンを作成する(登録処理と
称する)。
(f)  認識処理時に発声した音声に対して前述の(
a)〜(d)項までの処理によって求められた入力パタ
ンと比較パタンとの間で非線型入力端点71J −D 
Pマツチング処理を行って比較パタンと入力パタンとの
パタン類似度を算出する。
(g)  この比較パタン毎に算出されるパタン類似度
の中で最大の類似度を与える比較A’メタン付加されだ
カテゴリ名を認識結果とする処理を行う。
以上のようにして、入力音声を認識した結果が得られる
。上述した(d)項によって算出したローカルピークベ
クトルを(f)項、(g)項の類似度算出に用いること
により、高雑音環境下における認識性能を向上させてい
る。それは、従来のようなス被りトルの形状を与えるベ
クトルを類似度算出に用いずに、音声スペクトルのピー
クを与える位置によって算出されるローカルピークベク
トルを類似度算出に用いているからである。従って、雑
音が混入した場合、スペクトルの形状は大きく変わるが
ス被りトルのピークの位置は変わらないことに基づいて
いる。
また(f)項における非線形入力端点フIJ −D P
マツチングは(b)項における音声区間検出の誤りが認
識率に与える影きょうをかん和するだめの処理である。
まだ(c)項における音声特徴内分ベクトル列を算出す
る処理は登録処理における比較パタンのメそり管理を容
易にするだめの処理である。
(作用) 次に、この発明の作用につき説明する。
この発明の音声認識方式を達成するだめの機能は第1図
に示す各処理部によって構成される。
以下、その詳細な処理につき説明する。
音声はマイクロフォンを通じて電気信号に変換し、増幅
器(図示せず)、ロー・ぐスフィルタ(図示せず)を経
てA/D変換器(図示せず)に送り、そこで例えば83
マイクロ秒毎に標本化(サンプリング)した後、入力端
子21に入力させる。
以下、前述の各項につき説明する。
〔(a)項の音声特徴ベクトル算出処理〕入力端子21
に入力した音声のデータの周波数この特徴ベクトル算出
部22には、周波数分析のだめの、第2図に示すような
夫々中心周波数が異なる特性を個々に有する複数のバン
ドパスフィルタと、ローノやスフィルタと、音声フレー
ム毎ニサンプリングを行うサンプリング手段(それぞれ
図に示していない)とを具えている。
各バンドフィルタによって音声からその中心周波数の成
分のみを抽出する。このようにして各バンドフィルタに
よって分けられたデータの系列をチャネルと称する。各
チャネル毎のバンドパスの出力に対して絶対値化演算を
施した後、ローパスフィルタに入力させる。各チャネル
毎のローパスフィルタ出力をサンプリング手段によって
音声フレームの周期毎に再サンプルして特徴ベクトルの
成分を得る。
今i番目の音声フレームにおけるにチャネルのに ローパスフィルタの出力をa、とすると、i番目の音声
フレームにおける特徴ベクトルa、はk       
K ai””(alt all”’1 all”’2 al
)と表現することが出来る。ここで、Kはチャネル数で
ある。
一方、雑音のみが入力されていて音声が入力されていな
い区間を例えば連続して10音声フレーム(音声フレー
ム数は本質ではない)設定し、これを雑音期間と称する
雑音区間の特徴ベクトルは雑音のスペクトル形状を表わ
すもので、これを特に雑音ベクトルと称し、ntと表現
する。
ところで、雑音区間内における雑音のスペクトルの平均
値を によって算出し、この平均値を雑音パタンと称する。
雑音パタンNの成分をNkとすると、 N= (N1.N2.・・・tNkj・・・、NK)と
なる。
雑音区間以降、すなわち雑音パタン算出以降は特徴ベク
トル算出部22から出力される特徴ベクトルajから雑
音パタン算出部23からの雑音パタンNを減じ、音声特
徴ベクトル b、=(b、、b、、・・・、b、、・・・、訝)を次
式によって算出する。
この処理部24における処理は高雑音環境下における音
声認識の性能を向上するための手法であり雑音が比較的
に定常的に続いている場合に効果を発する。しかし雑音
成分が小さい場合は特徴ベクトルから雑音ベクトルを減
じなくとも認識性能はさほど劣化しない、そこで本発明
では音声特徴ベクトル算出を特徴ベクトルと雑音ベクト
ルの差によって算出するか、特徴ベクトルそのものを用
いるかは問題としていない。しかし以後の説明は雑音成
分を減する方式で説明することとする。
〔(b)項の音声区間検出処理〕
この処理を音声区間検出部25で行う。
音声フレーム毎に音声特徴ベクトル算出部24よシ算出
される音声特徴ベクトルb、を用いて、当該音声フレー
ムのフレーム電力P を算出する。
音声区間検出部25においては、音声特徴ベクトルb1
から得られたフレーム電力P0を用いて音声区間検出を
行う。
音声区間検出のアルコゞリズムについては前述したよう
に各種のものが提案されているが、この発明はそのアル
コゝリズム自体を目的とするものではない。
ここでは説明の便宜上、フレーム電力P、が定められた
閾値23以上となった音声フレームを音声の始端、音声
の始端からフレーム電力P、が閾値P8未満となった音
声フレームを音声の終端と考える。
ここで音声の始端フレームをS、終端フレームをEとす
る。
〔(C)項の音声特徴内分ベクトル算出処理〕音声区間
検出部25によって検出された始端S及び終端Eを用い
て入力端子からの音声特徴ベクトルを一定音声フレーム
長に時間軸線形伸縮する。
このブロック26における線形伸縮処理は認識処理、特
に線形マツチング処理を行い易くするために行う処理で
あシ、さらにはこの発明により得られた音声パタンを格
納するだめのメモリ内の領域管理を容易にするために行
う処理でもある。
次に、この時間軸線形伸縮の方法について第3図を参照
して説明する。
第3図は時間軸線形伸縮方法を説明するだめの図で、横
軸に伸縮後のフレーム番号j及び縦軸に1音声フレーム
の時間経過iをそれぞれ取って示しである。ここで、線
形伸縮処理によって得られたベクトルを音声特徴内分ベ
クトルと称する。
捷だ、線形伸縮後の音声フレーム数を説明の便宜のため
一例として32音声フレームとして説明するが、これに
限定されるものではない。
今、線形伸縮後のj番目(J−1〜32)の音声フレー
ムの音声特徴内分ベクトルをb′、とじ次式によって算
出する。j′をjに対応する実際の入力フレームの番号
とすると、 ただし〔〕はガウス記号を表わす。
先ず、(4)式によシ、1フレームの始端Sから終端E
までを31分したとき、伸縮後のj番目のフレームが1
フレームの時間軸i上で取る位置j′を求め、次いで(
5)式によりj′の両近傍特徴ベクトルを内分し音声特
徴内分ベクトルb′、を算出している。
〔(d)項のローカルピークベクトル算出処理〕この処
理をローカルビーク算出部22で行う。
音声特徴内分ベクトル算出部26から送出される音声特
徴内分ベクトルb′、をローカル2−クベクトル算出部
27においてローカルピークベクトルr、に変換する。
この変換処理につき第4図(4)〜(C)を参照して説
明する。
音声特徴内分ベクトルb1の各成分b1.は次式により
対数変換される。
第4図囚にこの音声特徴内分ベクトル成分の対数変換に
より得られた対数成分x、(k)の例を示し、横軸にチ
ャネル番号kを及び縦軸に対数成分x−(k)をそれぞ
れプロットして示す。この図により、1番目の音声フレ
ームにおける音声の対数スペクトルの形状が表わされて
いる。
次に、次式によって与えられる最小二乗近似直 ゛線 を用いて正規化を行う。
z 1(k) = X4 (k) −y4 (k)= 
xi(k)−ui(k) ・k−vi(k)この正規化
された音声特徴内分ベクトル(音声特徴正規化内分ベク
トルと称する)Zi(k)の例を第4図(B)に示す。
第4図(B)において横軸にチャネル番号を及び縦軸に
音声特徴正規化内分ベクトルの成分z i(k )をそ
れぞれグロットして示す。
次に、次式(9)のような判断に基づいて、この正規化
成分z1(k)を用いてローカルピークベクトルこの(
9)式の判断条件を満たすkに対してはr−1、満たさ
ないkに対してはr、=0なる値を成分として有するベ
クトルr。
r°=(r、 、 r、 、・・・、r、、・・・、r
、)!11   1   1 を算出する。このベクトルr、をローカルピークベクト
ルと称する。このローカルピークベクトルr、の例を第
4図(C)に示す。
〔(e)項の比較パタン算出及び格納処理〕この処理を
比較パタン格納部3ノで行う。
話者を限定する特定話者認識方式においては、認識対象
となる単語(以下、カテゴリと称する)を予め発声し、
その単語を表現するだめのパタン(比較パタンと称する
)を予め格納しておく必要がある。比較パタン格納部3
1では、このような比較パタンか格納されている。以下
、この比較パタンの作成方法につき説明する。この比較
パタンを作成する処理を登録処理と称する。
ここで説明のためカテゴリの数をM個とする。
また、同一カテゴリを数回発声し、それぞれのパタンの
平均をとることにより比較パタンを作成する方法もある
が、この発明では一回のカテコゝりの発声に対して比較
パタンを作成するものとする。
比較ノfタンを作成するために用いられる音声を学習音
声と称する。
今、ディジタル化されたm番目の学習音声を入力端子2
1から特徴ベクトル算出部22へと送シ学習音声の特徴
ベクトルを算出する。一方、雑音パタン算出部23には
、前もって学習音声が入力されていないときの雑音ie
メタン抽出されている。
従って、音声特徴ベクトル算出部24において、特徴ベ
クトル算出部22からの特徴ベクトルから雑音パタン算
出部23がらの雑音ノ(タンを減算し、学習音声の音声
特徴ベクトルを算出する。
次に音声区間検出部25において学習音声の電力を計算
し学習音声の始端と終端を決定する。
さらに音声特徴内分ベクトル算出部26において時間的
に線形伸縮し、一定音声フレーム長(ここでは32音声
フレーム長)をもった音声特徴内分ベクトル列を算出す
る。
得られた学習音声の音声特徴内分ベクトルはローカルピ
ークベクトル算出部27においてローカルピークベクト
ルmSjに変換される。
””” = (mL’J ’ msj x ’・・2m
s¥2 ”’ t ms”r )この学習音声のローカ
ルピークベクトルルを特に比較ローカルピークベクトル
と称する。
さらに、始端1から終端32−1での比較ローカルピー
クベクトルの時系列によって表わされるノRタンを比較
パタンと称し鑵と表わす。
このようにして得られた各カテゴリ毎の比較パタンSm
を比較パタン格納部31の記憶領域に格納する。
〔(f)項のパタン類似度算出処理〕この処理をパタン
類似度算出部28で行う。
上述したような比較パタンを作成する登録処理に対して
、認識動作を行うときの処理を認識処理と称する。そこ
で、認識処理時に入力される音声を入力音声と称する。
また、入力音声に対しても前述した(a)項から(a)
項と同一又は類似の処理を行ってローカルピークベクト
ルr、 (入力ローカルピークベクトルと称する)を求
める。
このようにして、始端1から終端32まで入力ローカル
ピークベクトルの時系列によって表現される入力音声の
パタンを入力パタンと称し、これをRで表現する。
また、既に説明したように、m番目の比較パタンSmが
始端1から終端32までの時系列として表現され、比較
パタン格納部31に格納されている。
次に、入力パタンRと、比較パタン鑵との類似性を算出
する処理につき説明する。
第5図は、類似性算出処理を行うに当って入力パタンと
比較パタンとの時間的な対応をとるための説明図であり
、横軸は入力パタンのフレーム時間点iを表わし、縦軸
は比較パタンのフレーム時間点jを採って示しである。
そこで、便宜上、入力パタンのi番目のフレーム時間点
で、かつ、比較パタンの1番目のフレーム時間点につい
て論する場合、単にパ格子点(1゜j)において”とい
う表現を用いる。
格子点(i、j)における入力ローカルピークベクトル
r、と、比較ローカルピークベクトル S。
l                        
            mJとの類似度dm(i、j
)を で定義する。ここで、右肩添字tはベクトルの転置を表
わしている。
通常このα・式で表わされる類似度の算出に当っては、
複雑な演算を必要とするが、この発明における各ベクト
ルri、Sjはローカルピークベクトルであるため、そ
の要素はO又は1であり、従って類似度演算が極めて簡
易となる。この意味においてローカルピークベクトルに
おける音声パタンの表現方法に重要な意義がある。
01式で与えられる類似度dm(i 、 j )を用い
て最適i4スの算出を行う手法について第5図を用いて
説明する。第5図に示されるように入力端点に自由度を
持たせている。それは登録処理時に比べ認識処理時は環
境を選ばないため音声区間検出精度が劣化することが多
いだめである。また演算の簡略化およびパスにある程度
制限をつけるために第5図に示される整合窓を設定する
。この整合窓外では強制的に類似度dm(i、j)をO
とする。
格子点(i、j)における累積類似度D (i、j)を αp と定める。また初期値を D (t +o)=o tD(o、j)−o tD(−
1s j)=。
α諺 とする。
このようにして得られた格子点(i、j)における累積
類似度のうちから整合窓内でかつj=32である累積類
似度の中で最大を与える累積類似度D   (m)を算
出し、これをパタン類似度と称する。
ax D  (m) =maxD (i 、32)     
(Llmax               mi:整
合窓内 以上の演算をM個の比較音声パタン全てにおいて行い、
M個のパタン類似度DmaX(m)を求める。
このようにして求められる最終的なパスの予想例を第5
図に曲線Xで示しである。
94式で力えられる最大累積類似度Dmax(m)の算
出にはDPパスの長さによる正規化処理を必要としない
。それは03式に用いるDm(i、32)を算出するた
めに必要なα9式の漸化回数がすべて同じことに起因し
ている。
〔(g)項の判定処理〕
M個のパタン累積類似度D  (m)により再び最aX 犬値判定を行う。
mmaX=argmaxDmax(m)       
α→■≦m≦M その最大値を与える比較・9タンの番号”maxに対応
するカテゴリ名Cm   が認識結果として出力端aX 子30から出力する。
α4式においてもすべての比較パタン長が一定であるた
めパス長の正規化処理は必要とならない。
以上説明したように、この発明の音声認識方式において
は、入力端点フリーのDPマツチングを行い雑音環境下
における音声の始端・終端の誤検出が認識結果に与える
影響を軽減している。
さらには本発明の入力端点フリーのDPマツチング法で
はパス長による正規化処理が不用であるため演算処理が
少ない特徴をもつ。
また、音声特徴ベクトルから算出した、ベクトル成分が
0又は1のみであるローカルピークベクトルを用いてパ
タン類似度算出処理を行っているため、演算処理が極め
て簡易である。
さらに、比較パタンに関しても比較ローカルピークベク
トルを用いているため、その記憶容量を極めて少なくす
ることが出来、音声認識システムの小型化を図れる。ま
た線形伸縮処理により1ノゼタンあたりの音声フレーム
長を一定としているため比較パス/の容量が一定となり
メモリ管理が極めて容易となる。
以上の説明は比較、−eタンならびに入カッ’?タンを
ローカルピークベクトルを基にして作成した場合につい
て述べだが、入力パタンならびに比較パタンを音声特徴
正規化内分ベクトル自体を用いた場合にも本発明は拡大
適用され得る。
ただし、この場合00式で与えられる類似度dm(i、
j)は一般に用いられているノ々タン間の距り尺度 dm(ir j) ”= IIZ、−=msj11によ
って与えられる。さらにαη式、α→式、04式はすべ
て最小値問題となる。
(実施例) 以下、この発明の実施例につき第6図を参照して説明す
る。
第6図はこの発明の音声認識方式の一実施例を実施する
だめの具体的な回路構成を示すブロック図である。
第6図において、41はマイクロフォン、42は音声信
号を増幅するだめの増幅器、43はローパスフィルタ、
44は音声をディジタル信号に変換するA/D変換器、
45は特徴ベクトルを算出する信号処理プロセッサ、4
6はプロセッサ、47はプロセッサのプログラムが格納
されているプログラムメモリ、48は比較パタンを格納
するだめの比較パタンメモリ、49は作業メモリ、50
は雑音パタンを格納するだめの雑音ノ9クンメモリ、5
1は認識結果を外部に出力するだめのインタフェースで
ある。ただし、それぞれの構成要素間には厳密々意味で
はインタフェース回路が必要であるが、ここではこれを
省略する。
音声認識方式の動作例 次に、この第6図を参照してこの発明の音声認識方式の
一例を説明する。
マイクロフォン4ノからの入力音声を増幅器42で増幅
した後、ローパスフィルタ(LPF)43においてその
低周波数成分を除去する。
次に、低周波成分が除去された入力音声をA/I)変換
器44によって例えば12kHzのサンプリング周波数
で12ビツトにサンプリングする。前述のローパスフィ
ルタ43での処理はこのサンプリングのために必要な処
理で、従って、この74)しタとしては例えば5 kH
zの遮断周波数をもつ減衰48 dBloatのローノ
やスフィルタを用いる。
A/D変換器44によってサンプリングされた音声のデ
ィジタルデータを信号処理ゾロセッサ45によって、特
徴ベクトルに変換する。この信号処理プロセッサ45と
して例えばTI社製の32010を用いることが出来る
プロセッサ46は音声フレーム周期毎に信号処理プロセ
ッサ45から出力される特徴ベクトルを用いて処理を行
うが、その処理の内容は■ 登録処理 ■ 認識処理 とに分けられる。以下、これらの処理についてそれぞれ
説明をする。
〔登録処理〕
登録処理は第7図のフローチャートに示されるごとく次
の処理に分けられる。
雑音パタンの算出処理 音声特徴ベクトルの算出処理 音声区間検出処理 音声特徴内分ベクトル算出処理 比較ローカルピークベクトル算出処理 比較パタン格納処理 以下これらの処理について説明する。
(雑音パタン算出処理)(S2)登 録処理のため、例えば、10音声フレームを雑音区間と
定める。このとき、話者は発声しないで、まわりの雑音
のみをマイクロフォン41から入力するようにする。こ
の雑音入力を信号経路(42,43,44)を経て信号
処理プロセッサ45に送り、これより雑音ベクトルを生
じさせ、この雑音ベクトルを作業メモリ49に逐次格納
する。このメモリ49に10音声フレーム分の雑音ベク
トルが格納されると、これら雑音ベクトルを平均化して
その平均値を雑音パタンメモIJ 50に格納する。
(音声特徴ベクトル算出処理)(S3)雑音区間終了後
、信号処理プロセッサ45がら入力される特徴ベクトル
から雑音パタンメモリ50中の雑音パタンを減じること
によって、音声特徴ベクトルを算出し、これを作業メモ
リ49内に格納する。
この処理は音声フレーム周期毎に行われるが、音声区間
検出処理によって始端が検出される壕での音声特徴ベク
トルは不必要であり、従って、作業メモリ49を効果的
に使用するためには適当に捨てていく。
(音声区間検出処理)(S4) 次に、第1図に示した音声区間検出部25における前述
した処理を行う。
先ず、作業メモリ49に格納されている音声特徴ベクト
ルbかもフレーム電力P を算出する。
次に、この算出されたフレーム電力P、と、予め設定さ
れている区間検出用閾値との間で、大小の比較を行って
音声の始端S及び終端Eをそれぞれ決定する。この場合
、音声の始端検出の簡単なアルゴリズムとしては、例え
ば、フレーム電力P□が、連続して3音声フレ一ム以上
、閾値以上となる先頭の音声フレームを始端Sとするア
ルゴリズムを用いることができるが、他のアルゴリズム
であってもよい。
また、音声の終端Eの検出の簡単なアルゴリズムとして
、例えば、フレーム電力P1が、連続して30音声フレ
一ム以上、閾値未満となる先頭の音声フレームから1つ
前の音声フレームを終端Eとするアルゴリズムを用いる
ことができるが、これに限定されるものではない。
この音声区間の終端Eを検出しなかった場合には(S5
)、再び音声特徴ベクトルb、の算出処理(S3)を行
った後、音声区間の検出処理(S4)を繰り返し行い、
最終的に終端Eを検出する(S5)。
(音声特徴内分ベクトル算出処理)(86)音声区間の
終端検出後、作業メモリ49に格納されている音声特徴
ベクトルb1と、音声区間の始端S及び終端Eとを用い
て、第1図の音声特徴内分ベクトル算出部26における
前述した処理を行って、得られた音声特徴内分ベクトル
b′、を作業メモリ49に格納する(S6)。この場合
、線形伸縮の音声フレーム数を例えば32音声フレーム
とする。
(ローカルピークベクトル算出処理)(S7)次に、作
業メモリ49に格納された音声特徴内分ベクトルb′、
を、第1図のローカルピークベクトル算出部27におい
て前述した処理を行ってローカルピークベクトルr1を
得、得られたローカルピークベクトルr0を比較ノぐタ
ンメモリ48に格納する。
登録時の音声に対するローカルピークベクトルr、ヲ比
較ローカルピークベクトルと称し S、で表1    
                         
             mJ現する。まだ32個の
比較ローカルピークベクトル S、によって表現される
音声のパタンを比較ノeJ タンと称しS で表わす。
この比較パタンは各カテゴリ毎に1つあるいは複数ある
ものとし、この比較パタンの総数をMとする。
また比較パタンSに対するカテゴリ名をインタフェース
51から出力する必要がある場合には、そのカテゴリ名
Cmを比較パタンメモリ50に格納しておく。
以上の各処理によシ登録処理を終了する。
〔認識処理〕
この処理はさらに次の処理に分けられる。
雑音パタンの算出処理 認識音声の特徴ベクトルの算出処理 認識音声の音声区間検出処理 認識音声の音声特徴内分ベクトル算出処理認識音声のロ
ーカルピークベクトルの算出処理 ツクタン類似度算出処理 認識判定処理 以下、これらの各処理について第8図の認識処理の流れ
図を参照して説明する。
認識処理を開始しく5IO)、次の処理を行う。
(雑音iRパタン算出処理)(Sll)登録時と認定時
とでは雑音の状況が変化していることも考えられるため
、雑音パタンの算出を再度行う。
この雑音パタンの算出に関しては単語入力の前毎に行う
のが良いが、単語の入力速度が遅くなったり或いは雑音
測定中に発声し易いなどの点から、特に特別な雑音区間
を適宜設けてその区間で雑音パタンを測定する方が現実
的であろう。
登録時と同様に、ある10音声フレームを雑音区間と定
め、このとき話者は発声しないようにする。この状態で
、まわシからの雑音のみをマイクロフォン4ノから入力
させて、前述と同様に信号処理プロセッサ45に送り、
これより生ずる雑音ベクトルを作業メモリ49に逐次格
納する。10音声フレーム分の雑音ベクトルを格納した
とき、これら雑音ベクトルの平均を取って、この平均雑
音ベクトルを雑音パタンメモリ50に格納する。
(音声特徴ベクトル抽出処理)(812)雑音区間終了
後から音声特徴ベクトルの算出は新しい雑音パタンを用
いて行われる。
信号処理プロセッサ45から入力される特徴ベクトルa
、から雑音パタンメモリ50に格納されている雑音ノぐ
タンを減じることによって音声特徴ベクトルb、を算出
し、これを作業メモリ49に格納する。この処理は音声
フレーム周期毎に行われる。
また、後述する始端検出以前の音声特徴ベクトルは不必
要であるため適宜捨てていく。
(音声区間検出処理)(S13) 認識音声に対して第1図の音声区間検出部25における
前述した処理を行う。区間検出のアルゴリズムは前述し
た〔登録処理〕における(音声区間検出処理)の場合の
アルゴリズムとほぼ同様である。区間終端Eを検出しな
かった場合には(S14)、これを検出するまで繰り返
し処理を行う。
(音声特徴内分ベクトル算出処理)(815)区間終端
検出後、認識音声に対して第1図の音声特徴内分ベクト
ル算出部26における処理を行い、得られた音声特徴内
分ベクトルb’4を作業メモリ49に格納する。この場
合、線形伸縮の音声フレーム数を例えば32音声フレー
ム長とする。
(認識ローカルピークベクトル算出処理) (S16)
認識音声に対して第1図のローカルピークベクトル算出
部27における前述した処理を行い、得られたローカル
ピークベクトル(認識ローカルピークベクトル)を作業
メモリ49に格納する。この認識ローカルピークベクト
ルをr、で表現する。
まだ32個の認識ローカルピークベクトルによって表現
される認識音声のパタンを認識パタンと称し、これをR
で表現する。
(パタン類似度算出処理)(817) 作業メモリ49に格納されている入力ローカルピークベ
クトルのうち始端から終端までの入力ローカルピークベ
クトルを入力パタンとし、この人力パタンと、比較パタ
ンメモリ48に格納されている比較パタンとの間で、前
述した(f)項におけるパタン類似度算出処理を行い、
その結果としてDmaX(m)を作業メモリ49に格納
する。
このパタン類似度の算出処理を全比較パタンについて行
い(S18)、全比較パタンについてこの処理が未完了
のときは再度パタン類似度算出処理(S17)を繰り返
し行って、全比較パタンについて完了する。
(認識判定処理)(Sol) 各カテゴリ毎に求まるパタン類似度D のうち最大を与
えるパタン番号m  を aX mmax=argmaxDm(9) で求め、このノPタン番号mmaXに対応するカテコゝ
り名Cm   を比較パタンメモリ内から読み出すが又
aX ハハタン番号mmaXの値自体をインタフェース51を
通して外部に出力する。
以上の処理によりこの発明の第一の実施例の処理が完了
する(820)。
上述した実施では登録動作を行う特定話者認識方式に適
応したが、予め不特定多数の人の比較ノfタンを作成し
ておけば話者を限定しない不特定話者認識方式にも適応
可能となる。この場合ローカルピークベクトルを用いる
ことにょシ、パタンか多くなっても比較パタンメモリを
少なくでき、従って比較パタンメモリの削減効果は大き
い。
(発明の効果) 以上説明したようにこの発明によれば次の効果が生じる
(1)音声スペクトルのビーク位置を取り出しているた
め、近傍の雑音位置によってピーク位置がずれることが
なく、従って、認識性能の低下がない。
(2)ローカルピークベクトルをパタン類似度演算に用
いているため演算処理がきわめて簡易である。
(3)また音声特徴内分ベクトルを音声の始端から終端
までを一定音声フレームになるように線形伸縮すること
により算出するか又は線形、非線形を問わず一定音声フ
レーム長になるように処理した場合には、比較パタン又
は認識パタンの記憶容量は等しく領域管理が容易に行え
るものである。
(4)さらに入力端点フリーのDPマツチングを行って
いるため雑音により入力音声の始端、終端を多少誤って
も認識性能が劣化することがない。
【図面の簡単な説明】
第1図はこの発明の音声認識方式の認識処理を説明する
ブロック図、 第2図は音声分析処理に用いるバンドパスフィルタの特
性を示す図、 第3図は音声特徴内分ベクトルの算出のだめの時間軸線
形伸縮方法の説明図、 第4図はローカルピークベクトル算出を説明するだめの
説明図、 第5図は累積類似度算出のアルゴリズムを説明するだめ
の説明図、 第6図はこの発明の一実施例のブロック図、第7図及び
第8図はこの発明の登録処理及び認識処理の流れ図、 第9図は従来の音声ノRタン作成方法を説明するための
ブロック図である。 21・・・入力端子、22・・・特徴ベクトル算出部、
23・・・雑音パタン算出部、24・・・音声特徴ベク
トル算出部、25・・・音声区間検出部、26・・・音
声特徴内分ベクトル算出部、27・・・ローカルピーク
ベクトル算出部、28・・・パタン類似度算出部、29
・・・判定部、30・・・出力端子、31・・・比較パ
タン格納部、4ノ・・・マイクロフォン、42・・・増
幅器、43・・・ローパスフィルタ、44・・・A/D
変換!、45・・・信号処理プロセッサ、46・・・プ
ロセッサ、47・・・プログラムメモリ、48・・・比
較パタンメモリ、49・・・作業メモリ、50・・・雑
音パタンメモリ、51・・・インタフェース。 特許出願人  沖電気工業株式会社 +2j3132 伸線後の7し一ム番3j 時剤軸林形神、帰方法の↓兇明図 第3図 う・・(ネ 1シ・1ト3             
  kZjCk) ぜ (C)   r、  ○○0100000100001
000ローカルし−7ヘクトlLA分 ロー〃ルビー7ペクトLX、土北明り 第4図 登廿肌理の汲市圓 第7図 読取が理の流−国

Claims (2)

    【特許請求の範囲】
  1. (1)(a)入力音声を周波数分析し、該入力音声の周
    波数成分のベクトルである音声特徴ベクトルを音声フレ
    ームと称する一定時間間隔で算出する第1処理と、 (b)前記音声特徴ベクトルを用いて音声の始端、終端
    を検出する第2処理と、 (c)前記始端から終端までの音声特徴ベクトルを一定
    音声フレーム数になるように時間的線形伸縮処理により
    音声特徴内分ベクトルの列を算出する第3処理と、 (d)前記音声特徴内分ベクトルから最小二乗近似直線
    を算出し、前記音声特徴内分ベクトルの各成分を前記最
    小二乗近似直線を基準とする値に変換して得られる音声
    特徴正規化内分ベクトルを算出する第4処理と、 (e)予め認識対象毎に一回もしくは複数回の発声の学
    習音声に対し前記第1処理から第4処理までの処理と同
    一又は類似した処理によって比較パタンを算出し、前記
    比較パタンを格納する第5処理と、 (f)認識させようとする入力音声に対し前記第1処理
    から第4処理までの処理により求めた入力パタンと前記
    比較パタンの間で、一音声フレーム以上の整合窓を設け
    、入力パタンに対する端点に自由度を設け、入力パタン
    のi番目のフレーム時間点かつ比較パタンのj番目のフ
    レーム時間点の累積類似度算出を、比較パタンのj−1
    番目のフレームの累積類似度と入力パタンi番目のフレ
    ーム時間点かつ比較パタンj番目のフレーム時間点にお
    ける類似度を用いて算出する第6処理と、 (g)前記比較パタン毎に算出されるパタン類似度の中
    で最大を与える比較パタンに付加されたカテゴリ名を結
    果として出力する第7処理と、 を具えることを特徴とする音声認識方式。
  2. (2)前記音声特徴内分ベクトルから最小自乗近似直線
    を算出し、前記音声特徴内分ベクトルの各成分を前記最
    小二乗近似直線を基準とする値に変換し、これらの成分
    間で正でかつ極大となる位置を1にしてその他の成分を
    0とするローカルピークベクトルを求め、第4処理にお
    ける音声特徴正規化内分ベクトルとしてこのローカルピ
    ークベクトルで表現したものを用いることを特徴とした
    特許請求の範囲第1項記載の音声認識方式。
JP61104765A 1986-05-09 1986-05-09 音声認識方式 Pending JPS62262897A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61104765A JPS62262897A (ja) 1986-05-09 1986-05-09 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61104765A JPS62262897A (ja) 1986-05-09 1986-05-09 音声認識方式

Publications (1)

Publication Number Publication Date
JPS62262897A true JPS62262897A (ja) 1987-11-14

Family

ID=14389573

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61104765A Pending JPS62262897A (ja) 1986-05-09 1986-05-09 音声認識方式

Country Status (1)

Country Link
JP (1) JPS62262897A (ja)

Similar Documents

Publication Publication Date Title
US4918735A (en) Speech recognition apparatus for recognizing the category of an input speech pattern
CN111292764B (zh) 辨识系统及辨识方法
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
US11475907B2 (en) Method and device of denoising voice signal
TW490655B (en) Method and device for recognizing authorized users using voice spectrum information
CA2098629C (en) Speech recognition method using time-frequency masking mechanism
WO1998043237A1 (en) Recognition system
JPS5850360B2 (ja) 音声認識装置における前処理方法
US4426551A (en) Speech recognition method and device
US20050010406A1 (en) Speech recognition apparatus, method and computer program product
JP2002268698A (ja) 音声認識装置と標準パターン作成装置及び方法並びにプログラム
JP2002366192A (ja) 音声認識方法及び音声認識装置
JPH02157800A (ja) 特徴抽出方式
JPH04184400A (ja) 雑音除去装置
JPS62262897A (ja) 音声認識方式
JPS62159195A (ja) 音声パタン作成方法
US5581650A (en) Learning dynamic programming
JPS6273298A (ja) 音声認識方式
JPH04369698A (ja) 音声認識方式
RU2271578C2 (ru) Способ распознавания речевых команд управления
JPS61137199A (ja) 単語音声の認識方法
JPS6273299A (ja) 音声認識方式
JPS62116997A (ja) 単語音声認識装置
Levin et al. Research of Window Function Influence on the Result of Arabic Speech Automatic Recognition
JPS5999500A (ja) 音声認識方法