JPS6273299A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPS6273299A
JPS6273299A JP21341885A JP21341885A JPS6273299A JP S6273299 A JPS6273299 A JP S6273299A JP 21341885 A JP21341885 A JP 21341885A JP 21341885 A JP21341885 A JP 21341885A JP S6273299 A JPS6273299 A JP S6273299A
Authority
JP
Japan
Prior art keywords
pattern
audio
voice
noise
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP21341885A
Other languages
English (en)
Inventor
森戸 誠
田部井 幸雄
山田 興三
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP21341885A priority Critical patent/JPS6273299A/ja
Priority to US06/909,957 priority patent/US4852181A/en
Priority to EP86113175A priority patent/EP0219712B1/en
Priority to DE8686113175T priority patent/DE3683343D1/de
Publication of JPS6273299A publication Critical patent/JPS6273299A/ja
Priority to US07/295,194 priority patent/US4918735A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は認識精度の良い音声認識方式に関する。
(従来の技術) 従来より、情報及び通信機器の入力の効十化、システム
機能の向上等を図る目的のため、音声認識に関しての研
究開発が進められている。この音声認識を行う一般的な
方法にパタンマツチング法がある。
先ず、この発明の説明に先立ち、第6図を参照して従来
のパタンマツチング法につき説明する。
第6図において、lOは音声入力端子、11は音声分析
部、12は区間検出部、13は入力メモリ部、14は比
較パタンメモリ部、15は類似度計算部、16は判定部
、17は出力端子である。
この従来の認識方式においては、音声入力端子10に入
力した入力音声を音声分析部11において特徴を表わす
ベクトルの時系列パタン(以下、音声パタンと称する)
に変換する。この音声パタンは、一般に、中心周波数の
異る2個のバンドパスフィルタ群によって抽出された帯
域内周波数成分を時間間隔TO(例えば8ミリ秒)毎に
標本化(以下、サンプリングと称する)することによっ
て得ている。一方、この音声分析部11において、音声
パタンに対応する時間点における音声1ノクワーを算出
する。この音声分析部11において算出された音声パタ
ンを入力メモリ部13に逐次格納すると共に、音声パワ
ーを区間検出部12へ出力する。
区間検出部12では、音声分析部11からの音声パワー
に基づき、音声区間すなわち音声の始端及び終端を決定
する。この音声パワーによる音声の始端及び終端の決定
アルゴリズムについては、特願昭59−108668号
に開示されているような複雑なアルゴリズム、音声パワ
ーが閾値以上となった時点を音声の始端、閾値未満とな
った時点を音声の終端と考える簡易なアルゴリズムその
他のアルゴリズム等があり、いずれかの適切なアルゴリ
ズムで区間検出を行っている。この区間検出部12で決
定された始端及び終端間の音声パタンを入力メモリ部か
ら読出して類似度計算部15へ送る。一方、この類似度
計算部15には比較パタンメモリ14から比較パタンを
別途入力させている。この比較パタンは認識対象となる
単語(以後カテゴリと称する)に対し音声パタンと同一
な音声分析処理を施したベクトルの時系列パタンであり
、予め比較パタンメモリ部14に格納しておく。
この格納に当り、比較パタンを作成するが、その作成は
認識目的によって異る0例えば、話者を限定した認識方
式の場合には、限定された話者が発声した音声を周波数
分析部11を用いて又はこれと同等な音声分析処理を施
して得られた音声パタンを比較パタンとして比較パタン
メモリ部14に格納する。
類似度計算部15では、音声パタンと比較パタンとの間
の類似度計算を行う、この類似度計算には例えば文献(
「沖電気研究開発118号」、48、(3)(昭和57
年12月)第53頁〜第58頁)に開示されている重み
付は線形マツチング法と呼ばれている方法又はその他の
適切な方法を用いている。
この類似度計算部15から出力されるカテゴリ毎の類似
度を用いて1判定部16では、その最大類似度を与える
比較パタンに与えられたカテゴリ名を認識結果として出
力する。
以上が従来のパタンマツチング法による音声認識方式の
概略である。
(発明が解決しようとする問題点) 上述した従来の認識方式は、音声のスペクトルの形状を
与える音声パタンと、予め同一分析処理によって算出さ
れた比較パタンとの相違を類似度という尺度から評価し
、最大の類似度を与える比較パタンのカテゴリ名を認識
結果とする方法であった。従って、音声パタンのカテゴ
リと比較パタンのカテゴリとが同じ場合はその類似度は
大きく、異なる場合にはその類似度は小さくなるもので
あった・ しかしながら、音声のスペクトルの形状が音声以外の要
因例えば外部の雑音により歪んだ場合にはたとえ同一カ
テゴリといえどもその両者の類似度が大きくなるとはい
えなくなる。
また、従来の認識方式では、演算処理に時間が掛り、し
かも、大きな記憶容量を必要とするので、これを実施す
る装置の構造が大型となるという問題点があった。
この発明の目的はこのような従来の問題点に鑑み、雑音
環境下でも認識精度の良い音声認識方式を提供すること
にある。
この発明の他の目的は、装置として構成する場合、構造
が筒中かつ小型となるように、演算処理速度が速く、し
かも、記憶容量が小さくて済む音声認識方式を提供する
ことにある。
(問題点を解決するための手段) 上述した目的の達成を図るため、この発明の音声認識方
式においては次のような手段を採る。
(a)先ず、入力音声の周波数成分を複数のバンドパス
フィルタによって抽出し、その出力を一定時間間隔To
(音声フレームと称する)で標本化して特徴ベクトルを
算出する。
(b)また、予め雑音のみと分っている所定の雑音区間
における特徴ベクトルを時間平均して得られる雑音パタ
ンを算出する。
(C)この雑音パタン抽出以後は特徴ベクトルから雑音
パタンを減じて音声特徴ベクトルを算出する。
(d)音声フレームイσに前述の音声特徴ベクトルから
最小二乗近似直線を算出し、この最小二乗近似直線を基
準にして周波数軸方向で極大となるチャネルに対応する
成分を1にして得られるローカルピークベクトルを算出
する。
(e)この音声特徴ベクトルから当該音声フレームにお
けるフレーム電力を算出し、このフレーム電力の始端と
終端とを算出する。
(f)この始端から終端までの音声フレーム毎に算出さ
れたローカルピークベクトルを一定音声フレーム長にな
るように時間軸線形伸縮する。
(g)登録処理時に認識対象語の音声毎に対し、入力音
声に対して行われる前述の(a)〜(f)項の各処理に
対応する処理を行って比較パタンを作成する(登録処理
と称する)。
(h)認識処理後に発声した音声に対して前述の(a)
〜(f)項までの処理によって求められた入力パタンと
比較パタンとの間で線型なマツチング処理を行って比較
パタンと入力パタンとのパタン類似度を算出する。
(i)こめ比較パタン毎に算出されるパタン類似度の中
で最大の類似度を与える比較パタンに付加されたカテゴ
リ名を認識結果とする処理を行う。
以上のようにして、入力音声を認識した結果が得られる
上述した(a) 、 (b) 、 (c)項の処理は高
雑音化における入力に対して音声のみを抽出するための
処理であり、かつ、高雑音下において困難とされている
(e)項の音声区間検出処理を容易ならしめる処理であ
る。
また、(d)項によって算出したローカルピークベクト
ルを(h)項、(i)項の類似度算出に用いることによ
り高雑音環境下における認識性能を向上させている。そ
れは、従来のようなスペクトルの形状を与えるベクトル
を類似度算出に用いずに、音声スペクトルのピークを与
える位置によって算出されるローカルピークベクトルを
類似度算出に用いているからである。従って、雑音が混
入した場合、スペクトルの形状は大きく変わるがスペク
トルのピークの位置は変わらないことに基づいている。
(作用) 次に、この発明の作用につき説明する。
この発明の音声認識方式を達成するための機能は第1図
に示す各処理部によって構成される。
以下、その詳細な処理につき説明する。
音声はマイクロフォンを通じて電気信号に変換し、増幅
器(図示せず)、ローパスフィルタ(図示せず)を経て
A/D変換器(図示せず)に送り、そこで例えば83マ
イクロ秒毎に標本化(サンプリング)した後、入力端子
21に入力させる。
以下、前述の各項につき説明する。
[(a)項の特徴ベクトル算出処理] 入力端子21に入力した音声のデータの周波数分析を特
徴ベクトル算出部22によって行い、音声フレーム時系
列の特徴ベクトルに変換する。
この特徴ベクトル算出部22には、周波数分析のための
、第2図に示すような夫々中心周波数が異なる特性を個
々に有する複数のバンドパスフィルタと、ローパスフィ
ルタと、音声フレーム毎にサンプリングを行うサンプリ
ング手段(それぞれ図に示していない)とを具えている
各バンドフィルタによって音声からその中心周波数の成
分のみを抽出する。このようにして各バンドフィルタに
よって分けられたデータの系列をチャネルと称する。各
チャネル毎のバンドパスの出力に対して絶対値化演算を
施した後、ローパスフィルタに入力させる。各チャネル
毎のローパスフィルタ出力をサンプリング手段によって
音声フレームの周期毎に再サンプルして特徴ベクトルの
成分を得る。
今i番目の音声フレームにおけるにチャネルのに ローパスフィルタの出力をal  とすると、i番目の
音声フレームにおける特徴ベクトルai  はa=(a
l、a!’、−、aL・=、a”IL       l
     l と表現することが出来る。ここで、Kはチャネル数であ
る。
[(b)項の雑音パタン算出処理] この処理は雑音パタン算出部23で行う。雑音のみが入
力されていて音声が入力されていない区間を例えば連続
して10音声フレーム(音声フレーム数は木質ではない
)設定し、これを雑音期間と称する。
雑音区間の特徴ベクトルは雑音のスペクトル形状を表わ
すもので、これを特に雑音ベクトルと称し、町 と表現
するつ ところで、雑音区間内における雑音のスペクトルの平均
値を によって算出し、この平均値を雑音パタンと称する。
雑音パタンNの成分をNk  とすると。
叶= (Nl 、 N2.・・ Hk、・・・ HK 
Hとなる。
[(C)項の音声特徴ベクトル算出処理]この処理を音
声特徴ベクトル算出部24で行う。
雑音区間以降、すなわち雑音パタン算出以降は特徴ベク
トル算出部22から出力される特徴ベクトルa1  か
ら雑音パタン算出部23からの雑音パタンNを減じ、音
声特徴ベクトル わ’  ”  ’  b>  、 b>  +  ”’
  +  bし ”’  +  ”’  1を次式によ
って算出する。
この処理部24における処理は高雑音環境化における音
声認識の性能を向上するための手法であり、雑音が比較
的に定常的に続いている場合に効果を発揮する。
[(d)項のローカルピークベクトル算出処理]この処
理をローカルビーク算出部25で行う。
音声特徴ベクトル算出部24から送出される音声特徴ベ
クトルToi  をローカルピークベクトル算出部25
においてローカルピークベクトル町 に変換する。
この変換処理につき第3図(A)〜(C)を参照して説
明する。
音声特徴ベクトルToj  の各成分す、は次式により
対数変換される。
第3図(A)にこの音声特徴ベクトル成分の対数変換X
1(k)の例を示し、横軸にチャネル番号kを及び縦軸
にXl  (k)をそれぞれプロットして示す、この図
により、i番目の音声フレームにおける音声の対数スペ
クトルの形状が表わされている。
次に、次式によって学えられる最小二乗近似直線 を用いて正規化を行う。
Zt (k) = x、 (k) −Yl (k)= 
xi(k) −u、(k)−k −vi(k)    
  (51この正規化された音声特徴ベクトル成分z1
 (k)の例を第3図(8)に示す、第3図(B)にお
いて横軸にチャネル番号を及び縦軸にz4 (k)をそ
れぞれプロットして示す。
次に、次式(8)のような判断に基づいて、このzi(
k)を用いてローカルピークベクトルEiを算出する。
この(6)式の判断条件を満たすkに対してはr−ゝ=
1.満たさないkに対してはr−=oなる1     
                      。
値を成分として有するベクトルrI F1 =(r!r’、・”+rト・”+411’   
1 を算出する。このベクトルri  をローカルピークベ
クトルと称する。このローカルピークベクトルri  
の例を第3図(C)に示す。
[(e)項の音声区間検出処理] この処理を音声区間検出部26で行う。
音声フレーム毎に音声特徴ベクトル算出部24より算出
される音声特徴ベクトル帆 を用いて、当該音声フレー
ムのフレーム電力Pi  を 算 出 する。
音声区間検出部2Bにおいては、音声特徴ベクトルIb
i  から得られたフレーム電力Pi  を用いて音声
区間検出を行う。
音声区間検出のアルゴリズムについては前述したように
各種のものが提案されているが、この発明はそのアルゴ
リズム自体を目的とするものではなく、音声区間検出に
特徴ベクトルai から雑音パタンNを減じて得られた
音声特徴ベクトルlbiを用いることを目的としている
ため、ここでは説明の便宜上、フレーム電力P、が定め
られた閾値Ps以上となった音声フレームを音声の始端
I5  、音声の始端からフレーム電力P、が閾値Ps
未満となった音声フレームを音声の終端I6と考える。
第4図(A)及び(B)は入力音声を「サラポロ」とし
、これに雑音として自動車騒音を付加してS/Nを10
dBとした場合のフレーム電力特性を示す、第4図(A
)は無雑音環境下において音声特徴ベクトルToi か
ら算出したフレーム電力Piであり、(B)図は雑音環
境下において、同様な手法により特徴ベクトルai  
から算出したフレーム電力Pi′である。それぞれ横軸
に時間を及び縦軸にフレーム電力をプロットして示しで
ある。
第4図(A)及び(B)から理解出来るように、雑音パ
タンを減じている音声特徴ベクトルToi  から得ら
れるフレーム電力Pi  の変化は、音声の発せられて
いる区間と、音声の発せられていない区間との明確な区
別を有している。そのため、雑音環境下においても音声
区間検出が容易に行える。
[(「)項の線形伸縮処理] この処理を線形伸縮部27で行う、音声区間検出部28
により検出された始端I5  と終端Iε との間のロ
ーカルピークベクトルを一定音声フレーム長に時間軸線
形伸縮する。この線形伸縮部27における伸縮処理は主
として後述する線形マツチングを行い易くするためであ
り、その他に後述する比較パタンをメモリ内に格納する
際の領域管理を容易にするための処理である。
次に1時間軸線形伸縮の方法について説明する。ここで
は説明のために32音声フレームに線形伸縮する場合を
考える。始端を■s  とし終端を■、とし、線形伸縮
後の音声フレーム番号をi′(i’=1〜32)とし、
線形伸縮前の音声フレーム番号iを の式から算出し、線形伸縮前i番目の音声フレームにお
けるローカルピークベクトル曵 を線形伸縮後i′番目
の音声フレームにおけるローカルピークベクトルr、′
とする。ただしく8)式において、〔〕はガウス記号を
表わす。
結果として、始端から終端までのローカルピークベクト
ル列 1工s1工s+1°” ’i ”’ ”E−1”Eは線
形伸縮されて ’1 ’2 ”” i ”” 81  ’82なるベク
トル列となる。
以後、特にことわりがない限り線形伸縮後の音声フレー
ムの番号付けで話を進める。
[(g)項の比較パタン算出及び格納処理]この処理を
比較パタン格納部28で行う。
話者を限定する特定話者認識方式においては、認識対象
となる単語(以下、カテゴリと称する)を予め発声し、
その単語を表現するためのパタン(比較パタンと称する
)を予め格納しておく必要がある。比較パタン格納部2
8では、このような比較パタンか格納されている。以下
、この比較パタンの作成方法につき説明する。この比較
パタンを作成する処理を登録処理と称する。
ここで説明のためカテゴリの数をM個とする。
また、同一カテゴリを数回発声し、それぞれのパタンの
平均をとることにより比較パタンを作成する方法もある
が、この例では一回のカテゴリの発声に対して比較パタ
ンを作成するものとする。
比較パタンを作成するために用いられる音声を学習音声
と称する。
今、ディジタル化されたm番目の学習音声を入力端子2
1から特徴ベクトル算出部22へと送り学習音声の特徴
ベクトルを算出する。一方、雑音ノくタン算出部23に
は、前もって学習音声が入力されていないときの雑音パ
タンか抽出されている。従って、音声特徴ベクトル算出
部24において、特徴ベクトル算出部22からの特徴ベ
クトルから雑音ノくタン算出部23からの雑音パタンを
減算し、学習音声の音声特徴ベクトルを算出する。
次に、この音声特徴ベクトルをローカルピークベクトル
算出部25においてローカルピークベクトルに変更する
一方、音声区間検出部26において、学習音声の電力を
計算し、始端及び終端を検出する。
次に、線形伸縮部27において、時間的線形伸縮処理が
施され、32フレーム長のローカルピークベクトル列に
変換される。この学習音声のローカルピークベクトルを
特に比較ローカルピークベクトルと称し、これを□Sj
  で表わす。
m5j=(ms、 l ms、 l ”’ + ms、
 I ・・・r ms、 1また、比較ローカルピーク
ベクトルのベクトル列によって表わされるパタンをSア
と表わし、これを比較パタンと称する。
各カテゴリ名毎の比較パタンSユを対応するカテゴリ名
C□と一緒に比較パタン格納部28に格納する。
既に説明したように、線形伸縮処理によって比較パタン
S7.Iの大きさは一定となっているため、複数個の比
較パタンを格納する際のメモリのアドレス管理が極めて
容易となる。
[(h)項の線形マツチング] この処理を線形マツチング部29で行う。
上述したような比較パタンを作成する登録処理に対して
、認識動作を行うときの処理を認識処理と称する。そこ
で、認識処理時に入力される音声を入力音声と称する。
この入力音声の音声区間も音声区間検出部26で算出さ
れる。
また、入力音声に対しても前述した(a)項から(f)
項と同一・又は類似の処理を行ってローカルピークベク
トルlr4  (入力ローカルピークベクトルと称する
)を求める。
このようにして、始端から終端まで入力ローカルピーク
ベクトルの時系列によって表現される入力音声のパタン
を入力パタンと称し、これをRで表現する。
また、既に説明したように、m番目の比較パタンSm 
が始端から終端までの時系列として表現され、比較パタ
ン格納部28に格納されている。
次に、入力パタンRと、比較パタンSm  との類似性
を算出する処理につき説明する。
パタンの類似性を算出する方法としては非線形なりPマ
ツチング法などがあるが、この発明では処理の簡易な線
形マツチングで行う。
32個の入力ローカルピークベクトル町 によって表わ
されている入力パタンRと、32個の比較ローカルピー
クベクトル−3によって表わされている比較パタンST
l との間のパタン類似度り、を で定義する。ここで、右肩添字tはベクトルの転置を表
わす。
[(i)項の判定処理] この処理を判定処理部30で行う、各カテゴリ毎に求ま
るパタン類似度り開 により最大値判定を行う。
最大値を与える比較パタンの番号m%4gに対応するカ
テゴリ名Cm、axを認識結果として出力端子31から
出力させる。
以上説明したところからも明らかなように、この発明の
音声認識方式においては、入力音声から雑音パタンを除
去した音声特徴ベクトルを用いてフレーム電力を算出し
、音声区間検出を行っているため、第4図(A)及び(
B)に示した、音声特徴ベクトルにより算出したフレー
ム電力η 及び無処理の特徴ベクトルにより算出したフ
レーム電力PI′の比較からも明らかなように、音声区
間検出誤りが少ない、このように4、雑音環境下におい
ても入力音声を高精度で認識することが出来る。
さらに、音声特徴ベクトルから算出したローカルピーク
ベクトルを用いてパタン類似度算出処理を行っているた
め、演算処理が極めて簡易である。
ざらに、比較パタンに関しても比較ローカルピークベク
トルを用いているため、その記憶容量を極めて少なくす
ることが出来、従って、上述した演算処理の簡易化と合
せて音声認識システムの小型化を図れる。
(実施例) 以下、この発明の実施例につき第5図を参照して説明す
る。
第5図はこの発明の音声認識方式の一実施例を実施する
ための具体的な回路構成を示すブロック図である。
第5図において、41はマイクロフォン、42は音声信
号を増幅するための増幅器、43はローパスフィルタ、
44は音声をディジタル信号に変換するA/D変換器、
45は特徴ベクトルを算出する信号処理プロセッサ、4
8はプロセッサ、47はプロセッサのプログラムが格納
されているプログラムメモリ、48は比較パタンを格納
するための比較パタンメモリ、49は作業メモリ、50
は雑音パタンを格納するための雑音パタンメモリ、51
は認識結果を外部に出力するためのインタフェースであ
る。ただし、それぞれの構成要素間には厳密な意味では
インタフェース回路が必要であるが、ここではこれを省
略する。
止血り盈太ヱ!111 次に、この第5図を参照してこの発明の音声認識方式の
一例を説明する。
マイクロフォン41からの入力音声を増幅器42で増幅
した後、ローパスフィルタ(LPF)43においてその
低周波数成分を除去する。
次に、低周波成分が除去された入力音声をA/D変換器
44によって例えば12kHzのサンプリング周波数で
12ビツトにサンプリングする。前述のローパスフィル
タ43での処理はこのサンプリングのために必要な処理
で、従って、このフィルタとしては例えば5kHzの遮
断周波数をもつ減衰48 d B / o c tのロ
ーパスフィルタを用いる。
A/D変換器44によってサンプリングされた音声のデ
ィジタルデータを信号処理プロセッサ45によって、特
徴ベクトルに変換する。この信号処理プロセッサ45と
して例えばTI社製の32010を用いることが出来る
プロセッサ46は音声フレーム周期毎に信号処理プロセ
ッサ45から出力される特徴ベクトルを用いて処理を行
うが、その処理の内容は ■ 登録処理 ■ 認識処理 とに分けられる。以下、これらの処理についてそれぞれ
説明をする。
[登録処理] この処理は次の処理に分けられる。
雑音パタンの算出処理 音声特徴ベクトルの算出処理 比較ローカルピークベクトル算出処理 音声区間検出処理 線形伸縮及び比較パタン格納処理 以下、これらの各処理につき説明する。
(雑音パタン算出処理) 登録処理のため、例えば、10音声フレームを雑音区間
と定める。このとき、話者は発声しないで、まわりの雑
音のみをマイクロフォン41から入力するようにする。
この雑音入力を信号経路(42,43,44)を経て信
号処理プロセッサ45に送り、これより雑音ベクトルを
生じさせ、この雑音ベクトルを作業メモリ48に逐次格
納する。このメモリ48にlO音声フレーム分の雑音ベ
クトルが格納されると、これら雑音ベクトルを平均化し
てその平均値を雑音パタンメモリ50に格納する。
(音声特徴ベクトル算出処理) 雑音区間終了後、信号処理プロセッサ45から入力され
る特徴ベクトルから雑音パタンメモリ50中の雑音パタ
ンを減じることによって、音声特徴ベクトルを算出し、
これを作業メモリ48内に格納する。
この処理は音声フレーム周期毎に行われるが、音声区間
検出処理によって始端が検出されるまでの音声特徴ベク
トルは不必要であり、従って、作業メモリ49を効果的
に使用するためには適当に捨てていく。
(比較ローカルピークベクトルの算出処理)作業メモリ
49に格納されている音声特徴ベクトルを、前述した(
d)項の処理により、比較ローカルピークベクトルに変
換して作業メモリ49に格納する。この処理も、音声フ
レーム周期毎に行われる。また、始端検出以前の比較ロ
ーカルピークベクトルも適宜に捨てていく。
(音声区間検出処理) 作業メモリ48に格納されている音声特徴ベクトルから
フレーム電力を算出する。
このフレーム電力と閾値とを比較しながら音声の始端と
終端とを決定する。
(線形伸縮及び比較パタン格納処理) 作業メモリ48に格納されている比較ローカルピークベ
クトルのうち始端から終端までの比較ローカルピークベ
クトルを、(f)項の処理により時間的線形伸縮して比
較パタンメモリ48に格納する。
以−ヒ説明した登録処理による比較パタンの作成方法は
1つの比較パタンを1つの学習音声から作成しているが
、認識性能をあげるためには同−力テゴリの複数回の学
習音声から比較パタンを作成するのが良いとされている
。この場合、複数回の発声により作成された比較パタン
を1つに平均化し、比較パタンとする方法、それぞれ比
較パタンを全て持つ方法、その他の種々の方式が考えら
れるが、この発明の木質でないため詳細な説明は省略す
る。
[認識処理] この処理はさらに次の処理に分けられる。
雑音パタンの算出処理 音声特徴ベクトルの算出処理 入力ローカルピークベクトルの算出処理音声区間検出処
理 線形伸縮処理 パタン類似度算出処理 判定処理 (l音パタンの算出処理) 登録時と認定時とでは雑音の状況が変化していることも
考えられるため、雑音パタンの算出を再度行う。
この雑音パタンの算出に関しては単語入力の曲毎に行う
のが良いが、単語の入力速度が遅くなったり或いは雑音
測定中に発声し易いなどの点から、特に特別な雑音区間
を適宜設けてその区間で雑音パタンを測定する方が現実
的であろう。
登録時と同様に、あるlO音声フレームを雑音区間と定
め、このとき話者は発声しないようにする。この状態で
、まわりからの雑音のみをマイクロフォン41から入力
させて、前述と同様に信号処理プロセッサ45に送り、
これより生ずる雑音ベクトルを作業メモリ48に逐次格
納する。10¥f声フレ一ム分の雑音ベクトルを格納し
たとき、これら雑音ベクトルの平均を取って、この平均
雑音ベクトルを雑音パタンメモリ50に格納する。
(音声特徴ベクトル抽出処理) 雑音区間終了後から音声特徴ベクトルの算出は新しい雑
音パタンを用いて行われる。
信号処理プロセッサ45から入力される特徴ベクトルか
ら雑音パタンメモリ50に格納されている雑音パタンを
減じることによって音声特徴ベクトルを算出し、これを
作業メモリ49に格納する。この処理は音声フレーム周
期毎に行われる。また、後述する始端検出以前の音声特
徴ベクトルは不必要であるため適宜捨てていく。
(入力ローカルピークベクトル算出処理)作業メモリ4
8に格納されている音声特徴ベクトルを前述した(d)
項の処理により入力ローカルピークベクトルに変換して
作業メモリ49に格納する。
この処理も音声フレーム周期毎に行われる。また、始端
検出以前の入力ローカルピークベクトルも適宜捨ててい
く。
(音声区間検出処理) 作業メモリ49に格納された音声特徴ベクトルからフレ
ーム電力Pi  を算出する。このフレーム電力Pi 
 と閾値とを比較しながら音声の始端及び終端を決定す
る。
(線形伸縮処理) 作業メモリ48に格納されている始端から終端までの入
力ローカルピークベクトルを(f)項の処理により時間
的線形伸縮し1作業メモリ49に格納する。
(パタン類似度算出処理) 作業メモリ49に格納されている32個の入力ローカル
ピークベクトルと、比較パタンメモリ48に格納されて
いるカテゴリ毎32個の比較ローカルピークベクトルと
の間で、前述した(h)項におけるパタン類似度算出処
理(線形マツチング)を行い、その結果としてDTn 
を作業メモリ48に格納する。
(判定処理) 作業メモリ49に格納されているパタン類似度り電を用
いて、前述した(i)項における判定処理を行って、そ
の結果として得られたカテゴリ名Cm%a、をインタフ
ェース51に通して外部に出力させる。
(発明の効果) 上述した説明からも明らかなように、この発明によれば
、次のような効果が得られる。
■入力に対して雑音パタンを除去した音声特徴ベクトル
を用いてフレーム電力を算出し音声区間検出を行ってい
るため、音声区間検出誤りが少なく、従って、雑音環境
下においても入力音声の認識精度が従来よりも向上する
■音声特徴ベクトルから算出されたローカルピークベク
トルを用いてパタン類似度算出処理を行っているため、
この発明の音声認識方式を実施する際の演算処理が極め
て蒲易となる。
■比較パタンに関しても比較ローカルピークベクトルを
用いているため、その記憶容量は極めて小さい、従って
、上述した■の効果と合せて、この発明の認識方式を実
施するための装置の構造が簡単かつ小型となる。
【図面の簡単な説明】
第1図はこの発明の音声認識方式の認識処理を説明する
ためのブロック図。 第2図は音声分析処理に用いるバンドパスフィルタの特
性を示す図、 第3図はローカルピークベクトル算出を説明するための
説明図、 第4図はフレーム電力の様子を示す図、第5図はこの発
明の実施例を示すブロック図、第6図は従来の音声認識
方式を説明するためのブロック図である。 21・・・入力端子、    22・・・特徴ベクトル
算出部23・・・雑音パタン算出部 24・・・音声特徴ベクトル算出部 25・・・ローカルピークベクトル算出部26・・・音
声区間検出部 27・・・線形伸縮部 28・・・比較パタン格納部 28・・・線形マツチング部 30・・・判定部、     31・・・出力端子41
・・・マイクロフォン、42・・・増幅器43・・・ロ
ーパスフィルタ、44・・・A/D変換器45・・・信
号処理プロセッサ 46・・・プロセッサ、   47・・・プログラムメ
モリ48・・・比較パタンメモリ、49・・・作業メモ
リ50・・・雑音パタンメモリ 51・・・インタフェース。 手続補正書 昭和61年6月25日

Claims (1)

    【特許請求の範囲】
  1. (1)(a)入力音声を周波数分析し、該入力音声の周
    波数成分のベクトルである特徴ベクトルを音声フレーム
    と称する一定時間間隔で算出する処理と、 (b)予め雑音のみと分かっている所定の雑音区間にお
    ける前記特徴ベクトルを時間平均して得られる雑音パタ
    ンを算出する処理と、 (c)前記音声フレーム毎に算出される前記特徴ベクト
    ルから前記雑音パタンを減じて音声特徴ベクトルを算出
    する処理と、 (d)前記音声フレーム毎に、前記音声特徴ベクトルか
    ら最小二乗近似直線を算出し、最小二乗近似直線を基準
    にして周波数方向で極大となるチャネルに対応する成分
    を1にしかつその他の成分は0にして得られるローカル
    ピークベクトルを算出する処理と、 (e)前記音声特徴ベクトルから当該音声フレームにお
    けるフレーム電力を算出し、前記フレーム電力を用いて
    音声の始端と終端とを検出する処理と、 (f)前記始端から前記終端までの前記音声フレーム毎
    に算出されたローカルピークベクトルを一定音声フレー
    ム長に時間軸線形伸縮する処理と、(g)予め認識対象
    語毎に一回もしくは複数回の発声の学習音声に対し前記
    (a)項から(f)項までの処理と同一又は類似した処
    理によって比較パタンを算出し、該比較パタンを格納す
    る処理と、(h)認識させようとする入力音声に対して
    前記(a)項から(f)項までの処理により求めた入力
    パタンと前記比較パタンとの間で非線形なマッチング処
    理を行うことにより、前記入力パタンと比較パタンとの
    間のパタン類似度を算出する処理と、(i)前記比較パ
    タン毎に算出されるパタン類似度の中で最大を与える比
    較パタンに付加されたカテゴリ名を結果として出力する
    処理と を具えることを特徴とする音声認識方式。
JP21341885A 1985-09-26 1985-09-26 音声認識方式 Pending JPS6273299A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP21341885A JPS6273299A (ja) 1985-09-26 1985-09-26 音声認識方式
US06/909,957 US4852181A (en) 1985-09-26 1986-09-22 Speech recognition for recognizing the catagory of an input speech pattern
EP86113175A EP0219712B1 (en) 1985-09-26 1986-09-25 Method of and system for speech recognition
DE8686113175T DE3683343D1 (de) 1985-09-26 1986-09-25 Verfahren und einrichtung zur spracherkennung.
US07/295,194 US4918735A (en) 1985-09-26 1989-01-09 Speech recognition apparatus for recognizing the category of an input speech pattern

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21341885A JPS6273299A (ja) 1985-09-26 1985-09-26 音声認識方式

Publications (1)

Publication Number Publication Date
JPS6273299A true JPS6273299A (ja) 1987-04-03

Family

ID=16638894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21341885A Pending JPS6273299A (ja) 1985-09-26 1985-09-26 音声認識方式

Country Status (1)

Country Link
JP (1) JPS6273299A (ja)

Similar Documents

Publication Publication Date Title
EP0219712B1 (en) Method of and system for speech recognition
JPS5844500A (ja) 音声認識方式
JP3493033B2 (ja) 音声認識用回路装置
JP2002268698A (ja) 音声認識装置と標準パターン作成装置及び方法並びにプログラム
JPS6273299A (ja) 音声認識方式
JPH04184400A (ja) 雑音除去装置
JPS62159195A (ja) 音声パタン作成方法
JPS6273298A (ja) 音声認識方式
JPS6229799B2 (ja)
JPH0556520B2 (ja)
JPS62262897A (ja) 音声認識方式
JP3023135B2 (ja) 音声認識装置
JPS61137199A (ja) 単語音声の認識方法
JP3065088B2 (ja) 音声認識装置
JP2752981B2 (ja) 音声認識装置
JPS6334477B2 (ja)
JPS625298A (ja) 音声認識装置
JPS5999500A (ja) 音声認識方法
JPS625299A (ja) 音声認識装置
JPH0448400B2 (ja)
JPS62116997A (ja) 単語音声認識装置
JPH054679B2 (ja)
JPS63262695A (ja) 音声認識方式
JPH05313695A (ja) 音声分析装置
JPS61292695A (ja) 音声認識装置