JPS61267098A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS61267098A
JPS61267098A JP60108017A JP10801785A JPS61267098A JP S61267098 A JPS61267098 A JP S61267098A JP 60108017 A JP60108017 A JP 60108017A JP 10801785 A JP10801785 A JP 10801785A JP S61267098 A JPS61267098 A JP S61267098A
Authority
JP
Japan
Prior art keywords
trajectory
parameter
pattern
circuit
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60108017A
Other languages
English (en)
Inventor
平岩 篤信
雅男 渡
曜一郎 佐古
誠 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP60108017A priority Critical patent/JPS61267098A/ja
Publication of JPS61267098A publication Critical patent/JPS61267098A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 以下の順序でこの発明を説明する。
A 産業上の利用分野 B 発明の概要 C従来の技術 D 発明が解決しようとする問題点 E 問題点を解決するための手段 F 作用 G 実施例 G1 音響分析回路の説明(第1図) 02 時間正規化処理の説明 (第1図、第2図) G3 予備選択及びパターンマツチング処理の説明(第
1図、第3図、第4図) G4 予備選択の他の例の説明(第5図〜第7図) H発明の効果 A 産業上の利用分野 この発明は、前もって作成し記憶しである認識対象語の
標準パターンと、認識したい語の入力パターンとのパタ
ーンマツチングを行うことにより音声認識を行なう装置
に関する。
B 発明の概要 この発明はパターンマツチング式の音声認識装置におい
て、登録時、認識対象語の標準パターンを記憶しておく
だけでなく、認識対象語の音響パラメータ系列が描く軌
跡の軌跡長の有効範囲をも登録しておき、認識時、入力
語の音響パラメータ系列からそのパラメータ空間で描く
軌跡の軌跡長を求め、この軌跡長が、上記を効範囲内と
なる認識対象語の標準パターンのみを標準パターンメモ
リより読み出す予備選択を行ない、入力語のパターンと
の距離算出はこの予備選択により読み出された標準パタ
ーンのみ行うようにしたもので、パターンマツチング時
の距離計算の演算量の削減ができ、認識の応答時間を短
縮できる。
C従来の技術 音声は時間軸に沿って変化する現象で、スペクトラム・
パターンが刻々と変化するように音声を発声することに
よって固有の単語や言葉が生まれる。この人間が発声す
る単語や言葉を自動認識する技術が音声認識であるが、
人間の聴覚機能に匹敵するような音声認識を実現するこ
とは現在のところ至難のことである。このため、現在実
用化されている音声認識の殆んどは、一定の使用条件の
下で、認識対象単語の標準パターンと入力パターンとの
パターンマツチングを行なうことによりなす方法である
第8図はこの音声認識装置の概要を説明するための図で
、マイクロホン(1)よりの音声入力が音響分析回路(
2)に供給される。この音響分析回路(2)では入力音
声パターンの特徴を表わす音響パラメータが抽出される
。この音響パラメータを抽出する音響分析の方法は種々
考えられるが、例えばその−例としてバンドパスフィル
タと整流回路を1チヤンネルとし、このようなチャンネ
ルを通過帯域を変えて複数個並べ、このバンドパスフィ
ルタ群の出力としてスペクトラム・パターンの時間変化
を抽出する方法が知られている。この場合、音響パラメ
ータはその時系列Pi(n) (i=1. 2・・・1
、Iは例えばバンドパスフィルタのチャンネル数、n=
1.2・・・NUNは音声区間判定により判定された区
間において認識に利用されるフレーム数)で表わすこと
ができる。
この音響分析回路(2)よりの音響パラメータ時系列P
i(n)は、例えばスイッチからなるモード切換回路(
3)に供給される。この回路(3)のスイッチが端子A
側に切り換えられるときは登録モード時で、音響パラメ
ータ時系列Pi(n)が認識パラメータとして標準パタ
ーンメモ1月4)にストアされる。つまり、音声認識に
先だって話者の音声パターンが標準パターンとしてこの
メモ1月4)に記憶される。なお、この登録時、発声速
度変動や単語長の違いにより一般に各登録標準パターン
のフレーム数は異なっている。
一方、このスイッチ(3)が端子B側に切り換えられる
ときは認識モード時である。そして、この認識モード時
は、音響分析回路(2)からのそのときの入力音声の音
響パラメータ時系列が入力音声パターンメモリ(5)に
供給されて一時スドアされる。そしてこの入力パターン
と標準パターンメモ1月4)から読み出された複数の認
識対象単語の標準パターンのそれぞれとの違いの大きさ
が距離算出回路(6)にて計算され、そのうち入力パタ
ーンと標準パターンとの差が最小の認識対象単語が最小
値判定回路(7)にて検出され、これにて入力された単
語が認識される。
このように、登録された標準パターンと入力パターンの
パターンマツチング処理により入力音声の認識を行なう
ものであるが、この場合に同じ単語を同じように発声し
てもそのスペクトラムパターンは時間軸方向にずれたり
伸縮したりすることを考慮しなければならない。すなわ
ち、例えば「ハイ」という単語を認識する場合、標準パ
ターンが「ハイ」で登録されているとき、入力音声が「
ハーイ」と時間軸方向に伸びてしまった場合、これは距
離が大きく違い、全く違った単語とされてしまい、正し
い認識ができない。このため、音声認識のパターンマツ
チングでは、この時間軸方向のずれ、伸縮を補正する時
間正規化の処理を行なう必要があり、また、この時間正
規化は認識精度を向上させるための重要な処理である。
この時間正規化の一方法としてD P (Dynami
cPrograms+ing )マツチングと呼ばれる
手法がある(例えば特開昭50−96104号公報参照
)。
このDPマツチングは時間軸のずれを考慮した多数の標
準パターンを用意しておくのではなく、歪関数によって
多数の時間を正規化した標準パターンを生成し、これと
入力パターンとの距離を求め、その最小値のものを検知
することにより、音声認識をするものである。
ところで、このDPマツチングの手法を用いる場合、登
録される標準パターンのフレーム数は不定であり、しか
も全登録標準パターンと入力パターンとのDPマツチン
グ処理をする必要があり、倍量が多くなると演算量が飛
躍的に増加する欠点がある。
また、DPマツチングは、定常部(スペクトラムパター
ンの時間変化のない部分)を重視したマン、チング方式
であるので部分的類似パターン間で誤認識を生じる可能
性があった。
このような欠点を生じない時間正規化の手法を本出願人
は先に提案した(例えば特願昭59−106177号)
すなわち、音響パラメータ時系列Pi(n)は、そのパ
ラメータ空間を考えた場合、点列を描く。例えば認識対
象単語がrHAIJであるとき音響分析用バンドパスフ
ィルタの数が2個で、 Pi(n)= (PL  P2 ) であれば、入力音声の音響パラメータ時系列はその2次
元パラメータ空間には第9図に示すような点列を描く。
この図から明らかなように音声の非定常部の点列は粗に
分布し、準定常部は密に分布する。この場合、完全に音
声が定常であればパラメータは変化せず、その場合には
点列はパラメータ空間において一点に停留することにな
るが、人間は同じ音を発生しても、音声のゆらぎのため
完全な定常にはならず、図のように準定常部として、ゆ
らぎの影響がでる。
そして、以上のことから、音声の発声速度変動による時
間軸方向のずれは殆んどが準定常部の点列密度の違いに
起因し、非定常部の時間長の影響は少ないと考えられる
。そこで、この入力パラメータ時系列P 1(nlの点
列から第10図に示すように点列全体を近似的に通過す
るような連続曲線で描いた軌跡を推定すれば、この軌跡
は音声の発声速度変動に対して殆んど不変であることが
わかる。
このことから、出願人は、次のような時間軸正規化方法
を提案した。すなわち、先ず入力パラメータの時系列P
 1(nlの始端Pi(1)から終端Pi(ロ)までを
連続曲線Pianで描いた軌跡を推定する。この場合、
この軌跡の推定は例えば音響パラメータ時系列を第13
図に示すように直線近似することによって行なう。この
推定した曲線Pi(stから軌跡の長さSを求める。そ
して第11図においてO印で示すようにこの軌跡に沿っ
て所定長Tで再サンプリングする。
例えばM個の点に再サンプリングする場合、T=S/ 
(M−1)      ・・・(1)の長さを基準とし
て軌跡を再サンプリングする。
この再サンプリングされた点列を描くパラメータ時系列
をQih)(i=1.2・・・i、m=1.2・・・・
M)とすれば、このパラメータ時系列Qi(9)は軌跡
の基本情報を有しており、しかも音声の発声速度変動に
対して殆んど不変なパラメータである。
つまり、時間軸が正規化された認識パラメータ時系列で
ある。
したがって、このパラメータ時系列Qi(ロ)を標準パ
ターンとして登録しておくとともに、入力パターンもこ
のパラメータ時系列Qi(ロ)として得、このパラメー
タ時系列Qi■により両パターン間の距離を求め、その
距離が最小であるものを検知して音声認識を行うように
すれば、時間軸方向のずれが正規化されて除去された状
態で音声!!!tliが常になされる。
そして、この処理方法によれば、登録時の発声速度変動
や単語長の違いに関係なく認識バラメ−少時系列口1(
2))のフレーム数は常にMであり、その上、認識パラ
メータ時系列Qi(mlは時間正規化されているので、
入力パターンと登録標準パターンとの距離の演算は最も
単純なチェビシェフ距離を求める演算でも良好な効果が
期待できる。
また、以上の方法は音声の非定常部をより重視した時間
正規化の手法であり、DPマツチング処理のような部分
的類似パターン間の誤認識が少なくなる。
さらに、発声速度の変動情報は正規化パラメータ時系列
Qi(ホ)には含まれず、このためパラメータ空間に配
位するパラメータ遷移構造のグローバルな特徴等の扱い
が容易となり、不特定話者認識に対しても有効な各種方
法の通用が可能となる。
なお、以下、以上のような時間正規化の処理をNAT 
(Normalization Along Traj
ectory)処理と呼ぶ。
D 発明が解決しようとする問題点 ここで、NAT処理を行なう音声認識装置とDPマツチ
ング処理を行なう音声認識装置との演算量における差異
について説明すると次のようになる。
入力パターンに対する標準パターン1個当たりのDPマ
ツチング距離算出部における平均演算量をαとし、一方
NAT処理部の平均の演算量をγとし、チェビシェフ距
離算出部(NAT処理の場合は距離算出部としてチェビ
シェフ距離算出手段を用いることができる)における平
均演算量をβとしたとき、3個の標準パターンに対する
DPマツチング処理による演算量C1は C1=α・J である。また、3個の標準パターンに対するNAT処理
による演算量C2は C2−β・J−+γ である。一般に、平均演算量αは平均演算量βに対して
α)βなる関係がある。したがってγ なる関係が成り立ち、認識対象語い数が増加するに従っ
て演算量C1は演算量C2に対してC1>C2なる関係
となり、NAT処理を行なう音声認識装置によれば、演
算量を大幅に低減できる。
また、NAT処理部より得られる認識パラメータ時系列
Qi(m)はその時系列方向において一定のパラメータ
数に設定できるので、標準パターンメモ1月4)の記憶
領域を有効に利用でき、その記憶容量を比較的少なくで
きる。
このようにNAT処理を行うようにした音声認識装置に
おいては、DPマツチング処理を行うようにした音声認
識装置に比べ、入力パターンに対する標準パターン1個
当りの平均演算量の違いにより認識対象語い数の増加に
伴って演算量が低減する。
しかしながら、このNAT処理を行うようにした音声認
識装置においても、DPマツチング処理を行なう場合と
同様に入力パターンに対して全標準パターンとの距離計
算をする必要があり、演算量の絶対量は依然として多く
、このため認識の応答が比較的遅いという欠点がある。
E 問題点を解決するための手段 この発明においては、入力音声信号の音響パラメータ系
列を得る音響分析手段(2)と、この音響分析手段(2
)よりの音響パラメータ系列がそのパラメータ空間で描
(軌跡を推定し、この軌跡の軌跡長を求める軌跡長算出
手段(91)と、認識対象語の標準パターンの認識パラ
メータ系列が記憶されている標準パターンメモリ(4)
と、音響パラメータ系列に基づいて形成される入力パタ
ーンの認識パラメータ系列と上記標準パターンメモリよ
りの標準パターンの認識パラメータ系列との差を算出す
る距離算出手段(6)と、軌跡長算出手Y1(91)よ
りの入力パターンの軌跡長がその軌跡長として取り得る
可能性のある認識対象語の標準パターンのみを上記標準
パターンメモリより読み出し、距離算出手段(6)に供
給する予備選択手段(43)と、距離算出手段(6)で
算出された値の最小の標準パターンの語を検知して認識
出力を得る最小値判定手段(7)とを設ける。
F 作用 入力パターンの軌跡長により予備選択手段(43)にお
いて、すべての登録語の標準パターンのうち入力パター
ンの軌跡長がその軌跡長としてとり得る可能性のある語
の標準パターンのみが標準パターンメモリ(4)より読
み出され、この読み出された標準パターンのみと入力パ
ターンとの距離算出がなされる。
したがって、この軌跡長による予備選択の段階で、距離
算出手段(6)で入力パターンとの演算の対象となる標
準パターンの数が予め絞られるので、その分だけ絶対演
算量が少なくなるものである。
G 実施例 第1図はこの発明による音声認識装置の一実施例で、こ
の例は音響分析に16チヤンネルのバンドパスフィルタ
群を用いた場合である。
G1 音響分析回路(2)の説明 すなわち、音響分析回路(2)においては、マイクロホ
ン(1)からの音声信号がアンプ(211)及び帯域制
限用のローパスフィルタ(212)を介してA/Dコン
バータ(213)に供給され、例えば12.5kflz
のサンプリング周波数で12ビツトのデジタル音声信号
に変換される。このデジタル音声信号は、15チヤンネ
ルのバンドパスフィルタバンク(22)の各チャンネル
のデジタルバンドパスフィルタ (2211)  、 
 (2212)  、・・・・、  (22ha)に供
給される。このデジタルバンドパスフィルタ(2211
) 、  (2212) 、・・・・、  (22hs
)は例えばバターワース4次のデジタルフィルタにて構
成され、250Hzから5.5KHzまでの帯域が対数
軸上で等間隔で分割された各帯域が各フィルタの通過帯
域となるようにされている。そして、各デジタルバンド
パスフィルタ(22h) 、  (2212) 。
・・・・、  (221zs)の出力信号はそれぞれ整
流回路(2221) 、  (2222) 、・・・・
、  (222ts)に供給され、これら整流回路(2
22z) 、  (2222) 。
・・・・(2221s )の出力はそれぞれデジタルロ
ーパスフィルタ(2231) 、  (2232) 、
・・・・、  (223ts)に供給される。これらデ
ジタルローパスフィルタ(223x) 、  (223
2) 、・・・・、  (223ts)は例えばカット
オフ周波数52.8HzのFIRローパスフィルタにて
構成される。
音響分析回路(2)の出力である各デジタルローパスフ
ィルタ(2231) 、  (2232) 、・・・・
(2231G )の出力信号は特徴抽出回路(23)を
構成するサンプラー(231)に供給される。このサン
プラー(231)ではデジタルローパスフィルタ(22
31) 、  (2232) 、・・・・、  (22
3te)の出力信号をフレーム周期5.12n+sec
毎にサンプリングする。したがって、これよりはサンプ
ル時系列Aitn> (t = 1.2.  ・・・・
16; nはフレーム番号でn−1,2,・・・・、N
)が得られる。
このサンプラー(231”)からの出力、つまりサンプ
ル時系列Ai(n)は音源情報正規化回路(232)に
供給され、これにて認識しようとする音声の話者による
声帯音源特性の違いが除去される。
即ち、フレーム周期毎にサンプラー(231)から供給
されるサンプル時系列Ai(n)に対してAt(n)=
  lag (At(nl + B )       
・・・(2)なる対数変換がなされる。この(1)式に
おいて、Bはバイアスでノイズレベルが隠れる程度の値
を設定する。
そして、声帯音源特性をyixa−i+bなる式で近似
すると、このa及びbの係数は次式により決定される。
(1−16)     ・・・(3) !  (1−1) (1−16)     ・・・(4) そして、音源の正規化されたパラメータをP 1(n)
とすると、a (nl < QのときパラメータPi(
n)はpHn1=^1(n) −(a(n) ・i +
 b(nl)    ・・・(51と表される。
又、a (n)≧0のときレベルの正規化のみ行ない、
パラメータPi(n)は ・ ・ ・(6) と表される。
こうして声帯音源特性の違いが正規化されて除去された
音響パラメータ時系列Pi(n)がこの音源情報正規化
回路(232)より得られる。
この音源情報正規化回路(232)よりの音響パラメー
タPi(n)は音声区間内パラメータメモリ(8)に供
給される。この音声区間内パラメータメモリ(8)では
音声区間判定回路(24)からの音声区間判定信号を受
けて、パラメータPi(nlが、判定さた音声区間毎に
ストアされる。
音声区間判定回路(24)はゼロクロスカウンタ(24
1)とパワー算出回路(242)と音声区間決定回路(
243)とからなり、A/Dコンバータ(213)より
のデジタル音声信号がゼロクロスカウンタ(241)及
びパワー算出回路(242)に供給される。ゼロクロス
カウンタ(241)では1フレ一ム周期5.12n+s
ec毎に、この1フレ一ム周期内の64サンプルのデジ
タル音声信号のゼロクロス数をカウントし、そのカウン
ト値が音声区間決定回路(243)の第1の入力端に供
給される。パワー算出回路(242)では1フレ一ム周
期毎にこの1フレ一ム周期内のデジタル音声信号のパワ
ー、すなわち2乗和が求められ、その出力パワー信号が
音声区間決定回路(243)の第2の入力端に供給され
る。音声区間決定回路(243”)には、さらに、その
第、3の入力端に音源情報正規化回路(232)よりの
音源正規化情報が供給される。そして、この音声区間決
定回路(243)においてはゼロクロス数、区間内パワ
ー及び音源正規化情報が複合的に処理され、無音、無声
音及び有声音の判定処理が行なわれ、音声区間が決定さ
れる。
この音声区間決定回路(243)よりの判定された音声
区間を示す音声区間判定信号は音声区間判定回路(24
)の出力として音声区間内パラメータメモリ(200)
に供給される。
こうして、判定音声区間内においてメモリ (200)
にストアされた音響パラメータ時系列Pi(nlはNA
T処理回路(9)に供給される。
02 時間正規化処理の説明 NAT処理回路(9)は軌跡長算出回路(91)と補間
間隔算出回路(92)と補間点抽出回路(93)からな
る。
パラメータメモリ (200)からのパラメータ時系列
pt(n) (i=1. 2. ・−−−、16; n
=1. 2+・・・・、N)は軌跡長算出回路(91)
に供給される。
この軌跡長算出回路(91)においては音響パラメータ
時系列Pi(n)がそのパラメータ空間において前述の
第11図に示すように描く直線近似による軌跡の長さを
算出する。
この場合、■次元ベクトルal及びbi間のユークリッ
ド距離D (aL*  b+ )はPi(n)より、直
線近似により軌跡を推定した場合の時系列方向に隣接す
るパラメータ間距離S (n)は5(nl−D  (P
i (n + 1 )  、  Pi(n))(n=1
.  ・・・・、N)        ・ ・ ・(8
)と表わされる。そして、時系列方向における第1番目
のパラメータP i (1)から第n番目のベラメータ
P i (n)迄の距離5L(n)は と表わされる。なお、5L(1)−0である。
そして、全軌跡長SLは と表わされる。軌跡長算出回路(91)はこの(11)
式、(12)式及び(13)にて示す信号処理を行なう
この軌跡長算出回路(91)にて求められた軌跡長SL
を示す信号は補間間隔算出回路(92)に供給される。
この補間間隔算出回路(92)では軌跡に沿って再サン
プリングするときの再サンプリング間隔Tを算出する。
この場合、M点に再サンプリングするとすれば、再サン
プリング間隔Tは T−5L/(M−1)           ・・・ 
(11)として求められる。
この補間間隔算出回路(92)よりの再サンプリング間
隔Tを示す信号は補間点抽出回路(93)に供給される
。また、パラメータメモリ(8)よりの音響パラメータ
時系列Pi(n)も、また、この補間点抽出回路(93
)に供給される。この補間点抽出回路(93)は音響パ
ラメータ時系列P 1(11のそのパラメータ空間にお
ける軌跡、例えばパラメータ間を直線近位した軌跡に沿
って第11図において○印にて示すように再サンプリン
グ間隔Tで再サンプリングし、このサンプリングにより
得た新たな点列より認識パラメータ時系列Qi(−を形
成する。
ここで、この補間点抽出回路(93)においては第2図
に示すフローチャートに従った処理がなされ、認識パラ
メータ時系列Qi(mが形成される。
先ず、ステップ(101)にて再サンプリング点の時系
列方向における番号を示す変数Jに値1が設定されると
共に音響パラメータ時系列P i (nlのフレーム番
号を示す変数rcに値lが設定され、イニシャライズさ
れる0次にステップ(102)にて変数Jがインクリメ
ントされ、ステップ(103)にてそのときの変数Jが
(M−1)以下であるかどうかが判別されることにより
、そのときの再サンプリング点の時系列方向における番
号かりサンプリングする必要のある最後の番号になって
いるかどうかを判断する。最後の番号であればステップ
(104)に進み、再サンプリングは終了する。
最後の番号でなければステップ(105)にて第1番目
の再サンプリング点(これは必ず無音の部分である。)
から第1番目の再サンプリング点までの再サンプリング
距離DLが算出される0次にステップ(106)に進み
変数ICがインクリメントされる0次にステップ(10
7)にて再サンプル距離DLが音響パラメータ時系列P
i(n)の第1番目のパラメータPi(1)から第1C
番目のパラメータPiooまでの距離SL(ト)よりも
小さいかどうかにより、そのときの再サンプリング点が
軌跡上においてそのときのパラメータPiooよりも軌
跡の始点側に位置するかどうかが判断され、始点側に位
置していなければステップ(106)に戻り変数ICを
インクリメントした後再びステップ(107)にて再サ
ンプリング点とパラメータPi(ゆとの軌跡上における
位置の比較をし、再サンプリング点が軌跡上においてパ
ラメータPi(ゆよりも始点側に位置すると判断された
とき、ステップ(108)に進み認識パラメータQim
が形成される。
即ち、第1番目の再サンプリング点による再サンプリン
グ距jllDLからこの第1番目の再サンプリング点よ
りも始点側に位置する第(IC−1)番目のパラメータ
P i (IC−t)による距離S L(IC−vを減
算して第(IC−1)番目のパラメータP i (Ic
−1)から第1番目の再サンプリング点迄の距離SSを
求める。次に、軌跡上においてこの第1番目の再サンプ
リング点の両側に位置するパラメータP 1ac−11
及びパラメータPi(w間の距離5(n)(この距離S
 (nlは(11)式にて示される信号処理にて得ら°
れる。)にてこの距離SSを除算し、この除算結果SS
/ S (IC−1)に軌跡上において第1番目の再サ
ンプリング点の両側に位置するパラメータPiooとP
 i oc−1)との差(PinローP i ac−1
))を掛算して、軌跡上において第1番目の再サンプリ
ング点のこの再サンプリング点よりも始点側に隣接して
位置する第(IC−1)番目のパラメータP 1(IC
−13からの補間量を算出し、この補間量と第1番目の
再サンプリング点よりも始点側に隣接して位置する第(
IC−1)番目のパラメータP i ac−1)とを加
算して、軌跡に沿う新たな認識パラメータQiのが形成
される。
このようにして始点及び終点(これらはそれぞれ無音で
あるときは旧(1) −Pi(o) −0、Qim −
Pian−0である。)を除<  (M−2)点の再サ
ンプリングにより認識パラメータ時系列Qi(ロ)が形
成される。
G3 予備選択及びパターンマツチング処理の説明 このNAT処理回路(9)よりの認識パラメータ時系列
Qiに)はモード切換回路(3)に供給されるとともに
軌跡長算出回路(91)よりの算出軌跡長を示す信号が
モード切換回路(31)に供給される。
そして、登録時においては認識パラメータ時系列は標準
パターンメモリ(4)にストアされるとともに、軌跡長
算出回路(91)よりの軌跡長は軌跡長メモリ (41
)にストアされる。
そして、この例においてはこの認識対象語のすべてのも
のの登録が終了すると、軌跡長辞書作成手段(42)に
よりメモリ (41)に記憶された軌跡長に基づいて所
定の長さ範囲の軌跡長に対してどの語の標準パターンを
標準パターンメモリ(4)より読み出すかの軌跡長辞書
が作成される。
この例の場合、次のようにして辞書が作成される。
すなわち、メモリ (41)に記憶されているすべての
軌跡長からその最大値と最小値を求め、この最大値と最
小値との間を例えばn等分してn個の軌跡長範囲を形成
し、各範囲に属する軌跡長の語を登録して辞書を作成す
る。例えば、最大値が600で、最小値が200であっ
て、範囲長が50である場合、第3図に示すように■■
・・・・@の軌跡長範囲が定まり、各範囲のデータとそ
の各範囲に属する語A、B、C,D、 ・・・・のデー
タ(例えば6語A。
B、C,D、  ・・・・の標準パターンメモリ(4)
のアドレスデータ)が軌跡長メモリ (41)にストア
される。
次に、音声認識時は以下のようにして、軌跡長辞書を用
いた予備選択が行なわれた後、パターンマツチング処理
がなされる。
すなわち、第4図は予備選択のフローチャー1・で、軌
跡長算出回路(9工)よりの入力語の音響パラメータの
軌跡長SLがモード切換回路(31)を介して予備選択
手段(43)に供給される(ステップ(201) ’)
 、次にメモリ(41)より0番の軌跡長範囲が読み出
される(ステップ(202) )。すなわち、始めは■
の軌跡長範囲が読み出される。次に入力の軌跡長SLが
この■の範囲内であるかどうか判別され(ステップ(2
03) ) 、範囲内でなければ、軌跡長範囲が0番の
もの、つまり最後のものであるか否か判別され(ステッ
プ(204) )、0番の範囲でなければ、ステップ(
202)に戻り、次の0番、例えば0番の範囲内に、そ
の軌跡長SLがはいるかどうか判別される。
そして、ステップ(203)で軌跡長SLが0番の軌跡
長範囲内として判別されると、その0番の軌跡長範囲の
登録語のアドレスデータがメモリ (41)より読み出
され、これが予備選択回路(43)を介して標準パター
ンメモリ(4)に供給されて、これよりは0番の軌跡長
範囲の登録語のみが読み出され(ステップ(205) 
) 、距離算出回路(6)に供給される。
ステップ(203)において、0〜0番のすべての軌跡
長範囲に、入力の軌跡長SLがはいらなかったときは、
ステップ(204)でそれが判別され、入力語は登録語
ではないと判別されてリジェクト信号が端子(44)に
得られ、標準パターンと入力パターンとの距離の差の演
算はなされず、例えば認識不能の表示がされる。
以上のように予備選択され、すべての標準パターンから
絞り込まれて読み出された標準パターンは、以下のよう
にして入力パターンとパターンマツチングされる。
すなわち、NAT処理回路(9)にてNAT処理されて
得られた認識パラメータ時系列Qi−はモード切換回路
(3)を介して距離算出回路(6)に供給されて、予備
選択された標準パターンとの距離の算出がなされる。
この場合の距離は例えば簡易的なチェビシェフ距離とし
て算出される。この距離算出回路(6)より゛の各標準
パターンと入力パターンとの距離の算出出力は最小値判
定回路(7)に供給され、距離算出値が最小となる標準
パターンが判定され、この判定結果により入力音声の認
識結果が出力端(70)に得られる。
なお、登録時、軌跡長範囲を定めておき、登録される標
準パターンの軌跡長がどの範囲になるかを求め、その求
めた範囲に応じて登録標準パターンの書き込みアドレス
を決定するようにすれば軌跡長辞書は標準パターンの登
録とともに作成することができる。
G4 予備選択の他の例の説明 第5図〜第7図はこの発明装置の予備選択の他の例を説
明するための図である。
第5図はその要部のブロック図で、認識時、FJAT処
理回路(9)からの認識パラメータ時系列と後述のよう
にして予備選択された標準パターンのパラメータ時系列
との距離が距離算出回路(6)において算出され、最小
値判別回路(7)においてその距離の最小値が判別され
て認識出力が出力端(70)に得られるのは前述の例と
同様である。
この例においては、登録時、1つの語を複数回入力し、
標準パターンとしては、そのオア(論理和)をとった統
合パターンを登録する。もちろん、すべてを登録しても
よい。
そして、軌跡長算出回路(91)よりの算出軌跡長SL
がモード切換回路(31)を介して最大値、最小値検出
回路(52)に供給され、1つの語の複数回入力時にお
ける軌跡長の最大値Max及び最小値Minが検出され
る。そして、その最大値Maに及び最小値Minが、メ
モリ(53)に標準パターンメモ1月4)に登録される
各語のアドレスに関連づけて第6図のように書き込まれ
る。
認識時は、第7図のフローチャートにしたがった予備選
択がなされる。
すなわち、先ず、メモリ (53)のアドレスがイニシ
ャライズされる(ステップ(301) )。そして、軌
跡長算出回路(91)からの入力語の算出軌跡長SLが
モード切換回路(31)を介して予備選択回路(51)
に供給される(ステップ(302) ) 。
一方、メモリ (53)のアドレスがインクリメントさ
れ(ステップ(303) ) 、先ず、初めのアドレス
が指定されて、記憶されている軌跡長の最大値Maxと
最小値Minが読み出され、これが予備選択回路(51
)に供給される。そして、算出軌跡長SLが最小値Mi
nより大きいかどうか判別され(ステップ(305) 
”) 、大きければステップ(306)に進み、算出軌
跡長SLが最大値Maxより小さいかどうか判別され、
小さければ、従ってMin≦SL≦MaXであればステ
ップ(307)に進み、その最大値及び最小値を持つ標
準パターンがメモリ(4)より読み出され距離算出回路
(6)に供給される。
次にアドレスがインクリメントされ(ステップ(308
) ) 、アドレスがメモリ (53)の最後のものに
なるまで、Min≦SL≦Maxとなるような最大値及
び最小値を持つ標準パターンが検出されメモリ(4)よ
り読み出される(ステップ(305)〜ステップ(30
7) )。
そして、アドレスがメモリ (53)の最後になったこ
とが判別されると(ステップ(309) ) 、予備選
択は終了する。
一方、ステップ[305)で算出軌跡長SLが最小値M
inより小さいと判別され、あるいはSL≧Minであ
ってもステップ(306)で、軌跡長SLが最大値Ma
xよりも大きいと判別されたときは、ステップ(303
)に戻り、次のアドレスの登録標準パターンの軌跡長の
最大値Max及び最小値Minが読み出され、前述と同
様にMax≧SL≧Minであるかどうか判別され、そ
うであればその標準パターンがメモリ(4)より読み出
され(ステップ(305)〜(309) ) 、そうで
なければ、ステッープ(303)に戻り、これがくり返
される。
そして、すべてのアドレスより最大値Max s最小値
Minが読み出されてもMin≦SL≦Maxとなるこ
とがなかったときはステップ(304)でそれが判別さ
れ、パターンマツチングを行なわないものとされ、それ
を示すリジェクト信号が予備選択回路(51)より端子
(54)に導出される。
こうして、予備選択により、軌跡長として取り得る可能
性のある標準パターンのみがメモリ(4)より読み出さ
れ、すべての標準パターンとマツチング処理する場合に
比べて演算量が少なくなるものである。
なお、以上の実施例においては音響パラメータ時系列P
i(n)からそのパラメータ空間における軌跡の軌跡長
を算出した場合について述べたが、音響パラメータ周波
数系列からそのパラメータ空間における軌跡の軌跡長を
算出するようにしてもよい。
また、上述の実施例においては直線近似による軌跡の軌
跡長を算出するようにしたが、円弧近似、スプライン近
似などによる軌跡の軌跡長を算出するようにしてもよい
さらに、上述の実施例においては音響分析部(2)の音
響パラメータ時系列Pi(n)をNAT処理部(9)に
供給し、このNAT処理部(9)の軌跡長算出回路(9
1)において算出した軌跡長を用いて予備選択した場合
について述べたが、SAT処理部(9)の軌跡長算出回
路(91)とは別途に軌跡長算出回路を設け、その別の
軌跡長算出回路にNAT処理部(9)よりの新たな認識
パラメータ時系列Qih)を供給し、そのパラメータ空
間における軌跡の軌跡長を算出し、この軌跡長に基づい
て予備選択するようにしてもよい。
さらに、DPマツチング処理を行うようにした音声認識
装置においても、音響分析部(2)の音響パラメータ系
列を軌跡長算出回路に供給し、この軌跡長算出回路より
の軌跡長に応じて標準パターンを選択するようにしても
DPマツチング処理のための演算量を少なくすることが
できる。
なお、以上の例においては予備選択により標準パターン
メモリよりの標準パターンの読み出しを制御して距離算
出手段に供給する標準パターンを絞り込むようにしたが
、距離算出手段の入力段で標準パターンを予備選択出力
によりゲートしてもよいし、また、予備選択により距離
算出の必要の標準パターンは入力パターンとの距離算出
時に排除して距離算出しないようにしてもよい。
H発明の効果 以上のようにこの発明によれば入力語の音響パラメータ
系列の軌跡を推定して、その軌跡長を求め、この軌跡長
を取り得る登録語の標準パターンのみを標準パターンメ
モリより読み出して予備選択し、この予備選択によりす
べての登録標準パターンより絞り込まれた標準パターン
を距離算出回路に供給して、入力パターンとの距離算出
をなすようにしたので、距離算出時の演算量を低減する
ことができる。
したがって、認識時の応答がその演算量の減少の分だけ
短かくなり、早くなるものである。
また、入力語が認識対象語でないときは、予備選択の段
階がそれを検出してリジェクト信号を得ることができ、
迅速に応答できるという利点もある。
【図面の簡単な説明】
第1図はこの発明装置の一実施例のブロック図、第2図
及び第4図はその要部の動作の説明のためのフローチャ
ートを示す図、第3図は軌跡長辞書のメモリ内容の一例
を示す図、第5図はこの発明装置の要部の他の例のブロ
ック図、第6図はその説明に供する図、第7図はその要
部の動作の説明のためのフローチャート、第8図は音声
認識装置の基本構成を示すブロック図、第9図〜第11
図はNAT処理を説明するための図である。 (2)は音響分析回路、(4)は標準パターンメモリ、
(6)は標準パターンと入力パターンとの距離算出回路
、(7)は最小値判定回路、(9)はSAT処理回路、
第4図 fat杖!LWJずターン(ツテシγ部祷アOツク図第
5図 第6図 バラを一タtXI+=ti<!+?Jaイ烈【毛1図第
9図 バラメーク壁間に橿(初1駁め4’Jrt示7z第10
図 p〕 11皇1イ\kによ・シ〒電1ヒL1ヒ学六1A−九イ
デj寂1ミ11コ〕第11図 手続補正書 昭和60年 7月22日 特許庁長官  宇 賀 道 部   殿昭和60年 特
 許 願 第108Q 17号2°8”1     音
声認、装置 3、補正をする者 事件との関係   特許出願人 住 所 東京部品用8北品用6丁目7番35号名称(2
18)ソニー株式会社 代表取締役 大 賀 典 雄 4、代理人 に訂正する。 (2)  同、第32頁10行〜12行「一方、・・・
指定されて、」を「また、リジェクトフラグがオンにセ
ットされる(ステップ(303) ”)。 次に、アドレスが指定されたメモリに」に訂正する。 (3)  同、同頁16行r (305) Jをr (
304) Jに、r (306) Jをr (305)
 Jに、それぞれ訂正する。 (4)同、同頁19行r (307) Jをr (30
6) Jに訂正する。 (5)  同、第33頁1行「供給される。」の後に「
また、リジェクトフラグをオフにする(ステップ(30
7) ) 、 Jを加入する。 (6)  同、同頁6行r (305) Jをr (3
04) Jに訂正する。 (7)同、同頁7行r(307)Jをr (309) 
Jに訂正する。 (8)同、同頁11行r(305)Jをr (304)
 Jに訂正する。 (9)  同、同頁13行r (306) Jをr (
305) Jに訂正する。 α〔同、同頁15行〜第34頁1行r(303)に戻り
・・・くり返される。」をr(30B)に進み、アドレ
スがインクリメントされる。」に訂正する。 (11)同、第33頁1行r (304) Jをr (
310) Jに訂正する。 (12)同、同頁7行「導出される。」を「導出される
(ステップ(311) )。」に訂正する。 (13)図面中、第1図を別紙朱書きのように訂正する
。 (14)同、第7図を別紙のように訂正する。 以上 ■工区 スタート 7ドレス イニンルセツト ζLセット リソ1タト7ラクゝ ON       より SL=:Min   h ? 寵 SL < Max  ′y。 ?305 率、ぐター リジェクトフラグ FF

Claims (1)

  1. 【特許請求の範囲】 (a)入力音声信号の音響パラメータ系列を得る音響分
    析手段と、 (b)この音響分析手段よりの音響パラメータ系列がパ
    ラメータ空間で描く軌跡を推定し、この軌跡の軌跡長を
    求める軌跡長算出手段と、 (c)認識対象語の標準パターンの音響パラメータ系列
    が記憶されている標準パターンメモリと、(d)入力パ
    ターンの音響パラメータ系列と上記標準パターンメモリ
    より読み出される標準パターンの音響パラメータ系列と
    の差を算出する距離算出手段と、 (e)上記軌跡長算出手段よりの入力パターンの軌跡長
    を、その軌跡長として取り得る可能性のある認識対象語
    の標準パターンのみと上記入力パターンとの距離を上記
    距離算出手段において算出させるようにする予備選択手
    段と、 (f)上記距離算出手段で算出された値の最小の標準パ
    ターンの語を検知して認識出力を得る最小値判定手段と
    からなる音声認識装置。
JP60108017A 1985-05-20 1985-05-20 音声認識装置 Pending JPS61267098A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60108017A JPS61267098A (ja) 1985-05-20 1985-05-20 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60108017A JPS61267098A (ja) 1985-05-20 1985-05-20 音声認識装置

Publications (1)

Publication Number Publication Date
JPS61267098A true JPS61267098A (ja) 1986-11-26

Family

ID=14473867

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60108017A Pending JPS61267098A (ja) 1985-05-20 1985-05-20 音声認識装置

Country Status (1)

Country Link
JP (1) JPS61267098A (ja)

Similar Documents

Publication Publication Date Title
JPS59121100A (ja) 連続音声認識装置
JPH0561496A (ja) 音声認識装置
JPS6128998B2 (ja)
JPS61267098A (ja) 音声認識装置
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
JPS61275799A (ja) 音声認識装置
JP2658104B2 (ja) 音声認識装置
JPS61176997A (ja) 音声認識装置
JPS61176996A (ja) 音声認識装置
JPS61208097A (ja) 音声認識装置
JPS61174600A (ja) 音声認識装置
JPS62136700A (ja) 音声認識装置
JPS62113197A (ja) 音声認識装置
JPH0316038B2 (ja)
JPS58139199A (ja) 音声自動認識装置
JPS62131299A (ja) 音声標準パタン自動作成装置
JPS59124390A (ja) 候補削減音声認識方式
JPH0731506B2 (ja) 音声認識方法
JPS63259689A (ja) 音声認識応答装置
JPS6069694A (ja) 語頭子音のセグメンテ−ション法
JPH0634181B2 (ja) 音声認識装置
JPS63257797A (ja) 音声始端検出装置
JPH053596B2 (ja)
JPS6310440B2 (ja)
JPS61275899A (ja) 音声認識装置