JPS61170799A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPS61170799A
JPS61170799A JP60009862A JP986285A JPS61170799A JP S61170799 A JPS61170799 A JP S61170799A JP 60009862 A JP60009862 A JP 60009862A JP 986285 A JP986285 A JP 986285A JP S61170799 A JPS61170799 A JP S61170799A
Authority
JP
Japan
Prior art keywords
input
standard pattern
frame number
pattern
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60009862A
Other languages
English (en)
Inventor
高橋 圭子
森戸 誠
田部井 幸雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP60009862A priority Critical patent/JPS61170799A/ja
Priority to US06/716,154 priority patent/US4868879A/en
Publication of JPS61170799A publication Critical patent/JPS61170799A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は音声認識方法に関し、具体的には単語入力音声
の終端の確認を待たないで、入力音声の始端検出から認
識動作を開始するようにした音声認識方法に関する。
(従来の技術) 音声認識方法の一形式として、各標準音声に対応して周
波数成分のフレーム時系列として標準パターンを記憶し
ておき、入力音声から同じく周波数成分のフレーム時系
列として入力パターンを抽出し、入力パターンと各標準
パターンとの非類似度を計算し、その非類似度に基づい
て入力音声を識別する方法が知られている。
このような音声認識方法の一例は沖研究開発、第118
号、Vol、 49. No、3、(昭57−12 )
 P、 53−58に開示されている。この文献の方法
における標準又は入力の音声パターンは、通常、規則的
にフして、周波数成分のフレーム時系列として表現した
ものを用いる。
また、入力パターンと各標準パターンとの非類似度を計
算するためにマツチングパスな設定する方法としては、
動的計画法を用いたDPマツチング法と前記文献に見ら
れるような本質的に線形なマツチング法とが知られてい
る。
(発明が解決しようとする問題点) しかしながら、前記従来技術の音声認識方法では、次の
ような問題点があった。             l
即ち、構成の簡易化の観点からは、線形マツチング法が
有利であるが、第2図に例示した如く、単語の発声速度
は変動がきわめて大きく、個人差があると共に心理状態
や状況によっても変動し、標準という感覚のもとですら
20チ〜40チの発声長のばらつきが見られ、何等かの
工夫が必要である。
線形マツチング法には種々の形式が提案されているが、
前記文献に限らず、そこでは入力音声の終端を検出した
のち、マツチングパスを設定していて、認識応答の面で
は問題があり、入力パターンも始端から終端を確認する
まで記憶しておく必要がある。
従って、回路の簡易化を図るためには、始端検出後、複
数のマツチングパスによって認識処理を行う手法が考え
られる(沖研究開発、第122号、Vol、51. N
o、 1 (昭59−3 ) P、 7−12 )。こ
の方法において、発声長が極端に異なるカテゴリを間で
の認識を行う場合には、複数のマツチングパスの変動範
囲(傾き)を広くとる必要があるが、あまり広くとりす
ぎると、本来の目的である発声長のばらつきを解決する
方法とはならなくなる。したがって、発声長が極端に異
なる単語を含む場合の認識においては、何らかの処理が
必要である。
本発明はこのような従来技術の問題点を解決するために
なされたものでありて、入力音声の始端を検出して直ち
にマツチング動作を開始させることによって認識速度を
高め、且つ発声速度変動を予想してマツチングパスを設
定することによって発声速度の変動を吸収し、標準パタ
ーンごとにマツチング演算結果の判定処理を禁止する範
囲を設定して単語長の極端に異なるカテゴリの標準パタ
ーンとのマツチングを行わないことにより、認識率を向
上させることを目的とする。
(問題点を解決するための手段) 前記従来技術の問題点を解決するため、本発明の音声認
識方法は、各標準音声に対応して周波数成分のフレーム
時系列として表現された標準パターンとパス選択情報と
を記憶しておき、次のステップ(a)〜(hlまでの各
処理により認識結果を得るように構成した。
ステップ(a)では、入力音声から周波数成分のフレー
ム時系列として入力パターンを抽出する。
ステップ(b)では入力音声の始端を検出して入力パタ
ーンのフレームの計数を開始して音声フレーム番号を更
新する。ここでは無音状態を検出している間は音声フレ
ーム番号の更新を停止し、入力音声の終端を確認する以
前に有音状態を検出すると当該音声フレーム番号の更新
を再開する。
ステ、ブ(C)では音声フレーム番号の更新毎に、その
フレーム番号に本質的に線形な関係で標準パターンの複
数のフレーム番号を発生させることによって各標準パタ
ーンとの間に複数のマツチングパスを設定する。
ステップ(d)では、音声フレーム番号の更新毎に、前
記各マツチングパスで対応づけられたフレーム間で入力
パターンと各標準パターンとの距離を計算する。
ステップ(e)では、入力音声の始端から任意の音声フ
レーム番号までの前記マツチングパスに沿った前記距離
の累算値を非類似度として、音声フレーム番号の更新毎
に、直前の非類似度と当該フレーム番号での距離とを加
算して一旦記憶することによって、各標準パターン毎の
各マツチングパスに対応して非類似度を更新記憶する。
ステップげ)では、音声フレーム番号の更新毎に、音声
フレーム番号が標準パターン毎に設定されている限定閾
値よりも小さい場合は該標準パターンに対するマツチン
グパスの選択を行わないことに限定閾値に等しいか、又
は大きい場合は該標準パターンの長さに音声フレーム番
号が最も近いマツチングパスを選択し、この選択された
標準パターンのマツチングパス上の非類似度のうちで最
小値を与える標準パターンのコードを前記音声フレーム
番号の更新毎に更新記憶する。
最終ステップ(g)では、入力音声の終端を確認した時
点で、入力音声の終端の音声フレーム番号に対応して記
憶されている最小値を与える前記標準パターンのコード
を入力音声のカテゴリとして認        1識す
る。
(作 用) 本発明によれば以上のように音声認識方法を構成したの
で次のように作用する。
まず、ステップ(a)により周波数成分のフレーム時系
列として入力パターンを抽出する。ステップfb)で入
力音声の始端検出すると、入力パターンのフレームの計
数を開始し、音声フレーム番号を更新する。これにより
入力音声の始端と同時にマツチング動作を開始させるこ
とができ、認識速度が高められる。ステップ(C)によ
り標準パターン毎に発声速度変動を予想したマツチング
パスが設定される。これにより発声速度の変動を吸収す
ることができる。次に、ステップ(d)及び(e)によ
り、入力パターンの各フレーム毎のマツチングパスが行
われ各標準パターン毎の各マツチングパスに対応した非
類似度が更新記憶される。また、ステップげ)で音声フ
レーム番号、即ち音声フレーム長を限定閾値と比較して
、単語長の極端に異なるカテゴリの標準パターンを判定
処理から除外すると共に、有効な標準パターンの最小の
非類似度である標準パターンのコードが更新記憶される
。最終ステップIg)で、入力音声の終端が確認される
と、標準パターンのコードが入力音声のカテゴリとして
認識される。従って、前記従来技術の問題点が解決でき
るのである。
(実施例) まず実施例を説明するのに先だって、本発明の音声認識
方法の特徴について述べる。
本発明の第1の特徴は、入力パターンの各フレーム毎に
マツチング処理を行い、各フレーム毎に各標準パターン
の各マツチングパスに対応した非類似度を更新記憶する
ようにしたことにある。
まず、入力音声の有音状態の検出には音声パワーを用い
る方法を用いることができる。この場合音声の始端検出
はフレーム電力P(j)(但しJは入力パターンのフレ
ーム番号)があらかじめ定められた閾値を越えた時点を
始端と考える。但し外部からの雑音などにより音声入力
が行われていなくとも電力P(jlが閾値な越えてしま
い、誤った始端とする場合がある。そのため、ともか(
フレーム電力PUIが閾値を越えたフレームを始端と考
え認識処理を開始するものの連続して3フレーム以上フ
レーム電力が閾値を越えなければその入力フレームを音
声の始端とは考えず認識処理を中断し始端検出のための
処理へともどる。但し、フレーム長を16 m sec
 としている。ここで音声の始端からフレーム電力が閾
値を越えたフレームの番号付けを定義しh番目の音声フ
レームと称し、単なる入力フレーム番号とは区別する。
すなわち、音声フレーム番号りの音声フレームは、有音
区間でh番目の入力フレームに対応する。
発声速度の正規化を行うマツチング処理を音声の始端か
ら開始し、音声分析部出力が得られる周期(フレーム周
期)ごとに行えれば音声分析部のデータを始端からすべ
て格納しておく必要もなく、また、応答時間も速くなる
本発明の第2の特徴は発声が遅く行われた場合、標準的
に行われた場合、速く行われた場合を想定したマツチン
グパスを設定しそれぞれのマツチングパス上でのマツチ
ング処理を行うことにある。
音声の始端検出時点では今から入力される単語の発声速
度は不明である。そこで発声が遅く行われた場合、標準
的に行われた場合、速く行われた場合を想定したマツチ
ングパスを設定し、それぞれのマツチングパス上でマツ
チング処理を行えば終端検出前からでもマツチング処理
が開始可能となる。もちろん、この場合、入力の終端と
標準パターンの終端が一致するパスが存在する可能性は
少ないが、入力の終端と標準パターンの終端が最も一致
しているパス上での非類似度が最小となることが予想さ
れる。
また、単語には「イチ」の「イ」と「チ」の間のように
単語内にフレーム電力が閾値に満たない部分を持つ単語
がある。このような部分を「パワーディップ」と称する
。このパワーディップの長さは単語によって異なるが通
常Iフレーム長を越えることはほとんどない。音声の始
端を検出後、あるフレーム時間点においてそのフレーム
電力が閾値未満となった場合、そのフレーム時間点はパ
    パワーディップの始まりなのか、音声の終端な
のかは判断がつかない。この判定は通常、その時点から
加フレームの間に音声の始端条件(3フレ一ム以上連続
してフレーム電力が閾値以上)を満足するフレームが存
在するか、しないかによって行うため最大側フレーム後
でなげれば判断が下されない。従って、フレーム電力が
閾値未満となった場合のマツチング結果は何らかの形で
保留されなければならない。本発明では、音声フレーム
番号の更新を停止して、フレーム電力が閾値未満となっ
たフレームに対してはマツチング処理を停止することに
よりこの問題を解決する。
本発明の第3の特徴は、語頭に他のカテゴリを含む単語
を認識対象にしている場合(例えば「サン」と「サンジ
ーウ」のとき)の誤認識を防ぐために、入力音声長(入
力パターン長)により、判定処理を行うカテゴリを限定
することを特徴としている。
本発明による音声認識方法における認識処理を以下に順
を追って説明する。
第3図(alは本発明による音声認識方法における入力
パターンとある標準パターンとのマツチングを行う複数
のマツチングパス例を示した図、第3図(blは入力パ
ターンのフレーム電力例を示した図、第3図(C)は入
力パターンとある標準パターンとの各マツチングパスに
おける非類似度Dn(j) 、 D’n(出D′In(
j)の例を示した図である。これらの図は、n番目の標
準パターンSnを例としている。またマツチングパスを
3本とし、標準パターンSnに付加されているカテゴリ
の発声長のばらつきから、発声速度の範囲を±20%と
設定した場合を示している。
第3図(a)において、横軸は入力パターンのフレーム
番号を表わす。また、縦軸は標準パターンSnのフレー
ム番号を表わし、そのフレーム長ヲ5L(nlとする。
101は発声を20%遅(発声した場合を想定したパス
、102は標準的な発声を想定したパス、103は発声
を20%速く想定した場合のパスを示す。
1番目の入力フレームの電力が閾値以上の場合、3本の
パス上での標準パターンSnとの距離を次式によって与
える。但し、hはj番目の入力フレーム番号に対応した
音声フレーム番号であり、W(i、j)は入力フレーム
番号がjでチャンネル番このように、パワーディップや
標準パターンの終端以後でのマツチングのように、非類
似度として重要でないフレームでは距離な0としている
けれども、本発明では本質的に線形なマツチングである
次に入力パターンのj番目の入力フレームまでの非類似
度Dn(j)、 Dh(j)、 I)”n(j)が計算
される。
パス101の非類似度 Dn(j)=dnU)+ Dn (j−1)     
−・・第7式パス102の非類似度 D’n(j)= d’n(jl +D’n (j −1
)     ・・・第8式 −パス103の非類似度 D”n(jl =d″n(j) + I)”n (j 
−1)    −・・第9式すなわち、それぞれのパス
上での3番目のフレームの非類似度の算出は各チャンネ
ルごとの距離(例えばIW(i、j)−8n(i、k)
I)をチャンネル分、J−1番目のフレームに対する非
類似度値(例えばDn(j−1))に加えることによっ
て得られる。これらの演算は3番目の入力フレームの入
に対する非類似度の算出にあたってはj番目のフレーム
の入力パターンデータとそれぞれのパスに相当する標準
パターンのデータおよびlフレーム前のj−1番目の入
力フレームの非類似度データのみが必要であって2フレ
一ム以上前の入力パターンデータは不必要である。その
ため、終端を検出するまでの入力パターンを格納してお
かなければならない線形伸縮マツチング法に比較しても
記憶領域が小さくなる効果が生じる。
第3図(C)は入力パターンと標準パターンSnとの各
マツチングパスでの非類似度Dn(j)、 D’n(j
)、 D“n(j)を示したものであるが、第3図(C
1に見られるようにフレーム電力が閾値以下となったと
き距離値を強制的に0にすることにより非類似度DnU
)、 D’n(jl。
Iy′n(j)は保持される。従って、終端における非
類似度と終端から30フレームへだてだ入力フレーム(
この時点で初めて終端が検出される)における非類似度
は等しい。
入力パターンと標準パターンとの非類似度の演る。実際
にはこの演算を標準パターン数だけ行うわけだが、その
際のマツチングパスの設定が標準パターンごとによって
違う他は、同様な演算が行われる。
次に、これらの非類似度を基にし、カテゴリの判定が行
われる。その判定は、2つの処理に分れる。
(イ)カテゴリの限定を行う処理 本発明の第3の特徴である入力音声長によりカテゴリの
限定を行う場合について、「サン」と「サンシュウ」を
例にして説明する。
第4図(a)は入力パターン「サン」と標準パターン「
サンシュウ」とのマツチングを行うマツチングパスを示
す図、第4図fb)は入力パターン「サン」と標準パタ
ーン「サン」とのマツチングを行うマツチングパスを示
す図である。同図において、マツチングパスは発声速度
の範囲を±20%とした3本とする。第4図(b)の「
サン」と「サン」のマツチングによるマツチングパスに
比べ、第4図(a)の「サン」と「サンジーウ」の3本
のマツチングパスは「サンシュウ」の「サン」の部分で
ほぼ終了している。従って、入力パターンの「サン」と
標準パターンの「サンシュウ」とのマツチングは、実質
的に「サン」と「サン」とのマツチングとなっている。
このように、複数のマツチングパスの傾きは発声速度の
正規化を考えたとき、せいぜい士加〜菊チの範囲に設定
するのが適当である。しかし、「サン」と「サンジーウ
」の様に、本来は両者の発声の長さが50%以上異なる
カテゴリを含む認識を考えたとき、「サン」と「サンジ
ーウ」の「サン」の部分のみがマツチングされ、「サン
ジーウ」と誤まった認識をする可能性がある。
このような入力パターンとそれと同一のカテゴリを語頭
にもつ標準パターンとのマツチングが行われる場合に考
えられる誤認識を防ぐために、入力パターン長とマツチ
ングを行った標準パターン     −〇長さとを比べ
、それらが同じような長さである場合のみ判定処理を行
うことにすれば、正しい判定が行われることが予想され
る。
本発明は標準パターンごとに判定処理を行うカテゴリを
限定することにより上記問題点を解決する。
とのカテゴリの限定を行う処理方法を説明する。
まず、標準パターンごとに、そのパターン長5IJn)
と発声長の分布を考慮して、入力パターンがその標準パ
ターンのもつカテゴリ名の候補とみなせるための最低の
パターン長(発声長)Lbを設定する(以下、この最破
トターン長を限定閾値Lbと呼ぶ)。入力パターン長り
が、限定閾値Lbより大きいか、又は等しい場合(L>
Lb )はその標準パターンをカテゴリ候補とする。逆
に、入力パターン長りが限定閾値Lbより小さい場合(
L<Lb)はその標準パターンの判定処理を禁止する。
即ち、この標準パターンを認識カテゴリ候補から除外す
る。
(ロ)カテゴリの判定処理 (イ)で説明したカテゴリの限定を行う処理を全ての標
準パターンについて行った後に、この限定された標準パ
ターンで、カテゴリの判定が行われる。
終端検出時点の入力フレーム番号をJ、音声フレーム番
号なHとするとn番目の限定された標準パターンに対す
る各パスの非類似度はDn(J)、 D’n(J)。
D’n(J)で与えられる。これらの非類似度の組が限
定された標準パターンの数(Nとする)だけ存在する。
これらの非類似度を用いて判定第1ステツプは次のよう
に行われる。まず、n番目の限定された標準パターンに
対する各パスごとの非類似度Dn(J)、 D’n(J
)、 D’n(J)のうち1−’)が選択される。この
選択にあたっては音声終端検出時の音声フレーム番号H
に対して次式で与えられるり、 L/、 L“が用いら
れる。
■ パス101   L=C−H)     ・・・第10
式パス102   L’=H・・・第11式パス103
   L’= (ニー H〕−・・第x2式これらの値
り、L/、L’は音声フレームに対応する標準パターン
のフレーム数を与える式に類似しているが、標準パター
ンの長さ5L(nlによって制限されることはない。従
って、L、 L’: L“は標準パターンの種類とは無
関係である。これらり、 L’、 L“るコンパレータ
である。脂はコンパレータmの出力がlIIのときはR
OM54の出力を、コンパレータ57の出力が0”のと
きはROM 56の出力を選択するセレクタである。コ
ンパレータ57とセレクタ郭によって4≦5IJn)な
らばeが、J)SL(川ならば5L(n)がセレクタお
より出力される動作が行われる。セレクタ郭の出力をk
とする。田はチャンネル番号iを与える信号である。ω
はチャンネル番号iとセレクタ田の出力例えばkと標準
パターン番号信号nによってアドレッシングされ標準パ
ターン5n(i、k)を出力する標準パターンのメモリ
である。61はスペクトル正規化を行った1フレ一ム分
の入力パターンW(i、j)を格納しておくメモリでチ
ャンネル番号信号59によってアドレスが与えられる。
62はメモリ61の入力端子であり、図示しないスペク
トル正規化部でスペクトル正規化された入力データW(
i、j)が入力される。63はメモリ61の出力W(i
、j)と標準パターンROMωの出力5n(i、k)/
)間でコントロール信号C0NTKよって以下の値を出
力する演算器である。
C0NT = 1のとき  IW(i、j)−8n(i
、k)ICONT=Oのとき O・・・第13式C0N
T信号はフレーム電力が閾値以上のときは”l”を、閾
値未満のときは0”となる信号である。倶は加算器、田
はパス信号団と標準パターン番号信号箔の値をアドレス
とするR、AMであり非類似度I)n(j)、 D’n
(jL D’nU)が格納される。Cは音声フレーム長
(音声フレーム番号)hに対してマツチング対象となる
カテゴリの限定と、二段階判定(判定第1ステツプ)に
おけるパスの選択とを与えるROMである。但し、カテ
ゴリの限定及びパスの選択は標準パターンごとに与えら
れるため、R,0M67は音声フレーム番号りと標準パ
ターン番号nをアドレスとして入力し、判定処理を禁止
(カテゴリを限定)する信号、又は選択すべきパス番号
を出力する。田はROM67の出力とパス番号信号&と
を比較して一致すると“l”を出力するコンパレータで
ある。69はコンパレータ田の信号に従いコンパレータ
田の出力が”l”のときはFLAM65の出力をそのま
ま、またコンパレータ田の出力が”O”のときはRAM
 65の出力を非類似度最大値に変換するためのコンバ
ータである。刀はコンバータ69の出力と後で述べるレ
ジスタ71の出力を比較して小さい方の値を出力するコ
ンバータであり、2つの信号を出力する。1つは比較し
た結果のうち小さい方の値を与える信号であり、この信
号はレジスタ71に格納される。もう一方の信号は比較
の結果コンバータωの値の方が小さければ発するクロッ
クでありレジスタnの入カクロソクとなる。レジスタ7
1は非類似度の最小値を与えるレジスタでありフレーム
周期の始めに非類似度の最大値がセットされる。レジス
タ安はコンバータ司の出力パルスによって標準パターン
番号信号を格納するレジスタで非類似度最小値を与える
標準パターンの番号が格納されている。
第1図は以上の如く構成されており、以下動作について
説明する。
各処理はフレーム電力P(−j)が閾値以上となった時
点から開始されるが、3フレ一ム以上連続してフレーム
電力P(すが閾値以上でなければ処理はリセットされる
。音声の始端フレーム前はカウンタ52はリセットパル
スIによってリセット状態にある。また、メモリ6の値
はすべてリセットされている。以後、始端検出後の1フ
レ一ム周期内の処理を順次説明する。但し、説明のため
入力フレーム番号はJとする。j番目の入力フレームの
7レーム電力が閾値を越えた場合、カウントパルス51
がカウンタ52に印加され、カウンタ犯はカウントアツ
プし音声フレーム番号りを出力する。音声フレーム番号
りに対応する標準パターンのフレーム番号はROM51
とROM56とコンパレータジとセレクタ詔によって出
力される。n番目の標準パターンのに番目のフレームの
iチャンネルのデータ5n(i、k)はFLOM 60
によって出力される。一方、メモIJ Edには前段の
スペクトル正規化部(図示せず)より出力されるj番目
の入力フレームのスペクト′正規化後0人カデー″W(
i、j)力゛入力端子62/より入力され格納されてい
る。ROM60の出力5n(i、k)とメモリ61の出
力W(i、j)はチャンネル番号信号みに同期して出力
され演算器Sにおいて第13式に与えられる演算を行う
。演算器Sの出力とメモリ田の間で第1式〜第9式に相
当する演算が実行される。実際は第1式〜第9式の演算
は統合された次の形式で行われる。
次に、カテゴリの限定およびパスの選択を行う動作につ
いて説明する。
これらの動作はROM67によって行われる。R,OM
aは、n番目の標準パターンにおいてカテゴリの限定、
パスの選択を行うための値を格納するR、OMであり、
音声フレーム長りと標準パターン番号nをアドレスとし
ている。n番目の標準ノ(ターンにおいて、音声フレー
ム長りがその限定閾値Lbよりも小さいとき、即ちn番
目の標準)(ターンね入力パターンの長さが極端に異な
るとき、R,0M67の内容はとり得るパス番号(本実
施例ではO〜2)以外の値を格納しておく(例えば、第
5図に示すように、この値を3とする)。この値によっ
て、後述するコンパレータ田の出力は常に”θ′となり
実際上はマツチングが禁止される結果となる。
n番目の標準パターンにおいて音声フレーム長りがその
限定閾値Lbよりも大きいとき、即ち、n番目の標準パ
ターンと入力パターンの長さが同じような長さのときに
はROM67の内容は、選択されるべきパス番号、即ち
音声フレーム番号りに対する第10式〜第12式の演算
結果のうちn番目の標準パターンの長さ5L(n)に最
も近いパス番号の値が格納される。
次にカテゴリ判定の動作について説明する。
R,0M67の出力とパス信号団がコンパレータ田によ
って比較され、コンパレータ田では両者が一致すれば1
”をコンバータ69に出力する。コンバータωではコン
パレータ田からの入力がl”のときはメモリ6の出力を
、0”のときは非類似度の最大値を出力しており、この
処理によりコンパレータ田からの出力が“O”、すなわ
ちROM 67の出力とパス信号8とが一致しない場合
、そのときの非類似度が最小判定処理によって選択され
ることを実質的に禁示している。この処理により判定第
」ステップが行われる。次にコンバータτによってレジ
スタ71に格納されている非類似度とコンバータ69に
よって出力される非類似度のうち小さい方がレジスタ7
1に格納される。と同時にコンバータ69の出力の方が
小さければパルスがレジスタ72に加えられそのときの
標準パターン番号がレジスタηに格納される。この一連
の処理をすべてノ標準パターンについて行えばそのとき
の最小非類似度を与える標準パターン番号がレジスタn
に格納されることになる。以上の1フレ一ム周期内の処
理に対するタイムチャートを第5図に示す。
以上の処理は1フレ一ム周期ごとに行われ終端が検出さ
れた時点におけるレジスタnの結果が最終的な認識結果
となり、出力端子Bから出力される。
(発明の効果) 以上説明したように本発明によれば、発声長が極端に異
なる単語を含む認識処理の場合でも入力音声長により判
定処理を行うカテゴリを限定することにより、始端から
のマツチングパスが可能でより精度の高い認識結果を得
ることができる。さらに、回路構成の簡易化を目的とし
た方式であるため、LSI化が容易であり、ゲート数の
少ない安価な音声認識用LSIチップを供給すると同時
に汎用マイクロプロセッサのソフト処理によっても実現
することが可能である。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
発声変動を説明する図、第3図は本発明のマツチングパ
スの概要を説明する図、第4図は入力音声長に対して判
定を行うカテゴリの限定を説明する図、第5図は本実施
例の1フレ一ム周期内の処理に対するタイムチャートを
示す図である。 翌・・・音声フレーム番号りのカウンタ、 54−標準
パターンのフレーム番号相当のものを発生させるための
ROM、  56・・・標準パターンの長さを記憶して
いるFLOM、  57・・・コンバレー      
  −タ、 団・・・セレクタ、 ■・・・標準パター
ンのメモリ、61・・・入力パターンのメモリ、B・・
・距離の演算器、 [相]・・・加算器、 C・・・判
定処理を禁止する信号、または選択すべきパス番号を発
生させるためのR,OM、  68・・・コンパレータ
、  ω・・・コンバータ、7o・・・コンバータ、 
71・・・最小非類似度のメモリ、 η・・・認識結果
としての標準パターン番号のメモリ。

Claims (1)

  1. 【特許請求の範囲】 各標準音声に対応して周波数成分のフレーム時系列とし
    て表現された標準パターンとバス選択情報とを記憶して
    おき、 a)入力音声から周波数成分のフレーム時系列として入
    力パターンを抽出し、 b)入力音声の始端を検出して入力パターンのフレーム
    の計数を開始して音声フレーム番号を更新し、無音状態
    を検出している間は音声フレーム番号の更新を停止し、
    入力音声の終端を確認する以前に有音状態を検出すると
    当該音声フレーム番号の更新を再開し、 c)音声フレーム番号の更新毎に、そのフレーム番号に
    本質的に線形な関係で標準パターンの複数のフレーム番
    号を発生させることによって各標準パターンとの間に複
    数のマッチングパスを設定し、 d)音声フレーム番号の更新毎に、前記各マッチングパ
    スで対応づけられたフレーム間で入力パターンと各標準
    パターンとの距離を計算し、e)入力音声の始端から任
    意の音声フレーム番号までの前記マッチングパスに沿っ
    た前記距離の累算値を非類似度として、音声フレーム番
    号の更新毎に、直前の非類似度と当該フレーム番号での
    距離とを加算して一旦記憶することによって、各標準パ
    ターン毎の各マッチングパスに対応して非類似度を更新
    記憶し、 f)音声フレーム番号の更新毎に、音声フレーム番号が
    標準パターン毎に設定されている限定閾値よりも小さい
    場合は該標準パターンに対するマッチングパスの選択を
    行なわないことにより、該標準パターンを判定から除外
    し、音声フレーム番号が標準パターン毎に設定されてい
    る限定閾値に等しいか、又は大きい場合は該標準パター
    ンの長さに音声フレーム番号が最も近いマッチングパス
    を選択し、この選択された標準パターンのマッチングパ
    ス上の非類似度のうちで最小値を与える標準パターンの
    コードを前記音声フレーム番号の更新毎に更新記憶し、 g)入力音声の終端を確認した時点で、入力音声の終端
    の音声フレーム番号に対応して記憶されている最小値を
    与える前記標準パターンのコードを入力音声のカテゴリ
    として認識することを特徴とした音声認識方法。
JP60009862A 1984-03-27 1985-01-24 音声認識方法 Pending JPS61170799A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP60009862A JPS61170799A (ja) 1985-01-24 1985-01-24 音声認識方法
US06/716,154 US4868879A (en) 1984-03-27 1985-03-26 Apparatus and method for recognizing speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60009862A JPS61170799A (ja) 1985-01-24 1985-01-24 音声認識方法

Publications (1)

Publication Number Publication Date
JPS61170799A true JPS61170799A (ja) 1986-08-01

Family

ID=11731945

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60009862A Pending JPS61170799A (ja) 1984-03-27 1985-01-24 音声認識方法

Country Status (1)

Country Link
JP (1) JPS61170799A (ja)

Similar Documents

Publication Publication Date Title
US5899971A (en) Computer unit for speech recognition and method for computer-supported imaging of a digitalized voice signal onto phonemes
US5621849A (en) Voice recognizing method and apparatus
US4868879A (en) Apparatus and method for recognizing speech
JPH0247760B2 (ja)
JPS61170799A (ja) 音声認識方法
US4790017A (en) Speech processing feature generation arrangement
JPH0568716B2 (ja)
JPH0568717B2 (ja)
JPS61133994A (ja) 音声認識方法
JPH0313600B2 (ja)
JPH0262879B2 (ja)
JPH0313599B2 (ja)
JP3094473B2 (ja) 動的計画法照合装置
JP3100208B2 (ja) 音声認識装置
JPH0449954B2 (ja)
JPS61235899A (ja) 音声認識装置
JPH0567037B2 (ja)
JPS61200596A (ja) 連続音声認識装置
JPH07302098A (ja) 単語音声認識装置
JPS63236094A (ja) 音声認識方法
JPH0632006B2 (ja) 音声認識装置
JPS59173884A (ja) パタ−ン比較装置
JPS62121499A (ja) 音声認識装置
JPS62118398A (ja) 単語認識装置
JPS60150098A (ja) 音声認識装置