JPS63187376A - パタ−ン認識装置 - Google Patents

パタ−ン認識装置

Info

Publication number
JPS63187376A
JPS63187376A JP62019861A JP1986187A JPS63187376A JP S63187376 A JPS63187376 A JP S63187376A JP 62019861 A JP62019861 A JP 62019861A JP 1986187 A JP1986187 A JP 1986187A JP S63187376 A JPS63187376 A JP S63187376A
Authority
JP
Japan
Prior art keywords
vector
code
stores
pattern
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62019861A
Other languages
English (en)
Inventor
Toru Shimizu
透 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP62019861A priority Critical patent/JPS63187376A/ja
Publication of JPS63187376A publication Critical patent/JPS63187376A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業−■−の利用分野) 本発明は、音声、文字等のパターンを認識する装置に関
する。
(従来の技術) 従来、パターン認識装置では、認識すべき対象の特徴を
示すパターンを認識に先立ち予め作成、記憶しておき(
以下、このパターンを標準パターンと称する)、認識時
に入力されたパターン(以下、このパターンを入力パタ
ーンと称する)と比較処理(以下、マツチングと称する
)を行い、その差(以下、距離と称する)の最も小さい
標準パターンのカテゴリ名を認識結果とする方法が、多
く取られている。
音声信号を例にあげると、音声の特徴を示すパターンは
、バンドパス・フィルタ法、ケプストラム法、ヌルケプ
ストラム法、LPC法等の分析方法で得られるベクトル
列の形で表されている(以下、このベクトル列を特徴ベ
クトル時系列と称する)。これらの分析法に関しては、
昭和54年10月、共立出版から出版された「音声認識
」の第107頁より第108頁に記載されている。
また、まえもって、多量の音声データにクラスタリング
を行って作成した代表的なベクトル(以下、そのベクト
ルをコードベクトル、コードベクトルの集合をコードフ
ックと称する)で、標準パターンの特徴ベクトル時系列
の各ベクトルを、代表させるというベクトル量子化法が
ある。このベクトル量子化法を用いると、標準パターン
の各ベクトルを、コードベクトルに対応した一次元の値
(以下、コードと称する)で表せるので、認識率をあま
り損なわずに記憶量を削減することができるのか知られ
ている。クラスタリングに関しては、昭和58年3月、
コロナ社より出版されたrノ(ターン情報処理」の第1
13頁より第124頁に記載されている。
さらに、コードベクトルが作成されたクラスタ内のベク
トルから、各ベクトルの分布の状態を反映させて距離に
重み付けを行う重み行列(例えば、共分散行列)を求め
、各コードベクトルに対応させて記憶しておき、認識の
際の距離計算で距離に重み付けを行うことで、コードブ
ック作成の際の大量の音声データを有効に活用するとい
う方法が、昭和61年特許願255478号に記載され
ている。
(発明が解決しようとする問題点) しかしながら、上記方法で求めた重み行列は、コードベ
クトルに対して最適なものであり、標準パターンの各ベ
クトルとコードベタ1〜ルの距離が大きい場合は、重み
行列が不適当で、かえって認識率の低下を招くおそれが
あった。
本発明の目的は、上記問題点に着目してなされたもので
、不適当な重み行列が用いられることをなくし、高い認
識率の得られるパターン認識装置を提供することにある
(問題点を解決するための手段) 本願の第1の発明のパターン認識装置は、代表的なベク
トルであるコードベクトルを複数個記憶しておくコード
フック記憶部と、前記コードベクトルに対応した重み行
列を記憶しておく重み行列記憶部と、ベクトルの系列の
形で表される標準パターンを記憶する標準パターン記憶
部と、前記標準パターンの各ベクトルを前記コードブッ
ク記憶部に記憶されているコードベクトルでベタ1−ル
量子化した結果の量子化誤差とコードベクトルに対応し
たコードを出力するベクトル量子化部と、前記コードの
系列を記憶しておくコード系列記憶部と、前記標準パタ
ーンの各ベクトルにおける量子化誤差を記憶する童子化
誤差記憶部と、ベクトルの系列の形で表される入力パタ
ーンを記憶する入力パターン記憶部と、前記重み行列記
憶部におけるコードベクトルに対応した重み行列を用い
かつ前記量子化誤差記憶部の量子化誤差の大きなベクト
ルには重み付けの度合いを小さくするように前記入力パ
ターンのベクトルと前記標準パターンのベクトルとの重
み付け距離を計算する重み付け距離計算部と、前記入力
パターンと前記標準パターンとの系列を対応付けて前記
重み付け距離の累積和を計算する重み付け距離累積和計
算部と、前記重み付け距離累積和が最小となる標準パタ
ーンのカテゴリ名を認識結果とする判定部とから構成さ
れる。
また、本願の第2の発明のパターン認識装置は、代表的
なベクトルであるコードベクトルを複数個記憶しておく
コードブック記憶部と、前記コードベクトルに対応した
重み行列を記憶しておく重み行列記憶部と、ベクトル量
子化されて前記コードベクトルの系列の形で表された標
準パターンを記憶する標準パターン記憶部と、前記標準
パターンがベクトル量子化された際の量子化誤差を記憶
しておく量子化誤差記憶部と、ベクトルの系列の形で表
される入力パターンを記憶する入力パターン記憶部と、
前記重み行列記憶部におけるコードベクトルに対応した
重み行列を用いかつ前記量子化誤差記憶部の量子化誤差
の大きなベクトルには重み付けの度合いを小さくするよ
うに前記入力パターンのベクトルと前記標準パターンの
コードに対応するコードベクトルとの重み付け距離を計
算する重み付け距離計算部と、前記入力パターンと前記
標準パターンとの系列を対応付けて前記重み付け距離の
累積和を計算する重み付け距離累積和計算部と、前記重
み付け距離累積和か最小となる標準パターンのカテゴリ
名を認識結果とする判定部とから構成される。
(作用) 本願発明の詳細な説明する。
コードブック作成時は、まず、多数のベクトル= 7− の系列パターンをひとつひとつのベクトルに分解し、ベ
クトルごとにクラスタリングを行い、いくつかのクラス
タに分類する。そして、各クラスタの要素を代表するベ
クトルをコードベクトルとして記憶する。同時に、コー
ドベクトルが作成されたクラスタ内のベクトルから、各
ベクトルの分布の状態を反映させて距離に重み付けを行
う重み行列を求め、各コードベクトルに対応させて記憶
しておく。重み行列として考えられるものとしては、た
とえば、共分散行列があげられる。
そして、登録時は、標準パターンの特徴ベクトル系列の
各ベクトルにおいて、そのベクトルと最も似ている(距
離が小さい)コードベクトルを見付ける。そして、その
2つのベクトルの距離つまり量子化誤差を求める。
認識時は、入力パターンのベクトルと標準パターンのベ
クトルとの距離計算に際し、コードブック作成時に求め
たコードベクトルに対応した重み行列を用いて、距離に
重み付けをする。ただし、標準パターンの、各ベクトル
における量子化誤差の大きさに応じて、重み行列の用い
方を変える。つまり、量子化誤差の大きなベクトルには
、重み行列の影響が小さくなるような距離計算を行う。
その重み付けされた距離を用いて認識を行う。
標準パターンをそのまま用いるのが第1の発明、標準パ
ターンの各ベクトルをコードベクトルで置き換えるつま
りベクトル量子化を行うのが第2の発明である。
以上か、本願発明の作用である。
(実施例) 以下、本M発明の実施例について図面を参照して説明す
る。
第1図は本願の第1の発明の一実施例である音声認識装
置のブロック図である。
マイクロホン1より入力された音声信号は、音声分析部
2において、たとえば特願昭52−144205号明細
書及びその第3図に示された如き周波数分析器によって
、音声分析がなされ、ベクトルの時系列の形に変換され
る。
本装置は、コードブックと重み行列の作成を行う学習モ
ードと、標準パターンの登録を行う登録モードと、入力
パターンの認識を行う認識モードとで、動作が異なり、
スイッチ回路3で切り替える。
学習モードにおいて、スイッチ回路3は、音声分析部2
の出力が供給される端子りを接点Aに接続する。学習用
の音声データのベクトル時系列は、学習部4に送られる
。第2図は、学習部4の詳細ブロック図である。ベクト
ル時系列は、ベクトル分解部41に送られ、ひとつひと
つのベクトルに分解された後、クラスタリング部42に
送られる。クラスタリング部42では、各ベクトル間の
距離を基に、K平均アルゴリズムを用いて、おのおのベ
クトルをクラスタリンクする。クラスタリングやに平均
アルゴリズムに関しては、昭和58年3月、コロナ社よ
り出版された「パターン情報処理」の第113頁から第
120頁に記載されている。クラスタリングか終了する
と、各クラスタごとに、逐次、そのクラスタに属するベ
クトルは、クラスタ内ベクトル記憶部43に記憶される
。また、そのクラスタを代表するベクトルは、コードベ
クトルとしてコードブック記憶部5に記憶される。本実
施例においては、重み行列は、共分散行列とする。クラ
スタ内ベクトル記憶部43のベクトルは、重み行列計算
部44に送られ共分散行列が計算され、重み行列記憶部
6に記憶される。以上の動作かずべてのクラスタについ
て行われ、各クラスタを代表するベクトルがコードベク
トルとしてコードブック記憶部5に、それに対応する共
分散行列か重み行列記憶部6に、それぞれ記憶される。
登録モードにおいて、スイッチ回路3は端子りを接点B
に接続する。標準パターンのベクトル時系列は、標準パ
ターン記憶部7に記憶される。そして、ベクトル量子化
部8に送られ、そこでコードブック記憶部5のコードベ
クトルにベクトル量子化される。その結果であるコード
ベクトルに対応したコードの系列と量子化誤差か、量子
化誤差記憶部9に記憶される。なお、ベクトル量子化部
8における動作は、パターン処理の分野では、ベクトル
量子化法として周知の技術で、本発明の本質ではないの
で、詳細な説明は省く。
認識モードにおいて、スイッチ回路3は端子りを接点C
に接続する。入力パターンの特徴ベクトル時系列は、入
力パターン記憶部10に記憶される。
そして、重み付け距離計算部11において、標準パター
ン記憶部7に記憶されている特徴ベクトル時系列の各ベ
クトルと、入力パターン記憶部10に記憶されている特
徴ベクトル時系列の各ベクトルとの重み付け距離を、量
子化誤差記憶部9に記憶されているコードの系列とそれ
に対応した量子化誤差と、重み行列記憶部6に記憶され
ている各コードに対応した共分散行列とを用いて計算す
る。たとえば、標準パターンの第jフレームにおける量
子化誤差Ωjがある閾値0以上であるなら、従来どおり
のベクトル間距離を計算する。θ以下であるなら、重み
行列で重み付けした距離、本実施例においてはマハラノ
ビス距離を計算する。つまり、標準パターンの第jフレ
ームと入力パターンの第iフレームにおける重み付け距
!d(i、j)は、となる。ただし、標準パターンの第
jフレームにおけるベクトルをSj、そのベクトルの量
子化結果のコードベクトルに対応した重み行列記憶部6
の共分散行列を■j、入力パターンの第iフレームのベ
クトルをXiとする。なお、記号Tは転置を示す。
各フレームにおける重み付け距離は、DP実行部12に
送られる。DP実行部12では、重み付け距離の全フレ
ームの和が最小(以下、この距離の和の最小値をDP距
離と称する)となるような時間軸の正規化を、特願昭4
9−2418号記載の如く、動的計画法を利用して行う
。このアルゴリズムは、パターン認識の分野では、DP
マツチングとして周知の技術なので、詳細な説明は省く
各標準パターンに対するDP距離は、逐次、判定部13
に送られる。判定部13では、それらDP距離の最小値
を求め、その最小となった標準パターンのカテゴリ名を
認識結果として出力する。
本願の第2の発明の一実施例である音声認識装置をブロ
ック図で第3図に示す。第1図に示した本願の第1の発
明の実施例と異なる部分のみを説明する。
登録モードにおいて、登録される標準パターンは、まず
ベクトル量子化部8に送られ、ベクトル量子化される。
そして、標準パターンは、コードベクトルに対応したコ
ードの系列として、標準パターン記憶部7に記憶される
。また、量子化誤差は、量子化誤差記憶部9.に記憶さ
れる。
認識モードにおいて、重み付け距離計算部11に送られ
る標準パターンの特徴ベクトル時系列の各ベクトルは、
標準パターン記憶部7に記憶されているコードの系列に
対応するコードブック記憶部5のコードベクトルとなる
その他の部分は、第1図を参照して説明した本願の第1
の発明の実施例と同じであるので、詳細は省く。
以上本願の各発明の原理を実施例に基づいて説明したが
、これらの記載は本願発明を限定するものではない。特
に、DP実行部12で、時間軸の正規化を行う際、DP
マツチングを用いたか、特徴ベクトルの変化量を線形正
規化する方法、特徴抽出によりセグメンテーションを行
い時間軸正規化する方法等、その他の時間軸正規化法を
用いてもかまわない。
また、この実施例では、コードベクトルに対応する重み
行列を、クラスタ内のベクトルの共分散行列の逆行列と
していた。しかし、重み行列を、他にも、コードベクト
ルが作成されるクラスタの板肉分散を小さく板間分散を
大きくするような変換行列としても良いし、クラスタ内
のベクトルの分散もしくは標準偏差の逆数としても良い
。分散もしくは標準偏差の逆数とした場合は、重み行列
は、対角項以外は0となり、計算か簡単になる。
また、重み付け距離計算部11で、重み付けの度合いを
、量子化誤差か閾値以上の場合のみ重み付け距離を用い
る方法をとったが、他にも、量子化誤差が大きくなるほ
ど重み行列の各要素が1に近づくような変換をおこなっ
ても良い。
さらに、この実施例では、重み付け距離を計算する際の
重み行列を標準パターンのコードに対応したものを用い
たか、入力パターンについても同様にベクトル量子化を
行い、入力パターンのコードに対応した重み行列を用い
ても良い。
なお、本願発明は、音声以外のパターン、つまり文字、
図形等のパターンを扱うパターン認識装置においても、
有効に適用できるのは明白である。
(発明の効果) 以上に述べたとおり、本願発明によれば、コードブック
作成時のデータを有効に活用し、高い認識率の得られる
パターン認識装置を提供することができる。
【図面の簡単な説明】
第1図は本願の第1の発明の一実施例である音声認識装
置のブロック図、第3図は本願の第2の発明の一実施例
である音声認識装置のブロック図、第2図はこれら再実
施例で用いる学習部4の詳細ブロック図である。 1・・・マイクロホン、2・・・音声分析部、3・・・
スイッチ回路、4・・・学習部、41・・・ベクトル分
解部、42・・・クラスタリング部、43・・・クラス
タ内ベクトル記憶部、44・・・重み行列計算部、5・
・・コードブック記憶部、6・・・重み行列記憶部、7
・・・標準パターン記憶部、8・・・ベクトル量子化部
、9・・・量子化誤差記憶部、10・・・入力パターン
記憶部、11・・・重み付け距離計算部、12・・・D
P実行部、13・・・判定部。

Claims (2)

    【特許請求の範囲】
  1. (1)代表的なベクトルであるコードベクトルを複数個
    記憶しておくコードブック記憶部と、前記コードベクト
    ルに対応した重み行列を記憶しておく重み行列記憶部と
    、ベクトルの系列の形で表される標準パターンを記憶す
    る標準パターン記憶部と、前記標準パターンの各ベクト
    ルを前記コードブック記憶部に記憶されているコードベ
    クトルでベクトル量子化した結果の量子化誤差とコード
    ベクトルに対応したコードを出力するベクトル量子化部
    と、前記コードの系列を記憶しておくコード系列記憶部
    と、前記標準パターンの各ベクトルにおける量子化誤差
    を記憶する量子化誤差記憶部と、ベクトルの系列の形で
    表される入力パターンを記憶する入力パターン記憶部と
    、前記重み行列記憶部におけるコードベクトルに対応し
    た重み行列を用いかつ前記量子化誤差記憶部の量子化誤
    差の大きなベクトルには重み付けの度合いを小さくする
    ように前記入力パターンのベクトルと前記標準パターン
    のベクトルとの重み付け距離を計算する重み付け距離計
    算部と、前記入力パターンと前記標準パターンとの系列
    を対応付けて前記重み付け距離の累積和を計算する重み
    付け距離累積和計算部と、前記重み付け距離累積和が最
    小となる標準パターンのカテゴリ名を認識結果とする判
    定部を有することを特徴とするパターン認識装置。
  2. (2)代表的なベクトルであるコードベクトルを複数個
    記憶しておくコードブック記憶部と、前記コードベクト
    ルに対応した重み行列を記憶しておく重み行列記憶部と
    、ベクトル量子化されて前記コードベクトルの系列の形
    で表された標準パターンを記憶する標準パターン記憶部
    と、前記標準パターンがベクトル量子化された際の量子
    化誤差を記憶しておく量子化誤差記憶部と、ベクトルの
    系列の形で表される入力パターンを記憶する入力パター
    ン記憶部と、前記重み行列記憶部におけるコードベクト
    ルに対応した重み行列を用いかつ前記量子化誤差記憶部
    の量子化誤差の大きなベクトルには重み付けの度合いを
    小さくするように前記入力パターンのベクトルと前記標
    準パターンのコードに対応するコードベクトルとの重み
    付け距離を計算する重み付け距離計算部と、前記入力パ
    ターンと前記標準パターンとの系列を対応付けて前記重
    み付け距離の累積和を計算する重み付け距離累積和計算
    部と、前記重み付け距離累積和が最小となる標準パター
    ンのカテゴリ名を認識結果とする判定部を有することを
    特徴とするパターン認識装置。
JP62019861A 1987-01-29 1987-01-29 パタ−ン認識装置 Pending JPS63187376A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62019861A JPS63187376A (ja) 1987-01-29 1987-01-29 パタ−ン認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62019861A JPS63187376A (ja) 1987-01-29 1987-01-29 パタ−ン認識装置

Publications (1)

Publication Number Publication Date
JPS63187376A true JPS63187376A (ja) 1988-08-02

Family

ID=12011006

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62019861A Pending JPS63187376A (ja) 1987-01-29 1987-01-29 パタ−ン認識装置

Country Status (1)

Country Link
JP (1) JPS63187376A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02292685A (ja) * 1989-05-08 1990-12-04 Nec Corp パターンマッチング回路
EP0786762A1 (en) * 1994-10-07 1997-07-30 Nippon Telegraph And Telephone Corporation Vector encoding method and encoder/decoder using the method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02292685A (ja) * 1989-05-08 1990-12-04 Nec Corp パターンマッチング回路
EP0786762A1 (en) * 1994-10-07 1997-07-30 Nippon Telegraph And Telephone Corporation Vector encoding method and encoder/decoder using the method
EP0786762A4 (en) * 1994-10-07 1999-03-03 Nippon Telegraph & Telephone METHOD FOR VECTOR CODING AND THESE ENCODERS / DECODERS

Similar Documents

Publication Publication Date Title
US6278970B1 (en) Speech transformation using log energy and orthogonal matrix
US5684925A (en) Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5638486A (en) Method and system for continuous speech recognition using voting techniques
CA2190631C (en) Method of training neural networks used for speech recognition
US5255342A (en) Pattern recognition system and method using neural network
US5596679A (en) Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
CA2122575C (en) Speaker independent isolated word recognition system using neural networks
US5812973A (en) Method and system for recognizing a boundary between contiguous sounds for use with a speech recognition system
US5903863A (en) Method of partitioning a sequence of data frames
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
JPH064093A (ja) Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置
JPH05257492A (ja) 音声認識方式
Katagiri et al. A new hybrid algorithm for speech recognition based on HMM segmentation and learning vector quantization
US5677991A (en) Speech recognition system using arbitration between continuous speech and isolated word modules
Bahl et al. Context dependent vector quantization for continuous speech recognition
US6243695B1 (en) Access control system and method therefor
Sunny et al. Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms
US5864807A (en) Method and apparatus for training a speaker recognition system
US5832181A (en) Speech-recognition system utilizing neural networks and method of using same
JPS63187376A (ja) パタ−ン認識装置
US5828998A (en) Identification-function calculator, identification-function calculating method, identification unit, identification method, and speech recognition system
JPS63109500A (ja) パタ−ン認識装置
Moonasar et al. A committee of neural networks for automatic speaker recognition (ASR) systems
KR100482313B1 (ko) 이중유사도비교를통한음성인식방법
Wan et al. Co-compressing and unifying deep cnn models for efficient human face and speaker recognition