JPS6312312B2 - - Google Patents

Info

Publication number
JPS6312312B2
JPS6312312B2 JP54088909A JP8890979A JPS6312312B2 JP S6312312 B2 JPS6312312 B2 JP S6312312B2 JP 54088909 A JP54088909 A JP 54088909A JP 8890979 A JP8890979 A JP 8890979A JP S6312312 B2 JPS6312312 B2 JP S6312312B2
Authority
JP
Japan
Prior art keywords
pattern
standard
standard pattern
averaging
patterns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP54088909A
Other languages
English (en)
Other versions
JPS5614381A (en
Inventor
Hiroaki Sekoe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP8890979A priority Critical patent/JPS5614381A/ja
Publication of JPS5614381A publication Critical patent/JPS5614381A/ja
Publication of JPS6312312B2 publication Critical patent/JPS6312312B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】 本発明は音声や文字の如きパタンを認識するシ
ステムの改良に関する。
本発明によるパタン認識システムの認識対象は
音声のパタンに限定されるものではないが、以下
では代表的な対象例として音声パタンの認識例に
基づいて説明を行なう。人間の発声による音声パ
タンを分折、識別する装置たる音声認識システム
は計算機や各種機械システムに対する指令情報や
各種データを入力する手段として有用である。近
年では数種の実用的な音声認識システムが発売さ
れ、産業界で利用されている。これらの音声認識
システムはパタンマツチング法を原理として動作
するものである。すなわち、システム使用に先だ
つて、オペレータの声(単語音声)がシステムに
入力され、そのパタンが標準パタンとして登録さ
れる。この標準パタンは認識システムが処理対象
とするすべての単語に対して登録される。その
後、実際に認識されるべき音声パタン(入力パタ
ンと呼ばれる)が入力されると、前記の標準パタ
ン群との比較が行われ、入力パタンと各標準パタ
ンとの間の距離が計算される。これらの距離を比
較することによつて、この入力パタンに最も近い
標準パタンが選定される。その結果として、入力
パタンはこの標準パタンと同一単語であると決定
される。以上述べたパタンマツチング法は原理が
簡単であつてしかも、高い認識性能を示すことが
実証されている。特に最近では、特願昭49−2418
号明細書(特開昭50−96104号公報)に述べられ
ているが如きダイナミツクプログラミング法を利
用して時間方向の変動を整合する手法が確立さ
れ、パタンマツチング法の実用性が高められた。
しかし、上記パタンマツチング法も“和歌山”
と“岡山”と言うように類似した単語の間を区別
する能力は必ずしも十分ではない。これは/
Wakayama/と/Okayama/の間では語頭の/
Wa/と/O/の部分が異なつているだけである
ためである。残りの/kayama/の部分、すなわ
ち大半の部分が共通であるため、例えば/
Wakayama/と発声入力しても/kayama/部
分が“和歌山”の標準パタンの/kayama/の部
分よりも、“岡山”の標準パタンの/kayama/
の部分により類似している場合が生じる可能性が
ある。このため音声パタン全体としては/
Wakayama/が/Okayama/と誤認識されるこ
とが往々にして発生する。
本発明は、従来のパタン認識システムの有する
上記欠点を改良し、類似した単語対が存在する場
合でも誤認識を生じることが少ないという点で従
来システムよりも高性能なパタン認識システムを
実現し提供することを目的としたものである。
本発明によるパタン認識システムは、標準パタ
ンを記憶するために標準パタン記憶部、入力パタ
ンと各標準パタンとの比較を行なうためのマツチ
ング部、この比較結果を基にして判定するための
判定部等の従来構要素に加えて、類似単語対の標
準パタン間でそれらの一部を相互に平均化する処
理を行うための平均化部を有して構成される。
本発明の構成を詳述するに先だつて本発明の作
用原理を説明する。いま説明を簡単にするために
音節/Wa/、/O/、/ka/、/ya/、/
ma/の特徴を次のような数字で示すというモデ
ルを用いる。
/Wa/……2 /O/……4 /ka/……9、10、 /ya/……5、6 /ma/……12、13 これらの数字は音声の特徴を抽象的に示したも
のである。実際には第1〜第3のフオルマント周
波数やバンドパスフイルタ分析によつて得られる
各帯域のエネルギ強度を示す数字の組みなどが音
声の特徴を示すパラメタとして用いられることが
多い。しかし、そのようなパラメタの組みはベク
トルとなり説明が繁雑となるので、ここではスカ
ラ量で代用した。また、上例の数値の割り合で
は、仮のものであつて、厳密な意味はない。ま
た、上記のそれぞれの音節に2個の数字が特徴と
して対応づけられているのは、音声の変動現象を
モデル化したものである。言葉を変えて言うと、
例えば/ka/なる音節の特徴は9となるものも
あるし、10となることもある。いま、/
Wakayama/なる音声の標準パタンが B1=2、9、5、12、 (1) で、/Okayama/なる音声の標準パタンが B2=4、10、6、13 (2) であつたとする。この時/Wakayama/と発声
して入力パタンが、 A=2、10、5、13 (3) であつたとする。この時入力パタンAと標準パタ
ンB1との絶対値距離は、 D(A、B1)=|2−2|+|10−9| +|6−5|+|13−12| (4) =3 となるのに対して、入力パタンAと標準パタン
B2との距離は D(A、B2)=|4−2|+|10−10| +|6−6|+|13−13| (5) =2 となる。すなわち、入力パタンAは標準パタン
B1に対するよりも標準パタンB2に近いことにな
る。その結果/Wakayama/と発生された前記
入力パタンAは/Okayama/と誤認識される。
このように/Wa/と/O/の特徴の違いが明
確に存在しているにもかかわらず、残余の部分の
特徴変動に影響されて誤認識が発生するという点
に類似語対弁別が困難である原因が存在する。
本発明による装置では類似語対の標準パタン間
で、両者に共通な部分を相互に平均化することに
よつて類似語対間の識別が改善される。前記の標
準パタンB1とB2を用いたモデルでは共通部分/
ka/、/ya/、/ma/の部分を相互に平均し、 /ka/……9.5 /ya/……5.5 /ma/……12.5 となす。この結果標準パタンは B1=2、9.5、5.5、12.5 (6) B2=4、9.5、5.5、12.5 (7) となる。この標準パタンをもとにして、(4)、(5)式
と同様に距離を計算して見ると D(A、B1)=1.5 (8) D(A、B2)=3.5 (9) とD(A、B1)の方が小となり、(3)式の入力パタ
ンAは正しく/Wakayama/と認識される。
実際の音声認識処理では、以上のモデルのよう
に音節ごとに区分化が行われているわけではな
い。多くの場合は10チヤネル前後のフイルタバン
クによつて周波数分折を行ない各チヤネルの出力
レベルを10ms程度のフレーム周期でサンプリン
グを行つて、各チヤネルの出力レベル標本値を成
分とするベクトル〓iの時系列として入力パタン A=〓1、〓2、……〓i……、〓I (10) が構成される。同様に単語n(nは単語名を示す
番号であるとする)の標準パタンは Bn=〓n 1、〓n 2、……〓n i……、〓n I (11) と表現される。これらは単に等間隔に標本化され
たものであるから、どの部分が何という音節であ
るかという事前の知識は利用できないのである。
それゆえ/Wakayama/の標本パタン B1=〓1 1、〓1 2、……、〓1 i、……、〓1 I(12) と、/Okayama/の標準パタン B2=〓2 1、〓2 2、……、〓2 i、……、〓2 I(13) の間で、どの部分を相互に平均するべきかを自動
的に決定する必要がある。
一般にベクトル〓1 iと〓2 iの間の距離は、両者が
同一の音素に属する時は小さく、異なつた音素に
属する時は大きい。このことを考えると、〓1 i
2 iの距離d(〓1 i、〓2 i)を計算し、その大小によ
つて相互平均化すべき部分と、相互平均化しない
部分とを自動的に区別することができる。
第1図は以上の原理に基いて動作する音声認識
システムの一実施例を示すブロツク図である。こ
の音声認識システムは標準パタンを登録するため
の登録モードと、実際に入力処理を行うための認
識モードとに分れて動作する。
認識モードにおいてはスイツチ回路3は信号線
aに接続される。マイクロホン1より入力された
入力音声信号は、特願昭51−61984号明細書(特
開昭52−144205号公報)の第3図に示された如き
周波数分折部2によつて周波数分折がなされ前記
(10)式に示すような入力パタンAに変換され、スイ
ツチ回路3と信号線aを経由してマツチング処理
部4に入力される。標準パタン記憶部5には、先
に原理的な説明が行われ、また後出の登録モード
の説明中に詳述するが如く、類似語間で相互平均
処理が行なわれた形式の標準パタン Un=〓n 1、〓n 2、……、〓n i、……、〓n I(14) が記憶されている。ただし、n=1、2、……N
であつてNは単語数を示す。これらN個の標準パ
タンはマツチング処理部4に向けて順次出力され
る。マツチング処理部4は、例えば、前記特願昭
49−2418号明細書記載の如く構成され、そこでは
前記信号線aを経由して入力される入力パタンA
と、前述の如く順次入力される各標準パタンとの
間で距離D(A、Un)が計算され信号線sを経由
して出力される。判定部6では前記の距離D(A、
Un)の大小比較がなされ、最小の距離に対応す
る単語の番号n=n^が決定される。この単語番号
は、認識結果として出力される。
本発明の原理は登録モード時に適用される。こ
の時、前記スイツチ回路3は信号線bに接続され
る。それゆえ、マイクロホン1より順次入力さ
れ、前記分折部2により(12)式の如く変換された標
準パタン Bn=〓n 1、〓n 2、……、〓n i、……〓n I (15) は平均化部7に入力される。平均化部7では、類
似語対の標準パタン間で以下の相互平均化の処理
がなされる。
第2図は平均化部7の第1の実施例としてその
構成例を示すブロツク図である。
標準パタンバツフアには前記N個の標準パタン
Bn(n=1、2、……、N)が保持されている。
いま、(12)のB1(/Wakayama/)と(13)式の
B2(/Okayama/)の間で相互平均化の処理が
実行される様子を説明する。信号線b1からは標準
パタンB1のベクトルb1 iが、信号線b2からは標準
パタンB2のベクトル〓2 iが、それぞれi=1、
2、……、Iなる順序で出力される。これらのベ
クトルは、それぞれQ個の成分よりなつている。
1 i=(〓1 i1、〓1 i2、……、〓1 ik……、〓1 i〓)(1
6) 〓2 i=(〓2 i1、〓2 i2、……、〓2 ik……、〓2 iQ)(17
) これらのベクトルは平均化処理部72で送られ
る。平均化処理部72はこれら〓1 iと〓2 iの各成分
を平均して得られるベクトル 〓i=(〓i1、〓i2、……、〓ik……、〓iQ) (18) が計算される。ここに、 〓ik=1/2(〓1 ik+〓2 ik) (19) このようにして得られる平均ベクトル〓iはバツ
フア記憶75に一時保持される。また、前記のベ
クトル〓1 iは、平均化処理されることなく、その
ままでバツフア記憶74に一時保持される。
他方、距離計算部71では上記の2個のベクト
ル〓1 iと〓2 iの間の距離 α(〓1 i、〓2 i)=Qk=1 |〓2 ik−〓1 ik| (20) が計算され距離信号dとして閾値回路73に送ら
れる。閾値回路73では前記距離信号dが閾値θ
と比較される。その出力信号pはd≦θのときは
p=1、d>θのときはp=0となされる。マル
チプレクサ76はこの信号pを受けて動作し、前
記の2個のバツフア記憶74と75の内容のいず
れか一方のみを選択して出力する。
前記信号pが1のときは、バツフア記憶75中
に保持されている前記の平均化されたベクトル〓
が選択され信号線b1より出力される。逆に、前
記信号pが0のときは、バツフア記憶74中に保
持されているベクトル〓1 i(平均化されていない)
が選択され信号線b1より出力される。これら信号
線b1を経由するベクトル(〓iか〓1 iのいずれか)
は(14)式の標準パタンU1のベクトル〓1 iとして
標準パタン記憶部5に書込まれ、記憶される。
以上は標準パタンB1の平均化処理である。こ
れと同様な処理がバツフア記憶77と、マルチプ
レクサ78の働きによつて上記処理に並行して行
われ標準パタンB2を平均化したパタンが発生さ
れ、標準パタンU2のベクトル〓2 iとして前記標準
パタン記憶部5に書込まれる。
以上の処理がi=1、2、……、Iなるベクト
ル対(〓1 i、〓2 i)に対して実行されると、標準パ
タンB1とB2との相互平均化がなされ、新たな標
準パタンU1とU2とが生成される。このような処
理は類似語対として指定された単語の標準パタン
の間でなされる。このための類似語対指定は人手
によつてなされてもよいで、その手段は省略して
説明した。また、類似語対指定に含まれなかつた
標準パタンBnは、そのまま標準パタン記憶部5
に転送され新たな標準パタンUnとして記憶され
る。
かくの如く、類似語対に属する標準パタン間
で、類似したベクトル相互間の平均処理を行うこ
とによつて、音声認識システムの認識性能が向上
されるということは先に原理説明した通りであ
る。
以上述べた相互平均化では処理対象となる標準
パタンの長さ(系列中のベクトルの個数)が一定
であるとされていた。しかし、実際の音声パタン
等では標準パタン毎に長さが異なるのが普通であ
る。すなわち、 B1=〓1 1、〓1 2、……、〓1 j、……、〓1 j1 (21) B2=〓2 1、〓2 2、……、〓2 i、……、〓2 J2 (22) (J1≠J2) である。しかも、特願昭46−62782号明細書(特
開昭48−29323号公報)に述べられる如く、音声
パタンは第3図のように非線形に伸縮することが
知られている。
このため、単に時間的位置で対応づけられる特
徴間(例えば〓1 jと〓2 j)での平均化処理を行つた
のでは異なつた音韻同士を平均化するという不都
合が生じる。
第4図は上記の欠点が改良された平均化手段の
構成例を第2の実施例として示すブロツク図であ
る。図における標準パタンバツフア70、距離計
算部71、平均化処理部72、閾値回路73、バ
ツフア記憶74と75、マルチプレクサ76等は
第2図の平均化部の構成と同一物である。本第4
図例の構成では正規化部710が設けられている
点が特徴となつている。これによつて、前述の平
均化処理がなされるに先だつて、第3図に示すご
とく両パタンB1とB2の間で同一音韻同士を対応
づけるための正規化処理が実行される。この正規
化部710は、前記特願昭46−62782号明細書記
載の如く構成され、 j=k(i)min〔i=J2i=1 〓〓2 i−〓1 j〓〕 (23) なる最小化問題を動的計画手法で解き、ベクトル
2 iに対して、それに最も類似したベクトル〓1 j
対応づけるための関数j=k(i)を算出する。この
関数値k(1)、k(2)、……、k(i)、……、k(J2
はアドレス記憶部720に記憶される。
その後の相互平均化処理は標準パタンB2の各
特徴ベクトル〓2 iと、これに前記の関数値j=k
(i)によつて対応づけられる標準パタンB1のベク
トル〓1 jとの間で行なわれる。すなわち、カウン
タ730の出力信号iはi=1、2、……、J2
変化される。この信号iは前記のアドレス記憶部
720に入力される。これによつてアドレス記憶
部720からは関数値j=k(i)が読み出され信号
jとして出力される。標準パタンバツフア70に
はこの信号jと、前記信号iとがアドレス信号と
して与えられ、これに応じて標準パタンB1とB2
の特徴ベクトル〓1 jと〓2 iとが、それぞれ信号線
b2b1とを経由して出力される。以後は第2図の場
合と同様にして(19)式の距離d(〓1 j、〓2 i)の
大小によつて制御されつつ相互平均化処理が実行
される。
以上によつて標準パタンB2の相互平均化処理
が実行される。同様の事が標準パタンB1とB2
逆にして実行することによつて標準パタンB1
相互平均化がなされる。
かくの如く正規化手段を含んだ構成によると、
標準パタンB1とB2の間に時間軸のずれが存在す
る場合でも適切な時間正規化処理が達成され、音
声認識システムとしては、第1及び2図の構成に
よるものに比して一層高い認識性能が得られる。
以上述べた如く、標準パターン間で類似した部
分を相互に平均化することによつて類似単語間の
弁別を高精度に行なうことが可能となつた。
以上本発明の原理を実施例に基づいて説明した
がこれらの記載は本発明の範囲を限定するもので
はない。特に、第2図および第4図では閾値θが
一定であるとしたが適応的可変であつても良い。
例えば、パタンB1とB2全体としての距離D(B1
B2)に関連して変化されても良い。また、閾値
θとの比較によらず、ベクトル間の距離D(〓1 j
2 i)が小さい上位のものを相互平均化処理する
ことも可能である。さらに本発明の原理は音声以
外のパタンを対象とする場合にも有効に適用され
るのは明らかである。例えば、文字認識に適用さ
れた場合には、“問”と“間”のように極めて類
似した文字間の弁別に効果がある。
【図面の簡単な説明】
第1図は本発明のパターン認識システムを用い
た音声認識システムの一実施例を示すブロツク
図、第2図は第1図中の平均化部7の第1の実施
例の詳細構成を示すためのブロツク図、第3図は
原理説明図、第4図は平均化部7の第2の実施例
の構成を示すためのブロツク図である。 図において、1はマイクロホン、2は周波数分
折部、3はスイツチ回路、4はマツチング部、5
は標準パタン記憶部、6は判定部、7は平均化
部、70は標準パタンバツフア、71は距離計算
部、72は平均化処理部、73は閾値回路、7
4,75はバツフア記憶、76はマルチプレク
サ、77はバツフア記憶、78はマルチプレク
サ、710は正規化部、720はアドレス記憶
部、730はカウンタをそれぞれ示す。

Claims (1)

    【特許請求の範囲】
  1. 1 標準パタンを記憶するための標準パタン記憶
    部と、入力パタンと各標準パタンとの比較処理を
    行なうためのマツチング部と、これによる比較結
    果に基づいて判定を行なうための判定部と、類似
    単語対の標準パタン間でそれらの一部を相互に平
    均化する処理を行ない類似単語対に対する新たな
    標準パタンとする手段とを有することを特徴とす
    る音声認識システム。
JP8890979A 1979-07-13 1979-07-13 Pattern recognizing system Granted JPS5614381A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8890979A JPS5614381A (en) 1979-07-13 1979-07-13 Pattern recognizing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8890979A JPS5614381A (en) 1979-07-13 1979-07-13 Pattern recognizing system

Publications (2)

Publication Number Publication Date
JPS5614381A JPS5614381A (en) 1981-02-12
JPS6312312B2 true JPS6312312B2 (ja) 1988-03-18

Family

ID=13956060

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8890979A Granted JPS5614381A (en) 1979-07-13 1979-07-13 Pattern recognizing system

Country Status (1)

Country Link
JP (1) JPS5614381A (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58108594A (ja) * 1981-12-22 1983-06-28 富士通株式会社 音声入力再登録方法
JPS59168498A (ja) * 1983-03-16 1984-09-22 株式会社日立製作所 音声認識装置
JPS6146995A (ja) * 1984-08-11 1986-03-07 富士通株式会社 音声認識システム
JPS63204491A (ja) * 1987-02-20 1988-08-24 Nec Corp パタ−ン認識システム
JPS63210997A (ja) * 1987-02-27 1988-09-01 日本電気株式会社 パタ−ン認識システム
US5415791A (en) * 1990-08-02 1995-05-16 Oiles Corporation Lubricating composition and a sliding member comprising the composition
JP4393648B2 (ja) 2000-01-11 2010-01-06 富士通株式会社 音声認識装置
CN100552664C (zh) * 2006-10-20 2009-10-21 东芝泰格有限公司 模式匹配装置以及方法

Also Published As

Publication number Publication date
JPS5614381A (en) 1981-02-12

Similar Documents

Publication Publication Date Title
JPS6247320B2 (ja)
US5144672A (en) Speech recognition apparatus including speaker-independent dictionary and speaker-dependent
JPS6312312B2 (ja)
EP0421744A2 (en) Speech recognition method and apparatus for use therein
JPS63502304A (ja) 高雑音環境における言語認識のためのフレ−ム比較法
JPH0346839B2 (ja)
JPH04369698A (ja) 音声認識方式
Artimy et al. Automatic detection of acoustic sub-word boundaries for single digit recognition
JPS645320B2 (ja)
JPH0119597B2 (ja)
JPS5915993A (ja) 音声認識装置
JPS593491A (ja) 音声認識装置
JPH0556519B2 (ja)
JPS6026399A (ja) 単語認識装置
JPS5977500A (ja) 単語音声認識方式
JPS6344239B2 (ja)
JPS60147797A (ja) 音声認識装置
JPS58224394A (ja) 連続単語音声認識装置
JPS5944640B2 (ja) 音声情報サンプリング装置
JPH04109300A (ja) 衝撃音識別装置
JPS59127098A (ja) 連続単語音声認識装置
JPH0570838B2 (ja)
Webb et al. A microcomputer based speech recognition system
JPS61147299A (ja) 音声認識装置
JPS6147994A (ja) 音声認識方式