JPS6312312B2

JPS6312312B2 -

Info

Publication number: JPS6312312B2
Application number: JP54088909A
Authority: JP
Inventors: Hiroaki Sekoe
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1979-07-13
Filing date: 1979-07-13
Publication date: 1988-03-18
Also published as: JPS5614381A

Description

【発明の詳細な説明】本発明は音声や文字の如きパタンを認識するシ
ステムの改良に関する。

本発明によるパタン認識システムの認識対象は
音声のパタンに限定されるものではないが、以下
では代表的な対象例として音声パタンの認識例に
基づいて説明を行なう。人間の発声による音声パ
タンを分折、識別する装置たる音声認識システム
は計算機や各種機械システムに対する指令情報や
各種データを入力する手段として有用である。近
年では数種の実用的な音声認識システムが発売さ
れ、産業界で利用されている。これらの音声認識
システムはパタンマツチング法を原理として動作
するものである。すなわち、システム使用に先だ
つて、オペレータの声（単語音声）がシステムに
入力され、そのパタンが標準パタンとして登録さ
れる。この標準パタンは認識システムが処理対象
とするすべての単語に対して登録される。その
後、実際に認識されるべき音声パタン（入力パタ
ンと呼ばれる）が入力されると、前記の標準パタ
ン群との比較が行われ、入力パタンと各標準パタ
ンとの間の距離が計算される。これらの距離を比
較することによつて、この入力パタンに最も近い
標準パタンが選定される。その結果として、入力
パタンはこの標準パタンと同一単語であると決定
される。以上述べたパタンマツチング法は原理が
簡単であつてしかも、高い認識性能を示すことが
実証されている。特に最近では、特願昭49−2418
号明細書（特開昭50−96104号公報）に述べられ
ているが如きダイナミツクプログラミング法を利
用して時間方向の変動を整合する手法が確立さ
れ、パタンマツチング法の実用性が高められた。

しかし、上記パタンマツチング法も“和歌山”
と“岡山”と言うように類似した単語の間を区別
する能力は必ずしも十分ではない。これは／
Wakayama／と／Okayama／の間では語頭の／
Wa／と／Ｏ／の部分が異なつているだけである
ためである。残りの／kayama／の部分、すなわ
ち大半の部分が共通であるため、例えば／
Wakayama／と発声入力しても／kayama／部
分が“和歌山”の標準パタンの／kayama／の部
分よりも、“岡山”の標準パタンの／kayama／
の部分により類似している場合が生じる可能性が
ある。このため音声パタン全体としては／
Wakayama／が／Okayama／と誤認識されるこ
とが往々にして発生する。

本発明は、従来のパタン認識システムの有する
上記欠点を改良し、類似した単語対が存在する場
合でも誤認識を生じることが少ないという点で従
来システムよりも高性能なパタン認識システムを
実現し提供することを目的としたものである。

本発明によるパタン認識システムは、標準パタ
ンを記憶するために標準パタン記憶部、入力パタ
ンと各標準パタンとの比較を行なうためのマツチ
ング部、この比較結果を基にして判定するための
判定部等の従来構要素に加えて、類似単語対の標
準パタン間でそれらの一部を相互に平均化する処
理を行うための平均化部を有して構成される。

本発明の構成を詳述するに先だつて本発明の作
用原理を説明する。いま説明を簡単にするために
音節／Wa／、／Ｏ／、／ka／、／ya／、／
ma／の特徴を次のような数字で示すというモデ
ルを用いる。

／Wa／……２／Ｏ／……４／ka／……９、10、／ya／……５、６／ma／……12、13 これらの数字は音声の特徴を抽象的に示したも
のである。実際には第１〜第３のフオルマント周
波数やバンドパスフイルタ分析によつて得られる
各帯域のエネルギ強度を示す数字の組みなどが音
声の特徴を示すパラメタとして用いられることが
多い。しかし、そのようなパラメタの組みはベク
トルとなり説明が繁雑となるので、ここではスカ
ラ量で代用した。また、上例の数値の割り合で
は、仮のものであつて、厳密な意味はない。ま
た、上記のそれぞれの音節に２個の数字が特徴と
して対応づけられているのは、音声の変動現象を
モデル化したものである。言葉を変えて言うと、
例えば／ka／なる音節の特徴は９となるものも
あるし、10となることもある。いま、／
Wakayama／なる音声の標準パタンが B¹＝２、９、５、12、 (1) で、／Okayama／なる音声の標準パタンが B²＝４、10、６、13 (2) であつたとする。この時／Wakayama／と発声
して入力パタンが、Ａ＝２、10、５、13 (3) であつたとする。この時入力パタンＡと標準パタ
ンB¹との絶対値距離は、Ｄ（Ａ、B¹）＝｜２−２｜＋｜10−９｜＋｜６−５｜＋｜13−12｜ (4) ＝３となるのに対して、入力パタンＡと標準パタン
B²との距離はＤ（Ａ、B²）＝｜４−２｜＋｜10−10｜＋｜６−６｜＋｜13−13｜ (5) ＝２となる。すなわち、入力パタンＡは標準パタン
B¹に対するよりも標準パタンB²に近いことにな
る。その結果／Wakayama／と発生された前記
入力パタンＡは／Okayama／と誤認識される。

このように／Wa／と／Ｏ／の特徴の違いが明
確に存在しているにもかかわらず、残余の部分の
特徴変動に影響されて誤認識が発生するという点
に類似語対弁別が困難である原因が存在する。

本発明による装置では類似語対の標準パタン間
で、両者に共通な部分を相互に平均化することに
よつて類似語対間の識別が改善される。前記の標
準パタンB¹とB²を用いたモデルでは共通部分／
ka／、／ya／、／ma／の部分を相互に平均し、／ka／……9.5 ／ya／……5.5 ／ma／……12.5 となす。この結果標準パタンは B₁＝２、9.5、5.5、12.5 (6) B²＝４、9.5、5.5、12.5 (7) となる。この標準パタンをもとにして、(4)、(5)式
と同様に距離を計算して見るとＤ（Ａ、B¹）＝1.5 (8) Ｄ（Ａ、B²）＝3.5 (9) とＤ（Ａ、B¹）の方が小となり、(3)式の入力パタ
ンＡは正しく／Wakayama／と認識される。

実際の音声認識処理では、以上のモデルのよう
に音節ごとに区分化が行われているわけではな
い。多くの場合は10チヤネル前後のフイルタバン
クによつて周波数分折を行ない各チヤネルの出力
レベルを10ｍｓ程度のフレーム周期でサンプリン
グを行つて、各チヤネルの出力レベル標本値を成
分とするベクトル〓_iの時系列として入力パタンＡ＝〓₁、〓₂、……〓_i……、〓_I (10) が構成される。同様に単語ｎ（ｎは単語名を示す
番号であるとする）の標準パタンは Bⁿ＝〓ⁿ ₁、〓ⁿ ₂、……〓ⁿ _i……、〓ⁿ _I (11) と表現される。これらは単に等間隔に標本化され
たものであるから、どの部分が何という音節であ
るかという事前の知識は利用できないのである。
それゆえ／Wakayama／の標本パタン B¹＝〓¹ ₁、〓¹ ₂、……、〓¹ _i、……、〓¹ _I(12) と、／Okayama／の標準パタン B²＝〓² ₁、〓² ₂、……、〓² _i、……、〓² _I（13）の間で、どの部分を相互に平均するべきかを自動
的に決定する必要がある。

一般にベクトル〓¹ _iと〓² _iの間の距離は、両者が
同一の音素に属する時は小さく、異なつた音素に
属する時は大きい。このことを考えると、〓¹ _iと
〓² _iの距離ｄ（〓¹ _i、〓² _i）を計算し、その大小によ
つて相互平均化すべき部分と、相互平均化しない
部分とを自動的に区別することができる。

第１図は以上の原理に基いて動作する音声認識
システムの一実施例を示すブロツク図である。こ
の音声認識システムは標準パタンを登録するため
の登録モードと、実際に入力処理を行うための認
識モードとに分れて動作する。

認識モードにおいてはスイツチ回路３は信号線
ａに接続される。マイクロホン１より入力された
入力音声信号は、特願昭51−61984号明細書（特
開昭52−144205号公報）の第３図に示された如き
周波数分折部２によつて周波数分折がなされ前記
(10)式に示すような入力パタンＡに変換され、スイ
ツチ回路３と信号線ａを経由してマツチング処理
部４に入力される。標準パタン記憶部５には、先
に原理的な説明が行われ、また後出の登録モード
の説明中に詳述するが如く、類似語間で相互平均
処理が行なわれた形式の標準パタン Uⁿ＝〓ⁿ ₁、〓ⁿ ₂、……、〓ⁿ _i、……、〓ⁿ _I（14）が記憶されている。ただし、ｎ＝１、２、……Ｎ
であつてＮは単語数を示す。これらＮ個の標準パ
タンはマツチング処理部４に向けて順次出力され
る。マツチング処理部４は、例えば、前記特願昭
49−2418号明細書記載の如く構成され、そこでは
前記信号線ａを経由して入力される入力パタンＡ
と、前述の如く順次入力される各標準パタンとの
間で距離Ｄ（Ａ、Uⁿ）が計算され信号線ｓを経由
して出力される。判定部６では前記の距離Ｄ（Ａ、
Uⁿ）の大小比較がなされ、最小の距離に対応す
る単語の番号ｎ＝n^が決定される。この単語番号
は、認識結果として出力される。

本発明の原理は登録モード時に適用される。こ
の時、前記スイツチ回路３は信号線ｂに接続され
る。それゆえ、マイクロホン１より順次入力さ
れ、前記分折部２により(12)式の如く変換された標
準パタン Bⁿ＝〓ⁿ ₁、〓ⁿ ₂、……、〓ⁿ _i、……〓ⁿ _I （15）は平均化部７に入力される。平均化部７では、類
似語対の標準パタン間で以下の相互平均化の処理
がなされる。

第２図は平均化部７の第１の実施例としてその
構成例を示すブロツク図である。

標準パタンバツフアには前記Ｎ個の標準パタン
Bⁿ（ｎ＝１、２、……、Ｎ）が保持されている。
いま、(12)のB¹（／Wakayama／）と（13）式の
B²（／Okayama／）の間で相互平均化の処理が
実行される様子を説明する。信号線b₁からは標準
パタンB¹のベクトルb¹ _iが、信号線b₂からは標準
パタンB²のベクトル〓² _iが、それぞれｉ＝１、
２、……、Ｉなる順序で出力される。これらのベ
クトルは、それぞれＱ個の成分よりなつている。

〓¹ _i＝（〓¹ _i1、〓¹ _i2、……、〓¹ _ik……、〓¹ _i〓）（1
6）〓² _i＝（〓² _i1、〓² _i2、……、〓² _ik……、〓² _iQ）（17
）これらのベクトルは平均化処理部７２で送られ
る。平均化処理部７２はこれら〓¹ _iと〓² _iの各成分
を平均して得られるベクトル〓_i＝（〓_i1、〓_i2、……、〓_ik……、〓_iQ）（18）が計算される。ここに、〓_ik＝１／２（〓¹ _ik＋〓² _ik）（19）このようにして得られる平均ベクトル〓_iはバツ
フア記憶７５に一時保持される。また、前記のベ
クトル〓¹ _iは、平均化処理されることなく、その
ままでバツフア記憶７４に一時保持される。

他方、距離計算部７１では上記の２個のベクト
ル〓¹ _iと〓² _iの間の距離 α（〓¹ _i、〓² _i）＝_Q 〓^k=1 ｜〓² _ik−〓¹ _ik｜（20）が計算され距離信号ｄとして閾値回路７３に送ら
れる。閾値回路７３では前記距離信号ｄが閾値θ
と比較される。その出力信号ｐはｄ≦θのときは
ｐ＝１、ｄ＞θのときはｐ＝０となされる。マル
チプレクサ７６はこの信号ｐを受けて動作し、前
記の２個のバツフア記憶７４と７５の内容のいず
れか一方のみを選択して出力する。

前記信号ｐが１のときは、バツフア記憶７５中
に保持されている前記の平均化されたベクトル〓
_ｉが選択され信号線b¹より出力される。逆に、前
記信号ｐが０のときは、バツフア記憶７４中に保
持されているベクトル〓¹ _i（平均化されていない）
が選択され信号線b¹より出力される。これら信号
線b¹を経由するベクトル（〓_iか〓¹ _iのいずれか）
は（14）式の標準パタンU¹のベクトル〓¹ _iとして
標準パタン記憶部５に書込まれ、記憶される。

以上は標準パタンB¹の平均化処理である。こ
れと同様な処理がバツフア記憶７７と、マルチプ
レクサ７８の働きによつて上記処理に並行して行
われ標準パタンB²を平均化したパタンが発生さ
れ、標準パタンU²のベクトル〓² _iとして前記標準
パタン記憶部５に書込まれる。

以上の処理がｉ＝１、２、……、Ｉなるベクト
ル対（〓¹ _i、〓² _i）に対して実行されると、標準パ
タンB¹とB²との相互平均化がなされ、新たな標
準パタンU¹とU²とが生成される。このような処
理は類似語対として指定された単語の標準パタン
の間でなされる。このための類似語対指定は人手
によつてなされてもよいで、その手段は省略して
説明した。また、類似語対指定に含まれなかつた
標準パタンBⁿは、そのまま標準パタン記憶部５
に転送され新たな標準パタンUⁿとして記憶され
る。

かくの如く、類似語対に属する標準パタン間
で、類似したベクトル相互間の平均処理を行うこ
とによつて、音声認識システムの認識性能が向上
されるということは先に原理説明した通りであ
る。

以上述べた相互平均化では処理対象となる標準
パタンの長さ（系列中のベクトルの個数）が一定
であるとされていた。しかし、実際の音声パタン
等では標準パタン毎に長さが異なるのが普通であ
る。すなわち、 B¹＝〓¹ ₁、〓¹ ₂、……、〓¹ _j、……、〓¹ _j1 （21） B₂＝〓² ₁、〓² ₂、……、〓² _i、……、〓² _J2 （22）（J¹≠J²）である。しかも、特願昭46−62782号明細書（特
開昭48−29323号公報）に述べられる如く、音声
パタンは第３図のように非線形に伸縮することが
知られている。

このため、単に時間的位置で対応づけられる特
徴間（例えば〓¹ _jと〓² _j）での平均化処理を行つた
のでは異なつた音韻同士を平均化するという不都
合が生じる。

第４図は上記の欠点が改良された平均化手段の
構成例を第２の実施例として示すブロツク図であ
る。図における標準パタンバツフア７０、距離計
算部７１、平均化処理部７２、閾値回路７３、バ
ツフア記憶７４と７５、マルチプレクサ７６等は
第２図の平均化部の構成と同一物である。本第４
図例の構成では正規化部７１０が設けられている
点が特徴となつている。これによつて、前述の平
均化処理がなされるに先だつて、第３図に示すご
とく両パタンB¹とB²の間で同一音韻同士を対応
づけるための正規化処理が実行される。この正規
化部７１０は、前記特願昭46−62782号明細書記
載の如く構成され、ｊ＝ｋ(i)min〔_i=J2 〓ⁱ⁼¹ 〓〓² _i−〓¹ _j〓〕（23）なる最小化問題を動的計画手法で解き、ベクトル
〓² _iに対して、それに最も類似したベクトル〓¹ _jを
対応づけるための関数ｊ＝ｋ(i)を算出する。この
関数値ｋ(1)、ｋ(2)、……、ｋ(i)、……、ｋ（J²）
はアドレス記憶部７２０に記憶される。

その後の相互平均化処理は標準パタンB²の各
特徴ベクトル〓² _iと、これに前記の関数値ｊ＝ｋ
(i)によつて対応づけられる標準パタンB₁のベク
トル〓¹ _jとの間で行なわれる。すなわち、カウン
タ７３０の出力信号ｉはｉ＝１、２、……、J²と
変化される。この信号ｉは前記のアドレス記憶部
７２０に入力される。これによつてアドレス記憶
部７２０からは関数値ｊ＝ｋ(i)が読み出され信号
ｊとして出力される。標準パタンバツフア７０に
はこの信号ｊと、前記信号ｉとがアドレス信号と
して与えられ、これに応じて標準パタンB¹とB²
の特徴ベクトル〓¹ _jと〓² _iとが、それぞれ信号線
b₂b₁とを経由して出力される。以後は第２図の場
合と同様にして（19）式の距離ｄ（〓¹ _j、〓² _i）の
大小によつて制御されつつ相互平均化処理が実行
される。

以上によつて標準パタンB²の相互平均化処理
が実行される。同様の事が標準パタンB¹とB²を
逆にして実行することによつて標準パタンB¹の
相互平均化がなされる。

かくの如く正規化手段を含んだ構成によると、
標準パタンB¹とB²の間に時間軸のずれが存在す
る場合でも適切な時間正規化処理が達成され、音
声認識システムとしては、第１及び２図の構成に
よるものに比して一層高い認識性能が得られる。

以上述べた如く、標準パターン間で類似した部
分を相互に平均化することによつて類似単語間の
弁別を高精度に行なうことが可能となつた。

以上本発明の原理を実施例に基づいて説明した
がこれらの記載は本発明の範囲を限定するもので
はない。特に、第２図および第４図では閾値θが
一定であるとしたが適応的可変であつても良い。
例えば、パタンB¹とB²全体としての距離Ｄ（B¹、
B²）に関連して変化されても良い。また、閾値
θとの比較によらず、ベクトル間の距離Ｄ（〓¹ _j、
〓² _i）が小さい上位のものを相互平均化処理する
ことも可能である。さらに本発明の原理は音声以
外のパタンを対象とする場合にも有効に適用され
るのは明らかである。例えば、文字認識に適用さ
れた場合には、“問”と“間”のように極めて類
似した文字間の弁別に効果がある。

【図面の簡単な説明】

第１図は本発明のパターン認識システムを用い
た音声認識システムの一実施例を示すブロツク
図、第２図は第１図中の平均化部７の第１の実施
例の詳細構成を示すためのブロツク図、第３図は
原理説明図、第４図は平均化部７の第２の実施例
の構成を示すためのブロツク図である。図において、１はマイクロホン、２は周波数分
折部、３はスイツチ回路、４はマツチング部、５
は標準パタン記憶部、６は判定部、７は平均化
部、７０は標準パタンバツフア、７１は距離計算
部、７２は平均化処理部、７３は閾値回路、７
４，７５はバツフア記憶、７６はマルチプレク
サ、７７はバツフア記憶、７８はマルチプレク
サ、７１０は正規化部、７２０はアドレス記憶
部、７３０はカウンタをそれぞれ示す。

Claims

【特許請求の範囲】

１標準パタンを記憶するための標準パタン記憶
部と、入力パタンと各標準パタンとの比較処理を
行なうためのマツチング部と、これによる比較結
果に基づいて判定を行なうための判定部と、類似
単語対の標準パタン間でそれらの一部を相互に平
均化する処理を行ない類似単語対に対する新たな
標準パタンとする手段とを有することを特徴とす
る音声認識システム。