JPS6132679B2

JPS6132679B2 -

Info

Publication number: JPS6132679B2
Application number: JP55143116A
Authority: JP
Inventors: Takayuki Ooyama; Hidekazu Shiratori; Yasuo Sato; Junichi Ichikawa
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1980-10-14
Filing date: 1980-10-14
Publication date: 1986-07-28
Also published as: JPS5766498A

Description

【発明の詳細な説明】本発明は、標準音声登録パターンの自動削除方
式に関し、特に、入力された音声を分折してその
特徴を抽出し、辞書部からの認識するための情報
と比較し、該比較結果にもとづいて確率の高い優
先順に、上記入力された音声である可能性の高い
単語候補を複数表示し、その中から正答候補を選
択することによつて音声認識処理を行なう方式に
おいて、誤つた発声等で作成された不要な標準パ
ターンを自動的に削除できるようにした方式に関
する。

現在、データ入力装置としてはタイプライタ、
キーボード、穿孔装置、タツチ入力装置等がある
が、それらの装置を十分に使いこなすためには、
操作者に対してかなりの訓練が必要であり、また
訓練後の操作者が実際の装置の操作を行なう場合
にも長時間連続して操作すると疲労度も増大す
る。

このように入力すべきデータを上記の如き入力
装置を用いて、データ処理装置が理解できるよう
な書かれたデータ形式、あるいは穿孔形式等に変
換するのにはかなりの負担のかかるのが普通であ
る。したがつて、望ましくは上記のような人手に
よる変換を行なわず入力データを音声の形式で直
接入力できれば誠に都合がよい。

このような音声入力装置についての研究は、か
なりの成果を収めており、入力対象を区切つて発
声された単語とし、使用者の発声単語の登録を前
提とする装置は、すでにいくつか実現されてい
る。

しかし、従来のこの種の装置においては、入力
すべき単語の音声の特徴が互に類似している場合
には、それらを認識、識別することは困難であ
り、その認識率が低下してしまつて実用的である
とは言えなかつた。

特に、入力対象がカナ文字の場合は殆んどすべ
ての音素の識別が必要とされ、現在の技術段階で
は、実用的レベルの認識を実現するのは極めて困
難な状況にある。このような音声認識の困難さの
理由としては、既に述べた (1) 互いにその特徴の類似した音素が存在するこ
と。

の他、さらに (2) 音素を特徴づけるパラメータが種々の要因で
変動すること。

(3) 一部の音素は特徴そのものが充分解明されて
いないこと。

などあげられる。

したがつて、これらの問題を含んだ音声入力を
実用的な意味で実現するには、これらの問題を直
接解決することを避け、入力された音声に対応す
る可能性のある文字候補をいくつか表示して、そ
のうちから正しい文字のみを選択するようにすれ
ばよい。

このような、複数の文字候補を表示し、その中
から正しい候補を選択する１つの方式について
は、本願の出願人は、先に出願した特開昭53−
77402号公報において開示している。

上記出願の発明においては、入力された音声に
相当する確率の高い文字候補順に複数の文字を表
示するが、正しい候補を如何にして、確実に、も
れなく表示するかは、残された問題である。通
常、音声パターンの分布は複雑であり、入力パタ
ーンとのマツチング距離を使用する場合、１つだ
けの登録パターンでは誤認識もしくは認識もれが
生ずる可能性が大である。そのため一般には、各
単語に対して必要に応じて複数の登録パターンを
設定するようにしており、例えば、認識の難しい
「ガ行」、「ザ行」、「ダ行」、「バ行」等の単語には
複数の登録パターンが与えられている。一方、比
較的認識の容易な「ア」、「カ」、「ユ」、「ヨ」等の
単語には単一の登録パターンを設定し、登録パタ
ーンの増加による認識処理速度の低下を防ぐよう
にしている。

第１図は音声パターンの分布と登録パターンの
関係を示すものであり、Ａ，Ｂ，Ｃ，Ｄの実線で
囲まれた部分は実際の音声パターンの分布を示
し、A₁とA₂は単語Ａに対する登録パターン、B₁
〜B₃は単語Ｂに対する登録パターン、C₁は単語
Ｃに対する登録パターンである。図示Ｃの如く、
１つの登録パターンでカバーできれば、認識しそ
こなうことはないが、図示Ａ，Ｂのような場合に
は、既存の登録パターンのみではカバーしきれな
い部分が存在し、認識率向上のさまたげとなる。

そのため、適当な手段を使用して登録パターン
を追加してゆく必要があるが、そのとき誤つた発
声等により、第１図図示のA₃の如きパターンを
単語Ａの登録パターンとしてしまつたとき、該
A₃パターンは単語Ａの正常な発声時においては
使用されることがなくなり記憶領域の無駄を招く
ことになる。さらに該A₃パターンが他の単語Ｄ
の音声パターン領域に入りこんでしまつている場
合には、単語Ｄを正常に発声したとき、単語Ａが
正答候補として表示されてしまうケースも生じ誤
認識を生ずるもととなる。

本発明は上記の点を解決し、誤つた発声等で作
成された不要な標準パターンを削除することによ
り、記憶領域を効率よく使用できるようにすると
ともに、他のパターンとの混同を減少させ認識率
の向上を計ることを目的とし、そしてそのため本
発明は入力された音声を分析してその特徴を抽出
し、辞書部からの認識するための情報と比較し、
該比較結果にもとづいて確率の高い優先順に、上
記入力された音声である可能性の単い単語候補を
複数表示し、その中から正答候補を選択すること
によつて音声認識処理を行なう方式において、選
択された単語に対応する複数の標準登録パターン
のうち入力音声とのマツチング距離が最小でかつ
一定値以下の標準登録パターンについては、該パ
ターンが使用されたものと見なし、各標準登録パ
ターンごとに使用回数を記憶しておくとともに、
ある単語の入力回数が一定回数以上となつた時点
で当該単語に対応する複数の標準登録パターンの
うち、使用回数が一定条件を満足しないものがあ
れば当該標準登録パターンを削除するようにした
ことを特徴とする。

以下、本発明を図面により説明する。第２図は
本発明による実施例の音声認識処理装置のブロツ
ク図であり、図中、１はスペクトル分析部、２は
パターン抽出部、３は照合判定部、４は結果表示
部、５は選択キー、６は辞書管理部、７は辞書部
である。

マイクロホン（MIC）より入力された音声信号
はスペクトル分析部１においてスペクトル分析さ
れる。スペクトル分析部１は、帯域フイルタ群、
パラメータ抽出回路などを含み、入力音声即ち単
音節音声の特徴量（パラメータ）例えば第１ホル
マント周波数に相当するモーメントM₁や第２ホ
ルマント周波数に相当するモーメントM₂や更に
は低域電力や高域電力などを抽出し、さらにこれ
らの特徴量に関するサンプル点を決定し特徴量の
時系列情報を得る機能を有している。スペクトル
分析部１においてスペクトル分析され、得られた
パラメータ時系列情報は、パターン抽出部２に入
力される。次に、パターン抽出部２は、入力音声
の特徴を表わす入力パターンを抽出し、照合判定
部３に送出する。照合判定部３は、辞書部７の内
容を順次読出し、辞書部７に登録されているパタ
ーンと上記抽出された入力パターンとの照合を行
なう。辞書部７においては、単語毎に１つまたは
複数の登録パターンが用意されている。図示の例
では単語A₁に対して（Ａ₁、₁；Ａ₁、₂）、単語A₂
に対して（Ａ₂、₁；Ａ₁、₂、；Ａ₂、₃）、単語A₃に
対して（Ａ₃、₁）、………、単語Anに対して（Ａ
_o、₁；Ａ_o、₂；Ａ_o、₃）がそれぞれ用意されてい
る。さらに各登録パターンに対しては使用回数を
保持する領域が付加されており、また各単語に対
しては対応する１個または複数個の登録パターン
の使用回数の和である総使用回数を保持する領域
が付加されている。そして、照合判定部３では、
上記入力パターンと登録パターンとの間の照合距
離が所定値以下のものを判定し、該所定値以下の
照合距離を有する登録パターンに対応する単語
（１つまたは複数）を正答単語候補として結果表
示部４へ送出する。結果表示部４では、照合距離
の小さい順、即ち確度の大きい順に複数の正答単
語候補を表示する。

使用者は、表示結果を見て、自分の入力したい
語があつた場合は、選択キー５を操作して当該単
語を選択し、図示しない記憶部へ記憶させる。

一方、選択キー５からの信号によつて入力音声
に対応する単語が同定されたとき、辞書管理部６
は、選択キー５からの信号によつて入力された単
語を識別し、辞書部７から当該単語に対応する登
録パターンを読出す。そして、当該登録パターン
が複数個存在する場合には、その中で入力パター
ンとの照合距離が最小のものを選択し、かつ選択
したものの照合距離が一定値以下のときは、当該
選択した登録パターンに対応する使用回数と当該
単語に対応する総使用回数を辞書部７より読出
す。辞書管理部７は、読出した使用回数と総使用
回数とをそれぞれ＋１するとともに、総使用回数
があらかじめ定められた一定値以上に達したか否
かを判定する。もし、該一定値に達していなけれ
ば、上記それぞれ＋１された使用回数と総使用回
数とを辞書部７に格納することにより、辞書部７
の内容の更新を行なう。

一方、総使用回数が上記一定値に達していると
きは、当該単語に対応する複数の登録パターン中
に、総使用回数に対する使用回数の割合が一定値
以下のものが存在するか否かを判定する。一定値
以下のものがなければ、上記＋１された使用回数
と総使用回数とを辞書部７に格納する。もし、総
使用回数に対する使用回数の割合が一定値以下の
ものが存在すれば、当該使用回数に対応する登録
パターンを辞書部７から削除する。そして、削除
特作が行なわれた単語については、残された登録
パターンの使用回数および総使用回数をゼロにク
リアして、新規にカウント動作を行なわせるよう
にする。

以上説明したように本発明によれば、辞書部に
登録された標準パターンの使用頻度を監視し、使
用頻度が一定レベル以下のものは自動的に辞書部
から削除するようにしたので、不要かつ誤認識の
もととなる標準パターンをなくすことができ、記
憶領域の効果的な使用および認識率の向上をもた
らすことができる。

【図面の簡単な説明】

第１図は音声パターンの分布と登録パターンの
関係を示すもの、第２図は本発明による実施例の
音声認識処理装置のブロツク図である。第２図において、１はスペクトル分析部、２は
パターン抽出部、３は照合判定部、４は結果表示
部、５は選択キー、６は辞書管理部、７は辞書部
である。

Claims

【特許請求の範囲】

１入力された音声を分折してその特徴を抽出
し、辞書部からの認識するための情報を比較し、
該比較結果にもとづいて確率の高い優先順に、上
記入力された音声である可能性の高い単語候補を
複数表示し、その中から正答候補を選択すること
によつて音声認識処理を行なう方式において、選
択された単語に対応する複数の標準登録パターン
のうち入力音声とのマツチング距離が最小でかつ
一定値以下の標準登録パターンについては、該パ
ターンが使用されたものと見なし、各標準登録パ
ターンごとに使用回数を記憶しておくとともに、
ある単語の入力回数が一定回数以上となつた時点
で当該単語に対応する複数の標準登録パターンの
うち、使用回数が一定条件を満足しないものがあ
れば当該標準登録パターンを削除するようにした
ことを特徴とする標準音声登録パターンの自動削
除方式。