JPS6344239B2

JPS6344239B2 -

Info

Publication number: JPS6344239B2
Application number: JP56014147A
Authority: JP
Inventors: Takao Watanabe
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1981-02-02
Filing date: 1981-02-02
Publication date: 1988-09-02
Also published as: JPS57128400A

Description

【発明の詳細な説明】本発明は単語音声認識装置に関し、特に不特定
多数の利用者が話す単語音声を識別し認識する単
語音声認識装置に関する。

利用者が話す単語音声を分析して得られる音声
パターンは、話者の発声速度の変動に対応する時
間軸上のパターンの変動を有する。このような変
動をもつ音声パターンを予め登録された標準パタ
ーンと照合して両者の類似度を算定する方法とし
て、動的計画法を用いる時間軸正規化マツチング
方式（特願昭45−53896号明細書）がある。この
方式により特定話者の単語音声を精度良く認識す
ることができる。しかしこの方式は、予め登録さ
れた標準パターンとのマツチングをとる方式であ
るため、不特定話者の単語音声の認識を行なうた
めには厖大な演算量を必要とし装置の規模が大き
くなりまた演算時間が長くなり、不特定話者を対
象とする装置には適さないという問題点がある。
この問題点を解決するものとして、認識する対象
の単語群において各単語の音韻構造の特徴を抽出
して各単語を他の単語から識別できるような時点
の系列を選定しておき、その系列の各時点ごとの
音声パターンのみをサンプリングすることにより
音声パターンの時間軸でのデータ圧縮を行ない同
時に時間軸正規化を行なう装置（特願昭52−
82584号および特願昭52−82585号明細書）があ
る。

第１図は前記の単語音声認識装置（特願昭52−
82585明細書）を示すブロツク図である。同図に
おいて入力端１から入力された音声信号は音声パ
ラメータ抽出部２において予め定めた周期で周波
数分析されて、その結果得られる各周期ごとの音
声パラメータがベクトルの時系列の形で処理部３
へ送られる。バツフア４はメモリーであり、認識
すべき各単語（または各単語群）の単語テーブル
が格納されている。単語テーブルは、認識すべき
単語（または単語群）ごとにその音韻構成を代表
できるような時点の系列を示す情報すなわち各単
語（または各単語群）ごとのサンプリング情報の
テーブルである。処理部３へ送られた音声パラメ
ータの時系列は、処理部３においてバツフア４内
の単語テーブルすなわち各単語ごとのサンプリン
グ情報のテーブルに示されている時点における部
分だけをサンプリングされ時間圧縮を受けてパタ
ーンベクトルとして送出される。パターンベクト
ルの個数は単語テーブルの個数に等しい。なお処
理部３においては、前記のサンプリングによる時
間圧縮と同時に時間軸上でのパターンの変動の正
規化をも行なう（特願昭52−82584号明細書）。バ
ツフア６はメモリーであり、認識すべき各単語
（または各単語群）の識別関数の係数ベクトル
（または標準パターン）が格納されている。内積
演算部５は複数個のパターンベクトルを受けて、
各パターンベクトルとそれに対応する単語の識別
関数の係数ベクトル（または標準パターン）との
内積を計算して、これらの内積値を送出する。従
つて送出される内積値の個数はパターンベクトル
の個数に等しい。判別部７は複数個の内積値の大
小を比較して最も大きな値をとるパターンベクト
ルに対応する単語（または単語群）を表示する番
号（またはコード）を、また必要であればその内
積値をともに、出力端８から識別結果として出力
する。

以上説明した如く音声パラメータの時系列から
各単語ごとに該単語を他の単語から識別するに足
りるだけの部分時系列すなわち前記パターンベク
トルを抽出して時間圧縮を行なうことによつて、
動的計画法を用いる方法に比べて少ない演算量で
単語音声の認識を行なうことができる。しかしな
がら第１図の装置において、認識対象語いすなわ
ち識別して認識すべき対象とする単語の集まりの
中に類似度の高い単語が存在する場合には、それ
らの単語を識別するための演算量が増大する。す
なわち、認識対象語いの中で類似度の高い単語が
増えるとそれらの単語を第１図の装置により一括
して処理し識別するためには、類似度の高い単語
の差異を識別できるように音声パターンをサンプ
リングする時点の個数を著しく増やさなければな
らない。これに伴なつて演算量も厖大なものとな
り、装置の規模が大きくなりかつ演算時間が長く
なるという問題点がある。

本発明の目的は、前記の問題点を解決して類似
度の高い単語を含む語いに対しても識別能力が高
くかつ小形な単語音声認識装置を提供することに
ある。

本発明の装置は、入力単語の音声信号を分析し
た第１の信号を送出する手段と、前記第１の信号
を受けて予め定めた認識対象語いのうち前記入力
単語との類似度が高い複数（ｍ）個の単語を選択
する手段と、前記複数（ｍ）個の単語のうちから
複数（ｎ）個の単語（ただしｎ＜ｍ）を組合せた
複数（mCn）個の単語対ごとに該単語対に含ま
れる複数（ｎ）個の単語を互いに識別するための
サンプリング情報を格納する手段と、前記単語対
ごとに前記サンプリング情報により前記第１の信
号をサンプリングした複数（mCn）個の第２の
信号を送出する手段と、前記第２の信号を受けて
これに対応する前記単語対のうち前記第２の信号
との類似度が最も高い単語を選択する複数
（mCn）個の識別手段と、前記識別手段が選択し
た単語のうち最多数の単語を示す信号を出力する
手段とを有する。

次に図面を参照して本発明を詳細に説明する。

第２図は本発明の一実施例を示すブロツク図で
ある。入力端１から入力した音声信号は音声パラ
メータ抽出部２において音声分析されて、その結
果得られる音声パラメータがベクトルの時系列の
形で予備選択部１１および処理部１２へ送られ
る。予備選択部１１は第１図の装置のうち処理部
３よりあとの部分と同様の構成である。すなわち
予備選択部１１は、音声パラメータをサンプリン
グし時間圧縮してパターンベクトルを送出する処
理部と、単語テーブルを格納するバツフアと、各
単語の識別関数の係数ベクトル（または各単語の
標準パターン）を格納するバツフアと、各パター
ンベクトルとそれに対応する単語の識別関数の係
数ベクトル（または標準パターン）との内積を計
算する内積演算部と、これらの内積の大小を比較
判別する判別部とから構成される。予備選択部１
１のバツフア内の単語テーブルは、類似度の低い
単語の対は完全に識別しまた類似度の高い単語の
対は大まかに識別できる程度に、各単語ごとのサ
ンプリング情報を含んでいる。従つて予備選択部
１１での演算量は、全部の単語を完全に識別でき
るようにした場合と比べて著しく減らすことがで
きる。予備選択部１１へ送られた音声パラメータ
はサンプリングされて複数個のパターンベクトル
となり、各パターンベクトルはそれに対応する単
語の識別関数の係数ベクトル（または標準パター
ン）との内積演算を施される。内積の値の大きい
方から上位の３個のパターンベクトルに対応する
単語を表示する番号（またはコード）が予備選択
部１１から処理部１２へ送られる。記憶部１３は
メモリーであり、認識対象語いの中から２個の単
語をとつた単語対ごとにその２個の単語を互いに
識別できるようなサンプリング情報のテーブル
（以下では単語対テーブルと略称する）が格納さ
れている。予備選択部１１から３個の単語を表示
する番号l₁、l₂、l₃が送られると、それを受けた
処理部１２は音声パラメータ抽出部２から送られ
る音声パラメータの時系列のうち番号の対（l₁、
l₂）、（l₂、l₃）および（l₃、l₁）に対応する単語対
テーブルに示される時点の部分だけをサンプリン
グした３個のパターンベクトルをそれぞれ識別部
５１，５２および５３へ送る。識別部５１，５２
および５３はそれぞれ、第１図の内積演算部５と
同様に各パターンベクトルとそれに対応する単語
の識別関数の係数ベクトル（または標準パター
ン）との内積を計算してその値を送出する内積演
算部と、第１図の判別部７と同様に内積の値を比
較して最も大きな値をとるパターンベクトルに対
応する単語の識別番号（またはコード）を送出す
る判別部とから成る。記憶部１４はメモリーであ
り、処理部１２が送出するパターンベクトルを識
別するための識別関数の係数ベクトル（または標
準パターン）が格納されている。識別部５１は１
個のパターンベクトルを受けて、そのパターンベ
クトルと番号l₁に対応する単語の識別関数の係数
ベクトルとの内積P₁およびパターンベクトルと
番号l₂に対応する単語の識別関数の係数ベクトル
との内積P₂とを計算し、P₁＞P₂すなわちパター
ンベクトルが番号l₁の単語のものに近いと判別さ
れたときは（１、０、０）またP₁＜P₂すなわち
パターンベクトルが番号l₂のものに近いと判別さ
れたときは（０、１、０）の２進３ビツトのコー
ドを送出する。同様にして識別部５２および５３
もそれぞれ１個のパターンベクトルを受けて、そ
のパターンベクトルが番号l₁の単語に近いと判別
されたときは（１、０、０）、番号l₂の単語に近
いと判別されたときは（０、１、０）、また番号
l₃の単語に近いと判別されたときは（０、０、
１）のコードを比較判定部１５へ送る。

第３図は第２図のブロツク図のうち比較判定部
１５の部分を示すブロツク図である。識別部５
１，５２および５３から送られるコードはそれぞ
れ２進３ビツトのレジスタ２１，２２および２３
へ送られる。演算部２０はレジスタ２１，２２お
よび２３の内容を各ビツトごとに独立に加算して
その結果を３桁のアキユームレータ２４へ送る。
アキユームレータ２４の各桁は２進２ビツトでレ
ジスタ２１，２２および２３の各ビツトを加算し
た値が入れられる。識別テーブル２５はメモリー
であり、予備選択部１１から送られる番号l₁、l₂
およびl₃を格納する。出力部２６はアキユームレ
ータ２４の内容を判定して、それが（10、０×、
０×）ならば番号l₁を、（０×、10、０×）なら
ば番号l₂をまた（０×、０×、10）であれば番号
l₃を送出する。ただし、前記の×は０または１を
表わす。また前記のいずれにも該当しないときは
出力部２６は予め定めた識別不能を表わす信号を
送出する。

このようにして第２図において比較判定部１５
は、３つの識別部５１，５２および５３のうち２
つの識別部の識別結果が一致したときその識別結
果を示す信号を出力端８から出力する。第２図に
おいて記憶部１３に格納されている単語対テーブ
ルは２個の単語を互いに識別するためのサンプリ
ング情報のテーブルであるから、その２個の単語
の類似度が高い場合でもそれを識別するためのサ
ンプリング時点の個数は少なくてすむ。例えば類
似度の高い単語の対として「エイ」と「レイ」を
考えると、これを互いに識別するには単語の語頭
の近傍のみをサンプリングするようなサンプリン
グ情報を与えておけばよい。従つて、予備選択部
１１が選択した複数個の単語から２個ずつ組合せ
た単語対を作り単語対ごとの識別を行なうことに
よつて、類似度の高い単語を含む語いに対しても
少ない演算量で精度よく単語の識別を行なうこと
ができ、不特定話者を対象とする装置へ適用する
ことができる。なお本実施例においては、予備選
択部１１が送出する単語の個数を３個とし、また
単語対に含まれる単語の個数を２個としている
が、これらに限定する必要はなく複数個ずつと
し、前者が後者より多ければよい。

以上の説明により明らかな如く、本発明には類
似度の高い単語を含む語いに対しても識別能力が
高く、かつ小形な単語音声認識装置を構成するこ
とができるという効果がある。

【図面の簡単な説明】

第１図は従来の単語音声認識装置を示すブロツ
ク図、第２図は本発明の一実施例を示すブロツク
図および第３図は第２図の中の比較判定部１５の
部分を示すブロツク図である。図において、１……入力端、２……音声パラメ
ータ抽出部、１１……予備選択部、１２……処理
部、１３，１４……記憶部、５１，５２，５３…
…識別部、１５……比較判定部、８……出力端。

Claims

【特許請求の範囲】

１入力単語の音声信号を分析した第１の信号を
送出する手段と、前記第１の信号を受けて予め定
めた認識対象語いのうち前記入力単語との類似度
が高い複数（ｍ）個の単語を選択する手段と、前
記複数（ｍ）個の単語のうちから複数（ｎ）個の
単語（ただしｎ＜ｍ）を組合せた複数（mCn）
個の単語対ごとに該単語対に含まれる複数（ｎ）
個の単語を互いに識別するためのサンプリング情
報を格納する手段と、前記単語対ごとに前記サン
プリング情報により前記第１の信号をサンプリン
グした複数（mCn）個の第２の信号を送出する
手段と、前記第２の信号を受けてこれに対応する
前記単語対のうち前記第２の信号との類似度が最
も高い単語を選択する複数（mCn）個の識別手
段と、前記識別手段が選択した単語のうち最多数
の単語を示す信号を出力する手段とを有すること
を特徴とする単語音声認識装置。