JPS63220298A

JPS63220298A - 音声認識における単語候補削減装置

Info

Publication number: JPS63220298A
Application number: JP62053066A
Authority: JP
Inventors: 晋太木村; 真田　徹
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1987-03-10
Filing date: 1987-03-10
Publication date: 1988-09-13
Anticipated expiration: 2013-10-27
Also published as: EP0282272B1; DE3866736D1; EP0282272A1; US4962535A; JP2815579B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔概　要〕音声の入力パターンから確実に認識できる特徴的な音韻
を抽出し、単語テンプレート中から確実に認識できると
事前に予想される特徴的な音韻を抽出し、これらの特徴
的な音韻に基づいて音声認識時の照合処理に有効な単語
テンプレートを選択する。これにより、実際に照合の対
象となる単語テンプレートの数を大幅に削減し、認識率
を低下させることなく、音声認識時の処理を低減させる
ことができる。

〔産業上の利用分野〕

本発明は、多数の単語テンプレートの中から音声認識時
に参照の対象となる有効な単語テンプレートを選択する
音声認識における単語候補削減装置、特に大語量音声認
識時に有用な単語候補削減装置に関する。

音声認識装置は各種の用途に用いられるが、文書作成や
多数のコマンドを必要とする装置の操作を音声で行う場
合に有用である。この様な場合、最近は特に大語党の単
語が認識できることが望まれている。

〔従来の技術〕

第８図は、従来の音声認識装置の基本構成をブロック図
で示したものである。

第８図において、発声された音声は、マイクロホン２１
で電気信号に変換されて分析部２２に供　−給される。

分析部２２は、電気信号に変換された音声を周波数特性
が略一定とみられる数ミリから数１０ミリ秒毎に短時間
周波数分析して、短時間スペクトルの時系列からなる入
力パターンを作成する。この場合の短時間周波数分析に
は、アナログフィルタバンクによる方法、ディジタルフ
ィルタバンクによる方法、高速フーリエ変換（ＦＦＴ）
による方法、線形予測分析による方法等が用いられる。

辞書部２３には、認識させたい各単語部ち音声認識時に
参照の対象となる各単語候補のテンプレート（単語テン
プレート）が格納されている。

単語テンプレートは、参照の対象となる単語毎の音声を
分析部２２で分析して生成される短時間スペクトル時系
列（スペクトルパターンともいう）又は音韻ラベルネッ
トワーク（ｐｈｏｎｅｔｉｃ　ｌａｂｅｌｎｅｔｗｏｒ
ｋ）で表現される。

音韻ラヘルネットワークは、各子音や母音を示す音韻ラ
ベルを、第７図に例示する様に単語の音声を表現する様
に関係づけたものである。

第７図は、日本語の単語である“しかし”の音韻ラヘル
ネソトワークを例示したものである。図において“＃”
は単語境界、”　Ｓ　Ｈ”は“シ”の子音部、“■”は
無声化しない母音の“イ”、“ｌ”は無声化した母音の
“イ”、“Ｋ″は“力”の子音部、”Ａ″は母音の“ア
”を示すそれぞれの音韻ラベルである。第１及び第３音
節の“シ”の母音部分が無声化する場合があるため、ネ
ットワーク表現を用いて無声化という音声変形現象を表
現したものである。

照合部２４は、分析部２２より入力された入力パターン
と辞書部２３より読み出した各単語テンプレートとを照
合して音声の認識結果を出力する。

即ち、人カバターンと各単語テンプレートの類似度（又
は距離計算）を行い、類似度の大きいものから一個又は
複数個（距離計算の場合は、距離の小さいものから一個
又は複数個）の単語テンプレートの単語名を認識結果と
して出力する。この場合、人カバターンと単語テンプレ
ートの時間軸のずれの補正に動的計画法（ｄｙｎａｍｉ
ｃ　ｐｒｏｇｒａｍｍｉｎｇｍａｔｃｈｉｎｇ）を利用
した照合法が、高性能な処理方式として用いられる。ま
た、音韻ラベルのネットワークを使用する場合は、各音
韻ラベルのスペクトルパターンを別に格納した音韻テン
プレート（図示せず）を使用して、ネットワーク中の各
音韻ラヘルと入力パターンの類似度（又は距離）計算が
行われる。

以上の様にして、各種の単語音声の認識を行うことがで
き、辞書部２３に多数の単語テンプレートを格納してお
くことにより、人語量の音声認識を行うことができる。

〔発明が解決しようとする問題点〕

従来の音声認識装置は、入力パターンと単語テンプレー
トを照合する場合は、前述のように、辞書部に格納され
ているすべての単語テンプレートを人カバターンと照合
して類似度（又は距離）を計算していた。このため、処
理量が多くなり、人語量の音声認識の場合には単語テン
プレートの数が多大となり処理量が膨大となり処理に時
間が掛るという問題があった。特に動的計画法等の高性
能ではあるが処理量の多い方式の場合には、人語量の音
声の実時間認識が困難になるという問題があった。

本発明は、人語量音声の場合にも認識率を低下させるこ
となく処理量を大幅に低減させるため、多数の単語テン
プレートの中から音声認識時の照合処理に有効な単語テ
ンプレートを選択するようにした音声認識における単語
候補削減装置を提供することを目的とする。

〔問題点を解決するための手段〕

本発明の講じた解決手段を、第１図を参照して説明する
。第１図は、本発明の基本構成をブロック図で示したも
のである。

第１図において、１１は入力特徴音韻抽出部で、音声の
入力パターンから確実に認識できる特徴的な音韻を抽出
する処理を行う。

１２は、単語特徴音韻抽出部で、各単語テンプレート毎
にそれより確実に認識できると事前に予想される特徴的
な音韻を抽出する処理を行う。

１３は単語候補削減部で、入力特徴音韻抽出部１１及び
単語特徴音韻抽出部１２によって抽出された各特徴的な
音韻に基づいて、音声認識時の照合処理に有効な単語テ
ンプレートを選択する処理を行う。

〔作　用〕

入力特徴音韻抽出部１１は、認識対象である音声の入力
パターン中の各音韻から確実に認識できる特徴的な音韻
を抽出する。この特徴的な音韻は、その音声であるかぎ
り必ず現れる音韻である。

一方、単語特徴音韻抽出部１２は、各単語テンプレート
毎にそれより確実に認識できると事実に予想される特徴
的な音韻を抽出する。この特徴的な音韻は、その単語の
音声であるかぎり必ず現れる音韻である。

単語候補削減部１３は、入力特徴音韻抽出部１１及び単
語特徴音韻抽出部１２によって抽出された各特徴的な音
韻に基づいて、音声認識時の照合処理に有効な単語テン
プレートを選択する。

例えば、■入力特徴音韻抽出部１１によって抽出される
入力パターンの特徴的な音韻を有している単語テンプレ
ートであること、■単語特徴音韻抽出部１２によって抽
出された単語テンプレートの特徴的な音韻が入力パター
ンに含まれていること、の少くとも一方が満足されない
場合は、その単語テンプレートは明らかに音声認識時の
照合処理に有効な単語テンプレートではない。したがっ
て、これらの単語テンプレートを不適確として削減し、
前記■及び■の条件を同時に満足する単語テンプレート
が有効な単語テンプレートとして選択するようにする。

以上のようにして、多数の単語テンプレートの中から音
声認識処理時の照合処理に有効な単語テンプレートを選
択することにより、実際に参照の対象となる単語テンプ
レートの数を大幅に削減することができる。また、入力
パターン及び単語テンプレートに存在する特徴的な音韻
に基づいて音声認識時の照合処理に有効な単語テンプレ
ートを選択するようにしたので、認識率を低下させるこ
となく照合処理量を含めて全体の音声認識処理量を大幅
に低減することができる。したがって、音声認識処理が
効率良く行われ、人語量音声の場合でも容易に実時間認
識を行うことができる。

〔実施例〕

本発明の各実施例を、第２図〜第６図を参照して説明す
る。第２図は本発明の第１の実施例の構成の説明図、第
３図は各実施例における各音韻のワード内ビット割り当
て例の説明図、第４図は各実施例におけるビット表現の
説明図、第６図は本発明の第２の実施例の説明図である
。

（Ａ）第１の実施例の構成第２図において入力特徴音韻抽出部１１、単語特徴音韻
抽出部１２及び単語候補削減部１３については、第１図
で説明したとおりである。

１４は、電気音響変換部で、例えばマイクロホンで構成
され、入力音声を電気信号に変換する。

１５は分析部で、電気信号に変換された音声に対して周
波数特性が略一定とみられる数ミリから数１０ミリ秒毎
に短時間周波数分析を行い、短時間スペクトルの時系列
からなる入力パターンを作成する。

１６は辞書部で、単語テンプレート即ち音声認識時に参
照の対象となる各単語候補のテンプレートが格納される
。単語テンプレートは、その単語音声の短時間スペクト
ル時系列（スペクトルパターン）又は音ラベルネットワ
ークで表現される。

１７は照合部で、分析部１５より入力された入力パター
ンと単語候補削減部１３より人力された各単語テンプレ
ートとを照合して音声の認識結果を出力する。

（Ｂ）第１の実施例の動作第１の実施例の動作を、第３図及び第４図を参照して説
明する。

分析部１５は、電気音響変換部１４より入力された音声
信号に対して短時間周波数分析を行って入力パターンを
作成し、入力特徴音韻抽出部１１及び照合部１７に入力
する。

人力特徴音韻抽出部１１は、この入力パターンから確実
に認識できる特徴的な音韻を抽出するが、以下、第３図
及び第４図を参照してこの特徴的な音韻抽出処理を説明
する。

すべての音韻を、１ワード内の各ビットに割り当てるよ
うにする。日本語の場合、音韻の数は母音及び子音を含
めて２４個程度であるので、ｌワード（３２ビット程度
）内の各ビットに割り当てることができる。第３図は、
その割り当て方の一例を示したものである。図において
、＊印は割り当てのないことを示している。

次に、大きいパワーで発音される音韻（以下、強い音韻
という）が容易かつ確実に検出されることから、この実
施例では、強い音韻が確実に認識できる特徴的な音韻と
して用いられる。

この特徴的な音韻の存在は、特徴的な音韻の該当ビ・ノ
ドに“１”を立てることによって表現する。

例えば、入力パターンにＡ、Ｓ及びＯという３個の音韻
が強い音韻として検出された場合は、第４図に示す様に
、ビット０．４及び６の位置に１”が立てられる。以下
、このような音韻のビットによる表現を、ビット表現と
呼ぶ。

このようなビット表現を用いると、既存の論理回路によ
りｌワード（３２ビット程度）毎の論理演算が極めて高
速で処理することが可能であるので、次に説明する単語
候補削減のための演算を高速に処理することができる。

入力特徴音韻抽出部１１は、人カバターンから強い音韻
を抽出し、この強い音韻のビット表現（ｓｌで示す）を
作成して単語候補削減部１３に入力する。

同様に、単語特徴音韻抽出部１２は、辞書部１６より単
語テンプレートを読み出し、単語テンプレートを形成す
るすべての音韻を用いてビット表現（ｄｉで示す、ｉは
テンプレート番号である）を作成する。

更に、その単語テンプレートにおいて確実に認識できる
と事前に予想される特徴的な音韻即ち強い音韻を抽出し
て、その単語テンプレートの強い音韻のビット表現（ｄ
ｉ’で示す。ｉはテンプレート番号である）を作成する
。

この場合、単語テンプレートがスペクトルパターンの場
合は単語テンプレートから入力特徴音韻抽出部１１と同
様にして強い音素を抽出し、単語テンプレートの強い音
韻のビット表現（ｄｉ’　）を作成する。単語テンプレ
ートが音韻ラベルのネットワークの場合は、そのネット
ワーク上の各音韻ラベルにその音韻が強い音韻であるか
どうかを示すフラグを予め人間が付けておくか、または
音声学のルールに従って強い音韻を自動的に抽出し、単
語テンプレートの強い音韻のビット表現（ｄｉ’　）を
作成する。

以上のようにして作成された各ビット表現ｄｉおよびｄ
ｉ’は、単語候補削減部１３に入力される。

単語候補削減部１３は、入力特徴音韻抽出部１１及び単
語特徴音韻抽出部１２から入力された各ビット表現に基
づいて、音声認識時の照合処理に有効な単語テンプレー
トを選択するが、この実施例では、次の２段階処理によ
り単語テンプレートの選択処理を行う。

まず第１段階では、各単語テンプレートの音韻のビット
表現ｄｉと人カバターンの強い音韻のビット表現ｓｌと
の間で次の式Ｔｌ）を満たすビット表現ｄｉを求め、そ
れを次の第２段階に渡す。

ｄｉ−ｓｌ＝ＳＩ　　　　　　　　　・・・・・・・・
・・・・・・・（１）なお、式（１）中で演算子の“・
”はビット毎の論理積を表す。

次に第２段階では、式（１）を満たす単語テンブレー）
ｄｉの強、い音韻のビット表現ｄｉ′　と入力パターン
の強い音韻のビット表現ｓｒとの間で次の式（２）を満
たすビット表現ｄｉ’を選択結果とする。

ｄｉ′　　・５ｌ＝ｄｉ’　　　　　　・・・・・・・
・・・・・（２）式（１）は、入力パターンに現れる強
い音韻は必ず選択される単語テンプレートに含まれるこ
とを意味する。式（２）は、選択される単語テンプレー
トで予想される強い音韻は必ず入力パターンに含まれな
ければいけないことを意味する。

この式（１）及び弐（２）を同時に満たす単語テンプレ
ートが、音声認識時の照合処理に有効な単語テンプレー
トであることは明らかである。式（１）及び式（２）の
両方を満たす単語テンプレートは、次の式（３）の値の
全ビットが“１”である単語テンプレートである。

（■Ｔ■Ｙ歪■・　ｄｉ　　−ｓＩ　　■ｄｉ　　・・
・・・・（３）なお、式（３）で、“■”はビット毎の
排他的論理和、“□”は全ビット反転（否定）を示す。

式（３）を変形することにより、次の式（４）に簡単化
される。

（ｄｉ＋ｓｌ）　　・（ｄｉ　　＋ｓｌ）　　　”・”
・（４１なお、式（４）で、“＋゛は、ビット毎の論理
和を示す。

第５図は、式（４）の論理演算を行う具体的な回路の一
例を示したものである。１３１及び１３２はＮＯＴ回路
、１３３及び１３４はＯＲ回路、１３５はＡＮＤ回路、
１３６は比較回路（ＣＭＰ）である。

ビット表現ｄｉ’はＮ　ＯＴ回路１３１に入力され、ビ
ット表現ｓＩはＮＯＴ回路１３２及びＯＲ回路１３３に
入力され、ビット表現ｄｉはＯＲ回路１３４に入力され
る。比較回路１３６には、ＡＮＤ回路１３５の出力と“
＝１”が入力される。

ＯＲ回路１３３は（ｄｉ　　＋ｄＩ）を生成し、ＯＲ回
路１３４は（ｄｉ＋ｄｌ）を演算してそれぞれＡＮＤ回
路１３５に加える。

ＡＮＤ回路１３５は、式（４）に示される（ｄｉ十訂）
・　（ｄｉ　　＋ｄｌ）を演算して比較回路１３６に入
力する。

比較回路１３６は、（ｄｉ十訂）・　（ｄｉ　　＋ｄｌ
）と“−１”とを比較し、（ｄｉ＋ｄｌ）　　・（ｄｉ
　　十ｄｌ）の全ビットが“１″であるか否かを判定す
る。

単語候補削減部１３は、以上の論理演算を行うことによ
り式（４）を満たす単語テンプレートを選択し、照合部
１７に送る。これにより、照合の対象となる有効な単語
テンプレートの数を大幅に削減することができる。

照合部１７は、従来方式と同様にして、分析部１５より
加えられた入力パターンと単語候補削減部１３より加え
られた各単語テンプレートの類似度計算（または距離計
算）を行い、類似度の大きいものから一個または複数個
（または距離の小さいものから一個または複数個）の単
語テンプレートの単語名を出力する。

以上のようにして、有効な単語テンプレートのみを選択
して照合処理を行うことにより、認識率を低下させるこ
となく処理量を低減して、効率の良い音声認識を行うこ
とができる。

（Ｃ）第２の実施例前述した第１の実施例において、単語特徴音韻抽出部１
２で行われる各単語テンプレートのビット表現ｄｉ及び
その単語テンプレートに予想される強い音韻のビット表
現ｄｉ′は、入力パターンに関係なく各単語テンプレー
トの特徴から決まるものである。

したがって、各単語テンプレートにおけるこれらのビッ
ト表現ｄｉ及びｄｉ′を予め求めておけば、単語候補削
減処理時の処理を更に削減し、処理を効率良く行うこと
ができる。

第２の実施例は、このような点に着目してなされたもの
である。以下、第６図を参照して第２の実施例について
説明する。

第６図において、単語特徴音韻抽出部１２が、ビット表
現作成部１２１及びビット表現記憶部１２３で構成され
ている点を除き、その他の構成、即ち、入力特徴音韻抽
出部１００単語候補削減部１３、電気音響変換部１４９
分析部１５．辞書部１６及び照合部１７の構成及び動作
は、第２図で説明した第１の実施例と同様である。

単語特徴音韻抽出部１２において、ビット表現作成部１
２１は、辞書部１６より読み出された各単語テンプレー
トからそのビット表現ｄｉ及び予想される強い音韻のビ
ット表現ｄｉ’を予め作成し、それらをビット表現記憶
部１２２に格納しておく。

単語候補削減部１３は、入力特徴音韻抽出部１１より入
力パターンのビット表現ｓｌが入力されると、ビット表
現記憶部１２２にある各ビット表現ｄｉ及びｄｉ’を参
照して、直ちに前掲の式（４）（又は（３））を満たす
有効な単語テンプレートを選択することができる。

これにより、単語候補削減処理時の処理量を、第１の実
施例よりも更に削減することができる。

以上、本発明の各実施例について説明したが、本発明の
各構成は、これらの実施例の各構成に限定されるもので
はない。例えば、ビット表現におけるビット数としてｌ
ワードのビット数以外のビット数を用いることができる
。また、本発明は日本語以外の言語にも適用されるもの
である。

〔発明の効果〕

以上説明したように、本発明によれば次の諸効果が得ら
れる。

（イ）多数の単語テンプレートの中から音声認識時の照
合処理に有効な単語テンプレートを選択することにより
、実際に参照の対象となる単語テンプレートの数を大幅
に削減することができる。

（［Ｉ）音声認識時の照合処理に有効な単語テンプレー
トを選択するようにしたので、認識率を低下させること
なく、照合処理量を含めて全体の音声認識処理量を大幅
に低減することができる。

（ハ）処理量が大幅に低減され、音声認識処理が効率良
く行われるので、人語党音声の場合でも、容易に実時間
認識を行うことができる。

【図面の簡単な説明】

第１図は本発明の基本構成の説明図、第２図は本発明の第１の実施例の構成の説明図、第３図
は本発明の各実施例における各音韻のワード内ビット割
り当て例の説明図、第４図は本発明の各実施例におけるビット表現の説明図
、第５図は本発明の各実施例の単語候補削減部における論
理演算回路の説明図、第６図は本発明の第２の実施例の構成の説明図、第７図
は音韻ラベルネットワークの説明図、第８図は従来の音
声認識装置の説明図である。第１図、第２図及び第６図において、１１・・・入力特徴音韻抽出部、１２・・・単語特徴音
韻抽出部、１３・・・単語候補削減部、１４・・・電気
音響変換部、１５・・・分析部、１６・・・辞書部、１
７・・・照合部、１２１・・・ビット表現作成部、１２
２・・・ビット表現記憶部。本発明力塾本末ユ成゛第１図乳ｉ芙化伜１め積板賛Ｍ配イ々弔てｆ；、７ろ各皇ト佐均ｆ）−７−μ′ｉ
カビ゛ットを弓１１者フイ々Ｊ１第３＠老ｒ事胞Ａ手１に、ル１々ビレト表工晃第４図各フ〔Ｉ灯防りａ語Ａり賃弓５成埴ｉｒＪう翁Ｓζにモ
ｆ；＄１ａｄド％　２　）芙ｆ’ｆ！Ａ１１’Ｉ　ｎ　
’ＩＪＩ　ｒ＆第６図髄末１睦５！、ｚ叡装置第８０名神ラヘ８し卑ヅトフーフ第７図

Claims

【特許請求の範囲】

（１）単語テンプレートの中から音声認識時の照合処理
に実際に参照の対象となる単語テンプレートを選択する
音声認識における単語候補削減装置であって、（ａ）音声の入力パターンから確実に認識できる特徴的
な音韻を抽出する入力特徴音韻抽出部（１１）と、（ｂ）各単語テンプレート毎にそれより確実に認識でき
ると事前に予想される特徴的な音韻を抽出する単語特徴
音韻抽出部（１２）と、（ｃ）入力特徴音韻抽出部（１１）及び単語特徴音韻抽
出部（１２）によって抽出された各特徴的な音韻に基づ
いて、音声認識時の照合処理に有効な単語テンプレート
を選択する単語候補削減部（１３）、を備えたことを特徴とする音声認識における単語候補削
減装置。
（２）入力特徴音韻抽出部（１１）が、入力パターンか
ら確実に認識できる特徴的な音韻のビットによるビット
表現（ｓＩ）を作成し、単語特徴音韻抽出部（１２）が、各単語テンプレートの
音韻のビットによるビット表現（ｄｉ、ｉは単語テンプ
レートの番号）及びその単語テンプレートから確実に認
識できると事前に予想される特徴的な音韻のビットによ
るビット表現（ｄｉ′、ｉは単語テンプレートの番号）
を作成し、単語候補削減部（１３）が、＠（ｄｉ・ｓＩ）■ｓＩ＠・＠（ｄｉ′・ｓＩ）■ｄｉ
＠なる論理演算又はこれと等価な論理演算の値の全ビッ
トが“１”であるかどうかを判定して有効な単語テンプ
レートを選択することを特徴とする特許請求の範囲第１
項記載の音声認識における単語候補削減装置。
（３）単語特徴音韻抽出部（１２）が、ビット表現記憶
部（１２２）を設け、予め前記各単語テンプレート毎の
ビット表現ｄｉ及ひｄｉ′を求めてビット表現記憶部（
１２２）に格納しておくことを特徴とする特許請求の範
囲第１項又は第２項記載の音声認識における単語候補削
減装置。