JPS61179499A

JPS61179499A - テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム

Info

Publication number: JPS61179499A
Application number: JP60214381A
Authority: JP
Inventors: アラン・ローレンス・ヒギンズ; ロバート・イー・ウオールフオード; ローレンス・ジヨージ・バーラー
Original assignee: International Standard Electric Corp
Current assignee: International Standard Electric Corp
Priority date: 1984-09-28
Filing date: 1985-09-27
Publication date: 1986-08-12
Anticipated expiration: 2010-08-09
Also published as: ATE48486T1; EP0177854A1; JPH0774960B2; DE3574640D1; EP0177854B1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の技術分野］この発明は、音声中のキーワードの発生を検出するシス
テムおよび方法に関する。

［発明の技術的背景］従来のキーワード認識システムは例えばブリチッシュ・
アコステイカル・ソサヤテイ・スプグ・ミーティング１
９７３年４月１〜４頁に記載されている。このシステム
では検出されるべきキーワードの話された例のパラメー
タ表示からエラスティック・テンプレートが導出される
。入って来る音声の同様のパラメータ表示が連続的にこ
れらのテンプレートと比較され、音声とテンプレートが
導出されるキーワードとの間の類似性が測定される。入
って来る音声のセグメントが対応するテンプレートと充
分に類似しているとき、あるキーワードが話されたもの
とされる。キーワードテンプレートは、話す速度および
発音法における変化のために時間的に伸長または圧縮さ
れることができるから、エラスティックと呼ばれる。

［発明の解決すべき問題点］従来の方法で使用されているシステムはしばしばキーワ
ードが話されたという誤った指示または警報を与える。

これらの誤った警報は入って来る音声がキーワードと類
似した音響パターンを含んでいる時に生じる。誤った警
報の頻度はキーワードの音響パターンの言語中のユニー
クさに依存している。別の欠点は、従来の方法を使用す
るシステムは多量の計算電力を必要とすることである。

さらに、これらの方法の性質は実時間（リアルタイム）
で動作する実際のシステムを構成することが困難である
ことである。これらの欠点がキーワードｉ！識システム
の実用的な開発を制限していた。

この発明は、連続的な話された音声中のキーワードの発
生を検出する方法を使用するシステムを提供するもので
ある。

［問題点の解決手段］この発明の方法は、従来の方法よりも強力な決定方法を
使用する。その決定方法はキーワード仮定と観測された
音声がキーワードではないという別の仮定の両者を評価
するものである。すぐれた言語モデルが後者の仮定を評
価するために使用される。このモデルによる言語の任意
の発音は一組のフィラー（ｆｉｌｔｅｒ）テンプレート
の連鎖によって近似される。このシステムは制限されな
い自然の音声におけるキーワードの発生の自動検出を可
能にする。このシステムは特定の発音者によって訓練さ
れることができ、或いは発音者に無関係に機能すること
ができる。

［発明の実施例］以下、添附図面を参照にしてこの発明の原理を実施例に
よって説明する。

この発明によるキーワード認識またはワードスポットシ
ステムはキーワードに対してのみならず言語中の全ての
音声に対するモデルを使用する。

この発明の方法は、入って来る音声と従来の方法のよう
にキーワードから導出されたエラスティック・テンプレ
ートとの間の類似性を連続的に測定する。さらに、入っ
て来る音声と一般的な言語モデルとの間の類似性を測定
する。キーワードは、キーワード・テンプレートに対す
る類似性が一般的な言語モデルに対する類似性より充分
に大きいときに検出されたものとする。

一般的な言語モデルは、訓練発音から導出された予め記
録された音声の例えば５０〜５００の短いセグメントの
セットからなる。これらのセグメントは以下フィラー・
テンプレートと呼ぶ。それらは言語を話す人によって使
用された音響空間を覆うゴールによって選ばれる。これ
は例えば訓練発音のセグメント化および統計的集団解析
によって行われる。それらの期間は音素（フォニーム）
の期間と音節（シラブル）の期間との間の範囲にある。

モデルによる言語の任意の発音はそれらの順序に制限さ
れることなくフィラー・テンプレートの連鎖によって近
似される。一般言語モデルとしてのフィラー・テンプレ
ートの使用はこの発明のユニークな特徴である。

この発明は、構文に束縛されることのない変形連続音声
１１（Ｃ３Ｒ）システムを使用して構成される。Ｃ８Ｒ
システムはキーワードテンプレートとフィラーテンプレ
ートの組合わせを使用し、入力音声と最もよく一致した
連鎖テンプレートのシーケンスを決定する。Ｃ８Ｒシス
テムは本出願人の１９８２年１１月３日出願の米国特許
出願４３９０１８号、１９８３年３月９日出願の米国特
許出願４７３４２２号明細書に記載されたようなものが
使用できる。理想に近い、すなわちゼロに近いエラー率
の動作において、キーワードテンプレートは話されたキ
ーワードと整合し、フィラーテンプレートは残りの全て
の音声と整合する。キーワードテンプレートが最良の整
合のテンプレートシーケンス中に現われるとき、キーワ
ードが話されたものとされる。

この発明は、新しいテンプレートが部分テンプレートス
トリングに連鎖されたときには、一定のペナルティが部
分ストリングスコアに追加されるように変形することに
よって、現在あるＣ８Ｒシステムを使用することができ
る。マルコフ（Ｍａｒｋｏｖ　）モデルの状態としてフ
ィラーテンプレートを見ると、連鎖ペナルティは対数転
移確率に類似している。固定ペナルティの使用は全ての
転移が等しい確率であると仮定することと等価である。

ペナルティの値はそれ故フィラーテンプレートの数の対
数に反比例する。またフィラーおよびキーワードテンプ
レートの相対的期間について、正の連鎖ペナルティの供
給は、短いテンプレートまたはフィラーに関して長いテ
ンプレートまたはキーワードの認識の可能性を増加させ
る。それはより少ないペナルティしか生じないからであ
る。

したがってペナルティはフィラーテンプレートセットを
変形せずにシステムの動作点を調整する手段を与える。

この発明は、キーワード検出に対してより強力な決定方
法を使用することによって従来の方法の欠点に対処する
ものである。従来の方法はキーワードを与えた音響的デ
ータの条件確率を算定するものであるが、この発明は、
音響的データを与えたキーワードの条件確率を算定する
ものである。

後者の量はキーワード検出に必要な情報である。

この発明は、従来の方法で行われていた冗長度計算の必
要性をなくすものである。増加した効率は大きさ順序に
よる所要の計算を減少する。

キーワード認識システムのブロック図が第１図に示され
ている。マイクロホン１０１からの入力音声は音響アナ
ライザ１０２の入力に与えられる。音響アナライザ１０
２は音声を短いフレームに分割し、その出力に各フレー
ムのパラメータ表示を出力する。音響アナライザによっ
て行われる音響的解析の特定の形式はこの発明では厳密
なものではなく、前記米国特許出願明細書に記載された
ような音響アナライザを使用することもできる。例えば
１０ミリ秒のフレームの大きさの１６チヤンネルバンド
バスフイルタによる解析が使用できる。これらのスペク
トルパラメータは、選択スイッチ１０３によって選択さ
れたシステム動作モードに応じて３つの方法のいずれか
で処理することができる。３つのモードとは認識モード
、キーワード訓練モード、およびフィラーテンプレート
訓練モードである。

認識モードにおいては音響アナライザのスペクトルパラ
メータ出力は変形されたＣ８Ｒシステム１０４の入力に
与えられる。このＣ８Ｒシステム１０４によって行われ
るＣ３Ｒアルゴリズムは前述したような変形を除いては
この発明にとってクリティカルなものではない。変形Ｃ
８Ｒシステムは認識されるべき入力音声に最も良く整合
する蓄積されたフィラーおよびキーワードテンプレート
の連鎖シーケンスを決定する。変形Ｃ８Ｒシステムの出
力はテンプレートラベルのストリングであり、それにお
いて各ラベルは最良の整合のテンプレートシーケンスに
おける一つのテンプレートを表わしている。例えば各テ
ンプレートは数を割当てられ、ラベルはその数を表わす
多ピットであってよい。この出力はキーワードテンプレ
ートサーチサブシステム１０９に与えられ、それは例え
ば多ビツト表示である場合には入力テンプレートラベル
を蓄積されたキーワードテンプレートラベルと比較する
キーワードテンプレートラベル用の蓄積ｆＩ＠を有する
多ピット比較器であってもよい。キーワードテンプレー
トサブシステム１０９はその場合にはキーワードが話さ
れたことの指示およびどのキーワードが話されるかの指
示を与える。

キーワード訓練モードにおいては、使用者は各キーワー
ドを別々に話し、音響アナライザのスペクトルパラメー
タ出力は例えば前記米国特許出願明細書に記載された検
出器のようなエネルギベースの終点（ｅｎｄ　　ｐａｉ
ｎｔ）検出器１０５の入力に供給される。キーワードの
終点はこの終点検出器１０５によって決定される。各キ
ーワードのスペクトルパラメータはキーワードテンプレ
ート蓄積装置１０Ｂに入力される。フィラーテンプレー
ト訓練モードにおいては、使用者はｗｉ中の音の合理的
なサンプリングを含む充分に長い任意の発音をする。

テキストの一節を読上げるのが適当であり、それにキー
ワードを含むことは必要ない。音響アナライザ１０２の
出力に生じたスペクトルパラメータのストリングはフィ
ラーテンプレート導出サブシステム１０７の入力に与え
られ、導出されたフィラーテンプレートはフィラーテン
プレート記憶装置１０８に記憶される。フィラーテンプ
レート導出サブシステム１０７はスペクトルパラメータ
のストリングをフィラーテンプレートとして使用される
短いセグメントに分割する。

フィラーテンプレート導出の作業を行なう一つの方法は
発音のスベクトロダラムの視覚検査による訓練発音のシ
ラベルの人手によるマークである。

その結果のセグメントはほぼシラベル（音節）に対応し
、それらのセットは広範囲の異なった音を表わす目標に
より選択され、フィラーテンプレート記憶装置１０８中
に記憶される。

フィラーテンプレート導出の作業を行なう別の方法は自
動的であり、２段の過程を使用する。訓練発音からの音
声データはまずセグメントに分割される。これらのセグ
メントは統計的クラスタ解析装置に入力として供給され
る。この統計的クラスタ解析装置はセグメント間の距離
の測定に基づいて数学的関数を最大にするセグメントの
サブセットを選択する。選択されたサブセットに属すセ
グメントはフィラーテンプ５レートとして使用される。

このフィラーテンプレート導出方法は第２図に示されて
いる。これら二つのフィラーテンプレート導出方法の特
性はほとんど等しく、フィラーテンプレートの選択は臨
界的なものではないことを示している。自動的な方法は
多くの態様で構成することができ、それはセグメント化
および統計的クラスタ解析のために使用する技術によっ
て興なっている。セグメント化および統計的クラスタ解
析のために使用する方法は臨界的なものではなく、等し
い長さのセグメント化および基本的カバーリング（ｃｏ
ｖｅｒｉｎｇ）解析を使用して良好な結果が得られる。

セグメント化を行なう方法の一つでは、音響アナライザ
の出力から得られた訓練データベース１０１Ａはセグメ
ント化回路１０７１３によって例えば１００ミリ秒の等
しい長さのセグメントに分割される。セグメント化を行
なう別の方法においては、セグメントの長さは等しくな
く、セグメントの境界はスペクトル変化の割合いの測定
に基づいて選択される。別のアルゴリズムをこの形式の
セグメント化を達成するために考えることができるが、
目標はスペクトルが迅速に変化する場合には短いセグメ
ントを、スペクトルがゆっくりと変化する場合には長い
セグメントを生成することである。

セグメント化を行なうさらに別の方法においては、多く
の人の集団の音声から導出された原型のセグメントのセ
ットが使用される。原型のセグメントはテンプレートと
して使用され、Ｃ８Ｒシステムを使用して訓練発音と整
合される。セグメント境界は連鎖している原型のセグメ
ント間の境界に一致されたテスト発音のフレーム間にマ
ークされる。

統計的クラスタ解析は統計的クラスタ解析装置１０７　
Ｃによって行われ、セグメント化過程により供給された
入力セグメントの大きなセットを相対的に表わす出力セ
グメントセットを選択するために使用される。統計的ク
ラスタ解析を行なう一つの方法は、統計学の文献に記載
されているような周知のに平均アルゴリズムを使用して
入力セグメントと最も近い出力セグメントとの闇の平均
距離を最小にするように出力セグメントを選択するもの
である。統計的クラスタ解析を行なう別の方法は、カバ
ーリング解析とも呼ばれる方法であって、入力セグメン
トと最も近い出力セグメントとの間の距離が特定の公差
よりも小さいことを保証するように出力セグメントを選
択することにより訓練データをカバーするセグメントの
セットを選択するものである。選択された各セグメント
の近傍の訓練データの密度が計算され、どの密度が最大
であるかについてさらにセグメントに対して選択が行わ
れる。例えばカバーリング解析の１方法では最初の入力
セグメントが出力セグメントであるとされる。それから
後続する各入力セグメントが全ての出力セグメント（最
初はただ１個である）と比較される。もしも、最も近い
出力セグメントまでの距離が特定の公差よりも大きけれ
ば、その入力セグメントは出力セグメントのセットに加
えられる。Ｋ平均およびカバーリング解析の両方の方法
において、使用されるセグメント間の距離の測定はセグ
メントの対応するフレーム間の平均２乗ユークリッド距
離である。

不可欠のものではないが、キーワードテンプレートのセ
グメントから追加のフィラーテンプレートを生成するこ
とによって前述の過程を使用して導出されたフィラーテ
ンプレートのセットを増加させることは有効である。例
えば、これは各キーワードテンプレートをフィラーテン
プレートの平均期間に大体同じである等しい長さのセグ
メントに分割することによって行われる。各キーワード
テンプレートから生成された数個のフィラーテンプレー
トによって、キーワードセグメントは直接追加のフィラ
ーテンプレートとして使用される。

この発明は、音声による命令あるいは制御ワードを使用
する機械動作の制御に使用することができる。例えば、
この発明は、音声により電話することを命令したり、あ
るいはテキスト編集のようなオフィスの装置の音声制御
および玩具の音声制御に使用することができる。

別の応用はゆるい構文上の束縛を使用した連続的音声ｉ
！識クシステムおけるものである。現在のＣ８Ｒシステ
ムは非常に厳しい制限をもった構文で話されるように文
節を定めることが必要である。

しかしながら、多くの用途においてメツセージの内容は
ワードの小さなサブセットによって構成される。これら
の用途では、メツセージの解読はキーワードのｖ：ｔｍ
によって導かれている。使用者は許容されるワードの順
序を示す複雑なグラフを常に参照する必要はない。その
ような能力は特に人と機械の対話に依存するシステムに
おいて価値がある。

この発明はまた、自動化された航空機予約システム、コ
ンピュータで援助される指令システムおよび情報検索シ
ステムに使用することができる。

この発明の別の応用は会話の要旨の自動抽出である。さ
らに別の応用は、音声１１！ｌシステム中で使用するた
めの、および連続音声認識システム中の基準テンプレー
トの自動更新に使用するための自然に話す文節からの基
準テンプレートの自動抽出である。

以上、この発明を好ましい実施例と関連して説明したが
、当業者には自明の多くの別の実施態様、変形および応
用が特許請求の範囲に記載された本願発明の技術的範囲
に含まれることを理解すべきである。

【図面の簡単な説明】

第１図はこの発明のキーワード認識システムの実施例の
ブロック図を示し、第２図はフィラーテンプレート導出
のための１実施例のブロック図を　　　　　ゝ示す。１０１・・・マイクロホン、１０２・・・音響アナライ
ザ、１０３・・・選択スイッチ、１０４・・・変形Ｃ８
Ｒシステム、１０５・・・終点検出器、１０６・・・キ
ーワードテンプレート記憶装置、１０７・・・フィラー
テンプレート導出装置、１０８・・・フィラーテンプレ
ート記憶装瞳。

Claims

【特許請求の範囲】

（１）観測する音声を１個以上のキーワードおよび１個
以上の任意の言語発音の表示と比較し、前記キーワード
との比較および前記任意の言語発音との比較のいずれが
最良の整合を与えるかを決定することを特徴とする観測
する音声中のキーワードを認識する方法。
（２）前記任意の言語発音はフィラーテンプレートのセ
ットの連鎖によつて近似される特許請求の範囲第１項記
載の方法。
（３）前記表示が蓄積される特許請求の範囲第１項記載
の方法。
（４）１個以上の任意の訓練発音の表示を導出し、かつ
１個以上のキーワードの表示を導出する特許請求の範囲
第１項記載の方法。
（５）１個以上の任意の訓練発音の表示を導出する過程
は、前記任意の訓練発音をセグメント化し、フィラーテ
ンプレートとして前記セグメントのサブセットを選択す
るために前記セグメントの統計的クラスタ解析を行ない
、前記フィラーテンプレートを連結する特許請求の範囲
第４項記載の方法。
（６）１個以上の任意の訓練発音の表示を導出する過程
は、追加のフィラーテンプレートとして使用するために
前記フィラーテンプレートの平均期間にほぼ近似する期
間の等しい長さのセグメントに前記１個以上のキーワー
ドの表示を分割する過程を有する特許請求の範囲第５項
記載の方法。
（７）前記セグメントに分割する過程は、複数の人の音
声から連続する原型セグメントを導出し、前記連続する
原型セグメント間の境界に整合される前記任意の訓練発
音のフレーム間のセグメント境界をマークすることによ
つて前記原型セグメントを前記任意の訓練発音に整合さ
せる過程を有する特許請求の範囲第５項記載の方法。
（８）前記統計的クラスタ解析を実行する過程は、入力
セグメントとこの入力セグメントに最も近い出力セグメ
ントとの間平均距離を最小にする過程を有する特許請求
の範囲第５項記載の方法。
（９）前記入力セグメントとこの入力セグメントに最も
近い出力セグメントとの間平均距離を最小にする過程は
、Ｋ平均アルゴリズムを有する特許請求の範囲第８項記
載の方法。
（１０）前記統計的クラスタ解析を実行する過程は、任
意の入力セグメントとこの入力セグメントに最も近い出
力セグメントとの間の距離が特定の公差より小さいよう
に出力セグメントを選択する過程を有する特許請求の範
囲第５項記載の方法。
（１１）前記選択する過程は、最初の入力セグメントを
出力セグメントと見なして、それに後続する各セグメン
トを全ての出力セグメントと比較し、もしもその最も近
い出力セグメントまでの距離が特定の公差より大きいな
らば前記後続するセグメントを出力セグメントとする過
程を有する特許請求の範囲第１０項記載の方法。
（１２）前記比較する過程は、連鎖されないテンプレー
トが部分的テンプレートストリングに連結されたとき前
記部分的テンプレートストリングに一定のペナルティを
加える過程を有する特許請求の範囲第５項記載の方法。
（１３）観測する音声がキーワードであるという第１の
前提を評価する過程と、観測する音声がキーワードでないという第２の前提を評
価する過程とを有することを特徴とする観測する音声中
のキーワードを認識する方法。
（１４）前記第２の前提を評価する過程は、前記観測す
る音声を一般的言語モデルと比較する過程を有する特許
請求の範囲第１３項記載の方法。
（１５）前記評価の結果を比較し、どれに最良の整合の
評価を与えるかの指示を与える過程を有する特許請求の
範囲第１３項記載の方法。
（１６）観測する音声を１個以上のキーワードおよび１
個以上の任意の言語発音の表示と比較する手段と、前記キーワードとの比較および前記任意の言語発音との
比較のいずれが最良の整合を与えるかを決定する手段と
を具備していることを特徴とする観測する音声中のキー
ワードを認識するシステム。
（１７）前記比較手段に結合された、フィラーテンプレ
ートのセットの連鎖により前記任意の言語発音を近似す
るための手段を具備している特許請求の範囲第１６項記
載のシステム。
（１８）前記比較手段に結合された、前記表示を蓄積す
るための手段を具備している特許請求の範囲第１６項記
載のシステム。
（１９）前記比較手段に結合された前記１個以上のキー
ワードの表示を導出する手段と、前記比較手段に結合さ
れた前記１個以上の任意の訓練発音の表示を導出する手
段とを具備している特許請求の範囲第１６項記載のシス
テム。
（２０）前記１個以上の任意の訓練発音の表示を導出す
る手段は、前記任意の訓練発音をセグメント化する手段
と、このセグメント化する手段に結合されて前記セグメ
ントのサブセットをフィラーテンプレートとして選択す
るために前記セグメントの統計的クラスタ解析を行なう
手段と、前記解析を行なう手段に結合されて前記フィラ
ーテンプレートを連結する手段とを具備している特許請
求の範囲第１９項記載のシステム。
（２１）前記比較する手段は、連鎖されていないテンプ
レートが部分的テンプレートストリングに連結されると
き前記部分的テンプレートストリングのスコアに一定の
ペナルティを加える手段を具備している特許請求の範囲
第１６項記載のシステム。
（２２）観測する音声がキーワードであるという第１の
前提を評価する手段と、観測する音声がキーワードでないという第２の前提を評
価する手段とを具備していることを特徴とする観測する
音声中のキーワードを認識するシステム。
（２３）前記第２の前提を評価する過程は、前記観測す
る音声を一般的言語モデルと比較する手段を具備してい
る特許請求の範囲第２２項記載の方法。
（２４）前記第１および第２の評価手段に結合されて前
記評価の結果を比較する手段と、、前記比較する手段に
結合されてどれに最良の整合の評価を与えるかの指示を
与える手段とを具備している特許請求の範囲第２２項記
載のシステム。
（２５）入力手段とフィラーテンプレート蓄積手段と、キーワードテンプレート蓄積手段と、前記フィラーテンプレート蓄積手段およびキーワードテ
ンプレート蓄積手段に結合されて前記蓄積されたフィラ
ーテンプレートおよび前記蓄積されたキーワードテンプ
レートの連鎖シーケンスを生成する手段と、前記連鎖シーケンスを生成する手段と前記入力手段に結
合されて、前記蓄積されたフィラーテンプレートおよび
前記キーワードテンプレートの連鎖シーケンスのいずれ
が前記入力手段に与えられた観測する音声のパラメータ
表示と最良の整合をするかを決定する手段とを具備して
いることを特徴とする観測する音声中のキーワードを認
識するシステム。
（２６）前記入力手段に結合されて前記観測する音声の
パラメータ表示を生成する手段を具備している特許請求
の範囲第２５項記載のシステム。
（２７）前記決定する手段に結合されてキーワードテン
プレートが最良の整合を与える場合に指示を与える手段
を具備している特許請求の範囲第２５項記載のシステム
。
（２８）前記決定する手段に結合されてキーワードテン
プレートが最良の整合を与える場合に前記最良の整合の
キーワードテンプレートの識別を行なう手段を具備して
いる特許請求の範囲第２５項記載のシステム。
（２９）前記フィラーテンプレート蓄積手段に結合され
て前記フィラーテンプレートを出力する手段を具備して
いる特許請求の範囲第２５項記載のシステム。
（３０）前記フィラーテンプレートを出力する手段は、
任意の訓練発音をセグメント化する手段と、このセグメ
ント化する手段に結合されてフィラーテンプレートとし
て前記セグメントのサブセットを選択するために前記セ
グメントの統計的クラスタ解析を行なう手段とを具備し
ている特許請求の範囲第２５項記載のシステム。
（３１）前記キーワードテンプレート蓄積手段に結合さ
れて前記キーワードテンプレートを出力する手段を具備
している特許請求の範囲第２５項記載のシステム。
（３２）前記キーワードテンプレートを出力する手段は
、前記入力手段に結合されて１個以上のキーワードのパ
ラメータ表示を出力する手段と前記表示の終点を決定す
る手段とを具備している特許請求の範囲第３１項記載の
システム。