JPS6184694A

JPS6184694A - 認識用辞書学習方法

Info

Publication number: JPS6184694A
Application number: JP59206656A
Authority: JP
Inventors: 洋一竹林; 篠田　英範
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1984-10-02
Filing date: 1984-10-02
Publication date: 1986-04-30
Anticipated expiration: 2010-10-09
Also published as: EP0178509A1; JPH0792673B2; EP0178509B1; US4783802A; DE3579662D1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は、音声認識装置における認識率の向上を効果的
に図り得る音声認識用辞書学習方式に関する。

〔発明の技術的背景とその問題点〕

近時、文字認識や音声認識等のパターン認識技術の発達
が目覚ましく、音声の分野でも単語音声認識装置等が実
用化されつつある。しかして、種々提唱されている音声
認識装置の大部分は、動的計画法（ＤＰマツチング法）
を用いて入力音声パターンの時間軸伸縮を行い、この時
間軸伸縮されて正規化された入力音声パターンと予め準
備された認識辞書パターン（標準パターン）との照合を
行う如く構成されている。

ところが上記認識辞書パターンには音声パターンの変動
に対する統計的情報が全く含まれていない為、雑音の影
響を受は易く、また不特定話者を対象とした認識やその
高性能化の上で限界があった。従って、不特定多数の話
者を対象とする電話単語音声認識や認識対象カテゴリの
数が多い単語音声認識装置、更には音素・音節の認識に
あっては、未だに認識率が低く、音声認識技術における
大きな課題となっている。

ところで、予め多数の音声パターンを収集し、これらの
音声パターンを用いて音声認識用辞書の学習を行って、
その認識性能（認識率）を高めることが、統計的パター
ン認識理論の立場から良く知られている。しかし、認識
対象とするカテゴリーの数の多い音声認識装置や、実用
に際して認識対象とする語雷の変更がしばしば要求され
る単語音声認識装置では、上述したように多数の音声パ
ターンを予め収集することが甚だ困難である。

また特定話者用の音声認識ｉ置や、話者適応型の音声認
識装置では、同一話者が同じカテゴリを多数回発声して
その音声パターンを入力することが必要であり、利用者
にとって多大な負担となっている。更には不特定話者用
の音声認識装置においても、少数の音声パターンからだ
けでは良好な辞書が設計できないという問題がある。こ
の為、！ｉ垂の変更あるいはコストの面でも、更には時
間的な面でも音声認識用辞書の充実化が困難であり、音
声認識装置普及の大きな妨げなっていた。

〔−明の目的〕

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、音声認識に供する音声認識用辞
書を少数の音声パターンを効果的、に用いて学習し、そ
の認識率の向上を図り得る実用性の高い音声認識用辞書
学習方式を提供することにある。

〔発明の概要〕

本発明は入力音声パターンを分析して得られる音声特徴
パラメータの時系列の一部から音声認識用辞書の作成に
必要な音声特徴ベクトルを抽出する際に、７上記入力音
声のレベル変動、発話速度の変動、話者による変動、電
話回線による変動、ピッチによる変動、騒°音による変
動など種々の音声特徴ベクトルの変動傾向を考慮して、
前記音声特徴パラメータの一時系列から複数の音声特徴
ベクトルを抽出し、これらの音声特徴ベクトルを用いて
音声認識用辞書を学習するようにしたものである。

つまり、入力音声パターンに関するパターン変動の要因
に関する知識を利用して、実際に認識処理に使用する音
声特徴ベクトル以外の音声特徴ベクトルをも入力音声の
特徴パラメータの時系列から抽出し、これらの音声特徴
ベクトルを用いて音声認識用辞書の学習を行わしめるこ
とにより、比較的少数の入力音声データから、上記音声
認識技術の性能向上、充実化等を簡易に、且つ効率良く
行うようにしたものである。

〔発明の効果〕

かくして本発明によれば、音声パターンの変動傾向に関
する知識を考慮して、入力音声パターンの音声特徴パラ
メータの時系列から複数の音声特徴ベクトルを生成−し
、これらの音声特徴ベクトルを用いて音声認識用辞書の
学習（作成）が行うので、少数の音声パターンから、容
易に信頼性の高い辞書を作成することが可能となり、音
声認識率の向上を図ることが可能となる。つまり、比較
的少ない入力音声パターンを有効に利用して上記辞書の
充実化を容易に図ることが可能となる。

特に、本発明は音声パターンの広範な変動を吸収できる
統計的パターン認識方式と組合せると効果的である。例
えば文字認識の分野で提案され・、漢字認識でその有効
性が確認されている複合類似度法をそのまま単語・音声
認識に適用すると、その単ｉ；ｉ認識用辞書設計の際に
多数の音声パターンを必要とするが、本発明を適用する
ことによって良好な音声認識用辞書を非常に効率的に得
ることが可能となる等の多大なる効果が奏せられる。

〔発明の実施例〕

以下、図面を参照して本発明の実施例につき説明する。

第１図は、本発明による音声認識用辞書学習方式を組込
んだ音声認識装置の概略構成図である。

マイクロフォン等を介して入力された入力音声は、例え
ば８チヤンネルのフィルタバンクからなる音響分析部１
に入力され、一定の分析フレーム周期、例えば１０１１
８毎に分析されてその音声特徴パラメータとして時系列
に出力される。尚、音声特徴パラメータとしては、上記
８チヤンネルのフィルタバンクの各出力を２乗検波して
得られる周波数スペクトルや、ケブヌトラム係数、ＬＰ
Ｇ係数、或いは離数的フーリエ変換等のディジタル信号
処理により得られるものや、更にはスイッチド・キャパ
シタフィルタやアナログフィルタ等のアナログ分析によ
り得られるもの等であっても良い。そして音声認識処理
や！！識辞書の作成（学習）は、通常これらの特徴パラ
メータの幾つかを用いて行われる。尚、上記音響分析処
理については本発明の要旨とは直接関係ないので、ここ
では上記音響分析部１が８チヤンネルのフィルタバンク
にて構成されるものとして以下の説明を行う。

しかして入力音声のｖｔ識処理は、上記分析部゛１の８
チヤンネルのフィルタバンク出力である短時間周波数ス
ペクトルの時系列から、その一部を入力音声特徴ベクト
ルとして抽出して行われる。この場合、認識対象とする
音声の単位が、例えば単語、音節、音素等として異なれ
ば、その特徴ベクトルの抽出法も異なったものとなる。

今、単語音声認識を例に説明すると、音声特徴ベクトル
抽出部２では、例えば先ず入力音声の始端Ｓおよび終端
Ｅを、音声パワーのレベル変化や、その持続時間等を用
いて決定する。このようにして決定された入力音声の始
端Ｓから終端Ｅまでの時間区間を、例えば第２図に示す
−ように等間隔に７分割し、その始終端を含めた８点を
選択して各時点における前記フィルタバンク出力を選択
的に抽出して、時間軸方向８点、周波数軸方向８チヤン
ネルの６４　（８ｘ８）次元のベクトルを前記入力音声
の単語特徴ベクトルＸとして抽出している。

尚、認識対象が上記単語以外の場合には、他の手法を用
いてその特徴ベクトルが抽出されることは云うまでもな
い。

パターン照合部３は、予め音声認識用辞書メモリ４に記
憶されている音声認識用辞書と、上記の如く抽出された
単語特徴ベクトルとの間のパターン照合を、例えば複合
類似度法を用いて行う。即ち、パターン照合部３では、
辞書メモリ４に予め認識対象単語毎に用意された辞書と
、上記音声特徴ベクトルＸとの複合類似度値を次式で計
算して、そのパターン照合を行もている。

但し゛、上式において単Ｈ！λの音声認識用辞書は、ａ
Ｉｌｌ（４を定数、ｖｌ（Ｌ）を固有ベクトルとして与
えられる。パターン照合部３は、入力音声特徴ベクトル
Ｘと、辞書メモリ４に登録された各Ｉ！！識対象単語の
辞書との類似度値３（Ｌ）をそれぞれ計算し、その中で
最大の類似度値Ｓ（４を得る単語２を認識結果として出
力している。このような過程を経て前記入力音声が単語
認識される。

さて本発明方式は、上述したようにしてパターン照合に
用いられる音声認識用辞書を効率良く学習し、改良し、
高性能化するものである。

しかして前記音声認識用辞書の学習時には、学画用特徴
ベクトル抽出部５は、前記音響分析部１からの、８チヤ
ンネルのフィルタバンク出力を得て、前述したｇ識時に
用いる特徴ベクトルを抽出すると共に、その特徴ベクト
ルの変動傾向を考慮した学習処理の為の他の特徴ベクト
ルをも抽出している。つまりこの特徴ベクトル抽出部５
では前記音響分析部１が入力音声を分析して求めた１つ
の特徴パラメータの時系列から、前記認識処理に供せら
れる特徴ベクトルを含む複数の学習用音声特徴ベクトル
を抽出している。

例えば前述したように単語音声！！！！！識を対象とす
る場合には、先ず入力音声パワーのレベル変動を考慮し
て、入力音声パワーのレベルを意図的に増加、減少をさ
せる。つまり、前記８チヤンネルフイルタバンクの出力
値を数段階に、例えば±１０田の範囲で適当に３段階に
変化させて複数種の前記特徴パラメータの時系列を、例
えば第２因中Ｉ。

１’、Ｉ“の如く得ている。これらの時系列１．　　Ｉ
Ｚｌ”に関して、先に述べように音声の始終端Ｓ。

Ｅをそれぞれ検出し、その特徴ベクトルｘ、ｘ’。

Ｘ　ｎを抽出して、学習部６に与えている。学習部６で
は、このようにして求められた入力音声の複数の学習用
特徴ベクトルからその共分散行列を求め、この共分散行
列をＫＬ展開する等して音声認識用辞書を計算している
。このようにして求められた辞書が前記音声認識用辞書
メモリー４に与えられ、辞書メモリー４に格納された辞
書に追加、或いはその辞書の更新が行われる。

以上の説明は複合類似度法を適用する際の音声認識用辞
書の学習処理であるが、他の識別法、例えばマハラノビ
ス距離、最尤法等、各種の識別法に応じて、辞書学習の
処理が異なることは云うまでもない。換言すれば、認識
処理の識別法に係わりなく、入力音声を分析して得られ
た１つの特徴パラメータの時系列から、認識時に抽出す
る音声特徴ベクトルと、それ以外の学習用音声特徴ベク
トルとを、例えば音声パターンの変動傾向を考慮して複
数抽出し、これらの特徴ベクトルを用いてＩｌｌ辞書の
学習を行うようにすれば良い。

かくして本方式によれば、入力音声に関する先験的知識
を利用して該入力音声から複数の特徴ベクトルを抽出す
るので、少ない入力音声情報から多数の学習用情報を得
ることができ、これらを用いて認識辞書の学習ま効果的
に行うことが可能となる。例えば入力音声のレベルに関
する先験的知識として、発話の大きさや話者とマイクロ
ホンとの距離の差異、あるいは増幅率の変動等に起因す
る上記入力音声のレベル変動が生じることが一般的に知
られている。従ってこの場合には、本来の音声パターン
から単語音声の始終端Ｓ、Ｅを検出し、その単語音声区
間を７等分して得られる単語音声の特徴ベクトルＸを得
ると共に、例えば上記入力音声レベルを±１０８変動さ
せた音声パターンの始終端Ｓ’、Ｅ’および３　ｔｐ、
　Ｅ　ｎをそれぞれ求め、これらの始終端Ｓ’、Ｅ’　
およびＳ　、Ｅ　ＩＴに基いて前記特徴ベクトルＸとは
異なる単語特徴ベクトルｘ’、ｘ“を得る。

このようにして学習の際に用いる特徴ベクトルのデータ
量を増加基せて前記！！！！！識辞書の学習を行うこと
ができる。また上記レベル変動の他に、発話速度の変化
や伸縮に関する先験的知識を利用すれば、発話の時間的
変動傾向を考慮して音声特徴ベクトルのりサンプル点を
変えることにより、複数の学習用単語特徴ベクトルを作
成して認識辞書の学習に用いる特徴べ゛クトルのデータ
ｍの増加を図ることが可能となる。

更には入力音声パターンの時間軸方向の変動の他に、不
特定話者を対象とした場合に生じる話者の変動や電話回
線の周波数特性の変動等、周波数軸方向の変動に関する
知識も同様に利用することができる。具体的には、例え
ば前記８チヤンネルのフィルタ出力、つまり周波数スペ
クトルの傾きや、フォルマント周波数の変動、或いはピ
ッチ周波数の影響に関する知識も積極的に取り入れ、学
習用特徴ベクトルの抽出を行えば効果的である。

尚、本発明は詳述した実施例に限定されるものではない
。例えば上述した単語音声認識以外にも、音素認識、音
節認識、連続単語認識、母音認識等にも適用することが
できる。また１フレ一ム分の音声パラメータを用いる母
音認識でも、前述したレベル変動やフォルマントの変動
スペクトルの傾きに変形を与えて複数の学習用特徴ベク
トルを作成するようにすれば、その認識辞書の学習を効
果的に行い得る。

また、連続単語認識にあっても、例えば単語境界を？！
２数点として変化させて単語特徴ベクトルの抽出を行え
ば、少数パターンで効率の良い辞書学習が可能となる。

また単音節認識や子音ｒ！ｌ識についても、特徴ベクト
ルの時間方向の移動を考慮してその時間軸を移動させて
複数の時間周波数スペクトルを抽出するようにすれば良
い。

また音声パターンの変形としては、背景騒音（ノイズ）
による影響が大きい。従ってこのような場合には、例え
ば第３図に示すようにノイズ発生器７を用いて音声入力
部８における入力音声波形に、或いは音響分析部１にお
ける音声特徴パラメータに、更には特徴ベクトル抽出部
５において、予め準備した幾つかの騒音を適当なレベル
で付加して学習用特徴ベクトルを作成するようにすれば
良い。このようにすればノイズの影響を考慮した辞書を
簡易に作成することができ、実用的利点が絶大である。

また本発明に係る辞書学習方式は、音声以外の音響信号
や振動信号のパターン認識にも適用可能である。例えば
ボール′ベアリングの異常を音響振動信号で診断する場
合やエンジンの故障の発見、更には声帯の異常の診断、
話者認識や話者照合にも適用できる。このように本発明
では、認識用特徴ベクトルを先験的知識を用いて変形さ
せて？！！数の学習用特徴ベクトルを得るものであるか
ら、その変形の傾向については認識対象とする音声や音
響信号の性質に応じて、その適用分野毎に設定すれば良
い。要するに本発明はその要旨を逸脱しない範囲で種々
変形して実施することができる。

このように本発明は少数の入カバターンを有効に用いて
、高性能で且つ効率的に辞書を作成するので、種々の分
野での経済的波及効果は多大である。特に、多数のデー
タの収集が困難な場合における効果は絶大である。

【図面の簡単な説明】

第１図は本発明の一実施例方式を適用した単語音声認識
装冨の概略構成図、第２図は学習用５ｆｔ徴ベクトルの
生成概念を示す図、第３図は雑音を考慮した特徴ベクト
ルの生成を行う為の装置構成例を示す因である。１・・・音響分析部、２・・・認識用特徴ベクトル抽出
部、３・・・パターン照合部、４・・・音声認識用辞書
メモリ、５・・・学習用特徴ベクトル抽出部、６・・・
学習部、１・・・ノイズ発生器、８・・・音声入力部。出顆人代理人　弁理士　鈴江武彦第１図第３に

Claims

【特許請求の範囲】

（１）入力音声を分析して該入力音声の特徴パラメータ
の時系列を求め、この特徴パラメータの時系列の一部か
ら音声特徴ベクトルを抽出し、予め登録された音声認識
用辞書と上記入力音声特徴ベクトルとをパターン照合し
て前記入力音声を認識する音声認識装置における上記音
声認識用辞書を学習するに際し、前記入力音声を分析し
て得られる特徴パラメータの時系列から、認識処理に用
いられ音声特徴ベクトルを含む複数の音声特徴ベクトル
を求め、これらの音声特徴ベクトルを利用して前記音声
認識用辞書を学習してなることを特徴とする音声認識用
辞書学習方式。
（２）音声認識処理における音声特徴ベクトルと音声認
識用辞書とのパターン照合は、統計的方法により行われ
るものである特許請求の範囲第１項記載の音声認識用辞
書学習方式。
（３）音声認識用辞書は、入力音声を分析して得られる
特徴パラメータの時系列から抽出される複数の音声特徴
ベクトルの共分散行列を求め、この共分散行列を展開し
て計算されるものである特許請求の範囲第１項記載の音
声認識用辞書学習方式。
（４）音声特徴ベクトルは、単語、音節、音素、または
これらの複数の特徴を表現してなるものである特許請求
の範囲第１項記載の音声認識用辞書学習方式。
（５）音声認識用辞書の学習に用いられる音声特徴ベク
トルは、入力音声を分析して得られる特徴パラメータの
時系列から抽出される複数の音声特徴ベクトル、および
その音声特徴ベクトルに騒音による影響を加えたベクト
ルからなるものである特許請求の範囲第１項記載の音声
認識用辞書学習方式。
（６）騒音の影響は、入力音声、この入力音声を分析し
てなる特徴パラメータの時系列、またはこの特徴パラメ
ータの時系列から抽出される音声特徴ベクトルに加えら
れる雑音として与えられるものである特許請求の範囲第
５項記載の音声認識用辞書学習方式。