JPS61137199A

JPS61137199A - 単語音声の認識方法

Info

Publication number: JPS61137199A
Application number: JP25894584A
Authority: JP
Inventors: 貞煕古井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1984-12-07
Filing date: 1984-12-07
Publication date: 1986-06-24
Also published as: JPH0426479B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】「産業上の利用分野」この発明は認識対象語彙のうちのどの単語が発声された
かを高精度かつ高能率に自動的に判定する単語音声の認
識方法に関するものである。

「従来の技術」マンマシンインターフェイスに使用−０ｍ々の入力端末
装置の一つとして、音声をそのまま入力する、いわゆる
音声入力装置がある。この装置は、入力音声に含まれる
言語の情報を抽出してその意味内容を認識するものであ
り、このような入力端末装置は他の入力装置に比べて、
（イ）情報入力速度が速い、（ロ）音声で入力できるの
で操作に熟練する必要がない、（ハ）同時に手足、目、
耳などを使いながら入力できる、に）電話から入力でき
る、などの利点がある。

音声入力装置の認識方法には、一つ一つ区切って発声さ
れた単語音声を認識するものと、複数の単語や文章を連
続して発声した音声を認識するものとがあり、後者の方
が使い勝手は良いが高い精度で認識を行うのが難しい。

一方前者の方法は、−間一答形式のようにやや使い方が
限られるが、実用的には広い応用範囲が期待され、後者
の方法よりも高い精度を得ることが可能である。

前者の単語音声の認識方法としては、あらかじめ認識で
きる語実の種類を決めてそれらの一つ一つについて標準
パターンを蓄積しておき、入力された音声波と各標準パ
ターンとの類似の度合いを調べて、最も類似の度合いの
大きい語彙が発声されたものと判定することが多い。こ
のとき、音声波をそのまま標準パターンとして蓄積して
おいて、入力音声波と比較するのは能率的でないので、
周波数スペクトル、線形予測係数等のいわゆる特徴パラ
メータに変換してから比較を行うのが望ましい。従来の
この種の方法では、特徴パラメータとして上記の他に、
ホルマント周波数、ケプストラム係数、パーコール係数
、対数断面積比、零交差数などが用いられているが、安
□定に精度よくパラメータを抽出するのが困難であった
り、パラメータの抽出に複雑な計算を要したり、異なる
話者に共通した単語音声の特徴を表現するパラメータと
して不十分であったり、電話系のような伝送路を通った
ときに特性が変動して、認識の精度が大きく低下する等
の欠点があった。

この発明の目的は、このような欠点を除去するため、電
話系等を通った音声から伝送歪等の影響を受けにくく、
しかも異なった話者に共通に含まれる音声の特徴を比較
的簡単に抽出し、高精度で単語の認識を行うことができ
る単語音声の認識方法を提供することにある。

「問題点を解決するための手段」この発明の単語音声の認識方法によれば、単語音声の周
波数スペクトルの時間的変化を示すパラメータを算出し
、このパラメータの時間波形から線形回帰係数を算出し
、この線形回帰係数及び前記パラメータを単語音声の特
徴パラメータとする。

つまりこれらパラメータ及びその線形回帰係数の同一時
点のものを一種類のパラメータであるかのように使う。

前記パラメータとしては比較的簡単な方法により抽出で
きる線形予測ケプストラム係数を用いることが好ましい
。このように前記パラメータ及び線形回帰係数を特徴パ
ラメータとすることにより伝送路の変動等の影響を受け
にくく、しかも異なる話者に対する認識精度を向上でき
る。

このパラメータ及びその線形回帰係数を入力音声単語に
つき算出し、これらとあらかじめ蓄積しである各語彙の
特徴パラメータとの２非線形時間正規化マツチング（対
応づけ）により、どの語彙が発声されたかを判定する。

「実施例」以下、この発明の実施例を第１図により説明する。第１
図は、この発明の単語音声の認識方法の実施例を機能的
に示したものである。

音、声７人）′刃端、子９−１・から認識すべき音声を
入力して、音声区間検出回路２、線形予測分析回路３、
ケプストラム変換回路４、ケプヌトラムレジスタ５を経
由して線形予測ケプストラム係数を得る。

この実施例ではこの線形予測ケプストラム係数の時間波
形から回帰係数計算回路６で線形回帰係数を抽出する。

線形予測ケプストラム係数と線形回帰係数との時間波形
（これらをまとめて特徴パラメータ波形と呼ぶ）を−た
ん特徴パラメータレジスタ７に蓄え、学習モードと認識
モードとをスイッチ８で切換えて、学習モードの場合は
特徴パラメータ波形をその語彙の標準パターンとして標
準パターン蓄積部９に蓄える。認識モードの場合は、特
徴パラメータ波形、各語彙の標準パターンおよび重みレ
ジスタ１１の内容を非線形時間正規化回路１０に入力し
て、類似性の度合いの計算を行う。

すべての語彙の標準パターンとの類似の度合いを比較回
路１２に入力して、最も類似の度合いの大きい語彙を判
定し、その語彙を示すデータを出力端子１３に与える。

さらに詳しく動作を説明する。先ず音声入力端子１から
単語の認識に用いる音声波を入力する。

入力された音声波には通常、実際の音声の区間と無音（
雑音）の区間とが含まれているので、入力された音声波
を音声区間検出回路２に入力して、音声区間の検出を行
う。この検出には、すでによく知られているいくつかの
方法、例えば入力信号波の短時間エネルギー、ある一定
値以上のエネル・　ギーが継続する時間、等を用いるこ
とができる。

検出された音声区間の信号波は線形予測分析回路３に送
られ、線形予測係数の時間波形に変換される。

この技術は、すでに公知であるので（例えば、文献、板
金・斎藤°統計的手法による音声スペクトル密度とホル
マント周波数の推定、電子通信学会論文誌、５３−Ａ、
１．Ｐ、３５．１９７０参照）、詳細は省略するが、基
本的にはまず低域通過フィルタに通したのち標本化及び
量子化を行い、一定時間ごとに短区間の波形を切り出し
てハミング窓等を乗じ、積和の演算によって相関係数を
計算する。

ハミング窓の長さとしては、例えば３　Ｑ　ｍ　ｓ　、
　これを更新する周期としては、例えばｌ　Ｑ　ｍ　ｓ
のような値が用いられる。その相関係数から、繰返し演
算処理によって代数方程式を解くことにより、容易に線
形予測係数が抽出される。これら相関係数及び線形予測
係数は、例えば第０次から第１０次までの値を計算する
。抽出された線形予測係数の時間波形は、ケプヌトラム
変換回路４により、いわゆる線形予測ケプストラム係数
に変換される。

線形予測ケプストラム係数は、対数パワー・スペクトル
のフーリエ変換によって得られる従来のケプストラム係
数とはやや異なるが、それによって表現されるスペクト
ル包絡は類似している。線形予測ケプストラム係数は、
音声の特徴を表現するパラメータとして優れた性質を有
していることが知られている（文献、古井貞煕°単音節
認識とその大語い単語音声認識への適用、電子通信学会
論文誌、Ｊ６５−Ａ、２．Ｐ、１７５．１９８２参照）
。

線形予測係数から線形予測ケプストラムへの変換は、次
の演算により行うことができる。

ｃ、＝ａ１　　　　　　　　　　　　　　　　　・・・
・・・・・・（１）ここで、ａｎはｎ次の線形予測係数
、Ｃｎはｎ次の線形予測ケプストラム、ｐは線形予測モ
デルの次元数である。ｐとしては、前述のように１０程
度の値が用いられる。

抽出された線形予測ケプストラム係数（以下簡単のため
単にケプストラム係数と呼ぶ）　Ｃｎの時間波形は、一
定間隔ごとに一定の時間長の区間がケプヌトラムレジス
タ５に一旦蓄えられ、このレジスタ５の内容は回帰係数
計算回路６に送られて、線形回帰係数が演算される。こ
の、ケプヌトラムレジスタ５及び回帰係数計算回路６に
入力される時間波形の長さとしては、例えば５０ｍ５、
これを更新する周期としては、例えばＩＱｒｎ３のよう
な値を用いる。時間波形ｘｊ　（ｊ−Ｍ、・・・Ｍ）で
あられすと、この線形回帰係数ａは次の演算で求めるこ
とができる。

線形回帰係数は、各次数のケプストラム係数に対して、
１０ｍ５毎に更新される回帰係数計算回路６の入力に応
じて計算され、この線形回帰係数はケプストラム係数と
あわせて２ｐ次元の特徴パラメータとして特徴パラメー
タレジスタ７に送られて蓄えられる。

スイッチ８は、学習モードと認識モードを選択するスイ
ッチであって、各語常に対して、最初にスイッチ８を端
子８ａに接続しておいて、後に認識すべき音声を入力す
る本人あるいはその本人とは異なる複数人の音声から特
徴パラメータ波形を求め、特徴パラメータレジスタ７に
蓄えたのち標準パターン蓄積部９に入力し、その語彙の
標準パターンとして蓄える。

その後認識すべき音声に対しては、スイッチ８を端子８
ｂに接続しておいて、特徴パラメータレジスタ７の内容
を非線形時間正規化回路１０に入力する。同時に各語　
に対応した標準パターンを標準パターン蓄積部９から一
つ一つ読出し、非線形時間正規化回路１０に入力する。

非線形時間正規化回路１０では、標準パターンと入力音
声の特徴パラメータの類似性の度合いを計算する。音声
の発声速度は、同じ話者が同じ言葉を繰返し発声しても
その度ごとに部分的及び全体的に変化するので、両者を
比較するには、共通の音（音韻）が対応するように、一
方の時間軸を適当に非線形に伸縮して他方の時間軸にあ
わせ、対応する時点の特徴パラメータどうしを比較する
必要がある。一方を基準にして、両者が最もよく合うよ
うＫ（両者の類似度が最も大きくなるようｔ／′ｒｃ）
他方の時間軸を非線形に伸縮する技術としては、動的計
画法による最適化の手法を使用できることが知られてい
る（文献：迫江、千葉°動的計画法を利用した音声の時
間正規化に基づく連続単語認識２日本音響学会誌、２７
，９．Ｐ、４８３．１９７１）。

この発明の方法（・Ｃおいても、非線形時間正規化回路
１０では、例えば動的計画法の演算を行う。

標準パターンのある時点ｋにおける特徴パラメータをｒ
ｋｉ（１４ｉ４２Ｐ）（Ｐ次ノケフヌトラム係数とＰ次
の線形回帰係数とよりなる）、入力音声のある時点ｌに
おける特徴パラメータをｘ１！；（］、４ｉ４２Ｐ）（
Ｐ次のケプストラム係数とＰ次の線形回帰係数とよりな
る）であられすと、ここで両者の距離（小さくなるほど
類似度が大きいことを示す数値として、次のような値を
用いる。

（１Ｊ）ことでＷｉは各特徴パラメータに対してあらかじめ定め
られている重みを示す数値で、この値は予備実験の結果
にもとづいて比較的高い認識精度が得られるように適切
な値に定め、重みレジスタ１１に蓄えておく。距離ｄの
計算は（４）式に示すように同一時点のＰ次のケプスト
ラム係数とＰ次の線形回帰係数とについて入力音声と標
準パターンとの差の二乗和として計算しており、つまり
ケプストラム係数と線形回帰係数との互に性質が異なる
ものを一緒に使っており、これらの平衡をとるため［ｗ
ｉの重み付けを行うものであり、従ってＶ／ｉの値とし
てはケプストラム係数について演算する際に用いるＷａ
と、線形回帰係数について演算する際に・用いる靴との
少くとも２つの値を用いる。これら重みＷａ”’−Ｗｂ
は重みレジスタ１１に蓄えておく。

動的計画法の演算によって標準パターンと入力音声の一
致度が最もよくなるように時間軸を対応づけたときの、
対応する時点どうしの標準パターンと入力音声との特徴
パラメータの距離キを全音声区間について平均した値を
計算する。この値を、入力音声と標準パターンとの総合
的距離と呼ぶことにする。各語常に対応した標準パター
ンと入力音声との総合的距離を比較回路１２に入力し、
論理回路によりこれらすべての総合的距離のうち、最も
総合的距離の小さい語彙を判定する。この判定結果は、
出力端子１３から出力される。

従来においては例えばケプストラム係数についてのみ入
力音声と標準パターンとの距離を計算して最も近い語彙
を求めていたが、この実施例においては線形回帰係数に
ついてもケプストラム係数と同一時点のものをまとめて
非線形時間正規化如より類似の度合いを算出しており、
この線形回帰はケプストラム係数の時間波形の直線近似
であり、この近似の傾斜が線形回帰係数であり、つまり
ケプストラム係数の変化の傾向についても入力音声と標
準パターンとの類似の度合いを求めている。

その結果として１．高品質のマイクロホンだけでなく、
電話系を通った音声、雑音や伝送歪の影響を受けた音声
等に対しても、しかも誰の音声に対しても高い精度を示
す単語音声認識システムを実現することができる。これ
までの実験てよれば、都市名１００単語を認識対象語彙
として、男性４名の音声を標準パターンとして蓄積し、
その話者と異なる男性２０名の音声に対して、前記実施
例による方法を適用することてより、９７．４％の精度
で単語音声の認識ができることが示された、ケプストラ
ム係数のみを用いた従来の方法によれば、９３．８％の
精度しか得られなかったことと比較してこの発明が優れ
ていることが理解される。

上述においては音声の周波数スペクトルの時間に対する
変化を示すパラメータとしてケプストラム係数を用いた
が、線形予測係数、ホルマント周波数、パーコール係数
、対数断面積比、零交差数などを用いてもよい。

「発明の効果」以上説明したように、この発明によれば、電話系等を通
った音声から伝送歪等の影響を受けにくく、異なる話者
の音声に共通に含まれる単語の特徴をとり出して用いる
ことにより高い精度で単語音声の認識が行えるため、電
話の声等を用いたバンキングサービス等の種々のザービ
スに広く応用することができる。

【図面の簡単な説明】

第１図はこの発明の実施例を示す単語音声の認識方法の
ブロック図である。１：音声入力端子、２　音声区間検出回路、３：線形予
測分析回路、４：ケプストラム変換回路、５°ケプスト
ラムレジスタ、６°回帰係数計算回路、７　特徴パラメ
ータレジスタ、８　スイッチ、９．標準パターン蓄積部
、］０゛非線形時間正規化回路、１１　重みレジスタ、
１２：比較回路、］３：出力端子。

Claims

【特許請求の範囲】

（１）認識すべき音声波入力の周波数スペクトルの時間
的変化を示すパラメータを算出して蓄積する手段と、そ
のパラメータの時間波形から線形回帰係数を算出する手
段と、認識対象語彙ごとの上記パラメータ及び線形回帰
係数の標準パターンを蓄積する手段と、非線形時間正規
化手段と、比較手段とを有し、上記パラメータ及び上記線形回帰係数の時間波形と、上
記各認識対象語彙の標準パターンとを、上記非線形時間
正規化手段に入力して両者の類似の度合いを算出し、す
べての認識対象語彙との類似の度合いを上記比較手段に
入力して大小を比較し、最も類似の度合いが大きい語彙
を入力されたと判定することを特徴とする単語音声の認
識方法。