JPS62116997A

JPS62116997A - 単語音声認識装置

Info

Publication number: JPS62116997A
Application number: JP60256674A
Authority: JP
Inventors: 貞煕古井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1985-11-18
Filing date: 1985-11-18
Publication date: 1987-05-28

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の技術分野］本発明は、認識能力を向上した単語音声認識装置に関す
る。

［発明の技術的背景とその問題点］単語の音声認識については、従来、各単語についての音
声を単語を構成する各音素を周波数スペクトルやその包
給形で表わした時系列信号として把握し、これに基づい
て認識するものがある。具体的には、予め認識対象語金
の夫々の単語についての基準時系列信号を記憶しておき
、入力音声についての時系列信号を演算後これを各Ｍ準
時系列信号と順次比較して行き、最も一致度合が高い基
準時系列信号の示す単語を入力された単語と認識するの
である。

ところで、単語を構成している各音素は、音素の一連の
結合である単語が発生された場合のスペクトルと単独で
発生された場合のスペクトルとは異なることが一般に知
られている。これは、単語発生時における音素が互いに
隣り合う音素の影響を受けるためであり、そのスペクト
ルとしては単語を構成する各音素の間で急に変化せずな
めらかな変化となり、所謂なよ（プ現象が生じたものと
なる。したがって、入力音声について各音素についての
時系列信号を演算しても、その単語を構成する音素ごと
のみに基づいて求めである基準時系列信号とは勢い異な
ってしまい、該認識を招来することになる。加えて、音
素については当然のことであるが発声者の違いによって
スペクトルも相違するため、不特定人の発声した単語を
上述した方法で認識する場合にはこのような要因に基づ
ぎ一層誤認識のおそれが高くなる。

［発明の目的〕本発明は、上記に鑑みてなされたもので、その目的とし
ては、単語の認識率を特定話者の音声だけでなく不特定
話者の音声等の場合でも向上できるようにした音声認識
装置を提供することにある。

［発明の概要］上記目的を達成するため、本発明は、単語の音声信号の
周波数スペクトルおよびパワーの時間的変化を示すパラ
メータを算出するパラメータ算出手段と、当該パラメータの時間波形から直交多項式展開係数を算
出する係数算出手段と、当該直交多項式展開係数に対し前記パラメータの時系列
の時間変化を強調するような所定の補正演算を行なう第
１の補正手段と、該第１の補正手段で補正された直交多項式展開係数を用
いて前記パラメータを補正する第２の補正手段と、前記音声信号が基準のものであるときには該第２の補正
手段で補正されたパラメータを標準パラメータとして記
憶する標準パラメータ蓄積手段と、前記音声信号が認識
しようとする単語のものであるときには該第２の補正手
段で補正されたパラメータを標準パラメータ蓄積手段に
記憶された標準パラメータと比較し当該単語を判定する
判定手段とを有することを要旨とする。

［発明の実施例］以下、図面を用いて本発明の詳細な説明する。

第１図は、本発明に係る単語音声認識装置の回路ブロッ
クを示す図である。

同図において、１は例えばマイクロホン等に接続され単
語の音声信号（以下単に「音声信号」と呼ぶ）を入力し
て次段のパワー抽出回路３に供給する音声入力端子であ
る。

パワー抽出回路３は、音声入力端子１から供給された音
声信号について設定時間（例えばＢ、ｍ５ｅｃ）毎のパ
ワーを演算する回路である。該パワー抽出回路３は、そ
の出力が次段の音声区間検出回路５および後述するパラ
メータレジスタ１１に接続されている。

音声区間検出回路５は、単語の発声信号が一般に主に雑
音で構成される無音の部分とそうでない実際の音声の部
分を含むので、パワー抽出回路３で演算された設定時間
ごとのパワーに基づいてこの両者を判別する回路である
。判別方法としては、例えば設定時間ごとのパワーの絶
対直が所定レベルを越えている部分を音声部分と判別す
る方法、設定時間ごとのパワーについて所定レベルを越
える状態が所定時間継続すればこれを音声部分と判別す
る方法等、種々の周知方法が適用できる。音声区間検出
回路は線形予測分析回路７に接続されている。

線形予測分析回路７は、音声区間検出回路５で検出され
た音声部分の信号を線形予測係数の時間波形に変換処理
する回路である。この変換処理については、す゛でに公
知であり（例えば、文献、板金・斉藤：統計的手法によ
る音声スペクトル密度とホルマント周波数の推定、電子
通信学会論文誌。

５３−Ａ、１．Ｐ、３５．１９７０参照）ＩＩ要は次の
通りである。基本的にはまず低域通過フィルタに通した
のち標本化及び量子化を行い、一定時間ごとに短区間の
波形を切り出してハミング窓等を乗じ、積和の演算によ
って相関係数を計算する。

ハミング窓の長さとしは、例えば３Ｑｓｓ、これを更新
する周期としては、例えば８謄Ｓのような値が用いられ
る。その相関係数から、繰返し演算処理によって代数方
程式を解くことにより、容易に線形予測係数が抽出され
るのである。

これら相関係数及び線形予測係数は、例えば第１次から
第１０次までの値を計算する。線形予測分析回路７の出
力はケプストラム変換回路９に接続されている。

ケプストラム変換回路９は、求められた線形予測係数の
時間波形を所謂線形予測ケプストラム係数（以下単に「
ケプストラム係数」と呼ぶ）に変換処理する回路である
。この変換処理についてもやはり公知であり（例えば文
献、斉藤・中日：音声情報処理の基礎、オーム社、第７
章、Ｐ２Ｏ３゜１９８１参照）詳細は省略するが、線形
予測係数を用いた再帰式を演算することにより処理でき
る。

この変換処理で得られるケアストラム係数については、
対数パワー・スペクトルのフーリエ変換によって得られ
る従来のケアストラム係数とはやや異なるが、それによ
って表現されるスペクトル包絡は類似しており、音声の
特徴を表現するパラメータとして優れた性質を有してい
ることが知られている（文献、古井貞煕：単音節認識と
その人語電単語音声認識への適用、電子通信学会論文誌
。

Ｊ６５−Ａ、２．Ｐ、１７５．１９８２参照）。

なお、当該ケプストラム係数は、ケプストラム変換回路
９の出力段に接続されているパラメータレジスタ１１に
供給される。

パラメータレジスタ１１は、ケプストラム変換回路９か
らの各次数のケプストラム係数の時間波形および前記パ
ワー抽出回路３からのパワーの時間波形（以下この両者
をまとめて「パラメータ時間波形」と呼ぶ）を一定時間
毎に一定の時間長の区間をもって一時記憶し、その記憶
内容を適宜に後述する展開係数計算回路１３および加算
回路１９に出力制御するものである。なお、このパラメ
ータレジスタ１１及び展開係数計算回路１３に入力され
るパラメータ時間波形の長さとしては、例えば５０ｍ５
．これを更新する周期としては、例えば８ｍｓのような
値を用いる。

展開係数計算回路１３は、係数算出手段を構成するもの
で、供給されたパラメータ時間波形から直交多項式展開
係数を算出する回路である。その算出方法としては、種
々の方法が考えられるが、木実ｆＭＰ／ｌではパラメー
タの時間波形を例えば次のような３種類の関数の線形結
合で表現する。

Ｐｏｊ＝１　　　　　　　　　　　　　　・・・・・・
・・・（１）Ｐ＋ｊ＝Ｊ−’　　　　　　　　　　　　
・・・・・・・・・（２）Ｐ２ｊ　　＝ｊ２−８ｊ＋１
２　　　　　　・・・・・・・・・（３）そしてこのと
き、時間波形をｘ；（ｊ＝１．２゜・・・、９）であら
れして上記の３種類の関数に対応する展開係数を次式で
求めるのである。

このうちａには有用な情報が含まれないのです。

Ｃのみがパワーと各次数のケプストラム係数について、
８ＩｌｌＳごとに更新される展開係数計算回路７の入力
に応じて計算されることになる。なお、求められる展開
係数す、ｃに関し、ｂは１次の展開係数でパラメータ時
系列の傾きを示し、Ｃは２次の展開係数でパラメータの
上又は下への凸の度合を示すものである。このようにし
て得られた直交多項式展開係数は、展開係数計算回路１
３の出力段に接続される重み乗算回路１５に出力される
。

重み乗算回路１５は、第１の補正手段を構成するもので
、供給された直交多項式展開係数に対し、展開係数計算
回路１３とは異なる他の入力段に接続された定数蓄積部
１７に予め記憶されている定数を掛は合わせる処理を行
なう。具体的には、例えば次式で表わされる演算を行な
う。

１７′二）’ｉ　＋ｖＪ＋ｉ　Ｉ）ｉ　＋ＬＡＡｉ　Ｏ
＋　　　　・・・（７）ここでｉはケプストラム係数の
次数あるいはパワーを表わす添字、×１　はケプストラ
ム係数又はパワーの値ｂ１　　は１次の展開係数、Ｃｌ
　　は２次の展開係数である。また、Ｗ＋ｉ　　および
Ｗλｉ　は定数蓄積部１７においてあらかじめ定められ
ている歪みを示す数値でそれぞれ正の定数および負の定
数であり、この値は実験の結果にもとづいて比較的高い
認識精度が得られるような適切な値である。

ここで処理された直交多項式展開係数は、重み乗σ回路
１５の出力段に接続されている加算回路１９に出力され
る。

加鐸回路１９は、第２の補正手段を構成するもので、前
記パラメータレジスタ１１からのパラメータ時間波形と
重み乗算回路１５からの直交多項式展開係数とを加算処
理し、その時間波形（以下「加算後パラメータ波形」と
呼ぶ）を音声入力端子１に入力された音声信号の特徴パ
ラメータとして出力段に接続されている特徴パラメータ
レジスタ２１に供給するものである。

なお、ここまでの処理で得られた加算後パラメータ波形
としては、前述した如く直交多項式展開係数のうち１次
の係数ｂｉはパラメータの時系列の傾きを２次の係数ｃ
ｉは上又は下に凸である度合を表わしており、これらの
係数に対して重み乗算回路１５で１次の係数ｂｉに正の
定数Ｗｌｉ　　を、２次の係数に負の定数ｗ２．　　を
乗じて加算回路１９でパラメータ時系列の値に加算して
いるので、ケブヌトラム変換回路９で求められたケプス
トラム係数の時間波形に比べて時間変化が拡大され強調
されｌ〔ものとなっている。したがって、この加算後パ
ラメータ波形を用いて認識処理を行なうことによっては
、単ケプストラム係数やパワー５の時間波形を用いて認
識処理を行なう場合よりも高精度な認識を期待できるの
である。

特徴パラメータレジスタ２１は、加算回路１つからの加
算後パラメータ波形を一時記憶し、その出力段に接続さ
れている切替スイッチ２３の切替えに応じて加算後パラ
メータ波形を適宜に後述する標準パラメータ蓄積部２５
あるいは非線形時間正規化回路２７に供給するものであ
る。

切替スイッチ２３は、図示しない切替指令信号に応じて
、その可動端子２３ｃに接続されている特徴パラメータ
レジスタ２１をその固定端子２３ａ、２３ｂに接続され
ている標準パラメータ蓄積部２５あるいは非線形時間正
規化回路２７に接続切替するものである。すなわち、切
替スイッチ２３は、特徴パラメータレジスタ２１に一時
記憶される加算後パラメータ波形のうら、後に認識ずべ
き音声を入力する本人あるいはその本人とは異なる複数
人によって予め発声された認識対象単語の夫々の加算後
パラメータ波形についてはこれを標準パラメータ蓄積部
２５に供給すべく可動端子２３Ｃが固定端子２３ａ側に
セット（以下「学習モード」と呼ぶ）され、他方認識さ
れるべく発声された単語の加算後パラメータ波形につい
てはこれを非線形時間正規化回路２７に供給すべく可動
端子２３ｃが固定端子２３ｂ側にセット（以下「認識モ
ード」と呼ぶ）されるものである。

標準パラメータ蓄積部２５は、認識対象単語の夫々につ
いての比較基準となる加算後パラメータ波形（以下「標
準パラメータ」と呼ぶ）を記憶しておき、適宜該標準パ
ラメータをその出力段に接続されている非線形時間正規
化回路２７に供給するものである。すななら、この標準
パラメータとしては、前記学習モード状態において、後
に認識すべき音声を入カザる本人あるいはその本人とは
異なる複数人によって予め発生された各認識対象単語に
ついてそれぞれ＋）ｉ′ｉＪしたパワー抽出回路３乃至
加算回路１つで得られ特徴パラメータレジメタ２１を介
して供給される加算後パラメータ波形である。

非線形時間正規化回路２７は、侵述する重みレジスタ２
つ、比較回路３１等と共に判定手段を構成するもので、
認識モード状態で特徴パラメータ２１から供給される認
識しようとする単語音声についての加算後パラメータ波
形と標準パラメータ蓄積部２５に記憶されている標準パ
ラメータの夫々との類似度合を求めるものである。その
処理においては、認識しようとする単語音声の発声毎に
異なる発声速度に応じた加算後パラメータ波形の時間軸
の調整処理と、この調整処理後における前記類似度合の
演算処理とに大別される。

前者の調整処理は、音声の発声速度が、同じ話者が同じ
言葉を繰返し発声してもその度ごとに部分的及び全体的
に変化するので、両者を比較づるには、共通の音（音韻
）が対応するように、一方の時間軸を適当に非線形に伸
縮して他方の時間軸にあわせ、対応する時点の特徴パラ
メータどうしを比較する必要があるために行なわれるも
のである。具体的には、一方を基準にして、両者が最も
よく合うように（両者の類似度が最も大きくなるように
）他方の時間軸を非線形に伸縮する技術としては、動的
計画法による最適化の手法を使用できるこが知られてい
る（文献：迫江、千葉：動的計画法を利用した音声の時
間正規化に基づく連続単語認識、日本音響学会誌、２７
，９．Ｐ、４８３．１９７１）。その概要としては、次
の通りである。

標準パターンのある時点Ｋにお番プる特徴パラメータを
ｒ′にｉ（１≦ｉｓＰ十Ｉ）（Ｐ次のケプストラム係数
とパワーの時間波形に、それぞれの展開係数が重みつき
加算されたもの）、入力音声のある時点えにおける特徴
パラメータをＺ’Ａ　；　（１’−ｉ　４　ｐｆ　／　
）であられすと、ここで両者の距離（小さくなるほど類
似度が大きいことを示ず数（値）として、次のような値
を用いる。

ここでｖｌ　　は各特徴パラメータに対してあらかじめ
定められている重みを示す数値で、この値も実験の結果
に基づいて比較的高い認識精度が売られるように適切な
値に定められている。距＠ｄの計算は（８）式に示すよ
うに同一時点のＰ次のケプストラム係数とパワーとにつ
いて入力音声と標準パターンとの差の二乗和として計算
しており、つまリケブストラム係数とパワーとの互いに
性質が異なるものを一緒に使っており、これらの平衡を
とるために■１　　の重みづけを行なうものであり、従
ってｖｌ　　の値としてはケプストラム係数について演
算する際に用いるＶａと、パワーについて演算する際に
用いる。ｖ６との少なくとも２つの値を用いる。これら
の重みＶｉ　　＋ｖ６Ｌ　　＋ｖｂ　　４ま非線形時間
正規化回路２７の入力段に接続されている重みレジスタ
２９に蓄えておく。

後者の演算処理は、上述した動的計画法の演障によって
標準パターンと入力音声の一致度が最もよくなるように
時間軸対応づけたときの、対応する時点どうしの標準パ
ターンと入力音声との特徴パラメータの距離を全音声区
間について平均した値を計σする。なお、ここでこの直
を入力音声と標準パターンとの総合的距離と呼ぶことに
する。

このようにして１ｑられた総合的距離は、非線形時間正
規化回路２７の出力段に接続された比較回路３１に出力
される。

比較回路３１は、供給された総合的距離のうち最も総合
的距離の小さい、すなわち最も類似の度合が高い標準パ
ターンを判別し、この標準パターンの示す単語を音声入
力端子１から入力された単語であると判定し、その結果
を出力段に接続されている出力端子３３を介して出力す
るものである。

したがって、以上説明した構成による単語音声認識処理
としては、次のようになる。すなわち、音声入力端子１
に供給された単語音声信号についてパワー抽出回路３乃
至ケプストラム変換回路９において周知の手法を用いて
ケプストラム係数およびパワーの時局波形からなるパラ
メータ時間波形を求める。そして、このパラメータ時間
波形について展σσ係数計ｑ＠路１３乃至定数蓄積部１
７において所定の重みづけ処理を行なった直交多項式展
開係数を求め、加算回路１９において元のパラメータ時
間波形に対し当該直交多項式展開係数を加えることによ
って、元のパラメータ時間波形に対して音素の時間変化
を強調した加算後パラメータ波形を得る。学習モードに
あっては、この加算後パラメータ波形が標準パラメータ
波形として標準パラメータレジスタ２５に記憶されて行
き必要な認識対象単語のすべてについて記憶終了すると
、認識準備が終了したことになり、切替スイッチ２３の
切替えが行なわれ認識モードとなる。そして、この認識
モードにあっては、加算後パラメータ波形が非線形時間
正規化回路２７において標準パラメータ波形の各々との
総合的距離が求められ、比較回路３１がこの総合的距離
の大きさに基づいて音声入力端子１に入力された単語を
認識するのである。

本実施例によれば、都市名１００単語を認識対象単語と
して、男性４名の音声を標準パターンとして蓄積してお
き、その話者と異なる男性２０名の音声に対して認識を
行なった場合、９７．５％の認識精度を得るに至ったが
、ケプストラム係数のみに基づいて認識を行なう従来方
法では９３゜８％の認識精度であったことと比較すると
、その０識精度の向上が著しいことがわかる。

なお、本実施例では、音声の周波数スペクトルの時間に
対する変化を示すパラメータとして線形予測ケプストラ
ム係数を用いたが、線形予測係数、ホルマント周波数、
パーコール係数、対数断面積比、零交差数などを用いて
もよい。

［発明の効果１以上説明しｌζように、本発明によれば、単語音声信号
の周波数スペクトルおよびパワーの時間的変化を示すパ
ラメータを算出し、このパラメータの時間波形から直交
多項式展開係数を求め更にこの展開係数について前記パ
ラメータをその時系列の時間変化を拡大するような所定
の補正を行なった展開係数を用いて前記パラメータを補
正した標準パラメータに基づいてＸ＊を行なうようにし
たので、入力音声中の各音素の特徴が明確になり単語ご
とのパラメータの違いを強調することができる。これに
より、単に周波数スペクトルやパワーの時間波形をその
まま用いたのでは誤ｇ識が生じやすい類似単語の認識精
度を向上させることができ、加えて、不特定話者の入力
音声に対しても、またマイクロホンだけでなく電話系を
通った音声、さらには雑音や伝送歪の影響を受けた音声
等に対しても高精度で音声認識を行なうことができる。

【図面の簡単な説明】

第１図は本発明の一実施例を示す図である。１・・・音声入力端子３・・・パワー抽出回路５・・・音声区間検出回路７・・・線形予測分析回路９・・・ケプストラム変換回路１１・・・パラメータレジスタ１３・・・展開係数計算回路１５・・・重み乗算回路１７・・・定数蓄積部１９・・・加算回路２１・・・特徴パラメータレジスタ２３・・・切替スイッチ２５・・・標準パラメータ蓄積部２６・・・非線形時間正規化回路２９・・・重みレジスタ３１・・・比較回路３３・・・出力端子

Claims

【特許請求の範囲】

（１）単語の音声信号の周波数スペクトルおよびパワー
の時間的変化を示すパラメータを算出するパラメータ算
出手段と、当該パラメータの時間波形から直交多項式展開係数を算
出する係数算出手段と、当該直交多項式展開係数に対し前記パラメータの時系列
の時間変化を強調するような所定の補正演算を行なう第
１の補正手段と、該第１の補正手段で補正された直交多項式展開係数を用
いて前記パラメータをその時系列の時間変化を拡大する
ように補正する第２の補正手段と、前記音声信号が基準
のものであるときには該第２の補正手段で補正されたパ
ラメータを標準パラメータとして記憶する標準パラメー
タ蓄積手段と、前記音声信号が認識しようとする単語の
ものであるときには該第２の補正手段で補正されたパラ
メータを標準パラメータ蓄積手段に記憶された標準パラ
メータと比較し当該単語を判定する判定手段とを有する
ことを特徴とする単語音声認識装置。
（２）前記第１の補正手段は、前記直交多項式展開係数
を構成する各次数の係数に対してそれぞれ予め設定され
た定数を乗じ、前記第２の補正手段は、第１の補正手段
で補正された直交多項式展開係数とパラメータ算出手段
で算出されたパラメータとを加算処理することを特徴と
する特許請求の範囲第１項に記載の単語音声認識装置。
（３）前記パラメータ算出手段は、音声信号のパワーを
抽出するパワー抽出回路と、抽出したパワーに基づいて
音声区間を検出する音声区間検出回路と、検出した音声
区間に基づいて線形予測係数を演算する線形予測分析回
路と、該線形予測係数を線形予測ケプストラム係数に変
換するケプストラム変換回路とを有することを特徴とす
る特許請求の範囲第１項乃至第２項に記載の単語音声認
識装置。