JPS62143100A

JPS62143100A - 音声パタ−ンマツチング方式

Info

Publication number: JPS62143100A
Application number: JP60284006A
Authority: JP
Inventors: 恒雄新田; 上原　堅助; 渡辺　貞一
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1985-12-17
Filing date: 1985-12-17
Publication date: 1987-06-26
Anticipated expiration: 2010-10-09
Also published as: JPH0792678B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は不特定話者が発声した音声を高精度に認識する
ことのできる音声パターンマツチング方式に関する。

〔発明の技術的背景〕

音声認識装置は、特定話者を対象とした装置と、不特定
話者を対象とした装置とに大別される。具体的には、特
定話者を対象とした音声認識装置は、例えば配′送セン
ターにおける物流区分業務や工場の検査工程等に採用さ
れ、実用化されている。また不特定多数の話者を対象と
する音声認識装置は、例えば国内外における電話サービ
ス等に採用され、実用化されている。

さて不特定話者に対する認識方式には、■認識対象とす
る単語毎に予め登録された音声パターンと入力音声パタ
ーンとを照合してその音声を認識するパターンマツチン
グ方式と、■入力音声の音韻を識別した後、認識対象と
する単語毎に音韻系列で表現された単語辞書と照合して
その音声を認識する音韻抽出方式とがある。

いずれの方式にしろ、入力音声の単語、若しくは音韻を
高精度に識別し得ることが重要な課題となる。

ところで不特定話者が発声した単語、若しくは音韻を識
別する場合、個々人の声帯音源特性の違いと声道形状の
違い、更には発声の仕方の差等が問題となる。そこで従
来では、例えば音声スペクトルの全体的な傾斜を平坦化
し、正規化することによって音源特性の違いを吸収して
いる。また他の個人差に対しては統計的な手法を用いる
ことによって、多数話者間の変動を吸収している。

一方、入力音声の単語、或いは音韻を識別するべく、上
記入力音声を分析する場合、従来一般的には複数チャン
ネルのバンド・バス・フィルタ（Ｂ　Ｐ　Ｆ）群を用い
てその音声特徴を抽出している（ＢＰＦ方式）。しかし
最近では、汎用の信号処理ＬＳＩ（ＤＳＰ）の開発と相
俟って、分析処理の演算量の大幅な軽減を図り得るＬＰ
Ｃ分析方式による音声分析が注目されている。

ちなみにこのＬＰＣ分析方式は、従来、音声通信におけ
る帯域圧縮の技術として検討され、ＬＰＣボコーダ等と
して音声合成処理で実用化されているものである。

ここで音声のＬＰＣ分析について説明する。

この音声のＬＰＣ分析は、基本的には音声信号の成る時
点における値が、それ以前のサンプル値から線形予測で
きることを利用して行われる。

即ち、人間の発声は、口（正確には声道）の動きが比較
的緩やかである為、１０〜２０ｍ５ｅｃ程度の間では一
定の線形システム（物理的には音響管）として看做すこ
とが可能である。そこで音声をこのような系の出力であ
ると考えると、成る時点のサンプル値ｘｎは、その子７
ＩＪｌｊ値をｘｎとしたとき、＋　α　　　χ　　　　
　＋　・・・ｎ　　　ｌ　　ｎ−１２ｎ−２・・・＋α　ｘ（１）ｐ　　　　ｎ−ｐとして、過去のサンプル値（Ｘｎ−１’　ｘｎ−２’・
・・・・・ｘ　ｎ　−、ｌ　の線形結合として予測する
ことができる。ここで上記係数（α、）は、ＬＰＣ分析
における線形予測係数（αパラメータ）と称されるもの
で、音声信号の自己相関（Ｒ９）を計算した後、その代
数方程式を解いて、或いは後述する漸化式を解くことに
よって求められる。

尚、線形予測係数（α、）の各係数値は相互に相関を持
つ。

これに対してＬＰＣ分析における反射係数１Ｋｌｌはに
パラメータとも称され、逐次その予測誤差を最小化した
ときの互いに独立な係数として、音声信号から求められ
る。この反射係数（Ｋ１）は、物理的には、声道を複数
の音響管を接続したものと看做したときの、各音響管の
接続面における音波の反射係数として与えられる。

一方、音声波Ｘ　の自己相関係数（φ、）は、＋１　　
　　　　　　　　　　　　　　　　　　　　　　１（ｎ
＝　１．２．〜Ｎ）以外ではｘ　　−Ｑであるとして次
式％式％またＬＰＣ分析では、φ、をφ　にて正規化してなる正
規化自己相関係数（Ｒｏ）として、Ｒ１−φ、／φ　　
　　　　　　　　　　　（３）が用いられる。

このような係数（α、１．ｆＫ、ｌ　を求める手法につ
いて幾つか提唱されているが、例えば”　Ｄ　ｕ　ｒ　
ｂ　ｉ　ｎ　”の繰返し算法によれば、次のようにして
■〜■の処理を繰返すことによって係数（α、）、ｌＫ
、ｌ　を順次＋−０〜Ｐ個まで求めることができる。

ｕ　　−１、α　−１ ■　　ａ＜”　　−ａ’：ｉ−”Ｋ、　　ａ’：’Ｔ１
）　、ＬＳ　　ｊ、ｉ；ｉ／２ｊ　　　　　　　　　ｊ
ｌｌ−Ｊ ■　　ｕ、−（１−に、　　　）ｕ、　　　、　　　ｉ
”　　ｉ＋１　　（４）ｌ　　　　　　　　　ｌ　　　
　　　　＋−１また前記逆スペクトル係数（Ａ、）は、
（α、）の自己相関係数として次式から求められる。

Ａ、−Σ　ａ　、　ａ　、　、　　、Ｉ＝０．１．−１
　　　（５）ｌ　　　ｊ、１ｊ　　Ｊ＋１そして前記対数面積比（Ｓ、）は、Ｓ　　　＝　　Ｉｎ　　ｆ（１−に−）　　／（Ｌ十に
−）　　ｌ　　　　（８）として、声道を模擬した音響
管の相隣る断面積の比の対数として求められる。

またＬＰＣケプストラム（Ｃ１）は、ＬＰＣ分折時にお
ける残差パワーをＧとして、次の漸化式により求められ
る。

Ｃｏ　＝　　Ｉｎ　　（Ｇ）尚、このＬＰＣケプストラム（Ｃ３）は、音声の対数化
パワースペクトルの包絡の周波数成分を近似するもので
ある。

さて、このようなＬＰＣ分析パラメータを用いた従来の
パターンマツチング処理は次のようにして行われている
。

このパターンマツチング処理は、正規化残差法と称され
、を計算することによって行われる。この距離尺度Ｄ　は
、人力音声を、成るカテゴリ（Ｋ）の標準パターンから
作成した予測フィルタ（逆フィルタ；（ｋ）＋Ａ、ｌ　　　）を通したものとして考えることができ
る。尚、ここで云う正規化とは、入力パワーによる正規
化処理を示し、パラメータ抽出の途中でその正規化処理
が行われる。

このような正規化残差法によれば、入力音声に対する処
理が、自己相関の計算だけで済むと云う利点がある。

またＤＰマツチングのように、複数の時点における距離
値ＤＤ　　　・・・を累積して、その値をｒｌ’　　ｒ
２．’ 相互に比較する必要がある場合には、次の尤度比ＤＬが
用いられる。

÷（Ａ、Ｒ＋２ΣＡ、、Ｒ，）　　　（９）０　０　　
　、　、　ｔここでＡｏ’、　Ａｉ’は、入力音声から計算される逆
スペクトル係数　（Ａ　、）であり、尤度比ＤＬは前記
距離値Ｄ　を自分自身の予測誤差パワーで正層化した形
をとっている。

尚、このＬＰＣ分析パラメータを用いたパターンマツチ
ングにおいては、対数尤度比としてＬ　ｏ　ｇ　Ｄ　ｔ
、を用いる場合もある。

一方、ＬＰＣケプストラム距離ＤＣは、対数ＬＰＣスペ
クトル間のユークリッド距離に対応して、（ｋ）として計算される。ここでｆｃ、　　　ｌｌｃ、１は、
それぞれ標準パターンおよび入カバターンのＬＰＣケプ
ストラムである。

また重み付き尤度比（ＷＬＲ）は、スペクトルのピーク
に重みを置く距離尺度として次のように計算される。

（ｋ）尚、（Ｒ１）は標準パターンの自己相関係数である。

これらの距、離尺度は、ＬＰＣ距離尺度と総称されるも
ので、ＬＰＣ分Ｆ斤パラメータ（こよるパターンマッチ
ングの評価値となる。

〔背景技術の問題点〕

ところでこのようなＬＰＣ距離尺度を用いた従来の不特
定話者認識では、主にクラスター化の手法か用いられて
いる。

この手法は、多数の話者が発声した標準パターンをクラ
スター化し、その認識対象カテゴリ毎に代表となるｙｉ
数の標準パターンを辞書登録し、パターンマツチングに
よる入力音声との距離が最小となる標準パターンが属す
るカテゴリを、その認識結果として求めるものである。

尚、上記複数の標準パターンは、通常各カテゴリについ
て１０〜２０個程度登録される。

この方式は所謂単純類似度法に相当するもので、前述し
た距離尺度の全てに対して適用可能である。

しかし、実用化に際しては、認識性能の点で改善の余地
が残されている。

一方、不特定話者に対する音声認識に、複合類似度法の
適用か試みられている。この手法は、文字認識に適用さ
れて成功を収めたもので、人カバターンＸに対する認工
対象カテゴリにの複合類似（Ｋ）度Ｓ　　を次のように計算している。

（Ｋ）数であり、φ、　　はカテゴリにの共分散行列をＫＬ展
開して求められる固宵ベクトルである。またＭは固有ベ
クトルの個数である。

しかし不特定話者認識におけるＬＰＣ距離尺度に上記複
合類似度法の考え方を適用しようとした場合、正規化残
差Ｄ　、尤度比Ｄ　　、ＷＬＲ尺度ｒ　　　　　　ＬＤ　のような入カバターンと辞書パターンとのデ−タ型
式の違いが大きな問題となる。

即ち、このようなケースでは距離尺度を類似度の型式に
置換えても、入カバターンに予想される変動を複合類似
度辞書に直接表現することができない。これ故、音声認
識に複合類似度法をそのまま適用することができないと
云う問題があった。

〔発明の目的〕

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、不特定話者が発白した音声をそ
のＬＰＣ分析パラメータを用いて高精度に認識すること
のできる音声パターンマツチング方式を提供することに
ある。

〔発明の概要〕

本発明は、人力音声信号のスペクトル、またはこのスペ
クトルに対応した第１の特徴パラメータを、例えばその
自己相関係数の系列（Ｒ１）としｊて求めると共に、前記人力音声信号の対数スペクトル、
またはこの対数スペクトルに対応した第２の特徴パラメ
ータを、例えは」１記自己相関係数の系列＋Ｒ，，ｌ　
をＬＰＣ分析してなるケプストラムＪ係数の系列＋Ｃ，，ｌ　として求め、」二記第１の特徴
Ｊパラメータ　（Ｒ１）および第２の特徴パラメータＪｔＣ，、＋　と予め作成された音声認識辞書との類似問度または距離を、例えば腹合類似度法によってそれぞれ
別個に計算し、これらの計算された類似度値または距離
を相互に加算して前記入力音声を認識するようにしたも
のである。

〔発明の効果〕

かくして本発明によれば、周波数軸のピークを重視する
複合Ｌ　Ｐ　Ｃｍ似尺度として、対数スペクトル間の類
似度と共に対数化しないスペクトル間の類似度をそれぞ
れ求め、これらを総合的に評価して音声誌上するので、
その認識性能の向上を図ることが可能となる。つまりＬ
ＰＣ分析によって求められたＬＰＣ特徴パラメータから
不特定話者が発声した音声を高精度に認識することか可
能となる。

即ち、周波数軸のピークを重視する、ピーク評価調合Ｌ
ＰＣ頌似尺度Ｓ９．を、複合ＬＰＣケプストラム係数類
似尺度Ｓ。、と、１夏合自己ト目関係数類似尺度ＳＡｃ
とから、そのピーク評価尺度をνとしてＳ　ｐｒｙ”’　　ν　Ｓ　ｃＰ＋　　（１−ν　）Ｓ
、　ｃ　　　　　　　　　　　　（１３）として求めて
いる。但し、νは（θ〜１）の定数であり、このνの値
によってスペクトルピークに対する評価の度合いが調整
される。

尚、上記複合ＬＰＣケプストラム係数類似尺度ＳＣＰは
、８　　　　　　　　〜ｃ　　）　　　　　（１４）Ｃ−
（ｃケト　　ｘ２・　　　、。

として計算される。また腹合自己相関係数類似尺度ＳＡ
Ｃは、８　　　　　　　　〜ｒ　　）　　　　　（１５）Ｒ−
（ｒｘｌｏ　　ｘ２°　　　Ｘｐとして計算される。

従って、このような認識方式によれば人カバターンのデ
ータ型式と辞書パターンのデータ型式とを等しくするこ
とができ、複合類似度法の考え方を適用して不特定話者
に対する音声認識を高精度に行うことが可能となる等の
実用上多大なる効果か奏せられる。

〔発明の実施例〕

以下、図面を参照して本発明の一実施例方式につき説明
する。

第１図は実施例方式を適用して構成される不特定話者用
音声認識装置の概略構成図である。

認識処理に供される入力音声信号Ｘ　　は、Ａ／Ｄ変換
変換部分してディジタル信号　＋Ｘ　　ｌに変換されて
取込まれる。

高域強１ｉ１Ｓ部２は上記ディジタル信号ｉｘ　　ｌ　
に対して、ｘ　　ｍｘ　　−βｘ　ｎ−１（１６）ｎなる高域強調処理を行うものである。尚、係数βは、例
えば（０，９〜１．０）程度の値として選ばれる。また
パワー計算部３は上記ディジタル信号ｆｘ　　］　の音
声パワーを計算しており、そのパワ−の変化から入力音
声の境界を検出している。

しかして前記高域強調されたディジタル音声信号の系列
は窓関数処理部４に転送され、所定の窓関数Ｗ　処理が
施される。この窓関数ｗｌは、例えばハミング窓とし、
その窓の長さをＮとして次のように与えられる。

ｗ　　−０，５４−０，４６ｃｏｓ　（２πｎ　／Ｎ　
）　　　　（１７）但し、ここに示したハミング窓に代
えて、ハニング窓やその他の窓関数を用いることも勿論
可能である。

しかる後、自己ト目関計算部５では、上記窓の中に含ま
れる信号について前述した第（２）式で示される自己相
関係数（φ、）を求め、この自己相関係数（φ、）から
前記第（３）式に従って正規化自己相互関数（Ｒ３）を
前記ディジタル信号（ｘ　　ｌのＩ　　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
　　ｎ第１の特徴パラメータとして計算している。

またＬＰＣ分析分析部上記正規化自己相互関数（Ｒｏ）
から前記第（４）式に示す漸化式に従ってその線形予測
係数＋Ａ、ｌを求め、更にこの線形子測係数（Ａ、）か
ら前記第（方式に従ってスペクト■ ラム係数（Ｋ、）を求めている。このスペクトラム係数
（Ｋ、）は、入力音声の対数スペクトルに対応した第２
の特徴パラメータとして求められるものである。

このようにして人力音声信号Ｘ　　に対するＬＰＣ分析
か行われ、その特徴パラメータ　（Ｒ１）、ｉｃ、ｌが
それぞれ求められている。

しかして単語切出しリサンプル部７は、前記パワー計算
部３で求められた音声の境界から、例えば単語音声の始
端と終端とを求め、その間におけるＬＰＣ特徴パラメー
タ系列をリサンプル処理している。具体的には、特徴パ
ラメータｆＲ，ｌ。

ＩＣ，ｌ　　；　　Ｎ−１，２，〜１６）の時系列から
、その姶端と終端との間を等分割（ここでは１６等分）
して認識処理に供する特徴パラメータ系列ｉＲ，ｌ。

（Ｃ１）をそれぞれ抽出している。

このようにしてリサンプル処理された特徴パラメータ系
列（Ｒ，Ｉ、　（Ｃ，）　　；　（ｉ−１，２，〜１Ｂ
、　　ｊ−１，２，〜１６）か複合ＬＰＣｍ似度計算部
８に与えられて、腹合ＬＰＣ辞書９に予め登録された各
カテゴリの複合類似度辞書との腹合類似度計算に供され
る。

二こて１夏合ＬＰＣ辞書９は、自己相関辞書９ａとケプ
ストラム辞書９ｂとを倫えて構成される。具体的にはそ
の１認識対象カテゴリをＫとしたとき、ＬＲ，、ｌ　（
ｋ′ｍ）および（ｃ　、　、＋　（ｋ゛Ｉｆｆ）として
そのｌｊ　　　　　　　　　　　　　　　　　　　　　
　ＩＪ認識辞書を予め作成し、記憶して構成される。但
し、ｍは辞書の軸番号を示し、例えば（ｍ−１，２，〜
１０）なる値を取る。

びｆｃ、、ｌ　（ｋ”）は、例えば多数の話者が発声し
ＩＪた音声のベクトル（Ｒ，、ｌ　およびｆｃ、、ｌからそ
ＩＪ　　　　　　　　　　　　　　ＩＪの共分散行列を
それぞれ計算し、これらの各共分散行列をそれぞれＫＬ
展開して求められる１０個の固有ベクトルとして作成さ
れる。

このような各カテゴリの複合ＬＰＣ辞書と前記入力音声
のパラメータ時系列ｆＲ，，）、ｆｃ、、ｌ　とＩＪ　
　　　　　　ｌｊの間で、前述した第（１４）　（１５）式で示される複
合類似度計算が行われその複合類似度Ｓ　１Ｓ　がそＡ
ＣＣＰれぞれ求められる。そして前記第（１３）式に従って上
記複合類似度Ｓ　、Ｓ　が相互に加算されて、ＡＣＣＰ前記入力音声と認識対象カテゴリにとの複合ＬＰＣ類似
尺度Ｓ、Ｅが求められる。

判定部１０は、このようにして各カテゴリに対して計算
された複合類似尺度Ｓ、Ｅを、その値の大きいものから
順にソート処理し、例えばその上位３個のカテゴリを認
識候補として出力している。

第２図はこのような一連の処理によって得られた入力音
声に対する認識結果のエラー率を示したものであり、横
軸はそのときのピーク評価尺度νの値を示している。

このデータは、２５名の男性が２０の単語をそれぞれ１
回づつ発声した音声データを用いて複合ＬＰＣ辞誉９を
作成し、別の１６名の話者が発声した音声を認識処理し
たときの例である。

このデータに示されるように、ピーク評価尺度νの値を
（０，６〜０．９）の範囲に設定した場合、そのエラー
率を低く抑えて認識性能を高めることがわかる。

また次表は、本方式による認識率を、従来方式による認
識率と対比して示したものである。

尚、上記非対称重み付は尺度は、標準音声の平均パター
ンを重み関数として、これを標準音声および人力音声の
それぞれに掛けて求められる、周波数軸のピークを重視
した類似尺度である。

具体的には人力音声パターンをｔＸ、＋　、標準音声パ
ターンを（Ｙｌ）としたとき、非対称重み付は尺度Ｓ８
ｗは次のようにして計算される。

Ｆ　　＝（ｗ　　１ｏｇＸ　　、ｗ　　ｌｏｇＸ２゜ｘ
　　　　　　　１　　　　　　１　　　　２〜Ｗ１０ｇ
　Ｘ）ｐここで上記重み係数Ｗ、は、として平均スペクトル、または平均対数スペクトルに応
じて定められる。

この実験データからも本方式による認識率が優れている
ことがわかる。

このように本方式によれば認識率（認識性能）の大幅な
向上を図り得ることが、前述した第２図に示すデータ、
および上述した表に示されるデータから理解される。

以上、本発明に係る音声のパターンマツチング方式につ
いて説明したように、本発明によればＬＰＣ分析パラメ
ータを有効に用いて不特定話者の音声を高精度に識別す
ることが可能となる。故に、音声認識処理の分野におい
て多大なる効果を奏し、その実用的利点は絶大である。

尚、本発明は上述した実施例に限定されるものではない
。実施例では単語音声の認識について説明したが、音節
認識や音素認識に対しても同様に適用可能なことは云う
までもない。これらの場合には、音節または音素に対応
する音声区間を予め切出してその腹合ＬＰＣ辞書を構成
しておき、これらの辞書を入力音声のＬＰＣ特徴パター
ンに対して、時間軸方向に連続的にパターンマツチング
するようにすれば良い。その他、本発明はその要旨を逸
脱しない範囲で種々変形して実施することができる。

【図面の簡単な説明】

図は本発明の一実施例方式を説明する為のもので、第１
図は実施例方式を適用して構成される音声認識装置の概
略構成図、第２図は実施例方式による認識率特性をスペ
クトルピークに対する重みの度合いを変えて示した図で
ある。１・・・Ａ／Ｄ変換部、２・・・高域強調部、３・・・
パワー計算部、４・・・窓関数処理部、５・・・自己相
関計算部、６・・・ＬＰＣ分析部、７・・・単語切出し
リサンプル部、８・・・複合ＬＰＣ類似度計算部、９・
・・複合ＬＰＣ辞書、１０・・・判定部。第１図

Claims

【特許請求の範囲】

（１）入力音声信号のスペクトル、またはこのスペクト
ルに対応した第１の特徴パラメータを求める手段と、こ
のスペクトルまたは第１の特徴パラメータと予め作成さ
れた音声認識辞書との類似度または距離を計算する第１
の手段と、前記入力音声信号の対数スペクトル、または
この対数スペクトルに対応した第２の特徴パラメータを
求める手段と、この対数スペクトルまたは第２の特徴パ
ラメータと予め作成された音声認識辞書との類似度また
は距離を計算する第２の手段と、上記第１および第２の
手段でそれぞれ計算された類似度値または距離を相互に
加算して前記入力音声を認識する手段とを具備したこと
を特徴とする音声パターンマッチング方式。
（２）スペクトルに対応する第１の特徴パラメータは、
自己相関係数として求められ、対数スペクトルに対応す
る第２の特徴パラメータは、上記自己相関係数をＬＰＣ
分析したケプストラム係数として求められるものである
特許請求の範囲第１項記載の音声パターンマッチング方
式。
（３）特徴パラメータと音声認識辞書との類似度は、そ
の複合類似度計算により求められるものである特許請求
の範囲第１項記載の音声パターンマッチング方式。