JPS62143100A - 音声パタ−ンマツチング方式 - Google Patents

音声パタ−ンマツチング方式

Info

Publication number
JPS62143100A
JPS62143100A JP60284006A JP28400685A JPS62143100A JP S62143100 A JPS62143100 A JP S62143100A JP 60284006 A JP60284006 A JP 60284006A JP 28400685 A JP28400685 A JP 28400685A JP S62143100 A JPS62143100 A JP S62143100A
Authority
JP
Japan
Prior art keywords
speech
spectrum
similarity
lpc
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60284006A
Other languages
English (en)
Other versions
JPH0792678B2 (ja
Inventor
恒雄 新田
上原 堅助
渡辺 貞一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP60284006A priority Critical patent/JPH0792678B2/ja
Publication of JPS62143100A publication Critical patent/JPS62143100A/ja
Publication of JPH0792678B2 publication Critical patent/JPH0792678B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は不特定話者が発声した音声を高精度に認識する
ことのできる音声パターンマツチング方式に関する。
〔発明の技術的背景〕
音声認識装置は、特定話者を対象とした装置と、不特定
話者を対象とした装置とに大別される。具体的には、特
定話者を対象とした音声認識装置は、例えば配′送セン
ターにおける物流区分業務や工場の検査工程等に採用さ
れ、実用化されている。また不特定多数の話者を対象と
する音声認識装置は、例えば国内外における電話サービ
ス等に採用され、実用化されている。
さて不特定話者に対する認識方式には、■認識対象とす
る単語毎に予め登録された音声パターンと入力音声パタ
ーンとを照合してその音声を認識するパターンマツチン
グ方式と、■入力音声の音韻を識別した後、認識対象と
する単語毎に音韻系列で表現された単語辞書と照合して
その音声を認識する音韻抽出方式とがある。
いずれの方式にしろ、入力音声の単語、若しくは音韻を
高精度に識別し得ることが重要な課題となる。
ところで不特定話者が発声した単語、若しくは音韻を識
別する場合、個々人の声帯音源特性の違いと声道形状の
違い、更には発声の仕方の差等が問題となる。そこで従
来では、例えば音声スペクトルの全体的な傾斜を平坦化
し、正規化することによって音源特性の違いを吸収して
いる。また他の個人差に対しては統計的な手法を用いる
ことによって、多数話者間の変動を吸収している。
一方、入力音声の単語、或いは音韻を識別するべく、上
記入力音声を分析する場合、従来一般的には複数チャン
ネルのバンド・バス・フィルタ(B P F)群を用い
てその音声特徴を抽出している(BPF方式)。しかし
最近では、汎用の信号処理LSI(DSP)の開発と相
俟って、分析処理の演算量の大幅な軽減を図り得るLP
C分析方式による音声分析が注目されている。
ちなみにこのLPC分析方式は、従来、音声通信におけ
る帯域圧縮の技術として検討され、LPCボコーダ等と
して音声合成処理で実用化されているものである。
ここで音声のLPC分析について説明する。
この音声のLPC分析は、基本的には音声信号の成る時
点における値が、それ以前のサンプル値から線形予測で
きることを利用して行われる。
即ち、人間の発声は、口(正確には声道)の動きが比較
的緩やかである為、10〜20m5ec程度の間では一
定の線形システム(物理的には音響管)として看做すこ
とが可能である。そこで音声をこのような系の出力であ
ると考えると、成る時点のサンプル値xnは、その子7
IJlj値をxnとしたとき、+ α   χ    
 + ・・・ n   l  n−12n−2 ・・・+α x(1) p    n−p として、過去のサンプル値(Xn−1’ xn−2’・
・・・・・x n −、l の線形結合として予測する
ことができる。ここで上記係数(α、)は、LPC分析
における線形予測係数(αパラメータ)と称されるもの
で、音声信号の自己相関(R9)を計算した後、その代
数方程式を解いて、或いは後述する漸化式を解くことに
よって求められる。
尚、線形予測係数(α、)の各係数値は相互に相関を持
つ。
これに対してLPC分析における反射係数1Kllはに
パラメータとも称され、逐次その予測誤差を最小化した
ときの互いに独立な係数として、音声信号から求められ
る。この反射係数(K1)は、物理的には、声道を複数
の音響管を接続したものと看做したときの、各音響管の
接続面における音波の反射係数として与えられる。
一方、音声波X の自己相関係数(φ、)は、+1  
                      1(n
= 1.2.〜N)以外ではx  −Qであるとして次
式%式% またLPC分析では、φ、をφ にて正規化してなる正
規化自己相関係数(Ro)として、R1−φ、/φ  
           (3)が用いられる。
このような係数(α、1.fK、l を求める手法につ
いて幾つか提唱されているが、例えば” D u r 
b i n ”の繰返し算法によれば、次のようにして
■〜■の処理を繰返すことによって係数(α、)、lK
、l を順次+−0〜P個まで求めることができる。
u  −1、α −1 ■  a<”  −a’:i−”K、  a’:’T1
) 、LS  j、i;i/2j         j
ll−J ■  u、−(1−に、   )u、   、   i
”  i+1  (4)l         l   
    +−1また前記逆スペクトル係数(A、)は、
(α、)の自己相関係数として次式から求められる。
A、−Σ a 、 a 、 、  、I=0.1.−1
   (5)l   j、1j  J+1 そして前記対数面積比(S、)は、 S   =  In  f(1−に−)  /(L十に
−)  l    (8)として、声道を模擬した音響
管の相隣る断面積の比の対数として求められる。
またLPCケプストラム(C1)は、LPC分折時にお
ける残差パワーをGとして、次の漸化式により求められ
る。
Co =  In  (G) 尚、このLPCケプストラム(C3)は、音声の対数化
パワースペクトルの包絡の周波数成分を近似するもので
ある。
さて、このようなLPC分析パラメータを用いた従来の
パターンマツチング処理は次のようにして行われている
このパターンマツチング処理は、正規化残差法と称され
、 を計算することによって行われる。この距離尺度D は
、人力音声を、成るカテゴリ(K)の標準パターンから
作成した予測フィルタ(逆フィルタ;(k) +A、l   )を通したものとして考えることができ
る。尚、ここで云う正規化とは、入力パワーによる正規
化処理を示し、パラメータ抽出の途中でその正規化処理
が行われる。
このような正規化残差法によれば、入力音声に対する処
理が、自己相関の計算だけで済むと云う利点がある。
またDPマツチングのように、複数の時点における距離
値DD   ・・・を累積して、その値をrl’  r
2.’ 相互に比較する必要がある場合には、次の尤度比DLが
用いられる。
÷(A、R+2ΣA、、R,)   (9)0 0  
 、 、 t ここでAo’、 Ai’は、入力音声から計算される逆
スペクトル係数 (A 、)であり、尤度比DLは前記
距離値D を自分自身の予測誤差パワーで正層化した形
をとっている。
尚、このLPC分析パラメータを用いたパターンマツチ
ングにおいては、対数尤度比としてL o g D t
、を用いる場合もある。
一方、LPCケプストラム距離DCは、対数LPCスペ
クトル間のユークリッド距離に対応して、 (k) として計算される。ここでfc、   llc、1は、
それぞれ標準パターンおよび入カバターンのLPCケプ
ストラムである。
また重み付き尤度比(WLR)は、スペクトルのピーク
に重みを置く距離尺度として次のように計算される。
(k) 尚、(R1)は標準パターンの自己相関係数である。
これらの距、離尺度は、LPC距離尺度と総称されるも
ので、LPC分F斤パラメータ(こよるパターンマッチ
ングの評価値となる。
〔背景技術の問題点〕
ところでこのようなLPC距離尺度を用いた従来の不特
定話者認識では、主にクラスター化の手法か用いられて
いる。
この手法は、多数の話者が発声した標準パターンをクラ
スター化し、その認識対象カテゴリ毎に代表となるyi
数の標準パターンを辞書登録し、パターンマツチングに
よる入力音声との距離が最小となる標準パターンが属す
るカテゴリを、その認識結果として求めるものである。
尚、上記複数の標準パターンは、通常各カテゴリについ
て10〜20個程度登録される。
この方式は所謂単純類似度法に相当するもので、前述し
た距離尺度の全てに対して適用可能である。
しかし、実用化に際しては、認識性能の点で改善の余地
が残されている。
一方、不特定話者に対する音声認識に、複合類似度法の
適用か試みられている。この手法は、文字認識に適用さ
れて成功を収めたもので、人カバターンXに対する認工
対象カテゴリにの複合類似(K) 度S  を次のように計算している。
(K) 数であり、φ、  はカテゴリにの共分散行列をKL展
開して求められる固宵ベクトルである。またMは固有ベ
クトルの個数である。
しかし不特定話者認識におけるLPC距離尺度に上記複
合類似度法の考え方を適用しようとした場合、正規化残
差D 、尤度比D  、WLR尺度r      L D のような入カバターンと辞書パターンとのデ−タ型
式の違いが大きな問題となる。
即ち、このようなケースでは距離尺度を類似度の型式に
置換えても、入カバターンに予想される変動を複合類似
度辞書に直接表現することができない。これ故、音声認
識に複合類似度法をそのまま適用することができないと
云う問題があった。
〔発明の目的〕
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、不特定話者が発白した音声をそ
のLPC分析パラメータを用いて高精度に認識すること
のできる音声パターンマツチング方式を提供することに
ある。
〔発明の概要〕
本発明は、人力音声信号のスペクトル、またはこのスペ
クトルに対応した第1の特徴パラメータを、例えばその
自己相関係数の系列(R1)としj て求めると共に、前記人力音声信号の対数スペクトル、
またはこの対数スペクトルに対応した第2の特徴パラメ
ータを、例えは」1記自己相関係数の系列+R,,l 
をLPC分析してなるケプストラムJ 係数の系列+C,,l として求め、」二記第1の特徴
J パラメータ (R1)および第2の特徴パラメータJ tC,、+ と予め作成された音声認識辞書との類似問 度または距離を、例えば腹合類似度法によってそれぞれ
別個に計算し、これらの計算された類似度値または距離
を相互に加算して前記入力音声を認識するようにしたも
のである。
〔発明の効果〕
かくして本発明によれば、周波数軸のピークを重視する
複合L P Cm似尺度として、対数スペクトル間の類
似度と共に対数化しないスペクトル間の類似度をそれぞ
れ求め、これらを総合的に評価して音声誌上するので、
その認識性能の向上を図ることが可能となる。つまりL
PC分析によって求められたLPC特徴パラメータから
不特定話者が発声した音声を高精度に認識することか可
能となる。
即ち、周波数軸のピークを重視する、ピーク評価調合L
PC頌似尺度S9.を、複合LPCケプストラム係数類
似尺度S。、と、1夏合自己ト目関係数類似尺度SAc
とから、そのピーク評価尺度をνとして S pry”’  ν S cP+  (1−ν )S
、 c            (13)として求めて
いる。但し、νは(θ〜1)の定数であり、このνの値
によってスペクトルピークに対する評価の度合いが調整
される。
尚、上記複合LPCケプストラム係数類似尺度SCPは
、 8        〜c  )     (14)C−
(cケト  x2・   、。
として計算される。また腹合自己相関係数類似尺度SA
Cは、 8        〜r  )     (15)R−
(rxlo  x2°   Xp として計算される。
従って、このような認識方式によれば人カバターンのデ
ータ型式と辞書パターンのデータ型式とを等しくするこ
とができ、複合類似度法の考え方を適用して不特定話者
に対する音声認識を高精度に行うことが可能となる等の
実用上多大なる効果か奏せられる。
〔発明の実施例〕
以下、図面を参照して本発明の一実施例方式につき説明
する。
第1図は実施例方式を適用して構成される不特定話者用
音声認識装置の概略構成図である。
認識処理に供される入力音声信号X  は、A/D変換
変換部分してディジタル信号 +X  lに変換されて
取込まれる。
高域強1i1S部2は上記ディジタル信号ix  l 
に対して、 x  mx  −βx n−1(16)n なる高域強調処理を行うものである。尚、係数βは、例
えば(0,9〜1.0)程度の値として選ばれる。また
パワー計算部3は上記ディジタル信号fx  ] の音
声パワーを計算しており、そのパワ−の変化から入力音
声の境界を検出している。
しかして前記高域強調されたディジタル音声信号の系列
は窓関数処理部4に転送され、所定の窓関数W 処理が
施される。この窓関数wlは、例えばハミング窓とし、
その窓の長さをNとして次のように与えられる。
w  −0,54−0,46cos (2πn /N 
)    (17)但し、ここに示したハミング窓に代
えて、ハニング窓やその他の窓関数を用いることも勿論
可能である。
しかる後、自己ト目関計算部5では、上記窓の中に含ま
れる信号について前述した第(2)式で示される自己相
関係数(φ、)を求め、この自己相関係数(φ、)から
前記第(3)式に従って正規化自己相互関数(R3)を
前記ディジタル信号(x  lのI         
                         
  n第1の特徴パラメータとして計算している。
またLPC分析分析部上記正規化自己相互関数(Ro)
から前記第(4)式に示す漸化式に従ってその線形予測
係数+A、lを求め、更にこの線形子測係数(A、)か
ら前記第(方式に従ってスペクト■ ラム係数(K、)を求めている。このスペクトラム係数
(K、)は、入力音声の対数スペクトルに対応した第2
の特徴パラメータとして求められるものである。
このようにして人力音声信号X  に対するLPC分析
か行われ、その特徴パラメータ (R1)、ic、lが
それぞれ求められている。
しかして単語切出しリサンプル部7は、前記パワー計算
部3で求められた音声の境界から、例えば単語音声の始
端と終端とを求め、その間におけるLPC特徴パラメー
タ系列をリサンプル処理している。具体的には、特徴パ
ラメータfR,l。
IC,l  ;  N−1,2,〜16)の時系列から
、その姶端と終端との間を等分割(ここでは16等分)
して認識処理に供する特徴パラメータ系列iR,l。
(C1)をそれぞれ抽出している。
このようにしてリサンプル処理された特徴パラメータ系
列(R,I、 (C,)  ; (i−1,2,〜1B
、  j−1,2,〜16)か複合LPCm似度計算部
8に与えられて、腹合LPC辞書9に予め登録された各
カテゴリの複合類似度辞書との腹合類似度計算に供され
る。
二こて1夏合LPC辞書9は、自己相関辞書9aとケプ
ストラム辞書9bとを倫えて構成される。具体的にはそ
の1認識対象カテゴリをKとしたとき、LR,、l (
k′m)および(c 、 、+ (k゛Iff)として
そのlj                     
 IJ認識辞書を予め作成し、記憶して構成される。但
し、mは辞書の軸番号を示し、例えば(m−1,2,〜
10)なる値を取る。
びfc、、l (k”)は、例えば多数の話者が発声し
IJ た音声のベクトル(R,、l およびfc、、lからそ
IJ              IJの共分散行列を
それぞれ計算し、これらの各共分散行列をそれぞれKL
展開して求められる10個の固有ベクトルとして作成さ
れる。
このような各カテゴリの複合LPC辞書と前記入力音声
のパラメータ時系列fR,,)、fc、、l とIJ 
      lj の間で、前述した第(14) (15)式で示される複
合類似度計算が行われその複合類似度S 1S がそA
CCP れぞれ求められる。そして前記第(13)式に従って上
記複合類似度S 、S が相互に加算されて、ACCP 前記入力音声と認識対象カテゴリにとの複合LPC類似
尺度S、Eが求められる。
判定部10は、このようにして各カテゴリに対して計算
された複合類似尺度S、Eを、その値の大きいものから
順にソート処理し、例えばその上位3個のカテゴリを認
識候補として出力している。
第2図はこのような一連の処理によって得られた入力音
声に対する認識結果のエラー率を示したものであり、横
軸はそのときのピーク評価尺度νの値を示している。
このデータは、25名の男性が20の単語をそれぞれ1
回づつ発声した音声データを用いて複合LPC辞誉9を
作成し、別の16名の話者が発声した音声を認識処理し
たときの例である。
このデータに示されるように、ピーク評価尺度νの値を
(0,6〜0.9)の範囲に設定した場合、そのエラー
率を低く抑えて認識性能を高めることがわかる。
また次表は、本方式による認識率を、従来方式による認
識率と対比して示したものである。
尚、上記非対称重み付は尺度は、標準音声の平均パター
ンを重み関数として、これを標準音声および人力音声の
それぞれに掛けて求められる、周波数軸のピークを重視
した類似尺度である。
具体的には人力音声パターンをtX、+ 、標準音声パ
ターンを(Yl)としたとき、非対称重み付は尺度S8
wは次のようにして計算される。
F  =(w  1ogX  、w  logX2゜x
       1      1    2〜W10g
 X) p ここで上記重み係数W、は、 として平均スペクトル、または平均対数スペクトルに応
じて定められる。
この実験データからも本方式による認識率が優れている
ことがわかる。
このように本方式によれば認識率(認識性能)の大幅な
向上を図り得ることが、前述した第2図に示すデータ、
および上述した表に示されるデータから理解される。
以上、本発明に係る音声のパターンマツチング方式につ
いて説明したように、本発明によればLPC分析パラメ
ータを有効に用いて不特定話者の音声を高精度に識別す
ることが可能となる。故に、音声認識処理の分野におい
て多大なる効果を奏し、その実用的利点は絶大である。
尚、本発明は上述した実施例に限定されるものではない
。実施例では単語音声の認識について説明したが、音節
認識や音素認識に対しても同様に適用可能なことは云う
までもない。これらの場合には、音節または音素に対応
する音声区間を予め切出してその腹合LPC辞書を構成
しておき、これらの辞書を入力音声のLPC特徴パター
ンに対して、時間軸方向に連続的にパターンマツチング
するようにすれば良い。その他、本発明はその要旨を逸
脱しない範囲で種々変形して実施することができる。
【図面の簡単な説明】
図は本発明の一実施例方式を説明する為のもので、第1
図は実施例方式を適用して構成される音声認識装置の概
略構成図、第2図は実施例方式による認識率特性をスペ
クトルピークに対する重みの度合いを変えて示した図で
ある。 1・・・A/D変換部、2・・・高域強調部、3・・・
パワー計算部、4・・・窓関数処理部、5・・・自己相
関計算部、6・・・LPC分析部、7・・・単語切出し
リサンプル部、8・・・複合LPC類似度計算部、9・
・・複合LPC辞書、10・・・判定部。 第1図

Claims (3)

    【特許請求の範囲】
  1. (1)入力音声信号のスペクトル、またはこのスペクト
    ルに対応した第1の特徴パラメータを求める手段と、こ
    のスペクトルまたは第1の特徴パラメータと予め作成さ
    れた音声認識辞書との類似度または距離を計算する第1
    の手段と、前記入力音声信号の対数スペクトル、または
    この対数スペクトルに対応した第2の特徴パラメータを
    求める手段と、この対数スペクトルまたは第2の特徴パ
    ラメータと予め作成された音声認識辞書との類似度また
    は距離を計算する第2の手段と、上記第1および第2の
    手段でそれぞれ計算された類似度値または距離を相互に
    加算して前記入力音声を認識する手段とを具備したこと
    を特徴とする音声パターンマッチング方式。
  2. (2)スペクトルに対応する第1の特徴パラメータは、
    自己相関係数として求められ、対数スペクトルに対応す
    る第2の特徴パラメータは、上記自己相関係数をLPC
    分析したケプストラム係数として求められるものである
    特許請求の範囲第1項記載の音声パターンマッチング方
    式。
  3. (3)特徴パラメータと音声認識辞書との類似度は、そ
    の複合類似度計算により求められるものである特許請求
    の範囲第1項記載の音声パターンマッチング方式。
JP60284006A 1985-12-17 1985-12-17 音声パタ−ンマツチング方式 Expired - Lifetime JPH0792678B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60284006A JPH0792678B2 (ja) 1985-12-17 1985-12-17 音声パタ−ンマツチング方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60284006A JPH0792678B2 (ja) 1985-12-17 1985-12-17 音声パタ−ンマツチング方式

Publications (2)

Publication Number Publication Date
JPS62143100A true JPS62143100A (ja) 1987-06-26
JPH0792678B2 JPH0792678B2 (ja) 1995-10-09

Family

ID=17673072

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60284006A Expired - Lifetime JPH0792678B2 (ja) 1985-12-17 1985-12-17 音声パタ−ンマツチング方式

Country Status (1)

Country Link
JP (1) JPH0792678B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005119654A1 (ja) * 2004-06-01 2005-12-15 Toshiba Tec Kabushiki Kaisha 話者認識装置、プログラム及び話者認識方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5915993A (ja) * 1982-07-19 1984-01-27 株式会社東芝 音声認識装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5915993A (ja) * 1982-07-19 1984-01-27 株式会社東芝 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005119654A1 (ja) * 2004-06-01 2005-12-15 Toshiba Tec Kabushiki Kaisha 話者認識装置、プログラム及び話者認識方法

Also Published As

Publication number Publication date
JPH0792678B2 (ja) 1995-10-09

Similar Documents

Publication Publication Date Title
Tiwari MFCC and its applications in speaker recognition
Dhingra et al. Isolated speech recognition using MFCC and DTW
US7957959B2 (en) Method and apparatus for processing speech data with classification models
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
Vyas A Gaussian mixture model based speech recognition system using Matlab
KR20010102549A (ko) 화자 인식 방법 및 장치
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Deiv et al. Automatic gender identification for hindi speech recognition
Singh et al. A critical review on automatic speaker recognition
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
Camarena-Ibarrola et al. Speaker identification through spectral entropy analysis
Punchihewa et al. Voice command interpretation for robot control
JPS62143100A (ja) 音声パタ−ンマツチング方式
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
Lingam Speaker based language independent isolated speech recognition system
Li et al. Speech recognition of mandarin syllables using both linear predict coding cepstra and Mel frequency cepstra
Upadhyay et al. Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario
Patro et al. Statistical feature evaluation for classification of stressed speech
Sahu et al. Odia isolated word recognition using DTW
Prajapati et al. SPEAKER IDENTIFICATION FOR ISOLATED GUJARATI DIGITS USING MFCC AND VQ.
JPH04293095A (ja) 音声認識方法
Jahan et al. An Efficient Method for Improving Automatic Speech Recognition
Viana et al. Self-organizing speech recognition that processes acoustic and articulatory features