JPS62116997A - 単語音声認識装置 - Google Patents

単語音声認識装置

Info

Publication number
JPS62116997A
JPS62116997A JP60256674A JP25667485A JPS62116997A JP S62116997 A JPS62116997 A JP S62116997A JP 60256674 A JP60256674 A JP 60256674A JP 25667485 A JP25667485 A JP 25667485A JP S62116997 A JPS62116997 A JP S62116997A
Authority
JP
Japan
Prior art keywords
parameter
word
coefficients
circuit
linear prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60256674A
Other languages
English (en)
Inventor
貞煕 古井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP60256674A priority Critical patent/JPS62116997A/ja
Publication of JPS62116997A publication Critical patent/JPS62116997A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の技術分野] 本発明は、認識能力を向上した単語音声認識装置に関す
る。
[発明の技術的背景とその問題点] 単語の音声認識については、従来、各単語についての音
声を単語を構成する各音素を周波数スペクトルやその包
給形で表わした時系列信号として把握し、これに基づい
て認識するものがある。具体的には、予め認識対象語金
の夫々の単語についての基準時系列信号を記憶しておき
、入力音声についての時系列信号を演算後これを各M準
時系列信号と順次比較して行き、最も一致度合が高い基
準時系列信号の示す単語を入力された単語と認識するの
である。
ところで、単語を構成している各音素は、音素の一連の
結合である単語が発生された場合のスペクトルと単独で
発生された場合のスペクトルとは異なることが一般に知
られている。これは、単語発生時における音素が互いに
隣り合う音素の影響を受けるためであり、そのスペクト
ルとしては単語を構成する各音素の間で急に変化せずな
めらかな変化となり、所謂なよ(プ現象が生じたものと
なる。したがって、入力音声について各音素についての
時系列信号を演算しても、その単語を構成する音素ごと
のみに基づいて求めである基準時系列信号とは勢い異な
ってしまい、該認識を招来することになる。加えて、音
素については当然のことであるが発声者の違いによって
スペクトルも相違するため、不特定人の発声した単語を
上述した方法で認識する場合にはこのような要因に基づ
ぎ一層誤認識のおそれが高くなる。
[発明の目的〕 本発明は、上記に鑑みてなされたもので、その目的とし
ては、単語の認識率を特定話者の音声だけでなく不特定
話者の音声等の場合でも向上できるようにした音声認識
装置を提供することにある。
[発明の概要] 上記目的を達成するため、本発明は、単語の音声信号の
周波数スペクトルおよびパワーの時間的変化を示すパラ
メータを算出するパラメータ算出手段と、 当該パラメータの時間波形から直交多項式展開係数を算
出する係数算出手段と、 当該直交多項式展開係数に対し前記パラメータの時系列
の時間変化を強調するような所定の補正演算を行なう第
1の補正手段と、 該第1の補正手段で補正された直交多項式展開係数を用
いて前記パラメータを補正する第2の補正手段と、 前記音声信号が基準のものであるときには該第2の補正
手段で補正されたパラメータを標準パラメータとして記
憶する標準パラメータ蓄積手段と、前記音声信号が認識
しようとする単語のものであるときには該第2の補正手
段で補正されたパラメータを標準パラメータ蓄積手段に
記憶された標準パラメータと比較し当該単語を判定する
判定手段とを有することを要旨とする。
[発明の実施例] 以下、図面を用いて本発明の詳細な説明する。
第1図は、本発明に係る単語音声認識装置の回路ブロッ
クを示す図である。
同図において、1は例えばマイクロホン等に接続され単
語の音声信号(以下単に「音声信号」と呼ぶ)を入力し
て次段のパワー抽出回路3に供給する音声入力端子であ
る。
パワー抽出回路3は、音声入力端子1から供給された音
声信号について設定時間(例えばB、m5ec)毎のパ
ワーを演算する回路である。該パワー抽出回路3は、そ
の出力が次段の音声区間検出回路5および後述するパラ
メータレジスタ11に接続されている。
音声区間検出回路5は、単語の発声信号が一般に主に雑
音で構成される無音の部分とそうでない実際の音声の部
分を含むので、パワー抽出回路3で演算された設定時間
ごとのパワーに基づいてこの両者を判別する回路である
。判別方法としては、例えば設定時間ごとのパワーの絶
対直が所定レベルを越えている部分を音声部分と判別す
る方法、設定時間ごとのパワーについて所定レベルを越
える状態が所定時間継続すればこれを音声部分と判別す
る方法等、種々の周知方法が適用できる。音声区間検出
回路は線形予測分析回路7に接続されている。
線形予測分析回路7は、音声区間検出回路5で検出され
た音声部分の信号を線形予測係数の時間波形に変換処理
する回路である。この変換処理については、す゛でに公
知であり(例えば、文献、板金・斉藤:統計的手法によ
る音声スペクトル密度とホルマント周波数の推定、電子
通信学会論文誌。
53−A、1.P、35.1970参照)II要は次の
通りである。基本的にはまず低域通過フィルタに通した
のち標本化及び量子化を行い、一定時間ごとに短区間の
波形を切り出してハミング窓等を乗じ、積和の演算によ
って相関係数を計算する。
ハミング窓の長さとしは、例えば3Qss、これを更新
する周期としては、例えば8謄Sのような値が用いられ
る。その相関係数から、繰返し演算処理によって代数方
程式を解くことにより、容易に線形予測係数が抽出され
るのである。
これら相関係数及び線形予測係数は、例えば第1次から
第10次までの値を計算する。線形予測分析回路7の出
力はケプストラム変換回路9に接続されている。
ケプストラム変換回路9は、求められた線形予測係数の
時間波形を所謂線形予測ケプストラム係数(以下単に「
ケプストラム係数」と呼ぶ)に変換処理する回路である
。この変換処理についてもやはり公知であり(例えば文
献、斉藤・中日:音声情報処理の基礎、オーム社、第7
章、P2O3゜1981参照)詳細は省略するが、線形
予測係数を用いた再帰式を演算することにより処理でき
る。
この変換処理で得られるケアストラム係数については、
対数パワー・スペクトルのフーリエ変換によって得られ
る従来のケアストラム係数とはやや異なるが、それによ
って表現されるスペクトル包絡は類似しており、音声の
特徴を表現するパラメータとして優れた性質を有してい
ることが知られている(文献、古井貞煕:単音節認識と
その人語電単語音声認識への適用、電子通信学会論文誌
J65−A、2.P、175.1982参照)。
なお、当該ケプストラム係数は、ケプストラム変換回路
9の出力段に接続されているパラメータレジスタ11に
供給される。
パラメータレジスタ11は、ケプストラム変換回路9か
らの各次数のケプストラム係数の時間波形および前記パ
ワー抽出回路3からのパワーの時間波形(以下この両者
をまとめて「パラメータ時間波形」と呼ぶ)を一定時間
毎に一定の時間長の区間をもって一時記憶し、その記憶
内容を適宜に後述する展開係数計算回路13および加算
回路19に出力制御するものである。なお、このパラメ
ータレジスタ11及び展開係数計算回路13に入力され
るパラメータ時間波形の長さとしては、例えば50m5
.これを更新する周期としては、例えば8msのような
値を用いる。
展開係数計算回路13は、係数算出手段を構成するもの
で、供給されたパラメータ時間波形から直交多項式展開
係数を算出する回路である。その算出方法としては、種
々の方法が考えられるが、木実fMP/lではパラメー
タの時間波形を例えば次のような3種類の関数の線形結
合で表現する。
Poj=1              ・・・・・・
・・・(1)P+j=J−’            
・・・・・・・・・(2)P2j  =j2−8j+1
2      ・・・・・・・・・(3)そしてこのと
き、時間波形をx;(j=1.2゜・・・、9)であら
れして上記の3種類の関数に対応する展開係数を次式で
求めるのである。
このうちaには有用な情報が含まれないのです。
Cのみがパワーと各次数のケプストラム係数について、
8IllSごとに更新される展開係数計算回路7の入力
に応じて計算されることになる。なお、求められる展開
係数す、cに関し、bは1次の展開係数でパラメータ時
系列の傾きを示し、Cは2次の展開係数でパラメータの
上又は下への凸の度合を示すものである。このようにし
て得られた直交多項式展開係数は、展開係数計算回路1
3の出力段に接続される重み乗算回路15に出力される
重み乗算回路15は、第1の補正手段を構成するもので
、供給された直交多項式展開係数に対し、展開係数計算
回路13とは異なる他の入力段に接続された定数蓄積部
17に予め記憶されている定数を掛は合わせる処理を行
なう。具体的には、例えば次式で表わされる演算を行な
う。
17′二)’i +vJ+i I)i +LAAi O
+    ・・・(7)ここでiはケプストラム係数の
次数あるいはパワーを表わす添字、×1 はケプストラ
ム係数又はパワーの値b1  は1次の展開係数、Cl
  は2次の展開係数である。また、W+i  および
Wλi は定数蓄積部17においてあらかじめ定められ
ている歪みを示す数値でそれぞれ正の定数および負の定
数であり、この値は実験の結果にもとづいて比較的高い
認識精度が得られるような適切な値である。
ここで処理された直交多項式展開係数は、重み乗σ回路
15の出力段に接続されている加算回路19に出力され
る。
加鐸回路19は、第2の補正手段を構成するもので、前
記パラメータレジスタ11からのパラメータ時間波形と
重み乗算回路15からの直交多項式展開係数とを加算処
理し、その時間波形(以下「加算後パラメータ波形」と
呼ぶ)を音声入力端子1に入力された音声信号の特徴パ
ラメータとして出力段に接続されている特徴パラメータ
レジスタ21に供給するものである。
なお、ここまでの処理で得られた加算後パラメータ波形
としては、前述した如く直交多項式展開係数のうち1次
の係数biはパラメータの時系列の傾きを2次の係数c
iは上又は下に凸である度合を表わしており、これらの
係数に対して重み乗算回路15で1次の係数biに正の
定数Wli  を、2次の係数に負の定数w2.  を
乗じて加算回路19でパラメータ時系列の値に加算して
いるので、ケブヌトラム変換回路9で求められたケプス
トラム係数の時間波形に比べて時間変化が拡大され強調
されl〔ものとなっている。したがって、この加算後パ
ラメータ波形を用いて認識処理を行なうことによっては
、単ケプストラム係数やパワー5の時間波形を用いて認
識処理を行なう場合よりも高精度な認識を期待できるの
である。
特徴パラメータレジスタ21は、加算回路1つからの加
算後パラメータ波形を一時記憶し、その出力段に接続さ
れている切替スイッチ23の切替えに応じて加算後パラ
メータ波形を適宜に後述する標準パラメータ蓄積部25
あるいは非線形時間正規化回路27に供給するものであ
る。
切替スイッチ23は、図示しない切替指令信号に応じて
、その可動端子23cに接続されている特徴パラメータ
レジスタ21をその固定端子23a、23bに接続され
ている標準パラメータ蓄積部25あるいは非線形時間正
規化回路27に接続切替するものである。すなわち、切
替スイッチ23は、特徴パラメータレジスタ21に一時
記憶される加算後パラメータ波形のうら、後に認識ずべ
き音声を入力する本人あるいはその本人とは異なる複数
人によって予め発声された認識対象単語の夫々の加算後
パラメータ波形についてはこれを標準パラメータ蓄積部
25に供給すべく可動端子23Cが固定端子23a側に
セット(以下「学習モード」と呼ぶ)され、他方認識さ
れるべく発声された単語の加算後パラメータ波形につい
てはこれを非線形時間正規化回路27に供給すべく可動
端子23cが固定端子23b側にセット(以下「認識モ
ード」と呼ぶ)されるものである。
標準パラメータ蓄積部25は、認識対象単語の夫々につ
いての比較基準となる加算後パラメータ波形(以下「標
準パラメータ」と呼ぶ)を記憶しておき、適宜該標準パ
ラメータをその出力段に接続されている非線形時間正規
化回路27に供給するものである。すななら、この標準
パラメータとしては、前記学習モード状態において、後
に認識すべき音声を入カザる本人あるいはその本人とは
異なる複数人によって予め発生された各認識対象単語に
ついてそれぞれ+)i′iJしたパワー抽出回路3乃至
加算回路1つで得られ特徴パラメータレジメタ21を介
して供給される加算後パラメータ波形である。
非線形時間正規化回路27は、侵述する重みレジスタ2
つ、比較回路31等と共に判定手段を構成するもので、
認識モード状態で特徴パラメータ21から供給される認
識しようとする単語音声についての加算後パラメータ波
形と標準パラメータ蓄積部25に記憶されている標準パ
ラメータの夫々との類似度合を求めるものである。その
処理においては、認識しようとする単語音声の発声毎に
異なる発声速度に応じた加算後パラメータ波形の時間軸
の調整処理と、この調整処理後における前記類似度合の
演算処理とに大別される。
前者の調整処理は、音声の発声速度が、同じ話者が同じ
言葉を繰返し発声してもその度ごとに部分的及び全体的
に変化するので、両者を比較づるには、共通の音(音韻
)が対応するように、一方の時間軸を適当に非線形に伸
縮して他方の時間軸にあわせ、対応する時点の特徴パラ
メータどうしを比較する必要があるために行なわれるも
のである。具体的には、一方を基準にして、両者が最も
よく合うように(両者の類似度が最も大きくなるように
)他方の時間軸を非線形に伸縮する技術としては、動的
計画法による最適化の手法を使用できるこが知られてい
る(文献:迫江、千葉:動的計画法を利用した音声の時
間正規化に基づく連続単語認識、日本音響学会誌、27
,9.P、483.1971)。その概要としては、次
の通りである。
標準パターンのある時点Kにお番プる特徴パラメータを
r′にi(1≦isP十I)(P次のケプストラム係数
とパワーの時間波形に、それぞれの展開係数が重みつき
加算されたもの)、入力音声のある時点えにおける特徴
パラメータをZ’A ; (1’−i 4 pf / 
)であられすと、ここで両者の距離(小さくなるほど類
似度が大きいことを示ず数(値)として、次のような値
を用いる。
ここでvl  は各特徴パラメータに対してあらかじめ
定められている重みを示す数値で、この値も実験の結果
に基づいて比較的高い認識精度が売られるように適切な
値に定められている。距@dの計算は(8)式に示すよ
うに同一時点のP次のケプストラム係数とパワーとにつ
いて入力音声と標準パターンとの差の二乗和として計算
しており、つまリケブストラム係数とパワーとの互いに
性質が異なるものを一緒に使っており、これらの平衡を
とるために■1  の重みづけを行なうものであり、従
ってvl  の値としてはケプストラム係数について演
算する際に用いるVaと、パワーについて演算する際に
用いる。v6との少なくとも2つの値を用いる。これら
の重みVi  +v6L  +vb  4ま非線形時間
正規化回路27の入力段に接続されている重みレジスタ
29に蓄えておく。
後者の演算処理は、上述した動的計画法の演障によって
標準パターンと入力音声の一致度が最もよくなるように
時間軸対応づけたときの、対応する時点どうしの標準パ
ターンと入力音声との特徴パラメータの距離を全音声区
間について平均した値を計σする。なお、ここでこの直
を入力音声と標準パターンとの総合的距離と呼ぶことに
する。
このようにして1qられた総合的距離は、非線形時間正
規化回路27の出力段に接続された比較回路31に出力
される。
比較回路31は、供給された総合的距離のうち最も総合
的距離の小さい、すなわち最も類似の度合が高い標準パ
ターンを判別し、この標準パターンの示す単語を音声入
力端子1から入力された単語であると判定し、その結果
を出力段に接続されている出力端子33を介して出力す
るものである。
したがって、以上説明した構成による単語音声認識処理
としては、次のようになる。すなわち、音声入力端子1
に供給された単語音声信号についてパワー抽出回路3乃
至ケプストラム変換回路9において周知の手法を用いて
ケプストラム係数およびパワーの時局波形からなるパラ
メータ時間波形を求める。そして、このパラメータ時間
波形について展σσ係数計q@路13乃至定数蓄積部1
7において所定の重みづけ処理を行なった直交多項式展
開係数を求め、加算回路19において元のパラメータ時
間波形に対し当該直交多項式展開係数を加えることによ
って、元のパラメータ時間波形に対して音素の時間変化
を強調した加算後パラメータ波形を得る。学習モードに
あっては、この加算後パラメータ波形が標準パラメータ
波形として標準パラメータレジスタ25に記憶されて行
き必要な認識対象単語のすべてについて記憶終了すると
、認識準備が終了したことになり、切替スイッチ23の
切替えが行なわれ認識モードとなる。そして、この認識
モードにあっては、加算後パラメータ波形が非線形時間
正規化回路27において標準パラメータ波形の各々との
総合的距離が求められ、比較回路31がこの総合的距離
の大きさに基づいて音声入力端子1に入力された単語を
認識するのである。
本実施例によれば、都市名100単語を認識対象単語と
して、男性4名の音声を標準パターンとして蓄積してお
き、その話者と異なる男性20名の音声に対して認識を
行なった場合、97.5%の認識精度を得るに至ったが
、ケプストラム係数のみに基づいて認識を行なう従来方
法では93゜8%の認識精度であったことと比較すると
、その0識精度の向上が著しいことがわかる。
なお、本実施例では、音声の周波数スペクトルの時間に
対する変化を示すパラメータとして線形予測ケプストラ
ム係数を用いたが、線形予測係数、ホルマント周波数、
パーコール係数、対数断面積比、零交差数などを用いて
もよい。
[発明の効果1 以上説明しlζように、本発明によれば、単語音声信号
の周波数スペクトルおよびパワーの時間的変化を示すパ
ラメータを算出し、このパラメータの時間波形から直交
多項式展開係数を求め更にこの展開係数について前記パ
ラメータをその時系列の時間変化を拡大するような所定
の補正を行なった展開係数を用いて前記パラメータを補
正した標準パラメータに基づいてX*を行なうようにし
たので、入力音声中の各音素の特徴が明確になり単語ご
とのパラメータの違いを強調することができる。これに
より、単に周波数スペクトルやパワーの時間波形をその
まま用いたのでは誤g識が生じやすい類似単語の認識精
度を向上させることができ、加えて、不特定話者の入力
音声に対しても、またマイクロホンだけでなく電話系を
通った音声、さらには雑音や伝送歪の影響を受けた音声
等に対しても高精度で音声認識を行なうことができる。
【図面の簡単な説明】
第1図は本発明の一実施例を示す図である。 1・・・音声入力端子 3・・・パワー抽出回路 5・・・音声区間検出回路 7・・・線形予測分析回路 9・・・ケプストラム変換回路 11・・・パラメータレジスタ 13・・・展開係数計算回路 15・・・重み乗算回路 17・・・定数蓄積部 19・・・加算回路 21・・・特徴パラメータレジスタ 23・・・切替スイッチ 25・・・標準パラメータ蓄積部 26・・・非線形時間正規化回路 29・・・重みレジスタ 31・・・比較回路 33・・・出力端子

Claims (3)

    【特許請求の範囲】
  1. (1)単語の音声信号の周波数スペクトルおよびパワー
    の時間的変化を示すパラメータを算出するパラメータ算
    出手段と、 当該パラメータの時間波形から直交多項式展開係数を算
    出する係数算出手段と、 当該直交多項式展開係数に対し前記パラメータの時系列
    の時間変化を強調するような所定の補正演算を行なう第
    1の補正手段と、 該第1の補正手段で補正された直交多項式展開係数を用
    いて前記パラメータをその時系列の時間変化を拡大する
    ように補正する第2の補正手段と、前記音声信号が基準
    のものであるときには該第2の補正手段で補正されたパ
    ラメータを標準パラメータとして記憶する標準パラメー
    タ蓄積手段と、前記音声信号が認識しようとする単語の
    ものであるときには該第2の補正手段で補正されたパラ
    メータを標準パラメータ蓄積手段に記憶された標準パラ
    メータと比較し当該単語を判定する判定手段とを有する
    ことを特徴とする単語音声認識装置。
  2. (2)前記第1の補正手段は、前記直交多項式展開係数
    を構成する各次数の係数に対してそれぞれ予め設定され
    た定数を乗じ、前記第2の補正手段は、第1の補正手段
    で補正された直交多項式展開係数とパラメータ算出手段
    で算出されたパラメータとを加算処理することを特徴と
    する特許請求の範囲第1項に記載の単語音声認識装置。
  3. (3)前記パラメータ算出手段は、音声信号のパワーを
    抽出するパワー抽出回路と、抽出したパワーに基づいて
    音声区間を検出する音声区間検出回路と、検出した音声
    区間に基づいて線形予測係数を演算する線形予測分析回
    路と、該線形予測係数を線形予測ケプストラム係数に変
    換するケプストラム変換回路とを有することを特徴とす
    る特許請求の範囲第1項乃至第2項に記載の単語音声認
    識装置。
JP60256674A 1985-11-18 1985-11-18 単語音声認識装置 Pending JPS62116997A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60256674A JPS62116997A (ja) 1985-11-18 1985-11-18 単語音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60256674A JPS62116997A (ja) 1985-11-18 1985-11-18 単語音声認識装置

Publications (1)

Publication Number Publication Date
JPS62116997A true JPS62116997A (ja) 1987-05-28

Family

ID=17295890

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60256674A Pending JPS62116997A (ja) 1985-11-18 1985-11-18 単語音声認識装置

Country Status (1)

Country Link
JP (1) JPS62116997A (ja)

Similar Documents

Publication Publication Date Title
US5978759A (en) Apparatus for expanding narrowband speech to wideband speech by codebook correspondence of linear mapping functions
JP4218982B2 (ja) 音声処理
EP0686965B1 (en) Speech recognition apparatus with speaker adaptation using acoustic category mean value calculus
JPH0743598B2 (ja) 音声認識方法
JPH07271394A (ja) 確実な電話音声認識のための信号バイアスの除去
EP0970462A1 (en) Recognition system
JP2002268698A (ja) 音声認識装置と標準パターン作成装置及び方法並びにプログラム
JP4858663B2 (ja) 音声認識方法及び音声認識装置
KR101361034B1 (ko) 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
Vestman et al. Time-varying autoregressions for speaker verification in reverberant conditions
JPS62116997A (ja) 単語音声認識装置
JP4603727B2 (ja) 音響信号分析方法及び装置
JPS61137199A (ja) 単語音声の認識方法
JPH04369698A (ja) 音声認識方式
JPS59131999A (ja) 音声認識装置
Upadhyay et al. Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario
JPH0246960B2 (ja)
JPS6048040B2 (ja) 音声認識における個人差の学習処理方法
JPH0426480B2 (ja)
Pol et al. USE OF MEL FREQUENCY CEPSTRAL COEFFICIENTS FOR THE IMPLEMENTATION OF A SPEAKER RECOGNITION SYSTEM
JP2577891B2 (ja) 単語音声予備選択装置
Bodruzzaman et al. Parametric feature-based voice recognition system using artificial neural network
JPH0311479B2 (ja)
JPH06324696A (ja) 音声認識装置及び方法
JPH0221598B2 (ja)