JPS6329280B2 - - Google Patents

Info

Publication number
JPS6329280B2
JPS6329280B2 JP17180982A JP17180982A JPS6329280B2 JP S6329280 B2 JPS6329280 B2 JP S6329280B2 JP 17180982 A JP17180982 A JP 17180982A JP 17180982 A JP17180982 A JP 17180982A JP S6329280 B2 JPS6329280 B2 JP S6329280B2
Authority
JP
Japan
Prior art keywords
filter
parameter
parameters
standard
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP17180982A
Other languages
English (en)
Other versions
JPS5960500A (ja
Inventor
Tomio Sakata
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Shibaura Electric Co Ltd filed Critical Tokyo Shibaura Electric Co Ltd
Priority to JP17180982A priority Critical patent/JPS5960500A/ja
Publication of JPS5960500A publication Critical patent/JPS5960500A/ja
Publication of JPS6329280B2 publication Critical patent/JPS6329280B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の技術分野〕 この発明は、音声認識装置に使用される音響信
号分析装置に関する。
〔発明の技術的背景とその問題点〕
近年、音声認識装置は、各分野に多用されるな
ど、極めて有用な装置になりつつある。このよう
な音声認識装置は、基本的には入力音声信号を分
析して特徴パラメータ(スペクトルパラメータ)
を抽出する分析部、この分析部からのスペクトル
パラメータに正規化等の処理を行なう前処理部お
よび認識結果を出力する認識部とからなる。すな
わち、分析部で抽出されたスペクトルパラメータ
に基づいて、入力音声信号の音韻、音節、および
単語等の認識が行なわれることになる。
上記分析部は、音響分析装置からなり、上記ス
ペクトルパラメータとして、チヤネルフイルタに
よる周波数スペクトルが利用される。このチヤネ
ルフイルタは、例えばデジタルフイルタで、対象
周波数帯域を適当に分割するように周波数特性が
設定されたものである。
ところで、音声認識装置は、特定の話者だけを
対象とする特定話者用と、不特定多数の話者を対
象とする不特定話者用とに大別される。この中
で、特定話者用音声認識装置では、話者は予め自
分の声を標準パターンとして登録しておく必要が
ある。これは、同一の音韻、単語であつても、音
響分析装置により得られる特徴パラメータからな
るパターンは、話者によつて変動しまた同じ話者
でもその時々によつて相当変動するからである。
この変動は、通常、発声者毎の発声器官形状の相
違に起因する周波数方向の変動、および発声の仕
方の相違に起因する時間軸方向の変動に大別でき
る。従来では、上記の変動の中で時間軸方向の変
動は、不等間隔サンプリング、ダイナミツクプロ
グラミング等の手段により吸収されていた。しか
しながら、周波数軸方向の変動に対しては、これ
を吸収するための効果的な手段がなかつた。その
ため、話者毎に全ての標準パターンを登録する必
要があり、認識対象語数が増加した場合には標準
パターンの登録が話者にとつて大きな負担にな
る。また、多くの話者の標準パターンを登録して
おくことになるため、標準パターンを記憶するメ
モリは大容量のものが必要となる欠点があつた。
〔発明の目的〕
この発明は上記の事情を鑑みてなされたもの
で、特定話者用音声認識装置において、話者毎の
周波数軸方向の変動に影響されない特徴パラメー
タを抽出して、認識に必要な標準パターンの登録
量を特別に大きくすることなく、確実に音声認識
を行なうことができるようにした高性能の音響分
析装置を提供することを目的とする。
〔発明の概要〕
すなわち、この発明においては、周波数分析用
の例えばデジタルフイルタであるチヤネルフイル
タを構成する各BPFの周波数特性を、話者毎の
周波数軸方向の変動を吸収するように可変設定す
る。この手段として、予め設定される標準スペク
トルパラメータとチヤネルフイルタから出力する
スペクトルパラメータに基づいて、制御パラメー
タ計算手段により所定の制御パラメータを求め
る。この制御パラメータに基づいて、話者に適合
した周波数特性、すなわち標準スペクトルパラメ
ータに適合するようなチヤネルフイルタの周波数
特性を設定するようなフイルタパラメータをフイ
ルタパラメータ計算手段より求めるものである。
〔発明の実施例〕
以下図面を参照してこの発明の一実施例につい
て説明する。図はこの発明に係る音響分析装置の
構成を示すブロツク図である。図中、1はアナロ
グ・デジタル変換部(以下A/D変換部と称す
る)で、アナログ信号である音声入力信号Sを量
子化されたサンプル値のデジタル信号系列に変換
する。デジタルフイルタ部2は、上記デジタル信
号系列が与えられ、フイルタパラメータFに基づ
いて周波数分析を行なつて、音声入力信号Sに対
応するスペクトルパラメータ(特徴パラメータ)
Pを抽出し出力する。フイルタパラメータFは、
フイルタパラメータ計算部3により算出されて設
定される。このフイルタパラメータ計算部3は、
制御パラメータAと標準フイルタパラメータBと
に基づいて、入力信号Sの発生源である話者の声
道特性に適合したデジタルフイルタ部2の周波数
特性を得ることができるようなフイルタパラメー
タFを算出する。標準フイルタパラメータBは、
予め標準フイルタパラメータメモリ4に格納され
ている。また、制御パラメータAは、制御パラメ
ータ計算部5で算出されて出力する。この制御パ
ラメータ計算部5は、スペクトルパラメータPお
よび標準スペクトルパラメータRとに基づいて制
御パラメータAを算出して出力する。標準スペク
トルパラメータRは、予め音韻カテゴリ毎に標準
スペクトルパラメータメモリ6に格納されてい
る。そして、例えばキーボード等の外部入力装置
(図示せず)から与えられる音韻カテゴリコード
Cにより、そのコードCに対応する標準スペクト
ルパラメータRがメモリ6から選択されて出力す
る。
このような構成において、その動作を説明す
る。いま発声者から発声した音声入力信号Sは、
A/D変換部1でサンプリング、量子化されてデ
ジタル値の時系列信号Dとして変換される。デジ
タルフイルタ部2は、nチヤネル分のバンドパス
フイルタ(BPF)の機能を有し、上記のような
デジタル信号Dに対して各チヤネルのBPF出力
を時分割で計算し、1フレーム毎にnチヤネル分
の周波数スペクトルパラメータセツトP1〜Pnを
出力する。この場合、標準フイルタパラメータB
が、標準フイルタパラメータメモリ4からフイル
タパラメータ計算部3を介して、そのままフイル
タパラメータFとしてデジタルフイルタ部2に与
えられる。すなわち、デジタルフイルタ部2は、
標準の周波数特性で動作することになる。さら
に、発声者は、発声する音韻のカテゴリコードC
をキーボード等により与える。このコードCによ
り、標準スペクトルパラメータメモリ6は、その
カテゴリコードに対応する音韻の標準スペクトル
パラメータセツトRを制御パラメータ計算部5へ
出力する。制御パラメータ計算部5は、このパラ
メータセツトRを一時的に記憶する。一方、発声
者の音声信号Sから抽出された上記スペクトルパ
ラメータセツトの系列Pi1〜Pin(i=1、2…n)
も制御パラメータ計算部5へ与えられる。
制御パラメータ計算部5は、スペクトルパラメ
ータセツトの系列Pi1〜Pinから適当なフレームj
のスペクトルパラメータセツトPj1〜Pjnを抽出
し、これを一時的に記憶しておく。この場合、フ
レームjの選択方法としては、音声区間中でエネ
ルギーが最大になるフレーム、または隣接フレー
ム間のスペクトル変化が最小になるフレーム等が
考えられる。そして、発声者が、予め決められた
種類の音韻を入力し終ると、制御パラメータ計算
部5では下記のような方法により、制御パラメー
タAを算出する。いま、仮に発声者から与えられ
る音韻数が3つの場合とする。この場合、入力さ
れた音韻から抽出した3種類のスペクトルパラメ
ータセツトPおよび標準スペクトルパラメータセ
ツトRを下記のようになるとする。すなわち、 のように、それぞれ行列で表現される。
ここで、 Pij:i番目の入力音韻のjチヤネルのパラメー
タ値。
Rij:i番目の標準音韻のjチヤネルのパラメー
タ値。
であり、「i=1〜3」および「j=1〜n」で
ある。そして、制御パラメータAは のように三重対角行列で表現されるとする。そし
て、スペクトルパラメータセツトPおよび標準ス
ペクトルパラメータセツトRとの間には、下記の
ような関係式が成立するものとする。
A・P=R …(4) 即ち、制御パラメータAは発声者の音声信号から
抽出された音声スペクトルパラメータセツトPと
標準スペクトルパラメータセツトRとの関係を表
わす行列(射影行列)である。上記式(4)から、制
御パラメータAは A=R・P+ …(5) で与えられる。ここで、P+はPの一般逆行列で
あり、「P+=(PT・P)-1・PT」の式で求めること
ができる。但し、PTは転置行列である。ところ
で、上記式(3)に示すように、制御パラメータAが
3重対角行列で表現されるのは、入力音韻スペク
トルPの標準スペクトルRに対するずれが隣接し
たチヤネル範囲内におさまると仮定できるとした
場合である。これに対して、上記ずれがもつと大
きい場合には、さらに広い帯行列で表現する必要
があり、そのため入力する音韻の種類もそれに合
わせて増加する必要がある。
上記のようにして求められた制御パラメータA
は、フイルタパラメータ計算部3に与えられる。
フイルタパラメータ計算部3は、制御パラメータ
Aおよび標準フイルタパラメータBとから、新た
なフイルタパラメータFを算出して、その結果を
デジタルフイルタ部2に出力する。具体的には、
フイルタパラメータ計算部3では下記のような手
法により、フイルタパラメータFを算出する。ま
ず、制御パラメータA11〜Annより、以下のよう
に修正用パラメータE11〜Ennを求める。
即ち、 Eii=1−Aii(i=1〜n) …(6) Eij=Aij(i=1〜n、j=i−g〜i+g、i
≠j) …(7) ここで、gは上記式(3)の帯行列の幅をmとする
と、「g=(m−1)/2」で与えられる。上記式
(6)、(7)のEii、Eijの意味は以下のように解釈でき
る。即ち、Eii(Eij)は発声者の音声信号から抽
出された音声スペクトルパラメータセツトPのう
ち第iチヤネル(第jチヤネル)のスペクトル値
に基づく第iチヤネルのフイルタパラメータの修
正の程度を表わすパラメータである。従つて、発
声者の音声信号から抽出されたスペクトルパラメ
ータセツトPと標準スペクトルパラメータセツト
Rが一致する場合には、上記式(4)からAは単位行
列「Aii=1、(i=1〜n)、Aij=0、(i、j
=1〜n、i≠j)となるので、Eii、Eijは上記
式(6)、(7)より「Eii=0、(i=1〜n)」、「Eij=
0、(i、j=1〜n)、i≠j)」、即ち修正無と
いうことになる。
そして、標準フイルタパラメータを 〓1=(α11…α11) 〓2=(α21…α21) 〓 〓 〓n=(αn1…αn1) とし(尚、1は各チヤネルのフイルタパラメータ
数)、さらに話者毎の周波数軸方向の変動を吸収
するためのフイルタパラメータの修正項を、 δ〓1=(δα11…δα11) δ〓2=(δα21…δα21) 〓 〓 δ〓n=(δαn1…δαn1) とするとき、修正項δ〓i(i=1〜n)を下記
式(8)により求める。
そして、発声者に適合した新たなフイルタパラ
メータを 〓′1=(α′11…α′11) 〓′2=(α′21…α′21) 〓 〓 〓′n=(α′n1…α′n1) とすると、〓′i(i=1〜n)を により求める。即ち、発声者の音声信号から抽出
されたスペクトルパラメータセツトPと標準スペ
クトルパラメータセツトRとから式(6)、(7)によつ
て求められる修正パラメータEii、Eijにより標準
パラメータの摂動を行ない、各話者に適合したフ
イルタパラメータを決定する。このようにして、
算出されたフイルタパラメータFがデジタルフイ
ルタ部2に与えられ、デジタルフイルタ部2は、
フイルタパラメータFにより定まる周波数特性を
有するチヤネルフイルタとして動作する。
このようにして、複数の音韻カテゴリに対応す
る周波数スペクトル(標準スペクトルパラメータ
R)に基づいて、デジタルフイルタ部2を構成す
る各BPFの周波数特性を所定の値に変更するこ
とができる。したがつて、発声者からの音声信号
Sが、発声者の発声器官構造の相違等に起因して
その音声の周波数特性に変動を生じても、その変
動に応じてデジタルフイルタ部2の周波数特性を
可変できるため、周波数軸方向の変動を吸収でき
ることになる。そのため、発声者毎の周波数変動
が除去された安定なスペクトルパラメータ(特徴
パラメータ)を抽出することができる。
なお、上記実施例において、制御パラメータA
およびフイルタパラメータFを算出するためのア
ルゴリズムは他のものでもよい。また、デジタル
フイルタ部2は、例えばクロツク周波数により周
波数特性の可変なスイツチト・キヤパシタフイル
タ等のチヤネルフイルタでもよい。
〔発明の効果〕
以上詳述したようにこの発明によれば、特定話
者用音声認識装置において、話者(発声者)毎の
周波数軸方向に対する変動に影響されない安定な
音声の特徴パラメータを抽出できる。したがつ
て、音声認識に必要な標準パターンの登録量を特
別に大きくすることなく、確実に音声認識を行な
うことができるものである。
【図面の簡単な説明】
図はこの発明の一実施例に係る音響分析装置の
構成を示すブロツク図である。 2……デジタルフイルタ部、3……フイルタパ
ラメータ計算部、4……標準フイルタパラメータ
メモリ、5……制御パラメータ計算部、6……標
準スペクトルパラメータメモリ。

Claims (1)

    【特許請求の範囲】
  1. 1 フイルタパラメータの設定により周波数特性
    が可変され音響入力信号に対応するスペクトルパ
    ラメータを抽出するチヤネルフイルタ手段と、予
    め音韻カテゴリ毎に設定される標準スペクトルパ
    ラメータを記憶するメモリと、このメモリからの
    標準スペクトルパラメータおよび上記チヤネルフ
    イルタ手段からのスペクトルパラメータに基づい
    て所定の制御パラメータを算出する制御パラメー
    タ計算手段と、上記制御パラメータに基づいて上
    記標準スペクトルパラメータに適合するような上
    記フイルタ手段の周波数特性を設定するための上
    記フイルタパラメータを算出するフイルタパラメ
    ータ計算手段とを具備することを特徴とする音響
    信号分析装置。
JP17180982A 1982-09-30 1982-09-30 音響信号分析装置 Granted JPS5960500A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17180982A JPS5960500A (ja) 1982-09-30 1982-09-30 音響信号分析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17180982A JPS5960500A (ja) 1982-09-30 1982-09-30 音響信号分析装置

Publications (2)

Publication Number Publication Date
JPS5960500A JPS5960500A (ja) 1984-04-06
JPS6329280B2 true JPS6329280B2 (ja) 1988-06-13

Family

ID=15930121

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17180982A Granted JPS5960500A (ja) 1982-09-30 1982-09-30 音響信号分析装置

Country Status (1)

Country Link
JP (1) JPS5960500A (ja)

Also Published As

Publication number Publication date
JPS5960500A (ja) 1984-04-06

Similar Documents

Publication Publication Date Title
US5842162A (en) Method and recognizer for recognizing a sampled sound signal in noise
Stevens Toward a model for speech recognition
EP2549475B1 (en) Segmenting audio signals into auditory events
US4069393A (en) Word recognition apparatus and method
EP1393300B1 (en) Segmenting audio signals into auditory events
US20040165730A1 (en) Segmenting audio signals into auditory events
US5144672A (en) Speech recognition apparatus including speaker-independent dictionary and speaker-dependent
Skowronski et al. Improving the filter bank of a classic speech feature extraction algorithm
Elenius et al. Effects of emphasizing transitional or stationary parts of the speech signal in a discrete utterance recognition system
Grais et al. Multi-band multi-resolution fully convolutional neural networks for singing voice separation
Fachrie et al. Robust Indonesian digit speech recognition using Elman recurrent neural network
JPS6329280B2 (ja)
Lyon Using a cascade of asymmetric resonators with fast-acting compression as a cochlear model for machine-hearing applications
Marolt Transcription of polyphonic piano music with neural networks
Singh et al. A novel algorithm using MFCC and ERB gammatone filters in speech recognition
JPH08123490A (ja) スペクトル包絡量子化装置
JP2966452B2 (ja) 音声認識装置の雑音除去システム
JPH0461359B2 (ja)
Jing et al. Auditory-modeling inspired methods of feature extraction for robust automatic speech recognition
Hamada et al. Auditory-based filter-bank analysis as a front-end processor for speech recognition.
JPH05134697A (ja) 音声認識装置
JP2668877B2 (ja) 音源正規化方法
Kocsor et al. A segment-based statistical speech recognition system for isolated/continuous number recognition
JPH0323920B2 (ja)
JPS59116700A (ja) 音声認識装置