JPS6258515B2 - - Google Patents

Info

Publication number
JPS6258515B2
JPS6258515B2 JP57078309A JP7830982A JPS6258515B2 JP S6258515 B2 JPS6258515 B2 JP S6258515B2 JP 57078309 A JP57078309 A JP 57078309A JP 7830982 A JP7830982 A JP 7830982A JP S6258515 B2 JPS6258515 B2 JP S6258515B2
Authority
JP
Japan
Prior art keywords
feature parameter
time
time series
window
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP57078309A
Other languages
English (en)
Other versions
JPS58195893A (ja
Inventor
Takanori Murata
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP57078309A priority Critical patent/JPS58195893A/ja
Publication of JPS58195893A publication Critical patent/JPS58195893A/ja
Publication of JPS6258515B2 publication Critical patent/JPS6258515B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は、音声認識装置における前処理方法、
特に音声波形の分析、圧縮を行う為の前処理方法
に関するものである。
音声認識装置は、大きく分けて、下記の2つの
部分から成る。
(イ) 音声の特徴パラメータを抽出する分析部。
(ロ) 抽出された特徴パラメータ時系列と、予じめ
登録された特徴パラメータ時系列との類似度
(あるいは非類似度)を求め、その判定を行な
い、認識結果を得るマツチング部。
(イ)の分析部においては、従来、音声波形の分析
の周期(フレーム周期)を数msec〜数十msec程
度で行なつている。
これは、音声の定常的な部分(母音部等)にお
いては、フレーム周期は数十msec程度で十分で
あることと、フレーム周期を短かくするにつれ
て、特徴パラメータ時系列のデータ量が増大し、
装置の巨大化、そして上記(ロ)のマツチング部にお
ける処理時間の増大を招く為、フレーム周期を数
msec以下にするのは、経済性の点で問題がある
こと、等の理由による。
しかしながら、従来のように、フレーム周期を
数msec〜数十msec程度で分析を行なつた場合、
子音部のような変化の激しい部分においては、分
析フレーム周期が、音声の変化に十分追従できる
程短かくない為、音声のどの時点から分析を行な
うかによつて、得られる特徴パラメータに違いが
出て、特徴パラメータが不安定となる欠点を持つ
ていた。
例えば、単音節の「ハ」と「カ」、又は、単語
の「橋(ハシ)」と「菓(カシ)」のように、お互
いに良く似た特徴パラメータ時系列を持つ音声
(語音の子音「h」と「k」は調音点の同じよう
な子音で、又、語頭子音部以後は、同じ音声であ
る)の認識を行う場合、上述のごとく、子音部の
特徴パラメータ時系列が不安定な為、特に調音点
の同じような子音の判別が困難となり、音声認識
装置の信頼性低下の原因となつていた。
子音部のような変化の激しい部分においても認
識に十分な、安定した特徴パラメータを得るに
は、音声の変化に十分追従し得るフレーム周期で
分析を行なえば良いわけであるが、この場合に
は、前述のように、装置の巨大化、処理時間の増
大を招く欠点があつた。
本発明の目的は、上述の点を鑑みて、装置の巨
大化、処理時間の増大を招くことなく音声認識装
置の信頼性向上に寄与する前処理方法を提供する
ことにある。
このような目的を達成する為に、本発明におい
ては、子音部のような変化の激しい部分において
も、安定した特徴パラメータが得られるように、
入力音声を分析する際、分析基準点を検出し、そ
の分析基準点から分析を行なうことを特徴とす
る。
以下、第1図を参照して、本発明の原理を説明
する。
第1図1は、音声信号の1例を示したもので、
子音部及び子音から母音定常部への渡りの部分に
おいては、音声波形に対する窓の位置によつて、
得られる特徴パラメータが異なるのは明らかであ
り、第1図2の窓位置で分析された特徴パラメー
タ時系列を持つ登録パターンと、第1図3の窓位
置で分析された特徴パラメータ時系列を持つ入力
パターンとのマツチングを行なつた場合、類似度
が小さくなり、他の音声と誤認識し易くなる。
ここで、説明の便宜上、1msec毎にサンプリン
グされた、音声のフイルタバンク出力値に、各チ
ヤンネル毎に窓長WL=16msec、フレーム周期
(窓周期)WT=8msecの窓を掛けて得られる平滑
化された周波数成分を特徴パラメータとした場合
を一例にとつて、以下の説明を行なう。
時刻tにおける各チヤンネルのフイルタバンク
出力値をベクトルjt、各チヤンネルのフイルタ
バンク出力値の総和、すなわちパワーをptで表
わす。
t=(jt1,jt2,……,jtN) (1) t=0,1,2,……,T (3) n=1,2,………,N (4) ここで、jtoは、時刻tにおける第n番目のチ
ヤンネルのフイルタバンク出力値を表わす。
又、フイルタバンク出力値jtの時系列をJで
パワーptの時系列をPで表わす。
J=j0,j1,……,jT (5) P=p0,p1,……,pT (6) 又、パワー時系列Pに、窓長16msecの窓を掛
けて得られる平滑パワーをpt′で表わす。
ここで、w0,w1,……,w15は窓係数である。
パワーptが、しきい値THcを越えた時刻Cを
音声検出点とする。
pc≧THc (8) t=cより、第1図4のように窓位置を移動
し、(5)式に従つて、順次、平滑パワーpc′,pc
−1,……を求めてゆき、平滑パワーがしきい値
THb以下となる時刻bを決定する。
b′≦THb (9) 第1図5に、その様子を示す。
時刻bを分析基準点とし、(10)式に従つて特徴パ
ラメータ時系列Kを得る。
u=0,1,2,……,U (11) t=a+8u (12) a=bMOD8 (13) ku=(ku1,ku2,……,kuN (14) K=k0,k1,……,ku) (15) ここで、kuoは、時刻uにおける第n番目のチ
ヤンネルの特徴パラメータである。
このようにして得られた特徴パラメータ時系列
Kは、(9)式のpb′=THbなる条件により、窓位置
が一定となり、変化の激しい子音部においても安
定したものとなる。
第1図6に、時刻bを基準とした時の窓位置を
示す。
以下、本発明を実施例を参照して詳細に説明す
る。
第3図は、本発明による前処理方法を実現する
回路の一実施例を示すブロツク構成図であり、又
第2図は、第3図における本発明の回路を含む、
単音節音声認識システムの一実施例を示すブロツ
ク構成図で、第3図に記載された部分には、同一
番号を付してある。
音声は、マイクロホン1を通して電気信号に変
換され、前置増幅器2で増幅され、プリエンフア
シス回路3にて高域強調される。
さらに、フイルターバンク4にてNチヤンネル
に分解された各周波数成分は、アナログマルチプ
レクサ5において順次選択され、A/D変換器6
にてデジタル信号に変換され、フイルタバンク出
力値jtとなる。
1msec毎に得られるフイルタバンク出力値jt
は、入力バツフア7に送られると同時に、加算累
積器8により(2)式の演算が実行され、パワーpt
が、パワーバツフア9に送られる。
又、同時に、パワーptは、音声検出部11に
送られ、しきい値THcと比較され、pc≧THc
なる時刻t=cが検出される。
音声検出部11は、しきい値THcが格納されて
いるレジスタと、比較器で構成され、加算累積器
8から送られてくるパワーptとレジスタに格納
されているしきい値THcが比較器で順次比較さ
れ、時刻t=cが検出される。
時刻t=cの前後、各々ある一定時間(t=0
〜T)のフイルタバンク出力値時系列Jの、入力
バツフア7への格納が終了すると、分析基準点検
出部10では(7)式の演算が実行されさらに、得ら
れた平滑パワーpt′がしきい値THbと比較され、
b′=THbとなる時刻t=bが検出される。
分析基準点検出部10は、第3図のように構成
される。
窓係数メモリ101には、窓係数w0〜w15が格
納されており、乗算加算器102においてパワー
バツフア9より送られてくるパワーptと窓係数
w0〜w15の演算が(7)式に従つて実行され、得られ
た平滑パワーpt′が比較器104において、しき
い値レジスタ103に格納されているしきい値
THbと比較されpt′≦THbとなる時刻t=bが検
出される。
分析基準点t=bを基準として、(10)式の演算
が、平滑部12で実行され、特徴パラメータ時系
列Kが特徴パラメータバツフア13に格納され
る。
平滑部12は、第3図のように構成され、窓係
数メモリ121には、窓係数w0〜w15が格納され
ている。乗算加算器122において入力バツフア
7より送られてくるフイルタバンク出力値jto
窓係数w0〜w15の演算が(10)式に従つて実行され、
結果は特徴パラメータバツフア13に送られる。
特徴パラメータバツフア13に格納された特徴
パラメータ時系列Kは、正規化部14で正規化さ
れ、出力バツフア15へ送られる。
出力バツフア15に格納された正規化データ
は、認識部18へ入力される。一方、音声の正規
化された登録パターンメモリ16より順次、認識
部18へ入力され、認識部18において類似度が
演算されて、認識が行なわれ、認識結果が端子1
9に出力される。
制御部18は、1〜17の各部の制御を行な
う。
尚、第3図において、窓係数メモリ101と1
21、及び乗算加算器102と122を、別個に
設けているが、時分割的に使用することにより、
共有化してもよい。
又、上述の実施例では、単音節音声認識装置を
例にあげて説明を行なつたが、それに限定される
ものではなく、単語音声認識装置等、音声認識装
置一般に対しても、本発明を適用できることは、
明らかである。
以上述べたように、本発明の前処理方法によつ
て得られる音声の特徴パラメータ時系列は、変化
の激しい子音部においても安定したものとなり、
分析フレーム周期を短かくした場合に比較し、装
置の巨大化、処理時間の増大を招くこと無く、認
識の信頼性を向上させる効果があり有効である。
上記の効果は、上記前処理方法を組み入れた単
音節音声認識装置において、認識率が向上したと
いう結果からも実証されている。
【図面の簡単な説明】
第1図は、本発明の一実施例の考え方を説明す
る図、第2図は本発明の前処理法を用いた単音節
認識装置の一構成例を示すブロツク図、第3図は
本発明の前処理法を実現する回路の一実施例を示
すブロツク図である。 1:マイクロフオン、2:前置増幅器、3:プ
リエンフアシス回路、4:フイルターバンク、
5:アナログマルチプレクサ、6:A/D変換
器、7:入力バツフア、8:加算累積器、9:パ
ワーバツフア、17:分析基準点検出部、11:
音声検出部、12:平滑部、13:特徴パラメー
タバツフア、14:正規化部、15:出力バツフ
ア、16:登録パターンメモリ、17:認識部、
18:制御部、19:出力端子。

Claims (1)

    【特許請求の範囲】
  1. 1 入力音声を分析して得られるn次元の特徴パ
    ラメータ時系列と、予じめ登録されたn次元の特
    徴パラメータ時系列とを比較演算して、入力音声
    の認識を行う音声認識装置において、入力音声を
    フイルターバンクにて複数の周波数成分に分解
    し、各々の周波数成分の総和すなわちパワーがあ
    るしきい値を越える時刻を音声検出点とし、さら
    にパワーに対して時間方向を逆にさかのぼつて窓
    をかけてゆき、得られる平滑パワーがあるしきい
    値以下となる時刻を分析基準点とし、その分析基
    準点から各周波数成分毎に窓をかけ、n次元の特
    徴パラメータ時系列を得ることを特徴とした、前
    処理方法。
JP57078309A 1982-05-12 1982-05-12 音声認識装置における前処理方法 Granted JPS58195893A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57078309A JPS58195893A (ja) 1982-05-12 1982-05-12 音声認識装置における前処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57078309A JPS58195893A (ja) 1982-05-12 1982-05-12 音声認識装置における前処理方法

Publications (2)

Publication Number Publication Date
JPS58195893A JPS58195893A (ja) 1983-11-15
JPS6258515B2 true JPS6258515B2 (ja) 1987-12-07

Family

ID=13658325

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57078309A Granted JPS58195893A (ja) 1982-05-12 1982-05-12 音声認識装置における前処理方法

Country Status (1)

Country Link
JP (1) JPS58195893A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6146998A (ja) * 1984-08-10 1986-03-07 ブラザー工業株式会社 音声始端検出装置
JPS6346296A (ja) * 1986-04-21 1988-02-27 Nippon Steel Corp 鋼板の冷間圧延油

Also Published As

Publication number Publication date
JPS58195893A (ja) 1983-11-15

Similar Documents

Publication Publication Date Title
JP3114975B2 (ja) 音素推定を用いた音声認識回路
EP0077558B1 (en) Method and apparatus for speech recognition and reproduction
CA1172363A (en) Continuous speech recognition method
US4933973A (en) Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
US4038503A (en) Speech recognition apparatus
JPS58130393A (ja) 音声認識装置
WO2014153800A1 (zh) 语音识别系统
Xie et al. Multimodal information fusion of audio emotion recognition based on kernel entropy component analysis
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
JPS6128998B2 (ja)
US7966179B2 (en) Method and apparatus for detecting voice region
KR20170088165A (ko) 심층 신경망 기반 음성인식 방법 및 그 장치
EP0474496B1 (en) Speech recognition apparatus
JP3354252B2 (ja) 音声認識装置
JPS6258515B2 (ja)
JPS6114520B2 (ja)
JPS6129518B2 (ja)
JP3046029B2 (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
JP3058569B2 (ja) 話者照合方法及び装置
JP3393532B2 (ja) 録音音声の音量正規化方法およびこの方法を実施する装置
JPS60254100A (ja) 音声認識方式
JP2891259B2 (ja) 音声区間検出装置
JP3422822B2 (ja) 音声認識装置
JPS63223696A (ja) 音声パタ−ン作成方式
JPH0311478B2 (ja)