JPS63274998A - 単語音声認識装置 - Google Patents

単語音声認識装置

Info

Publication number
JPS63274998A
JPS63274998A JP10895387A JP10895387A JPS63274998A JP S63274998 A JPS63274998 A JP S63274998A JP 10895387 A JP10895387 A JP 10895387A JP 10895387 A JP10895387 A JP 10895387A JP S63274998 A JPS63274998 A JP S63274998A
Authority
JP
Japan
Prior art keywords
filter
voiced
audio signal
filter coefficient
circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10895387A
Other languages
English (en)
Inventor
光生 下谷
日比野 昌弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP10895387A priority Critical patent/JPS63274998A/ja
Publication of JPS63274998A publication Critical patent/JPS63274998A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分齋〕 この発明は、単語音声認識装置、特に音声の特徴の一つ
として有声音の周波数スペクトルをピッチ周波数に適応
させたディジタルフィルタを用いて抽出し、それを用い
て認識処理を行う単語音声認識装置に関するものである
[従来の技術] 第4図は9例えば特開昭60−75898号公報に示さ
れた従来のピッチ周波数適応型の単語音声認識装置(以
下、単に認識装置と称する)の概略ブロック図である6
図において、音声入力部1は、マイクロホン11と、マ
イクロホンアンプ12と、AGC回路13と、A/D変
換回路14と。
波形メモリ15とを含む。音声入力部1の出力は。
レベル計算回路7に与えられると共に特徴抽出部2に与
えられる。レベル計算回路7の出力は、始終端検出回路
6に与えられると共に認識処理部5に与えられる。一方
、特徴抽出部2は、ピッチ周期抽出回路21と、フィル
タ係数設定回路22と。
ディジタルフィルタ23とを含む。ピッチ周期抽出回路
21およびディジタルフィルタ23には前述の音声入力
部1の出力が与えられる。ピッチ周期抽出回路21の出
力は、認識処理部5に与えられると共にフィルタ係数設
定回路22に与えられる。このフィルタ係数設定回路2
2の出力はディジタルフィルタ23に与えられる。この
ディジタルフィルタ23の出力は認識処理部5に与えら
れる。この認識処理部5は入力パターンメモリ3および
登録パターンメモリ4に接続される。
従来の認識装置は上記のように構成され、音声波形を一
定時間のフレームに分割し、そのフレーム毎の周波数ス
ペクトルを特徴パラメータとして抽出する。そして、認
識処理部5は、登録モードにおいては、抽出された登録
語の特徴パラメータあるいは標準音声の特徴パラメータ
を登録パラメータ4に書き込み、複数m語の音声の特徴
パラメータを記憶する。また、認識処理部5は、認識モ
ードにおいては抽出された単語音声の特徴パラメータを
入力パターンメモリ3に書き込む、そして。
この入力パターンメモリ3に記憶された特徴パラメータ
と登録パターンメモリ4に記憶された複数単語の特徴パ
ラメータとの類似度を順次計算し。
その計算結果に基づいて単語音声の認識を行う。
次に、第4図の従来例の動作を詳細に説明する。
マイクロホン11で取り込んだ音声の入力信号はマイク
ロボンアンプ12で増幅され、信号の最高値が一定水準
となるようにAGC回路13で調整されて、A/D変換
回路14でサンプリング点毎にディジタル値に変換され
る。1フレ一ム分のサンプリングデータは波形メモリ1
5に一時記憶される。レベル計算回路7および特徴抽出
部2は波形メモリ15のデータx(i)、(i=1.2
.・・・。
1、)を用いて以下に示す処理を行う。ここで、Ifは
フレーム長に対応するサンプル数である。
レベル計算回路7は1次式(1)に示すように。
サンプリングデータの自乗和を計算し、そのフレームの
電力(パワー)Pに対応する数値を求める。
この数値Pは認識処理部5に与えられる。
次に、ピッチ周期抽出回路21は1次式(2)で示すよ
うに、波形メモリ15のデータx(i)の自己相関関数
値COR(τ)を計算し、ピッチ周期τ2をピッチ周期
探索範囲のうち最大の自己相関関数値COR,IAXを
与えるτとして求める。
coR(τ)=¥ x(i)・x(i +で) ・”(
2>ml フィルタ係数設定回路22は、ピッチ周波数fp(ピッ
チ周期の逆数)の整数倍がディジタルフィルタ23の共
振周波数になるようなフィルタ係数を発生し、その発生
したフィルタ係数をディジタルフィルタ23に設定する
。なお、このフィルタ係数設定回路22は、フィルタ係
数テーブルをR0Mなどで構成し、ピッチ周波数および
その整数倍に対応してROMの内容を検索する手段によ
って実現されていた。
第5図は第4図に示すディジタルフィルタ23の構成を
詳細に示すブロック図である。
第6図は、第5図のディジタルBPF231の周波数応
答を示す図である。
第5図において、ディジタルフィルタ23は。
ディジタルl3PF (通過帯域フィルタ)231と。
自乗回路232と、積算回路233とより成る。
ディジタルl3PF231は、フィルタ係数設定回路2
2よりフィルタ係数を受は取ると、第6図に示すような
Qの高い脱時性の周波数応答を示す。
ディジタルフィルタ23は、波形メモリ15より音声デ
ータx(i)を受は取るとディジタルBPF231によ
りフィルタ演算を行いフィルタ出力y、(i)を求め、
更に、自乗回路232.積算回路233により次式(3
)に示すスペクトルデータS7を抽出する。
s、=Σ(y Ji)l”・・・・・・・・・・・・・
・・・・・(3)ここで、nはフィルタ係数設定回路2
2によって設定されたn番目のフィルタ係数セラI・を
用いた演算結果を示すものである。スペクトルデータ5
1(n=1〜N)は、認識処理部5に与えられ、認識処
理のための主要データとして用いられる。なお。
音声信号の始終端検出については、始終端検出回路6が
レベル計算回路7より受は取るパワーPに基づいて行う
以上のような従来の認識装置の特徴は、音声波形の有意
な部分、即ち母音フレームのスペクトルを音声の特徴パ
ラメータとして用い騒音混入時における認識性能の劣化
を防ぐことにあった。即ち。
母音などの有声音はピッチ周波数の整数倍のところのみ
成分を有する離散スペクトル構造を有し。
このスペクトルのパターンが母音の識別に有効な情報と
なっている。従って、第4図の認識装置の特徴抽出部2
が抽出するピッチ周波数の整数倍の周波数に共振するデ
ィジタルフィルタ23の出力は、母音の特徴をそのまま
表現した特徴パラメータとなっている。しかも、高い騒
音の混入があっても、その騒音の殆どの周波数成分は、
ディジタルフィルタ23によって遮断され、出力される
ことがない。従って、入力音声波形が騒音によって大き
なスペクトル歪みを有したものであっても。
特徴パラメータは歪みを受けることなく小さく。
認識にとって有効な特徴パラメータとすることができた
[発明が解決しようとする問題点] 上記のような従来の認識装置では、−単語の特徴パラメ
ータとしての有声音区間のみのスペクトルを用いるため
、騒音が小さい場合には、無声音情報を用いる他の認識
装置に比べ認識性能が劣るという問題点があった。仮に
無声音区間のスペクトルを抽出してとしても、無声音は
明確なピッチ周波数を有していないので、同一話者の同
一無声音について常に同じ特徴パラメータを得るとは限
らす2認識性能の向上は望めないという問題点もあった
この発明は、かかる問題点を解決するためになされたも
ので、有声音区間だけでなく無声音区間においても有効
なスペクトルを抽出すると共に認識性能の優れた認識装
置を得ることを目的とする。
[問題点を解決するための手段] この発明に係る認識装置は、特徴抽出手段に音声信号の
ピッチ周波数を検出するピッチ周波数検出手段と、音声
信号が有声音か無声音かを判定する有声音無声音判定手
段と、設定されるフィルタ係数に応じてその共振周波数
と帯域幅が変化し。
かつ音声信号のスペクトルを特徴パラメータとして抽出
するディジタルフィルタと、ディジタルフィルタにフィ
ルタ係数を設定するフィルタ係数設定手段とを備えたも
のである。
[作用] この発明においては、有声音無声音判定手段が。
入力音声がピッチ性の強い有声音か、ピッチ性の弱い無
声音かを判定すると、フィルタ係数設定手段は、入力音
声が有声音の場合は、ピッチ周波数検出手段よりピッチ
周期を受は取り、ディジタルフィルタの共振周波数がピ
ッチ周波数の整数倍となりQの高い脱時性の周波数応答
を持つようにフイルタ係数を発生し、フィルタ係数設定
手段は、入力音声が無声音の場合は、ディジタルフィル
タが。
共振周波数が予め定められたQのさほど高くない周波数
応答を持つようにフィルタ係数を発生し。
次にディジタルフィルタは、設定されたフィルタ係数に
基づき、音声スペクトラムを特徴パラメータとして抽出
する−1 [実施例] 第1図はこの発明による認識装置の一実施例を示す概略
ブロック図である0図において、音声入力部1は、マイ
クロホン11と、マイクロホンアンプ12と、AGC回
路13と、A/D変換回路14と、波形メモリ15とを
含む、特徴抽出部20は、レベル計算回路7と、始終端
検出回路6と。
ピッチ周期抽出回路21と、有声音無声音判定回路24
と、フィルタ係数設定回路22と、ディジタルフィルタ
23とを含む、音声入力部1の出力は、レベル計算回路
7と、ピッチ周期抽出回路21と、ディジタルフィルタ
23とに与えられる。
レベル計算回路7の出力は、始終端検出回路6と。
有声音無声音判定回路24とに与えられると共に認識処
理部5に与えられる。ピッチ周期抽出回路21の出力は
有声音無声音判定回路24と、フィルタ係数設定回路2
2に与えられると共に認識処理部5に与えられる。有声
音無声音判定回路24の出力は、フィルタ係数設定回路
22に与えられると共に認識処理部5に与えられる。フ
ィルタ係数設定回路22の出力は、ディジタルフィルタ
23に与えられる。ディジタルフィルタ23の出力は認
識処理部5に与えられる。認識処理部5には。
入力パターンメモリ3および登録パターンメモリ4が接
続される。
第2図は、第1図の有声音無声音判定回路24の構成の
詳細を示すブロック図である0図において、有声音無声
音判定回路24は、除算器241と、基準値設定回路2
43と、比較器242とよりなる。
第3図は、入力音声が無声音の場合のディジタルフィル
タ23の周波数応答を示す図である。
上記のように構成された認識装置において、音声入力部
1の動作は、第4図の従来例と同一の動作をするので説
明を省く、特徴抽出部20は波形メモリ15のデータx
 (i ) (i = 1 、−・−,1,)、を用い
て以下に示す処理を行う。
レベル計算回路7は、第4図の従来例と同様に式(1)
の演算を行いパワーPを求める。ピッチ周期抽出回路2
1は、第4図の従来例と同様に式(2)の演算を行い、
波形メモリ15の波形データの自己相関関数値C0R(
τ)を計算し、ピッチ探索範囲内のうち最大の自己相関
関数値CORMAXと、ピッチ周期τ2を求める。ただ
し、τ、はCORMAXを与えるτである。第2図にお
ける有声音無声音判定回路24は、レベル計算回路7よ
りパワーPをピッチ周期抽出回路21より最大自己相関
関数値COR,AXとを受は取ると1次式に従ってCo
R1,lA×とバ’7−Pとの比率COV NAXを求
める。
COV 、A、= CORNAX/ P −−−−・・
−・−・・(4)次に、基準値設定回路243があらか
じめ設定した基準値COV tmとの比較を比較器24
2により行い、COV、A、≧COV、、の場合は、有
声音と判定し、cov、A、<cov、、の場合は、無
声音と判定する。
第1図において、フィルタ係数設定回路22は。
有声音無声音判定回路24より判定結果を受は取り、有
声音と判定された場合は、ピッチ周期抽出回2821よ
りピッチ周期τpを受は取り、ピッチ周波数f、(ピッ
チ周期の逆数)の整数倍がディジタルフィルタ23の共
振周波数になるようにフィルタ係数を発生し、そのフィ
ルタ係数をディジタルフィルタ23に設定する。また、
フィルタ係数設定回路22は、有声音無声音判定回路2
4からの判定結果が無声音の場合は、ディジタルフィル
タ23の共振周波数とバンド幅が予め定められた値とな
るようにフィルタ係数を発生し、その発生したフィルタ
係数をディジタルフィルタ23に設定する。フィルタ係
数設定回路22は、前記従来例と同様にフィルタ係数テ
ーブルをROMなどで構成して、必要な係数を検索する
方法により実現される。ディジタルフィルタ23は、第
5図の従来例と同一の構成により実現される。ディジタ
ルフィルタ23は、フィルタ係数設定回路22より有声
音分析のためのフィルタ係数を受は取ると。
第6図に示す従来例と同様の周波数応答を示し。
波形メモリ15より波形データx(i)を受は取り、第
5図の従来例と同一の動作を行い2式(3)に従ってス
ペクトルデータS。(n=1.・・・、N)を抽出する
。ディジタルフィルタ23は、フィルタ係数設定回路2
2より無声音分析のためのフィルタ係数を受は取ると第
3図に示すようなQが0゜2〜0.4程度の周波数応答
を示し、波形メモリ15より波形データx(j)を受は
取り9式(3)に従ってスペクトルデータS。(n=1
.・・・、N)を抽出する。スペクトルデータS n(
n −1、・・・。
N)はフレーム毎に、認識処理部5に与えられ。
認識処理のための主要データとして用いられる。
この実施例においては、始終端検出回路6と2認識処理
部5と、入力パターンメモリ3と、登録パターンメモリ
4の動作は、第4図における従来例の動作とほぼ同様で
あるので説明は省く。
なお、上記実施例では、説明の都合上認識装置を特定話
者登録型として説明したが、単語音声の特徴パラメータ
をあらかじめROMなどに記憶している不特定話者の音
声認識装置でも実現可能なことは言うまでもない。
また、上記実施例では、1個のディジタルフィルタに時
分割的にフィルタ係数を設定して用いるようにしたが、
複数個のディジタルフィルタを並列的に設け、各ディジ
タルフィルタに同時に異なるフィルタ係数を設定しても
よい6 [発明の効果コ この発明は以上説明したとおり、特徴抽出手段に音声信
号のピッチ周波数を検出するピッチ周□波数検出手段と
、音声信号が有声音か無声音かを判定する有声音無声音
判定手段と、設定されるフィルタ係数に応じてその共振
周波数と帯域幅が変化し、かつ音声信号のスペクトルを
特徴パラメータとして抽出するディジタルフィルタと、
ディジタルフィルタにフィルタ係数を設定するフィルタ
係数設定手段とを備え、音声信号が有声音の場合は。
音声信号のピッチ周波数の調波成分のみを特徴パラメー
タとして抽出し、音声信号が無声音の場合は、広帯域の
周波数成分を特徴パラメータとして抽出するようにして
いるので、@音が小さい場合は、優秀な認識性能を示し
、騒音が大きくなっても有声音の特徴パラメータは歪み
を受けることが小さいので、騒音による認識性能の劣化
が小さい浸れた音声認識装置を得ることができる効果が
ある。
【図面の簡単な説明】
第1図はこの発明の一実施例を示す概略ブロック図、第
2図は第1図に示す有声音無声音判定回路の構成の詳細
を示すブロック図、第3図は第1図において入力音声が
無声音の場合のディジタルフィルタの周波数応答を示す
図、第4図は従来の認識装置の概略ブロック図、第5図
は第4図に示すディジタルフィルタの構成の詳細を示す
ブロック図、第6図は第5図におけるディジタルBPF
の周波数応答を示す図である。 図において、(1)・・・音声入力部、(3)・・・入
力パターンメモリ、(4)・・・登録パターンメモリ、
(5)・・・認識処理部、(6)・・・始終端検出回路
、(7)・・・レベル計算回路、(11)・・・マイク
ロホン、(12)・・・マイクロホンアンプ。 (13)・・・AGC回路、(14)・・・A/D変換
回路、<15)・・・波形メモリ、(20)・・・特徴
抽出部、<21)・・・ピッチ周期抽出回路、’(22
)・・・フィルタ係数設定回路、(23)・・・ディジ
タルフィルタ、(24)・・・有声音無声音判定回路。 (241)・・・除算回路、(242)・・・比較回路
。 (243)・・・基準値設定回路である。 なお、各図中同一符号は同−又は相当部分を示す。 兇2rXJ 罠3図 罠5図 児6図 手続補正書 昭和62年 9月11日

Claims (4)

    【特許請求の範囲】
  1. (1)音声を電気信号に変換する音声信号入力手段と、
    前記音声信号入力手段から入力される音声信号の特徴パ
    ラメータを抽出する特徴抽出手段と、前記特徴抽出手段
    で抽出された認識すべき単語音声の特徴パラメータを記
    憶する入力パターン記憶手段と、前記特徴抽出手段で抽
    出された複数個の単語音声の特徴パラメータを予め記憶
    しておく登録パターン記憶手段と、および前記入力パタ
    ーン記憶手段に記憶された入力音声の特徴パラメータと
    前記登録パターン記憶手段に記憶された複数個の単語音
    声の特徴パラメータとの類似度を計算し、音声の認識処
    理を行う認識処理手段とを備え、 前記特徴抽出手段は、 前記音声信号のピッチ周波数を検出するピッチ周波数検
    出手段と、 前記音声信号が有声音か無声音かを判定する有声音無声
    音判定手段と、 設定されるフィルタ係数に応じてその共振周波数と帯域
    幅が変化し、かつ前記音声信号のスペクトルデータを前
    記特徴パラメータとして抽出するディジタルフィルタと
    、 前記有声音無声音判定手段が前記音声信号を有声音と判
    定した場合は、前記ディジタルフィルタの共振周波数が
    前記ピッチ周波数の整数倍、前記音声信号を無声音と判
    定した場合は、前記ディジタルフィルタの共振周波数と
    帯域幅が予め定められた値、となるように前記ディジタ
    ルフィルタのフィルタ係数を設定するフィルタ係数設定
    手段と、を含むことを特徴とする単語音声認識装置。
  2. (2)前記ディジタルフィルタは1個設けられ、前記フ
    ィルタ係数設定手段は、前記ディジタルフィルタに時分
    割的に前記フィルタ係数を設定することを特徴とする特
    許請求の範囲第1項記載の単語音声認識装置。
  3. (3)前記ディジタルフィルタは複数個並列的に設けら
    れ、前記フィルタ係数設定手段は、前記並列的に設けら
    れた各ディジタルフィルタに異なるフィルタ係数を設定
    することを特徴とする特許請求の範囲第1項記載の単語
    音声認識装置。
  4. (4)前記有声音無声音判定手段は、除算手段と、基準
    値設定手段と、比較手段とから構成されることを特徴と
    する特許請求の範囲第1項記載の単語音声認識装置。
JP10895387A 1987-05-06 1987-05-06 単語音声認識装置 Pending JPS63274998A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10895387A JPS63274998A (ja) 1987-05-06 1987-05-06 単語音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10895387A JPS63274998A (ja) 1987-05-06 1987-05-06 単語音声認識装置

Publications (1)

Publication Number Publication Date
JPS63274998A true JPS63274998A (ja) 1988-11-11

Family

ID=14497837

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10895387A Pending JPS63274998A (ja) 1987-05-06 1987-05-06 単語音声認識装置

Country Status (1)

Country Link
JP (1) JPS63274998A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02289899A (ja) * 1989-01-24 1990-11-29 Sekisui Chem Co Ltd 音声検出方式

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58130396A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
JPS5912185A (ja) * 1982-07-14 1984-01-21 Daishin:Kk 複動往復ポンプ
JPS60166993A (ja) * 1984-02-10 1985-08-30 三菱電機株式会社 単語音声認識装置
JPS61180300A (ja) * 1985-02-06 1986-08-12 松下電器産業株式会社 音声認識装置
JPS61183698A (ja) * 1985-02-08 1986-08-16 松下電器産業株式会社 音声認識装置
JPS61261800A (ja) * 1985-05-16 1986-11-19 シャープ株式会社 音声認識装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58130396A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
JPS5912185A (ja) * 1982-07-14 1984-01-21 Daishin:Kk 複動往復ポンプ
JPS60166993A (ja) * 1984-02-10 1985-08-30 三菱電機株式会社 単語音声認識装置
JPS61180300A (ja) * 1985-02-06 1986-08-12 松下電器産業株式会社 音声認識装置
JPS61183698A (ja) * 1985-02-08 1986-08-16 松下電器産業株式会社 音声認識装置
JPS61261800A (ja) * 1985-05-16 1986-11-19 シャープ株式会社 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02289899A (ja) * 1989-01-24 1990-11-29 Sekisui Chem Co Ltd 音声検出方式

Similar Documents

Publication Publication Date Title
US7711123B2 (en) Segmenting audio signals into auditory events
US5884260A (en) Method and system for detecting and generating transient conditions in auditory signals
EP1393300B1 (en) Segmenting audio signals into auditory events
US6493668B1 (en) Speech feature extraction system
Gu et al. Perceptual harmonic cepstral coefficients for speech recognition in noisy environment
JPS63274998A (ja) 単語音声認識装置
JP2003157100A (ja) 音声通信方法及び装置、並びに音声通信プログラム
US4158751A (en) Analog speech encoder and decoder
JPH0461359B2 (ja)
JPS6324298A (ja) マルチパルス駆動形音声符号化器
JPH04369698A (ja) 音声認識方式
JP2806048B2 (ja) 自動採譜装置
JPH0235994B2 (ja)
JPH0424692A (ja) 音声区間検出方式
JP2666296B2 (ja) 音声認識装置
JP3346200B2 (ja) 音声認識装置
JP2975808B2 (ja) 音声認識装置
US5899974A (en) Compressing speech into a digital format
Salor et al. Kalman filter approach for pitch determination of speech signals
JPS59105697A (ja) 音声認識装置
JPS60166993A (ja) 単語音声認識装置
JP4007628B2 (ja) 音声ピッチの周期の正規化を行う音声合成装置
JPS63200198A (ja) 音声区間検出方式
Sanei et al. Incorporating frequency warping into sparse component analysis
CN114550739A (zh) 语音增强方法、相关设备及可读存储介质