JPS6148898A - 音声の有声無声判定装置 - Google Patents

音声の有声無声判定装置

Info

Publication number
JPS6148898A
JPS6148898A JP59170662A JP17066284A JPS6148898A JP S6148898 A JPS6148898 A JP S6148898A JP 59170662 A JP59170662 A JP 59170662A JP 17066284 A JP17066284 A JP 17066284A JP S6148898 A JPS6148898 A JP S6148898A
Authority
JP
Japan
Prior art keywords
unvoiced
voiced
noise
standard pattern
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59170662A
Other languages
English (en)
Inventor
森井 秀司
藤井 諭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP59170662A priority Critical patent/JPS6148898A/ja
Publication of JPS6148898A publication Critical patent/JPS6148898A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 音声認識装置及び音声合成のための音声分析装置等に用
いられる音声の有声fHj声判定装置に関するものであ
る。
従来例の構成とその問題点 1−?声の有声1j!(声の判定を行う従来例としては
、音声信号の高域と低域のエネルギー差を用いる方式が
あげられる。これは、新美康永:「音声2識」共立出版
1979年に述べられている。従来例による方式は、有
声音では低い周波数のエネルギー成分が優勢となるのに
対し、無声音では高い周波数のエネルギー成分が優勢と
なることを利用したものである。この方式の構成は第1
図に示すように、2種項の帯域通過濾波器(100〜9
00 Hzと3700〜50ooH$と2つの整流器、
そして比1校器で構成される。
以下、第1図にそって従来例の方式を説明する。
マイク侍より入力された音声信号は第1図に示す帯域濾
波器1及び2に送られる。帯域停波器1は低域成分(1
00H2〜90o Hz )のみを通過させるもの、帯
域濾波器2は高域成分(3500Hz〜5000H2)
のみを通過させるものである。第1図の帯域濾波器1及
び2を通過した音声信号の低域成分及び高域成分は、そ
れぞれ整流器3及び4に送られ、低域電圧、高域電圧に
変換される。
この低域及び高域の2つの′1a圧は比較器5により比
較され、低域電圧が高域電圧より高ければ有声、逆に高
域電圧が低域電圧より高ければ無声と判定される。
従来例における問題点の1つとして、環境騒音の変化に
対し、安定した性能が得られないということがあげられ
る。例えば低域成分にエネルギーが集中しているような
騒音環境では、高域エネルギーが低域エネルギーより優
勢であるという無声音の特徴が弱められてしまうため無
声音の判別誤りが多くなる。また反対に白色雑音のよう
に高域まで一様のエネルギー成分をもつような騒音に対
しては低域エネルギーが高域エネルギーより優勢である
という有声音の特徴が弱められるため有声音の判別誤り
が多くなる。
第2番目の問題点として、電話回線を通した音声のよう
に周波数帯域に制限を受けた音声に対しては十分な判別
精度が得られないことがあげられる。これは、無声音の
エネルギーのピークは3500〜7000 Hz  ぐ
らいであるのに対し、電話回線の帯域は300〜340
0 Hz  ぐらいしかないため、高域エネルギーが優
勢であるという無声ばの特徴が得られにくくなるためで
ある。
以上述べたように、従来例によるご声の有声無声判定方
式は、fMi単なハードウェアにより実現することが可
能であるという利点はあるが、使用する環境の騒音の影
響を受けやすく、さらに、電話回線を通った音声にはあ
まり高い精度が得られないというように使用環境に制限
があるという問題がある。
発明の目的 本発明の目的は、従来例に見られる問題点を改善し、使
用環境の変化に対しても安定した性能を得られる音声の
有声無声判定装置を提供するものである。
発明の構成 本発明による基本構成は、音声信号のスペクトル形状と
有声・無声の平均的なスペクトル形状を表わす2つの標
準パターンとの間の類似度により音声が有声であるか無
声であるか判定を行なう有声無声判定部と、環境騒音の
エネルギーとスペクトル形状を学習しその使用環境と最
も似た環境下で発声された音声より作成された有音脅無
音の2つの標準パターンの組を選び出す環境学習部によ
り構成され、種々の環境下で発声された音声より作成さ
れたgl音・有声音・無声音の平均的なエネルギーとス
ペクトル形状を表わす3つの標準パターンの組を数組用
意しておき、環境学習部により、使用する環境騒音とエ
ネルギーとスペクトル形状が最も似ている環境下で作成
された有声・無声の標準パターンを選び出し、その選ば
れた有声・無声の標準パターンと入力音声とのスペクト
ル類似度により音声の有声・無声を判定するようにした
ものである。
実施例の説明 以下本発明の実施例について図面を参照しながら説明す
る。第2図は音声認識システムに組込まれた本発明の一
実施例における有声無声判定装置のブロック図を示した
ものである。図において6は1、!徴抽出部で入力信号
のエネルギーとスペクトル形状を表わすLPCケプスト
ラム係数を一定分析区間長毎(例えば1Qmsec長毎
、以下フレームと記す)に算出する。7はデータ制御部
でフレーム毎に算出されるLPCケプストラム係数を、
環境学習部8に送るか、有声・無声判定部1oに送るか
の制御を行なう。9は標準パターン格納部で、種々の環
境下で発声された音声および環境騒音より作成された騒
音・有声・無声の標準パターンの組がいくつか格納され
ている。なお特徴抽出部6は1台の信号プロセッサで構
成されており、データ制御部子、環境学習部8、標準パ
ターン格納部9、有声無声判定部10からなる破線で囲
んだ部分は1台の汎用マイクロプロセッサで構成されて
いる。また、LPCケプストラム係数の性質およ  ・
び算出法についてはJ、D、マーケル他、鈴木久喜訳「
音声の線形予測」コロナ社1980年に詳しく述べられ
ている。
以上のように構成された音声の有声無声判定装置につい
てその動作を説明する。
マイク等より入力される音声を含む信号は特徴抽出部6
によりフレーム毎にLPCケプストラム係数C3−C5
に変換される。ここでC8は信号のエネルギー成分を表
わし、C4以上の高次の項はスペクトル形状を表わす。
データ制御部子では装置の電源が入れられ環境学習部8
に送り、前記以外の場合は音声の有声無声判定を行なう
ということで音声より得られるケプストラム係数G。〜
C5を有声無声判定部1oに送る。
まず、環境騒音の学習について動作を説明する環境学習
部8ではフレーム毎に送られてくる環境騒音のエネルギ
ー成分C8およびスペクトル形状を表わすC4〜C5と
標準パターン格納部9に予め格納されている数種類の騒
音標準パターンとの類似度を計算する。そして、最も類
似度の高い騒音標準パターンをフレーム毎に求める。環
境学習の数10秒間においてフレーム毎に得られる類似
度の最も高い騒音標準パターンのうち最も出現頻度の多
いものを選び、選ばれた弱音標準パターンと組となって
いる有声・無声の2つの標準パターンを有声無声判定部
1oで使用するよう定める。
この騒音標準パターンとの類似度として、本実施例では
マハラノビス距離を用いている。マハラノビス距離は式
1に示す距離である。式1においてCは使用している環
境の騒音のLPCケプストラム係数列であり、μおよび
晋は標準パターンを構成するもので戸は石膏標準パター
ンを作成した環境Q、7Iから得られるLPCケプスト
ラム係数の平均値列で、留は共分散行列である。
D= C(C−P) IN ’ (C−p)”)V2一
式1〔添字−1は送行列、Tは転置を表わす〕式1を用
い、標準パターン格納部9に格納してあル種々の騒音標
準パターンについて計算し、最も値の小さいものをエネ
ルギーおよびスペクトル形状が最も類似しているとして
選ぶ。そして、さらに環境学習を行なっている時間内に
おいてフレーム毎に選ばれた騒音標準パターンのうち最
も出現頻度の多いものを、使用環境の騒音と最も類似し
ているということで選ぶ。その選ばれた邸音標準パター
ンを作成したのと同じ騒音環境下で作成された有声・無
声の2つの標準パターンを有声無声判定部1oで用いる
ようにする。
次に、有声無声判定の動作について説明する。
有声無声判定部1oではフレーム毎に送られてくる音声
信号のc  xQ5のうちスペクトル形状を表わすC4
〜C5を用いて、前記環境学習部8で選ばれた騒音標準
パターンと同じ騒音環境下で作成された有音・無音の2
つの標漁パターンとの類似度を求め、フレーム毎の有声
・無声判定結果を出力する。この類似度として式1に示
したマハラノビス距離を用いている。つまり、フレーム
毎に入力されるLPCケプストラム係数を用い有声標へ
βパターンと無声標準パターンの2つについて式1を計
算し、有声標準パターンより得られる値が無声標準パタ
ーンより得られる値より小さければそのフレームは有声
であるとし、逆ならば無声であると判定するものである
本実施例によれば環境騒音の影響で有声・無声のスペク
トル形状が大きく異なるような環境の変化に対し、環境
騒音学習を行なうことにより、その環境にバ1似した環
境下で作成された有声[株]無声の標H<Bパターンを
選択することが出来る。そのため、性能の劣下が少ない
。また有声・力1(声の判定はスペクトルの全体的な形
状の相異により行なっているため精度の高い結果を得る
ことが出来る。
第3図(2L)(b)は本発明における一実施例の効果
を示したもので、音声信号に環境騒音として白色クイ1
゜音をSN比が35.30,25,20dbになるよう
に伺加したものを用いた場合の有声・無声判定のフレー
ム毎の正解率を示したものである。第3図(a)は有声
のフレーム正解率、第3図(b)は無声のフレーム正解
率を示している。また、第3図の実線は環境学習を行な
い標準パターンを選択して使用した本実施例の場合の結
果であり、点線は環境学習を行な・わないで、標準パタ
ーンとして白色雑音が利加されていない音声より作成さ
れたものを用いた場合の結果である。第3図より白色雑
音のように有声音のスペクトルに大きく影響を与える騒
音が加わった場合、標準パターンを変えないと有声音の
正解率は大きく低下することが分る。
第3図(&)(b)の実線で示したように環境騒音学習
を行なうことにより適切な標準パターンを選択すること
が出来、安定した正解率を得られるよう、になる。この
ように本実施例による有声無声判定装置が有効に動作す
ることを確めることが出来た。
なお、以上の説明では信号のエネルギーおよびスペクト
ル形状を表わすパラメータとしてLPCケプストラム係
数を用い、スペクトルのHL[とじてマハラノビス距離
を用いた場合について説明したが、エネルギーおよびス
ペクトル形状を表わすパラメータとして線形予測分析に
より得られるにパラメータと残差パワーやフーリエ変換
により得られるパワースペクトルを用い、類似度として
ベイズ判定に基く尺度、線形判別関数LPCケプストラ
ム距離などを用いても良い。
発明の効果 以上のように、本発明はエネルギー、スペクトルの特徴
を抽出する特徴抽出部と種々の騒音環境下で発声された
音声および環境騒音より作成される騒音有声蝋無声のス
ペクトル形状を表わす3つの標桑パターンの組を格納し
ている標準パターン格納部と、使用環境の騒音を学習し
騒音のエネルギーおよびスペクトル形状が最も類似して
いる標準パターンの組を選択する環境学習部と、選択さ
れた有声・無声の2つの標準パターンと入力音声より得
られるスペクトル形状を比較し、その類似度により有声
音であるか無声音であるかを判定する有声無声判定部で
構成される音声の有声無声判定装置を提供するもので、
スペクトル全体の形状の相異を利用しているため判定精
度が高く、また、環境騒音の学習を行なうことにより使
用する有声無声の標準パターンを使用環境と最も似た環
境下で作成されたものに切り替えることができる。その
ため、使用する環境が変化しても性能の劣下が少ないと
いうすぐれた効果が得られる。
【図面の簡単な説明】
第1図は従来の有声無声判定装置の機能ブロック図、第
2図は本発明の一実施例における有声無声判定装置の機
能ブロック図、第3図は本発明の一実施例における効果
を示した図である。 6・・・・・・特徴抽出部、7・・・・・・データ制御
部、8・・・・・・環境学習部、9・・・・・標準パタ
ーン格納部、10・・・・・・有声無声判定部。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第1
図 入力tpI 第2図 L                 −−J第3図

Claims (3)

    【特許請求の範囲】
  1. (1)入力される音声や環境騒音を分析区間毎に分析し
    エネルギーやスペクトル形状を表わす特徴量を抽出する
    特徴抽出部と、種々の騒音環境下で発生された音声と騒
    音より作成された前記特徴量で表わされる騒音、有声、
    無声の三つの標準パターンよりなる標準パターン群を複
    数組予め格納しておく標準パターン格納部と、使用環境
    の騒音より得られる前記特徴量と騒音標準パターンとの
    類似度を求め、最も類似している騒音標準パターンの属
    する標準パターン群を選択する環境学習部と、入力音声
    より得られたスペクトル形状が選択された標準パターン
    群のうちの有声、無声の二つの標準パターンのいずれに
    類似しているかを判定する有声無声判定部とを具備する
    ことを特徴とする音声の有声無声判定装置。
  2. (2)エネルギーやスペクトル形状を表わす特徴量とし
    て、線形予測分析により得られるLPCケプストラム係
    数、にパラメータと残差パワー、信号のフーリエ変換よ
    り得られるパワースペクトルのいずれかを用いることを
    特徴とする特許請求の範囲第1項記載の音声の有声無声
    判定装置。
  3. (3)使用環境の騒音とあらかじめ作成されている種々
    の騒音標準パターンとの類似度として、マハラノビス距
    離、ベイズ判定に基く尺度、線形判別関数、LPCケプ
    ストラム距離のいずれかを用い、さらに一定時間の区間
    において分析区間ごとに得られる最も類似度が高い標準
    パターンの最も出現頻度の多いものを使用環境騒音と最
    も類似しているとすることを特徴とする特許請求の範囲
    第1項記載の音声の有声無声判定装置。
JP59170662A 1984-08-16 1984-08-16 音声の有声無声判定装置 Pending JPS6148898A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59170662A JPS6148898A (ja) 1984-08-16 1984-08-16 音声の有声無声判定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59170662A JPS6148898A (ja) 1984-08-16 1984-08-16 音声の有声無声判定装置

Publications (1)

Publication Number Publication Date
JPS6148898A true JPS6148898A (ja) 1986-03-10

Family

ID=15909043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59170662A Pending JPS6148898A (ja) 1984-08-16 1984-08-16 音声の有声無声判定装置

Country Status (1)

Country Link
JP (1) JPS6148898A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01502853A (ja) * 1987-04-03 1989-09-28 アメリカン テレフォン アンド テレグラフ カムパニー 有声判定装置および有声判定方法
JPH01502858A (ja) * 1987-04-03 1989-09-28 アメリカン テレフォン アンド テレグラフ カムパニー 音声フレーム中の基本周波数の存在を検出する装置および方法
JP2000132177A (ja) * 1998-10-20 2000-05-12 Canon Inc 音声処理装置及び方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01502853A (ja) * 1987-04-03 1989-09-28 アメリカン テレフォン アンド テレグラフ カムパニー 有声判定装置および有声判定方法
JPH01502858A (ja) * 1987-04-03 1989-09-28 アメリカン テレフォン アンド テレグラフ カムパニー 音声フレーム中の基本周波数の存在を検出する装置および方法
JP2000132177A (ja) * 1998-10-20 2000-05-12 Canon Inc 音声処理装置及び方法

Similar Documents

Publication Publication Date Title
Talkin et al. A robust algorithm for pitch tracking (RAPT)
Ghitza Auditory nerve representation as a front-end for speech recognition in a noisy environment
Bou-Ghazale et al. A comparative study of traditional and newly proposed features for recognition of speech under stress
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
Yegnanarayana et al. Epoch-based analysis of speech signals
Milner A comparison of front-end configurations for robust speech recognition
US20060031066A1 (en) Isolating speech signals utilizing neural networks
JPH02242298A (ja) 声門波形に基づく話者識別装置
EP0838805B1 (en) Speech recognition apparatus using pitch intensity information
Haque et al. Perceptual features for automatic speech recognition in noisy environments
JPH0222960B2 (ja)
Kotnik et al. Robust MFCC feature extraction algorithm using efficient additive and convolutional noise reduction procedures
Prakash et al. Fourier-Bessel cepstral coefficients for robust speech recognition
JPS6148898A (ja) 音声の有声無声判定装置
JPH0449952B2 (ja)
Vestman et al. Time-varying autoregressions for speaker verification in reverberant conditions
Kajita et al. Speech analysis and speech recognition using subbandautocorrelation analysis
Ishizuka et al. Speech feature extraction method representing periodicity and aperiodicity in sub bands for robust speech recognition
Abdallah et al. Improved closed set text independent speaker identification system using Gammachirp Filterbank in noisy environments
Mufungulwa et al. Enhanced running spectrum analysis for robust speech recognition under adverse conditions: A case study on japanese speech
Jankowski Jr et al. Comparison of auditory models for robust speech recognition
Thangarajan et al. A robust front-end processor combining mel frequency cepstral coefficient and sub-band spectral centroid histogram methods for automatic speech recognition
JP2658426B2 (ja) 音声認識方法
RUJZL et al. Depersonalization of Speech Using Speaker-Specific Transform Based on Long-Term Spectrum.
Jing et al. Auditory-modeling inspired methods of feature extraction for robust automatic speech recognition