JPS62113199A - 音声スペクトル抽出方法 - Google Patents

音声スペクトル抽出方法

Info

Publication number
JPS62113199A
JPS62113199A JP60252678A JP25267885A JPS62113199A JP S62113199 A JPS62113199 A JP S62113199A JP 60252678 A JP60252678 A JP 60252678A JP 25267885 A JP25267885 A JP 25267885A JP S62113199 A JPS62113199 A JP S62113199A
Authority
JP
Japan
Prior art keywords
frame
noise
average value
channel
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60252678A
Other languages
English (en)
Inventor
田部井 幸雄
森戸 誠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP60252678A priority Critical patent/JPS62113199A/ja
Publication of JPS62113199A publication Critical patent/JPS62113199A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は雑音が重畳した音声信号から雑音成分を除去し
、音声のスペクトルを抽出する方法に関する。
(従来の技術) 従来、この種の方法としてずペルシステムテクニカルジ
ャーナル(THEBELL SYSTEMTECHNI
CAL JOURNAL ) 60(8) (1981
−iの)(米)P、1847−1859に記載されるも
のがあった。当該文献に記載される技術は雑音が重畳し
た音声信号からの音声スペクトルの抽出にス(クトラム
・サブトラクション法を用いているものである。
以下図面を参照しながら従来の雑音抑制処理について説
明する。第2図は従来の音声スペクトル抽出装置の構成
を示すブロック図である。
第2図においてiの1はバンド・ぐスフィルタであシ、
Nチャネルの分析を行い、絶対値部iの2でバンド/J
?スフィルタの絶対値をとる。入力が雑音のみと判断さ
れるとき(これは雑音混入音声の無音部において判断さ
れる)分析出力はロー・ぐスフィルタ1(Y4(カット
オフ周波数iのHz)に入力され、前記以外の場合(雑
音+音声の)とき)ロー/9スフイルタiの3(カット
オフ周波!30Hz)に入力される。入力が雑音のみと
判定されて、ローノやスフィルタiの4を通った信号を
ノイズ推定部iの5においてiの m5ec間隔で再サ
ンプルし、次の千1@(i)〜(viDに従ってノイズ
推定を行う。ここでにチャネル、第nフレームの再す/
デルされたデータを叶とする。
(i)  サンプルデータ叶をストア。n=1.・・・
Q(Q:バッファのサイX”) (ii)  最小値を求める(MINとする)(iiD
  MINからMIN+ 15 dBの間で1dB毎に
ヒストグラムを作成する。MAX=MIN+15 dB
とする。
4v1  ヒストグラムのピークを示すデータのに倍を
ノイズレベルとする。
υ 次のサンプルデータを入力する。
(’/I  fyfルデータがMAX (=MIN+ 
15 dB )よシ大きければ、そのす/fデルータを
捨てステラf0へ進む。
(vli )サンプルデータがMAXより小さければ、
ノ9ッファ内の最も古いサンプルデータを新しいサンプ
ルデータに置き換えステラf (ii) ヘa b。
上記文献においてはQ=iの0、K=3又は3.5とし
ている。
以上の手順によりノイズの推定値Nkを得る。
一方、雑音+音声と判断され、ローパスフィルタiの3
を通った信号はiのm5ec毎に再サンプルされ、雑音
+音声のスにクトルYkを得る。
続いて差分演算部iの6によシ、次のようにしく発明が
解決しようとする問題点) しかし、上記従来の音声スペクトル抽出方法においては
、環境雑音が急に大きくなった時追随性が悪いという欠
点があった。
極端にはMINを求める時極めて静かであって急にMA
Xよシ大きなノイズ環境に変化した場合には全く追随し
ないという欠点があった。
またヒストグラムのピークを与える値を用いるためハー
ドウェアにおける実現手段が複雑になるという欠点もあ
った。
本発明は上述の欠点を除去し、且つ音声の特徴である子
音から母音へのわたシの部分をノイズの推定値抽出の除
用いないよう考慮したものであり、比較的簡単なハード
ウェア手段で実現することを目的とする。
(問題点を解決するための手段) 本発明は、所定フレーム周期毎で且つチャンネル毎に周
波数分析された雑音成分を含む入力音声信号データから
雑音成分を除去し音声スペクトルを抽出する方法におい
て、 音声入力開始直前の所定フレーム数りの雑音閾値測定区
間の雑音データの平均値Aを算出し当該平均値Aに基づ
き雑音の閾値TH0を設定する処理と、 音声入力開始後の任意のフレーム1において当該フレー
ム1が音声有りのフレームすなわち音声フレームもしく
は音声無しのフレームすなわち雑音フレームのいずれか
であることを判定する処理と、 当該フレームlが雑音フレームであってその直前フレー
ム(i−1)が雑音フレームである場合のみ前記直前フ
レーム(i−1)のデータ、Y、  (但しにはチャネ
ル番号、i−1はフレーム番号)とその時点以前の各チ
ャネル毎の雑音の平均値N′にとに基づきチャネル毎の
雑音の平均値Nkを更新する処理と、 音声区間全区間にわたってチャネル毎の前記雑音平均値
Nkを順次算出し最終フレーム分終了時点のチャネル毎
の前記雑音平均値Nkを最終雑音推定値G、として抽出
する処理と、 音声区間全区間にわたって各フレームのチャネの差分を
算出し入力音声のスペクトルを抽出する処理とを具備す
るようにしたものである。
(作 用) 本発明の音声スペクトル抽出方法によれば、まず雑音の
閾値を設定し、この閾値を用いて任意のフレームが音声
フレームであるか又は雑音フレームであるかの識別をす
る比較判定を行ない、ある任意のフレーム及びその直前
のフレームにおける前述の比較判定結果によシ両フレー
ムとも雑音フレームである場合のみ雑音の平均値の算出
を行ない、音声区間全区間にわたって雑音の平均値を逐
次演算し、この逐次演算により最終的に得られる雑音平
均値を用いて雑音が重畳した入力音声信号から雑音成分
を除去しているため、入力された音声信号のスペクトル
を精度よく抽出するものである。
(実施例) 第1図は本発明の第1の実施列を示すブロック図であっ
て音声ス(クトル抽出装置を示している。
第1図において、入力音声は、マイク(図示せず)によ
り電気信号に変換され、アンプ(図示せず)、ロー・ぐ
スフィルタ(図示せず)を通り増幅、帯域制限され、φ
変換器により12 kHz程度で標本化され、バンドパ
スフィルタ(BPF ) 、? OfによりNチャネル
の周波数分析され、絶対値演算部202により絶対値が
とられ、ロー・ぐスフィルタ(LPF ) 2o sに
よって、周波数スペクトルの包絡が得られ、20 m5
ec程度のフレーム周期で再サンプルされ、この再す/
fルされたデータはt4ス213を通りメモリ20.4
に格納される。なお音声入力開始直前の所定フレーム数
り分(例えば20フレ一ム分、これは400 m5ec
程度に相当する。)は雑音閾値測定区間として、この区
間のデータは後述する音声有無判定処理部212(以下
UV判定処理部と称する。)に雑音の閾値設定のために
入力される。この雑音閾値測定区間には音声信号の入力
はないものである。
また、メモリ204に蓄えられるデータをyv(k=1
,2.・・−、N、i=1.2.・−、I )とする。
kはチャネル番号を表わし、lは予め規定した最長単語
の長さくIフレーム)中の何番目かのフレームかを表わ
す。
一方、Uv判定処理部212ではフレーム毎に音声が有
り(以下Vと記す)、又は無しく以下Uと記す)かの判
定を行う。音声無しと判定された場合は当該フレーム中
のデータは雑音とみなされる。このUV判定処理部21
2の構成としては、第1図の平均演算部205,208
、乗算器2iの、比較判定部206の如く構成される。
雑音の閾値測定は次の如くして行なわれる。すなわち、
音声入力開始直前のL7V−ム分の雑音に データnz(チャネルk = 1 m 2 m ”” 
t N Sフレームt=1 、2 、・・・、L)がノ
臂ス214を介し平均演算部205に入力され、平均演
算部205により、平均値Aが下記の如く演算される。
続いて乗算部2iのによ!7Aと定数αの積が求まり、
これを閾値TH0とする。すなわちTHo:α・A 平均演算部20Bではまず当該フレーム1の全帯域成分
の平均値を次式の如く、算出し、この算出されたziと
閾値TH0とに基づいて比較判定部206において、 と判定する。これにより当該フレームが音声フレームで
あるか雑音フレームであるか判定される。
このtJV判定処理部212での主な処理内容をまとめ
ると、以下に示す処理(a) 、 (b)となる。
(、)  閾値に基づきフレーム毎のUV判定を行う。
(b)  第1フレームでUであり、かつ第(i−1)
フレームでもUのトキ第(i−1)フレームのデータ緒
、を雑音の抽出の対象とし、逐次平均部207へ雑音の
逐次平均を行うための指令211を発する。この場合、
逐次平均部207ではノクス220を介して入力される
第(i−1)フレームの成分’  、、、に関して、次
に示す処理(、)のようにして、当該フレーム(i−1
)までの各チャネル毎の雑音の平均値を算出する。
ただし雑音の第にチャネルの逐次計算される平均をNk
とする。なお処理開始直後は初期設定ノ4ルス221に
より逐次平均部207には各チャネル対応に初期値Oが
設定される。
(c) ’ i =1  のとき Nk4− O1≧2
 で指令211がないとき N、←N/k(但しN/、
は直前のチャネル毎の雑音平均値)i≧2 で指令21
ノが発せられたとき ”(但しNlkは直前のチャネル
毎の雑音平均値)以上述べた(、)〜(C)の処理によ
って雑音の抽出が行なわれ。この(荀〜(C)の処理の
手順をフローチャートで示したのが第3図である。
第3図において、初期値である第1フレームの比較判定
結果はUであるものとする。
i ) I  となったとき(Iフレーム全部の処理が
終わったとき)、チャネル毎の最終の雑音の推定台□←
Nk(但しチャネルに=1 、2・・・、N)なるステ
ップにて抽出する。
次にメモリ204より第1フレームから第1フレームま
でのサンプルデータが順次差分演算処理部209に入力
され、差分演算処理部209において雑音の重畳した音
声データyj(チャネルに==1.2.・+a、N、 
フレームj=1.2.・・・、I)とこれに対応するチ
ャネルの最終雑音推定値化から次式によって音声スペク
トルの推定値化を抽出以上の如く抽出された音声スペク
トル丸は音声認識の特徴・臂うメータとして用いられる
またチャネルボコーダにおける雑音抑制処理にも使用で
きる。
なお雑音の抽出方法としては、前記処理(e)において なる演算により逐次平均値を算出したが次式のような雑
音の抽出方法を用いてもよい。
Nk←δN4−4− (r−δ)yIF−4(ただし 
0〈δ〈1) 第4図は、雑音として抽出される様子を示したものであ
る。0はそのフレームが雑音抽出に用いられることを示
す。第4図に示すように、本発明による雑音抽出の方法
ではUの隣りがVであるときは抽出に用いられない。こ
のことから「わたり」の部分は抽出に用いられないこと
が特徴である。
次に本発明の講2の実施例について説明する。
第5図に本発明の第2の実施例のブロック図を示す。但
し、第5図においてUV判定処理部以外は第1の実施例
と全く同じであるため省略する。
よってUV判定処理部212のみ図示する。
第5図において予め音声入力開始直前のLフレーム分の
雑音データn′tはノ臂ス214からUV判定処理部2
12に入力され、まずLOG変換器501によりLOG
変換され平均演算部502によ、9Lフレ一ム分の平均
値iを算出する。
続いて乗算器503により定数αとKの積から後述する
全帯域平均値PiO閾値THoを求める。
TH=nネα 〇 一方雑音重畳音声は・平ス215からの信号y賢であり
、LOG変換器504によりLOG変換され対数変換直
G縁を求める。
Gk=Logy縁 1に 次に低域平均値算出器505、中域平均値算出器506
、高域平均値算出器507により、各々低域平城値Pl
1中域平均値Pm1高域平均値九を求める。
ただし1<Nl<N2<N である。
次に、全帯域平均値Ph、低域と高域の比Hiを加算器
508.509によって次式のように求める。
Pi =pt+p−+ph Hi=PL−Ph 次に比較器5iのでPiとTHoの大小が比較さへ比較
器511で馬とある固定閾値βとの大小が比較される。
次にOR演算器512,513によってP、)THo 
 又は H,>β のときVと、P、≦THo  又は
 H,(β のときUと判定しメモリ514に書く。判
定部515では第1の実施例の処理(b)と同様な動作
を行う。
すなわち、第1フレームでUであり、かつ第(i−1)
フレームでもUのときに、指令211を逐次平均部20
7に発する。指令211によシ逐次平均部202におい
て雑音の逐次平均、値が計算される。ここでの処理内容
は第1の実施例における処理(C)と同様である。この
ようにして最初の雑と同様にして介□と雑音の重畳した
音声データy。
(チャネルに=1 、2・・・、N1 フレームj=1
.2・・・、I)とに基づき音声スにクトルの推定値谷
を抽出する。
第2の実m IIFJにおいては、電力の小さいlbl
、Idl 、Iglのような有声子音でもVと判定され
、雑音抽出が行われないようにしたことに特徴がある。
(発明の効果) 以上詳細−説明したように本発明によれば、音声の有/
無の判定によシ適応的に雑音の推定値の抽出を行ってお
り、前記雑音推定値をもとに、音声スペクトルの抽出を
行っているため、周囲騒音が変化しても、追随し良好に
音声を抽出できる効果がある。
前記の如く抽出した音声スペクトルは音声認識の特徴ノ
9ラメータとして用いれば認識精度を上げる効果がある
またBPF分析に基づくチャネルデコーダの雑音抑制処
理として、聴感上のSN比を高めるために適用可能であ
る。
【図面の簡単な説明】
第1図は本発明の第1の実施例の構成を示すブロック図
、第2図は従来の音声スペクトル抽出装置の構成を示す
ブロック図、第3図は本発明に係る雑音抽出のフローチ
ャート、第4図は本発明に係る雑音抽出を説明するだめ
の図、第5図は本発明の第2の実施例の音声有無判定処
理部の構成を示すブロック図である。 201・・・パントノ4スフイルタ、202・・・絶対
値演算部、203・・拳ローノやスフィルタ、204・
−Φメモリ、205・・・平均演算部、206・・・比
較判定亀207・・・逐次平均部、208・・・平均演
算部、209・・・差分演算処理部、2iの・・・乗算
器、212・・・音声有無判定処理部、213・・・・
ぐス、214・・・・ぐス、215・・串ノクス、22
0・・・ノクス、221・・・初期設定ノ母ルス。 特許出願人 沖電気工業株式会社 a者才由出の70−ナヤート 第3図 第5図 ■、事件の表示 昭和60年 特 許  願第252678号3、補正を
する者 事件との関係      特 許 出 願 人住 所(
〒iの5)  東京都港区虎ノ門1丁目7番12号6 
補正の内容 (1)明細書第13頁第1行目に「NK←0」とあるの
を 「N′に←0」と補正する。 (2) 同書第】7頁第20行目に「小さいIbl、J
とあるのを 「小さいIbl、」と補正する。 (3)同書第18頁第1行目にr’lal、Iglのよ
うな」とあるのを 「/d/、/ g /のような」と補正する。 (4)図面「第1図」及び「第3図」を別紙の通り補正
する。 以上 亀為抽出のフローチャート

Claims (3)

    【特許請求の範囲】
  1. (1)所定フレーム周期毎で且つチャンネル毎に周波数
    分析された雑音成分を含む入力音声信号データから雑音
    成分を除去し音声スペクトルを抽出する方法において、 音声入力開始直前の所定フレーム数Lの雑音閾値測定区
    間の雑音データの平均値Aを算出し当該平均値Aに基づ
    き雑音の閾値TH_0を設定する処理と、 音声入力開始後の任意のフレームiにおいて当該フレー
    ムiが音声有りのフレームすなわち音声フレームもしく
    は音声無しのフレームすなわち雑音フレームのいずれか
    であることを判定する処理と、 当該フレームiが雑音フレームであってその直前フレー
    ム(i−1)が雑音フレームである場合のみ前記直前フ
    レーム(i−1)のデータy^k_i_−_1(但しに
    はチャネル番号、i−1はフレーム番号)とその時点以
    前の各チャネル毎の雑音の平均値N′_kとに基づき各
    チャネル毎の雑音の平均値を更新する処理と、 音声区間全区間にわたってチャネル毎の前記雑音平均値
    N_kを順次算出し最終フレーム分終了時点のチャネル
    毎の前記雑音平均値N_kを最終雑音推定値■_kとし
    て抽出する処理と、 音声区間全区間にわたって各フレームのチャネル毎のデ
    ータy^k_j(但しkはチャネル番号、jはフレーム
    番号)とチャネル毎の前記雑音推定値■_kとの差分を
    算出し入力音声のスペクトルを抽出する処理とを具備す
    ることを特徴とする音声スペクトル抽出方法。
  2. (2)音声フレームもしくは雑音フレームと判定する前
    記処理が、任意の対象フレームiの全チャネルのデータ
    の平均値Z_iを算出し、Z_i>TH_0のときは当
    該フレームiを音声フレームと判定し、Z_i≦TH_
    0のときは雑音フレームと判定する処理であることを特
    徴とする特許請求の範囲第1項記載の音声スペクトル抽
    出方法。
  3. (3)雑音の閾値TH_0を設定する前記処理が、雑音
    閾値測定区間の雑音データの対数変換値の平均値Aを算
    出し、当該平均値Aに基づき雑音の閾値TH_0を設定
    する処理であり、 音声フレームもしくは雑音フレームと判定する前記処理
    が、対象フレームiの対数変換データの全チャネルの平
    均値P_i、高域の複数チャネルの平均値P_h、低域
    の複数チャネルの平均値p_l、並びにこれらの差分H
    _i=P_h−P_lの算出を行ない、予め設けた他の
    閾値をβとしてP_i>TH_0もしくはH_i>βの
    ときは当該フレームiを音声フレームと判定し、P_i
    ≦TH_0もしくはH_i≦βのときは雑音フレームと
    判定する処理であることを特徴とする特許請求の範囲第
    1項記載の音声スペクトル抽出方法。
JP60252678A 1985-11-13 1985-11-13 音声スペクトル抽出方法 Pending JPS62113199A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60252678A JPS62113199A (ja) 1985-11-13 1985-11-13 音声スペクトル抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60252678A JPS62113199A (ja) 1985-11-13 1985-11-13 音声スペクトル抽出方法

Publications (1)

Publication Number Publication Date
JPS62113199A true JPS62113199A (ja) 1987-05-25

Family

ID=17240714

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60252678A Pending JPS62113199A (ja) 1985-11-13 1985-11-13 音声スペクトル抽出方法

Country Status (1)

Country Link
JP (1) JPS62113199A (ja)

Similar Documents

Publication Publication Date Title
Kim et al. Power-normalized cepstral coefficients (PNCC) for robust speech recognition
Sadjadi et al. Mean Hilbert envelope coefficients (MHEC) for robust speaker and language identification
WO2014153800A1 (zh) 语音识别系统
CN111508498A (zh) 对话式语音识别方法、系统、电子设备和存储介质
WO2016176329A1 (en) Impulsive noise suppression
CN112053702B (zh) 一种语音处理的方法、装置及电子设备
JP2010102129A (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
JP3354252B2 (ja) 音声認識装置
JP2002023790A (ja) 音声特徴量抽出装置
JPH04184400A (ja) 雑音除去装置
JPS62113199A (ja) 音声スペクトル抽出方法
JPS63502304A (ja) 高雑音環境における言語認識のためのフレ−ム比較法
JP3118023B2 (ja) 音声区間検出方式及び音声認識装置
JPS6367197B2 (ja)
JP2003223186A (ja) 音声認識方法及び音声認識装置
JPH07121197A (ja) 学習式音声認識方法
JPH01255000A (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
JPH03114100A (ja) 音声区間検出装置
JP2005284016A (ja) 音声信号の雑音推定方法およびそれを用いた雑音除去装置
JPS61228500A (ja) 音声認識方法
Zeremdini et al. Two-speaker voiced/unvoiced decision for monaural speech
US20220130410A1 (en) Voice Activty Detection Using Zero Crossing Detection
JPS59124397A (ja) 無音区間検出回路
JPH0318720B2 (ja)