JPS6286399A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPS6286399A
JPS6286399A JP22487885A JP22487885A JPS6286399A JP S6286399 A JPS6286399 A JP S6286399A JP 22487885 A JP22487885 A JP 22487885A JP 22487885 A JP22487885 A JP 22487885A JP S6286399 A JPS6286399 A JP S6286399A
Authority
JP
Japan
Prior art keywords
vector
feature vector
component
extracting
local peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP22487885A
Other languages
English (en)
Other versions
JPH0448400B2 (ja
Inventor
田部井 幸雄
森戸 誠
山田 興三
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP22487885A priority Critical patent/JPS6286399A/ja
Priority to US06/909,957 priority patent/US4852181A/en
Priority to EP86113175A priority patent/EP0219712B1/en
Priority to DE8686113175T priority patent/DE3683343D1/de
Publication of JPS6286399A publication Critical patent/JPS6286399A/ja
Priority to US07/295,194 priority patent/US4918735A/en
Publication of JPH0448400B2 publication Critical patent/JPH0448400B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は高雑音下においても高精度の認識を行うことの
できる音声認識方法に関する。
(従来の技術) 従来、この種の音声認識方法として電子通信学会論文誌
、J68−A [1〕(昭和60年1月)p、78−8
5に記載されるものがあった。第2図は従来のローカル
ビークを用いた音声認識方法のフローチャートであり、
入力音声は、15チヤネルのバノドパスフィルタ一群で
1. Om5ecごとに周波数分析され(第2図の1参
照)、声帯音源特性の個人差の正規化法として、音声ス
ペクトルを振幅、周波数軸ともに対数で表わし最小二乗
近似直線を求め(第2図の2参照)、差をとって補正す
る。ただし、最小二乗近似直線の傾きが正の場合には平
均値からの差をとる。その後、第3図に示すように、各
フレーム(10m5ec )毎にOdB以上となる各部
分について、各最大値の1./2以上の振幅を持つもの
の中で最大値をとるチャネルをローカルピーク有りとし
て′°1”にし、他を′0″として2値化を行う(第2
図の3参照)。バンドパスフィルタのチャネル数は15
゛であるが、]6チヤネル目に最小二乗近似直線の傾き
が負のとき有声音と見なしlをたて、傾きが正のとき無
声音と見なし°゛0”をたて、傾斜の符号を付加する(
第2図の4参照)。
荷重平均辞書は、複数の2値化・ぐターンを時間軸上一
番長いものへ線形に伸ばして加算して多値パターンとし
て得られる(第2図の5参照)。
2値の入カバターンと多値の荷重平均辞書とのマツチン
グには、時間方向は長い方の・ぐ夕〜ンに線形に伸ばし
て合わせ、ある類似度に基づいて計算を行い、最大類似
度を与える標準パターンのカディリ名を認識結果とする
(第2図の6参照)。
(発明が解決しようとする問題点) 以」二述べた従来の音声認識方法は、接話型マイク等を
用いる場合のようなSN比の良い環境では有効に機能す
るが、高雑音の環境下では雑音の変動によるピークを拾
いやすく誤認識が増えるという問題点があった。
本発明は、以上述べた雑音の変動によるピークがあって
も、音声のローカルピークとの性質の違イ? 考慮した
ローカルピークベクトル算出処理を用いると表で、雑音
の変動によるピークを拾わず、雑音に対する剛性が強く
認識精度の高い音声認識方法を提供することを目的とす
る。
(問題点を解決するだめの手段) 本発明による音声認識方法は、捷ず入力音声を各音声フ
レーム毎に複数チャネルの特徴ベクトルに周波数分析を
行う。
一方、入力音声の特徴ベクトルは、当該ベクトルの属す
る音声フレームにおける最小二乗近似直線を用いてスペ
クトル正規化される。前記スペクトル正規化後の特徴ベ
クトルの各成分が正であれば1とし、0以下であれば0
とする2値の窓ベクトルを算出し、前記窓ベクトルをス
ムージングを行い、その後、窓ベクトルの各成分と前記
スペクトル正規化後の特徴ベクトルの各成分との積を算
出し、前記積の取られた特徴ベクトルから周波数方向の
極太値のあるチャネルに対応する成分を1とするローカ
ルピークベクトルを算出する。そしてこの入力音声のロ
ーカルピークベクトルの時系列と予め用意された複数の
標準パ外ンとの類似度計算を行ない入力音声のカテゴリ
ーを判定するものである。
(作用) 本発明は、入力音声のスペクトル正規化した特徴ベクト
ルを抽出した後、ローカルピークベクトル抽出前にスペ
クトル正規化特徴ベクトルから得られる窓ベクトルをス
ムージングしこれとスペクトル正規化特徴ベクトルとの
乗算処理を行なっている。このため、ローカルピークベ
クトル抽出時に入力雑音の変動によるピークを入力音声
のローカルt−りと誤って抽出することが抑制され、安
定して入力音声のローカルピークベクトルを抽出してい
る。
(実施例) 第1図は本発明の一実施例を示すブロック図である。以
下、第1図に示された音声認識装置の構成及び動作につ
いて説明する。
〔入力処理〕
入力音声はマイク(図示せず)を通して電気信号に変換
され、アンプ(図示せず)、ロー1’スフイルタ(図示
せず)、を通りN勺変換器(図示せず)により、例えば
標本化周波数1.2 kT(zで標本化され、入力端子
101に入力される。
〔周波数分析処理〕
入力端子から入力されるディジタル値は周波数分析部1
02において周波数分析されて、音声フレーム時系列の
特徴ベクトルに変換される。この周波数分析部102は
バンドパスフィルタと絶対値化演算部とローフ4スフイ
ルタとで構成される。
まず、周波数分析には、本実施例では、第4図に示すよ
うな低Qの特性を有するバンドパスフィルタを用いてい
る。ここではローカルビーりの安定な抽出を目的とした
だめ低Qのバンド/、oスフィルタを用いている。
各バンドパスフィルタの出力は絶対値化演算が施され、
ローパスフィルタに入力され、音声フレームの周期(本
実施例では10m5ec)ごとに再サンプルされ、特徴
ベクトルを算出する。
i番目の音声フレームにおけるにチャネルのローパスフ
ィルタの出力を再サンプルした出力をa、にとすると1
番目の音声フレームにおける特徴ベクトルaiは a4 =(ai+ aj2+ ”’ ”’ + aik
)と表現される。ここでKはチャネル数(本実施例では
に=22)であり、a、q 、 a、2 、、、・、、
 、 a、には特徴ベクトルa、の成分である。
〔フレーム電力算出処理〕
フレーム電力算出部103は、音声フレーム毎に周波数
分析部102より出力される特徴ベクトルa1ヲ受けて
、当該音声フレームのフレーム電力P、を次式(1) により算出する。
〔音声区間検出処理〕
音声区間検出部104においては、フレーム電力算出部
103より出力されるフレーム電力P。
を用いて音声区間検出を行う。
音声区間検出のアルゴリズムについては各種提案されて
おり、本発明はそのアルゴリズム自体が目的ではないが
、ここではフレーム電力P、が定められた閾値28以上
、T1フレーム以上続いた始めのフレームを始端工。、
音声の始端から後でフレーム電力P、が閾値PE以下の
状態がT2フレーム続いた時の始めてP0以下となった
フレームを終端工。とじて検出する。
〔スペクトル正規化処理〕
ス被りトル正規化部105は周波数分析部102よシ出
力される入力音声の特徴ベクトルa、を受けてまず特徴
ベクトルathの各成分a−を次式(2)により対数値
xi(k)に対数変換する。
Cは、ai  のビット数とXi  のビット数から定
捷る定数である。
次に、次式(3)によって与えられる最小二乗近似直線 yi−ui+に+vi 但し、 r O) を用い次式(4)のスペクトル正規化処理を行う。
kkk    ・・・・・・(4) zi −Xi  ’i 〔ローカルピークベクトル算出処理〕 第5図に本発明によるローカルピークベクトル算出部1
06の詳細構成を示す。
第5図において、501はスペクトル正規化データZ1
(財)の入力端子、502ば2値化演算部、503はス
ムージング部、504は乗算演算部、5θ5は極大値抽
出部、506はローカルピークベクトル出力端子である
前記ス(りl・ル正規化部105にょシスベクトル正規
化されたデータ、kから、2値化演算部502において
次式(5)によって与えられる2値の窓ベクトル W、−(w、’、w1’、 −・・、wlに、 −=、
 w−)が算出される。
(kはチャネル番号を表わす。) ここでWt  、wi、・・・2w1  は窓ベクトル
w1の成分である。続いてスムージング部503によシ
窓ベクトルWiヲスムージンクシ、スムージング窓ベク
トルW、 = (w、 ’ 、・・・、マ1に、・・・
、w、’)を得る。
このスムージングはWiの成分wi  が2チャンネル
以上続けて1とならない場合は対応するマ、にはゼロと
することにより行なわれる。
すなわち・・・0101.10・・・φ・・・0001
10・・・のようにスムージングされる。
次に、スムージングされた窓ベクトルW、の各成分Wご
とスペクトル正規イーされたデータ2−との積が乗算演
算部504において次式(6)により求められる。
L s ’ =zs ” Wt ” ” (6) (但
しに=1. 、 ・、 K )次にここで求められたり
、kを用いて極大値抽出部505により次式(7)にお
いて なる条件を満たすkに対してはrk−1、条件を満ださ
々いkに対してはr、−〇なる値を成分とするローカル
ピークベクトル r、=(rA、r−’ −rk、・=、 r、K)1 
    11”1       1を算出する。ここで
r、f 、 r、2.・・・、rKはローカルピークベ
クトルr、の成分である。
第6図(a)にスペクトル正規化されたデータzkの例
、第6図(b)に窓ベクトルWの成分wkO例、第6図
(c)にスムージングされた窓ベクトルWの成分w、に
ノ例、第6図(d)K: z、にトw” (!: )積
Lkの例、第6図(e)にローカルピークベクトルr、
の成分子1  の例を示す。
〔類似度計算処理〕
類似度計算部107はローカルピークベクトル算出部1
06から出力される入力音声のローカルピークベクトル
r、の時系列を受けて標準パターンメモリー08に格納
された全ての標準・ぐターンとの類似度計算を行なう。
ここで標準パターンは、カテゴリ毎に1個、あるいは複
数個の学習音声に対して認識を行う前に、認識時と同様
な処理によりローカルピークベクトルを算出し、時間軸
を伸縮して加算して作成しである。
すなわち標準パターンは重み付きローカルピークベクト
ルの時系列として格納される。本実施例では標準パター
ンの数をMとする。
類似度計算部107において入力音声と標準・ぐターン
とのフレーム間の類似度S(i 、 j )は、次式(
8)%式% ここでriは第iフレームの入力音声のローカルピーク
ベクトル、Djは第jフレームの標準パターンの特徴ベ
クトル、rtはr、の転置、D、tはり。
1      1            J    
  Jの転置を表わす。
なお、i(!:jの対応には非線形に対応させる方法も
あるが、本実施例では線形マツチングを行い、m番目の
標準パターン長を5Lrrlとする。
このとき入力音声とm番目の標準パターンの類へ 低度S は次式(9)で求められる。
上述の如くして、M個の標準パターン全てに対して入力
音声との類似度sm(但しm=1〜M)を算出する。
〔判定処理〕
判定部109は類似度計算部107より出力される各標
準パターンとの類似度官m(但しm=1〜M)を受け、
その中で最も類似度の高いものを抽出し、抽出された類
似度に対する標準パターンのカテゴリー塩を判定結果と
して識別し出力する。
即ち、この判定処理は次式0・で表わされる処理によっ
て、 mo= arg  max  5n1−−(101≦h
≦M なるm。を判定し、mo番目の標準)<?ターンのカテ
コゝり名を出力端子110へ出力する。
以上の説明では各処理をハード的に行なう場合について
説明したが、各処理をソフト的に行々うことも当然可能
なものである。
(発明の効果) 以上、詳細に説明したように本発明によれば、入力音声
のスペクトル正規化後の特徴ベクトルから窓ベクトルを
求め、窓ベクトルをスムージング処理し、前記スペクト
ル正規化後の特徴ベクトルにスにクトル窓として乗算し
てからローカルピークベクトルを算出しているため、雑
音によるローカルビークを音声のローカルビークと誤る
ことがなく、各標準パターンとの類似度計算処理、判定
処理において精度の高い処理が行なわれ、その結果認識
精度の良い音声認識装置が実現できる。
【図面の簡単な説明】
第1図は本発明の1実施例の構成を示すブロック図、第
2図は従来の音声認識方法のフローチャート、第3図は
従来の入力信号の2値化を説明するための図、第4図は
本発明の一実施例の周波数分析に用いるバンドパスフィ
ルタの周波数特性図、第5図は本発明のローカルピーク
ベクトル算出部の構成を示すブロック図、第6図(、)
〜(、)は本発明における入力音声のローカルピークベ
クトル抽出の過程を説明するだめの図である。 102・・・周波数分析部、103・・・フレーム電力
算出部、104・・・音声区間検出部、105・・・ス
ペクトル正規化部、106・・・ローカルピークベクト
ル算出部、107・・・類似度計算部、108・・・標
準パターンメモリ、109・・・判定部、502・・・
2値化演算部、503・・・スムージング部、504・
・・乗算演算部、505・・・極大値抽出部 特許出願人  沖電気工業株式会社 2F4 明(<イ&6*)’J ↓atx 4第1図 第2図 B 4ト2イ直化−免明図 第3図 手続補正書(師) 1.事件の表示 昭和60年 特 許 願第224878号2、発明の名
称 音声認識方法 3 補正をする者 事件との関係       特 許 出 願 人任 所
(〒105)  東京都港区虎ノ門1丁目7番12号名
称(029)   S中電気工ii暑末式会社代表者 
      取締役社長橋本南海男4代理人 住 所(〒105)  東京都港区虎ノ門1丁目7it
12号6、補正の内容  別紙の通シ ロ補正の内容 (1)明細書第7頁第17行目の式を下記のように補正
する。 al ”” (ai1+ aj21 ””” ! ”K
)(2)同書同頁第19行目に [al” Ha2−−− + akJとあるのを「aj
 、 a、2・・・・・・、a、に4と補正する。 (3)同書第10頁第6行目から第7行目に(V [正規化データz1  の入力端子、]とあるのを「正
規化データzlkの入力端子、」と補正する。 (4)  同書同頁第15行目に r W’ ”” (VIH’ + Wl” + ”・+
 Wlkp ”’ + 、k」とあるのを[Wi=(W
1′、W1′、・・・、w、に、・・・、WlK)」と
補正する。 (5)同書同頁下から第1行目に [ここでWl、V/’+・・、Wkは]とあるのをr 
      l            +「ここでW
1′、W1′、・・・、 WiKは」と補正する。 (6)  同書第13頁の(8)式を下記のように補正
する。

Claims (1)

  1. 【特許請求の範囲】 1、所定周期の音声フレーム毎に入力音声を周波数分析
    し入力音声の周波数成分のベクトルとしての特徴ベクト
    ルを抽出する処理と、 入力音声の前記特徴ベクトルを当該特徴ベクトルの属す
    る音声フレームにおける最小二乗近似直線を用いてスペ
    クトル正規化しスペクトル正規化特徴ベクトルを抽出す
    る処理と、前記スペクトル正規化特徴ベクトルの各成分
    について当該成分が正であれば“1”として0以下の場
    合は“0”として変換した2値の各成分からなる窓ベク
    トルを抽出する処理と、 前記窓ベクトルをスムージングしスムージング窓ベクト
    ルを抽出する処理と、 前記スペクトル正規化特徴ベクトルの各成分と前記スム
    ージング窓ベクトルの各成分との積を算出し窓のかかっ
    た特徴ベクトルとして抽出する処理と、 前記窓のかかった特徴ベクトルについて周波数方向に極
    大値の有無を判定し極大値すなわちローカルピークとな
    るチャネルに対応する成分を“1”としその他を“0”
    とする2値のローカルピークベクトルに変換する処理と
    、 入力音声の前記ローカルピークベクトルの時系列と予め
    用意された複数の標準パターンとの類似度計算を行ない
    入力音声のカテゴリーを判定する処理とを有することを
    特徴とする音声認識方法。
JP22487885A 1985-09-26 1985-10-11 音声認識方法 Granted JPS6286399A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP22487885A JPS6286399A (ja) 1985-10-11 1985-10-11 音声認識方法
US06/909,957 US4852181A (en) 1985-09-26 1986-09-22 Speech recognition for recognizing the catagory of an input speech pattern
EP86113175A EP0219712B1 (en) 1985-09-26 1986-09-25 Method of and system for speech recognition
DE8686113175T DE3683343D1 (de) 1985-09-26 1986-09-25 Verfahren und einrichtung zur spracherkennung.
US07/295,194 US4918735A (en) 1985-09-26 1989-01-09 Speech recognition apparatus for recognizing the category of an input speech pattern

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22487885A JPS6286399A (ja) 1985-10-11 1985-10-11 音声認識方法

Publications (2)

Publication Number Publication Date
JPS6286399A true JPS6286399A (ja) 1987-04-20
JPH0448400B2 JPH0448400B2 (ja) 1992-08-06

Family

ID=16820582

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22487885A Granted JPS6286399A (ja) 1985-09-26 1985-10-11 音声認識方法

Country Status (1)

Country Link
JP (1) JPS6286399A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0553599A (ja) * 1991-08-28 1993-03-05 A T R Jido Honyaku Denwa Kenkyusho:Kk 話者適応化方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0553599A (ja) * 1991-08-28 1993-03-05 A T R Jido Honyaku Denwa Kenkyusho:Kk 話者適応化方式

Also Published As

Publication number Publication date
JPH0448400B2 (ja) 1992-08-06

Similar Documents

Publication Publication Date Title
US7711123B2 (en) Segmenting audio signals into auditory events
CA1172363A (en) Continuous speech recognition method
CN109829515B (zh) 一种音频指纹匹配方法以及音频指纹匹配装置
EP0074822B1 (en) Recognition of speech or speech-like sounds
JPS6128998B2 (ja)
Gajic et al. Robust speech recognition using features based on zero crossings with peak amplitudes
JPS6286399A (ja) 音声認識方法
JPS628800B2 (ja)
JPH0556520B2 (ja)
JP2992324B2 (ja) 音声区間検出方法
Maka Audio content analysis based on density of peaks in amplitude envelope
JPS61230199A (ja) 音声認識方法
JPH0114599B2 (ja)
JPH0424717B2 (ja)
Barger et al. A comparative study of phonemic recognition by discrete orthogonal transforms
Cao et al. Voice activity detection algorithm based on entropy in noisy environment
JPS5811998A (ja) 音声認識装置
JP3450972B2 (ja) パターン認識装置
CN116229988A (zh) 一种电力调度系统人员声纹识别鉴权方法、系统及装置
JPH041916B2 (ja)
JPH0311479B2 (ja)
JPH0311480B2 (ja)
JPH0451840B2 (ja)
JPS6258515B2 (ja)
JPH035595B2 (ja)