JPS6286399A

JPS6286399A - 音声認識方法

Info

Publication number: JPS6286399A
Application number: JP22487885A
Authority: JP
Inventors: 田部井　幸雄; 森戸　誠; 山田　興三
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1985-10-11
Filing date: 1985-10-11
Publication date: 1987-04-20
Also published as: JPH0448400B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は高雑音下においても高精度の認識を行うことの
できる音声認識方法に関する。

（従来の技術）従来、この種の音声認識方法として電子通信学会論文誌
、Ｊ６８−Ａ　［１〕（昭和６０年１月）ｐ、７８−８
５に記載されるものがあった。第２図は従来のローカル
ビークを用いた音声認識方法のフローチャートであり、
入力音声は、１５チヤネルのバノドパスフィルタ一群で
１．　Ｏｍ５ｅｃごとに周波数分析され（第２図の１参
照）、声帯音源特性の個人差の正規化法として、音声ス
ペクトルを振幅、周波数軸ともに対数で表わし最小二乗
近似直線を求め（第２図の２参照）、差をとって補正す
る。ただし、最小二乗近似直線の傾きが正の場合には平
均値からの差をとる。その後、第３図に示すように、各
フレーム（１０ｍ５ｅｃ　）毎にＯｄＢ以上となる各部
分について、各最大値の１．／２以上の振幅を持つもの
の中で最大値をとるチャネルをローカルピーク有りとし
て′°１”にし、他を′０″として２値化を行う（第２
図の３参照）。バンドパスフィルタのチャネル数は１５
゛であるが、］６チヤネル目に最小二乗近似直線の傾き
が負のとき有声音と見なしｌをたて、傾きが正のとき無
声音と見なし°゛０”をたて、傾斜の符号を付加する（
第２図の４参照）。

荷重平均辞書は、複数の２値化・ぐターンを時間軸上一
番長いものへ線形に伸ばして加算して多値パターンとし
て得られる（第２図の５参照）。

２値の入カバターンと多値の荷重平均辞書とのマツチン
グには、時間方向は長い方の・ぐ夕〜ンに線形に伸ばし
て合わせ、ある類似度に基づいて計算を行い、最大類似
度を与える標準パターンのカディリ名を認識結果とする
（第２図の６参照）。

（発明が解決しようとする問題点）以」二述べた従来の音声認識方法は、接話型マイク等を
用いる場合のようなＳＮ比の良い環境では有効に機能す
るが、高雑音の環境下では雑音の変動によるピークを拾
いやすく誤認識が増えるという問題点があった。

本発明は、以上述べた雑音の変動によるピークがあって
も、音声のローカルピークとの性質の違イ？　考慮した
ローカルピークベクトル算出処理を用いると表で、雑音
の変動によるピークを拾わず、雑音に対する剛性が強く
認識精度の高い音声認識方法を提供することを目的とす
る。

（問題点を解決するだめの手段）本発明による音声認識方法は、捷ず入力音声を各音声フ
レーム毎に複数チャネルの特徴ベクトルに周波数分析を
行う。

一方、入力音声の特徴ベクトルは、当該ベクトルの属す
る音声フレームにおける最小二乗近似直線を用いてスペ
クトル正規化される。前記スペクトル正規化後の特徴ベ
クトルの各成分が正であれば１とし、０以下であれば０
とする２値の窓ベクトルを算出し、前記窓ベクトルをス
ムージングを行い、その後、窓ベクトルの各成分と前記
スペクトル正規化後の特徴ベクトルの各成分との積を算
出し、前記積の取られた特徴ベクトルから周波数方向の
極太値のあるチャネルに対応する成分を１とするローカ
ルピークベクトルを算出する。そしてこの入力音声のロ
ーカルピークベクトルの時系列と予め用意された複数の
標準パ外ンとの類似度計算を行ない入力音声のカテゴリ
ーを判定するものである。

（作用）本発明は、入力音声のスペクトル正規化した特徴ベクト
ルを抽出した後、ローカルピークベクトル抽出前にスペ
クトル正規化特徴ベクトルから得られる窓ベクトルをス
ムージングしこれとスペクトル正規化特徴ベクトルとの
乗算処理を行なっている。このため、ローカルピークベ
クトル抽出時に入力雑音の変動によるピークを入力音声
のローカルｔ−りと誤って抽出することが抑制され、安
定して入力音声のローカルピークベクトルを抽出してい
る。

（実施例）第１図は本発明の一実施例を示すブロック図である。以
下、第１図に示された音声認識装置の構成及び動作につ
いて説明する。

〔入力処理〕

入力音声はマイク（図示せず）を通して電気信号に変換
され、アンプ（図示せず）、ロー１’スフイルタ（図示
せず）、を通りＮ勺変換器（図示せず）により、例えば
標本化周波数１．２　ｋＴ（ｚで標本化され、入力端子
１０１に入力される。

〔周波数分析処理〕

入力端子から入力されるディジタル値は周波数分析部１
０２において周波数分析されて、音声フレーム時系列の
特徴ベクトルに変換される。この周波数分析部１０２は
バンドパスフィルタと絶対値化演算部とローフ４スフイ
ルタとで構成される。

まず、周波数分析には、本実施例では、第４図に示すよ
うな低Ｑの特性を有するバンドパスフィルタを用いてい
る。ここではローカルビーりの安定な抽出を目的とした
だめ低Ｑのバンド／、ｏスフィルタを用いている。

各バンドパスフィルタの出力は絶対値化演算が施され、
ローパスフィルタに入力され、音声フレームの周期（本
実施例では１０ｍ５ｅｃ）ごとに再サンプルされ、特徴
ベクトルを算出する。

ｉ番目の音声フレームにおけるにチャネルのローパスフ
ィルタの出力を再サンプルした出力をａ、にとすると１
番目の音声フレームにおける特徴ベクトルａｉはａ４　＝（ａｉ＋　ａｊ２＋　”’　”’　＋　ａｉｋ
）と表現される。ここでＫはチャネル数（本実施例では
に＝２２）であり、ａ、ｑ　、　ａ、２　、、、・、、
　、　ａ、には特徴ベクトルａ、の成分である。

〔フレーム電力算出処理〕

フレーム電力算出部１０３は、音声フレーム毎に周波数
分析部１０２より出力される特徴ベクトルａ１ヲ受けて
、当該音声フレームのフレーム電力Ｐ、を次式（１）により算出する。

〔音声区間検出処理〕

音声区間検出部１０４においては、フレーム電力算出部
１０３より出力されるフレーム電力Ｐ。

を用いて音声区間検出を行う。

音声区間検出のアルゴリズムについては各種提案されて
おり、本発明はそのアルゴリズム自体が目的ではないが
、ここではフレーム電力Ｐ、が定められた閾値２８以上
、Ｔ１フレーム以上続いた始めのフレームを始端工。、
音声の始端から後でフレーム電力Ｐ、が閾値ＰＥ以下の
状態がＴ２フレーム続いた時の始めてＰ０以下となった
フレームを終端工。とじて検出する。

〔スペクトル正規化処理〕

ス被りトル正規化部１０５は周波数分析部１０２よシ出
力される入力音声の特徴ベクトルａ、を受けてまず特徴
ベクトルａｔｈの各成分ａ−を次式（２）により対数値
ｘｉ（ｋ）に対数変換する。

Ｃは、ａｉ　　のビット数とＸｉ　　のビット数から定
捷る定数である。

次に、次式（３）によって与えられる最小二乗近似直線ｙｉ−ｕｉ＋に＋ｖｉ但し、ｒ　Ｏ）を用い次式（４）のスペクトル正規化処理を行う。

ｋｋｋ　　　　・・・・・・（４）ｚｉ　−Ｘｉ　　’ｉ〔ローカルピークベクトル算出処理〕第５図に本発明によるローカルピークベクトル算出部１
０６の詳細構成を示す。

第５図において、５０１はスペクトル正規化データＺ１
（財）の入力端子、５０２ば２値化演算部、５０３はス
ムージング部、５０４は乗算演算部、５θ５は極大値抽
出部、５０６はローカルピークベクトル出力端子である
。

前記ス（りｌ・ル正規化部１０５にょシスベクトル正規
化されたデータ、ｋから、２値化演算部５０２において
次式（５）によって与えられる２値の窓ベクトルＷ、−（ｗ、’、ｗ１’、　−・・、ｗｌに、　−＝、
　ｗ−）が算出される。

（ｋはチャネル番号を表わす。）ここでＷｔ　　、ｗｉ、・・・２ｗ１　　は窓ベクトル
ｗ１の成分である。続いてスムージング部５０３によシ
窓ベクトルＷｉヲスムージンクシ、スムージング窓ベク
トルＷ、　＝　（ｗ、　’　、・・・、マ１に、・・・
、ｗ、’）を得る。

このスムージングはＷｉの成分ｗｉ　　が２チャンネル
以上続けて１とならない場合は対応するマ、にはゼロと
することにより行なわれる。

すなわち・・・０１０１．１０・・・φ・・・０００１
１０・・・のようにスムージングされる。

次に、スムージングされた窓ベクトルＷ、の各成分Ｗご
とスペクトル正規イーされたデータ２−との積が乗算演
算部５０４において次式（６）により求められる。

Ｌ　ｓ　’　＝ｚｓ　”　Ｗｔ　”　”　（６）　（但
しに＝１．　、　・、　Ｋ　）次にここで求められたり
、ｋを用いて極大値抽出部５０５により次式（７）にお
いてなる条件を満たすｋに対してはｒｋ−１、条件を満ださ
々いｋに対してはｒ、−〇なる値を成分とするローカル
ピークベクトルｒ、＝（ｒＡ、ｒ−’　−ｒｋ、・＝、　ｒ、Ｋ）１　
　　　　１１”１　　　　　　　１を算出する。ここで
ｒ、ｆ　、　ｒ、２．・・・、ｒＫはローカルピークベ
クトルｒ、の成分である。

第６図（ａ）にスペクトル正規化されたデータｚｋの例
、第６図（ｂ）に窓ベクトルＷの成分ｗｋＯ例、第６図
（ｃ）にスムージングされた窓ベクトルＷの成分ｗ、に
ノ例、第６図（ｄ）Ｋ：　ｚ、にトｗ”　（！：　）積
Ｌｋの例、第６図（ｅ）にローカルピークベクトルｒ、
の成分子１　　の例を示す。

〔類似度計算処理〕

類似度計算部１０７はローカルピークベクトル算出部１
０６から出力される入力音声のローカルピークベクトル
ｒ、の時系列を受けて標準パターンメモリー０８に格納
された全ての標準・ぐターンとの類似度計算を行なう。

ここで標準パターンは、カテゴリ毎に１個、あるいは複
数個の学習音声に対して認識を行う前に、認識時と同様
な処理によりローカルピークベクトルを算出し、時間軸
を伸縮して加算して作成しである。

すなわち標準パターンは重み付きローカルピークベクト
ルの時系列として格納される。本実施例では標準パター
ンの数をＭとする。

類似度計算部１０７において入力音声と標準・ぐターン
とのフレーム間の類似度Ｓ（ｉ　、　ｊ　）は、次式（
８）％式％ここでｒｉは第ｉフレームの入力音声のローカルピーク
ベクトル、Ｄｊは第ｊフレームの標準パターンの特徴ベ
クトル、ｒｔはｒ、の転置、Ｄ、ｔはり。

１　　　　　　１　　　　　　　　　　　　Ｊ　　　　
　　Ｊの転置を表わす。

なお、ｉ（！：ｊの対応には非線形に対応させる方法も
あるが、本実施例では線形マツチングを行い、ｍ番目の
標準パターン長を５Ｌｒｒｌとする。

このとき入力音声とｍ番目の標準パターンの類へ低度Ｓ　は次式（９）で求められる。

上述の如くして、Ｍ個の標準パターン全てに対して入力
音声との類似度ｓｍ（但しｍ＝１〜Ｍ）を算出する。

〔判定処理〕

判定部１０９は類似度計算部１０７より出力される各標
準パターンとの類似度官ｍ（但しｍ＝１〜Ｍ）を受け、
その中で最も類似度の高いものを抽出し、抽出された類
似度に対する標準パターンのカテゴリー塩を判定結果と
して識別し出力する。

即ち、この判定処理は次式０・で表わされる処理によっ
て、ｍｏ＝　ａｒｇ　　ｍａｘ　　５ｎ１−−（１０１≦ｈ
≦Ｍなるｍ。を判定し、ｍｏ番目の標準）＜？ターンのカテ
コゝり名を出力端子１１０へ出力する。

以上の説明では各処理をハード的に行なう場合について
説明したが、各処理をソフト的に行々うことも当然可能
なものである。

（発明の効果）以上、詳細に説明したように本発明によれば、入力音声
のスペクトル正規化後の特徴ベクトルから窓ベクトルを
求め、窓ベクトルをスムージング処理し、前記スペクト
ル正規化後の特徴ベクトルにスにクトル窓として乗算し
てからローカルピークベクトルを算出しているため、雑
音によるローカルビークを音声のローカルビークと誤る
ことがなく、各標準パターンとの類似度計算処理、判定
処理において精度の高い処理が行なわれ、その結果認識
精度の良い音声認識装置が実現できる。

【図面の簡単な説明】

第１図は本発明の１実施例の構成を示すブロック図、第
２図は従来の音声認識方法のフローチャート、第３図は
従来の入力信号の２値化を説明するための図、第４図は
本発明の一実施例の周波数分析に用いるバンドパスフィ
ルタの周波数特性図、第５図は本発明のローカルピーク
ベクトル算出部の構成を示すブロック図、第６図（、）
〜（、）は本発明における入力音声のローカルピークベ
クトル抽出の過程を説明するだめの図である。１０２・・・周波数分析部、１０３・・・フレーム電力
算出部、１０４・・・音声区間検出部、１０５・・・ス
ペクトル正規化部、１０６・・・ローカルピークベクト
ル算出部、１０７・・・類似度計算部、１０８・・・標
準パターンメモリ、１０９・・・判定部、５０２・・・
２値化演算部、５０３・・・スムージング部、５０４・
・・乗算演算部、５０５・・・極大値抽出部特許出願人　　沖電気工業株式会社２Ｆ４　明（＜イ＆６＊）’Ｊ　↓ａｔｘ　４第１図第２図Ｂ４ト２イ直化−免明図第３図手続補正書（師）１．事件の表示昭和６０年　特　許　願第２２４８７８号２、発明の名
称音声認識方法３　補正をする者事件との関係　　　　　　　特　許　出　願　人任　所
（〒１０５）　　東京都港区虎ノ門１丁目７番１２号名
称（０２９）　　　Ｓ中電気工ｉｉ暑末式会社代表者　
　　　　　　取締役社長橋本南海男４代理人住　所（〒１０５）　　東京都港区虎ノ門１丁目７ｉｔ
１２号６、補正の内容　　別紙の通シロ補正の内容（１）明細書第７頁第１７行目の式を下記のように補正
する。ａｌ　””　（ａｉ１＋　ａｊ２１　”””　！　”Ｋ
）（２）同書同頁第１９行目に［ａｌ”　Ｈａ２−−−　＋　ａｋＪとあるのを「ａｊ
　、　ａ、２・・・・・・、ａ、に４と補正する。（３）同書第１０頁第６行目から第７行目に（Ｖ［正規化データｚ１　　の入力端子、］とあるのを「正
規化データｚｌｋの入力端子、」と補正する。（４）　　同書同頁第１５行目にｒ　Ｗ’　””　（ＶＩＨ’　＋　Ｗｌ”　＋　”・＋
　Ｗｌｋｐ　”’　＋　、ｋ」とあるのを［Ｗｉ＝（Ｗ
１′、Ｗ１′、・・・、ｗ、に、・・・、ＷｌＫ）」と
補正する。（５）同書同頁下から第１行目に［ここでＷｌ、Ｖ／’＋・・、Ｗｋは］とあるのをｒ　
　　　　　　ｌ　　　　　　　　　　　　＋「ここでＷ
１′、Ｗ１′、・・・、　ＷｉＫは」と補正する。（６）　　同書第１３頁の（８）式を下記のように補正
する。

Claims

【特許請求の範囲】１、所定周期の音声フレーム毎に入力音声を周波数分析
し入力音声の周波数成分のベクトルとしての特徴ベクト
ルを抽出する処理と、入力音声の前記特徴ベクトルを当該特徴ベクトルの属す
る音声フレームにおける最小二乗近似直線を用いてスペ
クトル正規化しスペクトル正規化特徴ベクトルを抽出す
る処理と、前記スペクトル正規化特徴ベクトルの各成分
について当該成分が正であれば“１”として０以下の場
合は“０”として変換した２値の各成分からなる窓ベク
トルを抽出する処理と、前記窓ベクトルをスムージングしスムージング窓ベクト
ルを抽出する処理と、前記スペクトル正規化特徴ベクトルの各成分と前記スム
ージング窓ベクトルの各成分との積を算出し窓のかかっ
た特徴ベクトルとして抽出する処理と、前記窓のかかった特徴ベクトルについて周波数方向に極
大値の有無を判定し極大値すなわちローカルピークとな
るチャネルに対応する成分を“１”としその他を“０”
とする２値のローカルピークベクトルに変換する処理と
、入力音声の前記ローカルピークベクトルの時系列と予め
用意された複数の標準パターンとの類似度計算を行ない
入力音声のカテゴリーを判定する処理とを有することを
特徴とする音声認識方法。