JPS62279400A

JPS62279400A - 音声認識方法

Info

Publication number: JPS62279400A
Application number: JP61122289A
Authority: JP
Inventors: 広之野戸; 森戸　試; 田部井　幸雄
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1986-05-29
Filing date: 1986-05-29
Publication date: 1987-12-04

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】３、発明の詳細な説明（産業上の利用分野）本発明は、音声認識方法に関し、具体的には、音声の周
波数スペクトルを各分析チャンネル当り１ビットを用い
たローカルビークパターンで表現し、その時系列を音声
特徴・ぐターンとして音声を認識する方法に関する。

（従来の技術）音声の周波数ス綬りトルの作成については、音声研究会
資料、資料番号３８１−６　（１９８１−６）、日本音
響学会において開示されている。

そこでは、音声信号を中心周波数の異なるディノタル帯
域フィルタで周波数分析し、ＬＩＮＥＲと称する２乗和
平方根によるスペクトル変換或いはＬＳ　ＦＬと称する
最小２乗近似直線差引変換によって正規化し、音声の周
波数スペクトルを作成する。

ここで帯域ごとの系をチャンネルと称する。

ローカルビーク・ぐターンを用いた音声認識については
、沖電気研究開発、Ｖｏｌ　５３　、Ａ　２　、　ＰＰ
６ｌ−６６、昭和６１年４月において開示されている。

そこでは、正規化した後の周波数スペクトルの極大位置
に着目し、正の値をもち且つ隣接チャンネルとの間で極
大と°なるチャンネルに対して２値情報の一方（１）で
表現し、又負の値をもつもしくは極大とならないチャン
ネルに対して他方（０）で表現してローカルビーク・ぐ
ターンを作成し、その時系列を音声特徴・ぐターンとし
て用い、音声認識を行なう。

（解決すべき問題点）前述のローカルビークパターンは、例えば分析チャンネ
ルとして２０個の帯域を設定した場合２０ビットで表現
される。

しかし、ローカルビーク・ぐターンにおいては、ビーク
の隣りはビークでないので、換言すれば（１）が連続す
るパターンは存在しないので、標準音声の・セターンと
しては更に圧縮して記憶できる可能性が内在する。

（問題点を解決するための手段）標準音声のローカルビーク／Ｊターンの４ビット毎に３
ビットに圧縮してその圧縮・ぐターンを予め記憶してお
き、圧縮・ぐターンの３ビット毎に元の４ビットの・ぐ
ターンに逆変換して元のローカルビークツクターンを作
成り、ローカルビークツクターンを時系列要素とする音
声特徴・２ターンに基づいて未知音声を認識する。

次の表は標準音声におけるローカルピークパターンの４
ビットと圧縮パターンの３ビットとの対応関係を示す一
例である。

但し、ｂｏ、　ｂｌ、　ｂ２．　ｂ３はローカルビーク
ツやターンにおける４ビット毎の任意の部分・ぐターン
であって周波数の低い順（又は高い順）にサフィクスを
付したもの、ｃｏ　＋　Ｃ＋　＋　０２は圧縮・ぐター
ンにおける同様のものである。

なお、ローカルビーク／Ｊターンを４ビット毎に分割し
た部分ツヤターンは、（］）が連続しないものとして８
通りのみ存在するので、対応関係は前述の表による必要
はなく、８通りの４ビット部分・ぐターンを択一的に３
ビットの８通りの部分・ぐターンに、論理回路やメモリ
によって、対応させればよい。

（作用）例えば、２０チヤンネルで帯域分析した場合、現でき、
それらを時系列要素したもので標準・ぐターンを記憶し
ておくため、記憶容量が節約できる。

（実施例）第１図は本発明の一実施例を示すブロック図である。

第１図を参照するに、端子３０１から入力された音声信
号Ｉは、前処理部３０２において４　ｋＨｚの低域通過
フィルタでろ波され、１０　ｋＨｚでサンプルホールド
され、ディノタル信号へ変換され、中心周波数２５０Ｈ
ｚ〜４　ｋＨｚまでの１１５オクタ一ブ間隔の２０チヤ
ンネルで、尖鋭度Ｑ＝＝６の巡回型ディノタルフィルタ
によって周波数分析され、その分析出力の絶対値の対数
値を１２８サンプルずつ加算平均したものに変換され、
それを１フレ一ム長分としてマイクロプロセッサ３０３
へ送られる。

マイクロプロセッサ３０３は、ローカルピークパターン
を計算作成する。

第２図を参照するに、ｐｌは、前処理部３０２の出力で
あって、スペクトル正規化途中の１フレ一ム分２０チャ
ンネルの特徴量Ｙｊ（ｊ＝１〜２０）からなるスペクト
ルを示していて、マイクロプロセッサ３０３は、このス
ペクトルｐ１に対して誤差の２乗和が最小となる最小２
乗近似直線ｐ２を計算し、この直線ｐ２の値をＹｊのお
のおのから減算することにより正規化後の特徴量Ｚ、か
らなるスペクトルｐ５を得る。正規化後の特徴量ｚＪの
うちで、正の値をとり且つピークとなるチャンネルを測
定し、ピークを（１）とし且つ他を（０）とした２０ビ
ットのローカルビーク・ぐターンｐ３を計算作成する。

標準音声を記憶する場合、このローカルビークパターン
ｐ３は、変換装置３０４へ与えられ、その４ビット毎の
部分／Ｐターンを３ビットの部分パターンに圧縮変換し
た後、標準・２ターン記憶装置３０５へ送られ、Ｉ５ビ
ットの圧縮パターンを時系列要素した標準パターンが記
憶される。

第３図は、変換装置３０４の回路図を４ビット分の部分
について示したものであり、標準音声の各フレーム長の
ローカルピーク／？ターンの各４ピツ　　ト　毎　に　
、ｃ２＝ｂ５＋（ｂ２＋ｂ１）・ｂｏ＋ｂ１０１　＝ｂ２
　＋ｂ１ｃ、）＝ｂ、）＋（ｂ２＋ｂ１）　−ｂｏ＋ｂ１なる論
理演算を実行し、前述の表に対応した各３ビントノやタ
ーンに変換する。

音声認識においては、音声人カニとして未知音声を与え
、そのローカルピーク／Ｆターンを時系列要素とする未
知パターンを未知−９ターン記憶装置３θ６に一旦記憶
する。

又標準・（ターン記憶装置３０５から標準・ぞターンを
読み出し、その時系列要素である圧縮・ぞターン毎に、
逆変換装置３０７において各３ビア　ト／’９ターンを
元の４ビノトハターンに逆変換し、元のローカルビーク
・ぐターンを時系列要素とする標準・ぐターンを作成し
、未知・ぐターン記憶装置３０６から読み出した未知パ
ターンとの類似度を測定することによって、マイクロプ
ロセッサ３０３から端子３０Ｂへ認識結果Ｒを出力する
。

第４図は逆変換装置３０７の回路図を３ビット分の部分
について示したものであり、ｂ　ｓ　”　Ｃ２°Ｃ４’　Ｃ１１）２＝＝ｃ、　’　Ｃ。

ｂｌｏＣｌｏＣｏ１）ａ＝：Ｃ４’　Ｃ１°Ｃ２なる論理演算を実行し、前述の表に対応した元の４ビッ
トパターンを作成し、ローカルビーク・ぐターンを時系
列要素とする標準・２ターンをマイクロプロセッサへ送
る。

（発明の効果）以上の説明から明らかなように、本発明では４ビットを
３ビットに圧縮して標準パターンを記憶するため、記憶
容量が節約できる。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図、第２図は
第１図の説明に用いる音声・ぐターンの説明図、第３図
は第１図の変換装置の部分的回路図、第４図は第１図の
逆変換装置の部分的回路図である。３０２・・・前処理部、３０３　・マイクロプロセッサ
、３０４・・・変換装置、３０５・・・標準パターン記
憶装置、３０６・・未知・ぞターン記憶装置、３０７・
・・逆変換装置。特許　出　願人　沖電気工業株式会社膏先捉診＼侠１のフ゛コ・７り図第１図１々虐ＩＩＩ　　ＴＯｏ　　０００　１００　１１０　　ｐ４
１忌にも矛バ７ソ　ｔさｉｇ　図委慣伎１の回路２第３図仲冬璋襲支１の可ミフ第４図手続補正書（自発）ｌ　事件の表示昭和６１年　特　許　願第１２２２８９号２、発明の名
称音声認識方法３、補正をする者事件との関係　　　　　　特　許　出　願　大佐　所（
〒１０５）　　東京都港区虎ノ門１丁目７番１２号住　
所（〒１０５）　　東京都港区虎ノ門１丁目７＠１２号
５、補正の対象　明細書中「発明の詳細な説明」の欄６
、補正の内容（１）明細書第５頁の表を下記のように補正する。表（２）　　同書第６頁第８行目に「時系列要素したもの
で」とあるのを「時系列要素としたもので」と補正する。（３）　　同書同頁第２０行目から第７頁第１行目に「
絶対値の対数値を・・・変換され、」とあるのを「絶対値を１２８サンプルずつ加算平均したものの対数
値に変換され、」と補正する。（４）　　同書第８頁第１行目から第２行目に「時系列
要素した」とあるのを「時系列要素とした」と補正する。（５）　　同書第９頁第７行目の式を下記のように補正
する。ｂ３”Ｃ２”　１　”　０（６）　　同薔同頁第１０行目の式を下記のように補正
する。ｂ＝ｃ　　　憂　　欅　Ｃ（７）図面「第２図」を別紙の通り補正する。

Claims

【特許請求の範囲】未知音声の周波数スペクトルと標準音声の周波数スペク
トルとを、共に各周波数分析チャンネル当り１ビットを
用いたローカルピークパターンで表現し、未知音声のロ
ーカルピークパターンの時系列と標準音声のローカルピ
ークパターンの時系列との類似度を測定することによっ
て未知音声を認識する方法において、前記標準音声のローカルピークパターンの４ビット毎に
３ビットに圧縮した圧縮パターンを予め記憶しておき、その圧縮パターンの３ビット毎に元の４ビットのパター
ンに逆変換して標準音声の前記ローカルピークパターン
を作成する処理過程を備え、当該ローカルピークパター
ンの各４ビットパターンにおける２値情報の一方（１）
が連続しない８通りのパターン（００００、０００１、
００１０、０１００、０１０１、１０００、１００１、
１０１０）を、圧縮パターンの各３ビットパターンにお
ける８通りのパターン（０００、００１、０１０、０１
１、１００、１０１、１１０、１１１）に択一的に対応
させていること、を特徴とした音声認識方法。