JPS6225799A

JPS6225799A - 音声認識装置

Info

Publication number: JPS6225799A
Application number: JP16619185A
Authority: JP
Inventors: 納田　重利
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1985-07-27
Filing date: 1985-07-27
Publication date: 1987-02-03

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕この発明は、例えば話者の音声を単語単位で認識するの
に通用される音声認識装置に関する。

〔発明の概要〕

この発明は、音声認識装置において、種々の原因により
変動するスペクトルの傾向を補正するための傾向値を算
出し、この傾向値に基づいてスペクトルの傾向を平坦化
することにより話者の個人差や周囲のノイズ等に影響さ
れることがないようにして認識率の向上を図ると共に、
二値化処理を行うことによりメモリ容量を低減させ、計
算処理時間を短縮するようにしたものである。

〔従来の技術〕

従来の音声認識装置としては、例えば音声入力部として
のマイクロホン、前処理回路、音響分析器、特徴データ
抽出器、登録パターンメモリ及びパターンマツチング判
定器等により構成されるものが知られている。

この音声認、爪装置：よ、マイクロホンから入力される
音声信号を前処理回路において、音声認識に必要とされ
る：汁域に制限Ｌ、Ａ／Ｄ変換変換器上りディジタル音
声信号とし、このディジタル音声信号を音響分析器に供
給する。

そして、音響分析器において、音声信号を周波数スペク
トルに変換し、例えば対数軸上で一定間隔となるように
Ｎ個の周波数を代表値とする周波数スペクトルを得、フ
レーム周期毎にＮチャンネルのスペクトルデータにより
構成されるフレームデータを特徴データ抽出器に供給す
る。　特徴データ抽出器は、隣り合うフレームデータの
距離を計算し、夫々のフレーム間距離の総和により、音
声信号の始端フレームから終端フレームまでのＮ次元ヘ
クトルの軌跡長を求める。最も語数が多く長い音声の場
合に特徴を抽出するのに必要な所定の分割数でもって軌
跡長を等分割し、その分割点に対応したフレームデータ
のみを特徴データとして抽出する。

この特徴データを登録時においては、登録パターンメモ
リに供給して登録特徴データプロ、り（標準パターン）
として記憶し、：、Ｕ、識時にノ３いては、入力音声信
号を前述した処理により、入力特徴データブロック　（
入カバターン）とし、パターンマツチング判定器に供給
する。そしてパターンマツチング判定器において、入力
特徴データプロ７りと登録特徴データブロックとの間で
パターンマツチングを行う。

パターンマツチング判定器は、登録特徴データブロック
を構成するフレームデータと入力特徴データブロックを
構成するフレームデータとの間でフレーム間距離を計算
し、フレーム間距離の総和をマツチング距離とする。他
の登録特徴データブロックに関しても同様にマツチング
距離を算出して、マツチング距離が最小で十分に距離が
近いものと判断される登録特徴データプロ、りに対応す
る単語を認識結果として出力する。

〔発明が解決しようとする問題点〕

しかし、音声信号の周波数スペクトルは話者の個人差及
び周囲ノイズ等の混入によってその傾向が大きく変化す
るもので、このＩＩＵ向を正規化しないと認識率が極め
て低下する。

例えば第６図Ａに示すフレームデータが第６図Ｂ示すよ
うなスペクトル傾向を持つノイズにより変形され、第６
図ＣＱこ示すようなフレームデータとされたとする。パ
ターンマツチング判定器において、第６図Ａに示すフレ
ームと第６図Ｃに示すフレームとの距離が求められると
、そのフレーム間距離は大きな値として計算され、マツ
チング距離が大きな誤差を含んだものとされて誤認識さ
れる可能性が高くなる。このため、スペクトルの傾向変
動を補正して、話者の個人差や周囲ノイズに影響される
ことがないようにスペクトルの傾向を平坦化（正規化）
することが提案されている。

例えば最小二乗法等でスペクトル傾向を一次関数で推定
し正規化する手法や所定のチャンネル幅間で部分的に平
均化した補正関数で正規化する手法が稈茎されている。

しかしながら、前者の場合は、計算が複雑なばかりか傾
向が曲線を描く場合に適用することができず、また、後
者の場合コ、１、スペクトルエンヘロープがなめらかな
場合に適用することができない欠点を有するものであっ
た。

従って、この発明の目的は、簡単でかつ高速に任意のス
ペクトル傾向を正確に正規化することができる手段を有
した音声認識装置を提供することにある。

また、従来の音声認識装置においては、音響分析器から
出力されるフレームデータが特徴データ抽出器を介して
そのまま登録特徴データプロ、りとして登録パターンメ
モリに記憶されるため、登録パターンメモリのメモリ量
が膨大なものとなる問題点があった。これと共に、パタ
ーンマツチング時においても、データ量に応じてその計
算処理時間が長くなる問題点があった。

従って、この発明の他の目的は、フレームデータを二値
化することにより、登録パターンメモリの容量を低減で
き、また、マツチング処理時間の短縮を図ることができ
る音声；、２．爪装置を提供することにある。

！問題点を解決するための手段〕この発明は、複数チャンネルの周波数スペクトルに変換
され、？Ｍ数数十ヤンネル周波数スペクトルの時系列デ
ータが入力される音声認識装置において、時系列データの各フレームのスペクトルデータ乙こ関し
て所定のチャンネルより低い全てのチャンネルのスペク
トルデータの第１の平均値を算出すると共に、所定のチ
ャンネルより高い全てのチャンネルのスペクトルデータ
の第２の平均値を算出し、第１の平均値と第２の平均値
との平均値を所定チャンネルにおける傾向値として算出
し、傾向値又は適当なオフセットが付加された傾向イ直
を基準レベルとして二値化処理を行うことを特徴とする
音声；忍識装置である。

Ｊ作用］スペクトルの傾向を正規化する手段としてスペクトル傾
向正規化器６が設けられると共に、二値化回路８が設け
られ、スペクトル傾向正規化器６において、時系列フレ
ームデータのフレーム毎に、チャンネルｌから所定のチ
ャンネルｎ（１≦ｎ≦Ｎ）までのスペクトルデータの平
均値が求められると共に、所定のチャンネルｎから最大
チャンネルＮまでのスペクトルデータの平均値が求めら
れ、夫々の平均値の更に平均値が求められて所定のチャ
ンネルｎに関する傾向値とされ、各チャンネルのスペク
トルデータと対応する傾向値との間において夫々減算処
理がなされることにより［６１有の特徴的なスペクトル
データが保存されながら、スペクトル傾向が平坦化され
る。二値化回路８において、スペクトルデータが二（直
データとされ、この二値データが登録パターンメモリ１
０及びパターンマツチング判定器１１に供給され、この
二値データに基づいてパターンマツチングが行われる。

〔実施例］以下、この発明の一実施例を図面を参照して説明する。

第１図は、この発明の一実施例を示すもので、第１［ｆ
ｆｌにおいて１が音声入力部としてのマイクロホンを示
している。

マイクロホン１からのアナログ音声信号がフィルタ２に
供給される。フィルタ２は、例えば力。

トオフ周波数７．５Ｋ）Ｉｚのローパスフィルタであり
、音声信号がフィルタ２において、音声認識に必要とさ
れる７、５ＫＨｚ以下の帯域に制限され、この音声信号
がアンプ３を介してＡ／Ｄ変換器４に供給される。

ノ＼／Ｄ変換器４は、例えば、サンプリング周波数１２
．５ＫＨｚで動作するＡ／Ｄ変換器である。音声信号が
Ａ／Ｄ変換器４において、アナログ−ディジタル変換さ
れて、８ビツトのディジタル信号とされ、音響分析器５
に供給される。

音響分析器５は、音声信号を周波数スペクトルに変換し
て、例えばＮチャンネルのスペクトルデータ列を発生す
るものである。音響分析器５において、音声信号が演算
処理により周波数スペクトルに変換され、例えば、対数
軸上で一定間隔となるＮ個の周波数を代表値とするスペ
クトルデータ列が得られる。従って、音声信号がＮチャ
ンネルの離散的な周波数スペクトルの大きさによって表
現される。そして、単位時間（フレーム周期）毎にＮチ
ャンネルのスペクトルデータ列が一つのフレームデータ
として出力される。即ち、フレーム周期毎に音声信号が
Ｎ次元ヘクトルにより表現されるパラメータとして切り
出され、スペクトル傾向正規化器６に供給される。

例えば、音声区間の終端に対応するフレームを１とした
場合、第２図に示すように、各々がチャンネル１〜チヤ
ンネルＮのデータにより牟黄成されるフレームデータが
１フレームからＩフレームまでスペクトル傾向正規化器
６に供給される。

スペクトル傾向正規化器６は、傾向値計算回路１２及び
減算器１３により構成されている。このスペクトル傾向
正規化器６において、順次供給されるフレームデータ毎
にスペクトルデータの傾向正規化処理がなされる。

傾向イ直計算回路１２において、フレームデータを構成
する各チャンネルのスペクトルデータに関して傾向変動
を補正する傾向値Ｆ７が下記の式により算出さｎる。

２（Ｎ＋１−ｎ）　　・ｎつまり、チャンネルｌから所定のチャンネルｎ（ｌ≦ｎ
≦Ｎ）までのスペクトルデータの平均値が求められると
共に、所定のチャンネルｎから最大チャンネルＮまでの
スペクトルデータの平均値が求められる。史に夫々の平
均値の平均値が求められ、この平均値が傾向値Ｆ、、と
される。Ｎ個の傾向（直データが減算器Ｘ３に供給され
る。

減算？ｉ１３において、各チャンネルのスペクトルデー
タと対応する傾向イ直データとが減算される。

この減算処理によりスペクトル傾向が平坦化され、話者
の個人差及び周囲ノイズ等に影響されることがないよう
にスペクトル傾向が正規化される。１フレームからＩフ
レームまで全てのフレームに関して同様に傾向正規化処
理がなされ、傾向正規化されたフレームデータが特徴デ
ータ抽出器７に供給される。

特徴データ抽出器７において、隣り合うフレームデータ
の距離が３１算される。例えば、各チャンネルに関して
スペクトルデータの差の絶対値が夫々求められ、その総
和がフレーム間距離とされる。

更に、フレーム間距離の総和が求められ、音声信号の始
端フレームから終端フレームまでのＮ次元ヘクトルの軌
跡長が求められる。そして最も語数が多く長い音声の場
合に特徴を抽出するのに必要な所定の分割数でもって軌
跡長が等分割される。

分割点の夫々に対応したフレームデータのみが特徴デー
タとして抽出され、話者の音声の発生速度変動に影響さ
れることがないように時間軸が正規化される。

特徴データ抽出器７により抽出されたフレームデータが
二値化回路８に供給される。二値化回路８は、入力端子
１４を有しており、入力端子１４を介して適当に設定さ
れた基【Ｖレベルデータが供給される。この基準レベル
データとフレームデータを構成する夫のスペクトルデー
タとの比較がなされ、ＩＱレレベデータより大きな値の
スペクトルデータが「１」とされ、基準レベルデータよ
り小さな値のスペクトルデータがｒＯＪとされて二値化
される。この二値データがモード切替回路９に供給され
る。

この二値データが登録時においては、モード切替回路９
を介して登録パターンメモリ１０に供給され、Ｑ録特徴
データブロックとして記憶される。゛認識時においては
、入力音声信号が前述した処理により二値データ（入力
特徴データブロック）とされ、この二値データがパター
ンマツチング判定器１１に供給される。入力特徴データ
ブロックと全ての登録特徴データブロックとの間におい
て、パターンマツチングが行われる。

即ち、パターンマツチング判定器１１において、登録パ
ターンメモリ１０から順次供給される登録特徴データブ
ロックを構成するフレームと入力特徴データブロックを
構成するフレームとの間において、フレーム間距離が求
められ、その総和がマツチング距離とされる。そして全
ての登録特徴データブロックに関して求められたマツチ
ング距離のうちで最小でかつ十分に距離か近いものと判
断される登録特徴データブロックに対応する単語が認識
結果とされる。

上述のこの発明の一実施例におけるスペクトル傾向正規
化器６の動作を第３図に示すフローチャートを参照して
説明する。

音響分析器５から順次フレームデータがスペクトル傾向
正規化器６に供給され、各フレーム毎にステップ■〜■
の処理が行われる。

まず、チャンネル番号を示す変数ｎが１に初期設定され
る（ステップ■）。ステップ■において、チャンネル１
に関する補正関数の計算処理がなされ、（中間変動を補
正する傾向値Ｆ１が２　　（Ｎ＋１−１）　　・１により求められる。

そして、正規化処理がステップ■においてなされ、チャ
ンネル１のスペクトルデータＳ１から傾同値Ｆ１が減算
され、この減算結果がチャンネル１のスペクトルデータ
Ｓ１　とされる。

スう−／プ■に王９いて、ナヤン不ル番号を示ス変故【
Ｉと最大チャンネル数Ｎとの比較がなされ、ｎが・イン
クリメントされて（ｎ−２）　　（ステップ■）とさね
、チャンネル２に関する計算処理に移行する。

傾向変動を補正する傾向値Ｆ２かにより求められ（ステップ■）、チャンネル２のスペク
トルデータＳ２から傾向値Ｆ２が減算され、この減算結
果がチャンネル２のスペクトルデータＳ２とされる。（
ステップ■）。

史にｎがインクリメントされながら、上述したスラーノ
ブ■〜■の処理が繰り返し行われ、所定チャンネルに関
しての傾向値Ｆ、、かにより求められ（ステップ■）、所定チャンネルのスペ
クトルデータＳ、から傾向値Ｆ７が減算され、この減算
結果が所定チャンネルのスペクトルデータＳ、、とされ
る。チャンネル番号を示す変数ｎが最大チャンネル数Ｎ
とされ、最大チャンネルに関して傾向正規化処理がなさ
れると、一つのフレームに関する計算が終了する。

例えば、第４図Ａに示すようなチャンネル１〜チヤンネ
ル１６の１６（囚のスペクトルデータ夕により構成され
、各チャンネルのスペクトルデータの大きさが（８，１
２，１６，１７，１２，１４，１８，１６，１２゜１０
、　６．１２．　９．　８．　６．　５　）とされるフ
レームデータについて説明する。このフレームデータの
場合には、上述の処理によりチャンネル１〜チヤンネル
１６までの傾向値Ｆ、、は第４図Ｂに示すものとなる。

この（中間イ直Ｆ。を基準としてスペクトルデータが平
坦化され、傾向正規化されたスペクトルデータは、第４
図Ｃに示すものとなる。このように全てのフレームに関
して傾向正規化処理がなされ、固有の特徴的なスペクト
ルデータが保存されながらスペクトル傾向が平坦化され
る。

また、第４［ＪＣに示す傾向正規化処理がなされたフレ
ームデータが特徴データ抽出器７を介して二値化回路８
に供給されると、基準レベルにより二値化され、（０，
１，１，１，０，１，１，１，０，０，０，１，０，０
，帆Ｏ）の二値データとされる。

第５図は、この発明の他の実施例を示し、二値化回路８
において、スペクトルの傾向正規化処理と二値化処理を
同時に行う構成とされ、上述の一実施例と対応する部分
には、同一の符号が付されている。音響分析器５から順
次フレームデータが傾向値計算回路１２に供給される。

傾向値計算値路１２において、フレームデータを構成す
る各チャンネルのスペクトルデータに関する傾向変動を
補正する傾向値Ｆ、が算出され、傾向値データが加算器
１５に供給される。加算器１５には、入力端子１６から
適当に設定されたオフセットデータが供給される。加算
器１５において、傾向イ直データとオフセットデータと
の加算処理がなされ、この加算結果がｗ準しベルデータ
として二値化回路８に供給される。

二値化回路８において、基準レベルデータとフレームデ
ータを構成する夫のスペクトルデータとの比較がなされ
、基準レベルデータより大きな値のスペクトルデータが
「１」とされ、基準レベルデータより小さな値のスペク
トルデータが［０謬とされて二値化され、この二値デー
タがモード切替回路９に供給される。

この二値データが登録時においては、モード切替回路９
を介して登録パターンメモリ１０に供給され、登録デー
タブロックとして記憶される。認識時においては、入力
音声信号が前述した処理を経ることにより二値データと
され、この二値データがパターンマツチング判定器１７
に供給され、入力データブロックとされる。

パターンマツチング判定器１７において、話者の音声の
発生速度変動によるデータブロックの構成フレーム数の
増減を吸収する例えばＤＰマツチングにより、登録デー
タブロックと入力データプロ・７りとのマツチング距離
が算出される。そして、全ての登録データブロックに関
して求められた７７チング距離のうらで最小でかつ十分
距離が近いものと判断される登録データブロックに対応
する単語が認識結果とされる。

面、この発明の他の実施例においては、傾向値データに
オフセットデータを加算する構成について説明したが、
スペクトルデータからオフセットデータを減算する構成
とし、傾向値データを基準レベルデータとして二値化回
路に供給して二値化処理を行うようにじでも良い。また
、この発明は、ハードワイヤードの構成に限らず、マイ
クロコンピュータ又はマイクロプログラム方式を用いて
ソフトウェアにより処理を行うようにしても良い。

〔発明の効果］この発明では、スペクトルの傾向を正規化することによ
り、同右の特徴的なスペクトルデータが保存さね７なが
ら、スペクトル傾向が平坦化される。

また、この発明では、二値化回路において、スペクトル
データが二値データとされ、この二値データが登録パタ
ーンメモリ及びパターンマツチング判定器に供給され、
この二値データに基づいてパターンマツチングが行われ
る。

従って、この発明に依れば、簡単でかつ高速に任意のス
ペクトル傾向を正も育に正規化することができ、計算処
理時間が短縮されると共に認識率が向上される。

また、この発明に依れば、フレームデータのスペクトル
の傾向が正規化されているためフレームデータを正確に
二値化することができ、例えば１個のスペクトルデータ
が８ビツトで表される場合には、登録パターンメモリの
容けを１／８に低減できると共に、マツチング処理時間
が大幅に短４ｊ６される。

【図面の簡単な説明】

第１図はこの発明の一実施例の構成のプロ、りＭ、第２
図はこの発明の一実施例における時系列フレームデータ
のデータ構成の説明に用いる路線図、第３図はこの発明
の一実施例におけるスペクトル傾向正規化器の動作説明
に用いるフローチャート、第１図Ａ、第４図Ｂ及び第４
図Ｃはこの発明の一実施例におけるスペクトル傾向正規
化器の動作説明に用いる路線図、第５図はこの発明の他
の実施例の構成のブロック図、第６図は従来の音声認識
装置の説明に用いる路線図である。図面における主要な符月の説明ｌ：マイクロホン、　　５：音響分析器。６：スペクトル傾向正規化器。７：特徴データ抽出器。８：二値化回路、　　９：モード切替回路１０：登録パ
ターンメモリ。１１．１７：パターンマツチング判定器。代理人　　　弁理士　杉　浦　正　知Ｕ平東ｆづ７Ｌ−ム予・−グ第２図重カ作肯栄７ｇ月用の７０−２１・−ト第３図第４図Ａ峯し。へ１゜ル：第４図Ｂ・１　　゛第４図Ｃ

Claims

【特許請求の範囲】入力音声信号が複数チャンネルの周波数スペクトルに変
換され、上記複数チャンネルの周波数スペクトルの時系
列データが入力される音声認識装置において、上記時系列データの各フレームのスペクトルデータに関
して所定のチャンネルより低い全てのチャンネルの上記
スペクトルデータの第１の平均値を算出すると共に、上
記所定のチャンネルより高い全てのチャンネルの上記ス
ペクトルデータの第２の平均値を算出し、上記第１の平
均値と上記第２の平均値との平均値を上記所定のチャン
ネルにおける傾向値として算出し、上記傾向値又は適当
なオフセットが付加された上記傾向値を基準レベルとし
て二値化処理を行うことを特徴とする音声認識装置。