JPS6199200A

JPS6199200A - 音声認識処理方式

Info

Publication number: JPS6199200A
Application number: JP20668784A
Authority: JP
Inventors: 佐藤　泰雄; 神田　敏恵
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1984-10-02
Filing date: 1984-10-02
Publication date: 1986-05-17

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（Ａ）産業上の利用分野本発明は、音声認識処理方式、特に未知入力音声を分析
して得られた特徴量にもとづき入力音声区間を所定数の
区間に分割し、平均化特徴量を得て認識処理を行う音声
認識処理方式において、入力音声区間における電力（パ
ワー）を抽出し、これを照合処理に利用するようにした
音声認識処理方式に関するものである。

（Ｂ）従来の技術と発明が解決しようとする問題点従来から音声認識処理に当たっては、未知入力音声を複
数のフィルタによって周波数分析して。

各フィルタ毎（チャネル毎）に特徴量を抽出するように
し、未知入力音声区間を所定数の区間に分割して区間毎
に平均特徴量を求め、標準パタンと照合をとるようにす
ることが行われていた。

しかし当該従来の方式の場合にはいわばスペクトル情報
が特徴量として利用されているに止まるものであり、未
知入力音声のパワーの推移を認識処理に利用する方式に
関しては未だ模索中であった。

（Ｃ）問題点を解決するための手段本発明は、上記の点を解決することを目的としており、
”上記パワーの推移を認識処理に利用する態様を提供す
ることを目的としている。そしてそのため１本発明の音
声認識処理方式は、未知入力音声を分析して得られた特
徴量にもとづき入力音声区間を上記特徴量の変動の大き
い部分を粗くかつ小さい部分を細か（分割し、一定数の
区間に分割した上で、上記特徴量を各区間毎に平均した
平均化特徴量を抽出するよう構成され、予め登録されて
いる標準パタンと照合して認識を行う音声認識処理方式
において、上記分割された各区間毎の平均電力を抽出す
ると共に当該抽出された平均電力のうちの最大平均電力
を抽出するよう構成してなり、上記各区間毎の平均電力
を上記最大平均電力にて正規化した所の各区間毎の正規
化平均電力を決定し、上記各区間毎に、上記平均化特徴
量に関する上記標準パタンとの距離と上記正規化平均電
力に関する上記標準パタンとの距離とを算出し。

全区間でそれぞれの荷重和を累算した照合距離を用いて
認識を行うことを特徴とし、また上記正規化平均電力を
上記各区間毎の平均化時ｆｉｆｆｉ自体内に繰り込ませ
た較正平均化特徴量を用いることを特徴とし、更にまた
上記較正平均特徴量として変形を与えたものを用いて認
識を行うようにすることを特徴としている。以下図面を
参照しつつ説明する。

（Ｄ）実施例第１図は本発明の一実施例構成を示し、第２図はパワー
を得る態様を説明する説明図を示す。

第１図において、１は周波数分析部であって複数のフィ
ルタをそなえて入力音声を周波数分析するもの、２は音
声区間検出部であって入力音声の音声区間゛を検出する
もの、３はパラメータ抽出部であって本発明にいう平均
化時＠量や正規化平均電力や較正平均化特徴量などの各
種パラメータを抽出するもの、４は切替部であって登録
モード時と認識モード時とでパラメータの転送先を切り
替えるもの、５は登録辞書部であって標準パタンを格納
しているもの、６は照合部であって距離計算を行うもの
、７は候補判定部であっていわば最も正しいと認められ
る認識結果を出力するものを表している。

本願発明の大きい特徴的構成は第１図図示パラメータ抽
出部３にあり、夫々の実施例（第１実施例、第２実施例
２第３実施例）について以下説明する。

入力音声は、第１図図示の如く周波数分析部１に供給さ
れ゛ζ周波数分析されると共に、音声区間検出部２に供
給されて音声が存在する区間（第２図図示区間Ｔ０ない
しＴｔ）について検出される。

周波数分析部１によって分析された結果や音声区間検出
部２によって検出された区間は、パラメータ抽出部３に
供給される。

パラメータ抽出部３においては９周波数分析結果の特徴
量にもとづいて、特徴量の変化の大きい部分を粗くかつ
小さい部分を細か（分割する形で。

上記区間Ｔ０ないしＴ７内を分割する。第２図図示の場
合には、第１区間（Ｔ　ｏないしＴ１）、第２区間（Ｔ
ＩないしＴ２）、第３区間（ＴｚないしＴ３）、第４区
間（Ｔ、ないしＴ４）、第５区間（Ｔ４ないしＴ、）、
第６区間（Ｔ、ないしＴ６）、第７区間（Ｔ　ｂないし
Ｔｔ　）に区分されている。

☆　第１実施例当該第１実施例は１本願特許請求の範囲第（１）項に該
当するものであると考えてよい。

第１図図示の如く周波数分析部１において複数のフィル
タによって周波数分析が行われた各ナヤネル毎に、第２
図（Ａ＞図示タイミングｔＯ＋　　ｔｌ＋ｔＺ　＋−’
−・・−においてサンプリングされ、一般に第ｉ番目の
チャネルにおけるタイミングＬにおいて、特徴量Ｘｉ　
（ｔ）が得られる。第２図（Ｂ）は第１番目から第ｉ番
目までの全チャネルについて得られている特徴量Ｘ＋（ｔ）、　Ｘｚ（ｔ）、・・・・・−・−、ＸＪ（
ｔ）を表している。

上記各チャネル毎の特徴量Ｘ、（１）について第２図図
示の区間毎に平均値が求められる。該平均値は第ｉ番目
のチャネルに対してで表される。第２図（Ｃ）は、各チャネル毎に各区間毎
の平均化特徴量Ｙ（１，１）　、　Ｙ（２，１）　、　Ｙ（３，１）　
、・−・−・−・・・Ｙ（１，２）　、　Ｙ（２，２）
　、　Ｙ（３，２）　、−・−・・−・・−Ｙ（Ｌｊ）
　、　’／（２，ｊ）　、　Ｙ（３，ｊ）　、　　−−
・−・−・を表している。

一方上記各チャネル毎の特徴％１Ｘｉ（ｔ）を全チャネ
ルにわたって累算し、各サンプリング点毎のパワーＰ袈
（１）を得ており、当該パワーＰｗ　（ｔ）を各区間毎に平均
して平均電力ＰＫ（ｎ）Ｔｎ　　−Ｔｙｌ−１ｔ＝Ｔ＋１−＋を得る。第２図（Ｄ）の上半は上記パワーＰｗ（ｔ）を
表し、第２図（Ｄ）の下半は上記平均電力Ｐｗ（ｎ）を
表している。

上記の如く得られた各区間毎の平均電力Ｐ　ｗ　（ｎ）
のうち最大値をＰ匈（ｎ　ｍａｘ）とし、正規化平均電力Ｐｗ’　（ｎ）を得る。

第１実施例の場合には、上記各区間毎の平均化特徴量Ｙ
　（ｎ　＋　ｉ）−と上記正規化平均電力ＰｗＮ（ｎ）
とを用いて、第１図図示照合部６において、照合距離ｄ
　（Ｒ，Ｘ）として。

（Ｐノ（ｎ）は第（４）式に対応する標準パタン）を算
出し、その結果にもとづいて、第１図図示の候補判定部
７が認識結果を抽出する。

☆　第２実施例当該第２実施例は２本願特許請求の範囲第（２）項に該
当するものであると考えてよい。

該第２実施例の場合にも、上記第（１）式の如く平均化
特徴ｆｆｌ　’／　（ｎ、　ｉ）を得ると共に、第（４
）式の如く正規化平均電力ｐ、Ｎ　（ｎ）を得る。そし
て第２実施例の場合には、正規化平均電力を所定割合で
附加した較正平均化特徴ｉ１Ｙ’　（ｎ、ｉ）としてＹ
’　（ｎ、ｉ）　＝Ｙ（ｎ、ｉ）　＋ｗ、宋Ｐｗ’　（
ｎ）　　　（６１（但しＷ−はｐ、１）１　（ｎ）の付
加割合）を生成し、第１図図示照合部６において、照合
距離ｄ　（Ｒ，Ｘ）として（但しＲ’（ｎ、ｉ）は第（６）弐に対応する標準パタ
ン）を算出し、その結果にもとづいて、認識結果が抽出
される。

☆　第３実施例当該第３実施例は１本願特許請求の範囲第（３）項に言
亥当するものであると考えてよい。

該実施例の場合には、第１実施例の場合と同様に各チャ
ネル毎に特徴量Ｘ、Ｄ）を得るが、この特徴量Ｘ１（ｔ
）の対数値ｌｏｇ　Ｘ＝　（ｔ）を用いる。そして、当該対数値を用いて第（１）式と同
様に平均化特徴量ＬＹ（ｎ、ｉ）を得る。

一方策（２）式と同様にパワーＬＰ、（ｔ）を得る。そ
して、第（３）式と同様に平均電力ＬＰｗ（ｎ）を得る
。当該平均電力ＬＰｗ（ｎ）をチャネル数ｊよりも僅か
に異なる（例えば＋１や＋２など）値ｊ・Ｃをもって除
算した結果ＬＰｗ　（ｎ）　／　ｊ−Ｃを用い。

較正平均化特徴量Ｙ　”　（ｎ、　ｉ）としてを生成す
る。そして、第１図図示照合部６において、照合距離ｄ
　（Ｒ，Ｘ）としてを算出し、その結果にもとづいて認識結果が抽出される
。なお２本実施例において較正平均化特徴量Ｙ　”　（
ｎ、　ｉ）を得るのは、各チャネル毎のバラツキを疑似
的に正規化しつつパワー１を付加するためと考えてよい
。

（Ｅ）発明の詳細な説明した如く２本発明によれば、従来から行われてい
るスペクトル情報に対応する特徴量にパワー情報に対応
する量を加味させて、照合距離ｄ　　（Ｒ，Ｘ）を得る
ことが容易になり、認識率を一段と向上させることが可
能となる。

【図面の簡単な説明】

第１図は本発明の一実施例構成を示し、第２図はパワー
を得る態様を説明する説明図を示す。図中、１は周波数分析部、２は音声区間検出部。３はパラメータ抽出部、５は登録辞書部、６は照合部を
表す。

Claims

【特許請求の範囲】

（１）未知入力音声を分析して得られた特徴量にもとづ
き入力音声区間を上記特徴量の変動の大きい部分を粗く
かつ小さい部分を細かく分割し、一定数の区間に分割し
た上で、上記特徴量を各区間毎に平均した平均化特徴量
を抽出するよう構成され、予め登録されている標準パタ
ンと照合して認識を行う音声認識処理方式において、上
記分割された各区間毎の平均電力を抽出すると共に当該
抽出された平均電力のうちの最大平均電力を抽出するよ
う構成してなり、上記各区間毎の平均電力を上記最大平
均電力にて正規化した所の各区間毎の正規化平均電力を
決定し、上記各区間毎に、上記平均化特徴量に関する上
記標準パタンとの距離と上記正規化平均電力に関する上
記標準パタンとの距離とを算出し、全区間でそれぞれの
荷重和を累算した照合距離を用いて認識を行うことを特
徴とする音声認識処理方式。
（２）未知入力音声を分析して得られた特徴量にもとづ
き入力音声区間を上記特徴量の変動の大きい部分を粗く
かつ小さい部分を細かく分割し、上記特徴量を各区間毎
に平均した平均化特徴量を抽出するよう構成され、予め
登録されている標準パタンと照合して認識を行う音声認
識処理方式において、上記分割された各区間毎の平均電
力を抽出すると共に当該抽出された平均電力のうちの最
大平均電力を抽出するよう構成してなり、上記各区間毎
の平均電力を上記最大平均電力にて正規化した所の各区
間毎の正規化平均電力を決定し、上記各区間毎に、上記
平均化特徴量に対して上記正規化平均電力を所定割合で
附加した較正平均化特徴量を求め、当該上記各区間毎に
上記較正平均化特徴量に関する上記標準パタンとの距離
を算出し、全区間で累算した照合距離を用いて認識を行
うことを特徴とする音声認識処理方式。
（３）未知入力音声を分析して得られた特徴量にもとづ
き入力音声区間を所定数の区間に分割し、上記特徴量を
各区間毎に平均した平均化特徴量を抽出するよう構成さ
れ、予め登録されている標準パタンと照合して認識を行
う音声認識処理方式において、上記未知入力音声を複数
のフィルタによって周波数分析した結果の出力値を対数
変換した対数値を上記各フィルタ毎にかつ上記各区間毎
に抽出するよう構成すると共に、同一区間における上記
各フィルタ毎の対数値の総和をとって上記フィルタの個
数よりも僅かに異なる値で除した較正値を抽出するよう
構成してなり、上記各フィルタ毎でかつ上記各区間毎の
対数値から上記較正値を減算した結果を用いて較正平均
特徴量とし、当該較正平均特徴量に関する上記標準パタ
ンとの距離を算出して全区間で累算した照合距離を用い
て認識を行うことを特徴とする音声認識処理方式。