JPS6128998B2

JPS6128998B2 -

Info

Publication number: JPS6128998B2
Application number: JP54148904A
Authority: JP
Inventors: Akio Komatsu; Hiroshi Ichikawa; Kazuhiro Umemura; Yoshiaki Kitatsume; Nobuo Hataoka
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1979-11-19
Filing date: 1979-11-19
Publication date: 1986-07-03
Also published as: DE3043516C2; JPS5672499A; DE3043516A1; US4426551A

Description

【発明の詳細な説明】

本発明は、音声認識装置における前処理方法、
特に、音声波形の特徴パラメータの分析・圧縮を
行なうための前処理方法に関するものである。音声認識装置は、大きく分けて、(1)音声の特徴
パラメータの抽出・分析部と、(2)特徴パラメータ
と標準パラメータとのマツチングを行ない判定・
認識を行なう部分とに分けられる。これまで、音
声の特徴パラメータとして、線形予側系数や偏自
己相関係数、フイルタバンクの出力などが用いら
れている。通常、いずれのパラメータを採用する
にしても、数次元のパラメータの時系列として音
声パターンが表現される。たとえば、10ミリ秒毎
にサンプリングされる８次の偏自己相関係数を考
えるとすれば、１秒の音声の表現に800個のパラ
メータを要することになり、認識のために必要な
標準パターンのパラメータとの比較演算に要する
処理が増大してしまう。このため、音声パターン
を出来るだけ忠実に表現できる効率のよい特徴パ
ラメータの抽出方法が必要とされている。本発明の目的は、上述した点に鑑みて、標準パ
ターンのパラメータと比較すべき入力力音声パタ
ーンのパラメータを効率良く圧縮し、標準パラメ
ータとの比較演算に要する処理時間を著るしく短
縮した音声認識装置の前処理方法を提供すること
にある。このような目的を達成するために、本発明で
は、入力音声から抽出されたＰ次元の特徴パラメ
ータを、ｎ個のＰ次元の特定の特徴パラメータと
比較して相互の距離を求め、それら距離データを
標準パターンと比較すべき特徴パラメータとして
使用することに特徴がある。そして、このｎ個の特徴パラメータとして、例
えば、明確に区別し易く、分離度が良い母音の特
徴パラメータが使われる。以下、本発明を実施例により詳細に説明する。第１図は本発明に係る音声認識装置の基本構成
を示すもので、１は入力音声、２は分析部、３は
マツチング部、４は判定部、５は認識結果の出力
である。このような構成において、入力音声１を分析部
２で分析して、特徴パラメータを求め、求められ
た特徴パラメータを利用してマツチング部３にお
いて、標準パターンの特徴パラメータとの比較を
行ない、判定部４で入力音声の認識を行ない、そ
の結果を出力５として得るようになつている。第２図は、本発明による前処理方法を実現する
回路の一実施例の構成を示すもので、第１図の分
析部２に相当する部分である。図において、２１は各種の制御信号を発生する
制御回路、２２はアナログ／デイジタル変換器、
２３は入力バツフアメモリ、２４はフイルタバン
ク、２５は中間バツフア、２６は正規化回路、２
７はパターンバツフア、２８はマイクロパターン
バツフア、２９は距離計算回路、３０はパラメー
タバツフアを示す。この例では、入力音声を表現する特徴パラメー
タとしてフイルタバンクの出力を利用するように
なつている。分析部２に入力された音声１はＡ／Ｄ変換器２
２でデイジタル信号に変換され制御回路２１の制
御により入力バツフアメモリ２３に入力される。
入力バツフアメモリ２３に入力されたデイジタル
信号は同じく制御回路２１の制御によつて、フイ
ルタバンク２４に入力される。このフイルタバン
ク２４は、第３図に示すように、たとえば電話帯
域の300〜3600Hzを対数的に16チヤネルに等間隔
に分けた帯域通過型フイルタ群２４１−１〜２４
１−１６とその出力を平滑してリサンプリングす
る回路２４２−１〜２４２−１６よりなる。この
平滑されて、たとえば10ミリ秒間隔で、リサンプ
リングされた16個のデータは、時点ｔの特徴パラ
メータベクトルatとして中間バツフア２５に送ら
れる。この特徴パラメータベクトルatの時系列が
中間バツフア２５に順次配列される。ここで、at
＝｛ａ_1t，ａ_2t，………，ａ_16t｝を表記することと
し、ａ_jtは時刻ｔにおるｊ番目のフイルタの出力
であるとする。一般にａ_jtの大きさは、入力音声
１の入力レベルや発声環境に依存して変化するた
め、絶対値比較は困難である。このため、制御回
路２１の制御により中間バツフア２５から読み出
された特徴パラメータベクトルａ_tを正規化回路
２６に入力し、正規化ベクトルa′_tを求める。こ
こで、ベクトルa′_tのｊ番目の要素は次のように
して求める。ここで、Ｃは定数であり単なる係数である。こ
のようにして求められた正規化された特徴パラメ
ータベクトルa′_tの時系列が制御回路２１の制御
でパターンバツフア２７に格納される。第２図のマイクロパターンバツフア２８には、
上述と同じ処理によつて求められた母音などの特
徴あるｎ個の音声（これをマイクロパターンと称
する）の正規化された特徴パラメータベクトルＶ
^k（ｋ＝１〜ｎ）が格納されている。ここで、Ｖ^k
は特徴パラメータベクトルの時系列である必要は
ない。すなわち、例えば母音の発声などはかなり
安定しているので、その安定区間内の一時点での
特徴パラメータベクトルで代表させて充分であ
る。第４図に示したのは、成人男性が発声した５
つの母音の正規化された特徴パラメータベクトル
の様子を示す、本実施例においては、５つの母音
に対応した５個のマイクロパターンを用いるもの
とする。距離計算回路２９では、制御回路２１の働きで
パターンバツフア２７および２８に格納されてい
る特徴パラメータベクトルを読み込み、パターン
バツフア２７に格納されている16次元の正規化さ
れた特徴パラメータベクトルa′_tに対して、５個
のマイクロパターンの正規化された特徴パラメー
タベクトルＶ^k（ｋ＝１〜５）の各々との距離計
算を行ない、その結果としての５個の距離パラメ
ータｘ_t ^k（ｋ＝１、〜５）（ｔは時点を示す）を
パラメータバツフア３０に格納する。ここで、距
離パラメータｘ_t ^kは次式に示すように、通常の距
離計算によつて求められる。このように、パラメータバツフア３０には、５
次元のパラメータｘ_t ^kの時系列が格納されること
になる。このパラメータの時系列が第１図のマツ
チング部３に引き渡され、既に同じマイクロパタ
ーンによつて情報圧縮されて登録されている標準
パターンのパラメータとのマツチング操作が行な
われ、第１図の判定部４を経て認識結果が出力さ
れる。従来の音声認識装置における方式では、マツチ
ング部３に渡される特徴パラメータとして、中間
バツフア２５に格納されている16次元のパラメー
タの時系列が用いられていたのに対し、本発明に
よる方法を採用すれば、５次元のパラメータの時
系列のみを用いることができ、5/16のパラメータ
圧縮率が得られる上に、認識率等に関しての有意
ある劣化は認められないという実験結果が得られ
ている。第５図は、第２図の実施例の正規化回路２６、
パターンバツフア２７，２８および距離計算回路
２９部分の具体的構成の一例を示すものである。正規化回路２６において、２６１は並列入力加
算器、２６２−１〜２６２−１６は除算器を示し
ており、また、パターンバツフア２８は５個のマ
イクロパターンメモリ２８１〜２８５からなり、
距離計算回路２９も５個のマイクロパターン比較
回路２９１〜２９５からなつている。このような構成において、ある時点におけるＰ
次元の特徴パラメータが中間バツフアメモリ２５
から並列に読み出され正規化回路２６に入力され
ると、その加算器２６１においてそれらの入力が
加算され、

【式】が得られる。このようにして得られた加算結果を除算器２６２−１〜２６
２−１６に入力し、それぞれに入力されている特
徴パラメータａ_jt（ｊ＝１〜16）との間で上述し
た(1)式に従つて割り算を行ない、正規化を行なつ
てその結果をパターンバツフアメモリ２７に一旦
格納する。次に、パターンバツフアメモリ２７か
ら並列に読み出したＰ次元の正規化された特徴パ
ラメータをそれぞれマイクロパターン比較回路２
９１〜２９５に入力する。一方、これらの比較回
路２９１〜２９５には対応するマイクロパターン
メモリ２８１〜２８５から読み出された、16次元
のパラメータが入力されているので、この比較回
路において、両入力の特徴パラメータを比較し
て、両者の距離を計算する。したがつて、マイク
ロパターン比較回路２９１〜２９５の出力は、５
次元のパラメータの時系列となり、パラメータバ
ツフア３０に格納される。このようにしてパラメ
ータバツフア３０に格納されたパラメータを用い
て、第１図のマツチング部３において標準パター
ンとのマツチングが行なわれ、判定部４を経て認
識結果が出力される。なお、第５図の回路は、第２図の制御回路２１
によつて制御されていることは言うまでもない。また、図では、正規化回路２６において、16個
の除算器２６２−１〜２６２−１６を設けた例に
ついて説明したが、唯一個の除算器を設け、それ
によつて、各次元の特徴パラメータの正規化を時
分割的に行なうようにしてもよい。マイクロパタ
ーンメモリ２８１〜２８５、マイクロパターン比
較回路２９１〜２９５をそれぞれ共通化してもよ
い。さらに、上述したマイクロパターン比較回路か
ら得られる、５次元のパラメータの時系列を平滑
した後に、１つまたは２つ飛びにリサンプリング
する回路を設け、特徴パラメータの時間軸方向に
さらに1/2、1/3に圧縮するようにしてもよい。そ
のように圧延されたパラメータを使つた場合に
も、実験の結果ほとんど認識率の劣化は認められ
なかつた。さらに、この５次元のパラメータの時系列を平
滑した後に、その時間的変化が極値となる点を代
表点としてリサンプリングするようにしてもよ
い。第２図の実施例においては、各種のメモリ２
３，２５，２７，２８，３０を別個に設けている
が、この代りに共通のメモリを使つてもよく、ま
た、これらのメモリを省略することもできる。また、上述した例では、音声入力の特徴を表現
するパラメータとしてフイルタバンクの出力を用
いたが、他のパラメータ、例えば、線形予測係数
や偏自己相関係数などを使つても実現できる。また、マイクロパターンとしては、５つの母音
による特徴パラメータに限らず、他の特徴的なパ
ラメータ、例えば、摩擦性子音（“Ｓ”音など）
や鼻音性子音（“Ｎ”、“Ｍ”など）による特徴パ
ラメータを使用したり、それらを母音とともに使
用したりしてもよく、さらに、人工的に設定し
た、意図的に特徴を強調した形のパラメータを使
用してもよい。さらに上述した例ではマイクロパターン演算回
路において距離を計算する場合について示した
が、それに限定されるものではなく、２つのパタ
ーンの比較結果を示すものであれば良い。上述した実施例からも解るように、一般的に、
入力音声のＰ次元の特徴パラメータと、ｎ個のＰ
次元の特徴パラメータとの距離を求めた結果とで
マツチングをとつた場合、各次元の特徴パラメー
タを格納するに必要な量と求められた各次元の距
離を格納するに必要な量がほぼ等しいとすれば、
従来に比べて本発明ではｎ／Ｐに圧縮することが
でき（但し、ｎ＜Ｐとする）。一般に、マツチン
グ処理に必要な距離計算は、例えば、入力音声の
ｉ番目のフレームと、標準パターンのｊ番目のフ
レームとの間で、の計算が必要となる（ここで、ａ、ｂはｌ次元の
特徴パラメータとする）。従つて、Ｐ次元がｎ次元に圧縮されれば上記の
演算（減算、自乗、加算）は１回につきｎ／Ｐに
減少する。この計算は、入力音声のフレーム毎に、しか
も、標準パターンのすべてのフレームに対して行
なわれるので、マツチング処理における処理時間
の短縮の効果は著しい。それによつて、高速な認
識、リアルタイムＣの認識あるいは認識単語数の
増加などを実現できる。以上述べたように、本発明によれば、入力音声
の特徴パラメータを効率よく圧縮することがで
き、それによつて、認識速度の向上や認識処理量
の増大を計ることができる。

【図面の簡単な説明】

第１図は音声認識装置の基本構成図、第２図は
本発明による前処理方法を実現する回路の一例の
構成図、第３図は第２図のフイルタバンクの一例
の構成図、第４図は母音による特徴パラメータを
示す図、第５図は第２図の正規化回路、パターン
バツフア、距離計算回路の一例の構成図を示す。２４……フイルタバンク、２６……正規化回
路、２８……マイクロパターンバツフア、２９…
…距離計算回路。

Claims

【特許請求の範囲】１入力音声を分析して得られるＰ次元の特徴パ
ラメータと、予じめ定められたＰ次元の母音の特
徴パラメータとを比較演算し、その比較演算に基
づいて得られる結果パラメータと標準音声のパラ
メータとの一致をとり、入力音声の認識を行なう
ことを特徴とする音声認識装置の前処理方法。２前記比較演算は、前記入力音声を分析して得
られるＰ次元の特徴パラメータと、予じめ定めら
れたＰ次元の母音の特徴パラメータとの距離を求
める演算であることを特徴とする特許請求の範囲
第１項記載の音声認識装置の前処理方法。３前記結果パラメータは、前記比較演算結果得
られる時系列情報を平滑して、所定間隔でサンプ
リングして得られるパラメータであることを特徴
とする特許請求の範囲第１項又は第２項の音声認
識装置の前処理方法。４前記結果パラメータは前記入力パラメータと
前記特定パラメータとの距離を表わすパラメータ
からなる特許請求範囲第１項ないし第３項のいず
れか記載の音声認識装置の前処理方法。