JPS6131480B2

JPS6131480B2 -

Info

Publication number: JPS6131480B2
Application number: JP9729080A
Authority: JP
Inventors: Hiroshi Itoyama
Original assignee: Matsushita Electric Works Ltd
Current assignee: Panasonic Electric Works Co Ltd
Priority date: 1980-07-15
Filing date: 1980-07-15
Publication date: 1986-07-21
Also published as: JPS5722298A

Description

【発明の詳細な説明】本発明は音声認識装置の音響処理回路に関する
もので、第１の目的とするところは音声の分析、
特徴抽出を簡単に行ない、しかも、母音の定常信
号を取り出すことによつて調音結合の影響を除去
して特徴量パターン変換精度を向上させ、更に、
音声の特徴量の表現情報を少ない量で表現し識
別、判断処理を簡単にすることにあり、第２の目
的とするところは、CPUにおけるパターンマツ
チング処理を簡単かつ短時間に行なうことにあ
る。

一般に、音声認識装置は、第１図のように、マ
イク１により音声入力を電気信号に変換し、この
電気信号を増巾器２で増巾し音響処理回路３に入
力し、音響処理回路３の内容をCPU４に取り込
み、メモリ５に記憶された登録単語とのパターン
マツチングを行ない、音声を認識するように構成
している。

ところで従来の音声認識装置においては、多数
の単語を認識するために音響処理回路の構成は、
音響分析、特徴抽出、パターン変換のプロセスを
とつており、構成が複雑であるという欠点を有し
ていた。

本発明はかかる点に鑑みてなされたもので、少
数の特定語彙を特定話者が話すのを認識するよう
にし、音響分析と特徴抽出とを一体とし、母音の
第１、第２フオルマント周波数を抽出することで
これを実現したものであり、以下実施例により詳
細に設明する。

第２図は本発明に係る音響処理回路の一実施例
のブロツク回路図で、１はマイクであり、音声入
力を電気信号に変換するもので、この電気信号を
増巾器２で増巾する。６はフイルタバンクで、増
巾器２からの信号を周波数分割して取り込むもの
で、このフイルタバンク６は10個のフイルタ６_１
〜６₁₀よりなり、各フイルタ６_１〜６₁₀は母音
ａ，ｉ，ｕ，ｅ，ｏの第１フオルマントおよび第
２フオルマントを抽出するように中心周波数と帯
域巾を選定できるよう外部から調整可能となつて
いる。７は10個のローパスフイルタ７ａよりなる
ローパスフイルタで、各ローパスフイルタ７ａは
フイルタバンク６の各フイルタ６_１〜６₁₀の出力
をそれぞれ平滑するものである。８はローパスフ
イルタ７ａの出力を時系列信号に変換するマルチ
プレクサ、９は増巾器２の出力信号のレベルを検
出するレベルデイテクタである。１０はレベルノ
ーマライザで、マルチプレクサ８の出力信号をレ
ベルデイテクタ９の出力信号で振巾正規化するも
のである。１１はしきい値回路で、レベルノーマ
ライザ１０の出力信号レベルを２値レベルの時系
列信号よりなる音韻データに変換するものであ
る。１２，１３，１４はそれぞれ音韻データを取
り込む第１乃至第３のシフトレジスタ（10ビツ
ト）、１５は一致検出回路、１６はフリツプフロ
ツプである。１７はデータ変換回路であり、比較
回路１８とラツチ付シフトレジスタ１９と、アド
レスカウンタ２０とROMよりなる母音メモリ２
１とで構成され、第３のシフトレジスタ１４の音
韻データを３ビツトのラベルデータに変換する。

フイルタバンク６の各フイルタ６_１〜６₁₀の中
心周波数と帯域巾は、第４図に示す母音の周波数
を抽出できるようにしておき、これにより単語音
声が入力されたとき、ローパスフイルタ７ａの出
力には母音の周波数に対応する包絡信号が発生す
る。例えば、「WATASI」の単語音声が入力され
たとき、母音「ＡＡＩ」に対応するフイル
タ周波数「f₁₁、f₁₂、f₁₁f₁₂、f₁₂f₂₂」を有するフイ
ルタ６_１，６_２，６_１，６_２，６_３，６_４の出力
を平滑するローパスフイルタ７ａの出力として第
５図のような包絡信号が発生する。（「」は母音
以外の音すなわち子音を表わす）この信号をアナ
ログのマルチプレクサ８により時系列信号に変換
する。このとき、マルチプレクサ８のスキヤンの
周期は音声の準定常状態と考えられる20〜30ｍ
sec以内で行なう。この周期は短かい程定常性が
保たれるが、情報の圧縮率より制限があり、30ｍ
sec以内で可変できるようにしておく。この時系
列信号は、レベルデイテクタ９の信号で入力音声
の振巾変化を正規化するレベルノーマライザ１０
により正規化され、しきい値回路１１に入力され
る。このしきい値回路１１は、信号の一定レベル
をしきい値にして２値信号に変換する。したがつ
て、前述の例では、「f₁₁f₁₂、f₁₁f₁₂、f₂₁f₂₂」のフ
イルタ周波数をもつフイルタ６_１，６_２，６_１，
６_２，６_３，６_４の出力に対応するマルチプレク
サ８からの時系列信号がＨレベルとして検出さ
れ、その他はＬレベルになり、しきい値回路１１
の出力は母音のフオルマント周波数に対応した時
系列信号上の位置にＨレベルの値をもつ２値レベ
ルの時系列信号よりなる音韻データに変換される
ことになる。ここで、スキヤン時間を100μsec、
スキヤン周期を20ｍsecとすると、母音「Ａ」に
ついては第６図ａのような信号が発生し、母音
「Ｉ」については第６図ｂのような信号が発生す
る。ここで、第１のシフトレジスタ１２のシフト
クロツクをマルチプレクサ８のスキヤンクロツク
と同じ信号を使用すれば、音韻データは第１のシ
フトレジスタ１２に取り込まれる。即ち、単語
「WATASI」が発声されマルチプレクサ８の周期
を音声の準定常状態と考えて20ｍsec（20ｍsecを
１フレームと呼ぶ）とすると、しきい値回路１１
の出力には母音は定常的、子音は過渡的であるこ
とを考えると、母音は数フレーム続くと考えられ
ることより、「AAAAAAIII」（Ａあるいは
I1個が１フレームで、ＡあるいはＩの音韻データ
の２値信号レベルは第６図ａ，ｂに示す通りであ
る）の各音韻データが１フレーム（20ｍsec）の
１スキヤン時間（100μsec）に順次第１のシフト
レジスタ１２に取り込まれることになる。このよ
うにして第１のシフトレジスタ１２には20ｍsec
おきに100μsec期間だけ音韻データが取り込ま
れ、つぎの20ｍsecにはつぎの音韻データを取り
込むとともに前に取り込んだ音韻データを第２の
シフトレジスタ１３に送り込み、同時に第３のシ
フトレジスタ１４にも送り込む。このとき、一致
検出回路１５は第１のシフトレジスタ１２と第２
のシフトレジスタ１３の音韻データの一致を取る
回路で、一致結果によりフリツプフロツプ１６を
Ｈレベル又はＬレベルにする。この信号がＨレベ
ルのとき第３のシフトレジスタ１４の音韻データ
はクリヤされ、Ｌレベルのときはクリヤされな
い。

上述の動作を第７図により説明する。第７図
で、ｎは20ｍsecに１回の第１シフトレジスタ１
２への音韻データの取り込み時間を表わすものと
する。まず「WATASI」と発声されると、音韻
データが「AAAAAAIII」で第１のシフト
レジスタ１２に入力される。このとき、ｎ＝１…
…12と第１乃至第３のシフトレジスタ１２，１
３，１４の音韻データは変化する。同時に、一致
検出回路１５ではｎ−１時点の第１のシフトレジ
スタ１２の音韻データと、ｎ−２時点の第２のシ
フトレジスタ１３の音韻データが比較され、一致
すればＬレベル、不一致ではＨレベルの信号を出
し、Ｈレベルで第３のシフトレジスタ１４の音韻
データをクリヤする。これよりｎ＝１………12で
第３のシフトレジスタ１４の音韻データは第７図
の右端のブロツクの音韻データとなる。このよう
に、ｎフレームとｎ−１フレームとの音韻データ
を比較し、一致したときのみ第３のシフトレジス
タ１４の内容とすることにより母音の定常状態の
みを検出でき、フイルタバンク６の各フイルタ６
_１〜６₁₀の中心周波数の設定時に定常母音で設定
しても単語発声時に子音から母音へのわたり、又
は従続音の影響による歪みを受けたフレームは母
音と判別せず、定常母音に近いフレームのみを母
音と判別することで、発声単語の特徴量の抽出精
度が向上できる。この第３のシフトレジスタ１４
の音韻データはデータ変換回路１７の比較回路１
８に送られる。ここで母音メモリ２１のアドレス
カウンタ２０がフリツプフロツプ１６の信号によ
り起動され、母音メモリ２１から読み出された母
音の音韻データと第３のシフトレジスタ１４から
送られた音韻データとが比較回路１８で逐次比較
される。このとき母音メモリ２１から同時に読み
出された各母音に対応する３ビツトのラベルデー
タはラツチ付シフトレジスタ１９にラツチされ、
比較回路１８から一致信号が出力されることによ
りCPU４に送り込まれることになる。なお第８
図は母音メモリの記憶例を示すものである。この
ようにして10ビツトの時系列信号よりなる音韻デ
ータはデータ変換回路１７にて３ビツトの時系列
信号よりなるラベルデータにビツト圧縮されて
CPU４に取り込まれることになり、CPU４によ
りメモリ５に記憶した登録単語とパターンマツチ
ングが行なわれる。このときパターンのもつ意味
は「」「母音」の配列と「母音」の種類（ａ，
ｉ，ｕ，ｅ，ｏ，）の配列であり、実施例にあつ
ては母音の種類の配列は３ビツトのラベルデータ
であるので、10ビツトの母音の音韻データにてパ
ターンマツチングする場合に比較してCPU４に
おけるパターンマツチング処理が簡単かつ短時間
で行なうことができる。

本発明は上述のように構成されており、音声入
力の母音の第１フオルマントおよび第２フオルマ
ントを抽出するように中心周波数と帯域巾を有す
るフイルタを設けたことにより音声の分析、特徴
抽出が簡単にでき、又、第１乃至第３のシフトレ
ジスタによりｎフレームとｎ−１フレームとの一
致より母音の定常信号を取り出すことで調音結合
の影響を除去でき、特徴量のパターン変換精度を
向上でき、しかも、音声の特徴量の表現情報を少
ない量で表現することで識別し、判断処理が簡単
にでき、更に、CPUにおけるパターンマツチン
グ処理が簡単かつ短時間で行なうことができると
いう利点を有する。

【図面の簡単な説明】

第１図は音声認識装置の基本回路図、第２図は
本発明の一実施例の回路図、第３図は同上の要部
回路図、第４図は同上の動作原理図、第５図は同
上の特性図、第６図ａ，ｂは同上のしきい値回路
の出力波形図、第７図は同上の動作説明図、第８
図は同上の母音メモリの記憶例を示す図である。１はマイク、２は増巾器、４はCPU、５はメ
モリ、６_１〜６₁₀はフイルタ、７ａはローパスフ
イルタ、８はマルチプレクサ、９はレベルデイテ
クタ、１０はレベルノーマライザ、１１はしきい
値回路、１２，１３，１４はシフトレジスタ、１
５は一致検出回路、１６はフリツプフロツプ、１
７はデータ変換回路、２１は母音メモリである。

Claims

【特許請求の範囲】

１音声入力をマイクにより変換した電気信号を
増巾し、メモリに記憶した登録単語とCPUによ
りパターンマツチングする音声認識装置の音響処
理回路において、電気信号から母音の第１フオル
マントおよび第２フオルマントを抽出する中心周
波数と帯域巾を有する10個のフイルタと、各フイ
ルタの出力をそれぞれ平滑するローパスフイルタ
と、各ローパスフイルタの出力を時系列信号に変
換するマルチプレクサと、前記電気信号のレベル
を検出するレベルデイテクタと、マルチプレクサ
の出力をレベルデイテクタの出力で振巾正規化す
るレベルノーマライザと、レベルノーマライザの
出力を２値信号に変換するしきい値回路と、しき
い値回路から出力される10ビツトの時系列信号よ
りなる音韻データを順次取り込む第１のシフトレ
ジスタと、第１のシフトレジスタの音韻データを
順次遅れて取り込む第２および第３のシフトレジ
スタと、第１および第２のシフトレジスタの音韻
データを比較し不一致のときＨレベルの出力を出
す一致検出回路と、一致検出回路の出力により動
作し第３のシフトレジスタの音韻データをクリヤ
するようにしたフリツプフロツプと、第３のシフ
トレジスタの音韻データを母音メモリから読み出
された母音の音韻データと比較して一致した母音
に対応する３ビツトのラベルデータを出力するデ
ータ変換回路とを具備し、前記ラベルデータを
CPUに入力するようにしたことを特徴とする音
声認識装置の音響処理回路。