JPS61113100A

JPS61113100A - 音声パラメ−タ検出装置

Info

Publication number: JPS61113100A
Application number: JP59235635A
Authority: JP
Inventors: 真雄坂間
Original assignee: Nippon Gakki Co Ltd
Current assignee: Nippon Gakki Co Ltd
Priority date: 1984-11-08
Filing date: 1984-11-08
Publication date: 1986-05-30
Also published as: JPH0562756B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕この発明は音声認識の分野、において用いられる音声パ
ラメータ検出装置に関する。

〔従来技術〕

一般的な音声認識装置は、音声信号から音声の特徴パラ
メータを抽出し、この特徴パラメータと・辞書と呼ばれ
るメモリ内に記憶されている検車パラメータとを比較（
パターンマツチング）することによって音声舅識を行う
。この場合、音声の特徴パラメータとしては、パーコー
ル係数、線形予測係数、零クロス回数（音声信号が零レ
ベルを横切る回数）等が用いられるが、特に零クロス回
数を特徴パラメータとして用い、かつ、線形マツチング
あるい１ｊＤＰ（ダイナミックプログラム）マツチング
を採用した音声認識装置は、価格が安価であるところか
ら簡易型の認識装置としてしばしば用いられている。そ
して、この発明は零クロス回数を特徴パラメータとして
用いた音声認識装置ηにおいて用いられる音声パラメー
タ検出装置に関する。

〔発明が解決しようとする問題点〕

ところで、この種の音声パラメータ検出装置においては
、音声の始端および終端、言い換えれば音声区間を正確
に検出することが必要である。従来、この音声区間（始
端、終端）の検出は、一定のしきい値を定め、音声信号
がこのしきい値を越えたか否かに基づいて行っていた。

例えば第６図の音声信号の場合、しきい値をレベルＬ１
とすると、区間Ｔａを音声区間として検出していた。し
かしながら、このように始端、終端を共に一定のしきい
値に基づいて検出すると、次の様な問題が生じる。すな
わち、音声には例えば鼻音ｎｎ″のように終端付近の信
号レベルが小はいものがある。

このような音声の終端を正確に検出すべく、シきい値レ
ベルを小さくすると、始端検出時において雑音を音声始
端として検出してしまう。一方、この雑音の影響を除去
すべく、シきい値レベルを大とすると、上述した鼻音等
の場合に終端を正確に検出し得なくなる。

この発明は上記の事情に鑑み、音声始端検出時において
雑音の影響を受けることがなく、しかもイｇ号レベルの
小はい音声終端をも正確に検出することができる音声パ
ラメータ検出装置を提供することを目的とする。

〔問題を解決するための手段〕

この発明は、音声始端および音声終端を各々異なる値の
しきい値によって検出するようにしたものである。すな
わち、音声始端は雑音の影響を受けにくい、比較的高い
値のしきい値によって検出し、一方、音声終端は信号レ
ベルの小さい終端をも検出できるように、低い値のしき
い値によって検出する。

し実施例〕第１図はこの発明の一実施例の構成を示すブロック図で
ある。この図において、符号１は音声を音声信号に変換
するマイクロフォン、２は音声イ％ｆ号の高域成分を強
調するプリエンファシス回路であり、フィルタ回路が用
いられている。ＡＤＣ（アナログ／ディジタル変換器）
３はプリエンファシス回路２を通過した音声信号を例え
ば周波数１０ＫＴ（ｚでサンプリングしてディジタル音
声データ■に変換し、出力する。クロス数カウント回路
４は、パルス発生部と、カウンタ部とから構成ばれる。

パルス発生部は音声データＶＤが制御回路５から供給さ
れるしきい値Ｓ）（を横切る毎にパルス信号を出力する
回路である。すなわち、このパルス発生部は、今回ＡＤ
Ｃ３から出力された音声データＶＤと、前回ＡＤＣ３か
ら出力ばれた音声データＶＤとを比較し、前回の音声デ
ータＶＤが今回の音声データＶＤに変化する際しきい直
Ｓ　ＩＩを横切っている場合にパルス信号を出力する。

カウンタ部はカウンタとラッチとから構成される。カウ
ンタは上記パルス発生部から出力されるパルス信号をア
ップカウントするもので、この実施例においては１０ｍ
５ｅｃが経過する毎にリセットされる。ラッチは、上記
カウンタがリセットされる直前のカウント値をラッチし
、このラッチしたデータをクロス数データＣＤとして逐
次出力する。すなわち、クロス数データＣＤは一定時間
（１０ｍＳｅＣ）内に音声信号がしきい値８■Ｉを横切
った回数を示すものである。なお、上述したクロス数デ
ータＣＤは、電源投入以後常時出力される。また、以下
の説明においては、クロス数カウントの単位（１０ｍ５
ｅｃ）をフレームと称する。制御回路５に、クロス数デ
ータＣＤに基づいて音声の始端および終端を検出し、検
出した始端および終端間の各クロス数データＣＤをその
間のスレーム数と共に音声パラメータＰＲとして音声認
識回路６へ出力し、また、しきい値ＳＨをクロス数カウ
ント回路４へ出力する。

音声認識回路６は音声パラメータＰＲに基づいて音声認
識を行う。

次に、制御回路５の詳細を第２図〜第５図を参照して説
明する。この制御回路５け、プログラムコントロールに
よるＣ　Ｐ　Ｕ　（中央処理装置）と、記憶回路とを具
備しており、記憶回路は、ＣＰＵにおいて用いられるプ
ログラムが記１意されＣいるＲＯＭと、データ記憶用の
ＲＡＭとから構成ばれている。そして、ＩＩＡＭ内には
、第２図に示す各内部レジスタが設定されている。これ
らの内部レジスタの名称は次の通りである。

ＩＲ：イノプアトレジスタＦＣ：フレームカウンタＥＦＩｔ　：エンドフレームレジスタＣＦＲ：中間フレームレジスタＣＤＩＬ　：クロス数データレジスタ次に、上記ＣＰ　Ｕの動作を第３図に示す流れ図を参照
して説明する。電源が投入これると、まず、ステップＳ
１の処理へ進み、各内部レジスタ〔第２図）を各々クリ
アする。次に、ステップＳ２へ進むと、しきい値ＳＨと
１−でデータαを出力する。

このデータαは、音声信号の始端を検出するためのしき
い値であり、雑音の影響を受けないように、比較的高い
値となっている。そして、このデータαはクロス数カウ
ント回路４内にラッチ京れる。

次にステップＳ３へ進むと、まずフレーム時間と同じ時
間１０ｍ５ｅｃを計測した後、クロス数カウント回路４
から出力されているクロス数データ■をインプットレジ
スタＩ　Ｒ内に畜込む。次にステップＳ４へ進むと、イ
ンプットレジスタＩＲの内容が「０」か否かを判断する
。ここで、マイクロフォン１に１だ「声が入力されてい
ないとすると、クロス数データＣＤは「０」であり、し
たがって、ステップＳ４の判断結果はｒＹＥＳＪと、な
り、ステップＳ１へ戻る。以下、マイクロフォン１に音
声が入カブれるまで、上記のステップ８１〜Ｓ４を繰返
す。

次に、マイクロフォン１に音声が入力されると、クロス
数データＣＤが「０」以外の値となり、したがってステ
ップＳ４における判断結果がｒＮＯＪとなり、ステップ
Ｓ５へ進む。ステップＳ５では、しきい値Ｓ　Ｈとして
データβを出力する。このデータβは、クロス数カウン
ト回路４内にラッチされる。このデータβの値は、信号
レベルが小さい音声信号終端をも検出できるように、前
述したデータαより小ζい値となっている。なお、第４
図にデータαとデータβの各位の一例を示す。図に示す
波形は音声信号の一例であり、また、図に示す区間Ｔα
はクロス数カウント回路４においてデータαがしきい値
ＳＨとして用いられる区間、区間Ｔβはデータβがしき
い値Ｓ　Ｈとして用いられる区間である。次に、ステッ
プＳ６へ進むと、７レームカウンタＦＣの内容（むの場
合「０」）をインクリメントする。これにより、同フレ
ームカウンタＦＣの内容が「１」となる。次に、ステッ
プＳ７へ進むと、インプットレジスタＩＲの内容を７レ
ームカウンタＦＣが指示するクロス数デーｐｖジｘｐｃ
ＤＲｍへ転送する。なお、このレジスタＣＤ　Ｒｆ！ｌ
へ転送されたデータは、ステップＳ３においてインプッ
トレジスタＩＲへ入力されたクロス数データＣＤであり
、音声信号の立上りに対応する最初のクロス数データＣ
Ｄである。次にステップＳ８へ市百むと、１Ｑ　ｍ５ｅ
ｃの時間計測をした後、クロス数カウント回路４から出
力されているクロス数データＣＤをインプットレジスタ
Ｉ　Ｒへ入力する。次にステップＳ９では、インプット
レジスタＩ　Ｒの内容が「０」か否かを判断する。音声
信号が連続してマイクロフォン１力１ら出力されている
時はこの判断結果が「ＮＯ」となり、ステップＳ６へ戻
る。以後、ステップＳ９の判断結果がｒＹ　Ｅ　Ｓ　Ｊ
となるまでステップ８６〜Ｓ９の過程を繰返す。これに
より、クロス数データレンスタＣＤ　Ｈｕｌｌ、　ＣＤ
Ｒ（２１・・・に順次クロス数データＣＤが書込まれ、
また、フレームカウンタＰＣの内容が「１」づつ順次大
きくなる。

次に、音声信号が途切れると、ステップＳ９の判断結果
がｒＹＥｓＪとなり、ステップＳＩＯへ進む。ステップ
Ｓ１０では、フレームカウンタＦ（’ｌ”の内容（いま
、この内容なｒ　Ｍ　Ｊとする）がエンドフレームレジ
スタＥＦＲへ転送される。次いでステップ８１１へ進む
と、フレームカウンタＦ（”の内容ｒ　Ｍ　Ｊが一定値
Ｄｌ（例えば「１０」）より小か否かが判断される。

そして、この判断結果がｒＹＥｓＪの場合はステラ７８
１に戻る。このステップ８１１は雑音を検出するための
ステップである。すなわち、マイクロフォン１には、し
きい値ＳＨｒα」よりレベルの大きい雑音が入力される
場合がある。そこでこの実施例においては、「０」でな
いクロス数データＣＤが一定時間（Ｔ）ＩＸＩ　０ｍ５
ｅｃ）以上連続しなかった場合は、マイクロフォン１に
入力はれた音を雑音とみなし、パラメータ検出処理を行
わないようになっている。ステップ８１１におけるフレ
ームカウンタＦＣの内容「ＭＪは、「０」でないクロス
数データＣＴ）が】専続して出力されたフレーム数を示
し、また１フレームの時間は１０ｍ５ｅｃであり、した
がって、Ｍ〈工）１の場合は、「０」でないクロス数デ
ータＣＴ）が一定時間（Ｄ　ｌＸ１０訃ｅｃ）連続しな
かった場合、すなわち雑音の場合に相当する。

次に＼ステップＳ１１の判断結束がｒＮＯＪの場合は、
ステップ８１２へ進み、フレームカウンタＦＣをインク
リメントする。次いでステップ８１３へ進むと、インプ
ットレジスタＩＲの内容を、フレームカウンタＦＣが示
すクロス数レジスタＣＤＲ（Ｍ＋１）へ転送する。なお
、この時点におけるインプットレジスタＩＲの内容は、
最後に実行ばれたステップＳ８においてレジスタＩＲに
書込まれたクロス数データＣＩ）であり、したがって、
その値は「０」である（ステップＳ９の判断結果がｒＹ
ＥｓＪ　）。次に、ステップＳ１４へ進むと、フレーム
カウンタＦＣの内容からエンドフレームレジスタＥＦＲ
の内容ｒＭＪを減算し、次いでこの減算結果が一定値Ｄ
２（例えば「２ｏ」〜ｒ３０Ｊ）より大か否かを判断す
る。そして、この判断結果がｒＮＯＪの場合は、ステッ
プ８１５へ進む。ステップ８１５では、１０ｍ５ｅｃの
時間計測を行った後、クロス数データＣＤをインプット
レジスタＩＲへ入力する。次いで、ステップ８１６へ進
むと、インプットレジスタＩ　Ｒの内容が１２」より小
か否がを判断する。そして、この判断結果が「ＹＥＳ」
の場合は再びステップ８１２へ戻る。

以下、ステップ８１２〜８１６が繰返えばれる。

そして、ステップ８１４における判断結果がｒＹＥｓＪ
に々ると、ステップ８１７へ進み、エンドフレームレジ
スタＥＦＲの内存、および、クロス数データレジスタＣ
ＤＲｆｌ＋からエンドフレームレジスタＥＦＲによって
指示されるクロス数データレジスタＣＤＩＩ（Ｘ］まで
の各レジスタＣＤＨの内容を各々、音声パラメータＰＲ
として音声認識回路６へ出力し、全処理を終了する。ま
た、ステップ８１６の判断結果が「ＮＯ」となった場合
は、ステップ８１８以下の各処理を行う。

次に、上述したステップ８１２〜Ｓ１ｄの処理の意味を
説明する。いま、例えば「前進（ぜんしん）」という音
声をマイクロフォン１に入力したとする。この場合、ク
ロス数データＣＤは時間の経過と共に第５Ｍに示すよう
に変化する。ここで、曲線Ｅ１は「前」の音声に対応し
、また曲線Ｅ２は「進」の音声に対応する。この図に示
すように、１つの言葉が発音された場合においても、音
声の途中で区切れが発生する。この区切れは全く発生し
ない場合もあり、また複数回発生する場合もある。そし
て、この区切れにおいては、クロス数データＣＤが「０
」となる。したがって、第５図に示す時刻ｔ、において
クロス数データＣＤが「ｑとなり（この時、ステップＳ
９の判断がｒＹＥｓＪとなる）、ステップＳ１１の判断
がｒＮＯＪであっても（雑音ではない）、この時刻ｔ、
において音声が終了したか否かの判断はできない。そこ
で、この実施例においては、クロス数データ（”Ｄが一
旦「０」となった時点以後、（Ｄ　２　Ｘ　１０　ｍ５
ｅｃ’）の時間連続してクロス数データＣＤが「２」以
下であった場合に音声の終了と判断するようになってい
る。すなわち、クロス数データＣＤが一旦「０」になっ
た時点以後、ステップＳ１６の判断がｒＹＥｓＪである
間はステップ８１２〜Ｓ１６が繰返し実行される。この
際フレームカウンタＦＣの内容は順次インクリメントさ
れ（ステップ５１２）、したがって、ステップ８１４に
おける（ＦＣ−ＥＦＲ）の値はクロス数データＣＤが「
２」以下を続けているフレーム数を示す。そして、この
フレーム数がＤ２より大になると、すなわち、（Ｄ２×
１０　ｍ５ｅｃ　）の時間が経過すると、ステップＳ１
４における判断がｒＹＥＳＪとなり、音声終了と判断さ
れ、ステップＳ１７の処理へ進む。一方、クロス数デー
タＣＩ）が一旦「０」となった時点以降、上述した（Ｄ
２Ｘ１０ｍｓｅｃ）の時間が経過する前にクロス数デー
タＣＤが「２」以上になった場合（第５図における時刻
ｔ、参照）ハ、ステップ８１８の処理へ進む。

ステップ８１８では、この時のフレームカウンタＦＣの
内容（「Ｎ」とする）を中間フレームレジスクＣＦＲＶ
Ｃ転送［７、次いでステップＳＩ９へ進ムト、フレーム
カウンタＦ’Ｃの内容をインクリメントとする。次に、
ステップＳ２０へ進むと、インプットレジスタＩ　Ｒの
内容（ステップＳ１５において人力これたクロス数デー
タＣＤ）をフレームカウンタＦＣが示すクロス数データ
レジスタＣＤＲ（Ｎ＋１）へ転送する。次に、ステップ
Ｓ２１では、１０ｍ５ｅＣの時間を計測した後、クロス
数データＣＴ）をインプットレジスタＩＲへ入カスる。

次いでステップＳ２２では、インプットレジスタＩＲの
内容が「０」か否かを判断する。そして、この判断結果
が「ＮＯ」の場合は、再びステップ８１９へ戻り、以後
、ステップ８２２の判断結果がｒＹＥｓＪとなるまでス
テップ８１９〜８２２の過程を緑返す。この繰返しによ
り、第５図の音声の場合は、「進」に対応する各クロス
数データＣＤがクロス数データレジスタＣＤＲ（Ｎ＋１
　）、　　（Ｎ＋２　）・・・にｊ−次曹込まれる。次
に、ステップ８２２における判断結果がｒＹＥＳＪにな
ると、ステップ８２３へ進む。ステップＳ２３では、そ
の時点におけるフレームカウンタＦＣの内容から中間フ
レームレジスタＣＦＲの内ＳｒＮを減算する。この減算
結果は、第５図の例の場合、時刻ｔ、〜ｔ４間のフレー
ム数を示している。次に同減算結果が前述した一定数Ｄ
１より小か否かを判断する。そしてその判断結果がｒＹ
　Ｅ　Ｓ　Ｊの場合（第５図の例の場合は「ＮＯ」とな
る）、すなワチ、ステップ８１９〜Ｓ２２の繰返し蹟よ
ってクロス数データレジスタＣＴ）Ｒに収録したデータ
が雑音のデータであった場合は、ステップ８１７へ進む
。この処理は、ステップ８１９〜Ｓ２２の繰返しによっ
てレジスタＣＤＨに収録したデータを無視し、ステップ
ＳＩＯの時点で音声が終了していると判断することを意
味する。一方、ステップ８２３の判断結果がｒＮＯＪの
場合は、ステップ８２４へ進み、その時のフレームカウ
ンタＰＣの内容ヲエンドフレームレジスタＥ　Ｉ”　Ｒ
へ転送スる。そして、ステップＳ１２へ戻る。以後、再
びステップ８１２〜Ｓ１６の過程を繰返す。そして、ス
テップＳ１４の判断がｒＹ　Ｅ　Ｓ　Ｊとなればステッ
プＳ１７へ進み、パラメータ出力を行い、また、ステッ
プ８１４の判断がｒＹＥｓＪになる前に、ステップ８１
６の判断がｒＮＯＪになれば、再びステップ８１８以降
の処理を行う。

以上が第１図〜第３図に示す実施例の詳細である。なお
、第３図の流れ図においては記載を省略しているが、こ
の実施例においては、音声が１．６ｓｅｃ以上継続した
場合、すなわち、フレームカウンタＥＣの内容がｌ”’
１６０Ｊを越えた場合は、パラメータ検出を中止し、ス
テップＳ１へ戻るｉうになっている。このため、クロス
数データレジスタＣＩ）Ｒの数も１６０となっている。

このようにしている理由は、音声認識回路６において認
識し得る音声の最大継続時間が１．６ＳｅＣであるから
である。

また、上記実施例においては、ＡＤＣ３から出力される
ディジグル音声データＶＤＫ基づいてクロス数データＣ
Ｄを得ているが、これに代えて、プリエンファシス回路
２から出力されるアナログ音声信号をレベル比較するこ
とによりクロス数データＣＤを得るようにしてもよい。

また、上記実施例においては、音声データＶＴ）がしき
い値Ｓ　Ｈを下から上に横切った場合、あるいは上から
下に横切った場合のいずれの場合においてもクロス数を
カウントしているが、いずれか一方の場合のみカウント
するようにしてもよい。

〔発明の効果〕

以上説明したように、この発明によれば音声始端および
音声終端を各々異なる値のしきい値によって検出するよ
うにしたので、音声始端の検出時においては雑音の影響
を受けることがなく、シかも音声終端の検出時において
は信号レベルの小さい音声終端をも正確釦検出すること
ができる効果がある。

【図面の簡単な説明】

第１図はこの発明の一実施例の出成を示すブロック図、
第２図は同笑施例における制御回路５内に設けられてい
る内部レジスタを示す図、第３図は同制御回路５内に設
けられているＣ　Ｐ　Ｕの動作を説明するための流れ図
、第４図はしきい値αおよびβの大きざの一例を音声信
号との関連の上で示す図、第５図はクロス数データＣＤ
の変化状態の一例を示す図、第６図は従来の音声認識装
置におけるしきい値Ｌ１を音声信号との関連の上で示す
図である。１・・・・・・マイクロフォン、４・・・・・・クロス
数カウント回路、５・・・・・・制御回路。第３図

Claims

【特許請求の範囲】

入力される音声信号が所定時間内にしきい値を交差する
数を時間の経過と共に逐次計数し、この計数結果をクロ
ス数データとして順次出力するクロス数カウント手段と
、前記クロス数データに基づいて音声信号の始端および
終端を検出する検出手段と、音声信号の始端検出前にお
いて前記しきい値を第１の値に設定し、前記検出手段が
音声信号の始端を検出した時点以後前記しきい値を前記
第１の値より零レベルに近い第２の値に変更制御する制
御手段とを具備してなり、前記検出手段によつて検出さ
れた音声信号の始端および終端に基づいて音声パラメー
タを検出することを特徴とする音声パラメータ検出装置
。