JPS63127296A

JPS63127296A - 音声区間検出方式

Info

Publication number: JPS63127296A
Application number: JP61274290A
Authority: JP
Inventors: 潤一郎藤本; 金内　邦容
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1986-11-18
Filing date: 1986-11-18
Publication date: 1988-05-31

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】夜東分号本発明は、音声認識における音声区間の検出に関する。

従来技術音声認識装置を実現する上で音声区間をいかに忠実に切
り出すかは非常に重要であり、この音声区間の切り出し
が装置の能力を左右する。音声区間の切り出し方はいく
つか考えられるが、その代表的なものは第５図に示すよ
うなもので、図示のように閾値Ｔ１を決めておき、入力
された信号のエルネギ−が該閾値Ｔ、を越えた時点ｔ、
から該閾値Ｔ１を下る時点までを音声区間Ｓとするもの
である。ただし、この区間内に第２の閾値Ｔ２　（Ｔ２
〉Ｔ、）を越える部分がある時に限り、上記区間を音声
区間とする。しかしながら、第６図に示すように音声の
前に口唇の開閉台Ｓ□が出ることがある。つまり、音声
を発声しようと口を開けた時に口唇の音が出てしまうも
ので、これは避は難いものであり、この音の特徴は経続
時間が短く周波数帯域が広いことで、短時間にかなりの
エネルギーが集中していることである。そこで、音声の
始端につく短いパルス状のものは雑音を無視するような
方式があるが、第６図のごとく口唇開閉音Ｓ０に続いて
息音Ｓ２が入ってくるような場合、これを無視しきれず
、これらの雑音を含んだ音まで音声であると判定しく正
しい音声はＳである）、認識部へ転送してしまうため、
認識しにくいという欠点がある。

目　　　　　的本発明は、上述のごとき実情に鑑みてなされたもので、
特に、音声を発声する際に出る口唇開閉音とそれに続く
息音をとり除くことを目的としてなされたものである。

構　　　成本発明は、上記目的を達成するために、音声を集音して
電気信号に変換し、変換された信号から音声に係る部分
だけを抽出する音声検出方式において、（１）第１の手
段を用いてあらかじめ音声の候補区間をみつけたあと、
その始端から終端までの音声長が１００ｍｓ以上で、そ
の区間内の平均エネルギーが母音の平均エネルギーの１
／５から１／２程度で決定した閾値よりも大きい時、前
記音声候補を正しい音声区間として検出すること、或い
は、（２）第１の手段を用いてあらかじめ音声の候補区
間をみつけたあと、一定の区間内の平均エネルギーが母
音の平均的エネルギーの１／５から１／２程度に決定し
た閾値を越えるところまで候補始端をずらして真の音声
始端とするようにしたことを特徴としたものである。

第１図は、本発明による音声区間検出方式の一実施例を
説明するためのブロック線図、第２図は、第１図の動作
説明をするためのフローチャートで、図中、１はマイク
ロフォンのような音響電気信号変換器、２は音声区間候
補検出部、３は音声エネルギー検出部、４はレジスタ、
５は加算器、６は比較器、７は基準値設定部、８は候補
区間長比較器、９は１００＋ｓ発生部、１０は音声キャ
ンセル部、１１は音声成立部、１２はリセット部、１３
は音声認識処理部で、第１仰及び第２図に示した発明は
１口唇開閉音の持続時間は短く、息音帯域でのエネルギ
ーは小さいことに着目してなされたものであり、第１図
及び第２図に示した実施例は、音声を集音して電気信号
に変換し、変換された信号から音声に係る部分だけを抽
出する音声検出方式において、第１の手段を用いてあら
かじめ音声の候補区間をみつけたあと、その始端から終
端までの音声長が１００ｍｓ以上で、その区間内の平均
エネルギーが母音の平均エネルギーの１／５から１／２
程度で決定した閾値よりも大きい時、前記音声候補を正
しい音声区間として検出するようにしたものである。ま
ず、マイクロフォンのような音響電気信号変換器１で音
を電気信号に変換し、音声区間候補検出部２で音声区間
の候補を検出すると共に、音声認識部１３へ音声始端候
補検出の信号を送る。あらかじめリセットしておいたレ
ジスタ４の内容に音声区間の始端候補からのエネルギー
を加算して行く、エネルギー検出部３はエネルギーに準
するものが検出できれば良く１例えば、音声帯域が通過
するフィルターとその検波回路の出力で実現できる。こ
れを音声始端から１００ｍｓ分、１０１１ｓ毎にサンプ
ルしているなら、１０個分を加算した時の値Ｒが決めら
れた値εより大きいかどうかを比較器６により判断し、
これよりも大なる時は音声候補は正しかったという信号
を認識処理部１３へ発し、小なる時はこれは雑音であっ
たとして音声キャンセルの信号を送ると共に、レジスタ
４をリセットする。この場合εの決め方が問題であるが
、通常マイクの使用状態では息の音は直流成分が多く、
音声帯域外の部分が多いが、音声帯域の中に含まれてく
る大きさは故意に発した場合を除いて通常の母音のほぼ
１／５程度である。そこで、これよりもやや大きな値を
とる反面あまり大きくとると、必要な音声を雑音と判断
してしまうことになるので、１１５〜１／２の範囲が適
当である。又、１００＋ｍｓ分の加算で見る必要はなく
音声候補全体で見ても良い。ただ、一定の長さに決めて
おく方が、音声長で割って正規化する必要がなく便利で
ある。また、このような雑音が独立していなくて、その
まま音声に連続しているような場合のために、第１の手
段を用いてあらかじめ音声の候補区間をみつけたあと、
一定の区間内の平均エネルギーが母音の平均的エネルギ
ーの１／５から１／２程度に決定した閾値を越えるとこ
ろまで候補始端をずらして真の音声始端とするようにし
てもよい。

第３図は、上述のようにして候補始端をずらして真の音
声始端とするようにした場合の一実施例を説明するため
のブロック線図１、第４図は、第３図の動作説明をする
ためのフローチャートで、図中、１４は始端移動部を示
し、その他第１図に示した実施例と同様の作用をする部
分には、第１図の場合と同一の参照番号が付しである。

而して、この実施例においては、１００＋ａｓ分のエネ
ルギーの平均がＣよりも小さい場合、先に候補として認
識処理部へ伝達した信号を訂正し、平均をとっている現
時点へ始端をずらすようにしている。

効　　　果以上の説明から明らかなように、本発明によると、口唇
開閉に伴って発せられる音と急行を除去することができ
、その結果、精度の良い認識が可能となった。

【図面の簡単な説明】

第１図は、本発明による音声区間検出方式の一実施例を
説明するためのブロック線図、第２図は、第１図の動作
説明をするためのフローチャート、第３図は、本発明の
他の実施例を説明するためのブロック線図、第４図は、
第３図の動作説明をするためのフローチャート、第５図
及び第６図は、それぞれ従来の音声認識の動作原理を説
明するための音声エネルギー波形図である。１・・・マイクロフォン、２・・・音声区間候補検出部
。３・・・音声エネルギー検出部、４・・パレジスタ、５
・・・加算器、６・・・比較器、７・・・基準値設定部
、８・・・候補区間長比較器、９・・・１００ｍｓ発生
部、１０・・・音声キャンセル部、１１・・・音声成立
部、１２・・・リセット部、１３・・・音声ｖ！、識処
理部、１４・・・始端移動部。第　　１　　図第　２　図第３図第　４　図

Claims

【特許請求の範囲】

（１）音声を集音して電気信号に変換し、変換された信
号から音声に係る部分だけを抽出する音声検出方式にお
いて、第１の手段を用いてあらかじめ音声の候補区間を
みつけたあと、その始端から終端までの音声長が１００
ｍｓ以上で、その区間内の平均エネルギーが母音の平均
エネルギーの１／５から１／２程度で決定した閾値より
も大きい時、前記音声候補を正しい音声区間として検出
することを特徴とする音声区間検出方式。
（２）音声を集音して電気信号に変換し、変換された信
号から音声に係る部分だけを抽出する音声検出方式にお
いて、第１の手段を用いてあらかじめ音声の候補区間を
みつけたあと、一定の区間内の平均エネルギーが母音の
平均的エネルギーの１／５から１／２程度に決定した閾
値を越えるところまで候補始端をずらして真の音声始端
とするようにしたことを特徴とする音声区間検出方式。