JPS63127296A - 音声区間検出方式 - Google Patents
音声区間検出方式Info
- Publication number
- JPS63127296A JPS63127296A JP61274290A JP27429086A JPS63127296A JP S63127296 A JPS63127296 A JP S63127296A JP 61274290 A JP61274290 A JP 61274290A JP 27429086 A JP27429086 A JP 27429086A JP S63127296 A JPS63127296 A JP S63127296A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- section
- candidate
- speech
- average energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims description 15
- 239000000284 extract Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000000034 method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- SYHGEUNFJIGTRX-UHFFFAOYSA-N methylenedioxypyrovalerone Chemical compound C=1C=C2OCOC2=CC=1C(=O)C(CCC)N1CCCC1 SYHGEUNFJIGTRX-UHFFFAOYSA-N 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
夜東分号
本発明は、音声認識における音声区間の検出に関する。
従来技術
音声認識装置を実現する上で音声区間をいかに忠実に切
り出すかは非常に重要であり、この音声区間の切り出し
が装置の能力を左右する。音声区間の切り出し方はいく
つか考えられるが、その代表的なものは第5図に示すよ
うなもので、図示のように閾値T1を決めておき、入力
された信号のエルネギ−が該閾値T、を越えた時点t、
から該閾値T1を下る時点までを音声区間Sとするもの
である。ただし、この区間内に第2の閾値T2 (T2
〉T、)を越える部分がある時に限り、上記区間を音声
区間とする。しかしながら、第6図に示すように音声の
前に口唇の開閉台S□が出ることがある。つまり、音声
を発声しようと口を開けた時に口唇の音が出てしまうも
ので、これは避は難いものであり、この音の特徴は経続
時間が短く周波数帯域が広いことで、短時間にかなりの
エネルギーが集中していることである。そこで、音声の
始端につく短いパルス状のものは雑音を無視するような
方式があるが、第6図のごとく口唇開閉音S0に続いて
息音S2が入ってくるような場合、これを無視しきれず
、これらの雑音を含んだ音まで音声であると判定しく正
しい音声はSである)、認識部へ転送してしまうため、
認識しにくいという欠点がある。
り出すかは非常に重要であり、この音声区間の切り出し
が装置の能力を左右する。音声区間の切り出し方はいく
つか考えられるが、その代表的なものは第5図に示すよ
うなもので、図示のように閾値T1を決めておき、入力
された信号のエルネギ−が該閾値T、を越えた時点t、
から該閾値T1を下る時点までを音声区間Sとするもの
である。ただし、この区間内に第2の閾値T2 (T2
〉T、)を越える部分がある時に限り、上記区間を音声
区間とする。しかしながら、第6図に示すように音声の
前に口唇の開閉台S□が出ることがある。つまり、音声
を発声しようと口を開けた時に口唇の音が出てしまうも
ので、これは避は難いものであり、この音の特徴は経続
時間が短く周波数帯域が広いことで、短時間にかなりの
エネルギーが集中していることである。そこで、音声の
始端につく短いパルス状のものは雑音を無視するような
方式があるが、第6図のごとく口唇開閉音S0に続いて
息音S2が入ってくるような場合、これを無視しきれず
、これらの雑音を含んだ音まで音声であると判定しく正
しい音声はSである)、認識部へ転送してしまうため、
認識しにくいという欠点がある。
目 的
本発明は、上述のごとき実情に鑑みてなされたもので、
特に、音声を発声する際に出る口唇開閉音とそれに続く
息音をとり除くことを目的としてなされたものである。
特に、音声を発声する際に出る口唇開閉音とそれに続く
息音をとり除くことを目的としてなされたものである。
構 成
本発明は、上記目的を達成するために、音声を集音して
電気信号に変換し、変換された信号から音声に係る部分
だけを抽出する音声検出方式において、(1)第1の手
段を用いてあらかじめ音声の候補区間をみつけたあと、
その始端から終端までの音声長が100ms以上で、そ
の区間内の平均エネルギーが母音の平均エネルギーの1
/5から1/2程度で決定した閾値よりも大きい時、前
記音声候補を正しい音声区間として検出すること、或い
は、(2)第1の手段を用いてあらかじめ音声の候補区
間をみつけたあと、一定の区間内の平均エネルギーが母
音の平均的エネルギーの1/5から1/2程度に決定し
た閾値を越えるところまで候補始端をずらして真の音声
始端とするようにしたことを特徴としたものである。
電気信号に変換し、変換された信号から音声に係る部分
だけを抽出する音声検出方式において、(1)第1の手
段を用いてあらかじめ音声の候補区間をみつけたあと、
その始端から終端までの音声長が100ms以上で、そ
の区間内の平均エネルギーが母音の平均エネルギーの1
/5から1/2程度で決定した閾値よりも大きい時、前
記音声候補を正しい音声区間として検出すること、或い
は、(2)第1の手段を用いてあらかじめ音声の候補区
間をみつけたあと、一定の区間内の平均エネルギーが母
音の平均的エネルギーの1/5から1/2程度に決定し
た閾値を越えるところまで候補始端をずらして真の音声
始端とするようにしたことを特徴としたものである。
第1図は、本発明による音声区間検出方式の一実施例を
説明するためのブロック線図、第2図は、第1図の動作
説明をするためのフローチャートで、図中、1はマイク
ロフォンのような音響電気信号変換器、2は音声区間候
補検出部、3は音声エネルギー検出部、4はレジスタ、
5は加算器、6は比較器、7は基準値設定部、8は候補
区間長比較器、9は100+s発生部、10は音声キャ
ンセル部、11は音声成立部、12はリセット部、13
は音声認識処理部で、第1仰及び第2図に示した発明は
1口唇開閉音の持続時間は短く、息音帯域でのエネルギ
ーは小さいことに着目してなされたものであり、第1図
及び第2図に示した実施例は、音声を集音して電気信号
に変換し、変換された信号から音声に係る部分だけを抽
出する音声検出方式において、第1の手段を用いてあら
かじめ音声の候補区間をみつけたあと、その始端から終
端までの音声長が100ms以上で、その区間内の平均
エネルギーが母音の平均エネルギーの1/5から1/2
程度で決定した閾値よりも大きい時、前記音声候補を正
しい音声区間として検出するようにしたものである。ま
ず、マイクロフォンのような音響電気信号変換器1で音
を電気信号に変換し、音声区間候補検出部2で音声区間
の候補を検出すると共に、音声認識部13へ音声始端候
補検出の信号を送る。あらかじめリセットしておいたレ
ジスタ4の内容に音声区間の始端候補からのエネルギー
を加算して行く、エネルギー検出部3はエネルギーに準
するものが検出できれば良く1例えば、音声帯域が通過
するフィルターとその検波回路の出力で実現できる。こ
れを音声始端から100ms分、1011s毎にサンプ
ルしているなら、10個分を加算した時の値Rが決めら
れた値εより大きいかどうかを比較器6により判断し、
これよりも大なる時は音声候補は正しかったという信号
を認識処理部13へ発し、小なる時はこれは雑音であっ
たとして音声キャンセルの信号を送ると共に、レジスタ
4をリセットする。この場合εの決め方が問題であるが
、通常マイクの使用状態では息の音は直流成分が多く、
音声帯域外の部分が多いが、音声帯域の中に含まれてく
る大きさは故意に発した場合を除いて通常の母音のほぼ
1/5程度である。そこで、これよりもやや大きな値を
とる反面あまり大きくとると、必要な音声を雑音と判断
してしまうことになるので、115〜1/2の範囲が適
当である。又、100+ms分の加算で見る必要はなく
音声候補全体で見ても良い。ただ、一定の長さに決めて
おく方が、音声長で割って正規化する必要がなく便利で
ある。また、このような雑音が独立していなくて、その
まま音声に連続しているような場合のために、第1の手
段を用いてあらかじめ音声の候補区間をみつけたあと、
一定の区間内の平均エネルギーが母音の平均的エネルギ
ーの1/5から1/2程度に決定した閾値を越えるとこ
ろまで候補始端をずらして真の音声始端とするようにし
てもよい。
説明するためのブロック線図、第2図は、第1図の動作
説明をするためのフローチャートで、図中、1はマイク
ロフォンのような音響電気信号変換器、2は音声区間候
補検出部、3は音声エネルギー検出部、4はレジスタ、
5は加算器、6は比較器、7は基準値設定部、8は候補
区間長比較器、9は100+s発生部、10は音声キャ
ンセル部、11は音声成立部、12はリセット部、13
は音声認識処理部で、第1仰及び第2図に示した発明は
1口唇開閉音の持続時間は短く、息音帯域でのエネルギ
ーは小さいことに着目してなされたものであり、第1図
及び第2図に示した実施例は、音声を集音して電気信号
に変換し、変換された信号から音声に係る部分だけを抽
出する音声検出方式において、第1の手段を用いてあら
かじめ音声の候補区間をみつけたあと、その始端から終
端までの音声長が100ms以上で、その区間内の平均
エネルギーが母音の平均エネルギーの1/5から1/2
程度で決定した閾値よりも大きい時、前記音声候補を正
しい音声区間として検出するようにしたものである。ま
ず、マイクロフォンのような音響電気信号変換器1で音
を電気信号に変換し、音声区間候補検出部2で音声区間
の候補を検出すると共に、音声認識部13へ音声始端候
補検出の信号を送る。あらかじめリセットしておいたレ
ジスタ4の内容に音声区間の始端候補からのエネルギー
を加算して行く、エネルギー検出部3はエネルギーに準
するものが検出できれば良く1例えば、音声帯域が通過
するフィルターとその検波回路の出力で実現できる。こ
れを音声始端から100ms分、1011s毎にサンプ
ルしているなら、10個分を加算した時の値Rが決めら
れた値εより大きいかどうかを比較器6により判断し、
これよりも大なる時は音声候補は正しかったという信号
を認識処理部13へ発し、小なる時はこれは雑音であっ
たとして音声キャンセルの信号を送ると共に、レジスタ
4をリセットする。この場合εの決め方が問題であるが
、通常マイクの使用状態では息の音は直流成分が多く、
音声帯域外の部分が多いが、音声帯域の中に含まれてく
る大きさは故意に発した場合を除いて通常の母音のほぼ
1/5程度である。そこで、これよりもやや大きな値を
とる反面あまり大きくとると、必要な音声を雑音と判断
してしまうことになるので、115〜1/2の範囲が適
当である。又、100+ms分の加算で見る必要はなく
音声候補全体で見ても良い。ただ、一定の長さに決めて
おく方が、音声長で割って正規化する必要がなく便利で
ある。また、このような雑音が独立していなくて、その
まま音声に連続しているような場合のために、第1の手
段を用いてあらかじめ音声の候補区間をみつけたあと、
一定の区間内の平均エネルギーが母音の平均的エネルギ
ーの1/5から1/2程度に決定した閾値を越えるとこ
ろまで候補始端をずらして真の音声始端とするようにし
てもよい。
第3図は、上述のようにして候補始端をずらして真の音
声始端とするようにした場合の一実施例を説明するため
のブロック線図1、第4図は、第3図の動作説明をする
ためのフローチャートで、図中、14は始端移動部を示
し、その他第1図に示した実施例と同様の作用をする部
分には、第1図の場合と同一の参照番号が付しである。
声始端とするようにした場合の一実施例を説明するため
のブロック線図1、第4図は、第3図の動作説明をする
ためのフローチャートで、図中、14は始端移動部を示
し、その他第1図に示した実施例と同様の作用をする部
分には、第1図の場合と同一の参照番号が付しである。
而して、この実施例においては、100+as分のエネ
ルギーの平均がCよりも小さい場合、先に候補として認
識処理部へ伝達した信号を訂正し、平均をとっている現
時点へ始端をずらすようにしている。
ルギーの平均がCよりも小さい場合、先に候補として認
識処理部へ伝達した信号を訂正し、平均をとっている現
時点へ始端をずらすようにしている。
効 果
以上の説明から明らかなように、本発明によると、口唇
開閉に伴って発せられる音と急行を除去することができ
、その結果、精度の良い認識が可能となった。
開閉に伴って発せられる音と急行を除去することができ
、その結果、精度の良い認識が可能となった。
第1図は、本発明による音声区間検出方式の一実施例を
説明するためのブロック線図、第2図は、第1図の動作
説明をするためのフローチャート、第3図は、本発明の
他の実施例を説明するためのブロック線図、第4図は、
第3図の動作説明をするためのフローチャート、第5図
及び第6図は、それぞれ従来の音声認識の動作原理を説
明するための音声エネルギー波形図である。 1・・・マイクロフォン、2・・・音声区間候補検出部
。 3・・・音声エネルギー検出部、4・・パレジスタ、5
・・・加算器、6・・・比較器、7・・・基準値設定部
、8・・・候補区間長比較器、9・・・100ms発生
部、10・・・音声キャンセル部、11・・・音声成立
部、12・・・リセット部、13・・・音声v!、識処
理部、14・・・始端移動部。 第 1 図 第 2 図 第3図 第 4 図
説明するためのブロック線図、第2図は、第1図の動作
説明をするためのフローチャート、第3図は、本発明の
他の実施例を説明するためのブロック線図、第4図は、
第3図の動作説明をするためのフローチャート、第5図
及び第6図は、それぞれ従来の音声認識の動作原理を説
明するための音声エネルギー波形図である。 1・・・マイクロフォン、2・・・音声区間候補検出部
。 3・・・音声エネルギー検出部、4・・パレジスタ、5
・・・加算器、6・・・比較器、7・・・基準値設定部
、8・・・候補区間長比較器、9・・・100ms発生
部、10・・・音声キャンセル部、11・・・音声成立
部、12・・・リセット部、13・・・音声v!、識処
理部、14・・・始端移動部。 第 1 図 第 2 図 第3図 第 4 図
Claims (2)
- (1)音声を集音して電気信号に変換し、変換された信
号から音声に係る部分だけを抽出する音声検出方式にお
いて、第1の手段を用いてあらかじめ音声の候補区間を
みつけたあと、その始端から終端までの音声長が100
ms以上で、その区間内の平均エネルギーが母音の平均
エネルギーの1/5から1/2程度で決定した閾値より
も大きい時、前記音声候補を正しい音声区間として検出
することを特徴とする音声区間検出方式。 - (2)音声を集音して電気信号に変換し、変換された信
号から音声に係る部分だけを抽出する音声検出方式にお
いて、第1の手段を用いてあらかじめ音声の候補区間を
みつけたあと、一定の区間内の平均エネルギーが母音の
平均的エネルギーの1/5から1/2程度に決定した閾
値を越えるところまで候補始端をずらして真の音声始端
とするようにしたことを特徴とする音声区間検出方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61274290A JPS63127296A (ja) | 1986-11-18 | 1986-11-18 | 音声区間検出方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61274290A JPS63127296A (ja) | 1986-11-18 | 1986-11-18 | 音声区間検出方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS63127296A true JPS63127296A (ja) | 1988-05-31 |
Family
ID=17539582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61274290A Pending JPS63127296A (ja) | 1986-11-18 | 1986-11-18 | 音声区間検出方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS63127296A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020003783A (ja) * | 2018-06-21 | 2020-01-09 | カシオ計算機株式会社 | 音声期間検出装置、音声期間検出方法、プログラム、音声認識装置、及びロボット |
-
1986
- 1986-11-18 JP JP61274290A patent/JPS63127296A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020003783A (ja) * | 2018-06-21 | 2020-01-09 | カシオ計算機株式会社 | 音声期間検出装置、音声期間検出方法、プログラム、音声認識装置、及びロボット |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
NO903936D0 (no) | Deteksjon av stemme-aktivitet. | |
JPS6245730B2 (ja) | ||
JPS63127296A (ja) | 音声区間検出方式 | |
JP2737109B2 (ja) | 音声区間検出方式 | |
JPH03114100A (ja) | 音声区間検出装置 | |
JP3484559B2 (ja) | 音声認識装置および音声認識方法 | |
JPS60101598A (ja) | 音声区間検出装置 | |
JPS6250837B2 (ja) | ||
JPS63127295A (ja) | 音声区間検出方式 | |
JPS62238599A (ja) | 音声区間検出方法 | |
JPS61177499A (ja) | 音声区間検出方式 | |
JPH0394300A (ja) | 音声検出器 | |
JPS6217800A (ja) | 音声区間判定方式 | |
JP3033537B2 (ja) | 音声検出器 | |
JPS6177099A (ja) | 音声認識方法 | |
JPS63226691A (ja) | 標準パターン作成方式 | |
KR20010046522A (ko) | 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법 | |
JPH06175676A (ja) | 音声検出器 | |
JPS63306498A (ja) | 音声区間検出方式 | |
JPS63266497A (ja) | 音声認識装置 | |
JPH0573034B2 (ja) | ||
JPS6265099A (ja) | 音声認識装置 | |
JPS59219797A (ja) | 音声区間切り出し方式 | |
JPS6265087A (ja) | 不特定話者用音声認識装置 | |
JPS58120298A (ja) | 摩擦音検出装置 |