JPS63247798A - 音声区間検出装置 - Google Patents
音声区間検出装置Info
- Publication number
- JPS63247798A JPS63247798A JP62079673A JP7967387A JPS63247798A JP S63247798 A JPS63247798 A JP S63247798A JP 62079673 A JP62079673 A JP 62079673A JP 7967387 A JP7967387 A JP 7967387A JP S63247798 A JPS63247798 A JP S63247798A
- Authority
- JP
- Japan
- Prior art keywords
- threshold
- section
- voice
- speech
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 claims description 32
- 238000010586 diagram Methods 0.000 description 10
- 238000000034 method Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000003708 edge detection Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔概 要〕
音声認識装置における音声区間検出方式において、音声
信号の語頭における音声区間しきい値を小さく設定して
音声脱落の確率を下げ、語尾におけるしきい値を前記し
きい値より大きく設定してノイズ付加の確率を下げるよ
うにしたものである。
信号の語頭における音声区間しきい値を小さく設定して
音声脱落の確率を下げ、語尾におけるしきい値を前記し
きい値より大きく設定してノイズ付加の確率を下げるよ
うにしたものである。
本発明は音声区間検出方式に関し、特に、電算機を使用
する音声認識における音声区間と無声区間およびノイズ
との識別を容易ならしめる検出方式に関する。
する音声認識における音声区間と無声区間およびノイズ
との識別を容易ならしめる検出方式に関する。
人間の発声した音声を電算機を使用して特徴抽出を行い
自動的に検出する方式は、既に広く応用されている。そ
の典型的な手法の一つとしては、連続発声した音声信号
から単音節や音韻に区分するセグメンテーシ日ンを行な
い、この単音節を音声認識するものである。単音節の認
識によってさらに高度な単語認識や会話音声の認識等へ
拡張していくことができる。現在のところ完成なセグメ
ンテーションの行える方式はまだないが、例えば単音節
のパワー値が所定のしきい値を越えたものは音声とみな
す方法は知られている。即ち、パワー値が発声の一定時
間(Lv)以上にわたってパワーしきい値(P、)を越
えているときはその区間を音声とみなす方法である。
自動的に検出する方式は、既に広く応用されている。そ
の典型的な手法の一つとしては、連続発声した音声信号
から単音節や音韻に区分するセグメンテーシ日ンを行な
い、この単音節を音声認識するものである。単音節の認
識によってさらに高度な単語認識や会話音声の認識等へ
拡張していくことができる。現在のところ完成なセグメ
ンテーションの行える方式はまだないが、例えば単音節
のパワー値が所定のしきい値を越えたものは音声とみな
す方法は知られている。即ち、パワー値が発声の一定時
間(Lv)以上にわたってパワーしきい値(P、)を越
えているときはその区間を音声とみなす方法である。
第5図(a)〜(c)は音声信号のパワー値(P)と発
声時間(T)との関係を示すパターン例である。ここで
Toは音声区間である。(a)は例えば“あ”、“お”
、“も”、“す”と発声した場合で、しきい値PL以上
で音声区間のしきい値Lvについてすべての単音節のパ
ワーが存在するため認識に問題はない。(b)の場合は
、例えば、“あ”、“い”、“ち”と発声したとき、無
音図゛間の時間しきい値り、を設けて、しきい値し、以
下のときは“あ”、′い”、′ち”は−回の発声による
ものとみなしている。このときの無音区間り、はパワー
の低い(しきい値P1以下の)音声とみることができる
。また、(c)の場合は、例えば、“さ”、“っ”、“
ぼ”、“ろ”と発声、したときで、6つ”の区間がしき
い値PL以下でありかつ時間しきい値し3以上であるた
め音声なのかノイズなのか判断しにくい。
声時間(T)との関係を示すパターン例である。ここで
Toは音声区間である。(a)は例えば“あ”、“お”
、“も”、“す”と発声した場合で、しきい値PL以上
で音声区間のしきい値Lvについてすべての単音節のパ
ワーが存在するため認識に問題はない。(b)の場合は
、例えば、“あ”、“い”、“ち”と発声したとき、無
音図゛間の時間しきい値り、を設けて、しきい値し、以
下のときは“あ”、′い”、′ち”は−回の発声による
ものとみなしている。このときの無音区間り、はパワー
の低い(しきい値P1以下の)音声とみることができる
。また、(c)の場合は、例えば、“さ”、“っ”、“
ぼ”、“ろ”と発声、したときで、6つ”の区間がしき
い値PL以下でありかつ時間しきい値し3以上であるた
め音声なのかノイズなのか判断しにくい。
第6図(a)〜(d)は従来の検出方式を説明するパタ
ーン図である。(a)は音声区間T0がすべてしきい値
21以上であるため認識の問題はない。(b)は区間T
+が音声区間の時間しきい値Lv以下なのでノイズとみ
なし音声区間としない。(C)は区間T2およびT、が
しきい値Lvより大なので音声区間とみなし、区間T4
は無音区間のしきい値L3以下なのでノイズとはみなさ
ない。結局この場合には区間(Tt +T’、 +Ti
)が音声区間とみなされる。(d)は区間T!1とT
。
ーン図である。(a)は音声区間T0がすべてしきい値
21以上であるため認識の問題はない。(b)は区間T
+が音声区間の時間しきい値Lv以下なのでノイズとみ
なし音声区間としない。(C)は区間T2およびT、が
しきい値Lvより大なので音声区間とみなし、区間T4
は無音区間のしきい値L3以下なのでノイズとはみなさ
ない。結局この場合には区間(Tt +T’、 +Ti
)が音声区間とみなされる。(d)は区間T!1とT
。
がしきい値Lv以下なのでノイズと見なされ、区間T6
はしきい値Lv以上なので音声区間と見なされる。
はしきい値Lv以上なので音声区間と見なされる。
しかしながら、上記のような方法により検出したときは
次のような問題がある。即ち、音声信号の始まり(始端
部)では音声の脱落が起き易く、音声信号の終り(終端
部)ではノイズの付加が起き易いことである。このよう
に始端部(もしくは語頭)と終端部(もしくは語尾)と
で異なる傾向が現われる要因には2つある。1つは、日
本語の ・場合単語の先頭音節は短かく語尾の音節は長
めに発声される傾向にあること、2つは、単語の終端部
では発声が不安定となり、一度パワー値が低くなった後
に小さな山が多く現われることである。
次のような問題がある。即ち、音声信号の始まり(始端
部)では音声の脱落が起き易く、音声信号の終り(終端
部)ではノイズの付加が起き易いことである。このよう
に始端部(もしくは語頭)と終端部(もしくは語尾)と
で異なる傾向が現われる要因には2つある。1つは、日
本語の ・場合単語の先頭音節は短かく語尾の音節は長
めに発声される傾向にあること、2つは、単語の終端部
では発声が不安定となり、一度パワー値が低くなった後
に小さな山が多く現われることである。
後者の場合は、発声者自身が出す音なので音声とみなす
ことができるが、音声認識を行なう場合にはこの部分が
音声区間に含まれると、誤認識の原因となるためこの部
分を音声区間に含めることは好ましくない。
ことができるが、音声認識を行なう場合にはこの部分が
音声区間に含まれると、誤認識の原因となるためこの部
分を音声区間に含めることは好ましくない。
〔問題点を解決するための手段および作用〕本発明は上
述の問題点を解消した音声区間検出方式を提供すること
にあり、本発明の原理は、音声(特に単語音声)の検出
において、音声区間の時間しきい値を語頭と語尾とで変
えることにあり、具体的には、語頭においては音声区間
の第1のしきい値Lvを小さく設定し、語尾においては
このしきい値よりも大きい第2のしきい値を設定するも
のである。これにより、従来問題となっていた語頭にお
ける音声の脱落と語尾におけるノイズの付加を低減する
ことができ音声区間検出の精度を著しく向上させること
ができる。
述の問題点を解消した音声区間検出方式を提供すること
にあり、本発明の原理は、音声(特に単語音声)の検出
において、音声区間の時間しきい値を語頭と語尾とで変
えることにあり、具体的には、語頭においては音声区間
の第1のしきい値Lvを小さく設定し、語尾においては
このしきい値よりも大きい第2のしきい値を設定するも
のである。これにより、従来問題となっていた語頭にお
ける音声の脱落と語尾におけるノイズの付加を低減する
ことができ音声区間検出の精度を著しく向上させること
ができる。
第1図(a)、(b)は本発明の詳細な説明する特性図
である。(a)は音声の語頭の場合、(b)は音声の語
尾の場合である。(a )+ (b )において、縦軸
PROはノイズ付加の確率および音声脱落の確率であり
、横軸Lvは音声区間の時間しきい値である。また、■
、および■ゎはノイズ付加の確率曲線、■1および■ゎ
は音声脱落の確率曲線、そして■、および■、はLvの
最適値を得るための誤り確率曲線である。
である。(a)は音声の語頭の場合、(b)は音声の語
尾の場合である。(a )+ (b )において、縦軸
PROはノイズ付加の確率および音声脱落の確率であり
、横軸Lvは音声区間の時間しきい値である。また、■
、および■ゎはノイズ付加の確率曲線、■1および■ゎ
は音声脱落の確率曲線、そして■、および■、はLvの
最適値を得るための誤り確率曲線である。
(a)において、語頭の場合にはしきい値Lvが大きけ
れば大きい程11に示す如くノイズ付加の確率は減少し
ていくが、逆に、音声脱落の確率は■、に示す如く急激
に増大する。また、しきい値を小さくしていけばノイズ
付加の確率は急激に増大し、音声脱落の確率は減少する
。これらの曲線から、曲線■、と■、の和である曲線■
1は図示の如く極小値を持つ曲線となる。この極小値に
おけるしきい値をLv、とすると、L Vmは語頭のと
きの最適しきい値を示しており、このしきい値L Vl
mはノイズ付加の確率と音声脱落の確率がバランスした
有効な値となる。この場合、Wは騒音環境等によって異
なるが、およそ70s+s前後である。
れば大きい程11に示す如くノイズ付加の確率は減少し
ていくが、逆に、音声脱落の確率は■、に示す如く急激
に増大する。また、しきい値を小さくしていけばノイズ
付加の確率は急激に増大し、音声脱落の確率は減少する
。これらの曲線から、曲線■、と■、の和である曲線■
1は図示の如く極小値を持つ曲線となる。この極小値に
おけるしきい値をLv、とすると、L Vmは語頭のと
きの最適しきい値を示しており、このしきい値L Vl
mはノイズ付加の確率と音声脱落の確率がバランスした
有効な値となる。この場合、Wは騒音環境等によって異
なるが、およそ70s+s前後である。
(b)は語尾の場合を示している0語尾の場合は語頭に
比べてLvが大の方に寄っている。(a)と同様のパタ
ーンなので詳細説明を省略するが、Lvbは語尾のとき
の最適しきい値を示しており、125m5前後である。
比べてLvが大の方に寄っている。(a)と同様のパタ
ーンなので詳細説明を省略するが、Lvbは語尾のとき
の最適しきい値を示しており、125m5前後である。
即ち、語尾でのしきい値Lvbはノイズ付加の確率と音
声脱落の確率がバランスした125m5が有効な値とな
る。
声脱落の確率がバランスした125m5が有効な値とな
る。
このように、音声区間検出において語頭と語尾とのしき
い値を変えることによってノイズ付加と音声脱落の確率
の共に低い検出を行い得ることが判明した。
い値を変えることによってノイズ付加と音声脱落の確率
の共に低い検出を行い得ることが判明した。
第2図は本発明の音声区間検出方式を実現する装置の概
略構成図である。マイクロホン21から入力された音声
信号は、プリエンファシス部22において高域強調され
た後、一方はパワー値抽出部23において音声の特徴パ
ラメータの一つであるエネルギ分布の抽出が、サンプリ
ングにより時系的になされ、複数のフィルタからなるバ
ンドパスフィルタ部24において特徴抽出がなされる0
区間検出部26では後述する第3図に示すようにパワー
値の時系列PW(i)にもとづいて音声区間の検出が行
われる。音声認識出力部27は音声辞書を有しこれを参
照しつつパターンマツチングを行い認識結果をスピーカ
28から出力する。
略構成図である。マイクロホン21から入力された音声
信号は、プリエンファシス部22において高域強調され
た後、一方はパワー値抽出部23において音声の特徴パ
ラメータの一つであるエネルギ分布の抽出が、サンプリ
ングにより時系的になされ、複数のフィルタからなるバ
ンドパスフィルタ部24において特徴抽出がなされる0
区間検出部26では後述する第3図に示すようにパワー
値の時系列PW(i)にもとづいて音声区間の検出が行
われる。音声認識出力部27は音声辞書を有しこれを参
照しつつパターンマツチングを行い認識結果をスピーカ
28から出力する。
制御部25は区間検出部26および音声認識出力部27
等を制御する。
等を制御する。
第3図は第2図の区間検出部26を詳細に示すブロック
図である。第3図において、261は音声の語頭(始端
)を検出する始端検出部、262は語尾(終端)を検出
する終端検出部、263は各種しきい値データP L
+ L va + L vb * L s等を格納す
るしきい値格納部である。始端検出部261と終端検出
部262には前段のパワー値抽出部23から、パワー値
の例えば10m5のサンプリング値PW(i)がシリー
ズに入力される。始端検出部261ではフレームごとに
しきい値格納部263から読み出されたパワーのしきい
値PLとパワーの時系列PW(i)との大小が比較され
、さらに、語頭の第1のしきい値L Vm、無声区間の
しきい値L3とサンプリングフレームの位置が比較され
る。終端検出部262では同様にフレームごとにパワー
しきい値PLと時系列PW(i)との大小が比較され、
さらに語尾の第2のしきい値Lvい無声区間のしきい値
し。
図である。第3図において、261は音声の語頭(始端
)を検出する始端検出部、262は語尾(終端)を検出
する終端検出部、263は各種しきい値データP L
+ L va + L vb * L s等を格納す
るしきい値格納部である。始端検出部261と終端検出
部262には前段のパワー値抽出部23から、パワー値
の例えば10m5のサンプリング値PW(i)がシリー
ズに入力される。始端検出部261ではフレームごとに
しきい値格納部263から読み出されたパワーのしきい
値PLとパワーの時系列PW(i)との大小が比較され
、さらに、語頭の第1のしきい値L Vm、無声区間の
しきい値L3とサンプリングフレームの位置が比較され
る。終端検出部262では同様にフレームごとにパワー
しきい値PLと時系列PW(i)との大小が比較され、
さらに語尾の第2のしきい値Lvい無声区間のしきい値
し。
とサンプリングフレームの位置が比較される。終端検出
部262では始端検出部261とこれらのデータとを合
せて始端終端位置情報Sを音声認識出力部27に出力す
る。
部262では始端検出部261とこれらのデータとを合
せて始端終端位置情報Sを音声認識出力部27に出力す
る。
第4図は第3図の区間キ★出部における処理のフ・ロー
チャートである。フローチャートの前半のステップ1〜
9は始端検出部261における処理、後半のステップl
O〜21は終端検出部262における処理である。第4
図において、iはサンプリングされたフレーム番号、i
、はしきい値の開始のフレーム番号、jは始端側のしき
い値を連続して越えているフレーム数、i、はしきい値
の終りのフレーム番号、kは終端側のしきい値を連続し
て下まわっているフレーム数である。フローチャートに
示すように、パワー値抽出部23からのパワー値の時系
列PW(i)とパワー値のしきい4fj P 1.とが
各フレームについてその大小を比較しくステップ3)
、PW(i)<Ptであればステップ2が繰り返えされ
る。PW(i)≧PLとなったときそのフレーム番号i
3が記憶され、PW(i)≧ptが続く間はステップ6
.7が繰り返えされる。ステップ8においてPW(i)
<PH,のとき語頭のしきい値Lv、か否か判断され、
(ステップ9)、フレーム数jがしきい値L vaを越
えていれば次に終端処理に入る。越えていなければまだ
音声が入力されてないとみなしてステップ2に戻る。終
端においても同様なステップをとるが、ステップ14に
おいてP W (J) < p tのときはステップ2
1において無声区間り、か否かの判断が行われ無声区間
でなければ、即ち、フレーム数kがL3より大であれば
音声区間検出は始端検出部において終了し、小であって
無声区間であればステップ12に戻る。
チャートである。フローチャートの前半のステップ1〜
9は始端検出部261における処理、後半のステップl
O〜21は終端検出部262における処理である。第4
図において、iはサンプリングされたフレーム番号、i
、はしきい値の開始のフレーム番号、jは始端側のしき
い値を連続して越えているフレーム数、i、はしきい値
の終りのフレーム番号、kは終端側のしきい値を連続し
て下まわっているフレーム数である。フローチャートに
示すように、パワー値抽出部23からのパワー値の時系
列PW(i)とパワー値のしきい4fj P 1.とが
各フレームについてその大小を比較しくステップ3)
、PW(i)<Ptであればステップ2が繰り返えされ
る。PW(i)≧PLとなったときそのフレーム番号i
3が記憶され、PW(i)≧ptが続く間はステップ6
.7が繰り返えされる。ステップ8においてPW(i)
<PH,のとき語頭のしきい値Lv、か否か判断され、
(ステップ9)、フレーム数jがしきい値L vaを越
えていれば次に終端処理に入る。越えていなければまだ
音声が入力されてないとみなしてステップ2に戻る。終
端においても同様なステップをとるが、ステップ14に
おいてP W (J) < p tのときはステップ2
1において無声区間り、か否かの判断が行われ無声区間
でなければ、即ち、フレーム数kがL3より大であれば
音声区間検出は始端検出部において終了し、小であって
無声区間であればステップ12に戻る。
そして、ステップ19においてPW(i)≧PLであれ
ば、ステップ20にて語尾のしきい値Lwbか否かが判
断され、しきい値Lv&がフレーム数jより大であれば
ステップ21にて無声区間のしきい値L3が判断され音
声区間検出は終了する。
ば、ステップ20にて語尾のしきい値Lwbか否かが判
断され、しきい値Lv&がフレーム数jより大であれば
ステップ21にて無声区間のしきい値L3が判断され音
声区間検出は終了する。
結局、音声の始端フレームは、11、終端フレームはi
6として求まることになる。
6として求まることになる。
以上説明したように、本発明によれば、音声区間検出に
おいて語頭と語尾のしきい値を変えるようにしたので語
頭における音声の脱落、語尾におけるノイズの付加を著
しく低減することができ1、音声区間検出の精度を著し
く向上させることができる。
おいて語頭と語尾のしきい値を変えるようにしたので語
頭における音声の脱落、語尾におけるノイズの付加を著
しく低減することができ1、音声区間検出の精度を著し
く向上させることができる。
第1図は本発明の詳細な説明する特性図、第2図は本発
明の一実施例装置構成図、第3図は第2図区間検出部の
詳細図、 第4図は本発明の処理フローチャート、第5図は音声の
パワー値と発声時間との関係を示すパターン図、および 第6図はは従来の検出方式を説明するパターン図である
。 (符号の説明) 21・・・マイクロホン、 22・・・プリエンファシス部、 23・・・パワー抽出部、 24・・・バンドパスフィルタ部、 25・・・制御部、 26・・・区間検出部、2
7・・・音声認識出力部、28・・・スピーカ、261
・・・始端検出部、 262・・・終端検出部、26
3・・・しきい値格納部。 ■ 音声のパワー値と発声時間との関係を示す・やターン図
第5図
明の一実施例装置構成図、第3図は第2図区間検出部の
詳細図、 第4図は本発明の処理フローチャート、第5図は音声の
パワー値と発声時間との関係を示すパターン図、および 第6図はは従来の検出方式を説明するパターン図である
。 (符号の説明) 21・・・マイクロホン、 22・・・プリエンファシス部、 23・・・パワー抽出部、 24・・・バンドパスフィルタ部、 25・・・制御部、 26・・・区間検出部、2
7・・・音声認識出力部、28・・・スピーカ、261
・・・始端検出部、 262・・・終端検出部、26
3・・・しきい値格納部。 ■ 音声のパワー値と発声時間との関係を示す・やターン図
第5図
Claims (1)
- 1、電算機を用いた音声認識装置の音声区間検出方式に
おいて、入力される音声信号の始端部における音声パワ
ー値と所定のパワーしきい値および音声区間の第1のし
きい値を比較する始端検出部と、音声信号の終端部にお
ける音声パワー値と前記所定のパワーしきい値および音
声区間の前記第1のしきい値より大なる第2のしきい値
を比較する終端検出部と、前記パワーしきい値および前
記第1および第2のしきい値を格納するしきい値格納部
とを備え、音声区間の検出に際し、音声信号の語頭では
前記第1のしきい値により、音声信号の語尾では前記第
2のしきい値により比較し音声区間を検出するようにし
た音声区間検出方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62079673A JP2891259B2 (ja) | 1987-04-02 | 1987-04-02 | 音声区間検出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62079673A JP2891259B2 (ja) | 1987-04-02 | 1987-04-02 | 音声区間検出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS63247798A true JPS63247798A (ja) | 1988-10-14 |
JP2891259B2 JP2891259B2 (ja) | 1999-05-17 |
Family
ID=13696707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62079673A Expired - Fee Related JP2891259B2 (ja) | 1987-04-02 | 1987-04-02 | 音声区間検出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2891259B2 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61140999A (ja) * | 1984-12-13 | 1986-06-28 | 沖電気工業株式会社 | 音声区間検出方式 |
-
1987
- 1987-04-02 JP JP62079673A patent/JP2891259B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61140999A (ja) * | 1984-12-13 | 1986-06-28 | 沖電気工業株式会社 | 音声区間検出方式 |
Also Published As
Publication number | Publication date |
---|---|
JP2891259B2 (ja) | 1999-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS58130393A (ja) | 音声認識装置 | |
JP3069531B2 (ja) | 音声認識方法 | |
JP2996019B2 (ja) | 音声認識装置 | |
JP3513030B2 (ja) | データ再生装置 | |
JPS63247798A (ja) | 音声区間検出装置 | |
JPH034918B2 (ja) | ||
JPS6312000A (ja) | 音声認識装置 | |
JPS59143200A (ja) | 連続音声認識装置 | |
JPH05303391A (ja) | 音声認識装置 | |
JPS61260299A (ja) | 音声認識装置 | |
JPS63161499A (ja) | 音声認識装置 | |
JPH0316038B2 (ja) | ||
Sahu et al. | Odia isolated word recognition using DTW | |
JPS5925240B2 (ja) | 音声区間の語頭検出方式 | |
JP2002287781A (ja) | 音声認識装置 | |
JPS59180598A (ja) | 音声入力方式 | |
JPS6225796A (ja) | 音声認識装置 | |
JPS63217399A (ja) | 音声区間検出装置 | |
JPS5936299A (ja) | 音声認識装置 | |
JPS607492A (ja) | 単音節音声認識方式 | |
JPS6310437B2 (ja) | ||
JPH08110797A (ja) | パターンマッチング装置 | |
JPH0731506B2 (ja) | 音声認識方法 | |
JPS6039699A (ja) | 音声認識方法 | |
JPS6027000A (ja) | パタンマツチング方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |