JPS61272796A - 音声区間検出方式 - Google Patents

音声区間検出方式

Info

Publication number
JPS61272796A
JPS61272796A JP60113143A JP11314385A JPS61272796A JP S61272796 A JPS61272796 A JP S61272796A JP 60113143 A JP60113143 A JP 60113143A JP 11314385 A JP11314385 A JP 11314385A JP S61272796 A JPS61272796 A JP S61272796A
Authority
JP
Japan
Prior art keywords
level
input
threshold
section
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60113143A
Other languages
English (en)
Inventor
陽一 山田
林 逸夫
村田 隆憲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP60113143A priority Critical patent/JPS61272796A/ja
Publication of JPS61272796A publication Critical patent/JPS61272796A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は音声認識装置における音声区間の検出方式に関
するものでちる。
(従来の技術) 従来の音声区間検出方式として、音声入力時の雑音レベ
ル、入力音声レベル等よりレベル閾値を設定し、その閾
値と比較して入力レベル信号が大である状態が定められ
た一定時間以上継続した時それを始端と判定し、その後
入力レベル信号が前記設定された閾値と比較して小であ
る状態が定められた一定時間以上継続した時それを終端
と判定し、上記判定により決定された始端から終端まで
を音声区間として検出する方式がある。この方式で用い
るレベル閾値を設定する方法としては、音声入力時の雑
音レベル値にあらかじめ定められた定数を加算した値を
レベル閾値とする第1の方法と、入力音声信号レベル最
大値から雑音レベル値を減算した値、つまりい比に相当
する値が大である時には比較的大きい値に前記レベル閾
−を設定し、小である時には比較的小さい値に前記レベ
ル閾値を設定する第2の方法(例えば特開昭58−13
0395号公報に記載)が一般的な方法であった第3図
は第1の方法により前記レベル閾値を設定し音声区間検
出を行なった一例、第4図は第2の方法により前記レベ
ル閾値を設定し音声区間検出を行なった一例を示したも
のである。
先ず、第1の方法を用いた場合の音声区間検出動作を第
3図に基づいて説明する。
第3図において、入力レベル信号を時刻tの関数s (
t)、雑音v ヘA/をNLEVEL、 L/ −Z 
’AI閾値をLTH。
始端を決定する条件S (t) > LTHなる状態の
最低継続時間である始端決定高レベル入力最低継続時間
をTS、終端を決定する条件S (t)≦LTHなる状
態の最低継続時間である終端決定低レベル入力最低継続
時間をTEとする。前記レベル閾値LTHは例えば次式
に示すように雑音レベルNLEVEL K 6らかじめ
定められた定数C1を加算した値となる。
LTH=: NLEVEL + C1 人力レベル信号S (t)に対し前記レベル閾値り、T
Hと交差する時刻をそれぞれtl m・・・yj4とす
る。
先ず、入力レベル信号S (t)とレベル閾値LTHと
・ が交差する時刻から起算して、入力レベル信号S 
(t)のレベルがレベル閾値LTHを始端決定高レベル
入力最低継続時間TS以上越える区間の開始点を音声区
間の始端とする仁とにより、始端検出を行なう。その後
、入力レベル信号5(t)とレベル閾値LTHとが交差
する時刻から起算して、入力レベル信号5(t)のレベ
ルがレベル閾値LTHを終端決定低レベル人力最低継続
時間TE以上下回る区間の開始点を音声区間の終端とす
ることにより、終端決定を行なう。このようにして決定
された始端と終端により音声区間が決定される。第3図
の例では始端はt8、終端はt4となる。
次に第2の方法を用いた場合の音声区間検出動作につい
て第4図に基づいて説明する。
第4図において、入力レベル信号S (t)、雑音レベ
ルNLE■Lルベル閾値LTH% 始端決定高レベル入
力最低継続時間TS、終端決定低レベル入力最低継続時
間TEは第1の方法の場合と同様な定義とする。ただし
前記レベル閾値LTHは入力音声信号を雑音の中より大
略的に検出すべく例えば雑音レベルNLEvELにあら
かじめ定められた比較的小さい定数02を加算した値と
し、比較的小さい値LTH= NLEVEL +C2に
設定する。
第2の方法を用いた場合、先ず、第1の方法で説明した
ものと同様な手順で、大まかな比較的小さく設定された
前記レベル閾値LTHを用いて音声区間検出を行ない、
これにより始端をt、″、終端をt8と決定する。しか
し、このままであると、レベル閾値LT)fは比較的小
さく設定されているので、一般的に音声波形の始端、終
端付近の呼気ノイズ等の影響によるなまりのため正確な
音声区間検出ができない。そこで、更に検出精度を上げ
るべく前記のようにして決定したt、を仮始端、t8を
仮終端と定義する。そして、新しいレベル閾値LTHN
を、仮始端から仮終端までの入力レベル信号5(t)の
最大値SMAXから雑音レベルNLEVELを減算した
値にあらかじめ定められた正定数03を乗算し、その積
に雑音レベルNLEVELを加算して設定する。このレ
ベル閾値LTHNは次式で表わされる。
LTT(N=NLEVEL+(SMAX−NLEVEI
、)・C3’そして、仮始端から仮終端までの間を新し
いレベル閾値LTHNを用いて前述した方法と同様の手
順で再度始端検出及び終端検出を行ない、始端t6及び
終端t、を求めてより精度の高い最終的な音声区間の決
定を行なう。ここで、レベル閾値LTHNを入力音声の
レベル変動に対応した最適な値にあらかじめ設定してお
くと、入力音声のレベル変動の影響を受けにくい安定か
つ正確な音声区間検出を行なうことができる。
(発明が解決しようとする問題点) しかしながら第3図についての説明で述べたように、レ
ベル閾値を入力音声レベルによらず雑音レベルにあらか
じめ定められた定数を加算した値に設定する第1の方法
では、前記レベル閾値は入力音声レベルが中程度である
場合に最適となるよう設定されるのが一般的である。従
って、第1の方法を用いて音声区間検出をすると、入力
音声レベルが比較的大きめな場合には、前記レベル閾値
は入力音声のピーク値に対して相対的に小となり雑音等
を音声区間として誤検出する可能性が犬となり、一方入
力音声レベルが比較的小さめな場合には前記レベル閾値
は入力音声ピーク値に対して相対的に大となり音声の一
部が欠落した状態で音声区間を定める可能性が犬となり
、いずれにしても入力音声のレベル変動に対応できない
という欠点があった。
一方、第4図についての説明で述べたように、レベル閾
値を入力音声レベルに対応した値に設定する第2の方法
では、入力音声レベルの大小にかかわらず正確な音声区
間検出が行なわれ、その結果として高い認識性能を得る
ことができる反面、音声区間検出を2度にわたって行な
う必要が生じ、認識応答時間の遅延を招くという欠点が
あった。
また、上記欠点を補うことを試みた場合、高速なマイク
ロプロセッサ等の高価な回路の二重化が必要となり、装
置全体のハード量の増大及び高コストを招くという欠点
となる。
本発明は以上に述べた従来技術の欠点を除去すべくなさ
れたものであって、入力音声レベル変動の影響を受ける
ことなく安定かつ正確な音声区間検出を行ない、さらに
認識応答を短時間で行なうことのできる音声区間検出方
式を提供することを目的とする。
(問題点を解決するための手段) この発明は前記問題点を解決するために入力レベル信号
のレベルを予め設定されたレベル閾値と比較し、入力レ
ベル信号のレベルが前記レベル閾値より大である状態が
第1の所定時間以上継続したときその状態の開始時点を
始端とし、その後入力レベル信号のレベルが前記レベル
閾値より小である状態が第2の所定時間以上継続したと
きその状態の開始時点を終端として音声区間の検出を行
なう音声区間検出方式において、レベル抽出部。
レベル最大値計算部、レベル最大値平均値計算部及びレ
ベル閾値設定部から構成する。各構成の詳細には以下の
とおりである。
レベル抽出部は直前の音声パターンのレベル最大値する
レベル最大値計算部は前記レベルのピーク値のうちの最
大値を計算する。
レベル最大値平均値計算部は直前の音声パターンまでの
各/4’ターンの前記最大値の平均値を計算する。
レベル閾値設定部は前記平均値を次の音声パターンのレ
ベル最大値とし、該レベル最大値に基づいて次の音声パ
ターンの前記レベル閾値を設定する。
(作用) 以上のような構成の本発明によれば、n番目の音声tp
ターンのレベルをレベル抽出部を介して得て、このレベ
ルにおけるピーク値のうちで最大となるレベル値をレベ
ル最大値計算部を介して得る。
そして、この最大となるレベル値の直前の音声パターン
までにおける平均値をレベル栗太値平均値計算部を介し
て算出する。この平均値を次の音声パターンのレベル最
大値と予測して、このレベル最大値に基づいてレベル閾
値設定部で従来なされた演算により次の音声パターンの
レベル閾値を算出する。
したがって、この発明は前記問題点を解決でき、入力音
声レベル変動の影響を受けることなく安定かつ正確な音
声区間検出を行ない、さらに認識応答を短時間で行なう
ことのできる音声区間検出方式を提供できる。
(実施例) 以下、本発明の一実施例を図面に基づいて説明する。
第1図は、本発明の一実施例゛を示すブロック図である
。同図において、1はレベル抽出部、2は制御部、3は
閾値設定部、4はレベル最大値平均値計算部、5は音声
区間検出部、6はレベル最大値計算部、7は入力信号、
8は入力レベル信号、9は閾値設定指令信号、10は閾
値設定終了信号、11は認識装置使用開始信号、12は
入力音声レベル最大値、13は未入力音声レベル最大値
予測値、14はレベル閾値、15は音声始端時刻、16
は音声終端時刻、17は音声区間検出指令信号である。
レベル抽出部1は入力信号7が供給されると、その入力
信号70レベル抽出を行なって入力レベル信号8に変換
し、この入力レベル信号8を閾値設定部3及びレベル最
大値計算部6に供給する。
制御部2はある1人の話者が認識装置を使用開始直前に
認識装置使用開始信号11をレベル最大値平均値計算部
4に供給してレベル最大値平均値計算部4をリセット状
態とした後、音声・やターンを離散発声中でないと想定
される時刻に閾値設定指令信号9を閾値設定部3に供給
する。また、制御部2は閾値設定部3から閾値設定終了
信号10を供給された後音声区間検出指令信号17を音
声区間検出部5に供給する。閾値設定部3は制御部2か
ら閾値設定指令信号9を供給された時刻におけるレベル
抽出部1からの入力レベル信号8.及びレベル最大値平
均値計算部4からの未入力音声レベル最大値予測値13
に基づいてレベル閾値14を決定し、このレベル閾値1
4を音声区間検出部5に供給すると共に閾値設定終了信
号1oを制御部2に供給する。レベル最大値平均値計算
部4はレベル最大値計算部6で算出された入力音声レベ
ル最大値12が入力されると、その入力回数を計数する
と共に既に入力された入力音声レベル最大値12を記憶
する。また、レベル最大値平均値計算部4は入力音声レ
ベル最大値12の平均値を計算し、その結果を未入力音
声レベル最大値予測値13として閾値設定部3に供給す
る。ただし、制御部2からの認識装置使用開始信号11
をレベル最大値平均値計算部4に供給した時刻において
は、入力音声レベル最大値12の入力回数の計数値をO
とし、未入力音声レベル最大値予測値13は予め定めら
れた一般的な発声レベルにおけるレベル最大値の平均的
な値である。音声区間検出部5は制御部2から音声区間
検出指令信号17が供給された後、レベル抽出部工から
の入力レベル信号8及び閾値設定部3からのレベル閾値
14に基づいて音声区間検出を行ない、検出結果である
音声終端時刻工5及び音声終端時刻16は各々制御部2
及びレベル最大値計算部6に供給される。レベル最大値
計算部6はレベル抽出部lからの入力レベル信号8及び
音声区間検出部5からの音声始端時刻15、音声終端時
刻16を入力として、音声始端時刻15から音声終端時
刻161での入力レベル信号3から検出したピーク値の
最大値を計算し、その計算結果である入力音声レベル最
大値12をレベル最大値平均値計算部4に供給する。
次に、本実施例の動作について説明する。
先ず、ある1人の話者が認識装置を使用開始直前に、制
御部2からの認識装置使用開始信号11によってレベル
最大値平均値計算部4をリセット状態とすると共に閾値
設定部3に閾値設定指令信号9を供給して閾値設定動作
を開始する。レベル抽出部1は入力信号7のレベル抽出
を行なって入力レベル信号8に変換し、この入力レベル
信号8のレベル最大値がレベル最大値計算部6において
閾値設定部3及び音声区間検出部5を介して得られた音
声始端時刻15及び音声終端時刻16に基づいて計算さ
れる。この計算結果である久方音声レベル最大値12は
レベル最大値平均値計算部4に記憶される。そして、複
数個の入力信号7に対して上記の動作を繰り返して複数
個のλカ音声レベル最大値12がレベル最大値平均値計
算部4に記憶される。レベル最大値平均値計算部4では
、入力音声レベル最大値12の入力回数を計数しており
記憶した複数個の久方音声レベル最大値12を入力回数
で除算することにより平均値を計算し、その計算結果を
未入力音声レベル最大値予測値13として閾値設定部3
に供給する。そして、閾値設定部3では未入力音声レベ
ル最大値予測値に基づいて最終的なレベル閾値14を決
定し、閾値設定終了信号10を制御部2に供給して閾値
設定動作を終了する。その後、新たな入力信号7の音声
区間検出は上記レベル閾値14を用いて行なわれること
になる。制御部2では、閾値設定部3からの閾値設定終
了信号10が供給されると音声区間検出部5に対して音
声区間検出指令信号17によって音声区間検出の開始を
指示する。音声区間検出部5では閾値設定部3からの最
終的な上記レベル閾値14により音声区間検出を行なう
第2図は、本実施例における入力レベル信号の変化の一
例を示す図である。同図において、横軸は時刻、縦軸は
レベル値を各々表わす。ここで、K2図(、)は発声レ
ベルが比較的小さい話者の入力レベル信号の変化を示し
、第2図伽)は発声レベルが比較的大きい話者の入力レ
ベル信号の変化を示したものである。
先ず、第2図(、)について説明する。
第2図(、)において、入力レベル信号を時刻tの関数
5(t)、雑音レベルをNLEVEL 、レベル閾値を
LTHN 、始端を決定する条件5(t))LTHNな
る状態の最低継続時間である始端決定高レベル入力最低
継続時間をTS、終端を決定する条件S (t)≦LT
HNなる状態の最低継続時間である終端決定低レベル入
力最低継続時間をTEとする。音声信号(4)において
前記レベル閾値LTHNは例えば次式に示すように雑音
レベルNLEVELにあらかじめ定められた定数((S
MAX 1 + SMAX 2 + SMAX 3 )
/3− NLEVEL ) ・C3を加算した値となる
LTHN=NLEVEL + ((SMAXI + S
MAX2 + SMAX3 )/3−NLEVEL )
 −03 ココテ、SMAX 1 、 SMAX 2及びSMAX
3は音声信号(1) 、 (2)及び(3)の各々のレ
ベル最大値、C3はあらかじめ定められた正定数である
よって、このように設定された前記レベル閾値LTHM
を用いて以下のような音声区間検出を行なう。
先ず、入力レベル信号5(t)とレベル閾値LTHN 
(!:が交差する時刻から起算して、入力レベル信号S
 (t)のレベルがレベル閾値LTHNを始端決定高レ
ベル入力最低継続時間TS以上越える区間の開始点を音
声区間の始端とすることにより、始端検出を行なう。そ
の後、入力レベル信号S (t)とレベル閾値LTHN
 、aが交差する時刻から起算して、入力レベル信号S
 (t)のレベルがレベル閾値LTHNを終端決定低レ
ベル入力最低継続時間TE以上下回る区間のう 開始点を音声区間の終端とすることにより、終端決定を
行なう。このようにして決定された始端と終端により音
声区間が決定される。第2図(、)の例では始端はtl
  +終端はt2となる。
次に、第2図(b)について説明する。
第2図(b)において、入力レベル信号を時刻tの関数
5(t)、雑音レベルをNLEVEL%レベル閾値をL
THN、始端を決定する条件S (t)> LTHNな
る状態の最低継続時間である始端決定高レベル入力最低
継続時間をTS、終端を決定する条件S (t)≦LT
HNなる状態の最低継続時間である終端決定低レベル入
力最低継続時間をTEとする。音声信号(4)において
前記レベル閾値LTHNは例えば次式に示すように雑音
レベルNLEVELにあらかじめ定められた定数((S
MAX1’+SMAX2’+SMAX3’)/3−NL
EVEL)−03を加算した値となる。
LTHN=NLEVEL+((SMAX1’+SMAX
2’+SMAX3’)/3−NLEVEL ) −03 ココテ、SMAXI’ 、 SMAX2’ 及ヒSMA
X3’ ハ音声信号(t)’、(2)’&び(3)ら各
々のレベル最大値、C3はあらかじめ定められた正定数
である。
よって、このように設定された前記レベル閾値LTHN
を用いて以下のような音声区間検出を行なう。
先ず、入力レベル信号S (t)とレベル閾値LTHN
とが交差する時刻から起算して、入力レベル信号S (
t)のレベルがレベル閾値LTHNを始端決定高レベル
入力最低継続時間TS以上越える区間の開始点を音声区
間の始端とすることにより、始端検出を行なう。その後
、入力レベル信号S (t)とレベル閾値LTHNとが
交差する時刻から起算して、入力レベル信号S (t)
のレベルがレベル閾値LTHNを終端決定低レベル入力
最低継続時間TE以上下回る区間の開始点を音声区間の
終端とすることにより、終端決定を行なう。このように
して決定された始端と終端により音声区間が決定される
。第2図(b)の例では始端はt1′、終端はt2′と
なる。
以上のように、話者の発声レベルの大きさに対応した最
適なレベル閾値を設定でき、正確な音声区間検出を行な
うことができる。
(発明の効果) 以上説明したように、本発明によれば、入力音声レベル
変動の影響を受けることなく安定かつ正確な音声区間検
出を行ない、さらに認識応答を短時間で行なうことので
きると共に装置全体のノ・−ド量小及び低コストで実現
できる音声区間検出方式を提供できる。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
本実施例における入力レベル信号の変化の一例を示す図
、第3図は第1の従来例による音声区間検出を行なった
一例を示す図、第4図は第2の従来例による音声区間検
出を行なった一例を示す図である。 1・・・レベル抽出部、2・・・制御部、3・・・閾値
設定部、4・・・レベル最大値平均値計算部、5・・・
音声区間検出部、6・・・レベル最大値計算部。

Claims (1)

  1. 【特許請求の範囲】 入力レベル信号のレベルを予め設定されたレベル閾値と
    比較し、入力レベル信号のレベルが前記レベル閾値より
    大である状態が第1の所定時間以上継続したときその状
    態の開始時点を始端とし、その後入力レベル信号のレベ
    ルが前記レベル閾値より小である状態が第2の所定時間
    以上継続したときその状態の開始時点を終端として音声
    区間の検出を行なう音声区間検出方式において、 直前の音声パターンのレベルを抽出するレベル抽出部と
    、 前記レベルのピーク値のうちの最大値を計算するレベル
    最大値計算部と、 直前の音声パターンまでの各パターンの前記最大値の平
    均値を計算するレベル最大値平均値計算部と、 前記平均値を次の音声パターンのレベル最大値とし、該
    レベル最大値に基づいて次の音声パターンの前記レベル
    閾値を設定するレベル閾値設定部とを具備することを特
    徴とする音声区間検出方式。
JP60113143A 1985-05-28 1985-05-28 音声区間検出方式 Pending JPS61272796A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60113143A JPS61272796A (ja) 1985-05-28 1985-05-28 音声区間検出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60113143A JPS61272796A (ja) 1985-05-28 1985-05-28 音声区間検出方式

Publications (1)

Publication Number Publication Date
JPS61272796A true JPS61272796A (ja) 1986-12-03

Family

ID=14604656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60113143A Pending JPS61272796A (ja) 1985-05-28 1985-05-28 音声区間検出方式

Country Status (1)

Country Link
JP (1) JPS61272796A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6236970B1 (en) 1997-04-30 2001-05-22 Nippon Hoso Kyokai Adaptive speech rate conversion without extension of input data duration, using speech interval detection

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6236970B1 (en) 1997-04-30 2001-05-22 Nippon Hoso Kyokai Adaptive speech rate conversion without extension of input data duration, using speech interval detection
US6374213B2 (en) 1997-04-30 2002-04-16 Nippon Hoso Kyokai Adaptive speech rate conversion without extension of input data duration, using speech interval detection
EP1944753A2 (en) 1997-04-30 2008-07-16 Nippon Hoso Kyokai Method and device for detecting voice sections, and speech velocity conversion method and device utilizing said method and device

Similar Documents

Publication Publication Date Title
US4696041A (en) Apparatus for detecting an utterance boundary
EP0077574A1 (en) Speech recognition system for an automotive vehicle
US4597098A (en) Speech recognition system in a variable noise environment
KR100482477B1 (ko) 음성 인식 장치, 음성 인식 방법 및 음성 인식 프로그램을 기록한 기록 매체
JPS61272796A (ja) 音声区間検出方式
JPH0673079B2 (ja) 音声区間検出回路
US7046792B2 (en) Transmit/receive arbitrator
JPH1195785A (ja) 音声区間検出方式
EP0047589A1 (en) Method and apparatus for detecting speech in a voice channel signal
JPS61273596A (ja) 音声区間検出方式
JPS61269197A (ja) 音声区間検出方式
JPS5984300A (ja) 音声区間検出回路
JPS5868097A (ja) 車両用音声認識装置
JPS61259296A (ja) 音声区間検出方式
JPS62237498A (ja) 音声区間検出方法
JP2807457B2 (ja) 音声区間検出方式
JPH0594197A (ja) 音声パターン作成方法
JPS5834986B2 (ja) 適応形音声検出回路
JPH09127982A (ja) 音声認識装置
JPS61140999A (ja) 音声区間検出方式
JPH0659036B2 (ja) 可変等化器
JPS61259297A (ja) 音声区間検出方式
JPS58159599A (ja) 単音節音声認識方式
JPH01244497A (ja) 音声区間検出回路
JP2702446B2 (ja) ノイズ除去回路