JPS6146999A - 音声始端決定装置 - Google Patents

音声始端決定装置

Info

Publication number
JPS6146999A
JPS6146999A JP59168422A JP16842284A JPS6146999A JP S6146999 A JPS6146999 A JP S6146999A JP 59168422 A JP59168422 A JP 59168422A JP 16842284 A JP16842284 A JP 16842284A JP S6146999 A JPS6146999 A JP S6146999A
Authority
JP
Japan
Prior art keywords
time
voice
threshold
values
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59168422A
Other languages
English (en)
Inventor
吉村 元一
高木 琢美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP59168422A priority Critical patent/JPS6146999A/ja
Publication of JPS6146999A publication Critical patent/JPS6146999A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は音声波形の時間変化に対づ゛る振幅変化に対し
てサンプリングやその他の処理を行なうことにより音声
区間の始端に対応する時点を検出して出力する音声始端
決定装置に関する。
〔従来技術] 従来、この種の音声始端決定装置は、まず音声波形の時
間変化に対する撮幅の連続変化をサンプリングして複数
の値の列に変換し、次に、このそれぞれの値を2乗して
音声の短時間エネルギーの値の列に変換する。次に、こ
の短時間エネルギーの値の列において、音声の短時間エ
ネルギーの下限に対応するように予め設定した閾値を上
回る区間を検出し、これを音声区間としていた。
[発明が解決しようとする問題点] 一般に音声の短時間エネルギーは一つの音声区間であっ
てもなめらかに増減するとは限らず、例えばバースト(
1)urst )のように徐々に増加しつつあったもの
が突然非常に低いレベルまで減少した後再び高いレベル
まで増加するといったことが起こり得る。
このため、音声の短時間エネルギーが複数回にわたって
予め設定してあった閾値を上下することになり、どの区
間を音声区間の始端とするかを一程的に決定してしまう
と正確な音声区間の始端を検出することができない場合
もあり不都合であった。
また、音声入力時における話者の動1ヤや周囲の状況の
変化等により予期しない雑音が音声区間の前後に混入し
た場合は、音声区刑外であるのにもかかわらず短時間エ
ネルギーが閾値を越えることも起こり得るため、やはり
正確な音声区間の始端を検出するのに障害となっていた
[発明の目的] 本発明の目的は上記従来の問題点を解消し、バースト等
を含む音声のように短時間エネルギーに不規則な逆転が
生じたり、予期し得ない雑音が一時的に混入したりして
も、これらのエネルギーの変動の影響を極力低く抑え、
しかも簡潔な短時間の処理により音声区間の始端を検出
することのできる音声始端決定装置を提供することにあ
る。
c問題点を解決するための手段] 本発明においては、入力された音声の前記短時間エネル
ギーの値の列が所定時間以上連続して第1の閾値を越え
る高エネルギー区間が検出された場合、この高エネルギ
ー区間の存在する時点より以前において前記短時間エネ
ルギーの値の列が前記第1の閾値以下に設定された第2
の閾値を下回る時点を検出し、これらの時点をそれぞれ
始端検出開始時点、終端検圧開始時点として設定する。
次に、前記始端検出開始時点より所定時間だけ時間的に
遡った時点を始端検出区間とし、この区間における前記
短時間エネルギーの値の平均値を算出してこれを第3の
閾値として設定する。次に、前記短時間エネルギーの値
の列が以後再び前記第2の閾値を上回ることなく前記第
3の閾値を下回る時点の検出を前記始端検出区間に限定
して行い、この時点を音声区間の始端として出力する。
[作用] まず、第1の閾値により前記高エネルギー区間の存在を
確認することにより、音声が通常有する所定レベル以上
のエネルギーの所定時間以上の持続がないような、言い
換えれば、雑音のレベルが一時的に高くなったのに過ぎ
ない区間は、音声区間ではないとして初めから除外して
いる。また、第2の閾値を再び越えることなく、始端検
出区間における短時間エネルギーの値の列の平均値を算
出して設定した第3の閾値を下回る時点を音声区間の9
f5端とすることにより、音声区間内であるのにもかか
わらず、音声の短時間エネルギーが一時的に雑音のみの
区間と同じレベルまで低下した時点を始端とする誤認を
抑えている。また、第3の閾値は、前述したように、処
理を実行する毎に新たに設定されており、音声を発する
話者の個人差や周囲の音響環境の変動等による処理への
影響を低く抑えている。また、始端検出区間を設定して
始端を検出するための処理を実行する範囲を限定してお
り、音声区間外の雑音レベルの変動による音声区間の始
端の誤認を抑えている。
[実施例] 以下、第1図乃至第5図を参照して本R明の一実施例を
説明する。
第2図において、話者の発音した音声が収音されるマイ
クロフォン1は、増幅器2を介してA/D変換器3に接
続されている。ここで、増幅器2はマイクロフォン1で
収音した音声のレベルを以後の処理に適するレベルに増
幅するものである。
また、A/D変換器3は中央処理装置(以下OPUと称
す)4に接続されている。また、C,PU4には各処理
のプログラム等がmぎ込まれているROM(ilみ出し
専用メモリ)5及びRAM (Mみ出し囚き込み可能な
メモリ)6が接続されている。
ここで、RAM6は、A/D変換器3でサンプリングさ
れた音声波形の振幅値が次々に書き込まれていく振幅バ
ッファ6a、前記振幅値の2乗値が書き込まれていく2
乗バッファ6b、前記2乗値に基づいて算出された短時
間エネルギー値が閤き込まれていくエネルギーバッファ
5c、前記短時間エネルギー値が予め設定されている第
1の閾値を下回る2個の時点が書き込まれる第11!I
値バッファ6d、前記2個の時点間より時間的に遡る方
向及び時間的に経過する方向のそれぞれに向って最初に
第2の閾値を下回るそれぞれの時点が書き込まれる第2
閾値バッファ6e、始端検出区間における短時間エネル
ギー値が書き込まれる平均値バッファ61等としてのワ
ーキング用としてはたらくようになっている。
上記構成において、次にその動作を話者が日本語の°か
″を発音した場合について説明する。話者が発音した゛
が″の音声は、まずマイクロフォン1で収音され増幅器
2で適正なレベルに増幅された棲、A/D変換器3での
サンプリングにより時間変化に対する音声波形の振幅の
変化を示す複数の値の列としてのデータに変換されてC
PU4へ入力される。ここで、第1図ステップ21で示
tA/D変換は4KH2までの音声波形の情報を得るた
めにサンプリングの定理よりサンプリング周波数を8K
Hzとして行っている。従って、音声波形の振幅データ
が1秒間に8000個、言い換えれば125マイクロ秒
毎に1個の振幅データが得られ、順次振幅バッファ6a
へ書き込まれていく。この各振幅データのうち隣接する
ものをそれぞれ直線で結び、横軸に時間、縦軸に電圧を
とって図示すると第3図<a>に示すような波形図とな
る。また、このA/D変換は、マイクロフォン1のスイ
ッチがONされたことをCPU4が検出することにより
開始され、ONされている間実行される。従って、波形
図には音声区間の前後に雑音のみの区間が現われている
。この125マイクロ秒毎の振幅データのうちq番目の
振幅データをA(Q)で表わすことにする。ここで、q
は1からnまでの整数であり、nは振幅データの総数で
ある。また、qが1増加すると時間は125マイクロ秒
経過する。
次にステップ22へ進み、ステップ21で得られたn個
の振幅データA(Q)のそれぞれを2乗してn個の2@
値5(Q)の算出を行い、順次2乗バッフ76bへ日き
込んでいく。これを式にすると、 5(Q)−A(Q>と表わされる。
次にステップ23へ進み、2乗1i1S(q)の64個
毎、すなわち、8ミリ秒毎の和をとり、その区間の中央
の短時間エネルギー1i1E(j>としてエネルギーバ
ッフ760へ順次書き込んでいく。
これを式にすると、 j と表わされる。ここで、jは1から(n/64)までの
整数をとる。また、前記各短時間エネルギー値E(j)
の時点に対応させて前記エネルギーバッファ6Cのアド
レスを設定し、前記短時間エネルギーWE (j )を
指定すれば対応する時点がわかるようになっている。横
軸に時間をとり、縦軸に前記短時間エネルギー値E (
j )をその最大値を基準にして表示すると第3図(b
)のようになる。同図において、前後の低レベル区間は
音声以外の周囲の雑音等の区間であり、もつと時間的に
遡ったり又は8iI間経過方向へ進んだりして図示され
ていない区間においても音声が入力されていなければ、
m音レベルの変動により多少の上下はあるもののほぼ同
程度の低レベルがそのまま継続している。
次にステップ24へ進み、ステップ23で篩用した短時
間エネルギー値E(j>の列において、予め設定しであ
る第1のrlA値T1−0.1を所定時間以上、本実施
例では120ミリ秒以上上回っている区間、すなわち、
第3図(b)において区間t1〜(2の検出を行い、こ
の区間を高エネルギー区間として2個の時点t1.t2
を第1閾値バツフア6dへ8き込む。ここで、第3図<
1) )に破線で示しである第1の閾値T1は、一般に
各音声が通常上記所定時間以上維持する前記高エネルギ
ー区間における短時間エネルギー値の下限に対応する値
となっている。
次にステップ25へ進み、時点t1から時間的に遡って
行き最初に予め設定され、第3図(b)に破線で示しで
ある第2の閾値T2−0.004を下回る時点、すなわ
ち、音声区間の始端検出開始時点t3、及び時点t2か
ら時間経過方向へ行き前記第2のIJ(IIIを最初に
下回る時点、すなわち音声区間の終端検出開始時点t4
を第2閾値バツフア6eへ書き込む。ここで、第2のr
AlaT2は、音声区間外においては雑音のレベルが多
少変動してもその短時間エネルギーがこの第2の閾値T
2を上回ることのないように、音声区間の短時間エネル
ギーの下限値よりやや高く設定しである。
次に、ステップ26へ進み、前記始端検出開始時点【3
からこの始端検出開始時点し3より所定時間、本実施例
では140ミリ秒だけ時間的に遡った時点までをti3
端検出区間とし、この区間における前記短時間エネルギ
ー値の平均値T3を算出して平均値バッファ6fへ書き
込みこの平均値を第3の閾値T3として設定する。
次に、ステップ27へ進み、前記始端検出区間において
、時間的に遡る方向に向って前記短時間エネルギー値が
以後再び前記第2のIHUT2を上回ることなくステッ
プ26において設定され、第3図(b)に破線で示した
第3の閾値T3を下回る時点t5を検出し、この時点t
5に対応するデータ信号を音声区間の始端として出力す
る。また、終端検出開始時点t4から時間経過方向へ所
定時間、本実FM@では140ミリ秒だけ経過した時点
までの区間に限定して、時間経過方向に向って以後再び
前記第2の閾値を上回ることなく前記第3の閾値を下回
る時点t6を検出して時点t6に対応するデータ信号を
音声区間の終端として出力する。ステップ26及び27
における所定時間は、その時間内に必ず音声区間の始端
又は終端を含むことができるように長めに設定しである
。このようにして音声区間Vl (t 5〜t6)が検
出され、この区間は第3図(a )に示されている時間
と音声の振幅との関係を表わす図から判断される音声区
間ともほぼ一致している。
また、日本語の°゛ば″及び“ば″と発音された音声に
対して上述したのと同様な処理を実行した結果を第4図
及び第5図に示す。これらの例においても第3図に示し
た場合と同様に音声区間■2及び3が検出されている。
[発明の効果] 以上に詳;ホした通り、本弁明に係る音声始端決定装置
は、音声のエネルギーを所定時間ごとの代表値で表ねり
ことにより得られた短時間エネルギーが、例えばバース
トのように音声区間内にJ5いて一時的に雑音のみの区
間と同じレベルまで低下するようなことがめっても、こ
の影響による音声区間の始端の誤認を簡単な構成により
抑えることができる。また、音声が通常有する所定レベ
ル以上のエネルギーが所定時間以上持続しないような、
言い換えれば、雑音のレベルが一時的に高くなったのに
過ぎないような区間は音声区間ではないとして初めから
各処理の対象から除外しており、また、バースト等のた
めに音声のエネルギーの変動が特に複雑になる音声区間
の前半区間において音声区間の始端を検出する処理の実
行範囲を限定している。従って、音声区間とは無関係な
区間に対してまでも音声区間の始端検出の処理を実行し
て処理時間を増大させてしまうことを防止できるばかり
でなく、音声区間外にあける雑音レベルの変動の影響を
受けて音声区間の始端検出に誤りが発生することの防止
もできる。また、音声区間にあけるエネルギーの下限値
に対応する閾値は、それぞれの音声毎にそのエネルギー
に対応した閾値を新たに設定しているので、周囲の音′
!y:環境の変化や話者の個人差による音声のエネルギ
ーの変動の影響を抑えて安定した音声区間の始端検出を
行うことができる。
【図面の簡単な説明】
第1図は本弁明の一実施例のフローヂV−ト、第2図は
そのブロック図、第3図(a )及び(b)は°°が″
と発音した音声に各処理を実行した結果を示す図、第4
図<a >及び(b)は°°ばパと発音した音声に各処
理を実行した結果を示す図、第5図(a )及び(b)
は°゛ば″と発音した音声に各処理を実行した結果を示
す図である。 図中、1はマイクロフォン、2は増幅器、3はA/D変
換器、4はCPLI、5はROM、6はRAMである。

Claims (1)

  1. 【特許請求の範囲】 1、音声の時間変化に対する振幅変化をサンプリングし
    て複数の値の列に変換するサンプリング手段と、 前記複数の値をそれぞれ2乗した値の列に変換する2乗
    変換手段と、 前記2乗した値の列を複数のグループに分割してそれぞ
    れのグループの代表値の列に変換する代表値化手段と、 前記代表値の列が所定時間以上連続して第1の閾値を越
    える高エネルギー区間を検出する高エネルギー区間検出
    手段と、 前記高エネルギー区間の存在する時点より以前で前記代
    表値の列が前記第1の閾値以下に設定された第2の閾値
    を下回る時点を検出する手段と、前記代表値の列が前記
    第2の閾値を下回る時点から所定時間遡った時点までを
    始端検出区間として設定する手段と、 前記始端検出区間における前記代表値の列の平均値を算
    出して第3の閾値として設定する閾値設定手段と、 前記代表値の列が再び前記第2の閾値を越えることなく
    前記第3の閾値を下回る時点の検出を前記始端検出区間
    内に限定して時間的に遡る方向へ向って行い、検出した
    時点のデータ信号を音声区間の始端として出力する始端
    出力手段と、 を備えることを特徴とする音声始端決定装置。
JP59168422A 1984-08-10 1984-08-10 音声始端決定装置 Pending JPS6146999A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59168422A JPS6146999A (ja) 1984-08-10 1984-08-10 音声始端決定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59168422A JPS6146999A (ja) 1984-08-10 1984-08-10 音声始端決定装置

Publications (1)

Publication Number Publication Date
JPS6146999A true JPS6146999A (ja) 1986-03-07

Family

ID=15867828

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59168422A Pending JPS6146999A (ja) 1984-08-10 1984-08-10 音声始端決定装置

Country Status (1)

Country Link
JP (1) JPS6146999A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008209903A (ja) * 2007-01-30 2008-09-11 Victor Co Of Japan Ltd 再生装置、再生方法及び再生プログラム
JP2011107715A (ja) * 2005-06-15 2011-06-02 Qnx Software Systems (Wavemakers) Inc スピーチエンドポインタ

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107715A (ja) * 2005-06-15 2011-06-02 Qnx Software Systems (Wavemakers) Inc スピーチエンドポインタ
JP2008209903A (ja) * 2007-01-30 2008-09-11 Victor Co Of Japan Ltd 再生装置、再生方法及び再生プログラム

Similar Documents

Publication Publication Date Title
JPS59139099A (ja) 音声区間検出装置
JPS5862699A (ja) 音声認識装置
JPS59115625A (ja) 音声検出器
JPS6146999A (ja) 音声始端決定装置
JPS6147000A (ja) 音声の始端検出装置
JPS6146998A (ja) 音声始端検出装置
JP4127155B2 (ja) 聴覚補助装置
JPS6257040B2 (ja)
US10360922B2 (en) Noise reduction device and method for reducing noise
KR930010853A (ko) 음소(音素)녹음 및 음성재생 방법 및 그 장치
JPS6247319B2 (ja)
JPS6329759B2 (ja)
JPH0894731A (ja) 音源方向検出方法及び装置
JPS60262199A (ja) 母音区間検出装置
JPH0136640B2 (ja)
JPH05240939A (ja) 周波数変換回路
JPS61140999A (ja) 音声区間検出方式
JP2001215996A (ja) 音声認識装置
JPS5817497A (ja) 音声ピッチ検出装置
JPS60262198A (ja) 子音区間検出装置
JPS63259596A (ja) 音声区間検出方式
JPS63235999A (ja) 音声始端検出装置
JPH04365100A (ja) 音声認識に使用する子音の認識方法
JPS61223797A (ja) 音声区間検出装置
JPS6260720B2 (ja)