JPS61138299A - 音声区間検出方式 - Google Patents
音声区間検出方式Info
- Publication number
- JPS61138299A JPS61138299A JP59260472A JP26047284A JPS61138299A JP S61138299 A JPS61138299 A JP S61138299A JP 59260472 A JP59260472 A JP 59260472A JP 26047284 A JP26047284 A JP 26047284A JP S61138299 A JPS61138299 A JP S61138299A
- Authority
- JP
- Japan
- Prior art keywords
- power
- time series
- voice
- frame
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
「産業上の利用分野」
この発明は例えば音声認識分野(=用いられ、とりわけ
いくつかの単語を連続して発声した音声から各単語に対
応した音声区間を検出する音声区間検出方式に関するも
のである。
いくつかの単語を連続して発声した音声から各単語に対
応した音声区間を検出する音声区間検出方式に関するも
のである。
「従来の技術」
従来、音声区間の検出は入力音声から算出される音声パ
ワーuiのしきい値処理を用いて行われている。例えば
しきい値TLφをあらかじめ設定しておき入力音声のパ
ワーU、がしきい値TLφを横切るフレームを検出する
。第1図に示すように)ζワーuiがしきい値TLφを
横切ってから一定フレーム以上TLφ(u4となる場合
、最初にTLφ≦uiとなったフレームを始端Sとし、
パワーulがしきい値TLφを横切ってから一定フレー
ム以上u i< TLφとなる場合、最初にu、〈TL
φとなったフレームを終端Eとする。このとき音声区間
として検出されたC8゜E〕の前後に!フレーム()は
正整数)を付加してCS−j! 、 E十ノ〕を音声区
間とする場合もある。
ワーuiのしきい値処理を用いて行われている。例えば
しきい値TLφをあらかじめ設定しておき入力音声のパ
ワーU、がしきい値TLφを横切るフレームを検出する
。第1図に示すように)ζワーuiがしきい値TLφを
横切ってから一定フレーム以上TLφ(u4となる場合
、最初にTLφ≦uiとなったフレームを始端Sとし、
パワーulがしきい値TLφを横切ってから一定フレー
ム以上u i< TLφとなる場合、最初にu、〈TL
φとなったフレームを終端Eとする。このとき音声区間
として検出されたC8゜E〕の前後に!フレーム()は
正整数)を付加してCS−j! 、 E十ノ〕を音声区
間とする場合もある。
孤立発声した甑音節やけ語の場合は、上述したような手
法を用いてその音声区間をほぼ確実に検出することがで
きる。しかしいくつかの単語を連続して発声した音声の
場合、第1図中に点11で示すように単語境界で音声パ
ワーが低くならない場合があり、従来の手法で各単語に
対応した音声区間を検出することは難しい。これに対し
て従来、連続して発声した単語音声の認識を行うには単
語境界を未知として認識を行い、最適な認識結果から逆
に単語境界を定める方式が用いられている。
法を用いてその音声区間をほぼ確実に検出することがで
きる。しかしいくつかの単語を連続して発声した音声の
場合、第1図中に点11で示すように単語境界で音声パ
ワーが低くならない場合があり、従来の手法で各単語に
対応した音声区間を検出することは難しい。これに対し
て従来、連続して発声した単語音声の認識を行うには単
語境界を未知として認識を行い、最適な認識結果から逆
に単語境界を定める方式が用いられている。
この方式は例えば・中津、好日r V CV f節をは
位とした連続用語音声の認識」日本音響学会講演論文集
2−2−18(昭和49年10月)°迫江、千葉r2R
DPマツチング法による連続単語認識」日本音響学会講
演論文集2−2−15(昭和50年5月) 等で発表されている。これらの方式の概略は以下のよう
である。入力音声を特徴パラメータの時系列 A=暑1.a□、・・・・・・1、に変換する。このパ
ラメータ時系列の任意の区間 ai r ai+x r・・・・・・町と甑語Wとの距
離値D(i。
位とした連続用語音声の認識」日本音響学会講演論文集
2−2−18(昭和49年10月)°迫江、千葉r2R
DPマツチング法による連続単語認識」日本音響学会講
演論文集2−2−15(昭和50年5月) 等で発表されている。これらの方式の概略は以下のよう
である。入力音声を特徴パラメータの時系列 A=暑1.a□、・・・・・・1、に変換する。このパ
ラメータ時系列の任意の区間 ai r ai+x r・・・・・・町と甑語Wとの距
離値D(i。
j、岬)を計算する。次に
in
D (’ 、J ) = D (Iy J t w
)およびそれに対応した単語W(1,j)を全ての(
i、j)(i<j)の組について計算する。その後、を
求め、これに対応する単語列、 W(1r ’1 )W(’1 +1 t ’2 )・・
・・・・W (IN l + 1 p I )を認識結
果とする。このときi、 、 i2・・・・・・1N−
1が各単語の境界となる。この方式は全ての特徴パラメ
ータが単語境界になりうると仮定して距離値の和が最小
になる単語系列を認識結果とするものである。従って全
ての特徴パラメータを単語境界と仮定して計算を行うた
めに極めて多くの計算量を必要とするという欠点があっ
た。
)およびそれに対応した単語W(1,j)を全ての(
i、j)(i<j)の組について計算する。その後、を
求め、これに対応する単語列、 W(1r ’1 )W(’1 +1 t ’2 )・・
・・・・W (IN l + 1 p I )を認識結
果とする。このときi、 、 i2・・・・・・1N−
1が各単語の境界となる。この方式は全ての特徴パラメ
ータが単語境界になりうると仮定して距離値の和が最小
になる単語系列を認識結果とするものである。従って全
ての特徴パラメータを単語境界と仮定して計算を行うた
めに極めて多くの計算量を必要とするという欠点があっ
た。
この発明は連続発声した音声に対して効率よく各単語に
対応した適切な音声区間を検出できないという欠点を除
去するために、音声パワーとパワーディップ時系列の情
報とを組み合わせて用いることによって連続発声した音
声から各単語の境界候補を検出し、少ない計算量で各単
語(二対応する区間を検出することを目的とするもので
ある。
対応した適切な音声区間を検出できないという欠点を除
去するために、音声パワーとパワーディップ時系列の情
報とを組み合わせて用いることによって連続発声した音
声から各単語の境界候補を検出し、少ない計算量で各単
語(二対応する区間を検出することを目的とするもので
ある。
「発明の原理」
まずこの発明の原理を述べる。入力音声から算出された
一定時間毎の音声パワーをulとし、入力音声全体の音
声パワー時系列が 曝=u1.u2.・・・・・・u、 (i
)で表現されているとする。まずあらかじめ定められた
しきい値T’t、tに対して TLI≦ui (i=112 t−・・・−・n )
(2)を満たす区間〔Sk、Ek〕(1≦Sk<
Ek≦n。
一定時間毎の音声パワーをulとし、入力音声全体の音
声パワー時系列が 曝=u1.u2.・・・・・・u、 (i
)で表現されているとする。まずあらかじめ定められた
しきい値T’t、tに対して TLI≦ui (i=112 t−・・・−・n )
(2)を満たす区間〔Sk、Ek〕(1≦Sk<
Ek≦n。
k=1 、2 、・・・・・・m)を求める。このよう
にして求めた各区間に以下の処理を施してさらに小さな
区間に分割する。この際区間〔Sk、 Ek:)のなか
からその区間長が一定の値しより長い区間、すなわち L≦Ek−Sk+ 1 (k = 1 、 2 、
− = m ) (3)を満たす区間〔Sk、 Ek)
だけを2単語以上が繋がった区間とみなして以下の処理
対象の区間とすることもできる。
にして求めた各区間に以下の処理を施してさらに小さな
区間に分割する。この際区間〔Sk、 Ek:)のなか
からその区間長が一定の値しより長い区間、すなわち L≦Ek−Sk+ 1 (k = 1 、 2 、
− = m ) (3)を満たす区間〔Sk、 Ek)
だけを2単語以上が繋がった区間とみなして以下の処理
対象の区間とすることもできる。
区間〔Sk、 Ek〕の各フレームiに対して音声パワ
ーの谷の深さをあられす量であるパワーディップpiを
求める。Piの求め方としては例えばかある。Cノは例
えば!=0で最小、ノがノ=−j。
ーの谷の深さをあられす量であるパワーディップpiを
求める。Piの求め方としては例えばかある。Cノは例
えば!=0で最小、ノがノ=−j。
!=j(=近ずくに従って大きくなるようにすることに
より、)=−j−ノ=Jの区間でこのCノの変化とul
が整合する程大きなpiが得られる。このよう(ニして
パワーディップ時系列p IP:pSk!pSk+、+111゛pEk(5)を求
める。音声パワーとパワーディップとの関係は例えば第
2図に示すようになる。このパワーディップ系列νと先
に求めたパワー系列単とを用いて区間〔Sk、Ek〕の
なかから以下の条件を満たすフレームを求める。(第2
図に条件を満たしている部分なT、満たしてない部分を
Fで示す)■パワーディップp、が極大値をとる。
より、)=−j−ノ=Jの区間でこのCノの変化とul
が整合する程大きなpiが得られる。このよう(ニして
パワーディップ時系列p IP:pSk!pSk+、+111゛pEk(5)を求
める。音声パワーとパワーディップとの関係は例えば第
2図に示すようになる。このパワーディップ系列νと先
に求めたパワー系列単とを用いて区間〔Sk、Ek〕の
なかから以下の条件を満たすフレームを求める。(第2
図に条件を満たしている部分なT、満たしてない部分を
Fで示す)■パワーディップp、が極大値をとる。
■パワーディップルミがあらかじめ定められたしきい値
PTLに対してPTL≦piである。
PTLに対してPTL≦piである。
■パワーU:があらかじめ定められたしきい値TL2
(TL2≧TLt )に対してTL2≦Lliである。
(TL2≧TLt )に対してTL2≦Lliである。
■a上の3条件を満たし、かつこの第1フレームの近傍
の区間[: i −n、 、 i+n、 )(n、は正
整数)l二おいてパワーuj(j=i −n、 、 i
−n。
の区間[: i −n、 、 i+n、 )(n、は正
整数)l二おいてパワーuj(j=i −n、 、 i
−n。
J−+1.、・・・・・・・i+n、)が極小値をとる
。
。
この4つの条件を同時に満たした当該第iフレームを単
語境界とし、先に検出した音声区間を2つの区間CSk
−’ ) −Cj + 1 、 ](k]≦二分割す
る。この処理を各kについて行い、最終的には先に求め
た区間〔Sk、 Ek)と分割された区間csk。
語境界とし、先に検出した音声区間を2つの区間CSk
−’ ) −Cj + 1 、 ](k]≦二分割す
る。この処理を各kについて行い、最終的には先に求め
た区間〔Sk、 Ek)と分割された区間csk。
i)、(:i+1.Ek)を組み合わせて音声区間の検
出結果とする。
出結果とする。
上記条件■〜■は次に述べる効果がある。条件■は音声
パワーの谷を検出する。しかし条件■だけを用いると音
声パワーの細かな変動に伴う谷を全て検出するために条
件■によって検出した谷の深さがある程度深いものを選
択する。条件■は音声パワーの谷がある程度、音声パワ
ーの大きなところに存在することを要求しており、単語
中の破裂音等によって現れる音声パワーの谷を検出しな
いようにする。式(4)で算出されるパワーディップ時
系列pが極大値をとるフレームは必ずしも音声パワーの
谷だけではないので、条件■によって検出したフレーム
の近傍に音声パワーの谷が存在することを確認する。
パワーの谷を検出する。しかし条件■だけを用いると音
声パワーの細かな変動に伴う谷を全て検出するために条
件■によって検出した谷の深さがある程度深いものを選
択する。条件■は音声パワーの谷がある程度、音声パワ
ーの大きなところに存在することを要求しており、単語
中の破裂音等によって現れる音声パワーの谷を検出しな
いようにする。式(4)で算出されるパワーディップ時
系列pが極大値をとるフレームは必ずしも音声パワーの
谷だけではないので、条件■によって検出したフレーム
の近傍に音声パワーの谷が存在することを確認する。
「実施例」
以下(−この発明の実施例(二ついて詳細に説明する。
第3図はこの発明の一実施例を示す。音声パワー時系列
算出部1(二おいて人力音声は比較的短い特開間隔、例
えば15rnx程度に区分され(以下この区分をフレー
ムと呼ぶ)、各フレームの音声パワーu1が算出される
。この音声パワーLliは音声検出部2であらかじめ定
められたしきい値TLIに対してTI、t≦Lliとな
る区間を求める。ここで求められた区間の始端と終端の
組をCS、 、 El ) 。
算出部1(二おいて人力音声は比較的短い特開間隔、例
えば15rnx程度に区分され(以下この区分をフレー
ムと呼ぶ)、各フレームの音声パワーu1が算出される
。この音声パワーLliは音声検出部2であらかじめ定
められたしきい値TLIに対してTI、t≦Lliとな
る区間を求める。ここで求められた区間の始端と終端の
組をCS、 、 El ) 。
CS2 、 E2 〕、・・・・・・〔Sk、Ek〕と
する。検出された各音声区間の各フレームiに対して、
パワーディップ時系列算出部3で音声パワーの谷の深さ
を表現する量であるパワーディップplを算出する。こ
の算出されたパワーディップp1が各フレームiで極大
値をとるか否かをパワーディップ極大値判定部4で判定
し、つまり前記条件■の判定を行い極大値をとる場合は
真(T)、そうでない場合は偽(F)を総合判定部7に
送る。
する。検出された各音声区間の各フレームiに対して、
パワーディップ時系列算出部3で音声パワーの谷の深さ
を表現する量であるパワーディップplを算出する。こ
の算出されたパワーディップp1が各フレームiで極大
値をとるか否かをパワーディップ極大値判定部4で判定
し、つまり前記条件■の判定を行い極大値をとる場合は
真(T)、そうでない場合は偽(F)を総合判定部7に
送る。
パワーディップしきい値判定部5では算出されたパワー
ディップpiが各フレームiであらかじめ定められたし
きい値PTLに対しPTL≦piを満たすか否かを判定
し、つまり前記条件■の判定を行いこのi配条件を満た
す場合は真(T)、満たさない場合は偽(F)を総合判
定部7(=送る。
ディップpiが各フレームiであらかじめ定められたし
きい値PTLに対しPTL≦piを満たすか否かを判定
し、つまり前記条件■の判定を行いこのi配条件を満た
す場合は真(T)、満たさない場合は偽(F)を総合判
定部7(=送る。
更に音声パワーしきい値判定部6では検出された音声区
間の各フレーム1(二おいて、音声パワーuiがあらか
じめ定められたしきい値TL2 (TI、2 >TLI
)対してTL2≦U、を満たすか否かを判定し、つま
り前記条件■の判定を行いこの*嚇条件を満たす場合は
真(T)、満たさない場合は偽(F)を総合判定部7C
二送る。総合判定部7ではパワーディップ極大値判定部
4、パワーディップしきい値判定部5、音声パワーしき
い値判定部6の各判定結果の論理和をとり、いずれも真
(T)か偽(F)かを判定し、その結果が真の場合、そ
れを与えるフレーム番号iを出力する。この第1フレー
ムの近傍〔i −n、 、 1−1−11〕(ntは正
整数)で音声パワーuiが極小値をとるか否かを音声パ
ワー極小値判定部8で判定し、極小値をとる場合、それ
を与えるフレーム番号iを出力する。第2図では音声パ
ワーの極小点12がこれら4つの条件を満たすフレーム
として検出される。音声区間修正部9では音声パワー極
小値判定部8の出力である第1フレームを単語の境界と
みなして音声検出部2で得られた音声区間のうち!が含
まれている区間〔Sk。
間の各フレーム1(二おいて、音声パワーuiがあらか
じめ定められたしきい値TL2 (TI、2 >TLI
)対してTL2≦U、を満たすか否かを判定し、つま
り前記条件■の判定を行いこの*嚇条件を満たす場合は
真(T)、満たさない場合は偽(F)を総合判定部7C
二送る。総合判定部7ではパワーディップ極大値判定部
4、パワーディップしきい値判定部5、音声パワーしき
い値判定部6の各判定結果の論理和をとり、いずれも真
(T)か偽(F)かを判定し、その結果が真の場合、そ
れを与えるフレーム番号iを出力する。この第1フレー
ムの近傍〔i −n、 、 1−1−11〕(ntは正
整数)で音声パワーuiが極小値をとるか否かを音声パ
ワー極小値判定部8で判定し、極小値をとる場合、それ
を与えるフレーム番号iを出力する。第2図では音声パ
ワーの極小点12がこれら4つの条件を満たすフレーム
として検出される。音声区間修正部9では音声パワー極
小値判定部8の出力である第1フレームを単語の境界と
みなして音声検出部2で得られた音声区間のうち!が含
まれている区間〔Sk。
Ek〕を[Sk+i ]、[i+1 、Ek〕の2つの
区間に分割する。第2図では第1音声区間検出結果の区
間(s2.E2 、lがCS2 、 E2 :]とCs
、 、 E8 )とに分割される。
区間に分割する。第2図では第1音声区間検出結果の区
間(s2.E2 、lがCS2 、 E2 :]とCs
、 、 E8 )とに分割される。
「発明の効果」
以上説明したように、この発明は音声パワー情報とパワ
ーディップ清報とを組み合わせた音声区間検出論理を用
いているので、従来の方式に比べて少ない計算量でより
正しい音声区間の検出を行うことができる。
ーディップ清報とを組み合わせた音声区間検出論理を用
いているので、従来の方式に比べて少ない計算量でより
正しい音声区間の検出を行うことができる。
第1図は従来のしきい値処理による音声区間検出の様子
を示す図、第2図はこの発明による音声区間検出の様子
を示す図、第3図はこの発明の一実施例を示すブロック
図である。 1:音声パワー時系列算出部、2:音声検出部、3:パ
ワーディップ時系列算出部、4:パワーディップ極大値
判定部、5:パワーディップしきい値判定部、6:音声
パワーしきい値判定部、7:総合判定部、8:音声パワ
ー極小値判定部、9:音声区間修正部。
を示す図、第2図はこの発明による音声区間検出の様子
を示す図、第3図はこの発明の一実施例を示すブロック
図である。 1:音声パワー時系列算出部、2:音声検出部、3:パ
ワーディップ時系列算出部、4:パワーディップ極大値
判定部、5:パワーディップしきい値判定部、6:音声
パワーしきい値判定部、7:総合判定部、8:音声パワ
ー極小値判定部、9:音声区間修正部。
Claims (1)
- (1)入力音声から音声パワー時系列■=u_1、u_
2……u_nを算出する音声パワー時系列算出手段と、
その算出された音声パワー時系列についてあらかじめ定
められたしきい値T_L_1に対してT_L_1≦u_
i(i=1、2……n)を満たす区間〔S_k、E_k
〕(1≦S_k<E_k≦n、k=1、2……m)を求
める音声検出手段と、 その求めた区間〔S_k、E_k〕において音声パワー
の谷の深さを表現する量の時系列■=p_1、p_2…
…p_lを算出するパワーディップ時系列算出手段と、 前記求めた区間〔S_k、E_k〕において前記時系列
■についてp_i(i=S_k、S_k_+_1……E
_k)が極大値をとるか否かを判定するパワーディップ
極大値判定手段と、 前記求めた区間〔S_k、E_k〕において前記時系列
■についてあらかじめ定められたしきい値PT_Lに対
してPT_L≦p_i(i=S_k、S_k_+_1…
…E_k)を満たすか否かを判定するパワーディップし
きい値判定手段と、 前記求めた区間〔S_k、E_k〕において前記音声パ
ワー時系列■についてあらかじめ定められたしきい値T
_L_2(T_L_2≧T_L_1)に対してT_L_
2≦u_i(i=S_k、S_k_+_1……E_k)
を満たすか否かを判定する音声パワーしきい値判定手段
と、 前記パワーディップ判定手段、パワーディップしきい値
判定手段、音声パワーしきい値判定手段のいずれにおい
ても前記条件を満たすフレームi(S_k<i<E_k
)を検出する総合判定手段と、その検出された第iフレ
ームに対して区間〔i−n_1、i+n_1〕(n_1
は正整数)において前記音声パワーu_j(j=i−n
_1、i−n_1_+_1、……i+n_1)が極小値
をとるか否かを判定する音声パワー極小値判定手段と、 その音声パワー極小値判定手段において前記条件を満足
する場合に当該第iフレームを音声区間の境界とみなし
て前記音声検出手段で検出された音声区間〔S_k、E
_k〕を二つの区間〔S_k、i〕、〔i+1、E_k
〕に分割、修正する音声区間修正手段とから構成される
音声区間検出方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59260472A JPS61138299A (ja) | 1984-12-10 | 1984-12-10 | 音声区間検出方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59260472A JPS61138299A (ja) | 1984-12-10 | 1984-12-10 | 音声区間検出方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS61138299A true JPS61138299A (ja) | 1986-06-25 |
Family
ID=17348420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59260472A Pending JPS61138299A (ja) | 1984-12-10 | 1984-12-10 | 音声区間検出方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS61138299A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009020460A (ja) * | 2007-07-13 | 2009-01-29 | Yamaha Corp | 音声処理装置およびプログラム |
-
1984
- 1984-12-10 JP JP59260472A patent/JPS61138299A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009020460A (ja) * | 2007-07-13 | 2009-01-29 | Yamaha Corp | 音声処理装置およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2527168B2 (ja) | 音響信号から導かれた電気信号を区分する方法及び装置 | |
US4601054A (en) | Pattern distance calculating equipment | |
CN108962286B (zh) | 音频识别方法、装置及存储介质 | |
JPS61138299A (ja) | 音声区間検出方式 | |
JPS63223696A (ja) | 音声パタ−ン作成方式 | |
JPS6147999A (ja) | 音声認識装置 | |
JPS62141595A (ja) | 音声検出方式 | |
JPH0585917B2 (ja) | ||
JP2655637B2 (ja) | 音声パターン照合方式 | |
JPS6086685A (ja) | パタ−ン整合方式 | |
JPS61200596A (ja) | 連続音声認識装置 | |
JP3002200B2 (ja) | 音声認識 | |
JP2748383B2 (ja) | 音声認識方式 | |
KR960011835A (ko) | 음성 신호로부터 워드를 결정하는 시스템 | |
JP2996977B2 (ja) | 音声認識装置 | |
JPH04258999A (ja) | 音声認識方式 | |
JPH05165491A (ja) | 音声認識装置 | |
JPS62217390A (ja) | 順変換テ−ブルを用いたパタ−ン整合方式 | |
JPS63148299A (ja) | 単語音声認識方法および装置 | |
JPS6129898A (ja) | 音声認識装置 | |
JPS60217490A (ja) | 文字認識装置 | |
JPH08305389A (ja) | 音声認識装置 | |
JPH0668679B2 (ja) | パタンマッチング装置 | |
JPS60217399A (ja) | 音声認識方式 | |
JPH0226262B2 (ja) |