JPS61138299A - 音声区間検出方式 - Google Patents

音声区間検出方式

Info

Publication number
JPS61138299A
JPS61138299A JP59260472A JP26047284A JPS61138299A JP S61138299 A JPS61138299 A JP S61138299A JP 59260472 A JP59260472 A JP 59260472A JP 26047284 A JP26047284 A JP 26047284A JP S61138299 A JPS61138299 A JP S61138299A
Authority
JP
Japan
Prior art keywords
power
time series
voice
frame
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59260472A
Other languages
English (en)
Inventor
達也 平原
良平 中津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP59260472A priority Critical patent/JPS61138299A/ja
Publication of JPS61138299A publication Critical patent/JPS61138299A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 「産業上の利用分野」 この発明は例えば音声認識分野(=用いられ、とりわけ
いくつかの単語を連続して発声した音声から各単語に対
応した音声区間を検出する音声区間検出方式に関するも
のである。
「従来の技術」 従来、音声区間の検出は入力音声から算出される音声パ
ワーuiのしきい値処理を用いて行われている。例えば
しきい値TLφをあらかじめ設定しておき入力音声のパ
ワーU、がしきい値TLφを横切るフレームを検出する
。第1図に示すように)ζワーuiがしきい値TLφを
横切ってから一定フレーム以上TLφ(u4となる場合
、最初にTLφ≦uiとなったフレームを始端Sとし、
パワーulがしきい値TLφを横切ってから一定フレー
ム以上u i< TLφとなる場合、最初にu、〈TL
φとなったフレームを終端Eとする。このとき音声区間
として検出されたC8゜E〕の前後に!フレーム()は
正整数)を付加してCS−j! 、 E十ノ〕を音声区
間とする場合もある。
孤立発声した甑音節やけ語の場合は、上述したような手
法を用いてその音声区間をほぼ確実に検出することがで
きる。しかしいくつかの単語を連続して発声した音声の
場合、第1図中に点11で示すように単語境界で音声パ
ワーが低くならない場合があり、従来の手法で各単語に
対応した音声区間を検出することは難しい。これに対し
て従来、連続して発声した単語音声の認識を行うには単
語境界を未知として認識を行い、最適な認識結果から逆
に単語境界を定める方式が用いられている。
この方式は例えば・中津、好日r V CV f節をは
位とした連続用語音声の認識」日本音響学会講演論文集
2−2−18(昭和49年10月)°迫江、千葉r2R
DPマツチング法による連続単語認識」日本音響学会講
演論文集2−2−15(昭和50年5月) 等で発表されている。これらの方式の概略は以下のよう
である。入力音声を特徴パラメータの時系列 A=暑1.a□、・・・・・・1、に変換する。このパ
ラメータ時系列の任意の区間 ai r ai+x r・・・・・・町と甑語Wとの距
離値D(i。
j、岬)を計算する。次に in D (’ 、J ) =   D (Iy J t w
 )およびそれに対応した単語W(1,j)を全ての(
i、j)(i<j)の組について計算する。その後、を
求め、これに対応する単語列、 W(1r ’1 )W(’1 +1 t ’2 )・・
・・・・W (IN l + 1 p I )を認識結
果とする。このときi、 、 i2・・・・・・1N−
1が各単語の境界となる。この方式は全ての特徴パラメ
ータが単語境界になりうると仮定して距離値の和が最小
になる単語系列を認識結果とするものである。従って全
ての特徴パラメータを単語境界と仮定して計算を行うた
めに極めて多くの計算量を必要とするという欠点があっ
た。
この発明は連続発声した音声に対して効率よく各単語に
対応した適切な音声区間を検出できないという欠点を除
去するために、音声パワーとパワーディップ時系列の情
報とを組み合わせて用いることによって連続発声した音
声から各単語の境界候補を検出し、少ない計算量で各単
語(二対応する区間を検出することを目的とするもので
ある。
「発明の原理」 まずこの発明の原理を述べる。入力音声から算出された
一定時間毎の音声パワーをulとし、入力音声全体の音
声パワー時系列が 曝=u1.u2.・・・・・・u、       (i
)で表現されているとする。まずあらかじめ定められた
しきい値T’t、tに対して TLI≦ui (i=112 t−・・・−・n ) 
  (2)を満たす区間〔Sk、Ek〕(1≦Sk< 
Ek≦n。
k=1 、2 、・・・・・・m)を求める。このよう
にして求めた各区間に以下の処理を施してさらに小さな
区間に分割する。この際区間〔Sk、 Ek:)のなか
からその区間長が一定の値しより長い区間、すなわち L≦Ek−Sk+ 1  (k = 1  、 2 、
− = m ) (3)を満たす区間〔Sk、 Ek)
だけを2単語以上が繋がった区間とみなして以下の処理
対象の区間とすることもできる。
区間〔Sk、 Ek〕の各フレームiに対して音声パワ
ーの谷の深さをあられす量であるパワーディップpiを
求める。Piの求め方としては例えばかある。Cノは例
えば!=0で最小、ノがノ=−j。
!=j(=近ずくに従って大きくなるようにすることに
より、)=−j−ノ=Jの区間でこのCノの変化とul
が整合する程大きなpiが得られる。このよう(ニして
パワーディップ時系列p IP:pSk!pSk+、+111゛pEk(5)を求
める。音声パワーとパワーディップとの関係は例えば第
2図に示すようになる。このパワーディップ系列νと先
に求めたパワー系列単とを用いて区間〔Sk、Ek〕の
なかから以下の条件を満たすフレームを求める。(第2
図に条件を満たしている部分なT、満たしてない部分を
Fで示す)■パワーディップp、が極大値をとる。
■パワーディップルミがあらかじめ定められたしきい値
PTLに対してPTL≦piである。
■パワーU:があらかじめ定められたしきい値TL2 
(TL2≧TLt )に対してTL2≦Lliである。
■a上の3条件を満たし、かつこの第1フレームの近傍
の区間[: i −n、 、 i+n、 )(n、は正
整数)l二おいてパワーuj(j=i −n、 、 i
 −n。
J−+1.、・・・・・・・i+n、)が極小値をとる
この4つの条件を同時に満たした当該第iフレームを単
語境界とし、先に検出した音声区間を2つの区間CSk
 −’ ) −Cj + 1 、 ](k]≦二分割す
る。この処理を各kについて行い、最終的には先に求め
た区間〔Sk、 Ek)と分割された区間csk。
i)、(:i+1.Ek)を組み合わせて音声区間の検
出結果とする。
上記条件■〜■は次に述べる効果がある。条件■は音声
パワーの谷を検出する。しかし条件■だけを用いると音
声パワーの細かな変動に伴う谷を全て検出するために条
件■によって検出した谷の深さがある程度深いものを選
択する。条件■は音声パワーの谷がある程度、音声パワ
ーの大きなところに存在することを要求しており、単語
中の破裂音等によって現れる音声パワーの谷を検出しな
いようにする。式(4)で算出されるパワーディップ時
系列pが極大値をとるフレームは必ずしも音声パワーの
谷だけではないので、条件■によって検出したフレーム
の近傍に音声パワーの谷が存在することを確認する。
「実施例」 以下(−この発明の実施例(二ついて詳細に説明する。
第3図はこの発明の一実施例を示す。音声パワー時系列
算出部1(二おいて人力音声は比較的短い特開間隔、例
えば15rnx程度に区分され(以下この区分をフレー
ムと呼ぶ)、各フレームの音声パワーu1が算出される
。この音声パワーLliは音声検出部2であらかじめ定
められたしきい値TLIに対してTI、t≦Lliとな
る区間を求める。ここで求められた区間の始端と終端の
組をCS、 、 El ) 。
CS2 、 E2 〕、・・・・・・〔Sk、Ek〕と
する。検出された各音声区間の各フレームiに対して、
パワーディップ時系列算出部3で音声パワーの谷の深さ
を表現する量であるパワーディップplを算出する。こ
の算出されたパワーディップp1が各フレームiで極大
値をとるか否かをパワーディップ極大値判定部4で判定
し、つまり前記条件■の判定を行い極大値をとる場合は
真(T)、そうでない場合は偽(F)を総合判定部7に
送る。
パワーディップしきい値判定部5では算出されたパワー
ディップpiが各フレームiであらかじめ定められたし
きい値PTLに対しPTL≦piを満たすか否かを判定
し、つまり前記条件■の判定を行いこのi配条件を満た
す場合は真(T)、満たさない場合は偽(F)を総合判
定部7(=送る。
更に音声パワーしきい値判定部6では検出された音声区
間の各フレーム1(二おいて、音声パワーuiがあらか
じめ定められたしきい値TL2 (TI、2 >TLI
 )対してTL2≦U、を満たすか否かを判定し、つま
り前記条件■の判定を行いこの*嚇条件を満たす場合は
真(T)、満たさない場合は偽(F)を総合判定部7C
二送る。総合判定部7ではパワーディップ極大値判定部
4、パワーディップしきい値判定部5、音声パワーしき
い値判定部6の各判定結果の論理和をとり、いずれも真
(T)か偽(F)かを判定し、その結果が真の場合、そ
れを与えるフレーム番号iを出力する。この第1フレー
ムの近傍〔i −n、 、 1−1−11〕(ntは正
整数)で音声パワーuiが極小値をとるか否かを音声パ
ワー極小値判定部8で判定し、極小値をとる場合、それ
を与えるフレーム番号iを出力する。第2図では音声パ
ワーの極小点12がこれら4つの条件を満たすフレーム
として検出される。音声区間修正部9では音声パワー極
小値判定部8の出力である第1フレームを単語の境界と
みなして音声検出部2で得られた音声区間のうち!が含
まれている区間〔Sk。
Ek〕を[Sk+i ]、[i+1 、Ek〕の2つの
区間に分割する。第2図では第1音声区間検出結果の区
間(s2.E2 、lがCS2 、 E2 :]とCs
、 、 E8 )とに分割される。
「発明の効果」 以上説明したように、この発明は音声パワー情報とパワ
ーディップ清報とを組み合わせた音声区間検出論理を用
いているので、従来の方式に比べて少ない計算量でより
正しい音声区間の検出を行うことができる。
【図面の簡単な説明】
第1図は従来のしきい値処理による音声区間検出の様子
を示す図、第2図はこの発明による音声区間検出の様子
を示す図、第3図はこの発明の一実施例を示すブロック
図である。 1:音声パワー時系列算出部、2:音声検出部、3:パ
ワーディップ時系列算出部、4:パワーディップ極大値
判定部、5:パワーディップしきい値判定部、6:音声
パワーしきい値判定部、7:総合判定部、8:音声パワ
ー極小値判定部、9:音声区間修正部。

Claims (1)

    【特許請求の範囲】
  1. (1)入力音声から音声パワー時系列■=u_1、u_
    2……u_nを算出する音声パワー時系列算出手段と、
    その算出された音声パワー時系列についてあらかじめ定
    められたしきい値T_L_1に対してT_L_1≦u_
    i(i=1、2……n)を満たす区間〔S_k、E_k
    〕(1≦S_k<E_k≦n、k=1、2……m)を求
    める音声検出手段と、 その求めた区間〔S_k、E_k〕において音声パワー
    の谷の深さを表現する量の時系列■=p_1、p_2…
    …p_lを算出するパワーディップ時系列算出手段と、 前記求めた区間〔S_k、E_k〕において前記時系列
    ■についてp_i(i=S_k、S_k_+_1……E
    _k)が極大値をとるか否かを判定するパワーディップ
    極大値判定手段と、 前記求めた区間〔S_k、E_k〕において前記時系列
    ■についてあらかじめ定められたしきい値PT_Lに対
    してPT_L≦p_i(i=S_k、S_k_+_1…
    …E_k)を満たすか否かを判定するパワーディップし
    きい値判定手段と、 前記求めた区間〔S_k、E_k〕において前記音声パ
    ワー時系列■についてあらかじめ定められたしきい値T
    _L_2(T_L_2≧T_L_1)に対してT_L_
    2≦u_i(i=S_k、S_k_+_1……E_k)
    を満たすか否かを判定する音声パワーしきい値判定手段
    と、 前記パワーディップ判定手段、パワーディップしきい値
    判定手段、音声パワーしきい値判定手段のいずれにおい
    ても前記条件を満たすフレームi(S_k<i<E_k
    )を検出する総合判定手段と、その検出された第iフレ
    ームに対して区間〔i−n_1、i+n_1〕(n_1
    は正整数)において前記音声パワーu_j(j=i−n
    _1、i−n_1_+_1、……i+n_1)が極小値
    をとるか否かを判定する音声パワー極小値判定手段と、 その音声パワー極小値判定手段において前記条件を満足
    する場合に当該第iフレームを音声区間の境界とみなし
    て前記音声検出手段で検出された音声区間〔S_k、E
    _k〕を二つの区間〔S_k、i〕、〔i+1、E_k
    〕に分割、修正する音声区間修正手段とから構成される
    音声区間検出方式。
JP59260472A 1984-12-10 1984-12-10 音声区間検出方式 Pending JPS61138299A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59260472A JPS61138299A (ja) 1984-12-10 1984-12-10 音声区間検出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59260472A JPS61138299A (ja) 1984-12-10 1984-12-10 音声区間検出方式

Publications (1)

Publication Number Publication Date
JPS61138299A true JPS61138299A (ja) 1986-06-25

Family

ID=17348420

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59260472A Pending JPS61138299A (ja) 1984-12-10 1984-12-10 音声区間検出方式

Country Status (1)

Country Link
JP (1) JPS61138299A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020460A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020460A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム

Similar Documents

Publication Publication Date Title
JP2527168B2 (ja) 音響信号から導かれた電気信号を区分する方法及び装置
US4601054A (en) Pattern distance calculating equipment
CN108962286B (zh) 音频识别方法、装置及存储介质
JPS61138299A (ja) 音声区間検出方式
JPS63223696A (ja) 音声パタ−ン作成方式
JPS6147999A (ja) 音声認識装置
JPS62141595A (ja) 音声検出方式
JPH0585917B2 (ja)
JP2655637B2 (ja) 音声パターン照合方式
JPS6086685A (ja) パタ−ン整合方式
JPS61200596A (ja) 連続音声認識装置
JP3002200B2 (ja) 音声認識
JP2748383B2 (ja) 音声認識方式
KR960011835A (ko) 음성 신호로부터 워드를 결정하는 시스템
JP2996977B2 (ja) 音声認識装置
JPH04258999A (ja) 音声認識方式
JPH05165491A (ja) 音声認識装置
JPS62217390A (ja) 順変換テ−ブルを用いたパタ−ン整合方式
JPS63148299A (ja) 単語音声認識方法および装置
JPS6129898A (ja) 音声認識装置
JPS60217490A (ja) 文字認識装置
JPH08305389A (ja) 音声認識装置
JPH0668679B2 (ja) パタンマッチング装置
JPS60217399A (ja) 音声認識方式
JPH0226262B2 (ja)