JPS61138299A

JPS61138299A - 音声区間検出方式

Info

Publication number: JPS61138299A
Application number: JP59260472A
Authority: JP
Inventors: 達也平原; 良平中津
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1984-12-10
Filing date: 1984-12-10
Publication date: 1986-06-25

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】「産業上の利用分野」この発明は例えば音声認識分野（＝用いられ、とりわけ
いくつかの単語を連続して発声した音声から各単語に対
応した音声区間を検出する音声区間検出方式に関するも
のである。

「従来の技術」従来、音声区間の検出は入力音声から算出される音声パ
ワーｕｉのしきい値処理を用いて行われている。例えば
しきい値ＴＬφをあらかじめ設定しておき入力音声のパ
ワーＵ、がしきい値ＴＬφを横切るフレームを検出する
。第１図に示すように）ζワーｕｉがしきい値ＴＬφを
横切ってから一定フレーム以上ＴＬφ（ｕ４となる場合
、最初にＴＬφ≦ｕｉとなったフレームを始端Ｓとし、
パワーｕｌがしきい値ＴＬφを横切ってから一定フレー
ム以上ｕ　ｉ＜　ＴＬφとなる場合、最初にｕ、〈ＴＬ
φとなったフレームを終端Ｅとする。このとき音声区間
として検出されたＣ８゜Ｅ〕の前後に！フレーム（）は
正整数）を付加してＣＳ−ｊ！　、　Ｅ十ノ〕を音声区
間とする場合もある。

孤立発声した甑音節やけ語の場合は、上述したような手
法を用いてその音声区間をほぼ確実に検出することがで
きる。しかしいくつかの単語を連続して発声した音声の
場合、第１図中に点１１で示すように単語境界で音声パ
ワーが低くならない場合があり、従来の手法で各単語に
対応した音声区間を検出することは難しい。これに対し
て従来、連続して発声した単語音声の認識を行うには単
語境界を未知として認識を行い、最適な認識結果から逆
に単語境界を定める方式が用いられている。

この方式は例えば・中津、好日ｒ　Ｖ　ＣＶ　ｆ節をは
位とした連続用語音声の認識」日本音響学会講演論文集
２−２−１８（昭和４９年１０月）°迫江、千葉ｒ２Ｒ
ＤＰマツチング法による連続単語認識」日本音響学会講
演論文集２−２−１５（昭和５０年５月）等で発表されている。これらの方式の概略は以下のよう
である。入力音声を特徴パラメータの時系列Ａ＝暑１．ａ□、・・・・・・１、に変換する。このパ
ラメータ時系列の任意の区間ａｉ　ｒ　ａｉ＋ｘ　ｒ・・・・・・町と甑語Ｗとの距
離値Ｄ（ｉ。

ｊ、岬）を計算する。次にｉｎＤ　（’　、Ｊ　）　＝　　　Ｄ　（Ｉｙ　Ｊ　ｔ　ｗ
　）およびそれに対応した単語Ｗ（１，ｊ）を全ての（
ｉ、ｊ）（ｉ＜ｊ）の組について計算する。その後、を
求め、これに対応する単語列、Ｗ（１ｒ　’１　）Ｗ（’１　＋１　ｔ　’２　）・・
・・・・Ｗ　（ＩＮ　ｌ　＋　１　ｐ　Ｉ　）を認識結
果とする。このときｉ、　、　ｉ２・・・・・・１Ｎ−
１が各単語の境界となる。この方式は全ての特徴パラメ
ータが単語境界になりうると仮定して距離値の和が最小
になる単語系列を認識結果とするものである。従って全
ての特徴パラメータを単語境界と仮定して計算を行うた
めに極めて多くの計算量を必要とするという欠点があっ
た。

この発明は連続発声した音声に対して効率よく各単語に
対応した適切な音声区間を検出できないという欠点を除
去するために、音声パワーとパワーディップ時系列の情
報とを組み合わせて用いることによって連続発声した音
声から各単語の境界候補を検出し、少ない計算量で各単
語（二対応する区間を検出することを目的とするもので
ある。

「発明の原理」まずこの発明の原理を述べる。入力音声から算出された
一定時間毎の音声パワーをｕｌとし、入力音声全体の音
声パワー時系列が曝＝ｕ１．ｕ２．・・・・・・ｕ、　　　　　　　（ｉ
）で表現されているとする。まずあらかじめ定められた
しきい値Ｔ’ｔ、ｔに対してＴＬＩ≦ｕｉ　（ｉ＝１１２　ｔ−・・・−・ｎ　）　
　　（２）を満たす区間〔Ｓｋ、Ｅｋ〕（１≦Ｓｋ＜　
Ｅｋ≦ｎ。

ｋ＝１　、２　、・・・・・・ｍ）を求める。このよう
にして求めた各区間に以下の処理を施してさらに小さな
区間に分割する。この際区間〔Ｓｋ、　Ｅｋ：）のなか
からその区間長が一定の値しより長い区間、すなわちＬ≦Ｅｋ−Ｓｋ＋　１　　（ｋ　＝　１　　、　２　、
−　＝　ｍ　）　（３）を満たす区間〔Ｓｋ、　Ｅｋ）
だけを２単語以上が繋がった区間とみなして以下の処理
対象の区間とすることもできる。

区間〔Ｓｋ、　Ｅｋ〕の各フレームｉに対して音声パワ
ーの谷の深さをあられす量であるパワーディップｐｉを
求める。Ｐｉの求め方としては例えばかある。Ｃノは例
えば！＝０で最小、ノがノ＝−ｊ。

！＝ｊ（＝近ずくに従って大きくなるようにすることに
より、）＝−ｊ−ノ＝Ｊの区間でこのＣノの変化とｕｌ
が整合する程大きなｐｉが得られる。このよう（ニして
パワーディップ時系列ｐＩＰ：ｐＳｋ！ｐＳｋ＋、＋１１１゛ｐＥｋ（５）を求
める。音声パワーとパワーディップとの関係は例えば第
２図に示すようになる。このパワーディップ系列νと先
に求めたパワー系列単とを用いて区間〔Ｓｋ、Ｅｋ〕の
なかから以下の条件を満たすフレームを求める。（第２
図に条件を満たしている部分なＴ、満たしてない部分を
Ｆで示す）■パワーディップｐ、が極大値をとる。

■パワーディップルミがあらかじめ定められたしきい値
ＰＴＬに対してＰＴＬ≦ｐｉである。

■パワーＵ：があらかじめ定められたしきい値ＴＬ２　
（ＴＬ２≧ＴＬｔ　）に対してＴＬ２≦Ｌｌｉである。

■ａ上の３条件を満たし、かつこの第１フレームの近傍
の区間［：　ｉ　−ｎ、　、　ｉ＋ｎ、　）（ｎ、は正
整数）ｌ二おいてパワーｕｊ（ｊ＝ｉ　−ｎ、　、　ｉ
　−ｎ。

Ｊ−＋１．、・・・・・・・ｉ＋ｎ、）が極小値をとる
。

この４つの条件を同時に満たした当該第ｉフレームを単
語境界とし、先に検出した音声区間を２つの区間ＣＳｋ
　−’　）　−Ｃｊ　＋　１　、　］（ｋ］≦二分割す
る。この処理を各ｋについて行い、最終的には先に求め
た区間〔Ｓｋ、　Ｅｋ）と分割された区間ｃｓｋ。

ｉ）、（：ｉ＋１．Ｅｋ）を組み合わせて音声区間の検
出結果とする。

上記条件■〜■は次に述べる効果がある。条件■は音声
パワーの谷を検出する。しかし条件■だけを用いると音
声パワーの細かな変動に伴う谷を全て検出するために条
件■によって検出した谷の深さがある程度深いものを選
択する。条件■は音声パワーの谷がある程度、音声パワ
ーの大きなところに存在することを要求しており、単語
中の破裂音等によって現れる音声パワーの谷を検出しな
いようにする。式（４）で算出されるパワーディップ時
系列ｐが極大値をとるフレームは必ずしも音声パワーの
谷だけではないので、条件■によって検出したフレーム
の近傍に音声パワーの谷が存在することを確認する。

「実施例」以下（−この発明の実施例（二ついて詳細に説明する。

第３図はこの発明の一実施例を示す。音声パワー時系列
算出部１（二おいて人力音声は比較的短い特開間隔、例
えば１５ｒｎｘ程度に区分され（以下この区分をフレー
ムと呼ぶ）、各フレームの音声パワーｕ１が算出される
。この音声パワーＬｌｉは音声検出部２であらかじめ定
められたしきい値ＴＬＩに対してＴＩ、ｔ≦Ｌｌｉとな
る区間を求める。ここで求められた区間の始端と終端の
組をＣＳ、　、　Ｅｌ　）　。

ＣＳ２　、　Ｅ２　〕、・・・・・・〔Ｓｋ、Ｅｋ〕と
する。検出された各音声区間の各フレームｉに対して、
パワーディップ時系列算出部３で音声パワーの谷の深さ
を表現する量であるパワーディップｐｌを算出する。こ
の算出されたパワーディップｐ１が各フレームｉで極大
値をとるか否かをパワーディップ極大値判定部４で判定
し、つまり前記条件■の判定を行い極大値をとる場合は
真（Ｔ）、そうでない場合は偽（Ｆ）を総合判定部７に
送る。

パワーディップしきい値判定部５では算出されたパワー
ディップｐｉが各フレームｉであらかじめ定められたし
きい値ＰＴＬに対しＰＴＬ≦ｐｉを満たすか否かを判定
し、つまり前記条件■の判定を行いこのｉ配条件を満た
す場合は真（Ｔ）、満たさない場合は偽（Ｆ）を総合判
定部７（＝送る。

更に音声パワーしきい値判定部６では検出された音声区
間の各フレーム１（二おいて、音声パワーｕｉがあらか
じめ定められたしきい値ＴＬ２　（ＴＩ、２　＞ＴＬＩ
　）対してＴＬ２≦Ｕ、を満たすか否かを判定し、つま
り前記条件■の判定を行いこの＊嚇条件を満たす場合は
真（Ｔ）、満たさない場合は偽（Ｆ）を総合判定部７Ｃ
二送る。総合判定部７ではパワーディップ極大値判定部
４、パワーディップしきい値判定部５、音声パワーしき
い値判定部６の各判定結果の論理和をとり、いずれも真
（Ｔ）か偽（Ｆ）かを判定し、その結果が真の場合、そ
れを与えるフレーム番号ｉを出力する。この第１フレー
ムの近傍〔ｉ　−ｎ、　、　１−１−１１〕（ｎｔは正
整数）で音声パワーｕｉが極小値をとるか否かを音声パ
ワー極小値判定部８で判定し、極小値をとる場合、それ
を与えるフレーム番号ｉを出力する。第２図では音声パ
ワーの極小点１２がこれら４つの条件を満たすフレーム
として検出される。音声区間修正部９では音声パワー極
小値判定部８の出力である第１フレームを単語の境界と
みなして音声検出部２で得られた音声区間のうち！が含
まれている区間〔Ｓｋ。

Ｅｋ〕を［Ｓｋ＋ｉ　］、［ｉ＋１　、Ｅｋ〕の２つの
区間に分割する。第２図では第１音声区間検出結果の区
間（ｓ２．Ｅ２　、ｌがＣＳ２　、　Ｅ２　：］とＣｓ
、　、　Ｅ８　）とに分割される。

「発明の効果」以上説明したように、この発明は音声パワー情報とパワ
ーディップ清報とを組み合わせた音声区間検出論理を用
いているので、従来の方式に比べて少ない計算量でより
正しい音声区間の検出を行うことができる。

【図面の簡単な説明】

第１図は従来のしきい値処理による音声区間検出の様子
を示す図、第２図はこの発明による音声区間検出の様子
を示す図、第３図はこの発明の一実施例を示すブロック
図である。１：音声パワー時系列算出部、２：音声検出部、３：パ
ワーディップ時系列算出部、４：パワーディップ極大値
判定部、５：パワーディップしきい値判定部、６：音声
パワーしきい値判定部、７：総合判定部、８：音声パワ
ー極小値判定部、９：音声区間修正部。

Claims

【特許請求の範囲】

（１）入力音声から音声パワー時系列■＝ｕ＿１、ｕ＿
２……ｕ＿ｎを算出する音声パワー時系列算出手段と、
その算出された音声パワー時系列についてあらかじめ定
められたしきい値Ｔ＿Ｌ＿１に対してＴ＿Ｌ＿１≦ｕ＿
ｉ（ｉ＝１、２……ｎ）を満たす区間〔Ｓ＿ｋ、Ｅ＿ｋ
〕（１≦Ｓ＿ｋ＜Ｅ＿ｋ≦ｎ、ｋ＝１、２……ｍ）を求
める音声検出手段と、その求めた区間〔Ｓ＿ｋ、Ｅ＿ｋ〕において音声パワー
の谷の深さを表現する量の時系列■＝ｐ＿１、ｐ＿２…
…ｐ＿ｌを算出するパワーディップ時系列算出手段と、前記求めた区間〔Ｓ＿ｋ、Ｅ＿ｋ〕において前記時系列
■についてｐ＿ｉ（ｉ＝Ｓ＿ｋ、Ｓ＿ｋ＿＋＿１……Ｅ
＿ｋ）が極大値をとるか否かを判定するパワーディップ
極大値判定手段と、前記求めた区間〔Ｓ＿ｋ、Ｅ＿ｋ〕において前記時系列
■についてあらかじめ定められたしきい値ＰＴ＿Ｌに対
してＰＴ＿Ｌ≦ｐ＿ｉ（ｉ＝Ｓ＿ｋ、Ｓ＿ｋ＿＋＿１…
…Ｅ＿ｋ）を満たすか否かを判定するパワーディップし
きい値判定手段と、前記求めた区間〔Ｓ＿ｋ、Ｅ＿ｋ〕において前記音声パ
ワー時系列■についてあらかじめ定められたしきい値Ｔ
＿Ｌ＿２（Ｔ＿Ｌ＿２≧Ｔ＿Ｌ＿１）に対してＴ＿Ｌ＿
２≦ｕ＿ｉ（ｉ＝Ｓ＿ｋ、Ｓ＿ｋ＿＋＿１……Ｅ＿ｋ）
を満たすか否かを判定する音声パワーしきい値判定手段
と、前記パワーディップ判定手段、パワーディップしきい値
判定手段、音声パワーしきい値判定手段のいずれにおい
ても前記条件を満たすフレームｉ（Ｓ＿ｋ＜ｉ＜Ｅ＿ｋ
）を検出する総合判定手段と、その検出された第ｉフレ
ームに対して区間〔ｉ−ｎ＿１、ｉ＋ｎ＿１〕（ｎ＿１
は正整数）において前記音声パワーｕ＿ｊ（ｊ＝ｉ−ｎ
＿１、ｉ−ｎ＿１＿＋＿１、……ｉ＋ｎ＿１）が極小値
をとるか否かを判定する音声パワー極小値判定手段と、その音声パワー極小値判定手段において前記条件を満足
する場合に当該第ｉフレームを音声区間の境界とみなし
て前記音声検出手段で検出された音声区間〔Ｓ＿ｋ、Ｅ
＿ｋ〕を二つの区間〔Ｓ＿ｋ、ｉ〕、〔ｉ＋１、Ｅ＿ｋ
〕に分割、修正する音声区間修正手段とから構成される
音声区間検出方式。