JPS62141595A - 音声検出方式 - Google Patents

音声検出方式

Info

Publication number
JPS62141595A
JPS62141595A JP60282481A JP28248185A JPS62141595A JP S62141595 A JPS62141595 A JP S62141595A JP 60282481 A JP60282481 A JP 60282481A JP 28248185 A JP28248185 A JP 28248185A JP S62141595 A JPS62141595 A JP S62141595A
Authority
JP
Japan
Prior art keywords
peak
speech
section
candidate
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60282481A
Other languages
English (en)
Other versions
JPH0588840B2 (ja
Inventor
藤橋 勇一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP60282481A priority Critical patent/JPS62141595A/ja
Publication of JPS62141595A publication Critical patent/JPS62141595A/ja
Publication of JPH0588840B2 publication Critical patent/JPH0588840B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、音声認識装置等において音声の存在する時間
を判定するのに用いる音声検出方式に関する。
(従来の技術) 従来、この種の音声検出方式では、音声のパワーのレベ
ルが閾値を越えている継続時間がある一定時間以上のと
きに音声の始端とし、閾値を下回っている継続′時間が
ある一定時間以上のときに音声の終端とする方式が多く
用いられていた。
(発明が解決しようとする問題点) 上述した従来の音声検出方式では、レベルの継続時間に
よって音声区間を検出しているから、パワー・ディップ
の深い音声の場合には語頭部が欠落したシ、瞬時的な雑
音でも雑音が語尾に近接している場合には終端が延長さ
れて音声区間に雑音が含まれる。このように、従来の音
声検出方式には音声区間を誤って検出するという欠点が
ある。
(問題点を解決するための手段) 前述の問題点を解決するために本発明が提供する手段は
、音声信号のパワーを算出するパワー算出部と、このパ
ワー算出部が算出した前記パワーを平滑化して平滑化パ
ワーを得るパワー平滑化部と、前記平滑化パワーの変化
率が正から負に変わる変曲点をその平滑化パワーのピー
ク候補として検出するピーク検出部と、前記ピーク候補
のうちレベルが最大であるピーク候補を最大ピークとし
て選出し、この最大ピークのレベルと所定のピーク選別
用係数とからピーク選別用閾値を算・出し。
前記最大ピークのレベルと所定のピーク幅算出用係敬と
からピーク幅算出用闇値を算出する閾値算出部と、前記
ピーク検出部で検出した前記ピーク候補のレベルと前記
ピーク選別用閾値とを比較し。
そのレベルが前記ピーク選別用閾値以上の前記ピーク候
補だけをピークとして選別するピーク選別部と、前記平
滑化パワーが前記ピーク幅算出用閾値以上である時間で
あって前記ピーク選別部で選別された前記ピークを含む
時間をピ・−り幅として算出するピーク幅算出部と、前
記ピーク幅のうち所定のピーク幅閾値より広いピーク幅
を音声区間候補として出力するピーク幅比較部と、この
ピーク幅比較部で得た前記音声区間候補が複数である場
合、隣接した前記音声区間候補のうちの前の前記音声区
間候補の終端から後の前記音声区間候補の始端までの時
間を音声区間候補時間差として算出する音声区間候補時
間差算出部と、前記ピーク幅比較部及び前記音声区間候
補時間差算出部の出力結果から音声区間の判定を行なう
音声区間判定部とを備え、この音声区間判定部は、前記
音声区間候補が1つの場合にはそのままその音声区間候
補を前記音声区間と判定し、前記音一区間候補が複数で
あって隣接している前記音声区間候補の前記音声区間候
補時間差が所定の音声区間候補時間差閾値より短かい場
合には複数の前記音声区間候補を1つの音声区間候補に
まとめて前の前記音声区間候補の始端から後ろの前記音
声区間候補の終端までを新たな音声区間候補とする音声
区間候補のまとめ処理を行ない、この音声区間候補のま
とめ処理を繰返し行ない最終的に残った音声区間候補の
うちの1つ又は複数を前記音声区間とするととを特徴と
する。
(実施例) 次に本発明について図面を参照して説明する。
第1図は本発明の一実施例のブロック図である。
この実施例は、パワー算出部l、パワー平滑化部2)ピ
ーク検出部3、閾値算出部4、ピーク選別部5、ピーク
幅算出部6、ピーク幅比較部7、音声区間判定部8及び
音声区間候補時間差算出部22から構成される。入力音
声10はパワー算出部1に入力され、算出されたパワー
11はパワー平滑化部2に入力され、平滑化されたパワ
ー12はピーク検出部3とピーク幅算出部6とに入力さ
れる。
ピーク検出部3は、平滑化パワー12の変化率が正から
負に変わる変曲点をその平滑化パワーのピーク候補13
として検出し、検出したピーク候補13を閾値算出部4
とピーク選別部5とに出力する。閾値算出部4は、ピー
ク候補13のうちから最大ピークレベルを算出し、ピー
ク選別用係数19と演算を行ないピーク選別用閾値14
を算出しピーク選別部5へ出力し、また最大ピークレベ
ルとピーク幅算出用係数20との演算を行ないピーク幅
算出用閾値15を算出しピーク幅算出部6へ出力する。
ピーク選別部5は、ピーク候補13のピークレベルとピ
ーク選別用閾値14とを比較し閾値以上のピークレベル
を有するピーク候補だけをピーク25としてピーク幅算
出部6へ出力する。
ピーク幅算出部6は、ピーク幅算出用閾値15以上に平
滑化パワー12がある時間区間であって、ピーク25が
含まれる時間区間をピーク幅16として出力する。ピー
ク1陥16は、ピーク25が指定する平滑化パワー12
のピークであって、ピーク幅算出用閾値15以上である
平滑化パワー12の時間区間を現わしている。このピー
ク幅16はピーク幅比較部7へ出力される。ピーク幅比
較部7は、ピーク幅閾値21と各ピークのピーク幅16
とを比較し、閾値21以上のピーク幅を有するピークの
始端及び終端を音声区間候補17として音声区間判定部
8と音声区間候補時間差算出部22へ出力する。
音声区間判定部8は、音声区間候補17が1つの場合そ
のまま音声区間候補17を音声区間18として出力する
。音声区間候補17が複数の場合は、音声区間候補時間
差算出部22は、隣接した音声区間候補のうちの前の音
声区間候補の終端から後の音声区間候補の始端までの時
間を音声区間候補時間差23として算出する。このとき
、音声区間判定部8は、隣接した音声区間候補の音声区
間候補時間差23が音声区間候補時間差閾値24より小
さい場合には、1つの音声区間候補にまとめる処理をく
り返し行ない、最終的に1つになった場合はまとめ処理
を行なった音声区間候補を音声区間18として出力し、
1つにならなかった場合、最大のピークレベルを有する
まとめ処理を行なった音声区間候補を音声区間1’ 8
として出力する。
このように、音声区間候補が最終的に複数となった場合
、最大ピークレベルを有する音声区間候補以外は切り捨
てるという方式は、雑音区間の除去に有効である。しか
し、音声区間判定部8は、音声区間候補が複数となった
場合には各々の音声区間候補を別々の音声区間と判定す
る方式にすれば、連続して音声を発声した場合における
音声区間の分離などに有効であることは明らかである。
第2図は、第1図実施例における平滑した音声パワー1
2の波形と音声検出用閾値と検出された音声区間との関
係を示す図である。第1図実施例によれば、ピークレベ
ルの低い雑音や音声に近接した雑音が除去され、かつパ
ワー・ディップの深い音声でも語頭の欠落を防ぐことが
できることを、第2図を参照して、また第1図と関連づ
けて以下に詳しく説明する。第2図の横軸30は時間、
縦軸31は平滑されたパワーを表し、本図の波形は、第
1図のパワー平滑化部2の出力である平滑化されたパワ
ー12の波形を示す。
第1図のピーク検出部3によって、第2図のピーク候補
32.33,34.35の4つのピーク候補が検出され
、第1図の閾値算出部4で最大ピークであるピーク候補
34からピーク選別用閾値14とピーク幅算出用閾値1
5とが算出される。
ピーク選別部5では、ピーク選別用閾値14にょシピー
クレベルの小さいピーク候補32が除去され、ピーク候
補33.34.35がピークとして出力される。ピーク
幅算出部6では、ピーク幅算出用閾値15によりピーク
33134,35のピーク幅38,39.40を訂出し
、ピーク幅比較部7ではピーク幅閾値21と各ピーク幅
38゜39.40とを比較し、第2図の例では全てのピ
ーク幅が閾値21より広いので、ピーク33゜34.3
5の各々の始端から終端までの区間が音声区間候補17
として出力される。
音声区間候補時間差算出部22では、ピーク33と34
の音声区間候補時間差43と、ピーク34とピーク35
の音声区間候補時間差44とを算出する。音声区間判定
部8では、音声区間候補時間差閾値24と、各音声区間
候補時間差43144とを比較し、音声区間候補時間差
43が閾値24より短いのでピーク33と34の音声区
間候補を1つにまとめ、ピーク33の始端からピーク3
4の終端°までを新たな音声区間@補とし、音声区間候
補時間差44は閾値24より広りので、ピーク35はま
とめることができず、2つの音声区間候補が残ることに
なる。音声区間判定部8は、次に2つの音声区間候補の
ピークレベルを比較し、最大ピーク34を有する始端4
1から終端42までの音声区間候補を音声区間18と判
定し出力する。
従って、第1図実施例によれば、第2図に示した例の様
に、雑音であるピーク32と35が除去され、かつパワ
ー・ディップが深くピーク33と34に分離している音
声でも正しく音声区間の検出を行なうことができる。
(発明の効果) 以上説明したように、本発明は、平滑化したパワー波形
のピークを検出し、レベルが最大であるピークのレベル
からピーク選別用閾値とピーク幅算出用閾値とを算出し
、ピーク選別用閾値以上のピークレベルを有するピーク
のピーク幅をピーク幅算出用閾値によって算出し、ピー
ク幅が所定の幅以上のピークを音声区間候補と判定し、
音声区間候補と判定されたピークが複数の場合、音声区
間時間差を算出し、所定の時間より短かい場合は1つの
音声区間にまとめる処理をくり返し行ない、最終的に1
つにならなかった場合にはそのうちの1つ(例えば最大
のピークレベルを有する音声区間候補)又は複数の音声
区間候補のうちのいくつかを音声区間と判定することK
より、ピークの高さ、幅、隣接ピークとの時間差に基い
て音声区間の判定を行なうことができ、瞬時的なピーク
を持つ雑音が音声に近接していても雑音の部分を除去で
き、またパワー・ディップの深め音声でも語頭のピーク
の部分の欠落を防ぐことができ、上述した従来方式の欠
点を除去することができ、音声認識装置に用いた場合、
認識率を向上できる。
【図面の簡単な説明】
第1図は本発明の一実施例のブロック図、第2図はこの
実施例における平滑化音声パワーの波形を示す図である
。 し・・パワー算出部、2・・す5ワ一平滑化部、3・・
・ピーク検出部、4・・・閾値算出部、5・・・ピーク
選別部、6・・・ピーク幅算出部、7・・・ピーク幅比
較部、8・・・音声区間判定部、10・・・入力音声、
11・・・パワー、12・・・平滑化されたパワー、1
3・・・ピーク候補、14・・・ピーク選別用閾値、1
5・・・ピーク幅算出用閾値、16・・・ピーク幅、1
7・・・音声区間候補、18・・・音声区間、19・・
・ピーク選別用係数、20・・・ピーク幅算出用係数、
21・・・ピーク幅閾値、22・・・音声区間候補時間
差算出部、23・・・音声区間候補時間差、24・・・
音声区間候補時間差閾値、30・・・横軸(時間)、3
1・・・縦軸(平滑されたパワー)、32〜35・・・
ピーク候補、38〜40・・・ピーク幅、41・・・始
端、42・・・終端、43.44・・・音声区間候補時
間差。

Claims (3)

    【特許請求の範囲】
  1. (1)音声信号のパワーを算出するパワー算出部と、こ
    のパワー算出部が算出した前記パワーを平滑化して平滑
    化パワーを得るパワー平滑化部と、前記平滑化パワーの
    変化率が正から負に変わる変曲点をその平滑化パワーの
    ピーク候補として検出するピーク検出部と、前記ピーク
    候補のうちレベルが最大であるピーク候補を最大ピーク
    として選出し、この最大ピークのレベルと所定のピーク
    選別用係数とからピーク選別用閾値を算出し、前記最大
    ピークのレベルと所定のピーク幅算出用係数とからピー
    ク幅算出用閾値を算出する閾値算出部と、前記ピーク検
    出部で検出した前記ピーク候補のレベルと前記ピーク選
    別用閾値とを比較し、そのレベルが前記ピーク選別用閾
    値以上の前記ピーク候補だけをピークとして選別するピ
    ーク選別部と、前記平滑化パワーが前記ピーク幅算出用
    閾値以上である時間であつて前記ピーク選別部で選別さ
    れた前記ピークを含む時間をピーク幅として算出するピ
    ーク幅算出部と、前記ピーク幅のうち所定のピーク幅閾
    値より広いピーク幅を音声区間候補として出力するピー
    ク幅比較部と、このピーク幅比較部で得た前記音声区間
    候補が複数である場合、隣接した前記音声区間候補のう
    ちの前の前記音声区間候補の終端から後の前記音声区間
    候補の始端までの時間を音声区間候補時間差として算出
    する音声区間候補時間差算出部と、前記ピーク幅比較部
    及び前記音声区間候補時間差算出部の出力結果から音声
    区間の判定を行なう音声区間判定部とを備え、この音声
    区間判定部は、前記音声区間候補が1つの場合にはその
    ままその音声区間候補を前記音声区間と判定し、前記音
    声区間候補が複数であつて隣接している前記音声区間候
    補の前記音声区間候補時間差が所定の音声区間候補時間
    差閾値より短かい場合には複数の前記音声区間候補を1
    つの音声区間候補にまとめて前の前記音声区間候補の始
    端から後ろの前記音声区間候補の終端までを新たな音声
    区間候補とする音声区間候補のまとめ処理を行ない、こ
    の音声区間候補のまとめ処理を繰返し行ない最終的に残
    つた音声区間候補のうちの1つ又は複数を前記音声区間
    とすることを特徴とする音声検出方式。
  2. (2)特許請求の範囲第1項記載の音声検出方式におい
    て、前記音声区間判定部は、最終的に前記音声区間候補
    が複数となつた場合、それらの音声区間候補のうちピー
    クレベルが最大である音声区間候補だけを前記音声区間
    とすることを特徴とする音声区間検出方式。
  3. (3)特許請求の範囲第1項記載の音声検出方式におい
    て、前記音声区間判定部は、最終的に前記音声区間候補
    が複数となつた場合、各々の前記音声区間候補を別々の
    前記音声区間と判定することを特徴とする音声区間検出
    方式。
JP60282481A 1985-12-16 1985-12-16 音声検出方式 Granted JPS62141595A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60282481A JPS62141595A (ja) 1985-12-16 1985-12-16 音声検出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60282481A JPS62141595A (ja) 1985-12-16 1985-12-16 音声検出方式

Publications (2)

Publication Number Publication Date
JPS62141595A true JPS62141595A (ja) 1987-06-25
JPH0588840B2 JPH0588840B2 (ja) 1993-12-24

Family

ID=17652995

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60282481A Granted JPS62141595A (ja) 1985-12-16 1985-12-16 音声検出方式

Country Status (1)

Country Link
JP (1) JPS62141595A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05234247A (ja) * 1992-02-19 1993-09-10 Teac Corp 音声信号検出回路
JP2009020457A (ja) * 2007-07-13 2009-01-29 Univ Waseda 音声処理装置およびプログラム
US9129611B2 (en) 2011-12-28 2015-09-08 Fuji Xerox Co., Ltd. Voice analyzer and voice analysis system
US9153244B2 (en) 2011-12-26 2015-10-06 Fuji Xerox Co., Ltd. Voice analyzer

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05234247A (ja) * 1992-02-19 1993-09-10 Teac Corp 音声信号検出回路
JP2009020457A (ja) * 2007-07-13 2009-01-29 Univ Waseda 音声処理装置およびプログラム
US9153244B2 (en) 2011-12-26 2015-10-06 Fuji Xerox Co., Ltd. Voice analyzer
US9129611B2 (en) 2011-12-28 2015-09-08 Fuji Xerox Co., Ltd. Voice analyzer and voice analysis system

Also Published As

Publication number Publication date
JPH0588840B2 (ja) 1993-12-24

Similar Documents

Publication Publication Date Title
JPS62141595A (ja) 音声検出方式
CN113611330A (zh) 一种音频检测方法、装置、电子设备及存储介质
JPS62141594A (ja) 音声検出方式
JP2532618B2 (ja) ピッチ抽出装置
JPH01159697A (ja) 音声認識装置
JPH0673079B2 (ja) 音声区間検出回路
JPS61259296A (ja) 音声区間検出方式
JP2748383B2 (ja) 音声認識方式
JPS6256998A (ja) 子音区間検出装置
JPH07101354B2 (ja) 音声区間検出装置
JPH0570837B2 (ja)
JP2901976B2 (ja) パターン照合予備選択方式
JPH0376471B2 (ja)
JPS62237498A (ja) 音声区間検出方法
JPS61233791A (ja) 音声認識装置における音声区間検出方式
JPS6194093A (ja) 音声認識装置
JPH01244497A (ja) 音声区間検出回路
JPS60101598A (ja) 音声区間検出装置
JPS61272796A (ja) 音声区間検出方式
JPS58159598A (ja) 単音節音声認識方式
JPS63155196A (ja) 無声音検出方法
JPS58159599A (ja) 単音節音声認識方式
JPH06105399B2 (ja) 音声認識方式
JPS61113099A (ja) 音声認識装置における音声区間検出方式
JPS62129899A (ja) 音声区間検出方法