JPS63247798A

JPS63247798A - 音声区間検出装置

Info

Publication number: JPS63247798A
Application number: JP62079673A
Authority: JP
Inventors: 教幸藤本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1987-04-02
Filing date: 1987-04-02
Publication date: 1988-10-14
Anticipated expiration: 2014-05-17
Also published as: JP2891259B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔概　要〕音声認識装置における音声区間検出方式において、音声
信号の語頭における音声区間しきい値を小さく設定して
音声脱落の確率を下げ、語尾におけるしきい値を前記し
きい値より大きく設定してノイズ付加の確率を下げるよ
うにしたものである。

〔産業上の利用分野〕

本発明は音声区間検出方式に関し、特に、電算機を使用
する音声認識における音声区間と無声区間およびノイズ
との識別を容易ならしめる検出方式に関する。

〔従来の技術〕

人間の発声した音声を電算機を使用して特徴抽出を行い
自動的に検出する方式は、既に広く応用されている。そ
の典型的な手法の一つとしては、連続発声した音声信号
から単音節や音韻に区分するセグメンテーシ日ンを行な
い、この単音節を音声認識するものである。単音節の認
識によってさらに高度な単語認識や会話音声の認識等へ
拡張していくことができる。現在のところ完成なセグメ
ンテーションの行える方式はまだないが、例えば単音節
のパワー値が所定のしきい値を越えたものは音声とみな
す方法は知られている。即ち、パワー値が発声の一定時
間（Ｌｖ）以上にわたってパワーしきい値（Ｐ、）を越
えているときはその区間を音声とみなす方法である。

第５図（ａ）〜（ｃ）は音声信号のパワー値（Ｐ）と発
声時間（Ｔ）との関係を示すパターン例である。ここで
Ｔｏは音声区間である。（ａ）は例えば“あ”、“お”
、“も”、“す”と発声した場合で、しきい値ＰＬ以上
で音声区間のしきい値Ｌｖについてすべての単音節のパ
ワーが存在するため認識に問題はない。（ｂ）の場合は
、例えば、“あ”、“い”、“ち”と発声したとき、無
音図゛間の時間しきい値り、を設けて、しきい値し、以
下のときは“あ”、′い”、′ち”は−回の発声による
ものとみなしている。このときの無音区間り、はパワー
の低い（しきい値Ｐ１以下の）音声とみることができる
。また、（ｃ）の場合は、例えば、“さ”、“っ”、“
ぼ”、“ろ”と発声、したときで、６つ”の区間がしき
い値ＰＬ以下でありかつ時間しきい値し３以上であるた
め音声なのかノイズなのか判断しにくい。

第６図（ａ）〜（ｄ）は従来の検出方式を説明するパタ
ーン図である。（ａ）は音声区間Ｔ０がすべてしきい値
２１以上であるため認識の問題はない。（ｂ）は区間Ｔ
＋が音声区間の時間しきい値Ｌｖ以下なのでノイズとみ
なし音声区間としない。（Ｃ）は区間Ｔ２およびＴ、が
しきい値Ｌｖより大なので音声区間とみなし、区間Ｔ４
は無音区間のしきい値Ｌ３以下なのでノイズとはみなさ
ない。結局この場合には区間（Ｔｔ　＋Ｔ’、　＋Ｔｉ
　）が音声区間とみなされる。（ｄ）は区間Ｔ！１とＴ
。

がしきい値Ｌｖ以下なのでノイズと見なされ、区間Ｔ６
はしきい値Ｌｖ以上なので音声区間と見なされる。

〔発明が解決しようとする問題点〕

しかしながら、上記のような方法により検出したときは
次のような問題がある。即ち、音声信号の始まり（始端
部）では音声の脱落が起き易く、音声信号の終り（終端
部）ではノイズの付加が起き易いことである。このよう
に始端部（もしくは語頭）と終端部（もしくは語尾）と
で異なる傾向が現われる要因には２つある。１つは、日
本語の　・場合単語の先頭音節は短かく語尾の音節は長
めに発声される傾向にあること、２つは、単語の終端部
では発声が不安定となり、一度パワー値が低くなった後
に小さな山が多く現われることである。

後者の場合は、発声者自身が出す音なので音声とみなす
ことができるが、音声認識を行なう場合にはこの部分が
音声区間に含まれると、誤認識の原因となるためこの部
分を音声区間に含めることは好ましくない。

〔問題点を解決するための手段および作用〕本発明は上
述の問題点を解消した音声区間検出方式を提供すること
にあり、本発明の原理は、音声（特に単語音声）の検出
において、音声区間の時間しきい値を語頭と語尾とで変
えることにあり、具体的には、語頭においては音声区間
の第１のしきい値Ｌｖを小さく設定し、語尾においては
このしきい値よりも大きい第２のしきい値を設定するも
のである。これにより、従来問題となっていた語頭にお
ける音声の脱落と語尾におけるノイズの付加を低減する
ことができ音声区間検出の精度を著しく向上させること
ができる。

第１図（ａ）、（ｂ）は本発明の詳細な説明する特性図
である。（ａ）は音声の語頭の場合、（ｂ）は音声の語
尾の場合である。（ａ　）＋　（ｂ　）において、縦軸
ＰＲＯはノイズ付加の確率および音声脱落の確率であり
、横軸Ｌｖは音声区間の時間しきい値である。また、■
、および■ゎはノイズ付加の確率曲線、■１および■ゎ
は音声脱落の確率曲線、そして■、および■、はＬｖの
最適値を得るための誤り確率曲線である。

（ａ）において、語頭の場合にはしきい値Ｌｖが大きけ
れば大きい程１１に示す如くノイズ付加の確率は減少し
ていくが、逆に、音声脱落の確率は■、に示す如く急激
に増大する。また、しきい値を小さくしていけばノイズ
付加の確率は急激に増大し、音声脱落の確率は減少する
。これらの曲線から、曲線■、と■、の和である曲線■
１は図示の如く極小値を持つ曲線となる。この極小値に
おけるしきい値をＬｖ、とすると、Ｌ　Ｖｍは語頭のと
きの最適しきい値を示しており、このしきい値Ｌ　Ｖｌ
ｍはノイズ付加の確率と音声脱落の確率がバランスした
有効な値となる。この場合、Ｗは騒音環境等によって異
なるが、およそ７０ｓ＋ｓ前後である。

（ｂ）は語尾の場合を示している０語尾の場合は語頭に
比べてＬｖが大の方に寄っている。（ａ）と同様のパタ
ーンなので詳細説明を省略するが、Ｌｖｂは語尾のとき
の最適しきい値を示しており、１２５ｍ５前後である。

即ち、語尾でのしきい値Ｌｖｂはノイズ付加の確率と音
声脱落の確率がバランスした１２５ｍ５が有効な値とな
る。

このように、音声区間検出において語頭と語尾とのしき
い値を変えることによってノイズ付加と音声脱落の確率
の共に低い検出を行い得ることが判明した。

〔実施例〕

第２図は本発明の音声区間検出方式を実現する装置の概
略構成図である。マイクロホン２１から入力された音声
信号は、プリエンファシス部２２において高域強調され
た後、一方はパワー値抽出部２３において音声の特徴パ
ラメータの一つであるエネルギ分布の抽出が、サンプリ
ングにより時系的になされ、複数のフィルタからなるバ
ンドパスフィルタ部２４において特徴抽出がなされる０
区間検出部２６では後述する第３図に示すようにパワー
値の時系列ＰＷ（ｉ）にもとづいて音声区間の検出が行
われる。音声認識出力部２７は音声辞書を有しこれを参
照しつつパターンマツチングを行い認識結果をスピーカ
２８から出力する。

制御部２５は区間検出部２６および音声認識出力部２７
等を制御する。

第３図は第２図の区間検出部２６を詳細に示すブロック
図である。第３図において、２６１は音声の語頭（始端
）を検出する始端検出部、２６２は語尾（終端）を検出
する終端検出部、２６３は各種しきい値データＰ　Ｌ　
　＋　Ｌ　ｖａ　＋　Ｌ　ｖｂ　＊　Ｌ　ｓ等を格納す
るしきい値格納部である。始端検出部２６１と終端検出
部２６２には前段のパワー値抽出部２３から、パワー値
の例えば１０ｍ５のサンプリング値ＰＷ（ｉ）がシリー
ズに入力される。始端検出部２６１ではフレームごとに
しきい値格納部２６３から読み出されたパワーのしきい
値ＰＬとパワーの時系列ＰＷ（ｉ）との大小が比較され
、さらに、語頭の第１のしきい値Ｌ　Ｖｍ、無声区間の
しきい値Ｌ３とサンプリングフレームの位置が比較され
る。終端検出部２６２では同様にフレームごとにパワー
しきい値ＰＬと時系列ＰＷ（ｉ）との大小が比較され、
さらに語尾の第２のしきい値Ｌｖい無声区間のしきい値
し。

とサンプリングフレームの位置が比較される。終端検出
部２６２では始端検出部２６１とこれらのデータとを合
せて始端終端位置情報Ｓを音声認識出力部２７に出力す
る。

第４図は第３図の区間キ★出部における処理のフ・ロー
チャートである。フローチャートの前半のステップ１〜
９は始端検出部２６１における処理、後半のステップｌ
Ｏ〜２１は終端検出部２６２における処理である。第４
図において、ｉはサンプリングされたフレーム番号、ｉ
、はしきい値の開始のフレーム番号、ｊは始端側のしき
い値を連続して越えているフレーム数、ｉ、はしきい値
の終りのフレーム番号、ｋは終端側のしきい値を連続し
て下まわっているフレーム数である。フローチャートに
示すように、パワー値抽出部２３からのパワー値の時系
列ＰＷ（ｉ）とパワー値のしきい４ｆｊ　Ｐ　１．とが
各フレームについてその大小を比較しくステップ３）　
、ＰＷ（ｉ）＜Ｐｔであればステップ２が繰り返えされ
る。ＰＷ（ｉ）≧ＰＬとなったときそのフレーム番号ｉ
３が記憶され、ＰＷ（ｉ）≧ｐｔが続く間はステップ６
．７が繰り返えされる。ステップ８においてＰＷ（ｉ）
＜ＰＨ，のとき語頭のしきい値Ｌｖ、か否か判断され、
（ステップ９）、フレーム数ｊがしきい値Ｌ　ｖａを越
えていれば次に終端処理に入る。越えていなければまだ
音声が入力されてないとみなしてステップ２に戻る。終
端においても同様なステップをとるが、ステップ１４に
おいてＰ　Ｗ　（Ｊ）　＜　ｐ　ｔのときはステップ２
１において無声区間り、か否かの判断が行われ無声区間
でなければ、即ち、フレーム数ｋがＬ３より大であれば
音声区間検出は始端検出部において終了し、小であって
無声区間であればステップ１２に戻る。

そして、ステップ１９においてＰＷ（ｉ）≧ＰＬであれ
ば、ステップ２０にて語尾のしきい値Ｌｗｂか否かが判
断され、しきい値Ｌｖ＆がフレーム数ｊより大であれば
ステップ２１にて無声区間のしきい値Ｌ３が判断され音
声区間検出は終了する。

結局、音声の始端フレームは、１１、終端フレームはｉ
６として求まることになる。

〔発明の効果〕

以上説明したように、本発明によれば、音声区間検出に
おいて語頭と語尾のしきい値を変えるようにしたので語
頭における音声の脱落、語尾におけるノイズの付加を著
しく低減することができ１、音声区間検出の精度を著し
く向上させることができる。

【図面の簡単な説明】

第１図は本発明の詳細な説明する特性図、第２図は本発
明の一実施例装置構成図、第３図は第２図区間検出部の
詳細図、第４図は本発明の処理フローチャート、第５図は音声の
パワー値と発声時間との関係を示すパターン図、および第６図はは従来の検出方式を説明するパターン図である
。（符号の説明）２１・・・マイクロホン、２２・・・プリエンファシス部、２３・・・パワー抽出部、２４・・・バンドパスフィルタ部、２５・・・制御部、　　　　２６・・・区間検出部、２
７・・・音声認識出力部、２８・・・スピーカ、２６１
・・・始端検出部、　　２６２・・・終端検出部、２６
３・・・しきい値格納部。 ■ 音声のパワー値と発声時間との関係を示す・やターン図
第５図

Claims

【特許請求の範囲】

１、電算機を用いた音声認識装置の音声区間検出方式に
おいて、入力される音声信号の始端部における音声パワ
ー値と所定のパワーしきい値および音声区間の第１のし
きい値を比較する始端検出部と、音声信号の終端部にお
ける音声パワー値と前記所定のパワーしきい値および音
声区間の前記第１のしきい値より大なる第２のしきい値
を比較する終端検出部と、前記パワーしきい値および前
記第１および第２のしきい値を格納するしきい値格納部
とを備え、音声区間の検出に際し、音声信号の語頭では
前記第１のしきい値により、音声信号の語尾では前記第
２のしきい値により比較し音声区間を検出するようにし
た音声区間検出方式。