JPS63220199A

JPS63220199A - 音声認識装置

Info

Publication number: JPS63220199A
Application number: JP62053595A
Authority: JP
Inventors: 千本　浩之
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1987-03-09
Filing date: 1987-03-09
Publication date: 1988-09-13

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）この発明は、入力音声から話者の発声した音声の区間を
検出し、この音声区間をリサンプルして特徴ベクトルを
得た後、類似度法により音声認識を行なう音声認識装置
に関する。

（従来の技術）情報化時代に伴い、音声認識、合成技術の発展が目覚ま
しく、例えば連続音声認識や不特定話者を対象とした音
声認識が可能となっている。このような技術を用いて電
話公衆回線によるサービス、例えば銀行による預金残＾
の照合や工場のラインなどで音声入力による種弁は等が
開発されており、その有用性が注目されている。

ところで、この種のシステムのうち、例えば音声を単語
単位で認識する装置にあっては、入力音声の情報から音
声区間を検出し、この音声区間内を予め定められた数で
リサンプルして特徴ベクトルを得、得られた特徴ベクト
ルと辞書パターンとを照合して類似度法により単語認識
を行なっている。したがって、このようなシステムでは
、音声区間を正確に検出することが誤認識を防止するう
えでの絶対条件となる。

しかしながら、従来の単に音声パワーと所定のしきい値
との大小関係だけで音声区間を検出する方法ではｓ、ｐ
、になどの子音が脱落する可能性があり、また、フレー
ム間、スペクトルデータの隣接チャネル間で相関をとっ
て音声区間を検出する方式では、複雑な演算処理を必要
とするためハードウェアが複雑化するという問題があっ
た。

さらに、これらの方式では、必ずしも後段の認識方式に
対して最適のものであるとはいえなかった。即ち、単！
！認識で認識方式として類似度法を用いた場合、入カバ
ターンと辞書パターンとの間で内積をとるが、この際、
始端と終端のフレームのＢＰＦの全チャンネルの出力の
うち大半が０１１部だけ小さな値を示している場合、こ
の部分では辞書パターンとの内積結果が殆ど０に近い値
になってしまう。この場合には、たとえ６ＣｈＸ１０リ
サンプルポイントの６０次元で内積をとっていても、実
質的に６ｃｈｘ８リサンプルポイントの４８次元で内積
をとっているに等しい。このように特徴抽出している次
元が減ると、認ＩＥＷ４りを起こす可能性も当然に高く
なるという問題があった。

（発明が解決しようとする問題点）このように、従来の音声認識装置では、音声区間を正確
に、かつ認識方式に適した方式で検出することができず
、このために認識率の低下を生じるという問題や回路構
成が複雑化する等の問題があった。

本発明は、このような問題を解決すべくなされたもので
、認識方式に合致した高精度の音声区間の検出が可能で
、しかも回路構成の簡単化も図れる音声ｍｌ装置を提供
することを目的とする。

［発明の構成］（問題点を解決するための手段）本発明は、音声区間検出手段が１次〜３次の検切動作を
行なうことを特徴としている。

１次検切では、前記音声パワーが所定のしきい値を超え
た区間を音声区間として大まかに検出する。

２次検切では、上記１次検切で検出された音声区間の始
端終端の近傍のフレームで前記１次検切では検出されな
かったフレームにおける前記音声パワー情報と前記スペ
クトル情報の任意のチャンネルの値とが所定のレベルを
所定期間超えた場合に、この所定期間を前記音声区間に
含めるように前記音声区間を変更する。

３次検切では、上記２次検切で決定された音声区間の始
端ｎ端のフレームの前後のフレームにおけるスペクトル
情報のうち所定のしきい値を超えるチャンネル数が多い
場合にそのフレームを前記音声区間に含め、同じく所定
のしきい値を超えるチャンネル数が少ない場合にそのフ
レームを前記音声区間から削除する。

（作用）本発明では、単に音声パワー情報のみ、或は音声パワー
情報とフィルタ情報の両面のみから音声区間を検出した
場合に比べ、２次検切及び３次検切で始端、終端のフレ
ーム内の音声スペクトル情報及び音声パワー情報まで詳
しく検査して、音声区間の始端、終端を決定しているの
で、ｋ、ｓ。

ｐなどの子音が脱落するようなことはない。また、上記
２次、３次の検切では、フレーム内のスペクトル情報の
うち所定のしきい値を超えるチャンネル数が多いことを
始端、終端を決定する条件としているため、従来のよう
に特徴抽出している次元数が減ることがなく、認識誤り
を起こす可能性が少なくなる。

（実施例）以下、図面に基づき本発明を単語認識装置に適用した実
施例について説明する。

第２図は、この単ｆ！Ｉ認識装置の全体構成を示す図で
ある。

話者が発声した音声は、音声入力部１に入力され、ここ
で電気信号に変換され、音響分析部２に出力される。音
響分析部２は、例えば６チヤンネルのフィルタバンクに
より構成され、入力された音声情報をこのフィルタバン
クによってスペクトル分析してその特徴を抽出し、この
音声スペクトル情報を所定の＊ｒ８間隔（フレーム）で
音声区間検出部３に出力する。音声区間検出部３では、
入力された音声パワー情報と、スペクトル情報とから音
声区間、即ち一つの単語の発声区間を検出し、検出され
た音声区間の始端と終端とから上記音声データのりサン
プル点を決定し、例えば６チヤンネルＸ１０リサンプル
点＝−６０次元の特徴ベクトルを音声認識部４に出力す
る。音声ｇ！識部４は入力された特徴ベクトルと、単語
辞書５に記憶された各単語カテゴリの標準ベクトルとの
類似度演算を行ない、！識結果を出力する。

次に、本実施例の要旨となる音声区間検出部３の音声区
間検出方式について詳細に説明する。

この音声区間検出部３は、１次、２次及び３次の３つの
検切動作を行なう。１次検切は、音声パワー情報と所定
のしきい値との大小関係をみる大まかな検切で、２次、
３次はこの１次検切で決定された音声区間の始端、終端
を詳細に決定するための検切動作である。

第２図は１次検切の状態遷移図である。入力音声の強さ
に応じた音声パワー情報が１フレーム毎に入力され、こ
の音声パワー情報がしきいｌ！Ｔ４を超えると、音声区
間としてまず１次検切がスタートする（ノード１）。ノ
イズの影響を避けるため、Ｔ４を超える音声パワーがＬ
３以上続いて観測されたなら、確実に音声区間であると
判断し、Ｔ４を超えた時刻ｔｏを始端と決定する（ノー
ド１′）。この様子を第３図（ａ）に示す。音声パワー
がＬ３よりも短い場合には、再度始端の検出が行われる
。音声区間が検出された後、もし音声区間中に＾レベル
のしきい値Ｔ３を超える部分をみつけた場合には、Ｔ４
のしきい値をＴ５まで引上げ、再度１次検切して始端の
検出を行う（ノード２）。これは、第３図（ｂ）に示す
ように、例えばマイク入力で、マイクアンプのボリュー
ムが大きく、ノイズを拾い易い時、しきい値を上げるこ
とによってノイズによる検切ミスを減らすためである。

このようにして始端の修正を行ない（１０→ｔ１）、以
後はＴ５を音声区間検出用のしきい値と決定する。

始端の決定後、次に音声区間の終端の検出に移る。終端
はまず音声パワーがＴ４（Ｔ５）を下回ったところを第
１候補として考え（ノード３）、Ｔ４（Ｔ５）をＬ５期
間下回ったとき、終端として決定する（ノード４）。こ
こで、Ｔ４　　（Ｔ５　）を下回った時点で直ちに終端
としないのは、第３図（Ｃ）にも示されるように、例え
ば“１”　（ＩＣＨＩ）、”８”（ＨＡ　　ＣＨＩ）よ
うに、無音区間を挟んだ２音節の単語の場合、誤って第
１音節のみを検切りてしまうのを防止するためである。

以上の手順により音声パワー情報のみを用いた１次検切
が終了する。

次に２次検切について説明する。

第４図は２次及び３次の検切動作の状態遷移図である。

始端の検出では、まず１次検切で求まった音声区間の始
端ｔｏから前にＬ２だけ戻り（第５図参照）、音声パワ
ーが１６以上でＬ７７フレーム上あるかどうかカウント
する。このカウントがＬ７よりも少なければ、始端ＴＯ
を最終的に始端として決定する（ノード３）。もし、カ
ウント結果が１１よりも大きければ（ノード２）、音声
パワーが１６以上で、且つ同一フレームでスペクトル情
報がどれか１チヤンネルでもＴ７を超えている場合、そ
のフレームの数をカウントし、連続して１８以上続くか
調べる。もし、１８以上継続。

した場合は、一番先頭のフレームｔ１を新しい始端とし
て変更しくノード４）、１８以上継続しない場合は、始
端１０の変更はしない（ノード３）。

以上の動作は、音声パワーによって１次検切を行った後
、１次検切によって決定された始端の直前の例えばＳ、
ｐなどの子音の脱落を防ぐ動作である。このため、ある
程度の音声パワーがあって、しかもスペクトル情報の任
意のチャンネルが、所定のフレーム数連続した場合に、
その部分も音声区間と判断して始端を変更するようにし
ている。

２次検切における終端の決定は、上記始端の決定と同様
に行われる。即ち、第５図に示すように、音声パワーに
よる１次検切で決定された終端ｔ２から後ろのＬ２フレ
ームの間に音声パワーが１６以上、フレーム数がＬ７７
フレーム上の音声が存在するかを確認する（ノード５）
。もし、し７以下であるならば、ｔ２を終端と決定する
（ノード８）。また、Ｌ７７フレーム上であれば、音声
パワーが１６以上で、かつ同一フレームのスペクトル情
報の任意のチャンネルが１７以上で１８フレーム続くか
を調べる（ノード６）。もし、Ｌ８以上続いたら、その
音声の途切れる一番後ろのフレームを新しい終端ｔ３と
する（ノード７）、（第５図参照）。

以上のように、２次検切では音声区間の始端終端がフィ
ルタ情報を用いて決定される。これにより、無声化によ
る音節の脱落は十分に防げる。

しかし、この２次検切の段階では、前述したような特徴
ベクトルの次元数の低下、破裂音の脱落等の問題が残っ
てしまう。即ち、始端、終端部分のフレームのスペクト
ル情報のうち特定のチャンネルにだけパワーが少しあっ
て、他のチャンネルのパワーが全てＯの場合は、そのフ
レームでの類似度値は略Ｏになり、６０次元で分析を行
った場合でも実質的には４８次元に次元数が低下するこ
とになる。また、！ｉ１頭に破裂音がある場合、破裂音
の部分がもし２０１Ｓで、サンプリング周期が２０１１
３であるとすると、この部分が脱落するおそれがある。

そこで、最後に音声パワー情報とスペクトル情報とを用
いて、始終端の部分について更に詳しく分析を行い、３
次検切を行なう。

即ち、第４図に示すように、まず２次検切で決定された
始端の１フレーム前のフレームにおける各チャンネルの
パワーとしきい値Ｔ７とを比較して、１７以上のチャン
ネルがｎチャンネル（この例では３チヤンネル）以上あ
るかを調べる（ノード９）。もし、第６図に示すように
略全チャンネルにわたってその出力がＴ７を超えている
場合には、始端を１フレーム前にする（ノード１０）。

２次検切ではＬ７フレームより短い破裂音が検出されな
いが、これにより、そのような破裂音が脱落するのを防
止できる。一方、Ｔ７を超えるチャンネル数が３に満た
ない場合には、現在のフレームの各チャンネルの出力が
ＴＩ以下かどうかを調べ（ノード１１）、もし６チヤン
ネルの全てがＴ１以下である場合には、始端を１つ後ろ
へずらす（ノード１２）。これにより、始端のフレーム
での次元数低下を防止できる。

一方、終端についても始端と同様に決定することができ
る。

まず、終端部分で破裂音がないかを検査しくノード１３
．１４）、次にフレームのスペクトル情報を検査し、も
し６チヤンネル全てがＴ８以下なら、始端を１つ前にず
らす（ノード１５．１６゜１７）。なお、Ｔ１とＴ８と
は、マイクの特性により決定される大きさで、例えば等
しく設定しても良い。

このように、本実施例では、！１方式に合わせて音声区
間を検出しているため、十分に特徴パターンを生かした
認識を行うことが可能である。

ちなみに、本発明者は音声区間検出の従来の方式と上記
方式との有効性を確認するための実験を行なった。その
結果、第７図（ａ）に示すように、従来の方法では検切
ミスが発生しているのに対し、同図（ｂ）に示すように
本方式では正確な検切が行われていることが確認できた
。なお、この実験は男性１００名、女性１００名の計２
００名について３１単語、６チヤンネル、１０サンプル
の６０次元の音声データについて行ったものであるが、
認識率、音声区間正解率とも１次検切のみの場合に比べ
て格段に向上することが確認された。

この実験からも、本方式によれば、音声区間の検出が効
果的に行なえ、特徴パターンも効果的に、しかも９度良
く得ることが確認された。

また、上記実施例における音声区間検出部３は、具体的
には１例えば第８図に示すように構成できる。

即ち、音声パワー及びスペクトル情報等のフレーム情報
は、１フレーム毎にレジスタ１１に格納される。このレ
ジスタ１１に格納されたフレーム情報は、マルチプレク
サ１２で選択され、第１のコンパレータ１３の一方の入
力に与えられる。この第１のコンパレータ１３の他方の
入力には、所定のしきい値が与えられている。したがっ
て、このコンパレータ１３でレベル比較が行われ、その
結果はカウンタ１４に与えられている。カウンタ１４は
、音声パワー、スペクトルデータなどが所定のしきい値
を超えてから、或は下回ってからの時間（フレーム数）
を計数する。この計数結果は。

第２のコンパレータ１５の一方の入力に与えられ、ここ
で所定のしきい値と比較される。そして、上記２つのコ
ンパレータ１３．１５の出力はコントローラ１６に与え
られている。コントローラ１６は、内部に所定の処理シ
ーケンスを持っており、これらコンパレータ１３．１５
の出力を参照しつつ所定のシーケンスを選択し、各部を
制御する。

なお、コンパレータ１３．１５に基準値として与えられ
るしきい値は、ＲＯＭ１７に登録されており、コントロ
ーラ１６の制御に基づいてＲＯＭのアドレスが与えられ
るものとなっている。

このように、上記実施例に係る音声検出部３では、レベ
ル判定とフレーム数の計測とを基本とする処理を行なっ
ているので、複雑な演算回路を必要とせず、コンパレー
タ１３．１５やカウンタ１４といった簡単な要素で構成
でき、ＬＳＩ化に適している。

なお、本発明は、上述した実施例に限定されるものでは
無い。例えば、上記実施例において２次、３次の検切用
しきい値を、入力音声の強さによって自動的に変化させ
ても良い。

要するに本発明はその要旨を逸脱しない範囲で種々変形
して実施することができる。

［発明の効果］以上説明したように、本発明によれば、１次検切で大ま
かな音声区間を検出した後、その始端、終端を音声パワ
ーとスペクトル情報との両面から検査して、再度始端・
終端を決定するようにしているので、入力音声の音声区
間を精度良く検出でき、かつ特徴ベクトルの次元数の低
下も防げるので、単語認識を精度良く行なうことができ
、加えて、音声区間検出処理はレベル判定とフレーム数
の計測とを基本としているので、ハード構成の簡単化が
図れ、ＬＳＩ化にも適するという効果を得ることができ
る。

【図面の簡単な説明】

第１図は本発明の一実施例に係る単語認ｉ装置の全体構
成を示すブロック図、第２図は同装置における音声区間
検出部の１次検切の状態遷移図、第３図は同１次検切の
様子を示す波形図、第４図は同２次及び３次検切の状態
遷移口、第５図は同２次検切の様子を示す波形図、第６
図は同３次検切の様子を示す波形図、第７図は同音声区
間検出部の効果を従来技術と比較して示す実験結果を示
す図、第８図は同音声区間検出部の一構成例を示すブロ
ック図である。１・・・音声入力部、２・・・音響分析部、３・・・音
声区間検出部、４・・・音声認識部、５・・・辞書、１
１・・・レジスタ、１２・・・マルチプレクサ、１３．
１５・・・コンパレータ、１４・・・カウンタ、１６・
・・コントローラ、１７・・・ＲＯＭ。出願人代理人　弁理士　鈴江武彦第５図音声区間第６図

Claims

【特許請求の範囲】

（１）音声を入力して該入力音声の音声パワー情報を出
力する音声入力手段と、前記入力音声を周波数分析して
ｎチャンネルのスペクトル情報を得る音響分析手段と、
所定のフレーム毎に得られる上記音声パワー情報とスペ
クトル情報とをフレーム情報として入力し上記フレーム
情報から音声区間を検出する音声区間検出手段と、この
音声区間検出手段で検出された音声区間のフレーム情報
をｍフレーム分りサンプルしてｎｘｍ次元の特徴ベクト
ルを生成し、この特徴ベクトルと辞書パターンとから類
似度法を用いて上記音声データの認識を行なう認識手段
とを具備した音声認識装置において、前記音声区間検出手段は、前記音声パワーが所定のしき
い値を超えた区間を大まかな音声区間として検出する１
次検切と、この１次検切で検出された音声区間の始端終
端の近傍のフレームで前記１次検切では検出されなかっ
たフレームにおける前記音声パワー情報と前記スペクト
ル情報の任意のチャンネルの値とが所定のレベルを所定
期間超えた場合に、この所定期間を前記音声区間に含め
るように前記音声区間を変更する２次検切と、この２次
検切で決定された音声区間の始端終端のフレームの前後
のフレームにおけるスペクトル情報のうち所定のしきい
値を超えるチャンネル数が多い場合にそのフレームを前
記音声区間に含め、同じく所定のしきい値を超えるチャ
ンネル数が少ない場合にそのフレームを前記音声区間か
ら削除する３次検切とにより前記音声区間を検出するも
のであることを特徴とする音声認識装置。
（２）前記音声区間検出手段は、前記音声パワーが所定
のしきい値を超えるフレーム数をカウントし、このカウ
ント数が予め指定されたカウント数を超えた場合に、前
記音声パワーが前記しきい値を超える直前のフレームを
始端とし、前記音声パワーが所定のしきい値を下回るフ
レーム数をカウントし、このカウント数が予め指定され
たカウント数を超えた場合に、前記音声パワーが前記し
きい値を下回る直前のフレームを終端として決定するこ
とを特徴とする特許請求の範囲第１項記載の音声認識装
置。
（３）前記音声区間検出部は、前記所定のしきい値を入
力音声の大きさに合せて設定するものであることを特徴
とする特許請求の範囲第１項記載の音声認識装置。