JPS63220199A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS63220199A
JPS63220199A JP62053595A JP5359587A JPS63220199A JP S63220199 A JPS63220199 A JP S63220199A JP 62053595 A JP62053595 A JP 62053595A JP 5359587 A JP5359587 A JP 5359587A JP S63220199 A JPS63220199 A JP S63220199A
Authority
JP
Japan
Prior art keywords
section
voice
frame
speech
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62053595A
Other languages
English (en)
Inventor
千本 浩之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP62053595A priority Critical patent/JPS63220199A/ja
Publication of JPS63220199A publication Critical patent/JPS63220199A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) この発明は、入力音声から話者の発声した音声の区間を
検出し、この音声区間をリサンプルして特徴ベクトルを
得た後、類似度法により音声認識を行なう音声認識装置
に関する。
(従来の技術) 情報化時代に伴い、音声認識、合成技術の発展が目覚ま
しく、例えば連続音声認識や不特定話者を対象とした音
声認識が可能となっている。このような技術を用いて電
話公衆回線によるサービス、例えば銀行による預金残^
の照合や工場のラインなどで音声入力による種弁は等が
開発されており、その有用性が注目されている。
ところで、この種のシステムのうち、例えば音声を単語
単位で認識する装置にあっては、入力音声の情報から音
声区間を検出し、この音声区間内を予め定められた数で
リサンプルして特徴ベクトルを得、得られた特徴ベクト
ルと辞書パターンとを照合して類似度法により単語認識
を行なっている。したがって、このようなシステムでは
、音声区間を正確に検出することが誤認識を防止するう
えでの絶対条件となる。
しかしながら、従来の単に音声パワーと所定のしきい値
との大小関係だけで音声区間を検出する方法ではs、p
、になどの子音が脱落する可能性があり、また、フレー
ム間、スペクトルデータの隣接チャネル間で相関をとっ
て音声区間を検出する方式では、複雑な演算処理を必要
とするためハードウェアが複雑化するという問題があっ
た。
さらに、これらの方式では、必ずしも後段の認識方式に
対して最適のものであるとはいえなかった。即ち、単!
!認識で認識方式として類似度法を用いた場合、入カバ
ターンと辞書パターンとの間で内積をとるが、この際、
始端と終端のフレームのBPFの全チャンネルの出力の
うち大半が011部だけ小さな値を示している場合、こ
の部分では辞書パターンとの内積結果が殆ど0に近い値
になってしまう。この場合には、たとえ6ChX10リ
サンプルポイントの60次元で内積をとっていても、実
質的に6chx8リサンプルポイントの48次元で内積
をとっているに等しい。このように特徴抽出している次
元が減ると、認IEW4りを起こす可能性も当然に高く
なるという問題があった。
(発明が解決しようとする問題点) このように、従来の音声認識装置では、音声区間を正確
に、かつ認識方式に適した方式で検出することができず
、このために認識率の低下を生じるという問題や回路構
成が複雑化する等の問題があった。
本発明は、このような問題を解決すべくなされたもので
、認識方式に合致した高精度の音声区間の検出が可能で
、しかも回路構成の簡単化も図れる音声ml装置を提供
することを目的とする。
[発明の構成] (問題点を解決するための手段) 本発明は、音声区間検出手段が1次〜3次の検切動作を
行なうことを特徴としている。
1次検切では、前記音声パワーが所定のしきい値を超え
た区間を音声区間として大まかに検出する。
2次検切では、上記1次検切で検出された音声区間の始
端終端の近傍のフレームで前記1次検切では検出されな
かったフレームにおける前記音声パワー情報と前記スペ
クトル情報の任意のチャンネルの値とが所定のレベルを
所定期間超えた場合に、この所定期間を前記音声区間に
含めるように前記音声区間を変更する。
3次検切では、上記2次検切で決定された音声区間の始
端n端のフレームの前後のフレームにおけるスペクトル
情報のうち所定のしきい値を超えるチャンネル数が多い
場合にそのフレームを前記音声区間に含め、同じく所定
のしきい値を超えるチャンネル数が少ない場合にそのフ
レームを前記音声区間から削除する。
(作用) 本発明では、単に音声パワー情報のみ、或は音声パワー
情報とフィルタ情報の両面のみから音声区間を検出した
場合に比べ、2次検切及び3次検切で始端、終端のフレ
ーム内の音声スペクトル情報及び音声パワー情報まで詳
しく検査して、音声区間の始端、終端を決定しているの
で、k、s。
pなどの子音が脱落するようなことはない。また、上記
2次、3次の検切では、フレーム内のスペクトル情報の
うち所定のしきい値を超えるチャンネル数が多いことを
始端、終端を決定する条件としているため、従来のよう
に特徴抽出している次元数が減ることがなく、認識誤り
を起こす可能性が少なくなる。
(実施例) 以下、図面に基づき本発明を単語認識装置に適用した実
施例について説明する。
第2図は、この単f!I認識装置の全体構成を示す図で
ある。
話者が発声した音声は、音声入力部1に入力され、ここ
で電気信号に変換され、音響分析部2に出力される。音
響分析部2は、例えば6チヤンネルのフィルタバンクに
より構成され、入力された音声情報をこのフィルタバン
クによってスペクトル分析してその特徴を抽出し、この
音声スペクトル情報を所定の*r8間隔(フレーム)で
音声区間検出部3に出力する。音声区間検出部3では、
入力された音声パワー情報と、スペクトル情報とから音
声区間、即ち一つの単語の発声区間を検出し、検出され
た音声区間の始端と終端とから上記音声データのりサン
プル点を決定し、例えば6チヤンネルX10リサンプル
点=−60次元の特徴ベクトルを音声認識部4に出力す
る。音声g!識部4は入力された特徴ベクトルと、単語
辞書5に記憶された各単語カテゴリの標準ベクトルとの
類似度演算を行ない、!識結果を出力する。
次に、本実施例の要旨となる音声区間検出部3の音声区
間検出方式について詳細に説明する。
この音声区間検出部3は、1次、2次及び3次の3つの
検切動作を行なう。1次検切は、音声パワー情報と所定
のしきい値との大小関係をみる大まかな検切で、2次、
3次はこの1次検切で決定された音声区間の始端、終端
を詳細に決定するための検切動作である。
第2図は1次検切の状態遷移図である。入力音声の強さ
に応じた音声パワー情報が1フレーム毎に入力され、こ
の音声パワー情報がしきいl!T4を超えると、音声区
間としてまず1次検切がスタートする(ノード1)。ノ
イズの影響を避けるため、T4を超える音声パワーがL
3以上続いて観測されたなら、確実に音声区間であると
判断し、T4を超えた時刻toを始端と決定する(ノー
ド1′)。この様子を第3図(a)に示す。音声パワー
がL3よりも短い場合には、再度始端の検出が行われる
。音声区間が検出された後、もし音声区間中に^レベル
のしきい値T3を超える部分をみつけた場合には、T4
のしきい値をT5まで引上げ、再度1次検切して始端の
検出を行う(ノード2)。これは、第3図(b)に示す
ように、例えばマイク入力で、マイクアンプのボリュー
ムが大きく、ノイズを拾い易い時、しきい値を上げるこ
とによってノイズによる検切ミスを減らすためである。
このようにして始端の修正を行ない(10→t1)、以
後はT5を音声区間検出用のしきい値と決定する。
始端の決定後、次に音声区間の終端の検出に移る。終端
はまず音声パワーがT4(T5)を下回ったところを第
1候補として考え(ノード3)、T4(T5)をL5期
間下回ったとき、終端として決定する(ノード4)。こ
こで、T4  (T5 )を下回った時点で直ちに終端
としないのは、第3図(C)にも示されるように、例え
ば“1” (ICHI)、”8”(HA  CHI)よ
うに、無音区間を挟んだ2音節の単語の場合、誤って第
1音節のみを検切りてしまうのを防止するためである。
以上の手順により音声パワー情報のみを用いた1次検切
が終了する。
次に2次検切について説明する。
第4図は2次及び3次の検切動作の状態遷移図である。
始端の検出では、まず1次検切で求まった音声区間の始
端toから前にL2だけ戻り(第5図参照)、音声パワ
ーが16以上でL77フレーム上あるかどうかカウント
する。このカウントがL7よりも少なければ、始端TO
を最終的に始端として決定する(ノード3)。もし、カ
ウント結果が11よりも大きければ(ノード2)、音声
パワーが16以上で、且つ同一フレームでスペクトル情
報がどれか1チヤンネルでもT7を超えている場合、そ
のフレームの数をカウントし、連続して18以上続くか
調べる。もし、18以上継続。
した場合は、一番先頭のフレームt1を新しい始端とし
て変更しくノード4)、18以上継続しない場合は、始
端10の変更はしない(ノード3)。
以上の動作は、音声パワーによって1次検切を行った後
、1次検切によって決定された始端の直前の例えばS、
pなどの子音の脱落を防ぐ動作である。このため、ある
程度の音声パワーがあって、しかもスペクトル情報の任
意のチャンネルが、所定のフレーム数連続した場合に、
その部分も音声区間と判断して始端を変更するようにし
ている。
2次検切における終端の決定は、上記始端の決定と同様
に行われる。即ち、第5図に示すように、音声パワーに
よる1次検切で決定された終端t2から後ろのL2フレ
ームの間に音声パワーが16以上、フレーム数がL77
フレーム上の音声が存在するかを確認する(ノード5)
。もし、し7以下であるならば、t2を終端と決定する
(ノード8)。また、L77フレーム上であれば、音声
パワーが16以上で、かつ同一フレームのスペクトル情
報の任意のチャンネルが17以上で18フレーム続くか
を調べる(ノード6)。もし、L8以上続いたら、その
音声の途切れる一番後ろのフレームを新しい終端t3と
する(ノード7)、(第5図参照)。
以上のように、2次検切では音声区間の始端終端がフィ
ルタ情報を用いて決定される。これにより、無声化によ
る音節の脱落は十分に防げる。
しかし、この2次検切の段階では、前述したような特徴
ベクトルの次元数の低下、破裂音の脱落等の問題が残っ
てしまう。即ち、始端、終端部分のフレームのスペクト
ル情報のうち特定のチャンネルにだけパワーが少しあっ
て、他のチャンネルのパワーが全てOの場合は、そのフ
レームでの類似度値は略Oになり、60次元で分析を行
った場合でも実質的には48次元に次元数が低下するこ
とになる。また、!i1頭に破裂音がある場合、破裂音
の部分がもし201Sで、サンプリング周期が2011
3であるとすると、この部分が脱落するおそれがある。
そこで、最後に音声パワー情報とスペクトル情報とを用
いて、始終端の部分について更に詳しく分析を行い、3
次検切を行なう。
即ち、第4図に示すように、まず2次検切で決定された
始端の1フレーム前のフレームにおける各チャンネルの
パワーとしきい値T7とを比較して、17以上のチャン
ネルがnチャンネル(この例では3チヤンネル)以上あ
るかを調べる(ノード9)。もし、第6図に示すように
略全チャンネルにわたってその出力がT7を超えている
場合には、始端を1フレーム前にする(ノード10)。
2次検切ではL7フレームより短い破裂音が検出されな
いが、これにより、そのような破裂音が脱落するのを防
止できる。一方、T7を超えるチャンネル数が3に満た
ない場合には、現在のフレームの各チャンネルの出力が
TI以下かどうかを調べ(ノード11)、もし6チヤン
ネルの全てがT1以下である場合には、始端を1つ後ろ
へずらす(ノード12)。これにより、始端のフレーム
での次元数低下を防止できる。
一方、終端についても始端と同様に決定することができ
る。
まず、終端部分で破裂音がないかを検査しくノード13
.14)、次にフレームのスペクトル情報を検査し、も
し6チヤンネル全てがT8以下なら、始端を1つ前にず
らす(ノード15.16゜17)。なお、T1とT8と
は、マイクの特性により決定される大きさで、例えば等
しく設定しても良い。
このように、本実施例では、!1方式に合わせて音声区
間を検出しているため、十分に特徴パターンを生かした
認識を行うことが可能である。
ちなみに、本発明者は音声区間検出の従来の方式と上記
方式との有効性を確認するための実験を行なった。その
結果、第7図(a)に示すように、従来の方法では検切
ミスが発生しているのに対し、同図(b)に示すように
本方式では正確な検切が行われていることが確認できた
。なお、この実験は男性100名、女性100名の計2
00名について31単語、6チヤンネル、10サンプル
の60次元の音声データについて行ったものであるが、
認識率、音声区間正解率とも1次検切のみの場合に比べ
て格段に向上することが確認された。
この実験からも、本方式によれば、音声区間の検出が効
果的に行なえ、特徴パターンも効果的に、しかも9度良
く得ることが確認された。
また、上記実施例における音声区間検出部3は、具体的
には1例えば第8図に示すように構成できる。
即ち、音声パワー及びスペクトル情報等のフレーム情報
は、1フレーム毎にレジスタ11に格納される。このレ
ジスタ11に格納されたフレーム情報は、マルチプレク
サ12で選択され、第1のコンパレータ13の一方の入
力に与えられる。この第1のコンパレータ13の他方の
入力には、所定のしきい値が与えられている。したがっ
て、このコンパレータ13でレベル比較が行われ、その
結果はカウンタ14に与えられている。カウンタ14は
、音声パワー、スペクトルデータなどが所定のしきい値
を超えてから、或は下回ってからの時間(フレーム数)
を計数する。この計数結果は。
第2のコンパレータ15の一方の入力に与えられ、ここ
で所定のしきい値と比較される。そして、上記2つのコ
ンパレータ13.15の出力はコントローラ16に与え
られている。コントローラ16は、内部に所定の処理シ
ーケンスを持っており、これらコンパレータ13.15
の出力を参照しつつ所定のシーケンスを選択し、各部を
制御する。
なお、コンパレータ13.15に基準値として与えられ
るしきい値は、ROM17に登録されており、コントロ
ーラ16の制御に基づいてROMのアドレスが与えられ
るものとなっている。
このように、上記実施例に係る音声検出部3では、レベ
ル判定とフレーム数の計測とを基本とする処理を行なっ
ているので、複雑な演算回路を必要とせず、コンパレー
タ13.15やカウンタ14といった簡単な要素で構成
でき、LSI化に適している。
なお、本発明は、上述した実施例に限定されるものでは
無い。例えば、上記実施例において2次、3次の検切用
しきい値を、入力音声の強さによって自動的に変化させ
ても良い。
要するに本発明はその要旨を逸脱しない範囲で種々変形
して実施することができる。
[発明の効果] 以上説明したように、本発明によれば、1次検切で大ま
かな音声区間を検出した後、その始端、終端を音声パワ
ーとスペクトル情報との両面から検査して、再度始端・
終端を決定するようにしているので、入力音声の音声区
間を精度良く検出でき、かつ特徴ベクトルの次元数の低
下も防げるので、単語認識を精度良く行なうことができ
、加えて、音声区間検出処理はレベル判定とフレーム数
の計測とを基本としているので、ハード構成の簡単化が
図れ、LSI化にも適するという効果を得ることができ
る。
【図面の簡単な説明】
第1図は本発明の一実施例に係る単語認i装置の全体構
成を示すブロック図、第2図は同装置における音声区間
検出部の1次検切の状態遷移図、第3図は同1次検切の
様子を示す波形図、第4図は同2次及び3次検切の状態
遷移口、第5図は同2次検切の様子を示す波形図、第6
図は同3次検切の様子を示す波形図、第7図は同音声区
間検出部の効果を従来技術と比較して示す実験結果を示
す図、第8図は同音声区間検出部の一構成例を示すブロ
ック図である。 1・・・音声入力部、2・・・音響分析部、3・・・音
声区間検出部、4・・・音声認識部、5・・・辞書、1
1・・・レジスタ、12・・・マルチプレクサ、13.
15・・・コンパレータ、14・・・カウンタ、16・
・・コントローラ、17・・・ROM。 出願人代理人 弁理士 鈴江武彦 第5図 音声区間 第6図

Claims (3)

    【特許請求の範囲】
  1. (1)音声を入力して該入力音声の音声パワー情報を出
    力する音声入力手段と、前記入力音声を周波数分析して
    nチャンネルのスペクトル情報を得る音響分析手段と、
    所定のフレーム毎に得られる上記音声パワー情報とスペ
    クトル情報とをフレーム情報として入力し上記フレーム
    情報から音声区間を検出する音声区間検出手段と、この
    音声区間検出手段で検出された音声区間のフレーム情報
    をmフレーム分りサンプルしてnxm次元の特徴ベクト
    ルを生成し、この特徴ベクトルと辞書パターンとから類
    似度法を用いて上記音声データの認識を行なう認識手段
    とを具備した音声認識装置において、 前記音声区間検出手段は、前記音声パワーが所定のしき
    い値を超えた区間を大まかな音声区間として検出する1
    次検切と、この1次検切で検出された音声区間の始端終
    端の近傍のフレームで前記1次検切では検出されなかっ
    たフレームにおける前記音声パワー情報と前記スペクト
    ル情報の任意のチャンネルの値とが所定のレベルを所定
    期間超えた場合に、この所定期間を前記音声区間に含め
    るように前記音声区間を変更する2次検切と、この2次
    検切で決定された音声区間の始端終端のフレームの前後
    のフレームにおけるスペクトル情報のうち所定のしきい
    値を超えるチャンネル数が多い場合にそのフレームを前
    記音声区間に含め、同じく所定のしきい値を超えるチャ
    ンネル数が少ない場合にそのフレームを前記音声区間か
    ら削除する3次検切とにより前記音声区間を検出するも
    のであることを特徴とする音声認識装置。
  2. (2)前記音声区間検出手段は、前記音声パワーが所定
    のしきい値を超えるフレーム数をカウントし、このカウ
    ント数が予め指定されたカウント数を超えた場合に、前
    記音声パワーが前記しきい値を超える直前のフレームを
    始端とし、前記音声パワーが所定のしきい値を下回るフ
    レーム数をカウントし、このカウント数が予め指定され
    たカウント数を超えた場合に、前記音声パワーが前記し
    きい値を下回る直前のフレームを終端として決定するこ
    とを特徴とする特許請求の範囲第1項記載の音声認識装
    置。
  3. (3)前記音声区間検出部は、前記所定のしきい値を入
    力音声の大きさに合せて設定するものであることを特徴
    とする特許請求の範囲第1項記載の音声認識装置。
JP62053595A 1987-03-09 1987-03-09 音声認識装置 Pending JPS63220199A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62053595A JPS63220199A (ja) 1987-03-09 1987-03-09 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62053595A JPS63220199A (ja) 1987-03-09 1987-03-09 音声認識装置

Publications (1)

Publication Number Publication Date
JPS63220199A true JPS63220199A (ja) 1988-09-13

Family

ID=12947231

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62053595A Pending JPS63220199A (ja) 1987-03-09 1987-03-09 音声認識装置

Country Status (1)

Country Link
JP (1) JPS63220199A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107715A (ja) * 2005-06-15 2011-06-02 Qnx Software Systems (Wavemakers) Inc スピーチエンドポインタ

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107715A (ja) * 2005-06-15 2011-06-02 Qnx Software Systems (Wavemakers) Inc スピーチエンドポインタ

Similar Documents

Publication Publication Date Title
KR910002198B1 (ko) 음성인식방법과 그 장치
EP0077194B1 (en) Speech recognition system
JPS6147440B2 (ja)
JPH0312319B2 (ja)
JP2996019B2 (ja) 音声認識装置
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
JPS63220199A (ja) 音声認識装置
JPH0229232B2 (ja)
Derrick et al. Aero-tactile integration in fricatives: Converting audio to air flow information for speech perception enhancement
JPS58108590A (ja) 音声認識装置
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
Abavisani et al. Automatic estimation of intelligibility measure for consonants in speech
Aye Speech recognition using Zero-crossing features
JP2666296B2 (ja) 音声認識装置
JP2882791B2 (ja) パターン比較方式
JP2882792B2 (ja) 標準パターン作成方式
JPH0682275B2 (ja) 音声認識装置
JP3049711B2 (ja) 音声処理装置
JP2658104B2 (ja) 音声認識装置
JPH02720B2 (ja)
JPS60115996A (ja) 音声認識装置
JPS59189398A (ja) 連続音声認識方式
JPS63257797A (ja) 音声始端検出装置
JPS63217399A (ja) 音声区間検出装置
JPS59105700A (ja) 音声認識方式