JPS63259690A

JPS63259690A - 音声認識応答装置

Info

Publication number: JPS63259690A
Application number: JP62095621A
Authority: JP
Inventors: 平岡　省二; 泰助渡辺
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1987-04-17
Filing date: 1987-04-17
Publication date: 1988-10-26

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、人間の声を機械に認識させ、機械が応答する
音声認識応答装置に関するものである。

従来の技術近年、電話等を利用した音声認識応答装置の開発が活発
に行なわれている。このような不特定話者を対象とした
音声認識においては、ノイズを含んだ音声信号や語頭、
語尾における発声が不明瞭な音声信号についても認識す
る必要があるが、本出願人は先にこれら不明瞭な音声信
号に対して高い認識率を得ることができるようにした音
声認識方法について特願昭６０−２５１３６０号として
提案した。

以下この方法を用いて音声により機械と対話を行なう音
声認識応答装置について図面を参照しながら説明する。

第４図は従来の音声認識応答装置の構成を示す機能ブロ
ック図である。同図に示すようにＡＤ変換部１は入力音
声をディジタル信号に変換する。

音響分析部２は音声を分析区間（フレーム）毎に分析し
、スペクトル情報（線形予測係数）を求める。特徴パラ
メータ抽出部３は線形予測係数を用いてＬＰＯケプヌト
ラム係数、正規化対数残差パワーＣ６および帯域通過フ
ィルタ値などを求める。

フレーム同期信号発生部４はフレーム毎に同期信号を発
生する。標準パターン選択部９はパターンマツチングを
行なう際、認識対象語句の標準パターンを順次選択する
。区間候補設定部６は選択された標準パターン毎に複数
の候補の音声区間長を設定する。時間軸正規化部５は設
定された複数の候補の音声区間に対する特徴パラメータ
の時系列パターンを一定フレーム長に伸縮する。類似度
計算部７は標準パターン選択部９で選ばれた標準パター
ン格納部８中の各標準パターンとの類似度を計算する。

類似度比較部１１はフレーム毎に１字記憶１０に蓄積さ
れている最大類似度値と比較し、最大の類似度の認識対
象語句を選択する。１次記憶ＩＯは得られた最大類似度
の語句を更新する。

１次記憶１０に残った語句は認識結果として類似度比較
部１１よりタスク制御部１５に出力されるが、認識開始
より一定時間経つと、タイマ部工９は制限時間であるこ
とを類似度比較部１１に知らせ、その間に得られた最大
類似度がある閾値を越えない場合には音声が入力されな
かったものと判断し、「リジェクト」または「タイムア
ウトエラー」という認識結果として出力する。タスク制
御部１５は上記認識結果に対する応答文音声を選択し、
音声合成部１６に指令を与える。音声合成部１６は音声
データ格納部１７かも指定された文の音声データを取り
出し、音声を合成する。この合成されたディジタルの音
声をＤＡ変換部１８でアナログに変換して出力する。

タスク制御部１５は類似度比較部１１に認識指令を出力
し、認識を開始させて認識結果を得ることと、音声合成
部１６に対する合成指令で応答文の音声を再生すること
とを繰返して行ない、目的のタスク全体の流れを制御す
る。

発明が解決しようとする問題点しかし、上記のような従来例の構成では、第５図（ａ）
〜（、）に示すように認識制限時間間際に発声された音
声は一義的に時間制限により「リジェクト」または「タ
イムアウトエラー」と判断されるため、再度音声を発し
なければならないという不都合を生じ、利用者に不快感
を与えていた。

本発明の目的は、認識制限時間間際に発声された音声を
「リジェクト」または「タイムアウトエラー」と判断す
ることなく、制限時間を延長して音声を認識し、自然な
対話を行なうことができるようにした音声認識応答装置
を提供するものである。

問題点を解決するための手段本発明は上記目的を達成するもので、入力音声の有無を
検出する手段と、音声の入力終了時点で上記検出手段の
検出により音声入力制限時間を延長するか否かを判定し
、有音の場合には音声認識を延長する認識処理手段を備
えだものである。

作用本発明は上記構成により、発声を促されたにもかかわら
ず、発声が遅れ、制限時間内に発声を終了できなかった
場合にも認識処理を延長して行なうことができるので、
同じ語句や文の全部を２度繰り返して発声するという煩
わしさをなくすことができる。

実施例以下、本発明の実施例について図面を参照しながら詳細
に説明する。

まず、本発明の第１実施例について説明する。

第１図は本発明の第１実施例における音声認識応答装置
の構成を示す機能ブロック図である。

同図において、符号１〜１１および１５〜１９で示す各
部は第４図で説明した従来例の構成と同様であるので、
その説明を省略し、異なる構成についてのみ説明する。

パワー比較部１２は特徴パラメータ抽出部３で得られた
帯域通過フィルタのパワー値と、ある一定閾値との比較
を行ない、閾値を越えたフレームを検出する。認識結果
生成部１４は音声の入力終了時点で上記パワー比較部１
２の検出により入力制限時間を延長するか否かを判定す
る。すなわち、認識結果生成部１４は予め設定され、タ
イマ部１９で計数している認識制限時間以内に認識結果
が得られない場合、制限時間終了時点で上記フィルタパ
ワー値が閾値を越えている事がパワー比較部１２より検
出されれば、認識制限時間を再設定し、認識処理を続行
する。その結果、認識結果生成部１４は最大類似度があ
る閾値以上となれば認識結果を出力するが、再び認識制
限時間に達してもある程度以上の類似度が得られない場
合には「リジェクト」または「タイムアウトエラー」と
してタスク制御部１５に報告する。タスク制御部１５は
音声合成部１６にリジェクト等の理由を示す応答文の合
成を指令し、音声合成部１６は音声データ格納部１７か
ら応答文の音声デンタを取り出し、音声を合成し、ＤＡ
変換部１８でアナログに変換して出力し、発声者に伝達
する。なお、この他の合図音で伝達することもできる。

第２図（ａ）〜（Ｐ）は以上の処理の様子を示した図で
ある。同図に示すように認識制限時間終了時点で音声が
検出された場合、制限時間を延長して認識処理を行ない
、発声終了後に認識結果を出力している。

次に本発明の第２実施例について説明する。第３図は本
発明の第２実施例の構成を示す機能ブロック図である。

上記第１実施例では、認識制限時間終了時点で、音声の
有無を判定するため、音声以外の瞬時のノイズに対して
誤ってリジェクトしてしまう危険性があるので、本実施
例では瞬時のノイズに対して誤ってリジェクトしないよ
うに考慮したものである。

同図において、符号１〜１２および１４〜１９で示す各
部は第１図に示した第１実施例の構成と同様であるので
、その説明を省略し、異なる構成についてのみ説明する
。１３はパワー比較部１２から出力される帯域通過フィ
ルタパワー値がある閾値を越えたフレームの個数を計算
するフレーム計数部であり、認識開始時点より連続して
一定フレーム以上閾値を越えたフレームが連続した場合
を検出する。

以降の処理は上記第１実施例と同様である。

なお、上記各実施例では、帯域通過フィルタパワーによ
り音声の有無を検出しているが、全域パワーを用いても
同様の検出は可能である。

発明の効果以上述べたように本発明によれば、音声の入力終了時点
において、検出手段による入力音声の有無の検出により
認識処理手段で音声入力制限時間を延長するか否かを判
定し、有音の場合には音声認識を延長するｒうに構成し
ている。すなわち、音声が認識制限時間直前に発声され
、制限時間以内に発声を終了しない場合に制限時間終了
時点の音声の有無を検出し、有音の時には制限時間を延
長して認識を行なうことができるようになっている。し
たがって、発声するタイミングが少し遅れても、認識動
作を正しく行ない、従来例のように「リジェクト」また
は「タイムアウトエラー」と判断され、全く同じ発声を
２度繰り返さなければならないという煩わしさから解放
され、スムーズで自然な対話を実現できる。

【図面の簡単な説明】

第１図は本発明の第１実施例における音声認識応答装置
の構成を示す機能プロ・ツク図、第２図は本発明の実施
例における対話の様子を示すタイミング図、第３図は本
発明の第２実施例の構成を示す機能ブロック図、第４図
は従来の音声認識応答装置の構成を示す機能ブロック図
、第５図は従来例における対話の様子を示すタイミング
図である。１・・・ＡＤ変換部、２・・・音響分析部、３・・・特
徴パラメータ抽出部、４・・・フレーム同期信号発生部
、５・・・時間軸正規化部、６・・・区間候補設定部、
７・・・類似度計算部、８・・・標準パターン格納部、
９・・・標準パターン選択部、１０・・・１次記憶、１
１・・・類似度比較部、１２・・・パワー比較部、１３
・・・フレーム計数部、１４・・・認識結果生成部、１
５・・・タスク制御部、１６・・・音声合成部、１７・
・・音声データ格納部、１８・・・ＤＡ変換部、１９・
・・タイマ部。

Claims

【特許請求の範囲】

（１）入力音声の有無を検出する手段と、音声の入力終
了時点で上記検出手段の検出により音声入力制限時間を
延長するか否かを判定し、有音の場合には音声認識を延
長する認識処理手段を備えたことを特徴とする音声認識
応答装置。
（２）検出手段が音声信号のパワー値と、ある一定閾値
との比較を行ない、閾値を越えたフレームを検出するパ
ワー比較部で構成されている特許請求の範囲第１項記載
の音声認識応答装置。
（３）検出手段が音声信号のパワー値と、ある一定閾値
との比較を行ない、閾値を越えたフレームを検出するパ
ワー比較部と、このパワー比較部から出力され、閾値を
越えたフレームの個数を計算するフレーム計数部とより
構成されている特許請求の範囲第１項記載の音声認識応
答装置。