WO2022201458A1

WO2022201458A1 - 音声対話システム、音声対話方法及び音声対話管理装置

Info

Publication number: WO2022201458A1
Application number: PCT/JP2021/012655
Authority: WO
Inventors: 啓吾川島
Original assignee: 三菱電機株式会社
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2022-09-29
Also published as: JP7361988B2; JPWO2022201458A1

Abstract

音声対話管理部と音声入出力部とが別の独立した構成であっても、音声認識のバージインの受付判定精度が劣化せず、音声対話システムのユーザビリティを維持する。　音声入出力部（２００）内に、ユーザの発話音声を取得する音声入力部（１）と、応答音声をユーザへ出力すると共に、応答音声の出力状況を音声対話管理部（３００）へ出力する音声出力部（７）とを備え、　音声対話管理部（３００）内に、ユーザの発話音声を音声認識する音声認識部（２）と、ユーザの発話意図を推定する意図理解部（４）と、ユーザへの応答内容情報を出力する対話管理部（５）と、応答音声を生成して音声入出力部（１）へ出力する音声生成部（６）と、応答音声を出力中か否かを示す音声出力情報を生成する音声出力情報生成部（８）と、音声出力情報を用いて、意図理解部（４）への入力受付可否を判定する入力受付判定部（３）とを備える。

Description

音声対話システム、音声対話方法及び音声対話管理装置

　本開示は、音声対話システム、音声対話方法及び音声対話管理装置に関する。

　音声認識機能が搭載されているカーナビゲーションシステム、スマートスピーカ、電話自動応答システムなどに代表される音声対話システムにおいて、音声対話システムの利用者であるユーザが、音声対話システムの応答音声出力中でも割り込んで音声入力可能とするためのバージイン機能（以降、バージイン）が開発されている。一方、このバージインをユーザに許可することで、対話型の処理においては副作用が出る場合もある。例えば、音声対話システムがうまく音声認識が出来ず、ユーザにもう一度発話の入力を求める際に、前の発話の続きを誤認識したり、また、ユーザが音声対話システムの応答音声を途中までしか聞かず、質問内容を勘違いしたまま発話してしまうこともあり、これら音声認識開始タイミングのずれ、言い換えれば、音声認識のバージインの受付判定精度が低いことが、音声対話システムの可用性（ユーザビリティ）を低下させていた。

　これらの課題に対して、従来の音声対話システムでは、生成した応答音声の信号を入力として、応答音声の発話時間の長さを信号データファイル容量から算出し、算出された応答音声の発話時間の長さに基づいて、音声認識開始のタイミングを応答音声出力完了前に制御するように動作させている（例えば、特許文献１参照）。

特開２００７－１５５９８６号公報

　しかしながら、上記した従来の音声対話システムを、音声対話管理部と音声入出力部とが別の独立した構成のシステムに適用する際、音声対話管理部と音声入出力部とは、音声対話管理部が出力する応答音声の出力完了タイミング（出力完了時刻）に呼応して動作することとなるが、当該システムは非同期の通信ネットワークにより相互接続される場合が多い。このような場合、通信ネットワークの伝送遅延は時々刻々と変動することから、音声対話管理部が生成した応答音声と音声入出力部とでの応答音声の出力完了タイミングが異なる。そのため、ユーザに出力した応答音声の出力完了時刻を正確に検出することは困難である。

　更に、音声対話管理部と音声入出力部との音声データを取り扱う上での相違、例えば、音声データのサンプリング周波数の相違により、信号データファイル容量から応答音声の出力完了時刻を正確に検出することは困難であり、また、応答音声の出力信号に出力データファイルサイズ等の出力設定情報を付与することも困難である。

　つまり、出力タイミングが異なる応答音声データから、応答音声の出力完了時刻を算出できないため、音声対話管理部では、音声対話システムがユーザに出力した応答音声の出力完了時刻を正確に検出することができず、その結果、音声認識のバージインの受付判定精度が劣化して、音声対話システムのユーザビリティが低下する問題があった。

　本開示は、上述の課題を解決するためになされたものであり、音声対話管理部と音声入出力部が独立した構成となる音声対話システムにおいても、音声対話管理部が、ユーザに対して音声入出力部が出力した応答音声の出力完了時刻を受信することで、音声対話管理部がユーザに出力した応答音声の出力完了時刻を正確に検出することができる。これにより、音声認識のバージインの受付判定精度を改善し、音声対話システムのユーザビリティを向上することを目的とする。

　本開示に係る音声対話システムは、
音声入出力部と、音声対話管理部とを有し、
前記音声対話管理部により生成される応答音声が、ユーザに対して遅延して出力される音声対話システムであって、
　前記音声入出力部は、
前記ユーザの発話音声を取得する音声入力部と、
前記応答音声を前記ユーザへ出力すると共に、前記応答音声の音声出力状況を前記音声対話管理部へ出力する音声出力部とを備え、
　前記音声対話管理部は、
前記ユーザの発話音声を音声認識し、音声認識結果を出力する音声認識部と、
前記音声認識結果から前記ユーザの発話意図を推定して意図理解結果を出力する意図理解部と、
前記意図理解結果より、前記ユーザへの応答内容情報を出力する対話管理部と、
前記応答内容情報に基づいて、前記応答音声の音声信号を生成して前記音声入出力部へ出力する音声生成部と、
前記音声出力状況から、前記応答音声を音声出力中か否かを示す情報である音声出力情報を生成する音声出力情報生成部と、
前記音声出力情報を用いて、前記意図理解部への入力受付可否を判定する入力受付判定部とを備えるものである。

　また、本開示に係る音声対話方法は、
音声入出力ステップと、音声対話管理ステップとを有し、
前記音声対話管理ステップにより生成される応答音声が、ユーザに対して遅延して出力される音声対話方法であって、
　前記音声入出力ステップは、
前記ユーザの発話音声を取得する音声入力ステップと、
前記応答音声を前記ユーザへ出力すると共に、前記応答音声の音声出力状況を前記音声対話管理ステップへ出力する音声出力ステップとを備え、
　前記音声対話管理ステップは、
前記ユーザの発話音声を音声認識し、音声認識結果を出力する音声認識ステップと、
前記音声認識結果から前記ユーザの発話意図を推定して意図理解結果を出力する意図理解ステップと、
前記意図理解結果より、前記ユーザへの応答内容情報を出力する対話管理ステップと、
前記応答内容情報に基づいて、前記応答音声の音声信号を生成して前記音声入出力ステップへ出力する音声生成ステップと、
前記音声出力状況から、前記応答音声を音声出力中か否かを示す情報である音声出力情報を生成する音声出力情報生成ステップと、
前記音声出力情報を用いて、前記意図理解ステップへの入力受付可否を判定する入力受付判定ステップとを備えるものである。

　また、本開示に係る音声対話管理装置は、
ユーザの発話音声を音声認識し、音声認識結果を出力する音声認識部と、
前記音声認識結果から前記ユーザの発話意図を推定して意図理解結果を出力する意図理解部と、
前記意図理解結果より、前記ユーザへの応答内容情報を出力する対話管理部と、
前記応答内容情報に基づいて、前記応答音声の音声信号を生成して出力する音声生成部と、
前記応答音声の音声信号を前記ユーザに出力している状況である音声出力状況を入力し、前記応答音声を音声出力中か否かを示す情報である音声出力情報を生成する音声出力情報生成部と、
前記音声出力情報を用いて、前記意図理解部への入力受付可否を判定する入力受付判定部とを備えるものである。

　本開示によれば、音声対話管理部と音声入出力部が別の独立した構成となる音声対話システムにおいても、音声対話システムの応答音声の出力完了時刻を正確に検出することができる。その結果、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システム及び音声対話方法のユーザビリティが向上する効果を有する。

実施の形態１における音声対話システムのブロック構成図である。実施の形態１における音声対話システムのハードウェア構成図である。実施の形態１における音声対話システムの動作を示すフローチャートである。実施の形態１における入力受付判定部の動作の一例である。実施の形態２における音声対話システムのブロック構成図である。実施の形態２における音声対話システムのハードウェア構成図である。実施の形態３における音声対話システムのブロック構成図である。実施の形態３における音声対話システムの動作を示すフローチャートである。実施の形態４における音声対話システムのブロック構成図である。実施の形態４における音声対話システムの動作を示すフローチャートである。

実施の形態１．
《１－１》構成
　実施の形態１における音声対話システムについて図１～図４を用いて説明する。図１は本実施の形態１を示す音声対話システムのブロック構成図である。

　図１において、音声対話システム１０００は、音声入出力部２００と、音声対話管理部３００と、ネットワークＮＷとから構成される。

　音声入出力部２００は、ユーザＵに対面しており、音声対話システム１０００への音声入力と、音声対話システム１０００からの応答音声をユーザＵへ提示する処理を行う。また、音声入出力部２００は、例えば、スマートスピーカの音声入出力装置に内蔵されている。

　音声対話管理部３００は、ユーザＵが発話した音声信号を、後述するネットワークＮＷを通じて得ると共に、ユーザＵの発話した音声の音声認識と意図理解を行い、ユーザＵの意図に対応した応答音声を生成する処理を行う。生成された応答音声はネットワークＮＷへ出力される。また、音声対話管理部３００は、例えば、ユーザＵと離れた位置にあるデータセンタのサーバ装置に内蔵されている。

　ネットワークＮＷは、音声入出力部２００と音声対話管理部３００とのデータ送受を行う通信機器であり、例えば、インターネットあるいはＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）など、有線または無線によるデジタル通信機器である。なお、ネットワークＮＷは、電話回線とモデムにより音声をアナログ伝送する通信機器であってもよい。

　音声入出力部２００は、音声入力部１と、音声出力部７とから構成される。また、音声対話管理部３００は、音声認識部２と、入力受付判定部３と、意図理解部４と、対話管理部５と、音声生成部６と、音声出力情報生成部８とから構成される。

　音声入力部１は、マイクロフォン（図示せず）を用いて、音声対話システム１０００の利用者であるユーザＵが発話した音声を取得する。取得したアナログ音声波形は、アナログ／デジタル変換器を用いて、例えば１６ｋＨｚのサンプリング周波数でサンプリングされ、デジタル音声データ列に変換される。続いて、変換されたデジタル音声データ列の音響分析が行われて、例えば、音声認識で使用される特徴量パラメータである２０次のＭＦＣＣ（Ｍｅｌ　Ｆｒｅｑｕｎｅｃｙ　Ｃｅｐｓｔｒｕｍ　Ｃｏｅｆｆｉｃｉｅｎｔｓ；メル周波数ケプストラム係数）に変換される。得られた特徴量パラメータＭＦＣＣを入力音声情報Ｄ１としてネットワークＮＷへ出力する。

　なお、入力音声情報Ｄ１は特徴量パラメータＭＦＣＣに限られることは無い。入力音声情報Ｄ２は、後述する音声認識部２において音声認識処理が可能な情報であれば良く、例えば、音声波形を表すデジタル音声データ列、あるいはアナログ音声信号のままでも良い。この場合、音声入力部１中の音響分析を省略することができ、音響分析のための処理量を削減できる。

　音声認識部２は、ネットワークＮＷを通じて得られた入力音声情報Ｄ１を入力し、音声区間検出処理により、ユーザＵの発話開始タイミングと発話完了タイミングとを検出し、ユーザＵの発話区間のみを切り出す。切り出された発話音声に対して音声認識処理を行うことでユーザＵの発話内容を音声認識し、発話内容を表すテキストデータと発話開始タイミングおよび発話完了タイミングとを音声認識結果Ｄ２として出力する。

　音声認識結果Ｄ２の発話内容は、ユーザＵの発話中に含まれていた特定のキーワードを表すテキストデータだけでも良い。また、予め決められたキーワードを示すＩＤなどを表す数値データであっても良い。

　入力受付判定部３は、音声認識結果Ｄ２及び、後述する音声出力情報Ｄ８を入力として、ユーザＵが発話した音声の入力を受け付けるかを判定し、入力を受け付ける場合に受理した音声認識結果Ｄ３を出力する。

　意図理解部４は、受理した音声認識結果Ｄ３を入力とし、入力内容の意図を推定し意図理解結果Ｄ４として出力する。ここで、意図理解結果Ｄ４は、ユーザＵの発話意図・操作内容を表す情報であれば良く、テキストデータ、テキストの内容を示すＩＤといった数値データであれば良い。　

　対話管理部５は、意図理解結果Ｄ４を入力とし、ユーザＵへの応答が必要な場合に応答内容情報Ｄ５を出力する。

　なお、応答内容情報Ｄ５は、応答の種類・内容等の応答文を生成するために必要な情報であれば良く、テキストデータ、あるいは数値データ等、任意の形式をとることができる。

　音声生成部６は、応答内容情報Ｄ５を入力とし、応答音声を生成し出力音声Ｄ６としてネットワークＮＷへ出力する。ここで、出力音声Ｄ６は、音声波形を表すデータ列である。

　音声出力部７は、ネットワークＮＷを通じて得られた出力音声Ｄ６を入力し、出力音声Ｄ６をデジタル／アナログ変換器によりアナログ音声信号へ変換する。アナログ音声信号へ変換された出力音声Ｄ６は、スピーカ（図示せず）等の音声報知装置を用いて、音声対話システム１０００からの応答音声としてユーザＵへ出力される。

　また、音声出力部７は、出力音声Ｄ６の音声出力開始時刻、あるいは音声出力完了時刻を示す情報である音声出力状況Ｄ７をネットワークＮＷへ出力する。なお、音声出力状況Ｄ７は、出力音声Ｄ６の音声出力開始時刻と音声出力開始時からの経過時間であっても良い。

　音声出力情報生成部８は、ネットワークＮＷを通じて得られた音声出力状況Ｄ７を入力とし、音声出力部７が音声出力中か否かを示す情報である、音声出力情報Ｄ８を生成し出力する。ここで、音声出力情報Ｄ８は少なくとも音声出力中か否かを表現可能な情報であれば良く、時間そのものに限ることは無い。例えば、音声出力情報Ｄ８は、音声出力が完了するタイミングを示す、所定の周期（例えば、０．２５ｍｓｅｃ）毎で出力するフラグ情報（例えば、音声出力中は１、音声停止中は０）であればよい。あるいは、音声出力開始時から出力完了するまでの相対時間の数値情報、時間を表すテキスト情報、あるいは、システム起動時からの音声データフレームのカウント数など、音声出力が完了するタイミングが判別可能な信号であれば良い。

《１－２》ハードウェア構成
　図１に示される音声対話システム１０００の各構成は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）内蔵の情報処理装置であるコンピュータで実現可能である。ＣＰＵ内蔵のコンピュータは、例えば、パーソナルコンピュータ、サーバ型コンピュータなどの据え置き型コンピュータ、スマートフォン、タブレット型コンピュータなどの可搬型コンピュータ、あるいは、カーナビゲーションシステムなどの車載情報システムの機器組み込み用途のマイクロコンピュータ、及びＳｏＣ（Ｓｙｓｔｅｍ　ｏｎ　Ｃｈｉｐ）などである。

　また、図１に示される音声対話システム１０００の各構成は、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、又はＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）などの電気回路であるＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｅｄ　ｃｉｒｃｕｉｔ）により実現されてもよい。また、図１に示される音声対話システム１０００の各構成は、コンピュータとＬＳＩの組み合わせであってもよい。

　図２は、コンピュータ等の情報処理装置を用いて構成される音声対話システム１０００のハードウェア構成の例を示すブロック図である。

　図２の例では、音声対話システム１０００の音声入出力部２００は、メモリ１０１Ａ、ＣＰＵ１１０Ａを内蔵するプロセッサ１０２Ａ、記録媒体１０３Ａ、音響インタフェース１０４（図２中では音響Ｉ／Ｆと記載）、及びバスなどの信号路１０８Ａを備えている。

　また、図２の例では、音声対話システム１０００の音声対話管理部３００は、メモリ１０１Ｂ、ＣＰＵ１１０Ｂを内蔵するプロセッサ１０２Ｂ、記録媒体１０３Ｂ、ネットワークインタフェース１０５Ｂ（図２中ではネットワークＩ／Ｆと記載）、テキストインタフェース１０６（図２中ではテキストＩ／Ｆと記載）、表示インタフェース１０７（図２中では表示Ｉ／Ｆと記載）、及びバスなどの信号路１０８Ｂを備えている。

　メモリ１０１Ａ、及びメモリ１０１Ｂは、実施の形態１の音声対話処理を実現するための各種プログラムを記憶するプログラムメモリ、プロセッサがデータ処理を行う際に使用するワークメモリ、及び信号データを展開するメモリ等として使用するＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）及びＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等の記憶装置である。

　メモリ１０１Ａには、より具体的に言えば、音声入力部１、音声出力部７の各プログラムを記憶することができる。また、メモリ１０１Ａには、入力音声情報Ｄ１、出力音声Ｄ６、音声出力状況Ｄ７などの中間データを記憶することができる。

　メモリ１０１Ｂには、より具体的に言えば、音声認識部２、入力受付判定部３、意図理解部４、対話管理部５、音声生成部６、音声出力情報生成部８の各プログラムを記憶することができる。また、メモリ１０１Ｂには、入力音声情報Ｄ１、音声認識結果Ｄ２、受理した音声認識結果Ｄ３、意図理解結果Ｄ４、応答内容情報Ｄ５、出力音声Ｄ６、音声出力状況Ｄ７、音声出力情報Ｄ８などの中間データを記憶することができる。

　プロセッサ１０２Ａは、ＣＰＵ１１０Ａと、作業用メモリとしてメモリ１０１Ａ中のＲＡＭを使用し、メモリ１０１Ａ中のＲＯＭから読み出されたコンピュータ・プログラム（すなわち、音声対話プログラム）に従って動作する。

　プロセッサ１０２Ａは、より具体的に言えば、音声入力部１、音声出力部７の各処理に対応するプログラムをメモリ１０１Ａから読み出し、ＣＰＵ１１０Ａで処理を行うことで、本実施の形態１に示す音声対話処理に係る音声入出力処理を実行することができる。

　プロセッサ１０２Ｂは、ＣＰＵ１１０Ｂと、作業用メモリとしてメモリ１０１Ｂ中のＲＡＭを使用し、メモリ１０１Ｂ中のＲＯＭから読み出されたコンピュータ・プログラム（すなわち、音声対話プログラム）に従って動作する。

　プロセッサ１０２Ｂは、より具体的に言えば、音声認識部２、入力受付判定部３、意図理解部４、対話管理部５、音声生成部６、音声出力情報生成部８の各処理に対応するプログラムをメモリ１０１Ｂから読み出し、ＣＰＵ１１０Ｂで処理を行うことで、本実施の形態１に示す音声対話処理に係る音声対話管理処理を実行することができる。

　記録媒体１０３Ａは、プロセッサ１０２Ａの各種設定データ及び信号データなどの各種データを蓄積するために使用される。記録媒体１０３Ａとしては、例えば、ＳＤＲＡＭ（Ｓｙｎｃｈｒｏｎｏｕｓ　ＤＲＡＭ）などの揮発性メモリ、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の不揮発性メモリを使用することが可能である。記録媒体１０３Ａには、例えば、ＯＳ（Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ）を含む起動プログラム及び、音声対話システムのプログラム、初期状態及び各種設定データ、制御用の定数データ、音響信号データ、エラー情報のログ等の各種データを蓄積することができる。なお、この記録媒体１０３Ａに、メモリ１０１Ａ内の各種データを蓄積しておくこともできる。

　記録媒体１０３Ｂは、プロセッサ１０２Ｂの各種設定データ及び信号データなどの各種データを蓄積するために使用される。記録媒体１０３Ｂとしては、例えば、ＳＤＲＡＭなどの揮発性メモリ、ＨＤＤ又はＳＳＤ等の不揮発性メモリを使用することが可能である。記録媒体１０３Ｂには、例えば、ＯＳを含む起動プログラム及び、音声対話システムのプログラム、初期状態及び各種設定データ、制御用の定数データ、音響信号データ、エラー情報のログ等の各種データを蓄積することができる。なお、この記録媒体１０３Ｂに、メモリ１０１Ｂ内の各種データを蓄積しておくこともできる。

　音響インタフェース１０４は、ユーザＵの発話した音声信号を取得するマイクロフォンと、出力音声Ｄ６をユーザＵに報知するためのスピーカとで構成される。

　ユーザＵが発話した音声をマイクロフォンで取得する代わりに、後述するネットワークインタフェース１０５Ａを用い、他の装置から取得したストリームデータを入力するようにしても良い。また、ネットワークインタフェース１０５Ａを通じて外部装置に記憶されている録音済みの音声データを選択し、読み込むようにしても良い。また、出力音声Ｄ６をスピーカによりユーザＵに報知する代わりに、ネットワークインタフェース１０５Ａを用い、他の装置へデータとして送出しても構わない。なお、マイクロフォン及びスピーカを用いる代わりに、有線あるいは無線等の通信を介して音声を入出力するシステムであれば、音響インタフェース１０４は省略することが可能である。

　ネットワークインタフェース１０５Ａ、及びネットワークインタフェース１０５Ｂは、入力音声情報Ｄ１、出力音声Ｄ６、及び音声出力状況Ｄ７をネットワーク上のデータから参照する場合、ストリームデータとして入出力する場合など、外部データの送受信を有線又は無線通信にて行う通信インタフェースである。

　テキストインタフェース１０６は、応答音声内容等を人の手によって文字入力するための入力機器であり、キーボード、タッチパネル、マウスなどの入力装置で構成される。なお、人による入力を必要としないシステムであれば、テキストインタフェース１０６は省略することが可能である。

　表示インタフェース１０７は、入力音声の音声認識結果、応答音声の出力内容等の表示機器であり、ディスプレイ等の表示装置で構成される。なお、表示装置での表示を必要としないシステムであれば、表示インタフェース１０７は省略することが可能である。

　以上のように、図２に示される、音声入力部１、音声認識部２、入力受付判定部３、意図理解部４、対話管理部５、音声生成部６、音声出力部７、音声出力情報生成部８の各機能は、メモリ１０１Ａ、メモリ１０１Ｂ、プロセッサ１０２Ａ、プロセッサ１０２Ｂ、記録媒体１０３Ａ、及び記録媒体１０３Ｂで実現することができる。

　なお、音声対話システム１０００を実行するプログラムは、ソフトウエアプログラムを実行するコンピュータ内部の記憶装置に記憶していてもよいし、ＣＤ－ＲＯＭあるいはフラッシュメモリ等のコンピュータで読み取り可能な外部記憶媒体にて配布される形式で保持され、コンピュータ起動時に読み込んで動作させてもよい。また、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）等の無線または有線ネットワークを通じて他のコンピュータからプログラムを取得することも可能である。

　また、音声対話システム１０００を実行するプログラムは、外部で実行されるプログラム、例えば、カーナビゲーションシステム、自動電話応答システムを実行するプログラムとソフトウェア上で結合し、同一のコンピュータで動作させることも可能であるし、又は、複数のコンピュータ上で分散処理することも可能である。

《１－３》処理動作
　続いて、実施の形態１の音声対話システムの処理動作について図３を用いて説明する。図３は、本実施の形態１を示す音声対話システム１０００の処理の流れを示すフローチャートである。なお、以下の各ステップにおける「部」を「工程」と読み替えてもよい。

　ステップＳＴ１で、音声入力部１は、ユーザＵが発話した入力音声を取得して音響分析が行われ、得られた特徴量パラメータＭＦＣＣを入力音声情報Ｄ１として音声認識部２へ出力する（ステップＳＴ１）。

　ステップＳＴ２で、音声認識部２は、まず、入力音声の音声区間検出により、入力音声の発話開始タイミングならびに発話完了タイミングを検出し、入力音声の特徴量パラメータからユーザＵの発話音声のみを切り出す。続いて、切り出された発話音声に対して音声認識処理が行われることで、入力音声情報Ｄ１からユーザＵの発話内容を認識し、発話内容の認識結果と発話開始タイミングならびに発話完了タイミングとを音声認識結果Ｄ２として入力受付判定部３へ出力する（ステップＳＴ２）。ここで、音声認識は公知の音声認識技術を用いればよく、例えば、非特許文献１に記載されているように、ＨＭＭ（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ；隠れマルコフモデル）法に基づく音声認識方法により、単語単位、あるいは文単位の音声認識を行えばよい。また、入力音声の音声区間検出方法として、音声の短時間パワーと所定の閾値との比較、あるいは、入力音声のケプストラム分析などの公知の手法を用いることができる。

古井貞熙著、「音声情報処理」、第１版、森北出版株式会社、１９９８年６月３０日発行、ｐ．９６－１０５

　ステップＳＴ３で、入力受付判定部３は、音声認識結果Ｄ２及び音声出力情報Ｄ８を入力し、ユーザＵの発話音声の入力を受け付けるか否かを判定する（ステップＳＴ３）。ここで、音声出力情報８は、応答音声を出力中か否かを表す情報であり、例えば、応答音声を出力中か否かであることを示すフラグであり、例えば、フラグの値が１の場合、応答音声出力中とし、フラグの値が０であれば応答音声が出力されていない状態である。あるいは、応答音声出力開始時刻からの出力経過時間であってもよく、経過時間が０でなければ、応答音声出力中であると判断することができる。なお、応答音声が出力完了した場合、出力結果時間は０にリセットされる。

　図４に、ステップＳＴ３の入力受付判定部３における具体的な動作の一例を示す。以下、音声対話システム１０００がユーザＵへ出力する応答音声を“システム発話”と略し、ユーザＵが音声対話システム１０００へ入力する発話音声を“ユーザ発話”と略する。この一例では、システム発話の開始及び完了のタイミングを音声出力情報Ｄ８として入力される。また、この一例では、システム発話開始から発話完了までの区間におけるユーザ発話の入力を受け付けないように動作する。

　本発明の実施の形態１の効果を具体的に比較可能とするため、（ａ）に音声生成部６が出力するシステム発話に基づく動作の一例、（ｂ）に本発明の実施の形態１による動作の一例をそれぞれ示す。なお、音声生成部６が出力するシステム発話の音声を、上段（Ａ）の音声内容として図示し、音声出力部７がユーザＵへ出力するシステム発話の音声を、下段（Ｂ）の音声内容として図示する。また、”ユーザ発話”はユーザＵが発話した音声内容、”発話状況”はシステム発話の出力状況、”受理結果”は入力受付判定部３での入力音声の受け付け結果をそれぞれ表す。横軸は音声対話管理部３００における時間である。

　また、図４に示す動作の一例では、音声出力部７がユーザＵへ出力するシステム発話（（Ｂ）の音声内容）の発話開始時刻と発話完了時刻は、音声生成部６が出力する応答音声のデータがネットワークＮＷの伝送遅延等の影響を受けるため、音声生成部６が出力するシステム発話（（Ａ）の音声内容）と異なるタイミングとなる。具体的には、時間軸上に示す”ＳＴ（Ａ）”が、音声生成部６の音声データから得られるシステム発話の開始時刻、同じく”ＥＮ（Ａ）”が音声生成部６の音声データから得られるシステム発話の完了時刻である。また、時間軸上に示す”ＳＴ（Ｂ）”は、音声出力部７がユーザＵに出力する応答音声であるシステム発話の開始時刻、すなわち、本発明の実施の形態１における発話開始時刻、同じく”ＥＮ（Ｂ）”は、音声出力部７がユーザＵに出力する応答音声であるシステム発話の完了時刻、すなわち、本発明の実施の形態１における発話完了時刻である。

　なお、ユーザＵが発話開始するタイミングは、音声出力部７が出力する応答音声の出力完了後、すなわち、ユーザＵに対し報知されたシステム発話（すなわち、（Ｂ）の音声内容）をユーザＵが聴取した後であるため、（ａ）の音声生成部６が出力するシステム発話に基づく動作の一例と（ｂ）の本発明の実施の形態１による動作の一例とは同じになる。

　図４において、まず、音声対話システム１０００は、ユーザＵに対して音声入力を促すシステム発話である「ご用件をお話しください。」を出力する（［１］発話開始）。システム発話完了後（［１］発話完了）、ユーザＵが「宅配を、えーと、お願いします」と発話する。

　音声入力部１がユーザ発話を取得後、音声認識部２において、ユーザ発話が「宅配を、」と「えーと、」と「お願いします。」とに発話区間が分割されて入力された場合、音声認識部２はまず「宅配を、」という入力を受け付け、音声対話システム１０００はユーザＵの発話途中であるがユーザの発話意図を理解し、「住所をお話しください。」とシステム発話を開始する（［２］発話開始）。

　「住所をお話しください。」のシステム発話中に、「えーと、」「お願いします。」というユーザ発話が入力された場合、（ａ）に示す動作の一例では、「えーと」のユーザ発話はシステム発話中（［２］発話開始の”ＳＴ（Ａ）”から［２］発話完了の”ＥＮ（Ａ）”の間）であると判断できるので、ユーザ発話「えーと、」の入力受付は棄却される。しかし、ユーザ発話「お願いします。」の語尾部分に関しては、システム発話完了時刻（”ＥＮ（Ａ）”印）よりも後に発話したものと見做される。このユーザ発話の語尾部分は、システム発話完了後のユーザ発話「東京都・・・」と共に誤って受け付けられてしまい、その結果、誤認識となってしまう。

　一方、（ｂ）に示す本発明の動作の一例では、システム発話「住所をお話しください。」の開始及び完了のタイミングを含む音声出力情報Ｄ８の入力を受けることで、ユーザ発話「えーと、」「お願いします。」は、システム発話開始時刻（［２］発話開始の”ＳＴ（Ｂ）”）から発話完了時刻（［２］発話完了の”ＥＮ（Ｂ）”）までの区間の入力であることが分かるので、前のシステム発話「ご用件をお話ください。」に対する入力であると音声対話システム１０００は判断し、ユーザ発話「えーと、」「お願いします。」の入力受付を棄却する。そして、システム発話完了後に入力された「東京都・・・」というユーザ発話に対し、システム発話「住所をお話しください。」の入力を正しく受け付けることができ、その結果、正しく認識することができる。

　つまり、本発明の実施の形態１に示すように、音声出力情報Ｄ８を用いることで、音声生成部６が生成したシステム発話の出力完了時刻と、音声出力部７がユーザＵに出力したシステム発話の出力完了時刻との時間差を吸収あるいは補正できるので、音声対話システム１０００は、ユーザＵに出力したシステム発話完了時刻（すなわち、音声入出力部７でのシステム発話出力が完了するタイミング）が正確に分かる。よって、システム発話完了直後にユーザが発話したとしても、そのユーザ発話を受け付けすることが可能である。この動作により、音声対話システム１０００がユーザＵの発話途中に意図を理解し、次の対話に進んでしまった場合にも、前の質問に対するユーザＵの発話による誤認識を精度良く防止する効果がある。

　なお、上記したステップＳＴ３の動作の一例では、システム発話の開始時刻から完了時刻までの区間のユーザ発話を受け付けないように動作しているが、これに限られるものではない。例えば、システム発話完了後から所定の時間内はユーザ発話を受け付けないようにしても良く、システム発話開始時刻とシステム発話完了時刻から発話時間長を算出し、発話時間長のうち所定の割合時間が経過するまで、ユーザ発話を受け付けないようにしても良い。

　また、図４において、入力受付判定時にシステム発話開始を利用する動作の一例を示したが、ネットワークＮＷの伝送遅延、音声認識の処理遅延が少なく、音声認識が完了した時点がシステム発話開始時刻と見なせる場合には、音声出力状況Ｄ７及び音声出力情報Ｄ８にシステム発話開始時刻に関する情報が無くても良い、すなわち、応答音声出力開始時刻に関する情報が含まれなくても良い。

　ステップＳＴ４で、意図理解部４は、音声認識結果Ｄ２を入力とし、音声対話システム１０００に対するユーザＵの発話意図・操作内容を推定し、意図理解結果Ｄ４を出力する（ステップＳＴ４）。なお、意図理解部４における意図理解処理は公知の意図理解方法を用いれば良く、例えば、複数の意図のそれぞれを示す複数の意図情報毎に、ユーザ発話に基づいて入力された音声信号の意図情報に対する適合度を示すスコアを算出し、算出されたスコアに基づいて、複数の意図情報の中から、ユーザ発話の意図を示す意図情報を選択する意図理解方法を用いることができる。

　ステップＳＴ５で、対話管理部５は、ユーザ発話の意図理解結果に基づき応答内容を決定し、応答内容情報Ｄ５として出力する（ステップＳＴ５）。ここで、対話管理部５における対話管理処理は公知の対話管理方法を用いれば良く、例えば、予め定められた対話状態に対応する応答テンプレートの中から、ユーザとの対話状態に対応する応答テンプレートを選択し、選択した応答テンプレートに含まれる用語シンボルを出力する対話管理方法を用いることができる。

　ステップＳＴ６で、音声生成部６は、応答内容情報Ｄ５に応じてユーザＵに提示する応答音声を生成し、出力音声Ｄ６として出力する（ステップＳＴ６）。応答内容情報Ｄ５が、発話内容を示すテキストである場合、音声生成部６は公知の音声合成方法を用いれば良く、例えば、ＰＳＯＬＡ（Ｐｉｔｃｈ　Ｓｙｎｃｈｒｏｎｏｕｓ　Ｏｖｅｒｌａｐ　ａｎｄ　Ａｄｄ；ピッチ同期重畳加算）方式に基づくテキスト音声合成方法、あるいは、非特許文献２に記載されているような、波形編集型テキスト音声合成方法を用いれば良い。また、応答内容情報Ｄ５が予め用意された音声データに紐づくＩＤであった場合、音声生成部６が内蔵する記憶装置（図示せず）から、ＩＤに対応する音声データを読み込んで出力音声Ｄ６として出力することもできる。

古井貞熙著、「音声情報処理」、第１版、森北出版株式会社、１９９８年６月３０日、ｐ．７３－７８

　ステップＳＴ７で、音声出力部７は、生成した出力音声Ｄ６をシステム発話としてユーザＵへ報知する（ステップＳＴ７）。また、音声出力部７は応答音声の音声データの送出が完了した時点で、システム発話である応答音声の音声出力完了時刻を示す情報である音声出力状況Ｄ７を、ネットワークＮＷを通じて音声出力情報生成部８に出力する（ステップＳＴ７）。

　ここで、音声出力状況Ｄ７として音声出力完了時刻を示す情報を送出するタイミングは、例えば、スピーカ出力時の音声出力用バッファ、あるいはネットワークＮＷへのデータ送信時の音声送信用バッファにすべての音声データを書き込み終わった時点であれば良い。また、音声出力状況Ｄ７として音声出力開始時刻を示す情報を送出するタイミングは、スピーカ出力時の音声出力用バッファ、あるいはネットワークＮＷへのデータ送信時の音声送信用バッファに音声データを書き込み始めた時点であれば良い。

　ステップＳＴ８で、音声出力情報生成部８は、入力された音声出力状況Ｄ７から音声出力情報Ｄ８を生成し、入力受付判定部３へ出力する（ステップＳＴ８）。

　ここで、ステップＳＴ８での動作の一例として、音声出力開始時刻を示す信号、あるいは、音声出力完了時刻を示す信号を音声出力状況Ｄ７として受け取り次第、音声出力情報Ｄ８としてそのまま出力すればよく、音声出力部７が出力する音声出力状況Ｄ７を音声出力情報Ｄ８としても良い。また、音声出力部７が複数存在するようにシステムが構成されている場合には、音声出力部７のそれぞれの音声出力状況が区別できるようにすれば良く、例えば、音声出力部７のＩＤ等を付与した音声出力情報Ｄ８を生成するようにすればよい。

　この実施の形態１では、ステップＳＴ２の音声認識部２での処理後に、ステップＳＴ３の入力受付判定部３での処理を行うように構成したが、ステップＳＴ４の意図理解部４での処理の後に、ステップＳＴ３の入力受付判定部３での処理を実行するように構成しても良い。この場合には、すべての音声認識結果Ｄ２に対して意図理解部４における意図理解処理を実行するが、入力受付判定部３では、意図理解内容を踏まえた上で入力受付判定処理を実行することができるので、入力受付判定処理の精度を高めることが可能となる。

　また、ステップＳＴ４の意図理解部４で得られた意図理解結果Ｄ４が、音声対話システム１０００との対話内容に応じた内容であれば、音声出力情報Ｄ８に応じた入力受付判定を行い、対話内容とは関係のない意図理解結果Ｄ４であれば、音声出力情報Ｄ８に影響されず常時入力を受け付けるように動作させても良い。

　以上のように、この実施の形態１では、音声出力情報生成部が、システム発話を出力中か否かを示す情報である音声出力情報を生成し、入力受付判定部は、受け取った音声出力情報に基づいてシステム発話の出力完了時刻を補正し、ユーザ発話を受け付けるか否かを判定するように構成したので、ユーザＵが最後まで発話内容を聞く必要がある、システム発話に対する音声入力について、入力受付判定部がシステム発話完了のタイミングを正確に把握することが可能となる。

　すなわち、この実施の形態１の構成を為すことにより、入力受付判定部は、ユーザが実際に聞いた応答音声と、音声生成部が生成した応答音声との時間差がある場合であってもその影響を吸収し、システム発話完了のタイミングを正確に把握することが可能となる。言い換えれば、音声対話管理部と音声入出力部が別の独立した構成で、応答音声の伝送遅延がある音声対話システムにおいても、音声対話システムは応答音声の出力完了時刻を正確に検出することができる。その結果、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システムのユーザビリティが向上する効果を有する。

　また、音声出力情報生成部が、システム発話完了のタイミングの情報を音声出力情報として出力するように構成したので、入力受付判定部で応答音声を受信する必要は無くなり、入力受付判定部にて改めて応答音声を分析して発話時間を算出する場合と比べ、応答音声データ分析のための処理量が削減できるという効果がある。

　更に、ネットワークＮＷの通信において伝送遅延が生じ、入力受付判定部で応答音声の受信に遅延が生じた場合、改めて応答音声を分析する場合と比べ、正確なシステム発話完了のタイミングが得られるために入力受付の判定精度が維持できる効果がある。

　また、入力受付判定部が応答音声の音声データを受信する必要が無いので、音声出力部における応答音声の音声データ送信も不要であり、そのための処理コスト及び装置コストを削減可能であるという効果がある上、応答音声の音声データの送受信が不要なことから、音声入出力部が出力する音声データと、音声対話管理部が受信する音声データとのサンプリング周波数が異なるなど、音声入出力設定に差異があっても影響されず、音声対話システムの設計自由度が増す効果も奏する。

実施の形態２．
《２－１》構成
　上記した実施の形態１では、音声入出力部２００と音声対話管理部３００との音声データ送受をネットワークＮＷを介して行っていたが、これに限ることは無い。例えば、音声入出力部２００と音声対話管理部３００は同一の装置内に配置されているが、音声入出力部２００と音声対話管理部３００とが独立した構成の場合、音声入出力部が出力する音声データと、音声対話管理部が受信する音声データの規格（例えば、サンプリング周波数）が異なることが多い。このような場合でも、音声入出力部２００と音声対話管理部３００とを直接接続することも可能である。これを実施の形態２として説明する。

　実施の形態２における音声対話システムについて図５を用いて説明する。図５は実施の形態２を示す音声対話システムのブロック構成図である。図５中、図１と同一符号を付したものは同一または相当部分を示す。またそれらの構成は実施の形態１で示したのと同等であるので説明を省略する。

　音声入力部１は、マイクロフォン（図示せず）を用いて、音声対話システム１０００の利用者であるユーザＵが発話した音声を取得する。取得したアナログ音声波形は、例えば１６ｋＨｚのサンプリング周波数でサンプリングされ、デジタル音声データ列に変換される。続いて、変換されたデジタル音声データ列の音響分析が行われて、例えば、音声認識で使用される特徴量パラメータである２０次のＭＦＣＣに変換される。得られた特徴量パラメータＭＦＣＣを入力音声情報Ｄ１として音声対話管理部３００内の音声認識部２へ出力する。

　音声認識部２は、入力音声情報Ｄ１を入力し、例えば、ユーザＵの発話区間の切り出しと、切り出された発話音声の発話内容を音声認識し、発話内容を表すテキストデータと発話開始タイミングおよび発話完了タイミングとを音声認識結果Ｄ２として出力する。

　入力受付判定部３は、音声認識結果Ｄ２、及び音声出力情報Ｄ８を入力として、ユーザＵが発話した音声の入力を受け付けるかを判定し、入力を受け付ける場合に受理した音声認識結果Ｄ３を出力する。

　意図理解部４は、受理した音声認識結果Ｄ３を入力とし、入力内容の意図を推定し意図理解結果Ｄ４として出力する。

　音声生成部６は、応答内容情報Ｄ５を入力とし、応答音声を生成し出力音声Ｄ６として音声入出力部２００内の音声出力部７へ出力する。

　音声出力部７は、音声生成部６から得られた出力音声Ｄ６を入力し、スピーカ（図示せず）等の音声報知装置により音声対話システム１０００からの応答音声をユーザＵへ出力すると共に、音声出力状況Ｄ７を音声出力情報生成部８へ出力する。

　音声出力情報生成部８は、音声出力部７から得られた音声出力状況Ｄ７を入力とし、音声出力部７が音声出力中か否かを示す情報である、音声出力情報Ｄ８を生成し出力する。

《２－２》ハードウェア構成
　図５に示される音声対話システム１０００の各構成は、実施の形態１で示したのと同様に、ＣＰＵ内蔵の情報処理装置であるコンピュータで実現可能である。ＣＰＵ内蔵のコンピュータは、例えば、パーソナルコンピュータ、サーバ型コンピュータなどの据え置き型コンピュータ、スマートフォン、タブレット型コンピュータなどの可搬型コンピュータ、あるいは、カーナビゲーションシステムなどの車載情報システムの機器組み込み用途のマイクロコンピュータ、及びＳｏＣなどである。

　また、図５に示される音声対話システム１０００の各構成は、ＤＳＰ、ＡＳＩＣ、又はＦＰＧＡなどの電気回路であるＬＳＩにより実現されてもよい。また、図５に示される音声対話システム１０００の各構成は、コンピュータとＬＳＩの組み合わせであってもよい。

図６は、コンピュータ等の情報処理装置を用いて構成される音声対話システム１０００のハードウェア構成の例を示すブロック図である。図６中、図２と同一符号を付したものは同一または相当部分を示すものとし、またそれらの構成は実施の形態１で示したのと同等であるので説明を省略する。

　図６の例では、音声対話システム１０００は、メモリ１０１、ＣＰＵ１１０を内蔵するプロセッサ１０２、記録媒体１０３、音響インタフェース１０４（図６中では音響Ｉ／Ｆと記載）、ネットワークインタフェース１０５（図６中ではネットワークＩ／Ｆと記載）、表示インタフェース１０６（図６中では表示Ｉ／Ｆと記載）、テキストインタフェース１０７（図６中ではテキストＩ／Ｆと記載）、及びバスなどの信号路１０８を備えている。

　メモリ１０１は、実施の形態２の音声対話処理を実現するための各種プログラムを記憶するプログラムメモリ、プロセッサがデータ処理を行う際に使用するワークメモリ、及び信号データを展開するメモリ等として使用するＲＯＭ及びＲＡＭ等の記憶装置である。

　メモリ１０１には、より具体的に言えば、音声入力部１、音声認識部２、入力受付判定部３、意図理解部４、対話管理部５、音声生成部６、音声出力部７、音声出力情報生成部８の各プログラムを記憶することができる。また、メモリ１０１には、入力音声情報Ｄ１、音声認識結果Ｄ２、受理した音声認識結果Ｄ３、意図理解結果Ｄ４、応答内容情報Ｄ５、出力音声Ｄ６、音声出力状況Ｄ７、音声出力情報Ｄ８などの中間データを記憶することができる。

　プロセッサ１０２は、ＣＰＵ１１０と、作業用メモリとしてメモリ１０１中のＲＡＭを使用し、メモリ１０１中のＲＯＭから読み出されたコンピュータ・プログラム（すなわち、音声対話プログラム）に従って動作する。

　プロセッサ１０２は、より具体的に言えば、音声入力部１、音声認識部２、入力受付判定部３、意図理解部４、対話管理部５、音声生成部６、音声出力部７、音声出力情報生成部８の各処理に対応するプログラムをメモリ１０１から読み出し、ＣＰＵ１１０で処理を行うことで、本実施の形態２に示す音声対話処理を実行することができる。

　記録媒体１０３は、プロセッサ１０２の各種設定データ及び信号データなどの各種データを蓄積するために使用される。記録媒体１０３としては、例えば、ＳＤＲＡＭなどの揮発性メモリ、ＨＤＤ又はＳＳＤ等の不揮発性メモリを使用することが可能である。記録媒体１０３には、例えば、ＯＳを含む起動プログラム及び、音声対話システムのプログラム、初期状態及び各種設定データ、制御用の定数データ、音響信号データ、エラー情報のログ等の各種データを蓄積することができる。なお、この記録媒体１０３に、メモリ１０１内の各種データを蓄積しておくこともできる。

　ユーザＵが発話した音声をマイクロフォンで取得する代わりに、後述するネットワークインタフェース１０５を用い、他の装置から取得したストリームデータを入力するようにしても良い。また、ネットワークインタフェース１０５を通じて外部装置に記憶されている録音済みの音声データを選択し、読み込むようにしても良い。また、出力音声Ｄ６をスピーカによりユーザＵに報知する代わりに、ネットワークインタフェース１０５を用い、他の装置へデータとして送出しても構わない。なお、マイクロフォン及びスピーカを用いる代わりに、有線あるいは無線等の通信を介して音声を入出力するシステムであれば、音響インタフェース１０４は省略することが可能である。

　ネットワークインタフェース１０５は、入力音声情報Ｄ１、出力音声Ｄ６、及び音声出力状況Ｄ７をネットワーク上のデータから参照する場合、ストリームデータとして入出力する場合など、外部データの送受信を有線又は無線通信にて行う通信インタフェースである。なお、外部データの送受信を行わない場合、ネットワークインタフェース１０５は省略することが可能である。

　以上のように、図５に示される、音声入力部１、音声認識部２、入力受付判定部３、意図理解部４、対話管理部５、音声生成部６、音声出力部７、音声出力情報生成部８の各機能は、メモリ１０１、プロセッサ１０２、及び記録媒体１０３で実現することができる。

　なお、音声対話システム１０００を実行するプログラムは、ソフトウエアプログラムを実行するコンピュータ内部の記憶装置に記憶していてもよいし、ＣＤ－ＲＯＭあるいはフラッシュメモリ等のコンピュータで読み取り可能な外部記憶媒体にて配布される形式で保持され、コンピュータ起動時に読み込んで動作させてもよい。また、ＬＡＮ等の無線または有線ネットワークを通じて他のコンピュータからプログラムを取得することも可能である。

　上記したように、音声入出力部２００と音声対話管理部３００とが独立した構成の場合、音声入出力部が出力する音声データと、音声対話管理部が受信する音声データの規格、例えば、サンプリング周波数が異なることが多い。音声入出力部と音声対話管理部とを相互接続するためには、両者が送受信する音声データのサンプリング周波数を同一にする必要があり、サンプリング周波数変換に伴う音声データの時間遅延が生じるが、この実施の形態２の構成を為すことで、システム発話の時間遅延が生じても、入力受付判定部３は音声出力情報Ｄ８を用いることで、システム発話完了時刻（システム発話の出力完了タイミング）を正確に検出することが可能となる。

　以上のように、この実施の形態２では、音声出力情報生成部が、システム発話を出力中か否かを示す情報である音声出力情報を生成し、入力受付判定部は、受け取った音声出力情報に基づいて、ユーザ発話を受け付けるか否かを判定するように構成したので、ユーザＵが最後まで発話内容を聞く必要がある、システム発話に対する音声入力について、入力受付判定部がシステム発話完了のタイミングを正確に把握することが可能となる。

　すなわち、この実施の形態２の構成を為すことにより、入力受付判定部は、ユーザが実際に聞いた応答音声と、音声生成部が生成した応答音声との時間差がある場合であってもその影響を吸収し、システム発話完了のタイミングを正確に把握することが可能となる。言い換えれば、音声対話管理部と音声入出力部が別の独立した構成で、応答音声の伝送遅延がある音声対話システムにおいても、音声対話システムの応答音声の出力完了時刻（システム発話の出力完了タイミング）を正確に検出することができる。その結果、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システムのユーザビリティが向上する効果を有する。

　また、音声出力情報生成部が、システム発話完了のタイミングの情報を音声出力情報として出力するように構成したので、入力受付判定部で応答音声を受信する必要は無くなり、入力受付判定部にて改めて応答音声を分析して発話時間を算出する場合と比べ、応答音声データ分析のための処理量が削減できるという効果も有する。

　なお、この実施の形態２では、音声入出力部２００と音声対話管理部３００とが独立した構成について説明したが、これに限ることは無く、音声入出力部２００と音声対話管理部３００とを同じシステム内で動作させることも可能であり、独立した構成の場合と同様の効果を奏する。

実施の形態３．
《３－１》構成
　上記した実施の形態１では、音声出力部７が生成する音声出力状況Ｄ７のみから応答音声の出力開始時刻、あるいは出力完了時刻を検出していたが、これに限ることはなく、出力音声Ｄ６を併せて分析して、応答音声の出力開始時刻あるいは出力完了時刻を検出することも可能であり、これを実施の形態３として説明する。

　実施の形態３における音声対話システムについて図７を用いて説明する。図７は実施の形態３を示す音声対話システムのブロック構成図である。図７中、図１と同一符号を付したものは同一または相当部分を示す。またそれらの構成は実施の形態１で示したのと同等であるので説明を省略する。

　音声生成部６は、応答内容情報Ｄ５を入力とし、応答音声を生成し出力音声Ｄ６としてネットワークＮＷへ出力する。また、出力音声Ｄ６の時間長を、例えば、音声データのサイズから算出し、得られた時間長を音声長情報Ｄ９として出力する。

　音声出力部７は、音声生成部６からネットワークＮＷを通じて得られた出力音声Ｄ６を入力し、スピーカ（図示せず）等の音声報知装置により音声対話システム１０００からの応答音声をユーザＵへ出力すると共に、音声出力状況Ｄ７を音声出力情報生成部８へ出力する。

　また、音声出力部７は、音声生成部６からネットワークＮＷを通じて得られた音声長情報Ｄ９を入力とし、ディスプレイ（図示せず）等の情報提示装置を用いて、出力音声Ｄ６の時間長に関する情報、例えば、応答音声出力完了までの残り時間をテキスト表示することで、ユーザＵへ提示することも可能である。ユーザＵへ出力音声Ｄ６の時間長に関する情報をユーザＵに提示することで、ユーザＵは自身の発話タイミングを図ることが可能となり、音声対話システムのユーザビリティが向上する。

　あるいは、ランプ等の発光装置を用いて、ランプの点滅周期の速度によってユーザＵへ発話タイミングを提示してもよい。例えば、応答音声出力開始時はランプを全点灯し、応答音声出力完了までの残り時間が少なくなるにしたがって点滅周期を早くし、ランプが消灯した時点で応答音声出力完了とすることで、ユーザＵへ発話タイミングを提示しても良い。ユーザＵへ出力音声Ｄ６の時間長に関する情報をユーザＵに提示することで、ユーザＵは自身の発話タイミングを図ることが可能となり、音声対話システムのユーザビリティが向上する上、ディスプレイよりも簡易な情報提示装置でユーザＵに発話タイミングを通知することができるので、装置コストを削減することができる。

　音声出力情報生成部８は、ネットワークＮＷを通じて得られた音声出力状況Ｄ７から応答音声の音声出力開始時刻を取得する。取得した応答音声の音声出力開始時刻に、音声長情報Ｄ９の時間長を加算した時間を応答音声の音声出力完了時刻とし、音声出力開始時刻及び音声出力完了時刻を音声出力情報Ｄ８として出力する。

　また、音声出力情報生成部８では、音声出力状況Ｄ７の応答音声の音声出力完了時刻と音声長情報Ｄ９により音声出力状況Ｄ７の補正を行うことも可能である。

　ここで、音声長情報Ｄ９による音声出力状況Ｄ７の補正とは、例えば、音声出力状況Ｄ７に記録されている応答音声の出力完了時刻と、音声長情報Ｄ９に記録されている音声長（すなわち、出力信号の出力完了時刻）との時間のずれを所定の時間毎に測定し、測定された時間のずれに基づいてリアルタイムに補正することである。このように、音声長情報Ｄ９の出力完了時刻の情報に基づいて、音声出力状況Ｄ７の出力完了時刻を所定時間毎にリアルタイムに補正することで、ネットワークＮＷの輻輳あるいは再送によって生じる送出した応答音声のデータ長変動、すなわち伝送の“ゆらぎ”の影響を抑制することができ、音声対話システムの応答音声の出力完了時刻を正確に検出することができる。

　また、音声出力状況Ｄ７がネットワークＮＷの影響で受信が不可能である場合、あるいは、データ伝送誤りにより応答音声の出力完了時刻データが壊れるなどした場合には、音声長情報Ｄ９から得られる音声出力完了時刻を、音声出力状況Ｄ７の音声出力完了時刻に置き換える補正も可能であり、音声出力状況Ｄ７が得られない場合でも音声対話システムの応答音声の出力完了時刻を正確に検出することができる。

《３－２》処理動作
　続いて、実施の形態３の音声対話システムの処理動作について図８を用いて説明する。図８は、本実施の形態３を示す音声対話システム１０００の処理の流れを示すフローチャートである。なお、以下の各ステップにおける「部」を「工程」と読み替えてもよい。ステップＳＴ１からステップＳＴ６までの動作は、実施の形態１と同様であるので説明を省略する。

　ステップＳＴ９で、音声生成部６は、出力音声Ｄ６の音声データの時間長を算出し、音声長情報Ｄ９として音声出力情報生成部８へ出力する（ステップＳＴ９）。この時、音声データの時間長は生成された音声データのサイズとサンプリング周波数等の音声フォーマット、ファイル形式から算出することが可能である。また、音声合成方法により出力音声Ｄ６の音声データを生成する場合、音声合成方法が指定する合成音声継続時間長を音声長情報Ｄ９とすれば良い。

　また、音声合成方法が、出力音声Ｄ６の音声データ末尾の無音区間（無音時間長）を取得可能な場合、音声データ末尾の無音時間長を削除した時間長を音声長情報Ｄ９としても良い。また、音声データ末尾において、例えば、所定の閾値以下の振幅値となった場合に無音区間と見なし、無音区間を削除した時間長を音声長情報Ｄ９としても良い。なお、無音区間を判定する方法は、所定の閾値以下の振幅値により判断する方法の他、公知の無音区間判定方法を用いることができる。

　また、音声合成方法が、予め用意された音声データを２つ以上連結して出力する場合には、連結する音声データの時間長を合算した値を音声長情報Ｄ９とすれば良い。更に、音声長情報Ｄ９は、音声生成が完了する前に算出できる場合には、その時点で出力するようにしても良い。その場合には、音声生成と音声出力を並列に処理するような構成において、遅延なく音声長情報Ｄ９を音声出力情報生成部８へ出力することが可能である。

　ステップＳＴ１０で、音声出力部７は、生成した出力音声Ｄ６をシステム発話としてユーザＵへ報知する（ステップＳＴ１０）。また、音声出力部７は応答音声の音声データの送出が完了した時点で、システム発話である応答音声の音声出力完了時刻あるいは音声出力完了時刻を示す情報である音声出力状況Ｄ７を、ネットワークＮＷを通じて音声出力情報生成部８に出力する（ステップＳＴ１０）。

　ステップＳＴ１１で、音声出力情報生成部８は、ネットワークＮＷを通じて得られた音声出力状況Ｄ７から応答音声の音声出力開始時刻を取得する。取得した応答音声の音声出力開始時刻に、音声長情報Ｄ９の時間長を加算した時間を応答音声の音声出力完了時刻とし、音声出力開始時刻及び音声出力完了時刻を含むタイミングを音声出力情報Ｄ８として出力する（ステップＳＴ１１）。

　この実施の形態３では、音声生成部６が音声長情報Ｄ９を生成するように構成したが、対話管理部５が所望の音声長情報Ｄ９を生成し、音声生成部６は、生成された音声長情報Ｄ９と同一の音声長となるように出力音声Ｄ６を生成するようにしても良い。この場合、音声生成部６は話速やポーズ長を増減させることで音声長を調整すれば良い。その他、公知の波形変換方法により音声長を調整しても良い。

　また、音声出力情報生成部８は、音声長情報Ｄ９を対話管理部５から直接入力するようにしても良い。

　以上のように、この実施の形態３では、音声出力情報生成部が、ネットワークＮＷを通じて得られた音声出力状況と、音声生成部が算出した音声長情報とを入力とし、音声出力状況の情報を音声長情報により補正を行うことで、ネットワークＮＷあるいはデータ伝送誤りの影響があっても、音声対話システムの応答音声の出力完了時刻（システム発話の主力完了タイミング）を正確に検出することができる。その結果、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システムのユーザビリティが向上する効果を有する。

　また、この実施の形態３では、応答音声出力完了後に音声出力情報を生成する実施の形態１の構成と比べて、実際に応答音声出力が完了してからの遅延が発生することを抑制できるので、音声対話システムの応答音声の出力完了時刻を更に正確に検出することができる顕著な効果を有する。

　また、この実施の形態３では、音声生成部において、末尾の無音時間長を削除した時間長を音声長情報とするように構成したので、音声データ列は存在するがユーザＵには聴こえない末尾の時間はシステム発話が出力完了済みと見なすことができる。したがって、ユーザＵの聴感に近い音声出力情報に従って入力受付判定を行うことが可能となる。よって、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システムのユーザビリティが更に向上する効果を奏する。

　また、この実施の形態３では、音声出力部が、音声生成部から音声長情報を入力とし、ディスプレイ等により出力音声の時間長に関する情報をユーザＵへ提示するように構成したので、ユーザＵは自身の発話タイミングを図ることができ、入力受付判定部は、ユーザＵがシステム発話の音声出力の残り時間を把握していることを前提とした入力受付判定を行うことが可能となる。よって、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システムのユーザビリティが更に向上する効果を奏する。

　また、この実施の形態３では、音声生成部が、対話管理部において設定した音声長情報に従って出力音声を生成するように構成したので、システム発話の音声長を考慮した入力受付判定を行うことが可能となる。よって、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システムのユーザビリティが更に向上する効果を奏する。

実施の形態４．
《４－１》構成
　上記した実施の形態１の別の構成例として、入力受付判定部３は、音声出力部７に対して応答音声の出力状況を確認するための信号を出力し、任意のタイミングで応答音声の出力状況を確認できるように構成することも可能であり、これを実施の形態４として説明する。

　実施の形態４における音声対話システムについて図９を用いて説明する。図９は実施の形態４を示す音声対話システムのブロック構成図である。図９中、図１と同一符号を付したものは同一または相当部分を示す。またそれらの構成は実施の形態１で示したのと同等であるので説明を省略する。

　入力受付判定部３は、音声認識結果Ｄ２、及び音声出力情報Ｄ８を入力として、ユーザＵが発話した音声の入力を受け付けるかを判定し、入力を受け付ける場合に受理した音声認識結果Ｄ３を出力する。また、音声出力部７に対し、応答音声の出力状況を問い合わせるための信号である、出力状況確認命令Ｄ１０を出力する。

　音声出力部７は、出力音声Ｄ６を入力とし、ユーザＵに対し応答音声出力を行うとともに、入力受付判定部３からの出力状況確認命令Ｄ１０に応じて音声出力状況Ｄ７を出力する。

《４－２》処理動作
　続いて、実施の形態４の音声対話システムの処理動作について図１０を用いて説明する。図１０は、本実施の形態４を示す音声対話システム１０００の処理の流れを示すフローチャートである。なお、以下の各ステップにおける「部」を「工程」と読み替えてもよい。ステップＳＴ１からステップＳＴ２までの動作は、実施の形態１と同様であるので説明を省略する。

　ステップＳＴ１２で、入力受付判定部３は、ユーザＵの発話開始を判断し、音声出力部７に対して出力状況確認命令Ｄ１０を出力する（ステップＳＴ１２）。

　ステップＳＴ１３で、音声出力部７は、出力状況確認命令Ｄ１０を受信し、現在音声出力中であるか、音声出力完了済みかの情報を音声出力状況Ｄ７としてネットワークＮＷを通じて音声出力情報生成部８へ出力する（ステップＳＴ１３）。

　なお、音声出力部７が、出力状況確認命令Ｄ１０に対し音声出力中か否かを示す音声出力状況Ｄ７を出力するようにしたが、出力状況確認命令Ｄ１０を受信した時点以降の、初めて応答音声出力が完了状態になっている時点で、音声出力が完了した旨を示す音声出力状況Ｄ７を生成するようにしても良く、情報伝送のための処理量を更に削減可能である。

　ステップＳＴ１４で、音声出力情報生成部８は、入力された音声出力状況Ｄ７から音声出力情報Ｄ８を生成し、入力受付判定部３へ出力する（ステップＳＴ１４）。

　続くステップＳＴ３からステップＳＴ６の処理は、実施の形態１と同様であるので説明を省略する。

　ステップＳＴ１５で、音声出力部７は、生成した出力音声Ｄ６をシステム発話としてユーザＵへ報知する（ステップＳＴ１５）。

　以上のように、本実施の形態４では、入力受付判定部は、音声出力部に対し出力状況確認命令を出力し、任意のタイミングで応答音声の出力状況を確認できるように構成したので、入力受付判定部は、ユーザ発話の受付判定処理が必要な時点で、応答音声出力状況に関する情報を即座に入手をすることが可能となるので、音声認識のバージインの受付判定精度を改善することが可能となり、音声対話システムのユーザビリティが更に向上する効果を奏する。

　また、この実施の形態４では、音声出力部が、応答音声出力完了時刻を送出する必要が無くなるので、情報伝送等の処理量を削減できる更なる副次効果も奏する。

　上記した実施の形態のそれぞれにおいて、入力音声のサンプリング周波数を１６ｋＨｚとして用いたが、これに限ることは無く、例えば、サンプリング周波数２２ｋＨｚなどの異なるサンプリング周波数の音声信号を用いてもよく、上述した各実施の形態のそれぞれにおいて同様の効果を奏する。

　上記した実施の形態のそれぞれにおいて、ユーザ発話及びシステム発話の言語に日本語を用いて動作を例示したが、本開示に係る音声対話システムは日本語に限らず適用可能であり、その場合は適用する言語に対応した音声認識方法、意図理解方法、及び対話処理方法を用いればよい。

　上記以外にも、本開示はその開示の範囲内において、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。

　本開示に係る音声対話システムは、例えば、商品配送を受け付けるコールセンタの自動音声応答システムに用いられるのに適している。例えば、実施の形態１に係る音声対話システム１０００において、音声入出力部２００が、ユーザＵに対面して設置されているスマートスピーカの音声入出力装置に内蔵され、また、音声対話管理部３００が、ユーザＵと離れた位置にあるデータセンタのサーバ装置に内蔵されているとする。

　ユーザＵが、例えば、購入した商品の配送手配をスマートスピーカに対して発話（ユーザ発話）すると、音声対話管理部３００は、ユーザ発話の音声認識と意図理解を行い、ユーザＵの意図に対応した応答音声（システム発話）を生成する処理を行い、生成されたシステム発話はネットワークＮＷへ出力される。

　システム発話中にユーザ発話が入力される場合、システム発話開始から発話完了までの区間にユーザが発話していることからその入力を棄却する。そして、システム発話完了後に入力されたユーザ発話の入力を受け付けるように動作する。この動作により、音声対話システムがユーザＵの発話途中に意図を理解し、次の対話に進んでしまった場合にも、前の質問に対するユーザＵの発話による誤認識を防止することができるので、ユーザＵに対して適切な応答音声出力とユーザ発話受付ができるので、更に機能が向上した自動音声応答システムとして利用することができる。

１　音声入力部、２　音声認識部、３　入力受付判定部、４　意図理解部、５　対話管理部、６　音声生成部、７　音声出力部、８　音声出力情報生成部、
１０１、１０１Ａ、１０１Ｂ　メモリ、
１０２、１０２Ａ、１０２Ｂ　プロセッサ、
１０３、１０３Ａ、１０３Ｂ　記録媒体、
１０４　音響インタフェース、
１０５、１０５Ａ、１０５Ｂ　ネットワークインタフェース、
１０６　テキストインタフェース、
１０７　表示インタフェース、
１０８、１０８Ａ、１０８Ｂ　信号路、
１１０、１１０Ａ、１１０Ｂ　ＣＰＵ、
２００　音声入出力部、３００　音声対話管理部、１０００　音声対話システム

Claims

　音声入出力部と、音声対話管理部とを有し、
前記音声対話管理部により生成される応答音声が、ユーザに対して遅延して出力される音声対話システムであって、
　前記音声入出力部は、
前記ユーザの発話音声を取得する音声入力部と、
前記応答音声を前記ユーザへ出力すると共に、前記応答音声の音声出力状況を前記音声対話管理部へ出力する音声出力部とを備え、
　前記音声対話管理部は、
前記ユーザの発話音声を音声認識し、音声認識結果を出力する音声認識部と、
前記音声認識結果から前記ユーザの発話意図を推定して意図理解結果を出力する意図理解部と、
前記意図理解結果より、前記ユーザへの応答内容情報を出力する対話管理部と、
前記応答内容情報に基づいて、前記応答音声の音声信号を生成して前記音声入出力部へ出力する音声生成部と、
前記音声出力状況から、前記応答音声を音声出力中か否かを示す情報である音声出力情報を生成する音声出力情報生成部と、
前記音声出力情報を用いて、前記意図理解部への入力受付可否を判定する入力受付判定部とを備える音声対話システム。
　前記音声出力情報は、少なくとも前記応答音声の出力開始タイミング及び出力完了タイミングを含むことを特徴とする請求項１に記載の音声対話システム。
　前記音声生成部が生成する前記音声信号の音声長情報により、前記応答音声の前記出力完了時刻の情報を補正することを特徴とする、請求項１または請求項２に記載の音声対話システム。
　前記入力受付判定部が、前記音声出力部に対し、前記応答音声の出力状況を問い合わせるための信号を出力し、前記応答音声の出力状況を確認可能とすることを特徴とする、請求項１～３のいずれか１項に記載の音声対話システム。
　前記音声出力部が、前記ユーザに対し、音声発話タイミングを視認可能なように提示することを特徴とする、請求項３に記載の音声対話システム。
　ユーザの発話音声を音声認識し、音声認識結果を出力する音声認識部と、
前記音声認識結果から前記ユーザの発話意図を推定して意図理解結果を出力する意図理解部と、
前記意図理解結果より、前記ユーザへの応答内容情報を出力する対話管理部と、
前記応答内容情報に基づいて、前記応答音声の音声信号を生成して出力する音声生成部と、
前記応答音声の音声信号を前記ユーザに出力している状況である音声出力状況を入力し、前記応答音声を音声出力中か否かを示す情報である音声出力情報を生成する音声出力情報生成部と、
前記音声出力情報を用いて、前記意図理解部への入力受付可否を判定する入力受付判定部とを備える音声対話管理装置。
　音声入出力ステップと、音声対話管理ステップとを有し、
前記音声対話管理ステップにより生成される応答音声が、ユーザに対して遅延して出力される音声対話方法であって、
　前記音声入出力ステップは、
前記ユーザの発話音声を取得する音声入力ステップと、
前記応答音声を前記ユーザへ出力すると共に、前記応答音声の音声出力状況を前記音声対話管理ステップへ出力する音声出力ステップとを備え、
　前記音声対話管理ステップは、
前記ユーザの発話音声を音声認識し、音声認識結果を出力する音声認識ステップと、
前記音声認識結果から前記ユーザの発話意図を推定して意図理解結果を出力する意図理解ステップと、
前記意図理解結果より、前記ユーザへの応答内容情報を出力する対話管理ステップと、
前記応答内容情報に基づいて、前記応答音声の音声信号を生成して前記音声入出力ステップへ出力する音声生成ステップと、
前記音声出力状況から、前記応答音声を音声出力中か否かを示す情報である音声出力情報を生成する音声出力情報生成ステップと、
前記音声出力情報を用いて、前記意図理解ステップへの入力受付可否を判定する入力受付判定ステップとを備える音声対話方法。
　前記音声出力情報は、少なくとも前記応答音声の出力開始タイミング及び出力完了タイミングを含むことを特徴とする請求項７に記載の音声対話方法。
　前記音声生成ステップが生成する前記音声信号の音声長情報により、前記応答音声の前記出力完了時刻の情報を補正することを特徴とする、請求項７または請求項８に記載の音声対話方法。
　前記入力受付判定ステップが、前記音声出力ステップに対し、前記応答音声の出力状況を問い合わせるための信号を出力し、前記応答音声の出力状況を確認可能とすることを特徴とする、請求項７～９のいずれか１項に記載の音声対話方法。
　前記音声出力ステップが、前記ユーザに対し、音声発話タイミングを視認可能なように提示することを特徴とする、請求項９に記載の音声対話方法。
　ユーザの発話音声を音声認識し、音声認識結果を出力する音声認識ステップと、
前記音声認識結果から前記ユーザの発話意図を推定して意図理解結果を出力する意図理解ステップと、
前記意図理解結果より、前記ユーザへの応答内容情報を出力する対話管理ステップと、
前記応答内容情報に基づいて、前記応答音声の音声信号を生成して出力する音声生成ステップと、
前記応答音声の音声信号を前記ユーザに出力している状況である音声出力状況を入力し、前記応答音声を音声出力中か否かを示す情報である音声出力情報を生成する音声出力情報生成ステップと、
前記音声出力情報を用いて、前記意図理解部への入力受付可否を判定する入力受付判定ステップとを備える音声対話管理方法。