JPWO2019058453A1

JPWO2019058453A1 - 音声対話制御装置および音声対話制御方法

Info

Publication number: JPWO2019058453A1
Application number: JP2019542865A
Authority: JP
Inventors: 昭男堀井; 岡登　洋平; 洋平岡登
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2019-12-12
Anticipated expiration: 2037-09-20
Also published as: JP6851491B2; WO2019058453A1

Abstract

第１音声の後に入力される第２音声に対しシステムが適切に応答できるよう対話制御する音声対話制御装置の提供を目的とする。本発明に係る音声対話制御装置は、ユーザから入力される音声に対する応答をシステムからユーザに提示させるための対話制御を行う音声対話制御装置であって、入力される一続きの音声の音声区間を検出する音声区間検出部と、音声区間内の音声を音声認識する音声認識部と、音声の音声認識結果に対応する応答を生成する応答生成部と、音声区間検出部と音声認識部と応答生成部とを制御する対話制御部と、を備える。対話制御部は、一続きの第１音声に対する第１応答がシステムからユーザに提示されるまでの処理を含む第１音声に対する処理が終了していなくても、第１音声の後に入力される一続きの第２音声に対する第２応答を生成可能とするために第２音声をなす第２音声区間を音声区間検出部に検出させる。

Description

本発明は、システムとユーザとの対話によりユーザがシステムに対し操作を行うに際し、ユーザから入力される音声に対応する応答をシステムに提示させる音声対話制御装置および音声対話制御方法に関する。

音声認識機能を有するシステムは、ユーザから発話される音声を入力し、その音声に対応する応答を出力する。特許文献１には、システムが音声を出力中に、ユーザから割込音声が入力された場合、出力中の音声の重要度に応じて、音声出力を継続する、もしくは、一時停止して、割込音声に対する処理を実行する音声対話制御方法が提案されている。

特開２００４−３２５８４８号公報

しかし、特許文献１に記載のシステムは、特定のタイミングにおいて、例えば、第１音声の終端検出直後、すなわち第１音声取り込み終了直後は、後続の第２音声を取り込むことができない。ユーザがそのような特定のタイミングで発話した場合、システムとユーザとの間で齟齬が生じ、システムは不適当な応答を行う場合がある。

ユーザが第１音声につづいて複数の発話を行った場合でも、システムはそれらの発話をとりこぼさずに適切に入力し、適切に応答する必要がある。

本発明は、以上のような課題を解決するためになされたものであり、第１音声の後に入力される第２音声に対しシステムが適切に応答できるよう対話制御する音声対話制御装置の提供を目的とする。

本発明に係る音声対話制御装置は、ユーザとシステムとの対話によりユーザがシステムに対し操作を行うに際し、ユーザから入力される音声に対する応答をシステムからユーザに提示させるための対話制御を行う音声対話制御装置であって、入力される一続きの音声をなす始端から終端までの音声区間を検出する音声区間検出部と、音声区間内の音声を音声認識する音声認識部と、音声の音声認識結果に対応する応答であって、システムからユーザに提示させるべき応答を生成する応答生成部と、音声区間検出部と音声認識部と応答生成部とを制御する対話制御部と、を備える。対話制御部は、音声として入力される一続きの第１音声をなす第１音声区間が検出されてから第１音声の音声認識結果に対応する第１応答がシステムからユーザに提示されるまでの処理を含む第１音声に対する処理が終了していなくても、第１音声の後に音声として入力される一続きの第２音声に対する第２応答を生成可能とするために第２音声をなす第２音声区間を音声区間検出部に検出させる。

本発明によれば、第１音声の後に入力される第２音声に対しシステムが適切に応答できるよう対話制御する音声対話制御装置の提供が可能である。

本発明の目的、特徴、局面、および利点は、以下の詳細な説明と添付図面とによって、より明白になる。

実施の形態１における音声対話制御装置およびシステムの構成を示すブロック図である。音声対話制御装置が含む処理回路の一例を示す図である。音声対話制御装置が含む処理回路の別の一例を示す図である。実施の形態１における音声対話制御装置の動作および音声対話制御方法の一例を示すシーケンスチャートである。実施の形態１における音声対話制御装置の動作および音声対話制御方法の一例を示すフローチャートである。実施の形態２における音声対話制御装置およびシステムの構成を示すブロック図である。実施の形態２におけるシステム応答データベースの構成の一例を示す図である。実施の形態２における音声対話制御装置の動作および音声対話制御方法の一例を示すシーケンスチャートである。実施の形態２における音声対話制御装置の動作および音声対話制御方法の一例を示すフローチャートである。実施の形態３における音声対話制御装置およびシステムの構成を示すブロック図である。実施の形態３における音声対話制御装置の動作および音声対話制御方法の一例を示すシーケンスチャートである。実施の形態３における音声対話制御装置の動作および音声対話制御方法の一例を示すフローチャートである。実施の形態４における音声対話制御装置およびシステムの構成を示すブロック図である。実施の形態４における第１辞書データベースの構成の一例を示す図である。実施の形態４における第２辞書データベースの構成の一例を示す図である。実施の形態４におけるシステム応答データベースの構成の一例を示す図である。実施の形態４における音声対話制御装置の動作および音声対話制御方法の一例を示すシーケンスチャートである。実施の形態４における音声対話制御装置の動作および音声対話制御方法の一例を示すフローチャートである。実施の形態５における音声対話制御装置およびシステムの構成を示すブロック図である。実施の形態５における音声対話制御装置の動作および音声対話制御方法の一例を示すフローチャートである。実施の形態６における音声対話制御装置の動作および音声対話制御方法の一例を示すフローチャートである。実施の形態７における車両に搭載された音声対話制御装置の構成の一例を示すブロック図である。実施の形態７におけるサーバに設けられる音声対話制御装置の構成の一例を示すブロック図である。

本明細書では、ユーザから入力される音声に対応する応答をシステムからユーザに提示させるための対話制御を行う音声対話制御装置の実施の形態を説明する。

＜実施の形態１＞
実施の形態１における音声対話制御装置および音声対話制御方法を説明する。

（構成）
図１は、実施の形態１における音声対話制御装置１００およびシステム２００の構成を示すブロック図である。

システム２００は、システム２００の操作を行うためにユーザから発話された音声を入力し、その音声に対する応答をユーザに提示する。システム２００は、音声入力装置２１、音声対話制御装置１００および応答提示装置２２を含む。システム２００は、例えば、ナビゲーションシステム、オーディオシステム、車両の運転に関連する装置を制御する制御システム、運転環境を制御する制御システムなどである。

音声入力装置２１は、ユーザがシステム２００に対し操作を行うためのインターフェースである。音声入力装置２１は、システム２００に対し操作を行うためにユーザが発話する音声を入力し、音声対話制御装置１００に出力する。音声入力装置２１は、例えばマイクである。

音声対話制御装置１００は、音声入力装置２１から音声を入力し、その音声に対応する応答をシステム２００からユーザに提示させるための対話制御を行う。

応答提示装置２２は、音声対話制御装置１００によって生成された応答をユーザに提示する。なお、「提示する」とは、生成された応答に従って応答提示装置２２が動作することを含む。応答提示装置２２は、音声対話制御装置１００によって生成された応答に従って動作することによりユーザに応答を提示してもよい。例えば、システム２００がナビゲーションシステムである場合、応答提示装置２２は音声出力装置または表示装置である。音声出力装置は、例えば、目的地までの案内情報を音声出力することにより応答を提示する、表示装置は、例えば、目的地までの案内情報を地図とともに表示することにより応答を提示する。または例えば、システム２００がオーディオシステムである場合、応答提示装置２２は音楽再生装置である。音楽再生装置は、音楽を再生することにより応答を提示する。または例えば、システム２００が車両の運転に関連する装置を制御する制御システムである場合、応答提示装置２２は車両の駆動制御装置である。または例えば、システム２００が運転環境を制御する制御システムである場合、応答提示装置２２は、エアコン、照明、ミラー位置調整装置または座席位置調整装置などである。

音声対話制御装置１００は、音声区間検出部１１、音声認識部１２、応答生成部１３および対話制御部１４を含む。

音声区間検出部１１は、入力される一続きの音声を構成する始端から終端までの音声区間を検出する。本実施の形態において、音声区間検出部１１は、一例として、常時、入力される音声を検出している。

音声認識部１２は、音声区間検出部１１にて検出された音声区間内の音声を音声認識する。その音声認識の際、音声認識部１２は、音声区間内の音声を、音響的または言語的に最も確からしい語彙に基づいて認識語彙の選出を行い、音声認識する。音声認識部１２は、例えば、辞書データベース（図示せず）を参照して音声認識する。辞書データベースは音声対話制御装置１００に設けられてもよいし、外部のサーバに設けられてもよい。辞書データベースがサーバに設けられる場合、対話制御装置がサーバと通信することにより、音声認識部１２はその辞書データベースを参照して音声認識する。

応答生成部１３は、音声認識部１２にて音声認識された音声認識結果に対応する応答を生成する。応答生成部１３は、例えば、システム応答データベース（図示せず）を参照して応答を生成する。システム応答データベースは、例えばテーブルであり、音声認識結果に含まれる認識語彙と応答とが互いに対応付けられて格納されている。システム応答データベースは、音声対話制御装置１００に設けられてもよいし、外部のサーバに設けられてもよい。システム応答データベースがサーバに設けられる場合、対話制御装置がサーバと通信することにより、応答生成部１３はそのシステム応答データベースを参照して応答を生成する。応答生成部１３は、その応答を応答提示装置２２に出力する。

対話制御部１４は、音声区間検出部１１、音声認識部１２および応答生成部１３のそれぞれの動作を制御する。対話制御部１４は、システム２００の対話状態をモニタリングしながら、各部を制御する。対話状態とは、音声区間検出部１１にて音声が検出されてから、その音声に対応する応答が生成され、さらにその応答がユーザに提示されるまでのいずれかの時点における状態のことである。例えば、対話制御部１４は、音声区間検出部１１が音声区間の始端または終端を検出した通知に基づき、音声認識部１２の動作を制御する。または対話制御部１４は、音声認識部１２における音声認識が終了した通知に基づき、応答生成部１３における応答の生成の開始を制御したり、音声認識部１２における後続の音声の音声認識の開始を制御したりする。

対話制御部１４が有する具体的な機能の一例は以下の通りである。対話制御部１４は、一続きの第１音声に対する処理と、その第１音声の後に入力される第２音声に対する処理とを制御する。第１音声に対する処理は、第１音声をなす第１音声区間が検出されてから第１応答がシステム２００からユーザに提示されるまでの処理を含む。より詳細には、第１音声に対する処理は、少なくとも、音声認識部１２が第１音声を音声認識する処理および応答生成部１３が第１音声の音声認識結果に対応する第１応答を生成する処理を含む。また、第１音声に対する処理は、第１音声をなす第１音声区間の終端が検出されてから第１応答が応答提示装置２２に提示され、次に入力される音声をなす音声区間の始端が検出されるまでの処理を含んでもよい。

対話制御部１４は、第１音声に対する処理が終了していなくても、第２音声に対する第２応答を生成可能とするために第２音声をなす第２音声区間を音声区間検出部１１に検出させる。さらに本実施の形態においては、対話制御部１４は、第２音声区間内の第２音声を音声認識部１２に音声認識させ、第２音声の音声認識結果に対応する第２応答を応答生成部１３に生成させて、システム２００からユーザに提示させる。

（処理回路）
図２は音声対話制御装置１００が備える処理回路５０の一例を示す図である。音声区間検出部１１、音声認識部１２、応答生成部１３、および対話制御部１４の各機能は、処理回路５０により実現される。すなわち、処理回路５０は、音声区間検出部１１と音声認識部１２と応答生成部１３と対話制御部１４と、を含む。

処理回路５０が専用のハードウェアである場合、処理回路５０は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、またはこれらを組み合わせた回路等である。音声区間検出部１１、音声認識部１２、応答生成部１３、および対話制御部１４の各機能は、複数の処理回路により個別に実現されてもよいし、１つの処理回路によりまとめて実現されてもよい。

図３は音声対話制御装置１００が備える処理回路の別の一例を示す図である。処理回路は、プロセッサ５１とメモリ５２とを含む。プロセッサ５１がメモリ５２に格納されるプログラムを実行することにより、音声区間検出部１１、音声認識部１２、応答生成部１３、および対話制御部１４の各機能が実現される。例えば、プログラムとして記述されたソフトウェアまたはファームウェアがプロセッサ５１により実行されることにより各機能が実現される。すなわち、音声対話制御装置１００は、プログラムを格納するメモリ５２と、そのプログラムを実行するプロセッサ５１とを備える。

プログラムには、音声対話制御装置１００が、入力される一続きの音声を構成する始端から終端までの音声区間を検出し、検出された音声区間内の音声を音声認識し、音声認識された音声認識結果に対応する応答を生成し、さらに、それら音声区間の検出、音声認識および応答の生成の各々を制御する機能および動作が記述されている。また、そのプロブラムは、音声対話制御装置１００が、各々の制御を実行する際、第１音声に対する処理が終了していなくても、第１音声の後に入力される一続きの第２音声をなす第２音声区間を検出させる機能および動作が記述されている。さらに、プログラムには、第２音声区間内の第２音声を音声認識させ、第２音声の音声認識結果に対応する第２応答を生成させて、システム２００からユーザに提示させる機能および動作が記述されている。以上のプログラムは、上述した音声区間検出部１１、音声認識部１２、応答生成部１３、および対話制御部１４の手順または方法をコンピュータに実行させるものである。

プロセッサ５１は、例えば、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、ＤＳＰ（Digital Signal Processor）等である。メモリ５２は、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）等の、不揮発性または揮発性の半導体メモリである。または、メモリ５２は、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ等、今後使用されるあらゆる記憶媒体であってもよい。

上述した音声区間検出部１１、音声認識部１２、応答生成部１３、および対話制御部１４の各機能は、一部が専用のハードウェアによって実現され、他の一部がソフトウェアまたはファームウェアにより実現されてもよい。このように、処理回路は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせによって、上述の各機能を実現する。

（動作）
次に、音声対話制御装置１００の動作および音声対話制御方法を説明する。図４は、実施の形態１における音声対話制御装置１００の動作および音声対話制御方法の一例を示すシーケンスチャートである。図５は、実施の形態１における音声対話制御装置１００の動作および音声対話制御方法の一例を示すフローチャートである。

図５のフローチャートには図示を省略しているが、まず、対話制御部１４は、音声区間検出部１１を音声受付が可能な待機状態および音声認識部１２を音声認識が可能な待機状態に制御する。この制御は、例えば、ユーザによるシステム２００に対する音声区間検出の受付開始を指示する操作により行われる。または、システム２００の立ち上げ後、対話制御部１４が自動的に音声区間検出部１１を音声受付可能な待機状態に制御してもよい。この制御以降、音声区間検出部１１は、常時、音声の入力をモニタリングする状態、つまり検出可能な状態となる。

ステップＳ１０にて、音声区間検出部１１は、第１音声を入力して第１音声区間の始端を検出する。検出された始端は、音声認識部１２または対話制御部１４に通知される。

ステップＳ２０にて、音声認識部１２は、始端検出の通知に基づき、音声区間検出部１１にて検出された第１音声区間の始端以降の第１音声の音声認識を開始する。

ステップＳ３０にて、音声区間検出部１１は、第１音声区間の終端を検出する。検出された終端は、音声認識部１２または対話制御部１４に通知される。

ステップＳ４０にて、音声認識部１２は、終端検出の通知に基づき、音声区間検出部１１にて検出された第１音声区間の終端までの第１音声の音声認識を終了する。音声認識部１２は、第１音声の音声認識結果を応答生成部１３に出力し、その終了を対話制御部１４に通知する。

ステップＳ５０にて、応答生成部１３は、対話制御部１４からの制御に基づき、第１音声の音声認識結果に対応する第１応答の生成を開始する。

ステップＳ６０にて、音声区間検出部１１は、第１音声の後に入力される第２音声の第２音声区間の始端を検出する。検出された始端は、音声認識部１２または対話制御部１４に通知される。なお、このステップＳ６０および以下のステップＳ７０は、応答生成部１３における第１応答の生成と並行して実行される。

ステップＳ７０にて、音声認識部１２は、始端検出の通知に基づき、音声区間検出部１１にて検出された第２音声区間の始端以降の第２音声の音声認識を開始する。

ステップＳ８０にて、応答生成部１３は、第１応答の生成を完了する。対話制御部１４は、第１応答をシステム２００からユーザに提示させる。つまり、応答提示装置２２は、その第１応答をユーザに提示する。

ステップＳ９０にて、音声区間検出部１１は、第２音声区間の終端を検出する。検出された終端は、音声認識部１２または対話制御部１４に通知される。

ステップＳ１００にて、音声認識部１２は、音声区間検出部１１にて検出された第２音声区間の終端までの第２音声の音声認識を終了する。音声認識部１２は、第２音声の音声認識結果を応答生成部１３に出力し、その終了を対話制御部１４に通知する。

ステップＳ１１０にて、応答生成部１３は、対話制御部１４からの制御に基づき、音声認識部１２から入力する第２音声の音声認識結果に対応する第２応答の生成を開始する。

ステップＳ１２０にて、応答生成部１３は第２応答の生成を完了する。対話制御部１４は、第２応答をシステム２００からユーザに提示させる。つまり、応答提示装置２２は、その第２応答をユーザに提示する。

（効果）
以上をまとめると、実施の形態１における音声対話制御装置１００は、ユーザとシステム２００との対話によりユーザがシステム２００に対し操作を行うに際し、ユーザから入力される音声に対する応答をシステム２００からユーザに提示させるための対話制御を行う音声対話制御装置１００であって、入力される一続きの音声をなす始端から終端までの音声区間を検出する音声区間検出部１１と、音声区間内の音声を音声認識する音声認識部１２と、音声の音声認識結果に対応する応答であって、システム２００からユーザに提示させるべき応答を生成する応答生成部１３と、音声区間検出部１１と音声認識部１２と応答生成部１３とを制御する対話制御部１４と、を備える。対話制御部１４は、音声として入力される一続きの第１音声をなす第１音声区間が検出されてから第１音声の音声認識結果に対応する第１応答がシステム２００からユーザに提示されるまでの処理を含む第１音声に対する処理が終了していなくても、第１音声の後に音声として入力される一続きの第２音声に対する第２応答を生成可能とするために第２音声をなす第２音声区間を音声区間検出部１１に検出させる。

以上の構成により、音声対話制御装置１００は、第１音声の後に入力される第２音声に対しシステムが適切に応答できるよう対話制御することができる。音声対話制御装置１００は、第１音声区間の終端直後に入力される第２音声に対しても漏れなく応答を生成することが可能である。また、本実施の形態において一例として示されてように、音声対話制御装置１００は、常時、音声を入力して音声区間検出を行うため、ユーザが発話する音声の取得ができない時間がなくすことができる。

また、実施の形態１における音声対話制御方法は、ユーザとシステム２００との対話によりユーザがシステム２００に対し操作を行うに際し、ユーザから入力される音声に対する応答をシステム２００からユーザに提示させるための対話制御を行う音声対話制御方法であって、入力される一続きの音声をなす始端から終端までの音声区間を検出し、音声区間内の音声を音声認識し、音声の音声認識結果に対応する応答であって、システム２００からユーザに提示させるべき応答を生成し、音声区間の検出、音声の音声認識、および、応答の生成の各々の制御を実行する。音声対話制御方法は、その各々の制御を実行する際、音声として入力される一続きの第１音声をなす第１音声区間が検出されてから第１音声の音声認識結果に対応する第１応答がシステムからユーザに提示されるまでの処理を含む第１音声に対する処理が終了していなくても、第１音声の後に音声として入力される一続きの第２音声に対する第２応答を生成可能とするために第２音声をなす第２音声区間を検出させる。

このような構成を含む音声対話制御方法によれば、第１音声の後に入力される第２音声に対しシステムが適切に応答できるよう対話制御することができる。この音声対話制御方法によれば、第１音声区間の終端直後に入力される第２音声に対しても漏れなく応答を生成することが可能である。また、この音声対話制御方法によれば、常時、音声を入力して音声区間検出を行うため、ユーザが発話する音声の取得ができない時間がなくすことができる。

＜実施の形態２＞
実施の形態２における音声対話制御装置および音声対話制御方法を説明する。

（構成）
図６は、実施の形態２における音声対話制御装置１０１およびシステム２００の構成を示すブロック図である。システム２００は、実施の形態１に示された構成に加えて、辞書データベース記憶装置２３を含む。

音声対話制御装置１０１の音声認識部１２は、辞書データベース記憶装置２３に記憶されている辞書データベースを参照して、音声認識する。また、音声対話制御装置１０１は、実施の形態１に示された構成に加えて、音声記憶部１５を含む。

音声記憶部１５は、音声区間検出部１１にて検出される音声区間内の音声を記憶する。以下、音声記憶部１５が第２音声区間内の第２音声を記憶する例が示されるが、これに限定されず、音声記憶部１５は第１音声区間の第１音声も記憶してもよい。

対話制御部１４は、音声認識部１２において第１音声の音声認識が終了したことを示す通知に基づき、音声記憶部１５に記憶された第２音声を音声認識部１２に音声認識させ、応答生成部１３に第２音声の音声認識結果に対応する第２応答を生成させる。さらに、対話制御部１４は、応答生成部１３にて第１応答の生成が完了したことを示す通知に基づき、応答生成部１３に第２応答を生成させる。

（システム応答データベース）
本実施の形態において、応答生成部１３は、各音声認識結果に対応する各応答を、システム応答データベースを参照して応答を生成する。図７は、実施の形態２におけるシステム応答データベースの構成の一例を示す図である。システム応答データベースは、音声認識結果に含まれる認識語彙と、音声認識結果に対応する応答とで構成される。また、応答をユーザに提示する応答提示装置２２の構成に応じて、複数の応答が含まれてもよい。

（処理回路）
上記の音声記憶部１５および対話制御部１４の各機能は、例えば、図２に示される処理回路５０により実現される。すなわち処理回路５０は、上記の各機能を有する音声記憶部１５および対話制御部１４を含む。

上記の音声記憶部１５および対話制御部１４の各機能が、図３に示される処理回路により実現される場合、音声記憶部１５の機能は、例えばメモリ５２により実現される。また、メモリ５２に格納されるプログラムには、第２音声区間内の第２音声を記憶させ、第１音声の音声認識が終了したことを示す通知に基づき、メモリ５２に記憶された第２音声を音声認識させ、第２音声の音声認識結果に対応する第２応答を生成させる機能および動作が記述されている。さらに、プログラムには、第１応答の生成が完了したことを示す通知に基づき、第２応答を生成させる機能および動作が記述されている。

（動作）
次に、音声対話制御装置１０１の動作および音声対話制御方法を説明する。図８は、実施の形態２における音声対話制御装置１０１の動作および音声対話制御方法の一例を示すシーケンスチャートである。図９は、実施の形態２における音声対話制御装置１０１の動作および音声対話制御方法の一例を示すフローチャートである。

実施の形態１においては、第２音声が第１応答の生成中に入力された例が示されたが、実施の形態２においては、第２音声が第１音声の音声認識中に入力される例を示す。

ステップＳ１０にて、音声区間検出部１１は、第１音声を入力して第１音声区間の始端を検出する。ここでは、第１音声として、ユーザから発話される「スーパーに行きたい。」が入力される。検出された始端は、音声認識部１２または対話制御部１４に通知する。

ステップＳ２０にて、音声認識部１２は、始端検出の通知に基づき、音声区間検出部１１にて検出された第１音声区間の始端以降の第１音声の音声認識を開始する。ここでは、音声認識部１２は、辞書データベースを参照して第１音声の音声認識を開始する。

ステップＳ３２にて、音声区間検出部１１は、第２音声を入力して第２音声区間の始端を検出する。ここでは、第２音声として、ユーザから発話される「やっぱりコンビニに行きたい。」が入力される。検出された始端は、音声認識部１２または対話制御部１４に通知される。

ステップＳ３４にて、対話制御部１４は、第２音声区間の始端検出の通知に基づき、音声記憶部１５に第２音声の記憶を開始させる。なお、図８において、シーケンスチャートを簡略化するため、この通知に関する動作の図示は省略している。

ステップＳ４０にて、音声認識部１２は、終端検出の通知に基づき、音声区間検出部１１にて検出された第１音声区間の終端までの第１音声の音声認識を終了する。第１音声の音声認識結果には、「スーパー」が認識語彙として含まれる。また、音声認識部１２は、音声認識の終了を対話制御部１４に通知する。対話制御部１４は、その通知に基づき、以下のステップＳ５０とステップＳ６２とステップＳ７０とが実行されるよう制御する。

ステップＳ５０にて、応答生成部１３は、対話制御部１４からの制御に基づき、第１音声の音声認識結果に対応する第１応答の生成を開始する。応答生成部１３は、図７に示されるシステム応答データベースを参照し、第１応答の生成を開始する。

ステップＳ６２にて、音声認識部１２は、対話制御部１４からの制御に基づき、音声記憶部１５から第２音声の読み込みを開始する。本実施の形態において、音声記憶部１５は、第２音声区間内の第２音声を記憶しながら、時間差で、既に記憶された第２音声を音声認識部１２に出力する。また、ステップＳ６２から以下のステップＳ７３までは、応答生成部１３における第１応答の生成と並行して実行される。

ステップＳ７０にて、音声認識部１２は、始端検出の通知に基づき、音声記憶部１５から読み込んだ第２音声区間の始端以降の第２音声の音声認識を開始する。このように、音声認識部１２は、第１音声の音声認識が終了した通知に基づいて、第２音声の音声認識を開始することにより、第１音声の音声認識後に第２音声の音声認識を開始することができる。なお、音声認識部１２は、辞書データベースを参照して第２音声の音声認識を開始する。

ステップＳ７１にて、音声区間検出部１１は、第２音声区間の終端を検出する。検出された終端は、音声認識部１２または対話制御部１４に通知される。

ステップＳ７２にて、音声記憶部１５は、第２音声の記憶を終了する。

ステップＳ７３にて、音声記憶部１５は、音声記憶部１５からの第２音声の読み込みを終了する。

ステップＳ８０にて、応答生成部１３は、第１応答の生成を完了する。ここでは、応答生成部１３は、音声出力用または表示出力用の情報として「スーパーの検索結果を表示します。」を含む第１応答を生成する。対話制御部１４は、第１応答を応答提示装置２２からユーザに提示するよう制御する。例えば、応答提示装置２２がスピーカである場合、スピーカは、第１応答に従い「スーパーの検索結果を表示します。」と音声出力することにより、ユーザに第１応答を提示する。または例えば、応答提示装置２２が表示装置である場合、表示装置は、第１応答に従い「スーパーの検索結果を表示します。」と表示することにより、ユーザに第１応答を提示する。または、応答生成部１３は、スーパーを検索させる制御信号を含む第１応答を生成してもよい。この場合、システム２００に含まれる目的地検索部（図示せず）がその第１応答に基づいてスーパーを検索し、応答提示装置２２がスーパーの検索結果をユーザに提示する。なお、本実施の形態においては、応答生成部１３は、第１応答の生成が完了したことを対話制御部１４に通知する。

ステップＳ１００にて、音声認識部１２は、第２音声区間の終端までの第２音声の音声認識を終了する。第２音声の音声認識結果には、「コンビニ」が認識語彙として含まれる。また、音声認識部１２は、音声認識の終了を対話制御部１４に通知する。

ステップＳ１１０にて、応答生成部１３は、対話制御部１４からの制御に基づき、音声認識部１２から入力する第２音声の音声認識結果に対応する第２応答の生成を開始する。応答生成部１３は、図７に示されるシステム応答データベースを参照し、第２応答の生成を開始する。なお、本実施の形態において、このステップＳ１１０は、ステップＳ９０の後に実行される。すなわち、対話制御部１４は、第１応答の生成が完了した通知に基づき、ステップＳ１１０が実行されるよう制御する。

ステップＳ１２０にて、応答生成部１３は、第２応答の生成を完了する。ここでは、応答生成部１３は、音声出力用または表示出力用の情報として「コンビニの検索結果を表示します。」を含む第２応答を生成する。対話制御部１４は、第２応答を応答提示装置２２からユーザに提示するよう制御する。例えば、応答提示装置２２がスピーカである場合、スピーカは、第２応答に従い「コンビニの検索結果を表示します。」と音声出力することにより、ユーザに第２応答を提示する。または例えば、応答提示装置２２が表示装置である場合、表示装置は、第２応答に従い「コンビニの検索結果を表示します。」と表示することにより、ユーザに第２応答を提示する。または、応答生成部１３は、コンビニを検索させる制御信号を含む第２応答を生成してもよい。この場合、システム２００に含まれる目的地検索部がその第２応答に基づいてコンビニの検索し、応答提示装置２２がコンビニの検索結果をユーザに提示する。

なお、以上の音声対話制御装置１０１の動作において、音声記憶部１５に記憶される音声は第２音声に限定されない。音声記憶部１５は第１音声も記憶してもよい。すなわち、音声対話制御装置１０１は、音声区間検出部１１にて検出される第１音声区間の第１音声を音声記憶部１５に一度記憶してから、一定時間経過後に読み出し、音声認識部１２にて音声認識してもよい。

（効果）
以上をまとめると、実施の形態２における音声対話制御装置１０１は、音声区間検出部１１にて検出される第２音声区間内の第２音声を記憶する音声記憶部１５をさらに備える。対話制御部１４は、音声認識部１２にて第１音声の音声認識が終了したことを示す通知に基づき、音声記憶部１５にて記憶されている第２音声を音声認識部１２に音声認識させ、第２音声の音声認識結果に対応する第２応答を応答生成部１３に生成させる。

このような構成により、音声対話制御装置１０１は、第１音声の処理中、例えば、音声認識中または応答生成中においても、第２音声の取得が可能である。すなわち、音声対話制御装置１０１は、任意のタイミングでユーザが発話する複数の音声の各々に対して適切な応答を生成することが可能である。

また、実施の形態２における音声対話制御装置１０１の対話制御部１４は、応答生成部１３にて第１応答の生成が完了したことを示す通知に基づき、音声認識部１２にて音声認識される第２音声区間内の第２音声の音声認識結果に対応する第２応答を応答生成部１３に生成させる。

このような構成により、音声対話制御装置１０１は、第１音声に対する第１応答および第２音声に対する第２応答の両方を順にユーザに提示することができる。例えば、システムが第１音声「スーパーに行きたい。」を入力してその処理を開始した直後に、ユーザが第２音声「やっぱりコンビニに行きたい。」と発話した場合、従来のシステムは第２音声を音声認識できず、スーパーの検索結果を提示する応答のみを行うことが考えられる。しかし、本実施の形態における音声対話制御装置１０１は、第１音声および第２音声の両方を入力して、それぞれスーパーの検索結果およびコンビニの検索結果を提示することができる。

＜実施の形態３＞
実施の形態３における音声対話制御装置および音声対話制御方法を説明する。

（構成）
図１０は、実施の形態３における音声対話制御装置１０２およびシステム２００の構成を示すブロック図である。音声対話制御装置１０２は、実施の形態２に示された構成に加えて、対話状態判定部１６を含む。

対話状態判定部１６は、音声認識部１２にて音声認識される第２音声の音声認識結果が第１音声の音声認識結果を更新するものであるか否かを判定する。

対話制御部１４は、対話状態判定部１６の判定結果に基づき、第１音声に対する処理を途中で終了させかつ応答生成部１３に第２応答を生成させる。

（処理回路）
上記の対話状態判定部１６および対話制御部１４の各機能は、例えば、図２に示される処理回路５０により実現される。すなわち処理回路５０は、上記の各機能を有する対話状態判定部１６および対話制御部１４を含む。

また、上記の対話状態判定部１６および対話制御部１４の各機能が、図３に示される処理回路により実現される場合、メモリ５２に格納されるプログラムには、音声認識される第２音声の音声認識結果が第１音声の音声認識結果を更新するものであるか否かを判定する機能および動作が記述されている。さらに、プログラムには、その判定結果に基づき、第１音声に対する処理を途中で終了させるとともに、第２応答を生成させる機能および動作が記述されている。

（動作）
次に、音声対話制御装置１０２の動作および音声対話制御方法を説明する。図１１は、実施の形態３における音声対話制御装置１０２の動作および音声対話制御方法の一例を示すシーケンスチャートである。図１２は、実施の形態３における音声対話制御装置１０２の動作および音声対話制御方法の一例を示すフローチャートである。なお、以下の説明において、音声記憶部１５の動作説明は省略するが、その動作は実施の形態２と同様である。

ステップＳ１０にて、音声区間検出部１１は、第１音声を入力して第１音声区間の始端を検出する。ここでは、第１音声として、ユーザから発話される「コンビニに行きたい。」が入力される。検出された始端は、音声認識部１２または対話制御部１４に通知される。

ステップＳ２０にて、音声認識部１２は、始端検出の通知に基づき、音声区間検出部１１にて検出された第１音声区間の始端以降の第１音声の音声認識を開始する。音声認識部１２は、辞書データベースを参照して音声認識する。

ステップＳ４０にて、音声認識部１２は、終端検出の通知に基づき、音声区間検出部１１にて検出された第１音声区間の終端までの第１音声の音声認識を終了する。第１音声の音声認識結果には、「コンビニ」が認識語彙として含まれる。また、音声認識部１２は、音声認識の終了を対話制御部１４に通知する。

ステップＳ６０にて、音声区間検出部１１は、第１音声の後に入力される第２音声の第２音声区間の始端を検出する。ここでは、第２音声として、ユーザから発話される「やっぱりレストランに行きたい。」が入力される。検出された始端は、音声認識部１２または対話制御部１４に通知される。

ステップＳ７０にて、音声認識部１２は、音声区間検出部１１にて検出された第２音声区間の始端以降の第２音声の音声認識を開始する。音声認識部１２は、辞書データベース記憶装置２３に記憶された辞書データベースを参照して音声認識する。

ステップＳ１００にて、音声認識部１２は、第２音声区間の終端までの第２音声の音声認識を終了する。第２音声の音声認識結果には、「レストラン」が認識語彙として含まれる。また、音声認識部１２は、音声認識の終了を対話制御部１４に通知する。

ステップＳ１０２にて、対話状態判定部１６は、第２音声の音声認識結果が第１音声の音声認識結果を更新するものであるか否かを判定し、判定結果を対話制御部１４に出力する。本実施の形態において、「レストラン」を含む第２音声の音声認識結果が、「コンビニ」を含む第１音声の音声認識結果を更新するものか否か判定される。更新するものではないと判定された場合、ステップＳ１０４が実行される。更新するものであると判定された場合、ステップＳ１０６が実行される。本実施の形態において、対話状態判定部１６は、「コンビニ」を含む第１音声の音声認識結果が、「レストラン」を含む第２音声の音声認識結果を更新するものと判定する。この判定動作において、対話状態判定部１６は、「コンビニ」および「レストラン」の語彙の並列関係に基づいて更新要否を判定してもよいし、第２音声に含まれる他の語彙、例えば逆説の接続詞「やっぱり」に基づいて更新要否を判定してもよい。

ステップＳ１０２にて更新するものではないと判定された場合、ステップＳ１０４にて、判定結果に基づく対話制御部１４の制御により、応答生成部１３は第１応答の生成を完了し、応答提示装置２２はその第１応答をユーザに提示する。この場合、実施の形態２に示されたステップＳ８０と同様の応答提示がなされる。続いて、図１２に示されるステップＳ１１０以降にて、第２音声に対する応答が応答提示装置２２に提示される。

一方で、ステップＳ１０２にて更新するものであると判定された場合、ステップＳ１０６において、判定結果に基づき、対話制御部１４は第１音声に対する処理を途中で終了させる。

ステップＳ１１０にて、応答生成部１３は、第２音声の音声認識結果に対応する第２応答の生成を開始する。応答生成部１３は、図７に示されるシステム応答データベースを参照し、第２応答の生成を開始する。

ステップＳ１２０にて、応答生成部１３は、第２応答の生成を完了する。ここでは、応答生成部１３は、音声出力用または表示出力用の情報として「レストランの検索結果を表示します。」を含む第２応答を生成する。対話制御部１４は、第２応答を応答提示装置２２からユーザに提示するよう制御する。例えば、応答提示装置２２がスピーカである場合、スピーカは、第２応答に従い「レストランの検索結果を表示します。」と音声出力することにより、ユーザに第２応答を提示する。または例えば、応答提示装置２２が表示装置である場合、表示装置は、第２応答に従い「レストランの検索結果を表示します。」と表示することにより、ユーザに第２応答を提示する。または、応答生成部１３がレストランを検索させる制御信号を含む第２応答を生成してもよい。この場合、システム２００に含まれる目的地検索部がその第２応答に基づいてレストランの検索を開始し、応答提示装置２２がレストランの検索結果を表示する。

第１音声に対する処理が実行されている間に、第１音声とは整合しない第２音声が入力された場合、対話制御部１４は、第１音声に対する処理を途中で中止させ、第２音声に対応する第２応答のみ生成されるよう制御する。それにより、第２応答のみが、応答提示装置２２に提示される。

（効果）
以上をまとめると、本実施の形態３における音声対話制御装置１０２は、音声認識部１２にて音声認識される第２音声区間内の第２音声の音声認識結果が第１音声の音声認識結果を更新するものであるか否かを判定する対話状態判定部１６をさらに備える。対話制御部１４は、対話状態判定部１６の判定結果に基づき、第１音声に対する処理を途中で終了させかつ応答生成部１３に第２応答を生成させる。

このような構成により、音声対話制御装置１０２は、第１音声に基づく操作内容と第２音声に基づく操作内容とが整合しない場合、第１音声に対する処理を途中で終了させ、第２音声に対する応答を提示させることができる結果、ユーザの操作性を高めることができる。例えば、システムが第１音声「コンビニに行きたい。」を入力してその処理を開始した直後に、ユーザが第２音声「やっぱりレストランに行きたい。」と発話した場合、従来のシステムは第２音声を音声認識できず、コンビニの検索結果を提示する応答のみを行うことが考えられる。しかし、本実施の形態３における音声対話制御装置１０２は、第１音声の音声認識結果と第２音声の音声認識結果とに基づき、よりユーザの意図に沿った応答すなわち第２音声に対するレストランの検索結果を実施の形態２における音声対話制御装置１０１よりも早く提示することができる。

＜実施の形態４＞
実施の形態４における音声対話制御装置および音声対話制御方法を説明する。なお、他の実施の形態と同様の構成および動作については説明を省略する。

（構成）
図１３は、実施の形態４における音声対話制御装置１０３およびシステム２００の構成を示すブロック図である。

システム２００の辞書データベース記憶装置２３には、複数の辞書データベースが格納されている。本実施の形態において、辞書データベース記憶装置２３には、第１辞書データベース２４と第２辞書データベース２５とが格納されている。

第１辞書データベース２４は、システム２００の待受状態に対応して準備された辞書データベースである。待受状態とは、例えば、システム２００の音声入力装置２１がユーザによる操作を受付可能な状態、すなわち第１音声の入力を待ち受けている状態である。待受状態においては、システム２００が含む別のユーザインターフェースである表示装置は、例えばメニュー画面を表示している。第２辞書データベース２５は、システム２００が第１音声の音声認識した後の状態に対応し、かつ、第１音声の音声認識結果に含まれる特定語彙に関連する辞書データベースである。

音声認識部１２は、複数の辞書データベースのうちシステム２００の状態に応じた一の辞書データベースを参照して音声認識する。

本実施の形態において、音声認識部１２は、システム２００の状態が待受状態である場合、その待受状態に対応する一の辞書データベースとして第１辞書データベース２４を参照して第１音声を音声認識する。または、システム２００が待受状態である場合、音声認識部１２は、全ての辞書データベースを参照することにより、待受状態に対応する一の辞書データベースとして第１辞書データベース２４を参照して第１音声を音声認識する。図１４は、実施の形態４における第１辞書データベース２４の構成の一例を示す図である。第１辞書データベース２４は、システム２００の状態と認識語彙とを含む。図１４において第１画面とは、メニュー画面等の待受画面である。

また、音声認識部１２は、システム２００の状態が第１音声の音声認識後の状態であり、かつ、第１音声の音声認識結果に特定語彙が含まれる状態である場合、その状態に対応する一の辞書データベースとしてその特定語彙に関連する第２辞書データベース２５を参照して第２音声を音声認識する。例えば、音声認識部１２または対話制御部１４が、第１音声の音声認識後に、第１音声の音声認識結果に特定語彙が含まれるか否かを判定し、特定語彙が含まれると判定した場合には、第２辞書データベース２５を参照して第２音声を音声認識することを選択する。このように、音声認識部１２は、システム２００の状態に応じて音声認識に用いる辞書データベースを切り替えるなどの処理を行う機能を有する。図１５は、実施の形態４における第２辞書データベース２５の構成の一例を示す図である。第２辞書データベース２５は、システム２００の主状態と、システム２００の関連状態と、認識語彙とを含む。

応答生成部１３は、音声の音声認識結果と、その音声の音声認識のために参照された一の辞書データベースの情報とに対応する応答を生成する。例えば、応答生成部１３は、第１音声の音声認識結果と第１音声の音声認識のために参照された第１辞書データベース２４の情報とに対応する第１応答を生成する。または例えば、応答生成部１３は、第２音声の音声認識結果と第２音声の音声認識のために参照された第２辞書データベース２５の情報とに対応する第２応答を生成する。

（システム応答データベース）
応答生成部１３は、音声に対する応答を、システム応答データベースを参照して応答を生成する。図１６は、実施の形態４におけるシステム応答データベースの構成の一例を示す図である。システム応答データベースは、音声認識結果に含まれる認識語彙と、音声認識のために参照された辞書データベースの情報と、それらに対応する応答とで構成される。

（処理回路）
上記の音声認識部１２および応答生成部１３の各機能は、例えば、図２に示される処理回路５０により実現される。すなわち処理回路５０は、上記の各機能を有する音声認識部１２および応答生成部１３を含む。

また、上記の音声認識部１２および応答生成部１３の各機能が、図３に示される処理回路により実現される場合、メモリ５２に格納されるプログラムには、音声を複数の辞書データベースのうち一の辞書データベースを参照して音声認識し、音声の音声認識結果と音声の音声認識のために参照された一の辞書データベースの情報とに対応する応答を生成する機能および動作が記述されている。また、プログラムには、システム２００の待受状態に対応して準備された第１辞書データベース２４を参照して第１音声を音声認識し、第１音声の音声認識結果に含まれる特定語彙に関連する第２辞書データベース２５を参照して第２音声を音声認識する機能および動作が記述されている。また、プログラムには、第２音声の音声認識結果と第２辞書データベース２５の情報とに対応する第２応答を生成する機能および動作が記述されている。

（動作）
次に、音声対話制御装置１０３の動作および音声対話制御方法を説明する。図１７は、実施の形態４における音声対話制御装置１０３の動作および音声対話制御方法の一例を示すシーケンスチャートである。図１８は、実施の形態４における音声対話制御装置１０３の動作および音声対話制御方法の一例を示すフローチャートである。なお、以下の説明において、音声記憶部１５の動作説明は省略するが、その動作は実施の形態２と同様である。

ステップＳ１０にて、音声区間検出部１１は、第１音声を入力して第１音声区間の始端を検出する。ここでは、第１音声として、ユーザから発話される「再生」が入力される。検出された始端は、音声認識部１２または対話制御部１４に通知される。

ステップＳ２２にて、音声認識部１２は、システム２００の待受状態に対応する第１辞書データベース２４を選択する。例えば、音声認識部１２は、システム２００が待受状態であることを示す情報を取得し、その情報に基づき、複数の辞書データベースの中から、図１４に示される第１辞書データベース２４を選択する。ここで、音声認識部１２が取得する待受状態であることを示す情報とは、第１画面が表示されているという情報である。

ステップＳ２４にて、音声認識部１２は、第１辞書データベース２４を参照して、音声区間検出部１１にて検出された第１音声区間の始端以降の第１音声の音声認識を開始する。または、ステップＳ２２とＳ２４とを組み合わせて、音声認識部１２は、システム２００が待受状態である情報に基づき、全ての辞書データベースを参照することにより、待受状態に対応する第１辞書データベース２４を参照して第１音声を音声認識してもよい。

ステップＳ４０にて、音声認識部１２は、終端検出の通知に基づき、音声区間検出部１１にて検出された第１音声区間の終端までの第１音声の音声認識を終了する。第１音声の音声認識結果には、「再生」が認識語彙として含まれる。

ステップＳ６０にて、音声区間検出部１１は、第１音声の後に入力される第２音声の第２音声区間の始端を検出する。ここでは、第２音声として、ユーザから発話される「音楽」が入力される。検出された始端は、音声認識部１２または対話制御部１４に通知される。

ステップＳ７４にて、音声認識部１２は、システム２００が第１音声の音声認識後の状態であり、かつ、第１音声の音声認識結果に特定語彙が含まれる状態に対応する第２辞書データベース２５を選択する。例えば、音声認識部１２は、第１音声の音声認識結果に特定語彙が含まれるか否かを判定し、特定語彙が含まれると判定した場合には、複数の辞書データベースから、その特定語彙に関連する第２辞書データベース２５を選択する。ここでは、音声認識部１２は、第１音声の音声認識結果に、特定語彙である「再生」が含まれるか否かを判定し、含まれると判定した場合に、図１５に示される第２辞書データベース２５を参照して第２音声を音声認識する。

ステップＳ７６にて、音声認識部１２は、第２辞書データベース２５を参照して、音声区間検出部１１にて検出された第２音声区間の始端以降の第２音声の音声認識を開始する。このように、音声認識部１２は、システム２００の状態に応じて、音声認識に用いる辞書データベースを第１辞書データベース２４から第２辞書データベース２５に切り替える機能を有する。

ステップＳ１００にて、音声認識部１２は、第２音声区間の終端までの第２音声の音声認識を終了する。第２音声の音声認識結果と、その第２音声の音声認識のために参照された第２辞書データベース２５の情報とが、応答生成部１３に出力される。なお、第２音声の音声認識結果には、「音楽」が認識語彙として含まれる。また、音声認識部１２は、音声認識の終了を対話制御部１４に通知する。

ステップＳ１１０にて、応答生成部１３は、第２音声の音声認識結果に対応する第２応答の生成を開始する。応答生成部１３は、図１６に示されるシステム応答データベースを参照し、第２応答の生成を開始する。

ステップＳ１２０にて、応答生成部１３は、第２応答の生成を完了する。ここでは、認識語彙は「音楽」、辞書データベース情報は「第２辞書データベース」であるため、応答生成部１３は、音声出力用の情報として「音楽を再生します。」を含む第２応答を生成する。対話制御部１４は、第２応答を応答提示装置２２からユーザに提示するよう制御する。例えば、応答提示装置２２に含まれるスピーカが、第２応答に従い「音楽を再生します。」と音声出力することにより、ユーザに第２応答を提示する。または、応答生成部１３は、応答提示装置２２に含まれる音楽再生装置に音楽を再生させる制御信号を含む第２応答を生成し、音楽再生装置がその第２応答に基づいて音楽を再生してもよい。

なお、フローチャートによる図示は省略するが、ステップＳ６０にて、第２音声の入力がない場合、第１音声の音声認識結果とその第１音声の音声認識のために参照された第１辞書データベース２４の情報とが、応答生成部１３に出力される。認識語彙は「再生」、辞書データベース情報は「第１辞書データベース」であるため、応答生成部１３は、音声出力用または表示出力用の情報として「何を再生しますか？」を含む第１応答を生成し、応答提示装置２２がその第１応答をユーザに提示する。

（効果）
以上をまとめると、実施の形態４における音声対話制御装置１０３の音声認識部１２は、音声を複数の辞書データベースのうちシステムの状態に応じた一の辞書データベースを参照して音声認識する。応答生成部１３は、音声の音声認識結果と音声の音声認識のために参照された一の辞書データベースの情報とに対応する応答を生成する。

このような構成により、音声対話制御装置１０３は、システム２００の状態すなわち対話状態によって、音声認識の際に参照する辞書データベースを切り替えることができるため、ユーザの発話に対して正確な応答を生成することができる。

また、実施の形態４における音声対話制御装置１０３の音声認識部１２は、複数の辞書データベースのうちシステム２００の待受状態に対応して準備された第１辞書データベース２４を参照して第１音声を音声認識し、複数の辞書データベースのうち第１音声の音声認識後の状態に対応しかつ第１音声の音声認識結果に含まれる特定語彙に関連する第２辞書データベース２５を参照して第２音声を音声認識する。応答生成部１３は、第２音声の音声認識結果と第２音声の音声認識のために参照された第２辞書データベースの情報とに対応する第２応答を生成する。

このような構成により、音声対話制御装置１０３は、第１音声および第２音声の両方の内容を反映した応答を生成することができ、ユーザの発話に対して正確な応答を生成することができる。例えば、システムが第１音声「再生」を入力してその処理を開始した直後に、ユーザが第２音声「音楽」と発話した場合、従来のシステムは第２音声を音声認識できず、ユーザに何を再生するか尋ねる応答を提示することが考えられる。しかし、本実施の形態における音声対話制御装置１０３は、第１音声の音声認識結果に関連する第２辞書データベースを参照して第２音声を音声認識するため、ユーザの意図に沿って、音楽を再生させることができる。

＜実施の形態５＞
実施の形態５における音声対話制御装置および音声対話制御方法を説明する。なお、他の実施の形態と同様の構成および動作については説明を省略する。

（構成）
図１９は、実施の形態５における音声対話制御装置１０４およびシステム２００の構成を示すブロック図である。

応答生成部１３は、音声の音声認識結果に対応して生成される複数の応答から一の応答をユーザに選択させるための確認応答を生成する確認応答生成部１７をさらに含む。

対話制御部１４は、確認応答をシステム２００からユーザに提示させ、確認応答に従ってユーザによって入力される音声に対応する一の応答を応答生成部に生成させて、システム２００からユーザに提示させる。

（処理回路）
上記の確認応答生成部１７および応答生成部１３の各機能は、例えば、図２または図３に示される処理回路により実現される。図３に示される処理回路により実現される場合、メモリ５２に格納されるプログラムには、音声の音声認識結果に対応して生成される複数の応答のから一の応答をユーザに選択させるための確認応答を生成する機能および動作が記述されている。また、プログラムには、確認応答をシステム２００からユーザに提示させ、確認応答に従ってユーザによって入力される音声に対応する一の応答を生成させて、システム２００からユーザに提示させる機能および動作が記述されている。

（動作）
次に、音声対話制御装置１０４の動作および音声対話制御方法を説明する。図２０は、実施の形態５における音声対話制御装置１０４の動作および音声対話制御方法の一例を示すフローチャートである。なお、本実施の形態においては、ステップＳ１０からステップＳ１１０までは、実施の形態４と同様であるため説明は省略する。

ステップＳ１１２にて、応答生成部１３は、第２音声の音声認識結果に対応する複数の第２応答が生成され得るか否かを判定する。例えば、音楽を再生するポータブルデバイスとＣＤ（Compact Disc）プレイヤーとがシステム２００に備わっていた場合、応答生成部１３は、ポータブルデバイスに記憶されている音楽を再生させる制御信号を含む第２応答と、ＣＤに記憶されている音楽を再生させる制御信号を含む第２応答とを生成可能である。複数の第２応答が生成されないと判定された場合、ステップＳ１２０が実行される。この場合、ステップＳ１２０以降の処理は、実施の形態４と同様である。複数の第２応答が生成されると判定された場合、ステップＳ１２２が実行される。

ステップＳ１２２にて、確認応答生成部１７は、第２音声の音声認識結果に対応して生成される複数の第２応答のうち、一の第２応答をユーザに選択させるための確認応答を生成する。ここでは、確認応答生成部１７は、音声出力用または表示出力用の情報として「ポータブルデバイスの音楽を再生しますか？それともＣＤの音楽を再生しますか？」を含む確認応答を生成する。

ステップＳ１２４にて、対話制御部１４は、確認応答を応答提示装置２２からユーザに提示させる。応答提示装置２２は、「ポータブルデバイスの音楽を再生しますか？それともＣＤの音楽を再生しますか？」をユーザに提示し、ユーザは確認応答に従ってシステムを操作するための音声を再び入力する。例えば、ユーザにより「ポータブルデバイスの音楽を再生。」という音声が入力された場合、音声対話制御装置１０４は、上記の各ステップと同様の音声認識および応答生成により一の第２応答を生成する。応答提示装置２２が、ポータブルデバイスの音楽を再生することにより、選択された一の第２応答がユーザに提示される。

（効果）
以上をまとめると、実施の形態４における音声対話制御装置１０４の応答生成部１３は、音声の音声認識結果に対応して生成する複数の応答から一の応答をユーザに選択させるための確認応答を生成する確認応答生成部１７をさらに含む。対話制御部１４は、確認応答をシステム２００からユーザに提示させ、確認応答に従ってユーザによって入力される音声に対応する一の応答を応答生成部１３に生成させて、システム２００からユーザに提示させる。

このような構成により、音声対話制御装置１０４は、ユーザとシステムとの対話に曖昧性が生じている場合に、ユーザに確認を求めることができる。

＜実施の形態６＞
実施の形態６における音声対話制御装置および音声対話制御方法を説明する。

（構成）
実施の形態６における音声対話制御装置１０４およびシステム２００の構成は実施の形態４と同様である。ただし、本実施の形態における対話制御部１４は、第１音声区間の終端から第２音声区間の始端までの経過時間が特定値以上であるか否か判定する。対話制御部１４は、経過時間が特定値以上である場合、複数の辞書データベースのうちシステム２００の待受状態に対応して準備された第１辞書データベース２４を参照して第２音声を音声認識させる。または、対話制御部１４は、経過時間が特定値未満である場合、複数の辞書データベースのうち第１音声の音声認識後の状態に対応しかつ第１音声の音声認識結果に含まれる特定語彙に関連する第２辞書データベースを参照して第２音声を音声認識させる。対話制御部１４は、第１音声と第２音声との関連性を、経過時間が閾値以上であるか否かに基づいて判断してユーザに提示すべき応答を生成させる。

（処理回路）
上記の対話制御部１４の機能は、例えば、図２または図３に示される処理回路により実現される。図３に示される処理回路により実現される場合、メモリ５２に格納されるプログラムには、第１音声区間の終端から第２音声区間の始端までの経過時間が特定値以上であるか否かの判定に基づき、複数の辞書データベースのうちシステム２００の待受状態に対応して準備された第１辞書データベース２４を参照して第２音声を音声認識させる機能および動作が記述されている。または、上記判定に基づき、複数の辞書データベースのうち第１音声の音声認識後の状態に対応しかつ第１音声の音声認識結果に含まれる特定語彙に関連する第２辞書データベースを参照して第２音声を音声認識させる機能および動作が記述されている。

（動作）
次に、音声対話制御装置１０４の動作および音声対話制御方法を説明する。図２１は、実施の形態６における音声対話制御装置１０４の動作および音声対話制御方法の一例を示すフローチャートである。なお、本実施の形態におけるステップＳ１０からステップＳ６０までは、実施の形態４と同様であるため説明は省略する。

ステップＳ６４にて、対話制御部１４は、第１音声区間の終端から第２音声区間の始端までの経過時間が特定値以上であるか否か判定する。経過時間が特定値以上でないと判定された場合、すなわち発話間に関連性があると判定された場合、ステップＳ７４が実行される。経過時間が特定値以上であると判定された場合、すなわち発話間に関連性がないと判定された場合、ステップＳ７０が実行される。

ステップＳ７４およびＳ７６にて、音声認識部１２は、音声区間検出部１１にて検出された第２音声区間の始端以降の第２音声の音声認識を開始する。音声認識部１２は、第１音声の音声認識結果に含まれる特定語彙に関連する第２辞書データベース２５を参照して第２音声を音声認識する。ステップＳ７４以降の各処理は、図１８に示される実施の形態４における各処理と同様である。

一方で、発話間に関連性がないと判定された場合、ステップＳ７０にて、音声認識部１２は、音声区間検出部１１にて検出された第２音声区間の始端以降の第２音声の音声認識を開始する。だだし、音声認識部１２は、システム２００の待受状態に対応して準備された第１辞書データベース２４を参照して音声認識する。

ステップＳ１００にて、音声認識部１２は、第２音声区間の終端までの第２音声の音声認識を終了する。第２音声の音声認識結果と、その第２音声の音声認識のために参照された第１辞書データベース２４の情報とが、応答生成部１３に出力される。なお、第２音声の音声認識結果には、「音楽」が認識語彙として含まれる。また、音声認識部１２は、音声認識の終了を対話制御部１４に通知する。

ステップＳ１２０にて、応答生成部１３は、第２応答の生成を完了する。ここでは、認識語彙は「音楽」、辞書データベース情報は「第１辞書データベース」であるため、応答生成部１３は、音声出力用の情報として「音楽画面を表示します。」を含む第２応答を生成する。対話制御部１４は、第２応答を応答提示装置２２からユーザに提示するよう制御する。例えば、応答提示装置２２に含まれるスピーカが、第２応答に従い「音楽画面を表示します。」と音声出力することにより、ユーザに第２応答を提示する。または、応答生成部１３が応答提示装置２２に含まれる表示装置に音楽画面を表示させる制御信号を含む第２応答を生成し、表示装置がその第２応答に基づいて音楽画面を表示してもよい。

（効果）
以上をまとめると、実施の形態４における音声対話制御装置１０４の対話制御部１４は、第１音声区間の終端から第２音声区間の始端までの経過時間が特定値以上であるか否かの判定に基づき、複数の辞書データベースのうちシステム２００の待受状態に対応して準備された第１辞書データベース２４を参照して第２音声を音声認識させる、または、複数の辞書データベースのうち第１音声の音声認識後の状態に対応しかつ第１音声の音声認識結果に含まれる特定語彙に関連する第２辞書データベース２５を参照して第２音声を音声認識させる。

このような構成により、音声対話制御装置１０４は、音声の音声認識結果に加えて、ユーザからの発話タイミングも考慮して応答を生成することにより、ユーザの発話に対し正確な応答を生成することができる。

＜実施の形態７＞
実施の形態１から６にて示された各音声対話制御装置は、例えば、車両に搭載される。図２２は、車両３０に搭載された音声対話制御装置１０５の構成の一例を示すブロック図である。ここで、音声対話制御装置１０５は、実施の形態１から６にて示された音声対話制御装置１００から１０４のいずれかの音声対話制御装置である。システム２００は、例えば、ナビゲーション装置、オーディオ装置、ＰＮＤ（Portable Navigation Device）など車載装置（図示せず）を含む。ユーザによって発話される音声を車載装置の音声入力装置（図示せず）が入力し、その音声に対応する応答を音声対話制御装置１０５が生成し、車載装置の応答提示装置（図示せず）がその応答をユーザに提示する。

また、音声対話制御装置１０５を含むシステム２００は、車載装置に含まれる通信端末と、車両の外部に設置されたサーバと、これらにインストールされるアプリケーションの機能とを適宜に組み合わせて構築されてもよい。図２３は、サーバ４０に設けられる音声対話制御装置１０５の構成の一例を示すブロック図である。通信端末３２の音声入力装置（図示せず）から入力される音声は、ネットワークを介してサーバ４０の通信装置４１で受信され、音声対話制御装置１０５にて処理される。音声対話制御装置１０５はその音声に対応する応答を生成する。生成された応答は、通信装置４１からネットワークを介して車載装置３１の応答提示装置（図示せず）からユーザに提示される。その応答提示装置は通信端末３２に含まれていてもよい。ここで、通信端末３２とは、例えば、携帯電話、スマートフォンおよびタブレットなどである。また、音声対話制御装置１０５の各構成要素は、システム２００を構築する各機器に分散して配置されてもよい。その場合、各構成要素が互いに適宜通信することにより各機能が実現される。音声対話制御装置１０５がサーバ４０に設けられることにより、または、音声対話制御装置１０５の各構成要素がサーバ４０等に分散配置されることにより、車両３０または車載装置３１の構成を簡素化しながらも、音声対話制御装置１０５の機能が実現される。

なお、本発明は、その発明の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略したりすることが可能である。本発明は詳細に説明されたが、上記した説明は、全ての局面において、例示であって、本発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。

１１音声区間検出部、１２音声認識部、１３応答生成部、１４対話制御部、１５音声記憶部、１６対話状態判定部、１７確認応答生成部、２４第１辞書データベース、２５第２辞書データベース、１００音声対話制御装置、２００システム。

Claims

ユーザとシステムとの対話によりユーザがシステムに対して操作を行うに際し、ユーザから入力される音声に対する応答を前記システムから前記ユーザに提示させるための対話制御を行う音声対話制御装置であって、
入力される一続きの前記音声をなす始端から終端までの音声区間を検出する音声区間検出部と、
前記音声区間内の前記音声を音声認識する音声認識部と、
前記音声の音声認識結果に対応する応答であって、前記システムから前記ユーザに提示させるべき前記応答を生成する応答生成部と、
前記音声区間検出部と前記音声認識部と前記応答生成部とを制御する対話制御部と、を備え、
前記対話制御部は、
前記音声として入力される一続きの第１音声をなす第１音声区間が検出されてから前記第１音声の前記音声認識結果に対応する第１応答が前記システムから前記ユーザに提示されるまでの処理を含む前記第１音声に対する処理が終了していなくても、前記第１音声の後に前記音声として入力される一続きの第２音声に対する第２応答を生成可能とするために前記第２音声をなす第２音声区間を前記音声区間検出部に検出させる音声対話制御装置。
前記音声区間検出部にて検出される前記第２音声区間内の前記第２音声を記憶する音声記憶部をさらに備え、
前記対話制御部は、
前記音声認識部にて前記第１音声の音声認識が終了したことを示す通知に基づき、前記音声記憶部にて記憶されている前記第２音声を前記音声認識部に音声認識させ、前記第２音声の前記音声認識結果に対応する前記第２応答を前記応答生成部に生成させる請求項１に記載の音声対話制御装置。
前記対話制御部は、
前記応答生成部にて前記第１応答の生成が完了したことを示す通知に基づき、前記音声認識部にて音声認識される前記第２音声区間内の前記第２音声の前記音声認識結果に対応する前記第２応答を前記応答生成部に生成させる請求項１に記載の音声対話制御装置。
前記音声認識部にて音声認識される前記第２音声区間内の前記第２音声の前記音声認識結果が前記第１音声の前記音声認識結果を更新するものであるか否かを判定する対話状態判定部をさらに備え、
前記対話制御部は、
前記対話状態判定部の判定結果に基づき、前記第１音声に対する前記処理を途中で終了させかつ前記応答生成部に前記第２応答を生成させる請求項１に記載の音声対話制御装置。
前記音声認識部は、
前記音声を複数の辞書データベースのうち前記システムの状態に応じた一の辞書データベースを参照して音声認識し、
前記応答生成部は、
前記音声の前記音声認識結果と前記音声の音声認識のために参照された前記一の辞書データベースの情報とに対応する前記応答を生成する請求項１に記載の音声対話制御装置。
前記音声認識部は、
前記複数の辞書データベースのうち前記システムの待受状態に対応して準備された第１辞書データベースを参照して前記第１音声を音声認識し、
前記複数の辞書データベースのうち前記第１音声の音声認識後の状態に対応しかつ前記第１音声の前記音声認識結果に含まれる特定語彙に関連する第２辞書データベースを参照して前記第２音声を音声認識し、
前記応答生成部は、
前記第２音声の前記音声認識結果と前記第２音声の音声認識のために参照された前記第２辞書データベースの情報とに対応する前記第２応答を生成する請求項５に記載の音声対話制御装置。
前記応答生成部は、
前記音声の前記音声認識結果に対応して生成する複数の前記応答から一の応答を前記ユーザに選択させるための確認応答を生成する確認応答生成部をさらに含み、
前記対話制御部は、
前記確認応答を前記システムから前記ユーザに提示させ、前記確認応答に従って前記ユーザによって入力される前記音声に対応する一の応答を前記応答生成部に生成させて、前記システムから前記ユーザに提示させる請求項１に記載の音声対話制御装置。
前記対話制御部は、
前記第１音声区間の終端から前記第２音声区間の始端までの経過時間が特定値以上であるか否かの判定に基づき、前記複数の辞書データベースのうち前記システムの待受状態に対応して準備された第１辞書データベースを参照して前記第２音声を音声認識させる、または、前記複数の辞書データベースのうち前記第１音声の音声認識後の状態に対応しかつ前記第１音声の前記音声認識結果に含まれる特定語彙に関連する第２辞書データベースを参照して前記第２音声を音声認識させる請求項５に記載の音声対話制御装置。
ユーザとシステムとの対話によりユーザがシステムに対し操作を行うに際し、ユーザから入力される音声に対する応答を前記システムから前記ユーザに提示させるための対話制御を行う音声対話制御方法であって、
入力される一続きの前記音声をなす始端から終端までの音声区間を検出し、
前記音声区間内の前記音声を音声認識し、
前記音声の音声認識結果に対応する応答であって、前記システムから前記ユーザに提示させるべき前記応答を生成し、
前記音声区間の検出、前記音声の音声認識、および、前記応答の生成の各々の制御を実行し、
前記制御を実行する際、
前記音声として入力される一続きの第１音声をなす第１音声区間が検出されてから前記第１音声の音声認識結果に対応する第１応答が前記システムから前記ユーザに提示されるまでの処理を含む前記第１音声に対する処理が終了していなくても、前記第１音声の後に前記音声として入力される一続きの第２音声に対する第２応答を生成可能とするために前記第２音声をなす第２音声区間を検出させる音声対話制御方法。