JPWO2019058453A1 - 音声対話制御装置および音声対話制御方法 - Google Patents

音声対話制御装置および音声対話制御方法 Download PDF

Info

Publication number
JPWO2019058453A1
JPWO2019058453A1 JP2019542865A JP2019542865A JPWO2019058453A1 JP WO2019058453 A1 JPWO2019058453 A1 JP WO2019058453A1 JP 2019542865 A JP2019542865 A JP 2019542865A JP 2019542865 A JP2019542865 A JP 2019542865A JP WO2019058453 A1 JPWO2019058453 A1 JP WO2019058453A1
Authority
JP
Japan
Prior art keywords
voice
response
speech
unit
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019542865A
Other languages
English (en)
Other versions
JP6851491B2 (ja
Inventor
昭男 堀井
昭男 堀井
岡登 洋平
洋平 岡登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2019058453A1 publication Critical patent/JPWO2019058453A1/ja
Application granted granted Critical
Publication of JP6851491B2 publication Critical patent/JP6851491B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

第1音声の後に入力される第2音声に対しシステムが適切に応答できるよう対話制御する音声対話制御装置の提供を目的とする。本発明に係る音声対話制御装置は、ユーザから入力される音声に対する応答をシステムからユーザに提示させるための対話制御を行う音声対話制御装置であって、入力される一続きの音声の音声区間を検出する音声区間検出部と、音声区間内の音声を音声認識する音声認識部と、音声の音声認識結果に対応する応答を生成する応答生成部と、音声区間検出部と音声認識部と応答生成部とを制御する対話制御部と、を備える。対話制御部は、一続きの第1音声に対する第1応答がシステムからユーザに提示されるまでの処理を含む第1音声に対する処理が終了していなくても、第1音声の後に入力される一続きの第2音声に対する第2応答を生成可能とするために第2音声をなす第2音声区間を音声区間検出部に検出させる。

Description

本発明は、システムとユーザとの対話によりユーザがシステムに対し操作を行うに際し、ユーザから入力される音声に対応する応答をシステムに提示させる音声対話制御装置および音声対話制御方法に関する。
音声認識機能を有するシステムは、ユーザから発話される音声を入力し、その音声に対応する応答を出力する。特許文献1には、システムが音声を出力中に、ユーザから割込音声が入力された場合、出力中の音声の重要度に応じて、音声出力を継続する、もしくは、一時停止して、割込音声に対する処理を実行する音声対話制御方法が提案されている。
特開2004−325848号公報
しかし、特許文献1に記載のシステムは、特定のタイミングにおいて、例えば、第1音声の終端検出直後、すなわち第1音声取り込み終了直後は、後続の第2音声を取り込むことができない。ユーザがそのような特定のタイミングで発話した場合、システムとユーザとの間で齟齬が生じ、システムは不適当な応答を行う場合がある。
ユーザが第1音声につづいて複数の発話を行った場合でも、システムはそれらの発話をとりこぼさずに適切に入力し、適切に応答する必要がある。
本発明は、以上のような課題を解決するためになされたものであり、第1音声の後に入力される第2音声に対しシステムが適切に応答できるよう対話制御する音声対話制御装置の提供を目的とする。
本発明に係る音声対話制御装置は、ユーザとシステムとの対話によりユーザがシステムに対し操作を行うに際し、ユーザから入力される音声に対する応答をシステムからユーザに提示させるための対話制御を行う音声対話制御装置であって、入力される一続きの音声をなす始端から終端までの音声区間を検出する音声区間検出部と、音声区間内の音声を音声認識する音声認識部と、音声の音声認識結果に対応する応答であって、システムからユーザに提示させるべき応答を生成する応答生成部と、音声区間検出部と音声認識部と応答生成部とを制御する対話制御部と、を備える。対話制御部は、音声として入力される一続きの第1音声をなす第1音声区間が検出されてから第1音声の音声認識結果に対応する第1応答がシステムからユーザに提示されるまでの処理を含む第1音声に対する処理が終了していなくても、第1音声の後に音声として入力される一続きの第2音声に対する第2応答を生成可能とするために第2音声をなす第2音声区間を音声区間検出部に検出させる。
本発明によれば、第1音声の後に入力される第2音声に対しシステムが適切に応答できるよう対話制御する音声対話制御装置の提供が可能である。
本発明の目的、特徴、局面、および利点は、以下の詳細な説明と添付図面とによって、より明白になる。
実施の形態1における音声対話制御装置およびシステムの構成を示すブロック図である。 音声対話制御装置が含む処理回路の一例を示す図である。 音声対話制御装置が含む処理回路の別の一例を示す図である。 実施の形態1における音声対話制御装置の動作および音声対話制御方法の一例を示すシーケンスチャートである。 実施の形態1における音声対話制御装置の動作および音声対話制御方法の一例を示すフローチャートである。 実施の形態2における音声対話制御装置およびシステムの構成を示すブロック図である。 実施の形態2におけるシステム応答データベースの構成の一例を示す図である。 実施の形態2における音声対話制御装置の動作および音声対話制御方法の一例を示すシーケンスチャートである。 実施の形態2における音声対話制御装置の動作および音声対話制御方法の一例を示すフローチャートである。 実施の形態3における音声対話制御装置およびシステムの構成を示すブロック図である。 実施の形態3における音声対話制御装置の動作および音声対話制御方法の一例を示すシーケンスチャートである。 実施の形態3における音声対話制御装置の動作および音声対話制御方法の一例を示すフローチャートである。 実施の形態4における音声対話制御装置およびシステムの構成を示すブロック図である。 実施の形態4における第1辞書データベースの構成の一例を示す図である。 実施の形態4における第2辞書データベースの構成の一例を示す図である。 実施の形態4におけるシステム応答データベースの構成の一例を示す図である。 実施の形態4における音声対話制御装置の動作および音声対話制御方法の一例を示すシーケンスチャートである。 実施の形態4における音声対話制御装置の動作および音声対話制御方法の一例を示すフローチャートである。 実施の形態5における音声対話制御装置およびシステムの構成を示すブロック図である。 実施の形態5における音声対話制御装置の動作および音声対話制御方法の一例を示すフローチャートである。 実施の形態6における音声対話制御装置の動作および音声対話制御方法の一例を示すフローチャートである。 実施の形態7における車両に搭載された音声対話制御装置の構成の一例を示すブロック図である。 実施の形態7におけるサーバに設けられる音声対話制御装置の構成の一例を示すブロック図である。
本明細書では、ユーザから入力される音声に対応する応答をシステムからユーザに提示させるための対話制御を行う音声対話制御装置の実施の形態を説明する。
<実施の形態1>
実施の形態1における音声対話制御装置および音声対話制御方法を説明する。
(構成)
図1は、実施の形態1における音声対話制御装置100およびシステム200の構成を示すブロック図である。
システム200は、システム200の操作を行うためにユーザから発話された音声を入力し、その音声に対する応答をユーザに提示する。システム200は、音声入力装置21、音声対話制御装置100および応答提示装置22を含む。システム200は、例えば、ナビゲーションシステム、オーディオシステム、車両の運転に関連する装置を制御する制御システム、運転環境を制御する制御システムなどである。
音声入力装置21は、ユーザがシステム200に対し操作を行うためのインターフェースである。音声入力装置21は、システム200に対し操作を行うためにユーザが発話する音声を入力し、音声対話制御装置100に出力する。音声入力装置21は、例えばマイクである。
音声対話制御装置100は、音声入力装置21から音声を入力し、その音声に対応する応答をシステム200からユーザに提示させるための対話制御を行う。
応答提示装置22は、音声対話制御装置100によって生成された応答をユーザに提示する。なお、「提示する」とは、生成された応答に従って応答提示装置22が動作することを含む。応答提示装置22は、音声対話制御装置100によって生成された応答に従って動作することによりユーザに応答を提示してもよい。例えば、システム200がナビゲーションシステムである場合、応答提示装置22は音声出力装置または表示装置である。音声出力装置は、例えば、目的地までの案内情報を音声出力することにより応答を提示する、表示装置は、例えば、目的地までの案内情報を地図とともに表示することにより応答を提示する。または例えば、システム200がオーディオシステムである場合、応答提示装置22は音楽再生装置である。音楽再生装置は、音楽を再生することにより応答を提示する。または例えば、システム200が車両の運転に関連する装置を制御する制御システムである場合、応答提示装置22は車両の駆動制御装置である。または例えば、システム200が運転環境を制御する制御システムである場合、応答提示装置22は、エアコン、照明、ミラー位置調整装置または座席位置調整装置などである。
音声対話制御装置100は、音声区間検出部11、音声認識部12、応答生成部13および対話制御部14を含む。
音声区間検出部11は、入力される一続きの音声を構成する始端から終端までの音声区間を検出する。本実施の形態において、音声区間検出部11は、一例として、常時、入力される音声を検出している。
音声認識部12は、音声区間検出部11にて検出された音声区間内の音声を音声認識する。その音声認識の際、音声認識部12は、音声区間内の音声を、音響的または言語的に最も確からしい語彙に基づいて認識語彙の選出を行い、音声認識する。音声認識部12は、例えば、辞書データベース(図示せず)を参照して音声認識する。辞書データベースは音声対話制御装置100に設けられてもよいし、外部のサーバに設けられてもよい。辞書データベースがサーバに設けられる場合、対話制御装置がサーバと通信することにより、音声認識部12はその辞書データベースを参照して音声認識する。
応答生成部13は、音声認識部12にて音声認識された音声認識結果に対応する応答を生成する。応答生成部13は、例えば、システム応答データベース(図示せず)を参照して応答を生成する。システム応答データベースは、例えばテーブルであり、音声認識結果に含まれる認識語彙と応答とが互いに対応付けられて格納されている。システム応答データベースは、音声対話制御装置100に設けられてもよいし、外部のサーバに設けられてもよい。システム応答データベースがサーバに設けられる場合、対話制御装置がサーバと通信することにより、応答生成部13はそのシステム応答データベースを参照して応答を生成する。応答生成部13は、その応答を応答提示装置22に出力する。
対話制御部14は、音声区間検出部11、音声認識部12および応答生成部13のそれぞれの動作を制御する。対話制御部14は、システム200の対話状態をモニタリングしながら、各部を制御する。対話状態とは、音声区間検出部11にて音声が検出されてから、その音声に対応する応答が生成され、さらにその応答がユーザに提示されるまでのいずれかの時点における状態のことである。例えば、対話制御部14は、音声区間検出部11が音声区間の始端または終端を検出した通知に基づき、音声認識部12の動作を制御する。または対話制御部14は、音声認識部12における音声認識が終了した通知に基づき、応答生成部13における応答の生成の開始を制御したり、音声認識部12における後続の音声の音声認識の開始を制御したりする。
対話制御部14が有する具体的な機能の一例は以下の通りである。対話制御部14は、一続きの第1音声に対する処理と、その第1音声の後に入力される第2音声に対する処理とを制御する。第1音声に対する処理は、第1音声をなす第1音声区間が検出されてから第1応答がシステム200からユーザに提示されるまでの処理を含む。より詳細には、第1音声に対する処理は、少なくとも、音声認識部12が第1音声を音声認識する処理および応答生成部13が第1音声の音声認識結果に対応する第1応答を生成する処理を含む。また、第1音声に対する処理は、第1音声をなす第1音声区間の終端が検出されてから第1応答が応答提示装置22に提示され、次に入力される音声をなす音声区間の始端が検出されるまでの処理を含んでもよい。
対話制御部14は、第1音声に対する処理が終了していなくても、第2音声に対する第2応答を生成可能とするために第2音声をなす第2音声区間を音声区間検出部11に検出させる。さらに本実施の形態においては、対話制御部14は、第2音声区間内の第2音声を音声認識部12に音声認識させ、第2音声の音声認識結果に対応する第2応答を応答生成部13に生成させて、システム200からユーザに提示させる。
(処理回路)
図2は音声対話制御装置100が備える処理回路50の一例を示す図である。音声区間検出部11、音声認識部12、応答生成部13、および対話制御部14の各機能は、処理回路50により実現される。すなわち、処理回路50は、音声区間検出部11と音声認識部12と応答生成部13と対話制御部14と、を含む。
処理回路50が専用のハードウェアである場合、処理回路50は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはこれらを組み合わせた回路等である。音声区間検出部11、音声認識部12、応答生成部13、および対話制御部14の各機能は、複数の処理回路により個別に実現されてもよいし、1つの処理回路によりまとめて実現されてもよい。
図3は音声対話制御装置100が備える処理回路の別の一例を示す図である。処理回路は、プロセッサ51とメモリ52とを含む。プロセッサ51がメモリ52に格納されるプログラムを実行することにより、音声区間検出部11、音声認識部12、応答生成部13、および対話制御部14の各機能が実現される。例えば、プログラムとして記述されたソフトウェアまたはファームウェアがプロセッサ51により実行されることにより各機能が実現される。すなわち、音声対話制御装置100は、プログラムを格納するメモリ52と、そのプログラムを実行するプロセッサ51とを備える。
プログラムには、音声対話制御装置100が、入力される一続きの音声を構成する始端から終端までの音声区間を検出し、検出された音声区間内の音声を音声認識し、音声認識された音声認識結果に対応する応答を生成し、さらに、それら音声区間の検出、音声認識および応答の生成の各々を制御する機能および動作が記述されている。また、そのプロブラムは、音声対話制御装置100が、各々の制御を実行する際、第1音声に対する処理が終了していなくても、第1音声の後に入力される一続きの第2音声をなす第2音声区間を検出させる機能および動作が記述されている。さらに、プログラムには、第2音声区間内の第2音声を音声認識させ、第2音声の音声認識結果に対応する第2応答を生成させて、システム200からユーザに提示させる機能および動作が記述されている。以上のプログラムは、上述した音声区間検出部11、音声認識部12、応答生成部13、および対話制御部14の手順または方法をコンピュータに実行させるものである。
プロセッサ51は、例えば、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)等である。メモリ52は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)等の、不揮発性または揮発性の半導体メモリである。または、メモリ52は、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等、今後使用されるあらゆる記憶媒体であってもよい。
上述した音声区間検出部11、音声認識部12、応答生成部13、および対話制御部14の各機能は、一部が専用のハードウェアによって実現され、他の一部がソフトウェアまたはファームウェアにより実現されてもよい。このように、処理回路は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせによって、上述の各機能を実現する。
(動作)
次に、音声対話制御装置100の動作および音声対話制御方法を説明する。図4は、実施の形態1における音声対話制御装置100の動作および音声対話制御方法の一例を示すシーケンスチャートである。図5は、実施の形態1における音声対話制御装置100の動作および音声対話制御方法の一例を示すフローチャートである。
図5のフローチャートには図示を省略しているが、まず、対話制御部14は、音声区間検出部11を音声受付が可能な待機状態および音声認識部12を音声認識が可能な待機状態に制御する。この制御は、例えば、ユーザによるシステム200に対する音声区間検出の受付開始を指示する操作により行われる。または、システム200の立ち上げ後、対話制御部14が自動的に音声区間検出部11を音声受付可能な待機状態に制御してもよい。この制御以降、音声区間検出部11は、常時、音声の入力をモニタリングする状態、つまり検出可能な状態となる。
ステップS10にて、音声区間検出部11は、第1音声を入力して第1音声区間の始端を検出する。検出された始端は、音声認識部12または対話制御部14に通知される。
ステップS20にて、音声認識部12は、始端検出の通知に基づき、音声区間検出部11にて検出された第1音声区間の始端以降の第1音声の音声認識を開始する。
ステップS30にて、音声区間検出部11は、第1音声区間の終端を検出する。検出された終端は、音声認識部12または対話制御部14に通知される。
ステップS40にて、音声認識部12は、終端検出の通知に基づき、音声区間検出部11にて検出された第1音声区間の終端までの第1音声の音声認識を終了する。音声認識部12は、第1音声の音声認識結果を応答生成部13に出力し、その終了を対話制御部14に通知する。
ステップS50にて、応答生成部13は、対話制御部14からの制御に基づき、第1音声の音声認識結果に対応する第1応答の生成を開始する。
ステップS60にて、音声区間検出部11は、第1音声の後に入力される第2音声の第2音声区間の始端を検出する。検出された始端は、音声認識部12または対話制御部14に通知される。なお、このステップS60および以下のステップS70は、応答生成部13における第1応答の生成と並行して実行される。
ステップS70にて、音声認識部12は、始端検出の通知に基づき、音声区間検出部11にて検出された第2音声区間の始端以降の第2音声の音声認識を開始する。
ステップS80にて、応答生成部13は、第1応答の生成を完了する。対話制御部14は、第1応答をシステム200からユーザに提示させる。つまり、応答提示装置22は、その第1応答をユーザに提示する。
ステップS90にて、音声区間検出部11は、第2音声区間の終端を検出する。検出された終端は、音声認識部12または対話制御部14に通知される。
ステップS100にて、音声認識部12は、音声区間検出部11にて検出された第2音声区間の終端までの第2音声の音声認識を終了する。音声認識部12は、第2音声の音声認識結果を応答生成部13に出力し、その終了を対話制御部14に通知する。
ステップS110にて、応答生成部13は、対話制御部14からの制御に基づき、音声認識部12から入力する第2音声の音声認識結果に対応する第2応答の生成を開始する。
ステップS120にて、応答生成部13は第2応答の生成を完了する。対話制御部14は、第2応答をシステム200からユーザに提示させる。つまり、応答提示装置22は、その第2応答をユーザに提示する。
(効果)
以上をまとめると、実施の形態1における音声対話制御装置100は、ユーザとシステム200との対話によりユーザがシステム200に対し操作を行うに際し、ユーザから入力される音声に対する応答をシステム200からユーザに提示させるための対話制御を行う音声対話制御装置100であって、入力される一続きの音声をなす始端から終端までの音声区間を検出する音声区間検出部11と、音声区間内の音声を音声認識する音声認識部12と、音声の音声認識結果に対応する応答であって、システム200からユーザに提示させるべき応答を生成する応答生成部13と、音声区間検出部11と音声認識部12と応答生成部13とを制御する対話制御部14と、を備える。対話制御部14は、音声として入力される一続きの第1音声をなす第1音声区間が検出されてから第1音声の音声認識結果に対応する第1応答がシステム200からユーザに提示されるまでの処理を含む第1音声に対する処理が終了していなくても、第1音声の後に音声として入力される一続きの第2音声に対する第2応答を生成可能とするために第2音声をなす第2音声区間を音声区間検出部11に検出させる。
以上の構成により、音声対話制御装置100は、第1音声の後に入力される第2音声に対しシステムが適切に応答できるよう対話制御することができる。音声対話制御装置100は、第1音声区間の終端直後に入力される第2音声に対しても漏れなく応答を生成することが可能である。また、本実施の形態において一例として示されてように、音声対話制御装置100は、常時、音声を入力して音声区間検出を行うため、ユーザが発話する音声の取得ができない時間がなくすことができる。
また、実施の形態1における音声対話制御方法は、ユーザとシステム200との対話によりユーザがシステム200に対し操作を行うに際し、ユーザから入力される音声に対する応答をシステム200からユーザに提示させるための対話制御を行う音声対話制御方法であって、入力される一続きの音声をなす始端から終端までの音声区間を検出し、音声区間内の音声を音声認識し、音声の音声認識結果に対応する応答であって、システム200からユーザに提示させるべき応答を生成し、音声区間の検出、音声の音声認識、および、応答の生成の各々の制御を実行する。音声対話制御方法は、その各々の制御を実行する際、音声として入力される一続きの第1音声をなす第1音声区間が検出されてから第1音声の音声認識結果に対応する第1応答がシステムからユーザに提示されるまでの処理を含む第1音声に対する処理が終了していなくても、第1音声の後に音声として入力される一続きの第2音声に対する第2応答を生成可能とするために第2音声をなす第2音声区間を検出させる。
このような構成を含む音声対話制御方法によれば、第1音声の後に入力される第2音声に対しシステムが適切に応答できるよう対話制御することができる。この音声対話制御方法によれば、第1音声区間の終端直後に入力される第2音声に対しても漏れなく応答を生成することが可能である。また、この音声対話制御方法によれば、常時、音声を入力して音声区間検出を行うため、ユーザが発話する音声の取得ができない時間がなくすことができる。
<実施の形態2>
実施の形態2における音声対話制御装置および音声対話制御方法を説明する。
(構成)
図6は、実施の形態2における音声対話制御装置101およびシステム200の構成を示すブロック図である。システム200は、実施の形態1に示された構成に加えて、辞書データベース記憶装置23を含む。
音声対話制御装置101の音声認識部12は、辞書データベース記憶装置23に記憶されている辞書データベースを参照して、音声認識する。また、音声対話制御装置101は、実施の形態1に示された構成に加えて、音声記憶部15を含む。
音声記憶部15は、音声区間検出部11にて検出される音声区間内の音声を記憶する。以下、音声記憶部15が第2音声区間内の第2音声を記憶する例が示されるが、これに限定されず、音声記憶部15は第1音声区間の第1音声も記憶してもよい。
対話制御部14は、音声認識部12において第1音声の音声認識が終了したことを示す通知に基づき、音声記憶部15に記憶された第2音声を音声認識部12に音声認識させ、応答生成部13に第2音声の音声認識結果に対応する第2応答を生成させる。さらに、対話制御部14は、応答生成部13にて第1応答の生成が完了したことを示す通知に基づき、応答生成部13に第2応答を生成させる。
(システム応答データベース)
本実施の形態において、応答生成部13は、各音声認識結果に対応する各応答を、システム応答データベースを参照して応答を生成する。図7は、実施の形態2におけるシステム応答データベースの構成の一例を示す図である。システム応答データベースは、音声認識結果に含まれる認識語彙と、音声認識結果に対応する応答とで構成される。また、応答をユーザに提示する応答提示装置22の構成に応じて、複数の応答が含まれてもよい。
(処理回路)
上記の音声記憶部15および対話制御部14の各機能は、例えば、図2に示される処理回路50により実現される。すなわち処理回路50は、上記の各機能を有する音声記憶部15および対話制御部14を含む。
上記の音声記憶部15および対話制御部14の各機能が、図3に示される処理回路により実現される場合、音声記憶部15の機能は、例えばメモリ52により実現される。また、メモリ52に格納されるプログラムには、第2音声区間内の第2音声を記憶させ、第1音声の音声認識が終了したことを示す通知に基づき、メモリ52に記憶された第2音声を音声認識させ、第2音声の音声認識結果に対応する第2応答を生成させる機能および動作が記述されている。さらに、プログラムには、第1応答の生成が完了したことを示す通知に基づき、第2応答を生成させる機能および動作が記述されている。
(動作)
次に、音声対話制御装置101の動作および音声対話制御方法を説明する。図8は、実施の形態2における音声対話制御装置101の動作および音声対話制御方法の一例を示すシーケンスチャートである。図9は、実施の形態2における音声対話制御装置101の動作および音声対話制御方法の一例を示すフローチャートである。
実施の形態1においては、第2音声が第1応答の生成中に入力された例が示されたが、実施の形態2においては、第2音声が第1音声の音声認識中に入力される例を示す。
ステップS10にて、音声区間検出部11は、第1音声を入力して第1音声区間の始端を検出する。ここでは、第1音声として、ユーザから発話される「スーパーに行きたい。」が入力される。検出された始端は、音声認識部12または対話制御部14に通知する。
ステップS20にて、音声認識部12は、始端検出の通知に基づき、音声区間検出部11にて検出された第1音声区間の始端以降の第1音声の音声認識を開始する。ここでは、音声認識部12は、辞書データベースを参照して第1音声の音声認識を開始する。
ステップS30にて、音声区間検出部11は、第1音声区間の終端を検出する。検出された終端は、音声認識部12または対話制御部14に通知される。
ステップS32にて、音声区間検出部11は、第2音声を入力して第2音声区間の始端を検出する。ここでは、第2音声として、ユーザから発話される「やっぱりコンビニに行きたい。」が入力される。検出された始端は、音声認識部12または対話制御部14に通知される。
ステップS34にて、対話制御部14は、第2音声区間の始端検出の通知に基づき、音声記憶部15に第2音声の記憶を開始させる。なお、図8において、シーケンスチャートを簡略化するため、この通知に関する動作の図示は省略している。
ステップS40にて、音声認識部12は、終端検出の通知に基づき、音声区間検出部11にて検出された第1音声区間の終端までの第1音声の音声認識を終了する。第1音声の音声認識結果には、「スーパー」が認識語彙として含まれる。また、音声認識部12は、音声認識の終了を対話制御部14に通知する。対話制御部14は、その通知に基づき、以下のステップS50とステップS62とステップS70とが実行されるよう制御する。
ステップS50にて、応答生成部13は、対話制御部14からの制御に基づき、第1音声の音声認識結果に対応する第1応答の生成を開始する。応答生成部13は、図7に示されるシステム応答データベースを参照し、第1応答の生成を開始する。
ステップS62にて、音声認識部12は、対話制御部14からの制御に基づき、音声記憶部15から第2音声の読み込みを開始する。本実施の形態において、音声記憶部15は、第2音声区間内の第2音声を記憶しながら、時間差で、既に記憶された第2音声を音声認識部12に出力する。また、ステップS62から以下のステップS73までは、応答生成部13における第1応答の生成と並行して実行される。
ステップS70にて、音声認識部12は、始端検出の通知に基づき、音声記憶部15から読み込んだ第2音声区間の始端以降の第2音声の音声認識を開始する。このように、音声認識部12は、第1音声の音声認識が終了した通知に基づいて、第2音声の音声認識を開始することにより、第1音声の音声認識後に第2音声の音声認識を開始することができる。なお、音声認識部12は、辞書データベースを参照して第2音声の音声認識を開始する。
ステップS71にて、音声区間検出部11は、第2音声区間の終端を検出する。検出された終端は、音声認識部12または対話制御部14に通知される。
ステップS72にて、音声記憶部15は、第2音声の記憶を終了する。
ステップS73にて、音声記憶部15は、音声記憶部15からの第2音声の読み込みを終了する。
ステップS80にて、応答生成部13は、第1応答の生成を完了する。ここでは、応答生成部13は、音声出力用または表示出力用の情報として「スーパーの検索結果を表示します。」を含む第1応答を生成する。対話制御部14は、第1応答を応答提示装置22からユーザに提示するよう制御する。例えば、応答提示装置22がスピーカである場合、スピーカは、第1応答に従い「スーパーの検索結果を表示します。」と音声出力することにより、ユーザに第1応答を提示する。または例えば、応答提示装置22が表示装置である場合、表示装置は、第1応答に従い「スーパーの検索結果を表示します。」と表示することにより、ユーザに第1応答を提示する。または、応答生成部13は、スーパーを検索させる制御信号を含む第1応答を生成してもよい。この場合、システム200に含まれる目的地検索部(図示せず)がその第1応答に基づいてスーパーを検索し、応答提示装置22がスーパーの検索結果をユーザに提示する。なお、本実施の形態においては、応答生成部13は、第1応答の生成が完了したことを対話制御部14に通知する。
ステップS100にて、音声認識部12は、第2音声区間の終端までの第2音声の音声認識を終了する。第2音声の音声認識結果には、「コンビニ」が認識語彙として含まれる。また、音声認識部12は、音声認識の終了を対話制御部14に通知する。
ステップS110にて、応答生成部13は、対話制御部14からの制御に基づき、音声認識部12から入力する第2音声の音声認識結果に対応する第2応答の生成を開始する。応答生成部13は、図7に示されるシステム応答データベースを参照し、第2応答の生成を開始する。なお、本実施の形態において、このステップS110は、ステップS90の後に実行される。すなわち、対話制御部14は、第1応答の生成が完了した通知に基づき、ステップS110が実行されるよう制御する。
ステップS120にて、応答生成部13は、第2応答の生成を完了する。ここでは、応答生成部13は、音声出力用または表示出力用の情報として「コンビニの検索結果を表示します。」を含む第2応答を生成する。対話制御部14は、第2応答を応答提示装置22からユーザに提示するよう制御する。例えば、応答提示装置22がスピーカである場合、スピーカは、第2応答に従い「コンビニの検索結果を表示します。」と音声出力することにより、ユーザに第2応答を提示する。または例えば、応答提示装置22が表示装置である場合、表示装置は、第2応答に従い「コンビニの検索結果を表示します。」と表示することにより、ユーザに第2応答を提示する。または、応答生成部13は、コンビニを検索させる制御信号を含む第2応答を生成してもよい。この場合、システム200に含まれる目的地検索部がその第2応答に基づいてコンビニの検索し、応答提示装置22がコンビニの検索結果をユーザに提示する。
なお、以上の音声対話制御装置101の動作において、音声記憶部15に記憶される音声は第2音声に限定されない。音声記憶部15は第1音声も記憶してもよい。すなわち、音声対話制御装置101は、音声区間検出部11にて検出される第1音声区間の第1音声を音声記憶部15に一度記憶してから、一定時間経過後に読み出し、音声認識部12にて音声認識してもよい。
(効果)
以上をまとめると、実施の形態2における音声対話制御装置101は、音声区間検出部11にて検出される第2音声区間内の第2音声を記憶する音声記憶部15をさらに備える。対話制御部14は、音声認識部12にて第1音声の音声認識が終了したことを示す通知に基づき、音声記憶部15にて記憶されている第2音声を音声認識部12に音声認識させ、第2音声の音声認識結果に対応する第2応答を応答生成部13に生成させる。
このような構成により、音声対話制御装置101は、第1音声の処理中、例えば、音声認識中または応答生成中においても、第2音声の取得が可能である。すなわち、音声対話制御装置101は、任意のタイミングでユーザが発話する複数の音声の各々に対して適切な応答を生成することが可能である。
また、実施の形態2における音声対話制御装置101の対話制御部14は、応答生成部13にて第1応答の生成が完了したことを示す通知に基づき、音声認識部12にて音声認識される第2音声区間内の第2音声の音声認識結果に対応する第2応答を応答生成部13に生成させる。
このような構成により、音声対話制御装置101は、第1音声に対する第1応答および第2音声に対する第2応答の両方を順にユーザに提示することができる。例えば、システムが第1音声「スーパーに行きたい。」を入力してその処理を開始した直後に、ユーザが第2音声「やっぱりコンビニに行きたい。」と発話した場合、従来のシステムは第2音声を音声認識できず、スーパーの検索結果を提示する応答のみを行うことが考えられる。しかし、本実施の形態における音声対話制御装置101は、第1音声および第2音声の両方を入力して、それぞれスーパーの検索結果およびコンビニの検索結果を提示することができる。
<実施の形態3>
実施の形態3における音声対話制御装置および音声対話制御方法を説明する。
(構成)
図10は、実施の形態3における音声対話制御装置102およびシステム200の構成を示すブロック図である。音声対話制御装置102は、実施の形態2に示された構成に加えて、対話状態判定部16を含む。
対話状態判定部16は、音声認識部12にて音声認識される第2音声の音声認識結果が第1音声の音声認識結果を更新するものであるか否かを判定する。
対話制御部14は、対話状態判定部16の判定結果に基づき、第1音声に対する処理を途中で終了させかつ応答生成部13に第2応答を生成させる。
(処理回路)
上記の対話状態判定部16および対話制御部14の各機能は、例えば、図2に示される処理回路50により実現される。すなわち処理回路50は、上記の各機能を有する対話状態判定部16および対話制御部14を含む。
また、上記の対話状態判定部16および対話制御部14の各機能が、図3に示される処理回路により実現される場合、メモリ52に格納されるプログラムには、音声認識される第2音声の音声認識結果が第1音声の音声認識結果を更新するものであるか否かを判定する機能および動作が記述されている。さらに、プログラムには、その判定結果に基づき、第1音声に対する処理を途中で終了させるとともに、第2応答を生成させる機能および動作が記述されている。
(動作)
次に、音声対話制御装置102の動作および音声対話制御方法を説明する。図11は、実施の形態3における音声対話制御装置102の動作および音声対話制御方法の一例を示すシーケンスチャートである。図12は、実施の形態3における音声対話制御装置102の動作および音声対話制御方法の一例を示すフローチャートである。なお、以下の説明において、音声記憶部15の動作説明は省略するが、その動作は実施の形態2と同様である。
ステップS10にて、音声区間検出部11は、第1音声を入力して第1音声区間の始端を検出する。ここでは、第1音声として、ユーザから発話される「コンビニに行きたい。」が入力される。検出された始端は、音声認識部12または対話制御部14に通知される。
ステップS20にて、音声認識部12は、始端検出の通知に基づき、音声区間検出部11にて検出された第1音声区間の始端以降の第1音声の音声認識を開始する。音声認識部12は、辞書データベースを参照して音声認識する。
ステップS30にて、音声区間検出部11は、第1音声区間の終端を検出する。検出された終端は、音声認識部12または対話制御部14に通知される。
ステップS40にて、音声認識部12は、終端検出の通知に基づき、音声区間検出部11にて検出された第1音声区間の終端までの第1音声の音声認識を終了する。第1音声の音声認識結果には、「コンビニ」が認識語彙として含まれる。また、音声認識部12は、音声認識の終了を対話制御部14に通知する。
ステップS50にて、応答生成部13は、対話制御部14からの制御に基づき、第1音声の音声認識結果に対応する第1応答の生成を開始する。応答生成部13は、図7に示されるシステム応答データベースを参照し、第1応答の生成を開始する。
ステップS60にて、音声区間検出部11は、第1音声の後に入力される第2音声の第2音声区間の始端を検出する。ここでは、第2音声として、ユーザから発話される「やっぱりレストランに行きたい。」が入力される。検出された始端は、音声認識部12または対話制御部14に通知される。
ステップS70にて、音声認識部12は、音声区間検出部11にて検出された第2音声区間の始端以降の第2音声の音声認識を開始する。音声認識部12は、辞書データベース記憶装置23に記憶された辞書データベースを参照して音声認識する。
ステップS90にて、音声区間検出部11は、第2音声区間の終端を検出する。検出された終端は、音声認識部12または対話制御部14に通知される。
ステップS100にて、音声認識部12は、第2音声区間の終端までの第2音声の音声認識を終了する。第2音声の音声認識結果には、「レストラン」が認識語彙として含まれる。また、音声認識部12は、音声認識の終了を対話制御部14に通知する。
ステップS102にて、対話状態判定部16は、第2音声の音声認識結果が第1音声の音声認識結果を更新するものであるか否かを判定し、判定結果を対話制御部14に出力する。本実施の形態において、「レストラン」を含む第2音声の音声認識結果が、「コンビニ」を含む第1音声の音声認識結果を更新するものか否か判定される。更新するものではないと判定された場合、ステップS104が実行される。更新するものであると判定された場合、ステップS106が実行される。本実施の形態において、対話状態判定部16は、「コンビニ」を含む第1音声の音声認識結果が、「レストラン」を含む第2音声の音声認識結果を更新するものと判定する。この判定動作において、対話状態判定部16は、「コンビニ」および「レストラン」の語彙の並列関係に基づいて更新要否を判定してもよいし、第2音声に含まれる他の語彙、例えば逆説の接続詞「やっぱり」に基づいて更新要否を判定してもよい。
ステップS102にて更新するものではないと判定された場合、ステップS104にて、判定結果に基づく対話制御部14の制御により、応答生成部13は第1応答の生成を完了し、応答提示装置22はその第1応答をユーザに提示する。この場合、実施の形態2に示されたステップS80と同様の応答提示がなされる。続いて、図12に示されるステップS110以降にて、第2音声に対する応答が応答提示装置22に提示される。
一方で、ステップS102にて更新するものであると判定された場合、ステップS106において、判定結果に基づき、対話制御部14は第1音声に対する処理を途中で終了させる。
ステップS110にて、応答生成部13は、第2音声の音声認識結果に対応する第2応答の生成を開始する。応答生成部13は、図7に示されるシステム応答データベースを参照し、第2応答の生成を開始する。
ステップS120にて、応答生成部13は、第2応答の生成を完了する。ここでは、応答生成部13は、音声出力用または表示出力用の情報として「レストランの検索結果を表示します。」を含む第2応答を生成する。対話制御部14は、第2応答を応答提示装置22からユーザに提示するよう制御する。例えば、応答提示装置22がスピーカである場合、スピーカは、第2応答に従い「レストランの検索結果を表示します。」と音声出力することにより、ユーザに第2応答を提示する。または例えば、応答提示装置22が表示装置である場合、表示装置は、第2応答に従い「レストランの検索結果を表示します。」と表示することにより、ユーザに第2応答を提示する。または、応答生成部13がレストランを検索させる制御信号を含む第2応答を生成してもよい。この場合、システム200に含まれる目的地検索部がその第2応答に基づいてレストランの検索を開始し、応答提示装置22がレストランの検索結果を表示する。
第1音声に対する処理が実行されている間に、第1音声とは整合しない第2音声が入力された場合、対話制御部14は、第1音声に対する処理を途中で中止させ、第2音声に対応する第2応答のみ生成されるよう制御する。それにより、第2応答のみが、応答提示装置22に提示される。
(効果)
以上をまとめると、本実施の形態3における音声対話制御装置102は、音声認識部12にて音声認識される第2音声区間内の第2音声の音声認識結果が第1音声の音声認識結果を更新するものであるか否かを判定する対話状態判定部16をさらに備える。対話制御部14は、対話状態判定部16の判定結果に基づき、第1音声に対する処理を途中で終了させかつ応答生成部13に第2応答を生成させる。
このような構成により、音声対話制御装置102は、第1音声に基づく操作内容と第2音声に基づく操作内容とが整合しない場合、第1音声に対する処理を途中で終了させ、第2音声に対する応答を提示させることができる結果、ユーザの操作性を高めることができる。例えば、システムが第1音声「コンビニに行きたい。」を入力してその処理を開始した直後に、ユーザが第2音声「やっぱりレストランに行きたい。」と発話した場合、従来のシステムは第2音声を音声認識できず、コンビニの検索結果を提示する応答のみを行うことが考えられる。しかし、本実施の形態3における音声対話制御装置102は、第1音声の音声認識結果と第2音声の音声認識結果とに基づき、よりユーザの意図に沿った応答すなわち第2音声に対するレストランの検索結果を実施の形態2における音声対話制御装置101よりも早く提示することができる。
<実施の形態4>
実施の形態4における音声対話制御装置および音声対話制御方法を説明する。なお、他の実施の形態と同様の構成および動作については説明を省略する。
(構成)
図13は、実施の形態4における音声対話制御装置103およびシステム200の構成を示すブロック図である。
システム200の辞書データベース記憶装置23には、複数の辞書データベースが格納されている。本実施の形態において、辞書データベース記憶装置23には、第1辞書データベース24と第2辞書データベース25とが格納されている。
第1辞書データベース24は、システム200の待受状態に対応して準備された辞書データベースである。待受状態とは、例えば、システム200の音声入力装置21がユーザによる操作を受付可能な状態、すなわち第1音声の入力を待ち受けている状態である。待受状態においては、システム200が含む別のユーザインターフェースである表示装置は、例えばメニュー画面を表示している。第2辞書データベース25は、システム200が第1音声の音声認識した後の状態に対応し、かつ、第1音声の音声認識結果に含まれる特定語彙に関連する辞書データベースである。
音声認識部12は、複数の辞書データベースのうちシステム200の状態に応じた一の辞書データベースを参照して音声認識する。
本実施の形態において、音声認識部12は、システム200の状態が待受状態である場合、その待受状態に対応する一の辞書データベースとして第1辞書データベース24を参照して第1音声を音声認識する。または、システム200が待受状態である場合、音声認識部12は、全ての辞書データベースを参照することにより、待受状態に対応する一の辞書データベースとして第1辞書データベース24を参照して第1音声を音声認識する。図14は、実施の形態4における第1辞書データベース24の構成の一例を示す図である。第1辞書データベース24は、システム200の状態と認識語彙とを含む。図14において第1画面とは、メニュー画面等の待受画面である。
また、音声認識部12は、システム200の状態が第1音声の音声認識後の状態であり、かつ、第1音声の音声認識結果に特定語彙が含まれる状態である場合、その状態に対応する一の辞書データベースとしてその特定語彙に関連する第2辞書データベース25を参照して第2音声を音声認識する。例えば、音声認識部12または対話制御部14が、第1音声の音声認識後に、第1音声の音声認識結果に特定語彙が含まれるか否かを判定し、特定語彙が含まれると判定した場合には、第2辞書データベース25を参照して第2音声を音声認識することを選択する。このように、音声認識部12は、システム200の状態に応じて音声認識に用いる辞書データベースを切り替えるなどの処理を行う機能を有する。図15は、実施の形態4における第2辞書データベース25の構成の一例を示す図である。第2辞書データベース25は、システム200の主状態と、システム200の関連状態と、認識語彙とを含む。
応答生成部13は、音声の音声認識結果と、その音声の音声認識のために参照された一の辞書データベースの情報とに対応する応答を生成する。例えば、応答生成部13は、第1音声の音声認識結果と第1音声の音声認識のために参照された第1辞書データベース24の情報とに対応する第1応答を生成する。または例えば、応答生成部13は、第2音声の音声認識結果と第2音声の音声認識のために参照された第2辞書データベース25の情報とに対応する第2応答を生成する。
(システム応答データベース)
応答生成部13は、音声に対する応答を、システム応答データベースを参照して応答を生成する。図16は、実施の形態4におけるシステム応答データベースの構成の一例を示す図である。システム応答データベースは、音声認識結果に含まれる認識語彙と、音声認識のために参照された辞書データベースの情報と、それらに対応する応答とで構成される。
(処理回路)
上記の音声認識部12および応答生成部13の各機能は、例えば、図2に示される処理回路50により実現される。すなわち処理回路50は、上記の各機能を有する音声認識部12および応答生成部13を含む。
また、上記の音声認識部12および応答生成部13の各機能が、図3に示される処理回路により実現される場合、メモリ52に格納されるプログラムには、音声を複数の辞書データベースのうち一の辞書データベースを参照して音声認識し、音声の音声認識結果と音声の音声認識のために参照された一の辞書データベースの情報とに対応する応答を生成する機能および動作が記述されている。また、プログラムには、システム200の待受状態に対応して準備された第1辞書データベース24を参照して第1音声を音声認識し、第1音声の音声認識結果に含まれる特定語彙に関連する第2辞書データベース25を参照して第2音声を音声認識する機能および動作が記述されている。また、プログラムには、第2音声の音声認識結果と第2辞書データベース25の情報とに対応する第2応答を生成する機能および動作が記述されている。
(動作)
次に、音声対話制御装置103の動作および音声対話制御方法を説明する。図17は、実施の形態4における音声対話制御装置103の動作および音声対話制御方法の一例を示すシーケンスチャートである。図18は、実施の形態4における音声対話制御装置103の動作および音声対話制御方法の一例を示すフローチャートである。なお、以下の説明において、音声記憶部15の動作説明は省略するが、その動作は実施の形態2と同様である。
ステップS10にて、音声区間検出部11は、第1音声を入力して第1音声区間の始端を検出する。ここでは、第1音声として、ユーザから発話される「再生」が入力される。検出された始端は、音声認識部12または対話制御部14に通知される。
ステップS22にて、音声認識部12は、システム200の待受状態に対応する第1辞書データベース24を選択する。例えば、音声認識部12は、システム200が待受状態であることを示す情報を取得し、その情報に基づき、複数の辞書データベースの中から、図14に示される第1辞書データベース24を選択する。ここで、音声認識部12が取得する待受状態であることを示す情報とは、第1画面が表示されているという情報である。
ステップS24にて、音声認識部12は、第1辞書データベース24を参照して、音声区間検出部11にて検出された第1音声区間の始端以降の第1音声の音声認識を開始する。または、ステップS22とS24とを組み合わせて、音声認識部12は、システム200が待受状態である情報に基づき、全ての辞書データベースを参照することにより、待受状態に対応する第1辞書データベース24を参照して第1音声を音声認識してもよい。
ステップS30にて、音声区間検出部11は、第1音声区間の終端を検出する。検出された終端は、音声認識部12または対話制御部14に通知される。
ステップS40にて、音声認識部12は、終端検出の通知に基づき、音声区間検出部11にて検出された第1音声区間の終端までの第1音声の音声認識を終了する。第1音声の音声認識結果には、「再生」が認識語彙として含まれる。
ステップS60にて、音声区間検出部11は、第1音声の後に入力される第2音声の第2音声区間の始端を検出する。ここでは、第2音声として、ユーザから発話される「音楽」が入力される。検出された始端は、音声認識部12または対話制御部14に通知される。
ステップS74にて、音声認識部12は、システム200が第1音声の音声認識後の状態であり、かつ、第1音声の音声認識結果に特定語彙が含まれる状態に対応する第2辞書データベース25を選択する。例えば、音声認識部12は、第1音声の音声認識結果に特定語彙が含まれるか否かを判定し、特定語彙が含まれると判定した場合には、複数の辞書データベースから、その特定語彙に関連する第2辞書データベース25を選択する。ここでは、音声認識部12は、第1音声の音声認識結果に、特定語彙である「再生」が含まれるか否かを判定し、含まれると判定した場合に、図15に示される第2辞書データベース25を参照して第2音声を音声認識する。
ステップS76にて、音声認識部12は、第2辞書データベース25を参照して、音声区間検出部11にて検出された第2音声区間の始端以降の第2音声の音声認識を開始する。このように、音声認識部12は、システム200の状態に応じて、音声認識に用いる辞書データベースを第1辞書データベース24から第2辞書データベース25に切り替える機能を有する。
ステップS90にて、音声区間検出部11は、第2音声区間の終端を検出する。検出された終端は、音声認識部12または対話制御部14に通知される。
ステップS100にて、音声認識部12は、第2音声区間の終端までの第2音声の音声認識を終了する。第2音声の音声認識結果と、その第2音声の音声認識のために参照された第2辞書データベース25の情報とが、応答生成部13に出力される。なお、第2音声の音声認識結果には、「音楽」が認識語彙として含まれる。また、音声認識部12は、音声認識の終了を対話制御部14に通知する。
ステップS110にて、応答生成部13は、第2音声の音声認識結果に対応する第2応答の生成を開始する。応答生成部13は、図16に示されるシステム応答データベースを参照し、第2応答の生成を開始する。
ステップS120にて、応答生成部13は、第2応答の生成を完了する。ここでは、認識語彙は「音楽」、辞書データベース情報は「第2辞書データベース」であるため、応答生成部13は、音声出力用の情報として「音楽を再生します。」を含む第2応答を生成する。対話制御部14は、第2応答を応答提示装置22からユーザに提示するよう制御する。例えば、応答提示装置22に含まれるスピーカが、第2応答に従い「音楽を再生します。」と音声出力することにより、ユーザに第2応答を提示する。または、応答生成部13は、応答提示装置22に含まれる音楽再生装置に音楽を再生させる制御信号を含む第2応答を生成し、音楽再生装置がその第2応答に基づいて音楽を再生してもよい。
なお、フローチャートによる図示は省略するが、ステップS60にて、第2音声の入力がない場合、第1音声の音声認識結果とその第1音声の音声認識のために参照された第1辞書データベース24の情報とが、応答生成部13に出力される。認識語彙は「再生」、辞書データベース情報は「第1辞書データベース」であるため、応答生成部13は、音声出力用または表示出力用の情報として「何を再生しますか?」を含む第1応答を生成し、応答提示装置22がその第1応答をユーザに提示する。
(効果)
以上をまとめると、実施の形態4における音声対話制御装置103の音声認識部12は、音声を複数の辞書データベースのうちシステムの状態に応じた一の辞書データベースを参照して音声認識する。応答生成部13は、音声の音声認識結果と音声の音声認識のために参照された一の辞書データベースの情報とに対応する応答を生成する。
このような構成により、音声対話制御装置103は、システム200の状態すなわち対話状態によって、音声認識の際に参照する辞書データベースを切り替えることができるため、ユーザの発話に対して正確な応答を生成することができる。
また、実施の形態4における音声対話制御装置103の音声認識部12は、複数の辞書データベースのうちシステム200の待受状態に対応して準備された第1辞書データベース24を参照して第1音声を音声認識し、複数の辞書データベースのうち第1音声の音声認識後の状態に対応しかつ第1音声の音声認識結果に含まれる特定語彙に関連する第2辞書データベース25を参照して第2音声を音声認識する。応答生成部13は、第2音声の音声認識結果と第2音声の音声認識のために参照された第2辞書データベースの情報とに対応する第2応答を生成する。
このような構成により、音声対話制御装置103は、第1音声および第2音声の両方の内容を反映した応答を生成することができ、ユーザの発話に対して正確な応答を生成することができる。例えば、システムが第1音声「再生」を入力してその処理を開始した直後に、ユーザが第2音声「音楽」と発話した場合、従来のシステムは第2音声を音声認識できず、ユーザに何を再生するか尋ねる応答を提示することが考えられる。しかし、本実施の形態における音声対話制御装置103は、第1音声の音声認識結果に関連する第2辞書データベースを参照して第2音声を音声認識するため、ユーザの意図に沿って、音楽を再生させることができる。
<実施の形態5>
実施の形態5における音声対話制御装置および音声対話制御方法を説明する。なお、他の実施の形態と同様の構成および動作については説明を省略する。
(構成)
図19は、実施の形態5における音声対話制御装置104およびシステム200の構成を示すブロック図である。
応答生成部13は、音声の音声認識結果に対応して生成される複数の応答から一の応答をユーザに選択させるための確認応答を生成する確認応答生成部17をさらに含む。
対話制御部14は、確認応答をシステム200からユーザに提示させ、確認応答に従ってユーザによって入力される音声に対応する一の応答を応答生成部に生成させて、システム200からユーザに提示させる。
(処理回路)
上記の確認応答生成部17および応答生成部13の各機能は、例えば、図2または図3に示される処理回路により実現される。図3に示される処理回路により実現される場合、メモリ52に格納されるプログラムには、音声の音声認識結果に対応して生成される複数の応答のから一の応答をユーザに選択させるための確認応答を生成する機能および動作が記述されている。また、プログラムには、確認応答をシステム200からユーザに提示させ、確認応答に従ってユーザによって入力される音声に対応する一の応答を生成させて、システム200からユーザに提示させる機能および動作が記述されている。
(動作)
次に、音声対話制御装置104の動作および音声対話制御方法を説明する。図20は、実施の形態5における音声対話制御装置104の動作および音声対話制御方法の一例を示すフローチャートである。なお、本実施の形態においては、ステップS10からステップS110までは、実施の形態4と同様であるため説明は省略する。
ステップS112にて、応答生成部13は、第2音声の音声認識結果に対応する複数の第2応答が生成され得るか否かを判定する。例えば、音楽を再生するポータブルデバイスとCD(Compact Disc)プレイヤーとがシステム200に備わっていた場合、応答生成部13は、ポータブルデバイスに記憶されている音楽を再生させる制御信号を含む第2応答と、CDに記憶されている音楽を再生させる制御信号を含む第2応答とを生成可能である。複数の第2応答が生成されないと判定された場合、ステップS120が実行される。この場合、ステップS120以降の処理は、実施の形態4と同様である。複数の第2応答が生成されると判定された場合、ステップS122が実行される。
ステップS122にて、確認応答生成部17は、第2音声の音声認識結果に対応して生成される複数の第2応答のうち、一の第2応答をユーザに選択させるための確認応答を生成する。ここでは、確認応答生成部17は、音声出力用または表示出力用の情報として「ポータブルデバイスの音楽を再生しますか?それともCDの音楽を再生しますか?」を含む確認応答を生成する。
ステップS124にて、対話制御部14は、確認応答を応答提示装置22からユーザに提示させる。応答提示装置22は、「ポータブルデバイスの音楽を再生しますか?それともCDの音楽を再生しますか?」をユーザに提示し、ユーザは確認応答に従ってシステムを操作するための音声を再び入力する。例えば、ユーザにより「ポータブルデバイスの音楽を再生。」という音声が入力された場合、音声対話制御装置104は、上記の各ステップと同様の音声認識および応答生成により一の第2応答を生成する。応答提示装置22が、ポータブルデバイスの音楽を再生することにより、選択された一の第2応答がユーザに提示される。
(効果)
以上をまとめると、実施の形態4における音声対話制御装置104の応答生成部13は、音声の音声認識結果に対応して生成する複数の応答から一の応答をユーザに選択させるための確認応答を生成する確認応答生成部17をさらに含む。対話制御部14は、確認応答をシステム200からユーザに提示させ、確認応答に従ってユーザによって入力される音声に対応する一の応答を応答生成部13に生成させて、システム200からユーザに提示させる。
このような構成により、音声対話制御装置104は、ユーザとシステムとの対話に曖昧性が生じている場合に、ユーザに確認を求めることができる。
<実施の形態6>
実施の形態6における音声対話制御装置および音声対話制御方法を説明する。
(構成)
実施の形態6における音声対話制御装置104およびシステム200の構成は実施の形態4と同様である。ただし、本実施の形態における対話制御部14は、第1音声区間の終端から第2音声区間の始端までの経過時間が特定値以上であるか否か判定する。対話制御部14は、経過時間が特定値以上である場合、複数の辞書データベースのうちシステム200の待受状態に対応して準備された第1辞書データベース24を参照して第2音声を音声認識させる。または、対話制御部14は、経過時間が特定値未満である場合、複数の辞書データベースのうち第1音声の音声認識後の状態に対応しかつ第1音声の音声認識結果に含まれる特定語彙に関連する第2辞書データベースを参照して第2音声を音声認識させる。対話制御部14は、第1音声と第2音声との関連性を、経過時間が閾値以上であるか否かに基づいて判断してユーザに提示すべき応答を生成させる。
(処理回路)
上記の対話制御部14の機能は、例えば、図2または図3に示される処理回路により実現される。図3に示される処理回路により実現される場合、メモリ52に格納されるプログラムには、第1音声区間の終端から第2音声区間の始端までの経過時間が特定値以上であるか否かの判定に基づき、複数の辞書データベースのうちシステム200の待受状態に対応して準備された第1辞書データベース24を参照して第2音声を音声認識させる機能および動作が記述されている。または、上記判定に基づき、複数の辞書データベースのうち第1音声の音声認識後の状態に対応しかつ第1音声の音声認識結果に含まれる特定語彙に関連する第2辞書データベースを参照して第2音声を音声認識させる機能および動作が記述されている。
(動作)
次に、音声対話制御装置104の動作および音声対話制御方法を説明する。図21は、実施の形態6における音声対話制御装置104の動作および音声対話制御方法の一例を示すフローチャートである。なお、本実施の形態におけるステップS10からステップS60までは、実施の形態4と同様であるため説明は省略する。
ステップS64にて、対話制御部14は、第1音声区間の終端から第2音声区間の始端までの経過時間が特定値以上であるか否か判定する。経過時間が特定値以上でないと判定された場合、すなわち発話間に関連性があると判定された場合、ステップS74が実行される。経過時間が特定値以上であると判定された場合、すなわち発話間に関連性がないと判定された場合、ステップS70が実行される。
ステップS74およびS76にて、音声認識部12は、音声区間検出部11にて検出された第2音声区間の始端以降の第2音声の音声認識を開始する。音声認識部12は、第1音声の音声認識結果に含まれる特定語彙に関連する第2辞書データベース25を参照して第2音声を音声認識する。ステップS74以降の各処理は、図18に示される実施の形態4における各処理と同様である。
一方で、発話間に関連性がないと判定された場合、ステップS70にて、音声認識部12は、音声区間検出部11にて検出された第2音声区間の始端以降の第2音声の音声認識を開始する。だだし、音声認識部12は、システム200の待受状態に対応して準備された第1辞書データベース24を参照して音声認識する。
ステップS90にて、音声区間検出部11は、第2音声区間の終端を検出する。検出された終端は、音声認識部12または対話制御部14に通知される。
ステップS100にて、音声認識部12は、第2音声区間の終端までの第2音声の音声認識を終了する。第2音声の音声認識結果と、その第2音声の音声認識のために参照された第1辞書データベース24の情報とが、応答生成部13に出力される。なお、第2音声の音声認識結果には、「音楽」が認識語彙として含まれる。また、音声認識部12は、音声認識の終了を対話制御部14に通知する。
ステップS110にて、応答生成部13は、第2音声の音声認識結果に対応する第2応答の生成を開始する。応答生成部13は、図16に示されるシステム応答データベースを参照し、第2応答の生成を開始する。
ステップS120にて、応答生成部13は、第2応答の生成を完了する。ここでは、認識語彙は「音楽」、辞書データベース情報は「第1辞書データベース」であるため、応答生成部13は、音声出力用の情報として「音楽画面を表示します。」を含む第2応答を生成する。対話制御部14は、第2応答を応答提示装置22からユーザに提示するよう制御する。例えば、応答提示装置22に含まれるスピーカが、第2応答に従い「音楽画面を表示します。」と音声出力することにより、ユーザに第2応答を提示する。または、応答生成部13が応答提示装置22に含まれる表示装置に音楽画面を表示させる制御信号を含む第2応答を生成し、表示装置がその第2応答に基づいて音楽画面を表示してもよい。
(効果)
以上をまとめると、実施の形態4における音声対話制御装置104の対話制御部14は、第1音声区間の終端から第2音声区間の始端までの経過時間が特定値以上であるか否かの判定に基づき、複数の辞書データベースのうちシステム200の待受状態に対応して準備された第1辞書データベース24を参照して第2音声を音声認識させる、または、複数の辞書データベースのうち第1音声の音声認識後の状態に対応しかつ第1音声の音声認識結果に含まれる特定語彙に関連する第2辞書データベース25を参照して第2音声を音声認識させる。
このような構成により、音声対話制御装置104は、音声の音声認識結果に加えて、ユーザからの発話タイミングも考慮して応答を生成することにより、ユーザの発話に対し正確な応答を生成することができる。
<実施の形態7>
実施の形態1から6にて示された各音声対話制御装置は、例えば、車両に搭載される。図22は、車両30に搭載された音声対話制御装置105の構成の一例を示すブロック図である。ここで、音声対話制御装置105は、実施の形態1から6にて示された音声対話制御装置100から104のいずれかの音声対話制御装置である。システム200は、例えば、ナビゲーション装置、オーディオ装置、PND(Portable Navigation Device)など車載装置(図示せず)を含む。ユーザによって発話される音声を車載装置の音声入力装置(図示せず)が入力し、その音声に対応する応答を音声対話制御装置105が生成し、車載装置の応答提示装置(図示せず)がその応答をユーザに提示する。
また、音声対話制御装置105を含むシステム200は、車載装置に含まれる通信端末と、車両の外部に設置されたサーバと、これらにインストールされるアプリケーションの機能とを適宜に組み合わせて構築されてもよい。図23は、サーバ40に設けられる音声対話制御装置105の構成の一例を示すブロック図である。通信端末32の音声入力装置(図示せず)から入力される音声は、ネットワークを介してサーバ40の通信装置41で受信され、音声対話制御装置105にて処理される。音声対話制御装置105はその音声に対応する応答を生成する。生成された応答は、通信装置41からネットワークを介して車載装置31の応答提示装置(図示せず)からユーザに提示される。その応答提示装置は通信端末32に含まれていてもよい。ここで、通信端末32とは、例えば、携帯電話、スマートフォンおよびタブレットなどである。また、音声対話制御装置105の各構成要素は、システム200を構築する各機器に分散して配置されてもよい。その場合、各構成要素が互いに適宜通信することにより各機能が実現される。音声対話制御装置105がサーバ40に設けられることにより、または、音声対話制御装置105の各構成要素がサーバ40等に分散配置されることにより、車両30または車載装置31の構成を簡素化しながらも、音声対話制御装置105の機能が実現される。
なお、本発明は、その発明の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略したりすることが可能である。本発明は詳細に説明されたが、上記した説明は、全ての局面において、例示であって、本発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。
11 音声区間検出部、12 音声認識部、13 応答生成部、14 対話制御部、15 音声記憶部、16 対話状態判定部、17 確認応答生成部、24 第1辞書データベース、25 第2辞書データベース、100 音声対話制御装置、200 システム。

Claims (9)

  1. ユーザとシステムとの対話によりユーザがシステムに対して操作を行うに際し、ユーザから入力される音声に対する応答を前記システムから前記ユーザに提示させるための対話制御を行う音声対話制御装置であって、
    入力される一続きの前記音声をなす始端から終端までの音声区間を検出する音声区間検出部と、
    前記音声区間内の前記音声を音声認識する音声認識部と、
    前記音声の音声認識結果に対応する応答であって、前記システムから前記ユーザに提示させるべき前記応答を生成する応答生成部と、
    前記音声区間検出部と前記音声認識部と前記応答生成部とを制御する対話制御部と、を備え、
    前記対話制御部は、
    前記音声として入力される一続きの第1音声をなす第1音声区間が検出されてから前記第1音声の前記音声認識結果に対応する第1応答が前記システムから前記ユーザに提示されるまでの処理を含む前記第1音声に対する処理が終了していなくても、前記第1音声の後に前記音声として入力される一続きの第2音声に対する第2応答を生成可能とするために前記第2音声をなす第2音声区間を前記音声区間検出部に検出させる音声対話制御装置。
  2. 前記音声区間検出部にて検出される前記第2音声区間内の前記第2音声を記憶する音声記憶部をさらに備え、
    前記対話制御部は、
    前記音声認識部にて前記第1音声の音声認識が終了したことを示す通知に基づき、前記音声記憶部にて記憶されている前記第2音声を前記音声認識部に音声認識させ、前記第2音声の前記音声認識結果に対応する前記第2応答を前記応答生成部に生成させる請求項1に記載の音声対話制御装置。
  3. 前記対話制御部は、
    前記応答生成部にて前記第1応答の生成が完了したことを示す通知に基づき、前記音声認識部にて音声認識される前記第2音声区間内の前記第2音声の前記音声認識結果に対応する前記第2応答を前記応答生成部に生成させる請求項1に記載の音声対話制御装置。
  4. 前記音声認識部にて音声認識される前記第2音声区間内の前記第2音声の前記音声認識結果が前記第1音声の前記音声認識結果を更新するものであるか否かを判定する対話状態判定部をさらに備え、
    前記対話制御部は、
    前記対話状態判定部の判定結果に基づき、前記第1音声に対する前記処理を途中で終了させかつ前記応答生成部に前記第2応答を生成させる請求項1に記載の音声対話制御装置。
  5. 前記音声認識部は、
    前記音声を複数の辞書データベースのうち前記システムの状態に応じた一の辞書データベースを参照して音声認識し、
    前記応答生成部は、
    前記音声の前記音声認識結果と前記音声の音声認識のために参照された前記一の辞書データベースの情報とに対応する前記応答を生成する請求項1に記載の音声対話制御装置。
  6. 前記音声認識部は、
    前記複数の辞書データベースのうち前記システムの待受状態に対応して準備された第1辞書データベースを参照して前記第1音声を音声認識し、
    前記複数の辞書データベースのうち前記第1音声の音声認識後の状態に対応しかつ前記第1音声の前記音声認識結果に含まれる特定語彙に関連する第2辞書データベースを参照して前記第2音声を音声認識し、
    前記応答生成部は、
    前記第2音声の前記音声認識結果と前記第2音声の音声認識のために参照された前記第2辞書データベースの情報とに対応する前記第2応答を生成する請求項5に記載の音声対話制御装置。
  7. 前記応答生成部は、
    前記音声の前記音声認識結果に対応して生成する複数の前記応答から一の応答を前記ユーザに選択させるための確認応答を生成する確認応答生成部をさらに含み、
    前記対話制御部は、
    前記確認応答を前記システムから前記ユーザに提示させ、前記確認応答に従って前記ユーザによって入力される前記音声に対応する一の応答を前記応答生成部に生成させて、前記システムから前記ユーザに提示させる請求項1に記載の音声対話制御装置。
  8. 前記対話制御部は、
    前記第1音声区間の終端から前記第2音声区間の始端までの経過時間が特定値以上であるか否かの判定に基づき、前記複数の辞書データベースのうち前記システムの待受状態に対応して準備された第1辞書データベースを参照して前記第2音声を音声認識させる、または、前記複数の辞書データベースのうち前記第1音声の音声認識後の状態に対応しかつ前記第1音声の前記音声認識結果に含まれる特定語彙に関連する第2辞書データベースを参照して前記第2音声を音声認識させる請求項5に記載の音声対話制御装置。
  9. ユーザとシステムとの対話によりユーザがシステムに対し操作を行うに際し、ユーザから入力される音声に対する応答を前記システムから前記ユーザに提示させるための対話制御を行う音声対話制御方法であって、
    入力される一続きの前記音声をなす始端から終端までの音声区間を検出し、
    前記音声区間内の前記音声を音声認識し、
    前記音声の音声認識結果に対応する応答であって、前記システムから前記ユーザに提示させるべき前記応答を生成し、
    前記音声区間の検出、前記音声の音声認識、および、前記応答の生成の各々の制御を実行し、
    前記制御を実行する際、
    前記音声として入力される一続きの第1音声をなす第1音声区間が検出されてから前記第1音声の音声認識結果に対応する第1応答が前記システムから前記ユーザに提示されるまでの処理を含む前記第1音声に対する処理が終了していなくても、前記第1音声の後に前記音声として入力される一続きの第2音声に対する第2応答を生成可能とするために前記第2音声をなす第2音声区間を検出させる音声対話制御方法。
JP2019542865A 2017-09-20 2017-09-20 音声対話制御装置および音声対話制御方法 Active JP6851491B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/033902 WO2019058453A1 (ja) 2017-09-20 2017-09-20 音声対話制御装置および音声対話制御方法

Publications (2)

Publication Number Publication Date
JPWO2019058453A1 true JPWO2019058453A1 (ja) 2019-12-12
JP6851491B2 JP6851491B2 (ja) 2021-03-31

Family

ID=65811399

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019542865A Active JP6851491B2 (ja) 2017-09-20 2017-09-20 音声対話制御装置および音声対話制御方法

Country Status (2)

Country Link
JP (1) JP6851491B2 (ja)
WO (1) WO2019058453A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112599133A (zh) * 2020-12-15 2021-04-02 北京百度网讯科技有限公司 基于车辆的语音处理方法、语音处理器、车载处理器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001014165A (ja) * 1999-06-30 2001-01-19 Toshiba Corp 応答生成装置、対話管理装置、応答生成方法および応答生成プログラムを格納するコンピュータ読み取り可能な記録媒体
JP2003058188A (ja) * 2001-08-13 2003-02-28 Fujitsu Ten Ltd 音声対話システム
JP2004037910A (ja) * 2002-07-04 2004-02-05 Denso Corp 対話システム及び対話型しりとりシステム
JP2015064450A (ja) * 2013-09-24 2015-04-09 シャープ株式会社 情報処理装置、サーバ、および、制御プログラム
JP2017102320A (ja) * 2015-12-03 2017-06-08 アルパイン株式会社 音声認識装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001014165A (ja) * 1999-06-30 2001-01-19 Toshiba Corp 応答生成装置、対話管理装置、応答生成方法および応答生成プログラムを格納するコンピュータ読み取り可能な記録媒体
JP2003058188A (ja) * 2001-08-13 2003-02-28 Fujitsu Ten Ltd 音声対話システム
JP2004037910A (ja) * 2002-07-04 2004-02-05 Denso Corp 対話システム及び対話型しりとりシステム
JP2015064450A (ja) * 2013-09-24 2015-04-09 シャープ株式会社 情報処理装置、サーバ、および、制御プログラム
JP2017102320A (ja) * 2015-12-03 2017-06-08 アルパイン株式会社 音声認識装置

Also Published As

Publication number Publication date
JP6851491B2 (ja) 2021-03-31
WO2019058453A1 (ja) 2019-03-28

Similar Documents

Publication Publication Date Title
US11356730B2 (en) Systems and methods for routing content to an associated output device
US10867596B2 (en) Voice assistant system, server apparatus, device, voice assistant method therefor, and program to be executed by computer
US10777203B1 (en) Speech interface device with caching component
US10706853B2 (en) Speech dialogue device and speech dialogue method
US8762156B2 (en) Speech recognition repair using contextual information
EP3475942B1 (en) Systems and methods for routing content to an associated output device
JP4260788B2 (ja) 音声認識機器制御装置
KR102360589B1 (ko) 관련 출력 디바이스에 컨텐츠를 라우팅하기 위한 시스템 및 방법
US10599469B2 (en) Methods to present the context of virtual assistant conversation
JP2018532165A (ja) 個別化されたエンティティ発音の学習
JP2001083991A (ja) ユーザインタフェース装置、ナビゲーションシステム、情報処理装置及び記録媒体
JPWO2019155717A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP6851491B2 (ja) 音声対話制御装置および音声対話制御方法
WO2019138652A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2006058641A (ja) 音声認識装置
JP4585759B2 (ja) 音声合成装置、音声合成方法、プログラム、及び記録媒体
JP2011180416A (ja) 音声合成装置、音声合成方法およびカーナビゲーションシステム
JP6571587B2 (ja) 音声入力装置、その方法、及びプログラム
US11893996B1 (en) Supplemental content output
JP2004354942A (ja) 音声対話システム、音声対話方法及び音声対話プログラム
JPH05344214A (ja) ガイダンス出力装置
JP2017167600A (ja) 端末装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210309

R150 Certificate of patent or registration of utility model

Ref document number: 6851491

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150