JPWO2019098038A1

JPWO2019098038A1 - 情報処理装置、及び情報処理方法

Info

Publication number: JPWO2019098038A1
Application number: JP2019527257A
Authority: JP
Inventors: 広岩瀬; 真一河野; 祐平滝; 邦仁澤井
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-11-15
Filing date: 2018-11-01
Publication date: 2020-10-01
Anticipated expiration: 2038-11-01
Also published as: WO2019098038A1; US11217230B2; JP7243625B2; US20210134278A1; EP3567585A1; EP3567585A4

Abstract

本技術は、ユーザの発話に対し、システム応答のレスポンスを高速化することができるようにする情報処理装置、及び情報処理方法に関する。ユーザの発話の音声認識の途中結果から得られる意味解析の結果に基づいて、ユーザの発話に対する応答の有無を判定する処理部を備える情報処理装置が提供されることで、ユーザの発話に対し、システム応答のレスポンスを高速化することができるようになる。本技術は、例えば、音声対話システムに適用することができる。

Description

本技術は、情報処理装置、及び情報処理方法に関し、特に、ユーザの発話に対し、システム応答のレスポンスを高速化することができるようにした情報処理装置、及び情報処理方法に関する。

近年、ユーザの発話に応じた応答を行う音声対話システムが、様々な分野で利用されはじめている。音声対話システムでは、ユーザの発話の音声を認識するだけでなく、ユーザの発話の意図を推定して、適切な応答を行うことが求められる。

例えば、特許文献１には、発話の語順を規定する情報中に、発話が途中で休止する可能性がある部分に、独立に継続時間を設定し、音声認識中に、設定された継続時間以上の発話の休止が継続したとき、発話の完了を検出して応答を行う技術が開示されている。

特開平6-202689号公報（特許第3277579号）

しかしながら、上述した特許文献１に開示されているような、発話の語順のみで休止時間を決定する場合、ユーザとの対話の状況が考慮されていないため、その状況によっては、ユーザの発話の完了を正しく検出できない可能性がある。そして、ユーザの発話の完了を正しく検出できないと、音声認識では、ユーザの発話待ちの状態になって、システム応答のレスポンスが遅くなってしまう。

本技術はこのような状況に鑑みてなされたものであり、ユーザの発話に対し、システム応答のレスポンスを高速化することができるようにするものである。

本技術の一側面の情報処理装置は、ユーザの発話の音声認識の途中結果から得られる意味解析の結果に基づいて、前記ユーザの発話に対する応答の有無を判定する処理部を備える情報処理装置である。

本技術の一側面の情報処理方法は、情報処理装置の情報処理方法において、前記情報処理装置が、ユーザの発話の音声認識の途中結果から得られる意味解析の結果に基づいて、前記ユーザの発話に対する応答の有無を判定する情報処理方法である。

本技術の一側面の情報処理装置、及び情報処理方法においては、ユーザの発話の音声認識の途中結果から得られる意味解析の結果に基づいて、前記ユーザの発話に対する応答の有無が判定される。

本技術の一側面の情報処理装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。

本技術の一側面によれば、ユーザの発話に対し、システム応答のレスポンスを高速化することができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

従来の音声対話システムの対話の例を示す図である。従来の音声対話システムの対話の例を示す図である。本技術を適用した音声対話システムの構成の例を示すブロック図である。本技術を適用した音声対話システムの機能的構成の例を示すブロック図である。音声対話処理の流れを説明するフローチャートである。第１の条件を用いた場合の意味解析投入タイミングの検出の例を示す図である。応答有無判定の第１の例を示す図である。応答有無判定の第２の例を示す図である。応答有無判定の第３の例を示す図である。応答有無判定の第４の例を示す図である。学習の結果を用いた適応処理の例を示す図である。応答有無判定処理の流れを説明するフローチャートである。コンピュータの構成例を示す図である。

以下、図面を参照しながら本技術の実施の形態について説明する。なお、説明は以下の順序で行うものとする。

１．前提となる技術
２．本技術の実施の形態
３．変形例
４．コンピュータの構成

＜１．前提となる技術＞

まず、図１及び図２を参照して、従来の音声対話システム９０の対話の例を説明する。

図１において、ユーザ２が、「明日の９時から打ち合わせ、、、、って予定に入れといて」である発話U11を行った場合、従来の音声対話システム９０では、時刻t11乃至時刻t12に、「明日の９時から打ち合わせ」である発話を用いた音声認識処理が行われ、その音声認識（ASR：Automatic Speech Recognition）の途中結果が更新される。

また、従来の音声対話システム９０では、「明日の９時から打ち合わせ」である発話が終了してから、「って予定に入れといて」である発話が開始されるまでに間があるため、その間、音声認識（ASR）のユーザ発話完了が検出されるのを待つことになる。例えば、音声認識エンジンは、ユーザ２の音声入力が1〜2秒程度ないことをもって、ユーザ発話の完了を検出することになる。

ここでは、ユーザ発話の完了が検出される前に、ユーザ２による発話が行われたため、従来の音声対話システム９０では、時刻t13乃至時刻t14に、「って予定に入れといて」である発話を用いた音声認識処理が行われ、その音声認識（ASR）の途中結果（ASR途中結果）が更新される。

その後、従来の音声対話システム９０では、さらにユーザ発話完了を待つことで、時刻t15に、ユーザ発話完了が検出される。そして、従来の音声対話システム９０では、時刻t15乃至時刻t16に、音声認識（ASR）の結果を用いた意味解析処理が行われ、その意味解析（NLU：Natural Language Understanding）の結果に基づき、ユーザ２の「スケジュール」として、「明日の９時」に、「打ち合わせ」が登録され、「はい、予定に登録しました」である応答R11が行われる。

このように、従来の音声対話システム９０では、音声認識（ASR）のユーザ発話完了が検出されるのを待つ必要があるため、システム応答時間（例えば、図１の時刻t14から時刻t16までの時間）として、ある程度の時間（例えば、数秒）を要する。そのため、システム応答の時間が遅くなってしまう。

その結果として、対話のターンが遅くなって、ユーザ２は、ストレスを感じることになる。さらには、ユーザ２は、自身の発話後に、システム応答を数秒待つという経験を繰り返すことで、対話のターンを意識して、音声コマンド的な発話しかしなくなってしまう。ただし、ここでの音声コマンドは、ユーザが、音声によって特定のコマンドを発することであって、ユーザによる自然発話ではないことを意味している。

一方で、従来の音声対話システム９０において、音声認識（ASR）のユーザ発話完了の待ち時間を短くすることも想定されるが、この待ち時間を一律に短くしてしまうと、ユーザ２が意図していないタイミングで、システムが、ユーザ発話完了であると判定してしまい、ユーザ２の発話意図とは異なるシステム応答を返してしまう可能性がある。

例えば、図２に示すように、従来の音声対話システム９０では、時刻t21乃至時刻t22に、「明日の９時から打ち合わせ」である発話U21を用いた音声認識処理が行われ、その音声認識（ASR）の途中結果（ASR途中結果）が更新された後に、短い待ち時間（時刻t22乃至時刻t23の時間）だけ待って、直ちに、意味解析処理を行っている。

この場合には、システム応答時間（図２の時刻t22から時刻t23までの時間）を、図１に示したシステム応答時間（図１の時刻t14から時刻t16までの時間）と比べて、短縮することができるが、ユーザ２の意図を理解することができず、「分かりませんでした」である応答R21が行われる。

このように、従来の音声対話システム９０では、音声認識（ASR）のユーザ発話完了の待ち時間を短く設定したとしても、ユーザ２の発話意図とは異なるシステム応答を返してしまう可能性がある。

その結果として、システムから意図しない応答を受けたユーザ２は、再度、発話を最初から行わなくてはならなくなる。また、このような事象を回避するために、ユーザ２は、間（ま）を空けないように、（一息で）システムに発話をしなければならなくなって、ユーザ２の発話負担が大きくなってしまう。

以上のように、従来の音声対話システム９０では、音声認識（ASR）によるユーザ発話の完了待ちによって、システム応答のレスポンスが遅くなるという問題があった。また、上述した特許文献１に開示されているような、発話の語順のみで休止時間を決定する場合には、ユーザとの対話の状況が考慮されていないため、その状況によっては、ユーザ発話の完了を正しく検出できない可能性があり、その結果として、システム応答のレスポンスが遅くなる恐れがある。

そこで、以下、ユーザの発話に対し、システム応答のレスポンスを高速化することを可能にする、本技術を適用した音声対話システムについて説明する。

＜２．本技術の実施の形態＞

（音声対話システムの構成例）
図３は、本技術を適用した音声対話システムの構成の例を示すブロック図である。

音声対話システム１は、ユーザ宅等のローカル側に設置され、音声対話サービスのユーザインターフェースとして機能する端末装置１０と、データセンタ等のクラウド側に設置され、音声対話機能を実現するための処理を行うサーバ２０とから構成される。音声対話システム１において、端末装置１０とサーバ２０とは、インターネット３０を介して相互に接続されている。

端末装置１０は、例えば、家庭内LAN(Local Area Network)等のネットワークに接続可能なスピーカであって、スマートスピーカやホームエージェントなどとも称される。この種のスピーカは、音楽の再生のほか、例えば、ユーザとの音声対話や、照明器具や空調設備などの機器に対する音声操作などの機能を有している。

なお、端末装置１０は、スピーカに限らず、例えば、ゲーム機や、スマートフォンや携帯電話機等のモバイル機器、タブレット型のコンピュータなどとして構成されるようにしてもよい。

端末装置１０は、インターネット３０を介してサーバ２０と連携することで、ユーザに対し、音声対話サービス（のユーザインターフェース）を提供することができる。

例えば、端末装置１０は、ユーザから発せられた音声（ユーザ発話）を収音し、その音声データを、インターネット３０を介して、サーバ２０に送信する。また、端末装置１０は、インターネット３０を介してサーバ２０から送信されてくる処理データを受信し、その処理データに応じた音声などの情報を出力する。

サーバ２０は、クラウドベースの音声対話サービスを提供するサーバ（情報処理装置）である。

例えば、サーバ２０は、インターネット３０を介して端末装置１０から送信されてくる音声データに基づき、音声認識処理や意味解析処理などの処理を行い、その処理の結果に応じた処理データを、インターネット３０を介して端末装置１０に送信する。

（音声対話システムの機能的構成例）
図４は、本技術を適用した音声対話システムの機能的構成例を示すブロック図である。

図４において、音声対話システム１は、音声入力部１０１、画像入力部１０２、センサ部１０３、音声認識部１０４、画像認識部１０５、センサ認識部１０６、自然言語処理部１０７、意味解析・応答判定処理部１０８、応答生成部１０９、音声合成処理部１１０、出力画像処理部１１１、音声出力部１１２、及び画像出力部１１３から構成される。

音声入力部１０１は、例えば、マイクロフォン等の音声入力デバイスから構成される。音声入力部１０１は、ユーザ２が発した声を電気信号に変換して得られる音声データを、音声認識部１０４に供給する。

画像入力部１０２は、例えば、イメージセンサを有するカメラ等の画像入力デバイスから構成される。画像入力部１０２は、ユーザ２等の被写体を撮像して得られる画像データを、画像認識部１０５に供給する。

センサ部１０３は、例えば、各種のセンサ等のセンサデバイスから構成される。センサ部１０３は、ユーザ２やその周辺などのセンシングを行い、そのセンシング結果に応じたセンサデータを、センサ認識部１０６に供給する。

ここで、センサ部１０３としては、例えば、呼吸や脈拍、指紋、虹彩などの生体情報を検出する生体センサ、磁場（磁界）の大きさや方向を検出する磁気センサ、加速度を検出する加速度センサ、角度（姿勢）や角速度、角加速度を検出するジャイロセンサ、近接するものを検出する近接センサなどを含めることができる。

また、センサ部１０３は、ユーザ２の頭部に取り付けられ、電位等を計測することで脳波を検出する脳波センサであってもよい。さらに、センサ部１０３には、温度を検出する温度センサや、湿度を検出する湿度センサ、周囲の明るさを検出する環境光センサなどの周囲の環境を測定するためのセンサや、GPS(Global Positioning System)信号などの位置情報を検出するためのセンサを含めることができる。

音声認識部１０４は、音声入力部１０１から供給される音声データに基づいて、音声認識処理を行い、その音声認識の結果を、自然言語処理部１０７及び意味解析・応答判定処理部１０８に供給する。

この音声認識処理では、例えば、音声テキスト変換用のデータベース等を参照することで、音声入力部１０１からの音声データを、テキストデータ（発話文）に変換する処理が行われる。

また、この音声認識処理では、例えば、音声入力部１０１からの音声データ（の信号波形）を解析する処理など、音声データに対し、後段の逐次意味解析制御処理で用いられる音声認識の結果を抽出するための処理が行われる。

なお、以下の説明では、音声認識部１０４により行われる音声認識処理のうち、ユーザ２の発話のテキストデータ（発話文）を得るための音声認識を、「音声認識（ASR：Automatic Speech Recognition）」と記述して、後段の逐次意味解析制御処理で、音声認識（ASR）の途中結果（以下、ASR途中結果ともいう）を意味解析処理に投入するタイミングを判定するために用いられる音声認識の結果と区別する。

画像認識部１０５は、画像入力部１０２から供給される画像データに基づいて、画像認識処理を行い、その画像認識の結果を、意味解析・応答判定処理部１０８に供給する。この画像認識処理では、画像データに対し、後段の逐次意味解析制御処理で用いられる画像認識の結果を抽出するための処理が行われる。

センサ認識部１０６は、センサ部１０３から供給されるセンサデータに基づいて、センサ認識処理を行い、そのセンサ認識の結果を、意味解析・応答判定処理部１０８に供給する。このセンサ認識処理では、センサデータに対し、後段の逐次意味解析制御処理で用いられるセンサ認識の結果を抽出するための処理が行われる。

自然言語処理部１０７は、音声認識部１０４から供給される音声認識（ASR）の結果に基づいて、自然言語処理を行い、その自然言語認識（自然言語解析）の結果を、意味解析・応答判定処理部１０８に供給する。

この自然言語処理（NLP：Natural Language Processing）では、例えば、形態素解析や構文解析などによって、形態素の品詞等の判別や、切り分けられた形態素の間の関連等の解析などを行う処理が行われる。

意味解析・応答判定処理部１０８には、音声認識部１０４による音声認識（ASR）の結果（ASR途中結果）とともに、音声認識部１０４からの音声認識の結果、画像認識部１０５からの画像認識の結果、センサ認識部１０６からのセンサ認識の結果、及び自然言語処理部１０７からの自然言語認識の結果が供給される。

意味解析・応答判定処理部１０８では、音声認識の結果、画像認識の結果、センサ認識の結果、及び自然言語認識の結果に基づき、音声認識（ASR）の結果（ASR途中結果）に対する意味解析処理が行われるとともに、その意味解析の結果に基づき、応答の有無が判定され、その応答有無判定の結果が、応答生成部１０９に供給される。

意味解析・応答判定処理部１０８は、逐次意味解析制御部１２１、意味解析部１２２、及び応答有無判定部１２３から構成される。

逐次意味解析制御部１２１は、音声認識の結果、画像認識の結果、センサ認識の結果、及び自然言語認識の結果に基づいて、逐次意味解析制御処理を行い、意味解析部１２２で行われる意味解析処理を制御する。

この逐次意味解析制御処理では、音声認識の結果、画像認識の結果、センサ認識の結果、及び自然言語認識の結果のうち、少なくとも１つの認識の結果に基づき、例えば、発話の微小な間（ま）の時間が一定の時間を超えたときなどに、ASR途中結果の意味解析処理への投入のタイミングであると判定し、ASR途中結果が、意味解析処理に投入される。なお、逐次意味解析制御処理の詳細は、図６などを参照して後述する。

意味解析部１２２は、逐次意味解析制御部１２１から供給されるASR途中結果に基づいて、意味解析処理を行い、その意味解析（NLU：Natural Language Understanding）の結果を、応答有無判定部１２３に供給する。

この意味解析処理では、例えば、音声言語理解用のデータベース等を参照することで、自然言語である音声認識（ASR）の途中結果（テキストデータ）を、機械（システム）が理解できる表現に変換する処理が行われる。

ここでは、意味解析（NLU）の結果として、ユーザが実行させたい「意図（Intent）」と、そのパラメータとなる「実体情報（Entity）」の形で、発話の意味が表現される。なお、以下の説明では、ASR途中結果に対する意味解析（NLU）の結果得られる意図を、「意図（Intent）」又は「Intent」と記述することで、ユーザ２の発話の意図と区別する。

応答有無判定部１２３は、意味解析部１２２から供給される意味解析（NLU）の結果に基づいて、応答有無判定処理を行い、その応答有無判定の結果を、応答生成部１０９に供給する。

この応答有無判定処理では、ASR途中結果に対する意味解析（NLU）の結果（Intent, Entity）に基づき、例えば、ユーザ２との対話の状況に即したシステムの機能であるかどうかや、システムの機能として受けられる依頼の意図（Intent）であるかどうかなどによって、システム応答（応答）を行うか否かが判定される。なお、応答有無判定処理の詳細は、図７乃至図１０などを参照して後述する。

応答生成部１０９は、意味解析・応答判定処理部１０８（の応答有無判定部１２３）から供給される応答有無判定の結果に基づいて、応答生成処理を行い、その応答生成の結果を、音声合成処理部１１０又は出力画像処理部１１１に供給する。

この応答生成処理では、応答有無判定処理によって、システム応答（応答）を行うと判定された場合に、意味解析（NLU）の結果（Intent, Entity）に応じたシステム応答（例えば、意味解析（NLU）の結果に基づき実行されるシステムの機能に応じた応答）が生成される。

音声合成処理部１１０は、応答生成部１０９から供給される応答生成の結果に基づいて、音声合成処理を行い、その音声合成の結果を、音声出力部１１２に供給する。

出力画像処理部１１１は、応答生成部１０９から供給される応答生成の結果に基づいて、出力画像処理を行い、その出力画像の結果を、画像出力部１１３に供給する。

音声出力部１１２は、例えば、スピーカやヘッドホン等の音声出力デバイスから構成される。音声出力部１１２は、音声合成処理部１１０から供給される音声合成の結果に基づいて、音声データに応じた音を、システム応答（応答）として出力する。

画像出力部１１３は、例えば、液晶ディスプレイや有機ELディスプレイ等の画像出力デバイスから構成される。画像出力部１１３は、出力画像処理部１１１から供給される出力画像の結果に基づいて、その画像データに応じた画像を、システム応答（応答）として出力（表示）する。

音声対話システム１は、以上のように構成される。

なお、図４の音声対話システム１において、音声入力部１０１乃至画像出力部１１３を、端末装置１０（図１）と、サーバ２０（図１）のどちらの機器に組み込むかは、任意であるが、例えば、次のような構成とすることができる。

すなわち、ユーザインターフェースとして機能する、音声入力部１０１、画像入力部１０２、センサ部１０３、音声出力部１１２、及び画像出力部１１３を、ローカル側の端末装置１０に組み込む一方で、それ以外の機能となる、音声認識部１０４、画像認識部１０５、センサ認識部１０６、自然言語処理部１０７、意味解析・応答判定処理部１０８、応答生成部１０９、音声合成処理部１１０、及び出力画像処理部１１１を、クラウド側のサーバ２０に組み込むことができる。

このとき、音声認識部１０４、画像認識部１０５、センサ認識部１０６、自然言語処理部１０７、意味解析・応答判定処理部１０８、応答生成部１０９、音声合成処理部１１０、及び出力画像処理部１１１は、例えば、サーバ２０のCPU(Central Processing Unit)が、プログラムを実行することで実現される。

また、図示はしていないが、端末装置１０とサーバ２０は、インターネット３０を介してデータをやり取りするために、通信インターフェース回路等から構成される通信I/Fをそれぞれ有している。これにより、ユーザ２の発話中に、端末装置１０とサーバ２０が、インターネット３０を介して通信を行い、サーバ２０側では、端末装置１０からの認識の結果に基づき、逐次意味解析制御処理や応答有無判定処理などの処理を行うことができる。

さらに、端末装置１０には、例えば、ボタンやキーボード等からなる入力部を設けて、ユーザ２の操作に応じた操作信号が得られるようにするか、あるいは、画像出力部１１３が、タッチセンサと表示部とが一体化されたタッチパネルとして構成され、ユーザ２の指やタッチペン（スタイラスペン）による操作に応じた操作信号が得られるようにしてもよい。

（音声対話処理の流れ）
次に、図５のフローチャートを参照して、音声対話システム１により実行される音声対話処理の流れを説明する。

この音声対話処理は、端末装置１０の付近に存在するユーザ２により発話が開始されたときに実行される。なお、ここでは、ユーザ２が発話を開始するに際して、例えば、特定のキーワード（いわゆる起動ワード）を用いることによる呼びかけや、手を叩くことによる破裂音などによって、発話を開始するための明示的な指示を与えるようにしてもよい。

ステップＳ１１において、音声入力部１０１は、ユーザ２から発せられた音声を収音することで、ユーザ２の発話を受け付ける。

ステップＳ１２において、音声認識部１０４等の認識部は、音声入力部１０１等の前段の入力部からのデータに基づいて、ユーザ発話中の認識処理を行う。

ここでは、例えば、音声認識部１０４によって、音声入力部１０１からの音声データに基づき、音声認識処理が行われ、音声認識（ASR）の結果（ASR途中結果）が得られる。

また、音声認識部１０４による音声認識処理、画像認識部１０５による画像認識処理、及びセンサ認識部１０６によるセンサ認識処理のうち、少なくとも１つの認識処理が行われ、後段の逐次意味解析制御処理（Ｓ１３）で用いられる認識の結果が得られる。なお、ここでは、自然言語処理部１０７によって、自然言語処理が行われ、自然言語認識の結果が得られるようにしてもよい。

ステップＳ１３において、逐次意味解析制御部１２１は、ステップＳ１２の処理で得られる認識の結果（各入力部の認識の結果）に基づいて、逐次意味解析制御処理を行い、音声認識（ASR）の途中結果（ASR途中結果）の意味解析処理（Ｓ１５）への投入制御を行う。

この逐次意味解析制御処理によって、例えば、発話の微小な間（ま）の時間が一定の時間を超えたときや、信頼度スコアが一定の閾値を超えたときなどに、ASR途中結果の意味解析処理への投入のタイミングであると判定され（Ｓ１４の「YES」）、音声認識（ASR）の途中結果（ASR途中結果）が、意味解析処理に投入される。

ステップＳ１３の処理で行われる投入制御によって、ASR途中結果の意味解析処理への投入のタイミングではないと判定された場合（Ｓ１４の「NO」）、処理は、ステップＳ１１に戻り、上述した処理が繰り返される。一方で、ASR途中結果の意味解析処理への投入のタイミングであると判定された場合（Ｓ１４の「YES」）、処理は、ステップＳ１５に進められる。

ステップＳ１５において、意味解析部１２２は、ステップＳ１３の処理で投入されたASR途中結果に対し、意味解析処理を行う。

この意味解析処理によって、自然言語であるASR途中結果（テキストデータ）を、機械（システム）が理解できる表現に変換する処理が行われる。これにより、ASR途中結果から、意味解析（NLU）の結果（Intent, Entity）が得られる。

ステップＳ１６において、応答有無判定部１２３は、ステップＳ１５の処理で得られる意味解析（NLU）の結果（Intent, Entity）に基づいて、システム応答を行うかどうかを判定する。

ステップＳ１６において、システム応答を行わないと判定された場合、処理は、ステップＳ１１に戻り、上述したステップＳ１１乃至Ｓ１６の処理が繰り返される。

すなわち、ステップＳ１１乃至Ｓ１６の処理が繰り返されることで、ASR途中結果の意味解析処理への投入制御が行われ、ASR途中結果に対する意味解析（NLU）の結果（Intent, Entity）が逐次得られる。これにより、応答有無判定部１２３によって、ASR途中結果に対する意味解析（NLU）の結果が得られる度に、システム応答の判定処理が繰り返し行われる。ここでは、例えば、対話の状況に即したシステムの機能を実行可能な意味解析（NLU）の結果（Intent, Entity）が得られた時点で、システム応答を行うと判定される。

そして、ステップＳ１６において、システム応答を行うと判定された場合、処理は、ステップＳ１７に進められる。

ステップＳ１７において、応答生成部１０９は、ステップＳ１５の処理で得られる意味解析（NLU）の結果（Intent, Entity）に応じたシステム応答を生成する。ここでは、例えば、意味解析（NLU）の結果に基づき実行されるシステムの機能（例えば電子メール処理機能や天気確認機能など）に応じたシステム応答が生成される。

ステップＳ１８において、音声合成処理部１１０は、ステップＳ１７の処理で得られる応答生成の結果に基づいて、音声合成処理を行い、それにより得られるシステム応答の音声を、音声出力部１１２から出力する。これにより、ユーザ２に対し、システム応答が提示される。

なお、ここでは、システム応答として、音声合成処理部１１０により合成された音声を出力するほか、出力画像処理部１１１により生成された出力画像などを出力するようにしてもよい。さらに、システム応答は、音声情報や視覚情報に限らず、例えば、ユーザ２が身につけている機器（例えば、スマートフォンやウェアラブル機器等）が振動することで、触覚によって提示されるようにしてもよい。

以上、音声対話処理の流れを説明した。

この音声対話システム１により実行される音声対話処理（図５）では、ユーザ２の発話が、マイクロフォン等の音声入力部１０１を通じて音声認識処理にかけられ、その発話の内容がテキスト化されて、逐次意味解析制御部１２１に送られる。この音声認識処理は、ユーザ２の発話中に常時行われ、認識できた発話途中のテキストデータ（ASR途中結果）が、逐次意味解析制御部１２１に送られる。

また、音声認識処理は、ユーザ２の発話内容をテキスト化するのみならず、発話のピッチ抽出などの入力音声の韻律の検出も行い、逐次意味解析制御部１２１に送られるようにしてもよい。

さらに、ユーザ２の発話の音声以外にも、ユーザ２やその周辺を撮像して得られる画像データが、カメラ等の画像入力部１０２を通じて画像認識処理にかけられ、ユーザ２の顔の向きなどが認識されるようにしたり、あるいは、ユーザ２の視線情報などが、センサ部１０３を通じてセンサ認識処理にかけられ、ユーザ２の視線方向などが認識されるようにしたりすることができる。

これらの認識処理は、ユーザ２の発話中に常時行われ、その認識の結果が、逐次、逐次意味解析制御部１２１に送られる。

そして、音声対話システム１により実行される音声対話処理（図５）では、認識の結果から得られる発話状況（例えば、発話の微小な間や、音声認識（ASR）の信頼度等）に基づき、ASR途中結果の投入タイミングであると判定される度に、ASR途中結果を、意味解析処理に投入することで、その意味解析（NLU）の結果得られる意図（Intent）と実体情報（Entity）を逐次取得する。ここでは、例えば、音声対話システム１が、対話の状況に即した機能（アクション）を実行可能な意図（Intent）と実体情報（Entity）が得られた時点で、ユーザ２に対し、システム応答が返される。

なお、音声対話システム１において、例えば、対話の状況に即していない機能に応じた意味解析（NLU）の結果（Intent, Entity）が得られたときには、システム応答を返さずに、ユーザ２の発話の音声認識（ASR）を継続することになる。

（逐次意味解析制御処理）
次に、逐次意味解析制御部１２１によって実行される逐次意味解析制御処理の詳細な内容について説明する。

逐次意味解析制御部１２１は、ユーザ２の発話中に、音声認識部１０４、画像認識部１０５、センサ認識部１０６、及び自然言語処理部１０７から逐次送られてくる認識の結果に基づいて、逐次意味解析制御処理を行うことで、ASR途中結果の投入タイミングが判定される。

この逐次意味解析制御処理では、例えば、下記に示した（Ａ）乃至（Ｇ）の条件のうち、１つの条件、又は複数の条件の組み合わせに基づき、ASR途中結果の意味解析処理への投入のタイミングが判定される。

（Ａ）発話の微小な間の時間が一定の時間を超えたとき
（Ｂ）信頼度スコアが一定の閾値を超えたとき
（Ｃ）依頼や質問を示す述語の文節を検出したとき
（Ｄ）テキストの文末に特定の言い回し文言を検出したとき
（Ｅ）発話韻律で疑問を示すイントネーションを検出したとき
（Ｆ）ユーザの顔が機器に向いたとき、又は機器からそれたとき
（Ｇ）ユーザの視線が機器を見たとき、又は機器からそれたとき

なお、上述した（Ａ）乃至（Ｇ）の条件は、ASR途中結果の意味解析処理への投入のタイミングを検出するための条件を例示列挙したものであって、意味解析処理への投入のタイミングを検出可能なものであれば、他の条件を用いるようにしてもよい。

（Ａ）第１の条件
ここで、上述の（Ａ）に示した第１の条件を用いた場合には、「発話の微小な間（ま）の時間が一定の時間を超えたとき」に、意味解析処理への投入を検出するが、その具体例を、図６に示している。

図６において、ユーザ２が、「明日の９時から打ち合わせ、、、、って予定に入れといて」である発話U31を行った場合に、「明日の９時から打ち合わせ」である発話が終了してから、「って予定に入れといて」である発話が開始されるまでの時間が、微小な時間（例えば、数百ミリ秒程度）を超えたとき、音声対話システム１は、ASR途中結果の投入タイミングであると判定する。

すなわち、音声対話システム１では、ユーザ２の発話中に、音声認識（ASR）の結果（発話のテキストデータ）が逐次出力されるが、音声認識（ASR）の結果として逐次出力するテキストの途中結果が、閾値（例えば300ms）を超えて更新されない場合に、ASR途中結果の投入タイミングであると判定する。そして、発話の開始位置（発話開始位置）から、投入タイミング判定の対象位置（投入判定位置）までの区間に対応するASR途中結果を、意味解析処理に投入することで、意味解析（NLU）の結果として、意図（Intent）と実体情報（Entity）を得ることができる。

図６においては、時刻t31乃至時刻t32に、「明日の９時から打ち合わせ」である発話を用いた音声認識処理が行われ、ASR途中結果が更新されるが、時刻t32以降に、ASR途中結果の更新が停止され、閾値（閾値時間）を超えても、ASR途中結果の更新がなされていない。そのため、時刻t33になったときに、ASR途中結果の投入タイミングであると判定され、「明日の９時から打ち合わせ」であるASR途中結果が、意味解析処理に投入され、意味解析（NLU）の結果が得られる。

その後、時刻t34乃至時刻t35に、「って予定に入れといて」である発話を用いた音声認識処理が行われ、ASR途中結果が更新される。そして、時刻t35以降に、ASR途中結果の更新が停止され、閾値を超えてもASR途中結果の更新がなされていないため、時刻t36になったときに、ASR途中結果の投入タイミングであると判定され、「って予定に入れといて」であるASR途中結果が、意味解析処理に投入され、意味解析（NLU）の結果が得られる。

このように、上述の（Ａ）の第１の条件を用いる場合には、例えば、音声認識部１０４による音声認識の結果に基づき、ユーザ２の発話中に、微小な間（ま）等の発話の間の時間が一定の時間を超えたとき、逐次意味解析制御部１２１は、ASR途中結果の投入タイミングであると判定し、ASR途中結果を、意味解析部１２２にて行われる意味解析処理に投入する。

（Ｂ）第２の条件
上述の（Ｂ）の第２の条件を用いる場合には、例えば、音声認識部１０４による音声認識の結果に基づき、ASR途中結果に付随する信頼度スコアが、一定の閾値を超えたとき（すなわち、ASR途中結果が信頼できる内容であるとき）、逐次意味解析制御部１２１は、ASR途中結果の投入タイミングであると判定し、ASR途中結果を、意味解析処理に投入する。

（Ｃ）第３の条件
上述の（Ｃ）の第３の条件を用いる場合には、ASR途中結果を自然言語処理に投入して得られる自然言語の結果に基づき、ASR途中結果（テキスト）に含まれる依頼や質問を示す述語の文節を検出したとき、逐次意味解析制御部１２１は、ASR途中結果の投入タイミングであると判定し、ASR途中結果を、意味解析処理に投入する。

（Ｄ）第４の条件
上述の（Ｄ）の第４の条件を用いる場合には、ASR途中結果（テキスト）の文末に特定の言い回し文言（例えば、「です」、「します」、「どうぞ」など）を検出したとき、逐次意味解析制御部１２１は、ASR途中結果の投入タイミングであると判定し、ASR途中結果を、意味解析処理に投入する。

（Ｅ）第５の条件
上述の（Ｅ）の第５の条件を用いる場合には、例えば、音声認識部１０４による音声認識の結果に基づき、発話韻律で疑問を示すイントネーション（例えば、語尾が上がるなど）を検出したとき、逐次意味解析制御部１２１は、ASR途中結果の投入タイミングであると判定し、ASR途中結果を、意味解析処理に投入する。

（Ｆ）第６の条件
上述の（Ｆ）の第６の条件を用いる場合には、例えば、画像認識部１０５による画像認識の結果に基づき、ユーザ２の発話中に、ユーザ２の顔が端末装置１０に向いたことを検出したとき、又は端末装置１０からそれたことを検出したとき、逐次意味解析制御部１２１は、ASR途中結果の投入タイミングであると判定し、ASR途中結果を、意味解析処理に投入する。

なお、ここでは、画像認識の結果の代わりに、センサ認識部１０６によるセンサ認識の結果に基づき、発話中のユーザ２の顔の向きが検出されるようにしてもよい。

（Ｇ）第７の条件
上述の（Ｇ）の第７の条件を用いる場合には、例えば、画像認識部１０５による画像認識の結果に基づき、ユーザ２の発話中に、ユーザ２の視線が端末装置１０を見たことを検出したとき、又は端末装置１０からそれたことを検出したとき、逐次意味解析制御部１２１は、ASR途中結果の投入タイミングであると判定し、ASR途中結果を、意味解析処理に投入する。

なお、ここでは、画像認識の結果の代わりに、センサ認識部１０６によるセンサ認識の結果に基づき、発話中のユーザ２の視線の向きが検出されるようにしてもよい。

（投入タイミング判定の他の例）
なお、上述した（Ａ）乃至（Ｇ）以外の他の条件としては、例えば、次に示すような認識の結果が得られたときに、音声対話システム１は、その認識の結果に基づき、ASR途中結果の投入タイミングを判定するようにしてもよい。

第１の他の例として、画像認識の結果（画像情報）によって、複数人のユーザが、対象の機器（例えば、端末装置１０）の周辺に存在することが認識された場合に、システムへの発話の途中で、ユーザ同士が会話を始めたことが認識されたとき、ASR途中結果の意味解析処理への投入を停止するようにしてもよい。

ただし、ユーザ同士での会話の開始は、画像認識の結果に基づき、例えば、各ユーザの顔や身体の向きや、視線の方向などから認識することが可能である。また、ここでのASR途中結果の意味解析処理への投入の停止は、音声対話システム１が、システム応答をしなくなることを意味する。

第２の他の例として、画像認識の結果や、外部機器との連携に基づき、例えば、電話やインターホンと話し始めるなど、ユーザ２が、対象の機器（例えば、端末装置１０）への発話を行っていないことが認識されたときに、ASR途中結果の意味解析処理への投入を停止するようにしてもよい。

ただし、ここでの外部機器との連携とは、例えば、電話やインターホン等の外部機器が、通話状態になったことを、家庭内LAN等のネットワーク経由で通知することを意味する。また、ここでも、ASR途中結果の意味解析処理への投入の停止は、システム応答が行われなくなることを意味する。

以上、音声対話システム１においては、ユーザ２による発話が開始されると、逐次意味解析制御部１２１によって、例えば、上述した第１の条件乃至第７の条件のうち、１つの条件、又は複数の条件の組み合わせを用いた逐次意味解析制御処理が行われる。また、音声対話システム１では、逐次意味解析制御処理によって、ASR途中結果の投入タイミングであると判定されると、発話開始位置から、投入タイミングの投入判定位置までの区間に対応するASR途中結果が、意味解析部１２２による意味解析処理に投入される。

ただし、意味解析処理に投入されるASR途中結果を、発話開始位置から判定対象位置までの区間だけに制限してしまうと、長い文章や複文などを含む発話がなされたときに、その後の投入タイミングを見過ごすことになってしまうため、例えば、次のような処理を行うことができる。

すなわち、逐次意味解析制御処理では、意味解析処理に投入されるASR途中結果の長さが、一定の閾値を超える場合（投入文の長さが長くなる場合）に、前回又はそれ以前に投入タイミング判定が行われた位置（前回投入判定位置）から、今回投入タイミング判定が行われた位置（今回投入判定位置）までの区間のASR途中結果が、意味解析処理に投入されるようにしてもよい。

そして、音声対話システム１では、ユーザ２による発話が完了するまで、投入タイミングであると判定される度に逐次投入されるASR途中結果に対する意味解析処理が行われ、その結果得られる意味解析（NLU）の結果（Intent, Entity）に基づき、システム応答の有無が判定されることになる。

このように、音声対話システム１では、ユーザ２の発話中に、「ユーザ２の発話が完了する可能性のある発話状況」を検出したときに、いわば投機的にその時点での発話文に対し、意味解析処理が行われるようにしている。これにより、例えば、1〜2秒程度の音声入力が無いことをもって発話の完了を判定していた従来の手法（例えば、図１の例）と比べて、より速い時間（例えば数倍速い時間）で、意味解析（NLU）の結果によるユーザ２の意図を理解することが可能となる。そして、このとき、意味解析（NLU）の結果が、対話の状況に適合していれば、ユーザ２に対し、システム応答を返すことができる。

（応答有無判定処理）
次に、応答有無判定部１２３によって実行される応答有無判定処理の詳細な内容について説明する。

応答有無判定部１２３は、意味解析部１２２により逐次、意味解析処理が行われることで得られる意味解析（NLU）の結果に基づいて、応答有無判定処理を行い、例えば、音声対話システム１（システム）が、対話の状況に即した機能（アクション）を実行可能な意味解析（NLU）の結果が得られた時点で、システム応答を行うと判定するようにする。

（応答有無判定の第１の例）
図７は、応答有無判定の第１の例を示している。ただし、この第１の例において、音声対話システム１は、その機能の１つとして、ユーザのスケジュールを管理するスケジュール機能を有しているものとする。

図７において、ユーザ２が、起動ワードの発話U30を行うと、音声対話システム１は、ユーザ２により発せられた起動ワードを認識し、ユーザ２から何らかの依頼がくるのを待ち受ける。

そして、ユーザ２が、「明日の９時から打ち合わせ、、、、って予定に入れといて」である発話U31を行った場合に、「明日の９時から打ち合わせ」である発話が終わってから、「って予定に入れといて」である発話が開始されるまでに、ASR途中結果の更新が、閾値（例えば300ms）を超えて更新されないとき、音声対話システム１は、ASR途中結果の投入タイミングであると判定する。

すなわち、図７においては、上述した図６の例と同様に、時刻t31乃至時刻t32に、「明日の９時から打ち合わせ」である発話を用いた音声認識処理が行われ、ASR途中結果が更新されるが、時刻t32以降に、ASR途中結果の更新が停止されている。そのため、時刻t33に、ASR途中結果の投入タイミングであると判定され、ASR途中結果が、意味解析処理に投入され、意味解析（NLU）の結果（Intent, Entity）が得られる。なお、ここでは、上述の（Ａ）の第１の条件を用いて、投入タイミングを判定したが、他の条件を用いるようにしてもよい。

このとき、応答有無判定部１２３は、意味解析（NLU）の結果に基づき、「明日の９時から打ち合わせ」である発話の意味解析（NLU）の結果が、音声対話システム１（システム）の機能として、受けられる依頼の意図（Intent）ではないので、応答を行わないと判定する。したがって、この時点では、音声対話システム１は、ユーザ２に対して無反応となる。

その後、図７においては、上述した図６の例と同様に、時刻t34乃至時刻t35に、「って予定に入れといて」である発話を用いた音声認識処理が行われ、ASR途中結果の更新が再開される。そして、時刻t35以降に、ASR途中結果の更新が停止され、時刻t36に、ASR途中結果の投入タイミングであると判定され、ASR途中結果が、意味解析処理に投入され、意味解析（NLU）の結果が得られる。

このとき、応答有無判定部１２３は、「明日の９時から打ち合わせって予定に入れといて」である発話の意味解析（NLU）の結果として、Intent = "予定登録", Entity = "明日の９時", "打ち合わせ" が得られており、音声対話システム１（システム）の機能として、受けられる依頼であるため、応答を行うと判定する。

そして、音声対話システム１においては、スケジュール機能によって、ユーザ２の「スケジュール」として、「明日の９時」に、「打ち合わせ」を登録するための処理が行われるとともに、ユーザ２に対し、「はい、予定に登録しました」である応答R31が行われる。

このように、図７の例では、「明日の９時から打ち合わせ、、、、って予定に入れといて」である発話U31が、ユーザ２によって発せられる場合に、「明日の９時から打ち合わせ」まで発話された時点では、意味解析（NLU）の結果として、システムの機能として受けられる依頼の意図（Intent）ではないため、システム応答を行わず、その後に、「って予定に入れといて」まで発話された時点で、システムの機能（スケジュール機能）として受けられる依頼の意図（Intent）となるため、その時点で、システム応答を行っている。

これにより、音声対話システム１では、上述した従来の手法（図１，図２）と比べて、適切なタイミングで、従来の手法よりも速く、適切な応答を行うことができる。

（応答有無判定の第２の例）
図８は、応答有無判定の第２の例を示す図である。ただし、この第２の例において、音声対話システム１は、その機能の１つとして、電子メールの送受信や転送などを制御する電子メール処理機能を有しているものとする。

図８において、音声対話システム１は、ユーザ２宛ての電子メールの受信を検知したため、ユーザ２に対し、「xxさんからメールが来ました読み上げますか」である質問R41を行っている。

この質問R41に対し、ユーザ２が、「あ、今から出かけるからぁ、、、、、スマホに送っといて」である回答U41を行った場合に、「あ、今から出かけるからぁ」である発話が終わってから、「スマホに送っといて」である発話が開始されるまでに、ASR途中結果の更新が、閾値（例えば300ms）を超えて更新されないとき、音声対話システム１は、ASR途中結果の投入タイミングであると判定する。

すなわち、図８においては、時刻t41乃至時刻t42に、「あ、今から出かけるからぁ」である発話を用いた音声認識処理が行われ、ASR途中結果が更新されるが、時刻t42以降に、ASR途中結果の更新が停止されている。そのため、時刻t43に、ASR途中結果の投入タイミングであると判定され、ASR途中結果が、意味解析処理に投入され、意味解析（NLU）の結果（Intent, Entity）が得られる。なお、ここでは、上述の（Ａ）の第１の条件を用いて、投入タイミングを判定したが、他の条件を用いるようにしてもよい。

このとき、応答有無判定部１２３は、意味解析（NLU）の結果に基づき、「あ、今から出かけるからぁ」である発話の意味解析（NLU）の結果が、質問R41に対する回答として、対話の状況に即したシステムの機能を実行可能なものではないため（電子メール処理機能に関する意図（Intent）ではないため）、応答を行わないと判定する。したがって、この時点では、音声対話システム１は、ユーザ２に対して無反応となる。

その後、図８においては、時刻t44乃至時刻t45に、「スマホに送っといて」である発話を用いた音声認識処理が行われ、ASR途中結果の更新が再開される。そして、時刻t45以降に、ASR途中結果の更新が停止され、時刻t46に、ASR途中結果の投入タイミングであると判定され、ASR途中結果が、意味解析処理に投入され、意味解析（NLU）の結果が得られる。

このとき、応答有無判定部１２３は、「スマホに送っといて」である発話の意味解析（NLU）の結果として、Intent = "メール転送", Entity = "スマホ" が得られており、質問R41に対する回答として、対話の状況に即したものであって、電子メール処理機能として実行可能であるため、応答を行うと判定する。

そして、音声対話システム１においては、ユーザ２に対し、「スマートフォンに転送します」である応答R42が行われるとともに、電子メール処理機能によって、ユーザ２が所持するスマートフォンに対し、xxさんから受信した電子メールを転送する処理が行われる。

このように、図８の例では、「あ、今から出かけるからぁ、、、、、スマホに送っといて」である回答U41が、ユーザ２によってなされた場合に、対話の状況が、電子メールをどのように処理するかの質問R41に対するものであるため、システムの電子メール処理機能に応じた意味解析（NLU）の結果である、Intent = "メール転送", Entity = "スマホ" が得られた時点で、システム応答を行っている。

（応答有無判定の第３の例）
図９は、応答有無判定の第３の例を示す図である。

図９において、音声対話システム１は、上述した図８の例と同様に、「xxさんからメールが来ました読み上げますか」である質問R41を行っている。

この質問R41に対し、ユーザ２が、「あ、今から出かけるからぁ、、、、、スマホに送っといて、、、天気も教えて」である回答U42を行っている。このとき、音声対話システム１では、上述した図８の例と同様に、「あ、今から出かけるからぁ」である発話が終わってから、「スマホに送っといて」である発話が開始されるまでに、ASR途中結果の更新が、閾値（例えば300ms）を超えて更新されないとき、ASR途中結果の投入タイミングであると判定している。

そのため、図９においては、上述した図８の例と同様に、時刻t43に、ASR途中結果の投入タイミングであると判定され、「あ、今から出かけるからぁ」であるASR途中結果が、意味解析処理に投入されるが、この意味解析（NLU）の結果が、電子メール処理機能に関する意図（Intent）ではないため、応答を行わないと判定される。

また、図９において、音声対話システム１では、「スマホに送っといて」である発話が終わってから、「天気も教えて」である発話が開始されるまでに、ASR途中結果の更新が、閾値（例えば300ms）を超えて更新されないとき、ASR途中結果の投入タイミングであると判定している。

そのため、図９においては、上述した図８の例と同様に、時刻t46に、ASR途中結果の投入タイミングであると判定され、「スマホに送っといて」であるASR途中結果が、意味解析処理に投入される。この意味解析（NLU）の結果としては、Intent = "メール転送", Entity = "スマホ" が得られて、対話の状況に即した電子メール処理機能に関するものとなるため、電子メールの転送とその応答R42が即時に行われる。

さらに、図９においては、時刻t47乃至時刻t48に、「天気も教えて」である発話を用いた音声認識処理が行われ、ASR途中結果の更新が再開される。そして、時刻t48以降に、ASR途中結果の更新が停止され、時刻t49に、ASR途中結果の投入タイミングであると判定され、ASR途中結果が、意味解析処理に投入され、意味解析（NLU）の結果が得られる。

このとき、応答有無判定部１２３は、「天気も教えて」である発話の意味解析（NLU）の結果として、Intent = "天気確認"が得られており、その意図（Intent）が、対話の状況に即した電子メール処理機能に関するものではないが、システムの機能として実行可能な機能である場合には、そのような意図（Intent）も例外的に認めることができる。

すなわち、この第３の例では、「あ、今から出かけるからぁ、、、、、スマホに送っといて、、、天気も教えて」である回答U42に、「あ、今から出かけるからぁ」である発話が含まれ、この発話のASR途中結果を、意味解析処理に投入すると、意味解析（NLU）の結果として、Intent = "外出", Entity = "今" が得られる。そして、この意味解析（NLU）の結果から、ユーザ２がこれから出かけることが想定され、この情報を、コンテキスト情報として記録しておくことができる。

そして、その後に、「天気も教えて」である発話の意味解析（NLU）の結果として、Intent = "天気確認"が得られたとき、応答有無判定部１２３は、Intent = "天気確認"が、電子メール処理機能に関するものではないが、システムの機能として実行可能な機能であって、ユーザ２がこれから出かけるというコンテキスト情報が記録されているため、天気の確認とその応答R43が即時に行われるようにする。

ここでは、図９に示すように、「スマホに送っといて」である発話に応じた電子メール処理機能の応答R42の途中に、「天気も教えて」である発話に応じた天気確認機能の応答R43が行われたため、「スマートフォンに送ります」である応答R42を中断して、「今日の日中の天気は曇り、夕方から一時雨が降ります」である応答R43が即時に行われる。これにより、音声対話システム１では、電子メール処理機能と、天気確認機能のタスクが両方実行されることになる。

なお、音声対話システム１では、天気確認機能を実行する際に、例えば、インターネット３０を介して、天気予報に関する情報を公開しているサーバにアクセスして、ユーザ２の位置情報（例えば、現在位置や外出先の位置など）に応じた天気予報に関する情報を取得して、その天気予報に応じた応答を行うことができる。

（応答有無判定の第４の例）
図１０は、応答有無判定の第４の例を示す図である。

図１０において、音声対話システム１は、上述した図８及び図９と同様に、「xxさんからメールが来ました読み上げますか」である質問R41を行っている。

この質問R41に対し、ユーザ２が、「あ、今から出かけるからぁ、、、天気教えて、、、メールはスマホに送っといて」である回答U43を行っている。このとき、音声対話システム１は、「あ、今から出かけるからぁ」である発話が終わってから、「天気教えて」である発話が開始されるまでに、ASR途中結果の更新が、閾値（例えば300ms）を超えて更新されないとき、ASR途中結果の投入タイミングであると判定している。

そのため、図１０においては、上述した図８及び図９と同様に、時刻t43に、ASR途中結果の投入タイミングであると判定され、「あ、今から出かけるからぁ」であるASR途中結果が、意味解析処理に投入されるが、この意味解析（NLU）の結果が、電子メール処理機能に関する意図（Intent）ではないため、応答を行わないと判定される。

また、図１０において、音声対話システム１では、「天気教えて」である発話が終わってから、「メールはスマホに送っといて」である発話が開始されるまでに、ASR途中結果の更新が、閾値（例えば300ms）を超えて更新されないとき、ASR途中結果の投入タイミングであると判定している。

そのため、図１０においては、時刻t46に、ASR途中結果の投入タイミングであると判定され、「天気教えて」であるASR途中結果が、意味解析処理に投入され、意味解析（NLU）の結果として、Intent = "天気確認" が得られる。

ここで、第４の例では、上述した第３の例と同様に、「あ、今から出かけるからぁ」である発話のASR途中結果を、意味解析処理に投入すると、意味解析（NLU）の結果として、Intent = "外出", Entity = "今" が得られる。そして、この意味解析（NLU）の結果から、ユーザ２がこれから出かけることが想定され、この情報を、コンテキスト情報として記録することができる。

そして、その後に、「天気教えて」である発話の意味解析（NLU）の結果として、Intent = "天気確認"が得られたとき、応答有無判定部１２３は、Intent = "天気確認"が、対話の状況に即した電子メール処理機能に関するものではないが、システムの機能として実行可能な機能であって、ユーザ２がこれから出かけるというコンテキスト情報が記録されているため、天気の確認とその応答R43を即時に行うことができる。

さらに、図１０においては、時刻t47乃至時刻t48に、「メールはスマホに送っといて」である発話を用いた音声認識処理が行われ、ASR途中結果の更新が再開される。そして、時刻t48以降に、ASR途中結果の更新が停止され、ASR途中結果の投入タイミングであると判定され、「メールはスマホに送っといて」であるASR途中結果が、意味解析処理に投入される。この意味解析（NLU）の結果としては、Intent = "メール転送", Entity = "スマホ" が得られて、対話の状況に即した電子メール処理機能となるため、電子メールの転送とその応答R42が行われる。

ただし、このとき、音声対話システム１では、天気確認機能の応答R43の途中であるため、電子メール処理機能の応答42を即時に行わずに、天気確認機能の応答R43が完了してから行われるようにする。すなわち、第４の例では、上述した第３の例のように、先の応答（先行応答）を中断して、後の応答（その後に取得した意図（Intent）に対する応答）を行ってしまうと、天気予報の内容を伝えきる前に途中で終わってしまうため、先の応答である応答R43が完了してから、後の応答である応答R42が開始されるようにしている。

なお、電子メール処理機能による電子メールの転送の処理は、ユーザ２に対する応答R43が完了してから処理を開始してもよいし、応答R43が終わる前に処理が開始されるようにしてもよい。

（応答有無判定の他の例）
なお、上述した応答有無判定の例では、スケジュール機能（例えば予定の登録）、電子メール処理機能（例えば電子メールの転送）、及び天気確認機能を例に挙げて、音声対話システム１の機能として受けられる依頼であるとして説明したが、音声対話システム１の機能としては、それらの機能に限らず、他の機能が含まれるようにしてもよい。

例えば、音楽や動画再生時の操作（例えば、「開始」、「停止」、「戻る」、「進む」など）の依頼や、ナビゲーション時の到着時刻の質問など、様々な対話の状況に応じて、音声対話システム１の機能として実行可能なものであるかどうかで、システム応答の有無を判定することができる。

また、音声対話システム１では、ユーザ２の発話が、対話の状況に即しておらず、システム応答を返さずに、連続で、音声認識処理を継続し、例えば、一定の時間（例えば1〜2秒程度）の間に音声入力がないことで、音声認識処理が完了した場合には、例えば、「分かりませんでした」や「違う言い方で言ってください」などの応答がなされるようにしてもよい。

さらに、音声対話システム１は、システム応答（応答発話）の時間を、システムの機能として実行可能なときに即時に応答発話を行うだけでなく、例えばユーザの年代や話し方など、ユーザ２の状態によって変化させるようにしてもよい。より具体的には、例えば、ユーザ２が、お年寄りやゆっくり話をする人である場合には、即時に応答発話を行うのではなく、少し時間をおいてゆっくり応答発話を行うなどの対応が可能である。

（学習の結果を用いた適応処理）
ところで、音声対話システム１においては、サーバ２０側で、あらかじめユーザの個人属性に応じた学習処理を行っておくことで、その学習の結果を用いた適応処理を行うことができる。

例えば、ユーザ２の発話の完了を、従来の手法（例えば、図１の例）のように、一定の時間に音声入力がないことで判定する場合に、その発話の完了が、どのようなNLU投入判定要因や、意味解析（NLU）の結果得られる意図（Intent）のときに起きているかを、統計的に収集して学習することができる。

ここで、NLU投入判定要因は、ユーザ２の発話が完了する際に、どのような判定の要因（条件）で、ASR途中結果を、意味解析処理に投入していたかを示すものである。このNLU投入判定要因としては、上述したような、例えば、ASR途中結果に付随する信頼度スコアや、自然言語認識の結果、特定の言い回し文言、イントネーション、ユーザ２の顔向きや視線などが含まれる。

また、このようにして得られる学習の結果を用いた適応処理を行う際に、ユーザ２のデモグラフィック属性に基づいて、適応処理を行うようにしてもよい。すなわち、ユーザごとに、例えば、年代や性別、地域等の情報（デモグラフィック属性）で分類して、学習の結果に適応した処理を行うことができる。

これにより、例えば、年代や性別、地域（方言）等による発話の語末表現やイントネーション等の違いを、ユーザの個人属性に適応することができる。なお、デモグラフィック属性としては、例えば、端末装置１０が、ゲーム機等のネットワーク機器である場合には、ユーザのログイン情報から属性情報を取得することができる。

図１１は、学習の結果を用いた適応処理の例を示している。

図１１においては、図中の横方向の一点鎖線よりも上段が、学習フェーズを示し、一点鎖線よりも下段が、適応フェーズを示している。

例えば、学習フェーズにおいて、ユーザ２によって、「今日の天気は？」である発話U61が行われた場合を想定する。この場合において、音声対話システム１では、時刻t61乃至時刻t62に、「今日の天気は？」である発話U61を用いた音声認識処理が行われ、ASR途中結果が更新されるが、時刻t62以降に、ASR途中結果の更新が停止されている。

そして、時刻t63に投入タイミングになったとき、発話U61のASR途中結果が、意味解析処理に投入され、意味解析（NLU）の結果が得られる。このとき、意味解析（NLU）の結果として得られる意図（Intent）の信頼度スコアが低い場合には、当該意味解析（NLU）の結果が得られた後も、ASR途中結果の更新が停止されるが、ユーザ２の発話が完了すると判定されるまで待つことになる。

すなわち、一定の時間に音声入力がないことで、時刻t64に、音声認識（ASR）の結果が確定し、ユーザ２の発話が完了したと判定されるまで、システム応答が行われないことになる。

この場合に、意味解析・応答判定処理部１０８では、「今日の天気は？」である発話U61に対する意味解析（NLU）の結果として得られる意図（Intent）の信頼度スコアは低いが、この発話U61によって発話の完了であったこと（つまり、ユーザ２の発話が完了する際の意味解析処理へのNLU投入判定要因）を学習し、データベースに記録する。

一方で、その後に行われる適応フェーズにおいては、ユーザ２によって、「今日の天気は？」である発話U71が再度行われた場合、音声対話システム１では、時刻t71乃至時刻t72に、「今日の天気は？」である発話U71を用いた音声認識処理が行われ、ASR途中結果が更新される。

その後、ASR途中結果の更新が停止され、時刻t73に投入タイミングになったとき、発話U71のASR途中結果が、意味解析処理に投入され、意味解析（NLU）の結果が得られる。

このとき、意味解析・応答判定処理部１０８では、上述した学習フェーズにて学習した意味解析処理へのNLU投入判定要因として、「今日の天気は？」である発話U61（発話U71）のASR途中結果が、意味解析処理に投入されたときには、意図（Intent）の信頼度スコアは低いが、発話の完了であったことを学習しているので、それを適応して、発話U71の後に発話が完了すると判定する。

そして、意味解析・応答判定処理部１０８では、「今日の天気は？」である発話U71に対する意味解析（NLU）の結果が得られた後、直ちに、"天気質問"である意図（Intent）に応じた天気確認機能を実行し、そのシステム応答（例えば、「今日の天気は晴れです」）が行われるようにする。

このように、ユーザ２の使用状況の学習の結果を用いた適応処理（応答有無判定処理）を行うことで、意味解析処理が終了した後の時刻t74に、ユーザ２の発話が完了したと判定して、システム応答を行うことが可能となるため、学習の結果を用いない場合と比べて、ユーザ２の発話に対する、システム応答のレスポンスを高速化することができる。

換言すれば、意味解析・応答判定処理部１０８においては、学習フェーズで、例えば、ユーザ２の発話が完了する際の意味解析処理へのNLU投入判定要因や、意味解析処理を逐次行うことで得られる意図（Intent）を、時間軸で統計的に学習し、適応フェーズで、次回以降の処理で、学習の結果（例えば、発話完了実績の統計情報）に適応した処理（応答有無判定処理）を行うと言える。なお、上述したように、意味解析・応答判定処理部１０８では、学習の結果を用いた適応処理を行う際に、ユーザ２のデモグラフィック属性に基づいて、適応処理を行うようにしてもよい。

（マルチモーダル・インターフェースの利用の例）
ところで、音声対話システム１において、ローカル側の端末装置１０が、視覚や聴覚などの複数のコミュニケーションモードを利用することが可能な場合に、このマルチモーダル・インターフェースを利用して、ユーザ２の発話中であっても、応答発話以外に提示可能な情報を、先行して提示するようにしてもよい。例えば、先行して提示可能な情報を、応答発話よりも前に画面に表示することで、発話中のユーザ２に対し、迅速にシステム応答を提示することができる。

なお、ここでは、説明の都合上、ユーザ２による発話開始から途中で、ASR途中結果が意味解析処理に投入されるまでの発話を、「発話Ａ」と記述し、その投入の後に継続している発話であって、その継続開始から完了するまでの発話を、「発話Ｂ」と記述する。

ここでは、まず、第１のマルチモーダル利用の例として、発話Ａの意味解析（NLU）の結果によって、システムの機能として実行可能な機能が特定された場合には、発話Ｂの発話中であっても、発話Ａの意味解析（NLU）の結果に応じた機能を実行して、その実行の結果を、ディスプレイとして構成される画像出力部１１３の画面に表示することができる。そして、発話Ａに続いて、発話Ｂが完了した時点で、システム応答が、スピーカとして構成される音声出力部１１２から音声として出力されることになる。

例えば、ユーザ２によって、「音量を上げて、明日の天気を教えて」である発話がなされた場合に、「音量を上げて」が発話Ａに該当し、「明日の天気を教えて」が発話Ｂに該当するので、例えば、次のような処理を行うことができる。すなわち、音声対話システム１は、発話Ｂの発話中に、音量を上げるとともに、画像出力部１１３の画面に、音量メータの情報を表示し、その後、発話Ｂの完了時には、音声出力部１１２から、明日の天気の情報を音声として出力することができる。

また、例えば、ユーザ２によって、「＜アーティスト名＞の＜曲名＞を探して」である発話がなされた場合に、「＜アーティスト名＞の」が発話Ａに該当し、「＜曲名＞を探して」が発話Ｂに該当するので、例えば、次のような処理を行うことができる。すなわち、音声対話システム１は、発話Ａである「＜アーティスト名＞の」までで、検索されたアーティストの代表曲名のリストを、画像出力部１１３の画面に表示し、その後、発話Ｂである「＜曲名＞を探して」で、対象の曲の再生を開始して、その音楽を、音声出力部１１２から出力することになる。

なお、例えば、ユーザ２によって、「I want to listen・・・」である英語の発話がなされた場合、音声対話システム１は、発話Ａである「I want to listen」が発話された時点で、音楽再生用のプレイヤを起動して、画像出力部１１３の画面に表示し、その後、発話Ｂとして、例えば、曲名まで言われたときには、その曲の再生を開始して、その音楽を、音声出力部１１２から出力することになる。

また、例えば、ユーザ２によって、「東京都港区港南・・・」である住所に関する発話がなされた場合、音声対話システム１は、「東京都」である発話がされた時点で、地図アプリケーションを起動して、東京都の地図を表示し、その後、「港区」である発話がされた時点で、東京都の地図を拡大して、港区の地図を表示する。そして、音声対話システム１は、さらに、「港南」である発話がされた時点で、港区の地図を拡大して、港南地域の地図を表示する。すなわち、画像出力部１１３の画面では、ユーザ２が地名を発する度に、その地名に応じて地図の領域が拡大表示されることになる。

なお、例えば、複数人のユーザが、各々のスケジュールを確認する際に、複数人のユーザのうち、対象のユーザの名前が発せられる度に（例えば、「Ａさんと、Ｂさんと、Ｃさんと、・・・」等）、音声対話システム１が、逐次、対象のユーザの予定を、画面に表示するようにしてもよい。また、音声による複数キーワードの検索を行う際に、ユーザ２が、キーワードを発する度に、音声対話システム１が、逐次、対象のキーワードによって絞り込まれた検索結果を、画面に表示するようにしてもよい（いわば、インクリメンタルサーチ機能を実現しているとも言える）。

次に、第２のマルチモーダル利用の例として、発話Ａの意味解析（NLU）の結果が、対話の状況に即しておらず、音声対話システム１が、意味解析（NLU）の結果に応じた機能を実行できない場合に、発話Ｂの発話中に、画像出力部１１３の画面に、システムが継続して発話を聞いていることを示す情報を表示することができる。

ここでは、例えば、「？」であるマークや、発話を聞いていることを表した耳の画像、擬人化エージェントがうなずくなどの情報を、画面に表示することで、ユーザ２に対し、音声対話システム１が継続して発話を聞いていることを知らせることができる。

次に、第３のマルチモーダル利用の例として、発話Ａの意味解析（NLU）の結果（Intent）の信頼度スコアが低く、その結果に確信が持てない場合に、音声対話システム１は、その意図（Intent）に関する情報を、通常よりも弱い表現で提示することができる。

ここでは、例えば、画像出力部１１３の画面に、表示する画像の明暗の差を縮めて（コントラストを変化させて）、画面にうっすら表示したり、あるいは、音声出力部１１２から出力される音声の音量を下げて、小さい音で出したりすることができる。

なお、その後、発話Ｂの意味解析（NLU）の結果（Intent）の信頼度スコアが高くなって、その結果に確信が持てた段階で、音声対話システム１は、その意図（Intent）に関する情報を、先ほどの弱い表現よりも強い表現（例えば、通常の表現又は通常よりも強い表現）で提示することができる。ここでは、例えば、表示する画像の明暗の差を大きくして、画面にはっきり表示したり、あるいは、音量を上げて、大きい音で出したりすることができる。

具体的には、例えば、ユーザ２によって、「How is the weather in Osaka」である英語の発話がなされた場合、「How is the weather」が、発話Ａに該当し、「in Osaka」が、発話Ｂに該当するので、例えば、次のような処理を行うことができる。すなわち、音声対話システム１は、発話Ａがされた時点で、現在地となる「東京の天気」をうっすら表示し、その後、発話Ｂがされた時点で、対象の地域となる「大阪の天気」をはっきり表示する。

最後に、第４のマルチモーダル利用の例として、対象の機器（例えば、端末装置１０）が、擬人化エージェントで、顔がある場合において、発話Ａの段階で、意味解析（NLU）の結果（Intent）の信頼度スコアが高く、その結果に確信が持てたときに、この擬人化エージェントが、ユーザ２に対し、視線を向けるようにしてもよい。その結果として、ユーザ２は、視線によって発話Ｂを促すフィードバックを受けることになり、発話Ａに続いて発話Ｂを発しやすくなる。

例えば、ユーザ２によって、「×××って曲を聴きたいんだけど、、音量を上げて聴かせて」である発話がなされた場合、「×××って曲を聴きたいんだけど」が、発話Ａに該当し、「音量を上げて聴かせて」が、発話Ｂに該当するので、例えば、次のような処理を行うことができる。すなわち、音声対話システム１は、発話Ａの段階でその結果に確信を持ったため、擬人化エージェントの視線が、ユーザ２に向くようにする。

これにより、ユーザ２は、所望の曲が見つかったことを、擬人化エージェントの視線から察して、音量のアップを依頼することになる。そして、音声対話システム１は、発話Ｂの意味解析（NLU）の結果に基づき、音量を上げて対象の曲の再生を開始することになる。なお、ここで説明した擬人化エージェントは、例えば、コミュニケーションロボット等として、端末装置１０そのものが擬人化されていてもよいし、あるいは、例えば、キャラクタ等として、画像出力部１１３の画面に表示されるようにしてもよい。

なお、上述した説明では、発話Ａを完了した後に、発話Ｂを行っている間に提示される、発話Ａの意味解析（NLU）の結果に応じた機能の実行の結果の提示方法として、ティスプレイとして構成される画像出力部１１３の画面への表示を説明したが、例えば、ユーザ２が身につけている機器を振動させるなど、音声出力以外での提示方法を採用するようにしてもよい。

また、マルチモーダルを利用する際には、例えば、意味解析・応答判定処理部１０８（の応答有無判定部１２３）からの制御に従い、応答生成部１０９が、発話Ｂの発話中に、発話Ａの意味解析（NLU）の結果に応じた機能の実行の結果を、出力画像処理部１１１を介して画像出力部１１３の画面に表示するようにする。

その後に、発話Ｂの発話が完了した時点で、応答生成部１０９は、意味解析・応答判定処理部１０８（の応答有無判定部１２３）からの制御に従い、発話Ｂの意味解析（NLU）の結果に応じた機能の実行の結果（システム応答）を、音声合成処理部１１０を介して音声出力部１１２から出力するようにする。これにより、音声対話システム１において、マルチモーダル・インターフェースが利用可能となる。

（応答有無判定処理の流れ）
次に、図１２のフローチャートを参照して、音声対話システム１により実行される応答有無判定処理の流れを説明する。

なお、この応答有無判定処理は、図５の音声対話処理におけるステップＳ１６の処理に含まれる。

ステップＳ３１において、応答有無判定部１２３は、上述のステップＳ１５の処理（図５）で得られる意味解析（NLU）の結果（Intent）が、ユーザ２のコンテキスト情報を示すものであるかどうかを判定する。

ステップＳ３１において、意図（Intent）が、ユーザ２のコンテキスト情報を示すものであると判定された場合、処理は、ステップＳ３２に進められる。ステップＳ３２において、応答有無判定部１２３は、意味解析（NLU）の結果として得られた意図（Intent）に含まれるユーザ２のコンテキスト情報を記録する。

なお、このコンテキスト情報を記録しておくことで、同一のユーザの発話内で、次回以降の意味解析（NLU）の結果を取得した際に、システム応答の有無の判定時に用いることができる。

ステップＳ３２の処理が終了すると、処理は、ステップＳ３３に進められる。また、ステップＳ３１において、意図（Intent）が、ユーザ２のコンテキスト情報を示すものではないと判定された場合、ステップＳ３２の処理はスキップされ、処理は、ステップＳ３３に進められる。

ステップＳ３３において、応答有無判定部１２３は、意図（Intent）が、システムの機能として実行可能であるかどうかを判定する。

ステップＳ３３において、意図（Intent）が、システムの機能として実行可能であると判定された場合、処理は、ステップＳ３４に進められる。ステップＳ３４において、応答有無判定部１２３は、意図（Intent）が、対話の状況に即したものであるかどうかを判定する。

ステップＳ３４において、意図（Intent）が、対話の状況に即したものであると判定された場合、処理は、ステップＳ３５に進められる。

また、ステップＳ３４において、意図（Intent）が、対話の状況に即したものではないと判定された場合、処理は、ステップＳ３６に進められる。ステップＳ３６において、応答有無判定部１２３は、意図（Intent）が、ユーザ２のコンテキスト情報に合致しているかどうかを判定する。

ステップＳ３６において、意図（Intent）が、ユーザ２のコンテキスト情報に合致していると判定された場合、処理は、ステップＳ３７に進められる。ステップＳ３７において、応答有無判定部１２３は、今回取得した意図（Intent）に対するシステム応答を、ユーザ２のコンテキスト情報に基づいたシステム応答として登録する。ステップＳ３７の処理が終了すると、処理は、ステップＳ３５に進められる。

ステップＳ３５において、応答有無判定部１２３は、システムが、先行するユーザ発話に対する応答中であるかどうかを判定する。

ステップＳ３５において、システムが、先行するユーザ発話に対する応答中であると判定された場合、処理は、ステップＳ３８に進められる。ステップＳ３８において、応答有無判定部１２３は、先行応答が、ユーザ２のコンテキスト情報に基づいて応答されたものかどうかが判定される。

ステップＳ３８において、先行応答が、ユーザ２のコンテキスト情報に基づいて応答されたものであると判定された場合、処理は、ステップＳ３９に進められる。ステップＳ３９において、応答有無判定部１２３は、先行応答が完了してから、今回取得した意図（Intent）に対する応答を実行すると判定し、その応答有無判定の結果を、応答生成部１０９に供給する。

一方で、ステップＳ３８において、先行応答が、ユーザ２のコンテキスト情報に基づいて応答されたものではないと判定された場合、処理は、ステップＳ４０に進められる。ステップＳ４０において、応答有無判定部１２３は、先行応答を中断し、今回取得した意図（Intent）に対応する応答を即時に実行すると判定し、その応答有無判定の結果を、応答生成部１０９に供給する。

また、上述のステップＳ３５において、システムが、先行するユーザ発話に対する応答中ではないと判定された場合、処理は、ステップＳ４１に進められる。ステップＳ４１において、応答有無判定部１２３は、今回取得した意図（Intent）に対応する応答を即時に実行すると判定し、その応答有無判定の結果を、応答生成部１０９に供給する。

さらに、上述のステップＳ３３において、意図（Intent）が、システムの機能として実行可能ではないと判定された場合、あるいは、上述のステップＳ３６において、意図（Intent）が、ユーザ２のコンテキスト情報に合致していないと判定された場合、処理は、ステップＳ４２に進められる。ステップＳ４２において、応答有無判定部１２３は、今回取得した意図（Intent）に対する応答は行わないと判定し、その応答有無判定の結果を、応答生成部１０９に供給する（ここでは応答有無判定の結果の通知そのものを行わなくてもよい）。

なお、ステップＳ３９，Ｓ４０，Ｓ４１，Ｓ４２のいずれかの処理が終了すると、図１２に示した応答有無判定処理は終了される。

以上、応答有無判定処理の流れを説明した。

なお、図１２に示した応答有無判定処理では、ユーザ２の発話に応じて得られる意味解析（NLU）の結果に基づき、ユーザ２のコンテキスト情報を記録しているが、意図（Intent）以外の他の情報から、ユーザ２のコンテキスト情報が得られるようにしてもよい。ここで、意味解析（NLU）の結果以外の他の情報としては、例えば、画像データに対する画像認識処理を行うことで得られる画像認識の結果（画像情報）に基づき、ユーザ２のコンテキスト情報を取得することができる。

例えば、上述した意味解析（NLU）の結果（Intent, Entity）に基づき、コンテキスト情報を取得する例としては、ユーザ２が、「あ、今から出かけるから」である発話を行った場合に、Intent = "外出", Entity = "今" に応じたコンテキスト情報（例えば「今から外出」）を記録することが想定される。

一方で、例えば、画像認識の結果に基づき、コンテキスト情報を取得する例としては、画像認識の結果として、ユーザ２が部屋から出て行くことが認識された場合に、「出かける」であるコンテキスト情報を記録することができる。この場合、音声対話システム１は、例えば、ユーザ２が、「天気教えて」である発話を行ったとき、コンテキスト情報に基づき、システム応答を行うと判定することができる。

また、例えば、画像認識の結果として、ユーザ２が台所で料理をしていることが認識された場合に、「台所で料理」であるコンテキスト情報を記録することができる。この場合、音声対話システム１は、例えば、「×××のレシピを教えて」である発話を行ったとき、コンテキスト情報に基づき、システム応答を行うと判定することができる。

以上のように、音声対話システム１では、ユーザ２の発話中に得られる認識の結果に基づいて、ASR途中結果を逐次、意味解析処理に投入し、その結果得られる意味解析（NLU）の結果に基づいて、システム応答の有無を判定することで、ユーザ２の発話に対し、システム応答のレスポンスを高速化することができるようにしている。

すなわち、音声対話システム１では、図１及び図２に示した従来の音声対話システム９０のように、ユーザ２の発話の完了を、一定の時間（固定時間）に音声入力がないことで判定するのではなく、システム側でのユーザ２の意図理解の状況によって判定しているため、人が相手の発話に対して応答行動をとるのと同程度の時間で、システム応答のレスポンスを返すことができる。また、システム応答のレスポンスを高速化することで、ユーザ２は、本技術の音声対話システム１との対話に際して、例えば、0.5秒程度の時間の短縮であっても、従来の音声対話システム９０との違いを体感することができる。

そして、音声対話システム１のレスポンスが、人の応答行動と同程度になることによって、ユーザ２は、対話のターンを意識せずに、システムに対し、自然発話を行えるというマインドができる。

また、音声対話システム１において、例えば、ユーザ発話の完了の待ち時間が短く設定されている場合には、ユーザ２は、システムへの発話時に間（ま）を空けても、自身が意図するタイミングで、システム応答が返されることになる。そのため、ユーザ２が、システムへの発話を一息で話しきらなくても、意図するタイミングでシステム応答が返ってくるので、音声コマンドではない自然発話で、システムに対して発話を行うことが可能となる。

＜３．変形例＞

上述した説明では、音声対話システム１において、音声入力部１０１乃至センサ部１０３、音声出力部１１２、及び画像出力部１１３が、ローカル側の端末装置１０に組み込まれ、音声認識部１０４乃至出力画像処理部１１１が、クラウド側のサーバ２０に組み込まれる構成を一例として説明したが、音声入力部１０１乃至画像出力部１１３のそれぞれは、端末装置１０とサーバ２０のうち、どちらの機器に組み込まれてもよい。

例えば、音声入力部１０１乃至画像出力部１１３のすべてが、端末装置１０側に組み込まれ、ローカル側で処理が完了するようにしてもよい。ただし、このような構成を採用した場合でも、各種のデータベースは、インターネット３０上のサーバ２０が管理するようにしてもよい。

また、音声認識部１０４で行われる音声認識処理や、意味解析部１２２で行われる意味解析処理は、他のサービスで提供されている音声認識サービスや意味解析サービスを利用するようにしてもよい。この場合、例えば、サーバ２０では、インターネット３０上で提供される音声認識サービスに対し、音声データを送ることで、音声認識（ASR）の結果を得ることができる。また、例えば、サーバ２０では、インターネット３０上で提供される意味解析サービスに対し、ASR途中結果（テキストデータ）を送ることで、ASR途中結果の意味解析（NLU）の結果（Intent, Entity）を得ることができる。

＜４．コンピュータの構成＞

上述した一連の処理（例えば、図５に示した音声対話処理）は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、各装置のコンピュータにインストールされる。図１３は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータ１０００において、CPU(Central Processing Unit)１００１、ROM(Read Only Memory)１００２、RAM(Random Access Memory)１００３は、バス１００４により相互に接続されている。バス１００４には、さらに、入出力インターフェース１００５が接続されている。入出力インターフェース１００５には、入力部１００６、出力部１００７、記録部１００８、通信部１００９、及び、ドライブ１０１０が接続されている。

入力部１００６は、マイクロフォン、キーボード、マウスなどよりなる。出力部１００７は、スピーカ、ディスプレイなどよりなる。記録部１００８は、ハードディスクや不揮発性のメモリなどよりなる。通信部１００９は、ネットワークインターフェースなどよりなる。ドライブ１０１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体１０１１を駆動する。

以上のように構成されるコンピュータ１０００では、CPU１００１が、ROM１００２や記録部１００８に記録されているプログラムを、入出力インターフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ１０００（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。

コンピュータ１０００では、プログラムは、リムーバブル記録媒体１０１１をドライブ１０１０に装着することにより、入出力インターフェース１００５を介して、記録部１００８にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部１００９で受信し、記録部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記録部１００８に、あらかじめインストールしておくことができる。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

また、図５に示した音声対話処理の各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

なお、本技術は、以下のような構成をとることができる。

（１）
ユーザの発話の音声認識の途中結果から得られる意味解析の結果に基づいて、前記ユーザの発話に対する応答の有無を判定する処理部を備える
情報処理装置。
（２）
前記処理部は、
前記ユーザの発話中に得られる認識の結果に基づいて、前記音声認識の途中結果を逐次、意味解析処理に投入する意味解析制御部と、
前記意味解析処理を逐次行うことで得られる前記意味解析の結果に基づいて、前記応答の有無を判定する応答有無判定部と
を有する
前記（１）に記載の情報処理装置。
（３）
前記意味解析制御部は、前記ユーザの発話の音声データの認識の結果、前記ユーザを撮像して得られる画像データの認識の結果、前記ユーザ又はその周辺をセンシングして得られるセンサデータの認識の結果、及び前記音声認識の途中結果を自然言語処理して得られる自然言語認識の結果のうち、少なくとも１つの認識の結果を含む
前記（２）に記載の情報処理装置。
（４）
前記意味解析制御部は、前記認識の結果から得られる前記ユーザの発話の状況に基づいて、前記音声認識の途中結果を、前記意味解析処理に投入するタイミングを判定する
前記（２）又は（３）に記載の情報処理装置。
（５）
前記応答有無判定部は、前記意味解析処理を逐次行うことで得られる前記意味解析の結果として、システムが、前記ユーザとの対話に即した機能を実行可能な意味解析の結果が得られた時点で、前記応答を行うと判定する
前記（２）乃至（４）のいずれかに記載の情報処理装置。
（６）
前記応答有無判定部は、前記意味解析処理を逐次行うことで得られる前記意味解析の結果に基づいて、システムの機能として実行可能な意図が得られたとき、前記応答を行うと判定する
前記（２）乃至（５）のいずれかに記載の情報処理装置。
（７）
前記応答有無判定部は、
ある時点で得られた第１の意味解析の結果に基づき、前記ユーザのコンテキスト情報を記録し、
その後に得られた第２の意味解析の結果が、記録した前記コンテキスト情報の内容に合致している場合に、前記第２の意味解析の結果に基づいた応答を行うと判定する
前記（６）に記載の情報処理装置。
（８）
前記応答有無判定部は、判定の対象となる第２の応答に対し、第１の応答が先行して行われている場合に、前記第１の応答が、前記コンテキスト情報に基づいたものであるとき、前記第１の応答が完了してから、前記第２の応答を行うと判定する
前記（７）に記載の情報処理装置。
（９）
前記応答有無判定部は、判定の対象となる第２の応答に対し、第１の応答が先行して行われている場合に、前記第１の応答が、前記コンテキスト情報に基づいたものではないとき、前記第１の応答を中断し、前記第２の応答を即時に行うと判定する
前記（７）又は（８）に記載の情報処理装置。
（１０）
前記応答有無判定部は、前記意味解析処理を逐次行うことで得られる意図（Intent）及び実体情報（Entity）に基づいて、前記応答の有無を判定する
前記（２）乃至（９）のいずれかに記載の情報処理装置。
（１１）
前記処理部は、前記ユーザごとの使用状況に応じた学習の結果に基づいて、前記応答の有無を判定する
前記（２）乃至（１０）のいずれかに記載の情報処理装置。
（１２）
前記処理部は、
前記ユーザの発話が完了する際の前記意味解析処理への投入判定要因、又は前記意味解析処理を逐次行うことで得られる意図（Intent）を、時間軸で統計的に学習し、
次回以降の処理で、前記ユーザのデモグラフィック属性に基づいて、学習の結果に適応した処理を行う
前記（１１）に記載の情報処理装置。
（１３）
前記処理部は、第１の応答が音声により提示される場合に、前記第１の応答に先行した第２の応答が提示可能となるとき、前記第１の応答に先行して、前記第２の応答が音声以外の方法により提示されるようにする
前記（２）に記載の情報処理装置。
（１４）
前記意味解析制御部は、前記音声データの認識の結果に基づいて、前記ユーザの発話の間の時間が一定の時間を超えたとき、前記音声認識の途中結果に付随する信頼度スコアが一定の閾値を超えたとき、前記音声認識の途中結果のテキストの文末に特定の言い回し文言を検出したとき、又は発話韻律で疑問を示すイントネーションを検出したとき、前記音声認識の途中結果を、前記意味解析処理に投入する
前記（３）又は（４）に記載の情報処理装置。
（１５）
前記意味解析制御部は、前記画像データの認識の結果に基づいて、前記ユーザの顔が所定の対象に向いたとき、又は所定の対象からそれたとき、前記音声認識の途中結果を、前記意味解析処理に投入する
前記（３）又は（４）に記載の情報処理装置。
（１６）
前記意味解析制御部は、前記センサデータの認識の結果に基づいて、前記ユーザの視線が所定の対象に向いたとき、又は所定の対象からそれたとき、前記音声認識の途中結果を、前記意味解析処理に投入する
前記（３）又は（４）に記載の情報処理装置。
（１７）
前記意味解析制御部は、前記自然言語認識の結果に基づいて、依頼又は質問を示す述語の文節を検出したとき、前記音声認識の途中結果を、前記意味解析処理に投入する
前記（３）又は（４）に記載の情報処理装置。
（１８）
前記応答有無判定部による前記応答の有無判定の結果に基づいて、システム応答を生成する応答生成部をさらに備える
前記（２）乃至（１７）のいずれかに記載の情報処理装置。
（１９）
前記ユーザの発話から前記音声認識の途中結果を得るための音声認識処理を行う音声認識部と、
前記意味解析処理を行う意味解析部と
をさらに備える前記（２）乃至（１８）のいずれかに記載の情報処理装置。
（２０）
情報処理装置の情報処理方法において、
前記情報処理装置が、
ユーザの発話の音声認識の途中結果から得られる意味解析の結果に基づいて、前記ユーザの発話に対する応答の有無を判定する
情報処理方法。

１音声対話システム，１０端末装置，２０サーバ，９０インターネット，１０１音声入力部，１０２画像入力部，１０３センサ部，１０４音声認識部，１０５画像認識部，１０６センサ認識部，１０７自然言語処理部，１０８意味解析・応答判定処理部，１０９応答生成部，１１０音声合成処理部，１１１出力画像処理部，１１２音声出力部，１１３画像出力部，１２１逐次意味解析制御部，１２２意味解析部，１２３応答有無判定部，１０００コンピュータ，１００１ CPU

Claims

ユーザの発話の音声認識の途中結果から得られる意味解析の結果に基づいて、前記ユーザの発話に対する応答の有無を判定する処理部を備える
情報処理装置。
前記処理部は、
前記ユーザの発話中に得られる認識の結果に基づいて、前記音声認識の途中結果を逐次、意味解析処理に投入する意味解析制御部と、
前記意味解析処理を逐次行うことで得られる前記意味解析の結果に基づいて、前記応答の有無を判定する応答有無判定部と
を有する
請求項１に記載の情報処理装置。
前記意味解析制御部は、前記ユーザの発話の音声データの認識の結果、前記ユーザを撮像して得られる画像データの認識の結果、前記ユーザ又はその周辺をセンシングして得られるセンサデータの認識の結果、及び前記音声認識の途中結果を自然言語処理して得られる自然言語認識の結果のうち、少なくとも１つの認識の結果を含む
請求項２に記載の情報処理装置。
前記意味解析制御部は、前記認識の結果から得られる前記ユーザの発話の状況に基づいて、前記音声認識の途中結果を、前記意味解析処理に投入するタイミングを判定する
請求項３に記載の情報処理装置。
前記応答有無判定部は、前記意味解析処理を逐次行うことで得られる前記意味解析の結果として、システムが、前記ユーザとの対話に即した機能を実行可能な意味解析の結果が得られた時点で、前記応答を行うと判定する
請求項２に記載の情報処理装置。
前記応答有無判定部は、前記意味解析処理を逐次行うことで得られる前記意味解析の結果に基づいて、システムの機能として実行可能な意図が得られたとき、前記応答を行うと判定する
請求項５に記載の情報処理装置。
前記応答有無判定部は、
ある時点で得られた第１の意味解析の結果に基づき、前記ユーザのコンテキスト情報を記録し、
その後に得られた第２の意味解析の結果が、記録した前記コンテキスト情報の内容に合致している場合に、前記第２の意味解析の結果に基づいた応答を行うと判定する
請求項６に記載の情報処理装置。
前記応答有無判定部は、判定の対象となる第２の応答に対し、第１の応答が先行して行われている場合に、前記第１の応答が、前記コンテキスト情報に基づいたものであるとき、前記第１の応答が完了してから、前記第２の応答を行うと判定する
請求項７に記載の情報処理装置。
前記応答有無判定部は、判定の対象となる第２の応答に対し、第１の応答が先行して行われている場合に、前記第１の応答が、前記コンテキスト情報に基づいたものではないとき、前記第１の応答を中断し、前記第２の応答を即時に行うと判定する
請求項７に記載の情報処理装置。
前記応答有無判定部は、前記意味解析処理を逐次行うことで得られる意図（Intent）及び実体情報（Entity）に基づいて、前記応答の有無を判定する
請求項２に記載の情報処理装置。
前記処理部は、前記ユーザごとの使用状況に応じた学習の結果に基づいて、前記応答の有無を判定する
請求項２に記載の情報処理装置。
前記処理部は、
前記ユーザの発話が完了する際の前記意味解析処理への投入判定要因、又は前記意味解析処理を逐次行うことで得られる意図（Intent）を、時間軸で統計的に学習し、
次回以降の処理で、前記ユーザのデモグラフィック属性に基づいて、学習の結果に適応した処理を行う
請求項１１に記載の情報処理装置。
前記処理部は、第１の応答が音声により提示される場合に、前記第１の応答に先行した第２の応答が提示可能となるとき、前記第１の応答に先行して、前記第２の応答が音声以外の方法により提示されるようにする
請求項２に記載の情報処理装置。
前記意味解析制御部は、前記音声データの認識の結果に基づいて、前記ユーザの発話の間の時間が一定の時間を超えたとき、前記音声認識の途中結果に付随する信頼度スコアが一定の閾値を超えたとき、前記音声認識の途中結果のテキストの文末に特定の言い回し文言を検出したとき、又は発話韻律で疑問を示すイントネーションを検出したとき、前記音声認識の途中結果を、前記意味解析処理に投入する
請求項４に記載の情報処理装置。
前記意味解析制御部は、前記画像データの認識の結果に基づいて、前記ユーザの顔が所定の対象に向いたとき、又は所定の対象からそれたとき、前記音声認識の途中結果を、前記意味解析処理に投入する
請求項４に記載の情報処理装置。
前記意味解析制御部は、前記センサデータの認識の結果に基づいて、前記ユーザの視線が所定の対象に向いたとき、又は所定の対象からそれたとき、前記音声認識の途中結果を、前記意味解析処理に投入する
請求項４に記載の情報処理装置。
前記意味解析制御部は、前記自然言語認識の結果に基づいて、依頼又は質問を示す述語の文節を検出したとき、前記音声認識の途中結果を、前記意味解析処理に投入する
請求項４に記載の情報処理装置。
前記応答有無判定部による前記応答の有無判定の結果に基づいて、システム応答を生成する応答生成部をさらに備える
請求項２に記載の情報処理装置。
前記ユーザの発話から前記音声認識の途中結果を得るための音声認識処理を行う音声認識部と、
前記意味解析処理を行う意味解析部と
をさらに備える請求項１８に記載の情報処理装置。
情報処理装置の情報処理方法において、
前記情報処理装置が、
ユーザの発話の音声認識の途中結果から得られる意味解析の結果に基づいて、前記ユーザの発話に対する応答の有無を判定する
情報処理方法。