WO2021251107A1

WO2021251107A1 - 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Info

Publication number: WO2021251107A1
Application number: PCT/JP2021/019415
Authority: WO
Inventors: 裕士瀧本
Original assignee: ソニーグループ株式会社
Priority date: 2020-06-11
Filing date: 2021-05-21
Publication date: 2021-12-16

Abstract

エージェント発話とユーザ発話との発話被りが発生した場合に、エージェント発話の内容を確実にユーザに通知することを可能とした装置、方法を実現する。情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出する発話被り検出部と、発話被り検出部において、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力する出力先制御部を有する。出力先制御部は、発話被りが検出された場合、エージェント発話を停止し、または継続しながらエージェント発話の代わりの表示データを表示部に出力する。

Description

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

　本開示は、情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。さらに詳細には、ユーザ発話に応じた処理や応答を実行する情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。

　昨今、ユーザ発話の音声認識を行い、認識結果に基づく様々な処理や応答を行う音声対話システムの利用が増大している。
　この音声対話システムにおいては、マイクを介して入力するユーザ発話の解析を行い、解析結果に応じた処理を行う。

　このように、ユーザとの対話を行なう情報処理装置は、エージェント装置やスマートスピーカーと呼ばれる。

　具体的には、例えばユーザとの対話を行うエージェント装置を会社や銀行などの受付に設置して、来訪者の要件を確認するなどの利用が行われている。
　例えば、銀行の受付に設置されたエージェント装置のカメラによって来訪者（ユーザ）が確認された場合、以下のような対話が行われる。
　エージェント装置発話＝「ご用件をお聞かせ下さい」
　ユーザ発話＝「銀行口座を開設したいのですが」
　このような対話がなされ、エージェント装置によるユーザ発話の解析結果が担当部署に通知されるといった処理がなされる。

　しかし、このようなエージェント装置とユーザとの対話において、エージェント装置とユーザが話すタイミングが重なってしまうことがある。すなわち「発話被り」が発生することがある。

　このように、「発話被り」が発生すると、ユーザは、話の腰を折られて話しづらくなってしまう。また、一般的な人同士の対話において、発話が重なってしまった際と同様、譲り合いや、沈黙となるといったことがあり、会話のテンポが悪くなる。

　また、エージェント装置には、ユーザ発話が検出された場合にエージェント装置の発話を停止して、ユーザ発話の解析を優先して実行する機能を備えたものが多い。
　このような機能を利用した処理を行うと、エージェント装置側から伝えたい情報を、ユーザに迅速に伝えにくくなるという問題が発生する。

　なお、このような「発話被り」の問題を解決する手法を開示した従来技術として、例えば、特許文献１（特開平９－２６９８８９号公報）がある。
　この特許文献１は、コンピュータとユーザとの対話システムにおいて、コンピュータがユーザの挙動、例えば視線や表情等を解析して、発話権がコンピュータ側にあるか、ユーザ側にあるかを判定して、判定結果に基づいて、コンピュータ側の発話の実行、待機を制御する構成を開示している。

　しかし、このような手法は、必ずしも常に成功するとは限らず、発話被りの発生を完全に防止することは困難である。
　また、この特許文献には発話被りが発生した場合の解決策についての記載がない。

特開平９－２６９８８９号公報

　本開示は、例えば、上記問題点に鑑みてなされたものであり、ユーザとの対話を実行するエージェント装置とユーザの発話タイミングが重なる「発話被り」が発生した場合に、エージェント装置側から伝えたい情報をユーザに確実に伝えることを可能とした情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。

　本開示の第１の側面は、
　情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出する発話被り検出部と、
　前記発話被り検出部において、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力する出力先制御部を有する情報処理装置にある。

　さらに、本開示の第２の側面は、
　エージェント装置と、データ処理サーバを有する情報処理システムであり、
　前記エージェント装置は、
　ユーザ発話を入力する入力部と、
　前記データ処理サーバから受信したエージェント発話を出力する音声出力部と、前記データ処理サーバから受信した表示データを出力する表示部を有し、
　前記データ処理サーバは、
　前記エージェント装置の音声出力部を介して出力されているエージェント発話実行中のユーザ発話を検出する発話被り検出部と、
　前記発話被り検出部において、発話被りが検出された場合、エージェント発話の代わりの表示データを、前記エージェント装置に送信して、前記エージェント装置の表示部に出力する出力先制御部を有する情報処理システムにある。

　さらに、本開示の第３の側面は、
　情報処理装置において実行する情報処理方法であり、
　発話被り検出部が、情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出する発話被り検出ステップと、
　出力先制御部が、前記発話被り検出ステップにおいて、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力する出力先制御ステップを実行する情報処理方法にある。

　さらに、本開示の第４の側面は、
　エージェント装置と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
　前記エージェント装置は、
　ユーザ発話を入力する入力部と、
　前記データ処理サーバから受信したエージェント発話を出力する音声出力部と、前記データ処理サーバから受信した表示データを出力する表示部を有し、
　前記データ処理サーバが、
　前記エージェント装置の音声出力部を介して出力されているエージェント発話実行中のユーザ発話を検出する発話被り検出処理と、
　前記発話被り検出処理において、発話被りが検出された場合、エージェント発話の代わりの表示データを、前記エージェント装置に送信して、前記エージェント装置の表示部に出力する出力先制御処理を実行する情報処理方法にある。

　さらに、本開示の第５の側面は、
　情報処理装置において情報処理を実行させるプログラムであり、
　発話被り検出部に、情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出させる発話被り検出ステップと、
　出力先制御部に、前記発話被り検出ステップにおいて、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力させる出力先制御ステップを実行させるプログラムにある。

　なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

　本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　本開示の一実施例の構成によれば、、エージェント発話とユーザ発話との発話被りが発生した場合に、エージェント発話の内容を確実にユーザに通知することを可能とした装置、方法が実現される。
　具体的には、例えば、情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出する発話被り検出部と、発話被り検出部において、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力する出力先制御部を有する。出力先制御部は、発話被りが検出された場合、エージェント発話を停止し、または継続しながらエージェント発話の代わりの表示データを表示部に出力する。
　本構成により、エージェント発話とユーザ発話との発話被りが発生した場合に、エージェント発話の内容を確実にユーザに通知することを可能とした装置、方法が実現される。
　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

エージェント装置（情報処理装置）の構成と処理例について説明する図である。本開示のエージェント装置（情報処理装置）が実行する処理の一例について説明する図である。本開示のエージェント装置（情報処理装置）が実行する処理の一例について説明する図である。本開示のエージェント装置（情報処理装置）が実行する処理シーケンスの一例について説明する図である。本開示のエージェント装置（情報処理装置）が実行する処理シーケンスの一例について説明する図である。本開示のエージェント装置（情報処理装置）が実行する処理シーケンスの一例について説明する図である。本開示のエージェント装置（情報処理装置）が実行する処理シーケンスの一例について説明する図である。本開示のエージェント装置（情報処理装置）が実行する処理シーケンスの一例について説明する図である。本開示のエージェント装置（情報処理装置）が実行する処理シーケンスの一例について説明する図である。本開示のエージェント装置（情報処理装置）が実行する処理シーケンスの一例について説明する図である。本開示のエージェント装置（情報処理装置）が実行する処理シーケンスの一例について説明する図である。本開示のエージェント装置（情報処理装置）が実行する処理シーケンスの一例について説明する図である。本開示のエージェント装置（情報処理装置）が実行する処理シーケンスの一例について説明する図である。本開示のエージェント装置（情報処理装置）が実行する処理シーケンスの一例について説明する図である。本開示のエージェント装置（情報処理装置）が実行する処理シーケンスの一例について説明する図である。本開示のエージェント装置（情報処理装置）が実行する処理シーケンスの一例について説明する図である。本開示のエージェント装置（情報処理装置）が実行する処理シーケンスの一例について説明する図である。本開示のエージェント装置（情報処理装置）が実行する処理シーケンスの一例について説明する図である。本開示のエージェント装置（情報処理装置）が実行する処理シーケンスの一例について説明するフローチャートを示す図である。本開示のエージェント装置（情報処理装置）が実行する処理シーケンスの一例について説明するフローチャートを示す図である。本開示のエージェント装置（情報処理装置）が実行する処理シーケンスの一例について説明するフローチャートを示す図である。本開示のエージェント装置（情報処理装置）が実行する処理シーケンスの一例について説明するフローチャートを示す図である。本開示のエージェント装置（情報処理装置）が実行する処理シーケンスの一例について説明するフローチャートを示す図である。本開示のエージェント装置（情報処理装置）の構成例について説明する図である。出力データ登録データベースの登録データの一例について説明する図である。本開示のエージェント装置（情報処理装置）とサーバを有するネットワーク構成例でについて説明する図である。本開示のエージェント装置（情報処理装置）とサーハの構成例について説明する図である。本開示のエージェント装置（情報処理装置）とサーバの構成例について説明する図である。本開示のエージェント装置（情報処理装置）のハードウェア構成例について説明する図である。

　以下、図面を参照しながら本開示の情報処理装置、情報処理システム、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
　１．本開示の情報処理装置の構成と処理の概要について
　２．本開示の情報処理装置が実行する処理の具体例について
　３．本開示の情報処理装置が実行する処理のシーケンスについて
　４．情報処理装置の構成例について
　５．情報処理装置のハードウェア構成例について
　６．本開示の構成のまとめ

　　［１．本開示の情報処理装置の構成と処理の概要について］
　まず、図１以下を参照して、本開示の情報処理装置、すなわち、ユーザ発話に応じた処理を行う情報処理装置の構成と処理の概要について説明する。
　なお、前述したように、ユーザとの対話を行なう情報処理装置は、例えばエージェント装置やスマートスピーカーと呼ばれる。

　図１には、ユーザ１の発するユーザ発話を認識して応答を行う本開示の情報処理装置の一例であるエージェント装置１０を示している。
　このエージェント装置１０は、例えば銀行の受付に設置されている。

　エージェント装置１０のカメラ１１によって来訪者であるユーザ１が確認された場合、以下のような対話が行われる。
　エージェント装置発話＝「いらっしゃいませ、ご用件をお聞かせ下さい」
　ユーザ発話＝「銀行口座を開設したいのですが」
　このような対話がなされ、エージェント装置１０により、ユーザ発話が解析され、解析結果が担当部署に通知されるといった処理がなされる。

　図１に示す情報処理装置１０は、カメラ１１、マイク１２、表示部１３、スピーカー１４、センサ１５を有しており、音声入出力と画像入出力が可能な構成を有する。
　カメラ１１は、例えば、来訪者であるユーザの画像を撮影する。撮影画像はエージェント装置１０内のデータ処理部において解析される。例えば来訪者の有無、来訪者の特性、例えば年齢、性別などを解析する。さらに、来訪者が誰であるかの識別処理を行う構成としてもよい。

　マイク１２は、ユーザ発話を入力する。ユーザ発話の音声データは、エージェント装置１０内のデータ処理部において解析される。例えば音声認識処理や、意味解析処理等が実行される。

　表示部１３は、例えば図１に示すようなアニメーション画像が表示される。さらに、エージェント装置の発話（音声出力）と、ユーザ発話が重なってしまった場合、すなわち「発話被り」の発生時等において、エージェント装置の発話（音声出力）データに対応する表示データを表示する。すなわちエージェント装置が実行中の発話の代わりとなる表示データを選択して表示部１３に出力する。
　この処理の具体例については後述する。

　スピーカー１４は、エージェント装置の発話（音声出力）を出力する。
　センサ１５は距離センサ、温度センサ等、ＧＰＳ等、様々なセンサによって構成される。

　なお、ユーザ発話に対する音声認識処理や意味解析処理、さらに、カメラ１１が撮影した画像の解析処理などは、情報処理装置１０内で行ってもよいし、クラウド側のサーバにおいて実行する構成としもよい。

　図２を参照して、本開示の情報処理装置の一例であるエージェント装置１０が実行する処理の概要について説明する。

　上述したように、本開示の情報処理装置の一例であるエージェント装置１０は、エージェント装置の発話（音声出力）と、ユーザ発話が重なってしまった場合、すなわち「発話被り」の発生時等において、エージェント装置の発話（音声出力）データに対応する表示データを表示する。すなわちエージェント装置が実行中の発話の代わりとなる表示データを選択して表示部１３に出力する。

　このような処理を行うことで、ユーザ１は、エージェント装置１０の発話を聞き逃しても、表示データを見て、エージェント装置１０の発話内容と同様の情報を確認することが可能となる。

　図２には、エージェント装置１０と、ユーザ１との対話シーケンスを示す図であり、最下段に示す時間軸に従った処理シーケンスを示している。

　まず、時間（ｔ１）において、エージェント装置１０が以下のエージェント発話（音声出力）を実行しようとする。
　エージェント発話＝こんにちは、本日はどのようなご用件でしょうか
　しかし、このエージェント発話の実行途中、「こん」まで発話したタイミングで、ユーザ１が以下のユーザ発話を行う。
　ユーザ発話＝「あの、」

　すなわち、時間（ｔ１）において、エージェント発話と、ユーザ発話の重なりである「発話被り」が発生している。

　エージェント装置１０は、エージェント発話を出力中、エージェント装置１０のマイク１２を介して入力するユーザ発話を検出すると、「発話被り」が発生したと判定し、エージェント発話を停止し、エージェント装置１０の発話（音声出力）データに対応する表示データを表示する。図に示す時間（ｔ２）の表示データを表示部１３に表示する。すなわちエージェント装置が実行中の発話の代わりとなる表示データを表示部１３に出力する。

　図に示す時間（ｔ２）の表示データは、以下の表示データである。
　　「ご用件をお選びください
　　（ａ）銀行口座の開設
　　（ｂ）住所変更」
　この表示データは、エージェント装置が停止した発話の代わりとなる表示データである。

　エージェント装置１０の記憶部には、エージェント装置１０の発話データ各々に対応する表示用データが対応付けて記録されている。
　エージェント装置１０は、「発話被り」を検出された場合、実行中のエージェント装置の発話を停止し、停止したエージェント発話に対応付けて記録された表示データを記憶部から取得して表示部１３に表示する。

　なお、記憶部には、全てのエージェント発話に対応付けられた表示データが記録されているわけではない。
　例えば、定型的なエージェント発話に対応する表示データは記憶部に格納されており、これを利用することができる。しかし、エージェント発話は、ユーザ発話に応じて適宜、変更されるものであり、これら全てのエージェント発話に対応する表示データが記憶部に格納されているわけではない。
　エージェント発話に対応する表示データが記憶部に格納されていない場合には、エージェント装置１０のデータ処理部は、停止したエージェント発話のテキストデータを表示部１３に出力する。

　このような処理を実行することで、ユーザ１は、エージェント装置１０の発話を聞き逃しても、表示データを見て、エージェント装置１０の発話内容と同様の情報を確認することが可能となる。

　なお、エージェント装置１０の表示部１３はタッチパネル機能を有しており、時間（ｔ２）において、ユーザ１は、例えば、エージェント装置１０の表示部１３の表示データから、自分の要件を選択してタッチすることで、要件を伝えることができる。
　また、ユーザ１は、自分の要件を発話してエージェント装置１０に伝えることもできる。

　図２に示す例は、時間（ｔ２）において、エージェント装置１０が表示部１３に表示したデータに対して、ユーザ１がリアクションを示さないため、時間（ｔ３）において、エージェント装置１０が、エージェント発話を再開した例を示している。すすなわち、時間（ｔ３）において、エージェント装置１０は、以下のエージェント発話を実行する。
　エージェント発話＝ご用件をお話ください

　ユーザ１は、このエージェント発話を聞いて、表示部１３に表示されたデータを確認しながら、自分の要件をエージェント装置に伝えることが可能となる。

　図３は、図２とは異なるエージェント装置１０とユーザ１との対話シーケンスを示す図である。
　時間（ｔ１）～（ｔ２）までの処理は、図２を参照して説明した処理と同様の処理である。

　図３に示す例は、時間（ｔ２）において、エージェント装置１０が表示部１３にデータを表示した後、ユーザ１が以下のユーザ発話を尾込なった例を示している。
　ユーザ発話＝今日は振込に来ました

　エージェント装置１０は、ユーザ発話を検出すると、表示部１３に表示したデータを消去する。その後は、ユーザ１との対話を継続するか、あるいは、入力したユーザ発話に応じた処理、例えばユーザ発話の音声認識、意味解析結果に応じて、担当部署に連絡する等の処理を実行する。

　このように、本開示のエージェント装置１０は、エージェント発話の実行中にユーザ発話が検出され、「発話被り」が発生したと判定した場合、エージェント発話を停止して、停止したエージェント発話の内容と同様の内容を含む表示データを表示部１３に表示する。

　このような処理を実行することで、ユーザは、エージェント装置１０の発話を聞き逃しても、表示データを見て、エージェント装置１０の発話内容と同様の情報を確認することが可能となる。

　　［２．本開示の情報処理装置が実行する処理の具体例について］
　次に、本開示の情報処理装置が実行する処理の具体例について説明する。

　以下の具体例について、順次、説明する。
　（ａ１）企業の受付にきたＡさん（ユーザＡ）とＢさん（ユーザＢ）が、受付のエージェント装置と会話する例１
　（ａ２）企業の受付にきたＡさん（ユーザＡ）とＢさん（ユーザＢ）が、受付のエージェント装置と会話する例２
　（ａ３）企業の受付にきたＡさん（ユーザＡ）とＢさん（ユーザＢ）が、受付のエージェント装置と会話する例３
　（ｂ１）銀行に手続きに来たＡさん（ユーザＡ）が、受付のエージェント装置と会話する例１
　（ｂ２）銀行に手続きに来たＡさん（ユーザＡ）が、受付のエージェント装置と会話する例２
　（ｃ１）運転席のユーザＡと助手席のユーザＢが、各々運転席エージェント装置Ａと、助手席エージェント装置Ｂと会話する例１
　（ｃ２）運転席のユーザＡと助手席のユーザＢが、各々運転席エージェント装置Ａと、助手席エージェント装置Ｂと会話する例２
　（ｃ３）運転席のユーザＡと助手席のユーザＢが、各々運転席エージェント装置Ａと、助手席エージェント装置Ｂと会話する例３

　　（２－ａ１．企業の受付にきたＡさん（ユーザＡ）とＢさん（ユーザＢ）が、受付のエージェント装置と会話する例１）
　まず、（ａ１）企業の受付にきたＡさん（ユーザＡ）とＢさん（ユーザＢ）が、受付のエージェント装置と会話する例１について説明する。

　この処理例について、図４を参照して説明する。
　図４には、企業の受付に設置されたエージェント装置１０と、受付に来た２人の来訪者であるユーザＡ、ユーザＢを示している。
　先に説明した図２、図３と同様、左から右に流れる時間軸に従った対話等の処理シーケンスを示している。

　なお、図には、上からエージェント装置１０の（音声）、（画像）、さらに、ユーザＡの（発話ａ）とユーザＢの（発話ｂ）各々の発話や画像の出力区間を示している。
　時間軸に平行な実線として示す線分区間が発話の出力期間や、表示データの出力期間を示す。

　エージェント装置１０の（音声）に示す実線ラインは、エージェント装置１０のスピーカー１４を介して出力されるエージェント発話の発話期間を示している。
　エージェント装置１０の（画像）に示す実線ラインは、エージェント装置１０の表示部１３に出力される表示データの表示期間を示している。

　ユーザＡの（発話ａ）に示す実線ラインは、ユーザＡのユーザ発話の発話期間を示している。
　ユーザＢの（発話ｂ）に示す実線ラインは、ユーザＢのユーザ発話の発話期間を示している。

　図に示す処理ステップであるステップＳ１０１～ステップＳ１０７の順に処理が実行される。
　以下、各処理ステップについて、順に説明する。

　　（ステップＳ１０１）
　まず、エージェント装置１０は、エージェント装置１０のカメラ１１によって来訪者を検出し、時間ｔ１～ｔ２において、以下のエージェント発話を実行する。
　エージェント発話＝どなたと待ち合わせでしょうか？

　　（ステップＳ１０２）
　上記のエージェント発話を聞いたユーザＡは、時間ｔ２～ｔ３において、以下のユーザ発話を実行する。
　ユーザ発話＝佐藤様です

　　（ステップＳ１０３）
　上記のユーザ発話を入力したエージェント装置１０は、ユーザ発話の音声認識、意味解析を実行し、この音声解析結果に応じた応答を生成して、時間ｔ３から以下のエージェント発話を開始する。
　エージェント発話＝佐藤で（すね、少々お待ちください）

　しかし、上記のエージェント発話の実行途中、「佐藤で」まで、発話したタイミング（時間ｔ４）で以下のステップＳ１０４のユーザ発話が行われる。

　　（ステップＳ１０４）
　ユーザＢは、上記のエージェント発話が行われている途中の時間ｔ４～ｔ５において、以下のユーザ発話を行う。
　ユーザ発話＝佐藤様だっけ？

　すなわち、時間ｔ４においいて、エージェント発話とユーザ発話の重なり（発話被り）が発生する。

　　（ステップＳ１０５）
　時間ｔ４において、エージェント装置１０は、エージェント発話とユーザ発話の重なり（発話被り）の発生を検出する。
　エージェント装置１０は、時間ｔ４において、この発話の重なり（発話被り）検出すると、実行中のエージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データ、または停止したエージェント発話のテキストデータを表示部１３に出力する。

　この表示データが、図に示す時間ｔ４～ｔ７の表示データである。すなわち、以下のエージェント表示データを表示部１３に表示する。
　エージェント表示データ＝佐藤ですね。少々お待ちください

　　（ステップＳ１０６）
　上記の「エージェント表示データ＝佐藤様ですね。少々お待ちください」が表示されている間の時間ｔ６において、ユーザＡが以下の発話を行う。
　ユーザ発話＝佐藤様ですよ

　　（ステップＳ１０７）
　エージェント装置１０は、ステップＳ１０６における上記の「ユーザ発話＝佐藤様ですよ」の音声認識、意味解析を実行し、この音声解析結果に応じた応答を生成して、時間ｔ７～ｔ８において以下のエージェント発話を実行する。
　エージェント発話＝佐藤を呼び出しております。少々お待ちください

　なお、エージェント装置１０は、上記発話を行うとともに、通信ネットワークを介して佐藤さんへの呼び出し処理も併せて実行する。

　図４を参照して説明した処理シーケンスでは、時間ｔ４において、エージェント発話とユーザ発話の重なり（発話被り）が発生している。エージェント装置１０は、時間ｔ４における発話重なり（発話被り）の検出に応じて、現在、実行中のエージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データ、または停止したエージェント発話のテキストデータを表示部１３に出力する。
　すなわち、図に示す時間ｔ４～ｔ６の表示データ、
　エージェント表示データ＝佐藤様ですね。少々お待ちください
　この表示データである。

　ユーザＡ，Ｂは、この表示データを見ることで、停止されたエージェント発話を聞き逃しても、エージェント装置１０が理解している内容や、エージェント装置１０が伝えたいことを確認することが可能となり、対話がスムーズに行われることになる。

　　（２－ａ２．企業の受付にきたＡさん（ユーザＡ）とＢさん（ユーザＢ）が、受付のエージェント装置と会話する例２）
　次に、（ａ２）企業の受付にきたＡさん（ユーザＡ）とＢさん（ユーザＢ）が、受付のエージェント装置と会話する例２について説明する。

　この処理例について、図５、図６を参照して説明する。
　図５、図６には、図４と同様、企業の受付に設置されたエージェント装置１０と、受付に来た２人の来訪者であるユーザＡ、ユーザＢの発話や表示データを、左から右に流れる時間軸に従って示している。

　図５、図６に示す処理ステップであるステップＳ１２１～ステップＳ１３１の順に処理が実行される。
　以下、各処理ステップについて、順に説明する。

　　（ステップＳ１２１）
　まず、エージェント装置１０は、エージェント装置１０のカメラ１１によって来訪者を検出し、時間ｔ１～ｔ２において、以下のエージェント発話を実行する。
　エージェント発話＝どなたと待ち合わせでしょうか？

　　（ステップＳ１２２）
　上記のエージェント発話を聞いたユーザＡは、時間ｔ２～ｔ３において、以下のユーザ発話を実行する。
　ユーザ発話＝佐藤様です

　　（ステップＳ１２３）
　上記のユーザ発話を入力したエージェント装置１０は、ユーザ発話の音声認識、意味解析を実行し、この音声解析結果に応じた応答を生成して、時間ｔ３から以下のエージェント発話を開始する。
　エージェント発話＝佐藤で（すね、少々お待ちください）

　しかし、上記のエージェント発話の実行途中、「佐藤で」まで、発話したタイミング（時間ｔ４）で以下のステップＳ１２４のユーザ発話が行われる。

　　（ステップＳ１２４）
　ユーザＢは、上記のエージェント発話が行われている途中の時間ｔ４～ｔ５において、以下のユーザ発話を行う。
　ユーザ発話＝佐藤様だっけ？

　　（ステップＳ１２５）
　時間ｔ４において、エージェント装置１０は、エージェント発話とユーザ発話の重なり（発話被り）の発生を検出する。
　エージェント装置１０は、時間ｔ４において、この発話の重なり（発話被り）検出すると、実行中のエージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データ、または停止したエージェント発話のテキストデータを表示部１３に出力する。

　　（ステップＳ１２６）
　上記の「エージェント表示データ＝佐藤様ですね。少々お待ちください」が表示されている間の時間ｔ６において、ユーザＡが以下の発話を行う。
　ユーザ発話＝あ、加藤様です

　　（ステップＳ１２７）
　エージェント装置１０は、ステップＳ１２６における上記の「ユーザ発話＝あ、加藤様です」の音声認識、意味解析を実行し、この音声解析結果に応じて、時間ｔ７において表示部１３に表示されたデータを以下の表示データに切り替える処理を行う。
　エージェント表示データ＝佐藤ではなく、加藤でしょうか

　なお、この表示データは、エージェント装置１０のデータ処理部が、ステップＳ１２６における上記の「ユーザ発話＝あ、加藤様です」の音声認識、意味解析を実行し、この音声解析結果に応じて生成されるエージェント発話の発話テキストをそのまま表示データとして出力したものである。

　なお、ユーザ発話に含まれる「あ、」や、「あのー」、「えーと」、「んー」といった無意味な発話、いわゆる「フィラー」については、エージェント装置１０のデータ処理部は、原則として意味解析の対象としない設定とする。音声認識時にフィラー部を識別して、意味解析対象から除外する。このよう処理を行うことで処理を迅速に行うことが可能となる。
　ただし、高速処理が可能な装置であれば、全てのユーザ発話の意味解析を行う構成としてもよい。

　　（ステップＳ１２８）
　上記の「エージェント表示データ＝佐藤ではなく、加藤でしょうか」が表示されている間の時間ｔ８において、ユーザＢが以下の発話を行う。
　ユーザ発話＝そうだよね

　　（ステップＳ１２９）
　さらに、時間ｔ９において、ユーザＡが以下の発話を行う。
　ユーザ発話＝あぶない、あぶない

　　（ステップＳ１３０）
　エージェント装置１０は、「エージェント表示データ＝佐藤ではなく、加藤でしょうか」が表示されている間のユーザ発話、すなわち、
　ユーザ発話＝そうだよね
　ユーザ発話＝あぶない、あぶない
　これらのユーザ発話を入力し、音声認識、意味解析を実行し、この音声解析結果に応じて、ユーザＡ，Ｂが「エージェント表示データ＝佐藤ではなく、加藤でしょうか」に同意したものと判断し、時間ｔ１０において、以下のエージェント表示データを表示部１３に表示する。
　エージェント表示データ＝加藤ですね。少々お待ちください

　　（ステップＳ１３１）
　次に、エージェント装置１０は、時間ｔ１２～ｔ１３において以下のエージェント発話を実行する。
　エージェント発話＝加藤を呼び出しております。少々お待ちください

　なお、エージェント装置１０は、上記発話を行うとともに、通信ネットワークを介して加藤さんへの呼び出し処理も併せて実行する。

　図５、図６を参照して説明した処理シーケンスでは、先に説明した図４のシーケンスト同様、時間ｔ４において、エージェント発話とユーザ発話の重なり（発話被り）が発生している。エージェント装置１０は、時間ｔ４における発話重なり（発話被り）の検出に応じて、現在、実行中のエージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データ、または停止したエージェント発話のテキストデータを表示部１３に出力する。
　すなわち、図に示す時間ｔ４～ｔ６の表示データ、
　エージェント表示データ＝佐藤様ですね。少々お待ちください
　この表示データである。

　ユーザＡ，Ｂは、この表示データを見ることで、停止されたエージェント発話を聞き逃しても、エージェント装置１０が理解している内容や、エージェント装置１０が伝えたいことを確認することが可能となる。

　図５、図６に示すシーケンスでは、ユーザがこの表示データを見て、訪問先が「佐藤様」ではなく、「加藤様」であることに気が付いて、その後、エージェント装置１０に対して、訪問先が「加藤様」であることの訂正発話を行っている。

　エージェント装置１０は、ここでエージェント発話を実行してもよいが、「佐藤様」と、「加藤様」は、発音が似ているため、聞き取りにくいと判断し、そのまま表示データの切り替えによる対話を継続している。
　このように、エージェント装置は、エージェント発話と、表示データの出力のどちらが、正確に伝えることが可能かを判定して、より高精度に情報を通知可能な手段を選択して情報出力を実行する。

　　（２－ａ３．企業の受付にきたＡさん（ユーザＡ）とＢさん（ユーザＢ）が、受付のエージェント装置と会話する例３）
　次に、（ａ３）企業の受付にきたＡさん（ユーザＡ）とＢさん（ユーザＢ）が、受付のエージェント装置と会話する例３について説明する。

　この処理例について、図７、図８を参照して説明する。
　図７、図８も、企業の受付に設置されたエージェント装置１０と、受付に来た２人の来訪者であるユーザＡ、ユーザＢの発話や表示データを、左から右に流れる時間軸に従って示している。

　図７、図８に示す処理ステップであるステップＳ１４１～ステップＳ１４８の順に処理が実行される。
　以下、各処理ステップについて、順に説明する。

　　（ステップＳ１４１～Ｓ１４６）
　図７に示すステップＳ１４１～Ｓ１４６の処理は、先に、図５を参照して説明したステップＳ１２１～Ｓ１２６の処理と同じ処理である。

　すなわち、時間ｔ４において発話被りが発生し、エージェント装置１０が、実行中のエージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データ、または停止したエージェント発話のテキストデータを表示部１３に出力する。
　この表示データが、図に示す（ステップＳ１４５）に示す時間ｔ４～ｔ７の表示データである。すなわち、以下のエージェント表示データを表示部１３に表示する。
　エージェント表示データ＝佐藤ですね。少々お待ちください

　ユーザＡ，Ｂは、この表示データを見て、訪問先が「佐藤様」ではなく、「加藤様」であることに気づき、ステップＳ１４６において、ユーザＡが、以下の
　ユーザ発話＝あ、加藤様です

　　（ステップＳ１４７）
　エージェント装置１０は、ステップＳ１４６における上記の「ユーザ発話＝あ、加藤様です」の音声認識、意味解析を実行し、この音声解析結果に応じて、時間ｔ７において表示部１３に表示されたデータを以下の表示データに切り替える処理を行う。
　エージェント表示データ＝佐藤ではなく、加藤でしょうか

　なお、この表示データは、エージェント装置１０のデータ処理部が、ステップＳ１４６における上記の「ユーザ発話＝あ、加藤様です」の音声認識、意味解析を実行し、この音声解析結果に応じて生成されるエージェント発話の発話テキストをそのまま表示データとして出力したものである。

　図８に示すシーケンスでは、この表示データの表示期間中、ユーザＡ，Ｂからの発話等のリアクションが検出されていない。

　　（ステップＳ１４８）
　エージェント装置１０は、ステップＳ１４７において表示部１３に出力した表示データ、すなわち、
　エージェント表示データ＝佐藤ではなく、加藤でしょうか
　この表示データの表示期間中、ユーザＡ，Ｂからの発話等のリアクションが検出されていないことに基づいて、ユーザＡ，Ｂが、表示データに納得したものと判定する。

　この判定結果に応じて、エージェント装置１０は、時間ｔ８～ｔ９において以下のエージェント発話を実行する。
　エージェント発話＝加藤を呼び出しております。少々お待ちください

　この処理シーケンスでは、ステップＳ１４７におけるエージェント表示データ、すなわち、
　エージェント表示データ＝佐藤ではなく、加藤でしょうか
　この表示データの表示期間中、ユーザＡ，Ｂからの発話等のリアクションが検出されていないことに基づいて、ユーザＡ，Ｂが、表示データに納得したものと判定し、その後、以下のエージェント発話を実行している。
　エージェント発話＝加藤を呼び出しております。少々お待ちください

　この処理シーケンスでは、
　エージェント表示データ＝佐藤ではなく、加藤でしょうか
　この表示データの表示期間中、ユーザＡ，Ｂからの発話等のリアクションが検出されなかったため、図６に示すステップＳ１３０の表示データの出力を省略している。結果として、先に説明した図６の処理より早いタイミングで、加藤さんの呼び出しが行われることになる。

　　（２－ｂ１．銀行に手続きに来たＡさん（ユーザＡ）が、受付のエージェント装置と会話する例１）
　次に、（ｂ１）銀行に手続きに来たＡさん（ユーザＡ）が、受付のエージェント装置と会話する例１について説明する。

　この処理例について、図９、図１０を参照して説明する。
　図９、図１０には、銀行の受付に設置されたエージェント装置１０と、銀行に来た１人の来訪者であるユーザＡの発話や表示データを、左から右に流れる時間軸に従って示している。

　図９、図１０に示す処理ステップであるステップＳ２０１～ステップＳ２０８の順に処理が実行される。
　以下、各処理ステップについて、順に説明する。

　　（ステップＳ２０１）
　まず、エージェント装置１０は、エージェント装置１０のカメラ１１によって来訪者を検出し、時間ｔ１において、以下のエージェント発話を開始する。
　エージェント発話＝本日はどの（ようなご用件でしょうか）？

　しかし、上記のエージェント発話の実行途中、「本日はどの」まで、発話したタイミング（時間ｔ２）で以下のステップＳ２０２のユーザ発話が行われる。

　　（ステップＳ２０２）
　ユーザＢは、上記のエージェント発話が行われている途中の時間ｔ２～ｔ４において、以下のユーザ発話を行う。
　ユーザ発話＝昔使っていた通帳とかが見つからなくって

　すなわち、時間ｔ２においいて、エージェント発話とユーザ発話の重なり（発話被り）が発生する。

　　（ステップＳ２０３）
　時間ｔ２において、エージェント装置１０は、エージェント発話とユーザ発話の重なり（発話被り）の発生を検出する。
　エージェント装置１０は、時間ｔ２において、この発話の重なり（発話被り）検出すると、実行中のエージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データ、または停止したエージェント発話のテキストデータを表示部１３に出力する。

　この表示データが、図に示す時間ｔ２～ｔ３の表示データである。すなわち、以下のエージェント表示データを表示部１３に表示する。
　エージェント表示データ＝ご用件を教えて下さい、振込、住所変更、再発行、その他

　　（ステップＳ２０４）
　上記の「エージェント表示データ＝ご用件を教えて下さい、振込、住所変更、再発行、その他」が表示されている間には、ユーザＡから応答等のリアクションが得られなかったため、エージェント装置１０は、ユーザＡが表示データに含まれない他の処理を要求していると判定して、時間ｔ３において表示部１３の表示データを変更する。

　すなわち、以下のエージェント表示データを表示部１３に表示する。
　エージェント表示データ＝クレジットカードなどの再発行でしょうか

　　（ステップＳ２０５）
　上記の「エージェント表示データ＝クレジットカードなどの再発行でしょうか」が表示されている間の時間ｔ５において、ユーザＡが以下の発話を行う。
　ユーザ発話＝そう
　あるいは、ユーザＡは、発話しながら、あるいは発話を行うことなく表示部１３を注視する。
　エージェント装置１０は、上記のユーザ発話が行われたことの確認、あるいは、カメラ１１の撮影画像に基づいて、ユーザＡが表示部１３を注視していることを確認する。

　　（ステップＳ２０６）
　エージェント装置１０は、ステップＳ２０４における表示データ、すなわち、
　「エージェント表示データ＝クレジットカードなどの再発行でしょうか」
　この表示データに対する、
　ユーザ発話＝そう、
　この応答やユーザＡが、表示部１３を注視していることの確認に応じて、ユーザの要求に、クレジットカードの再発行が含まれると判定し、さらに、その他の要求があるかを確認する必要があると判定する。

　エージェント装置１０は、この判定に基づいて、ステップＳ２０６（時間ｔ６）において、以下の表示データを表示部１３に表示する。
　エージェント表示データ＝クレジットカードの再発行、通帳の再発行、ハンコの再登録、その他、

　　（ステップＳ２０７）
　ユーザＡは、「エージェント表示データ＝クレジットカードの再発行、通帳の再発行、ハンコの再登録、その他、」この表示データを確認し、時間ｔ７において、以下のユーザ発話を行う。
　ユーザ発話＝全部、必要かな

　　（ステップＳ２０８）
　エージェント装置１０は、ステップＳ２０７の「ユーザ発話＝全部、必要かな」の音声認識、意味解析を実行し、この音声解析結果に応じて、以下のエージェント発話を実行する。
　エージェント発話＝了解たいたしました。まずは、クレジットカードの再発行手続きを行います

　この図９、図１０を参照して説明した処理シーケンスでは、時間ｔ２において、エージェント発話とユーザ発話の重なり（発話被り）が発生している。エージェント装置１０は、時間ｔ２における発話重なり（発話被り）の検出に応じて、現在、実行中のエージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データ、または停止したエージェント発話のテキストデータを表示部１３に出力する。
　すなわち、図９に示す時間ｔ２～ｔ５の表示データである。

　その後は、ユーザ発話や注視態様等、ユーザのリアクションに応じて、表示データを、順次、切り替える処理を行っている。
　この処理は、ユーザの要求する処理の項目が多く、音声データより、表示データを用いた方が、正確に必要な字用法の伝達が可能なケースであり、このような場合、エージェント装置１０は、音声出力より表示データを優先的に利用した処理を行う。

　　（２－ｂ２．銀行に手続きに来たＡさん（ユーザＡ）が、受付のエージェント装置と会話する例２）
　次に、（ｂ２）銀行に手続きに来たＡさん（ユーザＡ）が、受付のエージェント装置と会話する例１について説明する。

　この処理例について、図１１、図１２を参照して説明する。
　図１１、図１２には、銀行の受付に設置されたエージェント装置１０と、銀行に来た１人の来訪者であるユーザＡの発話や表示データを、左から右に流れる時間軸に従って示している。

　図１１、図１２に示す処理ステップであるステップＳ２２１～ステップＳ２２７の順に処理が実行される。
　以下、各処理ステップについて、順に説明する。

　　（ステップＳ２２１）
　まず、エージェント装置１０は、エージェント装置１０のカメラ１１によって来訪者を検出し、時間ｔ１において、以下のエージェント発話を開始する。
　エージェント発話＝本日はどの（ようなご用件でしょうか）？

　しかし、上記のエージェント発話の実行途中、「本日はどの」まで、発話したタイミング（時間ｔ２）で以下のステップＳ２２２のユーザ発話が行われる。

　　（ステップＳ２２２）
　ユーザＢは、上記のエージェント発話が行われている途中の時間ｔ２～ｔ３において、以下のユーザ発話を行う。
　ユーザ発話＝クレジットカードをなくしたので再発行をお願いします

　　（ステップＳ２２３）
　時間ｔ２において、エージェント装置１０は、エージェント発話とユーザ発話の重なり（発話被り）の発生を検出する。
　エージェント装置１０は、時間ｔ２において、この発話の重なり（発話被り）検出すると、実行中のエージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データ、または停止したエージェント発話のテキストデータを表示部１３に出力する。

　　（ステップＳ２２４）
　上記の「エージェント表示データ＝ご用件を教えて下さい、振込、住所変更、再発行、その他」が表示されている間に、ステップＳ２２２のユーザ発話、すなわち、
　ユーザ発話＝クレジットカードをなくしたので再発行をお願いします
　このユーザ発話が入力され、エージェント装置１０は、このユーザ発話の音声認識、意味解析を実行し、この音声解析結果に応じて以下のエージェント発話を生成し、時間ｔ３～ｔ４において出力する。
　エージェント発話＝了解いたしました。まずは、クレジットカードの再発行手続きを行います

　　（ステップＳ２２５）
　次に、ユーザＡは、上記の「エージェント発話＝了解いたしました。まずは、クレジットカードの再発行手続きを行います」に応じて、時間ｔ４において、以下のユーザ発話を行う。
　ユーザ発話＝クレジットカードの再発行だと印鑑とかいらないよね、あと、前は無料だったけど、お金かからないよね

　　（ステップＳ２２６）
　エージェント装置１０は、ステップＳ２２５のユーザ発話の実行期間（ｔ４～ｔ６）内に表示部１３の表示データを以下の表示データに切り替える。
　エージェント表示データ＝再発行には、以下が必要となります。身分証明書、登録済み印鑑

　この表示データは、クレジット再発行手続きに必要となる書類をユーザに正確に伝えるために、音声データではなく、表示データとして示してたのである。

　　（ステップＳ２２７）
　ステップＳ２２５のユーザ発話、すなわち、
　ユーザ発話＝クレジットカードの再発行だと印鑑とかいらないよね、あと、前は無料だったけど、お金かからないよね
　上記ユーザ発話が完了した時間ｔ７において、エージェント装置１０は、このユーザ発話の音声認識、意味解析を実行し、この音声解析結果に応じて以下のエージェント発話を生成し、時間ｔ７～ｔ８において出力する。
　エージェント発話＝お客様、登録済みの印鑑が必要となります。また手数料もいただきます

　この図１１、図１２を参照して説明した処理シーケンスでは、時間ｔ２において、エージェント発話とユーザ発話の重なり（発話被り）が発生している。エージェント装置１０は、時間ｔ２における発話重なり（発話被り）の検出に応じて、現在、実行中のエージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データ、または停止したエージェント発話のテキストデータを表示部１３に出力している。

　さらに、その後のシーケンスでは、エージェント装置１０は、表示部１３に対する表示データの出力と、スピーカーヌウを介する音声出力を、適宜、使い分けて使用している。

　エージェント装置１０は、ユーザに通知する情報が重要である場合や、複雑である場合、あるいは多数である場合等には、情報出力を、表示部１３を用いて行う。一方、ユーザに通知する情報が重要でない場合や、複雑でない場合等には、情報出力を、スピーカー１１を介した音声出力として実行するといった処理の切り替えを実行する。
　これらの出力態様選択処理は、予め規定したアルゴリズムに従って実行される。

　　（２－ｃ１．運転席のユーザＡと助手席のユーザＢが、各々運転席エージェント装置Ａと、助手席エージェント装置Ｂと会話する例１）
　次に、（ｃ１）運転席のユーザＡと助手席のユーザＢが、各々運転席エージェント装置Ａと、助手席エージェント装置Ｂと会話する例１について説明する。
　なお、運転席エージェント装置Ａと、助手席エージェント装置Ｂは、例えばナビケーション装置である。

　この処理例について、図１３、図１４を参照して説明する。
　図１３、図１４には、車両の運転席に設置された運転席エージェント装置Ａと、助手席に設置された助手席エージェント装置Ｂと、運転席にいるユーザＡ（運転者）と、助手席にいるユーザＢ（同乗者）の発話や表示データを、左から右に流れる時間軸に従って示している。

　図１３、図１４に示す処理ステップであるステップＳ３０１～ステップＳ３１０の順に処理が実行される。
　以下、各処理ステップについて、順に説明する。

　　（ステップＳ３０１）
　まず、運転席エージェント装置Ａは、以下のエージェント発話を実行する。
　エージェント発話＝２Ｋｍ先の（コンビニを右折です）

　なお、このエージェント装置の発話は、ユーザＡ（運転者）が予め設定した目的地までのルートに従った走行を行うための情報を提供する発話である。

　しかし、上記のエージェント発話の実行途中、「２Ｋｍ先の」まで、発話したタイミング（時間ｔ２）で以下のステップＳ３０２のユーザ発話が行われる。

　　（ステップＳ３０２）
　ユーザＡ（運転者）は、上記のエージェント発話が行われている途中の時間ｔ２～ｔ３において、以下のユーザ発話を行う。
　ユーザ発話＝どこのレストラン行こうかな

　　（ステップＳ３０３）
　時間ｔ２において、運転席エージェント装置Ａ１０は、エージェント発話とユーザ発話の重なり（発話被り）の発生を検出する。
　運転席エージェント装置Ａは、時間ｔ２において、この発話の重なり（発話被り）検出すると、実行中のエージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データ、または停止したエージェント発話のテキストデータを表示部１３に出力する。

　この表示データが、図に示す時間ｔ２～ｔ５の表示データである。すなわち、以下のエージェント表示データを、運転席エージェント装置Ａの表示部に表示する。
　エージェント表示データ＝２Ｋｍ先、コンビニ右折

　　（ステップＳ３０４）
　一方、助手席に座っているユーザＢ（同乗者）は、運転席エージェント装置Ａの表示部に上記表示データ、すなわち、「エージェント表示データ＝２Ｋｍ先、コンビニ右折」、この表示データが表示されている時間内である時間ｔ３に以下のユーザ発話を行う。
　ユーザ発話＝そうだね

　このユーザ発話は、ステップＳ３０２のユーザＡ（運転者）の「ユーザ発話＝どこのレストランに行こうかな」に対する返事に相当する。

　　（ステップＳ３０５）
　さらに、ユーザＡ（運転者）は、時間ｔ４移行のしばらくの間、以下のユーザ発話を延々と続ける。
　ユーザ発話＝そうだね、肉とか・・・・

　　（ステップＳ３０６）
　一方、運転席エージェント装置Ａは、車両の進行に伴い、時間ｔ５において、表示部の表示データを以下の表示データに切り替える。
　エージェント表示データ＝１Ｋｍ先、コンビニ右折

　　（ステップＳ３０７）
　さらに、運転席エージェント装置Ａは、車両の進行に伴い、時間ｔ６において、表示部の表示データを以下の表示データに切り替える。
　エージェント表示データ＝０．５Ｋｍ先、コンビニ右折

　　（ステップＳ３０８）
　さらに、助手席エージェント装置Ｂも、時間ｔ６において、表示部に以下の表示データを出力する。
　エージェント表示データ＝０．５Ｋｍ先、コンビニ右折

　これは、運転者が運転席エージェント装置Ａの表示データに気づかない場合に利用可能とするため表示されるデータであり、エージェント装置Ａ，Ｂの統合的なコントロールを行うデータ処理部、例えばエージェント装置Ａ、またはエージェント装置Ｂ内のデータ処理部の制御によって実行される。

　　（ステップＳ３０９）
　次に時間ｔ７において、運転席エージェント装置Ａは、以下のエージェント発話を出力する。
　エージェント発話＝２００ｍ先のコンビニを右折です

　　（ステップＳ３１０）
　さらに、助手席エージェント装置Ｂも、時間ｔ７において、表示部に以下の表示データを出力する。
　エージェント表示データ＝２００ｍ先、コンビニ右折

　この処理も、エージェント装置Ａ，Ｂの統合的なコントロールを行うデータ処理部、例えばエージェント装置Ａ、またはエージェント装置Ｂ内のデータ処理部の制御によって実行される。
　２つのエージェント装置のいずれかが音声出力を行っている場合、他方のエージェント装置は音声出力を実行することなく表示データの出力を行う。
　このような制御を行うことで、エージェント装置同士の発話被りの発生を防止できる。

　　（２－ｃ２．運転席のユーザＡと助手席のユーザＢが、各々運転席エージェント装置Ａと、助手席エージェント装置Ｂと会話する例２）
　次に、（ｃ２）運転席のユーザＡと助手席のユーザＢが、各々運転席エージェント装置Ａと、助手席エージェント装置Ｂと会話する例２について説明する。
　なお、運転席エージェント装置Ａと、助手席エージェント装置Ｂは、例えばナビケーション装置である。

　この処理例について、図１５、図１６を参照して説明する。
　図１５、図１６には、先に説明した図１３、図１４と同様、車両の運転席に設置された運転席エージェント装置Ａと、助手席に設置された助手席エージェント装置Ｂと、運転席にいるユーザＡ（運転者）と、助手席にいるユーザＢ（同乗者）の発話や表示データを、左から右に流れる時間軸に従って示している。

　図１５、図１６に示す処理ステップであるステップＳ３２１～ステップＳ３３１の順に処理が実行される。
　以下、各処理ステップについて、順に説明する。

　　（ステップＳ３２１～Ｓ３２８）
　ステップＳ３２１～Ｓ３２８の処理は、先に図１３、図１４を参照して説明したステップＳ３０１～Ｓ３０８の処理と同一の処理である。

　すなわち、ステップＳ３２１において、運転席エージェント装置Ａが、以下のエージェント発話を実行する。
　エージェント発話＝２Ｋｍ先の（コンビニを右折です）
　しかし、上記のエージェント発話の実行途中、「２Ｋｍ先の」まで、発話したタイミング（時間ｔ２）でステップＳ３２２の以下のユーザ発話が行われる。
　ユーザ発話＝どこのレストラン行こうかな

　時間ｔ２において、運転席エージェント装置Ａ１０は、エージェント発話とユーザ発話の重なり（発話被り）の発生を検出すると、運転席エージェント装置Ａは、時間ｔ２において、エージェント発話を停止し、停止したエージェント発話に対応して記憶部に記録された表示データを、運転席エージェント装置Ａの表示部に表示する。
　エージェント表示データ＝２Ｋｍ先、コンビニ右折

　助手席に座っているユーザＢ（同乗者）は、時間ｔ３に以下のユーザ発話を行う。
　ユーザ発話＝そうだね
　さらに、ユーザＡ（運転者）は、時間ｔ４移行のしばらくの間、以下のユーザ発話を延々と続ける。
　ユーザ発話＝そうだね、肉とか・・・・

　運転席エージェント装置Ａは、車両の進行に伴い、ステップＳ３２６（時間ｔ５）、ステップＳ３２７（ｔ６）において、表示部の表示データを以下の表示データに、順次切り替える。
　エージェント表示データ＝１Ｋｍ先、コンビニ右折
　エージェント表示データ＝０．５Ｋｍ先、コンビニ右折

　さらに、助手席エージェント装置Ｂも、ステップＳ３２８（時間ｔ６）において、表示部に以下の表示データを出力する。
　エージェント表示データ＝０．５Ｋｍ先、コンビニ右折

　　（ステップＳ３２９～Ｓ３３０）
　次に時間ｔ７において、運転席エージェント装置Ａは、車両の進行に伴い、ステップＳ３２９において、以下のエージェント発話を出力する。
　エージェント発話＝２００ｍ先のコンビニを右折です
　さらに、同じ時間ｔ７のステップＳ３３０において、表示部の表示データを以下の表示データに、順次切り替える。
　エージェント表示データ＝２００Ｋｍ先、コンビニ右折

　この例では、運転席エージェント装置Ａはエージェント発話と、表示部への表示処理を並列して実行する。
　このように重要度の高い情報の通知処理の場合は、エージェント発話と、表示部への表示処理を並列して実行する。

　　（ステップＳ３３１）
　さらに、助手席エージェント装置Ｂも、時間ｔ７において、表示部に以下の表示データを出力する。
　エージェント表示データ＝２００ｍ先、コンビニ右折

　この処理例では、ステップＳ３２９～Ｓ３３０において、運転席エージェント装置Ａが、エージェント発話と、表示部への表示処理を並列して実行する点が特徴である。
　本開示のエージェント装置は、ユーザに対する通知情報の重要度を判定し、重要度の高い通知情報の場合は、エージェント発話と、表示部への表示処理を並列して実行する。

　　（２－ｃ３．運転席のユーザＡと助手席のユーザＢが、各々運転席エージェント装置Ａと、助手席エージェント装置Ｂと会話する例３）
　次に、（ｃ３）運転席のユーザＡと助手席のユーザＢが、各々運転席エージェント装置Ａと、助手席エージェント装置Ｂと会話する例３について説明する。
　なお、運転席エージェント装置Ａと、助手席エージェント装置Ｂは、例えばナビケーション装置である。

　この処理例について、図１７、図１８を参照して説明する。
　図１７、図１８には、先に説明した図１３、図１４と同様、車両の運転席に設置された運転席エージェント装置Ａと、助手席に設置された助手席エージェント装置Ｂと、運転席にいるユーザＡ（運転者）と、助手席にいるユーザＢ（同乗者）の発話や表示データを、左から右に流れる時間軸に従って示している。

　図１７、図１８に示す処理ステップであるステップＳ３４１～ステップＳ３５２の順に処理が実行される。
　以下、各処理ステップについて、順に説明する。

　　（ステップＳ３４１～Ｓ３４８）
　ステップＳ３４１～Ｓ３４８の処理は、先に図１３、図１４を参照して説明したステップＳ３０１～Ｓ３０８の処理と同一の処理である。

　すなわち、ステップＳ３４１において、運転席エージェント装置Ａが、以下のエージェント発話を実行する。
　エージェント発話＝２Ｋｍ先の（コンビニを右折です）
　しかし、上記のエージェント発話の実行途中、「２Ｋｍ先の」まで、発話したタイミング（時間ｔ２）でステップＳ３４２の以下のユーザ発話が行われる。
　ユーザ発話＝どこのレストラン行こうかな

　運転席エージェント装置Ａは、車両の進行に伴い、ステップＳ３４６（時間ｔ５）、ステップＳ３４７（ｔ６）において、表示部の表示データを以下の表示データに、順次切り替える。
　エージェント表示データ＝１Ｋｍ先、コンビニ右折
　エージェント表示データ＝０．５Ｋｍ先、コンビニ右折

　さらに、助手席エージェント装置Ｂも、ステップＳ３４８（時間ｔ６）において、表示部に以下の表示データを出力する。
　エージェント表示データ＝０．５Ｋｍ先、コンビニ右折

　　（ステップＳ３４９～Ｓ３５０）
　次に時間ｔ７において、運転席エージェント装置Ａは、車両の進行に伴い、ステップＳ３４９において、以下のエージェント発話を出力する。
　エージェント発話＝２００ｍ先のコンビニを右折です
　さらに、同じ時間ｔ７のステップＳ３５０において、表示部の表示データを以下の表示データに、順次切り替える。
　エージェント表示データ＝２００Ｋｍ先、コンビニ右折

　この例も、運転席エージェント装置Ａはエージェント発話と、表示部への表示処理を並列して実行する例である。
　このように重要度の高い情報の通知処理の場合は、エージェント発話と、表示部への表示処理を並列して実行する。

　　（ステップＳ３５１～Ｓ３５２）
　さらに、助手席エージェント装置Ｂも、ステップＳ３５１（時間ｔ７）において、以下のエージェント発話を出力する。
　エージェント発話＝２００ｍ先のコンビニを右折です
　さらに、同じ時間ｔ７のステップＳ３５２において、表示部の表示データを以下の表示データに、順次切り替える。
　エージェント表示データ＝２００Ｋｍ先、コンビニ右折

　この処理例では、ステップＳ３４９～Ｓ３５２において、運転席エージェント装置Ａと、助手席エージェント装置Ｂの２台のエージェント装置が、エージェント発話と、表示部への表示処理を並列して実行する点が特徴である。

　この処理例では、エージェント装置Ａ，Ｂの統合的なコントロールを行うデータ処理部、例えばエージェント装置Ａ、またはエージェント装置Ｂ内のデータ処理部の制御によって、運転席エージェント装置Ａと、助手席エージェント装置Ｂの２台のエージェント装置が、同一タイミングで同じエージェント発話を行う。
　すなわち、発話のずれが生じないように、同次に発話することで、聞き取りづらい状態が発生することを防止して２台のエージェント装置による発話を行わせる。

　このような発話処理を行うことで、得運転者や同乗者の注意を最大限に引き付けることが可能となる。

　以上、本開示のエージェント装置１０が実行する複数の処理シーケンスについて説明した。なお、この他、本開示のエージェント装置１０は、例えば、以下のような処理を実行する構成としてもよい。

　ユーザが表示データを注視している時間が長いと判定した場合、表示データを、より詳細な説明を含むデータに変更する。
　例えばテキストのみの日表示データを、アニメーションを含む表示データに変更するなどの処理を行う。

　ユーザが、表示データを見ることを止めた場合、あるいはユーザが話し始めた場合、表示データを消す。
　ユーザの発話内容に応じて、表示データを変更する。例えば、ユーザの発話内容に一致する表示データを選択して表示する。

　　［３．本開示の情報処理装置が実行する処理のシーケンスについて］
　次に、本開示の情報処理装置が実行する処理のシーケンスについて説明する。

　図１９以下のフローチャートを参照して、本開示の情報処理装置、すなわちエージェント装置が実行する処理のシーケンスについて説明する。
　なお、図１９以下に示すフローチャートに従った処理は、情報処理装置であるエージェント装置の記憶部に格納されたプログラムに従って実行される。例えばプログラム実行機能を有するＣＰＵ等のプロセッサによるプログラム実行処理として実行可能である。

　図１９以下を参照して、以下の複数の異なる処理例に対応する処理シーケンスについて、順次、説明する。
　（１）発話被りの検出に基づいて、エージェント発話を停止して、表示データを出力する基本処理例（図１９）
　（２）発話被りの検出に基づいて、エージェント発話を継続しながら、表示データも出力する処理例（図２０）
　（３）発話被りの検出の他、発話の重要性等に基づく判定処理を実行して、規定条件を満たす場合に、表示データを出力する処理例（図２１）
　（４）発話被りの検出の他、ユーザの理解力を推定し、推定結果に基づいて表示データを出力する処理例（図２２）
　（５）出力した表示データの停止、切り替え制御の処理例（図２３）

　　（３－１．発話被りの検出に基づいて、エージェント発話を停止して、表示データを出力する基本処理例）
　まず、発話被りの検出に基づいて、エージェント発話を停止して、表示データを出力する基本処理例について説明する。

　図１９は、発話被りの検出に基づいて、エージェント発話を停止して、表示データを出力する基本処理例のシーケンスを説明するフローチャートである。
　図１９に示すフローの各ステップの処理について、順次、説明する。

　　（ステップＳ５０１）
　まず、エージェント装置のデータ処理部は、ステップＳ５０１において、エージェント発話実行中のユーザ発話の入力有無検出処理を実行する。

　　（ステップＳ５０２）
　次に、エージェント装置のデータ処理部は、ステップＳ５０２において、エージェント発話実行中のユーザ発話入力を検出したか否かを判定し、ユーザ発話入力を検出した場合は、ステップＳ５０３に進む。一方、ユーザ発話入力を検出していない場合は、ステップＳ５０１に戻り、エージェント発話実行中のユーザ発話の入力有無検出処理を継続して実行する。

　　（ステップＳ５０３）
　ステップＳ５０３の処理は、ステップＳ５０２において、エージェント発話実行中のユーザ発話入力を検出した場合に実行する。
　この場合、エージェント装置のデータ処理部は、ステップＳ５０３において、エージェント発話を停止し、停止したエージェント発話データに対応付けられた表示データを表示部に出力する。

　この処理を行うことで、ユーザは、エージェント発話を聞き逃しても、表示部に表示されたデータを見ることで、エージェント装置が伝えたかったことを確認することができる。

　　（３－２．発話被りの検出に基づいて、エージェント発話を継続しながら、表示データも出力する処理例）
　次に、発話被りの検出に基づいて、エージェント発話を継続しながら、表示データも出力する処理例について説明する。

　図２０は、発話被りの検出に基づいて、エージェント発話を継続しながら、表示データも出力する処理例のシーケンスを説明するフローチャートである。
　図２０に示すフローの各ステップの処理について、順次、説明する。

　　（ステップＳ５２１）
　まず、エージェント装置のデータ処理部は、ステップＳ５２１において、エージェント発話実行中のユーザ発話の入力有無検出処理を実行する。

　　（ステップＳ５２２）
　次に、エージェント装置のデータ処理部は、ステップＳ５２２において、エージェント発話実行中のユーザ発話入力を検出したか否かを判定し、ユーザ発話入力を検出した場合は、ステップＳ５２３に進む。一方、ユーザ発話入力を検出していない場合は、ステップＳ５２１に戻り、エージェント発話実行中のユーザ発話の入力有無検出処理を継続して実行する。

　　（ステップＳ５２３）
　ステップＳ５２３の処理は、ステップＳ５２２において、エージェント発話実行中のユーザ発話入力を検出した場合に実行する。
　この場合、エージェント装置のデータ処理部は、ステップＳ５２３において、エージェント発話を継続しながら、併せてエージェント発話データに対応付けられた表示データを表示部に出力する。

　この処理を行うことで、ユーザは、エージェント発話、または表示部に表示されたデータのいずれか、または両者に基づいて、エージェント装置が伝えたかったことを確認することができる。

　　（３－３．発話被りの検出の他、発話の重要性等に基づく判定処理を実行して、規定条件を満たす場合に、表示データを出力する処理例）
　次に、発話被りの検出の他、発話の重要性等に基づく判定処理を実行して、規定条件を満たす場合に、表示データを出力する処理例について説明する。

　図２１は、発話被りの検出の他、発話の重要性等に基づく判定処理を実行して、規定条件を満たす場合に、表示データを出力する処理例のシーケンスを説明するフローチャートである。
　図２１に示すフローの各ステップの処理について、順次、説明する。

　　（ステップＳ５４１）
　まず、エージェント装置のデータ処理部は、ステップＳ５４１において、エージェント発話実行中のユーザ発話の入力有無検出処理を実行する。

　　（ステップＳ５４２）
　次に、エージェント装置のデータ処理部は、ステップＳ５４２において、エージェント発話実行中のユーザ発話入力を検出したか否かを判定し、ユーザ発話入力を検出した場合は、ステップＳ５４３に進む。一方、ユーザ発話入力を検出していない場合は、ステップＳ５４１に戻り、エージェント発話実行中のユーザ発話の入力有無検出処理を継続して実行する。

　　（ステップＳ５４３）
　ステップＳ５４３の処理は、ステップＳ５４２において、エージェント発話実行中のユーザ発話入力を検出した場合に実行する。

　この場合、エージェント装置のデータ処理部は、ステップＳ５４３において、実行中のエージェント発話の重要性、または複雑性の少なくともいずれかを判定する。
　なお、エージェント発話の重要性や複雑性については、予めデータベースに記録されており、エージェント装置のデータ処理部は、この記録データを参照して判定する。

　　（ステップＳ５４４）
　ステップＳ５４４の処理は、ステップＳ５４３の判定結果に基づく分岐処理である。
　エージェント装置のデータ処理部は、ステップＳ５４４において、実行中のエージェント発話が「重要性が高い」、または「複雑性が高い」、これらの少なくともいずれかであると判定した場合は、ステップＳ５４５に進む。

　一方、実行中のエージェント発話が「重要性が低い」、および「複雑性が低い」、これらの２条件を満たすと判定した場合は、ステップＳ５４６に進む。

　　（ステップＳ５４５）
　ステップＳ５４５の処理は、ステップＳ５４４において、実行中のエージェント発話が「重要性が高い」、または「複雑性が高い」、これらの少なくともいずれかであると判定した場合に実行する。

　この場合、エージェント装置のデータ処理部は、ステップＳ５４５において、エージェント発話を継続しながら、併せてエージェント発話データに対応付けられた表示データを表示部に出力する。

　　（ステップＳ５４６）
　ステップＳ５４６の処理は、ステップＳ５４４において、実行中のエージェント発話が「重要性が低い」、および「複雑性が低い」、これらの２条件を満たすと判定した場合に実行する。

　この場合、エージェント装置のデータ処理部は、ステップＳ５４６において、エージェント発話を停止し、停止したエージェント発話データに対応付けられた表示データを表示部に出力する。

　この処理を行うことで、ユーザは、エージェント発話を聞き逃しても表示部に表示されたデータに基づいて、エージェント装置が伝えたかったことを確認することができる。

　　（３－４．発話被りの検出の他、ユーザの理解力を推定し、推定結果に基づいて表示データを出力する処理例）
　次に、発話被りの検出の他、ユーザの理解力を推定し、推定結果に基づいて表示データを出力する処理例について説明する。

　図２２は、発話被りの検出の他、ユーザの理解力を推定し、推定結果に基づいて表示データを出力する処理例のシーケンスを説明するフローチャートである。
　図２２に示すフローの各ステップの処理について、順次、説明する。

　　（ステップＳ５５１）
　まず、エージェント装置のデータ処理部は、ステップＳ５５１において、エージェント発話実行中のユーザ発話の入力有無検出処理を実行する。

　　（ステップＳ５５２）
　次に、エージェント装置のデータ処理部は、ステップＳ５５２において、エージェント発話実行中のユーザ発話入力を検出したか否かを判定し、ユーザ発話入力を検出した場合は、ステップＳ５５３に進む。一方、ユーザ発話入力を検出していない場合は、ステップＳ５５１に戻り、エージェント発話実行中のユーザ発話の入力有無検出処理を継続して実行する。

　　（ステップＳ５５３）
　ステップＳ５５３の処理は、ステップＳ５５２において、エージェント発話実行中のユーザ発話入力を検出した場合に実行する。

　この場合、エージェント装置のデータ処理部は、ステップＳ５５３において、エージェント発話を聞いているユーザの解析処理を実行する。
　具体的には、例えば、ユーザが老人や子供等の理解力があまり高くないユーザであるか否か等の解析処理を行う。
　あるいは、ユーザの表情を解析して、エージェント発話を理解した顔をしているか、
困った顔をしているか等の解析を行う。
　また、例えば予めユーザの顔を登録したユーザ情報データベースを参照して、ユーザが常連のユーザであるか等の判定を行う構成としてもよい。

　　（ステップＳ５５４）
　ステップＳ５５４の処理は、ステップＳ５５３の判定結果に基づく分岐処理である。
　エージェント装置のデータ処理部は、ステップＳ５５４において、エージェント発話を聞いているユーザが、エージェント発話の理解力が高いと推定される場合は、ステップＳ５５５に進む。

　一方、エージェント発話を聞いているユーザが、エージェント発話の理解力が高いと推定される場合は、ステップＳ５５６に進む。

　　（ステップＳ５５５）
　ステップＳ５５５の処理は、ステップＳ５５４において、エージェント発話を聞いているユーザが、エージェント発話の理解力が高いと推定される場合に実行する。

　　（ステップＳ５５６）
　ステップＳ５５６の処理は、ステップＳ５５４において、エージェント発話を聞いているユーザが、エージェント発話の理解力が高いと推定される場合に実行する。

　この処理を行うことで、ユーザは、エージェント発話を理解できなくても、表示部に表示されたデータに基づいて、エージェント装置が伝えたかったことを確認することができる。

　（３－５．出力した表示データの停止、切り替え制御の処理例）
　次に、出力した表示データの停止、切り替え制御の処理例について説明する。

　図２３は、表示部に出力した表示データの停止、切り替え制御の処理例のシーケンスを説明するフローチャートである。
　図２３に示すフローの各ステップの処理について、順次、説明する。

　　（ステップＳ５６１）
　まず、エージェント装置のデータ処理部は、ステップＳ５６１において、表示部に表示データを出力している期間におけるユーザ発話内容を解析する。

　　（ステップＳ５６２）
　次に、エージェント装置のデータ処理部は、ステップＳ５６２において、表示部に表示データを出力している期間におけるユーザ発話内容が、表示部に表示中の表示データの出力開始タイミングにおけるユーザ発話内容と話題が一致しているか変更されているかを判定する。

　ユーザ発話内容が、表示部に表示中の表示データの出力開始タイミングにおけるユーザ発話内容と話題が一致せず、変更されていると判定した場合は、ステップＳ５６３に進む。
　一方、変更されず一致していると判定した場合は、ステップＳ５６４に進む。

　　（ステップＳ５６３）
　ステップＳ５６３の処理は、ステップＳ５６２において、ユーザ発話内容が、表示部に表示中の表示データの出力開始タイミングにおけるユーザ発話内容と話題が一致せず、変更されていると判定した場合に実行する。

　この場合、エージェント装置のデータ処理部は、ステップＳ５６２において、表示部に表示中の表示データの表示処理を停止、または切り替える処理を実行する。

　　（ステップＳ５６４）
　一方、ステップＳ５６４の処理は、ステップＳ５６２において、ユーザ発話内容が、表示部に表示中の表示データの出力開始タイミングにおけるユーザ発話内容と話題が一致していると判定した場合に実行する。

　この場合、エージェント装置のデータ処理部は、ステップＳ５６４において、表示部に表示中の表示データの表示処理を継続する処理を実行する。さらに、ステップＳ５６１に戻り、ユーザ発話内容の解析処理を継続する。

　この処理を行うことで、ユーザが、エージェント装置の表示部に表示されたデータを確認したか否かを検証した後に表示データを停止、または切り替えを行うことが可能となる。

　なお、図１９～図２３に示すフローチャートを参照して、複数の異なる処理について説明したが、これらの処理は個別に実行することも可能であり、複数の処理フローを組み合わせて実行してもよい。

　　［４．情報処理装置の構成例について］
　次に、本開示の情報処理装置であるエージェント装置１０の構成例について説明する。
　図２４は、ユーザ発話を入力して、ユーザ発話に対応する処理や応答を行う情報処理装置１０の一構成例を示す図である。

　図２４に示すように、エージェント装置１０は、入力部１１０、出力部１２０、データ処理部１３０、記憶部１７０、通信部１８０を有する。
　データ処理部１３０は、入力データ解析部１４０、データ処理実行部１５０、出力情報生成部１６０を有する。
　また、記憶部１７０は、出力データ登録データベース１７１、ユーザ情報データベース１７２を有する。

　なお、入力部１１０、出力部１２０以外のデータ処理部１３０や記憶部１７０は、エージェント装置１０内に構成せず、外部サーバ内に構成してもよい。サーバを利用した構成の場合、エージェント装置１０は、入力部１１０から入力した入力データを、ネットワークを介してサーバに送信し、サーバのデー処理部１３０の処理結果を受信して、出力部１２０を介して出力する。

　次に、図２４に示すエージェント装置１０の構成要素について説明する。
　入力部１１０は、音声入力部（マイク）１１１、画像入力部（カメラ）１１２、センサ１１３を有する。
　出力部１２０は、音声出力部（スピーカー）１２１、画像出力部（表示部）１２２を有する。
　エージェント装置１０は、最低限、これらの構成要素を有する。

　なお、音声入力部（マイク）１１１は、図１に示すエージェント装置１０のマイク１２に対応する。
　画像入力部（カメラ）１１２は、図１に示すエージェント装置１０のカメラ１１に対応する。

　音声入力部（マイク）１１１は、例えば、エージェント装置１０のすぐ前にいるユーザの声のみを選択的に取得するようなビームフォーミング機能を有する構成とすることが好ましい。
　また、画像入力部（カメラ）１１２の撮影画像に基づいてユーザ位置を判定し、音声入力部（マイク）１１１は、ビームフォーミナング機能により、解析したユーザ位置の発話を選択的に取得する構成としてもよい。

　センサ１１３は、図１に示すエージェント装置１０のセンサ１５に対応する。センサ１１３は、例えば距離センサ、ＧＰＳ等の位置センサ、温度センサ等、様々なセンサによって構成される。

　音声出力部（スピーカー）１２１は、図１に示すエージェント装置１０のスピーカー１４に対応する。
　画像出力部（表示部）１２２は、図１に示すエージェント装置１０の表示部１３に対応する。
　なお、画像出力部（表示部）１２２は、例えば、プロジェクタ等によって構成することも可能であり、また外部装置のテレビの表示部を利用した構成とすることも可能である。

　データ処理部１３０は、入力データ解析部１４０、データ処理実行部１５０、出力情報生成部１６０を有する。

　入力データ解析部１４０は、音声解析部１４１、画像解析部１４２、センサ情報解析部１４を有する。
　出力情報生成部１６０は、出力音声生成部１６１、表示情報生成部１６２を有する。

　ユーザの発話音声はマイクなどの音声入力部１１１に入力される。
　音声入力部（マイク）１１１は、入力したユーザ発話音声を音声解析部１４１に入力する。
　音声解析部１４１は、例えばＡＳＲ（Ａｕｔｏｍａｔｉｃ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ）機能を有し、音声データを複数の単語から構成されるテキストデータに変換する。

　音声解析部１４１は、さらに、テキストデータに対する発話意味解析処理を実行する。音声解析部１４１は、例えば、ＮＬＵ（Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｕｎｄｅｒｓｔａｎｄｉｎｇ）等の自然言語理解機能を有し、テキストデータからユーザ発話の意図（インテント：Ｉｎｔｅｎｔ）や、発話に含まれる意味のある有意要素（スロット：Ｓｌｏｔ）を推定する。ユーザ発話から、意図（インテント）と、有意要素（スロット）を正確に推定、取得することができれば、エージェント装置１０は、ユーザ発話に対する正確な処理を行うことができる。
　音声解析部１４１の解析結果はデータ処理実行部１５０に入力される。

　画像入力部１１２は、発話ユーザおよびその周囲の画像を撮影して、画像解析部１６２に入力する。
　画像解析部１４２は、発話ユーザの顔の表情やユーザの行動、発話ユーザの周囲情報等の解析を行い、この解析結果をデータ処理実行部１５０に入力する。

　センサ１１３は、例えば距離センサ、ＧＰＳ等の位置センサ、温度センサ等の各種センサによって構成され、センサ１１３の取得情報は、センサ情報解析部１４３に入力される。
　センサ情報解析部１４３は、センサ取得情報に基づいて、例えば現在の位置、気温等のデータを取得して、この解析結果をデータ処理実行部１５０に入力する。

　データ処理実行部１５０は、発話被り検出部１５１、出力先制御部１５２、ユーザ解析部１５３を有する。

　発話被り検出部１５１は、エージェント発話とユーザ発話の重なり、すなわち「発話被り」の発生有無を検出する。
　出力先制御部１５２は、出力部１２０の音声出力部（スピーカー）１２１を介したエージェント発話を実行するか、出力部１２０の画像出力部（表示部）１２２を介した表示データ出力を実行するかを決定し、決定した出力先にエージェント発話、または表示データを出力する処理を行う。
　具体的には、例えば、先に図１９～図２２のフローチャートを参照して説明した処理に従って、出力先を決定する。

　ユーザ解析部１５３は、入力データ解析部１４０から入力する情報、例えば画像解析部１４２からの入力情報等に基づいて、カメラ撮影画像に含まれるユーザを解析する。
　例えば、エージェント発話を聞いているユーザの解析処理を実行する。
　具体的には、例えば、ユーザが老人や子供等の理解力があまり高くないユーザであるか否か等の解析処理を行う。
　あるいは、ユーザの表情を解析して、エージェント発話を理解した顔をしているか、
困った顔をしているか等の解析を行う。
　また、例えば予めユーザの顔を登録したユーザ情報データベース１７２を参照して、ユーザが常連のユーザであるか等の判定を行う。

　出力先制御部１５２は、ユーザ解析部１５３において解析された情報も適用して、出力部１２０の音声出力部（スピーカー）１２１を介したエージェント発話を実行するか、出力部１２０の画像出力部（表示部）１２２を介した表示データ出力を実行するかを決定する。

　出力情報生成部１６０は、出力音声生成部１６１、表示情報生成部１６２を有する。
　出力音声生成部１６１は、エージェント発話音声を生成する。
　出力音声生成部１６１の生成した応答音声情報は、スピーカー等の音声出力部１２１を介して出力される。

　表示情報生成部１６２は、ユーザに対するエージェント発話に対応する表示データや、エージェント発話のテキスト情報や、その他の提示情報を表示する。

　記憶部１７０の出力データ登録データベース１７１は、定型的なエージェント発話データと、その対応する表示データ、および、これらの情報の重要度や複雑度が記録されたデータベースである。
　図２５に、出力データ登録データベース１７１の登録データの例を示す。

　図２５に示すように、出力データ登録データベース１７１には、定型的なエージェント発話データと、その対応する表示データ、および、これらの情報の重要度や複雑度が記録されている。
　先に説明した図２１に示すフローに従った処理は、このデータベースを参照して実行される。

　ユーザ情報データベース１７２は、例えばエージェント装置１０と対話を行うユーザを識別するための顔情報や年齢、性別、来訪回数、常連であるか否か等のユーザプロファイル情報等を記録したデータベースである。

　なお、図２４は、エージェント装置１０の構成例として説明したが、前述したように、図２４に示す構成中の入力部１１０、出力部１２０以外のデータ処理部１３０や記憶部１７０は、エージェント装置１０内に構成せず、外部サーバ内に構成してもよい。

　例えば、図２６に示すように、ユーザ端末である多数のエージェント装置１０とデータ処理サーバ５０を、ネットワークを介して接続する。各エージェント装置１０は、各個人の所有するスマホやＰＣ等の端末や、各家にあるスマートスピーカー等のユーザ端末によって構成される。各エージェント装置１０は、エージェント装置１０で実行される各ユーザとの対話情報や、入力部を介して取得される画像情報、音声情報、センサ検出情報等をデータ処理サーバ５０に送信する。データ処理サーバ５０は各エージェント装置１０から様々な情報を受信して解析を行う。このような構成とすることができる。

　なお、図２６に示すようなネットワーク接続構成においてエージェント装置１０と、データ処理サーバ５０各々が実行する処理の区分は様々な設定が可能である。
　例えば、図２７に示すように、エージェント装置１０が入力部１１０と出力部１２０を有し、データ処理サーバ５０がデータ処理部１３０や記憶部１７０を有する構成が可能である。

　あるいは、図２８に示すように、エージェント装置１０が入力部１１０と入力データ解析部１４０、さらに出力情報生成部１６０と出力部１２０を有し、データ処理サーバ５０がデータ処理実行部１５０と記憶部１７０を有する構成とすることも可能である。

　図２６に示すようなネットワーク接続構成とした場合、データ処理サーバ５０は、ネットワーク接続された多数のエージェント装置１０におけるユーザとの対話情報等を入力して解析することが可能となり、より精度の高い解析を行うことが可能となる。

　　［５．情報処理装置のハードウェア構成例について］
　次に、図２９を参照して、エージェント装置（情報処理装置）のハードウェア構成例について説明する。
　図２９を参照して説明するハードウェアは、先に図２４や、図２７、図２８を参照して説明した情報処理装置１０の１つの具体的なハードウェア構成例であり、また、図２７や図２８を参照して説明したデータ処理サーバ５０を構成する情報処理装置のハードウェア構成の一例でもある。

　ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）３０１は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）３０２、または記憶部３０８に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）３０３には、ＣＰＵ３０１が実行するプログラムやデータなどが記憶される。これらのＣＰＵ３０１、ＲＯＭ３０２、およびＲＡＭ３０３は、バス３０４により相互に接続されている。

　ＣＰＵ３０１はバス３０４を介して入出力インタフェース３０５に接続され、入出力インタフェース３０５には、各種スイッチ、キーボード、マウス、マイクロホン、センサなどよりなる入力部３０６、ディスプレイ、スピーカーなどよりなる出力部３０７が接続されている。ＣＰＵ３０１は、入力部３０６から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部３０７に出力する。

　入出力インタフェース３０５に接続されている記憶部３０８は、例えばハードディスク等からなり、ＣＰＵ３０１が実行するプログラムや各種のデータを記憶する。通信部３０９は、Ｗｉ－Ｆｉ通信、ブルートゥース（登録商標）（ＢＴ）通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。

　入出力インタフェース３０５に接続されているドライブ３１０は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア３１１を駆動し、データの記録あるいは読み取りを実行する。

　　［６．本開示の構成のまとめ］
　以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

　なお、本明細書において開示した技術は、以下のような構成をとることができる。
　（１）　情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出する発話被り検出部と、
　前記発話被り検出部において、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力する出力先制御部を有する情報処理装置。

　（２）　前記出力先制御部は、
　発話被りが検出された場合、エージェント発話を停止して、エージェント発話の代わりの表示データを表示部に出力する（１）に記載の情報処理装置。

　（３）　前記出力先制御部は、
　発話被りが検出された場合、エージェント発話を継続しながら、エージェント発話の代わりの表示データを表示部に出力する（１）または（２）に記載の情報処理装置。

　（４）　前記出力先制御部は、
　発話被りが検出された場合、エージェント発話の重要度、または複雑度の少なくともいずれかを判定し、判定結果に応じて出力先制御を実行する（１）～（３）いずれかに記載の情報処理装置。

　（５）　前記出力先制御部は、
　発話被りが検出された場合、エージェント発話の重要度、または複雑度の少なくともいずれかが高いと判定した場合、エージェント発話を継続しながら、エージェント発話の代わりの表示データを表示部に出力する（１）～（４）いずれかに記載の情報処理装置。

　（６）　前記出力先制御部は、
　発話被りが検出された場合、ユーザの理解度推定処理を実行し、推定したユーザの理解度に応じて出力先制御を実行する（１）～（５）いずれかに記載の情報処理装置。

　（７）　前記出力先制御部は、
　カメラ撮影画像に含まれるユーザの画像解析によるユーザの理解度推定処理を実行し、推定したユーザの理解度に応じて出力先制御を実行する（１）～（６）いずれかに記載の情報処理装置。

　（８）　前記出力先制御部は、
　エージェント発話に対応付けて記憶部に格納された表示データを取得して、表示部に出力する（１）～（７）いずれかに記載の情報処理装置。

　（９）　前記出力先制御部は、
　エージェント発話のテキストデータを表示部に出力する（１）～（８）いずれかに記載の情報処理装置。

　（１０）　前記出力先制御部は、
　カメラ撮影画像に含まれるユーザの画像解析によるユーザの理解度推定処理を実行し、推定したユーザの理解度に応じて表示データを変更する（１）～（９）いずれかに記載の情報処理装置。

　（１１）　前記出力先制御部は、
　表示部に表示データを出力中のユーザ発話内容が、前記表示データ出力開始時の内容と一致する場合は、前記表示データを継続して表示し、
　一致しない場合は、前記表示データの出力を停止、または他の表示データに変更する処理を実行する（１）～（１０）いずれかに記載の情報処理装置。

　（１２）　エージェント装置と、データ処理サーバを有する情報処理システムであり、
　前記エージェント装置は、
　ユーザ発話を入力する入力部と、
　前記データ処理サーバから受信したエージェント発話を出力する音声出力部と、前記データ処理サーバから受信した表示データを出力する表示部を有し、
　前記データ処理サーバは、
　前記エージェント装置の音声出力部を介して出力されているエージェント発話実行中のユーザ発話を検出する発話被り検出部と、
　前記発話被り検出部において、発話被りが検出された場合、エージェント発話の代わりの表示データを、前記エージェント装置に送信して、前記エージェント装置の表示部に出力する出力先制御部を有する情報処理システム。

　（１３）　情報処理装置において実行する情報処理方法であり、
　発話被り検出部が、情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出する発話被り検出ステップと、
　出力先制御部が、前記発話被り検出ステップにおいて、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力する出力先制御ステップを実行する情報処理方法。

　（１４）　エージェント装置と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
　前記エージェント装置は、
　ユーザ発話を入力する入力部と、
　前記データ処理サーバから受信したエージェント発話を出力する音声出力部と、前記データ処理サーバから受信した表示データを出力する表示部を有し、
　前記データ処理サーバが、
　前記エージェント装置の音声出力部を介して出力されているエージェント発話実行中のユーザ発話を検出する発話被り検出処理と、
　前記発話被り検出処理において、発話被りが検出された場合、エージェント発話の代わりの表示データを、前記エージェント装置に送信して、前記エージェント装置の表示部に出力する出力先制御処理を実行する情報処理方法。

　（１５）　情報処理装置において情報処理を実行させるプログラムであり、
　発話被り検出部に、情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出させる発話被り検出ステップと、
　出力先制御部に、前記発話被り検出ステップにおいて、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力させる出力先制御ステップを実行させるプログラム。

　また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

　なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　以上、説明したように、本開示の一実施例の構成によれば、エージェント発話とユーザ発話との発話被りが発生した場合に、エージェント発話の内容を確実にユーザに通知することを可能とした装置、方法が実現される。
　具体的には、例えば、情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出する発話被り検出部と、発話被り検出部において、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力する出力先制御部を有する。出力先制御部は、発話被りが検出された場合、エージェント発話を停止し、または継続しながらエージェント発話の代わりの表示データを表示部に出力する。
　本構成により、エージェント発話とユーザ発話との発話被りが発生した場合に、エージェント発話の内容を確実にユーザに通知することを可能とした装置、方法が実現される。

　　１０　エージェント装置
　　１１　カメラ
　　１２　マイク
　　１３　表示部
　　１４　スピーカー
　　１５　センサ
　　５０　データ処理サーバ
　１１０　入力部
　１１１　音声入力部
　１１２　画像入力部
　１１３　センサ
　１２０　出力部
　１２１　音声出力部
　１２２　画像出力部
　１３０　データ処理部
　１４０　入力データ解析部
　１４１　音声解析部
　１４２　画像解析部
　１４３　センサ情報解析部
　１５０　データ処理実行部
　１５１　発話被り検出部
　１５２　出力先制御部
　１５３　ユーザ解析部
　１６０　出力情報生成部
　１６１　出力音声生成部
　１６２　表示情報生成部
　１７０　記憶部
　１７１　出力データ登録データベース
　１７２　ユーザ情報データベース
　３０１　ＣＰＵ
　３０２　ＲＯＭ
　３０３　ＲＡＭ
　３０４　バス
　３０５　入出力インタフェース
　３０６　入力部
　３０７　出力部
　３０８　記憶部
　３０９　通信部
　３１０　ドライブ
　３１１　リムーバブルメディア

Claims

　情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出する発話被り検出部と、
　前記発話被り検出部において、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力する出力先制御部を有する情報処理装置。
　前記出力先制御部は、
　発話被りが検出された場合、エージェント発話を停止して、エージェント発話の代わりの表示データを表示部に出力する請求項１に記載の情報処理装置。
　前記出力先制御部は、
　発話被りが検出された場合、エージェント発話を継続しながら、エージェント発話の代わりの表示データを表示部に出力する請求項１に記載の情報処理装置。
　前記出力先制御部は、
　発話被りが検出された場合、エージェント発話の重要度、または複雑度の少なくともいずれかを判定し、判定結果に応じて出力先制御を実行する請求項１に記載の情報処理装置。
　前記出力先制御部は、
　発話被りが検出された場合、エージェント発話の重要度、または複雑度の少なくともいずれかが高いと判定した場合、エージェント発話を継続しながら、エージェント発話の代わりの表示データを表示部に出力する請求項１に記載の情報処理装置。
　前記出力先制御部は、
　発話被りが検出された場合、ユーザの理解度推定処理を実行し、推定したユーザの理解度に応じて出力先制御を実行する請求項１に記載の情報処理装置。
　前記出力先制御部は、
　カメラ撮影画像に含まれるユーザの画像解析によるユーザの理解度推定処理を実行し、推定したユーザの理解度に応じて出力先制御を実行する請求項１に記載の情報処理装置。
　前記出力先制御部は、
　エージェント発話に対応付けて記憶部に格納された表示データを取得して、表示部に出力する請求項１に記載の情報処理装置。
　前記出力先制御部は、
　エージェント発話のテキストデータを表示部に出力する請求項１に記載の情報処理装置。
　前記出力先制御部は、
　カメラ撮影画像に含まれるユーザの画像解析によるユーザの理解度推定処理を実行し、推定したユーザの理解度に応じて表示データを変更する請求項１に記載の情報処理装置。
　前記出力先制御部は、
　表示部に表示データを出力中のユーザ発話内容が、前記表示データ出力開始時の内容と一致する場合は、前記表示データを継続して表示し、
　一致しない場合は、前記表示データの出力を停止、または他の表示データに変更する処理を実行する請求項１に記載の情報処理装置。
　エージェント装置と、データ処理サーバを有する情報処理システムであり、
　前記エージェント装置は、
　ユーザ発話を入力する入力部と、
　前記データ処理サーバから受信したエージェント発話を出力する音声出力部と、前記データ処理サーバから受信した表示データを出力する表示部を有し、
　前記データ処理サーバは、
　前記エージェント装置の音声出力部を介して出力されているエージェント発話実行中のユーザ発話を検出する発話被り検出部と、
　前記発話被り検出部において、発話被りが検出された場合、エージェント発話の代わりの表示データを、前記エージェント装置に送信して、前記エージェント装置の表示部に出力する出力先制御部を有する情報処理システム。
　情報処理装置において実行する情報処理方法であり、
　発話被り検出部が、情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出する発話被り検出ステップと、
　出力先制御部が、前記発話被り検出ステップにおいて、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力する出力先制御ステップを実行する情報処理方法。
　エージェント装置と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
　前記エージェント装置は、
　ユーザ発話を入力する入力部と、
　前記データ処理サーバから受信したエージェント発話を出力する音声出力部と、前記データ処理サーバから受信した表示データを出力する表示部を有し、
　前記データ処理サーバが、
　前記エージェント装置の音声出力部を介して出力されているエージェント発話実行中のユーザ発話を検出する発話被り検出処理と、
　前記発話被り検出処理において、発話被りが検出された場合、エージェント発話の代わりの表示データを、前記エージェント装置に送信して、前記エージェント装置の表示部に出力する出力先制御処理を実行する情報処理方法。
　情報処理装置において情報処理を実行させるプログラムであり、
　発話被り検出部に、情報処理装置の発話であるエージェント発話実行中のユーザ発話を検出させる発話被り検出ステップと、
　出力先制御部に、前記発話被り検出ステップにおいて、発話被りが検出された場合、エージェント発話の代わりの表示データを表示部に出力させる出力先制御ステップを実行させるプログラム。