WO2018163645A1

WO2018163645A1 - 対話方法、対話システム、対話装置、およびプログラム

Info

Publication number: WO2018163645A1
Application number: PCT/JP2018/002501
Authority: WO
Inventors: 弘晃杉山; 宏美成松; 雄一郎吉川; 石黒　浩
Original assignee: 日本電信電話株式会社; 国立大学法人大阪大学
Priority date: 2017-03-10
Filing date: 2018-01-26
Publication date: 2018-09-13
Also published as: JP6970413B2; US11501768B2; JPWO2018163645A1; US20200013403A1

Abstract

ユーザの理解や同意を促進し、対話を長く続ける。対話システム１００は、ユーザ１０１と対話を行う。人型ロボット５０－１は、ある発話である第一発話を提示する。人型ロボット５０－１は、第一発話に対してユーザ１０１が理解できない旨の行動をした場合、もしくは、上記第一発話に対して上記ユーザが理解できない旨の行動をすることを予測した場合、もしくは、第一発話に対してユーザ１０１が理解できた旨の行動をしなかった場合、もしくは、上記第一発話に対して上記ユーザが理解できた旨の行動をしないことを予測した場合、第一発話の内容を言い換えた少なくとも一つの発話である第二発話を提示する。

Description

対話方法、対話システム、対話装置、およびプログラム

　この発明は、人とコミュニケーションを行うロボットなどに適用可能な、コンピュータが人間と自然言語等を用いて対話を行う技術に関する。

　近年、人とコミュニケーションを行うロボットの研究開発が進展しており、様々な現場で実用化されてきている。例えば、コミュニケーションセラピーの現場において、ロボットが孤独感を抱える人の話し相手となる利用形態がある。具体的には、老人介護施設においてロボットが入居者の傾聴役となることで、入居者の孤独感を癒す役割を担うことができると共に、ロボットとの会話している姿を見せ、入居者とその家族や介護士など周りの人々との会話のきっかけを作ることができる。また、例えば、コミュニケーション訓練の現場において、ロボットが練習相手となる利用形態がある。具体的には、外国語学習施設においてロボットが外国語学習者の練習相手となることで、外国語学習を効率的に進めることができる。また、例えば、情報提示システムとしての応用において、ロボット同士の対話を聞かせることを基本としながら、時折人に話しかけることで、退屈させずに人を対話に参加させ、人が受け入れやすい形で情報を提示することができる。具体的には、街中の待ち合わせ場所やバス停、駅のホームなどで人が時間を持て余している際や、自宅や教室などで対話に参加する余裕がある際に、ニュースや商品紹介、蘊蓄・知識紹介、教育（例えば、子供の保育・教育、大人への一般教養教授、モラル啓発など）など、効率的な情報提示が期待できる。さらに、例えば、情報収集システムとしての応用において、ロボットが人に話しかけながら情報を収集する利用形態がある。ロボットとのコミュニケーションにより対話感を保持できるため、人に聴取されているという圧迫感を与えずに情報収集することができる。具体的には、個人情報調査や市場調査、商品評価、推薦商品のための趣向調査などに応用することが想定されている。このように人とロボットのコミュニケーションは様々な応用が期待されており、ユーザとより自然に対話を行うロボットの実現が期待される。また、スマートフォンの普及により、LINE(登録商標)のように、複数ユーザでほぼリアルタイムにチャットを行うことにより、人との会話を楽しむサービスも実施されている。このチャットサービスにロボットとの会話の技術を適用すれば、チャット相手がいなくても、ユーザとより自然に対話を行うチャットサービスの実現が可能となる。

　本明細書では、これらのサービスで用いられるロボットやチャット相手などのユーザとの対話相手となるハードウェアやユーザとの対話相手となるハードウェアとしてコンピュータを機能させるためのコンピュータソフトウェアなどを総称してエージェントと呼ぶこととする。エージェントは、ユーザとの対話相手となるものであるため、ロボットやチャット相手などのように擬人化されていたり、人格化されていたり、性格や個性を有していたりするものであってもよい。

　これらのサービスの実現のキーとなるのは、ハードウェアやコンピュータソフトウェアにより実現されるエージェントが人間と自然に対話を行うことができる技術である。

　上記のエージェントの一例として、例えば、非特許文献１に記載されたような、ユーザの発話を音声認識し、発話の意図を理解・推論して、適切な応答をする音声対話システムがある。音声対話システムの研究は、音声認識技術の進展に伴って活発に進められ、例えば音声自動応答システムなどで実用化されている。

　また、上記のエージェントの一例として、あらかじめ定められたシナリオに沿って特定の話題についてユーザと対話を行うシナリオ対話システムがある。シナリオ対話システムでは、シナリオに沿って対話が展開する限り対話を続けることが可能である。例えば、非特許文献２に記載された対話システムは、ユーザと複数のエージェント間で、エージェントによる割り込みやエージェント同士のやり取りを含めながら対話を行うシステムである。例えば、エージェントは、ユーザに対してシナリオに用意された質問を発話し、質問に対するユーザの回答の発話がシナリオに用意された選択肢に対応する場合に、その選択肢に対応する発話を行うように機能する。すなわち、シナリオ対話システムは、システムに予め記憶されたシナリオに基づいた発話をエージェントが行う対話システムである。この対話システムでは、エージェントがユーザに問いかけ、ユーザからの返答を受けた際に、ユーザの発話内容に関わらず「そっか」といった相槌で流したり、エージェントの割り込みで話題を変えたりすることで、ユーザの発話が本来の話題から外れた場合であってもストーリーの破綻をユーザに感じさせないように応答することが可能である。

　また、上記のエージェントの一例として、ユーザの発話内容に沿った発話をエージェントが行うことにより、ユーザとエージェントとが自然な対話を行う雑談対話システムがある。例えば、非特許文献３に記載された対話システムは、ユーザとエージェントとの間で行われる複数回の対話の中で文脈に特有のものをより重視しながら、ユーザまたはエージェントの発話に含まれる単語をトリガーとして、あらかじめ記述しておいたルールに従ってシステムが発話することで、ユーザとシステムとの間で雑談対話を実現するシステムである。雑談対話システムが用いるルールは、あらかじめ記述したものだけでなく、ユーザの発話内容に基づいて自動的に生成したものであってもよいし、ユーザまたはエージェントによる直前の発話またはその近傍に発話された発話に基づいて自動的に生成したものであってもよいし、ユーザまたはエージェントによる直前の発話またはその近傍に発話された発話を少なくとも含む発話に基づいて自動的に生成したものであってもよい。非特許文献３には、ユーザの発話に含まれる単語と共起関係や係り受け関係にある単語に基づいて、自動的にルールを生成する技術が記載されている。また、例えば、非特許文献４に記載された対話システムは、人手で記述したルールと統計的発話生成手法で記述したルールを融合することで、ルール生成のコストを低減したシステムである。雑談対話システムは、シナリオ対話システムとは異なり、予め用意されたシナリオに沿った発話をエージェントが行うものではないため、ユーザの発話によっては、エージェントの発話がユーザの発話に対応しないものとなってしまうという事態は生じずに、少なくともユーザの発話内容、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話を少なくとも含む発話に基づいた発話をエージェントが行うことが可能である。すなわち、雑談対話システムは、少なくともユーザの発話内容、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話を少なくとも含む発話に基づいた発話をエージェントが行う対話システムである。これらの雑談対話システムでは、ユーザの発話に対して明示的に応答することが可能である。

河原達也，"話し言葉による音声対話システム"，情報処理，vol. 45，no. 10，pp. 1027-1031，2004年10月有本庸浩，吉川雄一郎，石黒浩，"複数体のロボットによる音声認識なし対話の印象評価"，日本ロボット学会学術講演会，2016年杉山弘晃，目黒豊美，東中竜一郎，南泰浩，"任意の話題を持つユーザ発話に対する係り受けと用例を利用した応答文の生成"，人工知能学会論文誌，vol. 30(1)，pp. 183-194，2015年目黒豊美，杉山弘晃，東中竜一郎，南泰浩，"ルールベース発話生成と統計的発話生成の融合に基づく対話システムの構築"，人工知能学会全国大会論文集，vol. 28，pp. 1-4，2014年

　しかしながら、音声合成による発話は、例えば、抑揚が薄い、発話文が長いなど、聞き取りにくいことがある。そのような場合、ユーザがエージェントから注意を逸らしてしまうことがある。また、対話システムが決定する発話の内容が対話の文脈とずれてしまい、ユーザがその内容を理解できない場合もある。そのような場合、ユーザはエージェントの発話を理解できない旨を発話や動作で表すときがある。これに対して、同じエージェントが同じ内容を繰り返し発話しても理解の容易性は向上しない。また、同じエージェントが同じ内容を繰り返すだけでは、説明する気がないように受け取られるおそれもある。特に、ユーザがエージェントの発話内容に同意できない場合には、その傾向が顕著になる。

　この発明の目的は、上述のような点に鑑みて、ユーザが対話システムからの発話を理解できない場合に、ユーザの理解を促し、対話を長く続けることができる対話システム、対話装置を実現することである。

　上記の課題を解決するために、この発明の第一の態様の対話方法は、ユーザと対話を行う対話システムが実行する対話方法であって、提示部が、ある発話である第一発話を提示する第一提示ステップと、第一発話に対してユーザが理解できない旨の行動をした場合、もしくは、第一発話に対してユーザが理解できない旨の行動をすることを予測した場合、もしくは、第一発話に対してユーザが理解できた旨の行動をしなかった場合、もしくは、第一発話に対してユーザが理解できた旨の行動をしないことを予測した場合、提示部が、第一発話の内容を言い換えた少なくとも一つの発話である第二発話を提示する第二提示ステップと、を含む。

　この発明の第二の態様の対話方法は、ユーザと対話を行う対話システムが実行する対話方法であって、提示部が、ある人格である第一人格により、ある発話である第一発話を提示する第一提示ステップと、第一発話に対してユーザが理解できない旨の行動をした場合、もしくは、第一発話に対してユーザが理解できない旨の行動をすることを予測した場合、もしくは、第一発話に対してユーザが理解できた旨の行動をしなかった場合、もしくは、第一発話に対してユーザが理解できた旨の行動をしないことを予測した場合、提示部が、第一発話と内容が同じである少なくとも一つの発話である第二発話を、第一人格とは異なる第二人格により提示する第二提示ステップと、を含む。

　この発明によれば、対話システムからの発話に対して、ユーザが理解できない旨の行動をした場合、または、ユーザが理解できない旨の行動をすることを予測した場合、または、ユーザが理解できた旨の行動をしなかった場合、または、ユーザが理解できた旨の行動をしないことを予測した場合に、直前の発話の内容を言い換えた異なる発話、または、直前の発話をした人格とは異なる人格による直前の発話の内容またはそれを言い換えた内容の発話を行うため、ユーザの理解を促し、対話を長く続けることができる対話システム、対話装置を実現することが可能となる。

図１は、実施形態の対話システムの機能構成を例示する図である。図２は、実施形態の対話方法の処理手続きを例示する図である。図３は、変形例の対話システムの機能構成を例示する図である。

　この発明では、対話システムが提示した発話に対して、ユーザが理解できない旨の行動をした場合、もしくは、ユーザが理解できない旨の行動をすることを予測した場合、もしくは、ユーザが理解できた旨の行動をしなかった場合、もしくは、ユーザが理解できた旨の行動をしないことを予測した場合に、例えば、発話文の長さの変更、発話時間の長さの変更、論理の追加または省略、文分割などの言い換えを行って説明することでユーザの理解や同意を促す。理解できない場合とは、具体的には、１．発話文の文意（すなわち、発話文が表現しようとしている趣旨）を把握できない場合、２．発話文の文意は把握できたが、発話文の文意に同意できない（または、納得できない）場合、３．発話文の文意は把握できたが、その文意の発話をした意図を把握できない場合が含まれる。言い換え発話による説明は、複数のエージェント（以下、人格ともいう）間の対話で行うと、さらに理解度が向上する。また、発話した人格とは異なる他の人格が理解できない旨に同調する発話をすると、ユーザだけが理解できない状況ではなくなり、対話満足度が向上する。このとき、他の人格が質問することで対話の方向を自然に定めることができ、以降のシナリオを用意することが容易になる。ユーザが同意できない旨の行動を表出した場合には、他の人格が元の発話に同意する旨の発話を提示することで、強制的な多数決により同意が形成された話題へ対話を進めることができる。

　以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

　実施形態の対話システムは、少なくとも一台の人型ロボットがユーザとの対話を行うシステムである。すなわち、実施形態の対話システムは、エージェントが人型ロボットである場合の一例である。対話システム１００は、図１に示すように、例えば、対話装置１と、マイクロホン１１およびカメラ１２からなる入力部１０と、少なくともスピーカ５１を備える提示部５０とを含む。対話装置１は、例えば、行動認識部２０、発話決定部３０、および音声合成部４０を備える。行動認識部２０は、例えば、音声認識部２１および動作認識部２２を備える。この対話システム１００が後述する各ステップの処理を行うことにより実施形態の対話方法が実現される。

　対話装置１は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。対話装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。対話装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、対話装置１の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

　［入力部１０］
　入力部１０は提示部５０と一体もしくは部分的に一体として構成してもよい。図１の例では、入力部１０の一部であるマイクロホン１１－１、１１－２が、提示部５０である人型ロボット５０－１、５０－２の頭部（耳の位置）に搭載されている。また、図１の例では入力部１０の一部であるカメラ１２が独立して設置されているが、例えば、人型ロボット５０－１、５０－２の頭部（目の位置）に搭載されていてもよい。図１の例では、提示部５０は二台の人型ロボット５０－１、５０－２から構成されているが、一台の人型ロボットから構成されていてもよく、三台以上の人型ロボットから構成されていてもよい。

　入力部１０は、ユーザの発話（言語的な行動）と動作（非言語的な行動）の少なくとも何れかを対話システム１００が取得するためのインターフェースである。言い換えれば、入力部１０は、ユーザの行動を対話システム１００へ入力するためのインターフェースである。例えば、入力部１０はユーザの発話音声を収音して音声信号に変換するためのマイクロホン１１である。入力部１０をマイクロホンとする場合、ユーザ１０１が発話した発話音声を収音可能とすればよい。つまり、図１は一例であって、マイクロホン１１－１，１１－２の何れか一方を備えないでもよい。また、ユーザ１０１の近傍などの人型ロボット５０－１，５０－２とは異なる場所に設置された１個以上のマイクロホン、または、複数のマイクロホンを備えたマイクロホンアレイを入力部とし、マイクロホン１１－１，１１－２の双方を備えない構成としてもよい。マイクロホン１１が、変換により得た音響信号を出力する。マイクロホン１１が出力した音響信号は、行動認識部２０の音声認識部２１へ入力される。また、例えば、入力部１０はユーザの身体的な動作を収録して映像信号に変換するためのカメラ１２である。入力部１０をカメラとする場合、ユーザ１０１の身体動作を収録可能とすればよい。つまり、図１は一例であって、カメラ１２は１個のカメラでもよいし複数のカメラでもよい。カメラ１２が、変換により得た映像信号を出力する。カメラ１２が出力した映像信号は、行動認識部２０の動作認識部２２へ入力される。

　［行動認識部２０］
　行動認識部２０は、マイクロホン１１が収音した音響信号とカメラ１２が収録した映像信号の少なくとも何れかを入力として、音声認識部２１と動作認識部２２の少なくとも何れかを用いて、ユーザの行動内容を表す情報を得て、発話決定部３０に対して出力する。

　［音声認識部２１］
　音声認識部２１は、マイクロホン１１から入力された音響信号を音声認識し、認識結果として得たテキストを出力する。音声認識部２１が出力したテキストは、行動認識部２０が出力するユーザの行動内容を表す情報に含められる。音声認識部２１が行う音声認識の方法は、既存のいかなる音声認識技術であってもよく、利用環境等に合わせて最適なものを適宜選択すればよい。なお、音響信号に音声が含まれない場合には、認識結果としてテキストは得られないため、音声認識部２１はテキストを出力せず、行動認識部２０が出力するユーザの行動内容を表す情報にはテキストは含まれない。

　［動作認識部２２］
　動作認識部２２は、カメラ１２から入力された映像信号を動作認識し、ユーザの動作内容を表す情報を得て出力する。動作認識部２２が出力したユーザの動作内容を表す情報は、行動認識部２０が出力するユーザの行動内容を表す情報に含められる。動作認識部２２が行う動作認識の方法は、例えば、ユーザの表情などの変化などを利用する方法である。この方法では、動作認識部２２は、入力された映像信号からユーザの顔の時系列の画像を取得し、取得した時系列の画像から特徴（例えば、瞳孔の大きさ、目尻の位置、目頭の位置、口角の位置、口の開き具合等）の変化であるユーザの動作内容を取得する。動作認識部２２は、入力された映像信号中の各時刻に対応するユーザの動作内容を得て、ユーザの動作内容を表す時系列のデータを生成し、生成した時系列データをユーザの動作内容を表す情報として出力する。ただし、上記の動作認識の方法は一例であり、動作認識部２２が行う動作認識の方法は、既存のいかなる動作認識技術であってもよく、利用環境等に合わせて最適なものを適宜選択すればよい。

　［発話決定部３０］
　発話決定部３０は、対話システム１００からの発話内容を表すテキストを決定し、音声合成部４０に対して出力する。行動認識部２０からユーザの行動内容を表す情報が入力された場合には、入力されたユーザの行動内容を表す情報に基づいて、対話システム１００からの発話内容を表すテキストを決定し、音声合成部４０に対して出力する。なお、対話システム１００の提示部５０が複数の人型ロボットで構成される場合には、発話決定部３０は、当該発話をいずれの人型ロボットが提示するかを決定してもよい。この場合には、当該発話を提示する人型ロボットを表す情報も併せて音声合成部４０へ出力する。また、この場合には、発話決定部３０は、当該発話を提示する相手、すなわち、当該発話をユーザに対して提示するのか、何れかの人型ロボットに対して提示するのか、を決定してもよい。この場合には、当該発話を提示する提示する相手を表す情報も併せて音声合成部４０へ出力する。

　［音声合成部４０］
　音声合成部４０は、発話決定部３０から入力された発話内容を表すテキストを、発話内容を表す音声信号に変換し、提示部５０に対して出力する。音声合成部４０が行う音声合成の方法は、既存のいかなる音声合成技術であってもよく、利用環境等に合わせて最適なものを適宜選択すればよい。なお、発話決定部３０から発話内容を表すテキストと共に当該発話を提示する人型ロボットを表す情報が入力された場合には、音声合成部４０は、当該情報に対応する人型ロボットへ発話内容を表す音声信号を出力する。また、発話決定部３０から発話内容を表すテキストと当該発話を提示する人型ロボットを表す情報に併せて発話を提示する相手を表す情報も入力された場合には、音声合成部４０は、当該情報に対応する人型ロボットへ発話内容を表す音声信号と発話を提示する相手を表す情報を出力する。

　［提示部５０］
　提示部５０は、発話決定部３０が決定した発話内容をユーザへ提示するためのインターフェースである。例えば、提示部５０は、人間の形を模して製作された人型ロボットである。この人型ロボットは、音声合成部４０から入力された発話内容を表す音声信号に対応する音声を、例えば頭部に搭載したスピーカ５１から発音する、すなわち、発話を提示する。スピーカ５１は、音声合成部４０から入力された発話内容を表す音声信号に対応する音声を発音可能とすればよい。つまり、図１は一例であって、スピーカ５１－１，５１－２の何れか一方を備えないでもよい。また、ユーザ１０１の近傍などの人型ロボット５０－１，５０－２とは異なる場所に１個以上のスピーカ、または、複数のスピーカを備えたスピーカアレイを設置し、スピーカ５１－１，５１－２の双方を備えない構成としてもよい。また、人型ロボットは、顔の表情や、身体の動作等の非言語的な行動により発話決定部３０が決定した発話内容をユーザへ提示してもよい。例えば、直前の発話に対して同意する旨を提示する際には、首を縦に振り、同意しない旨を提示する際には、首を横に振るなどの非言語的な行動を提示することが挙げられる。提示部５０を人型ロボットとした場合には、例えば、対話に参加する人格ごとに一台の人型ロボットを用意する。以下では、二人の人格が対話に参加する例として、二台の人型ロボット５０－１および５０－２が存在するものとする。なお、発話決定部３０が当該発話をいずれの人型ロボットから提示するかを決定していた場合には、音声合成部４０が出力した発話内容を表す音声信号を受け取った人型ロボット５０－１または５０－２が当該発話を提示する。また、発話決定部３０が決定した発話を提示する相手を表す情報も入力された場合には、人型ロボット５０－１または５０－２は、発話を提示する相手を表す情報に対応する人型ロボットまたはユーザの発話に顔や視線を向けた状態で、発話を提示する。

　以下、図２を参照して、実施形態の対話方法の処理手続きを説明する。

　ステップＳ１において、対話システム１００は、ある発話である第一発話の内容を表す音声を、人型ロボット５０－１が備えるスピーカ５１－１から出力する、すなわち、第一発話を提示する。第一発話の内容を表す音声は、発話決定部３０が決定した第一発話の内容を表すテキストを音声合成部４０が音声信号に変換したものである。第一発話の内容を表すテキストは、発話決定部３０が、例えば、あらかじめ定められ発話決定部３０内の図示しない記憶部に記憶された定型文から任意に選択してもよいし、直前までの発話内容に応じて決定してもよい。直前までの発話内容に応じて発話内容を決定する技術は、従来の対話システムにおいて用いられているものを利用すればよく、例えば、非特許文献２に記載されたシナリオ対話システムや非特許文献３または４に記載された雑談対話システムなどを用いることができる。発話決定部３０がシナリオ対話システムにおいて用いられている技術を用いる場合は、例えば、発話決定部３０は、直前の５発話程度を含む対話について、各発話に含まれる単語や各発話を構成する焦点語と発話決定部３０内の図示しない記憶部に記憶された各シナリオに含まれる単語や焦点語との単語間距離が所定の距離より近いシナリオを選択し、選択したシナリオに含まれるテキストを選択することにより第一発話の内容を表すテキストを決定する。発話決定部３０が雑談対話システムにおいて用いられている技術を用いる場合は、発話決定部３０は、例えば、ユーザの発話に含まれる単語をトリガーとして、あらかじめ記述して発話決定部３０内の図示しない記憶部に記憶しておいたルールに従って第一発話の内容を表すテキストを決定してもよいし、ユーザの発話に含まれる単語と共起関係や係り受け関係にある単語に基づいて自動的にルールを生成し、そのルールに従って第一発話の内容を表すテキストを決定してもよい。

　ステップＳ２において、行動認識部２０は、マイクロホン１１が取得した音響信号と、カメラ１２が取得した映像信号の少なくとも何れかに基づいて、ユーザの行動内容を表す情報を得て出力する、すなわち、行動認識部２０はユーザの行動を認識してユーザの行動内容を表す情報を得て出力する。行動認識部２０内の音声認識部２１は、マイクロホン１１が取得した音響信号のうちの、例えば、提示部５０が第一発話を提示した後の所定時間区間の音響信号を音声認識し、認識結果として得たテキストを、ユーザの発話内容を表すテキストとして行動認識部２０の出力とする。行動認識部２０内の動作認識部２２は、カメラ１２が取得した映像信号のうちの、例えば、提示部５０が第一発話を提示した後の所定時間区間の映像信号を動作認識し、認識結果として得た各時刻におけるユーザの動作内容を表す時系列のデータを、ユーザの動作内容を表す情報として行動認識部２０の出力とする。所定時間区間は、第一発話に対するユーザの言語行動や非言語行動を取得できるのに十分な時間を予め設定しておけばよく、例えば１秒から５秒の間の予め定めた時間区間である。

　ステップＳ３において、発話決定部３０は、まず、ユーザの行動内容を表す情報に基づいて、第一発話に対してユーザが理解できない旨の行動をしたこと、もしくは、第一発話に対してユーザが理解できた旨の行動をしなかったこと、を検知する（ステップＳ３－１）。ここでは、例えば、ユーザが表出した行動のうち、対話システムが第一発話を提示した後に表出した行動を、第一発話に対してユーザが表出した行動であるとみなす。すなわち、発話決定部３０は、ユーザの行動内容を表す情報のうち、対話システムが第一発話を提示した後のユーザの行動内容を表す情報に基づいて、第一発話に対してユーザが理解できない旨の行動をしたこと、もしくは、第一発話に対してユーザが理解できた旨の行動をしなかったこと、を検知する。第一発話の内容をユーザが理解できない場合としては、例えば、１．第一発話の発話文の文意（すなわち、発話文が表現しようとしている趣旨）をユーザが把握できない場合、２．第一発話の発話文の文意はユーザが把握できたが、発話文の文意にユーザが同意できない（または、納得できない）場合、３．第一発話の発話文の文意は把握できたが、その文意の発話をした意図をユーザが把握できない場合、がある。１．第一発話の発話文の文意（すなわち、発話文が表現しようとしている趣旨）をユーザが把握できない場合としては、例えば、第一発話の内容が難解でユーザが理解できなかった、例えば合成音声の聴覚品質の影響や音声合成の誤りなどによりユーザが第一発話の音声を聞き取れなかった、ユーザが第一発話を聞いていなかった、などの場合が挙げられる。ステップＳ３において、発話決定部３０は、次に、ユーザが理解できない旨の行動をしたことを検知した場合、または、ユーザが理解できた旨の行動をしなかったことを検知した場合、には（ＹＥＳ）、ステップＳ４へ処理を進める。その他の場合（ＮＯ）には、発話決定部３０は処理を終了する。（ステップＳ３－２）

　発話決定部３０がユーザの言語的な行動に基づいて理解できない旨の行動を検知する場合、例えば、以下のようにして行動を検知する。発話決定部３０は、ユーザの行動内容を表す情報からユーザの発話内容を表すテキストを取得し、取得したテキストに発話決定部３０内の図示しない記憶部に記憶された表現、すなわち、あらかじめ定めた表現が含まれる場合に、ユーザが理解できない旨の行動をしたと検知する。対話システムが提示した発話に対するユーザ発話に、例えば「わからない」「どういうこと？」のように戸惑いを表す表現や、例えば「もう一度言って」のように情報の再請求を行う表現が含まれている場合、ユーザは対話システムが提示した発話を理解できない状態であるとみなすことができることから、発話決定部３０内の図示しない記憶部には、あらかじめ定めた表現としてこれらの表現を記憶しておく。

　発話決定部３０がユーザの言語的な行動に基づいてユーザが理解できた旨の行動をしなかったことを検知する場合、例えば、以下のようにして検知する。発話決定部３０は、ユーザの行動内容を表す情報にテキストが含まれていない場合に、ユーザが理解できた旨の行動をしなかったと検知する。すなわち、提示部５０が第一発話を提示した後の所定時間区間にユーザが発話せず沈黙していた場合に、ユーザが理解できた旨の行動をしなかったと検知する。

　発話決定部３０がユーザの非言語的な行動に基づいて理解できない旨の行動を検知する場合、例えば、以下のようにして行動を検知する。発話決定部３０は、ユーザの行動内容を表す情報からユーザの動作内容を表す情報を取得し、取得した動作に発話決定部３０内の図示しない記憶部に記憶されたあらかじめ定めた動作が含まれる場合に、ユーザが理解できない旨の行動を表出したと検知する。対話システムが発話を提示した直後にユーザが表出した動作に、例えば困惑した表情や、例えば首をかしげる等の動作が含まれている場合、ユーザは対話システムが提示した発話を理解できない状態であるとみなすことができることから、発話決定部３０内の図示しない記憶部には、あらかじめ定めた動作としてこれらの動作を記憶しておく。

　また、例えば、以下のようにして、ユーザの非言語的な行動に基づいて理解できない旨の行動を検知してもよい。対話システム１００の利用に先立ち予め、対象者に対して理解し難い発話を聴取させ、その前後の特徴の変化を発話決定部３０内の図示しない記憶部に記憶しておく。なお、対象者は特徴の変化のパターンを取得するための対象となるものを意味し、対話システム１００のユーザ１０１でもよいし、他のものであってもよい。ユーザの行動内容を表す情報のうち、対話システムが第一発話を提示した後のユーザの行動内容を表す情報に基づいて、第一発話に対してユーザが理解できない旨の行動をしたこと、と、第一発話に対してユーザが理解できた旨の行動をしなかったこと、の少なくとも何れかを検知する。発話決定部３０は、発話決定部３０内の図示しない記憶部に記憶した特徴の変化と、ステップＳ２で取得し行動認識部２０から入力されたユーザ１０１の反応（ユーザの行動内容を表す情報のうちの、対話システムが第一発話を提示する前のユーザの行動内容と、対話システムが第一発話を提示した後のユーザの行動内容と、に基づいて得られるユーザの特徴の変化）との類似度を計算し、発話決定部３０内の図示しない記憶部に記憶した所定の閾値との大小関係に基づき、類似していると判断したときには、ユーザの行動が理解できない旨の行動をしたと検知する。例えば、類似度が高いほど類似していることを示す場合には、発話決定部３０は、類似度が所定の閾値よりも大きいときに類似していると判断し、ユーザの行動が理解できない旨の行動をしたと検知する。

　ステップＳ３の別の例として、発話決定部３０は、ユーザの行動内容を表す情報に基づいて、第一発話に対してユーザが同意できない旨の行動をしたことを検知し（ステップＳ３’－１）、ユーザが同意できない旨の行動をしたことを検知した場合には（ＹＥＳ）、ステップＳ４へ処理を進め、その他の場合（ＮＯ）には、処理を終了する（ステップＳ３’－２）、ようにしてもよい。　

　ステップＳ３の更に別の例として、発話決定部３０は、下記のステップＳ３”－１～Ｓ３”－４を行ってもよい。発話決定部３０は、まず、ステップＳ３”－１として、ユーザの行動内容を表す情報に基づいて、第一発話に対してユーザが理解できない旨の行動をしたこと、もしくは、第一発話に対してユーザが理解できた旨の行動をしなかったことを検知する。発話決定部３０は、次に、ステップＳ３”－２として、ユーザが理解できない旨の行動をしたことを検知した場合、または、ユーザが理解できた旨の行動をしなかったことを検知した場合、には（ＹＥＳ）、ステップＳ４へ処理を進め、その他の場合には（ＮＯ）、ステップＳ３”－３へ処理を進める。ステップＳ３”－３へ処理を進める場合には、発話決定部３０は、次に、ステップＳ３”－３として、第一発話に対してユーザが同意できない旨の行動をしたことを検知する。発話決定部３０は、次に、ステップＳ３”－４として、ユーザが同意できない旨の行動をしたことを検知した場合には（ＹＥＳ）、ステップＳ４へ処理を進め、その他の場合には（ＮＯ）、処理を終了する。

　発話決定部３０が、ユーザの言語的な行動に基づいて同意できない旨の行動を検知する場合、例えば、以下のようにして行動を検知する。発話決定部３０は、ユーザの行動内容を表す情報からユーザの発話内容を表すテキストを取得し、取得したテキストに発話決定部３０内の図示しない記憶部に記憶された表現、すなわち、あらかじめ定めた表現が含まれる場合に、ユーザが同意できない旨の行動を表出したと検知する。対話システムが提示した発話に対して、ユーザが否定形で応答していたり、例えば「違う」「難しい」「そうかな」のような否定的な意味を伴う単語がユーザ発話に含まれていたりするのであれば、ユーザは対話システムが提示した発話に同意できない状態であるとみなすことができる（参考文献１参照）。そのため、発話決定部３０内の図示しない記憶部には、あらかじめ定めた表現としてこれらの表現を記憶しておく。
　〔参考文献１〕大野正樹，村上明子，「Twitterからの同意・非同意表現抽出」，言語処理学会第18回年次大会，pp. 89-92，2012年

　発話決定部３０がユーザの非言語的な行動に基づいて同意できない旨の行動を検知する場合、例えば、以下のようにして行動を検知する。発話決定部３０は、ユーザの行動内容を表す情報からユーザの動作内容を表す情報を取得し、取得したテキストに発話決定部３０内の図示しない記憶部に記憶された動作、すなわち、あらかじめ定めた動作が含まれる場合に、ユーザが同意できない旨の行動を表出したと検知する。対話システムが発話を提示した直後にユーザが表出した動作に、例えば眉をひそめる表情や、例えば首を左右に振る等の動作が含まれている場合、ユーザは対話システムが提示した発話に同意できない状態であるとみなすことができる（参考文献２参照）。そのため、発話決定部３０内の図示しない記憶部には、あらかじめ定めた動作としてこれらの動作を記憶しておく。
　〔参考文献２〕平山高嗣，大西哲朗，朴惠宣，松山隆司，「対話における顔向けを伴う働きかけが同意・不同意応答のタイミングに及ぼす影響」，ヒューマンインタフェース学会論文誌，10(4) ，pp. 385-394，2008年

　ステップＳ４において、発話決定部３０は、第一発話の内容を表すテキストを言い換えた第二発話の内容を表すテキストを生成し、生成したテキストを音声合成部４０に対して出力する。すなわち、発話決定部３０は、第一発話後にユーザが理解できない旨の行動をした場合、もしくは、第一発話後にユーザが理解できた旨の行動をしなかった場合に、第一発話の内容を表すテキストを言い換えた第二発話の内容を表すテキストを生成して、生成した第二発話の内容を表すテキストを出力する。第二発話は、一つの発話であってもよいし、複数の発話であってもよい。

　言い換えとは、ある発話を別の表現に変換することである。言い換えの手法は様々なものがあり、例えば、１．発話文の長さの変更、２．発話時間の長さの変更、３．論理の追加または省略、４．文分割、５．複数人格による提示、などが挙げられる。以下、各手法について詳細に説明する。

　１．発話文の長さの変更とは、第一発話の内容を表すテキストの文意を変更せずに、第二発話の内容を表すテキストの長さを第一発話の内容を表すテキストよりも長く、または、短く変換することである。

　２．発話時間の長さの変更とは、第一発話の内容を表すテキストを変更せずに、第二発話の内容を表す音声の発話時間の長さを第一発話の内容を表す音声の発話時間よりも長く、または、短く変換することである。特に、発話時間を長くしてゆっくり聞かせることで、発話内容を表すテキストが同じであっても、ユーザの理解が容易になることが期待できる。

　３．論理の追加とは、第一発話の内容を表すテキストには含まれない論理を第二発話の内容を表すテキストに追加することである。論理の省略とは、逆に、第一発話の内容を表すテキストには含まれる論理を第二発話の内容を表すテキストから省略することである。

　４．文分割とは、第一発話の内容を表すテキストに含まれる発話文を複数の発話文に分割して、複数の発話文を含む第二発話の内容を表すテキストとすることである。複雑な内容を一つのフレーズで一気に話すと理解が難しい場合に、複数の発話に区切って聞かせることで、ユーザの理解が容易になることが期待できる。特に、複数の発話のうち最後ではない少なくとも一つの発話に対して、ユーザが相槌を打ち易い発話を含める（例えば、単に「うん」と答えさせる）ことで、対話に間を作り、理解し易くすることができる。文分割するときには、単に一つの発話文を分割するだけではなく、分割された発話文の一部を整形してもよい。文分割には、第一発話の内容を表すテキストに含まれる難しい単語を説明する発話文と、通りやすい文言を言い直す発話文とに分割することも含まれる。

　５．複数人格による提示とは、第一発話と同じ内容の第二発話を、第一発話を提示した人格とは異なる人格により提示することである。例えば、二台の人型ロボット５０－１、５０－２が含まれる対話システムにおいて、第一発話の内容を表すテキストは、ある人型ロボット５０－１が提示することを表す情報と共に出力し、第一発話と同じ内容の第二発話の内容を表すテキストは、異なる人型ロボット５０－２が提示することを表す情報と共に出力する。また、第二発話の内容を表すテキストが複数の発話文を含むものであり、複数の人型ロボットで分担して第二発話を提示することも含まれる。例えば、第二発話が四個の発話t(3-1), t(3-2), t(3-3), t(3-4)からなるとして、第二発話の一部t(3-1), t(3-3)の内容を表すテキストは、ある人型ロボット５０－１が提示することを表す情報と共に出力し、第二発話の一部t(3-2), t(3-4)の内容を表すテキストは、異なる人型ロボット５０－２が提示することを表す情報と共に出力する。

　上記で説明した各手法は独立ではなく、複数の手法を組み合わせて言い換えることも可能である。例えば、複雑な第一発話の発話内容を表すテキストを論理が一部省略された単純な発話内容を表すテキストに変換し（３．論理の省略）、その発話内容を表す音声信号の時間長を長くして提示してもよい（２．発話時間の延長）。また、第一発話の発話内容を表すテキストに含まれる長い発話文を複数の発話文に分割し（４．文分割）、各発話文に対応する複数の発話を複数の人格により分担して提示してもよいし（５．複数人格による提示）、そのとき一部の発話の発話内容を表す音声信号の時間長を短くして提示してもよい（２．発話時間の短縮）。

　なお、ステップＳ３において、同意できない旨の行動を検知した場合には、ステップＳ４において、発話決定部３０は、第一発話後にユーザが同意できない旨の行動を表出した場合に、第一発話の内容を表すテキストを言い換えた第二発話の内容を表すテキストを生成して、生成した第二発話の内容を表すテキストを出力する。

　また、ステップＳ３において、第一発話に対してユーザが理解できない旨の行動をしたこと、もしくは、第一発話に対してユーザが理解できた旨の行動をしなかったことと、同意できない旨の行動と、を検知した場合には、ステップＳ４において、発話決定部３０は、第一発話に対してユーザが理解できない旨の行動をしたこと、もしくは、第一発話に対してユーザが理解できた旨の行動をしなかったこと、を検知した場合に、第一発話の内容を表すテキストを言い換えた第二発話の内容を表すテキストを生成して、生成した第二発話の内容を表すテキストを出力し、また、第一発話後にユーザが同意できない旨の行動をした場合にも、第一発話の内容を表すテキストを言い換えた第二発話の内容を表すテキストを生成して、生成した第二発話の内容を表すテキストを出力する。

　ステップＳ５において、音声合成部４０は、第二発話の内容を表すテキストを、第二発話の内容を表す音声信号に変換して提示部５０に対して出力し、提示部５０は、音声合成部４０から入力された第二発話の内容を表す音声信号に対応する音声を人型ロボット５０－１が備えるスピーカ５１－１または人型ロボット５０－２が備えるスピーカ５１－２から出力する。発話決定部３０から第二発話の内容を表すテキストと共に第二発話を提示する人型ロボットを表す情報が入力された場合、提示部５０は、当該情報に対応する人型ロボット５０が備えるスピーカ５１から当該第二発話の内容を表す音声を出力する。

　以降、対話システムは第二発話の内容を話題とした発話を行うことで、ユーザとの対話を続行する。例えば、第二発話をシナリオ対話システムにおいて用いられている技術により生成した場合には、シナリオ対話システムにおいて用いられている技術により選択したシナリオに沿った対話がユーザと対話システムとの間で実行されるように、対話システムはシナリオ対話システムにおいて用いられている技術により決定したシナリオ発話の発話内容を表す音声をスピーカから出力する。また、例えば、第二発話を雑談対話システムにおいて用いられている技術により生成した場合には、ユーザの発話に基づいて雑談対話システムにおいて用いられている技術により決定した雑談発話の発話内容を表す音声をスピーカから出力する。以降の発話を提示する人型ロボットは、何れか一台の人型ロボットであってもよいし、複数台の人型ロボットであってもよい。

　上述の実施形態では、発話決定部３０が、第一発話後にユーザが理解できない旨の行動をしたこと、または、第一発話後にユーザが理解できた旨の行動をしなかったことを検知することで、第二発話の生成を行う例を説明したが、第一発話後にユーザが理解できない旨の行動をするであろうこと、または、第一発話後にユーザが理解できた旨の行動をしないであろうことを予測することで、第二発話の生成を行ってもよい。検知とは、行動認識部２０が第一発話に対してユーザが表出した行動を実際に認識して、その行動の内容を表す情報に基づいて、ユーザが所望の行動をしたか否か（または、しなかったか否か）を発話決定部３０が判定することを指す。一方、予測とは、行動認識部２０が第一発話に対してユーザが表出した行動を認識することなしに、第一発話を提示するより前に取得できる情報に基づいて、ユーザが所望の行動を表出するか否か（または、表出しないか否か）を発話決定部３０が判定することを指す。この場合、上述したステップＳ２は省略することが可能である。

　第一発話を対話システムが提示した後にユーザの応答がない場合も同意できない旨の表出とみなすことができる。一方、社会通念に照らして通常は同意されない内容や、予め取得しておいたユーザの嗜好を鑑みて同意されないことが予期できる内容である場合、第一発話を対話システムが提示した時点で、ユーザが同意できない旨を表出するであろうことを予測することができる。例えば、スキーを趣味とするユーザに対して、「スキーは楽しくない」という内容の第一発話を提示した場合、ユーザは第一発話に対して同意できない旨の行動を表出する可能性が高い。このとき、ユーザの応答がない場合に、同意できない旨の行動があったものとして、その行動に基づいて以降の対話を展開するのが検知である。一方、ユーザの応答を利用せずに同意できない旨の行動があったものとして、以降の対話を展開するのが予測である。すなわち、第一発話の提示に対してユーザが表出した行動を利用する（または所望の行動を表出しないことを利用する）のであれば検知であり、利用しないのであれば予測である。また、第一発話を提示する前に取得可能であった知識を利用することも予測に含まれる。

　すなわち、発話決定部３０が検出に代えて予測を行う場合には、発話決定部３０は、第一発話に対してユーザが理解できない旨の行動をすること、もしくは、第一発話に対してユーザが理解できた旨の行動をしないこと、を予測し、第一発話に対してユーザが理解できない旨の行動をすることを予測した場合、もしくは、第一発話に対してユーザが理解できた旨の行動をしないことを予測した場合に、第一発話の内容を表すテキストを言い換えた第二発話の内容を表すテキストを生成して、生成した第二発話の内容を表すテキストを出力する。

　［具体例］
　以下、実施形態による対話内容の具体例を示す。ここで、Ｒはロボットを表し、Ｈはユーザを表す。Ｒの後の数字は人型ロボットの識別子である。t(i)（i=0, 1, 2, …）は対話中の発話または行動を表し、特に、t(1)は第一発話、t(2)は第一発話に対するユーザの行動、t(3)は第二発話を表す。各発話または行動の記載順は、その発話または行動を提示または表出する順番を表す。各発話が複数の発話からなる場合、t(i-j)と表す。例えば、第二発話が３つの発話を含む場合、第二発話はt(3-1), t(3-2), t(3-3)で表す。

　（具体例１－１－１：理解できない旨表出、長い発話文への言い換え）
　　　t(0)　Ｈ：なんか面白いニュースある？
　　　t(1)　Ｒ１：○○○法案が成立する見込みだってよ
　　　t(2)　Ｈ：ん？
　　　t(3)　Ｒ１：×××とかが集まってる施設を○○○って呼ぶんだけど、それに関連する法案が成立する見込みなんだって
　　　t(4)　Ｈ：へー、そうなんだ
　この例では、時事問題に関する人型ロボットＲ１からの第一発話t(1)に対して、ユーザＨが理解できない旨の発話t(2)を表出している。これに対して人型ロボットＲ１は、一般的に難解と考えられる○○○の語を説明する内容に言い換えて、残りの部分を発話調に変換（例えば、名詞の連続に助詞を補う、など）した第二発話t(3)を提示している。

　（具体例１－１－２：理解できない旨表出、長い発話文に言い換えて文分割）
　　　t(0)　Ｈ：なんか面白いニュースある？
　　　t(1)　Ｒ１：○○○法案が成立する見込みだってよ
　　　t(2)　Ｈ：ん？
　　　t(3-1)　Ｒ１：×××とかが集まってる施設を○○○って呼ぶんだけど、
　　　t(3-2)　Ｒ２：うん
　　　t(3-3)　Ｒ１：それに関連する法案が成立する見込みなんだって
　　　t(3-4)　Ｒ２：へー、そうなんだ
　具体例１－１－１と比べて、人型ロボットＲ１が第二発話t(3-1)を途中で区切り、人型ロボットＲ２が相槌t(3-2)を打つことで、ユーザＨに理解するための時間的な余裕を作っている。また、人型ロボットＲ２が人型ロボットＲ１の第二発話t(3-1), t(3-3)に対して同意する旨の発話t(3-2), t(3-4)を提示することで、話題を理解している状態が多数派であることを示している。これは、ユーザがさらに理解できない旨を表出することを抑制することができるという効果に繋がる。

　（具体例１－２－１：理解できない旨表出、短い発話文に言い換え、その１）
　　　t(0)　Ｈ：なんか面白いニュースある？
　　　t(1)　Ｒ１：○○○法案が成立する見込みだってよ
　　　t(2)　Ｈ：ん？
　　　t(3-1)　Ｒ１：ああ、△△△法案の話
　　　t(3-2)　Ｒ２：へー、そうなんだ
　この例では、第一発話t(1)中の一般的に難解と考えられる○○○の語をより広く使われている別の略称△△△に言い換えた第二発話t(3-1)を提示することで、話題の概要を端的に伝達している。また、人型ロボットＲ２が人型ロボットＲ１の第二発話t(3-1)に対して理解できた旨の発話t(3-2)を提示することで、場に受け入れられた印象を増すことができる。ここでは、第二発話t(3-1)において、○○○の語を別の略称△△△に変更して短い発話文に言い換える例を示したが、略称への変更をせずに「ああ、○○○法案の話」としても、短い発話文への言い換えに該当する。この場合であっても、第一発話t(1)の文意を端的に伝達するために短い発話文に言い換えたことになっている。

　（具体例１－２－２：理解できない旨表出、短い発話文に言い換え、その２）
　　　t(0)　Ｈ：なんか面白いニュースある？
　　　t(1)　Ｒ１：○○○法案が成立する見込みだってよ
　　　t(2)　Ｈ：ん？
　　　t(3-1)　Ｒ２：ああ、△△△法案の話？
　　　t(3-2)　Ｒ１：そうそう、よく知ってるね
　具体例１－２－１と比べて、ユーザＨが理解できない旨の発話t(2)を表出した後に、第一発話t(1)を提示した人型ロボットＲ１とは異なる人型ロボットＲ２が、一般的に難解と考えられる○○○の語を略称△△△に言い換えた第二発話t(3-1)を提示している。この場合、人型ロボットＲ２も話題を理解している前提の対話となり、話題を理解している状態が多数派であることを示すことができている。

　（具体例２：同意できない旨表出、論理の追加）
　　　t(1)　Ｒ１：スキーって楽しくないよね
　　　t(2)　Ｈ：えー、なんでさ。スキー楽しいじゃん
　　　t(3-1)　Ｒ２：スキーってスピードが出て怖いよね
　　　t(3-2)　Ｒ１：そうそう、なかなか止まれなくて楽しくない
　この例では、人型ロボットＲ１からの第一発話t(1)に対して、ユーザＨが同意できない旨の発話t(2)を表出している。これに対して人型ロボットＲ２が、第一発話t(1)の論拠を追加する第二発話t(3-1)を提示することで、多数決で第一発話t(1)が支持され、以降の話題を第一発話t(1)に沿ったものとして対話を継続することができる。この例では第二発話t(3-1)を人型ロボットＲ２が提示しているが、第一発話t(1)を提示した人型ロボットＲ１が第二発話t(3-1)を提示しても構わない。

　（具体例３：理解できる旨表出なし、長い発話文に言い換え）
　　　t(0)　Ｈ：なんか面白いニュースある？
　　　t(1)　Ｒ１：○○○法案が成立する見込みだってよ
　　　t(2)　Ｈ：（沈黙、理解できる旨の表出なし）
　　　t(3-1)　Ｒ２：（首をかしげるなどにより一定時間待機後）どういうこと？
　　　t(3-2)　Ｒ１：×××とかが集まってる施設を○○○って呼ぶんだけど、それに関連する法案が成立する見込みなんだって
　　　t(3-3)　Ｈ：へー、そうなんだ
　この例では、時事問題に関する人型ロボットＲ１からの第一発話t(1)に対して、ユーザＨが無反応となり理解できた旨の行動が所定時間（１～５秒程度）得られなかった。これに対して人型ロボットＲ２が内容を問う第二発話t(3-1)を提示して、これに対して、人型ロボットＲ１が、一般的に難解と考えられる○○○の語を説明する内容に言い換えた第二発話t(3-2)を提示している。これにより、対話が破綻することなく、継続することができている。

　［変形例］
　上述した実施形態では、エージェントとして人型ロボットを用いて音声による対話を行う例を説明したが、上述した実施形態の提示部は身体等を有する人型ロボットであっても、身体等を有さないロボットであってもよい。また、この発明の対話技術はこれらに限定されず、人型ロボットのように身体等の実体がなく、発声機構を備えないエージェントを用いて対話を行う形態とすることも可能である。そのような形態としては、例えば、コンピュータの画面上に表示されたエージェントを用いて対話を行う形態が挙げられる。より具体的には、「LINE」（登録商標）や「２ちゃんねる」（登録商標）のような、複数アカウントがテキストメッセージにより対話を行うグループチャットにおいて、ユーザのアカウントと対話装置のアカウントとが対話を行う形態に適用することも可能である。この形態では、エージェントを表示する画面を有するコンピュータは人の近傍にある必要があるが、当該コンピュータと対話装置とはインターネットなどのネットワークを介して接続されていてもよい。つまり、本対話システムは、人とロボットなどの話者同士が実際に向かい合って話す対話だけではなく、話者同士がネットワークを介してコミュニケーションを行う会話にも適用可能である。

　変形例の対話システム２００は、図３に示すように、例えば、一台の対話装置２からなる。変形例の対話装置２は、例えば、入力部１０、行動認識部２０、発話決定部３０、および提示部５０を備える。行動認識部２０は、例えば、音声認識部２１および動作認識部２２を備える。対話装置２は、例えば、マイクロホン１１、カメラ１２、スピーカ５１を備えていてもよい。

　変形例の対話装置２は、例えば、スマートフォンやタブレットのようなモバイル端末、もしくはデスクトップ型やラップトップ型のパーソナルコンピュータなどの情報処理装置である。以下、対話装置２がスマートフォンであるものとして説明する。提示部５０はスマートフォンが備える液晶ディスプレイである。この液晶ディスプレイにはチャットアプリケーションのウィンドウが表示され、ウィンドウ内にはグループチャットの対話内容が時系列に表示される。グループチャットとは、チャットにおいて複数のアカウントが互いにテキストメッセージを投稿し合い対話を展開する機能である。このグループチャットには、対話装置２が制御する仮想的な人格に対応する複数の仮想アカウントと、ユーザのアカウントとが参加しているものとする。すなわち、本変形例は、エージェントが、対話装置であるスマートフォンの液晶ディスプレイに表示された仮想アカウントである場合の一例である。ユーザはソフトウェアキーボードを用いてグループチャットのウィンドウ内に設けられた入力エリアである入力部１０へ発話内容を入力し、自らのアカウントを通じてグループチャットへ投稿することができる。発話決定部３０はユーザのアカウントからの投稿に基づいて対話装置２からの発話内容を決定し、各仮想アカウントを通じてグループチャットへ投稿する。なお、スマートフォンに搭載されたマイクロホン１１と音声認識機能を用い、ユーザが発声により入力部１０へ発話内容を入力する構成としてもよい。また、スマートフォンに搭載されたスピーカ５１と音声合成機能を用い、各対話システムから得た発話内容を、各仮想アカウントに対応する音声でスピーカ５１から出力する構成としてもよい。

　以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、提示部が提示する発話順を除いて、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

　［プログラム、記録媒体］
　上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

　また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　ユーザと対話を行う対話システムが実行する対話方法であって、
　提示部が、ある発話である第一発話を提示する第一提示ステップと、
　上記第一発話に対して上記ユーザが理解できない旨の行動をした場合、もしくは、上記第一発話に対して上記ユーザが理解できない旨の行動をすることを予測した場合、もしくは、上記第一発話に対して上記ユーザが理解できた旨の行動をしなかった場合、もしくは、上記第一発話に対して上記ユーザが理解できた旨の行動をしないことを予測した場合、上記提示部が、上記第一発話の内容を言い換えた少なくとも一つの発話である第二発話を提示する第二提示ステップと、
　を含む対話方法。
　ユーザと対話を行う対話システムが実行する対話方法であって、
　提示部が、ある人格である第一人格により、ある発話である第一発話を提示する第一提示ステップと、
　上記第一発話に対して上記ユーザが理解できない旨の行動をした場合、もしくは、上記第一発話に対して上記ユーザが理解できない旨の行動をすることを予測した場合、もしくは、上記第一発話に対して上記ユーザが理解できた旨の行動をしなかった場合、もしくは、上記第一発話に対して上記ユーザが理解できた旨の行動をしないことを予測した場合、上記提示部が、上記第一発話と内容が同じである少なくとも一つの発話である第二発話を、上記第一人格とは異なる第二人格により提示する第二提示ステップと、
　を含む対話方法。
　請求項１に記載の対話方法であって、
　上記提示部は、
上記第一発話を、ある人格である第一人格により提示し、
上記第二発話を、上記第一人格とは異なる第二人格により提示する
　対話方法。
　請求項１に記載の対話方法であって、
　上記第二発話は、
発話文の長さが上記第一発話の発話文よりも長いまたは短い、
発話時間が上記第一発話の発話時間よりも長いまたは短い、
上記第一発話の発話内容の論理構成が追加または省略されている、
上記第一発話の内容を説明する複数の発話を含む、
の少なくともいずれか一つを満たす、
　対話方法。
　請求項１に記載の対話方法であって、
　上記第一発話に対して上記ユーザが理解できない旨の行動をした場合、もしくは、上記第一発話に対して上記ユーザが理解できない旨の行動をすることを予測した場合、もしくは、上記第一発話に対して上記ユーザが理解できた旨の行動をしなかった場合、もしくは、上記第一発話に対して上記ユーザが理解できた旨の行動をしないことを予測した場合、上記提示部は、
上記第一提示ステップの後かつ上記第二提示ステップの前に、
上記第一発話を理解できない旨の行動を、上記第一発話を提示した人格である第一人格とは異なる第二人格により提示し、
上記第二発話を、上記第一人格により上記第二人格に向けて提示する、
　対話方法。
　請求項１に記載の対話方法であって、
上記第一発話後に上記ユーザが同意できない旨の行動をした場合、
上記提示部は、上記第一発話の内容に上記ユーザ発話の内容を否定する論理を追加した内容を表す複数の発話である第二発話を、複数の人格により提示する、
　対話方法。
　ユーザと対話を行う対話システムであって、
　ある発話である第一発話と、上記第一発話の内容を言い換えた少なくとも一つの発話である第二発話と、を決定する発話決定部と、
　上記第一発話を提示し、
上記第一発話に対して上記ユーザが理解できない旨の行動をした場合、もしくは、上記第一発話に対して上記ユーザが理解できない旨の行動をすることを予測した場合、もしくは、上記第一発話に対して上記ユーザが理解できた旨の行動をしなかった場合、もしくは、上記第一発話に対して上記ユーザが理解できた旨の行動をしないことを予測した場合、
上記第二発話を提示する提示部と、
　を含む対話システム。
　ユーザと対話を行う対話システムであって、
　ある発話である第一発話と、上記第一発話と内容が同じである少なくとも一つの発話である第二発話と、を決定する発話決定部と、
　ある人格である第一人格により上記第一発話を提示し、
上記第一発話に対して上記ユーザが理解できない旨の行動をした場合、もしくは、上記第一発話に対して上記ユーザが理解できない旨の行動をすることを予測した場合、もしくは、上記第一発話に対して上記ユーザが理解できた旨の行動をしなかった場合、もしくは、上記第一発話に対して上記ユーザが理解できた旨の行動をしないことを予測した場合、
上記第一人格とは異なる第二人格により上記第二発話を提示する提示部と、
　を含む対話システム。
　発話を提示する提示部を少なくとも含む対話システムが提示する発話を決定する対話装置であって、
　ある発話である第一発話と、
上記第一発話に対して上記ユーザが理解できない旨の行動をした場合、もしくは、上記第一発話に対して上記ユーザが理解できない旨の行動をすることを予測した場合、もしくは、上記第一発話に対して上記ユーザが理解できた旨の行動をしなかった場合、もしくは、上記第一発話に対して上記ユーザが理解できた旨の行動をしないことを予測した場合に提示される、
上記第一発話の内容を言い換えた少なくとも一つの発話である第二発話と、
を決定する発話決定部
　を含む対話装置。
　発話を提示する提示部を少なくとも含む対話システムが提示する発話を決定する対話装置であって、
　ある人格である第一人格により提示される、ある発話である第一発話と、
上記第一発話に対して上記ユーザが理解できない旨の行動をした場合、もしくは、上記第一発話に対して上記ユーザが理解できない旨の行動をすることを予測した場合、もしくは、上記第一発話に対して上記ユーザが理解できた旨の行動をしなかった場合、もしくは、上記第一発話に対して上記ユーザが理解できた旨の行動をしないことを予測した場合に、上記第一人格とは異なる第二人格により提示される、
上記第一発話と内容が同じである少なくとも一つの発話である第二発話と、
を決定する発話決定部
を含む対話装置。
　請求項１から６のいずれかに記載の対話方法の各ステップをコンピュータに実行させるためのプログラム。
　請求項９または１０に記載の対話装置としてコンピュータを機能させるためのプログラム。