WO2021064947A1

WO2021064947A1 - 対話方法、対話システム、対話装置、およびプログラム

Info

Publication number: WO2021064947A1
Application number: PCT/JP2019/039145
Authority: WO
Inventors: 弘晃杉山; 宏美成松; 雅博水上; 庸浩有本
Original assignee: 日本電信電話株式会社
Priority date: 2019-10-03
Filing date: 2019-10-03
Publication date: 2021-04-08
Also published as: US20220319516A1; JPWO2021064947A1; JP7310907B2

Abstract

十分な対話能力を持っている印象をユーザに与える。対話システム（１００）は、人格が仮想的に設定されている。マイクロホン（１１）は、ユーザ（１０１）の発話音声を収音して音声信号に変換する。音声認識部（２０）は、ユーザ（１０１）の発話音声の音声信号を音声認識してユーザの発話内容を表すテキストに変換する。発話決定部（３０）は、最も新しく入力されたユーザ発話に含まれる情報と、対話システムの人格に設定された情報と、に少なくとも基づくシステム発話の内容を表すテキストを決定する。音声合成部（４０）は、システム発話の内容を表すテキストを、システム発話の内容を表す音声信号に変換する。スピーカ（５１）は、システム発話の内容を表す音声信号を発音する。

Description

対話方法、対話システム、対話装置、およびプログラム

　この発明は、人とコミュニケーションを行うロボットなどに適用可能な、コンピュータが人間と自然言語等を用いて対話を行う技術に関する。

　ユーザの音声発話を音声認識してその発話に対する応答文を生成して音声合成してロボットなどが発話する対話システム、ユーザのテキスト入力による発話を受け付けてその発話に対する応答文を生成して表示する対話システム、など、様々な形態の対話システムが実用化されつつある。近年は、従来のタスク指向の対話システムとは異なる、雑談を行う雑談対話システムに注目が集まっている（例えば、非特許文献１参照）。タスク指向の対話は、対話を通して別の明確なゴールを持つタスクを効率よく達成することを目的とする対話である。雑談はタスク指向の対話とは異なり、対話そのものから楽しさや満足を得ることを目的とする対話である。すなわち、雑談対話システムは、対話を通して人を楽しませたり、満足を与えたりすることを目的とする対話システムといえる。

　従来の雑談対話システムの研究の主流は、多様な話題（以下、「オープンドメイン」とも呼ぶ）のユーザによる発話（以下「ユーザ発話」とも呼ぶ）への自然な応答の生成となっており、これまで、オープンドメインの雑談において、どのようなユーザ発話に対しても何かしら応答できることを目指し、一問一答レベルで妥当な応答発話の生成や、それを適切に組み合わせた数分間の対話の実現が取り組まれてきた。

Higashinaka, R., Imamura, K., Meguro, T., Miyazaki, C., Kobayashi, N., Sugiyama, H., Hirano, T., Makino, T., and Matsuo, Y., "Towards an open-domain conversational system fully based on natural language processing," in Proceedings of the 25th International Conference on Computational Linguistics, pp. 928-939, 2014.

　しかしながら、オープンドメインな応答生成が、対話を通して人を楽しませ満足させるという雑談対話システムの本来の目的の達成に直接繋がるわけではない。例えば、従来の雑談対話システムでは、局所的には話題が繋がっていても、大局的には対話がどこに向かっているのかをユーザに理解できないことがある。そのため、ユーザが、対話システムの発話（以下、「システム発話」とも呼ぶ）の意図を解釈できずストレスを感じたり、対話システムが自身の発話さえ理解していないように感じられることから、対話能力が欠落しているように感じたりすることが課題であった。

　この発明の目的は、上記のような技術的課題に鑑みて、ユーザの発話を正しく理解できるだけの十分な対話能力を持っている印象をユーザに与えることができる対話システム、対話装置を実現することである。

　上記の課題を解決するために、この発明の一態様の対話方法は、人格が仮想的に設定された対話システムが実行する対話方法であって、最も新しく入力されたユーザ発話に含まれる情報と、対話システムの人格に設定された情報と、に少なくとも基づく発話を提示する発話提示ステップを含む。

　この発明によれば、ユーザの発話を正しく理解できるだけの十分な対話能力を持っている印象をユーザに与えることができる。

図１は、第１実施形態の対話システムの機能構成を例示する図である。図２は、発話決定部の機能構成を例示する図である。図３は、第１実施形態の対話方法の処理手続きを例示する図である。図４は、第１実施形態のシステム発話の決定と提示の処理手続きを例示する図である。図５は、第２実施形態の対話システムの機能構成を例示する図である。図６は、コンピュータの機能構成を例示する図である。

　以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。本発明の対話システムは、ロボットやコンピュータのディスプレイ上に仮想的に設定されたチャット相手などの、仮想的な人格が設定された「エージェント」がユーザとの対話を行うものである。そこで、エージェントとして人型ロボットを用いる形態を第１実施形態として説明し、エージェントとしてコンピュータのディスプレイ上に仮想的に設定されたチャット相手を用いる形態を第２実施形態として説明する。

　［第１実施形態］
　〔対話システムの構成と各部の動作〕
　まず、第１実施形態の対話システムの構成と各部の動作について説明する。第１実施形態の対話システムは、一台の人型ロボットがユーザとの対話を行うシステムである。対話システム１００は、図１に示すように、例えば、対話装置１と、マイクロホン１１からなる入力部１０と、少なくともスピーカ５１を備える提示部５０とを含む。対話装置１は、例えば、音声認識部２０、発話決定部３０、および音声合成部４０を備える。

　対話装置１は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。対話装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。対話装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、対話装置１の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

　［入力部１０］
　入力部１０は提示部５０と一体もしくは部分的に一体として構成してもよい。図１の例では、入力部１０の一部であるマイクロホン１１が、提示部５０である人型ロボット５０の頭部（耳の位置）に搭載されている。
　入力部１０は、ユーザの発話を対話システム１００が取得するためのインターフェースである。言い換えれば、入力部１０は、ユーザの発話を対話システム１００へ入力するためのインターフェースである。例えば、入力部１０はユーザの発話音声を収音して音声信号に変換するマイクロホン１１である。マイクロホン１１は、ユーザ１０１が発話した発話音声を収音可能とすればよい。つまり、図１は一例であって、マイクロホン１１は一個でもよいし、三個以上であってもよい。また、ユーザ１０１の近傍などの人型ロボット５０とは異なる場所に設置された一個以上のマイクロホン、または、複数のマイクロホンを備えたマイクロホンアレイを入力部とし、人型ロボット５０がマイクロホン１１を備えない構成としてもよい。マイクロホン１１は、変換により得たユーザの発話音声の音声信号を出力する。マイクロホン１１が出力した音声信号は、音声認識部２０へ入力される。

　［音声認識部２０］
　音声認識部２０は、マイクロホン１１から入力されたユーザの発話音声の音声信号を音声認識してユーザの発話内容を表すテキストに変換し、発話決定部３０に対して出力する。音声認識部２０が行う音声認識の方法は、既存のいかなる音声認識技術であってもよく、利用環境等に合わせて適したものを選択すればよい。

　［発話決定部３０］
　発話決定部３０は、対話システム１００からの発話内容を表すテキストを決定し、音声合成部４０に対して出力する。音声認識部２０からユーザの発話内容を表すテキストが入力された場合には、入力されたユーザの発話内容を表すテキストに基づいて、対話システム１００からの発話内容を表すテキストを決定し、音声合成部４０に対して出力する。

　図２に、発話決定部３０の詳細な機能構成を示す。発話決定部３０は、ユーザの発話内容を表すテキストを入力とし、対話システム１００からの発話内容を表すテキストを決定して出力する。発話決定部３０は、例えば、ユーザ発話理解部３１０、システム発話生成部３２０、ユーザ情報記憶部３３０、システム情報記憶部３４０、およびシナリオ記憶部３５０を備える。なお、発話決定部３０は、要素情報記憶部３６０を備えていてもよい。　　　

　［［ユーザ情報記憶部３３０］］
　ユーザ情報記憶部３３０は、予め設定した各種別の属性について、ユーザ発話から取得したユーザに関する属性の情報を格納する記憶部である。属性の種別は、対話で用いるシナリオ（すなわち、後述するシナリオ記憶部３５０に記憶されたシナリオ）に応じて予め設定しておく。属性の種別の例は、名前、居住県、居住県の名所への訪問経験の有無、居住県の名所の名物の経験の有無、当該名物の経験に対する評価が肯定評価であるか否定評価であるか、などである。各属性の情報は、後述するユーザ発話理解部３１０により、発話決定部３０へ入力されたユーザの発話内容を表すテキストから抽出されてユーザ情報記憶部３３０に格納される。

　［［システム情報記憶部３４０］］
　システム情報記憶部３４０は、対話システムに設定された人格（エージェント）に関する属性の情報を格納する記憶部である。属性の種別は、対話で用いるシナリオ（すなわち、後述するシナリオ記憶部３５０に記憶されたシナリオ）に応じて予め設定しておく。属性の種別の例は、名前、居住県、各県にある名所への訪問経験の有無、当該各名所の名物の経験の有無、などである。対話システムに設定された人格（エージェント）に関する各属性の情報は、予め設定してシステム情報記憶部３４０に記憶しておく。ただし、後述するユーザ発話理解部３１０が、抽出したユーザの属性の情報に応じて、対話システムに設定された人格（エージェント）に関する各属性の情報を決定して、システム情報記憶部３４０に格納するようにしてもよい。

　[[要素情報記憶部３６０]]
　要素情報記憶部３６０は、対話で用いるシナリオ（すなわち、後述するシナリオ記憶部３５０に記憶されたシナリオ）のシステム発話の発話テンプレートに挿入するための、ユーザやエージェントに関する属性の情報以外の、各種別の要素の情報を格納する記憶部である。種別の例は、各県にある名所、各県にある各名所の名物、などである。要素の情報の例は、埼玉県の名所である「長瀞」、長瀞の名物である「桜」、などである。要素の情報は、予め設定して要素情報記憶部３６０に記憶しておけばよい。ただし、後述するユーザ発話理解部３１０が、抽出したユーザの属性の情報や対話システムに設定された人格の属性の情報（例えば、ユーザの居住県やシステムの居住県）に応じて、ウェブ上に公開されているリソース（例えば、Wikipedia（登録商標））から取得して要素情報記憶部３６０に記憶するようにしてもよい。なお、シナリオ記憶部３５０に記憶しておくシナリオの発話テンプレートに要素の情報を予め含めておく場合には、発話決定部３０には要素情報記憶部３６０を備えないでよい。

　[[シナリオ記憶部３５０]]
　シナリオ記憶部３５０には、対話のシナリオが予め記憶されている。シナリオ記憶部３５０に記憶されている対話のシナリオは、対話の最初から終わりまでの流れにおける発話意図の状態の有限の範囲内での遷移と、対話システム１００が発話する各状態における、直前のユーザ発話の発話意図の候補と、直前のユーザ発話の発話意図の各候補に対応するシステム発話の発話テンプレート（すなわち、直前のユーザ発話の発話意図と矛盾しない発話意図の発話を対話システム１００が表出するための発話内容のテンプレート）の候補と、発話テンプレートの各候補に対応する次のユーザ発話の発話意図の候補（すなわち、発話テンプレートの各候補における対話システム１００の発話意図に対して行われる次のユーザ発話の発話意図の候補）と、を含んで構成される。なお、発話テンプレートは、対話システム１００の発話内容を表すテキストのみを含むものであってもよいし、対話システム１００の発話内容を表すテキストの一部に代えて、ユーザに関する所定の種別の属性の情報を含めることを指定する情報、対話システムに設定された人格に関する所定の種別の属性の情報を含めることを指定する情報、所定の要素の情報を含めることを指定する情報、などを含むものであってもよい。

　[[ユーザ発話理解部３１０]]
　ユーザ発話理解部３１０は、発話決定部３０に入力されたユーザの発話内容を表すテキストから、ユーザ発話の発話意図の理解結果とユーザに関する属性の情報を取得し、システム発話生成部３２０に対して出力する。ユーザ発話理解部３１０は、取得したユーザに関する属性の情報についてはユーザ情報記憶部３３０への格納も行う。

　[[システム発話生成部３２０]]
　システム発話生成部３２０は、システム発話の内容を表すテキストを決定し、音声合成部４０に対して出力する。システム発話生成部３２０は、シナリオ記憶部３５０に記憶されたシナリオにおける現在の状態における直前のユーザ発話の発話意図の各候補に対応する発話テンプレートのうちの、ユーザ発話理解部３１０から入力されたユーザの発話意図（すなわち、最も新しく入力されたユーザ発話の発話意図）に対応する発話テンプレートを取得する。システム発話生成部３２０は、ユーザ発話理解部３１０から入力されたユーザの発話意図と矛盾しない発話テンプレートが複数個ある場合には、システム情報記憶部３４０に記憶された対話システムに設定された人格（エージェント）に関する属性の情報と矛盾しない発話テンプレートを特定して取得する。なお、当然ながら、システム発話生成部３２０は、ユーザ発話理解部３１０から入力されたユーザに関する属性の情報とも矛盾せず、ユーザ情報記憶部３３０に既に記憶されているユーザに関する属性の情報とも矛盾しない、発話テンプレートを特定して取得する。次に、システム発話生成部３２０は、取得した発話テンプレートがユーザに関する所定の種別の属性の情報を含めることを指定する情報を含む場合であって、ユーザに関する当該種別の属性の情報がユーザ発話理解部３１０から取得されていない場合には、ユーザに関する当該種別の属性の情報をユーザ情報記憶部３３０から取得し、取得した発話テンプレートが対話システムに設定された人格（エージェント）に関する所定の種別の属性の情報を含めることを指定する情報を含む場合には、対話システムに設定された人格（エージェント）に関する当該種別の属性の情報をシステム情報記憶部３３０から取得し、取得した発話テンプレートが所定の種別の要素の情報を含めることを指定する情報を含む場合には、当該要素の情報を要素情報記憶部３６０から取得し、取得した情報を発話テンプレート中の指定された位置に挿入してシステム発話の内容を表すテキストとして決定する。

　［音声合成部４０］
　音声合成部４０は、発話決定部３０から入力されたシステム発話の内容を表すテキストを、システム発話の内容を表す音声信号に変換し、提示部５０に対して出力する。音声合成部４０が行う音声合成の方法は、既存のいかなる音声合成技術であってもよく、利用環境等に合わせて適したものを選択すればよい。

　［提示部５０］
　提示部５０は、発話決定部３０が決定した発話内容をユーザへ提示するためのインターフェースである。例えば、提示部５０は、人間の形を模して製作された人型ロボットである。この人型ロボットは、音声合成部４０から入力された発話内容を表す音声信号に対応する音声を、例えば頭部に搭載したスピーカ５１から発音する、すなわち、発話を提示する。スピーカ５１は、音声合成部４０から入力された発話内容を表す音声信号に対応する音声を発音可能とすればよい。つまり、図１は一例であって、スピーカ５１は一個でもよいし、三個以上であってもよい。また、ユーザ１０１の近傍などの人型ロボット５０とは異なる場所に一個以上のスピーカ、または、複数のスピーカを備えたスピーカアレイを設置し、人型ロボット５０がスピーカ５１を備えない構成としてもよい。

　〔本発明の対話システムが行う対話方法の特徴〕
　次に、本発明の対話システムが行う対話方法の特徴について、対話システムとユーザとの対話の具体例を用いて説明する。以降の具体例の記載では、“S”はシステム発話を表し、“U”はユーザ発話を表す。t(i)（i=0, 1, 2, …）は対話中の発話を表し、iは発話の順番を表す数字である。

　［対話の具体例］
　　　t(1)　S:　こんにちは！お名前を伺ってもいいですか？
　　　t(2)　U:　杉山といいます。
　　　t(3)　S:　杉山さんとおっしゃるんですね。私はリコっていいます。よろしくお願いします。杉山さんは何県にお住まいなんですか？
　　　t(4)　U:　埼玉県に住んでいます。
　　　t(5)　S:　ふむふむ。埼玉県ですか。埼玉いいですね。行ってみたいです。長瀞とか有名ですよね？
　　　t(6)　U:　長瀞は近いので自転車で行くこともあります。
　　　t(7)　S:　いい桜があるのうらやましいなあ。。私はお花見とか好きなんですけど、長瀞の桜ってどうですか？
　　　t(8)　U:　荒川沿いの桜並木が見事で、春には桜のトンネルのような景色になります。
　　　t(9)　S:　桜いいですよねえ。ところで、私青森県に住んでるんですけど、桜といえば弘前城とかもおすすめです。杉山さんは行かれたことはありますか？

　［本発明の特徴］
　本発明の対話システムが行う対話方法の特徴は、直前のユーザ発話（最も新しく入力されたユーザ発話）に含まれる情報のみならず、対話システムの人格に設定された情報にも基づくシステム発話を提示することである。以下、具体例に含まれる発話で本発明の特徴を説明する。

　［［例１－１］］システム発話t(5)の「埼玉いいですね。」
　システム発話t(5)の「埼玉いいですね。」の部分は、直前のユーザ発話t(4)で入力された「ユーザの居住県＝埼玉県」という情報だけでなく、対話システムに設定された人格（エージェント）に予め設定された「エージェントの居住県＝青森県」という情報にも基づいた発話である。すなわち、システム発話t(5)の「埼玉いいですね。」の部分は、ユーザとエージェントとで居住県が異なる点に基づいて決定されている。仮に「エージェントの居住県＝埼玉県」という情報が設定されており、ユーザとエージェントとで居住県が一致していたのであれば、例えば「埼玉いいですよね。」のような発話となる。

　［［例１－２］］システム発話t(5)の「行ってみたいです。」
　システム発話t(5)の「行ってみたいです。」の部分は、直前のユーザ発話t(4)で入力された「ユーザの居住県＝埼玉県」という情報だけでなく、エージェントに予め設定された「エージェントの居住県＝青森県」かつ「埼玉県へのエージェントの訪問経験＝なし」という情報にも基づいた発話である。

　［［例１－３］］システム発話t(7)の「長瀞の桜ってどうですか？」
　システム発話t(7)の「長瀞の桜ってどうですか？」の部分は、直前のユーザ発話t(6)で入力された「長瀞へのユーザの訪問経験＝あり」という情報だけでなく、エージェントに予め設定された「埼玉県へのエージェントの訪問経験＝なし」という情報にも基づいた発話である。

　なお、下記の例２－１や例２－２のように、直前のユーザ発話に含まれる情報と、対話システムの人格（エージェント）に設定された情報と、に少なくとも基づくシステム発話であれば、過去のユーザ発話にも基づくシステム発話を提示するようにしてもよい。

　［［例２－１］］システム発話t(7)の「いい桜があるのうらやましいなあ。。」
　システム発話t(7)の「いい桜があるのうらやましいなあ。。」の部分は、直前のユーザ発話t(6)で入力された「長瀞へのユーザの訪問経験＝あり」という情報と、過去のユーザ発話t(4)で入力された「ユーザの居住県＝埼玉県」という情報と、エージェントに予め設定された「エージェントの居住県＝青森県」という情報と、に基づいた発話である。直前のユーザ発話t(6)で「長瀞へのユーザの訪問経験＝あり」であったとしても、仮に「ユーザの居住県＝埼玉県」でなかった場合や「エージェントの居住県＝埼玉県」であった場合には、「があるのうらやましい」という発話は適切ではないので、システム発話t(7)として「いい桜があるのうらやましいなあ。。」とは異なる発話をする。また、直前のユーザ発話t(6)が「そうなんですか？」のように、「長瀞へのユーザの訪問経験＝あり」ではなかった場合、例えば、長瀞を知らない、もしくは、有名であることに同意しない旨を発話した場合であれば、システム発話t(7)の「いい桜があるのうらやましいなあ。。」は不自然な発話となり適切ではないので、この場合は、システム発話t(7)として、例えば、「あ、そんなに有名でもないんですかね。」のように単に同調する発話、もしくは、「いや、前にすごくいいって聞いたことがあったので。」のようにユーザが同意していないことを承認しつつエージェント自身の主張を継続する発話、をする。

　［［例２－２］システム発話t(9)の「ところで、私青森県に住んでるんですけど、桜といえば弘前城とかもおすすめです。」
　システム発話t(9)の「ところで、私青森県に住んでるんですけど、桜といえば弘前城とかもおすすめです。」の部分は、直前のユーザ発話t(8)で入力されたユーザの肯定評価と、過去のユーザ発話t(4)で入力された「ユーザの居住県＝埼玉県」という情報と、エージェントに予め設定された「エージェントの居住県＝青森県」という情報と、に基づいた発話である。仮に「ユーザの居住県＝青森県」という情報が過去に入力されており、ユーザとエージェントとで居住県が一致していたのであれば、システム発話t(9)の上記の部分の冒頭は「ところで、私」ではなく、例えば「実は、私も」のような発話とする。また、ユーザの評価が否定評価であれば、システム発話t(9)では桜の話題の発話ではなく異なる話題の発話をする。

　なお、下記の例３－１のように、直前のユーザ発話に含まれる情報と、対話システムの人格（エージェント）に設定された情報と、に少なくとも基づくシステム発話をするときに、直前のユーザ発話においてあり得る選択肢が多い場合には、直前のユーザ発話に含まれる情報と対話システムの人格（エージェント）に設定された情報との異同に基づくシステム発話を提示するようにしてもよい。

　［［例３－１］システム発話t(3)の「杉山さんは何県にお住まいなんですか？」とシステム発話t(5)の「いいですね。行ってみたいです。」
　システム発話t(3)の「杉山さんは何県にお住まいなんですか？」との質問をする発話の部分は、日本の全都道府県に対応する４７通りの選択肢があり得る質問である。これに対して、ユーザ発話t(4)ではユーザの居住県が回答されているものの、システム発話t(5)の「いいですね。行ってみたいです。」の部分は、ユーザの居住県に直接対応する発話ではなく、ユーザとエージェントとの居住経験や訪問経験の異同に基づく発話であるが、ユーザにはエージェントがユーザ発話を理解できているように感じられる。

　〔対話システム１００が行う対話方法の処理手続き〕
　次に、第１実施形態の対話システム１００が行う対話方法の処理手続きは図３に示す通りであり、そのうちのシステム発話を決定して提示する部分（図３のステップＳ２）の詳細な処理手続きの例は図４に示す通りである。

　［初回のシステム発話の決定と提示（初回のステップＳ２）］
　対話システム１００が対話の動作を開始すると、まず、発話決定部３０のシステム発話生成部３２０が、シナリオの最初の状態で行うシステム発話の発話テンプレートをシナリオ記憶部３５０から読み出して、システム発話の内容を表すテキストを出力し、音声合成部４０が音声信号への変換を行い、提示部５０が提示する。シナリオの最初の状態で行うシステム発話は、例えば、システム発話t(1)のような挨拶とユーザに何らかの質問をする発話である。

　［ユーザ発話の受け付け（ステップＳ１）］
　入力部１０がユーザの発話音声を収音して音声信号に変換し、音声認識部２０がテキストへの変換を行い、ユーザの発話内容を表すテキストを発話決定部３０に出力する。ユーザの発話内容を表すテキストは、例えば、システム発話t(1)に対して発話されたユーザ発話t(2)、システム発話t(3)に対して発話されたユーザ発話t(4)、システム発話t(5)に対して発話されたユーザ発話t(6)、システム発話t(7)に対して発話されたユーザ発話t(8)、である。

　［システム発話の決定と提示（初回以外のステップＳ２）］
　発話決定部３０は、直前のユーザ発話に含まれる情報と、対話システムの人格に設定された情報と、に少なくとも基づくシステム発話の内容を表すテキストを決定し、音声合成部４０が音声信号への変換を行い、提示部５０が提示する。提示されるシステム発話は、ユーザ発話t(2)に対するシステム発話t(3)、ユーザ発話t(4)に対するシステム発話t(5)、ユーザ発話t(6)に対するシステム発話t(7)、ユーザ発話t(8)に対するシステム発話t(9)、である。ステップＳ２の詳細については、〔システム発話の決定と提示の処理手続き〕として後述する。

　［対話の継続と終了（ステップＳ３）］
　発話決定部３０のシステム発話生成部３２０は、シナリオ記憶部３５０に記憶されたシナリオにおける現在の状態が最後の状態であれば対話システム１００が対話の動作を終了し、そうでなければステップＳ１を行うことで対話を継続する。

　〔システム発話の決定と提示の処理手続き〕
　システム発話の決定と提示の処理手続き（ステップＳ２）の詳細は、以下のステップＳ２１からステップＳ２５の通りである。

　［ユーザ発話の理解結果の取得（ステップＳ２１）］
　ユーザ発話理解部３１０は、発話決定部３０に入力されたユーザの発話内容を表すテキストから、ユーザ発話の発話意図の理解結果とユーザに関する属性の情報とを得て、システム発話生成部３２０に対して出力する。ユーザ発話理解部３１０は、取得したユーザに関する属性の情報については、ユーザ情報記憶部３３０への格納も行う。

　例えば、入力されたユーザの発話内容を表すテキストが発話t(2)であれば、ユーザ発話理解部３１０は、ユーザ発話の発話意図の理解結果として「発話意図＝名前を発話した」旨を得て、ユーザに関する属性の情報として「ユーザの名前」である「杉山」を得る。入力されたユーザの発話内容を表すテキストが発話t(4)であれば、ユーザ発話理解部３１０は、ユーザ発話の発話意図の理解結果として「発話意図＝居住県を発話した」旨を得て、ユーザに関する属性の情報として「ユーザの居住県」である「埼玉県」を得る。入力されたユーザの発話内容を表すテキストが発話t(6)であれば、ユーザ発話理解部３１０は、ユーザ発話の発話意図の理解結果として「発話意図＝名所への訪問経験ありと発話した」旨を得て、ユーザに関する属性の情報として「ユーザの居住県の名所への訪問経験＝あり」を得る。入力されたユーザの発話内容を表すテキストが発話t(8)であれば、ユーザ発話理解部３１０は、ユーザ発話の発話意図の理解結果として「発話意図＝名物の経験ありと発話した」旨と「発話意図＝名物の経験が肯定評価であると発話した」旨を得て、ユーザに関する属性の情報として「ユーザの居住県の名所の名物の経験＝あり」を得る。

　なお、初回のステップＳ２においては、ステップＳ２１は行わない。

　［発話テンプレートの取得（ステップＳ２２）］
　システム発話生成部３２０は、シナリオ記憶部３５０に記憶されたシナリオにおける現在の状態における直前のユーザ発話の発話意図の各候補に対応する発話テンプレートのうちの、ユーザ発話理解部３１０から入力されたユーザの発話意図に対応する発話テンプレートを取得する。すなわち、システム発話生成部３２０は、最も新しく入力されたユーザ発話におけるユーザの発話意図と矛盾しない発話意図の発話テンプレートを取得する。システム発話生成部３２０は、ユーザ発話理解部３１０から入力されたユーザの発話意図と矛盾しない発話意図の発話テンプレートが複数個ある場合には、システム情報記憶部３４０に記憶された対話システムに設定された人格（エージェント）に関する属性の情報とも矛盾せず、ユーザ情報記憶部３３０に記憶されたユーザに関する属性の情報とも矛盾しない、１つの発話テンプレートを特定して取得する。

　なお、現在の状態における直前のユーザ発話の発話意図の各候補に対応する発話テンプレートのうちに、入力されたユーザの発話意図に対応する発話テンプレートが１つだけであるケースは、シナリオ記憶部３５０に記憶するシナリオの各状態を予め作成する段階で、エージェントに関する属性の情報ともユーザに関する属性の情報とも矛盾しないような発話テンプレートが作成されているケースに該当するので、エージェントに関する属性の情報やユーザに関する属性の情報と矛盾した発話テンプレートが選択されてしまうことはない。

　例えば、入力されたユーザの発話内容を表すテキストが発話t(2)であれば、システム発話生成部３２０は、「［ユーザの名前］さんとおっしゃるんですね、私は［エージェントの名前］っていいます。よろしくお願いします。［ユーザの名前］さんは何県にお住まいなんですか？」という発話テンプレートを取得する。なお、発話テンプレートのうちの［］（角括弧）で囲まれた部分は、ユーザ発話理解部３１０とユーザ情報記憶部３３０とシステム情報記憶部３４０と要素情報記憶部３６０のいずれかから情報を取得して含めることを指定する情報である。システム発話生成部３２０は、入力されたユーザの発話内容を表すテキストが発話t(2)であれば、ユーザ発話の発話意図の理解結果が「発話意図＝名前を発話した」であるので、「発話意図＝名前を発話した」に対応する上記の発話テンプレートを取得するが、ユーザ発話の発話意図の理解結果が、例えば「発話意図＝名前を発話しなかった」などの別のものである場合には、ユーザ発話の発話意図の理解結果に対応する発話テンプレートを取得すればよい。すなわち、対話シナリオ記憶部３５０のシナリオには、ユーザ発話が予め定めた種別の情報を含む場合と含まない場合と、のそれぞれの場合と、それぞれの場合に対応する発話テンプレートの候補と、を予め対応付けて記憶しておき、入力されたユーザ発話が予め定めた種別の情報を含むか含まないかの理解結果を得て、発話テンプレートの候補のうちの当該理解結果に対応する発話テンプレートを選択するようにするのがよい。

　また例えば、入力されたユーザの発話内容を表すテキストが発話t(4)であれば、システム発話生成部３２０は、「ふむふむ。［ユーザの居住県］ですか。［ユーザの居住県］いいですね。行ってみたいです。［［ユーザの居住県］の名所］とか有名ですよね？」という発話テンプレートを取得する。また例えば、入力されたユーザの発話内容を表すテキストが発話t(6)であれば、システム発話生成部３２０は、「いい［［ユーザの居住県］の名所の名物］があるのうらやましいなあ。。私は［［ユーザの居住県］の名所の名物に対する行動］とか好きなんですけど、［［ユーザの居住県］の名所］の［［ユーザの居住県］の名所の名物］ってどうですか？」という発話テンプレートを取得する。

　また例えば、入力されたユーザの発話内容を表すテキストが発話t(8)であれば、システム発話生成部３２０は、「［［ユーザの居住県］の名所の名物］いいですよねえ。ところで、私［エージェントの居住県］に住んでいるんですけど、［［ユーザの居住県］の名所の名物］といえば［[[ユーザの居住県］の名所の名物]が名物である［エージェントの居住県］の名所］とかもおすすめです。［ユーザの名前］さんは行かれたことはあります？」という発話テンプレートを取得する。なお、システム発話t(7)に対するユーザの発話意図の候補は、まず「発話意図＝名物の経験ありと発話した」と「発話意図＝名物の経験ありと発話しなかった」の２通りがあるが、さらに「発話意図＝名物の経験ありと発話した」には「発話意図＝名物の経験が肯定評価であると発話した」と「発話意図＝名物の経験が否定評価であると発話した」の２通りがある。そこで、対話シナリオ記憶部３５０のシナリオには、「発話意図＝名物の経験ありと発話した」には「発話意図＝名物の経験が肯定評価であると発話した」と「発話意図＝名物の経験が否定評価であると発話した」の２通りの発話意図それぞれに対応する発話テンプレートの候補を予め記憶しておき選択できるようにする必要がある。すなわち、対話シナリオ記憶部３５０のシナリオには、ユーザ発話が予め定めた種別の肯定評価を含む場合と否定評価を含む場合と、のそれぞれの場合と、それぞれの場合に対応する発話テンプレートの候補と、を予め対応付けて記憶しておき、入力されたユーザ発話が予め定めた種別の肯定評価を含むか否定評価を含むかの理解結果を得て、発話テンプレートの候補のうちの当該理解結果に対応する発話テンプレートを選択するようにするのがよい。

　なお、初回のステップＳ２におけるステップＳ２２では、システム発話生成部３２０は、シナリオ記憶部３５０に記憶されたシナリオにおける最初の状態の発話テンプレートを取得する。

　［システム発話の生成（ステップＳ２３）］
　システム発話生成部３２０は、ステップＳ２２で取得した発話テンプレートが、ユーザ発話理解部３１０から取得されなかったユーザに関する所定の種別の属性の情報を含めることを指定する情報を含む場合には、ユーザに関する当該種別の属性の情報をユーザ情報記憶部３３０から取得し、取得した発話テンプレートが対話システムに設定された人格（エージェント）に関する所定の種別の属性の情報を含めることを指定する情報を含む場合には、対話システムに設定された人格（エージェント）に関する当該種別の属性の情報をシステム情報記憶部３３０から取得し、取得した発話テンプレートが所定の種別の要素の情報を含めることを指定する情報を含む場合には、当該の要素の情報を要素情報記憶部３６０から取得し、取得した情報を発話テンプレート中の指定された位置に挿入してシステム発話の内容を表すテキストとして決定して出力する。

　例えば、入力されたユーザの発話内容を表すテキストが発話t(2)であれば、システム発話生成部３２０は、システム情報記憶部３４０から［エージェントの名前］である「リコ」を取得して、ユーザ発話理解部３１０から取得された［ユーザの名前］である「杉山」とともに上述した発話テンプレートに挿入して発話t(3)のテキストとして決定して出力する。入力されたユーザの発話内容を表すテキストが発話t(4)であれば、［ユーザの居住県］である「埼玉県」をユーザ情報記憶部３３０から取得し、［［ユーザの居住県］の名所］すなわち埼玉県の名所である「長瀞」を要素情報記憶部３６０から取得して、上述した発話テンプレートに挿入して発話t(5)のテキストとして決定して出力する。入力されたユーザの発話内容を表すテキストが発話t(6)であれば、［［ユーザの居住県］の名所］すなわち埼玉県の名所である「長瀞」と、［［ユーザの居住県］の名所の名物］すなわち埼玉県の名所である長瀞の名物である「桜」と、［［ユーザの居住県］の名所の名物に対する行動］すなわち桜に対する行動である「お花見」と、を要素情報記憶部３６０から取得して、上述した発話テンプレートに挿入して発話t(7)のテキストとして決定して出力する。入力されたユーザの発話内容を表すテキストが発話t(8)であれば、［ユーザの名前］である「杉山」をユーザ情報記憶部３３０から取得し、［エージェントの居住県］である「青森県」をシステム情報記憶部３４０から取得し、［［ユーザの居住県］の名所の名物］すなわち「桜」と、［[[ユーザの居住県］の名所の名物]が名物である［エージェントの居住県］の名所］すなわち桜が名物である「弘前城」と、を要素情報記憶部３６０から取得して、上述した発話テンプレートに挿入して発話t(9)のテキストとして決定して出力する。なお、発話t(5)の一部で「埼玉県」の「県」を省略しているように、取得した情報の意味が変わらない範囲内であれば、取得した情報の表現を変更したものを発話テンプレートに挿入してもよい。

　［システム発話の音声の合成（ステップＳ２４）］
　音声合成部４０は、発話決定部３０から入力されたシステム発話の内容を表すテキストを、システム発話の内容を表す音声信号に変換し、提示部５０に対して出力する。

　［システム発話の提示（ステップＳ２５）］
　提示部５０は、音声合成部４０から入力された発話内容を表す音声信号に対応する音声を提示する。

　以上、対話システム１００が行う対話方法の処理手続きを詳述したが、要するに、対話システム１００が行う対話方法は、人格が仮想的に設定された対話システムが実行する対話方法であって、最も新しく入力されたユーザ発話に含まれる情報と、対話システムの人格に設定された情報と、に少なくとも基づく発話を提示する対話方法である。対話システム１００が行う対話方法は、さらに過去に入力されたユーザ発話に含まれる情報にも基づき、最も新しく入力されたユーザ発話に含まれる情報と、過去に入力されたユーザ発話に含まれる情報と、対話システムの人格に設定された情報と、に矛盾しない発話を提示する対話方法であってもよい。より詳しくは、対話システム１００が行う対話方法は、最も新しく入力されたユーザ発話の発話意図の理解結果と、最も新しく入力されたユーザ発話に含まれる情報と、過去に入力されたユーザ発話に含まれる情報と、対話システムの人格に設定された情報と、に矛盾しない発話を生成して、生成した発話を提示する対話方法であってもよい。

　また、対話システム１００が行う発話の生成処理は、ユーザ発話が予め定めた種別の情報を含む場合と含まない場合、および、ユーザ発話が予め定めた種別の肯定情報を含む場合と否定情報を含む場合、のそれぞれの場合に、発話テンプレートの候補を対応付けて対話シナリオ記憶部３５０に予め記憶した対話シナリオに従って発話を生成する処理であって、最も新しく入力されたユーザ発話が、予め定めた種別の情報を含むか含まないか、および、予め定めた種別の肯定情報を含むか否定情報を含むか、の少なくともいずれかの理解結果を得て、発話テンプレートの候補のうちの、得た理解結果に対応する発話テンプレート、に基づく発話を生成する処理であるとよい。

　また、対話システム１００が行う対話方法は、あり得る選択肢が有限個である要素（以下、「対象要素」という）について質問する発話を提示し、当該提示した発話に対するユーザ発話を受け付けて、当該受け付けたユーザ発話に含まれる対象要素が選択肢のうちのいずれであるかと、対話システムの人格に設定された対象要素が選択肢のうちのいずれであるかと、の異同に基づく発話を提示することを含むものであってもよい。

　［第２実施形態］
　第１実施形態では、エージェントとして人型ロボットを用いて音声による対話を行う例を説明したが、本発明の対話システムの提示部は身体等を有する人型ロボットであっても、身体等を有さないロボットであってもよい。また、本発明の対話システムはこれらに限定されず、人型ロボットのように身体等の実体がなく、発声機構を備えないエージェントを用いて対話を行う形態であってもよい。そのような形態としては、例えば、コンピュータの画面上に表示されたエージェントを用いて対話を行う形態が挙げられる。より具体的には、「LINE」（登録商標）のような、テキストメッセージにより対話を行うチャットにおいて、ユーザのアカウントと対話装置のアカウントとが対話を行う形態に適用することも可能である。この形態を第２実施形態として説明する。第２実施形態では、エージェントを表示する画面を有するコンピュータは人の近傍にある必要があるが、当該コンピュータと対話装置とはインターネットなどのネットワークを介して接続されていてもよい。つまり、本発明の対話システムは、人とロボットなどの話者同士が実際に向かい合って話す対話だけではなく、話者同士がネットワークを介してコミュニケーションを行う会話にも適用可能である。

　第２実施形態の対話システム２００は、図５に示すように、例えば、一台の対話装置２からなる。第２実施形態の対話装置２は、例えば、入力部１０、音声認識部２０、発話決定部３０、および提示部５０を備える。対話装置２は、例えば、マイクロホン１１、スピーカ５１を備えていてもよい。

　第２実施形態の対話装置２は、例えば、スマートフォンやタブレットのようなモバイル端末、もしくはデスクトップ型やラップトップ型のパーソナルコンピュータなどの情報処理装置である。以下、対話装置２がスマートフォンであるものとして説明する。提示部５０はスマートフォンが備える液晶ディスプレイである。この液晶ディスプレイにはチャットアプリケーションのウィンドウが表示され、ウィンドウ内にはチャットの対話内容が時系列に表示される。このチャットには、対話装置２が制御する仮想的な人格に対応する仮想アカウントと、ユーザのアカウントとが参加しているものとする。すなわち、本実施形態は、エージェントが、対話装置であるスマートフォンの液晶ディスプレイに表示された仮想アカウントである場合の一例である。ユーザはソフトウェアキーボードを用いてチャットのウィンドウ内に設けられた入力エリアである入力部１０へ発話内容を入力し、自らのアカウントを通じてチャットへ投稿することができる。発話決定部３０はユーザのアカウントからの投稿に基づいて対話装置２からの発話内容を決定し、仮想アカウントを通じてチャットへ投稿する。なお、スマートフォンに搭載されたマイクロホン１１と音声認識機能を用い、ユーザが発声により入力部１０へ発話内容を入力する構成としてもよい。また、スマートフォンに搭載されたスピーカ５１と音声合成機能を用い、各対話システムから得た発話内容を、各仮想アカウントに対応する音声でスピーカ５１から出力する構成としてもよい。

　以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。

　［プログラム、記録媒体］
　上記実施形態で説明した各対話装置における各種の処理機能をコンピュータによって実現する場合、各対話装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図６に示すコンピュータの記憶部１０２０に読み込ませ、演算処理部１０１０、入力部１０３０、出力部１０４０などに動作させることにより、上記各対話装置における各種の処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、具体的には、磁気記録装置、光ディスク、等である。

　また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部１０５０に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部１０５０に格納されたプログラムを記憶部１０２０に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを記憶部１０２０に読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　人格が仮想的に設定された対話システムが実行する対話方法であって、
　最も新しく入力されたユーザ発話に含まれる情報と、
　前記対話システムの前記人格に設定された情報と、
　に少なくとも基づく発話を提示する発話提示ステップ
　を含む対話方法。
　請求項１に記載の対話方法であって、
　最も新しく入力されたユーザ発話に含まれる情報と、
　過去に入力されたユーザ発話に含まれる情報と、
　前記対話システムの前記人格に設定された情報と、
　に矛盾しない発話を提示する発話提示ステップ
　を含む対話方法。
　請求項２に記載の対話方法であって、
　最も新しく入力されたユーザ発話の発話意図の理解結果と、
　最も新しく入力されたユーザ発話に含まれる情報と、
　過去に入力されたユーザ発話に含まれる情報と、
　前記対話システムの前記人格に設定された情報と、
　に矛盾しない発話を生成する発話決定ステップをさらに含み、
　前記発話提示ステップは、前記発話決定ステップが生成した発話を提示する、
　対話方法。
　請求項１に記載の対話方法であって、
　ユーザ発話が予め定めた種別の情報を含む場合と含まない場合、および、ユーザ発話が予め定めた種別の肯定情報を含む場合と否定情報を含む場合、のそれぞれの場合に、発話のテンプレートを対応付けて予め記憶した対話シナリオに従って発話を生成する処理であって、
　最も新しく入力されたユーザ発話が、前記予め定めた種別の情報を含むか含まないか、および、前記予め定めた種別の肯定情報を含むか否定情報を含むか、の少なくともいずれかの理解結果を得て、前記発話のテンプレートのうちの前記理解結果に対応する発話のテンプレートに基づく発話を生成する発話決定ステップをさらに含み、
　前記発話提示ステップは、前記発話決定ステップが生成した発話を提示する、
　対話方法。
　請求項１から４のいずれかに記載の対話方法であって、
　あり得る選択肢が有限個である要素（以下、「対象要素」という）について質問する発話を提示する質問提示ステップと、
　前記質問提示ステップで提示した発話に対するユーザ発話を受け付ける回答受付ステップと、
　をさらに含み、
　前記発話提示ステップは、
　前記回答受付ステップで受け付けた前記ユーザ発話に含まれる前記対象要素が前記選択肢のうちのいずれであるかと、前記対話システムの前記人格に設定された前記対象要素が前記選択肢のうちのいずれであるかと、の異同に基づく発話を提示する、
　対話方法。
　請求項３または４に記載の対話方法であって、
　対話シナリオにおける各状態について予め記憶しておく発話のテンプレートのうち、少なくともいずれかの発話のテンプレートは、要素の種別を用いて記述されたものであり、
　前記各種別の要素の情報は、前記テンプレートとは別に予め記憶しておき、
　前記発話決定ステップは、
　前記対話シナリオから選択した現在の状態に対応する前記テンプレート中の前記要素の種別に、前記テンプレートとは別に予め記憶された前記要素の情報を挿入することで、発話を生成する、
　対話方法。
　人格が仮想的に設定された対話システムであって、
　ユーザ発話を受け付ける入力部と、
　最も新しく入力されたユーザ発話に含まれる情報と、
　前記対話システムの前記人格に設定された情報と、
　に少なくとも基づく発話を提示する提示部と、
　を含む対話システム。
　ユーザ発話を受け付ける入力部と、発話を提示する提示部を少なくとも含む対話システムが提示する発話を決定する対話装置であって、
　最も新しく入力されたユーザ発話に含まれる情報と、
　前記対話システムの前記人格に設定された情報と、
　に少なくとも基づく発話を決定する発話決定部
　を含む対話装置。
　請求項１から６のいずれかに記載の対話方法の各ステップをコンピュータに実行させるためのプログラム。
　請求項８に記載の対話装置としてコンピュータを機能させるためのプログラム。