WO2022004392A1

WO2022004392A1 - 対話装置、対話方法及び対話プログラム

Info

Publication number: WO2022004392A1
Application number: PCT/JP2021/022900
Authority: WO
Inventors: 文規本間
Original assignee: ソニーグループ株式会社
Priority date: 2020-06-30
Filing date: 2021-06-16
Publication date: 2022-01-06

Abstract

本開示に係る対話装置は、ユーザ又は他の装置との対話を行う対話装置において、前記対話装置を制御する制御手段と、入力情報に対する第１応答文を生成する応答文生成モデルと、前記応答文生成モデルにより生成された複数の第１応答文から構成される応答文候補リストと、前記応答文候補リストから出力する第２応答文を選択する応答文選択部とを備え、前記制御手段は、前記選択部によりされた第２応答文をユーザ又は他の装置に対する対話の応答として出力する。

Description

対話装置、対話方法及び対話プログラム

　本開示は、対話装置、対話方法及び対話プログラムに関する。

　従来、ユーザとの対話を行う対話システムが知られている。例えば、ユーザの発話等の入力に応じて、その入力に対応する応答を生成する技術が提供されている（例えば特許文献１等）。

特表２０１９－５３４４７２号公報特開２０１９－１９２０７３号公報

　従来技術によれば、Ｓｅｑ２Ｓｅｑ（Sequence　to　Sequence　Model）等の応答生成モデルを用いてユーザの発話等の入力に対して、応答を生成する。

　しかしながら、従来技術では、対話システムの管理者等が意図しない応答をユーザへ行ってしまう可能性がある。例えば、従来技術では、応答生成モデルを用いることでユーザへの柔軟な応答が行える一方で、どのような応答を応答生成モデルが出力するかを管理することが難しい。そのため、ユーザへの応答の柔軟性の低下を抑制し、ユーザへの応答を管理容易にすることが望まれている。

　そこで、本開示では、ユーザへの応答の柔軟性の低下を抑制し、ユーザへの応答を管理容易にすることができる対話装置、対話方法及び対話プログラムを提案する。

　上記の課題を解決するために、本開示に係る一形態の対話装置は、ユーザ又は他の装置との対話を行う対話装置において、前記対話装置を制御する制御手段と、入力情報に対する第１応答文を生成する応答文生成モデルと、前記応答文生成モデルにより生成された複数の第１応答文から構成される応答文候補リストと、前記応答文候補リストから出力する第２応答文を選択する応答文選択部とを備え、前記制御手段は、前記応答文選択部により選択された第２応答文をユーザ又は他の装置に対する対話の応答として出力する。

本開示の第１の実施形態に係る対話処理の一例を示す図である。第１の実施形態に係る対話システムの構成例を示す図である。第１の実施形態に係る対話装置の構成例を示す図である。第１の実施形態に係る応答レポジトリ記憶部の一例を示す図である。第１の実施形態に係るモデル情報記憶部の一例を示す図である。第１の実施形態に係る語彙辞書記憶部の一例を示す図である。第１の実施形態に係る対話処理の手順を示すフローチャートである。第１の実施形態に係る対話システムの処理手順を示すシーケンス図である。応答文生成モデルの生成処理の一例を示す図である。応答文生成モデルの構成及び処理の一例を示す概念図である。応答文生成モデルの生成処理の一例を示すフローチャートである。応答文生成モデルを用いた応答の生成の一例を示す図である。ユーザへの応答時の処理の一例を示すフローチャートである。応答文生成モデルの学習及び推論のデータの一例を示す図である。文章ベクトルの生成の一例を示す図である。応答選択のデータの一例を示す図である。ユーザへの応答処理のデータの一例を示す図である。本開示の第２の実施形態に係る対話処理の一例を示す図である。第２の実施形態に係る対話装置の構成例を示す図である。第２の実施形態に係る応答レポジトリ記憶部の一例を示す図である。第２の実施形態に係るモデル情報記憶部の一例を示す図である。第２の実施形態に係る語彙辞書記憶部の一例を示す図である。第２の実施形態に係る汎化タグ記憶部の一例を示す図である。情報機器の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、この実施形態により本願にかかる対話装置、対話方法及び対話プログラムが限定されるものではない。また、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　以下に示す項目順序に従って本開示を説明する。
　　１．第１の実施形態
　　　１－１．第１の実施形態に係る対話処理の概要
　　　　１－１－１．背景及び効果等
　　　　１－１－２．キャラクタ
　　　　１－１－３．倫理、差別的表現
　　　　１－１－４．適用例
　　　１－２．第１の実施形態に係る対話システムの構成
　　　１－３．第１の実施形態に係る対話装置の構成
　　　１－４．第１の実施形態に係る対話処理の手順
　　　１－５．応答文生成モデルの生成例
　　　１－６．ユーザへの応答時の処理例
　　　１－７．データ及び処理の具体例
　　２．第２の実施形態
　　　２－１．第２の実施形態に係る対話処理の概要
　　　２－２．第２の実施形態に係る対話装置の構成
　　３．その他の実施形態
　　　３－１．対話レポジトリの例
　　　３－２．その他の構成例
　　　３－３．その他
　　４．本開示に係る効果
　　５．ハードウェア構成

［１．第１の実施形態］
［１－１．第１の実施形態に係る対話処理の概要］
　図１は、本開示の第１の実施形態に係る対話処理の一例を示す図である。第１の実施形態に係る対話処理は、図２に示す対話装置１００やユーザ端末１０を含む対話システム１によって実現される。なお、対話システム１の詳細は図２で詳述する。

　まず、ユーザＵ１の発話による入力情報ＩＮ１に対する応答を示すステップＳ１～Ｓ６の説明に先立って、その応答に用いる情報の生成について説明する。

　対話装置１００は、応答文を生成する生成モデルである応答文生成モデルＭ１を、対話コーパスＣＰ１を用いて生成する（ステップＰＳ１１）。対話装置１００は、発話文ＳＰ１と応答文Ｔ１とのペアや発話文ＳＰ２と応答文Ｔ２とのペア等の複数のペアを用いて応答文生成モデルＭ１を生成する。例えば、応答文生成モデルＭ１は、Ｓｅｑ２Ｓｅｑ等のエンコーダデコーダモデルであるが詳細は後述する。なお、応答文生成モデルＭ１は、応答を生成可能であれば、Ｓｅｑ２Ｓｅｑに限らず、どのようなモデルであってもよい。

　例えば、対話装置１００は、発話文ＳＰ１を入力とした場合に、応答文Ｔ１が生成されるように応答文生成モデルＭ１のパラメータを調整し、応答文生成モデルＭ１を生成する。対話装置１００は、バックプロパゲーション（誤差逆伝播法）等の手法により応答文生成モデルＭ１を生成する。なお、応答文生成モデルＭ１の生成の詳細は後述する。また、対話装置１００以外の装置（例えばモデル生成装置）が応答文生成モデルＭ１を生成し、対話装置１００はその装置から応答文生成モデルＭ１を取得してもよい。

　対話装置１００は、応答文Ｒ１、応答文Ｒ２、応答文Ｒ３等の複数の応答文を含む応答文候補リストである応答レポジトリＲＰ１を取得する（ステップＰＳ２１）。対話装置１００は、応答レポジトリ記憶部１２１（図３参照）から応答レポジトリＲＰ１を取得する。例えば、応答レポジトリＲＰ１は、応答文生成モデルＭ１により生成された複数の第１応答文から構成される応答文候補リストである。応答レポジトリＲＰ１は、応答文生成モデルＭ１により生成された複数の第１応答文から、管理者等が不要な応答文を除外した抽出した応答文候補リストであってもよい。

　対話装置１００は、応答レポジトリＲＰ１中の各応答文をベクトルに変換する（ステップＰＳ２２、ＰＳ２３）。対話装置１００は、文をベクトルに変換するモデルであるベクトル変換モデルＭ２を用いて、応答文Ｒ１、応答文Ｒ２、応答文Ｒ３等をベクトルに変換する。対話装置１００は、応答文Ｒ１、応答文Ｒ２、応答文Ｒ３等の各々をベクトル変換モデルＭ２に入力し、ベクトル変換モデルＭ２に応答文Ｒ１、応答文Ｒ２、応答文Ｒ３等の各々に対応するベクトルを出力させる。対話装置１００は、外部装置からベクトル変換モデルＭ２を取得してもよいし、ベクトル変換モデルＭ２を生成してもよい。

　対話装置１００は、応答文Ｒ１をベクトル変換モデルＭ２に入力することにより、応答文Ｒ１に対応するベクトルである候補ベクトルＣＶ１を生成する。また、対話装置１００は、応答文Ｒ２をベクトル変換モデルＭ２に入力することにより、応答文Ｒ２に対応する候補ベクトルＣＶ２を生成し、応答文Ｒ３をベクトル変換モデルＭ２に入力することにより、応答文Ｒ３に対応する候補ベクトルＣＶ３を生成する。なお、ステップＰＳ２２、ＰＳ２３は、ステップＳ６よりも前であれば、いずれのタイミングで行われてもよい。

　ここから、ユーザＵ１の発話による入力情報ＩＮ１に対する応答の処理について説明する。

　まず、図１の例では、ユーザ端末１０を利用するユーザＵ１が「ＸＸＸＸＸ」と発話する。なお、「ＸＸＸＸＸ」は、「どうしよう」や「降りそうですね」等の具体的な内容を含む発話であるものとする。ユーザ端末１０は、ユーザＵ１の「ＸＸＸＸＸ」という発話を検知し、自動音声認識の機能により文字情報「ＸＸＸＸＸ」を入力情報ＩＮ１として受け付ける。そして、ユーザ端末１０は、入力情報ＩＮ１を対話装置１００へ送信する。これにより、対話装置１００は、ユーザ端末１０から入力情報ＩＮ１を取得する（ステップＳ１）。

　対話装置１００は、入力情報ＩＮ１を応答文生成モデルＭ１に入力し、ユーザＵ１の入力に対応する応答文である第１応答文ＦＲ１を生成する（ステップＳ２）。

　対話装置１００は、第１応答文ＦＲ１をベクトルに変換する（ステップＳ３、Ｓ４）。対話装置１００は、第１応答文ＦＲ１をベクトル変換モデルＭ２に入力することにより、第１応答文ＦＲ１に対応するベクトルである対象ベクトルＴＶ１を生成する。

　対話装置１００は、第１応答文ＦＲ１の対象ベクトルＴＶ１と、応答レポジトリＲＰ１の候補ベクトルＣＶ１、ＣＶ２、ＣＶ３等の各々とを比較する（ステップＳ５）。例えば、対話装置１００は、対象ベクトルＴＶ１と、候補ベクトルＣＶ１、ＣＶ２、ＣＶ３等の各々とコサイン類似度を算出する。

　対話装置１００は、第１応答文ＦＲ１の対象ベクトルＴＶ１に最も近い（類似する）候補ベクトルの応答文を、ユーザへの応答に用いる第２応答文ＳＲ１として選択する（ステップＳ６）。対話装置１００は、第１応答文ＦＲ１の対象ベクトルＴＶ１に最も類似する候補ベクトルＣＶ２の応答文Ｒ２を、ユーザへの応答に用いる第２応答文ＳＲ１として選択する。例えば、対話装置１００は、対象ベクトルＴＶ１とのコサイン類似度が最大の候補ベクトルＣＶ２の応答文Ｒ２を、第２応答文ＳＲ１として選択する。なお、コサイン類似度は一例に過ぎず、コサイン類似度に限らず応答文（のベクトル）間の近さを測るために種々の情報が用いられてもよい。また、対話装置１００は、ベクトルの類似度に限らず、所定の基準に基づいて、第２応答文を選択してもよい。例えば、所定の基準は、倫理に関連する基準、差別に関する基準、対話装置に関するキャラクタ設定基準、又は、確率に関する基準であってもよいが、この点は後述する。

　そして、対話装置１００は、選択した第２応答文ＳＲ１をユーザ端末１０へ送信し、ユーザ端末１０は、第２応答文ＳＲ１をユーザＵ１に対して出力する。

　上述したように、対話装置１００は、応答文生成モデルＭ１が生成した第１応答文ＦＲ１をそのままユーザＵ１への応答に用いるのではなく、第１応答文ＦＲ１を応答レポジトリＲＰ１の検索に用いる。これにより、対話装置１００は、ユーザＵ１への応答の内容を応答レポジトリＲＰ１に含まれる応答文に制限することができるため、応答文生成モデルＭ１による柔軟な応答生成を行いつつ、不適切な応答を行うことを抑制することができる。

［１－１－１．背景及び効果等］
　対話による応答生成手法には大きく生成ベースと検索ベースの２種類がある。生成ベースはＳｅｑ２Ｓｅｑなどのエンコーダデコーダモデルを用いて、ユーザの発話文を入力として応答文を生成する手法である。一方、検索ベースは、予め用意してあった対話リポジトリの中から、ユーザの発話文に最も近い発話文を特定のルールに基づいて選択し、その発話文の対にある応答文をユーザへの応答としても用いる手法である。

　生成ベースの長所は、どんなユーザの発話文に対しても，それらしい応答を行うことができる。大量の日本語の対話ペアから日本語の応答の特徴を学習したモデルを用いることで、例えば未知語（例えばカルカ等）が発話文に含まれる場合であっても、それらしい応答を行うことができる。生成ベースでは、対話ペアを作成するクリエイターの労力を大幅に減らすことができる。

　一方で、生成ベースの短所としては、応答に一貫性がないことである。例えば、もとの教師データのスタイルの影響を受けるため、教師データがＴｗｉｔｔｅｒ（登録商標）の場合、Ｔｗｉｔｔｅｒでやりとりされる書き言葉のネットスラングの混じった口調になる傾向がある。また、応答を行うたびに生成されるので、生成ベースを用いるサービス提供者等がその内容をすべて把握することは不可能であり、ユーザの発話文や教師データによっては、予期せぬ不適切な応答が生成され得る。そのため、生成ベース手法は、商用利用が困難であるという課題がある。

　また、検索ベースの長所は、検索ベースを用いるサービス提供者等が応答を管理可能である点がある。それは、対話リポジトリにある対話ペアは事前にサービス提供者側で内容確認できるためである。

　一方で、検索ベースの短所としては、すべての対話ペアをサービス提供者が作る必要がある点がある。自然言語とは非常に多様な内容・表現が可能なため、それらすべてをカバーする対話ペアを用意することは事実上不可能で、対話ペアの数が十分ではない場合、ユーザに単調さを感じさせてしまうといった課題がある。また、応答文に加えて発話文も用意しなければならないため、対話ペアの作り手の負荷が大きい。

　一方で、対話装置１００は、応答文のみを含む応答文候補リストを応答レポジトリとして用いることで、応答レポジトリを生成する負荷の増大を抑制することができる。これにより、対話装置１００は、多様な表現を含む応答レポジトリを用いることができる。

　また、対話装置１００は、応答文生成モデルＭ１により第１応答文を生成し、生成した第１応答文を用いて、応答レポジトリ中の複数の応答文のうち、第１応答文に近い応答文を第２応答文として選択する。これにより、対話装置１００は、ユーザへの応答を応答レポジトリに含まれる応答文に制限することで、生成ベースにおける課題を解消することができる。したがって、対話装置１００は、生成ベース及び検索ベースの長所を活かした応答を行うことができる。

　上述のように、対話装置１００は、生成ベースによる応答の自由度の高さと、検索ベースによる応答文の管理を両立させることが可能になる。一般的に、生成ベースの言語モデル（応答文生成モデル）では一般的に確率の高い語彙を選択するため、どんな発話にも成り立つ無難で退屈な応答（たとえば「そうだね」といった応答）が生成されやすいという課題がある。これに対し、応答時の言語モデルにて、語彙候補上位ｋ個の中からランダムに選択することで多様性を確保したり、言語モデルの一定履歴区間内で選択された語彙の確率の和の上限ｐを制限したりすることで、確率の高い語彙と低い語彙が混在した、より人間に近い自然な多様性を伴う応答生成も可能になる。これらｋやｐといったパラメータを調整することで、同じユーザの発話に対して毎回違う応答を返す言語モデルも可能になる。例えば、対話装置１００は、上述したパラメータの調整によりユーザの同じ発話に対して毎回違う応答を返すように応答文生成モデルＭ１を生成する。この場合、対話装置１００は、ユーザの同じ発話に対して毎回違う応答を返すように生成された応答文生成モデルＭ１を用いて、第１応答文を生成する。これにより、対話装置１００は、ユーザの発話に対して多様な第１応答文を生成することができる。

　ここで、一般的に多様性をあげるということは、より予期せぬ応答文が生成されることを意味するので、管理容易性を下げることにつながってしまう。しかしながら、対話装置１００は、生成ベースの応答を、その後管理された応答文候補リスト（応答用リスト）内の応答に変換するため、多様性向上によってユーザの発話に対する応答の妙は向上させつつ、管理容易性の低下を抑制することができる。対話装置１００は、第１応答文を用いて、応答文候補リスト中の第２応答文を選択することで、ユーザの発話に対して応答の妙を維持しつつ、管理容易性の低下を抑制することができる。

　また、検索ベースと比較して、対話（発話文と応答文のペア）ではなく応答文のみを生成すればよいため、ユーザがどんな発話をしてくるかに応答文候補リストの作り手が頭を悩ませることなく、そのキャラクタが返しそうな応答文だけを用意すればよいという効果もある。したがって、自然言語対話に不慣れなキャラクタ製作者にとって効率性・網羅性の観点でもメリットがある。なお、第１応答文の生成に用いられる応答文生成モデルＭ１等を大規模な学習データを用いて学習することで、特定のドメインへの依存を抑制することができるので、応答文候補リストのみ用意して切り替えれば、いろいろなキャラクタ雑談に展開したり、金融サービスのチャットボットにおける雑談に展開したりすることも可能になる。

［１－１－２．キャラクタ］
　上記のように、用途に応じて応答文候補リストに含ませる応答文の内容を制限することで所望の応答を行うことができる。すなわち、対話装置１００は、メイン固有の応答文候補リストを用いることで、所望の応答を行うことができる。この点について説明する。例えば、応答文候補リストに含まれる全応答文が特定のキャラクタの設定に適合する場合、その応答文候補リストを用いてユーザに対話サービスを提供することで、その特定のキャラクタに適合する応答を行うことができる。例えば、応答文の語尾等が特定のキャラクタの発話に対応するように生成された応答文候補リストを用いてユーザに対話サービスを提供することで、その特定のキャラクタに適合する応答を行うことができる。

　図１では、応答レポジトリＲＰ１中の応答文Ｒ１、応答文Ｒ２、応答文Ｒ３等が特定のキャラクタの設定に適合する内容である場合、対話装置１００は、ユーザＵ１への応答を、その特定のキャラクタの設定に適合する内容に制限することができる。なお、対話装置１００は、応答文生成モデルＭ１により生成された複数の第１応答文から構成される応答文候補リストである応答レポジトリＲＰ１を用いてもよいし、他の方法により応答レポジトリＲＰ１を取得してもよい。例えば、対話装置１００は、対話装置１００の管理者等の入力により、応答レポジトリＲＰ１を取得してもよいし、応答レポジトリを生成する装置（例えば応答レポジトリ生成装置）から応答レポジトリＲＰ１を取得してもよい。

　例えば、ユーザへの応答を行う特定のキャラクタは猫が嫌いな設定である場合、対話装置１００は、猫が好きであることを示すような応答文が含まれない応答文候補リストを用いる。これにより、対話装置１００は、応答文生成モデルＭ１により猫が好きである内容の第１応答文が生成された場合であっても、応答文候補リストには猫が好きであることを示すような応答文が含まれないため、第２応答文として猫が好きであることを示すような応答文が選択されることを防止することができる。これにより、対話装置１００は、キャラクタの一貫性を破壊するような応答を防止することができる。

［１－１－３．倫理、差別的表現］
　また、応答文候補リストに含まれる全応答文が倫理に関する基準を満たす場合、その応答文候補リストを用いてユーザに対話サービスを提供することで、ユーザへの応答が倫理の基準を外れた内容になることを防止することができる。すなわち、倫理に関する基準を満たさない応答文が含まない応答文候補リストを用いることで、対話装置１００は、ユーザへの応答が倫理の基準を外れた応答になることを防止することができる。

　また、応答文候補リストに含まれる全応答文が差別的表現に該当しない場合、その応答文候補リストを用いてユーザに対話サービスを提供することで、ユーザへの応答が差別的内容になることを防止することができる。すなわち、差別的表現に該当する応答文が含まない応答文候補リストを用いることで、対話装置１００は、ユーザへの応答が差別的表現を含む応答になることを防止することができる。

　例えば、対話装置１００は、特定の人種を差別するような応答文が含まれない応答文候補リストを用いる。これにより、対話装置１００は、応答文生成モデルＭ１により特定の人種を差別する内容の第１応答文が生成された場合であっても、応答文候補リストには特定の人種を差別する応答文が含まれないため、第２応答文として特定の人種を差別する応答文が選択されることを防止することができる。これにより、対話装置１００は、倫理に反したり、差別的表現を含んだりするような応答を防止することができる。

［１－１－４．適用例］
　対話装置１００による処理は、ユーザへの応答を行う様々なサービスに適用することができる。対話型ＡＩ（Artificial　Intelligence）サービス、銀行や保険等の様々な業種のチャットボットサービス等に適用されてもよい。すなわち、対話装置１００による処理は、ユーザの発言等の行動に対して何らかの応答を行うサービスであれば、どのようなサービスにも適用することができる。例えば、対話装置１００による処理は、ペットロボット等のエンタテインメントロボット、インタラクティブテーブルトップ、エージェント技術開発システム、ウェアラブル会話型エージェント、ＡＲ（Augmented　Reality）グラス等のＡＲシステム、ＶＲ（Virtual　Reality）グラス等のＶＲシステム等に適用されてもよい。上述のように、対話装置１００の適用例として、エンタメサービス向けキャラクタ雑談、金融サービス向けチャットボット、ロボット、ウェアラブルデバイス、テーブルトップ、ＡＲグラス等で用いられる対話型エージェント等多岐にわたる。

［１－２．第１の実施形態に係る対話システムの構成］
　図２に示す対話システム１について説明する。図２に示すように、対話システム１は、ユーザ端末１０と、対話装置１００とが含まれる。ユーザ端末１０と、対話装置１００とは所定の通信網（ネットワークＮ）を介して、有線または無線により通信可能に接続される。図２は、第１の実施形態に係る対話システムの構成例を示す図である。なお、図２に示した対話システム１には、複数台のユーザ端末１０や、複数台の対話装置１００が含まれてもよい。対話システム１は、ユーザの発話に対する応答を行う対話システムを実現する。

　ユーザ端末１０は、ユーザによって利用される情報処理装置である。ユーザ端末１０は、音声や文字による対話に関するサービスの提供に用いられる。ユーザ端末１０は、第１の実施形態における処理を実現可能であれば、どのような装置であってもよい。ユーザ端末１０は、対話に関するサービスを提供し、情報を表示するディスプレイを有する構成であれば、どのような装置であってもよい。また、ユーザ端末１０は、例えば、スマートフォンや、タブレット型端末や、ノート型ＰＣ（Personal　Computer）や、デスクトップＰＣや、携帯電話機や、ＰＤＡ（Personal　Digital　Assistant）等の装置であってもよい。

　なお、ユーザ端末１０は、音を検知する音センサ（マイク）を有してもよい。この場合、ユーザ端末１０は、音センサにより、ユーザの発話を検知する。ユーザ端末１０は、ユーザの発話に限らず、ユーザ端末１０の周囲の環境音等を収集する。また、ユーザ端末１０は、音センサに限らず、種々のセンサを有する。例えば、ユーザ端末１０は、画像、加速度、温度、湿度、位置、圧力、光、ジャイロ、距離等、種々の情報を検知するセンサを有してもよい。このように、ユーザ端末１０は、音センサに限らず、画像を検知する画像センサ（カメラ）、加速度センサ、温度センサ、湿度センサ、ＧＰＳセンサ等の位置センサ、圧力センサ、光センサ、ジャイロセンサ、測距センサ等の種々のセンサを有してもよい。また、ユーザ端末１０は、上記のセンサに限らず、照度センサ、近接センサ、ニオイや汗や心拍や脈拍や脳波等の生体情報を検知するためのセンサ等の種々のセンサを有してもよい。そして、ユーザ端末１０は、各種センサにより検知された種々のセンサ情報を対話装置１００に送信してもよい。ユーザ端末１０は、音声信号処理や音声認識や発話意味解析や対話制御や行動出力等のソフトウェアモジュールを有してもよい。

　ユーザ端末１０は、各種情報を出力する。ユーザ端末１０は、音声を出力するスピーカーを有する。ユーザ端末１０は、対話装置１００や音声認識サーバ等の他の情報処理装置へ各種情報を送信する。ユーザ端末１０は、対話装置１００にユーザにより入力された情報を送信する。

　対話装置１００は、ユーザに対話システムに関するサービスを提供するために用いられる情報処理装置（コンピュータ）である。対話装置１００は、ユーザの入力に対応する応答文を生成し、生成した応答文を用いて、応答文候補リスト中の複数の応答候補文から、ユーザに対して出力する応答文を選択する。また、対話装置１００は、音声信号処理や音声認識や発話意味解析や対話制御等のソフトウェアモジュールを有してもよい。対話装置１００は、音声認識の機能を有してもよい。また、対話装置１００は、音声認識サービスを提供する音声認識サーバから情報を取得可能であってもよい。この場合、対話システム１は、音声認識サーバが含まれてもよい。例えば、対話装置１００や音声認識サーバが、種々の従来技術を適宜用いてユーザの発話を認識したり、発話したユーザを特定したりする。

［１－３．第１の実施形態に係る対話装置の構成］
　次に、第１の実施形態に係る対話処理（情報処理）を実行する対話装置の一例である対話装置１００の構成について説明する。図３は、第１の実施形態に係る対話装置１００の構成例を示す図である。

　図３に示すように、対話装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、対話装置１００は、対話装置１００の管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

　通信部１１０は、例えば、ＮＩＣ（Network　Interface　Card）等によって実現される。そして、通信部１１０は、ネットワークＮ（図２参照）と有線または無線で接続され、ユーザ端末１０や音声認識サーバ等の他の情報処理装置との間で情報の送受信を行う。また、通信部１１０は、ユーザが利用するユーザ端末（図示省略）との間で情報の送受信を行ってもよい。

　記憶部１２０は、例えば、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。第１の実施形態に係る記憶部１２０は、図３に示すように、応答レポジトリ記憶部１２１と、モデル情報記憶部１２２と、語彙辞書記憶部１２３とを有する。

　第１の実施形態に係る応答レポジトリ記憶部１２１は、応答レポジトリに関する各種情報を記憶する。応答レポジトリ記憶部１２１は、ユーザへの応答に用いる応答文のリスト（応答文候補リスト）を記憶する。図４は、第１の実施形態に係る応答レポジトリ記憶部の一例を示す図である。図４に示す応答レポジトリ記憶部１２１には、「応答文」といった項目が含まれる。

　「応答文」は、ユーザへの応答に用いられる応答文を示す。図４の例では、応答文として、応答文Ｒ１、応答文Ｒ２、応答文Ｒ３等の複数の応答文が記憶される。なお、応答文Ｒ１、応答文Ｒ２、応答文Ｒ３等のように抽象的に示すが、応答文Ｒ１、応答文Ｒ２、応答文Ｒ３等は、具体的な応答文となる文字列である。例えば、応答文Ｒ１は、括弧書きで示すように「大丈夫だっちゃ」といった特定のキャラクタに適合する応答文である。

　なお、応答レポジトリ記憶部１２１は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、応答レポジトリ記憶部１２１は、応答文を識別するＩＤを各応答文に対応付けて記憶してもよい。応答レポジトリ記憶部１２１は、応答文生成モデルＭ１により生成された複数の第１応答文から構成される応答文候補リストを記憶してもよい。

　第１の実施形態に係るモデル情報記憶部１２２は、モデルに関する情報を記憶する。例えば、モデル情報記憶部１２２は、ユーザへの応答の決定に用いるモデルを記憶する。図５は、第１の実施形態に係るモデル情報記憶部の一例を示す図である。図５に、第１の実施形態に係るモデル情報記憶部１２２の一例を示す。図５に示した例では、モデル情報記憶部１２２は、「モデルＩＤ」、「用途」、「モデルデータ」といった項目が含まれる。

　「モデルＩＤ」は、モデルを識別するための識別情報を示す。「用途」は、対応するモデルの用途を示す。「モデルデータ」は、モデルのデータを示す。図５では「モデルデータ」に「ＭＤＴ１」といった概念的な情報が格納される例を示したが、実際には、モデルに含まれるネットワークに関する情報や関数等、そのモデルを構成する種々の情報が含まれる。

　図５に示す例では、モデルＩＤ「Ｍ１」により識別されるモデル（応答文生成モデルＭ１）は、用途が「応答文生成」であることを示す。また、応答文生成モデルＭ１のモデルデータは、モデルデータＭＤＴ１であることを示す。

　また、モデルＩＤ「Ｍ２」により識別されるモデル（ベクトル変換モデルＭ２）は、用途が「ベクトル変換モデル」であることを示す。また、ベクトル変換モデルＭ２のモデルデータは、モデルデータＭＤＴ２であることを示す。

　なお、モデル情報記憶部１２２は、上記に限らず、目的に応じて種々の情報を記憶してもよい。

　第１の実施形態に係る語彙辞書記憶部１２３は、語彙辞書を記憶する。図６は、第１の実施形態に係る語彙辞書記憶部の一例を示す図である。なお、図６では日本語の語彙辞書を一例として示すが、語彙辞書記憶部１２３は、日本語の語彙辞書に限らず、英語やフランス語や中国語等、対話システム１が用いられる言語に応じた語彙辞書が記憶される。図６に示す語彙辞書記憶部１２３には、「語彙」、「語彙ＩＤ」といった項目が含まれる。

　「語彙」は、語彙辞書に含まれる各語彙（文字列）を示す。「語彙ＩＤ」は、各語彙に対応する識別情報（ＩＤ）を示す。

　図６の例では、語彙「さん」の語彙ＩＤは「－９」であることを示す。また、語彙「ちゃ」の語彙ＩＤは「－１０」であることを示す。

　なお、語彙辞書記憶部１２３は、上記に限らず、目的に応じて種々の情報を記憶してもよい。

　図３に戻り、説明を続ける。制御部１３０は、例えば、ＣＰＵ（Central　Processing　Unit）やＧＰＵ（Graphics　Processing　Unit）等によって、対話装置１００内部に記憶されたプログラム（例えば、本開示に係る対話プログラム等）がＲＡＭ（Random　Access　Memory）等を作業領域として実行されることにより実現される。また、制御部１３０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現される。

　図３に示すように、制御部１３０は、入力部１３１と、学習部１３２と、対話制御部１３３と、応答文選択部１３４とを有し、以下に説明する対話処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図３に示した構成に限られず、後述する対話処理を行う構成であれば他の構成であってもよい。

　入力部１３１は、入力処理を行う。入力部１３１は、対話に関する入力を行う。入力部１３１は、ユーザによる入力情報の入力を受け付ける。入力部１３１は、ユーザの発話による入力を受け付ける。入力部１３１は、記憶部１２０から各種情報を取得する。入力部１３１は、外部の情報処理装置から各種情報を取得する。入力部１３１は、ユーザ端末１０から各種情報を取得する。入力部１３１は、音声認識サーバ等の他の情報処理装置から各種情報を取得する。入力部１３１は、ユーザ端末１０からユーザの発話を示す情報を取得する。例えば、入力部１３１は、Ｔｗｉｔｔｅｒなどソーシャルネットワークサービス（ＳＮＳ：Social　Networking　Service）での対話のデータを取得する。入力部１３１は、ソーシャルネットワークサービスでの対話のデータを、ソーシャルネットワークサービスを提供するサービス提供装置から取得してもよい。また、入力部１３１は、ソーシャルネットワークサービスでの対話のデータを、記憶部１２０から取得してもよい。この場合、記憶部１２０は、ソーシャルネットワークサービスでの対話のデータを記憶する。

　学習部１３２は、学習処理を行う。学習部１３２は、各種学習を行う。学習部１３２は、モデルを学習（生成）する。学習部１３２は、モデル等の各種情報を学習する。学習部１３２は、種々の機械学習に関する技術を用いて、ネットワークのパラメータを学習する。

　学習部１３２は、対話コーパスＣＰ１を用いて応答文生成モデルＭ１を生成する。例えば、学習部１３２は、発話文ＳＰ１が入力された場合に、応答文Ｔ１を出力するように応答文生成モデルＭ１を生成する。また、学習部１３２は、発話文ＳＰ２が入力された場合に、応答文Ｔ２を出力するように応答文生成モデルＭ１を生成する。例えば、学習部１３２は、Ｔｗｉｔｔｅｒなどソーシャルネットワークサービスでの対話のデータを教師データとして用いて、応答文生成モデルＭ１を生成する。この場合、学習部１３２は、ソーシャルネットワークサービスでの発話とその発話への応答の組合せを教師データとして用いて、応答文生成モデルＭ１を生成する。学習部１３２は、ソーシャルネットワークサービスでの発話の発話文が入力された場合に、その発話文への応答文を出力するように応答文生成モデルＭ１を生成する。なお、応答文生成モデルＭ１を外部装置から取得する場合、対話装置１００は、学習部１３２を有しなくてもよい。また、対話装置１００は、ベクトル変換モデルＭ２を学習部１３２により生成してもよいし、外部装置から取得してもよい。

　対話制御部１３３は、対話に関する各種制御を行う制御手段として機能する。対話制御部１３３は、ユーザや他の装置との対話を制御する。対話制御部１３３は、入力部１３１により取得された情報に基づいて、各種情報を生成する。対話制御部１３３は、応答文生成モデルＭ１を用いて応答文を生成する。

　対話制御部１３３は、ユーザにより入力された入力情報に対する第１応答文を、応答を生成する応答文生成モデルＭ１を用いて生成する。対話制御部１３３は、ユーザの発話により入力された入力情報に対する第１応答文を生成する。

　対話制御部１３３は、応答文選択部１３４により選択された第２応答文をユーザ又は他の装置に対する対話の応答として出力する。例えば、対話制御部１３３は、ユーザ端末１０へ第２応答文を送信することにより、第２応答文をユーザに対する対話の応答として出力する。対話制御部１３３は、外部の情報処理装置へ対話に関する各種情報を送信する。例えば、対話制御部１３３は、ユーザ端末１０や音声認識サーバ等の他の装置へ各種情報を送信する。

　応答文選択部１３４は、対話制御部１３３により生成された応答文を用いて各種情報を選択する。応答文選択部１３４は、対話制御部１３３により生成された第１応答文に基づいて、応答文候補リスト中の複数の応答文から、ユーザへの応答に用いる第２応答文を選択する。応答文選択部１３４は、複数の応答文のうち、第１応答文に類似する応答文を第２応答文として選択する。応答文選択部１３４は、文字列をベクトルに変換するベクトル変換モデルＭ２を用いて第１応答文が変換された対象ベクトルと、複数の応答文の各々がベクトル変換モデルＭ２を用いて変換された複数のベクトルとの比較に基づいて、第２応答文を選択する。

　応答文選択部１３４は、所定の基準に基づいて、第２応答文を選択する。応答文選択部１３４は、倫理に関連する基準、差別に関する基準、対話装置１００に関するキャラクタ設定基準、又は、確率に関する基準に基づいて、第２応答文を選択する。応答文選択部１３４は、倫理または差別の基準を満たさない第１応答文を応答文候補リストから除外して、第２応答文を選択する。例えば、応答文選択部１３４は、倫理または差別の基準を満たさない文字列を記憶部１２０に記憶し、その文字列が含まれる第１応答文を応答文候補リストから除外して、第２応答文を選択する。また、応答文選択部１３４は、対話装置１００による対話にキャラクタ設定がある場合、キャラクタの設定を満たさない第１応答文を応答文候補リストから除外して、第２応答文を選択する。例えば、応答文選択部１３４は、キャラクタ設定を満たさない文字列を記憶部１２０に記憶し、その文字列が含まれる第１応答文を応答文候補リストから除外して、第２応答文を選択する。また、応答文選択部１３４は、確率に関する基準を満たさない第１応答文を応答文候補リストから除外して、第２応答文を選択する。例えば、応答文選択部１３４は、応答文候補リストの各第１応答文が第２選択文として選択された回数または確率を計測して記憶部１２０に記憶し、第２選択文として選択された回数または確率が所定の閾値以上の第１応答文を応答文候補リストから除外して、第２応答文を選択する。応答文選択部１３４は、上述した処理により、倫理に関連する基準、差別に関する基準、対話装置１００に関するキャラクタ設定基準、又は、確率に関する基準を満たさない応答文が含まれない応答文候補リストから第２応答文を選択してもよい。なお、上記は一例であり、応答文選択部１３４は、他の基準に基づいて、第２応答文を選択してもよい。

　応答文選択部１３４は、第１応答文に基づいて、ユーザへ応答するキャラクタの設定に適合する応答を示す複数の応答文を含む応答文候補リストから第２応答文を選択する。応答文選択部１３４は、対話制御部１３３がキャラクタに適合しない第１応答文を生成した場合、その第１応答文に基づいて、キャラクタの設定に適合する第２応答文を選択する。

　応答文選択部１３４は、応答に関する基準を満たさない応答文を含まない応答文候補リストを用いて、第２応答文を選択する。応答文選択部１３４は、倫理に関する基準を満たさない応答文である倫理違反応答文を含まない応答文候補リストを用いて、第２応答文を選択する。応答文選択部１３４は、差別的表現に該当する応答文である差別的応答文を含まない応答文候補リストを用いて、第２応答文を選択する。応答文選択部１３４は、対話制御部１３３が差別的表現に該当する等、応答の基準を満たさない第１応答文を生成した場合、その第１応答文に基づいて、応答の基準を満たす第２応答文を選択する。

［１－４．第１の実施形態に係る対話処理の手順］
　次に、図７を用いて、第１の実施形態に係る対話処理の手順について説明する。図７は、第１の実施形態に係る対話処理の手順を示すフローチャートである。具体的には、図７は、対話装置１００によるユーザへの応答文の決定処理の手順を示すフローチャートである。

　図７に示すように、対話装置１００は、入力情報に対する第１応答文を応答文生成モデルにより生成する（ステップＳ１０１）。対話装置１００は、応答文生成モデルにより生成された複数の第１応答文から構成される応答文候補リストから出力する第２応答文を選択する（ステップＳ１０２）。対話装置１００は、選択した第２応答文をユーザ又は他の装置に対する対話の応答として出力する（ステップＳ１０３）。

　次に、図８を用いて、第１の実施形態に係る対話システムに係る処理の流れについて説明する。図８は、第１の実施形態に係る対話システムの処理手順を示すシーケンス図である。

　図８に示すように、ユーザ端末１０は、ユーザの発話による入力を受け付ける（ステップＳ２０１）。そして、ユーザ端末１０は、ユーザにより入力された入力情報を対話装置１００へ送信する（ステップＳ２０２）。

　対話装置１００は、ユーザ端末１０から取得したユーザの入力情報から、応答文生成モデルを用いて第１応答文を生成する（ステップＳ２０３）。対話装置１００は、第１応答文に基づいて、複数の応答文を含む応答文候補リストから第２応答文を選択する（ステップＳ２０４）。そして、対話装置１００は、選択した第２応答文をユーザ端末１０へ送信する（ステップＳ２０５）。

　そして、ユーザ端末１０は、対話装置１００から受信した第２応答文を出力する（ステップＳ２０６）。

［１－５．応答文生成モデルの生成例］
　まず、図９を用いて応答文生成モデルの生成の概要を説明する。図９は、応答文生成モデルの生成処理の一例を示す図である。

　図９では、対話装置１００は、データＤＴ１１に示す発話文が分かち書きされたデータＤＴ１２を生成する（ステップＳ１１）。

　対話装置１００は、データＤＴ１２に示す各語彙を、語彙辞書記憶部１２３の情報を用いて語彙ＩＤに変換したデータＤＴ１３を生成する（ステップＳ１２）。

　また、対話装置１００は、データＤＴ２１に示す応答文が分かち書きされたデータＤＴ２２を生成する（ステップＳ２１）。

　対話装置１００は、データＤＴ２２に示す各語彙を、語彙辞書記憶部１２３の情報を用いて語彙ＩＤに変換したデータＤＴ２３を生成する（ステップＳ２２）。

　対話装置１００は、発話文に対応する語彙ＩＤシーケンスであるデータＤＴ１３と、応答文に対応する語彙ＩＤシーケンスであるデータＤＴ２３とを用いて、図９では、エンコーダデコーダモデルＤＮＮ（Deep　Neural　Network）である応答文生成モデルＭ１を生成する（ステップＳ３１）。対話装置１００は、生成した応答文生成モデルＭ１をモデル情報記憶部１２２に格納する（ステップＳ３２）。

　図９の処理の具体例としては、Ｔｗｉｔｔｅｒなどを教師データとして扱ううえでノイズを除去するクレンジング処理を施した発話文テキストに対して、対話装置１００は、例えばサブワード単位で予め用意した語彙辞書の単位で分かち書きする。対話装置１００は、分かち書きデータを語彙辞書記憶部１２３で管理している語彙ＩＤに変換し、語彙ＩＤの配列を応答文生成モデルＭ１に入力文として渡す。同様に、教師データの応答文テキストもＴｗｉｔｔｅｒなどのソースから収集してクレンジングが施され、対話装置１００は、語彙ＩＤに変換し、応答文生成モデルＭ１の出力文の正解データとして用意する。対話装置１００は、入力文の語彙ＩＤシーケンスと出力文の語彙ＩＤシーケンスの大量のペア（たとえば１００万・１０００万・１億ペア）を用いて、応答文生成モデルＭ１を学習する。

　ここで、図１０を用いて、応答文生成モデルＭ１の一例について説明する。図１０は、応答文生成モデルの構成及び処理の一例を示す概念図である。図９にＤＮＮ（エンコーダ・デコーダモデル）として示す応答文生成モデルＭ１は、再帰型ニューラルネットワーク（ＲＮＮ：Recurrent　Neural　Network）のように時系列データを扱えるディープニューラルネットワーク等のニューラルネットワークの構成を有するモデルである。図１０に示す応答文生成モデルＭ１は、ＲＮＮを有するエンコーダ（Encoder）と、ＲＮＮを有するデコーダ（Decoder）とを組み合わせたＳｅｑ２ｓｅｑモデルである。

　図１０の例では、「吾輩は猫である」がエンコーダのＲＮＮに入力されると、そのテキスト情報を固定長ベクトル（図１６中の「ｈ」で表記される）にエンコードする。また、図１０の例では、デコーダのＲＮＮを介して、エンコードされた固定長ベクトルをデコードする。具体的には、「Ｉ　ａｍ　ａ　ｃａｔ」を出力する。なお、図１０の例では、説明のために日本語の文字列の入力に対して、英語の文字列を出力する例を図示したが、上述したように応答文生成モデルＭ１は、入力された文字情報に対する応答文を出力する。例えば、応答文生成モデルＭ１は、発話文に対応する語彙ＩＤシーケンスの入力に対して、応答文に対応する語彙ＩＤシーケンスを出力する。なお、応答文生成モデルＭ１は、発話文に対応する文字列の入力に対して、応答文に対応する文字列を出力するモデルであってもよい。

　次に、図１１を用いて、応答文生成モデルの生成処理の一例について説明する。図１１は、応答文生成モデルの生成処理の一例を示すフローチャートである。

　図１１に示すように、対話装置１００は、任意の発話文テキストを選択する（ステップＳ３０１）。対話装置１００は、選択した発話文テキストを、語彙辞書を基に分かち書きにする（ステップＳ３０２）。対話装置１００は、選択した発話文テキストの各語彙を語彙ＩＤに変換する（ステップＳ３０３）。

　また、対話装置１００は、任意の応答文テキストを選択する（ステップＳ３０４）。対話装置１００は、選択した応答文テキストを、語彙辞書を基に分かち書きにする（ステップＳ３０５）。対話装置１００は、選択した応答文テキストの各語彙を語彙ＩＤに変換する（ステップＳ３０６）。

　対話装置１００は、全データを語彙ＩＤに変換していない場合（ステップＳ３０７：Ｎｏ）、ステップＳ３０１に戻って処理を繰り返す。

　対話装置１００は、語彙ＩＤ変換後の発話文テキストと応答文テキストのペアの所定割合を用いて学習を行う（ステップＳ３０８）。

　対話装置１００は、学習したモデルパラメータについて、残りのペアを検証用データとして用いて、損失関数を通して損失を算出する（ステップＳ３０９）。

　対話装置１００は、損失が最小ではない場合（ステップＳ３１０：Ｎｏ）、誤差伝搬法を用いてモデルパラメータを更新し（ステップＳ３１１）、ステップＳ３０８に戻る。

　対話装置１００は、損失が最小である場合（ステップＳ３１０：Ｙｅｓ）、モデルパラメータを学習済みモデルとして保存し（ステップＳ３１２）、処理を終了する。

［１－６．ユーザへの応答時の処理例］
　次に、ユーザへの応答時の処理例について説明する。まず、図１２を用いて応答文生成モデルを用いた応答文の生成の概要を説明する。図１２は、応答文生成モデルを用いた応答の生成の一例を示す図である。

　図１２では、対話装置１００は、データＤＴ１１に示す発話文が分かち書きされたデータＤＴ１２を生成する（ステップＳ４１）。

　対話装置１００は、データＤＴ１２に示す各語彙を、語彙辞書記憶部１２３の情報を用いて語彙ＩＤに変換したデータＤＴ１３を生成する（ステップＳ４２）。

　対話装置１００は、応答文生成モデルＭ１をモデル情報記憶部１２２から取得する（ステップＳ４３）。対話装置１００は、データＤＴ１３を応答文生成モデルＭ１に入力することにより、語彙ＩＤシーケンスであるデータＤＴ２３を生成する（ステップＳ４４、Ｓ４５）。

　対話装置１００は、データＤＴ２３に示す各語彙ＩＤを、語彙辞書記憶部１２３の情報を用いて語彙（文字列）に変換したデータＤＴ２２を生成する（ステップＳ４６）。対話装置１００は、分かち書きされたデータＤＴ２２を繋げることにより、応答文であるデータＤＴ２１を生成する（ステップＳ４７）。

　図１２の処理の具体例としては、対話装置１００は、発話文をクレンジングして語彙ＩＤに変換したシーケンスを応答文生成モデルＭ１に入力し、学習結果に基づきもっともらしい応答文の語彙ＩＤシーケンスを返生成する。対話装置１００は、応答文生成モデルＭ１が出力した語彙ＩＤシーケンスをサブワードに変換し、分かち書き文を結合して最終的な応答文を生成する。

　次に、図１３を用いて、ユーザへの応答時の処理の一例について説明する。図１３は、ユーザへの応答時の処理の一例を示すフローチャートである。

　図１３に示すように、対話装置１００は、任意の発話文章を分かち書きし、語彙ＩＤに変換する（ステップＳ４０１）。対話装置１００は、語彙ＩＤのシーケンスに変換する（ステップＳ４０２）。対話装置１００は、語彙ＩＤのシーケンスを学習済みモデルに渡し、応答文章を生成する（ステップＳ４０３）。例えば、対話装置１００は、語彙ＩＤのシーケンス（語彙ＩＤシーケンス）を応答文生成モデルＭ１に入力し、応答文章を生成する。

　対話装置１００は、生成した応答文章を文章ベクトルに変換する（ステップＳ４０４）。対話装置１００は、文章ベクトル化された応答レポジトリから応答文章の文章ベクトルに最も近い文章を検索する（ステップＳ４０５）。例えば、対話装置１００は、応答文候補リスト（応答レポジトリ）のうち、生成した応答文章（第１応答文）に最も類似する文章を第２応答文として選択する。

［１－７．データ及び処理の具体例］
　次に、図１４～図１７を用いてデータ及び処理の具体例について説明する。

　まず、図１４を用いて、応答文生成モデルの生成に用いる学習データや応答文生成モデルにより生成される応答文の一例を示す。図１４は、応答文生成モデルの学習及び推論のデータの一例を示す図である。

　図１４中の学習データＬＴ１１は、応答文生成モデルＭ１の生成に用いる学習データである対話コーパスＣＰ１の一例を示す。図１４中の学習データＬＴ１１は、例えば、図１０に示す学習処理で用いる学習用の発話文・応答文のデータサンプルである。

　また、図１４中の生成データＬＴ１２は、応答文生成モデルＭ１に入力した入力情報（発話文）と、応答文生成モデルＭ１が出力した応答文とのペアの一例を示す。図１４中の学習データＬＴ１２は、例えば、図１２に示す推論処理での発話文・応答文のデータサンプルである。

　次に、図１５を用いて、文章ベクトルの生成の一例を示す。図１５は、文章ベクトルの生成の一例を示す図である。

　図１５中の学習データＬＴ２１は、発話文とその発話文のベクトルとのペアの一例を示す。また、図１５中の生成データＬＴ２２は、応答文とその発話文のベクトルとのペアの一例を示す。例えば、対話装置１００は、図１５中の入力情報ＩＮ２１をベクトル変換モデルＭ２に入力することにより、入力情報ＩＮ２１に対応するベクトルＯＴ２１を生成する。

　図１５では、応答文生成モデルＭ１で生成された第１応答文と、特定ドメインの応答文候補リストの各応答文の近さを推定する例として、各文章が大規模日本語コーパスなどで学習したエンコーダであるベクトル変換モデルＭ２を用いて文章ベクトル化される。そして、対話装置１００は、それぞれのベクトル間のコサイン類似度をもとに文章間の距離の近さを算出する。例えば、ベクトル変換モデルＭ２は、ＢＥＲＴ（のエンコーダ）であってもよい。

　次に、図１６を用いて、第２応答文の選択の一例を示す。図１６は、応答選択のデータの一例を示す図である。

　図１６中の選択データＬＴ３１は、応答文生成モデルＭ１が生成した第１応答文と、その第１応答文を基に選択された第２応答文とのペアの一例を示す。図１６は、検索ベースの処理における入力文（応答文）と出力文（類似する応答リポジトリ内の任意の応答文）の例である。

　次に、図１７を用いて、ユーザへの応答処理のデータの一例を示す。図１７は、ユーザへの応答処理のデータの一例を示す図である。

　図１７中の生成データＬＴ４１は、第１段落ＰＨ１で用いる応答文生成モデルＭ１の生成に用いられた学習データを示す。また、図１７中の応答文リストＬＴ４２は、第２段落ＰＨ２で用いる応答文リストを示す。まず、対話装置１００は、第１段落ＰＨ１の生成ベースのモデル（応答文生成モデルＭ１）を用いて、与えられた入力文（ユーザの発話文）に対する第１応答文を生成する。そして、対話装置１００は、生成した第１応答文に対して、第２段落ＰＨ２の検索ベースで特定ドメイン・キャラクタの応答文リポジトリから第２応答文を選択して、ユーザへの応答に用いる。

［２．第２の実施形態］
　なお、応答文生成モデルが生成する応答文や応答文候補リスト中の応答文には、特定の文字列に変換するコマンドが実行される変換文字列である汎化タグが含まれてもよい。この点の処理について、図１８～図２３を用いて説明する。なお、第１の実施形態と同様の点については、適宜説明を省略する。

［２－１．第２の実施形態に係る対話処理の概要］
　図１８は、本開示の第２の実施形態に係る対話処理の一例を示す図である。第２の実施形態に係る対話処理は、図１９に示す対話装置１００Ａやユーザ端末１０を含む対話システム１によって実現される。第２の実施形態に係る対話システム１は、対話装置１００に替えて対話装置１００Ａを有する点で、第１の実施形態に係る対話システム１と相違する。

　まず、ユーザＵ１の発話による入力情報ＩＮ５１に対する応答を示すステップＳ５１～Ｓ５７の説明に先立って、その応答に用いる情報の生成について説明する。

　対話装置１００Ａは、応答文を生成する生成モデルである応答文生成モデルＭ１１を、対話コーパスＣＰ５１を用いて生成する（ステップＰＳ５１）。対話コーパスＣＰ５１には、後述する汎化タグを含む応答文が含まれる。対話装置１００Ａは、発話文ＳＰ１１と応答文Ｔ１１とのペアや発話文ＳＰ１２と応答文Ｔ１２とのペア等の複数のペアを用いて応答文生成モデルＭ１１を生成する。これにより、対話装置１００Ａは、汎化タグを含む応答文を出力可能な応答文生成モデルＭ１１を生成する。

　対話装置１００Ａは、応答文Ｒ１１、応答文Ｒ１２、応答文Ｒ１３等の複数の応答文を含む応答文候補リストである応答レポジトリＲＰ５１を取得する（ステップＰＳ６１）。対話装置１００Ａは、応答レポジトリＲＰ５１中の各応答文をベクトルに変換する（ステップＰＳ６２、ＰＳ６３）。対話装置１００Ａは、文をベクトルに変換するモデルであるベクトル変換モデルＭ１２を用いて、応答文Ｒ１１、応答文Ｒ１２、応答文Ｒ１３等をベクトルに変換する。対話装置１００Ａは、応答文Ｒ１１、応答文Ｒ１２、応答文Ｒ１３等の各々をベクトル変換モデルＭ１２に入力し、ベクトル変換モデルＭ１２に応答文Ｒ１１、応答文Ｒ１２、応答文Ｒ１３等の各々に対応するベクトルを出力させる。ベクトル変換モデルＭ１２は、汎化タグもベクトル化可能なベクトル変換モデルである。これにより、対話装置１００Ａは、汎化タグを含む文であってもベクトル化することができる。

　対話装置１００Ａは、応答文Ｒ１１をベクトル変換モデルＭ１２に入力することにより、応答文Ｒ１１に対応するベクトルである候補ベクトルＣＶ５１を生成する。また、対話装置１００Ａは、応答文Ｒ１２をベクトル変換モデルＭ１２に入力することにより、応答文Ｒ１２に対応する候補ベクトルＣＶ５２を生成し、応答文Ｒ１３をベクトル変換モデルＭ１２に入力することにより、応答文Ｒ１３に対応する候補ベクトルＣＶ５３を生成する。なお、ステップＰＳ６２、ＰＳ６３は、ステップＳ５６よりも前であれば、いずれのタイミングで行われてもよい。

　ここから、ユーザＵ１の発話による入力情報ＩＮ５１に対する応答の処理について説明する。ユーザＵ１の名字は「ヤマダ」であるものとする。

　まず、図１８の例では、ユーザ端末１０を利用するユーザＵ１が「ＹＹＹＹＹ」と発話する。なお、「ＹＹＹＹＹ」は、「何かいいことない」や「俺のことどう思う」等の具体的な内容を含む発話であるものとする。ユーザ端末１０は、ユーザＵ１の「ＹＹＹＹＹ」という発話を検知し、自動音声認識の機能により文字情報「ＹＹＹＹＹ」を入力情報ＩＮ５１として受け付ける。そして、ユーザ端末１０は、入力情報ＩＮ５１を対話装置１００Ａへ送信する。これにより、対話装置１００Ａは、ユーザ端末１０から入力情報ＩＮ５１を取得する（ステップＳ５１）。

　対話装置１００Ａは、入力情報ＩＮ５１を応答文生成モデルＭ１１に入力し、ユーザＵ１の入力に対応する応答文である第１応答文ＦＲ５１を生成する（ステップＳ５２）。

　対話装置１００Ａは、第１応答文ＦＲ５１をベクトルに変換する（ステップＳ５３、Ｓ４）。対話装置１００Ａは、第１応答文ＦＲ５１をベクトル変換モデルＭ１２に入力することにより、第１応答文ＦＲ５１に対応するベクトルである対象ベクトルＴＶ５１を生成する。

　対話装置１００Ａは、第１応答文ＦＲ５１の対象ベクトルＴＶ５１と、応答レポジトリＲＰ５１の候補ベクトルＣＶ５１、ＣＶ５２、ＣＶ５３等の各々とを比較する（ステップＳ５５）。

　対話装置１００Ａは、第１応答文ＦＲ５１の対象ベクトルＴＶ５１に最も近い（類似する）候補ベクトルの応答文を、ユーザへの応答に用いる第２応答文ＳＲ５１として選択する（ステップＳ５６）。対話装置１００Ａは、第１応答文ＦＲ５１の対象ベクトルＴＶ５１に最も類似する候補ベクトルＣＶ５１の応答文Ｒ１１を、ユーザへの応答に用いる第２応答文ＳＲ５１として選択する。

　ここで、応答文Ｒ１１は、「＜ｕｄｓ０００１＞にはついていけなくなるっちゃ」といった特定の文字列に変換するコマンドが実行される変換文字列である汎化タグ「＜ｕｄｓ０００１＞」を含む応答文である。対話装置１００Ａは、汎化タグ「＜ｕｄｓ０００１＞」を他の文字列に変換する（ステップＳ５７）。

　対話装置１００Ａは、汎化タグ記憶部１２４に記憶された汎化タグ「＜ｕｄｓ０００１＞」のコマンド（変換内容）を基に汎化タグ「＜ｕｄｓ０００１＞」を他の文字列に変換する。汎化タグ「＜ｕｄｓ０００１＞」のコマンド（変換内容）が「ユーザ名」であるため、対話装置１００Ａは、ユーザ情報記憶部１２５からユーザＵ１の名字が「ヤマダ」であることを示す情報と取得し、汎化タグ「＜ｕｄｓ０００１＞」をユーザＵ１の名字「ヤマダ」に変換する。これにより、対話装置１００Ａは、汎化タグ「＜ｕｄｓ０００１＞」を含む第２応答文ＳＲ５１から、汎化タグ「＜ｕｄｓ０００１＞」がユーザＵ１の名字「ヤマダ」に変換され、汎化タグを含まない第２応答文ＳＲ５２を生成する。具体的には、対話装置１００Ａは、「ヤマダにはついていけなくなるっちゃ」という第２応答文ＳＲ５２（応答文Ｒ１１ｄ）を生成する。

　そして、対話装置１００Ａは、第２応答文ＳＲ５２をユーザ端末１０へ送信し、ユーザ端末１０は、第２応答文ＳＲ５２をユーザＵ１に対して出力する。

　上述したように、対話装置１００Ａは、選択した第２応答文に汎化タグが含まれる場合、その汎化タグの内容に応じて汎化タグを他の文字列に変換することで、応答の状況に応じた柔軟な応答文の生成を行うことができる。

　なお、汎化タグは、ユーザに関する内容に限らず、種々の内容に変換されてもよい。例えば、汎化タグは、汎化タグ「＜ｕｄｓ０００２＞」のように、ユーザへの応答時の気象や日時等のコンテキストに応じて変換されてもよい。ここでいうコンテキストとは、ユーザが置かれた環境等を含む概念であってもよい。汎化タグ「＜ｕｄｓ０００２＞」の場合、対話装置１００Ａは、汎化タグ「＜ｕｄｓ０００２＞」を天気の話の内容の文字列に変換する。例えば、対話装置１００Ａは、ユーザのへの応答時に天気予報の情報を取得し、「ちなみに今日の天気は晴れだけど」や「明日は雨みたい」等の文字列に汎化タグ「＜ｕｄｓ０００２＞」を変換してもよい。

［２－２．第２の実施形態に係る対話装置の構成］
　次に、第２の実施形態に係る対話装置の構成について説明する。図１９は、第２の実施形態に係る対話装置の構成例を示す図である。図１９に示すように、対話装置１００Ａは、通信部１１０と、記憶部１２０Ａと、制御部１３０Ａとを有する。

　記憶部１２０Ａは、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。第２の実施形態に係る記憶部１２０Ａは、図１９に示すように、応答レポジトリ記憶部１２１Ａと、モデル情報記憶部１２２Ａと、語彙辞書記憶部１２３Ａと、汎化タグ記憶部１２４と、ユーザ情報記憶部１２５とを有する。

　第２の実施形態に係る応答レポジトリ記憶部１２１Ａは、応答レポジトリに関する各種情報を記憶する。応答レポジトリ記憶部１２１Ａは、汎化応答文を含む応答文のリスト（応答文候補リスト）を記憶する。図２０は、第２の実施形態に係る応答レポジトリ記憶部の一例を示す図である。図２０に示す応答レポジトリ記憶部１２１Ａには、「応答文」といった項目が含まれる。

　「応答文」は、ユーザへの応答に用いられる応答文を示す。図２０の例では、応答文として、応答文Ｒ１１、応答文Ｒ１２、応答文Ｒ１３等の複数の応答文が記憶される。なお、応答文Ｒ１１、応答文Ｒ１２、応答文Ｒ１３等のように抽象的に示すが、応答文Ｒ１１、応答文Ｒ１２、応答文Ｒ１３等は、具体的な応答文となる文字列である。例えば、応答文Ｒ１１は、括弧書きで示すように「＜ｕｄｓ０００１＞にはついていけなくなるっちゃ」といった特定の文字列に変換するコマンドが実行される変換文字列である汎化タグ「＜ｕｄｓ０００１＞」を含む応答文である。

　なお、応答レポジトリ記憶部１２１Ａは、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、応答レポジトリ記憶部１２１Ａは、応答文を識別するＩＤを各応答文に対応付けて記憶してもよい。

　第２の実施形態に係るモデル情報記憶部１２２Ａは、モデルに関する情報を記憶する。例えば、モデル情報記憶部１２２Ａは、ユーザへの応答の決定に用いるモデルを記憶する。図２１は、第２の実施形態に係るモデル情報記憶部の一例を示す図である。図２１に、第２の実施形態に係るモデル情報記憶部１２２Ａの一例を示す。図２１に示した例では、モデル情報記憶部１２２Ａは、「モデルＩＤ」、「用途」、「モデルデータ」といった項目が含まれる。

　「モデルＩＤ」は、モデルを識別するための識別情報を示す。「用途」は、対応するモデルの用途を示す。「モデルデータ」は、モデルのデータを示す。図２１では「モデルデータ」に「ＭＤＴ１１」といった概念的な情報が格納される例を示したが、実際には、モデルに含まれるネットワークに関する情報や関数等、そのモデルを構成する種々の情報が含まれる。

　図２１に示す例では、モデルＩＤ「Ｍ１１」により識別されるモデル（応答文生成モデルＭ１１）は、用途が「応答文生成」であることを示す。また、応答文生成モデルＭ１１のモデルデータは、モデルデータＭＤＴ１１であることを示す。

　また、モデルＩＤ「Ｍ１２」により識別されるモデル（ベクトル変換モデルＭ１２）は、用途が「ベクトル変換モデル」であることを示す。また、ベクトル変換モデルＭ１２のモデルデータは、モデルデータＭＤＴ１２であることを示す。

　なお、モデル情報記憶部１２２Ａは、上記に限らず、目的に応じて種々の情報を記憶してもよい。

　第２の実施形態に係る語彙辞書記憶部１２３Ａは、特定の文字列に変換するコマンドが実行される汎化タグを含む語彙辞書を記憶する。図２２は、第２の実施形態に係る語彙辞書記憶部の一例を示す図である。図２２に示す語彙辞書記憶部１２３Ａには、「語彙」、「語彙ＩＤ」といった項目が含まれる。

　図２２の例では、語彙「ですね」の語彙ＩＤは「－１４」であることを示す。また、変換文字列である語彙「＜ｕｄｓ０００１＞」の語彙ＩＤは「－１０００１」であることを示す。

　なお、語彙辞書記憶部１２３Ａは、上記に限らず、目的に応じて種々の情報を記憶してもよい。

　第２の実施形態に係る汎化タグ記憶部１２４は、変換文字列である汎化タグに関する各種情報を記憶する。図２３は、第２の実施形態に係る汎化タグ記憶部の一例を示す図である。図２３に示す汎化タグ記憶部１２４には、「汎化タグ」、「変換」といった項目が含まれる。

　「汎化タグ」は、特定の文字列に変換するコマンドが実行される汎化タグを示す。「変換」は、対応する汎化タグが変換される対象を示す。

　図２３の例では、汎化タグ「＜ｕｄｓ０００１＞」は、ユーザ名を示す文字列へ変換されることを示す。汎化タグ「＜ｕｄｓ０００２＞」は、天気の話の内容の文字列へ変換されることを示す。

　なお、汎化タグ記憶部１２４は、上記に限らず、目的に応じて種々の情報を記憶してもよい。

　第２の実施形態に係るユーザ情報記憶部１２５は、ユーザに関する各種情報を記憶する。ユーザ情報記憶部１２５は、各ユーザの属性情報等の種々の情報を記憶する。ユーザ情報記憶部１２５は、ユーザＩＤ、年齢、性別、居住地といったユーザに関する情報を記憶する。例えば、ユーザ情報記憶部１２５は、各ユーザが利用するユーザ端末１０を識別する情報（端末ＩＤ等）をユーザに対応付けて記憶する。ユーザ情報記憶部１２５は、ユーザの氏名をユーザ情報として記憶する。

　なお、ユーザ情報記憶部１２５は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、ユーザ情報記憶部１２５は、年齢や性別等のデモグラフィック属性情報や、興味・関心等のサイコグラフィック属性情報を記憶してもよい。

　図１９に戻り、説明を続ける。制御部１３０Ａは、例えば、ＣＰＵやＧＰＵ等によって、対話装置１００Ａ内部に記憶されたプログラム（例えば、本開示に係る対話プログラム等）がＲＡＭ等を作業領域として実行されることにより実現される。また、制御部１３０Ａは、コントローラ（controller）であり、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現される。

　図１９に示すように、制御部１３０Ａは、入力部１３１と、学習部１３２と、対話制御部１３３Ａと、応答文選択部１３４Ａとを有し、以下に説明する対話処理の機能や作用を実現または実行する。なお、制御部１３０Ａの内部構成は、図１９に示した構成に限られず、後述する対話処理を行う構成であれば他の構成であってもよい。

　学習部１３２は、対話コーパスＣＰ５１を用いて応答文生成モデルＭ１１を生成する。例えば、学習部１３２は、発話文ＳＰ１１が入力された場合に、応答文Ｔ１１を出力するように応答文生成モデルＭ１１を生成する。また、学習部１３２は、発話文ＳＰ１２が入力された場合に、応答文Ｔ１２を出力するように応答文生成モデルＭ１１を生成する。なお、応答文生成モデルＭ１１を外部装置から取得する場合、対話装置１００Ａは、学習部１３２を有しなくてもよい。また、対話装置１００Ａは、ベクトル変換モデルＭ１２を学習部１３２により生成してもよいし、外部装置から取得してもよい。

　対話制御部１３３Ａは、対話に関する各種制御を行う制御手段として機能する。なお、対話制御部１３３Ａについて、対話制御部１３３と同様の点は説明を省略する。対話制御部１３３Ａは、応答文生成モデルＭ１１を用いて応答文を生成する。

　対話制御部１３３Ａは、ユーザにより入力された入力情報に対する第１応答文を、応答文生成モデルＭ１１を用いて生成する。対話制御部１３３Ａは、変換用文字列を含む応答文を生成する生成モデルを用いて、入力情報に対する第１応答文を生成する。例えば、対話制御部１３３Ａは、応答文生成モデルＭ１１を用いて、汎化タグ「＜ｕｄｓ０００１＞」や汎化タグ「＜ｕｄｓ０００２＞」を含む第１応答文を生成する。

　応答文選択部１３４Ａは、第２応答文を選択する。なお、応答文選択部１３４Ａについて、応答文選択部１３４と同様の点は説明を省略する。応答文選択部１３４Ａは、ベクトル変換モデルＭ１２を用いて第１応答文が変換された対象ベクトルと、複数の応答文の各々がベクトル変換モデルＭ１２を用いて変換された複数のベクトルとの比較に基づいて、第２応答文を選択する。応答文選択部１３４Ａは、ユーザへの応答に用いられる場合に、他の文字列に変換される変換用文字列を有する汎化応答文を含む応答文候補リストを用いて、第２応答文を選択する。

　応答文選択部１３４Ａは、ユーザに応じて他の文字列に変換される変換用文字列を有する汎化応答文を含む応答文候補リストを用いて、第２応答文を選択する。応答文選択部１３４Ａは、ユーザのユーザ情報に基づく文字列に変換される変換用文字列を有する汎化応答文を含む応答文候補リストを用いて、第２応答文を選択する。応答文選択部１３４Ａは、ユーザの名称に変換される変換用文字列を有する汎化応答文を含む応答文候補リストを用いて、第２応答文を選択する。

　応答文選択部１３４Ａは、ユーザへの応答時のコンテキストに応じて、他の文字列に変換される変換用文字列を有する汎化応答文を含む応答文候補リストを用いて、第２応答文を選択する。応答文選択部１３４Ａは、ユーザへの応答時の気象情報に応じて、他の文字列に変換される変換用文字列を有する汎化応答文を含む応答文候補リストを用いて、第２応答文を選択する。

　応答文選択部１３４Ａは、応答文候補リストから、汎化応答文を第２応答文として選択した場合、第２応答文に含まれる変換用文字列を他の文字列に変換する。応答文選択部１３４Ａは、第２応答文に含まれる変換用文字列の内容に基づいて、変換用文字列を他の文字列に変換する。

［３．その他の実施形態］
　上述した実施形態や変形例に係る処理は、上記実施形態や変形例以外にも種々の異なる形態（変形例）にて実施されてよい。

［３－１．対話レポジトリの例］
　例えば、応答文候補リストには、応答文のみに限らず、その応答文に対応する発話文が含まれてもよい。すなわち、対話装置１００は、応答文と発話文とのペア（組合せ）を含む対話レポジトリを用いて、対話レポジトリ中の応答文を第２応答文として選択してもよい。この場合、対話装置１００は、ユーザの発話文により生成した第１応答文とその発話文とのペア（対象ペア）を用いて、応答文候補リストを検索し、応答文候補リスト中の発話文と応答文とのペア（候補ペア）のうち、対象ペアに類似する候補ペアの応答文を、第２応答文として選択してもよい。例えば、対話装置１００は、ユーザの発話文により生成した第１応答文とその発話文との対象ペアをベクトルと、応答文候補リスト中の各候補ペアのベクトルとを比較し、対象ペアのベクトルに最も類似するベクトルの候補ペアの応答文を、第２応答文として選択してもよい。これにより、対話装置１００は、対話のコンテキストに応じて適切な応答文を第２応答文として選択することができる。

［３－２．その他の構成例］
　なお、上記の例では、ユーザが利用するユーザ端末１０と、ユーザへの応答を選択する対話装置１００、１００Ａとが別体である場合を示したが、ユーザ端末１０と、対話装置１００、１００Ａとは一体であってもよい。例えば、ユーザが利用するユーザ端末１０は、ユーザの発話などの入力に応じて、ユーザへの応答を選択する機能を有する対話装置であってもよい。この場合、ユーザ端末１０は、対話装置１００、１００Ａの制御部１３０、１３０Ａや記憶部１２０、１２０Ａに示した各種構成を有する。応答を音声で出力する場合、例えば、ユーザ端末１０のスピーカー等の音声出力部が第２応答文をユーザに対する対話の応答として出力する制御手段として機能する。また、応答を表示する場合、例えば、ユーザ端末１０のディスプレイ等の表示部が第２応答文をユーザに対する対話の応答として出力する制御手段として機能する。

［３－３．その他］
　また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

　また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

　また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

［４．本開示に係る効果］
　上述のように、本開示に係る対話装置（実施形態では対話装置１００、１００Ａ）は、ユーザ又は他の装置との対話を行う対話装置において、対話装置を制御する制御手段（実施形態では対話制御部１３３、１３３Ａ）と、入力情報に対する第１応答文を生成する応答文生成モデル（実施形態では応答文生成モデルＭ１、Ｍ１１）と、応答文生成モデルにより生成された複数の第１応答文から構成される応答文候補リストと、応答文候補リストから出力する第２応答文を選択する応答文選択部（実施形態では応答文選択部１３４、１３４Ａ）とを備え、制御手段は、応答文選択部により選択された第２応答文をユーザ又は他の装置に対する対話の応答として出力する。

　これにより、本開示に係る対話装置は、生成モデルで生成した応答文を基に、応答文候補リストからユーザへの応答に実際に用いる応答文を選択することで、ユーザに対して応答される応答文を応答文候補リスト中の内容に限定することができる。このように、対話装置は、出力が不確定だが柔軟性のある応答を生成し、その応答を基に予め用意した例えば不適切な内容が含まれないリストから実際にユーザへの応答を選択する、すなわち２段階でユーザへの応答を決定する。したがって、対話装置は、ユーザへの応答の柔軟性の低下を抑制し、ユーザへの応答を管理容易にすることができる。すなわち、対話装置は、ユーザへの応答の柔軟性の低下を抑制するとともにユーザへの応答を管理容易にすることができ、ユーザへの応答の柔軟性とユーザへの応答を管理容易性との両方を満たす応答文生成を可能にすることができる。

　また、応答文生成モデルは、ニューラルネットワークから構成された学習済み応答文生成モデルである。これにより、対話装置は、ニューラルネットワークから構成された応答文生成モデルを用いることで、多様な第１応答文を生成することができる。

　また、学習済み応答文生成モデルは、他のソーシャルネットワークサービスから取得した教師データに基づいて学習された。これにより、対話装置は、他のソーシャルネットワークサービスでのユーザの対話（コミュニケーション）等の内容を反映した第１応答文を生成することができる。

　また、応答文選択部は、所定の基準に基づいて、第２応答文を選択する。これにより、対話装置は、所定の基準に基づいて、第２応答文を選択することで、基準を基に適切な第２応答文を選択することができる。

　また、所定の基準は、倫理に関連する基準、差別に関する基準、対話装置に関するキャラクタ設定基準、又は、確率に関する基準である。これにより、対話装置は、倫理、差別、キャラクタ、確率等の基準を基に、適切な第２応答文を選択することができる。

　また、応答文生成モデルは、ユーザの発話により入力された入力情報に対する第１応答文を生成する。これにより、対話装置は、ユーザの発話に対して応答できる。

　また、応答文選択部は、応答文候補リストのうち、第１応答文に類似する応答文を第２応答文として選択する。これにより、対話装置は、応答文候補リストから類似する応答文を選択しユーザへ応答することができる。

　また、応答文候補リストは、文字列をベクトルに変換する変換モデル（実施形態ではベクトル変換モデルＭ２、Ｍ１２）を用いて第１応答文が変換された対象ベクトルと、応答文候補リストの応答文の各々が変換モデルを用いて変換された複数のベクトルとの比較に基づいて、第２応答文を選択する。これにより、対話装置は、応答文間のベクトル比較を基にユーザへの応答を選択することができる。

　また、応答文候補リストは、ユーザへの応答に用いられる場合に、他の文字列に変換される変換用文字列を有する汎化応答文を含む。これにより、対話装置は、汎化応答文が第２応答文として選択された場合、応答時の状況に応じて変換用文字列を変換することで、適切な応答を行うことができる。

　また、汎化応答文は、ユーザに応じて、他の文字列に変換される変換用文字列を有する。これにより、対話装置は、汎化応答文が第２応答文として選択された場合、変換用文字列を変換することで、応答の状況に応じて適切な応答を行うことができる。

　また、汎化応答文は、ユーザのユーザ情報に基づく文字列に変換される変換用文字列を有する。これにより、対話装置は、汎化応答文が第２応答文として選択された場合、ユーザ情報に基づいて変換用文字列を変換することで、ユーザに応じて適切な応答を行うことができる。

　また、汎化応答文は、ユーザの名称に変換される変換用文字列を有する。これにより、対話装置は、汎化応答文が第２応答文として選択された場合、変換用文字列をユーザの名称に変換することで、ユーザに応じて適切な応答を行うことができる。

　また、汎化応答文は、ユーザへの応答時のコンテキストに応じて、他の文字列に変換される変換用文字列を有する。これにより、対話装置は、汎化応答文が第２応答文として選択された場合、ユーザへの応答時のコンテキストに応じて変換用文字列を変換することで、応答時の状況に応じて適切な応答を行うことができる。

　また、汎化応答文は、ユーザへの応答時の気象情報に応じて、他の文字列に変換される変換用文字列を有する。これにより、対話装置は、汎化応答文が第２応答文として選択された場合、ユーザへの応答時の天気予報などの気象情報に応じて変換用文字列を変換することで、応答時の状況に応じて適切な応答を行うことができる。

　また、応答文生成モデルは、変換用文字列を含む応答文を生成する。これにより、対話装置は、応答文生成モデルで変換用文字列を含む応答が生成された場合、その応答を用いて汎化応答文を含む応答文候補リストを検索し、第２応答文を選択することで、適切に第２応答文を選択することができる。

　また、応答文選択部は、応答文候補リストから、汎化応答文を第２応答文として選択した場合、第２応答文に含まれる変換用文字列を他の文字列に変換する。これにより、対話装置は、汎化応答文を第２応答文として選択した場合であっても、適切にユーザへの応答を行うことができる。

　また、応答文選択部は、第２応答文に含まれる変換用文字列の内容に基づいて、変換用文字列を他の文字列に変換する。これにより、対話装置は、汎化応答文を第２応答文として選択した場合であっても、変換用文字列の内容を基に変換を行うことで、適切にユーザへの応答を行うことができる。

［５．ハードウェア構成］
　上述してきた各実施形態や変形例に係る対話装置１００、１００Ａやユーザ端末１０等の情報機器は、例えば図２４に示すような構成のコンピュータ１０００によって実現される。図２４は、情報機器の機能を実現するコンピュータの一例を示すハードウェア構成図である。以下、第１の実施形態に係る対話装置１００を例に挙げて説明する。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る対話プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が第１の実施形態に係る対話装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた対話プログラムを実行することにより、制御部１３０等の機能を実現する。また、ＨＤＤ１４００には、本開示に係る対話プログラムや、記憶部１２０内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　ユーザ又は他の装置との対話を行う対話装置において、
　前記対話装置を制御する制御手段と、
　入力情報に対する第１応答文を生成する応答文生成モデルと、
　前記応答文生成モデルにより生成された複数の第１応答文から構成される応答文候補リストと、
　前記応答文候補リストから出力する第２応答文を選択する応答文選択部とを備え、
　前記制御手段は、前記応答文選択部により選択された第２応答文をユーザ又は他の装置に対する対話の応答として出力することを特徴とする対話装置。
（２）
　前記応答文生成モデルは、ニューラルネットワークから構成された学習済み応答文生成モデルであることを特徴とする（１）に記載の対話装置。
（３）
　前記学習済み応答文生成モデルは、他のソーシャルネットワークサービスから取得した教師データに基づいて学習されたことを特徴とする（２）に記載の対話装置。
（４）
　前記応答文選択部は、所定の基準に基づいて、第２応答文を選択することを特徴とすることを特徴とする（１）～（３）のいずれか１つに記載の対話装置。
（５）
　前記所定の基準は、倫理に関連する基準、差別に関する基準、対話装置に関するキャラクタ設定基準、又は、確率に関する基準であることを特徴とする（４）に記載の対話装置。
（６）
　前記応答文生成モデルは、
　前記ユーザの発話により入力された前記入力情報に対する前記第１応答文を生成する
　（１）～（５）のいずれか１つに記載の対話装置。
（７）
　前記応答文選択部は、
　前記応答文候補リストのうち、前記第１応答文に類似する応答文を前記第２応答文として選択する
　（１）～（６）のいずれか１つに記載の対話装置。
（８）
　前記応答文選択部は、
　文字列をベクトルに変換する変換モデルを用いて前記第１応答文が変換された対象ベクトルと、前記応答文候補リスト中の応答文の各々が前記変換モデルを用いて変換された複数のベクトルとの比較に基づいて、前記第２応答文を選択する
　（７）に記載の対話装置。
（９）
　前記応答文候補リストは、
　前記ユーザへの応答に用いられる場合に、他の文字列に変換される変換用文字列を有する汎化応答文を含む
　（１）～（８）のいずれか１つに記載の対話装置。
（１０）
　前記汎化応答文は、
　前記ユーザに応じて、他の文字列に変換される前記変換用文字列を有する
　（９）に記載の対話装置。
（１１）
　前記汎化応答文は、
　前記ユーザのユーザ情報に基づく文字列に変換される前記変換用文字列を有する
　（１０）に記載の対話装置。
（１２）
　前記汎化応答文は、
　前記ユーザの名称に変換される前記変換用文字列を有する
　（１０）または（１１）に記載の対話装置。
（１３）
　前記汎化応答文は、
　前記ユーザへの応答時のコンテキストに応じて、他の文字列に変換される前記変換用文字列を有する
　（９）～（１２）のいずれか１つに記載の対話装置。
（１４）
　前記汎化応答文は、
　前記ユーザへの応答時の気象情報に応じて、他の文字列に変換される前記変換用文字列を有する
　（１３）に記載の対話装置。
（１５）
　前記応答文生成モデルは、
　前記変換用文字列を含む応答を生成する
　（９）～（１４）のいずれか１つに記載の対話装置。
（１６）
　前記応答文選択部は、
　前記応答文候補リストから、前記汎化応答文を前記第２応答文として選択した場合、前記第２応答文に含まれる前記変換用文字列を他の文字列に変換する
　（９）～（１５）のいずれか１つに記載の対話装置。
（１７）
　前記応答文選択部は、
　前記第２応答文に含まれる前記変換用文字列の内容に基づいて、前記変換用文字列を他の文字列に変換する
　（１６）に記載の対話装置。
（１８）
　ユーザ又は他の装置との対話を行う対話装置を制御し、
　入力情報に対する第１応答文を応答文生成モデルにより生成し、
　応答文生成モデルにより生成された複数の第１応答文から構成される応答文候補リストから出力する第２応答文を選択し、
　選択した第２応答文をユーザ又は他の装置に対する対話の応答として出力する、
　処理を実行する対話方法。
（１９）
　ユーザ又は他の装置との対話を行う対話装置を制御し、
　入力情報に対する第１応答文を応答文生成モデルにより生成し、
　応答文生成モデルにより生成された複数の第１応答文から構成される応答文候補リストから出力する第２応答文を選択し、
　選択した第２応答文をユーザ又は他の装置に対する対話の応答として出力する、
　処理を実行させる対話プログラム。

　１　対話システム
　１００、１００Ａ　対話装置
　１１０　通信部
　１２０、１２０Ａ　記憶部
　１２１、１２１Ａ　応答レポジトリ記憶部
　１２２、１２２Ａ　モデル情報記憶部
　１２３、１２３Ａ　語彙辞書記憶部
　１２４　汎化タグ記憶部
　１２５　ユーザ情報記憶部
　１３０、１３０Ａ　制御部
　１３１　入力部
　１３２　学習部
　１３３、１３３Ａ　対話制御部（制御手段）
　１３４、１３４Ａ　応答文選択部
　１０　ユーザ端末

Claims

　ユーザ又は他の装置との対話を行う対話装置において、
　前記対話装置を制御する制御手段と、
　入力情報に対する第１応答文を生成する応答文生成モデルと、
　前記応答文生成モデルにより生成された複数の第１応答文から構成される応答文候補リストと、
　前記応答文候補リストから出力する第２応答文を選択する応答文選択部とを備え、
　前記制御手段は、前記応答文選択部により選択された第２応答文をユーザ又は他の装置に対する対話の応答として出力することを特徴とする対話装置。
　前記応答文生成モデルは、ニューラルネットワークから構成された学習済み応答文生成モデルであることを特徴とする請求項１に記載の対話装置。
　前記学習済み応答文生成モデルは、他のソーシャルネットワークサービスから取得した教師データに基づいて学習されたことを特徴とする請求項２に記載の対話装置。
　前記応答文選択部は、所定の基準に基づいて、第２応答文を選択することを特徴とする請求項１に記載の対話装置。
　前記所定の基準は、倫理に関連する基準、差別に関する基準、対話装置に関するキャラクタ設定基準、又は、確率に関する基準であることを特徴とする請求項４に記載の対話装置。
　前記応答文生成モデルは、
　前記ユーザの発話により入力された前記入力情報に対する前記第１応答文を生成する
　請求項１に記載の対話装置。
　前記応答文選択部は、
　前記応答文候補リストのうち、前記第１応答文に類似する応答文を前記第２応答文として選択する
　請求項１に記載の対話装置。
　前記応答文候補リストは、
　文字列をベクトルに変換する変換モデルを用いて前記第１応答文が変換された対象ベクトルと、前記応答文候補リスト中の応答文の各々が前記変換モデルを用いて変換された複数のベクトルとの比較に基づいて、前記第２応答文を選択する
　請求項７に記載の対話装置。
　前記応答文候補リストは、
　前記ユーザへの応答に用いられる場合に、他の文字列に変換される変換用文字列を有する汎化応答文を含む
　請求項１に記載の対話装置。
　前記汎化応答文は、
　前記ユーザに応じて、他の文字列に変換される前記変換用文字列を有する
　請求項９に記載の対話装置。
　前記汎化応答文は、
　前記ユーザのユーザ情報に基づく文字列に変換される前記変換用文字列を有する
　請求項１０に記載の対話装置。
　前記汎化応答文は、
　前記ユーザの名称に変換される前記変換用文字列を有する
　請求項１０に記載の対話装置。
　前記汎化応答文は、
　前記ユーザへの応答時のコンテキストに応じて、他の文字列に変換される前記変換用文字列を有する
　請求項９に記載の対話装置。
　前記汎化応答文は、
　前記ユーザへの応答時の気象情報に応じて、他の文字列に変換される前記変換用文字列を有する
　請求項１３に記載の対話装置。
　前記応答文生成モデルは、
　前記変換用文字列を含む応答を生成する
　請求項９に記載の対話装置。
　前記応答文選択部は、
　前記応答文候補リストから、前記汎化応答文を前記第２応答文として選択した場合、前記第２応答文に含まれる前記変換用文字列を他の文字列に変換する
　請求項９に記載の対話装置。
　前記応答文選択部は、
　前記第２応答文に含まれる前記変換用文字列の内容に基づいて、前記変換用文字列を他の文字列に変換する
　請求項１６に記載の対話装置。
　ユーザ又は他の装置との対話を行う対話装置を制御し、
　入力情報に対する第１応答文を応答文生成モデルにより生成し、
　応答文生成モデルにより生成された複数の第１応答文から構成される応答文候補リストから出力する第２応答文を選択し、
　選択した第２応答文をユーザ又は他の装置に対する対話の応答として出力する、
　処理を実行する対話方法。
　ユーザ又は他の装置との対話を行う対話装置を制御し、
　入力情報に対する第１応答文を応答文生成モデルにより生成し、
　応答文生成モデルにより生成された複数の第１応答文から構成される応答文候補リストから出力する第２応答文を選択し、
　選択した第２応答文をユーザ又は他の装置に対する対話の応答として出力する、
　処理を実行させる対話プログラム。