WO2022249221A1

WO2022249221A1 - 対話装置、対話方法、およびプログラム

Info

Publication number: WO2022249221A1
Application number: PCT/JP2021/019515
Authority: WO
Inventors: 竜一郎東中; 雅博水上; 航光田
Original assignee: 日本電信電話株式会社
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2022-12-01
Also published as: JPWO2022249221A1

Abstract

質問応答データが少量であってもユーザ発話に対して精度の高い応答を行う。質問応答収集部（１２）は、対話の状態と質問と応答とを含む質問応答データを収集する。テンプレート生成部（１３）は、質問応答データに基づいて状態と関連付けられた発話テンプレートを生成する。発話生成部（１４）は、現在の対話の状態に関連付けられた発話テンプレートを用いてシステム発話を生成する。発話提示部（１５）は、システム発話をユーザへ提示する。発話受付部（１６）は、ユーザが発話したユーザ発話を受け付ける。状態遷移部（１７）は、ユーザ発話に基づいて現在の対話の状態を遷移させる。

Description

対話装置、対話方法、およびプログラム

　この発明は、人間と自然言語を用いて対話を行う技術に関する。

　音声認識技術や音声合成技術などの進展に伴い、人間と自然言語を用いて対話を行う対話システムが一般に普及している。対話システムは、一般に、所定のタスクを達成するためのタスク指向型対話システムと、対話すること自体を目的とする非タスク指向型対話システム（一般に「雑談対話システム」とも呼ばれる）に分類される。タスク指向型対話システムと非タスク指向型対話システムについては、非特許文献１に詳述されている。

　タスク指向型対話システムは、スマートフォン上のパーソナルアシスタントやスマートスピーカーとして広く用いられている。タスク指向型対話システムの主な構成法として、状態遷移ベースのものとフレームベースのものがある。

　状態遷移ベースの対話システムでは、対話をいくつかの状態に分類し、その状態間を遷移することでタスクを遂行する。例えば、天気情報案内を行う対話システムの場合、地名を聞く状態（開始状態）、日付を聞く状態、天気情報を提供する状態（終了状態）などが定義される。対話が開始すると、開始状態として定義された地名を聞く状態に遷移する。地名を聞く状態では、ユーザが地名を発話すると、日付を聞く状態に遷移する。日付を聞く状態では、ユーザが日付を発話すると、天気情報を提供する状態に遷移する。天気情報を提供する状態では、これまでに聞き取った地名と日付の情報に基づいて外部のデータベースを参照することで天気情報をユーザに伝え、対話を終了する。

　フレームベースの対話システムでは、ユーザにより発話が入力されると、発話理解、対話制御、発話生成の各プロセスを経て、ユーザの発話に応答する発話が出力される。発話理解は、ユーザ入力をシステムの内部表現に変換する。内部表現として、一般に対話行為が用いられる。対話行為とは、発話意図を表すシンボル（対話行為タイプ）とそれに付随する属性値対からなる意味表現である。例えば、天気情報案内を行う対話システムの場合、「明日の天気を教えてください」というユーザ発話からは、「日付の伝達」という対話行為タイプと、「日付＝明日」という属性値対が得られる。この対話行為はシステム内部にある情報構造である「フレーム」を更新する。フレームには、対話の開始からその時点までにユーザから聞き取った情報が入力されている。上記の天気情報案内を行う対話システムの例であれば、フレームには、例えば、「地名」と「日付」のスロットが含まれる。上記の対話行為によって、「日付」のスロットに「明日」が埋め込まれる。対話制御は、更新されたフレームに基づいて、対話システムが次に行うべき行動を生成する。ここで、行動は対話行為として表現されることが多い。例えば、「地名」のスロットが空であれば、「地名の質問」という対話行為タイプを持つ対話行為を生成する。システムの対話行為は、発話生成によって自然言語（例えば、「どこの天気ですか？」）に変換され、ユーザに向けて出力される。

　非タスク指向型対話システムの構築法は複数の方法が提案されている。例えば、手動で作成された応答ルールによる方法、テキスト検索の手法を用いて大規模テキストからユーザ発話に対するシステム発話を検索する用例ベースの方法、大規模な対話データに基づき深層学習のモデルによって応答発話を生成する方法などがある。

　タスク指向型対話システムと非タスク指向型対話システムのどちらについても、キャラクタ性を持たせることが重要とされている。キャラクタ性により、人間らしい親しみを与えることが可能だからである。キャラクタ性を持たせるためには、発話内容や話し方を一貫させる必要があり、そのための手法も多く研究されている。例えば、非特許文献２，３のように、語尾等をキャラクタに合うように変換する、または、所定のプロフィール情報を参照することでキャラクタ性が一貫した発話を生成する手法が提案されている。

　キャラクタ性を持つ対話システムを構築するためには、対象となるキャラクタの発話データを用意し、それらに基づき発話生成部を構築することが望ましい。そうした発話データの効率的な収集法として、オンラインユーザからキャラクタに関する質問と応答を収集する方法が提案されている（例えば非特許文献４参照）。具体的には、対象となるキャラクタに対する質問をオンラインユーザに記述してもらい、それらの質問に対する応答をそのオンラインユーザに投稿してもらう。オンラインユーザは自身が関心を持つキャラクタに対して質問ができるという楽しみがあると同時に、自身が関心を持つキャラクタになりきって応答ができるという想像の楽しみがある。非特許文献４には、この手法によれば、効率的にオンラインユーザからキャラクタらしい発話を収集できることが示されている。また、収集された質問と応答のペア（以下、「質問応答データ」とも呼ぶ）を用いることで、高いキャラクタ性を持った雑談対話システムを構築できることが示されている。

東中竜一郎，稲葉通将，水上雅博，「Pythonでつくる対話システム」，オーム社，2020年 Miyazaki, Chiaki, et al, "Towards an entertaining natural language generation system: Linguistic peculiarities of Japanese fictional characters," Proceedings of the 17th Annual Meeting of the Special Interest Group on Discourse and Dialogue, 2016. Saizheng Zhang, Emily Dinan, Jack Urbanek, Arthur Szlam, Douwe Kiela, Jason Weston, "Personalizing Dialogue Agents: I have a dog, do you have pets too?", Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, 2018. Ryuichiro Higashinaka, Masahiro Mizukami, Hidetoshi Kawabata, Emi Yamaguchi, Noritake Adachi, Junji Tomita, "Role play-based question-answering by real users for building chatbots with consistent personalities," Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue, 2018.

　高度な対話システムであっても、ユーザが対話をしたくなるようなキャラクタ性を持たないと、利用されない恐れがある。しかし、既存の対話システムにキャラクタ性を持たせたい場合、システム開発者が対象となるキャラクタに合わせて発話生成部を作りなおす必要がある。オンラインユーザが多く存在する場合は、非特許文献４の方法を用いて、大量に質問とその応答を収集することができるが、キャラクタに対してオンラインユーザが少ない場合、多くの質問応答データを収集することができない。少ない質問応答データに基づいて構築された対話システムは、応答能力が低いという問題がある。加えて、オンラインユーザから質問応答データを収集して対話システムに適用する場合、たとえ大量のデータを収集することができたとしても、一問一答を超えるやりとりができないという問題がある。例えば、いくつかの情報を聞き取って応答するような文脈を踏まえた対話システムを実現することができない。

　この発明の目的は、上記のような技術的課題に鑑みて、質問応答データを用いて一問一答を超えるやりとりを行い、かつ、質問応答データが少量であっても精度の高いシステム発話を提示することである。

　この発明の第一の態様の対話装置は、対話の状態と質問と応答とを含む質問応答データを収集する質問応答収集部と、質問応答データに基づいて状態と関連付けられた発話テンプレートを生成するテンプレート生成部と、現在の対話の状態に関連付けられた発話テンプレートを用いてシステム発話を生成する発話生成部と、システム発話をユーザへ提示する発話提示部と、ユーザが発話したユーザ発話を受け付ける発話受付部と、ユーザ発話に基づいて現在の対話の状態を遷移させる状態遷移部と、を含む。

　この発明の第二の態様の対話装置は、発話意図を表す対話行為と質問と応答とを含む質問応答データを収集する質問応答収集部と、質問応答データに基づいて対話行為と関連付けられた発話テンプレートを生成するテンプレート生成部と、次に行う対話行為に関連付けられた発話テンプレートを用いてシステム発話を生成する発話生成部と、システム発話をユーザへ提示する発話提示部と、ユーザが発話したユーザ発話を受け付ける発話受付部と、ユーザ発話に基づいて次に行う対話行為を決定する対話制御部と、を含む。

　この発明の第三の態様の対話装置は、発話とその発話を言い換えた発話とを含む言い替えデータを収集する質問応答収集部と、言い替えデータを用いて、発話を入力とし、その発話を言い換えた発話を出力する発話変換モデルを学習する変換モデル生成部と、システム発話を生成する発話生成部と、システム発話を発話変換モデルに入力してシステム発話を言い換えた変換後システム発話を得る発話変換部と、変換後システム発話をユーザへ提示する発話提示部と、を含む。

　この発明によれば、質問応答データを用いて一問一答を超えるやりとりを行うことができ、かつ、質問応答データが少量であっても精度の高いシステム発話を提示することができる。

図１は第一実施形態の対話装置の機能構成を例示する図である。図２は第一実施形態の対話方法の処理手順を例示する図である。図３は第二実施形態の対話装置の機能構成を例示する図である。図４は第二実施形態の対話方法の処理手順を例示する図である。図５は第三実施形態の対話装置の機能構成を例示する図である。図６は第三実施形態の対話方法の処理手順を例示する図である。図７はコンピュータの機能構成を例示する図である。

　以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

　［発明の概要］
　本発明では、対話システムの内部表現である状態や対話行為に対して、対応する質問と応答をオンラインユーザに投稿してもらうことで、状態や対話行為に関連付けられた質問と応答のペアを収集し、それらに基づき発話生成を行うことで、システム発話の精度を向上する。オンラインユーザから特定のキャラクタらしい発話を収集すれば、任意の対話システムにキャラクタ性を持たせることが可能となる。また、所定の対話システムの応答に対して、キャラクタらしい言い換えとなる発話をオンラインユーザから収集し、現在のシステム発話とキャラクタらしい発話のペアに基づいて発話生成を行うことで、任意の対話システムにキャラクタ性を持たせることができる。これにより、対話システムが複数の状態や対話行為を遷移するような対話を実行する場合でも、各状態や各対話行為に関連付けられた質問と応答のペアを用いることで、状況に応じて適切な応答を行うことができ、キャラクタ性を持った一問一答を超える一貫した対話を実現することができる。

　本発明においては、状態、対話行為、発話のそれぞれについてオンラインユーザから発話を収集するが、これらはそれぞれ制約が異なる。状態は対話システムが置かれている状況を表し、その状況において対話システムが発話可能な意味内容は複数あり得る。しかしながら、対話行為について収集される発話はその対話行為の意味内容に制約される。例えば、「天気情報の伝達」という対話行為が与えられたとき、オンラインユーザから収集される発話の意味内容は天気情報を伝達するものでなければならない。一方、状態の場合は、「対話の初期状態」のように意味内容に制約を受けない場合がある。発話に対する言い換えを収集する場合は、ベースとなる表現も規定するため、制約はより厳しい。制約が厳しいということは、オンラインユーザの自由度が少なく、キャラクタらしさを実現するために必要な言い換えのみを効率的に収集することに繋がる。

　各実施形態では、所定のキャラクタ（以下、「キャラクタＡ」と呼ぶ）が与えられたとき、既存のタスク指向型対話システムをキャラクタＡらしく応答できるように構成する。ここでは、既存のタスク指向型対話システムとして、天気情報を案内する対話システムを想定する。既存の天気情報を案内する対話システムは、状態遷移ベースのものとフレームベースのものがある。第一実施形態は、状態遷移ベースのタスク指向型対話システムの例である。第二実施形態および第三実施形態は、フレームベースのタスク指向型対話システムの例である。各実施形態では、タスク指向型対話システムを対象として説明するが、本発明は、状態または対話行為を有する対話システムであれば、非タスク指向型対話システムにも適用可能である。

　各実施形態では、キャラクタＡとして、小学生の男の子という設定のキャラクタを想定する。また、キャラクタＡに対してオンラインユーザから質問とその応答を収集するための場を用意する。これは、具体的にはウェブサイト（以下、「質問応答収集サイト」と呼ぶ）である。質問応答収集サイト上では、キャラクタＡに関心のあるユーザが、キャラクタＡに対する質問やキャラクタＡになりきった応答を投稿することができる。質問を作成する際には、状態や対話行為を表すタグを付属情報として入力できる。

　［第一実施形態］
　この発明の第一実施形態は、状態遷移ベースのタスク指向型対話システムにおいて、入力されたユーザ発話に対して、キャラクタＡらしく応答するためのシステム発話を提示する対話装置およびその方法の一例である。第一実施形態の対話装置１は、図１に示すように、例えば、テンプレート記憶部１０、状態抽出部１１、質問応答収集部１２、テンプレート生成部１３、発話生成部１４、発話提示部１５、発話受付部１６、および状態遷移部１７を備える。対話装置１は、音声認識部１８および音声合成部１９を備えていてもよい。この対話装置１が図２に示す各ステップの処理を実行することにより、第一実施形態の対話方法が実現される。

　対話装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。対話装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。対話装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。対話装置が備える各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。対話装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

　以下、図２を参照して、第一実施形態の対話装置１が実行する対話方法について詳細に説明する。

　対話装置１は、ユーザ発話の内容を表すテキストを入力とし、そのユーザ発話に応答するためのシステム発話の内容を表すテキストを出力することで、対話相手となるユーザとの対話を実行する。対話装置１が実行する対話は、テキストベースで行われてもよいし、音声ベースで行われてもよい。

　テキストベースで対話を実行する場合、対話装置１が備えるディスプレイ等の表示部（図示せず）に表示された対話画面を用いて、ユーザと対話装置１との対話が実行される。表示部は、対話装置１の筐体に設置されていてもよいし、対話装置１の筐体外に設置され、有線または無線のインターフェイスで対話装置１に接続されていてもよい。対話画面には、少なくともユーザ発話を入力するための入力領域と、システム発話を提示するための表示領域が含まれる。対話画面には、対話の開始から現在までに行われた対話の履歴を表示するための履歴領域が含まれていてもよいし、履歴領域が表示領域を兼ねていてもよい。ユーザは、対話画面の入力領域へユーザ発話の内容を表すテキストを入力する。対話装置１は、対話画面の表示領域へシステム発話の内容を表すテキストを表示する。

　音声ベースで対話を実行する場合、対話装置１は、音声認識部１８および音声合成部１９をさらに備える。また、対話装置１は、マイクロホンおよびスピーカ（図示せず）を備える。マイクロホンおよびスピーカは、対話装置１の筐体に設置されていてもよいし、対話装置１の筐体外に設置され、有線または無線のインターフェイスで対話装置１に接続されていてもよい。また、マイクロホンおよびスピーカを、人間を模したアンドロイドや、動物や架空のキャラクタを模したロボットに搭載してもよい。この場合、アンドロイドやロボットが音声認識部１８および音声合成部１９を備え、対話装置１には、ユーザ発話またはシステム発話の内容を表すテキストを入出力するように構成してもよい。マイクロホンは、ユーザが発声した発話を収音し、ユーザ発話の内容を表す音声を出力する。音声認識部１８は、ユーザ発話の内容を表す音声を入力とし、その音声の音声認識結果であるユーザ発話の内容を表すテキストを出力する。ユーザ発話の内容を表すテキストは、発話受付部１６へ入力される。発話提示部１５が出力するシステム発話の内容を表すテキストは、音声合成部１９へ入力される。音声合成部１９は、システム発話の内容を表すテキストを入力とし、そのテキストを音声合成した結果として得られるシステム発話の内容を表す音声を出力する。スピーカは、システム発話の内容を表す音声を放音する。

　ステップＳ１１において、状態抽出部１１は、対話装置１の内部（例えば、状態遷移部１７）に定義されている状態の一覧を取得し、取得した状態の一覧を質問応答収集部１２へ出力する。本実施形態では、「地名を聞く状態」と「日付を聞く状態」と「天気情報を提供する状態」の３つの状態が取得されたものとする。

　ステップＳ１２において、質問応答収集部１２は、状態抽出部１１から状態の一覧を受け取り、オンラインユーザから各状態に関連付けられた質問応答データを収集し、収集した質問応答データをテンプレート生成部１３へ出力する。具体的には、まず、質問応答収集部１２は、質問応答収集サイトに各状態をタグとして追加し、投稿画面において選択可能とする。オンラインユーザは、質問応答収集サイト上で任意の状態のタグを選択し、その状態においてキャラクタＡがするであろう質問と、その質問に対する応答を入力する。これにより、質問応答収集部１２は、状態がタグ付けされた質問応答データを取得することができる。例えば、「地名を聞く状態」の質問として「どこの天気が聞きたいの？」「どこのこと？」などの発話が収集される。「日付を聞く状態」の質問として「いつ？」「何日ですか？」などの発話が収集される。「天気情報を提供する状態」では「＃＃＃だよ！」などの発話が収集される。ただし、＃＃＃は、発話生成部１４において天気情報データベースから都度抽出される天気情報によって埋められるプレースホルダである。

　ステップＳ１３において、テンプレート生成部１３は、質問応答収集部１２から質問応答データを受け取り、各状態に関連付けられた質問応答データから発話テンプレートを構築し、テンプレート記憶部１０へ記憶する。発話テンプレートは、状態遷移モデルの各状態に紐づいた発話のテンプレートである。これらは当該状態に遷移した際に利用される。通常、質問応答データに含まれる質問を発話テンプレートとして利用することが想定されるが、応答を発話テンプレートとして利用してもよい。質問応答データに含まれる質問と応答のいずれを発話テンプレートとして利用するかは、状態の内容に基づいて予め定めておけばよい。例えば、「地名を聞く状態」の発話テンプレートは「場所はどこですか？」であり、「日付を聞く状態」の発話テンプレートは「何日ですか？」であり、「天気情報を提供する状態」の発話テンプレートは、「今日の天気は＃＃＃です」である。発話テンプレートは単なる状態名と発話のペアであるので、収集された質問応答データから状態とそれに紐づく発話を一つ選択することで構築できる。

　ステップＳ１４において、発話生成部１４は、現在の対話の状態を入力とし、テンプレート記憶部１０に記憶された発話テンプレートから、その現在の対話の状態に関連付けられた発話テンプレートを取得し、取得した発話テンプレートを用いてシステム発話の内容を表すテキストを生成し、生成したシステム発話の内容を表すテキストを発話提示部１５へ出力する。入力とする現在の対話の状態は、対話開始から一回目の実行であれば、予め定めた開始状態（ここでは「地名を聞く状態」）であり、二回目以降の実行であれば、後述する状態遷移部１７が出力する遷移後の状態である。発話テンプレートにプレースホルダが含まれる場合には、所定のデータベースからそのプレースホルダに対応する情報を取得し、取得した情報を発話テンプレートのプレースホルダに埋め込むことで、システム発話の内容を表すテキストを生成する。例えば、「今日の天気は＃＃＃です」という発話テンプレートであれば、天気情報データベースから天気情報を取得し（ここでは「晴れ時々曇り」だったとする）、＃＃＃を「晴れ時々曇り」で置き換えた「今日の天気は晴れ時々曇りです」がシステム発話の内容を表すテキストとなる。

　ステップＳ１５において、発話提示部１５は、発話生成部１４からシステム発話の内容を表すテキストを受け取り、そのシステム発話の内容を表すテキストを予め定めた方法でユーザへ提示する。テキストベースで対話を実行している場合、システム発話の内容を表すテキストは対話装置１の表示部に出力される。音声ベースで対話を実行している場合、システム発話の内容を表すテキストは音声合成部１８へ入力され、音声合成部１８が出力するシステム発話の内容を表す音声が所定のスピーカから再生される。

　ステップＳ１００において、対話装置１は、現在の対話が終了したか否かを判定する。現在の対話が終了していないと判定した場合（ＮＯ）、ステップＳ１６へ処理を進める。現在の対話が終了したと判定した場合（ＹＥＳ）、処理を終了し、次の対話が開始するまで待機する。対話の終了判定は、現在の状態が予め定義した終了状態（ここでは「天気情報を提供する状態」）であるか否かを判定することにより行えばよい。

　ステップＳ１６において、発話受付部１６は、対話装置１に入力された（または、音声認識部１８が出力した）ユーザ発話の内容を表すテキストを入力とし、そのユーザ発話の内容を表すテキストを状態遷移部１７へ出力する。

　ステップＳ１７において、状態遷移部１７は、発話受付部１６からユーザ発話の内容を表すテキストを受け取り、ユーザ発話の内容を解析し、その解析結果に基づいて現在の対話の状態を遷移させ、遷移後の状態を発話生成部１４へ出力する。例えば、「地名を聞く状態」では、ユーザ発話に地名が含まれる場合、その地名を取得した上で、次の「日付を聞く状態」に遷移する。「日付を聞く状態」では、ユーザ発話に日付が含まれる場合、その日付を取得した上で、次の「天気情報を提供する状態」に遷移する。ユーザ発話に地名が含まれるか否かの判断は、ユーザ発話の内容を表すテキストに、予め用意された地名のリストに合致する地名が含まれるかどうかを文字列マッチにより行えばよい。日付についても同様である。その他、条件付確率場などの系列ラベリングの手法に基づく固有表現抽出技術を行い、地名や日付を抽出することで、ユーザ発話に地名や日付が含まれるか否かを判断してもよい。

　その後、対話装置１は、ステップＳ１４へ処理を戻し、遷移後の状態に関連付けられたシステム発話を提示する。対話装置１は、ステップＳ１００において、対話が終了したと判定されるまで、システム発話の提示（ステップＳ１４およびＳ１５）とユーザ発話の受付（ステップＳ１６およびＳ１７）を繰り返すことで、ユーザとの対話を実行する。

　＜第一実施形態の具体例＞
　第一実施形態の対話装置１により実行される対話の具体例を以下に示す。第一実施形態によれば、下記のように、所定のキャラクタらしい発話で天気情報を案内するための状態遷移ベースのタスク指向型対話システムを構築することができる。なお、システム発話における括弧内の記載は、その時点での状態を表す。
　システム：どこの天気が聞きたいの？（地名を聞く状態）
　ユーザ　：東京です。
　システム：いつ？（日にちを聞く状態）
　ユーザ　：明日です。
　システム：晴れだよ！（天気情報を提供する状態）

　なお、オンラインユーザからは、各状態について複数の発話が収集されることが想定される。よって、発話テンプレート生成部１３が対話のたびに動的に発話テンプレートを生成することで、キャラクタＡらしい様々な言い回しを行うようにすることも可能である。これにより、より人間らしく、親しみの持てる、表現力が豊かなタスク指向型対話システムを実現することができる。

　［第二実施形態］
　この発明の第二実施形態は、フレームベースのタスク指向型対話システムにおいて、入力されたユーザ発話に対して、キャラクタＡらしく応答するためのシステム発話を提示する対話装置およびその方法の一例である。第二実施形態の対話装置２は、図３に示すように、第一実施形態の対話装置１が備えるテンプレート記憶部１０、質問応答収集部１２、テンプレート生成部１３、発話生成部１４、発話提示部１５、および発話受付部１６を備え、さらに、対話ログ記憶部２０、対話行為抽出部２１、発話理解部２２、および対話制御部２３を備える。対話装置２は、第一実施形態の対話装置１と同様に、音声認識部１８および音声合成部１９を備えていてもよい。この対話装置２が図４に示す各ステップの処理を実行することにより、第二実施形態の対話方法が実現される。

　以下、図４を参照して、第二実施形態の対話装置２が実行する対話方法について、第一実施形態との相違点を中心に説明する。

　対話ログ記憶部２０には、ユーザと対話装置が対話した際の対話ログが記憶されている。対話ログには、ユーザ発話の内容を表すテキスト、システム発話の内容を表すテキスト、およびシステム対話行為を表すラベルが含まれている。システム対話行為は、システム発話の発話意図を表し、システムの対話行為の対話行為タイプである。ユーザ発話の内容を表すテキストは、発話受付部１６がユーザ発話の内容を表すテキストを出力する際に記憶される。システム発話の内容を表すテキストおよびシステム対話行為を表すラベルは、発話生成部１４がシステム発話の内容を表すテキストを出力する際に記憶される。

　ステップＳ２１において、対話行為抽出部２１は、対話ログ記憶部２０に記憶された対話ログから、システム対話行為の一覧を取得し、取得したシステム対話行為の一覧を質問応答収集部１２へ出力する。もしくは、対話装置２の内部（例えば、対話制御部２３）に定義されているシステム対話行為の一覧を取得してもよい。本実施形態では、システム対話行為として、「地名の質問」と「日付の質問」と「天気情報の提供」の３つの対話行為が取得されたものとする。

　ステップＳ１２において、質問応答収集部１２は、対話行為抽出部２１からシステム対話行為の一覧を受け取り、オンラインユーザから各システム対話行為に関連付けられた質問応答データを収集し、収集した質問応答データをテンプレート生成部１３へ出力する。具体的には、まず、質問応答収集部１２は、質問応答収集サイトに各システム対話行為をタグとして追加し、投稿画面において選択可能とする。オンラインユーザは、質問応答収集サイト上で任意のシステム対話行為のタグを選択し、そのシステム対話行為においてキャラクタＡがするであろう質問と、その質問に対する応答を入力する。これにより、質問応答収集部１２は、システム対話行為がタグ付けされた質問応答データを取得することができる。例えば、「地名の質問」というシステム対話行為の質問として「どこの天気が聞きたいの？」「どこのこと？」などの発話が収集される。「日付の質問」というシステム対話行為の質問として「いつ？」「なんにち？」などの発話が収集される。「天気情報の提供」というシステム対話行為では「＃＃＃だよ！」などの発話が収集される。

　ステップＳ１３において、テンプレート生成部１３は、質問応答収集部１２から質問応答データを受け取り、各システム対話行為に関連付けられた質問応答データから発話テンプレートを構築し、テンプレート記憶部１０へ記憶する。発話テンプレートは、各システム対話行為に紐づいた発話のテンプレートである。これらは当該システム対話行為を発話する際に利用される。通常、質問応答データに含まれる質問を発話テンプレートとして利用することが想定されるが、応答を発話テンプレートとして利用してもよい。質問応答データに含まれる質問と応答のいずれを発話テンプレートとして利用するかは、対話行為の内容に基づいて予め定めておけばよい。例えば、「地名の質問」の発話テンプレートは「場所はどこですか？」であり、「日付を聞く質問」の発話テンプレートは「何日ですか？」であり、「天気情報の提供」の発話テンプレートは、「今日の天気は＃＃＃です」である。発話テンプレートは単なる対話行為名と発話のペアであるので、収集された質問応答データからシステム対話行為とそれに紐づく発話を一つ選択することで構築できる。

　ステップＳ１４において、発話生成部１４は、次に行うシステム対話行為を入力とし、テンプレート記憶部１０に記憶された発話テンプレートから、そのシステム対話行為に関連付けられた発話テンプレートを取得し、取得した発話テンプレートを用いてシステム発話の内容を表すテキストを生成し、生成したシステム発話の内容を表すテキストを発話提示部１５へ出力する。入力とするシステム対話行為は、対話開始から一回目の実行であれば、予め定めた対話行為（例えば、「地名の質問」）であり、二回目以降の実行であれば、後述する対話制御部２３が出力する次に行うシステム対話行為である。

　ステップＳ２２において、発話理解部２２は、発話受付部１６からユーザ発話の内容を表すテキストを受け取り、ユーザ発話の内容を解析し、ユーザ発話の意図を表すユーザ対話行為と属性値対を得、得たユーザ対話行為と属性値対を対話制御部２３へ出力する。ユーザ対話行為は、ユーザの対話行為の対話行為タイプである。本実施形態では、ユーザ対話行為として「地名の伝達」と「日付の伝達」と「地名と日付の伝達」の３つの対話行為があるものとする。例えば、「地名の伝達」では、属性として地名を取る。「日付の伝達」では、属性として日付を取る。「地名と日付の伝達」では、属性として地名と日付の両方を取る。ユーザ対話行為は、発話に対して対話行為タイプが付与されたデータから機械学習の手法によって学習された分類モデルを用いて得ることができる。機械学習の手法として、例えば、ロジスティック回帰を用いることができるし、サポートベクトルマシンやニューラルネットワークを用いてもよい。属性の抽出には、発話に含まれる各単語に対して、その単語が地名であるか日付の部分文字列であるかをラベル付けしたデータを構築し、系列ラベリングの手法（例えば、条件付確率場）によって学習したモデルを用いることができる。これにより、「明日の天気なんですけど」という発話からは、ユーザ対話行為として「日付の伝達」を、属性値対として「日付＝明日」を抽出できる。

　ステップＳ２３において、対話制御部２３は、発話理解部２２からユーザ対話行為と属性値対を受け取り、その属性値対で予め定義されたフレームを埋め、フレームの状態に従って、次に行うべきシステム対話行為を決定し、決定したシステム対話行為を発話生成部１４へ出力する。システム対話行為の決定方法は、例えば、If-Thenの形で記述されたルールに従って行われる。例えば、ユーザ対話行為が「日付の伝達」であれば、その日付の属性によって「日付」のスロットを埋める、といった処理が記述される。また、フレームに値が埋められていないスロットがあれば、次にそのスロットを質問するシステム対話行為を選択する、といった処理が記述される。ここで、対話制御部の挙動はIf-Thenルールのみならず、入力に対して出力を得るEncoder-Decoder型のニューラルネットワークや入力に対して最適な行動を学習するマルコフ決定過程や部分観測マルコフ決定過程を用いた強化学習により実装してもよい。

　＜第二実施形態の具体例＞
　第二実施形態の対話装置２により実行される対話の具体例を以下に示す。第二実施形態によれば、下記のように、所定のキャラクタらしい発話で天気情報を案内するためのフレームベースのタスク指向型対話システムを構築することができる。なお、システム発話における括弧内の記載は、システム対話行為を表し、ユーザ発話における括弧内の記載は、ユーザ対話行為と属性値対を表す。※以降は対話システムの動作を説明するコメントである。
　システム：どこの天気が聞きたいの？（地名の質問）※システムの初期発話として設定
　ユーザ　：東京です。（地名の伝達、地名＝東京）
　システム：いつ？（日付の質問）
　ユーザ　：明日です。（日付の伝達、日付＝明日）
　システム：晴れだよ！（天気情報の提供）

　［第三実施形態］
　この発明の第三実施形態は、フレームベースのタスク指向型対話システムにおいて、入力されたユーザ発話に対して、キャラクタＡらしく応答するためのシステム発話を提示する対話装置およびその方法の他の例である。第三実施形態の対話装置３は、図５に示すように、第二実施形態の対話装置２が備えるテンプレート記憶部１０、質問応答収集部１２、テンプレート生成部１３、発話生成部１４、発話提示部１５、発話受付部１６、対話ログ記憶部２０、対話行為抽出部２１、発話理解部２２、および対話制御部２３を備え、さらに、変換モデル記憶部３０、発話抽出部３１、変換モデル生成部３２、および発話変換部３３を備える。対話装置３は、第一実施形態の対話装置１と同様に、音声認識部１８および音声合成部１９を備えていてもよい。この対話装置３が図６に示す各ステップの処理を実行することにより、第三実施形態の対話方法が実現される。

　以下、図６を参照して、第三実施形態の対話装置３が実行する対話方法について、第二実施形態との相違点を中心に説明する。

　ステップＳ３１において、発話抽出部３１は、対話ログ記憶部２０に記憶された対話ログから、システム発話の一覧を取得し、取得したシステム発話の一覧を質問応答収集部１２へ出力する。もしくは、対話装置３の内部（例えば、テンプレート記憶部２０）から対話装置３が発話し得るシステム発話の一覧を取得してもよい。

　ステップＳ１２－２において、質問応答収集部１２は、発話抽出部３１からシステム発話の一覧を受け取り、オンラインユーザから各システム発話とそのシステム発話を言い換えた言い換え発話のペア（以下、「言い換えデータ」とも呼ぶ）を収集し、収集した言い換えデータを変換モデル生成部３２へ出力する。具体的には、まず、質問応答収集部１２は、質問応答収集サイトに各システム発話をタグとして追加し、投稿画面において選択可能とする。オンラインユーザは、質問応答収集サイト上で任意のシステム発話のタグを選択し、そのシステム発話を言い換えて、キャラクタＡがするであろう発話を入力する。これにより、質問応答収集部１２は、システム発話がタグ付けされたキャラクタＡによる言い換え発話を取得することができる。例えば、「地名の質問」というシステム対話行為のシステム発話である「場所はどこですか？」に対して「どこの天気が聞きたいの？」といった言い換え発話が収集される。

　ステップＳ３２において、変換モデル生成部３２は、質問応答収集部１２から言い換えデータを受け取り、タグ付けされたシステム発話とオンラインユーザが入力した言い換え発話をペアのデータとして、発話を言い換える発話変換モデルを学習し、学習した発話変換モデルを変換モデル記憶部３０へ記憶する。発話変換モデルには、例えば、ニューラルネットワークによるSeq2Seqのモデルを用いることができる。具体的には、BERTモデルをエンコーダとデコーダに用い、ツールとしてOpenNMT-APEを用いる。このツールは、トークナイズされたペアの発話データから、入力に対する出力発話を生成する生成モデルを構築することができる。なお、その他のやり方、例えば、再帰型ニューラルネットワークを用いる方法により発話変換モデルを学習してもよい。BERTとOpenNMT-APEについては以下の参考文献１，２に詳述されている。

　〔参考文献１〕Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics, 2019.
　〔参考文献２〕Gon，calo M. Correia, Andre F. T. Martins, "A Simple and Effective Approach to Automatic Post-Editing with Transfer Learning," Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019.

　ステップＳ３３において、発話変換部３３は、発話生成部１４からシステム発話の内容を表すテキストを受け取り、そのシステム発話の内容を表すテキストを変換モデル記憶部３０に記憶された発話変換モデルへ入力し、システム発話を言い換えた変換後システム発話の内容を表すテキストを得、得た変換後システム発話の内容を表すテキストを発話提示部１５へ出力する。

　第三実施形態の発話提示部１５は、発話生成部１４から変換後システム発話の内容を表すテキストを受け取り、その変換後システム発話の内容を表すテキストをシステム発話の内容を表すテキストとして予め定めた方法でユーザへ提示する。

　＜第三実施形態の具体例＞
　第三実施形態の対話装置３により実行される対話の具体例を以下に示す。第三実施形態によれば、下記のように、所定のキャラクタらしい発話で天気情報を案内するためのフレームベースのタスク指向型対話システムを構築することができる。なお、システム発話における括弧内の記載は、システム対話行為を表し、ユーザ発話における括弧内の記載は、ユーザ対話行為と属性値対を表す。※以降は対話システムの動作を説明するコメントである。
　システム：どこの天気が聞きたいの？（地名の質問）※システムの初期発話として設定
　ユーザ　：東京です。（地名の伝達、地名＝東京）
　システム：いつ？（日付の質問）※「いつですか？」を「いつ？」に言い換え
　ユーザ　：明日です。（日付の伝達、日付＝明日）
　システム：晴れだよ！（天気情報の提供）※「晴れです」を「晴れだよ！」に言い換え

　［発明の効果］
　本発明により、オンラインユーザから収集できた質問応答データが少なかったとしても、対話システムの内部表現である状態や対話行為に基づいてシステム発話を生成するため、対話の状況に応じて適切なシステム発話を提示することができる。オンラインユーザから特定のキャラクタらしい発話を収集すれば、既存の対話システムにキャラクタ性を持たせることができるようになり、システム開発者が対象となるキャラクタ向けに発話生成部を作り直す必要がなくなる。加えて、対話システムの状態や対話行為に紐づいた質問応答データを収集し、予め対話システムが有する状態や対話行為の遷移と組み合わせることにより、一問一答を超え、かつ、キャラクタらしいやり取りが可能となる。

　以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

　［プログラム、記録媒体］
　上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図７に示すコンピュータの記憶部１０２０に読み込ませ、演算処理部１０１０、入力部１０３０、出力部１０４０などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、磁気記録装置、光ディスク等である。

　また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部１０５０に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部１０５０に格納されたプログラムを一時的な記憶装置である記憶部１０２０に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　対話の状態と質問と応答とを含む質問応答データを収集する質問応答収集部と、
　前記質問応答データに基づいて前記状態と関連付けられた発話テンプレートを生成するテンプレート生成部と、
　現在の対話の状態に関連付けられた前記発話テンプレートを用いてシステム発話を生成する発話生成部と、
　前記システム発話をユーザへ提示する発話提示部と、
　前記ユーザが発話したユーザ発話を受け付ける発話受付部と、
　前記ユーザ発話に基づいて前記現在の対話の状態を遷移させる状態遷移部と、
　を含む対話装置。
　発話意図を表す対話行為と質問と応答とを含む質問応答データを収集する質問応答収集部と、
　前記質問応答データに基づいて前記対話行為と関連付けられた発話テンプレートを生成するテンプレート生成部と、
　次に行う対話行為に関連付けられた前記発話テンプレートを用いてシステム発話を生成する発話生成部と、
　前記システム発話をユーザへ提示する発話提示部と、
　前記ユーザが発話したユーザ発話を受け付ける発話受付部と、
　前記ユーザ発話に基づいて前記次に行う対話行為を決定する対話制御部と、
　を含む対話装置。
　請求項２に記載の対話装置であって、
　前記システム発話とそのシステム発話を言い換えた発話とを含む言い替えデータを用いて、発話を入力とし、その発話を言い換えた発話を出力する発話変換モデルを学習する変換モデル生成部と、
　前記システム発話を前記発話変換モデルに入力して前記システム発話を言い換えた変換後システム発話を得る発話変換部と、
　をさらに含む対話装置。
　発話とその発話を言い換えた発話とを含む言い替えデータを収集する質問応答収集部と、
　前記言い替えデータを用いて、発話を入力とし、その発話を言い換えた発話を出力する発話変換モデルを学習する変換モデル生成部と、
　システム発話を生成する発話生成部と、
　前記システム発話を前記発話変換モデルに入力して前記システム発話を言い換えた変換後システム発話を得る発話変換部と、
　前記変換後システム発話をユーザへ提示する発話提示部と、
　を含む対話装置。
　質問応答収集部が、対話の状態と質問と応答とを含む質問応答データを収集し、
　テンプレート生成部が、前記質問応答データに基づいて前記状態と関連付けられた発話テンプレートを生成し、
　発話生成部が、現在の対話の状態に関連付けられた前記発話テンプレートを用いてシステム発話を生成し、
　発話提示部が、前記システム発話をユーザへ提示し、
　発話受付部が、前記ユーザが発話したユーザ発話を受け付け、
　状態遷移部が、前記ユーザ発話に基づいて前記現在の対話の状態を遷移させる、
　対話方法。
　質問応答収集部が、発話意図を表す対話行為と質問と応答とを含む質問応答データを収集し、
　テンプレート生成部が、前記質問応答データに基づいて前記対話行為と関連付けられた発話テンプレートを生成し、
　発話生成部が、次に行う対話行為に関連付けられた前記発話テンプレートを用いてシステム発話を生成し、
　発話提示部が、前記システム発話をユーザへ提示し、
　発話受付部が、前記ユーザが発話したユーザ発話を受け付け、
　対話制御部が、前記ユーザ発話に基づいて前記次に行う対話行為を決定する、
　対話方法。
　質問応答収集部が、発話とその発話を言い換えた発話とを含む言い替えデータを収集し、
　変換モデル生成部が、前記言い替えデータを用いて、発話を入力とし、その発話を言い換えた発話を出力する発話変換モデルを学習し、
　発話生成部が、システム発話を生成し、
　発話変換部が、前記システム発話を前記発話変換モデルに入力して前記システム発話を言い換えた変換後システム発話を得、
　発話提示部が、前記変換後システム発話をユーザへ提示する、
　対話方法。
　請求項１から４のいずれかに記載の対話装置としてコンピュータを機能させるためのプログラム。