WO2022249222A1

WO2022249222A1 - 対話装置、対話方法、およびプログラム

Info

Publication number: WO2022249222A1
Application number: PCT/JP2021/019516
Authority: WO
Inventors: 雅博水上; 竜一郎東中
Original assignee: 日本電信電話株式会社
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2022-12-01
Also published as: JPWO2022249222A1

Abstract

所定のタスクを達成するための対話システムを低コストで構築する。用例記憶部（１０－１）は、発話文と応答文と状況情報とからなる複数の用例を記憶する。選択規則記憶部（１０－３）は、対話状態と利用可能な状況情報と遷移先の対話状態とからなる選択規則を記憶する。発話受付部（１２）は、ユーザが発話したユーザ発話を受け付ける。対話状態取得部（１３）は、現在の対話状態を取得する。用例選択部（１４）は、選択規則を用いて、複数の用例から、状況情報が現在の対話状態で利用可能な状況情報に対応し、発話文がユーザ発話に対応する選択用例を選択する。対話状態更新部（１５）は、現在の対話状態を選択規則に含まれる遷移先の対話状態に更新する。発話提示部（１６）は、選択用例に含まれる応答文に基づくシステム発話をユーザへ提示する。

Description

対話装置、対話方法、およびプログラム

　この発明は、人間と自然言語を用いて対話を行う技術に関する。

　音声認識技術や音声合成技術などの進展に伴い、人間と自然言語を用いて対話を行う対話システムが一般に普及している。対話システムは、一般に、所定のタスクを達成するためのタスク指向型対話システム（以下、「タスク対話システム」とも呼ぶ）と、対話すること自体を目的とする非タスク指向型対話システム（一般に「雑談対話システム」とも呼ばれる）に分類される。対話システムを構築する技術には様々あるが、多くの場合、シナリオ方式、または、用例方式が用いられる。

　シナリオ方式は、主にタスク対話システムで用いられる技術である。シナリオ方式では、対話の目的を達成するためのシナリオを事前に準備しておき、対話システムがそのシナリオに従ってユーザとの対話を実行する。例えば、確定申告書類の提出についての対話であれば、対話の目的は、提出するべき確定申告書類についてユーザへ教示することで、ユーザが適切に確定申告書類を提出できるようにすることである。シナリオ方式では、多くの場合において、専門知識を有する専門家がシナリオを作成する。そのため、しばしばエキスパートシステムとも呼ばれる（例えば、非特許文献１参照）。

　用例方式は、主に雑談対話システムで用いられる技術である。用例方式は、用例と呼ばれる単純な発話と応答のルール（ユーザがこのように発話したら、システムがこのように応答する）を事前に準備しておき、対話システムがそのルールに従ってユーザの発話に対して応答を発話することで、ユーザとの対話を実行する。用例方式では、例えば、ソーシャルネットワーキングサービス（SNS: Social Networking Service）上で行われた対話に基づいて自動で生成する方法や、複数のユーザが特定のキャラクタになりきって作成する方法などを用いて、用例を準備する（例えば、非特許文献２参照）。

"エキスパートシステムの事例調査"、財団法人日本情報処理開発協会、１９８６年４月 Ryuichiro Higashinaka, Masahiro Mizukami, Hidetoshi Kawabata, Emi Yamaguchi, Noritake Adachi, and Junji Tomita, "Role play-based question-answering by real users for building chatbots with consistent personalities", Proceedings of the SIGDIAL 2018 Conference, pages 264-272, July 2018.

　エキスパートシステムをはじめとして、専門知識を必要とするタスクを実行する対話システムは、専門家が手動でシナリオを作成するシナリオ方式を採用しているため、構築に非常に多くのコストを要する。また、複数のタスクを同時に実行する対話システムを構築するためには、複数の専門家が作成したシナリオを適切に組み合わせる必要があるため、単一のタスクを実行する対話システムを構築するよりもさらに多くのコストを要する。

　この発明の目的は、上記のような技術的課題を鑑みて、所定のタスクを達成するための対話システムを低コストで構築することである。

　この発明の一態様の対話装置は、発話文と応答文と状況情報とからなる複数の用例を記憶する用例記憶部と、対話状態とその対話状態で利用可能な状況情報とその状況情報の用例が選択されたときの遷移先の対話状態とからなる選択規則を記憶する選択規則記憶部と、ユーザが発話したユーザ発話を受け付ける発話受付部と、選択規則を用いて、複数の用例から、状況情報が現在の対話状態で利用可能な状況情報に対応し、発話文がユーザ発話に対応する選択用例を選択する用例選択部と、選択用例に含まれる応答文に基づくシステム発話をユーザへ提示する発話提示部と、を含む。

　この発明によれば、所定のタスクを達成するための対話システムを低コストで構築することができる。

図１は第一実施形態の対話装置の機能構成を例示する図である。図２は第一実施形態の対話方法の処理手順を例示する図である。図３は第二実施形態の対話装置の機能構成を例示する図である。図４は第二実施形態の対話方法の処理手順を例示する図である。図５はコンピュータの機能構成を例示する図である。

　以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

　［第一実施形態］
　この発明の第一実施形態は、様々なタスクを同時に実行することができ、かつ、専門家の労力を要せず低コストで構築することが可能な対話装置およびその方法である。本発明では、（１）非専門家による状況情報を付与した用例の収集、（２）対話制御による状況に応じた応答選択、という２つの要素技術を導入することにより、上述の課題を解決する。多くの非専門家が、各々が自信を持って回答できる（すなわち、部分的に専門に近い知識を有している）内容の用例を作成することで、全体として専門知識が収集されたデータベースを構築することが可能となる。これにより、専門知識を有する専門家がシナリオを作成する場合に必要となるコストよりも低いコストで対話システムを構築することができる。また、通常は雑談対話で用いられる用例を用いて、シナリオ方式と同等の対話を実現するために、対話制御の技術を導入する。対話制御は、スロット・バリュー方式のタスク対話システムで用いられる技術であり、用例方式の対話システムでは通常用いられない。対話制御を導入するために、収集する用例に状況情報と呼ばれる追加の属性を組み合わせる。これにより、用例方式の対話システムにおいて、シナリオ方式のような対話の流れや、状況に応じた精度の高い応答を実現することが可能となる。

　第一実施形態の対話装置１は、図１に示すように、例えば、用例記憶部１０－１、対話状態記憶部１０－２、選択規則記憶部１０－３、用例収集部１１、発話受付部１２、対話状態取得部１３、用例選択部１４、対話状態更新部１５、および発話提示部１６を備える。対話装置１は、音声認識部１７および音声合成部１８を備えていてもよい。この対話装置１が図２に示す各ステップの処理を実行することにより、第一実施形態の対話方法が実現される。

　対話装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。対話装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。対話装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。対話装置が備える各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。対話装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。対話装置が備える複数の記憶部は、物理的に異なる複数の記憶装置として実装されていてもよいし、１個の記憶装置が論理的に複数の領域に分割されることで実装されていてもよい。

　以下、図２を参照して、第一実施形態の対話装置１が実行する対話方法について詳細に説明する。

　対話装置１は、ユーザ発話の内容を表すテキストを入力とし、そのユーザ発話に応答するためのシステム発話の内容を表すテキストを出力することで、対話相手となるユーザとの対話を実行する。対話装置１が実行する対話は、テキストベースで行われてもよいし、音声ベースで行われてもよい。

　テキストベースで対話を実行する場合、対話装置１が備えるディスプレイ等の表示部（図示せず）に表示された対話画面を用いて、ユーザと対話装置１との対話が実行される。表示部は、対話装置１の筐体に設置されていてもよいし、対話装置１の筐体外に設置され、有線または無線のインターフェイスで対話装置１に接続されていてもよい。対話画面には、少なくともユーザ発話を入力するための入力領域と、システム発話を提示するための表示領域が含まれる。対話画面には、対話の開始から現在までに行われた対話の履歴を表示するための履歴領域が含まれていてもよいし、履歴領域が表示領域を兼ねていてもよい。ユーザは、対話画面の入力領域へユーザ発話の内容を表すテキストを入力する。対話装置１は、対話画面の表示領域へシステム発話の内容を表すテキストを表示する。

　音声ベースで対話を実行する場合、対話装置１は、音声認識部１７および音声合成部１８をさらに備える。また、対話装置１は、マイクロホンおよびスピーカ（図示せず）を備える。マイクロホンおよびスピーカは、対話装置１の筐体に設置されていてもよいし、対話装置１の筐体外に設置され、有線または無線のインターフェイスで対話装置１に接続されていてもよい。また、マイクロホンおよびスピーカを、人間を模したアンドロイドや、動物や架空のキャラクタを模したロボットに搭載してもよい。この場合、アンドロイドやロボットが音声認識部１７および音声合成部１８を備え、対話装置１には、ユーザ発話またはシステム発話の内容を表すテキストを入出力するように構成してもよい。マイクロホンは、ユーザが発声した発話を収音し、ユーザ発話の内容を表す音声を出力する。音声認識部１７は、ユーザ発話の内容を表す音声を入力とし、その音声の音声認識結果であるユーザ発話の内容を表すテキストを出力する。ユーザ発話の内容を表すテキストは、発話受付部１２へ入力される。発話提示部１６が出力するシステム発話の内容を表すテキストは、音声合成部１８へ入力される。音声合成部１８は、システム発話の内容を表すテキストを入力とし、そのテキストを音声合成した結果として得られるシステム発話の内容を表す音声を出力する。スピーカは、システム発話の内容を表す音声を放音する。

　用例記憶部１０－１には、複数の用例登録者が入力した複数の用例が記憶されている。用例は、ユーザが発話することを想定した発話文と、システムがその発話に応答するための応答文と、その発話文と応答文の組に対応する少なくとも１個の状況情報とからなる。状況情報は、例えば、「観光案内」や「行政手続き」のように、現在の対話で行われている話題のカテゴリを表す情報である。用例登録者が用例に設定する状況情報は、予め定義された状況情報から選択してもよいし、用例登録者が任意に作成してもよい。

　用例登録者は、専門知識を有する専門家であってもよいし、専門知識を有さない非専門家であってもよい。用例の入力には、例えば、ウェブサイトを用いたデータ収集を行うことができる（非特許文献２参照）。そのウェブサイトにおいて、非専門家が、ユーザ発話の内容を表す発話文と、そのユーザ発話に応答するシステム発話の内容を表す応答文と、そのユーザ発話とシステム発話が行われる状況情報とを組にして投稿すればよい。例えば、「観光案内」と「行政手続き」に関するタスク対話を想定した場合、部分的に専門に近い知識がある非専門家として、その地方に住んでいる人、住んでいた人、興味を持っている人、行政手続きをしている人、行政手続きをしたことのある人などに参加してもらえばよい。また、「観光案内」や「行政手続き」といったタスク対話だけでなく、雑談対話を想定して、状況情報を「雑談」に設定した用例を予め収集し、用例記憶部１０－１に記憶しておいてもよい。

　非特許文献２には、多くの用例登録者が特定のキャラクタになりきって用例を作成することが記載されているが、本実施形態では、特定のキャラクタになりきって用例を作成することは必須の構成ではない。用例登録者は、特定のキャラクタになりきらずに用例を作成してもよいし、特定のキャラクタになりきって作成した用例と特定のキャラクタになりきらずに作成した用例とが混在していても構わない。

　対話状態記憶部１０－２には、対話状態を表す情報が記憶されている。対話状態とは、現在の対話の状態を表す情報であり、対話の開始から直前の発話までに行われた対話に基づいて決定される。実際には、直前のシステム発話を提示する際に、後述する対話状態更新部１５が設定する。対話状態の初期値は、用例記憶部１０－１に記憶された用例のいずれかに設定された状況情報から任意に設定すればよい。もしくは、対話制御のための形式的な対話状態として、例えば「対話開始」などに設定してもよい。この場合、状況情報を「対話開始」に設定した形式的な用例を予め用例記憶部１０－１へ記憶しておく。

　選択規則記憶部１０－３には、事前に定義された選択規則が記憶されている。選択規則は、対話状態と状況情報と遷移先の対話状態との対応関係を表し、現在の対話状態において利用できる状況情報と、その状況情報の用例が選択された場合に現在の対話状態から遷移する先の対話状態と、を定義する。選択規則は、（１）ある対話状態Ｘのときには状況情報がＹまたはＺの用例を選択することができること、および（２）状況情報Ｚである用例Ａを選択した場合、Ｘとは異なる他の対話状態Ｗに遷移する、または、対話状態Ｘに遷移すること、を定義する。（１）については、例えば、（１－１）対話状態が「観光案内」のときには、状況情報が「観光案内」、「歴史」、または「神社」の用例を選択することができる、といった定義である。（２）については、例えば、（２－１）対話状態が「観光案内」のときに、状況情報が「グルメ」の用例を選択してグルメの話題について発話した後に、対話状態を「観光案内」に遷移させる、（２－２）対話状態が「対話開始」のときに、状況情報が「挨拶」の用例を選択した場合、対話状態を「対話待機」に遷移させる、（２－３）対話状態が「対話待機」のときに、状況情報が「観光案内」の用例を選択した場合、対話状態を「観光案内」に遷移させる、といった定義である。用例登録者が用例を入力する際に状況情報を任意に設定できるように構成した場合、新たに状況情報が追加されるたびに、その状況情報に関する選択規則（どの対話状態のときにその状況情報を選択でき、その状況情報が選択されたときにどの対話状態に遷移するのか、および、その状況情報に対応する対話状態のときにどの状況情報を選択でき、その状況情報が選択されたときにどの対話状態に遷移するのか）も人手で追加する。また、タスクの実行中に雑談対話を挿入することを想定し、状況情報が「雑談」に設定された用例を収集している場合には、例えば対話状態が「行政手続き」や「観光案内」のときに、状況情報が「雑談」の用例を選択して応答文として利用できるように定義された選択規則を予め記憶しておく。

　ステップＳ１１において、用例収集部１１は、用例登録者から入力された用例を受け取り、用例記憶部１０－１へ記憶する。

　ステップＳ１２において、発話受付部１２は、対話装置１に入力された（または、音声認識部１７が出力した）ユーザ発話の内容を表すテキストを入力とし、そのユーザ発話の内容を表すテキストを対話状態取得部１３へ出力する。

　ステップＳ１３において、対話状態取得部１３は、発話受付部１２からユーザ発話の内容を表すテキストを受け取り、ユーザ発話の内容を表すテキストを受け取った時点の対話状態として対話状態記憶部１０－２に記憶された対話状態を取得し、取得した対話状態およびユーザ発話の内容を表すテキストを用例選択部１４へ出力する。

　ステップＳ１４において、用例選択部１４は、対話状態取得部１３から対話状態およびユーザ発話の内容を表すテキストを受け取り、用例記憶部１０－１からユーザ発話に応答するための用例（以下、「選択用例」とも呼ぶ）を取得し、取得した選択用例を対話状態更新部１５へ出力する。まず、用例選択部１４は、選択規則記憶部１０－３に記憶された選択規則に基づいて、現在の対話状態で利用できる状況情報を取得する。次に、用例選択部１４は、ユーザ発話の内容を表すテキストおよび現在の対話状態で利用できる状況情報に基づいて、用例記憶部１０－１に記憶された用例を検索する。例えば、現在の対話状態が「行政手続き」であり、ユーザ発話の内容が質問文であれば、その質問文に対する回答となる応答文を含む用例を検索する。検索方法は周知の方法を用いればよい。また、現在の対話状態で利用できる状況情報として「雑談」が取得された場合には、用例記憶部１０－１に記憶された用例の中から状況情報が「雑談」であるものを任意に、または、ユーザ発話の内容との類似度が高い発話文を持つ用例を検索する。ユーザ発話の内容との類似度が高い発話文を持つ用例を検索する場合にも、検索方法は周知の方法を用いればよい。続いて、用例選択部１４は、検索された用例それぞれについて、検索条件との適合度を表す検索スコアやその用例に設定された発話文と応答文との対応関係等に基づいて、応答としての適切さを表す応答選択スコアを計算する。そして、用例選択部１４は、応答選択スコアが最も高い用例を選択用例として取得する。

　選択規則は、上述のように、対話状態Ｘのときには状況情報ＹとＺの用例を選択することができる、といった関係で定義することができるが、これは一例である。対話状態Ｘのときに、状況情報Ｙの用例は*.8、状況情報Ｚの用例は*.2のように、応答選択スコアを重み付けして、最も応答選択スコアが高い用例を取得する、といった重み付けによる選択を行ってもよい。具体的には、対話状態が「観光案内」のときには状況情報が「観光案内」と「神社」の用例を選択することができるとして、状況情報が「観光案内」の用例は*.8、「神社」の用例は*.2といった重みを設定する。このとき、「観光案内」の用例の応答選択スコアが30、「神社」の用例の応答選択スコアが100であったとすると、（１）「観光案内」の用例の応答選択スコアは30×0.8=24、（２）「神社」の用例の応答選択スコアは100×0.2=20となる。この場合、（１）と（２）を比較すると、24>20であるため、「観光案内」の用例が選択される。

　ステップＳ１５において、対話状態更新部１５は、用例選択部１４から選択用例を受け取り、その選択用例を選択するために用いた選択規則によって対話状態が遷移する場合には対話状態記憶部１０－２に記憶された対話状態を更新し、その選択用例に含まれる応答文を発話提示部１６へ出力する。新たな対話状態は、現在の対話状態および選択用例に含まれる状況情報に基づいて、選択規則に従って設定する。例えば、現在の対話状態が「対話開始」であり、選択用例に含まれる状況情報が「行政手続き」であれば、対話状態が「対話開始」のときに状況情報が「行政手続き」である用例を選択したときの遷移先の対話状態が「行政手続き」に設定された選択規則に従って、対話状態記憶部１０－２に記憶された対話状態を「行政手続き」に更新する。また、現在の対話状態が「行政手続き」であり、選択用例に含まれる状況情報も「行政手続き」であれば、対話状態が「行政手続き」のときに状況情報が「行政手続き」である用例を選択したときの遷移先の対話状態が「行政手続き」に設定された選択規則に従って、引き続き対話状態を「行政手続き」とする（対話状態を更新しない）。また、現在の対話状態が「挨拶」であり、選択用例に含まれる状況情報が「行政手続き」であれば、対話状態が「対話待機」のときに状況情報が「行政手続き」である用例を選択したときの遷移先の対話状態が「行政手続き」に設定された選択規則に従って、対話状態記憶部１０－２に記憶された対話状態を「行政手続き」に更新する。また、例えば、状況情報に優先度を付与しておき、現在の対話状態と、用例選択部１４から受け取った選択用例に含まれる状況情報が異なる場合、優先度の高い方の状況情報を選択して新たな対話状態とする更新を行ってもよい。例えば、対話状態が「挨拶」のときには状況情報が「雑談」と「行政手続き」の用例を選択することができる場合、「雑談」と「行政手続き」では「行政手続き」の優先度が高くなるように設定しておくことで、対話状態を「行政手続き」に更新しやすくする。このように構成することで、用例選択部１４が次の発話として「雑談」よりも「行政手続き」の用例を選択しやすいように対話の進行を制御することができる。また、「自己紹介」や「挨拶」のように、１回の対話中で１回しか発話しないことが想定される用例は、１回目に選択した後に優先度を下げ、２回目以降に選択されないように制御してもよい。

　ステップＳ１６において、発話提示部１６は、対話状態更新部１５から応答文を受け取り、その応答文をシステム発話の内容を表すテキストとして予め定めた方法でユーザへ提示する。テキストベースで対話を実行している場合、システム発話の内容を表すテキストは対話装置１の表示部に出力される。音声ベースで対話を実行している場合、システム発話の内容を表すテキストは音声合成部１８へ入力され、音声合成部１８が出力するシステム発話の内容を表す音声が所定のスピーカから再生される。

　ステップＳ１００において、対話装置１は、現在の対話が終了したか否かを判定する。現在の対話が終了したと判定した場合（ＹＥＳ）、処理を終了し、次の対話が開始するまで待機する。現在の対話が終了していないと判定した場合（ＮＯ）、ステップＳ１２へ処理を戻し、次のユーザ発話を受け付ける。対話の終了判定は、現在の状態が予め定義した終了状態であるか否かを判定することにより行えばよい。予め定義した終了状態としては、例えば、状況情報が「終了」に更新された状態や、ユーザ、または、システムが「以上です。」や「ありがとうございました。」等の所定の挨拶文を発話した状態などと定義しておけばよい。

　＜第一実施形態の具体例＞
　以下、「観光案内」と「行政手続き」の２つのタスクを選択的に実行できるタスク対話システムを想定し、第一実施形態の対話装置１により実現される対話の具体例を説明する。

　用例記憶部１０－１には、例えば、以下の用例１～用例５が記憶されているものとする。なお、「Ｘ／Ｙ」のように、２つの状況情報Ｘ，Ｙが併記されているものは、１つの用例に対して複数の状況情報が付与されていることを表す。
　用例１：ユーザ発話「確定申告に住民票は必要ですか？」
　　　　　システム応答「マイナンバーカードがあれば住民票は必要ありません。ただし、マイナンバーカードがない場合、マイナンバーが記入された住民票や戸籍謄本が必要になります。」
　　　　　状況情報：行政手続き／確定申告
　用例２：ユーザ発話「マイナンバーカードはどこで発行できますか？」
　　　　　システム応答「総合窓口で発行できます。」
　　　　　状況情報：行政手続き／マイナンバー
　用例３：ユーザ発話「名物はありますか」
　　　　　システム応答「京阪奈には雄大な自然と美味しい空気があります。」
　　　　　状況情報：観光案内／名物
　用例４：ユーザ発話「こんにちは」
　　　　　システム応答「こんにちは，本日はどのようなご用件でしょうか？」
　　　　　状況情報：挨拶
　用例５：ユーザ発話「」
　　　　　システム応答「どのようなご用件でしょうか？」
　　　　　状況情報：行政手続き／対話開始
　用例６：ユーザ発話「とくにありません」
　　　　　システム発話「わかりました。ご利用ありがとうございました。」
　　　　　状況情報：終了

　新たに対話が開始され、現在の対話状態が初期値として「対話開始」に設定されており、対話装置が受動的にユーザの発話を待機する場合には、対話装置は、対話状態が「対話開始」のままユーザからの発話が行われるまで待機する。対話状態が「対話開始」のときに状況情報が「挨拶」である用例が利用可能であるという選択規則が設定されていたとすれば、対話装置は、「挨拶」の状況情報が付与されている用例４を選択し、ユーザに対して「どのようなご用件でしょうか？」というシステム発話を出力する。このとき、対話状態が「対話開始」のときに状況情報が「挨拶」である用例を選択した場合、対話状態を「行政手続き」に遷移するという選択規則が設定されていたとすれば、対話状態は「行政手続き」へ遷移する。

　用例５のように、対話装置がユーザへ自発的に発話することを想定した用例では、ユーザ発話は設定されていなくても構わない。用例５は、対話制御において、対話の状態を遷移させるために用いる形式的な用例として予め登録されているものである。

　新たに対話が開始され、現在の対話状態が初期値として「対話開始」に設定されており、対話装置が自発的な発話を行う場合には、「対話開始」の状況情報が付与されている用例５を選択し、ユーザに対して「どのようなご用件でしょうか？」というシステム発話を出力する。このとき、現在の対話状態が「対話開始」のときに、状況情報が「行政手続き」の用例を選択した場合、対話状態が「行政手続き」へ遷移するという選択規則が設定されていたとすれば、選択用例（用例５）の状況情報には「行政手続き」も付与されているため、対話状態は「行政手続き」へ遷移する。その後、ユーザが「マイナンバーカードはどこで発行できますか？」と発話した場合、現在の対話状態「行政手続き」で利用できる状況情報（ここでは、選択規則で「行政手続き」が設定されているものとする）が付与された用例の中から、ユーザ発話の内容に合致する用例２が選択され、「総合窓口で発行できます。」というシステム発話が出力される。このとき、現在の対話状態が「行政手続き」のときに、状況情報が「行政手続き」の用例を選択した場合、対話状態が「行政手続き」のままとなるという選択規則が設定されていたとすれば、選択用例（用例２）の状況情報は「行政手続き」であるため、対話状態は引き続き「行政手続き」となる。

　対話装置がユーザに対して「どのようなご用件でしょうか？」と発話した後に、ユーザが「特にありません」と発話した場合、ユーザ発話の内容に合致する用例６が選択され、「わかりました。ご利用ありがとうございました。」というシステム発話が出力される。この場合では、現在の対話状態が「行政手続き」のときに、状況情報が「終了」の用例を選択した場合、「終了」へ遷移するという選択規則が設定されていたとすれば、選択用例（用例６）の状況情報が「終了」であるため、対話状態は「終了」へ遷移する。対話状態が「終了」となった対話装置は、現在の対話の終了処理を行い、次の対話が開始されるまで待機する。

　上記の具体例では、「行政手続き」や「観光案内」といったタスクを実行する対話の例を説明したが、タスクの実行中に雑談対話を挿入することも可能である。この場合、上述のように、対話状態が「行政手続き」や「観光案内」のときに、状況情報が「雑談」の用例を選択して応答文とできるように定義された選択規則を予め定義し、選択規則記憶部１０－３に記憶しておく。また、状況情報を「雑談」に設定した用例を予め収集し、用例記憶部１０－１に記憶しておく。例えば、行政手続きの案内中でも雑談と考えられる話題をユーザが発話した場合、状況情報が「雑談」の用例を選択して、ユーザ発話の話題に合わせて対話できるように選択規則を定義しておく。このように、タスク対話中に雑談を挿入することで、ユーザの緊張を緩和したり、対話装置に対する親近感を醸成したりすることができ、より対話に集中させる効果が見込まれる。

　例えば、雑談を挿入しない場合のタスク対話の流れは以下のようになる。
　ユーザ：「こんにちは」（対話状態：対話開始）
　システム：（状況情報が挨拶の用例で応答する）（状況情報：挨拶、対話状態：対話待機へ遷移）
　ユーザ：「マイナンバーカードはどこですか」（対話状態：行政手続き）
　システム：（状況情報が窓口案内の用例で応答する）（状況情報：窓口案内、対話状態：窓口案内に遷移）
　ユーザ：「住民票はどこですか。納税証明は？」（対話状態：行政手続き）
　システム：（状況情報が窓口案内の用例で応答する）
　例えば、対話状態が「行政手続き」や「窓口案内」のときには、状況情報が「行政手続き」や「窓口案内」の用例に高い重みづけをしておくことで、「行政手続き」や「窓口案内」の用例が選択されやすくなる。

　例えば、雑談を挿入する場合のタスク対話の流れは以下のようになる。
　ユーザ：こんにちは（対話状態：対話開始）
　システム：状況情報が挨拶の用例を返す（状況情報：挨拶、対話状態：対話待機、へ遷移）
　ユーザ：今日はいい天気だね。(対話状態：雑談)
　システム：状況情報が雑談の用例で応答する(状況情報：雑談、対話状態：雑談、に遷移)
　例えば、対話状態が「雑談」のときは状況情報が「雑談」の用例に重みが大きくなるように設定しておくことで、状況情報が「雑談」の用例が選択されやすくなる。

　このように、選択規則に基づく対話制御を導入することで、用例方式の対話システムであっても、どのような対話状態においてどのような対話を進行したいかを、設計者が任意に決定することが可能となる。

　［第二実施形態］
　この発明の第二実施形態は、第一実施形態の対話装置１が提示するシステム発話を、特定のキャラクタになりきった発話に言い換えて提示することができる対話装置およびその方法である。第二実施形態の対話装置２は、図３に示すように、第一実施形態の対話装置１が備える用例記憶部１０－１、対話状態記憶部１０－２、選択規則記憶部１０－３、用例収集部１１、発話受付部１２、対話状態取得部１３、用例選択部１４、対話状態更新部１５、および発話提示部１６を備え、さらに、発話変換部２１を備える。対話装置２は、第一実施形態と同様に、音声認識部１７および音声合成部１８を備えていてもよい。この対話装置２が図４に示す各ステップの処理を実行することにより、第二実施形態の対話方法が実現される。

　以下、図４を参照して、第二実施形態の対話装置２が実行する対話方法について、第一実施形態との相違点を中心に説明する。

　ステップＳ１１－２において、用例収集部１１は、用例登録者から入力された変換用例を受け取り、用例記憶部１０－１へ記憶する。変換用例は、ある発話文を、その発話文を言い換えた発話文に変換するための用例である。言い換えた発話文は、例えば、ある発話文を特定のキャラクタになりきって発話したときの発話文である。変換用例は、変換前の発話文（すなわち、既存の対話システムで提示され得る発話文）と、変換後の発話文（すなわち、変換前の発話文を特定のキャラクタが発話したと想定したときの発話文）と、例えば「＜特定のキャラクタ＞の言い替え」のように、対象とするキャラクタを示す状況情報とからなる。

　ステップＳ２１において、発話変換部２１は、対話状態更新部１５から応答文を受け取り、その応答文を、用例記憶部１０－１に記憶されている変換用例を用いて、その応答文を言い換えた応答文へ変換し、その変換後の応答文を発話提示部１６へ出力する。

　第二実施形態の発話提示部１６は、発話変換部２１から変換後の応答文を受け取り、その変換後の応答文をシステム発話の内容を表すテキストとして予め定めた方法でユーザへ提示する。

　［変形例］
　上記の実施形態では、対話装置が対話状態記憶部１０－２を備え、対話状態取得部１３が対話状態記憶部１０－２に記憶された対話状態を読み出すことで、現在の対話状態を取得する構成を説明した。しかしながら、対話状態取得部１３が対話の進行状況等に基づいて対話状態を推定するように構成することも可能である。この場合、対話装置は対話状態記憶部１０－２および対話状態更新部１５を備えなくともよい。例えば、ユーザ発話の内容を解析して予め定義されたスロットに対応するバリューを埋めていくことでタスクを実行するスロット・バリュー方式の対話システムであれば、スロット・バリューの埋まり具合から次の状態を推定することができる。推定には、条件付き確率場（CRF: Conditional Random Fields）やニューラルネットワーク（NN: Neural Network）などの系列ラベリングを用いた言語理解を用いることができる。この方法では、「どこでマイナンバーカードを発行できますか？」のような入力文に対して、どの箇所がどのようなスロットに対応しているのかを推定する。具体的には、「（どこ：聞いていること）で（マイナンバーカード：目的）を（発行：作業）できますか？」のように推定される。そして、推定された『「どこ」：聞いていること、「マイナンバー」：目的、「発行」：作業』をスロット・バリューに入力する。用例記憶部１０－１に『「どこ」：聞いていること、「マイナンバー」：目的、「発行」：作業』の組み合わせに対応する用例が存在すれば、その用例を選択用例として出力する。組み合わせに対応する用例が存在しない場合、最も類似する組み合わせに対応する用例を出力するか、最も類似する組み合わせと現状の組み合わせとの差分となるスロットについて、ユーザに問い合わせる発話を行い、スロットの内容を更新ないし追記し、再度、組み合わせに対応する用例を出力することを試みる。例えば、スロット・バリューが、『聞いていること：どこ、目的：トイレ』のようにスロット・バリューが埋まっているのであれば、対話状態を「役場案内」と推定でき、対応する「トイレは各階の東側にあります」という応答を選択できる。例えば、予め定めた複数のスロットのうち、すでに埋まっているスロット・バリューに対応する応答を選択してもよいし、まだ埋まっていないスロットの内容を問う応答文を選択してもよい。

　上記のように構成することにより、本発明の対話装置によれば、所定のタスクを達成するための対話システムを低コストで構築することができる。第一に、複数の用例登録者から用例を収集することで、集合知的にタスクに関する専門知識を備えた対話システムを構築することができる。条件分岐の連続により形成されるシナリオは、タスク全体に対する専門知識を有する専門家が一貫性をもつように作成する必要があるが、一問一答で作成される用例であればタスクに関する部分的な知識しか有さない非専門家であっても作成することができるため、対話システムを構築するためのコストを低減することができる。また、用例に状況情報という属性を追加し、対話状態に応じて利用可能な状況情報を定義することで、用例を用いながらシナリオのような一連の対話を実現することができる。さらに、対話状態や状況情報にタスクに対応する情報を設定することで、複数のタスクを同時に実行することが可能となった。シナリオ方式の対話システムでは、専門家が作成した各タスクに対応する複数のシナリオを、さらに適切に組み合わせる対話制御が必要となるが、本発明では、タスク間を遷移する選択規則さえ定義すれば、複数のタスクを同時に実行できる対話システムを容易に実現できる。

　以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

　［プログラム、記録媒体］
　上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図５に示すコンピュータの記憶部１０２０に読み込ませ、演算処理部１０１０、入力部１０３０、出力部１０４０などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、磁気記録装置、光ディスク等である。

　また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部１０５０に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部１０５０に格納されたプログラムを一時的な記憶装置である記憶部１０２０に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　発話文と応答文と状況情報とからなる複数の用例を記憶する用例記憶部と、
　対話状態とその対話状態で利用可能な状況情報とその状況情報の用例が選択されたときの遷移先の対話状態とからなる選択規則を記憶する選択規則記憶部と、
　ユーザが発話したユーザ発話を受け付ける発話受付部と、
　前記選択規則を用いて、前記複数の用例から、状況情報が現在の対話状態で利用可能な状況情報に対応し、発話文が前記ユーザ発話に対応する選択用例を選択する用例選択部と、
　前記選択用例に含まれる応答文に基づくシステム発話を前記ユーザへ提示する発話提示部と、
　を含む対話装置。
　請求項１に記載の対話装置であって、
　前記用例選択部は、前記選択規則から前記現在の対話状態で利用可能な状況情報を取得し、取得した状況情報が設定された前記用例のうち、前記ユーザ発話に対する回答となる応答文を含む前記用例を前記選択用例として選択するものである、
　対話装置。
　請求項１または２に記載の対話装置であって、
　前記用例記憶部は、変換前の発話文と変換後の発話文とキャラクタを示す情報とからなる変換用例をさらに記憶するものであり、
　前記変換用例を用いて、前記選択用例に含まれる応答文を所定のキャラクタの発話する応答文へ変換する発話変換部をさらに備える、
　対話装置。
　請求項１から３のいずれかに記載の対話装置であって、
　前記現在の対話状態を記憶する対話状態記憶部と、
　前記選択規則現在の対話状態を前記選択規則に含まれる前記遷移先の対話状態に更新する対話状態更新部と、
　をさらに備え、
　前記用例選択部は、前記対話状態記憶部に記憶された前記現在の対話状態を用いて前記選択用例を選択するものである、
　対話装置。
　請求項１から３のいずれかに記載の対話装置であって、
　対話の開始から現在までの進行状況に基づいて前記現在の対話状態を推定する対話状態取得部をさらに備え、
　前記用例選択部は、前記対話状態取得部が推定した前記現在の対話状態を用いて前記選択用例を選択するものである、
　対話装置。
　請求項１から５のいずれかに記載の対話装置であって、
　前記用例選択部は、現在の対話状態で利用可能な状況情報を重み付けして、前記選択用例を選択するものである、
　対話装置。
　用例記憶部に、発話文と応答文と状況情報とからなる複数の用例が記憶されており、
　選択規則記憶部に、対話状態とその対話状態で利用可能な状況情報とその状況情報の用例が選択されたときの遷移先の対話状態とからなる選択規則が記憶されており、
　発話受付部が、ユーザが発話したユーザ発話を受け付け、
　用例選択部が、前記選択規則を用いて、前記複数の用例から、状況情報が現在の対話状態で利用可能な状況情報に対応し、発話文が前記ユーザ発話に対応する選択用例を選択し、
　発話提示部が、前記選択用例に含まれる応答文に基づくシステム発話を前記ユーザへ提示する、
　対話方法。
　請求項１から６のいずれかに記載の対話装置としてコンピュータを機能させるためのプログラム。