WO2023276088A1

WO2023276088A1 - 対話装置、対話制御方法及び対話プログラム

Info

Publication number: WO2023276088A1
Application number: PCT/JP2021/024875
Authority: WO
Inventors: 航光田; 竜一郎東中; 哲也杵渕
Original assignee: 日本電信電話株式会社
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-01-05
Also published as: JPWO2023276088A1

Abstract

発話情報取得部（１１）は、対話を通じて課題を達成するための共同作業を行う共同作業者の発話情報を取得する。対話制御部（１３）は、複数名の作業者が対話を通じて共同作業を行うことで課題を達成するまでの途中過程の情報を取得し、発話情報取得部（１１）により取得された発話情報、途中過程の情報及び共同作業の自装置による中間結果を示す主体的結果情報を基に、推定モデルを用いてシステム発話を生成する。出力部（１４）は、対話制御部（１３）により生成されたシステム発話を共同作業者に対して出力する。

Description

対話装置、対話制御方法及び対話プログラム

　本発明は、対話装置、対話制御方法及び対話プログラムに関する。

　対話システムにおいて、人間はコンピュータと対話を行い、種々の情報の収集や要望の充足を実現する。また、所定のタスクを達成するだけではなく、日常会話を行う対話システムも存在する。このような日常会話を行う対話システムにより、人間は精神的な安定の確保や、承認欲の充足や、信頼関係の構築を行う。このように、対話システムには様々な類型が存在する。

　現在の雑談対話システムは、それまでの対話により構築された状態の情報を持たず、直前のユーザ発話の情報に基づいてシステム発話を選択・生成する一問一答のものが主流である。一問一答の雑談対話システムは、複雑な一問一答を越える対話が難しいため、複雑なやり取りを必要とする雑談の場合、利用者の満足度が低くなるという問題がある。この問題を解決するための手段として、共通基盤と呼ばれる情報をシステムに持たせる方法がある。共通基盤とは、対話において、対話の参加者の間で共有される知識や信念などの情報であり、相互信念とも呼ばれる。

　対話をモデル化する上で共通基盤は重要な概念の一つであるが、現時点では、共通基盤が構築される過程を分析した研究は少ない。例えば、共通基盤構築をモデル化するための試みとして、二名の作業者が課題を達成する音声対話を収集し分析した研究が存在する。

Takuma　Udagawa　and　Akiko　Aizawa,　A　natural　language　corpus　of　common　grounding　under　continuous　and　partially-observable　context,　In　Proc.　AAAI,　pp.　7120-7127,　2019.

　従来の共通基盤を用いた研究では、作業者が実施した課題の成果を共通基盤とみなし、対話と共通基盤の関係の分析が行われる。しかしながら、課題が達成されるまでの過程は定量的に記録されていない。そのため、対話を通じてどのように共通基盤が構築されていったのかを捉えることが困難であり、共通基盤に基づく対話システムの構築が難しい。

　本発明は、上記に鑑みてなされたものであって、利用者との高度な会話を実現することを目的とする。

　上述した課題を解決し、目的を達成するために、発話情報取得部は、対話を通じて課題を達成するための共同作業を行う共同作業者の発話情報を取得する。対話制御部は、複数名の作業者が対話を通じて前記共同作業を行うことで前記課題を達成するまでの途中過程の情報を取得し、前記発話情報取得部により取得された前記発話情報、前記途中過程の情報及び前記共同作業の自装置による中間結果を示す主体的結果情報を基に、推定モデルを用いてシステム発話を生成する。出力部は、前記対話制御部により生成された前記システム発話を前記共同作業者に対して出力する。

　本発明によれば、利用者との高度な会話を実現することができる。

図１は、実施形態に係る対話装置のブロック図である。図２は、共同作業コーパスに登録された対話例を示す図である。図３は、共同図形配置作業の作業例を示す図である。図４は、発話情報取得部の出力例を示す図ある。図５は、共同作業コーパスを利用した対話制御部の学習機能に関するブロック図である。図６は、実施形態に係る対話装置による推定モデルの学習処理のフローチャートである。図７は、実施形態に係る対話装置による対話制御処理のフローチャートである。図８は、対話制御処理のための対話プログラムを実行するコンピュータの一例を示す図である。

　以下に、本願の開示する対話装置、対話制御方法及び対話プログラムの一実施形態を図面に基づいて詳細に説明する。なお、以下の実施形態により本願の開示する対話装置、対話制御方法及び対話プログラムが限定されるものではない。

［実施形態］
［装置構成］
　図１は、実施形態に係る対話装置のブロック図である。対話装置１は、図１に示すように、発話情報取得部１１、対話意図管理部１２、対話制御部１３、出力部１４及び情報格納部１５を有する。対話装置１は、共同作業者であるユーザとの対話を通して共同で独立した作業を行って、与えられた課題を解決する。対話装置１がユーザと対話を通して共同で行う作業のことを共同作業と呼ぶ。対話装置１は、発話テキスト出力装置２及び作業端末装置３に接続される。

　発話テキスト出力装置２は、例えば、マイクに入力された音声発話を認識してテキストに変換して対話装置１へ出力する装置である。また、発話テキスト出力装置２は、ユーザがキーボードなどの入力装置を操作することで入力された発話のテキスト情報を出力してもよい。

　作業端末装置３は、対話装置１がユーザとともに行う共同作業を、他の複数の作業者が共同して実行した際に、その複数の作業者が用いた端末である。作業端末装置３は、他の複数の作業者が共同作業を行う際に交わした対話の情報及び作業経過の情報を対話装置１へ出力する。

　情報格納部１５は、対話に用いる各種情報を格納するハードディスクなどの記憶装置である。情報格納部１５は、共同作業コーパス５１、対話意図情報５２、主体的結果情報５３及び共通基盤情報５４を保持する。

　共同作業コーパス５１は、複数の作業者が対話を通して独立して課題を解決する際のそれぞれの作業者の対話を表す文章及び作業経過をまとめた情報である。すなわち、共同作業コーパスは、複数名の作業者が対話を通じて共同作業を行うことで課題を達成するまでの途中過程の情報である。共同作業コーパス５１は、対話を表す文章とともに特定の文章に作業経過が紐づけられている。すなわち、共同作業コーパス５１は、特定の対話が行われたときにどのような作業が行われたかを示す。どのような作業が行われたかを示す情報は、例えば、ｘｙ座標平面で図形を動かす作業であれば、どの図形をｘｙ座標のどの位置に動かしたかなどとして表される。

　共同作業コーパス５１は、作業端末装置３から送信された他の複数の作業者が共同作業を行う際に交わした対話の情報及び作業経過の情報を取得して格納する。図２は、共同作業コーパスに登録された対話例を示す図である。本実施形態では、２名の作業者が共同作業を行った場合の共同作業コーパス５１を例に説明する。ＩＤは、各発話の識別番号である。Ｓは作業者を表す。発話は、作業者が行った発話の内容を示す情報である。

　図２に記載された対話は、具体的には、作業者Ａ及びＢが共同図形配置作業を行った場合に収集された対話を表す。共同図形配置作業とは、二名の作業者が対話を交わしながら独立に図形を配置する課題である。また、図２には記載していないが、共同作業コーパス５１では、上述したように図２に記載された文章のいくつかに作業経過が紐づけられる。

　図３は、共同図形配置作業の作業例を示す図である。図３における画面１０１は、作業者Ａの作業画面である。また、画面１０２は、作業者Ｂの作業画面である。画面１０１及び１０２は、それぞれ、作業者Ａが操作する作業端末装置３及び作業者Ｂが操作する作業端末装置３に表示される。作業者Ａは画面１０２を確認することはなく、逆に、作業者Ｂは画面１０１を確認することはない。作業者Ａと作業者Ｂとは、互いに対話によって相手の作業状態を想像しつつ自分の絵を完成させる作業を共同で行う。

　図形配置画面１１１及び１１２は、図形配置の作業スペースである。チャット画面１２１及び１２２は、各作業者の発話がテキストで表示されるスペースである。また、画面上部には作業開始と終了のボタンが配置され、さらに、最大１０分などと決められた作業の残り時間が表示される。作業者Ａ及びＢは、同じ図形の集合がそれぞれランダムな配置で与えられるため、どの様な配置にするかをチャット画面１２１及び１２２を用いて話し合い、互いの間で共通の配置を決定する。ここで、図形配置画面１１１及び１２１では、図形の回転、拡大縮小及び削除は行えず、マウスを用いた平面移動の操作を可能とした。作業端末装置３は、操作のログとして、図形のドラッグアンドドロップの開始及び終了時刻とそれぞれの座標を記録する。作業端末装置３は、この操作ログを作業経過の情報として共同作業コーパス５１に格納させる。

　例えば、作業者Ａは、チャット画面１２１に表示される作業者Ｂとの対話を基に、図形配置画面１１１に示された各図形の配置位置を変更して、それぞれの図形の自己のイメージに基づく配置を決定する。作業者Ｂは、図形配置画面１１２に示された各図形の配置位置を変更して、それぞれの図形の自己のイメージに基づく配置を決定する。作業者Ａと作業者Ｂとは、それぞれのイメージにしたがい図形の配置を決定するので、同一の絵になる可能性は低いが、図形が配置された絵の中で一致する部分が存在する可能性は高い。このとき、作業中の図形配置を記録し、図形配置の一部分を共通基盤とみなすことで、共通基盤を定量的に記録することができる。

　本実施形態では、配置対象の図形として、最も単純な図形である単純図形及び図形に関する前提知識を利用できると考えられる建物図形の二種類を用意した。単純図形及び建物図形は、それぞれ１０種類の図形で構成される。各種類における図形の個数は５個または７個として、重複ありでランダムな大きさ及び位置に設定して初期配置を作成した。

　例えば、図２に示すように共同図形配置作業が進んだ場合、作業者Ａと作業者ＢとはＵ１５までで最終的な配置イメージを合意する。そして、作業者Ａと作業者Ｂとは、Ｕ１６以降で相談しながら図形の配置を行う。この中には、Ｕ２１のようにお互いの配置を確認する発話など、共通基盤構築に関係する発話が確認できる。そこで、対話装置１は、共同作業コーパス５１を用いて、発話の生成、並びに、自主的な作業結果及び共同作業者の作業結果の推測の方法を学習することで、対話による共同作業者であるユーザと共に共同図形配置課題を達成可能なシステムを構築する。

　図１に戻って説明を続ける。対話意図情報５２は、対話をどう進めるかということを決定するための元となる情報であり、対話の目的に合わせて設定される情報である。対話意図情報５２は、利用者により予め初期値が登録される。本実施形態では，対話意図情報５２は自然文のリストとして管理される。

　例えば、共同図形配置作業の場合、課題の条件から、対話意図情報５２には初期値として「相手と自分の絵を、対話を通じて揃える」という文が含まれる。また、対話を通じて、例えば「美しい配置を作る」や「ピノキオの顔を作る」といった意図が対話意図情報５２として、後述する対話意図管理部１２により追加され更新される。

　主体的結果情報５３は、対話装置１が主体となって行った作業結果の情報である。主体的結果情報５３は、共同作業の自装置による中間結果を示す情報である。例えば、共同図形配置作業の場合、主体的結果情報５３は、対話装置１が作成した図形が配置された絵である。主体的結果情報５３は、直近の対話内容を反映したものであり、対話装置１の理解結果とみなすことができる。すなわち、主体的結果情報５３は、対話制御部１３による推定結果である。例えば、共同図形配置作業の場合、主体的結果情報５３は、図形種別や座標をテキストまたは数値として保持される。

　共通基盤情報５４は、対話の相手の作業結果と対話装置１の作業結果である主体的結果情報５３との共通部分を示す情報である。例えば、共同図形配置作業における対話の相手や対話装置１が作成した絵は、それぞれが対話内容をどのように理解しているかを反映した作業結果とみなすことができる。そこで、共通基盤を定量的に測る尺度を共通基盤情報５４として導入することで、どの程度共通基盤が構築できているか、例えば、共同図形配置作業であれば、どの図形が共通基盤とみなすことができるかといった情報を機械的に扱うことができる。本実施形態では、任意の２つの図形間で定義されるベクトルの差の距離を、共通基盤を定量的に図る尺度として利用する。

　本実施形態では、作業者Ａの図形配置における図形ｉとｊとの間で定義されるベクトルｖ_Ａ，ｉｊと、作業者Ｂで同様に定義されるベクトルｖ_Ｂ，ｉｊとの差が、各図形が基盤化されているか否かの尺度として用いられる。そして、各図形間の距離の総和が、絵全体として共通基盤がどの程度構築できているかの尺度として用いられる。絵全体として共通基盤がどの程度構築できているかの尺度とするこの値が低いほど、共通基盤が構築されていることが表わされる。

　例えば、共通基盤情報５４により、どの程度作業相手との共通基盤が確立されたかを判定することができる。そこで、この共通基盤情報５４がある一定値を超えた場合に、対話を終わらす方向に進める制御を加えるなどすることが可能となる。また、この共通基盤情報５４を共同作業の相手に提示することで、作業の何割くらいが一致しているかとの理解を共有することが可能となる。

　発話情報取得部１１は、テキストで表されるユーザ発話を発話テキスト出力装置２から受け付ける。すなわち、発話情報取得部１１は、対話を通じて課題を達成するための共同作業を行う共同作業者の発話情報を取得する。次に、発話情報取得部１１は、受け付けたユーザ発話に対して言語解析を行う。その後、発話情報取得部１１は、解析結果を対話意図管理部１２及び対話制御部１３へ出力する。

　例えば、発話情報取得部１１は、形態素解析、話題を表すキーワードの抽出を行う焦点語抽出、固有名詞抽出、評価表現抽出、否定表現の有無などを抽出するモダリティ抽出及び対話行為推定を行う。図４は、発話情報取得部の出力例を示す図である。出力例１３０におけるlineは、入力文を表す。forms及びposesは、発話情報取得部１１による形態素解析の結果である。namesは、発話情報取得部１１による固有名詞抽出の結果を表す。semsは、発話情報取得部１１によるモダリティ抽出の結果を表す。evalsは、発話情報取得部１１による評価表現抽出の結果を表す。centsは、発話情報取得部１１による焦点語抽出の結果を表す。daは、発話情報取得部１１による対話行為推定による推定結果を表す。

　対話意図管理部１２は、例えば、共同作業コーパス５１の対話テキストを参照し、対話行為で「提案」に関する発話を、対話意図を抽出するための候補として特定する。ここで、対話行為は、例えば、「目黒豊美、東中竜一郎、堂坂浩二、南泰浩，聞き役対話の分析および分析に基づいた対話制御部の構築，情報処理学会論文誌53巻12号　pp.2787-2801」に開示された体系に基づく推定機を利用して推定した情報として得られる。そして、対話意図管理部１２は、レーベンシュタイン距離などを用いて文字列の一致度でユーザの発話との一致度が閾値以上のもの候補として特定した発話の中から抽出する。一致度の閾値は、例えば、レーベルシュタイン距離を用いる場合、０．８とすることができる。そして、対話意図管理部１２は、抽出した言葉もしくは文章を、対話意図情報５２に追加することで対話意図情報５２を更新する。

　このように、対話意図管理部１２は、発話情報取得部１１により取得された発話情報及び複数名の作業者が対話を通じて共同作業を行うことで課題を達成するまでの途中過程の情報を基に、共同作業者であるユーザとの間の対話の対話意図を特定する。

（推定モデルの学習処理）
　対話制御部１３は、共同作業コーパス５１を基に推定に用いる推定モデルの学習を行う。図５は、共同作業コーパスを利用した対話制御部の学習機能に関するブロック図である。本実施形態では、対話制御部１３は、複数の異なる出力についての学習を並行して同時に行うマルチタスク学習を用いて学習を実行する。

　対話制御部１３は、図５に示すように、言語特徴抽出器３１、画像特徴抽出器３２、特徴抽出器３３、パラメータ更新部３４及び推定モデル３５を有する。対話制御部１３は、対話意図情報５２、主体的な作業結果の情報及び対話文脈の情報の入力を受ける。ここで、対話制御部１３は、主体的な作業結果の情報及び対話文脈の情報を共同作業コーパス５１から抽出して入力とする。

　例えば、対話制御部１３は、２人の作業者が共同作業を行った共同作業コーパス５１の場合、いずれかの作業者を選択する。そして、対話制御部１３は、対話テキストの中から、ある特定の対話の段階における選択した作業者の発話の文章を選択する。そして、対話制御部１３は、その選択した文章に対する前の相手の発話を対話文脈として取得する。また、対話制御部１３は、その選択した文章もしくはそれ以前の文章のうちの最後に紐づけられた選択した作業者の作業結果を、主体的な作業結果として取得する。

　言語特徴抽出器３１は、入力された対話意図情報５２をベクトル表現に変換して推定モデル３５が処理可能な形式に変換する。言語特徴抽出器３１は、例えば、ＢＥＲＴ（Bidirectional　Encoder　Representations　from　Transformers）を用いて文をベクトルに変換することで実現可能である。

　画像特徴抽出器３２は、入力された主体的結果情報５３をベクトル表現に変換して推定モデル３５が処理可能な形式に変換する。画像特徴抽出器３２は、例えば、ＲｅｓＮｅｔを用いて画像をベクトルに変換することで実現可能である。

　特徴抽出器３３は、入力された対話文脈をベクトル表現に変換して推定モデル３５が処理可能な形式に変換する。ここで、特徴抽出器３３及び推定モデル３５は単一の深層学習モデルとしてまとめて学習が可能である。

　推定モデル３５は、マルチタスク学習としてPyTorch　Lightningなどの深層学習フレームワークを用いることで実装可能である。推定モデル３５は、出力層を複数の出力する情報に合わせて用意することが好ましい。例えば、本実施形態では、推定モデル３５の出力層として、次の主体的な作業結果、次の相手の作業結果、及び、次のシステム発話の３つが用意される。

　パラメータ更新部３４は、推定モデル３５の各出力層の出力である推定結果を推定モデル３５から取得する。また、パラメータ更新部３４は、共同作業コーパス５１を解析して、推定結果に対応する正解ラベルを取得する。具体的には、パラメータ更新部３４は、共同作業コーパス５１に含まれる対話の文章から次のシステム発話の正解ラベルを取得する。また、パラメータ更新部３４は、共同作業コーパス５１に含まれる文章に紐づけられた作業経過を用いて次の主体的な作業結果及び次の相手の作業結果の正解ラベルを取得する。そして、パラメータ更新部３４は、推定モデル３５から出力された推定結果と正解ラベルとの誤差を計算する。

　例えば、パラメータ更新部３４は、推定モデル３５から出力された各推定結果として、図５に示す次の主体的な作業結果２０１、次の相手の作業結果２０２及び次のシステム発話２０３を取得する。次に、パラメータ更新部３４は、共同作業コーパス５１を解析して、各推定結果の正解ラベルとして、次の主体的な作業結果の正解２１１、次の相手の作業結果の正解２１２、及び、次のシステム発話の正解２１３を取得する。そして、パラメータ更新部３４は、次の主体的な作業結果２０１と次の主体的な作業結果の正解２１１との誤差、次の相手の作業結果２０２と次の相手の作業結果の正解２１２との誤差、及び、次のシステム発話２０３と次のシステム発話の正解２１３との誤差を算出する。

　次に、パラメータ更新部３４は、それぞれの誤差が最小となるようにパラメータを調整して更新する。その後、パラメータ更新部３４は、更新したパラメータの情報を推定モデル３５にフィードバックする。

　対話制御部１３は、予め決められた学習終了条件に達するまで、推定モデル３５のパラメータの更新を繰り返す。学習終了条件は、例えば、予め決められた更新回数を超えた場合でもよいし、誤差が予め決められた誤差閾値に達した場合でもよい。このようなマルチタスク学習を行うことで、対話制御部１３は、推定モデル３５の出力層の全てで適切な値が出力されるように学習を進めることができる。このように、対話制御部１３は、複数名の作業者が対話を通じて前記共同作業を行うことで課題を達成するまでの途中過程の情報及び主体的結果情報５３を基に、推定モデル３５を更新する。

（推定処理）
　対話制御部１３は、入力されたユーザ発話を基に、主体的結果情報５３の更新、相手の作業結果の推定及びシステム発話の生成を行う。具体的には、対話制御部１３は、ユーザ発話のテキスト情報の入力を発話テキスト出力装置２から受ける。また、対話制御部１３は、対話意図情報５２を情報格納部１５から取得する。さらに、対話制御部１３は、主体的結果情報５３を情報格納部１５から取得する。

　そして、対話制御部１３は、取得したユーザ発話、対話意図情報５２及び主体的結果情報５３を基に、保持する学習済みの推定モデルを用いて、次の主体的な作業結果の推定、次の相手の作業結果の推定、及び、次の自装置からの発話であるシステム発話の推定を行う。

　そして、対話制御部１３は、次の主体的な作業の推定結果を主体的結果情報５３として情報格納部１５に格納する。例えば、共同図形配置作業の場合、主体的結果情報５３は絵の表現であり、対話制御部１３は、図形種別や座標をテキストまたは数値として保持する。また、対話制御部１３は、次の自装置からの発話である次のシステム発話の推定結果を出力部１４へ出力する。

　ここで、次の相手の作業の推定結果と主体的結果情報５３との一致部分は共通基盤情報５４とみなすことができる。つまり、相手の結果を適切に想像することができる機能を有する推定モデルが存在すれば、対話装置１と作業相手であるユーザとは、その推定モデルに基づいてシステム発話を生成することで共通基盤をふまえた対話が可能となる。すなわち、共同図形配置課題をユーザと共に達成可能なシステムが実現できる。

　そこで、対話制御部１３は、次の主体的な作業結果の推定結果と次の相手の作業結果の推定結果との共通部分を抽出する。そして、対話制御部１３は、抽出した共通部分の情報に共通基盤情報５４を更新する。すなわち、対話制御部１３は、発話情報、複数名の作業者が対話を通じて共同作業を行うことで課題を達成するまでの途中過程の情報及び主体的結果情報５３を基に、推定モデルを用いて次の主体的結果情報５３及び次の相手の作業結果を推定し、推定結果を基に共同作業者であるユーザとの共通基盤を特定する。

　例えば、共同図形配置作業の場合、対話制御部１３は、作業者Ａの図形配置における図形ｉとｊとの間で定義されるベクトルｖ_Ａ，ｉｊと、作業者Ｂで同様に定義されるベクトルｖ_Ｂ，ｉｊとの差を計算する。そして、対話制御部１３は、その距離を図形が基盤化されているか否かの尺度とし、その総和を絵全体として共通基盤がどの程度構築できているかを表す尺度を共通基盤情報５４とする。

　そして、対話制御部１３は、共通基盤情報５４を参照して、作業相手と作業においてどの程度の共通基盤ができ上がっているかを判定する。例えば、対話制御部１３は、共通基盤情報５４が所定値を超えた場合に、課題を解決できる程度の共通基盤が得られていると判定して、対話を終わりに向かわせる制御を行ってもよい。具体的には、対話制御部１３は、対話を終わりに導くシステム発話を生成してもよい。すなわち、対話制御部１３は、共同作業者との共通基盤を基に、システム発話を生成する。また、対話制御部１３は、共通基盤情報５４を出力部１４へ出力してもよい。

　このように、対話制御部１３は、複数名の作業者が対話を通じて共同作業を行うことで課題を達成するまでの途中過程の情報を取得し、発話情報取得部１１により取得された発話情報、複数名の作業者が対話を通じて共同作業を行うことで課題を達成するまでの途中過程の情報及び共同作業の自装置による中間結果を示す主体的結果情報５３を基に、推定モデルを用いてシステム発話を生成する。より詳しくは、対話制御部１３は、対話意図管理部１２により特定された対話意図を示す対話意図情報５２、発話情報及び主体的結果情報５３を基に、システム発話を生成する。

　図１に戻って説明を続ける。出力部１４は、次のシステム発話の入力を対話制御部１３から受ける。そして、出力部１４は、取得したシステム発話を出力する。ここで、発話候補が複数存在する場合、出力部１４は、辞書順などの予め決められた優先順位に基づいて発話を１つ選択して、システム発話として選択した発話を出力する。複数のシステム発話が存在する場合は、出力部１４は、それらを１つのシステム発話としてまとめて出力する。また、出力部１４は、システム発話に対するキャラクタ性の付与やシステム発話の流暢性の向上処理を施してもよい。キャラクタ性の付与は、例えば、語尾を全て「ござる」に変換するなどである。流暢性の向上処理は、不自然な表現や不適切な表現を辞書的に削除するなどの処理である。

　また、出力部１４は、共通基盤情報５４の入力を対話制御部１３から受けてもよい。その場合、出力部１４は、対話をしている作業相手などに対して、取得した共通基盤情報５４を出力する。これにより、対話装置１と作業相手であるユーザとは、作業完了までの何割程度の共通基盤が確立したかの共通認識を保持することができる。

［推定モデルの学習処理手順］
　図６は、実施形態に係る対話装置による推定モデルの学習処理手順のフローチャートである。次に、図６を参照して、本実施形態に係る対話装置１による対話制御処理の流れを説明する。

　対話制御部１３は、対話意図情報５２を情報格納部１５から取得する（ステップＳ１１）。

　次に、対話制御部１３は、共同作業コーパス５１から主体的な作業結果及び対話文脈を取得する（ステップＳ１２）。

　言語特徴抽出器３１は、取得した対話意図情報５２をベクトル表現に変換して推定モデル３５が処理可能な形式に変換する。また、画像特徴抽出器３２は、取得した主体的な作業結果をベクトル表現に変換して推定モデル３５が処理可能な形式に変換する。また、特徴抽出器３３は、取得した対話文脈をベクトル表現に変換して推定モデル３５が処理可能な形式に変換する（ステップＳ１３）。

　次に、対話制御部１３は、ベクトル表現に変換された対話意図情報５２、主体的な作業結果及び対話文脈を推定モデル３５へ入力する（ステップＳ１４）。

　パラメータ更新部３４は、推定モデル３５の各出力層の出力である、次の主体的な作業結果、次の相手の作業結果及び次のシステム発話の推定結果を取得する（ステップＳ１５）。

　次に、パラメータ更新部３４は、共同作業コーパス５１を解析して、推定結果に対応する正解ラベルを取得する（ステップＳ１６）。

　そして、パラメータ更新部３４は、推定モデル３５から出力された推定結果と正解ラベルとの誤差を計算する。その後、パラメータ更新部３４は、算出した誤差を用いて推定モデルのパラメータを調整する（ステップＳ１７）。

　次に、パラメータ更新部３４は、調整したパラメータの情報を推定モデル３５にフィードバックして、推定モデル３５を更新する（ステップＳ１８）。

　その後、対話制御部１３は、学習終了条件に達したか否かを判定する（ステップＳ１９）。学習終了条件に達していない場合（ステップＳ１９：否定）、対話制御部１３は、ステップＳ１２へ戻る。これに対して、学習終了条件に達した場合（ステップＳ１９：肯定）、対話制御部１３は、推定モデル３５の学習処理を終了する。

［対話制御処理手順］
　図７は、実施形態に係る対話装置による対話制御処理のフローチャートである。次に、図７を参照して、本実施形態に係る対話装置１による対話制御処理の流れを説明する。

　発話情報取得部１１及び対話制御部１３は、ユーザ発話の情報の入力を受ける（ステップＳ２１）。

　次に、発話情報取得部１１は、取得したユーザ発話に対して言語解析を実行する（ステップＳ２２）。その後、発話情報取得部１１は、ユーザ発話の解析結果を対話意図管理部１２へ出力する。

　対話制御部１３は、対話意図情報５２及び主体的結果情報５３を情報格納部１５から取得する（ステップＳ２３）。

　次に、対話制御部１３は、ユーザ発話、対話意図情報５２及び主体的結果情報５３推定モデルに入力する（ステップＳ２４）。

　次に、対話制御部１３は、推定モデルからの出力及び共通基盤情報５４を用いて、次の主体的な作業結果、次の相手の作業結果及び次のシステム発話の推定結果を取得する（ステップＳ２５）。

　そして、対話制御部１３は、推定された次の主体的な作業結果で主体的結果情報５３を更新する（ステップＳ２６）。

　次に、対話制御部１３は、共通基盤情報５４を更新する（ステップＳ２７）。

　次に、対話制御部１３は、次のシステム発話の推定結果を出力部１４へ出力する。出力部１４は、推定されたシステム発話を対話の相手の端末などに出力する（ステップＳ２８）。

　また、対話制御部１３は、共通基盤情報５４が初めて所定値を超えたか否かを判定する（ステップＳ２９）。共通基盤情報５４が初めて所定値を超えた場合（ステップＳ２９：肯定）、対話制御部１３は、対話を終了する方向へ導くための対話終了制御を追加する（ステップＳ３０）。その後、対話制御処理はステップＳ３１へ進む。

　これに対して、共通基盤情報５４が所定値を超えていないもしくは以前に所定値を超えていた場合（ステップＳ２９：否定）、対話制御処理はステップＳ３１へ進む。

　次に、対話制御部１３は、共同作業が終了したか否かを判定する（ステップＳ３１）。共同作業が終了していない場合（ステップＳ３１：否定）、対話制御処理は、ステップＳ２１へ戻る。これに対して、共同作業が終了した場合（ステップＳ３１：肯定）、対話制御部１３は、対話制御処理を終了する。

［対話制御処理による効果］
　以上に説明したように、本実施形態に係る対話装置１は、対話意図を把握し、主体的な作業結果及びユーザの発話から次の主体的な作業結果を推定して更新するとともに、次のシステム発話を推定して対話を行う。これにより、対話を用いた共同作業による課題をユーザと共に達成することが可能となる。すなわち、対話を通じてユーザとともに共通基盤を構築していき、それに基づいて対話を行う推定モデルの適切な構築が実現可能となる。また、複雑な内容を伴う対話は、その内容の理解を積み上げていくことが好ましい。この点、本実施形態に係る対話装置１は、共通基盤を構築しつつ自装置による理解にあたる主体的な作業結果を積み上げていくことができ、教育、議論又は交渉などといった種類のユーザとの高度な対話が可能なシステムを実現することが可能となる。

　ここで、本実施例では、２人の共同図形配置作業を例に説明したが、対話を通して共同して作業を行い特定の課題を解決する処理であれば、他の処理であってもよい。例えば、家具のレイアウトの決定処理などでも、本実施例に係る対話装置１により同様の効果を得ることが可能である。

［システム構成等］
　図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central　Processing　Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　また、上記の実施形態で述べた対話装置１の機能を実現するプログラムを所望の情報処理装置（コンピュータ）にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される上記のプログラムを情報処理装置に実行させることにより、情報処理装置を対話装置１として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistants）等がその範疇に含まれる。また、アラート検証装置１０を、クラウドサーバに実装してもよい。

　図８は、対話制御処理のための対話プログラムを実行するコンピュータの一例を示す図である。図８に示すように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１およびＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。ディスクドライブ１１００には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１１１０およびキーボード１１２０が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１１３０が接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、対話装置１と同等の機能を持つ対話装置１の各処理を規定するアラート検証プログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、対話装置１における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）やＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１　対話装置
　２　発話テキスト出力装置
　３　作業端末装置
　１１　発話情報取得部
　１２　対話意図管理部
　１３　対話制御部
　１４　出力部
　１５　情報格納部
　５１　共同作業コーパス
　５２　対話意図情報
　５３　主体的結果情報
　５４　共通基盤情報

Claims

　対話を通じて課題を達成するための共同作業を行う共同作業者の発話情報を取得する発話情報取得部と、
　複数名の作業者が対話を通じて前記共同作業を行うことで前記課題を達成するまでの途中過程の情報を取得し、前記発話情報取得部により取得された前記発話情報、前記途中過程の情報及び前記共同作業の自装置による中間結果を示す主体的結果情報を基に、推定モデルを用いてシステム発話を生成する対話制御部と、
　前記対話制御部により生成された前記システム発話を前記共同作業者に対して出力する出力部と
　を備えたことを特徴とする対話装置。
　前記途中過程の情報を基に、前記共同作業者との間の対話の対話意図を特定する対話意図管理部をさらに備え、
　前記対話制御部は、前記発話情報、前記対話意図管理部により特定された対話意図、及び前記主体的結果情報を基に、前記システム発話を生成する
　ことを特徴とする請求項１に記載の対話装置。
　前記対話制御部は、前記途中過程の情報を基に、前記発話情報及び前記主体的結果情報の訓練データを取得し、前記対話意図及び前記訓練データを用いて前記推定モデルを更新することを特徴とする請求項２に記載の対話装置。
　前記対話制御部は、前記発話情報、前記途中過程の情報及び前記主体的結果情報を基に、前記推定モデルを用いて次の主体的結果情報及び次の前記共同作業者の作業結果を推定し、推定結果を基に前記共同作業者との共通基盤を特定することを特徴とする請求項１～３のいずれか一つに記載の対話装置。
　前記対話制御部は、前記共同作業者との前記共通基盤を基に、前記システム発話を生成することを特徴とする請求項４に記載の対話装置。
　対話を通じて課題を達成するための共同作業を行う共同作業者の発話情報を取得する工程と、
　複数名の作業者が対話を通じて前記共同作業を行うことで前記課題を達成するまでの途中過程の情報を取得する工程と、
　前記発話情報、前記途中過程の情報及び前記共同作業の自装置による中間結果を示す主体的結果情報を基に、推定モデルを用いてシステム発話を生成する工程と、
　生成した前記システム発話を前記共同作業者に対して出力する工程と
　を備えたことを特徴とする対話制御方法。
　対話を通じて課題を達成するための共同作業を行う共同作業者の発話情報を取得し、
　複数名の作業者が対話を通じて前記共同作業を行うことで前記課題を達成するまでの途中過程の情報を取得し、
　前記発話情報、前記途中過程の情報及び前記共同作業の自装置による中間結果を示す主体的結果情報を基に、推定モデルを用いてシステム発話を生成し、
　生成した前記システム発話を前記共同作業者に対して出力する
　処理をコンピュータ実行させることを特徴とする対話プログラム。